11月28日,中国教育和科研计算机网CERNET第二十八/二十九届学术年会在福州开幕。会上,清华大学计算机系教授唐杰作了题为《生成式人工智能大模型的现状和未来》的特邀报告,总结了人工智能大模型的发展历程,并对大模型的未来进行了展望。
唐杰 清华大学计算机系教授
2020年:大模型元年
唐杰表示,预训练大模型是新一代人工智能应用的基础设施。大模型通用能力强,可完成多场景任务。从2018年到现在,其趋势是由单模态向多模态发展,从文本逐步发展到视觉。
据唐杰介绍,Open AI引领了AGI(人工通用智能)的研究。2020年,GPT-3推出。GPT-3是跨时代意义的语言大模型,标志AI文本生成进入下一个阶段。因此,2020年可以称之为大模型元年。今年,GPT-4发布。与GPT-3.5相比,GPT-4的数学能力、微积分能力大大增强,开始具备逻辑推理能力、求解能力,并且走向了多模态,实现图像和文本输入。而GPT-4.5(AII Tools)具有很强的Agent(智能体)能力,融合多种工具的Agent形态,通过网页浏览、代码解释、文件解析、图片生成、图片理解,以及多工具结合,无需手动指定工具,能够自动触发。
唐杰表示,GPT-4/4.5的出现表明,我国在大模型上的研究还有空间,也需要继续努力。此外,目前来看,亟需建立以中文为核心的自研大模型。
大模型发展历程
唐杰认为,可以把GPT(生成式预训练Transformer模型)的发展分为三个阶段。第一阶段是“千亿基座模型”,相当于机器把世界上所有的书读了个遍,把知识都学会,但“饱读诗书”的大模型却未必会“考试”;第二阶段是“有监督指令微调”,相当于“教”大模型怎么“考试”,怎么回应痛点,怎样跟人类的思维方式对齐;第三阶段是“人类反馈强化学习”,将强化学习与人类反馈相结合,利用人类提供的反馈来指导大模型的行为。
为什么AGI会迎来爆发?唐杰进一步回顾了人工智能的发展历程。
他表示,人工智能的发展可以分为三个时期。第一个时期是“符号AI”,实现了知识的可搜索性,让计算机用描述语言把人类知识描述出来,这一阶段以各种“专家系统”为代表。第二个时期是“感知智能”,实现了知识的可计算性,大数据驱动的统计学习方法初步实现了针对文本、图像、语音等的感知与识别。第三个时期是“认知智能”,实现了认知的可计算性。中科院院士、清华大学教授张钹在2016年提出第三代人工智能雏形,DARPA(美国国防高级研究计划局)在2018年发布“AI Next”计划。核心思路是推进数据统计与知识推理融合的计算,与脑认知机理融合的计算。在此阶段,机器“认知”实现了元学习:自动学习认知目标。而目前急需的是高质量超大规模知识图谱(AI的基础设施)以及对超大规模数据的深度理解能力(面向认知的深度学习)。
解密大模型
2017~2018年,随着Transformer的诞生,语言模型规模迅速扩大。大模型的出现还带来了in-context能力(隐含模式迁移)。一方面,大规模模型算力需求迅速增长,单模型计算量每年增长10倍,形成新的“摩尔定律”;另一方面,机器智能的规模效应,拥有量变到质变的能力,在千亿稠密参数(~100B,或 1023FLOPS训练量)时模型能力开始出现“涌现”。
唐杰总结道,总的来说,大模型理论研究还明显落后于工程进展。我们在工程上看到了很多现象,但在理论上却解释得不够清楚。
为解密大模型,对标GPT系列模型,唐杰及团队推出了GLM系列模型。据唐杰介绍,GLM系列把千亿基座模型、有监督指令微调、人类反馈强化学习这三个阶段相对压缩了时间,并在算法方面进行了创新,提出“自回归填空”。2022年,在斯坦福大学大模型中心报告的世界主流大模型评测中,GLM-130B是亚洲唯一入选模型,其准确性、恶意性与GPT-3持平,鲁棒性和校准误差在所有模型中表现最佳。
2024年:AGI元年?
唐杰表示,对于未来AGI的走势,我们还面临很多挑战。首先,从工程角度看,Scaling(规模化)的尽头是AGI吗?一方面,真正的Scaling规模远超学术界想象。扩大规模不仅仅基于参数量,更多的是基于计算量。另一方面,Scaling仍有空间,单卡摩尔定律放缓,但系统角度仍在延续。
唐杰进一步表示,Scaling的真正极限,也许是AGI的一点曙光。未来更大的挑战是,人类的认知到底是怎样的?从人类大脑进化的历程来看,脑容量逐渐扩张,在此过程中人类实现了工具能力、语言能力等等,那么大模型的发展是否也可以遵循人脑进化的道路,慢慢发展出工具能力、语言能力和其他能力?从这一点看,AGI之路还很长。
据了解,日前,Open AI提出超级对齐(Superalignment)的概念。唐杰表示,Superalignment本质上就是超级智能与超级安全,是让AGI跟人类的价值观意识观对其,并且实现超过人类智能的智能。从这一点看,也许2024年将是AGI的元年。
(本文根据清华大学计算机系教授唐杰在CERNET第二十八/二十九届学术年会上的报告整理)