智源研究院验证AGI新路线，发布原生多模态世界模型

界面新闻记者 | 伍洋宇
界面新闻编辑 | 宋佳楠

在近期的大模型领域，已经很久没有公司高调谈论对AGI（通用人工智能）的理想。而智源研究院的一个新动作，将这个终极目标重新拉回到聚光灯下。

10月21日，智源研究院发布原生多模态世界模型Emu3，称该模型实现了视频、图像、文本三种模态的统一理解与生成。

在图像生成任务中，Emu3的人类评估得分高于Stable Diffusion的两个版本SD-1.5与SDXL。针对视觉语言理解任务，Emu3的12项基准测试的平均得分略高于微软研究院联合多所高校研发的多模态大模型LlaVA-1.6。视频生成任务方面，Emu3的VBench基准测试得分略高于OpenSora 1.2。从语言能力角度看，它的水平大概处于GPT-3.5。

这是国内大模型领域第一次对上述命题作答，意味着世界模型路径下的AGI进程向前迈进了一小步。

AGI素来有路线之争。在已经显现的争论中，一派观点相信，只有语言智能才能实现，另一派则认为，这绕不开多模态的理解与生成统一。在此之后，行业可以达到世界模型，并进一步抵达AGI。

世界模型是一种能够对环境或世界的状态进行表征，并预测状态之间转移的模型。它使智能体（Agent）能够在模拟环境中进行学习，并将学到的策略迁移到真实世界中，从而提高学习效率并减少风险，这对视频生成、自动驾驶以及智能体的发展至关重要。

这条路径得到不少企业、机构以及知名学者的支持。图灵奖得主、Meta首席AI科学家杨立昆（Yann Lecun）曾在演讲中多次表示对世界模型潜力的关注，并预言世界模型将会成为新一代智能系统的基础。

而作为世界模型的前提，多模态大模型的理解与生成统一是一道重要技术门槛。

据智源研究院院长王仲远介绍，多模态大模型此前的主流技术架构处于发散状态，例如生成任务以扩散模型（例如Stable Diffusion）为主，理解任务以组合式方法（例如大语言模型+CLIP视觉编码器）为主。

在这些路线中，“原生”多模态大模型并没有被建立，仍是以语言模型为核心，将视觉等信号映射到语言模型上。而如果要让一个模型进入物理世界，完成感知、理解、推理与生成等任务，过于复杂的模型架构会降低其可靠性。

因此，理解与生成统一的原生多模态大模型，成为业界和学界共同探索的一道命题，智源研究院也是赶考人之一。

据王仲远介绍，Emu3实现多模态理解与生成统一的核心技术范式是“基于下一个token预测”，本质是将图像、文本和视频编码为一个离散空间，在多模态混合序列上从头开始联合训练一个Transformer。

王仲远指出，“基于下一个token预测”被认为是AGI的通路之一，但还没有在多模态任务中被证明过。Emu3证明了下一个token预测能在多模态任务中有高性能的表现，有机会将其基础设施建设收敛到一条技术路线上。

在大语言模型的预训练阶段，Scaling Law（规模法则）已经处在是否失效的争论中，但就多模态大模型的性能提升而言，王仲远认为还是一个“远没有打开”的状态。事实上，后者依旧基本上遵循Scaling Law，效果随着数据量和参数量的扩大而提升。

多模态大模型的下一步与大语言模型类似，将不断挑战千亿参数乃至万亿参数。并且，当前的多模态大模型也是稠密模型（Dense Model），它同样可以在下一阶段转向MoE（Mixture of Experts/混合专家模型）架构，以获得更快的理解与生成速度。

“所有在大语言模型上可能发生的路径发展趋势，在多模态大模型上都可以进一步得到验证。”不过王仲远预估，在可见的未来，Scaling Up的瓶颈可能会率先出现在算力上。

尽管AGI路径还没有形成共识，但智源研究院的选择已经很明确。王仲远对界面新闻记者表示，团队在语言模型上的投入将仅限于“解决共性问题”的部分，其余的研究资源将集中向多模态大模型进行倾斜。

至于为什么决定走上多模态理解与生成统一的路径，王仲远认为，智源的出发点还是在于定位“原始创新”，因为对现状不满足，所以必须要做下一代的探索。

虽已押注在当前道路，王仲远并不认可技术路线已经出现分水岭，“从产业界的资源投入上来看是可以看到的，但从技术研究路线上来说，永远都有争议。”

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30