我国机构主导多模态大模型成果登上《自然》正刊，自回归路线迈向统一范式

近年来，生成式人工智能技术快速发展，但多模态学习领域长期面临技术路线分散的挑战。

传统方法依赖对比学习、扩散模型等专门化方案，而自回归路线能否作为统一框架，一直是学界未解的难题。

智源研究院此次发布的Emu3模型，创新性地将图像、文本和视频统一离散化到同一表示空间，并采用单一Transformer架构进行联合训练。

研究证明，仅通过“预测下一个词元”的自回归方法，即可实现高水平的多模态生成与理解能力。

这一突破不仅解决了技术路线的统一性问题，更在多个任务中展现出与专用模型相当的性能。

在文生图任务中，Emu3达到扩散模型的生成水平；在视觉语言理解方面，其表现与融合CLIP和大语言模型的方案相当。

此外，Emu3还拓展至视频生成领域，通过纯自回归方式逐词元生成高保真视频，并支持上下文延展与未来预测。

其应用场景进一步覆盖视觉语言交错生成（如图文菜谱）和机器人操作建模，凸显了自回归路线的广泛适用性。

这一成果的取得，源于研究团队对自回归路线的深入探索。

2018年以来，自回归方法在语言模型领域取得重大突破，但其在多模态学习中的潜力尚未充分挖掘。

智源团队通过大规模数据训练和架构优化，成功验证了自回归路线的通用性，为多模态学习提供了新的技术路径。

展望未来，Emu3的升级版本Emu3.5已通过长时序视频训练，展现出对物理世界的建模能力。

随着模型与数据规模的扩大，多模态能力的涌现趋势为通用人工智能的发展提供了新思路。

这一研究不仅为学术界确立了自回归路线的地位，也为产业界的技术创新奠定了理论基础。

Emu3的成功研发与发表，反映了我国科研机构在人工智能基础理论研究中的创新能力和国际竞争力。

这项成果不仅解答了多模态学习中的关键科学问题，更重要的是为生成式人工智能的未来发展指明了方向。

随着自回归技术路线在多模态领域的进一步验证和应用，我们有理由相信，这一统一的技术框架将在更广泛的领域释放人工智能的潜能，为科技进步和社会发展做出更大贡献。