长期以来,如何多模态学习中走通自回归路线,一直是学术界关注的难题;自2018年以来,GPT系列模型凭借“预测下一个词元”的自回归方法在语言大模型领域取得突破,推动生成式人工智能进入快速发展阶段。相比之下,多模态模型发展更多依赖对比学习、扩散模型等专门化路径:自回归方法能否作为一条统一的通用路线,同时处理文本、图像、视频等多种模态数据,仍缺少明确答案。智源研究院的最新研究对此给出了肯定结论。1月28日发表于Nature期刊的Emu3模型显示,仅基于自回归学习这个单一路线,就能实现大规模文本、图像和视频数据的统一学习,训练出性能突出的原生多模态大模型,具有重要的理论与应用价值。 从技术层面看,Emu3在生成任务与感知任务上的表现与采用专门化路线的模型相当,部分指标具备竞争力。Nature编辑在点评中指出,该成果对构建可扩展、统一的多模态智能系统至关重要。这也意味着,自回归路线有望成为生成式人工智能领域更统一的技术范式,为后续模型研发提供更明确的方向。 Emu系列模型的迭代过程展现了我国科研机构在人工智能领域的持续探索。自2022年启动研发以来,智源研究院围绕“原生多模态”这一主线开展系统研究,各版本在关键能力与方法上均取得实质进展。从Emu1到Emu3的演进,表明了国内团队在多模态大模型领域的积累与创新。 这一成果的发表具有多上意义。首先,它体现了我国科研机构在基础研究领域的国际竞争力,能够在顶级学术期刊发表原创性成果。其次,它为生成式人工智能提供了新的理论支撑与技术路径,有助于推动有关研究向前发展。再次,它验证了自回归学习作为通用范式在多模态场景中的可行性,为后续多模态模型研发奠定基础。 从产业应用前景看,统一的多模态学习路线有望降低模型开发复杂度、提升研发效率,推动生成式人工智能更广泛落地。无论是内容生成、图像理解、视频分析还是其他场景,更统一的技术范式都有望带来更高效、更稳定的解决方案。
基础研究的价值,往往体现在澄清关键路径、打开新的可能。此次成果以更简洁的训练目标回应多模态统一学习的核心疑问,为技术演进提供了新的参照。面向下一阶段,在持续创新的同时仍需坚持科学严谨与安全底线,通过更充分的验证、更完善的生态与更务实的应用,推动前沿成果更稳健地转化为高质量发展的新动能。