emu3 模型登上《自然》

我国多模态大模型研究最近取得了重大突破。智源研究院主导了这个项目，他们的Emu3模型登上了顶级期刊《自然》。这个模型把不同模态的信息，比如文本、图像、视频等，全都统一成了一个表示空间，只用一个Transformer架构就能处理。这样做让模型非常简洁强大，能在文生图、视觉问答、视频生成这些任务上表现得非常好，甚至能处理图文交错生成这样的复杂任务。Emu3还能拓展到机器人操作建模等场景，展示出了作为通用基础模型的潜力。智源研究院从2022年开始研发Emu系列模型，经历了持续的技术迭代。他们开放协作，把视觉分词器等关键技术开源给了全球社区。这个成果在科学层面论证了自回归范式的潜力，为全球AI基础理论发展提供了重要方向。应用层面上，Emu3为开发原生多模态智能助手奠定了理论基础，推动了人工智能与物理世界的深度融合。这次登上《自然》杂志，显示了我国在人工智能基础研究领域的自主创新能力提升。面对未来，我们期待更多中国科研团队坚持自主创新，产出更多原创成果，为全球科技进步贡献中国智慧与方案。2022年2月12日，中国北京智源人工智能研究院发布了关于Emu3模型的核心研究成果《通过预测下一个词元进行多模态学习》。这篇论文预计将在《自然》正刊上刊发。这个项目实现了我国在多模态大模型领域“顶刊”突破的零的迈进。