《自然》登上《自然》正刊，打破中国在《自然》上发大模型

在通往通用人工智能的路上，咱们中国又拿下了一个重大的成果。这回还是国内的研究机构带头，登上了国际顶尖学术期刊《自然》的正刊。事情发生在1月28日，北京智源人工智能研究院把他们关于多模态大模型Emu的研究论文发出去了，预计2月12日就能看到纸质版。这一下就打破了我国在《自然》上发大模型文章的记录。这不仅仅是荣誉，更是中国在人工智能领域原始创新能力的体现。自从2018年以来，“预测下一个词元”这种自回归技术在大型语言模型领域取得了巨大成功，像ChatGPT这样的生成式人工智能浪潮就被带起来了。大家都在讨论通用人工智能的早期形态。不过，这种在文本领域特别有效的方法，能不能扩展到视觉和听觉这些多模态复杂场景呢？以前都是用对比学习、扩散模型这些专门的方法来处理多模态问题。智源研究院的团队这次面对这个难题，提出了Emu模型。这个模型特别厉害的地方是，它能把图像、文本、视频这些不同的数据统一起来，放进同一个表示空间里。然后基于Transformer架构，用海量的混合模态数据进行端到端训练。它的目标就是最简单的“预测下一个词元”。实验结果显示，这个模型不仅能跨模态生成内容，还有很强的理解能力。它不仅能用来画图、做语言理解，甚至还能生成视频。跟那些用扩散模型的系统不一样，Emu是纯自回归生成方式，逐帧逐词地构建视频序列。而且它不仅能根据上下文预测未来帧的内容，还能根据文本指令生成高质量的视频。研究还发现了这个范式的潜力巨大。Emu可以用来做图文并茂的菜谱、甚至给机器人下达复杂操作指令。有了这么好的基础后，团队推出了悟界·Emu3.5模型。这个模型引入了大量长时序视频数据来训练，结果发现随着模型规模和数据量的增加，物理世界的建模能力也在提升。智源这次在《自然》上发表论文可是大事儿。它从原理上证明了自回归路线作为多模态学习基础范式的可行性。这意味着我们可能能找到一条统一架构和简洁目标的技术路径去发展通用人工智能。这一突破说明咱们中国新型研发机构一直在聚焦长远、潜心做基础研究。在这个前沿科技的“无人区”里勇于探索取得了标志性成果。这也预示着在通往通用人工智能的征程上可能会开辟出新天地。咱们给全球人工智能发展贡献了重要的中国智慧和中国方案！