nature：通用人工智能离现实可能就不远了

哇，2018年那会儿开始吧，那种用Next-token prediction也就是NTP来预测下一个词元的自回归路子，就在纯文本的语言模型领域引起了大轰动，比如说大家现在用的ChatGPT，直接把生成式AI这波浪潮给掀起来了。但是呢，这路子能不能用在图像、视频、文本这一堆乱七八糟的多模态信息上，一直是个大难题。以前大家搞多模态学习，不是用对比学习就是用扩散模型。直到智源研究院的人站出来了，他们搞出了一个叫“Emu3”的东西。这玩意儿最牛的地方就是把图像、文本、视频这些数据全部都统一离散化到了同一个表示空间里。然后啊，就直接用“预测下一个词元”这个目标，拿海量的多模态序列数据去训练了一个Transformer架构的模型。结果发现，就这么简单的一个架构，只要靠自回归预测任务，就能同时搞定内容生成和语义理解。这就意味着这个模型不管是生成图片还是理解图像描述，甚至还能做视频生成，都不需要换个模型或者专门设计啥。具体看效果吧，Emu3在生成图片这方面能和主流扩散模型比一比；在视觉语言理解上也不输融合了CLIP和大语言模型的方案；更绝的是它还能用纯自回归的方式生成视频。比如你给它个文本指令，它就能造出高保真度的视频来，这跟Sora那种用扩散模型的方式完全不一样。更厉害的是它通用性很强，能搞图文并茂的菜谱这些复杂任务。后来智源研究院又推出了“悟界·Emu3.5”，给它喂了很多长时序视频数据训练后发现啊，随着数据量变大模型对物理世界的建模能力也变强了。这种从“预测下一个词元”升级到“预测下一个状态”的做法，给通用人工智能AGI的发展指明了一条新路。这次他们的成果登上了Nature杂志正刊。这事儿发生在2月12日那天呢。这次不仅是咱们科研机构第一次在Nature正刊上挂名当第一作者的大模型成果，更是给咱们在多模态人工智能这块儿狠狠长长了脸。这成果证明了自回归路线有潜力成为统一多模态学习的基础范式。智源研究院的研究团队用这次工作证明了自己在“无人区”里的探索取得了很大进展。这说明咱们从以前的跟跑、并跑阶段开始迈向领跑的位置了。展望未来吧，随着框架越来越成熟优化通用人工智能离现实可能就不远了呢！