埃默伊,这个项目由北京智源人工智能研究院牵头完成的研究成果首次刊登在《自然》杂志正刊上。你可能觉得AI只是个聊天工具或者画画机器,甚至还能跳个舞,可你有没有想过,驱动这些行为的到底是几套完全不同的系统,还是同一个“大脑”在施展多种功能?这次的重大突破给真正“看得清、想得通、做得稳”的通用人工智能指明了方向。2018年的时候,美国OpenAI公司就已经通过“预测下一词”的路子训练出了GPT模型,并在2022年推出了ChatGPT。黄铁军教授带领团队觉得这个架构不仅能用在语言上,还能扩展到图片和视频这些数据中去。研究团队打造的智源Emu模型就是一个“通才”。你给它一段文字描述,它就能生成详细的图像;给它一张照片和问题,它也能结合视觉信息来回答。甚至还能生成连贯的视频片段。升级版的Emu3.5加入了大规模长时序视频训练后,让模型开始学会世界随时间变化的规律。这次的实验把多模态模型中的“理解”和“生成”这两种能力在同一个简单的框架里给打通了。晋浩天记者在北京发回报道称,这说明人类已经找到了让不同智能在同一个体系里涌现的办法。