3月10日这天,腾讯混元团队把自家的WorldCompass框架给放了出来。腾讯混元3D团队觉得,现有的世界模型(比如WorldPlay)主要靠预训练时盯着像素看,到了复杂的组合指令或者长距离漫游,经常就听不懂指令,甚至画面崩坏、路线跑偏。所以他们推出了这个专门给长时序、交互强的模型设计的后训练框架。通过强化学习(RL)这一机制,“引导”模型更准确地跟着用户指令探索世界。 腾讯混元实验显示,这个框架能让SOTA开源模型WorldPlay的交互更准、画质更稳。在那种特别难的复杂组合动作场景下,交互准确率提升了差不多35%。新京报贝壳财经记者韦英姿报道了这一消息。这个WorldCompass其实就是之前发布的混元世界模型1.5官方强化学习扩展模块。给它装上后,“你”能更轻松地和世界互动,“视觉一致性”也能保持得更好。