腾讯混元团队把自家的worldcompass 框架放了出来

3月10日这天，腾讯混元团队把自家的WorldCompass框架给放了出来。腾讯混元3D团队觉得，现有的世界模型（比如WorldPlay）主要靠预训练时盯着像素看，到了复杂的组合指令或者长距离漫游，经常就听不懂指令，甚至画面崩坏、路线跑偏。所以他们推出了这个专门给长时序、交互强的模型设计的后训练框架。通过强化学习（RL）这一机制，“引导”模型更准确地跟着用户指令探索世界。腾讯混元实验显示，这个框架能让SOTA开源模型WorldPlay的交互更准、画质更稳。在那种特别难的复杂组合动作场景下，交互准确率提升了差不多35%。新京报贝壳财经记者韦英姿报道了这一消息。这个WorldCompass其实就是之前发布的混元世界模型1.5官方强化学习扩展模块。给它装上后，“你”能更轻松地和世界互动，“视觉一致性”也能保持得更好。