roboscience 推出的具身世界模型,让机器人先进行“彩排”,就可以在行动前把未知的空间和物体运动

RoboScience推出的具身世界模型,让机器人先进行“彩排”,就可以在行动前把未知的空间和物体运动预演一遍。当机器人伸出机械臂,它其实是在赌一个结果:这一触碰是否安全,或者物体接下来会怎么动。如果机器人能够在动手前就预演互动过程,任务成功率和安全性就都能得到提升。3D动态世界模型把时间和空间都捕捉进去了,计算物体接下来的运动轨迹。机器人要先“看见”物体的形状、位置、速度还有加速度,再感知环境中的各种约束,然后推演下一步、下下一步……直到任务完成。这次推出的新模型其实给了物体一个“时间引擎”,让机器人拥有了一个可以无限重来的数字孪生场景。为了实现这个目标,RoboScience选择了第三条路:不再只用2D视频生成或者3D静态重建这些片面的方法,而是同时处理时间和空间信息。这样一来,“现在”和“未来”的变化就在连续的三维坐标系里被计算出来了。双引擎闭环让想象变成了行动:世界模型算出最优化的路径,操作模型把路径精确地翻译成电机指令。最后机器人回到真实世界,按照剧本把动作做出来。 RoboScience的大模型给行业带来了解决难题的新思路:2D像素方案只能绘制下一帧画面却不懂三维空间;3D静态重建方案虽然能还原房间结构却无法预测物体接下来会怎么动。具身世界模型与通用操作模型结合形成了VLOA大模型。 所以在这次发布中,“盲盒”变成了“剧本”,行业困局也有了解决方案:从“未知”变成“已知”的过程中,任务成功率与安全性就同步跃升了。这次的最新发布让机器人在数字孪生场景中试错无数次后再带着最优路径进入真实世界执行任务。这样一来,通用具身智能就不再只是一个概念图,而是能批量复制的“熟练工”。