大晓机器人董事长王晓刚：世界模型的未来走向

3月25日，多位来自北京和海南博鳌的记者前往采访，聚焦AI技术最新进展。大晓机器人董事长王晓刚作为核心发言人之一，详细阐述了商汤科技联合推出的“开悟世界模型3.0”，这款包含40亿参数的新模型并非简单附加运动接口，而是以物理因果律为基础，打破了“行为模仿”的旧有局限。这一研发思路在业内引起广泛关注。面对机器人不够聪明的现实困境，许多企业开始转向世界模型这一技术路线。宇树科技创始人王兴兴在3月中旬的英伟达GTC大会上明确表示，通往具身智能ChatGPT时刻的路径中，世界模型几乎看不到天花板。王晓刚进一步解释说，这种模型能让机器人像人类一样思考判断外部世界的物理规律。需要特别说明的是，具身智能领域的世界模型与李飞飞等学者所研究的产品不同，前者用于指导与物理世界交互，后者则侧重于视频生成和虚拟现实应用。过去一年里，VLA（视觉-语言-行动）模型曾是具身智能领域的主角。这种模型集成了感知、理解和动作生成能力，但被认为缺乏对物理世界的结构化理解。一些知名人士已公开指出VLA的局限性。王兴兴指出VLA模型存在泛化能力受限等瓶颈，天花板更低。英伟达机器人主管Jim Fan在2月初发文称，2025年具身智能行业由VLA主导，但2026年世界模型将成为基础。目前已有多家企业推出各自的世界模型。智元Genie业务部生态及解决方案总监沈咏剑透露，智元内部正在布局世界模型。他表示这一方向的重要性不亚于VLA。对于两种技术的未来走向，王晓刚认为短期内它们是相互协作的关系：世界模型先在“脑海”中预演各种情景，具体执行则交给VLA模型完成。宇树科技在招股书中提到公司采取了世界模型与VLA并行推行的策略。阿里巴巴达摩院、湖畔实验室和浙江大学在2025年6月发布的研究显示，将两者集成在一个框架中能显著提升性能。实验证明融合后的模型优于独立的动作模型和世界模型。至于技术落地难题，王兴兴认为视频生成模型在虚拟空间中效果极佳，但部署到机器人上时一毫米的偏差都可能导致巨大差异。王晓刚也提到训练VLA主要依赖昂贵的真机数据，而世界模型更多转向互联网上的图像和文字数据来学习物理规律。“但光读书还是不够。”王晓刚补充道，还需要获取人类真实环境交互的数据才能让机器做出最终决策。随着更多厂商拥抱世界模型，VLA何去何从？一位头部数据服务商的联合创始人向南都记者表示二者可能融合。这种整合有助于优化动作选择、提高任务成功率。尽管如此，业内尚未形成统一的技术范式，还需进一步探索和实践。