3月25日,多位来自北京和海南博鳌的记者前往采访,聚焦AI技术最新进展。大晓机器人董事长王晓刚作为核心发言人之一,详细阐述了商汤科技联合推出的“开悟世界模型3.0”,这款包含40亿参数的新模型并非简单附加运动接口,而是以物理因果律为基础,打破了“行为模仿”的旧有局限。这一研发思路在业内引起广泛关注。 面对机器人不够聪明的现实困境,许多企业开始转向世界模型这一技术路线。宇树科技创始人王兴兴在3月中旬的英伟达GTC大会上明确表示,通往具身智能ChatGPT时刻的路径中,世界模型几乎看不到天花板。王晓刚进一步解释说,这种模型能让机器人像人类一样思考判断外部世界的物理规律。需要特别说明的是,具身智能领域的世界模型与李飞飞等学者所研究的产品不同,前者用于指导与物理世界交互,后者则侧重于视频生成和虚拟现实应用。 过去一年里,VLA(视觉-语言-行动)模型曾是具身智能领域的主角。这种模型集成了感知、理解和动作生成能力,但被认为缺乏对物理世界的结构化理解。一些知名人士已公开指出VLA的局限性。王兴兴指出VLA模型存在泛化能力受限等瓶颈,天花板更低。英伟达机器人主管Jim Fan在2月初发文称,2025年具身智能行业由VLA主导,但2026年世界模型将成为基础。 目前已有多家企业推出各自的世界模型。智元Genie业务部生态及解决方案总监沈咏剑透露,智元内部正在布局世界模型。他表示这一方向的重要性不亚于VLA。对于两种技术的未来走向,王晓刚认为短期内它们是相互协作的关系:世界模型先在“脑海”中预演各种情景,具体执行则交给VLA模型完成。 宇树科技在招股书中提到公司采取了世界模型与VLA并行推行的策略。阿里巴巴达摩院、湖畔实验室和浙江大学在2025年6月发布的研究显示,将两者集成在一个框架中能显著提升性能。实验证明融合后的模型优于独立的动作模型和世界模型。 至于技术落地难题,王兴兴认为视频生成模型在虚拟空间中效果极佳,但部署到机器人上时一毫米的偏差都可能导致巨大差异。王晓刚也提到训练VLA主要依赖昂贵的真机数据,而世界模型更多转向互联网上的图像和文字数据来学习物理规律。“但光读书还是不够。”王晓刚补充道,还需要获取人类真实环境交互的数据才能让机器做出最终决策。 随着更多厂商拥抱世界模型,VLA何去何从?一位头部数据服务商的联合创始人向南都记者表示二者可能融合。这种整合有助于优化动作选择、提高任务成功率。尽管如此,业内尚未形成统一的技术范式,还需进一步探索和实践。