问题——具身智能进入“从能动到会做”的关键期,技术路线面临再选择; 近年来,机器人正从单一动作执行加速迈向复杂环境作业,对感知、理解、决策与控制的协同能力提出更高要求。行业曾一度以VLA模型为主流,通过视觉与语言输入生成动作策略,推动机器人实现“看懂—听懂—去做”。但真实物理世界中,机器人常常要面对光照变化、材质差异、摩擦与碰撞等复杂因素,VLA在跨场景泛化与稳定性上的不足逐渐暴露。因此,更强调对环境与物理规律建模的“世界模型”受到关注,成为创业公司与产业端的新发力点。 原因——物理可解释性与数据成本,推动世界模型“上桌”。 业内观点认为,世界模型的价值在于让机器人形成更接近人类的理解方式:不仅知道物体“是什么”,还要能判断“会怎样”“该怎么做”。在公开表述中,有企业负责人认为世界模型上限更高,可能成为通往具身智能的重要路径;也有研究者强调,世界模型的重点不在视频生成或虚拟现实,而在于用于指导机器人与物理环境互动,增强推理与规划能力。 从工程角度看,数据来源与训练成本也是重要推力。VLA模型往往依赖高质量真机数据——采集成本高、覆盖场景有限——且在真实环境中“试错”代价较大。世界模型则更倾向于利用互联网上海量图像、文字等多模态数据,将人类经验与常识规律转化为可学习的表示与预测能力,从“理解”和“规划”层面补足短板。同时,一些企业推出并开源有关模型版本,强调以物理规律为基础,试图突破传统行为模仿的瓶颈,深入抬升了产业侧对世界模型的关注度。 影响——行业竞争从“模型能力”转向“可靠落地”,生态格局或重塑。 技术路线变化正在影响企业研发节奏与产品策略。一上,更多机器人制造商把世界模型纳入研发主线,期待其复杂操作、连续任务、跨场景迁移诸上带来提升,从而进入工业、仓储、家庭服务等更广阔市场。另一方面,VLA并未“退场”。在不少任务中,VLA在端到端控制、快速决策与实时响应上仍有优势,尤其在结构化环境与特定工艺流程中,依然能形成可用产品。 同时也要看到,世界模型落地门槛并不低。业内普遍认为,机器人系统对误差高度敏感,预测中的细微偏差可能在执行阶段被放大,造成抓取失败、姿态不稳甚至安全风险。这意味着世界模型不仅要“懂物理”,还要在感知精度、时序预测、控制闭环、仿真到现实迁移等环节达到工程级可靠性。对企业而言,竞争重点正从“演示效果”转向“长期稳定运行”,从“单点突破”转向“系统协同”。 对策——并行推进与融合探索成为共识,标准与评测亟待完善。 面对不确定性,行业策略更趋务实:一是两条路线并行推进,保留研发弹性。部分企业同时投入VLA与世界模型,以适配不同场景需求与技术演进节奏。二是加速融合架构探索,让VLA“能做事”,让世界模型“更懂事”。业内人士提出,未来可由世界模型提供物理理解与长期规划,再由VLA完成动作选择与执行优化,以提高成功率与鲁棒性。相关机构也在推进融合框架研究,希望在数据效率、泛化能力与执行稳定性之间取得更好的平衡。 与此同时,行业仍缺少统一的技术标准与可比评测体系。世界模型与VLA的能力边界、数据规范、安全要求、场景覆盖与成本指标等,仍需要在更多真实应用中形成共识。建立面向工业与服务场景的通用评测体系与安全底线,将成为下一阶段推动产业健康发展的关键基础设施。 前景——短期分化、中期融合、长期走向“物理智能”系统化能力。 整体趋势显示,具身智能正从“单模型竞争”走向“系统能力竞争”。未来一到两年,VLA可能仍会在部分产品化场景保持优势;同时,世界模型的工程化成熟度将决定其能否在更广泛场景实现规模应用。更长周期内,两者融合有望成为主流:用世界模型增强理解与规划,用VLA提升执行效率,并配合高质量数据闭环、仿真平台与安全机制,推动机器人从“可用”走向“好用、耐用、可信”。在政策、资本与产业需求共同作用下,具身智能或将加速从实验室走向产业链深水区。
技术路线的更迭从来不是“非此即彼”;世界模型提供更深的物理理解愿景,VLA沉淀了面向任务的工程经验。具身智能要走向规模应用,关键在于以更严格的可靠性验证、更开放的生态协作和更清晰的标准体系,把“看得懂、想得明白、做得稳当”统一起来。未来的竞争,最终取决于谁能把模型能力转化为可持续的产业能力。