博鳌论坛聚焦人形机器人“泛化短板”:数据采集转向真实场景,世界模型或成破局路径

问题——人形机器人为何“能动但不灵” 近年来,人形机器人行走、抓取、分拣等环节不断突破,应用试点加速落地,但在真实生产生活中仍常出现“换场景就失效、换物体就失准、换任务就卡壳”的情况;业界普遍认为,制约从“能演示”走向“能常用”的关键,是对开放环境的适应能力,即泛化能力不足。 原因——数据不足与模型路径依赖叠加 王晓刚在博鳌亚洲论坛2026年年会现场表示,造成泛化不足的原因集中在两端:一是数据,二是模型。 从数据看,过去较多依赖“人操控真机”采集训练数据。这种方式一上采集效率偏低,难以形成规模;另一方面数据来源往往脱离真实生产生活,覆盖面与多样性不足,导致机器人面对复杂环境时缺乏可迁移经验。据其介绍,过去数年积累的数据量约为10万小时,而面向更高水平智能所需的量级目标是“千万小时”,差距仍然明显。 从模型看,早期VLA等模型与具体机器人本体强涉及的,接收指令后直接输出本体控制参数,易在固定工位或单一流程中取得效果,但在跨场景、跨任务时难以保持稳定表现。目前此类模型更多能完成分拣、端放杯子等相对简单的任务,对物理规律、因果关系、行为逻辑的抽象理解仍显不足。 影响——从试点走向规模化应用的“门槛” 泛化能力不足直接影响人形机器人的规模化部署:其一,企业端导入成本上升,场景改造、重新标注与再训练周期拉长;其二,安全与可靠性风险增大,在人机共处环境中一旦出现误判,可能带来财产损失乃至人身风险;其三,产业协同效率受限,数据难共享、模型难迁移,容易形成“各自训练、重复投入”的碎片化格局。 对策——用“环境式采集”与“世界模型”补短板 针对数据瓶颈,王晓刚介绍,大晓机器人于2025年提出“环境式数据采集”思路:借助第一视角眼镜、穿戴式设备以及第三视角传感器,在真实工作与生活环境中记录人的自然行为轨迹与操作过程。该方式更贴近真实需求,且具备规模化潜力。例如让一线劳动者在日常作业中自然完成数据沉淀,若有1000人携带相关设备,一天可形成约1万小时的数据积累。 更重要的是,相较仅采集“某一台机器”的数据,“环境式采集”沉淀的是人的行为与环境交互信息,可在不同机器人本体之间复用,形成“一脑多形”的基础条件,降低更换机型、迁移场景所带来的重新采集与训练成本。 在模型层面,他提出引入“世界模型”路径,使机器人在与现实交互时能够更本质地理解物理规律与行为逻辑,从而具备更强的通用性与复杂任务处理能力。其判断是,未来世界模型与VLA等执行模型并非替代关系,而可能形成分工协同:世界模型负责面向复杂任务进行规划与预测,像“生成剧本”一样分解步骤;当进入具体、可执行的局部任务时,由VLA等模型完成快速执行;若执行过程中出现与预期不一致的情形,再由世界模型重新评估并调整计划,以提升鲁棒性。 前景——迈向“可用、好用、可靠”的关键仍在生态共建 业内观点认为,人形机器人走向普及,除技术突破外,还需同步推进数据治理与产业协作:一是完善真实场景数据采集的规范与隐私保护边界,建立可审计、可追溯的管理机制;二是推动数据与模型接口标准化,减少重复建设;三是加强算力、传感器与本体制造的协同优化,形成从“采集—训练—部署—反馈”的闭环迭代;四是把安全可靠作为底线指标,围绕人机共处、复杂环境操作建立更严格的测试与验证体系。

人形机器人技术的发展正处关键转折点。正如工业革命时期机械取代人力、信息革命时代计算机延伸人脑一样——提升机器人泛化能力的探索——可能推动智能时代迈出关键一步。这不仅需要技术创新,也需要产学界在标准制定、伦理规范各上联合推进。当机器真正学会“举一反三”,人机协作的智能化社会图景将更快走向现实。