博鳌论坛聚焦人形机器人“泛化短板”：数据采集转向真实场景，世界模型或成破局路径

问题——人形机器人为何“能动但不灵” 近年来，人形机器人行走、抓取、分拣等环节不断突破，应用试点加速落地，但在真实生产生活中仍常出现“换场景就失效、换物体就失准、换任务就卡壳”的情况；业界普遍认为，制约从“能演示”走向“能常用”的关键，是对开放环境的适应能力，即泛化能力不足。原因——数据不足与模型路径依赖叠加王晓刚在博鳌亚洲论坛2026年年会现场表示，造成泛化不足的原因集中在两端：一是数据，二是模型。从数据看，过去较多依赖“人操控真机”采集训练数据。这种方式一上采集效率偏低，难以形成规模；另一方面数据来源往往脱离真实生产生活，覆盖面与多样性不足，导致机器人面对复杂环境时缺乏可迁移经验。据其介绍，过去数年积累的数据量约为10万小时，而面向更高水平智能所需的量级目标是“千万小时”，差距仍然明显。从模型看，早期VLA等模型与具体机器人本体强涉及的，接收指令后直接输出本体控制参数，易在固定工位或单一流程中取得效果，但在跨场景、跨任务时难以保持稳定表现。目前此类模型更多能完成分拣、端放杯子等相对简单的任务，对物理规律、因果关系、行为逻辑的抽象理解仍显不足。影响——从试点走向规模化应用的“门槛” 泛化能力不足直接影响人形机器人的规模化部署：其一，企业端导入成本上升，场景改造、重新标注与再训练周期拉长；其二，安全与可靠性风险增大，在人机共处环境中一旦出现误判，可能带来财产损失乃至人身风险；其三，产业协同效率受限，数据难共享、模型难迁移，容易形成“各自训练、重复投入”的碎片化格局。对策——用“环境式采集”与“世界模型”补短板针对数据瓶颈，王晓刚介绍，大晓机器人于2025年提出“环境式数据采集”思路：借助第一视角眼镜、穿戴式设备以及第三视角传感器，在真实工作与生活环境中记录人的自然行为轨迹与操作过程。该方式更贴近真实需求，且具备规模化潜力。例如让一线劳动者在日常作业中自然完成数据沉淀，若有1000人携带相关设备，一天可形成约1万小时的数据积累。更重要的是，相较仅采集“某一台机器”的数据，“环境式采集”沉淀的是人的行为与环境交互信息，可在不同机器人本体之间复用，形成“一脑多形”的基础条件，降低更换机型、迁移场景所带来的重新采集与训练成本。在模型层面，他提出引入“世界模型”路径，使机器人在与现实交互时能够更本质地理解物理规律与行为逻辑，从而具备更强的通用性与复杂任务处理能力。其判断是，未来世界模型与VLA等执行模型并非替代关系，而可能形成分工协同：世界模型负责面向复杂任务进行规划与预测，像“生成剧本”一样分解步骤；当进入具体、可执行的局部任务时，由VLA等模型完成快速执行；若执行过程中出现与预期不一致的情形，再由世界模型重新评估并调整计划，以提升鲁棒性。前景——迈向“可用、好用、可靠”的关键仍在生态共建业内观点认为，人形机器人走向普及，除技术突破外，还需同步推进数据治理与产业协作：一是完善真实场景数据采集的规范与隐私保护边界，建立可审计、可追溯的管理机制；二是推动数据与模型接口标准化，减少重复建设；三是加强算力、传感器与本体制造的协同优化，形成从“采集—训练—部署—反馈”的闭环迭代；四是把安全可靠作为底线指标，围绕人机共处、复杂环境操作建立更严格的测试与验证体系。

人形机器人技术的发展正处关键转折点。正如工业革命时期机械取代人力、信息革命时代计算机延伸人脑一样——提升机器人泛化能力的探索——可能推动智能时代迈出关键一步。这不仅需要技术创新，也需要产学界在标准制定、伦理规范各上联合推进。当机器真正学会“举一反三”，人机协作的智能化社会图景将更快走向现实。