行业专家预判:具身智能技术突破仍需两到三年 泛化能力与数据短板成关键挑战

问题——具身智能被认为是打通“感知—决策—行动”的重要方向;近几年资本和产业加快投入,但距离可大规模复制的通用能力仍有明显差距。王兴兴指出,行业还没迎来具身智能的“GPT时刻”。按他的定义,这个时刻意味着:把机器人带到完全陌生的新场景,只需给出简短的语言或文字指令,机器人不需要额外编程或重新训练,就能自主完成约八到九成任务。对产业来说,这标志着从“能演示”走向“真通用”的关键一步。 原因——业内的主要卡点集中三上:第一,模型对真实世界的泛化能力不足。现实环境里光照变化、物体遮挡、地面摩擦差异、多人协作等非结构化因素很多,任何小扰动都可能让动作链条中断。第二,数据供给存结构性短缺。不同于互联网文本可低成本规模化获取,机器人数据多来自真实操作、传感器采集和安全可控的实验流程,成本高、周期长;同时数据分布容易受场景限制,难以覆盖“长尾任务”。第三,强化学习等方法在机器人落地上仍受训练效率、安全约束和算力成本影响,“仿真到现实”的差距也让规模化训练的收益难以稳定放大。 影响——这些瓶颈直接影响技术扩散和商业化节奏。一上,企业落地更依赖定制方案,部署前的场景改造、流程固化和工程调参占比偏高,抬高了复制成本。另一方面,公众对机器人“通用性”的期待与产品实际能力仍有差距,产业需要在可控边界内进行,避免用短期演示替代长期能力建设。对制造、物流、巡检、服务等领域来说,具身智能的价值依然明确,但从试点到规模应用仍需要更扎实的可靠性与安全性验证。 对策——围绕数据与能力闭环建设被视为破局方向。王兴兴表示,宇树科技正在搭建全身遥操作系统,并规划大规模机器人数据采集,以缓解数据稀缺和分布单一的问题。业内观点认为,遥操作与半自动采集能在保证安全的前提下更快获得高质量交互数据,形成“数据—训练—验证—迭代”的持续循环;同时,通过多传感器融合、层级控制、任务分解等工程路径,可在通用能力尚未完全到位前,先把关键环节的鲁棒性做扎实。产业端也需要推进数据标准、评测体系和安全规范,为跨平台复用与规模部署打基础。 前景——关于“GPT时刻”的时间表,王兴兴预计还需要两到三年,并表示节奏仍受技术路线、数据规模与产业协同等因素影响。结合行业进展,未来两三年具身智能有望在三条路径上取得突破:一是以数据驱动提升泛化能力,在更多陌生场景实现稳定操作;二是强化学习、模仿学习等方法在效率与安全边界上持续改进,推动从单任务走向多任务;三是从单机智能走向系统智能,与产线、仓储、楼宇等基础设施更深度耦合,形成可复制的行业解决方案。随着成本下降与供给体系完善,具身智能的落地范围预计将从“封闭场景优先”逐步扩展到“半开放场景”,并在高频、强约束任务中率先形成规模效应。

具身智能的突破不是单点技术的偶然跃迁,而是数据、算法、硬件与工程体系共同推进的结果。客观看待阶段性边界、持续补齐基础能力,既关系企业节奏与落地质量,也决定产业能否走向成熟并实现规模应用。未来两到三年的窗口期既充满压力,也将检验技术迭代速度与产业组织能力。