自动驾驶技术遭遇"认知瓶颈" 行业探索从数据驱动转向模型革新

问题：数据与算力增长，体验提升却放缓近年来，自动驾驶技术路线从模块化快速转向端到端，传感器更丰富、算力更强、软件栈更复杂，成为不少企业的共同选择。行业曾普遍认为，只要持续扩大数据规模、强化工程能力，系统表现就会稳步逼近人类驾驶。但GTC 2026的涉及的分享中，有从业者提出警示：在数据爆发、车队扩张的背景下，系统总体能力仍在提升，却出现“进步变慢”的趋势。一些企业进入“指标在涨、体验无明显变化”的阶段，尤其面对极端与复杂场景时，提升幅度不及预期。原因：开放世界“长尾”凸显模型容量与数据效率短板业内分析认为，上述瓶颈不只是工程投入问题，更像是模型能力与认知机制的结构性约束。一是模型容量与泛化能力承压。道路交通是高度开放的真实世界，突发横穿、异常驾驶、非结构化参与者等长尾场景并不少见，系统不仅要覆盖“常见分布”，还要在分布外情形下保持稳健。如果模型主要依赖对历史分布的记忆，遇到新组合或罕见事件时，失效风险会明显上升。二是数据效率偏低。车端每天产生海量视频与传感数据，但真正能推动模型学习的“关键片段”占比有限。大量正常行驶数据如果缺乏有效筛选与组织，训练收益可能被稀释。以规则和人工为主的传统筛选方式，也难以形成可持续、可扩展的积累机制。三是闭环迭代链条过长。数据采集、回传、清洗、训练、验证、部署周期较长，车队规模越大，迭代延迟越容易被放大，形成“数据很多、认知更新很慢”的矛盾，使系统对新问题的响应不够敏捷。影响：行业竞争从“工程堆叠”转向“模型能力” 这意味着，自动驾驶的竞争焦点正在从拼传感器数量、算力规模和功能叠加，转向更底层的模型架构与训练范式。能否把海量数据转化为可迁移的场景理解、因果推理与风险评估能力，将直接影响系统在长尾场景中的稳定性，也关系到量产后的安全边界、用户信任与监管评估。对企业而言，如果仍沿用“加数据、扩规模”的线性思路，边际收益可能继续下降；而建立更高效的认知更新机制，才更可能在体验与安全上实现阶段性突破。对策：以“建模世界”为核心，探索新训练与推理框架在大会相关讨论中，元戎启行分享了40B参数VLA模型的实践思路，引发关注。其核心方向是让模型从“输出动作”扩展为“理解并评估动作”，尝试同时承担驾驶执行、场景分析与行为评估等功能。在训练目标上，从以轨迹监督为主转向视频预测等方式，强调让模型学习物体运动、空间关系与因果逻辑，将重点从“模仿驾驶行为”转为“建模现实世界”。在中期训练中，通过多角色协同机制，让模型既能给出驾驶策略，也能对场景要点与行为优劣作出判断，增强内部一致性。同时引入自然语言描述任务，促使模型以可表达的方式组织推理链条，提升对复杂场景的解释与自检能力。推理阶段则以“观察—推理—执行”的流程组织决策，在输入与控制之间形成更清晰的中间推理层，降低“黑箱式反应”带来的不确定性。前景：认知升级或成破局关键，仍需安全验证与工程落地业内人士认为，面向量产与规模化应用，自动驾驶需要持续推进认知层面的升级：一上，通过更合适的预训练任务与数据组织方式，提升对长尾与突发事件的理解；另一方面，通过缩短闭环周期、完善评测体系，让模型改进更快反映到道路表现上。同时，新架构带来的算力开销、实时性要求、验证难度以及安全冗余设计，仍需在工程上系统解决。未来一段时间，“更强的模型能力”和“更严格的安全验证”可能将成为行业必须同时补齐的基本功，推动自动驾驶从能力展示走向可持续、可验证的规模应用。

自动驾驶的发展从来不是简单的“加法题”。当数据与算力的边际收益放缓，行业更需要在认知建模、学习效率与安全可验证性上做结构性升级。能否把真实世界的复杂性转化为模型可持续成长的能力，将决定下一阶段自动驾驶从技术演示走向规模可信应用的速度与上限。