理想汽车发布新一代自动驾驶基础模型:统一“视觉-语言-行动”架构,迈向物理世界智能新阶段

(问题)随着辅助驾驶从高速、城市主干道向更复杂的城区道路、泊车与跨场景任务延伸,行业普遍面临“长尾场景”难覆盖、理解与决策链条割裂、系统升级成本高等难题:一方面,传统模块化方案极端天气、遮挡、异形交通参与者等情况下容易出现识别与决策不一致;另一上,功能叠加带来的软硬件成本与工程复杂度持续上升,如何安全可控前提下实现规模化落地,成为车企技术竞赛的关键; (原因)理想汽车基座模型负责人詹锟3月17日在英伟达GTC 2026主题演讲中指出,促成新一轮技术演进的核心动力来自两上:其一,用户规模扩大带来高频真实道路反馈,推动模型从“规则驱动”加速转向“数据与训练驱动”;其二,算力平台与车端芯片能力提升,使更大规模、统一架构的训练与部署成为可能。理想汽车披露,自2021年启动辅助驾驶自研以来,技术架构经历多轮迭代;2024年实现端到端视觉语言双系统架构量产交付,推动跨场景、跨任务理解能力提升;2025年更把空间理解、语言理解与行动决策纳入同一框架,形成“VLA司机大模型”并随产品推送。企业称,截至2025年底该模型月使用率达80%,VLA指令累计使用1225.4万次;春节期间辅助驾驶总里程达2.5亿公里,指令使用次数达130.3万次。上述数据为新一代基础模型训练与验证提供了更丰富的场景样本。 (影响)本次发布的MindVLA-o1,定位为面向物理世界任务的自动驾驶基础模型。理想汽车提出以原生多模态的混合专家Transformer为核心,通过五项技术创新提升能力边界:一是三维空间理解,以视觉为核心构建三维编码器,并引入激光雷达点云作为几何提示,强化对真实空间结构的把握;二是多模态推理,在语义与常识理解基础上引入预测式隐世界模型,通过分阶段训练在隐空间内高效推演未来情境,使决策更具前瞻性;三是统一行为生成,将理解、推理与动作输出在同一模型链路中闭合,减少模块间误差传递;四是闭环强化学习,通过“感知—决策—执行—反馈”闭环优化,提高在复杂交通互动中的稳定性;五是软硬件协同设计,面向车端部署进行系统级优化,力图在算力、时延与能耗约束下提升落地效率。业内人士认为,统一多模态架构若能在安全验证、工程可控与成本约束间取得平衡,将有助于提升复杂场景的一致性表现,并推动辅助驾驶从“功能堆叠”转向“能力底座”竞争。 (对策)在技术竞速之外,安全仍是产业底线。专家建议——面向更高阶辅助驾驶——企业需把安全设计贯穿“数据采集—训练评测—上线运营”全流程:一要完善数据治理与场景分层,针对易发风险场景建立可追溯的数据闭环;二要强化仿真与实车联合验证,形成覆盖长尾场景的分级评测体系;三要在量产部署中持续监测模型表现,建立快速回滚与灰度发布机制;四要加强用户使用边界提示与人机协同设计,避免能力误读引发安全风险。同时,监管与标准体系也需与技术进步同步完善,为道路测试、功能命名、数据合规与责任划分提供更清晰的制度框架。 (前景)从产业趋势看,自动驾驶正从“单点能力提升”走向“统一底座驱动”的阶段。MindVLA-o1提出的统一视觉、语言与行动思路,体现出把理解与行为生成纳入同一模型的探索方向。随着车端算力平台演进、数据规模持续扩大以及软硬件协同优化深入,未来基础模型或将成为车企在安全、体验与效率上的共同入口。但能否形成可复制的量产路径,关键仍在于:对真实世界不确定性的鲁棒性、对极端场景的可靠覆盖,以及对成本与能耗约束的提升。行业竞争预计将从参数规模转向“数据质量、闭环能力与工程落地”综合比拼。

自动驾驶技术的革新不仅是交通工具的智能化升级,更是人工智能赋能物理世界的重要一步。理想汽车通过MindVLA-o1展现了技术驱动的产业变革潜力。随着多模态智能模型的普及,人机协同将迈向更高水平,为发展注入新动力。