理想汽车发布新一代自动驾驶基础模型：统一“视觉-语言-行动”架构，迈向物理世界智能新阶段

（问题）随着辅助驾驶从高速、城市主干道向更复杂的城区道路、泊车与跨场景任务延伸，行业普遍面临“长尾场景”难覆盖、理解与决策链条割裂、系统升级成本高等难题：一方面，传统模块化方案极端天气、遮挡、异形交通参与者等情况下容易出现识别与决策不一致；另一上，功能叠加带来的软硬件成本与工程复杂度持续上升，如何安全可控前提下实现规模化落地，成为车企技术竞赛的关键；（原因）理想汽车基座模型负责人詹锟3月17日在英伟达GTC 2026主题演讲中指出，促成新一轮技术演进的核心动力来自两上：其一，用户规模扩大带来高频真实道路反馈，推动模型从“规则驱动”加速转向“数据与训练驱动”；其二，算力平台与车端芯片能力提升，使更大规模、统一架构的训练与部署成为可能。理想汽车披露，自2021年启动辅助驾驶自研以来，技术架构经历多轮迭代；2024年实现端到端视觉语言双系统架构量产交付，推动跨场景、跨任务理解能力提升；2025年更把空间理解、语言理解与行动决策纳入同一框架，形成“VLA司机大模型”并随产品推送。企业称，截至2025年底该模型月使用率达80%，VLA指令累计使用1225.4万次；春节期间辅助驾驶总里程达2.5亿公里，指令使用次数达130.3万次。上述数据为新一代基础模型训练与验证提供了更丰富的场景样本。（影响）本次发布的MindVLA-o1，定位为面向物理世界任务的自动驾驶基础模型。理想汽车提出以原生多模态的混合专家Transformer为核心，通过五项技术创新提升能力边界：一是三维空间理解，以视觉为核心构建三维编码器，并引入激光雷达点云作为几何提示，强化对真实空间结构的把握；二是多模态推理，在语义与常识理解基础上引入预测式隐世界模型，通过分阶段训练在隐空间内高效推演未来情境，使决策更具前瞻性；三是统一行为生成，将理解、推理与动作输出在同一模型链路中闭合，减少模块间误差传递；四是闭环强化学习，通过“感知—决策—执行—反馈”闭环优化，提高在复杂交通互动中的稳定性；五是软硬件协同设计，面向车端部署进行系统级优化，力图在算力、时延与能耗约束下提升落地效率。业内人士认为，统一多模态架构若能在安全验证、工程可控与成本约束间取得平衡，将有助于提升复杂场景的一致性表现，并推动辅助驾驶从“功能堆叠”转向“能力底座”竞争。（对策）在技术竞速之外，安全仍是产业底线。专家建议——面向更高阶辅助驾驶——企业需把安全设计贯穿“数据采集—训练评测—上线运营”全流程：一要完善数据治理与场景分层，针对易发风险场景建立可追溯的数据闭环；二要强化仿真与实车联合验证，形成覆盖长尾场景的分级评测体系；三要在量产部署中持续监测模型表现，建立快速回滚与灰度发布机制；四要加强用户使用边界提示与人机协同设计，避免能力误读引发安全风险。同时，监管与标准体系也需与技术进步同步完善，为道路测试、功能命名、数据合规与责任划分提供更清晰的制度框架。（前景）从产业趋势看，自动驾驶正从“单点能力提升”走向“统一底座驱动”的阶段。MindVLA-o1提出的统一视觉、语言与行动思路，体现出把理解与行为生成纳入同一模型的探索方向。随着车端算力平台演进、数据规模持续扩大以及软硬件协同优化深入，未来基础模型或将成为车企在安全、体验与效率上的共同入口。但能否形成可复制的量产路径，关键仍在于：对真实世界不确定性的鲁棒性、对极端场景的可靠覆盖，以及对成本与能耗约束的提升。行业竞争预计将从参数规模转向“数据质量、闭环能力与工程落地”综合比拼。

自动驾驶技术的革新不仅是交通工具的智能化升级，更是人工智能赋能物理世界的重要一步。理想汽车通过MindVLA-o1展现了技术驱动的产业变革潜力。随着多模态智能模型的普及，人机协同将迈向更高水平，为发展注入新动力。