自动驾驶|理想汽车发布下一代自动驾驶架构MindVLA

2025年3月18日，理想汽车自动驾驶技术研发负责人贾鹏在NVIDIA GTC 2025上发表主题演讲，分享了理想汽车下一代自动驾驶技术MindVLA的最新进展。MindVLA是理想汽车全栈自研的机器人大模型，整合了空间智能、语言智能和行为智能，旨在将汽车从运输工具转变为具备人类认知和适应能力的智能体。

1.MindVLA：深度融合空间、语言及行为智能

MindVLA基于端到端+VLM双系统架构，赋予自动驾驶强大的3D空间理解、逻辑推理和行为生成能力。其核心在于通过3D空间编码器与语言模型结合，生成合理的驾驶决策，并通过Diffusion模型优化驾驶轨迹。所有推理过程均在车端实时运行，确保高效响应。

2.六大关键技术，树立全新技术范式

（1）3D高斯表征：利用3D高斯作为中间表征，提升多粒度、多尺度的3D几何表达能力，增强下游任务性能。

（2）LLM基座模型：采用MoE混合专家架构和稀疏注意力机制，确保模型规模增长的同时保持端侧推理效率。模型通过大量3D数据训练，具备空间理解和推理能力。

（3）快慢思考结合：模型能够自主切换快思考和慢思考，提升逻辑推理能力。

（4）Diffusion轨迹优化：通过自车行为生成和他车轨迹预测的联合建模，提升复杂交通环境中的博弈能力。采用常微分方程采样器，实现高效轨迹生成。

（5）世界模型：基于重建+生成的云端统一世界模型，构建接近真实世界的仿真环境，支持大规模闭环强化学习。

（6）泛化能力：通过创新性预训练和后训练方法，MindVLA不仅在驾驶场景表现优异，在室内环境也展示出适应性和延展性。

3.MindVLA赋能汽车变为专职司机，重塑用户体验

MindVLA将为用户带来全新体验，汽车将不再是单纯的驾驶工具，而是具备沟通和理解能力的智能体：

（1）听得懂：用户可通过语音指令改变车辆路线和行为。例如，在陌生园区寻找超市，车辆能自主漫游找到目的地。

（2）看得见：MindVLA具备强大的通识能力，能识别商店招牌，帮助用户在陌生地点找到车辆。

（3）找得到：车辆可自主在地库、园区和公共道路上漫游，寻找车位并停车，整个过程不依赖地图或导航信息。

MindVLA不仅重新定义了自动驾驶，也为汽车行业和人工智能领域带来了新的可能性。理想汽车通过技术创新，连接物理世界和数字世界，致力于成为全球领先的人工智能企业。未来，MindVLA有望赋能多个行业，推动物理世界和数字世界的深度融合。

文章来源：智能汽车设计——微信公众号