中国汽车电子技术展览会
2025.10.28-30
深圳国际会展中心(宝安)

自动驾驶|理想汽车发布下一代自动驾驶架构MindVLA

2025年3月18日,理想汽车自动驾驶技术研发负责人贾鹏在NVIDIA GTC 2025上发表主题演讲,分享了理想汽车下一代自动驾驶技术MindVLA的最新进展。MindVLA是理想汽车全栈自研的机器人大模型,整合了空间智能、语言智能和行为智能,旨在将汽车从运输工具转变为具备人类认知和适应能力的智能体。

1.MindVLA:深度融合空间、语言及行为智能

MindVLA基于端到端+VLM双系统架构,赋予自动驾驶强大的3D空间理解、逻辑推理和行为生成能力。其核心在于通过3D空间编码器与语言模型结合,生成合理的驾驶决策,并通过Diffusion模型优化驾驶轨迹。所有推理过程均在车端实时运行,确保高效响应。

2.六大关键技术,树立全新技术范式

(1)3D高斯表征:利用3D高斯作为中间表征,提升多粒度、多尺度的3D几何表达能力,增强下游任务性能。

(2)LLM基座模型:采用MoE混合专家架构和稀疏注意力机制,确保模型规模增长的同时保持端侧推理效率。模型通过大量3D数据训练,具备空间理解和推理能力。

(3)快慢思考结合:模型能够自主切换快思考和慢思考,提升逻辑推理能力。

(4)Diffusion轨迹优化:通过自车行为生成和他车轨迹预测的联合建模,提升复杂交通环境中的博弈能力。采用常微分方程采样器,实现高效轨迹生成。

(5)世界模型:基于重建+生成的云端统一世界模型,构建接近真实世界的仿真环境,支持大规模闭环强化学习。

(6)泛化能力:通过创新性预训练和后训练方法,MindVLA不仅在驾驶场景表现优异,在室内环境也展示出适应性和延展性。

3.MindVLA赋能汽车变为专职司机,重塑用户体验

MindVLA将为用户带来全新体验,汽车将不再是单纯的驾驶工具,而是具备沟通和理解能力的智能体:

(1)听得懂:用户可通过语音指令改变车辆路线和行为。例如,在陌生园区寻找超市,车辆能自主漫游找到目的地。

(2)看得见:MindVLA具备强大的通识能力,能识别商店招牌,帮助用户在陌生地点找到车辆。

(3) 找得到:车辆可自主在地库、园区和公共道路上漫游,寻找车位并停车,整个过程不依赖地图或导航信息。

MindVLA不仅重新定义了自动驾驶,也为汽车行业和人工智能领域带来了新的可能性。理想汽车通过技术创新,连接物理世界和数字世界,致力于成为全球领先的人工智能企业。未来,MindVLA有望赋能多个行业,推动物理世界和数字世界的深度融合。

文章来源:智能汽车设计——微信公众号

中国汽车电子技术展览会