李想：VLA模型将引领人工智能成为生产工具的新时代_硬件资讯

在5月7日晚的《理想AI Talk第二季》中，理想汽车董事长兼CEO李想分享了他对人工智能及其进化的深刻见解，特别是以VLA（视觉语言动作模型）为核心的司机大模型将如何引领人工智能进入一个全新的生产工具时代。李想表示，人工智能工具可分为信息工具、辅助工具和生产工具三个层级，而只有当人工智能转变为生产工具时，才是真正的爆发时刻。

他指出，判断一个智能体是否真正智能的关键在于其是否能够承担生产角色。“就像人类雇佣司机一样，人工智能也需要承担类似的职责，成为真正的生产工具。”李想的言论不仅反映了他对智能技术的未来乐观态度，也对现有技术的进步路径做出了清晰的阐释。

在理想汽车的实践中，VLA模型的推出标志着一个新阶段的开始。这一模型以“司机Agent”的形式呈现，允许用户通过自然语言与其进行互动。简单指令由端侧的VLA直接处理，而复杂任务则由云端的基础模型解析后再交由VLA执行。这种转变意味着用户与智能体之间的交流变得更加直观，智能体的决策能力也随之提升。

李想就辅助驾驶的问题表示了自己的看法，坚信的技术正处在“黎明前的黑暗”之中。他提到，从规则算法到端到端再到VLA的阶段性演进，公司已经迈出了至关重要的一步，尽管在此过程中会经历一定的挣扎和困难，但他看到未来的希望在不断增强。

VLA模型，即视觉语言动作模型，是由DeepMind于2023年首次提出的，旨在提升机器人与物理世界的交互能力。这一模型不仅具备解析文本和视觉数据的能力，还能够生成可执行的动作，使得人工智能能够更好地理解并适应复杂的环境。

与当前使用的关注图像和场景理解的VLM（视觉语言模型）相比，VLA模型的优势在于其端到端和多模态模型的结合。这一点对于智能驾驶意味着车辆能够直接根据环境感知生成运动规划和决策，从而接近于理想的“图像输入、控制输出”的状态。

李想的分析提出，VLA模型是端到端与VLM的结合，能够在更复杂的交通环境中表现得更加出色。例如，在面临复杂交通规则、潮汐车道和长时序推理等特殊场景时，VLA模型的表现将明显优于传统模型。

李想进一步阐明了VLA模型发展的过程，这并不是一次突变，而是不断演化的结果。从2021年开始，理想汽车依靠规则算法和高精地图实现辅助驾驶，进入“昆虫动物智能”阶段。自2023年起，在端到端与VLM的帮助下，逐步接近“哺乳动物智能”，而VLA模型的发展则标志着走向“人类智能”的阶段。

在技术的快速迭代中，也涌现出行业对VLA模型的期待。李想认为，VLA能够将AI转变为真正的司机，从而使其成为交通领域的专业生产工具。尽管在实现完全自动驾驶之前还需要许多技术难题待解，李想确信，VLA模型当前具备的能力是最强大的。

有关VLA模型面临的技术难题也备受关注。随着模型的复杂性增加，处理能力和实时反应时间的要求也随之水涨船高，理想汽车在这一领域的技术储备使其具备一定优势。李想特别强调，理想汽车在芯片、操作系统等方面都具备相应的技术能力，这为实现VLA模型提供了坚实基础。

李想的分析也反映出当前智能辅助驾驶行业的竞争态势。技术路径的快速迭代和升级迫使企业必须加强自身的基础能力，否则在市场激烈竞争中可能会被迅速淘汰。他指出，许多企业在应对规则算法时的基础不牢，导致后续的发展面临诸多挑战。

在此背景下，李想认为加强基本功的训练是企业应对未来挑战的关键，“在人工智能时代，基础能力的重要性更加凸显，无法被忽视。”

综上，李想关于VLA模型的深刻见解，展现了理想汽车在人工智能领域的前瞻性思考，也为我们理解人工智能的未来发展提供了新的视角。随着VLA模型的不断成熟，理想汽车有望在智能驾驶领域引领一场革命，为未来的出行方式带来全新的转变。