本文探讨了人工智能领域中的端到端技术及其进化过程,从端到端到VLA的演变,文章强调了理想在人工智能无人区中的勇敢探索,致力于突破技术瓶颈,推动人工智能的发展,这种探索不仅体现了技术的不断进步,也预示了人工智能未来的广阔前景。
时隔近半年,理想AI Talk第二季再次开启,聚焦理想VLA司机大模型的深度探讨,此次分享,技术架构的持续进化以及对AI的最新思考成为核心内容。 随着汽车行业的飞速发展,众多企业仍在苦苦寻找如何更好地理解和应对复杂语境,理想汽车已经迈出了重要的一步,成功跃迁至“人类智能”的新阶段,通过自研的VLA司机大模型,理想汽车赋予其如同人脑的机能——不仅能感知物理世界,更能深入理解并像人类一样执行复杂动作。 理想汽车的辅助驾驶系统进化之旅,可以类比昆虫、哺乳动物及人类的思考方式分为三个阶段,第一阶段是“昆虫动物智能”,主要依赖机器学习和规则算法来分段解决辅助驾驶问题,需要高精地图的引导,第二阶段为“哺乳动物智能”,尝试通过大模型学习人类驾驶行为,但受限于对物理世界的理解不够深入,视觉语言VLM模型成为关键,而现阶段,理想汽车已经迈向第三阶段——“人类智能”,在这一阶段,VLA大模型能够像人类一样观察世界,结合3D视觉和2D图像构建更真实的物理世界,正如理想汽车的创始人李想所说,“只有让技术变成真正的司机,它才能成为生产力工具,而不仅仅是辅助工具。” 理想辅助驾驶系统的跃迁,从“端到端+VLM双模型分立”向“VLA三位一体架构”的转变,突破了多模态协同效率和物理世界建模能力的双重瓶颈,理想汽车选择了一条前所未有的道路,这是一条DeepSeek、OpenAI、谷歌、Waymo等都没有走过的道路。 尽管AI系统在认知和能力的提升上远超过人类,其潜在应用令人期待,但也带来了治理和安全方面的挑战,对于理想汽车而言,他们追求的是有人类价值观的人工智能,这种价值观就像是给AI的边界线,要确保AI既有道德又有边界,在自动驾驶方面,他们努力让AI的表现与人类对齐。 理想汽车的VLA系统基于人类反馈的强化学习(RLHF),以人类是否接管作为反馈进行强化训练,努力与人类的驾驶表现对齐,在提升模型能力的同时,更注重模型的输出结果与人类的价值观保持一致,从驾驶体验上讲,这降低了用户的不安全感和陌生感。 理想VLA的出现,不仅为行业展示了实现全自动驾驶的一种可能方式,更是对人工智能时代出行工具的一次深度探索,虽然它可能不是最高效的方案,但这是一次对未来智能驾驶的全新尝试,真正的价值在于为用户创造价值,解决行业难以解决的问题。