首页 EV新闻

自治类GPT&工具的调用-下｜盖世大学堂汽车大模型应用系列知识讲解

2025-02-20 16:42 来源: 盖世汽车作者: 陈琳铃

一、特斯拉自动驾驶技术架构解析

（一）图像输入到信号输出的复杂流程

特斯拉自动驾驶系统从图像原始输入到产生所需信号，是一个极为复杂的过程。以鱼眼相机采集的图像为例，由于其成像特点，图像存在畸变。因此，在处理流程的起始阶段，需要进行图像畸变矫正，这是确保后续处理准确性的基础步骤。

经过矫正的图像进入基础模型处理环节。在此环节，基于卷积神经网络（CNN）的相关原理，对图像包含的所有信息进行基本编码。这一编码过程能够提取图像的关键特征，为后续的处理提供基础数据。

感知融合是特斯拉自动驾驶技术的关键环节之一。它运用transformer机制，结合持续的信息，对一帧或过去几帧的图像路径进行拼接和整合。通过这一过程，模型能够掌握原始的时空信息，涵盖时间与空间维度，并且融合来自所有相机的信息。

在掌握原始信息后，模型进行反卷积操作。反卷积过程将经过压缩的信息展开，这一过程带有一定的预测性质。预测结果会生成三格类地图以及面向众包所需的NERF特征。这些数据不仅用于在云端重建周围场景，还能为障碍物识别、超声波避障以及道路坡度判断等功能提供支持。

高层处理阶段，基于之前形成的矢量信息，结合地面基本特征以及SD导航地图，生成前方可见性预测地图、车道拓扑关系等关键信息。至此，从原始图像输入开始，经过一系列复杂处理，最终形成了自动驾驶过程中所需的各种信号，这些信号构建起一个庞大的网络结构，为车辆的安全行驶提供全面的信息支持。

（二）4D标注与仿真软件的关键作用

4D标注在特斯拉自动驾驶技术中占据重要地位。它以clip为单位进行标注，一个clip通常包含45-60秒的所有传感器数据，是替代图像的最小标注单位。在鸟瞰视图（BEV）背景下，特斯拉采用多趟场景重建技术实现4D自动标注。这种标注方式能够获得伪真值，在很大程度上取代人工标注，大幅提高标注效率，仅需进行检查和补漏工作。然而，4D自动化标注对工程化要求极高，需要强大的技术实力和精确的算法支持。

自治类GPT&工具的调用-下｜盖世大学堂汽车大模型应用系列知识讲解

特斯拉的仿真软件同样表现卓越。它依据4D标注结果，结合地图信息和车辆信息，在游戏引擎中生成高度逼真的模拟场景。其生成的业务场景和仿真结果与真实情况极为相似，这不仅为自动驾驶模型的训练提供了丰富且高质量的样本，还成为特斯拉后续开展wordmodel研究的重要基础。通过在仿真软件中模拟各种复杂场景，能够有效训练规划模型，提升自动驾驶系统应对不同情况的能力。

（三）端到端大模型的发展与现状

端到端大模型是自动驾驶技术追求的重要目标。早期的端到端模型多采用简单的直接拟合图像输出控制方式，但实践证明这种方式效果不佳。随着技术的发展，当前主流的端到端模型引入了鸟瞰视图（BEV）、预测（Prediction）、规划（Plan）等具备“世界模型”特点的结构，显著提升了模型的可扩展性和鲁棒性。

自治类GPT&工具的调用-下｜盖世大学堂汽车大模型应用系列知识讲解

以特斯拉的FSDBeta V12和李弘扬团队提出的UniAD为代表，它们属于同一代端到端方案。这类方案并非完全摒弃上一代神经网络模型，而是对旧版本中各模块的小模型进行重组和再训练。其具有以下基本特点：一是维持智能驾驶大模块划分的基本逻辑，保证系统结构的稳定性；二是可以分开逐层进行训练，便于对每个模块进行精细优化；三是联合训练过程能够全局最优化各层共享，但该方案也存在一定缺陷，例如在处理未标注的感知要素（如水塘）时表现不佳。

FSDBeta V12作为特斯拉重要的升级版本，是有史以来第一个端到端AI自动驾驶系统。它在代码控制、摄像头拍摄速度和运行性能等方面都有显著改进。V12的C++代码控制减少了10倍，从2万多行降至2千行，8个摄像头以每秒36帧的速度拍摄，在车端100w功率、不联网且仅依赖GPS和导航地图的情况下，就能完成整个驾驶过程。其训练主要使用优秀司机的驾驶视频，通过海量数据筛选和标注，并在1万个H100的加持下完成训练。尽管如此，在低能见度驾驶条件下的应对能力仍有待提升，需要更多不同天气条件下的驾驶视频进行训练。

二、世界模型与自动驾驶技术的融合探索

（一）世界模型的概念与潜在价值

世界模型是当前自动驾驶技术研究中的热点方向。它具有强大的功能，不仅可以输出某些降维问题（如语义分割）的结果，还能支持上一代端到端模型的生产逻辑。从本质上讲，世界模型是对现实世界的一种模拟和理解，它能够学习到图像内容中各个物体的物理规律和相互关系。

自治类GPT&工具的调用-下｜盖世大学堂汽车大模型应用系列知识讲解

以语义分割任务为例，传统方法需要对不同道路区域进行细致的标注识别，而在世界模型中，通过其自身的学习机制，能够隐含地理解生成的视频内容中道路的位置和属性。这意味着世界模型在生成相关内容时，并非随意为之，而是考虑了物理规律和场景逻辑。

（二）世界模型对自动驾驶训练的优化

在自动驾驶训练过程中，世界模型具有显著的优化作用。传统的仿真软件在为强化学习提供训练数据时，往往面临一些问题。例如，对于路上可能出现的各种复杂情况，在仿真软件中只能通过人工添加信息来模拟，不仅成本高昂，而且难以覆盖所有情况。

而世界模型则可以通过语言性描述产生随机生成结果，以此测试当前规划算法的有效性。在处理水塘等难以描述的场景时，如果将整个系统构建成端到端模型并与世界模型交互，模型内部编码有可能隐含应对此类场景的策略。在训练过程中，这些场景相关的信息可能被模型内化，从而提升模型应对复杂场景的能力。

（三）迈向AGI的探索与挑战

实现具有通用人工智能（AGI）能力的自动驾驶模型是行业的终极目标之一。从当前的研究来看，具备AGI基本要求的模型设计方案具有以下特点：一是不分层整合感知与策略模型，打破传统的模块划分方式，实现更高效的信息处理；二是通过云端世界模型与价值函数相结合的方式进行训练，充分利用云端的强大计算能力和世界模型的模拟能力；三是能够处理水塘等不可描述但影响驾驶行为的场景，提高模型的泛化能力和应对复杂情况的能力。

然而，目前这一目标还远未实现。当模型达到理想状态时，车辆系统内部将形成一个纯粹的归纳性过程，具备平衡风险和收益的能力，以及向外释放差异的能力。但在实现过程中，面临诸多挑战，如模型的可靠性和成熟度有待提高，软硬件耦合需要进一步优化，以及如何确保模型在各种复杂情况下的安全性和稳定性等问题。尽管美国等国家在这方面投入大量研究，但目前仍未取得实质性突破，不过其发展潜力巨大，一旦成功实现，将对自动驾驶乃至整个机器人领域产生深远影响。

三、自动驾驶技术研发中的模型与数据问题（一）模型规模与计算资源的限制

在自动驾驶技术研发中，模型规模和计算资源是两个关键因素。从模型规模来看，目前量产的各类控制器在支持模型规模方面存在一定限制，一般可支持的量级在1-3亿左右，即使是有roadmap规划的产品，大多也处于这个量级范围。若要进一步提高模型规模，成本将成为主要制约因素。

在云端方面，尽管大模型发展迅速，但目前云端计算能力也存在上限。以ChatGPT为例，即使发展到4.5或5版本，其量级也难以大幅提升，因为GPU集群的数量受到带宽等因素的限制。在实际应用中，如特斯拉的Dojo超算中心，2022年拥有7360个A100GPU和数千块H100GPU，总算力达到180亿亿次/秒浮点运算。而Meta为训练下一代模型Llama3，计划在2024年底搭建近35万块H100的基础设施。这些数据表明，模型规模的扩大对计算资源的需求呈指数级增长，计算资源的限制成为制约模型发展的重要瓶颈。

自治类GPT&工具的调用-下｜盖世大学堂汽车大模型应用系列知识讲解

（二）数据量的需求与现状

数据量对于自动驾驶模型的训练至关重要。不同类型的业务和模型对数据量的要求差异较大。对于单模块的入门业务，一般至少需要10万级别的时序数据库；若要实现量产，单模块的数据量需达到100万以上10-60秒的Bag；而端到端模块对数据量的要求更高，至少需要1000万量级以上的数据，甚至按照特斯拉的经验，需要10亿级别的累计数据。

特斯拉在数据量方面具有显著优势，截至2022年，其车队已累计行驶约48亿公里，其中13亿英里是配备Autopilot硬件的汽车行驶所得。相比之下，国内厂商的数据量通常会小1-2个数量级。数据量的积累不仅需要大量的时间和资源，还涉及数据的清理、标注等配套服务，这进一步增加了数据处理的难度和成本。

（三）算力需求与供应的矛盾

随着模型规模和数据量的不断增加，对算力的需求也呈现爆发式增长。从市场规律来看，对算力的需求以非线性速度增长，然而GPU的供应量却无法满足这一需求，导致两者之间出现巨大差距。例如，英伟达的GPU在市场上处于供不应求的状态，即使像英伟达这样的行业巨头，也难以跟上市场对算力的疯狂需求。

在这种情况下，各方都在积极寻求解决方案。一方面，研究人员期望量子计算机能够取得实质性突破，以提供更强大的计算能力；另一方面，企业和研究机构不断优化现有计算资源的利用效率，探索新的计算架构和算法，以缓解算力供需矛盾。但目前来看，这一矛盾仍然是自动驾驶技术发展面临的重大挑战之一。

四、工程实践中的关键问题与应对策略

（一）基础设施与成本考量

在自动驾驶技术的工程实践中，基础设施建设和成本控制是不可忽视的重要因素。从硬件材料角度看，目前量产的控制器在支持能力和成本之间需要做出权衡。一般而言，现有控制器可支持的量级有限，若要提升支持能力，成本将显著增加。例如，更高性能的芯片可能会带来更高的功耗和成本，这对于大规模应用是一个巨大的挑战。

在云端计算方面，虽然云计算为模型训练提供了强大的支持，但成本同样高昂。搭建和维护超算中心需要巨额投资，且运行过程中的电力消耗、硬件更新等费用也不容忽视。不同企业的超算中心在算力、应用和成本方面存在差异，如特斯拉的Dojo超算中心具有较高的算力，主要应用于量产和端到端智驾以及大模型训练，投资近百亿级别；而小鹏的扶摇超级计算机算力为60亿亿次/秒浮点运算，主要用于量产和大模型训练，投资相对较低。

此外，模型训练的成本还体现在数据处理方面。数据的采集、标注和存储都需要耗费大量资源，尤其是在数据量需求巨大的情况下，成本压力更为明显。因此，在工程实践中，如何在保证技术性能的前提下，优化基础设施建设，降低成本，是企业需要解决的关键问题。

（二）云端工具链的发展与应用

云端工具链在自动驾驶技术研发中起着重要作用。随着技术的发展，云端工具链在平台层增加了大模型层，这为小业务提供了有力支持。例如，在一些AI应用中，通过部署本地的TB蓝马等模型，可以实现语音识别、数据检索等功能。在处理大量数据时，利用大模型对数据进行编码，能够更高效地检索到有价值的数据，提高数据处理效率。

然而，目前云端工具链在整体供应链体系中，除了平台层的变化外，其他部分与传统供应链体系差异不大。同时，云上成本较高，对于企业来说，在选择云端工具链时需要谨慎考虑成本效益。一般的量产项目，若涉及小模型，一个公司一年可能需要投入近100万成本；若为高阶大模型项目，成本则可能达到1000万量级。因此，企业需要根据自身业务需求和预算，合理选择和应用云端工具链，以实现资源的最优配置。

（三）闭环工具链的设计与优化

闭环工具链是自动驾驶工程实践中的核心环节，相较于模型本身，它对于量产项目更为重要。闭环工具链的核心在于挖掘与现实环境交互后的数据价值，通过不断迭代优化，提升系统性能。它涵盖低、中、高频三个维度。

自治类GPT&工具的调用-下｜盖世大学堂汽车大模型应用系列知识讲解

低频闭环主要针对硬件相关问题，例如用户反馈意见的处理。在整车架构中，用户反馈的问题若不能得到及时有效的处理，将影响用户体验。然而，在实际操作中，很多产品在处理用户反馈时缺乏闭环数据修正机制，导致问题无法得到根本解决。

中频闭环侧重于常规业务的标量信号处理，如对用户使用习惯的理解和问题统计。这一过程需要专门设计筛选器，形成垂类业务闭环，研发专家和标量闭环设计工程师在其中起着关键作用。

高频闭环主要涉及模型类训练，属于机器自行的业务闭环。在设计闭环工具链时，需要遵循“不表征业务的数据没有价值”和“不能从用户体验溯源的数据没有价值”的原则。这意味着数据收集和处理应紧密围绕业务需求和用户体验展开，避免收集大量无效数据，提高数据处理效率和质量。

特斯拉在闭环工具链设计方面有诸多实践，例如在影子模式和算法自评中设计了500多个触发器。这些触发器涵盖算法性能自评、人机决策差异和低频场景收集等多个方面，通过对这些触发点的监测和处理，能够及时发现系统中存在的问题，并针对性地进行优化，为自动驾驶系统的稳定运行提供保障。

五、数据闭环与模型训练的优化策略

（一）数据闭环的重要性与设计原则

数据闭环在自动驾驶技术中具有举足轻重的地位，它是确保模型不断优化和系统性能持续提升的关键。数据闭环的设计应遵循一定的原则，以实现数据的高效利用和系统的稳定发展。

首先，要明确数据的价值在于其对业务的表征能力。在数据收集过程中，不能盲目追求数据量，而应注重数据与业务的相关性。收集大量不表征业务的数据，不仅会增加数据处理成本，还可能干扰模型训练，导致模型性能下降。

其次，数据应能够从用户体验溯源。这意味着数据的收集和分析应紧密围绕用户的实际需求和使用体验展开。只有这样，才能确保通过数据闭环优化后的系统能够真正提升用户体验，满足用户的期望。

此外，闭环并非一个笼统的大闭环，而是由众多针对具体问题的小闭环组成。每个小闭环都应根据具体业务场景进行精心设计，以解决特定的问题。通过这种方式，可以提高闭环的针对性和有效性，更好地发挥数据闭环在系统优化中的作用。

（二）模型训练的层次化过程

模型训练是一个复杂的层次化过程，类似于人类的学习过程，可分为多个阶段。在初始化专项训练阶段，模型处于“入行萌新”状态，此时利用受控设备和小规模数据进行初步探索。通过对这些数据的标注和处理，形成初步的模型认知，如同学生在入门阶段接受老师的指导，学习基础知识。

随着模型的发展，进入到大规模用户环境下的数据收集阶段。在这个阶段，模型开始“行万里路”，从用户的实际使用中收集各种数据，尤其是与当前模型决策不一致的数据。通过对这些差异数据的收集和分析，模型能够进一步了解自身的不足，从而进行针对性的优化。

接下来是“读万卷书”阶段，模型借助模式识别技术，从更智能的模型或认知环境中获取数据，并对已有的数据进行加工处理。这一过程类似于人类通过阅读书籍获取知识，丰富自己的认知体系。

最后，当模型在现实环境中难以获取更多有效数据时，进入生成式模型阶段。此时，利用合成数据回灌到系统中，进一步生成所需的成果，提升模型的性能。这一过程如同学生通过反复练习和总结错题，不断强化自己的知识体系。

不同层次的模型训练对应着不同的能力水平，如学生从入门级的“老师给题自己做”，到普通级的“发挥题海战术后形成错题集并反复复习”，再到学霸级的“根据错题针对性搜集专项题库强化自己”，最终达到老师级别的“自己出题自己解题”。在自动驾驶模型训练中，无论模型规模大小，要实现量产，都需要经历这些阶段，每个阶段都不可或缺，且各阶段之间相互关联，共同推动模型的优化和发展。

（三）平衡数据质量、范围与成本

在数据闭环和模型训练过程中，平衡数据质量、数据范围和成本是至关重要的。数据质量直接影响模型的训练效果，高质量的数据能够使模型学习到更准确的特征和规律，从而提高模型的性能。然而，获取高质量数据往往需要较高的成本，例如通过人工标注真值系统来提高数据质量，但这会增加标注成本。

数据范围的扩大有助于模型学习到更广泛的场景和情况，提高模型的泛化能力。自动化技术在一定程度上可以扩大数据范围，降低标注压力，但无法直接提高数据质量。例如，通过用户筛选器采集和影子模式采集等方式，可以获取更多的数据，但这些数据的质量可能参差不齐。

自治类GPT&工具的调用-下｜盖世大学堂汽车大模型应用系列知识讲解