大模型技术助力自动驾驶领域迈向新突破
摘要:“自动驾驶的前提是安全与严谨,大模型给出'差不多'的结果是不行的。”
图片|Photo by Shubham Dhage on Unsplash
©自象限原创
作者|罗辑
编辑|程心
“自动驾驶的前提是安全与严谨,大模型给出'差不多'的结果是不行的。”
在今年4月初,大模型刚刚问世时,一位自动驾驶领域的资深投资人向「自象限」表达了,他对通用大模型应用在自动驾驶领域的担忧。
不被看好的原因有很多,比如大模型“胡说八道”的问题,导致大家认为它达不到自动驾驶的安全等级要求;比如大家认为大模型解决的是共性推演的问题,但自动驾驶解决的0.5%的corner case;再比如大模型要在车端落地,需要与结合前融合算法,对前端算力的要求会很高。
总而言之,通用大模型的不确定性和自动驾驶的严谨性像一个硬币的两面,落地上也面临着几座短期内难以翻越的大山。“这会是整个体系建设的问题,不是角度算法可以改变的。”这位投资人如此总结道。
尽管不被看好,但6个月过后,大模型还是以一种蛮横的方式冲进了自动驾驶行业。
打响第一枪的,仍然是特斯拉。今年8月,特斯拉端到端AI自动驾驶系统FSD Beta V12首次公开亮相,完全依靠车载摄像头和神经网络来识别道路和交通情况,并做出相应的决策。国内,自动驾驶和大模型公司都开始紧锣密鼓的布局,9月,华为盘古大模型3.0推出了自动驾驶行业大模型;10月,在毫末第九届AI Day中,也讲解了其身处自动驾驶领域对大模型的一系列探索。
从结果来看,目前大模型对自动驾驶的改变分为两个方向:一是大模型作为工具,辅助自动驾驶算法的训练,优化过程;二是大模型作为决策模型,直接驾驶车辆,改变结果。
透过国内外的探索,这条看似相悖的技术路径似乎开始一步步清晰,那么大模型究竟能给自动驾驶带来了什么?核心的技术难题又该如何解决?
大模型,更换自动驾驶训练引擎
首先,大模型正在重塑自动驾驶的训练过程。
从大模型被讨论的第一天开始,从文本到图片生成,大家就深刻意识到大模型在提高工作效率上的巨大潜力。这一点,在自动驾驶训练上也不例外。
训练自动驾驶算法,是一个漫长而庞大的工程,从数据采集、传输、管理;到数据清洗、标注、准备,到最后投入到训练自动驾驶算法的熔炉当中,中间会涉及到数十个环节。
而如今困扰自动驾驶发展的核心问题也来自于此,一个是随着绝大部分常规问题被解决,有效数据的收集难度越来越大;其次则是随着数据规模的增加,数据处理的成本也越来越高。
▲图为自动驾驶训练过程
首先是数据收集的问题。当自动驾驶走入最后0.5%的corner case阶段,场景数据在现实世界就变得可遇不可求。
为了应对这些问题,特斯拉、Waymo、Cruise等企业都在不同程度使用合成数据来模拟真实世界来训练自动驾驶。
但这种方式也存在一些弊端,比如合成数据虽然能轻松生成大量数据,提高自动驾驶训练数据的多样性。但作为人工生成的数据,合成数据并不能完全模拟真实世界的复杂和变化。过度使用合成数据,会导致自动驾驶出现“纸上谈兵”的现象,即在训练时表现很好,但一上路就不行,这种情况被称为过度拟合。
而针对这样的问题,大模型提供了一种新的解决方案。
比如使用大模型进行数据生成的技术——迁移生成。它可以基于一个真实的场景,快速生成不同时间、不同环境的情况。比如拍摄一张街道春天的照片,大模型可以快速生成这条街道雨天、刮风、下雪等不同条件、不同季节的情况。
这么做的好处在于“可控”,自动驾驶训练可以根据一些特定的需要生成一些特定的场景,而更重要的是,这些场景中包含一些真实数据,在增加训练场景丰富性的同时,又可以避免过度拟合的情况。
目前已经有厂商在逐步尝试,毫末CEO顾维灏在AI Day中便提到了该技术,清华智能产业研究院(AIR) 提出的自动驾驶模型也有类似的设置,在他们的设定中,模型会提出怎样获取不同的数据,包括真实世界数据和仿真数据。然后这些数据要经过受控管道进行清理,再经过感知和决策两大模型,最终为车辆提供决策。
其次是数据标注,数据标注并不是一次性完成的,同一张照片,不同时期,依据需要解决问题的不同,需要标注的东西也不太一样。
比如一开始需要解决的是车辆识别的问题,那么照片中重点标注的是不同的车辆,后来要解决红绿灯识别的问题,重点标注的可能就是红绿灯。总之,数据标注是一个反复,且逐步细化的过程,因此难度和成本也在持续增加。
在国外,特斯拉最早启动数据自动标注,这让原来需要几个月时间的工作可以在几周内完成。2022年6月,得益于效率的提升,特斯拉裁掉了其位于加利福尼亚圣马特奥办事处的绝大部分数据标注员工。
特斯拉之后,国内自动驾驶企业也开始跟进,将自动标注使用到日常训练中。作为特斯拉的”中国学徒“,顾维灏介绍了毫末使用大模型进行数据标注的案例。
其运用大语言模型和多模态的能力,通过将图文和文图交叉的特征做匹配的,然后再将其放到大语言模型中,针对形成于特征空间的搜索(query)特征。在这样的基础上,大模型就可以在不需要做太多准备的情况下,将之前没有标注过的,想要标注的内容标注出来。
整体上,大模型的接入优化了自动驾驶的训练过程。
如果将训练自动驾驶算法比作是金字塔的修建,那么大模型的加入,就如同将曾经依靠人力堆砌的石块,改换成现代化的起重机,加快了自动驾驶的“搭建”进程。
责任编辑:苏城
网友评论