中国汽车工业协会王耀:汽车行业数据生态的探索与实践
摘要:同时我们也利用隐私计算技术,打通了新能源汽车的电池健康评估、智能网联汽车的数据原因分析,也解决了智能驾驶车辆的责任判定、纠纷等等问题,构建了可信高效、自动化、智能化的汽车数据的协作体系,也为主管部门对企业数据活动的监督和事后管理提供了技术支撑。
2023年7月5日-7日,由中国汽车工业协会主办的第13届中国汽车论坛在上海嘉定举办。本届论坛以“新时代 新使命 新动能——助力建设现代化产业体系”为主题,设置“1场闭门峰会+1个大会论坛+16个主题论坛+N场发布”共18场会议及若干发布、展示、推广等活动,旨在凝聚各方力量,形成发展共识,为建设现代化产业体系贡献汽车行业的智慧和力量。其中,在7月7日上午举办的“主题论坛九:数据生态,推动产业迈进智能网联汽车新时代”上,中国汽车工业协会秘书长助理兼技术部部长王耀发表精彩演讲。
以下内容为现场演讲实录:
大家好,非常高兴有这个机会和大家分享,在汽车产业里面,特别在数据相关生态当中的一些进展。昨天下午我主持智能网联汽车的论坛,各家主机厂,包括自动驾驶公司的技术负责人都在,听到最多的一句话就是“数据驱动”。现在从数据的角度来说,还是面临着非常多的问题。在智能网联汽车的新时代,特别是在自动驾驶领域,很多技术问题在这种大的技术迭代的浪潮当中,大家的路线还是不明确。包括昨天下午也在聊,高级别自动驾驶什么时候商业化落地?智能网联汽车什么时候才能盈利?这些都是摆在产业面前非常重要的问题。但是都离不开一个词“数据驱动”。
智能网联汽车它确实可以产生海量的数据,但是从数据存储的成本、传输的成本角度来说,如果我们搞不清楚要这个数据干什么用,数据对企业来说只是个负担。我们很多年都在说数据是生产要素,它生产什么东西?对自动驾驶企业来说,数据实现了数据闭环,是可以有效地靠数据驱动来完成自动驾驶算法的迭代。
但是另外一方面,我们看到今年以来大模型技术的出现,包括特斯拉早在两年前就提出了用Transformer端到端的算法的演进,就算是大家都在做数据闭环,大家对数据利用的方式并不相同。举个简单的例子,很多高级别自动驾驶公司,在一开始是直接要去做L4的,大家看到路上有很多智能运营的小巴等等,我们就会问他到底有没有那么多的数据,很多公司有几十辆车、几百辆车,但你会发现坐上去试乘试驾感觉挺好的。但另外一方面,为什么不能商业化?当你能够穷尽它的可靠性到99.999%,完成最后那0.001%的时候,你发现你想找最后的Corner case成本会越来越大。
汽车不是只涉及到个人安全的问题,还有公共安全,所以对可靠性要求是非常高的。所以在这个角度来说,如果沿着规则驱动的路线去往下走,然后通过机器学习不断地去找Corner case,你在找到最后的Corner case的时候,你的成本是非常大的,这条路也是越来越难走的。
但是另外一方面,大模型的出现,我们看到只要有比较好的数据库,且大模型有足够的算力,随着因子量的增加,你会发现路不是越来越难走,是路会越来越好走。所以这个就是我们在沿着数据驱动,以及最新技术的迭代以后发现,数据驱动好像能够找到一条越来越宽的路,这是我们现在在智能网联汽车数据生态,特别是在自动驾驶里面我们看到的一些趋势。
国家也非常注重数据生态的建设,这里也列出了从国务院到网信办、到发改委、包括人大代表,都在提构建汽车数据共享的机制和平台,要促进汽车数据的共享使用,也要制定自动驾驶数据的共享规范。但是现在我们还是数据体量严重不足,我们所有的主机厂用于训练自动驾驶的数据加起来不如特斯拉一个零头。而特斯拉挑的路就是一条,我刚才说的,数据积累到一定量会出现涌现的一条路,而我们大部分的企业,现在估值已经非常高的自动驾驶公司,走的是一条规则驱动的路。当然大家都是靠数据闭环来做,但是它就像我们看武侠小说练武功一样,你如果想练到很好,总会有两条路可以让你走,一个是慢慢的走,一个是很快的走,但最后结果是不一样的。
最近一些企业也在说,我们在做自动驾驶的时候总是愿意找捷径,总是不愿意做脏活、累活。这件事情最终反映到汽车的产品商来说就会发现,你是可以造出一辆和另外一条技术路线差不多的车,但你会发现,你的传感器的成本要远远大于别人,也就是硬件成本远远大于别人。再往下走会发现越来越难走,看似在消费端,或在乘客的角度来说,两个相同的产品,但是越往下走,一个是在软件方面边际成本为零,为了实现自动驾驶。另外一个是要造更多的车就要买更多的传感器,激光雷达不够,上高精度地图,高精度地图不够上车路协同,这些都是硬件成本。所以我们现在一方面数据体量不足,另外一方面,数据没有打通的机制。
还有像刚才张处说的,现在的数据安全问题。其实我们国家的互联网,到移动互联网产业的发展,可以说这些头部公司是享受了一波红利的。我们国家移动互联网产业发展赶上了这样的好时候,但是当很多主机厂刚开始准备做数据闭环车辆的时候,从政府角度来说,从国家安全角度来说,数据安全必须要提到台面上来,这个是底线。
那我们如何在这个红线之上能够更好的应用,其实是摆在车企面前非常严峻的问题,很多企业在数据安全试点的治理过程当中,可以说损失了大量的数据,但是这种损失是必要的。另外一方面,可能让我们去追赶更先进的企业的路上会更难走。
这是我刚才所说的,我们自动驾驶路径的转变,现在规则驱动转到数据驱动,包括现在正在说的大模型,今天到这个时间点为止,会看到很多的自动驾驶公司或者很多车企都说我们已经用了大模型了。再深入聊两句,我可以说几乎一家没有。如果说想从原来的规则驱动改到现在类似走大模型端到端,之前很多的积累都要重新做。但是就像一些企业说的,脏活累活总要有人干,你可以通过不断地加传感器,去构筑一个跟别人看起来一样的东西,但是往后走你就会发现路越来越难走。自动驾驶是感知、决策、执行,决策是算力、数据堆起来的算法完成,我们如果说没有这么多的数据,你的算法一定没有数据体量大的公司做的好。
我们看很多自动驾驶公司做试乘试驾,我们已经不太愿意做了,做这一段路什么都看不出来。就问两个问题,你有多少数据闭环车辆?你的数据中心、算力中心有多少块卡?这个东西是骗不了人的。当然相信有一些非常好的工程师他可以有很好的算法思路,但是另外一方面,我们现在看到的大模型,它利用大量的数据给出的一些结果,最后验证是正确的这些结果,最聪明的人类工程师也不知道为什么。但是你会发现GPT3、GPT3.5的一些东西GPT4可以拆解,所以这就是我们在技术迭代下面,数据的应用显得愈发重要。
汽车协会也是在2017年年底的时候开始立项,汽车产业的数据生态如何布局,在2019年我们成立了中国汽车工业协会数据分会,同期也筹备成立了众链科技(北京)有限公司。当时我们做的一项工作就是怎么样打通数据。一开始我们的想法是以汽车协会的行业中立性,看看能不能把大家的关键数据收过来,想仿着我们国家新能源汽车的路线去走,但发现智能网联汽车的数据体量太大了,就算大家给,你都存不起,何况大家是不愿意给的,大家都知道企业的数据是重要的战略资产。所以最后我们筛了一遍技术方案,最后决定用区块链技术来做,2019年我们跟很多企业讲我们要做区块链,大家都会存有质疑。
经过了这么多年,我们做成了两个平台,它底层是一条区块链,叫VDBP的区块链,它完成的是可以让我们的节点用户在区块链上去看到所有数据的索引,在链上完成数据的交易,链下完成数据的交割,2.0版本也引入了隐私计算技术,可以保证数据安全可用不可见。同时也根据数据安全的要求,以及我们在和跨行业的一些合作方面,我们也建立了ADTC,也就是汽车数据溯源与存证平台,它主要是提供数据存证。
一个非常典型的应用就是很多主机厂在遇到一些交通事故的时候,特别是一些安全事故的时候,主机厂和用户各执一词,但是媒体是更容易倾向于弱势群体。但是有的时候真的说主机厂不会乱改数据的,这时候没有一套技术方案,车企没有办法自证清白,所以这也是为什么ADTC在前年开始着手建立。
这就是我们刚才介绍的VDBP平台,是全球首个以区块链技术为底层架构的汽车数据交易平台。平台是通过数据的索引,不是说数据要上到区块链上,这个数据是任何链都存不起的,就是一段Hash上链,可以保证我们的数据不会被篡改,也可以保证我们数据的真实有效性。
我们还做了一些工作就是,你如果想促成企业数据生态的构建,我经常打比方说,数据生态就跟农贸市场一样,有人负责种地,有人负责运输,有人负责在菜市场摆摊子,最终端成盘子上菜一定是厨师做出来的,饭店里面去农贸市场采购。但是最后,菜市场里一定不会出现任何一个菜谱上没有的食材,一定要搞清楚应该到底是什么。
所以一方面我们看到,在自动驾驶这块我们确实缺乏自动驾驶的大数据训练集,包括在新能源的资产交易方面也有一些探索,也制定了一些标准。包括一会儿也会有一个发布,我们和保险行业的合作,这里面都会涉及到数据交互的标准,这也是数据分会在为行业做的一些工作。
这是现在的一些案例,我们通过海量的场景,实现数据的量产,包括我们的深度学习平台,包括场景的一些泛化,生成了数字孪生的场景,可以用于自动驾驶的训练。像我刚才说的,自动驾驶最大的那家数据公司比其他所有主机厂加自动驾驶公司所有数据加起来都多,我们建这样一个平台把大家的数据加起来还有没有意义?有,但不多。
另外一方面,我们要怎么解决这个问题,包括我个人现在除了在汽车协会任职,也在上海国际汽车城任职,我们也和很多地方政府有非常多的合作,在做什么?就是当我没有办法和某一家企业比你的数据闭环车辆有多少的时候,中国政府或者说在中国做车路协同构建的时候,我们建立了大量的路基基础设施的摄像头,甚至很多全息路口有激光雷达。这些数据通过最新的人工智能的技术、神经辐射厂的技术等等,是可以把路侧视角换成BEV视角的,而这种数据是可以直接用于训练自动驾驶大数据训练集的。所以这也是我们在一开始建立这个平台的时候,希望让大家把数据共享起来,大家做数据交易。
但最后发现大家的数据体量加起来也没人家多,只能去靠政府,现在我们也在政府侧实现了一些实践。这个就是我们在地方政府路基基础设施所采的一些数据,这里面我们用了脱敏、数字孪生,也是为了满足我们国家不管是《个保法》、《数安法》还是《测绘法》的要求。我们把这些场景拿出来,是可以给到企业去用于自动驾驶训练的。我们做行业工作有时候真的看着很急,想下沉,但我们应该做的是给大家做底层资源的建设,底层基础平台的建设。自动驾驶作为AI的一个分支,AI时代数据就是石油,一个国家没有石油,技术再好产不出来的。所以我们现在就是在做怎么能够给行业上把石油管道铺好,另外一方面发现新的油田,让自动驾驶企业,包括主机厂企业,至少在自动驾驶这个赛道上不用因为数据资源而发愁。
这就是我们的一些应用实践和商业闭环,我说你故事讲得太好,你有可能会骗人,但是市场不骗人。我们目前在利用一些地方政府的数据源,做完脱敏清洗,做完加工,在数据平台上会发布,也会做一些试点型的交易,因为毕竟我们现在还在做一些数据安全压力的测试,所以还没有大规模的去做,但是我们已经通过一些试点,也完成了一些实实在在的交易,验证了这条路的可行性。
这是应对数据安全不断加强的要求,我们在推的ADTC的存证平台,这也是国内首个以区块链技术为底层架构的汽车数据的溯源与存证平台。它通过车辆上传的原始数据进行加密存证,实现面向智能网联汽车的数据安全监管、审核和评估方法的建立,也为企业提供数据存证服务,也为政府的监管部门提供有效的判定依据。因为现在已经有司法实践证明,区块链上的数据是可以作为司法判定依据的。
这是ADTC平台的几大功能,原始数据的存证、Hash数据的查询、数据核验与报告、检测任务的创建、车企申诉。
ADTC平台通过车辆检测和加密技术,来确保企业收到的车辆回传数据是不可篡改的,解决了跨数据处理者之间数据真实性的验真问题。同时我们也利用隐私计算技术,打通了新能源汽车的电池健康评估、智能网联汽车的数据原因分析,也解决了智能驾驶车辆的责任判定、纠纷等等问题,构建了可信高效、自动化、智能化的汽车数据的协作体系,也为主管部门对企业数据活动的监督和事后管理提供了技术支撑。
基于两大数据平台,我们也加强了数据标准的建立与业务模式的推广。VDBP就是我们在做数据交易,现在也在逐步的拓展数据字段和数据种类,也增加了隐私计算的模块。ADTC平台是配合行业主管部门,增强企业的数据存证意识,其实已经有一些企业看到确实很多场景下没有办法自证清白的时候,已经开始使用区块链技术帮助自己自证清白了。
在标准方面,我们也会继续支持新安标委,也利用行业团体标准的平台,来支撑行业的数据安全、数据存证、数据交易等领域的工作。
我的介绍到这里,谢谢大家。
责任编辑:枯川
网友评论