4006-998-758
新闻动态

被大模型再次唤醒的自动驾驶会出现下一个“奇点”吗?

2023-05-10

被大模型再次唤醒的自动驾驶会出现下一个“奇点”吗?(图1)


前言


ChatGPT的横空出世再一次唤起了全民的AI热潮,它会让智能和自动驾驶出现哪些新的契机?让我们聚焦本期K+Talk大咖对话,与行业大咖一起畅聊。‍

以下内容整理自第48期K+Talk直播
节目对话嘉宾:
黄浴博士——深信科创首席科学家
王晓雷——海思算法专家
肖   然——Thoughtworks创新技术总经理
全文字数:10378字
阅读时间:约10分钟‍‍‍‍

中智凯灵



本期talk主题是《GPT+自动驾驶:被大模型再次唤醒的自动驾驶会出现下一个“奇点”吗?》,存在争议的自动驾驶在沉寂多时后会被大模型再次唤醒吗?一起和行业专家一起来碰撞一下自动化驾驶的下一个可能“奇点”。


肖然(本期主持人):
L4自动驾驶离这个我们真正意义上商用还有多远?

黄浴:
目前看,L4这个技术进入了一个高原状态,它解决了90%多场景的问题,但是还有百分之几,比如说一些 corner case 要解决。但是,这 corner case 需要相当于另外 90% 的那些问题的时间来做。安全性对它落地会有一个比较大的影响。L4基础上的应用呢,就基本上定义成OTT这种场景,L4在无人驾驶或者快速物流车这个领域来说,并没有做到大范围的部署。在一些小范围的,对于一些封闭园区来说,L4的技术相对来说是比较成熟的,目前看的话,我感觉这个技术,该还有一些瓶颈没有突破,所以我们现在还是比较谨慎的来看待这个L4的完全实现。
王晓雷:
接着黄老师的话讲,我觉得它不完全是一个技术问题,而是一个法律法规问题。大概在17、18年左右的时候,大家忽然开始就根本就不提L3了,宣传往往是从L2直接跨越到L4。L3这个在法律意义上界定的比较模糊的这种状态,因为它实在是难以定责,所以变成了大家去回避的问题。深圳去年出了一个法规,买自动驾驶的车,只要有驾驶人存在,那么驾驶人就要负全责。这样子的话,大家其实对自动驾驶的真正普及就更加悲观了一些。
人类是可以有紧急避险的,比如,在高速上开车,遇见一头鹿,直接握紧方向盘撞上去。在遇见什么危险事件的时候,我们是有权利以自己的安危为先的。但是,在自动驾驶的这个行业里面,程序员为了保证安全会做出很多浪费的决策规则。举个例子,在时速60公里的时候,我们可能会跟前车留60米到80米的车距,而在中国大城市的实际路况里面,你留80米车距,这车基本上都不用开了。从人治这一角度上,安全不绝对等于绝对不安全,我们当时的自动驾驶实践也面临了很多瓶颈。

肖然:
L3在目前来看有存在的价值和意义吗?

黄浴:
之前做L3的时候,相对来说技术还在开发之中,所以对于以前渐进式的开发模式,大家都提出要先经过L3阶段。因为L3这一层会发生一个根本性的变化——接管的责任是在机器,而不是在人,也就是说,该接管的时候是应该人来负责,驾驶员要负责接管,什么时候接管,应该是机器算法要告诉我。当时按照美国大致的公认规则,基本上报警时间应该是八秒左右,你要提前八秒告诉这个人要接管,这样的话,比起L2那种手离方向盘挨得很近的状态,我们需要留出更长的报警时间。当出现报警的时候,这段时间需要足够长,来处理这种情况,等到这个驾驶员接管。
但对于L4来说,它实际上不光是故障预警,还需要故障运营,要能够真正让车辆进入一个比较安全的状态,预留报警时间可能更长。现在,L3根本性的变化就是接管权。现在只有一家德国企业宣布说它愿意承担自动驾驶L3的责任,基本上限制在低速状况,速度一般低于60公里。如果宣传L3的话,出了责任应该是由车企来负责。其它车企都不敢承认,连特斯拉都不敢承认,那这样的话,用户就不敢去买单,因为保险公司也不愿意赔偿。这是一个社会问题,也是一个用户的体验问题,因为用户体验不好的话,然后还要我承担责任,那大家确实是不太乐意。
目前,大部分车企在做L2、L2+,并没有实现到L3的水平,更没有实现大家所说的L4的水平。现在回到L3有没有存在的必要,大部分公司会跳过这一阶段的开发,直接做L4。Google以前做L2的时候,它发现用户一旦用熟了后,会过于信任这个车,就会出问题。所以它就跳过去L3直接做L4。目前来说,Google的这个L4也没有成功,所以L3跟L4都没有成功之前,把L3取消其实也没有什么问题。就像考试一样,设了一个大学考试,然后现在把高中考试取消掉了,这个其实没有什么大的根本性变化,因为我们都没有真正实现这个。我们的算法没办法告诉人们,什么时候是不可靠的,如果算法能告诉我,比如说人到了一个陌生的环境,或者到了一个恶劣的天气,它会提前告诉这个车,比如说现在是暴雨,车就不能再开了,因为我看不清楚了。如果算法能做到这一步的话,那L3就没问题,否则不管是L3还是L4,都是还没有迈过去的一个坎儿。

肖然:
中国会有L3吗?

王晓雷:
接着黄老师的话说,如果认为自动驾驶这系列是一个考试的话,我觉得L3其实是一个面试,它会引入一个灰度地带,比如说这个八秒的响应时间,那么它晴天的时候是八秒,视野好的时候是八秒,是不是雨天的时候,这个时间应该是12秒。是不是阴天的时候,这个时间应该是11秒,然后暴雪结冰路滑的时候,这个时间是不是应该是30秒。
下雨下雪这种天气,刹车距离一定会变长。我当时跟法务请教这个事情,对方认为一事一议的这种事情在中国实践起来特别麻烦,根据《弱传播》理论,尤其车企一般属于强势的一方,所要承担的责任就更多一些。坦白说,时至今日,在中国大部分的交通事故中,其实还是法规和人情同时作用的。所以,当时我们没有想去宣称L3,首先是因为是法律成本太高,然后,也并没有八秒钟这样一个显式的法律规范。当时的原文是根据具体场景确定一个合适的人类响应时间——如果法规能够给出一个八秒的限制,可能我们就有勇气做了。

肖然:
我们所用的这种机器学习的大模型技术,不管它是预生成的,还是基于决策训练的,由于它的可解释性很差,你们现在会认为它在自动驾驶领域里仍然不会是主流技术吗?

黄浴:
AIGC这些模型——包括Chat GPT——出来以后,对人工智能整个领域是一个很大的冲击。从它的发展来看,18年之前,大家可能都没意识到这个东西会这么厉害,但不管怎样,目前来说已经在很多地方可以看到它的水平,包括比如前段时间GPT-4出来以后,基本上它做很多事情——包括分析各种论文——都非常强,它其实已经把所掌握的知识可以用在一些应用场景了,而且比大多数人用的都好——特别是在一些需要专业积累的方面。但是,从GPT-4.0大家都看到一个问题——它有时候会一本正经的胡说八道,好像觉得说的挺对,其实错的都很离谱。
但现在通过连续跟大家交流,我们看到它会不断的纠正,不断的学习。Chat GPT给大家展示了大模型的一些优点——涌现,也包括所谓COT(链式思考)这一类,模型如果读过大量的代码,就有人认为它把逻辑思维也学到了。这个没有明确的解释,只是人们认为它学到了这些,但是从哪学到的,有的认为是提示学习上面学到的,也有人认为是从代码里把逻辑学到的。不管怎样,它的能力确实很强,已经超出了以前所有对话机器人的水平,而且也远远超越了以前那些NLP的水平,所以大家在感慨NLP这个行业是不是要完蛋了。当然,最近也出现了一些视觉方面的大模型,但从自动驾驶这个行业来看,我看到Chat GPT的这个应用的时候,有几点可能是短时间还不能够在自动驾驶进行大量应用的原因。
第一点,自动驾驶安全性非常强,一是一二是二,它没有模棱两可的东西,比如说你预测可能是多模态的,操作可能有多种可能性,但我规划的东西一定是一个绝对不能出错的东西。所以,如果说模型会一本正经的去推出一个根本不可靠的东西的话,这个它没办法自我验证自己是对的,对Chat GPT来说,目前还看不到方案保证绝对的安全。同样,这也是自动驾驶行业对这个规划决策里头始终没有大规模采用机器学习的原因,因为机器学习可解释性不够强,不像基于规则的方法解释性强。所以一旦发现模型出错,都不知道加什么样的数据,会把这个模型矫正好,很难保证最后的结果。可解释性这个问题,造成它不能保证绝对的安全。
第二点,Chat GPT目前的大模型基本还是在云端,针对非实时的应用场景,如果通过5G让大家把所有控制驾驶的感知都交给远端的服务器来做,那么,任何一个延迟或小的错误都会导致自动驾驶出问题,所以从实时性来看,这一算力平台目前很难在车载芯片上直接部署。
第三点,Chat GPT需要数据,不管是文字还是图像。对于自动驾驶来说,目前的模块化流水线模式,从感知、预测、定位到规划控制,Chat GPT需要大量三维训练数据,但没有特别好的方法能够把二维的东西转换成三维的。无论是分割、还是检测,很多还是在二维层面,如果到三维空间很难做到特别准确。包括最近我看到Facebook Meta刚发布了一个可以做深度估计的项目,如果是深度图的估计,像素就可以直接变成矢量点云了,但是深度估计方法无监督的时候做的还是不如有监督做得好,而且也做不到100%的可靠。这样看的话,二维到三维的转换,现在用大模型还做不到非常可靠,不确定性非常强,在规划决策这块就会造成很大的困惑。所以这样看,目前离突破可能还需要一段时间,特别是在自动驾驶行业,主要的障碍是数据。目前看特斯拉大概有这种规模的数据,有价值的数据绝不是说跑了几亿英里,比如说在仿真里,跑一百亿英里都没问题,但这种数据如果没有足够的corner case,不够泛化和多样性,那么对训练大模型是没有帮助的。当然我们如果能够解决泛化和多样性,那理论上数据的质量提升了,就可以训练出大模型。但目前看还没有这样的数据来训练大模型,主要是数据的多样性和数据质量方面还不具备。

肖然:
怎么看待特斯拉这样绝对的数据优势?

黄浴:
第一,它的传感器配置对所有车辆来说都是一样的,如果我们做模型训练的时候,都有一个数据的规范化的问题,比如说在开源数据,在某个数据集上训练的东西,在另外的一个数据集上测试,一般不能达到更好的效果。当然很多模型都在解决自己的泛化问题,但是从2D的泛化和3D的泛化来看,3D的泛化更难。比如说我们尝试学习去二维检测——或者3D的SLAM,会发现凡涉及到三维,泛化就比二维要难得多。特斯拉的数据质量,就在于首先它的数据是多样的,因为它的车全球都在开,很多种数据,其他公司的很多车辆都是在某些地区,基本上达不到特斯拉这种范围。其次特斯拉的数据量极大,并不是它每个用户跑多少车,而是说它的搜集,比如它的影子模式,或者说基于各种trigger进行数据筛选的模式,能获得多样性的数据,这种模式也是它数据闭环中很重要的一点,它的数据闭环其实是靠影子模式集中在一起的。
特斯拉的数据质量和多样性,实际上是靠它强大的数据闭环平台支持的,包括它的数据泛化,也是因为它都是同样的车,配置都比较相似,相对来说它的多样性、规范化比较好。所以我们看到这点是它的强项。特斯拉在19年的时候并不支持仿真,认为仿真就好像是学生给自己出作业,出考题,然后自己答,它认为这个不太好,当时马斯克还一本正经的说,我们看不上Google的那套仿真平台。但是在21年的时候,他们实际上已经完成了非常好的一个仿真平台。很多数据是无法搜集到的,只能通过仿真搞到。比如说高速上一个人带着小狗在散步,这种很难取得到,包括还有其它的稀奇古怪的场景,要通过仿真获取。那么它的仿真有多强大呢?我觉得它仿真主要强大的地方在虚实和实虚转换这方面,不单纯是大家所说的一般的类似于VR的技术,特斯拉可以基于交通流的真实场景,直接复现,复现以后把整个的动态和静态都落入仿真环境,这样的话就可以增加更多的素材,因为仿真场景有的时候我们也想不到,只有等真实场景出现以后,大家才会很快把它复现落入仿真场景。总而言之,特斯拉的虚实衔接做的非常好,我们叫它数字孪生也罢,或者叫做场景浮现也罢,这个非常强。
第二,虚拟的数据有时候很难跟真实环境做到一样,不光是传感器的数据,包括交通流,从规划到噪声,这些数据都跟真实都有一定的差距。特斯拉之前并不重视传感器数据,比如说激光雷达的仿真,或者说摄像头的仿真,开始并不重视,直到21年才公布了simulation这样的产品出来,慢慢开始重视。特斯拉在2021年,实际上不管是从传感数据还是从规划轨迹,都已经完全的在仿真环境下做出来了,而且做的很强大。仿真出来的东西真实感很强,不管是人们看到的图像,激光雷达,点云,还是说驾驶轨迹,车辆的行为,包括动力学各方面都要非常逼真。这是仿真领域非常强的一点——解决真实性的问题。如果在仿真的环境中,能把这两个问题解决的话,那实际上来说,是可以具备跟特斯拉掰手腕的能力的。目前我们也希望,车企能够真正搞一套类似于数据规范的东西,如果大家数据可以共享的话,可能能达到特斯拉这个规模。目前,我觉得最有可能的是通过仿真数据的方法,跟特斯拉较劲一把。

肖然:
大模型GPT为代表的这种技术在自动驾驶上会有什么样的一些应用可能吗?

黄浴:
针对现在这类Chat GPT大模型,如果想要不通过云端,自己来做推理的话,目前大多数车载芯片还不太够。比如A100很难在车端部署,前段时间有篇文章说有人已经把大模型优化到在PC机上基本都可以跑。但现在来说,车端的部署一定是通过云端大模型做了一部分的蒸馏,或者压缩,或者类似优化得来的,它如果能真的做到部署在这个单机上,当然也相当不错了。对于自动驾驶来说,它们可能要求的不单单是一个A100或者工控机的状态,它可能更需要是能布置在orin这种平台上。这也是很多AI芯片实际上遇到的同样情况,算子的限制往往导致让用户感到不太方便的地方都要改。那么,很多人用 Orin 的时候,就都直接用GPU core,实际上损失了差不多1/3的算力。另外芯片会针对某种特殊的神经网络模型,比如transformer ,做相应加速的一些处理,包括类似于cuda那种思路,比如以前CNN出来的时候,就是在 GPU 上加了一些对 CNN的加速,因为那时候 CNN 模型的卷积基本上占了 90% 的算力,所以大家只要把卷积能够加速的话,那么基本上整个加速效果就非常可观,那 transformer 这次也做了加速。
芯片的都是从经济角度来考虑,不管是内存,包括计算单元,都从经济考虑,所以这个切入平台明显要差于工控机的扩展模式,不管是从内存、总线,包括中间件,还有数据带宽,各方面来说都有很多的限制。很多芯片设计肯定是会考虑到成本的,不管是加DSP或者 buffer 。如果希望在这种嵌入平台上去跑 Chat GPT这样的大模型的话,我觉得目前芯片的算力还不够,并不等于说以后不行,但是从目前看我觉得差的比较大。大家现在都在讨论BEV,但是实际上BEV 里头分两个很清楚的技术路线,一个是基于 transformer 的,一个是基于 depth distribution 的,它基本上是采用了一种伪激光雷达的方法,直接反投到三维空间,沿着反投的光线方向添加depth分布,进而训练BEV的视角转换模型。现在这两种流派里,我感觉AI芯片能跑的大多是非transformer的模型,也可能有人把transformer已经加速的非常好了,包括很多人在orin上实现。所以我觉得,从芯片来说,包括英伟达的 Orin ,也不是最佳适合于 transformer 来实现的这个平台,它的算子,包括它的整个芯片的架构可能都更适用于CNN 这类模型。当然,我们并不是说以后就不会出现比transformer更厉害的架构,只是从目前看的话,Chat GPT 大多数基于transformer架构,而且它的确能够把模型做的非常大,参数也做的非常大,那么基于transformer架构,将来下一代的芯片也许可以把transformer的支持做到极限,所谓这个效率高,不是说你的Tops有多高,而是说你的效率多高。总之,我们希望不会出现长时间等待的状况,那么这样的话,就可以在车端跑起来,但目前还做不到。
还有, Chat GPT 会一本正经地胡说八道,它的安全性就跟我们的 corner case 一样的,就是说我可以做到95%,但它有 5% 是错的,我没办法判断——这个对于安全来说就是致命的。比如说指纹识别可以做到 99. 9999%,那么就可以说只允许出现0. 0001%的错误。但如果你的 corner case达到了5%,那就会造成安全的极大隐患。我想不管是从Chat GPT 的这种可解释性,还是从它的实时性考虑,可能还需要一些时间。自动驾驶属于要求非常高的这种应用场景,如果说一般的——比如说像大家做个助手这种,我觉得 Chat GPT已经足够了。

肖然:
在自动驾驶的路线上,两位站在现在来看的话,你们觉得关键的使能技术会是什么?

黄浴:
我觉得关键技术目前看的话,从corner case这个长尾问题的思路来看,大家已经基本上默认现在是个数据的时代,认为数据能帮我们提升这个模型,所以大家都在喊数据闭环,其实数据闭环里头,很重要的是数据的筛选能力,所以特斯拉的模式算是一种,第二是数据标注能力,特斯拉的AI已经提供了一个非常强的自动标注能力,这个还是针对它在没有激光雷达的情况下做的标注能力,这个自标注能力其实很多公司其实还做不到,我敢说90%都做不到。特斯拉可以针对某个场景去搜集数据,可以通过它的数据筛选模式,在客户端迅速拿到上百万GB的数据,通过它的自标注能力,可以把一个需要人工六个月到八个月才能够标注出来的东西,在两个星期标注完。
所以它的数据闭环能力导致了整个它的开发迭代的速度,这是很高的技术门槛。当然,它有一个非常强的仿真平台,特斯拉在几年就把仿真做到了世界一流,这个我们也是非常佩服的。现在看自动驾驶,首先我们认为是个数据时代,需要数据来解决问题,那么大模型其实也是数据,虽然现在我们没有看到怎么样用大模型,但这条路上如果说有一个非常好的契合点,特斯拉会率先拿出它的这个成果。我们希望通过大模型的方式,做预训练类的大模型,解决数据泛化,能够把知识全部体现在预训练的大模型里,至于怎么去做强化性的feedback,可能是下一步的工作。
从基本上来说,我觉得数据是自动驾驶现在很重要的一个因素。第二,从自动驾驶内部来看,现在的瓶颈已经逐渐从感知过渡到了决策规划,实际上,我们发现感知的已经是一个非常清楚的框架,而且它的边界也非常清楚,包括多传感器融合、多端模型,但是对于规划决策,它比感知相对来说还弱一些,如果规划决策模型能做好的话,那么就会加快自动驾驶的部署,否则的话,这个成本非常高。因为大家经常是在一个城市收集的数据最后只能在这个城市用,没办法快速部署,像Google当年在凤凰城部署了以后,之后始终没有再扩大,最大的问题应该是在规划决策那块。

肖然:
创业方向是做软件还是做硬件?

黄浴:
如果单纯从自动驾驶解决方案来看,我们其实有一种趋势认为,如果使用了大模型,我们更加希望看到的这个自动驾驶的解决方案是一个端到端的模型,而不是一个流水线的模式,包括可能更多的摒弃那些基于规则的一些后处理的方式。我们大家比较追捧BEV,其实 BEV是一个感知的模型。因为最早的视觉基本上是2D的检测,基于很多的几何约束去估算它的3D特性。但是Bev 基本上是在神经网络模型中直接做了一个转换,实际上是把视觉图像平面直接转换到了三维数据,同时也实现了多个摄像头的特征集的融合,所以大家现在比较追捧。
从更大的意义来看,将来的自动驾驶可能是一个端到端的模型,今后的预测、规划、决策都是在这个模型里。输入传感器数据,然后输出结果是规划的轨迹,或者可能直接是控制信号。如果真正自动驾驶能够做到这一步的话,硬件只是适配就行了。比如现在很多的AI芯片都会加一些ARM核,去实现一些规则或调度,包括可能还需要添加DSP做一些信号的预处理,这种负担都非常重。相对来说,如果自动驾驶能够提升记录数据的能力,收敛到端到端,芯片就变成只是实现端到端模型的一个载体了。
这样看,模型软件方面应该更有价值一些,芯片现在之所以搞得很复杂,一是因为不是端到端的,第二是因为我们有规则,不同的算法需要不同的芯片来支持,然后内部的SOC就搞得非常复杂,包括整个数据流也不是很清晰,造成了很多的数据交换、数据通信这方面的负担。如果将来能搞成像一个神经网络的模型,大家一层层传过去,那芯片的设计就非常简单化了。从算法和软件的角度看,可能更有意义一些。但是目前很可惜,我们还做不到端到端,我们也没有消除基于规则的这条路,所以我们的芯片还是很复杂,需要大量的工程师去做移植。自动驾驶算法中基于规则的方法,像决策和规划,包括控制团队,都非常大,因为需要大量基于规则的方法去加补丁,去修改各种 corner case 的情况,搞得团队越做越大,作为量产来说,是非常头疼的一件事情,我想芯片也是一样的问题。

肖然:
国内刚刚举办了车展,我估计线上也有类似的疑惑,车展里面比亚迪大出风头,但是比亚迪的王总实际上对自动驾驶长期以来都是非常负面的观点,他认为自动驾驶其实是不可能的,它的主要分析逻辑实际上从人性的角度,我们提到的那些corner case,他认为是无法解决的,所以说自动驾驶其实意义并不是特别大。那这件事情上,我们在讨论的时候就尝试泛化这个问题,从自动驾驶到智能驾驶,但不论是自动驾驶还是智能驾驶,今天站在这个历史节点,因为每天大家都用车,这件事情是日常生活中的必需品。可如果我们尝试预测下一个可能让大家感受到非常不一样的体验,或者非常不一样的一个技术的会是什么?你们觉得预期下一波发挥的点在什么地方?

王晓雷:
我觉得会是法律法规,我在期待法律给出一套可执行的规范和定责机制,或者说某种意义上,保险机制的健全,可以支撑我们开发人员在足够安全的前提下,去将自动驾驶的理想变成现实。有公司实际上已经在很多路段上收集了足够多的数据,实现了有限路段数万公里级别无接管的驾驶,我自己也坐过我们的一些实验车辆,全程无接管还是很震撼的。
想象一下,法律上如果有了相应的规范,举个例子,比如自动驾驶平台能够提前八秒预警控制权交换,行驶责任就在于人而非系统,如果只是提前了三秒,那么厂商需要为可能发生的事故负责。那么,我作为一个驾驶员,我愿意承担这个责任。作为厂商或者算法开发者,明确的法律法规也会让他们愿意承担这样的责任。自动驾驶的法律法规一旦健全,有比较明确的保险和定损,自动驾驶就可以上市,我也会愿意坐咱们开发的产品。没有法律的支持,自动驾驶当前还是只能局限在辅助驾驶上,没办法解放驾驶员的人力,也就没办法带来真正的商业利益。没有市场价值,就没办法真正的规模化。

肖然:
这是另外一个层面,就不是技术的突破了,而是社会伦理的突破了。那你们觉得下一个技术突破会在什么地方?

黄浴:
整体来看,仿真应用还没有得到充分发挥,像waymo说能跑1亿英里的仿真数据,却没办法实现自动驾驶。按照我们以前的说法,如果一个车辆能测试通过的话,应该是要开到大概100亿英里这个水平,但我觉得从规划决策来说,它的仿真数据也没有真正的达到真实驾驶的水平,所以这个真实性还有待于提高。所以从技术角度,能够解决仿真的真实性,GPT能够把这个补上。另外从应用的市场来看,不管是主机厂还是创业公司,基本上是两极分化,主机厂的仿真,大多数都是所谓的功能测试,非常简单,它主要是测一些功能,比如说,卡能不能过、前面有障碍物能不能过、拐弯时怎么样,甚至一个个的单独的模式,就类似它的场景库一样,挨个去测,但这说白了只是一个必要特点,它不能够代替实车测试,这种应用的方式有一些过于简单,所以它只能做功能测试,不能够做真正的性能测试。
对于L4或者是这些自动驾驶创业公司来说,它们这方面是要强一些的,但涉及到另外一个问题:实车测试采集的数据能不能在仿真环境下进行泛化,将这个实车场景进一步演化来变成能够覆盖更多的问题,我们要解决的自动驾驶的各种场景相当于很大的一片湖,那么,每一个场景实际上都是相当于一个个的孤岛,但是这些孤岛并没有连成一片,也没有覆盖整个大湖,真正覆盖它可能要通过一些机器学习的方法,比如说强化学习,或者对抗学习的方法,把它泛化,然后让这些数据真的能够去覆盖整个自动驾驶的分布,这样的话,仿真的数据就能够派上用途。所以我觉得,无论从市场还是从技术两个角度来看,仿真如果能够突破,那么对自动驾驶的影响是非常大的,目前它的作用并没有得到充分发挥。

肖然:
黄博士就顺着你这个思路问一下,比如说仿真的角度来讲,当然中国的导航,包括北斗其实也比较准的,现在如果你来对比中国和美国,它在仿真这一块儿,在数据准备或者技术上,你会觉得有什么差异性?

黄浴:
双方的技术差异来说,应该说比自动驾驶行业的发展的差异还要更小一些。当然这个仿真是工具,比如以前做仿真一个是降低成本,第二是能够找到更多的测试,它的多样性能更能体现出来。但目前不管是从美国还是中国来看,这方面的重视度,美国更重视一些,中国重视度要稍微弱一些。从技术的发展来看,它的差距没有自动驾驶那么大,当然它的隐蔽性更强,因为它并不是直接上车的,它只是一个工具,相对来说,大家看不到一些内部细节。
但我还是认为,中美双方都没有充分的利用好仿真。英伟达以前也公布过一套数据平台,基本上也实现了数据闭环,甚至有提供一个开源的可视化平台,类似协作式的一个工作空间,各种工程师、科学家都可以在这上面去工作,整个供应链非常强大,而且更新迭代也非常快。但总的来说,仿真——包括大家所公布的仿真能力(像可以建虚拟化城市、可以做各种各样的场景测试),这个技术还是没有得到充分的发挥。

肖然:
你们的预期是哪一年我们能够实现比较通用型的自动驾驶?

黄浴:
不管是从大模型的角度来突破,还是数据的角度来突破,我觉得发展速度会加快,应该在五年内能够实现一个真正的L4的级别。
王晓雷:
我觉得就跟当时的IT是一样的,要先完成信息化,然后再完成数字化,最后再完成智能化。如果马路上的车基本上一半以上都是电动车,都可以收集数据,那实际上也就解决了信息化和数字化的问题。在这个基础上,可能下一步就敢判断自动驾驶一定会实现。具备了足够大量的真实数据之后,模型本身其实不会再是自动驾驶的瓶颈和门槛。相比于黄博士,可能我的预期会悲观一点,就当前的电车普及速度,自动驾驶的实现可能会比五年更长一点,可能要在马路上跑的车有1/3是电动车以后。
肖然:
其实我对自动驾驶也有一个预期,虽然这个事情被证明其实是非常有难度的一件事情。但是,随着GPT技术的火爆,让大家更多、更加深刻的去认识了基于数据的机器学习这种方法,同时也推动了社会立法包括人们认知的进步,随着越来越多的人能够真正意识到智能到底能帮我们做什么,自动驾驶实现的那一天也会越来越近。


被大模型再次唤醒的自动驾驶会出现下一个“奇点”吗?(图2)

未完待续

被大模型再次唤醒的自动驾驶会出现下一个“奇点”吗?(图3)

如果想要了解更多关于软件研发行业内最新资讯与顶尖案例,请关注即将于6月9-10日在上海举办的K+全球软件研发行业创新峰会,本届峰会以“数字时代的企业拓界与创变”为主题,整合国际前沿技术实践,致力于打造最高效和前沿的技术交流平台,构建多元融合的科技发展创新生态圈,非常期待您的报名与加入! 
被大模型再次唤醒的自动驾驶会出现下一个“奇点”吗?(图4)

被大模型再次唤醒的自动驾驶会出现下一个“奇点”吗?(图5)

点这里↓↓↓记得关注标星哦~



人才培养、版权课程设计与输出、人才培养体系设计与开发等一系列的人力资本专业服务。本平台致力于为企业提供人才培养方面的内容分享。" data-from="0" data-is_biz_ban="0" data-origin_num="79" data-isban="0" data-biz_account_status="0" data-index="0" style="color: initial; font: initial; font-feature-settings: initial; font-kerning: initial; font-optical-sizing: initial; font-synthesis: initial; font-variation-settings: initial; forced-color-adjust: initial; text-orientation: initial; text-rendering: initial; -webkit-font-smoothing: initial; -webkit-locale: initial; -webkit-text-orientation: initial; -webkit-writing-mode: initial; writing-mode: initial; zoom: initial; accent-color: initial; place-content: initial; place-items: initial; place-self: initial; alignment-baseline: initial; animation: initial; app-region: initial; appearance: initial; aspect-ratio: initial; backdrop-filter: initial; backface-visibility: initial; background: initial; background-blend-mode: initial; baseline-shift: initial; block-size: initial; border-block: initial; border: initial; border-radius: initial; border-collapse: initial; border-end-end-radius: initial; border-end-start-radius: initial; border-inline: initial; border-start-end-radius: initial; border-start-start-radius: initial; inset: initial; box-shadow: initial; break-after: initial; break-before: initial; break-inside: initial; buffered-rendering: initial; caption-side: initial; caret-color: initial; clear: initial; clip: initial; clip-path: initial; clip-rule: initial; color-interpolation: initial; color-interpolation-filters: initial; color-rendering: initial; color-scheme: initial; columns: initial; column-fill: initial; gap: initial; column-rule: initial; column-span: initial; contain: initial; contain-intrinsic-block-size: initial; contain-intrinsic-size: initial; contain-intrinsic-inline-size: initial; content: initial; content-visibility: initial; counter-increment: initial; counter-reset: initial; counter-set: initial; cursor: initial; cx: initial; cy: initial; d: initial; display: initial; dominant-baseline: initial; empty-cells: initial; fill: initial; fill-opacity: initial; fill-rule: initial; filter: initial; flex: initial; flex-flow: initial; float: initial; flood-color: initial; flood-opacity: initial; grid: initial; grid-area: initial; height: initial; hyphens: initial; image-orientation: initial; image-rendering: initial; inline-size: initial; inset-block: initial; inset-inline: initial; isolation: initial; letter-spacing: initial; lighting-color: initial; line-break: initial; list-style: initial; margin-block: initial; margin: 0px; margin-inline: initial; marker: initial; mask: initial; mask-type: initial; max-block-size: initial; max-height: initial; max-inline-size: initial; max-width: 100%; min-block-size: initial; min-height: initial; min-inline-size: initial; min-width: initial; mix-blend-mode: initial; object-fit: initial; object-position: initial; offset: initial; opacity: initial; order: initial; orphans: initial; outline: 0px; outline-offset: initial; overflow-anchor: initial; overflow-clip-margin: initial; overflow: initial; overscroll-behavior-block: initial; overscroll-behavior-inline: initial; overscroll-behavior: initial; padding-block: initial; padding: 0px; padding-inline: initial; page: initial; page-orientation: initial; paint-order: initial; perspective: initial; perspective-origin: initial; pointer-events: auto; position: initial; quotes: initial; r: initial; resize: initial; ruby-position: initial; rx: initial; ry: initial; scroll-behavior: initial; scroll-margin-block: initial; scroll-margin: initial; scroll-margin-inline: initial; scroll-padding-block: initial; scroll-padding: initial; scroll-padding-inline: initial; scroll-snap-align: initial; scroll-snap-stop: initial; scroll-snap-type: initial; scrollbar-gutter: initial; shape-image-threshold: initial; shape-margin: initial; shape-outside: initial; shape-rendering: initial; size: initial; speak: initial; stop-color: initial; stop-opacity: initial; stroke: initial; stroke-dasharray: initial; stroke-dashoffset: initial; stroke-linecap: initial; stroke-linejoin: initial; stroke-miterlimit: initial; stroke-opacity: initial; stroke-width: initial; tab-size: initial; table-layout: initial; text-align: initial; text-align-last: initial; text-anchor: initial; text-combine-upright: initial; text-decoration-line: initial; text-decoration-skip-ink: initial; text-indent: initial; text-overflow: initial; text-shadow: initial; text-size-adjust: inherit; text-transform: initial; text-underline-offset: initial; text-underline-position: initial; touch-action: initial; transform: initial; transform-box: initial; transform-origin: initial; transform-style: initial; transition: initial; user-select: initial; vector-effect: initial; vertical-align: initial; visibility: initial; border-spacing: initial; -webkit-border-image: initial; -webkit-box-align: initial; -webkit-box-decoration-break: initial; -webkit-box-direction: initial; -webkit-box-flex: initial; -webkit-box-ordinal-group: initial; -webkit-box-orient: initial; -webkit-box-pack: initial; -webkit-box-reflect: initial; -webkit-highlight: initial; hyphenate-character: initial; -webkit-line-break: initial; -webkit-line-clamp: initial; -webkit-mask-box-image: initial; -webkit-mask: initial; -webkit-mask-composite: initial; -webkit-perspective-origin-x: initial; -webkit-perspective-origin-y: initial; -webkit-print-color-adjust: initial; -webkit-rtl-ordering: initial; -webkit-ruby-position: initial; -webkit-tap-highlight-color: initial; -webkit-text-combine: initial; -webkit-text-decorations-in-effect: initial; text-emphasis: initial; text-emphasis-position: initial; -webkit-text-fill-color: initial; -webkit-text-security: initial; -webkit-text-stroke: initial; -webkit-transform-origin-x: initial; -webkit-transform-origin-y: initial; -webkit-transform-origin-z: initial; -webkit-user-drag: initial; -webkit-user-modify: initial; white-space: initial; widows: initial; width: initial; will-change: initial; word-break: initial; word-spacing: initial; x: initial; y: initial; z-index: initial; box-sizing: border-box !important; overflow-wrap: break-word !important;">

被大模型再次唤醒的自动驾驶会出现下一个“奇点”吗?(图7)


返回列表