AI大模型在自動駕駛中的應(yīng)用_第1頁
AI大模型在自動駕駛中的應(yīng)用_第2頁
AI大模型在自動駕駛中的應(yīng)用_第3頁
AI大模型在自動駕駛中的應(yīng)用_第4頁
AI大模型在自動駕駛中的應(yīng)用_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

AI大模型如何應(yīng)用于自動駕駛算法中?算法是決定自動駕駛車輛感知能力的核心要素。當(dāng)前主流的自動駕駛模型框架分為感知、規(guī)劃決策和執(zhí)行三部分。感知模塊是自動駕駛系統(tǒng)的眼睛,核心任務(wù)包括對采集圖像進(jìn)行檢測、分割等,是后續(xù)決策層的基礎(chǔ),決定了整個自動駕駛模型的上限,在自動駕駛系統(tǒng)中至關(guān)重要。感知模塊硬件部分主要為傳感器,軟件為感知算法,其中算法是決定自動駕駛車感能的心素。圖1.自動駕駛系統(tǒng)分為知決策和執(zhí)行三部分繪制神經(jīng)網(wǎng)絡(luò)加快自動駕駛感知算法發(fā)展,小模型向大模型迭代趨勢明確神經(jīng)網(wǎng)絡(luò)模型的應(yīng)驅(qū)感知算法高速發(fā)展。上世紀(jì)70年,術(shù)校和研構(gòu)展開對自動駕駛技術(shù)的探索,早期的自動駕駛感知算法主要是基于傳統(tǒng)計算機視覺技術(shù),直到200之隨深學(xué)習(xí)術(shù)發(fā),經(jīng)絡(luò)被入自駕感算法,駕駛汽的知果了的提。應(yīng)用于感知層面的經(jīng)絡(luò)模型可以分為兩,類是以CNN、RNN為代的小模型,另一類是Transformer大模型。神經(jīng)網(wǎng)絡(luò)是一種受生物神經(jīng)元啟發(fā)而產(chǎn)生的深度學(xué)習(xí)方法,眾多的感知機構(gòu)成。感知機類似于生物學(xué)中的神經(jīng)元,輸入信號經(jīng)過加權(quán)平均運算,若超過某一個閾值則向后傳遞信號,否則被抑制。不同的神經(jīng)網(wǎng)絡(luò)模型實際就是對感知機之間設(shè)定不同的邏輯關(guān)系。單個感知機工作的過程為:1)感知機前端相當(dāng)于神經(jīng)元樹突,接受輸入號x可以表示x(ab,中a、、c別自個神元原始圖像。2)輸入信號與連接權(quán)重向量w=(w1,w2,w3)進(jìn)行內(nèi)積運算,這實際是對輸入信號進(jìn)行加權(quán)平均。3)在相當(dāng)于神經(jīng)元軸突的感知機后端設(shè)定一個閾值z,當(dāng)加權(quán)平均值達(dá)到閾即xwT+z>感被激向傳信,則感機抑),引非性因素證出續(xù)可對xwT+b體加個活函。圖2.一個感知機就類似個物神經(jīng)元深度經(jīng)絡(luò)NN人智能開端深度神經(jīng)網(wǎng)絡(luò)(DNN)又叫多層感知機神經(jīng)網(wǎng)絡(luò),其中有三個基本類型的層:輸入層、隱層(或者叫中間層,可以有多個、輸出層。不同層之間的感知機全連接,在推理時,前(從輸入層到隱藏層到輸出層)傳遞信號得到推理結(jié)果。在學(xué)習(xí)時則將誤差(真實值和推理值的偏差)反向傳遞(從輸出層到隱藏層到輸入層,實現(xiàn)對感知機參數(shù)(連接權(quán)重和閾值)的更新,直至找到使得誤差最小的一組感知機參數(shù)。在自動駕駛感知模塊中輸入數(shù)據(jù)為圖像,而圖像具有高維數(shù)(對比時間序列通常只是一維向量,對其識別時需要設(shè)置大量輸入神經(jīng)元以及多個中間層,模型參數(shù)量大難以訓(xùn)練且消耗算力高,并可能帶來過擬合的問題。圖3.NN架構(gòu):不同感知全連接,逐層單向遞號繪制卷積經(jīng)絡(luò)NN泛于特提取DNN別像本每一像點行對習(xí),此率低事上,類圖像進(jìn)行識別是并不需要對像素點進(jìn)行逐個對比,而是通過圖像的特征進(jìn)行識別。例如識別人臉時,并不需要對每一個像素點都仔細(xì)觀比對,而是先搜索臉部的輪廓以及眼睛、鼻子等特征,當(dāng)這些特征同時出現(xiàn),就可以判斷圖片中是一張人臉,基于這種思想,CNN卷神經(jīng)網(wǎng)絡(luò)應(yīng)運而生,本質(zhì)上是在信息傳入傳統(tǒng)神經(jīng)網(wǎng)絡(luò)前先做一個特征的提取并進(jìn)行數(shù)據(jù)降維,因此CNN圖像處高緯度向量的任務(wù)更高。圖4.人類能夠通過觀察征效判別人臉繪制CNN能夠高效率處理圖任務(wù)的關(guān)鍵在于其過積層、池化層操作現(xiàn)降維,模型需要訓(xùn)練的參數(shù)量相于DNN來說大幅降低,對件力的要求也相對降。CN的模結(jié)在DNN全接之增了卷層池層用提取像征降數(shù)維度舉而,對于個×864素的原圖CN型設(shè)置個小為3×3的波器即積核“覆蓋”在原始圖片相同大小的區(qū)域之后,對應(yīng)位置元素相乘求和;完成一個位置計算后,向其他區(qū)域平移直到覆蓋整個原始圖片。上述這一過程即“卷積”操作,其中卷積核的值為模型所需要學(xué)習(xí)的參數(shù)。卷積操作的優(yōu)勢在于卷積核與原始圖像每一區(qū)域進(jìn)行運算的參數(shù)相同,降低了模型所需要學(xué)習(xí)的參數(shù)量。池化(Pooing)操作是為了提取一定區(qū)域的要征并一減少續(xù)入連層參數(shù)。對后66的征選取2×2小窗進(jìn)行Maxpoling操(窗內(nèi)取大),征的長寬縮小到的1/。圖5.NN相比于N在全接層之前加入卷積池化層繪制圖6.NN通過卷積和化操提取圖像特征并降數(shù)維度知《從明白卷神經(jīng)網(wǎng)N,但是CNN仍然存在一定的缺陷,多次池化會丟失一些的有價值信息,忽略局部與整體之的關(guān)聯(lián)性。例如進(jìn)行面部識別時,多次池化位置信息有所損失,鼻子、眼睛、嘴特征同時出現(xiàn)CNN就能其別為臉此CNN存誤判概。圖7.多次池化可能丟失征置信息,N可能誤判繪制循環(huán)經(jīng)絡(luò)NN效理有間列息在自動駕駛場景下,感知還需要時序的信息來完成目標(biāo)跟蹤以及視野盲區(qū)預(yù)測等感知任務(wù)。循環(huán)神經(jīng)網(wǎng)絡(luò)RNN與CNN一樣都是傳統(tǒng)神經(jīng)絡(luò)擴(kuò)展,相比于CNN在空進(jìn)行拓展,RNN是在時間上的擴(kuò)展可以用于描述時間連輸出的狀態(tài)。如動駛場中能會出現(xiàn)前方大卡車造成遮擋,如果要判斷視野盲區(qū)里是否有行人就需要結(jié)合被卡車遮擋前的信息由需引循神經(jīng)絡(luò)RNN對序進(jìn)行理RNN與DNN結(jié)構(gòu)相,區(qū)別于NN在藏入“環(huán)每個層上每個憶(質(zhì)就感機)都與上一個時刻隱藏層上的所有記憶連接,這意味著某一時刻網(wǎng)絡(luò)的輸出除了與當(dāng)前時刻的輸入相關(guān),還與之前某一時刻或某幾個時刻的輸出相關(guān)。引入了循環(huán)的隱藏層叫做循環(huán)核,RN助環(huán)提時間征從引了序上相現(xiàn)續(xù)據(jù)的測是RNN的局限主要在于:1)循環(huán)核需要存儲,意味著硬件需要具備更大的緩存。同時記憶體個數(shù)越多存儲歷史狀態(tài)信息的能力越強、訓(xùn)練效果越好,但需要訓(xùn)練的參數(shù)量、消耗的資源也越多,二者共同制約RNN,使其難以學(xué)到長時間距離的依賴關(guān)系。2)RNN并行能力受限,由于某一時刻網(wǎng)絡(luò)的輸出不但與當(dāng)前時刻的輸入相關(guān),還與上一時刻的輸出結(jié)果相關(guān),因此NN法行行算,得算率常限。圖8.NN借助循環(huán)核取時特征,實現(xiàn)連續(xù)數(shù)預(yù)測繪制1.1.2.Transformer大模型的意力機成為自動駛知算法利器Transformer模型的關(guān)在于計算輸入序列素間的關(guān)系權(quán)重,最在NLP領(lǐng)域大放異彩2020年起在CV領(lǐng)域開得到廣泛應(yīng)用。07年谷在NPS發(fā)論《ttentonsallyuned提了Tansfomer絡(luò)構(gòu)基本想假一有輯的列a=a,a2,a3,...,i,..),如文章的文字序列、語音的聲譜序列等,Tansorer模型的關(guān)鍵是每個oke()找與他toen的系權(quán)。此見Traformer在理NLP這樣的序列任務(wù)上具有天然的優(yōu)勢,并迅速成為NLP領(lǐng)域的主流模型。2020年,VT(ViionTrasfomer)網(wǎng)絡(luò)把一個圖片按序切成一個個小片(Pah)后再應(yīng)用Transormr型標(biāo)著Trnsfrmr進(jìn)軍V域并目檢測分等任務(wù)中表出。圖9.asforer的目標(biāo)是找元素間的權(quán)重關(guān)系 圖10.sonrnsormer模型架構(gòu)資料來源:繪制 AnImageisWorth16x16Words:TransformersforImageRecognitionatScale,Transformer成功的關(guān)鍵在于引入注意力(attento)機制。可對意(attnti)機制直觀理解為“只關(guān)注重要的信息而非全部信息,比如當(dāng)我們視線掃過大片文字,注意力會停留在其中的關(guān)鍵詞及關(guān)鍵詞之間的邏輯關(guān)聯(lián)上,而對其余信息則印象不深。神經(jīng)網(wǎng)絡(luò)模型中引入注意力記住的好處在于可以解決存儲時間長度有限的問題(只關(guān)注過往信息中有用的而非全部,同時又沒有重要信息的丟失。注意力機制可以通過運算得到一個矩陣包含任一個元素和其他元素之間多角度的關(guān)聯(lián)度的信息。如圖所示,不同的顏色代表不同的維度,顏色越深代表在這個維度上兩個元素關(guān)聯(lián)度越高。舉例而言,如果識別一個未知的物體X(木床,這個矩陣就代表在材料維度物體和木桶關(guān)聯(lián)度最高,在形狀維度和鐵床關(guān)聯(lián)度最高,通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練后可以得到正確的結(jié)果(這里的例子僅為方便理解,attenion機在際用時以出基的素之的關(guān)信。圖11.注意力機制能夠獲一元素和其他元素多度關(guān)度的矩陣資料來源:繪制Transormr要編器Ecod和碼Decod兩分成碼器責(zé)輸入數(shù)據(jù)編碼成一個向量表示,解碼器則根據(jù)這個向量生成輸出數(shù)據(jù)。其中編碼器基于多頭自注意力機制(Mul-HadSef-Atenion,解碼器基于多頭交叉注意力機制(ult-Headros-Atento在Trnsfrmr型輸入素過次性換,別到查詢量QQue向量(Ke)值向量(Val這個量代表同個輸入元素,但經(jīng)過不同的線性變換后,它們的表示和功能都有所不同。其中,查詢向量Q用于檢索與當(dāng)前輸入元素相關(guān)的其他元素;鍵向量K用于幫助查詢向量找到與之相關(guān)的元素值向量V用于表示輸入元素的實際信息。輸出向量可以表示為??????????(??,??,??)=????????(??????)??,具體的程如下)算查詢向與鍵向的積,得到意力得,??點積結(jié)果越大表明相似度越高,注意力得分越高。2)對注意力得分進(jìn)行縮放和歸一化為概率分布。3)用歸一化后的注意力得分對值向量進(jìn)行加權(quán)求和,得到輸出向量。自注意力制中,Q、K、V三個參來自于同一個輸入列用序列中所有元素量加權(quán)和來代表某一個元素的向量,因此自注意力機制可以捕捉輸入數(shù)據(jù)中的長距離依賴關(guān)系,常用于特征提取。所謂“多頭注意力機制”是一種并行計算的注意力方法,它將輸入數(shù)據(jù)分成多個部分(稱為“頭,然后分別計算各部分的注意力得分。這樣做的好處是,不同的頭可以關(guān)注輸入數(shù)據(jù)的不同部分,從而捕捉到更多的特征。交叉注意力機制與自注意力機制的計算過程類似,核心區(qū)在交叉注意力機制中Q和/V的來源不同,因此常用來做不同序列之間的轉(zhuǎn)換。圖12.編碼器解碼器架構(gòu)繪制圖13.ransfomer架構(gòu)ttnsllYued,Transformer憑借優(yōu)秀的長序列處理能力和更高的并行計算效率,2021年由特斯拉引入動駕駛領(lǐng)域。Transformer與CNN相比最大的優(yōu)在于其泛化性更強。NN只能標(biāo)過物體進(jìn)行相似度的比對,通過不斷學(xué)習(xí)完成對該物體識別的任務(wù);而tansormer可以通過注意力層的結(jié)構(gòu)找到更基本的元素與元素間之間多個維度的相關(guān)信息進(jìn)而找到一種更泛化的相似規(guī)律,進(jìn)而提高自動駕駛的泛化能力。同時,不同于RN存在存儲時間長度有以及序賴問,Tnsforer模具更并行算率且以習(xí)到時距離的賴系。特征級融合逐步取代后融合,BEV+Transformer為當(dāng)前主流方案自動駕駛感知模塊通常配備多個傳感器(甚至多種傳感器)達(dá)到安全冗余和信息互補的作用,但不同傳感器傳遞的信息存在相互沖突的可能性。舉例而言,如果一個傳感器識別到前方有行人要求汽車立即剎車,而另一傳感器顯示可以繼續(xù)安全行駛,在這種情況下如果不對傳感器信息進(jìn)行融合,汽車就會“感到迷茫,進(jìn)而導(dǎo)致意外的發(fā)生。因此,在使用種()感采信時必進(jìn)信交、。自動駕駛感知技術(shù)后合向特征級融合迭趨明確感知可粗略分為獲取數(shù)據(jù)、提取特征、完成感知任務(wù)三個環(huán)節(jié),按照信息融合發(fā)生的環(huán)節(jié)自動駕駛感知技術(shù)可以分為前融合、特征融合以及后融合。后融合即目標(biāo)級融合,指單個傳感器分別完成感知任務(wù)后再進(jìn)行融合,可理解為有多少個傳感器即需要幾套感知算法。前融合即數(shù)據(jù)級融合,指對不同傳感器的原始數(shù)據(jù)進(jìn)行空間和時間上的對齊,再從融合數(shù)據(jù)中提取特征向量進(jìn)行識別,整套自動駕駛系統(tǒng)僅需要一套感知算法。而特征級融合是指對傳集原數(shù)分別行征取再行融,而現(xiàn)應(yīng)感知務(wù)。圖14.按照融合環(huán)節(jié)不同為前特征后融合繪制后融合方案因易實現(xiàn)、對算力要求低等優(yōu)勢在自動駕駛發(fā)展早期成為主流方案。后融合方案由中每個傳感器采集原始數(shù)據(jù)后獨立進(jìn)行特征提取和目標(biāo)檢測再由自動駕駛域控制器對進(jìn)行預(yù)測結(jié)果融合。后融合方案具備三個顯著的優(yōu)勢,1)主機廠在自身感知算法能力有限時可快速量產(chǎn):后融合算法比較簡單,每種傳感器的識別結(jié)果輸入到融合模塊,融合模塊對各傳感器在不同場景下的識別結(jié)果,設(shè)置不同的置信度,最終根據(jù)融合策略進(jìn)行決策。且不傳器感算可以由應(yīng)完,如Moilee提的目一化方案即直接輸出感知識別的結(jié)果,由此也可以幫助主機廠在自身感知算法能力有限時實現(xiàn)快速量產(chǎn)。2)對算力、帶寬要求低:根據(jù)機器之心的數(shù)據(jù),傳感器后融合的策略對車端算力的要求僅在100ops以內(nèi),同時因為傳感器與域控制器之間只需要傳輸感知結(jié)果而非原始數(shù)據(jù),對通信帶寬的要求也大大降低。3)不同的傳感器都獨立進(jìn)行目標(biāo)識別,解耦性好,且各傳感器可以互為冗余備份。在行業(yè)發(fā)展的早期階段自動駕駛等級低,對感知精度要求不高后合案借述優(yōu)成多自駕廠商主選,特拉在020前就采用后融合方案。但隨著自動駕駛的發(fā)展,由于后融合方案精度較低(后融合過程中低置信度信息會被過濾掉,產(chǎn)生原始數(shù)據(jù)的丟失,并且可能誤差疊加,難以滿足高級別自動駕駛的要求。同時,后融合是一種基于規(guī)則的方法,需要根據(jù)先驗知識對傳感器設(shè)定置信度局性顯。圖15.后融合過程繪制前融合方案感知精度相比于后融合大幅提升,但對算法、車端算力要求大幅提升。前融合通過空間、時間對齊直接融合不同模態(tài)的原始傳感器數(shù)據(jù)再從融合后的綜合數(shù)據(jù)中提取特征向量進(jìn)行識別。前融合方案優(yōu)勢明顯,通過對原始數(shù)據(jù)進(jìn)行融合因而可以保證數(shù)據(jù)不會丟失,感知精度較高。同時傳感器無需對原始數(shù)據(jù)進(jìn)行處理,原先置于傳感器內(nèi)部的SoC芯片以配但題于1)需要足夠優(yōu)秀合算法,始據(jù)度高特復(fù),網(wǎng)絡(luò)理解起來比較困難,因此對于算法的設(shè)計要求較高。2)對車端算力要求大幅提升,要將原始數(shù)據(jù)噪聲去除,在時間、空間上將數(shù)據(jù)對齊而后融合提取特征,這個過程需要消耗大的力根機之心據(jù)車至要500-100ps才實融合對實現(xiàn)后合需00Tps算力。圖16.前融合過程繪制特征級融合方案相比于后融合數(shù)據(jù)損失小、相比于前融合的算力消耗低,自動駕駛感知技術(shù)從后融合向特征融迭代趨勢明確,目主的方案是在3/4D空間進(jìn)行特征級融特征融是在/4D空間融跨態(tài)據(jù)先從個感提的始觀數(shù)提取代表性的特征,再把這些特征融合成單一的特征向量進(jìn)而識別。根據(jù)機器之心數(shù)據(jù),前融合要50-100ops算力而征融僅要300-0Tps算。外trnsfrmr算法的發(fā)展大大提升了在BEV空間進(jìn)行特征融合的效果,目前特征級融合成為主流的融合方案。圖17.特征級融合過程繪制Transformer大幅提升BEV空間中的特征級融合果BEV(Bird'sEyeView)鳥瞰圖也可以稱之為“上帝視角,是一種用于描述感知世界的標(biāo)系,在BEV空間中可進(jìn)行自動駕駛感知塊前融合、特征級融或后融合。BEV鳥瞰圖僅是一種對感知世界的表達(dá)方式,因此其也可廣泛應(yīng)用在純視覺方案、多傳感器融合方案以及車路協(xié)同案。在BEV空間中進(jìn)行后融轉(zhuǎn)換主要為基于規(guī)的法。傳的BV換主要于PM(逆透視變換。攝像頭所采集到的2D圖像,因透視關(guān)系的存在會呈現(xiàn)出近大遠(yuǎn)小的情況如真世中行車線在D視中表出不行IPM就利相機像中的坐標(biāo)系轉(zhuǎn)化關(guān)系,對其原理進(jìn)行抽象和簡化,得到真實世界坐標(biāo)系和圖像坐標(biāo)系之間坐標(biāo)的對應(yīng)關(guān)系,并進(jìn)行公式化描述,從而消除這種透視效應(yīng)。但PM方法依賴于嚴(yán)苛的假設(shè),如地面是完美水平、相機和地面之間不存在相對運動,因此任何的車輛顛簸或者道路有高度變化都會打破這一假設(shè),使得BV輸出的圖像面臨失真。同時,由于透視投影,在2D像完不的結(jié)果到BEV空中度很,其遠(yuǎn)離區(qū)域。圖18.圖像空間中的感知果過后融合投影到V空中出現(xiàn)嚴(yán)重的失真特拉AIDy,

為了克服以上問題,當(dāng)前主流的方案是在BEV空間中基于深度學(xué)習(xí)的方法做特征級融合。具體流如:BV知的本程1)特征提?。簜髌骷紦?jù)(D視)輸入到共享的骨干網(wǎng)絡(luò)(ackboe,分別提取數(shù)據(jù)特征(fetur。2)空間變換+特征級融合:在EV空間內(nèi),對分別提取到的特征進(jìn)行融合,包括多個攝像頭數(shù)據(jù)特征的融合和多種類傳感器的數(shù)據(jù)融合,比如將像素級的視覺數(shù)據(jù)特征和激光雷達(dá)點云特征進(jìn)行融合。融入時序形成4D空間時序息于動駛知任十重,過序信可斷面前的車是否出于移動狀態(tài)并且可以連續(xù)預(yù)測。4)多任務(wù)輸出:包括靜態(tài)語義地圖、動態(tài)檢測運預(yù)等輸下游控塊用。圖19.BV感知框架繪制在BEV空間中做特征合早期的代表性算為偉達(dá)2020年提出的LSS算法,是基于深度分布估計進(jìn)行BEV轉(zhuǎn)換的開山之作。所采的D視缺了深信,LSS法的本想對NN共網(wǎng)提的征做深估,且里深度計不是一確的,是出一列概分,此成3D的錐云最后通機的內(nèi)參到BEV空中。圖20.英偉達(dá)SS算法基本架構(gòu)f,l,ht:Eongigsomaiaymaisiliynocngto3d,Transformer交叉注意機制對于BEV空間轉(zhuǎn)換務(wù)適配性較高,目成特斯拉、小鵬等自動駕駛廠商主流的技術(shù)方案。與基于深度分布估計方法最顯著的區(qū)別在于基于交叉注意力機的法有示深度計而用意機制接行同列指2D特和BEV圖之的換如前所,叉意機制的Qery和KeyVlue源同,因此天然適配于不同域之間的數(shù)據(jù)轉(zhuǎn)換。在2D特征圖向BEV空間轉(zhuǎn)換的過程中,首先將BEV間割成3D格之后它編成組Qery量,去2D征查詢應(yīng)點,從而現(xiàn)間轉(zhuǎn)。據(jù)221年拉AIDa,過Tansormr交注意機在BEV間做征融的效遠(yuǎn)于于則方在BEV空內(nèi)融。圖21.特斯拉基于rnsormer的EV空間轉(zhuǎn)換架構(gòu)特拉AIDy,圖22.BV轉(zhuǎn)換過程特拉AIDy,圖23.基于交叉注意力機在V空間內(nèi)做特征級融合效果遠(yuǎn)好于基于規(guī)的法在EV空間內(nèi)后融合特拉AIDy,

AI大模型的應(yīng)用對自動駕駛領(lǐng)域所帶來的好處?城市NGP落地在即,AI大模型的應(yīng)用驅(qū)動自動駕駛算法具備更強的泛化力自動駕駛向更高等邁,城市領(lǐng)航輔助駕落在。當(dāng)大數(shù)機實了2的自動駕駛,車輛可以在單一功能下實現(xiàn)車輛的橫向和縱向控制,比如TJA(交通擁堵輔助、WA(高速駕駛輔助、APA(自動泊車輔助)等,根據(jù)高工智能汽車數(shù)據(jù),202年我國L2級輔駕(含L)裝配交付85.99萬輛同增長6.66前裝載升至2940。0212022年國內(nèi)新勢力和自主主機廠旗下新設(shè)的新能源品牌陸續(xù)落地高速領(lǐng)航輔助駕駛,達(dá)到了L2+級別自動駕駛,能夠在高速(+匝道)場景下由自動駕駛系統(tǒng)獨立完成橫縱向車身控制。目前,主機廠正逐步從高速領(lǐng)航輔助駕駛向城市領(lǐng)航輔助駕駛拓展,2021年7月斯率北送FDBtaV9測城市路全動駛能,內(nèi)機廠中小鵬、理想、長城毫末、華為極狐等也于20-2023年明確計劃推出城市場景下的領(lǐng)航功。表1:2023年多家主機廠預(yù)計出城市領(lǐng)航輔助駕駛主機廠時間描述1年1月6日正式推送高速NGP2年9月7日廣州首發(fā)城市NG(有高精度地圖)小鵬 3年3月1日 G9和7iMx版車型上城市GP新增開放廣州、深圳、上海三地;無圖城市能夠帶來綠燈識別、啟停,以及無車道線的繞行等場景。22H2 大部分的無圖城市都能夠有接近城市NGP的能力4 實現(xiàn)全場景(高速城區(qū)泊車)的領(lǐng)航輔助駕駛蔚來0年0月 推送高速領(lǐng)航輔助駕駛NOP3年1月 推送NO+Bt,高速領(lǐng)航輔助駕駛體驗升級標(biāo)配高速NOAADMx2.0視覺融合Lidr,Dro20純視覺高速NOA22Q2 城市NOA(脫高精度)內(nèi)測3年底 城市NOA(脫高精度)覆蓋00城問界M5智駕

22Q2 華為城區(qū)NCA落地5城(有精度地圖)22Q3 華為城區(qū)NCA落地5城(高精度地圖)22Q4 華為城區(qū)NCA落地5城(高精度地圖)極狐阿爾法S2年9月在深圳開通城市NCA功能3年3月日在深圳、上海、廣州三城開通城市NCA功能上汽智己3年4月L7推送5個城市高速NOA年內(nèi)推廣至全國3年內(nèi)智己城市NOA領(lǐng)航輔助以替代高精地圖的數(shù)據(jù)驅(qū)動道路環(huán)境感知模型公測。注:PNAC、P指領(lǐng)輔助駕,各機廠名有差異小汽車03技術(shù)構(gòu)發(fā)布,理汽車雙能略純電解方案布,03華為能汽車決方發(fā)布等,城市場景具有高頻+剛需特征,城市領(lǐng)航系統(tǒng)的成熟應(yīng)用可使得駕駛體驗擁有質(zhì)的提升。據(jù)小鵬科技日公開數(shù)據(jù),用戶在用車過程中,途徑城市場景的用戶數(shù)量達(dá)到100,途徑長及程滲率到和7因城場備高特。外市景交復(fù)度高,駕駛?cè)俗⒁饬π枰叨燃写_保駕駛安全、同時交通堵塞等降低駕駛效率的情況不可避,得市景身是駛的點在市場下現(xiàn)動駛備剛特。圖24.城市場景具有高頻剛特征,落地價值凸顯小科技路演料,而從高速場景拓展城場景,意味著車輛遇的長尾問題(或者是Crnercase)大幅提升。高速場景在特定路段下較為封閉,交通環(huán)境的標(biāo)準(zhǔn)化程度高;且高速駕駛規(guī)定對車輛的駕駛行為進(jìn)行了明確的規(guī)范,交通參與者單純不涉及到行人,并且駕駛狀態(tài)的可預(yù)測性更強,因此高速NOA成為率先落地的場景。然而,城市場景下道路及路況復(fù)雜(紅燈路口、交通參與者多(行人、低速兩輪車、場景異質(zhì)性強(不同城市甚至不同路段路況差性自駕到的Conercase大因此,城市領(lǐng)航輔駕駛的落地需求對自動駕駛模型的泛化能力提出更高的要求,同時考慮到商業(yè)化落地的成本約束,我們認(rèn)為,應(yīng)用AI大模高泛化能+降低/控制端硬件成本是自動駛法演變的核心絡(luò)。圖25.高速場景自動駕駛rnercase較少he公號,圖26.城市場景自動駕駛rnercase大幅提升he公號,

從特斯拉感知算法迭代歷程看AI大模型對城市NGP的賦能方向簡單復(fù)盤特斯拉算法迭代歷程:1)2018年之前:后融合策略,在每個視角下處理多個task將個片測到的果進(jìn)融。2020-02:個像入個img,分別經(jīng)過多個主干網(wǎng)絡(luò),抽取每個iage特征,經(jīng)過BEVranforer轉(zhuǎn)換,特征投影到BEV視,完很多個task實特級念融合4)02:從BEV升級占網(wǎng),達(dá)到“偽激光雷達(dá)”的效果??偨Y(jié)來看,特斯拉從“第一原則性”角度出發(fā),堅持純視覺方案。從特斯拉算法迭代方向來看,追求泛化,通過視覺的方案刻畫真實的物理世界。2020年8月斯發(fā)特稱斯正重自駕駛層法2021年7月特拉式推送SDetaV9.,過重感算讓斯只要純覺可實城市別全自動202年11特斯開送FSDeaV11版,一提用網(wǎng)算,在近離礙召和劣天條下精,Tnsforer空分率了4。圖27.特斯拉自動駕駛算迭歷程D,第一階段:BEV+transformer,實現(xiàn)“脫高精度地”高精地圖能夠提供超視距、厘米級相對定位及導(dǎo)航信息,在數(shù)據(jù)和算法尚未成熟到脫圖之前,尤其針對國內(nèi)的復(fù)雜路況,其對主機廠實現(xiàn)高階自動駕駛功能具有重要意義,現(xiàn)階段國內(nèi)主機廠實現(xiàn)城市領(lǐng)航輔助駕駛落地的主要基于高精度地圖+單車感知的方案。但高精地圖方案缺陷較為突出,在自動駕駛感知算法成熟之后“脫高精度地圖”趨勢明確。高精度地圖的生產(chǎn)流程,首先需要搭載高精度傳感器的數(shù)據(jù)采集車進(jìn)行數(shù)據(jù)采集,之后將采集的點數(shù)用LAM算拼接準(zhǔn),注把有的圖元標(biāo)出,這流自動駕駛感知過程具有相似之處。在應(yīng)用過程中最為突出的三個問題為:1)無法做到實施新;2)法規(guī)風(fēng)險;3)成本。難以實施更新:高精地圖數(shù)據(jù)規(guī)模巨大,導(dǎo)致制圖和更新都耗費較長時間。據(jù)統(tǒng)計高精地圖中于條路采需要4個據(jù);以靜地層例Wayo單數(shù)集量達(dá)到1TB僅蓋約h車。商采用采集更新1次國公路城快速路的高精度地圖的頻率約為3個月,通過(出租車)眾包方式更新頻率也僅能提升至月度頻率。然而,道路環(huán)境的變化是實時發(fā)生的,不能做到實施更新的高精度地圖可靠性大幅下降。表2:高精地圖在城市道覆度有限數(shù)據(jù)層次數(shù)據(jù)層次 內(nèi)容 更新頻率需求月永久靜數(shù)據(jù) 車道模型(包車道、曲、度、橫)、路部(馬線月站、路標(biāo))等半永久態(tài)數(shù)據(jù) 交通管情況道路工情、氣預(yù)報一段長時內(nèi)等信息 天級半動態(tài)據(jù) 道路擁情況是否交通故詳細(xì)的氣情(短時或局地區(qū)等動態(tài)通信息

分鐘級動態(tài)數(shù)據(jù) 車輛運情況行人據(jù)、通號燈數(shù)等 秒級資料來:九智駕,法規(guī)風(fēng)險:高精地圖提供精確至車道級的道路敏感信息,高精度和覆蓋廣泛的道路信息涉及國信安問,此政對精圖制資格求格202年9月然部發(fā)布《關(guān)于促進(jìn)智能網(wǎng)聯(lián)汽車發(fā)展維護(hù)測繪地理信息安全的通知,收緊高精地圖測繪資質(zhì)重審后201共31家企擁資,222僅剩9高成本:根據(jù)汽車之心,高精度地圖廠商的盈利模式主要采用licnse+服務(wù)費模式,①主機廠在與圖商確認(rèn)開發(fā)高精地圖時支付一筆開發(fā)費用(約幾千萬,②后續(xù)上車時收取單車licene權(quán)約000,③來年車取0-500元費這模式,自動駕主廠言無實現(xiàn)模應(yīng)。表3:傳統(tǒng)地圖與高精地盈模式的區(qū)別圖商圖商 盈利模式傳統(tǒng)圖商 離線圖ce費用高精地高精地圖商 開發(fā)+ce+服費汽之心,

自動駕駛感知算法向BEVtransformer架構(gòu)升級,助力城市領(lǐng)航輔助駕駛脫高精度地圖。自動駛輛過機到的透視,即3D世界在2D世的影并且于安裝位置的相機提供的是不同視角下的投影,然而所有自動駕駛的決策和路徑規(guī)劃都是在車輛所的D界進(jìn)的,樣維不配使得于知果接行自駕得異常困難。以人類駕駛舉例而言,新手學(xué)倒車時難以利用后視鏡觀察到的場景與車子與周圍環(huán)的D間系即缺從視圖平到自坐系間換空間解新手倒鏡容發(fā)誤操造剮。221特斯拉AIay提出EV鳥瞰感技術(shù)就為解這問。BEV鳥瞰可理在車正方1020位置一直升機俯視車輛及周圍環(huán)境的視角,從輸入的不同視角的圖片到EV鳥瞰圖本質(zhì)上就是一個標(biāo)系變。圖28.BV鳥瞰圖視角he公號,同時特斯拉BEV感知模型為特征級融合,極大的提高了模型在極端天氣工況下的應(yīng)對能力在后融合中,由攝像頭中的視頻芯片判斷采集數(shù)據(jù)是否合格并進(jìn)行處理,再傳到自動駕駛域控制器中,這里需要注意的時,攝像頭中芯片判斷采集數(shù)據(jù)是否合格的標(biāo)準(zhǔn)本質(zhì)上是人的標(biāo)準(zhǔn)。在后融合模型下,如果遇到極限雨雪天極限天氣工況,攝像頭采集到的數(shù)據(jù)/視頻流清晰度大幅下降,很難達(dá)到攝像頭判斷合格的標(biāo)準(zhǔn),因此傳遞給后端做規(guī)劃控制的結(jié)果大幅下降。與后融合模型不同,從不同視角的攝像頭采集到的圖片轉(zhuǎn)換到BV視角的過程中是特征級的融合,比如在極端天氣工況下有一些光子信息依然反應(yīng)了前方障礙物的情況可以于續(xù)規(guī)控,在征融的架感知型數(shù)的用明顯升。BEV鳥瞰圖相當(dāng)于自動駕駛車輛實施生成“活地圖,因而可以實現(xiàn)去高精度地圖化。相于導(dǎo)航地圖,高精度地圖能夠提供更多的道路拓?fù)湫畔ⅲ热缂t綠燈、車道線、斑馬線、坡度曲、道的確信,導(dǎo)地會有10-20米誤。BEV模型過同視角的攝像頭采集到的圖片統(tǒng)一轉(zhuǎn)換到上帝視角,相當(dāng)于車輛實施生成活地圖,補足了自動駕后決所要道路撲息因可實現(xiàn)高度圖。圖29.特斯拉V語義地圖 圖30.理想EV語義地圖特拉AIDy,

一方面高精度地圖方案在城市場景下缺陷明顯,同時特斯拉BEV+Transformer方案為行業(yè)“脫圖”提供了技術(shù)上的可行性,我們認(rèn)為“輕地圖,重感知”將成為行業(yè)發(fā)展的主流方向,小鵬等國內(nèi)自駕廠商均提出“脫圖時表。在鵬024科中,責(zé)吳新宙多強未來G9搭的XNGP動駛統(tǒng)無需賴精圖實城市高地下停車場的全場景應(yīng)用,其主要的思路是在原有硬件基礎(chǔ)上,推出新的視覺感知架構(gòu)Ne其利用多相機多幀和雷達(dá)傳感器數(shù)據(jù)的融合算法,直接輸出EV視角下交通參與者的靜態(tài)和動態(tài)信息(狀態(tài)、速度、行為預(yù)測等,具備實時生成高精地圖的能力。與特斯拉不同,小鵬仍保留了激光雷達(dá)傳感器提供感知冗余,預(yù)計將引領(lǐng)主機廠實現(xiàn)脫圖技術(shù)上的突破,拓寬場領(lǐng)駕的用城。圖31.Xet感知架構(gòu)重感知、地圖小科技資料,表4:主要自動駕駛廠商布圖時間自動駕廠商宣布“圖時”新架構(gòu)稱小鵬2204IayXP毫末2315AOIAY毫末市理想2318李想“O全體工的一信”表示ADMx0華為2333華為03春季艦品發(fā)布會AS0元戎啟行23/2Dpu-ir.0小馬智行 23/1PyaicPyoPytaMea2312智己車IMTHAYIMADNA哪吒22/8TAPOT40資料來:小科技,末Ia,電車百大會,第二階段:升級到用絡(luò),實現(xiàn)“脫激光達(dá)”從BEV升級到占用網(wǎng)絡(luò),進(jìn)一步提升泛化能力。特斯拉在2022年IDay中展現(xiàn)了OccupncyNetork感技術(shù)基的想將維空劃成素oxe(可理微小立體,去測個voxel是占還閑,過0/1賦對vol進(jìn)二類:有物的voxl為,示vxel被體;沒物的voxl值為0實中的賦可是率,示voel在體概。圖32.BV與占用網(wǎng)絡(luò)效果對比特拉AIDy,占用網(wǎng)絡(luò)感知技術(shù)本質(zhì)上是為了解決更多的長尾問題。純視覺方案被質(zhì)疑的一大問題在于對于沒有在訓(xùn)練集中出現(xiàn)過的物體,視覺系統(tǒng)則無法識別,比如側(cè)翻的白色大卡車,垃圾桶出現(xiàn)的路中,傳統(tǒng)視覺算法無法檢測到。占用網(wǎng)絡(luò)模型的基本思想是“不考慮這個物體到底是什么,只考慮體素是否被占用,則從根本上避免了這一問題,大幅提升了模型的泛化能。特拉IDy演效來,斯通過積瞰、用測和素使純視方已達(dá)“激光達(dá)效。圖33.BV與占用網(wǎng)絡(luò)效果對比特拉AIDy,增配4D毫米波雷達(dá),一步保證安全性,底代激光雷達(dá)。拉HW0留4D毫米波雷達(dá)接口,或?qū)⒅貑⒑撩撞ɡ走_(dá),彌補純視覺算法不足。對于純視覺算法而言實際是缺乏高度信息,D信息依靠“近大遠(yuǎn)小”來估算,如果說前方道路上有一張畫著立體卡車的畫,覺法以斷是一畫是的一車而4D毫波達(dá)很好解一問題從本看4D米波達(dá)格于線激光達(dá)根焉汽數(shù)據(jù)MEMS激光雷價大在00000不,時據(jù)工智汽數(shù)D波雷售為1000-000元。第三階段:從感知決控制端到端的自動駛型有望成為未來發(fā)方向在當(dāng)前自動駕駛模型架構(gòu)中將駕駛目標(biāo)劃分為感知、規(guī)劃、控制三個大的模塊,而端到端則打破模塊之間的劃分,直接輸出最終的結(jié)果。有的模型思路是感知模塊輸出BV鳥瞰圖(者Ocupnc)結(jié)果規(guī)和制塊依據(jù)BV鳥圖果預(yù)測執(zhí)而在端到端(end-to-end)模型中,輸入數(shù)據(jù)是攝像頭采集的到的視頻流rawdata,輸出據(jù)直接是如方向盤轉(zhuǎn)角多少度的控制決策。端到端的思路更類似于人的駕駛過程,人的駕駛決策往往基于經(jīng)驗,司機駕駛車輛時并不會刻意對基于視覺/眼睛提供的信息進(jìn)行分析,即不會去判斷我看到了什么,也不會對看到的物體和狀態(tài)做分析,駕駛員固有的“經(jīng)驗”所活躍的腦質(zhì)皮層在一種“黑盒”的狀態(tài)下,完成駕駛決策,并協(xié)調(diào)耳眼手腳,共同完成駕駛務(wù)。AI技術(shù)將“場景-駕駛行為”的映射轉(zhuǎn)變?yōu)椤皥鼍?車輛控制”的“端到端”式映射。深強化學(xué)習(xí)(DRL)結(jié)合了深度學(xué)習(xí)算法的“感知能力”和強化學(xué)習(xí)算法的“決策能力,為復(fù)雜駕駛場景的感知決策問題提供解決方案。其中,深度學(xué)習(xí)負(fù)責(zé)復(fù)雜駕駛場景的感知和特征提取如同人類的眼睛;強化學(xué)習(xí)部分通過馬爾可夫決策過程完成推理、判斷和決策如同人DL原框是一是到感和策控系。圖34.深度強化學(xué)習(xí)典型架資料來源:,CSDN目前部分自動駕駛與對于特定的功能已以現(xiàn)端到端。如016偉達(dá)表論文EndtoEndLernigfrSelfDriingCas紹了現(xiàn)道持能端到模。CNN深度神經(jīng)網(wǎng)絡(luò)在對于視覺信息處理之后(通過卷積層,會通過全連接層給出一個基于以前學(xué)習(xí)經(jīng)驗得出的方向盤角度(Steringcomad,而此時此刻真實的人類操作也將被引入與NN的出行比。比結(jié)/差回CNN絡(luò)去正個盒狀下全連接層參數(shù)。這里需要特別注意的是,在整個端到端模型中,不存在單獨的“圖像識別檢測”任務(wù)。圖35.車道保持功能的端端練框架dondLrngfrlfDvgas,端到端理論上可以更大程度的提高模型的泛化能力,有望成為自動駕駛模型進(jìn)一步發(fā)展的趨勢。我對前Ocpancy的出果人駛時判的據(jù)可發(fā)現(xiàn)ccuancy依然具有信息的損失。舉例而言,人在駕駛車輛時可以參考行人的姿勢等來輔助決策,然而在現(xiàn)有感知模型輸出cupany結(jié)果則丟失了這一信息。因此,相比于現(xiàn)有的感知、決策、歸控區(qū)分模塊的自動駕駛模型結(jié)果,端到端模型做出決策的依據(jù)信息量更大,模型自身的由也大因具備強的化力。AI大模型應(yīng)用于自動駕駛中的前置條件?條件一:具備相當(dāng)數(shù)量的里程數(shù)據(jù),因而自動標(biāo)注+仿真平臺環(huán)節(jié)將尤為重要Transformer大模型量變引起質(zhì)變需要1億公里的里程數(shù)據(jù)。相比于N小模型來說,Transormr要大的數(shù)來練型根毫末行EO顧顥末AIDAY上表示,訓(xùn)練出一個能輸出高精度和準(zhǔn)確度的自動駕駛大模型,自動駕駛測試?yán)锍虜?shù)據(jù)需至少達(dá)到1公同時,訓(xùn)練Transformer大模型比于CNN小模型來說所求的數(shù)據(jù)顆度不同(如傳感器配置、精度不同,因此在小模型時代所積累的數(shù)據(jù)存在部分無法用于大模型的訓(xùn)練。對于自動駕駛廠商而言,所積累的數(shù)據(jù)量、對數(shù)據(jù)的處理極大的影響自動駕駛模型的迭代速度。自動駕駛訓(xùn)練所需要的真實數(shù)據(jù)來源主要包括采集車數(shù)據(jù)和眾包數(shù)據(jù)。自動駕駛廠商具有專業(yè)的測試車隊,搭載高性能的傳感器用于采集真實場景的數(shù)據(jù),這里需要注意的是,即便對于特斯拉這樣純視覺路線的廠商,采集車通常也搭載有激光雷達(dá),用于測試中的真值校驗。除此之外,對于有量產(chǎn)車的主機廠而言,可以通過“眾包采集”的方式迅速收集數(shù)據(jù)。如特斯拉首創(chuàng)的“影子模式,在有人駕駛狀態(tài)下,系統(tǒng)包括傳感器仍然運行但并不參與車輛控制,只是對決策算法進(jìn)行驗證——系統(tǒng)的算法在“影子模式”下做持續(xù)模擬決策,并且把決策與駕駛員的行為進(jìn)行對比,一旦兩者不一致,該場景便被判定為“極端工況,進(jìn)而發(fā)據(jù)傳。圖36.特斯拉數(shù)據(jù)引擎特拉Ia,其中,傳感器采集到的raw-data需進(jìn)行標(biāo)注后可用于算法模型訓(xùn),動標(biāo)注工具大幅提升數(shù)據(jù)處理度。018年今特拉標(biāo)注歷了4個展:1)第1階段(2018年前)只純工的2維圖標(biāo),率較;)第2階(209:工行3D固框圖標(biāo);)第3階(200)采用BEV空進(jìn)標(biāo);)第4階段(021:首先場進(jìn)重在4D間進(jìn)標(biāo),、效都到幅升特斯自標(biāo)注系可代500萬時的工業(yè),工需要查漏。圖37.特斯拉自動標(biāo)注系迭歷程資料來:特拉Ia,國內(nèi)廠商中小鵬、毫末智行等亦相繼推出自動標(biāo)注工具,在降低人工成本的同時,效率得到顯著提升。據(jù)鵬技日料小推自動注效提近45000,以前2,000人的注,現(xiàn)在1.7天以。毫智在AIay表示于視覺自督模,現(xiàn)DClip的10動注原先靠人標(biāo)成則低98圖38.毫末視頻自監(jiān)督大型毫末AIDy,除了真實場景數(shù)據(jù)外,仿真場景是彌補訓(xùn)練大模型數(shù)據(jù)不足問題的重要解決方式。仿真場景通常由虛擬引擎構(gòu)建,通過把構(gòu)建的場景導(dǎo)出為虛擬標(biāo)注數(shù)據(jù)集,并且在數(shù)據(jù)集中加入傳感器噪聲及增加雨雪等惡劣天氣干擾因素后,可以用于感知訓(xùn)練數(shù)據(jù)增強,極大的豐富了訓(xùn)練數(shù)。相比于采集車數(shù)據(jù)和眾包數(shù)據(jù),仿真測試數(shù)據(jù)具有低成本、無需標(biāo)注、可以構(gòu)建邊場的勢:低成本:仿真場景無需真實場景的數(shù)據(jù)采集一樣配套相應(yīng)車隊、傳感器以及人工,此數(shù)據(jù)獲取成本大幅下降。根據(jù)元戎啟行官方公眾號,仿真測試成本僅為真實路測成的1,用1天間實現(xiàn)實測1個的程積。無需標(biāo)注:真實場數(shù)采集后需要被標(biāo)注后才能用于人工智能訓(xùn)練,然而數(shù)據(jù)標(biāo)注過程耗時耗力、且無法排除隱私違規(guī)及人工偏差;而仿真數(shù)據(jù)是由構(gòu)建好的仿真場景接生,去注程??蓸?gòu)建邊緣場景:由真世界采集而來的數(shù)據(jù)只反映出已經(jīng)發(fā)生的情況可是偶然素、極端條件或邊緣情況采集難度大,具有偶然性,無法被大量采集到并有效地用于器學(xué)。仿場可通過為加擾素建邊場。目前仿真場景主要由游戲引擎生成,基于基礎(chǔ)的現(xiàn)實世界數(shù)據(jù)保證仿真場景與真實場景之間的相似度,并依靠交通要素間的重新組合提高泛化能力。以特斯拉SmuaionWodCreatr為例,1)由經(jīng)自動標(biāo)注的真實場景數(shù)據(jù)中提取隔離帶邊界、車道線、道路連接信息等來生成路面網(wǎng)格并進(jìn)行車道線等渲染;2)植物通過豐富的素材庫在路間和路旁隨機成植物房屋等來模擬真實世界中這些物體引起的遮擋效應(yīng);3)由導(dǎo)航地圖提供信號燈、牌等其他道路元素;4)加入車輛和行人等動態(tài)元素。在這一過程中,通過道路街景隨機生成以車鏈關(guān)的機生提了型泛能力。圖39.仿真場景中對同一口成不同街景進(jìn)行場泛化 圖40.對統(tǒng)一路口生成不車關(guān)系進(jìn)行場景泛化特拉AIDy,

英偉達(dá)自動駕駛仿平臺DRIVESim通過Replicator合成數(shù)據(jù)工具來縮小真數(shù)據(jù)與真數(shù)據(jù)之間差異并提場泛化能力。偉達(dá)RIVESim的DRVEeplcatr提了個生成各種合成數(shù)據(jù)集,并具備真值標(biāo)簽的平臺,其主要特點有以下兩點:1)DRIVESim對傳感器輸出數(shù)據(jù)的模擬更貼近真實情況,通過RTX光線追蹤技術(shù)可以模擬傳感器在真實物理環(huán)境下多次反射、多路徑效應(yīng)、滾動快門和鏡頭失真等問題;2)域隨機化,常規(guī)的仿真平臺機生僅仿環(huán)境的象行進(jìn)隨機而DRVEim還有3D場觀及光照情況進(jìn)行隨機化的能力,如可以對路面潮濕程度、太陽方位角及高度角等方面進(jìn)行更改增場的化力。生成式AI有望推動仿場景大幅提升泛化力幫助主機廠提升仿場數(shù)據(jù)的應(yīng)用比例從而提高自動駕駛模型的迭代速度、縮短開發(fā)周期。當(dāng)前仿真場景對實際路測中所遇到的邊緣案例主要通過人工進(jìn)行泛化,如量產(chǎn)車在影子模式下遇到某一個corercase并進(jìn)行數(shù)據(jù)回傳后,在虛擬引擎中進(jìn)行場景重建,再通過人為添加要素,如增添雨霧環(huán)境、增加交通參與人數(shù)等方式對原始場景進(jìn)行梯度泛化。但對場景的泛化能力依賴于工程師對于場景的理解,且存在經(jīng)由手動添加元素后的場景與真實場景的擬合度不高的問題。生成式AI有望在針對真實場景中的cornercase進(jìn)行場景泛化的過程中取代人工,可以迅速泛化出大量的、與真實世高合度的虛擬場景,而高自動駕駛模型的代度。條件二:具備相當(dāng)算力的云端訓(xùn)練平臺,因而超算中心將成為主機廠必要基礎(chǔ)設(shè)施自動駕駛Transformer大模型應(yīng)用對算力的需求來自于兩個方面,分別是云端算力和車端算力。云端算力需求體現(xiàn)在大模型的預(yù)訓(xùn)練環(huán)節(jié),可以理解為尋找模型參數(shù)值的過程,同時仿真測試中的場景渲染和搭建也對算力提出較高要求,上述過程均要求海量的算力需求并且通常是集中訓(xùn)練。車端算力用于量產(chǎn)車上自動駕駛模型推理的過程,可以理解為將訓(xùn)練好的自動駕駛模型部署在車端,輸入自動駕駛汽車實時采集的圖像輸入到訓(xùn)練好的模型中,依據(jù)模型參數(shù)算出結(jié)果的過程。毫末EO顧濰顥在毫末AIay中表示,基于Attenion的模會大量“注放弱聯(lián)(所結(jié)關(guān)度高的數(shù)算上,致ranforer需算是NN需的100。超算中心是自動駕駛整車廠重要的基礎(chǔ)設(shè)施。算力資源是直接影響開發(fā)速度的硬性因素,算力集群底層架構(gòu)的優(yōu)化能夠以月為單位縮短系統(tǒng)的開發(fā)周期,直接決定了品牌是否能夠在新領(lǐng)占高。斯拉AI計中心ojo計使了14個偉的GPU來練AI型今年AIay表示其要用4幀畫才訓(xùn)一神網(wǎng)絡(luò)對是10萬個GPU時使用ojo成的AI計集可提升30的絡(luò)練度。比租用公有云來說,自建超算中心的整車廠更具備優(yōu)勢:1)成本視角:隨著模型復(fù)雜度的提升租用公有云邊際成本上升;2)技術(shù)角度,云服務(wù)商提供的設(shè)備內(nèi)部所使用的CPU、PU/I加速器、內(nèi)存的型號與規(guī)格都相對固定,很難與車企和自動駕駛公司的算法形成最佳匹配。另一面云務(wù)商自動駛法了程不高其用管軟在度AI設(shè)備集群時難免會出現(xiàn)損耗和效率不高的問題。這導(dǎo)致在理論算力一定的情況下,其訓(xùn)練AI型要多時3)據(jù)全角數(shù)為自駕廠的心產(chǎn)之,建超算心有然數(shù)閉環(huán)數(shù)安性高。圖41.特斯拉超算中心特拉AIDy,超算中心初始投入高,小鵬自動駕駛基礎(chǔ)設(shè)施建設(shè)國內(nèi)領(lǐng)先。根據(jù)IC數(shù)據(jù),主機廠及級供商搭人智計算心預(yù)普超過1億人幣超過2億民幣入主機廠比過20;算中的署期看通常要3月右間。鵬國最先局算心整廠222年8月鵬成立動駛I算心“搖,由小鵬阿聯(lián)出打。據(jù)鵬車CEO小介紹該心備60億次點能力(000TFLPs,可將自動駕駛算法的模型訓(xùn)練時間提速170倍,并且未來還具備10~10的力升。表5:自動駕駛廠商超算心設(shè)情況公公司名稱 超算中心 發(fā)布時間 算力 應(yīng)用領(lǐng)域 說明特斯拉 Doo超算中心 20108 10億億次/秒浮點運算60億億/秒浮

人工智能學(xué)習(xí),訓(xùn)練自動駕駛視技術(shù)等

可將自動駕駛算法使用的經(jīng)網(wǎng)絡(luò)模型訓(xùn)練時間提速小鵬 扶搖 2020820211

運算 專用于自動駕駛模型訓(xùn)練

10倍,基于阿里云智能計算平臺。擁

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論