[汽車之家 行業(yè)] 5月16日,2023中國(亦莊)智能網(wǎng)聯(lián)汽車科技周暨第十屆國際智能網(wǎng)聯(lián)汽車技術(shù)年會(huì)在京舉行,大會(huì)主題涵蓋了智能網(wǎng)聯(lián)汽車戰(zhàn)略引領(lǐng)、技術(shù)創(chuàng)新、生態(tài)賦能、商業(yè)化推進(jìn)、跨界融合等多個(gè)版塊,同時(shí)聚集了全球頂級(jí)專家、政策制定者、產(chǎn)業(yè)領(lǐng)袖、投資機(jī)構(gòu)等多方人員的參與,旨在進(jìn)一步促進(jìn)智能網(wǎng)聯(lián)汽車技術(shù)進(jìn)步與商業(yè)化應(yīng)用。
在“CICV2023運(yùn)載裝備智能感知技術(shù)與應(yīng)用研討會(huì)議”現(xiàn)場(chǎng),地平線智能駕駛算法研發(fā)負(fù)責(zé)人蘇治中圍繞“軟件2.0時(shí)代的自動(dòng)駕駛感知技術(shù)”發(fā)表了演講。
以下內(nèi)容為現(xiàn)場(chǎng)演講實(shí)錄:
我今天匯報(bào)的主題叫軟件2.0時(shí)代的自動(dòng)駕駛感知技術(shù)。我今天分享的內(nèi)容主要有三部分,第一是軟件2.0與智能汽車的行業(yè)趨勢(shì),第二部分是端云協(xié)同的自動(dòng)駕駛感知技術(shù),第三部分是自動(dòng)駕駛端到端算法趨勢(shì)。
首先是軟件2.0與智能汽車的行業(yè)趨勢(shì)。 在2012年AlexNet出現(xiàn)之后,深度學(xué)習(xí)已經(jīng)統(tǒng)治了計(jì)算視覺這個(gè)領(lǐng)域十多年,深度學(xué)習(xí)的出現(xiàn)使得過去由問題拆分的傳統(tǒng)CV算法逐步過渡到了端到端由深度學(xué)習(xí)驅(qū)動(dòng)的算法,深度學(xué)習(xí)驅(qū)動(dòng)的算法最大的好處就是它能夠通過計(jì)算和數(shù)據(jù)帶來性能持續(xù)的提升,不像傳統(tǒng)的CV算法可能需要很多專家手動(dòng)設(shè)計(jì)一些特征去解決問題,存在低效的情況。
實(shí)際上現(xiàn)在軟件2.0已經(jīng)是一個(gè)大家非常熟知的概念,它主要的idea,不通過問題拆分,也不通過專家經(jīng)驗(yàn)、人工邏輯設(shè)計(jì),而是完全通過數(shù)據(jù)和計(jì)算驅(qū)動(dòng)的模式,來去解決問題。在過去一段時(shí)間,可能從2012年到2019、2020年之前,大家關(guān)注到更多還是在NLP領(lǐng)域或者計(jì)算機(jī)視覺領(lǐng)域,深度學(xué)習(xí)所扮演的重要角色,近來隨著GPT等模型的出現(xiàn),我們關(guān)注到深度學(xué)習(xí)能夠更加以端到端形式,去實(shí)現(xiàn)通用的人工智能。正是這幾年算法的發(fā)展,推動(dòng)了汽車的智能化。過去的汽車,大家更多理解為是一個(gè)車輪子上的沙發(fā),帶著大家安全舒適從另一個(gè)地方到達(dá)另一個(gè)地方,F(xiàn)在大家對(duì)智能汽車的認(rèn)識(shí)發(fā)生了非常大的變化,我們更多地把它看作是一個(gè)智能出行的助理,它是一個(gè)車輪子上的智能器人,因此我們認(rèn)為智能汽車是一個(gè)堪比計(jì)算機(jī)誕生顛覆性的創(chuàng)新,是因?yàn)槲覀冋J(rèn)為智能汽車會(huì)是自主機(jī)器人的第一個(gè)形態(tài)。隨著它不斷的進(jìn)化,智能汽車能夠在大街上實(shí)現(xiàn)高級(jí)別自動(dòng)駕駛,其實(shí)背后所驅(qū)動(dòng)的技術(shù)和基礎(chǔ)設(shè)施的發(fā)展會(huì)帶來自主機(jī)器人快速的發(fā)展和落地。有非常多的專家和行業(yè)伙伴有這樣的認(rèn)識(shí),包括前一段時(shí)間,陸奇博士也提到過智能汽車正在成為人類科技發(fā)展史最大的母生態(tài)。
在自動(dòng)駕駛領(lǐng)域,我們觀察到了數(shù)據(jù)驅(qū)動(dòng)的算法正在逐步替代規(guī)則實(shí)現(xiàn)的算法,雖然我們今天講的是感知,但實(shí)際上數(shù)據(jù)驅(qū)動(dòng)的算法,也就是深度學(xué)習(xí)正在替代包括融合、規(guī)劃和控制所有自動(dòng)駕駛的模塊。自動(dòng)駕駛對(duì)于深度學(xué)習(xí)性能的要求和大模型的發(fā)展,其實(shí)驅(qū)動(dòng)了算力持續(xù)的提升,通常在端上使用的模型容量可能并不會(huì)特別大,現(xiàn)在的自動(dòng)駕駛系統(tǒng)更多是端云協(xié)同的系統(tǒng),其實(shí)在云端它往往會(huì)需求更大的計(jì)算量。
算力的需求也驅(qū)動(dòng)了我們需要有新的計(jì)算架構(gòu),在過去大家更加會(huì)聚焦于CPU或者GPU,但其實(shí)智能駕駛需要更專用的、并且更高效的計(jì)算架構(gòu),不管是在功耗上還是性能上,這是地平線成立的初衷,也是我們始終不斷堅(jiān)持探索的方向。前不久在上海國際車展,地平線剛剛發(fā)布了最新一代智能駕駛加速引擎,我們稱之為納什架構(gòu)。納什架構(gòu)將會(huì)在地平線下一代芯片上率先應(yīng)用,會(huì)在很快的未來達(dá)到落地量產(chǎn),它不僅提供了更大的算力,也提供了更高的靈活性,同時(shí)也能夠更好地支持像Transformer這樣更先進(jìn)、更具備趨勢(shì)性的模型,這里也列出了納什架構(gòu)的8個(gè)很重要的核心技術(shù)突破點(diǎn),在這里就不為大家做詳細(xì)的介紹。
接下來我來為大家分享我們的一些實(shí)踐,首先現(xiàn)在大家也普遍認(rèn)識(shí)到,自動(dòng)駕駛不僅僅是一個(gè)端上的系統(tǒng),它更多是一個(gè)端云協(xié)同的系統(tǒng),我們要在端上去執(zhí)行我們的模型,執(zhí)行我們的系統(tǒng),去做實(shí)時(shí)的感知、建模、定位、規(guī)控等等,但同樣在云端我們也需要一套完整的系統(tǒng)去獲取數(shù)據(jù),去生成真值,去做仿真,為端上的系統(tǒng)提供訓(xùn)練和仿真評(píng)測(cè)的環(huán)境。
第一部分為大家分享端上的部分,首先這里是我們?cè)谡鞒?上BEV時(shí)空融合的架構(gòu),當(dāng)前在自動(dòng)駕駛感知領(lǐng)域,BEV是一個(gè)大家非常熟知也非常流行,每個(gè)團(tuán)隊(duì)都在大力去做的非常有優(yōu)勢(shì)的架構(gòu)。地平線也研發(fā)了自己的BEV時(shí)空融合架構(gòu),它也會(huì)在今年在國內(nèi)一個(gè)非常主要車企的主要車型上完成量產(chǎn)。這是我們完整的架構(gòu),我們針對(duì)不同的合作伙伴、車型或客戶也會(huì)有一定的定制化或者是裁減,并不是每個(gè)車型都是11個(gè)攝像頭和Lidar,可能會(huì)有7個(gè)攝像頭、Lidar等等不同的配置.這套架構(gòu)能夠?qū)崿F(xiàn)神經(jīng)網(wǎng)絡(luò)源生的輸出,360感知的全要素,并且能夠去通過模型完成感知融合、建模和軌跡預(yù)測(cè),也正是通過這樣的端上實(shí)時(shí)的感知和建圖,我們能夠不依賴高精地圖,或者降低對(duì)于地圖的依賴,而達(dá)成城區(qū)自動(dòng)駕駛功能,同時(shí)在復(fù)雜路況下也有很好的處理能力。
下面的框圖展示了我們的一個(gè)模型結(jié)構(gòu)的框圖,在camera或者Lidar信號(hào)進(jìn)來之后我們會(huì)先做特征提取,之后經(jīng)過視角變換和空間融合,再結(jié)合多幀的時(shí)序融合,再經(jīng)過第二階段的特征結(jié)合refinement,最后是到達(dá)這個(gè)模型Head輸出的部分,大家可以看到這套框架同時(shí)能夠完成空間、時(shí)間以及多個(gè)模態(tài),就是Lidar和camera的融合。在這樣一個(gè)框架里,BEV特征融合的算法至關(guān)重要,因此我們也自研了GKT BEV感知算法(Geometry-guided kernel BEV),是一套基于Transformer的架構(gòu),因?yàn)槲覀兇蟾趴梢哉J(rèn)為當(dāng)前BEV算法有三類,基于特征IPM視角轉(zhuǎn)換,基于Transformer以及基于LSS三類算法,基于Transformer的方案它會(huì)有更好的性能和更強(qiáng)的泛化性,但它的缺點(diǎn)就是全局attention會(huì)帶來比較大的算力和帶寬的需求,我們通過Geometry-guided kernel的方式來降低對(duì)于全局attention的需要,大幅提升效率,同時(shí)Transformer的方法相比LSS對(duì)嵌入式平臺(tái)是更友好的,這套方法在征程5上能夠達(dá)到一個(gè)非常高的幀率。
像我剛才講的整套架構(gòu)是支持多模態(tài)特征融合,多模態(tài)的融合分為前融合、中融合和后融合,后融合就是目標(biāo)級(jí)融合,跟咱們講的軟件2.0范式不符合,因?yàn)樗婕暗椒浅6嗳斯み壿嫷挠?jì)算。前融合我們通常認(rèn)為是信號(hào)級(jí)的融合,camera跟Lidar點(diǎn)云的直接融合,這個(gè)方案由于是Lidar跟camera的幀率不同,掃描方式不同,非常難以做信號(hào)級(jí)的對(duì)齊,因此我們會(huì)采取這種中融合,就是特征級(jí)的融合,它分別是用camera提取BEV特征,Lidar提取特征,在特征級(jí)別去完成一個(gè)融合。
我們這一套BEV架構(gòu)支持不同的傳感器配置,同時(shí)支持在不同傳感器配置下多尺度的輸出和可拓展的應(yīng)用,右邊展示了我們?cè)贐EV大的Feature Map上面可以通過取LI的方式取出不同的范圍達(dá)成不同的功能,比如小范圍更多是支持泊車,而最長的大范圍能夠支持高速,因?yàn)楦咚偕贤枰h(yuǎn)距離的感知,中短范圍能夠在城區(qū)更好的處理好路口。在BEV感知框架里面可以看到,感知中兩個(gè)非常大的模塊,分別就是靜態(tài)和動(dòng)態(tài),靜態(tài)就是實(shí)時(shí)的局部的地圖的構(gòu)建,我們稱之為地圖感知,地平線也自研了這樣一套矢量化的地圖感知方案,它前面也是基于一個(gè)BEV的特征融合的模塊,可以采用GKT,也可以采用其他的,主要的部分是在Head部分,它是通過一個(gè)Transformer的結(jié)構(gòu)去實(shí)時(shí)的輸出instance level的地圖要素,比如說車道線、人行道等等,避免了這些后處理和后處理中所涉及到對(duì)于CPU的需求,對(duì)于邏輯計(jì)算的需求,對(duì)于工程師手寫代碼的需要。
動(dòng)態(tài)感知,我們是采用了一個(gè)端到端的范式,就是從檢測(cè)到跟蹤,再到預(yù)測(cè),如果我們想要做預(yù)測(cè)的話是需要有靜態(tài)的要素,因?yàn)檐囕v周圍行駛軌跡其實(shí)跟車道線是密切相關(guān)的,因此這張圖上展現(xiàn)了我們會(huì)通過一個(gè)多任務(wù)的模型,同時(shí)去輸出Map靜態(tài)感知,也會(huì)輸出3D的動(dòng)態(tài)目標(biāo)檢測(cè),結(jié)合這兩個(gè)Head我們會(huì)再去做動(dòng)態(tài)目標(biāo)的軌跡預(yù)測(cè),也是通過這樣一個(gè)端到端的范式,進(jìn)一步的去增強(qiáng)了跟蹤和預(yù)測(cè)的性能,同時(shí)也減少了我們對(duì)于后處理的依賴。
現(xiàn)在隨著自動(dòng)駕駛技術(shù)的發(fā)展,隨著它落地的增加,我們逐步的發(fā)現(xiàn)僅僅達(dá)成靜態(tài)和動(dòng)態(tài)感知其實(shí)并不足以完成自動(dòng)駕駛,很重要的原因就是場(chǎng)景中有很多一般障礙物,一般障礙物我們是很難用語義去窮盡的,比如說馬路上有一個(gè)紙箱子,要定義紙箱的類別,這個(gè)是難以覆蓋的, 因此我們也需要通過一些幾何的方式去理解這個(gè)場(chǎng)景的幾何構(gòu)造,同時(shí)覆蓋一般障礙物的感知,因此3D Occupancy是一個(gè)非常好的解決范式,在之前的Tesla AI Day上大家也看到過Tesla 3D Occupancy算法方案,它是輸出一個(gè)3D的占有,就是XYZ跟一個(gè)feature vector,它對(duì)于帶寬和計(jì)算量的要求都是非常高的,因此我們?cè)谡鞒?上也是采用了BEV2D的Freespace+BEV elevation里完成3D Occupancy感知任務(wù),因此在這個(gè)圖中,我們也看到在BEV之后只有兩個(gè)Head,一個(gè)是用來估計(jì)每一個(gè)BEV上面的高度,另外一個(gè)Head是用來估計(jì)每個(gè)BEV格子是否被占用。這一頁展示了3D Occupancy當(dāng)前的一個(gè)demo視頻,可以看到它針對(duì)這些突出的路沿、花壇以及道路中間的隔離帶都能有非常好的響應(yīng),而像這個(gè)花壇、隔離帶如果我們用語義分割的手段解決的話,可能是很難窮盡這些場(chǎng)景的。
盡管說BEV是當(dāng)下最為主流的一個(gè)感知的范式,但我們同時(shí)也在不斷的探索稀疏實(shí)例目標(biāo)檢測(cè)的技術(shù),原因也是BEV也存在一定的局限性,主要有幾個(gè)方面,一個(gè)我們?cè)谧鯞EV的過程中需要對(duì)特征做一些壓縮,再做稠密的視角轉(zhuǎn)換,這個(gè)過程往往會(huì)帶來分辨率的損失,而且稠密的視角轉(zhuǎn)換其實(shí)會(huì)帶來很大的帶寬的損耗、帶寬的占用。另外BEV它的感知范圍是局限于BEV的Greatmap的,如果說我們構(gòu)建一個(gè)非常大的Greatmap,它可能會(huì)占據(jù)很大的算力和帶寬,而構(gòu)建較小的Greatmap,又影響遠(yuǎn)距離感知,因此我們基于DETR的Transformer的范式去研發(fā)了稀疏實(shí)例動(dòng)態(tài)目標(biāo),它不需要做dense view transformer,也不需要向傳統(tǒng)的基于Transformer的BEV做很多全局的attention,同時(shí)它通過稀疏的范式,當(dāng)前性能已經(jīng)超過了所有Sparse目標(biāo)檢測(cè)方法和絕大部分BEV的方法,此外Sparse的范式也很容易可以應(yīng)用到地圖感知和靜態(tài)和一般障礙物。
接下來是端云協(xié)同系統(tǒng)中云端的部分,我重點(diǎn)會(huì)講跟感知相關(guān)的,尤其是4D標(biāo)注的部分, 我們?cè)谠贫藰?gòu)建最重要的系統(tǒng)就是4D智能化的標(biāo)注,它主要由四個(gè)大的模塊和流程組成,分別是數(shù)據(jù)采集、4D的場(chǎng)景重建、大模型的預(yù)刷和人工質(zhì)檢和編輯,它能夠把這個(gè)感知的輸出空間從2D映射到3D,所以我們所有的標(biāo)注也都是在3D之下去完成的。所謂4D就是結(jié)合了時(shí)序,4D標(biāo)注第一步就是完成4D的重建,4D重建有兩個(gè)大的環(huán)節(jié),第一個(gè)部分是單幀的重建,這是基于比較經(jīng)典的SLAM技術(shù),基于camera和lidar多模態(tài)的重建。第二個(gè)部分是多趟的聚合,單趟很難掃描完整個(gè)場(chǎng)景,因此通過多趟的聚合,能夠把這個(gè)場(chǎng)景達(dá)成一個(gè)更好的完整的感知,這是上面的通路,就是針對(duì)靜態(tài)和靜態(tài)環(huán)境。不需要關(guān)注動(dòng)態(tài)目標(biāo),底下主要是基于Lidar跟camera同時(shí)去檢測(cè)和感知場(chǎng)景中的動(dòng)態(tài)目標(biāo),通過云端大模型得到高精度感知的結(jié)果,這兩個(gè)融合之后就得到了4D場(chǎng)景中的完整信息,這動(dòng)態(tài)和靜態(tài)所具有的完整信息在經(jīng)過模型預(yù)刷和標(biāo)注之后,就能夠給所有的BEV的任務(wù)提供一個(gè)監(jiān)督信息。
除了動(dòng)態(tài)和靜態(tài),就像我們剛剛講到非常重要的就是Occupancy占用柵格,主要是為了解決場(chǎng)景中一般的障礙物,因此我們構(gòu)建了多模態(tài)的一般障礙物的幀值生成的方案,它能夠把路面非常小的凸起形成一個(gè)很好的建模,去供3D Occupancy模型做一個(gè)學(xué)習(xí),之后再供給自動(dòng)駕駛系統(tǒng)去應(yīng)用。當(dāng)然多模態(tài)的技術(shù)盡管能夠達(dá)到很高的精度,但它的局限性是需要車上有雷達(dá),但我們大部分的量產(chǎn)車上是不會(huì)安裝雷達(dá)的,因此純視覺的點(diǎn)云重建,純視覺的4D場(chǎng)景重建對(duì)我們來說都是非常重要的,這個(gè)決定了未來數(shù)據(jù)能不能更大規(guī)模的上量,更大規(guī)模的去完成一個(gè)標(biāo)注和對(duì)模型的監(jiān)督,當(dāng)前我們已經(jīng)是能夠通過純視覺的重建達(dá)到接近多模態(tài)視覺得效果,暫時(shí)還沒有在量產(chǎn)中去應(yīng)用.除了純視覺點(diǎn)云,現(xiàn)在NeRF也是大家廣為關(guān)注的算法,相比點(diǎn)云它能夠給場(chǎng)景提供更稠密的重建,并且可以去實(shí)時(shí)的恢復(fù)這些所有的視角,并且做視角的轉(zhuǎn)換,同樣是我們當(dāng)前仍然在研發(fā)還沒有在量產(chǎn)中使用的算法。當(dāng)前4D智能標(biāo)注已經(jīng)支持了非常豐富的任務(wù),像這里列出BEV的分割、3D的車位、靜態(tài)全要素、3D目標(biāo)檢測(cè)等等。
下面我跟大家講講我們對(duì)于自動(dòng)駕駛端到端算法趨勢(shì)的看法,前面一直在講軟件2.0,實(shí)際上軟件2.0驅(qū)動(dòng)自動(dòng)駕駛端到端已經(jīng)是一個(gè)行業(yè)的共識(shí),前面我給大家展示了我們?cè)趧?dòng)態(tài)目標(biāo)這一部分已經(jīng)使用了檢測(cè)跟蹤到預(yù)測(cè)的端到端,但實(shí)際上這個(gè)還可以進(jìn)一步往后去發(fā)展,去結(jié)合包括我們環(huán)境的認(rèn)知,比如道路的拓?fù)溥壿嬯P(guān)系的感知,以及到基于深度學(xué)習(xí)的Planner到Control,其實(shí)都是可以被端到端的訓(xùn)練去落地的。在去年已經(jīng)誕生了非常多特別優(yōu)秀的一些端到端的算法工作,可以看出大家對(duì)這個(gè)方面都在做很多的工作,并且去努力朝這個(gè)方向發(fā)展,之前我們看到特斯拉的FSD會(huì)在V12版本發(fā)布一個(gè)端到端的方案,地平線研發(fā)了基于Vector表達(dá)的一套端到端的自動(dòng)駕駛算法,我們稱作VAD,跟大部分的普通端到端算法不同,VAD是將場(chǎng)景表達(dá)為向量,而不是柵格,這種方式能夠顯著的提升inference的速度,并且在訓(xùn)練的階段通過向量的方式來施加顯示的監(jiān)督約束,當(dāng)前這套方法已經(jīng)在nuScenes dataset 上取得了端到端到planning的指標(biāo)。
現(xiàn)在ChatGPT、GPT4都非;穑覀冋J(rèn)為GPT4對(duì)于自動(dòng)駕駛端到端也有非常大的啟示,這里展示了inference GPT講的三步instruction GPT訓(xùn)練范式,第一步是文本的自監(jiān)督預(yù)訓(xùn)練,第二步是通過人工智能撰寫的問答對(duì)去做監(jiān)督學(xué)習(xí),最后一部分是human feedback的強(qiáng)化學(xué)習(xí),基于這樣一個(gè)啟示,我們也認(rèn)為端到端自動(dòng)駕駛的訓(xùn)練范式會(huì)非常類似于GPT的訓(xùn)練范式,首先也需要多模態(tài)自監(jiān)督的預(yù)訓(xùn)練,這個(gè)跟文本不一樣,它需要Lidar、camera、包括自監(jiān)督在內(nèi)的文本訓(xùn)練。之后我們需要這些子模塊的監(jiān)督訓(xùn)練,還是需要一部分?jǐn)?shù)據(jù),有標(biāo)注做一些監(jiān)督。第三個(gè)imitation learning它是學(xué)人怎么做,最后一部分我們也是通過RL來對(duì)齊它跟人的價(jià)值觀,并且去做好一些兜底。
以上是我們對(duì)于端到端的一些思考,最后是我們簡要一些成果的展示,首先是我們城區(qū)的復(fù)雜場(chǎng)景自動(dòng)駕駛展示,總的來講基于征程5 城區(qū)NOA的方案,能夠在這些復(fù)雜拓?fù)錈o保護(hù)左轉(zhuǎn)、無保護(hù)右轉(zhuǎn)、擁堵的博弈匯出等等復(fù)雜場(chǎng)景上達(dá)到一個(gè)純視覺城區(qū)非常好的性能,同時(shí)我們也在多次自動(dòng)駕駛學(xué)術(shù)競賽中取得優(yōu)異的成績,當(dāng)前地平線的征程系列芯片已經(jīng)在50款車型上量產(chǎn)上市達(dá)到300萬片芯片的出貨,已經(jīng)定點(diǎn)車型是超過120款,去年我們?cè)贚2+標(biāo)配市場(chǎng)達(dá)到了市場(chǎng)份額的第一。
好評(píng)理由:
差評(píng)理由: