【甲子光年】2024自動駕駛行業(yè)報告-“端到端”漸行漸近

上傳人：緣*** IP屬地：四川上傳時間：2024-08-28 格式：PPTX 頁數(shù)：30 大?。?.09MB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩25頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

出品機(jī)構(gòu)：甲子光年智庫智庫院長：宋濤報告撰寫：翟惠宇發(fā)布時間：2024.07*甲子光年智庫分析師胡博文對本次報告撰寫亦有貢獻(xiàn)。Part01發(fā)展背景：汽車智能化正加速普及P02Part02趨勢辨析：端到端自動駕駛的價值P09

Part03廠商實踐：技術(shù)路線的選擇與踐行P18

Part04未來展望：端到端的挑戰(zhàn)與未來式P26

智能化水平已經(jīng)成為國內(nèi)汽車消費者最核心的購買因素之一。益濃厚。

o超半數(shù)的汽車消費者將智能化水平作為購車時的關(guān)鍵考量因素，他們追求更先進(jìn)的自動駕駛體驗、更智能的座艙環(huán)境以及更個性化的駕駛樂趣。o

智能化在購車決策中的重要性日益凸顯，這也促使眾多汽車制造商加快了智能化技術(shù)的研發(fā)和工程投入；繼續(xù)航里程和用車成本之后，智能化已成為新能源汽車競爭的主要領(lǐng)域，未能跟上智能化步伐的汽車品牌可能會逐漸失去市場競爭力。o國內(nèi)汽車工業(yè)在電動化和智能化領(lǐng)域的迅猛發(fā)展，正在重塑消費者的購車偏好，消費者對于自動駕駛技術(shù)、智能座艙等高端智能化功能的興趣日圖1：購車時“智能化”考量因素高居第二59%用車成本低智能化程度高圖2：自動駕駛、智能座艙、42%動力性能OTA能力受廣泛關(guān)注更先進(jìn)的自動駕駛功能原生新能源汽車平臺智能座艙體驗更好OTA能力更強(qiáng)續(xù)航里程表現(xiàn)駕駛樂趣更高造型設(shè)計美觀售后體驗更好保養(yǎng)成本低配置表精煉乘坐更舒適獲取牌照外觀時尚噪音小環(huán)保43%40%43%48%47%47%47%62%65%31%30%39%51%51%51%54%

智能駕駛滲透提速，“智能化”競爭進(jìn)入白熱化。oNOA技術(shù)的滲透率正迅速提升：自2022年“量產(chǎn)元年”起，高速NOA和城區(qū)NOA的普及率顯著增長。目前，高速NOA的滲透率已超10%，城市NOA也超過了3%。

在眾多廠商的推動下，重視“智能化”的汽車越來越受消費者青睞，尤其是那些配備自動泊車和L2.5以上級別NOA功能的車型；這些車型已成為車企競爭的焦點，預(yù)示著未來缺乏NOA功能的車輛可能失去競爭力。

圖1：高速NOA滲透率持續(xù)增長（%）

標(biāo)配

選配

合計o自動駕駛功能的普及，得益于車企的持續(xù)投入和消費者對這些技術(shù)的接受度，這已成為汽車市場競爭力的關(guān)鍵。圖2：城市NOA滲透率持續(xù)增長（%）

合計

標(biāo)配

選配1210865432Feb-23Feb-24Feb-23Feb-24May-

23May-

23Aug-23Aug-23Ju

23Ju

23Apr-23Apr-23Sep-

23Sep-

23Nov-23Nov-23Mar-

24Dec-23Mar-

23Dec-22Mar-

24Dec-23Oct-23Oct-23Jan-24Jan-23Jan-23Jun-23Jan-24Jun-234201014

自動駕駛科技公司排隊沖擊IPO，智駕加速普及，行業(yè)正在蘇醒。o

盡管一級市場融資受到整體投融資環(huán)境的影響，但自動駕駛公司通過不斷優(yōu)化核心軟硬件產(chǎn)品，向更務(wù)實的L2輔助駕駛轉(zhuǎn)型，加速了智能駕駛的商業(yè)化進(jìn)程，眾多企業(yè)開始準(zhǔn)備IPO。

o同時，隨著智能駕駛功能的普及，消費者對其正面認(rèn)知逐漸增強(qiáng)

，乘用車自動駕駛市場穩(wěn)步增長，這促使主機(jī)廠與智能駕駛解決方案供應(yīng)商之間的合作更加緊密，進(jìn)一步推動了智能駕駛技術(shù)的商業(yè)化應(yīng)用。

禾賽科技美股2023年2月上市激光雷達(dá)傳感器

海創(chuàng)光電科創(chuàng)板2023年5月提交申請激光雷達(dá)傳感器黑芝麻智能港交所2023年6月提交申請自動駕駛計算芯片如祺出行港交所2023年8月提交申請Robotaxi、網(wǎng)約車運營文遠(yuǎn)知行美股2023年8月完成IPO備案自動駕駛解決方案、Robotaxi 賽目科技港交所2023年10月提交申請ICV仿真測試、驗證知行科技港交所2023年12月已上市自動駕駛解決方案激光雷達(dá)傳感器Robotaxi、Robotruck、智能駕駛解決方案智能駕駛解決方案自動駕駛計算芯片、智能駕駛解決方案智能駕駛解決方案自動駕駛解決方案一級市場融資難造血能力待提升需要研發(fā)投入2024年1月已上市2024年4月完成IPO備案

2024年3月提交申請

2024年3月提交申請2024年5月提交申請2024年6月完成IPO備案速騰聚創(chuàng)

小馬智行縱目科技地平線佑駕創(chuàng)新

Momenta圖達(dá)通

美股2023年8月完成IPO備案激光雷達(dá)傳感器訂單需求擴(kuò)張業(yè)績快速上漲產(chǎn)品性能提升表：2023年起，自動駕駛廠商扎堆IPO港交所美股港交所港交所港交所美股計劃上市地主營業(yè)務(wù)企業(yè)名稱IPO進(jìn)程

智駕量產(chǎn)車上路，數(shù)據(jù)飛輪已經(jīng)轉(zhuǎn)了起來。o自BEV（鳥瞰視圖）結(jié)合Transformer架構(gòu)成為自動駕駛感知領(lǐng)域的主要發(fā)展方向以來，數(shù)據(jù)驅(qū)動在其中扮演的角色愈發(fā)關(guān)鍵；眾多汽車制造商和自動駕駛解決方案提供商都已構(gòu)建數(shù)據(jù)閉環(huán)系統(tǒng)，以支持自動駕駛系統(tǒng)的模型訓(xùn)練和持續(xù)迭代。o目前，配備高級智能駕駛功能的汽車已實現(xiàn)規(guī)?；渴?，這為自動駕駛算法的持續(xù)創(chuàng)新和優(yōu)化提供了堅實的數(shù)據(jù)支撐。?人工智能技術(shù)加持

，數(shù)據(jù)篩選、標(biāo)注、訓(xùn)練、驗證形成全鏈路閉環(huán)

，持續(xù)迭代智能駕駛產(chǎn)品?相比過去工程師制定的規(guī)則算法

，能夠?qū)崿F(xiàn)低成本、高效率的系統(tǒng)迭代?由此實現(xiàn)閉環(huán)自動化

，數(shù)據(jù)驅(qū)動自動駕駛

，在為現(xiàn)有車輛進(jìn)行OTA功能升級的同時

，為后續(xù)更高級別的自動駕

駛車輛做準(zhǔn)備圖：打造數(shù)據(jù)閉環(huán)，量產(chǎn)時代下的自動駕駛應(yīng)用部署為數(shù)據(jù)驅(qū)動提供條件影子模式觸發(fā)數(shù)據(jù)回傳AI驅(qū)動的數(shù)據(jù)閉環(huán)———含數(shù)據(jù)積累———含打造數(shù)據(jù)閉環(huán)

升級現(xiàn)有智能車量產(chǎn)項目提供海量車端大數(shù)據(jù)：訓(xùn)練高階自動駕駛算法智能駕駛汽車規(guī)?；詣玉{駛智算中心L3/L4量產(chǎn)上車OTA部署算法升級數(shù)據(jù)分析數(shù)據(jù)標(biāo)注數(shù)據(jù)采集算法部署模型訓(xùn)練模型驗證

自動駕駛技術(shù)發(fā)展與普及的背后，是底層AI技術(shù)的進(jìn)步。oA

I技術(shù)的應(yīng)用場景眾多，自動駕駛無疑是其中的核心議題；它不僅代表了技術(shù)應(yīng)用的前沿，也是產(chǎn)學(xué)兩界AI專家不懈追求、共同攻克的領(lǐng)域。o自動駕駛行業(yè)的發(fā)展與AI技術(shù)的每次飛躍緊密相連：從卷積神經(jīng)網(wǎng)絡(luò)（CNN）、循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）、生成對抗網(wǎng)絡(luò)（

GAN）到Transformer，每一次技術(shù)革新背后，都伴隨著深度學(xué)習(xí)等基礎(chǔ)AI技術(shù)的突破性進(jìn)展。正是AI技術(shù)的持續(xù)進(jìn)步，構(gòu)成了自動駕駛技術(shù)不斷演進(jìn)和成熟的基礎(chǔ)動力。圖：

自動駕駛技術(shù)的主要迭代路徑

RNN（

LSTM）

+GAN?

更擅長處理時間序列數(shù)據(jù)+生成高質(zhì)量合成數(shù)據(jù)?

預(yù)測車輛未來軌跡能力?長期時序建模能力弱；數(shù)據(jù)質(zhì)量難把控；實時性要求無法滿足BEV+Transformer?結(jié)合Transformer更強(qiáng)的處理序列數(shù)據(jù)和復(fù)雜上下文關(guān)系方面的能力，

實現(xiàn)更精確的環(huán)境感知、更長遠(yuǎn)的運動規(guī)劃和更全局化的決策CNN（卷積神經(jīng)網(wǎng)絡(luò)）?圖像識別處理表現(xiàn)優(yōu)秀；有效處理傳感器數(shù)據(jù)融合?

需要大量數(shù)據(jù)標(biāo)注；時序任務(wù)處理能力偏弱BEV（鳥瞰視角）?

直觀且豐富的車身周邊環(huán)境表示?

需要復(fù)雜的傳感器數(shù)據(jù)融合與校準(zhǔn)，計算量龐大OCC+Transformer?Occupancy

Network基于學(xué)習(xí)進(jìn)行

三維重建

，是BEV的3D迭代至今Transformer大模型基于大規(guī)模數(shù)據(jù)

訓(xùn)練，具備更強(qiáng)的魯棒性與泛化能力，

在自動駕駛行業(yè)大方異彩CNN

提出后，深度學(xué)習(xí)進(jìn)入爆

發(fā)期，自主學(xué)習(xí)能力被釋放201620182020那么，下一步？20112022

AI大模型技術(shù)已經(jīng)在自動駕駛領(lǐng)域得到廣泛應(yīng)用。oTransformer大模型技術(shù)在自動駕駛領(lǐng)域并非新近出現(xiàn)，其實早在ChatGPT之前，這一技術(shù)就已被應(yīng)用于自動駕駛的感知任務(wù)。o

特斯拉在2021年就展示了其基于BEV視角結(jié)合Transformer的感知方案

，此后，國內(nèi)廠商紛紛跟進(jìn)并進(jìn)行創(chuàng)新，這間接加速了2022年之后高階智

能駕駛方案的快速落地。o

從云端的模型訓(xùn)練到車端的模型部署

，大模型技術(shù)已被廣泛應(yīng)用于數(shù)據(jù)處理、模型融合與優(yōu)化等多個環(huán)節(jié)，顯著提高了模型訓(xùn)練的效率和系統(tǒng)的

整體性能。圖：從云端到車端，大模型已經(jīng)在

自動駕駛感知模塊開始規(guī)模化應(yīng)用

數(shù)據(jù)挖掘

大模型的泛化性能用于挖掘長尾數(shù)據(jù)，如使用CLIP模型進(jìn)行基于文本描述的圖像數(shù)據(jù)檢索。知識蒸餾利用大模型通過自監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練，配合極少量人工標(biāo)注微

調(diào)

，實現(xiàn)自動標(biāo)注視頻clip數(shù)據(jù)。利用大模型檢測真值固定的物體，如

車道線、交通燈等

，這些物體的位置不受天氣、時間等因素的影響。使用自回歸編解碼網(wǎng)絡(luò)將BEV特征解

碼為結(jié)構(gòu)化的拓?fù)潼c序列

，實現(xiàn)車道

拓?fù)漕A(yù)測。將處理不同子任務(wù)的小模型合并成一

個大模型，在車端進(jìn)行聯(lián)合推理計算，提高感知算法的準(zhǔn)確性和實時性。

感知

預(yù)測決策控制使用NeRF技術(shù)隱式存儲場景，通過渲染圖片的監(jiān)督學(xué)習(xí)學(xué)出

場景的隱式參數(shù)，實現(xiàn)場景重建和高真實感數(shù)據(jù)生成。大模型通過學(xué)習(xí)海量數(shù)據(jù)中的特征

，然后用來配合中、小模

型的訓(xùn)練，提高中、小模型的性能。數(shù)據(jù)生成車道拓?fù)漕A(yù)測物體檢測

數(shù)據(jù)自動標(biāo)注云端合并不同小模型車端Part02創(chuàng)新思路：端到端自動駕駛的價值P09Part01發(fā)展背景：汽車智能化正加速普及P02Part04未來展望：端到端的挑戰(zhàn)與未來式P26Part03廠商實踐：技術(shù)路線的選擇與踐行P18目錄

傳統(tǒng)模塊化自動駕駛存在信息傳遞損耗、計算效率低下等問題。o

傳統(tǒng)自動駕駛系統(tǒng)已經(jīng)發(fā)展得相當(dāng)成熟，通常采用模塊化串聯(lián)的部署方式：其核心模塊涵蓋感知、定位、預(yù)測、決策和控制等，每個主要模塊及其子模塊都承擔(dān)著特定的職責(zé)

，且每個模塊的輸入通常來源于前一模塊的輸出。

模塊化設(shè)計的優(yōu)勢在于能夠?qū)?fù)雜的自動駕駛?cè)蝿?wù)分解為更小、更易于管理的子任務(wù)

，同時便于問題的追蹤和定位；然而

，隨著自動駕駛技術(shù)向數(shù)據(jù)驅(qū)動的方向發(fā)展，模塊化設(shè)計的某些局限性也逐漸顯現(xiàn)

，例如信息傳遞過程中可能出現(xiàn)的損耗、計算延遲以及累積誤差等問題?？刂颇K轉(zhuǎn)向油門/電門剎車PID/MPC傳感器攝像頭激光雷達(dá)毫米波雷達(dá)輪速IMU規(guī)劃模塊全局路徑規(guī)劃車輛行為決策預(yù)測模塊車輛行為預(yù)測行人行為預(yù)測任務(wù)多且散導(dǎo)致低效復(fù)合誤差難以修正系統(tǒng)構(gòu)建與維護(hù)成本高誤差累積影響安全性信息的損耗與丟失圖：傳統(tǒng)自動駕駛的模塊化部署目標(biāo)跟蹤底盤通信車道線識別紅綠燈識別障礙物識別傳感器融合userid:532115,docid:166896,date:2024-07-05,sgpjbg.com血定位模塊感知模塊高精地圖車輛定位

從系統(tǒng)架構(gòu)的變化趨勢上看，自動駕駛系統(tǒng)模塊是在不斷融合的。o

模塊化自動駕駛的核心在于不同子模型在各個模塊中的嵌套與協(xié)同工作。然而

，隨著Transformer架構(gòu)等先進(jìn)AI技術(shù)的發(fā)展，模型間的界限正逐漸變得模糊。原本獨立的子任務(wù)模型正逐步被更大規(guī)模的神經(jīng)網(wǎng)絡(luò)模型所取代

，特別是在感知模塊

，BEV結(jié)合Transformer方案的廣泛應(yīng)用預(yù)示著數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)正日趨成熟。BEV+Transformer極大推動自動駕駛通用感知網(wǎng)絡(luò)的發(fā)展速度o從架構(gòu)的角度來看

，隨著模型融合的趨勢，自動駕駛系統(tǒng)的終極形態(tài)很可能是One

Model

，即一個狹義上的端到端神經(jīng)網(wǎng)絡(luò)模型。Learning-Based更少的工程更多的數(shù)據(jù)端到端全棧神經(jīng)網(wǎng)絡(luò)Rule-Based更多的工程

適量的數(shù)據(jù)圖：自動駕駛系統(tǒng)模塊的融合趨勢預(yù)測、決策模塊也正在神經(jīng)

網(wǎng)絡(luò)化的進(jìn)程中目標(biāo)跟蹤定位規(guī)劃目標(biāo)檢測決策預(yù)測后融合地圖控制預(yù)測多傳感器融合規(guī)劃定位地圖決策控制預(yù)測規(guī)劃網(wǎng)絡(luò)

控制通用感知網(wǎng)絡(luò)

端到端路線為自動駕駛進(jìn)一步突破提供了一種可能性。廣闊的想象空間。

o端到端自動駕駛神經(jīng)網(wǎng)絡(luò)的實現(xiàn)將帶來一系列優(yōu)勢

：它將完全基于數(shù)據(jù)驅(qū)動進(jìn)行全局任務(wù)優(yōu)化，擁有更簡潔的系統(tǒng)架構(gòu)，更高的計算效率以及更強(qiáng)的泛化能力。然而

，它也面臨著對算力和數(shù)據(jù)的巨大需求，以及尚未解決的黑盒問題和幻覺問題

，這些問題需要隨著技術(shù)的進(jìn)步而逐步克服。滲透?由數(shù)據(jù)驅(qū)動的方式來解決自動駕駛長尾問題?

更好、更快的糾錯能力?

避免上游模塊錯誤的過度傳導(dǎo)o隨著感知、預(yù)測和決策等關(guān)鍵模塊逐漸實現(xiàn)神經(jīng)網(wǎng)絡(luò)化，端到端自動駕駛的路徑已經(jīng)清晰可見，為自動駕駛技術(shù)向L4級別無人駕駛的邁進(jìn)提供了更好的計算效率?模型集成統(tǒng)一

，減少模塊間的信息延遲和冗余，提升計算效率參數(shù)過大

，算力不足大模型的幻覺問題不可解釋與安全性End-to-End端到端自動駕駛模型避免累計誤差完全由數(shù)據(jù)驅(qū)動更強(qiáng)的泛化性

感知

↓?

具備零樣本學(xué)習(xí)能力，在未知場景仍可正確決策傳感器獲取的原始數(shù)據(jù)直接輸出車輛駕駛動作決策

預(yù)測

控制基于統(tǒng)一的神經(jīng)網(wǎng)絡(luò)，端到端的核心是信息的無損傳遞。o自動駕駛領(lǐng)域尚未就“端到端”概念達(dá)成統(tǒng)一認(rèn)識。一般而言，端到端自動駕駛指的是從原始傳感器數(shù)據(jù)輸入直接到控制指令輸出的連續(xù)學(xué)習(xí)與決策過程，過程中不涉及任何顯式的中間表示或人為設(shè)計的模塊。o

盡管端到端自動駕駛的具體定義仍存在一定的模糊性，但其核心理念是避免信息在傳遞過程中的損耗。端到端自動駕駛：統(tǒng)一的神經(jīng)網(wǎng)絡(luò)架構(gòu)，一步到位輸出車輛指令感知/定位預(yù)測控制規(guī)劃端到端大模型

信息的無損傳遞

周邊環(huán)境

傳感器傳感器執(zhí)行器車輛狀態(tài)

執(zhí)行器車輛狀態(tài)

周邊環(huán)境模塊化架構(gòu)端到端架構(gòu)

融合趨勢下

，“端到端”從感知走向決策，再走向聯(lián)合一體化。o

特斯拉FSDV12的卓越性能令業(yè)界觀察家印象深刻

，它確實摒棄了之前FSD方案中多年積累的代碼，但其端到端方案的成功也離不開其在過去十年在人工智能和智能駕駛領(lǐng)域的深厚積累。

端到端自動駕駛技術(shù)的發(fā)展遵循著漸進(jìn)的路徑：目前，BEV+OCC+Transformer已經(jīng)實現(xiàn)了感知模塊的端到端架構(gòu)，決策模塊也在逐步從依賴手寫規(guī)則向基于深度學(xué)習(xí)的模式轉(zhuǎn)變

，最終目標(biāo)是實現(xiàn)模塊化聯(lián)合與單一模型的端到端自動駕駛。

端到端自動駕駛大模型?

仍然保留兩個模塊獨立訓(xùn)練，而預(yù)測與決策

規(guī)劃模塊神經(jīng)網(wǎng)絡(luò)化?

通過人工定義的方式制定接口?BEV+Transformer推動感知方案性能提升?

決策規(guī)劃模塊仍然基于規(guī)則?

沒有模塊間的明確劃分，是單一模型?

基于RL或IL等深度學(xué)習(xí)方式進(jìn)行模型訓(xùn)練?

模塊間以特征向量為輸出與輸出?

兩個模塊通過梯度傳導(dǎo)的方式同時訓(xùn)練圖：端到端自動駕駛系統(tǒng)架構(gòu)演進(jìn)BEV

FeaturePlanning

Former“端到端”感知（現(xiàn)有主流架構(gòu)）隱式表達(dá)特征國--------------BEV感知

PlannerLearning-BasedRule-BasedOne

Model端到端模塊化聯(lián)合端到端Rule-Based

Planner決策規(guī)劃模型化（生成式AI大模型）BEV感知人為定義接口人為定義接口

瞄準(zhǔn)“全局最優(yōu)”，端到端路線的提出有望有效緩解模塊化架構(gòu)的弊端。o模塊化自動駕駛系統(tǒng)面臨信息丟失、計算效率低、累積誤差以及維護(hù)成本等問題，這些問題難以回避

，需要新的思路去解決。o

端到端自動駕駛通過將傳感器收集到的全面信息作為輸入，在單一網(wǎng)絡(luò)中直接生成車輛的控制指令或運動規(guī)劃。這種設(shè)計使得整個系統(tǒng)針對最終

目標(biāo)進(jìn)行優(yōu)化，而非僅僅針對某個獨立的子任務(wù)

，從而實現(xiàn)自動駕駛性能的全局最優(yōu)化。o隨著高質(zhì)量數(shù)據(jù)的不斷積累和模型的持續(xù)優(yōu)化

，端到端架構(gòu)有望展現(xiàn)出比傳統(tǒng)模塊化架構(gòu)更優(yōu)越的自動駕駛性能。?一體化的模型結(jié)構(gòu)能夠減少信息傳遞的延遲，加快系統(tǒng)反應(yīng)?消除各模塊之間信息傳遞的誤差累積，全棧神經(jīng)網(wǎng)絡(luò)的上下層之間可以

做到全量信息傳遞?不僅感知模塊，決策規(guī)劃與控制模塊也由數(shù)據(jù)驅(qū)動，實現(xiàn)全棧數(shù)據(jù)驅(qū)動?無需或僅需少量人工編碼、手寫規(guī)則，簡化開發(fā)流程?提升數(shù)據(jù)規(guī)模與質(zhì)量能夠顯著提升產(chǎn)品性能，不斷提升系統(tǒng)的能力上限?端到端是一體化架構(gòu)，為汽車行駛的全局任務(wù)為統(tǒng)一目標(biāo)聯(lián)合訓(xùn)練?避免模塊化的單獨優(yōu)化?不需要通過頻繁的patch和參數(shù)調(diào)整修正圖：端到端自動駕駛的特點與優(yōu)勢模塊化

端到端3

消除誤差2

全局最優(yōu)1

數(shù)據(jù)驅(qū)動PerformanceTime行為克隆學(xué)習(xí)方法具體方法定義特點優(yōu)勢劣勢當(dāng)前發(fā)展階段模仿學(xué)習(xí)（IL）行為克隆(BC)通過監(jiān)督學(xué)習(xí)模仿

專家行為簡單直接，易于實

現(xiàn)實現(xiàn)簡單，計算效

率高無法捕捉專家決策

復(fù)雜性，對數(shù)據(jù)分

布偏移敏感廣泛應(yīng)用，但面臨

泛化和魯棒性挑戰(zhàn)模仿學(xué)習(xí)逆最優(yōu)控制通過專家演示學(xué)習(xí)嘗試解釋專家行為可能更好地理解任學(xué)習(xí)獎勵函數(shù)困難，主要用于研究，實（IL）(IOC)獎勵函數(shù)背后的意圖務(wù)結(jié)構(gòu)需要大量專家數(shù)據(jù)際應(yīng)用較少強(qiáng)化學(xué)習(xí)（RL）強(qiáng)化學(xué)習(xí)(RL)通過試錯學(xué)習(xí)最優(yōu)

策略能夠處理高維輸入

和連續(xù)動作空間理論上能學(xué)習(xí)更優(yōu)

策略需要大量數(shù)據(jù)和計

算資源，訓(xùn)練不穩(wěn)

定在模擬環(huán)境中有進(jìn)

展，真實應(yīng)用挑戰(zhàn)

大others策略蒸餾(PolicyDistillation)訓(xùn)練輔助網(wǎng)絡(luò)來指

導(dǎo)主網(wǎng)絡(luò)學(xué)習(xí)利用輔助網(wǎng)絡(luò)的知

識來提升主網(wǎng)絡(luò)性

能可以提高學(xué)習(xí)效率

和策略性能需要設(shè)計合適的輔

助網(wǎng)絡(luò)和訓(xùn)練策略研究階段，探索如

何有效傳遞知識others模型預(yù)測控制(MPC)利用模型預(yù)測未來

狀態(tài)來進(jìn)行控制決

策考慮未來狀態(tài)，可

以優(yōu)化長期行為能夠考慮未來預(yù)測，

提高策略魯棒性計算成本高，需要

精確模型研究和特定應(yīng)用中

使用，需要進(jìn)一步

優(yōu)化模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)是端到端自動駕駛的主要訓(xùn)練方法。o

模仿學(xué)習(xí)（Imitation

Learning）和強(qiáng)化學(xué)習(xí)（Reinforcement

Learning）是當(dāng)前用于訓(xùn)練端到端神經(jīng)網(wǎng)絡(luò)的兩種主要方法。o

模仿學(xué)習(xí)主要通過逆最優(yōu)控制（InverseOptimalControl）和行為克隆（BehaviorCloning）來實現(xiàn)，其核心理念是讓智能體通過模仿專家的行為來學(xué)習(xí)最優(yōu)策略。而強(qiáng)化學(xué)習(xí)則是一種通過試錯來學(xué)習(xí)的領(lǐng)域，其中獎勵函數(shù)的設(shè)計是一個關(guān)鍵挑戰(zhàn)。圖：端到端自動駕駛背后的基本訓(xùn)練方法逆最優(yōu)控制強(qiáng)化學(xué)習(xí)

各類基礎(chǔ)模型有望為自動駕駛帶來新維度上的能力。正在被積極開發(fā)。

大視覺模型（VFM）?目標(biāo)檢測和跟蹤：VFM在3D物體檢測和分割方面的能力，對于自動駕駛的感知系統(tǒng)升級至關(guān)重要；?仿真和測試：VFM的視頻生成能力，為創(chuàng)建逼真的駕駛場景提供了支持，這對于自動駕駛系統(tǒng)的安全性和可靠性提升有極大潛力。大語言模型（LLM）?推理和規(guī)劃

：LLM利用其在邏輯推理、代碼生成和翻譯方面的專長，為自動駕駛的路徑規(guī)劃和決策制定提供支持；?用戶交互：通過理解自然語言并執(zhí)行用戶指令，LLM使智能駕駛系統(tǒng)更加用戶友好，實現(xiàn)個性化體驗；?常識性駕駛知識

：LLM的預(yù)訓(xùn)練能力使其能夠理解和應(yīng)用駕駛常識，可能替代傳統(tǒng)的基于規(guī)則的系統(tǒng)。多模態(tài)大模型（MFM）?視覺理解與空間推理

：MFM結(jié)合了視覺和語言信息，展現(xiàn)出卓越的視覺理解和空間推理能力，對自動駕駛系統(tǒng)的決

策過程至關(guān)重要；?綜合感知與預(yù)測

：MFM通過整合視覺和語言數(shù)據(jù)，提高了對環(huán)境的感知精度和對其他交通參與者行為的預(yù)測準(zhǔn)確性。o

這些基礎(chǔ)模型通過預(yù)訓(xùn)練獲得了推理能力和豐富的知識，能夠升級傳統(tǒng)的基于規(guī)則的if-else系統(tǒng)。出色的泛化能力能夠應(yīng)對自動駕駛技術(shù)發(fā)展中的挑戰(zhàn)，提升在感知、預(yù)測、規(guī)劃等關(guān)鍵領(lǐng)域的性能，升級自動駕駛仿真和測試環(huán)節(jié)的技術(shù)手段。o

大型語言模型、視覺模型（如世界模型）、以及多模態(tài)大型模型等基礎(chǔ)模型展現(xiàn)出了強(qiáng)大的能力，并且這些能力正在自動駕駛技術(shù)的融合應(yīng)用中大模型之于

自動駕駛汽車仿真與測試路徑預(yù)測

感知決策一體化

視頻生成/世界模型視覺理解與推理人機(jī)交互/個性化

路徑規(guī)劃

大語言模型大視覺模型

環(huán)境感知多模態(tài)大模型

GPT-4Vision、LLaVA等GAIA、SORA等ChatGPT、LLaMA等Part03廠商實踐：技術(shù)路線的選擇與踐行P18Part02創(chuàng)新思路：端到端自動駕駛的價值P09

Part04未來展望：端到端的挑戰(zhàn)與未來式P26

發(fā)展背景：汽車智能化正加速普及Part

01P02MmomenT

端到端自動駕駛部分廠商o端到端自動駕駛正迅速成為自動駕駛行業(yè)的新焦點，吸引了多種類型的參與者投身于這一路線

，涵蓋了車企、人工智能企業(yè)、自動駕駛技術(shù)公司、機(jī)器人公司以及自動駕駛芯片制造商。

o隨著對“端到端”理念的共識逐步建立，預(yù)計將有更多的企業(yè)加入這一行列

，各自發(fā)揮專長，共同推動端到端自動駕駛技術(shù)的繁榮發(fā)展。圖：端到端自動駕駛行業(yè)代表玩家（不完全整理）人工智能公司/自動駕駛解決方案供應(yīng)商模塊化聯(lián)合端到端一體化端到端模型車企/新勢力

端到端玩家簡析-特斯拉落地的公司。

oFSDV12在復(fù)雜場景下展現(xiàn)了卓越的泛化能力，且其駕駛風(fēng)格不再局限于傳統(tǒng)的規(guī)則遵循

，而是變得更加靈活

，類似于經(jīng)驗豐富的駕駛員，能夠根據(jù)實際情況做出適應(yīng)性調(diào)整。

圖2：特斯拉FSD已經(jīng)累計開了10億英里*該數(shù)據(jù)仍然在持續(xù)、快速上漲

，賦能FSD的迭代更新。o

特斯拉在端到端自動駕駛算法領(lǐng)域的領(lǐng)先地位，得益于在FSD真實里程積累和超大規(guī)模算力投入方面的深厚基礎(chǔ)，這也是特斯拉最大的競爭優(yōu)勢。o

特斯拉無疑是電動汽車和自動駕駛行業(yè)的領(lǐng)軍者，它已于2024年1月向北美用戶正式推送FSDV12，成為首家在量產(chǎn)車型上實現(xiàn)端到端自動駕駛*相當(dāng)于30萬塊NvidiaA100算力總和

，為端到端自動駕駛模型訓(xùn)練提供充沛算力。圖1：特斯拉算力儲備將在2024年10月達(dá)到100EFLOPS

端到端玩家簡析-Wayveo

成立于2017年的Wayve，是一家位于英國倫敦的自動駕駛技術(shù)公司，以其創(chuàng)新的端到端機(jī)器學(xué)習(xí)技術(shù)而著稱

，專注于開發(fā)具有高度適應(yīng)性和可擴(kuò)展性的端到端自動駕駛系統(tǒng)。

VLAM模型o

Wayve在端到端自動駕駛技術(shù)領(lǐng)域取得了顯著進(jìn)展，先后推出了大型語言模型LINGO-1/2，視覺生成模型GAIA-1，以及專為高級自動駕駛仿真訓(xùn)練和測試而設(shè)計的PRISM-1。

PRISM?

僅依靠純視覺信息

，即可進(jìn)行精確的

4D場景重建（空間+時間），用于自動駕駛的模擬仿真測試.

增強(qiáng)其自動駕駛技術(shù)的測試和訓(xùn)練·

同時發(fā)布了wayvescenes

101

Benchmark基準(zhǔn)數(shù)據(jù)集LINGO-2使用自然語言訓(xùn)練,可解釋Al駕駛模型,

顯著提升了系統(tǒng)的可解釋性最新發(fā)布的LINGO-2增加了人機(jī)交互功能,司機(jī)可通過語言命令控制汽車能夠通過視頻、動作和文本生成真實駕駛視頻的生成式Al世界模型生成多個合理的未來,時長可達(dá)幾分鐘

可通過語言、動作進(jìn)行控制生成的內(nèi)容圖：將世界模型融入自動駕駛，Wayve加速端到端一體化模型的研發(fā)迭代速度wayvevision

LanguageAction

Model4D場景重建模型/合成數(shù)據(jù)way

vevisionModelDrivingActionText視頻生成模型GAIA-

1LearnedqueriesVideoinputText端到端玩家簡析-元戎啟行o元戎啟行于2024年北京車展上隆重推出了其即將量產(chǎn)的高端智能駕駛平臺DeepRoute

，該平臺采用了端到端自動駕駛模型，標(biāo)志著元戎啟行成為國內(nèi)首批將端到端大型模型成功應(yīng)用于量產(chǎn)車輛的人工智能企業(yè)。oCEO周光曾表示：“DeepRoute

IO平臺不依賴高精度地圖

，應(yīng)用端到端模型，具有極佳的綜合性能以及更強(qiáng)的長尾場景處理能力。目前，IO平臺已在城市線級不同的多個城市進(jìn)行泛化測試，這些等級不同的城市人口均超千萬

，道路情況極具代表性。IO平臺推向消費者市場后，所到之處

都能開

，任何場景都好開?！?

元戎的DeepRoute

IO方案，無需開發(fā)、訓(xùn)練多個模型，將感知、預(yù)測、規(guī)劃等

全打通?

端到端模型實現(xiàn)輸入圖像后，直接輸出

控制動作?Mapfree全域點到點?

更擅長處理復(fù)雜路況?

信息處理無減損?

駕駛行為更加“人性化”

端到端模型開展道路測試

2023.8Learning-Based更少的工程更多的數(shù)據(jù)Rule-Based更多的工程

適量的數(shù)據(jù)圖：元戎啟行的端到端融合演進(jìn)路線通用感知網(wǎng)絡(luò)控制預(yù)測規(guī)劃網(wǎng)絡(luò)目標(biāo)跟蹤預(yù)測后融合規(guī)劃控制決策目標(biāo)檢測決策定位地圖控制規(guī)劃地圖預(yù)測定位多傳感器融合n

2022n

2017

端到端玩家簡析-商湯絕影o商湯科技及其聯(lián)合實驗室提出了行業(yè)內(nèi)首個感知與決策一體化的自動駕駛通用模型UniAD

，該模型榮獲了2023年CVPR的最佳論文獎。進(jìn)一步地，在2024年，商湯科技推出了適用于實車部署、面向量產(chǎn)的真正端到端自動駕駛解決方案UniAD。

oUniAD模型將感知、決策、規(guī)劃等關(guān)鍵模塊整合到一個全棧的Transformer端到端模型中，通過聯(lián)合訓(xùn)練保留了各個模塊的特性。它實現(xiàn)了感知與決策的一體化，同時保持了模塊化系統(tǒng)的優(yōu)勢

，便于進(jìn)行問題的回溯和分析。

UniAD端到端解決方案演進(jìn)路徑

?UniAD包括四個基于Transformer解碼器的感知、預(yù)測模塊和

一個規(guī)劃器?并不限于特定的Transformer解碼器，可以加入其他的替代方

案進(jìn)行感知與BEV特征提取?查詢Q起到連接管道的作用，方便聯(lián)合訓(xùn)練與交互建模?將各個任務(wù)進(jìn)行層級式的結(jié)合，并對不同任務(wù)間的信息進(jìn)行了

充分的交互?通過端到端聯(lián)合訓(xùn)練避免了多任務(wù)訓(xùn)練的融合難題，實現(xiàn)全局

最優(yōu)，同時保留了分模塊系統(tǒng)的優(yōu)勢，可以拋出中間模塊的結(jié)果進(jìn)行白盒化分析統(tǒng)一的感知決策規(guī)劃模型

Learning-Based，聯(lián)合訓(xùn)練攝像頭激光雷達(dá)毫米波雷達(dá)超聲波雷達(dá)高精地圖攝像頭激光雷達(dá)毫米波雷達(dá)超聲波雷達(dá)SD地圖攝像頭激光雷達(dá)毫米波雷達(dá)超聲波雷達(dá)高精地圖決策規(guī)劃Rule-Based決策規(guī)劃

Learning-Based感知模塊

Learning-Based

UniAD:Planning-orientedAutonomous

Driving，UniAD的聯(lián)合訓(xùn)練實現(xiàn)方法兩段式端到端網(wǎng)絡(luò)真·端到端UniAD基于規(guī)則的網(wǎng)絡(luò)

端到端玩家簡析-小鵬o

在2024年的520AI

Day上，小鵬汽車發(fā)布了其端到端大模型，該模型由三個關(guān)鍵組成部分構(gòu)成：XNet感知神經(jīng)網(wǎng)絡(luò)、XPlanner規(guī)劃控制大模型以及XBrain大語言模型。

o小鵬計劃讓其端到端智能駕駛大模型實現(xiàn)“每2天迭代一次”的快速更新周期。按照這一規(guī)劃，預(yù)計在未來18個月內(nèi)，小鵬的XNGP系統(tǒng)的能力將實現(xiàn)30倍的提升（接管率指標(biāo)）。

圖：小鵬發(fā)布端到端大模型，面向旗下量產(chǎn)車型?

AI大語言模型，是自動駕駛汽車的“大腦”?具備理解學(xué)習(xí)能力，泛化能力提升

，可處理復(fù)雜甚至未知場景?系統(tǒng)能夠認(rèn)識待轉(zhuǎn)區(qū)、潮汐車道、特殊車道、路牌文字

，秒懂各種令行禁止、快慢緩急的行為指令，進(jìn)而做出兼顧安全、性

能的擬人駕駛決策?

深度視覺感知神經(jīng)網(wǎng)絡(luò)

，是自動駕駛汽車的“眼睛”?

聚合了動態(tài)XNet、靜態(tài)XNet和純視覺2K占用網(wǎng)絡(luò)?感知范圍提升2倍

，面積可達(dá)1.8個足球場大小，能精準(zhǔn)識別50+

個目標(biāo)物

，讓用戶如同擁有鷹眼視覺?基于神經(jīng)網(wǎng)絡(luò)的規(guī)劃大模型

，是自動駕駛汽車的“小腦”?擁有“老司機(jī)般的腳法”

，前后頓挫減少50%、違停卡死減少40%、安全接管減少60%?

讓用戶舒適性、安全性體驗大幅提升升級XPlannerXNetXPlanner感知規(guī)劃控制端到端玩家簡析-華為乾崑o華為在2024年4月推出了新品牌乾崑及其新一代智能駕駛解決方案ADS3.0

，該方案以GOD網(wǎng)絡(luò)和PDP網(wǎng)絡(luò)為核心，實現(xiàn)了端到端的智能駕駛。oGOD大網(wǎng)絡(luò)具備識別白名單和異形障礙物的能力，同時能夠感知道路結(jié)構(gòu)和場景語義

，從而更全面地理解駕駛環(huán)境。而PDP預(yù)測決策與規(guī)劃網(wǎng)絡(luò)

的加入，顯著提升了方案的通行效率，使得復(fù)雜路口的通過率達(dá)到96%以上。通過快速的更新迭代

，ADS3.0將能幫助車主實現(xiàn)“越開越好開”和“行駛更類人”的目標(biāo)。

華為乾崑ADS3.0架構(gòu)

感知

(理解駕駛場景)

預(yù)測與決策PDP網(wǎng)絡(luò)預(yù)決策規(guī)劃一張網(wǎng)?相較于ADS

2.0

，ADS

3.0在感知部分采用GOD大感知網(wǎng)絡(luò)，決策規(guī)劃部分采用PDP網(wǎng)絡(luò)，完成了決策規(guī)劃模塊的神經(jīng)網(wǎng)絡(luò)化；?ADS

3.0可實現(xiàn)車位到車位的NCA領(lǐng)航輔助功能，實現(xiàn)從公開道路到園區(qū)道路再到地下車位全場景貫通；?云端訓(xùn)練，快速迭代：學(xué)習(xí)訓(xùn)練算力達(dá)3.5E

FLOPS

，每天學(xué)習(xí)里程

3000萬+公里

，5天一次模型更新速度。類別ADS

1.0ADS

2.0ADS

3.0發(fā)布時間2021年4月2023年4月2024年4月軟件架構(gòu)BEVBEV+GOD網(wǎng)絡(luò)GOD網(wǎng)絡(luò)+PDP網(wǎng)絡(luò)核心功能NCA領(lǐng)航輔助（上海、廣州、深圳等）NCA領(lǐng)航輔助

（全國高速、城區(qū)）NCA領(lǐng)航輔助（全國高速、城區(qū)，實現(xiàn)

點到點）搭載車型極狐阿爾法S、阿維塔11問界M5/M7/M9

，阿維

塔11/12

，智界S7享界S9（預(yù)計），后續(xù)有

更多品牌與車型加入華為歷代ADS智駕方案特性運動控制RadarvisionNavigationLidarGOD網(wǎng)絡(luò)Part02創(chuàng)新思路：端到端自動駕駛的價值P09

Part03廠商實踐：技術(shù)路線的選擇與踐行P18

Part04未來展望：端到端的挑戰(zhàn)與未來式P26

發(fā)展背景：汽車智能化正加速普及Part

01P02

算力、數(shù)據(jù)與可解釋性，是端到端模型上車的主要挑戰(zhàn)。o

盡管端到端架構(gòu)相較于傳統(tǒng)的模塊化自動駕駛展現(xiàn)出了諸多優(yōu)勢

，并且吸引了眾多汽車制造商、科技公司以及其他自動駕駛領(lǐng)域的企業(yè)參與，端到端自動駕駛在落地和商業(yè)化方面仍然面臨諸多挑戰(zhàn)。

1巨額投入成本

2弱解釋性問題3優(yōu)質(zhì)大規(guī)模數(shù)據(jù)o

構(gòu)建所需的強(qiáng)大算力、獲取用于模型訓(xùn)練的高質(zhì)量海量數(shù)據(jù)，以及端到端大模型的“不透明性”和“解釋性不足”，都是制約產(chǎn)品性能提升和安全保障的關(guān)鍵問題

，需要行業(yè)各方共同努力，攜手解決。

與大語言模型剛問世時類似

，端到端的訓(xùn)練方式讓模型不可避免地存在不可解釋性?自動駕駛的“失效成本”很高，強(qiáng)調(diào)安全底線，需要設(shè)置額外的完全邊界做冗余?

大模型需要大算力

，需要廠商不

斷提升GPU的采購規(guī)模

，這意味著端到端模型的訓(xùn)練成本非常高昂?

AI廠商均在算力層面的投入

，但

國內(nèi)GPU的限制仍是挑戰(zhàn)?

大模型需要大數(shù)據(jù)，本質(zhì)上來講，端到端自動駕駛是海量駕駛視頻

片段的學(xué)習(xí)（壓縮與升華）?

需要極大規(guī)模的高質(zhì)量數(shù)據(jù)，采集、清洗、篩選都是難點7系統(tǒng)的安全性保障……4技術(shù)路線不確定6

團(tuán)隊組織變革5缺乏驗證方法廠商類型廠商名稱智算中心建設(shè)算力水平車企特斯拉Dojo智算中心100000

PFLOPS長安長安智算中心1420

PFLOPS吉利星睿智算中心810

PFLOPS理想理想智算中心1200

PFLOPS小鵬“扶搖”智算中心600

PFLOPS蔚來蔚來智算中心-科技公司/供應(yīng)商商湯絕影商湯智算中心12000

PFLOPS華為車BU云智算中心3500

PFLOPS毫末智行“雪湖·綠洲”智算

中心670

PFLOPS

算力儲備需要大量投入，這是國內(nèi)廠商追上特斯拉需要翻越的壁壘。o端到端自動駕駛大模型本質(zhì)上是從大量的優(yōu)質(zhì)駕駛視頻片段中提取和壓縮駕駛知識與習(xí)慣的過程，這與ChatGPT等生成式大語言模型類似

，都需要強(qiáng)大的算力和海量數(shù)據(jù)來支撐模型的訓(xùn)練。

o近年來，國內(nèi)主流汽車企業(yè)和新興造車勢力都在加快算力儲備的建設(shè)，

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

【甲子光年】2024自動駕駛行業(yè)報告-“端到端”漸行漸近

文檔簡介

溫馨提示

最新文檔

評論

【甲子光年】2024自動駕駛行業(yè)報告-“端到端”漸行漸近

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔