2024特斯拉的自動駕駛系統(tǒng)FSD發(fā)展歷程、技術原理及未來展望分析報告_第1頁
2024特斯拉的自動駕駛系統(tǒng)FSD發(fā)展歷程、技術原理及未來展望分析報告_第2頁
2024特斯拉的自動駕駛系統(tǒng)FSD發(fā)展歷程、技術原理及未來展望分析報告_第3頁
2024特斯拉的自動駕駛系統(tǒng)FSD發(fā)展歷程、技術原理及未來展望分析報告_第4頁
2024特斯拉的自動駕駛系統(tǒng)FSD發(fā)展歷程、技術原理及未來展望分析報告_第5頁
已閱讀5頁,還剩69頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

2024年深度行業(yè)分析研究報告 32概覽:軟硬件全鏈路閉環(huán)全棧自研構筑強大技術基石 52.1發(fā)展歷程:軟硬件持續(xù)迭代由外部合作到全棧自研 2.2系統(tǒng)架構:軟硬件全鏈路閉環(huán)實現(xiàn)高度集成 3算法端:創(chuàng)新算法優(yōu)化實現(xiàn)高效神經(jīng)網(wǎng)絡推理 83.1感知:先進感知技術,確保精準環(huán)境理解和物體識別 3.2規(guī)劃:采用交互搜索框架快速選擇最優(yōu)方案 4算力端:Dojo超級算力支撐保持能效比優(yōu)勢 214.1Dojo系統(tǒng):特斯拉自研超算平臺研發(fā)進展迅猛 214.2D1芯片:基于存算一體架構實現(xiàn)高效數(shù)據(jù)傳輸 244.3瓦片集群:由基本單元出發(fā)構成大規(guī)模算力集群 264.4軟件系統(tǒng):采用高效同步機制性能較GPU大幅提升 275芯片端:自研FSD芯片集成高效計算能力 5.1硬件架構:由合作邁向自研運算性能強大 305.2編譯推理:高效優(yōu)化最大化計算資源利用 346數(shù)據(jù)端:自動化數(shù)據(jù)閉環(huán)優(yōu)化數(shù)據(jù)驅(qū)動訓練 6.1自動標注:自動化4D標簽生成提升標注效率 366.2仿真模擬:構建虛擬場景優(yōu)化算法表現(xiàn) 396.3數(shù)據(jù)引擎:集成多源數(shù)據(jù)加速模型訓練 427端到端架構:FSDV12引領實現(xiàn)感知決策一體化 467.1特斯拉的AI關鍵時刻:FSDV12首次實現(xiàn)端到端V13即將推出 467.2大模型成就端到端自動駕駛推動感知決策一體化 487.3端到端架構演進:感知端到端到OneModel端到端 49插圖目錄 3表格目錄 4插圖目錄圖1:2013年9月,馬斯克在Twitter中首次提到AP 圖2:特斯拉自動駕駛系統(tǒng)發(fā)展歷程 圖3:FSD累計行駛里程 圖4:FSD訂閱價格降至99美元/月 圖5:特斯拉FSD系統(tǒng)架構 圖6:特斯拉視覺感知系統(tǒng)算法采用HydraNets架構 圖7:圖像空間預測投射到向量空間后出現(xiàn)較大偏差 圖8:單相機檢測無法解決物體橫跨多相機的問題 圖9:BEV視角融合了多個攝像頭的視頻數(shù)據(jù) 圖10:Transformer是實現(xiàn)二維到三維變換的核心 圖11:通過圖像校準解決攝像頭采集數(shù)據(jù)偏差問題 圖12:加入虛擬標準攝像頭以校準圖像數(shù)據(jù)偏差 圖13:感知網(wǎng)絡仍是對瞬時圖像片段進行感知 圖14:特斯拉引入時空序列特征層 圖15:特征序列模塊可以緩存時序與空間特征 圖16:隱狀態(tài)可組織成二維網(wǎng)格 圖17:空間RNN的隱狀態(tài)可包含多個通道 圖18:OccupancyNetwork對正在啟動的兩節(jié)公交車運動狀態(tài)進行精準捕捉 圖19:OccupancyNetwork能夠生成可行使表面 圖20:基于Attention機制的OccupancyNetwork占用網(wǎng)絡 圖21:LanesNetwork旨在生成車道與連接信息 圖22:特斯拉采用低精度地圖對視覺表示進行增強 圖23:LanesNetwork工作原理 圖24:稀疏化處理可使神經(jīng)網(wǎng)絡專注于計算最重要的區(qū)域 圖25:效率、安全和舒適是自動駕駛規(guī)劃的三大目標 圖26:非凸性和高維性是自動駕駛規(guī)劃的兩大難點 圖27:特斯拉將規(guī)劃問題進行分層分解 圖28:自動駕駛系統(tǒng)需要實現(xiàn)多代理聯(lián)合軌跡規(guī)劃 圖29:自動駕駛行駛方案評估至少需要10毫秒 圖30:特斯拉采用交互搜索框架,實現(xiàn)實時方案評估 20圖31:特斯拉Dojo發(fā)展歷程 21圖32:特斯拉Dojo算力規(guī)劃 22圖33:Dojo超級計算機三大目標 23圖34:Dojo系統(tǒng)二維網(wǎng)格結構 23圖35:Dojo訓練節(jié)點架構 24圖36:D1芯片結構 24圖37:D1芯片計算陣列 25圖38:D1芯片串行器/解串器分布 25圖39:特斯拉Dojo指令集 25圖40:計算平面兩端各放置了一個接口處理器 26圖41:Dojo接口處理器連接在系統(tǒng)托盤下方 26圖42:訓練瓦片上集成了25個D1芯片 27圖43:系統(tǒng)托盤上訓練瓦片呈2x3矩陣式排布 27圖44:Dojo訓練機柜中集成了兩個系統(tǒng)托盤 27圖45:系統(tǒng)托盤上訓練瓦片呈2x3矩陣式排布 27圖46:系統(tǒng)性能由硬件、利用率和加速器占用率決定 28圖47:多加速器運行批量歸一化會導致前向傳播延遲 28圖48:Dojo系統(tǒng)使用高效同步機制,實現(xiàn)內(nèi)部單元協(xié)作 28圖49:自動標注與占用網(wǎng)絡占特斯拉GPU使用量一半 29圖50:Dojo處理自動標注與占用網(wǎng)絡速度大幅提升 29圖51:特斯拉FSD雙芯片系統(tǒng)設計 31圖52:特斯拉FSD芯片發(fā)展歷程 32圖53:特斯拉FSD芯片架構 33圖54:汽車中在同時運行很多架構、模塊和網(wǎng)絡 34圖55:神經(jīng)網(wǎng)絡編譯器與鏈接器架構 34圖56:特斯拉混合調(diào)度系統(tǒng)架構 35圖57:特斯拉數(shù)據(jù)標注發(fā)展歷程 37圖58:基于2D圖像進行標注 37圖59:在BEV空間下進行4D自動標注 37圖60:特斯拉4D自動標注流程 38圖61:4D自動標注的三個關鍵步驟 39圖62:特斯拉仿真模擬流程包含五大關鍵步驟 40圖63:通過自動化標簽生成道路網(wǎng)格和車道 41圖64:以隨機化啟發(fā)式規(guī)則生成外部世界 41圖65:特斯拉仿真世界創(chuàng)建流程 42圖66:特斯拉數(shù)據(jù)引擎示意圖 43圖67:特斯拉FSD用戶的累計行駛里程已超過13億英里 44圖68:自成閉環(huán)的數(shù)據(jù)引擎能夠更好地優(yōu)化神經(jīng)網(wǎng)絡 45圖69:馬斯克強調(diào):FSDv12運行速度快了10倍,可以替代30萬行代碼 47圖70:特斯拉FSD發(fā)展路線圖 48圖71:多模塊化方案VS端到端方案 49圖72:自動駕駛架構演進示意圖 表格目錄表1:Dojo算力分為內(nèi)核級、芯片級、格點級、集群級等四個層級 23表2:特斯拉自動駕駛硬件平臺不同版本對比 31表3:FSD芯片1.0和2.0性能對比 33本報告為特斯拉FSD專題報告,從算法端、算力端、芯片端、數(shù)據(jù)端四個層面出發(fā),對FSD系統(tǒng)底層技術原理進行全面深度拆解,并結合端到端架構演進趨勢,對FSD系統(tǒng)的最新發(fā)展變化進行梳理,對板塊后續(xù)核心催化進行展望。FSD是一套包含感知、規(guī)控、執(zhí)行在內(nèi)的全鏈路自動駕駛軟硬件架構,在算法、算力、數(shù)據(jù)、芯片等層面實現(xiàn)了高度集成:1)算法端:感知規(guī)劃算法全棧自研,實現(xiàn)從純視覺信息輸入到規(guī)劃方案輸出。1)感知。特斯拉采用BEV+Transformer架構,將2D圖像轉化為對周圍環(huán)境的準確3D感知。而后,特斯拉將該架構升級為OccupancyNetwork,能夠直接在向量空間產(chǎn)生體積占用,精準識別物體運動狀態(tài)差異;2)規(guī)劃。特斯拉采用交互搜索框架,以任務分解的方式對一系列可能的行駛軌跡進行研究,實現(xiàn)對規(guī)劃方案的實時評估。通過算法端全棧自研,特斯拉以低成本感知硬件進行高階智駕能力輸出,快速實現(xiàn)自動駕駛算法優(yōu)化迭代。2)算力端:從0到1構建超級計算機系統(tǒng),為遠期算力提供強大支撐。特斯拉從算力芯片開始,完整構建Dojo超級計算機系統(tǒng),以處理自動駕駛所需海量數(shù)據(jù)。2021年8月,Dojo在特斯拉首屆AIDay上正式亮相,定位為超高速訓練計算機,采用分布式計算架構設計,算力分為內(nèi)核級、芯片級、格點級、集群級等四個層級,實現(xiàn)從訓練節(jié)點到訓練集群的完整構建。特斯拉從0到1構建超級計算機系統(tǒng),旨在擺脫對英偉達GPU的依賴,為遠期算力瓶頸進行前瞻布局。3)芯片端:由合作邁向自研,實現(xiàn)高性能算力集成。特斯拉自動駕駛硬件平臺初期與Mobileye、英偉達等合作,2019年正式發(fā)布基于自研FSD芯片的HW3.0系統(tǒng),開始轉向硬件平臺全面自研,下一代全自動駕駛(FSD)硬件——AI5,預計將于2025年下半年投產(chǎn)。FSD硬件計算平臺采用兩顆SoC芯片,以雙系統(tǒng)設計提升自動駕駛功能安全冗余。特斯拉構建了神經(jīng)網(wǎng)絡編譯器與鏈接器,以最大化計算資源利用率、吞吐量,并最小化延遲。通過芯片自研,特斯拉能夠?qū)崿F(xiàn)硬件方案的持續(xù)快速迭代,與軟件算法進行更好的整合,從而實現(xiàn)更優(yōu)的系統(tǒng)性能。4)數(shù)據(jù)端:高效自動標注+構建仿真場景,實現(xiàn)數(shù)據(jù)驅(qū)動訓練。2020年,特斯拉開始研發(fā)并使用數(shù)據(jù)自動標注系統(tǒng),能夠在12小時內(nèi)自動標注一萬個駕駛旅程,可抵充500萬個小時的人工標注工作,極大提高了標注效率。仿真模擬則可以提供現(xiàn)實世界中難以獲得或是難以標記的數(shù)據(jù),從而加速FSD能力的訓練,賦能模型迭代。結合真實數(shù)據(jù)和標簽,以及仿真和手動校準的數(shù)據(jù),特斯拉形成綜合訓練數(shù)據(jù)集,用于訓練車端的在線模型,涉及網(wǎng)絡占用、車道線和障礙物檢測以及規(guī)劃算法,形成閉環(huán)的數(shù)據(jù)流,實現(xiàn)自動駕駛系統(tǒng)的持續(xù)優(yōu)化。FSD技術端快速進化,V12為首個端到端自動駕駛系統(tǒng),能夠模擬人類駕駛行為,實現(xiàn)感知決策一體化。特斯拉FSDv12于2023年底推出,采用端到端大模型,消除了自動駕駛系統(tǒng)的感知和定位、決策和規(guī)劃、控制和執(zhí)行之間的斷面,將三大模塊合在一起,形成了一個大的神經(jīng)網(wǎng)絡,直接從原始傳感器數(shù)據(jù)到車輛操控指令,簡化了信息傳遞過程,因而減少了延遲和誤差,提高了系統(tǒng)的敏捷性和準確性。特斯拉FSD快速進化,V13即將10月推出,有望于2025年Q1進入中國和歐洲,智能駕駛拐點已至?!癢e,Robot”發(fā)布會即將開幕,有望成為智駕板塊強勁催化。特斯拉將于北京時間10月11日在美國洛杉磯發(fā)布新品,活動主題口號為“We,Robot”。特斯拉Robotaxi即將正式推出,有望成為特斯拉發(fā)展歷程重要里程碑,并與FSDV13發(fā)布形成共振,共同成為板塊強勁催化。本篇報告與市場不同之處:1)從算法端、算力端、芯片端、數(shù)據(jù)端四個層面出發(fā),對FSD系統(tǒng)底層技術原理進行全面深度拆解;2)結合FSDV12系統(tǒng)發(fā)展路徑,對感知端到端到OneModel端到端的技術架構演進趨勢展開研究,探析自動駕駛領域全新發(fā)展路徑;3)對特斯拉FSD的未來發(fā)展路徑進行分析,判斷特斯拉自動駕駛的重要技術發(fā)展節(jié)點,并對未來智駕板塊的潛在事件催化進行展望。2概覽:軟硬件全鏈路閉環(huán)全棧自研構筑強大技術基石特斯拉自動駕駛系統(tǒng)發(fā)展始于2013年,初期采用外部合作方式。2013年9月,馬斯克在推特上首次提到AP(Autopilot系統(tǒng)),表示特斯拉正在進行自動駕駛領域的探索。2014年10月,特斯拉與視覺處理芯片獨角獸公司Mobileye進行合作,正式推出第一代Autopilot硬件(HW1.0),率先搭載于ModelS。在未來一年多的時間里,特斯拉通過OTA不斷更新固件,使車輛獲得更完善的駕駛輔助或自動駕駛功能。2016年10月,特斯拉推出第二代Autopilot硬件(HW2.0),采用了英偉達的DRIVEPX2平臺,硬件平臺進一步升級。圖1:2013年9月,馬斯克在Twitter中首次提到AP資料來源:界面新聞,民生證券研究院2019年4月,特斯拉推出HW3.0,正式開啟全棧自研。HW3.0放棄了英偉達的DRIVEPX2平臺,轉而采用特斯拉全棧自研的FSD芯片。2020年10月,特斯拉小范圍推送FSDBeta,對Autopilot基礎架構進行了重大重寫。2021年7月,特斯拉開始推送FSDBetaV9,該版本采用純視覺自動駕駛方案,摒棄了傳統(tǒng)的毫米波雷達和超聲波雷達,是特斯拉在自動駕駛技術的重要發(fā)展節(jié)點。2024年1月,特斯拉FSDV12正式向用戶推送,將城市街道駕駛堆棧升級為端到端神經(jīng)網(wǎng)絡,該神經(jīng)網(wǎng)絡由數(shù)百萬個視頻片段訓練而成,取代了超過30萬行的C++代碼。2024年2月,特斯拉ModelY迎來HW4.0自動輔助駕駛硬件升級,與HW3.0相比,HW4.0算力提升5倍,在硬件設計上實現(xiàn)并行處理能力增強、內(nèi)存管理優(yōu)化和專用加速器集成等多項創(chuàng)新。從最初的輔助駕駛系統(tǒng),到全棧自研自動駕駛技術,特斯拉持續(xù)引領智能駕駛技術發(fā)展浪潮。圖2:特斯拉自動駕駛系統(tǒng)發(fā)展歷程FSD累計行駛里程快速增長,商業(yè)化拐點已至。2024年4月12日,為降低FSD體驗門檻,吸引更多人訂閱,特斯拉FSD推出單月付費優(yōu)惠,價格從199美元/月調(diào)降50%至99美元/月,F(xiàn)SD買斷價格維持1.2萬美元不變。FSDV12版本更新、訂閱價格下降,共同驅(qū)動FSD累計行駛歷程數(shù)快速增長,截至2024年8月7日,F(xiàn)SD累計行駛里程達1.6億公里,商業(yè)化拐點已至。圖3:FSD累計行駛里程圖4:FSD訂閱價格降至99美元/月資料來源:阿爾法工廠研究院,民生證券研究院FSD是一套包含感知、規(guī)控、執(zhí)行在內(nèi)的全鏈路自動駕駛軟硬件架構,在算法、算力、數(shù)據(jù)、芯片等層面實現(xiàn)了高度集成。FSD架構在TeslaAIDay2022完整提出,核心組件包括規(guī)劃(Planning)、神經(jīng)網(wǎng)絡(NeuralNetworks)、訓練數(shù)據(jù)(TrainingData)、訓練基礎設施(TrainingInfra)、AI編譯與推理(AICompiler&Inference)等。FSD核心組件在算法端、算力端、數(shù)據(jù)端和硬件端展現(xiàn)出強大的整合能力:1)算法端,規(guī)劃組件專注于解決復雜的多物體關聯(lián)路徑規(guī)劃問題,通過精確處理自我車輛與周圍所有對象的行進軌跡,為汽車提供執(zhí)行動作的指導。同時,神經(jīng)網(wǎng)絡則利用視頻流等信息,輸出車輛的運動學狀態(tài),如位置、速度、加速度等,以實現(xiàn)精確控制。2)算力端,訓練基礎設施提供了強大的計算支持,包括CPU、GPU和神經(jīng)網(wǎng)絡加速器單元(NeuralNetworkAccelerator)。這些硬件資源通過AI編譯器的優(yōu)化,能夠高效地支持神經(jīng)網(wǎng)絡所需的新操作,并映射到最合適的硬件上,從而提升整體的計算效率。3)芯片端,AI編譯與推理組件確保了神經(jīng)網(wǎng)絡能夠在計算機上高效運行。通過將神經(jīng)網(wǎng)絡的執(zhí)行分配到兩個獨立的芯片系統(tǒng)上,F(xiàn)SD實現(xiàn)了高性能的并行計算,進一步提升了自動駕駛系統(tǒng)的響應速度和處理能力。4)數(shù)據(jù)端,訓練數(shù)據(jù)通過4D自動標注技術、模擬仿真和數(shù)據(jù)引擎,實現(xiàn)了數(shù)據(jù)的自動化和精準化處理,形成了一個閉環(huán)的數(shù)據(jù)系統(tǒng),為算法的訓練和優(yōu)化提供了高質(zhì)量的數(shù)據(jù)基礎。圖5:特斯拉FSD系統(tǒng)架構3算法端:創(chuàng)新算法優(yōu)化實現(xiàn)高效神經(jīng)網(wǎng)絡推理感知規(guī)劃算法全棧自研,實現(xiàn)從純視覺信息輸入到規(guī)劃方案輸出。1)感知。特斯拉采用BEV+Transformer架構,將2D圖像轉化為對周圍環(huán)境的準確3D感知。而后,特斯拉將該架構升級為OccupancyNetwork,能夠直接在向量空間產(chǎn)生體積占用,精準識別物體運動狀態(tài)差異;2)規(guī)劃。特斯拉采用交互搜索框架,以任務分解的方式對一系列可能的行駛軌跡進行研究,實現(xiàn)對規(guī)劃方案的實時評估。通過算法端全棧自研,特斯拉以低成本感知硬件進行高階智駕能力輸出,快速實現(xiàn)自動駕駛算法優(yōu)化迭代。特斯拉視覺感知系統(tǒng)采用HydraNets架構,以標準化流程進行視覺信息處理。1)Input。首先,系統(tǒng)接收來自攝像頭的原始視覺數(shù)據(jù),每個攝像頭采集分辨率為1280×960、36hz、12bit的視頻圖像;2)Backbone。用于提取圖像特征,特斯拉主要采用由RegNets(ResidualNeuralNetworks,殘差神經(jīng)網(wǎng)絡)組成的特征網(wǎng)絡結構,能夠通過不同層次的特征提取,捕捉圖像的細節(jié)以及整體上下文信息;3)Neck。用于提取更復雜的特征,特斯拉采用BiFPNs(Bi-directionalFeaturePyramidNetworks,雙向特征金字塔網(wǎng)絡),通過引入雙向信息流,實現(xiàn)多個尺度之間信息交流共享,增強了對多尺度目標的檢測性能;4)Head。由多個TaskSpecificHeads組成,負責最終的檢測任務,如物體檢測、交通信號和車道識別等。HydraNets架構能夠?qū)崿F(xiàn)特征共享、任務解耦與特征緩存。1)特征共享。HydraNets通過共享Backbone和BiFPNs特征金字塔網(wǎng)絡,減少了重復計算工作;2)任務解耦。每個子任務在主干網(wǎng)絡上獨立工作和微調(diào),而不影響其他子任務,從而可以在不影響其他任務的情況下,單獨對某個任務的數(shù)據(jù)集或頭部架構進行更改和優(yōu)化;3)特征緩存。HydraNets可以緩存多尺度級別特征,在進行微調(diào)工作流程時,可以只使用這些緩存的特征來微調(diào)模型的頭部,而無需重復計算整個圖6:特斯拉視覺感知系統(tǒng)算法采用HydraNets架構特斯拉早期方案為先在二維圖像空間實現(xiàn)感知,再投射至三維向量空間。攝像頭采集到的數(shù)據(jù)為2D圖像級,與現(xiàn)實世界不在一個維度,因此要實現(xiàn)完全自動駕駛能力,則需要將二維數(shù)據(jù)變換至三維空間。特斯拉早期采取的方案是先在二維圖像空間(ImageSpace)實現(xiàn)感知,將其投射至三維向量空間(VectorSpace),再將所有攝像頭的結果進行融合,但該方法需要對每個像素的信息進行精準深度預測,難度極大。此外,該方法無法對被遮擋的區(qū)域進行預測,因此如果物體橫跨多個攝像頭,且沒有任何攝像頭能夠檢測到物體全貌,則難以對多個攝像頭采集到的信息進行準確融合,從而無法對物體進行準確預測。圖7:圖像空間預測投射到向量空間后出現(xiàn)較大偏差圖8:單相機檢測無法解決物體橫跨多相機的問題特斯拉采用BEV+Transformer架構,將2D圖像轉化為3D感知。為了構建三維向量空間,網(wǎng)絡需要進行物體深度信息輸出。大部分自動駕駛公司的方案是采用激光雷達、毫米波雷達等傳感器來獲取深度信息,與視覺感知結果進行融合,而特斯拉堅持使用純視覺視頻數(shù)據(jù)來計算深度信息,在網(wǎng)絡結構中引入一層BEV(BirdEye’sView,鳥瞰圖)空間轉換層,用以構建網(wǎng)絡的空間理解能力。特斯拉采用“前融合”方案,將車身多個攝像頭獲得的視頻數(shù)據(jù)直接進行融合,并采用同一套神經(jīng)網(wǎng)絡進行訓練,實現(xiàn)特征從二維圖像空間到三維向量空間的變換。Transformer神經(jīng)網(wǎng)絡是實現(xiàn)二維到三維變換的核心,通過自注意力機制(Self-Attention)和多頭注意力(Multi-HeadAttention)模塊,將每個相機對應的圖像特征轉換為Key(鍵)和Value(值然后訓練模型以查表的方式自行檢索需要的特征用于預測,實現(xiàn)對車輛周圍環(huán)境的準確感知。圖9:BEV視角融合了多個攝像頭的視頻數(shù)據(jù)圖10:Transformer是實現(xiàn)二維到三維變換的核心通過虛擬標準攝像頭實現(xiàn)圖像校準,消除外參誤差。不同車輛由于攝像頭安裝外參的差異,可能導致采集的數(shù)據(jù)存在微小偏差,為此特斯拉在感知框架中加入了一層虛擬標準攝像頭(syntheticvirtualcamera),引入攝像頭標定外參將每輛車采集到的圖像數(shù)據(jù)通過去畸變、旋轉等方式處理后,統(tǒng)一映射到同一套虛擬標準攝像頭坐標中,從而實現(xiàn)各攝像頭原始數(shù)據(jù)的校準(Rectify消除外參誤差,確保數(shù)據(jù)一致性。圖11:通過圖像校準解決攝像頭采集數(shù)據(jù)偏差問題圖12:加入虛擬標準攝像頭以校準圖像數(shù)據(jù)偏差特斯拉引入時空序列特征層,以進一步提升環(huán)境感知準確性。在引入BEV+Transformer后,感知網(wǎng)絡已經(jīng)具備三維向量空間的感知能力,但仍是對瞬時的圖像片段進行感知,只能根據(jù)當前時刻感知到的信息進行判斷,感知不到世界空間內(nèi)部分特征。特斯拉通過引入時空序列特征層,使得感知網(wǎng)絡擁有類似于司機的短時記憶,可以對當前時刻的場景做出判斷,并根據(jù)一段時間內(nèi)的數(shù)據(jù)特征推演出目前場景下的可能結果。圖13:感知網(wǎng)絡仍是對瞬時圖像片段進行感知圖14:特斯拉引入時空序列特征層時空序列特征層主要包括兩部分:1)特征隊列模塊(FeatureQueue用來緩存時序與空間特征。其中,時序特征隊列每過27ms將一個特征加入隊列,可以穩(wěn)定感知結果的輸出,比如運動過程中發(fā)生的目標遮擋,模型可以找到目標被遮擋前的特征來預測感知結果;空間特征隊列每行駛一定固定距離,將一個特征加入隊列,用于等紅綠燈一類需要長時間靜止等待的狀態(tài),在該狀態(tài)下一段時間之前的時序特征隊列中的特征會出隊而丟失,因此需要用空間特征隊列來記住一段距離之前路面的箭頭或是路邊的標牌等交通標志信息;圖15:特征序列模塊可以緩存時序與空間特征2)視頻模塊(VideoQueue用來整合時序上的信息。特斯拉使用RNN結構作為視頻模塊,命名為空間RNN模塊(SpatialRNNModule)。車輛在二維平面上前進,可以將隱狀態(tài)(HiddenState)組織成一個二維網(wǎng)格。當車輛前進時,只更新網(wǎng)格上與車輛當前視野相關的部分,同時使用車輛的運動學狀態(tài)以及隱特征(HiddenFeatures)更新車輛位置。空間RNN的隱狀態(tài)可包含多個通道,每個通道可以跟蹤道路的不同方面,如道路中心、邊緣、標線等,網(wǎng)格可以同時處理多種類型的環(huán)境信息。網(wǎng)絡可以根據(jù)當前的能見度選擇性地更新隱藏狀態(tài),如果某個區(qū)域被其他車輛遮擋,網(wǎng)絡可以選擇不更新那個區(qū)域的狀態(tài),直到能見度恢復。視頻模塊能夠提升感知系統(tǒng)對于時序遮擋的魯棒性、對于距離和目標移動速度估計的準確性。圖16:隱狀態(tài)可組織成二維網(wǎng)格圖17:空間RNN的隱狀態(tài)可包含多個通道OccupancyNetwork能夠?qū)﹂L尾障礙物進行更好表達。在自動駕駛過程中,對常見障礙物如車輛、行人,可以通過3D物體檢測的方式來估計其位置和大小,但還有更多長尾障礙物也會對行駛產(chǎn)生重要影響,例如:1)可變形的障礙物,如兩節(jié)的掛車,不適合用3Dboundingbox來準確表示;2)異形障礙物,如翻倒的車輛,難以用傳統(tǒng)的3D姿態(tài)來表示;3)不在已知類別中的障礙物,如路上的石子、垃圾等,無法進行分類。因此,我們希望能找到一種更好的表達來描述這些長尾障礙物,完整估計3D空間中每一個位置的占據(jù)情況(Occupancy甚至是(占用網(wǎng)絡)。OccupancyNetwork是對HydraNets的重要改進,能夠直接在向量空間產(chǎn)生體積占用。OccupancyNetwork算法受到機器人領域中occupancygridmapping啟發(fā),將3D空間分為大小一致的體素網(wǎng)格(Gridcell),然后判斷每個cell是否被占用。OccupancyNetwork以車輛攝像頭產(chǎn)生的視頻流作為輸入,直接在向量空間產(chǎn)生單一統(tǒng)一的體積占用,對車輛周圍3D位置被占用的概率進行預測,并可以通過視頻信息對被遮擋物體情況進行即時預測。對于每個位置,OccupancyNetwork能夠產(chǎn)生一組語義,如路緣、汽車、行人和路上的碎片。OccupancyNetwork通過高效的計算能力,在10毫秒內(nèi)快速更新對周圍環(huán)境的感知,同時提供物體尺寸的近似估計,支持動態(tài)及靜態(tài)場景的全面預測,具有低延遲和低內(nèi)存占用的特點。OccupancyNetwork能夠精準識別物體運動狀態(tài)差異,與傳統(tǒng)目標檢測網(wǎng)絡相比優(yōu)勢明顯。中一輛兩節(jié)的公交車正在啟動,其中藍色表示運動的體素,紅色表示靜止的體素,OccupancyNetwork精確捕捉到公交車第一節(jié)已經(jīng)啟動,而第二節(jié)還處于靜止狀態(tài)的細微差別,并可對公交車的精確曲率進行預測,而這一過程對傳統(tǒng)的目標檢測網(wǎng)絡來說非常復雜。圖18:OccupancyNetwork對正在啟動的兩節(jié)公交車運動狀態(tài)進行精準捕捉OccupancyNetwork能夠生成可行使表面,增強復雜地形自動駕駛車輛控制能力。除體素網(wǎng)格外,OccupancyNetwork還能夠生成可行駛表面(driverablesurface),可行駛表面具有3D幾何形狀與語義信息,能夠增強在多山、彎曲道路等復雜地形上,自動駕駛車輛的控制能力。決策層可利用可行駛表面信息,更好的進行加速、減速等運動決策。圖19:OccupancyNetwork能夠生成可行使表面OccupancyNetwork引入SpatialAttention機制。OccupancyNetwork首先利用RegNet和BiFPN從多相機獲取特征,然后采用帶有3D空間位置信息的SpatialQuery,基于SpatialAttention注意力機制,實現(xiàn)對多個相機的3D空間位置信息和2D圖像的信息融合,模型從中學習對應的特征關系,最終輸出高維的空間特征。在進行特征融合后,基于反卷積(Deconvolution)的解碼器會解碼出每個3D空間位置的占用情況和占用流輸出,形成固定大小的體素網(wǎng)絡。模型的最后額外設計了一個隱式QueryableMLPDecoder,輸入任意坐標值(x,y,z),可解碼出該空間位置的信息,即Occupancy,Semantics,F(xiàn)low,打破了模型分辨率的限制。圖20:基于Attention機制的OccupancyNetwork占用網(wǎng)絡策LanesNetwork旨在為自動駕駛車輛提供關鍵的車道拓撲信息,以優(yōu)化軌跡規(guī)劃和車道變換決策。初期,特斯拉將車道檢測問題建模為圖像空間即時分割任務,只能從幾種不同類型的幾何形狀中進行車道預測,適用于高速公路等高度結構化的道路,但無法應對交叉路口等復雜、多樣的道路拓撲場景。為此,特斯拉運用神經(jīng)網(wǎng)絡來預測車道與車道之間的連接性。車道檢測神經(jīng)網(wǎng)絡由三部分組成,其中第一部分包括卷積層、注意力層與其他神經(jīng)網(wǎng)絡層,對車輛攝像頭采集的視頻信息進行編碼,產(chǎn)生豐富的視覺表示。之后,特斯拉采用涵蓋有關交叉口內(nèi)車道拓撲、各條道路上的車道數(shù)等信息的低精度地圖,對車道檢測神經(jīng)網(wǎng)絡生成的豐富視覺表示進行增強,輸出密集張量信息,并最終轉化為車道及其連接性的信息。圖21:LanesNetwork旨在生成車道與連接信息圖22:特斯拉采用低精度地圖對視覺表示進行增強特斯拉采用離散化處理+樣條系數(shù)回歸的方法,進行車道線預測。特斯拉首先將現(xiàn)實世界進行離散化處理,引入粗略劃分的網(wǎng)格,然后對可能位置的熱力圖進行預測,鎖定可能性最大的位置,并在此基礎上對預測進行細化,以得到精確的點位。不同點位的標記類型不同,新車道的起點為起始標記,其他點為延續(xù)標記,通過回歸樣條系數(shù)來獲取兩點間的精確幾何形狀。之后,不斷重復這一過程,直到得到車道圖中所有標記。 圖23:LanesNetwork工作原理神經(jīng)網(wǎng)絡可專注于計算最重要的區(qū)域,以較低延遲對道路上其他物體行為信息進行預測。自動駕駛系統(tǒng)神經(jīng)網(wǎng)絡的運行分為兩步:1)神經(jīng)網(wǎng)絡快速識別出3D空間中代理(即車輛或物體)的位置;2)神經(jīng)網(wǎng)絡從這些位置提取張量,結合車輛速度、方向等其他數(shù)據(jù),進行后續(xù)處理。通過稀疏化處理方式,神經(jīng)網(wǎng)絡可以專注于計算最重要的區(qū)域,以較低延遲實現(xiàn)卓越性能,對道路上其他物體行為信息進行預測。自動駕駛系統(tǒng)不僅可以理解環(huán)境中的位置和運動狀態(tài),還能夠?qū)ζ湄S富的語義信息進行預測,從而在保證駕駛安全性的同時,實現(xiàn)類人的駕駛操作。圖24:稀疏化處理可使神經(jīng)網(wǎng)絡專注于計算最重要的區(qū)域效率、安全和舒適是自動駕駛規(guī)劃的三大目標,非凸性和高維性是自動駕駛規(guī)劃的兩大難點。與高速路況相比,城市路況更為復雜,需要應對臨時施工路段、穿行車輛與行人。自動駕駛規(guī)劃的難點主要體現(xiàn)在兩個方面:1)非凸性,行動空間是非凸的,意味著存在多個可能的解,但難以找到全局一致的解決方案,規(guī)劃可能會陷入局部最小值;2)高維性,車輛需要對未來10-15秒的行為做出規(guī)劃,涉及位置、速度、加速度等大量參數(shù),導致規(guī)劃問題呈現(xiàn)出高維的特征。圖25:效率、安全和舒適是自動駕駛規(guī)劃的三大目標圖26:非凸性和高維性是自動駕駛規(guī)劃的兩大難點特斯拉將規(guī)劃問題進行分層分解,先采用離散搜索方法降低非凸性,縮小選擇范圍,再采用連續(xù)優(yōu)化方法進行優(yōu)化,得出最終解決方案。對于非凸問題,特斯拉采用離散搜索方法解決,因為離散搜索不會陷入局部最小值,而連續(xù)函數(shù)優(yōu)化容易陷入局部最小值;對于高維問題,特斯拉采用連續(xù)優(yōu)化方法解決,因為離散搜索方法不使用任何梯度信息,需要逐點評估每個點的好壞,效率較低,而連續(xù)優(yōu)化方法利用基于梯度的方法,可以快速找到好的解決方案。圖27:特斯拉將規(guī)劃問題進行分層分解自動駕駛規(guī)劃需要解決多代理聯(lián)合軌跡規(guī)劃問題,快速選出最優(yōu)行駛方案。自動駕駛系統(tǒng)需要解決多代理聯(lián)合軌跡規(guī)劃的問題,考慮自己和所有其他車輛、行人的運動軌跡,對所有可能的行駛方案進行評估,快速選出最優(yōu)行駛方案。評估過程至少需要10毫秒左右,而在面對繁忙路口等復雜場景時需要50毫秒。圖28:自動駕駛系統(tǒng)需要實現(xiàn)多代理聯(lián)合軌跡規(guī)劃圖29:自動駕駛行駛方案評估至少需要10毫秒為實現(xiàn)實時方案評估,特斯拉采用交互搜索框架,以任務分解的方式對一系列可能的行駛軌跡進行研究。1)自動駕駛系統(tǒng)首先收集車道、障礙物和周圍移動物體的視覺測量數(shù)據(jù),這些數(shù)據(jù)被表示為稀疏抽象(SparseAbstraction)和潛在特征(LatentFeatures)。自動駕駛系統(tǒng)利用這些信息生成一組候選目標,使用經(jīng)典優(yōu)化方法與神經(jīng)網(wǎng)絡規(guī)劃器來創(chuàng)建初始軌跡;2)得到初始軌跡之后,特斯拉采用遞增式的方法,在關鍵約束的基礎上,不斷加入新的約束條件,利用較少約束下的最優(yōu)解作為初值,逐步求解更復雜的優(yōu)化問題;3)構建輕量級可查詢網(wǎng)絡,該網(wǎng)絡由人類駕駛數(shù)據(jù)與寬松時間限制下的計算數(shù)據(jù)進行訓練,能夠在100微秒內(nèi)對規(guī)劃軌跡進行評分,顯著提升規(guī)劃效率。特斯拉主要從四個方面對規(guī)劃軌跡進行評分,進行決策樹剪枝:1)碰撞檢查,以確保路徑安全;2)舒適性分析,以評估乘客體驗;3)干預可能性,以評估候選路徑導致人工接管的概率;4)與人類駕駛接近度,基于人類駕駛數(shù)據(jù),評估候選路徑與人類駕駛員行為的接近程度。通過綜合評估,特斯拉規(guī)劃系統(tǒng)能夠高效地篩選出最優(yōu)路徑,優(yōu)化自動駕駛的決策過程。圖30:特斯拉采用交互搜索框架,實現(xiàn)實時方案評估4算力端:Dojo超級算力支撐保持能效比優(yōu)勢從0到1構建超級計算機系統(tǒng),為遠期算力提供強大支撐。特斯拉從算力芯片開始,完整構建Dojo超級計算機系統(tǒng),以處理自動駕駛所需海量數(shù)據(jù)。2021年8月,Dojo在特斯拉首屆AIDay上正式亮相,定位為超高速訓練計算機,采用分布式計算架構設計,算力分為內(nèi)核級、芯片級、格點級、集群級等四個層級,實現(xiàn)從訓練節(jié)點到訓練集群的完整構建。特斯拉從0到1構建超級計算機系統(tǒng),旨在擺脫對英偉達GPU的依賴,為遠期算力瓶頸進行前瞻布局。Dojo于2021年8月正式亮相,研發(fā)進展迅猛。2019年4月,馬斯克在特斯拉自動駕駛日(AutonomousDay)上提到了Dojo,稱Dojo是“能夠利用海量視頻數(shù)據(jù),做無人監(jiān)管標注和訓練的超級計算機”;2021年8月,Dojo超級計算機在特斯拉首屆AIDay上首次正式亮相,特斯拉重點展示了Dojo的關鍵組成單元D1芯片,由特斯拉自主研發(fā),用于神經(jīng)網(wǎng)絡訓練;2022年9月,特斯拉在第二屆AIDay上展示了Dojo的最新進展,包括散熱方案、DojoPOD機柜集成架構等;2023年7月,馬斯克表示,特斯拉計劃在2024年底前對Dojo項目投資超過10億美元,自主研發(fā)超級計算機,以處理發(fā)展自動駕駛軟件所需的海量數(shù)據(jù),擺脫對英偉達GPU的依賴;2024年1月,特斯拉將投資超過5億美元,在紐約超級工廠建造一個巨型Dojo超級計算機集群。同時,馬斯克表示特斯拉2024年在英偉達硬件上的投資將超過5億美元,并將開始購買AMD的硬件。圖31:特斯拉Dojo發(fā)展歷程資料來源:騰訊科技,電動星球,界面新聞,electrek,民生證券Dojo算力規(guī)劃明確,計劃于2024年10月達到100Exa-Flops。根據(jù)特斯拉的規(guī)劃:1)2023年7月,Dojo進入投產(chǎn)階段,拉開特斯拉算力集群快速建設階段的帷幕;2)2024年2月,Dojo將成為全球最強大的五臺超級計算機之一;3)2024年10月,Dojo的算力總規(guī)模達到100Exa-Flops,相當于30萬塊英偉達A100GPU的算力總和。圖32:特斯拉Dojo算力規(guī)劃Dojo定位為超高速訓練計算機,采用分布式計算架構設計。2021年AIDay上,特斯拉表示Dojo項目的三大目標為實現(xiàn)最佳AI訓練性能、助力更大更復雜的神經(jīng)網(wǎng)絡模型訓練、實現(xiàn)節(jié)能與成本效益。為此,特斯拉采用分布式計算架構設計,以強大的計算單元組成巨大計算平面,計算單元之間通過高帶寬、低延遲的網(wǎng)絡結構進行連接,形成二維網(wǎng)格結構。在進行大型神經(jīng)網(wǎng)絡訓練時,Dojo可以將神經(jīng)網(wǎng)絡分成若干小塊,每個計算單元可以同時處理網(wǎng)絡的一部分。神經(jīng)網(wǎng)絡編譯器會考慮數(shù)據(jù)在時間和空間上的接近性,優(yōu)化信息在計算單元之間的傳遞,從而提高工作效率。圖33:Dojo超級計算機三大目標圖34:Dojo系統(tǒng)二維網(wǎng)格結構Dojo采用分布式2D架構,算力分為內(nèi)核級、芯片級、格點級、集群級等四個層級。按照層次劃分,每354個Dojo核心組成一塊D1芯片,而每25顆芯片組成一個訓練模組,最后120個訓練模組組成一組ExaPOD計算集群,共計3000顆D1芯片。1)內(nèi)核級:DojoCore(訓練節(jié)點為單個計算核心,64位位寬,具有4個8x8x4的矩陣計算核心,2GHz主頻;2)芯片級:D1,為單個芯片,核心數(shù)為354,面積645mm2;3)格點級:DojoTile,為單個訓練模組,每5x5個芯片組成一個訓練模組;4)集群級:ExaPOD,為特斯拉訓練集群,每12個訓練模組組成一個機柜,每10個機柜組成ExaPOD,共計3000個D1芯片。表1:Dojo算力分為內(nèi)核級、芯片級、格點級、集群級等四個層級 訓練瓦片集群級集群級訓練節(jié)點是Dojo最小的內(nèi)部計算單元,基于存算一體架構設計。訓練節(jié)點(TrainingNode)是Dojo最小的內(nèi)部計算單元,大小關系到同步速度與硬件復雜度。降低延遲和提高帶寬是訓練節(jié)點的主要優(yōu)化方向,每個訓練節(jié)點基于存算一體架構設計,不僅具備向量計算和矩陣計算能力,還包含完整的取指、譯碼、執(zhí)行部件,并以2GHz的頻率運行。每個訓練節(jié)點還配備了1.25MB的SRAM作為主存、而非緩存使用,能夠以400GB/s的速度進行數(shù)據(jù)加載和270GB/s的速度進行數(shù)據(jù)存儲。訓練節(jié)點包含了一個64位超標量CPU,針對矩陣乘法和向量SIMD進行了優(yōu)化,支持FP32、BFP16、CFP8等多種浮點數(shù)格式運算。超標量CPU具備4路多線程能力,可以同時處理多個指令,以提高運行效率。同時,CPU的指令集針對機器學習工作負載進行了優(yōu)化,能夠?qū)崿F(xiàn)轉置、聚集、鏈接遍歷、廣播等多種功能。圖35:Dojo訓練節(jié)點架構圖36:D1芯片結構D1芯片計算陣列由54個訓練節(jié)點組成,能夠?qū)崿F(xiàn)高效數(shù)據(jù)傳輸。訓練節(jié)點采用模塊化設計,可以靈活組合擴展,形成更大的計算平面。D1芯片采用18x20的網(wǎng)格布局,計算陣列由354個訓練節(jié)點組成,采用臺積電7納米制造工藝,算力達362TFLOPs,100%面積用于機器學習訓練和帶寬。在計算陣列周圍,D1芯片布置了576個高速低功耗串行器/解串器(Serializer/Deserializer,簡稱SerDes),I/O帶寬高達10TB/s,大約是最先進的網(wǎng)絡交換芯片的兩倍,在進行機器學習訓練時能夠?qū)崿F(xiàn)高效的數(shù)據(jù)傳輸,從而提升整體的計算性能。圖37:D1芯片計算陣列圖38:D1芯片串行器/解串器分布D1處理器的指令集設計通過擴展RISC-V架構,提供多樣化的計算格式和編譯器支持。D1處理器基于RISC-V架構的ISA進行了擴展,以增強其計算能力。D1核心支持FP32和FP16這兩種標準的浮點計算格式,并特別引入了BFP16格式,以優(yōu)化推理(Inference)過程。為了進一步提升性能,D1處理器還集成了8位CFP8格式,這種格式在降低精度的同時提高了計算吞吐量。Dojo編譯器的設計允許在尾數(shù)精度上進行動態(tài)調(diào)整,從而覆蓋更廣的精度范圍,以適應不同的計算需求。此外,D1處理器能夠同時支持最多16種不同的矢量格式,靈活性高,能夠顯著提升處理器算力,使其能夠更高效的處理各種計算任務。圖39:特斯拉Dojo指令集特斯拉將50萬個訓練節(jié)點集合成巨大的計算平面,以接口處理器提升訓練效率。特斯拉把50萬個訓練節(jié)點進行組合,形成巨大的計算平面,該計算平面由1500個D1芯片密集連接而成。在計算平面的兩端,特斯拉各放置了一個Dojo接口處理器,通過第四代PCIe接口與計算平面連接,能夠?qū)崿F(xiàn)數(shù)據(jù)中心主機與計算平臺的高速通信。接口處理器為計算平面配備了高帶寬DRAM共享內(nèi)存,可以快速存儲訓練瓦片所需的大量數(shù)據(jù);使用特斯拉定制協(xié)議TTP在整個加速器中進行通信,確保訓練瓦片能夠獲得全部內(nèi)存帶寬,從而提升訓練效率。圖40:計算平面兩端各放置了一個接口處理器圖41:Dojo接口處理器連接在系統(tǒng)托盤下方訓練瓦片是計算平面的基本單元,最終構成大規(guī)模訓練集群:1)訓練瓦片。特斯拉創(chuàng)造性的設計了訓練瓦片結構,作為計算平面的基本單元。一個訓練瓦片上集成了25個D1芯片,采用高帶寬連接器進行數(shù)據(jù)傳輸,可以提供9PFLOPS的算力。訓練瓦片具有巨大的輸入/輸出(I/O)帶寬,可以快速傳輸和處理大量數(shù)據(jù);2)系統(tǒng)托盤。系統(tǒng)托盤上放置了6個訓練瓦片,呈2x3矩陣式排布。一個系統(tǒng)托盤擁有20個接口處理器,以及640GB的高帶寬DRAM,能夠?qū)崿F(xiàn)機柜內(nèi)部、不同機柜之間計算瓦片的無縫連接;圖42:訓練瓦片上集成了25個D1芯片圖43:系統(tǒng)托盤上訓練瓦片呈2x3矩陣式排布3)訓練機柜。訓練機柜中集成了兩個系統(tǒng)托盤,總算力達1000PFLOPS。機柜配置了冗余電源供應系統(tǒng),以保證計算系統(tǒng)穩(wěn)定運行;4)訓練集群。訓練集群(ExaPOD)由10個訓練機柜組成,總算力達1ExaFlOPS。圖44:Dojo訓練機柜中集成了兩個系統(tǒng)托盤圖45:系統(tǒng)托盤上訓練瓦片呈2x3矩陣式排布軟件系統(tǒng)整體性能由硬件性能、利用率和加速器占用率共同決定。編譯器的任務是從硬件中提取性能,而數(shù)據(jù)流的任務是確保數(shù)據(jù)能夠以足夠的吞吐量供給硬件,避免硬件空閑等待數(shù)據(jù)。當模型非常大時,單個加速器無法一次性處理所有數(shù)據(jù),因為每個加速器能處理的批量大小通常比批量歸一化所需的批量大小要小。為解決這一問題,需要在多個加速器上同步運行批量歸一化,但這會帶來前向傳播通信延遲的問題。圖46:系統(tǒng)性能由硬件、利用率和加速器占用率決定圖47:多加速器運行批量歸一化會導致前向傳播延遲Dojo使用高效同步機制,實現(xiàn)不同單元協(xié)同工作。Dojo不僅可以加速模型中那些需要大量計算的部分,還可以提升那些受延遲或帶寬限制的部分的性能,比如批量歸一化或梯度合并、參數(shù)收集等操作。Dojo可以進行靈活切割,以適配模型批量歸一化所需大小,切割部分可作為獨立加速器運行。Dojo內(nèi)部使用了高效的同步機制,實現(xiàn)不同計算單元之間的協(xié)調(diào)工作,形成單一可擴展的計算平面。數(shù)據(jù)被分散存儲在快速的存儲器中,并且在需要的時候才復制到相應的計算單元,高帶寬可以助力數(shù)據(jù)快速復制。大多數(shù)模型可以在Dojo系統(tǒng)上直接運行,無需進行額外配置。圖48:Dojo系統(tǒng)使用高效同步機制,實現(xiàn)內(nèi)部單元協(xié)作與GPU相比,Dojo性能提升明顯:1)批量歸一化運行速度。在Dojo上,一個批量均一化操作運行僅需5微秒,而在24個GPU上運行需要150微秒。Dojo運行速度具備數(shù)量級優(yōu)勢;2)ResNet50模型運行速度。Dojo的性能與100個GPU相當;3)自動標注網(wǎng)絡運行速度。Dojo性能已超越A100GPU,采用新硬件后性能可以達到A100性能的兩倍,使用關鍵編譯器優(yōu)化后,性能可達A100的三倍。圖49:自動標注與占用網(wǎng)絡占特斯拉GPU使用量一半圖50:Dojo處理自動標注與占用網(wǎng)絡速度大幅提升5芯片端:自研FSD芯片集成高效計算能力由合作邁向自研,實現(xiàn)高性能算力集成。特斯拉自動駕駛硬件平臺初期與Mobileye、英偉達等合作,2019年正式發(fā)布基于自研FSD芯片的HW3.0系統(tǒng),開始轉向硬件平臺全面自研,下一代全自動駕駛(FSD)硬件——AI5,預計將于2025年下半年投產(chǎn)。FSD硬件計算平臺采用兩顆SoC芯片,以雙系統(tǒng)設計提升自動駕駛功能安全冗余。特斯拉構建了神經(jīng)網(wǎng)絡編譯器與鏈接器,以最大化計算資源利用率、吞吐量,并最小化延遲。通過芯片自研,特斯拉能夠?qū)崿F(xiàn)硬件方案的持續(xù)快速迭代,與軟件算法進行更好的整合,從而實現(xiàn)更優(yōu)的系統(tǒng)性能。HW1.0向HW4.0快速迭代,硬件性能持續(xù)升級。特斯拉的硬件平臺(HardwarePlatform,簡稱HW)是指在其電動汽車中用于自動駕駛功能的計算和傳感系統(tǒng)。特斯拉的硬件平臺經(jīng)歷了幾代的演變,每一版都代表著技術上的進步和對自動駕駛能力的提升:1)HW1.0。2014年10月,特斯拉基于Mobileye芯片MobileyeEyeQ3發(fā)布第一代硬件Hardware1.0;2)HW2.0/HW2.5。2016年10月,特斯拉推出HW2.0,采用了NVIDIA的DrivePX2平臺,并配置8個攝像頭+12個遠程超聲波雷達+1個前置毫米波雷達,在功能上實現(xiàn)輔助駕駛。而于2017年8月推出的HW2.5,在HW2.0的基礎上增加了額外的NVIDIATegraParker芯片于增強計算能力;3)HW3.0。2019年4月,特斯拉發(fā)布HW3.0系統(tǒng),特斯拉自研的FSD芯片首次亮相,整體算力達144TOPS,標志著特斯拉開始全面掌握從芯片設計到軟件開發(fā)的全棧技術;4)HW4.0。2024年2月,推出的HW4.0搭載FS芯片,采用更先進的制程技術,算力大幅提升5倍;同時,NNA的數(shù)量從2個增加到3個,工作頻率也從2.0GHz提升至2.2GHz,這有助于更高效地處理深度學習任務,尤其是針對視覺數(shù)據(jù)的分析。5)AI5。在2024年6月的特斯拉股東大會上,馬斯克首次向公眾介紹了下一代全自動駕駛(FSD)硬件——AI5,預計將于2025年下半年投產(chǎn)。與現(xiàn)有的HW4.0版本相比,AI5在性能上將實現(xiàn)顯著飛躍,預計整體性能提升約10倍,特別是在推理能力上,這一提升可能高達50倍,同時在整體能耗方面也比HW4.0提升了4-5倍。表2:特斯拉自動駕駛硬件平臺不同版本對比 硬件版本SOP處理平臺/主芯片冗余控制算力(TOPS)功耗 資料來源:Tesla官網(wǎng),汽車之家,Twitter,智能車參考,民生證券研究院FSD硬件計算平臺采用兩顆SoC芯片,以雙系統(tǒng)設計提升自動駕駛功能安全冗余。其中,SOC-1作為主控單元,輸出最終的控制指令,而SOC-2則提供擴展計算支持。作為兩套完全獨立的芯片系統(tǒng),每套系統(tǒng)都配備了獨立的CPU、GPU、NNA(神經(jīng)網(wǎng)絡加速器)以及內(nèi)存,兩套系統(tǒng)中的一個作為主系統(tǒng)運行,另一個作為熱備份,在主系統(tǒng)出現(xiàn)故障時立即接管,以實現(xiàn)冗余,提高安全性。雙系統(tǒng)架構的另一個優(yōu)勢在于相互驗證能力。在面對相同的駕駛情境時,兩套獨立系統(tǒng)會分別經(jīng)過感知和規(guī)劃算法(或一個完整的端到端算法)處理,得出的駕駛決策應當是一致的。這種設計提供了決策冗余保障,有效提升了自動駕駛系統(tǒng)的功能安全性。圖51:特斯拉FSD雙芯片系統(tǒng)設計特斯拉的FSD芯片自2016年啟動設計規(guī)劃以來,經(jīng)歷了數(shù)年的發(fā)展和迭代。2017年12月,特斯拉進行了FSD芯片的首次試產(chǎn),在隨后進行了必要的設計調(diào)整。2018年4月,B0樣片投產(chǎn),并在同年7月獲得認證。2018年12月,特斯拉開始用新的硬件和軟件對員工用車進行改裝。2019年3月,特斯拉開始在ModelS、ModelX和Model3車型上部署FSD芯片,用于HW3.0系統(tǒng),標志著FSD芯片開始得到批量化應用。圖52:特斯拉FSD芯片發(fā)展歷程FSD芯片采用異構設計,集成了CPU、GPU、NNA,和硬件加速器等多個處理單元。FSD芯片采用三星14nmFinFet技術制造,支持單精度和雙精度浮點運算,并配備了運行于2133MHz的128bitLPDDR4內(nèi)存,展現(xiàn)出卓越的計算性能和高效的數(shù)據(jù)處理能力:1)CPUs。3個四核Cortex-A72集群,共計12個CPU核心,運行頻率為2.2GHz;2)GPU。1個MaliG71MP12GPU,工作頻率為1GHz,支持FP16和FP32浮點運算;3)2個神經(jīng)網(wǎng)絡加速器(NNAccelerator,簡稱NNA)。用于深度學習推理,這是FSD芯片的核心部分,用于處理自動駕駛所需的大量視覺和傳感器數(shù)據(jù),運行頻率為2GHz。每個NNA配備了32MB的SRAM緩存,用于存儲模型權重和加速數(shù)據(jù)訪問。圖53:特斯拉FSD芯片架構資料來源:Wikichip,民生證券研FSD2.0通過擴大CPU核心數(shù)和增強NPU核心,提供更強大的數(shù)據(jù)處理和神經(jīng)網(wǎng)絡運算性能。2023年2月,F(xiàn)SD2.0芯片開始在汽車上部署,用于HW4.FSD2.0芯片的設計與第一代非常相似,采用更密集的晶體管布局和優(yōu)化電路設計,性能預計提升三倍以上。在CPU中,Cortex-A72內(nèi)核從12個增至20個,分布在5個四核集群中。此外,第二代芯片采用3個NPU核心,每個核心配備了32MBSRAM用于存儲模型權重和激活,通過96x96的MAC網(wǎng)格實現(xiàn)每個周期9216個MAC和18432個操作的高效率運算。NPU核心以2.2GHz頻率運行,使得單顆芯片算力達到121.651TOPS,顯著提升了自動駕駛的數(shù)據(jù)處理和神經(jīng)網(wǎng)絡運表3:FSD芯片1.0和2.0性能對比 CPUFrequency TDP36Watts資料來源:ADS智庫,民生證券研究院特斯拉構建了神經(jīng)網(wǎng)絡編譯器與鏈接器,以最大化計算資源利用率、吞吐量,并最小化延遲。汽車中在同時運行很多架構、模塊和網(wǎng)絡,共有多達10億個參數(shù)、1000個神經(jīng)網(wǎng)絡信號。為了提升計算效率,特斯拉建立了:1)神經(jīng)網(wǎng)絡編譯器,用于接收復雜的神經(jīng)網(wǎng)絡圖,然后將其分割為獨立的子圖,并分別進行編譯;2)神經(jīng)網(wǎng)絡鏈接器,用于鏈接各個編譯好的部分,形成完整系統(tǒng)。計算過程需要進行離線優(yōu)化,從而能夠在有限的內(nèi)存和帶寬條件下完成計算。圖54:汽車中在同時運行很多架構、模塊和網(wǎng)絡圖55:神經(jīng)網(wǎng)絡編譯器與鏈接器架構特斯拉設計了混合調(diào)度系統(tǒng),以實現(xiàn)算力的充分利用。實現(xiàn)特斯拉設計了混合調(diào)度系統(tǒng),能夠在一個SOC上實現(xiàn)異構調(diào)度,并在兩個SOC之間進行分布式調(diào)度,以模型并行方式運行網(wǎng)絡。特斯拉從軟件所有層級進行優(yōu)化,采用調(diào)整網(wǎng)絡結構、改進編譯器、在兩個SOC之間采用低延遲高帶寬的RDMA鏈接等多種方式,以實現(xiàn)100TOPS算力的充分利用。圖56:特斯拉混合調(diào)度系統(tǒng)架構6數(shù)據(jù)端:自動化數(shù)據(jù)閉環(huán)優(yōu)化數(shù)據(jù)驅(qū)動訓練高效自動標注+構建仿真場景,實現(xiàn)數(shù)據(jù)驅(qū)動訓練。2020年,特斯拉開始研發(fā)并使用數(shù)據(jù)自動標注系統(tǒng),能夠在12小時內(nèi)自動標注一萬個駕駛旅程,可抵充500萬個小時的人工標注工作,極大提高了標注效率。仿真模擬則可以提供現(xiàn)實世界中難以獲得或是難以標記的數(shù)據(jù),從而加速FSD能力的訓練,賦能模型迭代。結合真實數(shù)據(jù)和標簽,以及仿真和手動校準的數(shù)據(jù),特斯拉形成綜合訓練數(shù)據(jù)集,用于訓練車端的在線模型,涉及網(wǎng)絡占用、車道線和障礙物檢測以及規(guī)劃算法,形成閉環(huán)的數(shù)據(jù)流,實現(xiàn)自動駕駛系統(tǒng)的持續(xù)優(yōu)化。從最初的外包第三方人工標注,到開發(fā)自動標注(AutoLabeling)系統(tǒng),特斯拉實現(xiàn)了數(shù)據(jù)標注的高效化和規(guī)模化。在特斯拉的自動駕駛方案中,無論是在感知還是規(guī)控層面,核心算法基本都是由數(shù)據(jù)驅(qū)動的,數(shù)據(jù)的數(shù)量和質(zhì)量決定了算法的性能,因此構建一套高效獲取、標注及仿真訓練數(shù)據(jù)的閉環(huán)至關重要。特斯拉每年售出近百萬輛汽車,通過這些汽車日常運行,可以采集到超大規(guī)模的原始數(shù)據(jù)集,對這些數(shù)據(jù)集的標注方面經(jīng)歷了顯著的發(fā)展:1)外包第三方進行人工數(shù)據(jù)標注。2018年,特斯拉與第三方公司合作,采用人工標注,該方式標注效率低且溝通成本高。2)自建超千人團隊進行手工標注。而后為提升標注效率和質(zhì)量,特斯拉自建標注團隊,人員規(guī)模近千人。3)開發(fā)自動標注系統(tǒng),實現(xiàn)人工與機器相結合的數(shù)據(jù)標注模式。隨著自動駕駛數(shù)據(jù)持續(xù)增長,所需標注人員的規(guī)模進一步擴大,使得人力成本快速增長,使得2020年特斯拉開始研發(fā)并使用數(shù)據(jù)自動標注系統(tǒng),通過大量數(shù)據(jù)訓練大模型,再用大模型訓練車端小模型。新算法能夠在12小時內(nèi)自動標注一萬個駕駛旅程,可抵充500萬個小時的人工標注工作,極大地提高了標圖57:特斯拉數(shù)據(jù)標注發(fā)展歷程從2D圖像標注,到4D的向量空間標注,特斯拉FSD系統(tǒng)實現(xiàn)更精細化的路徑規(guī)劃和決策制定。通過引入BEV(鳥瞰圖)視角,特斯拉實現(xiàn)了從2D圖像到3D車身自坐標系的轉變,但最初這僅是對瞬時圖像片段的感知,缺乏時空連續(xù)性。為了增強感知網(wǎng)絡的短時記憶能力,特斯拉在感知網(wǎng)絡架構中引入了時空序列特征層,使用視頻片段代替單張圖像來訓練神經(jīng)網(wǎng)絡,從而提升了對場景的理解能力。到了2022年,特斯拉進一步升級了BEV感知,引入了OccupancyNetwork,推動數(shù)據(jù)標注向4D升級,這不僅包括3D空間信息,還融入了時間維度,實現(xiàn)了對動態(tài)物體運動軌跡和參數(shù)的精確標注。圖58:基于2D圖像進行標注圖59:在BEV空間下進行4D自動標注特斯拉的自動標注方案通過結合車輛采集的多源數(shù)據(jù)和先進的神經(jīng)網(wǎng)絡技術,實現(xiàn)了對自動駕駛所需數(shù)據(jù)的快速和高效處理。具體來說,這一方案首先利用車輛在一段時間內(nèi)采集到的視頻、IMU、GPS、里程表等數(shù)據(jù)構成最小標注單元Clip,然后通過離線神經(jīng)網(wǎng)絡進行預測,得到深度圖、坐標、目標物等中間層結果。最終,通過特征重建,獲得3D標簽集(Labels)以及所有目標的運動趨勢,包括行車軌跡、靜態(tài)環(huán)境重建、動態(tài)物體和運動學參數(shù)等,為自動駕駛算法的訓練提供了大量高質(zhì)量的標注數(shù)據(jù)。這一流程不僅提高了數(shù)據(jù)標注的效率,還保證了數(shù)據(jù)的準確性和一致性。圖60:特斯拉4D自動標注流程特斯拉的4D自動標注技術通過三個關鍵步驟實現(xiàn)高精度的軌跡和結構復現(xiàn):1)高精度軌跡預測和結構復現(xiàn)。利用多攝像頭和慣性里程計,通過粗對齊、關聯(lián)、聯(lián)合非線性優(yōu)化及最終曲面優(yōu)化,實現(xiàn)多重軌跡重建。這一步驟確保了軌跡數(shù)據(jù)的準確性和可靠性;2)多路徑聯(lián)合重建。自動標記新軌跡的過程使用多軌跡對齊引擎,結合現(xiàn)有重建結果和新行駛軌跡,進一步細化路面細節(jié)。所有特征都是通過神經(jīng)網(wǎng)絡從視頻中自動推斷出來,并在向量空間進行跟蹤和重構。這一自動化過程顯著提高了標注效率,每個新軌跡的自動標記僅需30分鐘,大大減少了人工標記的時間和勞動強度;3)新路徑自動標注。整個4D自動標注過程在集群上實現(xiàn)并行化,整個過程從軌跡重建到最終標記的確定,僅需1-2小時。這種高效的自動化流程不僅提高了可擴展性,而且復建的路面和道路細節(jié)也為后續(xù)的人工驗證提供了有力的指導,確保了標注的準確性和一致性。圖61:4D自動標注的三個關鍵步驟仿真模擬(Simulation)可以提供現(xiàn)實世界中難以獲得或是難以標記的數(shù)據(jù),從而加速FSD能力的訓練,賦能模型迭代。由于路測條件的限制,導致積累數(shù)據(jù)和訓練算法的效率偏低且成本高昂。為了更高效的實現(xiàn)數(shù)據(jù)訓練,特斯拉構建了一個真實世界的虛擬仿真空間,來加速FSD能力的訓練。自動駕駛的仿真是在模擬環(huán)境中,通過調(diào)整各類交通參與物及環(huán)境的模型參數(shù)以構建各種虛擬場景,以訓練算法應對不同場景的性能。仿真模擬在自動駕駛領域中的價值體現(xiàn)在能夠安全且高效地重現(xiàn)和構建極端及復雜場景以進行算法訓練,實現(xiàn)快速且準確的數(shù)據(jù)標注,提供無風險的測試環(huán)境,優(yōu)化規(guī)控算法,并通過持續(xù)的閉環(huán)場景訓練提升特定功能如泊車技能,同時能夠重現(xiàn)真實世界中的失敗案例進行針對性優(yōu)化,從而顯著增強自動駕駛系統(tǒng)的安全性和可靠性。特斯拉仿真模擬流程包含五大關鍵步驟:1)傳感器準確模擬。對真實攝像頭屬性進行模擬,包括傳感器噪聲、運動模糊、光學畸變等,以生成車輛上的攝像頭和其他傳感器實際會檢測到的內(nèi)容;2)真實視覺渲染。特斯拉采用神經(jīng)網(wǎng)絡渲染技術與光線追蹤方法,以使渲染效果能夠逼近真實世界;3)多元化素材庫。特斯拉的素材庫中,車輛、人物、動物等真實素材數(shù)量多達數(shù)千個,能夠避免素材數(shù)量過少導致的神經(jīng)網(wǎng)絡過擬合問題。特斯拉還對大量地點進行了建模,以生成模擬環(huán)境;4)可擴展場景生成。特斯拉基于算法,程序化地創(chuàng)建具有各種參數(shù)(如曲率、不同樹木、錐體、桿子、不同速度的汽車等)的道。此外,特斯拉采用機器學習技術,使神經(jīng)網(wǎng)絡能夠?qū)收宵c進行檢測,并在故障點周圍創(chuàng)造更多數(shù)據(jù),形成閉環(huán),以優(yōu)化網(wǎng)絡性能;5)場景重建。特斯拉利用真實行駛視頻片段,構建出與現(xiàn)實相同的虛擬場景,然后在虛擬場景中運行自動駕駛系統(tǒng),觀察系統(tǒng)運行情況。如果系統(tǒng)在模擬中失敗,可以分析失敗原因,從而對系統(tǒng)進行調(diào)整和優(yōu)化,不斷提升系統(tǒng)圖62:特斯拉仿真模擬流程包含五大關鍵步驟特斯拉采用程序化方法進行場景生成,大幅提升運行效率。特斯拉采用自動化工具進行場景生成,能夠快速生成復雜模擬環(huán)境,過程包括:1)通過自動化標簽生成道路網(wǎng)格和車道;2)使用線條數(shù)據(jù)創(chuàng)建車道標記;3)利用中線邊緣生成路中心分道區(qū),并用隨機植被填充;4)以隨機化啟發(fā)式規(guī)則生成外部世界,包括建筑物、消防栓、樹木等;5)引入地圖數(shù)據(jù)確定交通信號燈和停車標志的位置,并收集車道數(shù)量等信息。特斯拉可以在模擬器中更改道路真實標記,創(chuàng)造全新模擬數(shù)據(jù),從而進行更有針對性的訓練,提升預測準確性。圖63:通過自動化標簽生成道路網(wǎng)格和車道圖64:以隨機化啟發(fā)式規(guī)則生成外部世界特斯拉仿真模擬的主要創(chuàng)新和亮點在于高效的虛擬驗證架構,能夠?qū)碗s的道路交通信息和場景元素系統(tǒng)化并高效運行。特斯拉通過瓦片生成器(TileCreator將真實標簽數(shù)據(jù)轉化為具體的仿真元素,如車道線、路緣石和建筑物等。這些元素隨后被瓦片提取器(TileExtractor)分割成150平米的Geohash單元,每個單元都擁有一個獨特的ID以便于快速加載和調(diào)用。這種處理方式使得建模信息更加簡潔,提高了加載和渲染的效率。利用瓦片加載器(TileLoader特斯拉可以根據(jù)GeohashID編碼快速加載所需的仿真場景切片,專注于加載用戶感興趣的地點及其周邊環(huán)境。最終,通過虛擬引擎生成完整的場景。通過這種方式,一個工程師在短短兩周內(nèi)即可生成舊金山街道的虛擬世界,顯著減少了創(chuàng)建虛擬世界所需的時間。同樣特斯拉可以利用此項PDG技術快速拓展到其他城市與國家,或者更新原有的虛擬世界,確保數(shù)據(jù)依據(jù)現(xiàn)實動態(tài)發(fā)展。圖65:特斯拉仿真世界創(chuàng)建流程特斯拉通過其自成閉環(huán)的數(shù)據(jù)引擎(DataEngine),有效地優(yōu)化了神經(jīng)網(wǎng)絡。特斯拉通過標配自動駕駛硬件的車隊進行數(shù)據(jù)采集,并通過規(guī)則和影子模式篩選出具有語義信息的有效數(shù)據(jù),并回傳至云端。在云端,利用工具對AI的錯誤輸出進行糾正,并將這些數(shù)據(jù)整合入數(shù)據(jù)集群。這些數(shù)據(jù)進一步用于訓練車端的在線模型和云端的離線模型。最終,通過影子模式在車端進行新模型的測試和不同版本指標的比較,確保經(jīng)過驗證的新模型得以部署,實現(xiàn)數(shù)據(jù)和模型的持續(xù)優(yōu)化。圖66:特斯拉數(shù)據(jù)引擎示意圖影子模式加速數(shù)據(jù)采集,訓練質(zhì)量有望大幅提升。特斯拉通過影子模式實現(xiàn)了量產(chǎn)車上的自動駕駛系統(tǒng)和傳感器的持續(xù)運行與數(shù)據(jù)采集。在有人駕駛狀態(tài)下,系統(tǒng)進行模擬決策并與駕駛員行為對比,不一致時觸發(fā)數(shù)據(jù)回傳,從而積累大量“極端工況”數(shù)據(jù)。這種模式不僅利用了量產(chǎn)車的廣泛覆蓋和低成本優(yōu)勢,還顯著加速了數(shù)據(jù)的收集和訓練模型的質(zhì)量提升。截至2024年4月底,特斯拉全自動駕駛(FSD)用戶的累計行駛里程已超過13億英里,隨著更多駕駛員試用并可能訂購FSD,這一數(shù)字有望出現(xiàn)大幅增長。圖67:特斯拉FSD用戶的累計行駛里程已超過13億英里影子模式是特斯拉自動駕駛系統(tǒng)中的關鍵技術,通過內(nèi)置的觸發(fā)器記錄異常情況。在2021年CVPRWAD會議上,該模式已集成了221個觸發(fā)器。當異常被觸發(fā)時,影子模式會捕獲異常發(fā)生前后的原始數(shù)據(jù),這些數(shù)據(jù)經(jīng)過清洗后,一部分形成了驗證集,而其余數(shù)據(jù)則通過離線自動標注算法生成標簽。結合真實數(shù)據(jù)和標簽,以及仿真和手動校準的數(shù)據(jù),形成了綜合訓練數(shù)據(jù)集。這個數(shù)據(jù)集被用于訓練車端的在線模型,涉及網(wǎng)絡占用、車道線和障礙物檢測以及規(guī)劃算法。同時,該數(shù)據(jù)集也用于訓練云端的離線模型,包括重建模型、感知模型的自動標注以及基于優(yōu)化的規(guī)劃模型。隨著在線算法的更新和新數(shù)據(jù)的采集,影子模式再次捕獲關鍵案例,并通

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論