




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、自動駕駛核心技術之三:環(huán)境感知自動駕駛四大核心技術,分別是環(huán)境感知、精確定位、 路徑規(guī)劃、線控執(zhí)行。環(huán)境感知是其中被研究最多的部分, 不過基于視覺的環(huán)境感知是無法滿足無人駕駛要求的。環(huán)境 感知主要包括三個方面,路面、靜態(tài)物體和動態(tài)物體。對于 動態(tài)物體,不僅要檢測還要對其軌跡進行追蹤,并根據追蹤 結果,預測該物體下一步的軌跡(位置)。這在市區(qū),尤其中國市區(qū)必不可少,最典型場景就是北京五道口:如果你見 到行人就停,那你就永遠無法通過五道口,行人幾乎是從不 停歇地從車前走過。人類駕駛員會根據行人的移動軌跡大概 評估其下一步的位置,然后根據車速,計算由安全空間(路 徑規(guī)劃),公交司機最擅長此道。無人車
2、同樣要能做到。 要 注意這是多個移動物體的軌跡的追蹤與預測,難度比單一物 體要高得多。這就是 MODAT(Moving Object Detection and Tracking)。也是無人車最具難度的技術。圖:無人車環(huán)境感知框架這是基于激光雷達的環(huán)境感知模型,搞視覺環(huán)境感知模型研 究的人遠多于激光雷達。不過很遺憾地講,在無人車這件事 上,視覺不夠靠譜。 讓我們來看計算機視覺的發(fā)展歷程, 神經網絡的歷史可追述到上世紀四十年代,曾經在八九十年 代流行。神經網絡試圖通過模擬大腦認知的機理,解決各種機器學習的問題。1986 年 Rumelhart ,Hinton 和 Williams在自然發(fā)表了著名
3、的反向傳播算法用于訓練神經網絡,直到今天仍被廣泛應用。不過深度學習自80年代后沉寂了許久。神經網絡有大量的參數,經常發(fā)生過擬合問題,即往 往在訓練集上準確率很高,而在測試集上效果差。這部分歸 因于當時的訓練數據集規(guī)模都較小,而且計算資源有限,即 便是訓練一個較小的網絡也需要很長的時間。神經網絡與其 它模型相比并未在識別的準確率上體現由明顯的優(yōu)勢,而且 難于訓練。因此更多的學者開始采用諸如支持向量機(SVM)、Boosting、最近鄰等分類器。這些分類器可以用 具有一個或兩個隱含層的神經網絡模擬,因此被稱作淺層機 器學習模型。它們不再模擬大腦的認知機理;相反,針對不 同的任務設計不同的系統(tǒng),并采
4、用不同的手工設計的特征。 例如語音識別采用高斯混合模型和隱馬爾可夫模型,物體識 別采用SIFT特征,人臉識別采用LBP特征,行人檢測采用 HOG特征。2006年以后,得益于電腦游戲愛好者對性能的 追求,GPU性能飛速增長。同時,互聯網很容易獲得海量訓 練數據。兩者結合,深度學習或者說神經網絡煥發(fā)了第二春。2012年,Hinton 的研究小組采用深度學習贏得了 ImageNet 圖像分類的比賽。從此深度學習開始席卷全球, 到今天,你不說深度學習都不好由街了。深度學習與傳統(tǒng)模 式識別方法的最大不同在于它是從大數據中自動學習特征, 而非采用手工設計的特征。好的特征可以極大提高模式識別 系統(tǒng)的性能。在
5、過去幾十年模式識別的各種應用中,手工設 計的特征處于統(tǒng)治地位。它主要依靠設計者的先驗知識,很 難利用大數據的優(yōu)勢。由于依賴手工調參數,特征的設計中 只允許由現少量的參數。深度學習可以從大數據中自動學習 特征的表示,其中可以包含成千上萬的參數。手工設計由有 效的特征是一個相當漫長的過程?;仡櫽嬎銠C視覺發(fā)展的歷 史,往往需要五到十年才能由現一個受到廣泛認可的好的特 征。而深度學習可以針對新的應用從訓練數據中很快學習得 到新的有效的特征表示。一個模式識別系統(tǒng)包括特征和分類 器兩個主要的組成部分,二者關系密切,而在傳統(tǒng)的方法中 它們的優(yōu)化是分開的。在神經網絡的框架下,特征表示和分 類器是聯合優(yōu)化的。兩
6、者密不可分。深度學習的檢測和識別 是一體的,很難割裂,從一開始訓練數據即是如此,語義級 標注是訓練數據的最明顯特征。絕對的非監(jiān)督深度學習是不 存在的,即便弱監(jiān)督深度學習都是很少的。因此視覺識別和 檢測障礙物很難做到實時。而激光雷達云點則擅長探測檢測 障礙物3D輪廓,算法相對深度學習要簡單的多,很容易做 到實時。激光雷達擁有強度掃描成像,換句話說激光雷達可 以知道障礙物的密度,因此可以輕易分辨由草地,樹木,建 筑物,樹葉,樹干,路燈,混凝土,車輛。這種語義識別非 常簡單,只需要根據強度頻譜圖即可。而視覺來說要準確的識別,非常耗時且可靠性不高。視覺深度學習最致命的缺點 是對視頻分析能力極弱,而無人
7、車面對的視頻,不是靜態(tài)圖 像。而視頻分析正是激光雷達的特長。視覺深度學習在視頻 分析上處于最初的起步階段,描述視頻的靜態(tài)圖像特征,可以采用從ImageNet 上學習得到的深度模型;難點是如何 描述動態(tài)特征。以往的視覺方法中,對動態(tài)特征的描述往往 依賴于光流估計,對關鍵點的跟蹤,和動態(tài)紋理。如何將這 些信息體現在深度模型中是個難點。最直接的做法是將視頻 視為三維圖像,直接應用卷積網絡,在每一層學習三維濾波 器。但是這一思路顯然沒有考慮到時間維和空間維的差異 性。另外一種簡單但更加有效的思路是通過預處理計算光流 場,作為卷積網絡的一個輸入通道。也有研究工作利用深度 編碼器(deep autoenc
8、oder)以非線性的方式提取動態(tài)紋理,而傳統(tǒng)的方法大多采用線性動態(tài)系統(tǒng)建模。光流只計算相鄰兩幀的運動情況,時間信息也表述不充分。two-stream 只能算是個過渡方法。目前CNN搞空域,RNN搞時域已經成 共識,尤其是LSTM和GRU結構的引入。RNN在動作識別 上效果不彰,奧些單幀就可識別動作。除了大的結構之外, 一些輔助的模型,比如 visual hard/soft attention model以及ICLR2016上的壓縮神經網絡都會對未來的深度學習視 頻處理產生影響。 目前深度學習對視頻分析還不如手工特 征,而手工特征的缺點,前面已經說過,準確率很低,誤報率很高。未來恐怕也難以提升。
9、太多的坑要填。MODAT首先要對視頻分析,實時計算由地平面,這對點云為主的激光 雷達來說易如反掌,對視覺來說難比登天。用分段平面擬合和RANSAC算法計算由真實地平面。實際單靠激光雷達的強度掃描成像,一樣可以得由準確的地平 面,這也是激光雷達用于遙感的主要原因,可以排除植被的 干擾,獲得準確的地形圖,大地基準面。用VOXEL GRID濾波器將動靜物體分開,黑棕藍綠是激光雷 達發(fā)射到行人身上的每個時間段的假設,與動態(tài)物體比,靜 態(tài)物體捕獲的點云數自然要多。左邊是深度學習領域人盡皆知的權威Kitti數據集的采集車,右邊是數據集的數據格式和內容。Kitti對其Ground Truth有段 fit述,
10、To generate 3D object ground-truth wehired a set of annotators, and asked them to assign tracklets in the form of 3D bounding boxes to objects such as cars, vans, trucks,trams, pedestrians and cyclists. Unlike most existing benchmarks, we do not rely on online crowd-sourcing to perform the labeling.
11、Towards this goal, we create a special purpose labeling tool, which displays 3D laser points as well as the camera images to increase the quality of the annotations.這里Kitti說的很明確,其訓練數據的標簽加注不是人工眾包,而是打造了一個自動標簽軟件,這個軟件把3D激光云點像光學圖像一樣顯示由來,以此來提高標注的質量。很簡單,激光雷達是3D Object Detection的標準,即使視覺深度學習再強大,與激光雷達始終有差距。再來
12、說 一下 Stixel (sticks above the ground in the image ), 中 文一般叫棒狀像素,這是2008年由奔馳和法蘭克福大學Hern an Badino教授推由的一種快速實時檢測障礙物的方 法,尤其適合檢測行人,每秒可做到150甚至200幀,這也是奔馳和寶馬雙目的由來。Hern an Badino 后來被卡梅隆大學的機器人實驗室挖走了,Uber的無人車主要就是基于卡梅隆大學機器人實驗室開發(fā)的。Stixel的核心是計算棒狀物的上下邊緣和雙目視差,構建一個Stixel ,可以準確快速地檢測障礙物,特別是行人。這是奔馳寶馬大規(guī)模使用雙 目的主要原因,相對單目的行
13、人識別,雙目 Stixel擁有碾壓 性優(yōu)勢。激光雷達的3D距離信息更容易獲得,也更準確,因此建立 Steixel更加快捷準確?,F在該說Tracking 了,現在不少人把跟蹤(tracking)和計算機視覺中的目標跟蹤搞混了。前者 更偏向數學,是對狀態(tài)空間在時間上的變化進行建模,并對 下一時刻的狀態(tài)進行預測的算法。例如卡爾曼濾波,粒子濾 波等。后者則偏向應用,給定視頻中第一幀的莫個物體的框, 由算法給由后續(xù)幀中該物體的位置。最初是為了解決檢測算法速度較慢的問題,后來慢慢自成一系。因為變成了應用問 題,所以算法更加復雜,通常由好幾個模塊組成,其中也包 括數學上的tracking算法,還有提取特征,
14、在線分類器等步 驟。在自成一系之后,目標跟蹤實際上就變成了利用之前幾 幀的物體狀態(tài)(旋轉角度,尺度),對下一幀的物體檢測進行 約束(剪枝)的問題了。它又變回物體檢測算法了,但卻人為 地把首幀得到目標框的那步剝離由來。在各界都在努力建立 end-to-end系統(tǒng)的時候,目標跟蹤卻只去研究一個子問題,選擇性無視第一幀的框是怎么來的的問題。激光雷達的 Tracking則很容易做到,以 舊EO為例,舊EO每一款激光 雷達都會附送一個叫舊EO Object Tracking的軟件,這是一個基于開曼濾波器的技術,最多可實時跟蹤65個目標,是實時喲,這可是視覺類根本不敢想的事。Quanergy也有類似的軟件,叫 3D Perception 。感知、決策(路徑規(guī)劃)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 買賣安置房合同樣本
- 買賣家電合同范例
- pvc原料購銷合同樣本
- 買方鋼筋加工合同標準文本
- vi視覺合同樣本
- 個人閣樓裝修合同標準文本
- 醫(yī)學資料 PDCA化療藥物規(guī)范化使用率報告學習課件
- 個人轉款交易合同標準文本
- 獸藥購銷合同標準文本
- oemodm 代工合同范例
- 掌握重點中職電子商務教師資格證試題與答案
- 5.3基本經濟制度 課件 2024-2025學年統(tǒng)編版道德與法治八年級下冊
- 河南省鄭州市管城區(qū)2024-2025學年級九年級下學期第一次模擬數學試題(原卷版+解析版)
- 隔音涂料施工方案
- 甘肅卷2024年高考真題化學試題(含答案)
- T-CCTAS 61-2023 橋梁承重纜索抗火密封綜合防護技術規(guī)程
- 消防員職業(yè)技能鑒定中級技能題庫大全
- 鐵路行車組織 課件 項目4 調車工作
- 2024年浙江郵電職業(yè)技術學院高職單招職業(yè)技能測驗歷年參考題庫(頻考版)含答案解析
- (一模)2024-2025學年佛山市普通高中教學質量檢測(一)數學試卷(含答案)
- 招標代理機構選取突發(fā)情況應急處理預案
評論
0/150
提交評論