版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
超全SLAM技術及應用介紹
SLAM(simultaneouslocalizationandmapping),也稱為CML(ConcurrentMappingand
Localization),即時定位與地圖構建,或并發(fā)建圖與定位。問題可以描述為:將一個機器人放
入未知環(huán)境中的未知位置,是否有辦法讓機器人一邊逐步描繪出此環(huán)境完全的地圖,所謂完
全的地圖(aconsistentm叩)是指不受障礙行進到房間可進入的每個角落。SLAM最早由Smith、
Self和Cheeseman于1988年提出。由于其重要的理論與應用價值,被很多學者認為是實現(xiàn)
真正全自主移動機器人的關鍵。
詞語解釋
SimultaneousLocalizationandMapping
SimultaneousLocalizationandMapping,同步定位與建圖。
SLAM問題可以描述為:機器人在未知環(huán)境中從一個未知位置開始移動,在移動
過程中根據位置估計和地圖進行自身定位,同時在自身定位的基礎上建造增量式
地圖,實現(xiàn)機器人的自主定位和導航。
ScanningLaserAcousticMicroscope
ScanningLaserAcousticMicroscope,激光掃描聲學顯微鏡。
激光掃描聲學顯微鏡是一種強有力的廣泛應用于諸如工業(yè)用材料和生物醫(yī)學領
域的無損檢測工具,其使用的頻率范圍為10MHz~500MHzo
LymphocyteActivationMolecule
LymphocyteActivationMolecule,醫(yī)學用語。
SupersonicLowAltitudeMissile
SLAM—SupersonicLowAltitudeMissile(超音速低空導彈)的縮寫,是美
國的一項導彈研制計劃。
SymmetricallyLoadedAcousticModule
SLAM是SymmetricallyLoadedAcousticModule的英文縮寫[1],中文意
思是平衡裝載聲學模塊。
SatelliteLinkAttenuationModel
SLM是SatelliteLinkAttenuationModel的英文縮寫[2],中文意思是衛(wèi)
星鏈路衰減模型。
實時SLAM的未來以及深度學習與SLAM的比較
第一部分:為什么SLAM很重要?
視覺SLAM算法可以實時構建世界的3D地圖,并同時追蹤攝像頭(手持式
或增強現(xiàn)實設備上的頭戴式或安裝在機器人上)的位置和方向。SLAM是卷積
神經網絡和深度學習的補充:SLAM關注于幾何問題而深度學習是感知、識別
問題的大師。如果你想要一個能走到你的冰箱面前而不撞到墻壁的機器人,那就
使用SLAM。如果你想要一個能識別冰箱中的物品的機器人,那就使用卷積神
經網絡。
SfM/SLAM基本原理:一個場景的3D結構是根據點觀察和固有的攝像頭參數,從攝像頭的估
計的運動中計算出來的.
SLAM是SfM(運動恢復結構:StructurefromMotion)的一種實
時版本。視覺SLAM或基于視覺的SLAM是SLAM的一種僅使用
攝像頭的變體,放棄了昂貴的激光傳感器和慣性測量單元。單眼
SLAM僅使用單個攝像頭,而非單眼SLAM通常使用一個預校準的固
定基線的立體相機套件。SLAM是計算機視覺領域所謂的幾何方法中
最好案例。事實上,卡內基梅隆大學的機器人研究所將研究生水平的
計算機視覺課程分成了一個基于學習的視覺方法和一個單獨的基于幾
何的視覺方法的課程。
L運動恢復結構vs視覺SLAM
運動恢復結構(SfM)和SLAM所解決的問題非常相似,但SfM傳
統(tǒng)上是以離線形式進行的,而SLAM則已經慢慢走向了低功耗/實時
/單RGB相機的運行模式。今天許多運動恢復結構方面的專家都在為
世界上一些最大的科技公司,幫助打造更好的地圖。如果沒有關于多
視圖幾何、SfM和SLAM的豐富知識,像谷歌地圖這種成功的地圖
產品根本就不可能出現(xiàn)。典型的SfM問題遵循:給定一個單個室外
結構(如大劇場/大體育館)的大型照片集合,構建該結構的3D模
型并確定每個相機的姿勢。這個照片集合以離線形式處理,而且大型
結構重建所需時間從幾小時到幾天不等。
SfM軟件:Bundler是最成功的SfM開源庫之一
這里給出一些流行的SfM相關的軟件庫:
Bundler:一個開源的運動恢復結構工具包
Libceres:一個非線性最小二乘極小化工具(對束調整(bundleadjustment)問題很有用)
AndrewZisserman的多視圖幾何MATLAB函數
2.視覺SLAMvs自動駕駛
研討會的組織者之一AndrewDavison表示,盡管自動駕駛汽車是SLAM最重要
的應用之一,但用于自動化載具的SLAM應該有其自己的研究軌道。(而且正如
我們所見,研討會的展示者中沒有一個談到了自動駕駛汽車。)在接下來的許多
年里,獨立于任何一個圣杯級的應用而繼續(xù)在研究的角度上研究SLAM是有意義
的。盡管在自動化載具方面存在著太多的系統(tǒng)級細節(jié)和技巧,但研究級的SLAM
系統(tǒng)所需的不過是一個網絡攝像頭、算法知識和一點辛勞而己。視覺SLAM作為
一個研究課題對數以千計的博士生的早期階段要友好得多,他們將首先需要好幾
年的使用SLAM的實驗室經驗,然后才能開始考慮無人駕駛汽車等昂貴的機器人
平臺。
谷歌無人駕駛汽車的感知系統(tǒng)
第二部分:實時SLAM的未來
現(xiàn)在是時候正式總結和評論實時SLAM的未來研討會上的演講了。
AndrewDavison以一個名叫基于視覺的SALM的十五年的精彩歷
史概述開篇,他的幻燈片中還有一個介紹機器人學課程的好內容。
你也許不知道Andrew是誰,他是倫敦帝國學院獨一無二的
AndrewDavison教授。他最知名的成就是其2003年的
MonoSLAM系統(tǒng),他是第一個展示如何在單個攝像頭上構建SLAM
系統(tǒng)的人,而那時候其他所有人都還認為打造SLAM系統(tǒng)需要一個
立體的雙目攝像頭套件。最近,他的研究成果已經對戴森(Dyson)
等公司的發(fā)展軌跡和他們的機器人系統(tǒng)的能力產生了影響(如全新的
Dyson360)。
我還記得Davidson教授曾在2007年的BMVC(英國機器視覺大
會)上給出了一個視覺SLAM教程。讓人驚訝的是,和主要的視覺
大會上其它機器學習技術的紛繁成果相比,SLAM的變化真是非常之
少。過去八年里,對象識別已經經歷了兩三次小型變革,而今天的
SLAM系統(tǒng)和其八年前的樣子看起來并沒有多大不同。了解SLAM
的進展的最好方法是看最成功和最讓人難忘的系統(tǒng)。在Davidson的
研討會介紹演講中,他討論了一些過去10-15年里科研界所打造的
典范系統(tǒng):
MonoSLAM
PTAM
FAB-MAP
DTAM
KinectFusion
1.DavisonvsHorn:機器人視覺的下一篇章
Davison還提到他正在寫一本關于機器人視覺的新書,這對計算機視覺、機器人
和人工智能領域的研究者來說應該是一個激動人心的好消息。上一本機器人視覺
的書是由B.K.Horn寫的(出版于1986年),現(xiàn)在也到該更新的時候了。
9.K.Horn.1986etulM20042005
機器人視覺的一本新書
盡管我很樂意閱讀一本重在機器人視覺原理的巨著,但我個人希望該
書關注的是機器人視覺的實用算法,就像Hartley和Zissermann
的杰作《多視圖幾何》或Thrun.Burgard和Fox所著的《概率機
器人學》那樣。這本關于視覺SLAM問題的書籍將會受到所有專注
視覺研究者歡迎。
演講一:ChristianKerl談SLAM中的連續(xù)軌跡
第一個演講來自ChristianKerl,他提出了一種用于估計連續(xù)時間軌
跡的密集跟蹤方法。其關鍵觀察結果發(fā)現(xiàn):大部分SLAM系統(tǒng)都在
離散數目的時間步驟上估計攝像頭的位置(要么是相隔幾秒的關鍵幀,
要么是相隔大約1/25秒的各個幀。
連續(xù)軌跡VS離散時間點SLAM/SfM通常使用離散時間點,但為什么不使用連續(xù)的呢?
Kerl的大部分演講都集中于解決卷簾式快門相機的危害,而Kerl演
示的系統(tǒng)還對建模給予謹慎的關注并消除了這些卷簾式快門的不利影
響。
解決視覺SLAM中卷簾式快門相機的危害
演講二:JakobEngel談半密集直接SLAM(Semi-DenseDirect
SLAM)
LSD-SLAM(大規(guī)模直接單眼SLAM)在2014ECCV上公開,也是
我現(xiàn)在最喜歡的SLAM系統(tǒng)之一!JakobEngel在那里展示了他的
系統(tǒng)并向觀眾展示了當時最炫酷的一些SLAM可視化。對SLAM研
究者來說,LSD-SLAM是一個非常重要的系統(tǒng),因為它不使用邊角或
其它任何本地特性。通過使用一種帶有穩(wěn)健的Huber損失的由粗到
細的算法,直接跟蹤可由圖像到圖像對準完成。這和那些基于特征的
系統(tǒng)非常不同。深度估計使用了逆深度參數化(和許多其它系統(tǒng)一樣)
并使用了大量或相對小的基準圖像對。該算法并不依賴于圖像特征,
而是靠有效地執(zhí)行紋理跟蹤。全局映射是通過創(chuàng)建和解決姿態(tài)圖形的
束調整優(yōu)化問題而執(zhí)行的,而且這所有都是實時工作的。這個方法是
半密集的,因為它僅估計靠近圖像邊界的像素深度。LSD-SLAM輸出
比傳統(tǒng)的特征更密集,但并不如Kinect類型的RGBDSLAM那樣
完全密集。
KrTTIoo<Fu?lSLAM)00:00:13.600
(3M?p<k?d)
工作中的LSD-SLAM:LSD-SLAM同時生成一個攝像頭軌跡和一個半密集的3D場景重建。這種方
法實時工作,不使用特征點作為圖元,并執(zhí)行直接的圖像到圖像對準。
Engel概述了原來的LSD-SLAM系統(tǒng)以及一些新成果,將它們最初
的系統(tǒng)擴展成更有創(chuàng)造性的應用并實現(xiàn)了更有趣的部署。
全方位LSD-SLAM是LSD-SLAM的一種延伸,因觀察到針孔模型
不能用于大視場的觀測而被創(chuàng)造出來。這項成果提出于IROS2015
(2015年智能機器人和系統(tǒng)國際大會)(Carus。是第一作者),
能用于大視場(理想情況下可超過180度)。Engel的演講很清楚
地表示,你可以拿著相機以芭蕾舞般的動作極限旋轉在你的辦公室內
走來走去。這是窄視場SLAM最糟糕的應用場景之一,但卻在Omni
LSD-SLAM中效果良好。
全方位的LSD-SLAM模型
立體LSD-SLAM是LSD-SLAM的一種用于雙眼攝像頭套件的延伸。
這有助于獲得沒有限制的規(guī)模,而且其初始化是瞬時的,強烈旋轉也
不存在問題。盡管從學術的角度看,單眼SLAM是很激動人心,但
如果你的機器人是一輛30,000美元的車或10,000美元的無人機
原型,你應該有足夠的理由使用一套帶有兩個乃至更多攝像頭的套件。
StereoLSD-SLAM在SLAM基準上表現(xiàn)出了相當強的競爭力。
StereoLSD-SLAM在KITTIvehicle-SLAM數據集上得到了優(yōu)異結果
StereoLSD-SLAM相當實用,能優(yōu)化SE(3)中的姿態(tài)圖形,并包含
了對自動曝光的校正。自動曝光校正的目標是讓誤差函數相對于仿射
光照變化而不變。顏色空間仿射轉換的基本參數是在匹配過程中估算
出來的,但也被扔掉以估計圖像到圖像變換中的錯誤。Engel在演講
中稱,離群值(outliers)(通常是由過度曝光的圖像像素造成的)往
往會帶來問題,需要很仔細才能處理它們的影響。
在他后面的演示中,Engel讓我們一窺了關于立體和慣性傳感器的整
合新研究。為了了解詳情,你只能跟蹤arXiv上的更新或向
Usenko/Engel本人了解。在應用方面,Engel的演示中包含了由
LSD-SLAM驅動的自動化四軸無人機的更新視頻。其飛行一開始是上
下運動的,以獲得對尺寸的估計,然后又使用了自由空間的三維測繪
(octom叩)以估計自由空間,從而讓該四軸無人機可以在空間中為
自己導航。
運行StereoLSD-SLAM的四軸無人機
LSD-SLAM的故事也是基于特征vs
直接方法的故事,Engel給了辯論雙方公正的待遇?;谔卣鞯姆椒?/p>
被設計用在Harris那樣的邊角之上,而直接方法則是用整個圖像進
行對準。基于特征的方法更快(截至2015年),但直接方法在并行
處理上效果很好。離群值可以通過追溯的方法從基于特征的系統(tǒng)中移
除,而直接方法在離群值處理上沒那么靈活。卷簾式快門是直接方法
的一個更大的問題,而且使用全局快門或卷簾式快門模型是有意義的。
基于特征的方法需要使用不完整的信息進行決策,而直接方法可以使
用更多信息。基于特征的方法不需要很好的初始化,而直接方法在初
始化上需要更巧妙的技巧。對直接方法的研究只有4年,稀疏方法
則有20多年的歷史了。Engel樂觀地認為直接方法未來將上升成為
頂級方法,我也這么想。
ComparisonTUT1
Feature-BasedDirect
canonlyuse&reconstructcornerscanuse&reconstructwholeimage
fasterslower(butgoodforparallelism)
flexible:outlierscanberemovedinflexible:difficulttoremove
retroactively.outliersretroactively.
robusttoinconsistenciesinthe?
model/system(rollingshutter)..
decistons(KPdetection)basedondecision(linearizationpoint)based
lesscompleteinformation.onmorecompleteinformation.
noneedforgoodinitiaUzation,
―20+yearsofintensiveresearch~4yearsofresearchksyeszs
Jafecrt*D***CSSLAML
SLAM系統(tǒng)構建上,基于特征的方法vs直接方法
在Engel演講最后,Davison問到了語義分割方面的問題,而Engel不知道語
義分割是否可以在半密集的接近圖像邊界的數據上直接執(zhí)行。但是,我個人的看
法是,有更好的方法可將語義分割應用到LSD類型的SLAM系統(tǒng)上。半密集
SLAM可以專注于靠近邊界的幾何信息,而對象識別可以專注于遠離這同一邊界
的可靠語義,從而有可能創(chuàng)造出一個混合了幾何和語義的圖像解讀。
演講三:TorstenSattler談大規(guī)模定位與地圖構建面臨的挑戰(zhàn)
TorstenSattler的演講談論了大規(guī)模定位與地圖構建。這項工作的目
的是在已有的地圖內執(zhí)行六個自由度的定位,尤其是移動定位。演講
中的一個關鍵點是:當你使用傳統(tǒng)的基于特征的方法時,存儲你的描
述很快就將變得非常昂貴。視覺詞匯表(記得產品量化嗎?)等技術
可以顯著減少存儲開銷,再加上某種程度的巧妙優(yōu)化,描述的存儲將
不再成為存儲瓶頸。
Sattler的演講給出的另一個重要的關鍵信息是正確數據的數量實際
上并不是相機姿態(tài)估計的很好的置信度測量。當特征點全都集中于圖
像的單一一個部分時,相機定位可能會在千里之外!一個更好的置信
度測量是有效正確數據計數,其可以將正確數據所在的區(qū)域作為整體
圖像區(qū)域的一個部分來進行審查。你真正希望得到的是整體圖像上的
特征匹配——如果信息散布在整個圖像上你能得到更好的姿態(tài)估計。
Sattler對未來實時SLAM的演講是這樣的:我們應該關注緊湊型的
地圖表征,我們應該對相機姿態(tài)估計置信度有更好的理解(如樹上權
重下降的特征),我們應該在更有挑戰(zhàn)性的場景中研發(fā)(如帶有平面
結構的世界和在白天的地圖上的夜間定位)。
Real-timecameralocalisationagainst
posetracking
移動定位:Sattler的關鍵問題是使用單張智能手機圖片在大城市里定位你自己
演講四:Mur-Artal談基于特征的方法vs直接方法
ORB-SLAM的創(chuàng)造者Mur-Artal的演講內容全部圍繞著SLAM
領域內基于特征的方法vs直接方法的爭論,而他顯然站在基于特征
的方法一邊。ORB-SLAM可通過一個開源的SLAM軟件包獲取,而
且它很難被擊敗。在他對ORB-SLAMvsPTAM的評價中,似乎
實際上常常失?。ㄖ辽僭诨鶞噬希?/p>
PTAMTUMRGB-D0LSD-SLAM
在TUMRGB-D基準上的錯誤通常遠高于預期。
Feature-BasedSLAMDirectSLAM
MinimizeFeatureReprojectionErrorPhotometricError
SparseReconsirucuonSemiDenseIDenseReconstruction
基于特征的方法VS直接方法
演講五:Tango項目和用于圖像到圖像限制的視覺環(huán)路閉合
簡單來說,谷歌的Tango項目是世界上第一個商業(yè)化SLAM的嘗
試。來自GoogleZurich的SimonLynen(之前屬于ETHZurich)
帶著一個Tango現(xiàn)場演示(在一臺平板電腦上)來到了研討會,并
展示了Tango世界的新內容。你可能不知道,谷歌希望將SLAM能
力集成到下一代安卓設備中。
谷歌的Tang。項目
Tango項目展示討論了一種
通過在圖像到圖像匹配矩陣中尋找特定的模式以進行環(huán)路閉合的新方
法。這個方法是來自沒有固定位置的位置識別成果。他們也做帶有基
于視覺的環(huán)路閉合的在線束調整。
Tango項目里的循環(huán)閉合
這種圖像到圖像矩陣揭示一種尋找環(huán)路閉合的新方法??稍谠揧ouTube視頻中查看工作中的算法。
Tango項目的人也在研究將谷歌多個眾包地圖結合起來,其目標是將
由不同的人使用配置有Tango的設備創(chuàng)造的多個迷你地圖結合起來。
Simon展示了一個山地自行車軌跡跟蹤的視頻,這在實踐中實際上是
相當困難的。其中的想法是使用一個Tango設備跟蹤一輛山地自行
車,并創(chuàng)建一份地圖,然后后續(xù)的目標是讓另外一個人沿著這條軌跡
走。這個目前只是半有效狀態(tài)——當在地圖構建和跟蹤步驟之前有幾
個小時時間時有效,但過了幾周、幾個月就沒效果了。
在Tango相關的討論中,RichardNewcombe指出Tango項目
所使用的"特征"在更深度地理解環(huán)境上還是相當落后的,而且看
起來類似Tango項目的方法無法在室外場景中起作用一一室外場
景有非剛性大量光照變化等。所以我們有望見到為室外環(huán)境設計的不
同系統(tǒng)嗎?Tango項目將成為一個室內地圖構建設備嗎?
演講六:ElasticFusion是沒有姿態(tài)圖形的密集型SLAM
日asticFusion是一種需要Kinect這樣的RGBD傳感器的密集型
SLAM技術。2-3分鐘就能獲得單個房間的高質量3D掃描,這真
是相當酷。許多SLAM系統(tǒng)的場景背后都使用了姿態(tài)圖形,這種技
術有一種不同的(以地圖為中心)方法。該方法專注于構建地圖,但
其訣竅是其構建的地圖可以變形,也因此得名ElasticFusion(彈性
融合)。其中算法融合的部分是向KinectFusion致敬——
KinectFusion是第一個高質量的基于Kinect的重建方式。Surfels
也被用作底層的基元。
圖片來自Kintinuous,Whelan的ElasticFusion的早期版本
恢復光源:我們一窺了來自倫敦帝國學院/戴森機器人實驗室的尚未發(fā)
表的新研究成果。其中的想法是通過探測光源方向和探測鏡面反射,
你可以提升3D重建的結果。關于恢復光源位置的炫酷視頻顯示其最
多能處理4個獨立光源。
演講七:RichardNewcombe的DynamicFusion
RichardNewcombe(他最近成立的公司被Oculus收購)是最后
一位展示者。RichardNewcombe是DTAM、KinectFusion和
DynamicFusion背后的人,見到他真是非???;他目前從事虛擬現(xiàn)
實領域的研發(fā)
Newcombe的DynamicFusion算法。該技術在聲望很高的CVPR2015中獲得最佳論文獎。
2.研討會演示
在演示會議期間(在研討會中間舉行),許多展示者展示了他們的
SLAM系統(tǒng)工作中的樣子。這些系統(tǒng)中許多都是以開源軟件包的形式
提供的,所以如果你對實時SLAM感興趣,可以嘗試下載這些代碼。
但是,最亮眼的演示是AndrewDavison展柜上他的來自2004年
的MonoSLAM演示。Andrew不得不恢復了已有15年歲月的計
算機(運行的是RedhatLinux)來展示他原來的系統(tǒng),運行在原來
的硬件上。如果計算機視覺社區(qū)將決定舉辦一場復古視覺的演示會議,
那我馬上就將會提名Andrew應得最佳論文獎。
Andrew復古的視覺SLAM配置
看著SLAM系統(tǒng)專家揮動自己的USB攝像頭真是一件有趣的事一
—他們在展示他們的系統(tǒng)圍繞他們的筆記本電腦構建周圍桌子大小區(qū)
域的3D地圖。如果你仔細看了這些專家移動攝像頭的方式(即平穩(wěn)
的圓圈運動),你幾乎就能看出一個人在SLAM領域工作了多長時
間。當一位非專家級的人拿著攝像頭時,跟蹤失敗的概率明顯更高。
我有幸在演示會議期間和Andrew進行了交談,我很好奇這一系列
的成果(過去15年中)中哪一個最讓他感到驚訝。他的回答是PTAM
最讓他吃驚,因為其表明了實時束調整執(zhí)行的方式。PTAM系統(tǒng)本質
上是MonoSLAM++系統(tǒng)但因為采用了一種重量級算法(束調整)
而顯著提高了跟蹤效果并做到了實時一一在2000年早期Andrew
還認為"實時"是不可能辦到的。
第三部分:深度學習vsSLAM
SLAM小組討論真是樂趣無窮。在我們進入重要的深度學習vs
SLAM討論之前,我應該說明每一位研討會展示者都同意:語義對構
建更大更好的SLAM系統(tǒng)是必需的。關于未來的方向,這里有很多
有趣的小對話。在爭論中,MarcPollefeys(一位知名的SfM和多
視角幾何研究者)提醒所有人,機器人是SLAM的一個殺手級應用,
并建議我們保持對大獎的關注。這令人非常驚訝,因為SLAM傳統(tǒng)
上是適用于機器人問題的,但過去幾十年機器人并沒有什么成功(谷
歌機器人?),導致SLAM的關注重點從機器人轉移到了大規(guī)模地
圖構建(包括谷歌地圖)和增強現(xiàn)實上。研討會上沒人談論過機器人。
L將語義信息集成到SLAM中
人們對將語義整合到今天最出色的SLAM系統(tǒng)中有很大興趣。當涉
及語義時,SLAM社區(qū)不幸地卡在了視覺詞袋
(bags-of-visual-words)的世界里,而在如何將語義信息整合進他
們的系統(tǒng)上沒有什么新想法。在語義一端,我們現(xiàn)在已經看到
CVPR/ICCV/ECCV上冒出了很多實時語義分割演示(基于卷積神經
網絡);在我看來,SLAM需要深度學習,而深度學習也一樣需要
SLAM0
人們經常談到將語義整合進SLAM但說起來容易做起來難。圖片來自Moreno的博士論文(142
頁):密集型語義SLAM
2.端到端學習會主宰SLAM嗎?
在SLAM研討會小組討論結束時,ZeeshanZia博士提出了一個震
驚所有人的問題,并引發(fā)了一場充滿能量的討論,令人難忘。你應該
看看小組成員們臉上的表情。那就像是將一個深度學習的火球投向一
群幾何學家。他們的面部表情表達出了他們的困惑、憤怒和厭惡。他
們想:你怎么敢質疑我們?正是在這些稍縱即逝的時刻,我們才能真
正體會到大會的體驗。Zia的問題基本上是:在構建今天的SLAM系
統(tǒng)時,端到端學習很快就將取代大部分人工勞動嗎?
Zia的問題非常重要,因為端到端的可訓練系統(tǒng)已經慢慢進入到了很
多高級的計算機問題中,相信SLAM會是一個例外是沒有道理的。
有好幾位展示者都指出當前的SLAM系統(tǒng)過于依賴幾何,以至于讓
完全基于深度學習的SLAM系統(tǒng)看起來不合理了——我們應該使用
學習技術得到更好的點描述,而不要管幾何。你可以使用深度學習做
一個計算器,并不意味你應該這么做。
通過卷積神經網絡學習立體相似度函數,來自YanLeCun及其合作者
2.端到端學習會主宰SLAM嗎?
在SLAM研討會小組討論結束時,ZeeshanZia博士提出了一個震
驚所有人的問題,并引發(fā)了一場充滿能量的討論,令人難忘。你應該
看看小組成員們臉上的表情。那就像是將一個深度學習的火球投向一
群幾何學家。他們的面部表情表達出了他們的困惑、憤怒和厭惡。他
們想:你怎么敢質疑我們?正是在這些稍縱即逝的時刻,我們才能真
正體會到大會的體驗。Zia的問題基本上是:在構建今天的SLAM系
統(tǒng)時,端到端學習很快就將取代大部分人工勞動嗎?
Zia的問題非常重要,因為端到端的可訓練系統(tǒng)已經慢慢進入到了很
多高級的計算機問題中,相信SLAM會是一個例外是沒有道理的。
有好幾位展示者都指出當前的SLAM系統(tǒng)過于依賴幾何,以至于讓
完全基于深度學習的SLAM系統(tǒng)看起來不合理了——我們應該使用
學習技術得到更好的點描述,而不要管幾何。你可以使用深度學習做
一個計算器,并不意味你應該這么做。
通過卷積神經網絡學習立體相似度函數,來自YanLeCun及其合作者
盡管許多小組討論發(fā)言人都使用了有些肯定不行回應,但讓人驚訝的
是,卻是Newcombe聲援了深度學習和SLAM聯(lián)姻的可能。
3.Newcombe的提議:使用SLAM助力深度學習
盡管Newcombe在深度學習可能如何幫助SLAM上沒有提供很
多證據或想法,但他卻為SLAM如何可能為深度學習提供幫助給出
了一條清晰的路徑。想想看我們使用大規(guī)模SLAM已經構建出的地
圖以及這些系統(tǒng)所提供的對應——這難道不是一個構建能幫助深度學
習的萬億級圖像到圖像相關數據集的清晰路徑嗎?其基本思路是:今
天的SLAM系統(tǒng)是大規(guī)模的對應引擎,可以用來生成大規(guī)模數據集,
而這正是深度卷積神經網絡所需要的。
第四部分:結語
這次ICCV大會上主流的工作(重在機器學習)和本次實時SLAM
研討會所呈現(xiàn)出現(xiàn)的工作(重在束調整等幾何方法)之間存在相當大
的脫節(jié)。主流的計算機視覺社區(qū)在過去十年內已經見證了多次小型變
革(如:Dalal-Triggs、DPM、ImageNet、ConvNets.R-CNN),
而今天的SLAM系統(tǒng)和它們八年前的樣子并沒有很大的不同。
Kinect傳感器可能是SLAM領域唯一的最大的徹底變革的技術,但
基礎算法仍舊保持著原樣。
集成語義信息:視覺SLAM的下一個前沿.來自ArwenWallington博客的腦圖
今天的SLAM系統(tǒng)能幫助機器在幾何上理解眼前的世界(即在本地坐標系中構
建關聯(lián)),而今天的深度學習系統(tǒng)能幫助機器進行分類推理(即在不同的對象實
例之上構建關聯(lián))??偟膩碚f在視覺SLAM上我與Newcombe和Davison
一樣興奮,因為基于視覺的算法將會將增強現(xiàn)實和虛擬現(xiàn)實轉變成一個價值數十
億美元的產業(yè)。但是,我們不應忘記保持對那個萬億美元市場的關注,那個將重
新定義"工作”的市場——機器人。機器人SLAM的時代很快就要到來了。
SLAM的前世今生
SLAM的前世
我之前從本科到研究生,一直在導航與定位領域學習,一開始偏重于高精度的慣
性導航、衛(wèi)星導航、星光制導及其組合導航。出于對實現(xiàn)無源導航的執(zhí)念,我慢
慢開始研究視覺導航中的SLAM方向,并與傳統(tǒng)的慣性器件做組合,實現(xiàn)獨立設
備的自主導航定位。
定位、定向、測速、授時是人們惆悵千年都未能完全解決的問題,最早的時候,
古人只能靠夜觀天象和司南來做簡單的定向。直至元代,出于對定位的需求,才
華橫溢的中國人發(fā)明了令人嘆為觀止的牽星術,用牽星板測量星星實現(xiàn)緯度估計。
1964年美國投入使用GPS,突然就打破了大家的游戲規(guī)則。軍用的P碼可以達到
1-2米級精度,開放給大眾使用的CA碼也能夠實現(xiàn)5-10米級的精度。
后來大家一方面為了突破P碼封鎖,另一方面為了追求更高的定位定姿精度,想
出了很多十分具有創(chuàng)意的想法來挺升GPS的精度。利用RTK的實時相位差分技術,
甚至能實現(xiàn)厘米的定位精度,基本上解決了室外的定位和定姿問題。
但是室內這個問題就難辦多了,為了實現(xiàn)室內的定位定姿,一大批技術不斷涌現(xiàn),
其中,SLAM技術逐漸脫穎而出。SLAM是一個十分交叉學科的領域,我先從它的
傳感器講起。
I離不開這兩類傳感器
目前用在SLAM上的Sensor主要分兩大類,激光雷達和攝像頭。
Sens。令類
?激光雷達:單線、多線
Sens。令類
?攝像頭:單目、雙目、單目結構光、雙目結構
光、ToF
這里面列舉了一些常見的雷達和各種深度攝像頭。激光雷達有單線多
線之分,角分辨率及精度也各有千秋。SICK、velodyne.Hokuyo以
及國內的北醒光學、Slamtech是比較有名的激光雷達廠商。他們可
以作為SLAM的一種輸入形式。
這個小視頻里展示的就是一種簡單的2DSLAM
這個小視頻是賓大的教授kumar做的特別有名的一個demo,
是在無人機上利用二維激光雷達做的SLAM。
而VSLAM則主要用攝像頭來實現(xiàn),攝像頭品種繁多,主要分為單目、
雙目、單目結構光、雙目結構光、ToF幾大類。他們的核心都是獲取
RGB和depthmap(深度信息)。簡單的單目和雙目(Zed,leapmotion)
我這里不多做解釋,我主要解釋一下結構光和
ToFo
I最近流行的結構光和TOF
結構光原理的深度攝像機通常具有激光投射器、光學衍射元件(DOE)、
紅外攝像頭三大核心器件。
結構光原理
3a于單目虹夕卜結構光庫理的淙度掘像
頭可以同時拿到技探場索的RGB及QepS
Map
這個圖(下圖)摘自primesense的專利。
一結構光原理
可以看到primesense的doe是由兩部分組成的,一個是擴散片,一
個是衍射片。先通過擴散成一個區(qū)域的隨機散斑,然后復制成九份,
投射到了被攝物體上。根據紅外攝像頭捕捉到的紅外散斑,PS1080
這個芯片就可以快速解算出各個點的深度信息。
這兒還有兩款結構光原理的攝像頭。
結構光原王里
第一頁它是由兩幅十分規(guī)律的散斑組成,最后同時被紅外相機獲得,
精度相對較高。但據說DOE成本也比較高。
還有一種比較獨特的方案(最后一幅圖),它采用mems微鏡的方式,
類似DLP投影儀,將激光器進行調頻,通過微鏡反射出去,并快速改
變微鏡姿態(tài),進行行列掃描,實現(xiàn)結構光的投射。(產自ST,ST經
常做出一些比較炫的黑科技)。
ToF(timeofflight)也是一種很有前景的深度獲取方法。
傳感器發(fā)出經調制的近紅外光,遇物體后反射,傳感器通過計算光線
發(fā)射和反射時間差或相位差,來換算被拍攝景物的距離,以產生深度
信息。類似于雷達,或者想象一下蝙蝠,softkinetic的DS325采用
的就是ToF方案(TI設計的),但是它的接收器微觀結構比較特殊,
有2個或者更多快門,測ps級別的時間差,但它的單位像素尺寸通
常在lOOum的尺寸,所以目前分辨率不高。以后也會有不錯的前景,
但我覺得并不是顛覆性的。
好,那在有了深度圖之后呢,SLAM算法就開始工作了,由于Sensor
和需求的不同,SLAM的呈現(xiàn)形式略有差異。大致可以分為激光SLAM
(也分2D和3D濟口視覺SLAM(也分Sparse.semiDense、Dense)
兩類,但其主要思路大同小異。
SLAM分類
Dense
這個是Sparse(稀疏)的
這個偏Dense(密集)的
ISLAM算法實現(xiàn)的4要素
SLAM算法在實現(xiàn)的時候主要要考慮以下4個方面吧:
1.地圖表示問題,比如dense和sparse都是它的不同表達方式,這個需要根
據實際場景需求去抉擇
2.信息感知問題,需要考慮如何全面的感知這個環(huán)境,RGBD攝像頭FOV通
常比較小,但激光雷達比較大
3.數據關聯(lián)問題,不同的sensor的數據類型、時間戳、坐標系表達方式各有
不同,需要統(tǒng)一處理
4.定位與構圖問題,就是指怎么實現(xiàn)位姿估計和建模,這里面涉及到很多數
學問題,物理模型建立,狀態(tài)估計和優(yōu)化
其他的還有回環(huán)檢測問題,探索問題(exploration),以及綁架問題
(kidnapping)0
這個是一個比較有名的SLAM算法,這個回環(huán)檢測就很漂亮。但這個
調用了cuda,gpu對運算能力要求挺高,效果看起來比較炫。
I以VSLAM舉個栗子
一種簡單的RGBDSLAM原理框圖
我大概講一種比較流行的VSLAM方法框架。
整個SLAM大概可以分為前端和后端,前端相當于VQ視覺里程計),
研究幀與幀之間變換關系。首先提取每幀圖像特征點,利用相鄰幀圖
像進行特征點匹配,然后利用RANSAC去除大噪聲然后進行匹配,
得到一個pose信息(位置和姿態(tài)),同時可以利用IMU(Inertial
measurementunit慣性測量單元)提供的姿態(tài)信息進行濾波融合
后端則主要是對前端出結果進行優(yōu)化,利用濾波理論(EKF、UKF、
PF)、或者優(yōu)化理論TORO、G20進行樹或者圖的優(yōu)化。最終得到最
優(yōu)的位姿估計。
后端這邊難點比較多,涉及到的數學知識也比較多,總的來說大家已
經慢慢拋棄傳統(tǒng)的濾波理論走向圖優(yōu)化去了。
因為基于濾波的理論,濾波器穩(wěn)度增長太快,這對于需要頻繁求逆的
EKF(擴展卡爾曼濾波器),PF壓力很大。而基于圖的SLAM,通常
以keyframe(關鍵幀)為基礎,建立多個節(jié)點和節(jié)點之間的相對變
換關系,比如仿射變換矩陣,并不斷地進行關鍵節(jié)點的維護,保證圖
的容量,在保證精度的同時,降低了計算量。
列舉幾個目前比較有名的SLAM算法:PTAM.MonoSLAM,
0RB-SLAM,RGBD-SLAM,RTAB-SLAMfL
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 解讀文學的藝術美
- 2025年度核桃樹種植基地基礎設施建設與承包合同
- 2025年度電子商務平臺商標保護合作協(xié)議
- 2025年度智能設備研發(fā)項目合同擔保合作協(xié)議
- 魯教版地理六年級下冊7.4《俄羅斯》聽課評課記錄2
- 班會中的體育活動-學生興趣的引導與組織
- 生物安全實驗室設計與建設標準及實踐
- 湘教版數學八年級上冊3.3《實數的運算和大小比較》聽評課記錄1
- 2025年度版權居間轉讓服務合同范本
- 2022年新課標八年級上冊歷史第八單元近代經濟、社會生活與教育文化事業(yè)的發(fā)展25、26課共2課時聽課評課記錄
- 山東省濱州市濱城區(qū)2024-2025學年九年級上學期期末考試化學試題
- 國有企業(yè)內部審計工作制度(2篇)
- 期末試卷:安徽省宣城市2021-2022學年七年級上學期期末歷史試題(解析版)
- 食品抽檢核查處置重點安全性指標不合格原因分析排查手冊
- 幼兒教師新年規(guī)劃
- 五年級數學上冊 圖形與幾何專題測試卷 (含答案)(北師大版)
- 2024年湖南省公務員錄用考試《行測》真題及答案解析
- 分布式光伏培訓
- 2024新版(北京版)三年級英語上冊單詞帶音標
- 養(yǎng)老服務機構復工復產實施方案復工復產安全生產方案
- 第21課 活動課 從考古發(fā)現(xiàn)看中華文明的起源 教學課件
評論
0/150
提交評論