

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
VALSE2017系列之四:目標跟蹤領域進展報告深度學習大講堂是由中科視拓運營的高質量原創(chuàng)內容平臺,邀請學術界、工業(yè)界一線專家撰稿,致力于推送人工智能與深度學習最新技術、產品和活動信息!編者按:目標跟蹤是計算機視覺領域的一個熱門研究方向,同時在產業(yè)界也具有廣闊的應用前景。過去幾十年來,目標跟蹤方法經歷了從卡爾曼濾波等經典跟蹤方法,到基于檢測或相關濾波的方法,再到深度學習相關方法的演變歷程。作為目前廣泛使用的目標跟蹤基準研究平臺(TrackingBenchmark)的創(chuàng)建者,來自南京審計大學的吳毅老師將帶著大家回顧目標跟蹤領域近幾年的研究進展。大講堂特別在文末提供文中提到的所有文章以及該研究平臺的下載地址。目標跟蹤就是在連續(xù)的視頻序列中,建立所要跟蹤物體的位置關系,得到物體完整的運動軌跡。在計算機視覺領域中,視覺跟蹤(VisualTracking)—般是指對單目標進行跟蹤:在第一幀圖像給定目標的狀態(tài),一般是目標的boundingbox信息,然后預測之后每幀圖像中目標的狀態(tài),對應的也是目標的boundingbox信息。本文將從三個方面介紹視覺跟蹤領域最近的進展:基于深度學習的目標跟蹤研究進展、基于相關濾波器的目標跟蹤研究進展、以及其他的方法介紹?;谏疃葘W習的目標跟蹤較早運用深度學習方法進行目標跟蹤的是王乃巖在NIPS2013的工作。當時卷積神經網絡在計算機視覺領域還沒有完全開展起來,當時他們使用一種自動編碼器,在100萬張的32*32的圖像上離線訓練目標的表示,然后運用到目標跟蹤任務上。在2015年,王乃巖繼續(xù)將卷積神經網絡運用到目標跟蹤任務中,采用卷積神經網絡輸出50*50的heatmap來表示每個像素是否處于目標之內的概率。卷積神經網絡模型運用的是ImageNet數據集預訓練的模型,然后在線進行更新,跟蹤時運用兩個卷積神經網絡,采用不同的更新策略。在OTB50數據集上,與傳統(tǒng)采用手工設計的方法相比較,該方法性能有了極大的提升。隨著深度學習的火熱,從2015年開始,利用深度學習進行目標跟蹤的研究工作越來越多。馬超在ICCV2015的工作是將卷積神經網絡中不同層的特征圖結合起來,在相關濾波框架下進行跟蹤。在淺層的網絡中,空間的分辨率較高,但是特征的語義信息比較少;隨著卷積神經網絡層數的增加,從深層網絡提取的特征語義信息越來越豐富,但是空間的分辨率就會越低,不利于對目標的定位。所以融合不同層的特征,有利于提高目標跟蹤的精度。這是大連理工大學盧湖川老師在ICCV2015的工作,將全卷積網絡用在目標跟蹤上,運用卷積神經網絡不同層之間的特性,對網絡中不同層的特征進行融合,提高了目標跟蹤的性能該網絡在OTB50上取得了不錯的結果。CVPR2016上提出的MDNet方法在多個數據集上都取得了非常好的結果,該網絡具備如下特點:MDNet通過卷積神經網絡學習性能很強的分類器,將目標和背景分開。其網絡結構輸出K個全連接層,對應K個用來訓練的序列。訓練的時候每次選出一個序列,更新對應的分支全連接層和內部共享的隱含層。為了提高分類性能,該模型挖掘有難度的負樣本來構造訓練的minibatch。在跟蹤時,采用邊框回歸來提高網絡的精度,定位時通過在上一幀采樣N個候選,然后將分類結果最好的一個候選作為目標位置。該網絡的缺點是速度慢,在NVIDIATeslaK20GPU上速度是1幀/秒。雖然運行時間慢,但是該網絡的精度非常高,在OTB50和OTB100上都取得了非常好的結果。近期美國天普大學凌海濱老師對MDNet模型進行了改進,在網絡中采用循環(huán)神經網絡對目標自身結構進行建模。該網絡在OTB100上取得了不錯的跟蹤結果。孿生網絡CVPR2016上提出了一種通過相似性學習的方式進行目標跟蹤的孿生網絡。其最大的特點是,該方式訓練好的網絡直接在跟蹤上使用,不需要更新。網絡同樣采用了不同層的特征融合和邊框回歸來提升目標跟蹤的性能。該網絡也是取得了不錯的結果。在ECCV2016上也有一篇采用孿生網絡的工作,與上一篇不同之處在于,這篇采用全卷積網絡。其優(yōu)勢在于:只需要一次前向操作,通過cross-correlationlayer就可以得到所有卷積區(qū)域的得分;對于搜索圖像也不要求必須和目標的圖像大小一致。該網絡在VOT2015數據集上取得了不錯的結果,由于采用了全卷積網絡的結構,和其他基于深度學習的方法相比,速度具有很大的優(yōu)勢。在ECCV2016上還有一個采用深度回歸網絡進行目標跟蹤的工作,與目標檢測中基于回歸方法的卷積網絡有些類似,這個方法直接對目標位置進行回歸。與其他基于深度學習方法的目標跟蹤相比,該方法具有如下特點:由于直接對目標位置進行回歸,其速度上會有更大的優(yōu)勢。改變了其他方法提取第一幀的作為參考模型方式,而在前一幀的目標位置提取參考模型,提取的目標patch里還含有一定的背景context信息在線跟蹤的時候網絡模型不用進行更新在訓練的時候不僅采用了視頻輸入,同時還采用了靜態(tài)圖像輸入,圖像采用的是ImageNet檢測挑戰(zhàn)的數據集來進行訓練,因此特征提取更加細膩。與其他基于深度學習的方法相比,該模型主要的優(yōu)勢是速度快,在GTXTitanXGPU上運行超過100幀/秒。最近發(fā)表的另外一些基于深度學習的目標跟蹤工作,最下面的一篇是采用CNN和LSTM進行結合的方式。這篇CVPR2010的工作最早將相關濾波器運用在目標跟蹤任務上,這個方法是從信號處理的角度來進行推導的,叫誤差最小平方和濾波器(MOSSE)該方法最大的優(yōu)勢是可以采用快速傅里葉變換進行計算,在目前主流的CPU上運行速度應該可以超過1000幀/秒。在ECCV2012的這篇論文是從機器學習的角度,利用循環(huán)矩陣進行分析推導,利用快速傅里葉變換進行快速求解分類。從機器學習角度進行分析的好處是可以采用kerneltrick來提高性能:kernel可以選擇不同的類型,比如高斯kernel、線性kernel等等。當使用線性kernel的時候,就得到了前文提到的MOSSE。這是在CVPR2013benchmark工作上給出的性能分析,當時就已經發(fā)現基于相關濾波的目標跟蹤很有潛力,速度非???,性能也不錯。在性能最好的十個跟蹤方法中該方法最快,在速度上具有一個數量級的優(yōu)勢。從2014年開始,基于相關濾波的跟蹤研究方法成為目標跟蹤的一個熱點。其中,來自瑞典的Martin做出一系列不錯的工作。這里簡要介紹一下Martin在ECCV2016和CVPR2017的兩個工作。傳統(tǒng)的相關濾波訓練的時候,需要特征圖具有相同的分辨率。Martin在ECCV2016提岀了將不同空間分辨率特征進行有效融合的方法,通過采用連續(xù)卷積操作,來進行隱式的特征圖的插值計算,從而解決了針對不同分辨率特征圖的訓練問題。該方法在OTB100和Temple-Color都取得了非常好的結果。ECO是Martin最新的工作,該方法的創(chuàng)新點如下:之前方法學習到的濾波器往往比較稀疏、能量值低,針對深度卷積神經網絡輸出的特征,這些能量值低的濾波器對于目標定位的作用不大。于是作者提出了一種降維的方法,使用較少的濾波器就可以獲得目標跟蹤結果,這樣可以大大提高運行速度。同時在訓練樣本上,該模型也采用了一個更好的策略,保證了樣本的多樣性。該模型在OTB100上取得非常好的結果,相比MDnet而言,無論是精度還是速度都有了很大的提高。即使只采用傳統(tǒng)的視覺特征,也可以達到很好的性能。最后是另外的一些相關工作。我們知道一個好的數據集對某個方向上的研究具有極大的提升,比如ImageNet數據集對目標分類、檢測任務有很大的貢獻。最近,目標跟蹤領域又發(fā)表了一些數據集。比如說在ECCV2016上的無人機航拍的數據集。這是吳毅老師最近和顏水成老師合作的NUS-PRO數據集。以及Google發(fā)布的YouTube-BoundingBoxes數據集,該數據集適用于在視頻的目標檢測任務、以及目標跟蹤算法的訓練和測試。整個數據集有24萬個視頻標注了560萬個boundingboxes。由于該數據集規(guī)模很大,將有利于目標跟蹤的深度學習模型的訓練。上圖為AAAI最佳論文,在目標跟蹤上進行了方法的驗證。該工作用一個先驗模型約束神經網絡學習,以減少對樣本量的需求。上圖列出了一些最近的其他目標跟蹤工作,比如人眼跟蹤、人臉跟蹤以及行人跟蹤等等。最后,大講堂喜大普奔地告知各位小伙伴:吳老師的目標跟蹤基準研究平臺已經開源,該研究平臺包含跟蹤測試數據集、一些經典跟蹤方法的代碼以及跟蹤結果評測和可視化的代碼。歡迎訪問:(需要翻墻哦)翻不了墻的小伙伴們,請嘗試如下鏈接:http://cvlab.hanyang.ac.kr/tracker_benchmark/文中提到的所有引用文章下載鏈接為:/s/1pKAJOtP致謝:本文主編袁基睿,誠摯感謝志愿者寧方鑫、賀嬌瑜、李珊如對本文進行了細致的整理工作。該文章屬于“深度學習大講堂”原創(chuàng),如需要轉載,請聯系astaryst。作者介紹:吳毅博士,南京審計大學“潤澤學者”。2004年至2009年在中國科學院自動化研究所模式識別國家重點實驗室學習,獲模式識別與智能系統(tǒng)專業(yè)博士學位。2006年11月至2008年1月曾在Intel中國研究中心進行訪問研究。2009年7月到南京信息工程大學參加工作。2010年5月至2012年6月曾在美國天普大學(TempleUniversity)進行博士后研究。2012年7月至2014年4月曾在美國加州大學默塞德分校(UniversityofCalifornia,Merced)進行博士后研究。目前主要從事計算機視覺、機器學習等方面
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 貴州中醫(yī)藥大學時珍學院《冶金工業(yè)概論》2023-2024學年第二學期期末試卷
- 海南健康管理職業(yè)技術學院《啤酒及飲料酒釀造工藝學》2023-2024學年第二學期期末試卷
- 樹木淘汰施工方案
- 2025年制冷與空調設備安裝修理考試題及答案
- 信息技術 第二冊(五年制高職)課件 8.2.1 庫、函數、變量、數據類型的基本概念
- 護理二線班匯報
- 2025屆西藏自治區(qū)日喀則市南木林高中高三3月份模擬考試化學試題含解析
- 志愿者行為規(guī)范
- 封神榜講解課件
- 第6章 三維標志設計
- 《中醫(yī)內科學總論》課件
- 2024年人教版初中數學八年級下冊 -平行四邊形的性質(第一課時)-1教案
- DB45T 2012-2019 太陽能路燈組成與配置規(guī)范
- 危險廢物事故防范措施及應急預案(4篇)
- 法務崗位招聘筆試題與參考答案(某大型國企)2025年
- 湖北大學知行學院《教育學》2022-2023學年第一學期期末試卷
- XXX醫(yī)院CT檢查報告單模板可編輯范本
- DB3502-T 141-2024 城市道路開口設置指引
- 工廠車間生產工藝培訓
- DB4202T 39-2024 城市橋梁與隧道運行監(jiān)測技術規(guī)范
- 2024年北京市中小學生航天知識競賽題庫165題及答案(高中)
評論
0/150
提交評論