VALSE2017系列之四:目標(biāo)跟蹤領(lǐng)域進(jìn)展報(bào)告_第1頁(yè)
VALSE2017系列之四:目標(biāo)跟蹤領(lǐng)域進(jìn)展報(bào)告_第2頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

VALSE2017系列之四:目標(biāo)跟蹤領(lǐng)域進(jìn)展報(bào)告深度學(xué)習(xí)大講堂是由中科視拓運(yùn)營(yíng)的高質(zhì)量原創(chuàng)內(nèi)容平臺(tái),邀請(qǐng)學(xué)術(shù)界、工業(yè)界一線專家撰稿,致力于推送人工智能與深度學(xué)習(xí)最新技術(shù)、產(chǎn)品和活動(dòng)信息!編者按:目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)熱門研究方向,同時(shí)在產(chǎn)業(yè)界也具有廣闊的應(yīng)用前景。過(guò)去幾十年來(lái),目標(biāo)跟蹤方法經(jīng)歷了從卡爾曼濾波等經(jīng)典跟蹤方法,到基于檢測(cè)或相關(guān)濾波的方法,再到深度學(xué)習(xí)相關(guān)方法的演變歷程。作為目前廣泛使用的目標(biāo)跟蹤基準(zhǔn)研究平臺(tái)(TrackingBenchmark)的創(chuàng)建者,來(lái)自南京審計(jì)大學(xué)的吳毅老師將帶著大家回顧目標(biāo)跟蹤領(lǐng)域近幾年的研究進(jìn)展。大講堂特別在文末提供文中提到的所有文章以及該研究平臺(tái)的下載地址。目標(biāo)跟蹤就是在連續(xù)的視頻序列中,建立所要跟蹤物體的位置關(guān)系,得到物體完整的運(yùn)動(dòng)軌跡。在計(jì)算機(jī)視覺領(lǐng)域中,視覺跟蹤(VisualTracking)—般是指對(duì)單目標(biāo)進(jìn)行跟蹤:在第一幀圖像給定目標(biāo)的狀態(tài),一般是目標(biāo)的boundingbox信息,然后預(yù)測(cè)之后每幀圖像中目標(biāo)的狀態(tài),對(duì)應(yīng)的也是目標(biāo)的boundingbox信息。本文將從三個(gè)方面介紹視覺跟蹤領(lǐng)域最近的進(jìn)展:基于深度學(xué)習(xí)的目標(biāo)跟蹤研究進(jìn)展、基于相關(guān)濾波器的目標(biāo)跟蹤研究進(jìn)展、以及其他的方法介紹?;谏疃葘W(xué)習(xí)的目標(biāo)跟蹤較早運(yùn)用深度學(xué)習(xí)方法進(jìn)行目標(biāo)跟蹤的是王乃巖在NIPS2013的工作。當(dāng)時(shí)卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域還沒(méi)有完全開展起來(lái),當(dāng)時(shí)他們使用一種自動(dòng)編碼器,在100萬(wàn)張的32*32的圖像上離線訓(xùn)練目標(biāo)的表示,然后運(yùn)用到目標(biāo)跟蹤任務(wù)上。在2015年,王乃巖繼續(xù)將卷積神經(jīng)網(wǎng)絡(luò)運(yùn)用到目標(biāo)跟蹤任務(wù)中,采用卷積神經(jīng)網(wǎng)絡(luò)輸出50*50的heatmap來(lái)表示每個(gè)像素是否處于目標(biāo)之內(nèi)的概率。卷積神經(jīng)網(wǎng)絡(luò)模型運(yùn)用的是ImageNet數(shù)據(jù)集預(yù)訓(xùn)練的模型,然后在線進(jìn)行更新,跟蹤時(shí)運(yùn)用兩個(gè)卷積神經(jīng)網(wǎng)絡(luò),采用不同的更新策略。在OTB50數(shù)據(jù)集上,與傳統(tǒng)采用手工設(shè)計(jì)的方法相比較,該方法性能有了極大的提升。隨著深度學(xué)習(xí)的火熱,從2015年開始,利用深度學(xué)習(xí)進(jìn)行目標(biāo)跟蹤的研究工作越來(lái)越多。馬超在ICCV2015的工作是將卷積神經(jīng)網(wǎng)絡(luò)中不同層的特征圖結(jié)合起來(lái),在相關(guān)濾波框架下進(jìn)行跟蹤。在淺層的網(wǎng)絡(luò)中,空間的分辨率較高,但是特征的語(yǔ)義信息比較少;隨著卷積神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,從深層網(wǎng)絡(luò)提取的特征語(yǔ)義信息越來(lái)越豐富,但是空間的分辨率就會(huì)越低,不利于對(duì)目標(biāo)的定位。所以融合不同層的特征,有利于提高目標(biāo)跟蹤的精度。這是大連理工大學(xué)盧湖川老師在ICCV2015的工作,將全卷積網(wǎng)絡(luò)用在目標(biāo)跟蹤上,運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)不同層之間的特性,對(duì)網(wǎng)絡(luò)中不同層的特征進(jìn)行融合,提高了目標(biāo)跟蹤的性能該網(wǎng)絡(luò)在OTB50上取得了不錯(cuò)的結(jié)果。CVPR2016上提出的MDNet方法在多個(gè)數(shù)據(jù)集上都取得了非常好的結(jié)果,該網(wǎng)絡(luò)具備如下特點(diǎn):MDNet通過(guò)卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)性能很強(qiáng)的分類器,將目標(biāo)和背景分開。其網(wǎng)絡(luò)結(jié)構(gòu)輸出K個(gè)全連接層,對(duì)應(yīng)K個(gè)用來(lái)訓(xùn)練的序列。訓(xùn)練的時(shí)候每次選出一個(gè)序列,更新對(duì)應(yīng)的分支全連接層和內(nèi)部共享的隱含層。為了提高分類性能,該模型挖掘有難度的負(fù)樣本來(lái)構(gòu)造訓(xùn)練的minibatch。在跟蹤時(shí),采用邊框回歸來(lái)提高網(wǎng)絡(luò)的精度,定位時(shí)通過(guò)在上一幀采樣N個(gè)候選,然后將分類結(jié)果最好的一個(gè)候選作為目標(biāo)位置。該網(wǎng)絡(luò)的缺點(diǎn)是速度慢,在NVIDIATeslaK20GPU上速度是1幀/秒。雖然運(yùn)行時(shí)間慢,但是該網(wǎng)絡(luò)的精度非常高,在OTB50和OTB100上都取得了非常好的結(jié)果。近期美國(guó)天普大學(xué)凌海濱老師對(duì)MDNet模型進(jìn)行了改進(jìn),在網(wǎng)絡(luò)中采用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)目標(biāo)自身結(jié)構(gòu)進(jìn)行建模。該網(wǎng)絡(luò)在OTB100上取得了不錯(cuò)的跟蹤結(jié)果。孿生網(wǎng)絡(luò)CVPR2016上提出了一種通過(guò)相似性學(xué)習(xí)的方式進(jìn)行目標(biāo)跟蹤的孿生網(wǎng)絡(luò)。其最大的特點(diǎn)是,該方式訓(xùn)練好的網(wǎng)絡(luò)直接在跟蹤上使用,不需要更新。網(wǎng)絡(luò)同樣采用了不同層的特征融合和邊框回歸來(lái)提升目標(biāo)跟蹤的性能。該網(wǎng)絡(luò)也是取得了不錯(cuò)的結(jié)果。在ECCV2016上也有一篇采用孿生網(wǎng)絡(luò)的工作,與上一篇不同之處在于,這篇采用全卷積網(wǎng)絡(luò)。其優(yōu)勢(shì)在于:只需要一次前向操作,通過(guò)cross-correlationlayer就可以得到所有卷積區(qū)域的得分;對(duì)于搜索圖像也不要求必須和目標(biāo)的圖像大小一致。該網(wǎng)絡(luò)在VOT2015數(shù)據(jù)集上取得了不錯(cuò)的結(jié)果,由于采用了全卷積網(wǎng)絡(luò)的結(jié)構(gòu),和其他基于深度學(xué)習(xí)的方法相比,速度具有很大的優(yōu)勢(shì)。在ECCV2016上還有一個(gè)采用深度回歸網(wǎng)絡(luò)進(jìn)行目標(biāo)跟蹤的工作,與目標(biāo)檢測(cè)中基于回歸方法的卷積網(wǎng)絡(luò)有些類似,這個(gè)方法直接對(duì)目標(biāo)位置進(jìn)行回歸。與其他基于深度學(xué)習(xí)方法的目標(biāo)跟蹤相比,該方法具有如下特點(diǎn):由于直接對(duì)目標(biāo)位置進(jìn)行回歸,其速度上會(huì)有更大的優(yōu)勢(shì)。改變了其他方法提取第一幀的作為參考模型方式,而在前一幀的目標(biāo)位置提取參考模型,提取的目標(biāo)patch里還含有一定的背景context信息在線跟蹤的時(shí)候網(wǎng)絡(luò)模型不用進(jìn)行更新在訓(xùn)練的時(shí)候不僅采用了視頻輸入,同時(shí)還采用了靜態(tài)圖像輸入,圖像采用的是ImageNet檢測(cè)挑戰(zhàn)的數(shù)據(jù)集來(lái)進(jìn)行訓(xùn)練,因此特征提取更加細(xì)膩。與其他基于深度學(xué)習(xí)的方法相比,該模型主要的優(yōu)勢(shì)是速度快,在GTXTitanXGPU上運(yùn)行超過(guò)100幀/秒。最近發(fā)表的另外一些基于深度學(xué)習(xí)的目標(biāo)跟蹤工作,最下面的一篇是采用CNN和LSTM進(jìn)行結(jié)合的方式。這篇CVPR2010的工作最早將相關(guān)濾波器運(yùn)用在目標(biāo)跟蹤任務(wù)上,這個(gè)方法是從信號(hào)處理的角度來(lái)進(jìn)行推導(dǎo)的,叫誤差最小平方和濾波器(MOSSE)該方法最大的優(yōu)勢(shì)是可以采用快速傅里葉變換進(jìn)行計(jì)算,在目前主流的CPU上運(yùn)行速度應(yīng)該可以超過(guò)1000幀/秒。在ECCV2012的這篇論文是從機(jī)器學(xué)習(xí)的角度,利用循環(huán)矩陣進(jìn)行分析推導(dǎo),利用快速傅里葉變換進(jìn)行快速求解分類。從機(jī)器學(xué)習(xí)角度進(jìn)行分析的好處是可以采用kerneltrick來(lái)提高性能:kernel可以選擇不同的類型,比如高斯kernel、線性kernel等等。當(dāng)使用線性kernel的時(shí)候,就得到了前文提到的MOSSE。這是在CVPR2013benchmark工作上給出的性能分析,當(dāng)時(shí)就已經(jīng)發(fā)現(xiàn)基于相關(guān)濾波的目標(biāo)跟蹤很有潛力,速度非??欤阅芤膊诲e(cuò)。在性能最好的十個(gè)跟蹤方法中該方法最快,在速度上具有一個(gè)數(shù)量級(jí)的優(yōu)勢(shì)。從2014年開始,基于相關(guān)濾波的跟蹤研究方法成為目標(biāo)跟蹤的一個(gè)熱點(diǎn)。其中,來(lái)自瑞典的Martin做出一系列不錯(cuò)的工作。這里簡(jiǎn)要介紹一下Martin在ECCV2016和CVPR2017的兩個(gè)工作。傳統(tǒng)的相關(guān)濾波訓(xùn)練的時(shí)候,需要特征圖具有相同的分辨率。Martin在ECCV2016提岀了將不同空間分辨率特征進(jìn)行有效融合的方法,通過(guò)采用連續(xù)卷積操作,來(lái)進(jìn)行隱式的特征圖的插值計(jì)算,從而解決了針對(duì)不同分辨率特征圖的訓(xùn)練問(wèn)題。該方法在OTB100和Temple-Color都取得了非常好的結(jié)果。ECO是Martin最新的工作,該方法的創(chuàng)新點(diǎn)如下:之前方法學(xué)習(xí)到的濾波器往往比較稀疏、能量值低,針對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)輸出的特征,這些能量值低的濾波器對(duì)于目標(biāo)定位的作用不大。于是作者提出了一種降維的方法,使用較少的濾波器就可以獲得目標(biāo)跟蹤結(jié)果,這樣可以大大提高運(yùn)行速度。同時(shí)在訓(xùn)練樣本上,該模型也采用了一個(gè)更好的策略,保證了樣本的多樣性。該模型在OTB100上取得非常好的結(jié)果,相比MDnet而言,無(wú)論是精度還是速度都有了很大的提高。即使只采用傳統(tǒng)的視覺特征,也可以達(dá)到很好的性能。最后是另外的一些相關(guān)工作。我們知道一個(gè)好的數(shù)據(jù)集對(duì)某個(gè)方向上的研究具有極大的提升,比如ImageNet數(shù)據(jù)集對(duì)目標(biāo)分類、檢測(cè)任務(wù)有很大的貢獻(xiàn)。最近,目標(biāo)跟蹤領(lǐng)域又發(fā)表了一些數(shù)據(jù)集。比如說(shuō)在ECCV2016上的無(wú)人機(jī)航拍的數(shù)據(jù)集。這是吳毅老師最近和顏水成老師合作的NUS-PRO數(shù)據(jù)集。以及Google發(fā)布的YouTube-BoundingBoxes數(shù)據(jù)集,該數(shù)據(jù)集適用于在視頻的目標(biāo)檢測(cè)任務(wù)、以及目標(biāo)跟蹤算法的訓(xùn)練和測(cè)試。整個(gè)數(shù)據(jù)集有24萬(wàn)個(gè)視頻標(biāo)注了560萬(wàn)個(gè)boundingboxes。由于該數(shù)據(jù)集規(guī)模很大,將有利于目標(biāo)跟蹤的深度學(xué)習(xí)模型的訓(xùn)練。上圖為AAAI最佳論文,在目標(biāo)跟蹤上進(jìn)行了方法的驗(yàn)證。該工作用一個(gè)先驗(yàn)?zāi)P图s束神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),以減少對(duì)樣本量的需求。上圖列出了一些最近的其他目標(biāo)跟蹤工作,比如人眼跟蹤、人臉跟蹤以及行人跟蹤等等。最后,大講堂喜大普奔地告知各位小伙伴:吳老師的目標(biāo)跟蹤基準(zhǔn)研究平臺(tái)已經(jīng)開源,該研究平臺(tái)包含跟蹤測(cè)試數(shù)據(jù)集、一些經(jīng)典跟蹤方法的代碼以及跟蹤結(jié)果評(píng)測(cè)和可視化的代碼。歡迎訪問(wèn):(需要翻墻哦)翻不了墻的小伙伴們,請(qǐng)嘗試如下鏈接:http://cvlab.hanyang.ac.kr/tracker_benchmark/文中提到的所有引用文章下載鏈接為:/s/1pKAJOtP致謝:本文主編袁基睿,誠(chéng)摯感謝志愿者寧方鑫、賀嬌瑜、李珊如對(duì)本文進(jìn)行了細(xì)致的整理工作。該文章屬于“深度學(xué)習(xí)大講堂”原創(chuàng),如需要轉(zhuǎn)載,請(qǐng)聯(lián)系astaryst。作者介紹:吳毅博士,南京審計(jì)大學(xué)“潤(rùn)澤學(xué)者”。2004年至2009年在中國(guó)科學(xué)院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室學(xué)習(xí),獲模式識(shí)別與智能系統(tǒng)專業(yè)博士學(xué)位。2006年11月至2008年1月曾在Intel中國(guó)研究中心進(jìn)行訪問(wèn)研究。2009年7月到南京信息工程大學(xué)參加工作。2010年5月至2012年6月曾在美國(guó)天普大學(xué)(TempleUniversity)進(jìn)行博士后研究。2012年7月至2014年4月曾在美國(guó)加州大學(xué)默塞德分校(UniversityofCalifornia,Merced)進(jìn)行博士后研究。目前主要從事計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)等方面

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論