多光照環(huán)境下的第一人稱手部檢測(cè)_第1頁(yè)
多光照環(huán)境下的第一人稱手部檢測(cè)_第2頁(yè)
多光照環(huán)境下的第一人稱手部檢測(cè)_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

作品名稱:多光照環(huán)境下的第一人稱手部檢測(cè)大類:自然科學(xué)類學(xué)術(shù)論文小類:信息技術(shù)簡(jiǎn)介:隨著谷歌眼鏡等第一人稱設(shè)備的相繼發(fā)布,在第一人稱設(shè)備上可以實(shí)現(xiàn)更多類似手眼協(xié)調(diào)交互,手持物體識(shí)別等應(yīng)用。而手部檢測(cè)在此類應(yīng)用中是一個(gè)基本問題。為了嘗試解決第一人稱攝像頭中進(jìn)行多光照下手部識(shí)別所遇到的挑戰(zhàn),我們?cè)谝恍┬碌暮退斯_的數(shù)據(jù)集上,分析了現(xiàn)有局域特征的有效性,指出在特征上進(jìn)行稀疏選擇,以及使用對(duì)全局光照進(jìn)行建模能有效提升算法的性能。詳細(xì)介紹:【摘要】在本文中我們考慮第一人稱攝像頭下的手部檢測(cè)問題。手部檢測(cè),在類似谷歌眼鏡或者是MIT第六感這樣的第一人稱設(shè)備的應(yīng)用中,是一個(gè)重要而基本的問題,是進(jìn)行人機(jī)交互,手持物體識(shí)別,手眼協(xié)調(diào)識(shí)別等應(yīng)用的必要條件。對(duì)比于傳統(tǒng)的手部識(shí)別方法,第一人稱攝像頭遇到了許多新的挑戰(zhàn),比如光照條件的改變,以及攝像機(jī)的快速運(yùn)動(dòng)和復(fù)雜的手部行為。為了嘗試解決這些新環(huán)境下的挑戰(zhàn),我們建立了一個(gè)標(biāo)定過的室內(nèi)/室外第一人稱手部識(shí)別數(shù)據(jù)集,包含2億個(gè)像素實(shí)例,覆蓋了各種不同光照環(huán)境下的手部照片。使用我們的數(shù)據(jù)集以及另一些公開的數(shù)據(jù)集,我們分析了現(xiàn)有局域特征的有效性。我們的分析指出在特征上進(jìn)行稀疏選擇,以及使用全局特征對(duì)全局光照進(jìn)行建模能夠有效提升算法的性能。更進(jìn)一步我們提出使用模型推薦系統(tǒng),在候選子模型中選取較好的模型來進(jìn)行檢測(cè),方法進(jìn)一步提升了整個(gè)流程的準(zhǔn)確率。我們發(fā)布的方法能夠顯著地超過現(xiàn)有的基準(zhǔn)算法?!竞?jiǎn)介】在本項(xiàng)目中我們主要致力于研究第一人稱攝像頭下的像素級(jí)手部檢測(cè)問題。第一人稱攝像頭是指由用戶佩戴在頭頂向前下方進(jìn)行拍攝的攝像頭。比較著名的例子是MIT在10年前提出的“第六感”,以及谷歌公司在最近提出的谷歌眼鏡設(shè)備,這些都是第一人稱的攝像設(shè)備。除此之外,許多大公司如微軟,NEC等,都在試圖研究類似的設(shè)備。在第一人稱攝像頭中,頭部與手部的交互是一個(gè)很重要的問題。在“第六感”的設(shè)計(jì)原型中,大量的應(yīng)用需要依賴手勢(shì)交互實(shí)現(xiàn),如利用手勢(shì)來控制攝像機(jī)的拍照功能。、但是在任意條件下進(jìn)行手勢(shì)識(shí)別是極為困難的,第六感的設(shè)計(jì)者試圖利用彩色指套來方便識(shí)別的過程,但這樣不僅問題沒有被得到良好的解決,能夠應(yīng)用的場(chǎng)景也受到了極大的限制。相比于第三人稱的攝像頭,例如監(jiān)控?cái)z像頭,或者電視游戲機(jī)攝像頭(Kinect);第一人稱攝像頭處在一個(gè)更為理想的交互視角,能夠更好地捕捉特定用戶的行為,來進(jìn)行一些特別的應(yīng)用例如分析用戶抓握的物體,或者進(jìn)行手眼協(xié)調(diào)的相關(guān)應(yīng)用。所以最近,第一人稱攝像頭的應(yīng)用成為一個(gè)非常流行的問題,有很多工作類似理解手眼協(xié)調(diào)和識(shí)別人類的日常生活行為在頂級(jí)的會(huì)議上被發(fā)表出來。為了更好的在這些應(yīng)用中獲得人類的行為,本文主要討論的是一個(gè)底層問題,即在第一人稱攝像頭中進(jìn)行像素級(jí)的手部檢驗(yàn)。手部檢驗(yàn)是一個(gè)重要而基本的問題,是一些應(yīng)用類似手勢(shì)識(shí)別,手部追蹤,抓取物體識(shí)別,人體運(yùn)動(dòng)識(shí)別和理解手部交互活動(dòng)的組成部分。對(duì)比于之前手部檢測(cè)類的工作,這個(gè)問題第一人稱攝像頭下?lián)碛性S多新的特性,也遇到許多新的挑戰(zhàn)。不同于經(jīng)常被用來進(jìn)行手勢(shì)識(shí)別或者肢體語言識(shí)別的第三人稱靜止的攝像頭,第一人稱攝像頭往往會(huì)遇到非常多的大移動(dòng),因?yàn)樗淮┐髟谟脩舻念^上。而這些移動(dòng)往往還會(huì)引起巨大的光照環(huán)境改變,例如當(dāng)用戶從室內(nèi)走到室外時(shí)。強(qiáng)烈的攝像機(jī)運(yùn)動(dòng)導(dǎo)致無法使用傳統(tǒng)的方法來應(yīng)用攝像頭配準(zhǔn)及背景剪除技術(shù)。同樣地,大的光照環(huán)境改變會(huì)引起圖片上提取到的底層特征出現(xiàn)較大的變化,影響手部檢測(cè)的性能。幸運(yùn)的是,第一人稱的攝像頭經(jīng)常被佩戴在一個(gè)特定的用戶身上,并且攝像機(jī)所處的“物理世界”往往是同一個(gè)用戶在有一定范圍限定的環(huán)境。這樣首先用戶膚色的“內(nèi)在顏色”就不會(huì)隨著時(shí)間所發(fā)生變化。在本文的工作中,致力于解決第一人稱攝像頭手部檢測(cè)所遇到的這些挑戰(zhàn)。我們發(fā)布了一個(gè)超過1000張標(biāo)定圖像的手部圖像數(shù)據(jù)集,數(shù)據(jù)集拍攝于不同的光照和背景環(huán)境。每張照片被作了像素集的分割標(biāo)定。因此數(shù)據(jù)集總共超過4億的像素樣本。使用這個(gè)數(shù)據(jù)集以及一些其他研究者發(fā)布的數(shù)據(jù)集,我們對(duì)較為常用的底層特征都進(jìn)行了測(cè)試。并且我們嘗試結(jié)合全局光照信息,利用集成學(xué)習(xí)或者說結(jié)構(gòu)化判斷的思想對(duì)手部檢驗(yàn)進(jìn)行提升。我們提出了一個(gè)基于稀疏特征選擇,以及依賴于全局特征的結(jié)構(gòu)化判斷方案并比較和超過了幾個(gè)常見的基準(zhǔn)方法。更進(jìn)一步,我們利用一個(gè)模型推薦系統(tǒng)對(duì)性能作了進(jìn)一步提升。基于全局信息或者是子模型之間的差異,推薦系統(tǒng)可以選出性能較好的子模型進(jìn)行手部檢驗(yàn)。我們將一種新型的動(dòng)態(tài)模型選擇方法應(yīng)用到了第一人稱的手勢(shì)識(shí)別中。這種方法可以有效地提升算法的運(yùn)行速度和性能?!鞠嚓P(guān)工作]】(1)手部檢測(cè)在這里我們回顧一下各種在移動(dòng)攝像頭中,進(jìn)行像素級(jí)手部檢驗(yàn)的工作。相關(guān)的工作可以被大致劃分類三類。1.利用局部特征進(jìn)行檢驗(yàn)。2.利用基于照片全局的信息進(jìn)行檢驗(yàn)。3.利用運(yùn)動(dòng)信息進(jìn)行檢驗(yàn)。(2)基于局部特征的方法在大多數(shù)情況下,對(duì)于手部識(shí)別來說,圖像局部的顏色信息是一個(gè)簡(jiǎn)單而又強(qiáng)的特征,是一種最為經(jīng)典的膚色檢驗(yàn)手段。Jones和Rehg最早提出利用混合高斯模型來對(duì)膚色與非膚色區(qū)域進(jìn)行建模。他們的方法被證明可以有效地在互聯(lián)網(wǎng)圖片上提取膚色的區(qū)域。顏色建模的方法還時(shí)常與跟蹤相結(jié)合來考慮動(dòng)態(tài)更新的膚色檢驗(yàn)問題。(3)基于全局匹配的方法全局的方法主要是利用模板匹配的方法,使用一個(gè)二維的樣例圖像來形成一個(gè)稀疏或稠密的模板數(shù)據(jù)庫(kù)進(jìn)行匹配或從一個(gè)3維的手部模型進(jìn)行二維投影進(jìn)行匹配。這些方法即使在手的一部分被遮擋的時(shí)候,還是能夠有效地對(duì)手進(jìn)行檢測(cè)。不過,如果需要支持對(duì)遮擋魯棒的檢測(cè),這個(gè)方法經(jīng)常要在一個(gè)非常大的空間進(jìn)行搜索,并且必須加載一個(gè)追蹤的方法來限制搜索的結(jié)果。(4)基于運(yùn)動(dòng)的方法之前也有一些工作針對(duì)利用運(yùn)動(dòng)信息來增強(qiáng)手部識(shí)別的性能。這些利用運(yùn)動(dòng)信息進(jìn)行手勢(shì)的識(shí)別工作,其主要優(yōu)勢(shì)是盡可能的與顏色信息無關(guān),因此能夠較好地適應(yīng)各種光照的變化。這些工作所利用的底層特征,往往需要提取一段時(shí)間內(nèi)稠密或者是稀疏的光流,再利用軌跡空間分解的方法,來分辨前景(手)與背景的運(yùn)動(dòng)。一個(gè)主要的問題是無論是稀疏還是稠密的光流,都需要較長(zhǎng)的時(shí)間來提取,并且這些方法往往無法直接處理靜止的前景,需要進(jìn)一步結(jié)合其他的方法來使用。傳統(tǒng)的手部檢驗(yàn)主要基于顏色信息,需要提前知道顏色的統(tǒng)計(jì)信息,不過優(yōu)勢(shì)是對(duì)運(yùn)動(dòng)有非常好的魯棒性。不過,皮膚所反射的顏色往往隨著環(huán)境的變化快速改變,一個(gè)簡(jiǎn)單的分類器往往不能適應(yīng)所有的情況。之前的工作發(fā)現(xiàn)可以利用一些動(dòng)態(tài)的模型來適應(yīng)皮膚顏色的變化\。不過這樣模型需要利用自己判斷的結(jié)果進(jìn)行學(xué)習(xí),往往在很多步之后出現(xiàn)漂移。在第一人稱攝像頭的相關(guān)應(yīng)用中,攝像頭是移動(dòng)并且不固定的(例如用戶會(huì)在室內(nèi)和室外行走)。所以在相應(yīng)的手勢(shì)交互應(yīng)用中,算法應(yīng)該能夠在一個(gè)非常廣泛的光照條件下進(jìn)行檢測(cè),并且對(duì)攝像機(jī)和物體的運(yùn)動(dòng)有很好的魯棒性。在本工作中,我們首先展示了可以使用一些已有的特征,在不同的光照條件下對(duì)手進(jìn)行檢測(cè)。然后,我們利用整張圖全局的直方圖作為一個(gè)全局特征,來尋找一個(gè)與待測(cè)試圖像光照環(huán)境相近環(huán)境下,訓(xùn)練出的手部檢驗(yàn)?zāi)P?。不過,因?yàn)閳D片的直方圖會(huì)同時(shí)受到光照環(huán)境,以及圖片內(nèi)容的影響。依靠直方圖來選擇模型的方法,很難推廣到一個(gè)同光照環(huán)境但是顯示的內(nèi)容非常不同的場(chǎng)景(例如手在一個(gè)訓(xùn)練集中沒有見過的室外環(huán)境,陽(yáng)光的色度和亮度基本相同),于是我們又提出了利用推薦系統(tǒng)來進(jìn)一步解決這個(gè)問題的方案。(5)推薦系統(tǒng)Matikainen等人等人在2012年發(fā)表了一個(gè)有關(guān)利用模型推薦系統(tǒng)來進(jìn)行運(yùn)動(dòng)識(shí)別的工作,這個(gè)工作說明了利用模型推薦可以有效地提升分類器的性能。并且在訓(xùn)練數(shù)據(jù)較為缺乏的情況下,可以利用跨數(shù)據(jù)庫(kù)的模型來提升性能。不過在他們的工作中,他們假設(shè)測(cè)試場(chǎng)景的分布是靜態(tài)的。而我們之前說過在第一人稱的手部檢測(cè)相關(guān)應(yīng)用中,場(chǎng)景不再是靜態(tài)的,而是會(huì)隨著用戶的移動(dòng)而發(fā)生改變。在本文中我們將提到一個(gè)不需要先驗(yàn)分類器來作為探針的模型推薦系統(tǒng),來嘗試解決這樣一個(gè)動(dòng)態(tài)場(chǎng)景下的分類問題。一個(gè)模型推薦問題,與經(jīng)典的監(jiān)督學(xué)習(xí)指出有所不同在于,分類器能夠更多擁有根據(jù)帶測(cè)試任務(wù)的輸入特征的分布改變自己參數(shù)的性能。類似的想法在近幾年的機(jī)器學(xué)習(xí)中成為一個(gè)重要的話題,很多統(tǒng)計(jì)學(xué)習(xí)的新框架都在討論這個(gè)問題,例如局域適應(yīng)學(xué)習(xí)(domainadaptation),轉(zhuǎn)換學(xué)習(xí)(transductivelearning),核密度估計(jì)(kerneldensityratioestima

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論