手勢(shì)識(shí)別技術(shù)綜述_第1頁(yè)
手勢(shì)識(shí)別技術(shù)綜述_第2頁(yè)
手勢(shì)識(shí)別技術(shù)綜述_第3頁(yè)
手勢(shì)識(shí)別技術(shù)綜述_第4頁(yè)
手勢(shì)識(shí)別技術(shù)綜述_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、手勢(shì)識(shí)別技術(shù)綜述作者單位:河北工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與軟件學(xué)院內(nèi)容摘要:手勢(shì)識(shí)別是屬于計(jì)算機(jī)科學(xué)與語(yǔ)言學(xué)的一個(gè)將人類手勢(shì)通過數(shù)學(xué)算法針對(duì)人們所要表達(dá)的意思進(jìn)行分析、判斷并整合的交互技術(shù)。一般來(lái)說,手勢(shì)識(shí)別技術(shù)并非針對(duì)單純的手勢(shì),還可以對(duì)其他肢體動(dòng)作進(jìn)行識(shí)別,比如頭部、胳臂等。但是這其中手勢(shì)占大多數(shù)。本文通過對(duì)手勢(shì)識(shí)別的發(fā)展過程、使用工具、目的與市場(chǎng)等進(jìn)行綜述,梳理出手勢(shì)識(shí)別發(fā)展的思路,讓讀者對(duì)手勢(shì)識(shí)別有一個(gè)總體上的認(rèn)識(shí),同時(shí)也可以讓讀者在此基礎(chǔ)上進(jìn)行合理想象,對(duì)手勢(shì)識(shí)別的未來(lái)有一個(gè)大體印象。Abstract:Gesture recognition is an interactive techno

2、logy using mathematical arithmetic to the analysis,judge and assembly meaning that people want to convey which belongs to computer science and Linguistics.In general, gesture recognition technology is not for simple gestures expressed by hands ,it can also aim to other body movement recognition, suc

3、h as the head, arm and so on. But the gesture accounted for most of the analysis. In this paper, by describing the development process, tools used , objective and market of gesture recognition , we can sort out the ideas of the development of gesture recognition, and let readers have an overall unde

4、rstanding of gesture recognition. At the same time, it can let the reader imagine that on hand gesture recognition based on reason ,and have a general impression of its future.1.定義說到手勢(shì)識(shí)別,首先要對(duì)手勢(shì)識(shí)別中的手勢(shì)有一個(gè)清晰的認(rèn)知。手勢(shì)在不同的學(xué)科中有不同含義,而在交互設(shè)計(jì)方面,手勢(shì)與依賴鼠標(biāo)、鍵盤等進(jìn)行操控的區(qū)別是顯而易見的,那就是手勢(shì)是人們更樂意接受的、舒適而受交互設(shè)備限制小的方式,而且手勢(shì)可供挖掘的信息遠(yuǎn)比

5、依賴鍵盤鼠標(biāo)的交互模式多。在學(xué)術(shù)界,人們?cè)噲D對(duì)手勢(shì)定義一個(gè)抽象、明確而簡(jiǎn)潔的概念以為手勢(shì)及其應(yīng)用的研究提供依據(jù)。1990年Eric Hulteen和Gord Kurtenbach曾發(fā)表的題為“Gestures in Human-Computer Communication”中定義:“手勢(shì)為身體運(yùn)動(dòng)的一部分,它包括一部分信息,而且是一種能被觀察到的有意義的運(yùn)動(dòng)。揮手道別是一種手勢(shì),而敲擊鍵盤不是一種手勢(shì),因?yàn)槭种傅倪\(yùn)動(dòng)沒有被觀察,也不重要,它只表示鍵盤被按下這一動(dòng)作?!睆亩x上講,手勢(shì)識(shí)別是一種利用數(shù)學(xué)算法,包括計(jì)算機(jī)圖形學(xué),輔以攝像頭、數(shù)據(jù)手套等輸入工具,針對(duì)收集到的信息,比如手掌、手指各關(guān)節(jié)

6、的方位、角度等進(jìn)行判斷、分析并作出正確回復(fù)的技術(shù)。許多測(cè)試品已開始使用三維手勢(shì)識(shí)別來(lái)提升準(zhǔn)確率及反應(yīng)速度。但是,分析手勢(shì)的特點(diǎn),回顧手勢(shì)識(shí)別的發(fā)展歷史,可以更好地把握其發(fā)展脈絡(luò),從而對(duì)未來(lái)手勢(shì)識(shí)別的潛力與可能方向做出基本判斷。2.發(fā)展過程手勢(shì)是任意的,手不同部位的方向、角度及彎曲程度等的不同信息可能會(huì)有實(shí)際意義上的天壤之別。所以手勢(shì)識(shí)別應(yīng)該基于用戶與程序、設(shè)備之間的約定。針對(duì)手勢(shì)的任意性,最初的手勢(shì)識(shí)別主要使用各種與手及手臂通過直接的接觸式有線機(jī)器設(shè)備進(jìn)行數(shù)據(jù)采集。它可以直接檢測(cè)諸如手指、關(guān)節(jié)及手臂的方位、角度等。典型的設(shè)備有數(shù)據(jù)手套等。通過內(nèi)含許多傳感器的數(shù)據(jù)手套,可以十分精確地獲取手勢(shì)識(shí)別

7、所需的各種信息,此外其反應(yīng)速度、識(shí)別準(zhǔn)確度、穩(wěn)定性也得到了保障。但是該設(shè)備在實(shí)際中的造價(jià)比較高昂,更重要的是會(huì)對(duì)手的靈活性有一定限制,因而沒有得到有效推廣。此后推出的穿戴式光學(xué)標(biāo)記可通過紅外線將手指及手掌變化傳輸?shù)狡聊簧希脖3至藬?shù)據(jù)手套的優(yōu)點(diǎn)。該設(shè)備雖減輕了重量,提高了手部的靈活性,但是仍需較復(fù)雜的輸入輸出轉(zhuǎn)換設(shè)備,此外也會(huì)對(duì)手部動(dòng)作的自然性產(chǎn)生影響?!?】基于視覺的手勢(shì)識(shí)別技術(shù)能夠使手部動(dòng)作的表達(dá)更加自然,同時(shí)也可以為未來(lái)其他的肢體識(shí)別技術(shù)所應(yīng)用,因此成為了主流。手型模型是通過計(jì)算機(jī)圖形學(xué)對(duì)二維的手勢(shì)圖像屬性,如手的顏色、紋理、邊界、輪廓等進(jìn)行分析?!?】該方法主要使用三種組件:探測(cè)組件、

8、運(yùn)動(dòng)軌跡組件、識(shí)別組件?!?】探測(cè)組件負(fù)責(zé)有針對(duì)性地收集有特點(diǎn)的視覺信號(hào)并將手勢(shì)信號(hào)整理成碼。運(yùn)動(dòng)軌跡組件負(fù)責(zé)實(shí)時(shí)定位,雖然它對(duì)于只需靜態(tài)手勢(shì)的設(shè)備并不是必要的組件,但是其可以優(yōu)化手部中各部位的運(yùn)動(dòng)曲線,提升設(shè)備精度?;谝曈X的手勢(shì)識(shí)別按手勢(shì)的動(dòng)態(tài)特點(diǎn)可以分為靜態(tài)的與動(dòng)態(tài)的兩種,靜態(tài)手勢(shì)識(shí)別針對(duì)單個(gè)手型,主要包括手勢(shì)分割及手勢(shì)識(shí)別兩部分,前者是后者的基礎(chǔ)。【3】靜態(tài)手勢(shì)識(shí)別方法難以識(shí)別區(qū)分度較小的手勢(shì)、實(shí)時(shí)性差,因此向動(dòng)態(tài)手勢(shì)識(shí)別過渡已經(jīng)成為一種趨勢(shì)?!?】大部分手勢(shì)識(shí)別應(yīng)用是將每個(gè)手勢(shì)作為一個(gè)整體,之后通過計(jì)算相似度來(lái)進(jìn)行模式匹配。這種方法顯而易見的缺點(diǎn)是只有當(dāng)收集到的數(shù)據(jù)與預(yù)設(shè)模型的相似程

9、度很高時(shí)才會(huì)比較準(zhǔn)確,另外對(duì)于某些比較相似的手勢(shì)區(qū)分效果不好?!?】3.研究方法 目前常用的手勢(shì)識(shí)別研究方法主要有以下幾種:(1)基于人工神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別神經(jīng)網(wǎng)絡(luò)基于統(tǒng)計(jì)和概率學(xué)方法的組織和判斷具有抗干擾、自學(xué)習(xí)、易控制和處理高效的特點(diǎn),可用于處理信息缺失的模式并進(jìn)行模式推廣。如果整個(gè)神經(jīng)網(wǎng)絡(luò)包括的全部神經(jīng)元都是時(shí)空效能好的算法,那就可以判斷手勢(shì)細(xì)微部分的運(yùn)動(dòng)。但人工神經(jīng)網(wǎng)絡(luò)對(duì)時(shí)間序列處理能力不強(qiáng)。在靜態(tài)手勢(shì)的識(shí)別中應(yīng)用較多,動(dòng)態(tài)手勢(shì)識(shí)別中幾乎沒有應(yīng)用。此外,盡管對(duì)神經(jīng)網(wǎng)絡(luò)的相關(guān)研究及應(yīng)用已經(jīng)有了幾十年,但是該方法本身的復(fù)雜性使成功構(gòu)建一個(gè)效果良好的神經(jīng)網(wǎng)絡(luò)對(duì)大多數(shù)人比較困難?!?】(2)基

10、于隱馬爾可夫模型的手勢(shì)識(shí)別隱馬爾可夫模型是一種能細(xì)致描述信號(hào)的時(shí)空變化統(tǒng)計(jì)分析模型,適用于動(dòng)態(tài)手勢(shì)的識(shí)別。由于其分析復(fù)雜,計(jì)算量大,速度慢,故而大多采用離散馬爾可夫模型。(3)基于幾何特征的手勢(shì)識(shí)別,包括手勢(shì)分割法與幾何特征法手勢(shì)分割包括2種方法:?jiǎn)文恳曈X和立體視覺。基于單目視覺的方法又分為基于徒手的表觀特征(膚色,輪廓);人為增加限制,如要求使用者戴上有色手套及各種光學(xué)標(biāo)識(shí);建立數(shù)據(jù)庫(kù)的方法?!?2】手勢(shì)的幾何特征指手勢(shì)的邊緣(如輪廓)和手勢(shì)區(qū)域特征(如手掌顏色、面積)。【4】基于幾何特征的手勢(shì)識(shí)別技術(shù),大多采用各種距離公式進(jìn)行模板匹配,如量度度量空間中真子集之間距離的Hausdorff距離

11、等。幾何特征識(shí)別方法主要有3種: 模板匹配法(自動(dòng)提取每一幀特征圖像與模板庫(kù)匹配后識(shí)別手勢(shì),多用于靜態(tài)手勢(shì)識(shí)別);神經(jīng)網(wǎng)絡(luò)法,統(tǒng)計(jì)分析法(如隱馬爾可夫模型法HMM)等。動(dòng)態(tài)手勢(shì)識(shí)別的算法比較復(fù)雜。除了進(jìn)行手勢(shì)識(shí)別的算法外,還需要其他輔助算法及過程。某些具有手部整體運(yùn)動(dòng)軌跡的手勢(shì)可以是肢體動(dòng)作的一部分,比如揮手、打招呼等。這些手勢(shì)識(shí)別需要準(zhǔn)確地從手腕部對(duì)手勢(shì)及手臂進(jìn)行識(shí)別并分割。此外,在動(dòng)態(tài)手勢(shì)識(shí)別中還需同時(shí)進(jìn)行方位定位及識(shí)別工作,其核心是動(dòng)態(tài)時(shí)間空間躍遷算法(DSTW),一種可以在時(shí)間空間成對(duì)排列搜索請(qǐng)求及模型手勢(shì)的算法?!?1】此外,涉及隨機(jī)信號(hào)及過程的光譜分析法已經(jīng)在大量科學(xué)學(xué)科中使用了幾

12、十年,盡管隨機(jī)性會(huì)給時(shí)間域特性分析帶來(lái)困難,像特征值及頻率仍然是有價(jià)值的光譜信息。傅里葉分析是頻率域光譜分析的常見方法。【8】盡管存在諸多的方法,而且手勢(shì)識(shí)別仍在不斷發(fā)展中,但是手勢(shì)識(shí)別本身的特點(diǎn)在某些方面成為了障礙。與人臉識(shí)別最顯著的區(qū)別是,基于圖像的手勢(shì)識(shí)別與人臉識(shí)別雖然都是根據(jù)二維圖像,但是手部沒有類似人臉那樣豐富的可以標(biāo)記及區(qū)分的數(shù)據(jù)特征對(duì)象。人臉的表情豐富,可以作為理想的數(shù)據(jù)庫(kù)。典型的人臉切爾諾夫模型擁有18個(gè)變量,而自1973年來(lái)經(jīng)過幾十年的發(fā)展,面部特征又得到了豐富,非對(duì)稱的切爾諾夫臉可顯示多達(dá)36維的臉部特征。手部的特征明顯要少得多,基本上就是各關(guān)節(jié)、手掌的坐標(biāo),指尖的朝向等。

13、而且臉部特征基本上是在一個(gè)平面上的,沒有旋轉(zhuǎn)特征,臉部的自由度小。手部在手勢(shì)定位及旋轉(zhuǎn)上至少需要6維信息,包括手部的三維坐標(biāo)及三維方向。而完全對(duì)手勢(shì)進(jìn)行分辨需要超過20個(gè)的自由度變量,這使得手勢(shì)的甄別十分復(fù)雜。4. 當(dāng)前的應(yīng)用 (1)用于虛擬環(huán)境的交互手勢(shì)識(shí)別可以用于虛擬制造和虛擬裝配、產(chǎn)品設(shè)計(jì)等。虛擬裝配通過手的運(yùn)動(dòng)直接進(jìn)行零件的裝配,同時(shí)通過手勢(shì)與語(yǔ)音的合成來(lái)靈活的定義零件之間的裝配關(guān)系。還可以將手勢(shì)識(shí)別用于復(fù)雜設(shè)計(jì)信息的輸入?!?】 (2)用于手語(yǔ)識(shí)別。手語(yǔ)是聾啞人使用的語(yǔ)言,是由手型動(dòng)作輔之以表情姿勢(shì)由符號(hào)構(gòu)成的比較穩(wěn)定的表達(dá)系統(tǒng),是一種靠動(dòng)作視覺交際的語(yǔ)言。手語(yǔ)識(shí)別的研究目標(biāo)是讓機(jī)器

14、“看懂”聾人的語(yǔ)言。手語(yǔ)識(shí)別和手語(yǔ)合成相結(jié)合,構(gòu)成一個(gè)“人2機(jī)手語(yǔ)翻譯系統(tǒng)”,便于聾人與周圍環(huán)境的交流。手語(yǔ)識(shí)別同樣分為基于數(shù)據(jù)手套的和基于視覺的手語(yǔ)識(shí)別兩種。基于DGMM的中國(guó)手語(yǔ)識(shí)別系統(tǒng)選取Cyberglove型號(hào)數(shù)據(jù)手套作為手語(yǔ)輸入設(shè)備,采用了動(dòng)態(tài)高斯混合模型DGMM(DynamicGaussianMixtureModel)作為系統(tǒng)的識(shí)別技術(shù),可識(shí)別中國(guó)手語(yǔ)字典中的274個(gè)詞條,識(shí)別率為98.2%?!?】 (3)用于多通道、多媒體用戶界面。正如鼠標(biāo)沒有取代鍵盤,手勢(shì)輸入也不能取代鍵盤、鼠標(biāo)等傳統(tǒng)交互設(shè)備,這一方面由于手勢(shì)識(shí)別的設(shè)備和技術(shù)問題,另一方面也由于手勢(shì)固有的多義性、多樣性、差異性

15、、不精確性等特點(diǎn)。手勢(shì)識(shí)別要想取得比較高的識(shí)別率,仍有很長(zhǎng)的路要走。手勢(shì)輸入在人機(jī)交互中應(yīng)用的精髓不在于用來(lái)獨(dú)立地用作空間指點(diǎn),而是為語(yǔ)言、視線、唇語(yǔ)等交互手段通道提供空間的或其他的約束信息,以消除在單通道輸入時(shí)存在的歧義。這種做法是試圖以充分性取代精確性。 (4)用于機(jī)器人機(jī)械手的抓取機(jī)器人機(jī)械手的自然抓取一直是機(jī)器人研究領(lǐng)域的難點(diǎn)。手勢(shì)識(shí)別,尤其是基于數(shù)據(jù)手套的手勢(shì)識(shí)別的研究對(duì)克服這個(gè)問題有重要的意義,是手勢(shì)識(shí)別的重要應(yīng)用領(lǐng)域之一。5.前景提供一個(gè)自然而且有效的人機(jī)交互界面始終是人機(jī)交互研究的目的?!?】 那么手勢(shì)識(shí)別以后的發(fā)展也要圍繞這一點(diǎn)。在未來(lái)的發(fā)展中,口語(yǔ)、手勢(shì)和人臉在虛擬環(huán)境中的

16、互補(bǔ)是必要的。因?yàn)槭中斡袃煞N建模方式:基于三維的建模和基于圖像的建模。【4】 基于三維的建模有強(qiáng)大的表達(dá)能力,幾乎能夠表達(dá)所有的手形,但是缺乏效率。而后者簡(jiǎn)單高效,但是缺乏通用性。手勢(shì)由一段時(shí)間內(nèi)的一系列手形組成。手勢(shì)的分解和分類是手勢(shì)識(shí)別的兩個(gè)重要問題。在多用戶虛擬環(huán)境中,人臉又可以作為區(qū)分用戶的屬性。只有綜合利用他們,才能在人機(jī)交互系統(tǒng)中產(chǎn)生深遠(yuǎn)的影響。 然而在手勢(shì)識(shí)別的發(fā)展中還有以下幾個(gè)難點(diǎn):現(xiàn)有的手勢(shì)識(shí)別方法的局限性:?jiǎn)我活伾蜢o態(tài)背景;干凈的膚色分割;手腕的界定;手動(dòng)初始化?!?0】到目前為止,大多數(shù)研究都集中在靜態(tài)手勢(shì)識(shí)別技術(shù),而我們不僅要對(duì)手勢(shì)進(jìn)行跟蹤,還要進(jìn)行識(shí)別,其計(jì)算工作量

17、很大且速度慢,不能用于實(shí)時(shí)識(shí)別系統(tǒng)。當(dāng)前阻止我們進(jìn)行實(shí)時(shí)識(shí)別的難點(diǎn)有手勢(shì)目標(biāo)檢測(cè)困難手勢(shì)目標(biāo)識(shí)別困難。當(dāng)前還未能找到解決問題的理想方法,針對(duì)具體的某一系統(tǒng),在實(shí)現(xiàn)時(shí)要假設(shè)一定的限制條件,以達(dá)到較好的識(shí)別效果。雖然有許多許多的困難,但是現(xiàn)在全世界已有不少工作者投入到手勢(shì)識(shí)別這項(xiàng)研究中,例如:美國(guó)的麻省理工學(xué)院,喬治理工學(xué)院,加州圣何塞公司等。如上所言,這項(xiàng)研究肯定有許多的難點(diǎn)問題需要去思考,去克服。在他發(fā)展的道路上, 我認(rèn)為分析師拉茲羅所言的:“無(wú)論何時(shí),如果你想引進(jìn)一種新的用戶界面,他是否簡(jiǎn)單和容易操作總是成敗的關(guān)鍵。當(dāng)年鼠標(biāo)問世時(shí)也不是一下子就得到了大眾的接受?!狈浅_m合此處。 所以無(wú)論是學(xué)

18、生還是公司,只要堅(jiān)持對(duì)該系統(tǒng)的研究, 必然會(huì)獲得成功。目前多個(gè)科技公司都紛紛推出了自己的手勢(shì)識(shí)別產(chǎn)品或申請(qǐng)專利。2012年,Leap Motion 橫空出世。作為一種繼Kinect之后又一款革命性的交互產(chǎn)品,它只需將其用USB連接到電腦上,便可以準(zhǔn)確識(shí)別出來(lái)顯示器前方的動(dòng)作。2016年4月,蘋果公司獲得了來(lái)自美國(guó)專利商標(biāo)局一項(xiàng)新專利的批準(zhǔn)。通過Apple Watch上多種傳感器的檢測(cè),iPhone可轉(zhuǎn)化成文字或語(yǔ)音消息,實(shí)現(xiàn)忽略來(lái)電、靜音等功能。此外,2016年4月2日公布的三星公司為VR研發(fā)的新傳感器允許用戶凌空操作VR應(yīng)用,可以通過虛擬現(xiàn)實(shí)世界中瞄準(zhǔn)線實(shí)現(xiàn)菜單、圖標(biāo)、照片、視頻等的點(diǎn)擊運(yùn)行

19、,而完全不需要使用到設(shè)備上的任何真實(shí)按鈕。參考文獻(xiàn):【1】任雅祥,基于手勢(shì)識(shí)別的人機(jī)交互發(fā)展研究,計(jì)算機(jī)工程與設(shè)計(jì)27卷 第七期【2】武霞、張崎、許艷旭,手勢(shì)識(shí)別發(fā)展現(xiàn)狀綜述,電子科技2013年26卷6期【3】楊波、宋曉娜、馮志全,復(fù)雜背景下基于空間分布特征的手勢(shì)識(shí)別算法,計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào)2010.10 第22卷第10期【4】馮志全、蔣彥,手勢(shì)識(shí)別研究綜述,濟(jì)南大學(xué)學(xué)報(bào)(自然科學(xué)版)2013年10月 第27卷第4期【6】Hong Cheng,Zhoujun Dai,Zicheng Liu,<An image-to-class dynamic time warping appro

20、ach for both 3D static and trajectory hand gesture recognition >,<Pattern Recognition>55(2016)137147)【7】Shweta K.Yewale,Pankaj K.Bharne,<Artificial Neutral Network Approach for Hand Gesture Recognition>,<International Journal of Engineering Science and Technology> Vol.3 No.4 April 2011【8】Ali Boyali,Naohisa Hashimoto,<Spectral Collaborative Representation

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論