人機(jī)交互第4章交互技術(shù)_第1頁
人機(jī)交互第4章交互技術(shù)_第2頁
人機(jī)交互第4章交互技術(shù)_第3頁
人機(jī)交互第4章交互技術(shù)_第4頁
人機(jī)交互第4章交互技術(shù)_第5頁
已閱讀5頁,還剩89頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、 第第4 4章章 交互技術(shù)交互技術(shù) 人機(jī)交互輸入模式基本交互技術(shù)圖形交互技術(shù)多通道交互技術(shù)內(nèi)容摘要 由于輸入設(shè)備是多種多樣的,而且對一個應(yīng)用程序而言,可以有多個輸入設(shè)備,同一個設(shè)備又可能為多個任務(wù)服務(wù),這就要求對輸入過程的處理要有合理的模式。請求模式(Request Mode)采樣模式(Sample Mode)事件模式(Event Mode)4.1 人機(jī)交互輸入模式 請求模式 在請求模式下,輸入設(shè)備的啟動是在應(yīng)用程序中設(shè)置的。應(yīng)用程序執(zhí)行過程中需要輸入數(shù)據(jù)時,暫停程序的執(zhí)行,直到從輸入設(shè)備接受到請求的輸入數(shù)據(jù)后,才繼續(xù)執(zhí)行程序。程序工作,輸入設(shè)備等待程序請求遇到請求指令輸入設(shè)備工作,程序等待接

2、收數(shù)據(jù)請求滿足圖4-1 請求模式的工作過程 采樣模式 輸入設(shè)備和應(yīng)用程序獨立地工作。輸入設(shè)備連續(xù)不斷地把信息輸入進(jìn)來,信息的輸入和應(yīng)用程序中的輸入命令無關(guān)。應(yīng)用程序在處理其它數(shù)據(jù)的同時,輸入設(shè)備也在工作,新的輸入數(shù)據(jù)替換以前的輸入數(shù)據(jù)。當(dāng)應(yīng)用程序遇到取樣命令時,讀取當(dāng)前保存的輸入設(shè)備數(shù)據(jù)。 優(yōu)點:這種模式對連續(xù)的信息流輸入比較方便,也可同時處理多個輸入設(shè)備的輸入信息。 缺點:當(dāng)應(yīng)用程序的處理時間較長時,可能會失掉某些輸入信息。程序工作數(shù)據(jù)采樣數(shù)據(jù)生成數(shù)據(jù)緩存區(qū)輸入設(shè)備工作圖4-2 采樣模式的工作過程 事件模式 輸入設(shè)備和程序并行工作。輸入設(shè)備把數(shù)據(jù)保存到一個輸入隊列,也稱為事件隊列,所有的輸入

3、數(shù)據(jù)都保存起來,不會遺失。應(yīng)用程序隨時可以檢查這個事件隊列,處理隊列中的事件,或刪除隊列中的事件。應(yīng)用程序事件檢查事件調(diào)用過程模塊處理類型1事件的過程處理類型n事件的過程輸入設(shè)備圖4-3 事件模式在交互設(shè)計時,將用戶的輸入抽象成一些獨立的、基本的邏輯輸入單元,這些抽象的邏輯輸入單元稱為輸入原語,由這些基本輸入原語可以形成復(fù)雜的交互。定位筆劃定值選擇字符串輸入4.2 基本交互技術(shù)定位確定平面或空間的一個點的坐標(biāo),是交互中最基本的輸入技術(shù)之一。直接定位:用定位設(shè)備直接指定某個對象的位置,是一種精確定位方式。間接定位:通過定位設(shè)備的運動控制屏幕上的映射光標(biāo)進(jìn)行定位,是一種非精確定位方式。其允許指定的

4、點位于一個坐標(biāo)范圍內(nèi),一般用鼠標(biāo)等指點設(shè)備配合光標(biāo)來實現(xiàn)。 3DS Max中的精確定位 筆劃 筆劃輸入用于輸入一組順序的坐標(biāo)點。它相當(dāng)于多次調(diào)用定位輸入,輸入的一組點常用于顯示折線或作為曲線的控制點。定值 定值(或數(shù)值)輸入用于設(shè)置物體旋轉(zhuǎn)角度、縮放比例因子等選擇 選擇是在某個選擇集中選出一個元素,通過注視、指點或接觸一個對象,使對象成為后續(xù)行為的焦點,是操作對象時不可缺少的一部分。選擇字符串 鍵盤是目前輸入字符串最常用的方式。幾何約束引力場拖動橡皮筋技術(shù)操作柄技術(shù)三維交互技術(shù)4.3 圖形交互技術(shù)圖形交互技術(shù)u幾何約束 幾何約束可以用于對圖形的方向、對齊方式等進(jìn)行規(guī)定和校準(zhǔn)。 對定位的約束(網(wǎng)

5、格吸附) Adobe Photoshop 網(wǎng)格線 幾何約束 方向約束例如要繪的垂直或水平方向的線,當(dāng)給定的起點和終點連線和水平線的交角小于45時,便可繪出一條水平線,否則就繪垂直線。繪制印刷線路板、管網(wǎng)圖或地籍圖時非常有用。在Word繪圖中,通過鎖定縱橫比,在拖動線段一個端點時,線段只是沿原來方向放縮u引力場 引力場也可以看作是一種定位約束,通過在特定圖素(如直線段)周圍假想有一個區(qū)域,當(dāng)光標(biāo)中心落在這個區(qū)域內(nèi)時,就自動地被直線上最近的一個點所代替,就好像一個質(zhì)點進(jìn)入了直線周圍的引力場,被吸引到這條直線上去一樣。 引力場的大小要適中,太小了不易進(jìn)入引力區(qū),太大了線和線的引力區(qū)相交,光標(biāo)在進(jìn)入引

6、力區(qū)相交部分時可能會被吸引到不希望選的線段上去,增大誤接的概率。 u拖動 要把一個對象移動到一個新的位置時,如果我們不是簡單地用光標(biāo)指定新位置的一個點,而是當(dāng)光標(biāo)移動時拖動著被移動的對象,這樣會使用戶感到更直觀,并可使對象放置的位置更恰當(dāng)。 圖形模式和圖像模式u橡皮筋技術(shù) 被拖動對象的形狀和位置隨著光標(biāo)位置的不同而變化。 不斷地進(jìn)行畫圖擦除畫圖的過程u操作柄技術(shù) 可以用來對圖形對象進(jìn)行縮放、旋轉(zhuǎn)、錯切等幾何變換。先選擇要處理的圖形對象,該圖形對象的周圍會出現(xiàn)操作柄,移動或旋轉(zhuǎn)操作柄就可以實現(xiàn)相應(yīng)的變換。u三維交互技術(shù) 面臨問題三維交互技術(shù)采用六自由度輸入設(shè)備。所謂六自由度,指沿三維空間X、Y、

7、Z軸平移和繞X、Y、Z軸旋轉(zhuǎn),而現(xiàn)在流行的用于桌面型圖形界面的交互設(shè)備,如鼠標(biāo)、軌跡球、觸摸屏等只有兩個自由度(沿平面X、Y軸平移)。窗口、菜單、圖符和傳統(tǒng)的二維光標(biāo)在三維交互環(huán)境中會破壞空間感,用戶難以區(qū)分屏幕上光標(biāo)選擇到對象的深度值和其他顯示對象的深度值,使交互過程非常不自然。u三維交互技術(shù) 直接操作三維光標(biāo)必須有深度感,即必須考慮光標(biāo)與觀察者距離,離觀察者近的時候較大,離觀察者遠(yuǎn)的時候較小。為保持三維用戶界面的空間感,光標(biāo)在遇到物體時不能進(jìn)入到或穿過物體內(nèi)部。為了增加額外的深度線索,輔助三維對象的選擇,可以采用半透明三維光標(biāo)。三維光標(biāo)可以是人手的三維模型u三維交互技術(shù) 三維Widgets

8、 三維交互界面中的一些小工具 三維空間中漂浮的菜單、用于拾取物體的手的三維圖標(biāo)、平移和旋轉(zhuǎn)指示器等。 1992年美國Brown大學(xué)計算機(jī)系提出三維Widget設(shè)計原則 三維Widget的幾何形狀應(yīng)能表示其用途(eg:一個用來扭曲物體的Widget,最好本身就是一個扭曲的物體) 適當(dāng)選擇Widget控制的自由度由于三維空間有六個自由度,有時會使三維交互操作變得過于復(fù)雜,因此在用戶使用某種Widget時,可以固定或者自動計算某些自由度的值 根據(jù)三維用戶界面的用途確定Widget的功能。例如,用于藝術(shù)和娛樂的三維用戶界面的Widget,只要能夠完成使畫面看起來像的操作就可以了,而用于工業(yè)設(shè)計和制造的

9、用戶界面,則必須保證交互操作參數(shù)的精確性。u三維交互技術(shù) 三視圖輸入用二維輸入設(shè)備在一定程度上實現(xiàn)三維的輸入。 如果輸入一個三維點,只要在兩個視圖上把點的對應(yīng)位置指定后便唯一確定了三維空間中的一個點; 把直線段上兩端點在三視圖上輸入后便可決定三維空間的一條直線; 把一個面上的各頂點在三視圖上輸入后,也唯一確定了三維空間中的一個面; 如果把一個多面體上的各面均用上述方法輸入, 也就在三維空間中輸入了一個多面體。為適應(yīng)目前和未來的計算機(jī)系統(tǒng)要求,人機(jī)界面應(yīng)能支持時變媒體(time-varing media),實現(xiàn)三維、非精確及隱含的人機(jī)交互,而多通道人機(jī)界面是達(dá)到這一目的的重要途徑。80年代后期以

10、來,多通道用戶界面(Multimodal User Interface)成為人機(jī)交互技術(shù)研究的嶄新領(lǐng)域,在國內(nèi)外受到高度重視。為了消除當(dāng)前WIMP/GUI 用戶界面通信帶寬不平衡的瓶頸,綜合采用視線、語音、手勢等新的交互通道、設(shè)備和交互技術(shù),使用戶利用多個通道以自然、并行、協(xié)作的方式進(jìn)行人機(jī)對話,通過整合來自多個通道的、精確的和不精確的輸入來捕捉用戶的交互意圖,提高人機(jī)交互的自然性和高效性多通道人機(jī)界面概念模型 主要解決科學(xué)計算可視化、虛擬現(xiàn)實對計算機(jī)系統(tǒng)提出的高效、三維和非精確的人機(jī)交互要求。用戶可以使用自然的交互方式,如語音、手勢、眼神、表情等與計算機(jī)系統(tǒng)進(jìn)行協(xié)同工作。交互通道之間有串行/

11、并行、互補(bǔ)/獨立等多種關(guān)系,因此人機(jī)交互方式向人與人的交互方式靠攏,交互的自然性和高效性得到極大的提高。4.4 多通道交互技術(shù) 多通道用戶界面主要關(guān)注人機(jī)界面中用戶向計算機(jī)輸入信息以及計算機(jī)對用戶意圖的理解,所要達(dá)到的目標(biāo)可歸納為如下方面:(1)交互的自然性q使用戶盡可能多地利用已有的日常技能與計算機(jī)交互,降低認(rèn)識負(fù)荷。(2)交互的高效性q使人機(jī)通訊信息交換吞吐量更大、形式更豐富,發(fā)揮人機(jī)彼此不同的認(rèn)知潛力。(3)與傳統(tǒng)的用戶界面特別是廣泛流行的WIMP/GUI兼容。使用多個感覺和效應(yīng)通道使用多個感覺和效應(yīng)通道 允許非精確的交互允許非精確的交互 三維和直接操縱三維和直接操縱 交互的雙向性交互的

12、雙向性 交互的隱含性交互的隱含性 1.使用多個感覺和效應(yīng)通道使用多個感覺和效應(yīng)通道感覺通道側(cè)重于多媒體信息的接受,效應(yīng)通道側(cè)重于交互過程中控制與信息的輸入,兩者密不可分、相互配合。一種通道(如語音)不能充分表達(dá)用戶的意圖時,需輔以其它通道(如手勢指點)的信息;有時使用輔助通道以增強(qiáng)表達(dá)力。交替而獨立地使用不同的通道不是真正意義上的多通道技術(shù),必須允許充分地并行、協(xié)作的通道配合關(guān)系。 2.允許非精確的交互允許非精確的交互人類語言本身就具有高度模糊性人類語言本身就具有高度模糊性,人類在日常生活中習(xí)慣人類在日常生活中習(xí)慣于并大量使用非精確的信息交流。于并大量使用非精確的信息交流。允許使用模糊的表達(dá)手

13、段可以避免不必要的認(rèn)識負(fù)荷,允許使用模糊的表達(dá)手段可以避免不必要的認(rèn)識負(fù)荷,有利于提高交互活動的自然性和高效性。有利于提高交互活動的自然性和高效性。多通道人機(jī)交互技術(shù)主張以充分性代替精確性。多通道人機(jī)交互技術(shù)主張以充分性代替精確性。3.三維和直接操縱三維和直接操縱人類的大多數(shù)活動領(lǐng)域具有三維和直接操縱特點(數(shù)人類的大多數(shù)活動領(lǐng)域具有三維和直接操縱特點(數(shù)學(xué)的和邏輯的活動例外)。學(xué)的和邏輯的活動例外)。人生活在三維空間,習(xí)慣于看、聽和操縱三維的客觀人生活在三維空間,習(xí)慣于看、聽和操縱三維的客觀對象,并希望及時看到這種控制的結(jié)果。對象,并希望及時看到這種控制的結(jié)果。多通道人機(jī)交互的自然性反應(yīng)了這種

14、本質(zhì)特點。多通道人機(jī)交互的自然性反應(yīng)了這種本質(zhì)特點。 4.交互的雙向性交互的雙向性人的感覺和效應(yīng)通道通常具有雙向性的特點,如視覺可看可注視,手可控制、可觸及等。多通道用戶界面使用戶避免生硬的、不自然的、頻繁的、耗時的通道切換,從而提高自然性和效率。視線跟蹤系統(tǒng)可促成視覺交互雙向性,聽覺通道利用三維聽覺定位器實現(xiàn)交互雙向性。 5. 交互的隱含性交互的隱含性追求交互自然性的多通道用戶界面并不需要用戶顯式地說明每個交互成分,反之是在自然的交互過程中隱含地說明。 例如,用戶的視線自然地落在所感興趣的對象之上;又如,用戶的手自然地握住被操縱的目標(biāo)。 定義多媒體(multimedia)的含義是使用計算機(jī)交

15、互式綜合技術(shù)和數(shù)字通信網(wǎng)技術(shù)處理多種表示媒體,如文本、圖形、圖像和聲音,使多種信息建立邏輯連接,集成為一個交互系統(tǒng)。 多媒體技術(shù)的組成部分包括:存儲與訪問技術(shù)表現(xiàn)與表達(dá)技術(shù)實時處理技術(shù)接口技術(shù)人機(jī)交互界面技術(shù)等多媒體技術(shù)與人機(jī)交互技術(shù)多媒體技術(shù)使人機(jī)交互技術(shù)最終要向著更接近于人的自然方式發(fā)展,使計算機(jī)具有聽覺和視覺,以更自然的方式與人交互。多媒體技術(shù)引入了動畫、音頻、視頻等動態(tài)媒體,大大豐富了計算機(jī)表現(xiàn)信息的形式,拓寬了計算機(jī)輸出的帶寬,提高了用戶接受信息的效率,使人們可以得到更直觀的信息,從而簡化了用戶的操作,擴(kuò)展了應(yīng)用范圍。能提高人對信息表現(xiàn)形式的選擇和控制能力。能提高信息表現(xiàn)形式與人的邏

16、輯和創(chuàng)造能力的結(jié)合程度,在順序、符號信息以及并行、聯(lián)想信息方面擴(kuò)展人的信息處理能力。多媒體信息比單一媒體信息對人具有更大的吸引力,有利于人對信息的主動探索而不是被動接受。另外,由于多媒體所帶來的信息冗余性,重復(fù)使用別的媒體或并行使用多種媒體可消除人機(jī)通信過程中的多義性及噪聲。虛擬現(xiàn)實(Virtual Reality)又稱虛擬環(huán)境(Virtual Environment)。虛擬現(xiàn)實系統(tǒng)向用戶提供沉浸(immerse)和多感覺通道(multi-sensory)體驗。在虛擬現(xiàn)實中,人是主動參與者,復(fù)雜系統(tǒng)中可能有許多參與者共同在以計算機(jī)網(wǎng)絡(luò)系統(tǒng)為基礎(chǔ)的虛擬環(huán)境中協(xié)同工作。 虛擬現(xiàn)實系統(tǒng)具有三個重要特

17、點:沉浸感(immersion)交互性(interaction)構(gòu)想性(imagination)虛擬現(xiàn)實中的基本要素:(1)計算機(jī)生成的虛擬世界(環(huán)境)必須是一個能給人提供視覺、聽覺、觸覺、嗅覺以及味覺等多種感官刺激的世界。目前虛擬現(xiàn)實通常由視覺、聽覺和觸覺三種刺激構(gòu)成。(2)虛擬現(xiàn)實統(tǒng)實質(zhì)上是一種高級的人機(jī)交互系統(tǒng)。這里的交互操作是對多通道信息進(jìn)行的,并且對沉浸式系統(tǒng)要求采用自然方式的交互操作,對于非沉浸式系統(tǒng)也可使用常規(guī)交互設(shè)備進(jìn)行交互操作。 虛擬世界的概念模型虛擬現(xiàn)實是人們可以通過視、聽、觸等信息通道感受到設(shè)計者思想的用戶界面,由兩部分組成:一部分是創(chuàng)建的虛擬世界(環(huán)境),另一部分是為介

18、入者(人)。虛擬世界的核心是強(qiáng)調(diào)兩者之間的交互操作,即反映出人在虛擬世界(環(huán)境)中的體驗。人機(jī)交互是虛擬現(xiàn)實的核心。 虛擬現(xiàn)實的概念模型虛擬現(xiàn)實的概念模型 理解虛擬現(xiàn)實的概念模型從虛擬環(huán)境對人的作用來看,虛擬現(xiàn)實的概念模型可以看作為“顯示/檢測”模型。從人對虛擬環(huán)境的作用來看,也就是從用戶的角度看,上述概念模型可以看作“輸入/輸出”模型。q輸入是指用戶感知系統(tǒng)接受虛擬環(huán)境提供的各種感官刺激信號。q輸出是指用戶對虛擬環(huán)境系統(tǒng)做出的反映動作。 虛擬現(xiàn)實技術(shù)正是一種以集成為主的技術(shù),其人機(jī)界面可以分解為多媒體、多通道界面。從本質(zhì)上說,多媒體用戶界面技術(shù)側(cè)重解決計算機(jī)信息表現(xiàn)及輸出的自然性和多樣性問題

19、,而多通道技術(shù)側(cè)重解決計算機(jī)信息輸入及理解的自然性和多樣性問題。 VRML是一種描述交互式三維世界和對象的文件格式。VRML允許描述對象并把對象組合到虛擬場景中,可以實現(xiàn)仿真系統(tǒng),可模擬動畫、具有動力學(xué)特性的物體。VRML能構(gòu)造一個交互的虛擬世界,其中的對象能對外部事件做出響應(yīng),并可在其中任意穿行??梢灾С痔摂M場景的網(wǎng)上發(fā)布,并可實現(xiàn)多用戶的實時參與。VRML比高級語言容易掌握,并且無須再去了解OpenGL3D或者 Directx3D之類的三維圖形開發(fā)庫。VRML文件的解釋、執(zhí)行和顯示一般由瀏覽器來完成。 VRML瀏覽器概念模型的組成解釋器q讀取VRML文件并產(chǎn)生場景圖。場景圖q場景圖包括節(jié)點

20、的變換層次和路徑圖及執(zhí)行引擎。q執(zhí)行引擎處理事件、讀取和編輯路徑圖、改變節(jié)點的變換層次。聽視覺展示q瀏覽器的聽視覺展示部分完成變換層次的圖形和聲音的產(chǎn)生,給用戶以反饋。用戶執(zhí)行引擎路徑圖*插值器*感知器*腳本變換層次音頻視頻展示解釋器原型內(nèi)建節(jié)點VRML文件用戶輸入VRML瀏覽器場景圖一種一種 VRML瀏覽器的概念模型瀏覽器的概念模型 與視覺有關(guān)的人機(jī)交互自始至終都離不開視線的控制。如果能通過用戶的視線盯著感興趣的目標(biāo),計算機(jī)便“自動”將光標(biāo)置于其上,人機(jī)交互將更為直接,也省去了上述交互過程中的大部分步驟。早期的視線跟蹤技術(shù)首先應(yīng)用于心理學(xué)研究、助殘等領(lǐng)域,后來被應(yīng)用于圖像壓縮及人機(jī)交互技術(shù)。

21、視線跟蹤技術(shù)有強(qiáng)迫式與非強(qiáng)迫式、穿戴式與非穿戴式、接觸式與非接觸式之分。視線追蹤主要用于軍事領(lǐng)域(如飛行員觀察記錄),閱讀及幫助殘疾人通信等。 眼動有三種主要形式(在人機(jī)交互中,眼動跟蹤主要利用跳動和注視: 跳動(Saccades)q在正常的視覺觀察過程中,眼動表現(xiàn)為在一系列被觀察目標(biāo)上的停留及在這些停留點之間的飛速跳躍。q在注視點之間的飛速跳躍稱為眼跳動。 注視(Fixations)q停留時間至少持續(xù)100ms以上的稱為注視。在注視中,眼也不是絕對靜止不動,會有微小運動,但大小一般不會超過1視角。 q絕大多數(shù)信息只有在注視時才能獲得并進(jìn)行加工。 平滑尾隨跟蹤(Smooth Pursuit)q

22、緩慢、聯(lián)合追蹤的眼動通常稱為平滑尾隨跟蹤。 在人機(jī)交互中眼動跟蹤技術(shù)必須滿足以下幾點要求,才能滿足實際需求: q不能妨礙視野。q不要與用戶接觸,對用戶基本無干擾。 q精度要高。 q反映速度要快,實時響應(yīng)。q能與獲取的身體和頭部運動相配合。 q定位校正簡單。 q可作為計算機(jī)的標(biāo)準(zhǔn)外設(shè)。 以硬件為基礎(chǔ)的視線跟蹤以軟件為基礎(chǔ)的視線跟蹤以頭的方位標(biāo)示人的注視方向以眼睛的方位代表注視方向 人眼的注視點由頭的方位和眼睛方位兩個因素決定。頭的方位決定人眼可能注視的范圍,而精確的注視方向則由眼睛的方位來決定,但受到頭的方位的限制。如何獲取人的注視點即進(jìn)行視線跟蹤,引起了國內(nèi)外研究者的興趣。按其所借助的媒介分為

23、以硬件為基礎(chǔ)和以軟件為基礎(chǔ)兩種。首先,用四個L形的紅外線發(fā)光器,在眼睛里產(chǎn)生一些亮點;然后利用一個廣角攝像頭獲取臉部圖像,快速確定眼睛的位置,再利用一個視野較小,分辨率較高的攝像頭拍攝眼睛的高分辨率圖像;最后,分析眼睛的圖像,計算瞳孔中心和亮點的位置,通過計算瞳孔中心和亮點確定的矢量,確定視線方向。以硬件為基礎(chǔ)的視線跟蹤基本原理利用紅外發(fā)光二極管發(fā)出紅外線,采用圖像處理技術(shù)和能鎖定眼睛的特殊攝像機(jī),通過分析人眼虹膜和瞳孔中紅外線圖象點的連續(xù)變化情況,得到視線變化的數(shù)據(jù),從而達(dá)到視線追蹤的目的。 從視線跟蹤裝置得到的原始數(shù)據(jù)需要經(jīng)過進(jìn)一步的處理才能用于人機(jī)交互。數(shù)據(jù)處理的目的是濾除噪聲、識別定位

24、及局部校準(zhǔn)與補(bǔ)償?shù)?,最重要的是提取出用于人機(jī)交互所必需的眼睛定位坐標(biāo)。但是由于眼動存在固有的抖動,以及眼睛眨動、頭部劇烈的移動所造成的數(shù)據(jù)中斷,存在許多干擾信號,提取有意眼動數(shù)據(jù)非常困難。解決此問題的辦法之一是利用眼動的某種先驗?zāi)P图右詮浹a(bǔ)。 以軟件為基礎(chǔ)的視線跟蹤 為克服視線跟蹤裝置對人的干擾作用,提出了用軟件實現(xiàn)的對用戶無干擾的視線跟蹤方法。其基本工作原理是先利用攝像機(jī)獲取人眼或臉部圖像,然后用軟件實現(xiàn)圖像中人臉和人眼的定位與跟蹤,從而估算用戶在屏幕上的注視位置。人的注視方向可以用頭的方位和眼睛的方位兩種方式來表示。以軟件為基礎(chǔ)的視線跟蹤以頭的方位標(biāo)示人的注視方向 以頭的方位標(biāo)示注視方向,

25、其前提假設(shè)是用戶的眼球不發(fā)生轉(zhuǎn)動或轉(zhuǎn)動角度極小,觀察不同方位的目標(biāo)是通過頭部轉(zhuǎn)動來實現(xiàn)估算人頭方位的。方法歸結(jié)為兩種: 一種以模型為基礎(chǔ),該方法需要定位一些臉部特征(如眼睛、鼻孔、嘴角等)據(jù)此來計算頭的姿勢。要求攝像設(shè)備有較高的采樣頻率及高質(zhì)量的圖像,但在實際操作過程中,臉部特征的定位和跟蹤比較困難,有時跟蹤會失敗。 另一種是以模板為基礎(chǔ),該方法應(yīng)用人工神經(jīng)網(wǎng)絡(luò)或者人臉數(shù)據(jù)庫對模板圖像進(jìn)行編碼,然后再利用函數(shù)逼近的方法來確定頭的方位,它通常不需要進(jìn)行臉部特征定位,而是利用整個圖像信息來實現(xiàn)定位和跟蹤,比以模型為基礎(chǔ)的方法更具穩(wěn)定性。以軟件為基礎(chǔ)的視線跟蹤以眼睛的方位代表注視方向 用人眼的圖像來

26、推測用戶在計算機(jī)屏幕上注視點,把人眼圖像輸入神經(jīng)網(wǎng)絡(luò),來推斷眼睛在計算機(jī)屏幕上的注視位置。1)精度與自由度問題 以硬件為基礎(chǔ)的視線跟蹤技術(shù)與以軟件為基礎(chǔ)的視線跟蹤技術(shù)相比,其精度可以達(dá)到很高(0.1 ),但所應(yīng)用的設(shè)備卻限制了人的自由度,使用起來很不方便,對人的干擾很大,用戶難以接受;相反以軟件為基礎(chǔ)的視線跟蹤技術(shù),對用戶的限制大大降低了,如用戶的頭部可以移動、轉(zhuǎn)動、可以在房間內(nèi)自由移動,但其精度相對來說就低得多了,只有1.9,有的在10 以下,要想得到準(zhǔn)確的注視焦點比較困難。(2)算法問題 當(dāng)前由于視線跟蹤技術(shù)還沒有完全成熟,另外眼動本身存在固有的抖動,以及眨眼等所造成的數(shù)據(jù)中斷,會存在許多

27、干擾信號,使得我們在把注視焦點與屏幕元素相關(guān)聯(lián)時存在困難,簡單的方法是把離注視點最近的屏幕對象作為用戶感興趣的對象,但可以想見這種方法在屏幕元素離得較近時難以判斷,另一方面還沒有能夠把視覺通道與其它通道整合,實現(xiàn)無縫連接的成熟、高效的融合算法。“米達(dá)斯接觸(Midas Touch)”問題如果鼠標(biāo)器光標(biāo)總是隨著用戶的視線移動,可能會引起用戶的厭煩,因為用戶可能希望能隨便看著什么而不必非“意味著”什么,更不希望每次轉(zhuǎn)移視線都可能啟動一條計算機(jī)命令。 避免“米達(dá)斯接觸”問題的方法:在理想情況下,應(yīng)當(dāng)在用戶希望發(fā)出控制時,界面及時地處理其視輸入,而在相反的情況下則忽略其視線的移動。 可采用其他通道(如

28、鍵盤或語音)進(jìn)行配合。4. 視線跟蹤技術(shù)存在的局限性 使人機(jī)交互中的認(rèn)知負(fù)荷大大降低,視覺輸入通道的引入就是為其它通道提供空間的或其它的約束信息,以消除在單通道輸入時的歧義性,與其它通道相結(jié)合,視線跟蹤在人機(jī)交互領(lǐng)域有著廣闊的應(yīng)用前景。理解人的意圖的智能計算機(jī) 人的注視信息在交流中具有幾方面的功能可以推斷人們感興趣或引起注意的內(nèi)容促進(jìn)談話雙方聽說轉(zhuǎn)換通過所注視的對象可得到其指代對象暗示人與人之間的關(guān)系(如是友還是敵) 將來的計算機(jī)會利用獲取的有關(guān)用戶注視信息,來了解用戶的內(nèi)部狀態(tài)、意圖、認(rèn)知負(fù)荷緊張程度,并自動調(diào)整對用戶的反應(yīng)。具有交互功能的家用電器 隨著電子科技的發(fā)展,未來的家用電器也將具有

29、多種輸入通道,利用用戶的注視信息,我們就可以確定用戶所發(fā)出的語音命令是指向冰箱,還是指向電視機(jī)或房間內(nèi)的其他人。虛擬現(xiàn)實和游戲 根據(jù)用戶當(dāng)前的注視狀態(tài),提供給用戶相應(yīng)注視方位的場景信息,這樣用戶在不同的方位就會看到不同的場景,達(dá)到身臨其境的效果。一方面使人與計算機(jī)間的交互與現(xiàn)實世界中的交互方式趨于一致。更為簡單、自然、高效,另一方面又提高計算機(jī)圖形、圖像、動畫的繪制、渲染速度。一個簡單的手勢蘊(yùn)涵著豐富的信息,人與人可以通過手勢傳達(dá)大量的信息,實現(xiàn)高速的通信。將手勢運用于計算機(jī)能夠很好地改善人機(jī)交互的效率。 在多數(shù)情況下我們籠統(tǒng)地認(rèn)為手勢是人的上肢(包括手臂、手和手指)的運動狀態(tài)。 交互性手勢與

30、操作性手勢 在交互性手勢中手的運動表示特定的信息(如樂隊指揮),靠視覺來感知;操作性手勢不表達(dá)任何信息(如彈琴)。自主性手勢和非自主性手勢 自主性手勢與語音配合用來加強(qiáng)或補(bǔ)充某些信息(如演講者用手勢描述動作、空間結(jié)構(gòu)等信息)。 離心手勢和向心手勢 離心手勢直接針對說話人,有明確的交流意圖,向心手勢只是反應(yīng)說話人的情緒和內(nèi)心的愿望。 利用計算機(jī)識別和解釋手勢輸入是將手勢應(yīng)用于人機(jī)交互的關(guān)鍵前提,識別手勢的手段有: 鼠標(biāo)器和筆q優(yōu)點是僅利用軟件算法來實現(xiàn),從而適合于一般桌面系統(tǒng)。q缺點是只能識別手的整體運動而不能識別手指的動作。數(shù)據(jù)手套q主要優(yōu)點是可以測定手指的姿勢和手勢。q相對而言較為昂貴,并且

31、有時會給用戶帶來不便。 計算機(jī)視覺q利用攝像機(jī)輸入手勢,優(yōu)點是不干擾用戶,這是一種很有前途的技術(shù)。q在技術(shù)上存在很多困難,還難以勝任手勢識別和理解的任務(wù)。 模板匹配技術(shù)一種最簡單的識別技術(shù),將傳感器輸入的原始數(shù)據(jù)與預(yù)先存儲的模板進(jìn)行匹配,通過度量兩者之間的相似度完成識別任務(wù)。神經(jīng)網(wǎng)絡(luò)技術(shù)一種較新的模式識別技術(shù),具有自組織和自學(xué)習(xí)能力,具有分布性特點,抗噪聲能力比較強(qiáng),能處理不完整的模式,并具有模式推廣能力。 統(tǒng)計分析技術(shù)通過統(tǒng)計樣本特征向量來確定分類器的一種基于概率的分類方法。在模式識別中一般采用貝葉斯極大似然理論確定分類函數(shù)。目前較為實用的手勢識別是基于數(shù)據(jù)手套。因為數(shù)據(jù)手套不僅可以輸入包括

32、三維空間運動在內(nèi)的較為全面的手勢信息,而且比基于計算機(jī)視覺的手勢在技術(shù)上要容易實現(xiàn)。中科院計算所的高文等人研究基于運動跟蹤的手語三維運動數(shù)據(jù)獲取方法,利用數(shù)據(jù)手套以及運動跟蹤器,以獲取精確的手語三維運動數(shù)據(jù)。利用此方法,該項目完成了中國手語共5596詞的數(shù)據(jù)獲取工作,形成中國手語立體顯示數(shù)據(jù)庫。 本項目完成面向運動跟蹤設(shè)備獲取數(shù)據(jù)的虛擬人手語顯示,虛擬人可以利用多模式(語音,唇動,手勢)協(xié)同完成手語表達(dá)。語音識別是計算機(jī)通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本文件或命令的技術(shù)。 語音識別又是一門交叉學(xué)科,它與聲學(xué)、語音學(xué)、語言學(xué)、數(shù)字信號處理理論、信息論、計算機(jī)科學(xué)等眾多學(xué)科緊密相連。 數(shù)

33、字化語音信號的轉(zhuǎn)換和量化涉及到信號表示問題,需要研究如何使系統(tǒng)在傳感器與環(huán)境的變化中保持性能的穩(wěn)定,以適應(yīng)這些變化。各種語音必須被恰當(dāng)?shù)亟?,目前采用的最廣泛的建模技術(shù)是隱馬爾科夫模型(HMM)。最后是語言的約束問題。語音識別技術(shù)所涉及的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。目前主流的語音識別技術(shù)是基于統(tǒng)計的模式識別的基本理論,如圖所示。 預(yù) 處 理模 型 庫測 度 估 計特 征 提 取語 音輸 入?yún)?考 模 型測 試 特 征后 處 理識 別結(jié) 果模 型 庫語音識別系統(tǒng)的處理流程語音識別系統(tǒng)的處理流程 語音特征提取語音特征提取 從語音信號中提取語音的特

34、征,既可以獲得語音的本質(zhì)特征, 也起到數(shù)據(jù)壓縮的作用。輸入的模擬語音信號首先要進(jìn)行預(yù)處理,包括預(yù)濾波、采樣和量化、加窗、端點檢測、預(yù)加重等。聲學(xué)模型聲學(xué)模型 聲學(xué)模型對應(yīng)于語音到音節(jié)概率的計算。在識別時將輸入的語音特征同聲學(xué)模型(模式)進(jìn)行匹配與比較,得到最佳的識別結(jié)果。目前采用的最廣泛的建模技術(shù)是隱馬爾科夫模型HMM建模和上下文相關(guān)建模。隱馬爾科夫模型HMM建模馬爾可夫模型是一個離散時域有限狀態(tài)自動機(jī),隱馬爾可夫模型HMM是指這一馬爾可夫模型的內(nèi)部狀態(tài)外界不可見,外界只能看到各個時刻的輸出值。 語音識別中使用HMM通常是用從左向右單向、帶自環(huán)、帶跨越的拓?fù)浣Y(jié)構(gòu)來對識別基元建模,一個音素就是一

35、個三至五狀態(tài)的HMM,一個詞就是構(gòu)成詞的多個音素的HMM串行起來構(gòu)成的HMM,而連續(xù)語音識別的整個模型就是詞和靜音組合起來的HMM。 上下文相關(guān)建模上下文相關(guān)建模方法在建模時考慮了協(xié)同發(fā)音的影響。協(xié)同發(fā)音是指一個音受前后相鄰音的影響而發(fā)生變化,從發(fā)聲機(jī)理上看就是人的發(fā)聲器官在一個音轉(zhuǎn)向另一個音時只能逐漸變化,從而使得后一個音的頻譜與其他條件下的頻譜產(chǎn)生差異。 上下文相關(guān)模型能更準(zhǔn)確地描述語音,只考慮前一音的影響的稱為Bi-Phone,考慮前一音和后一音的影響的稱為Tri-Phone。英語的上下文相關(guān)建模通常以音素為基元,由于有些音素對其后音素的影響是相似的,因而可以通過音素解碼狀態(tài)的聚類進(jìn)行模

36、型參數(shù)的共享。 語言模型語言模型語言模型計算音節(jié)到字的概率。語言模型主要分為: 規(guī)則模型統(tǒng)計模型q統(tǒng)計語言模型是用概率統(tǒng)計的方法來揭示語言單位內(nèi)在的統(tǒng)計規(guī)律,其中N-Gram模型簡單有效,被廣泛使用。 聽寫機(jī)q大詞匯量、非特定人、連續(xù)語音識別系統(tǒng)通常稱為聽寫機(jī)。其架構(gòu)就是建立在聲學(xué)模型和語言模型基礎(chǔ)上的HMM拓?fù)浣Y(jié)構(gòu)。對話系統(tǒng) q對話系統(tǒng)往往是面向一個狹窄領(lǐng)域、詞匯量有限的系統(tǒng) 。目前聽寫機(jī)系統(tǒng)還不能完全實用化以取代鍵盤的輸入,但識別技術(shù)的成熟同時推動了更高層次的語音理解技術(shù)的研究。由于英語與漢語有著不同的特點,針對英語提出的技術(shù)在漢語中如何使用也是一個重要的研究課題,四聲等漢語本身特有的問題

37、也有待解決。 面部表情是人體語言的一部分。人的面部表情不是孤立的,它與情緒之間存在著千絲萬縷的聯(lián)系。人的各種情緒變化以及對冷熱的感覺都是非常復(fù)雜的高級神經(jīng)活動,如何感知、記錄、識別這些變化過程是表情識別的關(guān)鍵。到目前為止,國際上關(guān)于表情分析與識別的研究工作可以分為基于心理學(xué)的和基于計算機(jī)識別的兩類。表情的跟蹤表情的跟蹤 以某種方式將表情信息從外界攝取出來。表情的編碼表情的編碼 即對面部表情進(jìn)行編碼?;诿娌窟\動確定表情的思想,Ekman和Friesen于1978年提出了一個面部動作編碼系統(tǒng)(Facial Action Coding System,F(xiàn)ACS),它是基于對所有引起面部動作的臉的“動

38、作單元”的枚舉編制而成的。 表情的識別表情的識別 面部表情的識別可以通過對FACS中的那種預(yù)定義的面部運動的分類來進(jìn)行,而不是獨立地確定每一個點。 發(fā)展手寫識別技術(shù)并嵌入到各種設(shè)備中,將是手寫識別技術(shù)未來發(fā)展的重要方向之一。 世界上絕大多數(shù)語言的字符都可以用Unicode的形式來表示。聯(lián)機(jī)手寫識別技術(shù)的優(yōu)點是不需專門學(xué)習(xí)與訓(xùn)練、不必記憶編碼規(guī)則、安裝后即可手寫輸入漢字,是最簡單方便的輸入方式。同時符合人的書寫習(xí)慣,可以一面思考、一面書寫,不會打斷思維的連續(xù)性,是最自然的輸入方式。 脫機(jī)(off-line,又稱離線)識別脫機(jī)識別就是機(jī)器對于已經(jīng)寫好或印刷好的靜態(tài)的語言文本圖像的識別。聯(lián)機(jī)(on-

39、line,又稱在線)識別聯(lián)機(jī)識別是指用筆在輸入板上寫,用戶一邊寫,機(jī)器一邊進(jìn)行識別,可實時人機(jī)交互。手寫體識別的方法和識別率取決于對手寫約束的層次,這些約束主要是手寫的類型、寫字者的數(shù)量、詞匯量的大小以及空間的布局。顯然,約束越寬識別越困難。 聯(lián)機(jī)手寫文字的識別過程:預(yù)處理、歸一化、特征抽取、特征匹配漢字手寫輸入板預(yù)處理模式表達(dá)(特征提?。┡袆e(分類或句法分析)字典(特征模板集合或句法規(guī)則集合)漢字代碼聯(lián)機(jī)手寫識別原理框圖聯(lián)機(jī)手寫識別原理框圖 脫機(jī)手寫識別比印刷體漢字識別、聯(lián)機(jī)手寫體識別都要困難。 脫機(jī)手寫識別得到的描述則是點陣圖像,要得到筆段的點陣通常需要細(xì)化運算。 細(xì)化會損失一些信息,并且不可能得到時間順序信息。脫機(jī)識別中,筆畫與筆畫之間經(jīng)常粘連,很難拆分,而且筆段經(jīng)過與另一筆段交叉分成兩段后,也難以分清是否應(yīng)該連起來。 結(jié)構(gòu)識別結(jié)構(gòu)識別方法的出發(fā)點是漢字的組成結(jié)構(gòu)。漢字是由筆劃(點、橫、豎、撇、捺等)、偏旁、部首構(gòu)成,通過把復(fù)雜的漢字模式分解為簡單的子模式直至基本模式元素,對子模式的判定以及基于符號運算的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論