具有視覺跟蹤的中英文語音動畫系統(tǒng)1.doc

上傳人：伐*** IP屬地：寧夏上傳時間：2019-07-11 格式：DOC 頁數(shù)：6 大?。?.62MB 積分：10.8 舉報 版權申訴

免費預覽已結束，剩余1頁可下載查看

 下載本文檔

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

具有視覺跟蹤的中英文語音動畫系統(tǒng)1呂玉生寧波大學信息科學與工程學院，寧波 (315211) e-mail：11007118摘要：本文給出了一個具有視覺跟蹤的中英文語音動畫系統(tǒng)的實現(xiàn)過程。該文介紹了該系統(tǒng)的設計過程以及所需的技術，包括可視音素、三維人頭模型的制作與顯示、語音與動畫的同步、動畫的平滑自然的過渡、眼睛的跟蹤與隨機眨眼、與外部程序接口的設計等。該語音動畫系統(tǒng)具有人臉表情真實自然等特點，在普通 pc 機上能夠產(chǎn)生高質(zhì)量的語音動畫。關鍵詞：語音動畫可視語音合成可視音素人機交互視覺跟蹤中圖分類號：tp391.411引言隨著多媒體技術的迅速發(fā)展，多種媒體之間的信息融合也日益受到人們的重視。人臉和語音是人類相互交流的兩種最重要的渠道，將人臉動畫技術（facial animation）與語音處理技術（speech processing）相結合、用計算機生成語音與口形同步動畫的技術，稱作語音動畫技術，也被稱為“說話的人頭”（talking head）。在人機交互等應用環(huán)境中，如果人們面對的是這樣一個會說話的人物形象，則會使計算機界面更為友好，人機之間的交流更加自然。研究表明，在環(huán)境噪聲較大的情況下，如果在給出聲音信息的同時能給出一個“說話的人頭”，則可使信噪比提高約8-12db1。本文結合了幾款優(yōu)秀軟件的強大功能，開發(fā)出了一款支持中英文語音的人臉動畫系統(tǒng)。該動畫系統(tǒng)具有表情表現(xiàn)自然真實等特點，并且為了方便后續(xù)程序開發(fā)的工作，我們還設計了與外部程序交互的接口。2語音動畫系統(tǒng)的設計與實現(xiàn)如圖 1 所示，整個系統(tǒng)的界面分為三個部分。左上部為三維人頭的顯示區(qū)域，可以對三維人頭進行旋轉(zhuǎn)、縮放等操作；左下部為文本輸入以及語音控制部分，可以選擇男女聲、調(diào) 節(jié)音量和語速等；右面部分為模型變形的控制部分，包括控制 7 種表情、15 種調(diào)節(jié)器和 16 種可視音素對應模型的變形程度，并且可以通過組合產(chǎn)生出各種新的表情。1本課題得到國家科技部 973 重大基礎前期專項(2005cca04400)、國家自然科學基金項目(60672071)的資助。-6-2.1 三維人頭模型的制作與顯示圖 1 系統(tǒng)界面在三維人頭模型的制作軟件中，facegen2是一款非常優(yōu)秀的制作參數(shù)化人頭的工具軟件，操作簡單，全部實時交互調(diào)節(jié)，可調(diào)節(jié)的參數(shù)達上百個，可對頭部 60 多個區(qū)域進行調(diào) 節(jié)。調(diào)節(jié)內(nèi)容包括人種、性別、年齡等。此外，還可以調(diào)節(jié)幾十種表情和口型。(a)正面人頭照片(b)合成的三維人頭正面截圖圖 2 原圖與合成圖同時，我們還可以通過提供一張正面人頭照片，讓 facegen 合成出非常逼真的三維人頭模型。如圖 2 所示，我們提供一張正面人頭照片，通過 facegen，合成了一個逼真的三維人頭模型。三維人頭模型制作完成以后，就可以導出為數(shù)種流行的 3d 文件格式，如 obj、3ds、vrml 等。因為 open inventor3（以下簡稱 oiv）可以完美支持 vrml97 格式，所以我們導出包括中性和其他所有目標動畫人臉模型在內(nèi)的 vrml97 文件。oiv 是目前世界上應用最為廣泛的面向?qū)ο蠛徒换ナ降娜S圖形軟件開發(fā)包。它是在opengl 的基本上開發(fā)而成的，因而也是一種相對獨立的圖形系統(tǒng)，并可方便地移植到不同操作系統(tǒng)的硬件平臺上。由于 oiv 在構造復雜的三維場景時采用了“搭積木”的靈活方式，這使得用戶只需花費較少的時間就可構造出復雜、優(yōu)美的三維場景。另外，oiv 還能夠完美支持三維音效、三維紋理和多處理器的并行渲染技術。但是 vrml 與 oiv 在紋理處理方式上是有不同的4。對于 rgb 和 argb 構成的紋理文件，在 vrml 中直接用紋理的顏色替換物體的顏色。這樣，要想得到我們想要的在眼球上有一個高光反射的亮點的效果就變得非常麻煩。眼睛是心靈的窗口，如果在模型的顯示中，眼球上有一個高光反射的亮點，那么必然會使顯示效果看起來更加逼真生動。相反，使用 ovi 的相應節(jié)點可以相對容易的做到這樣的效果。我們使用 oiv 3d 開發(fā)包讀取 vrml 人臉模型文件，并把 vrml 節(jié)點轉(zhuǎn)化為 oiv 相應的節(jié)點，再重新調(diào)節(jié)材質(zhì)、光線和攝像機等節(jié)點的參數(shù)，顯示出了具有較高真實感的效果。圖 3(b)的效果明顯要比圖 3(a)的效果要好的多。2.2 可視音素（a）使用 vrml 節(jié)點（b）轉(zhuǎn)化成 ovi 的節(jié)點圖 3 眼球上的高光反射microsoft 公司的 sapi 5.15是微軟 windows 環(huán)境下的語音開發(fā)工具包，提供了包括中英文在內(nèi)的數(shù)種語音開發(fā)的接口，使語音系統(tǒng)的開發(fā)變得非常方便。但是使用它本身提供的幾種語音包合成的語音，聽起來不夠自然，而且沒有定義中文的可視音素，不能直接得到中文可視音素及其持續(xù)時間。文獻6中給出了中文可視音素的獲取和估計其持續(xù)時間的方法。 neospeech7是當前最好的語音合成軟件之一，它的效果幾乎可以亂真。neospeech 提供了中英日韓四種語音包，并且實現(xiàn)了 sapi 語音接口，以統(tǒng)一的方式提供了這四種語言的可視音素。這種就可以使用 sapi 調(diào)用 neospeech，合成出高質(zhì)量的語音。facegen 提供 16 種可視音素，而 sapi 5.1 定義了 22 種可視音素。經(jīng)過反復試驗后，我們定義了它們之間的對應關系。有了可視音素以及表情等模型，下面要做的就是怎么樣讓這些模型與語音同步并且平滑地動起來。(a) aa (b) d,s,t圖 4 可視音素 aa 和 d,s,t2.3 語音與動畫的同步、動畫的平滑自然的過渡在人說話的時候，一個口型到另一個口型的轉(zhuǎn)化是平滑的。所以我們要想得到比較自然的過渡效果，那么在前一個可視音素對應的口型與下一個可視音素對應的口型過渡的時候，必須產(chǎn)生幾幀中間的口形動畫。我們在異步方式下調(diào)用 sapi 的 speak 函數(shù)朗讀文本，然后處理 spei_tts_viseme 事件，得到可視音素及其相應的持續(xù)時間。接著進行可視音素的過渡，得到與輸出語音對應的同步的人臉動畫，進而生成語音動畫。我們對此的處理過程如下：(1) 在異步方式下調(diào)用 sapi 的 speak 函數(shù)朗讀輸入的文本；(2) 處理 spei_tts_viseme 事件，得到可視音素及其持續(xù)時間；(3) 計算從前一個可視音素對應的人臉動畫到當前得到的可視音素對應的目標人臉動畫平滑過渡所需要的幀數(shù)。幀數(shù)可視音素的持續(xù)時間(毫秒)/30；持續(xù)時間長的可視音素將對應較多的幀數(shù)。將可視音素的編號與計算出的幀數(shù)放入一個可視音素隊列中；(4) 在一個每秒鐘響應 30 次的定時器響應函數(shù)中讀取這個可視音素隊列，根據(jù)過渡所需要的幀數(shù)在前一可視音素與讀取的可視音素對應的人臉動畫之間進行線性插值，顯示出多幀平滑的過渡動畫。2.4 眼睛的跟蹤與隨機眨動在人與人的自然交互中，在說話的同時，一般眼睛都會盯著對方，并且伴隨著隨機性的眨眼動作。同樣，在具有逼真效果的人臉語音動畫系統(tǒng)中，眼睛的跟蹤與隨機眨動也是非常必要的。我們使用 camshift8,9方法對視頻中的人臉進行檢測，根據(jù)檢測結果設定虛擬人的眼球轉(zhuǎn)動的方向與程度，即實現(xiàn)三維虛擬人 “盯著人看”的效果。 camshift 是 “continuously adaptive mean-shift”的簡稱，意為連續(xù)自適應均值移動算法。它是一種實時性和魯棒性良好的跟蹤算法，能夠根據(jù)前一幀圖像中目標物的顏色分布自動調(diào)整搜索窗口的大小，在下一幀中找到目標物體所在區(qū)域的中心及目標物的大小。對于每一幀視頻圖像，它首先根據(jù)目標物的顏色直方圖模型將圖像轉(zhuǎn)化為顏色概率分布圖。對于人臉跟蹤來說，就是根據(jù)人臉的膚色信息建立顏色直方圖，然后在轉(zhuǎn)化后的顏色概率分布圖中利用 camshift 算法找到人臉的中心和大小。重復這個過程就實現(xiàn)了對人臉的連續(xù)跟蹤了。圖 5 顯示眼睛的跟蹤效果。(a)、(b)、(c)為 camshift 對攝像頭前人臉的跟蹤效果，(b)、(d)、 (f)為相應的眼睛跟蹤結果。我們設定一個時間值，讓虛擬人的眼睛在這個值附近隨機眨動。這就為用戶提供了一個生動有趣的交互環(huán)境，使虛擬人顯得活靈活現(xiàn)，更加逼真生動。而且，加入了視覺跟蹤以后，以后我們可以根據(jù)不同的情境來產(chǎn)生不同的表情。(a)(b)(c)(d)2.5 提供給外部程序的接口(e)(f)圖 5 視覺跟蹤為了方便后續(xù)程序開發(fā)的工作，我們設計了與外部程序交互的接口。我們通過 wm_copydata10消息來在外部程序與本系統(tǒng)之間傳送數(shù)據(jù)。外部程序只需先找到本系統(tǒng) 的窗口句柄，然后向這個窗口句柄發(fā)送事先設計好的格式的數(shù)據(jù)即可。本系統(tǒng)一旦接收到 wm_copydata 消息，先對數(shù)據(jù)進行驗證，然后再讓模型產(chǎn)生相應的變形，顯示相應的效果。3總結目前已有很多產(chǎn)生具有真實感的三維人臉模型和人臉動畫的方法，但是在具有高真實感模型的制作、人臉動畫與語音同步等方面都還不夠理想。我們采用 facegen 定制出高度真實感的人臉模型，并導出成 vrml 這種通用的 3d 文件格式。oiv 能夠完美支持 vrml97 和多處理器的并行渲染技術。得到模型后，我們使用 oiv 3d 開發(fā)包讀取人臉模型，并把 vrml 節(jié)點轉(zhuǎn)化為 oiv 相應的節(jié)點，再重新設置材質(zhì)、光線和攝像機等參數(shù)，顯示出了具有較高真實感的效果。在人臉動畫與語音同步方面，我們采用線性插值方法。在當前表情與目標表情的模型之間進行插值，得到的結果更新當前表情模型；由 sapi 5.1 產(chǎn)生的、與目標表情模型對應的可視音素以及這個可視音素的持續(xù)時間，計算出這個可視音素需要的幀數(shù)，生成平滑過度的與中英文語音同步的人臉動畫。為了方便后續(xù)的開發(fā)工作，我們還設計了一個與外部程序交互的接口。最終我們實現(xiàn)了一個比較令人滿意的人臉語音動畫系統(tǒng)。參考文獻1 王志明, 蔡蓮紅, 吳志勇, 陶建華漢語文本-可視語音轉(zhuǎn)換的研究j小型微型計算機系統(tǒng), 2002(04)：9194.2 /modeller31_help.htmeb/ol.3 閻鋒欣，侯增選，張定華等.open inventor 程序設計從入門到精通m.北京：清華大學出版社，2007.4 open inventor 6.0 for vc+ .net 2003. users guideeb/ dk.5 ruibird.windows 語音編程初步eb/ol. /ruibird/archive/2007/04/05/1552380.aspx.6 王洵, 張道義, 董蘭芳, 萬壽紅.一個基于 sapi5.0 的中文語音動畫系統(tǒng)j.計算機工程, 2003(04): 5254, 57.7 eb/ol.8 bradski g r. computer vision face tracking for use in a perceptual user interfacej. intel technology journal,1998, 2: 214 219.9 eb/ol.10 明日科技. visual c+ 開發(fā)經(jīng)驗技巧寶典m.北京：人民郵電出版社，2007.a chinese and english speech animation system with visualtrackinglv yushenginstitute of computer science & technology, ningbo university, ningbo zhejiang(315211)abstractthe article gives a chinese and english speech animation system with visual tracking. this paper describes the systems design process and the necessary technology, including viseme, production and display of the three-dimensional heads model , voice and animation simultaneously, smooth natural transition of the animation, the eyes tracking and random blink, and the program interfaces design with the outside program. the systems facia

人人文庫> 全部分類> 專業(yè)文獻 > 工程機械

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

具有視覺跟蹤的中英文語音動畫系統(tǒng)1.doc

文檔簡介

溫馨提示

最新文檔

評論

具有視覺跟蹤的中英文語音動畫系統(tǒng)1.doc

文檔簡介

溫馨提示

最新文檔

評論

相關文檔