具有視覺跟蹤的中英文語音動畫系統(tǒng)1.doc_第1頁
具有視覺跟蹤的中英文語音動畫系統(tǒng)1.doc_第2頁
具有視覺跟蹤的中英文語音動畫系統(tǒng)1.doc_第3頁
具有視覺跟蹤的中英文語音動畫系統(tǒng)1.doc_第4頁
具有視覺跟蹤的中英文語音動畫系統(tǒng)1.doc_第5頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

具有視覺跟蹤的中英文語音動畫系統(tǒng)1呂玉生 寧波大學(xué)信息科學(xué)與工程學(xué)院,寧波 (315211) e-mail:11007118摘要:本文給出了一個具有視覺跟蹤的中英文語音動畫系統(tǒng)的實現(xiàn)過程。該文介紹了該系 統(tǒng)的設(shè)計過程以及所需的技術(shù),包括可視音素、三維人頭模型的制作與顯示、語音與動畫的同步、動畫的平滑自然的過渡、眼睛的跟蹤與隨機眨眼、與外部程序接口的設(shè)計等。該語音動畫系統(tǒng)具有人臉表情真實自然等特點,在普通 pc 機上能夠產(chǎn)生高質(zhì)量的語音動畫。關(guān)鍵詞:語音動畫 可視語音合成 可視音素 人機交互 視覺跟蹤中圖分類號:tp391.411引言隨著多媒體技術(shù)的迅速發(fā)展,多種媒體之間的信息融合也日益受到人們的重視。人臉和 語音是人類相互交流的兩種最重要的渠道,將人臉動畫技術(shù)(facial animation)與語音處理 技術(shù)(speech processing)相結(jié)合、用計算機生成語音與口形同步動畫的技術(shù),稱作語音動 畫技術(shù),也被稱為“說話的人頭”(talking head)。在人機交互等應(yīng)用環(huán)境中,如果人們面對的是這樣一個會說話的人物形象,則會使計算 機界面更為友好,人機之間的交流更加自然。研究表明,在環(huán)境噪聲較大的情況下,如果在 給出聲音信息的同時能給出一個“說話的人頭”,則可使信噪比提高約8-12db1。本文結(jié)合了幾款優(yōu)秀軟件的強大功能,開發(fā)出了一款支持中英文語音的人臉動畫系統(tǒng)。 該動畫系統(tǒng)具有表情表現(xiàn)自然真實等特點,并且為了方便后續(xù)程序開發(fā)的工作,我們還設(shè)計了與外部程序交互的接口。2語音動畫系統(tǒng)的設(shè)計與實現(xiàn)如圖 1 所示,整個系統(tǒng)的界面分為三個部分。左上部為三維人頭的顯示區(qū)域,可以對三 維人頭進行旋轉(zhuǎn)、縮放等操作;左下部為文本輸入以及語音控制部分,可以選擇男女聲、調(diào) 節(jié)音量和語速等;右面部分為模型變形的控制部分,包括控制 7 種表情、15 種調(diào)節(jié)器和 16 種可視音素對應(yīng)模型的變形程度,并且可以通過組合產(chǎn)生出各種新的表情。1本課題得到國家科技部 973 重大基礎(chǔ)前期專項(2005cca04400)、國家自然科學(xué)基金項目(60672071)的資助 。-6-2.1 三維人頭模型的制作與顯示圖 1 系統(tǒng)界面在三維人頭模型的制作軟件中,facegen2是一款非常優(yōu)秀的制作參數(shù)化人頭的工具軟 件,操作簡單,全部實時交互調(diào)節(jié),可調(diào)節(jié)的參數(shù)達上百個,可對頭部 60 多個區(qū)域進行調(diào) 節(jié)。調(diào)節(jié)內(nèi)容包括人種、性別、年齡等。此外,還可以調(diào)節(jié)幾十種表情和口型。(a)正面人頭照片(b)合成的三維人頭正面截圖圖 2 原圖與合成圖同時,我們還可以通過提供一張正面人頭照片,讓 facegen 合成出非常逼真的三維人頭模型。如圖 2 所示,我們提供一張正面人頭照片,通過 facegen,合成了一個逼真的三維人 頭模型。三維人頭模型制作完成以后,就可以導(dǎo)出為數(shù)種流行的 3d 文件格式,如 obj、3ds、vrml 等。因為 open inventor3(以下簡稱 oiv)可以完美支持 vrml97 格式,所以我們導(dǎo)出包 括中性和其他所有目標動畫人臉模型在內(nèi)的 vrml97 文件。oiv 是目前世界上應(yīng)用最為廣泛的面向?qū)ο蠛徒换ナ降娜S圖形軟件開發(fā)包。它是在opengl 的基本上開發(fā)而成的,因而也是一種相對獨立的圖形系統(tǒng),并可方便地移植到不同操作系統(tǒng)的硬件平臺上。由于 oiv 在構(gòu)造復(fù)雜的三維場景時采用了“搭積木”的靈活方式, 這使得用戶只需花費較少的時間就可構(gòu)造出復(fù)雜、優(yōu)美的三維場景。另外,oiv 還能夠完美 支持三維音效、三維紋理和多處理器的并行渲染技術(shù)。但是 vrml 與 oiv 在紋理處理方式上是有不同的4。對于 rgb 和 argb 構(gòu)成的紋理 文件,在 vrml 中直接用紋理的顏色替換物體的顏色。這樣,要想得到我們想要的在眼球 上有一個高光反射的亮點的效果就變得非常麻煩。眼睛是心靈的窗口,如果在模型的顯示中 , 眼球上有一個高光反射的亮點,那么必然會使顯示效果看起來更加逼真生動。相反,使用 ovi 的相應(yīng)節(jié)點可以相對容易的做到這樣的效果。我們使用 oiv 3d 開發(fā)包讀取 vrml 人 臉模型文件,并把 vrml 節(jié)點轉(zhuǎn)化為 oiv 相應(yīng)的節(jié)點,再重新調(diào)節(jié)材質(zhì)、光線和攝像機等 節(jié)點的參數(shù),顯示出了具有較高真實感的效果。圖 3(b)的效果明顯要比圖 3(a)的效果要好的 多。2.2 可視音素(a)使用 vrml 節(jié)點(b)轉(zhuǎn)化成 ovi 的節(jié)點圖 3 眼球上的高光反射microsoft 公司的 sapi 5.15是微軟 windows 環(huán)境下的語音開發(fā)工具包,提供了包括中 英文在內(nèi)的數(shù)種語音開發(fā)的接口,使語音系統(tǒng)的開發(fā)變得非常方便。但是使用它本身提供的 幾種語音包合成的語音,聽起來不夠自然,而且沒有定義中文的可視音素,不能直接得到中 文可視音素及其持續(xù)時間。文獻6中給出了中文可視音素的獲取和估計其持續(xù)時間的方法。 neospeech7是當前最好的語音合成軟件之一,它的效果幾乎可以亂真。neospeech 提供了 中英日韓四種語音包,并且實現(xiàn)了 sapi 語音接口,以統(tǒng)一的方式提供了這四種語言的可視 音素。這種就可以使用 sapi 調(diào)用 neospeech,合成出高質(zhì)量的語音。facegen 提供 16 種可視音素,而 sapi 5.1 定義了 22 種可視音素。經(jīng)過反復(fù)試驗后, 我們定義了它們之間的對應(yīng)關(guān)系。有了可視音素以及表情等模型,下面要做的就是怎么樣讓這些模型與語音同步并且平滑 地動起來。(a) aa (b) d,s,t圖 4 可視音素 aa 和 d,s,t2.3 語音與動畫的同步、動畫的平滑自然的過渡在人說話的時候,一個口型到另一個口型的轉(zhuǎn)化是平滑的。所以我們要想得到比較自然 的過渡效果,那么在前一個可視音素對應(yīng)的口型與下一個可視音素對應(yīng)的口型過渡的時候, 必須產(chǎn)生幾幀中間的口形動畫。我們在異步方式下調(diào)用 sapi 的 speak 函數(shù)朗讀文本,然后處理 spei_tts_viseme 事 件,得到可視音素及其相應(yīng)的持續(xù)時間。接著進行可視音素的過渡,得到與輸出語音對應(yīng)的 同步的人臉動畫,進而生成語音動畫。我們對此的處理過程如下:(1) 在異步方式下調(diào)用 sapi 的 speak 函數(shù)朗讀輸入的文本;(2) 處理 spei_tts_viseme 事件,得到可視音素及其持續(xù)時間;(3) 計算從前一個可視音素對應(yīng)的人臉動畫到當前得到的可視音素對應(yīng)的目標人臉動 畫平滑過渡所需要的幀數(shù)。幀數(shù)可視音素的持續(xù)時間(毫秒)/30;持續(xù)時間長的可視音素將 對應(yīng)較多的幀數(shù)。將可視音素的編號與計算出的幀數(shù)放入一個可視音素隊列中;(4) 在一個每秒鐘響應(yīng) 30 次的定時器響應(yīng)函數(shù)中讀取這個可視音素隊列,根據(jù)過渡所 需要的幀數(shù)在前一可視音素與讀取的可視音素對應(yīng)的人臉動畫之間進行線性插值,顯示出多 幀平滑的過渡動畫。2.4 眼睛的跟蹤與隨機眨動在人與人的自然交互中,在說話的同時,一般眼睛都會盯著對方,并且伴隨著隨機性的 眨眼動作。同樣,在具有逼真效果的人臉語音動畫系統(tǒng)中,眼睛的跟蹤與隨機眨動也是非常 必要的。我們使用 camshift8,9方法對視頻中的人臉進行檢測,根據(jù)檢測結(jié)果設(shè)定虛擬人 的眼球轉(zhuǎn)動的方向與程度,即實現(xiàn)三維虛擬人 “盯著人看”的效果。 camshift 是 “continuously adaptive mean-shift”的簡稱,意為連續(xù)自適應(yīng)均值移動算法。它是一種實 時性和魯棒性良好的跟蹤算法,能夠根據(jù)前一幀圖像中目標物的顏色分布自動調(diào)整搜索窗口 的大小,在下一幀中找到目標物體所在區(qū)域的中心及目標物的大小。對于每一幀視頻圖像, 它首先根據(jù)目標物的顏色直方圖模型將圖像轉(zhuǎn)化為顏色概率分布圖。對于人臉跟蹤來說,就 是根 據(jù)人臉的膚色信息建立顏色 直方 圖,然后在轉(zhuǎn)化后的顏色概率分布圖中利用 camshift 算法找到人臉的中心和大小。重復(fù)這個過程就實現(xiàn)了對人臉的連續(xù)跟蹤了。圖 5 顯示眼睛的跟蹤效果。(a)、(b)、(c)為 camshift 對攝像頭前人臉的跟蹤效果,(b)、(d)、 (f)為相應(yīng)的眼睛跟蹤結(jié)果。我們設(shè)定一個時間值,讓虛擬人的眼睛在這個值附近隨機眨動。這就為用戶提供了一個生動有趣的交互環(huán)境,使虛擬人顯得活靈活現(xiàn),更加逼真生動。而且,加入了視覺跟蹤以后,以后我們可以根據(jù)不同的情境來產(chǎn)生不同的表情。(a)(b)(c)(d)2.5 提供給外部程序的接口(e)(f)圖 5 視覺跟蹤為了方便后續(xù)程序開發(fā)的工作,我們設(shè)計了與外部程序交互的接口。我們通過 wm_copydata10消息來在外部程序與本系統(tǒng)之間傳送數(shù)據(jù)。外部程序只需先找到本系統(tǒng) 的窗口句柄,然后向這個窗口句柄發(fā)送事先設(shè)計好的格式的數(shù)據(jù)即可。本系統(tǒng)一旦接收到 wm_copydata 消息,先對數(shù)據(jù)進行驗證,然后再讓模型產(chǎn)生相應(yīng)的變形,顯示相應(yīng)的效 果。3總結(jié)目前已有很多產(chǎn)生具有真實感的三維人臉模型和人臉動畫的方法,但是在具有高真實感 模型的制作、人臉動畫與語音同步等方面都還不夠理想。我們采用 facegen 定制出高度真實 感的人臉模型,并導(dǎo)出成 vrml 這種通用的 3d 文件格式。oiv 能夠完美支持 vrml97 和 多處理器的并行渲染技術(shù)。得到模型后,我們使用 oiv 3d 開發(fā)包讀取人臉模型,并把 vrml 節(jié)點轉(zhuǎn)化為 oiv 相應(yīng)的節(jié)點,再重新設(shè)置材質(zhì)、光線和攝像機等參數(shù),顯示出了具有較高 真實感的效果。在人臉動畫與語音同步方面,我們采用線性插值方法。在當前表情與目標表情的模型之 間進行插值,得到的結(jié)果更新當前表情模型;由 sapi 5.1 產(chǎn)生的、與目標表情模型對應(yīng)的 可視音素以及這個可視音素的持續(xù)時間,計算出這個可視音素需要的幀數(shù),生成平滑過度的與中英文語音同步的人臉動畫。為了方便后續(xù)的開發(fā)工作,我們還設(shè)計了一個與外部程序交互的接口。 最終我們實現(xiàn)了一個比較令人滿意的人臉語音動畫系統(tǒng)。參考文獻1 王志明, 蔡蓮紅, 吳志勇, 陶建華漢語文本-可視語音轉(zhuǎn)換的研究j小型微型計算機系統(tǒng), 2002(04):9194.2 /modeller31_help.htmeb/ol.3 閻鋒欣,侯增選,張定華等.open inventor 程序設(shè)計從入門到精通m.北京:清華大學(xué)出版社,2007.4 open inventor 6.0 for vc+ .net 2003. users guideeb/ dk.5 ruibird.windows 語音編程初步eb/ol. /ruibird/archive/2007/04/05/1552380.aspx.6 王洵, 張道義, 董蘭芳, 萬壽紅.一個基于 sapi5.0 的中文語音動畫系統(tǒng)j.計算機工程, 2003(04): 5254, 57.7 eb/ol.8 bradski g r. computer vision face tracking for use in a perceptual user interfacej. intel technology journal,1998, 2: 214 219.9 eb/ol.10 明日科技. visual c+ 開發(fā)經(jīng)驗技巧寶典m.北京:人民郵電出版社,2007.a chinese and english speech animation system with visualtrackinglv yushenginstitute of computer science & technology, ningbo university, ningbo zhejiang(315211)abstractthe article gives a chinese and english speech animation system with visual tracking. this paper describes the systems design process and the necessary technology, including viseme, production and display of the three-dimensional heads model , voice and animation simultaneously, smooth natural transition of the animation, the eyes tracking and random blink, and the program interfaces design with the outside program. the systems facia

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論