多模態(tài)深度學(xué)習(xí)_第1頁(yè)
多模態(tài)深度學(xué)習(xí)_第2頁(yè)
多模態(tài)深度學(xué)習(xí)_第3頁(yè)
多模態(tài)深度學(xué)習(xí)_第4頁(yè)
多模態(tài)深度學(xué)習(xí)_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、多模態(tài)深度學(xué)習(xí)作者:日期:Multi modal Deep Learni n g (多模態(tài)深度學(xué)習(xí))未完待續(xù)原創(chuàng) 20 1 6 年 0 6 月 22 日 08:53:40摘要:本文提出一種在深度網(wǎng)絡(luò)上的新應(yīng)用,用深度網(wǎng)絡(luò)學(xué)習(xí)多模態(tài)。特別的是,我們證明了 跨模態(tài)特征學(xué)習(xí)一一如果在特征學(xué)習(xí)過(guò) 程中多模態(tài)出現(xiàn)了,對(duì)于一個(gè)模態(tài)而言,更好的特征可以被學(xué)習(xí)(多模 態(tài)上學(xué)習(xí),單模態(tài)上測(cè)試)。此外,我們展示了如何在多模態(tài)間學(xué)習(xí) 一個(gè)共享的特征,并在一個(gè)特別的任務(wù)上評(píng)估它一一分類(lèi)器用只有 音頻的數(shù)據(jù)訓(xùn)練但是在只有視頻的數(shù)據(jù)上測(cè)試(反之亦然)。我們的模型在CUAVE和A V Le t ter s數(shù)據(jù)集上進(jìn)行視-聽(tīng)

2、語(yǔ)音分類(lèi),證明 了它在視覺(jué)語(yǔ)音分類(lèi)(在AVL e tters數(shù)據(jù)集上)和有效的共享特征 學(xué)習(xí)上是已發(fā)表中論文中最佳的。1 .介紹在語(yǔ)音識(shí)別中,人類(lèi)通過(guò)合并語(yǔ)音-視覺(jué)信息來(lái)理解語(yǔ)音。視覺(jué)模態(tài)提供了發(fā)音地方和肌肉運(yùn)動(dòng)的信息,這些可以幫助消除相似語(yǔ) 音(如不發(fā)音的輔音)的歧義。多模態(tài)學(xué)習(xí)包括來(lái)自多源的相關(guān)信息。語(yǔ)音和視覺(jué)數(shù)據(jù)在語(yǔ) 音識(shí)別時(shí)在某個(gè)“中間層”是相關(guān)的,例如音位和視位;未加工的像素 是很難與語(yǔ)音波形或聲譜圖產(chǎn)生相關(guān)性的。在本文中,我們對(duì)“中間層”的關(guān)系感興趣,因此我們選擇使用 語(yǔ)音一視覺(jué)分類(lèi)來(lái)驗(yàn)證我們的模型。特別的是,我們關(guān)注用于語(yǔ)音 識(shí)別的學(xué)習(xí)特征,這個(gè)學(xué)習(xí)特征是和視覺(jué)中的唇形聯(lián)系在一起

3、的。全部任務(wù)可分為三部分一特征學(xué)習(xí)、有監(jiān)督訓(xùn)練和測(cè)試。用 一個(gè)簡(jiǎn)單的線性分類(lèi)器進(jìn)行有監(jiān)督訓(xùn)練和測(cè)試,以檢查使用多模態(tài) 數(shù)據(jù)的不同的特征學(xué)習(xí)模型(eg:多模態(tài)融合、跨模態(tài)學(xué)習(xí)和共享特 征學(xué)習(xí).)的有效性-我們考慮三個(gè)學(xué)習(xí)布置一一多模態(tài)融合、跨 模態(tài)學(xué)習(xí)和共享特征學(xué)習(xí)。(如圖1所示)多模態(tài)融合:數(shù)據(jù)來(lái)自所有模態(tài),用于所有 模態(tài)??缒B(tài)學(xué)習(xí):數(shù)據(jù)來(lái)自所有模態(tài),但只在某模態(tài)可用。共享特 征學(xué)習(xí):訓(xùn)練和測(cè)試用的不同模態(tài)的數(shù)據(jù)。如果特征可以在跨不同 模態(tài)下捕獲相關(guān)性,這會(huì)允許我們進(jìn)行評(píng)價(jià)。特別的是,學(xué)習(xí)這些 布置可以使我們?cè)u(píng)估學(xué)到的特征是否具有模態(tài)不變性。FeatureLearning這國(guó) T«

4、tingLrainingAudioAudioAudioClassic Deep LearningVideoVideoVideoMultimodal FusionA +V A + V A +VCross ModalityLearningShared Rt? presentationLearningA + VVideoVideoA + VAudioAudioA + VAudioVideoA + VVideoAudioFigure 1: Multimodal Learning settings where A+V refers to Audio and Video.接下來(lái),我們描述模型的構(gòu)造塊。然后

5、,我們實(shí)現(xiàn)了不同的 使用深度學(xué)習(xí)的多模態(tài)學(xué)習(xí)模型,這些模型可以實(shí)現(xiàn)不同的多模態(tài)任 務(wù)。最后,我們展示實(shí)驗(yàn)結(jié)果和總結(jié)。2 .背景深度學(xué)習(xí)的當(dāng)前工作已經(jīng)測(cè)試了 dee p sigmoidal net wo r ks是如何被訓(xùn)練的,以產(chǎn)生有用的用于手寫(xiě)數(shù)字識(shí)別和文本的特 征。當(dāng)前工作的關(guān)鍵 在于使用RBMs (Res tri c ted Bol t zma n n Machines )微調(diào)的進(jìn)行貪心的逐層訓(xùn)練。我們使用一個(gè)擴(kuò)展的 稀疏RBMs,它學(xué)習(xí)到的特征對(duì)于數(shù)字和自然的圖像來(lái)說(shuō)是有意義 的特征。2 . 1 稀疏 RBMs為了正則化模型使其稀疏,我們讓每個(gè)隱藏層單元有一個(gè)使用 了正則化懲罰的預(yù)先期

6、望的激活函數(shù),這個(gè)正則化懲罰的形式是 心(。-京江網(wǎng)”見(jiàn)其中3,.i是訓(xùn)練集,決定了隱藏層單元激活函數(shù)的稀疏性(就是隱藏層單元激活函數(shù)是否被激活)。3 .學(xué)習(xí)結(jié)構(gòu)這部分描述我們的模型,用它來(lái)完成語(yǔ)音-視頻二模態(tài)的特征 學(xué)習(xí)任務(wù)。輸入到模型里的語(yǔ)音和視頻是連續(xù)的音頻和視頻圖像。 為了推出我們的深度自編碼模型,我們先描述一些簡(jiǎn)單的模型以及他 們的缺點(diǎn)。(下面的都是預(yù)訓(xùn)練模型)1. RBM模型。用其分別訓(xùn)練語(yǔ)音和視頻,學(xué)習(xí)RBM之后,在 v固定時(shí)得到的隱藏層值可以作為數(shù)據(jù)的一個(gè)新特征。我們將這個(gè)模 型作為基準(zhǔn)來(lái)比較我們的多模態(tài)模型的結(jié)果,也可以將其用來(lái)預(yù)訓(xùn)練 我們的深度網(wǎng)絡(luò)。(a) Audio RB

7、M(b) Video RBM?II.為了訓(xùn)練多模態(tài)模型,一個(gè)直接的方法是訓(xùn)練一個(gè)把語(yǔ)音 和視頻數(shù)據(jù)連接在一起的RBM。雖然這個(gè)模型聯(lián)合了語(yǔ)音和視頻數(shù) 據(jù)的分布,但它仍是一個(gè)淺層模型。語(yǔ)音和視頻數(shù)據(jù)之間的關(guān)聯(lián)是 高度非線性的,RBM很難學(xué)習(xí)這些相關(guān)性形成多模態(tài)特征。事實(shí)上, 我們發(fā)現(xiàn)在隱藏層單元學(xué)習(xí)到的淺層的二模態(tài)RB M結(jié)果與單模態(tài)下的值有很強(qiáng)的關(guān)聯(lián),但與跨模態(tài)下的值就沒(méi)有。Shaiedoooo oooolOO ,* 0 0:00ooL一”一.一j.i.一一一一.一 Audio Input Video Input(c) Shallow Bimodal RBMI I I.因此,我們考慮在每個(gè)模態(tài)

8、的預(yù)訓(xùn)練層貪婪的訓(xùn)練一個(gè)R 1 7BM,前面("八 "J J "5)的第一層的隱藏值作為新層的訓(xùn)練數(shù)據(jù)。通過(guò)學(xué)習(xí)到的第一層特征來(lái)表示數(shù)據(jù) 可以更容易的讓模型來(lái)學(xué)習(xí)跨模態(tài)的高階相關(guān)性。通俗的來(lái)說(shuō),第 一層特征相當(dāng)于音位和視位,第二層模型化了他們之間的關(guān)系。Deep Hidden Layer f o o * * * 、/ 廠o o , o c o c , o ":卜 i。o o f 。o , o Audio InputVideo Input(d) Bimadal DBN然而,上述的多模態(tài)模型還有兩個(gè)問(wèn)題。第一,沒(méi)有明確的目標(biāo)提供給模型去發(fā)現(xiàn)跨模態(tài)間的相關(guān)性;

9、一些隱藏層單元只針對(duì)語(yǔ) 音調(diào)整參數(shù),另一些只針對(duì)視頻調(diào)整參數(shù),這樣模型才有可能找到想 要的特征。第二,在跨模態(tài)學(xué)習(xí)布置中只有一個(gè)模態(tài)用于監(jiān)督訓(xùn)練和 測(cè)試,這樣的模型顯得很笨拙。只有一個(gè)模態(tài)呈現(xiàn),就要整合沒(méi)有觀察到的可見(jiàn)變量來(lái)推理。因此,我們提出解決以上問(wèn)題的深度自編碼模型。我們首先考 慮跨模態(tài)學(xué)習(xí)布置:特征學(xué)習(xí)過(guò)程中兩個(gè)模態(tài)都呈現(xiàn)了 ,但只有一個(gè) 模態(tài)用于有監(jiān)督訓(xùn)練和測(cè)試。當(dāng)只給視頻數(shù)據(jù)時(shí),深度自編碼模型 用于訓(xùn)練重建語(yǔ)音和視頻模態(tài)(圖 3a)。我們用二模態(tài)的DBN (D eep belie fnet work)權(quán)重(圖2d )去初始化深度自編碼模型。中間層可以作為新特征表示來(lái)用。這個(gè)模型可以

10、看做多任務(wù)學(xué)習(xí)的 一個(gè)實(shí)例。Audio R電un*tru匚tionVideo Ree口口與trudi0nVideo Reconmctinn00 0000 00,0 0 , * 0 0 I.0。00 0 0至:函黑皿畫(huà) Shared0 0 , ,' : R叩g即htion0 0 1 0 000 00Video Inputaj Vitlt'u-Only Ikwp AutoencoderAudio InputVideo Input(b) Bimodal Deep AutoencoderFigure F Deep Autoencoder Models, A video-onl/* mo

11、del is shown in (a) where the model laanis to rGconstruct both moduli tits given only video as the input. A sintilai model can be druHii for the Tandio-only'' Atting. We tmiu the (b) bimodyl deep auto£incodcr in a dcnoishig fashion, using an augmented dataset with examples that require

12、the network to reconstruct both modalities given only one. Both models are pre-trained using sparse RBXIs (Figure 2d). Since we use a sigmoid transfer function in the deep Mtwoik we can initialize the network using the conditional probability distributions p(h|vl and p(v|h) of the learned RBM.我們?cè)诓贾弥?/p>

13、使用圖3a模型。另一方面,當(dāng)多模態(tài)適合任務(wù)時(shí),并不清楚如何使用模型針對(duì)每個(gè)模態(tài)進(jìn)行深度自編碼訓(xùn)練。一個(gè)直 接的方法是訓(xùn)練解碼權(quán)重t ied (這個(gè)我也不知道怎么理解)的網(wǎng)絡(luò)。但是,這樣的方法擴(kuò)展性不是很好一一如果在測(cè)試時(shí)我們?cè)试S任意 模態(tài)相結(jié)合形成特征,我們將需要訓(xùn)練指數(shù)級(jí)數(shù)量的模型。受到降噪自編碼模型的啟發(fā),我們提出訓(xùn)練 二模態(tài)深度自編碼模型(3b),它使用了一個(gè)擴(kuò)充(對(duì)單模態(tài)輸入的擴(kuò)充)但是有噪聲的 數(shù)據(jù)集。實(shí)際上,我們擴(kuò)充時(shí)一個(gè)模態(tài)用全零作為輸入,另一個(gè)模態(tài) 用原始值作為輸入,但是依舊要求模型重建這兩個(gè)模態(tài)。因此 ,三分 之一的訓(xùn)練數(shù)據(jù)只有視頻作為輸入,三分之一的訓(xùn)練數(shù)據(jù)只有語(yǔ)音作 為輸

14、入,最后三分之一既有視頻又有語(yǔ)言由于使用了稀疏RBM s進(jìn)行的初始化,我們發(fā)現(xiàn)就算深度 自編碼訓(xùn)練之后,隱藏層單元還是有低期望激活函數(shù)。因此,當(dāng)一 個(gè)輸入模態(tài)全設(shè)為零,第一層特征也接近于零。所以,我們本質(zhì)上訓(xùn) 練了一個(gè)模態(tài)特別的深度自編碼網(wǎng)絡(luò)(3 a)。當(dāng)某個(gè)模態(tài)輸入缺失 時(shí),這個(gè)模型仍是魯棒的。4.實(shí)驗(yàn)和結(jié)果我們用分離字母和數(shù)字的語(yǔ)音-視頻分類(lèi)來(lái)評(píng)估我們的模 型。稀疏參數(shù)p采用交叉核實(shí)來(lái)選擇,即其它所有參數(shù)都保持固定(包 括隱藏層大小和權(quán)重調(diào)整)。4.1 數(shù)據(jù)預(yù)處理我們用時(shí)間導(dǎo)數(shù)的譜來(lái)表現(xiàn)語(yǔ)音信號(hào),采用PC A白化(就是歸 一化)將4 8 3維減少到10 0維。對(duì)于視頻,我們預(yù)處理它以便于只提取 嘴部的ROI (感興趣區(qū) 域)。每個(gè)嘴部ROI都縮放到60*80,進(jìn)一步使用PCA白化減少到 32維。我們用4幀連續(xù)視頻作為輸入,這近似于10幀連續(xù)的語(yǔ)音。 對(duì)每個(gè)模態(tài),我們都在時(shí)間上進(jìn)行特征均值歸一化,類(lèi)似于去除直流 分量。我們也注意到在特征里增加時(shí)間導(dǎo)數(shù),這種用法在文獻(xiàn)里有 很多,它有助于模擬不斷變化的語(yǔ)音信息。時(shí)間導(dǎo)數(shù)用歸一化線性 斜率計(jì)算,所以導(dǎo)數(shù)特征的動(dòng)態(tài)范圍可以和原始信號(hào)媲美。4 .2數(shù)據(jù)集和任務(wù)我們保證沒(méi)有測(cè)試集數(shù)據(jù)用于無(wú)監(jiān)督特征學(xué)習(xí)。所有的深度 自編碼模型都用全部無(wú)標(biāo)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論