語(yǔ)音信號(hào)處理第6章-說(shuō)話人識(shí)別課件_第1頁(yè)
語(yǔ)音信號(hào)處理第6章-說(shuō)話人識(shí)別課件_第2頁(yè)
語(yǔ)音信號(hào)處理第6章-說(shuō)話人識(shí)別課件_第3頁(yè)
語(yǔ)音信號(hào)處理第6章-說(shuō)話人識(shí)別課件_第4頁(yè)
語(yǔ)音信號(hào)處理第6章-說(shuō)話人識(shí)別課件_第5頁(yè)
已閱讀5頁(yè),還剩87頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第6章說(shuō)話人識(shí)別應(yīng)用VQ的說(shuō)話人識(shí)別系統(tǒng)應(yīng)用GMM的說(shuō)話人識(shí)別系統(tǒng)概述說(shuō)話人識(shí)別原理及系統(tǒng)結(jié)構(gòu)研究展望第6章說(shuō)話人識(shí)別應(yīng)用VQ的說(shuō)話人識(shí)別系統(tǒng)應(yīng)用GMM的說(shuō)話人6.1概述自動(dòng)說(shuō)話人識(shí)別(ASR)是一種自動(dòng)識(shí)別說(shuō)話人的過(guò)程。說(shuō)話人識(shí)別是從語(yǔ)音中提取不同特征,然后通過(guò)判斷邏輯來(lái)判定該語(yǔ)句的歸屬類別。說(shuō)話人識(shí)別不注重包含在語(yǔ)音信號(hào)中的文字符號(hào)及其語(yǔ)義內(nèi)容信息,而是著眼于包含在語(yǔ)音信號(hào)中的個(gè)人特征,以達(dá)到識(shí)別說(shuō)話人的目的。因此,相比于語(yǔ)音識(shí)別,說(shuō)話人識(shí)別相對(duì)簡(jiǎn)單。自動(dòng)說(shuō)話人識(shí)別按其最終完成的任務(wù)可分為兩類:自動(dòng)說(shuō)話人確認(rèn)和自動(dòng)說(shuō)話人辨認(rèn)。自動(dòng)說(shuō)話人確認(rèn)是確認(rèn)一個(gè)人的身份,只涉及一個(gè)特定的參考模型和待識(shí)別模式之間的比較,系統(tǒng)只需做出“是”或“不是”的二元判決;而對(duì)于自動(dòng)說(shuō)話人辨認(rèn),系統(tǒng)則必須辨認(rèn)出待識(shí)別的語(yǔ)音是來(lái)自待考察的

個(gè)人中的哪一個(gè),有時(shí)還要對(duì)這

個(gè)人以外的語(yǔ)音做出拒絕的判斷。6.1概述自動(dòng)說(shuō)話人識(shí)別(ASR)是一種自動(dòng)識(shí)別說(shuō)話人的6.1概述自動(dòng)說(shuō)話人識(shí)別按輸入的測(cè)試語(yǔ)音來(lái)分,可分為三類,即與文本無(wú)關(guān)、與文本有關(guān)和文本指定型:1)與文本無(wú)關(guān)的說(shuō)話人識(shí)別指的是不規(guī)定說(shuō)話內(nèi)容的說(shuō)話人識(shí)別,即識(shí)別時(shí)不限定所用的語(yǔ)音內(nèi)容;2)與文本有關(guān)的說(shuō)話人識(shí)別指的是規(guī)定內(nèi)容的說(shuō)話人識(shí)別,即只能用規(guī)定內(nèi)容的語(yǔ)句進(jìn)行識(shí)別。但是,這兩種識(shí)別存在一個(gè)問(wèn)題,即如果事先用錄音裝置把說(shuō)話人本人的講話內(nèi)容記錄下來(lái),然后用于識(shí)別,則存在被識(shí)別裝置誤接受的危險(xiǎn);3)指定文本型說(shuō)話人識(shí)別中,每一次識(shí)別時(shí)必須先由識(shí)別裝置向說(shuō)話人指定需發(fā)音的文本內(nèi)容,只有在系統(tǒng)確認(rèn)說(shuō)話人對(duì)指定文本內(nèi)容正確發(fā)音時(shí)才可以被接受,這樣可減輕本人語(yǔ)聲被盜用的危險(xiǎn)。6.1概述自動(dòng)說(shuō)話人識(shí)別按輸入的測(cè)試語(yǔ)音來(lái)分,可分為三類,010203聲紋監(jiān)聽(tīng)多人識(shí)別聲紋比對(duì)銀行(電話,網(wǎng)上)證券銀行卡,身份卡聲紋密匙高檔酒店,會(huì)員俱樂(lè)部,貴族商城等玩具汽車個(gè)人電腦(家庭分級(jí)密碼)公安領(lǐng)域?金融領(lǐng)域?生活領(lǐng)域★潛在的應(yīng)用010203聲紋監(jiān)聽(tīng)銀行(電話,網(wǎng)上)高檔酒店,會(huì)員俱樂(lè)部,技術(shù)難題:跨信道、噪聲技術(shù)難題:跨信道、噪聲6.2

說(shuō)話人識(shí)別原理及系統(tǒng)結(jié)構(gòu)說(shuō)話人識(shí)別系統(tǒng)由預(yù)處理、特征提取、模式匹配和識(shí)別決策等幾大部分組成。除此之外,完整的說(shuō)話人識(shí)別系統(tǒng)還應(yīng)包括模板庫(kù)的建立、專家知識(shí)庫(kù)的建立和判決閾值選擇等部分。6.2說(shuō)話人識(shí)別原理及系統(tǒng)結(jié)構(gòu)說(shuō)話人識(shí)別系統(tǒng)由預(yù)處理、特征6.2

說(shuō)話人識(shí)別原理及系統(tǒng)結(jié)構(gòu)說(shuō)話人識(shí)別系統(tǒng)可分為兩個(gè)階段:訓(xùn)練(注冊(cè))階段和識(shí)別階段。1)在訓(xùn)練階段,系統(tǒng)的每一個(gè)使用者說(shuō)出若干訓(xùn)練語(yǔ)料,系統(tǒng)根據(jù)這些訓(xùn)練語(yǔ)料,通過(guò)訓(xùn)練學(xué)習(xí)建立每個(gè)使用者的模板或模型參數(shù)參考集。2)在識(shí)別階段,把從待識(shí)別說(shuō)話人說(shuō)出的語(yǔ)音信號(hào)中提取的特征參數(shù),與在訓(xùn)練過(guò)程中得到的參考參量集或模型模板加以比較,并且根據(jù)一定的相似性準(zhǔn)則進(jìn)行判定。6.2說(shuō)話人識(shí)別原理及系統(tǒng)結(jié)構(gòu)說(shuō)話人識(shí)別系統(tǒng)可分為兩個(gè)階段6.2.1預(yù)處理1)話筒自適應(yīng)和輸入電平的設(shè)定輸入語(yǔ)音信號(hào)的品質(zhì)對(duì)語(yǔ)音識(shí)別性能的影響很大,因此,對(duì)話筒的耐噪聲性能要求很高。此外,為了保持識(shí)別性能穩(wěn)定,必須具備對(duì)話筒以及前端設(shè)備性能的測(cè)定以及根據(jù)測(cè)試結(jié)果對(duì)輸入語(yǔ)音的變形進(jìn)行校正的功能。2)降噪當(dāng)話筒與嘴有一定距離的時(shí)候,以及在汽車?yán)锘驊敉獾戎車h(huán)境噪聲大的時(shí)候必須對(duì)輸入信號(hào)進(jìn)行降噪處理。3)語(yǔ)音區(qū)間的端點(diǎn)檢測(cè)端點(diǎn)檢測(cè)的目的是從語(yǔ)音信號(hào)流中自動(dòng)地分割出識(shí)別基元,即用數(shù)字處理技術(shù)來(lái)找出語(yǔ)音信號(hào)中的各種段落的始點(diǎn)和終點(diǎn)的位置。6.2.1預(yù)處理1)話筒自適應(yīng)和輸入電平的設(shè)定6.2.1預(yù)處理端點(diǎn)檢測(cè)難度:1)由于電平的變化,難于設(shè)置對(duì)各次試驗(yàn)都適用的閾值;2)咂嘴聲、呼吸氣流或其它某些雜音會(huì)使語(yǔ)音波形產(chǎn)生一個(gè)很小的尖峰,可能超過(guò)所設(shè)計(jì)門(mén)限值;3)突發(fā)性干擾會(huì)使短時(shí)參數(shù)變得很大,持續(xù)很短時(shí)間后又恢復(fù)為寂靜特性,這種干擾應(yīng)該計(jì)入寂靜段中;4)弱摩擦音和鼻音的特性與噪聲極為接近,其中鼻韻往往還拖得很長(zhǎng);5)如果輸入信號(hào)中有50Hz工頻干擾或者A/D變換點(diǎn)的工作點(diǎn)偏移時(shí),用短時(shí)過(guò)零率區(qū)分無(wú)聲和清音的方法就變的不可靠。6.2.1預(yù)處理端點(diǎn)檢測(cè)難度:6.2.1預(yù)處理優(yōu)秀的端點(diǎn)檢測(cè)算法應(yīng)具有:1)門(mén)限值對(duì)對(duì)背景噪聲的變化有一定的適應(yīng)性;2)將短時(shí)沖擊噪聲和人的咂嘴等瞬間超過(guò)門(mén)限值的信號(hào)納入無(wú)聲段而不是有聲段;3)對(duì)于爆破音的寂靜段,應(yīng)將其納入語(yǔ)音的范圍而不是無(wú)聲段;4)應(yīng)該盡可能避免在檢測(cè)中丟失鼻韻和弱摩擦音等與噪聲特性相似、短時(shí)參數(shù)較少的語(yǔ)音;5)應(yīng)該避免使用過(guò)零率作為判決標(biāo)準(zhǔn)而帶來(lái)的負(fù)面影響。6.2.1預(yù)處理優(yōu)秀的端點(diǎn)檢測(cè)算法應(yīng)具有:6.2.2說(shuō)話人識(shí)別特征的選取特征提取就是從說(shuō)話人的語(yǔ)音信號(hào)中提取出表示說(shuō)話人個(gè)性的基本特征,是最重要的環(huán)節(jié)之一。選取的特征應(yīng)當(dāng)滿足下述準(zhǔn)則:1)能夠有效地區(qū)分不同的說(shuō)話人,但又能在同一說(shuō)話人的語(yǔ)音發(fā)生變化時(shí)相對(duì)保持穩(wěn)定;2)易于從語(yǔ)音信號(hào)中提取;3)不易被模仿;4)盡量不隨時(shí)間和空間變化。一般來(lái)說(shuō),同時(shí)滿足上述全部要求的特征通常是不可能找到的,只能使用折衷方案。6.2.2說(shuō)話人識(shí)別特征的選取特征提取就是從說(shuō)話人的語(yǔ)音6.2.2特征的選取說(shuō)話人識(shí)別中常用的參數(shù)類別:1)線性預(yù)測(cè)參數(shù)及其派生參數(shù):包括部分相關(guān)系數(shù)、聲道面積比函數(shù)、線譜對(duì)系數(shù)以及LPC倒譜系數(shù)等。2)語(yǔ)音頻譜直接導(dǎo)出的參數(shù):包括功率譜、基音輪廓、共振峰及其帶寬、語(yǔ)音強(qiáng)度及其變化等。3)混合參數(shù)4)其他魯棒性參數(shù):包括Mel頻率倒譜系數(shù),以及經(jīng)過(guò)噪聲譜減或者信道譜減的去噪倒譜系數(shù)等。6.2.2特征的選取說(shuō)話人識(shí)別中常用的參數(shù)類別:6.2.3特征參量評(píng)價(jià)方法同一說(shuō)話人的不同語(yǔ)音會(huì)在參數(shù)空間映射出不同的點(diǎn),若對(duì)同一人來(lái)說(shuō),這些點(diǎn)分布比較集中,而對(duì)不同說(shuō)話人的分布相距較遠(yuǎn),則選取的參數(shù)就是有效的。1)兩種分布的方差之比(F比):2)評(píng)價(jià)多維特征矢量的有效性的可分性測(cè)度(D比):式中說(shuō)話人內(nèi)特征矢量的協(xié)方差矩陣W為6.2.3特征參量評(píng)價(jià)方法同一說(shuō)話人的不同語(yǔ)音會(huì)在參數(shù)空6.2.4模式匹配方法1)動(dòng)態(tài)時(shí)間規(guī)整方法(DTW)將識(shí)別模板與參考模板進(jìn)行時(shí)間對(duì)比時(shí),需要按照某種距離測(cè)度得出兩模板間的相似程度。2)矢量量化方法(VQ)3)隱馬爾可夫模型方法(HMM)隱馬爾可夫模型是一種基于轉(zhuǎn)移概率和輸出概率的隨機(jī)模型,識(shí)別時(shí)計(jì)算未知語(yǔ)音在狀態(tài)轉(zhuǎn)移過(guò)程中的最大概率,根據(jù)最大概率對(duì)應(yīng)的模型進(jìn)行判決。4)高斯混合模型(GMM)5)人工神經(jīng)網(wǎng)絡(luò)方法(ANN)人工神經(jīng)網(wǎng)絡(luò)是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,其性能近似理想的分類器。其缺點(diǎn)是訓(xùn)練時(shí)間長(zhǎng),動(dòng)態(tài)時(shí)間規(guī)整能力弱。6.2.4模式匹配方法1)動(dòng)態(tài)時(shí)間規(guī)整方法(DTW)6.2.5判別方法和閾值的選擇對(duì)于要求快速處理的說(shuō)話人確認(rèn)系統(tǒng),可以采用多門(mén)限判決和預(yù)分類技術(shù)來(lái)達(dá)到加快系統(tǒng)響應(yīng)時(shí)間而又不降低確認(rèn)率的效果。1)多門(mén)限判決相當(dāng)于一種序貫判決方法,它使用多個(gè)門(mén)限來(lái)作出接受還是拒絕的判決。2)在說(shuō)話人辨認(rèn)時(shí),每個(gè)人的模板都要被檢查一遍,所以系統(tǒng)的響應(yīng)時(shí)間一般隨待識(shí)別的人數(shù)線性增加,但是如果按照某些特征參數(shù)預(yù)先地將待識(shí)別的人聚成幾類,那么在識(shí)別時(shí),根據(jù)測(cè)試語(yǔ)音的類別,只要用該類的一組候選人的模板參數(shù)匹配,就可以大大減少模板匹配所需的次數(shù)和時(shí)間。6.2.5判別方法和閾值的選擇對(duì)于要求快速處理的說(shuō)話人確6.2.5判別方法和閾值的選擇雖然在一般情況下,判決門(mén)限都應(yīng)該選取在FR和FA相等的點(diǎn)上,但這個(gè)點(diǎn)的確定需要較多數(shù)據(jù)的實(shí)驗(yàn)結(jié)果,還不一定能得到正好相等的點(diǎn)。確認(rèn)錯(cuò)誤用錯(cuò)誤拒絕率(FR)和錯(cuò)誤接受率(FA)來(lái)表示。前者是拒絕真實(shí)的聲言者而造成的錯(cuò)誤,后者則是把冒名頂替者錯(cuò)認(rèn)為其聲言者引起的錯(cuò)誤。判決門(mén)限錯(cuò)誤概率誤拒率FR誤受率FAabc06.2.5判別方法和閾值的選擇雖然在一般情況下,判決門(mén)限6.2.6性能評(píng)價(jià)一個(gè)說(shuō)話人識(shí)別系統(tǒng)的好壞是由許多因素決定的,主要有正確識(shí)別率(或出錯(cuò)率)、訓(xùn)練時(shí)間的長(zhǎng)短、識(shí)別時(shí)間、對(duì)參考參量存儲(chǔ)量的要求、使用者使用的方便程度等,實(shí)用中還有價(jià)格因素。目前對(duì)說(shuō)話人識(shí)別系統(tǒng)的性能評(píng)價(jià)還沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)。一個(gè)系統(tǒng)所具有的識(shí)別性能盡管看起來(lái)很好,但是它們所依據(jù)的條件卻是差別很大的。為了給出統(tǒng)一的評(píng)價(jià),需要建立一個(gè)測(cè)試數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)應(yīng)該包含大量的說(shuō)話人且具有不同發(fā)音風(fēng)格和不同時(shí)間間隔的語(yǔ)音數(shù)據(jù)。此外,系統(tǒng)還應(yīng)該考慮語(yǔ)音經(jīng)不同信道傳輸后的影響。6.2.6性能評(píng)價(jià)一個(gè)說(shuō)話人識(shí)別系統(tǒng)的好壞是由許多因素決6.3

應(yīng)用VQ的說(shuō)話人識(shí)別系統(tǒng)矢量量化(VQ)技術(shù)是七十年代后期發(fā)展起來(lái)的一種數(shù)據(jù)壓縮和編碼技術(shù),廣泛應(yīng)用于語(yǔ)音編碼、語(yǔ)音合成、語(yǔ)音識(shí)別和說(shuō)話人識(shí)別等領(lǐng)域。矢量量化在語(yǔ)音信號(hào)處理中占有十分重要的地位,在許多重要的研究課題中,矢量量化都起著非常重要的作用。當(dāng)可用于訓(xùn)練的數(shù)據(jù)量較小時(shí),基于VQ的方法比連續(xù)的HMM方法有更大的魯棒性。同時(shí),基于VQ的方法比較簡(jiǎn)單,實(shí)時(shí)性也較好。因此,基于VQ的說(shuō)話人識(shí)別方法,仍然是最常用的識(shí)別方法之一。6.3應(yīng)用VQ的說(shuō)話人識(shí)別系統(tǒng)矢量量化(VQ)技術(shù)是七十年6.3.1系統(tǒng)模型應(yīng)用VQ的說(shuō)話人識(shí)別系統(tǒng)包含兩個(gè)步驟:一是利用每個(gè)說(shuō)話人的訓(xùn)練語(yǔ)音,建立參考模型碼本;二是對(duì)待識(shí)別話者的語(yǔ)音的每一幀和碼本碼字進(jìn)行匹配。語(yǔ)種1碼本1語(yǔ)種N碼本N語(yǔ)種2碼本2參考模型…VQ失真計(jì)算特征提取辨識(shí)判決語(yǔ)音輸入識(shí)別結(jié)果6.3.1系統(tǒng)模型應(yīng)用VQ的說(shuō)話人識(shí)別系統(tǒng)包含兩個(gè)步驟:6.3.1系統(tǒng)模型說(shuō)話人識(shí)別系統(tǒng)可以將每個(gè)待識(shí)別的說(shuō)話人看作是一個(gè)信源,用一個(gè)碼本來(lái)表征,碼本是從該說(shuō)話人的訓(xùn)練序列中提取的特征矢量聚類而生成,只要訓(xùn)練的數(shù)據(jù)量足夠,就可以認(rèn)為這個(gè)碼本有效的包含了說(shuō)話人的個(gè)人特征,而與說(shuō)話的內(nèi)容無(wú)關(guān)。識(shí)別時(shí),首先對(duì)待識(shí)別的語(yǔ)音段提取特征矢量序列,然后用系統(tǒng)已有的每個(gè)碼本依次進(jìn)行矢量量化,計(jì)算各自的平均量化失真。選擇平均量化失真最小的那個(gè)碼本所對(duì)應(yīng)的說(shuō)話人作為系統(tǒng)識(shí)別的結(jié)果。在VQ法中模型匹配不依賴于參數(shù)的時(shí)間順序,因而匹配過(guò)程中無(wú)需采用動(dòng)態(tài)時(shí)間規(guī)整技術(shù);而且這種方法比應(yīng)用動(dòng)態(tài)時(shí)間規(guī)整方法的參考模型存儲(chǔ)量小,即碼本碼字小。6.3.1系統(tǒng)模型說(shuō)話人識(shí)別系統(tǒng)可以將每個(gè)待識(shí)別的說(shuō)話人6.3.2

VQ基本原理將K維歐幾里德空間RK無(wú)遺漏地劃分成J個(gè)互不相交的子空間

,即滿足

這些子空間Rj稱為胞腔。在每一個(gè)子空間Rj找一個(gè)代表矢量Yj,則J個(gè)代表矢量可以組成矢量集為:

這樣,

Y就組成了一個(gè)矢量量化器,被稱為碼書(shū)或碼本;

Yj稱為碼矢或碼字;Y內(nèi)矢量的個(gè)數(shù)J,則叫作碼本長(zhǎng)度或碼本尺寸。不同的劃分或不同的代表矢量選取方法就可以構(gòu)成不同的矢量量化器。6.3.2VQ基本原理將K維歐幾里德空間RK無(wú)遺漏地劃分6.3.2

VQ基本原理當(dāng)矢量量化器輸入一個(gè)任意矢量Xi∈RK進(jìn)行矢量量化時(shí),矢量量化器首先判斷它屬于哪個(gè)子空間Rj

,然后輸出該子空間

Rj

的代表矢量Yj

。也就是說(shuō),矢量量化過(guò)程就是用Yj

代表Xi的過(guò)程,或者說(shuō)把Xi量化成Yj

,即

式中,Q(Xi)為量化器函數(shù)。由此可知,矢量量化的全過(guò)程就是完成一個(gè)從K維歐幾里德空間RK中的矢量

到K維空間RK有限子集Y的映射:

6.3.2VQ基本原理當(dāng)矢量量化器輸入一個(gè)任意矢量Xi∈6.3.2

VQ基本原理二維矢量量化器實(shí)例6.3.2VQ基本原理二維矢量量化器實(shí)例6.3.2

VQ基本原理矢量量化技術(shù)進(jìn)行語(yǔ)音處理時(shí)的兩個(gè)要解決的問(wèn)題:(1)設(shè)計(jì)一個(gè)好的碼本。關(guān)鍵是如何劃分

個(gè)區(qū)域邊界。這需要用大量的輸入信號(hào)矢量,經(jīng)過(guò)統(tǒng)計(jì)實(shí)驗(yàn)才能確定。為了建立一個(gè)好的碼本,首先要求建立碼本的訓(xùn)練數(shù)據(jù)不僅數(shù)據(jù)量要充分大,而且要有代表性;其次,要選擇一個(gè)好的失真度準(zhǔn)則以及碼本優(yōu)化方法。(2)未知矢量的量化。對(duì)未知模式矢量,按照選定的失真測(cè)度準(zhǔn)則,把未知矢量量化為失真測(cè)度最小的區(qū)域邊界的中心矢量值(碼字矢量),并獲得該碼字的序列號(hào)(碼子在碼本中的地址或標(biāo)號(hào))。對(duì)于兩矢量進(jìn)行比較的測(cè)度問(wèn)題,通常選用的測(cè)度就是兩矢量之間的距離,或以其中某一矢量為基準(zhǔn)時(shí)的失真度。其次是未知矢量量化時(shí)的搜索策略,好的搜索策略可以減少量化時(shí)間。6.3.2VQ基本原理矢量量化技術(shù)進(jìn)行語(yǔ)音處理時(shí)的兩個(gè)要6.3.3失真測(cè)度在應(yīng)用VQ法進(jìn)行說(shuō)話人識(shí)別時(shí),失真測(cè)度的選擇將直接影響到聚類結(jié)果,進(jìn)而影響說(shuō)話人識(shí)別系統(tǒng)的性能。失真測(cè)度(距離測(cè)度)是將輸入矢量

用碼本重構(gòu)矢量

來(lái)表征時(shí)所產(chǎn)生的誤差或失真的度量方法,它可以描述兩個(gè)或多個(gè)模型矢量間的相似程度。失真測(cè)度的選擇要根據(jù)所使用的參數(shù)類型來(lái)定,在語(yǔ)音信號(hào)處理采用的矢量量化中,最常用的失真測(cè)度是歐氏距離測(cè)度、加權(quán)歐氏距離測(cè)度、Itakura-Saito距離、似然比失真測(cè)度和識(shí)別失真測(cè)度等。6.3.3失真測(cè)度在應(yīng)用VQ法進(jìn)行說(shuō)話人識(shí)別時(shí),失真測(cè)度6.3.3失真測(cè)度1)歐氏距離測(cè)度(1)均方誤差,其定義為:(2)r平均誤差,其定義式為:(3)最大平均誤差,其定義式為:(4)加權(quán)歐氏距離測(cè)度,其定義為:6.3.3失真測(cè)度1)歐氏距離測(cè)度6.3.3失真測(cè)度2)線性預(yù)測(cè)失真測(cè)度當(dāng)語(yǔ)音信號(hào)特征矢量是用線性預(yù)測(cè)方法求出的LPC系數(shù)時(shí),此時(shí)僅由預(yù)測(cè)器系數(shù)的差值不能完全表征這兩個(gè)語(yǔ)音信息的差別,即不宜直接使用歐氏距離,可選用I-S距離測(cè)度、對(duì)數(shù)似然比失真測(cè)度和模型失真測(cè)度。(1)I-S距離測(cè)度(2)對(duì)數(shù)似然比失真測(cè)度(3)模型失真測(cè)度6.3.3失真測(cè)度2)線性預(yù)測(cè)失真測(cè)度6.3.3失真測(cè)度3)識(shí)別失真測(cè)度頻譜與能量都攜帶有語(yǔ)音信號(hào)的信息,如果僅僅靠功率譜作為失真比較的參數(shù),識(shí)別的性能將不夠理想。式中,E及E′分別為輸入信號(hào)矢量和碼書(shū)重構(gòu)矢量的歸一化能量,

α為加權(quán)因子,g(x)可取為:g(x)的作用是:當(dāng)兩矢量的能量接近時(shí),忽略能量差異引起的影響;當(dāng)兩矢量的能量相差較大時(shí),即進(jìn)行線性加權(quán);而當(dāng)能量差超過(guò)門(mén)限xF時(shí),則為某固定值。6.3.3失真測(cè)度3)識(shí)別失真測(cè)度6.3.4系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)在VQ算法中,碼本是非常關(guān)鍵的。最佳碼本設(shè)計(jì)的任務(wù)就是在一定的條件下,使得畸變E[d(X,Y)]的統(tǒng)計(jì)平均值

達(dá)到最小。為了實(shí)現(xiàn)這一目的,應(yīng)該遵循以下兩條原則:(1)根據(jù)X選擇相應(yīng)的碼字Yl時(shí)應(yīng)遵從最近鄰準(zhǔn)則,即:(2)設(shè)所有選擇碼字Yl(即歸屬于Yl所表示的區(qū)域的)的輸入矢量X的集合為Sl

,那么

應(yīng)使此集合中的所有矢量與

之間的畸變值最小。如果X與Y之間的畸變值等于它們的歐氏距離,則Yl應(yīng)由下式表示:

6.3.4系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)在VQ算法中,碼本是非常關(guān)鍵的6.3.4系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)基于歐式距離的碼本設(shè)計(jì)的遞推算法——LBG算法a)設(shè)定碼本和迭代訓(xùn)練參數(shù):設(shè)全部輸入訓(xùn)練矢量X的集合為

S;設(shè)置碼本的尺寸為J;設(shè)置迭代算法的最大迭代次數(shù)為L(zhǎng);設(shè)置畸變改進(jìn)閾值為δ。b)設(shè)定初始化值:設(shè)置J個(gè)碼字的初值Y1(0),…,YJ(0);設(shè)置畸變初值D(0)=∞;設(shè)置迭代次數(shù)初值m=1。c)假定根據(jù)最近鄰準(zhǔn)則將S分成了J個(gè)子集S1(m),…,SJ(m),即當(dāng)X∈SJ(m)時(shí),下式成立:d)計(jì)算總畸變

D(m):

6.3.4系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)基于歐式距離的碼本設(shè)計(jì)的遞推算6.3.4系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)e)計(jì)算畸變改進(jìn)量ΔD(m)的相對(duì)值δ(m)

f)計(jì)算新碼本的碼字Y1(m),…,YJ(m)

g)判斷δ(m)

是否小于δ。若是,轉(zhuǎn)入i)執(zhí)行;否則,轉(zhuǎn)入h)執(zhí)行。h)判斷m是否小于L。若否,轉(zhuǎn)入i)執(zhí)行;否則,m=m+1,轉(zhuǎn)入c)執(zhí)行。i)迭代終止;輸出

作為訓(xùn)練成的碼本的碼字Y1(m),…,YJ(m)

,并且輸出總畸變D(m)

。6.3.4系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)e)計(jì)算畸變改進(jìn)量ΔD(m)的6.3.4系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)從上面的LBG算法步驟可以看出,在開(kāi)始迭代前,必須先確定一個(gè)初始碼本。這個(gè)初始碼本的設(shè)計(jì)對(duì)最佳碼本的設(shè)計(jì)有很大影響。初始碼本的構(gòu)造有許多方法:1)隨機(jī)碼本法:從訓(xùn)練序列中隨機(jī)地選取J個(gè)矢量作為初始碼字,從而構(gòu)成初始碼本。優(yōu)點(diǎn)是簡(jiǎn)單,缺點(diǎn)是這樣的碼字沒(méi)有代表性,會(huì)導(dǎo)致碼本訓(xùn)練的收斂變慢或不能收斂;2)分裂碼本法:第一步求出S中全體訓(xùn)練矢量X的質(zhì)心作為初始碼本的碼字Y1(0);然后在S中找一個(gè)與此質(zhì)心的畸變最大的矢量Xj,再在S中找一個(gè)與Xj的誤差為最大的矢量Xk;以Xj和Xk為基準(zhǔn)進(jìn)行劃分,得到Sj和Sk兩個(gè)子集;對(duì)這兩個(gè)子集分別按同樣方法進(jìn)行處理就可以得到四個(gè)子集。依此類推,若

J=2r則只要進(jìn)行r次分裂就可以得到J個(gè)子集。6.3.4系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)從上面的LBG算法步驟可以看出6.3.4系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)基于矢量量化的說(shuō)話人識(shí)別系統(tǒng)的識(shí)別過(guò)程可概況為:1)從測(cè)試語(yǔ)音提取特征矢量序列

;2)每個(gè)模板依次對(duì)特征矢量序列進(jìn)行矢量量化,計(jì)算各自的平均量化誤差:

式中,

是第i個(gè)碼本中第?個(gè)碼本矢量,而

是待測(cè)矢量和碼矢量之間的失真測(cè)度;3)選擇平均量化誤差最小的碼本所對(duì)應(yīng)的說(shuō)話人作為系統(tǒng)的識(shí)別結(jié)果。6.3.4系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)基于矢量量化的說(shuō)話人識(shí)別系統(tǒng)的6.4

應(yīng)用GMM的說(shuō)話人識(shí)別系統(tǒng)在辨認(rèn)任務(wù)中,目的是找到一個(gè)說(shuō)話者i*

,其對(duì)應(yīng)的模型參數(shù)θ*使得待識(shí)別語(yǔ)音特征矢量組具有最大后驗(yàn)概率P(θi/X)。6.4.1系統(tǒng)模型6.4應(yīng)用GMM的說(shuō)話人識(shí)別系統(tǒng)在辨認(rèn)任務(wù)中,目的是找到一6.4.1系統(tǒng)模型根據(jù)貝葉斯理論,最大后驗(yàn)概率可表示為:

假定該語(yǔ)音信號(hào)出自封閉集里的每個(gè)人的可能性相等,則P(θi)=1/N。對(duì)于一個(gè)確定的觀察值矢量

X,P(X)是一個(gè)確定的常數(shù)值,對(duì)所有說(shuō)話人都相等。因此,求取后驗(yàn)概率的最大值可以通過(guò)求取P(X/θi)獲得,這樣,辨認(rèn)該語(yǔ)音屬于語(yǔ)音庫(kù)中的哪一個(gè)說(shuō)話人可以表示為:6.4.1系統(tǒng)模型根據(jù)貝葉斯理論,最大后驗(yàn)概率可表示為:6.4.2

GMM概述高斯混合模型是單一高斯機(jī)率密度函數(shù)的延伸,能夠平滑地近似任意形狀的密度分布,常被用在語(yǔ)音、圖像識(shí)別等。高斯密度函數(shù)估計(jì)是一種參數(shù)化模型。在聚類問(wèn)題中,根據(jù)高斯概率密度函數(shù)參數(shù)的不同,每一個(gè)高斯模型可以看作一種類別,輸入一個(gè)樣本

,即可通過(guò)概率密度函數(shù)計(jì)算其值,然后通過(guò)一個(gè)閾值來(lái)判斷該樣本是否屬于高斯模型。多維高斯(正態(tài))分布概率密度函數(shù)定義如下:將任意測(cè)試樣本

輸入,均可得到一個(gè)標(biāo)量

N,然后根據(jù)閾值t來(lái)確定該樣本是否屬于該類別。閾值t可以為經(jīng)驗(yàn)值,也可以通過(guò)實(shí)驗(yàn)確定。6.4.2GMM概述高斯混合模型是單一高斯機(jī)率密度函數(shù)的6.4.2

GMM概述高斯混合模型的解釋:有一批觀察數(shù)據(jù)X,數(shù)據(jù)個(gè)數(shù)為S。假設(shè)每個(gè)點(diǎn)均由一個(gè)單高斯分布生成(具體參數(shù)μj和∑j未知),而這一批數(shù)據(jù)共由M個(gè)單高斯模型生成,具體某個(gè)數(shù)據(jù)xi屬于哪個(gè)單高斯模型未知,且每個(gè)單高斯模型在混合模型中占的比例αj未知,將所有來(lái)自不同分布的數(shù)據(jù)點(diǎn)混在一起,該分布稱為高斯混合分布。高斯混合模型可以通過(guò)加權(quán)函數(shù)表示:6.4.2GMM概述高斯混合模型的解釋:6.4.2

GMM概述該GMM共有j個(gè)SGM模型,第j個(gè)SGM的概率密度函數(shù)可表示為:GMM需要確定的參數(shù)Θ包括影響因子αj、各類均值μj和各類協(xié)方差∑j。最佳的一組參數(shù)應(yīng)該是其所確定的概率分布生成的數(shù)據(jù)點(diǎn)的概率最大,這個(gè)概率實(shí)際上等于

,稱作似然函數(shù)。為防止小數(shù)連乘下溢,因此通常會(huì)對(duì)其取對(duì)數(shù)得到對(duì)數(shù)似然函數(shù)。通過(guò)對(duì)其求導(dǎo)并令導(dǎo)數(shù)等于零,然后解方程,完成參數(shù)估計(jì)。GMM的對(duì)數(shù)似然函數(shù),即樣本X的概率公式為:6.4.2GMM概述該GMM共有j個(gè)SGM模型,第j6.4.3

GMM的參數(shù)估計(jì)說(shuō)話人識(shí)別可以認(rèn)為是一種聚類問(wèn)題。因此可以假定現(xiàn)有數(shù)據(jù)是由GMM生成的,然后根據(jù)數(shù)據(jù)推出GMM的概率分布,GMM的

個(gè)高斯成分實(shí)際上就對(duì)應(yīng)

個(gè)聚類。根據(jù)數(shù)據(jù)來(lái)推算概率密度通常被稱作密度估計(jì)。特別地,當(dāng)已知(或假定)概率密度函數(shù)的形式時(shí),要估計(jì)其中的參數(shù)的過(guò)程被稱作“參數(shù)估計(jì)”。由于在對(duì)數(shù)函數(shù)里面又有求和,因此無(wú)法直接用求導(dǎo)辦法求得最大值。常用的方法是期望最大化算法(ExpectationMaximizationAlgorithm,EM)。6.4.3GMM的參數(shù)估計(jì)說(shuō)話人識(shí)別可以認(rèn)為是一種聚類問(wèn)題6.4.3

GMM的參數(shù)估計(jì)EM算法的主要步驟:(1)估計(jì)步驟(E-step)αj的后驗(yàn)概率為:為每個(gè)樣本點(diǎn)xi在該模型下的概率密度。(2)最大化步驟(M-step)更新權(quán)值更新均值更新方差矩陣6.4.3GMM的參數(shù)估計(jì)EM算法的主要步驟:6.4.3

GMM的參數(shù)估計(jì)在使用EM算法訓(xùn)練GMM時(shí),GMM模型的高斯分量的個(gè)數(shù)M的選擇是一個(gè)相當(dāng)重要而困難的問(wèn)題。高斯分量M的大小,很難從理論上推導(dǎo)出來(lái),可以根據(jù)不同的識(shí)別系統(tǒng),由實(shí)驗(yàn)確定。在實(shí)驗(yàn)應(yīng)用中,往往得不到大量充分的訓(xùn)練數(shù)據(jù)對(duì)模型參數(shù)進(jìn)行訓(xùn)練。由于訓(xùn)練數(shù)據(jù)的不充分,GMM模型的協(xié)方差矩陣的一些分量可能會(huì)很小,這些很小的值對(duì)模型參數(shù)的似然度函數(shù)影響很大,嚴(yán)重影響系統(tǒng)的性能。為了避免小的值對(duì)系統(tǒng)性能的影響,一種方法是在EM算法的迭代計(jì)算中,對(duì)協(xié)方差的值設(shè)置一個(gè)門(mén)限值,在訓(xùn)練過(guò)程中令協(xié)方差的值不小于設(shè)定的門(mén)限值,否則用設(shè)置的門(mén)限值代替。門(mén)限值設(shè)置可通過(guò)觀察協(xié)方差矩陣來(lái)定。6.4.3GMM的參數(shù)估計(jì)在使用EM算法訓(xùn)練GMM時(shí),GM6.4.4

GMM模型的問(wèn)題初始值的選擇對(duì)于聚類問(wèn)題非常關(guān)鍵,針對(duì)GMM模型常用的初始值的設(shè)定方案主要有兩種:(1)協(xié)方差矩陣∑j0設(shè)為單位矩陣;每個(gè)模型比例的先驗(yàn)概率αj0=1/M;均值μj0設(shè)為隨機(jī)數(shù);(2)由K均值聚類算法對(duì)樣本進(jìn)行聚類,利用各類的均值作為μj0,并計(jì)算∑j0,αj0取各類樣本占樣本總數(shù)的比例。實(shí)際應(yīng)用中,系統(tǒng)可以兩者結(jié)合,即先按照(1)進(jìn)行初始化,然后按照K均值聚類算法再進(jìn)行優(yōu)化。*初值的選擇6.4.4GMM模型的問(wèn)題初始值的選擇對(duì)于聚類問(wèn)題非常關(guān)6.4.4

GMM模型的問(wèn)題均值聚類算法的基本思想是:以空間中個(gè)點(diǎn)為中心進(jìn)行聚類,對(duì)最靠近它們的對(duì)象歸類。通過(guò)迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結(jié)果。該算法的最大優(yōu)勢(shì)在于簡(jiǎn)潔和快速。算法的關(guān)鍵在于初始中心的選擇和距離公式。*初值的選擇6.4.4GMM模型的問(wèn)題均值聚類算法的基本思想是:以空6.4.4

GMM模型的問(wèn)題在聚類問(wèn)題中,訓(xùn)練樣本是

,每個(gè)

。K均值聚類算法是將樣本聚類成K個(gè)簇,算法描述如下:1、隨機(jī)選取

個(gè)聚類質(zhì)心點(diǎn)為

。2、重復(fù)下面過(guò)程直到收斂:對(duì)于每一個(gè)樣例

,計(jì)算其應(yīng)該屬于的類;對(duì)于每一個(gè)類j

,重新計(jì)算該類的質(zhì)心

。*初值的選擇6.4.4GMM模型的問(wèn)題在聚類問(wèn)題中,訓(xùn)練樣本是6.4.4

GMM模型的問(wèn)題算法的收斂方法主要有兩種:1)不斷迭代步驟E和M,重復(fù)更新參數(shù)

μj,∑j和αj,直到

通常ε=10-5;2)不斷迭代步驟E和M,重復(fù)更新參數(shù)

μj,∑j和αj

,直到參數(shù)的變化不顯著,即

通常

ε=10-5。*算法收斂條件6.4.4GMM模型的問(wèn)題算法的收斂方法主要有兩種:*算6.5

研究展望尚需進(jìn)一步探索的研究課題包括:1)基礎(chǔ)性的課題(1)語(yǔ)音中語(yǔ)義內(nèi)容與說(shuō)話人人性的分離問(wèn)題。(2)有效特征的選擇與提取。(3)說(shuō)話人特征的變化和樣本選擇問(wèn)題。2)實(shí)用性的課題(1)說(shuō)話人識(shí)別系統(tǒng)設(shè)計(jì)的合理化及優(yōu)化問(wèn)題。(2)語(yǔ)音真?zhèn)蔚蔫b別問(wèn)題。(3)說(shuō)話人識(shí)別系統(tǒng)的性能評(píng)價(jià)問(wèn)題。(4)可靠性和經(jīng)濟(jì)性。6.5研究展望尚需進(jìn)一步探索的研究課題包括:第6章說(shuō)話人識(shí)別應(yīng)用VQ的說(shuō)話人識(shí)別系統(tǒng)應(yīng)用GMM的說(shuō)話人識(shí)別系統(tǒng)概述說(shuō)話人識(shí)別原理及系統(tǒng)結(jié)構(gòu)研究展望第6章說(shuō)話人識(shí)別應(yīng)用VQ的說(shuō)話人識(shí)別系統(tǒng)應(yīng)用GMM的說(shuō)話人6.1概述自動(dòng)說(shuō)話人識(shí)別(ASR)是一種自動(dòng)識(shí)別說(shuō)話人的過(guò)程。說(shuō)話人識(shí)別是從語(yǔ)音中提取不同特征,然后通過(guò)判斷邏輯來(lái)判定該語(yǔ)句的歸屬類別。說(shuō)話人識(shí)別不注重包含在語(yǔ)音信號(hào)中的文字符號(hào)及其語(yǔ)義內(nèi)容信息,而是著眼于包含在語(yǔ)音信號(hào)中的個(gè)人特征,以達(dá)到識(shí)別說(shuō)話人的目的。因此,相比于語(yǔ)音識(shí)別,說(shuō)話人識(shí)別相對(duì)簡(jiǎn)單。自動(dòng)說(shuō)話人識(shí)別按其最終完成的任務(wù)可分為兩類:自動(dòng)說(shuō)話人確認(rèn)和自動(dòng)說(shuō)話人辨認(rèn)。自動(dòng)說(shuō)話人確認(rèn)是確認(rèn)一個(gè)人的身份,只涉及一個(gè)特定的參考模型和待識(shí)別模式之間的比較,系統(tǒng)只需做出“是”或“不是”的二元判決;而對(duì)于自動(dòng)說(shuō)話人辨認(rèn),系統(tǒng)則必須辨認(rèn)出待識(shí)別的語(yǔ)音是來(lái)自待考察的

個(gè)人中的哪一個(gè),有時(shí)還要對(duì)這

個(gè)人以外的語(yǔ)音做出拒絕的判斷。6.1概述自動(dòng)說(shuō)話人識(shí)別(ASR)是一種自動(dòng)識(shí)別說(shuō)話人的6.1概述自動(dòng)說(shuō)話人識(shí)別按輸入的測(cè)試語(yǔ)音來(lái)分,可分為三類,即與文本無(wú)關(guān)、與文本有關(guān)和文本指定型:1)與文本無(wú)關(guān)的說(shuō)話人識(shí)別指的是不規(guī)定說(shuō)話內(nèi)容的說(shuō)話人識(shí)別,即識(shí)別時(shí)不限定所用的語(yǔ)音內(nèi)容;2)與文本有關(guān)的說(shuō)話人識(shí)別指的是規(guī)定內(nèi)容的說(shuō)話人識(shí)別,即只能用規(guī)定內(nèi)容的語(yǔ)句進(jìn)行識(shí)別。但是,這兩種識(shí)別存在一個(gè)問(wèn)題,即如果事先用錄音裝置把說(shuō)話人本人的講話內(nèi)容記錄下來(lái),然后用于識(shí)別,則存在被識(shí)別裝置誤接受的危險(xiǎn);3)指定文本型說(shuō)話人識(shí)別中,每一次識(shí)別時(shí)必須先由識(shí)別裝置向說(shuō)話人指定需發(fā)音的文本內(nèi)容,只有在系統(tǒng)確認(rèn)說(shuō)話人對(duì)指定文本內(nèi)容正確發(fā)音時(shí)才可以被接受,這樣可減輕本人語(yǔ)聲被盜用的危險(xiǎn)。6.1概述自動(dòng)說(shuō)話人識(shí)別按輸入的測(cè)試語(yǔ)音來(lái)分,可分為三類,010203聲紋監(jiān)聽(tīng)多人識(shí)別聲紋比對(duì)銀行(電話,網(wǎng)上)證券銀行卡,身份卡聲紋密匙高檔酒店,會(huì)員俱樂(lè)部,貴族商城等玩具汽車個(gè)人電腦(家庭分級(jí)密碼)公安領(lǐng)域?金融領(lǐng)域?生活領(lǐng)域★潛在的應(yīng)用010203聲紋監(jiān)聽(tīng)銀行(電話,網(wǎng)上)高檔酒店,會(huì)員俱樂(lè)部,技術(shù)難題:跨信道、噪聲技術(shù)難題:跨信道、噪聲6.2

說(shuō)話人識(shí)別原理及系統(tǒng)結(jié)構(gòu)說(shuō)話人識(shí)別系統(tǒng)由預(yù)處理、特征提取、模式匹配和識(shí)別決策等幾大部分組成。除此之外,完整的說(shuō)話人識(shí)別系統(tǒng)還應(yīng)包括模板庫(kù)的建立、專家知識(shí)庫(kù)的建立和判決閾值選擇等部分。6.2說(shuō)話人識(shí)別原理及系統(tǒng)結(jié)構(gòu)說(shuō)話人識(shí)別系統(tǒng)由預(yù)處理、特征6.2

說(shuō)話人識(shí)別原理及系統(tǒng)結(jié)構(gòu)說(shuō)話人識(shí)別系統(tǒng)可分為兩個(gè)階段:訓(xùn)練(注冊(cè))階段和識(shí)別階段。1)在訓(xùn)練階段,系統(tǒng)的每一個(gè)使用者說(shuō)出若干訓(xùn)練語(yǔ)料,系統(tǒng)根據(jù)這些訓(xùn)練語(yǔ)料,通過(guò)訓(xùn)練學(xué)習(xí)建立每個(gè)使用者的模板或模型參數(shù)參考集。2)在識(shí)別階段,把從待識(shí)別說(shuō)話人說(shuō)出的語(yǔ)音信號(hào)中提取的特征參數(shù),與在訓(xùn)練過(guò)程中得到的參考參量集或模型模板加以比較,并且根據(jù)一定的相似性準(zhǔn)則進(jìn)行判定。6.2說(shuō)話人識(shí)別原理及系統(tǒng)結(jié)構(gòu)說(shuō)話人識(shí)別系統(tǒng)可分為兩個(gè)階段6.2.1預(yù)處理1)話筒自適應(yīng)和輸入電平的設(shè)定輸入語(yǔ)音信號(hào)的品質(zhì)對(duì)語(yǔ)音識(shí)別性能的影響很大,因此,對(duì)話筒的耐噪聲性能要求很高。此外,為了保持識(shí)別性能穩(wěn)定,必須具備對(duì)話筒以及前端設(shè)備性能的測(cè)定以及根據(jù)測(cè)試結(jié)果對(duì)輸入語(yǔ)音的變形進(jìn)行校正的功能。2)降噪當(dāng)話筒與嘴有一定距離的時(shí)候,以及在汽車?yán)锘驊敉獾戎車h(huán)境噪聲大的時(shí)候必須對(duì)輸入信號(hào)進(jìn)行降噪處理。3)語(yǔ)音區(qū)間的端點(diǎn)檢測(cè)端點(diǎn)檢測(cè)的目的是從語(yǔ)音信號(hào)流中自動(dòng)地分割出識(shí)別基元,即用數(shù)字處理技術(shù)來(lái)找出語(yǔ)音信號(hào)中的各種段落的始點(diǎn)和終點(diǎn)的位置。6.2.1預(yù)處理1)話筒自適應(yīng)和輸入電平的設(shè)定6.2.1預(yù)處理端點(diǎn)檢測(cè)難度:1)由于電平的變化,難于設(shè)置對(duì)各次試驗(yàn)都適用的閾值;2)咂嘴聲、呼吸氣流或其它某些雜音會(huì)使語(yǔ)音波形產(chǎn)生一個(gè)很小的尖峰,可能超過(guò)所設(shè)計(jì)門(mén)限值;3)突發(fā)性干擾會(huì)使短時(shí)參數(shù)變得很大,持續(xù)很短時(shí)間后又恢復(fù)為寂靜特性,這種干擾應(yīng)該計(jì)入寂靜段中;4)弱摩擦音和鼻音的特性與噪聲極為接近,其中鼻韻往往還拖得很長(zhǎng);5)如果輸入信號(hào)中有50Hz工頻干擾或者A/D變換點(diǎn)的工作點(diǎn)偏移時(shí),用短時(shí)過(guò)零率區(qū)分無(wú)聲和清音的方法就變的不可靠。6.2.1預(yù)處理端點(diǎn)檢測(cè)難度:6.2.1預(yù)處理優(yōu)秀的端點(diǎn)檢測(cè)算法應(yīng)具有:1)門(mén)限值對(duì)對(duì)背景噪聲的變化有一定的適應(yīng)性;2)將短時(shí)沖擊噪聲和人的咂嘴等瞬間超過(guò)門(mén)限值的信號(hào)納入無(wú)聲段而不是有聲段;3)對(duì)于爆破音的寂靜段,應(yīng)將其納入語(yǔ)音的范圍而不是無(wú)聲段;4)應(yīng)該盡可能避免在檢測(cè)中丟失鼻韻和弱摩擦音等與噪聲特性相似、短時(shí)參數(shù)較少的語(yǔ)音;5)應(yīng)該避免使用過(guò)零率作為判決標(biāo)準(zhǔn)而帶來(lái)的負(fù)面影響。6.2.1預(yù)處理優(yōu)秀的端點(diǎn)檢測(cè)算法應(yīng)具有:6.2.2說(shuō)話人識(shí)別特征的選取特征提取就是從說(shuō)話人的語(yǔ)音信號(hào)中提取出表示說(shuō)話人個(gè)性的基本特征,是最重要的環(huán)節(jié)之一。選取的特征應(yīng)當(dāng)滿足下述準(zhǔn)則:1)能夠有效地區(qū)分不同的說(shuō)話人,但又能在同一說(shuō)話人的語(yǔ)音發(fā)生變化時(shí)相對(duì)保持穩(wěn)定;2)易于從語(yǔ)音信號(hào)中提取;3)不易被模仿;4)盡量不隨時(shí)間和空間變化。一般來(lái)說(shuō),同時(shí)滿足上述全部要求的特征通常是不可能找到的,只能使用折衷方案。6.2.2說(shuō)話人識(shí)別特征的選取特征提取就是從說(shuō)話人的語(yǔ)音6.2.2特征的選取說(shuō)話人識(shí)別中常用的參數(shù)類別:1)線性預(yù)測(cè)參數(shù)及其派生參數(shù):包括部分相關(guān)系數(shù)、聲道面積比函數(shù)、線譜對(duì)系數(shù)以及LPC倒譜系數(shù)等。2)語(yǔ)音頻譜直接導(dǎo)出的參數(shù):包括功率譜、基音輪廓、共振峰及其帶寬、語(yǔ)音強(qiáng)度及其變化等。3)混合參數(shù)4)其他魯棒性參數(shù):包括Mel頻率倒譜系數(shù),以及經(jīng)過(guò)噪聲譜減或者信道譜減的去噪倒譜系數(shù)等。6.2.2特征的選取說(shuō)話人識(shí)別中常用的參數(shù)類別:6.2.3特征參量評(píng)價(jià)方法同一說(shuō)話人的不同語(yǔ)音會(huì)在參數(shù)空間映射出不同的點(diǎn),若對(duì)同一人來(lái)說(shuō),這些點(diǎn)分布比較集中,而對(duì)不同說(shuō)話人的分布相距較遠(yuǎn),則選取的參數(shù)就是有效的。1)兩種分布的方差之比(F比):2)評(píng)價(jià)多維特征矢量的有效性的可分性測(cè)度(D比):式中說(shuō)話人內(nèi)特征矢量的協(xié)方差矩陣W為6.2.3特征參量評(píng)價(jià)方法同一說(shuō)話人的不同語(yǔ)音會(huì)在參數(shù)空6.2.4模式匹配方法1)動(dòng)態(tài)時(shí)間規(guī)整方法(DTW)將識(shí)別模板與參考模板進(jìn)行時(shí)間對(duì)比時(shí),需要按照某種距離測(cè)度得出兩模板間的相似程度。2)矢量量化方法(VQ)3)隱馬爾可夫模型方法(HMM)隱馬爾可夫模型是一種基于轉(zhuǎn)移概率和輸出概率的隨機(jī)模型,識(shí)別時(shí)計(jì)算未知語(yǔ)音在狀態(tài)轉(zhuǎn)移過(guò)程中的最大概率,根據(jù)最大概率對(duì)應(yīng)的模型進(jìn)行判決。4)高斯混合模型(GMM)5)人工神經(jīng)網(wǎng)絡(luò)方法(ANN)人工神經(jīng)網(wǎng)絡(luò)是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,其性能近似理想的分類器。其缺點(diǎn)是訓(xùn)練時(shí)間長(zhǎng),動(dòng)態(tài)時(shí)間規(guī)整能力弱。6.2.4模式匹配方法1)動(dòng)態(tài)時(shí)間規(guī)整方法(DTW)6.2.5判別方法和閾值的選擇對(duì)于要求快速處理的說(shuō)話人確認(rèn)系統(tǒng),可以采用多門(mén)限判決和預(yù)分類技術(shù)來(lái)達(dá)到加快系統(tǒng)響應(yīng)時(shí)間而又不降低確認(rèn)率的效果。1)多門(mén)限判決相當(dāng)于一種序貫判決方法,它使用多個(gè)門(mén)限來(lái)作出接受還是拒絕的判決。2)在說(shuō)話人辨認(rèn)時(shí),每個(gè)人的模板都要被檢查一遍,所以系統(tǒng)的響應(yīng)時(shí)間一般隨待識(shí)別的人數(shù)線性增加,但是如果按照某些特征參數(shù)預(yù)先地將待識(shí)別的人聚成幾類,那么在識(shí)別時(shí),根據(jù)測(cè)試語(yǔ)音的類別,只要用該類的一組候選人的模板參數(shù)匹配,就可以大大減少模板匹配所需的次數(shù)和時(shí)間。6.2.5判別方法和閾值的選擇對(duì)于要求快速處理的說(shuō)話人確6.2.5判別方法和閾值的選擇雖然在一般情況下,判決門(mén)限都應(yīng)該選取在FR和FA相等的點(diǎn)上,但這個(gè)點(diǎn)的確定需要較多數(shù)據(jù)的實(shí)驗(yàn)結(jié)果,還不一定能得到正好相等的點(diǎn)。確認(rèn)錯(cuò)誤用錯(cuò)誤拒絕率(FR)和錯(cuò)誤接受率(FA)來(lái)表示。前者是拒絕真實(shí)的聲言者而造成的錯(cuò)誤,后者則是把冒名頂替者錯(cuò)認(rèn)為其聲言者引起的錯(cuò)誤。判決門(mén)限錯(cuò)誤概率誤拒率FR誤受率FAabc06.2.5判別方法和閾值的選擇雖然在一般情況下,判決門(mén)限6.2.6性能評(píng)價(jià)一個(gè)說(shuō)話人識(shí)別系統(tǒng)的好壞是由許多因素決定的,主要有正確識(shí)別率(或出錯(cuò)率)、訓(xùn)練時(shí)間的長(zhǎng)短、識(shí)別時(shí)間、對(duì)參考參量存儲(chǔ)量的要求、使用者使用的方便程度等,實(shí)用中還有價(jià)格因素。目前對(duì)說(shuō)話人識(shí)別系統(tǒng)的性能評(píng)價(jià)還沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)。一個(gè)系統(tǒng)所具有的識(shí)別性能盡管看起來(lái)很好,但是它們所依據(jù)的條件卻是差別很大的。為了給出統(tǒng)一的評(píng)價(jià),需要建立一個(gè)測(cè)試數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)應(yīng)該包含大量的說(shuō)話人且具有不同發(fā)音風(fēng)格和不同時(shí)間間隔的語(yǔ)音數(shù)據(jù)。此外,系統(tǒng)還應(yīng)該考慮語(yǔ)音經(jīng)不同信道傳輸后的影響。6.2.6性能評(píng)價(jià)一個(gè)說(shuō)話人識(shí)別系統(tǒng)的好壞是由許多因素決6.3

應(yīng)用VQ的說(shuō)話人識(shí)別系統(tǒng)矢量量化(VQ)技術(shù)是七十年代后期發(fā)展起來(lái)的一種數(shù)據(jù)壓縮和編碼技術(shù),廣泛應(yīng)用于語(yǔ)音編碼、語(yǔ)音合成、語(yǔ)音識(shí)別和說(shuō)話人識(shí)別等領(lǐng)域。矢量量化在語(yǔ)音信號(hào)處理中占有十分重要的地位,在許多重要的研究課題中,矢量量化都起著非常重要的作用。當(dāng)可用于訓(xùn)練的數(shù)據(jù)量較小時(shí),基于VQ的方法比連續(xù)的HMM方法有更大的魯棒性。同時(shí),基于VQ的方法比較簡(jiǎn)單,實(shí)時(shí)性也較好。因此,基于VQ的說(shuō)話人識(shí)別方法,仍然是最常用的識(shí)別方法之一。6.3應(yīng)用VQ的說(shuō)話人識(shí)別系統(tǒng)矢量量化(VQ)技術(shù)是七十年6.3.1系統(tǒng)模型應(yīng)用VQ的說(shuō)話人識(shí)別系統(tǒng)包含兩個(gè)步驟:一是利用每個(gè)說(shuō)話人的訓(xùn)練語(yǔ)音,建立參考模型碼本;二是對(duì)待識(shí)別話者的語(yǔ)音的每一幀和碼本碼字進(jìn)行匹配。語(yǔ)種1碼本1語(yǔ)種N碼本N語(yǔ)種2碼本2參考模型…VQ失真計(jì)算特征提取辨識(shí)判決語(yǔ)音輸入識(shí)別結(jié)果6.3.1系統(tǒng)模型應(yīng)用VQ的說(shuō)話人識(shí)別系統(tǒng)包含兩個(gè)步驟:6.3.1系統(tǒng)模型說(shuō)話人識(shí)別系統(tǒng)可以將每個(gè)待識(shí)別的說(shuō)話人看作是一個(gè)信源,用一個(gè)碼本來(lái)表征,碼本是從該說(shuō)話人的訓(xùn)練序列中提取的特征矢量聚類而生成,只要訓(xùn)練的數(shù)據(jù)量足夠,就可以認(rèn)為這個(gè)碼本有效的包含了說(shuō)話人的個(gè)人特征,而與說(shuō)話的內(nèi)容無(wú)關(guān)。識(shí)別時(shí),首先對(duì)待識(shí)別的語(yǔ)音段提取特征矢量序列,然后用系統(tǒng)已有的每個(gè)碼本依次進(jìn)行矢量量化,計(jì)算各自的平均量化失真。選擇平均量化失真最小的那個(gè)碼本所對(duì)應(yīng)的說(shuō)話人作為系統(tǒng)識(shí)別的結(jié)果。在VQ法中模型匹配不依賴于參數(shù)的時(shí)間順序,因而匹配過(guò)程中無(wú)需采用動(dòng)態(tài)時(shí)間規(guī)整技術(shù);而且這種方法比應(yīng)用動(dòng)態(tài)時(shí)間規(guī)整方法的參考模型存儲(chǔ)量小,即碼本碼字小。6.3.1系統(tǒng)模型說(shuō)話人識(shí)別系統(tǒng)可以將每個(gè)待識(shí)別的說(shuō)話人6.3.2

VQ基本原理將K維歐幾里德空間RK無(wú)遺漏地劃分成J個(gè)互不相交的子空間

,即滿足

這些子空間Rj稱為胞腔。在每一個(gè)子空間Rj找一個(gè)代表矢量Yj,則J個(gè)代表矢量可以組成矢量集為:

這樣,

Y就組成了一個(gè)矢量量化器,被稱為碼書(shū)或碼本;

Yj稱為碼矢或碼字;Y內(nèi)矢量的個(gè)數(shù)J,則叫作碼本長(zhǎng)度或碼本尺寸。不同的劃分或不同的代表矢量選取方法就可以構(gòu)成不同的矢量量化器。6.3.2VQ基本原理將K維歐幾里德空間RK無(wú)遺漏地劃分6.3.2

VQ基本原理當(dāng)矢量量化器輸入一個(gè)任意矢量Xi∈RK進(jìn)行矢量量化時(shí),矢量量化器首先判斷它屬于哪個(gè)子空間Rj

,然后輸出該子空間

Rj

的代表矢量Yj

。也就是說(shuō),矢量量化過(guò)程就是用Yj

代表Xi的過(guò)程,或者說(shuō)把Xi量化成Yj

,即

式中,Q(Xi)為量化器函數(shù)。由此可知,矢量量化的全過(guò)程就是完成一個(gè)從K維歐幾里德空間RK中的矢量

到K維空間RK有限子集Y的映射:

6.3.2VQ基本原理當(dāng)矢量量化器輸入一個(gè)任意矢量Xi∈6.3.2

VQ基本原理二維矢量量化器實(shí)例6.3.2VQ基本原理二維矢量量化器實(shí)例6.3.2

VQ基本原理矢量量化技術(shù)進(jìn)行語(yǔ)音處理時(shí)的兩個(gè)要解決的問(wèn)題:(1)設(shè)計(jì)一個(gè)好的碼本。關(guān)鍵是如何劃分

個(gè)區(qū)域邊界。這需要用大量的輸入信號(hào)矢量,經(jīng)過(guò)統(tǒng)計(jì)實(shí)驗(yàn)才能確定。為了建立一個(gè)好的碼本,首先要求建立碼本的訓(xùn)練數(shù)據(jù)不僅數(shù)據(jù)量要充分大,而且要有代表性;其次,要選擇一個(gè)好的失真度準(zhǔn)則以及碼本優(yōu)化方法。(2)未知矢量的量化。對(duì)未知模式矢量,按照選定的失真測(cè)度準(zhǔn)則,把未知矢量量化為失真測(cè)度最小的區(qū)域邊界的中心矢量值(碼字矢量),并獲得該碼字的序列號(hào)(碼子在碼本中的地址或標(biāo)號(hào))。對(duì)于兩矢量進(jìn)行比較的測(cè)度問(wèn)題,通常選用的測(cè)度就是兩矢量之間的距離,或以其中某一矢量為基準(zhǔn)時(shí)的失真度。其次是未知矢量量化時(shí)的搜索策略,好的搜索策略可以減少量化時(shí)間。6.3.2VQ基本原理矢量量化技術(shù)進(jìn)行語(yǔ)音處理時(shí)的兩個(gè)要6.3.3失真測(cè)度在應(yīng)用VQ法進(jìn)行說(shuō)話人識(shí)別時(shí),失真測(cè)度的選擇將直接影響到聚類結(jié)果,進(jìn)而影響說(shuō)話人識(shí)別系統(tǒng)的性能。失真測(cè)度(距離測(cè)度)是將輸入矢量

用碼本重構(gòu)矢量

來(lái)表征時(shí)所產(chǎn)生的誤差或失真的度量方法,它可以描述兩個(gè)或多個(gè)模型矢量間的相似程度。失真測(cè)度的選擇要根據(jù)所使用的參數(shù)類型來(lái)定,在語(yǔ)音信號(hào)處理采用的矢量量化中,最常用的失真測(cè)度是歐氏距離測(cè)度、加權(quán)歐氏距離測(cè)度、Itakura-Saito距離、似然比失真測(cè)度和識(shí)別失真測(cè)度等。6.3.3失真測(cè)度在應(yīng)用VQ法進(jìn)行說(shuō)話人識(shí)別時(shí),失真測(cè)度6.3.3失真測(cè)度1)歐氏距離測(cè)度(1)均方誤差,其定義為:(2)r平均誤差,其定義式為:(3)最大平均誤差,其定義式為:(4)加權(quán)歐氏距離測(cè)度,其定義為:6.3.3失真測(cè)度1)歐氏距離測(cè)度6.3.3失真測(cè)度2)線性預(yù)測(cè)失真測(cè)度當(dāng)語(yǔ)音信號(hào)特征矢量是用線性預(yù)測(cè)方法求出的LPC系數(shù)時(shí),此時(shí)僅由預(yù)測(cè)器系數(shù)的差值不能完全表征這兩個(gè)語(yǔ)音信息的差別,即不宜直接使用歐氏距離,可選用I-S距離測(cè)度、對(duì)數(shù)似然比失真測(cè)度和模型失真測(cè)度。(1)I-S距離測(cè)度(2)對(duì)數(shù)似然比失真測(cè)度(3)模型失真測(cè)度6.3.3失真測(cè)度2)線性預(yù)測(cè)失真測(cè)度6.3.3失真測(cè)度3)識(shí)別失真測(cè)度頻譜與能量都攜帶有語(yǔ)音信號(hào)的信息,如果僅僅靠功率譜作為失真比較的參數(shù),識(shí)別的性能將不夠理想。式中,E及E′分別為輸入信號(hào)矢量和碼書(shū)重構(gòu)矢量的歸一化能量,

α為加權(quán)因子,g(x)可取為:g(x)的作用是:當(dāng)兩矢量的能量接近時(shí),忽略能量差異引起的影響;當(dāng)兩矢量的能量相差較大時(shí),即進(jìn)行線性加權(quán);而當(dāng)能量差超過(guò)門(mén)限xF時(shí),則為某固定值。6.3.3失真測(cè)度3)識(shí)別失真測(cè)度6.3.4系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)在VQ算法中,碼本是非常關(guān)鍵的。最佳碼本設(shè)計(jì)的任務(wù)就是在一定的條件下,使得畸變E[d(X,Y)]的統(tǒng)計(jì)平均值

達(dá)到最小。為了實(shí)現(xiàn)這一目的,應(yīng)該遵循以下兩條原則:(1)根據(jù)X選擇相應(yīng)的碼字Yl時(shí)應(yīng)遵從最近鄰準(zhǔn)則,即:(2)設(shè)所有選擇碼字Yl(即歸屬于Yl所表示的區(qū)域的)的輸入矢量X的集合為Sl

,那么

應(yīng)使此集合中的所有矢量與

之間的畸變值最小。如果X與Y之間的畸變值等于它們的歐氏距離,則Yl應(yīng)由下式表示:

6.3.4系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)在VQ算法中,碼本是非常關(guān)鍵的6.3.4系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)基于歐式距離的碼本設(shè)計(jì)的遞推算法——LBG算法a)設(shè)定碼本和迭代訓(xùn)練參數(shù):設(shè)全部輸入訓(xùn)練矢量X的集合為

S;設(shè)置碼本的尺寸為J;設(shè)置迭代算法的最大迭代次數(shù)為L(zhǎng);設(shè)置畸變改進(jìn)閾值為δ。b)設(shè)定初始化值:設(shè)置J個(gè)碼字的初值Y1(0),…,YJ(0);設(shè)置畸變初值D(0)=∞;設(shè)置迭代次數(shù)初值m=1。c)假定根據(jù)最近鄰準(zhǔn)則將S分成了J個(gè)子集S1(m),…,SJ(m),即當(dāng)X∈SJ(m)時(shí),下式成立:d)計(jì)算總畸變

D(m):

6.3.4系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)基于歐式距離的碼本設(shè)計(jì)的遞推算6.3.4系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)e)計(jì)算畸變改進(jìn)量ΔD(m)的相對(duì)值δ(m)

f)計(jì)算新碼本的碼字Y1(m),…,YJ(m)

g)判斷δ(m)

是否小于δ。若是,轉(zhuǎn)入i)執(zhí)行;否則,轉(zhuǎn)入h)執(zhí)行。h)判斷m是否小于L。若否,轉(zhuǎn)入i)執(zhí)行;否則,m=m+1,轉(zhuǎn)入c)執(zhí)行。i)迭代終止;輸出

作為訓(xùn)練成的碼本的碼字Y1(m),…,YJ(m)

,并且輸出總畸變D(m)

。6.3.4系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)e)計(jì)算畸變改進(jìn)量ΔD(m)的6.3.4系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)從上面的LBG算法步驟可以看出,在開(kāi)始迭代前,必須先確定一個(gè)初始碼本。這個(gè)初始碼本的設(shè)計(jì)對(duì)最佳碼本的設(shè)計(jì)有很大影響。初始碼本的構(gòu)造有許多方法:1)隨機(jī)碼本法:從訓(xùn)練序列中隨機(jī)地選取J個(gè)矢量作為初始碼字,從而構(gòu)成初始碼本。優(yōu)點(diǎn)是簡(jiǎn)單,缺點(diǎn)是這樣的碼字沒(méi)有代表性,會(huì)導(dǎo)致碼本訓(xùn)練的收斂變慢或不能收斂;2)分裂碼本法:第一步求出S中全體訓(xùn)練矢量X的質(zhì)心作為初始碼本的碼字Y1(0);然后在S中找一個(gè)與此質(zhì)心的畸變最大的矢量Xj,再在S中找一個(gè)與Xj的誤差為最大的矢量Xk;以Xj和Xk為基準(zhǔn)進(jìn)行劃分,得到Sj和Sk兩個(gè)子集;對(duì)這兩個(gè)子集分別按同樣方法進(jìn)行處理就可以得到四個(gè)子集。依此類推,若

J=2r則只要進(jìn)行r次分裂就可以得到J個(gè)子集。6.3.4系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)從上面的LBG算法步驟可以看出6.3.4系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)基于矢量量化的說(shuō)話人識(shí)別系統(tǒng)的識(shí)別過(guò)程可概況為:1)從測(cè)試語(yǔ)音提取特征矢量序列

;2)每個(gè)模板依次對(duì)特征矢量序列進(jìn)行矢量量化,計(jì)算各自的平均量化誤差:

式中,

是第i個(gè)碼本中第?個(gè)碼本矢量,而

是待測(cè)矢量和碼矢量之間的失真測(cè)度;3)選擇平均量化誤差最小的碼本所對(duì)應(yīng)的說(shuō)話人作為系統(tǒng)的識(shí)別結(jié)果。6.3.4系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)基于矢量量化的說(shuō)話人識(shí)別系統(tǒng)的6.4

應(yīng)用GMM的說(shuō)話人識(shí)別系統(tǒng)在辨認(rèn)任務(wù)中,目的是找到一個(gè)說(shuō)話者i*

,其對(duì)應(yīng)的模型參數(shù)θ*使得待識(shí)別語(yǔ)音特征矢量組具有最大后驗(yàn)概率P(θi/X)。6.4.1系統(tǒng)模型6.4應(yīng)用GMM的說(shuō)話人識(shí)別系統(tǒng)在辨認(rèn)任務(wù)中,目的是找到一6.4.1系統(tǒng)模型根據(jù)貝葉斯理論,最大后驗(yàn)概率可表示為:

假定該語(yǔ)音信號(hào)出自封閉集里的每個(gè)人的可能性相等,則P(θi)=1/N。對(duì)于一個(gè)確定的觀察值矢量

X,P(X)是一個(gè)確定的常數(shù)值,對(duì)所有說(shuō)話人都相等。因此,求取后驗(yàn)概率的最大值可以通過(guò)求取P(X/θi)獲得,這樣,辨認(rèn)該語(yǔ)音屬于語(yǔ)音庫(kù)中的哪一個(gè)說(shuō)話人可以表示為:6.4.1系統(tǒng)模型根據(jù)貝葉斯理論,最大后驗(yàn)概率可表示為:6.4.2

GMM概述高斯混合模型是單一高斯機(jī)率密度函數(shù)的延伸,能夠平滑地近似任意形狀的密度分布,常被用在語(yǔ)音、圖像識(shí)別等。高斯密度函數(shù)估計(jì)是一種參數(shù)化模型。在聚類問(wèn)題中,根據(jù)高斯概率密度函數(shù)參數(shù)的不同,每一個(gè)高斯模型可以看作一種類別,輸入一個(gè)樣本

,即可通過(guò)概率密度函數(shù)計(jì)算其值,然后通過(guò)一個(gè)閾值來(lái)判斷該樣本是否屬于高斯模型。多維高斯(正態(tài))分布概率密度函數(shù)定義如下:將任意測(cè)試樣本

輸入,均可得到一個(gè)標(biāo)量

N,然后根據(jù)閾值t來(lái)確定該樣本是否屬于該類別。閾值t可以為經(jīng)驗(yàn)值,也可以通過(guò)實(shí)驗(yàn)確定。6.4.2GMM概述高斯混合模型是單一高斯機(jī)率密度函數(shù)的6.4.2

GMM概述高斯混合模型的解釋:有一批觀察數(shù)據(jù)X,數(shù)據(jù)個(gè)數(shù)為S。假設(shè)每個(gè)點(diǎn)均由一個(gè)單高斯分布生成(具體參數(shù)μj和∑j未知),而這一批數(shù)據(jù)共由M個(gè)單高斯模型生成,具體某個(gè)數(shù)據(jù)xi屬于哪個(gè)單高斯模型未知,且每個(gè)單高斯模型在混合模型中占的比例αj未知,將所有來(lái)自不同分布的數(shù)據(jù)點(diǎn)混在一起,該分布稱為高斯混合分布。高斯混合模型可以通過(guò)加權(quán)函數(shù)表示:6.4.2GMM概述高斯混合模型的解釋:6.4.2

GMM概述該GMM共有j個(gè)S

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論