語音數(shù)據(jù)清洗_第1頁
語音數(shù)據(jù)清洗_第2頁
語音數(shù)據(jù)清洗_第3頁
語音數(shù)據(jù)清洗_第4頁
語音數(shù)據(jù)清洗_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

主講:張群慧語音處理技術(shù)SpeechProcessingTechnology01模塊1語音數(shù)據(jù)處理--數(shù)據(jù)清洗--任務(wù)目標(biāo)掌握語音數(shù)據(jù)處理概念語音數(shù)據(jù)的讀取和可視化寫一個語音信號語音數(shù)據(jù)信號加窗語音數(shù)據(jù)信號分幀語音信號的短時時域與頻域處理任務(wù)內(nèi)容語音數(shù)據(jù)預(yù)處理語音數(shù)據(jù)處理的整個過程可以分為兩個部分:

高質(zhì)量低速率的語音編碼技術(shù)是其中最主要的要求,它將模擬語音信號變成數(shù)字信號以便在信道中傳輸。除了通信帶寬的要求外,嵌入式系統(tǒng)存儲容量的限制也要求對語音進(jìn)行壓縮,以滿足巨量數(shù)據(jù)情況下進(jìn)行實時或準(zhǔn)實時微處理器處理的目的。A/D轉(zhuǎn)換

把原始聲音的模擬輸入轉(zhuǎn)化為數(shù)字化信息;D/A轉(zhuǎn)換

把數(shù)字信息轉(zhuǎn)化為模擬數(shù)據(jù)。微處理器處理的目的。語音數(shù)據(jù)預(yù)處理任務(wù)內(nèi)容語音文件的讀取與可視化語音信號處理的研究起源于對發(fā)音器官的模擬。1939年美國H.杜德萊(H.Dudley)展出了一個簡單的發(fā)音過程模擬系統(tǒng),以后發(fā)展成為聲道的數(shù)字模型。利用該模型可以對語音信號進(jìn)行各種頻譜及參數(shù)的分析,進(jìn)行通信編碼或數(shù)據(jù)壓縮的研究,同時也可根據(jù)分析獲得的頻譜特征或參數(shù)變化規(guī)律,合成語音信號,實現(xiàn)機(jī)器的語音合成。語音文件的讀取與可視化任務(wù)內(nèi)容利用語音分析技術(shù),還可以實現(xiàn)對語音的自動識別,發(fā)音人的自動辨識。

如果與人工智能技術(shù)結(jié)合,還可以實現(xiàn)各種語句的自動識別以至語言的自動理解,從而實現(xiàn)人機(jī)語音交互應(yīng)答系統(tǒng),真正賦予計算機(jī)以聽覺的功能。語音文件的讀取與可視化(續(xù))任務(wù)內(nèi)容語音信號處理語音信號的產(chǎn)生和感知語音信號是一個非平穩(wěn)的時變信號,但語音信號是由聲門的激勵脈沖通過聲道形成的,而聲道(人的口腔、鼻腔)的肌肉運動是緩慢的,所以“短時間”(10~30ms)內(nèi)可以認(rèn)為語音信號是平穩(wěn)時不變的。由此構(gòu)成了語音信號的“短時分析技術(shù)”。在短時分析中,將語音信號分為一段一段的語音幀,每一幀一般取10~30ms,我們的研究就建立在每一幀的語音特征分析上。任務(wù)內(nèi)容語音信號處理提取的不同的語音特征參數(shù)對應(yīng)著不同的語音信號分析方法:由于語音信號最重要的感知特性反映在功率譜上,而相位變化只起到很小的作用,所有語音頻域分析更加重要。時域分析頻域分析倒譜域分析...

在對語音信號處理的過程中,語音信號的質(zhì)量不僅取決于處理方法,同時取決于所提取的能夠表示該語音的特征參數(shù)是否合適。有了特征參數(shù)才可能利用這些參數(shù)進(jìn)行有效的處理。任務(wù)內(nèi)容信號加窗通常對信號截斷、分幀需要加窗,因為截斷都有頻域能量泄露,而窗函數(shù)可以減少截斷帶來的影響。信號加窗任務(wù)內(nèi)容信號分幀在分幀中,相鄰兩幀之間會有一部分重疊。信號分幀幀長(wlen)=重疊(overlap)+幀移(inc)如果相鄰兩幀之間不重疊,那么由于窗函數(shù)的形狀,截取到的語音幀邊緣會出現(xiàn)損失,所以要設(shè)置重疊部分。inc為幀移,表示后一幀第前一幀的偏移量,fs表示采樣率,fn表示一段語音信號的分幀數(shù)。任務(wù)內(nèi)容信號分幀信號分幀的理論依據(jù),其中x是語音信號,w是窗函數(shù):加窗截斷類似采樣,為了保證相鄰幀不至于差別過大,通常幀與幀之間有幀移,其實就是插值平滑的作用。任務(wù)內(nèi)容語音數(shù)據(jù)的短時時域處理與頻域處理短時能量和短時平均幅度短時能量和短時平均幅度的主要用途:

區(qū)分聲母和韻母的分界和無話段和有話段的分界

區(qū)分濁音和清音段,因為濁音的短時能量E(i)比清音大很多;任務(wù)內(nèi)容語音數(shù)據(jù)的短時時域處理與頻域處理發(fā)濁音時由于聲門波引起譜的高頻跌落,所以語音信號能量約集中在3kHz以下,發(fā)清音時多數(shù)能量集中在較高的頻率上,因為高頻意味著高的短時平均過零率,低頻意味著低的短時平均過零率,所以濁音時具有較低的過零率,而清音時具有較高的過零率。對于連續(xù)語音信號,過零率意味著時域波形通過時間軸,對于離散信號,如果相鄰的取樣值改變符號,則稱為過零。短時平均過零率可以用來初步判斷清音和濁音可以用于判斷寂靜無話段與有話段的起點和終止位置。在背景噪聲較小的時候,用平均能量識別較為有效,在背景噪聲較大的時候,用短時平均過零率識別較為有效。短時自相關(guān)函數(shù)主要應(yīng)用于端點檢測和基音的提取,在韻母基因頻率整數(shù)倍處將出現(xiàn)峰值特性,通常根據(jù)除R(0)外的第一峰值來估計基音,而在聲母的短時自相關(guān)函數(shù)中看不到明顯的峰值。短時自相關(guān)函數(shù)任務(wù)內(nèi)容短時自相關(guān)函數(shù)短時平均幅度差函數(shù)用于檢測基音周期,而且在計算上比短時自相關(guān)函數(shù)更加簡單。語音信號的短時頻域處理任務(wù)內(nèi)容短時自相關(guān)函數(shù)在語音信號處理中,在語音信號處理中,信號在頻域或其他變換域上的分析處理占重要的位置,在頻域上研究語音可以使信號在時域上無法表現(xiàn)出來的某些特征變得十分明顯,一個音頻信號的本質(zhì)是由其頻率內(nèi)容決定的,將時域信號轉(zhuǎn)換為頻域信號一般對語音進(jìn)行短時傅里葉變換。fft_audio=np.fft.fft(audio)將信號轉(zhuǎn)換為頻域之后,還需要將其轉(zhuǎn)換為有用的形式,梅爾頻率倒譜系數(shù)(MFCC),MFCC首先計算信號的功率譜,然后用濾波器組和離散余弦變換的組合來提取特征。梅爾頻率倒譜系數(shù)任務(wù)內(nèi)容頻譜任務(wù)內(nèi)容絕大部分信號都可以分解為若干不同頻率的正弦波。這些正弦波中,頻率最低的稱為信號的基波,其余稱為信號的諧波?;ㄖ挥幸粋€,可以稱為一次諧波,諧波可以有很多個,每次諧波的頻率是基波頻率的整數(shù)倍。諧波的大小可能互不相同。以諧波的頻率為橫坐標(biāo),幅值(大?。榭v坐標(biāo),繪制的系列條形圖,稱為頻譜。頻譜能夠準(zhǔn)確反映信號的內(nèi)部構(gòu)造。語譜圖任務(wù)內(nèi)容語譜圖綜合了時域和頻域的特點,明顯的顯示出來了語音頻率隨時間的變化情況,語譜圖的橫軸為時間,縱軸為頻率任意給定頻率成分在給定時刻的強(qiáng)弱用顏色深淺表示。顏色深表示頻譜值大,顏色淺表示頻譜值小,語譜

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論