




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)字信號處理聲音轉(zhuǎn)換課題報告1. 課題研究目標利用matlab或其他編程軟件對音頻信 號進行處理,要求實現(xiàn)聲音的轉(zhuǎn)換。如 男聲和女聲的轉(zhuǎn)換,老人聲音與童聲的 轉(zhuǎn)換。2. 課題使用工具Matlab3. 課題技術(shù)線路分析和處理音頻信號,首先要對聲音信 號進行采集。Matlab的數(shù)據(jù)采集工具箱 提供了一整套命令和函數(shù),通過調(diào)用這 些命令和函數(shù),可直接控制聲卡進行數(shù) 據(jù)采集。Windows自帶的錄音機程序也 可驅(qū)動聲卡來采集語音信號,并能保存 為wav格式文件,供 matlab相關(guān)函數(shù) 直接讀取,寫入和播放。本文以wav格式音頻信號作為分析處理的輸入數(shù)據(jù), 用matlab處理音頻信號的基本流程是:先將
2、wav格式音頻信號經(jīng) wavread 函數(shù)轉(zhuǎn)換成matlab列數(shù)組變量;用 matlab強大的運算能力進行數(shù)據(jù)分析和 處理,即時域分析,頻域分析,信號合 成,識別和增強等;處理后的數(shù)據(jù)如是 音頻數(shù)據(jù),則可用 wavread轉(zhuǎn)換成wav 格式文件或用sou nd,wavplay等函數(shù) 直接回放。4. 課題實現(xiàn)的原理本程序使用的方法是通過改變基頻然 后時長規(guī)整的方式來達到目的。(1)更改基頻通過資料的查詢和整理,可以知道不同人的基頻不同統(tǒng)計如下:正常成年男聲:0200Hz;正常成年女聲:200450Hz;小孩聲音的基頻要比女聲的高,老年人 的基頻要比男聲的低。經(jīng)過整理統(tǒng)計可知女聲基頻=男聲基頻*1
3、.5。本程序使用的是通過抽樣與插值的方式 來達到基頻的改變。以女變男為例:用整數(shù)D對語音信號X(n)進行抽取Xd=X( Dn);然后將X(n)的抽樣頻率提高到I (整 數(shù))倍,即為對X (n)的插值。D/l=3/2 ;(2)時長規(guī)整通過抽樣插值來改變基頻 也使播放速 度,播放時間發(fā)生改變, 因此通過時 長規(guī)整的方式來使播放速度 和時間恢 復到原來。本程序使用的是用重疊疊加算法來達到 時長規(guī)整。重疊疊加算法原理:它分為兩個階段一一分解和合成將原始信號以幀長 N,幀間距sa進行分 解,然后以幀間距ss進行合成。sa與ss的的比值決定了時長規(guī)整因子 F=sa/ss。為保證重疊區(qū)域幅度不變, 加了漢明
4、窗。5. Matlab的實現(xiàn)及程序流程分為編程和gui的設(shè)計(1) 編程y=resample(x,i,d);%重采樣來達到抽值和插值的目的然后就是時長規(guī)整在具體介紹算法之前,先簡要地介 紹一下幾種參數(shù):1) W :窗長度(WindowLength )。它代表了接受處理的語音信 號的最小長度。2) Sa :分析延時(Analysis shift )。它代表了依次截取并進行處 理的語音段首地址之間的間隔。3) Ss :綜合延時(Synthesis shift )。依次輸出的語音段首地址之 間的間隔。4) kmax :查找延時。這一延時 是指分析窗口為了與輸出信號的尾部相 一致而必須發(fā)生的一段延時。
5、5) Wov :后一段語音與前一段語 音相疊加的長度。為了能使上面的參數(shù)更容易理解, 用下面的圖標是各參量之間的關(guān)系。Ss Wovinput signal整個算法首先將語音段中的前 w 個 數(shù)值取出來,直接存入到輸出序列中。 然后根據(jù)Sa的值取出下一段語音,也 就是從第Sa個點開始取,一直取 W個 點。然后將這 W個點中的前 Wov個點與 輸出序列的最后Wov個點進行比較,比 較它們之間的一致性。記錄下比較的情 況,然后整個分析窗口(也就是截取W個點的窗口)向后移動一個樣值,再將 新的序列中的前 Wov個點與輸出序列中 的后Wov個點進行比較,同時記錄下比 較結(jié)果。這樣依次做 Kmax次,然后
6、取 出比較結(jié)果中最一致的那種情況。將這 種情況下,所截取的語音序列的前Wov個點與輸出序列的最后 Wov個點按某種方式進行疊加,然后再將 W個點的窗口 中剩余的Ss個點存入到輸出序列中 去。至此完成了一輪語音操作。下一輪 語音段處理,與上面基本相同,只不過 從輸入序列中截取的語音段不是從原先 的起點開始而是在原先的起點的基礎(chǔ)上 向后延時Sa個點。如果我們用回表示第m段語音信 號,用表示原始信號的序列。那么兩者 的關(guān)系可以用下面的等式表示:瓦糊+找0 otherwisefor = 0. JF -1km是第m個分析窗口的移動量。km 的值得變化范圍是0至Kmax對于每一 個分析窗口, km的值取遍
7、這些值,同時 比較每次語音段的前 Wov個點與輸出序 列中的最后 Wov個點的一致性。取出其 中一致性最好的那個語音段將其前Wov個點疊加到輸出序列中去。設(shè)疊加時所 用的窗用表示,輸出序列;用那么.卩山1/擁強+旳+(1卻勿)心沖劉粘$+肖=竊0伽卷=陷一一W公式表明,已經(jīng)在輸出序列中的最 后Wov個點通過與所選定的窗口中的前 Wov個語音點以加權(quán)的方式疊加。加權(quán) 值與有關(guān)。疊加后將 W個點中剩余的 Ss( Ss=W-Wo)個點補充到輸出序列中 去。通過調(diào)整Sa的值和Ss的值(或者 是WoV的值就可以達到對語音信號進 行時間長度上的變化。那么具體的每一段語音的 km值究 竟如何確定呢?要解決這
8、一問題,關(guān)鍵在于解決一 致性的判決標準。我們采用互相關(guān)系數(shù) 來表示一致性的程度。那么對于第 m輪 處理,km= max Rk其中是所取的分析窗口的前 Wov個 點和輸出序列的最后 Wov個點之間的互 相關(guān)性,它的定義是這樣的:略-1尹;斤=+ A: + nmSs -I- jiK=0W -1 rk=fx2mSak + nH=0/= y2mSs + nn=0幾點初步的討論:1) 首先從每一次處理后,我們從輸入語音段中取序列的起 點向后推遲了 Sa個點,而輸出序列的 長度也增大了 Ss個點。所以可以認為 每處理一次有Sa-Ss個點被丟棄(如果Sa要大于Ss),如果我們處理的語音 信號長度較長。可以很
9、容易地證明,新 舊序列的長度之比是:Ss / Sa。根據(jù) 這一比例關(guān)系,我們就可以認為地控制 輸出序列的長度(當然,這種控制是十 分粗略的,并且只是在語音信號較長時 有效)。2)*的選取應當使得輸入與輸出 序列之間實現(xiàn)平滑的連接。實驗表明, 采用簡單的斜坡函數(shù)也可以達到較好的 語音效果(只要采樣率足夠大)。3)對于km的求取 是降低時間復雜度的重要一步。實際上,我們不需要每輪處理數(shù)據(jù)時都去計 算一遍km,計算一遍km會花去不少時 間。我們假定在任何一點,最多有兩個 窗會在這點上重疊。現(xiàn)在考慮第m個窗,從輸出端的最后 Wov個點可以看 出,它其實就是輸入序列中的某些點:+ =(am -1)& +
10、 & + 旳)=兀(附一 1)滋 + j + (&+)二+ +其中,婦丸* + (_$)。從上面幾個等式可以看出:如果 。那么,不需要計算 km的值, 只需要將km的值直接取為tm就可以 了。而如果tm的值超出了上面的這個 范圍,就必須按照前面的計算方法進行 計算。從前面的討論中可以看出,要使得 在每一點只有最多兩個窗相互疊加,實 際上是要求,輸出序列的最后 Wov個點 在前一輪沒有參與到疊加運算中。這就 要求在參數(shù)選擇上要滿足 Ss Wov。另外,為了減小對于km的計算次 數(shù),可以選擇將 Kmax選取得大一些, 比如取為500,同時Sa與Ss要盡量接 近。4) 對于采用互相關(guān)法求km的情況,
11、作如下算法上的改 動:首先,對于所有的 k值,要比較它 們對應得互相關(guān)之間的關(guān)系,只需要比 較就可以了,這樣就避免了開方這 一麻煩得運算。同時,由于丁 :對于所有 的k值都是一樣的,所以比較時不需要 去考慮它。因此最終我們對于每一個k(磅1幼 值只要比較門門。最后,對于廣的計 算算可以采用遞推的方法,即:rk + l=rJt + x2w5a + fc+ k(2) Gui設(shè)計參考一定量的資料完成了比較簡陋的界面頻譜搬移后的界面6程序清單fun cti on Y=voice1(x)%更改采樣率使基頻改變d=resample(x,3,2);%寸長整合使語音文件恢復原來時長W=400;Wov=W/2;
12、Kmax=W*2;Wsim=Wov;xdecim=8;kdecim=2;X=d:F=1.5;Ss =W-Wov;xpts = size(X,2);ypts = roun d(xpts / F);Y = zeros(1, ypts);xfwin = (1:Wov)/(Wov+1);ovix = (1-Wov):0;newix = 1:(W-Wov);simix = (1:xdecim:Wsim) - Wsim;padX = zeros(1, Wsim), X, zeros(1,Kmax+W-Wov);Y (1:Wsim) = X(1:Wsim);xabs = 0;lastxpos = 0;km
13、= 0;for ypos = Wsim:Ss:(ypts-W); xpos = F * ypos;kmpred = km + (xpos - lastxpos); lastxpos = xpos;if (kmpred = Kmax)km = kmpred;elseysim = Y( ypos + simix);rxy = zeros(1, Kmax+1);rxx = zeros(1, Kmax+1);Kmin = 0;for k = Kmi n:kdecim:Kmax xsim = padX(Wsim + xpos + k + simix);rxx(k+1) = no rm(xsim);rxy
14、(k+1) = (ysim * xsim);endRxy = (rxx =0). *rxy /(rxx+(rxx=0);km = mi n(fin d(Rxy = max(Rxy)-1);end xabs = xpos+km;Y( ypos+ovix) = (1-xfwi n).* Y( ypos+ovix) +(xfwin. *padX(Wsim+xabs+ovix);Y( ypos+newix)=padX(Wsim+xabs+newix);endend7.總結(jié)這次課題的目的是將數(shù)字信號處理技術(shù) 應用于某一實際領(lǐng)域,即指對音頻信號 的處理。作為存儲于計算機中的語音信 號,其本身就是離散化了的向量,我們 只需將這些離散的量提取出來,就可以 對其進行處理了。在這里,用到
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 借款抵押黃金合同范本
- 分公司工程合同范本
- 上海品質(zhì)化工產(chǎn)品合同范本
- 加油站財產(chǎn)租賃合同范本
- 公司贊助旅游合同范本
- 單位店面出售合同范本模板
- 九幾買賣合同范本
- 加盟藝校授權(quán)合同范本
- oem代工合同范本英文
- 科學飲食與藥物療法在健康促進中的重要性
- 醫(yī)院護理人文關(guān)懷實踐規(guī)范專家共識課件
- DeepSeek在自然災害預警中的潛力
- 2025年中國國投高新產(chǎn)業(yè)投資集團招聘筆試參考題庫含答案解析
- 2024-2025學年小學美術(shù)一年級下冊(2024)嶺南版(2024)教學設(shè)計合集
- 《研學旅行課程設(shè)計》課件-研學課程設(shè)計計劃
- 年產(chǎn)10噸功能益生菌凍干粉的工廠設(shè)計改
- 中醫(yī)痹癥-課件
- 學習疊層母排必須知道的電力知識
- 微波與天線矩形波導
- 19+張愛玲經(jīng)典《金鎖記》英文版
- 電梯維修作業(yè)指導書
評論
0/150
提交評論