




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、基于內(nèi)容的音頻檢索關(guān)鍵技術(shù)的研究,問題: 傳統(tǒng)的方法,其主要缺點(diǎn)有: 一是當(dāng)數(shù)據(jù)量越來越多時(shí),人工注釋的工作量加大; 二是人對音頻的感知有時(shí)難以用文字注釋表達(dá)清楚,人工注釋存在不完整性和主觀性; 三是不能支持實(shí)時(shí)音頻數(shù)據(jù)流的檢索。 這里主要綜述了音頻檢索方法,討論了一些音頻檢索中的關(guān)鍵技術(shù):音頻特征提取、音頻分類、語音識(shí)別技術(shù)等。,總體介紹,該圖給出音頻信息檢索的系統(tǒng)結(jié)構(gòu). 預(yù)處理:語音處理,音頻分割、特征提取、分類等等. 用戶的查詢:用戶查詢接口、檢索引擎. 元數(shù)據(jù)庫:特征庫、索引和模型描述庫等. 一段長音頻, 首先進(jìn)行分割處理,獲得音頻錄音的結(jié)構(gòu)關(guān)系。然后進(jìn)行特征提取.通過分割處理。音頻經(jīng)
2、過樣本的訓(xùn)練和分類,建立分類目錄.語音識(shí)別把語音信號(hào)轉(zhuǎn)換為文本,存入文本庫.提取的聲音特征保存在特征數(shù)據(jù)庫中元數(shù)據(jù)庫中的記錄與音頻數(shù)據(jù)庫中的媒體記錄關(guān)聯(lián).,用戶通過用戶查詢接口檢索音頻信息.用戶可以查詢音頻信息,或?yàn)g覽分類目錄,對于長段的音頻,可以進(jìn)行基于內(nèi)容的瀏覽,即根據(jù)音頻的結(jié)構(gòu)進(jìn)行非線性瀏覽.檢索引擎利用相似性和相關(guān)度來搜索用戶要求的信息.查詢矢量和庫中音頻矢量之間的相似性由距離測度.每類特征都可以有不同的距離測度方法,以便在特定應(yīng)用或?qū)崿F(xiàn)中更為有效.,從以下幾個(gè)方面分別細(xì)說 1.基于內(nèi)容的音頻檢索操作步驟 2.音頻特征提取 3. 音頻分類 4.音頻檢索,1.基于內(nèi)容的音頻檢索操作步驟:
3、,(1)將音頻數(shù)據(jù)分類,分成語音、音樂及一般類型。 (2)不同類型的音頻數(shù)據(jù)可以以不同的方式進(jìn)行處理和索引。 (3)查詢音頻片段要同樣地進(jìn)行分類、處理和索引。 (4)根據(jù)查詢索引和數(shù)據(jù)庫中音頻索引之間的相似性,對音頻片段進(jìn)行檢索。再根據(jù)相關(guān)度進(jìn)行排序。,2.1 音頻特征提取,時(shí)域特征提取和頻域特征提取 (1) 音頻時(shí)域特征的提取 平均能量說明了音頻信號(hào)的強(qiáng)度, 過零率指每秒內(nèi)信號(hào)值通過零值的次數(shù), 靜音比表示靜音的聲音片段的比例。,傅里葉變換可分解出音頻信號(hào)的頻率成分,可提取的音頻頻域特征有帶寬、頻譜中心、諧音、音調(diào)等。 帶寬說明了聲音的頻率范圍。 頻譜中心也稱亮度,是一個(gè)聲音頻譜能量分布的中
4、心點(diǎn)。 諧音為最低頻率的倍數(shù)的頻譜成分。 音調(diào)是聽覺分辨聲音高低的特性,完全由頻率決定,可通過頻譜估計(jì),2.2 音頻頻域特征的提取,3.1 音頻分類,(1) 不同類型聲音的主要特征,3.2音頻分類方法及順序,首先計(jì)算輸入音頻片段的頻譜中心,如果比閾值高,則認(rèn)為是音樂;否則是語音, 其次計(jì)算靜音比,如果靜音比低,則認(rèn)為是音樂;否則,認(rèn)為它是語音或獨(dú)奏音樂。 最后計(jì)算平均過零率ZCR,如果ZCR 可變性高,則它是語音,否則它是獨(dú)奏音樂。 特征判定的順序是非常重要的,一般首先判定差別性大、復(fù)雜性低的特征,這樣可降低整個(gè)計(jì)算量。,4.音頻檢索,將音頻分為語音和音樂,使用不同的技術(shù)對它們進(jìn)行單獨(dú)處理。
5、1. 語音識(shí)別和檢索 語音索引和檢索的基本方法是運(yùn)用語音識(shí)別技術(shù)把語音信號(hào)轉(zhuǎn)化為文本,然后應(yīng)用IR技術(shù)進(jìn)行索引和檢索。 1.1 語音識(shí)別 自動(dòng)的語音識(shí)別(ASR)問題就是一個(gè)模式匹配問題。一個(gè)ASR系統(tǒng)通常包括訓(xùn)練和模式匹配兩個(gè)階段。 在訓(xùn)練階段, ASR系統(tǒng)收集大量的發(fā)音者的語音序列,然后ASR系統(tǒng)提取每個(gè)語音單位的特征并存放在系統(tǒng)中。,在識(shí)別過程中,ASR系統(tǒng)用與訓(xùn)練階段相似的方法對輸入語音進(jìn)行處理,產(chǎn)生特征矢量,找到與輸入語音的特征矢量最匹配的特征矢量的單詞序列。 其中基于HMM 的技術(shù)是最為流行且語音識(shí)別性能最好的,下面將詳細(xì)介紹。 首先將每個(gè)音素分解成輸入狀態(tài)、中間狀態(tài)和輸出狀態(tài) 3
6、個(gè)可聽到的狀態(tài),每個(gè)狀態(tài)可持續(xù)超過一個(gè)幀的時(shí)間(通常為 10ms)。在訓(xùn)練階段,使用訓(xùn)練語音數(shù)據(jù)為每個(gè)可能的音素構(gòu)建 ASR 。每個(gè) ASR都具有以上3個(gè)狀態(tài),并由狀態(tài)轉(zhuǎn)換概率和符號(hào)發(fā)生概率來定義。由于時(shí)間只向前流動(dòng),,因此一些轉(zhuǎn)換是不允許的。 在訓(xùn)練階段末期,由不同的發(fā)音者、時(shí)間變化和周圍的聲音引起的變化,是每個(gè)音素都由捕獲不同幀的特征矢量變化的一個(gè) ASR表示。 在語音識(shí)別階段,按照幀的順序計(jì)算每個(gè)輸入音素的特征矢量。識(shí)別問題的目的是去發(fā)現(xiàn)哪個(gè)音素 ASR最可能產(chǎn)生輸入音素的特征矢量序列。ASR對應(yīng)的音素被認(rèn)為是輸入音素,由于一個(gè)單詞含有大量的音素,因此通常把音素序列放在一起進(jìn)行識(shí)別。 1
7、.2發(fā)音者識(shí)別,(2)音樂索引和檢索,音樂的類型有兩種:結(jié)構(gòu)化的(或綜合的)音樂和基于樣本的音樂。 2.1 結(jié)構(gòu)化音樂的索引和檢索 結(jié)構(gòu)化音樂和聲音效果是由一系列指令或算法來表示的。最常見的結(jié)構(gòu)化音樂是 MIDI,它把音樂表示成大量的音符和控制指令。結(jié)構(gòu)化音樂和聲音效果非常適合于音頻基于精確匹配的查詢。用戶可指定一個(gè)音符序列作為查詢,盡管可以找到該音符序列的精確匹配,但是由于相同結(jié)構(gòu)化的聲音文件可以由不同的設(shè)備以不同的方式進(jìn)行表現(xiàn)。,目前一種可行的方法是基于音符序列的音調(diào)變化來檢索音樂。其基本思想是:將聲音文件中的每個(gè)音符(第一個(gè)音符除外) 轉(zhuǎn)換成相對前一個(gè)音符的音調(diào)變化。三種狀態(tài):該音符比前
8、一音符高(U)、該音符比前一音符低 (D)和該音符與前一音符相同或相似(S)。按這種規(guī)則,任意一段旋律可轉(zhuǎn)化為一個(gè)包含字母 U、D、S 的符號(hào)序列,檢索任務(wù)也就變成了一個(gè)字符串匹配過程。該方法是針對基于樣本的聲音檢索提出的,也同樣適用于結(jié)構(gòu)化聲音檢索。,2.2 基于樣本的音樂的索引和檢索,基于樣本的音樂的索引和檢索有兩種通用的方法: 一是基于抽取的聲音特征集合,二是基于音樂音符的音調(diào)。 1. 基于特征集的音樂檢索 對每種聲音抽取聽覺特征集,將其表示成一個(gè)矢量。通過計(jì)算查詢音樂和每個(gè)存儲(chǔ)音樂片段相應(yīng)的特征矢量之間的近似度來計(jì)算它們的相似性。該方法可應(yīng)用于一般的聲音中,包括音樂、語音和聲音效果。 2.基于音調(diào)的音樂檢索 該方法與基于音調(diào)的結(jié)構(gòu)化音樂檢索相似,兩者之間的主要區(qū)別在于基于音調(diào)的音樂檢索必須抽取或估計(jì)每個(gè)音符的音調(diào)。,將一段旋律轉(zhuǎn)化為一系列相對音調(diào)轉(zhuǎn)移序列的過程稱為音調(diào)跟蹤。音調(diào)跟蹤是自動(dòng)化音樂轉(zhuǎn)錄的簡化形式,它把音樂聲音轉(zhuǎn)化成符號(hào)表示。 該方法的基本思想為:由于音樂的每個(gè)音符都是由它的音調(diào)表示的,因此一個(gè)音樂片段或部分可表示成一個(gè)序列或音調(diào)串。檢索是以查詢音樂和每個(gè)存儲(chǔ)音樂片段相應(yīng)的音調(diào)串之間的相似性為基礎(chǔ),音調(diào)跟蹤和串相似測量是檢索過程的關(guān)鍵
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小自考視覺傳播設(shè)計(jì)與制作網(wǎng)絡(luò)資源題及答案2024
- 商業(yè)分析師行業(yè)前景試題及答案
- 旱澇災(zāi)害面試題及答案
- 個(gè)人發(fā)展與CPBA試題及答案結(jié)合
- 行政管理情境分析能力試題及答案
- 2024年小自考漢語言文學(xué)知識(shí)要點(diǎn)及試題與答案
- 行政管理組織行為學(xué)分析試題及答案
- 2024年小自考營銷趨勢研究試題及答案
- 小自考公共事業(yè)管理文化建設(shè)試題及答案
- 2024年CPBA考試趨勢解析試題及答案
- 欽州卓達(dá)生物能源有限公司年產(chǎn)1500噸木炭項(xiàng)目環(huán)境影響報(bào)告表
- 汽車修理廠維修結(jié)算清單
- 普通心理學(xué)第六版PPT完整全套教學(xué)課件
- 醫(yī)療保險(xiǎn)學(xué)(周綠林-李紹華主編)課件PPT模板
- 個(gè)人身份信息保密協(xié)議書
- 達(dá)斡爾民族服飾課件
- 公路工程工地試驗(yàn)室自校表格大全
- Unit 4 Reading and Thinking 教學(xué)設(shè)計(jì) 高中英語人教版(2019)選擇性必修第三冊
- 穴位按摩開天門
- 教師職業(yè)道德教育與心理教育相結(jié)合的新探索--基于師德培訓(xùn)的實(shí)效性
- 液壓系統(tǒng)計(jì)算公式匯總(EXCEL版)更詳細(xì)哦
評論
0/150
提交評論