




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
作者:Chai-JongSong,HochongPark,Chang-MoYang,Sei-JinJang,Seok-Pil和傳統(tǒng)的QbSH系統(tǒng)不同,此系統(tǒng)使用MP3,AAC等多聲部音樂文件來建立參考數(shù)據(jù)之外,我們還提出了一個(gè)使用改良的動(dòng)態(tài)時(shí)間規(guī)整(DTW)算法的匹配引擎,該引擎使用DTW現(xiàn)了3種不同的商業(yè)應(yīng)用原型,例如智能,筆記本電腦以及卡拉OK。我們?cè)u(píng)估了QbSH系統(tǒng)在單聲道音樂庫以及多聲部音樂庫下的表現(xiàn),而且確信其能滿足商業(yè)應(yīng)用需:QbSH,多聲部音樂,主弦律提取,諧波結(jié)構(gòu),匹配引擎, 簡QbSH[1][2]。本系統(tǒng)通過比較用戶哼唱的音樂以及庫中的音樂的特征序列來檢索出最相似的音樂。QbSH是當(dāng)你沒有音樂的任何元數(shù)據(jù),例如歌詞,歌口,諸如移動(dòng)和嵌入式設(shè)備的各種裝置中最有用的工具之一,因?yàn)椴幌衿渌臋z索系統(tǒng),QbSH使用用戶的語音作為輸入。QbSHQbSH如樂器數(shù)字接口(MIDI)文件來創(chuàng)建數(shù)據(jù)庫,而不是原來的多聲部音樂文件。它可以通過使用音樂信號(hào)所有精確特征的MIDI文件改善搜索時(shí)間和準(zhǔn)確性。然而,手工MIDI文件是一件相當(dāng)費(fèi)時(shí)的工作,不適合需要低延遲和高精確度的商業(yè)服[1][3]。這兩者都和系統(tǒng)的精確性緊密相關(guān),而且匹配引擎尤其在這篇中,我們提出了一個(gè)基于諧波結(jié)構(gòu)來提取多聲部音樂主旋律的方法。諧我們方法所提取的音調(diào)序列的精確度不如從MIDI文件進(jìn)行提取的序列,并且這確的旋律被到匹配引擎。從而,在設(shè)計(jì)匹配引擎時(shí),這種確性問題應(yīng)QbSH[4]。因此,我們提出了一個(gè)基于DTW算法的匹配引擎,通過采用不對(duì)稱感與權(quán)重系數(shù),色度縮放評(píng)估所實(shí)現(xiàn)QbSH系統(tǒng)在單聲部音樂和多聲部音樂數(shù)據(jù)集中的性能。本的其余部分安排如下。第二部分介紹了QbSH系統(tǒng)的整體架構(gòu)。第三部分描 2.1QbSH[5][6]。第二個(gè)模塊從多聲部音樂中提取主旋律,并建立參最相似的音樂。我們利用MPEG查詢格式(MPQF)簡單對(duì)象協(xié)議(SOAP)來交換服務(wù)器和客戶端之間的查詢和結(jié)果數(shù)據(jù)。在本中,我們討論旋律提取和匹配引 旋律提取和匹配引[7][8],因?yàn)橹C波結(jié)構(gòu)是樂器和人聲音頻編器如MP3和AAC編器中給出的編碼格式。它首先被成PCM,然后以8千采樣率進(jìn)行降采樣,因?yàn)楦哳l成分不影響旋律提取。旋律提取在50%重疊的32ms的幀基礎(chǔ)上結(jié)束。F0是從每一幀得到的,并轉(zhuǎn)換成一個(gè)半音格式: =????????????(????0 2圖3.1顯示了從多聲部音樂提取主旋律的框圖。其由多節(jié)點(diǎn)提取和聲樂提取塊組成。應(yīng)的主旋律F0[9][10]。3.1F0候選。它首先檢索輸入頻譜的2kHz為界限被劃分成低頻段和高頻段,并且每個(gè)頻段的局部峰值含有不同的閾值。另我們檢查這些峰值是否滿足諧波結(jié)構(gòu)的條件,然后確定有效的F0候選。提取F0候選的方法在圖3.2例子中給出,其顯示出了在峰值采取之后在200,240,160頻率下F0C的第一個(gè)諧波峰值遺漏。我們假設(shè)創(chuàng)建了如表3.1所示的圖3.2中檢測(cè)到的譜峰之間距離的2維矩陣: =????????????(????0 2peak[]是峰值位置,u=v+1,…,J,v=u,…,J,J是當(dāng)前幀中的峰值數(shù)目。Δ[u,v]限制在150Hz~1kHz之間。如果信號(hào)的F0值為f0,它的諧波峰值理想情況下在2×f0,3×f0,4×f0peak[u] 因此,有可能通過搜索Δ中經(jīng)常出現(xiàn)的某些值來尋找候 F03.2F03.1F0的整數(shù)倍處。所以,我們定義了諧波峰值距離組Δ,使每個(gè)組的所有成員都在一定范圍內(nèi)。表3.2顯示了這些組,然后我們選擇有較大基數(shù)的組1,組2,組3,組5,組7,并設(shè)置組平均到F0候選。在這個(gè)例子中,F(xiàn)0候選成為163,204,246,328和408。3.2要確定每個(gè) 候選的優(yōu)先等級(jí)倍頻諧波頻譜圖的產(chǎn)品(OHPS)值的計(jì)算方法如下OHPS=1 [k×(l+1)] ?????是輸入的譜幅度,kF0候選。最后,3個(gè)F0候選中擁有最大的OHPS3.3F0408328204和163間距的兩倍。我們可以正確的提取A,B,C的F0。3.3基頻頻率候選在人聲旋律提取部分,基音是基于優(yōu)先級(jí)和F0候選的連續(xù)性進(jìn)行的,并確定f(1),測(cè)量前一幀和下一幀F(xiàn)0連續(xù)f(1)在兩個(gè)方向上都不連續(xù),而且前一個(gè)幀和下一個(gè)幀的F0是相同的,那么當(dāng)前幀的最終F0就是前一F0f(1)在兩個(gè)方向上都不連續(xù),而且前一個(gè)幀和下一個(gè)幀是不同的,那么當(dāng)前幀的最終F0f(2)f(3)中和前一個(gè)幀更連續(xù)的F0f(1),同時(shí)作為后處理階段,間距加倍和減半的錯(cuò)誤通過F0的波動(dòng)進(jìn)行修正。這個(gè)程序基于3.4ADC2004DB的旋律提取結(jié)果所旋律提取方法對(duì)和弦音樂信號(hào)產(chǎn)生了良好的效果。在QbSH系統(tǒng)中,匹配引擎是找出參考特征數(shù)據(jù)庫中與用戶查詢的最相似的歌曲的模塊。特征 包含了從多聲部音樂中提取的音高信息????(????)。匹配引擎應(yīng)該具有強(qiáng)的解決用戶哼唱提取的音高序列????????和????????????不匹配的問題,因?yàn)樵趶牟樵冝D(zhuǎn)錄到多聲樂的過程中會(huì)產(chǎn)生確的問題。要設(shè)計(jì)一個(gè)搞笑的匹配引擎,我們不僅要考慮特征提取階段的錯(cuò)誤,還要考慮在駐留在用戶查詢中的錯(cuò)誤。為了具備強(qiáng)大的針對(duì)確????????????arg 償音高我們使用一個(gè)窮舉搜索。匹配引擎對(duì)????????和????????????之間距離的計(jì)算方式 (????, =???? (????+????, ??∈
2??????????2????????????????(????????+????,????(????)3 通常情況下,音高加倍和減半錯(cuò)誤使????(????)不精確。這些錯(cuò)誤導(dǎo)致音高值和真值之間存在±1212,其余部分被作為預(yù)處理模塊中c,并且系數(shù)被加入到音高序列中。用于QbSH系統(tǒng)的匹配引擎,因?yàn)樗o出了一個(gè)強(qiáng)大的匹配結(jié)果,能夠針對(duì)本地時(shí)序變化和確的節(jié)奏DTW[12]。DTWPQ的距離,????????????????(P,Q)不計(jì)算無音音高值的幀。在我們的系統(tǒng)中,????(????)中每個(gè)元素都有值,而在????????中沒有音高值的元素,其音高值為0
減少了1/50。QbSH系統(tǒng)的性能依賴于距離度量函數(shù)????????。絕對(duì)差或方差通常用于現(xiàn)有基于算法的QbSH系統(tǒng)[4][12][13]。這些可以表示如下????|(b)=|?????????|????????????????|`|2(????,????)=|????? 我們的工作中,了不同的距離度量,并在數(shù)學(xué)上歸結(jié)如下:??) (????,????)=|?????????|,if|a?b|<λorλ, ????????????????(????,????)=log(????+|????? ????????????????(????,????)=(????+??????????|)?? 三個(gè)距離度量函數(shù)對(duì)數(shù)據(jù)的失真不敏感,因?yàn)檫@兩個(gè)參數(shù)之間的差值的斜率減小取決于差異。(8)γγ[14]。(9)中的距 實(shí)驗(yàn)和評(píng)估結(jié)的表現(xiàn)評(píng)估。第一個(gè)是在MIREX2011的評(píng)估,而第二個(gè)是在MIREX2011和MIREX2012眾用于與單聲道DB。最后一個(gè)是集成了旋律提取和匹配引擎的針對(duì)多聲部音樂DB的整體QbSH系統(tǒng)。三種不同的數(shù)據(jù)集被用于評(píng)估旋律提取的性能。ADC’042004年的音樂說明比賽的數(shù)據(jù)集。它有20個(gè)摘錄,每個(gè)約20s。N’08數(shù)據(jù)庫有四個(gè)1分鐘的節(jié)選自‘北部’古典聲樂表演。MIREX’05有25個(gè)10-40s的片段,類型包括搖滾,R&B[19][20]。表4.1和表4.2顯示了所旋律提取算法的性能。我們?cè)贏DC’04的OA中第一,在其他DB中也有不錯(cuò)的表現(xiàn)[18]。為了評(píng)估在單聲部DB中匹配引擎的性能,我們利用RogerJang的,其作為組成。我們添加了2000個(gè)MIDI噪音文件到Jang的中,并用它作為測(cè)試環(huán)境來評(píng)估我們針對(duì)單聲部DB的匹配引擎。我們使用了前10的來和參加了2010-2012MIREXQbSHDTWQbSH我們使用兩種類型的指標(biāo)來評(píng)估匹配引擎。第一個(gè)是平均倒數(shù)(MRR),定為返回的前10個(gè)項(xiàng)目的的倒數(shù)的平均值[15]????????????=1 ????????=1在MRR中,N是數(shù)目查詢,????????????????????是與第i個(gè)查詢相關(guān)聯(lián)的地面實(shí)況。第????????????????????????????=1 如表4.3和表4.4所示,我們可以看出所匹配引擎在單聲部DB下有著不錯(cuò)為了驗(yàn)證我們的QbSH系統(tǒng)在多聲部DB中的性能,我們需要確定最佳距離度量。根據(jù)該距離度量和非對(duì)稱DTW算法的權(quán)重系數(shù)α,得出QbSH系統(tǒng)的MRR。在α=3,λ=2時(shí)的距離度量????λ 情況下,QbSH系統(tǒng)有著最好的表現(xiàn)。由這個(gè)結(jié)果,我 距離度量為 。及時(shí)擁 個(gè)音軌的多聲 0.578[16][17] 里的一個(gè)整數(shù)。C的范圍從0到11,完成12次。我們使用表達(dá)式來表示c的值。這個(gè)實(shí)驗(yàn) ,以及 而 外,每個(gè)文件長度均在4到6分鐘。對(duì)于該系統(tǒng)的輸入查詢,查詢數(shù)據(jù)集是由3名女性和18名隨機(jī)哼唱一首歌的12s記錄。我們建立了盡量接近自然世界的記錄環(huán)境,如教室,和臥室。它被成3個(gè)部分—前奏,,和音樂曲目的部分。有趣的是,我們發(fā)現(xiàn)前奏部分超過60%,部分是30%,其余部分是在10%以下。大家普遍預(yù)測(cè)過部分會(huì)比從上面的實(shí)驗(yàn)中,我們集成了具有旋律提取和匹配引擎的QbSH系統(tǒng)。我們用包含1,前5,前10,前20個(gè)匹配的百分比。出入查詢的長度為8,10和12s。的表現(xiàn),而且大多數(shù)匹配出現(xiàn)5。AFA450和AFA2000也產(chǎn)生了相似的結(jié)果。對(duì)據(jù)這些結(jié)果,我們得出的結(jié)論是所QbSH系統(tǒng)具有商業(yè)應(yīng)用可接受的性能。(a)RRb 系統(tǒng)實(shí)現(xiàn)和商業(yè)應(yīng)5.16個(gè)管理4DB組成。它為程序員提供了一個(gè)應(yīng)用程序編程接口(API)。它也有一個(gè)引擎5.1慮的經(jīng)濟(jì)和時(shí)間的因素。出于這個(gè)原因,本開發(fā)了一個(gè)DSP模塊。它可以不修改任QbSH服務(wù)。它具有通用串行總線(USB)借口與像機(jī)頂盒(STB)OK這樣的主機(jī)平臺(tái)進(jìn)行通信。從用戶查詢特征提取被移植到這個(gè)模3個(gè)步驟喲花這個(gè)功能。在初始步驟,我們得到每幀3.9億以上時(shí)鐘。低性能客戶端上使用DSP模型。5.2 結(jié)論以及未來的工大多數(shù)傳統(tǒng)的音樂檢索系統(tǒng)使用單聲部音樂DB,例如MIDI。雖然使用單聲部在本文中,我們提出了對(duì)多聲部音樂進(jìn)行檢索的實(shí)用QbSH系統(tǒng)。為了獲得更準(zhǔn)確的旋律提取,我們使用諧波結(jié)構(gòu)分析。旋律提取算法在開放測(cè)試數(shù)據(jù)集中比QbSH系統(tǒng)系能足夠?yàn)樯虡I(yè)服務(wù)。我們?yōu)楦鞣N應(yīng)用實(shí)現(xiàn)了一個(gè)原型音樂檢索系參考文A.J.Ghias,D.C.Logan,andB.C.Smith,“Querybyhumming-musicalinformationretrievalinanaudiodatabase,”inProc.ACMMultimedia’95,SanFrancisco,1995,pp.R.J.McNab,L.A.Smith,I.H.Witten,C.L.Henderson,andS.J.Cunningham,“Towardthedigitalmusiclibrary:Tuneretrievalfromacousticinput,”inProc.ACMDigitalLibraries,1996,pp.11–18.J.-S.R.Jang,M.-Y.Gao,“Aquery-by-singingsystembasedondynamicprogramming,”inProc.Int.WorkshoponInligentSystemsResolution,pp.85-89,2000.Y.ZhuandD.Shasha,“Warindexeswithenvelopetransformsforquerybyhumming,”Proc.Int.Conf.onManagementofData,pp.181-192,2003.Y.D.Cho,M.Y.Kim,andS.R.Kim,“Aspectrallymixedexcitation(SMX)vocoderwithrobustparameterdetermination,”Proc.Int.Conf.Acoustic,SpeechandSignalProcessing,pp.601-604,K.Kim,K.RPark,S.JPark,S.PLeeandM.YKim."RobustQuery-by-Singing/HummingSystemagainstBackgroundNoiseEnvironments,"IEEETrans.onConsumerElectronics,vol.57,no.2,pp.720-725,May2011.M.Goto,“Arobustpredominant-F0estimationmethodforreal-timedetectionofmelodyandbasslinesinCDrecordings”,inProc.IEEEInternationalConferenceonAcoustics,SpeechandSignalProcess.,Vol.2pp.757-760,Istanbul,Turkey,June2000.M.Goto,“Apredominant-F0estimationmethodforreal-worldmusicalaudiosignals:MAPestimationforincorporatingpriorknowledgeaboutF0sandtonemodels,”inProc.IEEEInternationalConferenceonAcoustics,SpeechandSignalProcess.,pp.3365-3368,Aalborg,Denmark,June2001.A.P.Klapuri,“Multiplefundamentalfrequencyestimationbasedonharmonicityandspectralsmoothness,”IEEETrans.SpeechandAudioprocessing,Vol.11,No.6,pp.804-815,2003.Z.Duan,Y.Zhang,C.Zhang,andZ.Shi,“Unsupervisedsingle-channelmusicsourceseparationbyaverageharmonicstructuremodeling,”IEEETrans.AudioSpeechLanguageProcessing,Vol.16,No.4,pp.766-778,2008.H.SakoeandS.Chiba,“Dynamicprogrammingalgorithmoptimizationforspokenwordrecognition,”IEEETrans.onAcoustics,SpeechandSignalProcessing,Vol.ASSP-26,No.1,pp.43-49,1978.H.M.Yu,W.H.Tsai,andH.M.Wang,“Aqueryby-singingsystemforretrievingkaraokemusic,”IEEETrans.onMultimedia,Vol.10,No.8,pp.1626-1637,2008.J.-S.R.Jang,H.-R.Lee,“AGeneralFrameworkofProgressiveFilteringandItsApplicationtoQuerybySinging/Humming,”IEEETrans.Audio,Speech,andLang.,vol.16,no.2,pp.350-358,Feb.2008.X.Nguyen,M.J.Wainwright,andM.I.Jordan,“Ondivergences,surrogatelossfunctionsanddecentralizeddetectiondepartmentofstatistics,”Tech.Rep.695,DeptofStatistics,Univ.ofCaliforniaatBerkeley,2005.S.JoandC.D.Yoo,“Melodyextractionfrompolyphonicaudiobasedonparticlefilter,”Proc.Int.Symp.MusicInformationRetrieval,pp.357-362,2010.M.RyynanenandA.Klapuri,“QuerybyhummingofMIDIandaudiousinglocalitysensitivehashing,”Proc.ICASSP,pp.2249-2252,2008.A.Duda,A.N¨urnberger,andS.Stober,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 制冷設(shè)備批發(fā)采購合同范本
- 委托代理水果合同范本
- 錯(cuò)時(shí)停車位租賃合同
- 勞務(wù)公司送人合同范本
- 廚具倉庫租賃合同范本
- 壓縮車購銷合同范本
- 危房新建合同范例
- 制作廣告合同范本
- 醫(yī)美設(shè)備合同范本
- 加盟店手藝轉(zhuǎn)讓合同范例
- 撤場(chǎng)通知書( 模板)
- 天津市基本醫(yī)療保險(xiǎn)意外傷害首診報(bào)告卡
- richcui美國sspc富鋅底漆解讀
- IATF169492016內(nèi)部審核報(bào)告范例
- 人教版高中地理必修一全冊(cè)測(cè)試題(16份含答案)
- 成果導(dǎo)向(OBE)教育理念課件
- 交通運(yùn)輸概論全套PPT完整教學(xué)課件
- 西北工業(yè)大學(xué)英文簡介
- 《動(dòng)畫場(chǎng)景設(shè)計(jì)》第一章 動(dòng)畫場(chǎng)景設(shè)計(jì)概述
- 2023年湖北宜昌伍家新城投資控股集團(tuán)有限公司招聘筆試題庫含答案解析
- 內(nèi)燃平衡重式叉車
評(píng)論
0/150
提交評(píng)論