




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 ,MATLAB程序設計(論文) 基于MATLAB實現語音信號的去噪 院(系)名稱電子與信息工程學院 專業(yè)班級 學號 學生姓名 任課教師 論 文 任 務給定一段帶噪語音(mp3文件格式) 1將帶噪語音abc.mp3讀入MATLAB內存2畫出時域波形圖,3畫出頻譜圖4. 分析該段語音文件的頻譜圖5. 設計語音信號去噪方案6編寫代碼實現語音信號去噪7. 將純凈語音重新合成mp3文件8. 總結設計方案,分析實驗結果,撰寫論文基于MATLAB實現語音信號的去噪馬 力(遼寧工業(yè)大學 電子與信息工程學院)摘 要:提出了一種圖像型垃圾郵件的過濾方法,該方法不依賴于附屬圖像的文字信息,而是直接提取圖像本身的視
2、覺特征,包括梯度直方圖、顏色直方圖和LBP特征。分析了支持向量機(SVM)算法,基于該算法實現了圖像型垃圾郵件的過濾,實驗結果表明,LBP特征的識別效果好于梯度直方圖和顏色直方圖特征。關鍵詞:圖像型垃圾郵件;特征提?。恢С窒蛄繖C 0 引 言 (論 文) 進入21世紀以來,隨著計算機網絡技術快速發(fā)展,電子郵件的應用也越來越普遍。將垃圾信息嵌入圖像文件,并以附件或正文的形式發(fā)送的垃圾郵件被稱為圖像型垃圾郵件。圖1是正常郵件圖像和垃圾郵件圖像的示意圖。圖像型垃圾郵件占用了大量的網絡帶寬資源,給郵件用戶帶來很多騷擾和麻煩。這些垃圾信息主要包括商品廣告、欺詐信息和反動言論等,其惡意投送將侵占收件人信箱空
3、間,甚至造成郵件服務器擁塞?,F有的垃圾郵件檢測方法,能夠過濾掉大多數圖像型垃圾郵件,國內外的學者取得了大量的研究成果1。文獻2利用文本定位的方法對圖像垃圾郵件中文本區(qū)域的特征進行表示,進而通過SVM 算法進行分類。文獻3利用圖像的邊緣角點信息與顏色特征識別垃圾郵件,基于SVM算法訓練過濾器。文獻4中利用梯度和顏色作為特征,來比較和驗證SVM算法和 LS-SVM 算法的有效性。垃圾郵件制造者刻意對圖像做各種變化增加了郵件監(jiān)管的難度。 (a) 正常圖像 (b) 垃圾圖像圖1 正常郵件圖像和垃圾郵件圖像垃圾郵件過濾系統(tǒng)的設計通常包括圖像特征提取和分類器設計2大步驟。本文提出了一種圖像型垃圾郵件分類方
4、法,圖2 描述了該方法的框架。分類器模型訓練樣本待識別的郵件圖像分類器學習特征提取判斷為垃圾圖像圖2 圖像型垃圾郵件過濾框架圖1 圖像特征分析 圖像本身的內容是豐富和千差萬別的,只有用一種簡單模式描述圖像的本質內容,才有可能完成圖像的分類、過濾或識別任務。這種簡單的模式被稱為圖像特征,可分為全局特征和局部特征,其提取過程通常包括2個步驟:其一是確定圖像特征的位置或區(qū)域;其二是確定該特征的描述算子,經常用數學中的向量來表示。正常的郵件圖像與垃圾圖像是存在某些差異的,表示兩類圖像的特征模式也應有明顯的區(qū)分。下面分別對梯度特征、顏色特征及LBP特征進行分析和說明。1.1 梯度特征一般可利用Sobel
5、算子來計算圖像的梯度。圖像f(x, y)在(x, y)點處的梯度可表示為: (1) 梯度向量的模值定義為 (2)為了提高圖像特征的提取速度,可以簡化近似為 (3)或 (4) 將歸一化的直方圖作為圖像的特征向量,圖3給出了圖1(a)和(b)的梯度直方圖??梢钥闯觯`]件圖像的梯度直方圖分布較均勻,灰度變化緩慢,而垃圾郵件圖像的灰度變化劇烈,而且分布較單一且比較集中。 (a)正常郵件圖像的梯度直方圖(b)正常郵件圖像的梯度直方圖圖3正常郵件圖像和垃圾郵件圖像的梯度直方圖1.2 顏色特征垃圾郵件圖像由于嵌入了某些信息,通常其顏色分布較單一。利用這一特點可以將部分垃圾圖像和正常圖像區(qū)分開來。圖4分別
6、給出了圖1(a)和(b)的顏色直方圖。通過對比看出,正常圖像的顏色分布較為均勻且豐富,相反垃圾郵件圖像的顏色直方圖僅僅分布在其中的幾種顏色上,變化劇烈。(a) 正常圖像的顏色直方圖(b) 垃圾圖像的顏色直方圖圖4 正常郵件圖像和垃圾郵件圖像的顏色直方圖對比1.3 LBP特征局部二值模式LBP (local binary pattern)是表示圖像局部紋理特征的一種算子5,它計算復雜度相對較低并且效果比較好,因此常常將它用于圖像的分類和識別6。1.3.1 LBP的定義起初LBP算子的定義是在鄰域窗口內,通常選擇3×3的窗口,將窗口中心像素的灰度值作為基準,分別與其鄰域的8個像素的灰度值
7、進行比較。如果中心像素的灰度值大于鄰域,那么此時鄰域像素點的位置記為0,否則記為1,依次比較后可以得到一個8位二進制數,再將此轉化為十進制數,用這個值來反映該區(qū)域的紋理信息。圖5給出了一個具體的例子。原始的LBP特征被提出來以后,很多學者對其做了深入研究和改進。 圖5 LBP描述算子的生成過程1.3.2 LBP的改進圓形LBP 算子。由于原始的 LBP 算子只能表示一個固定范圍內的小區(qū)域的紋理特征,不能滿足圖像的灰度和旋轉不變性,為了彌補這些缺點,提出了一種圓形LBP算子。其改進方法是用圓形鄰域來代替正方形鄰域,也就是將 3×3 鄰域
8、擴展到半徑為任意大小的圓形鄰域,圓心為中心像素點,并比較圓心像素與其鄰域點的灰度值。通常用符號為LBPP,R表示改進后的算子,即在半徑為 R的圓形鄰域內有P個像素點。圖6示意了3種不同形式。圖6 圓形LBP的3種形式LBP旋轉不變模式(rotation invariant patterns)。由LBP的定義及圖5 可以看出,原始的LBP 算子具有平移不變性和亮度不變性,但不具備旋轉不變性。因此在圓形算子的基礎上提出改進,方法為將圓形算子按順時針(或逆時針)依次旋轉,得到一系列初始定義的 LBP十進制數,將其中的最小值作為該圓形鄰域最后的 LBP
9、 值。LBP等價類模式(uniform paterns)。定義一個半徑為r的圓形區(qū)域,如果在圓內有P個采樣點,以此計算的LBP算子則會產生2P種模式。因此隨著采樣點數的增加,二進制模式的個數將以指數形式遞增,產生過多的模式種類,進而影響圖像的紋理特征。當某個LBP所對應的循環(huán)二進制數(將最后一位和第一位連接起來)從0到1或從1到0的跳變次數不超過2次時,此二進制模式稱為一個 “等價類模式”7。例如00000000跳變1次,10000111跳變2次。通常用符號表示等價類模式,rui2表示跳變次數不超過2。當LBP所對應的循環(huán)二進制數的跳變次數大于2次時,統(tǒng)一用P+1表示其十進制模式,稱
10、為“混合類模式”。這樣,模式種類的數量大大減少,可以有效地減少高頻噪聲的干擾。實驗表明,在紋理圖像中提取特征時,等價類模式占總模式的90%左右8。(a)正常郵件圖像的LBP的統(tǒng)計直方圖(b)正常郵件圖像的LBP統(tǒng)計直方圖圖7 正常圖像和垃圾圖像的LBP統(tǒng)計直方圖特征實際應用中通常采用LBP特征的直方圖作為特征描述算子。圖7給出了LBP特征的統(tǒng)計直方圖的例子(對應的圖像參見圖1)。可以看出,正常郵件圖像和垃圾郵件圖像的LBP統(tǒng)計直方圖的區(qū)別還是比較明顯的,因此可以采用LBP表示圖像的模式類。為了增加對圖像位置信息的描述,通常的做法是將圖像分成若干個小區(qū)域,然后分別提取每個小區(qū)域的LBP直方圖,對
11、其做歸一化處理后,將每一個小區(qū)域的LBP直方圖連接成一個矢量,即為描述整幅圖像的LBP特征。2 SVM 分類算法 支持向量機(support vector machine,SVM)是基于統(tǒng)計學習理論的機器學習方法,它由Boser、 Guyon和Vapnik在COLT-92上首次提出。SVM有完善的數學理論基礎,并在處理非線性及高維模式識別中有突出的表現9,已廣泛地應用到文本分類、圖像識別和金融風險評估等領域10。下面以兩維數據為例,圖8中實心點和空心點分別代表兩類樣本,H為分類線,延伸到高維空間,分類線就變成分類面,如圖8所示,H1、H2為兩條平行于H的直線,并且H1,H2分別通過距離分類線最
12、近的兩類樣本點(空心、實心點),并將H1、圖8 兩維數據線性可分情況下的最優(yōu)分類面H2上的點稱為支持向量。H1與H2分別到H的垂線段之和即稱為分類間隔(margin)。如果H1和H2之間的距離最大,并且可以將兩類樣本正確區(qū)分,那么此時的分類線H即為最優(yōu)分類線。由圖8可得,分類線(高維為面)方程為,對它進行歸一化,使得對線性可分的樣本集,滿足條件1。還可以推導出: (5)和 (6)延伸到高維空間,求最優(yōu)分類線的問題就轉換為求最優(yōu)超平面,最終歸結為二次最優(yōu)化求解問題。而分類間隔等于,使間隔最大等價于使最小,位于H1、H2上的訓練樣本點是最難分類的,被稱為支持向量。目標函數為: (7)滿足約束條件:
13、 (8)只要求得該問題的最優(yōu)解、,從而構造最優(yōu)超平面,進而求出分類函數。理論上可以證明,若訓練集線性可分,那么用最大間隔法求出的最優(yōu)分類超平面存在且唯一11。在樣本數目n特別大的時候,可以將二次規(guī)劃問題轉化為其對偶問題: (9)需要滿足的約束條件為: (10)分類函數為:(11)式中為每個樣本對應的拉格朗日算子,其中優(yōu)化函數(9)和分類函數(11)都是求訓練樣本之間的內積運算。如果核函數滿足Mercer條件,它就對應一種內積運算。因此,在求解最優(yōu)分類面時,只要選擇適當的核函數,就可以通過非線性變換實現線性分類。由于確定核函數的已知數據未必能真正代表所有樣本,考慮到推廣性,引入了松弛項以及懲罰系
14、數,來加以校正,則公式(7)中的目標函數為: (12)約束條件為: (13)其中體現了訓練集被錯分的情況,作為一種度量來描述錯分的程度,體現了經驗風險; 則體現了此算法的表達能力;懲罰參數c則是在經驗風險和表達能力匹配二者之間尋求一個折衷。3 實驗結果實驗采用的樣本數據來自 SpamArchive 數據集12。隨機選取70%作為訓練樣本,30%作為測試樣本。SVM算法的實現采用了臺灣大學開發(fā)的軟件包LIBSVM13。核函數的類型和懲罰參數c的取值通過交叉驗證方法得到。表1給出了提取3種不同圖像特征時的識別結果,在表1中精確率(Precision)的計算公式定義為 (14)式中:TP是被判定為正
15、常圖像,實際也是正常圖像的數量;FN是被判定為垃圾圖像,實際是正常圖像的數量;TN是被判定為垃圾圖像,實際也是垃圾圖像的數量;FP是被判定為正常圖像,實際是垃圾圖像的數量。由表1的對比結果可知,LBP特征的識別效果較好。表1 提取三種不同特征的識別結果 圖像特征核函數類型懲罰參數c精確率/%梯度直方圖RBF核函數2.076.13顏色直方圖RBF核函數2.078.34LBP特征RBF核函數2.092.05 由于懲罰參數c的取值直接影響分類器的性能。因此在假定核函數類型和確定選取圖像特征的基礎上,通過大量實驗來確定懲罰參數c的取值。表2給出了不同的懲罰參數c的取值,所對應不同的識別結果的精確率。通
16、過對比結果可知,c取2.8時,識別效果較好。表2 選取不同的懲罰參數c的識別結果懲罰參數c核函數類型圖像特征精確率/%2.0RBF核函數LBP特征92.052.2RBF核函數LBP特征92.502.4RBF核函數LBP特征92.732.6RBF核函數LBP特征92.732.8RBF核函數LBP特征92.953.0RBF核函數LBP特征92.953.2RBF核函數LBP特征92.50表3給出了選取不同的核函數及其所對應的精確率。通過對比結果可知,選取RBF核函數時,識別效果較好。表3 核函數類型 核函數類型圖像特征懲罰參數c精確率/%線性核函數LBP特征2.892.05 多項式核函數LBP特征2
17、.852.50RBF核函數LBP特征2.892.95Sigmoid函數LBP特征2.890.45圖9 為ROC性能曲線(Receiver Operating Characteristic),分類準確率達94.26%,誤報率為9.95%,且此時ROC 性能曲線下的面積達 92.15%,分類效果較好。圖9 ROC性能曲線在ROC性能曲線中準確率(True Positive Rate, TPR)和誤報率(False Positeve Rate, FPR)的計算公式為: (14)TPR是指把正常郵件判定為正常郵件的概率,FPR是指把垃圾郵件判定為正常郵件的概率。4 結論隨著垃圾郵件圖像的迅速增長,相關
18、部門的監(jiān)管力度也在不斷加大,有必要深入研究圖像型垃圾郵件過濾技術。本文對比了圖像的梯度、顏色和LBP特征在圖像型郵件過濾技術中的應用,實驗結果表明,LBP特征更適合圖像型垃圾郵件過濾任務。采用SVM算法實現分類器的分類功能,進而利用某種核函數將原始空間的非線性問題有效地轉化為高維空間的線性問題,將復雜問題簡單化,不失為一種好的方法。參考文獻:1 Battista Biggio, Giorgio Fumera, Ignazio PillaiA survey and experimental evaluation of image spam filtering techniquesJPattern
19、 Recognition Letters, 2011, 32(10): 1436-14662 耿技, 萬明成, 程紅蓉基于文本區(qū)域特征的圖像型垃圾郵件過濾算法J計算機應用,2008,28(8):1904-19063 劉嶠,秦志光,程紅蓉等基于顏色和邊緣特征直方圖的圖像型垃圾郵件分類模型J計算機應用,2010,27(7):2608-26164 劉芬,帥建梅基于梯度和顏色特征的圖像垃圾郵件過濾J人工智能及識別技術,2010,36(16):157-160.5 Ojala T, Pietikäinen M, Harwood D. A Comparative Study of Texture Measures with Classification Based on Feature DistributionsJ. Pattern Recognition, 1996, 29(3): 5l-596 趙建民,朱信忠,江小輝基于改進型LBP特征的人臉識別方法研究J2009,36(8):276-2807 Ojala T, Pietikainen M, Maenpaa TMultiresolution gray-scal
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 24498-2025建筑門窗、幕墻用密封膠條
- 戰(zhàn)略合作合同協(xié)議書(經典)
- 租賃合同變更及轉讓協(xié)議模板
- 建筑承包合同協(xié)議書格式
- 張偉房地產開發(fā)合同糾紛案件解析
- 2024年人教版九年級中考英語現在進行時教學設計
- 合伙創(chuàng)業(yè)合同書
- 加盟合作合同協(xié)議
- 10《青山處處埋忠骨》教學設計-2023-2024學年統(tǒng)編版語文五年級下冊
- 供水改造工程合同范本-施工專用
- 2025年2級注冊計量師專業(yè)實務真題附答案
- 2025年春季學期教導處工作計劃及安排表
- 果實品質評價體系建立與應用-深度研究
- 智能制造技術在工業(yè)設計中的應用
- 2025年湖南高速鐵路職業(yè)技術學院高職單招高職單招英語2016-2024年參考題庫含答案解析
- 北京市東城區(qū)2024-2025學年高一上學期期末統(tǒng)一檢測歷史試卷(含答案)
- 發(fā)展新質生產力如何“因地制宜”
- 《fema失效模式分析》課件
- 聯(lián)合救治房顫患者的協(xié)議書
- 企業(yè)自查報告范文
- 沐足店長合同范例
評論
0/150
提交評論