中文垃圾郵件過濾系統(tǒng)的實現(xiàn)和評估.ppt_第1頁
中文垃圾郵件過濾系統(tǒng)的實現(xiàn)和評估.ppt_第2頁
中文垃圾郵件過濾系統(tǒng)的實現(xiàn)和評估.ppt_第3頁
中文垃圾郵件過濾系統(tǒng)的實現(xiàn)和評估.ppt_第4頁
中文垃圾郵件過濾系統(tǒng)的實現(xiàn)和評估.ppt_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

中文垃圾郵件過濾系統(tǒng) 的實現(xiàn)和評估,田瑩 北京 清華大學(xué) 網(wǎng)絡(luò)中心 Email:,概要,引言 研究背景 中文垃圾郵件過濾系統(tǒng)的實現(xiàn) 中文垃圾郵件過濾系統(tǒng)的評估 最新研究進展及結(jié)論,引言,垃圾郵件的定義 垃圾郵件的危害 反垃圾郵件的意義 Email,短信,VoIP電話 垃圾郵件的特性,反垃圾郵件的方法,黑白名單 關(guān)鍵字匹配 貝葉斯 SVM Etc.,基于內(nèi)容的過濾器的流程圖,英文垃圾郵件的貝葉斯過濾流程,收集兩個數(shù)據(jù)庫 垃圾郵件數(shù)據(jù)庫 正常郵件數(shù)據(jù)庫 在每一個數(shù)據(jù)庫中,學(xué)習(xí)并定義出一些關(guān)鍵詞,計算這些關(guān)鍵詞的概率 新郵件到來時,計算出新到來的郵件中包含的關(guān)鍵詞的聯(lián)合概率 通過聯(lián)合概率判斷新到來的郵件是否是垃圾郵件,中文郵件的預(yù)處理,中文分詞的概念 分詞算法 基于字符串匹配 基于理解 基于統(tǒng)計 中文分詞的詞典 基于整詞二分 基于TRIE索引樹 基于逐字二分,實驗數(shù)據(jù)來源,CCERT提供 /spam/index.htm 訓(xùn)練用郵件數(shù) 5000 測試用郵件數(shù) 500,評估指標(biāo),定義L為正常郵件,S為垃圾郵件。SL表示將垃圾郵件判定為正常郵件,同理,LS表示將正常郵件判定為垃圾郵件。 在文本分類問題中,有兩個評估指標(biāo)被經(jīng)常使用。 Acc稱為正確率。Err稱為錯誤率。這里 表示將正常郵件判斷為正常郵件的個數(shù)。 的含義可以類推。 和 分別表示待判定的正常郵件和垃圾郵件的總個數(shù)。,評估指標(biāo)(續(xù)1),考慮到LS和 SL分別會有不同的代價,并設(shè)LS的代價是SL的代價的倍,我們定義兩個新的評估指標(biāo),分別是WAcc(加權(quán)的正確率)和WErr(加權(quán)的錯誤率) 在沒有過濾的情況下(無論是正常郵件還是垃圾郵件一律通過),我們得到基準WAcc和基準WErr分別為:,評估指標(biāo)(續(xù)2),為了方便比較,定義比率R為 不難看出R越大,過濾的效果越好。R如果小于1,意味著過濾比不過濾效果還差,參數(shù)說明,我們的算法中有兩個重要的參數(shù) 用于訓(xùn)練的樣本個數(shù)n 在過濾中計算最終概率的特征數(shù)目m 實驗中,主要研究R和n以及R和m之間的相互關(guān)系。,實驗結(jié)果,圖1 R-m關(guān)系圖,圖2 R-m關(guān)系圖,圖3 R-m關(guān)系圖,圖4 R-n關(guān)系圖,實驗結(jié)果說明,在過濾中計算最終概率的特征數(shù)目m以及用于訓(xùn)練的樣本個數(shù)n都存在某個最優(yōu)值 當(dāng)用于訓(xùn)練的樣本個數(shù)逐漸超過這個最優(yōu)值時,過濾效果會略微下降并趨于一致。,最新研究進展,相關(guān)會議 MIT spam conference CEAS(電子郵件和反垃圾郵件會議),貝葉斯過濾發(fā)展方向,從單一關(guān)鍵詞到關(guān)鍵詞鏈 從線性到非線性 從單一用戶到綜合多用戶 從客戶端到服務(wù)器 利用電子郵件網(wǎng)絡(luò) Etc.,系統(tǒng)和產(chǎn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論