![基于Bayes的郵件過濾系統(tǒng)的研究與設(shè)計_第1頁](http://file4.renrendoc.com/view/240158951d51868170c84938cae09614/240158951d51868170c84938cae096141.gif)
![基于Bayes的郵件過濾系統(tǒng)的研究與設(shè)計_第2頁](http://file4.renrendoc.com/view/240158951d51868170c84938cae09614/240158951d51868170c84938cae096142.gif)
![基于Bayes的郵件過濾系統(tǒng)的研究與設(shè)計_第3頁](http://file4.renrendoc.com/view/240158951d51868170c84938cae09614/240158951d51868170c84938cae096143.gif)
![基于Bayes的郵件過濾系統(tǒng)的研究與設(shè)計_第4頁](http://file4.renrendoc.com/view/240158951d51868170c84938cae09614/240158951d51868170c84938cae096144.gif)
![基于Bayes的郵件過濾系統(tǒng)的研究與設(shè)計_第5頁](http://file4.renrendoc.com/view/240158951d51868170c84938cae09614/240158951d51868170c84938cae096145.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、基于Bayes的郵件過濾系統(tǒng)的研究與設(shè)計摘要郵件過濾技術(shù)是反垃圾郵件的重要手段,本文提出了一種基于效勞器端的垃圾郵件過濾系統(tǒng),它采用改良的Bayes算法,將反映垃圾郵件的特征綜合在一起統(tǒng)稱為“屬性,用這些“屬性構(gòu)成表示郵件特征的向量空間模型重點特征向量,防止了單純基于IP、信頭、信封過濾的規(guī)那么性太強的缺點,降低將正常郵件判斷為垃圾郵件的風(fēng)險。關(guān)鍵詞電子郵件;垃圾郵件;郵件過濾中國互聯(lián)網(wǎng)信息中心2022年7月公布的?中國互聯(lián)網(wǎng)絡(luò)開展?fàn)顩r統(tǒng)計報告?顯示,中國網(wǎng)民平均每周收到16.1封電子郵件,其中垃圾郵件就占據(jù)了8.9封,垃圾郵件的數(shù)量超過了正常郵件數(shù)量,并有進一步增長的趨勢,之所以造成垃圾郵件
2、泛濫,是因為近幾年來寬帶網(wǎng)絡(luò)的快速開展、網(wǎng)絡(luò)通信本錢的不斷下降以及硬件性能的進步并且本錢不斷降低給垃圾郵件提供了很好的環(huán)境;電子郵件的易偽造性也是垃圾郵件泛濫的原因之一;還有如今對垃圾郵件,國家缺乏法律和標(biāo)準(zhǔn)的約束。雖然人們在技術(shù)和法律方面都進展不斷的努力,垃圾郵件已經(jīng)得到了一定的控制,但是,在國內(nèi)由于技術(shù)和立法還沒有到達(dá)一個足夠的程度,導(dǎo)致國家已經(jīng)成為世界垃圾郵件的新源頭。垃圾郵件的泛濫會造成很多危害,不僅影響國家的政治穩(wěn)定、用戶的正常工作學(xué)習(xí),還會影響網(wǎng)絡(luò)的平安性、穩(wěn)定性、高效性;占用網(wǎng)絡(luò)帶寬和存儲空間。所以對于垃圾郵件的防范及過濾技術(shù)的研究很有意義。目前存在的反垃圾郵件技術(shù),主要有三個大
3、的方向:一是修改現(xiàn)有的STP協(xié)議,制定一個新的平安可靠郵件協(xié)議,讓垃圾郵件沒有“生存的環(huán)境。二是使大量發(fā)送垃圾郵件發(fā)送者承受“宏大的本錢,以致通過電子郵件渠道來大量發(fā)送廣告信息在經(jīng)濟利益上不合算,來減少垃圾郵件。第三種是根據(jù)郵件的格式,發(fā)送時間,文件大小,內(nèi)容以及其它特性,來識別該郵件是否為垃圾郵件,假如是,那么把垃圾郵件過濾掉。識別的方法多種多樣,過濾垃圾郵件效果的好壞決定于識別方法的準(zhǔn)確度。第一種方式是通過完善通信協(xié)議,增強平安認(rèn)證性能,消除垃圾郵件泛濫的環(huán)境,來減少或消滅垃圾郵件產(chǎn)生。第二種方式是通過經(jīng)濟利益杠桿,使得在網(wǎng)絡(luò)上大量的發(fā)送垃圾郵件,要承受宏大的經(jīng)濟負(fù)擔(dān),以致通過垃圾郵件來廣
4、告宣傳方法是不經(jīng)濟的,來減少垃圾郵件產(chǎn)生。第三種是當(dāng)垃圾郵件產(chǎn)生以后,通過各種各樣的方法把垃圾郵件從郵件中識別出來并過濾掉,讓接收者感覺不到這些垃圾郵件的騷擾。前兩種是主動的方式,推的方式,從垃圾郵件產(chǎn)生的根源出發(fā),不同的是一個從技術(shù)的角度,一個是從經(jīng)濟的角度。而第三種方式是被動的方式、拉的方式,它并不能杜絕垃圾郵件的重復(fù)產(chǎn)生,只能當(dāng)垃圾郵件產(chǎn)生以后,通過方法識別出垃圾郵件,及時的剔除他們。前兩種方式應(yīng)用起來更加困難、復(fù)雜而第三種方式相對簡單易行,因此當(dāng)前第三種方式的反垃圾郵件方法研究和應(yīng)用的更多。垃圾郵件過濾技術(shù)就是第三種方式的反垃圾郵件方法,也是反垃圾郵件技術(shù)開展的重要方向之一。從過濾的方
5、法來分,過濾可以分為基于關(guān)鍵字的過濾、基于黑白名單的過濾、基于規(guī)那么的過濾、基于內(nèi)容的過濾等等。2.1設(shè)計目的目的是設(shè)計一個基于STP的、位于效勞器前端的、具有較高過濾精度的垃圾郵件過濾系統(tǒng)。對于垃圾郵件的過濾,精度是最重要的問題,因為相比收到幾封垃圾郵件來說,一封正常的郵件被過濾掉更讓人難以承受,本系統(tǒng)所采取的所有方法都是旨在進步垃圾郵件過濾的精度。該系統(tǒng)位于郵件效勞器的前端,代替郵件效勞器接收郵件,完成過濾后,把郵件轉(zhuǎn)發(fā)給郵件效勞器,再由郵件效勞器完成以后的功能。該系統(tǒng)具備的功能主要有:郵件數(shù)據(jù)包攔截郵件數(shù)據(jù)包編、解碼高精度的自動分詞垃圾郵件過濾自主學(xué)習(xí)垃圾郵件處理正常郵件轉(zhuǎn)發(fā)自動回復(fù)2.
6、2系統(tǒng)流程因為電子郵件是以一定的編碼方式在網(wǎng)絡(luò)上根據(jù)STP協(xié)議傳送的郵件數(shù)據(jù)包,所以系統(tǒng)首先攔截數(shù)據(jù)包,在STP會話過程中,可以根據(jù)會話過程中的ailFr和RptT等會話進展過濾。經(jīng)過這一層過濾后,將得到的郵件數(shù)據(jù)包進展解碼,解碼后的郵件為普通文本格式。電子郵件一般格式包括信頭和信體兩部分,其中信頭包括發(fā)件人地址、收件人地址、主題、日期、路由信息等重要信息,信體是郵件的正文。很多時候僅僅根據(jù)信頭信息就可以判斷一封郵件是否為垃圾郵件,所以先別離出信頭和信體的信息,然后分別進展基于信頭和基于內(nèi)容的過濾。因為文本郵件的內(nèi)容是機器無法識別的文本,所以首先要進展分詞處理:分詞的精度是影響分類的一個重要因
7、素,所以這里必須注意消除歧義字段。根據(jù)垃圾郵件的特征向量構(gòu)造表示該郵件文本的特征向量。然后把文本的特征向量通過郵件過濾器,區(qū)分出正常郵件和垃圾郵件。對于正常郵件,直接編碼,按照STP協(xié)議發(fā)送給郵件效勞器;而對于垃圾郵件那么需要多種處理,如:保存、刪除、自動回復(fù)等。這樣就完成了一個完好的垃圾郵件過濾系統(tǒng)的功能。圖1我們知道,基于IP和基于信頭的過濾簡單易行,并且有不錯的過濾精度,因此得到了廣泛的應(yīng)用。但是,這兩種方式所根據(jù)的信息比擬少,而且會隨著時間而改變,比方一個IP黑名單中的IP地址可能是被利用來進展轉(zhuǎn)發(fā)的效勞器,但是由于在黑名單中,那么這個地址所發(fā)送的全部郵件都沒過濾掉,這樣會對正常的業(yè)務(wù)
8、造成損害;或者一個信頭的主題詞中包含一個很多垃圾郵件都包含的關(guān)鍵詞,但是也許這封郵件是基于教育的目的所發(fā)出的,那么也會被無區(qū)分的過濾掉。基于以上分析,我采取了將以上三種方式項結(jié)合的過濾方法:基于“屬性的過濾,把IP地址、主題詞是否包含關(guān)鍵字、內(nèi)容中的關(guān)鍵詞。附件信息等等都作為屬性,一起構(gòu)成表示郵件的特征向量,根據(jù)這個特征向量進展過濾。系統(tǒng)的流程如圖1所示。2.3系統(tǒng)總體框架綜合系統(tǒng)需要完成的目的和處理流程,設(shè)計出系統(tǒng)的總體框架,如圖2所示。協(xié)議代理模塊完成截獲郵件數(shù)據(jù)包、數(shù)據(jù)包編解碼和郵件轉(zhuǎn)發(fā)的功能;預(yù)處理模塊完成別離信頭、信體和分詞、特征提取以及構(gòu)造特征向量的功能;過濾模塊采用改良的Baye
9、s分類器將郵件過濾;數(shù)據(jù)模塊是系統(tǒng)中所用到的詞典、關(guān)鍵詞表、訓(xùn)練樣本集、規(guī)那么庫等信息;管理模塊那么為管理員管理維護系統(tǒng)提供了一個人機交互接口。圖22.4模塊設(shè)計收到后將文件解碼復(fù)原,也需要有中文系統(tǒng)才能看所寫的中文信息。協(xié)議代理模塊是過濾系統(tǒng)的網(wǎng)絡(luò)前端。要對郵件進展過濾,首先要捕獲發(fā)送到該效勞器的郵件數(shù)據(jù)包。并對包進展解碼。完成過濾后,需要復(fù)原該郵件數(shù)據(jù)包,也就是對郵件編碼,然后轉(zhuǎn)發(fā)。由此該模塊主要負(fù)責(zé)完成以下工作:數(shù)據(jù)包攔截、協(xié)議解析、編碼/解碼、郵件轉(zhuǎn)發(fā)。它可以支持不同的內(nèi)容協(xié)議 、STP、PP、IAP等,并且是可擴展的。模塊共包括4個部分。數(shù)據(jù)包攔截:其原理是利用網(wǎng)卡驅(qū)動來捕獲數(shù)據(jù)包。
10、網(wǎng)卡驅(qū)動會根據(jù)以太幀中的協(xié)議類型把數(shù)據(jù)包傳給協(xié)議棧進展相應(yīng)的處理。協(xié)議解析:根據(jù)捕獲的TP數(shù)據(jù)包的應(yīng)用層端口號,判斷其應(yīng)用層協(xié)議類型,只對STP郵件數(shù)據(jù)包進展處理,對于其他協(xié)議的數(shù)據(jù)包直接轉(zhuǎn)發(fā)。例如STP的會話過程包括命令交互階段和數(shù)據(jù)階段,在STP會話過程中提取一些對判斷垃圾郵件起作用的重要“屬性。如AIL會話階段提取發(fā)信人的主機地址,多個RPT會話階段提取收信人地址,在DATA數(shù)據(jù)階段提取出整封郵件的內(nèi)容,包括郵件頭和郵件體,在承受到QUIT命令時將STP數(shù)據(jù)進展復(fù)原。編碼/解碼:為內(nèi)容過濾引擎統(tǒng)一了內(nèi)容文本的格式。該模塊也是可擴展的,它主要完成以下工作:對編碼郵件的解碼如IE編碼、UNE
11、NDE等;將有構(gòu)造的文本內(nèi)容如HTL、RD、PDF等轉(zhuǎn)化為純文本;提取出動態(tài)頁面中的腳本代碼。中文是屬于8位代碼的文字,并不是標(biāo)準(zhǔn)的ASII碼格式,由于在國內(nèi)中文是通行的文字,所以大部分的郵件效勞器都已經(jīng)可以處理GB內(nèi)碼的文件,因此不需要做這種編碼/解碼的操作,可以直接傳送。但假如要傳送中文郵件到國外,就需要經(jīng)過這種轉(zhuǎn)換才能傳送,因為國外的郵件效勞器是無法識別中文內(nèi)碼的。中文在經(jīng)過一些不支持中文內(nèi)碼的傳遞主機時,仍然會被裁掉一位,造成文件支離破碎無法讀取,而經(jīng)過編碼的中文郵件,收信人收到后將文件解碼復(fù)原,也需要有中文系統(tǒng)才能看到所寫的中文信息。郵件轉(zhuǎn)發(fā):將過濾后的郵件數(shù)據(jù)包按照郵件協(xié)議轉(zhuǎn)發(fā)。因
12、為過濾器是基于VS模型VetrSpaedel,需要對郵件進展預(yù)處理得到。在該模型中,我們把郵件的內(nèi)容形式化為多維空間的一個點,以向量的形式給出,向量的元素可以是詞、IP地址、文本格式等可以判斷郵件是否是垃圾郵件的特征屬性。該模塊主要完成的工作包括:信頭、信體別離,分詞處理,特征向量生成。信頭、信體處理:電子郵件的格式包括信頭、信體,兩者之間用空行來分隔,可以分別提取信頭和信體的信息。電子郵件的信頭包括:發(fā)件人地址、收件人地址、主題、郵件列表等信息,這些信息??梢耘袛嘁环忄]件是否是垃圾郵件。如商業(yè)廣告垃圾郵件的主題通常包含“Buy、“Save和“Free等特征。信封和信頭的內(nèi)容并不完全一致,信封
13、的內(nèi)容比擬可靠,因為信頭的內(nèi)容是可以通過客戶端進展偽造的,所以可以通過比擬信封和信頭的內(nèi)容進展過濾。分詞處理:對于主題和信體中的內(nèi)容,需要經(jīng)過分詞處理。分詞的精度是影響系統(tǒng)準(zhǔn)確率的一個重要因素。我們采用機械匹配法向右減字最大匹配和向左增字最小匹配相結(jié)合,然后再用互信息消除歧義得到比擬準(zhǔn)確的分詞結(jié)果,這個過程需要借助分詞詞典。特征向量生成:這個過程分為兩種,一種是根據(jù)訓(xùn)練樣本庫獲得表示垃圾郵件類的特征向量,這個過程是對信封、信頭、信體等部分得到的信息進展處理,得到分類器所需要的特征向量。因為各部分所得到的特征屬性所構(gòu)成的向量維數(shù)太大,需要進展降維處理,對信封、信頭的屬性進展比擬和合并,而對信體中
14、得到的屬性那么進展挑選,也就是特征值選擇。首先通過剔除詞詞典將對分詞沒有奉獻的助詞、連詞、冠詞等剔除,然后按照特征向量選擇算法計算每個詞的重要度,按照由高到低的順序選擇一定數(shù)量的特征詞,和前面由信封、信頭中的屬性一起組成特征向量。另一種是根據(jù)由訓(xùn)練文本庫得到的表示垃圾郵件類的特征向量構(gòu)造待分類電子郵件的特征向量。這個模塊是整個系統(tǒng)的核心模塊,它要完成的功能是對郵件信息進展處理,判斷郵件是否是垃圾郵件,并對結(jié)果進展處理。因為郵件被表示成由“屬性組成的向量空間,這些屬性包括:IP地址、附件大孝附件擴展名、群發(fā)地址個數(shù)、文本中的關(guān)鍵詞等等信息,根據(jù)這些信息完成傳統(tǒng)的基于IP、基于信封、信頭和基于內(nèi)容
15、的過濾。貝葉斯算法因為其簡單快捷得到廣泛應(yīng)用,這里采用改良的貝葉斯算法來進步過濾精度。過濾的結(jié)果分為正常郵件和垃圾郵件。對于正常郵件交給協(xié)議代理模塊進展編碼和轉(zhuǎn)發(fā),對于垃圾郵件的處理有:丟棄:對于不需要保存到數(shù)據(jù)庫中的數(shù)據(jù)包,做丟棄處理,節(jié)約資源;存儲:對于某些郵件存入數(shù)據(jù)庫,作為訓(xùn)練樣本集;回復(fù):對于一些郵件進展自動回復(fù),通知發(fā)件人該郵件被過濾。系統(tǒng)中需要的分詞詞典、剔除詞詞典等等數(shù)據(jù)資源需要一個單獨的模塊來進展維護管理,提供增加、修改、查詢、統(tǒng)計等功能,這個模塊就是數(shù)據(jù)模塊。這個模塊包括七個部分。分詞詞典:由于分詞算法采用的是機械匹配的方法,需要分詞詞典提供輔助;剔除詞詞典:在提取特征詞之
16、前,根據(jù)剔除詞詞典剔除部分詞匯,進步效率;特征屬性表:基于Bayes算法的過濾方法需要根據(jù)垃圾郵件特征屬性的概率統(tǒng)計信息進展過濾,因此系統(tǒng)需要維護垃圾郵件特征關(guān)鍵詞的概率信息;訓(xùn)練樣本集:作為訓(xùn)練過濾器的樣本,它的大小和時間性影響過濾的精度;垃圾郵件表:保存一些過濾掉的郵件的數(shù)據(jù)庫表格,在存儲郵件的源IP和目的IP、郵件的發(fā)件人、主題、發(fā)送時間和郵件體的信息。便于事后統(tǒng)計分析;IP地址黑名單:保存經(jīng)常發(fā)送垃圾郵件的IP地址;規(guī)那么表:保存生成屬性表過程中需要的一些對信頭特征進展提取的規(guī)那么。是整個系統(tǒng)的控制協(xié)調(diào)中心。主要負(fù)責(zé)完成以下工作:系統(tǒng)的初始化;其它模塊的配置管理;系統(tǒng)運行狀態(tài)監(jiān)控;為系統(tǒng)配置管理所需的各種數(shù)據(jù)資源;提供數(shù)據(jù)查詢、統(tǒng)計功能。電子郵件是互聯(lián)網(wǎng)中一個普及的應(yīng)用,垃圾郵件的增長也越來越快,然而垃圾郵件卻嚴(yán)重影響了電子郵件的正常使用,帶來諸多的問題。它已成為世界共同關(guān)注的問題,對于垃圾郵件的過濾的研究已獲得了一定的成果。本文在分析這些已有的技術(shù)的根底上提出一種基于Bayes算法的旨在進步分類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 個人房屋貸款抵押擔(dān)保合同樣本
- 九月股東出資合同書
- 個人房屋擔(dān)保合作合同
- 二手房交易合同范本及解析
- 2025屆畢業(yè)生就業(yè)意向合同書
- 個人與企業(yè)間借款合同書樣本
- 個人二手房買賣合同模板
- 兩家公司戰(zhàn)略合作合同范本
- 個人設(shè)備采購借款合同模板
- 個人車輛租賃合同協(xié)議
- 保育員教學(xué)大綱和教學(xué)計劃
- XX站SCADA系統(tǒng)升級改造施工方案(模板)
- 偶函數(shù)講課課件
- 中醫(yī)治療“濕疹”醫(yī)案72例
- 《X公司應(yīng)收賬款管理研究14000字(論文)》
- 交通工程公司乳化瀝青儲油罐拆除工程安全協(xié)議書
- YS/T 441.1-2014有色金屬平衡管理規(guī)范第1部分:銅選礦冶煉
- GB/T 23791-2009企業(yè)質(zhì)量信用等級劃分通則
- 員工自主報告和舉報事故隱患獎勵匯總表
- 清代文學(xué)緒論
- 阿里云數(shù)字化轉(zhuǎn)型生態(tài)介紹課件
評論
0/150
提交評論