數(shù)據(jù)挖掘算法在入侵檢測中的應(yīng)用研究_第1頁
數(shù)據(jù)挖掘算法在入侵檢測中的應(yīng)用研究_第2頁
數(shù)據(jù)挖掘算法在入侵檢測中的應(yīng)用研究_第3頁
免費(fèi)預(yù)覽已結(jié)束,剩余5頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘算法在入侵檢測中的應(yīng)用研究

摘要該文對入侵檢測的現(xiàn)狀進(jìn)行了分析,在此基礎(chǔ)上重點(diǎn)研究了數(shù)據(jù)挖掘算法在異常檢測和誤用檢測中的具體應(yīng)用。對于異常檢測,主要研究了分類算法;對于誤用檢測,主要研究了模式比較和聚類算法,在模式比較中又以關(guān)聯(lián)規(guī)則和序列規(guī)則為重點(diǎn)研究對象。最后對目前數(shù)據(jù)挖掘算法在入侵檢測中應(yīng)用所面臨的難點(diǎn)進(jìn)行了分析,并指明了今后的研究方向。

關(guān)鍵字入侵檢測;數(shù)據(jù)挖掘;異常檢測;誤用檢測;分類算法;關(guān)聯(lián)規(guī)則;序列規(guī)則;聚類算法0引言

隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,現(xiàn)在越來越多的人通過豐富的網(wǎng)絡(luò)資源學(xué)會各種攻擊的手法,通過簡單的操作就可以實(shí)施極具破壞力的攻擊行為,如何有效的檢測并阻止這些攻擊行為的發(fā)生成了目前計算機(jī)行業(yè)普遍關(guān)注的一個問題。

用于加強(qiáng)網(wǎng)絡(luò)安全的手段目前有很多,如加密,VPN,防火墻等,但這些技術(shù)都是靜態(tài)的,不能夠很好的實(shí)施有效的防護(hù)。而入侵檢測(IntrusionDetection)技術(shù)是一種動態(tài)的防護(hù)策略,它能夠?qū)W(wǎng)絡(luò)安全實(shí)施監(jiān)控、攻擊與反攻擊等動態(tài)保護(hù),在一定程度上彌補(bǔ)了傳統(tǒng)靜態(tài)策略的不足。1入侵檢測中數(shù)據(jù)挖掘技術(shù)的引入1.1入侵檢測技術(shù)介紹

入侵檢測技術(shù)是對(網(wǎng)絡(luò))系統(tǒng)的運(yùn)行狀態(tài)進(jìn)行監(jiān)視,發(fā)現(xiàn)各種攻擊企圖、攻擊行為或者攻擊結(jié)果,以保證系統(tǒng)資源的機(jī)密性、完整性與可用性。從檢測數(shù)據(jù)目標(biāo)的角度,我們可以把入侵檢測系統(tǒng)分為基于主機(jī)、基于網(wǎng)絡(luò)、基于內(nèi)核和基于應(yīng)用等多種類型。本文主要分析基于網(wǎng)絡(luò)的入侵檢測系統(tǒng)的構(gòu)造。根據(jù)數(shù)據(jù)分析方法(也就是檢測方法)的不同,我們可以將入侵檢測系統(tǒng)分為兩類:

(1)誤用檢測(MisuseDetection)。又稱為基于特征的檢測,它是根據(jù)已知的攻擊行為建立一個特征庫,然后去匹配已發(fā)生的動作,如果一致則表明它是一個入侵行為。它的優(yōu)點(diǎn)是誤報率低,但是由于攻擊行為繁多,這個特征庫會變得越來越大,并且它只能檢測到已知的攻擊行為。

(2)異常檢測(AnomalyDetection)。又稱為基于行為的檢測,它是建立一個正常的特征庫,根據(jù)使用者的行為或資源使用狀況來判斷是否入侵。它的優(yōu)點(diǎn)在于與系統(tǒng)相對無關(guān),通用性較強(qiáng),可能檢測出以前從未出現(xiàn)過的攻擊方法。但由于產(chǎn)生的正常輪廓不可能對整個系統(tǒng)的所有用戶行為進(jìn)行全面的描述,況且每個用戶的行為是經(jīng)常改變的,所以它的主要缺陷在于誤檢率很高。

將這兩種分析方法結(jié)合起來,可以獲得更好的性能。異常檢測可以使系統(tǒng)檢測新的、未知的攻擊或其他情況;誤用檢測通過防止耐心的攻擊者逐步改變行為模式使得異常檢測器將攻擊行為認(rèn)為是合法的,從而保護(hù)異常檢測的完整性。

入侵檢測的數(shù)據(jù)源可以通過一些專用的抓包工具來獲取,在Windows系統(tǒng)一下,一般采用Winpcap來抓獲數(shù)據(jù)包,在Unix系統(tǒng)下,可以通過Tcpdump和Arpwatch來獲取。在數(shù)據(jù)分析階段將會用到我們這里重點(diǎn)要介紹的是數(shù)據(jù)挖掘技術(shù),響應(yīng)部分分為主動響應(yīng)和被動響應(yīng)。1.2數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘(DataMining)技術(shù)是一個從大量的數(shù)據(jù)中提取人們感興趣的模式的過程。挖掘的對象不僅是數(shù)據(jù)源、文件系統(tǒng),也包括諸如Web資源等任何數(shù)據(jù)集合;同時數(shù)據(jù)挖掘的過程并不是一個直線型的過程,而是一個螺旋上升、循環(huán)往復(fù)的多步驟處理過程。

數(shù)據(jù)挖掘通過預(yù)測未來趨勢及行為,做出預(yù)測性的、基于知識的決策。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識,按其功能可分為以下幾類:

(1)關(guān)聯(lián)分析

關(guān)聯(lián)分析能尋找數(shù)據(jù)庫中大量數(shù)據(jù)的相關(guān)聯(lián)系,常用的2種技術(shù)為關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)一個事物與其他事物間的相互關(guān)聯(lián)性或相互依賴性,可用于如分析客戶在超市買牙刷的同時又買牙膏的可能性;序列模式分析將重點(diǎn)放在分析數(shù)據(jù)之間的前后因果關(guān)系,如買了電腦的顧客則會在3個月內(nèi)買殺毒軟件。

(2)聚類輸入的數(shù)據(jù)并無任何類型標(biāo)記,聚類就是按一定的規(guī)則將數(shù)據(jù)劃分為合理的集合,即將對象分組為多個類或簇,使得在同一個簇中的對象之間具有較高的相似度,而在不同簇中的對象差別很大。

(3)自動預(yù)測趨勢和行為

數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中進(jìn)行分類和預(yù)測,尋找預(yù)測性信息,自動地提出描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù)據(jù)趨勢。

(4)概念描述對于數(shù)據(jù)庫中龐雜的數(shù)據(jù),人們期望以簡潔的描述形式來描述匯集的數(shù)據(jù)集。概念描述就是對某類對象的內(nèi)涵進(jìn)行描述并概括出這類對象的有關(guān)特征。

(5)偏差檢測偏差包括很多潛在的知識,如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、量值隨時間的變化等。

數(shù)據(jù)挖掘技術(shù)是最新引入到入侵檢測的技術(shù)。它的優(yōu)越之處在于可以從大量的網(wǎng)絡(luò)數(shù)據(jù)以及主機(jī)的日志數(shù)據(jù)中提取出人們需要的、事先未知的知識和規(guī)律。利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)網(wǎng)絡(luò)安全在國內(nèi)外都屬于一種新的嘗試。目前,對數(shù)據(jù)挖掘算法的研究已比較成熟,而數(shù)據(jù)挖掘本身是一個通用的知識發(fā)現(xiàn)技術(shù)。在入侵檢測領(lǐng)域,我們將入侵檢測看作是一個數(shù)據(jù)的分析過程,對大量的安全數(shù)據(jù)應(yīng)用特定的數(shù)據(jù)挖掘算法,以達(dá)到建立一個具有自適應(yīng)性以及良好的擴(kuò)展性能的入侵檢測系統(tǒng)。目前,應(yīng)用到入侵檢測上的數(shù)據(jù)挖掘算法主要集中在關(guān)聯(lián)、序列、分類和聚類這四個基本模型之上。2.1基于誤用的檢測模型

誤用檢測中的基本思路是:

首先我們從網(wǎng)絡(luò)或是主機(jī)上獲取原始二進(jìn)制的數(shù)據(jù)文件,再把這些數(shù)據(jù)進(jìn)行處理,轉(zhuǎn)換成ASCII碼表示的數(shù)據(jù)分組形式。再經(jīng)過預(yù)處理模塊將這些網(wǎng)絡(luò)數(shù)據(jù)表示成連接記錄的形式,每個連接記錄都是由選定的特征屬性表示的,比如連接建立的時間,所使用的端口服務(wù),連接結(jié)束的狀態(tài)等等數(shù)據(jù)特征。再進(jìn)行完上面的工作后,對上述的由特征屬性組成的模式記錄進(jìn)行處理,總結(jié)出其中的統(tǒng)計特征,包括在一時間段內(nèi)與目標(biāo)主機(jī)相同的連接記錄的次數(shù)、發(fā)生SYN錯誤的連接百分比、目標(biāo)端口相同的連接所占的百分比等等一系列的統(tǒng)計特征。最后,我們就可以進(jìn)行下面的檢測分析工作,利用分類算法,比如RIPPER、C4.5等建立分類模型。當(dāng)然,在這其中,統(tǒng)計特征以及分類特征的選擇和構(gòu)建都是我們必須要反復(fù)總結(jié)的過程,最后才能根據(jù)各種不同的攻擊方式或是不同的網(wǎng)絡(luò)服務(wù)確定最終的分類數(shù)據(jù)。只有這樣才能建立一個實(shí)用性較強(qiáng)、效果更好的分類模型。

·ID3、C4.5算法

ID3算法是一種基本的決策樹生成算法,該算法不包括規(guī)則剪除部分。C4.5算法作為ID3算法的后繼版本,就加入了規(guī)則剪除部分,使用訓(xùn)練樣本來估計每個規(guī)則的準(zhǔn)確率。也是分類模型的主要運(yùn)用算法。

對于已知的攻擊類型的檢測,分類模型具有較高的檢準(zhǔn)率,但是對于未知的、新的攻擊,分類模型效果就不是很理想。這個是由誤用檢測本身的特點(diǎn)所決定的,誤用檢測誤報率低,但是它在對已知攻擊模式特征屬性構(gòu)建和選取上往往要花費(fèi)大量的精力,這也是分類檢測的難點(diǎn)所在。所以這種檢測模型只能有限的檢測已知的攻擊,而要更好的檢測未知的攻擊,就要使用到異常檢測技術(shù),但是,異常檢測卻比誤用檢測負(fù)責(zé)的多,因?yàn)閷τ谙到y(tǒng)正常使用模式的構(gòu)建本身就是一件非常復(fù)雜的事情。2.2基于異常的入侵模型

異常檢測的主要工作就是通過構(gòu)造正常活動集合,然后利用得到的一組觀察數(shù)值的偏離程度來判斷用戶行為的變化,以此來覺得是否屬于入侵的一種檢測技術(shù)。異常檢測的優(yōu)點(diǎn)在于它具有檢測未知攻擊模式的能力,不論攻擊者采用什么樣的攻擊策略,異常檢測模型依然可以通過檢測它與已知模式集合之間的差異來判斷用戶的行為是否異常。

在異常檢測中主要用到的兩個算法就是模式比較和聚類算法

(1)模式比較

在模式比較算法中首先通過關(guān)聯(lián)規(guī)則和序列規(guī)則建立正常的行為模式,然后通過模式比較算法來區(qū)別正常行為和入侵行為。

·關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘最為廣泛應(yīng)用的技術(shù)之一,也是最早用于入侵檢測的技術(shù)。關(guān)聯(lián)規(guī)則分析是發(fā)現(xiàn)所有支持度和可信度均超過規(guī)定域值的方法,它主要經(jīng)過兩步過程:首先識別所有支持度不低于用戶規(guī)定的最小支持度域值的項目集,即頻繁項目集;然后從得到的頻繁項目集中構(gòu)造出可信度不低于用戶規(guī)定的最小可信度域值的規(guī)則?,F(xiàn)在已有多種關(guān)聯(lián)規(guī)則算法如Apriori算法等用于入侵檢測。

·序列分析序列規(guī)則和關(guān)聯(lián)規(guī)則相似,其目的也是為了挖掘出數(shù)據(jù)之間的聯(lián)系,它們的不同之處在于前者加入了時間的概念。序列模式挖掘有幾個重要的參數(shù),如時間序列的持續(xù)時間,事件重疊窗口和被發(fā)現(xiàn)的模式中時間之間的時間間隔。還可以在要挖掘的序列模式上指定約束,方法是提供“模式模板“,其形式可以是系列片段(SerialEpisode),并行片段(ParallelEpisode),或正則表達(dá)式。序列分析使用于發(fā)現(xiàn)分布式攻擊和插入噪聲的攻擊。由于各種攻擊方法的規(guī)模的擴(kuò)大和時間持久,序列分析變得越來越重要。(2)聚類算法

聚類分析的基本思想主要源于入侵與正常模式上的不同及正常行為數(shù)目應(yīng)遠(yuǎn)大于入侵行為數(shù)目的條件,因此能夠?qū)?shù)據(jù)集劃分為不同的類別,由此分辨出正常和異常行為來檢測入侵。數(shù)據(jù)挖掘中常用的聚類算法有K-means、模糊聚類、遺傳聚類等?;诰垲惖娜肭謾z測是一種無監(jiān)督的異常檢測算法,通過對未標(biāo)識數(shù)據(jù)進(jìn)行訓(xùn)練來檢測入侵。該方法不需要手工或其他的分類,也不需要進(jìn)行訓(xùn)練。因此呢功能發(fā)現(xiàn)新型的和未知的入侵類型。3.結(jié)論

入侵檢

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論