在線自適應(yīng)網(wǎng)絡(luò)異常檢測系統(tǒng)模型與算法_第1頁
在線自適應(yīng)網(wǎng)絡(luò)異常檢測系統(tǒng)模型與算法_第2頁
在線自適應(yīng)網(wǎng)絡(luò)異常檢測系統(tǒng)模型與算法_第3頁
在線自適應(yīng)網(wǎng)絡(luò)異常檢測系統(tǒng)模型與算法_第4頁
在線自適應(yīng)網(wǎng)絡(luò)異常檢測系統(tǒng)模型與算法_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、計算機研究與發(fā)展ISSN100021239CN1121777TP()在線自適應(yīng)網(wǎng)絡(luò)異常檢測系統(tǒng)模型與算法魏小濤21黃厚寬田盛豐22(北京交通大學(xué)軟件學(xué)院北京100044)(北京交通大學(xué)計算機與信息技術(shù)學(xué)院北京100044)(weixt)AnOnlineAdaptiveNetworkandAlgorithmWeiXiaotao1,Shengfeng22(SchoolofSoftware,BJiaotongUniversity,Beijing100044)(SchoolofComputerandInformationTechnology,BeijingJiaotongUniversity,Beij

2、ing100044)AbstractTheextensiveusageofInternetandcomputernetworksmakessecurityacriticalissue.Thereisanurgentneedfornetworkintrusiondetectionsystemswhichcanactivelydefendnetworksagainstthegrowingsecuritythreats.Inthispaper,alightweightedonlineadaptivenetworkanomalydetectionsystemmodelispresented.There

3、latedinfluencefunctionbasedanomalydetectionalgorithmisalsoprovided.Thesystemcanprocessnetworktrafficdatastreaminreal2time,graduallybuildupitslocalnormalpatternbaseandintrusionpatternbaseunderalittlesupervisingoftheadministrator,anddynamicallyupdatethecontentsoftheknowledgebaseaccordingtothechangingo

4、fthenetworkapplicationpatterns.Atthecheckingmode,thesystemcandetectnotonlythelearnedintrusionpatternsbutalsotheunseenintrusionpatterns.Themodelhasarelativelysimplearchitecture,whichmakesitefficientforprocessingonlinenetworktrafficdata.Alsothedetectingalgorithmtakeslittlecomputationaltimeandmemoryspa

5、ce.ThesystemistestedontheDARPAKDD99intrusiondetectiondatasets.Itscans10%ofthetrainingdatasetandthetestingdatasetonlyonce.Within40secondsthesystemcanfinishthewholelearningandcheckingtasks.Theexperimentalresultsshowthatthepresentedmodelachievesadetectionrateof91.32%andafalsepositiverateofonly0.43%.Iti

6、salsocapableofdetectingnewtypeofintrusions.Keywordsnetworkanomalydetection;onlineadaptive;influencefunction;datastream;anomalydetection摘要隨著因特網(wǎng)等計算機網(wǎng)絡(luò)應(yīng)用的增加,安全問題越來越突出,對具有主動防御特征的入侵檢測系統(tǒng)的需求日趨緊迫.提出一個輕量級的在線自適應(yīng)網(wǎng)絡(luò)異常檢測系統(tǒng)模型,給出了相關(guān)算法.系統(tǒng)能夠?qū)崟r網(wǎng)絡(luò)數(shù)據(jù)流進(jìn)行在線學(xué)習(xí)和檢測,在少量指導(dǎo)下逐漸構(gòu)建網(wǎng)絡(luò)的正常模式庫和入侵模式庫,并根據(jù)網(wǎng)絡(luò)使用特點動態(tài)進(jìn)行更新.在檢測階段,系統(tǒng)能夠?qū)Ξ惓?shù)據(jù)進(jìn)行

7、報警,并識別未曾見過的新入侵.系統(tǒng)結(jié)構(gòu)簡單,計算的時間復(fù)雜度和空間復(fù)雜度都很低,滿足在線處理網(wǎng)絡(luò)數(shù)據(jù)的要求.在DARPAKDD99入侵檢測數(shù)據(jù)集上進(jìn)行測試,10%訓(xùn)練集數(shù)據(jù)和測試集數(shù)據(jù)以數(shù)據(jù)流方式順序一次輸入系統(tǒng),在40s之內(nèi)系統(tǒng)完成所有學(xué)習(xí)和檢測任務(wù),并達(dá)到檢測率91.32%和誤報率0.43%的結(jié)果.實驗結(jié)果表明系統(tǒng)實用性強,檢測效果令人滿意,而且在識別新入侵上有良好的表現(xiàn).收稿日期:2009-03-04;修回日期:2009-10-22基金項目:國家自然科學(xué)基金項目(60442002)486計算機研究與發(fā)展2010,47(3)關(guān)鍵詞網(wǎng)絡(luò)入侵檢測;在線自適應(yīng);影響度函數(shù);數(shù)據(jù)流;異常檢測中圖法

8、分類號TP393.08計算機入侵檢測技術(shù)分為誤用檢測和異常檢測2種.誤用檢測是通過監(jiān)視目標(biāo)系統(tǒng)的特定行為與已知的入侵模式是否匹配來進(jìn)行入侵檢測的;而異常檢測則是事先建立被監(jiān)視目標(biāo)在正常情況下的行為模式,通過檢測當(dāng)前行為是否顯著偏離了相應(yīng)的正常模式來進(jìn)行入侵檢測的.異常檢測由于不需要到廣泛的重視.另外,測.對于網(wǎng)絡(luò)異常檢測系統(tǒng)而言,除了要有較高的檢測率外,從實用性的角度看還應(yīng)滿足:1)系統(tǒng)結(jié)構(gòu)簡單、效率高,檢測算法計算量小,適于處理在線網(wǎng)絡(luò)數(shù)據(jù);2)具有自學(xué)習(xí)自適應(yīng)能力;3)具有較強的檢測新入侵的能力;4)具有較低的誤報率,大量的誤報會使系統(tǒng)的可用性降低.針對上述要求本文提出一個在線自適應(yīng)網(wǎng)絡(luò)異

9、常檢測系統(tǒng).系統(tǒng)能夠處理實時網(wǎng)絡(luò)數(shù)據(jù)流,其學(xué)習(xí)和檢測是一個統(tǒng)一的過程,而且無論學(xué)習(xí)階段還是檢測階段都只掃描數(shù)據(jù)一次;自適應(yīng)是指系統(tǒng)能夠動態(tài)構(gòu)建和維護(hù)自身的知識庫,能隨著網(wǎng)絡(luò)自身應(yīng)用特征的改變而更新知識.在KDD99數(shù)據(jù)集上的實驗結(jié)果驗證了系統(tǒng)的效果和性能.1相關(guān)工作網(wǎng)絡(luò)異常檢測方法的研究從1990年Heberlein等人開發(fā)的NSM(networksecuritymonitor)1系統(tǒng)開始.迄今為止,主要有概率統(tǒng)計分析方法、數(shù)據(jù)挖掘方法和生物系統(tǒng)模擬(神經(jīng)網(wǎng)絡(luò)、遺傳規(guī)劃、人工免疫系統(tǒng)等)方法等.統(tǒng)計分析技術(shù)在入侵檢測系統(tǒng)中的應(yīng)用研究主要集中在馬爾可夫模型和支持向量機模型上.Callegari2

10、等人在網(wǎng)絡(luò)異常檢測中比較了幾種不同的隨機模型,包括一階和高階齊次馬爾可夫鏈、非齊次馬爾可夫鏈、穩(wěn)定性和非穩(wěn)定性經(jīng)驗累積分布函數(shù)等,實驗結(jié)果顯示高階齊次馬爾可夫鏈?zhǔn)切Ч詈玫?但是模型的參數(shù)較難確定;文獻(xiàn)3利用一階齊次馬爾可夫鏈對主機系統(tǒng)中特權(quán)程序的正常行為進(jìn)行建模,并基于狀態(tài)序列的出現(xiàn)概率判斷異常行為;文獻(xiàn)4使用了一個變長馬爾可夫模型來捕獲入侵軌跡的特征,對入侵行為進(jìn)行實時預(yù)測.在使用支持向量機進(jìn)行異常檢測中,為了提高支持向量機的訓(xùn)練速度,文獻(xiàn)5,而文獻(xiàn),都取得較,統(tǒng)計分析方法基本上不,而且有較;但是漏報率和誤報率都還較高,大部分的方法仍然需要干凈的訓(xùn)練數(shù)據(jù),這在真實的網(wǎng)絡(luò)環(huán)境中很難確保.基于

11、數(shù)據(jù)挖掘的檢測技術(shù)使用關(guān)聯(lián)規(guī)則、序列挖掘、數(shù)據(jù)分類和聚類等算法從大量的網(wǎng)絡(luò)數(shù)據(jù)中自動生成簡潔而精確的檢測模型.文獻(xiàn)7使用頻繁項集挖掘算法和衰減窗口技術(shù)來發(fā)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)流的應(yīng)用模式,能夠高效學(xué)習(xí),缺點是不能檢測新入侵,檢測率較低;文獻(xiàn)8首先將訓(xùn)練樣本進(jìn)行聚類,然后在每一聚類上訓(xùn)練一棵ID3決策樹;文獻(xiàn)9針對每一類入侵訓(xùn)練一棵兩類決策樹,檢測時將分類結(jié)果進(jìn)行組合,并通過提升技術(shù)改進(jìn)其檢測性能.這些方法都取得了較好的結(jié)果,但是基于數(shù)據(jù)挖掘的方法往往需要大量的有標(biāo)號數(shù)據(jù)作為基礎(chǔ),系統(tǒng)比較復(fù)雜,在檢測模型學(xué)習(xí)和評價階段的計算成本高,難以實現(xiàn)系統(tǒng)的實時學(xué)習(xí).基于生物系統(tǒng)模擬的方法最近集中在分布式神經(jīng)網(wǎng)絡(luò)和分

12、布式遺傳規(guī)劃上.文獻(xiàn)10將大數(shù)據(jù)集隨機分割成小塊并使用分布式神經(jīng)網(wǎng)絡(luò)進(jìn)行并行學(xué)習(xí),用于大規(guī)模網(wǎng)絡(luò)入侵檢測,取得較高檢測率,但誤報率較高;文獻(xiàn)11使用分布式遺傳規(guī)劃方法訓(xùn)練決策樹分類器,并通過提升的方法分配各分類器的權(quán)重,有效降低了誤報率.但這些算法在學(xué)習(xí)過程中同樣需要大量帶標(biāo)號數(shù)據(jù),且計算復(fù)雜度較大.總之,異常檢測技術(shù)仍然面臨檢測率低和誤報率過高的問題,并且多數(shù)模型系統(tǒng)結(jié)構(gòu)復(fù)雜、效率低,難以適應(yīng)在線檢測的要求.2系統(tǒng)模型與算法在線自適應(yīng)網(wǎng)絡(luò)異常檢測系統(tǒng)模型如圖1所示,系統(tǒng)分為4個部分:(A)數(shù)據(jù)預(yù)處理模塊;(B)模式匹配與更新模塊;(C)決策模塊;(D)報警與響應(yīng)模塊.魏小濤等:在線自適應(yīng)網(wǎng)絡(luò)

13、異常檢測系統(tǒng)模型與算法487Fig.1detectionsystemmodel.圖2.1數(shù)據(jù)預(yù)處理網(wǎng)絡(luò)數(shù)據(jù)首先要經(jīng)過預(yù)處理,目的是將源數(shù)據(jù)轉(zhuǎn)換為適當(dāng)?shù)牧6仍佥斎胂到y(tǒng).我們使用了基于網(wǎng)格的方法劃分?jǐn)?shù)據(jù)空間,這里的網(wǎng)格劃分是指將數(shù)據(jù)空間的每一維劃分區(qū)間,從而將整個數(shù)據(jù)空間劃分成數(shù)目有限的超級長方體,并以網(wǎng)格為單位來判斷落入網(wǎng)格的數(shù)據(jù)是否正常.這樣能夠大大減小系統(tǒng)的運算復(fù)雜度和存儲復(fù)雜度.網(wǎng)格的形式化定義如下:設(shè)A=A1,A2,Ad是一個有界屬性集合,U=A1×A2××Ad是一個d維數(shù)據(jù)空間.V=(v1,v2,vd)是U中的一個d維數(shù)據(jù),其中vi在Ai中取值.通過將每一

14、個屬性維分割成N個區(qū)間,我們把數(shù)據(jù)空間劃分成互不相交的超級長方體.一個網(wǎng)格C就是在各個維中,分別取一個區(qū)間得到的超級長方體:C=(c1,c2,cd).其中ci為符號維時是一個有效取值,為數(shù)字維時是Ai中一個左閉右開區(qū)間:ci=li,hi).我們說一個實例V=(v1,v2,vd)投影到單元C=(c1,c2,cd),即當(dāng):vi=ci(當(dāng)vi是符號值),或者livi<hi(當(dāng)vi是數(shù)字值).網(wǎng)格的劃分方法直接決定了系統(tǒng)的學(xué)習(xí)和分類能力.針對不同的數(shù)據(jù)空間會有不同的劃分方法,由于本文要使用KDD99數(shù)據(jù)進(jìn)行實驗,這里我們以網(wǎng)絡(luò)連接數(shù)據(jù)為例說明數(shù)據(jù)空間的劃分方法.數(shù)據(jù)空間劃分的關(guān)鍵是如何將每一維屬

15、性劃分成離散的區(qū)間.在網(wǎng)絡(luò)連接數(shù)據(jù)中,有取符號值的屬性,也有取數(shù)字值的屬性.對于符號值屬性(如)或僅取0和1的二進(jìn)制屬性(如“protocol-type”),我們將每一個不同的取值作為一個劃“l(fā)ogged2in”分.對于數(shù)值型的屬性,我們按照特征分為2類處理:1)屬性值為一個百分?jǐn)?shù),或者屬性的取值是512以內(nèi)的整數(shù);2)屬性值是大于512的整數(shù).對于第1種類型的數(shù)值屬性,我們可以簡單地將其劃分為N個等長的區(qū)間;對于第2類屬性,等區(qū)間劃分和基于密度的劃分等都是不適合的,因為這些屬性雖然取值范圍比較大,但是多數(shù)實例的取值都集中在一個相對較小的區(qū)間內(nèi),如“duration”.對于這類屬性,使用等頻裝

16、箱法將數(shù)據(jù)點均勻地分布在不同區(qū)間中看似比較合適,但是在處理數(shù)據(jù)流的前提下,這個方法很難有效實現(xiàn).為此我們使用了一種效果近似的函數(shù)轉(zhuǎn)換法,用一個S型函數(shù)將屬性值轉(zhuǎn)換到(0,1)區(qū)間上,再將轉(zhuǎn)換結(jié)果平均Fig.2Comparisonofdifferentdiscretizationtechniques.(a)Equalwidth;(b)Densitybaseddivision;and(c)Variabletransformation.圖2不同的網(wǎng)格劃分方法比較.(a)等分區(qū)間;(b)基于密度劃分;(c)函數(shù)轉(zhuǎn)換488計算機研究與發(fā)展2010,47(3)分成N等份.主要思想是在數(shù)據(jù)密度大的區(qū)域區(qū)間劃

17、分小一些,在數(shù)據(jù)稀疏的區(qū)域區(qū)間劃分大一些,如圖2(c)所示.這里我們使用的S函數(shù)如下:f(x)=式都有一個生命值H,當(dāng)一條新記錄匹配這個模式時,這個模式的生命值會增加1;與此同時其他模式(1),即老化或衰減.的生命值將減少頻繁模式可以定義為生命值達(dá)到一個閾值的模式.的確定隨系統(tǒng)的不同運行階段而不同,在初始階段可以很大,這樣可以避免初始階段對用戶進(jìn)行大量的詢問.5,或個模式.隨著系統(tǒng)的運,多數(shù)數(shù)據(jù)會在經(jīng)過B1和B2時結(jié)束處理.這時的值就可以根據(jù)流入B3的數(shù)據(jù)量的減少而自動減小,不需用戶調(diào)整.頻繁模式經(jīng)過認(rèn)定后會分別加入正常模式庫NPP或入侵模式庫IPP.B1和B2中模式庫的大-(x-m)c,1+

18、e(1)其中,m和c代表當(dāng)前屬性歷史數(shù)據(jù)的平均值和標(biāo)準(zhǔn)差.它們都可以通過對歷史數(shù)據(jù)的統(tǒng)計或相關(guān)的背景知識獲取.3.3的實驗證明了這種方式是有效的.2.2模式的表示在本文中,:P)其中C,是映射到網(wǎng)格C內(nèi)的最近出現(xiàn)的k個實例集合,H是此模式的生命值,L是其標(biāo)號.在模式P中,R是映射到C內(nèi)的最近出現(xiàn)的k個網(wǎng)絡(luò)實例.保存這些實例的原因有2個,一是當(dāng)這個模式成為頻繁模式后,系統(tǒng)將向用戶詢問這一模式是否為正常,網(wǎng)格這樣的抽象表達(dá)方式用戶是無法理解的,這時可以列出這些實例讓用戶判斷;第2個原因是在系統(tǒng)進(jìn)行增量學(xué)習(xí)時,如果系統(tǒng)的網(wǎng)格劃分方式有所調(diào)整,可以通過這些實例將當(dāng)前模式重新對應(yīng)到正確的網(wǎng)格中,從而保留

19、知識.H是模式P的生命值,當(dāng)有新的實例投影到這小可以不作限制,隨著模式的動態(tài)生成和衰亡,模式庫的大小會穩(wěn)定在一定范圍內(nèi).但是如果內(nèi)存有限需要進(jìn)行限制時則要用到模式的更新策略,這里簡單地用新模式替換第1個生命值最小的舊模式.同時,這種模式的動態(tài)更新機制也使得系統(tǒng)可以適應(yīng)網(wǎng)絡(luò)使用環(huán)境的變化.模塊C是系統(tǒng)提供的一個開放平臺,此處可以集成多種檢測算法,甚至可以結(jié)合其他基于誤用的檢測系統(tǒng),為用戶判斷一個新模式的危險性提供參考信息.這里我們給出了一個基于模式影響度的算法,在第2.4節(jié)描述.由于報警與響應(yīng)不是本文的重點,因此模塊D的主要功能是回答詢問和響應(yīng)報警.當(dāng)然,為了減輕用戶的負(fù)擔(dān),提高系統(tǒng)的可用性,當(dāng)

20、模塊C提供的參考信息具有較高的確信度時,系統(tǒng)也可以根據(jù)這些信息自動進(jìn)行認(rèn)定.2.4基于模式影響度的檢測算法個模式時,其生命值會增加;而長久沒有實例匹配的模式,其生命值會逐漸減小并最終被新的頻繁模式替代.通過對正常模式的這種運算可以使系統(tǒng)始終保持網(wǎng)絡(luò)的最近工作狀態(tài).L是模式P的標(biāo)號.已詢問過用戶的模式,標(biāo)號是“正?!被颉叭肭帧?未確定的模式標(biāo)號為“未標(biāo)號”.2.3系統(tǒng)工作機制在初始階段,所有的模式庫都是空的,決策模塊中因為沒有任何知識而無法工作.所以在進(jìn)行異常檢測之前,系統(tǒng)需要進(jìn)行學(xué)習(xí).在學(xué)習(xí)階段逐漸動態(tài)生成最近的正常模式庫以及入侵模式庫.正常模式基本上都是頻繁模式,但是在實際情況中頻繁模式并不

21、都是正常模式.例如,DoS攻擊包含大量網(wǎng)絡(luò)流量,也一定是頻繁模式.因此,在學(xué)習(xí)過程中,模塊B3獲得的頻繁模式不能直接加入正常模式庫,而需要決策模塊或用戶的確認(rèn).這里涉及到一個頻繁模式的確定問題,為了獲得最近最經(jīng)常出現(xiàn)的模式,我們借鑒了操作系統(tǒng)中二級緩存的更新機制.模式緩存庫PC中每一個模在網(wǎng)絡(luò)異常檢測的過程中,我們依賴如下的假設(shè):正常數(shù)據(jù)之間或入侵?jǐn)?shù)據(jù)之間具有一定的相似性,而入侵?jǐn)?shù)據(jù)與正常數(shù)據(jù)之間有一定的差異性.這樣每個數(shù)據(jù)對周圍的數(shù)據(jù)都會有一個正面的或負(fù)面的影響.一個新的待分類數(shù)據(jù)可以根據(jù)所有其他已分類數(shù)據(jù)對它的影響來決定其類型,下面說明相關(guān)概念與方法.2個模式P,Q的距離D(P,Q)定義為

22、它們所包含的2個d維網(wǎng)格CP,CQ之間的距離:dD(CP,CQ)=i=1d(CP,CQ),ii(2)魏小濤等:在線自適應(yīng)網(wǎng)絡(luò)異常檢測系統(tǒng)模型與算法i0,ifCiP=CQ;489其中d(C,C)=iPiQ1,otherwise.在判斷一個新的頻繁模式時,可能會遇到這個模式所保存的k個最近實例中既有正常連接又有異常連接的情況.必要時我們可以將網(wǎng)格劃分進(jìn)行細(xì)化,即在數(shù)據(jù)空間的某一維或幾維上多一個區(qū)間分割點,從而使這些沖突的實例被劃分到不同的網(wǎng)格.同時,系統(tǒng)可以根據(jù)每個模式保存的k個實例為所,從而保留已經(jīng).IPP|.(一個模式P對另一個模式X的影響函數(shù)定義為(3)f(P,X)=exp(-D(P,X).

23、這樣,當(dāng)|NPP|>1且|IPP|>1時,一個新模式X對正常模式的隸屬度為Fn(X)=PNPPf(P,X)|f(P,X)|NPP|.(4)X對入侵模式的隸屬度為Fi(X)=X的正常度定義為N(X)X).(6)PIPP33.1實驗數(shù)據(jù),當(dāng)N(X)>時我們認(rèn)為新模式X為正常模式,否則為異常模式并進(jìn)行報警.用戶可以調(diào)整這個閾值以在高檢測率和低誤報率之間進(jìn)行權(quán)衡.檢測算法如下所示.算法1.基于影響度的網(wǎng)絡(luò)異常檢測算法.輸入:模式衰減系數(shù);頻繁模式閾值;正常度閾值.初始化:正常模式庫、入侵模式庫、模式緩存庫初始都為空.每當(dāng)一個網(wǎng)絡(luò)連接記錄到達(dá),進(jìn)行下列處理:1)按第2.2節(jié)網(wǎng)絡(luò)應(yīng)用模式

24、的定義,將此記錄轉(zhuǎn)化為模式X;2)在正常模式庫中搜索與X匹配的模式,在搜索的同時累加所有正常模式對X的影響度值得到Fn,并對正常模式的生命值衰減;若發(fā)現(xiàn)與X匹配的模式,則將其生命值加1,并結(jié)束對此記錄的處理;3)在入侵模式庫中搜索與X匹配的模式,在搜索的同時累加所有入侵模式對X的影響度值得到Fi;若發(fā)現(xiàn)與X匹配的模式,則報警,并結(jié)束對此記錄的處理;4)在模式緩存庫中搜索與X匹配的模式,在搜索的同時對緩存模式進(jìn)行衰減;若發(fā)現(xiàn)與X匹配的模式,則將其生命值加1,若其生命值大于,則向管理員發(fā)出一個增加正常模式的申請,并根據(jù)管理員反饋將X加入正常模式庫,結(jié)束對此記錄的處理;5)此時X是一個新模式,根據(jù)F

25、n和Fi計算其正常度,若正常度小于等于,則報警,并根據(jù)管理員反饋將X加入入侵模式庫;若正常度大于,則將X加入模式緩存庫,結(jié)束對此記錄的處理.實驗使用KDD9912數(shù)據(jù)集.它是MITLincoln實驗室提供的1998DARPA入侵檢測評估數(shù)據(jù)集的一個擴充版本.其中包括訓(xùn)練集(kddcup.data.gz)和測試集(corrected.gz).數(shù)據(jù)以網(wǎng)絡(luò)連接的形式保存,每條記錄含42個屬性,其中7個符號屬性,34個數(shù)值屬性,1個分類標(biāo)號屬性.我們在實驗中,訓(xùn)練集主要使用了一個10%的子集(kddcup.data-10-percent.gz).其中共有數(shù)據(jù)494020條,正常數(shù)據(jù)97277條,入侵?jǐn)?shù)

26、據(jù)396743條,入侵種類22種.同時為了驗證系統(tǒng)的可伸縮性,我們也使用了訓(xùn)練集的全集進(jìn)行了實驗比較.測試集則使用完整的corrected.gz數(shù)據(jù)集,其中共有數(shù)據(jù)311029條,正常數(shù)據(jù)60593條,入侵?jǐn)?shù)據(jù)250436條,入侵種類37種,其中有17種未在訓(xùn)練集中出現(xiàn).3.2實驗過程系統(tǒng)用Java編寫,運行于一臺IntelCoreDuo2.4GHz,1GB內(nèi)存的電腦.為了避免打開大文件所消耗的磁盤讀取時間,系統(tǒng)直接使用了訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的壓縮文件作為輸入文件,并在系統(tǒng)內(nèi)部解壓縮后進(jìn)行處理.訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集順序一次性流過系統(tǒng).在訓(xùn)練集通過時,系統(tǒng)處于“學(xué)習(xí)”工作方式,在學(xué)習(xí)時系統(tǒng)并未用

27、到所有訓(xùn)練數(shù)據(jù)的標(biāo)號,只是當(dāng)需要用戶確認(rèn)一個頻繁模式是否正常時系統(tǒng)會自動提取此模式包含的k(實驗時取k=10)個最近訓(xùn)練數(shù)據(jù)的標(biāo)號進(jìn)行判斷,如果入侵?jǐn)?shù)據(jù)占半數(shù)以上則認(rèn)為此模式為入侵模式.在測試集通過時,系統(tǒng)可以分別處于“檢測”和“檢測時學(xué)習(xí)”2種工作方式.如果選擇“檢測時學(xué)習(xí)”,系統(tǒng)發(fā)現(xiàn)新的頻繁模式后會對比測試集上提供的標(biāo)號來更新模式庫.下面的實驗如無特別聲明,我們都是選擇“檢測”模式進(jìn)行.490計算機研究與發(fā)展2010,47(3)3.3數(shù)據(jù)空間劃分在學(xué)習(xí)和檢測之前,首先要對數(shù)據(jù)空間進(jìn)行網(wǎng)格劃分.我們使用第2.1節(jié)的方法,符號屬性每一個不同的取值劃分一個區(qū)間;數(shù)值屬性劃分成N個區(qū)間.為了選擇合

28、適的N,我們測試了不同的取值,并在劃分結(jié)束后將10%訓(xùn)練集的數(shù)據(jù)進(jìn)行投影,觀察劃分效果.結(jié)果如表1所示,其中G表示包含有實例的網(wǎng)格數(shù),MG表示其中既包含正常實例又包含入侵實例的網(wǎng)格數(shù)及其所占比例,FS表示在MGTable1RGridding3ROCcurvesofexperimentalresults.圖3實驗結(jié)果的ROC圖表1NGMGFS可以看出,當(dāng)誤報率控制在2%以內(nèi)時,的取值對檢測效果影響不大,這說明系統(tǒng)檢測能力主要是由少數(shù)頻繁度比較高的模式?jīng)Q定的.圖4是當(dāng)=50,=1.1,=0.0001時,模式庫容量(PPS)取不同的值所獲得的結(jié)果.可見隨著PPS的增加,系統(tǒng)的誤報率明顯減小,而當(dāng)PP

29、S超34567891011122615530646756450632210976861510974114621487444(1.68%)38(0.72%)37(0.79%)32(0.50%)44(0.70%)32(0.29%)49(0.57%)35(0.32%)40(0.35%)31(0.21%)427(0.086%)129(0.026%)190(0.038%)126(0.026%)176(0.036%)94(0.019%)185(0.037%)100(0.020%)163(0.033%)85(0.017%)過600時,系統(tǒng)性能趨于穩(wěn)定.結(jié)果顯示,這種劃分方法基本上能用較少的網(wǎng)格將正常數(shù)據(jù)和入

30、侵?jǐn)?shù)據(jù)有效地劃分開.根據(jù)訓(xùn)練數(shù)據(jù)集來看,當(dāng)N=8時,以網(wǎng)格為單位確定落入此區(qū)域的實例是否正常所帶來的誤差為0.019%.由于KDDCUP99的獲勝方法的檢測率為91.9%,相比而言這個誤差的數(shù)量級是可以接受的.因此下面的實驗我們選擇參數(shù)N=8對數(shù)據(jù)空間進(jìn)行網(wǎng)格劃分,并以網(wǎng)格為學(xué)習(xí)和檢測的基本單位.3.4實驗結(jié)果與分析Fig.4Detectionresultvs.patternpoolsize.圖4模式庫容量對檢測結(jié)果的影響為了減小計算復(fù)雜度PPS不必太大,但是也不能太小.當(dāng)我們將PPS減小到20以下時,系統(tǒng)基本不能進(jìn)行有效的檢測了.PPS為300時的檢測結(jié)果列于表2:Table2Detecti

31、onResultsforPPS=300實驗主要考察系統(tǒng)的檢測率和誤報率:檢測率DR(detectionrate)=檢測出的異常記錄數(shù)異常記錄總數(shù);誤報率FPR(falsepositiverate)=判斷為異常的正常記錄數(shù)判斷為異常的所有記錄數(shù).在測試時,為了盡量保持學(xué)習(xí)時得到的知識,我們?nèi)∧J剿p參數(shù)=0.0001,模式庫最大容量限制為1000.并為頻繁模式閾值和正常度閾值選取了不同的值.實驗結(jié)果如圖3所示:表2PPS=300時的檢測結(jié)果0.911.53DRFPR%90.6790.8791.0191.3291.3691.4691.620.230.310.380.430.441

32、.141.83魏小濤等:在線自適應(yīng)網(wǎng)絡(luò)異常檢測系統(tǒng)模型與算法491我們看到,當(dāng)=0.9時系統(tǒng)檢測率為91.32%,誤報率為0.43%.其對不同類型的攻擊檢測率如表3所示:Table3DetectionResultsofDifferentAttackTypes300計算,系統(tǒng)最后共保留600個頻繁模式(其中正常模式和入侵模式各300個),只占用極少的內(nèi)存表3對不同攻擊類型的檢測結(jié)果AttackTypeProbeDoSU2RR2LDRofOANAD%空間.2)系統(tǒng)沒有用到訓(xùn)練集的所有標(biāo)號信息.只是在分類頻繁模式時查看了這些模式最近出現(xiàn)的10個實例進(jìn)行判斷,僅占訓(xùn)練集標(biāo)號的很少部分.3).隨著模,.

33、當(dāng)我們選擇“檢測,94.12%和誤報率0.45%=60,=1.2,PPS=1000)的結(jié)果.4)檢測新入侵的能力.corrected.gz測試集含DRofKDD99Winner86.0897.1858.640.1683.397.113.28.可見,U2R和R2L.少(U2R為52條,R2L為1126條),并且這2類入侵在行為模式上多數(shù)與正常數(shù)據(jù)也比較接近.由于本系統(tǒng)是根據(jù)數(shù)據(jù)相似性來進(jìn)行檢測的,因此會出現(xiàn)上述檢測率較低的情況,但是對于頻繁出現(xiàn)的數(shù)據(jù)模式,如Probe和DoS攻擊,系統(tǒng)有很高的識別率,甚至優(yōu)于KDDCUP99獲勝者.作為對比,表4列出其他方法在相同測試集上取得的結(jié)果.Table4

34、ComparisonwithOtherApproaches有入侵種類37種,其中有17種未在訓(xùn)練集中出現(xiàn),當(dāng)允許誤報率為3.40%時本系統(tǒng)可以檢測到所有17種入侵;在誤報率為0.33%時可檢測到11種.表5列出了其捕獲的11種新入侵記錄數(shù).Table5DetectionAbilityofNewTypeofIntrusions表5對新入侵的檢測結(jié)果NewIntrusionsapache2httptunnel#Total79415850001053177591673617774124062229413#Detected267110082614185707103100020表4其他檢測方法檢測結(jié)果A

35、pproachesKDDCUP99WinningentryKDDCUP99SecondplaceDistributedlearning10AverageGEdIDS11BestGEdIDS2FPrate11DRFPR%mailbombmscannamedprocesstablepssaintsendmailsnmpgetattacksnmpguess91.94591.52591.790.58191.0170.5460.5763.20.5650.434雖然OANAD的檢測率不是最好,但已接近KDDCUP99獲勝者的檢測效果,而誤報率是最低的,這點在異常檢測中尤為重要.如果綜合考慮下列因素,系統(tǒng)的

36、性能是比較突出的.1)系統(tǒng)是輕量級的.如果系統(tǒng)的正常模式庫和入侵模式庫的總?cè)萘渴荕,算法檢測n條記錄的時間復(fù)雜度為O(M×n).KDDCUP99的獲勝方法之一MP13使用PERGAMENTsoftware運行了6h完成全部計算,而我們的算法只運行了不到40s.其中學(xué)習(xí)494020條訓(xùn)練數(shù)據(jù)使用了不到23s;檢測測試數(shù)據(jù)使用不到17s.為了進(jìn)一步測試系統(tǒng)的性能,我們將訓(xùn)練集的全集輸入系統(tǒng)進(jìn)行學(xué)習(xí),結(jié)果系統(tǒng)只用了277.5s就結(jié)束了學(xué)習(xí),其中還包括了解壓縮的時間.另外,系統(tǒng)的空間復(fù)雜度低,如果我們按PPS=sqlattackudpstormwormxlockxsnoopxterm4總結(jié)本

37、文提出了一個在線自適應(yīng)網(wǎng)絡(luò)異常檢測系統(tǒng)模型,它不需要特殊的訓(xùn)練集,它的學(xué)習(xí)模式和工作模式是統(tǒng)一的,能夠在使用的過程中逐步學(xué)習(xí)用戶的正常模式,并在每一次與用戶的交流中確認(rèn)入侵模式,修正檢測依據(jù).實驗結(jié)果表明,系統(tǒng)效率很高,具有較好的檢測率和滿意的誤報率.4929計算機研究與發(fā)展2010,47(3)DartiqueC,JangH,ZengW.Anewdata2miningbasedapproachfornetworkintrusiondetectionCProcofthe7thAnnualConfonCNSR.LosAlamitos,CA:IEEEComputerSociety,2009:372-

38、37710LiuYanheng,TianDaxin,YuXuegang,etla.Large2scalenetworkintrusiondetectionalgorithmbasedondistributedlearningJ.JournalofSoftware,2008,19(4):993-1003(inChinese)(劉衍珩,田大新,基于分布式學(xué)習(xí)的大規(guī)模網(wǎng)參考1文獻(xiàn)HeberleinL,DiasGV,LevittKN,etal.AnetworksecuritymonitorCProcofthe1990SymponSecurityandPrivacy.LosAlamitos,CA:IEE

39、EComputerSociety,1990:296-3042CallegariC,VatonS,PaqanoM.AnewstatisticalapproachtonetworkanomalydetectionCProcofthe2008IntSymponSPECTS.LosAlamitos,CA:IEEEComputerSociety,2008:441-447,2008,19(4):993-1003)11CGPensemblefordistributedCProcofthe3rdIntConfoninPatternRecognition.Berlin:Springer,2005:54-6212

40、ACM.KDDCup1999DataOL.2001206230.http:kddcup3TianXinguang,GaoLizhi,SunChunlai,etal.AnomalydetectionofprogrambehaviorsbasedoncallshomogeneousMarkovchainmodelsResearchand,(9):(inChinese)(田新廣,高立志,春來,等.基于系統(tǒng)調(diào)用和齊次Markov鏈模型的程序行為異常檢測J.計算機研究與發(fā)展,2007,44(9):1538-1544)4FavaD,ByersS,YangS.Projecting

41、cyberattacksthroughvariable2length5MarkovmodelsJ.IEEETransonTwo2stageInformationForensicsandSecurity,2008,3(3):359-369DucD,MatsumotoK,TakishimaY,etal.incrementalworkingsetselectionforfastsupportvectortrainingonlargedatasetsCProcofthe2008IEEEIntConfonRIVF.LosAlamitos,CA:IEEEComputerSociety,2008:221-2

42、266LatifurK,AwadM,ThuraisinghamB.AnewintrusiondetectionsystemusingsupportvectormachinesandhierarchicalclusteringJ.TheVLDBJournal,2007,16(4):507-5217MaoGuojun,ZongDongjun.Anintrusiondetectionmodelbasedonminingmulti2dimensiondatastreamsJ.JournalofComputerResearchandDevelopment,2009,46(4):602-609(inChi

43、nese)(毛國君,宗東軍,基于多維數(shù)據(jù)流挖掘技術(shù)的入侵檢測模WeiXiaotao,bornin1971.PhDcandidate.Hismainresearchinterestsincludedataminingandnetworksecurity.魏小濤,1971年生,博士研究生,主要研究方向為數(shù)據(jù)挖掘和計算機網(wǎng)絡(luò)安全.HuangHoukuan,bornin1940.ProfessorandPhDsupervisor.SeniormemberofChinaComputerFederation.Hismainresearchfieldsincludeartificialintelligence,datamining,andmachinelearning.黃厚寬,1940年生,教授,博士生導(dǎo)師,中國計算機學(xué)會高級會員,主要研究方向為人工智能、數(shù)據(jù)挖掘、機器學(xué)習(xí)等.TianShengfeng,bornin1944.ProfessorandPh

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論