改進(jìn)的雙重特征協(xié)議識(shí)別方法研究_第1頁
改進(jìn)的雙重特征協(xié)議識(shí)別方法研究_第2頁
改進(jìn)的雙重特征協(xié)議識(shí)別方法研究_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

改良的雙重特征協(xié)議識(shí)別方法研究

【摘要】傳統(tǒng)識(shí)別方法難以滿足現(xiàn)實(shí)網(wǎng)絡(luò)環(huán)境的實(shí)際需要。文章利用協(xié)議的端口和特征串雙重特征進(jìn)展識(shí)別,并且根據(jù)實(shí)際的網(wǎng)絡(luò)統(tǒng)計(jì)所需要識(shí)別協(xié)議的真實(shí)流量,正確化簡正那么表達(dá)式來實(shí)現(xiàn)對協(xié)議識(shí)別的加速。結(jié)果證明,與L7-filter正那么表達(dá)式識(shí)別方法比較,采用方法能有效降低資源消耗和匹配時(shí)間,進(jìn)步識(shí)別率。

【關(guān)鍵詞】協(xié)議識(shí)別;正那么表達(dá)式;特征串

1引言

快速準(zhǔn)確地對網(wǎng)絡(luò)進(jìn)展流量控制、網(wǎng)絡(luò)計(jì)費(fèi)及內(nèi)容過濾識(shí)別是當(dāng)今計(jì)算機(jī)網(wǎng)絡(luò)開展面臨的重要問題,這對政府管理部門、網(wǎng)絡(luò)管理員、運(yùn)營商等都有非常重要的意義。協(xié)議識(shí)別技術(shù)解決了這一問題,尤其在網(wǎng)絡(luò)平安監(jiān)控領(lǐng)域,通過協(xié)議識(shí)別技術(shù)對捕獲的數(shù)據(jù)包進(jìn)展分析,判斷協(xié)議類型,分析其特征,從而在入侵檢測或網(wǎng)絡(luò)攻擊等方面起到很大作用。本文在對傳統(tǒng)識(shí)別方法分析的根底上,以識(shí)別正確率高、速度快、算法復(fù)雜度小為根本原那么,提出了一種基于數(shù)據(jù)分類和正那么表達(dá)式匹配的應(yīng)用層協(xié)議識(shí)別方法。

2傳統(tǒng)的協(xié)議識(shí)別算法

2.1基于端口的協(xié)議識(shí)別算法

這種識(shí)別算法使用IANA規(guī)定的固定端口號(hào)來進(jìn)展相應(yīng)的應(yīng)用層協(xié)議識(shí)別,僅能識(shí)別固定端口的應(yīng)用層協(xié)議識(shí)別率高。但是大量的應(yīng)用層協(xié)議為了防止識(shí)別,逃避防火墻的檢查,使用隨機(jī)端口進(jìn)展通信。大量涌現(xiàn)的新協(xié)議都不在IANA中注冊其端口號(hào),因此算法所能識(shí)別的協(xié)議在總協(xié)議數(shù)量中所占的比重越來越少,已不能適應(yīng)于當(dāng)前網(wǎng)絡(luò)環(huán)境。該算法簡單,消耗系統(tǒng)資源少,時(shí)空復(fù)雜度是所有算法中最低的。

2.2基于特征串的協(xié)議識(shí)別算法

這種識(shí)別算法是對檢測到的每一個(gè)數(shù)據(jù)包按照特征串進(jìn)展搜索,和應(yīng)用層協(xié)議中出現(xiàn)的多個(gè)特征串進(jìn)展準(zhǔn)確匹配,此方式在所有識(shí)別算法中準(zhǔn)確率最高。由于需要逐報(bào)文的匹配所有協(xié)議的特征以及額外的存儲(chǔ)報(bào)文的負(fù)載部分,該類算法的時(shí)空復(fù)雜度是目前所有算法中最高的,并且隨著待識(shí)別協(xié)議數(shù)量的增長而增長。正那么表達(dá)式是當(dāng)前比較流行的特征串匹配語言,利用正那么表達(dá)式進(jìn)展協(xié)議識(shí)別可以將原來復(fù)雜且繁瑣的報(bào)文數(shù)據(jù)特征串匹配過程變成可自動(dòng)處理的工作。該類算法通常只被用在需準(zhǔn)確識(shí)別數(shù)量較少的協(xié)議時(shí),且需要有相當(dāng)?shù)墓ぷ髁?,無法應(yīng)用在高速網(wǎng)絡(luò)環(huán)境下進(jìn)展大規(guī)模的協(xié)議識(shí)別。

2.3基于行為特征的協(xié)議識(shí)別算法

這種識(shí)別方法是利用協(xié)議標(biāo)準(zhǔn)的不同所造成的流特征差異區(qū)別各個(gè)協(xié)議。它需要有一個(gè)訓(xùn)練樣本數(shù)據(jù)集作為輸入,構(gòu)建一個(gè)分類器或者分類模型,該模型可以把網(wǎng)絡(luò)上的數(shù)據(jù)流映射到指定類別中的一種。該方法較端口識(shí)別方法有較高的準(zhǔn)確性,較特征串識(shí)別方法較小的復(fù)雜度,但是由于判別算法不成熟,識(shí)別不夠細(xì)致,制約了這種識(shí)別方法的使用。

3基于端口與正那么表達(dá)式匹配的應(yīng)用層協(xié)議識(shí)別方法

由于傳統(tǒng)識(shí)別方法難以滿足現(xiàn)實(shí)網(wǎng)絡(luò)環(huán)境的實(shí)際需要,本文提出利用協(xié)議的端口和特征串雙重特征進(jìn)展識(shí)別,并且根據(jù)實(shí)際的網(wǎng)絡(luò)中統(tǒng)計(jì)所需要識(shí)別協(xié)議的真實(shí)流量,正確化簡正那么表達(dá)式來實(shí)現(xiàn)對協(xié)議識(shí)別的加速。在此根底上按幾個(gè)步驟完成識(shí)別:第一步基于端口的識(shí)別方式,進(jìn)展初步識(shí)別;第二步采用正那么表達(dá)式的識(shí)別方法,將其轉(zhuǎn)化成DFA完成匹配;第三步假如匹配成功,識(shí)別完畢。假如不成功,說明該協(xié)議采用的隨機(jī)端口,放棄第一步挑選形式,轉(zhuǎn)入第二步,直至識(shí)別成功。

3.1基于端口的數(shù)據(jù)流初步識(shí)別

利用端口進(jìn)展應(yīng)用層協(xié)議識(shí)別,主要原理就是因?yàn)榇嬖诠J(rèn)端口和注冊端口,從端口0到1023對應(yīng)著因特網(wǎng)上常見的效勞和應(yīng)用程序,有確切的定義?!瞁eb效勞器〕、POP3/SMTP〔電子郵件效勞器〕以及Telnet等常用應(yīng)用程序通常使用這些端口號(hào)。一旦檢測到網(wǎng)絡(luò)中具有這些端口的流量,即可識(shí)別出其對應(yīng)的協(xié)議。但是由于很大一部分協(xié)議都使用隨機(jī)端口,因此,初步識(shí)別的正確性要在下面的識(shí)別過程中進(jìn)一步證實(shí)。

3.2正那么表達(dá)式協(xié)議識(shí)別方法

正那么表達(dá)式〔RegularExpression〕作為一種表示語言,定義了自己的一套描繪方式,來描繪各種的字符類,由普通字符以及特殊字符組成的字符形式,然后將字符形式與所搜索的字符串進(jìn)展匹配。典型的使用正那么表達(dá)式進(jìn)展協(xié)議識(shí)別的軟件為L-7Filter,它是基于Linux的Netfilter/Iptables上一個(gè)開放源代碼的軟件,實(shí)現(xiàn)了應(yīng)用層協(xié)議的識(shí)別。它通過對報(bào)文的依次解封,直接提取應(yīng)用層數(shù)據(jù)內(nèi)容,利用提供的正那么表達(dá)式對提取出的數(shù)據(jù)內(nèi)容進(jìn)展匹配,從而識(shí)別協(xié)議類型。為了降低協(xié)議識(shí)別的假陽性及進(jìn)步識(shí)別正確性,L-7Filter也在不斷更新其正那么表達(dá)式形式。

正那么表達(dá)式的匹配是建立在自動(dòng)機(jī)的理論根底上的,正那么引擎會(huì)按照表達(dá)式構(gòu)建相應(yīng)的自動(dòng)機(jī)。假設(shè)輸入一串文本之后,自動(dòng)機(jī)抵達(dá)了承受狀態(tài),那么這串文本可以匹配用戶指定的正那么表達(dá)式,否那么為不能匹配。正那么表達(dá)式通常用有限自動(dòng)機(jī)完成匹配,按照轉(zhuǎn)移函數(shù)的不同,有限自動(dòng)機(jī)表示有非確定的有窮狀態(tài)自動(dòng)機(jī)〔NFA〕和確定的有窮狀態(tài)自動(dòng)機(jī)〔DFA〕兩種。

在L-7Filter中提供了常見應(yīng)用層協(xié)議的正那么表達(dá)式以及正那么式形式編譯轉(zhuǎn)換成NFA和DFA的實(shí)現(xiàn)。我們通過實(shí)驗(yàn)證明流量到達(dá)90Mbps時(shí),對幾十種常見協(xié)議全部進(jìn)展NFA匹配,L7-filter系統(tǒng)接近死機(jī)。造成系統(tǒng)性能低下的原因主要為使用NFA匹配引擎進(jìn)展過多的正那么表達(dá)式匹配。正那么表達(dá)式匹配引擎必須滿足兩個(gè)條件:一是足夠快的處理速度,即每個(gè)輸入字符只帶來很少的狀態(tài)轉(zhuǎn)移;二是為每個(gè)流維護(hù)的中間狀態(tài)盡可能少,DFA引擎完全滿足這兩個(gè)條件。

因此在系統(tǒng)中,首先通過端口的方法進(jìn)展協(xié)議識(shí)別,通過使用基于DFA匹配引擎的正那么表達(dá)式匹配進(jìn)展協(xié)議識(shí)別,這樣不僅能進(jìn)步系統(tǒng)準(zhǔn)確性,還可以加快協(xié)議識(shí)別速度。

3.3正那么表達(dá)式的簡化

正那么表達(dá)式的正確性是保證基于正那么表達(dá)式的應(yīng)用層協(xié)議識(shí)別準(zhǔn)確率的前提,它在很大程度上影響協(xié)議識(shí)別的效率。我們也根據(jù)實(shí)際環(huán)境,通過在實(shí)際的網(wǎng)絡(luò)中統(tǒng)計(jì)所需要識(shí)別協(xié)議的真實(shí)流量,修改部分正那么表達(dá)式以滿足自己的需要,同時(shí)也到達(dá)了減小DFA的數(shù)目和資源消耗的目的。部分協(xié)議正那么表達(dá)式修改例如見表1。

4實(shí)驗(yàn)結(jié)果

本文采用DARPA2000的數(shù)據(jù)集進(jìn)展測試,總大小為79M,總報(bào)文為394096個(gè)。利用測試數(shù)據(jù)集得到的測試結(jié)果如表所示,端口與正那么表達(dá)式匹配雙重方法進(jìn)展識(shí)別加速,對與Linux的L-7filter識(shí)別結(jié)果進(jìn)展比照見表2。采用本文識(shí)別方法比L-7filter節(jié)省了46%的平均消耗時(shí)間和38.9%的平均消耗空間,并且識(shí)別率也有進(jìn)步。

5完畢語

針對傳統(tǒng)協(xié)議識(shí)別技術(shù)的局限性,提出了一種基于端口和正那么表達(dá)式的雙重特征協(xié)議識(shí)別方法,并根據(jù)網(wǎng)絡(luò)中所需要識(shí)別協(xié)議的真實(shí)流量,合理的簡化其正那么表達(dá)式,基于DFA匹配引擎實(shí)現(xiàn)協(xié)議的識(shí)別過程。實(shí)驗(yàn)證明,該文提出的識(shí)別可以在減少系統(tǒng)消耗和匹配時(shí)間的根底上,進(jìn)步協(xié)議的識(shí)別效率,具有較好的可用性。

參考文獻(xiàn)

【1】陳亮,龔儉,徐選.基于特征串的應(yīng)用層協(xié)議識(shí)別.計(jì)算機(jī)工程與應(yīng)用,2022,24〔4〕:16~19.

【2】JeffreyE.F.Freidl.MasteringRegularExpressioin.CA:O`ReillyMedia,Inc.,2022.

【3】正那么表達(dá)式參考文檔[EB/OL].://.regexlab/zh/

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論