一種基于數(shù)字水印和信息內(nèi)容的網(wǎng)絡(luò)信息安全技術(shù)_第1頁(yè)
一種基于數(shù)字水印和信息內(nèi)容的網(wǎng)絡(luò)信息安全技術(shù)_第2頁(yè)
一種基于數(shù)字水印和信息內(nèi)容的網(wǎng)絡(luò)信息安全技術(shù)_第3頁(yè)
一種基于數(shù)字水印和信息內(nèi)容的網(wǎng)絡(luò)信息安全技術(shù)_第4頁(yè)
一種基于數(shù)字水印和信息內(nèi)容的網(wǎng)絡(luò)信息安全技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 一種基于數(shù)字水印和信息內(nèi)容的網(wǎng)絡(luò)信息安全技術(shù)朱磊,沈煥生(解放軍理工大學(xué)通信工程學(xué)院,江蘇南京210007摘要:針對(duì)監(jiān)控內(nèi)部網(wǎng)絡(luò)信息流動(dòng)的合法性問題,采用了數(shù)字水印、信息內(nèi)容分類處理和過(guò)濾網(wǎng)關(guān)等技術(shù),通過(guò)對(duì)信息嵌入易碎性水印和魯棒性水印,在網(wǎng)關(guān)處設(shè)計(jì)的信息內(nèi)容識(shí)別和過(guò)濾,可以防止受控信息的非法篡改和偽造,并可對(duì)流出網(wǎng)關(guān)信息進(jìn)行追查,解決了內(nèi)部網(wǎng)絡(luò)的信息傳輸授權(quán)與控制。根據(jù)此方案,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于數(shù)字水印和信息內(nèi)容的內(nèi)部網(wǎng)絡(luò)信息內(nèi)容過(guò)濾原型系統(tǒng)。通過(guò)實(shí)驗(yàn)驗(yàn)證,本系統(tǒng)可有效地防止內(nèi)部信息的非法發(fā)布與接收。關(guān)鍵詞:數(shù)字水印;基于內(nèi)容的識(shí)別;過(guò)濾網(wǎng)關(guān)中圖分類號(hào):T P 393.08文獻(xiàn)標(biāo)識(shí)碼:A

2、 文章編號(hào):1009-3443(201001-0019-07Network information secu rity technique based on digital watermark andinformation contentZH U L ei ,SH EN H uan -sheng(Inst itute o f Co mmunicatio ns Eng ineering ,P L A U niv .Sci .&T ech .,N anjing 210007,China Abstract :T o superv ise the v alidity of m ilitary

3、intramural information flow ,techniques such as digital w aterm ar k,content-based info rmation recognizing and info rmation filtering gatew ay were adopted.They embeded fragile and robust w atermark in info rmation.Info rmation recog nizing and filter ing in g atew ay w as designed ,w ith could eff

4、ectiv ely prevent the inform ation content fr om illeg al jug gling and fabricating ,and trace the o utgo ing infor matio n effectively.It w as guaranteed that info rmation transmitting w as under co ntrolling.According to the solution,a dig ital watermark and information co ntent based militar y in

5、tram ural netw ork filtering pr ototype system w as put forw ard and im plemented.The test proves that the pr ototype system yields go od per for mance in pr eventing illeg al issuing and receiv ing intramural inform ation.Key words :digital w aterm ark;content-based recog nition;filter ing gatew ay

6、 收稿日期:2008-04-28.基金項(xiàng)目:中國(guó)博士后科學(xué)基金資助項(xiàng)目(20070411026第一作者:朱磊(1973-,男,博士生,副教授;研究方向:通信網(wǎng)管理、網(wǎng)絡(luò)規(guī)劃與優(yōu)化、智能信息處理;E -m ail :zhulei -ice.盡管各單位的內(nèi)部辦公網(wǎng)絡(luò)都已實(shí)現(xiàn)了與Internet 的物理隔離,并均已制定了嚴(yán)格的網(wǎng)絡(luò)安全措施,但不斷出現(xiàn)的各類失竊密事件表明網(wǎng)絡(luò)安全形勢(shì)依然嚴(yán)峻,內(nèi)部網(wǎng)絡(luò)信息非法外泄依然是網(wǎng)絡(luò)信息安全面臨的主要問題之一。經(jīng)調(diào)研統(tǒng)計(jì),內(nèi)部網(wǎng)絡(luò)主要存在著以下的安全漏洞:(1不同密級(jí)的信息內(nèi)容混雜在同一個(gè)網(wǎng)絡(luò)內(nèi):不同密級(jí)的信息往往都在同一個(gè)辦公網(wǎng)絡(luò)上進(jìn)行傳輸和交互,潛在的安全威

7、脅是涉密信息傳播范圍的擴(kuò)大化;(2內(nèi)部網(wǎng)絡(luò)與外部網(wǎng)絡(luò)(如校園辦公網(wǎng)與軍事訓(xùn)練網(wǎng)互聯(lián):內(nèi)部網(wǎng)絡(luò)與公用網(wǎng)絡(luò)的互通互聯(lián)接口在方便網(wǎng)絡(luò)信息交互的同時(shí),也使得內(nèi)部網(wǎng)絡(luò)的受控信息存在著流傳到公用網(wǎng)絡(luò)的危險(xiǎn),從而有可能造成間接失密的情況;(3普遍缺乏網(wǎng)絡(luò)信息外傳的安全審計(jì)和事后追查手段:內(nèi)部網(wǎng)絡(luò)和外部網(wǎng)絡(luò)之間的信息交互過(guò)程處于得不到有效控制和審計(jì)的狀態(tài),造成了潛在的失密隱患,且外傳后信息缺乏追蹤認(rèn)證手段;(4各種信息竊取工具在內(nèi)部網(wǎng)絡(luò)大量存在:由于各種存儲(chǔ)介質(zhì)的引入,在內(nèi)部網(wǎng)絡(luò)中存在大量的信息竊取工具,在用戶不知情的情況下將各類信息傳送至外部網(wǎng)絡(luò),在沒有安全審計(jì)和過(guò)濾的網(wǎng)絡(luò)環(huán)境下,對(duì)內(nèi)部網(wǎng)絡(luò)的安全造成致命的

8、威脅。針對(duì)網(wǎng)絡(luò)安全形勢(shì)越來(lái)越嚴(yán)重的現(xiàn)狀和以上存在的內(nèi)部網(wǎng)絡(luò)信息安全隱患,非常有必要采用一種可靠、高效、可信的安全審計(jì)和過(guò)濾技術(shù)手段對(duì)內(nèi)部網(wǎng)絡(luò)的出口網(wǎng)關(guān)進(jìn)行安全加固。本文通過(guò)對(duì)數(shù)字水印技術(shù)和基于內(nèi)容的信息識(shí)別、過(guò)濾技術(shù)進(jìn)行深入研究,設(shè)計(jì)了基于數(shù)字水印和信息內(nèi)容的內(nèi)部網(wǎng)絡(luò)信息內(nèi)容過(guò)濾原型系統(tǒng)(以下簡(jiǎn)稱原型系統(tǒng),將數(shù)字水印嵌入到網(wǎng)絡(luò)上需要傳輸?shù)男畔⒅?并在內(nèi)部網(wǎng)絡(luò)出口網(wǎng)關(guān)對(duì)外傳網(wǎng)絡(luò)信息的合法性、內(nèi)容實(shí)施檢測(cè)和過(guò)濾,從而起到了有效限制非法信息外泄和對(duì)外傳信息追蹤查證的目的。與國(guó)內(nèi)外常見的網(wǎng)絡(luò)信息內(nèi)容過(guò)濾技術(shù)相比,本文提出了將數(shù)字水印技術(shù)、信息內(nèi)容識(shí)別技術(shù)綜合應(yīng)用到過(guò)濾網(wǎng)關(guān)的方法,具有一定的創(chuàng)新性。1原

9、型系統(tǒng)設(shè)計(jì)1.1設(shè)計(jì)思想基于數(shù)字水印和信息內(nèi)容的內(nèi)容網(wǎng)絡(luò)信息內(nèi)容過(guò)濾原型系統(tǒng)的設(shè)計(jì)思想是:內(nèi)部網(wǎng)絡(luò)的信息向外部網(wǎng)絡(luò)傳輸前需要嵌入有效的數(shù)字水印,在內(nèi)部網(wǎng)絡(luò)出口處設(shè)置內(nèi)容過(guò)濾網(wǎng)關(guān),對(duì)外傳信息進(jìn)行內(nèi)容識(shí)別和數(shù)字水印檢測(cè)。如果外傳信息中沒有合法的數(shù)字水印,該信息將被過(guò)濾不向外網(wǎng)轉(zhuǎn)發(fā),反之則對(duì)傳輸信息進(jìn)行內(nèi)容識(shí)別并區(qū)分信息類別,只有確認(rèn)外傳信息是可以外傳的信息類別時(shí),該信息才被轉(zhuǎn)發(fā)至外網(wǎng)。在外部攻擊非法竊取內(nèi)部網(wǎng)絡(luò)信息的情況下,由于被竊取信息中沒有合法的數(shù)字水印,該信息將被內(nèi)容過(guò)濾網(wǎng)關(guān)過(guò)濾,有效防止了機(jī)密信息被竊。在內(nèi)部網(wǎng)絡(luò)用戶主動(dòng)向外網(wǎng)發(fā)送信息的情況下,內(nèi)容過(guò)濾網(wǎng)關(guān)會(huì)根據(jù)信息內(nèi)容實(shí)施過(guò)濾,防止內(nèi)部網(wǎng)

10、絡(luò)用戶未經(jīng)授權(quán)向外網(wǎng)發(fā)送機(jī)密信息。同時(shí),外傳信息中嵌入的身份水印包含了信息發(fā)布的相關(guān)細(xì)節(jié)內(nèi)容,可作為事后查證的線索。1.2原型系統(tǒng)體系結(jié)構(gòu)原型系統(tǒng)如圖1所示,包括數(shù)字水印嵌入和內(nèi)容過(guò)濾網(wǎng)關(guān)兩部分。其中,內(nèi)部網(wǎng)絡(luò)與外部網(wǎng)絡(luò)通過(guò)內(nèi)容過(guò)濾網(wǎng)關(guān)互聯(lián)。內(nèi)容過(guò)濾網(wǎng)關(guān)接收內(nèi)部網(wǎng)絡(luò)的外傳信息后對(duì)所接收的信息進(jìn)行合法性驗(yàn)證,通過(guò)合法性驗(yàn)證的信息由內(nèi)容過(guò)濾網(wǎng)關(guān)轉(zhuǎn)發(fā)至外部網(wǎng)絡(luò),未通過(guò)合法性驗(yàn)證的信息則被過(guò)濾不向外部網(wǎng)絡(luò)轉(zhuǎn)發(fā)。1.3原型系統(tǒng)工作流程原型系統(tǒng)的信息處理流程如下:(1內(nèi)部網(wǎng)絡(luò)用戶主動(dòng)向外部網(wǎng)絡(luò)傳輸時(shí)在相應(yīng)的信息中嵌入有效的數(shù)字水印;(2內(nèi)容過(guò)濾網(wǎng)關(guān)接收外傳信息并對(duì)所接收的信息進(jìn)行合法性驗(yàn)證;(3內(nèi)容過(guò)濾網(wǎng)

11、關(guān)根據(jù)合法性驗(yàn)證結(jié)果完成過(guò)濾操作。在原型系統(tǒng)中,信息的過(guò)濾和放行是通過(guò)內(nèi)容過(guò)濾網(wǎng)關(guān)實(shí)現(xiàn)的,信息處理流程如下:(1如果外傳信息中沒有合法的數(shù)字水印(沒有水印、水印被破壞、篡改或無(wú)法提取水印,該信息將被過(guò)濾不向外網(wǎng)轉(zhuǎn)發(fā),提交由人工進(jìn)行后處理,進(jìn)行信息內(nèi)容的甄別 ;圖1基于數(shù)字水印和信息內(nèi)容的內(nèi)部網(wǎng)絡(luò)信息內(nèi)容過(guò)濾原型系統(tǒng)Fig .1Dig it al w ater mar k and infor mation content based intr amur al netw or k filter ing pro to type system20解放軍理工大學(xué)學(xué)報(bào)(自然科學(xué)版第11卷(2如果外傳信息中

12、含有合法的數(shù)字水印(正常提取水印信息,并通過(guò)水印內(nèi)容的合法性驗(yàn)證,該信息將被進(jìn)行內(nèi)容識(shí)別;(3對(duì)信息內(nèi)容進(jìn)行粗分類,如果分類結(jié)果是屬于正常外流信息,則正常通過(guò);反之則進(jìn)行基于內(nèi)容的特征匹配;(4對(duì)于基于內(nèi)容的特征匹配結(jié)果,如可以確定屬于正常外流信息,則正常通過(guò),反之則提交由人工進(jìn)行后處理,進(jìn)行信息內(nèi)容的甄別。2原型系統(tǒng)關(guān)鍵技術(shù)基于數(shù)字水印和信息內(nèi)容的網(wǎng)絡(luò)信息內(nèi)容過(guò)濾原型系統(tǒng)主要涉及到數(shù)字水印技術(shù)、過(guò)濾網(wǎng)關(guān)技術(shù)和基于內(nèi)容的文本信息識(shí)別技術(shù)等。圖2基于數(shù)字水印的內(nèi)部信息處理結(jié)構(gòu)F ig.2D igital w ater mark based info rmat ion pr ocessingstr

13、 uct ur e2.1數(shù)字水印技術(shù)原型系統(tǒng)中,基于數(shù)字水印的內(nèi)部信息處理結(jié)構(gòu)如圖2所示。該處理結(jié)構(gòu)主要由數(shù)字指紋水印申請(qǐng)模塊、數(shù)字水印管理中心DWM C (dig ital w aterm ar king m anag em ent center、數(shù)字指紋水印生成模塊、信息密級(jí)水印嵌入模塊、數(shù)字水印數(shù)據(jù)庫(kù)、客戶端指紋水印嵌入模塊、網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn)處水印檢測(cè)提取模塊等部分組成。網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn)是指位于源地址和目的地址中間的關(guān)鍵網(wǎng)絡(luò)設(shè)備,可以是防火墻系統(tǒng)、安全服務(wù)器、主干網(wǎng)的監(jiān)控設(shè)備或路由器等。這里信息密級(jí)水印能夠提供信息的機(jī)密等級(jí)信息,而數(shù)字指紋水印能夠提供信息傳輸方的身份ID 與權(quán)限信息,它們屬于主

14、動(dòng)式水印技術(shù)1,2。數(shù)字水印的處理工作流程可以分為以下幾步:(1由數(shù)字水印管理中心(DWM C制定信息傳輸?shù)暮戏l件,設(shè)計(jì)主動(dòng)數(shù)字水印的標(biāo)準(zhǔn)與格式35。(2在內(nèi)部網(wǎng)絡(luò)中傳輸?shù)男畔?首先要提交到數(shù)字水印管理中心,然后由DWM C 鑒定其機(jī)密等級(jí)并嵌入信息密級(jí)水印。(3客戶端向數(shù)字水印管理中心申請(qǐng)數(shù)字指紋水印,同時(shí)提供用戶指紋信息(如身份ID 與手寫簽名圖案、聯(lián)絡(luò)信息等。(4數(shù)字水印管理中心首先根據(jù)用戶提供的信息確定該用戶的身份與權(quán)限等級(jí),然后由數(shù)字指紋水印生成模塊生成該用戶的數(shù)字指紋水印并在水印數(shù)據(jù)庫(kù)中備份,最后數(shù)字水印管理中心將生成的數(shù)字指紋水印發(fā)回到客戶端由該用戶接收保存。(5在客戶端,由用

15、戶將申請(qǐng)到的數(shù)字指紋水印嵌入到信息中以進(jìn)行傳輸。沒有嵌入標(biāo)準(zhǔn)數(shù)字指紋水印的信息將無(wú)法在網(wǎng)絡(luò)中傳輸。(6當(dāng)信息通過(guò)網(wǎng)絡(luò)傳輸時(shí),網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn)監(jiān)控系統(tǒng)決定是否傳輸。具體而言,網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn)檢測(cè)提取主動(dòng)數(shù)字水印6,數(shù)字水印管理中心根據(jù)水印信息進(jìn)行判斷、決策,確定其傳輸合法性,網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn)根據(jù)合法性決定繼續(xù)傳輸或終止傳輸。本文設(shè)計(jì)的原型系統(tǒng),采取的具體水印技術(shù)方案為:將易碎性水印嵌入流經(jīng)網(wǎng)關(guān)的信息中,以實(shí)現(xiàn)信息流出前的內(nèi)容審核;將包含審核人信息等有意義的魯棒性水印信息嵌入,以利于信息流出網(wǎng)關(guān)后的追查;采用明文關(guān)鍵詞過(guò)濾和水印快速盲檢測(cè)技術(shù),有效地防止內(nèi)部信息的非法流出。2.2過(guò)濾網(wǎng)關(guān)技術(shù)過(guò)濾網(wǎng)關(guān)位于內(nèi)網(wǎng)的

16、唯一出口上,負(fù)責(zé)監(jiān)視所有的流入、流出信息,對(duì)違反安全要求的信息,采取不予通過(guò)、警告、存檔等措施。過(guò)濾網(wǎng)關(guān)對(duì)內(nèi)網(wǎng)的信息安全負(fù)有主要責(zé)任,因此主要針對(duì)流出的信息進(jìn)行管理。過(guò)濾網(wǎng)關(guān)的安全策略執(zhí)行嚴(yán)格的Permission list 策略,即除了允許的端口(目前只考慮80端口,預(yù)留配置接口開放外,其他端口一律關(guān)閉。過(guò)濾網(wǎng)關(guān)的工作流程如圖3所示。原型系統(tǒng)的安全措施可以分為3類:信任域、限制訪問和內(nèi)容過(guò)濾711。信任域:內(nèi)網(wǎng)的安全責(zé)任人將某個(gè)網(wǎng)址或鏈接的安全責(zé)任委托給某個(gè)部門安全管理員??梢哉J(rèn)為信任域的內(nèi)容都是可信的,可直接通過(guò)過(guò)濾網(wǎng)關(guān)。這種措施適用于不經(jīng)常更新的網(wǎng)址。部門安全管理員向總安全管理員提交信任

17、域?qū)徍苏?qǐng)求或由總安全管理員根據(jù)流量和服務(wù)特點(diǎn)直接請(qǐng)求設(shè)置信任域,在水印管理中心審核通過(guò)后設(shè)置信任域,網(wǎng)址內(nèi)容更新后必須重新提請(qǐng)審核。信任域的配置由某級(jí)別的21第1期朱磊,等:一種基于數(shù)字水印和信息內(nèi)容的網(wǎng)絡(luò)信息安全技術(shù) 圖3過(guò)濾網(wǎng)關(guān)的工作流程F ig.3Wo rk flow of filt ering gat eway安全員遠(yuǎn)程登錄配置。限制訪問:對(duì)于某些不希望在外網(wǎng)公開的網(wǎng)址或鏈接,可在過(guò)濾網(wǎng)關(guān)設(shè)置限制訪問列表。這些鏈接的內(nèi)容在網(wǎng)關(guān)處都會(huì)被攔截。內(nèi)容過(guò)濾:對(duì)于經(jīng)常更新的URL,需要采取內(nèi)容過(guò)濾的措施。網(wǎng)頁(yè)內(nèi)容可以分為文本和資源兩類。文本不僅包括網(wǎng)頁(yè)內(nèi)的明文,還包括文本框、按鈕等控件內(nèi)的文本。

18、資源包括圖片和文檔的鏈接。如果某個(gè)內(nèi)容因?yàn)榘踩虿荒芡ㄟ^(guò),可以用“本內(nèi)容因安全原因不允許訪問”之類的內(nèi)容替換。因此對(duì)HT TP 連接內(nèi)嵌套的資源,應(yīng)該將獲該資源的連接與父連接關(guān)聯(lián)起來(lái)。每個(gè)連接的數(shù)據(jù)結(jié)構(gòu)需要有一個(gè)指針指向其子連接的鏈表,而子連接需有一個(gè)指 針指向父連接。圖4過(guò)濾網(wǎng)關(guān)的守護(hù)進(jìn)程的操作流程F ig.4Pr ocessing of w atching pro cedure in filter ing gatew ay過(guò)濾網(wǎng)關(guān)的守護(hù)進(jìn)程操作流程如圖4所示。水印管理中心管理員可以通過(guò)配置程序遠(yuǎn)程登錄過(guò)濾網(wǎng)關(guān)并進(jìn)行配置??膳渲玫膬?nèi)容包括信任域和限制訪問域的設(shè)置、敏感詞匯(明文過(guò)濾使用設(shè)置

19、、指紋加卸載、端口管理、安全策略設(shè)置等。守護(hù)進(jìn)程運(yùn)行于過(guò)濾網(wǎng)關(guān),接收配置程序的配置請(qǐng)求并動(dòng)態(tài)加載。其中,過(guò)濾網(wǎng)關(guān)對(duì)每個(gè)流入網(wǎng)關(guān)的分組執(zhí)行圖5所示的操作。圖5過(guò)濾網(wǎng)關(guān)對(duì)流入分組的操作流程Fig .5Pr ocessing inco ming packets in filtering gat eway過(guò)濾網(wǎng)關(guān)對(duì)每個(gè)流出分組執(zhí)行如圖6所示的操作。圖6過(guò)濾網(wǎng)關(guān)對(duì)流出分組的操作流程Fig.6Pr ocessing o utgo ing packets in filter ing g atew ay2.3基于內(nèi)容的文本信息識(shí)別技術(shù)對(duì)文本信息的內(nèi)容識(shí)別,首先需要確定文本信息的目標(biāo)表示方式與特征匹配方式,在對(duì)

20、文本信息預(yù)處理基礎(chǔ)上,對(duì)文本信息進(jìn)行特征提取以及根據(jù)詞條權(quán)值評(píng)價(jià)函數(shù)評(píng)估文本內(nèi)容12,從而實(shí)現(xiàn)對(duì)文本的內(nèi)容分類。典型的文本信息的內(nèi)容識(shí)別流程框圖,如圖7所示。其中,涉及到的主要技術(shù)包括:22解放軍理工大學(xué)學(xué)報(bào)(自然科學(xué)版第11卷圖7典型的文本信息的內(nèi)容識(shí)別流程框圖F ig.7T y pical pro cessing flow of co ntent-basedreco gnition for tex t info rmat ion(1文本信息的預(yù)處理在對(duì)文本進(jìn)行特征提取前,需要先進(jìn)行文本信息的預(yù)處理,主要包括英文文檔的Stemm ing處理和中文文檔的詞條切分13。從英文單詞的多種形式中提取

21、出其基本詞干的過(guò)程被稱作Stemm ing。英文單詞在具體使用時(shí),根據(jù)相同的詞干進(jìn)行詞頻統(tǒng)計(jì),實(shí)現(xiàn)Stem ming的一般方法是建立單詞前綴、后綴表和特殊形式表,用匹配方式實(shí)現(xiàn)。中文同英文不同,句子中各詞條間沒有固有的分隔符(空格,進(jìn)行中文文檔的詞頻統(tǒng)計(jì)前,首先需要對(duì)中文文檔進(jìn)行分詞處理。常用的分詞算法主要有:最大匹配(包括前向、后向以及前后相結(jié)合、最短路徑方法(切分出來(lái)的詞數(shù)最少、全切分方法(列出所有可能的分詞結(jié)果以及最大概率方法(訓(xùn)練一個(gè)一元的語(yǔ)言模型,通過(guò)計(jì)算得到一個(gè)概率最大的分詞結(jié)果。分詞系統(tǒng)能否達(dá)到實(shí)用性要求主要取決于2個(gè)因素:分詞精度與分析速度,這兩者之間相互制約,難以平衡。本文綜

22、合考慮速度和性能的兼顧,提出了如下的中文詞法分析策略:首先查詢專用詞典(用戶詞典:專用詞典收錄了人名、地名、專業(yè)詞匯、專業(yè)術(shù)語(yǔ)和專業(yè)概念等信息,可以首先將屬于專用詞典的內(nèi)容切分出來(lái)。將剩下的部分采取雙向分詞策略:如果前向最大匹配和后向最大匹配的切分結(jié)果相同,則說(shuō)明沒有歧義,直接輸出分詞結(jié)果;如果前向和后向最大匹配的切分結(jié)果不同,則以最短路徑的那個(gè)結(jié)果為準(zhǔn);如果2種切分方式的路徑長(zhǎng)度也一樣,則選擇切分單詞少的那一組切分結(jié)果;如果切分的單詞數(shù)也相同,則直接 選擇正向最大匹配的分詞結(jié)果。(2特征提取目標(biāo)表示中詞條T及其權(quán)值的選取稱為特征提取9,特征提取是檢索目標(biāo)共性與規(guī)則的提取過(guò)程,其采用策略的優(yōu)劣

23、將直接影響到檢索工具的效果。詞、詞組和短語(yǔ)是組成文檔的基本元素,并且在不同內(nèi)容的文檔中,各詞條出現(xiàn)的頻率有一定規(guī)律性,因此可根據(jù)詞條的頻率特性進(jìn)行目標(biāo)特征提取。傳統(tǒng)的特征提取采用的是詞頻統(tǒng)計(jì)法,如TF/ IDF(term fr equency/inverse docum ent fr equency算法。T F/IDF是經(jīng)典的文本相似度計(jì)算公式,是一個(gè)特定條件下,關(guān)鍵詞概率分布的交叉熵,描述了單個(gè)術(shù)語(yǔ)(term與特定文檔(do cument的相關(guān)性。其中T F(term fr equency稱為“詞頻”,表示了一個(gè)詞或術(shù)語(yǔ)與某個(gè)文檔的相關(guān)性。IDF(inverse docum ent freq

24、uency稱為“逆文本頻率指數(shù)”,表示了一個(gè)詞在文檔中的權(quán)重大小。傳統(tǒng)的T F/IDF算法的描述如下:W i=F i(t,dlgND(t+0.01kF2t(t,dlg2ND(t+0.01,其中:W i是文本中術(shù)語(yǔ)i的權(quán)重;F(t,d表示術(shù)語(yǔ)t 在文本d中出現(xiàn)的頻率;N表示總的文檔數(shù);D(t表示包含t的文檔數(shù)。通常情況下,權(quán)重W i較高的詞即可取為關(guān)鍵詞。顯然,該算法所確定的關(guān)鍵詞并未考慮到該詞在文本中的分布情況,故還需對(duì)所確定的關(guān)鍵詞作全文評(píng)價(jià)。將所處理文檔中所有詞的權(quán)重W i從高到低排列,將權(quán)重較高的詞作為全文可能的關(guān)鍵詞,然后對(duì)可能的關(guān)鍵詞作全文評(píng)價(jià),從中抽取出全文關(guān)鍵詞。全文關(guān)鍵詞的權(quán)值

25、是詞頻與該詞跨越段數(shù)的函數(shù)。由于詞語(yǔ)跨越段落數(shù)與文獻(xiàn)總段落數(shù)有關(guān),可修正T F/IDF算法如下:定義W k=0.5+0.5(F k/(F avg+0.01×I k,其中:W k為全文關(guān)鍵詞權(quán)重;F k為詞在文檔中的出現(xiàn)次數(shù);F avg為該詞在文檔中的平均出現(xiàn)次數(shù),F k= lg(N/D t(N是文檔總段落量,D t是包含了該詞的段落數(shù);I k=lg(D s/D st(D s是該類別的文檔集總數(shù)量,D st是包含了該詞的該類別文檔的總數(shù)。實(shí)驗(yàn)結(jié)果表明,按此定義所得到的全文關(guān)鍵詞是比較可靠的,更能反映文獻(xiàn)的主題和主要內(nèi)容。全文關(guān)鍵詞也是信息內(nèi)容分類的重要依據(jù)和主要特征。(3特征匹配目標(biāo)表

26、示是指以一定的特征項(xiàng)(如詞條或描述來(lái)代表目標(biāo)信息,在信息檢索時(shí)用這些特征項(xiàng)來(lái)評(píng)價(jià)未知文檔與用戶目標(biāo)的相關(guān)程度,目標(biāo)表示的構(gòu)23第1期朱磊,等:一種基于數(shù)字水印和信息內(nèi)容的網(wǎng)絡(luò)信息安全技術(shù) 24 解 放 軍 理 工 大 學(xué) 學(xué) 報(bào) ( 自 然 科 學(xué) 版 第 11 卷 造過(guò)程就是信息檢索模型的構(gòu)造過(guò)程。目標(biāo)表示模 型有多種, 常用的有布爾邏輯型、 向量空間型、 概率 型等。近年來(lái)應(yīng)用較多且效果較好的目標(biāo)表示法是 向量空間模型 VSM ( vect or space model 法。 在VSM 中, 將文本文檔看作是由一組詞條( T1, T2 , , Tn 構(gòu)成, 對(duì)于每一詞條 T i , 都根據(jù)

27、其在文檔 中的重要程度賦以一定的權(quán)值 W i 。將其看成一個(gè) n 維坐標(biāo)系, W 1, W 2, , W n 為對(duì)應(yīng)的坐標(biāo)值, 因此每 一篇文檔都可映射為由一組詞條矢量張成的向量空 間中的一個(gè)點(diǎn)。對(duì)于所有用戶目標(biāo)或未知文檔都可 用詞條特征矢量( T 1, W1 , T2 , W2 , , Tn, Wn 表示, 從 而將文檔信息的匹配問題轉(zhuǎn)化為向量空間中的向量 匹配問題。 將文本表示成向量后, 對(duì)文本信息以 Bay es 分 類器 進(jìn)行粗分 類, 將文 本信息 歸屬為 不同的 信息 類別。 Bay es 分類器是常用于文本分類領(lǐng)域的概率分 類器, 它利用類別的先驗(yàn)概率和詞的分布, 對(duì)于類別 的條

28、件概率來(lái)計(jì)算未知文本屬于某一類別的概率。 在假設(shè)文本中詞 的分布相互獨(dú)立的模型中, Bayes 分類器的數(shù)學(xué)形式為: P ( C i P ( D j C i P( Ci D j = D i 圖 8原型系統(tǒng)結(jié)構(gòu)示意圖 F ig . 8 Structur e of the pro tot ype system 表 1原型系統(tǒng)測(cè)試結(jié)果 Tab. 1Test result of the prototype system 非法文檔檢出過(guò)濾率/ % 合法文檔錯(cuò)檢率/ % 平均文檔檢測(cè)過(guò)濾時(shí)間( ms/ 篇 HT M L 過(guò)濾 93. 6 1. 2 300 Wo rd 過(guò)濾 90. 1 3. 4 2060

29、測(cè) 試網(wǎng)絡(luò) 環(huán)境為 100 M 局 域網(wǎng), 網(wǎng) 關(guān)配置 為 CP U: 酷 睿 雙 核 2. 2 GHz, M emor y: 2G, 測(cè) 試 HT M L : 206 篇, 測(cè)試文檔: 189 篇。 測(cè)試結(jié)果表明, 該原型系統(tǒng)能有效地限制內(nèi)部 網(wǎng)絡(luò)的重要信息向外部網(wǎng)絡(luò)傳輸, 提高內(nèi)部網(wǎng)絡(luò)的 信息安全等級(jí)。 但原型系統(tǒng)在文檔分詞準(zhǔn)確度、 處理 效率等方面還有待進(jìn)一步提高。 在本文的最后, 將基于數(shù)字水印和信息內(nèi)容的 內(nèi)部網(wǎng)絡(luò)信息內(nèi)容過(guò)濾解決方案與傳統(tǒng)的基于數(shù)字 簽名技術(shù)的網(wǎng)絡(luò)過(guò)濾方案進(jìn)行比較: ( 1 數(shù)字簽名的作用與本方案中脆弱性水印的 作用類似, 由于數(shù)字簽名是有充分安全保證的技術(shù), 且在

30、網(wǎng)關(guān)處的簽名認(rèn)證速度較快, 因此在本方案中 可以采用數(shù)字簽名技術(shù)取代脆弱性水印。 ( 2 魯棒性水印攜帶了信息發(fā)布人、 審核人等豐 富信息, 可用于事后的追查, 此功能是數(shù)字簽名所不 具有的, 是本方案的特色。 P ( Dj = P( C i P ( W k Ci F( W k k= 1 P ( Dj , 其中: C i 為某一類別; D j 為未知類別文本; W k 為 D j 中出現(xiàn)的單詞; F ( W k 為 W k 在 D j 中出現(xiàn)的次數(shù); P ( C i 和 P ( W k C i 可以從訓(xùn)練集中估計(jì)。對(duì)于不同 的類別, 上式的分母不變, 故只要選擇使得分子最大 的類別, 即認(rèn)為是

31、待分類文本的類別。 在實(shí)際應(yīng)用的 時(shí)候, Bay es 分類器一般都能取得相對(duì)較好的結(jié)果。 3基于數(shù)字水印和信息內(nèi)容的內(nèi)部網(wǎng) 絡(luò)信息內(nèi)容過(guò)濾技術(shù)的應(yīng)用 根據(jù)上述研究成果, 本文設(shè)計(jì)實(shí)現(xiàn)了一個(gè)基于 數(shù)字水印和信息內(nèi)容的內(nèi)部網(wǎng)絡(luò)信息內(nèi)容過(guò)濾原型 系統(tǒng), 其結(jié)構(gòu)如圖 8 所示。 利用該原型系統(tǒng), 進(jìn)行了實(shí)驗(yàn)測(cè)試。 在原型系統(tǒng) 中, 針對(duì)網(wǎng)頁(yè)和 Wor d 文件, 采取了外網(wǎng)用戶通過(guò)過(guò) 濾網(wǎng)關(guān)訪問內(nèi)部文檔和內(nèi)部用戶主動(dòng)通過(guò)過(guò)濾網(wǎng)關(guān) 向 外發(fā) 送 文檔 兩 種 測(cè)試 模 式。測(cè) 試 結(jié) 果如 表 1 所示。 4結(jié)語(yǔ) 本文提出的基于數(shù)字水印和信息內(nèi)容的內(nèi)部網(wǎng) 絡(luò)信息內(nèi)容過(guò)濾解決方案, 通過(guò)采用主動(dòng)水印技術(shù)

32、 在媒體中嵌入密級(jí)水印, 利用數(shù)字指紋水印身份認(rèn) 證機(jī)制和易碎水印內(nèi)容認(rèn)證機(jī)制, 不僅可以有效的 防止機(jī)密信息的非法傳輸與泄漏, 而且可以實(shí)現(xiàn)傳 輸方的身份認(rèn)證與傳輸內(nèi)容的完整性認(rèn)證, 還可以 為追蹤機(jī)密信息的泄漏提供證據(jù)與線索, 可有效阻 止主動(dòng)或被動(dòng)外泄內(nèi)部網(wǎng)絡(luò)信息的行為, 提高內(nèi)部 網(wǎng)絡(luò)的安全等級(jí)。 第 1 期 朱磊, 等: 一種基于數(shù)字水印和信息內(nèi)容的網(wǎng)絡(luò)信息安全技術(shù) 25 8 M A L L ET T D, EL DIN G J, N A SCIM EN T O M A . 參考文獻(xiàn): 1 CHEN T ao , W AN G Jing-chun , Z HO U Y ong - .

33、 lei Co mbined digital sig nature and digital w ater mar k scheme for imag e authent icatio n C . Beijing: Infot ech and Info- , 2001. net 2 W U Jin , XIA Bei-bei , L IU Jian , et al . A secur e image t ransmissio n scheme ba sed on dig ital w aterma rk and cr yptog r aphy C . HongK o ng : P ro ceed

34、ing s o f 2004 I nter natio nal Sy mpo sium on Intellig ent M ult imedia, V ideo a nd Speech Pr o cessing , 2004. 3 SU N Jia nde, L IU Ju. A no vel dig ital w ater mar k scheme based on imag e independent feature C . Changsha: China P ro ceeding s of the 2003 IEEE I nter natio nal Confer ence on Ro

35、bo tics, Sy stems and Sig nal P ro cessing , 2003. 4 李春, 黃繼 武. 一種抗 JPEG 壓 縮的 半脆弱 圖像 水 印算法 J . 軟件學(xué)報(bào), 2006, 17( 2 : 315324. L I Chun, HU A N G Ji- u. A semi- gile image water w fra mar king r esisting to JPEG J . Journal of Soft war e, 2006, 17( 2 : 315324. ( in Chinese . 5 趙偉, 賈 振紅. 基于 新型 A rnold 反 變

36、換 的彩 色數(shù) 字 圖像水印 J . 計(jì)算機(jī)工程, 2007, 33( 13 : 171-172. Z HA O Wei, JIA Zhen- ng . Co lo r ho dig it al image w ater mar k based on new a nt i- r no ld tr ansfo r matio n A J . Co mput er Eng ineering, 2007, 33( 13 : 171-172( in Chinese . 6 孫豐, 陳 向東, 孫偉. 基于 位平面 隨機(jī)性 測(cè)試的 隱 寫 分析 算法 J . 解放 軍理 工大 學(xué)學(xué) 報(bào): 自然 科 學(xué)版

37、, 2006, 7( 6 : 548552. SU N Feng , CHEN Xiang dong , SU N W ei. Bit plane r ando mness tests ba sed steg analysis alg or ithm J , Jour nal o f PL A U niv ersity o f Science and T echnolog y ( N atur al Science Sditio n , 2006, 7 ( 6 : 548-552. ( in Chinese . 7 D OSHI B . A pr efix space par titionin

38、g appr oach to scalable peer g atew ay discover y in secur e v ir tual pr ivat e netw or ks C . A tlantic City : M ilitar y Co mmunicat - ns Co nfer ence, 2005. io Intellig ent Infor mationcontent based sentence ex tr actio n fo r tex t summ arizat ion C . L as v egas: P ro ceeding s of the Inter nat ional Co nfer ence on Infor matio n T echnolog y : Coding and Computing ( IT CC 2004 , 2004. 9 胡燕, 吳虎子 , 鐘 珞, 中文文 本分類 中基于 詞性的 特 征提 取方 法研究 J . 武漢理 工大 學(xué)學(xué)報(bào), 2007, 29 ( 4 : 132-135. HU Y an , W U Hu - , ZHO N G G e, Research of feat ur e zi ex traction metho ds

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論