應(yīng)對檔案數(shù)據(jù)庫中敏感數(shù)據(jù)挖掘威脅的實證研究_第1頁
應(yīng)對檔案數(shù)據(jù)庫中敏感數(shù)據(jù)挖掘威脅的實證研究_第2頁
應(yīng)對檔案數(shù)據(jù)庫中敏感數(shù)據(jù)挖掘威脅的實證研究_第3頁
應(yīng)對檔案數(shù)據(jù)庫中敏感數(shù)據(jù)挖掘威脅的實證研究_第4頁
應(yīng)對檔案數(shù)據(jù)庫中敏感數(shù)據(jù)挖掘威脅的實證研究_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

應(yīng)對檔案數(shù)據(jù)庫中敏感數(shù)據(jù)挖掘威脅的實證研究

1引言當前,信息資源共享與檔案敏感信息保護之間的矛盾日益加深,為了在保證檔案敏感信息安全的前提下擴大和深化檔案信息資源共享,迫切需要研究面向信息資源共享的檔案敏感信息保護問題。檔案數(shù)據(jù)庫所面臨的敏感信息威脅主要來自于三個方面,即未經(jīng)許可的訪問、網(wǎng)絡(luò)上傳輸?shù)男孤逗蛿?shù)據(jù)挖掘的結(jié)果。其中,未經(jīng)許可的訪問和網(wǎng)絡(luò)傳輸?shù)男孤斗矫娴陌踩侄沃饕蓄A(yù)防和檢測等,包括身份認證、訪問控制、加密、審計、入侵檢測、安全隔離等傳統(tǒng)的信息安全技術(shù)。檔案學(xué)界在討論檔案信息化建設(shè)的時候,也提出要將這些技術(shù)應(yīng)用于檔案管理系統(tǒng)安全和檔案信息安全保密中,本文在此不作贅述。在應(yīng)對針對公開檔案信息的敏感數(shù)據(jù)挖掘威脅方面,檔案學(xué)界還未形成真正有效的對策。我們應(yīng)立足積極應(yīng)對、主動防御的方針,將隱私保護技術(shù)應(yīng)用到面向信息資源共享的檔案敏感信息保護研究領(lǐng)域,對檔案信息資源中的敏感信息本身進行保護處理,從源頭上防范攻擊者對檔案信息資源的過度挖掘和惡意攻擊,達到保護檔案敏感信息的目的[1-3]。同時,擯棄直接刪除、屏蔽敏感信息的簡單做法,保持公布信息的可用性,有利于檔案信息資源的共享利用。本文在分析檔案數(shù)據(jù)庫中的敏感信息保護問題的基礎(chǔ)上,引入敏感元組及其密度的概念開展實證研究,闡明以保護檔案敏感元組為核心的保護思路,提出基于敏感元組的檔案數(shù)據(jù)庫敏感信息保護方案。2檔案數(shù)據(jù)庫中的敏感信息保護問題現(xiàn)代信息技術(shù)的發(fā)展使得搜集和分析信息的能力正以幾何級數(shù)增長,互聯(lián)網(wǎng)的交互性和強大的數(shù)據(jù)傳輸能力更是大大加快了信息數(shù)據(jù)庫的整合。網(wǎng)絡(luò)環(huán)境下,個人信息被非法利用、敏感信息被攻擊截獲的情況屢見不鮮,而在檔案信息的開放利用過程中,一些敏感信息很容易被惡意攻擊者過度收集,以用來進行非法挖掘分析。比如,對從公開檔案信息中搜集獲取的孤立、零散、微觀的個人信息,如健康狀況、宗教信仰、行為習(xí)慣等,進行相關(guān)性分析,經(jīng)過系統(tǒng)整理或數(shù)據(jù)挖掘后,就能得到關(guān)于某個人或某個敏感事件的深層次、全方位、綜合性的信息內(nèi)容,造成敏感信息的不當泄露。盡管如此,隱私保護和信息共享之間的矛盾同樣體現(xiàn)在對隱私檔案的共享利用當中。隱私檔案是公民在工作學(xué)習(xí)、職業(yè)活動以及個人生活中形成的,不愿讓人知曉或公開的各種秘密文字、文件材料、聲像材料等。隱私檔案包括個人基本情況、各級組織對個人的考核、評價、定性使用、黨紀政紀處分及依據(jù)事實[4]。以人事檔案為例,對于個人而言,自身的敏感信息無疑是個人隱私,但目前幾乎所有的政府部門、企業(yè)、公司等不同類型的機構(gòu)都會對其內(nèi)部人事狀況進行搜集、記錄、統(tǒng)計和分析,在此基礎(chǔ)上充分挖掘單位人才結(jié)構(gòu)和人力資源狀況,以進行科學(xué)研究和輔助決策,如選人、用人和人才培養(yǎng)等,應(yīng)該說,人才信息是國家、政府部門、企業(yè)的重要戰(zhàn)略資源,對其進行共享利用和挖掘分析能夠發(fā)現(xiàn)人才建設(shè)的規(guī)律,進而改進人才培養(yǎng)。同樣,包含豐富個人健康醫(yī)療信息的電子病歷對于個體而言,其病癥信息是高度敏感的,一般情況下不希望別人知道。然而這類信息對于醫(yī)學(xué)研究而言是寶貴的信息資源,根據(jù)這些真實數(shù)據(jù),可統(tǒng)計出某種疾病在不同性別、年齡段、民族或地域人群中的發(fā)病概率等。在檔案數(shù)據(jù)庫中,個人隱私信息資料往往表現(xiàn)為關(guān)于特定個體的詳細而微觀的數(shù)據(jù)記錄,這些表達和描述個體信息的數(shù)據(jù)記錄被稱為“微數(shù)據(jù)”(Microdata)。由于它直接表征個體,且包含個體不愿為人所知的隱私信息,一旦泄密,就可能對特定個體造成精神和物質(zhì)的雙重損害。因此,迫切需要研究針對檔案信息數(shù)據(jù)庫敏感信息保護的方法和技術(shù)。3檔案數(shù)據(jù)庫中敏感信息保護的思路3.1檔案數(shù)據(jù)庫中敏感信息保護的要求檔案數(shù)據(jù)庫中大量的個體信息表現(xiàn)為由屬性值組成的數(shù)據(jù)記錄,并以關(guān)系數(shù)據(jù)表的形式進行存儲和傳輸,數(shù)據(jù)表中每個數(shù)據(jù)記錄均包含多個屬性值,并與現(xiàn)實中的某一個體相對應(yīng)。一般來說,數(shù)據(jù)表中的記錄屬性可以劃分為以下四類:1.標識符(ID):可以用來直接標識、識別個體身份的屬性,如身份證號碼等,這些屬性通常在數(shù)據(jù)發(fā)布時被隱匿。2.參用標識(IR):能夠在其他外部信息或外部數(shù)據(jù)源構(gòu)成的背景知識幫助下識別個體身份的屬性,如年齡、區(qū)號、郵編等。3.敏感屬性(SA):包含個體隱私信息的屬性,如疾病、犯罪記錄、所受處分等,個人往往不希望這些信息被別人知曉,因此必須防止這類屬性被泄露。4.非敏感屬性(NSA):除上述三類屬性以外的其他屬性。為了使檔案數(shù)據(jù)庫中個體敏感信息不被他人獲得,一個較為直接的方法就是在公布數(shù)據(jù)的時候,直接隱匿標識符屬性和敏感屬性信息,但是這樣一來,數(shù)據(jù)庫的共享利用者面對的是一個不完整的數(shù)據(jù)集合,基于其上的數(shù)據(jù)統(tǒng)計分析可能無法進行,數(shù)據(jù)集合也就失去了其共享的價值。所以,這一做法是對隱私信息的過度保護,不足取之。實際上,保護隱私數(shù)據(jù)的目的并不是要隱藏數(shù)據(jù)記錄的某一種屬性,而是要阻止記錄中的敏感屬性值與某個特定的人或者實體關(guān)聯(lián)起來。也就是說,如果能夠使得敏感屬性值脫離特定的個人或?qū)嶓w,數(shù)據(jù)集中的個體隱私就得到了保護。然而,這一過程卻并不容易實現(xiàn)。簡單的做法是,將數(shù)據(jù)集合中能夠直接標識、識別個人或?qū)嶓w身份的標識符屬性字段刪除或用代號代替,比如“身份證號碼”、“姓名”等,但是,這種方法并不能達到個人隱私和敏感信息保護的目的。攻擊者可以通過組合查詢參用標識屬性,同時鏈接其他的公開數(shù)據(jù)源,來推斷出某種敏感信息與個體之間的聯(lián)系,從而追蹤到具體的個人或?qū)嶓w,造成敏感信息泄漏。事實上,Sweeney的研究[5]早就證明,即使發(fā)布信息表時隱匿了個體標識符信息,但是通過鏈接其他一些公開的信息表(如社區(qū)選民登記表)的郵編、出生日期等參用標識屬性,仍然可以做到唯一標識美國人員身份信息,而且其準確率相當高,竟然達到87%。筆者認為:因為在數(shù)據(jù)發(fā)布之后,數(shù)據(jù)提供者既不清楚數(shù)據(jù)接收者所擁有的其他資源(攻擊者背景知識),也不能對接收者的數(shù)據(jù)挖掘行為進行控制,所以,如果在發(fā)布前不對數(shù)據(jù)進行處理,切斷或者弱化參用標識屬性與敏感屬性之間的聯(lián)系,就不能保障敏感信息的安全性。因此,檔案數(shù)據(jù)庫中的敏感信息保護研究的基本要求就是,設(shè)法切斷參用標識屬性與敏感屬性之間的關(guān)聯(lián),以此來抵御外部鏈接攻擊和背景知識攻擊。3.2以保護敏感元組為核心的基本思路檔案數(shù)據(jù)庫中敏感信息保護的基本要求是切斷或弱化參用標識屬性與敏感屬性之間的聯(lián)系,然而,現(xiàn)有的大部分敏感信息保護方法都是只基于敏感屬性的,也就是將數(shù)據(jù)庫中的敏感屬性作為保護對象,對敏感屬性進行隱私保護處理。但事實上,同一個檔案信息數(shù)據(jù)庫的敏感屬性值中,含有一些可以接受發(fā)布的非敏感值,而真正需要保護的是敏感值,而不是整個敏感屬性。因此,針對敏感值的隱私保護更為直觀和有效。我們從敏感屬性值所在的記錄元組出發(fā),借鑒一些成熟的隱私數(shù)據(jù)保護方法[6],給出一種基于敏感元組的檔案數(shù)據(jù)庫敏感信息保護方法。該方法的基本思路是以檔案敏感元組為保護對象,引入部分非敏感元組,形成敏感數(shù)據(jù)泛化分組,并使每個分組滿足k-anonymity要求和敏感元組密度限制。與此同時,盡量減少非敏感元組的泛化,提高發(fā)布數(shù)據(jù)的精確度,減少發(fā)布數(shù)據(jù)的信息耗損,如其他元組只需隱去標識符屬性,然后與泛化分組合并后即可發(fā)布。在此基礎(chǔ)上,根據(jù)檔案敏感屬性值對個體的重要性程度,對其賦予不同的權(quán)值作加權(quán)處理,也就是說,不同的檔案敏感屬性值在分組中具有不同的密度,這樣,敏感信息保護就能夠適應(yīng)不同的保護需求,而提供了一種個性化的隱私保護方案。分析表明,只對敏感元組和部分非敏感元組進行泛化處理的方法,能夠降低發(fā)布信的泛化程度,提高所發(fā)布信息的精度,也能夠節(jié)省隱私保護計算的時間和空間開銷,提高方法的效率;引入敏感元組密度的概念,則能夠在一定程度上提高發(fā)布數(shù)據(jù)的安全性,同時滿足個性化隱私保護需求。因此,整體來看,基于敏感元組的檔案敏感信息保護方法的優(yōu)勢不僅在于簡單易行,而且在于它能夠提高發(fā)布信息的精度,保證敏感信息的安全度,能夠更好地解決保護敏感信息和提高信息可用性之間的矛盾。3.3基于敏感元組的檔案數(shù)據(jù)庫敏感信息保護方法為了更清楚地表達和描述基于敏感元組的檔案數(shù)據(jù)庫敏感信息保護的基本思路和方法,下面以某單位人員信息為例,對檔案信息數(shù)據(jù)庫敏感信息保護問題進行說明。[實證1]表1為一份虛擬的某單位人事檔案信息原始數(shù)據(jù)表,其中“處分事由”是敏感屬性,如果直接共享原始數(shù)據(jù),就算隱去“姓名”,也還是會造成敏感信息的泄漏。比如,熟悉這個單位的相關(guān)人員,就有可能能夠根據(jù)“性別”、“年齡”、“文化程度”等屬性,推斷出“打架”的人是誰、“偷竊”的人是誰等等。[實證2]表2是根據(jù)傳統(tǒng)的k-anonymity,-diversity規(guī)則(k=2,l=2)對數(shù)據(jù)表進行隱私保護處理以后得到的匿名數(shù)據(jù)表,從一定程度上切斷了敏感屬性值與個體的聯(lián)系,起到了隱私保護的作用,但也造成了信息損失。對比原始數(shù)據(jù)表1和匿名數(shù)據(jù)表2,表2能夠在一定程度上保持個體隱私,達到隱私保護的目的。然而,仔細分析數(shù)據(jù)表中敏感屬性值的分布及其特點,可以發(fā)現(xiàn),敏感屬性“處分事由”中有的屬性值為“無”,在這種情況下,個體不存在敏感屬性值保護需求,只有“打架”和“偷竊”等敏感屬性值才需要進行保護。[實證3]可以只對表1中含有敏感值“打架”和“偷竊”的記錄進行保護,得到基于敏感值保護的匿名數(shù)據(jù)表3。從上述分析和圖例可知,表2是對表1中所有記錄進行泛化處理的結(jié)果,表3則只對表1中t2、t4、t5和t7這四個記錄進行泛化。顯然,兩種泛化策略的隱私保護程度是一樣的,但表3中的結(jié)果在數(shù)據(jù)精度和匿名處理時間上優(yōu)于表2,即表3所采用的隱私保護方法具有更少的信息損失和更高的效率。因此,與傳統(tǒng)的隱私處理方法相比,由于保護對象更具針對性,基于敏感元組的檔案數(shù)據(jù)庫敏感信息保護方法,可更好地改善發(fā)布數(shù)據(jù)的質(zhì)量和敏感信息保護處理效率。4檔案數(shù)據(jù)庫中敏感信息保護的實現(xiàn)方法4.1檔案數(shù)據(jù)庫中敏感信息保護的實現(xiàn)框架在上述以保護敏感元組為核心的基本思路和保護方法基礎(chǔ)上,我們構(gòu)建了檔案數(shù)據(jù)庫中敏感信息保護的實現(xiàn)框架。圖1給出了該框架結(jié)構(gòu)圖。圖1檔案數(shù)據(jù)庫中敏感信息保護實現(xiàn)的框架結(jié)構(gòu)從圖1可知,該框架自頂向下是一種分層結(jié)構(gòu),可分成接口層、處理層和存儲層三個層次。各層的主要功能描述如下:(1)接口層:檔案信息數(shù)據(jù)庫敏感信息保護和共享系統(tǒng)與外界的操作界面。用戶登錄認證以后,接口層的用戶訪問接口可接受和獲取各種訪問請求,供后續(xù)處理過程使用;信息共享接口則提供最終的信息視圖界面,并可提供信息共享的各種輔助功能,如下載、打印等。(2)處理層:檔案信息數(shù)據(jù)庫敏感信息保護整個框架中的核心部分,包括訪問控制和基于敏感元組的信息保護處理兩個功能模塊?;诿舾性M的信息保護處理即是對原始檔案信息數(shù)據(jù)庫進行隱私保護處理,形成匿名化以后可發(fā)布的檔案信息數(shù)據(jù)庫。訪問控制模塊將訪問者輸入的訪問請求與檔案館制定的隱私保護策略進行比較和匹配,根據(jù)匹配結(jié)果決定是否授予訪問權(quán)限,以及授予訪問權(quán)限的大小。(3)存儲層:主要負責信息的存儲管理,即檔案信息資源庫和經(jīng)過隱私保護處理的可發(fā)布的檔案信息資源庫,這兩類信息資源庫都由檔案權(quán)威機構(gòu)如檔案館等檔案信息擁有者來統(tǒng)一管理和發(fā)布。4.2基于敏感元組的檔案敏感信息保護的基本方法基于敏感元組的檔案數(shù)據(jù)庫敏感信息保護的基本方法,也就是有針對性地對需要保護的敏感元組單獨進行k-匿名運算,而非敏感元組的信息不進行泛化。參考文獻[6]中隱私數(shù)據(jù)保護方法的算法,表3即采用了基于敏感元組的信息數(shù)據(jù)保護的基本方法,它與表2所采取的基于敏感屬性泛化的方法相比,在數(shù)據(jù)精度和匿名處理時間上優(yōu)于后者,具有更少的信息損失和更高的效率。由此分析得出,當表中敏感元組數(shù)量較少時,由于只對敏感元組進行匿名運算,基于敏感元組的檔案敏感信息保護的基本方法能夠較好地提高數(shù)據(jù)發(fā)布的整體精確性,減少信息損失,提高匿名化處理效率;當表中含有較多敏感元組時,則基本退化為普通的k-anonymity基于敏感元組的檔案敏感信息保護基本方法只對敏感元組進行k-anonymity運算,導(dǎo)致敏感元組密度恒為1,容易造成隱私泄露隱患。比如,對于表3而言,若事先知道這個單位的某位人員45歲、初中文憑,便可從表中得出他有“偷竊”的前科。為了消除基本方法中的隱私泄露隱患,這里對基本方法進行改進。[實證4]首先對敏感元組進行mk-anonymity運算,然后引入(l-m)k個非敏感元組[7],并對其進行泛化運算,使得匿名后每個分組中的敏感元組密度滿足用戶設(shè)定的敏感元組密度m。由于Ni≥mk,因此,T*中泛化后的每個等價類中的元組數(shù)Ni+Ni(l-m)/m=Ni/m≥k。算法滿足k-anonymity要求,并能保證所有分組的敏感元組密度為m,從而可以克服傳統(tǒng)k-anonymity算法中敏感元組密度難以控制的問題,以及基本方法中敏感元組密度為1的缺陷。表4即是采用改進的方法(k=4,m=0.75)對原始數(shù)據(jù)表進行匿名處理以后的結(jié)果。4.3對敏感元組賦予屬性權(quán)值的加權(quán)保護方法在上述改進的方法中,每個分組的敏感元組密度都為m,這表示敏感元組被識別的概率均為m。然而,在實際發(fā)布的隱私數(shù)據(jù)中,個人對不同敏感值的保護要求和擔心程度是有差異的。例如,在考慮表1中“處分事由”的屬性值“打架”和“偷竊”時,人們可能會希望“偷竊”的元組得到更好的保護。因此,可以根據(jù)這種隱私保護具體需求,對不同的敏感值和敏感元組賦予不同的權(quán)重,從而實現(xiàn)對敏感元組的區(qū)別保護。加權(quán)敏感元組保護的思路是根據(jù)敏感元組保護需求的差異性,在重要的敏感元組分組中引入較多的非敏感元組,降低敏感元組的密度,使得重要的敏感元組匿名泛化后的安全性大于一般敏感元組,從而實現(xiàn)更有效的保護。對不同的敏感元組賦予權(quán)值進行加權(quán)保護的實現(xiàn)與上述改進的方法類似,只要將后者中計算每個分組的元組數(shù)換成計算敏感元組加權(quán)的元組數(shù)即可。[實證5]表5是一份從病歷檔案中抽取出來的、虛擬的醫(yī)療信息原始數(shù)據(jù)表,“疾病”是敏感屬性,假設(shè)其中的“艾滋病”、“癌癥”和“G傳染”是敏感屬性值,且其重要程度依次遞減。由于“艾滋病”、“癌癥”和“G傳染”是敏感屬性值,且其重要程度依次遞減,因此,對這些敏感元組的保護力度相應(yīng)遞減,方法實現(xiàn)中具體表現(xiàn)為這些敏感屬性值對應(yīng)的敏感元組密度依次為遞增。[實證6]表6為采用加權(quán)方法處理后的電子病歷醫(yī)療信息匿名數(shù)據(jù)表,其中“艾滋病”、“癌癥”和“G傳染”所在分組中敏感元組密度分別為0.25、0.5、0.75。由此可見,不同的隱私保護方法有不同的特點,在選擇隱私保護方法的時候,應(yīng)當充分考慮整個數(shù)據(jù)集中敏感屬性的密度、敏感屬性值的具體特征,以及數(shù)據(jù)擁有者或敏感信息相關(guān)人員對敏感屬性值的保護要求和擔心程度,再選擇合適的方法、賦予相應(yīng)的權(quán)值對其進行保護,使得發(fā)布的數(shù)據(jù)在數(shù)據(jù)可用性和敏感信息保護程度之間實現(xiàn)平衡。5結(jié)論分析上述幾種方法可以得出以下結(jié)論:第一,依敏感信息的保護程度,加權(quán)方法優(yōu)于另外兩種方法,其在敏感元組數(shù)不變的情況下,對重要敏感元組分組中引入了更多的非敏感元組,敏感元組密度小于改進方法中的密度,更加適合對特殊敏感元組的保護;第二,基本方法在信息損失方面優(yōu)于改進方法和加權(quán)保護方法,其發(fā)布的數(shù)據(jù)保留了更多的有用信息,有利于檔案信息數(shù)據(jù)的共享利用和在其基礎(chǔ)上的知識挖掘和發(fā)現(xiàn);第三,在方法性能方面,基本方法的時間耗時處于較低水平,改

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論