




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
信息安全技術(shù)個(gè)人信息去標(biāo)識(shí)化指南2019-08-30發(fā)布2020-03-01實(shí)施中國(guó)國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)GB/T37964—2019 I 1范圍 2規(guī)范性引用文件 3術(shù)語(yǔ)和定義 4概述 34.1去標(biāo)識(shí)化目標(biāo) 34.2去標(biāo)識(shí)化原則 34.3重標(biāo)識(shí)風(fēng)險(xiǎn) 4.4去標(biāo)識(shí)化影響 4.5不同公開(kāi)共享類(lèi)型對(duì)去標(biāo)識(shí)化的影響 5去標(biāo)識(shí)化過(guò)程 45.1概述 5.2確定目標(biāo) 5.3識(shí)別標(biāo)識(shí) 55.4處理標(biāo)識(shí) 65.5驗(yàn)證審批 75.6監(jiān)控審查 86角色職責(zé)與人員管理 96.1角色職責(zé) 96.2人員管理 附錄A(資料性附錄)常用去標(biāo)識(shí)化技術(shù) 附錄B(資料性附錄)常用去標(biāo)識(shí)化模型 附錄C(資料性附錄)去標(biāo)識(shí)化模型和技術(shù)的選擇 附錄D(資料性附錄)去標(biāo)識(shí)化面臨的挑戰(zhàn) 參考文獻(xiàn) I本標(biāo)準(zhǔn)按照GB/T1.1—2009給出的規(guī)則起草。請(qǐng)注意本文件的某些內(nèi)容可能涉及專(zhuān)利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別這些專(zhuān)利的責(zé)任。本標(biāo)準(zhǔn)由全國(guó)信息安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)(SAC/TC260)提出并歸口。本標(biāo)準(zhǔn)起草單位:清華大學(xué)、啟明星辰信息技術(shù)集團(tuán)股份有限公司、浙江螞蟻小微金融服務(wù)集團(tuán)有限公司、阿里巴巴(北京)軟件服務(wù)有限公司、北京奇安信科技有限公司、北京天融信網(wǎng)絡(luò)安全技術(shù)有限化工程研究院。Ⅱ問(wèn)題。為了保護(hù)個(gè)人信息安全,同時(shí)促進(jìn)數(shù)據(jù)的共享使用,特制定個(gè)人信息去標(biāo)識(shí)化指南標(biāo)準(zhǔn)。本標(biāo)準(zhǔn)旨在借鑒國(guó)內(nèi)外個(gè)人信息去標(biāo)識(shí)化的最新研究成果,提煉業(yè)內(nèi)當(dāng)前通行的最佳實(shí)踐,研究個(gè)化發(fā)展需要的個(gè)人信息去標(biāo)識(shí)化指南。本標(biāo)準(zhǔn)關(guān)注的待去標(biāo)識(shí)化的數(shù)據(jù)集是微數(shù)據(jù)(以記錄集合表示的數(shù)據(jù)集,邏輯上可通過(guò)表格形式表示)。去標(biāo)識(shí)化不僅僅是對(duì)數(shù)據(jù)集中的直接標(biāo)識(shí)符、準(zhǔn)標(biāo)識(shí)符進(jìn)行刪除或變換,可以結(jié)合后期應(yīng)用場(chǎng)景考慮數(shù)據(jù)集被重標(biāo)識(shí)的風(fēng)險(xiǎn),從而選擇恰當(dāng)?shù)娜?biāo)識(shí)化模型和技術(shù)措施,并實(shí)施合適的效果評(píng)估。對(duì)于不是微數(shù)據(jù)的數(shù)據(jù)集,可以轉(zhuǎn)化為微數(shù)據(jù)進(jìn)行處理,也可以參照本標(biāo)準(zhǔn)的目標(biāo)、原則和方法進(jìn)行處理。例如針對(duì)表格數(shù)據(jù),如果關(guān)于同一個(gè)人的記錄有多條,則可將多條記錄拼接成一條,從而形成1信息安全技術(shù)個(gè)人信息去標(biāo)識(shí)化指南下列文件對(duì)于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文GB/T25069—2010信息安全技術(shù)術(shù)語(yǔ)3術(shù)語(yǔ)和定義GB/T25069—2010界定的以及下列術(shù)語(yǔ)和定義適用于本文件。以電子或其他方式記錄的能夠單獨(dú)或與其他信息結(jié)合識(shí)別特定自然人身份或反映特定自然人活動(dòng)情況的各種信息。一個(gè)結(jié)構(gòu)化數(shù)據(jù)集,其中每條(行)記錄對(duì)應(yīng)一個(gè)個(gè)人信息主體,記錄中的每個(gè)字段(列)對(duì)應(yīng)一個(gè)表征一組個(gè)人信息主體的數(shù)據(jù)。2直接標(biāo)識(shí)符directidentifier微數(shù)據(jù)中的屬性,在特定環(huán)境下可以單獨(dú)識(shí)別個(gè)人信息主體。把去標(biāo)識(shí)化的數(shù)據(jù)集重新關(guān)聯(lián)到原始個(gè)人信息主體或一組個(gè)人信息主體的過(guò)程。受控公開(kāi)共享controlledpublicsharing通過(guò)數(shù)據(jù)使用協(xié)議對(duì)數(shù)據(jù)的使用進(jìn)行約束。注1:例如通過(guò)協(xié)議禁止信息接收方發(fā)起對(duì)數(shù)據(jù)集中個(gè)體的重標(biāo)識(shí)攻擊,禁止信息接收方關(guān)聯(lián)到外部數(shù)據(jù)集或信注2:同英文術(shù)語(yǔ)TheDataUseAgreementModel。領(lǐng)地公開(kāi)共享enclavepublicsharing在物理或虛擬的領(lǐng)地范圍內(nèi)共享,數(shù)據(jù)不能流出到領(lǐng)地范圍外。3去標(biāo)識(shí)化技術(shù)de-identificationtechnique降低數(shù)據(jù)集中信息和個(gè)人信息主體關(guān)聯(lián)程度的技術(shù)。去標(biāo)識(shí)化模型de-identificationmodel應(yīng)用去標(biāo)識(shí)化技術(shù)并能計(jì)算重標(biāo)識(shí)風(fēng)險(xiǎn)的方法。4概述4.1去標(biāo)識(shí)化目標(biāo)去標(biāo)識(shí)化目標(biāo)包括:a)對(duì)直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符進(jìn)行刪除或變換,避免攻擊者根據(jù)這些屬性直接識(shí)別或結(jié)合其他信息識(shí)別出原始個(gè)人信息主體;b)控制重標(biāo)識(shí)的風(fēng)險(xiǎn),根據(jù)可獲得的數(shù)據(jù)情況和應(yīng)用場(chǎng)景選擇合適的模型和技術(shù),將重標(biāo)識(shí)的風(fēng)險(xiǎn)控制在可接受范圍內(nèi),確保重標(biāo)識(shí)風(fēng)險(xiǎn)不會(huì)隨著新數(shù)據(jù)發(fā)布而增加,確保數(shù)據(jù)接收方之間的潛在串通不會(huì)增加重標(biāo)識(shí)風(fēng)險(xiǎn);c)在控制重標(biāo)識(shí)風(fēng)險(xiǎn)的前提下,結(jié)合業(yè)務(wù)目標(biāo)和數(shù)據(jù)特性,選擇合適的去標(biāo)識(shí)化模型和技術(shù),確保去標(biāo)識(shí)化后的數(shù)據(jù)集盡量滿(mǎn)足其預(yù)期目的(有用)。a)合規(guī):應(yīng)滿(mǎn)足我國(guó)法律、法規(guī)和標(biāo)準(zhǔn)規(guī)范對(duì)個(gè)人信息安全保護(hù)的有關(guān)規(guī)定,并持續(xù)跟進(jìn)有關(guān)法b)個(gè)人信息安全保護(hù)優(yōu)先:應(yīng)根據(jù)業(yè)務(wù)目標(biāo)和安全保護(hù)要求,對(duì)個(gè)人信息進(jìn)行恰當(dāng)?shù)娜?biāo)識(shí)化處理,在保護(hù)個(gè)人信息安全的前提下確保去標(biāo)識(shí)化后的數(shù)據(jù)具有應(yīng)用價(jià)值;c)技術(shù)和管理相結(jié)合:根據(jù)工作目標(biāo)制定適當(dāng)?shù)牟呗?,選擇適當(dāng)?shù)哪P秃图夹g(shù),綜合利用技術(shù)和管理兩方面措施實(shí)現(xiàn)最佳效果。包括設(shè)定具體的崗位,明確相應(yīng)職責(zé);對(duì)去標(biāo)識(shí)化過(guò)程中形成的輔助信息(例如密鑰、映射表等)采取有效的安全防護(hù)措施等;d)充分應(yīng)用軟件工具:針對(duì)大規(guī)模數(shù)據(jù)集的去標(biāo)識(shí)化工作,應(yīng)考慮使用軟件工具提高去標(biāo)識(shí)化e)持續(xù)改進(jìn):在完成去標(biāo)識(shí)化工作后應(yīng)進(jìn)行評(píng)估和定期重評(píng)估,對(duì)照工作目標(biāo),評(píng)估工作效果(包括重標(biāo)識(shí)風(fēng)險(xiǎn)和有用性)與效率,持續(xù)改進(jìn)方法、技術(shù)和工具。并就相關(guān)工作進(jìn)行文檔記錄。常見(jiàn)的用于重標(biāo)識(shí)的方法如下:a)分離:將屬于同一個(gè)個(gè)人信息主體的所有記錄提取出來(lái);b)關(guān)聯(lián):將不同數(shù)據(jù)集中關(guān)于相同個(gè)人信息主體的信息聯(lián)系起來(lái);c)推斷:通過(guò)其他屬性的值以一定概率判斷出一個(gè)屬性的值。4常見(jiàn)的重標(biāo)識(shí)攻擊包括:a)重標(biāo)識(shí)一條記錄屬于一個(gè)特定個(gè)人信息主體;b)重標(biāo)識(shí)一條特定記錄的個(gè)人信息主體;c)盡可能多的將記錄和其對(duì)應(yīng)的個(gè)人信息主體關(guān)聯(lián);d)判定一個(gè)特定的個(gè)人信息主體在數(shù)據(jù)集中是否存在;e)推斷和一組其他屬性關(guān)聯(lián)的敏感屬性。對(duì)數(shù)據(jù)集進(jìn)行去標(biāo)識(shí)化,會(huì)改變?cè)紨?shù)據(jù)集,可能影響數(shù)據(jù)有用性。業(yè)務(wù)應(yīng)用使用去標(biāo)識(shí)化后的數(shù)據(jù)集時(shí)應(yīng)充分認(rèn)識(shí)到這一點(diǎn),并考慮數(shù)據(jù)集變化可能帶來(lái)的影響。4.5不同公開(kāi)共享類(lèi)型對(duì)去標(biāo)識(shí)化的影響在開(kāi)展去標(biāo)識(shí)化工作之前需要根據(jù)應(yīng)用需求確定數(shù)據(jù)的公開(kāi)共享類(lèi)型,不同公開(kāi)共享類(lèi)型可能引發(fā)的重標(biāo)識(shí)風(fēng)險(xiǎn)和對(duì)去標(biāo)識(shí)化的要求如表1所示。表1不同公開(kāi)共享類(lèi)型對(duì)去標(biāo)識(shí)化的影響公開(kāi)共享類(lèi)型可能的重標(biāo)識(shí)風(fēng)險(xiǎn)對(duì)去標(biāo)識(shí)化的要求完全公開(kāi)共享高高受控公開(kāi)共享中中領(lǐng)地公開(kāi)共享低低5去標(biāo)識(shí)化過(guò)程5.1概述去標(biāo)識(shí)化過(guò)程通??煞譃榇_定目標(biāo)、識(shí)別標(biāo)識(shí)、處理標(biāo)識(shí)以及驗(yàn)證審批等步驟,并在上述各步驟的實(shí)施過(guò)程中和完成后進(jìn)行有效的監(jiān)控和審查。如圖1所示。確定目標(biāo)確定目標(biāo)識(shí)別標(biāo)識(shí)處理標(biāo)識(shí)驗(yàn)證審批監(jiān)控審查5確定目標(biāo)步驟包括確定去標(biāo)識(shí)化對(duì)象、建立去標(biāo)識(shí)化目標(biāo)和制定工作計(jì)劃等內(nèi)容。確定去標(biāo)識(shí)化對(duì)象,指確定需要去標(biāo)識(shí)化的數(shù)據(jù)集范圍,宜根據(jù)以下要素確定哪些數(shù)據(jù)屬于去標(biāo)識(shí)去標(biāo)識(shí)化相關(guān)要求。b)組織策略。了解數(shù)據(jù)是否屬于組織列入的重要數(shù)據(jù)或敏感數(shù)據(jù)范疇,數(shù)據(jù)應(yīng)用時(shí)是否存在去標(biāo)識(shí)化的要求。c)數(shù)據(jù)來(lái)源。了解這些數(shù)據(jù)采集時(shí)是否做過(guò)去標(biāo)識(shí)化相關(guān)承諾。d)業(yè)務(wù)背景。了解數(shù)據(jù)來(lái)源相關(guān)信息系統(tǒng)的業(yè)務(wù)特性,了解業(yè)務(wù)內(nèi)容和業(yè)務(wù)流程,披露數(shù)據(jù)是否涉及個(gè)人信息安全風(fēng)險(xiǎn)。e)數(shù)據(jù)用途。了解待發(fā)布數(shù)據(jù)的用途,是否存在個(gè)人信息安全風(fēng)險(xiǎn)。f)關(guān)聯(lián)情況。了解數(shù)據(jù)披露歷史和去標(biāo)識(shí)化歷史情況,待披露數(shù)據(jù)是否和歷史數(shù)據(jù)存在關(guān)聯(lián)關(guān)系。建立去標(biāo)識(shí)化目標(biāo),具體包括確定重標(biāo)識(shí)風(fēng)險(xiǎn)不可接受程度以及數(shù)據(jù)有用性最低要求。需要考慮的因素包括:a)數(shù)據(jù)用途。了解數(shù)據(jù)去標(biāo)識(shí)化后的用途,涉及業(yè)務(wù)系統(tǒng)的功能和特性,考慮數(shù)據(jù)去標(biāo)識(shí)化的影b)數(shù)據(jù)來(lái)源。了解數(shù)據(jù)獲取時(shí)的相關(guān)承諾,以及涉及哪些個(gè)人信息。c)公開(kāi)共享類(lèi)別。若為數(shù)據(jù)發(fā)布實(shí)施個(gè)人信息去標(biāo)識(shí)化,需了解數(shù)據(jù)是完全公開(kāi)共享、受控公開(kāi)共享還是領(lǐng)地公開(kāi)共享,以及對(duì)數(shù)據(jù)在瀏覽和使用方面的安全保護(hù)措施。d)風(fēng)險(xiǎn)級(jí)別。了解數(shù)據(jù)屬性和業(yè)務(wù)特性,擬采用的重標(biāo)識(shí)風(fēng)險(xiǎn)評(píng)估模型及設(shè)定的風(fēng)險(xiǎn)級(jí)別。e)去標(biāo)識(shí)化模型和技術(shù)。了解數(shù)據(jù)適用的保護(hù)或去標(biāo)識(shí)化標(biāo)準(zhǔn),以及可能采用的去標(biāo)識(shí)化模型和技術(shù)。確定相關(guān)內(nèi)容后,去標(biāo)識(shí)化實(shí)施計(jì)劃書(shū)應(yīng)得到組織高級(jí)管理層的批準(zhǔn)和支持。識(shí)別標(biāo)識(shí)符的方法包括查表識(shí)別法、規(guī)則判定法和人工分析法。查表識(shí)別法指預(yù)先建立元數(shù)據(jù)表格,存儲(chǔ)標(biāo)識(shí)符信息,在識(shí)別標(biāo)識(shí)數(shù)據(jù)時(shí),將待識(shí)別數(shù)據(jù)的各個(gè)屬6性名稱(chēng)或字段名稱(chēng),逐個(gè)與元數(shù)據(jù)表中記錄進(jìn)行比對(duì),以此識(shí)別出標(biāo)識(shí)數(shù)據(jù)。查表識(shí)別法適用于數(shù)據(jù)集格式和屬性已經(jīng)明確的去標(biāo)識(shí)化場(chǎng)景,如采用關(guān)系型數(shù)據(jù)庫(kù),在表結(jié)構(gòu)中規(guī)則判定法是指通過(guò)建立軟件程序,分析數(shù)據(jù)集規(guī)律,從中自動(dòng)發(fā)現(xiàn)標(biāo)識(shí)數(shù)據(jù)。組織可分析業(yè)務(wù)特點(diǎn),總結(jié)可能涉及直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符的數(shù)據(jù)格式和規(guī)律,確立相關(guān)標(biāo)識(shí)符識(shí)別規(guī)則,然后通過(guò)運(yùn)行程序,自動(dòng)化地從數(shù)據(jù)集中識(shí)別出標(biāo)識(shí)數(shù)據(jù)。如可依據(jù)GB11643—1999建立身份證號(hào)碼識(shí)別規(guī)則,并通過(guò)自動(dòng)化程序在數(shù)據(jù)集中自動(dòng)發(fā)現(xiàn)存在的身份證號(hào)碼數(shù)據(jù)。組織識(shí)別標(biāo)識(shí)數(shù)據(jù)宜先采用查表識(shí)別法,并根據(jù)數(shù)據(jù)量大小和復(fù)雜情況,結(jié)合采用規(guī)則判定法。規(guī)則判定法在某些情況下有助于發(fā)現(xiàn)查表識(shí)別法不能識(shí)別出的標(biāo)識(shí)符,如標(biāo)識(shí)符處于下面情況時(shí):b)數(shù)據(jù)中存在混亂或錯(cuò)誤情況,如“備注”字段前100條記錄的值為空,而后10000條記錄的值為用戶(hù)身份證號(hào)碼。規(guī)則判定法不僅僅適用于結(jié)構(gòu)化數(shù)據(jù)應(yīng)用場(chǎng)景,也適用于某些半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用場(chǎng)景,如對(duì)于非結(jié)構(gòu)化存儲(chǔ)的司法判決書(shū),可以通過(guò)建立身份證號(hào)識(shí)別規(guī)則和開(kāi)發(fā)程序,從司法判決書(shū)中自動(dòng)識(shí)別出所有的身份證號(hào)。人工分析法是通過(guò)人工發(fā)現(xiàn)和確定數(shù)據(jù)集中的直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符。組織可在對(duì)業(yè)務(wù)處理、數(shù)據(jù)集結(jié)構(gòu)、相互依賴(lài)關(guān)系和對(duì)數(shù)據(jù)集之外可用數(shù)據(jù)等要素分析的基礎(chǔ)上,綜合判斷數(shù)據(jù)集重標(biāo)識(shí)風(fēng)險(xiǎn)后,直接指定數(shù)據(jù)集中需要去標(biāo)識(shí)化的直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符。人工分析法在結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用場(chǎng)景下都可使用。在下列場(chǎng)景時(shí),人工分析法具有明顯的優(yōu)勢(shì):a)數(shù)據(jù)集中的多個(gè)不同數(shù)據(jù)子集之間存在關(guān)聯(lián)、引用關(guān)系時(shí),如通過(guò)數(shù)據(jù)挖掘算法,可關(guān)聯(lián)分析數(shù)據(jù)集中多個(gè)非常見(jiàn)標(biāo)識(shí)符屬性后識(shí)別出唯一的用戶(hù)身份;b)數(shù)據(jù)集中有特別含義的數(shù)據(jù),或數(shù)據(jù)具有特殊值、容易引起注意的值,從而可能被用來(lái)重標(biāo)識(shí)相比較于查表識(shí)別法和規(guī)則判定法,人工分析法能夠更加準(zhǔn)確地識(shí)別出標(biāo)識(shí)符。處理標(biāo)識(shí)步驟分為預(yù)處理、選擇模型技術(shù)、實(shí)施去標(biāo)識(shí)化三個(gè)階段工作。預(yù)處理是在對(duì)數(shù)據(jù)集正式實(shí)施去標(biāo)識(shí)化前的準(zhǔn)備過(guò)程。一般地,預(yù)處理是對(duì)數(shù)據(jù)集施加某種變化,使其有利于后期進(jìn)行處理。預(yù)處理階段工作可參考如下方法進(jìn)行:a)形成規(guī)范化,或滿(mǎn)足特定格式要求的數(shù)據(jù);b)對(duì)數(shù)據(jù)抽樣,減小數(shù)據(jù)集的規(guī)模;c)增加或擾亂數(shù)據(jù),改變數(shù)據(jù)集的真實(shí)性。7組織應(yīng)根據(jù)數(shù)據(jù)集的實(shí)際情況選擇預(yù)處理措施,或選擇不預(yù)處理。不同類(lèi)型的數(shù)據(jù)需要采用不同的去標(biāo)識(shí)化技術(shù),所以在去標(biāo)識(shí)化的早期階段,重要的一步是確定數(shù)據(jù)的類(lèi)型和業(yè)務(wù)特性,考慮去標(biāo)識(shí)化的影響,選擇合適的去標(biāo)識(shí)化模型和技術(shù),在可接受的重標(biāo)識(shí)風(fēng)險(xiǎn)范圍內(nèi)滿(mǎn)足數(shù)據(jù)有用性的最低要求。選擇的參考因素包括但不限于如下方面:a)是否需要對(duì)重標(biāo)識(shí)風(fēng)險(xiǎn)進(jìn)行量化;b)聚合數(shù)據(jù)是否夠用;c)數(shù)據(jù)是否可刪除;d)是否需要保持唯一性;e)是否需要滿(mǎn)足可逆性;f)是否需要保持原有數(shù)據(jù)值順序;i)是否需要保持關(guān)系型數(shù)據(jù)庫(kù)中的實(shí)體完整性、參照完整性或用戶(hù)自定義完整性;j)是否可以更改數(shù)據(jù)類(lèi)型,例如在針對(duì)字符串類(lèi)型的“性別”(男/女)進(jìn)行去標(biāo)識(shí)化時(shí),是否可以變成數(shù)字類(lèi)型表示(1/0);k)是否需要滿(mǎn)足至少若干個(gè)屬性值相同,以加強(qiáng)數(shù)據(jù)的不可區(qū)分性;1)是否可以對(duì)屬性值實(shí)施隨機(jī)噪聲添加,對(duì)屬性值做微小變化;m)去標(biāo)識(shí)化的成本約束。附錄A和附錄B分別給出了常見(jiàn)的去標(biāo)識(shí)化技術(shù)和模型,針對(duì)這些技術(shù)和模型的特性以及選擇方法可參考附錄C,附錄D給出了去標(biāo)識(shí)化面臨的風(fēng)險(xiǎn)。根據(jù)選擇的去標(biāo)識(shí)化模型和技術(shù),對(duì)數(shù)據(jù)集實(shí)施去標(biāo)識(shí)化。主要工作包括:a)若存在多個(gè)需要去標(biāo)識(shí)化的標(biāo)識(shí)符,則根據(jù)數(shù)據(jù)特點(diǎn)和業(yè)務(wù)特性設(shè)定去標(biāo)識(shí)化的順序;b)依次選擇相應(yīng)的工具或程序;d)依次執(zhí)行去標(biāo)識(shí)化工具或程序,獲得結(jié)果數(shù)據(jù)集。對(duì)數(shù)據(jù)集去標(biāo)識(shí)化后進(jìn)行驗(yàn)證,以確保生成的數(shù)據(jù)集在重標(biāo)識(shí)風(fēng)險(xiǎn)和數(shù)據(jù)有用性方面都符合預(yù)設(shè)的目標(biāo)。在驗(yàn)證滿(mǎn)足目標(biāo)過(guò)程中,需對(duì)去標(biāo)識(shí)化后重標(biāo)識(shí)風(fēng)險(xiǎn)進(jìn)行評(píng)估,計(jì)算出實(shí)際風(fēng)險(xiǎn),與預(yù)期可接受風(fēng)險(xiǎn)閾值進(jìn)行比較,若風(fēng)險(xiǎn)超出閾值,需繼續(xù)進(jìn)行調(diào)整直到滿(mǎn)足要求。由于重標(biāo)識(shí)技術(shù)和重標(biāo)識(shí)攻擊的能力在迅速演變,需要由內(nèi)部專(zhuān)業(yè)人員或權(quán)威的外部組織定期展開(kāi)驗(yàn)證評(píng)估。驗(yàn)證去標(biāo)識(shí)化數(shù)據(jù)滿(mǎn)足個(gè)人信息安全保護(hù)要求的方法包括:a)檢查生成的數(shù)據(jù)文件,以確保文件數(shù)據(jù)或元數(shù)據(jù)中不包含直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符;b)檢查生成的數(shù)據(jù)文件,以確保所得數(shù)據(jù)符合既定重標(biāo)識(shí)風(fēng)險(xiǎn)要求;c)評(píng)估去標(biāo)識(shí)化軟件及其參數(shù)配置;8d)進(jìn)行有針對(duì)性的入侵者測(cè)試,看看是否有具備合格能力的外部人員可以使用公開(kāi)的數(shù)據(jù)集執(zhí)行重標(biāo)識(shí);e)讓團(tuán)隊(duì)利用內(nèi)部數(shù)據(jù)進(jìn)行有針對(duì)性的入侵者測(cè)試,模擬違規(guī)者或敵對(duì)內(nèi)幕人士可能發(fā)生的情況。這些方法不能保證去標(biāo)識(shí)化后的數(shù)據(jù)滿(mǎn)足個(gè)人信息安全保護(hù)的要求,但它們可以作為整個(gè)組織風(fēng)險(xiǎn)評(píng)估的一部分。可證明的個(gè)人信息安全保護(hù)應(yīng)依賴(lài)于形式化方法,例如用于規(guī)劃組織數(shù)據(jù)發(fā)布的差分隱私方法。通過(guò)使用經(jīng)過(guò)驗(yàn)證的去標(biāo)識(shí)化軟件,可以大大簡(jiǎn)化去標(biāo)識(shí)化數(shù)據(jù)的個(gè)人信息安全保護(hù)的驗(yàn)證工作。去標(biāo)識(shí)化降低了數(shù)據(jù)質(zhì)量和生成數(shù)據(jù)集的有用性。因此,需要考慮去標(biāo)識(shí)化后的數(shù)據(jù)集對(duì)于預(yù)期的應(yīng)用仍然有用。存在一些方法用于驗(yàn)證數(shù)據(jù)有用性。例如,內(nèi)部人員可對(duì)原始數(shù)據(jù)集和去標(biāo)識(shí)化的數(shù)據(jù)集執(zhí)行統(tǒng)計(jì)計(jì)算,并對(duì)結(jié)果進(jìn)行比較,以查看去標(biāo)識(shí)化后是否導(dǎo)致不可接受的更改。組織可讓可信的外部人員檢查去標(biāo)識(shí)化數(shù)據(jù)集,以確定數(shù)據(jù)能被用于預(yù)期目的。在完成處理標(biāo)識(shí)和驗(yàn)證結(jié)果后,組織管理層應(yīng)依據(jù)數(shù)據(jù)發(fā)布共享用途、重標(biāo)識(shí)風(fēng)險(xiǎn)、數(shù)據(jù)有用性最低要求等因素,以及驗(yàn)證結(jié)果、去標(biāo)識(shí)化各步驟實(shí)施過(guò)程中的監(jiān)控審查記錄等因素,做出是否認(rèn)可數(shù)據(jù)去標(biāo)識(shí)化結(jié)果的決定。審批由組織高級(jí)管理層來(lái)執(zhí)行。5.6.1監(jiān)控審查去標(biāo)識(shí)化各步驟實(shí)施過(guò)程應(yīng)確保去標(biāo)識(shí)化的每一步驟均實(shí)現(xiàn)了預(yù)定目標(biāo)。在去標(biāo)識(shí)化的各個(gè)步驟中,為有效完成去標(biāo)識(shí)化任務(wù),需在確定目標(biāo)步驟撰寫(xiě)去標(biāo)識(shí)化工作方案,組織管理層在去標(biāo)識(shí)化的各個(gè)步驟完成時(shí),對(duì)該階段記錄文檔進(jìn)行審查,檢查輸出文檔是否齊全和內(nèi)容完備,及時(shí)發(fā)現(xiàn)已經(jīng)出現(xiàn)或可能出現(xiàn)的錯(cuò)誤或偏差,并采取適當(dāng)控制措施,監(jiān)督各步驟執(zhí)行過(guò)程得到完整和有效地執(zhí)行。監(jiān)控審查過(guò)程也應(yīng)記錄到文檔中,記錄內(nèi)容至少包括監(jiān)控審查對(duì)象、時(shí)間、過(guò)程、結(jié)果和措施等持續(xù)監(jiān)控是指數(shù)據(jù)在去標(biāo)識(shí)化、審批同意交付用戶(hù)后,宜根據(jù)情況變化或定期進(jìn)行去標(biāo)識(shí)化數(shù)據(jù)的重標(biāo)識(shí)風(fēng)險(xiǎn)評(píng)估,并與預(yù)期可接受風(fēng)險(xiǎn)閾值進(jìn)行比較,以保障個(gè)人信息安全性。情況發(fā)生變化是指重標(biāo)識(shí)風(fēng)險(xiǎn)的相關(guān)要素發(fā)生變化,相關(guān)要素包括但不限于:a)去標(biāo)識(shí)化數(shù)據(jù)使用者;b)目標(biāo)信息系統(tǒng);c)目標(biāo)信息安全環(huán)境;d)新增去標(biāo)識(shí)化數(shù)據(jù)。此外,即使各種要素均未發(fā)生變化,只要去標(biāo)識(shí)化數(shù)據(jù)仍然可以被目標(biāo)用戶(hù)訪問(wèn),也需定期對(duì)數(shù)據(jù)9進(jìn)行重標(biāo)識(shí)風(fēng)險(xiǎn)評(píng)估。這是由于重標(biāo)識(shí)技術(shù)以及重標(biāo)識(shí)攻擊能力都在迅速演變,所以要通過(guò)重標(biāo)識(shí)風(fēng)險(xiǎn)評(píng)估,檢查先前的去標(biāo)識(shí)化數(shù)據(jù)是否仍然安全。6角色職責(zé)與人員管理個(gè)人信息去標(biāo)識(shí)化工作相關(guān)的主要角色包括規(guī)劃管理者、執(zhí)行者、監(jiān)督者。a)規(guī)劃管理者在組織中,規(guī)劃管理者對(duì)個(gè)人信息去標(biāo)識(shí)化工作負(fù)總責(zé),具體職責(zé)包括:規(guī)劃個(gè)人信息去標(biāo)識(shí)化策略,建立相關(guān)的規(guī)范制度和監(jiān)控審計(jì)機(jī)制,宣貫去標(biāo)識(shí)化政策和制度,認(rèn)可和批準(zhǔn)去標(biāo)識(shí)b)執(zhí)行者執(zhí)行者負(fù)責(zé)去標(biāo)識(shí)化業(yè)務(wù)的具體執(zhí)行,主要職責(zé)包括:依據(jù)數(shù)據(jù)共享場(chǎng)景,提出個(gè)人信息去標(biāo)識(shí)化需求;識(shí)別個(gè)人信息安全風(fēng)險(xiǎn),制定去標(biāo)識(shí)化工作計(jì)劃;執(zhí)行去標(biāo)識(shí)化工作,記錄工作情c)監(jiān)督者監(jiān)督者的主要職責(zé)是監(jiān)督去標(biāo)識(shí)化工作情況、審計(jì)該業(yè)務(wù)執(zhí)行過(guò)程,保證業(yè)務(wù)合規(guī)、安全風(fēng)險(xiǎn)組織應(yīng)整體規(guī)劃個(gè)人信息去標(biāo)識(shí)化有關(guān)的工作任務(wù)和職責(zé),做到有效保護(hù)個(gè)人信息安全、確保個(gè)人信息去標(biāo)識(shí)化工作順利開(kāi)展。在人員管理方面還應(yīng)考慮如下因素:a)提煉個(gè)人信息去標(biāo)識(shí)化工作崗位需求,包括技術(shù)能力需求和安全保密需求;b)個(gè)人信息去標(biāo)識(shí)化工作崗位招聘時(shí)應(yīng)按照相關(guān)法律、法規(guī)、道德規(guī)范和相應(yīng)的工作崗位需求,對(duì)應(yīng)聘人員進(jìn)行考察;c)與個(gè)人信息去標(biāo)識(shí)化工作崗位人員工作合同或補(bǔ)充文檔中,應(yīng)明確其理解工作職責(zé)和要承擔(dān)的安全保密要求;d)組織應(yīng)定期開(kāi)展業(yè)務(wù)和安全培訓(xùn),確保個(gè)人信息去標(biāo)識(shí)化工作崗位人員接受充分和最新的培訓(xùn),保證崗位人員達(dá)到培訓(xùn)要求,持續(xù)擁有適當(dāng)?shù)募寄埽軌虬匆髨?zhí)行個(gè)人信息去標(biāo)識(shí)化的相關(guān)工作;e)個(gè)人信息去標(biāo)識(shí)化工作崗位人員離職時(shí),應(yīng)依據(jù)其涉及數(shù)據(jù)重要程度,在離職保密協(xié)議中增加適當(dāng)?shù)谋C芤髼l款。(資料性附錄)常用去標(biāo)識(shí)化技術(shù)A.1統(tǒng)計(jì)技術(shù)A.1.1概述統(tǒng)計(jì)技術(shù)是一種對(duì)數(shù)據(jù)集進(jìn)行去標(biāo)識(shí)化或提升去標(biāo)識(shí)化技術(shù)有效性的常用方法,主要包含數(shù)據(jù)抽樣和數(shù)據(jù)聚合兩種技術(shù)。A.1.2數(shù)據(jù)抽樣數(shù)據(jù)抽樣是通過(guò)選取數(shù)據(jù)集中有代表性的子集來(lái)對(duì)原始數(shù)據(jù)集進(jìn)行分析和評(píng)估的,它是提升去標(biāo)識(shí)化技術(shù)有效性的重要方法。對(duì)數(shù)據(jù)抽樣技術(shù)選擇和使用應(yīng)注意以下幾個(gè)方面:a)從數(shù)據(jù)集中抽取樣本的方法很多,各方法差異很大,需根據(jù)數(shù)據(jù)集的特點(diǎn)和預(yù)期的使用場(chǎng)景來(lái)b)數(shù)據(jù)抽樣經(jīng)常用于去標(biāo)識(shí)化的預(yù)處理,對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)抽樣能夠增加識(shí)別出特定個(gè)人信息主體的不確定性,從而可以提高后續(xù)應(yīng)用的其他去標(biāo)識(shí)化技術(shù)的有效性。c)數(shù)據(jù)抽樣可以簡(jiǎn)化對(duì)數(shù)據(jù)集的計(jì)算量,因此,在對(duì)大樣本的數(shù)據(jù)集進(jìn)行去標(biāo)識(shí)化時(shí),首先進(jìn)行抽樣,然后再采用某項(xiàng)特定的技術(shù)進(jìn)行去標(biāo)識(shí)化。例如:某市從1000萬(wàn)市民中隨機(jī)抽取1萬(wàn)人的4項(xiàng)信息(性別、學(xué)歷、籍貫、身高)。如果攻擊者發(fā)現(xiàn)市民A的情況完全符合記錄甲(男,本科,北京,1.75m),攻擊者并不能確定記錄甲就是指市民A,因?yàn)锳并不一定在此抽樣數(shù)據(jù)集中。A.1.3數(shù)據(jù)聚合性時(shí),產(chǎn)生的結(jié)果能夠代表原始數(shù)據(jù)集中的所有記錄。對(duì)數(shù)據(jù)抽樣技術(shù)選擇和使用應(yīng)注意以下幾個(gè)方面:a)數(shù)據(jù)聚合可能會(huì)降低數(shù)據(jù)的有用性;因?yàn)榈玫降氖墙y(tǒng)計(jì)值,無(wú)法反映獨(dú)立數(shù)據(jù)記錄的特征。b)數(shù)據(jù)聚合對(duì)重標(biāo)識(shí)攻擊非常有效;數(shù)據(jù)聚合的輸出是“統(tǒng)計(jì)值”,該值有利于對(duì)數(shù)據(jù)進(jìn)行整體例如:2012年我國(guó)18歲及以上成年男性平均身高1.67m。如果數(shù)據(jù)集以平均身高來(lái)標(biāo)識(shí)數(shù)據(jù)集A.2密碼技術(shù)本節(jié)描述適用于去標(biāo)識(shí)化的密碼技術(shù)。使用密碼技術(shù)應(yīng)遵循國(guó)家密碼管理相關(guān)規(guī)定。A.2.2確定性加密確定性加密是一種非隨機(jī)加密方法。在去標(biāo)識(shí)化過(guò)程中應(yīng)用時(shí),可以用確定性加密結(jié)果替代微數(shù)據(jù)中的標(biāo)識(shí)符值。對(duì)確定性加密技術(shù)的選擇和使用應(yīng)注意以下幾個(gè)方面:a)確定性加密可以保證數(shù)據(jù)真實(shí)可用,即相同的兩個(gè)數(shù)據(jù)用同一密鑰進(jìn)行加密將產(chǎn)生兩個(gè)一樣的密文。b)確定性加密可以一定程度上保證數(shù)據(jù)在統(tǒng)計(jì)處理、隱私防挖掘方面的有用性,確定性加密也可以生成用于精準(zhǔn)匹配搜索、數(shù)據(jù)關(guān)聯(lián)及分析的微數(shù)據(jù)。對(duì)確定性加密結(jié)果的分析局限于檢查數(shù)據(jù)值是否相等。c)對(duì)確定性加密的重標(biāo)識(shí)攻擊主要在于不具備密鑰使用權(quán)時(shí)的攻擊;關(guān)聯(lián)性攻擊則可能適用于采用同一密鑰進(jìn)行確定性加密的密文,攻擊能否成功很大程度上取決于對(duì)加密算法參數(shù)的選擇。A.2.3保序加密保序加密是一種非隨機(jī)加密方法。用作去標(biāo)識(shí)化技術(shù)時(shí),可以用保序加密值替代微數(shù)據(jù)中的標(biāo)識(shí)符值。對(duì)保序加密技術(shù)選擇和使用應(yīng)注意以下幾個(gè)方面:a)密文的排序與明文的排序相同。b)保序加密可以在有限的范圍內(nèi)保證加密結(jié)果在統(tǒng)計(jì)處理、隱私防挖掘、數(shù)據(jù)外包存儲(chǔ)與處理等場(chǎng)景中的有用性。保序加密可以產(chǎn)生用于范圍/區(qū)間匹配搜索、分析的微數(shù)據(jù)。對(duì)保序加密結(jié)果的分析局限于檢查數(shù)據(jù)相等和排序比較關(guān)系。c)保序加密數(shù)據(jù)的完全重標(biāo)識(shí)僅可能適用于擁有密鑰的一方。關(guān)聯(lián)性攻擊能否成功很大程度上取決于保序加密方案的參數(shù)選擇。A.2.4保留格式加密保留格式加密是一種適宜于去標(biāo)識(shí)化技術(shù)的加密方法,加密要求密文與明文具有相同的格式,當(dāng)作為去標(biāo)識(shí)化技術(shù)的一部分加以采用時(shí),可用保留格式加密值替代微數(shù)據(jù)中的標(biāo)識(shí)符值。對(duì)保留格式加密技術(shù)的選擇和使用應(yīng)注意以下幾個(gè)方面:a)某些保留格式加密具有確定性加密技術(shù)一樣的特點(diǎn),如相同數(shù)據(jù)在同一密鑰下加密生成同樣的密文,且可以通過(guò)生成微數(shù)據(jù)進(jìn)行精準(zhǔn)匹配搜索、數(shù)據(jù)關(guān)聯(lián)分析等。b)保留格式加密適用于多種格式的數(shù)據(jù),包括字符型、數(shù)字型、二進(jìn)制等,加密結(jié)果也是同類(lèi)型數(shù)據(jù)。c)和其他加密技術(shù)不一樣,在給定有限符號(hào)集的情況下,保留格式加密可以保證加密后的數(shù)據(jù)具有與原始數(shù)據(jù)相同的格式和長(zhǎng)度,這有助于在不需要應(yīng)用修改的情況下,實(shí)現(xiàn)去標(biāo)識(shí)化。A.2.5同態(tài)加密同態(tài)加密是一種隨機(jī)加密。當(dāng)作為去標(biāo)識(shí)化技術(shù)的一部分加以采用時(shí),對(duì)加密數(shù)據(jù)進(jìn)行處理,但是處理過(guò)程不會(huì)泄露任何原始內(nèi)容。同時(shí),擁有密鑰的用戶(hù)對(duì)處理過(guò)的數(shù)據(jù)進(jìn)行解密后,得到的正好是處理后的結(jié)果。同態(tài)加密用加密值替代微數(shù)據(jù)中的標(biāo)識(shí)符值。對(duì)同態(tài)加密技術(shù)的選擇和使用應(yīng)注意以下幾個(gè)方面:a)對(duì)經(jīng)過(guò)同態(tài)加密的數(shù)據(jù)進(jìn)行處理得到一個(gè)輸出,將這一輸出進(jìn)行解密,其結(jié)果與用同一方法處理未加密的原始數(shù)據(jù)得到的輸出結(jié)果是一樣的。b)與傳統(tǒng)的確定性加密方案相比,同態(tài)加密的性能一般較低,存儲(chǔ)成本較高。c)同態(tài)加密方案具有語(yǔ)義上的安全性,使得在不具備訪問(wèn)私鑰權(quán)限時(shí)無(wú)法實(shí)現(xiàn)重標(biāo)識(shí)攻擊。同態(tài)秘密共享可將一個(gè)秘密拆分為“若干份額”,可利用拆分后秘密信息的特定子集來(lái)重構(gòu)原始的秘密,如果對(duì)用于重構(gòu)秘密的所有份額執(zhí)行相同的數(shù)學(xué)運(yùn)算,則其結(jié)果等價(jià)于在原始秘密上執(zhí)行相應(yīng)數(shù)學(xué)運(yùn)算的結(jié)果。當(dāng)作為去標(biāo)識(shí)化技術(shù)的一部分加以采用時(shí),同態(tài)秘密共享可用信息共享算法得出的兩個(gè)或以上若干份額替代數(shù)據(jù)記錄中的任何標(biāo)識(shí)符或敏感屬性。這樣,便可將這些若干份額分配給兩個(gè)或以上的份額持有者。這些份額持有者的數(shù)量通過(guò)秘密共享方案加以確定。有效的同態(tài)秘密共享的特性是,相同份額持有者共享機(jī)密的兩個(gè)值可與加密方案的同態(tài)運(yùn)算相結(jié)合,產(chǎn)生代表原始屬性運(yùn)算結(jié)果的新份額。此外,同態(tài)密鑰共享可與安全的多方計(jì)算相結(jié)合,以便對(duì)去標(biāo)識(shí)化數(shù)據(jù)進(jìn)行任何安全運(yùn)算。同態(tài)密鑰共享并不會(huì)降低數(shù)據(jù)的真實(shí)性。雖然同態(tài)密鑰共享有著相對(duì)低的計(jì)算性能開(kāi)銷(xiāo),但存在與份額持有者之間交換份額的額外開(kāi)銷(xiāo)。共享秘密數(shù)據(jù)的存儲(chǔ)開(kāi)銷(xiāo)是有限的。基于安全多方計(jì)算執(zhí)行的數(shù)據(jù)去標(biāo)識(shí)化的處理技術(shù)是靈活同態(tài)密鑰共享會(huì)產(chǎn)生微數(shù)據(jù)的分布式實(shí)例,該類(lèi)實(shí)例可被同態(tài)運(yùn)算或安全多方計(jì)算技術(shù)處理。同態(tài)加密方案是隨機(jī)的,攻擊者只有控制所有份額持有者才能實(shí)現(xiàn)重標(biāo)識(shí)攻擊。A.3抑制技術(shù)A.3.1概述抑制技術(shù)即對(duì)不滿(mǎn)足隱私保護(hù)的數(shù)據(jù)項(xiàng)刪除,不進(jìn)行發(fā)布。包括從所有記錄中選定的屬性(如屏蔽)、對(duì)所選定的屬性值(例如,局部抑制),或是從數(shù)據(jù)集中選定的記錄(例如,記錄抑制)進(jìn)行的刪除操作。抑制技術(shù)主要適用于分類(lèi)數(shù)據(jù)。抑制技術(shù)可用于防止基于關(guān)聯(lián)規(guī)則推導(dǎo)的攻擊,因?yàn)椴话l(fā)布能最大化降低關(guān)聯(lián)規(guī)則支持度和置信抑制技術(shù)適用于數(shù)值與非數(shù)值數(shù)據(jù)屬性,執(zhí)行相對(duì)比較容易,且可以保持?jǐn)?shù)據(jù)的真實(shí)性。屏蔽技術(shù)包括從數(shù)據(jù)集中刪除整個(gè)直接標(biāo)識(shí)符,或刪除直接標(biāo)識(shí)符的一部分,使其不再是直接標(biāo)識(shí)符也不是唯一標(biāo)識(shí)符。使用屏蔽技術(shù)后,通常還會(huì)對(duì)數(shù)據(jù)集使用其他去標(biāo)識(shí)化技術(shù)。在將屏蔽技術(shù)作為唯一的去標(biāo)識(shí)化技術(shù)的系統(tǒng)中,應(yīng)采取安全措施和組織其他的管理措施去保護(hù)未被識(shí)別的數(shù)據(jù)。a)部分?jǐn)?shù)據(jù)移除:指在屏蔽過(guò)程中不會(huì)刪除所有標(biāo)識(shí)符。b)數(shù)據(jù)隔離:指屏蔽需要有嚴(yán)格的安全措施,以確保對(duì)數(shù)據(jù)集的授權(quán)訪問(wèn),如訪問(wèn)控制和相應(yīng)的合約條款c)數(shù)據(jù)限制:指在有特定目的的環(huán)境中收集數(shù)據(jù)時(shí)進(jìn)行數(shù)據(jù)抑制的情況。局部抑制技術(shù)是一種去標(biāo)識(shí)化技術(shù),即從所選記錄中刪除特定屬性值,該特定屬性值與其他標(biāo)識(shí)符結(jié)合使用可能識(shí)別出相關(guān)個(gè)人信息主體。通常應(yīng)用局部抑制技術(shù)來(lái)移除準(zhǔn)標(biāo)識(shí)符在泛化后仍然出現(xiàn)的稀有值(或這些值的稀有組合)。局部抑制技術(shù)應(yīng)用于分類(lèi)值,而泛化通常應(yīng)用于數(shù)值,其共同目標(biāo)是增加共享其標(biāo)識(shí)符值的記“記錄抑制”是一種從數(shù)據(jù)集中刪除整個(gè)記錄或一些記錄的去標(biāo)識(shí)化技術(shù)。典型應(yīng)用場(chǎng)景為刪除包含稀有屬性(如異常值)組合的記錄。A.3.5注意事項(xiàng)抑制技術(shù)會(huì)導(dǎo)致信息丟失,抑制技術(shù)處理后的數(shù)據(jù)有被重標(biāo)識(shí)的風(fēng)險(xiǎn),因此需要與其他去標(biāo)識(shí)化技術(shù)相結(jié)合以降低數(shù)據(jù)的重標(biāo)識(shí)風(fēng)險(xiǎn)。過(guò)多的抑制會(huì)影響數(shù)據(jù)的效用,所以在具體應(yīng)用時(shí),為保證數(shù)據(jù)的可用性,要對(duì)抑制的數(shù)據(jù)項(xiàng)數(shù)量設(shè)定一個(gè)上限值。在某個(gè)具體應(yīng)用中,需要對(duì)某組織的不同工作年限的薪資水平進(jìn)行分析,原始數(shù)據(jù)集包括{姓名,性出該組織中的一部分員工,因此應(yīng)用抑制技術(shù)刪除職務(wù)屬性;屬性值進(jìn)行泛化處理,如薪水泛化為5000~10000、10000~15000、15000~20000等,工作年限泛化為0~3年、4~6年等;c)如果數(shù)據(jù)記錄中只有1人工作年限為0~3年,薪水為15000~20000,則能夠定位到某個(gè)員A.4假名化技術(shù)假名化技術(shù)是一種使用假名替換直接標(biāo)識(shí)(或其他準(zhǔn)標(biāo)識(shí)符)的去標(biāo)識(shí)化技術(shù)。假名化技術(shù)為每一個(gè)人信息主體創(chuàng)建唯一的標(biāo)識(shí)符,以取代原來(lái)的直接標(biāo)識(shí)或準(zhǔn)標(biāo)識(shí)符。不同數(shù)據(jù)集中的相關(guān)記錄在進(jìn)行假名化處理后依然可以進(jìn)行關(guān)聯(lián),并且不會(huì)泄露個(gè)人信息主體的身份。在使用假名化技術(shù)的過(guò)程中,通常會(huì)使用一些輔助信息。這些輔助信息包括從原始數(shù)據(jù)集中刪除的標(biāo)識(shí)符、假名分配表或密鑰等,采取必要的措施來(lái)保護(hù)這些輔助信息有利于降低重標(biāo)識(shí)風(fēng)險(xiǎn)。假名創(chuàng)建技術(shù)主要包括獨(dú)立于標(biāo)識(shí)符的假名創(chuàng)建技術(shù)和基于密碼技術(shù)的標(biāo)識(shí)符派生假名創(chuàng)建技術(shù)。假名創(chuàng)建技術(shù)的選擇需要考慮以下因素:創(chuàng)建假名的成本、散列函數(shù)的抗碰撞能力以及重標(biāo)識(shí)過(guò)程中假名被還原的手段。獨(dú)立于標(biāo)識(shí)符的假名創(chuàng)建技術(shù)不依賴(lài)于被替代的屬性原始值,而是獨(dú)立生成,典型方法為用隨機(jī)值代替屬性原始值?;诿艽a技術(shù)的標(biāo)識(shí)符派生假名創(chuàng)建技術(shù)通過(guò)對(duì)屬性值采用加密或散列等密碼技術(shù)生成假名,這一過(guò)程也稱(chēng)為對(duì)數(shù)據(jù)集中的屬性進(jìn)行“密鑰編碼”。其中加密技術(shù)生成的假名可以用合適的密鑰及對(duì)應(yīng)的算法解密,而散列技術(shù)是一種單向的數(shù)學(xué)運(yùn)算。A.4.2獨(dú)立于標(biāo)識(shí)符的假名創(chuàng)建獨(dú)立于標(biāo)識(shí)符的假名創(chuàng)建技術(shù)不依賴(lài)于被替代的屬性原始值,而是獨(dú)立生成,典型方法為用隨機(jī)值代替屬性原始值。使用該類(lèi)技術(shù)時(shí)需創(chuàng)建假名與原始標(biāo)識(shí)的分配表。根據(jù)去標(biāo)識(shí)化的目標(biāo),應(yīng)采取適當(dāng)?shù)募夹g(shù)與管理措施限制和控制對(duì)該分配表的訪問(wèn)。例如,使用去標(biāo)識(shí)化后數(shù)據(jù)的應(yīng)用系統(tǒng)禁止訪問(wèn)分配表。A.4.3基于密碼技術(shù)的標(biāo)識(shí)符派生假名創(chuàng)建基于密碼技術(shù)的標(biāo)識(shí)符派生假名創(chuàng)建技術(shù)通過(guò)對(duì)屬性值采用加密或散列等密碼技術(shù)生成假名,這一過(guò)程也稱(chēng)為對(duì)數(shù)據(jù)集中的屬性進(jìn)行“密鑰編碼”。其中加密技術(shù)生成的假名可以用合適的密鑰及對(duì)應(yīng)的算法解密,而散列技術(shù)是一種單向的數(shù)學(xué)運(yùn)算。采用多種密碼技術(shù)的組合可更好地保護(hù)屬性原始值。采用加密方法來(lái)創(chuàng)建假名的計(jì)算成本很高,但非常有效。應(yīng)采取特殊措施來(lái)保護(hù)密鑰,防止密鑰被未授權(quán)訪問(wèn),包括密鑰與數(shù)據(jù)分離,不與第三方共享散列函數(shù)的單向運(yùn)算及抗碰撞能力等特性,使其適用于假名化過(guò)程。但是,當(dāng)散列算法和所用密鑰是已知的,且有可能遍歷散列函數(shù)生成數(shù)值空間時(shí),散列函數(shù)是可逆的。因此使用密鑰散列函數(shù)時(shí)可增加另一隨機(jī)輸入,增強(qiáng)其對(duì)抗暴力搜索攻擊的能力,防止未經(jīng)授權(quán)的重標(biāo)識(shí)。即使采用了安全的散列技術(shù),如果在使用或執(zhí)行散列算法中發(fā)生了疏忽,或未經(jīng)授權(quán)共享密鑰,均可能導(dǎo)致數(shù)據(jù)的重標(biāo)識(shí)。A.4.4注意事項(xiàng)如果采用恰當(dāng)?shù)姆绞綐?gòu)建假名與原始標(biāo)識(shí)的分配表,并能對(duì)分配表和分配技術(shù)加以保護(hù),則能夠有效地降低數(shù)據(jù)的重標(biāo)識(shí)風(fēng)險(xiǎn)。采用多個(gè)原始標(biāo)識(shí)符對(duì)應(yīng)一個(gè)假名的分配表比采用一一對(duì)應(yīng)的分配表能夠更加有效降低重標(biāo)識(shí)風(fēng)險(xiǎn)。加密技術(shù)通常是一一對(duì)應(yīng)的分配技術(shù);散列技術(shù)由于碰撞性的存在,通常是多對(duì)一的分配技術(shù);采用純隨機(jī)的方式構(gòu)建分配表通常也是多對(duì)一的。采用多個(gè)原始標(biāo)識(shí)符對(duì)應(yīng)一個(gè)假名的分配表方法和分配技術(shù),會(huì)導(dǎo)致在以標(biāo)識(shí)符為統(tǒng)計(jì)對(duì)象的數(shù)據(jù)分析結(jié)果失真,從而降低數(shù)據(jù)的有用性。加密技術(shù)能夠還原標(biāo)識(shí)符,在需要還原原始標(biāo)識(shí)符的情況下采用該技術(shù)。在某個(gè)具體的應(yīng)用中,需要從外部某數(shù)據(jù)庫(kù)中抽取包含人名的有效數(shù)據(jù)以供分析,采用如下步驟進(jìn)行去標(biāo)識(shí)化:a)構(gòu)建常用人名字典表。b)制定人名與假名的分配技術(shù)。分配技術(shù)采用純隨機(jī)方式,對(duì)于每一個(gè)標(biāo)識(shí)符(人名),隨機(jī)生成一個(gè)不小于1并且不大于200c)使用字典表和分配技術(shù),完成對(duì)人名的去標(biāo)識(shí)化。在去標(biāo)識(shí)過(guò)程中,在遇到人名“辛培軍”時(shí),隨機(jī)生成了數(shù)5,則使用字典中的排列第5的名字該示例使用隨機(jī)方式構(gòu)建分配規(guī)則,采用了多對(duì)一的方式,在保留適當(dāng)可用性的同時(shí),降低了數(shù)據(jù)的重標(biāo)識(shí)風(fēng)險(xiǎn)。A.5泛化技術(shù)A.5.1概述泛化技術(shù)是指一種降低數(shù)據(jù)集中所選屬性粒度的去標(biāo)識(shí)化技術(shù),對(duì)數(shù)據(jù)進(jìn)行更概括、抽象的描述。泛化技術(shù)實(shí)現(xiàn)簡(jiǎn)單,能保護(hù)記錄級(jí)數(shù)據(jù)的真實(shí)性。使用泛化技術(shù)的目標(biāo)是減少屬性唯一值(更概括地說(shuō),是指多個(gè)屬性值的組合集的唯一值)的數(shù)量,使得被泛化后的值(或多個(gè)值的集合)被數(shù)據(jù)集中多個(gè)記錄所共享,從而增加某特定個(gè)人信息主體被推測(cè)出的難度。因此,通常選擇對(duì)標(biāo)識(shí)符屬性進(jìn)行泛化,但是根據(jù)具體情況也可考慮對(duì)任何屬性(特別是敏感屬性)進(jìn)行泛化。A.5.2取整取整涉及為所選的屬性選定一個(gè)取整基數(shù),然后將每個(gè)值向上或向下取整至最接近取整基數(shù)的倍數(shù)。向上還是向下取整按概率確定,該概率值取決于觀察值與最接近取整基數(shù)倍數(shù)的接近程度。例如,如果取整基數(shù)為10,觀察值為7,應(yīng)將7向上取整至10,概率為0.7,若向下取整至0,概率為0.3。受控取整也是可行的,例如確保取整值的求和結(jié)果與原始數(shù)據(jù)的求和取整值相同。A.5.3頂層與底層編碼泛化技術(shù)為某一屬性設(shè)定一個(gè)可能的最大(或最小)閾值。頂層與底層編碼技術(shù)使用表示頂層(或底層)的閾值替換高于(或低于)該閾值的值。該技術(shù)適用于連續(xù)或分類(lèi)有序的屬性。例如,如果一個(gè)人的薪水非常高,則可將該用戶(hù)的薪水值設(shè)置為“高于X元”,其中“X”為高收入值的界限,而不記錄或報(bào)告準(zhǔn)確的金額。A.6隨機(jī)化技術(shù)A.6.1概述隨機(jī)化技術(shù)作為一種去標(biāo)識(shí)化技術(shù)類(lèi)別,指通過(guò)隨機(jī)化修改屬性的值,使得隨機(jī)化處理后的值區(qū)別于原來(lái)的真實(shí)值。該過(guò)程降低了攻擊者從同一數(shù)據(jù)記錄中根據(jù)其他屬性值推導(dǎo)出某一屬性值的能力。隨機(jī)化技術(shù)并不能保證數(shù)據(jù)在記錄集的真實(shí)性。為達(dá)到特定的目標(biāo),有效隨機(jī)化過(guò)程需要逐項(xiàng)定制,定制過(guò)程中需要詳細(xì)了解數(shù)據(jù)特性,并選取合適的參數(shù)。隨機(jī)化技術(shù)的輸出為微數(shù)據(jù)。A.6.2噪聲添加噪聲添加是一種隨機(jī)化技術(shù),通過(guò)添加隨機(jī)值、“隨機(jī)噪聲”到所選的連續(xù)屬性值中來(lái)修改數(shù)據(jù)集,同時(shí)盡可能保持該屬性在數(shù)據(jù)集中的原始統(tǒng)計(jì)特性。該類(lèi)統(tǒng)計(jì)特性包括屬性的分布、平均值、方差、標(biāo)準(zhǔn)偏差、協(xié)方差以及相關(guān)性。A.6.3置換置換是在不修改屬性值的情況下對(duì)數(shù)據(jù)集記錄中所選屬性的值進(jìn)行重新排序的一種技術(shù)。因此,置換保持了整個(gè)數(shù)據(jù)集中所選屬性的準(zhǔn)確統(tǒng)計(jì)分布。置換技術(shù)適用于數(shù)字與非數(shù)字值。因?yàn)橛^察到的不一致性可能有助于對(duì)置換算法實(shí)施逆向工程,需要考慮如何來(lái)確保生成的數(shù)據(jù)集是一致的。不同置換技術(shù)的區(qū)別在于方法與復(fù)雜性的差別。在保持所選屬性之間原有相關(guān)性的情況下,置換算法可用于單個(gè)或多個(gè)屬性。通常情況下,采用逆向工程可以將數(shù)據(jù)恢復(fù)到原始狀態(tài),從而加大受控重標(biāo)識(shí)的可能性,因此把隨機(jī)化算法引入到置換中會(huì)增強(qiáng)對(duì)抗重標(biāo)識(shí)攻擊的能力。“微聚集”是指用某種算法方式計(jì)算出來(lái)的平均值代替連續(xù)屬性所有值的去標(biāo)識(shí)化技術(shù)。對(duì)于每種連續(xù)屬性,或?qū)τ谒x的一組連續(xù)屬性,數(shù)據(jù)集中的所有記錄都進(jìn)行了分組,具有最近屬性值的記錄屬于同一組,而且每一組中至少有k個(gè)記錄。每一種屬性的新值替換為該屬性所在組中的平均值。每組中的各個(gè)值越接近,數(shù)據(jù)的有效性就保持得越好。微聚集的輸出是微數(shù)據(jù),該技術(shù)不能保證數(shù)據(jù)的真實(shí)性。微聚集技術(shù)的不同之處在于:選擇的屬性、屬性值之間的相似性計(jì)算方式以及其他考慮因素。數(shù)據(jù)合成是一種以人工方式產(chǎn)生微數(shù)據(jù)的方法,用以表示預(yù)定義的統(tǒng)計(jì)數(shù)據(jù)模型。對(duì)數(shù)據(jù)合成技術(shù)的選擇和使用應(yīng)注意以下幾個(gè)方面:a)合成數(shù)據(jù)集與原始數(shù)據(jù)特性相符,但不包含現(xiàn)有個(gè)人信息主體有關(guān)的任何數(shù)據(jù),但是,若合成后的數(shù)據(jù)與原始數(shù)據(jù)的擬合度過(guò)高可能會(huì)導(dǎo)致敏感信息泄露。b)創(chuàng)建合成數(shù)據(jù)的方法很多。理論上,數(shù)據(jù)可根據(jù)所選的統(tǒng)計(jì)特性隨機(jī)生成。該類(lèi)模型的關(guān)鍵特征主要體現(xiàn)在每種屬性(總體與子總體)的分布以及屬性之間的內(nèi)部關(guān)系。實(shí)際上,合成數(shù)據(jù)的生成會(huì)采用隨機(jī)化技術(shù)與抽樣技術(shù)對(duì)真實(shí)數(shù)據(jù)集進(jìn)行多次或連續(xù)轉(zhuǎn)換。合成數(shù)據(jù)通常用于測(cè)試工具與應(yīng)用。c)合成數(shù)據(jù)可用于開(kāi)發(fā)查詢(xún)。合成數(shù)據(jù)可用作真實(shí)數(shù)據(jù)的替代項(xiàng):數(shù)據(jù)管理者能在實(shí)際數(shù)據(jù)中重現(xiàn)在合成數(shù)據(jù)中執(zhí)行的查詢(xún),以確?;诤铣蓴?shù)據(jù)的處理能夠同樣正確應(yīng)用于真實(shí)數(shù)據(jù)。利用差分隱私機(jī)制可以保證合成數(shù)據(jù)的隱私。(資料性附錄)常用去標(biāo)識(shí)化模型B.1K-匿名模型B.1.1概述K-匿名模型是在發(fā)布數(shù)據(jù)時(shí)保護(hù)個(gè)人信息安全的一種模型。K-匿名模型要求發(fā)布的數(shù)據(jù)中,指定標(biāo)識(shí)符(直接標(biāo)識(shí)符或準(zhǔn)標(biāo)識(shí)符)屬性值相同的每一等價(jià)類(lèi)至少包含K個(gè)記錄,使攻擊者不能判別出個(gè)人信息所屬的具體個(gè)體,從而保護(hù)了個(gè)人信息安全。在使用K-匿名模型整合得到的數(shù)據(jù)集中,各記錄之間的關(guān)聯(lián)性是有限的(1/K)??瑟?dú)立或綜合使用附錄A中的各種去標(biāo)識(shí)化技術(shù),以符合K-匿名模型的要求。抑制技術(shù)、泛化技術(shù)及微聚集均適用于數(shù)據(jù)集中的各種屬性,以實(shí)現(xiàn)期望的結(jié)果。K-匿名模型還包括一些增強(qiáng)概念,如L-多樣性和T-接近性。B.1.2L-多樣性L-多樣性是針對(duì)屬性值差異性不大的數(shù)據(jù)集提出的一種增強(qiáng)概念。為防止確定性推導(dǎo),L-多樣性要求在K-匿名的基礎(chǔ)上,實(shí)現(xiàn)每一等價(jià)類(lèi)在每一敏感屬性上存在至少L個(gè)不同值。在數(shù)據(jù)分布很不均衡時(shí),防止推導(dǎo)性攻擊的能力受到限制。B.1.3T-接近性T-接近性是L-多樣性的增強(qiáng)概念,適用于發(fā)布數(shù)據(jù)集的敏感屬性分布要盡可能貼近整個(gè)數(shù)據(jù)集的敏感屬性分布。針對(duì)屬性值分布不規(guī)則、屬性值范圍很小或已被分類(lèi)的數(shù)據(jù)集,為防止概率性推導(dǎo),要求任何等價(jià)類(lèi)中敏感屬性的分布與整個(gè)數(shù)據(jù)集中相應(yīng)屬性的分布之間的距離小于閾值T。B.1.4.1數(shù)據(jù)風(fēng)險(xiǎn)度量數(shù)據(jù)集的重標(biāo)識(shí)風(fēng)險(xiǎn)度量包括如下兩個(gè)關(guān)鍵因素:a)每行記錄重標(biāo)識(shí)概率的計(jì)算方法數(shù)據(jù)集中的每一行都包含有關(guān)個(gè)體的信息,存在重標(biāo)識(shí)的概率。對(duì)于給定的行,重標(biāo)識(shí)的概率取決于數(shù)據(jù)集中其他行對(duì)于準(zhǔn)標(biāo)識(shí)符的屬性是否具有相同的值。數(shù)據(jù)集中的“等價(jià)類(lèi)”是指具有與準(zhǔn)標(biāo)識(shí)符屬性相同值的數(shù)據(jù)記錄行。例如,在具有性別、年齡和最高教育水平的屬性列的數(shù)據(jù)集中,所有滿(mǎn)足“35歲以上且具有大專(zhuān)學(xué)位的老年男子”的數(shù)據(jù)記錄,形成一個(gè)等價(jià)類(lèi)。等價(jià)類(lèi)的大小等于準(zhǔn)標(biāo)識(shí)符具有相同值的行數(shù)。對(duì)于每一行,重標(biāo)識(shí)的概率等于1除以其等價(jià)類(lèi)的大小,即,給定記錄行重標(biāo)識(shí)概率=1/等價(jià)類(lèi)大小。例如,大小為5的等價(jià)類(lèi)中的每一行都有重標(biāo)識(shí)的概率為0.2。因此,具有較大等價(jià)類(lèi)的行,具有較低的重標(biāo)識(shí)概率。b)根據(jù)所使用的發(fā)布模型采用適當(dāng)?shù)娘L(fēng)險(xiǎn)衡量方法雖然每行記錄重標(biāo)識(shí)的概率等于1除以其等價(jià)類(lèi)的大小,但是具體的計(jì)算數(shù)據(jù)集中重標(biāo)識(shí)風(fēng)險(xiǎn)的方法,取決于具體使用的發(fā)布模型。公開(kāi)共享數(shù)據(jù)發(fā)布應(yīng)使用最大風(fēng)險(xiǎn)。因?yàn)閷?duì)于公開(kāi)數(shù)據(jù)發(fā)布,應(yīng)假設(shè)有攻擊者會(huì)進(jìn)行炫耀式攻擊。該類(lèi)攻擊將針對(duì)數(shù)據(jù)集中最脆弱的行,即具有最小等價(jià)類(lèi)和最高重標(biāo)識(shí)概率的數(shù)據(jù)行。因此,應(yīng)使用所有行中重標(biāo)識(shí)的最大概率來(lái)衡量重標(biāo)識(shí)風(fēng)險(xiǎn)。受控共享數(shù)據(jù)發(fā)布應(yīng)使用嚴(yán)格的平均風(fēng)險(xiǎn)。受控共享數(shù)據(jù)發(fā)布數(shù)據(jù)集的訪問(wèn)僅限于選定數(shù)量的已鑒別信息接收方,每行數(shù)據(jù)的重標(biāo)識(shí)概率是均等的,應(yīng)使用所有行中重標(biāo)識(shí)的平均概率來(lái)衡量數(shù)據(jù)集中重標(biāo)識(shí)風(fēng)險(xiǎn)。為了保護(hù)具有高度重標(biāo)識(shí)風(fēng)險(xiǎn)的獨(dú)特行或等價(jià)類(lèi),平均值通常建議為0.33,即數(shù)據(jù)集中等價(jià)類(lèi)的最小尺寸應(yīng)為3。實(shí)際使用時(shí)重標(biāo)識(shí)的最大概率也可以定為B.1.4.2環(huán)境風(fēng)險(xiǎn)度量重標(biāo)識(shí)風(fēng)險(xiǎn)會(huì)受到環(huán)境風(fēng)險(xiǎn)的影響。環(huán)境風(fēng)險(xiǎn)是針對(duì)數(shù)據(jù)集發(fā)起一次或多次重標(biāo)識(shí)攻擊的概率。任何去標(biāo)識(shí)化的數(shù)據(jù)集中都存在重標(biāo)識(shí)風(fēng)險(xiǎn),然而依據(jù)數(shù)據(jù)發(fā)布模型的不同,攻擊者可實(shí)施攻擊類(lèi)型也是不同的。a)公開(kāi)共享數(shù)據(jù)發(fā)布該類(lèi)數(shù)據(jù)發(fā)布模型中,數(shù)據(jù)集可供任何人使用,無(wú)需任何條件,會(huì)有攻擊者進(jìn)行炫耀式攻擊。因此,攻擊者對(duì)數(shù)據(jù)集進(jìn)行重標(biāo)識(shí)攻擊的概率為1。b)受控共享數(shù)據(jù)發(fā)布該類(lèi)數(shù)據(jù)發(fā)布模型中,環(huán)境風(fēng)險(xiǎn)的計(jì)算相對(duì)復(fù)雜,需重點(diǎn)確定可能的重標(biāo)識(shí)攻擊概率的方法和對(duì)于受控共享數(shù)據(jù)發(fā)布,需確定三種不同的重標(biāo)識(shí)攻擊的概率:內(nèi)部故意攻擊、來(lái)自熟悉的數(shù)在衡量環(huán)境風(fēng)險(xiǎn)時(shí),應(yīng)取上述概率的最大值。1)內(nèi)部故意攻擊對(duì)于受控共享數(shù)據(jù)集數(shù)據(jù)接受者,發(fā)起重標(biāo)識(shí)的概率取決于兩個(gè)因素:數(shù)據(jù)共享協(xié)議中關(guān)于數(shù)據(jù)隱私和安全性的控制范圍;接收方進(jìn)行重標(biāo)識(shí)攻擊的動(dòng)機(jī)和能力。這兩個(gè)因素都根據(jù)受控共享數(shù)據(jù)發(fā)布的數(shù)據(jù)共享協(xié)議,依據(jù)不同的隱私和安全控制規(guī)定,信息接收方發(fā)起身份驗(yàn)證攻擊的可能性會(huì)有所不同。隱私和安全控制水平越高,重標(biāo)識(shí)攻擊的可能性就越低。數(shù)據(jù)共享協(xié)議中需考慮隱私和安全控制,具體內(nèi)容包括:——信息接收方僅允許授權(quán)員工以最小權(quán)限方式訪問(wèn)和使用數(shù)據(jù);——包括外部合作者和分包商在內(nèi)的所有工作人員都需要簽署保密協(xié)議;——采取措施處置指定保留期限外的數(shù)據(jù);——如果沒(méi)有必要的控制或事先審批,數(shù)據(jù)將不能開(kāi)放或與第三方共享;——制定隱私安全策略和規(guī)程,并監(jiān)督執(zhí)行;——對(duì)包括外部合作或分包場(chǎng)所涉及的人員在內(nèi)的所有個(gè)人和團(tuán)隊(duì)成員進(jìn)行強(qiáng)制性和持續(xù)的隱私保護(hù)培訓(xùn)和安全培訓(xùn);——應(yīng)有應(yīng)對(duì)違反隱私協(xié)議的必要措施,可能的措施包括立即向數(shù)據(jù)保管人發(fā)出書(shū)面 安裝病毒檢查和反惡意軟件程序;——使用加密協(xié)議對(duì)需要傳輸?shù)臄?shù)據(jù)進(jìn)行處理;——信息披露相關(guān)的計(jì)算機(jī)和文件需要被妥善保管,例如用組合門(mén)鎖或智能門(mén)卡等方式保護(hù)存放相關(guān)計(jì)算機(jī)的房間,紙質(zhì)文件存儲(chǔ)在密碼存儲(chǔ)柜中。確定信息接收方發(fā)起重標(biāo)識(shí)攻擊可能性的另一個(gè)主要因素是他們的動(dòng)機(jī)和能力。信息接收方對(duì)于數(shù)據(jù)集中的一個(gè)或多個(gè)個(gè)體重標(biāo)識(shí)的動(dòng)機(jī)越大,能力越強(qiáng),實(shí)施重標(biāo)識(shí)攻擊的概率就越高。評(píng)估動(dòng)機(jī)和能力時(shí),需要考慮以下因素:●信息接收方在與組織合作中是否發(fā)生過(guò)安全事故;●信息接收方是否存在財(cái)務(wù)或其他方面的原因,從而發(fā)起重標(biāo)識(shí)攻擊;●信息接收方是否具有相關(guān)技術(shù)專(zhuān)長(zhǎng)或經(jīng)濟(jì)能力,以發(fā)起重標(biāo)識(shí)攻擊;●信息接收方是否曾經(jīng)訪問(wèn)可以關(guān)聯(lián)到實(shí)施重標(biāo)識(shí)攻擊數(shù)據(jù)的其他隱私數(shù)據(jù)庫(kù)或數(shù)根據(jù)數(shù)據(jù)共享協(xié)議中的隱私和安全控制水平,以及接收者的動(dòng)機(jī)和能力,可以估計(jì)內(nèi)部人員發(fā)起重標(biāo)識(shí)攻擊的可能性。具體如表B.1所示。表B.1重標(biāo)識(shí)攻擊的可能性分析表隱私和安全控制水平動(dòng)機(jī)和能力重標(biāo)識(shí)攻擊概率高低中高中低中高低低中高2)熟悉數(shù)據(jù)集的內(nèi)部人無(wú)意識(shí)重標(biāo)識(shí)除了故意發(fā)起重標(biāo)識(shí)攻擊,受控共享數(shù)據(jù)發(fā)布的接收方也可能無(wú)意中重標(biāo)識(shí)一個(gè)或多個(gè)擊”的概率等于隨機(jī)接收者在數(shù)據(jù)集中知道某人的概率,該概率的計(jì)算公式是:p——所有人中具有數(shù)據(jù)集中討論的條件或特征的個(gè)體的百分比;m——認(rèn)識(shí)的平均人數(shù)。p的值應(yīng)由最近的人口統(tǒng)計(jì)確定;建議m的平均值應(yīng)在150~190之間。3)數(shù)據(jù)泄露在受控共享數(shù)據(jù)發(fā)布的情況下,需考慮的第三種攻擊是接收方的數(shù)據(jù)泄露。如果信息接收方的設(shè)施發(fā)生數(shù)據(jù)泄露,應(yīng)假設(shè)外部攻擊者將發(fā)起重標(biāo)識(shí)攻擊。因此,發(fā)生這種攻擊的概率等于信息接收方設(shè)施發(fā)生信息泄露的概率。應(yīng)使用公開(kāi)的數(shù)據(jù)來(lái)了解各行業(yè)信息接收方發(fā)生數(shù)據(jù)泄露的情況。B.1.4.3總體風(fēng)險(xiǎn)度量總體風(fēng)險(xiǎn)表示數(shù)據(jù)集中一行或多行數(shù)據(jù)被重標(biāo)識(shí)攻擊概率。根據(jù)數(shù)據(jù)風(fēng)險(xiǎn)和環(huán)境風(fēng)險(xiǎn),可以計(jì)算出重標(biāo)識(shí)的總體風(fēng)險(xiǎn)。例如總體風(fēng)險(xiǎn)等于數(shù)據(jù)風(fēng)險(xiǎn)乘以環(huán)境風(fēng)險(xiǎn)。B.2差分隱私模型B.2.1概述差分隱私是針對(duì)數(shù)據(jù)隱私泄露問(wèn)題提出的一種隱私定義,可以用來(lái)在數(shù)據(jù)采集、數(shù)據(jù)處理和數(shù)據(jù)發(fā)布中對(duì)數(shù)據(jù)集的隱私損失進(jìn)行度量。差分隱私確保數(shù)據(jù)集中任何特定的個(gè)人信息主體的存在與否無(wú)法從去標(biāo)識(shí)化數(shù)據(jù)集或系統(tǒng)響應(yīng)中推導(dǎo)出。即使攻擊者能夠訪問(wèn)其他相關(guān)的數(shù)據(jù)集,只要隱私損失限定在一定范圍內(nèi),這些保證就會(huì)得到保持。差分隱私提供:a)隱私數(shù)學(xué)定義,在該定義下,數(shù)據(jù)集的處理結(jié)果對(duì)單一記錄的變化不敏感,單一記錄添加到數(shù)據(jù)集或從數(shù)據(jù)集中刪除,對(duì)計(jì)算結(jié)果的統(tǒng)計(jì)特性影響極小,所產(chǎn)生的隱私泄露風(fēng)險(xiǎn)被控制在可接受范圍內(nèi)。b)隱私度量方法,可以監(jiān)控累積的隱私損失并設(shè)置損失限制的“預(yù)算”。差分隱私機(jī)制在數(shù)據(jù)集的處理結(jié)果上添加了一定量的“噪聲”,該噪聲通過(guò)精心選擇的概率分布產(chǎn)生。隨機(jī)噪聲既可在采集點(diǎn)(本地模式)添加至每一個(gè)人信息主體信息的輸入中,也可以添加至差分隱私系統(tǒng)向分析者(服務(wù)器模式)提供的輸出中。B.2.2服務(wù)器模式差分隱私“服務(wù)器模式”通常會(huì)將數(shù)據(jù)以原始值保存在安全的數(shù)據(jù)庫(kù)中。為了保護(hù)隱私,對(duì)查詢(xún)的響應(yīng)僅能從軟件組件獲得。軟件組件會(huì)接受系統(tǒng)用戶(hù)或報(bào)表軟件的查詢(xún),并從數(shù)據(jù)庫(kù)獲得正確的無(wú)噪聲回答。但是,在對(duì)用戶(hù)或報(bào)表軟件做出響應(yīng)前,軟件組件會(huì)添加一定量的隨機(jī)噪聲,且該噪聲與查詢(xún)所對(duì)應(yīng)的隱私損失成軟件組件負(fù)責(zé)持續(xù)記錄累積的隱私損失并確保該損失不超出隱私預(yù)算。一旦隱私預(yù)算耗盡,軟件組件應(yīng)針對(duì)系統(tǒng)建立逐項(xiàng)定義的策略來(lái)確定是停止響應(yīng)查詢(xún),還是采取其他措施。B.2.3本地模式本地模式適用于執(zhí)行數(shù)據(jù)采集的實(shí)體不受個(gè)人信息主體信任,或采集數(shù)據(jù)的實(shí)體正尋求降低風(fēng)險(xiǎn)并執(zhí)行數(shù)據(jù)最小化的情形。在該模型中,首先對(duì)屬于單個(gè)個(gè)人信息主體的數(shù)據(jù)或數(shù)據(jù)的計(jì)算結(jié)果進(jìn)行隨機(jī)化,以便對(duì)數(shù)據(jù)進(jìn)行去標(biāo)識(shí)化,然后才將其轉(zhuǎn)移至并存儲(chǔ)在服務(wù)器中。特定概率分布生成一個(gè)隨機(jī)量,并添加到每一單獨(dú)的數(shù)據(jù)或從屬于個(gè)人信息主體的數(shù)據(jù)測(cè)量的結(jié)果中,以便在采集點(diǎn)對(duì)數(shù)據(jù)進(jìn)行隨機(jī)化。當(dāng)源自大量設(shè)備的隨機(jī)化數(shù)據(jù)聚合并用于采集點(diǎn)的統(tǒng)計(jì)分析時(shí),分析結(jié)果會(huì)緊密與總體的集體行為相關(guān)。由于噪聲在傳輸前被添加,因此在很多實(shí)例中,源自主體的數(shù)據(jù)報(bào)告會(huì)存儲(chǔ)在服務(wù)器中,無(wú)需采取其他隱私保護(hù)措施,而且產(chǎn)生的數(shù)據(jù)庫(kù)可直接共享并進(jìn)行查詢(xún),無(wú)需管理者參與。B.2.4差分隱私系統(tǒng)的關(guān)鍵考慮因素B.2.4.1概率分布在差分隱私的環(huán)境下,隨機(jī)噪聲采取隨機(jī)數(shù)的形式,隨機(jī)數(shù)根據(jù)所選的概率分布生成。可選的概率分布包括零均值的高斯分布、拉普拉斯分布或指數(shù)概率分布。以拉普拉斯分布為例,決定噪聲生成器產(chǎn)生噪聲高低的參數(shù)是標(biāo)準(zhǔn)差,與S/e成正比,其中S表示給定查詢(xún)的敏感度,而ε則表示相關(guān)的隱私預(yù)算。B.2.4.2敏感度給定查詢(xún)或函數(shù)的敏感度S描述了增加、刪除、修改一個(gè)個(gè)人信息主體時(shí)該查詢(xún)或函數(shù)的返回結(jié)果最多會(huì)改變多少的情況。為了“隱藏”帶來(lái)變化的個(gè)人信息主體,需要將一定比例的噪聲添加至該特殊查詢(xún)或函數(shù)的所有返回結(jié)果中。B.2.4.3隱私預(yù)算隱私預(yù)算ε是差分隱私系統(tǒng)設(shè)計(jì)的一個(gè)參數(shù)。以拉普拉斯噪聲為例,由于噪聲的標(biāo)準(zhǔn)差與S/e成正比,則ε越大,標(biāo)準(zhǔn)差越小,隱私預(yù)算開(kāi)銷(xiāo)越較小的e會(huì)增加標(biāo)準(zhǔn)差,從而增加了較大噪聲值添加至實(shí)際結(jié)果中的概率,因此提供了更大程度的隱私保護(hù)。B.2.4.4累積隱私損失差分隱私算法對(duì)其應(yīng)答的每次查詢(xún)會(huì)產(chǎn)生隱私成本或隱私損失。在精心設(shè)計(jì)的差分隱私算法中,單次查詢(xún)損失可以足夠小,不使隱私受到侵犯,但這些損失的累積效應(yīng)最終會(huì)導(dǎo)致對(duì)隱私的侵犯。為了計(jì)算隱私預(yù)算中發(fā)生的變化,需對(duì)從多次查詢(xún)中累積損失的概念進(jìn)行規(guī)定。例如在差分隱私算法中出現(xiàn)了含有相似隱私成本C的n次查詢(xún),則總體隱私預(yù)算開(kāi)銷(xiāo)將不高于nC。就可能利用算法輸出并運(yùn)用推導(dǎo)、關(guān)聯(lián)及其他類(lèi)型的重標(biāo)識(shí)技術(shù)實(shí)施攻擊,可能會(huì)導(dǎo)致重標(biāo)識(shí)攻擊的成功實(shí)施。B.2.5差分隱私去標(biāo)識(shí)化示例B.2.5.1概述差分隱私模型的以下特性導(dǎo)致其在實(shí)際應(yīng)用中魯棒性更強(qiáng):●攻擊者背景知識(shí)無(wú)關(guān)性:攻擊者擁有的背景知識(shí)和計(jì)算能力不會(huì)影響隱私保護(hù)程度,即使攻擊者獲得數(shù)據(jù)集中除某條記錄外的所有記錄,仍然無(wú)法得知這條數(shù)據(jù)是否存在于數(shù)據(jù)集中;●隱私預(yù)算可組合性:如果用保證程度分別為ε?和ε?的差分隱私來(lái)回應(yīng)給定數(shù)據(jù)集的兩個(gè)查詢(xún),則該對(duì)查詢(xún)提供的隱私保護(hù)程度為(ε?+ε?);●后期處理的安全性:該模型不會(huì)限制差分隱私結(jié)果的用途,即無(wú)論差分隱私結(jié)果與什么結(jié)合或●噪聲量與數(shù)據(jù)集大小無(wú)關(guān)性:隱私保護(hù)所添加的噪聲量不隨數(shù)據(jù)集的增大而增加,所以差分隱私保護(hù)僅通過(guò)添加與數(shù)據(jù)集大小無(wú)關(guān)的少量噪聲,就能達(dá)到高級(jí)別的隱私保護(hù);●數(shù)據(jù)分布特性保持性:對(duì)數(shù)據(jù)集實(shí)施差分隱私保護(hù)機(jī)制時(shí),雖然對(duì)數(shù)據(jù)集加入了噪聲,但是數(shù)據(jù)集的分布特性仍能保持。下面以醫(yī)療患者的直方圖發(fā)布為例對(duì)差分隱私模型的使用進(jìn)行示例說(shuō)明。第一步,獲取原始輸入數(shù)據(jù)集H={h?,h?,…,h。},如表B.2所示,它表示的是個(gè)人信息的原始數(shù)心臟病人數(shù)心臟病人數(shù)姓名年齡心臟病AliceNoDaveEmily該示例的無(wú)噪聲直方圖如圖B.1所示。該處的輸入數(shù)據(jù)集為H={2,1,3,4,3,4}。發(fā)布如圖B.1所示的直方圖會(huì)導(dǎo)致表B.1中個(gè)人隱私泄露。例如,假設(shè)攻擊者事前知道Dave的年齡為46歲,但不知道他是否有心臟病。如果攻擊者通過(guò)背景知識(shí)獲知桶[40,50]中除Dave之外其他人的病況(例如心臟病人數(shù)為2),通過(guò)直方圖的桶[40,50]計(jì)數(shù)為3,能夠推斷出Dave有心臟病。第二步,定義差分隱私預(yù)算ε:引入噪聲與該值成反比。該值越小,引入的噪聲越大,因此隱私保護(hù)任意給定兩個(gè)鄰近數(shù)據(jù)集D和D',D和D'屬性結(jié)構(gòu)相同且最多有一條不同的記錄,若隨機(jī)算法M,值域?yàn)閞ange(M),在D和D'上的輸出集O(O∈range(M)),若滿(mǎn)足如下概率公式,則稱(chēng)算法M滿(mǎn)足e-差分隱私。P[M(D)=O]≤exp(e)×P[M(D')=O]第三步,計(jì)算數(shù)據(jù)集的敏感度S,敏感度是指刪除數(shù)據(jù)集中任一記錄對(duì)查詢(xún)結(jié)果造成的最大改變,其計(jì)算公式如下:對(duì)于差別至多為一個(gè)記錄的兩個(gè)數(shù)據(jù)集D和D',對(duì)于某查詢(xún)函數(shù)f的全局敏感度S為:敏感度的數(shù)據(jù)一般都比較小,且敏感度只是函數(shù)f的性質(zhì)之一,與數(shù)據(jù)集無(wú)關(guān)。在該示例中,S的值為1,它表示刪除或添加一條記錄,最多影響直方圖中1個(gè)桶的統(tǒng)計(jì)情況,例如刪除表B.1中的Alice記錄,只影響桶[30,40心臟病人數(shù)心臟病人數(shù)查詢(xún)結(jié)果隨機(jī)化。常用的噪聲添加機(jī)制為拉普拉斯機(jī)制和指數(shù)機(jī)制,其中輸出結(jié)果為數(shù)值時(shí)采用拉普拉斯機(jī)制,輸出結(jié)果為非數(shù)值時(shí)采用指數(shù)機(jī)制。拉普拉斯機(jī)制的計(jì)算公式如下:對(duì)于數(shù)據(jù)集D上的任意一個(gè)函數(shù)f:D→R?,d表示函數(shù)f的輸出維度,若隨機(jī)算法M滿(mǎn)足如下M(D)=f(D)+Lap(S/e)其中,e是隱私預(yù)算參數(shù),S是函數(shù)f的全指數(shù)機(jī)制的計(jì)算公式具體如下:設(shè)隨機(jī)算法M輸入為數(shù)據(jù)集D,輸出為實(shí)體對(duì)象r∈range(M),q(D,r)為可用性函數(shù),S為函數(shù)q(D,r)的敏感度。若算法M以正比于exp(e×q(D,r)/2S)的概率從range(M)中選擇并輸出r,那么此處采用拉普拉斯機(jī)制分別對(duì)直方圖中的每個(gè)桶的值添加拉普拉斯噪聲,對(duì)桶的真實(shí)值進(jìn)行擾動(dòng),則對(duì)每個(gè)桶通過(guò)添加拉斯噪聲后的數(shù)據(jù)集為H'={h?',hz',…,h。'},其中:h?1=h?+Lap(S/e),h?'=h?+Lap(S/e),…,hu'=h+Lap(S/e)。因?yàn)镾=1,所以h?'=h?+Lap(1/e),h?'=h?+Lap(1/e),…,h。'=h,+Lap(1/e)。第五步,發(fā)布增加噪聲后的數(shù)據(jù)集H',如圖B.2所示。依據(jù)如圖B.2所示的直方圖,攻擊者在事前知道Dave的年齡為46歲,同時(shí)獲得了桶[40,50]中除Dave之外其他人的病況(例如心臟病人數(shù)為2),通過(guò)直方圖的桶[40,50]計(jì)數(shù)5,已經(jīng)不能推斷出Dave是否有心臟病。圖B.2差分隱私機(jī)制下的直方圖(資料性附錄)去標(biāo)識(shí)化模型和技術(shù)的選擇C.1常用去標(biāo)識(shí)化技術(shù)和模型的特性常用去標(biāo)識(shí)化技術(shù)和模型的特性見(jiàn)表C.1。表C.1常用去標(biāo)識(shí)化技術(shù)和模型的特性類(lèi)別子類(lèi)輸出數(shù)據(jù)類(lèi)型數(shù)據(jù)記錄級(jí)保真性適用數(shù)據(jù)類(lèi)型適用屬性類(lèi)型降低分離風(fēng)險(xiǎn)降低關(guān)聯(lián)風(fēng)險(xiǎn)降低推導(dǎo)風(fēng)險(xiǎn)計(jì)算消耗統(tǒng)計(jì)技術(shù)抽樣微數(shù)據(jù)√部分部分部分低聚合統(tǒng)計(jì)數(shù)據(jù)連續(xù)數(shù)據(jù)所有√√√低/中“密碼技術(shù)微數(shù)據(jù)√所有所有×部分×中保序加密微數(shù)據(jù)√所有所有×部分×中同態(tài)加密微數(shù)據(jù)√所有所有×××高保留格式加密微數(shù)據(jù)√所有所有×××高同態(tài)秘密共享微數(shù)據(jù)√所有所有×××高抑制技術(shù)屏蔽微數(shù)據(jù)√分類(lèi)數(shù)據(jù)√部分×低局部抑制微數(shù)據(jù)√分類(lèi)數(shù)據(jù)標(biāo)識(shí)符部分部分部分低記錄抑制微數(shù)據(jù)√部分部分部分低假名化技術(shù)微數(shù)據(jù)√分類(lèi)數(shù)據(jù)×部分×低*/中泛化技術(shù)取整微數(shù)據(jù)√連續(xù)數(shù)據(jù)標(biāo)識(shí)屬性×部分部分低頂層與底層編碼微數(shù)據(jù)√有序數(shù)據(jù)標(biāo)識(shí)屬性×部分部分低隨機(jī)化技術(shù)噪聲添加微數(shù)據(jù)×連續(xù)數(shù)據(jù)標(biāo)識(shí)屬性部分部分部分低置換微數(shù)據(jù)×所有標(biāo)識(shí)屬性部分部分部分中微聚集微數(shù)據(jù)×連續(xù)數(shù)據(jù)所有×部分部分中數(shù)據(jù)合成技術(shù)微數(shù)據(jù)所有所有√√√低/中表C.1(續(xù))類(lèi)別子類(lèi)輸出數(shù)據(jù)類(lèi)型數(shù)據(jù)記錄級(jí)保真性適用數(shù)據(jù)類(lèi)型適用屬性類(lèi)型降低分離風(fēng)險(xiǎn)降低關(guān)聯(lián)風(fēng)險(xiǎn)降低推導(dǎo)風(fēng)險(xiǎn)計(jì)算消耗差分隱私模型微數(shù)據(jù)×所有標(biāo)識(shí)屬性√√部分中/高“K-匿名模型微數(shù)據(jù)所有準(zhǔn)標(biāo)識(shí)符部分×高如果需要多次進(jìn)行不同的聚合。如果不需要查看映射表。如果需要多次進(jìn)行。d如果需要進(jìn)行查詢(xún)管理。除非K匿名是基于微聚集實(shí)現(xiàn)的。C.2常見(jiàn)標(biāo)識(shí)符的去標(biāo)識(shí)化參考姓名是一種常用的標(biāo)識(shí)符,適用的去標(biāo)識(shí)化方法舉例如下:b)抑制屏蔽。直接刪除姓名或使用統(tǒng)一的“×”來(lái)表示。如所有的姓名都使用“**×”代替。d)假名化。構(gòu)建常用人名字典表,并從中選擇一個(gè)來(lái)表示,如先構(gòu)建常用的人名字典表,包括龔e)可逆編碼。采用密碼或其他變換技術(shù),將姓名轉(zhuǎn)變成另外的字符,并保持可逆特性。如使用密C.2.2身份證號(hào)的去標(biāo)識(shí)化身份證號(hào)也是一種常用的標(biāo)識(shí)符,國(guó)內(nèi)身份證號(hào)按照GB11643—1999制定的規(guī)則進(jìn)行編碼,其結(jié)a)抑制屏蔽。直接刪除身份證號(hào)或使用統(tǒng)一的“*”來(lái)表示。如所有的身份證號(hào)都使用“******”代替。b)部分屏蔽。屏蔽身份證號(hào)中的一部分,以保護(hù)個(gè)人信息。如可以使用“440524********0014”"440524188*****0014”或"******188**** *****”代替,上述數(shù)據(jù)可分別用在需要保密出生日期、保密出生日期但允許對(duì)數(shù)據(jù)按時(shí)代做統(tǒng)計(jì)分析、保密所有信息但允許對(duì)出生日期按時(shí)代做統(tǒng)計(jì)分析等場(chǎng)景。c)可逆編碼。采用密碼或其他變換技術(shù),將身份證號(hào)轉(zhuǎn)變成另外的字符,并保持可逆特性。如使d)數(shù)據(jù)合成。采用重新產(chǎn)生的數(shù)據(jù)替代原身份證號(hào),如使用數(shù)據(jù)集中的記錄順序號(hào)替代原身份證號(hào),或隨機(jī)產(chǎn)生符合身份證號(hào)編碼規(guī)則的新身份證號(hào)代替原始值。銀行卡號(hào)在很多應(yīng)用中和個(gè)人身份密切關(guān)聯(lián),是一種常用的標(biāo)識(shí)符。銀行卡號(hào)是按照規(guī)則進(jìn)行編碼的,其結(jié)構(gòu)分為發(fā)卡機(jī)構(gòu)標(biāo)識(shí)代碼、自定義位和校驗(yàn)碼。常見(jiàn)的去標(biāo)識(shí)化方法舉例如下:a)抑制屏蔽。直接刪除銀行卡號(hào)或使用統(tǒng)一的“*”來(lái)表示。如所有的銀行卡號(hào)都使用“×*×**”代替。b)部分屏蔽。屏蔽銀行卡號(hào)中的一部分,以保護(hù)卡號(hào)信息。如分別可以屏蔽銀行卡號(hào)中的發(fā)卡機(jī)構(gòu)標(biāo)識(shí)代碼和自定義位。c)可逆編碼。采用密碼或其他變換技術(shù),將銀行卡號(hào)轉(zhuǎn)變成另外的字符,并保持可逆特性。如使用密碼和字符編碼技術(shù)。這種方法適用于使用銀行卡號(hào)做數(shù)據(jù)庫(kù)主鍵的應(yīng)用場(chǎng)景。d)數(shù)據(jù)合成。采用重新產(chǎn)生的數(shù)據(jù)替代原銀行卡號(hào),如使用隨機(jī)產(chǎn)生符合身份證號(hào)編碼規(guī)則的新銀行卡號(hào)代替原始值,這種場(chǎng)景適應(yīng)于對(duì)銀行卡號(hào)做合法性校驗(yàn)的應(yīng)用場(chǎng)景。b)抑制屏蔽。直接刪除姓名或使用統(tǒng)一的“*”來(lái)表示。如所有的地址都使用“×*****”代替。d)數(shù)據(jù)合成。采用重新產(chǎn)生的數(shù)據(jù)替代原地址數(shù)據(jù),數(shù)據(jù)產(chǎn)生方法可以采用確定性方法或隨機(jī)性方法。如使用“黑龍江省雞西市特鐵縣北京路23號(hào)”代替“江西省吉安市安福縣安平路1常見(jiàn)的電話號(hào)碼去標(biāo)識(shí)化方法舉例如下:a)抑制屏蔽。直接刪除電話號(hào)碼或使用統(tǒng)一的“*”來(lái)表示。如所有的電話號(hào)碼都使用“000000”代替。b)部分屏蔽。屏蔽電話號(hào)碼中的一部分,以保護(hù)號(hào)碼信息。如“19888888888”可以使用“198********”“198****8888”或“*******8888”代替。c)隨機(jī)替代。使用隨機(jī)生成的一串?dāng)?shù)字來(lái)表示,如使用隨機(jī)生成的“2346544580”來(lái)取代d)可逆編碼。采用密碼或其他變換技術(shù),將電話號(hào)碼轉(zhuǎn)變成另外的字符,并保持可逆特性。如使C.2.6數(shù)值型標(biāo)識(shí)符的去標(biāo)識(shí)化常用的數(shù)值型標(biāo)識(shí)符的去標(biāo)識(shí)化包括:b)抑制屏蔽。直接刪除數(shù)值或使用統(tǒng)一的“×”來(lái)表示。如所有的數(shù)值都使用“××**×”代替。c)頂層和底層編碼。大于或小于一個(gè)特定值的處理成某個(gè)固定值。例如,年齡超過(guò)70歲的一律用“大于70歲”描述,以保障滿(mǎn)足此條件的人數(shù)多于20000人。d)部分屏蔽。使用數(shù)值的高位部分代替原有數(shù)值,如百分制考試成績(jī)?nèi)渴褂萌サ魝€(gè)位數(shù)、保留十位數(shù)的數(shù)值代替。e)記錄交換。使用數(shù)據(jù)集中其他記錄的相應(yīng)數(shù)值代替本記錄的數(shù)值。如設(shè)定規(guī)則,將記錄集中的所有的身高數(shù)據(jù)取出并全部打亂位置后(其他屬性數(shù)據(jù)位置不變)放回原數(shù)據(jù)集中。這種方法可以保持?jǐn)?shù)據(jù)集的統(tǒng)計(jì)特性不變。f)噪聲添加。相對(duì)原始數(shù)據(jù),產(chǎn)生微小的隨機(jī)數(shù),將其加到原始數(shù)值上并代替原始數(shù)值。如對(duì)于身高1.72m,產(chǎn)生隨機(jī)數(shù)值一0.11m,加到原始數(shù)值后將其變?yōu)?.61m。g)數(shù)據(jù)合成。采用重新產(chǎn)生的數(shù)據(jù)替代原始數(shù)據(jù),數(shù)據(jù)產(chǎn)生方法可以采用確定性方法或隨機(jī)性a)泛化編碼。使用概括、抽象的日期來(lái)表示,如使用1880年代替1880年1月1日。b)抑制屏蔽。直接刪除日期數(shù)據(jù)或使用統(tǒng)一的“*”來(lái)表示。如所有的數(shù)值都使用“某年某日”代替。c)部分屏蔽。對(duì)日期中的一部分做屏蔽,如1880年某月1日代替1880年1月1日。d)記錄交換。使用數(shù)據(jù)集中其他記錄的相應(yīng)數(shù)值代替本記錄的數(shù)值。如設(shè)定規(guī)則,將記錄集中的所有的日期數(shù)據(jù)取出并全部打亂位置后(其他屬性數(shù)據(jù)位置不變)放回到原數(shù)據(jù)集中。這種方法有利于保持?jǐn)?shù)據(jù)集的統(tǒng)計(jì)特性。e)噪聲添加。相對(duì)原始數(shù)據(jù),產(chǎn)生微小的隨機(jī)數(shù),將其加到原始數(shù)值上并代替原始數(shù)值。如對(duì)于出生日期1880年1月1日,產(chǎn)生隨數(shù)值32天,加到原始數(shù)值后將其變?yōu)?880年2月2日。f)數(shù)據(jù)合成。采用重新產(chǎn)生的數(shù)據(jù)替代原日期數(shù)據(jù),如使用“1972年8月12日”代替“1880年C.2.8地理位置的去標(biāo)識(shí)化地理數(shù)據(jù)在數(shù)據(jù)集中的表現(xiàn)形式多種多樣。地理位置可以通過(guò)地圖坐標(biāo)推斷出來(lái)(例如,39.1351966,-77.2164013),可以通過(guò)街道地址(例如清華園1號(hào))或郵編(100084)。地理位置也可能隱藏在文本數(shù)據(jù)中。漢居住的房子)。單獨(dú)的地址可能并不可標(biāo)識(shí),但是如果將它們表示的位置與個(gè)人相關(guān)聯(lián)則會(huì)成為可標(biāo)識(shí)的信息。對(duì)地理位置信息進(jìn)行去標(biāo)識(shí)化,采用的噪聲值很大程度上取決于外界因素。例如在中心區(qū)范圍內(nèi)通過(guò)加減100m的范圍,而偏遠(yuǎn)地區(qū)通過(guò)加減5km來(lái)得到充足的模糊化結(jié)果;或基于行政區(qū)劃進(jìn)行泛化,例如將“清華園1號(hào)”泛化為“北京市”,以保障此范圍內(nèi)的人數(shù)多于20000人。添加噪聲時(shí)也要考慮噪聲對(duì)數(shù)據(jù)真實(shí)性的影響。例如,將一
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 小鹿斑比成長(zhǎng)之旅解讀
- 家庭農(nóng)場(chǎng)養(yǎng)殖技術(shù)推廣協(xié)議
- 時(shí)尚潮玩商品網(wǎng)絡(luò)銷(xiāo)售合作權(quán)責(zé)共擔(dān)協(xié)議
- 昆蟲(chóng)記選讀教學(xué)教案:初中生物與自然知識(shí)結(jié)合學(xué)習(xí)指導(dǎo)
- 應(yīng)對(duì)項(xiàng)目管理中的風(fēng)險(xiǎn)應(yīng)對(duì)策略
- 海底兩萬(wàn)里的冒險(xiǎn)之旅教案設(shè)計(jì)
- 養(yǎng)老服務(wù)機(jī)構(gòu)投資建設(shè)合同
- 高端設(shè)備采購(gòu)與維護(hù)合同
- 花木蘭報(bào)國(guó)傳奇故事解讀
- 租賃戶(hù)外場(chǎng)地合同協(xié)議書(shū)
- 2025年南昌理工學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫(kù)帶答案
- 2025年度未成年人監(jiān)護(hù)權(quán)轉(zhuǎn)移協(xié)議書(shū)模板
- 2025年湖南鐵道職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)及答案1套
- GB/T 45241-2025公務(wù)用車(chē)管理平臺(tái)數(shù)據(jù)規(guī)范
- 2025年中國(guó)文創(chuàng)產(chǎn)品行業(yè)發(fā)展策略、市場(chǎng)環(huán)境及前景研究分析報(bào)告
- 河南2025年河南職業(yè)技術(shù)學(xué)院招聘30人筆試歷年參考題庫(kù)附帶答案詳解
- IATF16949:2024標(biāo)準(zhǔn)質(zhì)量手冊(cè)
- 請(qǐng)款單(可直接打印-標(biāo)準(zhǔn)模板)
- Oracle-EBS模塊講解
- 漿砌條石磚項(xiàng)施工方案
- 帶你領(lǐng)略淵海子平
評(píng)論
0/150
提交評(píng)論