![2024機(jī)器學(xué)習(xí)中的隱私保護(hù)_第1頁](http://file4.renrendoc.com/view2/M02/30/23/wKhkFmYk902ALezUAAA8XKdz73k055.jpg)
![2024機(jī)器學(xué)習(xí)中的隱私保護(hù)_第2頁](http://file4.renrendoc.com/view2/M02/30/23/wKhkFmYk902ALezUAAA8XKdz73k0552.jpg)
![2024機(jī)器學(xué)習(xí)中的隱私保護(hù)_第3頁](http://file4.renrendoc.com/view2/M02/30/23/wKhkFmYk902ALezUAAA8XKdz73k0553.jpg)
![2024機(jī)器學(xué)習(xí)中的隱私保護(hù)_第4頁](http://file4.renrendoc.com/view2/M02/30/23/wKhkFmYk902ALezUAAA8XKdz73k0554.jpg)
![2024機(jī)器學(xué)習(xí)中的隱私保護(hù)_第5頁](http://file4.renrendoc.com/view2/M02/30/23/wKhkFmYk902ALezUAAA8XKdz73k0555.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
機(jī)器學(xué)習(xí)中的隱私保護(hù)導(dǎo)讀:近年來,隨著GDPR通用數(shù)據(jù)保護(hù)條例出臺(tái)以及一些互聯(lián)網(wǎng)公司數(shù)據(jù)隱私泄漏等事件的發(fā)生,數(shù)據(jù)隱私的保護(hù)問題在行業(yè)應(yīng)用中備受關(guān)注。與數(shù)據(jù)密切相關(guān)的機(jī)器學(xué)習(xí)算法的安全性成為一個(gè)巨大挑戰(zhàn)。本文將介紹在機(jī)器學(xué)習(xí)領(lǐng)域中數(shù)據(jù)隱私安全的相關(guān)工作,并介紹第四范式在差分隱私算法效果提升上所做的工作。主要和大家分享數(shù)據(jù)隱私的3方面:隱私保護(hù)的問題與案例基于數(shù)據(jù)的隱私保護(hù)技術(shù):數(shù)據(jù)匿名化機(jī)器學(xué)習(xí)模型訓(xùn)練中的隱私保護(hù)技術(shù):差分隱私▌機(jī)器學(xué)習(xí)中的隱私保護(hù)問題信息隱私信息隱私(Privacy):指的是當(dāng)一個(gè)組織內(nèi)敏感數(shù)據(jù)被擁有權(quán)限的人員所使用于某些技術(shù)、過程(如數(shù)據(jù)分析、訓(xùn)練模型)時(shí),對(duì)數(shù)據(jù)敏感信息進(jìn)行保護(hù)的過程與規(guī)則。數(shù)據(jù)的隱私(Privacy)與安全(Security)并不等價(jià):有的時(shí)候很多人提到數(shù)據(jù)隱私時(shí),會(huì)與數(shù)據(jù)安全混為一談,但其實(shí)兩者并不等價(jià)。數(shù)據(jù)安全通常指防止數(shù)據(jù)被非法訪問;而數(shù)據(jù)隱私則一般指在數(shù)據(jù)被合法訪問時(shí),防止其中的敏感信息被訪問者以某些方式"逆向"獲取,避免因數(shù)據(jù)被"逆向"推導(dǎo)出而造成的敏感信息泄露和濫用。當(dāng)然,對(duì)于企業(yè)來說,數(shù)據(jù)隱私和數(shù)據(jù)安全都非常重要。信息隱私問題如今,在很多需要用到私人敏感數(shù)據(jù)的領(lǐng)域中,都存在數(shù)據(jù)隱私的問題。特別地,當(dāng)機(jī)器學(xué)習(xí)技術(shù)應(yīng)用在一些個(gè)人隱私數(shù)據(jù)上時(shí),可能會(huì)暴露敏感數(shù)據(jù),對(duì)個(gè)人造成很多負(fù)面影響。雖然現(xiàn)實(shí)生活中有很多數(shù)據(jù)隱私的問題,但嚴(yán)格意義上,個(gè)人隱私不可能被絕對(duì)保護(hù)。1977年,統(tǒng)計(jì)學(xué)家ToreDalenius給出關(guān)于數(shù)據(jù)隱私的嚴(yán)格定義:攻擊者不能從隱私數(shù)據(jù)里獲取任何在沒有拿到數(shù)據(jù)之前他們所不知道的個(gè)人信息。2006年,計(jì)算機(jī)學(xué)者CynthiaDwork證明上述定義的隱私保護(hù)是不存在的。有一個(gè)直觀例子可以幫助理解:假設(shè)攻擊者知道Alice的身高比Lithuanian女性平均身高高2英寸,這樣攻擊者只需要從一個(gè)數(shù)據(jù)集里獲得Lithuanian女性身高平均值(在接觸數(shù)據(jù)前攻擊者并不知道),就能準(zhǔn)確獲得Alice的精確身高,甚至Alice都不需要在這個(gè)數(shù)據(jù)集里。因此,對(duì)于一份有信息量的數(shù)據(jù),不可能完全不暴露隱私信息。隱私泄露的危害隱私泄露的危害,主要有:隱私信息被應(yīng)用于欺詐與騷擾:如盜刷信用卡、電話詐騙、冒用身份等用戶安全受到威脅:用戶信息受到泄露,引起更多有目的犯罪非法機(jī)構(gòu)利用用戶隱私信息操控用戶用戶信任危機(jī)違背相關(guān)法律不過一般來說,對(duì)于不特別極端的情況,我們?nèi)钥梢詮暮艽蟪潭壬蟻肀WC數(shù)據(jù)在機(jī)器學(xué)習(xí)過程中不被泄露。這里再分享一個(gè)隱私泄露的案例:1997年,馬薩諸塞州GIC對(duì)外公布了一組醫(yī)療數(shù)據(jù),其中包括病人的5位郵編、性別、生日。州長Weld對(duì)公眾保證這份數(shù)據(jù)是匿名的,因?yàn)闃?biāo)識(shí)特征(如名字地址)已經(jīng)被移除。結(jié)果一位MIT畢業(yè)生通過結(jié)合這份數(shù)據(jù)與她花了20美元購買的選民登記數(shù)據(jù),找到了Weld的醫(yī)療記錄。同時(shí),她還宣布87%的美國公民可以通過5位郵編、性別、生日進(jìn)行唯一標(biāo)識(shí)。這個(gè)真實(shí)案例印證了:任何有一定信息量的數(shù)據(jù)都有可能產(chǎn)生隱私泄露;單純的數(shù)據(jù)匿名方法是很難保護(hù)隱私的。接下來,我們來看一下,針對(duì)潛在的隱私泄露問題我們有哪些技術(shù)可以在很大程度上杜絕隱私的泄露。▌數(shù)據(jù)匿名化技術(shù)(DataAnonymization)數(shù)據(jù)匿名化是一個(gè)從數(shù)據(jù)層面上進(jìn)行隱私保護(hù)的技術(shù)。匿名化很多時(shí)候是通過hash掉"姓名"等關(guān)鍵標(biāo)識(shí)符來實(shí)現(xiàn)的。而在只簡單hash掉姓名的情況下,數(shù)據(jù)訪問者有很多方法通過利用其它特征的信息來反推出某人在數(shù)據(jù)表中對(duì)應(yīng)的那一條數(shù)據(jù)。這時(shí)候,就需要一種技術(shù)來防止訪問者能夠通過結(jié)合多個(gè)特征的數(shù)據(jù)來確定人與數(shù)據(jù)間的對(duì)應(yīng)關(guān)系。數(shù)據(jù)表中數(shù)據(jù)列的類別(按所含隱私量分類)標(biāo)識(shí)列(KeyAttribute,簡稱KA):單憑其一列便能直接鎖定某人的數(shù)據(jù)列,如:身份證號(hào)、姓名(大多數(shù)情況下);半標(biāo)識(shí)列(Quasi-identifier,簡稱QID無法單憑其一列確定對(duì)象,但通過結(jié)合多列數(shù)據(jù)或查其它信息(縮小范圍)可以對(duì)應(yīng)到個(gè)人的數(shù)據(jù)列,如:生日、郵編等;敏感信息列(SensitiveAttribute,簡稱SA):如疾病、收入等。雖然只有標(biāo)識(shí)列的數(shù)據(jù)能夠直接縮小范圍到單個(gè)樣本,但如前文所述,僅匿名化標(biāo)識(shí)列數(shù)據(jù)對(duì)于隱私保護(hù)是完全不夠的。攻擊方法與防護(hù)方法①鏈接攻擊鏈接攻擊(LinkageAttack):通過獲取其它渠道的信息(如右表)來鎖定(見左表)當(dāng)前數(shù)據(jù)表中數(shù)據(jù)所對(duì)應(yīng)的個(gè)人。②K-AnonymityK-匿名(K-Anonymity):針對(duì)鏈接攻擊的防護(hù)方法。對(duì)于每一份數(shù)據(jù)的各版本內(nèi)的每一條記錄,規(guī)定至少有K-1條其它記錄的半標(biāo)識(shí)屬性與其一致。上方右表就是對(duì)上方左表做"3-匿名"之后的結(jié)果:我們可以發(fā)現(xiàn),在統(tǒng)一對(duì)"zipcode"、"age"、"sex"三列的數(shù)據(jù)的末尾作模糊(相當(dāng)于匿名化)處理后,含有"zipcode:47677**age2*,sex:*"的信息的數(shù)據(jù)共有3條(這3條記錄中的任一條,均滿足至少有3-1=2條其它記錄的半標(biāo)識(shí)屬性與其一致);左表原數(shù)據(jù)中的另外3條經(jīng)變換后也滿足3-匿名的條件。左表在K-Anonymity之后,雖然數(shù)據(jù)會(huì)有所損失,但保證了每條數(shù)據(jù)中的敏感信息無法與個(gè)人一一對(duì)應(yīng),降低了隱私泄露的風(fēng)險(xiǎn)。如何在盡可能小的數(shù)據(jù)損失的情況下做K-Anonymity也是一個(gè)數(shù)據(jù)隱私的研究方向。③Homogeneityattack同質(zhì)化攻擊(HomogeneityAttack):可克制K-Anonymity防護(hù)的攻擊。某些情況下,可通過直接對(duì)比其它列信息或查找其它外部資料發(fā)現(xiàn),K-Anonymity中半標(biāo)識(shí)列均相同的(至多)K條數(shù)據(jù)的其他列的信息其實(shí)是同質(zhì)的,因而確定下來某人的隱私數(shù)據(jù)。上方右表說明:經(jīng)對(duì)比可發(fā)現(xiàn)Bob必然患有HeartDisease;而假如能夠另通過查資料發(fā)現(xiàn)Carl所在地人們普遍患有HeartDisease,就還可以推斷出Carl大概率是患HeartDisease的那例樣本。④L-DiversityL-散度(L-Diversity):對(duì)K-Anonymity的改進(jìn)。在滿足K-Anonymity的基礎(chǔ)上,要求所有等價(jià)類(即各半標(biāo)識(shí)列信息均相同的一些樣本)中的敏感信息(如:病史中的HeartDisease、Flu)的種類/取值至少有L種。上表就是一個(gè)滿足3-散度的數(shù)據(jù)。⑤相似性攻擊相似性攻擊(SimilarityAttack):可對(duì)滿足L-Diversity的數(shù)據(jù)進(jìn)行攻擊。從外界獲取個(gè)人多方面的背景信息,縮小范圍以鎖定目標(biāo)。⑥T-ClosenessT-保密(T-Closeness):對(duì)L-Diversity的拓展。對(duì)于滿足K-Anonymity的數(shù)據(jù),規(guī)定每一個(gè)等價(jià)類中的敏感信息的分布與數(shù)據(jù)集整體的敏感信息分布的距離(可自行定義,常見的有:K-L散度)小于T。▌差分隱私(DifferentialPrivacy)技術(shù)除了數(shù)據(jù)匿名化不當(dāng)以外,由數(shù)據(jù)和特定建模方法得到的模型同樣有隱私泄露的風(fēng)險(xiǎn)(被攻擊獲取到原數(shù)據(jù)中的隱私信息甚至原數(shù)據(jù)本身)。差分隱私在機(jī)器學(xué)習(xí)模型的建模過程中應(yīng)用較廣。模型的隱私保護(hù)風(fēng)險(xiǎn)未經(jīng)過隱私保護(hù)處理的機(jī)器學(xué)習(xí)模型理論上可能暴露訓(xùn)練數(shù)據(jù)里的敏感信息。Membershipinferenceattack:成員推斷攻擊(MembershipInferenceAttack):探測一個(gè)給定樣本是否屬于訓(xùn)練某"待破解"模型(targetmodel)的原數(shù)據(jù)集。步驟(參考論文見上圖):①模擬生成和訓(xùn)練targetmodel的原數(shù)據(jù)集分布類似的一系列數(shù)據(jù)集(即shadowdatasets),用與訓(xùn)練targetmodel相同的訓(xùn)練算法(訓(xùn)練算法是什么很容易得知)去訓(xùn)練出對(duì)應(yīng)的一系列的模型,這些模型稱為"shadowmodels",這些shadowmodels和targetmodel的特征分布是很像的;②AttackModel的訓(xùn)練。數(shù)據(jù)集構(gòu)成:對(duì)于每一個(gè)shadowdatasets中每一條數(shù)據(jù)可以構(gòu)建此條數(shù)據(jù)在某個(gè)shadowmodel上的預(yù)測結(jié)果、該數(shù)據(jù)真實(shí) label作為訓(xùn)練樣本,將此條數(shù)據(jù)是否屬于之該shadowmodel作為標(biāo)簽。通過構(gòu)建的數(shù)據(jù)集再即可訓(xùn)練AttackModel,能夠判斷任意一條給定的數(shù)據(jù)是否屬于原數(shù)據(jù)集;③對(duì)于一條數(shù)據(jù),對(duì)于該數(shù)據(jù)targetmodel的預(yù)測結(jié)果和真實(shí)label作為輸入,通過判斷模型就可以判斷出該數(shù)據(jù)是否屬于targetdataset的。右圖為上述思路的一例實(shí)際應(yīng)用,可以看出如果對(duì)訓(xùn)練模型的方法不加處理的話,原數(shù)據(jù)集被成員推斷攻擊法破解的程度還是很高的。ModelInversionAttack:模型逆向攻擊(modelinversionattack):是指攻擊者通過模型與某個(gè)樣本的其他特征,直接推斷某個(gè)敏感特征值。差分隱私技術(shù)(DifferentialPrivacy)如果對(duì)于任兩個(gè)只相差1個(gè)樣本的數(shù)據(jù)集D1、D2,在通過過程M建模后,產(chǎn)生的模型與給定模型t完全相同的概率之比不大于eε(其中ε為某非負(fù)數(shù),為隱私預(yù)算),那么我們說建模過程M是ε-差分隱私的。理解:如果建模過程M是ε-差分隱私的,且ε很小,那么數(shù)據(jù)集和其訓(xùn)練出來的模型關(guān)系很小,即兩個(gè)相差有固定上限的數(shù)據(jù)集訓(xùn)練出來的模型是幾乎一樣的,所以拿到模型的訪問者即便知道大致的數(shù)據(jù)分布也并不能推斷出原數(shù)據(jù)集;反之,如果ε很大,那么兩個(gè)相差有固定上限的數(shù)據(jù)集訓(xùn)練出來的模型可能天差地別的,那么這種情況下,原數(shù)據(jù)集與得出的模型間一一對(duì)應(yīng)的比例很高,知道訓(xùn)練出來的模型就很有可能能夠通過模型的分布倒推出原數(shù)據(jù)集。也就是說,如果改變一條的數(shù)據(jù)對(duì)最終得到的模型影響很小,那么數(shù)據(jù)集隱私暴露的風(fēng)險(xiǎn)就很小,反之則很大。①差分隱私下的模型訓(xùn)練對(duì)目標(biāo)函數(shù)添加一定的噪聲:訓(xùn)練出來的模型會(huì)帶有一定的隨機(jī)性,可證明這樣的隨機(jī)性可滿足差分隱私。在梯度上加噪聲:深度學(xué)習(xí)比較常用,因?yàn)閷?duì)于深度學(xué)習(xí)模型,如果把噪聲加在目標(biāo)函數(shù)或輸出上,差分隱私的分析會(huì)很復(fù)雜。在模型輸出上加噪聲:使得不一樣的原數(shù)據(jù)集輸出的模型差異變小。不過,作為代價(jià),數(shù)據(jù)隱私保護(hù)得越好,算法的性能下降得越多。在訓(xùn)練樣本復(fù)雜度相同的情況下,隱私保護(hù)越好(ε越小),泛化誤差越大。②基于特征切分的差分隱私算法按特征來切分做差分隱私,而非做基于樣本切分的差分隱私:數(shù)據(jù)先按樣本切分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- SMARCA2-ligand-12-3-methylazetidine-生命科學(xué)試劑-MCE-3446
- N-Methylcanadium-iodide-生命科學(xué)試劑-MCE-3917
- 3-Fluoro-4-hydroxymethyl-benzonitrile-d2-4-Cyano-2-fluorobenzyl-alcohol-d-sub-2-sub-生命科學(xué)試劑-MCE-3394
- 二零二五年度影視作品分紅協(xié)議書
- 二零二五年度紅磚新材料研發(fā)與應(yīng)用合作協(xié)議書
- 2025年度電影項(xiàng)目演員聘用合同模板
- 二零二五年度企業(yè)薪資補(bǔ)充協(xié)議及員工住房補(bǔ)貼
- 2025年度綠色生態(tài)園區(qū)物業(yè)公司股權(quán)轉(zhuǎn)讓合作協(xié)議
- 二零二五年度私人老板與藝術(shù)策展人合作協(xié)議
- 二零二五年度科研機(jī)構(gòu)競業(yè)禁止協(xié)議期限與成果轉(zhuǎn)化
- 最經(jīng)典凈水廠施工組織設(shè)計(jì)
- VDA6.3過程審核報(bào)告
- 《心臟血管的解剖》課件
- 2024-2030年中國并購基金行業(yè)發(fā)展前景預(yù)測及投資策略研究報(bào)告
- 河道清淤安全培訓(xùn)課件
- 2024年湖南商務(wù)職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫帶答案
- 骨科手術(shù)中常被忽略的操作課件
- 《湖南師范大學(xué)》課件
- 2024年全國各地中考試題分類匯編:作文題目
- 2024年高壓電工操作證考試復(fù)習(xí)題庫及答案(共三套)
- 《糖拌西紅柿 》 教案()
評(píng)論
0/150
提交評(píng)論