中國隱私計算產(chǎn)業(yè)發(fā)展報告_第1頁
中國隱私計算產(chǎn)業(yè)發(fā)展報告_第2頁
中國隱私計算產(chǎn)業(yè)發(fā)展報告_第3頁
中國隱私計算產(chǎn)業(yè)發(fā)展報告_第4頁
中國隱私計算產(chǎn)業(yè)發(fā)展報告_第5頁
已閱讀5頁,還剩96頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

eiE工信安全國家工業(yè)信息安全發(fā)展研究中心2021年5月報告編寫組參編單位:國家工業(yè)信息安全發(fā)展研究中心中國電子商會數(shù)據(jù)資源服務創(chuàng)新專業(yè)委員會螞蟻科技集團股份有限公司翼?。ㄉ虾#┬畔⒖萍加邢薰救A控清交信息科技(北京)有限公司參編人員:孫璐楊玫楊捷喬思淵周易江楊柳駱伊寧馮立鸚毛慶凱杜健袁鵬程李克鵬段普紀潤博版權(quán)聲明本報告版權(quán)屬國家工業(yè)信息安全發(fā)展研究中心、中國電子商會數(shù)據(jù)資源服務創(chuàng)新專業(yè)委員會、螞蟻科技集團股份有限公司、翼?。ㄉ虾#┬畔⒖萍加邢薰尽⑷A控清交信息科技(北京)有限公司所有,并受法律保護。轉(zhuǎn)載、編撰或其他方式使用本報告文字或觀點,應注明“來源:國家工業(yè)信息安全發(fā)展研究中心”。違反上述聲明者,將追究其相關法律責任?;渲皿w制機制的意見》發(fā)布,將數(shù)據(jù)作為一種新型生產(chǎn)要素,華人民共和國國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和2035年遠景目標綱要》要發(fā)布,其中提出加快建設數(shù)字經(jīng)濟、數(shù)字社會、數(shù)字政府,建設數(shù)字中國,打造數(shù)字經(jīng)濟新優(yōu)勢,明確數(shù)據(jù)作為核心生產(chǎn)要素的重要性。數(shù)據(jù)成為生產(chǎn)要素并促進數(shù)字經(jīng)濟高質(zhì)量發(fā)展,前提是要充分發(fā)揮數(shù)據(jù)這一新型要素對其他要素效率的倍增作用,培育發(fā)展數(shù)據(jù)要素市場,使大數(shù)據(jù)成為推動經(jīng)濟高質(zhì)量發(fā)展的新動能。但是,當前在數(shù)據(jù)要素價值盤活過程的數(shù)據(jù)生產(chǎn)加工、數(shù)據(jù)資源匯聚、數(shù)據(jù)流通交易、數(shù)據(jù)模型訓練與部署過程中仍然面臨數(shù)據(jù)確權(quán)難、投入成本高、數(shù)據(jù)集質(zhì)量低、數(shù)據(jù)資源有限等問題。在此背景下,在政策驅(qū)動、市場需求同時作用下,催生出數(shù)據(jù)流通共享技術新賽道——隱私計算。宏觀層面,隱私計算將成為新一代信息技術領域基礎性、支撐性環(huán)節(jié),很大程度上完善了各類軟件應用及平臺安全性、合規(guī)性,促進了大數(shù)據(jù)、人工智能產(chǎn)業(yè)的健康、可持續(xù)、高質(zhì)量發(fā)展。微觀層面,隱私計算使企業(yè)在數(shù)據(jù)合規(guī)要求前提下,充分調(diào)動數(shù)據(jù)資源擁有方、使用方、運營方、監(jiān)管方各方主體積極性,實現(xiàn)數(shù)據(jù)資源海量匯聚、交易和流通,進一步盤活了第三方機構(gòu)數(shù)據(jù)資源價值,促進數(shù)據(jù)要素的市場化配置。在本報告撰寫過程中,國家工業(yè)信息安全發(fā)展研究中心通過專家訪談、企業(yè)調(diào)研、案頭研究等方式開展隱私計算相關研究,得到眾多相關企業(yè)的配合與支持。報告內(nèi)容從背景、技術、產(chǎn)業(yè)等維度出發(fā),闡述了我國隱私計算的發(fā)展現(xiàn)狀,并基于現(xiàn)階段面臨的問題提出政策建議。由于編者水平有限,本報告難免存在疏漏與不足,懇請各界同仁閱后批評指正,加強合作交流。報告編寫組二。二一年五月I第一章背景篇 2一、基本概念 2(一)國內(nèi)隱私計算定義 2(二)國外隱私計算概念 (三)數(shù)據(jù)流通模式差異性 4二、作用意義 4(一)隱私計算助力數(shù)據(jù)要素市場化配置 5(二)隱私計算成為防范數(shù)據(jù)泄露突破口 6(三)隱私計算促進多方數(shù)據(jù)安全合規(guī)協(xié)作 7(四)隱私計算促進大數(shù)據(jù)進入新發(fā)展階段 8三、國外政策環(huán)境 (一)歐盟發(fā)布技術指南肯定隱私計算的作用及價值 9(二)美國發(fā)布法案支持隱私計算技術的研究與使用 10(三)英國設立國家機構(gòu)研究隱私計算技術并促進應用 11第二章技術篇 12一、多方安全計算 (一)技術簡介 (二)技術優(yōu)缺點 (三)國內(nèi)主要廠商 (四)應用場景與案例 20二、聯(lián)邦學習 21(一)技術簡介 22(二)技術優(yōu)缺點 25(三)國內(nèi)主要廠商 27(四)應用場景與案例 28三、差分隱私 29(一)技術簡介 (二)技術優(yōu)缺點 (三)國內(nèi)主要廠商 (四)應用場景與案例 四、機密計算 32(一)技術簡介 (二)技術優(yōu)缺點 (三)國內(nèi)主要廠商 (四)應用場景與案例 五、可證去標識 (一)技術簡介 (二)技術優(yōu)缺點 (三)國內(nèi)主要廠商 40(四)應用場景與案例 41第三章產(chǎn)業(yè)篇 42一、產(chǎn)業(yè)現(xiàn)狀 42(一)技術層面,隱私計算多技術融合應用 42(二)主體層面,多方企業(yè)加碼隱私計算 43(三)應用層面,金融及醫(yī)療行業(yè)應用發(fā)展最快 45(四)市場層面,尚未形成成熟的市場環(huán)境及商業(yè)模式 47二、產(chǎn)業(yè)環(huán)境 48(一)政策支持:多部門多地發(fā)布規(guī)劃支持隱私計算 48(二)金融保障:隱私計算領域投融資以Pre-A輪為主 49(三)專利申請:隱私計算近兩年內(nèi)專利申請量激增 50(四)標準建設:國內(nèi)外標準化組織均已開展研制工作 52第四章建議篇 54一、健全法律法規(guī)明確隱私計算發(fā)展方向 二、構(gòu)建標準體系提供隱私計算應用規(guī)范 三、培育數(shù)據(jù)要素市場完善產(chǎn)業(yè)發(fā)展環(huán)境 I 圖2多方安全計算發(fā)展 圖3多方安全計算模式 圖4秘密分享原理 圖8零知識證明原理 圖9聯(lián)邦學習發(fā)展 21圖10聯(lián)邦學習模式 22 23圖12縱向聯(lián)邦學習 24圖13聯(lián)邦遷移學習 25 29圖15機密計算發(fā)展 圖16數(shù)據(jù)在TEE集群中的處理 38圖17涉足隱私計算企業(yè)成立日期 44 46圖19年度隱私計算融資事件數(shù)量及隱私計算融資輪次分布 49圖20年度隱私計算專利申請量 圖21各機構(gòu)專利申請數(shù)量 圖22軟件和信息技術類標準體系 表1國內(nèi)隱私計算廠商 44表2明確發(fā)展隱私計算的政策文件 492第一章背景篇隱私計算本質(zhì)上是在保護數(shù)據(jù)隱私的前提下,解決數(shù)據(jù)流通、數(shù)據(jù)應用等數(shù)據(jù)服務問題?;谝陨咸匦?,隱私計算在個人隱私權(quán)、企業(yè)數(shù)據(jù)權(quán)益、社會發(fā)展平衡保障下釋放數(shù)據(jù)要素價值,成為與法律、監(jiān)管強相關的技術,且能夠支持對企業(yè)的數(shù)據(jù)資產(chǎn)權(quán)益(定價權(quán)、控制權(quán))的保障。一、基本概念隱私計算作為技術體系,概念誕生時間較短,但多方安全計算、聯(lián)邦學習、可信執(zhí)行環(huán)境等作為隱私計算的重要技術分支,理論基礎的研究已開展多年。隱私計算概念的確定有助于技術體系的完善及各技術間的融合發(fā)展。(一)國內(nèi)隱私計算定義隱私計算是指在提供隱私保護的前提下實現(xiàn)數(shù)據(jù)價值挖掘的技術體系,而非單一技術,早期多被定義為隱私保護計算、隱私保護技術等。2016年發(fā)布的《隱私計算研究范疇及發(fā)展趨勢》正式提出“隱私計算”一詞,并將隱私計算定義為“面向隱私信息全生命周期保護的計算理論和方法,是隱私信息的所有權(quán)、管理權(quán)和使用權(quán)分離時隱私度量、隱私泄漏代價、隱私保護與隱私分析復雜性的可計算模型與公理化系統(tǒng)?!彪S著數(shù)字技術的發(fā)展,隱私計算內(nèi)涵、特征及代表技術不斷演進。主流技術研究焦點從2016年的數(shù)據(jù)擾亂、數(shù)據(jù)匿名化進展3至今日的包含人工智能、密碼學、數(shù)據(jù)科學等眾多領域交叉融合的跨學科技術體系,涵蓋同態(tài)加密、多方安全計算、差分隱私等眾多技術方法?,F(xiàn)階段,隱私計算指帶有隱私機密保護的計算系統(tǒng)與技術(硬件或軟件解決方案能夠在不泄露原始數(shù)據(jù)前提下,對數(shù)據(jù)進行采集加工分析處理分析驗證,包括數(shù)據(jù)的生產(chǎn)、存儲、計算、應用等數(shù)據(jù)處理流程的全過程,強調(diào)能夠在保證數(shù)據(jù)所有者權(quán)益、保護用戶隱私和商業(yè)秘密的同時,充分挖掘發(fā)揮數(shù)據(jù)價國外隱私計算被定義為“PrivacyEnhancingTechnologies”(PETs即隱私增強技術。2001年,隱私增強技術概念提出,即“一套信息和通信技術措施系統(tǒng),在保障系統(tǒng)功能的前提下,通過消除或減少個人數(shù)據(jù)或防止對個人數(shù)據(jù)進行不必要和/或不希望的處理來保護隱私?!本唧w而言,隱私增強技術廣義上指保護個人或敏感信息隱私性的任何技術方法,包括例如廣告攔截、瀏覽器擴展插件等相對的簡單技術。狹義上,隱私增強技術主要指互聯(lián)網(wǎng)信息所依賴的加密基礎結(jié)構(gòu),即聯(lián)邦學習、多方安全計算、零知識證明等“新興”隱私增強技術。出于對隱私保護的重視,國外在該領域的研究受到國家及國際組織層面的重視,定義中強調(diào)隱私增強技術作為數(shù)據(jù)保護規(guī)則的作用意義。例如,世界經(jīng)合組織2002年的報告中指出隱私增強技術是有助于保護個人隱私的廣泛技術,從提供匿名性的工具到允許用戶選擇是否、何時以及在何種情況下披露個人信息的工具。4此外,美國通過法案將隱私增強技術定義為“任何軟件解決方案、技術流程或其他技術手段,用以增強數(shù)據(jù)的隱私和機密性”,特別包括“匿名化和假名化技術、過濾工具、反跟蹤技術、差異隱私工具、合成數(shù)據(jù)和多方安全計算”。(三)數(shù)據(jù)流通模式差異性進行流通與應用。1.0模式典型方式是通過數(shù)據(jù)交易平臺就數(shù)據(jù)所有權(quán)進行交易,但由于數(shù)據(jù)確權(quán)相關法律法規(guī)不明晰,該模式有較高的數(shù)據(jù)安全風險,較難保護數(shù)據(jù)所有者利益,易導致涉及用戶隱私的信息暴露以及數(shù)據(jù)被使用方二次利用甚至濫用,因此近些年來該模式增長開始逐漸放緩。2.0模式將加工處理完的單方結(jié)果數(shù)據(jù)以API形式輸出,具體通過程序?qū)υ獢?shù)據(jù)進行隔離,在用戶發(fā)出數(shù)據(jù)使用請求后,由程序從元數(shù)據(jù)中抽取、調(diào)用數(shù)據(jù)反饋給用戶。該模式下按照數(shù)據(jù)分類沉淀的API接口日調(diào)用量可達到上億次,滿足較廣的服務覆蓋范圍,且一定程度保護了用戶隱私信息以及降低二次利用可能性,但同時降低了數(shù)據(jù)價值融合的可行性。隱私計算有望發(fā)展成為數(shù)據(jù)服務3.0模式,直接作用于數(shù)據(jù)使用方面,能夠通過協(xié)議或算法使得數(shù)據(jù)計算服務在不泄漏原始數(shù)據(jù)的前提下充分挖掘數(shù)據(jù)價值。二、作用意義近年來,新一代信息技術大部分是聚焦于信息化方式方法,如數(shù)據(jù)庫、操作系統(tǒng)、網(wǎng)絡通信、云計算、大數(shù)據(jù)等,保障系統(tǒng)暢通運行與業(yè)務穩(wěn)定開展的相關數(shù)字技術業(yè)已成熟。隱私計算聚5焦數(shù)據(jù)共享開放領域應用,解決現(xiàn)階段數(shù)據(jù)保護與數(shù)據(jù)流通多方面痛點,在政策驅(qū)動與市場需求雙重作用下發(fā)展迅速。(一)隱私計算助力數(shù)據(jù)要素市場化配置隨著技術手段創(chuàng)新發(fā)展、數(shù)字化轉(zhuǎn)型步伐加快,數(shù)據(jù)已經(jīng)變成了重要的增長點,獲得維度更廣、質(zhì)量更優(yōu)、層次更深的數(shù)據(jù)國務院關于構(gòu)建更加完善的要素市場化配置體制機制的意見》正式發(fā)布,首次將數(shù)據(jù)與土地、勞動力、資本、技術等傳統(tǒng)要素相并列,指出了五個要素領域的改革方向,明確了完善要素市場化配置的具體措施。但數(shù)據(jù)使用面臨的諸多問題尚未解決,如數(shù)據(jù)的要素化應用過程中如何確定數(shù)據(jù)歸屬權(quán)、如何保障數(shù)據(jù)隱私安全、如何確定數(shù)據(jù)使用權(quán)責、如何防止數(shù)據(jù)價值稀釋等。傳統(tǒng)的技術與手段無法有效解決上述問題,數(shù)據(jù)要素的合理化利用需要合法合規(guī)技術與業(yè)務創(chuàng)新模式的有力支撐。培育數(shù)據(jù)要素市場的根本是數(shù)據(jù)資產(chǎn)化。只有保障數(shù)據(jù)資源的價值、解決數(shù)據(jù)權(quán)屬關系邊界模糊的問題,才能使數(shù)據(jù)具備權(quán)利屬性進而設定為資產(chǎn)。一方面,隱私計算可保障數(shù)據(jù)的商品價值、交換價值及使用價值。傳統(tǒng)模式下,數(shù)據(jù)復制性強的特點使原始數(shù)據(jù)轉(zhuǎn)化過程中價值稀釋顯著,導致使用率越高價值越低。隱私計算在不交換原數(shù)據(jù)的前提下輸出數(shù)據(jù)蘊含的知識,數(shù)據(jù)使用率越高證明數(shù)據(jù)應用價值越高,因此隱私計算是還原數(shù)據(jù)資產(chǎn)特性的根本,可以使數(shù)據(jù)資產(chǎn)價值以市場化的方式計量,有望成為數(shù)據(jù)資產(chǎn)化系統(tǒng)性工程中的重要環(huán)節(jié)。另一方面,隱私計算可6保障數(shù)據(jù)資產(chǎn)權(quán)屬利益。按照資產(chǎn)屬性,數(shù)權(quán)具有私權(quán)屬性和公權(quán)屬性。維護個人利益是私權(quán)屬性的根本體現(xiàn),公權(quán)屬性則強調(diào)數(shù)據(jù)作為公共產(chǎn)品的資源性,主要指國家機關等公共部門出于公共利益目的而使用數(shù)據(jù)。隱私計算可有效平衡數(shù)據(jù)的私權(quán)屬性與公權(quán)屬性,不需要讓渡數(shù)據(jù)個人權(quán)利即可使公共部門行使權(quán)力,有效消除數(shù)據(jù)壁壘,最大化釋放數(shù)據(jù)價值。(二)隱私計算成為防范數(shù)據(jù)泄露突破口隨著云計算、物聯(lián)網(wǎng)與大數(shù)據(jù)等技術的不斷發(fā)展,信息系統(tǒng)服務中針對用戶數(shù)據(jù)的收集整理、分析預測手段不斷成熟。各種定向服務基于位置跟蹤、行為偏好記錄,為人們?nèi)粘I钐峁┲T多便利的同時,也越來越多地引發(fā)了隱私問題的關注。一方面,數(shù)據(jù)作為企業(yè)重要資產(chǎn)被深度開發(fā)利用。另一方面,數(shù)據(jù)構(gòu)成公民個人生活的方方面面,各項在線服務過程中產(chǎn)生的海量數(shù)據(jù)不可避免地面臨隱私泄露問題。近幾年,大規(guī)模數(shù)據(jù)泄露事件頻繁發(fā)生且呈現(xiàn)爆發(fā)遞增趨勢。根據(jù)安全情報供應商RiskBasedSecurity(RBS)的數(shù)據(jù)顯示,2012年至2020年數(shù)據(jù)泄露事件數(shù)量與涉及的數(shù)據(jù)量均在整體上呈現(xiàn)逐年遞增趨勢。國內(nèi)數(shù)據(jù)泄露形勢更加嚴峻:一是上億級大規(guī)模重大泄露事件頻頻發(fā)生;二是涉及大量身份證號碼、電話號碼等個人基本信息以及人臉圖像等生物識別敏感信息;三是數(shù)據(jù)泄露事件覆蓋銀行、快遞企業(yè)、高校、互聯(lián)網(wǎng)公司等各類機構(gòu)主體。數(shù)據(jù)泄露事件屢禁不止,使公眾對于個人信息保護意識、敏感程度與認知水平全面提高,進一步給企業(yè)帶來全新挑戰(zhàn)。企業(yè)7若對原數(shù)據(jù)進行分析挖掘,獲得公眾完全的信任需對如何使用客戶數(shù)據(jù)保持高度透明性,并在各項業(yè)務中以客戶可信賴的方式執(zhí)行,此外須提供完整的證據(jù)證明企業(yè)始終貫徹上述方針。但服務器暴露、安全性配置、員工監(jiān)管等各環(huán)節(jié)都將導致企業(yè)對數(shù)據(jù)保護措施不力,完成以上三點要求成本壓力過大。隱私計算盡管不能完全解決數(shù)據(jù)泄露問題,但基于密碼學算法、去中心化、作用于數(shù)據(jù)交換過程等特點為隱私保護提供了新的解決方案。近年來,不斷曝光的隱私數(shù)據(jù)泄露引起了監(jiān)管部門的高度重視,數(shù)據(jù)安全、隱私保護相關的監(jiān)管政策密集出臺。我國已有《民法總則》《消費者權(quán)益保護法》《電子商務法》和《全國人民代表大會常務委員會關于加強網(wǎng)絡信息保護的決定》《數(shù)據(jù)安全管理辦法》等近40部法律、30余部法規(guī)和200部規(guī)章制度,都涉及各類數(shù)據(jù)的保護條款,規(guī)定了企業(yè)對保護數(shù)據(jù)所負的法律義務。盡管目前法律體系相對分散、缺乏實施細則,但隨著《個人信息保護保護試行辦法》等法律法規(guī)的研究制定,我國數(shù)據(jù)保護法律法規(guī)求意見稿)》發(fā)布,《條例》運用特區(qū)立法權(quán)率先展開地方數(shù)據(jù)立法,首提數(shù)據(jù)權(quán),促進個人隱私保護。數(shù)據(jù)立法及隱私保護機制的多方嘗試,將使數(shù)據(jù)泄露維權(quán)困難、維權(quán)程序復雜、耗時過長、成本過高的情況進一步改善。在強監(jiān)管趨勢下,粗放型數(shù)據(jù)交易模式上升為觸犯法律紅線的行為,8目前業(yè)務仍處于此類灰色地帶的企業(yè)將遭受重創(chuàng),須積極探索符合合規(guī)要求的業(yè)務路線。隱私計算目前處于起步階段,可以預見,隨著國家對隱私數(shù)據(jù)監(jiān)管的加強,企業(yè)對數(shù)據(jù)價值重視程度的提高,隱私計算將在2020-2030年實現(xiàn)爆炸式增長,有望發(fā)展成為數(shù)據(jù)共享基礎設施的重要環(huán)節(jié)。大數(shù)據(jù)產(chǎn)業(yè)是以數(shù)據(jù)生產(chǎn)、采集、存儲、加工、分析、服務為主的相關經(jīng)濟活動,產(chǎn)業(yè)發(fā)展至今技術成熟、生態(tài)體系完善,借助大數(shù)據(jù)技術展現(xiàn)出的優(yōu)勢愈發(fā)顯著,促使企業(yè)不斷探索更高效的新技術對數(shù)據(jù)進行處理,包括數(shù)據(jù)的存儲、查詢和分析等。但大數(shù)據(jù)技術特點也帶來以下問題:一是監(jiān)督工作復雜、稽核難度大。大數(shù)據(jù)技術可廣泛采集不同來源的數(shù)據(jù),使傳感器、社交網(wǎng)絡等數(shù)據(jù)跟蹤和狀態(tài)控制難度加大。二是數(shù)據(jù)復用性強。數(shù)據(jù)蘊藏巨大商業(yè)價值,但擴散性強。當前數(shù)據(jù)產(chǎn)權(quán)意識有待提高,無法實行“誰采集、誰投入、誰受益”。三是數(shù)據(jù)推斷與重新識別可能性提高。不同來源的數(shù)據(jù)集交叉合并分析,獲得更多信息的同時也增加了隱私泄露風險。數(shù)據(jù)價值的構(gòu)成不在于數(shù)據(jù)本身,而是推動多種計算方式及應用,因此多方數(shù)據(jù)合作是大數(shù)據(jù)發(fā)揮價值的重點。但大數(shù)據(jù)難控制、復用性強、重新識別可能性高的問題限制了數(shù)據(jù)流通,一方面致使政務、醫(yī)療等敏感數(shù)據(jù)的分析挖掘受限,另一方面大數(shù)據(jù)技術及應用創(chuàng)新主體向掌握大量數(shù)據(jù)的互聯(lián)網(wǎng)龍頭企業(yè)傾斜,中小科技企業(yè)發(fā)展壁壘較大。隱私計算能夠解決數(shù)據(jù)開放共享和9隱私安全保護的矛盾,可在保證原始數(shù)據(jù)安全隱私性的同時,實現(xiàn)對數(shù)據(jù)的計算和分析,有望成為打破大數(shù)據(jù)現(xiàn)階段發(fā)展瓶頸的推動力。三、國外政策環(huán)境在現(xiàn)階段數(shù)據(jù)驅(qū)動型創(chuàng)新應用蓬勃發(fā)展的關鍵時期,數(shù)據(jù)作為重要的基礎戰(zhàn)略資源,受到各國高度重視,歐美等發(fā)達經(jīng)濟體一方面在跨區(qū)域?qū)ν鈪f(xié)定中強勢約束數(shù)據(jù)流通相關條款,另一方面興起對技術性隱私保護方法的理論研究及政策探索。(一)歐盟發(fā)布技術指南肯定隱私計算的作用及價值2020年7月,歐盟法院(CJEU)在SchremsII中判定歐盟-美國隱私保護盾無效,美國不再根據(jù)歐盟通用數(shù)據(jù)保護條例(GDPR)第45條獲得授權(quán),可以在法律對等的基礎上接收來自主要機制區(qū)域(EEA)的數(shù)據(jù)流。這意味著包括Google、Amazon、Facebook和Microsoft在內(nèi)的5300多家美國企業(yè)失去了與歐洲經(jīng)濟共同體進行國際數(shù)據(jù)傳輸?shù)臋?quán)利。GDPR合規(guī)門檻的提高,使企業(yè)更難獲得和處理歐盟數(shù)據(jù)。歐盟-美國隱私保護盾的無效導致從歐洲經(jīng)濟區(qū)進行有效數(shù)據(jù)跨境轉(zhuǎn)移必須依賴技術措施。歐盟法院(CJEU)和歐盟負責監(jiān)督通用數(shù)據(jù)保護條例(GDPR)執(zhí)行的歐盟數(shù)據(jù)保護委員會(EDPB)都強調(diào),僅合同工具可能不足以保障在歐盟和美國之間按照GDPR要求傳輸數(shù)據(jù)。為尋求合規(guī)與發(fā)展的平衡,EDPB發(fā)布“關于補充傳輸工具以確保符合歐盟個人數(shù)據(jù)保護水平的措施的建議01/2020”,并于2020年11月通過,其中提出關于“拆分或多方處理”的建議,采用隱私增強技術成為歐盟數(shù)據(jù)出口機構(gòu)的盡職調(diào)查中,證明機構(gòu)符合“采取必要的補充措施,對所傳輸數(shù)據(jù)的保護水平達到歐盟的基本等同標準”要求的證據(jù)。在此背景下,2021年1月28日,歐盟網(wǎng)絡安全局(ENISA)發(fā)布《數(shù)據(jù)保護和隱私中網(wǎng)絡安全措施的技術分析》,該技術指南將多方安全計算確定為適用于復雜數(shù)據(jù)共享方案的高級技術解決方案,尤其適用于醫(yī)療保健和網(wǎng)絡安全領域。ENISA在指南中建議各機構(gòu)進行常規(guī)的“安全和數(shù)據(jù)保護風險評估”,以確定是否需要通過加密隱私增強協(xié)議降低數(shù)據(jù)處理中的風險。ENISA是歐盟負責協(xié)調(diào)“整個歐洲高度通用的網(wǎng)絡安全水平”的機構(gòu),根據(jù)歐盟2019年《網(wǎng)絡安全法案》的規(guī)定,負責指導制定歐盟網(wǎng)絡安全認證框架的技術標準和政策??梢灶A見,隱私增強技術將成為歐盟重點關注領域。(二)美國發(fā)布法案支持隱私計算技術的研究與使用2019年12月,美國白宮行政管理和預算辦公室(OMB)發(fā)布《聯(lián)邦數(shù)據(jù)戰(zhàn)略與2020年行動計劃》。以2020年為起始,聯(lián)邦數(shù)據(jù)戰(zhàn)略描述了美國聯(lián)邦政府未來十年的數(shù)據(jù)愿景,將“數(shù)據(jù)作為戰(zhàn)略資源開發(fā)”的核心目標,提出著重改進特定數(shù)據(jù)資源組合的管理和使用。美國對數(shù)據(jù)的關注重點從“技術”向“資產(chǎn)”轉(zhuǎn)移,致力于打造數(shù)據(jù)資源集中化利用與配置。2019年,美國共和黨提交《2019美國國家安全與個人數(shù)據(jù)保向,從微觀層面控制數(shù)據(jù)的傳輸和存儲,具有鮮明的、針對其他國家的數(shù)據(jù)保護意識。隨后,拜登政府宣告對美國進行有意義的聯(lián)邦隱私改革。美國眾議院和參議院制定了《促進數(shù)字隱私技術據(jù)使用”。如果通過,該法案還將授權(quán)美國國家科學基金會(NSF)促進對隱私增強技術的研究,并制定標準促進隱私增強技術在公共和私營部門數(shù)據(jù)使用中的作用。(三)英國設立國家機構(gòu)研究隱私計算技術并促進應用英國于2018年成立數(shù)據(jù)倫理與創(chuàng)新中心(CDEI)。該機構(gòu)持續(xù)研究隱私增強技術在實現(xiàn)安全、私有和可信賴數(shù)據(jù)使用中的作用,重點方向包括同態(tài)加密、可信任執(zhí)行環(huán)境、多方安全計算、聯(lián)邦學習、差分隱私等。2020年7月,CDEI發(fā)布《解決對公共部門數(shù)據(jù)使用的信任問題》報告,指出隱私增強技術更好地保護不同數(shù)據(jù)共享方法的隱私和安全性。2020年12月,英國發(fā)布國家數(shù)據(jù)戰(zhàn)略,以提高使用私有和共有數(shù)據(jù)的訪問效率和公眾信任,其中提及將探索隱私增強技術支持個人數(shù)據(jù)保護,加強公眾對如何使用數(shù)據(jù)的控制,進而增強公眾信任。疫情期間,英國使用OpenSAFELY安全分析平臺,通過隱私增強技術對2400萬患者的記錄進行分析,識別與新冠疫情相關的危險因素。第二章技術篇隱私計算從技術機制上分為三大類:基于協(xié)議規(guī)則的技術,包括多方安全計算、聯(lián)邦學習、可證去標識;基于算法的差分隱私;基于硬件環(huán)境的機密計算。各方向技術特點不同(如圖1所示適用于不同場景:基于密碼學的多方安全計算及同態(tài)加密等方法更適用于數(shù)據(jù)量適中但保密性要求較高的重要數(shù)據(jù)應用;聯(lián)邦學習更適用于保密性要求不高但數(shù)據(jù)量大的模型訓練;差分隱私能夠減少計算結(jié)果對隱私的泄露,但會降低結(jié)果的準確性,一般與其他技術結(jié)合使用;機密計算則因為性能優(yōu)勢而更適用于復雜、數(shù)據(jù)量大的通用場景和通用算法,如大數(shù)據(jù)協(xié)作、人工智能框架數(shù)據(jù)保護、關鍵基礎設施保護等,但是目前的安全性受限于硬件的設計與實現(xiàn);可證去標識同樣適用于數(shù)據(jù)量大、實時性要求高、數(shù)據(jù)出域的應用場景。圖1隱私計算技術體系來源:國家工業(yè)信息安全發(fā)展研究中心雖然目前隱私計算性能已經(jīng)大大提升,但加密機理復雜、交互次數(shù)多,當流通的數(shù)據(jù)量較大或結(jié)構(gòu)較為復雜時,計算效率問題仍然未能解決。特別是對于復雜算法的聯(lián)合建模效率仍然難以令人滿意。當前,關于多方安全計算、聯(lián)邦學習、差分隱私、去標識、防身份關聯(lián)等技術理論基礎研究已相對成熟,但隱私保護技術的技術成熟度和產(chǎn)業(yè)化能力尚弱?,F(xiàn)階段,項目實施方面對于隱私計算技術產(chǎn)品及服務的選擇是以落地實際需求為牽引。即各方的信任度越高,隱私計算方案支撐的計算效率越高;反之,若設定其中某方完全不可信,則隱私計算的效率低,難以滿足大規(guī)模商用要求。一、多方安全計算多方安全計算(SecureMulti-PartyComputationMPC由姚期智在1982年提出,主要探討保障隱私的前提下,多個參與方各自輸入信息計算一個約定的函數(shù)。海量數(shù)據(jù)交叉計算的特性使多方安全計算可以為科研、醫(yī)療、金融等提供更好支持。許多企業(yè)或組織出于信息安全或利益的考慮,內(nèi)部數(shù)據(jù)是不對外開放的,數(shù)據(jù)的價值無法體現(xiàn)或變現(xiàn)。多方安全計算(MPC)可以很好解決這一難題。保證各方數(shù)據(jù)安全的同時,又得到預期計算的結(jié)果。圖2多方安全計算發(fā)展來源:國家工業(yè)信息安全發(fā)展研究中心多方安全計算是指參與者在不泄露各自隱私數(shù)據(jù)情況下,利用隱私數(shù)據(jù)參與保密計算,共同完成某項計算任務。該技術能夠滿足人們利用隱私數(shù)據(jù)進行保密計算的需求,有效解決數(shù)據(jù)的“保密性”和“共享性”之間的矛盾。多方安全計算包括多個技術分支,目前,在MPC領域,主要用到的是技術是秘密分享、不經(jīng)意傳輸、混淆電路、同態(tài)加密、零知識證明等關鍵技術。圖3多方安全計算模式來源:國家工業(yè)信息安全發(fā)展研究中心1.秘密分享秘密分享是指將秘密以適當?shù)姆绞讲鸱?,拆分后的每一個份額由不同的參與者管理,每個參與者持有其中的一份,協(xié)作完成計算任務(如加法和乘法計算)。單個參與者無法恢復秘密信息,只有若干個參與者一同協(xié)作才能恢復秘密消息。由于秘密分享具有計算同態(tài)性質(zhì),每個參與者可以獨立的基于分片的數(shù)據(jù)進行加法和乘法計算,各個參與者將計算的分片結(jié)果發(fā)送給結(jié)果方進行匯總還原出計算結(jié)果。整個過程中各個參與者不能獲得任何秘密信息,結(jié)果方只能獲取結(jié)果信息,因而有效地保護原始數(shù)據(jù)不泄漏,并計算出預期的結(jié)果。在秘密共享系統(tǒng)中,攻擊者必須同時獲得一定數(shù)量的秘密碎片才能獲得密鑰,系統(tǒng)的安全性得以保障。另一方面,當某些秘密碎片丟失或被毀時,利用其它的秘密份額仍能夠獲得秘密信息,系統(tǒng)的可靠性得以保障。圖4秘密分享原理來源:國家工業(yè)信息安全發(fā)展研究中心同態(tài)加密是一種允許在加密之后的密文上直接進行計算,且計算結(jié)果解密后和明文的計算結(jié)果一致的加密算法。在多方安全計算場景下,參與者將數(shù)據(jù)加密后發(fā)送給統(tǒng)一的計算服務器,服務器直接使用密文進行計算,并將計算結(jié)果的密文發(fā)送給指定的結(jié)果方。結(jié)果方再將對應的密文進行解密后,得出最終的結(jié)果。過程中保證計算服務器一直使用密文進行計算,無法查看到任何有效信息,而參與者也只能拿到最后的結(jié)果,無法看到中間結(jié)果。按照支持的功能劃分,同態(tài)加密方案可以分為部分同態(tài)加密和全同態(tài)加密。部分同態(tài)加密是指支持加法或者乘法運算,全同態(tài)加密是指同時支持加法和乘法運算的加密算法。當前部分同態(tài)加密技術已經(jīng)比較成熟,但是全同態(tài)加密方案在性能方面仍然與實際應用的要求存在一定距離,因此實際應用較少。圖5同態(tài)加密原理來源:國家工業(yè)信息安全發(fā)展研究中心3.不經(jīng)意傳輸不經(jīng)意傳輸是一種可保護隱私的雙方通信協(xié)議,消息發(fā)送者從一些待發(fā)送的消息中發(fā)送某一條給接收者,但并不知道接收者具體收到了哪一條消息。不經(jīng)意傳輸協(xié)議是一個兩方安全計算協(xié)議,協(xié)議使得接收方除選取的內(nèi)容外,無法獲取剩余數(shù)據(jù),并且發(fā)送方也無從知道被選取的內(nèi)容。不經(jīng)意傳輸對雙方信息的保護可用于數(shù)據(jù)隱私求交場景。通過不經(jīng)意傳輸,參與雙方不能獲取到對方的任何數(shù)據(jù)信息,結(jié)果方僅僅只可以獲取到交集數(shù)據(jù)。圖6不經(jīng)意傳輸原理來源:國家工業(yè)信息安全發(fā)展研究中心4.混淆電路混淆電路是雙方進行安全計算的布爾電路。混淆電路將計算電路中的每個門都加密并打亂,確保加密計算的過程中不會對外泄露計算的原始數(shù)據(jù)和中間數(shù)據(jù)。雙方根據(jù)各自的輸入依次進行計算,解密方可得到最終的正確結(jié)果,但無法得到除結(jié)果以外的其他信息,從而實現(xiàn)雙方的安全計算。圖7混淆電路原理來源:國家工業(yè)信息安全發(fā)展研究中心5.零知識證明零知識證明指的是證明者能夠在不向監(jiān)控者提供任何有用信息的情況下,使驗證者相信某個論斷是正確的。零知識證明實際上是一種涉及雙方或更多方的協(xié)議,即雙方或更多方完成一項任務需要采取的一系列步驟。證明者需要向驗證者證明并使其相信自己知道或擁有某一消息,但證明過程不向驗證者泄露任何關于被證明消息的信息。例如,網(wǎng)站將用戶密碼的Hash散列值儲存在web服務器中。為了驗證客戶端是否真的知道密碼,要求客戶端輸入密碼的hash散列,并將其與儲存的結(jié)果進行比較。圖8零知識證明原理來源:國家工業(yè)信息安全發(fā)展研究中心多方安全計算理論已經(jīng)提出近40年,出現(xiàn)多個技術分支?;诙喾桨踩嬎憷碚撗芯?,技術實現(xiàn)層面也取得了較大進展,開源系統(tǒng)框架和工具覆蓋多種理論技術,不斷推進多方安全計算的計算性能,不斷接近工程應用的實際水平。從技術范疇和應用范圍看,多方安全計算能夠?qū)崿F(xiàn)多方數(shù)據(jù)安全融合,存在很多橫向的類似技術和成果。除安全多方技術外,數(shù)據(jù)安全融合相關技術主要有數(shù)據(jù)脫敏、差分隱私、可信執(zhí)行環(huán)境、聯(lián)邦學習等。從安全性、計算準確性、計算性能以及通用性(應用場景和領域)等角度進行相比,以上技術各有利弊:數(shù)據(jù)脫敏技術的計算性能高,適用于大數(shù)據(jù)量處理,但其可追溯性差,數(shù)據(jù)脫敏后的去向和使用難以從技術上有效控制。差分隱私技術通過增加噪聲來保護數(shù)據(jù)隱私,計算性能也很高,但噪聲帶來的偏差使得結(jié)果準確性降低??尚艌?zhí)行環(huán)境為程序、數(shù)據(jù)提供了一個安全可靠的環(huán)境,其性能及通用性具有較大優(yōu)勢,但信任鏈綁定CPU廠商,且理論上存在側(cè)信道攻擊的可能性。聯(lián)邦學習通過數(shù)據(jù)不出本地、只交換中間模型參數(shù)的方式實現(xiàn)多方安全建模。聯(lián)邦學習技術的安全性基于相信無法通過中間模型參數(shù)推斷出原始數(shù)據(jù),但此結(jié)論沒有密碼學保證,因此聯(lián)邦學習需要和其他密碼技術結(jié)合來保證安全性。與上述技術相比,多方安全計算基于密碼學安全,其安全性有嚴格密碼理論證明,不以信任任何參與方、操作人員、系統(tǒng)、硬件或軟件為基礎,同時計算準確度高,并支持可編程通用計算。目前多方安全計算面臨以下問題:從技術上看,計算性能問題是應用的一大障礙。隨著應用規(guī)模擴大,采用合適的計算方案保證運算時延與參與方數(shù)量呈現(xiàn)線性變化是目前各技術廠商面臨的一大挑戰(zhàn)。目前,多家技術廠家正在研究采用硬件設備進行運算加速。從安全性上看,多方安全計算的目標是保證多方數(shù)據(jù)融合計算時的隱私安全,一些傳統(tǒng)安全問題,如訪問控制、傳輸安全等,仍然需要其他相應的技術手段。1.螞蟻集團螞蟻集團旗下多方安全計算平臺是一套自主研發(fā)的工業(yè)級分布式高性能的多方安全計算智能應用平臺,具備功能豐富擴展性強的多方安全算子庫和多方安全計算的高效機器學習算法庫,可以實現(xiàn)多方安全聯(lián)合建模、聯(lián)合分析、聯(lián)合規(guī)則。平臺已規(guī)模化在金融行業(yè)中實踐,賦能數(shù)十家金融機構(gòu)實現(xiàn)聯(lián)合風控。2.華控清交華控清交是于2018年由清華大學發(fā)起組建的專注于研究隱私計算等數(shù)據(jù)安全技術的企業(yè),是目前業(yè)界唯一一個有強大學術基礎及后續(xù)補充的科技企業(yè)。華控清交以基于密碼學的多方安全計算為核心,結(jié)合數(shù)據(jù)脫敏、差分隱私、聯(lián)邦學習和可信計算等基于明文計算的數(shù)據(jù)隱私保護技術和區(qū)塊鏈,創(chuàng)建了一套具有強橫向擴展性、高并行計算性能、便于監(jiān)管的數(shù)據(jù)融合與流通平臺,可以同時支持隱匿查詢、聯(lián)合統(tǒng)計、聯(lián)合建模和數(shù)據(jù)跨境等數(shù)據(jù)應用需求。富數(shù)科技定位于企業(yè)級安全計算平臺,自主研發(fā)本地化安全計算平臺——Avatar,從功能上集成富數(shù)科技多方安全計算、聯(lián)邦學習、匿蹤查詢、聯(lián)盟區(qū)塊鏈等四大核心技術能力,解決包括本地化部署、聯(lián)合統(tǒng)計、聯(lián)合建模、聯(lián)合營銷、查詢不留痕等行業(yè)需求,實現(xiàn)完全本地化平臺產(chǎn)品交付。金融機構(gòu)放款前須對借款人的資質(zhì)、資產(chǎn)情況進行審核,避免金融風險。傳統(tǒng)方式采用線下人工審核借款人/投資人資格,用戶耗時耗力、結(jié)果無法通用。借助于多方安全計算,實現(xiàn)基于行業(yè)內(nèi)可信的數(shù)據(jù)平臺,通過秘密分享或者不經(jīng)意傳輸技術,實現(xiàn)隱匿查詢功能,從而即保證各個金融機構(gòu)數(shù)據(jù)的安全性,也對查詢?nèi)藛T信息進行了保護。具體而言,查詢方采用多方安全計算,隱藏被查詢對象關鍵詞或客戶ID信息,數(shù)據(jù)提供方匹配查詢結(jié)果卻無法獲知具體對應哪個查詢對象,同時保護查詢方的查詢意圖和數(shù)據(jù)提供方的數(shù)據(jù)。數(shù)據(jù)不出域,杜絕數(shù)據(jù)緩存、數(shù)據(jù)泄漏、數(shù)據(jù)販賣的可能性。2.聯(lián)合統(tǒng)計各參與方數(shù)據(jù)對其它方和多方計算平臺保密,查詢結(jié)果方只得到統(tǒng)計信息,無統(tǒng)計的算法參數(shù)等其他信息。統(tǒng)計方通過多方計算平臺查詢一個或多個數(shù)據(jù)提供方的數(shù)據(jù)庫,得到查詢統(tǒng)計結(jié)果,統(tǒng)計結(jié)果與在明文數(shù)據(jù)庫上查詢的結(jié)果一致。例如,某電力行業(yè)監(jiān)管機構(gòu)統(tǒng)計某工業(yè)電力數(shù)據(jù)總量。利用多方安全計算平臺,通過秘密分享、同態(tài)加密等技術,實現(xiàn)安全的聯(lián)合統(tǒng)計,保障上市企業(yè)不提前披露數(shù)據(jù)。在保險行業(yè)中,通過多方安全計算可實現(xiàn)醫(yī)療保險公司與醫(yī)療機構(gòu)間對理賠標準進行分析,在保障用戶隱私的前提下實現(xiàn)合理的理賠標準制定以及理賠的線上智能風控。二、聯(lián)邦學習2016年,谷歌提出聯(lián)邦學習,使安卓手機終端用戶在本地更新模型,隨后因為其有效的解決數(shù)據(jù)孤島問題而被大力推廣。聯(lián)邦學習最大的價值在于改變了數(shù)據(jù)資源的擁有和聯(lián)合方式,目前廣泛應用于提升人工智能網(wǎng)絡模型能力。國外聯(lián)邦學習起步較早,已形成商業(yè)化產(chǎn)品,例如,谷歌的TensorFlowFederated、英偉達的ClaraFL等。國內(nèi)廠商方面,2020年通過評測的聯(lián)邦學習產(chǎn)品多達18款,包括微眾銀行推出的工業(yè)級聯(lián)邦學習框架FATE等。目前擁有聯(lián)邦學習平臺和產(chǎn)品的企業(yè)已經(jīng)超過60多家,涉及各類企業(yè),由此可見聯(lián)邦學習在隱私計算領域的應用正在不斷擴大。圖9聯(lián)邦學習發(fā)展來源:國家工業(yè)信息安全發(fā)展研究中心聯(lián)邦學習的本質(zhì)是一種機器學習框架,即分布式機器學習技術。聯(lián)邦學習以一個中央服務器為中心節(jié)點,通過與多個參與訓智能模型的更新迭代,即中央服務器首先生成一個通用神經(jīng)網(wǎng)絡模型,各個參與方將這個通用模型下載至本地并利用本地數(shù)據(jù)訓練模型,將訓練后的模型所更新的內(nèi)容上傳至中央服務器,通過將多個參與方的更新內(nèi)容進行融合均分來優(yōu)化初始通用模型,再由各個參與方下載更新后的通用模型進行上述處理,這個過程不斷重復直至達到某一個既定的標準。在整個聯(lián)邦學習的過程中,各參與方的數(shù)據(jù)始終保存在其本地服務器,降低了數(shù)據(jù)泄露的風圖10聯(lián)邦學習模式來源:國家工業(yè)信息安全發(fā)展研究中心聯(lián)邦學習根據(jù)不同參與方的數(shù)據(jù)特點,可分為三類:1.橫向聯(lián)邦學習橫向聯(lián)邦學習適合樣本數(shù)據(jù)的特征重合較多,但數(shù)據(jù)量較少的場景,即各個參與方的業(yè)務邏輯相似,但是用戶不重合。例如,銀行行業(yè)與保險行業(yè)中,不同企業(yè)或不同地區(qū)的同行業(yè)的業(yè)務邏輯是相同的,但是用戶不重合。故橫向聯(lián)邦學習是以樣本聯(lián)合為基本思想來進行模型訓練。圖11橫向聯(lián)邦學習來源:國家工業(yè)信息安全發(fā)展研究中心在橫向聯(lián)邦學習中,各個參與方從中心服務器下載初始或當前最新的通用模型,利用本地數(shù)據(jù)對模型進行訓練,并將加密后的模型梯度返回到中心服務器,服務器依據(jù)各參與方返回的數(shù)據(jù)對現(xiàn)有通用模型進行更新之后,各參與方再重新利用新的模型進行訓練。2.縱向聯(lián)邦學習縱向聯(lián)邦學習適合各參與方的樣本數(shù)據(jù)重疊多,但樣本數(shù)據(jù)特征重疊較少的場景,即各個參與方的用戶相似,但是業(yè)務邏輯不同的情況。例如同一地區(qū)的銀行行業(yè)和零售行業(yè),本質(zhì)上各自的用戶都是該地區(qū)的居民,但他們的業(yè)務邏輯不同。故縱向聯(lián)邦學習是以重疊用戶在不同業(yè)務邏輯下的特征聯(lián)合為基本思想來進行訓練的。圖12縱向聯(lián)邦學習來源:國家工業(yè)信息安全發(fā)展研究中心縱向聯(lián)邦學習首先將各參與方所參加訓練的樣本進行加密對齊,再進行訓練。由中心服務器向各參與方發(fā)送公鑰,這個公鑰用來加密各節(jié)點與中心服務器中所需傳輸?shù)臄?shù)據(jù),各參與方從中心服務器下載初始模型進行訓練,將模型的梯度使用私鑰加密傳輸至中心服務器,在中心服務器聚合各參與方返回的數(shù)據(jù)將模型更新之后,各參與方下載更新結(jié)果并解密,再進行下一輪訓練。3.聯(lián)邦遷移學習聯(lián)邦遷移學習適合各參與方的樣本數(shù)據(jù)重疊較少,同時樣本數(shù)據(jù)特征也重疊較少的場景。即各個參與方的用戶重疊較少,業(yè)務邏輯也不同的情況。例如不同地區(qū)的不同行業(yè),其面向的用戶是不同的,所完成的業(yè)務也是不同的。故聯(lián)邦遷移學習是以源領域和目標領域之間的相似性為基本思想進行模型訓練的。聯(lián)邦遷移學習要求各參與方在樣本加密對齊的基礎上對各自的梯度、權(quán)重及損失進行計算,通過加密上傳至中心服務器,中心服務器基于上傳的數(shù)據(jù)進行聚合并調(diào)整通用訓練模型,各參與方下載并解密進行訓練。圖13聯(lián)邦遷移學習來源:國家工業(yè)信息安全發(fā)展研究中心聯(lián)邦學習所解決的根本問題是從參與訓練的數(shù)據(jù)量著手來提升神經(jīng)網(wǎng)絡模型的性能。聯(lián)邦學習提出之前,業(yè)內(nèi)通常從收集與產(chǎn)生更多的數(shù)據(jù)、對數(shù)據(jù)進行縮放、變換及選擇更優(yōu)的特征四個方面來提升算法性能,即從已有數(shù)據(jù)出發(fā),增加現(xiàn)有數(shù)據(jù)的質(zhì)量及復用性來提升神經(jīng)網(wǎng)絡模型性能。但提升整體模型算法性能投入較大,一方面是不同算法對軟硬件需求不同,另一方面是普適優(yōu)秀的算法產(chǎn)出難度較大。一般來說,當數(shù)據(jù)特征相似時,神經(jīng)網(wǎng)絡的模型性能與數(shù)據(jù)量和數(shù)據(jù)質(zhì)量成正比,但由于公開數(shù)據(jù)集體量不足,導致模型訓練期的數(shù)據(jù)投喂量不足,使得模型性能不夠優(yōu)秀,只能解決與當前參訓數(shù)據(jù)特征相似的數(shù)據(jù)場景,這些模型市場應用效果較差。另外,業(yè)內(nèi)也通過數(shù)據(jù)的整合及購買等手段嘗試解決這類問題,但單次訓練的數(shù)據(jù)量巨大,對算力提出了更高的要求,因此在算力不足的情況下同樣不能高效的訓練出性能較好的模型。與原有方案對比,聯(lián)邦學習由于其具有分布式訓練和聯(lián)合訓練的特點,一方面能夠解決訓練階段數(shù)據(jù)特征單一的問題,從而獲得一個性能更好的、優(yōu)于利用自己本身數(shù)據(jù)集所訓練出的模型。另一方面,各參與方只需在本地利用各自數(shù)據(jù)集進行訓練,數(shù)據(jù)體量未增加,算力成本壓力小。因為整個訓練過程中各參與方的數(shù)據(jù)都不會離開本地,只將模型的梯度及權(quán)重等信息上傳至中心服務器進行聚合分割,對于各參與方來說這樣既不會直接泄露隱私數(shù)據(jù),也不會額外增加參訓數(shù)據(jù)量,從而完成訓練任務。但當下只依靠聯(lián)邦學習依然存在著安全問題。從訓練機制看,關鍵步驟在于中心服務器聚合及分發(fā)神經(jīng)網(wǎng)絡梯度及權(quán)重等信息。一是就目前業(yè)內(nèi)應用較大的神經(jīng)網(wǎng)絡模型來看,因為從底層編碼開始構(gòu)建一個基礎的神經(jīng)網(wǎng)絡模型通常耗時耗力,多數(shù)企業(yè)從開源平臺獲取或第三方平臺上購買基礎模型,這樣的基礎模型本身就有植入病毒的可能。二是利用中心服務器收集的梯度及權(quán)重信息能夠反推出每個參與方的數(shù)據(jù)信息。三是聯(lián)邦學習的機制默認所有參與方都是可信方,無法規(guī)避某個參與方惡意提供虛假數(shù)據(jù)甚至病害數(shù)據(jù),從而對最終的訓練模型造成不可逆轉(zhuǎn)的危害。針對上述聯(lián)邦學習存在的安全問題,首先可以考慮由一個公認可信方負責提供基礎的神經(jīng)網(wǎng)絡模型。其次,在中心服務器進行梯度及權(quán)重等信息聚合分發(fā)時,結(jié)合基于密碼學的加密方式,例如同態(tài)加密、差分隱私等,對各參與方上傳的信息進行二次加密以保證無法通過梯度、權(quán)重等信息進行反推。最后,針對現(xiàn)存可信方形成一個聯(lián)邦學習的生態(tài)圈和相應的黑名單,并引入激勵懲罰機制,以此來保證生態(tài)圈內(nèi)的參與合作方都為可信方。1.微眾銀行微眾銀行是國內(nèi)最初提出聯(lián)邦學習概念并將其應用于企業(yè)產(chǎn)品中的團隊。旗下基于聯(lián)邦學習技術的貸款服務平臺一方面通過聯(lián)邦學習所訓練的推薦模型提高產(chǎn)品推廣的精準度,另一方面通過安全風控模型把控用戶的信用評級和授信額度,以提高金融產(chǎn)品的盈利率。由于微眾銀行由騰訊內(nèi)部孵化,與國內(nèi)其他基于聯(lián)邦學習技術的金融廠商相比,用戶基數(shù)群構(gòu)成了其較大的數(shù)據(jù)優(yōu)2.螞蟻集團螞蟻集團旗下螞蟻隱私計算智能服務平臺基于自主研發(fā)Fascia聯(lián)邦學習開發(fā)框架與多方安全計算、差分隱私等技術結(jié)合實現(xiàn)更安全的聯(lián)邦學習產(chǎn)品,可實現(xiàn)聯(lián)合統(tǒng)計、聯(lián)合建模。在醫(yī)療行業(yè)中,聯(lián)合阿里云已與大型跨國醫(yī)療企業(yè)合作應用在疾病診斷、檢查推薦、用藥推薦、罕見病預測、質(zhì)控規(guī)則管理等場景中,為醫(yī)療數(shù)據(jù)治理、全院質(zhì)控、醫(yī)學研究、醫(yī)保風控和臨床核心業(yè)務中的痛點難點問題提供解決方案。翼方健數(shù)是一家以隱私計算和人工智能為主要研究方向,以多方安全計算及聯(lián)邦學習為主要技術手段的平臺服務型企業(yè)。2019年初發(fā)布數(shù)據(jù)醫(yī)療隱私計算平臺XDP翼數(shù)坊。旗下系列產(chǎn)品PathFinder、Pioneer、Percepter主要著力于解決智慧醫(yī)療生態(tài)下的各類現(xiàn)存問題,包括聯(lián)邦學習賦能病歷的自主學習,傳染病的防控模型及疾病的病灶圖像識別等。4.數(shù)牘科技數(shù)牘科技是于2019年組建的基于聯(lián)邦學習及多方安全計算技術的技術服務公司,旗下產(chǎn)品Sodu當前主要服務于銀行業(yè),用于用戶獲取及信用評估場景,為銀行各系列金融產(chǎn)品提供更精準的用戶群和相對應的信用等級指標。5.锘崴科技锘崴科技是一家以隱私計算和醫(yī)學基因為主要研究方向的大數(shù)據(jù)隱私計算平臺公司。旗下的產(chǎn)品锘崴信基于聯(lián)邦學習技術為業(yè)界提供了一個數(shù)據(jù)價值合作流動生態(tài),以數(shù)據(jù)的價值提供方和價值使用方為主要參與者,打造數(shù)據(jù)可用不可見、數(shù)據(jù)價值流通的服務平臺。聯(lián)邦學習因其滿足“數(shù)據(jù)可用不可得”的特點,使其能夠在大量需要數(shù)據(jù)支撐的行業(yè)得以應用。從國內(nèi)現(xiàn)有廠商和其產(chǎn)品來看,金融與醫(yī)療行業(yè)是目前應用最多的方向。此外,增量市場主要體現(xiàn)在以下幾個方面:一是應用于工業(yè)領域,主要保障倉儲及物流的數(shù)據(jù)安全性。二是應用于車聯(lián)網(wǎng)及自動駕駛領域,提高單個車輛節(jié)點對交通風險的識別和規(guī)避能力,更能提高整個自動駕駛網(wǎng)絡的安全性。三是應用于智慧城市,聯(lián)合多行業(yè)進行安防系統(tǒng)的共同構(gòu)建,形成高防控能力的風控模型。醫(yī)療行業(yè)中面向醫(yī)療機構(gòu)與相關企業(yè)基于聯(lián)邦學習技術進行聯(lián)合建模的落地應用。例如,多家醫(yī)療機構(gòu)以性別、年齡等數(shù)據(jù)特征及患病與否等標簽,采用橫向聯(lián)邦學習聯(lián)合開展一項某項疾病的因素分析。此外,醫(yī)療機構(gòu)與醫(yī)保局通過同一用戶群的支付數(shù)據(jù)、醫(yī)院就診數(shù)據(jù)、金融信用數(shù)據(jù),采用縱向聯(lián)邦學習聯(lián)合分析醫(yī)保欺詐。一般情況下,聯(lián)邦學習訓練的模型性能可達到集中式訓練水平。2.信用風險防控金融行業(yè)中面向金融機構(gòu)與政府基于聯(lián)邦學習技術進行聯(lián)合建模的落地應用。例如金融機構(gòu)結(jié)合其服務企業(yè)的金融行為、資產(chǎn)等特征與政府的企業(yè)信息、企業(yè)稅務信息、企業(yè)違規(guī)信息等特征,采用縱向聯(lián)邦學習聯(lián)合建模開展企業(yè)的信用風控評估。金融機構(gòu)間通過同一用戶群的金融行為數(shù)據(jù)采用縱向聯(lián)邦學習聯(lián)合分析金融反欺詐。三、差分隱私差分隱私技術自2006年提出后經(jīng)歷了從單純的理論研究階段到目前實際應用反哺理論研究階段。其相對傳統(tǒng)密碼學,具有計算復雜度低的優(yōu)勢,目前差分隱私進入了具備完備的基礎原理,在實際應用中根據(jù)需要不斷探索技術邊界的階段。圖14差分隱私發(fā)展來源:國家工業(yè)信息安全發(fā)展研究中心差分隱私是基于信息論和概率論的一門學科,提供一種從統(tǒng)計數(shù)據(jù)庫查詢,最大化數(shù)據(jù)查詢的準確性,同時最大限度減少識別查詢記錄的方法。差分隱私的隱私保護程度較高,滿足差分隱私的數(shù)據(jù)集能夠抵抗任何對隱私數(shù)據(jù)的攻擊,即攻擊者根據(jù)獲取到的部分數(shù)據(jù)信息并不能推測出全部數(shù)據(jù)信息?;诓罘蛛[私保護的數(shù)據(jù)發(fā)布是差分隱私研究中的核心內(nèi)容。傳統(tǒng)的差分隱私,即中心化差分隱私,將各方的原始數(shù)據(jù)集中到一個可信的數(shù)據(jù)中心,對計算結(jié)果添加噪音。但由于可信的數(shù)據(jù)中心很難實現(xiàn),因此出現(xiàn)了本地差分隱私。本地差分隱私為了消除可信數(shù)據(jù)中心,直接在用戶的數(shù)據(jù)集上做差分隱私,再傳輸?shù)綌?shù)據(jù)中心進行聚合計算,數(shù)據(jù)中心也無法推測原始數(shù)據(jù),從而保護數(shù)據(jù)隱私。目前差分隱私技術已經(jīng)被谷歌和蘋果廣泛應用于IOS系統(tǒng)和Chrome系統(tǒng)中,雖然這項技術僅發(fā)展了十年,但其應用覆蓋面不僅包括計算機和手機的操作系統(tǒng),也包含業(yè)內(nèi)金融及醫(yī)療的大多數(shù)場景中,使用差分隱私可以在保護數(shù)據(jù)隱私的前提下進行數(shù)據(jù)的查詢分析等操作。在差分隱私算法提出之前的數(shù)十年里,學術界一直在探索數(shù)據(jù)分析中的隱私保護技術,包括k-匿名,I-多樣化等。但是這些技術都有局限性和相應的攻擊手段。微軟科學家CynthiaDwork在2006年提出了“差分隱私”,從信息論的角度給出了嚴格的隱私泄露的定義。以此為基礎,學術界提出一系列差分隱私的算法和系統(tǒng),針對不同的應用場景來降低隱私的泄露。從差分隱私機制角度,針對不同需求提出了諸如拉普拉斯機制、高斯機制、隨機響應機制、指數(shù)機制、稀疏向量等經(jīng)典差分隱私保護機制。為了減小對數(shù)據(jù)查詢、函數(shù)計算結(jié)果的影響,減小差分隱私引入的噪聲功率、階梯機制、截斷拉普拉斯等機制也相繼被提出。另外,針對數(shù)據(jù)相關性等影響,高斯矩陣機制等一些新的機制也相繼提出。為了減小差分隱私對性能的損失,研究人員根據(jù)不同需要提出了針對不同場景的隱私放大方案,例如,基于采樣的隱私放大、基于迭代的隱私放大、基于改組的隱私放大等。同時,對于多次的查詢和迭代計算,進一步提出了差分隱私界和相應的中心極限定理。差分隱私技術不僅作為一個獨立的技術方向得到深入的研究,又與深度學習、聯(lián)邦學習、多方安全計算等方向深度耦合。例如為聯(lián)邦學習和深度學習提供隱私保護。由于其對性能的影響,也催生了對聯(lián)邦學習、深度學習中適應差分隱私保護的特別的框架和模型的研究,在多方安全計算中,采用可計算的差分隱私能大大降低多方安全計算的計算復雜度和通訊量。但就目前多個研究,差分隱私由于其技術機制原理,算法輸出結(jié)果并不精確,學術界還在進行更高效的差分隱私技術研究。1.螞蟻集團螞蟻集團旗下隱私計算智能服務平臺將差分隱私與多方安全計算、聯(lián)邦學習技術結(jié)合,實現(xiàn)全鏈路的計算隱私保護,已在醫(yī)療行業(yè)的聯(lián)合診斷增強中進行探索性應用。1.推薦系統(tǒng)推薦系統(tǒng)用于幫助企業(yè)或用戶從大量數(shù)據(jù)中尋找可能需要的信息,需要利用大量用戶數(shù)據(jù)進行協(xié)同過濾。在基于差分隱私的推薦系統(tǒng)中,數(shù)據(jù)中心利用局部差分隱私,將處理之后的數(shù)據(jù)集上傳到數(shù)據(jù)中心進行聚合計算,將獲得相同計算結(jié)果的數(shù)據(jù)反饋給用戶。以此達到在不泄露隱私數(shù)據(jù)的前提下完成推薦行為。行業(yè)研究的機構(gòu)、政府治理監(jiān)管部門通過網(wǎng)絡數(shù)據(jù)和流量記錄數(shù)據(jù)對行業(yè)的發(fā)展狀況進行分析及研究。差分隱私技術可以將用戶的網(wǎng)絡蹤跡,包括但不限于瀏覽記錄、用戶習慣、使用時長、下載記錄等進行保護處理。四、機密計算自Intel2015年發(fā)布IntelSGX以來,機密計算發(fā)展日益加速,涌現(xiàn)出越來越多的新技術和新產(chǎn)品(見下圖)。機密計算技術是通過在基于軟硬件的可信執(zhí)行環(huán)境(TrustedExecutionEnvironment,TEE)中執(zhí)行計算,保護數(shù)據(jù)和應用,達到隱私計算效果的技術。機密計算結(jié)合安全傳輸和安全存儲等傳統(tǒng)技術,可實現(xiàn)包含傳輸、存儲、計算在內(nèi)的全周期數(shù)據(jù)隱私保護。相對于其他隱私計算技術,機密計算具有通用和高效的特點,不僅可以無縫支持通用計算框架和應用,而且計算性能基本可匹敵明文計算(比如正常的Linux計算應用)。因此,機密計算的應用范圍極為廣泛,尤其對于安全可信云計算、大規(guī)模數(shù)據(jù)保密協(xié)作、隱私保護的深度學習等涉及大數(shù)據(jù)、高性能、通用隱私計算的場景,更是不可或缺的技術手段。圖15機密計算發(fā)展來源:國家工業(yè)信息安全發(fā)展研究中心機密計算的實施依托TEE的軟硬件實現(xiàn)和TEE的支撐軟件。TEE實現(xiàn)方面,目前主流的CPU廠商都提供了TEE實現(xiàn),比如ISGX、AMDSEV、IntelTDX、ARMRealm等;一些國產(chǎn)CPU也提供了頗具競爭力的TEE實現(xiàn),比如x86CSV。值得一提的是,HyperEnclave),在充分利用CPU的內(nèi)存加密能力的同時,將信任根從CPU卸載到外置可信模塊,可以讓用戶對TEE信任鏈具有更強的掌控力和自主性,緩解了對于TEE信任鏈和CPU硬件廠商綁定的擔憂。TEE支撐軟件方面,目前已經(jīng)形成了比較完整的TEE軟件棧,機密計算是一種通用高效的隱私計算技術,其通過隔離、可的機密性和完整性。TEE作為機密計算的支撐技術,一般需實現(xiàn)如下四個技術目標的一個或多個:隔離執(zhí)行、遠程證明、內(nèi)存加密、和數(shù)據(jù)封印。其中,隔離執(zhí)行是通過軟硬結(jié)合的隔離技術將TEE和非TEE系統(tǒng)隔離開來,使得可信應用的TCB(TrustedComputingBase,可信計算基)僅包含應用自身和實現(xiàn)TEE的基礎軟硬件,而其他軟件甚至是操作系統(tǒng)內(nèi)核這樣的特權(quán)軟件都可以是不可信的甚至是惡意的。遠程證明支持對TEE中代碼進行度量,并向遠程系統(tǒng)證明的確是符合期望的代碼運行在合法的TEE中;內(nèi)存加密用于保證在TEE中代碼和數(shù)據(jù)在內(nèi)存中計算時是處于加密形態(tài)的,以防止特權(quán)軟件甚至硬件的窺探;而數(shù)據(jù)封印可用于從TEE將數(shù)據(jù)安全地寫入外部的永久存儲介質(zhì),且該數(shù)據(jù)僅能被相關TEE再次讀入。IntelSGX是目前應用最廣泛的TEE,它完整實現(xiàn)了上述四個技術也完整實現(xiàn)了上述四個目標。一些TEE如ARMTrustZone等則僅實現(xiàn)了部分目標。從TEE軟件支撐技術來看,現(xiàn)有TEESDK要求開發(fā)者采用二分式開發(fā)方法分割應用并設計好各部分的接口,其基礎庫所支持的API非常有限且僅支持C/C++等編程語言,難以支持多數(shù)應用或算法框架也不能適應業(yè)界對于多種編程語言的需求。與其對比,2019年開源的Occlum和2016年開源的Graphene,作為機密計算聯(lián)盟的官方TEEOS項目,可兼容Linux環(huán)境的API,使現(xiàn)有應用幾乎不需分割或改造,即可運行于可信執(zhí)行環(huán)境,大大降低了TEE應用開發(fā)門檻。TEEOS也支持多語言,例如,Occlum除了C/C++JS等,從而能支持主流AI或大數(shù)據(jù)框架。安全性上,Occlum用內(nèi)存安全語言Rust開發(fā),可排除大部分內(nèi)存安全問題,且提供了加密文件系統(tǒng)及加密鏡像的支持。TEE集群支持將TEE和現(xiàn)代集群軟件如Kubernetes有機結(jié)合。開源軟件KubeTEE實現(xiàn)了TEEDevicePlugin,使得TEE節(jié)點可以納入Kubernetes的統(tǒng)一伸縮和容錯框架,同時利用TEE特有的遠程證明機制支持集群規(guī)模的遠程證明和密鑰管理。在TEE支撐軟件方面,國內(nèi)外廠商基本處于同一水平,且出于增強可信度的需要,基本都采用了開源軟件的形式。目前在該SGXSDK的主力開發(fā)人員也是國內(nèi)團隊。在TEE應用軟件方面,國內(nèi)對于應用場景的探索更加深入和落地,比如在區(qū)塊鏈隱私保護、數(shù)據(jù)協(xié)作、聯(lián)合風控、隱私保護的大數(shù)據(jù)處理系統(tǒng)有豐富的應用案例。機密計算相對于其他隱私技術的優(yōu)勢在于它兼顧了安全性、通用性、和高效性。相對于其他隱私計算技術,機密計算具有通用和高效的優(yōu)勢,不僅可以無縫支持通用計算框架和應用,而且計算性能基本可匹敵明文計算。它可以單獨用于隱私計算,也可以與其他技術結(jié)合在一起來保護隱私,尤其對于安全可信云計算、大規(guī)模數(shù)據(jù)保密協(xié)作、隱私保護的深度學習等涉及大數(shù)據(jù)、高性能、通用隱私計算的場景,是重要的技術手段。從而影響到機密計算技術的可信度。機密計算的另一個缺點是目前的TEE實現(xiàn)在理論上存在側(cè)信道攻擊的可能性。針對第一個缺點,近年來業(yè)界涌現(xiàn)出了基于虛擬化技術將信任鏈跟CPU解耦的Enclave等。國內(nèi)廠商螞蟻推出的HyperEnclave,進一步將信任根從CPU卸載到外置可信模塊并托管到國家權(quán)威機構(gòu),只借用CPU的內(nèi)存加密硬件能力,實現(xiàn)了軟硬結(jié)合、靈活自主、不依賴CPU廠商可信性的TEE方案。針對第二個缺點,業(yè)界一般通過及時更新固件、隨機化、Dataoblivious系統(tǒng)設計等多種手段來緩解。1.螞蟻集團研發(fā)了結(jié)合虛擬化隔離技術和可信平臺模塊技術的新型TEEHyperEnclave可集成國內(nèi)外內(nèi)存加密硬件引擎,實現(xiàn)各項TEE技術目標。螞蟻集團開源了Occlum項目,并捐贈給機密計算聯(lián)盟成為聯(lián)盟官方產(chǎn)品。阿里云在2018年提供商業(yè)化的機密計算能力,在2020年推出了ACK-TEE機密計算集群服務。3.百度百度是國內(nèi)較早布局隱私計算產(chǎn)業(yè)的企業(yè)。百度點石聯(lián)合建模平臺基于IntelSGX可信執(zhí)行環(huán)境,結(jié)合聯(lián)邦學習、多方安全計算、隔離域、區(qū)塊鏈等技術能力,提供一站式企業(yè)級可信數(shù)據(jù)安全協(xié)作解決方案,滿足營銷、金融、醫(yī)療、政務等場景的業(yè)務需求。翼方健數(shù)以隱私安全計算為核心,在數(shù)據(jù)安全和隱私保護基礎上提供數(shù)據(jù)開放共享協(xié)作的環(huán)境。旗下推出的隱私安全計算平臺XDP翼數(shù)坊,融合英特爾SGX技術“機密計算”能力,與英特爾聯(lián)手發(fā)布的多模態(tài)隱私保護解決方案在任務處理、算法拓展性、計算機密性、一致性方面性能突出。目前主要為醫(yī)療健康、政府數(shù)據(jù)共享提供隱私計算基礎設施。圖16數(shù)據(jù)在TEE集群中的處理來源:國家工業(yè)信息安全發(fā)展研究中心上圖描繪了一個典型的基于TEE的多方數(shù)據(jù)融合處理場景——多個參與方將加密數(shù)據(jù)傳入TEE集群,并經(jīng)過遠程證明確認目標環(huán)境確實可信、且運行的是預期的可信應用,之后才允許數(shù)據(jù)在TEE中運算。此外,TEE還可用于區(qū)塊鏈鏈上隱私和鏈下隱私計算、面向機密數(shù)據(jù)的人工智能訓練和預測、隱私保護的大數(shù)據(jù)處理、關鍵IT基礎設施防護、安全可信的云計算等豐富的隱私計算場景。機密計算結(jié)合多方安全計算等技術,可服務聯(lián)合風控、智能營銷等多個業(yè)務場景。例如,采用多方安全計算、可信執(zhí)行環(huán)境雙引擎的架構(gòu),并結(jié)合區(qū)塊鏈、零知識證明、差分隱私等技術,可解決數(shù)據(jù)孤島的隱私、共識、可信難題,滿足客戶不同的安全性和性能要求,解決區(qū)塊鏈全生命隱私保護周期難題,應用于政企強隱私場景。基于機密計算構(gòu)建的鏈下隱私計算平臺,擴展區(qū)塊鏈隱私及數(shù)據(jù)處理能力,將大數(shù)據(jù)、機器學習等引入?yún)^(qū)塊鏈技術生態(tài),已規(guī)?;瘧迷跀?shù)字物流、金融風控等領域。五、可證去標識可證去標識應用基于個人及參與方授權(quán)的數(shù)據(jù)輸出,結(jié)果數(shù)據(jù)無法推斷個人隱私或商業(yè)機密,保障數(shù)據(jù)挖掘過程中任何參與方無法接觸用戶隱私,但可參與數(shù)據(jù)價值挖掘。該技術通過創(chuàng)新的去標識技術和身份防關聯(lián)技術,保證數(shù)據(jù)在分析和計算的過程中不會被關聯(lián)到數(shù)據(jù)主體,并且只有獲得授權(quán)的計算結(jié)果接收方才能恢復結(jié)果數(shù)據(jù)的主體信息??勺C去標識是一種面向大數(shù)據(jù)規(guī)模(百億級)離線挖掘以及高性能實時決策(MS級)場景、基于可證明去標識技術的多方隱私計算方案。主要特點是將隱私安全能力植入大數(shù)據(jù)計算、存儲引擎等基礎設施,構(gòu)建一個大規(guī)??尚艛?shù)據(jù)環(huán)境,各方數(shù)據(jù)在域內(nèi),提升多方數(shù)據(jù)融合計算過程中的隱私安全水位,實現(xiàn)數(shù)據(jù)融合計算過程中的可算不可識,且不改變業(yè)務原有技術棧和使用習慣,同時最小化改變數(shù)據(jù)內(nèi)容,業(yè)務算法模型精度不折損??尚湃俗R和可證無身份關聯(lián)等技術聯(lián)合使用(稱為隱私標識計算)可以一方面提供充分的隱私保護能力(符合GB/T35273-2020《個另一方面保留數(shù)據(jù)原始顆粒度并支持高性能實時的計算和分析。在數(shù)據(jù)規(guī)模較大(比如大于百萬條記錄)或?qū)τ嬎阈阅芤筝^高時,基于多方安全計算或聯(lián)邦學習的技術可能難以滿足性能或者實時性需求。在大規(guī)模或?qū)崟r性要求較強的數(shù)據(jù)分析場景下,可證去標識是目前唯一能同時滿足隱私合規(guī)要求和計算性能要求的新技術。這種技術確保數(shù)據(jù)去標識后,數(shù)據(jù)接收方無法重新識別或者關聯(lián)個人信息主體??勺C去標識首先對參與計算的多方數(shù)據(jù)可信去標識管控,確保所有計算基于去標識化數(shù)據(jù)展開;其次構(gòu)建集中式的可信計算環(huán)境,通過對試圖關聯(lián)或還原個體身份的高危行為進行攔截,實現(xiàn)挖掘過程中個人數(shù)據(jù)“可算不可識”;最后在結(jié)果輸出階段對輸出數(shù)據(jù)進行原始數(shù)據(jù)擁有主體及用戶的雙重確權(quán),實現(xiàn)了價值輸出時各方權(quán)益可保障。該方案可與現(xiàn)有大數(shù)據(jù)技術棧無縫集成,且采用集中式計算規(guī)避了跨網(wǎng)延時成本,可支持大規(guī)模數(shù)據(jù)的高性能分析和計算,且計算場景受限較小,支持幾乎所有類型的數(shù)據(jù)分析和建模,較好地平衡了個人隱私權(quán)保障、數(shù)據(jù)處理規(guī)模和業(yè)務實時性,適用于對計算環(huán)境存在信任基礎的多方大規(guī)模數(shù)據(jù)挖掘場景。但可證去標識需明細個人屬性數(shù)據(jù)需要流動,外部合作方可能存在信任障礙。1.螞蟻集團螞蟻集團可證去標識適用于多方開展大規(guī)模離線數(shù)據(jù)挖掘以及高性能在線數(shù)據(jù)分析場景??勺C去標識是一種全新的隱私計算技術,允許多方依法合規(guī)的使用數(shù)據(jù),安全可控的進行數(shù)據(jù)分析和計算,同時支持大規(guī)模數(shù)據(jù)和實時計算??勺C去標識適用于以下場景:一是快速拉升隱私安全及合規(guī)水位,例如2周完成微貸離線全域邏輯隔離及邏輯去標識,1月完成貸后催收及關系網(wǎng)絡物理鏈路整改。二是大規(guī)模數(shù)據(jù)挖掘及高性能實時決策,支撐搜索推薦百億級數(shù)據(jù)處理及模型訓練,首頁推薦、大促會場等200ms內(nèi)容推薦。三是融合數(shù)據(jù)可復用,支持常態(tài)化數(shù)據(jù)共享。第三章產(chǎn)業(yè)篇現(xiàn)階段尚未有精確的計算方法進行隱私計算產(chǎn)業(yè)規(guī)模的預測,但隱私計算在數(shù)據(jù)共享、流通、傳輸?shù)确矫婢猩婕?,結(jié)合我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模來看,隱私計算產(chǎn)品市場規(guī)模約為10億,基于隱私計算的數(shù)據(jù)交易應用模式市場或?qū)⑦_到千億級。一、產(chǎn)業(yè)現(xiàn)狀從“十三五”期間的云計算、大數(shù)據(jù)、人工智能,到近年快速發(fā)展的區(qū)塊鏈、物聯(lián)網(wǎng)、量子計算,各界對數(shù)據(jù)安全性和隱私性的重視提高到了前所未有的高度,這都對數(shù)據(jù)安全及數(shù)據(jù)隱私保護都提出了更多更高的要求,隱私計算前景與市場潛力巨大。但產(chǎn)業(yè)目前處于初期探索階段,從技術、企業(yè)主體、行業(yè)應用到市場模式仍有較大發(fā)展空間。(一)技術層面,隱私計算多技術融合應用通常隱私計算單一技術分支只在解決某特定問題上具有較好表現(xiàn)。因此在項目實踐中,根據(jù)行業(yè)不同場景的信任假設以及需求的復雜性、多元性,需要選擇整合多種技術的框架,以支持數(shù)據(jù)使用和可信計算的場景應用。具體而言,商業(yè)場景下的隱私數(shù)據(jù)保護是多元的,包括AI和非AI的需求、數(shù)據(jù)量區(qū)別、各方信任問題及保護對象的差異等,因此完備的數(shù)據(jù)處理的基礎設施和系統(tǒng)不可能依賴單一技術。其中密碼學作為嚴謹?shù)募夹g基礎,定義了系統(tǒng)安全閾值。在此基礎上,所有安全技術都有性能損失,因此需要推動系統(tǒng)實現(xiàn)、技術組合以及密碼技術迭代發(fā)展以提升各項性能,城市級大型應用尤其如此。例如,湖北某市多點觸發(fā)的傳染病防控應用功能要求多樣、數(shù)據(jù)來源廣泛,涉及衛(wèi)生健康、醫(yī)院醫(yī)藥、公安、海關邊防、教育、交通等各部門數(shù)據(jù),在保密性、準確性和計算效率之間找到平衡點,體現(xiàn)了多技術融合的隱私安全計算應用價值,具體采用多方安全計算進行政務平臺和健康醫(yī)療平臺部分信息的聯(lián)合查詢和聯(lián)合分析;采用聯(lián)邦學習進行涉及多系統(tǒng)、多組織間的傳染病疾控預警模型、癥候群智能監(jiān)控預警模型訓練;此外采用區(qū)塊鏈實現(xiàn)數(shù)據(jù)的鏈上存證核驗、計算過程關鍵數(shù)據(jù)和環(huán)節(jié)的上鏈存證回溯,確保計算過程的可驗證性等。(二)主體層面,多方企業(yè)加碼隱私計算根據(jù)Gartner的預測,到2025年全球?qū)⒂幸话氲拇笮推髽I(yè)機構(gòu)在不受信任的環(huán)境和多方數(shù)據(jù)分析用例中使用隱私計算處理數(shù)據(jù)。近幾年,大量專攻隱私計算的初創(chuàng)公司成立,致使自2018年起在隱私計算領域投入研究的企業(yè)數(shù)量激增。我國該領域的企業(yè)總量在260家左右,其中2018年至2020年的初創(chuàng)企業(yè)達160家,占比約為60%。從企業(yè)行業(yè)分布來看,軟件和信息技術服務業(yè)占比最高,約為47%,此類企業(yè)包括專攻隱私計算技術領域企業(yè)及布局隱私計算領域的區(qū)塊鏈、大數(shù)據(jù)廠商;商務服務約為33%,此類企業(yè)主要圍繞法律服務、咨詢調(diào)查等提供中介服務;技術推廣服務約為13%,此類企業(yè)主要包括醫(yī)療、安防、人社等各領域的隱私計算應用企業(yè);信息系統(tǒng)集成服務約為7%,此類主要包括數(shù)據(jù)存儲與處理、數(shù)據(jù)平臺運營等數(shù)據(jù)服務集成商。圖17涉足隱私計算企業(yè)成立日期來源:國家工業(yè)信息安全發(fā)展研究中心從2018年開始,螞蟻集團、百度、阿里、騰訊等互聯(lián)網(wǎng)龍頭企業(yè),富數(shù)、同盾、星環(huán)等成熟的網(wǎng)絡安全及大數(shù)據(jù)公司以及華控清交、锘崴科技等初創(chuàng)型科技企業(yè),已接連入局隱私計算。此外,微眾銀行、平安集團等行業(yè)數(shù)據(jù)高度聚合企業(yè)涌入隱私計算領域,開展數(shù)據(jù)增值業(yè)務。表1國內(nèi)隱私計算廠商綜合型互聯(lián)網(wǎng)公司螞蟻多方安全計算MPC、聯(lián)邦學習可信執(zhí)行環(huán)境可信執(zhí)行環(huán)境、差分隱私浦發(fā)螞蟻聯(lián)合風控、跨醫(yī)療機構(gòu)隱私計算平臺網(wǎng)絡(阿里云螞蟻聯(lián)合)、基于多方安全計算的在線健康險風控服務百度參與國標制定(TC260,TC601,etc)、PaddleFL框架開源,Meta可信執(zhí)行環(huán)境,BFC通用安全計算平臺——騰訊FL應用服務白皮書,Gartner在線反欺詐推薦廠商,安全競賽名次江蘇銀行、濟寧銀行、四川航空、騰訊醫(yī)療健康華為聯(lián)邦學習、多方安全計算、可信執(zhí)行環(huán)境探索初期,暫無字節(jié)跳動開源兩磅學習FL平臺FedlearnerFL梯度保護算法火山引擎(內(nèi)部智科)外部提升廣告主投放效益網(wǎng)絡安全及大數(shù)據(jù)公司京東數(shù)科自研聯(lián)邦學習FL平臺雄安新區(qū)“塊數(shù)據(jù)平臺”;南通新基建富數(shù)多方安全計算/聯(lián)邦學習交通銀行星環(huán)聯(lián)邦學習電力數(shù)據(jù)看經(jīng)濟同盾聯(lián)邦學習合作銀行金融機構(gòu)平安科技蜂巢聯(lián)邦學習智能平臺,IDC獎項金融子公司聯(lián)合建模,精準獲客微眾銀行聯(lián)邦學習C位,FATE開源,FL白皮書2.0,大量FL行標極視角“視覺聯(lián)邦系統(tǒng)"、一嗨租車、山東高速金服,同濟大學藥物隱私初創(chuàng)專精型公司翼方健數(shù)安全沙箱、聯(lián)邦學習廈門健康醫(yī)療大數(shù)據(jù)平臺華控清交多方安全計算基于多方安全計算的人臉識別驗證數(shù)據(jù)安全融合平臺、云上貴州數(shù)據(jù)安全可控開發(fā)利用云平臺數(shù)牘多方安全計算聯(lián)通大數(shù)據(jù)公司數(shù)據(jù)科學研發(fā)平臺建設中國移動多方支全計算平臺(試點)藍象多方安全計算——锘崴聯(lián)邦學習基因檢測來源:國家工業(yè)信息安全發(fā)展研究中心但隱私計算從單一技術到場景落地面臨諸多挑戰(zhàn),落地效果取決于廠商的多方面能力,包括產(chǎn)品、技術、實施與服務、生態(tài)建設等。市場發(fā)展初期,行業(yè)標準尚未完全建立,大批技術水平參差不齊的廠商進入,市場魚龍混雜。第一梯隊企業(yè)已建立開源社區(qū)、開放平臺、隱私計算相關產(chǎn)業(yè)聯(lián)盟,著力構(gòu)建隱私計算生態(tài)體系,打造數(shù)據(jù)經(jīng)濟體。第二梯隊企業(yè)自主開發(fā)隱私計算技術,已在行業(yè)形成豐富的應用實踐,累計大量特定場景的數(shù)據(jù)模型。但大量企業(yè)基于tensorflow等開源工具構(gòu)架隱私計算能力,研發(fā)水平不足。(三)應用層面,金融及醫(yī)療行業(yè)應用發(fā)展最快獲取用戶數(shù)據(jù)涉及科技型企業(yè)的核心競爭力,收集大量個人數(shù)據(jù)實現(xiàn)了用極低的邊際效應實現(xiàn)新的產(chǎn)品,例如在互聯(lián)網(wǎng)公司的收益中占比極高的廣告投放。這是隱私計算前景及需求較高,但目前除互聯(lián)網(wǎng)領域外,僅在金融、醫(yī)療(如下圖)等強監(jiān)管領域有較多實踐的原因。圖18隱私計算圖譜來源:國家工業(yè)信息安全發(fā)展研究中心醫(yī)療數(shù)據(jù)是個人隱私的最后防線,自身具有高價值與隱私性強等特點,其使用權(quán)與所有權(quán)的矛盾始終存在。而隱私計算的出現(xiàn)化解了這一矛盾進而在醫(yī)療領域前景廣闊,呈現(xiàn)自上而下、自下而上雙向并行的現(xiàn)象。國家層面,國家醫(yī)療健康大數(shù)據(jù)首批試點城市廈門構(gòu)建了基于隱私安全計算技術的“健康醫(yī)療數(shù)據(jù)應用開放平臺”,在保證數(shù)據(jù)隱私的前提下,通過開放平臺提高數(shù)據(jù)使用效率,打破數(shù)據(jù)孤島,構(gòu)建了一個醫(yī)療數(shù)據(jù)應用開放的數(shù)據(jù)生態(tài)。企業(yè)層面,隱私計算技術廠商積極對接醫(yī)療大數(shù)據(jù)國家隊為合作對象,例如翼方健數(shù)搭建城市醫(yī)療信息平臺,依托城市醫(yī)療數(shù)據(jù)發(fā)展醫(yī)療領域隱私計算;锘崴科技瞄準基因數(shù)據(jù)庫,研究隱私計算在基因組數(shù)據(jù)聯(lián)合共享和分析過程中的應用。金融行業(yè)落地條件成熟,是隱私計算的最佳切入點。一是金融行業(yè)存在較多數(shù)據(jù)交易,由于監(jiān)管趨嚴,對隱私計算的需求增強;二是金融行業(yè)的客戶付費能力強,商業(yè)模式變現(xiàn)空間大;三是金融行業(yè)數(shù)據(jù)基礎設施完善,對數(shù)據(jù)安全的要求也最為嚴格,因此金融領域應用案例向其他行業(yè)推廣的復制性強、可用性廣。目前,隱私計算在金融領域主要有以下幾方面:最大的應用體現(xiàn)在風控模型聯(lián)合建模上,在銀行、互聯(lián)網(wǎng)金融、消費金融等機構(gòu)得到廣泛應用;其次,保險等金融機構(gòu)運用隱私求交等隱私計算技術聯(lián)合外部數(shù)據(jù)合作方建立精準的營銷模型;此外,信貸業(yè)務企業(yè)在名單共享、多頭借貸信息共享等方面使用隱私計算在反欺詐中保護隱私及商業(yè)秘密。(四)市場層面,尚未形成成熟的市場環(huán)境及商業(yè)模式隱私計算的市場環(huán)境及商業(yè)模式尚未成熟。市場環(huán)境方面,由于隱私計算技術復雜且常常呈現(xiàn)“黑盒化”現(xiàn)象,且處理對象常涉及敏感數(shù)據(jù)資產(chǎn),隱私計算眾多技術提供方須首先建立信任,提升需求方接受程度。長期來看,隱私計算有可能從合規(guī)避險的技術手段上升為數(shù)據(jù)產(chǎn)業(yè)鏈的重要環(huán)節(jié)。但目前隱私計算效率問題、框架可操作性等問題仍需解決或進一步改善,現(xiàn)象級的跨越發(fā)展需要明確的政策拉動等契機催動。從商業(yè)模式分析,數(shù)據(jù)資源型企業(yè)將向平臺型企業(yè)發(fā)展,更加注重與上游數(shù)據(jù)源企業(yè)的對接,積累高價值數(shù)據(jù)源合作方,并從數(shù)據(jù)質(zhì)量測試等方面入手保障數(shù)據(jù)可用性。技術創(chuàng)新型企業(yè)將深耕某場景解決方案,注重提升對技術需求方的服務能力,針對個性化、多元化的需求快速私有化部署軟硬件,保障各項性能指標滿足需求方吞吐量、延時性等實際要求。兩類企業(yè)將在較長時間維持共生甚至合作關系,尤其目前隱私計算前期驗證階段,行業(yè)較長時間內(nèi)定制化需求較高,且市場處于對隱私計算技術提供機構(gòu)的信任構(gòu)建期,中立廠商大有可為,將形成“多山頭”局面。二、產(chǎn)業(yè)環(huán)境Gartner將隱私計算作為2021年重要戰(zhàn)略科技趨勢。隱私計算已成為近兩年的熱點,并將在接下來的幾年持續(xù)保持熱度?,F(xiàn)階段,產(chǎn)業(yè)已涌現(xiàn)出一批創(chuàng)業(yè)型企業(yè),該領域也成為投融資機構(gòu)的關注焦點之一。此外,隨著創(chuàng)新成果的轉(zhuǎn)化,相關技術專利申請與標準化建設也在持續(xù)推進。(一)政策支持:多部門多地發(fā)布規(guī)劃支持隱私計算我國以政策手段促進技術創(chuàng)新發(fā)展,利用規(guī)劃指明發(fā)展方向,防止監(jiān)管遏制科技進步。在數(shù)字經(jīng)濟迅速發(fā)展的背景下,隱私計算技術的關鍵作用正在逐漸顯現(xiàn),發(fā)展規(guī)劃等各項相關推進政策也將不斷向行業(yè)化、地方化方向細分發(fā)展,自2019年起多行業(yè)各地方規(guī)劃提出研究利用隱私計算解決相關問題(如下表)。從行業(yè)角度來看,近兩年隱私計算政策側(cè)重于金融科技、工業(yè)大數(shù)據(jù)、區(qū)塊鏈三個領域。在地方層面,2020年,湖南、山東、上海等地區(qū)都對隱私計算做出了更為細致的規(guī)劃。可以肯定的是,在未來5年時間,我國關于隱私計算的相關政策和立法的落實、執(zhí)行及深化將進一步推動行業(yè)發(fā)展需求。除了個人數(shù)據(jù)及隱私保護,國家在數(shù)據(jù)安全、數(shù)據(jù)要素流通等方面的一系列舉措,更將從數(shù)據(jù)監(jiān)管和國家利益的高度確立隱私計算的巨大價值和重要地位。表2明確發(fā)展隱私計算的政策文件政策名稱地區(qū)發(fā)布時間《金融科技(FinTech)發(fā)展規(guī)劃(2019-2021年)》國家(人民銀行)2019.8.26《工業(yè)大數(shù)據(jù)發(fā)展指導意見(征求意見稿)》國家(工信部)2019.9.4《關于加快構(gòu)建全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系的指導意見》國家(國家發(fā)改委)2020.12.23《湖南省區(qū)塊鏈發(fā)展總體規(guī)劃(2020—2025年)》湖南省2020.10.27《關于印發(fā)山東省推進工業(yè)大數(shù)據(jù)發(fā)展的實施方案(2020-2022年)的通知》山東省2020.12.9《贛州市數(shù)字經(jīng)濟發(fā)展規(guī)劃(2019-2023年)》江西省贛州市2020.3.10《貴陽貴安區(qū)塊鏈發(fā)展三年行動計劃(2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論