AI平臺安全白皮書_第1頁
AI平臺安全白皮書_第2頁
AI平臺安全白皮書_第3頁
AI平臺安全白皮書_第4頁
AI平臺安全白皮書_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、AI平臺安全白皮書AI安全白皮書執(zhí)行摘要執(zhí)行摘要近年來,隨著海量數(shù)據(jù)的積累、計算能力的發(fā)展、機器學(xué)習(xí)方法與系統(tǒng)的持續(xù)創(chuàng)新與演進,諸如圖像識別、語音識別、自然語言翻譯等人工智能技術(shù)得到普遍部署和廣泛應(yīng)用,人工智能正朝著歷史性時刻邁進。與此同時,AI對于傳統(tǒng)計算機安全 領(lǐng)域的研究也產(chǎn)生了重大影響,除了利用AI來構(gòu)建各種惡意檢 測、攻擊識別系統(tǒng)外,黑客也可能利用AI達到更精準的攻擊。 除此之外,在關(guān)鍵的AI應(yīng)用場景上,AI自身的安全性變得前所 未有的重要,極需要構(gòu)建一個不會被外界干擾而影響判斷的健壯AI系統(tǒng)。可以說AI幫助了安全,安全也能幫助AI。本白皮書主要目的是探討AI自身的安全,確保AI模型和

2、數(shù)據(jù)的 完整性與保密性,使其在不同的業(yè)務(wù)場景下,不會輕易地被攻擊者影響而改變判斷結(jié)果或泄露數(shù)據(jù)。不同于傳統(tǒng)的系統(tǒng)安全漏洞,機器學(xué)習(xí)系統(tǒng)存在安全漏洞的根因是其工作原理極為復(fù)雜,缺乏可解釋性。各種AI系統(tǒng)安全問題(惡意機器學(xué)習(xí))隨之產(chǎn)生,閃避攻擊、藥餌攻擊以及各種后門漏洞攻擊層出不窮。這些攻擊不但精準,而且對不同的機器學(xué)習(xí)模型有很強的可傳遞性,使得基于深度神經(jīng)網(wǎng)絡(luò)(DNN)的一系列AI應(yīng)用面臨較大的安全威脅。例如,攻擊者在訓(xùn)練階段摻入惡意數(shù)據(jù),影響AI模型推理能力;同樣也可以在判斷階段對要判斷的樣本加入 少量噪音,刻意改變判斷結(jié)果;攻擊者還可能在模型中植入后門并實施高級攻擊;也能通過多次查詢竊取模

3、型和數(shù)據(jù)信息。華為致力于AI安全的研究,旨在提供一個令用戶放心的AI應(yīng)用安 全環(huán)境,為華為AI使能構(gòu)建智能世界的新時代愿景與使命做出 貢獻。為了應(yīng)對AI安全的新挑戰(zhàn),本白皮書提出了將AI系統(tǒng)部 署到業(yè)務(wù)場景中所需要的三個層次的防御手段:攻防安全,對已知攻擊設(shè)計有針對性的防御機制;模型安全,通過模型驗證等手段提升模型健壯性;架構(gòu)安全,在部署AI的業(yè)務(wù)中設(shè)計不 同的安全機制保證業(yè)務(wù)安全。未來,華為的AI安全任重而道遠。在技術(shù)上,需要持續(xù)研究AI 可解釋性,增強對機器學(xué)習(xí)工作機理的理解,并構(gòu)建機制性防御措施搭建AI安全平臺;在業(yè)務(wù)上,需要詳細剖析AI在產(chǎn)品線 的應(yīng)用案例,落地經(jīng)過測試和驗證的AI安全

4、關(guān)鍵技術(shù)。以“萬 物感知、萬物互聯(lián)、萬物智能”為特征的智能社會即將到來, 華為愿與全球的客戶和伙伴們共同努力攜手并進,共同面對AI 安全挑戰(zhàn)。目錄目錄1. 邁向智能社會022. AI安全面臨五大挑戰(zhàn)033. AI安全典型攻擊方式04TOC o 1-1 h z u HYPERLINK l _TOC_250003 閃避攻擊04 HYPERLINK l _TOC_250002 藥餌攻擊05 HYPERLINK l _TOC_250001 后門攻擊05 HYPERLINK l _TOC_250000 模型竊取攻擊054. AI安全防御手段06AI安全攻防07AI模型安全09AI業(yè)務(wù)的安全架構(gòu)105.

5、攜手共建安全的智慧未來12參考文獻13邁向智能社會邁向智能社會近年來,隨著海量數(shù)據(jù)的積累、計算能力的發(fā)展、機器學(xué)習(xí)方法與系統(tǒng)的持續(xù)創(chuàng)新與演進,諸如圖像識別、語音識別、自然語言翻譯等人工智能技術(shù)得到普遍部署和廣泛應(yīng)用。越來越多公司都將增大在AI的投入,將其作為業(yè)務(wù)發(fā)展 的重心。華為全球產(chǎn)業(yè)愿景預(yù)測:到2025年,全球?qū)崿F(xiàn)1000億聯(lián)接,覆蓋77%的人口;85%的企業(yè)應(yīng)用將部署到云上;智能家庭機器人將進入12%的家庭,形成千億美元的市場。人工智能技術(shù)的發(fā)展和廣泛的商業(yè)應(yīng)用充分預(yù)示著一個萬物智能的社會正在快速到來。1956年,麥卡錫、明斯基、香農(nóng)等人提出“人工智能”概念。60年后的今天,伴隨著谷歌

6、DeepMind開發(fā)的圍棋程序AlphaGo戰(zhàn)勝人類圍棋冠 軍,人工智能技術(shù)開始全面爆發(fā)。如今,芯片和傳感器的發(fā)展使“+智能”成為大勢所趨:交通+智能,最懂你的路;醫(yī)療+智能,最懂你的痛;制造+智能,最懂你所需。加州大學(xué)伯克利分校的學(xué)者們認為人工智能在過去二十年 快速崛起主要歸結(jié)于如下三點原因1:1)海量數(shù)據(jù):隨著互聯(lián)網(wǎng)的興起,數(shù)據(jù)以語音、視頻和文字等形式快速增長;海量數(shù)據(jù)為機器學(xué)習(xí)算法提供了充足的營養(yǎng),促使人工智能技術(shù)快速發(fā)展。2)高擴展計算機和軟件系統(tǒng):近年來深度學(xué)習(xí)成功主要歸功于新一波的CPU集群、GPU和TPU等專用硬件和相關(guān)的軟件平臺。3)已有資源的可獲得性:大量的開源軟件協(xié)助處理數(shù)

7、據(jù)和支持AI相關(guān)工作,節(jié)省了大量的開發(fā)時間和費用;同時許多云服務(wù)為開發(fā)者提供 了隨時可獲取的計算和存儲資源。在機器人、虛擬助手、自動駕駛、智能交通、智能制造、智慧城市等各個行業(yè),人工智能正朝著歷史性時刻邁進。谷歌、微軟、亞馬遜等大公司紛紛將AI作為引領(lǐng)未來的核心發(fā)展戰(zhàn)略。2017年谷歌DeepMind升級版的AlphaGo Zero橫空出世;它不再需要人類棋譜數(shù)據(jù),而是進行自我博弈,經(jīng)過短短3天的自我訓(xùn)練就強勢打敗了AlphaGo。AlphaGo Zero能夠發(fā)現(xiàn)新知識并發(fā)展出打破常規(guī)的新策略,讓我們看到了利用人工智能技術(shù)改變?nèi)祟惷\的巨大潛能。我們現(xiàn)在看到的只是一個開始;未來,將會是一個全聯(lián)

8、接、超智能的世界。人工智能將為人們帶來極致的體驗,將積極影響人們的工作和生活,帶來經(jīng)濟的繁榮與發(fā)展。AI安全面臨五大挑戰(zhàn)AI安全面臨五大挑戰(zhàn)AI有巨大的潛能改變?nèi)祟惷\,但同樣存在巨大的安全風(fēng)險。這種安全風(fēng)險存在的根本原因是AI算法設(shè)計之初普遍未 考慮相關(guān)的安全威脅,使得AI算法的判斷結(jié)果容易被惡意攻擊者影響,導(dǎo)致AI系統(tǒng)判斷失準。在工業(yè)、醫(yī)療、交通、 監(jiān)控等關(guān)鍵領(lǐng)域,安全危害尤為巨大;如果AI系統(tǒng)被惡意攻擊,輕則造成財產(chǎn)損失,重則威脅人身安全。AI安全風(fēng)險不僅僅存在于理論分析,并且真實的存在于現(xiàn)今各種AI應(yīng)用中。例如攻擊者通過修改惡意文件繞開惡意文 件檢測或惡意流量檢測等基于AI的檢測工具;

9、加入簡單的噪音,致使家中的語音控制系統(tǒng)成功調(diào)用惡意應(yīng)用;刻意修 改終端回傳的數(shù)據(jù)或刻意與聊天機器人進行某些惡意對話,導(dǎo)致后端AI系統(tǒng)預(yù)測錯誤;在交通指示牌或其他車輛上貼 上或涂上一些小標記,致使自動駕駛車輛的判斷錯誤。應(yīng)對上述AI安全風(fēng)險,AI系統(tǒng)在設(shè)計上面臨五大安全挑戰(zhàn):軟硬件的安全:在軟件及硬件層面,包括應(yīng)用、模型、平臺和芯片,編碼都可能存在漏洞或后門;攻擊者能夠利用這些漏洞或后門實施高級攻擊。在AI模型層面上,攻擊者同樣可能在模型中植入后門并實施高級攻擊;由于AI 模型的不可解釋性,在模型中植入的惡意后門難以被檢測。數(shù)據(jù)完整性:在數(shù)據(jù)層面,攻擊者能夠在訓(xùn)練階段摻入惡意數(shù)據(jù),影響AI模型推

10、理能力;攻擊者同樣可以在判斷 階段對要判斷的樣本加入少量噪音,刻意改變判斷結(jié)果。模型保密性:在模型參數(shù)層面,服務(wù)提供者往往只希望提供模型查詢服務(wù),而不希望曝露自己訓(xùn)練的模型;但通過多次查詢,攻擊者能夠構(gòu)建出一個相似的模型,進而獲得模型的相關(guān)信息。模型魯棒性:訓(xùn)練模型時的樣本往往覆蓋性不足,使得模型魯棒性不強;模型面對惡意樣本時,無法給出正確的判斷結(jié)果。數(shù)據(jù)隱私:在用戶提供訓(xùn)練數(shù)據(jù)的場景下,攻擊者能夠通過反復(fù)查詢訓(xùn)練好的模型獲得用戶的隱私信息。AI安全典型攻擊方式AI安全典型攻擊方式閃避攻擊閃避攻擊是指通過修改輸入,讓AI模型無法對其正確識別。閃避攻擊是學(xué)術(shù)界研究最多的一類攻擊,下面是學(xué)術(shù)界提

11、出的最具代表性的三種閃避攻擊:對抗樣本的提出:研究表明深度學(xué)習(xí)系統(tǒng)容易受到精心設(shè)計的輸入樣本的影響。這些輸入樣本就是學(xué)術(shù)界定義的對抗樣例或樣本,即Adversarial Examples。它們通常是在正常樣本上加入人眼難以察覺的微小擾動,可以很容易地愚弄正常的深度學(xué)習(xí)模型。微小擾動是對抗樣本的基本前提,在原始樣本處加入人類不易察覺的微小擾動會導(dǎo)致深度學(xué)習(xí)模型的性能下降。Szegedy 等人2在2013年最早提出了對抗樣本的概念。在其之后,學(xué)者相繼提出了其他產(chǎn)生對抗樣本的方法,其中Carlini等人提出的CW攻擊可以在擾動很小的條件下達到100%的攻擊成功率,并且能成功繞過大部分對抗樣本的防御機

12、制。物理世界的攻擊:除了對數(shù)字的圖片文件加擾,Eykholt等人3對路標實體做涂改,使AI路標識別算法將“禁止通行”的路標識別成為“限速45”。它與數(shù)字世界對抗樣本的區(qū)別是,物理世界的擾動需要抵抗縮放,裁剪,旋轉(zhuǎn), 噪點等圖像變換。傳遞性與黑盒攻擊:生成對抗樣本需要知道AI模型參數(shù),但是在某些場景下攻擊者無法得到模型參數(shù)。Papernot等人4發(fā)現(xiàn)對一個模型生成的對抗樣本也能欺騙另一個模型,只要兩個模型的訓(xùn)練數(shù)據(jù)是一樣的。這種傳遞性(Transferability)可以用來發(fā)起黑盒攻擊,即攻擊者不知道AI模型參數(shù)。其攻擊方法是,攻擊者先對要攻擊的模型進行多次查詢,然后用查詢結(jié)果來訓(xùn)練一個“替代

13、模型”,最后攻擊者用替代模型來產(chǎn)生對抗樣本。產(chǎn)生出來的對抗樣本可以成功欺騙原模型。AI安全典型攻擊方式藥餌攻擊AI系統(tǒng)通常用運行期間收集的新數(shù)據(jù)進行重訓(xùn)練,以適應(yīng)數(shù)據(jù)分布的變化。 例如,入侵檢測系統(tǒng)(IDS)持續(xù)在網(wǎng)絡(luò)上收集樣本,并重新訓(xùn)練來檢測新的攻擊。在這種情況下,攻擊者可能通過注入精心設(shè)計的樣本,即藥餌,來使訓(xùn)練數(shù)據(jù)中毒(被污染),最終危及整個AI系統(tǒng)的正常功能,例如逃逸AI的安全分類等。深度學(xué)習(xí)的特點是需要大量訓(xùn) 練樣本,所以樣本質(zhì)量很難完全保證。Jagielski等人5發(fā)現(xiàn),可以在訓(xùn)練樣本中摻雜少量的惡意樣本,就能很大程度干擾AI模型準確率。他們提出最優(yōu)坡度攻擊、全局最優(yōu)攻擊、統(tǒng)計優(yōu)

14、化攻擊三種藥餌攻擊。并展示了這些藥餌攻擊對于健康數(shù)據(jù)庫,借貸數(shù)據(jù)庫跟房價數(shù)據(jù)庫的攻擊,影響這些AI模型對新樣本的判斷。通過加入藥餌數(shù)據(jù)影響對用藥量的分析、對貸款量/利息的分析判斷、對房子售價的判斷。通過加入8%的惡意數(shù)據(jù),攻擊者能夠使模型對超過50%的患者的用藥量建議時,出現(xiàn)超過 75%的變化量。后門攻擊與傳統(tǒng)程序相同,AI模型也可以被嵌入后門。只有制造后門的人知道如何觸發(fā),其他人無法知道后門的存在,也無法觸發(fā)。與傳統(tǒng)程序不同的是,神經(jīng)網(wǎng)絡(luò)模型僅由一組參數(shù)構(gòu)成,沒有源代碼可以被人讀懂,所以后門的隱蔽性更高。攻擊者通過在神經(jīng)網(wǎng)絡(luò)模型中植入特定的神經(jīng)元生成帶有后門的模型,使得模型雖然對正常輸入與原

15、模型判斷一致,但對特殊輸入的判斷會受攻擊者控制。如Gu等人6提出一種在AI模型中嵌入后門的方法,只有輸入圖像中包 含特定圖案才能觸發(fā)后門,而其他人很難通過分析模型知道這個圖案或這個后面的存在。此類攻擊多發(fā)生在模型的生成或傳輸過程。模型竊取攻擊模型/訓(xùn)練數(shù)據(jù)竊取攻擊是指攻擊者通過查詢,分析系統(tǒng)的輸入輸出和其他外部信息,推測系統(tǒng)模型的參數(shù)及訓(xùn)練數(shù)據(jù)信息。與Software-as-a-Service類似,云服務(wù)商提出了AI-as-a-Service(AIaaS)的概念,即由AI服務(wù)提供商負 責模型訓(xùn)練和識別等服務(wù)。這些服務(wù)對外開放,用戶可以用其開放的接口進行圖像,語音識別等操作。Tramr等學(xué)者7提

16、出一種攻擊,通過多次調(diào)用AIaaS的識別接口,從而把AI模型“竊取”出來。這會帶來兩個問題:一是知識產(chǎn)權(quán)的竊取。樣本收集和模型訓(xùn)練需要耗費很大資源,訓(xùn)練出來的模型是重要的知識產(chǎn)權(quán)。二是前文提到的黑盒閃避攻擊。攻擊者可以通過竊取的模型構(gòu)造對抗樣本。AI安全防御手段圖1描繪了AI系統(tǒng)部署到業(yè)務(wù)場景中所需要三個層次的防御手段:1、攻防安全:對已知攻擊所設(shè)計的有針對性的防御機制;2、模型安全:通過模型驗證等手段提升模型健壯性;3、架構(gòu)安全:在AI部署的業(yè)務(wù)中設(shè)計不同的安全機制保證架構(gòu)安全。AI云側(cè)訓(xùn)練AI模型訓(xùn)練模型AI業(yè)務(wù)部署部署業(yè)務(wù)反饋業(yè)務(wù)總控AI推理功能功能功能功能AI推理AI推理AI推理AI推

17、理設(shè)備設(shè)備設(shè)備設(shè)備數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)防藥餌數(shù)據(jù)數(shù)據(jù)可解釋數(shù)據(jù)自恰防閃避、后門可驗證模型模型健壯性防模型竊取模型可解釋多模型架構(gòu)AI安全防閃避攻擊、防藥餌攻擊、防后門攻擊、防模型竊取攻防安全模型安全數(shù)據(jù)可解釋、可驗證模型、模型健壯性、可解釋模型架構(gòu)安全隔離與檢測、冗余與熔斷、多模型架構(gòu)、數(shù)據(jù)自恰性隔離| 檢測冗余| 熔斷圖1 AI安全防御架構(gòu)AI安全攻防針對上一章提到已知的攻擊方式,學(xué)術(shù)界已有許多對抗方法,對于可能遭受的攻擊能提供不同程度的緩解,圖2列出AI系統(tǒng)在數(shù)據(jù)收集、模型訓(xùn)練及模型使用階段的各種防御技術(shù)。數(shù)據(jù)收集階段模型訓(xùn)練階段模型使用階段竊取攻擊后門攻擊藥餌攻擊閃避攻擊模型水印隱私聚合

18、教師模型PATE回歸分析訓(xùn)練數(shù)據(jù)過濾DNN模型驗證輸入重構(gòu)對抗樣本檢測對抗訓(xùn)練網(wǎng)絡(luò)蒸餾差分隱私輸入預(yù)處理模型剪枝集成分析對抗樣本生成圖2 AI安全防御技術(shù)閃避攻擊防御技術(shù):網(wǎng)絡(luò)蒸餾(Network Distillation):網(wǎng)絡(luò)蒸餾技術(shù)的基本原理是在模型訓(xùn)練階段,對多個DNN進行串聯(lián),其中前一個DNN生成的分類結(jié)果被用于訓(xùn)練后一個DNN。有學(xué)者8發(fā)現(xiàn)轉(zhuǎn)移知識可以一定程度上降低模型對微小擾動的敏感度,提高AI模型的魯棒性,于是提出將網(wǎng)絡(luò)蒸餾技術(shù)用于防御閃避攻擊,并在MNIST和CIFAR-10數(shù)據(jù)集上測試,發(fā)現(xiàn)該技術(shù)可將使特定攻擊(如JSMA)的成功率降低。對抗訓(xùn)練(Adversarial T

19、raining):該技術(shù)的基本原理是在模型訓(xùn)練階段,使用已知的各種攻擊方法生成對抗樣本,再將對抗樣本加入模型的訓(xùn)練集中,對模型進行單次或多次重訓(xùn)練,生成可以抵抗攻擊擾動的新模型。同時,由于綜合多個類型的對抗樣本使得訓(xùn)練集數(shù)據(jù)的增多,該技術(shù)不但可以增強新生成模型的魯棒性,還可以增強模型的準確率和規(guī)范性。對抗樣本檢測(Adversarial Sample Detection):該技術(shù)的原理為在模型的使用階段,通過增加外部檢測模型或原模型的檢測組件來檢測待判斷樣本是否為對抗樣本。在輸入樣本到達原模型前,檢測模型會判斷其是否為對抗樣本。檢測模型也可以在原模型每一層提取相關(guān)信息,綜合各種信息來進行檢測。

20、各類檢測模型可能依據(jù)不同標準來判斷輸入是否為對抗樣本。例如,輸入樣本和正常數(shù)據(jù)間確定性的差異可以用來當作檢測標準;對抗樣本的分布特征,輸入樣本的歷史都可以成為判別對抗樣本的依據(jù)。輸入重構(gòu)(Input Reconstruction):該技術(shù)的原理是在模型的使用階段,通過將輸入樣本進行變形轉(zhuǎn)化來對抗閃避攻擊,變形轉(zhuǎn)化后的輸入不會影響模型的正常分類功能。重構(gòu)方法包括對輸入樣本加噪、去噪、和使用自動編碼器(autoencoder)9改變輸入樣本等方法。DNN模型驗證(DNN Verification):類似軟件驗證分析技術(shù),DNN模型驗證技術(shù)使用求解器(solver)來驗證DNN模型的各種屬性,如驗證

21、在特定擾動范圍內(nèi)沒有對抗樣本。但是通常驗證DNN模型是NP完全問題,求解器的效率較低。通過取舍和優(yōu)化,如對模型節(jié)點驗證的優(yōu)先度選擇、分享驗證信息、按區(qū)域驗證等,可以進一步提高DNN模型驗證運行效率。以上各個防御技術(shù)都有具體的應(yīng)用場景,并不能完全防御所有的對抗樣本。除此之外,也可以通過增強模型的穩(wěn)定性來防御閃避攻擊,使模型在功能保持一致的情況下,提升AI模型抗輸入擾動的能力。同時也可以將上述防御技術(shù)進 行并行或者串行的整合,更有效的對抗閃避攻擊。藥餌攻擊防御技術(shù):訓(xùn)練數(shù)據(jù)過濾(Training Data Filtering):該技術(shù)側(cè)重對訓(xùn)練數(shù)據(jù)集的控制,利用檢測和凈化的方法防止藥餌攻擊影響模型

22、。具體方向包括10:根據(jù)數(shù)據(jù)的標簽特性找到可能的藥餌攻擊數(shù)據(jù)點,在重訓(xùn)練時過濾這些攻擊點; 采用模型對比過濾方法,減少可以被藥餌攻擊利用的采樣數(shù)據(jù),并過濾數(shù)據(jù)對抗藥餌攻擊。回歸分析(Regression Analysis):該技術(shù)基于統(tǒng)計學(xué)方法,檢測數(shù)據(jù)集中的噪聲和異常值。具體方法包括對模型定義不同的損失函數(shù)(loss function)來檢查異常值,以及使用數(shù)據(jù)的分布特性來進行檢測等。集成分析(Ensemble Analysis):該技術(shù)強調(diào)采用多個子模型的綜合結(jié)果提升機器學(xué)習(xí)系統(tǒng)抗藥餌攻擊的能力。多個獨立模型共同構(gòu)成AI系統(tǒng),由于多個模型采用不同的訓(xùn)練數(shù)據(jù)集,整個系統(tǒng)被藥餌攻擊影響的可能性

23、進一步降低。此外,通過控制訓(xùn)練數(shù)據(jù)的采集、過濾數(shù)據(jù)、定期對模型進行重訓(xùn)練更新等一系列方法,提高AI系統(tǒng)抗藥餌攻擊的綜 合能力。后門攻擊防御技術(shù):輸入預(yù)處理(Input Preprocessing):該方法的目的是過濾能觸發(fā)后門的輸入,降低輸入觸發(fā)后門、改變模型判斷的風(fēng)險11。模型剪枝(Model Pruning):該技術(shù)原理為適當剪除原模型的神經(jīng)元,在保證正常功能一致的情況下,減少后門神經(jīng)元起作用的可能性。利用細粒度的剪枝方法12,可以去除組成后門的神經(jīng)元,防御后門攻擊。模型/數(shù)據(jù)防竊取技術(shù):隱私聚合教師模型(PATE):該技術(shù)的基本原理是在模型訓(xùn)練階段,將訓(xùn)練數(shù)據(jù)分成多個集合,每個集合用于訓(xùn)

24、練一個獨立DNN模型,再使用這些獨立DNN模型進行投票的方法共同訓(xùn)練出一個學(xué)生模型13。這種技術(shù)保證了學(xué)生模型的判斷不會泄露某一個特定訓(xùn)練數(shù)據(jù)的信息,從而確保了訓(xùn)練數(shù)據(jù)的隱私性。差分隱私(Differential Privacy):該技術(shù)是在模型訓(xùn)練階段,用符合差分隱私的方法對數(shù)據(jù)或模型訓(xùn)練步驟進行加噪。例如有學(xué)者提出使用差分隱私生成梯度的方法14,保護模型數(shù)據(jù)的隱私。模型水?。∕odel Watermarking):該技術(shù)是在模型訓(xùn)練階段,在原模型中嵌入特殊的識別神經(jīng)元。如果發(fā)現(xiàn)有相似模型,可以用特殊的輸入樣本識別出相似模型是否通過竊取原模型所得。AI模型安全如上節(jié)所述, 惡意機器學(xué)習(xí)(Ad

25、versarial ML)廣泛存在,閃避攻擊(Evasion)、藥餌攻擊(Poisoning)以及各種后門漏洞攻擊無往不利,攻擊不但精準、也有很強的可傳遞性(Transferability),使得AI模型在實用中造成誤判的危害極大。因此,除了針對那些已知攻擊手段所做的防御之外,也應(yīng)增強AI模型本身的安全性,避免其它可能的攻擊 方式造成的危害,可以由如下圖3中列出的幾個方面展開??山忉寯?shù)據(jù)可解釋模型業(yè)務(wù)系統(tǒng)后饋檢測前饋檢測可驗證模型圖3 模型安全性分析模型可檢測性:如同傳統(tǒng)程序的代碼檢測,AI模型也可以通過各種黑盒、白盒測試等對抗檢測技術(shù)來保證一定程度的 安全性,已有測試工具基本都是基于公開數(shù)據(jù)

26、集,樣本少且無法涵蓋很多其他真實場景,而對抗訓(xùn)練技術(shù)則在重訓(xùn)練的過程中帶來較大的性能損耗。在AI系統(tǒng)的落地實踐中,需要對各種DNN模型進行大量的安全測試,如數(shù)據(jù)輸入訓(xùn)練模型前要做前饋檢測模塊過濾惡意樣本,或模型輸出評測結(jié)果經(jīng)過后饋檢測模塊從而減少誤判,才能在將AI系統(tǒng) 部署到實際應(yīng)用前提升AI系統(tǒng)的魯棒性。模型可驗證性:DNN模型有著比傳統(tǒng)機器學(xué)習(xí)更加預(yù)想不到的效果(如更高識別率,更低誤報率等),目前廣泛用于各種圖像識別、語音識別等應(yīng)用中,然而AI模型在關(guān)鍵安全應(yīng)用(如自動駕駛、醫(yī)學(xué)診斷等)領(lǐng)域還需要慎重。對DNN模型進行安全驗證(certified verification)也可以在一定程度

27、上保證安全性。模型驗證一般需要約束輸入空間(input space)與輸出空間(output space)的對應(yīng)關(guān)系,從而驗證輸出在一定的范圍內(nèi)。但是基于統(tǒng)計優(yōu)化(optimization)的學(xué)習(xí)及驗證方法總還是無法窮盡所有數(shù)據(jù)分布,而極端攻擊則有機可乘,這樣在實際應(yīng)用中較難實施具體的保護措施。只有在對DNN模型內(nèi)部工作機理充分理解的基礎(chǔ)上才能進一步解決機制性防御(principled defense)問題。模型可解釋性:目前大多數(shù)AI都被認為是一個非常復(fù)雜的黑盒子系統(tǒng),他的決策過程,判斷邏輯,判斷依據(jù)都很難被 人完全理解。目前有些業(yè)務(wù)中,例如棋類、翻譯業(yè)務(wù),為了讓人類和機器之間有更好的互動,

28、我們希望理解為什么機器做出了這些決定,但是AI系統(tǒng)不可解釋并不會帶來太多問題。如果它不告訴我們?yōu)槭裁窗堰@個單詞翻譯成了另一 個單詞,只要翻譯出的結(jié)果是好的,它就可以繼續(xù)是一個完全的黑盒子、完全復(fù)雜的系統(tǒng),而不會帶來什么問題。但對于有些業(yè)務(wù),不可解釋性往往對于會帶來業(yè)務(wù)法務(wù)風(fēng)險或者業(yè)務(wù)邏輯風(fēng)險。例如在保險、貸款分析系統(tǒng)中,如果AI系統(tǒng)不能給出其分析結(jié)果的依據(jù),那么就有可能會被詬病其帶有歧視;又例如在醫(yī)療保健中,為了精確的根據(jù)AI 的分析進行進一步的處理,我們需要了解AI做出判斷的根據(jù)。例如我們希望AI系統(tǒng)就其判斷一位病人有沒有癌癥給出 其數(shù)據(jù)分析及原因,AI系統(tǒng)需要有能力說“我把這些數(shù)據(jù)、圖像和

29、這個和那個做了對比從而得出了結(jié)論”。如果連其 運作的原理都無法得知,自然也就無法有效地設(shè)計一個安全的模型。增強AI系統(tǒng)的可解釋性,都有助于我們分析AI系 統(tǒng)的邏輯漏洞或者數(shù)據(jù)死角,從而提升AI系統(tǒng)安全性,打造安全AI。學(xué)術(shù)界正在對AI模型的可解釋性進行積極探索,如Strobelt等人15提出對隱藏激活函數(shù)做可視化分析;Morcos等人16提出用統(tǒng)計分析方法發(fā)現(xiàn)語義神經(jīng)元;以及Selvaraju等人17提出的針對圖形識別的顯著性檢測。模型可解釋性也可以通過以下三個階段展開:建模前的“數(shù)據(jù)可解釋”:模型是由數(shù)據(jù)訓(xùn)練而來,因此要解釋模型的行為,可以從分析訓(xùn)練此模型的數(shù)據(jù)開始。如果能從訓(xùn)練數(shù)據(jù)中找出幾

30、個具代表性的特征,可以在訓(xùn)練時選擇需要的特征來構(gòu)建模型,有了這些有意義的特征,便可對模型的輸入輸出結(jié)果有較好的解釋。構(gòu)建“可解釋模型”:一個方法是結(jié)合傳統(tǒng)機器學(xué)習(xí),對AI結(jié)構(gòu)進行補充。這種做法可以平衡學(xué)習(xí)結(jié)果的有效性與 學(xué)習(xí)模型的可解釋性,為解決可解釋性的學(xué)習(xí)問題提供了一種框架。傳統(tǒng)機器學(xué)習(xí)方法共同的重要理論基礎(chǔ)之一是統(tǒng)計學(xué),在自然語言處理、語音識別、圖像識別、信息檢索和生物信息等許多計算機領(lǐng)域已經(jīng)獲得了廣泛應(yīng)用并給出很好的可解釋性。對已構(gòu)筑模型進行解釋性分析:通過分析AI模型的輸入、輸出、中間信息的依賴關(guān)系分析及驗證模型的邏輯。學(xué)術(shù) 界中既有如LIME(Local Interpretable

31、 Model-Agnostic Explanations)18等能夠通用地分析多種模型的分析方法,也有需要針對模型構(gòu)造進行深入分析的分析方法。當AI系統(tǒng)具有可解釋性時,我們就可以比較有效地對系統(tǒng)進行驗證和檢測:例如通過針對AI系統(tǒng)各模塊及輸入數(shù)據(jù)間 邏輯關(guān)系分析,可以確認客戶償還能力分析模塊與客戶性別,種族無關(guān)。而AI系統(tǒng)具備可解釋性的另一個優(yōu)勢是,AI 系統(tǒng)的輸入/中間數(shù)據(jù)之間的邏輯關(guān)系會相對清晰。我們可以根據(jù)這些數(shù)據(jù)之間的自洽性判斷是否有非法/攻擊數(shù)據(jù), 甚至對惡意的攻擊樣本進行清除跟修復(fù),提高模型健壯性。歐盟一般數(shù)據(jù)保護法GDPR要求AI系統(tǒng)決策不能基于如用戶種族、政治立場、宗教信仰等數(shù)

32、據(jù)。而具備可解釋性的AI 系統(tǒng)可以確保其分析結(jié)論符合上述要求,避免出現(xiàn)受到“算法歧視”的受害人。大多AI系統(tǒng)中,其偏見問題往往不在于算法本身,而是提供給機器的數(shù)據(jù)。如果輸入數(shù)據(jù)中帶有存在偏見的數(shù)據(jù),例如公司HR有輕微拒絕女性求職者的偏見,這些數(shù)據(jù)將導(dǎo)致模型中的拒絕女性求職者案例增加,從而造成性別比例失調(diào)。即使性別并不是模型培訓(xùn)數(shù)據(jù)的重要特征,其數(shù)據(jù)也會使AI模型的分析結(jié)論進一步放大人類的本身偏見。而政府往往需要驗證AI使能系統(tǒng)的安全 性,可靠性,可解釋性。只有可解釋,可驗證的健壯AI系統(tǒng)才能給予公眾信心與信任。AI業(yè)務(wù)的安全架構(gòu)在大力發(fā)展人工智能的同時,必須高度重視AI系統(tǒng)引入可能帶來的安全風(fēng)

33、險,加強前瞻預(yù)防與約束引導(dǎo),最大限度降低風(fēng)險,確保人工智能安全、可靠、可控發(fā)展。而在業(yè)務(wù)中使用AI模型,則需要結(jié)合具體業(yè)務(wù)自身特點和架構(gòu),分析判 斷AI模型使用風(fēng)險,綜合利用隔離、檢測、熔斷和冗余等安全機制設(shè)計AI安全架構(gòu)與部署方案,增強業(yè)務(wù)產(chǎn)品健壯性。在自動駕駛業(yè)務(wù)中,當AI系統(tǒng)如果對剎車,轉(zhuǎn)彎,加速等等關(guān)鍵操作的判斷出現(xiàn)失誤時,可能會對用戶,對社會造成 巨大危害。因此需要保證AI系統(tǒng)在關(guān)鍵操作時的安全使用。對自動駕駛AI系統(tǒng)進行許多的安全測試當然很重要,但是 這種模擬測試方法并不能保證AI系統(tǒng)不出錯。在很多業(yè)務(wù)中,也許很難找到一個任何時候都能給出100%正確答案的 AI系統(tǒng)。相比之下,更重

34、要的是對系統(tǒng)架構(gòu)進行安全設(shè)計,使得當AI系統(tǒng)對判斷不確定的時候,業(yè)務(wù)還能夠回退到手 工操作等安全狀態(tài)。在醫(yī)療輔助AI系統(tǒng)中,如果AI系統(tǒng)對于“應(yīng)該給病人哪個藥,用量多少”這個問題不能給出確定 答案時,或感知到自身有可能受到攻擊時,相比給出一個可能造成危險的不準確預(yù)測,讓AI系統(tǒng)直接回答“請咨詢病 人的醫(yī)師”會更好一點。為了保護用戶利益,我們需要按照業(yè)務(wù)需求,在系統(tǒng)中合理運用如下安全機制確保AI業(yè)務(wù)安 全,如圖4所示:隔離檢測熔斷冗余綜合決策執(zhí)行手工操作AI推理規(guī)則判斷圖4 AI引入業(yè)務(wù)決策的安全架構(gòu)隔離:在滿足業(yè)務(wù)穩(wěn)定運行的條件約束下,AI系統(tǒng)會分析識別最佳方案然后發(fā)送至控制系統(tǒng)進行驗證并實施

35、。通常 業(yè)務(wù)安全架構(gòu)要考慮對各個功能模塊進行隔離,并對模塊之間設(shè)置訪問控制機制。對AI系統(tǒng)的隔離可以一定程度上 減少針對AI推理的攻擊面,而對綜合決策系統(tǒng)的隔離可以有效減少針對決策系統(tǒng)的攻擊。AI推理的輸出作為輔助決 策建議將導(dǎo)入綜合決策模塊,而只有經(jīng)過授權(quán)認證的指令才能得以通過。檢測:在主業(yè)務(wù)系統(tǒng)中部署持續(xù)監(jiān)控和攻擊檢測模型,綜合分析網(wǎng)絡(luò)系統(tǒng)安全狀態(tài),給出系統(tǒng)當前威脅風(fēng)險級別。當威脅風(fēng)險較大時,綜合決策可以不采納自動系統(tǒng)的建議,而是將最終控制權(quán)交回人員控制,保證在遭受攻擊情況下的安全性。熔斷:業(yè)務(wù)系統(tǒng)在進行關(guān)鍵操作時,如AI輔助的自動駕駛或醫(yī)療手術(shù)等,通常要設(shè)置多級安全架構(gòu)確保整體系統(tǒng)安 全

36、性。需要對AI系統(tǒng)給出的分析結(jié)果進行確定性分析,并在確定性低于閾值時回落到以規(guī)則判斷為準的常規(guī)技術(shù)或 直接交回人工處理。冗余:很多業(yè)務(wù)決策、數(shù)據(jù)之間具有關(guān)聯(lián)性,一個可行的方法是通過分析此類關(guān)聯(lián)性是否遭受破壞保證AI模型運行 時的安全。還可以搭建業(yè)務(wù)“多模型架構(gòu)”:通過對關(guān)鍵業(yè)務(wù)部署多個AI模型,使得在單個模型出現(xiàn)錯誤時不會影 響到業(yè)務(wù)最終決策。同時多個模型的部署也使得系統(tǒng)在遭受單一攻擊時被全面攻克的可能性大大降低,從而提升整個系統(tǒng)的強壯性。Amodei等人19還進一步描述了AI系統(tǒng)在應(yīng)用中可能會遇到的幾種安全挑戰(zhàn):如避免AI系統(tǒng)在執(zhí)行任務(wù)時可能產(chǎn)生的 消極副作用、AI系統(tǒng)在達成目的時可能采取的

37、趨利行為、以及AI系統(tǒng)在執(zhí)行任務(wù)時的安全拓展問題等。對這些問題進 行基礎(chǔ)研究將會使得AI系統(tǒng)在未來實用場景更加安全。攜手共建安全的智慧未來攜手共建安全的智慧未來人工智能的各個學(xué)科,如計算機視覺、語音識別、自然語言處理、認知與推理、博弈等,還處在早期發(fā)展的階段, 依靠大數(shù)據(jù)做統(tǒng)計分析的深度學(xué)習(xí)系統(tǒng)拓展了人工智能所能解決問題的邊界,但也被認為是普遍“缺乏常識”,這也是當前人工智能研究的最大障礙。人工智能要依靠數(shù)據(jù)與知識的雙輪驅(qū)動,下一代人工智能的突破可能是知識推理。而人工智能應(yīng)用的大規(guī)模普及和發(fā)展則需要很強的安全性保證。我們首先關(guān)注兩大類AI安全攻防問題:第一類是 攻擊者影響AI決策的正確性:攻擊

38、者可以通過破壞和控制AI系統(tǒng)本身,或者通過特意改變輸入來使系統(tǒng)不知不覺地做 出攻擊者想要的決定;第二類是攻擊者獲取AI系統(tǒng)訓(xùn)練的保密數(shù)據(jù),或者破解AI模型。本文進一步從AI安全攻防、AI 模型安全和AI架構(gòu)安全等三個層面闡述AI系統(tǒng)安全,保障AI應(yīng)用的安全性。此外,AI的透明性和可解釋性也是安全的 基礎(chǔ),一個不透明和無法解釋的人工智能無法承擔起涉及人身安全及公共安全的關(guān)鍵任務(wù)。人工智能還會帶來法律法規(guī)、倫理道德、社會監(jiān)管等很寬泛的安全課題。2016年9月1日,斯坦福大學(xué)“人工智能百年研究(AI100)”項目發(fā)布了首篇名為“2030 年的人工智能與生活(AI and Life in 2030)”

39、研究報告20,指出面對人工智能技術(shù)將帶來的深刻變化,要求更合理和“不會扼殺創(chuàng)新”的監(jiān)管。未來幾年,隨著人工智能在交通和醫(yī)療等領(lǐng)域內(nèi)的應(yīng)用,它們必須以一種能構(gòu)建信任和理解的方式引入,還要尊重人權(quán)和公民權(quán)利。與此同時,“政策和流程也應(yīng)該解決道德、隱私和安全方面的影響”。為此國際社會應(yīng)協(xié)同合作推動人工智能向著造福人類的方向演進。參考文獻參考文獻I. Stoica, D. Song, R. A. Popa, D. Patterson, M. W. Mahoney, R. Katz, A. D. Joseph, M. Jordan, J. M. Hellerstein, J. Gonzalez,K. G

40、oldberg, A. Ghodsi, D. Culler and P. Abbeel, A Berkeley View of Systems Challenges for AI, University of California, Berkeley, Technical Report No. UCB/EECS-2017-159, 2017.C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan, I. Goodfellow and R. Fergus, Intriguing properties of neural networks,

41、 arXiv preprint arXiv:1312.6199, 2013.K. Eykholt, I. Evtimov, E. Fernandes, B. Li, A. Rahmati, C. Xiao, A. Prakash, T. Kohno and D. Song, Robust physical- world attacks on deep learning models, in Conference on Computer Vision and Pattern Recognition (CVPR), 2018.N. Papernot, P. McDaniel and I. Good

42、fellow, Transferability in machine learning: from phenomena to black-box attacks using adversarial samples, arXiv preprint arXiv:1605.07277, 2016.M. Jagielski, A. Oprea, B. Biggio, C. Liu, C. Nita-Rotaru andB. Li, Manipulating machine learning: Poisoning attacks and countermeasures for regression le

43、arning, in IEEE Symposium on Security and Privacy (S&P), 2018.T. Gu, B. Dolan-Gavitt and S. Garg, Badnets: Identifying vulnerabilities in the machine learning model supply chain, in NIPS MLSec Workshop, 2017.F. Tramr, F. Zhang, A. Juels, M. K. Reiter and T. Ristenpart, Stealing Machine Learning Mode

44、ls via Prediction APIs, in USENIX Security Symposium, 2016.N. Papernot, P. McDaniel, X. Wu, S. Jha and A. Swami, Distillation as a defense to adversarial perturbations against deep neural networks, in IEEE Symposium on Security and Privacy (S&P), 2016.S. Gu and L. Rigazio, Towards deep neural networ

45、k architectures robust to adversarial examples, inInternational Conference on Learning Representations (ICLR), 2015.R. Laishram and V. Phoha, Curie: A method for protecting SVM classifier from poisoning attack, arXiv preprint arXiv:1606.01584, 2016.Y. Liu, X. Yang and S. Ankur, Neural trojans, in International Conference on Computer Design (ICCD), 2017.K. Liu, D.-G. Brendan and G. Siddharth, Fine-Pruning: Defending Against Backdooring Attacks on Deep Neural Networks, arXiv preprint arXiv:1805.12185, 2018.N. Papernot, A. Martn, E. Ulfar, G. Ian and T. Kunal, Semi- supervised knowledge

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論