版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數字文明與數字治理大數據通識教程第11章楊武劍周蘇主編大數據與人工智能01人工智能概述02機器學習基礎03機器學習分類04神經網絡與深度學習目錄/CONTENTS05機器學習與深度學習PART01人工智能概述人工智能(AI)是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新的技術科學。是計算機科學的一個分支,它企圖了解智能的實質,并生產出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器學習(深度學習)、智能機器人、視覺與圖像識別、自然語言處理、語言識別、經濟政治決策、控制系統(tǒng)和仿真系統(tǒng)等。11.1人工智能概述人工智能的定義可以分為兩部分,即“人工”和“智能”。其中的“智能”涉及到其他諸如意識、自我、思維(包括無意識的思維)等問題。11.1人工智能概述斯坦福大學人工智能研究中心的尼爾遜教授對人工智能下了這樣一個定義:“人工智能是關于知識的學科——怎樣表示知識以及怎樣獲得知識并使用知識的科學。”而麻省理工學院的溫斯頓教授認為:“人工智能就是研究如何使計算機去做過去只有人才能做的智能工作。”這些說法反映了人工智能學科的基本思想和基本內容。即人工智能是研究人類智能活動的規(guī)律,構造具有一定智能的人工系統(tǒng),研究如何讓計算機去完成以往需要人的智力才能勝任的工作,也就是研究如何應用計算機的軟硬件來模擬人類某些智能行為的基本理論、方法和技術。11.1人工智能概述PART02機器學習基礎如果孤零零地給你一個數據,例如39,你能從中發(fā)現什么呢?一般不會有太多發(fā)現。這只是一個介于38和40之間的數,除此以外,其他所有的“發(fā)現”都只能是推測與猜想。接著,再給你多一點兒的信息:39度。這個數據表示的可能是角度或者是溫度。然后,再添加一個具體信息:39攝氏度。這顯然是溫度,而且是比較高的溫度。最后,再告訴你這是某個人的口腔溫度讀數。于是,你知道這個人的體溫超過了39攝氏度,說明他生病了。11.2機器學習基礎在結束這個簡短的思維演練之后,IBM的研究員薩姆·亞當斯說:“每增加一點兒信息,你對數據的理解就會發(fā)生顯著的變化?!眮啴斔拐f這些話的目的是向我們介紹數據在具體語境中的作用。數據越多,傳遞的信息就越具體,最終形成知識。各種各樣的新數據大量涌現,有利于我們理解數據。但是,亞當斯認為,只有“把所有點連起來”,形成有價值的靈感或發(fā)現,才是真正的成果。11.2機器學習基礎學習能力是智能行為的一個非常重要的特征。H.A.西蒙認為,學習是系統(tǒng)所作的適應性變化,使得系統(tǒng)在下一次完成同樣或類似的任務時更為有效。R.S.米哈爾斯基認為,學習是構造或修改對于所經歷事物的表示。這些觀點各有側重,第一種觀點強調學習的外部行為效果,第二種則強調學習的內部過程,而第三種主要是從知識工程的實用性角度出發(fā)的。11.2.1機器學習的定義機器學習在人工智能的研究中具有十分重要的地位,是人工智能研究的核心之一。它的應用已遍及人工智能的各個分支,如專家系統(tǒng)、自動推理、自然語言理解、模式識別、計算機視覺、智能機器人等領域。其中尤其典型的是專家系統(tǒng)中的知識獲取瓶頸問題,人們一直在努力試圖采用機器學習的方法加以克服。11.2.1機器學習的定義一個不具有學習能力的智能系統(tǒng)難以稱得上是一個真正的智能系統(tǒng),但是以往的智能系統(tǒng)都普遍缺少學習的能力。例如,它們遇到錯誤時不能自我校正;不會通過經驗改善自身的性能;不會自動獲取和發(fā)現所需要的知識。它們的推理僅限于演繹而缺少歸納,因此,至多只能夠證明已存在事實、定理,而不能發(fā)現新的定理、定律和規(guī)則等。隨著人工智能的深入發(fā)展,這些局限性表現得愈加突出。11.2.1機器學習的定義機器學習的研究是根據生理學、認知科學等對人類學習機理的了解,建立人類學習過程的計算模型或認識模型,發(fā)展各種學習理論和學習方法,研究通用的學習算法并進行理論上的分析,建立面向任務的具有特定應用的學習系統(tǒng)。這些研究目標相互影響相互促進。學習是人類具有的一種重要智能行為,但究竟什么是學習,長期以來卻眾說紛紜。社會學家、邏輯學家和心理學家都各有其不同的看法。11.2.1機器學習的定義比如,蘭利的定義:“機器學習是一門人工智能的科學,該領域的主要研究對象是人工智能,特別是如何在經驗學習中改善具體算法的性能”。湯姆·米切爾的機器學習定義中對信息論的一些概念有詳細解釋,其中提到:“機器學習是對能通過經驗自動改進的計算機算法的研究”。阿爾派丁提出自己的定義:“機器學習是用數據或以往的經驗,以此優(yōu)化計算機程序的性能標準?!?1.2.1機器學習的定義顧名思義,機器學習是研究如何使用機器來模擬人類學習活動的一門學科。稍為嚴格的提法是:機器學習是一門研究機器獲取新知識和新技能,并識別現有知識的學問。這里所說的“機器”,指的就是計算機,電子計算機,中子計算機、光子計算機或神經計算機等等。11.2.1機器學習的定義機器能否像人類一樣能具有學習能力呢?1959年,美國的塞繆爾設計了一個下棋程序,這個程序具有學習能力,它可以在不斷的對弈中改善自己的棋藝。4年后,這個程序戰(zhàn)勝了設計者本人。又過了3年,這個程序戰(zhàn)勝了美國一個保持8年之久的常勝不敗的冠軍。這個程序向人們展示了機器學習的能力,提出了許多令人深思的社會問題與哲學問題。11.2.1機器學習的定義機器的能力是否能超過人,很多持否定意見的人的一個主要論據是:機器是人造的,其性能和動作完全是由設計者規(guī)定的,因此,無論如何其能力也不會超過設計者本人。這種意見對不具備學習能力的機器來說的確是對的,可是對具備學習能力的機器就值得考慮了,因為這種機器的能力在應用中不斷地提高,過一段時間之后,設計者本人也不知它的能力到了何種水平。11.2.1機器學習的定義在具體應用中,環(huán)境,知識庫和執(zhí)行部分決定了機器學習的工作內容,學習部分所需要解決的問題完全由這3部分確定。其中,環(huán)境向系統(tǒng)的學習部分提供某些信息,學習部分利用這些信息修改知識庫,以增進系統(tǒng)執(zhí)行部分完成任務的效能,執(zhí)行部分根據知識庫完成任務,同時把獲得的信息反饋給學習部分。11.2.2基本結構(1)影響學習系統(tǒng)設計的最重要的因素是環(huán)境向系統(tǒng)提供的信息,或者更具體地說是信息的質量。知識庫里存放的是指導執(zhí)行部分動作的一般原則,但環(huán)境向學習系統(tǒng)提供的信息卻是各種各樣的。如果信息的質量比較高,與一般原則的差別比較小,則學習部分比較容易處理。如果向學習系統(tǒng)提供的是雜亂無章的指導執(zhí)行具體動作的具體信息,則學習系統(tǒng)需要在獲得足夠數據之后,刪除不必要的細節(jié),進行總結推廣,形成指導動作的一般原則,放入知識庫。這樣,學習部分的任務就比較繁重,設計起來也較為困難。11.2.2基本結構因為學習系統(tǒng)獲得的信息往往是不完全的,所以其所進行的推理并不完全是可靠的,它總結出來的規(guī)則可能正確,也可能不正確。這要通過執(zhí)行效果加以檢驗。正確的規(guī)則能使系統(tǒng)的效能提高,應予保留;不正確的規(guī)則應予修改或從數據庫中刪除。11.2.2基本結構(2)知識庫是影響學習系統(tǒng)設計的第二個因素。知識的表示有多種形式,比如特征向量、一階邏輯語句、產生式規(guī)則、語義網絡和框架等等。這些表示方式各有其特點,在選擇表示方式時要兼顧以下4個方面:①表達能力強。②易于推理。③容易修改知識庫。④知識表示易于擴展。11.2.2基本結構學習系統(tǒng)不能在全然沒有任何知識的情況下憑空獲取知識,每一個學習系統(tǒng)都要求具有某些知識理解環(huán)境提供的信息,分析比較,做出假設,檢驗并修改這些假設。因此,更確切地說,學習系統(tǒng)是對現有知識的擴展和改進。(3)執(zhí)行部分是整個學習系統(tǒng)的核心,因為執(zhí)行部分的動作就是學習部分力求改進的動作。同執(zhí)行部分有關的問題有3個:復雜性、反饋和透明性。11.2.2基本結構學習是一項復雜的智能活動,學習過程與推理過程是緊密相連的,按照學習中使用推理的多少,機器學習所采用的策略大體上可分為機械學習、示教學習、類比學習和通過事例學習等。學習中所用的推理越多,系統(tǒng)的能力越強。機器學習領域的研究工作主要圍繞以下三個方面進行:(1)面向任務的研究:研究和分析改進一組預定任務的執(zhí)行性能的學習系統(tǒng)。(2)認知模型:研究人類學習過程并進行計算機模擬。(3)理論分析:從理論上探索各種可能的學習方法和獨立于應用領域的算法。11.2.3研究領域PART03機器學習分類機器學習是一門涉及到概率論、統(tǒng)計學、逼近論、算法復雜度理論等多領域的交叉學科,專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能,它主要使用歸納、綜合而不是演繹。人類善于發(fā)現數據中的模式與關系,但不能快速地處理大量的數據。另一方面,機器非常善于迅速處理大量數據,但它們得知道怎么做。如果人類知識可以和機器的處理速度相結合,機器可以處理大量數據而不需要人類干涉。這就是機器學習的基本概念。11.3機器學習分類綜合考慮各種學習方法出現的歷史淵源、知識表示、推理策略、結果評估的相似性、研究人員交流的相對集中性以及應用領域等諸因素,機器學習有不同的分類方法。11.3機器學習分類學習策略是指學習過程中系統(tǒng)所采用的推理策略。一個學習系統(tǒng)總是由學習和環(huán)境兩部分組成。由環(huán)境(如書本或教師)提供信息,學習部分則實現信息轉換,用能夠理解的形式記憶下來,并從中獲取有用的信息。在學習過程中,學生(學習部分)使用的推理越少,他對教師(環(huán)境)的依賴就越大,教師的負擔也就越重。學習策略的分類標準就是根據學生實現信息轉換所需的推理多少和難易程度來分類的,依從簡單到復雜,從少到多的次序分為以下六種基本類型:11.3.1基于學習策略分類(1)機械學習。學習者無需任何推理或其他的知識轉換,直接吸取環(huán)境所提供的信息。如塞繆爾的跳棋程序,紐厄爾和西蒙的LT系統(tǒng)。這類學習系統(tǒng)主要考慮的是如何索引存貯的知識并加以利用。系統(tǒng)的學習方法是直接通過事先編好、構造好的程序來學習,學習者不作任何工作,或者是通過直接接收既定的事實和數據進行學習,對輸入信息不作任何的推理。11.3.1基于學習策略分類(2)示教學習。學生從環(huán)境(教師或其他信息源如教科書等)獲取信息,把知識轉換成內部可使用的表示形式,并將新的知識和原有知識有機地結合為一體。所以要求學生有一定程度的推理能力,但環(huán)境仍要做大量的工作。教師以某種形式提出和組織知識,以使學生擁有的知識可以不斷地增加。這種學習方法和人類社會的學校教學方式相似,學習的任務就是建立一個系統(tǒng),使它能接受教導和建議,并有效地存貯和應用學到的知識。不少專家系統(tǒng)在建立知識庫時使用這種方法去實現知識獲取。11.3.1基于學習策略分類(3)演繹學習。學生所用的推理形式為演繹推理。推理從公理出發(fā),經過邏輯變換推導出結論。這種推理是“保真”變換和特化的過程,使學生在推理過程中可以獲取有用的知識。這種學習方法包含宏操作學習、知識編輯和組塊技術。演繹推理的逆過程是歸納推理。11.3.1基于學習策略分類(4)類比學習。利用二個不同領域(源域、目標域)中的知識相似性,可以通過類比,從源域的知識(包括相似的特征和其他性質)推導出目標域的相應知識,從而實現學習。類比學習系統(tǒng)可以使一個已有的計算機應用系統(tǒng)轉變?yōu)檫m應于新的領域,來完成原先沒有設計的相類似的功能。類比學習需要更多的推理。它一般要求先從知識源(源域)中檢索出可用的知識,再將其轉換成新的形式,用到新的狀況(目標域)中去。類比學習在人類科學技術發(fā)展史上起著重要作用,許多科學發(fā)現就是通過類比得到的。11.3.1基于學習策略分類(5)基于解釋的學習。學生根據教師提供的目標概念、該概念的一個例子、領域理論及可操作準則,首先構造一個解釋來說明為什么該例子滿足目標概念,然后將解釋推廣為目標概念的一個滿足可操作準則的充分條件?;诮忉尩膶W習已被廣泛應用于知識庫求精和改善系統(tǒng)的性能。11.3.1基于學習策略分類(6)歸納學習。是由教師或環(huán)境提供某概念的一些實例或反例,讓學生通過歸納推理得出該概念的一般描述。這種學習的推理工作量遠多于示教學習和演繹學習,因為環(huán)境并不提供一般性概念描述(如公理)。從某種程度上說,歸納學習的推理量也比類比學習大,因為沒有一個類似的概念可以作為“源概念”加以取用。歸納學習是最基本的,發(fā)展也較為成熟的學習方法。11.3.1基于學習策略分類學習系統(tǒng)獲取的知識可能有:行為規(guī)則、物理對象的描述、問題求解策略、各種分類及其他用于任務實現的知識類型。對于學習中獲取的知識,主要有以下一些表示形式:(1)代數表達式參數:學習的目標是調節(jié)一個固定函數形式的代數表達式參數或系數來達到一個理想的性能。(2)決策樹:用決策樹來劃分物體的類屬,樹中每一內部節(jié)點對應一個物體屬性,而每一邊對應于這些屬性的可選值,樹的葉節(jié)點則對應于物體的每個基本分類。11.3.2基于知識表示形式分類(3)形式文法:在識別一個特定語言的學習中,通過對該語言的一系列表達式進行歸納,形成該語言的形式文法。(4)產生式規(guī)則:產生式規(guī)則表示為條件-動作對,已被廣泛地使用。學習系統(tǒng)中的學習行為主要是:生成、泛化、特化或合成產生式規(guī)則。(5)形式邏輯表達式:形式邏輯表達式的基本成分是命題、謂詞、變量、約束變量范圍的語句,及嵌入的邏輯表達式。(6)圖和網絡:有的系統(tǒng)采用圖匹配和圖轉換方案來有效地比較和索引知識。11.3.2基于知識表示形式分類(7)框架和模式:每個框架包含一組槽,用于描述事物(概念和個體)的各個方面。(8)計算機程序和其他的過程編碼:獲取這種形式的知識,目的在于取得一種能實現特定過程的能力,而不是為了推斷該過程的內部結構。(9)神經網絡:這主要用在聯接學習中。學習所獲取的知識,最后歸納為一個神經網絡。(10)多種表示形式的組合:有時一個學習系統(tǒng)中獲取的知識需要綜合應用上述幾種知識表示形式。11.3.2基于知識表示形式分類機器學習已經有了十分廣泛的應用,例如:數據挖掘、計算機視覺、自然語言處理、生物特征識別、搜索引擎、醫(yī)學診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰(zhàn)略游戲和機器人運用,其中很多都屬于大數據分析技術的應用范疇。最主要的應用領域有:專家系統(tǒng)、認知模擬、規(guī)劃和問題求解、數據挖掘、網絡信息服務、圖像識別、故障診斷、自然語言理解、機器人和博弈等領域。11.3.3按應用領域分類從機器學習的執(zhí)行部分所反映的任務類型上看,大部分的應用研究領域基本上集中于以下兩個范疇:分類和問題求解。(1)分類任務要求系統(tǒng)依據已知的分類知識對輸入的未知模式(該模式的描述)作分析,以確定輸入模式的類屬。相應的學習目標就是學習用于分類的準則(如分類規(guī)則)。(2)問題求解任務要求對于給定的目標狀態(tài),尋找一個將當前狀態(tài)轉換為目標狀態(tài)的動作序列;機器學習在這一領域的研究工作大部分集中于通過學習來獲取能提高問題求解效率的知識(如搜索控制知識,啟發(fā)式知識等)。11.3.3按應用領域分類按學習形式分類,包括:1.監(jiān)督學習(分類)即在機械學習過程中提供對錯指示。一般實在是數據組中包含最終結果(0,1)。通過算法讓機器自我減少誤差。這一類學習主要應用于分類和預測。分類是一種有監(jiān)督學習,它將數據分為相關的、以前學習過的類別。它包括兩個步驟:11.3.4按學習形式分類(1)將已經被分類或者有標號的訓練數據給系統(tǒng),這樣就可以形成一個對不同類別的理解。(2)將未知或者相似數據給系統(tǒng)來分類,基于訓練數據形成的理解,算法會分類無標號數據。如圖11-3所示,在一個簡化的分類過程中,在訓練時將有標號的數據給機器使其建立對分類的理解,然后將未標號的數據給機器,使它進行自我分類。圖11-3機器學習可以用來自動分類數據集11.3.4按學習形式分類例如,銀行想找出哪些客戶可能會拖欠貸款?;跉v史數據編制一個訓練數據集,其中包含標記的曾經拖欠貸款的顧客樣例和不曾拖欠貸款的顧客樣例。將這樣的訓練數據給分類算法,使之形成對“好”或“壞”顧客的認識。最終,將這種認識作用于新的未加標簽的客戶數據,來發(fā)現一個給定的客戶屬于哪個類。11.3.4按學習形式分類2.無監(jiān)督學習(聚類)無監(jiān)督學習又稱歸納性學習。通過循環(huán)和遞減運算來減小誤差,達到分類的目的。通過這項技術,數據被分割成不同的組,這樣在每組中數據有相似的性質。聚類不需要先學習類別。相反,類別是基于分組數據產生的。數據如何成組取決于用什么類型的算法,每個算法都有不同的技術來確定聚類。11.3.4按學習形式分類聚類常用在數據挖掘上來理解一個給定數據集的性質。在形成理解之后,分類可以被用來更好地預測相似但卻是全新或未見過的數據。聚類可以被用在未知文件的分類以及通過將具有相似行為的顧客分組的個性化市場營銷策略上。圖11-4所示的散點圖描述了可視化表示的聚類。例如,基于已有的顧客記錄檔案,一個銀行想要給現有顧客介紹很多新的金融產品。分析師用聚類將顧客分類至多組中。然后給每組介紹最適合這個組整體特征的一個或多個金融產品。圖11-4散點圖總結了聚類的結果11.3.4按學習形式分類3.異常檢測異常檢測是指在給定數據集中,發(fā)現明顯不同于其他數據或與其他數據不一致的數據的過程。這種機器學習技術被用來識別反常、異常和偏差,它們可以是有利的,例如機會,也可能是不利的,例如風險。異常檢測與分類和聚類的概念緊密相關,雖然它的算法專注于尋找不同值。它可以基于有監(jiān)督或無監(jiān)督的學習。異常檢測的應用包括欺詐檢測、醫(yī)療診斷、網絡數據分析和傳感器數據分析。圖11-5散點圖突出異常點11.3.4按學習形式分類例如,為了查明一筆交易是否涉嫌欺詐,銀行的IT團隊構建了一個基于有監(jiān)督的學習使用異常檢測技術的系統(tǒng)。首先將一系列已知的欺詐交易送給異常檢測算法。在系統(tǒng)訓練后,將未知交易送給異常檢測算法來預測他們是否欺詐。11.3.4按學習形式分類4.過濾過濾是自動從項目池中尋找有關項目的過程。項目可以基于用戶行為或通過匹配多個用戶的行為被過濾。過濾常用的媒介是推薦系統(tǒng)。通常過濾的主要方法是協(xié)同過濾和內容過濾。協(xié)同過濾是一項基于聯合或合并用戶過去行為與他人行為的過濾技術。目標用戶過去的行為,包括他們的喜好、評級和購買歷史等,會被和相似用戶的行為所聯合?;谟脩粜袨榈南嗨菩裕椖勘贿^濾給目標用戶。協(xié)同過濾僅依靠用戶行為的相似性。它需要大量用戶行為數據來準確地過濾項目。11.3.4按學習形式分類內容過濾是一項專注于用戶和項目之間相似性的過濾技術?;谟脩粢郧暗男袨閯?chuàng)造用戶文件,例如,他們的喜好、評級和購買歷史。用戶文件與不同項目性質之間所確定的相似性可以使項目被過濾并呈現給用戶。內容過濾僅致力于用戶個體偏好,而并不需要其他用戶數據。11.3.4按學習形式分類推薦系統(tǒng)預測用戶偏好并且為用戶產生相應建議。建議一般推薦的項目包括電影、書本、網頁和人。推薦系統(tǒng)通常使用協(xié)同過濾或內容過濾來產生建議。它也可能基于協(xié)同過濾和內容過濾的混合來調整生成建議的準確性和有效性。例如,為了實現交叉銷售,一家銀行構建了使用內容過濾的推薦系統(tǒng)?;陬櫩唾徺I的金融產品和相似金融產品性質所找到的匹配,推薦系統(tǒng)自動推薦客戶可能感興趣的潛在金融產品。11.3.4按學習形式分類PART04神經網絡與深度學習人工神經網絡是由大量處理單元(或稱神經元)互聯組成的非線性、自適應信息處理系統(tǒng)。它是在神經科學研究成果的基礎上提出的,試圖通過模擬大腦神經網絡處理、記憶信息的方式進行信息處理。文字識別、語音識別等模式識別領域適合應用神經網絡,此外,在信用、貸款的風險管理、信用欺詐監(jiān)測等領域也得到了廣泛的應用。11.4神經網絡與深度學習圖11-6人工神經網絡11.4神經網絡與深度學習人工神經網絡具有四個基本特征:(1)非線性:非線性關系是自然界的普遍特性。大腦的智慧就是一種非線性現象。人工神經元處于激活或抑制二種不同的狀態(tài),這種行為在數學上表現為一種非線性關系。具有閾值的神經元構成的網絡具有更好的性能,可以提高容錯性和存儲容量。11.4.1人工神經網絡的特征(2)非局限性:一個神經網絡通常由多個神經元廣泛連接而成。一個系統(tǒng)的整體行為不僅取決于單個神經元的特征,而且可能主要由單元之間的相互作用、相互連接所決定。通過單元之間的大量連接模擬大腦的非局限性。聯想記憶是非局限性的典型例子。(3)非常定性:人工神經網絡具有自適應、自組織、自學習能力。神經網絡不但處理的信息可以有各種變化,而且在處理信息的同時,非線性動力系統(tǒng)本身也在不斷變化。經常采用迭代過程描寫動力系統(tǒng)的演化過程。11.4.1人工神經網絡的特征(4)非凸性:一個系統(tǒng)的演化方向,在一定條件下將取決于某個特定的狀態(tài)函數。例如能量函數,它的極值相應于系統(tǒng)比較穩(wěn)定的狀態(tài)。非凸性是指這種函數有多個極值,故系統(tǒng)具有多個較穩(wěn)定的平衡態(tài),這將導致系統(tǒng)演化的多樣性。人工神經網絡是并行分布式系統(tǒng),采用了與傳統(tǒng)人工智能和信息處理技術完全不同的機理,克服了傳統(tǒng)的基于邏輯符號的人工智能在處理直覺、非結構化信息方面的缺陷,具有自適應、自組織和實時學習的特點。11.4.1人工神經網絡的特征人工神經網絡中,神經元處理單元可表示不同的對象,例如特征、字母、概念,或者一些有意義的抽象模式。網絡中處理單元的類型分為三類:輸入單元、輸出單元和隱單元。輸入單元接受外部世界的信號與數據;輸出單元實現系統(tǒng)處理結果的輸出;隱單元是處在輸入和輸出單元之間,不能由系統(tǒng)外部觀察的單元。神經元間的連接權值反映了單元間的連接強度,信息的表示和處理體現在網絡處理單元的連接關系中。11.4.1人工神經網絡的特征人工智能技術的發(fā)展尤其以深度學習所取得的進步最為顯著,深度學習帶來的重大技術革命,甚至有可能顛覆過去長期以來人們對互聯網技術的認知,實現技術體驗的跨越式發(fā)展。11.4.1人工神經網絡的特征從研究角度看,深度學習是基于多層人工神經網絡,海量數據為輸入,發(fā)現規(guī)則自學習的方法。深度學習所基于的多層神經網絡并非新鮮事物,甚至在80年代還被認為沒有前途。但近年來,科學家們對多層神經網絡的算法不斷優(yōu)化,使它出現了突破性的進展。以往很多算法是線性的,而現實世界大多數事情的特征是復雜非線性的。比如貓的圖像中,就包含了顏色、形態(tài)、五官、光線等各種信息。深度學習的關鍵就是通過多層非線性映射將這些因素成功分開。11.4.2深度學習的意義采用多層神經網絡結構的好處是可以減少參數。因為它重復利用中間層的計算單元。還是以認貓作為例子。它可以學習貓的分層特征:最底層從原始像素開始,刻畫局部的邊緣和紋;中層把各種邊緣進行組合,描述不同類型的貓的器官;最高層描述的是整個貓的全局特征。11.4.2深度學習的意義深度學習需要具備超強的計算能力,同時還不斷有海量數據的輸入。特別是在信息表示和特征設計方面,過去大量依賴人工,嚴重影響有效性和通用性。深度學習則徹底顛覆了“人造特征”的范式,開啟了數據驅動的“表示學習”范式——由數據自提取特征,計算機自己發(fā)現規(guī)則,進行自學習。過去,人們對經驗的利用靠人類自己完成。而深度學習中,經驗以數據形式存在。因此,深度學習,就是關于在計算機上從數據中產生模型的算法,即深度學習算法。11.4.2深度學習的意義我們通過幾個例子,來了解深度學習的方法。示例1:識別正方形先從一個簡單例子開始,從概念層面上解釋究竟發(fā)生了什么事情。我們來試試看如何從多個形狀中識別正方形。11.4.3深度學習的方法第一件事是檢查圖中是否有四條線(簡單的概念)。如果找到這樣的四條線,進一步檢查它們是相連的、閉合的和相互垂直的,并且它們是否相等(嵌套的概念層次結構)。這樣就完成了一個復雜的任務(識別一個正方形),并以簡單、不太抽象的任務來完成它。深度學習本質上在大規(guī)模執(zhí)行類似的邏輯。11.4.3深度學習的方法示例2:識別貓我們通常能用很多屬性描述一個事物。其中有些屬性可能很關鍵,很有用,另一些屬性可能沒什么用。我們就將屬性被稱為特征。特征辨識是一個數據處理的過程。傳統(tǒng)算法認貓,是標注各種特征去認:大眼睛,有胡子,有花紋。但這種特征寫著寫著,可能分不出是貓還是老虎了,狗和貓也分不出來。這種方法叫——人制定規(guī)則,機器學習這種規(guī)則。11.4.3深度學習的方法深度學習的方法是,直接給你百萬張圖片,說這里有貓,再給你百萬張圖,說這里沒貓,然后來訓練深度網絡,通過深度學習自己去學貓的特征,計算機就知道了,誰是貓。
從視頻里面尋找貓的圖片是深度學習接觸性能的首次展現圖11-9放貓11.4.3深度學習的方法示例3:訓練機械手學習抓取動作傳統(tǒng)方法肯定是看到那里有個機械手,就寫好函數,移動到xyz標注的空間點,利用程序實現一次抓取。而谷歌現在用機器人訓練一個深度神經網絡,幫助機器人根據攝像頭輸入和電機命令,預測抓取的結果。簡單地說,就是訓練機器人的手眼協(xié)調。機器人會觀測自己的機械臂,實時糾正抓取運動。所有行為都從學習中自然浮現,而不是依靠傳統(tǒng)的系統(tǒng)程序。11.4.3深度學習的方法為了加快學習進程,谷歌公司用了14個機械手同時工作,在將近3000小時的訓練,相當于80萬次抓取嘗試后,開始看到智能反應行為的出現。資料顯示,沒有訓練的機械手,前30次抓取失敗率為34%,而訓練后,失敗率降低到18%。這就是一個自我學習的過程。11.4.3深度學習的方法示例4:訓練人工神經網絡寫文章斯坦福大學的計算機博士安德烈·卡帕蒂曾用托爾斯泰的小說《戰(zhàn)爭與和平》來訓練人工神經網絡。每訓練100個回合,就叫它寫文章。在100次訓練后,它就知道要加空格,但仍然有時是在“胡言亂語”(亂碼)。500個回合后,能正確拼寫一些短單詞。1200個回合后,有標點符號和長單詞。2000個回合后,已經可以正確拼寫更復雜的語句。11.4.3深度學習的方法整個演化過程是個什么情況呢?以前我們寫文章,只要告訴主謂賓,就是規(guī)則。而這個過程,完全沒人告訴機器語法規(guī)則。甚至,連標點和字母區(qū)別都不用告訴它。不告訴機器任何程序。只是不停地用原始數據進行訓練,一層一層訓練,最后輸出結果——就是一個個看得懂的語句。一切看起來都很有趣。人工智能與深度學習的美妙之處,也正在于此。11.4.3深度學習的方法示例5:做胃鏡檢查胃不舒服做檢查,常常會需要做胃鏡,甚至要分開做腸、胃鏡檢查,而且通常小腸還看不見。有一家公司出了一種膠囊攝像頭。將攝像頭吃進去后,在人體消化道內每5秒拍一幅圖,連續(xù)攝像,此后再排出膠囊。這樣,所有關于腸道和胃部的問題,全部完整記錄。但光是等醫(yī)生把這些圖看完就需要五個小時。原本的機器主動檢測漏檢率高,還需要醫(yī)生復查。11.4.3深度學習的方法后來采用深度學習。采集8000多例圖片數據灌進去,用機器不斷學,不僅提高診斷精確率,減少了醫(yī)生的漏診以及對好醫(yī)生的經驗依賴,只需要靠機器自己去學習規(guī)則。深度學習算法,可以幫助醫(yī)生作出決策。11.4.3深度學習的方法深度學習本來并不是一種獨立的學習方法,它會用到有監(jiān)督和無監(jiān)督學習方法來訓練深度神經網絡。但由于近幾年該領域發(fā)展迅猛,一些特有的學習手段相繼被提出(如殘差網絡),因此越來越多的人將其單獨看作一種學習的方法。11.4.4深度學習的實現最初的深度學習是利用神經網絡來解決特征表達的一種學習過程。深度神經網絡可大致理解為包含多個隱含層的神經網絡結構。為了提高深層神經網絡的訓練效果,人們對神經元的連接方法和激活函數等方面做出相應的調整。如今,深度學習迅速發(fā)展,奇跡般地實現了各種任務,使得似乎所有的機器輔助功能都變?yōu)榭赡?,無人駕駛汽車,預防性醫(yī)療保健,更好的電影推薦等等,都近在眼前或者即將實現。11.4.4深度學習的實現與大腦中一個神經元可以連接一定距離內的任意神經元不同,ANN具有離散的層、連接和數據傳播的方向。例如,我們可以把一幅圖像切分成圖像塊,輸入到神經網絡的第一層。在第一層的每一個神經元都把數據傳遞到第二層。第二層的神經元也是完成類似的工作,把數據傳遞到第三層,以此類推,直到最后一層,然后生成結果。11.4.4深度學習的實現以道路上的停止(Stop)標志牌為例。將一個停止標志牌圖像的所有元素都打碎,然后用神經元進行“檢查”:八邊形的外形、救火車般的紅顏色、鮮明突出的字母、交通標志的典型尺寸和靜止不動運動特性等等。神經網絡的任務就是給出結論,它到底是不是一個停止標志牌。神經網絡會根據所有權重,給出一個經過深思熟慮的猜測——“概率向量”。11.4.4深度學習的實現在這個例子里,系統(tǒng)可能會給出這樣的結果:86%可能是一個停止標志牌,7%可能是一個限速標志牌,5%可能是一個風箏掛在樹上,然后網絡結構告訴神經網絡,它的結論是否正確。神經網絡是調制、訓練出來的,時不時還是很容易出錯的。它最需要的就是訓練。需要成百上千甚至幾百萬張圖像來訓練,直到神經元的輸入的權值都被調制得十分精確,無論是否有霧,晴天還是雨天,每次都能得到正確的結果。只有在這個時候,我們才可以說神經網絡成功地自學習到一個停止標志的樣子。11.4.4深度學習的實現關鍵的突破在于,把這些神經網絡從基礎上顯著地增大,層數非常多,神經元也非常多,然后給系統(tǒng)輸入海量的數據來訓練網絡。這樣就為深度學習加入了“深度”,這就是說神經網絡中眾多的層。資深學者本吉奧有一段話講得特別好,引用如下:“科學不是一場戰(zhàn)斗,而是一場建立在彼此想法上的合作??茖W是一種愛,而不是戰(zhàn)爭,熱愛周圍世界的美麗,熱愛分享和共同創(chuàng)造美好的事物。從情感上說,這使得科學成為一項令人非常賞心悅目的活動!”11.4.4深度學習的實現結合機器學習近年來的迅速發(fā)展來看本吉奧的這段話,可以感受到其中的深刻含義。未來哪種機器學習算法會成為熱點呢?資深專家吳恩達曾表示,“在繼深度學習之后,遷移學習將引領下一波機器學習技術”。11.4.4深度學習的實現PART05機器學習與深度學習在有所了解的基礎上,我們來對比機器學習和深度學習這兩種技術。深度學習與傳統(tǒng)的機器學習最主要的區(qū)別在于隨著數據規(guī)模的增加其性能的變化。當數據很少時,深度學習算法的性能并不好。這是因為深度學習算法需要大量的數據來完美地理解它。另一方面,在這種情況下,傳統(tǒng)的機器學習算法使用制定的規(guī)則,性能會比較好。11.5機器學習與深度學習在特征處理方面,機器學習中大多數應用的特征都需要專家確定然后編碼為一種數據類型。特征可以使像素值、形狀、紋理、位置和方向。大多數機器學習算法的性能依賴于所提取的特征的準確度。深度學習嘗試從數據中直接獲取高等級的特征,這是深度學習與傳統(tǒng)機器學習算法的主要的不同?;诖?,深度學習削減了對每一個問題設計特征提取器的工作。例如,卷積神經網絡嘗試在前邊的層學習低等級的特征(邊界,線條),然后學習部分人臉,然后是高級的人臉的描述。
圖11-13從數據中獲取特征11.5機器學習與深度學習在問題的解決方式上,當應用傳統(tǒng)機器學習算法解決問題的時候,傳統(tǒng)機器學習通常會將問題分解為多個子問題并逐個解決子問題,最后結合所有子問題的結果獲得最終結果。相反,深度學習提倡直接的端到端的解決問題。例如:一個檢測多物體的任務需要圖像中物體的類型和各物體在圖像中的位置。
圖11-14需要圖像中物體的類型和位置11.5機器學習與深度學習傳統(tǒng)機器學會將問題分解為兩步:物體檢測和物體識別。首先,使用邊界框檢測算法掃描整張圖片找到物體可能的區(qū)域;然后使用物體識別算法對上一步檢測出來的物體進行識別。相反,深度學習會直接將輸入數據進行運算得到輸出結果。例如可以直接將圖片傳給YOLO網絡(一種深度學習算法),YOLO網絡會給出圖片中的物體和名稱。11.5機器學習與深度學習那么大數據以及各種算法與深度學習有什么區(qū)別呢?過去的算法模式,數學上叫線性,x和y的關系是對應的,它是一種函數體現的映射。但這種算法在海量數據面前遇到了瓶頸。國際上著名的ImageNet圖像分類大賽,用傳統(tǒng)算法,識別錯誤率一直降不下去,采用深度學習后,錯誤率大幅降低。在2010年,獲勝的系統(tǒng)只能正確標記72%的圖片;到了2012年,多倫多大學的杰夫·辛頓利用深度學習的新技術,帶領團隊實現了85%的準確率;2015年的ImageNet競賽上,一個深度學習系統(tǒng)以96%的準確率第一次超過了人類(人類平均有95%的準確率)。11.5機器學習與深度學習計算機認圖的能力,已經超過了人,尤其在圖像和語音等復雜應用方面,深度學習技術取得了優(yōu)越的性能。為什么呢?其實就是思路的革新。11.5機器學習與深度學習數字文明與數字治理大數據通識教程第12章楊武劍周蘇主編大數據安全與法律01大數據的安全問題02大數據的管理維度03大數據的安全體系04大數據倫理與法規(guī)目錄/CONTENTSPART01大數據的安全問題傳統(tǒng)的信息安全側重于信息內容(信息資產)的管理,更多地將信息作為企業(yè)/機構的自有資產進行相對靜態(tài)的管理,不能適應實時動態(tài)的大規(guī)模數據流轉和大量用戶數據處理的特點。大數據的特性和新的技術架構顛覆了傳統(tǒng)的數據管理方式,在數據來源、數據處理、數據使用和數據思維等方面帶來革命性的變化,這給大數據的安全防護帶來了嚴峻的挑戰(zhàn)。大數據的安全不僅是大數據平臺的安全,而是以數據為核心,在全生命周期各階段流轉過程中,在數據采集匯聚、數據存儲處理、數據共享使用等方面都面臨新的安全挑戰(zhàn)。12.1大數據的安全問題云計算、社交網絡和移動互聯網的興起,對數據存儲的安全性要求隨之增加。各種在線應用大量數據共享的一個潛在問題就是信息安全。雖然信息安全技術發(fā)展迅速,然而企圖破壞和規(guī)避信息保護的各種網絡犯罪的手段有也在發(fā)展中,更加不易追蹤和防范。數據安全的另一方面是管理。在加強技術保護的同時,加強全民的信息安全意識,完善信息安全的政策和流程至關重要。12.1大數據的安全問題根據工業(yè)和信息化部(網安局)的相關定義,所謂數據安全風險信息,主要是通過檢測、評估、信息搜集、授權監(jiān)測等手段獲取的,包括但不限于以下這些。(1)數據泄露,數據被惡意獲取,或者轉移、發(fā)布至不安全環(huán)境等相關風險;(2)數據篡改,造成數據破壞的修改、增加、刪除等相關風險;(3)數據濫用,數據超范圍、超用途、超時間使用等相關風險;(4)違規(guī)傳輸,數據未按照有關規(guī)定擅自進行傳輸等相關風險;12.1大數據的安全問題(5)非法訪問,數據遭未授權訪問等相關風險;(6)流量異常,數據流量規(guī)模異常、流量內容異常等相關風險;此外,數據安全風險還包括由相關政府部門組織授權監(jiān)測的暴露在互聯網上的數據庫、大數據平臺等數據資產信息等。12.1大數據的安全問題大數據環(huán)境下,隨著物聯網特別是5G技術的發(fā)展,出現了各種不同的終端接入方式和各種各樣的數據應用。來自大量終端設備和應用的超大規(guī)模數據源輸入,對鑒別大數據源頭的真實性提出了挑戰(zhàn),數據來源是否可信,源數據是否被篡改都是需要防范的風險。數據傳輸需要各種協(xié)議相互配合,有些協(xié)議缺乏專業(yè)的數據安全保護機制,從數據源到大數據平臺的數據傳輸可能帶來安全風險。數據采集過程中存在的誤差會造成數據本身的失真和偏差,數據傳輸過程中的泄漏、破壞或攔截會帶來隱私泄露、謠言傳播等安全管理失控的問題。因此,大數據傳輸中信道安全、數據防破壞、防篡改和設備物理安全等幾個方面都需要考慮。12.1.1采集匯聚安全大數據平臺處理數據的模式與傳統(tǒng)信息系統(tǒng)不同(圖12-2)。傳統(tǒng)數據的產生、存儲、計算、傳輸都對應明確界限的實體,可以清晰地通過拓撲結構表示,這種處理信息方式用邊界防護相對有效。但在大數據平臺上,采用新的處理范式和數據處理方式(MapReduce、列存儲等),存儲平臺同時也是計算平臺,應用分布式存儲、分布式數據庫、NewSQL、NoSQL、分布式并行計算、流式計算等技術,一個平臺內可以同時具有多種數據處理模式,完成多種業(yè)務處理,導致邊界模糊,傳統(tǒng)的安全防護方式難以奏效。12.1.2存儲處理安全
圖12-2大數據安全事故分析12.1.2存儲處理安全(1)大數據平臺的分布式計算涉及多臺計算機和多條通信鏈路,一旦出現多點故障,容易導致分布式系統(tǒng)出現問題。此外,分布式計算涉及的組織較多,在安全攻擊和非授權訪問防護方面比較脆弱。12.1.2存儲處理安全(2)分布式存儲由于數據被分塊存儲在各個數據節(jié)點,傳統(tǒng)的安全防護在分布式存儲方式下很難奏效,其面臨的主要安全挑戰(zhàn)是數據丟失和數據泄露。①數據的安全域劃分無效;②細粒度的訪問存儲訪問控制不健全,用作服務器軟件的NoSQL未有足夠的安全內置訪問控制措施,以致客戶端應用程序需要內建安全措施,因此產生授權過程身份驗證和輸入驗證等安全問題;12.1.2存儲處理安全③分布式節(jié)點之間的傳輸網絡易受到攻擊、劫持和破壞使得存儲數據的完整性、機密性難以保證;④數據分布式存儲增大了各個存儲節(jié)點暴露的風險,在開放的網絡化社會,攻擊者更容易找到侵入點,以相對較低的成本就可以獲得“滾雪球”的收益,一旦遭受攻擊,失竊的數據量和損失是十分巨大的;⑤傳統(tǒng)的數據存儲加密技術在性能效率上面很難滿足高速、大容量數據的加密要求。12.1.2存儲處理安全(3)大數據平臺訪問控制的安全隱患主要體現在:用戶多樣性和業(yè)務場景多樣性帶來的權限控制多樣性和精細化要求,超過了平臺自身訪問控制能夠實現的安全級別,策略控制無法滿足權限的動態(tài)性需求,傳統(tǒng)的角色訪問控制不能將角色、活動和權限有效地對應起來。因此,在大數據架構下的訪問控制機制需要對這些新問題進行分析和探索。12.1.2存儲處理安全(4)針對大數據的新型安全攻擊中最具代表性的是高級持續(xù)性攻擊,由于其潛伏性和低頻活躍性,使持續(xù)性成為一個不確定的實時過程,產生的異常行為不易被捕獲。傳統(tǒng)的基于內置攻擊事件庫的特征實時匹配檢測技術對檢測這種攻擊無效。大數據應用為入侵者實施可持續(xù)的數據分析和攻擊提供了極好的隱藏環(huán)境,一旦攻擊得手,失竊的信息量甚至是難以估量的。12.1.2存儲處理安全(5)基礎設施安全的核心是數據中心的設備安全問題。傳統(tǒng)的安全防范手段如網絡防DDoS分布式拒絕服務攻擊(指處于不同位置的多個攻擊者同時向一個或數個目標發(fā)動攻擊,或者一個攻擊者控制了位于不同位置的多臺機器并利用這些機器對受害者同時實施攻擊)、存儲加密、容災備份、服務器安全加固、防病毒、接入控制、自然環(huán)境安全等。而主要來自大數據服務所依賴的云計算技術引起的風險,包括如虛擬化軟件安全、虛擬服務器安全、容器安全,以及由于云服務引起的商業(yè)風險等。12.1.2存儲處理安全(6)服務接口安全。由于大數據業(yè)務應用的多樣性,使得對外提供的服務接口千差萬別,給攻擊者帶來機會。因此,如何保證不同的服務接口安全是大數據平臺的又一巨大挑戰(zhàn)。(7)數據挖掘分析使用安全。大數據的應用核心是數據挖掘,從數據中挖掘出高價值信息為企業(yè)所用,是大數據價值的體現。然而使用數據挖掘技術,為企業(yè)創(chuàng)造價值的同時,容易產生隱私泄露的問題。如何防止數據濫用和數據挖掘導致的數據泄密和隱私泄露問題,是大數據安全一個最主要的挑戰(zhàn)性問題。12.1.2存儲處理安全互聯網給人們生活帶來方便,同時也使得個人信息的保護變得更加困難。(1)數據的保密問題。頻繁的數據流轉和交換使得數據泄露不再是一次性的事件,眾多非敏感的數據可以通過二次組合形成敏感的數據。通過大數據的聚合分析能形成更有價值的衍生數據,如何更好地在數據使用過程中對敏感數據進行加密、脫敏、管控、審查等,阻止外部攻擊者采取數據竊密、數據挖掘、根據算法模型參數梯度分析對訓練數據的特征進行逆向工程推導等攻擊行為,避免隱私泄露,仍然是大數據環(huán)境下的巨大挑戰(zhàn)。12.1.3共享使用安全(2)數據保護策略問題。大數據環(huán)境下,匯聚不同渠道、不同用途和不同重要級別的數據,通過大數據融合技術形成不同的數據產品,使大數據成為有價值的知識,發(fā)揮巨大作用。如何對這些數據進行保護,以支撐不同用途、不同重要級別、不同使用范圍的數據充分共享、安全合規(guī)的使用,確保大數據環(huán)境下高并發(fā)多用戶使用場景中數據不被泄露、不被非法使用,是大數據安全的又一個關鍵性問題。12.1.3共享使用安全(3)數據的權屬問題。大數據場景下,數據的擁有者、管理者和使用者與傳統(tǒng)的數據資產不同,傳統(tǒng)的數據是屬于組織和個人的,而大數據具有不同程度的社會性。一些敏感數據的所有權和使用權并沒有被明確界定,很多基于大數據的分析都未考慮到其中涉及的隱私問題。在防止數據丟失、被盜取、被濫用和被破壞上存在一定的技術難度,傳統(tǒng)的安全工具不再像以前那么有用。如何管控大數據環(huán)境下數據流轉、權屬關系、使用行為和追溯敏感數據資源流向,解決數據權屬關系不清、數據越權使用等問題是一個巨大的挑戰(zhàn)。12.1.3共享使用安全PART02大數據的管理維度數據已成為國家基礎性戰(zhàn)略資源,建立健全大數據安全保障體系,對大數據的平臺及服務進行安全評估,是推進大數據產業(yè)化工作的重要基礎任務。中國《網絡安全法》《網絡產品和服務安全審查辦法》《數據安全管理辦法》等法律法規(guī)的陸續(xù)實施,對大數據運營商提出了諸多合規(guī)要求。如何應對大數據安全風險,確保其符合網絡安全法律法規(guī)政策,成為亟需解決的問題。12.2大數據的管理維度大數據管理具有分布式、無中心、多組織協(xié)調等特點。因此有必要從數據語義、生命周期和信息技術(IT)三個維度去認識數據管理技術涉及的數據內涵,分析和理解數據管理過程中需要采用的IT安全技術及其管控措施和機制。圖12-3大數據管理的三個維度12.2大數據的管理維度從大數據運營者的角度看,大數據生態(tài)系統(tǒng)應提供包括大數據應用安全管理、身份鑒別和訪問控制、數據業(yè)務安全管理、大數據基礎設施安全管理和大數據系統(tǒng)應急響應管理等業(yè)務安全功能,因此大數據業(yè)務目標應包括這5個方面。12.2大數據的管理維度全國大數據標準化工作會議暨全國信標委大數據標準工作組第七次全會上發(fā)布了《大數據標準化白皮書(2020版)》。白皮書指出了目前大數據產業(yè)化發(fā)展面臨的安全挑戰(zhàn),包括法律法規(guī)與相關標準的挑戰(zhàn)、數據安全和個人信息保護的挑戰(zhàn)、大數據技術和平臺安全的挑戰(zhàn)。針對這些挑戰(zhàn),我國已經在大數據安全指引、國家標準及法律法規(guī)建設方面取得階段性成果,但大數據運營過程中的大數據平臺安全機制不足、傳統(tǒng)安全措施難以適應大數據平臺和大數據應用、大數據應用訪問控制困難、基礎密碼技術及密鑰操作性等信息技術安全問題亟待解決。12.2大數據的管理維度PART03大數據的安全體系在大數據時代,如何確保網絡數據的完整性、可用性和保密性,不受信息泄漏和非法篡改的安全威脅影響,已成為政府機構、事業(yè)單位信息化健康發(fā)展所要考慮的核心問題。根據對大數據環(huán)境下面臨的安全問題和挑戰(zhàn)進行分析,提出基于大數據分析和威脅情報共享為基礎的大數據協(xié)同安全防護體系,將大數據安全技術框架、數據安全治理、安全測評和運維管理相結合,在數據分類分級和全生命周期安全的基礎上,體系性的解決大數據不同層次的安全問題。圖12-4安全保障框架12.3大數據的安全體系大數據的安全技術體系是以大數據安全管理、安全運行的技術保障。以密碼基礎設施、認證基礎設施、可信服務管理、密鑰管理設施、安全監(jiān)測預警等五大安全基礎設施為支撐服務,結合大數據、人工智能和分布式計算存儲能力,解決傳統(tǒng)安全解決方案中數據離散、單點計算能力不足、信息孤島和無法聯動的問題。
圖12-5大數據安全技術框架12.3.1安全技術體系大數據安全治理的目標是確保大數據“合法合規(guī)”安全流轉,在保障大數據安全的前提下,實現其價值最大化,以支撐企業(yè)的業(yè)務目標。大數據安全治理體系建設過程中行使數據的安全管理、運行監(jiān)管和效能評估的職能。主要內容包括:(1)構架大數據安全治理的治理流程、治理組織結構、治理策略和確保數據在流轉過程中的訪問控制、安全保密和安全監(jiān)管等安全保障機制。(2)制定數據治理過程中的安全管理架構,包括人員組成,角色分配、管理流程和對大數據的安全管理策略等。12.3.2大數據安全治理(3)明確大數據安全治理中元數據、數據質量、數據血緣、主數據管理和數據全生命周期安全治理方式,包括安全治理標準、治理方式、評估標準、異常和應急處置措施以及元數據、數據質量、數據標準等。(4)對大數據環(huán)境下數據主要參與者,包括數據提供者(數據源)、大數據平臺、數據管理者和數據使用者制定明確的安全治理目標,規(guī)劃安全治理策略。12.3.2大數據安全治理大數據安全測評是安全地提供大數據服務的支撐保障,目標是驗證評估所有保護大數據的安全策略、安全產品和安全技術的有效性和性能等。確保所使用的安全防護手段都能滿足主要參與者安全防護的需求。主要內容包括:(1)構建大數據安全測評的組織結構、人員組成、責任分工和安全測評需要達到的目標等。(2)明確大數據場景下安全測評的標準、范圍、計劃、流程、策略和方式等,大數據環(huán)境下的安全分析按評估方法包括基于場景的數據流安全評估、基于利益攸關者的需求安全評估等。12.3.3大數據安全測評(3)制定評估標準,明確各個安全防護手段需要達到的安全防護效能,包括功能、性能、可靠性、可用性、保密性、完整性等。(4)按照《大數據安全能力成熟度模型》評估安全態(tài)勢并形成相關的大數據安全評估報告等,作為大數據安全建設能夠投入應用的依據。12.3.3大數據安全測評大數據的安全運維主要確保大數據系統(tǒng)平臺能安全持續(xù)穩(wěn)定可靠運行,在大數據系統(tǒng)運行過程中行使資源調配、系統(tǒng)升級、服務啟停、容災備份、性能優(yōu)化、應急處置、應用部署和安全管控等職能。具體的職責包括:(1)構建大數據安全運維體系的組織形式、運維架構、安全運維策略、權限劃分等。(2)制定不同安全運維流程和運維的重點方向等,包括基礎設施安全管控、病毒防護、平臺調優(yōu)、資源分配和系統(tǒng)部署、應用和數據的容災備份等業(yè)務流程。12.3.4大數據安全運維(3)明確安全運維的標準規(guī)范和規(guī)章制度,由于運維人員具有較大的操作權限,為防范內部人員風險,要對大數據環(huán)境的核心關鍵部分、對危險行為做到事前、事中和事后有記錄、可跟蹤和能審計。12.3.4大數據安全運維基于威脅情報共享和采用大數據分析技術的大數據安全防護技術體系,可以實現大數據安全威脅的快速響應,集安全態(tài)勢感知、監(jiān)測預警、快速響應和主動防御為一體,基于數據分級分類實施不同的安全防護策略,形成協(xié)同安全防護體系。圍繞以數據為核心,以安全機制為手段,以涉及數據的承載主體為目標,以數據參與者為關注點,構建大數據安全協(xié)同主動防護體系。
圖12-6以數據為中心的安全防護要素12.3.5以數據為中心的安全要素(1)數據是指需要防護的大數據對象,包括大數據流轉的各個階段,即采集、傳輸、存儲、處理、共享、使用和銷毀。(2)安全策略是指對大數據對象進行安全防護的流程、策略、配置和方法等,如根據數據的不同安全等級和防護需求,實施主動防御、訪問控制、授權、隔離、過濾、加密、脫敏等。(3)安全產品指在對大數據進行安全防護時使用的具體產品,如數據庫防火墻、審計、主動防御系統(tǒng)、APT檢測、高速密碼機、數據脫敏系統(tǒng)、云密碼資源池、數據分級分類系統(tǒng)等。12.3.5以數據為中心的安全要素(4)防護主體是指需要防護的承載大數據流轉過程的軟硬件載體,包括服務器、網絡設備、存儲設備,大數據平臺、應用系統(tǒng)等。(5)參與者是指參與大數據流轉過程中的改變大數據狀態(tài)和流轉過程的主體,主要包括大數據提供者、管理者、使用者和大數據平臺等。12.3.5以數據為中心的安全要素PART04大數據倫理與法規(guī)人們逐漸認識到,為了讓網絡與信息技術長遠地造福于社會,就必須規(guī)范對網絡的訪問和使用,這就對政府、學術界和法律界提出了挑戰(zhàn)。人們面臨的一個難題就是如何制訂和完善網絡法規(guī),具體地說,就是如何在計算機空間里保護公民的隱私,規(guī)范網絡言論,保護電子知識產權以及保障網絡安全等。12.4大數據倫理與法規(guī)大數據產業(yè)面臨的倫理問題正日益成為阻礙其發(fā)展的瓶頸。這些問題主要包括數據主權和數據權問題、隱私權和自主權的侵犯問題、數據利用失衡問題。這三個問題影響了大數據的生產、采集、存儲、交易流轉和開發(fā)使用全過程。12.4.1大數據的倫理問題1.數據主權和數據權問題由于跨境數據流動劇增、數據經濟價值凸顯、個人隱私危機爆發(fā)等多方面因素,數據主權和數據權已成為大數據產業(yè)發(fā)展遭遇的關鍵問題。數據的跨境流動是不可避免的,但這也給國家安全帶來了威脅,數據的主權問題由此產生。數據主權是指國家對其政權管轄地域內的數據享有生成、傳播、管理、控制和利用的權力。數據主權是國家主權在信息化、數字化和全球化發(fā)展趨勢下新的表現形式,是各國在大數據時代維護國家主權和獨立,反對數據壟斷和霸權主義的必然要求。數據主權是國家安全的保障。12.4.1大數據的倫理問題數據權包括機構數據權和個人數據權。機構數據權是企業(yè)和其他機構對個人數據的采集權和使用權。個人數據權是指個人擁有對自身數據的控制權,以保護自身隱私信息不受侵犯的權利。數據權是企業(yè)的核心競爭力,數據權也是個人的基本權利,個人在互聯網上產生了大量的數據,這些數據與個人的隱私密切相關,個人也擁有對這些數據的財產權。12.4.1大數據的倫理問題數據財產權是數據主權和數據權的核心內容。以大數據為主的信息技術賦予了數據以財產屬性,數據財產是指將數據符號固定于介質之上,具有一定的價值,能夠為人們所感知和利用的一種新型財產。數據財產包含形式要素和實質要素兩個部分,數據符號所依附的介質為其形式要素,數據財產所承載的有價值的信息為其實質要素。數據權屬問題目前還沒有得到徹底解決,數據主權的爭奪也日益白熱化。數據權屬不明的直接后果就是國家安全受到威脅,數據交易活動存在法律風險和利益沖突,個人的隱私和利益受到侵犯。12.4.1大數據的倫理問題2.隱私權和自主權的侵犯問題數據的使用和個人的隱私保護是大數據產業(yè)發(fā)展面臨的一大沖突。在大數據環(huán)境下,個人在互聯網上的任何行為都會變成數據被沉淀下來,而這些數據的匯集都可能最終導致個人隱私的泄露。絕大多數互聯網企業(yè)通過記錄用戶不斷產生的數據,監(jiān)控用戶在互聯網上所有的行為,互聯網公司據此對用戶進行畫像,分析其興趣愛好、行為習慣,對用戶做各種分類,然后以精準廣告的形式給用戶提供符合其偏好的產品或服務。12.4.1大數據的倫理問題另外,互聯網公司還可以通過消費數據等分析評估消費者的信用,從而提供精準的金融服務進行盈利。在這兩種商業(yè)模式中,用戶成為被觀察、分析和監(jiān)測的對象,這是用個人生活和隱私來成全的商業(yè)模式。12.4.1大數據的倫理問題3.數據利用的失衡問題數據利用的失衡主要體現在兩個方面。第一,數據的利用率較低。隨著移動互聯網的發(fā)展,每天都有海量的數據產生,全球數據規(guī)模實現指數級增長,但是福瑞斯特研究對大型企業(yè)的調研結果顯示,企業(yè)大數據的利用率僅在12%左右。就掌握大量數據的政府而言,數據的利用率更低。第二,數字鴻溝現象日益顯著。數字鴻溝束縛數據流通,導致數據利用水平較低。大數據的“政用”、“民用”和“工用”,相對于大數據在商用領域的發(fā)展,無論技術、人才還是數據規(guī)模都有巨大的差距。12.4.1大數據的倫理問題現階段,我國大數據應用較為成熟的行業(yè)是電商、電信和金融領域,醫(yī)療、能源、教育等領域則處于起步階段。由于大數據在電商、電信、金融等商用領域產生巨大利益,數據資源、社會資源、人才資源均往這些領域傾斜,涉及政務、民生、工業(yè)等經濟利益較弱的領域,市場占比很少。在“商用”領域內,優(yōu)勢的行業(yè)或優(yōu)勢的企業(yè)也往往占據了大量的大數據資源。例如,大型
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學日出作文600字7篇
- 護理工作總結15篇
- 《寒冷的冬天》教案
- 工傷簡單辭職報告(集錦7篇)
- 網絡編程協(xié)議課程設計
- 2018年全國兩會學習解讀
- 消費電子行業(yè)專題報告:創(chuàng)新驅動需求復蘇 業(yè)績與估值有望修復
- 兒童看護服務合同(2篇)
- 河南省安陽市林州城郊鄉(xiāng)第六職業(yè)中學高二地理聯考試題含解析
- 煤炭經營場地出租合同范本
- 簡約中國風水墨山水工作總結通用PPT模板
- 腳手架計算書-
- 部編版八年級語文上冊《句子的成分》定稿課件
- 清華大學《大學物理》習題庫試題及答案09磁學習題
- 目標成本限額指標
- 礦山測量課程設計
- 最易懂的杰普遜航圖學習課件
- 高速公路瀝青路面設計計算書(Word)
- 加油機拆卸安裝方案
- 國畫美術興趣小組活動記錄(共9頁)
- 環(huán)境隱患排查治理檔案臺賬
評論
0/150
提交評論