《大數(shù)據(jù)安全技術(shù)》課后題答案_第1頁
《大數(shù)據(jù)安全技術(shù)》課后題答案_第2頁
《大數(shù)據(jù)安全技術(shù)》課后題答案_第3頁
《大數(shù)據(jù)安全技術(shù)》課后題答案_第4頁
《大數(shù)據(jù)安全技術(shù)》課后題答案_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

《大數(shù)據(jù)安全技術(shù)》課后習題答案

第一章大數(shù)據(jù)安全技術(shù)概述

一、填空題

(1)大量高速多樣價值

(2)數(shù)據(jù)采集階段數(shù)據(jù)傳輸階段數(shù)據(jù)存儲階段數(shù)據(jù)處理階段數(shù)據(jù)交換階

段數(shù)據(jù)銷毀階段

(3)數(shù)據(jù)生命周期安全問題基礎(chǔ)設(shè)施安全問題個人隱私安全問題

(4)計算架構(gòu)查詢與索引數(shù)據(jù)分析和處理

(5)HadoopSparkStorm

(6)非授權(quán)訪問信息泄露或丟失網(wǎng)絡(luò)基礎(chǔ)設(shè)施傳輸過程中破壞數(shù)據(jù)完整性

拒絕服務(wù)攻擊網(wǎng)絡(luò)病毒傳播

二、簡答題

(1)簡述大數(shù)據(jù)的概念。

答:大數(shù)據(jù)(BigData)通常被認為是一種規(guī)模大到在獲取、存儲、管理、分

析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合。隨著大數(shù)據(jù)研究的

不斷深入,我們逐步意識到大數(shù)據(jù)不僅指數(shù)據(jù)本身的規(guī)模,而且包括數(shù)據(jù)采集工

具、數(shù)據(jù)存儲平臺、數(shù)據(jù)分析系統(tǒng)和數(shù)據(jù)衍生價值等要素。

(2)針對大數(shù)據(jù)應(yīng)用中涉及的相關(guān)技術(shù),簡要介紹大數(shù)據(jù)的技術(shù)框架。

答:大數(shù)據(jù)常用的處理框架有Hadoop、Spark和Storm。

Hadoop是一種專用于批處理的處理框架,是首個在開源社區(qū)獲得極大關(guān)注

的大數(shù)據(jù)框架。Hadoop基于谷歌發(fā)表的海量數(shù)據(jù)處理相關(guān)的多篇論文,重新實

現(xiàn)了相關(guān)算法和組件堆棧,使大規(guī)模批處理技術(shù)變得更容易使用。新版Hadoop

包含多個組件,通過配合使用可處理批數(shù)據(jù)。

Spark可作為獨立集群部署(需要相應(yīng)存儲層配合),Spark的數(shù)據(jù)處理工作

全部在內(nèi)存中進行,只在一開始將數(shù)據(jù)讀入內(nèi)存,以及將最終結(jié)果持久存儲時需

要與存儲層交互。所有中間態(tài)的處理結(jié)果均存儲在內(nèi)存中。Spark可以用更快的

速度處理相同的數(shù)據(jù)集。Spark的另一個重要優(yōu)勢在于多樣性,可作為獨立集群

部署,或與現(xiàn)有Hadoop集群集成。Spark可運行批處理和流處理,運行一個集

群即可處理不同類型的任務(wù)。

Storm是一種側(cè)重于極低延遲的流處理框架,是要求近實時處理的工作負載

的最佳選擇。該技術(shù)可處理非常大量的數(shù)據(jù),通過比其他解決方案采用更低的延

遲提供結(jié)果。

(3)請描述數(shù)據(jù)的生命周期及面臨的主要安全威脅。

答:根據(jù)數(shù)據(jù)生命周期的防護需求,數(shù)據(jù)安全的分級防護可大體分為數(shù)據(jù)采

集、數(shù)據(jù)傳輸、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)交換、數(shù)據(jù)銷毀六個環(huán)節(jié)。

數(shù)據(jù)采集的安全威脅主要體現(xiàn)在以下5個方面:1)缺少數(shù)據(jù)分類分級,采集

的數(shù)據(jù)無序且不區(qū)分類別,會影響數(shù)據(jù)安全防護和管理中策略的制定;2)缺少

合規(guī)原則和最小化采集等基本要求,使得個人數(shù)據(jù)被過度采集及重要數(shù)據(jù)被泄露;

3)缺少采集訪問控制及可信認證,對數(shù)據(jù)源未進行身份鑒別和記錄,可能會采

集到錯誤的或失真的數(shù)據(jù);4)缺少數(shù)據(jù)質(zhì)量管理,不能保證數(shù)據(jù)采集過程中數(shù)

據(jù)的準確性、一致性和完整性;5)數(shù)據(jù)源服務(wù)器存在安全風險,如未及時更新

漏洞、未進行主機加固、未進行病毒防護。

數(shù)據(jù)傳輸階段中的安全威脅主要體現(xiàn)在以下3個方面:1)未進行加密傳輸,

不能保證數(shù)據(jù)傳輸過程中機密性和完整性的要求;2)未對網(wǎng)絡(luò)可用性管理,網(wǎng)

絡(luò)節(jié)點、傳輸鏈路中都可能存在數(shù)據(jù)泄露的風險;3)缺少傳輸過程中異常行為

控制及相關(guān)身份認證。

數(shù)據(jù)存儲階段中的安全威脅主要體現(xiàn)在以下6個方面:1)數(shù)據(jù)池服務(wù)器存

在安全風險,缺少安全防護策略,存在被黑客利用的風險,如拖庫和外部SQL注

入等;2)數(shù)據(jù)明文存儲或者未進行脫敏處理,有被泄露和利用的風險;3)對存

儲數(shù)據(jù)的訪問,缺少統(tǒng)一訪問控制及相關(guān)身份認證;4)缺少數(shù)據(jù)容災(zāi)備份機制,

沒有定期計劃的數(shù)據(jù)備份和恢復(fù),會對數(shù)據(jù)可用性產(chǎn)生威脅;5)存儲介質(zhì)使用

不當而引發(fā)數(shù)據(jù)泄露,因介質(zhì)損壞、故障、壽命有限等問題導(dǎo)致數(shù)據(jù)丟失;6)

網(wǎng)絡(luò)架構(gòu)設(shè)計不合理,未對存儲的重要敏感數(shù)據(jù)進行物理隔離或者邏輯隔離。

數(shù)據(jù)處理階段中的安全威脅主要體現(xiàn)在以下4個方面:1)未對敏感數(shù)據(jù)脫

敏處理,導(dǎo)致敏感數(shù)據(jù)泄露;2)數(shù)據(jù)不當使用,導(dǎo)致國家秘密、商業(yè)秘密和個

人隱私泄露,數(shù)據(jù)資源被用于不當目的;3)數(shù)據(jù)處理過程中缺少控制管理,數(shù)

據(jù)計算、開發(fā)平臺不統(tǒng)一,易遭受網(wǎng)絡(luò)攻擊;4)數(shù)據(jù)處理過程中使用的機器學(xué)

習算法存在安全問題,容易受到對抗樣本等攻擊。

數(shù)據(jù)交換階段中的安全威脅主要體現(xiàn)在以下4個方面:1)共享保護措施不

當導(dǎo)致數(shù)據(jù)丟失、篡改、假冒和泄露;2)數(shù)據(jù)發(fā)布過程中,違規(guī)對外披露造成

對組織的名譽損害、資產(chǎn)損失等不良影響;3)個人信息和重要數(shù)據(jù)未經(jīng)安全評

估,被交換共享出境;4)通過API數(shù)據(jù)接口獲取數(shù)據(jù)是常見的方式,對于數(shù)據(jù)

接口進行攻擊,將導(dǎo)致數(shù)據(jù)通過數(shù)據(jù)接口泄漏。

數(shù)據(jù)銷毀階段中的安全威脅主要體現(xiàn)在以下2個方面:1)銷毀方法不恰當

或未對有效數(shù)據(jù)備份銷毀,導(dǎo)致數(shù)據(jù)泄露;2)銷毀過程中,銷毀不徹底,攻擊

者惡意恢復(fù)存儲介質(zhì)中的數(shù)據(jù)而導(dǎo)致的數(shù)據(jù)泄漏。

(4)簡要介紹主流的大數(shù)據(jù)安全框架。

答:大數(shù)據(jù)主流的安全框架有Gartner數(shù)據(jù)安全治理框架(DSG),數(shù)據(jù)安全

能力成熟度模型(DSMM),微軟隱私、保密和合規(guī)性框架(DGPC)o

Gartner數(shù)據(jù)安全治理框架(DSG)試圖從組織的高層業(yè)務(wù)風險分析出發(fā),對

組織業(yè)務(wù)中的各個數(shù)據(jù)集進行識別、分類和管理,并針對數(shù)據(jù)集的數(shù)據(jù)流和數(shù)據(jù)

分析庫的機密性、完整性、可用性創(chuàng)建8種安全策略。

數(shù)據(jù)安全能力成熟度模型(DSMM)將數(shù)據(jù)按照其生命周期分階段采用不同

的能力評估等級,分為數(shù)據(jù)采集安全、數(shù)據(jù)傳輸安全、數(shù)據(jù)存儲安全、數(shù)據(jù)處理

安全、數(shù)據(jù)交換安全、數(shù)據(jù)銷毀安全六個階段。DSMM從組織建設(shè)、制度流程、

技術(shù)工具、人員能力四個安全能力維度的建設(shè)進行綜合考量。DSMM將數(shù)據(jù)安

全成熟度劃分成了1-5個等級,依次為非正式執(zhí)行級、計劃跟蹤級、充分定義級、

量化控制級、持續(xù)優(yōu)化級,形成一個三維立體模型,全方面對數(shù)據(jù)安全進行能力

建設(shè)。

微軟隱私、保密和合規(guī)性框架(DGPC)以數(shù)據(jù)生命周期為第一維度,以安全

構(gòu)架、身份認證訪問控制、信息保護、審計等安全要求為第二維度,組成了一個

二維的數(shù)據(jù)安全防護矩陣,幫助安全人員體系化地梳理數(shù)據(jù)安全防護需求。

(5)常用的大數(shù)據(jù)安全技術(shù)有哪些?

答:大數(shù)據(jù)安全技術(shù)中Hadoop安全機制有身份認證、訪問控制、數(shù)據(jù)加密、

日志審計。

身份認證是在網(wǎng)絡(luò)中確認用戶身份的有效方法,作為信息安全領(lǐng)域的一種重

要手段,能保護信息系統(tǒng)中的數(shù)據(jù)、服務(wù)不被未授權(quán)的用戶所訪問。計算機只能

識別用戶的數(shù)字身份,所有對用戶的授權(quán)也是針對用戶數(shù)字身份的授權(quán)。

訪問控制是數(shù)據(jù)安全的一個基本組成部分,它規(guī)定了哪些人可以訪問和使用

大數(shù)據(jù)中海量的信息與資源。通過訪問控制策略,可以確保用戶的真實身份,并

且確定其相應(yīng)權(quán)限。

數(shù)據(jù)加密是保障數(shù)據(jù)安全的核心技術(shù)之一,主要實現(xiàn)數(shù)據(jù)的加密和認證功能。

常用的密碼算法包括:分組密碼算法(如DES、AES、SM4等),公鑰密碼算法

(如RSA、ElGamaLSM2等)、哈希函數(shù)(如MD5、SHA等)。根據(jù)加密數(shù)據(jù)

的不同,可以分為靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)。

日志審計是追蹤集群中用戶和服務(wù)行為的機制,是安全問題中的一個關(guān)鍵部

分。如果沒有審計,那么任何人都可能察覺不到安全被破壞。審計功能對發(fā)生的

事情均會詳細記錄以完善安全模型,常分為三類:主動審計、被動審計、安全合

規(guī)。

第二章密碼技術(shù)及網(wǎng)絡(luò)安全協(xié)議

一、選擇題

(1)D

(2)D

(3)B

(4)C

(5)D

(6)D

二、填空題

(1)保密性、完整性、認證性、可用性、不可否認性

(2)明文、密文、加密算法、解密算法、密鑰

(3)對稱密碼體制、非對稱密碼體制

(4)大整數(shù)因子分解問題

(5)AH協(xié)議、ESP協(xié)議

(6)MD4、MD5,SHA-1

(7)基于橢圓曲線上的點構(gòu)成的加法交換群中的離散對數(shù)計算的困難性

(8)SSL/TLS

(9)中間人

三、簡答題

(1)簡述密碼學(xué)地位和作用?

答:密碼學(xué)在信息安全領(lǐng)域起著基本的、無可替代的重要作用,信息安全可

以看作一座大廈,密碼學(xué)就是大廈的基礎(chǔ)。

密碼學(xué)要解決的問題是信息安全的主要任務(wù),就是解決信息資源的保密性、

完整性、認證性、不可否認性和可用性。

(2)非對稱密碼體制和對稱密碼體制各有何優(yōu)缺點?

答:對稱密碼體制

優(yōu)點:加解密速度快,密鑰較短,效率高,算法簡單,系統(tǒng)開銷小。

缺點:

1)密鑰是保密通信安全的關(guān)鍵,發(fā)信方必須安全、妥善地把密鑰護送到收信

方,不能泄露其內(nèi)容。對稱密鑰算法的密鑰分發(fā)過程十分復(fù)雜,所花代價高。

2)多人通信時密鑰組合數(shù)量會出現(xiàn)爆炸性膨脹,使密鑰分發(fā)更加復(fù)雜化。

3)通信雙方必須統(tǒng)一密鑰,才能發(fā)送保密的信息。

4)對稱密碼算法還存在數(shù)字簽名困難問題。

非對稱密碼體制

優(yōu)點:

1)網(wǎng)絡(luò)中每一個用戶只需要保護自己的私鑰,N個用戶僅需要產(chǎn)生N對密

鑰,密鑰少,便于管理。

2)密鑰分配簡單,不需要秘密的通道和復(fù)雜的協(xié)議來傳送密鑰。

3)可以實現(xiàn)數(shù)字簽名。

缺點:

與對稱密碼體制相比,非對稱密碼體制加密、解密處理速度較慢,同等安全

強度下,非對稱密碼體制的密鑰位數(shù)要求多一些。

(3)數(shù)字簽名的應(yīng)用領(lǐng)域有哪些?

答:網(wǎng)上銀行、電子商務(wù)、電子政務(wù)、網(wǎng)絡(luò)通信。

(4)Hash函數(shù)具有哪些特點?在信息安全方面的應(yīng)用主要是什么?

答:

Hash函數(shù)的特點:

一般的Hash函數(shù)至少有以下兩個性質(zhì):

(1)壓縮。映射一個任意有限長的輸入,為一個固定長的輸出;

(2)容易計算。給出h和輸入x,計算h(x)是容易的。

從安全角度,Hash函數(shù)還需滿足以下特性:

(1)單向性:由h(x)計算x是計算困難的;

(2)無碰撞性:不同的輸入產(chǎn)生相同輸出是計算困難的;

應(yīng)用:文件完整性校驗、數(shù)字簽名、鑒權(quán)協(xié)議。

(5)安全關(guān)聯(lián)SA的作用是什么?

答:安全關(guān)聯(lián)(SecurityAssociation,SA)是IPSec的基礎(chǔ),也是IPSec的本

質(zhì)。SA是通信對等體間對某些要素的約定,例如,使用哪種協(xié)議(AH、ESP、

還是兩者結(jié)合使用)、協(xié)議的封裝模式(傳輸模式、隧道模式)、加密算法(DES、

3-DES、AES)、特定流中保護數(shù)據(jù)的共享密鑰以及密鑰的生存周期等。

(6)SSL提供的安全服務(wù)有哪些?

答:

1)保密性:握手協(xié)議定義會話密鑰后,所有傳輸?shù)膱笪谋患用?,防止?shù)據(jù)泄

露;

2)完整性:傳輸?shù)膱笪闹性黾酉⒄J證碼(MessageAuthenticationCode,

MAC),用于檢測數(shù)據(jù)是否被篡改;

3)身份認證:可選的客戶端認證,和強制的服務(wù)端認證。

第三章大數(shù)據(jù)平臺Hadoop的安全機制

一、選擇題

(1)D

(2)D

(3)B

(4)A

(5)D

(6)B

二、填空題

(1)NameNode,DataNode

(2)Simple,Kerberos

(3)Kerberos

(4)認證令牌

(5)資源,權(quán)限,角色,用戶和組

(6)Binding,PolicyEngine,PolicyProvider

(7)用戶,資源,權(quán)限

三、簡答題

(1)Hadoop的安全機制是怎樣的?

答:Hadoop提供了兩種安全機制:Simple機制和Kerberos機制。Hadoop安

全性與其組件安全機制息息相關(guān),包括RPC安全機制、HDFS安全機制

MapReduce安全機制、MapReduce安全機制等。

(2)現(xiàn)有Hadoop安全存在哪些問題?

答:Hadoop的安全問題,其中一方面是Hadoop本身的安全能力,另一方面

是對Hadoop的安全性進行補充的策略。詳見3.4.1小節(jié)。

(3)Hadoop的安全架構(gòu)包括哪些方面?

答:Hadoop常見的安全架構(gòu)如圖3.9所示。首先是基礎(chǔ)設(shè)施安全,包括物理

安全和Kerberos。操作系統(tǒng)層面采用主機加護的方式,通過白名單的機制對系統(tǒng)

的服務(wù)、進程、端口、軟件等等進行控制,從而抵御非法攻擊。應(yīng)用安全是通過

HUE在網(wǎng)關(guān)之上提供的一些用戶細粒度的訪問控制。網(wǎng)絡(luò)邊界安全是利用堡壘

機和防火墻的技術(shù)實現(xiàn)了網(wǎng)絡(luò)和應(yīng)用的控制。數(shù)據(jù)加密一方面使用SASL框架實

現(xiàn)通道加密,一方面使用壓縮文件的能力對數(shù)據(jù)塊直接加密。詳見3.6節(jié)。

⑷Sentry為Hadoop使用者提供哪些便利?

答:ApacheSentry為Hadoop使用者提供了以下便利:(1)能夠在Hadoop中

存儲更敏感的數(shù)據(jù);(2)使更多的終端用戶擁有Hadoop數(shù)據(jù)訪問權(quán);(3)創(chuàng)建

更多的Hadoop使用案例;(4)構(gòu)建多用戶應(yīng)用程序;(5)符合規(guī)范(如SOX、

PCI、HIPAA、EAL3)。

(5)簡述用戶訪問Ranger資源權(quán)限的校驗過程。

答:當用戶要請求某個資源時,會先獲取和這個資源有關(guān)聯(lián)的所有配置的策

略,之后遍歷這些策略,然后根據(jù)黑白名單判斷該用戶是否有權(quán)限訪問該資源。

詳見參考3.4.3小節(jié)。

第四章身份認證技術(shù)

一、選擇題

(1)B

(2)C

(3)C

(4)A

二、填空題

(1)時間同步,事件同步,挑戰(zhàn)/應(yīng)答

(2)重放攻擊

(3)消息認證碼

(4)認證服務(wù),票據(jù)授權(quán)服務(wù),數(shù)據(jù)庫

三、簡答題

(1)一個安全的口令應(yīng)該滿足哪些要求?

答:一個安全的口令應(yīng)該滿足如下要求:口令長度適中,屏幕不顯示口令,

日志記錄功能,有限的嘗試次數(shù)和安全性的存儲機制。

(2)簡述靜態(tài)口令的缺陷。

答:靜態(tài)口令的缺陷:口令生成不安全,口令使用不安全,口令傳輸不安全,

口令存儲不安全。

(3)動態(tài)口令的基本原理是什么?

答:動態(tài)口令的基本認證原理是在認證雙方共享密鑰,也稱種子密鑰,并使

用同一個種子密鑰對某一個事件計數(shù)、時間值或異步挑戰(zhàn)數(shù)進行加密計算,然后

比較計算值是否一致來進行認證。

(4)簡述口令認證與消息認證的區(qū)別。

答:口令認證指用戶登錄系統(tǒng)時,按照系統(tǒng)要求輸入用戶名和口令,登錄程

序利用用戶名去查找用戶注冊表或者口令文件,然后比較用戶輸入的口令與注冊

表或者口令文件中用戶名對應(yīng)的口令。如果一致,表示用戶通過認證,可以正常

訪問系統(tǒng)中相關(guān)的資源。

消息認證就是驗證消息的完整性,當接收方收到發(fā)送方的報文(發(fā)送者、報

文的內(nèi)容、發(fā)送時間、序列等)時,接收方能夠驗證收到的報文是真實的和未被

篡改的。

(5)簡述Kerberos認證協(xié)議的設(shè)計思想和實現(xiàn)方法。

答:Kerberos是一種基于票據(jù)的網(wǎng)絡(luò)身份認證協(xié)議,用于在非安全的網(wǎng)絡(luò)環(huán)

境下對用戶通信進行加密認證,即通過密鑰系統(tǒng)為客戶機/服務(wù)器應(yīng)用程序提供

強大的認證服務(wù)。該認證過程的實現(xiàn)不依賴于主機操作系統(tǒng)的認證,無需基于主

機地址的信任,不要求網(wǎng)絡(luò)上所有主機的物理安全,并假定網(wǎng)絡(luò)上傳送的數(shù)據(jù)包

可以被任意地讀取、修改和插入數(shù)據(jù)。

認證過程具體如下:客戶機向認證服務(wù)器(AS)發(fā)送請求,要求得到某服務(wù)

器的證書,然后AS的響應(yīng)包含這些用客戶端密鑰加密的證書。證書的構(gòu)成為:

1)服務(wù)器“ticket";2)一個臨時加密密鑰??蛻魴C將ticket(包括用服務(wù)器密

鑰加密的客戶機身份和一份會話密鑰的拷貝)傳送到服務(wù)器上。會話密鑰可以(現(xiàn)

已經(jīng)由客戶機和服務(wù)器共享)用來認證客戶機或認證服務(wù)器,也可用來為通信雙

方以后的通訊提供加密服務(wù),或通過交換獨立子會話密鑰為通信雙方提供進一步

的通信加密服務(wù)。

第五章訪問控制技術(shù)

一、選擇題

(1)C

(2)C

(3)C

(4)A

(5)D

(6)A

二、填空題

(1)主體客體安全訪問策略

(2)RD,當且僅當SC(s)NSC(o),允許讀操作

WU,當且僅當SC(s)WSC(o),允許寫操作;

RU,當且僅當SC(s)SSC(o),允許讀操作

WD,當且僅當SC(s巨SC(o),允許寫操作

(3)角色等級角色之間的約束條件互斥角色最小權(quán)限RBACiRBAC2

(4)主體客體權(quán)限環(huán)境

(5)基于靜態(tài)規(guī)則的訪問控制基于風險的訪問控制“允許”

三、簡答題

(1)簡要說明用戶、主體、客體之間的區(qū)別和聯(lián)系。

用戶是指使用計算機系統(tǒng)的人,從另外一個層面上也指計算機里的賬號等。

主體是一個可以對資源發(fā)起訪問的主動實體,人、進程或設(shè)備等實體都能成

為主體,而通常主體一般指代表用戶執(zhí)行操作的進程。

客體指需要保護的可訪問的資源,也指接受其他實體訪問的被動實體,最典

型的客體是文件或資源。

在一個登錄或一個會話這樣的簡單操作中,一個用戶也會產(chǎn)生多個主體。主

體的主要作用在于它能引起信息在客體之間的流動。由主體發(fā)起訪問客體的操作,

該操作根據(jù)系統(tǒng)的授權(quán)或被允許或被拒絕。主體和客體的關(guān)系是相對的,在不同

情況下可能相互轉(zhuǎn)化?!爸黧w”和“客體”只是為了區(qū)分一個訪問請求中的主動方和

被動方,根據(jù)不同的情況,實體可能是某個訪問請求的主體,而又是另一個訪問

請求的客體。

(2)什么是自主訪問控制?有什么特點?

自主訪問控制(DiscretionaryAccessControl,DAC),又稱為任意訪問控制。

作為客體的擁有者的個人用戶可以設(shè)置訪問控制屬性來允許或拒絕對客體的訪

問,那么這樣的訪問控制就稱為自主訪問控制。

自主訪問控制允許授權(quán)者訪問系統(tǒng)控制策略許可的資源,同時阻止非授權(quán)者

訪問資源,某些時候授權(quán)者還可以自主把自己擁有的某些權(quán)限授予其他授權(quán)者,

該模型的不足就是人員發(fā)生較大變化時,需要大量的授權(quán)工作,因此系統(tǒng)容易造

成信息泄露。

(3)什么是強制訪問控制?有什么特點?

強制訪問控制(MandatoryAccessControl,MAC)是根據(jù)客體中信息的敏感

標簽和訪問敏感信息的主體的訪問等級,對客體的訪問實行限制的一種方法。系

統(tǒng)首先給訪問主體和資源賦予不同的安全屬性,在實現(xiàn)訪問控制時,系統(tǒng)先對訪

問主體和受控制資源的安全級別進行比較,再決定訪問主體能否訪問客體。

強制訪問控制的特點有:一是強制性,除了管理員外任何主體、客體都不能

直接或間接地改變安全屬性;二是限制性,系統(tǒng)通過比較主體和客體的安全屬性

來決定主體能否以它所希望的模式訪問一個客體,對用戶施加了嚴格的限制。

(4)強制訪問控制的不足之處是什么?

強制訪問控制的不足之處在于靈活性差,不適合訪問策略復(fù)雜的系統(tǒng)。安全

級別間強制性太強,權(quán)限的變更非常不方便,很多情況下主體或客體安全級別的

劃分與現(xiàn)實要求無法一致,造成系統(tǒng)管理不變,因此應(yīng)用領(lǐng)域比較窄,使用不靈

活,一般只適合政府機構(gòu)和軍事領(lǐng)域等具有嚴格機密性要求的行業(yè)或領(lǐng)域。

(5)角色在基于角色的訪問控制中起什么作用?

基于角色的訪問控制是指在訪問控制系統(tǒng)中,按照用戶所承擔的角色的不同

而授予不同的操作權(quán)限集。RBAC的核心思想就是將訪問權(quán)限與角色相聯(lián)系,通

過給用戶分配合適的角色,讓用戶與訪問權(quán)限相聯(lián)系。角色是根據(jù)系統(tǒng)內(nèi)為完成

各種不同的任務(wù)需要而設(shè)置的,根據(jù)用戶在系統(tǒng)中的職權(quán)和責任來設(shè)定他們的角

色。用戶可以在角色間進行轉(zhuǎn)換,系統(tǒng)可以添加、刪除角色,還可以對角色的權(quán)

限進行添加、刪除。用戶與客體無直接聯(lián)系,只有通過角色才享有該角色所對應(yīng)

的權(quán)限,從而訪問相應(yīng)的客體。因此用戶不能自主地將訪問權(quán)限授予別的用戶。

通過應(yīng)用RBAC,將安全性放在一個接近組織結(jié)構(gòu)的自然層面上進行管理。

(6)RBAC的安全原則有哪些?

RBAC支持公認的安全原則:最小權(quán)限原則、責任分離原則和數(shù)據(jù)抽象原則。

1)最小權(quán)限原則,是指將超級用戶的所有特權(quán)分解成一組細粒度的權(quán)限子

集,定義成不同的“角色”,分別賦予不同的用戶,每個用戶僅擁有完成其工作所

必需的最小權(quán)限,避免了超級用戶的誤操作或其身份被假冒后而產(chǎn)生的安全隱患。

2)責任分離原則,在RBAC模型中可以通過在完成敏感任務(wù)過程中分配兩

個責任上互相約束的兩個角色來實現(xiàn)。例如,在清查賬目時,只需要設(shè)置財務(wù)管

理員和會計兩個角色參加就可以了。

3)數(shù)據(jù)抽象原則,通過權(quán)限的抽象來體現(xiàn)。RBAC支持數(shù)據(jù)抽象的程度與

RBAC模型的實現(xiàn)細節(jié)有關(guān)。

(7)NIST建議的RBAC標準有哪幾類?請敘述它們的特點。

RBAC96是一個模型族,包括四個模型:RBACo?RBAC3。

l)RBACo是核心,定義了完全支持RBAC概念的任何系統(tǒng)的最低需求,包

括用戶、角色、許可權(quán)和會話等要素,并形式化地描述了訪問權(quán)限與角色的關(guān)系,

用戶通過角色間接獲得權(quán)限的訪問控制方式。

2)RBAG在RBACo的基礎(chǔ)上引入了角色等級的概念,進一步簡化了權(quán)限

管理的復(fù)雜度。

3)RBAC2則增加了角色之間的約束條件,例如互斥角色、最小權(quán)限等。

4)RBAC3則是RBACi和RBAC2的綜合,探討了角色繼承和約束之間的關(guān)

系,被稱為統(tǒng)一模型。

第六章數(shù)據(jù)加密技術(shù)

一、選擇題

(1)A

(2)A

(3)C

(4)D

(5)B

二、填空題

(1)HDFS透明加密、MapReduce中間數(shù)據(jù)加密、Impala磁盤溢出加密、磁盤

加密、加密文件系統(tǒng)(5個寫出4個即可)

(2)RPC加密、HDFS數(shù)據(jù)傳輸協(xié)議加密、HadoopHTTPS力口密、加密shuffle

(3)StateStore>Impalad、CLIClient、MySQL

(4)透明性、高性能、可控性

三、簡答題

(1)簡述HDFS透明加密的原理。

HDFS透明加密,是一種端到端的加密模式,加密和解密過程對于客戶端來

說是完全透明的

1)加密區(qū)域是HDFS中特殊的目錄,該目錄中的所有文件都以加密形式存

儲。

2)每個加密區(qū)域都有一個與其相關(guān)聯(lián)的加密區(qū)域密鑰(EncryptionZoneKey,

EZK),這個EZK會在創(chuàng)建加密區(qū)域的時候同時被指定。

3)每個加密區(qū)域中的文件會有其唯一的數(shù)據(jù)加密密鑰(DataEncryptionKey,

DEK)o

4)DEK不會被HDFS直接處理,HDFS只處理經(jīng)過EZK加密過的DEK,

即加密數(shù)據(jù)加密密鑰(EncryptedDataEncryptionKey,EDEK)0

5)HDFS允許嵌套創(chuàng)建加密區(qū)域,即在某個加密區(qū)域目錄下使用不同的EZK

創(chuàng)建新的加密區(qū)域。

6)解密時,客戶端詢問KMS服務(wù)去解密EDEK(KMS利用存儲的EZK來

解密EDEK得至UDEK),然后客戶端利用得到的DEK去讀/寫加密數(shù)據(jù)。

(2)MapReduce的工作原理是什么?

第一階段:提交作業(yè)

客戶端節(jié)點向JobTracker節(jié)點提交作業(yè)。首先,用戶需要將所有應(yīng)該配置的

參數(shù)根據(jù)需求配置好。作業(yè)提交之后,就會進入自動化執(zhí)行。在這個過程中,用

戶只能監(jiān)控程序的執(zhí)行情況和強制中斷作業(yè),但是不能對作業(yè)的執(zhí)行過程進行任

何干預(yù)。

1)客戶端啟動作業(yè)提交過程。

2)客戶端通過JobTracker請求一個新的作業(yè)號。

3)客戶端檢查作業(yè)的輸出說明,計算作業(yè)的輸入分片等,如果有問題,就拋

出異常,如果正常,就將運行作業(yè)所需的資源(如作業(yè)的Jar文件、配置文件計

算所得的輸入分片等)復(fù)制到一個以作業(yè)號命名的目錄中。

4)通過調(diào)用JobTracker提交作業(yè),并告知作業(yè)準備執(zhí)行。

第二階段:初始化作業(yè)

在JobTracker端開始初始化工作,包括在其內(nèi)存里建立一系列數(shù)據(jù)結(jié)構(gòu),記

錄這個Job的運行情況。

5)JobTracker接收到提交作業(yè)事件后,就會把提交作業(yè)的事件放入一個內(nèi)部

隊列中,交由作業(yè)調(diào)度器進行調(diào)度。初始化主要是創(chuàng)建一個表示正在運行作業(yè)的

對象,以便跟蹤任務(wù)的狀態(tài)和進程。

6)為了創(chuàng)建任務(wù)運行列表,作業(yè)調(diào)度器首先從HDFS中獲取JobClient已計

算好的輸入劃分信息,然后為每個分片創(chuàng)建一個MapTask,并且創(chuàng)建ReduceTask。

第三階段:分配任務(wù)

7)JobTracker會向HDFS的NameNode詢問有關(guān)數(shù)據(jù)在哪些文件里面,這些

文件分別存儲在哪些數(shù)據(jù)結(jié)點DataNode上。JobTracker需要按照“就近運行”原

則分配任務(wù)。TaskTracker定期通過"心跳"與JobTracker進行通信,主要是告知

JobTracker自身是否還存活,以及是否已經(jīng)準備好運行新的任務(wù)等。JobTracker接

收到心跳信息后,如果有待分配的任務(wù),就會為TaskTracker分配一個任務(wù),并

將分配信息封裝在心跳通信的返回值中返回給TaskTrackero對于M叩Task,

JobTracker通常會選取一個距離其輸入分片最近的TaskTracker,對于ReduceTask,

JobTracker則無法考慮數(shù)據(jù)的本地化。

第四階段:執(zhí)行任務(wù)

8)TaskTracker分配到一個任務(wù)后,通過HDFS把作業(yè)的Jar文件復(fù)制到

TaskTracker所在的文件系統(tǒng),同時,TaskTracker將應(yīng)用程序所需要的全部文件

從分布式緩存復(fù)制到本地磁盤。TaskTracker為任務(wù)新建一個本地工作目錄,并把

Jar文件中的內(nèi)容解壓到這個文件夾中。

9)TaskTracker啟動一個新的JVM來運行每個任務(wù)(包括MapTask和

ReduceTask),這樣,JobClient的MapReduce就不會影響TaskTracker的守護進

程。任務(wù)的子進程每隔幾秒便告知父進程它的進度,直到任務(wù)完成。

第五階段:進程和狀態(tài)的更新

一個作業(yè)和它的每個任務(wù)都有一個狀態(tài)信息,包括作業(yè)或任務(wù)的運行狀態(tài)、

MapTask和ReduceTask的任務(wù)執(zhí)行進度、計數(shù)器值、狀態(tài)消息或描述。任務(wù)在

運行時系統(tǒng)對其進度保持追蹤。

10)每個任務(wù)的消息、狀態(tài)發(fā)生變化時會由ChildJVM通知TaskTracker。

11)當作業(yè)的消息、狀態(tài)發(fā)生變化,會由TaskTracker通知JobTracker。

JobTracker將產(chǎn)生一個表明所有運行作業(yè)及其任務(wù)狀態(tài)的全局視圖,用戶可以通

過WebUI進行查看。JobClient通過每秒查詢JobTracker來獲得最新狀態(tài),并且

輸出到控制臺上。

12)當JobTracker接收到的這次作業(yè)的最后一個任務(wù)已經(jīng)完成時,它會將Job

的狀態(tài)改為“successful"。當JobClient獲取到作業(yè)的狀態(tài)時,就知道該作業(yè)已經(jīng)

成功完成,然后JobClient打印信息告知用戶作業(yè)已成功結(jié)束。

(3)Impala磁盤溢出加密需要配置哪些屬性?默認值是什么?

disk_spill_encryption、disk_spill_integrity

默認值都是false

(4)磁盤加密和加密文件系統(tǒng)的區(qū)別是什么?典型的加密工具分別有哪些?

磁盤加密是通過無法輕易被破譯的密碼算法來防止數(shù)據(jù)的未授權(quán)訪問,使用

磁盤加密軟件或硬件來加密數(shù)據(jù)。計算機文件和分區(qū)表等信息是以扇區(qū)塊為基本

單位,存放在硬盤、U盤或軟盤等存儲介質(zhì)中。利用AES等對稱加密算法,在

數(shù)據(jù)寫入磁盤前,先進行加密處理,然后再寫入磁盤的對應(yīng)扇區(qū)中,這樣磁盤里

的數(shù)據(jù)就以密文的形式存儲。加密工具有Linux上的加密軟件LUKS。

加密文件系統(tǒng)是將加密服務(wù)集成到文件系統(tǒng)層面來解決數(shù)據(jù)的保密性。加密

文件的內(nèi)容一般經(jīng)過算法加密后以密文的形式存儲在物理介質(zhì)上,即使文件丟失

或被竊取,只要密鑰未泄漏,非授權(quán)用戶幾乎無法通過破解密文獲得文件的明文,

從而保證了高安全性。與此同時,授權(quán)用戶對加密文件的訪問非常方便,用戶通

過身份認證之后,對加密文件的訪問和普通文件沒有什么區(qū)別,就好像該文件并

沒有被加密過,這是因為加密文件系統(tǒng)自動地在后臺做了相關(guān)的加密和解密的工

作,而這個工作對用戶是透明的。由于加密文件系統(tǒng)一般工作在內(nèi)核態(tài),普通的

攻擊難以奏效。加密工具有Linux上的文件系統(tǒng)加密方案eCryptfso

(5)結(jié)合實驗,分析HDFS透明加密和HDFS數(shù)據(jù)傳輸協(xié)議加密的區(qū)別是什么?

HDFS透明加密,加密和解密過程對于客戶端來說是完全透明的。用戶往

HDFS上存儲數(shù)據(jù)的時候,無需做任何程序代碼的更改,通過調(diào)用KeyProvider

API即可實現(xiàn)對存儲到HDFS上的數(shù)據(jù)進行加密,同樣解密的過程類似。數(shù)據(jù)的

加密和解密由客戶端完成,HDFS不會存儲或訪問未加密的數(shù)據(jù)或數(shù)據(jù)加密密鑰

DEKo

HDFS數(shù)據(jù)傳輸協(xié)議加密的對象,是從一個DataNode傳輸?shù)搅硪粋€DataNode,

或者在DataNode與客戶端之間通過TCP/IP套接字傳輸?shù)膭討B(tài)數(shù)據(jù)。

HDFS數(shù)據(jù)傳輸協(xié)議加密用來設(shè)置加密客戶端訪問HDFS的通道和HDFS數(shù)

據(jù)傳輸通道。HDFS數(shù)據(jù)傳輸通道包括DataNode間的數(shù)據(jù)傳輸通道,客戶端訪

問DataNode的數(shù)據(jù)傳輸通道。數(shù)據(jù)傳輸加密啟用時,會使用HadoopRPC協(xié)議

交換數(shù)據(jù)傳輸協(xié)議中使用的加密密鑰。

第七章大數(shù)據(jù)采集及安全

一、選擇題

(1)C

(1)D

(2)D

二、填空題

(1)半結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)

(1)分類分級

(2)公共數(shù)據(jù),個人信息

三、簡答題

(1)數(shù)據(jù)分類分級應(yīng)遵守哪些基本原則?

答:合法合規(guī)、界限明確、就高從嚴、時效性和自主性。

(2)數(shù)據(jù)的分類方法主要有哪些?

答:線分類法、面分類法和混合分類法。

(3)數(shù)據(jù)分類分級的流程包括哪幾步?

答:數(shù)據(jù)資產(chǎn)識別、數(shù)據(jù)分類確定、數(shù)據(jù)定級判定、審核標識管理、數(shù)據(jù)分

類分級保護。

(4)數(shù)據(jù)的安全級別如何劃分?

答:數(shù)據(jù)從低到高分成公開級(1級)、內(nèi)部級(2級)、敏感級(3級)、重

要級(4級)、核心級(5級)五個級別。

(5)數(shù)據(jù)定級需要考慮哪幾個要素?

答:危害對象和危害程度。

(6)請舉例說明數(shù)據(jù)的違規(guī)采集現(xiàn)象。

答:常見的違規(guī)采集現(xiàn)象主要有:

1)過度收集、濫用個人信息;

2)未公開收集、使用規(guī)則;

3)未明示收集使用個人信息的目的、方式和范圍;

4)未經(jīng)用戶同意收集使用個人信息;

5)竊取或者以其他非法方式獲取個人信息。

(7)大數(shù)據(jù)采集技術(shù)主要包括哪些?

答:數(shù)據(jù)庫采集、系統(tǒng)日志采集、網(wǎng)絡(luò)數(shù)據(jù)采集和感知設(shè)備數(shù)據(jù)采集。

(8)數(shù)據(jù)生命周期包括哪幾個階段?

答:數(shù)據(jù)采集、數(shù)據(jù)傳輸、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)交換和數(shù)據(jù)銷毀。

(9)數(shù)據(jù)質(zhì)量評估主要包括哪幾個方面?

答:完整性、規(guī)范性、一致性、準確性、唯一性和關(guān)聯(lián)性。

(10)數(shù)據(jù)質(zhì)量校驗的方法主要有哪些?

答:人工對比、程序?qū)Ρ群徒y(tǒng)計分析。

(11)數(shù)據(jù)清洗主要包括哪幾個方面?

答:缺失值處理、重復(fù)值處理、異常值處理、不一致值處理和丟失關(guān)聯(lián)值處

理。

第八章大數(shù)據(jù)存儲及安全

一、選擇題

(1)B

(2)A

(3)A

(4)D

二、填空題

(1)Google文件系統(tǒng)(GoogleFileSystem,GFS)、Hadoop分布式文件系統(tǒng)

(HadoopDistributeFileSystem)

(2)日志、數(shù)據(jù)

(3)存儲桶(Bucket)、區(qū)域(Region)>鍵(Key)

(4)用戶-云服務(wù)器驗證框架、用戶-驗證者-云服務(wù)器驗證框架

(5)群組用戶、第三方審計者(TPA)、云服務(wù)提供商(CSP)

(6)磁介質(zhì)、半導(dǎo)體介質(zhì)、光盤介質(zhì)

(7)完全備份、增量備份、差分備份

(8)軟件恢復(fù)、硬件恢復(fù)

三、簡答題

(1)簡要介紹大數(shù)據(jù)存儲的三種典型方法。

答:分布式文件系統(tǒng)是指文件系統(tǒng)管理的物理存儲資源,不一定直接連接在

本地節(jié)點上,而是通過計算機網(wǎng)絡(luò)與節(jié)點相連;或是若干不同的邏輯磁盤分區(qū)或

卷標組合在一起而形成的完整的有層次的文件系統(tǒng)。DFS為分布在網(wǎng)絡(luò)上任意

位置的資源提供一個邏輯上的樹形文件系統(tǒng)結(jié)構(gòu),從而使用戶訪問分布在網(wǎng)絡(luò)上

的共享文件更加簡便。

分布式數(shù)據(jù)庫在邏輯上是一個統(tǒng)一的整體,在物理上則是分別存儲在不同的

物理節(jié)點上。一個應(yīng)用程序通過網(wǎng)絡(luò)的連接可以訪問分布在不同地理位置的數(shù)據(jù)

庫。它的分布性表現(xiàn)在數(shù)據(jù)庫中的數(shù)據(jù)不是存儲在同一場地,更確切地講,不存

儲在同一計算機的存儲設(shè)備上。這就是與集中式數(shù)據(jù)庫的區(qū)別。

云存儲是一種網(wǎng)上在線存儲的模式,即把數(shù)據(jù)存放在通常由第三方托管的多

臺虛擬服務(wù)器,而非專屬的服務(wù)器上。托管公司運營大型的數(shù)據(jù)中心,需要數(shù)據(jù)

存儲托管的人,則通過向其購買或租賃存儲空間的方式,來滿足數(shù)據(jù)存儲的需求。

數(shù)據(jù)中心營運商根據(jù)客戶的需求,在后端準備存儲虛擬化的資源,并將其以存儲

資源池的方式提供,客戶便可自行使用此存儲資源池來存放文件或?qū)ο?。實際上,

這些資源可能被分布在眾多的服務(wù)器主機上。

2.簡要說明HDFS的結(jié)構(gòu)。

答:HDFS是一個主從結(jié)構(gòu),一個HDFS集群是由一個名字節(jié)點(NameNode)

和多個數(shù)據(jù)節(jié)點(DataNode)組成,它們通常是在不同的機器上。HDFS將一個

文件分割成一個或多個塊,這些塊被存儲在一組數(shù)據(jù)節(jié)點中。NameNode用來操

作命名空間的文件或目錄,如:打開、關(guān)閉、重命名等,同時確定塊與數(shù)據(jù)節(jié)點

的映射。DataNode負責響應(yīng)來自文件系統(tǒng)客戶的讀寫請求,同時還要執(zhí)行塊的

創(chuàng)建、刪除和來自名字節(jié)點的塊復(fù)制指令。

一個NameNode保存著集群上所有文件的目錄樹,以及每個文件數(shù)據(jù)塊的位

置信息,它是一個管理文件命名空間和客戶端訪問文件的主服務(wù)器,但是它并不

真正存儲文件數(shù)據(jù)本身。DataNode通常是一個節(jié)點或一個機器,它真正的存放

著文件數(shù)據(jù)(和復(fù)制數(shù)據(jù))。它管理著從NameNode分配過來的數(shù)據(jù)塊,是來管

理對應(yīng)節(jié)點的數(shù)據(jù)存儲。HDFS對外開放文件命名空間并允許用戶數(shù)據(jù)以文件形

式存儲。

(3)HBase的特點包括哪些?

答:容量大:一個表可以有數(shù)百億行,數(shù)千列。當關(guān)系型數(shù)據(jù)庫(如Oracle)

的單個表的記錄在億級時,則查詢和寫入的性能都會呈現(xiàn)指數(shù)級下降,而HBase

對于單表存儲百億或更多的數(shù)據(jù)都沒有性能大幅遞減問題。

無固定模式(表結(jié)構(gòu)不固定):每行都有一個可排序的主鍵和任意多的列,列

可以根據(jù)需要動態(tài)的增加,同一張表中不同的行可以有截然不同的列。

面向列:面向列(簇)的存儲和權(quán)限控制,支持列(簇)獨立檢索。關(guān)系型

數(shù)據(jù)庫是按行存儲的,在數(shù)據(jù)量大的時候,依賴索引來提高查詢速度,而建立索

引和更新索引需要大量的時間和空間。對于HBase而言,因為數(shù)據(jù)是按照列存

儲,每一列都單獨存放,所以數(shù)據(jù)即索引,在查詢時可以只訪問所涉及的列的數(shù)

據(jù),大大降低了系統(tǒng)的I/O。

稀疏性:空列并不占用存儲空間,表可以設(shè)計的非常稀疏。

數(shù)據(jù)多版本:每個單元中的數(shù)據(jù)可以有多個版本,默認情況下版本號自動分

配,它是插入時的時間戳。

數(shù)據(jù)類型單一:HBase中的數(shù)據(jù)都是字符串,沒有類型。

高性能:針對行鍵的查詢能夠達到毫秒級別。

(4)云存儲數(shù)據(jù)完整性機制有哪些,各自的特點是什么?

答:數(shù)據(jù)的完整性驗證機制主要分為兩種:數(shù)據(jù)持有性證明(ProvableData

Possession,PDP)和可恢復(fù)數(shù)據(jù)證明(ProofofRetrievability,POR)。前者方案

僅僅能檢測到數(shù)據(jù)是否損壞而不能進行恢復(fù)操作,后者支持數(shù)據(jù)可恢復(fù)的證明模

型,該模型在檢測到數(shù)據(jù)損壞后能夠進行一定程度的恢復(fù),為數(shù)據(jù)的安全多提供

了一重保護。

(5)什么是存儲介質(zhì)?市面上常見存儲介質(zhì)有哪幾種?分別舉例。

答:存儲介質(zhì),又稱為存儲媒體,是指存儲數(shù)據(jù)的載體,包括文件檔案、計

算機硬盤、U盤、移動硬盤、存貯卡、光盤、閃存和打印的媒體等。市面上常見

的存儲介質(zhì)可分為三大類:磁介質(zhì)、半導(dǎo)體介質(zhì)、光盤介質(zhì)。磁介質(zhì)利用磁記錄

技術(shù)來實現(xiàn)數(shù)據(jù)存儲,包括硬盤、磁卡、軟盤、磁帶等。半導(dǎo)體介質(zhì)使用半導(dǎo)體

大規(guī)模集成電路作為存儲介質(zhì),例如計算機以及各類電子設(shè)備中的內(nèi)存。光盤介

質(zhì)是利用光信息作為數(shù)據(jù)載體的一種記錄材料,包括CD、DVD、VCD等。

(6)不同種類的存儲介質(zhì)清除技術(shù)有何不同,請簡要描述。

答:可重復(fù)使用的、可擦除的存儲介質(zhì)才能進行清除操作,一次性的、不可

擦除的存儲介質(zhì)是無法進行清除的,需要廢棄時只能使用物理手段進行銷毀。光

盤的數(shù)據(jù)清除需要用刻錄機進行刻錄操作,其原理就是通過重新刻錄凹槽覆蓋掉

原本的凹槽即可達到擦除數(shù)據(jù)的目的。在半導(dǎo)體存儲器的類別中,RAM需要不

斷加電刷新才能保持數(shù)據(jù),完全斷電一段時間后,其中的數(shù)據(jù)就會完全消失且無

法恢復(fù),ROM不能通過斷電來進行數(shù)據(jù)清除,其數(shù)據(jù)清除過程涉及到較為復(fù)雜

的物理過程,擦除方法通常是在源極之間加高壓,從而形成電場,通過F-N隧道

效應(yīng)實現(xiàn)擦除操作。磁盤的數(shù)據(jù)清除手段主要有三種:(1)反復(fù)在同一磁扇區(qū)上

寫入無意義的數(shù)據(jù),從而把數(shù)據(jù)還原的可能性減至最低;(2)磁盤扇區(qū)清零,即

把磁盤所有扇區(qū)分一到多次全部用0或全部用1寫入,這種清除方式比較徹底,

但耗時稍長;(3)直接訪問主文件列表找到文件具體存儲的位置,并解碼二進制

文件,從而徹底清除文件,這種方法可以保護磁盤使用壽命。

(7)簡述數(shù)據(jù)備份和數(shù)據(jù)恢復(fù)的定義和關(guān)系。

答:數(shù)據(jù)備份指為防止計算機系統(tǒng)出現(xiàn)操作失誤或故障導(dǎo)致數(shù)據(jù)丟失,將全

部或部分數(shù)據(jù)從計算機掛接的硬盤或磁盤陣列復(fù)制到其它存儲介質(zhì)的過程。數(shù)據(jù)

備份方式可分為完全備份、增量備份和差分備份。完全備份,是指對整個系統(tǒng)或

用戶指定的所有文件進行一次全面的備份。增量備份只備份上一次備份操作以來

新創(chuàng)建或者更新的數(shù)據(jù)。差分備份是備份上一次完全備份后產(chǎn)生和更新的所有新

的數(shù)據(jù)。差分備份和增量備份的區(qū)別在于相對的上一次備份是否為完全備份。

數(shù)據(jù)恢復(fù)指當數(shù)據(jù)存儲設(shè)備物理損壞或由于人員誤操作、操作系統(tǒng)故障導(dǎo)致

數(shù)據(jù)不可見、無法讀取、丟失等情況,通過已有的數(shù)據(jù)備份將數(shù)據(jù)復(fù)原的過程。

數(shù)據(jù)備份恢復(fù)先將最近的一次完全備份的數(shù)據(jù)恢復(fù)到指定的存儲空間,再在上面

疊加增量備份和差分備份的數(shù)據(jù),最后再重新加載應(yīng)用和數(shù)據(jù)。

第九章大數(shù)據(jù)處理及安全

一、選擇題

(1)C

(2)C

(3)B

(4)A

(5)D

(6)B

二、填空題

(1)個人信息、組織敏感信息、國家重要數(shù)據(jù)

(2)泛化技術(shù)、抑制技術(shù)、擾亂技術(shù)、有損技術(shù)

(3)混淆電路、秘密分享

(4)鏡像、容器、倉庫

(5)隔離機制、資源配額、虛擬文件系統(tǒng)

(6)橫向聯(lián)邦學(xué)習、縱向聯(lián)邦學(xué)習、聯(lián)邦遷移學(xué)習

(7)客戶/服務(wù)器(Client/Server,C/S)架構(gòu)、去中心化的對等網(wǎng)絡(luò)(Peer-to-Peer,

P2P)架構(gòu)、環(huán)狀網(wǎng)絡(luò)(Ring)架構(gòu)

三、簡答題

(1)敏感數(shù)據(jù)識別有哪幾種方法?

答:1)基于元數(shù)據(jù)的敏感數(shù)據(jù)識別(關(guān)鍵詞匹配)

首先定義敏感數(shù)據(jù)的關(guān)鍵詞匹配表達式,通過精確或模糊匹配表字段名稱、

注釋等信息,利用元數(shù)據(jù)信息對數(shù)據(jù)庫表、文件進行逐個字段匹配,當發(fā)現(xiàn)字段

滿足關(guān)鍵詞匹配式時,判斷為敏感數(shù)據(jù)并自動定級。這種匹配方式優(yōu)點是成本低、

見效快。

2)基于數(shù)據(jù)內(nèi)容的敏感數(shù)據(jù)識別(正則表達式)

某些敏感數(shù)據(jù)在字符排列上有一定的規(guī)律,所以我們可以對這樣一類的字符

串總結(jié)出一定的規(guī)律,并把這種規(guī)律用在判斷下一個字符串是否符合這一規(guī)則。

正則表達式就是描述這么一個規(guī)律的表達式,正則表達式描述了一種字符串匹配

的模式,可以用來檢查一個串是否含有某種子串。

3)基于自然語言處理技術(shù)的中文模糊識別(相似度計算)

前面兩種方式可以發(fā)現(xiàn)系統(tǒng)中大部分的敏感數(shù)據(jù),但系統(tǒng)中還保存了部分中

文信息,無法通過上述兩種方式很好地發(fā)現(xiàn)。因此引入自然語言處理(Natural

LanguageProcessing,NLP)技術(shù)加中文近似詞比對的方式進行識別。首先,根

據(jù)數(shù)據(jù)內(nèi)容整理輸出一份常用敏感詞,該敏感詞列表需具備一定的學(xué)習能力,可

以動態(tài)添加敏感詞;其次,通過NLP對中文內(nèi)容進行分詞,通過中文近似詞比

對算法計算分詞內(nèi)容和敏感詞的相似度,若相似度超過某個閾值,則認為內(nèi)容符

合敏感詞所屬的分類分級。

(2)舉例說明敏感數(shù)據(jù)脫敏的幾種技術(shù)。

答:1)泛化技術(shù)

在保留原始數(shù)據(jù)局部特征的前提下,使用一般值替代原始數(shù)據(jù),泛化后的數(shù)

據(jù)具有不可逆性,具體的技術(shù)方法包括但不限于:

數(shù)據(jù)截斷:直接舍棄業(yè)務(wù)不需要的信息,僅保留部分關(guān)鍵信息,例如將手機號碼

2)抑制技術(shù)

通過隱藏數(shù)據(jù)中部分信息的方式來對原始數(shù)據(jù)的值進行轉(zhuǎn)換,又稱為隱藏技

術(shù),具體的技術(shù)方法,具體的技術(shù)方法包括但不限于:

掩碼:用通用字符替換原始數(shù)據(jù)中的部分信息,例如將手機號

過掩碼得到135****0001,掩碼后的數(shù)據(jù)長度與原始數(shù)據(jù)一樣。

3)擾亂技術(shù)

通過加入噪聲的方式對原始數(shù)據(jù)進行干擾,以實現(xiàn)對原始數(shù)據(jù)的扭曲、改變,

擾亂后的數(shù)據(jù)仍保留著原始數(shù)據(jù)的分布特征,具體的技術(shù)方法包括但不限于:

加密:使用密碼算法對原始數(shù)據(jù)進行加密,例如將編號12345加密為abcde;

4)有損技術(shù)

通過損失部分數(shù)據(jù)的方式來保護整個敏感數(shù)據(jù)集,適用于數(shù)據(jù)集的全部數(shù)據(jù)

匯總后才構(gòu)成敏感信息的場景,具體的技術(shù)方法包括但不限于:

限制返回行數(shù):僅僅返回可用數(shù)據(jù)集合中一定行數(shù)的數(shù)據(jù),例如商品配方數(shù)

據(jù),只有在拿到所有配方數(shù)據(jù)后才具有意義,可在脫敏時僅返回一行數(shù)據(jù);

(3)安全多方計算要解決的是什么問題?

答:在安全多方計算中,目的是能夠在無可信第三方的輔助下,既保證各方

的輸入數(shù)據(jù)均不泄露,又可以使用各方的輸入數(shù)據(jù)完成預(yù)期的協(xié)同計算。也就是

說,參與計算的各方對自己的數(shù)據(jù)始終擁有控制權(quán),計算過程中保證了自己數(shù)據(jù)

的安全性。只需在各個參與方之間公開計算邏輯,各參與方參與計算,即可得到

相應(yīng)的計算結(jié)果。

(4)同態(tài)加密有哪些應(yīng)用場景?請舉例說明。

答:用戶將個人財務(wù)信息提供給財務(wù)服務(wù)機構(gòu),讓他們通過計算來優(yōu)化用戶

的財務(wù)/稅務(wù)策略。但是用戶不會將自己的銀行賬號和個人財務(wù)信息交給財務(wù)優(yōu)

化網(wǎng)站,而是提交的是一個代碼,財務(wù)優(yōu)化網(wǎng)站憑此代碼可以從銀行數(shù)據(jù)庫下載

經(jīng)同態(tài)加密過的財務(wù)數(shù)據(jù),然后直接對加密數(shù)據(jù)進行計算,將所得到的稅務(wù)優(yōu)化

結(jié)果再以加密的形式發(fā)送給用戶,這些加密的數(shù)據(jù)網(wǎng)站無法破解,但是用戶可以。

這是同態(tài)加密的一個應(yīng)用。

(5)PIR是什么,它有何應(yīng)用?

答:私有信息檢索(PIR,PrivateInformationRetrieval)是為了保障個人隱私在

公共網(wǎng)絡(luò)平臺上的私密性而采用的一種阻止數(shù)據(jù)庫知曉用戶查詢信息的策略。

PIR是指用戶在不泄露自己的查詢信息給數(shù)據(jù)庫的前提下,完成對數(shù)據(jù)庫的查詢

操作。該概念由Chor等人于1995年首次提出,目的是保護用戶的查詢隱私,因

此服務(wù)器不能知道用戶查詢記錄的身份信息和查詢內(nèi)容。

PIR的應(yīng)用非常廣泛,以下是幾個典型的應(yīng)用場景。(1)患有某種疾病的人

想通過一個專家系統(tǒng)查詢其疾病的治療方法,如果以該疾病名作為查詢條件,專

家系統(tǒng)服務(wù)器將會猜測到該病人可能患有這樣的疾病,從而導(dǎo)致用戶的隱私被泄

露。(2)在股票交易市場中,某重要用戶想查詢某只股票的信息,但又不希望將

自己感興趣的股票被服務(wù)器獲得,以免該信息被公布從而影響股票價格。(3)定

位服務(wù)中,若用戶直接以某具體位置作為查詢條件,則系統(tǒng)則會輕松獲得用戶的

位置和出行計劃信息

(6)簡述PIR協(xié)議的一般過程。

答:用戶基于要查詢的數(shù)據(jù)下標i生成k個查詢請求,分別發(fā)給k個服務(wù)器。

為了隱藏i,在服務(wù)器看來,這些查詢應(yīng)當是關(guān)于下標i的隨機函數(shù)。各個服務(wù)

器根據(jù)收到的查詢請求和本地數(shù)據(jù)庫x計算查詢結(jié)果返回給用戶。最后,用戶根

據(jù)收到的k個查詢結(jié)果計算目標數(shù)據(jù)X。

(7)簡述三種聯(lián)邦學(xué)習的不同使用場景。

答:對于車輛的出險概率預(yù)測,一個較為準確且理想的方法是依據(jù)車輛的屬

性數(shù)據(jù)(如車輛品牌、型號、購車年限等)、車輛歷史理賠數(shù)據(jù)以及車輛所有人

的屬性數(shù)據(jù)(如投保人年齡、婚姻狀況、駕駛年齡、家庭成員、擁有車輛數(shù)量、

受教育程度、職業(yè)、居住地等)。但是,由于這些數(shù)據(jù)涉及用戶隱私且種類過于

多樣,分布在不同組織和機構(gòu)內(nèi)且數(shù)據(jù)之間互不相通,這種預(yù)測車輛出險概率的

構(gòu)想實際落地非常困難。

針對這種隱私數(shù)據(jù)不能互通共享,導(dǎo)致車險出險概率預(yù)測效率較為低下的情

況,可以引入聯(lián)邦學(xué)習來解決。通過將車輛的屬性數(shù)據(jù)、車輛歷史理賠數(shù)據(jù)以及

車輛所有人的屬性數(shù)據(jù)共同作為出險概率預(yù)測模型的訓(xùn)練參數(shù),通過樣本對齊技

術(shù)將每部分數(shù)據(jù)進行樣本對齊并構(gòu)建本地模型,再通過加密參數(shù)傳輸?shù)姆绞絺髦?/p>

中央服務(wù)器并進行聯(lián)合訓(xùn)練來得到一個完整的出險概率預(yù)測模型。

第十章大數(shù)據(jù)交換及安全

一、選擇題

(1)D

(2)D

(3)C

(4)B

(5)B

(6)D

二、填空題

(1)k-1

(2)I

(3)全局

(4)拉普拉斯

(5)實數(shù)值

(6)離散值域

三、簡答題

(1)“發(fā)布-遺忘”模型主要包括哪兩部分內(nèi)容?

答:主要包含數(shù)據(jù)發(fā)布和遺忘兩項內(nèi)容。其中,發(fā)布指數(shù)據(jù)管理員發(fā)布經(jīng)過

匿名化處理的數(shù)據(jù),包括公開發(fā)布數(shù)據(jù),在自己的組織內(nèi)部發(fā)布數(shù)據(jù),以及秘密

地向第三方發(fā)布數(shù)據(jù)。遺忘指數(shù)據(jù)管理員會忘記發(fā)布的數(shù)據(jù),即數(shù)據(jù)管理員不會

試圖在數(shù)據(jù)發(fā)布后進行記錄的追蹤。

(2)抑制與泛化的定義和區(qū)別是什么?

答:抑制指的是數(shù)據(jù)管理員修改識別屬性時,直接將其從表中刪除;泛化指

的是進行修改而不是直接刪除標識符值,其目的是更好地平衡數(shù)據(jù)運用價值與隱

私保護之間的關(guān)系。

(3)什么是記錄鏈接式攻擊?

答:針對某些公開的數(shù)據(jù),通過獲取其它渠道的表數(shù)據(jù)信息來鎖定當前數(shù)據(jù)

表中數(shù)據(jù)所對應(yīng)的個人,從而獲得個人的隱私信息,這種方法稱為記錄鏈接式攻

擊。

(4)什么是屬性鏈接類攻擊?

答:攻擊者從被公布的數(shù)據(jù)中基于與受害者所屬的團體相聯(lián)系的一系列敏感

值集合推斷出受害者的敏感值,如果某些敏感值在群組中占據(jù)主導(dǎo)地位,即使?jié)M

足K-匿名,也很容易推斷出一些正確的結(jié)果來。這種方式稱為屬性鏈接攻擊。

(5)K-匿名隱私保護模型的缺陷是什么

答:K-匿名隱私保護模型可以阻止身份公開,但是無法防止屬性公開,比如

無法抵抗同質(zhì)攻擊和背景知識攻擊。

(6)簡述T-相近隱私保護模型的局限性?

答:T-相近模型的局限性:

1)缺乏對不同敏感值實施不同保護的靈活性;

2)不能有效抑制在數(shù)字敏感屬性方面的屬性鏈接;

3)實施T-相近操作后,數(shù)據(jù)的實用性將會大大降低,因為它要求所有被分

布在QID組里面的敏感值是相同的。這也會很大程度上破壞Q

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論