版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)管理平臺(tái)實(shí)施方案
(V1.0)
項(xiàng)目編號(hào):項(xiàng)目名稱:
編寫人:XX編寫日期:2020.05.10
審核人:審核日期:2020.05.15
批準(zhǔn)人:批準(zhǔn)日期:
1
文檔修訂記錄
日期版本說明作者審批人
2020.05.101.0第一稿XXXXX
2
目錄
第1章.編寫說明................................................................................5
1.1編寫目的..................................................................................5
1.2術(shù)語定義..................................................................................5
第2章.項(xiàng)目實(shí)施總述............................................................................6
2.1數(shù)據(jù)管理平臺(tái)項(xiàng)目建設(shè)目標(biāo)與任務(wù).....................................................6
2.1.1.數(shù)據(jù)管理平臺(tái)項(xiàng)目建設(shè)總體目標(biāo)....................................................6
2.1.2.數(shù)據(jù)管理平臺(tái)項(xiàng)目分階段目標(biāo)....................................................6
2.2數(shù)據(jù)管理平臺(tái)項(xiàng)目建設(shè)內(nèi)容.............................................................7
2.2.1.數(shù)據(jù)管理平臺(tái)項(xiàng)目總體架構(gòu)........................................................彳
.總體架構(gòu)..........................................................................7
.系統(tǒng)定位..........................................................................7
2.2.2.數(shù)據(jù)管理平臺(tái)項(xiàng)目軟硬件系統(tǒng)建設(shè)內(nèi)容................................................8
.元數(shù)據(jù)管理系統(tǒng)....................................................................8
22.2.2.數(shù)據(jù)集成系統(tǒng)......................................................................12
,統(tǒng)一安全系統(tǒng).....................................................................15
,一體化運(yùn)維監(jiān)控系統(tǒng)................................................................24
2.2.3.項(xiàng)目實(shí)施工作內(nèi)容...................................................................27
2.2.4.項(xiàng)目實(shí)施進(jìn)度規(guī)劃...................................................................28
2.2.5.實(shí)施風(fēng)險(xiǎn)與關(guān)鍵點(diǎn)...................................................................29
第3章.里程碑計(jì)劃.............................................................................32
第4章.2020年詳細(xì)工作計(jì)劃...................................................................34
3
文檔格式約定::
一級(jí)標(biāo)題:左對齊黑體字二號(hào)字加粗
二級(jí)標(biāo)題:左對齊黑體字小二號(hào)字加粗
三級(jí)標(biāo)題:左對齊黑體字三號(hào)字加粗
四級(jí)標(biāo)題:左對齊黑體字四號(hào)字加粗
正文:正文首行縮進(jìn)2字符1.5倍行距宋體小四號(hào)字
圖片:居中
表格:居中表格文字左對齊宋字五號(hào)字
4
第1章.編寫說明
1.1編寫目的
本方案不僅從實(shí)施目標(biāo)、任務(wù)、執(zhí)行計(jì)劃和組織分工等方面對滄州大數(shù)據(jù)中心
項(xiàng)目數(shù)據(jù)中心項(xiàng)目(以下簡稱“本項(xiàng)目”)的實(shí)施工作進(jìn)行了宏觀定義,并對具體
的基礎(chǔ)設(shè)施建設(shè)、系統(tǒng)設(shè)計(jì)方案、標(biāo)準(zhǔn)規(guī)范及培訓(xùn)實(shí)施方案、系統(tǒng)實(shí)施、實(shí)施與保
障等專項(xiàng)工作也做較為詳細(xì)的定義,以指導(dǎo)后續(xù)的實(shí)施工作。
1.2術(shù)語定義
1.共建單位:配合滄州大數(shù)據(jù)中心工程建設(shè)的政府機(jī)構(gòu)、公共事業(yè)部門和企
業(yè)。
2.承建單位:九次方大數(shù)據(jù)信息集團(tuán)有限公司
5
第2章.項(xiàng)目實(shí)施總述
2.1數(shù)據(jù)管理平臺(tái)項(xiàng)目建設(shè)目標(biāo)與任務(wù)
2.1.1.數(shù)據(jù)管理平臺(tái)項(xiàng)目建設(shè)總體目標(biāo)
數(shù)據(jù)管理平臺(tái)提供數(shù)據(jù)梳理、數(shù)據(jù)管理、服務(wù)監(jiān)控、政務(wù)數(shù)據(jù)協(xié)同、數(shù)據(jù)服務(wù)
集成、運(yùn)行支撐、IT運(yùn)維功能。
2.1.2.數(shù)據(jù)管理平臺(tái)項(xiàng)目分階段目標(biāo)
1.第一階段目標(biāo)
2020年5月15日工作目標(biāo)
(1)完成平臺(tái)基礎(chǔ)功能建設(shè),部署開放數(shù)據(jù)、云接口、云服務(wù)以及用戶中心
頻道部署、測試與運(yùn)行。
(2)完成與省“互聯(lián)網(wǎng)+政務(wù)服務(wù)”平臺(tái)對接。
2.第二階段目標(biāo)
2020年7月工作目標(biāo)
(1)完成數(shù)據(jù)共享交換平臺(tái)功能完善、部署、測試與運(yùn)行。
(2)完成數(shù)據(jù)管理系統(tǒng)功能完善、部署、測試功能建設(shè)。
3.第三階段目標(biāo)
2020年10月工作目標(biāo)
(1)完成與省共享交換平臺(tái)對接、與市直部門信息系統(tǒng)對接、與一體化在線
服務(wù)平臺(tái)等對接。
(2)完成數(shù)據(jù)管理平臺(tái)初驗(yàn)、試運(yùn)行和終驗(yàn)。
6
2.2數(shù)據(jù)管理平臺(tái)項(xiàng)目建設(shè)內(nèi)容
2.2.1.數(shù)據(jù)管理平臺(tái)項(xiàng)目總體架構(gòu)
2.2.1.1.總體架構(gòu)
數(shù)據(jù)管理平臺(tái)從總體架構(gòu)設(shè)計(jì)上保證了平臺(tái)在系統(tǒng)規(guī)模與業(yè)務(wù)場景上的先進(jìn)
性和可擴(kuò)展性。全平臺(tái)采用基于X86硬件的全分布式架構(gòu),可按需方便地進(jìn)行水平
擴(kuò)展(ScaleOut)和彈性伸縮。平臺(tái)由多個(gè)可插拔的獨(dú)立系統(tǒng)組成,系統(tǒng)間松耦合,
采用標(biāo)準(zhǔn)服務(wù)化接口進(jìn)行互通。除必選系統(tǒng)外,其它系統(tǒng)可根據(jù)需要靈活選擇和獨(dú)
立安裝部署。
數(shù)據(jù)管理平臺(tái)總體架構(gòu)如下圖所示:
就監(jiān)控筑TUB
M0C安全
inHiaI住《■?im倉庫景貌
■fht?引?
IB?V9百日日由口
MySQLHiveH8d$eHOFSES
mI底加iftt?M
故據(jù)采集、MT洗.幡換
2.2.1.2.系統(tǒng)定位
數(shù)據(jù)管理平臺(tái)提供數(shù)據(jù)梳理、數(shù)據(jù)管理、服務(wù)監(jiān)控、政務(wù)數(shù)據(jù)協(xié)同、數(shù)據(jù)服務(wù)
集成、運(yùn)行支撐、IT運(yùn)維功能。
數(shù)據(jù)梳理功能提供政府部門的組織結(jié)構(gòu)、業(yè)務(wù)角色、信息資源類別、信息化系
統(tǒng)等的管理和維護(hù)。能夠?qū)I(yè)務(wù)流程圖和數(shù)據(jù)流程圖進(jìn)行管理,能夠識(shí)別協(xié)同關(guān)系
和信息共享需求,能夠明確職責(zé)、整理和挖掘數(shù)據(jù)資源、規(guī)范數(shù)據(jù)表示;能夠?qū)?shù)
7
據(jù)庫的主題庫、邏輯實(shí)體、實(shí)體關(guān)系圖、數(shù)據(jù)映射圖、數(shù)據(jù)元標(biāo)準(zhǔn)、信息分類編碼
進(jìn)行管理。
數(shù)據(jù)管理功能提供制定詳細(xì)的加工規(guī)則及流程及質(zhì)量監(jiān)控,保障基礎(chǔ)數(shù)據(jù)庫能
夠存儲(chǔ)較高質(zhì)量與細(xì)顆粒度的數(shù)據(jù)資源。主要包括數(shù)據(jù)采集抽取、數(shù)據(jù)過濾清洗、
數(shù)據(jù)映射轉(zhuǎn)換、數(shù)據(jù)比對、加工規(guī)則定義、數(shù)據(jù)維護(hù)管理等功能。
服務(wù)監(jiān)控功能即對數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、比對、入庫等過程進(jìn)行監(jiān)控,并將
結(jié)果展示給內(nèi)部用戶查閱;提供網(wǎng)絡(luò)檢測與服務(wù)器檢測,使內(nèi)部用戶能夠及時(shí)了解
數(shù)據(jù)處理時(shí)網(wǎng)絡(luò)和硬件的開銷;提供數(shù)據(jù)處理過程及歷史情況查詢和錯(cuò)誤、異常的
定位工具。
政務(wù)數(shù)據(jù)協(xié)同功能通過建立委辦局間的資源共享交換機(jī)制,促進(jìn)信息更新和公
開,提升信息資源的利用水平,實(shí)現(xiàn)跨部門信息資源的整合與共享。
數(shù)據(jù)服務(wù)集成功能通過搭建基于數(shù)據(jù)服務(wù)總線(ESB)的服務(wù)集成管理平臺(tái),
構(gòu)建數(shù)據(jù)服務(wù)的統(tǒng)一通信通道,提供在協(xié)議不同、格式不同、標(biāo)準(zhǔn)不同的情況下,
服務(wù)與對接服務(wù)之間的交互通信,傳遞消息。
運(yùn)行支撐功能通過構(gòu)建覆蓋全市各部門的多級(jí)政務(wù)數(shù)據(jù)資源目錄體系架構(gòu),采
用元數(shù)據(jù)對共享政務(wù)數(shù)據(jù)資源特征進(jìn)行描述,形成統(tǒng)一規(guī)范的目錄內(nèi)容,通過對目
錄內(nèi)容的有效組織和管理,形成部門間政務(wù)數(shù)據(jù)資源物理分散、邏輯集中的信息共
享模式,提供政務(wù)數(shù)據(jù)資源的發(fā)現(xiàn)定位服務(wù),支持全市范圍內(nèi)跨部門、跨地區(qū)的普
遍信息共享。
IT運(yùn)維功能包括IT基礎(chǔ)環(huán)境運(yùn)維、應(yīng)用運(yùn)行環(huán)境運(yùn)維、數(shù)據(jù)處理監(jiān)控管理、
委辦局支撐服務(wù)管理、運(yùn)維服務(wù)報(bào)表統(tǒng)計(jì)、后臺(tái)管理功能、角色管理。
2.2.2.數(shù)據(jù)管理平臺(tái)項(xiàng)目軟硬件系統(tǒng)建設(shè)內(nèi)容
2.2.2.1.元數(shù)據(jù)管理系統(tǒng)
元數(shù)據(jù)是對數(shù)據(jù)的描述,可以分為業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和管理元數(shù)據(jù)。最
重要的是業(yè)務(wù)元數(shù)據(jù)。元數(shù)據(jù)管理通過一系列手段采集所需的各種外部數(shù)據(jù)系統(tǒng)、
數(shù)據(jù)倉庫、數(shù)據(jù)集市的元數(shù)據(jù)定義信息,并集中存儲(chǔ)在平臺(tái)中,這個(gè)過程是采集過
8
9
程。元數(shù)據(jù)采集以后可以進(jìn)行四大類的操作與功能:
1通過一定的方法解析出數(shù)據(jù)之間的關(guān)聯(lián)映射關(guān)系,映射關(guān)系的上下游連在一
起形成數(shù)據(jù)地圖。通過數(shù)據(jù)地圖可以進(jìn)行數(shù)據(jù)的血緣分析(向上游查詢)和影響分
析(向下游查詢);
2保證元數(shù)據(jù)定義與實(shí)際情況的一致性。通過每天的元數(shù)據(jù)采集比對;可以知
道發(fā)生變化或異常的表,及時(shí)提醒相關(guān)人員關(guān)注,同時(shí)可以保留多個(gè)元數(shù)據(jù)歷史版
本供查閱;
3通過可視化界面,可以多層級(jí),多角度地查詢、展現(xiàn)元數(shù)據(jù)信息;
4支撐數(shù)據(jù)質(zhì)量與數(shù)據(jù)標(biāo)準(zhǔn)模塊,提供接口調(diào)用。
?元數(shù)據(jù)業(yè)務(wù)架構(gòu):
數(shù)
據(jù)
管
理LH蚊蟲座IgJMte
系
統(tǒng)
6*冗斂K
[元HB"]TtMfwn
10
血統(tǒng)分析
系統(tǒng)設(shè)置
主要提供資源管理、數(shù)據(jù)系統(tǒng)注冊。
?資源管理
分前置機(jī)和平臺(tái)兩種,前置機(jī)是客戶的數(shù)據(jù)庫機(jī)器連接信息、,平臺(tái)展
示從一體化運(yùn)維監(jiān)控系統(tǒng)自動(dòng)獲取的平臺(tái)內(nèi)的各種數(shù)據(jù)庫的信息
當(dāng)需要從客戶機(jī)器采集的數(shù)據(jù)的話,就需要在前置機(jī)處設(shè)置這個(gè)連接
信息。目前支持Oracle,MYSQ敏據(jù)庫
?數(shù)據(jù)系統(tǒng)注冊
可新建前置機(jī)、平臺(tái)內(nèi)的新數(shù)據(jù)庫,也可以注冊前置機(jī)上已存在的數(shù)
據(jù)庫信息。
新建SFTP服務(wù)需要使用的SFTP用戶登錄信息
元數(shù)據(jù)定義
?數(shù)據(jù)表類
可在前置機(jī)、平臺(tái)內(nèi)的生成實(shí)體表,也可以僅采集已注冊的前置機(jī)數(shù)
11
據(jù)庫上的表結(jié)構(gòu)。
?文件目錄類
創(chuàng)建真正的HDFS文件目錄,并指定目錄所屬用戶,及目錄的公開等級(jí)
等
?ES索引
創(chuàng)建所屬的ES索引,供數(shù)據(jù)分析查詢時(shí)使用。
數(shù)據(jù)地圖
以可視化地圖方式展示由ETL任務(wù)產(chǎn)生的數(shù)據(jù)關(guān)系的血緣分析(即數(shù)據(jù)如何得
來)、影響分析(即數(shù)據(jù)改變后,對下游數(shù)據(jù)的影響),及手工創(chuàng)建的數(shù)據(jù)關(guān)系
可展示的層級(jí)有:數(shù)據(jù)庫、表、字段、文件類、各種屬性
形成一個(gè)展現(xiàn)數(shù)據(jù)全貌的數(shù)據(jù)地圖,清晰完整地揭示各種數(shù)據(jù)的來龍去脈
數(shù)據(jù)關(guān)系管理
此處主要用于手工創(chuàng)建數(shù)據(jù)關(guān)系所用
數(shù)據(jù)關(guān)系包含以下幾類:
?表與文件目錄的關(guān)系
?表與表之間的關(guān)系,
細(xì)分為以下類:
生成關(guān)系--表示一張表是由另一張表生成而來,例如,在ETL過程
中表與表之間的生成關(guān)系或由多張表生成寬表。生成關(guān)系屬于強(qiáng)關(guān)聯(lián)。
對于表與表之間的生成關(guān)系,在配置元數(shù)據(jù)時(shí)或ETL時(shí)可以自動(dòng)生成
關(guān)系記錄,也可以手工創(chuàng)建。
引用關(guān)系一-表示兩張表間在業(yè)務(wù)上有關(guān)聯(lián),但又不是生成關(guān)系。例如,
在地市-GDP統(tǒng)計(jì)表中,現(xiàn)在要統(tǒng)計(jì)每個(gè)地區(qū)(粵東、粵西、粵北)的GDP
即地區(qū)-GDP表,需要有地區(qū)-地市的關(guān)系查找表。在本例中地市-GDP表
與地區(qū)-GDP表是生成關(guān)系,而地區(qū)-GDP統(tǒng)計(jì)表與地區(qū)-地市查找表是
引用關(guān)系。當(dāng)然也可以說地市-GDP統(tǒng)計(jì)表與地區(qū)-地市查找表是引用關(guān)
系,其實(shí)兩者選一就可以了。引用關(guān)系只能手工進(jìn)行創(chuàng)建。
12
13
?文件與文件的關(guān)系
數(shù)據(jù)標(biāo)準(zhǔn)管理
數(shù)據(jù)標(biāo)準(zhǔn)管理主要為數(shù)據(jù)標(biāo)準(zhǔn)文檔提供一個(gè)存儲(chǔ)空間,租戶內(nèi)的各部門用戶
都可以按條件搜索、下載各種數(shù)據(jù)標(biāo)準(zhǔn)文檔
2.2.2.2,數(shù)據(jù)集成系統(tǒng)
數(shù)據(jù)集成系統(tǒng)為多源、多種類、多格式數(shù)據(jù)提供高速海量數(shù)據(jù)采集、清洗、轉(zhuǎn)
換、與加載能力,全程免代碼編寫。
整個(gè)數(shù)據(jù)集成系統(tǒng)主要包括云化數(shù)據(jù)集成系統(tǒng)(CloudETL)和前置機(jī)系統(tǒng)。
云化數(shù)據(jù)集成系統(tǒng)(CloudETL)承擔(dān)數(shù)據(jù)集成的任務(wù)調(diào)度、流程配置、任務(wù)分
發(fā)和執(zhí)行、過程監(jiān)控、異常處理等工作;
前置機(jī)系統(tǒng)主要承擔(dān)用戶側(cè)和數(shù)據(jù)源側(cè)的數(shù)據(jù)緩存、接口對接、采集控制等工
作,前置機(jī)系統(tǒng)主要用在推模式的數(shù)據(jù)集成時(shí)。
數(shù)據(jù)集成系統(tǒng)架構(gòu)
數(shù)據(jù)集成系統(tǒng)架構(gòu)如下圖所示:
14
云化數(shù)據(jù)集成系統(tǒng)
云化數(shù)據(jù)集成系統(tǒng)(CloudETL)是大數(shù)據(jù)平臺(tái)中負(fù)責(zé)數(shù)據(jù)集成的子系統(tǒng),支持
多源、多種類、多格式、多傳輸方式數(shù)據(jù)的高性能統(tǒng)一集成。
?實(shí)現(xiàn)ETL全流程Web化(任務(wù)配置、監(jiān)控、調(diào)度)
?完整實(shí)現(xiàn)通用的ETL功能(支持各種數(shù)據(jù)采集、清洗、轉(zhuǎn)換、加載場景)
?實(shí)現(xiàn)基于HDFS的Spark計(jì)算引擎
?全面支持Hadoop插件(HDFS/HIVE/HBAS等)
?支持SFTPBridge直連HDFS在小文件傳輸和安全性等方面進(jìn)行優(yōu)化和改
進(jìn)
?支持故障監(jiān)控,告警,異常恢復(fù)和斷點(diǎn)續(xù)傳
?高可靠性(HA)改進(jìn),支持集群服務(wù)器間任務(wù)遷移
?支持基于多種采集技術(shù)(Flume/Kafka/Sqoop)的ETL任務(wù)統(tǒng)一調(diào)度
?支持各種結(jié)構(gòu)數(shù)據(jù)庫:MYSQUDRACLH)B2SQLSERVERCCESSSQLSERVER
SyBase等
?支持分布式部署
?支持ETL任務(wù)分析,把數(shù)據(jù)關(guān)系展示到數(shù)據(jù)地圖中
云化數(shù)據(jù)集成系統(tǒng)亦可作為獨(dú)立產(chǎn)品進(jìn)行部署,適用于大規(guī)模數(shù)據(jù)采集、同步
遷移、異地備份、數(shù)據(jù)清洗、融合、交換等業(yè)務(wù)場景。
1.資源中心
數(shù)據(jù)源管理:CloudETL資源中心進(jìn)行數(shù)據(jù)源管理,從元數(shù)據(jù)系統(tǒng)中根據(jù)
用戶同步數(shù)據(jù)源配置信息,CloudET流程的數(shù)據(jù)源連接配置都從統(tǒng)一維護(hù)的元
數(shù)據(jù)中導(dǎo)入;
服務(wù)器管理:CloudETL資源中心進(jìn)行平臺(tái)服務(wù)器、集群、前置機(jī)等的管理,
從一體化運(yùn)維監(jiān)控系統(tǒng)根據(jù)用戶同步配置信息,保證用戶只能使用經(jīng)元數(shù)
據(jù)系統(tǒng)授權(quán)的服務(wù)器上的資源;
2.任務(wù)設(shè)計(jì)
用戶可通過圖形界面創(chuàng)建轉(zhuǎn)換任務(wù),轉(zhuǎn)換任務(wù)以Ktr文件保存轉(zhuǎn)換任務(wù);
也可創(chuàng)建調(diào)度任務(wù),實(shí)現(xiàn)轉(zhuǎn)換任務(wù)的定時(shí)執(zhí)行,以ktj文件保存調(diào)度任務(wù)。
13
任務(wù)組件有:輸入、輸出、大數(shù)據(jù)、腳本、轉(zhuǎn)換步驟、作業(yè)、查詢、連接、
流程、統(tǒng)計(jì)、檢驗(yàn)等
1)支持結(jié)構(gòu)類文件、非結(jié)構(gòu)類文件的輸入、輸出:文本文件、EXCEL
CSVXLSACCES等結(jié)構(gòu)類文件,非結(jié)構(gòu)類PDFWOR摩。
2)支持各種數(shù)據(jù)庫輸入、輸出:Oracle、MYSQLHBASEHIVE.Sybase.
DB2、ACCESSSQLServer等。
3)通過計(jì)算、清洗、查詢、連接、統(tǒng)計(jì)、腳本等轉(zhuǎn)換算子對源數(shù)據(jù)進(jìn)行
規(guī)則轉(zhuǎn)換,以得到想要的輸出結(jié)果。
3.任務(wù)管理
1)支持本地服務(wù)器、遠(yuǎn)程服務(wù)器、集群服務(wù)器、Spark引擎運(yùn)行任務(wù);
2)Ktr/Kjb文件輸出,管理ETL流程中的轉(zhuǎn)換和任務(wù)文件,可導(dǎo)入和導(dǎo)出
Ktr/Kjb文件;
3)異常告警輸出,調(diào)用一體化運(yùn)維監(jiān)控系統(tǒng)的接口,輸出CloudETL子系
統(tǒng)的異常和告警信息、;
4)集群管理,根據(jù)采集機(jī)配置集群,分配轉(zhuǎn)換步驟到集群中執(zhí)行,收集
集群各子服務(wù)器的日志和監(jiān)控信息,監(jiān)控集群執(zhí)行過程;
5)可視化的執(zhí)行監(jiān)控管理,分配采集機(jī)執(zhí)行轉(zhuǎn)換和任務(wù),收集采集機(jī)的
執(zhí)行日志和監(jiān)控信息,在客戶端以可視化的方式呈現(xiàn)ETL的完整執(zhí)行過程和狀
態(tài),并可以查詢歷史執(zhí)行日志;
6)容錯(cuò)管理,任務(wù)重跑,通過設(shè)計(jì)任務(wù)(Job)流程及參數(shù)配置實(shí)現(xiàn)ETL
全流程重跑;斷點(diǎn)續(xù)跑,對轉(zhuǎn)換(Ktr)中的某一步驟因某服務(wù)器原因中斷,
實(shí)現(xiàn)重啟服務(wù)器后,斷點(diǎn)續(xù)跑;
7)支持多任務(wù)并發(fā)執(zhí)行,支持多個(gè)任務(wù)、或全部任務(wù)一鍵并發(fā)執(zhí)行;
8)支持調(diào)度任務(wù),支持調(diào)度任務(wù),可以設(shè)置定時(shí)執(zhí)行任務(wù),并可客戶端以
可視化的方式呈現(xiàn)ETL的完整執(zhí)行過程和狀態(tài);
9)CloudETL任務(wù)流程分析,數(shù)據(jù)血緣分析,通過對CloudETL任務(wù)流程進(jìn)
行分析,梳理出數(shù)據(jù)實(shí)體(包括表、字段、文件等)之間的血緣關(guān)系,最終展
示到元數(shù)據(jù)系統(tǒng)的數(shù)據(jù)地圖中;
10)關(guān)聯(lián)關(guān)系分析,通過分析數(shù)據(jù)源的表結(jié)構(gòu)、主外鍵等信息,自動(dòng)獲
14
取數(shù)據(jù)來源的關(guān)聯(lián)關(guān)系,最終展示到元數(shù)據(jù)系統(tǒng)的數(shù)據(jù)地圖中。
前置機(jī)
前置機(jī)是指用于現(xiàn)場的中間設(shè)備,大數(shù)據(jù)平臺(tái)通過前置機(jī)采集從客戶端的數(shù)據(jù);
前置機(jī)這個(gè)概念一般在銀行、券商、政府、電信運(yùn)營商那里用的比較多。這些
地方都有很多后臺(tái)核心處理系統(tǒng),對外提供各種接口服務(wù)。如果我有某種業(yè)務(wù)接口
需要跟他們的后臺(tái)系統(tǒng)打交道,要從我們的外部網(wǎng)絡(luò)訪問他們的后臺(tái)系統(tǒng),這些單
位是絕對不允許的。這個(gè)時(shí)候,他們要求你或者他們自己開發(fā)一個(gè)軟件,運(yùn)行在他
們的內(nèi)網(wǎng),然后通過專線或硬件隔離技術(shù)將運(yùn)行這個(gè)軟件的計(jì)算機(jī)連接到你的外網(wǎng)
系統(tǒng)上,那么運(yùn)行這個(gè)軟件的計(jì)算機(jī),從功能上稱呼為前置機(jī)。置機(jī)的作用包括以
下兩方面:
1)從網(wǎng)絡(luò)和安全角度來看,它有隔離主機(jī)的作用(一種放在內(nèi)網(wǎng)以外,分
離內(nèi)網(wǎng)外網(wǎng)的應(yīng)用),保證外部的應(yīng)用不能直接訪問核心服務(wù),比如銀行的各類
外部接口(電信代收費(fèi)、銀證通)。
2)從業(yè)務(wù)角度來看,前置機(jī)提供了業(yè)務(wù)渠道與核心服務(wù)的主機(jī)交流的一
個(gè)橋梁。它一般起著管理和調(diào)度業(yè)務(wù)渠道發(fā)起的交易的作用,經(jīng)過前置機(jī)的調(diào)
用可以減輕核心后臺(tái)服務(wù)器的負(fù)擔(dān),當(dāng)然了它也有非核心業(yè)務(wù)的處理功能。
3)位于應(yīng)用系統(tǒng)服務(wù)器端與客戶端之間的獨(dú)立處理機(jī)系統(tǒng),擔(dān)負(fù)數(shù)據(jù)格
式轉(zhuǎn)換、連接管理、業(yè)務(wù)流管理外圍調(diào)度、外圍處理,并把業(yè)務(wù)數(shù)據(jù)交后臺(tái)應(yīng)
用服務(wù)系統(tǒng)處理等任務(wù)。
4)內(nèi)外網(wǎng)兩端的業(yè)務(wù)系統(tǒng)需要數(shù)據(jù)交換,在各自業(yè)務(wù)系統(tǒng)前布置前置機(jī),
實(shí)現(xiàn)數(shù)據(jù)交換。
目前前置機(jī)支持sFTP、HTTPRestfulAPI、WebService>人工文件導(dǎo)入等方
式,流式數(shù)據(jù)采集(Flume/Kafka等)。
.統(tǒng)一安全系統(tǒng)
服務(wù)監(jiān)控功能即對數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、比對、入庫等過程進(jìn)行監(jiān)控,并將
結(jié)果展示給內(nèi)部用戶查閱;提供網(wǎng)絡(luò)檢測與服務(wù)器檢測,使內(nèi)部用戶能夠及時(shí)了解
數(shù)據(jù)處理時(shí)網(wǎng)絡(luò)和硬件的開銷;提供數(shù)據(jù)處理過程及歷史情況查詢和錯(cuò)誤、異常的
15
定位工具。
權(quán)限管理
對于Hadoop集群而言,必須進(jìn)行權(quán)限管理,其中最重要的是實(shí)現(xiàn)
Authentication(身份鑒別)和Authorization(授權(quán))這兩點(diǎn):
(1)Authorization,是指正確識(shí)別一個(gè)用戶的真實(shí)身份。
(2)Authentication,是指為某個(gè)用戶做某件事賦予某種權(quán)力。
Hadoop本身原生并不具備任何身份鑒別的能力,需要進(jìn)行相關(guān)安全配置,保
證數(shù)據(jù)和集群的安全,Hadoop權(quán)限管理包括以下幾個(gè)模塊:
(1)用戶分組管理。用于按組為單位組織管理,某個(gè)用戶只能向固定分組中
提交作業(yè),只能使用固定分組中配置的資源;同時(shí)可以限制每個(gè)用戶提交的作業(yè)數(shù),
使用的資源量等。
(2)作業(yè)管理。包括作業(yè)提交權(quán)限控制,作業(yè)運(yùn)行狀態(tài)查看權(quán)限控制等。
帳號(hào)認(rèn)證和授權(quán)
帳號(hào)、認(rèn)證和授權(quán)作為4A體系的管理樞紐也是整個(gè)平臺(tái)的核心業(yè)務(wù)。帳號(hào)管理
用于在業(yè)務(wù)支撐環(huán)境中,集中維護(hù)包括主帳號(hào)(自然人)和從帳號(hào)(資源)在內(nèi)的
全部帳號(hào)以及和帳號(hào)相關(guān)的可在4A平臺(tái)中管理的帳號(hào)屬性。4A認(rèn)證管理的主要
目的是提供對資源訪問的統(tǒng)一安全認(rèn)證服務(wù),實(shí)現(xiàn)資源的認(rèn)證集中控制,保障資源
的訪問安全性。認(rèn)證管理具體實(shí)現(xiàn)內(nèi)容包括主帳號(hào)的認(rèn)證服務(wù)、應(yīng)用資源和系統(tǒng)資
源的從帳號(hào)單點(diǎn)登錄認(rèn)證服務(wù)。授權(quán)管理主要是指集中對用戶能夠在被管資源中行使
的權(quán)限進(jìn)行分配,實(shí)現(xiàn)用戶對資源的訪問控制。
功能大致包話詳細(xì)描述了帳號(hào)管理、認(rèn)證管理、授權(quán)管理、資源及配置管理、
繞行控制及管理流程。主要實(shí)現(xiàn)認(rèn)證、自助終端帳號(hào)管理、專用設(shè)備或系統(tǒng)接入帳
號(hào)管理和認(rèn)證、安全人員主帳號(hào)管理、智能終端接入認(rèn)證、角色級(jí)授權(quán)與細(xì)粒度授
權(quán)、虛擬資源管理、帳號(hào)和認(rèn)證安全性控制、資源接入流程等功能要求。
功能名稱功能描述
主帳號(hào)生命周期管理具備從現(xiàn)存帳號(hào)數(shù)據(jù)庫導(dǎo)入或映射業(yè)務(wù)支撐系統(tǒng)現(xiàn)存帳號(hào)的可
選功能
具備將4A平臺(tái)中的主帳號(hào)導(dǎo)出到外部帳號(hào)庫中的可選功能
16
主帳號(hào)類型按照人員崗位給主帳號(hào)合理分類,包括部門領(lǐng)導(dǎo)、室主任/主管、
應(yīng)用管理員、網(wǎng)絡(luò)管理員、系統(tǒng)管理員、數(shù)據(jù)庫管理員、安全管
理員、安全審計(jì)員、安全維護(hù)員等
安全人員主帳號(hào)類型標(biāo)識(shí)提供對安全人員主帳號(hào)的類型標(biāo)識(shí)、互斥校驗(yàn)。安全管理、安全
與互斥校驗(yàn)審計(jì)與安全維護(hù)的各工作崗位原則上要求“專人專崗”,同一崗
位可由多人擔(dān)任,在安全崗位人員設(shè)置時(shí)應(yīng)按照“職責(zé)互斥”的
原則,充分考慮到職責(zé)平衡和有效制約。安全審計(jì)員與系統(tǒng)管理
員分開設(shè)置。應(yīng)用系統(tǒng)管理員與數(shù)據(jù)庫管理員、主機(jī)管理員分開
設(shè)置。
虛擬資源帳號(hào)管理虛擬資源從帳號(hào)納入4A統(tǒng)一管理
4A同步帳號(hào)程序帳號(hào)管理范圍擴(kuò)充,增加4A同步帳號(hào)管理能力
從帳號(hào)自動(dòng)發(fā)現(xiàn)和收集在資源新接入或定期自動(dòng)從資源側(cè)發(fā)現(xiàn)、收集從帳號(hào)功能
從帳號(hào)自動(dòng)創(chuàng)建與綁定支持在基于電子流程完成從帳號(hào)申請、審批后自動(dòng)進(jìn)行從帳號(hào)創(chuàng)
建、主帳號(hào)綁定
應(yīng)用資源從帳號(hào)密碼禁止除自助終端帳號(hào)、應(yīng)用系統(tǒng)程序帳號(hào)外,其他已經(jīng)接入4A平臺(tái)
自修改的各種應(yīng)用資源不得開啟從帳號(hào)密碼自修改功能,必須通過4A
統(tǒng)一按照策略要求進(jìn)行密碼變更。
應(yīng)用資源從帳號(hào)變更時(shí)間4A平臺(tái)、應(yīng)用資源應(yīng)保持從帳號(hào)變更(創(chuàng)建、變更和刪除)的時(shí)
一致性間一致性,以4A的從帳號(hào)變更時(shí)間為準(zhǔn)記錄應(yīng)用系統(tǒng)的從帳號(hào)
變更日志。
程序帳號(hào)管理針對采用人工方式進(jìn)行修改密碼的情況,需要支持記錄變更日志
和提醒日志
可使用“程序帳號(hào)自動(dòng)管理”或“程序帳號(hào)指令通道”方案,實(shí)
現(xiàn)程序帳號(hào)的管理能力
自助終端帳號(hào)管理4A平臺(tái)應(yīng)支持對自助終端帳號(hào)的標(biāo)識(shí),并支持將自助終端帳號(hào)綁
定到責(zé)任人主帳號(hào)。自助終端上產(chǎn)生的登錄鑒權(quán)、業(yè)務(wù)辦理等日
志應(yīng)發(fā)送給4A平臺(tái)進(jìn)行統(tǒng)一審計(jì)?,并由4A平臺(tái)進(jìn)行主帳號(hào)補(bǔ)全。
17
特權(quán)帳號(hào)密碼自管4A平臺(tái)應(yīng)提供特權(quán)帳號(hào)密碼自管功能,即特權(quán)帳號(hào)密碼由管理人
員自己進(jìn)行變更維護(hù)。該方式下4A平臺(tái)不對特權(quán)帳號(hào)的密碼進(jìn)
行定期自動(dòng)變更,但是需要支持過期提醒。
特權(quán)帳號(hào)密碼托管在4A平臺(tái)上實(shí)現(xiàn)特權(quán)帳號(hào)密碼的自動(dòng)修改功能
專用設(shè)備或系統(tǒng)帳號(hào)管理針對中間件、系統(tǒng)流量審計(jì)、應(yīng)用安全流量審計(jì)、抗DDoS、IDS、
IPS、防繞行設(shè)備、配置基線、漏洞掃描、終端管理、防病毒、
DLP等專用系統(tǒng)或設(shè)備,應(yīng)納入4A進(jìn)行帳號(hào)管理。
帳號(hào)弱密碼稽核弱密碼字典管理:包括對弱密碼字典進(jìn)行添加、刪除、查詢等,
應(yīng)支持根據(jù)實(shí)際檢測需要進(jìn)行定期更新
弱密碼分析與稽核功能:4A平臺(tái)應(yīng)支持基于4A同步帳號(hào)和標(biāo)準(zhǔn)
協(xié)議接口(如SSH、Telnet)獲得未直接修改密碼的系統(tǒng)從帳號(hào)密
碼密文(如shadow文件),并根據(jù)弱密碼字典進(jìn)行弱密碼稽核
分析,以發(fā)現(xiàn)存在的發(fā)現(xiàn)弱密碼帳號(hào)
弱密碼稽核報(bào)表或視圖:4A平臺(tái)應(yīng)能根據(jù)弱密碼稽核結(jié)果提供在
線查詢和稽核報(bào)表導(dǎo)出功能
配合SMP帳號(hào)弱密碼展現(xiàn):4A平臺(tái)應(yīng)支持發(fā)送弱密碼稽核結(jié)果給
SMP平臺(tái),提供展示弱密碼稽核結(jié)果
孤立帳號(hào)稽核4A平臺(tái)應(yīng)支持定期稽核接入資源孤立帳號(hào)數(shù)量,并對孤立帳號(hào)所
屬應(yīng)用系統(tǒng)、資源信息、孤立帳號(hào)個(gè)數(shù)進(jìn)行記錄,并提供展示界
面支持
未經(jīng)審批私自開通的帳號(hào)4A平臺(tái)應(yīng)支持定期稽核接入資源從帳號(hào)未經(jīng)審批私自開通數(shù)量,
稽核并對該數(shù)量進(jìn)行記錄,并提供展示界面支持“未經(jīng)審批私自開通
的帳號(hào)數(shù)量占比”詳細(xì)信息時(shí)回調(diào)查看
主從帳號(hào)使用率稽核4A平臺(tái)應(yīng)支持定期稽核主從帳號(hào)的使用率,并對該數(shù)量進(jìn)行統(tǒng)一
記錄,并提供展示界面視圖支持查看“主帳號(hào)使用率”或“從帳
號(hào)使用率”的詳細(xì)信息時(shí)回調(diào)杳看.
主從帳號(hào)共享控制4A平臺(tái)應(yīng)支持同一主帳號(hào)在不同終端同時(shí)在線的登錄提醒功能,
并主持iP錄同時(shí)在線音錄R走.
18
4A平臺(tái)應(yīng)支持主帳號(hào)登錄與終端綁定的可選功能,同一主帳號(hào)只
允許在固定的PC終端(IP或MAC上進(jìn)行4A平臺(tái)的登錄訪問
應(yīng)用互訪接入認(rèn)證4A平臺(tái)應(yīng)提供被管應(yīng)用資源之間互相訪問的集中認(rèn)證功能。4A
平臺(tái)為應(yīng)用互訪提供接入認(rèn)證服務(wù)的前提是被嵌套訪問的應(yīng)用
資源接入到了4A平臺(tái),并且歸屬于不同一業(yè)務(wù)支撐應(yīng)用系統(tǒng)帳號(hào)
體系。
認(rèn)證安全控制措施登錄信息及身份憑證應(yīng)加密后傳輸。合理設(shè)置會(huì)話存活時(shí)間,超
過該時(shí)間后銷毀會(huì)話,清除會(huì)話的信息。
帳號(hào)異常登錄稽核4A平臺(tái)應(yīng)支持定期稽核主帳號(hào)異常登錄數(shù)量,并對該數(shù)量進(jìn)行記
錄,并提供展示界面支持查看“帳號(hào)異常登錄(多非工作時(shí)
間段、異地)占比”詳細(xì)信息時(shí)回調(diào)查看
敏感數(shù)據(jù)導(dǎo)出審批率稽核4A平臺(tái)應(yīng)支持定期稽核敏感數(shù)據(jù)導(dǎo)出操作與審批的不一致數(shù)量,
并對該數(shù)量進(jìn)行統(tǒng)一記錄,并提供展示界面視圖支持查看“敏感
數(shù)據(jù)導(dǎo)出審批率”詳細(xì)信息時(shí)回調(diào)查看
授權(quán)管理4A平臺(tái)必須至少實(shí)現(xiàn)對三大主要應(yīng)用系統(tǒng)和平臺(tái)的實(shí)體級(jí)、角色
級(jí)兩種授權(quán)方式,并且必須實(shí)現(xiàn)平臺(tái)細(xì)粒度授權(quán);
角色變更時(shí)間一致性4A平臺(tái)、應(yīng)用資源應(yīng)保持角色變更(創(chuàng)建、變更和刪除)的時(shí)間
一致性,以4A平臺(tái)的角色變更時(shí)間為準(zhǔn)記錄應(yīng)用系統(tǒng)的角色變
更日志。
角色級(jí)授權(quán)時(shí)間一致性4A平臺(tái)、應(yīng)用資源應(yīng)保持角色級(jí)授權(quán)的時(shí)間一致性,以4A平臺(tái)
的角色級(jí)授權(quán)時(shí)間為準(zhǔn)記錄應(yīng)用系統(tǒng)的角色級(jí)授權(quán)日志。
細(xì)粒度授權(quán)時(shí)間一致性4A平臺(tái)、應(yīng)用資源應(yīng)保持細(xì)粒度授權(quán)的時(shí)間一致性,以4A平臺(tái)
的細(xì)粒度授權(quán)時(shí)間為準(zhǔn)記錄應(yīng)用系統(tǒng)的細(xì)粒度授權(quán)日志。
資源接入流程面向用戶帳號(hào)權(quán)限管理的流程系統(tǒng)應(yīng)能覆蓋所有人員的申請、審
批等管理過程,提供易用、可用的申請審批功能
實(shí)現(xiàn)由資源管理員進(jìn)行流程的發(fā)起,發(fā)起時(shí)填寫資源基礎(chǔ)信息,
由資源管理員所在部門主管領(lǐng)導(dǎo)以及4A安全管理員進(jìn)行審批,
審批通過后,4A平臺(tái)自動(dòng)或人工接入該資源,并針對資源管理員
發(fā)更流程時(shí)填寫的浴源信息自行收集從帳號(hào).
19
安全機(jī)制
采用密碼技術(shù)和網(wǎng)絡(luò)防御技術(shù)來提升Hadoop的安全性能
0)基于公鑰體制的身份認(rèn)證:針對KDC瓶頸問題,文中放棄采用基于
Kerberos的對稱密碼加密的身份認(rèn)證方式,轉(zhuǎn)而采用基于PKI的身份認(rèn)證機(jī)制。
認(rèn)證過程分為兩步:首先,CA核實(shí)申請者身份并為各個(gè)合法節(jié)點(diǎn)頒發(fā)數(shù)字證書;
然后,示證方向驗(yàn)證方發(fā)送數(shù)字證書,驗(yàn)證身份。在基于公鑰密碼體制的身份認(rèn)證
方案中,節(jié)點(diǎn)一旦獲得CA頒發(fā)的數(shù)字證書,在隨后向服務(wù)器申請身份認(rèn)證的過程將
不會(huì)有PKI管理實(shí)體的參與。這樣便避免了在面對大業(yè)務(wù)量時(shí)系統(tǒng)瓶頸的問題。
。網(wǎng)絡(luò)防御預(yù)防單點(diǎn)失效:Hadoop所采用的對主服務(wù)器Master備份的
做法,只能解決Master的普通故障問題,不能應(yīng)對來自網(wǎng)絡(luò)的惡意攻擊。為了保
證Master服務(wù)器以及整個(gè)系統(tǒng)的安全,需要加強(qiáng)網(wǎng)絡(luò)的防御措施,使其免遭病毒、
木馬以及拒絕服務(wù)等來自網(wǎng)絡(luò)的攻擊。應(yīng)該對Hadoop中的服務(wù)器設(shè)置訪問控制、
對操作系統(tǒng)進(jìn)行安全配置、安裝防火墻和殺毒軟件、及時(shí)修補(bǔ)安全漏洞并啟動(dòng)入侵
檢測實(shí)時(shí)監(jiān)測服務(wù)器的TCP連接和數(shù)據(jù)流量。對于某些安全需求高的私有云,還
可以采取物理隔離的方式,最大限度減少被攻擊的可能。
0傳輸加密:采用數(shù)字信封的技術(shù)對將要傳輸?shù)臄?shù)據(jù)進(jìn)行加密,并增加相
應(yīng)的密碼設(shè)備或模塊實(shí)現(xiàn)算法的硬件加密,在該過程中將使用到公私鑰密碼對和會(huì)
話密鑰。使用會(huì)話密鑰對傳輸數(shù)據(jù)進(jìn)行對稱加密,保證了加解密的速度,降低了系
統(tǒng)的消耗。使用公私鑰密碼對加密保護(hù)會(huì)話密鑰,保證了會(huì)話密鑰的機(jī)密性,同時(shí)
也解決了對稱加密中龐大的密鑰管理問題。
@存儲(chǔ)加密:在數(shù)據(jù)中心采用密碼算法對數(shù)據(jù)加以保護(hù),并通過密鑰管理、
算法參數(shù)管理、強(qiáng)認(rèn)證等密碼技術(shù)保證特殊用戶所使用的資源僅受其自身管理。
安全體系架構(gòu)
20
21
4A安全體系
面對復(fù)雜的大數(shù)據(jù)安全環(huán)境,需要從四個(gè)層面綜合考慮以建立全方位的大數(shù)據(jù)
安全體系:邊界安全、訪問控制和授權(quán)、數(shù)據(jù)保護(hù)、審計(jì)和監(jiān)控。
?邊界安全:主要包含網(wǎng)絡(luò)安全和身份認(rèn)證。防護(hù)對系統(tǒng)及其數(shù)據(jù)和服務(wù)的訪
問,身份認(rèn)證確保用戶的真實(shí)性及有效性。Hadoop及其生態(tài)系統(tǒng)中的其它組件都
支持使用Kerberos進(jìn)行用戶身份驗(yàn)證。
?訪問控制和授權(quán):通過對用戶的授權(quán)實(shí)現(xiàn)對數(shù)據(jù)、資源和服務(wù)的訪問管理及權(quán)
限控制。Hadoop和HBase都支持ACL同時(shí)也實(shí)現(xiàn)了RBAC(基于角色的訪問控
制)模型,更細(xì)粒度的ABAC(AttibuteBasedAccessControl)在HBase較新的
版本中也可通過訪問控制標(biāo)簽和可見性標(biāo)簽的形式實(shí)現(xiàn)。
?數(shù)據(jù)保護(hù):通過數(shù)據(jù)加密和脫敏兩種主要方式從數(shù)據(jù)層面保護(hù)敏感信息不被泄
露。數(shù)據(jù)加密包括在傳輸過程中的加密和存儲(chǔ)加密。傳輸過程中的加密依賴于網(wǎng)
絡(luò)安全協(xié)議而存儲(chǔ)加密可通過相關(guān)加密算法和密鑰對數(shù)據(jù)進(jìn)行加密存儲(chǔ)。數(shù)據(jù)脫敏
是比加密較為折中的辦法,對于大數(shù)據(jù)時(shí)代,該方法將更被更為廣泛的采用。因?yàn)?/p>
收集的海量數(shù)據(jù)需要相對開放的共享給內(nèi)部不同團(tuán)隊(duì)或外部機(jī)構(gòu)使用,才能發(fā)揮大
數(shù)據(jù)的價(jià)值。對于敏感信息部分可通過脫敏的方式進(jìn)行處理以保障信息安全。
?審計(jì)和監(jiān)控:實(shí)時(shí)地監(jiān)控和審計(jì)可管理數(shù)據(jù)安全合規(guī)性和安全回溯、安全取
證等。
22
基于以上四層的安全體系,結(jié)合大數(shù)據(jù)平臺(tái)的特性,企業(yè)在實(shí)踐大數(shù)據(jù)平臺(tái)安
全化時(shí),需要有更詳細(xì)的架構(gòu)設(shè)計(jì),四層安全體系對應(yīng)在實(shí)際環(huán)境中,應(yīng)是以數(shù)據(jù)
為中心,建立完善的管理制度,先治理好大數(shù)據(jù),再從訪問控制和數(shù)據(jù)保護(hù)層面加
強(qiáng)對數(shù)據(jù)使用的安全防護(hù),最后從網(wǎng)絡(luò)和基礎(chǔ)層加固平臺(tái)的安全部署。因此,大數(shù)
據(jù)安全框架需包含以下5個(gè)核心模塊:數(shù)據(jù)管理、身份和訪問管理、數(shù)據(jù)保護(hù)、網(wǎng)絡(luò)
安全、基礎(chǔ)安全。
(-)數(shù)據(jù)管理
企業(yè)實(shí)施數(shù)據(jù)安全的首要任務(wù)是先管理好數(shù)據(jù),根據(jù)業(yè)務(wù)要求、合規(guī)性、安全
策略及數(shù)據(jù)的敏感性,關(guān)鍵性和關(guān)聯(lián)風(fēng)險(xiǎn)對數(shù)據(jù)進(jìn)行分類分級(jí)管理,有助于對數(shù)據(jù)
保護(hù)的基準(zhǔn)安全控制做出合理的決策。從大數(shù)據(jù)特性層面對數(shù)據(jù)進(jìn)行標(biāo)記(例如分
析類型、處理方式、數(shù)據(jù)時(shí)效性、數(shù)據(jù)類型、數(shù)據(jù)格式、數(shù)據(jù)源等維度),就知道
數(shù)據(jù)是如何進(jìn)出大數(shù)據(jù)平臺(tái),將會(huì)被如何使用,會(huì)被誰使用,數(shù)據(jù)是如何存儲(chǔ)的等
等,這些都有助于數(shù)據(jù)發(fā)現(xiàn)的管理和對數(shù)據(jù)訪問控制制定相應(yīng)的策略。最后,如果
缺乏掌握敏感數(shù)據(jù)在大數(shù)據(jù)平臺(tái)中存在于哪里的意識(shí),這將無疑是把數(shù)據(jù)暴露于風(fēng)
險(xiǎn)之下。所以,掌握敏感數(shù)據(jù)在大數(shù)據(jù)平臺(tái)中分布情況,并能自動(dòng)地增量式地發(fā)現(xiàn)找
到敏感數(shù)據(jù),并監(jiān)控其使用情況,是否受到保護(hù)是能否做到全面保護(hù)數(shù)據(jù)安全的關(guān)鍵。
(二)身份認(rèn)證和訪問控制
身份認(rèn)證是防護(hù)數(shù)據(jù)安全的第一道關(guān)卡,通過身份認(rèn)證確保訪問大數(shù)據(jù)平臺(tái)中
的數(shù)據(jù)、資源和服務(wù)的用戶是安全的,大數(shù)據(jù)生態(tài)系統(tǒng)中從Hadoop到HBase、Hive、
Pig、Impala、Spark等幾乎都支持利用Kerberos進(jìn)行身份認(rèn)證。Kerberos也可以
和企業(yè)的AD/LDAP結(jié)合以快速建立密鑰分發(fā)中心,而無需大數(shù)據(jù)平臺(tái)用戶重新建立
用戶組、角色和密鑰等。用戶通過身份認(rèn)證后可獲得訪問大數(shù)據(jù)平臺(tái)的資格,為進(jìn)
一步控制用戶對資源的訪問權(quán)限,需要通過授權(quán)機(jī)制來管理不同用戶對不同資源的訪
問許可。Hadoop和HBase及其它組件都在一定程度上支持對訪問的控制,RBAC
和ABAC是兩個(gè)不同粒度的訪問控制模型,前者是基于角色來進(jìn)行訪問控制,后者
是更為細(xì)粒度的控制,可控制到被訪問對象的字段級(jí)別。在制定訪問控制策略時(shí),
應(yīng)依據(jù)合規(guī)要求,結(jié)合敏感數(shù)據(jù)保護(hù)策略、數(shù)據(jù)使用場景等針對不同數(shù)據(jù)、不同業(yè)
務(wù)需求制定相應(yīng)的訪問限制規(guī)則,高效利用數(shù)據(jù),發(fā)揮大數(shù)據(jù)價(jià)值是企業(yè)的最終目
22
的。
(三)數(shù)據(jù)保護(hù)
如果說身份認(rèn)證、授權(quán)和訪問控制是確保了對數(shù)據(jù)訪問的對象的防護(hù)和控制,
數(shù)據(jù)保護(hù)技術(shù)則是從根源層保護(hù)信息安全的最重要和最有效的手段。通過數(shù)據(jù)保護(hù)
技術(shù),對大數(shù)據(jù)的開放共享、發(fā)布、最大化利用等都會(huì)有著最直接的積極作用。數(shù)
據(jù)保護(hù)技術(shù)的作用不僅局限于企業(yè)內(nèi)部,它是確保整個(gè)大數(shù)據(jù)產(chǎn)業(yè)快速發(fā)展的最重
要保證。數(shù)據(jù)保護(hù)技術(shù)通過對數(shù)據(jù)利用脫敏、失真、匿名化限制發(fā)布等技術(shù)處理后,
可讓處理后的數(shù)據(jù)到達(dá)安全交易、開放共享的目的。而對于企業(yè)內(nèi)部,針對脫敏后
的數(shù)據(jù),不需再設(shè)定復(fù)雜的訪問控制限制,可讓更多的分析應(yīng)用更高效地實(shí)施并優(yōu)
化開發(fā)項(xiàng)目,讓大數(shù)據(jù)得到更充分的利用同時(shí),也確保遵從行業(yè)/監(jiān)管數(shù)據(jù)隱私法
令和法規(guī)。
(四)網(wǎng)絡(luò)安全
大數(shù)據(jù)的網(wǎng)絡(luò)安全通常是指通過客戶端訪問大數(shù)據(jù)平臺(tái)的連接和大數(shù)據(jù)平臺(tái)
中服務(wù)器節(jié)點(diǎn)之間的網(wǎng)絡(luò)通信安全。為保證數(shù)據(jù)在傳輸過程中的安全性,節(jié)點(diǎn)之間
及客戶端與服務(wù)器之間的通信都需要進(jìn)行加密,不同的通信使用不同的加密方式,
Hadoop平臺(tái)支持RPC加密,HDFS數(shù)據(jù)傳輸加密和HTTP通信的加密。除了對網(wǎng)絡(luò)通
信進(jìn)行加密設(shè)置,還可通過使用網(wǎng)關(guān)服務(wù)器隔離客戶端與大數(shù)據(jù)平臺(tái)的直接訪問來進(jìn)
一步升級(jí)網(wǎng)絡(luò)安全。網(wǎng)關(guān)服務(wù)器部署在大數(shù)據(jù)平臺(tái)和企業(yè)用戶網(wǎng)絡(luò)域之間,用戶
通過登錄網(wǎng)關(guān)服務(wù)器來驗(yàn)證身份,并由網(wǎng)關(guān)服務(wù)代理用戶對大數(shù)據(jù)平臺(tái)的訪問,同
時(shí),該服務(wù)器還可用來提供訪問控制、策略管理。用戶通過登錄到網(wǎng)關(guān)服務(wù)器來執(zhí)
行對大數(shù)據(jù)平臺(tái)的操作,所有的客戶端包括Hive,Pig,Oozie等都可安裝在這臺(tái)
網(wǎng)關(guān)服務(wù)器上,這樣用戶就不必登錄到大數(shù)據(jù)平臺(tái)中的服務(wù)器節(jié)點(diǎn),從而保護(hù)大數(shù)
據(jù)平臺(tái)不會(huì)受到非法訪問。
(五)基礎(chǔ)安全
前面我們談到了通過各種方式來保證大數(shù)據(jù)平臺(tái)和安全性,包括身份認(rèn)證、授
權(quán)、訪問控制、數(shù)據(jù)保護(hù)及網(wǎng)絡(luò)通信安全。但大數(shù)據(jù)平臺(tái)仍然有可能會(huì)受到非法訪問
和特權(quán)用戶的訪問。為確保合規(guī)性的需要,我們需要對大數(shù)據(jù)平臺(tái)的一切活動(dòng)進(jìn)行審
計(jì)和監(jiān)控并生成告警信息,也即是安全事故和事件監(jiān)控(SIEM)系統(tǒng)。SIEM系
統(tǒng)負(fù)責(zé)對大數(shù)據(jù)平臺(tái)中任何可疑的活動(dòng)進(jìn)行收集,監(jiān)控,分析和生成各種安全報(bào)告。
23
以下是大數(shù)據(jù)平臺(tái)中需要被監(jiān)控的事件以用來分析識(shí)別安全事件:用戶登錄和身份
驗(yàn)證事件、HDFS操作、授權(quán)錯(cuò)誤、敏感數(shù)據(jù)操作、MapReduce任務(wù)、通過各種客戶
端的訪問如Oozie,HUE等以及異常事件。只有全面的收集在大數(shù)據(jù)平臺(tái)中的一切活
動(dòng),才有機(jī)會(huì)捕捉可能會(huì)發(fā)生的安全事故及進(jìn)行事后分析時(shí)有機(jī)會(huì)進(jìn)行回溯分析,追
蹤事故根源。
,一體化運(yùn)維監(jiān)控系統(tǒng)
一體化運(yùn)維監(jiān)控系統(tǒng),系統(tǒng)管理員可快捷直觀地一鍵式自動(dòng)化安裝部署整個(gè)系
統(tǒng)所有的主機(jī)、服務(wù)、節(jié)點(diǎn)組件,及它們的配置、管理、監(jiān)控整個(gè)系統(tǒng)的資源,包
括:
?一鍵式自動(dòng)化安裝部署整個(gè)系統(tǒng)
在一體化運(yùn)維平臺(tái)上,提供安裝向?qū)?,可以一鍵安裝部署的所有主機(jī)、服
務(wù)、節(jié)點(diǎn)組件的安裝、刪除。
?管理集群系統(tǒng)
為集群中所有主機(jī)、服務(wù)、節(jié)點(diǎn)提供集中啟、停、及重新配置、升級(jí)、安
裝、刪除等運(yùn)維管理。
?監(jiān)控集群系統(tǒng)
提供基于儀表盤的集群性能與狀態(tài)集中監(jiān)控。
采集集群性能參數(shù)值并以圖形化方式呈現(xiàn)。
提供主機(jī)、服務(wù)組件、子系統(tǒng)的實(shí)時(shí)告警。
一鍵式自動(dòng)化安裝部署
大數(shù)據(jù)處理系統(tǒng)主要基于Hadoop實(shí)現(xiàn),由于Hadoop是由運(yùn)行在物理集群
上龐大的服務(wù)組件構(gòu)成,從廣義上來說,Hadoop是一個(gè)生態(tài)系統(tǒng),而不是各
個(gè)技術(shù)的簡單堆疊,如果采用手工命令行進(jìn)行安裝部署的方式,不但費(fèi)時(shí)費(fèi)力
不可靠,而且需要安裝部署人員有很強(qiáng)的HADOO安裝知識(shí)。
而一鍵式自動(dòng)化安裝部署,安裝部署人員可以傻瓜式的、僅需按菜單導(dǎo)航
就可以很快速完成安裝。
主要功能如下:
①)Hadoop組件:通過菜單導(dǎo)航對Hadoop組件進(jìn)行新增、刪除
24
0)主機(jī):通過菜單導(dǎo)航對主機(jī)進(jìn)行新增、刪除
0子系統(tǒng):通過菜單導(dǎo)航對所有子系統(tǒng)或所屬服務(wù)進(jìn)行新增、刪除
管理集群系統(tǒng)
主要提供主機(jī)、節(jié)點(diǎn)、服務(wù)的管理
1、服務(wù)生命周期管理
服務(wù)生命周期管理主要是對服務(wù)的部署、啟動(dòng)、停止、卸載、刪除進(jìn)行管
理,主要通過運(yùn)維平臺(tái)的服務(wù)界面完成。
服務(wù)注冊和刪除,是對服務(wù)的基本信息,如服務(wù)部署策略,環(huán)境變量,依
賴服務(wù)等進(jìn)行保存和刪除
服務(wù)部署,管理器(master)根據(jù)服務(wù)的部署策略,創(chuàng)建服務(wù)實(shí)例,并向所
選節(jié)點(diǎn)發(fā)送部署命令,由節(jié)點(diǎn)部署。
服務(wù)啟動(dòng),管理器(master)向服務(wù)所在節(jié)點(diǎn)發(fā)送啟動(dòng)命令,由各個(gè)節(jié)點(diǎn)啟
動(dòng)服務(wù)。
服務(wù)停止,管理器(master)向服務(wù)所在選節(jié)點(diǎn)發(fā)送停止命令,由各個(gè)節(jié)點(diǎn)
停止服務(wù)。
服務(wù)卸載,管理器(master)向服務(wù)所在選節(jié)點(diǎn)發(fā)送卸載命令,由各個(gè)節(jié)點(diǎn)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《家庭親情圖片》課件
- 單位管理制度集合大合集職員管理十篇
- 單位管理制度匯編大合集人員管理篇十篇
- 《孔子世家原文》課件
- 單位管理制度范例合集職工管理篇十篇
- 單位管理制度呈現(xiàn)合集【人事管理篇】十篇
- 九年級(jí)政治東西南北課件
- 七年級(jí)英語單詞課件
- 《生活中的規(guī)則》課件
- 第2單元 社會(huì)主義制度的建立與社會(huì)主義建設(shè)的探索 (B卷·能力提升練)(解析版)
- 2024年《論教育》全文課件
- 生命安全與救援學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 大一中國近代史綱要期末考試試題及答案
- 文創(chuàng)園項(xiàng)目可行性方案
- 馬工程版《中國經(jīng)濟(jì)史》各章思考題答題要點(diǎn)及詳解
- OBE理念下的一流專業(yè)和課程建設(shè)
- 一年級(jí)口算天天練(可直接打印)
- 公司EHS(安全、環(huán)保、職業(yè)健康)檢查表
- 《模擬電子技術(shù)基礎(chǔ)》課程設(shè)計(jì)-心電圖儀設(shè)計(jì)與制作
- 繪本brown bear教案及反思
- 川中干法脫硫
評(píng)論
0/150
提交評(píng)論