數(shù)據(jù)管理平臺(tái)實(shí)施方案_第1頁
數(shù)據(jù)管理平臺(tái)實(shí)施方案_第2頁
數(shù)據(jù)管理平臺(tái)實(shí)施方案_第3頁
數(shù)據(jù)管理平臺(tái)實(shí)施方案_第4頁
數(shù)據(jù)管理平臺(tái)實(shí)施方案_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)管理平臺(tái)實(shí)施方案

(V1.0)

項(xiàng)目編號(hào):項(xiàng)目名稱:

編寫人:XX編寫日期:2020.05.10

審核人:審核日期:2020.05.15

批準(zhǔn)人:批準(zhǔn)日期:

1

文檔修訂記錄

日期版本說明作者審批人

2020.05.101.0第一稿XXXXX

2

目錄

第1章.編寫說明................................................................................5

1.1編寫目的..................................................................................5

1.2術(shù)語定義..................................................................................5

第2章.項(xiàng)目實(shí)施總述............................................................................6

2.1數(shù)據(jù)管理平臺(tái)項(xiàng)目建設(shè)目標(biāo)與任務(wù).....................................................6

2.1.1.數(shù)據(jù)管理平臺(tái)項(xiàng)目建設(shè)總體目標(biāo)....................................................6

2.1.2.數(shù)據(jù)管理平臺(tái)項(xiàng)目分階段目標(biāo)....................................................6

2.2數(shù)據(jù)管理平臺(tái)項(xiàng)目建設(shè)內(nèi)容.............................................................7

2.2.1.數(shù)據(jù)管理平臺(tái)項(xiàng)目總體架構(gòu)........................................................彳

.總體架構(gòu)..........................................................................7

.系統(tǒng)定位..........................................................................7

2.2.2.數(shù)據(jù)管理平臺(tái)項(xiàng)目軟硬件系統(tǒng)建設(shè)內(nèi)容................................................8

.元數(shù)據(jù)管理系統(tǒng)....................................................................8

22.2.2.數(shù)據(jù)集成系統(tǒng)......................................................................12

,統(tǒng)一安全系統(tǒng).....................................................................15

,一體化運(yùn)維監(jiān)控系統(tǒng)................................................................24

2.2.3.項(xiàng)目實(shí)施工作內(nèi)容...................................................................27

2.2.4.項(xiàng)目實(shí)施進(jìn)度規(guī)劃...................................................................28

2.2.5.實(shí)施風(fēng)險(xiǎn)與關(guān)鍵點(diǎn)...................................................................29

第3章.里程碑計(jì)劃.............................................................................32

第4章.2020年詳細(xì)工作計(jì)劃...................................................................34

3

文檔格式約定::

一級(jí)標(biāo)題:左對齊黑體字二號(hào)字加粗

二級(jí)標(biāo)題:左對齊黑體字小二號(hào)字加粗

三級(jí)標(biāo)題:左對齊黑體字三號(hào)字加粗

四級(jí)標(biāo)題:左對齊黑體字四號(hào)字加粗

正文:正文首行縮進(jìn)2字符1.5倍行距宋體小四號(hào)字

圖片:居中

表格:居中表格文字左對齊宋字五號(hào)字

4

第1章.編寫說明

1.1編寫目的

本方案不僅從實(shí)施目標(biāo)、任務(wù)、執(zhí)行計(jì)劃和組織分工等方面對滄州大數(shù)據(jù)中心

項(xiàng)目數(shù)據(jù)中心項(xiàng)目(以下簡稱“本項(xiàng)目”)的實(shí)施工作進(jìn)行了宏觀定義,并對具體

的基礎(chǔ)設(shè)施建設(shè)、系統(tǒng)設(shè)計(jì)方案、標(biāo)準(zhǔn)規(guī)范及培訓(xùn)實(shí)施方案、系統(tǒng)實(shí)施、實(shí)施與保

障等專項(xiàng)工作也做較為詳細(xì)的定義,以指導(dǎo)后續(xù)的實(shí)施工作。

1.2術(shù)語定義

1.共建單位:配合滄州大數(shù)據(jù)中心工程建設(shè)的政府機(jī)構(gòu)、公共事業(yè)部門和企

業(yè)。

2.承建單位:九次方大數(shù)據(jù)信息集團(tuán)有限公司

5

第2章.項(xiàng)目實(shí)施總述

2.1數(shù)據(jù)管理平臺(tái)項(xiàng)目建設(shè)目標(biāo)與任務(wù)

2.1.1.數(shù)據(jù)管理平臺(tái)項(xiàng)目建設(shè)總體目標(biāo)

數(shù)據(jù)管理平臺(tái)提供數(shù)據(jù)梳理、數(shù)據(jù)管理、服務(wù)監(jiān)控、政務(wù)數(shù)據(jù)協(xié)同、數(shù)據(jù)服務(wù)

集成、運(yùn)行支撐、IT運(yùn)維功能。

2.1.2.數(shù)據(jù)管理平臺(tái)項(xiàng)目分階段目標(biāo)

1.第一階段目標(biāo)

2020年5月15日工作目標(biāo)

(1)完成平臺(tái)基礎(chǔ)功能建設(shè),部署開放數(shù)據(jù)、云接口、云服務(wù)以及用戶中心

頻道部署、測試與運(yùn)行。

(2)完成與省“互聯(lián)網(wǎng)+政務(wù)服務(wù)”平臺(tái)對接。

2.第二階段目標(biāo)

2020年7月工作目標(biāo)

(1)完成數(shù)據(jù)共享交換平臺(tái)功能完善、部署、測試與運(yùn)行。

(2)完成數(shù)據(jù)管理系統(tǒng)功能完善、部署、測試功能建設(shè)。

3.第三階段目標(biāo)

2020年10月工作目標(biāo)

(1)完成與省共享交換平臺(tái)對接、與市直部門信息系統(tǒng)對接、與一體化在線

服務(wù)平臺(tái)等對接。

(2)完成數(shù)據(jù)管理平臺(tái)初驗(yàn)、試運(yùn)行和終驗(yàn)。

6

2.2數(shù)據(jù)管理平臺(tái)項(xiàng)目建設(shè)內(nèi)容

2.2.1.數(shù)據(jù)管理平臺(tái)項(xiàng)目總體架構(gòu)

2.2.1.1.總體架構(gòu)

數(shù)據(jù)管理平臺(tái)從總體架構(gòu)設(shè)計(jì)上保證了平臺(tái)在系統(tǒng)規(guī)模與業(yè)務(wù)場景上的先進(jìn)

性和可擴(kuò)展性。全平臺(tái)采用基于X86硬件的全分布式架構(gòu),可按需方便地進(jìn)行水平

擴(kuò)展(ScaleOut)和彈性伸縮。平臺(tái)由多個(gè)可插拔的獨(dú)立系統(tǒng)組成,系統(tǒng)間松耦合,

采用標(biāo)準(zhǔn)服務(wù)化接口進(jìn)行互通。除必選系統(tǒng)外,其它系統(tǒng)可根據(jù)需要靈活選擇和獨(dú)

立安裝部署。

數(shù)據(jù)管理平臺(tái)總體架構(gòu)如下圖所示:

就監(jiān)控筑TUB

M0C安全

inHiaI住《■?im倉庫景貌

■fht?引?

IB?V9百日日由口

MySQLHiveH8d$eHOFSES

mI底加iftt?M

故據(jù)采集、MT洗.幡換

2.2.1.2.系統(tǒng)定位

數(shù)據(jù)管理平臺(tái)提供數(shù)據(jù)梳理、數(shù)據(jù)管理、服務(wù)監(jiān)控、政務(wù)數(shù)據(jù)協(xié)同、數(shù)據(jù)服務(wù)

集成、運(yùn)行支撐、IT運(yùn)維功能。

數(shù)據(jù)梳理功能提供政府部門的組織結(jié)構(gòu)、業(yè)務(wù)角色、信息資源類別、信息化系

統(tǒng)等的管理和維護(hù)。能夠?qū)I(yè)務(wù)流程圖和數(shù)據(jù)流程圖進(jìn)行管理,能夠識(shí)別協(xié)同關(guān)系

和信息共享需求,能夠明確職責(zé)、整理和挖掘數(shù)據(jù)資源、規(guī)范數(shù)據(jù)表示;能夠?qū)?shù)

7

據(jù)庫的主題庫、邏輯實(shí)體、實(shí)體關(guān)系圖、數(shù)據(jù)映射圖、數(shù)據(jù)元標(biāo)準(zhǔn)、信息分類編碼

進(jìn)行管理。

數(shù)據(jù)管理功能提供制定詳細(xì)的加工規(guī)則及流程及質(zhì)量監(jiān)控,保障基礎(chǔ)數(shù)據(jù)庫能

夠存儲(chǔ)較高質(zhì)量與細(xì)顆粒度的數(shù)據(jù)資源。主要包括數(shù)據(jù)采集抽取、數(shù)據(jù)過濾清洗、

數(shù)據(jù)映射轉(zhuǎn)換、數(shù)據(jù)比對、加工規(guī)則定義、數(shù)據(jù)維護(hù)管理等功能。

服務(wù)監(jiān)控功能即對數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、比對、入庫等過程進(jìn)行監(jiān)控,并將

結(jié)果展示給內(nèi)部用戶查閱;提供網(wǎng)絡(luò)檢測與服務(wù)器檢測,使內(nèi)部用戶能夠及時(shí)了解

數(shù)據(jù)處理時(shí)網(wǎng)絡(luò)和硬件的開銷;提供數(shù)據(jù)處理過程及歷史情況查詢和錯(cuò)誤、異常的

定位工具。

政務(wù)數(shù)據(jù)協(xié)同功能通過建立委辦局間的資源共享交換機(jī)制,促進(jìn)信息更新和公

開,提升信息資源的利用水平,實(shí)現(xiàn)跨部門信息資源的整合與共享。

數(shù)據(jù)服務(wù)集成功能通過搭建基于數(shù)據(jù)服務(wù)總線(ESB)的服務(wù)集成管理平臺(tái),

構(gòu)建數(shù)據(jù)服務(wù)的統(tǒng)一通信通道,提供在協(xié)議不同、格式不同、標(biāo)準(zhǔn)不同的情況下,

服務(wù)與對接服務(wù)之間的交互通信,傳遞消息。

運(yùn)行支撐功能通過構(gòu)建覆蓋全市各部門的多級(jí)政務(wù)數(shù)據(jù)資源目錄體系架構(gòu),采

用元數(shù)據(jù)對共享政務(wù)數(shù)據(jù)資源特征進(jìn)行描述,形成統(tǒng)一規(guī)范的目錄內(nèi)容,通過對目

錄內(nèi)容的有效組織和管理,形成部門間政務(wù)數(shù)據(jù)資源物理分散、邏輯集中的信息共

享模式,提供政務(wù)數(shù)據(jù)資源的發(fā)現(xiàn)定位服務(wù),支持全市范圍內(nèi)跨部門、跨地區(qū)的普

遍信息共享。

IT運(yùn)維功能包括IT基礎(chǔ)環(huán)境運(yùn)維、應(yīng)用運(yùn)行環(huán)境運(yùn)維、數(shù)據(jù)處理監(jiān)控管理、

委辦局支撐服務(wù)管理、運(yùn)維服務(wù)報(bào)表統(tǒng)計(jì)、后臺(tái)管理功能、角色管理。

2.2.2.數(shù)據(jù)管理平臺(tái)項(xiàng)目軟硬件系統(tǒng)建設(shè)內(nèi)容

2.2.2.1.元數(shù)據(jù)管理系統(tǒng)

元數(shù)據(jù)是對數(shù)據(jù)的描述,可以分為業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和管理元數(shù)據(jù)。最

重要的是業(yè)務(wù)元數(shù)據(jù)。元數(shù)據(jù)管理通過一系列手段采集所需的各種外部數(shù)據(jù)系統(tǒng)、

數(shù)據(jù)倉庫、數(shù)據(jù)集市的元數(shù)據(jù)定義信息,并集中存儲(chǔ)在平臺(tái)中,這個(gè)過程是采集過

8

9

程。元數(shù)據(jù)采集以后可以進(jìn)行四大類的操作與功能:

1通過一定的方法解析出數(shù)據(jù)之間的關(guān)聯(lián)映射關(guān)系,映射關(guān)系的上下游連在一

起形成數(shù)據(jù)地圖。通過數(shù)據(jù)地圖可以進(jìn)行數(shù)據(jù)的血緣分析(向上游查詢)和影響分

析(向下游查詢);

2保證元數(shù)據(jù)定義與實(shí)際情況的一致性。通過每天的元數(shù)據(jù)采集比對;可以知

道發(fā)生變化或異常的表,及時(shí)提醒相關(guān)人員關(guān)注,同時(shí)可以保留多個(gè)元數(shù)據(jù)歷史版

本供查閱;

3通過可視化界面,可以多層級(jí),多角度地查詢、展現(xiàn)元數(shù)據(jù)信息;

4支撐數(shù)據(jù)質(zhì)量與數(shù)據(jù)標(biāo)準(zhǔn)模塊,提供接口調(diào)用。

?元數(shù)據(jù)業(yè)務(wù)架構(gòu):

數(shù)

據(jù)

理LH蚊蟲座IgJMte

統(tǒng)

6*冗斂K

[元HB"]TtMfwn

10

血統(tǒng)分析

系統(tǒng)設(shè)置

主要提供資源管理、數(shù)據(jù)系統(tǒng)注冊。

?資源管理

分前置機(jī)和平臺(tái)兩種,前置機(jī)是客戶的數(shù)據(jù)庫機(jī)器連接信息、,平臺(tái)展

示從一體化運(yùn)維監(jiān)控系統(tǒng)自動(dòng)獲取的平臺(tái)內(nèi)的各種數(shù)據(jù)庫的信息

當(dāng)需要從客戶機(jī)器采集的數(shù)據(jù)的話,就需要在前置機(jī)處設(shè)置這個(gè)連接

信息。目前支持Oracle,MYSQ敏據(jù)庫

?數(shù)據(jù)系統(tǒng)注冊

可新建前置機(jī)、平臺(tái)內(nèi)的新數(shù)據(jù)庫,也可以注冊前置機(jī)上已存在的數(shù)

據(jù)庫信息。

新建SFTP服務(wù)需要使用的SFTP用戶登錄信息

元數(shù)據(jù)定義

?數(shù)據(jù)表類

可在前置機(jī)、平臺(tái)內(nèi)的生成實(shí)體表,也可以僅采集已注冊的前置機(jī)數(shù)

11

據(jù)庫上的表結(jié)構(gòu)。

?文件目錄類

創(chuàng)建真正的HDFS文件目錄,并指定目錄所屬用戶,及目錄的公開等級(jí)

?ES索引

創(chuàng)建所屬的ES索引,供數(shù)據(jù)分析查詢時(shí)使用。

數(shù)據(jù)地圖

以可視化地圖方式展示由ETL任務(wù)產(chǎn)生的數(shù)據(jù)關(guān)系的血緣分析(即數(shù)據(jù)如何得

來)、影響分析(即數(shù)據(jù)改變后,對下游數(shù)據(jù)的影響),及手工創(chuàng)建的數(shù)據(jù)關(guān)系

可展示的層級(jí)有:數(shù)據(jù)庫、表、字段、文件類、各種屬性

形成一個(gè)展現(xiàn)數(shù)據(jù)全貌的數(shù)據(jù)地圖,清晰完整地揭示各種數(shù)據(jù)的來龍去脈

數(shù)據(jù)關(guān)系管理

此處主要用于手工創(chuàng)建數(shù)據(jù)關(guān)系所用

數(shù)據(jù)關(guān)系包含以下幾類:

?表與文件目錄的關(guān)系

?表與表之間的關(guān)系,

細(xì)分為以下類:

生成關(guān)系--表示一張表是由另一張表生成而來,例如,在ETL過程

中表與表之間的生成關(guān)系或由多張表生成寬表。生成關(guān)系屬于強(qiáng)關(guān)聯(lián)。

對于表與表之間的生成關(guān)系,在配置元數(shù)據(jù)時(shí)或ETL時(shí)可以自動(dòng)生成

關(guān)系記錄,也可以手工創(chuàng)建。

引用關(guān)系一-表示兩張表間在業(yè)務(wù)上有關(guān)聯(lián),但又不是生成關(guān)系。例如,

在地市-GDP統(tǒng)計(jì)表中,現(xiàn)在要統(tǒng)計(jì)每個(gè)地區(qū)(粵東、粵西、粵北)的GDP

即地區(qū)-GDP表,需要有地區(qū)-地市的關(guān)系查找表。在本例中地市-GDP表

與地區(qū)-GDP表是生成關(guān)系,而地區(qū)-GDP統(tǒng)計(jì)表與地區(qū)-地市查找表是

引用關(guān)系。當(dāng)然也可以說地市-GDP統(tǒng)計(jì)表與地區(qū)-地市查找表是引用關(guān)

系,其實(shí)兩者選一就可以了。引用關(guān)系只能手工進(jìn)行創(chuàng)建。

12

13

?文件與文件的關(guān)系

數(shù)據(jù)標(biāo)準(zhǔn)管理

數(shù)據(jù)標(biāo)準(zhǔn)管理主要為數(shù)據(jù)標(biāo)準(zhǔn)文檔提供一個(gè)存儲(chǔ)空間,租戶內(nèi)的各部門用戶

都可以按條件搜索、下載各種數(shù)據(jù)標(biāo)準(zhǔn)文檔

2.2.2.2,數(shù)據(jù)集成系統(tǒng)

數(shù)據(jù)集成系統(tǒng)為多源、多種類、多格式數(shù)據(jù)提供高速海量數(shù)據(jù)采集、清洗、轉(zhuǎn)

換、與加載能力,全程免代碼編寫。

整個(gè)數(shù)據(jù)集成系統(tǒng)主要包括云化數(shù)據(jù)集成系統(tǒng)(CloudETL)和前置機(jī)系統(tǒng)。

云化數(shù)據(jù)集成系統(tǒng)(CloudETL)承擔(dān)數(shù)據(jù)集成的任務(wù)調(diào)度、流程配置、任務(wù)分

發(fā)和執(zhí)行、過程監(jiān)控、異常處理等工作;

前置機(jī)系統(tǒng)主要承擔(dān)用戶側(cè)和數(shù)據(jù)源側(cè)的數(shù)據(jù)緩存、接口對接、采集控制等工

作,前置機(jī)系統(tǒng)主要用在推模式的數(shù)據(jù)集成時(shí)。

數(shù)據(jù)集成系統(tǒng)架構(gòu)

數(shù)據(jù)集成系統(tǒng)架構(gòu)如下圖所示:

14

云化數(shù)據(jù)集成系統(tǒng)

云化數(shù)據(jù)集成系統(tǒng)(CloudETL)是大數(shù)據(jù)平臺(tái)中負(fù)責(zé)數(shù)據(jù)集成的子系統(tǒng),支持

多源、多種類、多格式、多傳輸方式數(shù)據(jù)的高性能統(tǒng)一集成。

?實(shí)現(xiàn)ETL全流程Web化(任務(wù)配置、監(jiān)控、調(diào)度)

?完整實(shí)現(xiàn)通用的ETL功能(支持各種數(shù)據(jù)采集、清洗、轉(zhuǎn)換、加載場景)

?實(shí)現(xiàn)基于HDFS的Spark計(jì)算引擎

?全面支持Hadoop插件(HDFS/HIVE/HBAS等)

?支持SFTPBridge直連HDFS在小文件傳輸和安全性等方面進(jìn)行優(yōu)化和改

進(jìn)

?支持故障監(jiān)控,告警,異常恢復(fù)和斷點(diǎn)續(xù)傳

?高可靠性(HA)改進(jìn),支持集群服務(wù)器間任務(wù)遷移

?支持基于多種采集技術(shù)(Flume/Kafka/Sqoop)的ETL任務(wù)統(tǒng)一調(diào)度

?支持各種結(jié)構(gòu)數(shù)據(jù)庫:MYSQUDRACLH)B2SQLSERVERCCESSSQLSERVER

SyBase等

?支持分布式部署

?支持ETL任務(wù)分析,把數(shù)據(jù)關(guān)系展示到數(shù)據(jù)地圖中

云化數(shù)據(jù)集成系統(tǒng)亦可作為獨(dú)立產(chǎn)品進(jìn)行部署,適用于大規(guī)模數(shù)據(jù)采集、同步

遷移、異地備份、數(shù)據(jù)清洗、融合、交換等業(yè)務(wù)場景。

1.資源中心

數(shù)據(jù)源管理:CloudETL資源中心進(jìn)行數(shù)據(jù)源管理,從元數(shù)據(jù)系統(tǒng)中根據(jù)

用戶同步數(shù)據(jù)源配置信息,CloudET流程的數(shù)據(jù)源連接配置都從統(tǒng)一維護(hù)的元

數(shù)據(jù)中導(dǎo)入;

服務(wù)器管理:CloudETL資源中心進(jìn)行平臺(tái)服務(wù)器、集群、前置機(jī)等的管理,

從一體化運(yùn)維監(jiān)控系統(tǒng)根據(jù)用戶同步配置信息,保證用戶只能使用經(jīng)元數(shù)

據(jù)系統(tǒng)授權(quán)的服務(wù)器上的資源;

2.任務(wù)設(shè)計(jì)

用戶可通過圖形界面創(chuàng)建轉(zhuǎn)換任務(wù),轉(zhuǎn)換任務(wù)以Ktr文件保存轉(zhuǎn)換任務(wù);

也可創(chuàng)建調(diào)度任務(wù),實(shí)現(xiàn)轉(zhuǎn)換任務(wù)的定時(shí)執(zhí)行,以ktj文件保存調(diào)度任務(wù)。

13

任務(wù)組件有:輸入、輸出、大數(shù)據(jù)、腳本、轉(zhuǎn)換步驟、作業(yè)、查詢、連接、

流程、統(tǒng)計(jì)、檢驗(yàn)等

1)支持結(jié)構(gòu)類文件、非結(jié)構(gòu)類文件的輸入、輸出:文本文件、EXCEL

CSVXLSACCES等結(jié)構(gòu)類文件,非結(jié)構(gòu)類PDFWOR摩。

2)支持各種數(shù)據(jù)庫輸入、輸出:Oracle、MYSQLHBASEHIVE.Sybase.

DB2、ACCESSSQLServer等。

3)通過計(jì)算、清洗、查詢、連接、統(tǒng)計(jì)、腳本等轉(zhuǎn)換算子對源數(shù)據(jù)進(jìn)行

規(guī)則轉(zhuǎn)換,以得到想要的輸出結(jié)果。

3.任務(wù)管理

1)支持本地服務(wù)器、遠(yuǎn)程服務(wù)器、集群服務(wù)器、Spark引擎運(yùn)行任務(wù);

2)Ktr/Kjb文件輸出,管理ETL流程中的轉(zhuǎn)換和任務(wù)文件,可導(dǎo)入和導(dǎo)出

Ktr/Kjb文件;

3)異常告警輸出,調(diào)用一體化運(yùn)維監(jiān)控系統(tǒng)的接口,輸出CloudETL子系

統(tǒng)的異常和告警信息、;

4)集群管理,根據(jù)采集機(jī)配置集群,分配轉(zhuǎn)換步驟到集群中執(zhí)行,收集

集群各子服務(wù)器的日志和監(jiān)控信息,監(jiān)控集群執(zhí)行過程;

5)可視化的執(zhí)行監(jiān)控管理,分配采集機(jī)執(zhí)行轉(zhuǎn)換和任務(wù),收集采集機(jī)的

執(zhí)行日志和監(jiān)控信息,在客戶端以可視化的方式呈現(xiàn)ETL的完整執(zhí)行過程和狀

態(tài),并可以查詢歷史執(zhí)行日志;

6)容錯(cuò)管理,任務(wù)重跑,通過設(shè)計(jì)任務(wù)(Job)流程及參數(shù)配置實(shí)現(xiàn)ETL

全流程重跑;斷點(diǎn)續(xù)跑,對轉(zhuǎn)換(Ktr)中的某一步驟因某服務(wù)器原因中斷,

實(shí)現(xiàn)重啟服務(wù)器后,斷點(diǎn)續(xù)跑;

7)支持多任務(wù)并發(fā)執(zhí)行,支持多個(gè)任務(wù)、或全部任務(wù)一鍵并發(fā)執(zhí)行;

8)支持調(diào)度任務(wù),支持調(diào)度任務(wù),可以設(shè)置定時(shí)執(zhí)行任務(wù),并可客戶端以

可視化的方式呈現(xiàn)ETL的完整執(zhí)行過程和狀態(tài);

9)CloudETL任務(wù)流程分析,數(shù)據(jù)血緣分析,通過對CloudETL任務(wù)流程進(jìn)

行分析,梳理出數(shù)據(jù)實(shí)體(包括表、字段、文件等)之間的血緣關(guān)系,最終展

示到元數(shù)據(jù)系統(tǒng)的數(shù)據(jù)地圖中;

10)關(guān)聯(lián)關(guān)系分析,通過分析數(shù)據(jù)源的表結(jié)構(gòu)、主外鍵等信息,自動(dòng)獲

14

取數(shù)據(jù)來源的關(guān)聯(lián)關(guān)系,最終展示到元數(shù)據(jù)系統(tǒng)的數(shù)據(jù)地圖中。

前置機(jī)

前置機(jī)是指用于現(xiàn)場的中間設(shè)備,大數(shù)據(jù)平臺(tái)通過前置機(jī)采集從客戶端的數(shù)據(jù);

前置機(jī)這個(gè)概念一般在銀行、券商、政府、電信運(yùn)營商那里用的比較多。這些

地方都有很多后臺(tái)核心處理系統(tǒng),對外提供各種接口服務(wù)。如果我有某種業(yè)務(wù)接口

需要跟他們的后臺(tái)系統(tǒng)打交道,要從我們的外部網(wǎng)絡(luò)訪問他們的后臺(tái)系統(tǒng),這些單

位是絕對不允許的。這個(gè)時(shí)候,他們要求你或者他們自己開發(fā)一個(gè)軟件,運(yùn)行在他

們的內(nèi)網(wǎng),然后通過專線或硬件隔離技術(shù)將運(yùn)行這個(gè)軟件的計(jì)算機(jī)連接到你的外網(wǎng)

系統(tǒng)上,那么運(yùn)行這個(gè)軟件的計(jì)算機(jī),從功能上稱呼為前置機(jī)。置機(jī)的作用包括以

下兩方面:

1)從網(wǎng)絡(luò)和安全角度來看,它有隔離主機(jī)的作用(一種放在內(nèi)網(wǎng)以外,分

離內(nèi)網(wǎng)外網(wǎng)的應(yīng)用),保證外部的應(yīng)用不能直接訪問核心服務(wù),比如銀行的各類

外部接口(電信代收費(fèi)、銀證通)。

2)從業(yè)務(wù)角度來看,前置機(jī)提供了業(yè)務(wù)渠道與核心服務(wù)的主機(jī)交流的一

個(gè)橋梁。它一般起著管理和調(diào)度業(yè)務(wù)渠道發(fā)起的交易的作用,經(jīng)過前置機(jī)的調(diào)

用可以減輕核心后臺(tái)服務(wù)器的負(fù)擔(dān),當(dāng)然了它也有非核心業(yè)務(wù)的處理功能。

3)位于應(yīng)用系統(tǒng)服務(wù)器端與客戶端之間的獨(dú)立處理機(jī)系統(tǒng),擔(dān)負(fù)數(shù)據(jù)格

式轉(zhuǎn)換、連接管理、業(yè)務(wù)流管理外圍調(diào)度、外圍處理,并把業(yè)務(wù)數(shù)據(jù)交后臺(tái)應(yīng)

用服務(wù)系統(tǒng)處理等任務(wù)。

4)內(nèi)外網(wǎng)兩端的業(yè)務(wù)系統(tǒng)需要數(shù)據(jù)交換,在各自業(yè)務(wù)系統(tǒng)前布置前置機(jī),

實(shí)現(xiàn)數(shù)據(jù)交換。

目前前置機(jī)支持sFTP、HTTPRestfulAPI、WebService>人工文件導(dǎo)入等方

式,流式數(shù)據(jù)采集(Flume/Kafka等)。

.統(tǒng)一安全系統(tǒng)

服務(wù)監(jiān)控功能即對數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、比對、入庫等過程進(jìn)行監(jiān)控,并將

結(jié)果展示給內(nèi)部用戶查閱;提供網(wǎng)絡(luò)檢測與服務(wù)器檢測,使內(nèi)部用戶能夠及時(shí)了解

數(shù)據(jù)處理時(shí)網(wǎng)絡(luò)和硬件的開銷;提供數(shù)據(jù)處理過程及歷史情況查詢和錯(cuò)誤、異常的

15

定位工具。

權(quán)限管理

對于Hadoop集群而言,必須進(jìn)行權(quán)限管理,其中最重要的是實(shí)現(xiàn)

Authentication(身份鑒別)和Authorization(授權(quán))這兩點(diǎn):

(1)Authorization,是指正確識(shí)別一個(gè)用戶的真實(shí)身份。

(2)Authentication,是指為某個(gè)用戶做某件事賦予某種權(quán)力。

Hadoop本身原生并不具備任何身份鑒別的能力,需要進(jìn)行相關(guān)安全配置,保

證數(shù)據(jù)和集群的安全,Hadoop權(quán)限管理包括以下幾個(gè)模塊:

(1)用戶分組管理。用于按組為單位組織管理,某個(gè)用戶只能向固定分組中

提交作業(yè),只能使用固定分組中配置的資源;同時(shí)可以限制每個(gè)用戶提交的作業(yè)數(shù),

使用的資源量等。

(2)作業(yè)管理。包括作業(yè)提交權(quán)限控制,作業(yè)運(yùn)行狀態(tài)查看權(quán)限控制等。

帳號(hào)認(rèn)證和授權(quán)

帳號(hào)、認(rèn)證和授權(quán)作為4A體系的管理樞紐也是整個(gè)平臺(tái)的核心業(yè)務(wù)。帳號(hào)管理

用于在業(yè)務(wù)支撐環(huán)境中,集中維護(hù)包括主帳號(hào)(自然人)和從帳號(hào)(資源)在內(nèi)的

全部帳號(hào)以及和帳號(hào)相關(guān)的可在4A平臺(tái)中管理的帳號(hào)屬性。4A認(rèn)證管理的主要

目的是提供對資源訪問的統(tǒng)一安全認(rèn)證服務(wù),實(shí)現(xiàn)資源的認(rèn)證集中控制,保障資源

的訪問安全性。認(rèn)證管理具體實(shí)現(xiàn)內(nèi)容包括主帳號(hào)的認(rèn)證服務(wù)、應(yīng)用資源和系統(tǒng)資

源的從帳號(hào)單點(diǎn)登錄認(rèn)證服務(wù)。授權(quán)管理主要是指集中對用戶能夠在被管資源中行使

的權(quán)限進(jìn)行分配,實(shí)現(xiàn)用戶對資源的訪問控制。

功能大致包話詳細(xì)描述了帳號(hào)管理、認(rèn)證管理、授權(quán)管理、資源及配置管理、

繞行控制及管理流程。主要實(shí)現(xiàn)認(rèn)證、自助終端帳號(hào)管理、專用設(shè)備或系統(tǒng)接入帳

號(hào)管理和認(rèn)證、安全人員主帳號(hào)管理、智能終端接入認(rèn)證、角色級(jí)授權(quán)與細(xì)粒度授

權(quán)、虛擬資源管理、帳號(hào)和認(rèn)證安全性控制、資源接入流程等功能要求。

功能名稱功能描述

主帳號(hào)生命周期管理具備從現(xiàn)存帳號(hào)數(shù)據(jù)庫導(dǎo)入或映射業(yè)務(wù)支撐系統(tǒng)現(xiàn)存帳號(hào)的可

選功能

具備將4A平臺(tái)中的主帳號(hào)導(dǎo)出到外部帳號(hào)庫中的可選功能

16

主帳號(hào)類型按照人員崗位給主帳號(hào)合理分類,包括部門領(lǐng)導(dǎo)、室主任/主管、

應(yīng)用管理員、網(wǎng)絡(luò)管理員、系統(tǒng)管理員、數(shù)據(jù)庫管理員、安全管

理員、安全審計(jì)員、安全維護(hù)員等

安全人員主帳號(hào)類型標(biāo)識(shí)提供對安全人員主帳號(hào)的類型標(biāo)識(shí)、互斥校驗(yàn)。安全管理、安全

與互斥校驗(yàn)審計(jì)與安全維護(hù)的各工作崗位原則上要求“專人專崗”,同一崗

位可由多人擔(dān)任,在安全崗位人員設(shè)置時(shí)應(yīng)按照“職責(zé)互斥”的

原則,充分考慮到職責(zé)平衡和有效制約。安全審計(jì)員與系統(tǒng)管理

員分開設(shè)置。應(yīng)用系統(tǒng)管理員與數(shù)據(jù)庫管理員、主機(jī)管理員分開

設(shè)置。

虛擬資源帳號(hào)管理虛擬資源從帳號(hào)納入4A統(tǒng)一管理

4A同步帳號(hào)程序帳號(hào)管理范圍擴(kuò)充,增加4A同步帳號(hào)管理能力

從帳號(hào)自動(dòng)發(fā)現(xiàn)和收集在資源新接入或定期自動(dòng)從資源側(cè)發(fā)現(xiàn)、收集從帳號(hào)功能

從帳號(hào)自動(dòng)創(chuàng)建與綁定支持在基于電子流程完成從帳號(hào)申請、審批后自動(dòng)進(jìn)行從帳號(hào)創(chuàng)

建、主帳號(hào)綁定

應(yīng)用資源從帳號(hào)密碼禁止除自助終端帳號(hào)、應(yīng)用系統(tǒng)程序帳號(hào)外,其他已經(jīng)接入4A平臺(tái)

自修改的各種應(yīng)用資源不得開啟從帳號(hào)密碼自修改功能,必須通過4A

統(tǒng)一按照策略要求進(jìn)行密碼變更。

應(yīng)用資源從帳號(hào)變更時(shí)間4A平臺(tái)、應(yīng)用資源應(yīng)保持從帳號(hào)變更(創(chuàng)建、變更和刪除)的時(shí)

一致性間一致性,以4A的從帳號(hào)變更時(shí)間為準(zhǔn)記錄應(yīng)用系統(tǒng)的從帳號(hào)

變更日志。

程序帳號(hào)管理針對采用人工方式進(jìn)行修改密碼的情況,需要支持記錄變更日志

和提醒日志

可使用“程序帳號(hào)自動(dòng)管理”或“程序帳號(hào)指令通道”方案,實(shí)

現(xiàn)程序帳號(hào)的管理能力

自助終端帳號(hào)管理4A平臺(tái)應(yīng)支持對自助終端帳號(hào)的標(biāo)識(shí),并支持將自助終端帳號(hào)綁

定到責(zé)任人主帳號(hào)。自助終端上產(chǎn)生的登錄鑒權(quán)、業(yè)務(wù)辦理等日

志應(yīng)發(fā)送給4A平臺(tái)進(jìn)行統(tǒng)一審計(jì)?,并由4A平臺(tái)進(jìn)行主帳號(hào)補(bǔ)全。

17

特權(quán)帳號(hào)密碼自管4A平臺(tái)應(yīng)提供特權(quán)帳號(hào)密碼自管功能,即特權(quán)帳號(hào)密碼由管理人

員自己進(jìn)行變更維護(hù)。該方式下4A平臺(tái)不對特權(quán)帳號(hào)的密碼進(jìn)

行定期自動(dòng)變更,但是需要支持過期提醒。

特權(quán)帳號(hào)密碼托管在4A平臺(tái)上實(shí)現(xiàn)特權(quán)帳號(hào)密碼的自動(dòng)修改功能

專用設(shè)備或系統(tǒng)帳號(hào)管理針對中間件、系統(tǒng)流量審計(jì)、應(yīng)用安全流量審計(jì)、抗DDoS、IDS、

IPS、防繞行設(shè)備、配置基線、漏洞掃描、終端管理、防病毒、

DLP等專用系統(tǒng)或設(shè)備,應(yīng)納入4A進(jìn)行帳號(hào)管理。

帳號(hào)弱密碼稽核弱密碼字典管理:包括對弱密碼字典進(jìn)行添加、刪除、查詢等,

應(yīng)支持根據(jù)實(shí)際檢測需要進(jìn)行定期更新

弱密碼分析與稽核功能:4A平臺(tái)應(yīng)支持基于4A同步帳號(hào)和標(biāo)準(zhǔn)

協(xié)議接口(如SSH、Telnet)獲得未直接修改密碼的系統(tǒng)從帳號(hào)密

碼密文(如shadow文件),并根據(jù)弱密碼字典進(jìn)行弱密碼稽核

分析,以發(fā)現(xiàn)存在的發(fā)現(xiàn)弱密碼帳號(hào)

弱密碼稽核報(bào)表或視圖:4A平臺(tái)應(yīng)能根據(jù)弱密碼稽核結(jié)果提供在

線查詢和稽核報(bào)表導(dǎo)出功能

配合SMP帳號(hào)弱密碼展現(xiàn):4A平臺(tái)應(yīng)支持發(fā)送弱密碼稽核結(jié)果給

SMP平臺(tái),提供展示弱密碼稽核結(jié)果

孤立帳號(hào)稽核4A平臺(tái)應(yīng)支持定期稽核接入資源孤立帳號(hào)數(shù)量,并對孤立帳號(hào)所

屬應(yīng)用系統(tǒng)、資源信息、孤立帳號(hào)個(gè)數(shù)進(jìn)行記錄,并提供展示界

面支持

未經(jīng)審批私自開通的帳號(hào)4A平臺(tái)應(yīng)支持定期稽核接入資源從帳號(hào)未經(jīng)審批私自開通數(shù)量,

稽核并對該數(shù)量進(jìn)行記錄,并提供展示界面支持“未經(jīng)審批私自開通

的帳號(hào)數(shù)量占比”詳細(xì)信息時(shí)回調(diào)查看

主從帳號(hào)使用率稽核4A平臺(tái)應(yīng)支持定期稽核主從帳號(hào)的使用率,并對該數(shù)量進(jìn)行統(tǒng)一

記錄,并提供展示界面視圖支持查看“主帳號(hào)使用率”或“從帳

號(hào)使用率”的詳細(xì)信息時(shí)回調(diào)杳看.

主從帳號(hào)共享控制4A平臺(tái)應(yīng)支持同一主帳號(hào)在不同終端同時(shí)在線的登錄提醒功能,

并主持iP錄同時(shí)在線音錄R走.

18

4A平臺(tái)應(yīng)支持主帳號(hào)登錄與終端綁定的可選功能,同一主帳號(hào)只

允許在固定的PC終端(IP或MAC上進(jìn)行4A平臺(tái)的登錄訪問

應(yīng)用互訪接入認(rèn)證4A平臺(tái)應(yīng)提供被管應(yīng)用資源之間互相訪問的集中認(rèn)證功能。4A

平臺(tái)為應(yīng)用互訪提供接入認(rèn)證服務(wù)的前提是被嵌套訪問的應(yīng)用

資源接入到了4A平臺(tái),并且歸屬于不同一業(yè)務(wù)支撐應(yīng)用系統(tǒng)帳號(hào)

體系。

認(rèn)證安全控制措施登錄信息及身份憑證應(yīng)加密后傳輸。合理設(shè)置會(huì)話存活時(shí)間,超

過該時(shí)間后銷毀會(huì)話,清除會(huì)話的信息。

帳號(hào)異常登錄稽核4A平臺(tái)應(yīng)支持定期稽核主帳號(hào)異常登錄數(shù)量,并對該數(shù)量進(jìn)行記

錄,并提供展示界面支持查看“帳號(hào)異常登錄(多非工作時(shí)

間段、異地)占比”詳細(xì)信息時(shí)回調(diào)查看

敏感數(shù)據(jù)導(dǎo)出審批率稽核4A平臺(tái)應(yīng)支持定期稽核敏感數(shù)據(jù)導(dǎo)出操作與審批的不一致數(shù)量,

并對該數(shù)量進(jìn)行統(tǒng)一記錄,并提供展示界面視圖支持查看“敏感

數(shù)據(jù)導(dǎo)出審批率”詳細(xì)信息時(shí)回調(diào)查看

授權(quán)管理4A平臺(tái)必須至少實(shí)現(xiàn)對三大主要應(yīng)用系統(tǒng)和平臺(tái)的實(shí)體級(jí)、角色

級(jí)兩種授權(quán)方式,并且必須實(shí)現(xiàn)平臺(tái)細(xì)粒度授權(quán);

角色變更時(shí)間一致性4A平臺(tái)、應(yīng)用資源應(yīng)保持角色變更(創(chuàng)建、變更和刪除)的時(shí)間

一致性,以4A平臺(tái)的角色變更時(shí)間為準(zhǔn)記錄應(yīng)用系統(tǒng)的角色變

更日志。

角色級(jí)授權(quán)時(shí)間一致性4A平臺(tái)、應(yīng)用資源應(yīng)保持角色級(jí)授權(quán)的時(shí)間一致性,以4A平臺(tái)

的角色級(jí)授權(quán)時(shí)間為準(zhǔn)記錄應(yīng)用系統(tǒng)的角色級(jí)授權(quán)日志。

細(xì)粒度授權(quán)時(shí)間一致性4A平臺(tái)、應(yīng)用資源應(yīng)保持細(xì)粒度授權(quán)的時(shí)間一致性,以4A平臺(tái)

的細(xì)粒度授權(quán)時(shí)間為準(zhǔn)記錄應(yīng)用系統(tǒng)的細(xì)粒度授權(quán)日志。

資源接入流程面向用戶帳號(hào)權(quán)限管理的流程系統(tǒng)應(yīng)能覆蓋所有人員的申請、審

批等管理過程,提供易用、可用的申請審批功能

實(shí)現(xiàn)由資源管理員進(jìn)行流程的發(fā)起,發(fā)起時(shí)填寫資源基礎(chǔ)信息,

由資源管理員所在部門主管領(lǐng)導(dǎo)以及4A安全管理員進(jìn)行審批,

審批通過后,4A平臺(tái)自動(dòng)或人工接入該資源,并針對資源管理員

發(fā)更流程時(shí)填寫的浴源信息自行收集從帳號(hào).

19

安全機(jī)制

采用密碼技術(shù)和網(wǎng)絡(luò)防御技術(shù)來提升Hadoop的安全性能

0)基于公鑰體制的身份認(rèn)證:針對KDC瓶頸問題,文中放棄采用基于

Kerberos的對稱密碼加密的身份認(rèn)證方式,轉(zhuǎn)而采用基于PKI的身份認(rèn)證機(jī)制。

認(rèn)證過程分為兩步:首先,CA核實(shí)申請者身份并為各個(gè)合法節(jié)點(diǎn)頒發(fā)數(shù)字證書;

然后,示證方向驗(yàn)證方發(fā)送數(shù)字證書,驗(yàn)證身份。在基于公鑰密碼體制的身份認(rèn)證

方案中,節(jié)點(diǎn)一旦獲得CA頒發(fā)的數(shù)字證書,在隨后向服務(wù)器申請身份認(rèn)證的過程將

不會(huì)有PKI管理實(shí)體的參與。這樣便避免了在面對大業(yè)務(wù)量時(shí)系統(tǒng)瓶頸的問題。

。網(wǎng)絡(luò)防御預(yù)防單點(diǎn)失效:Hadoop所采用的對主服務(wù)器Master備份的

做法,只能解決Master的普通故障問題,不能應(yīng)對來自網(wǎng)絡(luò)的惡意攻擊。為了保

證Master服務(wù)器以及整個(gè)系統(tǒng)的安全,需要加強(qiáng)網(wǎng)絡(luò)的防御措施,使其免遭病毒、

木馬以及拒絕服務(wù)等來自網(wǎng)絡(luò)的攻擊。應(yīng)該對Hadoop中的服務(wù)器設(shè)置訪問控制、

對操作系統(tǒng)進(jìn)行安全配置、安裝防火墻和殺毒軟件、及時(shí)修補(bǔ)安全漏洞并啟動(dòng)入侵

檢測實(shí)時(shí)監(jiān)測服務(wù)器的TCP連接和數(shù)據(jù)流量。對于某些安全需求高的私有云,還

可以采取物理隔離的方式,最大限度減少被攻擊的可能。

0傳輸加密:采用數(shù)字信封的技術(shù)對將要傳輸?shù)臄?shù)據(jù)進(jìn)行加密,并增加相

應(yīng)的密碼設(shè)備或模塊實(shí)現(xiàn)算法的硬件加密,在該過程中將使用到公私鑰密碼對和會(huì)

話密鑰。使用會(huì)話密鑰對傳輸數(shù)據(jù)進(jìn)行對稱加密,保證了加解密的速度,降低了系

統(tǒng)的消耗。使用公私鑰密碼對加密保護(hù)會(huì)話密鑰,保證了會(huì)話密鑰的機(jī)密性,同時(shí)

也解決了對稱加密中龐大的密鑰管理問題。

@存儲(chǔ)加密:在數(shù)據(jù)中心采用密碼算法對數(shù)據(jù)加以保護(hù),并通過密鑰管理、

算法參數(shù)管理、強(qiáng)認(rèn)證等密碼技術(shù)保證特殊用戶所使用的資源僅受其自身管理。

安全體系架構(gòu)

20

21

4A安全體系

面對復(fù)雜的大數(shù)據(jù)安全環(huán)境,需要從四個(gè)層面綜合考慮以建立全方位的大數(shù)據(jù)

安全體系:邊界安全、訪問控制和授權(quán)、數(shù)據(jù)保護(hù)、審計(jì)和監(jiān)控。

?邊界安全:主要包含網(wǎng)絡(luò)安全和身份認(rèn)證。防護(hù)對系統(tǒng)及其數(shù)據(jù)和服務(wù)的訪

問,身份認(rèn)證確保用戶的真實(shí)性及有效性。Hadoop及其生態(tài)系統(tǒng)中的其它組件都

支持使用Kerberos進(jìn)行用戶身份驗(yàn)證。

?訪問控制和授權(quán):通過對用戶的授權(quán)實(shí)現(xiàn)對數(shù)據(jù)、資源和服務(wù)的訪問管理及權(quán)

限控制。Hadoop和HBase都支持ACL同時(shí)也實(shí)現(xiàn)了RBAC(基于角色的訪問控

制)模型,更細(xì)粒度的ABAC(AttibuteBasedAccessControl)在HBase較新的

版本中也可通過訪問控制標(biāo)簽和可見性標(biāo)簽的形式實(shí)現(xiàn)。

?數(shù)據(jù)保護(hù):通過數(shù)據(jù)加密和脫敏兩種主要方式從數(shù)據(jù)層面保護(hù)敏感信息不被泄

露。數(shù)據(jù)加密包括在傳輸過程中的加密和存儲(chǔ)加密。傳輸過程中的加密依賴于網(wǎng)

絡(luò)安全協(xié)議而存儲(chǔ)加密可通過相關(guān)加密算法和密鑰對數(shù)據(jù)進(jìn)行加密存儲(chǔ)。數(shù)據(jù)脫敏

是比加密較為折中的辦法,對于大數(shù)據(jù)時(shí)代,該方法將更被更為廣泛的采用。因?yàn)?/p>

收集的海量數(shù)據(jù)需要相對開放的共享給內(nèi)部不同團(tuán)隊(duì)或外部機(jī)構(gòu)使用,才能發(fā)揮大

數(shù)據(jù)的價(jià)值。對于敏感信息部分可通過脫敏的方式進(jìn)行處理以保障信息安全。

?審計(jì)和監(jiān)控:實(shí)時(shí)地監(jiān)控和審計(jì)可管理數(shù)據(jù)安全合規(guī)性和安全回溯、安全取

證等。

22

基于以上四層的安全體系,結(jié)合大數(shù)據(jù)平臺(tái)的特性,企業(yè)在實(shí)踐大數(shù)據(jù)平臺(tái)安

全化時(shí),需要有更詳細(xì)的架構(gòu)設(shè)計(jì),四層安全體系對應(yīng)在實(shí)際環(huán)境中,應(yīng)是以數(shù)據(jù)

為中心,建立完善的管理制度,先治理好大數(shù)據(jù),再從訪問控制和數(shù)據(jù)保護(hù)層面加

強(qiáng)對數(shù)據(jù)使用的安全防護(hù),最后從網(wǎng)絡(luò)和基礎(chǔ)層加固平臺(tái)的安全部署。因此,大數(shù)

據(jù)安全框架需包含以下5個(gè)核心模塊:數(shù)據(jù)管理、身份和訪問管理、數(shù)據(jù)保護(hù)、網(wǎng)絡(luò)

安全、基礎(chǔ)安全。

(-)數(shù)據(jù)管理

企業(yè)實(shí)施數(shù)據(jù)安全的首要任務(wù)是先管理好數(shù)據(jù),根據(jù)業(yè)務(wù)要求、合規(guī)性、安全

策略及數(shù)據(jù)的敏感性,關(guān)鍵性和關(guān)聯(lián)風(fēng)險(xiǎn)對數(shù)據(jù)進(jìn)行分類分級(jí)管理,有助于對數(shù)據(jù)

保護(hù)的基準(zhǔn)安全控制做出合理的決策。從大數(shù)據(jù)特性層面對數(shù)據(jù)進(jìn)行標(biāo)記(例如分

析類型、處理方式、數(shù)據(jù)時(shí)效性、數(shù)據(jù)類型、數(shù)據(jù)格式、數(shù)據(jù)源等維度),就知道

數(shù)據(jù)是如何進(jìn)出大數(shù)據(jù)平臺(tái),將會(huì)被如何使用,會(huì)被誰使用,數(shù)據(jù)是如何存儲(chǔ)的等

等,這些都有助于數(shù)據(jù)發(fā)現(xiàn)的管理和對數(shù)據(jù)訪問控制制定相應(yīng)的策略。最后,如果

缺乏掌握敏感數(shù)據(jù)在大數(shù)據(jù)平臺(tái)中存在于哪里的意識(shí),這將無疑是把數(shù)據(jù)暴露于風(fēng)

險(xiǎn)之下。所以,掌握敏感數(shù)據(jù)在大數(shù)據(jù)平臺(tái)中分布情況,并能自動(dòng)地增量式地發(fā)現(xiàn)找

到敏感數(shù)據(jù),并監(jiān)控其使用情況,是否受到保護(hù)是能否做到全面保護(hù)數(shù)據(jù)安全的關(guān)鍵。

(二)身份認(rèn)證和訪問控制

身份認(rèn)證是防護(hù)數(shù)據(jù)安全的第一道關(guān)卡,通過身份認(rèn)證確保訪問大數(shù)據(jù)平臺(tái)中

的數(shù)據(jù)、資源和服務(wù)的用戶是安全的,大數(shù)據(jù)生態(tài)系統(tǒng)中從Hadoop到HBase、Hive、

Pig、Impala、Spark等幾乎都支持利用Kerberos進(jìn)行身份認(rèn)證。Kerberos也可以

和企業(yè)的AD/LDAP結(jié)合以快速建立密鑰分發(fā)中心,而無需大數(shù)據(jù)平臺(tái)用戶重新建立

用戶組、角色和密鑰等。用戶通過身份認(rèn)證后可獲得訪問大數(shù)據(jù)平臺(tái)的資格,為進(jìn)

一步控制用戶對資源的訪問權(quán)限,需要通過授權(quán)機(jī)制來管理不同用戶對不同資源的訪

問許可。Hadoop和HBase及其它組件都在一定程度上支持對訪問的控制,RBAC

和ABAC是兩個(gè)不同粒度的訪問控制模型,前者是基于角色來進(jìn)行訪問控制,后者

是更為細(xì)粒度的控制,可控制到被訪問對象的字段級(jí)別。在制定訪問控制策略時(shí),

應(yīng)依據(jù)合規(guī)要求,結(jié)合敏感數(shù)據(jù)保護(hù)策略、數(shù)據(jù)使用場景等針對不同數(shù)據(jù)、不同業(yè)

務(wù)需求制定相應(yīng)的訪問限制規(guī)則,高效利用數(shù)據(jù),發(fā)揮大數(shù)據(jù)價(jià)值是企業(yè)的最終目

22

的。

(三)數(shù)據(jù)保護(hù)

如果說身份認(rèn)證、授權(quán)和訪問控制是確保了對數(shù)據(jù)訪問的對象的防護(hù)和控制,

數(shù)據(jù)保護(hù)技術(shù)則是從根源層保護(hù)信息安全的最重要和最有效的手段。通過數(shù)據(jù)保護(hù)

技術(shù),對大數(shù)據(jù)的開放共享、發(fā)布、最大化利用等都會(huì)有著最直接的積極作用。數(shù)

據(jù)保護(hù)技術(shù)的作用不僅局限于企業(yè)內(nèi)部,它是確保整個(gè)大數(shù)據(jù)產(chǎn)業(yè)快速發(fā)展的最重

要保證。數(shù)據(jù)保護(hù)技術(shù)通過對數(shù)據(jù)利用脫敏、失真、匿名化限制發(fā)布等技術(shù)處理后,

可讓處理后的數(shù)據(jù)到達(dá)安全交易、開放共享的目的。而對于企業(yè)內(nèi)部,針對脫敏后

的數(shù)據(jù),不需再設(shè)定復(fù)雜的訪問控制限制,可讓更多的分析應(yīng)用更高效地實(shí)施并優(yōu)

化開發(fā)項(xiàng)目,讓大數(shù)據(jù)得到更充分的利用同時(shí),也確保遵從行業(yè)/監(jiān)管數(shù)據(jù)隱私法

令和法規(guī)。

(四)網(wǎng)絡(luò)安全

大數(shù)據(jù)的網(wǎng)絡(luò)安全通常是指通過客戶端訪問大數(shù)據(jù)平臺(tái)的連接和大數(shù)據(jù)平臺(tái)

中服務(wù)器節(jié)點(diǎn)之間的網(wǎng)絡(luò)通信安全。為保證數(shù)據(jù)在傳輸過程中的安全性,節(jié)點(diǎn)之間

及客戶端與服務(wù)器之間的通信都需要進(jìn)行加密,不同的通信使用不同的加密方式,

Hadoop平臺(tái)支持RPC加密,HDFS數(shù)據(jù)傳輸加密和HTTP通信的加密。除了對網(wǎng)絡(luò)通

信進(jìn)行加密設(shè)置,還可通過使用網(wǎng)關(guān)服務(wù)器隔離客戶端與大數(shù)據(jù)平臺(tái)的直接訪問來進(jìn)

一步升級(jí)網(wǎng)絡(luò)安全。網(wǎng)關(guān)服務(wù)器部署在大數(shù)據(jù)平臺(tái)和企業(yè)用戶網(wǎng)絡(luò)域之間,用戶

通過登錄網(wǎng)關(guān)服務(wù)器來驗(yàn)證身份,并由網(wǎng)關(guān)服務(wù)代理用戶對大數(shù)據(jù)平臺(tái)的訪問,同

時(shí),該服務(wù)器還可用來提供訪問控制、策略管理。用戶通過登錄到網(wǎng)關(guān)服務(wù)器來執(zhí)

行對大數(shù)據(jù)平臺(tái)的操作,所有的客戶端包括Hive,Pig,Oozie等都可安裝在這臺(tái)

網(wǎng)關(guān)服務(wù)器上,這樣用戶就不必登錄到大數(shù)據(jù)平臺(tái)中的服務(wù)器節(jié)點(diǎn),從而保護(hù)大數(shù)

據(jù)平臺(tái)不會(huì)受到非法訪問。

(五)基礎(chǔ)安全

前面我們談到了通過各種方式來保證大數(shù)據(jù)平臺(tái)和安全性,包括身份認(rèn)證、授

權(quán)、訪問控制、數(shù)據(jù)保護(hù)及網(wǎng)絡(luò)通信安全。但大數(shù)據(jù)平臺(tái)仍然有可能會(huì)受到非法訪問

和特權(quán)用戶的訪問。為確保合規(guī)性的需要,我們需要對大數(shù)據(jù)平臺(tái)的一切活動(dòng)進(jìn)行審

計(jì)和監(jiān)控并生成告警信息,也即是安全事故和事件監(jiān)控(SIEM)系統(tǒng)。SIEM系

統(tǒng)負(fù)責(zé)對大數(shù)據(jù)平臺(tái)中任何可疑的活動(dòng)進(jìn)行收集,監(jiān)控,分析和生成各種安全報(bào)告。

23

以下是大數(shù)據(jù)平臺(tái)中需要被監(jiān)控的事件以用來分析識(shí)別安全事件:用戶登錄和身份

驗(yàn)證事件、HDFS操作、授權(quán)錯(cuò)誤、敏感數(shù)據(jù)操作、MapReduce任務(wù)、通過各種客戶

端的訪問如Oozie,HUE等以及異常事件。只有全面的收集在大數(shù)據(jù)平臺(tái)中的一切活

動(dòng),才有機(jī)會(huì)捕捉可能會(huì)發(fā)生的安全事故及進(jìn)行事后分析時(shí)有機(jī)會(huì)進(jìn)行回溯分析,追

蹤事故根源。

,一體化運(yùn)維監(jiān)控系統(tǒng)

一體化運(yùn)維監(jiān)控系統(tǒng),系統(tǒng)管理員可快捷直觀地一鍵式自動(dòng)化安裝部署整個(gè)系

統(tǒng)所有的主機(jī)、服務(wù)、節(jié)點(diǎn)組件,及它們的配置、管理、監(jiān)控整個(gè)系統(tǒng)的資源,包

括:

?一鍵式自動(dòng)化安裝部署整個(gè)系統(tǒng)

在一體化運(yùn)維平臺(tái)上,提供安裝向?qū)?,可以一鍵安裝部署的所有主機(jī)、服

務(wù)、節(jié)點(diǎn)組件的安裝、刪除。

?管理集群系統(tǒng)

為集群中所有主機(jī)、服務(wù)、節(jié)點(diǎn)提供集中啟、停、及重新配置、升級(jí)、安

裝、刪除等運(yùn)維管理。

?監(jiān)控集群系統(tǒng)

提供基于儀表盤的集群性能與狀態(tài)集中監(jiān)控。

采集集群性能參數(shù)值并以圖形化方式呈現(xiàn)。

提供主機(jī)、服務(wù)組件、子系統(tǒng)的實(shí)時(shí)告警。

一鍵式自動(dòng)化安裝部署

大數(shù)據(jù)處理系統(tǒng)主要基于Hadoop實(shí)現(xiàn),由于Hadoop是由運(yùn)行在物理集群

上龐大的服務(wù)組件構(gòu)成,從廣義上來說,Hadoop是一個(gè)生態(tài)系統(tǒng),而不是各

個(gè)技術(shù)的簡單堆疊,如果采用手工命令行進(jìn)行安裝部署的方式,不但費(fèi)時(shí)費(fèi)力

不可靠,而且需要安裝部署人員有很強(qiáng)的HADOO安裝知識(shí)。

而一鍵式自動(dòng)化安裝部署,安裝部署人員可以傻瓜式的、僅需按菜單導(dǎo)航

就可以很快速完成安裝。

主要功能如下:

①)Hadoop組件:通過菜單導(dǎo)航對Hadoop組件進(jìn)行新增、刪除

24

0)主機(jī):通過菜單導(dǎo)航對主機(jī)進(jìn)行新增、刪除

0子系統(tǒng):通過菜單導(dǎo)航對所有子系統(tǒng)或所屬服務(wù)進(jìn)行新增、刪除

管理集群系統(tǒng)

主要提供主機(jī)、節(jié)點(diǎn)、服務(wù)的管理

1、服務(wù)生命周期管理

服務(wù)生命周期管理主要是對服務(wù)的部署、啟動(dòng)、停止、卸載、刪除進(jìn)行管

理,主要通過運(yùn)維平臺(tái)的服務(wù)界面完成。

服務(wù)注冊和刪除,是對服務(wù)的基本信息,如服務(wù)部署策略,環(huán)境變量,依

賴服務(wù)等進(jìn)行保存和刪除

服務(wù)部署,管理器(master)根據(jù)服務(wù)的部署策略,創(chuàng)建服務(wù)實(shí)例,并向所

選節(jié)點(diǎn)發(fā)送部署命令,由節(jié)點(diǎn)部署。

服務(wù)啟動(dòng),管理器(master)向服務(wù)所在節(jié)點(diǎn)發(fā)送啟動(dòng)命令,由各個(gè)節(jié)點(diǎn)啟

動(dòng)服務(wù)。

服務(wù)停止,管理器(master)向服務(wù)所在選節(jié)點(diǎn)發(fā)送停止命令,由各個(gè)節(jié)點(diǎn)

停止服務(wù)。

服務(wù)卸載,管理器(master)向服務(wù)所在選節(jié)點(diǎn)發(fā)送卸載命令,由各個(gè)節(jié)點(diǎn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論