企業(yè)大數(shù)據(jù)平臺建設(shè)方案_第1頁
企業(yè)大數(shù)據(jù)平臺建設(shè)方案_第2頁
企業(yè)大數(shù)據(jù)平臺建設(shè)方案_第3頁
企業(yè)大數(shù)據(jù)平臺建設(shè)方案_第4頁
企業(yè)大數(shù)據(jù)平臺建設(shè)方案_第5頁
已閱讀5頁,還剩64頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、PAGE PAGE 59企業(yè)大數(shù)據(jù)平臺建設(shè)方案目錄 TOC o 1-3 h z u HYPERLINK l _Toc528762939 1 大數(shù)據(jù)平臺建設(shè)方案 PAGEREF _Toc528762939 h 5 HYPERLINK l _Toc528762940 1.1 大數(shù)據(jù)服務(wù)工程平臺架構(gòu) PAGEREF _Toc528762940 h 5 HYPERLINK l _Toc528762941 1.2 信息資源共享服務(wù)平臺建設(shè)原則 PAGEREF _Toc528762941 h 8 HYPERLINK l _Toc528762942 1.3 數(shù)據(jù)快速匯集 PAGEREF _Toc528762

2、942 h 9 HYPERLINK l _Toc528762943 1.3.1 數(shù)據(jù)資源分析 PAGEREF _Toc528762943 h 9 HYPERLINK l _Toc528762944 1.3.2 數(shù)據(jù)整合流程節(jié)點(diǎn) PAGEREF _Toc528762944 h 10 HYPERLINK l _Toc528762945 1.3.3 技術(shù)路線 PAGEREF _Toc528762945 h 10 HYPERLINK l _Toc528762946 1.4 數(shù)據(jù)混合存儲 PAGEREF _Toc528762946 h 11 HYPERLINK l _Toc528762947 1.4.1

3、 結(jié)構(gòu)化并行數(shù)據(jù)庫 PAGEREF _Toc528762947 h 12 HYPERLINK l _Toc528762948 1.4.2 統(tǒng)一大數(shù)據(jù)處理平臺 PAGEREF _Toc528762948 h 29 HYPERLINK l _Toc528762949 1.4.3 大數(shù)據(jù)管理平臺功能 PAGEREF _Toc528762949 h 34 HYPERLINK l _Toc528762950 1.5 數(shù)據(jù)多維管理 PAGEREF _Toc528762950 h 38 HYPERLINK l _Toc528762951 1.5.1 元數(shù)據(jù)管理 PAGEREF _Toc528762951 h

4、 38 HYPERLINK l _Toc528762952 1.5.2 數(shù)據(jù)資源庫管理 PAGEREF _Toc528762952 h 39 HYPERLINK l _Toc528762953 1.5.3 數(shù)據(jù)預(yù)加工管理 PAGEREF _Toc528762953 h 40 HYPERLINK l _Toc528762954 1.5.4 數(shù)據(jù)質(zhì)量管理 PAGEREF _Toc528762954 h 40 HYPERLINK l _Toc528762955 1.5.5 數(shù)據(jù)生命周期管理 PAGEREF _Toc528762955 h 42 HYPERLINK l _Toc528762956 1.

5、5.6 數(shù)據(jù)處理過程管理監(jiān)控 PAGEREF _Toc528762956 h 42 HYPERLINK l _Toc528762957 1.6 通用數(shù)據(jù)分析模型 PAGEREF _Toc528762957 h 43 HYPERLINK l _Toc528762958 1.6.1 綜合查詢 PAGEREF _Toc528762958 h 43 HYPERLINK l _Toc528762959 1.6.2 分類統(tǒng)計(jì)、排序 PAGEREF _Toc528762959 h 43 HYPERLINK l _Toc528762960 1.6.3 數(shù)據(jù)比對 PAGEREF _Toc528762960 h

6、44 HYPERLINK l _Toc528762961 1.6.4 活動軌跡PGIS應(yīng)用 PAGEREF _Toc528762961 h 44 HYPERLINK l _Toc528762962 1.6.5 智能報(bào)警 PAGEREF _Toc528762962 h 45 HYPERLINK l _Toc528762963 1.7 數(shù)據(jù)資源共享服務(wù)平臺門戶 PAGEREF _Toc528762963 h 45 HYPERLINK l _Toc528762964 1.7.1 平臺門戶功能 PAGEREF _Toc528762964 h 45 HYPERLINK l _Toc528762965 1

7、.7.2 界面設(shè)計(jì)原則 PAGEREF _Toc528762965 h 46 HYPERLINK l _Toc528762966 1.8 管理體系建設(shè) PAGEREF _Toc528762966 h 47 HYPERLINK l _Toc528762967 1.8.1 數(shù)據(jù)資源管理系統(tǒng) PAGEREF _Toc528762967 h 47 HYPERLINK l _Toc528762968 1.8.2 授權(quán)管理 PAGEREF _Toc528762968 h 47 HYPERLINK l _Toc528762969 1.8.3 日志管理 PAGEREF _Toc528762969 h 47 H

8、YPERLINK l _Toc528762970 1.8.4 運(yùn)行監(jiān)控 PAGEREF _Toc528762970 h 48 HYPERLINK l _Toc528762971 2 項(xiàng)目實(shí)施與管理 PAGEREF _Toc528762971 h 48 HYPERLINK l _Toc528762972 2.1 實(shí)施計(jì)劃 PAGEREF _Toc528762972 h 48 HYPERLINK l _Toc528762973 2.2 實(shí)施周期 PAGEREF _Toc528762973 h 49 HYPERLINK l _Toc528762974 2.3 項(xiàng)目建設(shè)機(jī)構(gòu) PAGEREF _Toc5

9、28762974 h 50 HYPERLINK l _Toc528762975 2.4 人員配置 PAGEREF _Toc528762975 h 51 HYPERLINK l _Toc528762976 2.5 項(xiàng)目溝通 PAGEREF _Toc528762976 h 52 HYPERLINK l _Toc528762977 2.6 項(xiàng)目文檔管理 PAGEREF _Toc528762977 h 52 HYPERLINK l _Toc528762978 3 應(yīng)急處置預(yù)案服務(wù) PAGEREF _Toc528762978 h 53 HYPERLINK l _Toc528762979 3.1 系統(tǒng)故障

10、應(yīng)急流程說明 PAGEREF _Toc528762979 h 53 HYPERLINK l _Toc528762980 3.2 數(shù)據(jù)中心機(jī)房應(yīng)急服務(wù) PAGEREF _Toc528762980 h 55 HYPERLINK l _Toc528762981 3.2.1 機(jī)房漏水應(yīng)急預(yù)案 PAGEREF _Toc528762981 h 55 HYPERLINK l _Toc528762982 3.2.2 設(shè)備發(fā)生被盜或人為損害事件應(yīng)急預(yù)案 PAGEREF _Toc528762982 h 56 HYPERLINK l _Toc528762983 3.2.3 機(jī)房長時間停電應(yīng)急預(yù)案 PAGEREF _

11、Toc528762983 h 56 HYPERLINK l _Toc528762984 3.2.4 通信網(wǎng)絡(luò)故障應(yīng)急預(yù)案 PAGEREF _Toc528762984 h 57 HYPERLINK l _Toc528762985 3.2.5 不良信息和網(wǎng)絡(luò)病毒事件應(yīng)急預(yù)案 PAGEREF _Toc528762985 h 57 HYPERLINK l _Toc528762986 3.2.6 黑客攻擊事件應(yīng)急預(yù)案 PAGEREF _Toc528762986 h 59 HYPERLINK l _Toc528762987 3.2.7 服務(wù)器軟件系統(tǒng)故障應(yīng)急預(yù)案 PAGEREF _Toc528762987

12、 h 59 HYPERLINK l _Toc528762988 3.2.8 核心設(shè)備硬件故障應(yīng)急預(yù)案 PAGEREF _Toc528762988 h 60 HYPERLINK l _Toc528762989 3.2.9 業(yè)務(wù)數(shù)據(jù)損壞應(yīng)急預(yù)案 PAGEREF _Toc528762989 h 60 HYPERLINK l _Toc528762990 3.2.10 雷擊事故應(yīng)急預(yù)案 PAGEREF _Toc528762990 h 61 HYPERLINK l _Toc528762991 3.3 系統(tǒng)應(yīng)急預(yù)案處置保障 PAGEREF _Toc528762991 h 62 HYPERLINK l _To

13、c528762992 3.3.1 應(yīng)急預(yù)案啟動原則 PAGEREF _Toc528762992 h 62 HYPERLINK l _Toc528762993 3.3.2 應(yīng)急預(yù)案指揮原則 PAGEREF _Toc528762993 h 62 HYPERLINK l _Toc528762994 3.3.3 應(yīng)急保障措施 PAGEREF _Toc528762994 h 62 HYPERLINK l _Toc528762995 4 售后服務(wù)方案 PAGEREF _Toc528762995 h 63 HYPERLINK l _Toc528762996 4.1 售后服務(wù)期限 PAGEREF _Toc52

14、8762996 h 63 HYPERLINK l _Toc528762997 4.2 售后服務(wù)內(nèi)容 PAGEREF _Toc528762997 h 64 HYPERLINK l _Toc528762998 4.3 響應(yīng)時間 PAGEREF _Toc528762998 h 64 HYPERLINK l _Toc528762999 4.4 服務(wù)體系 PAGEREF _Toc528762999 h 64 HYPERLINK l _Toc528763000 4.4.1 支持服務(wù) PAGEREF _Toc528763000 h 64 HYPERLINK l _Toc528763001 4.4.2 咨詢服

15、務(wù) PAGEREF _Toc528763001 h 65 HYPERLINK l _Toc528763002 4.4.3 部署服務(wù) PAGEREF _Toc528763002 h 66 HYPERLINK l _Toc528763003 4.4.4 故障排除服務(wù) PAGEREF _Toc528763003 h 67大數(shù)據(jù)平臺建設(shè)方案大數(shù)據(jù)服務(wù)工程平臺架構(gòu)園區(qū)信息化進(jìn)入“大整合、高共享、深應(yīng)用”階段后,數(shù)據(jù)種類不斷豐富、總量急速增長、結(jié)構(gòu)不斷異化,大數(shù)據(jù)體系已見形成,基于大數(shù)據(jù)特征構(gòu)建園區(qū)信息化數(shù)據(jù)中心總體架構(gòu)及信息資源服務(wù)平臺結(jié)構(gòu),是云計(jì)算、大數(shù)據(jù)技術(shù)在園區(qū)信息化建設(shè)中落地與深化應(yīng)用的新課題.

16、區(qū)別于商業(yè)大數(shù)據(jù)的政務(wù)大數(shù)據(jù)特征:目前在商業(yè)上,特別是針對互聯(lián)網(wǎng)的商業(yè)領(lǐng)域,對“大數(shù)據(jù)”(Big Data)已經(jīng)有了一個比較清晰的定義,它一般是指“無法用現(xiàn)有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復(fù)雜的數(shù)據(jù)集合?!蓖ǔS脭?shù)據(jù)體量巨大(Volume)、數(shù)據(jù)類型繁多(Variety)、價值密度低(Value)以及處理速度快(Velocity)4個V來概括大數(shù)據(jù)的特征。當(dāng)前智慧環(huán)保產(chǎn)業(yè)園區(qū)大數(shù)據(jù)服務(wù)工程面臨的“大數(shù)據(jù)”現(xiàn)狀顯然無法直接套用上述商業(yè)領(lǐng)域的定義。智慧環(huán)保產(chǎn)業(yè)園區(qū)是一個以政府部門(管理委員會)為主導(dǎo),融合各種服務(wù)與管理部門,對園區(qū)企業(yè)進(jìn)行管理,提供服務(wù)的場所。政府部門在體系

17、中掌握主導(dǎo)權(quán)并擁有眾多數(shù)據(jù),但在工程建設(shè)過程中必須尊重企業(yè)的信息安全和商業(yè)機(jī)密保護(hù),整體建設(shè)程序一個復(fù)雜的態(tài)勢,從信息資源角度看,智慧環(huán)保產(chǎn)業(yè)園區(qū)大數(shù)據(jù)服務(wù)工程的“大數(shù)據(jù)”有如下三個顯著特征:(1)企業(yè)數(shù)據(jù)資源相對私有,僅可提供對政府開放。商業(yè)上“大數(shù)據(jù)”一個特點(diǎn)是數(shù)據(jù)來源是公開的,商業(yè)“大數(shù)據(jù)”公司一般是通過獨(dú)有的應(yīng)用利用公開數(shù)據(jù)為客戶提供服務(wù),而園區(qū)的“大數(shù)據(jù)”主要是來源于企業(yè)和園區(qū)內(nèi)部,也有一部分會來自政府其他行業(yè)部門、商業(yè)化的社會公司,同時還包括一些來自互聯(lián)網(wǎng)資源。但這些數(shù)據(jù)絕大部分最終是歸企業(yè)和園區(qū)各部門私有的。且一般情況下不可能直接提供給第三方,但園區(qū)提供社會服務(wù)的組織特性又讓其具

18、有對外服務(wù)的需求。如園區(qū)的人口數(shù)據(jù),公安部門明確規(guī)定為“私有”數(shù)據(jù),此類數(shù)據(jù)一般不可能完全交給第三方處理,但這個數(shù)據(jù)又必須對外提供相應(yīng)的服務(wù),類似的情況還有企業(yè)商業(yè)機(jī)密等數(shù)據(jù)。(2)數(shù)據(jù)分布統(tǒng)分結(jié)合,且以結(jié)構(gòu)化數(shù)據(jù)為主。目前園區(qū)信息化建設(shè)尚處在以數(shù)據(jù)庫為核心的傳統(tǒng)信息系統(tǒng)建設(shè)階段,所以無論是企業(yè)還是園區(qū),占數(shù)據(jù)絕大多數(shù)的部分是結(jié)構(gòu)化數(shù)據(jù);并且,這些數(shù)據(jù)分散分布在園區(qū)各企業(yè)和服務(wù)部門處,又會周期性匯總到管委會處,數(shù)據(jù)分布城西統(tǒng)分結(jié)合,結(jié)構(gòu)化為主的特點(diǎn)。(3)企業(yè)、部門壁壘森嚴(yán),共享應(yīng)用是最大難點(diǎn)。這是大數(shù)據(jù)工程建設(shè)過程中一個顯著的特點(diǎn)。從根本上講,“大數(shù)據(jù)”工程就是想把原本分散的資源聚集起來,再

19、以服務(wù)的形式提供給受眾。但是,園區(qū)內(nèi)部不同的成員之間往往在資源和信息方面是呈現(xiàn)不對稱的情況的。如何促進(jìn)資源,特別是數(shù)據(jù)在園區(qū)內(nèi)部聚集和共享,是智慧環(huán)保園區(qū)大數(shù)據(jù)服務(wù)工程“大數(shù)據(jù)”應(yīng)用的最難,也是最終要解決的問題。因此,建設(shè)一個園區(qū)統(tǒng)一的數(shù)據(jù)中心,是“大數(shù)據(jù)”工程的關(guān)鍵起步。這個項(xiàng)目的建設(shè)目的,其核心是整合原有分散在各個部門、各個企業(yè)中的數(shù)據(jù),這里要注意,是整合而不是絕對的匯聚,即把所有數(shù)據(jù)匯聚到某個中心,是針對智慧環(huán)保產(chǎn)業(yè)園區(qū)的特點(diǎn),按照“匯聚整合是原則,分布處理是例外”的總體原則,有策略、有計(jì)劃的整合和共享多個系統(tǒng)的數(shù)據(jù),特別注意是在進(jìn)行海量數(shù)據(jù)分析時,必需進(jìn)行統(tǒng)一的一體化分布式處理。這其中

20、包含了三方面的主要內(nèi)容:一是數(shù)據(jù)以及接口服務(wù)的標(biāo)準(zhǔn)與規(guī)范,包括數(shù)據(jù)模型。這個與傳統(tǒng)單點(diǎn)的處理差別不大,增加的內(nèi)容是在數(shù)據(jù)模型建設(shè)中需要更多的考慮分布式數(shù)據(jù)的標(biāo)準(zhǔn)規(guī)范及之間的相關(guān)性。二是數(shù)據(jù)處理框架和相應(yīng)的平臺。這部分從技術(shù)上講和傳統(tǒng)區(qū)別很大,不但需對傳統(tǒng)的、單點(diǎn)狀態(tài)下的關(guān)系型數(shù)據(jù)進(jìn)行優(yōu)化處理,更不是單單引入目前所謂商業(yè)上成熟的大數(shù)據(jù)技術(shù)平臺,如Hadoop平臺等,而是必須結(jié)合上述園區(qū)數(shù)據(jù)現(xiàn)狀的三個特征,特別是目前以分布的結(jié)構(gòu)化數(shù)據(jù)為主的這一特征,建設(shè)一個基于服務(wù)總線的以分布式并行處理模式為主,引入商業(yè)大數(shù)據(jù)技術(shù)和優(yōu)化傳統(tǒng)處理模式為輔的綜合處理框架。三是平臺應(yīng)用最終落腳點(diǎn)在體現(xiàn)業(yè)務(wù)價值。信息資源

21、服務(wù)平臺建設(shè)的最終目的是希望經(jīng)過處理和分析后的數(shù)據(jù),不但能夠全局共享,實(shí)現(xiàn)查詢、比對、統(tǒng)計(jì)等基礎(chǔ)應(yīng)用,更需要支撐進(jìn)一步的深度應(yīng)用,比如趨勢預(yù)測、輔助決策等,這樣才能最大限度的體現(xiàn)信息資源服務(wù)平臺建設(shè)的業(yè)務(wù)價值。因此,智慧環(huán)保園區(qū)大數(shù)據(jù)服務(wù)工程平臺必須本著“前瞻思維、落地實(shí)現(xiàn)”的規(guī)劃和建設(shè)原則,基于園區(qū)大數(shù)據(jù)特征, 以云計(jì)算、大數(shù)據(jù)處理等新技術(shù)為關(guān)鍵支撐,以數(shù)據(jù)資源匯聚整合為基礎(chǔ),以數(shù)據(jù)處理為核心,以服務(wù)實(shí)際應(yīng)用為目標(biāo),實(shí)現(xiàn)園區(qū)數(shù)據(jù)中心建設(shè)從傳統(tǒng)模式向大數(shù)據(jù)計(jì)算、云服務(wù)應(yīng)用新型模式的戰(zhàn)略性轉(zhuǎn)變,同時基于數(shù)據(jù)中心總體架構(gòu)建信息資源服務(wù)平臺,把其作為城市信息資源服務(wù)平臺和智慧城市工程總體框架中的獨(dú)立

22、節(jié)點(diǎn)開展建設(shè),基于數(shù)據(jù)服務(wù)總線、請求服務(wù)系統(tǒng)、數(shù)據(jù)接入平臺,建設(shè)以分布式并行處理模式為主、引入商業(yè)大數(shù)據(jù)技術(shù)和優(yōu)化傳統(tǒng)處理模式為輔的綜合處理框架,實(shí)現(xiàn)跨系統(tǒng)、跨部門的交換共享、集成聯(lián)通、服務(wù)聯(lián)動、一體化應(yīng)用?;谥腔郗h(huán)保產(chǎn)業(yè)園區(qū)大數(shù)據(jù)特征構(gòu)建的園區(qū)綜合信息資源服務(wù)平臺結(jié)構(gòu),由數(shù)據(jù)匯集、數(shù)據(jù)存儲、數(shù)據(jù)管理、數(shù)據(jù)服務(wù)、數(shù)據(jù)分析、安全防護(hù)等部分構(gòu)成。信息資源共享服務(wù)平臺建設(shè)原則信息資源共享服務(wù)平臺實(shí)現(xiàn)匯總數(shù)據(jù)的統(tǒng)一存儲,實(shí)現(xiàn)匯總數(shù)據(jù)的標(biāo)準(zhǔn)化,對匯總數(shù)據(jù)進(jìn)行歸納索引,對匯總數(shù)據(jù)進(jìn)行業(yè)務(wù)分類,對匯總數(shù)據(jù)進(jìn)行關(guān)聯(lián),對匯總數(shù)據(jù)進(jìn)行統(tǒng)一管理。信息資源共享服務(wù)平臺的功能定位:信息資源匯聚的中心倉庫,數(shù)據(jù)服務(wù)共享

23、的統(tǒng)一窗口,高端綜合應(yīng)用的信息源頭,基礎(chǔ)應(yīng)用發(fā)展的拉動引擎。與現(xiàn)有業(yè)務(wù)數(shù)據(jù)相對融合現(xiàn)有業(yè)務(wù)數(shù)據(jù)和信息資源共享服務(wù)平臺的作用、服務(wù)對象、出發(fā)點(diǎn)不同,要求業(yè)務(wù)數(shù)據(jù)庫和信息資源共享服務(wù)平臺建設(shè)既相關(guān)又獨(dú)立。做到:基礎(chǔ)數(shù)據(jù)與業(yè)務(wù)數(shù)據(jù)統(tǒng)一存儲;數(shù)據(jù)擁有、使用權(quán)限分離管控;數(shù)據(jù)處理采用統(tǒng)一框架,增加數(shù)據(jù)處理效率,維護(hù)數(shù)據(jù)的安全性。要素關(guān)聯(lián)在組織信息資源服務(wù)平臺的過程中按照各要素信息,實(shí)現(xiàn)數(shù)據(jù)、要素之間的無限關(guān)聯(lián)關(guān)系。應(yīng)用導(dǎo)向建設(shè)信息資源共享服務(wù)平臺的最終目標(biāo)就是為了以綜合庫為基礎(chǔ)開展各種服務(wù)應(yīng)用,所以系統(tǒng)設(shè)計(jì)必須以支持應(yīng)用服務(wù)為目標(biāo)導(dǎo)向,能夠支撐不同綜合應(yīng)用的需求。標(biāo)準(zhǔn)化信息資源共享服務(wù)平臺是各部門、企業(yè)

24、信息化實(shí)現(xiàn)數(shù)據(jù)共享的統(tǒng)一服務(wù),所以信息資源共享服務(wù)平臺的數(shù)據(jù)元、邏輯結(jié)構(gòu)和信息代碼標(biāo)準(zhǔn)及應(yīng)用接口都應(yīng)實(shí)現(xiàn)標(biāo)準(zhǔn)化和規(guī)范化,以保證園區(qū)信息共享和應(yīng)用支持。擴(kuò)展性信息資源服務(wù)平臺設(shè)計(jì)應(yīng)能夠滿足數(shù)據(jù)源、數(shù)據(jù)內(nèi)容和數(shù)據(jù)格式不斷變化,方便實(shí)現(xiàn)更多種類數(shù)據(jù)的匯聚及更多應(yīng)用的開展。開放性信息資源服務(wù)平臺是各類綜合應(yīng)用的基礎(chǔ),必須具有很好的開放性,方便內(nèi)外數(shù)據(jù)服務(wù)共享。數(shù)據(jù)快速匯集基礎(chǔ)數(shù)據(jù)整合匯集依托復(fù)合型數(shù)據(jù)抽取整合工具,按照現(xiàn)代數(shù)據(jù)倉庫建設(shè)的理念和流程,匯集公安內(nèi)外部數(shù)據(jù)資源。數(shù)據(jù)資源分析數(shù)據(jù)整合資源來源包括園區(qū)云平臺服務(wù)數(shù)據(jù)、園區(qū)政府部門業(yè)務(wù)數(shù)據(jù)、園區(qū)企業(yè)管理平臺系統(tǒng)數(shù)據(jù)、地理信息系統(tǒng)數(shù)據(jù)、平安園區(qū)綜合監(jiān)

25、控平臺數(shù)據(jù)等條線系統(tǒng)數(shù)據(jù)、電子政務(wù)數(shù)據(jù)、社會信息數(shù)據(jù)、移動互聯(lián)網(wǎng)數(shù)據(jù)。匯聚整合資源數(shù)據(jù)種類包括數(shù)字、文本、圖表、視頻、音頻、地理空間等結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)整合流程節(jié)點(diǎn)第一步,數(shù)據(jù)接入緩存:數(shù)據(jù)匯集平臺建設(shè),基于數(shù)據(jù)服務(wù)總線整體框架,通過公共數(shù)據(jù)交換平臺和請求服務(wù)平臺,實(shí)現(xiàn)將公安內(nèi)網(wǎng)數(shù)據(jù)源的數(shù)據(jù)匯聚緩存至數(shù)據(jù)平臺數(shù)據(jù)緩沖層;通過數(shù)據(jù)接入平臺實(shí)現(xiàn)社會信息數(shù)據(jù)、電子政務(wù)數(shù)據(jù)、移動互聯(lián)網(wǎng)數(shù)據(jù)的接入數(shù)據(jù)緩存層。第二步,數(shù)據(jù)ETL:數(shù)據(jù)匯集平臺數(shù)據(jù)整合集成在梳理園區(qū)政務(wù)服務(wù)業(yè)務(wù)流程與信息資源的基礎(chǔ)上,建立數(shù)據(jù)整合的業(yè)務(wù)邏輯和數(shù)據(jù)模型,采用可視化ETL工具,進(jìn)行數(shù)據(jù)抽取、轉(zhuǎn)換、清洗、加載等基

26、礎(chǔ)功能,并可根據(jù)業(yè)務(wù)邏輯新增或變更ETL數(shù)據(jù)情況過程。第三步,數(shù)據(jù)存儲:數(shù)據(jù)匯集平臺數(shù)據(jù)整合最終采用物理集中方式進(jìn)行存儲,經(jīng)過ETL清洗的數(shù)據(jù)根據(jù)實(shí)際業(yè)務(wù)的需求,頻繁比對數(shù)據(jù)存于基于Spark內(nèi)存數(shù)據(jù)庫的數(shù)據(jù)存儲空間,靜態(tài)數(shù)據(jù)存儲于基于Hadoop文件系統(tǒng)的Hive或Hbase存儲空間。技術(shù)路線數(shù)據(jù)匯集技術(shù)難點(diǎn)主要集中與數(shù)據(jù)清洗ETL過程,由于整體數(shù)據(jù)量龐大且數(shù)據(jù)來源多種多樣,為數(shù)據(jù)ETL工具的性能和全能型提出更高層次的要求。本次ETL設(shè)計(jì)選型充分考慮性能和功能兩個角度,性能上充分利用數(shù)據(jù)總線調(diào)度框架,接入調(diào)用Spark并行任務(wù)框架,采用可動態(tài)調(diào)節(jié)多線程ETL處理架構(gòu),充分發(fā)揮大數(shù)據(jù)中心的性能

27、,提升數(shù)據(jù)入庫及清洗的效率;功能上集成針對結(jié)構(gòu)式數(shù)據(jù)庫、非結(jié)構(gòu)化文件數(shù)據(jù)、流式數(shù)據(jù)等多種數(shù)據(jù)接入模塊,為智慧環(huán)保產(chǎn)業(yè)園區(qū)大數(shù)據(jù)服務(wù)工程建設(shè)提供全部可擴(kuò)展的支撐。其技術(shù)路線如下:數(shù)據(jù)混合存儲數(shù)據(jù)存儲層基于分布式混合型存儲架構(gòu),構(gòu)建源頭數(shù)據(jù)匯聚庫和系列服務(wù)應(yīng)用專題庫等數(shù)據(jù)庫群,在存儲介質(zhì)上選擇MPP數(shù)據(jù)庫、Hadoop數(shù)據(jù)倉庫、Spark內(nèi)存數(shù)據(jù)三者融合存儲架構(gòu),為不同類型數(shù)據(jù)選擇不同數(shù)據(jù)存儲介質(zhì),保證數(shù)據(jù)存儲及處理的高效性、開放性與擴(kuò)展性;結(jié)構(gòu)化并行數(shù)據(jù)庫對于經(jīng)過前端數(shù)據(jù)采集系統(tǒng)預(yù)處理后形成的海量數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)來說,是一些能夠存儲在數(shù)據(jù)庫中的行數(shù)據(jù),可以用二維表結(jié)構(gòu)來表達(dá)實(shí)現(xiàn),這部分?jǐn)?shù)據(jù)必須實(shí)現(xiàn)

28、實(shí)時入庫和查詢分析。由于其數(shù)據(jù)量非常巨大,所以海量數(shù)據(jù)存儲分析平臺的結(jié)構(gòu)化數(shù)據(jù)處理子系統(tǒng)將采用具有較好擴(kuò)展性能的集群數(shù)據(jù)庫系統(tǒng)。加載到目的分析數(shù)據(jù)庫中的數(shù)據(jù)可對用戶提供實(shí)時的過濾和統(tǒng)計(jì)查詢,滿足用戶各類的數(shù)據(jù)分析和數(shù)據(jù)挖掘應(yīng)用,同時用戶還可以根據(jù)具體的分析和挖掘需求,設(shè)計(jì)自定義的查詢?nèi)蝿?wù)流,以滿足廣泛的應(yīng)用需求。海量數(shù)據(jù)存儲分析平臺的結(jié)構(gòu)化數(shù)據(jù)處理子系統(tǒng)采用專為分析網(wǎng)絡(luò)監(jiān)控?cái)?shù)據(jù)設(shè)計(jì)的并行數(shù)據(jù)庫中間件XData-DRAC,該系統(tǒng)已成功部署在國家某大型項(xiàng)目、某市大型項(xiàng)目等多個系統(tǒng)中,其底層采用無共享(shared-nothing)的oracle數(shù)據(jù)庫節(jié)點(diǎn)作為數(shù)據(jù)節(jié)點(diǎn),具有較好的擴(kuò)展性和系統(tǒng)可靠性。

29、系統(tǒng)軟件將用戶的操作透明地轉(zhuǎn)化成對底層數(shù)據(jù)庫的操作,而對用戶呈現(xiàn)為單一的數(shù)據(jù)庫系統(tǒng)映像。另外,子系統(tǒng)采用低成本的存儲服務(wù)器搭載數(shù)據(jù)庫節(jié)點(diǎn),并可根據(jù)數(shù)據(jù)的訪問頻度和重要性進(jìn)行劃分,實(shí)施多級存儲的方案,降低整個系統(tǒng)的TCO,提高系統(tǒng)的性價比。系統(tǒng)架構(gòu)下圖是結(jié)構(gòu)化數(shù)據(jù)處理子系統(tǒng)XData-DRAC的系統(tǒng)架構(gòu)。系統(tǒng)中的節(jié)點(diǎn)分為兩大類:存儲數(shù)據(jù)的數(shù)據(jù)庫節(jié)點(diǎn)和提供并行數(shù)據(jù)管理功能的服務(wù)節(jié)點(diǎn)。后者包括:加載服務(wù)、查詢服務(wù)、數(shù)據(jù)復(fù)制和數(shù)據(jù)定義服務(wù)。所有類型的節(jié)點(diǎn)個數(shù)均可根據(jù)容量和性能的需要而靈活配置。數(shù)據(jù)庫節(jié)點(diǎn)采用具有大存儲容量的、高性能、高性價比的存儲服務(wù)器。節(jié)點(diǎn)上安裝單機(jī)版的Oracle數(shù)據(jù)庫管理系統(tǒng)。按

30、照一定的數(shù)據(jù)劃分策略(目前數(shù)據(jù)劃分支持Hash、Range、List和Round-robin分布策略),每個數(shù)據(jù)庫節(jié)點(diǎn)保存全部的復(fù)制數(shù)據(jù)和分片數(shù)據(jù)表的一部分。每個數(shù)據(jù)庫節(jié)點(diǎn)上數(shù)據(jù)均可使用Oracle的索引、分區(qū)等特性。數(shù)據(jù)庫的功能被分成加載、查詢、數(shù)據(jù)復(fù)制、數(shù)據(jù)定義等服務(wù),每種服務(wù)部署在單獨(dú)的物理節(jié)點(diǎn)上。任一服務(wù)節(jié)點(diǎn)均建立到所有的數(shù)據(jù)庫連接。加載節(jié)點(diǎn)啟動若干個加載線程,線程將一批數(shù)據(jù)寫入某一數(shù)據(jù)庫節(jié)點(diǎn)。由于海量數(shù)據(jù)分布存儲在各數(shù)據(jù)庫節(jié)點(diǎn)上,查詢服務(wù)首先并行地在處理各數(shù)據(jù)庫節(jié)點(diǎn)上的局部數(shù)據(jù)得到中間結(jié)果,然后將中間結(jié)果匯總成最終結(jié)果。復(fù)制數(shù)據(jù)是指將一個表的數(shù)據(jù)同時存儲到一組數(shù)據(jù)庫節(jié)點(diǎn)上,以此避免兩

31、個表的連接操作。數(shù)據(jù)復(fù)制服務(wù)專用于處理這部分?jǐn)?shù)據(jù)的操作。它通過分布式事務(wù)在有關(guān)節(jié)點(diǎn)上同時執(zhí)行事務(wù)操作,保證復(fù)制前后數(shù)據(jù)都是一致的。數(shù)據(jù)定義服務(wù)用于維護(hù)系統(tǒng)的元數(shù)據(jù),它并行地執(zhí)行表結(jié)構(gòu)、表空間和其它數(shù)據(jù)庫模式改變等元數(shù)據(jù)操作。采用這種服務(wù)分離的設(shè)計(jì),用戶可以靈活地配置各種服務(wù)的個數(shù),以達(dá)到整個體統(tǒng)資源的最佳利用。圖 XData-DRAC系統(tǒng)架構(gòu)XData-DRAC子系統(tǒng)采用Shared-Nothing的架構(gòu),即所有存儲數(shù)據(jù)的數(shù)據(jù)庫節(jié)點(diǎn)除互聯(lián)網(wǎng)絡(luò)外,不共享任何資源。除此之外,并行數(shù)據(jù)庫還有Shared-Memory和Shared-Disk兩種架構(gòu)。學(xué)術(shù)界普遍認(rèn)為,Shared-Nothing架構(gòu)有

32、很強(qiáng)的擴(kuò)展性。另外,系統(tǒng)不需要存儲網(wǎng)絡(luò)設(shè)施,也不依賴于昂貴的高端盤陣。這樣可以很好降低用戶的硬件成本,在大規(guī)模部署時有很高的性價比。Shared-Memory結(jié)構(gòu)是多個處理器通過內(nèi)存總線與多個共享內(nèi)存相連接,再通過I/O總線共享多個存儲設(shè)備。Shared-Memory 結(jié)構(gòu)是典型的向上擴(kuò)展類型,即在單節(jié)點(diǎn)上加入更多的處理器、內(nèi)存、磁盤和網(wǎng)卡。典型的Shared-Memory結(jié)構(gòu)是RISC架構(gòu)的SMP小型機(jī),多家廠商的產(chǎn)品已經(jīng)證明,在常規(guī)商務(wù)負(fù)載環(huán)境下,SMP 服務(wù)器能夠提供 10 倍于單處理器系統(tǒng)的向上擴(kuò)展能力。然而,隨著 CPU 個數(shù)增多,共享的內(nèi)存帶寬成為瓶頸,同時多處理器競爭降低了系統(tǒng)總

33、線的利用率,因此Shared-Memory 結(jié)構(gòu)難以擴(kuò)展到大規(guī)模。比如目前業(yè)界處理性能最強(qiáng)的IBM Power 795,其配置可達(dá)到32路8核,面向大型數(shù)據(jù)庫應(yīng)用,卻依然無法處理海量的300TB數(shù)據(jù)。另外,由于大容量的Shared-Memory結(jié)構(gòu)數(shù)據(jù)庫節(jié)點(diǎn)采用價格昂貴的小型機(jī),成本很高,在面向非事務(wù)處理的網(wǎng)監(jiān)系統(tǒng)數(shù)據(jù)存儲分析中不采用。Shared-Disk結(jié)構(gòu)中每個節(jié)點(diǎn)有自己的內(nèi)存,共享磁盤。每個節(jié)點(diǎn)都可以讀取和修改所有數(shù)據(jù)。通過分布式的并發(fā)控制機(jī)制來保證數(shù)據(jù)一致性。隨著節(jié)點(diǎn)數(shù)增多,并發(fā)開銷增大,因此商用 Shared-Disk構(gòu)建的實(shí)用數(shù)據(jù)庫系統(tǒng)一般只有 6-8個節(jié)點(diǎn)。在系統(tǒng)中,單元數(shù)據(jù)庫

34、除了采用單機(jī)Oracle之外,還可以采用Shared-Disk的并行數(shù)據(jù)庫,如Oracle RAC。這是一種融合了Shared-Disk和Shared-Nothing結(jié)構(gòu)的系統(tǒng),可以擴(kuò)展到更大的規(guī)模。但是,即使采用Oracle RAC,也無法滿足上百TB的數(shù)據(jù)量需求。Shared-Nothing 結(jié)構(gòu)屬于多處理單元多數(shù)據(jù)單元結(jié)構(gòu)。Shared-Nothing 環(huán)境下,每個處理器有自己的內(nèi)存和磁盤存儲設(shè)備,所有處理器通過節(jié)點(diǎn)間互連網(wǎng)絡(luò)進(jìn)行連接,對于節(jié)點(diǎn)間通信少、返回結(jié)果集少的應(yīng)用(如數(shù)據(jù)倉庫或DSS),具有良好的擴(kuò)展性??蛇_(dá)數(shù)千個節(jié)點(diǎn)。Shared-Nothing架構(gòu)下,數(shù)據(jù)庫節(jié)點(diǎn)如果失效將導(dǎo)致

35、數(shù)據(jù)不可訪問。XData-DRAC提供了雙寫的策略,對于要求高的數(shù)據(jù)存儲在兩個節(jié)點(diǎn)上。只要有一個節(jié)點(diǎn)存在,數(shù)據(jù)仍然及時可用。根據(jù)系統(tǒng)建設(shè)的需求,通過以上數(shù)據(jù)庫架構(gòu)的分析對比,可以看出,Shared-Memory和Shared-Disk在存儲容量上都會達(dá)到瓶頸,無法適用于網(wǎng)監(jiān)系統(tǒng)的海量數(shù)據(jù)實(shí)時分析場景當(dāng)中,故結(jié)構(gòu)化數(shù)據(jù)處理子系統(tǒng)應(yīng)當(dāng)采用高擴(kuò)展、高性價比的Shared-Memory并行數(shù)據(jù)庫架構(gòu)。XData-DRAC是位于客戶與數(shù)據(jù)存儲之間的一層中間件軟件,對上要提供統(tǒng)一的客戶端程序的接口,對下要支持對多個數(shù)據(jù)存儲系統(tǒng)的數(shù)據(jù)加載、數(shù)據(jù)查詢、數(shù)據(jù)備份、數(shù)據(jù)統(tǒng)計(jì)和管理功能。底層的數(shù)據(jù)管理系統(tǒng)包括數(shù)據(jù)庫

36、(結(jié)構(gòu)化數(shù)據(jù))和文本檢索(半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù))系統(tǒng)。整體的軟件功能模塊結(jié)構(gòu)示意圖,如下圖所示。XData-DRAC系統(tǒng)對使用者做到位置透明、副本透明、并發(fā)透明和故障透明等四個透明。 如下圖所示,前端為客戶端程序接口,它為客戶端提供訪問海量數(shù)據(jù)處理的通道;后端由若干獨(dú)立運(yùn)行的數(shù)據(jù)庫系統(tǒng),或者文本檢索系統(tǒng)組成,負(fù)責(zé)具體的數(shù)據(jù)加載存儲、索引、查詢和檢索、以及管理;中間層由若干服務(wù)中間件組成,對上屏蔽數(shù)據(jù)分布存儲和請求的分布執(zhí)行細(xì)節(jié),同時為客戶提供一個單一的運(yùn)行接口和環(huán)境,對下協(xié)調(diào)多數(shù)據(jù)服務(wù)器的數(shù)據(jù)分布和協(xié)同工作。圖 XData-DRAC系統(tǒng)軟件結(jié)構(gòu)XData系統(tǒng)中間件服務(wù)主要可以分為以下四部分:

37、各類服務(wù)程序,對外提供數(shù)據(jù)服務(wù)的接口,并對用戶請求進(jìn)行處理。主要包括數(shù)據(jù)加載服務(wù),查詢服務(wù),配置管理服務(wù),數(shù)據(jù)定義服務(wù),以及服務(wù)管理。服務(wù)內(nèi)部的公共模塊,為各類服務(wù)提供所需的信息,包括數(shù)據(jù)分布信息,異常處理模塊,全局的消息服務(wù),負(fù)載均衡策略,以及日志管理模塊。輔助的服務(wù)和任務(wù)。主要包括數(shù)據(jù)備份和恢復(fù),系統(tǒng)的容錯和故障處理,數(shù)據(jù)統(tǒng)計(jì),以及定時任務(wù)管理等。對底層的數(shù)據(jù)訪問接口。主要包括連接池管理和各類數(shù)據(jù)訪問的驅(qū)動。XData-DRAC是一個通用的海量結(jié)構(gòu)化數(shù)據(jù)處理平臺,各服務(wù)模塊均分為客戶端接口封裝和服務(wù)器端程序兩部分。對外屏蔽了客戶端和服務(wù)器端的通信細(xì)節(jié)。并將所有服務(wù)的客戶端接口封裝成XJDB

38、C(編程和使用風(fēng)格類似于JDBC,可減小應(yīng)用遷移和用戶學(xué)習(xí)成本)接口的動態(tài)鏈接庫。對應(yīng)用程序來說,采用XJDBC接口對數(shù)據(jù)對象進(jìn)行訪問和管理,看到的是一個單一的數(shù)據(jù)處理系統(tǒng)映像。因此客戶端程序并不需要判斷連接哪臺服務(wù)器上的哪個具體的服務(wù)進(jìn)行操作。關(guān)鍵技術(shù)XData-DRAC是一套完整的并行數(shù)據(jù)庫系統(tǒng),除上述特征外,下面再給出并行加載、并行查詢和數(shù)據(jù)雙寫等關(guān)鍵技術(shù)。數(shù)據(jù)劃分和存儲組織XData-DRAC的存儲劃分成了四個層次:記錄,分區(qū),節(jié)點(diǎn)何節(jié)點(diǎn)組。一條記錄是數(shù)據(jù)的最小元組,表示數(shù)據(jù)庫的一行,有相同屬性的多條記錄可以組成一個分區(qū),而節(jié)點(diǎn)和節(jié)點(diǎn)組是服務(wù)器層面的劃分,一個節(jié)點(diǎn)包含多個數(shù)據(jù)分區(qū)(虛分

39、區(qū)),多個節(jié)點(diǎn)組成一個節(jié)點(diǎn)組。XData-DRAC系統(tǒng)支持?jǐn)?shù)據(jù)在某個節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)間的多樣化的數(shù)據(jù)分布策略,包括hash,range,list的分區(qū)策略,即數(shù)據(jù)按照某一列的屬性值,存儲在某些特定的節(jié)點(diǎn)上,可以加速數(shù)據(jù)查詢的速度。此外XData-DRAC還支持round-robin的數(shù)據(jù)分布,即數(shù)據(jù)按照輪詢的方式,均勻的分布到所有的數(shù)據(jù)節(jié)點(diǎn)。為了適應(yīng)節(jié)點(diǎn)數(shù)的動態(tài)擴(kuò)展,XData-DRAC采用了一種虛分區(qū)的技術(shù),即分區(qū)和節(jié)點(diǎn)是多對一的關(guān)系,每個節(jié)點(diǎn)包含多個虛分區(qū)。P1P2P5P6P3P4P7P8節(jié) 點(diǎn) 1節(jié)點(diǎn)組P9P10P13P14P11P12P15P16節(jié) 點(diǎn) 2存儲劃分: 記錄分區(qū)節(jié)點(diǎn)節(jié)點(diǎn)組圖

40、 數(shù)據(jù)存儲劃分虛分區(qū)的數(shù)據(jù)存儲劃分如上圖所示, 每個表定義時需要指定一個節(jié)點(diǎn)組,包含若干數(shù)據(jù)節(jié)點(diǎn)。分區(qū)表進(jìn)行存儲劃分時,每個節(jié)點(diǎn)包含若干分區(qū)(也叫虛分區(qū)),分區(qū)數(shù)量可以設(shè)定為CPU的核數(shù)2,或者更多。因此分區(qū)表的存儲劃可以分為分區(qū),節(jié)點(diǎn)和節(jié)點(diǎn)組的三層包含關(guān)系。當(dāng)系統(tǒng)規(guī)模擴(kuò)大時,比如往節(jié)點(diǎn)組中增加新的節(jié)點(diǎn)時,需要對在線數(shù)據(jù)進(jìn)行遷移,以保證節(jié)點(diǎn)組內(nèi)各節(jié)點(diǎn)間的數(shù)據(jù)均衡。采用虛分區(qū)技術(shù),數(shù)據(jù)遷移時只需將一定數(shù)量的分區(qū)整體遷移到新增節(jié)點(diǎn),避免了重新分區(qū)的開銷,同時也可以保證節(jié)點(diǎn)間的最小數(shù)據(jù)遷移。并行實(shí)時加載提高系統(tǒng)加載能力的關(guān)鍵是提高單機(jī)加載能力和充分利用系統(tǒng)資源。系統(tǒng)的并行加載技術(shù)包括如下層面上的設(shè)計(jì)

41、。1)單線程直接路徑加載。加載線程使用預(yù)處理過程將被寫數(shù)據(jù)的格式告知數(shù)據(jù)庫,然后接受客戶端的一大批記錄,以直接路徑加載的方式一次性將數(shù)據(jù)寫入數(shù)據(jù)庫。這是Oracle提供的最快的在線數(shù)據(jù)加載方法。2)單機(jī)多線程同時加載。每個加載節(jié)點(diǎn)都維護(hù)一個線程,當(dāng)有請求到達(dá)時,即分配一個線程向某一個數(shù)據(jù)庫節(jié)點(diǎn)加載。這樣能充分利用加載節(jié)點(diǎn)的帶寬和計(jì)算資源,提高其利用率。3)多數(shù)據(jù)庫并行加載。每個加載節(jié)點(diǎn)的多個線程可以同時向多個數(shù)據(jù)庫并行加載。當(dāng)加載節(jié)點(diǎn)較多的時候,可以充分利用數(shù)據(jù)庫的加載能力,使系統(tǒng)的加載性能達(dá)到最大。上述三種設(shè)計(jì)的考慮使系統(tǒng)能提供很高的加載速度和近似線性的加載擴(kuò)展比。數(shù)據(jù)均衡是Shared-N

42、othing架構(gòu)的并行數(shù)據(jù)庫要解決的一個重要問題。在采用round-robin的數(shù)據(jù)劃分策略時,解決數(shù)據(jù)均衡的關(guān)鍵是避免某個節(jié)點(diǎn)上的數(shù)據(jù)過多。出現(xiàn)這種情況,將導(dǎo)致該節(jié)點(diǎn)上的查詢?nèi)蝿?wù)完成地最晚,因?yàn)椴⑿腥蝿?wù)的完成時間取決于最慢的操作,所以會導(dǎo)致查詢擴(kuò)展性嚴(yán)重下降。系統(tǒng)每次都選擇當(dāng)前加載量最小的節(jié)點(diǎn)進(jìn)行加載,保持當(dāng)前的數(shù)據(jù)均衡。如果某個數(shù)據(jù)庫節(jié)點(diǎn)失效后重新啟動,導(dǎo)致一段時間內(nèi)加載量過小,后續(xù)就會出現(xiàn)短期內(nèi)加載過多的情況。針對面向流數(shù)據(jù)應(yīng)用,采取周期性計(jì)數(shù)的方法。當(dāng)超出一個周期后,計(jì)數(shù)歸零。在上述情況發(fā)生時,上個周期數(shù)據(jù)量不會影響到下一個周期的數(shù)據(jù)平衡。并行查詢查詢請求分析器將查詢語句分解成查詢?nèi)蝿?wù)

43、流圖,其主要流程如下圖所示。主要包括查詢語句的確性檢查,詞法分析,語法分析,語義分解和生成查詢算子任務(wù)流圖這四個步驟。圖 XData-DRAC系統(tǒng)查詢分析流程詞法分析:將查詢語句分解成單詞序列。語法分析:語法分析將單詞序列按照查詢語句的關(guān)鍵字進(jìn)行結(jié)構(gòu)劃分。語義分解:語義分解,將進(jìn)行結(jié)構(gòu)劃分的查詢語句拆分成多個可以獨(dú)立執(zhí)行的子句,這些子句不含有聯(lián)合查詢和嵌套查詢。生成查詢?nèi)蝿?wù)流圖:將查詢子句轉(zhuǎn)化為可并行執(zhí)行的查詢?nèi)蝿?wù)流。每個查詢子句又稱為查詢算子,是指可獨(dú)立在某個數(shù)據(jù)庫節(jié)點(diǎn)執(zhí)行的查詢操作。而查詢?nèi)蝿?wù)流圖是指可被并行運(yùn)行的任務(wù)序列,每個查詢?nèi)蝿?wù)是一個4元組。下圖是一個查詢?nèi)蝿?wù)流圖的示例。算子1算子

44、2算子2算子4算子5圖 查詢?nèi)蝿?wù)流圖查詢?nèi)蝿?wù)流圖是查詢語句在海量數(shù)據(jù)處理平臺上的執(zhí)行計(jì)劃,指出各任務(wù)間的依賴關(guān)系和執(zhí)行順序。可表示為任務(wù)序列,其中S是指同步點(diǎn),可視情況加在任務(wù)間, Tx是指任務(wù)。通用的并行查詢執(zhí)行框架讀取查詢?nèi)蝿?wù)流圖作為輸入,輸出最終的查詢結(jié)果。并行查詢執(zhí)行框架是XData-DRAC系統(tǒng)的核心,所有的并行查詢?nèi)蝿?wù)流,均可通過并行查詢執(zhí)行框架運(yùn)行,并返回最終結(jié)果。所有的查詢計(jì)算均在數(shù)據(jù)庫節(jié)點(diǎn)執(zhí)行,查詢服務(wù)器主要負(fù)責(zé)任務(wù)流執(zhí)行的同步控制、數(shù)據(jù)傳輸和結(jié)果匯總,不參與查詢?nèi)蝿?wù)的具體執(zhí)行。查詢節(jié)點(diǎn)作為并行任務(wù)的控制節(jié)點(diǎn),負(fù)責(zé)查詢請求的分解和執(zhí)行控制,并匯總最后的查詢結(jié)果。所有的查詢?nèi)蝿?wù)

45、(除最后的查詢結(jié)果匯總以外)均運(yùn)行在數(shù)據(jù)庫節(jié)點(diǎn),充分利用節(jié)點(diǎn)間的并行性。查詢處理時的中間結(jié)果采用文件進(jìn)行組織存儲,比如在結(jié)構(gòu)化數(shù)據(jù)處理方面,利用Oracle數(shù)據(jù)庫的外部表特性,文件的數(shù)據(jù)寫入速度是數(shù)據(jù)庫表寫入的10倍以上,而測試表明外部表的查詢性能和內(nèi)部表接近,但可以答復(fù)提升查詢中間結(jié)果的寫入速度。數(shù)據(jù)分派方法:通常情況下是hash分派,即將結(jié)果按照某一列的值進(jìn)行hash,并按照目標(biāo)節(jié)點(diǎn)節(jié)點(diǎn)數(shù)進(jìn)行取模分派。此外針對某些特殊查詢模式,可采用范圍分派進(jìn)行優(yōu)化。用戶自定義任務(wù)流處理XData-DRAC數(shù)據(jù)處理平臺支持用戶自定義的數(shù)據(jù)處理任務(wù),以適應(yīng)更廣泛的應(yīng)用類型。用戶提交的SQL語句,通過SQL解

46、析,生成并行查詢?nèi)蝿?wù)流,任務(wù)流由并行查詢引擎執(zhí)行,得到最終的查詢結(jié)果。由于查詢服務(wù)的SQL解析和并行查詢引擎是兩個獨(dú)立的模塊,因此用戶可以通過SQL解析模塊將查詢分解成任務(wù)流輸出,對任務(wù)流進(jìn)行修改,作為并行查詢引擎的輸入。通過支持用戶自定義的并行查詢?nèi)蝿?wù)流,XData-DRAC可以支持任何查詢類型。用戶自定義的并行查詢?nèi)蝿?wù)流的執(zhí)行過程如下圖所示。圖 用戶自定義并行查詢?nèi)蝿?wù)流執(zhí)行XData-DRAC通過提供SQL解析和并行查詢引擎模塊的對外接口來實(shí)現(xiàn)用戶自定義的任務(wù)流執(zhí)行。并行查詢?nèi)蝿?wù)流采用配置文件的格式進(jìn)行描述??稍赟QL解析完成的并行任務(wù)流基礎(chǔ)上進(jìn)行修改,避免查詢?nèi)蝿?wù)流的格式出現(xiàn)錯誤。在用戶

47、自定義的并行查詢?nèi)蝿?wù)流中,也可嵌入用戶自定義的方法,比如說嵌入一些開源的數(shù)據(jù)挖掘算法和數(shù)據(jù)處理的方法,對每個任務(wù)的結(jié)果進(jìn)行處理。在使用時,只需提供自定義方法的代碼或者函數(shù)連接庫。抽象數(shù)據(jù)訪問驅(qū)動抽象數(shù)據(jù)驅(qū)動是XData-DRAC對底層各種類型數(shù)據(jù)訪問的接口,采用portable的設(shè)計(jì),針對不同的數(shù)據(jù)類型,可添加或者轉(zhuǎn)載新的驅(qū)動。特別地,對于結(jié)構(gòu)化數(shù)據(jù),目前支持對Oracle數(shù)據(jù)庫的訪問,對于文本索引,設(shè)計(jì)支持對Lucene文本索引訪問接口的支持。當(dāng)有新的數(shù)據(jù)類型加入時,可通過添加新的驅(qū)動庫增加對新數(shù)據(jù)類型訪問的支持。LuceneLucene訪問接口DB訪問接口通用數(shù)據(jù)訪問驅(qū)動層其他數(shù)據(jù)訪問接口

48、DBFS圖 通用數(shù)據(jù)訪問驅(qū)動層通過統(tǒng)一的數(shù)據(jù)驅(qū)動層,可以屏蔽數(shù)據(jù)訪問的細(xì)節(jié),將對不同類型數(shù)據(jù)的訪問,統(tǒng)一在通用海量數(shù)據(jù)處理平臺下,簡化了系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)。同時也對不同數(shù)據(jù)的聯(lián)合查詢分析提供了基礎(chǔ),實(shí)現(xiàn)對不同類型數(shù)據(jù)的通用處理。比如常見的數(shù)字圖書館等應(yīng)用,將文本檢索和數(shù)據(jù)庫查詢相結(jié)合進(jìn)行數(shù)據(jù)分析,包括先進(jìn)行文本關(guān)鍵字檢索相關(guān)文獻(xiàn),再進(jìn)行數(shù)據(jù)庫查詢得到作者和出版等明細(xì)數(shù)據(jù);或者進(jìn)行數(shù)據(jù)庫的作者和出版相關(guān)信息查詢,然后進(jìn)行文本抽取等查詢。在對各類數(shù)據(jù)進(jìn)行查詢和檢索時,用戶采用統(tǒng)一的類SQL語句表達(dá)查詢請求,無需知道底層的數(shù)據(jù)組織和查詢處理的細(xì)節(jié),能夠滿足廣泛的應(yīng)用需求。采用類SQL的查詢請求設(shè)計(jì),規(guī)

49、范了用戶的數(shù)據(jù)訪問,簡化了查詢處理,同時也能支持更多的應(yīng)用類型。數(shù)據(jù)雙寫對于要求數(shù)據(jù)可靠性和可用性要求很高的用戶,XData-DRAC提供數(shù)據(jù)雙寫功能。如下圖所示,每個數(shù)據(jù)庫節(jié)點(diǎn)上創(chuàng)建兩個數(shù)據(jù)庫,如d1和d2是同一物理機(jī)上的兩個數(shù)據(jù)庫。節(jié)點(diǎn)之間的數(shù)據(jù)庫做完全鏡象,數(shù)據(jù)在寫入的時間同時保存在鏡象的兩個數(shù)據(jù)庫中。圖中給出了交錯的鏡象關(guān)系,除任一數(shù)據(jù)庫節(jié)點(diǎn)失效后數(shù)據(jù)仍可用外,上面或下面所有數(shù)據(jù)庫節(jié)點(diǎn)損壞,系統(tǒng)中的數(shù)據(jù)仍然可用。d1d2d3d4d5d6d7d8d9d10d111d12d13d14d15d16圖 XData-DRAC的數(shù)據(jù)雙寫系統(tǒng)優(yōu)勢作為成熟、先進(jìn)、高效的并行數(shù)據(jù)庫系統(tǒng)來說,XData-

50、DRAC打通了傳統(tǒng)oracle數(shù)據(jù)庫處理能力的瓶頸,解決了海量結(jié)構(gòu)化數(shù)據(jù)分析處理與存儲的需求。采用XData-DRAC作為海量結(jié)構(gòu)化數(shù)據(jù)存儲分析的解決方案,具有以下眾多優(yōu)勢。高可用系統(tǒng)采用多種方式提高系統(tǒng)的可用性,完全可以提供7*24小時無間斷運(yùn)行。按離用戶的遠(yuǎn)近,其高可用性包括如下層面:高可用的負(fù)載均衡機(jī)制。標(biāo)準(zhǔn)情況下配置兩個負(fù)載均衡器,當(dāng)其中一個不可用時,客戶端接口庫自動使用另一個,因此負(fù)載均衡器是高可用的。高可用的服務(wù)。每種服務(wù)(加載、查詢、復(fù)制引擎)都可以配置在多個物理服務(wù)器上,只要還有一個可用,這種服務(wù)就是可用的。高可用數(shù)據(jù)庫。系統(tǒng)配置多個互相獨(dú)立的數(shù)據(jù)庫節(jié)點(diǎn)。當(dāng)某個數(shù)據(jù)庫出現(xiàn)故障時

51、,這種故障分臨時性故障、節(jié)點(diǎn)宕機(jī)和數(shù)據(jù)損壞三種情況。如果是臨時性的故障或節(jié)點(diǎn)宕機(jī),正在進(jìn)行的查詢不能獲得這部分?jǐn)?shù)據(jù)的結(jié)果,但其余節(jié)點(diǎn)上的計(jì)算結(jié)果會返回給用戶并提示“結(jié)果集不完整”。當(dāng)節(jié)點(diǎn)宕機(jī)時,這種狀態(tài)要持續(xù)到機(jī)器重新啟動為止。啟動雙寫機(jī)制后,即使數(shù)據(jù)庫失效,數(shù)據(jù)也不會丟失,并且隨時可用。擴(kuò)展性對于系統(tǒng)來說,只要增加數(shù)據(jù)庫節(jié)點(diǎn),系統(tǒng)的容量可隨即增加。與此同時,所有數(shù)據(jù)庫的處理能力近似為整個系統(tǒng)的處理能力,也隨之?dāng)U展。當(dāng)系統(tǒng)規(guī)模擴(kuò)大時,系統(tǒng)的性能表現(xiàn),即擴(kuò)展性是并行系統(tǒng)的重要特征。達(dá)到所有數(shù)據(jù)庫的寫速度之前,數(shù)據(jù)加載的性能和加載節(jié)點(diǎn)的個數(shù)呈近線性的增長。大部分的查詢則隨數(shù)據(jù)庫節(jié)點(diǎn)個數(shù)的增加,也呈

52、近線性的結(jié)果。根據(jù)應(yīng)用的實(shí)際需求,用于加載和查詢等任務(wù)的服務(wù)器可以方便地增加和刪除,但系統(tǒng)總的處理能力主要受數(shù)據(jù)庫節(jié)點(diǎn)能力的限制。所有節(jié)點(diǎn)均可在不中斷業(yè)務(wù)的情況下進(jìn)行。軟件也可以實(shí)現(xiàn)在線升級。系統(tǒng)在生產(chǎn)系統(tǒng)的部署中超過40個數(shù)據(jù)庫節(jié)點(diǎn),處理的數(shù)據(jù)量超過800TB。系統(tǒng)備份恢復(fù)系統(tǒng)高可用性的介紹中已經(jīng)從4個層面上介紹了在部分設(shè)備出現(xiàn)故障的時候系統(tǒng)如何保證對外服務(wù)的連續(xù)可用性。在未發(fā)生數(shù)據(jù)丟失的情況下只需替換故障設(shè)備,重新加入系統(tǒng),即可恢復(fù)故障。為了防范出現(xiàn)數(shù)據(jù)丟失的嚴(yán)重故障,系統(tǒng)提供備份工具dmbk,它分別從各數(shù)據(jù)庫節(jié)點(diǎn)導(dǎo)出需要的數(shù)據(jù),經(jīng)過壓縮后存儲在備份介質(zhì)上。當(dāng)需要時,它從備份介質(zhì)上讀出數(shù)據(jù)

53、,解壓縮后導(dǎo)入原數(shù)據(jù)庫。簡易管理系統(tǒng)的各種服務(wù)及數(shù)據(jù)庫節(jié)點(diǎn)均是“邏輯節(jié)點(diǎn)”,它們可以部署在任何的物理節(jié)點(diǎn)上,因此針對特定的系統(tǒng)結(jié)構(gòu),只需指明“邏輯節(jié)點(diǎn)”和“物理節(jié)點(diǎn)”的映射關(guān)系,即可用工具簡易完成包括底層數(shù)據(jù)庫在內(nèi)的整個的系統(tǒng)部署。它可以部署在包括單個節(jié)點(diǎn)在內(nèi)的任意數(shù)量機(jī)器的系統(tǒng)上。系統(tǒng)基于B/S模式進(jìn)行部署、監(jiān)控和管理,用戶可直接通過瀏覽器對系統(tǒng)進(jìn)行監(jiān)管。另外,系統(tǒng)對外提供單一系統(tǒng)映像,用戶使用類似ODBC或JDBC的接口提交SQL語句。這些操作被服務(wù)節(jié)點(diǎn)自動地并行執(zhí)行。高性價比和Oracle RAC等并行數(shù)據(jù)庫不同,XData-DRAC不需要光纖交換機(jī)和較高端的磁盤陣列,而是采用普通的千兆

54、以太網(wǎng)交換機(jī)和通用的存儲服務(wù)器,硬件成本低。配合靈活部署和簡易管理的工具,在大規(guī)模部署時有較高的性能價格比,保護(hù)用戶投資,降低TCO。統(tǒng)一大數(shù)據(jù)處理平臺系統(tǒng)架構(gòu)XData大數(shù)據(jù)平臺,可以實(shí)現(xiàn)對結(jié)構(gòu)化數(shù)據(jù)XData-DRAC,非結(jié)構(gòu)化數(shù)據(jù)存儲和檢索XData-Parastor和以及離線數(shù)據(jù)分析的hadoop系統(tǒng)的統(tǒng)一訪問和管理,支持不同類型數(shù)據(jù)的處理。XData系統(tǒng)將節(jié)點(diǎn)分為兩大類:存儲數(shù)據(jù)的數(shù)據(jù)節(jié)點(diǎn)和提供并行數(shù)據(jù)管理功能的服務(wù)節(jié)點(diǎn)。后者根據(jù)不同的功能劃分,包括:加載服務(wù)、查詢服務(wù)、數(shù)據(jù)復(fù)制和數(shù)據(jù)定義服務(wù)。所有類型的節(jié)點(diǎn)個數(shù)均必須支持根據(jù)容量和性能的需要而靈活配置。數(shù)據(jù)節(jié)點(diǎn)是帶獨(dú)立存儲系統(tǒng)的存儲

55、服務(wù)器。每個節(jié)點(diǎn)上既可以安裝單機(jī)版的數(shù)據(jù)庫(如Oracle/Postgresql等數(shù)據(jù)庫)管理系統(tǒng),或者部署成分布式文件系統(tǒng)的數(shù)據(jù)節(jié)點(diǎn)(如Hadoop系統(tǒng)中的HDFS的DataNode),以及這些數(shù)據(jù)存儲和處理系統(tǒng)的復(fù)合。XData大數(shù)據(jù)的中間件軟件服務(wù)按照其功能可以被分成加載、查詢、控制配置、數(shù)據(jù)定義等服務(wù),每種服務(wù)部署在單獨(dú)的物理節(jié)點(diǎn)或者單獨(dú)的虛擬機(jī)上,以達(dá)到每個服務(wù)程序的相互隔離性。任何一個服務(wù)節(jié)點(diǎn)均建立到所有的數(shù)據(jù)節(jié)點(diǎn)的連接。其中加載節(jié)點(diǎn)啟動若干個加載線程,線程將一批數(shù)據(jù)寫入某一數(shù)據(jù)庫節(jié)點(diǎn)。由于海量數(shù)據(jù)分布存儲在各數(shù)據(jù)節(jié)點(diǎn)上,查詢服務(wù)首先并行地在處理各數(shù)據(jù)節(jié)點(diǎn)上的局部數(shù)據(jù)得到中間結(jié)果,

56、然后將中間結(jié)果匯總成最終結(jié)果。數(shù)據(jù)控制配置服務(wù)專用于對數(shù)據(jù)修改操作,保證集群環(huán)境下的數(shù)據(jù)修改的事務(wù)性。數(shù)據(jù)定義服務(wù)用于維護(hù)系統(tǒng)的元數(shù)據(jù),它主要負(fù)責(zé)整個系統(tǒng)的對象定義、存儲組織、增刪改操作和其它數(shù)據(jù)模式改變等元數(shù)據(jù)操作。采用這種服務(wù)分離的設(shè)計(jì),用戶可以靈活地配置各種服務(wù)的個數(shù),以達(dá)到整個體統(tǒng)資源的最佳利用。圖 系統(tǒng)整體架構(gòu)上圖給出了XData 大數(shù)據(jù)平臺系統(tǒng)的整體結(jié)構(gòu)設(shè)計(jì)。大數(shù)據(jù)處理系統(tǒng)在客戶與數(shù)據(jù)存儲之間構(gòu)架了一層中間件軟件,對上要提供統(tǒng)一的客戶端程序的接口,對下要支持對多個不同數(shù)據(jù)存儲系統(tǒng)的數(shù)據(jù)加載、數(shù)據(jù)查詢、數(shù)據(jù)備份、數(shù)據(jù)統(tǒng)計(jì)和管理功能。底層的數(shù)據(jù)管理系統(tǒng)包括數(shù)據(jù)庫(結(jié)構(gòu)化數(shù)據(jù))和Hado

57、op(非結(jié)構(gòu)化數(shù)據(jù))系統(tǒng),本版本主要針對Hadoop的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理。大數(shù)據(jù)處理系統(tǒng)實(shí)現(xiàn)對數(shù)據(jù)的邏輯劃分功能,支持按照數(shù)據(jù)語義對數(shù)據(jù)進(jìn)行Hash,Range,List和Round-robing的劃分策略。針對結(jié)構(gòu)化數(shù)據(jù)處理的數(shù)據(jù)庫系統(tǒng),每個數(shù)據(jù)節(jié)點(diǎn)保存整個數(shù)據(jù)集的一部分。每個數(shù)據(jù)節(jié)點(diǎn)上數(shù)據(jù)均可使用成熟的數(shù)據(jù)庫的索引、分區(qū)等特性。針對非結(jié)構(gòu)化數(shù)據(jù)處理的Hadoop系統(tǒng),則可以將應(yīng)用數(shù)據(jù)劃分成不同的文件(或者文件夾),每個文件(或文件夾)保存數(shù)據(jù)集的一部分,表示符合某個特定屬性的數(shù)據(jù)集合。關(guān)鍵技術(shù)XData大數(shù)據(jù)處理平臺,是在XData-DRAC 結(jié)構(gòu)化數(shù)據(jù)處理系統(tǒng)的基礎(chǔ)上,增加對非

58、結(jié)構(gòu)化數(shù)據(jù)的處理,實(shí)現(xiàn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一處理。該系統(tǒng)的關(guān)鍵技術(shù)包括以下幾個方面:支持Hadoop/HBase/Hive和Database的柔性系統(tǒng)架構(gòu)XData支持對Hadoop/HBase/Hive的數(shù)據(jù)處理模式,同時也支持對Oracle/Postgresql的數(shù)據(jù)庫處理方式,對外提供統(tǒng)一的數(shù)據(jù)處理訪問接口,系統(tǒng)結(jié)構(gòu)可以隨著數(shù)據(jù)量進(jìn)行柔性配置,最大支持的節(jié)點(diǎn)數(shù)不低于256個,總數(shù)據(jù)量不低于16PB。實(shí)時分析和離線分析的融合技術(shù)XData大數(shù)據(jù)平臺能夠同時支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理,采用統(tǒng)一的架構(gòu),存儲組織和劃分,以及查詢處理技術(shù),實(shí)現(xiàn)海量數(shù)據(jù)的實(shí)時入庫和實(shí)時查詢檢索,同時也提供對

59、超大規(guī)模數(shù)據(jù)量的分析處理。按照不同的查詢處理類型,可分別達(dá)到如下性能指標(biāo):a) 點(diǎn)查詢和過濾查詢,達(dá)到秒級的響應(yīng)速度;b) 統(tǒng)計(jì)類查詢,可達(dá)到分鐘級別的響應(yīng)速度;c) 關(guān)聯(lián)和嵌套查詢,根據(jù)數(shù)據(jù)量的差異,執(zhí)行時間從數(shù)秒到數(shù)小時不等;d) 實(shí)現(xiàn)對超大數(shù)據(jù)集的查詢處理能力。數(shù)據(jù)的模式定義和數(shù)據(jù)劃分技術(shù)支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲劃分,包括數(shù)據(jù)的模式定義和物理存儲定義。其中模式是指對數(shù)據(jù)的解釋方式,而存儲定義表示數(shù)據(jù)的存儲組織方式。系統(tǒng)支持?jǐn)?shù)據(jù)按照某類屬性的Hash/Range等進(jìn)行劃分。提供存儲參數(shù)的設(shè)置,如入庫的并行度設(shè)置,數(shù)據(jù)塊大小設(shè)置等。SQL/MapReduce語義定義和分析技術(shù)采用類SQ

60、L的方式,實(shí)現(xiàn)對SQL和MapReduce語義的定義和分解。計(jì)算語義的定義支持SQL/MapReduce的級聯(lián)和關(guān)聯(lián),以及這兩種數(shù)據(jù)處理方式的混合任務(wù)流定義,可以支持廣泛的數(shù)據(jù)處理應(yīng)用。支持SQL/MapReduce計(jì)算語義的執(zhí)行控制技術(shù)通用的并行查詢引擎支持對SQL和MapReduce作業(yè)的調(diào)度和執(zhí)行控制,包括多個任務(wù)之間的同步控制,數(shù)據(jù)劃分和傳輸,以及中間結(jié)果的轉(zhuǎn)換等技術(shù)。其中查詢服務(wù)器負(fù)責(zé)執(zhí)行控制和結(jié)果采集,而所有的數(shù)據(jù)處理均在數(shù)據(jù)節(jié)點(diǎn)執(zhí)行,充分利用多節(jié)點(diǎn)的并行性。大表關(guān)聯(lián)查詢和嵌套查詢技術(shù)XData系統(tǒng)針對大表關(guān)聯(lián)和大表嵌套等復(fù)雜計(jì)算進(jìn)行了技術(shù)攻關(guān),在國內(nèi)首次實(shí)現(xiàn)了分布環(huán)境下的大數(shù)據(jù)關(guān)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論