數(shù)據(jù)共享平臺相關技術與應用課件_第1頁
數(shù)據(jù)共享平臺相關技術與應用課件_第2頁
數(shù)據(jù)共享平臺相關技術與應用課件_第3頁
數(shù)據(jù)共享平臺相關技術與應用課件_第4頁
數(shù)據(jù)共享平臺相關技術與應用課件_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)中心相關技術與應用2013-12-02數(shù)據(jù)中心相關技術與應用2013-12-02智慧物聯(lián)網(wǎng)-體系結構數(shù)據(jù)中心智慧物聯(lián)網(wǎng)-體系結構數(shù)據(jù)中心2智慧城市架構智慧城市架構3中國移動經(jīng)營分析系統(tǒng)新一代架構數(shù)據(jù)域獲取域應用域管理域Hadoop云平臺基于高性能平臺基于X86平臺主數(shù)據(jù)倉庫深度分析庫基于X86平臺服務組件功能組件管理組件開放應用平臺標準化應用開放/測試/部署/運行環(huán)境基礎分析應用挖掘分析應用自助分析應用實時分析應用統(tǒng)一調度統(tǒng)一數(shù)據(jù)采集接口(結構化數(shù)據(jù)/非結構化數(shù)據(jù))數(shù)據(jù)預處理元數(shù)據(jù)管理數(shù)據(jù)質量管理安全管理運維管理透明訪問層數(shù)據(jù)聯(lián)邦數(shù)據(jù)互通數(shù)據(jù)目錄數(shù)據(jù)地圖訪問接口(API/SQL)集群監(jiān)控/配置數(shù)據(jù)存儲層電腦智能手機PAD監(jiān)控中心中國移動經(jīng)營分析系統(tǒng)新一代架構數(shù)據(jù)域獲取域應用域管理域Had4中國電信EnterpriseDataAnalysis中國電信EnterpriseDataAnalysis5數(shù)據(jù)變?yōu)槠髽I(yè)的核心資產(chǎn)市場研究機構Gartner最新報告顯示,到2017年,數(shù)據(jù)業(yè)務能力差的企業(yè)將失去核心競爭力,25%的企業(yè)可能會被淘汰。數(shù)據(jù)商業(yè)策略創(chuàng)造了一定的價值和資產(chǎn)收入,它超越了傳統(tǒng)的業(yè)務模式和客戶體驗,通過自動化過程管理改造流程,利用數(shù)字系統(tǒng)建立人、地方和事物的普遍聯(lián)系。如今,數(shù)據(jù)業(yè)務已迅速成為現(xiàn)代商業(yè)模式中的一個共同關注的、通用的話題,它正在重塑現(xiàn)代企業(yè)的組織形式和企業(yè)文化。數(shù)據(jù)變?yōu)槠髽I(yè)的核心資產(chǎn)市場研究機構Gartner最新報告顯示6目錄MPP數(shù)據(jù)庫在數(shù)據(jù)中心的應用企業(yè)級數(shù)據(jù)中心定義數(shù)據(jù)中心中的大數(shù)據(jù)數(shù)據(jù)中心BI技術選型描述Hadoop在數(shù)據(jù)中心的應用數(shù)據(jù)中心ESB技術研究大數(shù)據(jù)技術與傳統(tǒng)數(shù)據(jù)中心的集成目錄MPP數(shù)據(jù)庫在數(shù)據(jù)中心的應用企業(yè)級數(shù)據(jù)中心定義數(shù)據(jù)中心中7傳統(tǒng)的數(shù)據(jù)倉庫的架構數(shù)據(jù)源抽取、轉換、加載業(yè)務數(shù)據(jù)集市企業(yè)數(shù)據(jù)倉庫ETL元數(shù)據(jù)前端分析展現(xiàn)工具查詢工具、應用OLTP傳統(tǒng)數(shù)據(jù)倉庫在大數(shù)據(jù)時代面臨的挑戰(zhàn):成本居高不下,以ScaleUp為主數(shù)據(jù)量,以GB~TB為主擴展能力擁有成本處理數(shù)據(jù)的能力數(shù)據(jù)共享能力傳統(tǒng)的數(shù)據(jù)倉庫的架構數(shù)據(jù)源抽取、轉換、加載業(yè)務數(shù)據(jù)集市企業(yè)數(shù)8新一代數(shù)據(jù)中心定義企業(yè)數(shù)據(jù)中心是指建立在數(shù)據(jù)倉庫與數(shù)據(jù)倉庫之上的決策分析應用,應包括數(shù)據(jù)源、數(shù)據(jù)ETL、ODS數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)集市、商務智能應用、數(shù)據(jù)管理等功能。數(shù)據(jù)中心應該具備常見數(shù)據(jù)的處理與管理能力,具備對結構化、半結構化、非結構化等數(shù)據(jù)的處理能力,同時支持RDB、MPP、NoSQL,同時具備數(shù)據(jù)的通用管理能力,以數(shù)據(jù)為中心進行平臺建設。數(shù)據(jù)中心數(shù)據(jù)平臺在接口層要豐富又簡單,可以提供各種應用所需接口,最大程度匹配已有接口,對應用改動需求力求最低。一個合理的數(shù)據(jù)平臺,不能等同于Hadoop或者其他某項單一技術建設;整體數(shù)據(jù)中心的建設,從數(shù)據(jù)采集層、存儲層、應用層都有完整的解決方案,同時具備平臺運維管理、接口管理、數(shù)據(jù)管理功能;數(shù)據(jù)中心數(shù)據(jù)管理能力至少應包含:1.元數(shù)據(jù)管理,2.數(shù)據(jù)質量管理,3.數(shù)據(jù)安全管理,4.數(shù)據(jù)可視化管理,5.數(shù)據(jù)生命周期管理。數(shù)據(jù)平臺必須針對數(shù)據(jù)提供完整方案,同時兼顧應用接口、其他平臺接入,系統(tǒng)管理、系統(tǒng)調度等功能。任何一種單一技術都難以適應數(shù)據(jù)中心數(shù)據(jù)采集、存儲、處理和對外服務的需求,多種技術并存才是發(fā)展趨勢。RDB、MPP、Hadoop采集處理層數(shù)據(jù)抽取/加載/檢查ETL調度數(shù)據(jù)交互、轉換數(shù)據(jù)映射數(shù)據(jù)層數(shù)據(jù)存儲數(shù)據(jù)聚合服務數(shù)據(jù)處理服務數(shù)據(jù)查詢服務事件通知服務信息子層KPI報表統(tǒng)一視圖知識庫接口層服務管理資料類數(shù)據(jù)服務指標類數(shù)據(jù)服務配置類數(shù)據(jù)服務清單累數(shù)據(jù)服務日志類數(shù)據(jù)服務OPENAPI數(shù)據(jù)管理功能數(shù)據(jù)生命周期管理數(shù)據(jù)可視化管理數(shù)據(jù)質量管理采集層數(shù)據(jù)質量管理數(shù)據(jù)質量規(guī)則、知識庫數(shù)據(jù)質量稽核指標運維數(shù)據(jù)安全管理4A認證隱私信息保護權限管控、審計追蹤元數(shù)據(jù)管理元數(shù)據(jù)獲取管理元數(shù)據(jù)存儲與模型管理元數(shù)據(jù)分析、展現(xiàn)、服務技術、業(yè)務元數(shù)據(jù)管理ODW-RDBODW-MPP分布式文件系統(tǒng)分布式關系數(shù)據(jù)庫分布式計算數(shù)據(jù)分發(fā)同步處理用戶管理權限管理備份與恢復日志管理設備監(jiān)控指標資源池指標數(shù)據(jù)庫指標分布式系統(tǒng)指標指標匯總存儲管理資源池管理設備管理作業(yè)調度管理事件自動化規(guī)則配置執(zhí)行引擎性能預警調度異常控制北向接口管理數(shù)據(jù)采集接口管理數(shù)據(jù)共享配置通用接口配置平臺管理功能數(shù)據(jù)服務功能綜合分析系統(tǒng)A+ABIS應用無線網(wǎng)優(yōu)綜合監(jiān)控系統(tǒng)信令監(jiān)測系統(tǒng)日志上層應用其他應用新一代數(shù)據(jù)中心定義企業(yè)數(shù)據(jù)中心是指建立在數(shù)據(jù)倉庫與數(shù)據(jù)倉庫之9數(shù)據(jù)共享平臺邏輯架構數(shù)據(jù)源數(shù)據(jù)處理域半結構/非結構化數(shù)據(jù)流式數(shù)據(jù)結構化數(shù)據(jù)運行數(shù)據(jù)庫(RDBMS)數(shù)據(jù)存儲域基礎數(shù)據(jù)服務數(shù)據(jù)聚合服務數(shù)據(jù)處理服務數(shù)據(jù)查詢服務事件通知服務分析挖掘數(shù)據(jù)庫(EDW,MPP)分布式文件系統(tǒng)分布式計算框架非關系數(shù)據(jù)庫NoSQL統(tǒng)一ETL管理傳統(tǒng)技術ETLHadoopETL流式計算ETL數(shù)據(jù)分發(fā)同步處理客戶信息賬務信息網(wǎng)絡信息社會環(huán)境信息……數(shù)據(jù)集市A數(shù)據(jù)集市B數(shù)據(jù)集市C……元數(shù)據(jù)管理元數(shù)據(jù)應用元數(shù)據(jù)服務封裝元數(shù)據(jù)分析展現(xiàn)元數(shù)據(jù)基礎管理元數(shù)據(jù)存儲元數(shù)據(jù)獲取平臺管理接口管理調度管理監(jiān)控管理數(shù)據(jù)質量管理新數(shù)據(jù)源稽核數(shù)據(jù)質量監(jiān)控數(shù)據(jù)質量評估數(shù)據(jù)質量配置管理數(shù)據(jù)質量兩級聯(lián)動數(shù)據(jù)質量問題處理安全管理4A認證安全服務調用隱私管理審計追蹤生命周期管理入庫存儲數(shù)據(jù)清理數(shù)據(jù)管理域面向SOA的ESB(webservice)應用層接口服務域資料類數(shù)據(jù)服務指標類數(shù)據(jù)服務清單類數(shù)據(jù)服務日志類數(shù)據(jù)服務事件類數(shù)據(jù)服務配置類數(shù)據(jù)服務查詢類應用統(tǒng)計類應用…分析類應用OpenAPI審計類應用客服投訴綜合監(jiān)控無線網(wǎng)優(yōu)經(jīng)營分析客戶感知…數(shù)據(jù)門戶域數(shù)據(jù)管理門戶系統(tǒng)管理域數(shù)據(jù)共享平臺邏輯架構數(shù)據(jù)源數(shù)據(jù)處理域半結構/非結構化數(shù)據(jù)流式10數(shù)據(jù)的分級支撐體系專題目標:通過引入大數(shù)據(jù)、NoSQL、NewSQL技術,對數(shù)據(jù)分級支撐的研究和試點,為業(yè)務支撐系統(tǒng)的數(shù)據(jù)生命周期管理和數(shù)據(jù)支撐提供技術上的指導和規(guī)范。零級數(shù)據(jù)一級數(shù)據(jù)二級數(shù)據(jù)三級數(shù)據(jù)供應用高速直接訪問的數(shù)據(jù)支撐系統(tǒng)的交易級核心數(shù)據(jù)海量查詢與歷史數(shù)據(jù)備份和備查數(shù)據(jù)內存數(shù)據(jù)庫集群技術內存網(wǎng)格集群技術傳統(tǒng)RDBMS演進到“新型RDBMS+一體機技術”傳統(tǒng)RDBMS演進到“MPPRDBMS+分布式數(shù)據(jù)庫”分布式文件系統(tǒng)、分布式數(shù)據(jù)庫技術數(shù)據(jù)生命周期管理數(shù)據(jù)的分級支撐體系專題目標:通過引入大數(shù)據(jù)、NoSQL、Ne11一句話總結未來天云數(shù)據(jù)平臺一句話定位:天云數(shù)據(jù)平臺=“傳統(tǒng)”+“現(xiàn)代”數(shù)據(jù)中心集大成者。傳統(tǒng)=傳統(tǒng)數(shù)據(jù)倉庫/RDBMS,是基于傳統(tǒng)基于結構化數(shù)據(jù)處理的關系型數(shù)據(jù)(倉)庫,以ScaleUp為特點現(xiàn)代=基于關系代數(shù)理論的MPP+Hadoop技術,以分布式處理為基礎,以Scaleout為特點,可處理海量數(shù)據(jù)適用場景:運營商跨域數(shù)據(jù)融合,智慧城市,智慧省份解決方案,公安,醫(yī)療等。一句話總結未來天云數(shù)據(jù)平臺一句話定位:天云數(shù)據(jù)平臺=“傳統(tǒng)”12目錄MPP數(shù)據(jù)庫在數(shù)據(jù)中心的應用企業(yè)級數(shù)據(jù)中心定義數(shù)據(jù)中心中的大數(shù)據(jù)數(shù)據(jù)中心BI技術選型描述Hadoop在數(shù)據(jù)中心的應用數(shù)據(jù)中心ESB技術研究大數(shù)據(jù)技術與傳統(tǒng)數(shù)據(jù)中心的集成目錄MPP數(shù)據(jù)庫在數(shù)據(jù)中心的應用企業(yè)級數(shù)據(jù)中心定義數(shù)據(jù)中心中13商業(yè)模式驅動應用需求驅動云計算改變了IT,而大數(shù)據(jù)則改變了業(yè)務云計算是大數(shù)據(jù)的IT基礎,大數(shù)據(jù)須有云計算作為基礎架構,才能高效運行通過大數(shù)據(jù)的業(yè)務需求,為云計算的落地找到了實際應用大數(shù)據(jù)云計算云計算與大數(shù)據(jù)的關系商業(yè)模式驅動應用需求驅動云計算改變了IT,而大數(shù)據(jù)則改變了業(yè)14數(shù)據(jù)中心引入大數(shù)據(jù)的意義與原則隨著半結構化、非結構化數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)等新型數(shù)據(jù)源的引入以及分析需求對分析深度和廣度的增加,以移動運營商行業(yè)為例,越來越需要大數(shù)據(jù)。主要包括如下:1、數(shù)據(jù)規(guī)模方面:GPRS流量話單的條數(shù)和數(shù)據(jù)量已經(jīng)超過了語音詳單,而位置信令、Gn信令、客服語音、互聯(lián)網(wǎng)外部數(shù)據(jù)等規(guī)模更大,且還處在不斷增長的趨勢。2、數(shù)據(jù)類型方面:逐步從OLTP系統(tǒng)中獲得的結構化數(shù)據(jù),過渡到結構化數(shù)據(jù)和互聯(lián)網(wǎng)網(wǎng)頁、上網(wǎng)日志等非結構化數(shù)據(jù)和半結構化數(shù)據(jù)共存。3、對數(shù)據(jù)的使用方面:不僅有批量的數(shù)據(jù)加工和前臺界面的訪問,臨時統(tǒng)計、數(shù)據(jù)挖掘等訪問需求也逐步增多。對歷史明細數(shù)據(jù)的訪問增多。對數(shù)據(jù)訪問的及時性增強。隨著數(shù)據(jù)中心越來越具備大數(shù)據(jù)平臺的特征,利用傳統(tǒng)的單一數(shù)據(jù)倉庫技術就難以滿足高效低成本的需求,需要引入相應的大數(shù)據(jù)技術。新技術的引入不能影響原有的使用感知,需要按照分階段逐步引入的方式??梢詤⒖既缦碌膸讉€引入原則:1、先增量后存量?,F(xiàn)有的數(shù)據(jù)處理系統(tǒng)引入大數(shù)據(jù)處理技術,面臨著模型改造、流程改造等一系列的問題,可以首先在新上線應用引入大數(shù)據(jù)處理技術。2、先邊緣后核心。對于原有功能的遷移,可以先遷移非關鍵的應用。這些應用不涉及到關鍵生產(chǎn)任務,可以忍受數(shù)據(jù)處理延遲和故障修復時間較高等可能出現(xiàn)的風險。3、先簡單后復雜。數(shù)據(jù)處理邏輯較簡單的應用也可以首先嘗試引入大數(shù)據(jù)處理技術,降低實施的復雜度,積累運維經(jīng)驗。通過在大數(shù)據(jù)處理技術的規(guī)劃、實施及運維過程中積累經(jīng)驗及教訓,不斷提升和完善大數(shù)據(jù)技術的應用水平,逐步拓展大數(shù)據(jù)技術應用領域。數(shù)據(jù)中心引入大數(shù)據(jù)的意義與原則15大數(shù)據(jù)在數(shù)據(jù)中心的應用場景大數(shù)據(jù)技術可以應用在以下場景(包括但不限于):1、原數(shù)據(jù)倉庫底層結構化數(shù)據(jù)處理(ETL或ELT)。底層結構化數(shù)據(jù)處理計算任務重但復雜性不高,不涉及多表關聯(lián),適合引入大數(shù)據(jù)技術實現(xiàn)高效低成本。例如:對運營商的清單(語音詳單、GPRS清單、WLAN清單等)的清洗、轉換、匯總等。2、半結構和非結構數(shù)據(jù)處理與分析。例如對上網(wǎng)日志、網(wǎng)絡信令、客服語音等數(shù)據(jù)的處理和分析,這些數(shù)據(jù)難以利用傳統(tǒng)數(shù)據(jù)倉庫技術進行處理和分析。3、數(shù)據(jù)集市。地數(shù)據(jù)集市應用較為獨立,且對可靠性的要求并不是十分嚴格,適合作為引入大數(shù)據(jù)技術形成資源池,以移動運營商為例,可實現(xiàn)各地市、各部門數(shù)據(jù)集市的云化、池化和虛擬化,最終實現(xiàn)資源動態(tài)調配,達到高效低成本。4、數(shù)據(jù)倉庫數(shù)據(jù)分級存儲。對低價值的細節(jié)數(shù)據(jù)以及長周期的歷史數(shù)據(jù)(冷數(shù)據(jù))訪問頻率較低,也能容忍相對較長的響應時間,可以存儲在成本更低的平臺上。5、數(shù)據(jù)挖掘。某些數(shù)據(jù)挖掘設計長周期的數(shù)據(jù),計算時間很長(數(shù)天),占用很多數(shù)據(jù)倉庫資源。還有一些數(shù)據(jù)挖掘算法超出了關系代數(shù)計算范疇,需要抽取數(shù)據(jù)到獨立的計算平臺(例如SAS統(tǒng)計分析系統(tǒng))中進行計算。這些數(shù)據(jù)挖掘任務可以遷移到大數(shù)據(jù)平臺之上進行計算。例如交往圈的計算,因其僅涉及單一數(shù)據(jù),但數(shù)據(jù)量非常大,且需要多次迭代計算。6、對外查詢。數(shù)據(jù)中心不僅僅是數(shù)據(jù)處理,也需要將數(shù)據(jù)處理的結果對外提供查詢,而這些查詢一部分是海量的OLAP性質的查詢,另外還有一部分OLTP性質的查詢,即數(shù)量眾多但每次查詢量較少的。比如數(shù)據(jù)中心前端庫、與生產(chǎn)系統(tǒng)互動的數(shù)據(jù)庫以及提供流量詳單查詢的數(shù)據(jù)庫。這些查詢任務不能很好地運行在OLAP類數(shù)據(jù)庫之上,可以遷移到大數(shù)據(jù)平臺上。針對這些應用場景,可以看到,主要需要引入的是Hadoop和MPP技術,然后逐步考慮NoSQL、流計算和內存計算等技術的引入。大數(shù)據(jù)在數(shù)據(jù)中心的應用場景16Hadoop技術與MPP技術的比較

HadoopMPP傳統(tǒng)數(shù)據(jù)倉庫平臺開放性高低低運維復雜度高,與運維人員能力相關中中擴展能力高中低擁有成本低中高系統(tǒng)和數(shù)據(jù)管理成本高中中應用開發(fā)維護成本高中中SQL支持低高高數(shù)據(jù)規(guī)模PB級別部分PBTB級別計算性能對非關系型操作效率高對關系型操作效率高對關系型操作效率中數(shù)據(jù)結構結構化、半結構化和非結構數(shù)據(jù)結構化數(shù)據(jù)結構化數(shù)據(jù)Hadoop在處理非結構數(shù)據(jù)和半結構數(shù)據(jù)上具備優(yōu)勢,尤其適合海量數(shù)據(jù)批處理等應用需求。當然隨著Hadoop技術的成熟,基于Hadoop的即席查詢技術也逐漸嶄露頭角。比如仿照Dremel的開源項目ApacheDrill以及ClouderaImpala。MPP適合替代現(xiàn)有關系數(shù)據(jù)結構下的大數(shù)據(jù)處理,具有較高的效率,但其在大規(guī)模集群(超過100個節(jié)點)下的可用性還有待試點證實。MPP數(shù)據(jù)庫場景下經(jīng)常需要掃描大量的數(shù)據(jù),所以對磁盤存儲系統(tǒng)的I/O性能要求非常高,在測試和日常運行中,I/O多大情況下是瓶頸,這點與Hadoop平臺可以明顯區(qū)分開來。Hadoop技術與MPP技術的比較

HadoopMPP傳統(tǒng)17目錄MPP數(shù)據(jù)庫在數(shù)據(jù)中心的應用企業(yè)級數(shù)據(jù)中心定義數(shù)據(jù)中心中的大數(shù)據(jù)數(shù)據(jù)中心BI技術規(guī)劃選型Hadoop在數(shù)據(jù)中心的應用數(shù)據(jù)中心ESB技術研究大數(shù)據(jù)技術與傳統(tǒng)數(shù)據(jù)中心的集成目錄MPP數(shù)據(jù)庫在數(shù)據(jù)中心的應用企業(yè)級數(shù)據(jù)中心定義數(shù)據(jù)中心中18MPP數(shù)據(jù)庫在數(shù)據(jù)中心的應用場景MPP數(shù)據(jù)庫適合結構化數(shù)據(jù)的深度分析、復雜查詢以及多變的自助分析類應用。它提供了統(tǒng)一的標準訪問接口(SQL),而無需像Hadoop一樣需要定制開發(fā)。MPP數(shù)據(jù)庫一般構建在X86平臺上,并使用本地盤而不用陣列,而且產(chǎn)品眾多,因為可以降低擁有成本。MPP數(shù)據(jù)庫產(chǎn)品在數(shù)據(jù)中心中可以用于以下場景(包括但不限于):數(shù)據(jù)集市:數(shù)據(jù)集市定位于以企業(yè)數(shù)據(jù)倉庫數(shù)據(jù)為基礎,結合其他相關數(shù)據(jù),支撐特定業(yè)務場景或者業(yè)務部門需求的IT平臺。目前運營商數(shù)據(jù)中心中已經(jīng)存在地市數(shù)據(jù)集市和部門數(shù)據(jù)集市。隨著新業(yè)務平臺分析需求的出現(xiàn)、不同分析特征的需求的出現(xiàn),還有一些分析需求可以通過數(shù)據(jù)集市的方式進行承載,比如深度分析(AdvancedAnalysis)和自助分析(Self-ServiceAnalysis)。數(shù)據(jù)分級存儲(歷史庫或者明細庫):數(shù)據(jù)中心中數(shù)據(jù)存儲周期分為在線數(shù)據(jù)、近線數(shù)據(jù)、歸檔數(shù)據(jù)。目前在線數(shù)據(jù)及近線數(shù)據(jù)存放在數(shù)據(jù)倉庫,歸檔數(shù)據(jù)使用磁帶庫存放。帶來的問題是在線數(shù)據(jù)中不常訪問的數(shù)據(jù)占據(jù)數(shù)據(jù)倉庫寶貴的資源,針對歸檔數(shù)據(jù)的數(shù)據(jù)分析需求增加,而數(shù)據(jù)從磁帶庫恢復的時間無法滿足需求。數(shù)據(jù)中心數(shù)據(jù)倉庫的數(shù)據(jù)在完成近期數(shù)據(jù)支撐任務后,轉移到歷史庫中進行長周期存儲,支持后續(xù)數(shù)據(jù)訪問和長周期數(shù)據(jù)分析需求,同時可作為核心數(shù)據(jù)倉庫的備份,提升整體架構及數(shù)據(jù)的高可用性。MPP架構基于x86平臺構建,可高效低成本的實現(xiàn)歷史庫的建設需求。ETL:通過將數(shù)據(jù)的關聯(lián)匯總卸載到MPP數(shù)據(jù)庫上,可降低數(shù)據(jù)倉庫的負載,提高數(shù)據(jù)關聯(lián)匯總的性能,同時可以滿足后續(xù)數(shù)據(jù)量增長情況下的平滑擴容的需求。這部分的計算任務可以定位于數(shù)據(jù)倉庫外的復雜數(shù)據(jù)加工、數(shù)據(jù)匯總任務,其源數(shù)據(jù)可以來自業(yè)務系統(tǒng),也可以來自ETL(專業(yè)ETL工具或者Hadoop)清洗、轉換后的話單或者經(jīng)過ETL輕度匯總過的數(shù)據(jù)。其結果數(shù)據(jù)導入到基礎數(shù)據(jù)倉庫中供上層應用訪問。MPP數(shù)據(jù)庫在數(shù)據(jù)中心的應用場景MPP數(shù)據(jù)庫適合結構化數(shù)據(jù)的19MPP平臺選型建議對比項目TeradataEMC南大通用IBMHPAsterDataGreenPlumGBase8ADB2DPFOverGPFSVertica無共享MPP架構

-無主控節(jié)點

??*

?無共享MPP架構

-有主控節(jié)點??

支持行存儲??

?

支持列存儲???(10.5版本發(fā)布后)?當前構建在X86平臺上的新型MPP數(shù)據(jù)庫產(chǎn)品眾多,Garnter每年會發(fā)布一版數(shù)據(jù)倉庫魔力象限可以供參考。在大陸地區(qū)可以獲得技術支持的MPP產(chǎn)品及其特性如下(包括但不限于):不同架構的數(shù)據(jù)倉庫各有優(yōu)缺點。比如帶主控節(jié)點(Master)的數(shù)據(jù)庫會存在單點故障,但各節(jié)點分工明確;無主控節(jié)點的數(shù)據(jù)庫不存在單點故障,但可能某各節(jié)點承擔的任務不平均。行存儲裝載數(shù)據(jù)快、壓縮率低、查詢速度稍慢;列存儲裝載數(shù)據(jù)滿、壓縮率高、查詢速度快,但部分產(chǎn)品的列存儲方式無法支持更新、刪除數(shù)據(jù)。硬件平臺的選型參考各廠家的指導文檔。MPP平臺選型建議對比項目TeradataEMC南大通用IB20MPP數(shù)據(jù)分布規(guī)劃得益于Share-Nothing的架構,MPP數(shù)據(jù)庫的所有表都是分布式存儲的,所以在創(chuàng)建表時都需要指定分布鍵,分布鍵可以是單一字段,也可以是復合字段,然后通過Hash方式去分布。合理的分布鍵設計可以使得大部分的表關聯(lián)操作在一個節(jié)點內完成,不需要跨節(jié)點進行數(shù)據(jù)交互,這是MPP數(shù)據(jù)庫產(chǎn)品(按行Hash分布)與Hadoop(選擇按照塊隨機分布,副本既做備份,又做并行讀?。┑母静顒e。注意:在某個節(jié)點發(fā)生故障無法為整個MPP數(shù)據(jù)庫集群提供服務的情況下,數(shù)據(jù)庫會自動切換到副本機制,利用副本所在的服務器來提供服務。但是副本所在的服務器本身就要承擔自己正常的工作任務,這樣一來對應數(shù)據(jù)操作相當于負荷加重了一倍。所以故障情況下雖然整個數(shù)據(jù)庫集群可用,但是理論上的性能將下降到原來的一半,而不是按照退服節(jié)點比例的性能下降。MPP數(shù)據(jù)分布規(guī)劃得益于Share-Nothing的架構,M21目錄MPP數(shù)據(jù)庫在數(shù)據(jù)中心的應用企業(yè)級數(shù)據(jù)中心定義數(shù)據(jù)中心中的大數(shù)據(jù)數(shù)據(jù)中心BI技術選型描述Hadoop在數(shù)據(jù)中心的應用數(shù)據(jù)中心ESB技術研究大數(shù)據(jù)技術與傳統(tǒng)數(shù)據(jù)中心的集成目錄MPP數(shù)據(jù)庫在數(shù)據(jù)中心的應用企業(yè)級數(shù)據(jù)中心定義數(shù)據(jù)中心中22Hadoop在數(shù)據(jù)中心的應用場景分析場景為什么采用Hadoop采用的組件ETL1、降低原始數(shù)據(jù)存儲壓力

2、降低數(shù)據(jù)倉庫處理壓力

3、降低存儲和處理成本Hive/MR/Pig清單查詢1、快速響應海量數(shù)據(jù)查詢

2、降低查詢成本HBase機器學習和數(shù)據(jù)挖掘1、降低海量數(shù)據(jù)挖掘成本

2、縮短計算時間

3、實現(xiàn)更加靈活的算法mahout/R/MR冷數(shù)據(jù)存儲降低冷數(shù)據(jù)存儲成本降低冷數(shù)據(jù)查詢成本HiveOverHDFSHadoop在數(shù)據(jù)中心的應用場景分析場景為什么采用Hadoo23Hadoop在數(shù)據(jù)中心的應用場景-ETLHadoop平臺負責從接口機采集數(shù)據(jù)入HDFS分布式文件系統(tǒng),并進行清洗、關聯(lián)、轉換、匯總、邏輯增強等,實現(xiàn)原始數(shù)據(jù)、明細數(shù)據(jù)和匯總數(shù)據(jù)的處理加工工作。具體實現(xiàn)上可以采用Hive或Pig用腳本來實現(xiàn)數(shù)據(jù)處理,也可以編寫Java或其他語言的程序(用到Hadoop流的功能),直接利用MapReduce框架來進行處理。Hadoop在數(shù)據(jù)中心的應用場景-ETLHadoop平臺負責24Hadoop在數(shù)據(jù)中心的應用場景-詳單查詢Oracle/DB2用戶詳單文件庫數(shù)據(jù)存儲服務接口話單查詢數(shù)據(jù)抽取數(shù)據(jù)解析數(shù)據(jù)翻譯用戶詳單統(tǒng)計分析收入保障呼叫中心飛信短信彩信WAPEmail網(wǎng)廳統(tǒng)一接入網(wǎng)關平臺用戶賬單HBase分布式數(shù)據(jù)庫(基于HDFS)……Hive分布式數(shù)據(jù)倉庫(基于HDFS)……前端查詢業(yè)務服務器集群……ETL服務器集群……清賬單數(shù)據(jù)抽取和轉換計費數(shù)據(jù)庫清賬單數(shù)據(jù)裝載入HBase歷史清賬單數(shù)據(jù)可從HBase導出裝載入Hive(可選)負載均衡設備查詢清單互聯(lián)網(wǎng)用戶清單云平臺采用基于大數(shù)據(jù)的Hadoop云架構,以PC服務器搭建大規(guī)模存儲集群。在數(shù)據(jù)處理方面:引入數(shù)據(jù)抽取、轉換、加載工具ETL,在入庫前對詳單中的各個字段含義進行翻譯,服務接口不再進行翻譯,提升查詢效率;在分布式存儲方面:引入基于x86服務器的分布式存儲技術,主要由Hbase、Hive、數(shù)據(jù)庫集成等功能組成,在提高系統(tǒng)的擴展性和彈性的同時,可以方便、快速地為應用增加或減少資源。某運營商省份的應用效果:應用前數(shù)據(jù)導入性能指標1M/秒,應用后達到45M/秒,性能提升44倍。應用前數(shù)據(jù)加載性能指標3萬條/秒,應用后達到17萬條/秒,性能提升4.67倍。應用前用戶查詢性能指標30個并發(fā)查詢/秒,應用后達到100個并發(fā)查詢/秒,性能提升233%。應用前并發(fā)查詢性能指標35.81毫秒/筆,應用后達到8.09毫秒/筆,性能提升77.4%。Hadoop在數(shù)據(jù)中心的應用場景-詳單查詢Oracle/DB25Hadoop在數(shù)據(jù)中心的應用場景-機器學習與

數(shù)據(jù)挖掘、冷數(shù)據(jù)存儲Hadoop可以承載數(shù)據(jù)量較大、需要多次迭代關聯(lián)、涉及數(shù)據(jù)對象較為單一的數(shù)據(jù)挖掘計算。Hadoop上開源數(shù)據(jù)挖掘分析專題工具有mahout和R,也可通過MR接口編程實現(xiàn)所需的挖掘算法,可以實現(xiàn)以下數(shù)據(jù)挖掘:互聯(lián)網(wǎng)內容分析專題:客戶上網(wǎng)行為分析,關鍵詞排序,爬蟲,非結構化數(shù)據(jù)識別WLAN運營分析專題:WLAN終端分析,WLAN位置分析,WLAN與GPRS關聯(lián)分析,WLAN用戶群分析用戶交友圈分析專題:用戶個人語音交友圈分析,用戶個人短信交友圈分析,交友圈特征分析Hadoop可以承載歷史性、訪問頻率較低的數(shù)據(jù),存放在Hadoop上仍然能夠實現(xiàn)通過Hive或者其他軟件,實現(xiàn)類SQL或者其他API的數(shù)據(jù)訪問。而在配置策略時,為了節(jié)省空間,可選擇進行壓縮、糾刪碼(HDFSRaid)或者降低副本個數(shù),例如2。冷數(shù)據(jù)例如:超過一定周期的(12個月以上)的詳單信息。上網(wǎng)日志信息和原始網(wǎng)頁信息。其他價值低、優(yōu)先級低、數(shù)據(jù)量大的數(shù)據(jù)。Hadoop在數(shù)據(jù)中心的應用場景-機器學習與

數(shù)據(jù)挖掘、冷數(shù)26Hadoop選型建議產(chǎn)品包基線版本產(chǎn)品包基線版本Hadoop2.0.0HBase0.94.6Hive0.10.0ClouderaImpala1.0ZooKeeper3.4.3

總體來看,目前ApacheHadoop開源社區(qū)主要在Hadoop1.0和2.0兩個版本上分別進行持續(xù)更新優(yōu)化。而Cloudera公司的Hadoop版本CDH3和CDH4也分別基于Hadoop1.0和2.0版本進行封裝。下圖開源社區(qū)發(fā)布的各個版本以及與Cloudera發(fā)布的CDH軟件包的對應關系如下圖所示,以及對應CDH4.3版本的描述:Hadoop選型建議產(chǎn)品包基線版本產(chǎn)品包基線版本Hadoop27Hadoop服務器配置建議項目主節(jié)點配置建議數(shù)據(jù)處理(MR/hive)的數(shù)據(jù)節(jié)點數(shù)據(jù)查詢(HBase)的數(shù)據(jù)節(jié)點,可以與數(shù)據(jù)處理的數(shù)據(jù)節(jié)點合設zk節(jié)點CPU個數(shù)及核心數(shù)2路8核以上2路8核以上,如果壓縮數(shù)據(jù)或者處理比較復雜,可以考慮更多路多核的2路6核以上2路8核以上硬盤數(shù)硬盤數(shù)可以不同太多,4-6塊6、8或者12塊,數(shù)據(jù)處理時IO一般不是瓶頸,但更多的磁盤可以存儲更多的數(shù)據(jù)6、8或者12塊,取決于存儲量(主要靠緩存)硬盤數(shù)2-4塊內存128G或更高48G或更高64G或更高,太高GC可能成為負擔48G或更高網(wǎng)絡雙口萬兆或千兆網(wǎng)卡雙口萬兆或千兆網(wǎng)卡,主要影響裝載速度和節(jié)點間數(shù)據(jù)交換效率雙口千兆網(wǎng)卡雙口萬兆或千兆網(wǎng)卡,對網(wǎng)絡延時有高要求,如果可以,建議單獨設立奇數(shù)個集群,3-5個Hadoop被設計運行在大規(guī)模通用X86硬件平臺之上,使用本地存儲(DAS)來實現(xiàn)ScaleOut。所以其對硬件的要求較低,一般的PC服務器也可以運行,只要滿足發(fā)行版所要求的操作系統(tǒng)和JDK需求即可。但是在實際使用中需要根據(jù)Hadoop的應用環(huán)境來合理配置硬件,充分發(fā)揮每個部件的效率。如果執(zhí)行MapReduce,特別是在壓縮文件上執(zhí)行,其對CPU的消耗較高,CPU成為了瓶頸;而在運行Hbase的時候,更多的內存會緩存更多的數(shù)據(jù),提高查詢吞吐率并縮短響應時間。所以建議這兩種情況下,可以考慮按照如右表格配比來配置硬件:Hadoop服務器配置建議項目主節(jié)點配置建議數(shù)據(jù)處理(MR/28Hbase配置建議Rowkey設計:HBase表的rowkey設計,一般是將關系數(shù)據(jù)庫中的候選key拼接形成。但是要注意熱點問題,比如rowkey開始的幾位是時間排序,那么在插入的時候,最近幾天的數(shù)據(jù)很可能是熱點數(shù)據(jù),這樣所有的查詢可能都指向了一個regionserver導致了HBase的性能瓶頸。盡量避免使用單調遞增的rowkey,因為在添加數(shù)據(jù)的時候,所有的新數(shù)據(jù)都添加到最后一個region,前面的region沒有或者很少有請求,也是熱點問題。熱點問題的處理方式一般是"加鹽",即在rowkey前面添加hash數(shù),來對數(shù)據(jù)進行hash劃分。列簇設計:HBase表的ColumnFamily最好少于4,一般少于3,對于一般數(shù)據(jù)放入一個列簇中即可。對于一些強關聯(lián),頻繁訪問的數(shù)據(jù)可以放一列,這樣在取數(shù)據(jù)時,熱點訪問只用取這一列數(shù)據(jù),可以節(jié)省IO。多個列簇有各自memstore,memstore開銷大,而且flush一個列簇,其他的類簇也會flush,會造成不必要的開銷。Region劃分:HBase在導入大量數(shù)據(jù)前最好預先劃分region,這樣可以加快導入效率。同時也要避免使用HBase自動劃分region,在一種情況下,HBase面臨大量寫入或者scan請求,同時它的region中的數(shù)據(jù)又達到了閥值,那么它會啟動自動劃分region,有可能導致region劃分風暴,大量的請求會使regionserver和namenode的壓力過大而導致regiondead或者namenodedead。TTL設計:TTL(timetolive),它一般可以用來控制數(shù)據(jù)的生存時間。一些數(shù)據(jù)比如客戶幾年以前的數(shù)據(jù),幾年以后已經(jīng)不關心這些數(shù)據(jù),可以使用TTL刪除。如果數(shù)據(jù)沒有這些要求,可以不使用。Hbase配置建議Rowkey設計:29目錄MPP數(shù)據(jù)庫在數(shù)據(jù)中心的應用企業(yè)級數(shù)據(jù)中心定義數(shù)據(jù)中心中的大數(shù)據(jù)數(shù)據(jù)中心BI技術選型描述Hadoop在數(shù)據(jù)中心的應用數(shù)據(jù)中心ESB技術研究大數(shù)據(jù)技術與傳統(tǒng)數(shù)據(jù)中心的集成目錄MPP數(shù)據(jù)庫在數(shù)據(jù)中心的應用企業(yè)級數(shù)據(jù)中心定義數(shù)據(jù)中心中30數(shù)據(jù)中心系統(tǒng)集成建議在引入Hadoop和MPP數(shù)據(jù)庫后,數(shù)據(jù)中心建設將會在現(xiàn)有傳統(tǒng)數(shù)據(jù)倉庫平臺與新技術之間形成混搭。經(jīng)典數(shù)據(jù)倉庫中的OneSingleViewofTruth將難以維持。主要會面臨如下的問題:數(shù)據(jù)互通:數(shù)據(jù)需要跨Hadoop和多個數(shù)據(jù)庫進行交互,如何實現(xiàn)高效的數(shù)據(jù)同步或數(shù)據(jù)調用?透明訪問:是否有必要對上層應用屏蔽底層不同數(shù)據(jù)平臺的細節(jié),提供統(tǒng)一的數(shù)據(jù)訪問方式?統(tǒng)一管理:如何進行多套數(shù)據(jù)平臺的元數(shù)據(jù)、數(shù)據(jù)質量管理,如何實現(xiàn)統(tǒng)一的調度和運維監(jiān)控?數(shù)據(jù)互通機制是多個數(shù)據(jù)庫與Hadoop之間的橋梁。通過數(shù)據(jù)互通,我們可以將數(shù)據(jù)快速從一個平臺遷移到另外一個平臺或從一個平臺方便地訪問另外一個平臺中的數(shù)據(jù)。數(shù)據(jù)互通機制的主要難點是要保障數(shù)據(jù)在兩個平臺間流轉時的高效性和可靠性。數(shù)據(jù)中心系統(tǒng)集成建議在引入Hadoop和MPP數(shù)據(jù)庫后,數(shù)據(jù)31數(shù)據(jù)中心系統(tǒng)互通的建議實現(xiàn)數(shù)據(jù)互通機制有2種方法:數(shù)據(jù)同步、數(shù)據(jù)調用數(shù)據(jù)同步:數(shù)據(jù)同步的主要是實現(xiàn)數(shù)據(jù)庫與Hadoop之間雙向數(shù)據(jù)復制功能,數(shù)據(jù)同步的目的包括這些的場景:不同系統(tǒng)上的數(shù)據(jù)需要進行關聯(lián)分析、數(shù)據(jù)生命周期管理要求進行數(shù)據(jù)歸檔或備份、ETL分節(jié)點部署需要同步數(shù)據(jù)等??梢圆扇∪缦聰?shù)據(jù)同步方案:在Hadoop端發(fā)起的雙向數(shù)據(jù)同步在數(shù)據(jù)庫端發(fā)起的雙向數(shù)據(jù)同步在第三方發(fā)起的雙向數(shù)據(jù)同步數(shù)據(jù)調用:數(shù)據(jù)調用指的是:不移動數(shù)據(jù),通過接口調用實現(xiàn)對另外一個平臺上數(shù)據(jù)的訪問,被調用平臺承擔運算任務。數(shù)據(jù)調用方法根據(jù)調用方的不同,又分為“從數(shù)據(jù)庫側調用Hadoop數(shù)據(jù)”及“從Hadoop側調用數(shù)據(jù)庫數(shù)據(jù)”兩種情況。數(shù)據(jù)調用方法適用的場景原則:低頻度(如:每月/季度/年一次)或臨時(如:臨時訪問5次以下)需要使用其他平臺中存儲的數(shù)據(jù)。數(shù)據(jù)中心系統(tǒng)互通的建議實現(xiàn)數(shù)據(jù)互通機制有2種方法:數(shù)據(jù)同步、32數(shù)據(jù)中心互通的技術實現(xiàn)連接器方式通過設計專用的軟件或硬件連接器模塊,實現(xiàn)數(shù)據(jù)庫與Hadoop之間高速的數(shù)據(jù)傳輸,其一般具備以下特點: 雙向連接器 并行連接數(shù)據(jù)庫節(jié)點到的Hadoop數(shù)據(jù)節(jié)點 支持UTF-8編碼和常見的數(shù)據(jù)類型 通過動態(tài)工作負載管理的資源控制 融合系統(tǒng)中的角色/用戶提供認證 為數(shù)據(jù)庫域提供的數(shù)據(jù)節(jié)點,主要實現(xiàn)以下按照源表進行任務分工,可以為表間并行以及表內并行 建立分區(qū)、索引及裝載,根據(jù)分區(qū)原則以及索引等策略,裝載節(jié)點將數(shù)據(jù)直接發(fā)送給相應的MPP數(shù)據(jù)庫節(jié)點上 裝載節(jié)點處理過程中數(shù)據(jù)不落地 裝載節(jié)點可以是MPP數(shù)據(jù)庫中的部分節(jié)點也可以獨立設置通過連接器的方式,可以實現(xiàn)數(shù)據(jù)庫與Hadoop系統(tǒng)之間的高速和可靠的數(shù)據(jù)互通,非常適合數(shù)據(jù)同步的計算場景。外部表方式:數(shù)據(jù)庫可以通過外部表的方式,直接訪問存儲在HDFS上的文件。在使用外部表時,數(shù)據(jù)庫可以像訪問內部數(shù)據(jù)一樣,將文件當作表insert到數(shù)據(jù)庫內其他表中,或將HDFS上的文件和數(shù)據(jù)庫內的表進行關聯(lián)操作。同時也可以將RDBMS內的數(shù)據(jù),通過外部表的形式,寫入到HDFS上去。例如如下操作:Selectcount(*)fromHDFS_datah,RDBMS_datagwhereh.key=g.key;InsertintoHDFS_dataselect*fromRDBMS_data;數(shù)據(jù)中心互通的技術實現(xiàn)連接器方式33數(shù)據(jù)中心透明訪問HADOOP+MPP的混搭架構在解決大數(shù)據(jù)處理問題的同時也加大了上層應用的數(shù)據(jù)訪問復雜度。主要問題體現(xiàn)在:多種數(shù)據(jù)實例:數(shù)據(jù)可能分布在關系型數(shù)據(jù)庫、Hadoop分布式計算集群以及HBase庫中。多種訪問接口:不同類型的數(shù)據(jù)實例的技術實現(xiàn)方式差異大,如關系型數(shù)據(jù)提供了標準SQL,Hadoop、HBase提供開放API或Hive方式訪問,這同樣對上層訪問增加了難度??鐢?shù)據(jù)實例的數(shù)據(jù)計算:不同類型的數(shù)據(jù)實例的底層數(shù)據(jù)存儲結構不同,如關系型數(shù)據(jù)庫存儲結構化數(shù)據(jù),而Hadoop計算集群多存儲半結構化數(shù)據(jù),如果需要涉及到兩種類型數(shù)據(jù)實例中的數(shù)據(jù)關聯(lián)(join)計算,目前還難以直接實現(xiàn),需要做一系列數(shù)據(jù)互通調度,然后在單實例上完成關聯(lián)計算,整個過程復雜度高、工作量大。針對目前出現(xiàn)的這些問題,可以考慮構建數(shù)據(jù)透明訪問能力。也就是提供統(tǒng)一的數(shù)據(jù)訪問接口,對上層屏蔽底層數(shù)據(jù)處理實現(xiàn)細節(jié),提升上層應用的開發(fā)效率。主要需要解決兩個方面的問題:1、通過統(tǒng)一的語言或服務接口訪問到不同的數(shù)據(jù)庫實例,包括數(shù)據(jù)查詢、數(shù)據(jù)處理操作等。2、針對跨數(shù)據(jù)實例的數(shù)據(jù)互通、關聯(lián)操作等,可以通過統(tǒng)一的的語言、服務接口或管理工具等技術來實現(xiàn)。數(shù)據(jù)中心透明訪問HADOOP+MPP的混搭架構在解決大數(shù)據(jù)處34目前市場上的數(shù)據(jù)互通工具工具HadoopAsterDataSQL-MapreduceGreenPlumHDFS->GreenPlumVerticaVertica-Hadoop集成適配器InfiniteDB雙向對接SQLServerHortonWorkIBMNetezzaHadoop-NetezzaTeradataTD-Hadoop適配器OracleOraHiveOraOopSybaseSybaseIQ15.4開始集成目前市場上的數(shù)據(jù)互通工具工具HadoopAsterDataS35目錄MPP數(shù)據(jù)庫在數(shù)據(jù)中心的應用企業(yè)級數(shù)據(jù)中心定義數(shù)據(jù)中心中的大數(shù)據(jù)數(shù)據(jù)中心BI技術選型描述Hadoop在數(shù)據(jù)中心的應用數(shù)據(jù)中心ESB技術研究大數(shù)據(jù)技術與傳統(tǒng)數(shù)據(jù)中心的集成目錄MPP數(shù)據(jù)庫在數(shù)據(jù)中心的應用企業(yè)級數(shù)據(jù)中心定義數(shù)據(jù)中心中36BI集成工具選型問題這些眾多的BI項目從規(guī)模和對BI系統(tǒng)支撐的完善程度上來說,大體可以分為Framework、Stand-aloneTools和BISuite三種類型。Framework:開源框架,這是在商業(yè)BI系統(tǒng)中所沒有的。我們可以使用它們來構建自己的BI工具,或者增強和擴展我們的BI解決方案。Stand-aloneTools:獨立的BI工具,這是開源項目中數(shù)量最多的一類。很多工具只側重BI系統(tǒng)中的某個環(huán)節(jié)和方面,如ETL、Report、OLAP和Database等等。BISuite:在統(tǒng)一的架構下提供了多種BI系統(tǒng)的特性的工具集合。就目前的情況看,不管是商業(yè)軟件還是開源軟件,還沒有任何一個套件提供了完整的端到端的BI解決方案。這些開源的BISuit是通過連接多個其他的組件和工具的方式形成套件的,由于BI系統(tǒng)涉及到的工具是非常多的,所以整合一套完整的BI解決方案是很困難的。開源BI的重要項目:Pentaho、spagoBi是兩個比較大的框架,集成了相當多的開源項目,JfreeReport、Mondrian、Kettle、Weka基本都使用。適合大型復雜項目的開發(fā)。Pentaho:是一個以工作流為核心的、強調面向解決方案而非工具組件的BI套件,整合了多個開源項目,目標是和商業(yè)BI相抗衡。SpagoBI集成了OLAPServerMondrain和OLAP展示JProvit,能夠通過OpenLaszlo產(chǎn)生實時報表。SpagoBI使用java開發(fā),不依賴于具體的操作系統(tǒng),有很強的擴展能力。BI集成工具選型問題這些眾多的BI項目從規(guī)模和對BI系統(tǒng)支撐37開源BI工具之SpagoBISpagoBI集成了Mondrain和JProvit,能夠通過OpenLaszlo產(chǎn)生實時報表。SpagoBI使用java開發(fā),不依賴于具體的操作系統(tǒng),有很強的擴展能力。它主要包括:

1、報表工具:JasperReports/EclipseBIRT/iReport

2、OLAPServer:Mondrian

3、OLAP展示:JPivot

4、數(shù)據(jù)挖掘組件:Weka

5、Map引擎:Geo

6、ETL:BIE

7、搜索引擎:Lucene

8、Dashboard:OpenLaszlo

9、PortalServer:JBoss/Tomcat/JOnASSpagoBI展現(xiàn)層也使用了AJAX特性,另外它在DashBoard也使用了openlaszlo,(一個用Javacode生成Flash的框架,主頁是/。新版的4.0好像也要支持生成DHTML)所以spagoBI的DashBoard界面很友好。開源BI工具之SpagoBISpagoBI集成了Mond38開源BI工具之PentahoPentaho是一個以工作流為核心的、強調面向解決方案而非工具組件的BI套件,整合了多個開源項目,目標是和商業(yè)BI相抗衡。它包括如下開源組件:

1、工作流引擎:SharkandJaWE

2、數(shù)據(jù)庫:FirebirdRDBMS

3、集成管理和開發(fā)環(huán)境:Eclipse

4、報表工具:EclipseBIRT

5、ETL工具:Enhydra/Kettle

6、OLAPServer:Mondrian

7、OLAP展示:JPivot

8、數(shù)據(jù)挖掘組件:Weka

9、應用服務器和Portal服務器:JBoss

10、單點登陸服務及LDap認證:JOSSO

11、自定義腳本支持:MozillaRhinoJavascript腳本處理器Pentaho是一個很完善的BI解決方案。Pentaho偏向于與業(yè)務流程相結合的BI解決方案,側重于大中型企業(yè)應用。開源BI工具之PentahoPentaho是一個以工作流為核39Pentaho與Spago對比比較項SpagoBIPentahoBIBI開源工具集成度集成眾多工具眾多工具本地化程度中國使用較少,本地化文檔較少,志愿者較少網(wǎng)絡上中文支持做的比較好,有自己的中文網(wǎng)站PentahoChina宣傳程度宣傳較少宣傳較多對MPP的支持暫無發(fā)現(xiàn)支持的資料已經(jīng)支持GreenPlum,vertica對Hadoop的支持不支持(沒有發(fā)現(xiàn)支持的資料)支持,有一個PentahoforHadoop:/ecosystem/platforms/hadoop技術架構J2EEJ2EE成功案例眾多二次開發(fā)案例眾多商業(yè)集成案例版本完全開源版本分為商業(yè)版、社區(qū)版,商業(yè)版收費Pentaho與Spago對比比較項SpagoBIPenta40目錄MPP數(shù)據(jù)庫在數(shù)據(jù)中心的應用企業(yè)級數(shù)據(jù)中心定義數(shù)據(jù)中心中的大數(shù)據(jù)數(shù)據(jù)中心BI技術選型描述Hadoop在數(shù)據(jù)中心的應用數(shù)據(jù)中心ESB技術研究大數(shù)據(jù)技術與傳統(tǒng)數(shù)據(jù)中心的集成目錄MPP數(shù)據(jù)庫在數(shù)據(jù)中心的應用企業(yè)級數(shù)據(jù)中心定義數(shù)據(jù)中心中41企業(yè)應用集成EAI與ESB企業(yè)應用集成(EAI)是集成應用之間數(shù)據(jù)和服務的一種應用技術。它解決無限的問題,解決方案也幾乎沒有窮盡。目前常見的四種集成風格:1.文件傳輸:兩個系統(tǒng)生成文件,文件的有效負載就是由另一個系統(tǒng)處理的消息。該類風

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論