![大數(shù)據(jù)平臺(tái)規(guī)劃項(xiàng)目解決方案_第1頁(yè)](http://file4.renrendoc.com/view/a910ae8e79e64c06cf5a672b7402568b/a910ae8e79e64c06cf5a672b7402568b1.gif)
![大數(shù)據(jù)平臺(tái)規(guī)劃項(xiàng)目解決方案_第2頁(yè)](http://file4.renrendoc.com/view/a910ae8e79e64c06cf5a672b7402568b/a910ae8e79e64c06cf5a672b7402568b2.gif)
![大數(shù)據(jù)平臺(tái)規(guī)劃項(xiàng)目解決方案_第3頁(yè)](http://file4.renrendoc.com/view/a910ae8e79e64c06cf5a672b7402568b/a910ae8e79e64c06cf5a672b7402568b3.gif)
![大數(shù)據(jù)平臺(tái)規(guī)劃項(xiàng)目解決方案_第4頁(yè)](http://file4.renrendoc.com/view/a910ae8e79e64c06cf5a672b7402568b/a910ae8e79e64c06cf5a672b7402568b4.gif)
![大數(shù)據(jù)平臺(tái)規(guī)劃項(xiàng)目解決方案_第5頁(yè)](http://file4.renrendoc.com/view/a910ae8e79e64c06cf5a672b7402568b/a910ae8e79e64c06cf5a672b7402568b5.gif)
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)平臺(tái)規(guī)劃項(xiàng)目解決方案大數(shù)據(jù)平臺(tái)規(guī)劃項(xiàng)目解決方案議題第2頁(yè)大數(shù)據(jù)平臺(tái)概述大數(shù)據(jù)平臺(tái)架構(gòu)多類(lèi)型數(shù)據(jù)集成大數(shù)據(jù)混合式存儲(chǔ)架構(gòu)IaaS層:資源管理和模塊化數(shù)據(jù)中心PaaS層:大數(shù)據(jù)平臺(tái)SaaS層:行業(yè)解決方案議題第2頁(yè)大數(shù)據(jù)平臺(tái)概述大數(shù)據(jù)平臺(tái)架構(gòu)多類(lèi)型數(shù)據(jù)集成大數(shù)據(jù)混大數(shù)據(jù)平臺(tái)概述第3頁(yè)
大數(shù)據(jù)平臺(tái)主要通過(guò)集成中國(guó)聯(lián)通內(nèi)部運(yùn)營(yíng)支撐系統(tǒng)和外部數(shù)據(jù),包括交易型大數(shù)據(jù)(BigTransactionData)和交互型大數(shù)據(jù)(BigInteractionData),通過(guò)多種云計(jì)算的技術(shù)將之集成和處理,向中國(guó)聯(lián)通內(nèi)部和外部企業(yè)客戶(hù)提供有極大商業(yè)價(jià)值的信息支撐和智能解決方案。大數(shù)據(jù)平臺(tái)概述第3頁(yè)大數(shù)據(jù)平臺(tái)主要通過(guò)集成中國(guó)大數(shù)據(jù)服務(wù)能夠在哪些方面為企業(yè)客戶(hù)提供價(jià)值?第4頁(yè)營(yíng)銷(xiāo)精準(zhǔn)廣告實(shí)時(shí)營(yíng)銷(xiāo)效果評(píng)估優(yōu)化客戶(hù)服務(wù)客戶(hù)需求洞察客戶(hù)滿意度管理客戶(hù)忠誠(chéng)度管理渠道渠道選址渠道業(yè)績(jī)管理客戶(hù)接觸管理合作渠道欺詐監(jiān)測(cè)風(fēng)險(xiǎn)控制物流其它物流監(jiān)控物流優(yōu)化物流預(yù)測(cè)關(guān)鍵點(diǎn)監(jiān)控預(yù)警績(jī)效監(jiān)控…使整個(gè)企業(yè)進(jìn)入大數(shù)據(jù)智能時(shí)代大數(shù)據(jù)服務(wù)能夠在哪些方面為企業(yè)客戶(hù)提供價(jià)值?第4頁(yè)營(yíng)銷(xiāo)精準(zhǔn)廣大數(shù)據(jù)服務(wù)面向的三類(lèi)企業(yè)客戶(hù)第5頁(yè)DataWarehouseasaServiceStep2Step3
面向起步型企業(yè),數(shù)據(jù)規(guī)模較小,并且難以負(fù)擔(dān)建設(shè)分析型系統(tǒng)的投入成本,沒(méi)有深入的分析需求,手工即可分析。隨著企業(yè)成長(zhǎng)可以使用更高級(jí)的服務(wù)面向成熟一些的中小型企業(yè),數(shù)據(jù)規(guī)模中等,單獨(dú)建設(shè)系統(tǒng)加上管理系統(tǒng)維護(hù)團(tuán)隊(duì)以及購(gòu)買(mǎi)分析軟件的單位用戶(hù)成本較高,有分析需求和分析人員AnalyticsasaServiceIntelligenceasaService面向中型企業(yè),管理上走向成熟,數(shù)據(jù)規(guī)模中等,除了有較深入的分析需求外,還有對(duì)行業(yè)深度了解和預(yù)測(cè)的需求大數(shù)據(jù)服務(wù)面向的三類(lèi)企業(yè)客戶(hù)第5頁(yè)DataWarehous大數(shù)據(jù)平臺(tái)的三種服務(wù)交付方式第6頁(yè)大數(shù)據(jù)服務(wù)DataWarehouseasaServiceAnalyticsasaServiceIntelligenceasaService大數(shù)據(jù)平臺(tái)的三種服務(wù)交付方式第6頁(yè)大數(shù)據(jù)服務(wù)DataWarDataWarehouseasaService數(shù)據(jù)倉(cāng)儲(chǔ)即服務(wù)第7頁(yè)為企業(yè)提供數(shù)據(jù)倉(cāng)庫(kù)SaaS服務(wù),幫助企業(yè)將數(shù)據(jù)進(jìn)行清洗、校驗(yàn)和梳理,為企業(yè)提供適合的數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)庫(kù)解決方案,以及提供數(shù)據(jù)訪問(wèn)接口和數(shù)據(jù)安全管理等,為企業(yè)的分析型應(yīng)用提供支撐基礎(chǔ)設(shè)施以服務(wù)的方式提供企業(yè)分析型系統(tǒng)構(gòu)建所需的硬件,包括服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備等數(shù)據(jù)倉(cāng)庫(kù)解決方案根據(jù)企業(yè)的數(shù)據(jù)類(lèi)型和應(yīng)用方向選擇合適的數(shù)據(jù)存儲(chǔ)解決方案,包括數(shù)據(jù)庫(kù)等實(shí)施服務(wù)同時(shí)提供數(shù)據(jù)倉(cāng)庫(kù)實(shí)施服務(wù),解決中小企業(yè)缺乏數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域的專(zhuān)門(mén)人才及維護(hù)這樣一個(gè)團(tuán)隊(duì)的高成本問(wèn)題DataWarehouseasaService數(shù)據(jù)倉(cāng)DataWarehouseasaService的服務(wù)交付方式第8頁(yè)多類(lèi)型數(shù)據(jù)集成大數(shù)據(jù)存儲(chǔ)數(shù)據(jù)訪問(wèn)接口管理大數(shù)據(jù)的“多類(lèi)型數(shù)據(jù)集成”模塊將企業(yè)的業(yè)務(wù)數(shù)據(jù)從企業(yè)的IT系統(tǒng)中抽取出來(lái),經(jīng)過(guò)清洗、規(guī)整、校驗(yàn)等環(huán)節(jié),以及根據(jù)需要進(jìn)行初步的匯總,進(jìn)入大數(shù)據(jù)存儲(chǔ);根據(jù)數(shù)據(jù)類(lèi)型和處理需求,選擇合適的存儲(chǔ)方案,包括RDBMS,Hadoop等;大數(shù)據(jù)存儲(chǔ)中的數(shù)據(jù)通過(guò)訪問(wèn)接口提供給企業(yè)的IT部門(mén),供企業(yè)多種使用方式;企業(yè)的業(yè)務(wù)系統(tǒng)IT人員通過(guò)接口使用數(shù)據(jù)DataWarehouseasaService的服務(wù)AnalyticsasaService分析平臺(tái)即服務(wù)第9頁(yè)為企業(yè)提供分析平臺(tái)SaaS服務(wù),基于企業(yè)托管的數(shù)據(jù)倉(cāng)庫(kù)提供報(bào)表、及多種分析工具,包括即席分析、數(shù)據(jù)挖掘、垂直解決方案等,幫助企業(yè)實(shí)現(xiàn)基于大數(shù)據(jù)的智能決策和智能管理等。報(bào)表以服務(wù)的方式提供企業(yè)所需的KPI及反映企業(yè)各方面運(yùn)營(yíng)狀況的的指標(biāo)和報(bào)表,圖形化展現(xiàn)和多種訪問(wèn)方式分析工具提供企業(yè)所需的即席分析和數(shù)據(jù)挖掘等分析工具,使企業(yè)能夠靈活的對(duì)業(yè)務(wù)進(jìn)行分析垂直解決方案提供一些典型的垂直解決方案,如客戶(hù)統(tǒng)一視圖,精準(zhǔn)營(yíng)銷(xiāo)等,針對(duì)企業(yè)典型的業(yè)務(wù)場(chǎng)景提供解決方案AnalyticsasaService分析平臺(tái)即服務(wù)第AnalyticsasaService的服務(wù)交付方式第10頁(yè)多類(lèi)型數(shù)據(jù)集成大數(shù)據(jù)存儲(chǔ)大數(shù)據(jù)分析平臺(tái)企業(yè)的業(yè)務(wù)系統(tǒng)管理人員和業(yè)務(wù)分析人員通過(guò)portal使用分析平臺(tái)報(bào)表分析工具垂直解決方案在企業(yè)基于大數(shù)據(jù)平臺(tái)建設(shè)的數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上,提供KPI&Dashboard,報(bào)表工具,分析工具,以及行業(yè)垂直解決方案;提供企業(yè)的分析解決方案結(jié)合企業(yè)的實(shí)際需求進(jìn)行的解決方案實(shí)施服務(wù);企業(yè)的管理人員、業(yè)務(wù)分析人員等可以通過(guò)web、手機(jī)或其它移動(dòng)設(shè)備訪問(wèn)大數(shù)據(jù)平臺(tái)的門(mén)戶(hù),以便隨時(shí)了解企業(yè)的關(guān)鍵指標(biāo)和進(jìn)行深度業(yè)務(wù)分析;AnalyticsasaService的服務(wù)交付方式第IntelligenceasaService智能即服務(wù)第11頁(yè)基于中國(guó)聯(lián)通具有的大數(shù)據(jù)資源,經(jīng)過(guò)去隱私化,為企業(yè)提供行業(yè)解決方案和市場(chǎng)及其它信息咨詢(xún)服務(wù)等。將中國(guó)聯(lián)通的大數(shù)據(jù)資源轉(zhuǎn)化為商業(yè)價(jià)值,服務(wù)于各個(gè)行業(yè)的企業(yè)客戶(hù)。行業(yè)解決方案為典型行業(yè),如零售、廣告、電子商務(wù)等行業(yè)的企業(yè)客戶(hù)提供解決方案,解決這些企業(yè)運(yùn)營(yíng)中面臨的典型業(yè)務(wù)問(wèn)題信息咨詢(xún)服務(wù)向企業(yè)客戶(hù)提供基于中國(guó)聯(lián)通大數(shù)據(jù)的咨詢(xún)服務(wù)和分析報(bào)告,通過(guò)最權(quán)威的數(shù)據(jù)反映行業(yè)趨勢(shì),使企業(yè)準(zhǔn)確判斷行業(yè)趨勢(shì),預(yù)測(cè)未來(lái)走向IntelligenceasaService智能即服IntelligenceasaService的服務(wù)交付方式第12頁(yè)多類(lèi)型數(shù)據(jù)集成大數(shù)據(jù)存儲(chǔ)大數(shù)據(jù)分析平臺(tái)企業(yè)的業(yè)務(wù)系統(tǒng)管理人員和業(yè)務(wù)分析人員通過(guò)portal使用分析平臺(tái)行業(yè)解決方案行業(yè)分析報(bào)告在大數(shù)據(jù)平臺(tái)的基礎(chǔ)上面向企業(yè)客戶(hù)提供典型行業(yè)解決方案,并通過(guò)專(zhuān)業(yè)市場(chǎng)和管理咨詢(xún)服務(wù)團(tuán)隊(duì)提供咨詢(xún)服務(wù),根據(jù)實(shí)際業(yè)務(wù)需求,并充分利用大數(shù)據(jù)的優(yōu)勢(shì),快速開(kāi)發(fā)需要的業(yè)務(wù)問(wèn)題解決方案;根據(jù)企業(yè)的需求,基于大數(shù)據(jù)資源,定制提供行業(yè)級(jí)的分析報(bào)告,為企業(yè)預(yù)測(cè)未來(lái)趨勢(shì)提供最具科學(xué)依據(jù)的參考。IntelligenceasaService的服務(wù)交付議題第13頁(yè)大數(shù)據(jù)平臺(tái)概述大數(shù)據(jù)平臺(tái)架構(gòu)多類(lèi)型數(shù)據(jù)集成大數(shù)據(jù)混合式存儲(chǔ)架構(gòu)IaaS層:資源管理和模塊化數(shù)據(jù)中心PaaS層:大數(shù)據(jù)平臺(tái)SaaS層:行業(yè)解決方案議題第13頁(yè)大數(shù)據(jù)平臺(tái)概述大數(shù)據(jù)平臺(tái)架構(gòu)多類(lèi)型數(shù)據(jù)集成大數(shù)據(jù)系統(tǒng)邊界第14頁(yè)大數(shù)據(jù)平臺(tái)中國(guó)聯(lián)通省級(jí)BOSS系統(tǒng)中國(guó)聯(lián)通省級(jí)CRM系統(tǒng)中國(guó)聯(lián)通電子渠道系統(tǒng)中國(guó)聯(lián)通集中化大數(shù)據(jù)平臺(tái)企業(yè)客戶(hù)的業(yè)務(wù)系統(tǒng)網(wǎng)絡(luò)數(shù)據(jù)采集中國(guó)聯(lián)通用戶(hù)上網(wǎng)數(shù)據(jù)采集中國(guó)聯(lián)通信令數(shù)據(jù)采集系統(tǒng)點(diǎn)擊流數(shù)據(jù)采集S1S2S3S4S5S9S7S8I1I6I2I3中國(guó)聯(lián)通SMS/MMS等渠道I4I5S6系統(tǒng)邊界第14頁(yè)大數(shù)據(jù)平臺(tái)中國(guó)聯(lián)通省級(jí)BOSS系統(tǒng)中國(guó)聯(lián)通省源數(shù)據(jù)接口S1-S8第15頁(yè)接口名稱(chēng)接口方向接口數(shù)據(jù)接口方式S1中國(guó)聯(lián)通省級(jí)BOSS系統(tǒng)—>大數(shù)據(jù)平臺(tái)用戶(hù)資料、CDR、賬單、業(yè)務(wù)訂購(gòu)等文件S2中國(guó)聯(lián)通省級(jí)CRM系統(tǒng)—>大數(shù)據(jù)平臺(tái)客服數(shù)據(jù)等文件S3中國(guó)聯(lián)通電子渠道系統(tǒng)—>大數(shù)據(jù)平臺(tái)業(yè)務(wù)辦理、詳單查詢(xún)、賬單查詢(xún)等用戶(hù)行為文件S4中國(guó)聯(lián)通用戶(hù)上網(wǎng)數(shù)據(jù)采集—>大數(shù)據(jù)平臺(tái)用戶(hù)手機(jī)上網(wǎng)行為數(shù)據(jù)數(shù)據(jù)流S5中國(guó)聯(lián)通信令數(shù)據(jù)采集系統(tǒng)—>大數(shù)據(jù)平臺(tái)信令數(shù)據(jù)數(shù)據(jù)流S6企業(yè)客戶(hù)的業(yè)務(wù)系統(tǒng)—>大數(shù)據(jù)平臺(tái)業(yè)務(wù)數(shù)據(jù)文件、數(shù)據(jù)流S7網(wǎng)絡(luò)數(shù)據(jù)采集—>大數(shù)據(jù)平臺(tái)網(wǎng)頁(yè)內(nèi)容等數(shù)據(jù)S8點(diǎn)擊流數(shù)據(jù)采集—>大數(shù)據(jù)平臺(tái)用戶(hù)訪問(wèn)外部網(wǎng)頁(yè)的點(diǎn)擊流數(shù)據(jù)文件S9中國(guó)聯(lián)通集中化大數(shù)據(jù)平臺(tái)—>大數(shù)據(jù)平臺(tái)經(jīng)分?jǐn)?shù)據(jù)文件源數(shù)據(jù)接口S1-S8第15頁(yè)接口名稱(chēng)接口方向接口數(shù)據(jù)接口方式互動(dòng)接口第16頁(yè)接口名稱(chēng)接口方向接口數(shù)據(jù)接口方式I1大數(shù)據(jù)平臺(tái)—>中國(guó)聯(lián)通省級(jí)BOSS系統(tǒng)營(yíng)銷(xiāo)相關(guān)信息等文件I2大數(shù)據(jù)平臺(tái)—>中國(guó)聯(lián)通省級(jí)CRM系統(tǒng)客戶(hù)特征視圖、客服優(yōu)化或營(yíng)銷(xiāo)相關(guān)信息等文件I3大數(shù)據(jù)平臺(tái)—>中國(guó)聯(lián)通電子渠道系統(tǒng)大數(shù)據(jù)平臺(tái)業(yè)務(wù)推薦、內(nèi)容推薦等信息文件I4大數(shù)據(jù)平臺(tái)—>企業(yè)客戶(hù)的業(yè)務(wù)系統(tǒng)業(yè)務(wù)解決方案相關(guān)信息文件、數(shù)據(jù)流I5大數(shù)據(jù)平臺(tái)—>中國(guó)聯(lián)通SMS/MMS等渠道營(yíng)銷(xiāo)信息數(shù)據(jù)流I6大數(shù)據(jù)平臺(tái)—中國(guó)聯(lián)通集中化大數(shù)據(jù)平臺(tái)支撐經(jīng)分系統(tǒng)的數(shù)據(jù)文件互動(dòng)接口第16頁(yè)接口名稱(chēng)接口方向接口數(shù)據(jù)接口方式I1大數(shù)據(jù)平三級(jí)平臺(tái)架構(gòu)第17頁(yè)一級(jí)大數(shù)據(jù)平臺(tái)二級(jí)大數(shù)據(jù)平臺(tái)省級(jí)數(shù)據(jù)集成平臺(tái)一級(jí)大數(shù)據(jù)平臺(tái)數(shù)據(jù)中心二級(jí)大數(shù)據(jù)平臺(tái)數(shù)據(jù)中心A接口機(jī)接口機(jī)MDCN廣域網(wǎng)MDCN廣域網(wǎng)數(shù)據(jù)中心BA省大數(shù)據(jù)采集和集成系統(tǒng)B省大數(shù)據(jù)采集和集成系統(tǒng)某省大數(shù)據(jù)采集和集成系統(tǒng)三級(jí)平臺(tái)架構(gòu)第17頁(yè)一級(jí)大數(shù)據(jù)平臺(tái)二級(jí)大數(shù)據(jù)平臺(tái)省級(jí)數(shù)據(jù)集成三級(jí)平臺(tái)功能架構(gòu)第18頁(yè)內(nèi)部源系統(tǒng)數(shù)據(jù)接口網(wǎng)絡(luò)數(shù)據(jù)采集其它數(shù)據(jù)接口結(jié)構(gòu)化數(shù)據(jù)集成非結(jié)構(gòu)化數(shù)據(jù)集成流數(shù)據(jù)集成省級(jí)數(shù)據(jù)集成平臺(tái)二級(jí)大數(shù)據(jù)平臺(tái)二級(jí)區(qū)域大數(shù)據(jù)混合式存儲(chǔ)與處理一級(jí)大數(shù)據(jù)存儲(chǔ)平臺(tái)二級(jí)PaaS平臺(tái)二級(jí)SaaS平臺(tái)一級(jí)PaaS平臺(tái)一級(jí)SaaS平臺(tái)一級(jí)大數(shù)據(jù)平臺(tái)三級(jí)平臺(tái)功能架構(gòu)第18頁(yè)內(nèi)部源系統(tǒng)數(shù)據(jù)接口網(wǎng)絡(luò)數(shù)據(jù)采集其它數(shù)三級(jí)平臺(tái)功能架構(gòu)(續(xù))第19頁(yè)省級(jí)數(shù)據(jù)集成平臺(tái)主要對(duì)數(shù)據(jù)進(jìn)行采集、清洗、轉(zhuǎn)換,以及初步的匯總;對(duì)結(jié)構(gòu)化數(shù)據(jù),保持其初始的數(shù)據(jù)粒度,并進(jìn)行映射,統(tǒng)一數(shù)據(jù)模型;對(duì)非結(jié)構(gòu)化數(shù)據(jù),進(jìn)行處理,轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù);對(duì)流數(shù)據(jù),進(jìn)行實(shí)時(shí)處理;二級(jí)大數(shù)據(jù)平臺(tái)包括多個(gè)數(shù)據(jù)中心,主要對(duì)區(qū)域性的數(shù)據(jù)進(jìn)行加工,并向區(qū)域性的企業(yè)提供解決方案;多數(shù)據(jù)中心覆蓋不同的區(qū)域,主要向該區(qū)域的企業(yè)客戶(hù)提供服務(wù);向一級(jí)平臺(tái)提供接口,并接受一級(jí)平臺(tái)對(duì)數(shù)據(jù)處理需求的調(diào)度;一級(jí)大數(shù)據(jù)平臺(tái)主要對(duì)數(shù)據(jù)進(jìn)行跨區(qū)域的匯總,并提供標(biāo)準(zhǔn)的解決方案,供各區(qū)域在此基礎(chǔ)上定制各自的解決方案;三級(jí)平臺(tái)功能架構(gòu)(續(xù))第19頁(yè)省級(jí)數(shù)據(jù)集成平臺(tái)主要對(duì)數(shù)據(jù)進(jìn)行二級(jí)大數(shù)據(jù)平臺(tái)功能架構(gòu)第20頁(yè)DataSourceDataIntegration結(jié)構(gòu)化數(shù)據(jù)集成BigdataPlatform流數(shù)據(jù)集成非結(jié)構(gòu)化數(shù)據(jù)集成HadoopRDBMSColumnDBNOSQLAnalyticCapability用戶(hù)價(jià)值使用行為地理位置上網(wǎng)行為消費(fèi)行為內(nèi)容偏好時(shí)間特征社交網(wǎng)絡(luò)影響力…Vertical/IndustrySolution實(shí)時(shí)營(yíng)銷(xiāo)客戶(hù)忠誠(chéng)度管理渠道選址內(nèi)容定制推送
…電信行業(yè)解決方案廣電行業(yè)解決方案電子商務(wù)行業(yè)解決方案公共安全行業(yè)解決方案物聯(lián)網(wǎng)行業(yè)解決方案PortalWebMobileWidgetInfoPush省級(jí)數(shù)據(jù)集成平臺(tái)Web數(shù)據(jù)其它外部數(shù)據(jù)安全管理用戶(hù)管理生命周期管理資源管理SystemManagement開(kāi)發(fā)管理二級(jí)大數(shù)據(jù)平臺(tái)功能架構(gòu)第20頁(yè)DataSourceData二級(jí)平臺(tái)各層的功能第21頁(yè)數(shù)據(jù)集成層從省級(jí)數(shù)據(jù)集成平臺(tái)獲取已經(jīng)清洗和初步集成的結(jié)構(gòu)化數(shù)據(jù),包括聯(lián)通內(nèi)部系統(tǒng)提供的結(jié)構(gòu)化數(shù)據(jù),以及從非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化而來(lái)的結(jié)構(gòu)化數(shù)據(jù);對(duì)非結(jié)構(gòu)化數(shù)據(jù)處理,轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),并在省級(jí)數(shù)據(jù)集成平臺(tái)之間及區(qū)域二級(jí)大數(shù)據(jù)平臺(tái)之間進(jìn)行同步;對(duì)相關(guān)的流數(shù)據(jù)進(jìn)行處理;大數(shù)據(jù)存儲(chǔ)層根據(jù)數(shù)據(jù)特點(diǎn)和應(yīng)用的需求,將大數(shù)據(jù)進(jìn)行混合式的存儲(chǔ)和處理,滿足上層應(yīng)用的需求;二級(jí)平臺(tái)各層的功能第21頁(yè)數(shù)據(jù)集成層二級(jí)平臺(tái)各層的功能(續(xù))第22頁(yè)大數(shù)據(jù)平臺(tái)分析能力層提供基礎(chǔ)分析能力和解決方案的開(kāi)發(fā)環(huán)境和運(yùn)行環(huán)境;提供豐富的基礎(chǔ)分析能力,可以在此基礎(chǔ)上快速開(kāi)發(fā)解決方案;解決方案層提供垂直解決方案和行業(yè)解決方案;解決方案可以獨(dú)立開(kāi)發(fā)也可以在一級(jí)解決方案模板的基礎(chǔ)上進(jìn)行二次開(kāi)發(fā);訪問(wèn)門(mén)戶(hù)層提供多種訪問(wèn)方式,包括web、移動(dòng)設(shè)備、widget、SMS、MMS等;統(tǒng)一的訪問(wèn)入口和鑒權(quán);系統(tǒng)管理包括安全管理、用戶(hù)管理、開(kāi)發(fā)管理、應(yīng)用生命周期管理、元數(shù)據(jù)管理等;二級(jí)平臺(tái)各層的功能(續(xù))第22頁(yè)大數(shù)據(jù)平臺(tái)分析能力層集成架構(gòu)第23頁(yè)DataSourceDataIntegration結(jié)構(gòu)化數(shù)據(jù)集成BigdataPlatform流數(shù)據(jù)集成非結(jié)構(gòu)化數(shù)據(jù)集成HadoopRDBMSColumnDBNOSQLAnalyticCapability用戶(hù)價(jià)值使用行為地理位置上網(wǎng)行為消費(fèi)行為內(nèi)容偏好時(shí)間特征社交網(wǎng)絡(luò)影響力…Vertical/IndustrySolution實(shí)時(shí)營(yíng)銷(xiāo)客戶(hù)忠誠(chéng)度管理渠道選址內(nèi)容定制推送
…電信行業(yè)解決方案廣電行業(yè)解決方案電子商務(wù)行業(yè)解決方案公共安全行業(yè)解決方案物聯(lián)網(wǎng)行業(yè)解決方案PortalWebMobileWidgetInfoPush企業(yè)內(nèi)部系統(tǒng)數(shù)據(jù)Web數(shù)據(jù)其它外部數(shù)據(jù)安全管理用戶(hù)管理生命周期管理資源管理SystemManagement資源管理多類(lèi)型數(shù)據(jù)的集成工具Hadoop、關(guān)系型數(shù)據(jù)庫(kù)、列數(shù)據(jù)庫(kù)等多種數(shù)據(jù)存儲(chǔ)解決方案大數(shù)據(jù)平臺(tái)垂直解決方案、行業(yè)解決方案大數(shù)據(jù)平臺(tái)、數(shù)據(jù)可視化工具大數(shù)據(jù)平臺(tái)集成架構(gòu)第23頁(yè)DataSourceDataIntegr議題第24頁(yè)大數(shù)據(jù)平臺(tái)概述大數(shù)據(jù)平臺(tái)架構(gòu)多類(lèi)型數(shù)據(jù)集成大數(shù)據(jù)混合式存儲(chǔ)架構(gòu)IaaS層:資源管理和模塊化數(shù)據(jù)中心PaaS層:大數(shù)據(jù)平臺(tái)SaaS層:行業(yè)解決方案議題第24頁(yè)大數(shù)據(jù)平臺(tái)概述大數(shù)據(jù)平臺(tái)架構(gòu)多類(lèi)型數(shù)據(jù)集成大數(shù)據(jù)數(shù)據(jù)集成在大數(shù)據(jù)平臺(tái)中的位置第25頁(yè)DataSourceDataIntegration結(jié)構(gòu)化數(shù)據(jù)集成BigdataPlatform流數(shù)據(jù)集成非結(jié)構(gòu)化數(shù)據(jù)集成HadoopRDBMSColumnDBNOSQLAnalyticCapability用戶(hù)價(jià)值使用行為地理位置上網(wǎng)行為消費(fèi)行為內(nèi)容偏好時(shí)間特征社交網(wǎng)絡(luò)影響力…Vertical/IndustrySolution實(shí)時(shí)營(yíng)銷(xiāo)客戶(hù)忠誠(chéng)度管理渠道選址內(nèi)容定制推送
…電信行業(yè)解決方案廣電行業(yè)解決方案電子商務(wù)行業(yè)解決方案公共安全行業(yè)解決方案物聯(lián)網(wǎng)行業(yè)解決方案PortalWebMobileWidgetInfoPush省級(jí)數(shù)據(jù)集成平臺(tái)Web數(shù)據(jù)其它外部數(shù)據(jù)安全管理用戶(hù)管理生命周期管理資源管理SystemManagement開(kāi)發(fā)管理數(shù)據(jù)集成在大數(shù)據(jù)平臺(tái)中的位置第25頁(yè)DataSourceD省級(jí)數(shù)據(jù)集成和二級(jí)大數(shù)據(jù)平臺(tái)數(shù)據(jù)集成的關(guān)系第26頁(yè)內(nèi)部源系統(tǒng)數(shù)據(jù)接口網(wǎng)絡(luò)數(shù)據(jù)采集其它數(shù)據(jù)接口省級(jí)數(shù)據(jù)集成平臺(tái)二級(jí)大數(shù)據(jù)平臺(tái)結(jié)構(gòu)化數(shù)據(jù)集成數(shù)據(jù)獲取數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換非結(jié)構(gòu)化數(shù)據(jù)集成流數(shù)據(jù)集成數(shù)據(jù)獲取數(shù)據(jù)清洗數(shù)據(jù)匯總混合式大數(shù)據(jù)存儲(chǔ),結(jié)構(gòu)化數(shù)據(jù)處理統(tǒng)一數(shù)據(jù)接口對(duì)于來(lái)自中國(guó)聯(lián)通內(nèi)部的數(shù)據(jù),包括CDR等,在省級(jí)數(shù)據(jù)集成平臺(tái)僅進(jìn)行清洗和轉(zhuǎn)換,在二級(jí)大數(shù)據(jù)平臺(tái)進(jìn)行匯總;非結(jié)構(gòu)化數(shù)據(jù)的處理在省級(jí)平臺(tái)進(jìn)行簡(jiǎn)單的清洗和轉(zhuǎn)換,在二級(jí)大數(shù)據(jù)平臺(tái)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù);第三方的數(shù)據(jù)接口和數(shù)據(jù)集成統(tǒng)一在二級(jí)大數(shù)據(jù)平臺(tái);數(shù)據(jù)獲取數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換非結(jié)構(gòu)化數(shù)據(jù)集成數(shù)據(jù)結(jié)構(gòu)化標(biāo)簽同步第三方數(shù)據(jù)集成數(shù)據(jù)獲取數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)匯總省級(jí)數(shù)據(jù)集成和二級(jí)大數(shù)據(jù)平臺(tái)數(shù)據(jù)集成的關(guān)系第26頁(yè)內(nèi)部源系統(tǒng)數(shù)據(jù)集成的類(lèi)型第27頁(yè)從實(shí)時(shí)性角度劃分實(shí)時(shí)或準(zhǔn)實(shí)時(shí)通常用于支持時(shí)間敏感型應(yīng)用,要求數(shù)據(jù)以實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的方式處理,單位時(shí)間內(nèi)處理的數(shù)據(jù)量較大;非實(shí)時(shí)用于支持非時(shí)間敏感型應(yīng)用,處理周期通常按日、周、月、年,以批量處理的方式滿足這部分需求;從數(shù)據(jù)類(lèi)型角度劃分結(jié)構(gòu)化數(shù)據(jù)即行數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫(kù)里,可以用二維表結(jié)構(gòu)來(lái)邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù),例如業(yè)務(wù)支撐系統(tǒng)產(chǎn)生的CDR等數(shù)據(jù)等。非結(jié)構(gòu)化數(shù)據(jù),包括文本、圖片、圖像音頻、視頻信息等。不能以傳統(tǒng)的數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)和處理。數(shù)據(jù)集成的類(lèi)型第27頁(yè)從實(shí)時(shí)性角度劃分大數(shù)據(jù)平臺(tái)支持的多類(lèi)型數(shù)據(jù)集成第28頁(yè)非實(shí)時(shí)的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集成12流數(shù)據(jù)集成大數(shù)據(jù)平臺(tái)支持的多類(lèi)型數(shù)據(jù)集成第28頁(yè)非實(shí)時(shí)的結(jié)構(gòu)化和非結(jié)構(gòu)傳統(tǒng)的BI系統(tǒng)數(shù)據(jù)ETL存在的難題第29頁(yè)高擴(kuò)容成本數(shù)據(jù)處理的類(lèi)型數(shù)據(jù)處理的性能目前ETL工具產(chǎn)品主要是單機(jī)版串行系統(tǒng),任務(wù)無(wú)法并行實(shí)現(xiàn),在處理海量數(shù)據(jù)時(shí),其性能、擴(kuò)展性都存在瓶頸。因此,數(shù)據(jù)倉(cāng)庫(kù)承擔(dān)了大部分轉(zhuǎn)換任務(wù)。隨著數(shù)據(jù)量的不斷擴(kuò)大,經(jīng)分?jǐn)?shù)據(jù)倉(cāng)庫(kù)也存在性能壓力大、擴(kuò)展性瓶頸等問(wèn)題。存儲(chǔ)成本和壓力比較高,僅能處理結(jié)構(gòu)化的數(shù)據(jù),大量的網(wǎng)絡(luò)信令、互聯(lián)網(wǎng)信息等非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和分析需求難以滿足隨著用戶(hù)數(shù)的增長(zhǎng)和新的數(shù)據(jù)源的引入,數(shù)據(jù)量也不斷增長(zhǎng),ETL處理能力的擴(kuò)容成本很高傳統(tǒng)的BI系統(tǒng)數(shù)據(jù)ETL存在的難題第29頁(yè)高擴(kuò)容成本數(shù)據(jù)處理基于云計(jì)算的非實(shí)時(shí)并行數(shù)據(jù)集成的特點(diǎn)第30頁(yè)2134分布式存儲(chǔ),高效并行處理能力支持垂直擴(kuò)展和水平擴(kuò)展,擴(kuò)展能力近似線性多機(jī)容錯(cuò)低廉的軟硬件要求,能夠較大程度上降低硬件成本基于云計(jì)算的非實(shí)時(shí)并行數(shù)據(jù)集成的特點(diǎn)第30頁(yè)2134分布式存核心技術(shù)——分布式存儲(chǔ)第31頁(yè)采用分布式文件系統(tǒng)存儲(chǔ)HDFS作為云計(jì)算數(shù)據(jù)集成系統(tǒng)的存儲(chǔ)系統(tǒng)。HDFS有著高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的硬件上。而且它提供高傳輸率來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。HDFS對(duì)外屏蔽了分布式存儲(chǔ)的細(xì)節(jié),如數(shù)據(jù)備份、失效節(jié)點(diǎn)恢復(fù)、并發(fā)等,使用戶(hù)可以像操作本地文件系統(tǒng)一樣操作分布式文件系統(tǒng)。HDFS中一個(gè)文件一旦創(chuàng)建、寫(xiě)入、關(guān)閉之后就不需要修改了。這個(gè)假定簡(jiǎn)化了數(shù)據(jù)一致的問(wèn)題和高吞吐量的數(shù)據(jù)訪問(wèn)。支持并發(fā)的讀寫(xiě)文件。支持添加刪除文件等操作。支持?jǐn)?shù)據(jù)備份,失效節(jié)點(diǎn)恢復(fù),高容錯(cuò)性。數(shù)據(jù)備份數(shù)量為多份核心技術(shù)——分布式存儲(chǔ)第31頁(yè)采用分布式文件系統(tǒng)存儲(chǔ)HDFSHadoop概述第32頁(yè)HadoopDistributedFileSystem,簡(jiǎn)稱(chēng)HDFS,是一個(gè)分布式文件系統(tǒng)。HDFS有著高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的硬件上。而且它提供高吞吐量來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。HDFS放寬了POSIX的要求這樣可以實(shí)現(xiàn)流的形式訪問(wèn)文件系統(tǒng)中的數(shù)據(jù)。Hadoop概述第32頁(yè)HadoopDistributed核心技術(shù)——基于Map/Reduce的并行計(jì)算第33頁(yè)Map/Reduce是一個(gè)用于大規(guī)模數(shù)據(jù)并行處理的編程模型。指定一個(gè)Map(映射)函數(shù),用來(lái)把一組鍵值對(duì)映射成一組新的鍵值對(duì),指定并發(fā)的Reduce(化簡(jiǎn))函數(shù),用來(lái)保證所有映射的鍵值對(duì)中的每一個(gè)共享相同的鍵組。
核心技術(shù)——基于Map/Reduce的并行計(jì)算第33頁(yè)Map并行計(jì)算的流程第34頁(yè)提交任務(wù)根據(jù)輸入文件大小個(gè)數(shù)等確定子任務(wù)建立任務(wù)池子節(jié)點(diǎn)領(lǐng)取任務(wù)返回結(jié)果Map/Reduce運(yùn)算模式本地優(yōu)先的運(yùn)算策略:分配任務(wù)時(shí)采取本地優(yōu)先的原則具有可控性的負(fù)載均衡:每個(gè)子節(jié)點(diǎn)根據(jù)自身硬件情況配置最大的可執(zhí)行任務(wù)數(shù)并行計(jì)算的流程第34頁(yè)提交任務(wù)根據(jù)輸入文件大小個(gè)數(shù)等確定子任基于云計(jì)算的并行數(shù)據(jù)集成模塊的功能架構(gòu)第35頁(yè)基于云計(jì)算的并行數(shù)據(jù)集成由基礎(chǔ)功能層和集成環(huán)境層組成。圖、云計(jì)算并行ETL系統(tǒng)的功能架構(gòu)基礎(chǔ)功能包括:數(shù)據(jù)抽取、數(shù)據(jù)處理、數(shù)據(jù)裝載和數(shù)據(jù)探索。數(shù)據(jù)抽?。菏菍⑼獠刻峁┑臄?shù)據(jù)抽取到ETL平臺(tái)提供的分布式文件系統(tǒng)中,以便后續(xù)處理使用,包括文件抽取和數(shù)據(jù)庫(kù)抽取兩種方式。數(shù)據(jù)處理:實(shí)現(xiàn)了對(duì)分布式文件系統(tǒng)上的數(shù)據(jù)進(jìn)行并行化的處理功能,包括數(shù)據(jù)清洗、轉(zhuǎn)換、匯總等功能。數(shù)據(jù)裝載:對(duì)于處理完畢的數(shù)據(jù),加載到相應(yīng)的數(shù)據(jù)倉(cāng)庫(kù)中。數(shù)據(jù)探索:數(shù)據(jù)探索是擴(kuò)展功能,包括樣本數(shù)據(jù)查看和統(tǒng)計(jì)。主要是為了便于開(kāi)發(fā)人員在開(kāi)發(fā)環(huán)境進(jìn)行設(shè)計(jì)時(shí),提取部分樣本數(shù)據(jù)進(jìn)行查看,以了解數(shù)據(jù)格式、數(shù)據(jù)分布特征和數(shù)據(jù)質(zhì)量相關(guān)情況。基于云計(jì)算的并行數(shù)據(jù)集成模塊的功能架構(gòu)第35頁(yè)基于云計(jì)算的并集成環(huán)境第36頁(yè)集成環(huán)境包括:開(kāi)發(fā)環(huán)境、執(zhí)行環(huán)境和管理環(huán)境。開(kāi)發(fā)環(huán)境:是ETL處理程序開(kāi)發(fā)者進(jìn)行操作的主要環(huán)境。包括:數(shù)據(jù)定義、操作流開(kāi)發(fā)和任務(wù)調(diào)度計(jì)劃開(kāi)發(fā)等功能。執(zhí)行環(huán)境:執(zhí)行環(huán)境要能保證工作任務(wù)能正常、高效的運(yùn)行,并對(duì)處理過(guò)程進(jìn)行監(jiān)控。管理環(huán)境:進(jìn)行云計(jì)算并行ETL系統(tǒng)穩(wěn)定運(yùn)營(yíng)的管理工作,包括:安全管理、日志管理、數(shù)據(jù)生命周期管理和元數(shù)據(jù)管理等。集成環(huán)境第36頁(yè)集成環(huán)境包括:開(kāi)發(fā)環(huán)境、執(zhí)行環(huán)境和管理環(huán)境與傳統(tǒng)ETL比較——容錯(cuò)性與擴(kuò)展性容錯(cuò)性子任務(wù)出錯(cuò)后自動(dòng)重跑失敗一定次數(shù)后掛起連續(xù)出錯(cuò)節(jié)點(diǎn)加入黑名單擴(kuò)展性具有熱擴(kuò)展能力,新節(jié)點(diǎn)可動(dòng)態(tài)部署新節(jié)點(diǎn)加入后,可將原來(lái)的存儲(chǔ)重新平衡分布,減輕存儲(chǔ)壓力,同時(shí)新節(jié)點(diǎn)馬上參與任務(wù)的運(yùn)算,提高運(yùn)算效率與傳統(tǒng)ETL比較——容錯(cuò)性與擴(kuò)展性容錯(cuò)性子任務(wù)出錯(cuò)后自動(dòng)物理部署第38頁(yè)主節(jié)點(diǎn)主節(jié)點(diǎn)備份節(jié)點(diǎn)用戶(hù)接入節(jié)點(diǎn)大數(shù)據(jù)存儲(chǔ)子節(jié)點(diǎn)子節(jié)點(diǎn)子節(jié)點(diǎn)云化數(shù)據(jù)集成平臺(tái)數(shù)據(jù)庫(kù)FTP數(shù)據(jù)服務(wù)器物理部署第38頁(yè)主節(jié)點(diǎn)主節(jié)點(diǎn)用戶(hù)接入節(jié)點(diǎn)大數(shù)據(jù)存儲(chǔ)子節(jié)點(diǎn)子節(jié)將文本類(lèi)非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)第39頁(yè)分詞庫(kù)爬取基準(zhǔn)url分類(lèi)日志URL比對(duì)陌生URL已知URL手機(jī)上網(wǎng)行為分析熱詞庫(kù)爬取內(nèi)容,分詞,根據(jù)規(guī)則將分詞入分詞庫(kù)爬取內(nèi)容,與分詞庫(kù)根據(jù)規(guī)則匹配,找出對(duì)應(yīng)url類(lèi)別讀庫(kù)入庫(kù)匹配入庫(kù)入庫(kù)讀庫(kù)如何將提取到的URL轉(zhuǎn)化為可解讀的信息是手機(jī)上網(wǎng)行為分析的關(guān)鍵。這里采用了百度等搜索引擎的先進(jìn)文本解析技術(shù)。將文本類(lèi)非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)第39頁(yè)分詞庫(kù)爬取基準(zhǔn)u核心技術(shù)——中文分詞第40頁(yè)正向最大匹配法逆向最大匹配法最少切分中文自然語(yǔ)言處理技術(shù)
中文分詞技術(shù)屬于自然語(yǔ)言處理技術(shù)范疇,對(duì)于一句話,人可以通過(guò)自己的知識(shí)來(lái)明白哪些是詞,哪些不是詞,但如何讓計(jì)算機(jī)也能理解?其處理過(guò)程就是分詞算法。
現(xiàn)有的分詞算法可分為三大類(lèi):基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。
基于字符串匹配的分詞方法又叫做機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個(gè)「充分大的」機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最小(最短)匹配;按照是否與詞性標(biāo)注過(guò)程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。通常采用幾種方法的綜合算法。核心技術(shù)——中文分詞第40頁(yè)正向最大匹配法逆向最大匹配法最少中文分詞的核心難點(diǎn)第41頁(yè)歧義識(shí)別
歧義是指同樣的一句話,可能有兩種或者更多的切分方法。新詞識(shí)別新詞,專(zhuān)業(yè)術(shù)語(yǔ)稱(chēng)為未登錄詞。也就是那些在字典中都沒(méi)有收錄過(guò),但又確實(shí)能稱(chēng)為詞的那些詞。新詞中除了人名以外,還有機(jī)構(gòu)名、地名、產(chǎn)品名、商標(biāo)名、簡(jiǎn)稱(chēng)、省略語(yǔ)等都是很難處理的問(wèn)題,而且這些又正好是人們經(jīng)常使用的詞,因此對(duì)于文本解析來(lái)說(shuō),分詞系統(tǒng)中的新詞識(shí)別十分重要。目前新詞識(shí)別準(zhǔn)確率已經(jīng)成為評(píng)價(jià)一個(gè)分詞系統(tǒng)好壞的重要標(biāo)志之一。分詞的準(zhǔn)確性TextinhereTextinhere分詞的速度云計(jì)算技術(shù)可以很好的解決準(zhǔn)確性和速度之間的矛盾,使可以保證準(zhǔn)確率的復(fù)雜的算法的應(yīng)用成為可能中文分詞的核心難點(diǎn)第41頁(yè)歧義識(shí)別分詞的準(zhǔn)確性Textin核心技術(shù)——基于數(shù)據(jù)挖掘的文本分類(lèi),將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)第42頁(yè)文本分類(lèi)通過(guò)計(jì)算機(jī)對(duì)文本集按照一定的分類(lèi)體系或標(biāo)準(zhǔn)進(jìn)行自動(dòng)分類(lèi)標(biāo)記文本分類(lèi)一般包括了文本的表達(dá)、分類(lèi)器的選擇與訓(xùn)練、分類(lèi)結(jié)果的評(píng)價(jià)與反饋等過(guò)程;其中文本的表達(dá)又可細(xì)分為文本預(yù)處理、索引和統(tǒng)計(jì)(分詞)、特征抽取等步驟;預(yù)處理將原始語(yǔ)料格式化為同一格式,便于后續(xù)的統(tǒng)一處理;分詞將文檔分解為基本處理單元,同時(shí)降低后續(xù)處理的開(kāi)銷(xiāo);統(tǒng)計(jì)詞頻統(tǒng)計(jì),項(xiàng)(單詞、概念)與分類(lèi)的相關(guān)概率;特征抽取從文檔中抽取出反映文檔主題的特征分類(lèi)器分類(lèi)器的訓(xùn)練評(píng)價(jià)分類(lèi)器的測(cè)試結(jié)果分析核心技術(shù)——基于數(shù)據(jù)挖掘的文本分類(lèi),將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)文本分類(lèi)的核心挖掘算法第43頁(yè)
統(tǒng)計(jì)學(xué)習(xí)方法需要一批由人工進(jìn)行了準(zhǔn)確分類(lèi)的文檔作為學(xué)習(xí)的材料(稱(chēng)為訓(xùn)練集),計(jì)算機(jī)從這些文檔重挖掘出一些能夠有效分類(lèi)的規(guī)則,這個(gè)過(guò)程稱(chēng)為訓(xùn)練,而總結(jié)出的規(guī)則集合常常被稱(chēng)為分類(lèi)器。訓(xùn)練完成之后,需要對(duì)計(jì)算機(jī)從來(lái)沒(méi)有見(jiàn)過(guò)的文檔進(jìn)行分類(lèi)時(shí),便使用這些分類(lèi)器來(lái)進(jìn)行。
常用的分類(lèi)算法為:決策樹(shù),Rocchio,樸素貝葉斯,神經(jīng)網(wǎng)絡(luò),支持向量機(jī)Rocchio算法樸素貝葉斯算法(NaiveBayes)Rocchio算法是文本分類(lèi)的最基本算法。思路是把一個(gè)類(lèi)別里的樣本文檔各項(xiàng)取個(gè)平均值(例如把所有“體育”類(lèi)文檔中詞匯“籃球”出現(xiàn)的次數(shù)取個(gè)平均值,再把“裁判”取個(gè)平均值,依次做下去),可以得到一個(gè)新的向量,形象的稱(chēng)之為“質(zhì)心”,質(zhì)心就成了這個(gè)類(lèi)別最具代表性的向量表示。再有新文檔需要判斷的時(shí)候,比較新文檔和質(zhì)心有多么相似(判斷他們之間的距離)就可以確定新文檔屬不屬于這個(gè)類(lèi)。改進(jìn)的Rocchio算法不僅考慮屬于這個(gè)類(lèi)別的文檔(稱(chēng)為正樣本),也考慮不屬于這個(gè)類(lèi)別的文檔數(shù)據(jù)(稱(chēng)為負(fù)樣本),計(jì)算出來(lái)的質(zhì)心盡量靠近正樣本同時(shí)盡量遠(yuǎn)離負(fù)樣本。Rocchio算法的局限性是它做了兩個(gè)很致命的假設(shè),使得它的性能不佳。一是它認(rèn)為一個(gè)類(lèi)別的文檔僅僅聚集在一個(gè)質(zhì)心的周?chē)?,?shí)際情況往往不是如此(這樣的數(shù)據(jù)稱(chēng)為線性不可分的);二是它假設(shè)訓(xùn)練數(shù)據(jù)是絕對(duì)正確的,因?yàn)樗鼪](méi)有任何定量衡量樣本是否含有噪聲的機(jī)制,因而也就對(duì)錯(cuò)誤數(shù)據(jù)毫無(wú)抵抗力。貝葉斯算法關(guān)注的是文檔屬于某類(lèi)別概率。文檔屬于某個(gè)類(lèi)別的概率等于文檔中每個(gè)詞屬于該類(lèi)別的概率的綜合表達(dá)式。而每個(gè)詞屬于該類(lèi)別的概率又在一定程度上可以用這個(gè)詞在該類(lèi)別訓(xùn)練文檔中出現(xiàn)的次數(shù)(詞頻信息)來(lái)粗略估計(jì),因而使得整個(gè)計(jì)算過(guò)程成為可行的。使用樸素貝葉斯算法時(shí),在訓(xùn)練階段的主要任務(wù)就是估計(jì)這些值。首先對(duì)于每一個(gè)樣本中的元素要計(jì)算先驗(yàn)概率。其次要計(jì)算一個(gè)樣本對(duì)于每個(gè)分類(lèi)的概率,概率最大的分類(lèi)將被采納。所以其中P(d|Ci)=P(w1|Ci)P(w2|Ci)…P(wi|Ci)P(w1|Ci)…P(wm|Ci)(式1)P(w|C)=元素w在分類(lèi)為C的樣本中出現(xiàn)次數(shù)/數(shù)據(jù)整理后的樣本中元素的總數(shù)(式2)文本分類(lèi)的核心挖掘算法第43頁(yè)統(tǒng)計(jì)學(xué)習(xí)方法需文本分類(lèi)的核心挖掘算法(續(xù))第44頁(yè)
支持向量機(jī)(SupportVectorMachine)是Cortes和Vapnik于1995年首先提出的,它在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問(wèn)題中。支持向量機(jī)算法(SupportVectorMachine)支持向量機(jī)方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性(即對(duì)特定訓(xùn)練樣本的學(xué)習(xí)精度,Accuracy)和學(xué)習(xí)能力(即無(wú)錯(cuò)誤地識(shí)別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力(或稱(chēng)泛化能力)。SVM方法有很堅(jiān)實(shí)的理論基礎(chǔ),SVM訓(xùn)練的本質(zhì)是解決一個(gè)二次規(guī)劃問(wèn)題(QuadrupleProgramming,指目標(biāo)函數(shù)為二次函數(shù),約束條件為線性約束的最優(yōu)化問(wèn)題),得到的是全局最優(yōu)解,這使它有著其他統(tǒng)計(jì)學(xué)習(xí)技術(shù)難以比擬的優(yōu)越性。SVM分類(lèi)器的文本分類(lèi)效果很好,是最好的分類(lèi)器之一。同時(shí)使用核函數(shù)將原始的樣本空間向高維空間進(jìn)行變換,能夠解決原始樣本線性不可分的問(wèn)題。其缺點(diǎn)是核函數(shù)的選擇缺乏指導(dǎo),難以針對(duì)具體問(wèn)題選擇最佳的核函數(shù);另外SVM訓(xùn)練速度極大地受到訓(xùn)練集規(guī)模的影響,計(jì)算開(kāi)銷(xiāo)比較大。SVM分類(lèi)器的優(yōu)點(diǎn)在于通用性較好,且分類(lèi)精度高、分類(lèi)速度快、分類(lèi)速度與訓(xùn)練樣本個(gè)數(shù)無(wú)關(guān),在查準(zhǔn)和查全率方面都略?xún)?yōu)于一般算法。文本分類(lèi)的核心挖掘算法(續(xù))第44頁(yè)支持向量多類(lèi)型數(shù)據(jù)集成第45頁(yè)非實(shí)時(shí)的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集成12流數(shù)據(jù)集成多類(lèi)型數(shù)據(jù)集成第45頁(yè)非實(shí)時(shí)的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集成12流流數(shù)據(jù)的特點(diǎn)第46頁(yè)流數(shù)據(jù)是一組順序、大量、快速、連續(xù)到達(dá)的數(shù)據(jù)序列,一般情況下,數(shù)據(jù)流可被視為一個(gè)隨時(shí)間延續(xù)而無(wú)限增長(zhǎng)的動(dòng)態(tài)數(shù)據(jù)集合。實(shí)時(shí)到達(dá)次序獨(dú)立規(guī)模宏大很難二次處理流數(shù)據(jù)主流技術(shù)有開(kāi)源S4分布式流計(jì)算平臺(tái),Sybase提供的Alteri事件流處理器,
Streambase的CEP系統(tǒng)。流數(shù)據(jù)的特點(diǎn)第46頁(yè)流數(shù)據(jù)是一組順序、大量、快速、連續(xù)到達(dá)的流數(shù)據(jù)處理的關(guān)鍵技術(shù)——S4分布式流計(jì)算平臺(tái)第47頁(yè)S4是一個(gè)通用的、可擴(kuò)展性良好、具有部分容錯(cuò)能力、支持插件的分布式流計(jì)算平臺(tái),在該平臺(tái)上程序員可以很方便地開(kāi)發(fā)處理流數(shù)據(jù)的應(yīng)用。編鍵的數(shù)據(jù)事件被分類(lèi)、路由到各處理單元(ProcessingElements,PEs),處理單元處理這些事件,做出如下事情之一或全部:(1)發(fā)出一個(gè)或多個(gè)可能被其他PE處理的事件。(2)發(fā)布結(jié)果。這種架構(gòu)類(lèi)似提供了封裝和地址透明語(yǔ)義的Actor模式,因此允許應(yīng)用在大規(guī)模并發(fā)的同時(shí)暴露簡(jiǎn)單的編程接口給應(yīng)用開(kāi)發(fā)者。S4是一個(gè)低延遲,彈性流數(shù)據(jù)處理引擎。S4是MapReduce和Actors模型衍生的結(jié)合體。流數(shù)據(jù)處理的關(guān)鍵技術(shù)——S4分布式流計(jì)算平臺(tái)第47頁(yè)S4是一S4的特點(diǎn)第48頁(yè)S4是一個(gè)通用的、可擴(kuò)展性良好、具有部分容錯(cuò)能力、支持插件的分布式流計(jì)算平臺(tái),其設(shè)計(jì)特點(diǎn)有以下幾項(xiàng):Actor模型S4架構(gòu)采用了Actor模式,這種模式提供了封裝和地址透明語(yǔ)義,因此在允許應(yīng)用大規(guī)模并發(fā)的同時(shí),也提供了簡(jiǎn)單的編程接口。分布式對(duì)稱(chēng)結(jié)構(gòu)S4參照了MapReduce模式。為了簡(jiǎn)化部署和運(yùn)維,從而達(dá)到更好地穩(wěn)定性和擴(kuò)展性,S4采用了對(duì)等架構(gòu),集群中的所有處理節(jié)點(diǎn)都是等同的,沒(méi)有中心控制。這種架構(gòu)將使得集群的擴(kuò)展性很好,處理節(jié)點(diǎn)的總數(shù)理論上無(wú)上限;同時(shí),S4將沒(méi)有單點(diǎn)容錯(cuò)的問(wèn)題。
可插入式架構(gòu)S4系統(tǒng)使用Java開(kāi)發(fā),采用了極富層次的模塊化編程,每個(gè)通用功能點(diǎn)都盡量抽象出來(lái)作為通用模塊,而且盡可能讓各模塊實(shí)現(xiàn)可定制化。部分容錯(cuò)能力設(shè)計(jì)基于Zookeeper服務(wù)的集群管理層將會(huì)自動(dòng)路由事件從失效節(jié)點(diǎn)到其他節(jié)點(diǎn)。除非顯式保存到持久性存儲(chǔ),否則節(jié)點(diǎn)故障時(shí),節(jié)點(diǎn)上處理事件的狀態(tài)會(huì)丟失。面對(duì)對(duì)象型節(jié)點(diǎn)間通信采用“PlainOldJavaObjects”(POJOs)模式,應(yīng)用開(kāi)發(fā)者不需要寫(xiě)Schemas或用哈希表來(lái)在節(jié)點(diǎn)間發(fā)送Tuples。S4的特點(diǎn)第48頁(yè)S4是一個(gè)通用的、可擴(kuò)展性良好、具有部分容技術(shù)原理第49頁(yè)系統(tǒng)組成之ProcessingNodes(PNs):PN是邏輯節(jié)點(diǎn)——負(fù)責(zé)事件監(jiān)聽(tīng)、輸入事件處理、發(fā)射輸出事件使用基于鍵值的哈希函數(shù)發(fā)送事件(一個(gè)事件可能發(fā)給多個(gè)PE)PN使用PEC(Processingelementcontainer)根據(jù)event調(diào)用對(duì)應(yīng)的PE特殊的PE對(duì)象:無(wú)屬性值的PEprototype,用作初始化和PE的克隆每個(gè)keyedPE傳給有且僅有一個(gè)PN
通信層:集群管理:進(jìn)行failover、邏輯節(jié)點(diǎn)到物理節(jié)點(diǎn)的映射、硬件失敗管理等提供Java\C++等的API、支持部分網(wǎng)絡(luò)協(xié)議使用ZooKeeper進(jìn)行協(xié)同(coordinate)管理系統(tǒng)組成之PrecessingElemens(PEs):基本計(jì)算單元;一個(gè)計(jì)算單元實(shí)例由四個(gè)部分標(biāo)識(shí):功能functionality、
接受(消耗)的事件Typesofvents(鍵值)屬性Keyedattributes、
(屬性)值Value(oftheekyedattributes)特殊的keylessPE——無(wú)屬性PE,接受所有滿足類(lèi)型限制的的事件,通常處于輸入層StandardPE:完成count、join、aggregate等功能。PE的生存使用TTL控制。
技術(shù)原理第49頁(yè)系統(tǒng)組成之ProcessingNodes(流數(shù)據(jù)處理的其它商用產(chǎn)品——
IBMStreamBaseCEP第50頁(yè)StreamBase復(fù)雜時(shí)間處理系統(tǒng)(CEP),使用管理高速、實(shí)時(shí)數(shù)據(jù)流新技術(shù),是一個(gè)流數(shù)據(jù)處理引擎。StreamBase應(yīng)用Java開(kāi)辟,IDE是基于Eclipse進(jìn)行二次開(kāi)辟,功能很是強(qiáng)大。StreamBase也供給了相當(dāng)多的Operator、Functor以及其他組件來(lái)幫助構(gòu)建應(yīng)用流程規(guī)則。HeartbeatsMonitoring流數(shù)據(jù)處理的其它商用產(chǎn)品——
IBMStreamBase流數(shù)據(jù)處理的其它商用產(chǎn)品——
SybaseAleriEventStreamProcessor第51頁(yè)響應(yīng)快,延遲低 實(shí)時(shí)處理并分析高速的事件流事件處理延遲介于數(shù)毫秒或數(shù)秒之間風(fēng)險(xiǎn)管理人員可以實(shí)時(shí)評(píng)估風(fēng)險(xiǎn)、利潤(rùn)和損失支持流分析和提醒本地的C/C++引擎、適配器和分析可提供極低的延遲和高吞吐量發(fā)布-訂閱體系結(jié)構(gòu)可在整個(gè)集群節(jié)點(diǎn)中進(jìn)行擴(kuò)展針對(duì)現(xiàn)代的多核、多線程64位硬件進(jìn)行了優(yōu)化
集成速度更快 最有效地利用開(kāi)發(fā)資源,并實(shí)現(xiàn)新的資本市場(chǎng)應(yīng)用,即最大限度地節(jié)省開(kāi)發(fā)時(shí)間和資源業(yè)界最類(lèi)似于SQL的事件處理語(yǔ)言大量的現(xiàn)成適配器可擴(kuò)展性完整的SDK,包括C/C++、C#、Java、Perl和Python可擴(kuò)展的用戶(hù)定義函數(shù)(UDF)快速測(cè)試和配置團(tuán)隊(duì)商機(jī) 流數(shù)據(jù)處理的其它商用產(chǎn)品——
SybaseAleriEv流數(shù)據(jù)集成的應(yīng)用場(chǎng)景——信令數(shù)據(jù)處理第52頁(yè)信令數(shù)據(jù)采集S4流數(shù)據(jù)處理平臺(tái)位置信息捕捉開(kāi)關(guān)機(jī)行為捕捉通話行為捕捉短信行為捕捉手機(jī)上網(wǎng)行為捕捉靜態(tài)分析模型用戶(hù)特征、網(wǎng)絡(luò)狀況…動(dòng)態(tài)觸發(fā)規(guī)則管理、渠道選擇、反饋捕捉….實(shí)時(shí)分析實(shí)時(shí)營(yíng)銷(xiāo)網(wǎng)絡(luò)優(yōu)化…….
信令數(shù)據(jù)由于數(shù)據(jù)量巨大,盡管蘊(yùn)含巨大的價(jià)值,在傳統(tǒng)的平臺(tái)上難以實(shí)時(shí)處理,并且硬件成本高昂。通過(guò)流數(shù)據(jù)處理平臺(tái)可以充分捕捉用戶(hù)的實(shí)時(shí)行為,并進(jìn)行實(shí)時(shí)的處理,以支持實(shí)時(shí)營(yíng)銷(xiāo)和分析等多種業(yè)務(wù)場(chǎng)景。流數(shù)據(jù)集成的應(yīng)用場(chǎng)景——信令數(shù)據(jù)處理第52頁(yè)信令數(shù)據(jù)采集S4議題第53頁(yè)大數(shù)據(jù)平臺(tái)概述大數(shù)據(jù)平臺(tái)架構(gòu)多類(lèi)型數(shù)據(jù)集成大數(shù)據(jù)混合式存儲(chǔ)架構(gòu)IaaS層:資源管理和模塊化數(shù)據(jù)中心PaaS層:大數(shù)據(jù)平臺(tái)SaaS層:行業(yè)解決方案議題第53頁(yè)大數(shù)據(jù)平臺(tái)概述大數(shù)據(jù)平臺(tái)架構(gòu)多類(lèi)型數(shù)據(jù)集成大數(shù)據(jù)VDC虛擬數(shù)據(jù)中心的IT合理化思路Spare
BaySpare
Pool更少的服務(wù)器數(shù)量更少的機(jī)房占用更少的機(jī)柜占用更少網(wǎng)絡(luò)端口占用無(wú)需高可用集群軟件跨平臺(tái)高可用統(tǒng)一平臺(tái)管理,大量節(jié)約學(xué)習(xí)管理成本利用更節(jié)能的高密度服務(wù)器替換原有的高能耗的PC服務(wù)器和小型機(jī)服務(wù)器記外圍設(shè)備大量減少,降低整體設(shè)備機(jī)空調(diào)能耗。利用一套統(tǒng)一的云平臺(tái)管理系統(tǒng)管理所有的服務(wù)器,取代了原有多種系統(tǒng)多種平臺(tái)高可用軟件利用簡(jiǎn)單方便的WEB進(jìn)行本地及遠(yuǎn)程管理。利用云平臺(tái)管理系統(tǒng)主動(dòng)到偵測(cè)故障服務(wù)器自動(dòng)關(guān)閉/隔離故障服務(wù)器自動(dòng)遷移故障服務(wù)器特征文件自動(dòng)恢復(fù)故障服務(wù)器應(yīng)用節(jié)約成本超低能耗簡(jiǎn)化管理自動(dòng)切換第54頁(yè)VDC虛擬數(shù)據(jù)中心的IT合理化思路Spare
BaySpa資源供給IaaS架構(gòu)相對(duì)于傳統(tǒng)IT架構(gòu)的優(yōu)勢(shì)第55頁(yè)資源管理平臺(tái)資源需求IaaS架構(gòu)低成本:使用高密度低能耗的云服務(wù)器自動(dòng)化工具降低管理和運(yùn)維成本資源共享:動(dòng)態(tài)、異構(gòu)、共享的資源池打破應(yīng)用孤島更高的資源利用率,節(jié)能減排易于部署和管理自動(dòng)化的資源部署和調(diào)度引擎異構(gòu)資源統(tǒng)一的管理平臺(tái)高伸縮性和高可擴(kuò)展性資源動(dòng)態(tài)伸縮,削峰填谷,滿足高峰期的資源請(qǐng)求能夠處理大規(guī)模業(yè)務(wù)高可用性虛擬機(jī)遷移和HA等特性在減少傳統(tǒng)高可用投資的同時(shí)保證系統(tǒng)可靠性自動(dòng)的故障檢測(cè)、告警與恢復(fù)資源供給IaaS架構(gòu)相對(duì)于傳統(tǒng)IT架構(gòu)的優(yōu)勢(shì)第55頁(yè)資源管理通過(guò)IaaS架構(gòu)實(shí)現(xiàn)IT資源合理化運(yùn)營(yíng)成本大幅減低,每臺(tái)服務(wù)器每年減少1000美金②部署周期縮小,新系統(tǒng)部署時(shí)間提高240倍可靠性提高,故障恢復(fù)速度提高24倍,減少43小時(shí)宕機(jī)時(shí)間IDC建設(shè)APP
業(yè)務(wù)服務(wù)存儲(chǔ)陣列VDC建設(shè)VPS服務(wù)存儲(chǔ)虛擬化資源分配調(diào)度能力提高服務(wù)器利用率虛擬化的蔓延因素1.版權(quán)2.空間3.時(shí)間4.管理150臺(tái)虛擬機(jī)因?yàn)樘摂M機(jī)的泛濫浪費(fèi)50000到15000美元的成本服務(wù)目錄管理資源搶占與回收虛擬機(jī)存儲(chǔ)網(wǎng)絡(luò)應(yīng)用系統(tǒng)中間件物理機(jī)報(bào)表與計(jì)費(fèi)服務(wù)實(shí)例監(jiān)控資源分配自動(dòng)部署第56頁(yè)通過(guò)IaaS架構(gòu)實(shí)現(xiàn)IT資源合理化運(yùn)營(yíng)成本大幅減低,每臺(tái)服務(wù)IaaS架構(gòu)的實(shí)現(xiàn):資源管理平臺(tái)和基礎(chǔ)設(shè)施云化第57頁(yè)資源管理平臺(tái)簡(jiǎn)化管理,自動(dòng)切換基礎(chǔ)設(shè)施云化
節(jié)約成本,超低能耗Spare
BaySpare
Pool+IaaS架構(gòu)的實(shí)現(xiàn):資源管理平臺(tái)和基礎(chǔ)設(shè)施云化第57頁(yè)資源管1、資源管理平臺(tái)第58頁(yè)資源管理平臺(tái)可以整合數(shù)據(jù)中心的計(jì)算資源、存儲(chǔ)資源和網(wǎng)絡(luò)資源,為IT資源的統(tǒng)一整合、管理與分配提供有力的技術(shù)支持,為各種業(yè)務(wù)提供所需資源的快速部署、動(dòng)態(tài)調(diào)度和彈性伸縮能力,并針對(duì)業(yè)務(wù)系統(tǒng)的用戶(hù)提供自服務(wù)機(jī)制,實(shí)現(xiàn)資源的最大化利用與服務(wù)的最快交付。資源管理平臺(tái)致力于幫助企業(yè)構(gòu)建安全可靠、資源共享的云數(shù)據(jù)中心,實(shí)現(xiàn)業(yè)務(wù)計(jì)算能力與IT資源的剝離,讓底層的IT基礎(chǔ)設(shè)施以服務(wù)的方式按需提供,從而滿足業(yè)務(wù)的多變性并促進(jìn)業(yè)務(wù)的高速發(fā)展。1、資源管理平臺(tái)第58頁(yè)資源管理平臺(tái)可以整合數(shù)據(jù)中心的計(jì)算資資源管理平臺(tái)的邏輯結(jié)構(gòu)第59頁(yè)資源管理平臺(tái)資源管理平臺(tái)的邏輯結(jié)構(gòu)第59頁(yè)資源管理平臺(tái)資源管理平臺(tái)的功能模塊第60頁(yè)資源管理平臺(tái)虛擬化功能模塊安全功能模塊模板管理功能模塊監(jiān)控功能模塊運(yùn)營(yíng)管理功能模塊資源管理功能模塊存儲(chǔ)功能模塊網(wǎng)絡(luò)功能模塊資源管理平臺(tái)的功能模塊第60頁(yè)資源管理平臺(tái)虛擬化功能模塊安全資源管理平臺(tái)的特點(diǎn)第61頁(yè)資源實(shí)例全生命周期管理層級(jí)的多租戶(hù)架構(gòu)與用戶(hù)自服務(wù)快速自動(dòng)部署與自動(dòng)彈性伸縮多數(shù)據(jù)中心異構(gòu)資源的支持各種虛擬化系統(tǒng)+物理系統(tǒng)+小型機(jī)系統(tǒng)+為各種業(yè)務(wù)提供基礎(chǔ)設(shè)施資源的自動(dòng)部署配置資源管理平臺(tái)的特點(diǎn)第61頁(yè)資源實(shí)例層級(jí)的多租戶(hù)架構(gòu)快速自動(dòng)部資源管理平臺(tái)的端到端工作流程第62頁(yè)普通用戶(hù)1、申請(qǐng)服務(wù)實(shí)例自服務(wù)門(mén)戶(hù)服務(wù)目錄4、服務(wù)實(shí)例的操作(使用、更改、監(jiān)控、管理)2、審批流程3、資源分配/自動(dòng)部署資源分配策略:選擇最優(yōu)資源+資源實(shí)例全生命周期管理5、資源到期回收6、報(bào)表與計(jì)費(fèi)計(jì)費(fèi)賬單統(tǒng)計(jì)報(bào)表資源管理員1、添加資源2、創(chuàng)建服務(wù)模板虛擬機(jī)存儲(chǔ)網(wǎng)絡(luò)小型機(jī)分區(qū)中間件物理機(jī)管理員普通用戶(hù)1、建立用戶(hù)組與用戶(hù)(角色、權(quán)限、配額)運(yùn)營(yíng)管理員2、發(fā)布服務(wù)模板提供服務(wù)目錄3、計(jì)費(fèi)賬務(wù)管理3、資源監(jiān)控資源管理平臺(tái)的端到端工作流程第62頁(yè)普通用戶(hù)1、申請(qǐng)服務(wù)實(shí)例2、基礎(chǔ)設(shè)施云化63倉(cāng)儲(chǔ)式數(shù)據(jù)中心數(shù)據(jù)中心遷移數(shù)據(jù)中心改造倉(cāng)儲(chǔ)式數(shù)據(jù)中心數(shù)據(jù)中心遷移數(shù)據(jù)中心合并2012201320142015老舊數(shù)據(jù)中心合并,成立新型綠色數(shù)據(jù)中心;改善區(qū)域數(shù)據(jù)中心,降低PUE值服務(wù)器采購(gòu)向著節(jié)能,高效發(fā)展;2、基礎(chǔ)設(shè)施云化63倉(cāng)儲(chǔ)式數(shù)據(jù)中心數(shù)據(jù)中心遷移數(shù)據(jù)中心改造倉(cāng)基礎(chǔ)設(shè)施云化可降低能耗、節(jié)約電力成本第64頁(yè)每月花銷(xiāo)①資料來(lái)源亞馬遜數(shù)據(jù)中心觀察:①每月$2.3Million相關(guān)電力成本開(kāi)銷(xiāo)②當(dāng)服務(wù)器成本降低時(shí)電力成本呈現(xiàn)持平或上升趨勢(shì)建設(shè)成本運(yùn)維成本建設(shè)投資中最大的是電力系統(tǒng)設(shè)備,占50%
運(yùn)營(yíng)維護(hù)成本中,電費(fèi)支出比重最高基礎(chǔ)設(shè)施云化可降低能耗、節(jié)約電力成本第64頁(yè)每月花銷(xiāo)①資料通過(guò)基礎(chǔ)設(shè)施云化構(gòu)建綠色數(shù)據(jù)中心第65頁(yè)年份PUE目標(biāo)IDC建設(shè)/改造IDC電力成本20113.0015億20122.430%13.2億20132.050%12億20141.670%9.75
億20151.690%8.7億PUE3.0通常PUE2.4最佳實(shí)踐PUE2.0100%0%PUE1.6制冷非IT電源消耗節(jié)省IT電源消耗溫度控制優(yōu)化風(fēng)量控制優(yōu)化壓力控制優(yōu)化智能冷卻數(shù)據(jù)中心評(píng)估場(chǎng)地布置調(diào)整設(shè)備機(jī)柜優(yōu)化布線路由優(yōu)化場(chǎng)地優(yōu)化IT設(shè)備供電改造電源路由改造_UPS系統(tǒng)改造_電源改造IT系統(tǒng)環(huán)境綠色數(shù)據(jù)中心通過(guò)基礎(chǔ)設(shè)施云化構(gòu)建綠色數(shù)據(jù)中心第65頁(yè)年份PUE目標(biāo)ID新一代綠色智能數(shù)據(jù)中心:模塊化數(shù)據(jù)中心第66頁(yè)建設(shè)單元內(nèi)景透視圖建設(shè)單元外景鳥(niǎo)瞰圖模塊單元整體設(shè)計(jì)理念模塊模組DK建設(shè)單元(細(xì)胞)(組織)(個(gè)體)(社會(huì))象生物的發(fā)育一樣嚴(yán)謹(jǐn)、自然、合理建設(shè)基地倉(cāng)儲(chǔ)式數(shù)據(jù)中心的優(yōu)勢(shì)裝配流程化高度靈活性模塊化擴(kuò)展低能耗高效快速部署低成本未來(lái)達(dá)成的目的:建設(shè)高起點(diǎn)、大規(guī)模、低成本、節(jié)能的數(shù)據(jù)中心,解決基地省份、核心城市的機(jī)房需求。通過(guò)數(shù)據(jù)中心安全、穩(wěn)定、可靠運(yùn)行,最終實(shí)現(xiàn)全網(wǎng)的低成本高效運(yùn)營(yíng)。提升企業(yè)核心競(jìng)爭(zhēng)力。新一代綠色智能數(shù)據(jù)中心:模塊化數(shù)據(jù)中心第66頁(yè)建設(shè)單元內(nèi)景透議題第67頁(yè)大數(shù)據(jù)平臺(tái)概述大數(shù)據(jù)平臺(tái)架構(gòu)多類(lèi)型數(shù)據(jù)集成大數(shù)據(jù)混合式存儲(chǔ)架構(gòu)IaaS層:資源管理和模塊化數(shù)據(jù)中心PaaS層:大數(shù)據(jù)平臺(tái)SaaS層:行業(yè)解決方案議題第67頁(yè)大數(shù)據(jù)平臺(tái)概述大數(shù)據(jù)平臺(tái)架構(gòu)多類(lèi)型數(shù)據(jù)集成大數(shù)據(jù)大數(shù)據(jù)混合式存儲(chǔ)架構(gòu)概述第68頁(yè)數(shù)據(jù)應(yīng)用混合式架構(gòu)存儲(chǔ)和處理技術(shù)在大數(shù)據(jù)與傳統(tǒng)BI系統(tǒng)的區(qū)別在于引入了大量新的數(shù)據(jù)源,除了傳統(tǒng)的結(jié)構(gòu)化批處理數(shù)據(jù)(如CDR等),還包括大量的非結(jié)構(gòu)化數(shù)據(jù)和實(shí)時(shí)性很強(qiáng)的流數(shù)據(jù),如文本、點(diǎn)擊流、信令數(shù)據(jù)等;這些新數(shù)據(jù)源的引入促進(jìn)了應(yīng)用的發(fā)展,使一些原來(lái)無(wú)法實(shí)現(xiàn)的應(yīng)用成為可能,包括實(shí)時(shí)數(shù)據(jù)分析、基于文本的網(wǎng)絡(luò)數(shù)據(jù)分析等,這些應(yīng)用有著極為廣泛的應(yīng)用場(chǎng)景;為了使大數(shù)據(jù)能夠有效的支撐應(yīng)用,大數(shù)據(jù)的存儲(chǔ)和處理技術(shù)就尤為關(guān)鍵。針對(duì)不同類(lèi)型的數(shù)據(jù)采取不同的處理技術(shù),并在大數(shù)據(jù)平臺(tái)上根據(jù)應(yīng)用的需求進(jìn)行整合,是大數(shù)據(jù)混合式存儲(chǔ)架構(gòu)的核心目標(biāo),也是大數(shù)據(jù)平臺(tái)的核心模塊。大數(shù)據(jù)混合式存儲(chǔ)架構(gòu)概述第68頁(yè)數(shù)據(jù)應(yīng)用混合式存儲(chǔ)和在大數(shù)據(jù)從傳統(tǒng)的分析型和交易型系統(tǒng)通用的數(shù)據(jù)庫(kù)逐步向分析型系統(tǒng)專(zhuān)用的數(shù)據(jù)庫(kù)轉(zhuǎn)變第69頁(yè)傳統(tǒng)的數(shù)據(jù)庫(kù),如OracleDB,IBMDB2等,是交易型系統(tǒng)和分析型系統(tǒng)通用的數(shù)據(jù)庫(kù),以行的方式存儲(chǔ),在面向大數(shù)據(jù)的處理能力上有擴(kuò)展能力和處理性能的瓶頸;為了滿足大數(shù)據(jù)處理的需求,大數(shù)據(jù)的處理逐步向列數(shù)據(jù)庫(kù)(包括一體機(jī))和MPP數(shù)據(jù)庫(kù)(包括一體機(jī))等分析型系統(tǒng)專(zhuān)用的數(shù)據(jù)庫(kù)轉(zhuǎn)變。從傳統(tǒng)的分析型和交易型系統(tǒng)通用的數(shù)據(jù)庫(kù)逐步向分析型系統(tǒng)專(zhuān)用的關(guān)鍵技術(shù)——列數(shù)據(jù)庫(kù)第70頁(yè)列式數(shù)據(jù)庫(kù)是以列相關(guān)存儲(chǔ)架構(gòu)進(jìn)行數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù),主要適合與批量數(shù)據(jù)處理和即席查詢(xún)。相對(duì)應(yīng)的是行式數(shù)據(jù)庫(kù),數(shù)據(jù)以行相關(guān)的存儲(chǔ)體系架構(gòu)進(jìn)行空間分配,主要適合與小批量的數(shù)據(jù)處理,常用于聯(lián)機(jī)事務(wù)型數(shù)據(jù)處理。傳統(tǒng)的行式數(shù)據(jù)庫(kù)數(shù)據(jù)是按行存儲(chǔ)的沒(méi)有索引的查詢(xún)使用大量I/O建立索引和物化視圖需要花費(fèi)大量的時(shí)間和資源面對(duì)查詢(xún)的需求,數(shù)據(jù)庫(kù)必須大量膨脹才能滿足性能需求適用于分析型系統(tǒng)的列式數(shù)據(jù)庫(kù)數(shù)據(jù)是按列存儲(chǔ),每一列單獨(dú)存放數(shù)據(jù)既是索引只訪問(wèn)查詢(xún)涉及的列,大量降低系統(tǒng)I/O每個(gè)列由一個(gè)線索來(lái)處理,滿足并發(fā)的查詢(xún)數(shù)據(jù)類(lèi)型一致,數(shù)據(jù)特征相似,便于壓縮關(guān)鍵技術(shù)——列數(shù)據(jù)庫(kù)第70頁(yè)列式數(shù)據(jù)庫(kù)是以列相關(guān)存儲(chǔ)架構(gòu)進(jìn)行列式數(shù)據(jù)庫(kù)與行式數(shù)據(jù)庫(kù)在分析型系統(tǒng)中的性能對(duì)比第71頁(yè)列式數(shù)據(jù)庫(kù)與行式數(shù)據(jù)庫(kù)在分析型系統(tǒng)中的性能對(duì)比第71頁(yè)列數(shù)據(jù)庫(kù)的商用產(chǎn)品——SybaseIQ第72頁(yè)列數(shù)據(jù)庫(kù)的商用產(chǎn)品——SybaseIQ第72頁(yè)列數(shù)據(jù)庫(kù)的商用產(chǎn)品——HPVertica第73頁(yè)Vertica每一列數(shù)據(jù)獨(dú)立存儲(chǔ)在磁盤(pán)上的連續(xù)塊上。查詢(xún)數(shù)據(jù)時(shí),Vertica只需要取得那些需要的列,而不是被選擇行的所有的列數(shù)據(jù)。由于大多數(shù)的決策分析系統(tǒng)只是列的子集,Vertica垂直分區(qū)的方法極大地節(jié)省了DiskI/O。從而實(shí)現(xiàn)數(shù)據(jù)性能的50x-1000x倍的提高。Vertiaca是一個(gè)基于列數(shù)據(jù)庫(kù)技術(shù)的分析數(shù)據(jù)庫(kù)解決方案。列數(shù)據(jù)庫(kù)的商用產(chǎn)品——HPVertica第73頁(yè)Verti關(guān)鍵技術(shù)——MPP數(shù)據(jù)庫(kù)第74頁(yè)并行數(shù)據(jù)庫(kù)系統(tǒng)是新一代高性能的數(shù)據(jù)庫(kù)系統(tǒng),是在MPP和集群并行計(jì)算環(huán)境的基礎(chǔ)上建立的數(shù)據(jù)庫(kù)系統(tǒng)。并行數(shù)據(jù)庫(kù)系統(tǒng)的目標(biāo)是高性能和高可用性,通過(guò)多個(gè)處理節(jié)點(diǎn)并行執(zhí)行數(shù)據(jù)庫(kù)任務(wù),提高整個(gè)數(shù)據(jù)庫(kù)系統(tǒng)的性能和可用性。高性能并行數(shù)據(jù)庫(kù)系統(tǒng)基于多處理節(jié)點(diǎn)的物理結(jié)構(gòu),將數(shù)據(jù)庫(kù)管理技術(shù)與并行處理技術(shù)有機(jī)結(jié)合,來(lái)實(shí)現(xiàn)系統(tǒng)的高性能。高可用性高可用性可以同時(shí)在硬件和軟件兩個(gè)方面提供保障。在硬件方面,通過(guò)冗余的處理節(jié)點(diǎn)、存儲(chǔ)設(shè)備、網(wǎng)絡(luò)鏈路等硬件措施,可以保證當(dāng)系統(tǒng)中某節(jié)點(diǎn)部分或完全失效時(shí),其它的硬件設(shè)備可以接手其處理,對(duì)外提供持續(xù)服務(wù)。在軟件方面,通過(guò)狀態(tài)監(jiān)控與跟蹤、互相備份、日志等技術(shù)手段,可以保證當(dāng)前系統(tǒng)中某節(jié)點(diǎn)部分或完全失效時(shí),由它所進(jìn)行的處理或由它所掌控的資源可以無(wú)損失或基本無(wú)損失地轉(zhuǎn)移到其它節(jié)點(diǎn),并由其它節(jié)點(diǎn)繼續(xù)對(duì)外提供服務(wù)。關(guān)鍵技術(shù)——MPP數(shù)據(jù)庫(kù)第74頁(yè)并行數(shù)據(jù)庫(kù)系統(tǒng)是新一代高性能Share-nothing架構(gòu)第75頁(yè)常見(jiàn)的OLTP數(shù)據(jù)庫(kù)系統(tǒng)常常采用sharedeverything架構(gòu)來(lái)做集群,例如oracleRAC架構(gòu),數(shù)據(jù)存儲(chǔ)共享,節(jié)點(diǎn)間內(nèi)存可以相互訪問(wèn)。sharednothing架構(gòu)(MPP),主機(jī),操作系統(tǒng),內(nèi)存,存儲(chǔ)都是自我控制的,不存在共享。主要由masterhost,segmenthost,interconnect三大部分組成。MPP數(shù)據(jù)庫(kù)通過(guò)將數(shù)據(jù)分布到多個(gè)節(jié)點(diǎn)上來(lái)實(shí)現(xiàn)規(guī)模數(shù)據(jù)的存儲(chǔ)。數(shù)據(jù)庫(kù)的瓶頸經(jīng)常發(fā)生在I/O方面,mpp數(shù)據(jù)庫(kù)采用分而治之的辦法,將數(shù)據(jù)規(guī)律的分布到節(jié)點(diǎn)上,充分利用segment主機(jī)的IO能力,以此讓系統(tǒng)達(dá)到最大的IO能力(主要是帶寬)。每個(gè)表都是分布在所有節(jié)點(diǎn)上的。Masterhost首先通過(guò)對(duì)表的某個(gè)或多個(gè)列進(jìn)行hash運(yùn)算,然后根據(jù)hash結(jié)果將表的數(shù)據(jù)分布到segmenthost中。整個(gè)過(guò)程中masterhost不存放任何用戶(hù)數(shù)據(jù),只是對(duì)客戶(hù)端進(jìn)行訪問(wèn)控制和存儲(chǔ)表分布邏輯的元數(shù)據(jù)。Share-nothing架構(gòu)第75頁(yè)常見(jiàn)的OLTP數(shù)據(jù)庫(kù)商用產(chǎn)品——IBMNetezzaAppliance第76頁(yè)AdvancedAnalyticsLoaderETLBIApplicationsFPGAMemoryCPUFPGAMemoryCPUFPGAMemoryCPUHostsHostDisk
EnclosuresS-Blades?Network
FabricODBC/
JDBCNetezza系統(tǒng)性能的主要優(yōu)勢(shì)來(lái)自其獨(dú)特的AMPP處理架構(gòu),該架構(gòu)將SMP前端與一個(gè)無(wú)共享的MPP后端相結(jié)合完成查詢(xún)處理。該架構(gòu)將經(jīng)過(guò)精心挑選的各個(gè)組件集成在一起組成了平衡的整體系統(tǒng)。通過(guò)每個(gè)處理組件對(duì)多個(gè)數(shù)據(jù)流進(jìn)行操作,并盡早過(guò)濾掉多余的數(shù)據(jù)。最多可有多達(dá)一千多個(gè)MPP處理組件共同工作,有效分解和處理工作負(fù)荷。商用產(chǎn)品——IBMNetezzaAppliance第76商用產(chǎn)品——EMCGreenplum第77頁(yè)大規(guī)模并行處理MPP無(wú)共享架構(gòu)普通服務(wù)器平臺(tái)(服務(wù)器、網(wǎng)絡(luò))通過(guò)軟件提升處理能力商用產(chǎn)品——EMCGreenplum第77頁(yè)大規(guī)模并行處理大數(shù)據(jù)存儲(chǔ)和處理的關(guān)鍵技術(shù)——Hadoop第78頁(yè)HadoopDistributedFileSystem,簡(jiǎn)稱(chēng)HDFS,是一個(gè)分布式文件系統(tǒng)。HDFS有著高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的硬件上。而且它提供高吞吐量來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。HDFS放寬了POSIX的要求這樣可以實(shí)現(xiàn)流的形式訪問(wèn)文件系統(tǒng)中的數(shù)據(jù)。大數(shù)據(jù)存儲(chǔ)和處理的關(guān)鍵技術(shù)——Hadoop第78頁(yè)Hadoo大數(shù)據(jù)存儲(chǔ)和處理的關(guān)鍵技術(shù)——NoSQL第79頁(yè)NoSQL,指的是非關(guān)系型的數(shù)據(jù)庫(kù)。NoSQL致力于解決計(jì)算機(jī)體系結(jié)構(gòu)在數(shù)據(jù)存儲(chǔ)方面龐大的水平擴(kuò)展需求。Google的BigTable和Amazon的Dynamo使用的就是NoSQL型數(shù)據(jù)庫(kù)。主流的NoSQL開(kāi)源技術(shù)和產(chǎn)品有Membase,MongoDB。一些互聯(lián)網(wǎng)巨頭也開(kāi)發(fā)了自己的數(shù)據(jù)庫(kù)。Hypertable是一個(gè)開(kāi)源、高性能、可伸縮的數(shù)據(jù)庫(kù),它采用與Google的Bigtable相似的模型。ApacheCassandra是一套開(kāi)源分布式Key-Value存儲(chǔ)系統(tǒng)。它最初由Facebook開(kāi)發(fā),用于儲(chǔ)存特別大的數(shù)據(jù)。Facebook目前在使用此系統(tǒng)。大數(shù)據(jù)存儲(chǔ)和處理的關(guān)鍵技術(shù)——NoSQL第79頁(yè)NoSQL,NoSQL的產(chǎn)品——Membase第80頁(yè)Membase容易安裝、操作,可以從單節(jié)點(diǎn)方便的擴(kuò)展到集群,而且為memcached(有線協(xié)議的兼容性)實(shí)現(xiàn)了即插即用功能,在應(yīng)用方面為開(kāi)發(fā)者和經(jīng)營(yíng)者提供了一個(gè)比較低的門(mén)檻。做為緩存解決方案,Memcached已經(jīng)在不同類(lèi)型的領(lǐng)域(特別是大容量的Web應(yīng)用)有了廣泛的使用,其中Memcached的部分基礎(chǔ)代碼被直接應(yīng)用到了Membase服務(wù)器的前端。Membase是NoSQL家族的一個(gè)新的重量級(jí)的成員。Membase是開(kāi)源項(xiàng)目,源代碼采用了Apache2.0的使用許可。主要特點(diǎn)兼容Memcache的訪問(wèn)協(xié)議,text、binary兩種協(xié)議都支持功能好,通過(guò)添加效勞器來(lái)橫向擴(kuò)展效勞,同時(shí)效勞才能根本是線性添加的,可以滿足業(yè)務(wù)需求。安裝方便、使用簡(jiǎn)單、擴(kuò)展容易,管理界面美觀。過(guò)時(shí)數(shù)據(jù)可自動(dòng)刪除,有可持久化存儲(chǔ)方案的優(yōu)點(diǎn)。支持跨機(jī)房的Membase集群,支持多數(shù)據(jù)中心。NoSQL的產(chǎn)品——Membase第80頁(yè)Membase容NOSQL的產(chǎn)品——MongoDB第81頁(yè)MongoDB是一個(gè)介于關(guān)系數(shù)據(jù)庫(kù)和非關(guān)系數(shù)據(jù)庫(kù)之間的產(chǎn)品,是非關(guān)系數(shù)據(jù)庫(kù)當(dāng)中功能最豐富,最像關(guān)系數(shù)據(jù)庫(kù)的產(chǎn)品。MongoDB是一個(gè)基于分布式文件存儲(chǔ)的數(shù)據(jù)庫(kù)。由C++語(yǔ)言編寫(xiě)。旨在為WEB應(yīng)用提供可擴(kuò)展的高性能數(shù)據(jù)存儲(chǔ)解決方案。特點(diǎn):高性能、易部署、易使用,存儲(chǔ)數(shù)據(jù)非常方便。NOSQL的產(chǎn)品——MongoDB第81頁(yè)MongoDB是一大數(shù)據(jù)存儲(chǔ)和處理的關(guān)鍵技術(shù)——流數(shù)據(jù)處理引擎第82頁(yè)實(shí)時(shí)到達(dá)次序獨(dú)立規(guī)模宏大很難二次處理流數(shù)據(jù)流數(shù)據(jù)處理的技術(shù)主要包括開(kāi)源的S4平臺(tái),以及商用產(chǎn)品IBMStreamBaseCEP等;S4是一個(gè)通用的、可擴(kuò)展性良好、具有部分容錯(cuò)能力、支持插件的分布式流計(jì)算平臺(tái),在該平臺(tái)上程序員可以很方便地開(kāi)發(fā)處理流數(shù)據(jù)的應(yīng)用;IBMStreamBase復(fù)雜時(shí)間處理系統(tǒng)(CEP),使用管理高速、實(shí)時(shí)數(shù)據(jù)流新技術(shù),是一個(gè)流數(shù)據(jù)處理引擎。StreamBase應(yīng)用Java開(kāi)辟,IDE是基于Eclipse進(jìn)行二次開(kāi)辟,功能很是強(qiáng)大。StreamBase也供給了相當(dāng)多的Operator、Functor以及其他組件來(lái)幫助構(gòu)建應(yīng)用流程規(guī)則。大數(shù)據(jù)存儲(chǔ)和處理的關(guān)鍵技術(shù)——流數(shù)據(jù)處理引擎第82頁(yè)實(shí)時(shí)次序大數(shù)據(jù)平臺(tái)的邏輯數(shù)據(jù)架構(gòu)第83頁(yè)接口數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)(CDR、賬務(wù)、用戶(hù)資料等)文本數(shù)據(jù)(網(wǎng)頁(yè)內(nèi)容、客服記錄等)流數(shù)據(jù)(信令數(shù)據(jù))數(shù)據(jù)集成清洗轉(zhuǎn)換結(jié)構(gòu)化數(shù)據(jù)
非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化
實(shí)時(shí)處理大數(shù)據(jù)存儲(chǔ)和處理平臺(tái)客戶(hù)級(jí)匯總中間級(jí)匯總匯總指標(biāo)級(jí)匯總客戶(hù)級(jí)關(guān)聯(lián)中間級(jí)關(guān)聯(lián)關(guān)聯(lián)指標(biāo)級(jí)關(guān)聯(lián)…位置模型挖掘模型特征模型規(guī)則管理應(yīng)用數(shù)據(jù)報(bào)表類(lèi)專(zhuān)題類(lèi)即席分析類(lèi)實(shí)時(shí)分析類(lèi)大數(shù)據(jù)平臺(tái)的邏輯數(shù)據(jù)架構(gòu)第83頁(yè)接口數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)文本數(shù)據(jù)流混合式存儲(chǔ)架構(gòu)第84頁(yè)接口數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)(CDR、賬務(wù)、用戶(hù)資料等)文本數(shù)據(jù)(網(wǎng)頁(yè)內(nèi)容、客服記錄等)流數(shù)據(jù)(信令數(shù)據(jù))數(shù)據(jù)集成清洗轉(zhuǎn)換結(jié)構(gòu)化數(shù)據(jù)
非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化
實(shí)時(shí)處理大數(shù)據(jù)存儲(chǔ)和處理平臺(tái)客戶(hù)級(jí)匯總中間級(jí)匯總匯總指標(biāo)級(jí)匯總客戶(hù)級(jí)關(guān)聯(lián)中間級(jí)關(guān)聯(lián)關(guān)聯(lián)指標(biāo)級(jí)關(guān)聯(lián)…位置模型挖掘模型特征模型實(shí)時(shí)規(guī)則管理應(yīng)用數(shù)據(jù)報(bào)表類(lèi)專(zhuān)題類(lèi)即席分析類(lèi)實(shí)時(shí)分析類(lèi)Hadoop流數(shù)據(jù)處理列數(shù)據(jù)庫(kù)/MPP數(shù)據(jù)庫(kù)混合式存儲(chǔ)架構(gòu)第84頁(yè)接口數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)文本數(shù)據(jù)流數(shù)據(jù)數(shù)據(jù)集混合式存儲(chǔ)架構(gòu)(續(xù))第85頁(yè)根據(jù)數(shù)據(jù)的特點(diǎn)(結(jié)構(gòu)化與非結(jié)構(gòu)化)和處理需求(實(shí)時(shí)與非實(shí)時(shí))采用不同的數(shù)據(jù)存儲(chǔ)和處理技術(shù);結(jié)構(gòu)化數(shù)據(jù)集成(主要是記錄級(jí)的處理)、非結(jié)構(gòu)化數(shù)據(jù)處理、及部分?jǐn)?shù)據(jù)挖掘可以在Hadoop平臺(tái)實(shí)現(xiàn),充分利用Hadoop在低成本、并行處理批量數(shù)據(jù)方面的優(yōu)勢(shì);流數(shù)據(jù)的實(shí)時(shí)處理和實(shí)時(shí)規(guī)則管理采用流數(shù)據(jù)的處理方式,滿足實(shí)時(shí)分析的需求和實(shí)時(shí)規(guī)則的觸發(fā)管理;結(jié)構(gòu)化數(shù)據(jù)(包括結(jié)構(gòu)化后的文本數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù))的匯總、關(guān)聯(lián)、以及應(yīng)用數(shù)據(jù)都存儲(chǔ)在列數(shù)據(jù)庫(kù)或MPP數(shù)據(jù)庫(kù)中,充分發(fā)揮列數(shù)據(jù)庫(kù)和MPP數(shù)據(jù)庫(kù)在列處理性能上的優(yōu)勢(shì);混合式存儲(chǔ)架構(gòu)(續(xù))第85頁(yè)根據(jù)數(shù)據(jù)的特點(diǎn)(結(jié)構(gòu)化與非結(jié)構(gòu)化議題第86頁(yè)大數(shù)據(jù)平臺(tái)概述大數(shù)據(jù)平臺(tái)架構(gòu)多類(lèi)型數(shù)據(jù)集成大數(shù)據(jù)混合式存儲(chǔ)架構(gòu)IaaS層:資源管理和模塊化數(shù)據(jù)中心PaaS層:大數(shù)據(jù)平臺(tái)SaaS層:行業(yè)解決方案議題第86頁(yè)大數(shù)據(jù)平臺(tái)概述大數(shù)據(jù)平臺(tái)架構(gòu)多類(lèi)型數(shù)據(jù)集成大數(shù)據(jù)—Platfrom
as
a
Service,平臺(tái)即服務(wù)PaaS平臺(tái):應(yīng)用開(kāi)發(fā)、部署、運(yùn)營(yíng)的平臺(tái)PaaS平臺(tái)概述—PlatfromasaService,平臺(tái)即服務(wù)Pa大數(shù)據(jù)的PaaS平臺(tái)的用戶(hù)是第三方應(yīng)用開(kāi)發(fā)商,在整個(gè)大數(shù)據(jù)平臺(tái)建設(shè)的過(guò)程中,為多個(gè)應(yīng)用開(kāi)發(fā)商提供統(tǒng)一的開(kāi)發(fā)環(huán)境和應(yīng)用運(yùn)行環(huán)境,解決了傳統(tǒng)分析型系統(tǒng)架構(gòu)的問(wèn)題:為什么要打造大數(shù)據(jù)PaaS平臺(tái)?重復(fù)開(kāi)發(fā)數(shù)據(jù)冗余運(yùn)維困難數(shù)據(jù)泄密?底層基礎(chǔ)功能重復(fù)開(kāi)發(fā),技術(shù)要求上不能統(tǒng)一,導(dǎo)致后續(xù)有新需求時(shí)改進(jìn)、維護(hù)困難(需要使用不同技術(shù)、修改多處等);?實(shí)現(xiàn)技術(shù)及接口的不統(tǒng)一,不能對(duì)各應(yīng)用開(kāi)發(fā)商的應(yīng)用進(jìn)行統(tǒng)一的監(jiān)控、運(yùn)維管理;?應(yīng)用數(shù)據(jù)冗余,各應(yīng)用開(kāi)發(fā)商根據(jù)自己的需求生成各種和其他應(yīng)用開(kāi)發(fā)商之間冗余的數(shù)據(jù),沒(méi)有統(tǒng)一的數(shù)據(jù)規(guī)劃和控制;?應(yīng)用數(shù)據(jù)安全性,各應(yīng)用開(kāi)發(fā)商都需要能訪問(wèn)基礎(chǔ)數(shù)據(jù)、生成應(yīng)用所需匯總數(shù)據(jù),接觸基礎(chǔ)數(shù)據(jù)的人太多,可能會(huì)導(dǎo)致基礎(chǔ)數(shù)據(jù)泄密;優(yōu)勢(shì)大數(shù)據(jù)的PaaS平臺(tái)的用戶(hù)是第三方應(yīng)用開(kāi)發(fā)商,在整個(gè)大數(shù)據(jù)平PaaS平臺(tái)的目標(biāo)把應(yīng)用中不涉及業(yè)務(wù)邏輯的底層基礎(chǔ)能力(用戶(hù)、資源、權(quán)限、日志、任務(wù)等),以及基礎(chǔ)分析能力,通過(guò)統(tǒng)一的服務(wù)方式進(jìn)行提供,減少重復(fù)開(kāi)發(fā)工作量;可以引入多個(gè)應(yīng)用開(kāi)發(fā)商,讓?xiě)?yīng)用開(kāi)發(fā)商把主要精力放在應(yīng)用業(yè)務(wù)邏輯上,促進(jìn)應(yīng)用百花齊放、優(yōu)勝劣汰;提供統(tǒng)一的應(yīng)用運(yùn)行平臺(tái);規(guī)范應(yīng)用的開(kāi)發(fā)、發(fā)布、部署、運(yùn)維的流程及技術(shù)要求,利于對(duì)應(yīng)用進(jìn)行統(tǒng)一的監(jiān)控和運(yùn)維管理;提供統(tǒng)一運(yùn)行環(huán)境提供統(tǒng)一開(kāi)發(fā)環(huán)境PaaS平臺(tái)的目標(biāo)把應(yīng)用中不涉及業(yè)務(wù)邏輯的底層基礎(chǔ)能力(用戶(hù)PaaS平臺(tái)提供的核心開(kāi)發(fā)支撐能力第90頁(yè)數(shù)據(jù)訪問(wèn)及處理引擎工作流引擎數(shù)據(jù)挖掘引擎數(shù)據(jù)可視化引擎基礎(chǔ)功能模塊提供完整的數(shù)據(jù)支撐,包括不同粒度的數(shù)據(jù)以及數(shù)據(jù)處理引擎提供包含多種統(tǒng)計(jì)分析和數(shù)據(jù)挖掘的引擎,以及引擎運(yùn)行平臺(tái)提供數(shù)據(jù)可視化工具,包括多種圖形化工具并支持多種數(shù)據(jù)源接口提供工作流引擎,為解決方案提供流程支撐,以及流程中的分析集成PaaS平臺(tái)提供的核心開(kāi)發(fā)支撐能力第90頁(yè)數(shù)據(jù)訪問(wèn)及處理引擎能力一:統(tǒng)一數(shù)據(jù)訪問(wèn)和處理引擎?實(shí)現(xiàn)統(tǒng)一的數(shù)據(jù)訪問(wèn)接口,應(yīng)用不再直接連接大數(shù)據(jù)存儲(chǔ)層中的數(shù)據(jù)庫(kù)或非結(jié)構(gòu)化數(shù)據(jù),而是通過(guò)數(shù)據(jù)訪問(wèn)模塊訪問(wèn)其中的數(shù)據(jù);?實(shí)現(xiàn)統(tǒng)一的數(shù)據(jù)存儲(chǔ)接口,應(yīng)用通過(guò)調(diào)用數(shù)據(jù)存儲(chǔ)模塊來(lái)存儲(chǔ)數(shù)據(jù)或非結(jié)構(gòu)化文件,不直接訪問(wèn)大數(shù)據(jù)存儲(chǔ)層中的數(shù)據(jù)源;統(tǒng)一數(shù)據(jù)存儲(chǔ)統(tǒng)一數(shù)據(jù)訪問(wèn)統(tǒng)一數(shù)據(jù)訪問(wèn)、統(tǒng)一數(shù)據(jù)存儲(chǔ)指的是對(duì)業(yè)務(wù)數(shù)據(jù),不包括元數(shù)據(jù)。能力一:統(tǒng)一數(shù)據(jù)訪問(wèn)和處理引擎?實(shí)現(xiàn)統(tǒng)一的數(shù)據(jù)訪問(wèn)接口,應(yīng)用基礎(chǔ)支撐能力一:統(tǒng)一數(shù)據(jù)訪問(wèn)和處理引擎(續(xù))第92頁(yè)應(yīng)用層任務(wù)解析任務(wù)調(diào)度任務(wù)執(zhí)行任務(wù)管理統(tǒng)一數(shù)據(jù)訪問(wèn)數(shù)據(jù)訪問(wèn)服務(wù)數(shù)據(jù)獲取語(yǔ)義服務(wù)大數(shù)據(jù)存儲(chǔ)RDBMSHadoopNosql數(shù)據(jù)訪問(wèn)和處理引擎在統(tǒng)一數(shù)據(jù)訪問(wèn)的基礎(chǔ)上進(jìn)行任務(wù)管理,包括任務(wù)解析、調(diào)度和執(zhí)行;任務(wù)解析將應(yīng)用發(fā)來(lái)的數(shù)據(jù)請(qǐng)求進(jìn)行解析,形成數(shù)據(jù)處理任務(wù)。根據(jù)應(yīng)用預(yù)設(shè)的優(yōu)先級(jí),將任務(wù)進(jìn)行調(diào)度和執(zhí)行,并將結(jié)果反饋回應(yīng)用;任務(wù)的解析和執(zhí)行不直接訪問(wèn)大數(shù)據(jù)存儲(chǔ),而是經(jīng)過(guò)統(tǒng)一數(shù)據(jù)訪問(wèn)模塊進(jìn)行;基礎(chǔ)支撐能力一:統(tǒng)一數(shù)據(jù)訪問(wèn)和處理引擎(續(xù))第92頁(yè)應(yīng)用層任數(shù)據(jù)支撐示例——用戶(hù)六維全息視圖基本信息消費(fèi)行為通話行為位置信息手機(jī)上網(wǎng)行為信息服務(wù)使用行為客服使用行為支付行為購(gòu)物行為第三方導(dǎo)入信息特征分析、模式發(fā)現(xiàn)偏好分析、關(guān)聯(lián)預(yù)測(cè)時(shí)間序列模式分析聯(lián)系圖譜分析、群體識(shí)別和特征分析長(zhǎng)期跟蹤分析、發(fā)現(xiàn)變動(dòng)、預(yù)警異?!?/p>
用戶(hù)全息視圖整合所有電信業(yè)務(wù)相關(guān)數(shù)據(jù),以及移動(dòng)互聯(lián)網(wǎng)使用數(shù)據(jù),同時(shí)結(jié)合第三方提供的數(shù)據(jù)形成最為完整的用戶(hù)信息視圖;
在此基礎(chǔ)上提供深度挖掘的多種方法,為全方位發(fā)掘客戶(hù)特征提供支撐能力。六維視圖時(shí)間空間價(jià)值行為偏好社交第93頁(yè)數(shù)據(jù)支撐示例——用戶(hù)六維全息視圖基本信息消費(fèi)行為通話行為位置基礎(chǔ)支撐能力二:數(shù)據(jù)挖掘引擎第94頁(yè)預(yù)處理數(shù)據(jù)準(zhǔn)備樣本集管理數(shù)據(jù)準(zhǔn)備分類(lèi)算法數(shù)據(jù)挖掘建模聚類(lèi)算法回歸算法時(shí)間序列關(guān)聯(lián)分析…模型評(píng)估評(píng)估指標(biāo)管理模型驗(yàn)證用戶(hù)追蹤模型優(yōu)化多模型對(duì)比模型迭代管理統(tǒng)一數(shù)據(jù)訪問(wèn)數(shù)據(jù)訪問(wèn)服務(wù)數(shù)據(jù)獲取語(yǔ)義服務(wù)數(shù)據(jù)挖掘引擎數(shù)據(jù)挖掘引擎包括數(shù)據(jù)挖掘涉及的五個(gè)主要環(huán)節(jié),數(shù)據(jù)準(zhǔn)備、建模、模型評(píng)估、模型應(yīng)用、模型優(yōu)化。模型應(yīng)用應(yīng)用數(shù)據(jù)管理應(yīng)用結(jié)果輸出基礎(chǔ)支撐能力二:數(shù)據(jù)挖掘引擎第94頁(yè)預(yù)處理數(shù)據(jù)準(zhǔn)備樣本集管理基礎(chǔ)支撐能力三:工作流引擎第95頁(yè)
工作流是一系列相互銜接、自動(dòng)進(jìn)行或人工執(zhí)行的業(yè)務(wù)活動(dòng)或任務(wù),它根據(jù)一系列過(guò)程規(guī)則、文檔、信息或任務(wù)能夠在不同的執(zhí)行者之間進(jìn)行傳遞與執(zhí)行。
工作流引擎支持工作流的定義,創(chuàng)建工作流實(shí)例,并按照預(yù)定義的工作流邏輯和流程規(guī)則推進(jìn)工作流實(shí)例。
通過(guò)工作流模板簡(jiǎn)化開(kāi)發(fā)工作:業(yè)務(wù)場(chǎng)景分析流程營(yíng)銷(xiāo)活動(dòng)管理流程產(chǎn)品策劃流程基礎(chǔ)支撐能力三:工作流引擎第95頁(yè)工作流是一基礎(chǔ)支撐能力四:數(shù)據(jù)可視化引擎第96頁(yè)
通過(guò)集成數(shù)據(jù)可視化工具,提供豐富的圖形展現(xiàn)和交互分析能力,無(wú)需定制開(kāi)發(fā),快速形成應(yīng)用。231豐富的圖形展現(xiàn)交互式分析集成地圖展現(xiàn)區(qū)域D區(qū)域A區(qū)域B區(qū)域C區(qū)域E區(qū)域F區(qū)域G關(guān)注該內(nèi)容的用戶(hù)最密集的區(qū)域基礎(chǔ)支撐能力四:數(shù)據(jù)可視化引擎第96頁(yè)通過(guò)集
P
a
a
S平臺(tái)數(shù)據(jù)服務(wù)數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)庫(kù)分布式文件存儲(chǔ)應(yīng)用應(yīng)用應(yīng)用應(yīng)用應(yīng)用語(yǔ)義服務(wù)數(shù)據(jù)獲取
/存儲(chǔ)服務(wù)用戶(hù)管理安全管理運(yùn)維管理服務(wù)管理監(jiān)控管理基礎(chǔ)/業(yè)務(wù)服務(wù)元數(shù)據(jù)服務(wù)ACT引擎DPT引擎離線開(kāi)發(fā)環(huán)境應(yīng)用容器
日志
組件
KPI
組件統(tǒng)一接觸組件…組件IaaS事件服務(wù)流程服務(wù)事件監(jiān)控事件引擎流程監(jiān)控流程引擎Eclipse
N
e
t
b
e
a
n
sBISDK……平臺(tái)監(jiān)控管理
在線開(kāi)發(fā)環(huán)境應(yīng)用管理
……PaaS平臺(tái)的開(kāi)發(fā)和運(yùn)行環(huán)境架構(gòu) P數(shù)據(jù)服務(wù)數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)庫(kù)分布式文件存儲(chǔ)應(yīng)用應(yīng)用應(yīng)用應(yīng)用應(yīng)1、準(zhǔn)備數(shù)據(jù)生成
?應(yīng)用開(kāi)發(fā)者使用
“開(kāi)發(fā)者工作臺(tái)”
中的“DPT配置”
功能設(shè)計(jì)應(yīng)用的
數(shù)據(jù)存儲(chǔ)模型、
應(yīng)用數(shù)據(jù)生成流
程、生成邏輯等;2、構(gòu)建數(shù)據(jù)展示
?應(yīng)用開(kāi)發(fā)者使用
“離線開(kāi)發(fā)工
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年金屬包裝容器及其附件合作協(xié)議書(shū)
- 2025年濾紫外石英玻璃燈管合作協(xié)議書(shū)
- 九年級(jí)綜合實(shí)踐課教學(xué)計(jì)劃1
- 2025年二年級(jí)上學(xué)期班主任工作總結(jié)(3篇)
- 口外-唾液腺疾病診療考核試題
- 2025年個(gè)人簡(jiǎn)單門(mén)面出租合同(2篇)
- 2025年產(chǎn)品訂購(gòu)合同經(jīng)典版(4篇)
- 2025年個(gè)人車(chē)位轉(zhuǎn)讓合同參考樣本(4篇)
- 2025年交通意外保險(xiǎn)協(xié)議樣本(2篇)
- 2025年互助拼車(chē)的協(xié)議(2篇)
- 電網(wǎng)工程設(shè)備材料信息參考價(jià)(2024年第四季度)
- 2025年江蘇農(nóng)牧科技職業(yè)學(xué)院高職單招職業(yè)技能測(cè)試近5年??及鎱⒖碱}庫(kù)含答案解析
- 2025江蘇連云港市贛榆城市建設(shè)發(fā)展集團(tuán)限公司招聘工作人員15人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 江蘇省揚(yáng)州市蔣王小學(xué)2023~2024年五年級(jí)上學(xué)期英語(yǔ)期末試卷(含答案無(wú)聽(tīng)力原文無(wú)音頻)
- 山西省大同市基層診所醫(yī)療機(jī)構(gòu)衛(wèi)生院社區(qū)衛(wèi)生服務(wù)中心村衛(wèi)生所室地址信息
- 項(xiàng)目部、公司成本管理流程圖
- 高中英語(yǔ)選擇性必修二 Unit 1 Period 1 Reading and thinking(課件)(共38張)
- 小學(xué)生電子小報(bào)通用模板-A4電子小報(bào)15
- CAS云計(jì)算軟件平臺(tái)深入介紹
- 課堂教學(xué)方法與手段(課堂PPT)課件(PPT 16頁(yè))
- 氯鹽型和環(huán)保型融雪劑發(fā)展現(xiàn)狀
評(píng)論
0/150
提交評(píng)論