云領(lǐng)大數(shù)據(jù)時代的經(jīng)分_第1頁
云領(lǐng)大數(shù)據(jù)時代的經(jīng)分_第2頁
云領(lǐng)大數(shù)據(jù)時代的經(jīng)分_第3頁
云領(lǐng)大數(shù)據(jù)時代的經(jīng)分_第4頁
云領(lǐng)大數(shù)據(jù)時代的經(jīng)分_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

云領(lǐng)大數(shù)據(jù)時代的經(jīng)分EMCGreenplum2021年11月當(dāng)今經(jīng)分的挑戰(zhàn)及IT技術(shù)的開展趨勢云計算模式經(jīng)分案例分析大數(shù)據(jù)時代經(jīng)分演進(jìn)方案討論方案介紹及演進(jìn)Greenplum簡介Q&A匯報提綱用戶人數(shù)增長數(shù)據(jù)量增長薩班斯監(jiān)管查詢、報告、分析的數(shù)量增長數(shù)據(jù)的高度多樣性日益增長數(shù)據(jù)業(yè)務(wù)快速增長管理層要求,降低IT成本當(dāng)今經(jīng)分的挑戰(zhàn)-一切都在增長!同類情況,互聯(lián)網(wǎng)搜索引擎業(yè)如Google在1990年代末即遇到,因此,他們最早從大型效勞器集群轉(zhuǎn)到x86效勞器大規(guī)模并行處理架構(gòu)了。4實(shí)際的IT技術(shù)開展?fàn)顟B(tài)-Moore定律實(shí)際情況Yearlog(Speed)CPUNetworkBandwidthRAM1/NetworkLatencySoftware效勞器主板總線速度、帶寬增長緩慢。內(nèi)存訪問速度、帶寬增長緩慢。效勞器之間網(wǎng)絡(luò)帶寬開展迅速!因此,傳統(tǒng)SMP架構(gòu)效勞器開展受限,性能提高事倍功半。因此,Google領(lǐng)導(dǎo)的x86效勞器無共享/大規(guī)模并行處理架構(gòu)迅速開展,廣泛應(yīng)用于大數(shù)據(jù)量處理。Power7及X86CPU體系結(jié)構(gòu)

--自從96年80686以后數(shù)據(jù)通信時延L1cachereference0.5nsBranchmispredict5nsL2cachereference7nsMutexlock/unlock25nsMainmemoryreference100nsSend2Kbytesover1Gbpsnetwork20,000nsRead1MBsequentiallyfrommemory250,000nsDiskseek10,000,000nsRead1MBsequentiallyfromdisk20,000,000ns1/21/20236效勞器集群實(shí)際故障概率典型4000臺效勞器第一年故障率:~8networkmaintenances(4mightcause~30-minuterandomconnectivitylosses)~12routerreloads(takesoutDNSandexternalvipsforacoupleminutes)~3routerfailures(havetoimmediatelypulltrafficforanhour)~1000individualmachinefailures約3.3‰天~thousandsofharddrive〔硬盤〕failures約2%天1/21/20237應(yīng)用挑戰(zhàn)及硬件架構(gòu)開展導(dǎo)致的數(shù)據(jù)庫技術(shù)開展歷程技術(shù)開展趨勢…云計算模式經(jīng)分系統(tǒng)建設(shè)的驅(qū)動力IT架構(gòu)發(fā)展動力IT運(yùn)營成本降低的要求靈活性與快速響應(yīng)的要求質(zhì)量提升動力全網(wǎng)數(shù)據(jù)口徑統(tǒng)一的要求全網(wǎng)數(shù)據(jù)保真的要求業(yè)務(wù)發(fā)展動力全網(wǎng)、全渠道、全業(yè)務(wù)一體化營銷服務(wù)的要求總部、省分、地市、一線多級透明管理的要求持續(xù)提升數(shù)據(jù)價值,縮小省分能力差距企業(yè)高效低成本運(yùn)營云計算模式經(jīng)營分析系統(tǒng)建設(shè)驅(qū)動力南北基地集中化經(jīng)分根底設(shè)施層平臺層應(yīng)用軟件層運(yùn)營管理故障管理性能管理配置管理平安管理虛擬化挖掘工具規(guī)那么引擎……主機(jī)存儲全網(wǎng)應(yīng)用工作流引擎ETL工具提供虛擬化的硬件資源,操作系統(tǒng)IaaSPaaSSaaS共性應(yīng)用數(shù)據(jù)庫軟件個性應(yīng)用提供集成的開發(fā)運(yùn)維環(huán)境,由省公司分別協(xié)調(diào)開發(fā)商參與開發(fā)應(yīng)用基于統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)和交互標(biāo)準(zhǔn)集中管理和統(tǒng)一開發(fā),并實(shí)現(xiàn)應(yīng)用共享數(shù)據(jù)質(zhì)量管理網(wǎng)絡(luò)及平安PC數(shù)據(jù)層DaaS在數(shù)據(jù)層兼顧標(biāo)準(zhǔn)的模型和個性化的模型,加強(qiáng)模型管理,數(shù)據(jù)以同步和效勞的方式對外提供使用標(biāo)準(zhǔn)模型個性化模型云計算模式經(jīng)分系統(tǒng)架構(gòu)利用虛擬化的方法提高設(shè)備綜合利用率,以規(guī)?;档陀布顿Y本錢和運(yùn)維本錢利用集中化建設(shè)的方法節(jié)省硬、軟件平臺、工具和應(yīng)用開發(fā)和運(yùn)維的投入,縮短上線時間靈活采用SaaS、PaaS和IaaS建設(shè)方法,保持模型和應(yīng)用的標(biāo)準(zhǔn)化與靈活性兼顧,到達(dá)既能集中建設(shè)也能滿足省、地市個性化需求的目的EMC云戰(zhàn)略開展圖虛擬客戶端私有云公共云

虛擬化信息化平安聯(lián)邦虛擬應(yīng)用面向海量數(shù)據(jù)分析的云架構(gòu)面向海量對象儲存的云架構(gòu)面向海量文件處理的云架構(gòu)企業(yè)IT消費(fèi)者面向高速事務(wù)處理的云架構(gòu)當(dāng)今經(jīng)分的挑戰(zhàn)及IT技術(shù)的開展趨勢云計算模式經(jīng)分案例分析大數(shù)據(jù)時代經(jīng)分演進(jìn)方案討論方案介紹及演進(jìn)Greenplum簡介Q&A匯報提綱大經(jīng)分案例〔1〕——阿里巴巴〔支付寶〕業(yè)務(wù)使用通過分析用戶的網(wǎng)絡(luò)點(diǎn)擊日志,進(jìn)行產(chǎn)品關(guān)聯(lián)分析,讓客戶可以快速的找到相近產(chǎn)品原有解決方案及問題Oracle加載速度非常慢,真的令人無法接受——技術(shù)人員天天抱怨做客戶詳細(xì)復(fù)雜的點(diǎn)擊查詢,要等上半天到一天,有時還出不來結(jié)果,浪費(fèi)我們大量的時間——業(yè)務(wù)經(jīng)理已經(jīng)忍無可忍了現(xiàn)在系統(tǒng)無法滿足海量的歷史數(shù)據(jù)的分析應(yīng)用Greenplum是幕后的英雄海量加載由Greenplum完成聚集了Alibaba所有的歷史數(shù)據(jù)

真是一個超級的海量數(shù)據(jù)庫軟件!——客戶技術(shù)部門評價網(wǎng)站日志交易數(shù)據(jù)詳細(xì)數(shù)據(jù)Greenplum。。。。。。用戶信息支付寶BI2021系統(tǒng)架構(gòu)圖日志挖掘效勞器H+1,20臺信用/CTUDatamart/計算平臺數(shù)據(jù)倉庫主庫定時任務(wù)計算140臺數(shù)據(jù)分發(fā)數(shù)據(jù)源OLTP系統(tǒng)財務(wù)系統(tǒng)銷售系統(tǒng)客服系統(tǒng)會員營銷Datamart/計算平臺抽取數(shù)據(jù)收集分發(fā)中心數(shù)據(jù)倉庫工具與管理平臺/調(diào)度系統(tǒng))管理元數(shù)據(jù)(MetaData)管理CDC資金/財務(wù)等Datamart/模型計算平臺CDCCDCCDC賬戶系統(tǒng)…數(shù)據(jù)倉庫備庫查詢60臺數(shù)據(jù)歷史庫/挖掘40臺CDCCDC數(shù)據(jù)分發(fā)數(shù)據(jù)分發(fā)風(fēng)控系統(tǒng)會員營銷客戶效勞資金管理財務(wù)分析客戶信用挖掘工具集商業(yè)智能信息門戶KPI報表與業(yè)務(wù)報告業(yè)務(wù)指標(biāo)儀表盤監(jiān)控運(yùn)營與營銷數(shù)據(jù)分析綜合數(shù)據(jù)查詢挖掘分析報告用戶訪問行為跟蹤競爭情報日志收集效勞器20臺日志/行為模型計算準(zhǔn)實(shí)時,4臺效勞打點(diǎn)效勞線上即時作弊判斷線上即時個性化營銷企業(yè)數(shù)據(jù)中心網(wǎng)站訪問交易系統(tǒng)圖例greenplum集群主庫,總共180臺查詢集群greenplum備庫

總共60臺大經(jīng)分案例(2)

--T-Mobile客戶面臨:客戶忠誠度和流失情況是包括CEO的全公司員工關(guān)心的第一要素。100TBTeradataEDW用于運(yùn)營報告和財務(wù)匯總EDW只管理了局部數(shù)據(jù),管理控制工作復(fù)雜繁重如支持管理業(yè)務(wù)相關(guān)所有關(guān)鍵數(shù)據(jù)并支撐相關(guān)分析,系統(tǒng)建設(shè)本錢無法承受原有100TBEDW1PetabyteEDCGODatabase+EDCChorusGreenplumDatabase+VMWare:存放EDW及其他數(shù)據(jù)源的全部數(shù)據(jù)規(guī)模達(dá)PB級,獲得快速的分析基礎(chǔ)設(shè)施平臺從呼叫記錄和客戶信息中,新分析出客戶社會關(guān)系圖Within2weeksuncoveredbehaviorwhere“connected”T-Mobilesubscriberswhere7Xmorelikelytochurnthanaverageuser部署了

GreenplumEDC投入生產(chǎn),加強(qiáng)了公司分析能力PB級

EDC從CDR及CRM信息,計算生成社會關(guān)系圖發(fā)現(xiàn)某些用戶離網(wǎng)的話,他對其他人的帶動作用大7倍。社會關(guān)系分析大經(jīng)分案例〔3〕GreenpluminDoCoMo:業(yè)務(wù)問題移動互聯(lián)網(wǎng)上網(wǎng)行為分析及推薦原有方案Oracle/Netezza數(shù)據(jù)規(guī)模PB級,512臺Dell效勞器優(yōu)勢將處理時間縮短90%18用戶數(shù):52,126,200BOSS數(shù)據(jù)量:3,000TB-數(shù)據(jù)中心分步:3主數(shù)據(jù)中心在東京,還有6個分步在全日本。-同城災(zāi)備:使用SRDF/SDR在東京,距離~40km/50kmPB級大數(shù)據(jù)倉庫實(shí)例照片當(dāng)今經(jīng)分的挑戰(zhàn)及IT技術(shù)的開展趨勢云計算模式經(jīng)分案例分析大數(shù)據(jù)時代經(jīng)分演進(jìn)方案討論方案介紹及演進(jìn)Greenplum簡介Q&A匯報提綱云計算模式的數(shù)據(jù)倉庫新方案普通x86效勞器平臺〔效勞器、網(wǎng)絡(luò)〕通過軟件提升處理能力無共享/MPP“黑盒子〞“大鐵箱〞大磁盤Google實(shí)現(xiàn)了海量信息搜索功能的云技術(shù)Greenplum實(shí)現(xiàn)了面向云計算的海量數(shù)據(jù)倉庫技術(shù)-無共享/MPP傳統(tǒng)的解決方案21

總體擁有本錢優(yōu)勢云計算模式經(jīng)分方案一:

基于ETL的雙活數(shù)據(jù)倉庫容災(zāi)解決方案架構(gòu)云計算模式經(jīng)分方案一:基于ETL的雙活數(shù)據(jù)倉庫容災(zāi)組網(wǎng)建議云計算模式經(jīng)分方案二:

虛擬化全云計算方案架構(gòu)EMCVPLEX

Greenplum

〔GVblock一體化設(shè)備:計算、存儲、網(wǎng)絡(luò)〕EMCVPLEX

Greenplum

〔GVblock一體化設(shè)備:計算、存儲、網(wǎng)絡(luò)〕數(shù)據(jù)中心AVMWare本地虛擬化數(shù)據(jù)中心BVMWare本地虛擬化云化虛擬數(shù)據(jù)中心〔支持異地復(fù)制及容災(zāi)〕云計算模式經(jīng)分方案二:虛擬化全云計算建設(shè)方案

經(jīng)分演進(jìn)路線圖云化成熟度綜合效益x86服務(wù)器內(nèi)置盤加云數(shù)據(jù)庫軟件

刀片服務(wù)器加統(tǒng)一網(wǎng)絡(luò)訪問(CNA)GVblockGVblock+Vplex虛擬化云數(shù)據(jù)中心SMP服務(wù)器加SAN存儲經(jīng)分大集中案例分析當(dāng)今經(jīng)分的挑戰(zhàn)及集中化的趨勢大數(shù)據(jù)時代經(jīng)分演進(jìn)方案討論方案介紹及演進(jìn)Greenplum簡介Q&A匯報提綱Greenplum根本架構(gòu)大規(guī)模并行處理MPP(MassivelyParallelProcessing)

無共享架構(gòu)Shared-NothingArchitectureNetworkInterconnect............Master

節(jié)點(diǎn)生成查詢方案并派發(fā)匯總執(zhí)行結(jié)果Segment

節(jié)點(diǎn)執(zhí)行查詢方案及數(shù)據(jù)存儲管理SQLMapReduce外部數(shù)據(jù)源并行裝載或?qū)С鯣reenplum數(shù)據(jù)庫內(nèi)部架構(gòu)Master節(jié)點(diǎn)負(fù)責(zé):建立與客戶端的連接和管理SQL的解析并形成執(zhí)行方案執(zhí)行方案向Segment的分發(fā)收集Segment的執(zhí)行結(jié)果Master不存儲應(yīng)用業(yè)務(wù)數(shù)據(jù),只存儲數(shù)據(jù)字典Segment節(jié)點(diǎn)負(fù)責(zé)業(yè)務(wù)數(shù)據(jù)的存儲和存取用戶查詢SQL的執(zhí)行GreenplumMaster

HostInterconnect—交換機(jī)SegmentHostSegmentHostSegmentHostSegmentHostMaster

HostClientLAN31GoogleFS架構(gòu)與GreenplumDB比照GreenplumMaster

HostInterconnect—交換機(jī)SegmentHostSegmentHostSegmentHostSegmentHostMaster

HostClientLAN無共享〔Share-Nothing〕等架構(gòu)比照共享磁盤例如:InformixXPSOracleRACDB2pureScaleDBSAN/共享磁盤DBDBDB網(wǎng)絡(luò)SAN/FC完全共享例如:SMP效勞器DB磁盤無共享例如:GreenplumDBDBDBDB網(wǎng)絡(luò)磁盤磁盤磁盤磁盤Master注:藍(lán)灰色表示共享資源MPPSG(Scatter/Gather)流技術(shù)1)Scatter階段不需要專門的加載效勞器加載性能與節(jié)點(diǎn)數(shù)成正比支持大批量及實(shí)時數(shù)據(jù)加載對源系統(tǒng)的影響〔資源消耗〕非常小2)Gather階段在數(shù)據(jù)收集中,可以用SQL對數(shù)據(jù)進(jìn)行轉(zhuǎn)換數(shù)據(jù)分布在每個并行節(jié)點(diǎn)上完全并行的數(shù)據(jù)引擎保證數(shù)據(jù)吞吐的最大化支持對數(shù)據(jù)進(jìn)行壓縮存儲23?Copyright2021EMCCorporation.Allrightsreserved.PolymorphicDataStorage?

(多態(tài)存儲—同時支持行存儲及列存儲)Table‘Customer’Jan’09Feb’09Mar’09Apr’09May’09Jun’09Jul’09Aug’09Sept’09Oct’09Nov’09Column-OrientedArchivalCompressionColumn-OrientedFastCompressionRow-Oriented提供靈活存儲技術(shù)四種表類型:普通行表,AO表,列存儲表,外部表兩種壓縮技術(shù):Gzip(levels1-9),QuickLZ同一庫內(nèi)甚至同一個表中多種存儲技術(shù)混合使用靈活定義不同表分區(qū)存儲結(jié)構(gòu)只需定義關(guān)鍵字orientation=[row|olumn]允許用戶根據(jù)不同應(yīng)用場景,到達(dá)最優(yōu)性能效果動態(tài)在線系統(tǒng)擴(kuò)容

Masterseg1seg2seg3seg4seg5seg6數(shù)據(jù)自動在所有節(jié)點(diǎn)上重新分布容量和性能在擴(kuò)展后線性增長步驟1:新節(jié)點(diǎn)初始化參加MPP集群步驟2:數(shù)據(jù)在所有節(jié)點(diǎn)上重分布聯(lián)網(wǎng)高可靠性-鏡像技術(shù)EMCGreenplum經(jīng)分大集中

可管理性,可運(yùn)營性分析易用性并行處理由系統(tǒng)自動完成–無需人工干預(yù)沒有復(fù)雜的調(diào)優(yōu)需求–只需加載數(shù)據(jù)庫和查詢

擴(kuò)展性可線性擴(kuò)展到10,000個節(jié)點(diǎn)每增加一個節(jié)點(diǎn),查詢、加載性能都成線性增長

高可用性“永不停機(jī)〞—動態(tài)在線擴(kuò)容各個節(jié)點(diǎn)設(shè)備全冗余,數(shù)據(jù)庫軟件自帶偵錯、容錯能力支付寶最大1PB共220個節(jié)點(diǎn)的3套數(shù)據(jù)倉庫只有0.5個DBA,原二十多個OracleDBA都改作業(yè)務(wù)軟件設(shè)計及管理了!省分EMCGreenplum測試情況小結(jié)省份加載速度查詢處理速度對比系統(tǒng)山東移動平均5倍平均4.7倍IBMp595滿配DB2江蘇移動平均8倍無對比值Oraclexx電信無對比值平均12倍HPrx7640xx移動平均200倍平均150倍TeraDATAGreenplumHD:企業(yè)級Hadoop

更快2x速度提高于ApacheHadoop無單點(diǎn)模塊高可用性鏡像易用可使用NFSGUI系統(tǒng)管理文件系統(tǒng)優(yōu)化LocklessStorageService?

消除存儲搶占和競爭DirectBlockDeviceIO發(fā)揮全部存儲的IO性能HadoopDirectShuffle利用NameNode的可擴(kuò)展性,提供更快并行計算性能ClientSideCompression實(shí)用自動壓縮減少網(wǎng)絡(luò)開銷CvsJava避免JAVA的垃圾回收機(jī)制,使用C編寫JobTracker高可用保證業(yè)務(wù)連續(xù)性專為關(guān)鍵業(yè)務(wù)設(shè)計自動平安重啟動沒有任務(wù)喪失的重新連接穩(wěn)定的任務(wù)執(zhí)行狀態(tài)GreenplumEnterpriseHDDistributionforApacheHadoopEnterpriseHDMapReduceEnterpriseHD

LocklessStorageServicesDistributedNameNodeJobTrackerHA

分布式NameNode所有Hado

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論