版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
關(guān)系模型與非關(guān)系模型的融合
:技術(shù)實(shí)踐與展望關(guān)系模型與非關(guān)系模型的融合:技術(shù)實(shí)踐與展望1目錄大數(shù)據(jù)需求不IT技術(shù)架構(gòu)演變SQL(關(guān)系)不Hadoop(非關(guān)系)的融合之道GBase
UP介紹及應(yīng)用案例總結(jié)不展望2目錄大數(shù)據(jù)需求不IT技術(shù)架構(gòu)演變22EMSCRMSCM風(fēng)控大數(shù)據(jù)全視角ERP反洗錢預(yù)警從數(shù)據(jù)孤島到大數(shù)據(jù)分析OA系統(tǒng)FOL3EMSCRMSCM風(fēng)控大數(shù)據(jù)全視角ERP反洗錢預(yù)警從數(shù)據(jù)孤3企業(yè)數(shù)據(jù)處理面臨的“三座大山”過去:業(yè)務(wù)數(shù)據(jù)孤島現(xiàn)在:MPP數(shù)據(jù)庫解決了結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)的分析問題未來:大數(shù)據(jù)的挑戰(zhàn),全數(shù)據(jù)、多模型、異構(gòu)、新技術(shù)…CRMERPEMSFOLDMGDSODS4企業(yè)數(shù)據(jù)處理面臨的“三座大山”過去:業(yè)務(wù)數(shù)據(jù)孤島現(xiàn)在:MPP4Gartner預(yù)測:企業(yè)數(shù)據(jù)庫面臨的4大挑戰(zhàn)Velocity數(shù)據(jù)延時(shí)長,無法實(shí)時(shí)指導(dǎo)運(yùn)營OperationalData
WarehouseValue傳統(tǒng)數(shù)據(jù)模型無法有效支持深度挖掘并且快速發(fā)現(xiàn)數(shù)據(jù)價(jià)值Context
IndependentData
WarehouseVariety數(shù)據(jù)源增多,數(shù)據(jù)交互和同步復(fù)雜,支持結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)類型LogicalData
WarehouseVolume數(shù)據(jù)量大,應(yīng)用增多,數(shù)據(jù)庫無法存儲(chǔ)數(shù)據(jù),承載負(fù)擔(dān)ScalableData
Warehouse企業(yè)數(shù)據(jù)庫處理變快5價(jià)值變高類型變多負(fù)載變大Gartner預(yù)測:企業(yè)數(shù)據(jù)庫面臨的4大挑戰(zhàn)Velocity5傳統(tǒng)數(shù)據(jù)庫分析事務(wù)互聯(lián)網(wǎng)一種架構(gòu)支持多類應(yīng)用(OneSizeFits
All)多種架構(gòu)支持多類應(yīng)用(NotonlyoneFits
All)大數(shù)據(jù)分析NewSQLMPP數(shù)據(jù)庫GBaseGreenplumVertica6OldSQL事務(wù)數(shù)據(jù)庫OracleAltibaseTimesten交易中心NoSQL開源數(shù)據(jù)庫HadoopMySQLKey-value移動(dòng)、互聯(lián)網(wǎng)大數(shù)據(jù)引収的處理架構(gòu)多元化:M.
Stonebraker傳統(tǒng)數(shù)據(jù)庫分析事務(wù)互聯(lián)網(wǎng)一種架構(gòu)支持多類應(yīng)用多種架構(gòu)支持多類6目前數(shù)據(jù)處理的有效架構(gòu):混搭架構(gòu),多種技術(shù)HadoopNoSQLMPPNewSQLSMP小機(jī)OldSQL容量7數(shù)據(jù)多樣性數(shù)據(jù)價(jià)值密度實(shí)時(shí)性高低低高TBPBEB結(jié)構(gòu)化數(shù)據(jù) 半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)SMP
垂直擴(kuò)展、單一數(shù)據(jù)處理引擎的時(shí)代正在成為過去目前數(shù)據(jù)處理的有效架構(gòu):混搭架構(gòu),多種技術(shù)HadoopN7目前數(shù)據(jù)處理的有效架構(gòu):混搭架構(gòu),多種技術(shù)大數(shù)據(jù)平臺(tái)類型復(fù)雜,既涵蓋了結(jié)構(gòu)化數(shù)據(jù),又涉及到實(shí)時(shí)流數(shù)據(jù),以及各類非結(jié)構(gòu)化數(shù)據(jù),單一技術(shù)無法滿足需求未來大數(shù)據(jù)平臺(tái)的技術(shù)選擇應(yīng)以“適才適所”的原則,進(jìn)行多種平臺(tái)的數(shù)據(jù)集成,集成各個(gè)技術(shù)的價(jià)值MPP數(shù)據(jù)倉庫Workable流處理Workable流處理Best-FitMPP/HadoopBest-fit數(shù)據(jù)量處理時(shí)間|秒| | |分 小時(shí) 天|月|年|毫秒低延時(shí)中延時(shí)高延時(shí)KB
-PB
-大
100TB-10TB
-TB
-中
100GB-10GB-GB-MB-小MPP數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)Hadoop非結(jié)構(gòu)化數(shù)據(jù)通用數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)8分析復(fù)雜度數(shù)據(jù)量數(shù)據(jù)多樣性目前數(shù)據(jù)處理的有效架構(gòu):混搭架構(gòu),多種技術(shù)大數(shù)據(jù)平臺(tái)類型復(fù)雜81000012000800060004000200001 3 5 7 9
11
13
15
17
19
21
23
25
27
29
31
33
35
37
39
41
43
45
47
49
51
53
55
57
59
61
63
65
67
69
71
73
75
77
79
81
83
85
87
89
91
93
95
97
99執(zhí)行耗時(shí)(秒)8aMPPvsSQLon
Hadoop8a
MPPSQLon
Hadoop測試產(chǎn)品8a
MPPGBase8aMPP
ClusterSQLon
Hadoop某Hadoop商業(yè)収行版(SQL引擎基亍Hive
on
Spark)測試環(huán)境9服務(wù)器臺(tái)數(shù)4操作系統(tǒng)Redhat6.5
x86_64硬盤SAS15Krpm(RAID
0)CPUXeonE5-26502*16
cores網(wǎng)絡(luò)10Gb/S內(nèi)存128GBTPC-DS1000Scale
factorTPC-DS基準(zhǔn)測試的特點(diǎn):共99個(gè)測試案例,遵循SQL99和SQL
2003的語法標(biāo)準(zhǔn),SQL案例比較復(fù)雜測試案例包含各種業(yè)務(wù)模型(如分析報(bào)告,迭代式聯(lián)機(jī)分析,數(shù)據(jù)挖掘等)分析的數(shù)據(jù)量大,幵丏測試案例是在回答真實(shí)的商業(yè)問題幾乎所有的測試案例都有很高的IO負(fù)載和CPU計(jì)算需求TPC-DSMPP與Hadoop性能對(duì)比:MPP整體快5.8倍SQL價(jià)值:TPC-DSMPP與Hadoop性能對(duì)比10000120008000執(zhí)行耗時(shí)(秒)8aMPPvs9SQLon
Hadoop異常語句說明Q14、Q64、Q67、Q72超3小時(shí)沒有執(zhí)行完畢,均按3小時(shí)計(jì)時(shí)總耗時(shí)(秒)SQLon
Hadoop129,025(35.8小時(shí))8a
MPP22,320(6.2小時(shí))耗時(shí)比5.88a
MPP/SQL
on
Hadoop性能比8a
MPP慢亍SQL
on
Hadoop語句個(gè)數(shù)010倍以上語句個(gè)數(shù)4720倍以上語句個(gè)數(shù)24SQL特征查詢數(shù)量子表達(dá)式31關(guān)聯(lián)的子查詢15丌相虧關(guān)聯(lián)的子查詢76Group
By78Order
By64Rollup9Partition11Exists5Union17Intersect2Minus1Case24Having510SQL價(jià)值:TPC-DSMPP與Hadoop性能對(duì)比TPC-DSMPP與Hadoop性能對(duì)比:MPP整體快10倍以上!
GBase
MPP整體快7.3倍以上TPC-DS
SQL查詢特征SQLonHadoop異常語句說明Q14、Q64、Q6710序號(hào)impala耗時(shí)(秒)MPP耗時(shí)(秒)結(jié)果集SQL16.723.451SQL2155.7119.1999SQL347.747.261SQL4171.2120.171907SQL59.31.811907SQL65.312.461676SQL711.054.171907SQL83.942.561879SQL96.422.51907SQL103.922.781907SQL113.82.191907SQL124.252.171879SQL134.21.151907SQL147.94.171907SQL154.690.970SQL16176.5522.980SQL17316.6129.480SQL18246.6233.10SQL1958.35.6595350SQL205.331.533814SQL213.621.261907總計(jì)1253.19170.91--11SQL價(jià)值:TPC-H
MPP與Impala性能對(duì)比GBase
MPP整體快7.3倍以上TPC-H基準(zhǔn)測試的特點(diǎn):同數(shù)據(jù)、同環(huán)境下的性能,Impala不MPP對(duì)比,根據(jù)數(shù)據(jù)特點(diǎn)丌同,Impala較MPP會(huì)有低亍7~12.3倍的性能差異Impala優(yōu)化手段極其復(fù)雜,需要與業(yè)人士才能完成丌支持高精度decimal類型,
因此在實(shí)際生產(chǎn)環(huán)境中基本丌可用沒有事務(wù)能力,加載和執(zhí)行insert過程中可以看到臟數(shù)據(jù),因此在實(shí)際生產(chǎn)環(huán)境中基本丌可用750G左史的數(shù)據(jù),MPP加載17分鐘,Impala
+
kudu加載需要23.5小時(shí),
因此在實(shí)際生產(chǎn)環(huán)境中基本丌可用查詢執(zhí)行丌穩(wěn)定,執(zhí)行SQL有時(shí)報(bào)錯(cuò),當(dāng)丌執(zhí)行仸何仸務(wù)時(shí),也収現(xiàn)后臺(tái)在做大量的IO操作,此時(shí)執(zhí)行仸何SQL都會(huì)報(bào)錯(cuò)(包括執(zhí)行select
count(*)這樣簡單的SQL),
因此在實(shí)際生產(chǎn)環(huán)境中基本丌可用。序號(hào)impala耗時(shí)(秒)MPP耗時(shí)(秒)結(jié)果集SQL16.11Hadoop價(jià)值:非結(jié)構(gòu)化數(shù)據(jù)
&
深度機(jī)器學(xué)習(xí)Hadoop非結(jié)構(gòu)化數(shù)據(jù)接入和實(shí)時(shí)分析歷叱數(shù)據(jù)查詢分析12Spark流數(shù)據(jù)處理深度機(jī)器學(xué)習(xí)圖算法引擎R語言非結(jié)構(gòu)數(shù)據(jù)算法分析Hadoop價(jià)值:非結(jié)構(gòu)化數(shù)據(jù)&深度機(jī)器學(xué)習(xí)Hadoop12混搭架構(gòu)的成功案例1——中國農(nóng)業(yè)銀行大數(shù)據(jù)平臺(tái)案例數(shù)據(jù)源層數(shù)據(jù)交換層數(shù)據(jù)處理層數(shù)據(jù)集市層數(shù)據(jù)服務(wù)接口層數(shù)據(jù)應(yīng)用層總行數(shù)據(jù)交換平臺(tái)統(tǒng)一訪問、統(tǒng)一監(jiān)控、統(tǒng)一調(diào)度核心系統(tǒng)信用卡客戶管理網(wǎng)上銀行...業(yè)務(wù)系統(tǒng)n主庫備庫HadoopODS預(yù)處理歷史數(shù)據(jù)區(qū)非結(jié)構(gòu)化處理基礎(chǔ)數(shù)據(jù)共性數(shù)據(jù)指標(biāo)數(shù)據(jù)...集市1集市2集市3分行集市1分行集市2分析挖掘1
分析挖掘2 數(shù)據(jù)提取平臺(tái)分析挖掘平臺(tái)統(tǒng)一展示、統(tǒng)一報(bào)送、統(tǒng)一元數(shù)據(jù)管理直接訪問數(shù)據(jù)文件WebService服務(wù)接口數(shù)據(jù)庫快速復(fù)制數(shù)據(jù)挖掘應(yīng)用業(yè)務(wù)應(yīng)用1業(yè)務(wù)應(yīng)用2業(yè)務(wù)應(yīng)用3業(yè)務(wù)應(yīng)用4業(yè)務(wù)應(yīng)用5業(yè)務(wù)應(yīng)用n...結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)MPP大數(shù)據(jù)平臺(tái)雙活環(huán)境...基礎(chǔ)數(shù)據(jù)共性數(shù)據(jù)指標(biāo)數(shù)據(jù)業(yè)務(wù)系統(tǒng)1業(yè)務(wù)系統(tǒng)2IC卡直接加載LZO文件備仹恢復(fù)導(dǎo)出13混搭架構(gòu)的成功案例1——中國農(nóng)業(yè)銀行大數(shù)據(jù)平臺(tái)案例數(shù)據(jù)源層數(shù)13混搭架構(gòu)的成功案例2——浙江移勱大數(shù)據(jù)平臺(tái)案例J接DB口C工接具口接口工具接口工具M(jìn)PP應(yīng)急庫經(jīng)分系統(tǒng)訪問門戶指標(biāo)應(yīng)用報(bào)表應(yīng)用主題分析與題分析臨時(shí)需求MISBOSSCRM業(yè)務(wù)平臺(tái)結(jié)構(gòu)化數(shù)據(jù)MPP主倉庫MPP專題庫/歷史庫互聯(lián)網(wǎng)半/非結(jié)構(gòu)化數(shù)據(jù)DPI信令互聯(lián)網(wǎng)日志Hadoop集群ETL報(bào)表庫 OLAP 前臺(tái)庫 VGOP 地市數(shù)據(jù)中心 ESOP 創(chuàng)新平臺(tái)14混搭架構(gòu)的成功案例2——浙江移勱大數(shù)據(jù)平臺(tái)案例J接DB口C工14Gartner預(yù)測:RDBMS仍然主導(dǎo)價(jià)值,但數(shù)據(jù)融合更能產(chǎn)生價(jià)值當(dāng)前數(shù)字商業(yè)的場景越來越復(fù)雜,數(shù)據(jù)容量越來越大,數(shù)據(jù)也越來越分布。數(shù)據(jù)的集成,分享和組細(xì)管理成為重要目標(biāo),統(tǒng)一管理是大勢所趨關(guān)系型數(shù)據(jù)庫Hadoop新鮮數(shù)據(jù)常規(guī)處理歷史數(shù)據(jù)深度分析市場表現(xiàn)斱面,傳統(tǒng)數(shù)據(jù)庫5強(qiáng)依然占據(jù)88.7%市場仹額。表明傳統(tǒng)SQL數(shù)據(jù)庫依然有著很大的用戶市場15盡管傳統(tǒng)SQL數(shù)據(jù)庫和Hadoop有各自獨(dú)立的工作場景,它們之間的數(shù)據(jù)融合和雙向數(shù)據(jù)流通越來越成為趨勢Gartner預(yù)測:RDBMS仍然主導(dǎo)價(jià)值,但數(shù)據(jù)融合更能產(chǎn)15Next:混搭架構(gòu)2.0
=
融合架構(gòu)企業(yè)用戶的傳統(tǒng)數(shù)據(jù)庫應(yīng)用和大數(shù)據(jù)應(yīng)用JDBC、ODBC JDBC、ODBC JDBC/ODBC、Thrift、Protocol
Buffer
…開収語言: Java、
Scala、Python、
go、 C/C++、
SQLISQLon
Hadoop:HivBigSQL、Cloudera計(jì)算引擎:MR、Tez、Spa、HAWQ、Phoenix、Tajompala、Presto、Sharkk;資源管理:YARN、MESOSDFS:HDFS、CEPHGBase
8tX
無法集成數(shù)據(jù)數(shù)據(jù)接入層、安全管理、運(yùn)營管理企業(yè)用戶的傳統(tǒng)數(shù)據(jù)庫應(yīng)用和大數(shù)據(jù)應(yīng)用Hadoop生態(tài)GBGaBsaese8a8aMMPPPPGBase
8tSpark
棧r安全管理、運(yùn)營管理混融搭合1架.0構(gòu):(GBase
UP
統(tǒng)一層):16X數(shù)數(shù)據(jù)據(jù)統(tǒng)源一多管,理管,理統(tǒng)復(fù)一雜訪問X數(shù)數(shù)據(jù)據(jù)易不流流通通數(shù)據(jù)易集成解決了多好系用統(tǒng)的可問用題,,但提是升不混好搭用價(jià)值JDBC、ODBC、ADO.NET、CAPI、RESTful
APIGBase
UPeNext:混搭架構(gòu)2.0=融合架構(gòu)企業(yè)用戶的傳統(tǒng)數(shù)據(jù)庫應(yīng)16目錄大數(shù)據(jù)需求不IT技術(shù)架構(gòu)演變SQL(關(guān)系)不Hadoop(非關(guān)系)的融合之道GBase
UP介紹及應(yīng)用案例總結(jié)不展望17目錄大數(shù)據(jù)需求不IT技術(shù)架構(gòu)演變1717融合需求:多層次全斱位融合語言:SQL,NoSQL,NotOnly
SQLNot
Only
SQL
是趨勢架構(gòu):
SMP,
MPP所有架構(gòu)都朝MPP収展算法:SQL
,
ML
,其他復(fù)雜算法這些都需要,最好一起使用數(shù)據(jù)類型:
結(jié)構(gòu)化、半結(jié)構(gòu)、非結(jié)構(gòu)數(shù)據(jù)需要統(tǒng)一處理18融合需求:多層次全斱位融合語言:SQL,NoSQL,Not18融合需求:大數(shù)據(jù)融合平臺(tái)架構(gòu)需求范疇處理熱數(shù)據(jù)傳統(tǒng)事務(wù)型數(shù)據(jù)庫適用亍小數(shù)據(jù)量、業(yè)務(wù)邏輯復(fù)雜、幵収度高的事務(wù)型業(yè)務(wù)場景處理冷數(shù)據(jù)Hadoop適合非結(jié)構(gòu)化數(shù)據(jù)處理,流數(shù)據(jù)處理以及大規(guī)模批量復(fù)雜作業(yè)處理溫?cái)?shù)據(jù)新型MPP數(shù)據(jù)庫適合處理大規(guī)模的復(fù)雜分析19Noonecouldreplaceeach
other!傳統(tǒng)事務(wù)型數(shù)據(jù)庫
(SQL)新型MPP數(shù)據(jù)庫
(SQL)Hadoop
(NoSQL)大數(shù)據(jù)平臺(tái)NotOnlySQL,
NotOnlyOLAP,NotOnlyHadoop融合需求:大數(shù)據(jù)融合平臺(tái)架構(gòu)需求范疇處理熱數(shù)據(jù)務(wù)型業(yè)務(wù)場景處19In-memory
SQLMachine
learning,Streaming,
GraphX(100xfasterthanBatch
SQL)融合斱式:開源SQL
onHadoop
項(xiàng)目ApacheImpala基亍MPP架構(gòu)的DAG模型基亍Map-Reduce基亍內(nèi)存計(jì)算的DAG模型基亍HBase實(shí)現(xiàn)完整ACID20In-memorySQL融合斱式:開源SQLonHad20融合斱式:SQL
on
Hadoop
商業(yè)產(chǎn)品IBM,BigSQL Pivotal
HAWQ21融合斱式:SQLonHadoop商業(yè)產(chǎn)品IBM,Big21融合斱式:SQL
and
Hadoop
商業(yè)產(chǎn)品Microsoft,Polybase
一體機(jī)產(chǎn)品External
TableEnhancedPDW
queryengineHDFS
bridgeSocialAppsSensor&
RFIDMobileAppsWebAppsTraditionalschema-based
DWapplicationsHadoop
data
nodes SQL
serverPDWNon-relational
data Relational
dataRegularT-SQLResults22融合斱式:SQLandHadoop商業(yè)產(chǎn)品Micros22SQLonHadoopORSQLand
HadoopSQLHDFSBigSQLHAWQSQLNoSQLHDFSGBase
UPSQLOLTPOLAPNoSQLHadoopSQL
on
Hadoop? SQLand
Hadoop!OR垂直融合方式:部署一套環(huán)境,適用亍新建大數(shù)據(jù)環(huán)境融合難度大融合效果丌佳(HAWQ相對(duì)亍原型GreenPlum性能下降明顯)沒有考慮復(fù)雜的OLTP應(yīng)用水平融合方式:充分利用多套環(huán)境,収揮各自價(jià)值充分保留IT歷叱資產(chǎn)融合難度小融合效果好融合OLTP,OLAPVS23SQLonHadoopORSQLandHadoo23目錄大數(shù)據(jù)需求不IT技術(shù)架構(gòu)演變SQL(關(guān)系)不Hadoop(非關(guān)系)的融合之道GBase
UP介紹及應(yīng)用案例總結(jié)不展望24目錄大數(shù)據(jù)需求不IT技術(shù)架構(gòu)演變24UPU =
融合、統(tǒng)一統(tǒng)一接口:UI標(biāo)準(zhǔn)的ODBC、JDBC、CAPI統(tǒng)一語言:UQL結(jié)合SQL92
和
HiveQL等斱言統(tǒng)一元數(shù)據(jù):UM保存完整元數(shù)據(jù)定義統(tǒng)一安全:UA安全認(rèn)證,避免了多種認(rèn)證模式統(tǒng)一事務(wù):UT支持集群級(jí)事務(wù)統(tǒng)一調(diào)度:UC調(diào)度引擎間計(jì)算和存儲(chǔ)統(tǒng)一日志:UL保存日志到Hadoop,供日志分析P =
平臺(tái)、擴(kuò)展擴(kuò)展UDF擴(kuò)展數(shù)據(jù)交換引擎之間建立高速的多對(duì)多內(nèi)部通道;備仹恢復(fù)、容災(zāi)、異地部署全數(shù)據(jù)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化系統(tǒng)管理配置、監(jiān)控、資源管理生命周期管理數(shù)據(jù)生命周期管理GBase
UP產(chǎn)品定位:企業(yè)級(jí)大數(shù)據(jù)融合平臺(tái)25UPU =融合、統(tǒng)一統(tǒng)一接口:UI標(biāo)準(zhǔn)的ODBC、JDBCLocalFS/SM/Pipe/GBNetHDFS/VFS數(shù)據(jù)交換層
Data
Exchange
LayerHive
AdapterHive/SparkHBase
AdapterHive/HBase8t/Oracle
AdapterGBase
8t/Oracle8a
AdapterGBase
8aAdapterInterface
DDL/DCLExecutorDML/DQL
SchedulerDML/DQL
Optimizer應(yīng)用平臺(tái)Drivers:JDBC,ODBC,ADO.NET,
CAPIParser(StandardSQL,HiveQL,SparkSQL
…)Meta
DataLoggerGCWare/GCAdminRecovery/GCMonitor26GBase
UP產(chǎn)品架構(gòu):SQL
and
NoSQL融合LocalFS/SM/Pipe/GBNetHDFS/VFS數(shù)GBase
UP產(chǎn)品特點(diǎn)&價(jià)值27VisionUse
CaseCore
Values融合數(shù)據(jù)聯(lián)邦異構(gòu)引擎透明訪問簡化應(yīng)用開収,降低數(shù)據(jù)建模的復(fù)雜度跨引擎數(shù)據(jù)交換高吞吐率的多對(duì)多通訊機(jī)制跨引擎關(guān)聯(lián)查詢實(shí)現(xiàn)自勱優(yōu)化的引擎間關(guān)聯(lián)分析BLOBonHadoop擴(kuò)展非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和計(jì)算能力簡化數(shù)據(jù)流通跨引擎讀寫分離支撐大規(guī)模數(shù)據(jù)事務(wù)處理和實(shí)時(shí)BI數(shù)據(jù)分析數(shù)據(jù)生命周期管理按丌同溫度選擇最合適的引擎存儲(chǔ)數(shù)據(jù),降低數(shù)據(jù)總體持有成本PB級(jí)備仹不恢復(fù)實(shí)現(xiàn)在線PB級(jí)數(shù)據(jù)備仹不恢復(fù)擴(kuò)展數(shù)據(jù)分析跨引擎UDF擴(kuò)展支持跨引擎UDF函數(shù),靈活擴(kuò)展系統(tǒng)的計(jì)算能力機(jī)器學(xué)習(xí)融合Spark機(jī)器學(xué)習(xí)算法,實(shí)現(xiàn)
In-Database
AnalysisR語言同時(shí)適應(yīng)偏向SQL和偏向R的用戶GBaseUP產(chǎn)品特點(diǎn)&價(jià)值27VisionUseCasGBase
UP
產(chǎn)品生態(tài)GraphXSTREAMSQLRUDF分析、處理和開發(fā)接口資源管理服務(wù)內(nèi)部服務(wù)組件一致性服務(wù)安全服務(wù)統(tǒng)一元數(shù)據(jù)服務(wù)統(tǒng)一日志服務(wù)數(shù)據(jù)交換服務(wù)存儲(chǔ)NewSQLHDFS/NoSQLOldSQL導(dǎo)入導(dǎo)出28結(jié)構(gòu)化數(shù)據(jù)非/半結(jié)構(gòu)化數(shù)據(jù)流式數(shù)據(jù)GBaseUP產(chǎn)品生態(tài)GraphXSTREAMSQLRUOracleGBase
UP
技術(shù)架構(gòu)MegaSQL
EngineMega
SQL
Engine
(數(shù)據(jù)聯(lián)邦)(SQL92+HiveQL+8t+Oracleetc
)統(tǒng)一接口統(tǒng)一查詢語言統(tǒng)一用戶管理和權(quán)限控制統(tǒng)一元數(shù)據(jù)跨引擎優(yōu)化器和計(jì)劃器跨引擎關(guān)聯(lián)查詢跨引擎數(shù)據(jù)分區(qū)和鏡像幵行調(diào)度器引擎適配器DataExchange
Layer幵行數(shù)據(jù)交換跨引擎數(shù)據(jù)一致性實(shí)時(shí)同步Data
Exchange
Layer
(數(shù)據(jù)流通)跨引擎幵行數(shù)據(jù)交換跨引擎數(shù)據(jù)一致性、完整性實(shí)時(shí)同步GBase
8tGBase8a
MPPHadoop統(tǒng)一接口(SQL
&
SQL’)統(tǒng)一用戶管理和權(quán)限控制統(tǒng)一元數(shù)據(jù)跨引擎關(guān)聯(lián)統(tǒng)一查詢語言斱言處理跨引擎優(yōu)化器和計(jì)劃器跨引擎分區(qū)和鏡像計(jì)算擴(kuò)展幵行調(diào)度器引擎適配器
+
UDF
擴(kuò)展框架數(shù)據(jù)完整性UDF擴(kuò)展框架
(數(shù)據(jù)分析)擴(kuò)展數(shù)據(jù)分析處理功能C/C++/Java/Scala/R29OracleGBaseUP技術(shù)架構(gòu)MegaSQLEnGBase
UP
技術(shù)組件
:
多引擎適配器Instance1Instance2GBase8tAdapterZooKeeperMetaDataofEngineand
InstanceGbase
8tHiveAdapterDDL斱言SQL到標(biāo)準(zhǔn)SQLDDL標(biāo)準(zhǔn)AST到斱言SQLDML標(biāo)準(zhǔn)AST到斱言與屬函數(shù)管理數(shù)據(jù)類型轉(zhuǎn)換器執(zhí)行器算子SQLDDL斱言解析器DDL標(biāo)準(zhǔn)解析器DDL斱言執(zhí)行器DDL標(biāo)準(zhǔn)執(zhí)行器格式化方言SQL標(biāo)準(zhǔn)SQL會(huì)話管理、事務(wù)管理
…MegaSQL
EngineGBase8aAdapterGcluster1Gcluster2Gbase8a
MPP30GBaseUP技術(shù)組件:多引擎適配器InstanceGBase
UP
核心功能
:跨引擎數(shù)據(jù)交換(數(shù)據(jù)聯(lián)邦)Createtablet1(in_datedate,…)engine=‘GBase8a’;Createtableh1(urlvarchar(256),…)engine=‘Hive’;Createtableh2(…)
engine=‘Hive’;-- ELTInsertintot1select…h(huán)1,h2where…
andparse_url(url,'HOST')=
'';Parallel
Scheduler31MegaSQL
EngineCrossEngineOptimizer&
PlannerGBase8a
MPPJoinh1 h2t1HiveOn
SparkJoinh1 h2t1GBaseUP核心功能:跨引擎數(shù)據(jù)交換(數(shù)據(jù)聯(lián)邦)CGBase
UP
核心功能
:跨引擎關(guān)聯(lián)查詢(數(shù)據(jù)聯(lián)邦)Createtablet1_mpp(idnumber(20),namevarchar(100),cityvarchar(100),weichatvarchar(2000),opdatedatetime…)engine=‘GBase8a’;Createtablet2_hive(keynumber(20),urlvarchar(1000),
weichatvarchar(5000),…)
engine=‘Hive’;Insertintot1_mpp… ;Insertintot2_hive…
;--
全數(shù)據(jù)查詢案例Select,t1.opdate,t2.urlfromt1_mppast1,t2_hiveast2
wheret1.id=t2.key
andt1.city=‘北京’
andextracts(t2.url,‘gbase’)
>0
and
contains
(t1.weichat,
‘南大通用’)>0
order
byt1.opdatelimit
10;HiveOn
HBasetmp_2tmp_1GBase8a
MPPJoinParallel
SchedulerMegaSQL
EngineCrossEngineOptimizer&
PlannerJoint1_mppt2_hivet1_mppt2_hive32GBaseUP核心功能:跨引擎關(guān)聯(lián)查詢(數(shù)據(jù)聯(lián)邦)CGBase
UP
核心功能
:BLOB
on
Hadoop(數(shù)據(jù)聯(lián)邦)Createtableemail(uidint,send_dtdate,content
bloburi)
engine=‘GBase8a’;//WritingBLOBdataas
streamFileInputStreaminStream=new
FileInputStream(…);stm.setBinaryStream(3,inStream);stm.executeUpdate();//ReadingBLOBdataasstreamFileOutputStreamoutputStream=
newFileOutputStream(…);while(...){InputStreamreturnStream=
rs.getBinaryStream(3);returnStream.read(userBuffer);outputStream.write(userBuffer);}1、擴(kuò)展了MPP數(shù)據(jù)庫非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)能力。2、結(jié)合結(jié)構(gòu)化字段和非結(jié)構(gòu)字段,同時(shí)檢索結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。Storage
LayerHDFSHBaseMegaSQL
EngineBLOB
ManagementCache
Layer33Client:Bigfile(Streaming
Read)Client:Bigfile(Streaming
Write)Client:Smallfile(Write)GBaseUP核心功能:BLOBonHadoopGBase
UP
核心功能
:引擎級(jí)別讀寫分離(數(shù)據(jù)流通)DataExchange
LayerGBase
8t(OLTP
Processing)GBase8a
MPP(OLAP
Analysis)MegaSQL
EngineWrite
(DML)Read
(DQL)1*1*--
創(chuàng)建鏡像表,鏡像斱向?yàn)镚Base8t到GBase
8aMPPCreatetablet(...)
engine=‘Mirror8t8a’;--
寫操作用8t引擎Insertintot
values(…);--
分析型查詢用8a引擎Selectavg(…)fromtgroupby
…;通過透明的mirror
table實(shí)現(xiàn)真正的實(shí)時(shí)交易和實(shí)時(shí)分析的數(shù)據(jù)流通:(?。┙灰自贠LTP引擎實(shí)現(xiàn)(>
100萬tpm)交易數(shù)據(jù)實(shí)時(shí)同步到OLAP引擎UP將查詢自勱路由到OLAP引擎34GBaseUP核心功能:引擎級(jí)別讀寫分離(數(shù)據(jù)流通)HadoopGBase8a
MPPGBase
8tGBase
UP功能:數(shù)據(jù)生命周期管理(跨引擎分區(qū)表,數(shù)據(jù)流通)Hot
Data--
創(chuàng)建分區(qū)表,按熱、溫、冷分別存儲(chǔ)在三個(gè)數(shù)據(jù)引擎Createtablet_part(…,in_datedate)partitionby
range(in_date)(partitionp_hivevalueslessthan(date_sub(current_date(),interval1month))engine=‘Hive’,partitionp_8avalueslessthan(date_sub(current_date(),interval1week))engine=‘GBase8a’,partitionp_8tvalueslessthanMAXVALUE
engine=‘GBase8t’);--
實(shí)時(shí)數(shù)據(jù)Insertintot_partvalues(…,‘2016-05-13’);Updatet_partset…wherein_date=‘2016-05-13’;35--
近期數(shù)據(jù)分析Selectcount(0)over(partitionby…),…
fromt_partwhere…and
in_datebetween‘2016-05-01’and
‘2016-05-13’;--
歷叱數(shù)據(jù)分析Selectcount(a),…from
t_partwhere…andin_date<=‘2016-05-13’groupby
…;2016-05-132016-05-202016-06-13HadoopGBase8aMPPGBase8tGBasGBase
UP
核心功能
:PB級(jí)備仹不恢復(fù)(數(shù)據(jù)流通)MegaSQL
EngineHadoopGBase8a
MPP010010110011001011011101…DataExchange
LayerCreatetablet1_8a(cust_keybigint,order_stat
int,total_pricedecimal(18,2), order_dtdate)distributedby(‘cust_key’)
engine=‘GBase8a’;--
備仹到HDFSSelect…fromt1_8aintooutfile
‘hdp://…’format=binary|csv|hbase|
…;--
從HDFS恢復(fù)Loaddatainfile‘hdp://…’intotable
t1_8a;36GBaseUP核心功能:PB級(jí)備仹不恢復(fù)(數(shù)據(jù)流通)GBase
UP
核心功能
:跨引擎UDF擴(kuò)展(數(shù)據(jù)分析)Hadoop37UDFCommon
ShellSparkHiveJava
UDFMegaSQL
EngineUDF
ManagementClient:Call
UDFClient:
RegisterUDFScalaFunctionJavaFunctionNativeFunctionCreatetablet1_oltp(websitevarchar(200),
clickcountnumber(10)…)
engine=‘GBase8t’;Createtablet2_hive(keybigint,urlvarchar(1000),
weichatvarchar(5000),…)
engine=‘Hive’;Insertintot2_hive…
;--
創(chuàng)建用戶自定義函數(shù)Createfunctionextractwebsitereturnsstring
soname‘hive_common.so’;--
SQL中調(diào)用自定義函數(shù)Insertintot1_oltp(website,clickcount)
selectextractwebsite(url),count(*)from
t2_hive;GBaseUP核心功能:跨引擎UDF擴(kuò)展(數(shù)據(jù)分析)GBase8a
MPPGBase8tOracleHiveSparkUser:CallStoredProcedureML
LibMegaSQLEngineAdapterInterface Spark
UDF高速數(shù)據(jù)交換通道Scala數(shù)據(jù)源:表、視圖或文件輸出結(jié)果:表或文件通過jar包擴(kuò)展算法內(nèi)置算法主要用途最小二乘法(ALS)推薦詞頻-逆文本頻率(TF-IDF)特征提叏支持向量機(jī)(SVM)分類樸素貝右斯(NativeBayes)分類K-均值(K-means)聚類主成分分析法(PCA)數(shù)據(jù)降維奇異值分解法(SVD)數(shù)據(jù)降維Expert:
Extendmodel--創(chuàng)建模型Callcreate_model(‘moive_rec’,’als’,
’t_setting’);--
訓(xùn)練電影推薦模型Call
train_model(‘moive_rec’,’t_train’);--評(píng)估模型Callevaluate_model(‘moive_rec’,
‘t_test’);--計(jì)算預(yù)測結(jié)果Callpredict(‘moive_rec’,’t_predict’,’t_result’);Select*from
t_result;--刪除模型Call
drop_model(‘moive_rec’);38GBase
UP
核心功能
:機(jī)器學(xué)習(xí)算法(數(shù)據(jù)分析)JDBCGBase8aMPPGBase8tOracleSSpark
MLLibML
FrameInputOutputOperationException
HandlerNa?veBayesK-meansOtherML
Algorithm…… DecisionTreeGBase8a
MPPHiveGBase
8tOracleTableHDFSFileHiveGBase8a
MPPGBase
8tOracleTableHDFSFilePredictStored
ProcedureDrop_Model Train_Model Evaluate_ModelCreate_Model Show_ModelsSpark
UDFUser:CallStored
ProcedureExpert:
ExtendAlgorithmDBA:
MaintainStored
ProcedureAlgorithmFamilyNaiveBayes.TrainNaiveBayes.EvaluateNaiveBayes.PredictGBase
UP
核心功能
:機(jī)器學(xué)習(xí)流程(數(shù)據(jù)分析)39SparkMLLibMLFrameInputOutputMegaSQL
Engine40Adapter
InterfaceSparkR
ClientSparkRWorkerWorker…GBase8aGBase8a…HDFSGBase8a
MPPSparkUP_RRRRto
SQLSparkR
ClientUP
ClientRin
SQLR
LanguageRFunc
IdentifierGBase
UPGBase
UP
核心功能
:R語言的融合(數(shù)據(jù)分析)MegaSQLEngine40AdapterInterGBase
UP應(yīng)用案例1
-
混合業(yè)務(wù)處理(數(shù)據(jù)聯(lián)邦)GBase
UP統(tǒng)一數(shù)據(jù)平臺(tái)Hiveon
SparkGBase
8t HadoopGBase8a
MPP數(shù)據(jù)應(yīng)用關(guān)聯(lián)分析批數(shù)據(jù)RDBMS數(shù)據(jù)抽叏--
創(chuàng)建鏡像表和Hive表(鏡像斱向?yàn)镚Base
8t到GBase8a
MPP)Createtablet_mirror(…)engine=‘Mirror8t8a’;Createtablet_hive(…)
engine=‘Hive’;--寫操作Insertintot_mirror
values(…);--
加載Flume流式數(shù)據(jù)到Hivebin/flume-ng
agent--conf-file
conf/hivesink.conf--nameagent1
…--關(guān)聯(lián)分析Selectavg(…)fromt_mirror,t_hivewhere…groupby
…;transaction1transaction2transaction3stream1stream2stream3讀寫分離結(jié)果41GBaseUP應(yīng)用案例1-混合業(yè)務(wù)處理(數(shù)據(jù)聯(lián)邦)GBGBase
UP應(yīng)用案例2
-
OLTP,OLAP混合處理(數(shù)據(jù)聯(lián)邦)--
創(chuàng)建各引擎的表Createtablet_8t(tagvarchar(10))engine='GBase8t';Createtablet_8a(sendervarchar(100),receivervarchar(100),send_dtdatetime)engine='GBase8a';Createtablet_ft(titletext,contenttexturl)
engine='GBaseFt';--
創(chuàng)建統(tǒng)一視圖Createunifiedviewv_emailwithtable(t_8t,t_8a,
t_ft);--
更新標(biāo)簽Updatev_emailsettag=
'checked'wheresend_dt<
'2016-03-01';--
統(tǒng)一視圖分析Selectcount(*),sender,receiverfrom
v_emailwheretag='checked'andcontains(content,
'南大通用')groupbysender,
receiver;TagGBase8t(易變數(shù)據(jù))t_8tGBase全文(非結(jié)構(gòu)化數(shù)據(jù))t_ftTagSenderReceiverSend_dtTitleContent用戶視角(v_email)GBase8a(分析型數(shù)據(jù))t_8a平臺(tái)內(nèi)視角UnifiedIDSenderReceiverSend_dtUnifiedIDUnifiedIDTitleContent42GBaseUP應(yīng)用案例2-OLTP,OLAP混合處理(GBase
UPHadoop于ETL(信令數(shù)據(jù))HDFS信令數(shù)據(jù)載入在線結(jié)果數(shù)據(jù)GBase8a
MPP復(fù)雜關(guān)聯(lián)分析用戶位置軌跡處理結(jié)果MapReduceMC算法處理43GBase
UP應(yīng)用案例1-用戶位置軌跡計(jì)算(數(shù)據(jù)流通)平臺(tái)執(zhí)行Createtablet_h(…)engine=‘Hive’;Createtablet_8a(…)
engine=‘GBase8a’;通過UP的批量處理--
于ETL數(shù)據(jù)入庫Loaddata
infile'HDP://…'intotablet_h
fieldsterminatedby
…;--
通過UDF調(diào)用MC標(biāo)簽算法Insertintot_8aselectmc(…)
fromt_h
…;前端業(yè)務(wù)--
獲叏用戶位置軌跡處理結(jié)果Select…fromt_8awhere
…;GBaseUPHadoop于ETLHDFS載入在線結(jié)果數(shù)GBase
UP統(tǒng)一數(shù)據(jù)平臺(tái)HadoopHDFS話單數(shù)據(jù)ETLGBase8a
MPP復(fù)雜關(guān)聯(lián)分析話單數(shù)據(jù)分析處理結(jié)果GBase
UP應(yīng)用案例4-某電信運(yùn)營商項(xiàng)目(數(shù)據(jù)流通)平臺(tái)執(zhí)行createtableMCC_VOICE_USAGE…engine=HivecreatetableMCC_SMS_USAGE…engine=HivecreatetableMCC_DATA_USAGE…engine=Hivecreatetable
……通過UP的批量處理--ETL數(shù)據(jù)入庫示例Loaddatainfile'HDP://…'into
tableMCC_DATA_USAGE
…;前端業(yè)務(wù)示例--
話單星型關(guān)聯(lián)查詢、時(shí)段清單查詢、賬目明紳統(tǒng)計(jì)、復(fù)雜數(shù)據(jù)加工等業(yè)務(wù)操作Select…casewhen…from…left
joinwhere…groupby
…;Hive
onspark簡單星型關(guān)聯(lián)分析44ETL(話單數(shù)據(jù))GBaseUP統(tǒng)一數(shù)據(jù)平臺(tái)HadoopHDFSETLGBa目錄大數(shù)據(jù)需求不IT技術(shù)架構(gòu)演變SQL(關(guān)系)不Hadoop(非關(guān)系)的融合之道GBase
UP介紹及應(yīng)用案例總結(jié)不展望45目錄大數(shù)據(jù)需求不IT技術(shù)架構(gòu)演變45數(shù)據(jù)庫訪問趨勢持續(xù)數(shù)據(jù)加載需求增長26%日常In-database分析需求增長48%訪問非關(guān)系型數(shù)據(jù)庫數(shù)據(jù)需求增長40%數(shù)據(jù)庫應(yīng)用模式發(fā)展趨勢LDW的整體需求增長88%與用Operational
DW需求從26%增長到34%Context-independent
DW需求增長接近50%傳統(tǒng)數(shù)據(jù)仏庫需求比例略有下降,表明用戶需求向著其他應(yīng)用模式収展總體趨勢數(shù)據(jù)融合數(shù)據(jù)流通數(shù)據(jù)分析與GBase
UP產(chǎn)品定位高度一致46Gartner預(yù)測市場収展趨勢:傳統(tǒng)數(shù)據(jù)仏庫模式在下降數(shù)據(jù)庫訪問趨勢46Gartner預(yù)測市場収展趨勢:傳統(tǒng)數(shù)據(jù)仏Gartner預(yù)測應(yīng)用模式
1:LDW
(邏輯數(shù)據(jù)仏庫)解決問題支持多個(gè)數(shù)據(jù)源以及多種類型數(shù)據(jù)的綜合分析場景雙峰(bi-modal)工作模式關(guān)鍵技術(shù)數(shù)據(jù)虛擬化(Data
Virtualization)通過在多個(gè)數(shù)據(jù)庫之上建立一個(gè)中間層,實(shí)現(xiàn)了統(tǒng)一接口統(tǒng)一斱式訪問數(shù)據(jù)源,達(dá)到了對(duì)上層應(yīng)用展現(xiàn)為統(tǒng)一數(shù)據(jù)視圖的效果數(shù)據(jù)聯(lián)邦(Data
Federation)通過聯(lián)合查詢(Federate
Query)技術(shù)從每個(gè)數(shù)據(jù)源幵行抓叏數(shù)據(jù),完成跨數(shù)據(jù)源訪問GBase
UP相關(guān)技術(shù)GBase
UP通過MegaSQL
Engine實(shí)現(xiàn)了統(tǒng)一口統(tǒng)一訪問,對(duì)用戶呈現(xiàn)統(tǒng)一視圖GBase
UP原生融合OLTP,OLAP以及Hadoop系統(tǒng),支持多個(gè)數(shù)據(jù)源以及多種數(shù)據(jù)類型47Gartner預(yù)測應(yīng)用模式1:LDW(邏輯數(shù)據(jù)仏庫)解Gartner預(yù)測應(yīng)用模式
2:Operational
DW(運(yùn)營數(shù)據(jù)仏庫)48解決問題新數(shù)據(jù)能夠持續(xù)地,實(shí)時(shí)地加載到數(shù)據(jù)庫中可以對(duì)新數(shù)據(jù)進(jìn)行實(shí)時(shí)分析幵馬上看到結(jié)果實(shí)時(shí)指導(dǎo)業(yè)務(wù)運(yùn)營關(guān)鍵技術(shù)In-Database大數(shù)據(jù)分析通過數(shù)據(jù)庫上的分析功能直接分析數(shù)據(jù),丌需要將數(shù)據(jù)拉到分析工具里分析(比如SAS等)數(shù)據(jù)庫通過加載UDF函數(shù)擴(kuò)展機(jī)器學(xué)習(xí)算法能力流數(shù)據(jù)分析實(shí)時(shí)接入流數(shù)據(jù)(Kafka等工具)幵根據(jù)數(shù)據(jù)時(shí)間窗口進(jìn)行分析GBase
UP相關(guān)技術(shù)GBase
UP內(nèi)置SparkMLLib機(jī)器學(xué)習(xí)算法,幵通過高速數(shù)據(jù)交換通道使得深度分析算法可以作用在仸意數(shù)據(jù)源上GBase
UP無縫連接流數(shù)據(jù)源(Kafka等工具),可持續(xù)接入流數(shù)據(jù)幵實(shí)時(shí)分析GBase
UP通過“UDF擴(kuò)展框架”支持?jǐn)?shù)據(jù)運(yùn)營分析能力的可持續(xù)化提升Gartner預(yù)測應(yīng)用模式2:OperationalDWGartner預(yù)測應(yīng)用模式3:Context
Independent
DW(無模型數(shù)據(jù)仏庫)49解決問題傳統(tǒng)數(shù)據(jù)模型無法有效,實(shí)時(shí)地支持到深度數(shù)據(jù)挖掘數(shù)據(jù)價(jià)值需要通過復(fù)雜機(jī)器學(xué)習(xí)算法才可以獲叏關(guān)鍵技術(shù)基亍R語言進(jìn)行無模式數(shù)據(jù)的復(fù)雜機(jī)器學(xué)習(xí)和關(guān)聯(lián)分析支持進(jìn)行文本分析挖掘的計(jì)算引擎和算法庫(比如Spark
MLLib)支持進(jìn)行圖分析的的計(jì)算引擎的算法庫GBase
UP相關(guān)技術(shù)GBase
UP內(nèi)置Spark
MLLib機(jī)器學(xué)習(xí)算法,可以進(jìn)行文本等非結(jié)構(gòu)數(shù)據(jù)的深度分析GBase
UP自主開収的全文分析引擎“GBaseFt”,將SQL功能和文本分析功能完美融合,極大簡化用戶使用斱式GBase
UP集成R語言分析功能,支持非常豐富的非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)能力GBase
UP通過“UDF擴(kuò)展框架”提供理論上可無限擴(kuò)展的機(jī)器學(xué)習(xí)算法能力Gartner預(yù)測應(yīng)用模式3:ContextIndepenGartner預(yù)測應(yīng)用模式總結(jié)數(shù)據(jù)庫模式解決問題核心技術(shù)GBase
UP大數(shù)據(jù)平臺(tái)LDW(邏輯數(shù)據(jù)倉庫)多個(gè)數(shù)據(jù)源以及多種類型數(shù)據(jù)的綜合分析場景雙峰(bi-modal)工作模式數(shù)據(jù)虛擬化(DataVirtualization)實(shí)現(xiàn)統(tǒng)一接口,統(tǒng)一訪問方式數(shù)據(jù)聯(lián)邦(Data
Federation)實(shí)現(xiàn)跨數(shù)據(jù)源數(shù)據(jù)訪問支持Operational
DW(運(yùn)營數(shù)據(jù)倉庫)實(shí)時(shí)加載數(shù)據(jù)實(shí)時(shí)分析數(shù)據(jù)實(shí)時(shí)指導(dǎo)業(yè)務(wù)運(yùn)營In-Database
大數(shù)據(jù)分析流數(shù)據(jù)分析支持Context-independentDW(模型無關(guān)數(shù)據(jù)倉庫)深度數(shù)據(jù)挖掘復(fù)雜機(jī)器學(xué)習(xí)R語言無模式數(shù)據(jù)的深度機(jī)器學(xué)習(xí)文本分析挖掘的計(jì)算引擎和算法庫圖分析的計(jì)算引擎和算法庫支持ScalabletranditionalDW(高擴(kuò)展傳統(tǒng)數(shù)據(jù)倉庫)數(shù)據(jù)量大數(shù)據(jù)庫上應(yīng)用多MPP數(shù)據(jù)庫Scale-out計(jì)算和存儲(chǔ)能力擴(kuò)展支持50Gartner預(yù)測應(yīng)用模式總結(jié)數(shù)據(jù)庫模式解決問題核心技術(shù)GB總結(jié):GBase新的視野
-
DaaS數(shù)據(jù)即服務(wù)GBase8t,
8mGBase8a
MPPGBase
UP核心業(yè)務(wù)系統(tǒng)OLTP核心分析系統(tǒng)OLAP大數(shù)據(jù)平臺(tái)DaaS打通孤島全數(shù)據(jù)CRMERPEMSFOLGBase
產(chǎn)品的収展軌跡DMGDSODS51總結(jié):GBase新的視野-DaaS數(shù)據(jù)即服務(wù)GBase2015年7月在新三板掛牌:“通用數(shù)據(jù)”,股票代碼:“833056”主營業(yè)務(wù):數(shù)據(jù)庫產(chǎn)品、大數(shù)據(jù)平臺(tái)研發(fā)與銷售,數(shù)據(jù)服務(wù),數(shù)據(jù)工程注冊(cè)資金1.087億,員工670人2015年收入2.11億元,凈利潤4000萬元2010至2015年連續(xù)獲評(píng)“國家規(guī)劃布局內(nèi)重點(diǎn)軟件企業(yè)”股東:創(chuàng)業(yè)團(tuán)隊(duì)、員工
+
中興、國投、天創(chuàng)、達(dá)晨、東華軟件、銀信長遠(yuǎn)、榮之聯(lián)等公司簡介:自2004年聚焦數(shù)據(jù)庫不大數(shù)據(jù)解決斱案2015年7月在新三板掛牌:“通用數(shù)據(jù)”,股票代碼:“83352GBase
8a在國內(nèi)MPP數(shù)據(jù)庫市場占有率第一,運(yùn)行節(jié)點(diǎn)數(shù)量超過其他廠商總和,幵開始走向世界。節(jié)點(diǎn)數(shù)>2300個(gè)53總數(shù)據(jù)量>15PB用戶覆蓋13個(gè)國家公司簡介:超過1000個(gè)客戶,13個(gè)國家GBase8a在國內(nèi)MPP數(shù)據(jù)庫市場占有率第一,運(yùn)行節(jié)點(diǎn)53關(guān)系模型與非關(guān)系模型的融合
:技術(shù)實(shí)踐與展望關(guān)系模型與非關(guān)系模型的融合:技術(shù)實(shí)踐與展望54目錄大數(shù)據(jù)需求不IT技術(shù)架構(gòu)演變SQL(關(guān)系)不Hadoop(非關(guān)系)的融合之道GBase
UP介紹及應(yīng)用案例總結(jié)不展望55目錄大數(shù)據(jù)需求不IT技術(shù)架構(gòu)演變255EMSCRMSCM風(fēng)控大數(shù)據(jù)全視角ERP反洗錢預(yù)警從數(shù)據(jù)孤島到大數(shù)據(jù)分析OA系統(tǒng)FOL56EMSCRMSCM風(fēng)控大數(shù)據(jù)全視角ERP反洗錢預(yù)警從數(shù)據(jù)孤56企業(yè)數(shù)據(jù)處理面臨的“三座大山”過去:業(yè)務(wù)數(shù)據(jù)孤島現(xiàn)在:MPP數(shù)據(jù)庫解決了結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)的分析問題未來:大數(shù)據(jù)的挑戰(zhàn),全數(shù)據(jù)、多模型、異構(gòu)、新技術(shù)…CRMERPEMSFOLDMGDSODS57企業(yè)數(shù)據(jù)處理面臨的“三座大山”過去:業(yè)務(wù)數(shù)據(jù)孤島現(xiàn)在:MPP57Gartner預(yù)測:企業(yè)數(shù)據(jù)庫面臨的4大挑戰(zhàn)Velocity數(shù)據(jù)延時(shí)長,無法實(shí)時(shí)指導(dǎo)運(yùn)營OperationalData
WarehouseValue傳統(tǒng)數(shù)據(jù)模型無法有效支持深度挖掘并且快速發(fā)現(xiàn)數(shù)據(jù)價(jià)值Context
IndependentData
WarehouseVariety數(shù)據(jù)源增多,數(shù)據(jù)交互和同步復(fù)雜,支持結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)類型LogicalData
WarehouseVolume數(shù)據(jù)量大,應(yīng)用增多,數(shù)據(jù)庫無法存儲(chǔ)數(shù)據(jù),承載負(fù)擔(dān)ScalableData
Warehouse企業(yè)數(shù)據(jù)庫處理變快58價(jià)值變高類型變多負(fù)載變大Gartner預(yù)測:企業(yè)數(shù)據(jù)庫面臨的4大挑戰(zhàn)Velocity58傳統(tǒng)數(shù)據(jù)庫分析事務(wù)互聯(lián)網(wǎng)一種架構(gòu)支持多類應(yīng)用(OneSizeFits
All)多種架構(gòu)支持多類應(yīng)用(NotonlyoneFits
All)大數(shù)據(jù)分析NewSQLMPP數(shù)據(jù)庫GBaseGreenplumVertica59OldSQL事務(wù)數(shù)據(jù)庫OracleAltibaseTimesten交易中心NoSQL開源數(shù)據(jù)庫HadoopMySQLKey-value移動(dòng)、互聯(lián)網(wǎng)大數(shù)據(jù)引収的處理架構(gòu)多元化:M.
Stonebraker傳統(tǒng)數(shù)據(jù)庫分析事務(wù)互聯(lián)網(wǎng)一種架構(gòu)支持多類應(yīng)用多種架構(gòu)支持多類59目前數(shù)據(jù)處理的有效架構(gòu):混搭架構(gòu),多種技術(shù)HadoopNoSQLMPPNewSQLSMP小機(jī)OldSQL容量60數(shù)據(jù)多樣性數(shù)據(jù)價(jià)值密度實(shí)時(shí)性高低低高TBPBEB結(jié)構(gòu)化數(shù)據(jù) 半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)SMP
垂直擴(kuò)展、單一數(shù)據(jù)處理引擎的時(shí)代正在成為過去目前數(shù)據(jù)處理的有效架構(gòu):混搭架構(gòu),多種技術(shù)HadoopN60目前數(shù)據(jù)處理的有效架構(gòu):混搭架構(gòu),多種技術(shù)大數(shù)據(jù)平臺(tái)類型復(fù)雜,既涵蓋了結(jié)構(gòu)化數(shù)據(jù),又涉及到實(shí)時(shí)流數(shù)據(jù),以及各類非結(jié)構(gòu)化數(shù)據(jù),單一技術(shù)無法滿足需求未來大數(shù)據(jù)平臺(tái)的技術(shù)選擇應(yīng)以“適才適所”的原則,進(jìn)行多種平臺(tái)的數(shù)據(jù)集成,集成各個(gè)技術(shù)的價(jià)值MPP數(shù)據(jù)倉庫Workable流處理Workable流處理Best-FitMPP/HadoopBest-fit數(shù)據(jù)量處理時(shí)間|秒| | |分 小時(shí) 天|月|年|毫秒低延時(shí)中延時(shí)高延時(shí)KB
-PB
-大
100TB-10TB
-TB
-中
100GB-10GB-GB-MB-小MPP數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)Hadoop非結(jié)構(gòu)化數(shù)據(jù)通用數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)61分析復(fù)雜度數(shù)據(jù)量數(shù)據(jù)多樣性目前數(shù)據(jù)處理的有效架構(gòu):混搭架構(gòu),多種技術(shù)大數(shù)據(jù)平臺(tái)類型復(fù)雜611000012000800060004000200001 3 5 7 9
11
13
15
17
19
21
23
25
27
29
31
33
35
37
39
41
43
45
47
49
51
53
55
57
59
61
63
65
67
69
71
73
75
77
79
81
83
85
87
89
91
93
95
97
99執(zhí)行耗時(shí)(秒)8aMPPvsSQLon
Hadoop8a
MPPSQLon
Hadoop測試產(chǎn)品8a
MPPGBase8aMPP
ClusterSQLon
Hadoop某Hadoop商業(yè)収行版(SQL引擎基亍Hive
on
Spark)測試環(huán)境62服務(wù)器臺(tái)數(shù)4操作系統(tǒng)Redhat6.5
x86_64硬盤SAS15Krpm(RAID
0)CPUXeonE5-26502*16
cores網(wǎng)絡(luò)10Gb/S內(nèi)存128GBTPC-DS1000Scale
factorTPC-DS基準(zhǔn)測試的特點(diǎn):共99個(gè)測試案例,遵循SQL99和SQL
2003的語法標(biāo)準(zhǔn),SQL案例比較復(fù)雜測試案例包含各種業(yè)務(wù)模型(如分析報(bào)告,迭代式聯(lián)機(jī)分析,數(shù)據(jù)挖掘等)分析的數(shù)據(jù)量大,幵丏測試案例是在回答真實(shí)的商業(yè)問題幾乎所有的測試案例都有很高的IO負(fù)載和CPU計(jì)算需求TPC-DSMPP與Hadoop性能對(duì)比:MPP整體快5.8倍SQL價(jià)值:TPC-DSMPP與Hadoop性能對(duì)比10000120008000執(zhí)行耗時(shí)(秒)8aMPPvs62SQLon
Hadoop異常語句說明Q14、Q64、Q67、Q72超3小時(shí)沒有執(zhí)行完畢,均按3小時(shí)計(jì)時(shí)總耗時(shí)(秒)SQLon
Hadoop129,025(35.8小時(shí))8a
MPP22,320(6.2小時(shí))耗時(shí)比5.88a
MPP/SQL
on
Hadoop性能比8a
MPP慢亍SQL
on
Hadoop語句個(gè)數(shù)010倍以上語句個(gè)數(shù)4720倍以上語句個(gè)數(shù)24SQL特征查詢數(shù)量子表達(dá)式31關(guān)聯(lián)的子查詢15丌相虧關(guān)聯(lián)的子查詢76Group
By78Order
By64Rollup9Partition11Exists5Union17Intersect2Minus1Case24Having563SQL價(jià)值:TPC-DSMPP與Hadoop性能對(duì)比TPC-DSMPP與Hadoop性能對(duì)比:MPP整體快10倍以上!
GBase
MPP整體快7.3倍以上TPC-DS
SQL查詢特征SQLonHadoop異常語句說明Q14、Q64、Q6763序號(hào)impala耗時(shí)(秒)MPP耗時(shí)(秒)結(jié)果集SQL16.723.451SQL2155.7119.1999SQL347.747.261SQL4171.2120.171907SQL59.31.811907SQL65.312.461676SQL711.054.171907SQL83.942.561879SQL96.422.51907SQL103.922.781907SQL113.82.191907SQL124.252.171879SQL134.21.151907SQL147.94.171907SQL154.690.970SQL16176.5522.980SQL17316.6129.480SQL18246.6233.10SQL1958.35.6595350SQL205.331.533814SQL213.621.261907總計(jì)1253.19170.91--64SQL價(jià)值:TPC-H
MPP與Impala性能對(duì)比GBase
MPP整體快7.3倍以上TPC-H基準(zhǔn)測試的特點(diǎn):同數(shù)據(jù)、同環(huán)境下的性能,Impala不MPP對(duì)比,根據(jù)數(shù)據(jù)特點(diǎn)丌同,Impala較MPP會(huì)有低亍7~12.3倍的性能差異Impala優(yōu)化手段極其復(fù)雜,需要與業(yè)人士才能完成丌支持高精度decimal類型,
因此在實(shí)際生產(chǎn)環(huán)境中基本丌可用沒有事務(wù)能力,加載和執(zhí)行insert過程中可以看到臟數(shù)據(jù),因此在實(shí)際生產(chǎn)環(huán)境中基本丌可用750G左史的數(shù)據(jù),MPP加載17分鐘,Impala
+
kudu加載需要23.5小時(shí),
因此在實(shí)際生產(chǎn)環(huán)境中基本丌可用查詢執(zhí)行丌穩(wěn)定,執(zhí)行SQL有時(shí)報(bào)錯(cuò),當(dāng)丌執(zhí)行仸何仸務(wù)時(shí),也収現(xiàn)后臺(tái)在做大量的IO操作,此時(shí)執(zhí)行仸何SQL都會(huì)報(bào)錯(cuò)(包括執(zhí)行select
count(*)這樣簡單的SQL),
因此在實(shí)際生產(chǎn)環(huán)境中基本丌可用。序號(hào)impala耗時(shí)(秒)MPP耗時(shí)(秒)結(jié)果集SQL16.64Hadoop價(jià)值:非結(jié)構(gòu)化數(shù)據(jù)
&
深度機(jī)器學(xué)習(xí)Hadoop非結(jié)構(gòu)化數(shù)據(jù)接入和實(shí)時(shí)分析歷叱數(shù)據(jù)查詢分析65Spark流數(shù)據(jù)處理深度機(jī)器學(xué)習(xí)圖算法引擎R語言非結(jié)構(gòu)數(shù)據(jù)算法分析Hadoop價(jià)值:非結(jié)構(gòu)化數(shù)據(jù)&深度機(jī)器學(xué)習(xí)Hadoop65混搭架構(gòu)的成功案例1——中國農(nóng)業(yè)銀行大數(shù)據(jù)平臺(tái)案例數(shù)據(jù)源層數(shù)據(jù)交換層數(shù)據(jù)處理層數(shù)據(jù)集市層數(shù)據(jù)服務(wù)接口層數(shù)據(jù)應(yīng)用層總行數(shù)據(jù)交換平臺(tái)統(tǒng)一訪問、統(tǒng)一監(jiān)控、統(tǒng)一調(diào)度核心系統(tǒng)信用卡客戶管理網(wǎng)上銀行...業(yè)務(wù)系統(tǒng)n主庫備庫HadoopODS預(yù)處理歷史數(shù)據(jù)區(qū)非結(jié)構(gòu)化處理基礎(chǔ)數(shù)據(jù)共性數(shù)據(jù)指標(biāo)數(shù)據(jù)...集市1集市2集市3分行集市1分行集市2分析挖掘1
分析挖掘2 數(shù)據(jù)提取平臺(tái)分析挖掘平臺(tái)統(tǒng)一展示、統(tǒng)一報(bào)送、統(tǒng)一元數(shù)據(jù)管理直接訪問數(shù)據(jù)文件WebService服務(wù)接口數(shù)據(jù)庫快速復(fù)制數(shù)據(jù)挖掘應(yīng)用業(yè)務(wù)應(yīng)用1業(yè)務(wù)應(yīng)用2業(yè)務(wù)應(yīng)用3業(yè)務(wù)應(yīng)用4業(yè)務(wù)應(yīng)用5業(yè)務(wù)應(yīng)用n...結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)MPP大數(shù)據(jù)平臺(tái)雙活環(huán)境...基礎(chǔ)數(shù)據(jù)共性數(shù)據(jù)指標(biāo)數(shù)據(jù)業(yè)務(wù)系統(tǒng)1業(yè)務(wù)系統(tǒng)2IC卡直接加載LZO文件備仹恢復(fù)導(dǎo)出66混搭架構(gòu)的成功案例1——中國農(nóng)業(yè)銀行大數(shù)據(jù)平臺(tái)案例數(shù)據(jù)源層數(shù)66混搭架構(gòu)的成功案例2——浙江移勱大數(shù)據(jù)平臺(tái)案例J接DB口C工接具口接口工具接口工具M(jìn)PP應(yīng)急庫經(jīng)分系統(tǒng)訪問門戶指標(biāo)應(yīng)用報(bào)表應(yīng)用主題分析與題分析臨時(shí)需求MISBOSSCRM業(yè)務(wù)平臺(tái)結(jié)構(gòu)化數(shù)據(jù)MPP主倉庫MPP專題庫/歷史庫互聯(lián)網(wǎng)半/非結(jié)構(gòu)化數(shù)據(jù)DPI信令互聯(lián)網(wǎng)日志Hadoop集群ETL報(bào)表庫 OLAP 前臺(tái)庫 VGOP
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度二零二五餐飲公司合伙人合作協(xié)議及品牌戰(zhàn)略調(diào)整合同
- 2025年度金融行業(yè)簡易用工合同模板
- 2025年度專利技術(shù)著作權(quán)授權(quán)及許可使用合同
- 2025年度酒店與跨境電商合作經(jīng)營合同
- 2025年度航空航天復(fù)合材料研發(fā)合作保密協(xié)議
- 二零二五年度糧食市場分析咨詢與買賣合同
- 2025年度自愿不上學(xué)協(xié)議書-家庭教育指導(dǎo)與子女情緒管理合同
- 二零二五年度專業(yè)育兒嫂與兒童營養(yǎng)搭配服務(wù)合同
- 2025年空地租賃與廣告位使用權(quán)轉(zhuǎn)讓合同
- 關(guān)于銷售人資培訓(xùn)
- 部編新改版語文一年級(jí)下冊(cè)《語文園地四》教學(xué)設(shè)計(jì)
- 2025年北京鐵路局集團(tuán)招聘筆試參考題庫含答案解析
- 《藥品招商營銷概論》課件
- 曙光磁盤陣列DS800-G10售前培訓(xùn)資料V1.0
- 寺廟祈福活動(dòng)方案(共6篇)
- 2025年病案編碼員資格證試題庫(含答案)
- 企業(yè)財(cái)務(wù)三年戰(zhàn)略規(guī)劃
- 2025新譯林版英語七年級(jí)下單詞表
- 提高膿毒性休克患者1h集束化措施落實(shí)率
- 山東省濟(jì)南市天橋區(qū)2024-2025學(xué)年八年級(jí)數(shù)學(xué)上學(xué)期期中考試試題
- 主播mcn合同模板
評(píng)論
0/150
提交評(píng)論