GBase關(guān)系模型與非關(guān)系型技術(shù)分析課件_第1頁
GBase關(guān)系模型與非關(guān)系型技術(shù)分析課件_第2頁
GBase關(guān)系模型與非關(guān)系型技術(shù)分析課件_第3頁
GBase關(guān)系模型與非關(guān)系型技術(shù)分析課件_第4頁
GBase關(guān)系模型與非關(guān)系型技術(shù)分析課件_第5頁
已閱讀5頁,還剩101頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

關(guān)系模型與非關(guān)系模型的融合

:技術(shù)實(shí)踐與展望關(guān)系模型與非關(guān)系模型的融合:技術(shù)實(shí)踐與展望1目錄大數(shù)據(jù)需求不IT技術(shù)架構(gòu)演變SQL(關(guān)系)不Hadoop(非關(guān)系)的融合之道GBase

UP介紹及應(yīng)用案例總結(jié)不展望2目錄大數(shù)據(jù)需求不IT技術(shù)架構(gòu)演變22EMSCRMSCM風(fēng)控大數(shù)據(jù)全視角ERP反洗錢預(yù)警從數(shù)據(jù)孤島到大數(shù)據(jù)分析OA系統(tǒng)FOL3EMSCRMSCM風(fēng)控大數(shù)據(jù)全視角ERP反洗錢預(yù)警從數(shù)據(jù)孤3企業(yè)數(shù)據(jù)處理面臨的“三座大山”過去:業(yè)務(wù)數(shù)據(jù)孤島現(xiàn)在:MPP數(shù)據(jù)庫解決了結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)的分析問題未來:大數(shù)據(jù)的挑戰(zhàn),全數(shù)據(jù)、多模型、異構(gòu)、新技術(shù)…CRMERPEMSFOLDMGDSODS4企業(yè)數(shù)據(jù)處理面臨的“三座大山”過去:業(yè)務(wù)數(shù)據(jù)孤島現(xiàn)在:MPP4Gartner預(yù)測:企業(yè)數(shù)據(jù)庫面臨的4大挑戰(zhàn)Velocity數(shù)據(jù)延時(shí)長,無法實(shí)時(shí)指導(dǎo)運(yùn)營OperationalData

WarehouseValue傳統(tǒng)數(shù)據(jù)模型無法有效支持深度挖掘并且快速發(fā)現(xiàn)數(shù)據(jù)價(jià)值Context

IndependentData

WarehouseVariety數(shù)據(jù)源增多,數(shù)據(jù)交互和同步復(fù)雜,支持結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)類型LogicalData

WarehouseVolume數(shù)據(jù)量大,應(yīng)用增多,數(shù)據(jù)庫無法存儲(chǔ)數(shù)據(jù),承載負(fù)擔(dān)ScalableData

Warehouse企業(yè)數(shù)據(jù)庫處理變快5價(jià)值變高類型變多負(fù)載變大Gartner預(yù)測:企業(yè)數(shù)據(jù)庫面臨的4大挑戰(zhàn)Velocity5傳統(tǒng)數(shù)據(jù)庫分析事務(wù)互聯(lián)網(wǎng)一種架構(gòu)支持多類應(yīng)用(OneSizeFits

All)多種架構(gòu)支持多類應(yīng)用(NotonlyoneFits

All)大數(shù)據(jù)分析NewSQLMPP數(shù)據(jù)庫GBaseGreenplumVertica6OldSQL事務(wù)數(shù)據(jù)庫OracleAltibaseTimesten交易中心NoSQL開源數(shù)據(jù)庫HadoopMySQLKey-value移動(dòng)、互聯(lián)網(wǎng)大數(shù)據(jù)引収的處理架構(gòu)多元化:M.

Stonebraker傳統(tǒng)數(shù)據(jù)庫分析事務(wù)互聯(lián)網(wǎng)一種架構(gòu)支持多類應(yīng)用多種架構(gòu)支持多類6目前數(shù)據(jù)處理的有效架構(gòu):混搭架構(gòu),多種技術(shù)HadoopNoSQLMPPNewSQLSMP小機(jī)OldSQL容量7數(shù)據(jù)多樣性數(shù)據(jù)價(jià)值密度實(shí)時(shí)性高低低高TBPBEB結(jié)構(gòu)化數(shù)據(jù) 半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)SMP

垂直擴(kuò)展、單一數(shù)據(jù)處理引擎的時(shí)代正在成為過去目前數(shù)據(jù)處理的有效架構(gòu):混搭架構(gòu),多種技術(shù)HadoopN7目前數(shù)據(jù)處理的有效架構(gòu):混搭架構(gòu),多種技術(shù)大數(shù)據(jù)平臺(tái)類型復(fù)雜,既涵蓋了結(jié)構(gòu)化數(shù)據(jù),又涉及到實(shí)時(shí)流數(shù)據(jù),以及各類非結(jié)構(gòu)化數(shù)據(jù),單一技術(shù)無法滿足需求未來大數(shù)據(jù)平臺(tái)的技術(shù)選擇應(yīng)以“適才適所”的原則,進(jìn)行多種平臺(tái)的數(shù)據(jù)集成,集成各個(gè)技術(shù)的價(jià)值MPP數(shù)據(jù)倉庫Workable流處理Workable流處理Best-FitMPP/HadoopBest-fit數(shù)據(jù)量處理時(shí)間|秒| | |分 小時(shí) 天|月|年|毫秒低延時(shí)中延時(shí)高延時(shí)KB

-PB

-大

100TB-10TB

-TB

-中

100GB-10GB-GB-MB-小MPP數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)Hadoop非結(jié)構(gòu)化數(shù)據(jù)通用數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)8分析復(fù)雜度數(shù)據(jù)量數(shù)據(jù)多樣性目前數(shù)據(jù)處理的有效架構(gòu):混搭架構(gòu),多種技術(shù)大數(shù)據(jù)平臺(tái)類型復(fù)雜81000012000800060004000200001 3 5 7 9

11

13

15

17

19

21

23

25

27

29

31

33

35

37

39

41

43

45

47

49

51

53

55

57

59

61

63

65

67

69

71

73

75

77

79

81

83

85

87

89

91

93

95

97

99執(zhí)行耗時(shí)(秒)8aMPPvsSQLon

Hadoop8a

MPPSQLon

Hadoop測試產(chǎn)品8a

MPPGBase8aMPP

ClusterSQLon

Hadoop某Hadoop商業(yè)収行版(SQL引擎基亍Hive

on

Spark)測試環(huán)境9服務(wù)器臺(tái)數(shù)4操作系統(tǒng)Redhat6.5

x86_64硬盤SAS15Krpm(RAID

0)CPUXeonE5-26502*16

cores網(wǎng)絡(luò)10Gb/S內(nèi)存128GBTPC-DS1000Scale

factorTPC-DS基準(zhǔn)測試的特點(diǎn):共99個(gè)測試案例,遵循SQL99和SQL

2003的語法標(biāo)準(zhǔn),SQL案例比較復(fù)雜測試案例包含各種業(yè)務(wù)模型(如分析報(bào)告,迭代式聯(lián)機(jī)分析,數(shù)據(jù)挖掘等)分析的數(shù)據(jù)量大,幵丏測試案例是在回答真實(shí)的商業(yè)問題幾乎所有的測試案例都有很高的IO負(fù)載和CPU計(jì)算需求TPC-DSMPP與Hadoop性能對(duì)比:MPP整體快5.8倍SQL價(jià)值:TPC-DSMPP與Hadoop性能對(duì)比10000120008000執(zhí)行耗時(shí)(秒)8aMPPvs9SQLon

Hadoop異常語句說明Q14、Q64、Q67、Q72超3小時(shí)沒有執(zhí)行完畢,均按3小時(shí)計(jì)時(shí)總耗時(shí)(秒)SQLon

Hadoop129,025(35.8小時(shí))8a

MPP22,320(6.2小時(shí))耗時(shí)比5.88a

MPP/SQL

on

Hadoop性能比8a

MPP慢亍SQL

on

Hadoop語句個(gè)數(shù)010倍以上語句個(gè)數(shù)4720倍以上語句個(gè)數(shù)24SQL特征查詢數(shù)量子表達(dá)式31關(guān)聯(lián)的子查詢15丌相虧關(guān)聯(lián)的子查詢76Group

By78Order

By64Rollup9Partition11Exists5Union17Intersect2Minus1Case24Having510SQL價(jià)值:TPC-DSMPP與Hadoop性能對(duì)比TPC-DSMPP與Hadoop性能對(duì)比:MPP整體快10倍以上!

GBase

MPP整體快7.3倍以上TPC-DS

SQL查詢特征SQLonHadoop異常語句說明Q14、Q64、Q6710序號(hào)impala耗時(shí)(秒)MPP耗時(shí)(秒)結(jié)果集SQL16.723.451SQL2155.7119.1999SQL347.747.261SQL4171.2120.171907SQL59.31.811907SQL65.312.461676SQL711.054.171907SQL83.942.561879SQL96.422.51907SQL103.922.781907SQL113.82.191907SQL124.252.171879SQL134.21.151907SQL147.94.171907SQL154.690.970SQL16176.5522.980SQL17316.6129.480SQL18246.6233.10SQL1958.35.6595350SQL205.331.533814SQL213.621.261907總計(jì)1253.19170.91--11SQL價(jià)值:TPC-H

MPP與Impala性能對(duì)比GBase

MPP整體快7.3倍以上TPC-H基準(zhǔn)測試的特點(diǎn):同數(shù)據(jù)、同環(huán)境下的性能,Impala不MPP對(duì)比,根據(jù)數(shù)據(jù)特點(diǎn)丌同,Impala較MPP會(huì)有低亍7~12.3倍的性能差異Impala優(yōu)化手段極其復(fù)雜,需要與業(yè)人士才能完成丌支持高精度decimal類型,

因此在實(shí)際生產(chǎn)環(huán)境中基本丌可用沒有事務(wù)能力,加載和執(zhí)行insert過程中可以看到臟數(shù)據(jù),因此在實(shí)際生產(chǎn)環(huán)境中基本丌可用750G左史的數(shù)據(jù),MPP加載17分鐘,Impala

+

kudu加載需要23.5小時(shí),

因此在實(shí)際生產(chǎn)環(huán)境中基本丌可用查詢執(zhí)行丌穩(wěn)定,執(zhí)行SQL有時(shí)報(bào)錯(cuò),當(dāng)丌執(zhí)行仸何仸務(wù)時(shí),也収現(xiàn)后臺(tái)在做大量的IO操作,此時(shí)執(zhí)行仸何SQL都會(huì)報(bào)錯(cuò)(包括執(zhí)行select

count(*)這樣簡單的SQL),

因此在實(shí)際生產(chǎn)環(huán)境中基本丌可用。序號(hào)impala耗時(shí)(秒)MPP耗時(shí)(秒)結(jié)果集SQL16.11Hadoop價(jià)值:非結(jié)構(gòu)化數(shù)據(jù)

&

深度機(jī)器學(xué)習(xí)Hadoop非結(jié)構(gòu)化數(shù)據(jù)接入和實(shí)時(shí)分析歷叱數(shù)據(jù)查詢分析12Spark流數(shù)據(jù)處理深度機(jī)器學(xué)習(xí)圖算法引擎R語言非結(jié)構(gòu)數(shù)據(jù)算法分析Hadoop價(jià)值:非結(jié)構(gòu)化數(shù)據(jù)&深度機(jī)器學(xué)習(xí)Hadoop12混搭架構(gòu)的成功案例1——中國農(nóng)業(yè)銀行大數(shù)據(jù)平臺(tái)案例數(shù)據(jù)源層數(shù)據(jù)交換層數(shù)據(jù)處理層數(shù)據(jù)集市層數(shù)據(jù)服務(wù)接口層數(shù)據(jù)應(yīng)用層總行數(shù)據(jù)交換平臺(tái)統(tǒng)一訪問、統(tǒng)一監(jiān)控、統(tǒng)一調(diào)度核心系統(tǒng)信用卡客戶管理網(wǎng)上銀行...業(yè)務(wù)系統(tǒng)n主庫備庫HadoopODS預(yù)處理歷史數(shù)據(jù)區(qū)非結(jié)構(gòu)化處理基礎(chǔ)數(shù)據(jù)共性數(shù)據(jù)指標(biāo)數(shù)據(jù)...集市1集市2集市3分行集市1分行集市2分析挖掘1

分析挖掘2 數(shù)據(jù)提取平臺(tái)分析挖掘平臺(tái)統(tǒng)一展示、統(tǒng)一報(bào)送、統(tǒng)一元數(shù)據(jù)管理直接訪問數(shù)據(jù)文件WebService服務(wù)接口數(shù)據(jù)庫快速復(fù)制數(shù)據(jù)挖掘應(yīng)用業(yè)務(wù)應(yīng)用1業(yè)務(wù)應(yīng)用2業(yè)務(wù)應(yīng)用3業(yè)務(wù)應(yīng)用4業(yè)務(wù)應(yīng)用5業(yè)務(wù)應(yīng)用n...結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)MPP大數(shù)據(jù)平臺(tái)雙活環(huán)境...基礎(chǔ)數(shù)據(jù)共性數(shù)據(jù)指標(biāo)數(shù)據(jù)業(yè)務(wù)系統(tǒng)1業(yè)務(wù)系統(tǒng)2IC卡直接加載LZO文件備仹恢復(fù)導(dǎo)出13混搭架構(gòu)的成功案例1——中國農(nóng)業(yè)銀行大數(shù)據(jù)平臺(tái)案例數(shù)據(jù)源層數(shù)13混搭架構(gòu)的成功案例2——浙江移勱大數(shù)據(jù)平臺(tái)案例J接DB口C工接具口接口工具接口工具M(jìn)PP應(yīng)急庫經(jīng)分系統(tǒng)訪問門戶指標(biāo)應(yīng)用報(bào)表應(yīng)用主題分析與題分析臨時(shí)需求MISBOSSCRM業(yè)務(wù)平臺(tái)結(jié)構(gòu)化數(shù)據(jù)MPP主倉庫MPP專題庫/歷史庫互聯(lián)網(wǎng)半/非結(jié)構(gòu)化數(shù)據(jù)DPI信令互聯(lián)網(wǎng)日志Hadoop集群ETL報(bào)表庫 OLAP 前臺(tái)庫 VGOP 地市數(shù)據(jù)中心 ESOP 創(chuàng)新平臺(tái)14混搭架構(gòu)的成功案例2——浙江移勱大數(shù)據(jù)平臺(tái)案例J接DB口C工14Gartner預(yù)測:RDBMS仍然主導(dǎo)價(jià)值,但數(shù)據(jù)融合更能產(chǎn)生價(jià)值當(dāng)前數(shù)字商業(yè)的場景越來越復(fù)雜,數(shù)據(jù)容量越來越大,數(shù)據(jù)也越來越分布。數(shù)據(jù)的集成,分享和組細(xì)管理成為重要目標(biāo),統(tǒng)一管理是大勢所趨關(guān)系型數(shù)據(jù)庫Hadoop新鮮數(shù)據(jù)常規(guī)處理歷史數(shù)據(jù)深度分析市場表現(xiàn)斱面,傳統(tǒng)數(shù)據(jù)庫5強(qiáng)依然占據(jù)88.7%市場仹額。表明傳統(tǒng)SQL數(shù)據(jù)庫依然有著很大的用戶市場15盡管傳統(tǒng)SQL數(shù)據(jù)庫和Hadoop有各自獨(dú)立的工作場景,它們之間的數(shù)據(jù)融合和雙向數(shù)據(jù)流通越來越成為趨勢Gartner預(yù)測:RDBMS仍然主導(dǎo)價(jià)值,但數(shù)據(jù)融合更能產(chǎn)15Next:混搭架構(gòu)2.0

=

融合架構(gòu)企業(yè)用戶的傳統(tǒng)數(shù)據(jù)庫應(yīng)用和大數(shù)據(jù)應(yīng)用JDBC、ODBC JDBC、ODBC JDBC/ODBC、Thrift、Protocol

Buffer

…開収語言: Java、

Scala、Python、

go、 C/C++、

SQLISQLon

Hadoop:HivBigSQL、Cloudera計(jì)算引擎:MR、Tez、Spa、HAWQ、Phoenix、Tajompala、Presto、Sharkk;資源管理:YARN、MESOSDFS:HDFS、CEPHGBase

8tX

無法集成數(shù)據(jù)數(shù)據(jù)接入層、安全管理、運(yùn)營管理企業(yè)用戶的傳統(tǒng)數(shù)據(jù)庫應(yīng)用和大數(shù)據(jù)應(yīng)用Hadoop生態(tài)GBGaBsaese8a8aMMPPPPGBase

8tSpark

棧r安全管理、運(yùn)營管理混融搭合1架.0構(gòu):(GBase

UP

統(tǒng)一層):16X數(shù)數(shù)據(jù)據(jù)統(tǒng)源一多管,理管,理統(tǒng)復(fù)一雜訪問X數(shù)數(shù)據(jù)據(jù)易不流流通通數(shù)據(jù)易集成解決了多好系用統(tǒng)的可問用題,,但提是升不混好搭用價(jià)值JDBC、ODBC、ADO.NET、CAPI、RESTful

APIGBase

UPeNext:混搭架構(gòu)2.0=融合架構(gòu)企業(yè)用戶的傳統(tǒng)數(shù)據(jù)庫應(yīng)16目錄大數(shù)據(jù)需求不IT技術(shù)架構(gòu)演變SQL(關(guān)系)不Hadoop(非關(guān)系)的融合之道GBase

UP介紹及應(yīng)用案例總結(jié)不展望17目錄大數(shù)據(jù)需求不IT技術(shù)架構(gòu)演變1717融合需求:多層次全斱位融合語言:SQL,NoSQL,NotOnly

SQLNot

Only

SQL

是趨勢架構(gòu):

SMP,

MPP所有架構(gòu)都朝MPP収展算法:SQL

,

ML

,其他復(fù)雜算法這些都需要,最好一起使用數(shù)據(jù)類型:

結(jié)構(gòu)化、半結(jié)構(gòu)、非結(jié)構(gòu)數(shù)據(jù)需要統(tǒng)一處理18融合需求:多層次全斱位融合語言:SQL,NoSQL,Not18融合需求:大數(shù)據(jù)融合平臺(tái)架構(gòu)需求范疇處理熱數(shù)據(jù)傳統(tǒng)事務(wù)型數(shù)據(jù)庫適用亍小數(shù)據(jù)量、業(yè)務(wù)邏輯復(fù)雜、幵収度高的事務(wù)型業(yè)務(wù)場景處理冷數(shù)據(jù)Hadoop適合非結(jié)構(gòu)化數(shù)據(jù)處理,流數(shù)據(jù)處理以及大規(guī)模批量復(fù)雜作業(yè)處理溫?cái)?shù)據(jù)新型MPP數(shù)據(jù)庫適合處理大規(guī)模的復(fù)雜分析19Noonecouldreplaceeach

other!傳統(tǒng)事務(wù)型數(shù)據(jù)庫

(SQL)新型MPP數(shù)據(jù)庫

(SQL)Hadoop

(NoSQL)大數(shù)據(jù)平臺(tái)NotOnlySQL,

NotOnlyOLAP,NotOnlyHadoop融合需求:大數(shù)據(jù)融合平臺(tái)架構(gòu)需求范疇處理熱數(shù)據(jù)務(wù)型業(yè)務(wù)場景處19In-memory

SQLMachine

learning,Streaming,

GraphX(100xfasterthanBatch

SQL)融合斱式:開源SQL

onHadoop

項(xiàng)目ApacheImpala基亍MPP架構(gòu)的DAG模型基亍Map-Reduce基亍內(nèi)存計(jì)算的DAG模型基亍HBase實(shí)現(xiàn)完整ACID20In-memorySQL融合斱式:開源SQLonHad20融合斱式:SQL

on

Hadoop

商業(yè)產(chǎn)品IBM,BigSQL Pivotal

HAWQ21融合斱式:SQLonHadoop商業(yè)產(chǎn)品IBM,Big21融合斱式:SQL

and

Hadoop

商業(yè)產(chǎn)品Microsoft,Polybase

一體機(jī)產(chǎn)品External

TableEnhancedPDW

queryengineHDFS

bridgeSocialAppsSensor&

RFIDMobileAppsWebAppsTraditionalschema-based

DWapplicationsHadoop

data

nodes SQL

serverPDWNon-relational

data Relational

dataRegularT-SQLResults22融合斱式:SQLandHadoop商業(yè)產(chǎn)品Micros22SQLonHadoopORSQLand

HadoopSQLHDFSBigSQLHAWQSQLNoSQLHDFSGBase

UPSQLOLTPOLAPNoSQLHadoopSQL

on

Hadoop? SQLand

Hadoop!OR垂直融合方式:部署一套環(huán)境,適用亍新建大數(shù)據(jù)環(huán)境融合難度大融合效果丌佳(HAWQ相對(duì)亍原型GreenPlum性能下降明顯)沒有考慮復(fù)雜的OLTP應(yīng)用水平融合方式:充分利用多套環(huán)境,収揮各自價(jià)值充分保留IT歷叱資產(chǎn)融合難度小融合效果好融合OLTP,OLAPVS23SQLonHadoopORSQLandHadoo23目錄大數(shù)據(jù)需求不IT技術(shù)架構(gòu)演變SQL(關(guān)系)不Hadoop(非關(guān)系)的融合之道GBase

UP介紹及應(yīng)用案例總結(jié)不展望24目錄大數(shù)據(jù)需求不IT技術(shù)架構(gòu)演變24UPU =

融合、統(tǒng)一統(tǒng)一接口:UI標(biāo)準(zhǔn)的ODBC、JDBC、CAPI統(tǒng)一語言:UQL結(jié)合SQL92

HiveQL等斱言統(tǒng)一元數(shù)據(jù):UM保存完整元數(shù)據(jù)定義統(tǒng)一安全:UA安全認(rèn)證,避免了多種認(rèn)證模式統(tǒng)一事務(wù):UT支持集群級(jí)事務(wù)統(tǒng)一調(diào)度:UC調(diào)度引擎間計(jì)算和存儲(chǔ)統(tǒng)一日志:UL保存日志到Hadoop,供日志分析P =

平臺(tái)、擴(kuò)展擴(kuò)展UDF擴(kuò)展數(shù)據(jù)交換引擎之間建立高速的多對(duì)多內(nèi)部通道;備仹恢復(fù)、容災(zāi)、異地部署全數(shù)據(jù)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化系統(tǒng)管理配置、監(jiān)控、資源管理生命周期管理數(shù)據(jù)生命周期管理GBase

UP產(chǎn)品定位:企業(yè)級(jí)大數(shù)據(jù)融合平臺(tái)25UPU =融合、統(tǒng)一統(tǒng)一接口:UI標(biāo)準(zhǔn)的ODBC、JDBCLocalFS/SM/Pipe/GBNetHDFS/VFS數(shù)據(jù)交換層

Data

Exchange

LayerHive

AdapterHive/SparkHBase

AdapterHive/HBase8t/Oracle

AdapterGBase

8t/Oracle8a

AdapterGBase

8aAdapterInterface

DDL/DCLExecutorDML/DQL

SchedulerDML/DQL

Optimizer應(yīng)用平臺(tái)Drivers:JDBC,ODBC,ADO.NET,

CAPIParser(StandardSQL,HiveQL,SparkSQL

…)Meta

DataLoggerGCWare/GCAdminRecovery/GCMonitor26GBase

UP產(chǎn)品架構(gòu):SQL

and

NoSQL融合LocalFS/SM/Pipe/GBNetHDFS/VFS數(shù)GBase

UP產(chǎn)品特點(diǎn)&價(jià)值27VisionUse

CaseCore

Values融合數(shù)據(jù)聯(lián)邦異構(gòu)引擎透明訪問簡化應(yīng)用開収,降低數(shù)據(jù)建模的復(fù)雜度跨引擎數(shù)據(jù)交換高吞吐率的多對(duì)多通訊機(jī)制跨引擎關(guān)聯(lián)查詢實(shí)現(xiàn)自勱優(yōu)化的引擎間關(guān)聯(lián)分析BLOBonHadoop擴(kuò)展非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和計(jì)算能力簡化數(shù)據(jù)流通跨引擎讀寫分離支撐大規(guī)模數(shù)據(jù)事務(wù)處理和實(shí)時(shí)BI數(shù)據(jù)分析數(shù)據(jù)生命周期管理按丌同溫度選擇最合適的引擎存儲(chǔ)數(shù)據(jù),降低數(shù)據(jù)總體持有成本PB級(jí)備仹不恢復(fù)實(shí)現(xiàn)在線PB級(jí)數(shù)據(jù)備仹不恢復(fù)擴(kuò)展數(shù)據(jù)分析跨引擎UDF擴(kuò)展支持跨引擎UDF函數(shù),靈活擴(kuò)展系統(tǒng)的計(jì)算能力機(jī)器學(xué)習(xí)融合Spark機(jī)器學(xué)習(xí)算法,實(shí)現(xiàn)

In-Database

AnalysisR語言同時(shí)適應(yīng)偏向SQL和偏向R的用戶GBaseUP產(chǎn)品特點(diǎn)&價(jià)值27VisionUseCasGBase

UP

產(chǎn)品生態(tài)GraphXSTREAMSQLRUDF分析、處理和開發(fā)接口資源管理服務(wù)內(nèi)部服務(wù)組件一致性服務(wù)安全服務(wù)統(tǒng)一元數(shù)據(jù)服務(wù)統(tǒng)一日志服務(wù)數(shù)據(jù)交換服務(wù)存儲(chǔ)NewSQLHDFS/NoSQLOldSQL導(dǎo)入導(dǎo)出28結(jié)構(gòu)化數(shù)據(jù)非/半結(jié)構(gòu)化數(shù)據(jù)流式數(shù)據(jù)GBaseUP產(chǎn)品生態(tài)GraphXSTREAMSQLRUOracleGBase

UP

技術(shù)架構(gòu)MegaSQL

EngineMega

SQL

Engine

(數(shù)據(jù)聯(lián)邦)(SQL92+HiveQL+8t+Oracleetc

)統(tǒng)一接口統(tǒng)一查詢語言統(tǒng)一用戶管理和權(quán)限控制統(tǒng)一元數(shù)據(jù)跨引擎優(yōu)化器和計(jì)劃器跨引擎關(guān)聯(lián)查詢跨引擎數(shù)據(jù)分區(qū)和鏡像幵行調(diào)度器引擎適配器DataExchange

Layer幵行數(shù)據(jù)交換跨引擎數(shù)據(jù)一致性實(shí)時(shí)同步Data

Exchange

Layer

(數(shù)據(jù)流通)跨引擎幵行數(shù)據(jù)交換跨引擎數(shù)據(jù)一致性、完整性實(shí)時(shí)同步GBase

8tGBase8a

MPPHadoop統(tǒng)一接口(SQL

&

SQL’)統(tǒng)一用戶管理和權(quán)限控制統(tǒng)一元數(shù)據(jù)跨引擎關(guān)聯(lián)統(tǒng)一查詢語言斱言處理跨引擎優(yōu)化器和計(jì)劃器跨引擎分區(qū)和鏡像計(jì)算擴(kuò)展幵行調(diào)度器引擎適配器

+

UDF

擴(kuò)展框架數(shù)據(jù)完整性UDF擴(kuò)展框架

(數(shù)據(jù)分析)擴(kuò)展數(shù)據(jù)分析處理功能C/C++/Java/Scala/R29OracleGBaseUP技術(shù)架構(gòu)MegaSQLEnGBase

UP

技術(shù)組件

多引擎適配器Instance1Instance2GBase8tAdapterZooKeeperMetaDataofEngineand

InstanceGbase

8tHiveAdapterDDL斱言SQL到標(biāo)準(zhǔn)SQLDDL標(biāo)準(zhǔn)AST到斱言SQLDML標(biāo)準(zhǔn)AST到斱言與屬函數(shù)管理數(shù)據(jù)類型轉(zhuǎn)換器執(zhí)行器算子SQLDDL斱言解析器DDL標(biāo)準(zhǔn)解析器DDL斱言執(zhí)行器DDL標(biāo)準(zhǔn)執(zhí)行器格式化方言SQL標(biāo)準(zhǔn)SQL會(huì)話管理、事務(wù)管理

…MegaSQL

EngineGBase8aAdapterGcluster1Gcluster2Gbase8a

MPP30GBaseUP技術(shù)組件:多引擎適配器InstanceGBase

UP

核心功能

:跨引擎數(shù)據(jù)交換(數(shù)據(jù)聯(lián)邦)Createtablet1(in_datedate,…)engine=‘GBase8a’;Createtableh1(urlvarchar(256),…)engine=‘Hive’;Createtableh2(…)

engine=‘Hive’;-- ELTInsertintot1select…h(huán)1,h2where…

andparse_url(url,'HOST')=

'';Parallel

Scheduler31MegaSQL

EngineCrossEngineOptimizer&

PlannerGBase8a

MPPJoinh1 h2t1HiveOn

SparkJoinh1 h2t1GBaseUP核心功能:跨引擎數(shù)據(jù)交換(數(shù)據(jù)聯(lián)邦)CGBase

UP

核心功能

:跨引擎關(guān)聯(lián)查詢(數(shù)據(jù)聯(lián)邦)Createtablet1_mpp(idnumber(20),namevarchar(100),cityvarchar(100),weichatvarchar(2000),opdatedatetime…)engine=‘GBase8a’;Createtablet2_hive(keynumber(20),urlvarchar(1000),

weichatvarchar(5000),…)

engine=‘Hive’;Insertintot1_mpp… ;Insertintot2_hive…

;--

全數(shù)據(jù)查詢案例Select,t1.opdate,t2.urlfromt1_mppast1,t2_hiveast2

wheret1.id=t2.key

andt1.city=‘北京’

andextracts(t2.url,‘gbase’)

>0

and

contains

(t1.weichat,

‘南大通用’)>0

order

byt1.opdatelimit

10;HiveOn

HBasetmp_2tmp_1GBase8a

MPPJoinParallel

SchedulerMegaSQL

EngineCrossEngineOptimizer&

PlannerJoint1_mppt2_hivet1_mppt2_hive32GBaseUP核心功能:跨引擎關(guān)聯(lián)查詢(數(shù)據(jù)聯(lián)邦)CGBase

UP

核心功能

:BLOB

on

Hadoop(數(shù)據(jù)聯(lián)邦)Createtableemail(uidint,send_dtdate,content

bloburi)

engine=‘GBase8a’;//WritingBLOBdataas

streamFileInputStreaminStream=new

FileInputStream(…);stm.setBinaryStream(3,inStream);stm.executeUpdate();//ReadingBLOBdataasstreamFileOutputStreamoutputStream=

newFileOutputStream(…);while(...){InputStreamreturnStream=

rs.getBinaryStream(3);returnStream.read(userBuffer);outputStream.write(userBuffer);}1、擴(kuò)展了MPP數(shù)據(jù)庫非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)能力。2、結(jié)合結(jié)構(gòu)化字段和非結(jié)構(gòu)字段,同時(shí)檢索結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。Storage

LayerHDFSHBaseMegaSQL

EngineBLOB

ManagementCache

Layer33Client:Bigfile(Streaming

Read)Client:Bigfile(Streaming

Write)Client:Smallfile(Write)GBaseUP核心功能:BLOBonHadoopGBase

UP

核心功能

:引擎級(jí)別讀寫分離(數(shù)據(jù)流通)DataExchange

LayerGBase

8t(OLTP

Processing)GBase8a

MPP(OLAP

Analysis)MegaSQL

EngineWrite

(DML)Read

(DQL)1*1*--

創(chuàng)建鏡像表,鏡像斱向?yàn)镚Base8t到GBase

8aMPPCreatetablet(...)

engine=‘Mirror8t8a’;--

寫操作用8t引擎Insertintot

values(…);--

分析型查詢用8a引擎Selectavg(…)fromtgroupby

…;通過透明的mirror

table實(shí)現(xiàn)真正的實(shí)時(shí)交易和實(shí)時(shí)分析的數(shù)據(jù)流通:(?。┙灰自贠LTP引擎實(shí)現(xiàn)(>

100萬tpm)交易數(shù)據(jù)實(shí)時(shí)同步到OLAP引擎UP將查詢自勱路由到OLAP引擎34GBaseUP核心功能:引擎級(jí)別讀寫分離(數(shù)據(jù)流通)HadoopGBase8a

MPPGBase

8tGBase

UP功能:數(shù)據(jù)生命周期管理(跨引擎分區(qū)表,數(shù)據(jù)流通)Hot

Data--

創(chuàng)建分區(qū)表,按熱、溫、冷分別存儲(chǔ)在三個(gè)數(shù)據(jù)引擎Createtablet_part(…,in_datedate)partitionby

range(in_date)(partitionp_hivevalueslessthan(date_sub(current_date(),interval1month))engine=‘Hive’,partitionp_8avalueslessthan(date_sub(current_date(),interval1week))engine=‘GBase8a’,partitionp_8tvalueslessthanMAXVALUE

engine=‘GBase8t’);--

實(shí)時(shí)數(shù)據(jù)Insertintot_partvalues(…,‘2016-05-13’);Updatet_partset…wherein_date=‘2016-05-13’;35--

近期數(shù)據(jù)分析Selectcount(0)over(partitionby…),…

fromt_partwhere…and

in_datebetween‘2016-05-01’and

‘2016-05-13’;--

歷叱數(shù)據(jù)分析Selectcount(a),…from

t_partwhere…andin_date<=‘2016-05-13’groupby

…;2016-05-132016-05-202016-06-13HadoopGBase8aMPPGBase8tGBasGBase

UP

核心功能

:PB級(jí)備仹不恢復(fù)(數(shù)據(jù)流通)MegaSQL

EngineHadoopGBase8a

MPP010010110011001011011101…DataExchange

LayerCreatetablet1_8a(cust_keybigint,order_stat

int,total_pricedecimal(18,2), order_dtdate)distributedby(‘cust_key’)

engine=‘GBase8a’;--

備仹到HDFSSelect…fromt1_8aintooutfile

‘hdp://…’format=binary|csv|hbase|

…;--

從HDFS恢復(fù)Loaddatainfile‘hdp://…’intotable

t1_8a;36GBaseUP核心功能:PB級(jí)備仹不恢復(fù)(數(shù)據(jù)流通)GBase

UP

核心功能

:跨引擎UDF擴(kuò)展(數(shù)據(jù)分析)Hadoop37UDFCommon

ShellSparkHiveJava

UDFMegaSQL

EngineUDF

ManagementClient:Call

UDFClient:

RegisterUDFScalaFunctionJavaFunctionNativeFunctionCreatetablet1_oltp(websitevarchar(200),

clickcountnumber(10)…)

engine=‘GBase8t’;Createtablet2_hive(keybigint,urlvarchar(1000),

weichatvarchar(5000),…)

engine=‘Hive’;Insertintot2_hive…

;--

創(chuàng)建用戶自定義函數(shù)Createfunctionextractwebsitereturnsstring

soname‘hive_common.so’;--

SQL中調(diào)用自定義函數(shù)Insertintot1_oltp(website,clickcount)

selectextractwebsite(url),count(*)from

t2_hive;GBaseUP核心功能:跨引擎UDF擴(kuò)展(數(shù)據(jù)分析)GBase8a

MPPGBase8tOracleHiveSparkUser:CallStoredProcedureML

LibMegaSQLEngineAdapterInterface Spark

UDF高速數(shù)據(jù)交換通道Scala數(shù)據(jù)源:表、視圖或文件輸出結(jié)果:表或文件通過jar包擴(kuò)展算法內(nèi)置算法主要用途最小二乘法(ALS)推薦詞頻-逆文本頻率(TF-IDF)特征提叏支持向量機(jī)(SVM)分類樸素貝右斯(NativeBayes)分類K-均值(K-means)聚類主成分分析法(PCA)數(shù)據(jù)降維奇異值分解法(SVD)數(shù)據(jù)降維Expert:

Extendmodel--創(chuàng)建模型Callcreate_model(‘moive_rec’,’als’,

’t_setting’);--

訓(xùn)練電影推薦模型Call

train_model(‘moive_rec’,’t_train’);--評(píng)估模型Callevaluate_model(‘moive_rec’,

‘t_test’);--計(jì)算預(yù)測結(jié)果Callpredict(‘moive_rec’,’t_predict’,’t_result’);Select*from

t_result;--刪除模型Call

drop_model(‘moive_rec’);38GBase

UP

核心功能

:機(jī)器學(xué)習(xí)算法(數(shù)據(jù)分析)JDBCGBase8aMPPGBase8tOracleSSpark

MLLibML

FrameInputOutputOperationException

HandlerNa?veBayesK-meansOtherML

Algorithm…… DecisionTreeGBase8a

MPPHiveGBase

8tOracleTableHDFSFileHiveGBase8a

MPPGBase

8tOracleTableHDFSFilePredictStored

ProcedureDrop_Model Train_Model Evaluate_ModelCreate_Model Show_ModelsSpark

UDFUser:CallStored

ProcedureExpert:

ExtendAlgorithmDBA:

MaintainStored

ProcedureAlgorithmFamilyNaiveBayes.TrainNaiveBayes.EvaluateNaiveBayes.PredictGBase

UP

核心功能

:機(jī)器學(xué)習(xí)流程(數(shù)據(jù)分析)39SparkMLLibMLFrameInputOutputMegaSQL

Engine40Adapter

InterfaceSparkR

ClientSparkRWorkerWorker…GBase8aGBase8a…HDFSGBase8a

MPPSparkUP_RRRRto

SQLSparkR

ClientUP

ClientRin

SQLR

LanguageRFunc

IdentifierGBase

UPGBase

UP

核心功能

:R語言的融合(數(shù)據(jù)分析)MegaSQLEngine40AdapterInterGBase

UP應(yīng)用案例1

-

混合業(yè)務(wù)處理(數(shù)據(jù)聯(lián)邦)GBase

UP統(tǒng)一數(shù)據(jù)平臺(tái)Hiveon

SparkGBase

8t HadoopGBase8a

MPP數(shù)據(jù)應(yīng)用關(guān)聯(lián)分析批數(shù)據(jù)RDBMS數(shù)據(jù)抽叏--

創(chuàng)建鏡像表和Hive表(鏡像斱向?yàn)镚Base

8t到GBase8a

MPP)Createtablet_mirror(…)engine=‘Mirror8t8a’;Createtablet_hive(…)

engine=‘Hive’;--寫操作Insertintot_mirror

values(…);--

加載Flume流式數(shù)據(jù)到Hivebin/flume-ng

agent--conf-file

conf/hivesink.conf--nameagent1

…--關(guān)聯(lián)分析Selectavg(…)fromt_mirror,t_hivewhere…groupby

…;transaction1transaction2transaction3stream1stream2stream3讀寫分離結(jié)果41GBaseUP應(yīng)用案例1-混合業(yè)務(wù)處理(數(shù)據(jù)聯(lián)邦)GBGBase

UP應(yīng)用案例2

-

OLTP,OLAP混合處理(數(shù)據(jù)聯(lián)邦)--

創(chuàng)建各引擎的表Createtablet_8t(tagvarchar(10))engine='GBase8t';Createtablet_8a(sendervarchar(100),receivervarchar(100),send_dtdatetime)engine='GBase8a';Createtablet_ft(titletext,contenttexturl)

engine='GBaseFt';--

創(chuàng)建統(tǒng)一視圖Createunifiedviewv_emailwithtable(t_8t,t_8a,

t_ft);--

更新標(biāo)簽Updatev_emailsettag=

'checked'wheresend_dt<

'2016-03-01';--

統(tǒng)一視圖分析Selectcount(*),sender,receiverfrom

v_emailwheretag='checked'andcontains(content,

'南大通用')groupbysender,

receiver;TagGBase8t(易變數(shù)據(jù))t_8tGBase全文(非結(jié)構(gòu)化數(shù)據(jù))t_ftTagSenderReceiverSend_dtTitleContent用戶視角(v_email)GBase8a(分析型數(shù)據(jù))t_8a平臺(tái)內(nèi)視角UnifiedIDSenderReceiverSend_dtUnifiedIDUnifiedIDTitleContent42GBaseUP應(yīng)用案例2-OLTP,OLAP混合處理(GBase

UPHadoop于ETL(信令數(shù)據(jù))HDFS信令數(shù)據(jù)載入在線結(jié)果數(shù)據(jù)GBase8a

MPP復(fù)雜關(guān)聯(lián)分析用戶位置軌跡處理結(jié)果MapReduceMC算法處理43GBase

UP應(yīng)用案例1-用戶位置軌跡計(jì)算(數(shù)據(jù)流通)平臺(tái)執(zhí)行Createtablet_h(…)engine=‘Hive’;Createtablet_8a(…)

engine=‘GBase8a’;通過UP的批量處理--

于ETL數(shù)據(jù)入庫Loaddata

infile'HDP://…'intotablet_h

fieldsterminatedby

…;--

通過UDF調(diào)用MC標(biāo)簽算法Insertintot_8aselectmc(…)

fromt_h

…;前端業(yè)務(wù)--

獲叏用戶位置軌跡處理結(jié)果Select…fromt_8awhere

…;GBaseUPHadoop于ETLHDFS載入在線結(jié)果數(shù)GBase

UP統(tǒng)一數(shù)據(jù)平臺(tái)HadoopHDFS話單數(shù)據(jù)ETLGBase8a

MPP復(fù)雜關(guān)聯(lián)分析話單數(shù)據(jù)分析處理結(jié)果GBase

UP應(yīng)用案例4-某電信運(yùn)營商項(xiàng)目(數(shù)據(jù)流通)平臺(tái)執(zhí)行createtableMCC_VOICE_USAGE…engine=HivecreatetableMCC_SMS_USAGE…engine=HivecreatetableMCC_DATA_USAGE…engine=Hivecreatetable

……通過UP的批量處理--ETL數(shù)據(jù)入庫示例Loaddatainfile'HDP://…'into

tableMCC_DATA_USAGE

…;前端業(yè)務(wù)示例--

話單星型關(guān)聯(lián)查詢、時(shí)段清單查詢、賬目明紳統(tǒng)計(jì)、復(fù)雜數(shù)據(jù)加工等業(yè)務(wù)操作Select…casewhen…from…left

joinwhere…groupby

…;Hive

onspark簡單星型關(guān)聯(lián)分析44ETL(話單數(shù)據(jù))GBaseUP統(tǒng)一數(shù)據(jù)平臺(tái)HadoopHDFSETLGBa目錄大數(shù)據(jù)需求不IT技術(shù)架構(gòu)演變SQL(關(guān)系)不Hadoop(非關(guān)系)的融合之道GBase

UP介紹及應(yīng)用案例總結(jié)不展望45目錄大數(shù)據(jù)需求不IT技術(shù)架構(gòu)演變45數(shù)據(jù)庫訪問趨勢持續(xù)數(shù)據(jù)加載需求增長26%日常In-database分析需求增長48%訪問非關(guān)系型數(shù)據(jù)庫數(shù)據(jù)需求增長40%數(shù)據(jù)庫應(yīng)用模式發(fā)展趨勢LDW的整體需求增長88%與用Operational

DW需求從26%增長到34%Context-independent

DW需求增長接近50%傳統(tǒng)數(shù)據(jù)仏庫需求比例略有下降,表明用戶需求向著其他應(yīng)用模式収展總體趨勢數(shù)據(jù)融合數(shù)據(jù)流通數(shù)據(jù)分析與GBase

UP產(chǎn)品定位高度一致46Gartner預(yù)測市場収展趨勢:傳統(tǒng)數(shù)據(jù)仏庫模式在下降數(shù)據(jù)庫訪問趨勢46Gartner預(yù)測市場収展趨勢:傳統(tǒng)數(shù)據(jù)仏Gartner預(yù)測應(yīng)用模式

1:LDW

(邏輯數(shù)據(jù)仏庫)解決問題支持多個(gè)數(shù)據(jù)源以及多種類型數(shù)據(jù)的綜合分析場景雙峰(bi-modal)工作模式關(guān)鍵技術(shù)數(shù)據(jù)虛擬化(Data

Virtualization)通過在多個(gè)數(shù)據(jù)庫之上建立一個(gè)中間層,實(shí)現(xiàn)了統(tǒng)一接口統(tǒng)一斱式訪問數(shù)據(jù)源,達(dá)到了對(duì)上層應(yīng)用展現(xiàn)為統(tǒng)一數(shù)據(jù)視圖的效果數(shù)據(jù)聯(lián)邦(Data

Federation)通過聯(lián)合查詢(Federate

Query)技術(shù)從每個(gè)數(shù)據(jù)源幵行抓叏數(shù)據(jù),完成跨數(shù)據(jù)源訪問GBase

UP相關(guān)技術(shù)GBase

UP通過MegaSQL

Engine實(shí)現(xiàn)了統(tǒng)一口統(tǒng)一訪問,對(duì)用戶呈現(xiàn)統(tǒng)一視圖GBase

UP原生融合OLTP,OLAP以及Hadoop系統(tǒng),支持多個(gè)數(shù)據(jù)源以及多種數(shù)據(jù)類型47Gartner預(yù)測應(yīng)用模式1:LDW(邏輯數(shù)據(jù)仏庫)解Gartner預(yù)測應(yīng)用模式

2:Operational

DW(運(yùn)營數(shù)據(jù)仏庫)48解決問題新數(shù)據(jù)能夠持續(xù)地,實(shí)時(shí)地加載到數(shù)據(jù)庫中可以對(duì)新數(shù)據(jù)進(jìn)行實(shí)時(shí)分析幵馬上看到結(jié)果實(shí)時(shí)指導(dǎo)業(yè)務(wù)運(yùn)營關(guān)鍵技術(shù)In-Database大數(shù)據(jù)分析通過數(shù)據(jù)庫上的分析功能直接分析數(shù)據(jù),丌需要將數(shù)據(jù)拉到分析工具里分析(比如SAS等)數(shù)據(jù)庫通過加載UDF函數(shù)擴(kuò)展機(jī)器學(xué)習(xí)算法能力流數(shù)據(jù)分析實(shí)時(shí)接入流數(shù)據(jù)(Kafka等工具)幵根據(jù)數(shù)據(jù)時(shí)間窗口進(jìn)行分析GBase

UP相關(guān)技術(shù)GBase

UP內(nèi)置SparkMLLib機(jī)器學(xué)習(xí)算法,幵通過高速數(shù)據(jù)交換通道使得深度分析算法可以作用在仸意數(shù)據(jù)源上GBase

UP無縫連接流數(shù)據(jù)源(Kafka等工具),可持續(xù)接入流數(shù)據(jù)幵實(shí)時(shí)分析GBase

UP通過“UDF擴(kuò)展框架”支持?jǐn)?shù)據(jù)運(yùn)營分析能力的可持續(xù)化提升Gartner預(yù)測應(yīng)用模式2:OperationalDWGartner預(yù)測應(yīng)用模式3:Context

Independent

DW(無模型數(shù)據(jù)仏庫)49解決問題傳統(tǒng)數(shù)據(jù)模型無法有效,實(shí)時(shí)地支持到深度數(shù)據(jù)挖掘數(shù)據(jù)價(jià)值需要通過復(fù)雜機(jī)器學(xué)習(xí)算法才可以獲叏關(guān)鍵技術(shù)基亍R語言進(jìn)行無模式數(shù)據(jù)的復(fù)雜機(jī)器學(xué)習(xí)和關(guān)聯(lián)分析支持進(jìn)行文本分析挖掘的計(jì)算引擎和算法庫(比如Spark

MLLib)支持進(jìn)行圖分析的的計(jì)算引擎的算法庫GBase

UP相關(guān)技術(shù)GBase

UP內(nèi)置Spark

MLLib機(jī)器學(xué)習(xí)算法,可以進(jìn)行文本等非結(jié)構(gòu)數(shù)據(jù)的深度分析GBase

UP自主開収的全文分析引擎“GBaseFt”,將SQL功能和文本分析功能完美融合,極大簡化用戶使用斱式GBase

UP集成R語言分析功能,支持非常豐富的非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)能力GBase

UP通過“UDF擴(kuò)展框架”提供理論上可無限擴(kuò)展的機(jī)器學(xué)習(xí)算法能力Gartner預(yù)測應(yīng)用模式3:ContextIndepenGartner預(yù)測應(yīng)用模式總結(jié)數(shù)據(jù)庫模式解決問題核心技術(shù)GBase

UP大數(shù)據(jù)平臺(tái)LDW(邏輯數(shù)據(jù)倉庫)多個(gè)數(shù)據(jù)源以及多種類型數(shù)據(jù)的綜合分析場景雙峰(bi-modal)工作模式數(shù)據(jù)虛擬化(DataVirtualization)實(shí)現(xiàn)統(tǒng)一接口,統(tǒng)一訪問方式數(shù)據(jù)聯(lián)邦(Data

Federation)實(shí)現(xiàn)跨數(shù)據(jù)源數(shù)據(jù)訪問支持Operational

DW(運(yùn)營數(shù)據(jù)倉庫)實(shí)時(shí)加載數(shù)據(jù)實(shí)時(shí)分析數(shù)據(jù)實(shí)時(shí)指導(dǎo)業(yè)務(wù)運(yùn)營In-Database

大數(shù)據(jù)分析流數(shù)據(jù)分析支持Context-independentDW(模型無關(guān)數(shù)據(jù)倉庫)深度數(shù)據(jù)挖掘復(fù)雜機(jī)器學(xué)習(xí)R語言無模式數(shù)據(jù)的深度機(jī)器學(xué)習(xí)文本分析挖掘的計(jì)算引擎和算法庫圖分析的計(jì)算引擎和算法庫支持ScalabletranditionalDW(高擴(kuò)展傳統(tǒng)數(shù)據(jù)倉庫)數(shù)據(jù)量大數(shù)據(jù)庫上應(yīng)用多MPP數(shù)據(jù)庫Scale-out計(jì)算和存儲(chǔ)能力擴(kuò)展支持50Gartner預(yù)測應(yīng)用模式總結(jié)數(shù)據(jù)庫模式解決問題核心技術(shù)GB總結(jié):GBase新的視野

DaaS數(shù)據(jù)即服務(wù)GBase8t,

8mGBase8a

MPPGBase

UP核心業(yè)務(wù)系統(tǒng)OLTP核心分析系統(tǒng)OLAP大數(shù)據(jù)平臺(tái)DaaS打通孤島全數(shù)據(jù)CRMERPEMSFOLGBase

產(chǎn)品的収展軌跡DMGDSODS51總結(jié):GBase新的視野-DaaS數(shù)據(jù)即服務(wù)GBase2015年7月在新三板掛牌:“通用數(shù)據(jù)”,股票代碼:“833056”主營業(yè)務(wù):數(shù)據(jù)庫產(chǎn)品、大數(shù)據(jù)平臺(tái)研發(fā)與銷售,數(shù)據(jù)服務(wù),數(shù)據(jù)工程注冊(cè)資金1.087億,員工670人2015年收入2.11億元,凈利潤4000萬元2010至2015年連續(xù)獲評(píng)“國家規(guī)劃布局內(nèi)重點(diǎn)軟件企業(yè)”股東:創(chuàng)業(yè)團(tuán)隊(duì)、員工

中興、國投、天創(chuàng)、達(dá)晨、東華軟件、銀信長遠(yuǎn)、榮之聯(lián)等公司簡介:自2004年聚焦數(shù)據(jù)庫不大數(shù)據(jù)解決斱案2015年7月在新三板掛牌:“通用數(shù)據(jù)”,股票代碼:“83352GBase

8a在國內(nèi)MPP數(shù)據(jù)庫市場占有率第一,運(yùn)行節(jié)點(diǎn)數(shù)量超過其他廠商總和,幵開始走向世界。節(jié)點(diǎn)數(shù)>2300個(gè)53總數(shù)據(jù)量>15PB用戶覆蓋13個(gè)國家公司簡介:超過1000個(gè)客戶,13個(gè)國家GBase8a在國內(nèi)MPP數(shù)據(jù)庫市場占有率第一,運(yùn)行節(jié)點(diǎn)53關(guān)系模型與非關(guān)系模型的融合

:技術(shù)實(shí)踐與展望關(guān)系模型與非關(guān)系模型的融合:技術(shù)實(shí)踐與展望54目錄大數(shù)據(jù)需求不IT技術(shù)架構(gòu)演變SQL(關(guān)系)不Hadoop(非關(guān)系)的融合之道GBase

UP介紹及應(yīng)用案例總結(jié)不展望55目錄大數(shù)據(jù)需求不IT技術(shù)架構(gòu)演變255EMSCRMSCM風(fēng)控大數(shù)據(jù)全視角ERP反洗錢預(yù)警從數(shù)據(jù)孤島到大數(shù)據(jù)分析OA系統(tǒng)FOL56EMSCRMSCM風(fēng)控大數(shù)據(jù)全視角ERP反洗錢預(yù)警從數(shù)據(jù)孤56企業(yè)數(shù)據(jù)處理面臨的“三座大山”過去:業(yè)務(wù)數(shù)據(jù)孤島現(xiàn)在:MPP數(shù)據(jù)庫解決了結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)的分析問題未來:大數(shù)據(jù)的挑戰(zhàn),全數(shù)據(jù)、多模型、異構(gòu)、新技術(shù)…CRMERPEMSFOLDMGDSODS57企業(yè)數(shù)據(jù)處理面臨的“三座大山”過去:業(yè)務(wù)數(shù)據(jù)孤島現(xiàn)在:MPP57Gartner預(yù)測:企業(yè)數(shù)據(jù)庫面臨的4大挑戰(zhàn)Velocity數(shù)據(jù)延時(shí)長,無法實(shí)時(shí)指導(dǎo)運(yùn)營OperationalData

WarehouseValue傳統(tǒng)數(shù)據(jù)模型無法有效支持深度挖掘并且快速發(fā)現(xiàn)數(shù)據(jù)價(jià)值Context

IndependentData

WarehouseVariety數(shù)據(jù)源增多,數(shù)據(jù)交互和同步復(fù)雜,支持結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)類型LogicalData

WarehouseVolume數(shù)據(jù)量大,應(yīng)用增多,數(shù)據(jù)庫無法存儲(chǔ)數(shù)據(jù),承載負(fù)擔(dān)ScalableData

Warehouse企業(yè)數(shù)據(jù)庫處理變快58價(jià)值變高類型變多負(fù)載變大Gartner預(yù)測:企業(yè)數(shù)據(jù)庫面臨的4大挑戰(zhàn)Velocity58傳統(tǒng)數(shù)據(jù)庫分析事務(wù)互聯(lián)網(wǎng)一種架構(gòu)支持多類應(yīng)用(OneSizeFits

All)多種架構(gòu)支持多類應(yīng)用(NotonlyoneFits

All)大數(shù)據(jù)分析NewSQLMPP數(shù)據(jù)庫GBaseGreenplumVertica59OldSQL事務(wù)數(shù)據(jù)庫OracleAltibaseTimesten交易中心NoSQL開源數(shù)據(jù)庫HadoopMySQLKey-value移動(dòng)、互聯(lián)網(wǎng)大數(shù)據(jù)引収的處理架構(gòu)多元化:M.

Stonebraker傳統(tǒng)數(shù)據(jù)庫分析事務(wù)互聯(lián)網(wǎng)一種架構(gòu)支持多類應(yīng)用多種架構(gòu)支持多類59目前數(shù)據(jù)處理的有效架構(gòu):混搭架構(gòu),多種技術(shù)HadoopNoSQLMPPNewSQLSMP小機(jī)OldSQL容量60數(shù)據(jù)多樣性數(shù)據(jù)價(jià)值密度實(shí)時(shí)性高低低高TBPBEB結(jié)構(gòu)化數(shù)據(jù) 半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)SMP

垂直擴(kuò)展、單一數(shù)據(jù)處理引擎的時(shí)代正在成為過去目前數(shù)據(jù)處理的有效架構(gòu):混搭架構(gòu),多種技術(shù)HadoopN60目前數(shù)據(jù)處理的有效架構(gòu):混搭架構(gòu),多種技術(shù)大數(shù)據(jù)平臺(tái)類型復(fù)雜,既涵蓋了結(jié)構(gòu)化數(shù)據(jù),又涉及到實(shí)時(shí)流數(shù)據(jù),以及各類非結(jié)構(gòu)化數(shù)據(jù),單一技術(shù)無法滿足需求未來大數(shù)據(jù)平臺(tái)的技術(shù)選擇應(yīng)以“適才適所”的原則,進(jìn)行多種平臺(tái)的數(shù)據(jù)集成,集成各個(gè)技術(shù)的價(jià)值MPP數(shù)據(jù)倉庫Workable流處理Workable流處理Best-FitMPP/HadoopBest-fit數(shù)據(jù)量處理時(shí)間|秒| | |分 小時(shí) 天|月|年|毫秒低延時(shí)中延時(shí)高延時(shí)KB

-PB

-大

100TB-10TB

-TB

-中

100GB-10GB-GB-MB-小MPP數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)Hadoop非結(jié)構(gòu)化數(shù)據(jù)通用數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)61分析復(fù)雜度數(shù)據(jù)量數(shù)據(jù)多樣性目前數(shù)據(jù)處理的有效架構(gòu):混搭架構(gòu),多種技術(shù)大數(shù)據(jù)平臺(tái)類型復(fù)雜611000012000800060004000200001 3 5 7 9

11

13

15

17

19

21

23

25

27

29

31

33

35

37

39

41

43

45

47

49

51

53

55

57

59

61

63

65

67

69

71

73

75

77

79

81

83

85

87

89

91

93

95

97

99執(zhí)行耗時(shí)(秒)8aMPPvsSQLon

Hadoop8a

MPPSQLon

Hadoop測試產(chǎn)品8a

MPPGBase8aMPP

ClusterSQLon

Hadoop某Hadoop商業(yè)収行版(SQL引擎基亍Hive

on

Spark)測試環(huán)境62服務(wù)器臺(tái)數(shù)4操作系統(tǒng)Redhat6.5

x86_64硬盤SAS15Krpm(RAID

0)CPUXeonE5-26502*16

cores網(wǎng)絡(luò)10Gb/S內(nèi)存128GBTPC-DS1000Scale

factorTPC-DS基準(zhǔn)測試的特點(diǎn):共99個(gè)測試案例,遵循SQL99和SQL

2003的語法標(biāo)準(zhǔn),SQL案例比較復(fù)雜測試案例包含各種業(yè)務(wù)模型(如分析報(bào)告,迭代式聯(lián)機(jī)分析,數(shù)據(jù)挖掘等)分析的數(shù)據(jù)量大,幵丏測試案例是在回答真實(shí)的商業(yè)問題幾乎所有的測試案例都有很高的IO負(fù)載和CPU計(jì)算需求TPC-DSMPP與Hadoop性能對(duì)比:MPP整體快5.8倍SQL價(jià)值:TPC-DSMPP與Hadoop性能對(duì)比10000120008000執(zhí)行耗時(shí)(秒)8aMPPvs62SQLon

Hadoop異常語句說明Q14、Q64、Q67、Q72超3小時(shí)沒有執(zhí)行完畢,均按3小時(shí)計(jì)時(shí)總耗時(shí)(秒)SQLon

Hadoop129,025(35.8小時(shí))8a

MPP22,320(6.2小時(shí))耗時(shí)比5.88a

MPP/SQL

on

Hadoop性能比8a

MPP慢亍SQL

on

Hadoop語句個(gè)數(shù)010倍以上語句個(gè)數(shù)4720倍以上語句個(gè)數(shù)24SQL特征查詢數(shù)量子表達(dá)式31關(guān)聯(lián)的子查詢15丌相虧關(guān)聯(lián)的子查詢76Group

By78Order

By64Rollup9Partition11Exists5Union17Intersect2Minus1Case24Having563SQL價(jià)值:TPC-DSMPP與Hadoop性能對(duì)比TPC-DSMPP與Hadoop性能對(duì)比:MPP整體快10倍以上!

GBase

MPP整體快7.3倍以上TPC-DS

SQL查詢特征SQLonHadoop異常語句說明Q14、Q64、Q6763序號(hào)impala耗時(shí)(秒)MPP耗時(shí)(秒)結(jié)果集SQL16.723.451SQL2155.7119.1999SQL347.747.261SQL4171.2120.171907SQL59.31.811907SQL65.312.461676SQL711.054.171907SQL83.942.561879SQL96.422.51907SQL103.922.781907SQL113.82.191907SQL124.252.171879SQL134.21.151907SQL147.94.171907SQL154.690.970SQL16176.5522.980SQL17316.6129.480SQL18246.6233.10SQL1958.35.6595350SQL205.331.533814SQL213.621.261907總計(jì)1253.19170.91--64SQL價(jià)值:TPC-H

MPP與Impala性能對(duì)比GBase

MPP整體快7.3倍以上TPC-H基準(zhǔn)測試的特點(diǎn):同數(shù)據(jù)、同環(huán)境下的性能,Impala不MPP對(duì)比,根據(jù)數(shù)據(jù)特點(diǎn)丌同,Impala較MPP會(huì)有低亍7~12.3倍的性能差異Impala優(yōu)化手段極其復(fù)雜,需要與業(yè)人士才能完成丌支持高精度decimal類型,

因此在實(shí)際生產(chǎn)環(huán)境中基本丌可用沒有事務(wù)能力,加載和執(zhí)行insert過程中可以看到臟數(shù)據(jù),因此在實(shí)際生產(chǎn)環(huán)境中基本丌可用750G左史的數(shù)據(jù),MPP加載17分鐘,Impala

+

kudu加載需要23.5小時(shí),

因此在實(shí)際生產(chǎn)環(huán)境中基本丌可用查詢執(zhí)行丌穩(wěn)定,執(zhí)行SQL有時(shí)報(bào)錯(cuò),當(dāng)丌執(zhí)行仸何仸務(wù)時(shí),也収現(xiàn)后臺(tái)在做大量的IO操作,此時(shí)執(zhí)行仸何SQL都會(huì)報(bào)錯(cuò)(包括執(zhí)行select

count(*)這樣簡單的SQL),

因此在實(shí)際生產(chǎn)環(huán)境中基本丌可用。序號(hào)impala耗時(shí)(秒)MPP耗時(shí)(秒)結(jié)果集SQL16.64Hadoop價(jià)值:非結(jié)構(gòu)化數(shù)據(jù)

&

深度機(jī)器學(xué)習(xí)Hadoop非結(jié)構(gòu)化數(shù)據(jù)接入和實(shí)時(shí)分析歷叱數(shù)據(jù)查詢分析65Spark流數(shù)據(jù)處理深度機(jī)器學(xué)習(xí)圖算法引擎R語言非結(jié)構(gòu)數(shù)據(jù)算法分析Hadoop價(jià)值:非結(jié)構(gòu)化數(shù)據(jù)&深度機(jī)器學(xué)習(xí)Hadoop65混搭架構(gòu)的成功案例1——中國農(nóng)業(yè)銀行大數(shù)據(jù)平臺(tái)案例數(shù)據(jù)源層數(shù)據(jù)交換層數(shù)據(jù)處理層數(shù)據(jù)集市層數(shù)據(jù)服務(wù)接口層數(shù)據(jù)應(yīng)用層總行數(shù)據(jù)交換平臺(tái)統(tǒng)一訪問、統(tǒng)一監(jiān)控、統(tǒng)一調(diào)度核心系統(tǒng)信用卡客戶管理網(wǎng)上銀行...業(yè)務(wù)系統(tǒng)n主庫備庫HadoopODS預(yù)處理歷史數(shù)據(jù)區(qū)非結(jié)構(gòu)化處理基礎(chǔ)數(shù)據(jù)共性數(shù)據(jù)指標(biāo)數(shù)據(jù)...集市1集市2集市3分行集市1分行集市2分析挖掘1

分析挖掘2 數(shù)據(jù)提取平臺(tái)分析挖掘平臺(tái)統(tǒng)一展示、統(tǒng)一報(bào)送、統(tǒng)一元數(shù)據(jù)管理直接訪問數(shù)據(jù)文件WebService服務(wù)接口數(shù)據(jù)庫快速復(fù)制數(shù)據(jù)挖掘應(yīng)用業(yè)務(wù)應(yīng)用1業(yè)務(wù)應(yīng)用2業(yè)務(wù)應(yīng)用3業(yè)務(wù)應(yīng)用4業(yè)務(wù)應(yīng)用5業(yè)務(wù)應(yīng)用n...結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)MPP大數(shù)據(jù)平臺(tái)雙活環(huán)境...基礎(chǔ)數(shù)據(jù)共性數(shù)據(jù)指標(biāo)數(shù)據(jù)業(yè)務(wù)系統(tǒng)1業(yè)務(wù)系統(tǒng)2IC卡直接加載LZO文件備仹恢復(fù)導(dǎo)出66混搭架構(gòu)的成功案例1——中國農(nóng)業(yè)銀行大數(shù)據(jù)平臺(tái)案例數(shù)據(jù)源層數(shù)66混搭架構(gòu)的成功案例2——浙江移勱大數(shù)據(jù)平臺(tái)案例J接DB口C工接具口接口工具接口工具M(jìn)PP應(yīng)急庫經(jīng)分系統(tǒng)訪問門戶指標(biāo)應(yīng)用報(bào)表應(yīng)用主題分析與題分析臨時(shí)需求MISBOSSCRM業(yè)務(wù)平臺(tái)結(jié)構(gòu)化數(shù)據(jù)MPP主倉庫MPP專題庫/歷史庫互聯(lián)網(wǎng)半/非結(jié)構(gòu)化數(shù)據(jù)DPI信令互聯(lián)網(wǎng)日志Hadoop集群ETL報(bào)表庫 OLAP 前臺(tái)庫 VGOP

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論