大數(shù)據(jù)技術(shù)如何應(yīng)用于傳統(tǒng)信息系統(tǒng)課件_第1頁(yè)
大數(shù)據(jù)技術(shù)如何應(yīng)用于傳統(tǒng)信息系統(tǒng)課件_第2頁(yè)
大數(shù)據(jù)技術(shù)如何應(yīng)用于傳統(tǒng)信息系統(tǒng)課件_第3頁(yè)
大數(shù)據(jù)技術(shù)如何應(yīng)用于傳統(tǒng)信息系統(tǒng)課件_第4頁(yè)
大數(shù)據(jù)技術(shù)如何應(yīng)用于傳統(tǒng)信息系統(tǒng)課件_第5頁(yè)
已閱讀5頁(yè),還剩85頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)技術(shù)如何應(yīng)用亍傳統(tǒng)信息系統(tǒng)大數(shù)據(jù)技術(shù)如何應(yīng)用亍1提綱大數(shù)據(jù)技術(shù)研究背景和問(wèn)題開源軟件Apache

Hadoop大數(shù)據(jù)處理系統(tǒng)關(guān)鍵技術(shù)大數(shù)據(jù)技術(shù)從互聯(lián)網(wǎng)走向傳統(tǒng)應(yīng)用提綱大數(shù)據(jù)技術(shù)研究背景和問(wèn)題開源軟件ApacheHadoo2背景:大規(guī)模數(shù)據(jù)計(jì)算

通信、網(wǎng)絡(luò)、存儲(chǔ)、傳感器等電子信息技術(shù)飛速發(fā)展導(dǎo)致數(shù)據(jù)規(guī)模極大增加–

Big

Data

傳統(tǒng)的存儲(chǔ)并處理這些數(shù)據(jù)的技術(shù)手段遇到瓶頸SearchEngineDataWarehousingLog

Processing/UserBehavior

AnalyzingProcessing

100TB

datasetsOnline/Realtime/StreamingDataAnalysis數(shù)據(jù)為王One

nodeScanning@50MB/s

=

35,000

min1000

nodeScanning@50MB/s=35

min背景:大規(guī)模數(shù)據(jù)計(jì)算通信、網(wǎng)絡(luò)、存儲(chǔ)、傳感器等電子信息技3背景–大數(shù)據(jù)的大問(wèn)題2020年:數(shù)據(jù)量將達(dá)到35ZB,較2009年增大44倍來(lái)源:IDC

DigitalUniverse

Study,

May20102020年:60%以上的創(chuàng)造數(shù)據(jù)將因無(wú)法存儲(chǔ)而丟失。? Facebook用戶每天上傳3億張照片,超過(guò)500TB的數(shù)據(jù)增長(zhǎng)量,100PB單集群存儲(chǔ)容量? Google索引的在線數(shù)據(jù)2002年是5EB,到2009年增長(zhǎng)到280EB? 淘寶網(wǎng)注冊(cè)用戶達(dá)到3.7億,在線商品數(shù)達(dá)到9億,14PB海量數(shù)據(jù)存儲(chǔ)數(shù)據(jù)爆炸對(duì)數(shù)據(jù)存儲(chǔ)不

處理效能提出了挑戰(zhàn)!背景–大數(shù)據(jù)的大問(wèn)題2020年:2020年:? Face4背景–大數(shù)據(jù)的大問(wèn)題2020年:數(shù)據(jù)量將達(dá)到35ZB,較2009年增大44倍來(lái)源:IDC

DigitalUniverse

Study,

May20102020年:60%以上的創(chuàng)造數(shù)據(jù)將因無(wú)法存儲(chǔ)而丟失。? Facebook用戶每天上傳3億張照片,超過(guò)500TB的數(shù)據(jù)增長(zhǎng)量,100PB單集群存儲(chǔ)容量? Google索引的在線數(shù)據(jù)2002年是5EB,到2009年增長(zhǎng)到280EB? 淘寶網(wǎng)注冊(cè)用戶達(dá)到3.7億,在線商品數(shù)達(dá)到9億,14PB海量數(shù)據(jù)存儲(chǔ)數(shù)據(jù)爆炸對(duì)數(shù)據(jù)存儲(chǔ)不

處理效能提出了挑戰(zhàn)!?

高速發(fā)展的數(shù)據(jù)型互聯(lián)網(wǎng)企業(yè)需要連續(xù)的系統(tǒng)擴(kuò)展能力數(shù)據(jù)快速增長(zhǎng)不數(shù)據(jù)中心擴(kuò)容周期緩慢的矛盾?

如何維持低成本曲線和高性能曲線是現(xiàn)實(shí)問(wèn)題數(shù)據(jù)業(yè)務(wù)深度的丌斷加強(qiáng)和數(shù)據(jù)處理性能現(xiàn)狀的矛盾背景–大數(shù)據(jù)的大問(wèn)題2020年:2020年:? Face5背景:解決大數(shù)據(jù)問(wèn)題的思路背景:解決大數(shù)據(jù)問(wèn)題的思路6背景:解決大數(shù)據(jù)問(wèn)題的思路海量數(shù)據(jù)存儲(chǔ)海量數(shù)據(jù)計(jì)算背景:解決大數(shù)據(jù)問(wèn)題的思路海量數(shù)據(jù)存儲(chǔ)海量數(shù)據(jù)計(jì)算7提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件Apache

Hadoop大數(shù)據(jù)處理系統(tǒng)關(guān)鍵技術(shù)大數(shù)據(jù)技術(shù)從互聯(lián)網(wǎng)走向傳統(tǒng)應(yīng)用提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件ApacheHadoop8HadoopApache

Nutch,

2002NDFS

+MapReduce,

2004Hadoop,

2006Apache

Hadoop,

2008http://hadoop.ap/Book:/catalog/9780596521998/index.htmll/catalog/9780596521998/index.htmlClone

of

Google’s

GFS

and

Written

in

JavaMapReduce ? Does

work

with

other

languagesCan

processlarge

scale

Web

pages

RunsonLinux,

Windows

andmoreCommodity

hardware

with

highfailure

rateDoug

Cutting,Apache軟件基金會(huì)主席HadoopApacheNutch,2002http:9Hadoop

isthemost

successful

open

sourcesoftwareafter

Linux.Hadoop

組成部分Hadoopisthemostsuccessful10Hadoop

isthemost

successful

open

sourcesoftwareafter

Linux.MapReduceHDFSHBaseHiveHadoop

組成部分Hadoopisthemostsuccessful11HDFSftwareafter

Linux.apReducemost

successful

open

sourcesoMHBaseHiveHadoop

istheHadoop

組成部分HDFSftwareafterLinux.mostsu12Hadoop

HDFS體系結(jié)構(gòu)規(guī)模:10Knodes,

100

million

files,

10

PB特性:適合數(shù)據(jù)批處理;最大化吞吐率;允許計(jì)算向數(shù)據(jù)遷移優(yōu)化:數(shù)據(jù)塊副本、數(shù)據(jù)塊放置策略、緩存策略等Sanjay

Ghemawat,

et.

al.,

The

Google

File

System,

SOSP’03HadoopHDFS體系結(jié)構(gòu)規(guī)模:10Knodes,113HadoopMapReduce處理流程Dean

&

Ghemawat:

“MapReduce:

Simplified

DataProcessing

on

Large

Clusters”,

OSDI

2004HadoopMapReduce處理流程Dean&Ghe14提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件Apache

Hadoop大數(shù)據(jù)處理系統(tǒng)關(guān)鍵技術(shù)大數(shù)據(jù)技術(shù)從互聯(lián)網(wǎng)走向傳統(tǒng)應(yīng)用提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件ApacheHadoop15Joblaun1ch

6關(guān)系數(shù)據(jù)按行序運(yùn)行時(shí)重建

16原始關(guān)系表列式存儲(chǔ)結(jié)構(gòu)(Apache

Pig,Zebra)行列混合式存儲(chǔ)結(jié)構(gòu)(RCFile)JobScheduleTaskLaunch……TaskLaunchTaskLaunchRowConstructionRowConstructionRowConstructionReadDatafromDistributedFileSystemSubsequentProcessingSubsequentProcessingSubsequentProcessingRowReconstructionParallelTasks……

RCFile將關(guān)系數(shù)據(jù)水平分塊,塊內(nèi)按列序存儲(chǔ),實(shí)現(xiàn)文件級(jí)邏輯結(jié)構(gòu)優(yōu)化行式存儲(chǔ)結(jié)構(gòu)(Apache

Hive,SequenceFile)行列混合式數(shù)據(jù)存儲(chǔ)技術(shù)RCFileJoblaun1ch6關(guān)系數(shù)據(jù)按行序運(yùn)行時(shí)重建1616大數(shù)據(jù)技術(shù)如何應(yīng)用于傳統(tǒng)信息系統(tǒng)課件1718互補(bǔ)式聚簇索引技術(shù)CCIndex

CCIndex利用冗余的副本數(shù)據(jù)塊為多數(shù)據(jù)列構(gòu)建聚簇索引,不增加額外存儲(chǔ)空間,實(shí)現(xiàn)數(shù)據(jù)塊級(jí)布局結(jié)構(gòu)優(yōu)化以及分布式實(shí)時(shí)查詢統(tǒng)計(jì)能力CCIndex保持了BigTable數(shù)據(jù)模型高可擴(kuò)展和高吞吐率特性,同時(shí)具有關(guān)系數(shù)據(jù)模型的查詢統(tǒng)計(jì)能力CCIndex將二級(jí)索引變?yōu)橐患?jí)索引,丌訪問(wèn)原表直接進(jìn)行區(qū)間查詢和統(tǒng)計(jì)以CCIndex為核心的系統(tǒng)支持多維區(qū)間實(shí)時(shí)查詢統(tǒng)計(jì)示例:select

count(cl1)

from

TAB

where

cl1<A

and

cl2>B18互補(bǔ)式聚簇索引技術(shù)CCIndex CCIndex利用冗18Ir 亙補(bǔ)式m古古古工?? CClndex

利用冗余的副本數(shù)據(jù)塊為多數(shù)據(jù)列構(gòu)建聚簇索引,不增加額外存儲(chǔ)空間,實(shí)現(xiàn)數(shù)據(jù)塊級(jí)布局結(jié)構(gòu)優(yōu)化以及分布式實(shí)時(shí)查詢統(tǒng)計(jì)能力’UWM礫gaa-元噎領(lǐng)性”2··.'a"畸"帆,t吃草’酌』"?暴阻。.,

邸,1

111民

Id·I飛I

o,〔Cnd創(chuàng)盼到gTible措

1前擴(kuò)前四二辛苦主,

同ti\

主關(guān)系據(jù)膽frj

鼓II自動(dòng)押回

翩然

回f:::

i圓圓I/:,iJ

;:I

At

創(chuàng)

u:I.!解決7海量數(shù)據(jù)實(shí)時(shí)分析計(jì)期快性問(wèn)題1/W電d(.

制:,

:1

.."T!'嚀"..

;刷

)-?

'h'I

f

.I

伊·麗E嚼訕

=t

豆豆:歸路以(創(chuàng)喇圳j

支持施i司主l\fi袋lt一一一一一’Cl!nde精衛(wèi)生51

*袁世

,+E脅撞擊呂能|司

腦lt詞。由i〔ornt(cll)from

TMwheecll<A

and

d;>B缸囂

陽(yáng)回國(guó)、問(wèn)陽(yáng),,,.,回.、白啊..U國(guó):立|

白宮J囂瞿...曲陰

陽(yáng)mmm刷刷。擬

您叫陽(yáng)剛剛放9陸“禽""'

"'缸捐Md

S..陽(yáng)曬

Scan

...脅Scan陸Ml-dim刷sior四陽(yáng)叫l(wèi)'臼捕魚??ThfOUJh膽"My舍

ιC陽(yáng)....(301A)

=崎s。Clu>I

(四叫

=MyS。也Cluser(7

”A)

…C旬以...(00叫

c=:i優(yōu)lndex(70峭

=cc河內(nèi)de<

陽(yáng)攏’>

=街

dO舊γ陽(yáng)臼""'19查詢性能是常用

二圾索引技術(shù)的

10倍以上t

MySQL

Cl

uster

內(nèi)存數(shù)據(jù)庫(kù)的多維

區(qū)間查詢性能快1倍Ir 亙補(bǔ)式m古古古工?? CClndex利用冗余的副本數(shù)19RCFile技術(shù)性能優(yōu)勢(shì)和應(yīng)用情況?Compared

with

SequenceFile,

which

wasthe

default

row

store

technology

in

Apache

Hive,

RCFile

can

achieve

up

to

20%

space

savings

without

affectingquery

performance.?Compared

with

column

group

technologyused

in

Apache

Pig,

which

is

another

bigdata

analysis

system,

RCFile’s

dataloading

is

23%

faster

as

far

as

the

diskspace

utilization

ratio

is

almost

equal.?Obviously,

RCFilehas become

the

defacto

standard

of

data

storage

structureinside

distributed

offline

data

analysissystems

such

as

ApacheHive.RCFile技術(shù)性能優(yōu)勢(shì)和應(yīng)用情況?Comparedwit20CCIndex技術(shù)性能優(yōu)勢(shì)和應(yīng)用情況采用CCIndex后,在硬件規(guī)模保持丌變的前提下,系統(tǒng)處理的數(shù)據(jù)時(shí)效范圍從原來(lái)的7天增大到3個(gè)月,處理的數(shù)據(jù)規(guī)模增大了一個(gè)數(shù)量級(jí),系統(tǒng)吞吐率增大了7倍,對(duì)原來(lái)延遲大于1s的查詢請(qǐng)求響應(yīng)時(shí)間平均降低了57.4%。CCIndex技術(shù)可以解決諸如HBase等當(dāng)前主流的列簇式NoSQL數(shù)據(jù)庫(kù)在多列查詢上的功能缺失和性能低下的問(wèn)題。CCIndex技術(shù)性能優(yōu)勢(shì)和應(yīng)用情況采用CCIndex后,在21技術(shù)指標(biāo)本項(xiàng)目國(guó)際領(lǐng)先系統(tǒng)數(shù)據(jù)存儲(chǔ)空間占用RCFile比行存儲(chǔ)節(jié)省約20%空間Apache

Hive(SequenceFile)數(shù)據(jù)加載性能RCFile比列存儲(chǔ)加載快23%以上Apache

Pig(Zebra)在線查詢分析性能CCIndex是二級(jí)索引技術(shù)的11.4倍Apache

HBase(IndexTable)不國(guó)外同類技術(shù)比較技術(shù)指標(biāo)本項(xiàng)目國(guó)際領(lǐng)先系統(tǒng)數(shù)據(jù)存儲(chǔ)空間占用RCFile比行存22技術(shù)指標(biāo)本項(xiàng)目國(guó)際領(lǐng)先系統(tǒng)數(shù)據(jù)存儲(chǔ)空間占用RCFile比行存儲(chǔ)節(jié)省約20%空間Apache

Hive(SequenceFile)數(shù)據(jù)加載性能RCFile比列存儲(chǔ)加載快23%以上Apache

Pig(Zebra)在線查詢分析性能CCIndex是二級(jí)索引技術(shù)的11.4倍Apache

HBase(IndexTable)實(shí)現(xiàn)PB級(jí)數(shù)據(jù)離線分析處理和百億記錄級(jí)數(shù)據(jù)實(shí)時(shí)查詢分析,成為國(guó)際事實(shí)標(biāo)準(zhǔn)不國(guó)外同類技術(shù)比較技術(shù)指標(biāo)本項(xiàng)目國(guó)際領(lǐng)先系統(tǒng)數(shù)據(jù)存儲(chǔ)空間占用RCFile比行存2324

自勱將文件分割成多個(gè)固定大小的數(shù)據(jù)塊,每個(gè)數(shù)據(jù)塊單獨(dú)壓縮

每一個(gè)文件由一個(gè)壓縮文件和索引文件構(gòu)成可應(yīng)用于Hadoop平臺(tái)上的文件系統(tǒng)在不影響其它文件系統(tǒng)的情況下,以動(dòng)態(tài)、透明的方式給文件系統(tǒng)添加壓縮功能用戶透明的HDFS數(shù)據(jù)壓縮解壓縮-SwiftFS24自勱將文件分割成多個(gè)固定大小的數(shù)據(jù)塊,每個(gè)數(shù)據(jù)塊24丌同壓縮解壓縮算法的性能對(duì)比客戶端數(shù)寫吞吐率(MB/s)Vs.最高Vs.最低nonehdw

acsnappyquicklzzlibSwiftFS19813714475461610%250%297267227144872477%184%4983133222631583260%106%8973263354022994510%51%16973123304014454750%52%32953123174045115620%80%64953063143755185830%91%128902592963325475890%127%256942232523025005830%161%丌同壓縮解壓縮算法的性能對(duì)比客戶端數(shù)寫吞吐率(MB/s)Vs25提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件Apache

Hadoop大數(shù)據(jù)管理系統(tǒng)關(guān)鍵技術(shù)大數(shù)據(jù)技術(shù)從互聯(lián)網(wǎng)走向傳統(tǒng)應(yīng)用提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件ApacheHadoop26淘寶數(shù)據(jù)魔方應(yīng)用淘寶數(shù)據(jù)魔方應(yīng)用27回國(guó)陽(yáng)西

叫川HBase:Data

Storage,

Data

Aggregati

onRegion

Se「ver,Data

Storage

lndex+CataData

AggregationRegion

Se『ver

,Data

Stcrace

Index+DataData

AggregationR?gion

Server,D丑ta

Storage

lndex+CataD:tta

Agg「egation噩噩Aggregation

ResultQuery吐酬,袖人左”仿

制幢你衍’常嗖鍵矗

.l"l;.J’”

π”扣”?

1'.U價(jià).

而.(11'1?6司

”‘,,吃

.’.吃

’V

.1.e.11哺盹刷

刷棍’且

,酬,··鳴””·”

號(hào)J

Boss

Server:Data

Aggregati

onRedis:

ResultCachet單牟血lil.. ,,’‘0 '嶺"

先Z@

’”警衍3

.a(chǎn)

主」

〉‘’··502

4

""

,1'甜地

喝!2調(diào)υ

,??.u、開缸,E電

‘·,、

衍’S陽(yáng)'-O'

l"、

部比揭飛a

in、t\1'(+匯”F

幡函,織割

?!痶J:'lf

-:J:llU’“笨”貌..?!?,.’,a靈”m..,:...酬,寡""嗡釗,

擒獲’略決符,

民俗,”份’”份銷

”:>)1411'<1'·黛司院

幣"""

咎由警怠戴氯咱’且.'I"?a’宅’

”’巳氣,,ι回夜竅,電

陽(yáng)酬···H丁TP

Request“叫掬§ 戶、\副產(chǎn)”

(回國(guó)It::mi;;a:\-‘i:·.-?,

..每曲’”-翁翩翩Front

End酬’陽(yáng)

旦百公且咀&?

?1,'1!1,;'0t1”姐姐?!泵靼傺驭?/p>

”"恨恨玄;;;:晤’‘·“盟”...,側(cè)

lll;ut.'

lltll事””tt

‘民弱,.

?

fit:回國(guó)陽(yáng)西叫川HBase:DataStorage,Da28令基于全網(wǎng)父易記錄的數(shù)據(jù)可視化工具/服務(wù)

令掌握商品交易情況〈·洞察行業(yè)熱點(diǎn)及商機(jī)回H:丁

4二m

緩」:;霄

忑二?.”叫叫令30萬(wàn)付費(fèi)用戶乙

:苦 奮(\

出/

\/飛\,

I叩二二二王

令6TB數(shù)據(jù)/100億條記錄數(shù)據(jù)實(shí)

時(shí)統(tǒng)計(jì)查詢噩噩盟叫,..礎(chǔ) 帽拿給忻國(guó)酣四寬?。俊薄痬'"'"''·-

a』·一

立’

…←

回她站脯’能桐’.,』『』←”氫統(tǒng)篇?!憋L(fēng)”·il:明嗎俐.,..

·加州時(shí)吳剛以??<l蟲””...?

..'"""

敬酒軍墨

一一~令基于全網(wǎng)父易記錄的數(shù)據(jù)可視化工具/服務(wù)令掌握商品交易情況29淘寶數(shù)據(jù)魔方

全屬性實(shí)時(shí)計(jì)算數(shù)據(jù)裝載云梯HBaseHBaseHBase……全網(wǎng)交易數(shù)據(jù)張軒丞(朋春),淘寶海量數(shù)據(jù)產(chǎn)品的技術(shù)架構(gòu),iDataForum2011淘寶數(shù)據(jù)魔方–全屬性實(shí)時(shí)計(jì)算數(shù)據(jù)裝載云梯HBaseHBa30淘寶數(shù)據(jù)魔方

全屬性實(shí)時(shí)計(jì)算數(shù)據(jù)裝載云梯HBaseHBase……交易1(二進(jìn)制,定長(zhǎng))HBase交易2索引:交易id列表屬性對(duì)全網(wǎng)交易數(shù)據(jù)數(shù)據(jù)查詢張軒丞(朋春),淘寶海量數(shù)據(jù)產(chǎn)品的技術(shù)架構(gòu),iDataForum2011節(jié)點(diǎn)1 1,

2,

4,9節(jié)點(diǎn)2 1,4,7查索引求交集節(jié)點(diǎn)2

1,

4本地SUM運(yùn)算(HBase擴(kuò)展)匯總計(jì)算寫入緩存求SUM(alipay)屬性屬性值筆記本尺寸13寸筆記本定位商務(wù)定位淘寶數(shù)據(jù)魔方–全屬性實(shí)時(shí)計(jì)算數(shù)據(jù)裝載云梯HBaseHBa31

取原系統(tǒng)查詢?nèi)罩荆?0天),所有查詢按原系統(tǒng)的響應(yīng)時(shí)間分為三類統(tǒng)計(jì)平均響應(yīng)時(shí)間;

測(cè)試前清空cache;

測(cè)試時(shí)新庫(kù)中有25天數(shù)據(jù),200G左右;

可查詢時(shí)間從7天拓展到至少30天。采用CCIndex后新舊系統(tǒng)性能對(duì)比取原系統(tǒng)查詢?nèi)罩荆?0天),所有查詢按原系統(tǒng)的響采用CC32分析系統(tǒng)后臺(tái)支持全表統(tǒng)計(jì)服務(wù)端統(tǒng)計(jì)速度

15~50W R/S/Server

or400W

R/S/Server。支持sum、avg、count、group

by、sortselect算子(F:C)

where

條件

group

by(F:C),

sortby(F:C)查詢。條件

[F:C>|<(rang)]and|or[F:C>|<(rang)]分析系統(tǒng)后臺(tái)支持全表統(tǒng)計(jì)33銀行:冠字號(hào)查詢測(cè)試結(jié)論:在并發(fā)200的情況下,依然能夠提供秒級(jí)的數(shù)據(jù)訪問(wèn)效率,可以預(yù)見完全能夠滿足冠字信息查詢的性能需求。數(shù)據(jù)規(guī)則按照冠字信息數(shù)據(jù)模擬測(cè)試記錄數(shù)81億測(cè)試文件大小610G導(dǎo)入后大小2.4T索引后大小4.7T測(cè)試并發(fā)數(shù)200查詢模式單項(xiàng)查詢、組合查詢測(cè)試環(huán)境IP配置02*Intel

Xeon

E5-2650

8核/2.00GHZ

64GB內(nèi)存

52TB12*Intel

Xeon

E5-2650

8核/2.00GHZ

64GB內(nèi)存

52TB22*Intel

Xeon

E5-2650

8核/2.00GHZ

64GB內(nèi)存

52TB32*Intel

Xeon

E5-2650

8核/2.00GHZ

64GB內(nèi)存

52TB網(wǎng)絡(luò)6G網(wǎng)絡(luò)查詢性能數(shù)據(jù)量查詢并發(fā)(查詢內(nèi)容) 平均完成耗時(shí) 最快完成耗時(shí) 最慢完成耗時(shí)(ms) (ms) (ms)81億200(地區(qū)號(hào)單項(xiàng))83411166581億200(網(wǎng)點(diǎn)號(hào)單項(xiàng))81617160981億200(錯(cuò)誤碼單項(xiàng))6042139081億200(冠字號(hào)碼單項(xiàng))11493206981億200(等于某個(gè)地區(qū)號(hào)+等于某個(gè)錯(cuò)誤碼+等于某個(gè)種類,單條)92415177981億200(等于某個(gè)地區(qū)號(hào)+等于某個(gè)錯(cuò)誤碼+等于某個(gè)種類,100條)1763320393981億200(等于某個(gè)地區(qū)號(hào)+小于某個(gè)錯(cuò)誤碼+等于某個(gè)種類,單條)88719174081億200(等于某個(gè)地區(qū)號(hào)+小于某個(gè)錯(cuò)誤碼+等于某個(gè)種類,100條)2077664625銀行:冠字號(hào)查詢測(cè)試結(jié)論:在并發(fā)200的情況下,依然能夠提34互聯(lián)網(wǎng)應(yīng)用不傳統(tǒng)信息系統(tǒng)應(yīng)用的區(qū)別

互聯(lián)網(wǎng)應(yīng)用

自行開發(fā)系統(tǒng)、快速迭代,持續(xù)交付,持續(xù)維護(hù)

直接到達(dá)客戶端,對(duì)接Mass用戶業(yè)務(wù)逡輯簡(jiǎn)單,Straightforward,一致性要求較低

系統(tǒng)內(nèi)部模塊間可以無(wú)標(biāo)準(zhǔn)(REST),性能/用戶體驗(yàn)至上(KISS)

傳統(tǒng)信息系統(tǒng)

多方開發(fā),依賴集成商,基于版本交付和維護(hù)

Vendor對(duì)接集成商,集成商對(duì)接最終用戶

業(yè)務(wù)逡輯復(fù)雜,系統(tǒng)要求穩(wěn)定可靠,安全性要求較高

系統(tǒng)模塊間依靠工業(yè)標(biāo)準(zhǔn)耦合,如應(yīng)用逡輯和數(shù)據(jù)庫(kù)系統(tǒng)通過(guò)SQL耦合互聯(lián)網(wǎng)應(yīng)用不傳統(tǒng)信息系統(tǒng)應(yīng)用的區(qū)別互聯(lián)網(wǎng)應(yīng)用35源于互聯(lián)網(wǎng)的大數(shù)據(jù)技術(shù)特征以Apache

Hadoop為例分布式計(jì)算系統(tǒng),用軟件代替硬件保證系統(tǒng)可靠(HDFS、ZooKeeper)面向超大規(guī)模機(jī)群(千臺(tái)服務(wù)器以上);超大規(guī)模存儲(chǔ)(百PB級(jí));高通量(幾十GB/秒);高并發(fā)(數(shù)萬(wàn)請(qǐng)求/秒)簡(jiǎn)化丌必要的功能(運(yùn)維、管控、安全等)編程模型、語(yǔ)言多樣化(MapReduce、Job/Task/Instance、Pig

Latin、SQL/HiQL、Script、Jason/PB、Java/C/C++)源于互聯(lián)網(wǎng)的大數(shù)據(jù)技術(shù)特征以ApacheHadoop為例36解決之道標(biāo)準(zhǔn)化可控可管化小型化軟硬一體化生態(tài)化優(yōu)先級(jí)低優(yōu)先級(jí)高解決之道標(biāo)準(zhǔn)化優(yōu)先級(jí)低優(yōu)先級(jí)高37天璣Base(ICTBase)

極高的性能,高通量數(shù)據(jù)存取,分布實(shí)時(shí)分析計(jì)算,TB級(jí)數(shù)據(jù)支持,百倍優(yōu)于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)。

軟硬一體。通過(guò)定制硬件服務(wù)器和定制加速卡最大限度地提高資源利用率,增強(qiáng)系統(tǒng)性能,節(jié)能環(huán)保高密度一體機(jī)機(jī)架空間占用量為普通服務(wù)器的25%,耗電量為普通服務(wù)器的40%

。

數(shù)據(jù)接入簡(jiǎn)單,提供JDBC、ETL等通用數(shù)據(jù)接口,應(yīng)用對(duì)接遠(yuǎn)優(yōu)于新興的NoSQL數(shù)據(jù)庫(kù),多種管理套件應(yīng)用維護(hù)簡(jiǎn)單。技術(shù)特色天璣Base(ICTBase) 極高的性能,高通量數(shù)據(jù)存取38ICTBase對(duì)開源軟件的功能和性能增強(qiáng)Muti-connectionAggregation

andIndexingAuthenticationand

QoSmulti-tenancyDe/CompressionHAFine

grainLoad

BalanceBulkloadParallel

flushand

compactBlockBalanceJDBCMonitor

andAuto

RecoveryHardwareacceleratorICTBase對(duì)開源軟件的功能和性能增強(qiáng)Muti-conne39ICTBase運(yùn)維/管理/控制系統(tǒng)訪控與權(quán)限機(jī)群節(jié)點(diǎn)監(jiān)控安裝與部署系統(tǒng)啟??刂乒?jié)點(diǎn)監(jiān)控?cái)?shù)據(jù)節(jié)點(diǎn)監(jiān)控批式任務(wù)運(yùn)行監(jiān)控ICTBase運(yùn)維/管理/控制系統(tǒng)訪控與權(quán)限機(jī)群40ICTBase數(shù)據(jù)及表管理數(shù)據(jù)導(dǎo)入、索引構(gòu)建及SQL語(yǔ)言查詢ICTBase數(shù)據(jù)及表管理41ICTBase表級(jí)數(shù)據(jù)管理功能權(quán)

表限

結(jié)、

構(gòu)用

、戶

多管

維理

索等

引、數(shù)據(jù)分布、表ICTBase表級(jí)數(shù)據(jù)管理功能權(quán)表限結(jié)42部分ICTBase的用戶證明部分ICTBase的用戶證明43總結(jié)(Take

Away

Message)數(shù)據(jù)計(jì)算技術(shù)的(規(guī)模)大、(計(jì)算)快、(檢索)準(zhǔn)的發(fā)展態(tài)勢(shì);數(shù)據(jù)規(guī)模對(duì)傳統(tǒng)RDBMS技術(shù)提出了挑戰(zhàn);NoSQL技術(shù)是對(duì)RDBMS技術(shù)的補(bǔ)充,是實(shí)際需求導(dǎo)致的結(jié)果;Hadoop這樣的大數(shù)據(jù)技術(shù)源于互聯(lián)網(wǎng)應(yīng)用,需求和游戲規(guī)則的丌同導(dǎo)致必須經(jīng)過(guò)改造才能適用于傳統(tǒng)信息系統(tǒng)應(yīng)用??偨Y(jié)(TakeAwayMessage)數(shù)據(jù)計(jì)算技術(shù)的(44中國(guó)大數(shù)據(jù)技術(shù)大會(huì)(原Hadoop

in

China)2008~2013,近3年參會(huì)人數(shù)超1千人。已成為大數(shù)據(jù)領(lǐng)域的國(guó)內(nèi)最重要技術(shù)會(huì)議,推動(dòng)了國(guó)內(nèi)Hadoop開源社區(qū)發(fā)展及生態(tài)環(huán)境建設(shè)中國(guó)大數(shù)據(jù)技術(shù)大會(huì)(原HadoopinChina)20045大數(shù)據(jù)技術(shù)如何應(yīng)用亍傳統(tǒng)信息系統(tǒng)大數(shù)據(jù)技術(shù)如何應(yīng)用亍46提綱大數(shù)據(jù)技術(shù)研究背景和問(wèn)題開源軟件Apache

Hadoop大數(shù)據(jù)處理系統(tǒng)關(guān)鍵技術(shù)大數(shù)據(jù)技術(shù)從互聯(lián)網(wǎng)走向傳統(tǒng)應(yīng)用提綱大數(shù)據(jù)技術(shù)研究背景和問(wèn)題開源軟件ApacheHadoo47背景:大規(guī)模數(shù)據(jù)計(jì)算

通信、網(wǎng)絡(luò)、存儲(chǔ)、傳感器等電子信息技術(shù)飛速發(fā)展導(dǎo)致數(shù)據(jù)規(guī)模極大增加–

Big

Data

傳統(tǒng)的存儲(chǔ)并處理這些數(shù)據(jù)的技術(shù)手段遇到瓶頸SearchEngineDataWarehousingLog

Processing/UserBehavior

AnalyzingProcessing

100TB

datasetsOnline/Realtime/StreamingDataAnalysis數(shù)據(jù)為王One

nodeScanning@50MB/s

=

35,000

min1000

nodeScanning@50MB/s=35

min背景:大規(guī)模數(shù)據(jù)計(jì)算通信、網(wǎng)絡(luò)、存儲(chǔ)、傳感器等電子信息技48背景–大數(shù)據(jù)的大問(wèn)題2020年:數(shù)據(jù)量將達(dá)到35ZB,較2009年增大44倍來(lái)源:IDC

DigitalUniverse

Study,

May20102020年:60%以上的創(chuàng)造數(shù)據(jù)將因無(wú)法存儲(chǔ)而丟失。? Facebook用戶每天上傳3億張照片,超過(guò)500TB的數(shù)據(jù)增長(zhǎng)量,100PB單集群存儲(chǔ)容量? Google索引的在線數(shù)據(jù)2002年是5EB,到2009年增長(zhǎng)到280EB? 淘寶網(wǎng)注冊(cè)用戶達(dá)到3.7億,在線商品數(shù)達(dá)到9億,14PB海量數(shù)據(jù)存儲(chǔ)數(shù)據(jù)爆炸對(duì)數(shù)據(jù)存儲(chǔ)不

處理效能提出了挑戰(zhàn)!背景–大數(shù)據(jù)的大問(wèn)題2020年:2020年:? Face49背景–大數(shù)據(jù)的大問(wèn)題2020年:數(shù)據(jù)量將達(dá)到35ZB,較2009年增大44倍來(lái)源:IDC

DigitalUniverse

Study,

May20102020年:60%以上的創(chuàng)造數(shù)據(jù)將因無(wú)法存儲(chǔ)而丟失。? Facebook用戶每天上傳3億張照片,超過(guò)500TB的數(shù)據(jù)增長(zhǎng)量,100PB單集群存儲(chǔ)容量? Google索引的在線數(shù)據(jù)2002年是5EB,到2009年增長(zhǎng)到280EB? 淘寶網(wǎng)注冊(cè)用戶達(dá)到3.7億,在線商品數(shù)達(dá)到9億,14PB海量數(shù)據(jù)存儲(chǔ)數(shù)據(jù)爆炸對(duì)數(shù)據(jù)存儲(chǔ)不

處理效能提出了挑戰(zhàn)!?

高速發(fā)展的數(shù)據(jù)型互聯(lián)網(wǎng)企業(yè)需要連續(xù)的系統(tǒng)擴(kuò)展能力數(shù)據(jù)快速增長(zhǎng)不數(shù)據(jù)中心擴(kuò)容周期緩慢的矛盾?

如何維持低成本曲線和高性能曲線是現(xiàn)實(shí)問(wèn)題數(shù)據(jù)業(yè)務(wù)深度的丌斷加強(qiáng)和數(shù)據(jù)處理性能現(xiàn)狀的矛盾背景–大數(shù)據(jù)的大問(wèn)題2020年:2020年:? Face50背景:解決大數(shù)據(jù)問(wèn)題的思路背景:解決大數(shù)據(jù)問(wèn)題的思路51背景:解決大數(shù)據(jù)問(wèn)題的思路海量數(shù)據(jù)存儲(chǔ)海量數(shù)據(jù)計(jì)算背景:解決大數(shù)據(jù)問(wèn)題的思路海量數(shù)據(jù)存儲(chǔ)海量數(shù)據(jù)計(jì)算52提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件Apache

Hadoop大數(shù)據(jù)處理系統(tǒng)關(guān)鍵技術(shù)大數(shù)據(jù)技術(shù)從互聯(lián)網(wǎng)走向傳統(tǒng)應(yīng)用提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件ApacheHadoop53HadoopApache

Nutch,

2002NDFS

+MapReduce,

2004Hadoop,

2006Apache

Hadoop,

2008http://hadoop.ap/Book:/catalog/9780596521998/index.htmll/catalog/9780596521998/index.htmlClone

of

Google’s

GFS

and

Written

in

JavaMapReduce ? Does

work

with

other

languagesCan

processlarge

scale

Web

pages

RunsonLinux,

Windows

andmoreCommodity

hardware

with

highfailure

rateDoug

Cutting,Apache軟件基金會(huì)主席HadoopApacheNutch,2002http:54Hadoop

isthemost

successful

open

sourcesoftwareafter

Linux.Hadoop

組成部分Hadoopisthemostsuccessful55Hadoop

isthemost

successful

open

sourcesoftwareafter

Linux.MapReduceHDFSHBaseHiveHadoop

組成部分Hadoopisthemostsuccessful56HDFSftwareafter

Linux.apReducemost

successful

open

sourcesoMHBaseHiveHadoop

istheHadoop

組成部分HDFSftwareafterLinux.mostsu57Hadoop

HDFS體系結(jié)構(gòu)規(guī)模:10Knodes,

100

million

files,

10

PB特性:適合數(shù)據(jù)批處理;最大化吞吐率;允許計(jì)算向數(shù)據(jù)遷移優(yōu)化:數(shù)據(jù)塊副本、數(shù)據(jù)塊放置策略、緩存策略等Sanjay

Ghemawat,

et.

al.,

The

Google

File

System,

SOSP’03HadoopHDFS體系結(jié)構(gòu)規(guī)模:10Knodes,158HadoopMapReduce處理流程Dean

&

Ghemawat:

“MapReduce:

Simplified

DataProcessing

on

Large

Clusters”,

OSDI

2004HadoopMapReduce處理流程Dean&Ghe59提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件Apache

Hadoop大數(shù)據(jù)處理系統(tǒng)關(guān)鍵技術(shù)大數(shù)據(jù)技術(shù)從互聯(lián)網(wǎng)走向傳統(tǒng)應(yīng)用提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件ApacheHadoop60Joblaun1ch

6關(guān)系數(shù)據(jù)按行序運(yùn)行時(shí)重建

16原始關(guān)系表列式存儲(chǔ)結(jié)構(gòu)(Apache

Pig,Zebra)行列混合式存儲(chǔ)結(jié)構(gòu)(RCFile)JobScheduleTaskLaunch……TaskLaunchTaskLaunchRowConstructionRowConstructionRowConstructionReadDatafromDistributedFileSystemSubsequentProcessingSubsequentProcessingSubsequentProcessingRowReconstructionParallelTasks……

RCFile將關(guān)系數(shù)據(jù)水平分塊,塊內(nèi)按列序存儲(chǔ),實(shí)現(xiàn)文件級(jí)邏輯結(jié)構(gòu)優(yōu)化行式存儲(chǔ)結(jié)構(gòu)(Apache

Hive,SequenceFile)行列混合式數(shù)據(jù)存儲(chǔ)技術(shù)RCFileJoblaun1ch6關(guān)系數(shù)據(jù)按行序運(yùn)行時(shí)重建1661大數(shù)據(jù)技術(shù)如何應(yīng)用于傳統(tǒng)信息系統(tǒng)課件6218互補(bǔ)式聚簇索引技術(shù)CCIndex

CCIndex利用冗余的副本數(shù)據(jù)塊為多數(shù)據(jù)列構(gòu)建聚簇索引,不增加額外存儲(chǔ)空間,實(shí)現(xiàn)數(shù)據(jù)塊級(jí)布局結(jié)構(gòu)優(yōu)化以及分布式實(shí)時(shí)查詢統(tǒng)計(jì)能力CCIndex保持了BigTable數(shù)據(jù)模型高可擴(kuò)展和高吞吐率特性,同時(shí)具有關(guān)系數(shù)據(jù)模型的查詢統(tǒng)計(jì)能力CCIndex將二級(jí)索引變?yōu)橐患?jí)索引,丌訪問(wèn)原表直接進(jìn)行區(qū)間查詢和統(tǒng)計(jì)以CCIndex為核心的系統(tǒng)支持多維區(qū)間實(shí)時(shí)查詢統(tǒng)計(jì)示例:select

count(cl1)

from

TAB

where

cl1<A

and

cl2>B18互補(bǔ)式聚簇索引技術(shù)CCIndex CCIndex利用冗63Ir 亙補(bǔ)式m古古古工?? CClndex

利用冗余的副本數(shù)據(jù)塊為多數(shù)據(jù)列構(gòu)建聚簇索引,不增加額外存儲(chǔ)空間,實(shí)現(xiàn)數(shù)據(jù)塊級(jí)布局結(jié)構(gòu)優(yōu)化以及分布式實(shí)時(shí)查詢統(tǒng)計(jì)能力’UWM礫gaa-元噎領(lǐng)性”2··.'a"畸"帆,t吃草’酌』"?暴阻。.,

邸,1

111民

Id·I飛I

o,〔Cnd創(chuàng)盼到gTible措

1前擴(kuò)前四二辛苦主,

同ti\

主關(guān)系據(jù)膽frj

鼓II自動(dòng)押回

翩然

回f:::

i圓圓I/:,iJ

;:I

At

創(chuàng)

u:I.!解決7海量數(shù)據(jù)實(shí)時(shí)分析計(jì)期快性問(wèn)題1/W電d(.

制:,

:1

.."T!'嚀"..

;刷

)-?

'h'I

f

.I

伊·麗E嚼訕

=t

豆豆:歸路以(創(chuàng)喇圳j

支持施i司主l\fi袋lt一一一一一’Cl!nde精衛(wèi)生51

*袁世

,+E脅撞擊呂能|司

腦lt詞。由i〔ornt(cll)from

TMwheecll<A

and

d;>B缸囂

陽(yáng)回國(guó)、問(wèn)陽(yáng),,,.,回.、白啊..U國(guó):立|

白宮J囂瞿...曲陰

陽(yáng)mmm刷刷。擬

您叫陽(yáng)剛剛放9陸“禽""'

"'缸捐Md

S..陽(yáng)曬

Scan

...脅Scan陸Ml-dim刷sior四陽(yáng)叫l(wèi)'臼捕魚??ThfOUJh膽"My舍

ιC陽(yáng)....(301A)

=崎s。Clu>I

(四叫

=MyS。也Cluser(7

”A)

…C旬以...(00叫

c=:i優(yōu)lndex(70峭

=cc河內(nèi)de<

陽(yáng)攏’>

=街

dO舊γ陽(yáng)臼""'19查詢性能是常用

二圾索引技術(shù)的

10倍以上t

MySQL

Cl

uster

內(nèi)存數(shù)據(jù)庫(kù)的多維

區(qū)間查詢性能快1倍Ir 亙補(bǔ)式m古古古工?? CClndex利用冗余的副本數(shù)64RCFile技術(shù)性能優(yōu)勢(shì)和應(yīng)用情況?Compared

with

SequenceFile,

which

wasthe

default

row

store

technology

in

Apache

Hive,

RCFile

can

achieve

up

to

20%

space

savings

without

affectingquery

performance.?Compared

with

column

group

technologyused

in

Apache

Pig,

which

is

another

bigdata

analysis

system,

RCFile’s

dataloading

is

23%

faster

as

far

as

the

diskspace

utilization

ratio

is

almost

equal.?Obviously,

RCFilehas become

the

defacto

standard

of

data

storage

structureinside

distributed

offline

data

analysissystems

such

as

ApacheHive.RCFile技術(shù)性能優(yōu)勢(shì)和應(yīng)用情況?Comparedwit65CCIndex技術(shù)性能優(yōu)勢(shì)和應(yīng)用情況采用CCIndex后,在硬件規(guī)模保持丌變的前提下,系統(tǒng)處理的數(shù)據(jù)時(shí)效范圍從原來(lái)的7天增大到3個(gè)月,處理的數(shù)據(jù)規(guī)模增大了一個(gè)數(shù)量級(jí),系統(tǒng)吞吐率增大了7倍,對(duì)原來(lái)延遲大于1s的查詢請(qǐng)求響應(yīng)時(shí)間平均降低了57.4%。CCIndex技術(shù)可以解決諸如HBase等當(dāng)前主流的列簇式NoSQL數(shù)據(jù)庫(kù)在多列查詢上的功能缺失和性能低下的問(wèn)題。CCIndex技術(shù)性能優(yōu)勢(shì)和應(yīng)用情況采用CCIndex后,在66技術(shù)指標(biāo)本項(xiàng)目國(guó)際領(lǐng)先系統(tǒng)數(shù)據(jù)存儲(chǔ)空間占用RCFile比行存儲(chǔ)節(jié)省約20%空間Apache

Hive(SequenceFile)數(shù)據(jù)加載性能RCFile比列存儲(chǔ)加載快23%以上Apache

Pig(Zebra)在線查詢分析性能CCIndex是二級(jí)索引技術(shù)的11.4倍Apache

HBase(IndexTable)不國(guó)外同類技術(shù)比較技術(shù)指標(biāo)本項(xiàng)目國(guó)際領(lǐng)先系統(tǒng)數(shù)據(jù)存儲(chǔ)空間占用RCFile比行存67技術(shù)指標(biāo)本項(xiàng)目國(guó)際領(lǐng)先系統(tǒng)數(shù)據(jù)存儲(chǔ)空間占用RCFile比行存儲(chǔ)節(jié)省約20%空間Apache

Hive(SequenceFile)數(shù)據(jù)加載性能RCFile比列存儲(chǔ)加載快23%以上Apache

Pig(Zebra)在線查詢分析性能CCIndex是二級(jí)索引技術(shù)的11.4倍Apache

HBase(IndexTable)實(shí)現(xiàn)PB級(jí)數(shù)據(jù)離線分析處理和百億記錄級(jí)數(shù)據(jù)實(shí)時(shí)查詢分析,成為國(guó)際事實(shí)標(biāo)準(zhǔn)不國(guó)外同類技術(shù)比較技術(shù)指標(biāo)本項(xiàng)目國(guó)際領(lǐng)先系統(tǒng)數(shù)據(jù)存儲(chǔ)空間占用RCFile比行存6824

自勱將文件分割成多個(gè)固定大小的數(shù)據(jù)塊,每個(gè)數(shù)據(jù)塊單獨(dú)壓縮

每一個(gè)文件由一個(gè)壓縮文件和索引文件構(gòu)成可應(yīng)用于Hadoop平臺(tái)上的文件系統(tǒng)在不影響其它文件系統(tǒng)的情況下,以動(dòng)態(tài)、透明的方式給文件系統(tǒng)添加壓縮功能用戶透明的HDFS數(shù)據(jù)壓縮解壓縮-SwiftFS24自勱將文件分割成多個(gè)固定大小的數(shù)據(jù)塊,每個(gè)數(shù)據(jù)塊69丌同壓縮解壓縮算法的性能對(duì)比客戶端數(shù)寫吞吐率(MB/s)Vs.最高Vs.最低nonehdw

acsnappyquicklzzlibSwiftFS19813714475461610%250%297267227144872477%184%4983133222631583260%106%8973263354022994510%51%16973123304014454750%52%32953123174045115620%80%64953063143755185830%91%128902592963325475890%127%256942232523025005830%161%丌同壓縮解壓縮算法的性能對(duì)比客戶端數(shù)寫吞吐率(MB/s)Vs70提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件Apache

Hadoop大數(shù)據(jù)管理系統(tǒng)關(guān)鍵技術(shù)大數(shù)據(jù)技術(shù)從互聯(lián)網(wǎng)走向傳統(tǒng)應(yīng)用提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件ApacheHadoop71淘寶數(shù)據(jù)魔方應(yīng)用淘寶數(shù)據(jù)魔方應(yīng)用72回國(guó)陽(yáng)西

叫川HBase:Data

Storage,

Data

Aggregati

onRegion

Se「ver,Data

Storage

lndex+CataData

AggregationRegion

Se『ver

,Data

Stcrace

Index+DataData

AggregationR?gion

Server,D丑ta

Storage

lndex+CataD:tta

Agg「egation噩噩Aggregation

ResultQuery吐酬,袖人左”仿

制幢你衍’常嗖鍵矗

.l"l;.J’”

π”扣”?

1'.U價(jià).

而.(11'1?6司

”‘,,吃

.’.吃

’V

.1.e.11哺盹刷

刷棍’且

,酬,··鳴””·”

號(hào)J

Boss

Server:Data

Aggregati

onRedis:

ResultCachet單牟血lil.. ,,’‘0 '嶺"

先Z@

’”警衍3

.a(chǎn)

主」

〉‘’··502

4

""

,1'甜地

喝!2調(diào)υ

,??.u、開缸,E電

‘·,、

衍’S陽(yáng)'-O'

l"、

部比揭飛a

in、t\1'(+匯”F

幡函,織割

?!痶J:'lf

-:J:llU’“笨”貌..?!?,.’,a靈”m..,:...酬,寡""嗡釗,

擒獲’略決符,

民俗,”份’”份銷

”:>)1411'<1'·黛司院

幣"""

咎由警怠戴氯咱’且.'I"?a’宅’

”’巳氣,,ι回夜竅,電

陽(yáng)酬···H丁TP

Request“叫掬§ 戶、\副產(chǎn)”

(回國(guó)It::mi;;a:\-‘i:·.-?,

..每曲’”-翁翩翩Front

End酬’陽(yáng)

旦百公且咀&?

?1,'1!1,;'0t1”姐姐?!泵靼傺驭?/p>

”"恨恨玄;;;:晤’‘·“盟”...,側(cè)

lll;ut.'

lltll事””tt

‘民弱,.

?

fit:回國(guó)陽(yáng)西叫川HBase:DataStorage,Da73令基于全網(wǎng)父易記錄的數(shù)據(jù)可視化工具/服務(wù)

令掌握商品交易情況〈·洞察行業(yè)熱點(diǎn)及商機(jī)回H:丁

4二m

緩」:;霄

忑二?.”叫叫令30萬(wàn)付費(fèi)用戶乙

,

:苦 奮(\

出/

\/飛\,

I叩二二二王

令6TB數(shù)據(jù)/100億條記錄數(shù)據(jù)實(shí)

時(shí)統(tǒng)計(jì)查詢噩噩盟叫,..礎(chǔ) 帽拿給忻國(guó)酣四寬劇?”’m'"'"''·-

a』·一

立’

…←

回她站脯’能桐’.,』『』←”氫統(tǒng)篇?!憋L(fēng)”·il:明嗎俐.,..

·加州時(shí)吳剛以??<l蟲””...?

..'"""

敬酒軍墨

一一~令基于全網(wǎng)父易記錄的數(shù)據(jù)可視化工具/服務(wù)令掌握商品交易情況74淘寶數(shù)據(jù)魔方

全屬性實(shí)時(shí)計(jì)算數(shù)據(jù)裝載云梯HBaseHBaseHBase……全網(wǎng)交易數(shù)據(jù)張軒丞(朋春),淘寶海量數(shù)據(jù)產(chǎn)品的技術(shù)架構(gòu),iDataForum2011淘寶數(shù)據(jù)魔方–全屬性實(shí)時(shí)計(jì)算數(shù)據(jù)裝載云梯HBaseHBa75淘寶數(shù)據(jù)魔方

全屬性實(shí)時(shí)計(jì)算數(shù)據(jù)裝載云梯HBaseHBase……交易1(二進(jìn)制,定長(zhǎng))HBase交易2索引:交易id列表屬性對(duì)全網(wǎng)交易數(shù)據(jù)數(shù)據(jù)查詢張軒丞(朋春),淘寶海量數(shù)據(jù)產(chǎn)品的技術(shù)架構(gòu),iDataForum2011節(jié)點(diǎn)1 1,

2,

4,9節(jié)點(diǎn)2 1,4,7查索引求交集節(jié)點(diǎn)2

1,

4本地SUM運(yùn)算(HBase擴(kuò)展)匯總計(jì)算寫入緩存求SUM(alipay)屬性屬性值筆記本尺寸13寸筆記本定位商務(wù)定位淘寶數(shù)據(jù)魔方–全屬性實(shí)時(shí)計(jì)算數(shù)據(jù)裝載云梯HBaseHBa76

取原系統(tǒng)查詢?nèi)罩荆?0天),所有查詢按原系統(tǒng)的響應(yīng)時(shí)間分為三類統(tǒng)計(jì)平均響應(yīng)時(shí)間;

測(cè)試前清空cache;

測(cè)試時(shí)新庫(kù)中有25天數(shù)據(jù),200G左右;

可查詢時(shí)間從7天拓展到至少30天。采用CCIndex后新舊系統(tǒng)性能對(duì)比取原系統(tǒng)查詢?nèi)罩荆?0天),所有查詢按原系統(tǒng)的響采用CC77分析系統(tǒng)后臺(tái)支持全表統(tǒng)計(jì)服務(wù)端統(tǒng)計(jì)速度

15~50W R/S/Server

or400W

R/S/Server。支持sum、avg、count、group

by、sortselect算子(F:C)

where

條件

group

by(F:C),

sortby(F:C)查詢。條件

[F:C>|<(rang)]and|or[F:C>|<(rang)]分析系統(tǒng)后臺(tái)支持全表統(tǒng)計(jì)78銀行:冠字號(hào)查詢測(cè)試結(jié)論:在并發(fā)200的情況下,依然能夠提供秒級(jí)的數(shù)據(jù)訪問(wèn)效率,可以預(yù)見完全能夠滿足冠字信息查詢的性能需求。數(shù)據(jù)規(guī)則按照冠字信息數(shù)據(jù)模擬測(cè)試記錄數(shù)81億測(cè)試文件大小610G導(dǎo)入后大小2.4T索引后大小4.7T測(cè)試并發(fā)數(shù)200查詢模式單項(xiàng)查詢、組合查詢測(cè)試環(huán)境IP配置02*Intel

Xeon

E5-2650

8核/2.00GHZ

64GB內(nèi)存

52TB12*Intel

Xeon

E5-2650

8核/2.00GHZ

64GB內(nèi)存

52TB22*Intel

Xeon

E5-265

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論