




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)技術(shù)如何應(yīng)用亍傳統(tǒng)信息系統(tǒng)大數(shù)據(jù)技術(shù)如何應(yīng)用亍1提綱大數(shù)據(jù)技術(shù)研究背景和問(wèn)題開源軟件Apache
Hadoop大數(shù)據(jù)處理系統(tǒng)關(guān)鍵技術(shù)大數(shù)據(jù)技術(shù)從互聯(lián)網(wǎng)走向傳統(tǒng)應(yīng)用提綱大數(shù)據(jù)技術(shù)研究背景和問(wèn)題開源軟件ApacheHadoo2背景:大規(guī)模數(shù)據(jù)計(jì)算
通信、網(wǎng)絡(luò)、存儲(chǔ)、傳感器等電子信息技術(shù)飛速發(fā)展導(dǎo)致數(shù)據(jù)規(guī)模極大增加–
Big
Data
傳統(tǒng)的存儲(chǔ)并處理這些數(shù)據(jù)的技術(shù)手段遇到瓶頸SearchEngineDataWarehousingLog
Processing/UserBehavior
AnalyzingProcessing
100TB
datasetsOnline/Realtime/StreamingDataAnalysis數(shù)據(jù)為王One
nodeScanning@50MB/s
=
35,000
min1000
nodeScanning@50MB/s=35
min背景:大規(guī)模數(shù)據(jù)計(jì)算通信、網(wǎng)絡(luò)、存儲(chǔ)、傳感器等電子信息技3背景–大數(shù)據(jù)的大問(wèn)題2020年:數(shù)據(jù)量將達(dá)到35ZB,較2009年增大44倍來(lái)源:IDC
DigitalUniverse
Study,
May20102020年:60%以上的創(chuàng)造數(shù)據(jù)將因無(wú)法存儲(chǔ)而丟失。? Facebook用戶每天上傳3億張照片,超過(guò)500TB的數(shù)據(jù)增長(zhǎng)量,100PB單集群存儲(chǔ)容量? Google索引的在線數(shù)據(jù)2002年是5EB,到2009年增長(zhǎng)到280EB? 淘寶網(wǎng)注冊(cè)用戶達(dá)到3.7億,在線商品數(shù)達(dá)到9億,14PB海量數(shù)據(jù)存儲(chǔ)數(shù)據(jù)爆炸對(duì)數(shù)據(jù)存儲(chǔ)不
處理效能提出了挑戰(zhàn)!背景–大數(shù)據(jù)的大問(wèn)題2020年:2020年:? Face4背景–大數(shù)據(jù)的大問(wèn)題2020年:數(shù)據(jù)量將達(dá)到35ZB,較2009年增大44倍來(lái)源:IDC
DigitalUniverse
Study,
May20102020年:60%以上的創(chuàng)造數(shù)據(jù)將因無(wú)法存儲(chǔ)而丟失。? Facebook用戶每天上傳3億張照片,超過(guò)500TB的數(shù)據(jù)增長(zhǎng)量,100PB單集群存儲(chǔ)容量? Google索引的在線數(shù)據(jù)2002年是5EB,到2009年增長(zhǎng)到280EB? 淘寶網(wǎng)注冊(cè)用戶達(dá)到3.7億,在線商品數(shù)達(dá)到9億,14PB海量數(shù)據(jù)存儲(chǔ)數(shù)據(jù)爆炸對(duì)數(shù)據(jù)存儲(chǔ)不
處理效能提出了挑戰(zhàn)!?
高速發(fā)展的數(shù)據(jù)型互聯(lián)網(wǎng)企業(yè)需要連續(xù)的系統(tǒng)擴(kuò)展能力數(shù)據(jù)快速增長(zhǎng)不數(shù)據(jù)中心擴(kuò)容周期緩慢的矛盾?
如何維持低成本曲線和高性能曲線是現(xiàn)實(shí)問(wèn)題數(shù)據(jù)業(yè)務(wù)深度的丌斷加強(qiáng)和數(shù)據(jù)處理性能現(xiàn)狀的矛盾背景–大數(shù)據(jù)的大問(wèn)題2020年:2020年:? Face5背景:解決大數(shù)據(jù)問(wèn)題的思路背景:解決大數(shù)據(jù)問(wèn)題的思路6背景:解決大數(shù)據(jù)問(wèn)題的思路海量數(shù)據(jù)存儲(chǔ)海量數(shù)據(jù)計(jì)算背景:解決大數(shù)據(jù)問(wèn)題的思路海量數(shù)據(jù)存儲(chǔ)海量數(shù)據(jù)計(jì)算7提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件Apache
Hadoop大數(shù)據(jù)處理系統(tǒng)關(guān)鍵技術(shù)大數(shù)據(jù)技術(shù)從互聯(lián)網(wǎng)走向傳統(tǒng)應(yīng)用提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件ApacheHadoop8HadoopApache
Nutch,
2002NDFS
+MapReduce,
2004Hadoop,
2006Apache
Hadoop,
2008http://hadoop.ap/Book:/catalog/9780596521998/index.htmll/catalog/9780596521998/index.htmlClone
of
Google’s
GFS
and
Written
in
JavaMapReduce ? Does
work
with
other
languagesCan
processlarge
scale
Web
pages
RunsonLinux,
Windows
andmoreCommodity
hardware
with
highfailure
rateDoug
Cutting,Apache軟件基金會(huì)主席HadoopApacheNutch,2002http:9Hadoop
isthemost
successful
open
sourcesoftwareafter
Linux.Hadoop
組成部分Hadoopisthemostsuccessful10Hadoop
isthemost
successful
open
sourcesoftwareafter
Linux.MapReduceHDFSHBaseHiveHadoop
組成部分Hadoopisthemostsuccessful11HDFSftwareafter
Linux.apReducemost
successful
open
sourcesoMHBaseHiveHadoop
istheHadoop
組成部分HDFSftwareafterLinux.mostsu12Hadoop
HDFS體系結(jié)構(gòu)規(guī)模:10Knodes,
100
million
files,
10
PB特性:適合數(shù)據(jù)批處理;最大化吞吐率;允許計(jì)算向數(shù)據(jù)遷移優(yōu)化:數(shù)據(jù)塊副本、數(shù)據(jù)塊放置策略、緩存策略等Sanjay
Ghemawat,
et.
al.,
The
File
System,
SOSP’03HadoopHDFS體系結(jié)構(gòu)規(guī)模:10Knodes,113HadoopMapReduce處理流程Dean
&
Ghemawat:
“MapReduce:
Simplified
DataProcessing
on
Large
Clusters”,
OSDI
2004HadoopMapReduce處理流程Dean&Ghe14提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件Apache
Hadoop大數(shù)據(jù)處理系統(tǒng)關(guān)鍵技術(shù)大數(shù)據(jù)技術(shù)從互聯(lián)網(wǎng)走向傳統(tǒng)應(yīng)用提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件ApacheHadoop15Joblaun1ch
6關(guān)系數(shù)據(jù)按行序運(yùn)行時(shí)重建
16原始關(guān)系表列式存儲(chǔ)結(jié)構(gòu)(Apache
Pig,Zebra)行列混合式存儲(chǔ)結(jié)構(gòu)(RCFile)JobScheduleTaskLaunch……TaskLaunchTaskLaunchRowConstructionRowConstructionRowConstructionReadDatafromDistributedFileSystemSubsequentProcessingSubsequentProcessingSubsequentProcessingRowReconstructionParallelTasks……
RCFile將關(guān)系數(shù)據(jù)水平分塊,塊內(nèi)按列序存儲(chǔ),實(shí)現(xiàn)文件級(jí)邏輯結(jié)構(gòu)優(yōu)化行式存儲(chǔ)結(jié)構(gòu)(Apache
Hive,SequenceFile)行列混合式數(shù)據(jù)存儲(chǔ)技術(shù)RCFileJoblaun1ch6關(guān)系數(shù)據(jù)按行序運(yùn)行時(shí)重建1616大數(shù)據(jù)技術(shù)如何應(yīng)用于傳統(tǒng)信息系統(tǒng)課件1718互補(bǔ)式聚簇索引技術(shù)CCIndex
CCIndex利用冗余的副本數(shù)據(jù)塊為多數(shù)據(jù)列構(gòu)建聚簇索引,不增加額外存儲(chǔ)空間,實(shí)現(xiàn)數(shù)據(jù)塊級(jí)布局結(jié)構(gòu)優(yōu)化以及分布式實(shí)時(shí)查詢統(tǒng)計(jì)能力CCIndex保持了BigTable數(shù)據(jù)模型高可擴(kuò)展和高吞吐率特性,同時(shí)具有關(guān)系數(shù)據(jù)模型的查詢統(tǒng)計(jì)能力CCIndex將二級(jí)索引變?yōu)橐患?jí)索引,丌訪問(wèn)原表直接進(jìn)行區(qū)間查詢和統(tǒng)計(jì)以CCIndex為核心的系統(tǒng)支持多維區(qū)間實(shí)時(shí)查詢統(tǒng)計(jì)示例:select
count(cl1)
from
TAB
where
cl1<A
and
cl2>B18互補(bǔ)式聚簇索引技術(shù)CCIndex CCIndex利用冗18Ir 亙補(bǔ)式m古古古工?? CClndex
利用冗余的副本數(shù)據(jù)塊為多數(shù)據(jù)列構(gòu)建聚簇索引,不增加額外存儲(chǔ)空間,實(shí)現(xiàn)數(shù)據(jù)塊級(jí)布局結(jié)構(gòu)優(yōu)化以及分布式實(shí)時(shí)查詢統(tǒng)計(jì)能力’UWM礫gaa-元噎領(lǐng)性”2··.'a"畸"帆,t吃草’酌』"?暴阻。.,
邸,1
111民
Id·I飛I
o,〔Cnd創(chuàng)盼到gTible措
1前擴(kuò)前四二辛苦主,
同ti\
主關(guān)系據(jù)膽frj
鼓II自動(dòng)押回
翩然
回f:::
i圓圓I/:,iJ
二
;:I
At
創(chuàng)
口
u:I.!解決7海量數(shù)據(jù)實(shí)時(shí)分析計(jì)期快性問(wèn)題1/W電d(.
制:,
:1
.."T!'嚀"..
;刷
)-?
'h'I
f
.I
伊·麗E嚼訕
=t
豆豆:歸路以(創(chuàng)喇圳j
支持施i司主l\fi袋lt一一一一一’Cl!nde精衛(wèi)生51
*袁世
,+E脅撞擊呂能|司
腦lt詞。由i〔ornt(cll)from
TMwheecll<A
and
d;>B缸囂
陽(yáng)回國(guó)、問(wèn)陽(yáng),,,.,回.、白啊..U國(guó):立|
白宮J囂瞿...曲陰
陽(yáng)mmm刷刷。擬
出
那
就
您叫陽(yáng)剛剛放9陸“禽""'
"'缸捐Md
S..陽(yáng)曬
Scan
...脅Scan陸Ml-dim刷sior四陽(yáng)叫l(wèi)'臼捕魚??ThfOUJh膽"My舍
ιC陽(yáng)....(301A)
=崎s。Clu>I
(四叫
=MyS。也Cluser(7
”A)
…C旬以...(00叫
c=:i優(yōu)lndex(70峭
=cc河內(nèi)de<
陽(yáng)攏’>
=街
dO舊γ陽(yáng)臼""'19查詢性能是常用
二圾索引技術(shù)的
10倍以上t
MySQL
Cl
uster
內(nèi)存數(shù)據(jù)庫(kù)的多維
區(qū)間查詢性能快1倍Ir 亙補(bǔ)式m古古古工?? CClndex利用冗余的副本數(shù)19RCFile技術(shù)性能優(yōu)勢(shì)和應(yīng)用情況?Compared
with
SequenceFile,
which
wasthe
default
row
store
technology
in
Apache
Hive,
RCFile
can
achieve
up
to
20%
space
savings
without
affectingquery
performance.?Compared
with
column
group
technologyused
in
Apache
Pig,
which
is
another
bigdata
analysis
system,
RCFile’s
dataloading
is
23%
faster
as
far
as
the
diskspace
utilization
ratio
is
almost
equal.?Obviously,
RCFilehas become
the
defacto
standard
of
data
storage
structureinside
distributed
offline
data
analysissystems
such
as
ApacheHive.RCFile技術(shù)性能優(yōu)勢(shì)和應(yīng)用情況?Comparedwit20CCIndex技術(shù)性能優(yōu)勢(shì)和應(yīng)用情況采用CCIndex后,在硬件規(guī)模保持丌變的前提下,系統(tǒng)處理的數(shù)據(jù)時(shí)效范圍從原來(lái)的7天增大到3個(gè)月,處理的數(shù)據(jù)規(guī)模增大了一個(gè)數(shù)量級(jí),系統(tǒng)吞吐率增大了7倍,對(duì)原來(lái)延遲大于1s的查詢請(qǐng)求響應(yīng)時(shí)間平均降低了57.4%。CCIndex技術(shù)可以解決諸如HBase等當(dāng)前主流的列簇式NoSQL數(shù)據(jù)庫(kù)在多列查詢上的功能缺失和性能低下的問(wèn)題。CCIndex技術(shù)性能優(yōu)勢(shì)和應(yīng)用情況采用CCIndex后,在21技術(shù)指標(biāo)本項(xiàng)目國(guó)際領(lǐng)先系統(tǒng)數(shù)據(jù)存儲(chǔ)空間占用RCFile比行存儲(chǔ)節(jié)省約20%空間Apache
Hive(SequenceFile)數(shù)據(jù)加載性能RCFile比列存儲(chǔ)加載快23%以上Apache
Pig(Zebra)在線查詢分析性能CCIndex是二級(jí)索引技術(shù)的11.4倍Apache
HBase(IndexTable)不國(guó)外同類技術(shù)比較技術(shù)指標(biāo)本項(xiàng)目國(guó)際領(lǐng)先系統(tǒng)數(shù)據(jù)存儲(chǔ)空間占用RCFile比行存22技術(shù)指標(biāo)本項(xiàng)目國(guó)際領(lǐng)先系統(tǒng)數(shù)據(jù)存儲(chǔ)空間占用RCFile比行存儲(chǔ)節(jié)省約20%空間Apache
Hive(SequenceFile)數(shù)據(jù)加載性能RCFile比列存儲(chǔ)加載快23%以上Apache
Pig(Zebra)在線查詢分析性能CCIndex是二級(jí)索引技術(shù)的11.4倍Apache
HBase(IndexTable)實(shí)現(xiàn)PB級(jí)數(shù)據(jù)離線分析處理和百億記錄級(jí)數(shù)據(jù)實(shí)時(shí)查詢分析,成為國(guó)際事實(shí)標(biāo)準(zhǔn)不國(guó)外同類技術(shù)比較技術(shù)指標(biāo)本項(xiàng)目國(guó)際領(lǐng)先系統(tǒng)數(shù)據(jù)存儲(chǔ)空間占用RCFile比行存2324
自勱將文件分割成多個(gè)固定大小的數(shù)據(jù)塊,每個(gè)數(shù)據(jù)塊單獨(dú)壓縮
每一個(gè)文件由一個(gè)壓縮文件和索引文件構(gòu)成可應(yīng)用于Hadoop平臺(tái)上的文件系統(tǒng)在不影響其它文件系統(tǒng)的情況下,以動(dòng)態(tài)、透明的方式給文件系統(tǒng)添加壓縮功能用戶透明的HDFS數(shù)據(jù)壓縮解壓縮-SwiftFS24自勱將文件分割成多個(gè)固定大小的數(shù)據(jù)塊,每個(gè)數(shù)據(jù)塊24丌同壓縮解壓縮算法的性能對(duì)比客戶端數(shù)寫吞吐率(MB/s)Vs.最高Vs.最低nonehdw
acsnappyquicklzzlibSwiftFS19813714475461610%250%297267227144872477%184%4983133222631583260%106%8973263354022994510%51%16973123304014454750%52%32953123174045115620%80%64953063143755185830%91%128902592963325475890%127%256942232523025005830%161%丌同壓縮解壓縮算法的性能對(duì)比客戶端數(shù)寫吞吐率(MB/s)Vs25提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件Apache
Hadoop大數(shù)據(jù)管理系統(tǒng)關(guān)鍵技術(shù)大數(shù)據(jù)技術(shù)從互聯(lián)網(wǎng)走向傳統(tǒng)應(yīng)用提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件ApacheHadoop26淘寶數(shù)據(jù)魔方應(yīng)用淘寶數(shù)據(jù)魔方應(yīng)用27回國(guó)陽(yáng)西
叫川HBase:Data
Storage,
Data
Aggregati
onRegion
Se「ver,Data
Storage
lndex+CataData
AggregationRegion
Se『ver
,Data
Stcrace
Index+DataData
AggregationR?gion
Server,D丑ta
Storage
lndex+CataD:tta
Agg「egation噩噩Aggregation
ResultQuery吐酬,袖人左”仿
制幢你衍’常嗖鍵矗
.l"l;.J’”
π”扣”?
1'.U價(jià).
而.(11'1?6司
”‘,,吃
.’.吃
’V
.1.e.11哺盹刷
刷棍’且
,酬,··鳴””·”
號(hào)J
Boss
Server:Data
Aggregati
onRedis:
ResultCachet單牟血lil.. ,,’‘0 '嶺"
先Z@
’”警衍3
.a(chǎn)
而
‘
主」
〉‘’··502
4
""
,1'甜地
喝!2調(diào)υ
,??.u、開缸,E電
‘·,、
衍’S陽(yáng)'-O'
l"、
部比揭飛a
in、t\1'(+匯”F
幡函,織割
?!痶J:'lf
-:J:llU’“笨”貌..?!?,.’,a靈”m..,:...酬,寡""嗡釗,
擒獲’略決符,
民俗,”份’”份銷
”:>)1411'<1'·黛司院
幣"""
咎由警怠戴氯咱’且.'I"?a’宅’
”’巳氣,,ι回夜竅,電
陽(yáng)酬···H丁TP
Request“叫掬§ 戶、\副產(chǎn)”
(回國(guó)It::mi;;a:\-‘i:·.-?,
..每曲’”-翁翩翩Front
End酬’陽(yáng)
旦百公且咀&?
?1,'1!1,;'0t1”姐姐?!泵靼傺驭?/p>
”"恨恨玄;;;:晤’‘·“盟”...,側(cè)
lll;ut.'
lltll事””tt
‘民弱,.
?
fit:回國(guó)陽(yáng)西叫川HBase:DataStorage,Da28令基于全網(wǎng)父易記錄的數(shù)據(jù)可視化工具/服務(wù)
令掌握商品交易情況〈·洞察行業(yè)熱點(diǎn)及商機(jī)回H:丁
工
4二m
緩」:;霄
忑二?.”叫叫令30萬(wàn)付費(fèi)用戶乙
,
:苦 奮(\
出/
\/飛\,
I叩二二二王
令6TB數(shù)據(jù)/100億條記錄數(shù)據(jù)實(shí)
時(shí)統(tǒng)計(jì)查詢噩噩盟叫,..礎(chǔ) 帽拿給忻國(guó)酣四寬?。俊薄痬'"'"''·-
a』·一
立’
…←
回她站脯’能桐’.,』『』←”氫統(tǒng)篇?!憋L(fēng)”·il:明嗎俐.,..
·加州時(shí)吳剛以??<l蟲””...?
..'"""
敬酒軍墨
一
一一~令基于全網(wǎng)父易記錄的數(shù)據(jù)可視化工具/服務(wù)令掌握商品交易情況29淘寶數(shù)據(jù)魔方
–
全屬性實(shí)時(shí)計(jì)算數(shù)據(jù)裝載云梯HBaseHBaseHBase……全網(wǎng)交易數(shù)據(jù)張軒丞(朋春),淘寶海量數(shù)據(jù)產(chǎn)品的技術(shù)架構(gòu),iDataForum2011淘寶數(shù)據(jù)魔方–全屬性實(shí)時(shí)計(jì)算數(shù)據(jù)裝載云梯HBaseHBa30淘寶數(shù)據(jù)魔方
–
全屬性實(shí)時(shí)計(jì)算數(shù)據(jù)裝載云梯HBaseHBase……交易1(二進(jìn)制,定長(zhǎng))HBase交易2索引:交易id列表屬性對(duì)全網(wǎng)交易數(shù)據(jù)數(shù)據(jù)查詢張軒丞(朋春),淘寶海量數(shù)據(jù)產(chǎn)品的技術(shù)架構(gòu),iDataForum2011節(jié)點(diǎn)1 1,
2,
4,9節(jié)點(diǎn)2 1,4,7查索引求交集節(jié)點(diǎn)2
1,
4本地SUM運(yùn)算(HBase擴(kuò)展)匯總計(jì)算寫入緩存求SUM(alipay)屬性屬性值筆記本尺寸13寸筆記本定位商務(wù)定位淘寶數(shù)據(jù)魔方–全屬性實(shí)時(shí)計(jì)算數(shù)據(jù)裝載云梯HBaseHBa31
取原系統(tǒng)查詢?nèi)罩荆?0天),所有查詢按原系統(tǒng)的響應(yīng)時(shí)間分為三類統(tǒng)計(jì)平均響應(yīng)時(shí)間;
測(cè)試前清空cache;
測(cè)試時(shí)新庫(kù)中有25天數(shù)據(jù),200G左右;
可查詢時(shí)間從7天拓展到至少30天。采用CCIndex后新舊系統(tǒng)性能對(duì)比取原系統(tǒng)查詢?nèi)罩荆?0天),所有查詢按原系統(tǒng)的響采用CC32分析系統(tǒng)后臺(tái)支持全表統(tǒng)計(jì)服務(wù)端統(tǒng)計(jì)速度
15~50W R/S/Server
or400W
R/S/Server。支持sum、avg、count、group
by、sortselect算子(F:C)
where
條件
group
by(F:C),
sortby(F:C)查詢。條件
[F:C>|<(rang)]and|or[F:C>|<(rang)]分析系統(tǒng)后臺(tái)支持全表統(tǒng)計(jì)33銀行:冠字號(hào)查詢測(cè)試結(jié)論:在并發(fā)200的情況下,依然能夠提供秒級(jí)的數(shù)據(jù)訪問(wèn)效率,可以預(yù)見完全能夠滿足冠字信息查詢的性能需求。數(shù)據(jù)規(guī)則按照冠字信息數(shù)據(jù)模擬測(cè)試記錄數(shù)81億測(cè)試文件大小610G導(dǎo)入后大小2.4T索引后大小4.7T測(cè)試并發(fā)數(shù)200查詢模式單項(xiàng)查詢、組合查詢測(cè)試環(huán)境IP配置02*Intel
Xeon
E5-2650
8核/2.00GHZ
64GB內(nèi)存
52TB12*Intel
Xeon
E5-2650
8核/2.00GHZ
64GB內(nèi)存
52TB22*Intel
Xeon
E5-2650
8核/2.00GHZ
64GB內(nèi)存
52TB32*Intel
Xeon
E5-2650
8核/2.00GHZ
64GB內(nèi)存
52TB網(wǎng)絡(luò)6G網(wǎng)絡(luò)查詢性能數(shù)據(jù)量查詢并發(fā)(查詢內(nèi)容) 平均完成耗時(shí) 最快完成耗時(shí) 最慢完成耗時(shí)(ms) (ms) (ms)81億200(地區(qū)號(hào)單項(xiàng))83411166581億200(網(wǎng)點(diǎn)號(hào)單項(xiàng))81617160981億200(錯(cuò)誤碼單項(xiàng))6042139081億200(冠字號(hào)碼單項(xiàng))11493206981億200(等于某個(gè)地區(qū)號(hào)+等于某個(gè)錯(cuò)誤碼+等于某個(gè)種類,單條)92415177981億200(等于某個(gè)地區(qū)號(hào)+等于某個(gè)錯(cuò)誤碼+等于某個(gè)種類,100條)1763320393981億200(等于某個(gè)地區(qū)號(hào)+小于某個(gè)錯(cuò)誤碼+等于某個(gè)種類,單條)88719174081億200(等于某個(gè)地區(qū)號(hào)+小于某個(gè)錯(cuò)誤碼+等于某個(gè)種類,100條)2077664625銀行:冠字號(hào)查詢測(cè)試結(jié)論:在并發(fā)200的情況下,依然能夠提34互聯(lián)網(wǎng)應(yīng)用不傳統(tǒng)信息系統(tǒng)應(yīng)用的區(qū)別
互聯(lián)網(wǎng)應(yīng)用
自行開發(fā)系統(tǒng)、快速迭代,持續(xù)交付,持續(xù)維護(hù)
直接到達(dá)客戶端,對(duì)接Mass用戶業(yè)務(wù)逡輯簡(jiǎn)單,Straightforward,一致性要求較低
系統(tǒng)內(nèi)部模塊間可以無(wú)標(biāo)準(zhǔn)(REST),性能/用戶體驗(yàn)至上(KISS)
傳統(tǒng)信息系統(tǒng)
多方開發(fā),依賴集成商,基于版本交付和維護(hù)
Vendor對(duì)接集成商,集成商對(duì)接最終用戶
業(yè)務(wù)逡輯復(fù)雜,系統(tǒng)要求穩(wěn)定可靠,安全性要求較高
系統(tǒng)模塊間依靠工業(yè)標(biāo)準(zhǔn)耦合,如應(yīng)用逡輯和數(shù)據(jù)庫(kù)系統(tǒng)通過(guò)SQL耦合互聯(lián)網(wǎng)應(yīng)用不傳統(tǒng)信息系統(tǒng)應(yīng)用的區(qū)別互聯(lián)網(wǎng)應(yīng)用35源于互聯(lián)網(wǎng)的大數(shù)據(jù)技術(shù)特征以Apache
Hadoop為例分布式計(jì)算系統(tǒng),用軟件代替硬件保證系統(tǒng)可靠(HDFS、ZooKeeper)面向超大規(guī)模機(jī)群(千臺(tái)服務(wù)器以上);超大規(guī)模存儲(chǔ)(百PB級(jí));高通量(幾十GB/秒);高并發(fā)(數(shù)萬(wàn)請(qǐng)求/秒)簡(jiǎn)化丌必要的功能(運(yùn)維、管控、安全等)編程模型、語(yǔ)言多樣化(MapReduce、Job/Task/Instance、Pig
Latin、SQL/HiQL、Script、Jason/PB、Java/C/C++)源于互聯(lián)網(wǎng)的大數(shù)據(jù)技術(shù)特征以ApacheHadoop為例36解決之道標(biāo)準(zhǔn)化可控可管化小型化軟硬一體化生態(tài)化優(yōu)先級(jí)低優(yōu)先級(jí)高解決之道標(biāo)準(zhǔn)化優(yōu)先級(jí)低優(yōu)先級(jí)高37天璣Base(ICTBase)
極高的性能,高通量數(shù)據(jù)存取,分布實(shí)時(shí)分析計(jì)算,TB級(jí)數(shù)據(jù)支持,百倍優(yōu)于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)。
軟硬一體。通過(guò)定制硬件服務(wù)器和定制加速卡最大限度地提高資源利用率,增強(qiáng)系統(tǒng)性能,節(jié)能環(huán)保高密度一體機(jī)機(jī)架空間占用量為普通服務(wù)器的25%,耗電量為普通服務(wù)器的40%
。
數(shù)據(jù)接入簡(jiǎn)單,提供JDBC、ETL等通用數(shù)據(jù)接口,應(yīng)用對(duì)接遠(yuǎn)優(yōu)于新興的NoSQL數(shù)據(jù)庫(kù),多種管理套件應(yīng)用維護(hù)簡(jiǎn)單。技術(shù)特色天璣Base(ICTBase) 極高的性能,高通量數(shù)據(jù)存取38ICTBase對(duì)開源軟件的功能和性能增強(qiáng)Muti-connectionAggregation
andIndexingAuthenticationand
QoSmulti-tenancyDe/CompressionHAFine
grainLoad
BalanceBulkloadParallel
flushand
compactBlockBalanceJDBCMonitor
andAuto
RecoveryHardwareacceleratorICTBase對(duì)開源軟件的功能和性能增強(qiáng)Muti-conne39ICTBase運(yùn)維/管理/控制系統(tǒng)訪控與權(quán)限機(jī)群節(jié)點(diǎn)監(jiān)控安裝與部署系統(tǒng)啟??刂乒?jié)點(diǎn)監(jiān)控?cái)?shù)據(jù)節(jié)點(diǎn)監(jiān)控批式任務(wù)運(yùn)行監(jiān)控ICTBase運(yùn)維/管理/控制系統(tǒng)訪控與權(quán)限機(jī)群40ICTBase數(shù)據(jù)及表管理數(shù)據(jù)導(dǎo)入、索引構(gòu)建及SQL語(yǔ)言查詢ICTBase數(shù)據(jù)及表管理41ICTBase表級(jí)數(shù)據(jù)管理功能權(quán)
表限
結(jié)、
構(gòu)用
、戶
多管
維理
索等
引、數(shù)據(jù)分布、表ICTBase表級(jí)數(shù)據(jù)管理功能權(quán)表限結(jié)42部分ICTBase的用戶證明部分ICTBase的用戶證明43總結(jié)(Take
Away
Message)數(shù)據(jù)計(jì)算技術(shù)的(規(guī)模)大、(計(jì)算)快、(檢索)準(zhǔn)的發(fā)展態(tài)勢(shì);數(shù)據(jù)規(guī)模對(duì)傳統(tǒng)RDBMS技術(shù)提出了挑戰(zhàn);NoSQL技術(shù)是對(duì)RDBMS技術(shù)的補(bǔ)充,是實(shí)際需求導(dǎo)致的結(jié)果;Hadoop這樣的大數(shù)據(jù)技術(shù)源于互聯(lián)網(wǎng)應(yīng)用,需求和游戲規(guī)則的丌同導(dǎo)致必須經(jīng)過(guò)改造才能適用于傳統(tǒng)信息系統(tǒng)應(yīng)用??偨Y(jié)(TakeAwayMessage)數(shù)據(jù)計(jì)算技術(shù)的(44中國(guó)大數(shù)據(jù)技術(shù)大會(huì)(原Hadoop
in
China)2008~2013,近3年參會(huì)人數(shù)超1千人。已成為大數(shù)據(jù)領(lǐng)域的國(guó)內(nèi)最重要技術(shù)會(huì)議,推動(dòng)了國(guó)內(nèi)Hadoop開源社區(qū)發(fā)展及生態(tài)環(huán)境建設(shè)中國(guó)大數(shù)據(jù)技術(shù)大會(huì)(原HadoopinChina)20045大數(shù)據(jù)技術(shù)如何應(yīng)用亍傳統(tǒng)信息系統(tǒng)大數(shù)據(jù)技術(shù)如何應(yīng)用亍46提綱大數(shù)據(jù)技術(shù)研究背景和問(wèn)題開源軟件Apache
Hadoop大數(shù)據(jù)處理系統(tǒng)關(guān)鍵技術(shù)大數(shù)據(jù)技術(shù)從互聯(lián)網(wǎng)走向傳統(tǒng)應(yīng)用提綱大數(shù)據(jù)技術(shù)研究背景和問(wèn)題開源軟件ApacheHadoo47背景:大規(guī)模數(shù)據(jù)計(jì)算
通信、網(wǎng)絡(luò)、存儲(chǔ)、傳感器等電子信息技術(shù)飛速發(fā)展導(dǎo)致數(shù)據(jù)規(guī)模極大增加–
Big
Data
傳統(tǒng)的存儲(chǔ)并處理這些數(shù)據(jù)的技術(shù)手段遇到瓶頸SearchEngineDataWarehousingLog
Processing/UserBehavior
AnalyzingProcessing
100TB
datasetsOnline/Realtime/StreamingDataAnalysis數(shù)據(jù)為王One
nodeScanning@50MB/s
=
35,000
min1000
nodeScanning@50MB/s=35
min背景:大規(guī)模數(shù)據(jù)計(jì)算通信、網(wǎng)絡(luò)、存儲(chǔ)、傳感器等電子信息技48背景–大數(shù)據(jù)的大問(wèn)題2020年:數(shù)據(jù)量將達(dá)到35ZB,較2009年增大44倍來(lái)源:IDC
DigitalUniverse
Study,
May20102020年:60%以上的創(chuàng)造數(shù)據(jù)將因無(wú)法存儲(chǔ)而丟失。? Facebook用戶每天上傳3億張照片,超過(guò)500TB的數(shù)據(jù)增長(zhǎng)量,100PB單集群存儲(chǔ)容量? Google索引的在線數(shù)據(jù)2002年是5EB,到2009年增長(zhǎng)到280EB? 淘寶網(wǎng)注冊(cè)用戶達(dá)到3.7億,在線商品數(shù)達(dá)到9億,14PB海量數(shù)據(jù)存儲(chǔ)數(shù)據(jù)爆炸對(duì)數(shù)據(jù)存儲(chǔ)不
處理效能提出了挑戰(zhàn)!背景–大數(shù)據(jù)的大問(wèn)題2020年:2020年:? Face49背景–大數(shù)據(jù)的大問(wèn)題2020年:數(shù)據(jù)量將達(dá)到35ZB,較2009年增大44倍來(lái)源:IDC
DigitalUniverse
Study,
May20102020年:60%以上的創(chuàng)造數(shù)據(jù)將因無(wú)法存儲(chǔ)而丟失。? Facebook用戶每天上傳3億張照片,超過(guò)500TB的數(shù)據(jù)增長(zhǎng)量,100PB單集群存儲(chǔ)容量? Google索引的在線數(shù)據(jù)2002年是5EB,到2009年增長(zhǎng)到280EB? 淘寶網(wǎng)注冊(cè)用戶達(dá)到3.7億,在線商品數(shù)達(dá)到9億,14PB海量數(shù)據(jù)存儲(chǔ)數(shù)據(jù)爆炸對(duì)數(shù)據(jù)存儲(chǔ)不
處理效能提出了挑戰(zhàn)!?
高速發(fā)展的數(shù)據(jù)型互聯(lián)網(wǎng)企業(yè)需要連續(xù)的系統(tǒng)擴(kuò)展能力數(shù)據(jù)快速增長(zhǎng)不數(shù)據(jù)中心擴(kuò)容周期緩慢的矛盾?
如何維持低成本曲線和高性能曲線是現(xiàn)實(shí)問(wèn)題數(shù)據(jù)業(yè)務(wù)深度的丌斷加強(qiáng)和數(shù)據(jù)處理性能現(xiàn)狀的矛盾背景–大數(shù)據(jù)的大問(wèn)題2020年:2020年:? Face50背景:解決大數(shù)據(jù)問(wèn)題的思路背景:解決大數(shù)據(jù)問(wèn)題的思路51背景:解決大數(shù)據(jù)問(wèn)題的思路海量數(shù)據(jù)存儲(chǔ)海量數(shù)據(jù)計(jì)算背景:解決大數(shù)據(jù)問(wèn)題的思路海量數(shù)據(jù)存儲(chǔ)海量數(shù)據(jù)計(jì)算52提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件Apache
Hadoop大數(shù)據(jù)處理系統(tǒng)關(guān)鍵技術(shù)大數(shù)據(jù)技術(shù)從互聯(lián)網(wǎng)走向傳統(tǒng)應(yīng)用提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件ApacheHadoop53HadoopApache
Nutch,
2002NDFS
+MapReduce,
2004Hadoop,
2006Apache
Hadoop,
2008http://hadoop.ap/Book:/catalog/9780596521998/index.htmll/catalog/9780596521998/index.htmlClone
of
Google’s
GFS
and
Written
in
JavaMapReduce ? Does
work
with
other
languagesCan
processlarge
scale
Web
pages
RunsonLinux,
Windows
andmoreCommodity
hardware
with
highfailure
rateDoug
Cutting,Apache軟件基金會(huì)主席HadoopApacheNutch,2002http:54Hadoop
isthemost
successful
open
sourcesoftwareafter
Linux.Hadoop
組成部分Hadoopisthemostsuccessful55Hadoop
isthemost
successful
open
sourcesoftwareafter
Linux.MapReduceHDFSHBaseHiveHadoop
組成部分Hadoopisthemostsuccessful56HDFSftwareafter
Linux.apReducemost
successful
open
sourcesoMHBaseHiveHadoop
istheHadoop
組成部分HDFSftwareafterLinux.mostsu57Hadoop
HDFS體系結(jié)構(gòu)規(guī)模:10Knodes,
100
million
files,
10
PB特性:適合數(shù)據(jù)批處理;最大化吞吐率;允許計(jì)算向數(shù)據(jù)遷移優(yōu)化:數(shù)據(jù)塊副本、數(shù)據(jù)塊放置策略、緩存策略等Sanjay
Ghemawat,
et.
al.,
The
File
System,
SOSP’03HadoopHDFS體系結(jié)構(gòu)規(guī)模:10Knodes,158HadoopMapReduce處理流程Dean
&
Ghemawat:
“MapReduce:
Simplified
DataProcessing
on
Large
Clusters”,
OSDI
2004HadoopMapReduce處理流程Dean&Ghe59提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件Apache
Hadoop大數(shù)據(jù)處理系統(tǒng)關(guān)鍵技術(shù)大數(shù)據(jù)技術(shù)從互聯(lián)網(wǎng)走向傳統(tǒng)應(yīng)用提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件ApacheHadoop60Joblaun1ch
6關(guān)系數(shù)據(jù)按行序運(yùn)行時(shí)重建
16原始關(guān)系表列式存儲(chǔ)結(jié)構(gòu)(Apache
Pig,Zebra)行列混合式存儲(chǔ)結(jié)構(gòu)(RCFile)JobScheduleTaskLaunch……TaskLaunchTaskLaunchRowConstructionRowConstructionRowConstructionReadDatafromDistributedFileSystemSubsequentProcessingSubsequentProcessingSubsequentProcessingRowReconstructionParallelTasks……
RCFile將關(guān)系數(shù)據(jù)水平分塊,塊內(nèi)按列序存儲(chǔ),實(shí)現(xiàn)文件級(jí)邏輯結(jié)構(gòu)優(yōu)化行式存儲(chǔ)結(jié)構(gòu)(Apache
Hive,SequenceFile)行列混合式數(shù)據(jù)存儲(chǔ)技術(shù)RCFileJoblaun1ch6關(guān)系數(shù)據(jù)按行序運(yùn)行時(shí)重建1661大數(shù)據(jù)技術(shù)如何應(yīng)用于傳統(tǒng)信息系統(tǒng)課件6218互補(bǔ)式聚簇索引技術(shù)CCIndex
CCIndex利用冗余的副本數(shù)據(jù)塊為多數(shù)據(jù)列構(gòu)建聚簇索引,不增加額外存儲(chǔ)空間,實(shí)現(xiàn)數(shù)據(jù)塊級(jí)布局結(jié)構(gòu)優(yōu)化以及分布式實(shí)時(shí)查詢統(tǒng)計(jì)能力CCIndex保持了BigTable數(shù)據(jù)模型高可擴(kuò)展和高吞吐率特性,同時(shí)具有關(guān)系數(shù)據(jù)模型的查詢統(tǒng)計(jì)能力CCIndex將二級(jí)索引變?yōu)橐患?jí)索引,丌訪問(wèn)原表直接進(jìn)行區(qū)間查詢和統(tǒng)計(jì)以CCIndex為核心的系統(tǒng)支持多維區(qū)間實(shí)時(shí)查詢統(tǒng)計(jì)示例:select
count(cl1)
from
TAB
where
cl1<A
and
cl2>B18互補(bǔ)式聚簇索引技術(shù)CCIndex CCIndex利用冗63Ir 亙補(bǔ)式m古古古工?? CClndex
利用冗余的副本數(shù)據(jù)塊為多數(shù)據(jù)列構(gòu)建聚簇索引,不增加額外存儲(chǔ)空間,實(shí)現(xiàn)數(shù)據(jù)塊級(jí)布局結(jié)構(gòu)優(yōu)化以及分布式實(shí)時(shí)查詢統(tǒng)計(jì)能力’UWM礫gaa-元噎領(lǐng)性”2··.'a"畸"帆,t吃草’酌』"?暴阻。.,
邸,1
111民
Id·I飛I
o,〔Cnd創(chuàng)盼到gTible措
1前擴(kuò)前四二辛苦主,
同ti\
主關(guān)系據(jù)膽frj
鼓II自動(dòng)押回
翩然
回f:::
i圓圓I/:,iJ
二
;:I
At
創(chuàng)
口
u:I.!解決7海量數(shù)據(jù)實(shí)時(shí)分析計(jì)期快性問(wèn)題1/W電d(.
制:,
:1
.."T!'嚀"..
;刷
)-?
'h'I
f
.I
伊·麗E嚼訕
=t
豆豆:歸路以(創(chuàng)喇圳j
支持施i司主l\fi袋lt一一一一一’Cl!nde精衛(wèi)生51
*袁世
,+E脅撞擊呂能|司
腦lt詞。由i〔ornt(cll)from
TMwheecll<A
and
d;>B缸囂
陽(yáng)回國(guó)、問(wèn)陽(yáng),,,.,回.、白啊..U國(guó):立|
白宮J囂瞿...曲陰
陽(yáng)mmm刷刷。擬
出
那
就
您叫陽(yáng)剛剛放9陸“禽""'
"'缸捐Md
S..陽(yáng)曬
Scan
...脅Scan陸Ml-dim刷sior四陽(yáng)叫l(wèi)'臼捕魚??ThfOUJh膽"My舍
ιC陽(yáng)....(301A)
=崎s。Clu>I
(四叫
=MyS。也Cluser(7
”A)
…C旬以...(00叫
c=:i優(yōu)lndex(70峭
=cc河內(nèi)de<
陽(yáng)攏’>
=街
dO舊γ陽(yáng)臼""'19查詢性能是常用
二圾索引技術(shù)的
10倍以上t
MySQL
Cl
uster
內(nèi)存數(shù)據(jù)庫(kù)的多維
區(qū)間查詢性能快1倍Ir 亙補(bǔ)式m古古古工?? CClndex利用冗余的副本數(shù)64RCFile技術(shù)性能優(yōu)勢(shì)和應(yīng)用情況?Compared
with
SequenceFile,
which
wasthe
default
row
store
technology
in
Apache
Hive,
RCFile
can
achieve
up
to
20%
space
savings
without
affectingquery
performance.?Compared
with
column
group
technologyused
in
Apache
Pig,
which
is
another
bigdata
analysis
system,
RCFile’s
dataloading
is
23%
faster
as
far
as
the
diskspace
utilization
ratio
is
almost
equal.?Obviously,
RCFilehas become
the
defacto
standard
of
data
storage
structureinside
distributed
offline
data
analysissystems
such
as
ApacheHive.RCFile技術(shù)性能優(yōu)勢(shì)和應(yīng)用情況?Comparedwit65CCIndex技術(shù)性能優(yōu)勢(shì)和應(yīng)用情況采用CCIndex后,在硬件規(guī)模保持丌變的前提下,系統(tǒng)處理的數(shù)據(jù)時(shí)效范圍從原來(lái)的7天增大到3個(gè)月,處理的數(shù)據(jù)規(guī)模增大了一個(gè)數(shù)量級(jí),系統(tǒng)吞吐率增大了7倍,對(duì)原來(lái)延遲大于1s的查詢請(qǐng)求響應(yīng)時(shí)間平均降低了57.4%。CCIndex技術(shù)可以解決諸如HBase等當(dāng)前主流的列簇式NoSQL數(shù)據(jù)庫(kù)在多列查詢上的功能缺失和性能低下的問(wèn)題。CCIndex技術(shù)性能優(yōu)勢(shì)和應(yīng)用情況采用CCIndex后,在66技術(shù)指標(biāo)本項(xiàng)目國(guó)際領(lǐng)先系統(tǒng)數(shù)據(jù)存儲(chǔ)空間占用RCFile比行存儲(chǔ)節(jié)省約20%空間Apache
Hive(SequenceFile)數(shù)據(jù)加載性能RCFile比列存儲(chǔ)加載快23%以上Apache
Pig(Zebra)在線查詢分析性能CCIndex是二級(jí)索引技術(shù)的11.4倍Apache
HBase(IndexTable)不國(guó)外同類技術(shù)比較技術(shù)指標(biāo)本項(xiàng)目國(guó)際領(lǐng)先系統(tǒng)數(shù)據(jù)存儲(chǔ)空間占用RCFile比行存67技術(shù)指標(biāo)本項(xiàng)目國(guó)際領(lǐng)先系統(tǒng)數(shù)據(jù)存儲(chǔ)空間占用RCFile比行存儲(chǔ)節(jié)省約20%空間Apache
Hive(SequenceFile)數(shù)據(jù)加載性能RCFile比列存儲(chǔ)加載快23%以上Apache
Pig(Zebra)在線查詢分析性能CCIndex是二級(jí)索引技術(shù)的11.4倍Apache
HBase(IndexTable)實(shí)現(xiàn)PB級(jí)數(shù)據(jù)離線分析處理和百億記錄級(jí)數(shù)據(jù)實(shí)時(shí)查詢分析,成為國(guó)際事實(shí)標(biāo)準(zhǔn)不國(guó)外同類技術(shù)比較技術(shù)指標(biāo)本項(xiàng)目國(guó)際領(lǐng)先系統(tǒng)數(shù)據(jù)存儲(chǔ)空間占用RCFile比行存6824
自勱將文件分割成多個(gè)固定大小的數(shù)據(jù)塊,每個(gè)數(shù)據(jù)塊單獨(dú)壓縮
每一個(gè)文件由一個(gè)壓縮文件和索引文件構(gòu)成可應(yīng)用于Hadoop平臺(tái)上的文件系統(tǒng)在不影響其它文件系統(tǒng)的情況下,以動(dòng)態(tài)、透明的方式給文件系統(tǒng)添加壓縮功能用戶透明的HDFS數(shù)據(jù)壓縮解壓縮-SwiftFS24自勱將文件分割成多個(gè)固定大小的數(shù)據(jù)塊,每個(gè)數(shù)據(jù)塊69丌同壓縮解壓縮算法的性能對(duì)比客戶端數(shù)寫吞吐率(MB/s)Vs.最高Vs.最低nonehdw
acsnappyquicklzzlibSwiftFS19813714475461610%250%297267227144872477%184%4983133222631583260%106%8973263354022994510%51%16973123304014454750%52%32953123174045115620%80%64953063143755185830%91%128902592963325475890%127%256942232523025005830%161%丌同壓縮解壓縮算法的性能對(duì)比客戶端數(shù)寫吞吐率(MB/s)Vs70提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件Apache
Hadoop大數(shù)據(jù)管理系統(tǒng)關(guān)鍵技術(shù)大數(shù)據(jù)技術(shù)從互聯(lián)網(wǎng)走向傳統(tǒng)應(yīng)用提綱大數(shù)據(jù)研究背景和問(wèn)題開源軟件ApacheHadoop71淘寶數(shù)據(jù)魔方應(yīng)用淘寶數(shù)據(jù)魔方應(yīng)用72回國(guó)陽(yáng)西
叫川HBase:Data
Storage,
Data
Aggregati
onRegion
Se「ver,Data
Storage
lndex+CataData
AggregationRegion
Se『ver
,Data
Stcrace
Index+DataData
AggregationR?gion
Server,D丑ta
Storage
lndex+CataD:tta
Agg「egation噩噩Aggregation
ResultQuery吐酬,袖人左”仿
制幢你衍’常嗖鍵矗
.l"l;.J’”
π”扣”?
1'.U價(jià).
而.(11'1?6司
”‘,,吃
.’.吃
’V
.1.e.11哺盹刷
刷棍’且
,酬,··鳴””·”
號(hào)J
Boss
Server:Data
Aggregati
onRedis:
ResultCachet單牟血lil.. ,,’‘0 '嶺"
先Z@
’”警衍3
.a(chǎn)
而
‘
主」
〉‘’··502
4
""
,1'甜地
喝!2調(diào)υ
,??.u、開缸,E電
‘·,、
衍’S陽(yáng)'-O'
l"、
部比揭飛a
in、t\1'(+匯”F
幡函,織割
?!痶J:'lf
-:J:llU’“笨”貌..?!?,.’,a靈”m..,:...酬,寡""嗡釗,
擒獲’略決符,
民俗,”份’”份銷
”:>)1411'<1'·黛司院
幣"""
咎由警怠戴氯咱’且.'I"?a’宅’
”’巳氣,,ι回夜竅,電
陽(yáng)酬···H丁TP
Request“叫掬§ 戶、\副產(chǎn)”
(回國(guó)It::mi;;a:\-‘i:·.-?,
..每曲’”-翁翩翩Front
End酬’陽(yáng)
旦百公且咀&?
?1,'1!1,;'0t1”姐姐?!泵靼傺驭?/p>
”"恨恨玄;;;:晤’‘·“盟”...,側(cè)
lll;ut.'
lltll事””tt
‘民弱,.
?
fit:回國(guó)陽(yáng)西叫川HBase:DataStorage,Da73令基于全網(wǎng)父易記錄的數(shù)據(jù)可視化工具/服務(wù)
令掌握商品交易情況〈·洞察行業(yè)熱點(diǎn)及商機(jī)回H:丁
工
4二m
緩」:;霄
忑二?.”叫叫令30萬(wàn)付費(fèi)用戶乙
,
:苦 奮(\
出/
\/飛\,
I叩二二二王
令6TB數(shù)據(jù)/100億條記錄數(shù)據(jù)實(shí)
時(shí)統(tǒng)計(jì)查詢噩噩盟叫,..礎(chǔ) 帽拿給忻國(guó)酣四寬劇?”’m'"'"''·-
a』·一
立’
…←
回她站脯’能桐’.,』『』←”氫統(tǒng)篇?!憋L(fēng)”·il:明嗎俐.,..
·加州時(shí)吳剛以??<l蟲””...?
..'"""
敬酒軍墨
一
一一~令基于全網(wǎng)父易記錄的數(shù)據(jù)可視化工具/服務(wù)令掌握商品交易情況74淘寶數(shù)據(jù)魔方
–
全屬性實(shí)時(shí)計(jì)算數(shù)據(jù)裝載云梯HBaseHBaseHBase……全網(wǎng)交易數(shù)據(jù)張軒丞(朋春),淘寶海量數(shù)據(jù)產(chǎn)品的技術(shù)架構(gòu),iDataForum2011淘寶數(shù)據(jù)魔方–全屬性實(shí)時(shí)計(jì)算數(shù)據(jù)裝載云梯HBaseHBa75淘寶數(shù)據(jù)魔方
–
全屬性實(shí)時(shí)計(jì)算數(shù)據(jù)裝載云梯HBaseHBase……交易1(二進(jìn)制,定長(zhǎng))HBase交易2索引:交易id列表屬性對(duì)全網(wǎng)交易數(shù)據(jù)數(shù)據(jù)查詢張軒丞(朋春),淘寶海量數(shù)據(jù)產(chǎn)品的技術(shù)架構(gòu),iDataForum2011節(jié)點(diǎn)1 1,
2,
4,9節(jié)點(diǎn)2 1,4,7查索引求交集節(jié)點(diǎn)2
1,
4本地SUM運(yùn)算(HBase擴(kuò)展)匯總計(jì)算寫入緩存求SUM(alipay)屬性屬性值筆記本尺寸13寸筆記本定位商務(wù)定位淘寶數(shù)據(jù)魔方–全屬性實(shí)時(shí)計(jì)算數(shù)據(jù)裝載云梯HBaseHBa76
取原系統(tǒng)查詢?nèi)罩荆?0天),所有查詢按原系統(tǒng)的響應(yīng)時(shí)間分為三類統(tǒng)計(jì)平均響應(yīng)時(shí)間;
測(cè)試前清空cache;
測(cè)試時(shí)新庫(kù)中有25天數(shù)據(jù),200G左右;
可查詢時(shí)間從7天拓展到至少30天。采用CCIndex后新舊系統(tǒng)性能對(duì)比取原系統(tǒng)查詢?nèi)罩荆?0天),所有查詢按原系統(tǒng)的響采用CC77分析系統(tǒng)后臺(tái)支持全表統(tǒng)計(jì)服務(wù)端統(tǒng)計(jì)速度
15~50W R/S/Server
or400W
R/S/Server。支持sum、avg、count、group
by、sortselect算子(F:C)
where
條件
group
by(F:C),
sortby(F:C)查詢。條件
[F:C>|<(rang)]and|or[F:C>|<(rang)]分析系統(tǒng)后臺(tái)支持全表統(tǒng)計(jì)78銀行:冠字號(hào)查詢測(cè)試結(jié)論:在并發(fā)200的情況下,依然能夠提供秒級(jí)的數(shù)據(jù)訪問(wèn)效率,可以預(yù)見完全能夠滿足冠字信息查詢的性能需求。數(shù)據(jù)規(guī)則按照冠字信息數(shù)據(jù)模擬測(cè)試記錄數(shù)81億測(cè)試文件大小610G導(dǎo)入后大小2.4T索引后大小4.7T測(cè)試并發(fā)數(shù)200查詢模式單項(xiàng)查詢、組合查詢測(cè)試環(huán)境IP配置02*Intel
Xeon
E5-2650
8核/2.00GHZ
64GB內(nèi)存
52TB12*Intel
Xeon
E5-2650
8核/2.00GHZ
64GB內(nèi)存
52TB22*Intel
Xeon
E5-265
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司房租租憑合同范本
- 勞動(dòng)安全協(xié)議合同范本
- 包子店加盟簽約合同范本
- 人工打草合同范本
- 沖孔加工銷售合同范本
- 2024年河南省直第三人民醫(yī)院招聘筆試真題
- 第14課《回憶我的母親》教學(xué)設(shè)計(jì) 2024-2025學(xué)年統(tǒng)編版語(yǔ)文七年級(jí)上冊(cè)
- 力工合同范例
- 中國(guó)鐵建合同范本
- 包月工作合同范本
- 讓孩子變成學(xué)習(xí)的天使——由《第56號(hào)教室的奇跡》讀書分享
- 外陰及陰道炎癥
- 球泡檢驗(yàn)標(biāo)準(zhǔn)
- 公安筆錄模板之詢問(wèn)嫌疑人(書面?zhèn)鲉局伟舶讣?
- 振動(dòng)分析基礎(chǔ)講義1
- 記賬憑證匯總表excel模板
- 鄧麗君經(jīng)典歌曲30首簡(jiǎn)譜(共33頁(yè))
- 故障診斷技術(shù)的國(guó)內(nèi)外發(fā)展現(xiàn)狀(共3頁(yè))
- 園林綠化施工通用表格模板
- 人民檢察院信訪案件終結(jié)辦法
評(píng)論
0/150
提交評(píng)論