大數(shù)據(jù)時(shí)代的數(shù)據(jù)庫課件_第1頁
大數(shù)據(jù)時(shí)代的數(shù)據(jù)庫課件_第2頁
大數(shù)據(jù)時(shí)代的數(shù)據(jù)庫課件_第3頁
大數(shù)據(jù)時(shí)代的數(shù)據(jù)庫課件_第4頁
大數(shù)據(jù)時(shí)代的數(shù)據(jù)庫課件_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)時(shí)代的數(shù)據(jù)庫1大數(shù)據(jù)時(shí)代的數(shù)據(jù)庫11云計(jì)算概念提出2Hadoop的發(fā)展歷史3Hadoop的核心技術(shù)MapReduce4Hadoop核心技術(shù)數(shù)據(jù)庫Hbase5其它NoSQL數(shù)據(jù)庫21云計(jì)算概念提出2Hadoop的發(fā)展歷史3Hadoop的核心33大數(shù)據(jù)特性4V特性Volume(數(shù)據(jù)量大)Variety(種類多)Value(價(jià)值密度低,商業(yè)價(jià)值高Velocity(處理速度快)對(duì)傳統(tǒng)數(shù)據(jù)庫的挑戰(zhàn)4大數(shù)據(jù)特性4V特性4用一個(gè)實(shí)例來理解云計(jì)算5用一個(gè)實(shí)例來理解云計(jì)算512345開發(fā)人員部署代碼,上傳數(shù)據(jù)庫結(jié)構(gòu)和數(shù)據(jù),并進(jìn)行必要的測(cè)試,之后運(yùn)維人員開通網(wǎng)站運(yùn)行期間,企業(yè)需要雇傭?qū)iT人員負(fù)責(zé)服務(wù)器和網(wǎng)絡(luò)的維護(hù),定期備份數(shù)據(jù)等日常工作購買數(shù)據(jù)庫服務(wù)器來部署后臺(tái)數(shù)據(jù)庫配置網(wǎng)站的域名等工作購買應(yīng)用服務(wù)器來部署這個(gè)網(wǎng)站云計(jì)算所需解決的問題

——假設(shè)某家企業(yè)開發(fā)一個(gè)旅游網(wǎng)站數(shù)據(jù)量612345開發(fā)人員部署代碼,上傳數(shù)據(jù)庫結(jié)構(gòu)和數(shù)據(jù),并進(jìn)行必要云計(jì)算所需解決的問題

——假設(shè)某家企業(yè)開發(fā)一個(gè)旅游網(wǎng)站企業(yè)需要待解決的問題1、購買新的服務(wù)器2、增加更多的運(yùn)維成員3、購買和安裝設(shè)備都是需要時(shí)間的,可能在此期間整個(gè)網(wǎng)站出現(xiàn)響應(yīng)減慢,經(jīng)常出錯(cuò)、導(dǎo)致大量的客戶流失4、淡季的時(shí)候,訪問量低,剛購買的服務(wù)器又成為資源的浪費(fèi)成本效益怎樣解決這個(gè)問題呢?7云計(jì)算所需解決的問題企業(yè)需要待解決的問題1、購買新的服務(wù)器2云計(jì)算所需解決的問題

——假設(shè)某家企業(yè)開發(fā)一個(gè)旅游網(wǎng)站

引入云計(jì)算,它可以從根本上解決這個(gè)問題,因?yàn)樵朴?jì)算是通過互聯(lián)網(wǎng)將共享的硬件軟件資源按需提供給使用者,所有的設(shè)備都是由云計(jì)算服務(wù)商維護(hù),這樣無論是專業(yè)的軟件開發(fā)商,還是最終的客服,都可以將全部精力集中于業(yè)務(wù)領(lǐng)域,而無須考慮硬件維護(hù)、容災(zāi)等運(yùn)維問題,無形之中也為企業(yè)節(jié)省了成本、提高了經(jīng)濟(jì)效益…………8云計(jì)算所需解決的問題引入云計(jì)算,它可以從根本何為云計(jì)算?(理解1)

云計(jì)算,其實(shí)就是把所有的計(jì)算應(yīng)用和信息資源都用互聯(lián)網(wǎng)連接起來,供個(gè)人和企業(yè)用戶隨時(shí)訪問、分享、管理和使用,相關(guān)的資源可以通過全球任何一個(gè)服務(wù)器和數(shù)據(jù)中心來提取的技術(shù)。9何為云計(jì)算?(理解1)云計(jì)算,其實(shí)就是把所有的計(jì)何為云計(jì)算?(理解2)

是通過網(wǎng)絡(luò)將龐大的計(jì)算處理程序自動(dòng)分拆成無數(shù)個(gè)較小的子程序,再由多部服務(wù)器所組成的龐大系統(tǒng)搜索、計(jì)算分析之后將處理結(jié)果回傳給用戶。通過這項(xiàng)技術(shù),遠(yuǎn)程的服務(wù)供應(yīng)商可以在數(shù)秒之內(nèi),達(dá)成處理數(shù)以千萬計(jì)甚至億計(jì)的信息,達(dá)到和“超級(jí)電腦”同樣強(qiáng)大性能的網(wǎng)絡(luò)服務(wù)。10何為云計(jì)算?(理解2)是通過網(wǎng)絡(luò)將龐大的計(jì)算網(wǎng)絡(luò)計(jì)算發(fā)展趨勢(shì)2012云格(Gloud=Grid+Cloud)1995集群計(jì)算原理:指令層次的并行1998網(wǎng)格計(jì)算原理:任務(wù)并行1999對(duì)等計(jì)算原理:數(shù)據(jù)并行2007云計(jì)算原理:位層次的并行(可處理長(zhǎng)字節(jié))網(wǎng)格技術(shù):主要解決分布在不同機(jī)構(gòu)的各種信息資源的共享問題云計(jì)算:主要解決計(jì)算力和存儲(chǔ)空間的集中共享使用問題。11網(wǎng)絡(luò)計(jì)算發(fā)展趨勢(shì)2012云格(Gloud=Grid+Clou為什么云計(jì)算如此流行特別是NoSQL---非關(guān)系型數(shù)據(jù)庫12為什么云計(jì)算如此流行特別是NoSQL---非關(guān)系型數(shù)據(jù)庫12那么云計(jì)算數(shù)據(jù)庫是怎樣提出的呢?數(shù)據(jù)量1、關(guān)系數(shù)據(jù)庫高并發(fā)讀寫速度慢2、關(guān)系數(shù)據(jù)庫支撐容量有限------類似Facebook、Twitter這樣的SNS網(wǎng)站,

用戶每天產(chǎn)生海量的用戶動(dòng)態(tài),每月

會(huì)產(chǎn)生幾億條用戶動(dòng)態(tài),對(duì)于關(guān)系型

數(shù)據(jù)庫來說,在一張數(shù)億條記錄的表

里面進(jìn)行SQL查詢,效率是極其低下

乃至不可忍受的。3、關(guān)系數(shù)據(jù)庫擴(kuò)展性差4、數(shù)據(jù)日趨龐大,無論是入庫和查詢,

都出現(xiàn)性能瓶頸5、用戶的應(yīng)用和分析結(jié)果呈整合趨勢(shì),

對(duì)實(shí)時(shí)性和響應(yīng)時(shí)間要求越來越高Nosql13那么云計(jì)算數(shù)據(jù)庫是怎樣提出的呢?數(shù)據(jù)量1、關(guān)系數(shù)據(jù)庫高并發(fā)讀關(guān)系數(shù)據(jù)庫與Hadoop分布式系統(tǒng)的比較————為何云計(jì)算數(shù)據(jù)采用Hadoop分布式系統(tǒng)14關(guān)系數(shù)據(jù)庫與Hadoop分布式系統(tǒng)的比較————為何云計(jì)算數(shù)云計(jì)算的核心技術(shù)15云計(jì)算的核心技術(shù)15云計(jì)算提出——hadoop思想用很多小型PC機(jī)來代替大型服務(wù)器16云計(jì)算提出——hadoop思想用很多小型PC機(jī)來代替大型服務(wù)云計(jì)算核心技術(shù)——hadoop子項(xiàng)目家族數(shù)據(jù)倉庫工具,可以看成是從SQL到Map-Reduce的映射器ZooKeeper用于協(xié)調(diào)分布式系統(tǒng)上的各種服務(wù),應(yīng)用場(chǎng)景、實(shí)現(xiàn)Namenode自動(dòng)切換Avro數(shù)據(jù)序列化工具,用于支持大批量數(shù)據(jù)交換的應(yīng)用。支持二進(jìn)制序列化方式,可以便捷,快速地處理大量數(shù)據(jù)

Chukwa在Hadoop之上的數(shù)據(jù)采集與分析框架、主要進(jìn)行日志采集和分析Pig可以看做hadoop的客戶端軟件,可以連接到hadoop集群進(jìn)行數(shù)據(jù)分析工作17云計(jì)算核心技術(shù)——hadoop子項(xiàng)目家族數(shù)據(jù)倉庫工具,可以看云計(jì)算核心技術(shù)——英特爾hadoop發(fā)行版組件SQL-to-HDFS工具,利用jdbc連接關(guān)系形數(shù)據(jù)庫如連接Oracle要安裝:ojdbc6.jar如連接My-Sql要安裝:mysql-connector18云計(jì)算核心技術(shù)——英特爾hadoop發(fā)行版組件SQL-to-云計(jì)算核心技術(shù)——hadoop的發(fā)展歷史2004年,Google發(fā)表論文,向全世界介紹了MapReduce。2005年初,為了支持Nutch搜索引擎項(xiàng)目,Nutch的開發(fā)者基于Google發(fā)布的MapReduce報(bào)告,在Nutch上開發(fā)了一個(gè)可工作的MapReduce應(yīng)用。

2006年1月,DougCutting加入雅虎,Yahoo!提供一個(gè)專門的團(tuán)隊(duì)和資源將Hadoop發(fā)展成一個(gè)可在網(wǎng)絡(luò)上運(yùn)行的系統(tǒng)。2007年,百度開始使用Hadoop做離線處理,目前差不多80%的Hadoop集群用作日志處理。2007年,中國(guó)移動(dòng)開始在“大云”研究中使用Hadoop技術(shù),規(guī)模超過1000臺(tái)。2008年,淘寶開始投入研究基于Hadoop的系統(tǒng)——云梯,并將其用于處理電子商務(wù)相關(guān)數(shù)據(jù)。云梯1的總?cè)萘看蟾艦?.3PB,包含了1100臺(tái)機(jī)器,每天處理約18000道作業(yè),掃描500TB數(shù)據(jù)。

19云計(jì)算核心技術(shù)——hadoop的發(fā)展歷史2004年,Goog云計(jì)算核心技術(shù)——hadoop的發(fā)展歷史

2008年7月,Hadoop打破1TB數(shù)據(jù)排序基準(zhǔn)測(cè)試記錄。Yahoo!的一個(gè)Hadoop集群用209秒完成1TB數(shù)據(jù)的排序,比上一年的紀(jì)錄保持者保持的297秒快了將近90秒。2009年5月,Yahoo的團(tuán)隊(duì)使用Hadoop對(duì)1TB的數(shù)據(jù)進(jìn)行排序只花了62秒時(shí)間。2010年5月,IBM提供了基于Hadoop的大數(shù)據(jù)分析軟件——InfoSphereBigInsights,包括基礎(chǔ)版和企業(yè)版。2011年8月,Cloudera公布了一項(xiàng)有益于合作伙伴生態(tài)系統(tǒng)的計(jì)劃——?jiǎng)?chuàng)建一個(gè)生態(tài)系統(tǒng),以便硬件供應(yīng)商、軟件供應(yīng)商以及系統(tǒng)集成商可以一起探索如何使用Hadoop更好的洞察數(shù)據(jù)。2011年8月,Dell與Cloudera聯(lián)合推出Hadoop解決方案——ClouderaEnterprise。20云計(jì)算核心技術(shù)——hadoop的發(fā)展歷史2008年7月,HHadoop框架云計(jì)算核心技術(shù)1、管理文件系統(tǒng)的命名空間記錄每個(gè)文件數(shù)據(jù)塊在各個(gè)Datanode上的位置和副本信息2、協(xié)調(diào)客戶端對(duì)文件的訪問3、記錄命名空間內(nèi)的改動(dòng)或空間本身屬性的改動(dòng)4、Namenode使用事務(wù)日志記錄HDFS元數(shù)據(jù)的變化。使用映像文件存儲(chǔ)文件系統(tǒng)的命名空間,包括文件映射,文件屬性等1、負(fù)責(zé)所在物理節(jié)點(diǎn)的存儲(chǔ)管理2、一次寫入,多次讀取3、文件由數(shù)據(jù)塊組成,典型的塊大小是64MB4、數(shù)據(jù)塊盡量散布道各個(gè)節(jié)點(diǎn)21Hadoop框架云計(jì)算核心技術(shù)1、管理文件系統(tǒng)的命名空間1——分布式文件系統(tǒng)(HDFS)/MapReduce原理云計(jì)算核心技術(shù)MAPReduce22——分布式文件系統(tǒng)(HDFS)/MapReduce原理云計(jì)算云計(jì)算核心技術(shù)——MapReduce編程模型23云計(jì)算核心技術(shù)——MapReduce編程模型23Example:CountingWordsMap()?Input<filename,filetext>Parsesfileandemits<word,count>pairseg.<”hello”,1>Reduce()?Sumsvaluesforthesamekeyandemits<word,TotalCount>eg.<”hello”,(3527)>=><”hello”,17>24Example:CountingWordsMap()?2云計(jì)算核心技術(shù)——Hbase數(shù)據(jù)庫的基本概念1、HBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫,來自Google論文“Bigtable:一個(gè)結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)系統(tǒng)”

2、HBase不同于一般的關(guān)系數(shù)據(jù)庫,它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫.另一個(gè)不同的是HBase基于列的而不是基于行的模式25云計(jì)算核心技術(shù)——Hbase數(shù)據(jù)庫的基本概念1、HBase是——Hbase邏輯模型云計(jì)算核心技術(shù)行健時(shí)間戳列簇contents列簇auchor列簇mime“n.www”t9Anchor:=“k”t8Anchor:my.look.ca=“CNN.com”t6Contents:html=“<html>”Mime:type=“text/html”t5Contents:html=“<html>”t3Contents:html=“<html>”1、以表的形式存放數(shù)據(jù)2、表由行與列組成,每個(gè)列屬于某個(gè)列族,由行和列確定的存儲(chǔ)單元稱為元素3、每個(gè)元素保存了同一份數(shù)據(jù)的多個(gè)版本,由時(shí)間戳來標(biāo)識(shí)區(qū)分限定符,列名Key值天生面向時(shí)間查詢的數(shù)據(jù)庫26——Hbase邏輯模型云計(jì)算核心技術(shù)行健時(shí)間戳列簇cont——Hbase物理模型云計(jì)算核心技術(shù)Hmaster管理元數(shù)據(jù)(表分區(qū)、管理該分區(qū)的RegionServer)RegionServer負(fù)責(zé)Region數(shù)據(jù)的存儲(chǔ)和讀取通過client讀寫數(shù)據(jù)Hbase的所有數(shù)據(jù)(Hlog和Hfile)均存儲(chǔ)到HDFS上,HDFS將文件劃分為64MB的block,并存儲(chǔ)多個(gè)副本災(zāi)難分析一個(gè)列簇27——Hbase物理模型云計(jì)算核心技術(shù)Hmaster管理元數(shù)據(jù)云計(jì)算核心技術(shù)——行式數(shù)據(jù)庫與列式數(shù)據(jù)庫理解28云計(jì)算核心技術(shù)——行式數(shù)據(jù)庫與列式數(shù)據(jù)庫理解281、對(duì)應(yīng)每次數(shù)據(jù)操作的時(shí)間,可由系統(tǒng)自動(dòng)生成,也可以由用戶顯式的賦值2、Hbase支持兩種數(shù)據(jù)版本回收方式:A、

每個(gè)數(shù)據(jù)單元,只存儲(chǔ)指定個(gè)數(shù)的最新版本B、保存指定時(shí)間長(zhǎng)度的版本(例如7天)3、常見的客戶端時(shí)間查詢:“某個(gè)時(shí)刻起的最新數(shù)據(jù)”或“給我全部版本的數(shù)據(jù)”。云計(jì)算核心技術(shù)——Hbase特點(diǎn)與BigTable思想291、對(duì)應(yīng)每次數(shù)據(jù)操作的時(shí)間,可由系統(tǒng)自動(dòng)生成,也可以由用戶顯云計(jì)算核心技術(shù)——Hbase和Oracle比較1、Hbase適合大量插入同時(shí)又有讀取的情況

2、Hbase的瓶頸是硬盤傳輸速度3、Oracle的瓶頸是硬盤尋道時(shí)間4、Hbase很適合尋找按照時(shí)間排序topn的場(chǎng)景30云計(jì)算核心技術(shù)——Hbase和Oracle比較1、Hbase云計(jì)算核心技術(shù)——Hbase場(chǎng)景案列:瀏覽歷史31云計(jì)算核心技術(shù)——Hbase場(chǎng)景案列:瀏覽歷史31云計(jì)算的核心技術(shù)在現(xiàn)實(shí)應(yīng)用注意:下面實(shí)例大部分摘錄于2012年hadoop與大數(shù)據(jù)技術(shù)大會(huì)該會(huì)議舉行時(shí)間:2012年11月30日-12月1日在北京該會(huì)議權(quán)威級(jí)別:32云計(jì)算的核心技術(shù)在現(xiàn)實(shí)應(yīng)用注意:下面實(shí)例大部分摘錄于20------應(yīng)用之一HadoopinTelecom云計(jì)算核心技術(shù)載波的優(yōu)化用戶的分割瞬間查詢3G用戶數(shù)量的記錄33------應(yīng)用之一HadoopinTeleco云計(jì)算核心技術(shù)------應(yīng)用之二HadoopinSmartCity罰單信息流處理34云計(jì)算核心技術(shù)------應(yīng)用之二Hadoopin云計(jì)算核心技術(shù)------應(yīng)用之三阿里云“云梯”集群發(fā)展淘寶的搜索引擎能夠?qū)?shù)十億的商品數(shù)據(jù)進(jìn)行實(shí)時(shí)搜索,另外還擁有自主研發(fā)的文件存儲(chǔ)系統(tǒng)和緩存系統(tǒng),以及Java中間件和消息中間件系統(tǒng),這一切組成了一個(gè)龐大的電子商務(wù)操作系統(tǒng)。35云計(jì)算核心技術(shù)------應(yīng)用之三阿里云“云梯”集群發(fā)展淘云計(jì)算核心技術(shù)------應(yīng)用之三阿里云“云梯”數(shù)據(jù)平臺(tái)框架36云計(jì)算核心技術(shù)------應(yīng)用之三阿里云“云梯”數(shù)據(jù)平臺(tái)框云計(jì)算核心技術(shù)------應(yīng)用之三百度數(shù)據(jù)倉庫框架DW37云計(jì)算核心技術(shù)------應(yīng)用之三百度數(shù)據(jù)倉庫框架DW37云計(jì)算核心技術(shù)HADOOP------數(shù)據(jù)存入和抽取每小時(shí)移動(dòng)數(shù)十TB的交易數(shù)

據(jù)、交互數(shù)據(jù)和流數(shù)據(jù)38全球領(lǐng)先的獨(dú)立企業(yè)數(shù)據(jù)集成軟件提供商云計(jì)算核心技術(shù)HADOOP------數(shù)據(jù)存入和抽取每小時(shí)移云計(jì)算核心技術(shù)----應(yīng)用五

大數(shù)據(jù)是云計(jì)算的兩大核心內(nèi)容之一39云計(jì)算核心技術(shù)----應(yīng)用五大數(shù)據(jù)是云計(jì)算的兩大核心內(nèi)容云計(jì)算核心技術(shù)----應(yīng)用五

大數(shù)據(jù)是云計(jì)算的兩大核心內(nèi)容之一全世界權(quán)威IT咨詢公司研究報(bào)告預(yù)測(cè)KB,MB,GB、TB,PB、EB、ZB、YB、BB

1ZB=1.153*1018

KB40云計(jì)算核心技術(shù)----應(yīng)用五大數(shù)據(jù)是云計(jì)算的兩大核心內(nèi)容一、大數(shù)據(jù)存儲(chǔ)管理和索引查詢問題二、Hadoop性能優(yōu)化問題三、圖數(shù)據(jù)并行計(jì)算模型和框架四、并行化機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法五、社會(huì)網(wǎng)絡(luò)分析六、排名和推薦七、Web信息挖掘和檢索八、媒體分析檢索九、自然語言處理十、大數(shù)據(jù)可視化計(jì)算與分析云計(jì)算核心技術(shù)當(dāng)今數(shù)據(jù)熱點(diǎn)研究的十個(gè)問題:----數(shù)據(jù)分析發(fā)展趨勢(shì)系統(tǒng)層基礎(chǔ)算法應(yīng)用算法應(yīng)用技術(shù)41一、大數(shù)據(jù)存儲(chǔ)管理和索引查詢問題云計(jì)算核心技術(shù)當(dāng)今數(shù)據(jù)熱點(diǎn)Hadoop----發(fā)展形勢(shì)hadoop42Hadoop----發(fā)展形勢(shì)hadoop42BerkeleyBDAS平臺(tái)43BerkeleyBDAS平臺(tái)43NoSQL數(shù)據(jù)庫基礎(chǔ)理論CAP理論與一致性模型數(shù)據(jù)存儲(chǔ)模型與數(shù)據(jù)庫Key-valueDBColumn-orientedDBDocument-orientedDBGraphDB…44NoSQL數(shù)據(jù)庫基礎(chǔ)理論44CAP理論強(qiáng)一致性(Consistency)系統(tǒng)在執(zhí)行某操作后仍處于一致的狀態(tài)??捎眯裕ˋvailability)每一個(gè)操作能夠在一定時(shí)間內(nèi)返回結(jié)果,如果超時(shí)則被認(rèn)為不可用。分區(qū)容錯(cuò)性(Partitiontolerance)在網(wǎng)絡(luò)分區(qū)(被劃分成孤立的區(qū)域)的情況下仍可接受請(qǐng)求。45/101CAP理論強(qiáng)一致性(Consistency)45/101多副本數(shù)據(jù)一致性模型強(qiáng)一致性無論更新在哪個(gè)副本上進(jìn)行,之后的所有操作都能獲得更新的數(shù)據(jù)。弱一致性用戶讀到某一操作對(duì)系統(tǒng)的更新需要一段時(shí)間最終一致性保證用戶最終能夠讀到某一操作對(duì)系統(tǒng)的更新46/101多副本數(shù)據(jù)一致性模型強(qiáng)一致性46/1014747應(yīng)用場(chǎng)景:內(nèi)容緩存,主要用于處理大量數(shù)據(jù)的高訪問負(fù)載,也用于一些日志系統(tǒng)。優(yōu)點(diǎn):查找迅速缺點(diǎn):數(shù)據(jù)無結(jié)構(gòu),通常只被當(dāng)做字符串或二進(jìn)制數(shù)據(jù)48應(yīng)用場(chǎng)景:內(nèi)容緩存,主要用于處理大量數(shù)據(jù)的高訪問負(fù)載,也用于Java實(shí)現(xiàn)的開源key-value數(shù)據(jù)庫特征數(shù)據(jù)自動(dòng)冗余備份于多個(gè)結(jié)點(diǎn)上數(shù)據(jù)分區(qū)存儲(chǔ)單點(diǎn)故障對(duì)整個(gè)系統(tǒng)透明支持復(fù)雜數(shù)據(jù)類型的序列化將數(shù)據(jù)項(xiàng)進(jìn)行版本化,出現(xiàn)故障時(shí)最大限度保證數(shù)據(jù)的完整性49Java實(shí)現(xiàn)的開源key-value數(shù)據(jù)庫49開源項(xiàng)目,源代碼采用了Apache2.0的使用許可特征自動(dòng)將在線數(shù)據(jù)遷移到低延遲的存儲(chǔ)介質(zhì)的技術(shù)(內(nèi)存,固態(tài)硬盤,磁盤)可選的寫操作一一異步,同步(基于復(fù)制,持久化)多線程低鎖爭(zhēng)用盡可能使用異步處理自動(dòng)實(shí)現(xiàn)重復(fù)數(shù)據(jù)刪除動(dòng)態(tài)再平衡現(xiàn)有集群通過把數(shù)據(jù)復(fù)制到多個(gè)集群?jiǎn)卧椭С挚焖偈∞D(zhuǎn)移來提供系統(tǒng)的高可用性。50開源項(xiàng)目,源代碼采用了Apache2.0的使用許可505151應(yīng)用場(chǎng)景:分布式文件系統(tǒng)優(yōu)點(diǎn):查找迅速,可擴(kuò)展性強(qiáng),更容易進(jìn)行分布式擴(kuò)展缺點(diǎn):功能相對(duì)有限52應(yīng)用場(chǎng)景:分布式文件系統(tǒng)5253535454最初由Facebook開發(fā),用于儲(chǔ)存收件箱等簡(jiǎn)單格式數(shù)據(jù),集GoogleBigTable的數(shù)據(jù)模型與AmazonDynamo的完全分布式的架構(gòu)于一身Facebook于2008將Cassandra開源,此后,由于Cassandra良好的可擴(kuò)放性,被Digg、Twitter等知名Web2.0網(wǎng)站所采納,成為了一種流行的分布式結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)方案。主要特征:模式靈活:使用Cassandra,像文檔存儲(chǔ),你不必提前解決記錄中的字段。真正的可擴(kuò)展性:Cassandra是純粹意義上的水平擴(kuò)展。為給集群添加更多容量,可以指向另一臺(tái)電腦。你不必重啟任何進(jìn)程,改變應(yīng)用查詢,或手動(dòng)遷移任何數(shù)據(jù)。分布式寫操作:有可以在任何地方任何時(shí)間集中讀或?qū)懭魏螖?shù)據(jù)。并且不會(huì)有任何單點(diǎn)失敗。列表數(shù)據(jù)結(jié)構(gòu):在混合模式可以將超級(jí)列添加到5維。對(duì)于每個(gè)用戶的索引,這是非常方便的。55最初由Facebook開發(fā),用于儲(chǔ)存收件箱等簡(jiǎn)單格式數(shù)據(jù),集應(yīng)用場(chǎng)景:web應(yīng)用等優(yōu)點(diǎn):數(shù)據(jù)要求不嚴(yán)格,不需要預(yù)先定義結(jié)構(gòu)缺點(diǎn):查詢能力不高,缺乏統(tǒng)一的查詢語法56應(yīng)用場(chǎng)景:web應(yīng)用等56可以通過JavaScriptObjectNotation(JSON)API訪問“Couch”=

“ClusterOfUnreliableCommodityHardware”,目標(biāo)具有高度可伸縮性,提供了高可用性和高可靠性,即使運(yùn)行在容易出現(xiàn)故障的硬件上也是如此特點(diǎn)CouchDB是分布式的數(shù)據(jù)庫,他可以把存儲(chǔ)系統(tǒng)分布到n臺(tái)物理的節(jié)點(diǎn)上面,并且很好的協(xié)調(diào)和同步節(jié)點(diǎn)之間的數(shù)據(jù)讀寫一致性CouchDB是面向文檔的數(shù)據(jù)庫,存儲(chǔ)半結(jié)構(gòu)化的數(shù)據(jù)CouchDB支持RESTAPI,可以讓用戶使用JavaScript來操作CouchDB數(shù)據(jù)庫,也可以用JavaScript編寫查詢語句,用AJAX技術(shù)結(jié)合CouchDB開發(fā)出來的CMS系統(tǒng)會(huì)簡(jiǎn)單方便57可以通過JavaScriptObjectNotatio工作原理CouchDB構(gòu)建在強(qiáng)大的B+樹儲(chǔ)存引擎之上。這種引擎負(fù)責(zé)對(duì)CouchDB中的數(shù)據(jù)進(jìn)行排序,并提供一種能夠在對(duì)數(shù)均攤時(shí)間內(nèi)執(zhí)行搜索、插入和刪除操作的機(jī)制。數(shù)據(jù)庫的結(jié)構(gòu)獨(dú)立于模式,依賴于使用視圖創(chuàng)建文檔之間的任意關(guān)系,使用Map/Reduce計(jì)算這些視圖的結(jié)果在CouchDB中沒有鎖機(jī)制,它使用的是多版本并發(fā)性控制(Multiversionconcurrencycontrol,MVCC)58工作原理58特點(diǎn)介于關(guān)系數(shù)據(jù)庫和非關(guān)系數(shù)據(jù)庫之間的產(chǎn)品,是非關(guān)系數(shù)據(jù)庫當(dāng)中功能最豐富,最像關(guān)系數(shù)據(jù)庫的支持的數(shù)據(jù)結(jié)構(gòu)非常松散,是類似json的bson格式,因此可以存儲(chǔ)比較復(fù)雜的數(shù)據(jù)類型支持的查詢語言非常強(qiáng)大,其語法有點(diǎn)類似于面向?qū)ο蟮牟樵冋Z言,幾乎可以實(shí)現(xiàn)類似關(guān)系數(shù)據(jù)庫單表查詢的絕大部分功能,而且還支持對(duì)數(shù)據(jù)建立索引59特點(diǎn)59技術(shù)特點(diǎn)面向集合存儲(chǔ),易存儲(chǔ)對(duì)象類型的數(shù)據(jù)。模式自由。支持動(dòng)態(tài)查詢。支持完全索引,包含內(nèi)部對(duì)象。支持復(fù)制和故障恢復(fù)。使用高效的二進(jìn)制數(shù)據(jù)存儲(chǔ),包括大型對(duì)象(如視頻等)。自動(dòng)處理碎片,以支持云計(jì)算層次的擴(kuò)展性。支持RUBY,PYTHON,JAVA,C++,PHP,C#等多種語言。文件存儲(chǔ)格式為BSON(一種JSON的擴(kuò)展)。60技術(shù)特點(diǎn)60應(yīng)用場(chǎng)景:社交網(wǎng)絡(luò)、推薦系統(tǒng)、關(guān)系圖譜優(yōu)點(diǎn):算法可以直接存取圖結(jié)構(gòu),提高性能缺點(diǎn):功能相對(duì)有限,不好做好分布式集群解決方案61應(yīng)用場(chǎng)景:社交網(wǎng)絡(luò)、推薦系統(tǒng)、關(guān)系圖譜6

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論