大數(shù)據(jù)應(yīng)用技術(shù)介紹_第1頁
大數(shù)據(jù)應(yīng)用技術(shù)介紹_第2頁
大數(shù)據(jù)應(yīng)用技術(shù)介紹_第3頁
大數(shù)據(jù)應(yīng)用技術(shù)介紹_第4頁
大數(shù)據(jù)應(yīng)用技術(shù)介紹_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

Hadoop生態(tài)系統(tǒng)第一頁,共36頁。Hadoop生態(tài)系統(tǒng)SubProject描述common分布式文件系統(tǒng)和通用I/O的組件與接口(序列化,JavaRPC和持久化數(shù)據(jù)結(jié)構(gòu))Avro支持高效的跨語言RPC和持久數(shù)據(jù)存儲的序列化系統(tǒng)MapReduce分布式數(shù)據(jù)處理模型和執(zhí)行環(huán)境,運行在大型商用機集群HDFS分布式文件系統(tǒng),用于大型商用機集群PIGPig是SQL-like語言,是在MapReduce上構(gòu)建的一種高級查詢語言,把一些運算編譯進MapReduce模型的Map和Reduce中,并且用戶可以定義自己的功能。Hive分布式、按列存儲的數(shù)據(jù)倉庫。Hive管理HDFS中存儲的數(shù)據(jù),并提供基于SQL的查詢語言(由運行時引擎翻譯成MapReduce作業(yè))Hbase分布式、按列存儲的數(shù)據(jù)庫。HBase使用HDFS作為底層存儲,同時支持MapReduce的批量式計算和點查詢(隨機讀取)ZooKeeper分布式、可用性高的協(xié)調(diào)服務(wù)。提供類似分布式鎖的基礎(chǔ)服務(wù)。Sqoop在數(shù)據(jù)庫和HDFS之間高效傳輸數(shù)據(jù)的工具Flume分布式、可靠、和高可用的海量日志聚合的系統(tǒng)。ChukwaChukwa是基于Hadoop的大集群監(jiān)控系統(tǒng),由yahoo貢獻。第二頁,共36頁。Hadoop介紹HDFSMapReduce第三頁,共36頁。HDFS特點存儲大文件百兆以上級別文件百萬級文件由于億級別文件流式處理數(shù)據(jù)一次寫多次多模式支持追加操作廉價的硬件環(huán)境普通pcserver組成集群環(huán)境第四頁,共36頁。HDFS缺點低延時讀操作高吞吐量而非低延時Hbase解決了這個問題大量小數(shù)據(jù)文件最好每個文件大于100M多次寫只支持一次寫只支持在文件尾部添加,不支持隨機寫第五頁,共36頁。HDFS部署結(jié)構(gòu)第六頁,共36頁。HDFS讀寫過程第七頁,共36頁。MapReduce部署結(jié)構(gòu)JobTracker管理集群資源和Job調(diào)度TaskTracker管理Task運行第八頁,共36頁。MapReduce計算模型Inputk1,v1Mapk2,v2Reducek3,v3Output第九頁,共36頁。MapReduce擴展接口InputFormatMapperPartitionerReducerOutputFormat第十頁,共36頁。Map第十一頁,共36頁。Reduce第十二頁,共36頁。MapReduce實例第十三頁,共36頁。MapReduce內(nèi)部結(jié)構(gòu)第十四頁,共36頁。Hadoop2.0引入一個新的資源管理系統(tǒng)YARNHDFS單點故障得以解決HDFSFederationHDFS快照通過NFS訪問HDFS支持Window系統(tǒng)第十五頁,共36頁。Hadoop1VSHadoop2第十六頁,共36頁。集群資源管理Hadoop介紹第十七頁,共36頁。Yarn運行原理圖第十八頁,共36頁。Hbase介紹1高可靠性2高效性3面向列4可伸縮5可在廉價PCServer搭建大規(guī)模結(jié)構(gòu)化存儲集群第十九頁,共36頁。Hbase體系結(jié)構(gòu)第二十頁,共36頁。HBase系統(tǒng)架構(gòu)圖第二十一頁,共36頁。HBase部件說明Client:

使用HBaseRPC機制與HMaster和HRegionServer進行通信

Client與HMaster進行通信進行管理類操作

Client與HRegionServer進行數(shù)據(jù)讀寫類操作

Zookeeper:

ZookeeperQuorum存儲-ROOT-表地址、HMaster地址

HRegionServer把自己以Ephedral方式注冊到Zookeeper中,HMaster隨時感知各個HRegionServer的健康狀況

Zookeeper避免HMaster單點問題

HMaster:

HMaster沒有單點問題,HBase中可以啟動多個HMaster,通過Zookeeper的MasterElection機制保證總有一個Master在運行

主要負責(zé)Table和Region的管理工作:

1管理用戶對表的增刪改查操作

2管理HRegionServer的負載均衡,調(diào)整Region分布

3RegionSplit后,負責(zé)新Region的分布

4在HRegionServer停機后,負責(zé)失效HRegionServer上Region遷移

第二十二頁,共36頁。Table&RegionTable隨著記錄增多不斷變大,會自動分裂成多份Splits,成為Regions一個region由[startkey,endkey)表示不同region會被Master分配給相應(yīng)的RegionServer進行管理第二十三頁,共36頁。HregionServer第二十四頁,共36頁。-ROOT-&.META..META.記錄用戶表的Region信息,同時,.META.也可以有多region-ROOT-記錄.META.表的Region信息,但是,-ROOT-只有一個regionZookeeper中記錄了-ROOT-表的location客戶端訪問數(shù)據(jù)的流程:

Client->Zookeeper->-ROOT-->.META.->用戶數(shù)據(jù)表多次網(wǎng)絡(luò)操作,不過client端有cache緩存第二十五頁,共36頁。HBase數(shù)據(jù)模型RowKey:Table主鍵,Table中記錄按照RowKey排序

Timestamp:

每次對數(shù)據(jù)操作對應(yīng)的時間戳,也即數(shù)據(jù)的versionnumber

ColumnFamily:列簇,一個table在水平方向有一個或者多個列簇,列簇可由任

意多個Column組成,列簇支持動態(tài)擴展,無須預(yù)定義數(shù)量及

類型,二進制存儲,用戶需自行進行類型轉(zhuǎn)換第二十六頁,共36頁。HbaseShell第二十七頁,共36頁。Hbaseshell第二十八頁,共36頁。Hbase與RDBMS數(shù)據(jù)類型:Hbase只有簡單的字符串類型。數(shù)據(jù)操作:Hbase只有很簡單的插入、查詢、刪除、清空操作,沒有復(fù)雜的表和表之間的關(guān)系。存儲模式:Hbase是基于列式存儲,每個列族由幾個文件保存,不同列族的文件是分離的。數(shù)據(jù)維護:更新操作是替換版本,刪除只是邏輯標(biāo)記可伸縮性:第二十九頁,共36頁。參考資料第三十頁,共36頁。Lucene搜索結(jié)構(gòu)第三十一頁,共36頁?;谖臋n的搜索Tika是一個內(nèi)容抽取的工具集合。支持work,ppt,execl,PDF等第三十二頁,共36頁。大數(shù)據(jù)統(tǒng)計Elasticsearch:開源的分布式實時搜索系統(tǒng),結(jié)合Hbase實現(xiàn)海量數(shù)據(jù)存儲和檢索,同時提供索引數(shù)據(jù)統(tǒng)計功能,滿足海量數(shù)據(jù)的實時統(tǒng)計要求。ya主要功能特點realtimedistributedhighavailabilitydocumentorientedschemafreerestfulapi索引數(shù)據(jù)統(tǒng)計min、ma

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論