版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
主講人:雷明大數(shù)據(jù)與云計算知識點HBASE數(shù)據(jù)庫入門3hbase與分布式文件系統(tǒng)hdfs的區(qū)別1hbase的結(jié)構(gòu)2hbase的特性HBASE數(shù)據(jù)庫入門HBase本質(zhì)上是一個稀疏、多維度、排序的映射表,這張表的索引是行鍵、列族、列限定符和時間戳。hbase的結(jié)構(gòu)用戶在表中存儲數(shù)據(jù),每一行都有一個可排序的行鍵和任意多的列。表中的值是未經(jīng)解釋的字符串,沒有數(shù)據(jù)類型。行鍵列族
cf1列族
cf2列限定符3個時間戳有些列的值是空的,所以HBase是稀疏的hbase的結(jié)構(gòu)邏輯視圖vs.物理視圖hbase的結(jié)構(gòu)關(guān)系型數(shù)據(jù)庫當(dāng)中要修改表的結(jié)構(gòu)就是很復(fù)雜的一件事,比如增加一個字段。舉個例子來說,如果我們的成績表當(dāng)中忘記了計算機(jī)成績這一列,你都錄入了一大半數(shù)據(jù)才發(fā)現(xiàn),這個時候你要先修改表的結(jié)構(gòu)增加一列,然后在一行一行的輸入每個同學(xué)的計算機(jī)成績。如果是hbase就簡單了,我把這一列直接擴(kuò)充到hbase里面就可以了。hbase的結(jié)構(gòu)29列族支持動態(tài)擴(kuò)展,可以很輕松地添加一個列族或列,無需預(yù)先定義列的數(shù)量以及類型,所有列均以字符串形式存儲,用戶需要自行進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換。hbase的結(jié)構(gòu)HBase中執(zhí)行更新操作時,并不會刪除數(shù)據(jù)舊的版本,而是生成一個新的版本,舊有的版本仍然保留。若不提供時間戳則默認(rèn)返回最新版本。數(shù)據(jù)是按照時間戳順序存儲的,客戶端可以選擇獲取距離某個時間最近的版本,或者獲取所有版本。表:HBase采用表來組織數(shù)據(jù),表由行和列組成,列劃分為若干個列族hbase的結(jié)構(gòu)行:每個HBase表都由若干行組成,每個行由行鍵(row
key)來標(biāo)識。列族:一個HBase表被分組成許多“列族”(Column
Family)的集合,它是基本的訪問控制單元列限定符:列族里的數(shù)據(jù)通過列限定符(或列)來定位hbase的結(jié)構(gòu)單元格:在HBase表中,通過行、列族和列限定符確定一個“單元格”(cell),單元格中存儲的數(shù)據(jù)沒有數(shù)據(jù)類型,總被視為字節(jié)數(shù)組byte[
]時間戳:每個單元格都保存著同一份數(shù)據(jù)的多個版本,這些版本采用時間戳進(jìn)行索引HBase中需要根據(jù)行鍵、列族、列限定符和時間戳來確定一個單元格,因此可視為一個“四維坐標(biāo)”[行鍵,列族,列限定符,時間戳];如果把坐標(biāo)看成“鍵”,單元格數(shù)據(jù)看成“值”,HBase也可看成一個鍵值數(shù)據(jù)庫。hbase的結(jié)構(gòu)為空的列并不占用存儲空間,表可以設(shè)計的非常稀疏稀疏性每一列存儲的數(shù)據(jù)可以有多個version。多版本單表可以有百億行、百萬列,數(shù)據(jù)矩陣橫向和縱向兩個維度所支持的數(shù)據(jù)量級都非常具有彈性。數(shù)據(jù)容量大HBase特性讀寫強一致,非“最終一致性”的數(shù)據(jù)存儲,使得它非常適合高速的計算聚合。自動分片,通過Region分散在集群中,當(dāng)行數(shù)增長的時候,Region也會自動的切分和再分配。Hadoop/HDFS集成,和HDFS開箱即用,不用太麻煩的銜接。擴(kuò)展性強,只需要增加DataNode就可以增加存儲空間。HBase特性豐富的“簡潔,高效”API(應(yīng)用程序接口),提供了Thrift/RESTAPI,JavaAPI等方式對HBase進(jìn)行訪問。塊緩存,布隆過濾器,可以高效的列查詢優(yōu)化。操作管理,Hbase提供了內(nèi)置的web界面來操作,還可以監(jiān)控JMX指標(biāo)。高可靠,保證了系統(tǒng)的容錯能力,WAL機(jī)制使得數(shù)據(jù)寫入時不會因為集群異常而導(dǎo)致寫入數(shù)據(jù)丟失。故HBase選擇了CAP中的CP。HBase特性面向列的存儲和權(quán)限控制,并支持獨立檢索,可以動態(tài)的增加列。列式存儲:其數(shù)據(jù)在表中是按照某列存儲的,這樣在查詢只需要少數(shù)幾個字段的時候,能大大減少讀取的數(shù)據(jù)量。高性能:具備海量數(shù)據(jù)的隨機(jī)訪問和實時讀寫能力。HBase特性分布式文件系統(tǒng)(HDFS)是指文件系統(tǒng)管理的物理存儲資源不僅存儲在本地節(jié)點上,還可以通過網(wǎng)絡(luò)連接存儲在非本地節(jié)點上。計算機(jī)集群的基本架構(gòu)HBase與HDFS的區(qū)別HBase與HDFS的區(qū)別
分布式文件系統(tǒng)改變了數(shù)據(jù)存儲和管理方式,相對于本地文件系統(tǒng)具有很存儲和管理分布式多優(yōu)勢:低成本易擴(kuò)展強可靠高可用1
用戶無需關(guān)心數(shù)據(jù)是存儲在哪個節(jié)點上,可以如同使用本地文件系統(tǒng)一樣文件系統(tǒng)里的數(shù)據(jù)。2HDFS優(yōu)點HDFS是面向批量的訪問模式,其類型為文件系統(tǒng),存儲的是文件類型的數(shù)據(jù)。HBase與HDFS的區(qū)別HBase是面向隨機(jī)訪問和實時讀寫模式,其類型為數(shù)據(jù)庫服務(wù),存儲的是非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)。HBase使用HDFS作為底層的文件系統(tǒng),HBase的數(shù)據(jù)最終會寫到HDFS中。就像其他的數(shù)據(jù)庫一樣,真正的數(shù)據(jù)是存儲在操作系統(tǒng)里的文件系統(tǒng)中的。HDFS是文件系統(tǒng),Hbase是數(shù)據(jù)庫。你可以把Hbase當(dāng)做是MySQL,把HDFS當(dāng)做是硬盤。Hbase只是一個NoSQL數(shù)據(jù)庫,數(shù)據(jù)時存放在HDFS上的,Hbase在HDFS上提供了高并發(fā)的隨機(jī)寫和支持實時查詢,這是HDFS不具備的。HBase與HDFS的區(qū)別原生的ApacheHadoopCDH:ClouderaDistributedHadoopHDP:HortonworksDataPlatformHBase屬于Hadoop生態(tài)體系,所以HBase的版本選擇實際就是Hadoop的版本選擇。而Hadoop就像Linux一樣,也有多個發(fā)行版,常用發(fā)行版有以下幾種:HBase版本鏈接到客戶端的庫函數(shù)一個Master主服務(wù)器許多個Region服務(wù)器HBase的主要的功能組件HBase中的表根據(jù)Rowkey的值被水平劃分成多個分區(qū)(Region),分區(qū)會被分發(fā)存儲到不同的分區(qū)服務(wù)器上。HBase的主要的功能組件主服務(wù)器Master負(fù)責(zé)管理和維護(hù)HBase表的分區(qū)信息,維護(hù)Region服務(wù)器列表,分配Region,負(fù)載均衡,以及處理Schema的變化,如表和列族的創(chuàng)建。HBase的主要的功能組件Region服務(wù)器負(fù)責(zé)存儲和維護(hù)分配給自己的Region,處理來自客戶端的讀寫請求。分區(qū)定位HBase的主要的功能組件元數(shù)據(jù)表,又名.META.表,存儲了Region和RegionServer的映射關(guān)系??蛻舳嗽L問數(shù)據(jù)之前,需要首先訪問Zookeeper獲取.META.表的信息,接著訪問.META.表,找到所需分區(qū)的具體位置,最后到對應(yīng)的分區(qū)服務(wù)器讀取數(shù)據(jù)。為加速尋址,客戶端會把查詢過的位置信息在本地緩存。1本節(jié)介紹了分布式數(shù)據(jù)庫Hbase的表結(jié)構(gòu)2HBas
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度綠色出行解決方案民間擔(dān)保借款合同4篇
- 男方協(xié)議離婚書2025年度電子版制作與版權(quán)保護(hù)合同3篇
- 二零二五年度智能電網(wǎng)設(shè)備研發(fā)與銷售合同范本4篇
- 二零二五版內(nèi)資股協(xié)議轉(zhuǎn)讓知識產(chǎn)權(quán)保護(hù)合同4篇
- 二零二五年度爬架租賃與施工現(xiàn)場環(huán)境保護(hù)合同2篇
- 2025年度城市公園綠地日常養(yǎng)護(hù)維修服務(wù)合同規(guī)范3篇
- 二零二五年度名筑印象住宅電梯品牌代理銷售合同4篇
- 二零二五年內(nèi)蒙古文化旅游融合發(fā)展合同規(guī)范4篇
- 2025年度瓷磚鋪貼與新型建筑材料研發(fā)合同4篇
- 二零二五年度山莊生態(tài)旅游合作開發(fā)合同范本2篇
- 二零二五年度無人駕駛車輛測試合同免責(zé)協(xié)議書
- 2025年湖北華中科技大學(xué)招聘實驗技術(shù)人員52名歷年高頻重點提升(共500題)附帶答案詳解
- 黑龍江省哈爾濱市2024屆中考數(shù)學(xué)試卷(含答案)
- 高三日語一輪復(fù)習(xí)助詞「と」的用法課件
- 毛渣采購合同范例
- 無子女離婚協(xié)議書范文百度網(wǎng)盤
- 2023中華護(hù)理學(xué)會團(tuán)體標(biāo)準(zhǔn)-注射相關(guān)感染預(yù)防與控制
- 五年級上冊小數(shù)遞等式計算200道及答案
- 2024年廣東高考政治真題考點分布匯 總- 高考政治一輪復(fù)習(xí)
- 燃?xì)夤艿滥甓葯z驗報告
- GB/T 44052-2024液壓傳動過濾器性能特性的標(biāo)識
評論
0/150
提交評論