




已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
,推薦,! Cloudera Live ,! 基于HUE ,(Hadoop User Experience)的 試驗環(huán)境 ,! 可以試驗Hive/,Pig/Impala/ Solr/Spark/,Oozie/HBase/ HDFS ,第2頁 ,Hbase簡介,! 為什么需要HBase ,! HBase特性及實現(xiàn)原理 ,! HBase操作的內部流程 ,本節(jié)目錄 ,! 為什么需要HBase ,! HBase特性及實現(xiàn)原理 ,! HBase操作的內部流程 ,Google應用場景 ,! 快速檢索頁面 ,第5頁 ,具體需求 ,! Google的結構化數(shù)據存儲需求 , 低成本可擴展地處理以十億為單位的數(shù)據表(海量) , 眾多的列,但并非每列都有數(shù)據,且經常只訪問很少的列(稀疏) 高吞吐量和高并發(fā)(快速) ,! HBase的原型 Google Bigtable ,RDBMS能滿足嗎? ,cache,parallel,MapReduce+GFS能滿足嗎? , n , , ,Map/Reduce ,n ,?,! MapReduce程序能滿足高并發(fā)要求嗎? ! 全文件掃描效率行嗎? ,答案 ,! 因為RDBMS和MapReduce不能滿足要求海量結構化數(shù)據存儲需求 , 眾多的列,但并非每列都有數(shù)據,且經常只訪問很少的列(稀疏) 低成本可擴展地處理以十億為單位的數(shù)據表(海量) 高吞吐量和高并發(fā)(快速) ,! 所以: , Bigtable HBase ,本節(jié)目錄 ,! 為什么需要HBase ,! HBase特性及實現(xiàn)原理 ,! HBase操作的內部流程 ,HBase 面向列的、基于HDFS、高性能 分布式數(shù)據庫系統(tǒng)() ,稀疏 ,海量 ,快速 ,稀疏 ,稀疏與HBase面向列的數(shù)據模型 ,稀疏與HBase面向列的數(shù)據模型 ,! 提高訪問少數(shù)列的效率 ! 提高壓縮比 ,稀疏與HBase面向列的數(shù)據模型 ,value = Map( TableName, RowKey, ColumnKey, Version ) ,!,TableName 表名 字符串 數(shù)據表的標 識 ,!,RowKey 行關鍵字 字符串 最大長度64KB 用來檢索記錄,的主鍵 ,!,ColumnKey 列關鍵字 列族+限定 詞 字符串 數(shù)據以列族 為準存儲 列族需提前 定義 , 限定詞可使 用時生成 ,!,Version 版本 適應同一數(shù)據 在不同時間的 變化(網頁) 不同版本的同 一數(shù)據按時間 倒序排列,最 新的在最前面 ,HBase表實例 ,行數(shù) 1 2 ,行關鍵字 com.bbc.www com.bbc.www n.www n.www n.www n.www n.www ,版本 t2 t1 t7 t6 t5 t4 t3,列族:contents a1 d4 c3 b2,列族:anchor anchor:com.bbc.www = “BBC” anchor:=“CNN” anchor:my.look.ca=“CNN.com” ,海量 ,邏輯表到HDFS物理存儲的映射 ! 關鍵:以列族為單位進行物理存儲 ,行關鍵字 n.www n.www,版本 t5 t4,列族:contents d4 c3,n.www,t3,b2,行關鍵字 n.www n.www ,版本 t7 t6 ,列族:anchor anchor:=”CNN” anchor:my.look.ca=”CNN.com” ,!,行 列族 = 面 Store , 一行數(shù)據看作一個面 一個列族看作一個Store 行由若干列族構成 面是若干Store構成 Store即物理存儲基本單元 n.www的一行數(shù)據視為轉換為兩張物理存儲表(Store)進行存儲 ,列族contents物理表 ,列族anchor物理表 ,HBase的存儲架構使用者 ,! Client , HBase功能使用者 與Master間進行管,理操作 , 與RegionServer間,進行數(shù)據讀寫操作 ,HBase的存儲架構協(xié)調者 ,! Zookeeper , 協(xié)同管理節(jié)點 , 分布式協(xié)作、分布 式同步、配置管理 存儲了Master的地 址和RegionServer 狀態(tài)信息 ,HBase的存儲架構管理者 ,! Master , 控制節(jié)點 , 管理對數(shù)據表的增,刪改和查詢操作 , 調整RegionServer,的負載均衡和 Region分布 , 可有多個Master ,HBase的存儲架構存儲者 ,! ! ! !,RegionServer 處理數(shù)據讀寫請求 HDFS文件交互 Region 表中的分區(qū) 多個Store 1個HLog Store 數(shù)據存儲核心 MemStore/StoreFile HLog , 保障可靠性 MemStore數(shù)據鏡像 持久化到文件 ,邏輯表到物理存儲逐步拆解 ,! Table Region Store HFile Block HDFS File ,邏輯表到物理存儲Table Region ,!,Table到Region 一張表是分為HRegion單元并存儲在RegionServer上 提高大表存儲的效率 表數(shù)據在行上按RowKey排序后,分為多個Region進程存儲 多個Region可以存放在一個RegionServer上 Region的分裂 “ 表在一開始時只有一個Region,隨著數(shù)據不斷增加,Region會越變越大 “ 當超過一個閾值時,Region會等分為兩個 “ 這個過程會不斷重復,HRegion逐漸增加 ,邏輯表到物理存儲Region Store ,!,Region到Store HRegion是分布式存儲的最小單元,但并不是物理存儲的最小單元 Region劃分為若干Store進行存儲,每個Store保存一個列族中的數(shù)據 ,邏輯表到物理存儲Store HFile ,!,Store到File Store由兩部分組成,MemStore和StoreFile “ MemStore是RegionServer上的一段內存空間 “ StoreFile是HDFS中的一個HFile文件 數(shù)據庫操作會先存入MemStore,當MemStore滿了后會轉存到StoreFile中(?) 1個Store可包含多個StoreFile,并建立了StoreFile索引 ,邏輯表到物理存儲HFile Block ,邏輯表到物理存儲HFile HDFS Block ,速度 ,速度的關鍵 ,! 第1步:快速找到RegionServer ! 第2步:快速找到HFile ,第1步:定位RegionServer ,! 如何通過表名和行關鍵字找到所在的RegionServer? ,定位RS找到Region(.META.表) ,!,.META.表 , 存儲了所有表的元數(shù)據信息 支持以表名和行關鍵字(或關鍵字的范圍)查找到對應的RegionServer “ 行關鍵字:表名、此Region起始關鍵字和Region的id info:regioninfo:記錄Region的一些必要信息 info:server:Region所在的RegionServer的地址和端口 infor.serverstartcode:RegionServer對應.META.表持有進程的啟動時間 第32頁 ,行關鍵字 ,列1 info:regioninfo,列2 info:server,列3 info:serverstartcode,定位RS找到.META.(-ROOT-表) ,!,-ROOT-表 , 根數(shù)據表,存放了.META.表的HRegionServer信息,存放在Zookeeper服務器 -ROOT-表的Region不會被拆分,永遠只有一個 客戶端首次訪問獲取-ROOT-表的位置并存入緩存 行關鍵字:每個.META.表的Region索引 info:regioninfo:記錄Region的一些必要信息 info:server:Region所在的RegionServer的地址和端口 info.serverstartcode:RegionServer對應.META.表持有進程的啟動時間 ,行關鍵字 .META. Region Key,列1 info:regioninfo,列2 info:server,列3 info:serverstartcode,第2步快速找到HFile ,定位HFileMemstore與Store對StoreFile的索引 ,! B+ tree(RDMBS時代的索引表) LSM tree 查詢優(yōu)化 VS. 插入優(yōu)化 內存 VS. 磁盤 /viewdoc/summary?doi=4.2782 ,定位HFileMemstore帶來的問題 ,! memStore帶來的問題:RegionServer宕機怎么辦? , Write-Ahead Logging (WAL)+HLog ,本節(jié)目錄 ,! 為什么需要HBase ,! HBase特性及實現(xiàn)原理 ,! Hbase的部署與操作流程 ,HBase典型物理部署 ,! !,MasterServer控制節(jié)點 HBase的HMaster HDFS的NameNode MapReduce的JobTracker RegionServer , R、M1、M2存放-ROOT-表 和.META.表 數(shù)據表存放在Region Server U1至Un中 Region Server U1至Un部署 了HDFS的DataNode組件以 提高數(shù)據訪問效率 Region Server U1至Un運行 MapReduce作業(yè)時的 TaskTracker ,HBase讀/寫數(shù)據流程 ,!,Client首次讀取tableA中第1行數(shù)據: 從Zookkeeper中獲取-ROOT-表的Region服務器R(步驟) 從Region Server R中根據表的名稱索引找到.META.表所在的Region服務器M1(步驟) Client根據表名和行關鍵字找到對應的Region服務器U1(步驟) 使用接口從U1進行數(shù)據讀取/向U1寫入數(shù)據(步驟,MemStore/LSM tree) ,HBase表結構 操作流程 ,! ! ! !,MasterServer維護表結構 增加、刪除表,增加、刪除列族 Client通過Shell指令或API接 口向Master Server發(fā)出請求 (步驟) 創(chuàng)建表 默認情況在空間可用的 RegionServer上新增1個 Region(步驟) 更新.META.表 所有后續(xù)的寫入操作都會將數(shù) 據存入此Region中,直到 Region尺寸達到一定程度分裂 為兩個Region,并不斷重復 動態(tài)增加列族 , Master Server會根據用戶請 求,查找到可用的Region Server,并在相應的Region Server上為新的列族創(chuàng)建 storeFile(步驟) , RegionServer狀態(tài)維護 ! RegionServer在啟動時,在 Zookeeper上server列表目錄下創(chuàng) 建代表自己的文件,并獲得該文件 獨占鎖 ! MasterServer通過訂閱方式收到 Zookeeper發(fā)來的server列表目錄,下的文件新增或刪除消息(步驟),,以了解RegionServer狀況 ! RegionServer通過心跳消息與,Zookeeper之間保持會話(步驟) ,! 節(jié)點或網絡故障導致某個 RegionServer與Zookeeper之間 的會話斷開時,Zookeeper會釋放 對應文件的獨占鎖,會被Master Server通過輪詢發(fā)現(xiàn),知道 Region Server出現(xiàn)了問題,并進 行隨后的Region再分配和數(shù)據恢 復操作 ,MasterServer狀態(tài)維護 ,! MasterServer狀態(tài)影響表結構、 Region分配與合并、負載均衡等 ! Master Server維護的數(shù)據,例如 Region分布、表結構信息,都來 自其他節(jié)點的復制 ,! 利用Zookeeper進行Master Server熱備份的機制提高HBase的 可用性 ,! Master Ser
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 獸醫(yī)病理解剖學練習題庫+參考答案解析
- 工程測量員中級習題及答案(附解析)
- 2025年2月高壓電工(運行)模擬習題(附答案解析)
- 2024年2月生命科學模擬練習題(含答案解析)
- 貨代企業(yè)品牌建設與市場推廣考核試卷
- 一年級下數(shù)學課件-統(tǒng)計-人教
- 糖果品牌形象代言人選擇與效果評估考核試卷
- 液體閃爍計數(shù)試劑的制備與應用考核試卷
- 海水淡化處理技術在城市建設中的應用考核試卷
- 大班組教育教學學期末總結
- 新能源汽車運用與維修專業(yè)人才培養(yǎng)方案
- 2024北京初三(上)期末語文匯編:議論文閱讀
- 船舶結構節(jié)點圖
- 小學數(shù)學《分數(shù)除法》50道計算題包含答案
- 漢字文化解密學習通超星期末考試答案章節(jié)答案2024年
- 預付煤款合同模板
- 光影中國學習通超星期末考試答案章節(jié)答案2024年
- 工科中的設計思維學習通超星期末考試答案章節(jié)答案2024年
- 2020年全國II卷英語高考真題試題(答案+解析)
- 航天禁(限)用工藝目錄(2021版)-發(fā)文稿(公開)
- 腦洞大開背后的創(chuàng)新思維學習通超星期末考試答案章節(jié)答案2024年
評論
0/150
提交評論