版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
分布式數(shù)據(jù)庫HBase——Region服務(wù)器、Store、HLog工作原理和讀寫數(shù)據(jù)北京信息職業(yè)技術(shù)學院|朱立本文來自:大數(shù)據(jù)技術(shù)原理與應(yīng)用——概念、存儲、處理、分析與應(yīng)用作者:林子雨出版社:人民郵電出版社版權(quán)說明若作者對本資料使用持有異議,請及時聯(lián)系本網(wǎng)站,我們將在第一時間妥善處理。2 Region服務(wù)器工作原理Region服務(wù)器向HDFS文件系統(tǒng)中讀寫數(shù)據(jù)Region服務(wù)器工作原理1.用戶讀寫數(shù)據(jù)過程
用戶寫入數(shù)據(jù)時,被分配到相應(yīng)Region服務(wù)器去執(zhí)行用戶數(shù)據(jù)首先被寫入到MemStore和Hlog中只有當操作寫入Hlog之后,commit()調(diào)用才會將其返回給客戶端當用戶讀取數(shù)據(jù)時,Region服務(wù)器會首先訪問MemStore緩存,如果找不到,再去磁盤上面的StoreFile中尋找Region服務(wù)器工作原理2.緩存的刷新系統(tǒng)會周期性地把MemStore緩存里的內(nèi)容刷寫到磁盤的StoreFile文件中,清空緩存,并在Hlog里面寫入一個標記每次刷寫都生成一個新的StoreFile文件,因此,每個Store包含多個StoreFile文件每個Region服務(wù)器都有一個自己的HLog文件,每次啟動都檢查該文件,確認最近一次執(zhí)行緩存刷新操作之后是否發(fā)生新的寫入操作;如果發(fā)現(xiàn)更新,則先寫入MemStore,再刷寫到StoreFile,最后刪除舊的Hlog文件,開始為用戶提供服務(wù)Region服務(wù)器工作原理3.StoreFile的合并每次刷寫都生成一個新的StoreFile,數(shù)量太多,影響查找速度調(diào)用Spact()把多個合并成一個合并操作比較耗費資源,只有數(shù)量達到一個閾值才啟動合并Store工作原理Store是Region服務(wù)器的核心多個StoreFile合并成一個單個StoreFile過大時,又觸發(fā)分裂操作,1個父Region被分裂成兩個子RegionStoreFile的合并和分裂過程HLog工作原理分布式環(huán)境必須要考慮系統(tǒng)出錯。HBase采用HLog保證系統(tǒng)恢復HBase系統(tǒng)為每個Region服務(wù)器配置了一個HLog文件,它是一種預寫式日志(WriteAheadLog)用戶更新數(shù)據(jù)必須首先寫入日志后,才能寫入MemStore緩存,并且,直到MemStore緩存內(nèi)容對應(yīng)的日志已經(jīng)寫入磁盤,該緩存內(nèi)容才能被刷寫到磁盤HLog工作原理Zookeeper會實時監(jiān)測每個Region服務(wù)器的狀態(tài),當某個Region服務(wù)器發(fā)生故障時,Zookeeper會通知MasterMaster首先會處理該故障Region服務(wù)器上面遺留的HLog文件,這個遺留的HLog文件中包含了來自多個Region對象的日志記錄系統(tǒng)會根據(jù)每條日志記錄所屬的Region對象對HLog數(shù)據(jù)進行拆分,分別放到相應(yīng)Region對象的目錄下,然后,再將失效的Region重新分配到可用的Region服務(wù)器中,并把與該Region對象相關(guān)的HLog日志記錄也發(fā)送給相應(yīng)的Region服務(wù)器HLog工作原理Region服務(wù)器領(lǐng)取到分配給自己的Region對象以及與之相關(guān)的HLog日志記錄以后,會重新做一遍日志記錄中的各種操作,把日志記錄中的數(shù)據(jù)寫入到MemStore緩存中,然后,刷新到磁盤的StoreFile文件中,完成數(shù)據(jù)恢復共用日志優(yōu)點:提高對表的寫操作性能;缺點:恢復時需要分拆日志讀寫數(shù)據(jù)HBase使用HMemStore和HStoreFile存儲對表的更新。數(shù)據(jù)在更新時,首先寫入HLog和內(nèi)存(HMemStore)中,HMemStore中的數(shù)據(jù)是排序的,當HMemStore累計到一定閾值時,就會創(chuàng)建一個新的HMemStore,并且將老的HMemStore添加到flush隊列,由單獨的線程flush到磁盤上,成為一個HStoreFile。與此同時,系統(tǒng)會在Zookeeper中記錄一個檢查點,表示這個時刻前的變更已持久化了。讀寫數(shù)據(jù)當系統(tǒng)出現(xiàn)意外時,可能導致內(nèi)存(HMemStore)中的數(shù)據(jù)丟失,此時使用HLog來恢復檢查點之后的數(shù)據(jù)。HStoreFile是只讀的,一旦創(chuàng)建后就不可以再修改。因此HBase的更新其實是不斷追加的操作。當一個HStore中的HStoreFile達到一定的閾值后,就會進行一次合并,將對同一個key的修改合并到一起,形成一個大的HStoreFile,當HStoreFile的大小達到一定閾值后,又會對HStoreFile進行分裂,等分為兩個HStoreFile。讀寫數(shù)據(jù)由于對表的更新是不斷追加的,處理讀請求時,需要訪問HStore中全部的HStoreFile和HMemStore,將他們按照行鍵進行合并,由于HStoreFile和HMemStore都是經(jīng)過排序的,并且HStoreFile帶有內(nèi)存中索引,合并的過程還是比較快的。讀寫數(shù)據(jù)寫請求處理過程具體如下:client向HRegionServer提交寫請求;HRegionServer找到目標HRegion;HRegion
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 單位管理制度匯編大合集【人事管理篇】十篇
- 單位管理制度合并匯編員工管理
- 《眩暈基礎(chǔ)知識》課件
- 單位管理制度分享大全【職工管理篇】十篇
- 單位管理制度范例合集【員工管理】十篇
- 單位管理制度呈現(xiàn)匯編人力資源管理十篇
- 單位管理制度呈現(xiàn)大合集【職工管理】十篇
- 《離心泵工作點》課件
- 貴都高速某合同段施工組織設(shè)計
- 《祝世界好友周快樂》課件
- 成都市農(nóng)貿(mào)市場建設(shè)技術(shù)要求(2019年版)(完整版)
- 2024-2030年版中國IPVPN服務(wù)行業(yè)發(fā)展現(xiàn)狀及投資商業(yè)模式分析報告
- 【7歷期末】安徽省蕪湖市弋江區(qū)2023~2024學年七年級上學期期末考試歷史試卷(含解析)
- 北京市海淀區(qū)2021-2022學年第一學期四年級期末考試語文試卷(含答案)
- 2024-2030年中國企業(yè)大學行業(yè)運作模式發(fā)展規(guī)劃分析報告
- 房地產(chǎn)激勵培訓
- 期末復習試題1(試題)-2024-2025學年二年級上冊數(shù)學北師大版
- 【MOOC】微型計算機原理與接口技術(shù)-南京郵電大學 中國大學慕課MOOC答案
- 違章建筑舉報范文
- 音樂制作基礎(chǔ)知識單選題100道及答案解析
- 2024幼師年終工作總結(jié)
評論
0/150
提交評論