版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
分布式數(shù)據(jù)庫Hbase目錄概述HBase訪問接口1一、概述2從BigTable說起HBase簡介HBase與傳統(tǒng)關系數(shù)據(jù)庫的對比分析1.11.21.331.1從BigTable說起B(yǎng)igTable是一個分布式存儲系統(tǒng)BigTable起初用于解決典型的互聯(lián)網(wǎng)搜索問題建立互聯(lián)網(wǎng)索引1
爬蟲持續(xù)不斷地抓取新頁面,這些頁面每頁一行地存儲到BigTable里2MapReduce計算作業(yè)運行在整張表上,生成索引,為網(wǎng)絡搜索應用做準備搜索互聯(lián)網(wǎng)3
用戶發(fā)起網(wǎng)絡搜索請求4
網(wǎng)絡搜索應用查詢建立好的索引,從BigTable得到網(wǎng)頁5
搜索結果提交給用戶網(wǎng)頁在BigTable中的存儲樣例4BigTable是一個分布式存儲系統(tǒng)利用谷歌提出的MapReduce分布式并行計算模型來處理海量數(shù)據(jù)使用谷歌分布式文件系統(tǒng)GFS作為底層數(shù)據(jù)存儲采用Chubby提供協(xié)同服務管理可以擴展到PB級別的數(shù)據(jù)和上千臺機器,具備廣泛應用性、可擴展性、高性能和高可用性等特點谷歌的許多項目都存儲在BigTable中,包括搜索、地圖、財經(jīng)、打印、社交網(wǎng)站Orkut、視頻共享網(wǎng)站YouTube和博客網(wǎng)站Blogger等51.2HBase簡介HBase是一個高可靠、高性能、面向列、可伸縮的分布式數(shù)據(jù)庫,是谷歌BigTable的開源實現(xiàn),主要用來存儲非結構化和半結構化的松散數(shù)據(jù)。HBase的目標是處理非常龐大的表,可以通過水平擴展的方式,利用廉價計算機集群處理由超過10億行數(shù)據(jù)和數(shù)百萬列元素組成的數(shù)據(jù)表。圖1-1Hadoop生態(tài)系統(tǒng)中HBase與其他部分的關系6表1-1HBase和BigTable的底層技術對應關系BigTableHBase文件存儲系統(tǒng)GFSHDFS海量數(shù)據(jù)處理MapReduceHadoopMapReduce協(xié)同服務管理ChubbyZookeeper7關系數(shù)據(jù)庫已經(jīng)流行很多年,并且Hadoop已經(jīng)有了HDFS和MapReduce,為什么需要HBase?Hadoop可以很好地解決大規(guī)模數(shù)據(jù)的離線批量處理問題,但是,受限于HadoopMapReduce編程框架的高延遲數(shù)據(jù)處理機制,使得Hadoop無法滿足大規(guī)模數(shù)據(jù)實時處理應用的需求;HDFS面向批量訪問模式,不是隨機訪問模式;傳統(tǒng)的通用關系型數(shù)據(jù)庫無法應對在數(shù)據(jù)規(guī)模劇增時導致的系統(tǒng)擴展性和性能問題(分庫分表也不能很好解決);傳統(tǒng)關系數(shù)據(jù)庫在數(shù)據(jù)結構變化時一般需要停機維護,空列浪費存儲空間因此,業(yè)界出現(xiàn)了一類面向半結構化數(shù)據(jù)存儲和處理的高可擴展、低寫入/查詢延遲的系統(tǒng),例如,鍵值數(shù)據(jù)庫、文檔數(shù)據(jù)庫和列族數(shù)據(jù)庫(如BigTable和HBase等)HBase已經(jīng)成功應用于互聯(lián)網(wǎng)服務領域和傳統(tǒng)行業(yè)的眾多在線式數(shù)據(jù)分析處理系統(tǒng)中。91.3HBase與傳統(tǒng)關系數(shù)據(jù)庫的對比分析HBase與傳統(tǒng)的關系數(shù)據(jù)庫的區(qū)別主要體現(xiàn)在以下幾個方面:(1)數(shù)據(jù)類型:關系數(shù)據(jù)庫采用關系模型,具有豐富的數(shù)據(jù)類型和存儲方式,HBase則采用了更加簡單的數(shù)據(jù)模型,它把數(shù)據(jù)存儲為未經(jīng)解釋的字符串。(2)數(shù)據(jù)操作:關系數(shù)據(jù)庫中包含了豐富的操作,其中會涉及復雜的多表連接。HBase操作則不存在復雜的表與表之間的關系,只有簡單的插入、查詢、刪除、清空等,因為HBase在設計上就避免了復雜的表和表之間的關系。(3)存儲模式:關系數(shù)據(jù)庫是基于行模式存儲的。HBase是基于列存儲的,每個列族都由幾個文件保存,不同列族的文件是分離的。10(4)數(shù)據(jù)索引:關系數(shù)據(jù)庫通??梢葬槍Σ煌袠嫿◤碗s的多個索引,以提高數(shù)據(jù)訪問性能。HBase只有一個索引——行鍵,通過巧妙的設計,HBase中的所有訪問方法,或者通過行鍵訪問,或者通過行鍵掃描,從而使得整個系統(tǒng)不會慢下來。(5)數(shù)據(jù)維護:在關系數(shù)據(jù)庫中,更新操作會用最新的當前值去替換記錄中原來的舊值,舊值被覆蓋后就不會存在。而在HBase中執(zhí)行更新操作時,并不會刪除數(shù)據(jù)舊的版本,而是生成一個新的版本,舊有的版本仍然保留。(6)可伸縮性:關系數(shù)據(jù)庫很難實現(xiàn)橫向擴展,縱向擴展的空間也比較有限。相反,HBase和BigTable這些分布式數(shù)據(jù)庫就是為了實現(xiàn)靈活的水平擴展而開發(fā)的,能夠輕易地通過在集群中增加或者減少硬件數(shù)量來實現(xiàn)性能的伸縮。11二、HBase訪問接口表2-1HBase訪問接口類型特點場合NativeJavaAPI最常規(guī)和高效的訪問方式適合HadoopMapReduce作業(yè)并行批處理HBase表數(shù)據(jù)HBaseShellHBase的命令行工具,最簡單的接口適合HBase管理使用ThriftGateway利用Thrift序列化技術,支持C++、PHP、Python等多種語言適合其他異構系統(tǒng)在線訪問HBase表數(shù)據(jù)RESTGateway解除了語言限制支持RE
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版實習指導教師專業(yè)素養(yǎng)提升項目勞動合同規(guī)范3篇
- 2025版公益宣傳活動宣傳品制作及推廣合同2篇
- 2025版住宅小區(qū)地下車庫車位租賃及維護服務合同范本2篇
- 2025版木工班組智能化設備引進與應用合同4篇
- 企業(yè)對人才需求談職業(yè)
- 2025年度個人房產(chǎn)維修勞務合同范本4篇
- 二零二五年度股權并購與國際化布局合同3篇
- 2025版國際貿易采購合同(原材料)3篇
- 民政局2025年度自愿離婚協(xié)議書財產(chǎn)分割與子女撫養(yǎng)協(xié)議范本4篇
- 基于2025年度需求的冷卻塔設計、安裝與調試服務合同2篇
- 四川省成都市武侯區(qū)2023-2024學年九年級上學期期末考試化學試題
- 教育部《中小學校園食品安全和膳食經(jīng)費管理工作指引》知識培訓
- 初一到初三英語單詞表2182個帶音標打印版
- 2024年秋季人教版七年級上冊生物全冊教學課件(2024年秋季新版教材)
- 環(huán)境衛(wèi)生學及消毒滅菌效果監(jiān)測
- 2024年共青團入團積極分子考試題庫(含答案)
- 碎屑巖油藏注水水質指標及分析方法
- 【S洲際酒店婚禮策劃方案設計6800字(論文)】
- 鐵路項目征地拆遷工作體會課件
- 醫(yī)院死亡報告年終分析報告
- 中國教育史(第四版)全套教學課件
評論
0/150
提交評論