![《基于新信息技術(shù)的Hadoop大數(shù)據(jù)技術(shù)》 課件 項目8 Hive的安裝部署_第1頁](http://file4.renrendoc.com/view12/M09/17/02/wKhkGWaNLeGATo5kAAKx7ydD1Eg001.jpg)
![《基于新信息技術(shù)的Hadoop大數(shù)據(jù)技術(shù)》 課件 項目8 Hive的安裝部署_第2頁](http://file4.renrendoc.com/view12/M09/17/02/wKhkGWaNLeGATo5kAAKx7ydD1Eg0012.jpg)
![《基于新信息技術(shù)的Hadoop大數(shù)據(jù)技術(shù)》 課件 項目8 Hive的安裝部署_第3頁](http://file4.renrendoc.com/view12/M09/17/02/wKhkGWaNLeGATo5kAAKx7ydD1Eg0013.jpg)
![《基于新信息技術(shù)的Hadoop大數(shù)據(jù)技術(shù)》 課件 項目8 Hive的安裝部署_第4頁](http://file4.renrendoc.com/view12/M09/17/02/wKhkGWaNLeGATo5kAAKx7ydD1Eg0014.jpg)
![《基于新信息技術(shù)的Hadoop大數(shù)據(jù)技術(shù)》 課件 項目8 Hive的安裝部署_第5頁](http://file4.renrendoc.com/view12/M09/17/02/wKhkGWaNLeGATo5kAAKx7ydD1Eg0015.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
Hadoop大數(shù)據(jù)技術(shù)——Hive數(shù)據(jù)倉庫工具湖南軟件職業(yè)技術(shù)大學(xué)Hive概述數(shù)據(jù)計算是MapReduce數(shù)據(jù)存儲是HDFSHive適合離線數(shù)據(jù)處理Hive最初是構(gòu)建在Hadoop之上的數(shù)據(jù)倉庫。Hive定義了一種類SQL的查詢語言——HQLHive是將HQL轉(zhuǎn)換為MR的語言翻譯器。Hive是由faceBook開源,最初用于解決海量結(jié)構(gòu)化的日志數(shù)據(jù)統(tǒng)計問題,它可以作為ETL工具。Hive是什么Hive產(chǎn)生的背景湖南軟件職業(yè)技術(shù)大學(xué)
Hive
的誕生源于
的日志分析需求,面對海量的結(jié)構(gòu)化數(shù)據(jù),
Hive
能夠以較低的成本完成以往需要大規(guī)模數(shù)據(jù)庫才能完成的任務(wù),并且學(xué)習(xí)門檻相對較低,應(yīng)用開發(fā)靈活且高效。后來Facebook將
Hive
開源給了
Apache,成為
Apache
的一個頂級項目,至此Hive在大數(shù)據(jù)應(yīng)用方面得到了快速的發(fā)展和普及。Hive的優(yōu)缺點(diǎn)
Hive的優(yōu)點(diǎn)Hive適合數(shù)據(jù)的批處理,解決了傳統(tǒng)關(guān)系型數(shù)據(jù)庫在海量數(shù)據(jù)處理上的瓶頸。Hive構(gòu)建在Hadoop之上,充分利用了集群的存儲資源、計算資源。Hive學(xué)習(xí)使用成本低,支持標(biāo)準(zhǔn)的SQL語法,這樣就免去了編寫MapReduce程序的過程,減少了開發(fā)成本。具有良好的擴(kuò)展性,且能夠?qū)崿F(xiàn)與其他組件的集成開發(fā)。
湖南軟件職業(yè)技術(shù)大學(xué)Hive的缺點(diǎn)HQL的表達(dá)能力依然有限,不支持迭代計算,有些復(fù)雜的運(yùn)算用HQL不易表達(dá),還需要單獨(dú)編寫MapReduce來實(shí)現(xiàn)。Hive的運(yùn)行效率低、延遲高,這是因為Hive底層計算引擎默認(rèn)為MapReduce,而MapReduce是離線計算框架。Hive的調(diào)優(yōu)比較困難,由于HQL語句最終會轉(zhuǎn)換為MapReduce任務(wù),所以Hive的調(diào)優(yōu)還需要考慮MapReduce層面的優(yōu)化。Hive在Hadoop生態(tài)系統(tǒng)中的位置湖南軟件職業(yè)技術(shù)大學(xué)HIve在生態(tài)圈的位置Hive和Hadoop的關(guān)系
Hive利用HDFS來存儲數(shù)據(jù),利用MapReduce來查詢分析數(shù)據(jù),那么Hive與Hadoop之間的關(guān)系總結(jié)如下。
湖南軟件職業(yè)技術(shù)大學(xué)
Hive需要構(gòu)建在Hadoop集群之上。
Hive中的所有數(shù)據(jù)都存儲在Hadoop分布式文件系統(tǒng)中。
對HQL查詢語句的解釋、優(yōu)化、生成查詢計劃等過程均是由
Hive
完成的,而查詢計劃被轉(zhuǎn)化為
MapReduce
任務(wù)之后需要運(yùn)行在
Hadoop
集群之上。湖南軟件職業(yè)技術(shù)大學(xué)Hive原理及架構(gòu)Hive的設(shè)計原理
Hive的原理Hive
是一種構(gòu)建在Hadoop之上的數(shù)據(jù)倉庫工具,可以使用HQL
語句對數(shù)據(jù)進(jìn)行分析和查詢,而Hive
的底層數(shù)據(jù)都存儲在HDFS中。Hive
在加載數(shù)據(jù)過程中不會對數(shù)據(jù)進(jìn)行任何的修改,只是將數(shù)據(jù)移動到指定的HDFS目錄下,因此,Hive
不支持對數(shù)據(jù)的修改。
湖南軟件職業(yè)技術(shù)大學(xué)支持索引,加快數(shù)據(jù)查詢。內(nèi)置大量用戶自定義函數(shù)(userdefinefunction,簡稱UDF)來對時間、字符串進(jìn)行操作,支持用戶擴(kuò)展UDF
函數(shù)來完成內(nèi)置函數(shù)無法實(shí)現(xiàn)的操作。可以直接使用存儲在Hadoop
文件系統(tǒng)中的數(shù)據(jù)。1324不同的存儲類型,例如,純文本文件、HBase
中的文件。HQL語句最終會被轉(zhuǎn)換為MapReduce任務(wù)運(yùn)行在Hadoop集群之上。5Hive的設(shè)計原理Hive的特點(diǎn)Hive的體系結(jié)構(gòu)湖南軟件職業(yè)技術(shù)大學(xué)Hive的體系架構(gòu)如圖Hive的運(yùn)行機(jī)制湖南軟件職業(yè)技術(shù)大學(xué)(1)用戶通過用戶接口連接hive,編寫HQL語句。(2)Hive解析查詢并指定邏輯查詢計劃。(3)Hive將查詢轉(zhuǎn)換成MapReduce作業(yè)。(4)Hive在Hadoop上執(zhí)行MapReduce作業(yè)。Hive的轉(zhuǎn)換過程湖南軟件職業(yè)技術(shù)大學(xué)
HQL轉(zhuǎn)換為MapReduce作業(yè)的過程如圖所示,有如下幾個步驟:(1)由Hive驅(qū)動模塊中的解釋器對用戶輸入的HQL語句進(jìn)行詞法和語法解析,將HQL語句轉(zhuǎn)換為語法樹的形式。(2)抽象語法樹的結(jié)構(gòu)仍然很復(fù)雜,步方便直接翻譯為MapReduce程序,因此還需要把語法樹轉(zhuǎn)換為查詢塊。(3)把查詢塊轉(zhuǎn)換為邏輯查詢計劃,里面包含很多邏輯操作符。(4)重寫邏輯查詢計劃進(jìn)行優(yōu)化,合并多余操作,減少M(fèi)apReduce任務(wù)數(shù)量。(5)將邏輯操作符轉(zhuǎn)換為需要執(zhí)行的具體MapReduce任務(wù)。(6)對生成的MapReduce進(jìn)行優(yōu)化,生成最終的任務(wù)執(zhí)行計劃。(7)由Hive驅(qū)動模塊中的執(zhí)行器,執(zhí)行最終的MapReduce任務(wù)并輸出運(yùn)行結(jié)果。Hive的數(shù)據(jù)類型湖南軟件職業(yè)技術(shù)大學(xué)
Hive的基本數(shù)據(jù)類型Hive的數(shù)據(jù)類型湖南軟件職業(yè)技術(shù)大學(xué)
Hive的復(fù)雜數(shù)據(jù)類型Hive的數(shù)據(jù)存儲湖南軟件職業(yè)技術(shù)大學(xué)表
Hive的表在邏輯上由存儲的數(shù)據(jù)和描述表中數(shù)據(jù)形式的相關(guān)元數(shù)據(jù)組成。數(shù)據(jù)一般存放在HDFS中,但它也可以放在其他任何Hadoop文件系統(tǒng)中,包括本地文件系統(tǒng)或S3。Hive把元數(shù)據(jù)存放在關(guān)系型數(shù)據(jù)庫中,而不是放在HDFS中。在Hive中創(chuàng)建表時,默認(rèn)情況下Hive負(fù)責(zé)管理數(shù)據(jù)。這意味著Hive把數(shù)據(jù)移入它的“倉庫目錄”。另外一種選擇是創(chuàng)建一個外部表(externaltable),這會讓Hive到倉庫目錄以外的位置訪問數(shù)據(jù)。分區(qū)(Partition)
Hive把表組織成分區(qū)。這是一種根據(jù)分區(qū)列(如日期)的值對表進(jìn)行粗略劃分的機(jī)制。使用分區(qū)可以加快數(shù)據(jù)分片的查詢速度。以分區(qū)的常用情況為例,如日志文件的每條記錄包含一個時間戳。如果我們根據(jù)日期來對它進(jìn)行分區(qū),那么同一天的記錄就會被存放在同一個分區(qū)中。這樣做的優(yōu)點(diǎn)是:對于限制到某個或者某些特定日期的查詢,它們的處理可以變得非常高效。因為它們只需要掃描查詢范圍內(nèi)分區(qū)中的文件。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年巴音郭楞道路運(yùn)輸從業(yè)資格證考試內(nèi)容是什么
- 小學(xué)三年級100道口算題
- 2025年欽州貨運(yùn)上崗證模擬考試題
- 2025年荷澤貨運(yùn)從業(yè)資格證模擬考試駕考
- 華東師大版七年級數(shù)學(xué)上冊《第3章整式的加減3.1列代數(shù)式3.1.3列代數(shù)式 》聽評課記錄
- 湘教版數(shù)學(xué)八年級下冊《2.2.1平行四邊形的邊、角性質(zhì)》聽評課記錄
- 建筑項目經(jīng)理工作總結(jié)
- 初中理科教研組工作計劃
- 新學(xué)校校辦室工作計劃
- 平面設(shè)計師工作計劃范文欣賞
- DB37-T 997-2022危險化學(xué)品作業(yè)場所警示標(biāo)志標(biāo)識規(guī)范
- 重力壩水庫安全度汛方案
- 交通信號控制系統(tǒng)檢驗批質(zhì)量驗收記錄表
- Bankart損傷的診療進(jìn)展培訓(xùn)課件
- 護(hù)理部用藥安全質(zhì)量評價標(biāo)準(zhǔn)
- 校園信息化設(shè)備管理檢查表
- 新版抗拔樁裂縫及強(qiáng)度驗算計算表格(自動版)
- API SPEC 5DP-2020鉆桿規(guī)范
- 創(chuàng)新思維課件(完整版)
- DB34∕T 4161-2022 全過程工程咨詢服務(wù)管理規(guī)程
- 注塑成型工藝參數(shù)知識講解
評論
0/150
提交評論