




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
Hive簡介Hive簡介
Hive是Facebook為了解決海量數(shù)據(jù)的統(tǒng)計(jì)分析。而開發(fā)的構(gòu)建在Hadoop之上的一個(gè)大數(shù)據(jù)分析和統(tǒng)計(jì)工具。Hive在某種程度上可以被看作用戶編程接口,采用了SQL的查詢語言HQL(HiveQL),便于熟悉SQL的用戶查詢數(shù)據(jù)。Hive簡介Hive本身并不能存儲(chǔ)和處理數(shù)據(jù),它依賴于HDFS,又不能直接訪問HDFS數(shù)據(jù),需要先把HQL語句轉(zhuǎn)換成MapReduce任務(wù),然后采用批處理的方式在Hadoop上對(duì)海量數(shù)據(jù)進(jìn)行處理。Hive工作流程Hive工作流程
Hive通過其提供的一系列交互接口,接收用戶的SQL指令。它使用自己的Driver程序,結(jié)合元數(shù)據(jù)(Metastore),將這些指令翻譯為MapReduce任務(wù)。然后,Hive將這些任務(wù)提交到Hadoop集群中執(zhí)行。最后,執(zhí)行結(jié)果會(huì)被返回給用戶交互接口,供用戶查看和使用。Hive工作流程在整個(gè)過程中,Hive充當(dāng)了用戶與Hadoop之間的橋梁,使得用戶能夠通過簡單的SQL指令對(duì)大規(guī)模數(shù)據(jù)進(jìn)行查詢和分析。
Hive的數(shù)據(jù)存儲(chǔ)模型Hive的數(shù)據(jù)存儲(chǔ)模型
Hive中所有的數(shù)據(jù)都被存儲(chǔ)在HDFS中,沒有專門的數(shù)據(jù)存儲(chǔ)格式(可支持Text、Avro、ORC、SequenceFile、ParquetFile、RCFile等),只需要在創(chuàng)建表時(shí)指定Hive數(shù)據(jù)中的列分隔符和行分隔符,Hive就可以解析數(shù)據(jù)。Hive的數(shù)據(jù)存儲(chǔ)模型創(chuàng)建一個(gè)內(nèi)部表cityInfo(cityID,cityName,population),代碼如下:createtablecityInfo(>cityIDstring,>cityNamestring,>populationint)>rowformatdelimited>fieldsterminatedby','>storedastextfile;Hive的數(shù)據(jù)存儲(chǔ)模型Hive中的數(shù)據(jù)模型包括數(shù)據(jù)庫(Database)、表(Table)、分區(qū)(Partition)和桶(Bucket)。Hive的數(shù)據(jù)存儲(chǔ)模型(1)數(shù)據(jù)庫(Database):在HDFS中,數(shù)據(jù)庫表現(xiàn)為${hive.Metastore.warehouse.dir}目錄下的一個(gè)文件夾。在創(chuàng)建表時(shí),如果不指定數(shù)據(jù)庫,則默認(rèn)為“default”數(shù)據(jù)庫。(2)表(Table):在HDFS中,表表現(xiàn)為所屬數(shù)據(jù)庫目錄下的一個(gè)文件夾。Hive中默認(rèn)創(chuàng)建的是內(nèi)部表,這種表的數(shù)據(jù)由Hive來管理。當(dāng)刪除表時(shí),表的數(shù)據(jù)和元數(shù)據(jù)都會(huì)被刪除。Hive的數(shù)據(jù)存儲(chǔ)模型(3)分區(qū)(Partition):在Hive表查詢時(shí),可能只需要掃描表中的某部分?jǐn)?shù)據(jù),不需要掃描表中的全部內(nèi)容,因此在建表時(shí)引入了分區(qū)的概念。在Hive表查詢時(shí),如果指定了分區(qū)字段作為篩選條件,那么只需要到對(duì)應(yīng)的分區(qū)目錄中檢索數(shù)據(jù)即可,減少了處理的數(shù)據(jù)量,從而有效地提高了效率。Hive的數(shù)據(jù)存儲(chǔ)模型(4)桶(Bucket):桶可以被理解為將“大表”細(xì)分為“小表”的一種數(shù)據(jù)結(jié)構(gòu)。這種設(shè)計(jì)主要是為了提高查詢效率,使得進(jìn)行抽樣查詢時(shí)更加便捷。Hive的數(shù)據(jù)存儲(chǔ)模型桶是Hive數(shù)據(jù)模型中的最小單元。當(dāng)某數(shù)據(jù)被加載到桶中時(shí),首先會(huì)根據(jù)字段的值對(duì)其進(jìn)行哈希處理,然后用哈希結(jié)果除以桶的數(shù)量來決定該數(shù)據(jù)應(yīng)該存儲(chǔ)在哪個(gè)桶中。這樣就確保了每個(gè)桶中都有數(shù)據(jù),但每個(gè)桶中的數(shù)據(jù)條數(shù)可能并不相等。Hive的數(shù)據(jù)存儲(chǔ)模型數(shù)據(jù)加載-哈希取值-分桶Hive的數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 軌道交通專業(yè)實(shí)習(xí)報(bào)告
- 2025年中國繁花似錦毯紡行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報(bào)告
- 中國防護(hù)鞋套項(xiàng)目投資可行性研究報(bào)告
- 2025年混紡毛絨項(xiàng)目可行性研究報(bào)告
- 2025年熱塑性半導(dǎo)電屏蔽料行業(yè)深度研究分析報(bào)告
- 成都硫酸鎳項(xiàng)目申請(qǐng)報(bào)告參考模板
- 2024年四川省第八地質(zhì)大隊(duì)考核招聘工作人員考試真題
- 2024年省廈門市大同小學(xué)招聘教師筆試真題
- 2024年山東省精神衛(wèi)生中心招聘考試真題
- 四川省瀘州市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會(huì)明細(xì)
- 《鄒忌諷齊王納諫》課件(共45張)
- 機(jī)械制圖教學(xué)課件(全套)
- 熱能與動(dòng)力工程測試技術(shù)- 液位測量
- 化學(xué)纖維精品課件
- 中式面點(diǎn)師初級(jí)(五級(jí))教學(xué)計(jì)劃、大綱
- QC成果構(gòu)造柱澆筑新技術(shù)的研發(fā)創(chuàng)新(附圖)
- 2020 ACLS-PC-SA課前自我測試試題及答案
- BIM技術(shù)應(yīng)用管理辦法
- 信息論與編碼第4章信息率失真函數(shù)
- 空間幾何向量法之點(diǎn)到平面的距離
評(píng)論
0/150
提交評(píng)論