14.2 Hive數(shù)據存儲模型_第1頁
14.2 Hive數(shù)據存儲模型_第2頁
14.2 Hive數(shù)據存儲模型_第3頁
14.2 Hive數(shù)據存儲模型_第4頁
14.2 Hive數(shù)據存儲模型_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Hive的數(shù)據存儲模型Hive的數(shù)據存儲模型

Hive中所有的數(shù)據都被存儲在HDFS中,沒有專門的數(shù)據存儲格式(可支持Text、Avro、ORC、SequenceFile、ParquetFile、RCFile等),只需要在創(chuàng)建表時指定Hive數(shù)據中的列分隔符和行分隔符,Hive就可以解析數(shù)據。Hive的數(shù)據存儲模型創(chuàng)建一個內部表cityInfo(cityID,cityName,population),代碼如下:createtablecityInfo(>cityIDstring,>cityNamestring,>populationint)>rowformatdelimited>fieldsterminatedby','>storedastextfile;Hive的數(shù)據存儲模型Hive中的數(shù)據模型包括數(shù)據庫(Database)、表(Table)、分區(qū)(Partition)和桶(Bucket)。Hive的數(shù)據存儲模型(1)數(shù)據庫(Database):在HDFS中,數(shù)據庫表現(xiàn)為${hive.Metastore.warehouse.dir}目錄下的一個文件夾。在創(chuàng)建表時,如果不指定數(shù)據庫,則默認為“default”數(shù)據庫。(2)表(Table):在HDFS中,表表現(xiàn)為所屬數(shù)據庫目錄下的一個文件夾。Hive中默認創(chuàng)建的是內部表,這種表的數(shù)據由Hive來管理。當刪除表時,表的數(shù)據和元數(shù)據都會被刪除。Hive的數(shù)據存儲模型(3)分區(qū)(Partition):在Hive表查詢時,可能只需要掃描表中的某部分數(shù)據,不需要掃描表中的全部內容,因此在建表時引入了分區(qū)的概念。在Hive表查詢時,如果指定了分區(qū)字段作為篩選條件,那么只需要到對應的分區(qū)目錄中檢索數(shù)據即可,減少了處理的數(shù)據量,從而有效地提高了效率。Hive的數(shù)據存儲模型(4)桶(Bucket):桶可以被理解為將“大表”細分為“小表”的一種數(shù)據結構。這種設計主要是為了提高查詢效率,使得進行抽樣查詢時更加便捷。Hive的數(shù)據存儲模型桶是Hive數(shù)據模型中的最小單元。當某數(shù)據被加載到桶中時,首先會根據字段的值對其進行哈希處理,然后用哈希結果除以桶的數(shù)量來決定該數(shù)據應該存儲在哪個桶中。這樣就確保了每個桶中都有數(shù)據,但每個桶中的數(shù)據條數(shù)可能并不相等。Hive的數(shù)據存儲模型數(shù)據加載-哈希取值-分桶Hive的數(shù)據存儲模型桶是一種技術,用于將數(shù)據分解為更小、更易管

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論