大數(shù)據(jù)系列Hive入門與實(shí)戰(zhàn)

上傳人：騰*** IP屬地：廣東上傳時(shí)間：2022-09-07 格式：PPT 頁(yè)數(shù)：69 大?。?.68MB 積分：15 舉報(bào) 版權(quán)申訴

大數(shù)據(jù)系列Hive入門與實(shí)戰(zhàn)_第2頁(yè)

大數(shù)據(jù)系列Hive入門與實(shí)戰(zhàn)_第3頁(yè)

大數(shù)據(jù)系列Hive入門與實(shí)戰(zhàn)_第4頁(yè)

大數(shù)據(jù)系列Hive入門與實(shí)戰(zhàn)_第5頁(yè)

已閱讀5頁(yè)，還剩64頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)系列Hive入門與實(shí)戰(zhàn)一、 Hive簡(jiǎn)介二、 Hive體系結(jié)構(gòu)三、 Hive工作機(jī)制四、 Hive應(yīng)用場(chǎng)景五、 Hive安裝部署六、 Hive開發(fā)使用七、 SparkSQL簡(jiǎn)介Hive簡(jiǎn)介-Hive是什么？Hive是構(gòu)建在Hadoop之上的數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)Hive是一個(gè)SQL解析引擎,它將SQL語(yǔ)句轉(zhuǎn)譯成MapReduce作業(yè)并在Hadoop上執(zhí)行。Hive表是HDFS的一個(gè)文件目錄，一個(gè)表名對(duì)應(yīng)一個(gè)目錄名，如果有分區(qū)表的話，則分區(qū)值對(duì)應(yīng)子目錄名。Hive簡(jiǎn)介-Hive的歷史由來(lái)Hive是Facebook開發(fā)的，構(gòu)建于Hadoop集群之上的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用。2008年Facebook將Hive項(xiàng)

2、目貢獻(xiàn)給Apache，成為開源項(xiàng)目。目前最新版本hive-2.0.0Hive簡(jiǎn)介-Hive的歷史由來(lái)Hadoop和Hive組建成為Facebook數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展史隨著數(shù)據(jù)量增加某些查詢需要幾個(gè)小時(shí)甚至幾天才能完成。當(dāng)數(shù)據(jù)達(dá)到1T時(shí)，MySql進(jìn)程跨掉?？梢灾螏讉€(gè)T的數(shù)據(jù)，但每天收集用戶點(diǎn)擊流數(shù)據(jù)（每天約400G）時(shí),Oracle開始撐不住。有效解決了大規(guī)模數(shù)據(jù)的存儲(chǔ)與統(tǒng)計(jì)分析的問(wèn)題，但是MapReduce程序?qū)τ谄胀ǚ治鋈藛T的使用過(guò)于復(fù)雜和繁瑣。對(duì)外提供了類似于SQL語(yǔ)法的HQL語(yǔ)句數(shù)據(jù)接口，自動(dòng)將HQL語(yǔ)句編譯轉(zhuǎn)化為MR作業(yè)后在Hadoop上執(zhí)行。降低了分析人員使用Hadoop進(jìn)行數(shù)據(jù)分析

3、的難度。一、 Hive簡(jiǎn)介二、 Hive體系結(jié)構(gòu)三、 Hive工作機(jī)制四、 Hive應(yīng)用場(chǎng)景五、 Hive安裝部署六、 Hive開發(fā)使用七、 SparkSQL簡(jiǎn)介Hive體系結(jié)構(gòu)-Hive在Hadoop中的位置Avro(序列化)Zookeeper(協(xié)調(diào)服務(wù))Pig(數(shù)據(jù)流)SqoopHive(SQL)MapReduce(分布式計(jì)算框架)Hbase(列存儲(chǔ))HCatalog(元數(shù)據(jù))HDFS(Hadoop分布式文件系統(tǒng))程序語(yǔ)言計(jì)算表存儲(chǔ)對(duì)象存儲(chǔ)Hive體系結(jié)構(gòu)-Hive設(shè)計(jì)特征 Hive 做為Hadoop 的數(shù)據(jù)倉(cāng)庫(kù)處理工具，它所有的數(shù)據(jù)都存儲(chǔ)在Hadoop 兼容的文件系統(tǒng)中。Hive 在加載

4、數(shù)據(jù)過(guò)程中不會(huì)對(duì)數(shù)據(jù)進(jìn)行任何的修改，只是將數(shù)據(jù)移動(dòng)到HDFS 中Hive 設(shè)定的目錄下，因此，Hive 不支持對(duì)數(shù)據(jù)的改寫和添加，所有的數(shù)據(jù)都是在加載的時(shí)候確定的。Hive 的設(shè)計(jì)特點(diǎn)如下。支持索引，加快數(shù)據(jù)查詢。不同的存儲(chǔ)類型，例如，純文本文件、HBase 中的文件。將元數(shù)據(jù)保存在關(guān)系數(shù)據(jù)庫(kù)中，減少了在查詢中執(zhí)行語(yǔ)義檢查時(shí)間?？梢灾苯邮褂么鎯?chǔ)在Hadoop 文件系統(tǒng)中的數(shù)據(jù)。內(nèi)置大量用戶函數(shù)UDF 來(lái)操作時(shí)間、字符串和其他的數(shù)據(jù)挖掘工具，支持用戶擴(kuò)展UDF 函數(shù)來(lái)完成內(nèi)置函數(shù)無(wú)法實(shí)現(xiàn)的操作。類SQL 的查詢方式，將SQL 查詢轉(zhuǎn)換為MapReduce 的job 在Hadoop集群上執(zhí)行。編碼

5、跟Hadoop同樣使用UTF-8字符集。Hive體系結(jié)構(gòu)用戶接口CLI：Cli 啟動(dòng)的時(shí)候，會(huì)同時(shí)啟動(dòng)一個(gè) Hive 副本。JDBC客戶端：封裝了Thrift,java應(yīng)用程序，可以通過(guò)指定的主機(jī)和端口連接到在另一個(gè)進(jìn)程中運(yùn)行的hive服務(wù)器ODBC客戶端：ODBC驅(qū)動(dòng)允許支持ODBC協(xié)議的應(yīng)用程序連接到Hive。WUI 接口：是通過(guò)瀏覽器訪問(wèn) HiveThrift服務(wù)器基于socket通訊，支持跨語(yǔ)言。Hive Thrift服務(wù)簡(jiǎn)化了在多編程語(yǔ)言中運(yùn)行Hive的命令。綁定支持C+,Java,PHP,Python和Ruby語(yǔ)言。HiveHadoopThrift服務(wù)器解析器編譯器優(yōu)化器執(zhí)行器元數(shù)

6、據(jù)庫(kù)MapReduceHDFS數(shù)據(jù)倉(cāng)庫(kù)用戶接口CLI接口JDBC/ODBC客戶端WEB接口Hive體系結(jié)構(gòu)解析器編譯器:完成 HQL 語(yǔ)句從詞法分析、語(yǔ)法分析、編譯、優(yōu)化以及執(zhí)行計(jì)劃的生成。優(yōu)化器是一個(gè)演化組件，當(dāng)前它的規(guī)則是：列修剪，謂詞下壓。執(zhí)行器會(huì)順序執(zhí)行所有的Job。如果Task鏈不存在依賴關(guān)系，可以采用并發(fā)執(zhí)行的方式執(zhí)行Job。元數(shù)據(jù)庫(kù)Hive的數(shù)據(jù)由兩部分組成：數(shù)據(jù)文件和元數(shù)據(jù)。元數(shù)據(jù)用于存放Hive庫(kù)的基礎(chǔ)信息，它存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中，如 mysql、derby。元數(shù)據(jù)包括：數(shù)據(jù)庫(kù)信息、表的名字，表的列和分區(qū)及其屬性，表的屬性，表的數(shù)據(jù)所在目錄等。HadoopHive 的數(shù)據(jù)文件存

7、儲(chǔ)在 HDFS 中，大部分的查詢由 MapReduce 完成。（對(duì)于包含 * 的查詢，比如 select * from tbl 不會(huì)生成 MapRedcue 作業(yè)）HiveHadoopThrift服務(wù)器解析器編譯器優(yōu)化器執(zhí)行器元數(shù)據(jù)庫(kù)MapReduceHDFS數(shù)據(jù)倉(cāng)庫(kù)用戶接口CLI接口JDBC/ODBC客戶端WEB接口一、 Hive簡(jiǎn)介二、 Hive體系結(jié)構(gòu)三、 Hive工作機(jī)制四、 Hive應(yīng)用場(chǎng)景五、 Hive安裝部署六、 Hive開發(fā)使用七、 SparkSQL簡(jiǎn)介HadoopHive的運(yùn)行機(jī)制hive用戶通過(guò)用戶接口連接Hive,發(fā)布Hive SQLHive解析查詢并制定查詢計(jì)劃Hive

8、將查詢轉(zhuǎn)換成MapReduce作業(yè)Hive在Hadoop上執(zhí)行MapReduce作業(yè)sqlMap/Reduce hdfstable1table2table3.用戶用戶接口Hive編譯器的運(yùn)行機(jī)制（Hive的核心）語(yǔ)義解析器將查詢字符串轉(zhuǎn)換成解析樹表達(dá)式。語(yǔ)法解析器將解析樹轉(zhuǎn)換成基于語(yǔ)句塊的內(nèi)部查詢表達(dá)式。邏輯計(jì)劃生成器將內(nèi)部查詢表達(dá)式轉(zhuǎn)換為邏輯計(jì)劃，這些計(jì)劃由邏輯操作樹組成，操作符是Hive的最小處理單元，每個(gè)操作符處理代表一道HDFS操作或者是MR作業(yè)。查詢計(jì)劃生成器將邏輯計(jì)劃轉(zhuǎn)化成物理計(jì)劃（MR Job）。一、 Hive簡(jiǎn)介二、 Hive體系結(jié)構(gòu)三、 Hive工作機(jī)制四、 Hive應(yīng)

9、用場(chǎng)景五、 Hive安裝部署六、 Hive開發(fā)使用七、 SparkSQL簡(jiǎn)介Hive的應(yīng)用場(chǎng)景-Hive的優(yōu)勢(shì)解決了傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)在大數(shù)據(jù)處理上的瓶頸。適合大數(shù)據(jù)的批量處理。充分利用集群的CPU計(jì)算資源、存儲(chǔ)資源，實(shí)現(xiàn)并行計(jì)算。Hive支持標(biāo)準(zhǔn)SQL語(yǔ)法，免去了編寫MR程序的過(guò)程，減少了開發(fā)成本。具有良好的擴(kuò)展性，拓展功能方便。Hive的優(yōu)勢(shì)-上百行MR程序與一條HQL的對(duì)比Hive的應(yīng)用場(chǎng)景-Hive的缺點(diǎn)Hive的HQL表達(dá)能力有限：有些復(fù)雜運(yùn)算用HQL不易表達(dá)。Hive效率低：Hive自動(dòng)生成MR作業(yè)，通常不夠智能；HQL調(diào)優(yōu)困難，粒度較粗；可控性差。針對(duì)Hive運(yùn)行效率低下的問(wèn)題，促使

10、人們?nèi)ふ乙环N更快，更具交互性的分析框架。 SparkSQL 的出現(xiàn)則有效的提高了Sql在Hadoop 上的分析運(yùn)行效率。Hive的應(yīng)用場(chǎng)景適用場(chǎng)景海量數(shù)據(jù)的存儲(chǔ)處理數(shù)據(jù)挖掘海量數(shù)據(jù)的離線分析不適用場(chǎng)景復(fù)雜的機(jī)器學(xué)習(xí)算法復(fù)雜的科學(xué)計(jì)算聯(lián)機(jī)交互式實(shí)時(shí)查詢一、 Hive簡(jiǎn)介二、 Hive體系結(jié)構(gòu)三、 Hive工作機(jī)制四、 Hive應(yīng)用場(chǎng)景五、 Hive安裝部署六、 Hive開發(fā)使用七、 SparkSQL簡(jiǎn)介一、 Hive簡(jiǎn)介二、 Hive體系結(jié)構(gòu)三、 Hive工作機(jī)制四、 Hive應(yīng)用場(chǎng)景五、 Hive安裝部署六、 Hive開發(fā)使用七、 SparkSQL簡(jiǎn)介Hive開發(fā)使用-Hive的連接Hive

11、Server2目前Hive的Thrift服務(wù)端通常使用HiveServer2,它是HiveServer改進(jìn)版本，它提供了新的ThriftAPI來(lái)處理JDBC或者ODBC客戶端，可以進(jìn)行Kerberos身份驗(yàn)證，支持多個(gè)客戶端并發(fā)。BeeLineHiveServer2還提供了新的CLI：BeeLine，它是Hive 0.11引入的新的交互式CLI，基于SQLLine，可以作為Hive JDBC Client 端訪問(wèn)HievServer2。通過(guò)BeeLine連接hivehive安裝目錄/bin/./beeline -u jdbc:hive2:/hiveServer2所在ip:端口號(hào) -n 用戶名例

12、如： ./beeline -u jdbc:hive2:/127.0.0.1:10000 -n rootHive開發(fā)使用-Hive的基本數(shù)據(jù)類型Hive開發(fā)使用-Hive的復(fù)雜數(shù)據(jù)類型Hive開發(fā)使用-Hive元數(shù)據(jù)庫(kù)表簡(jiǎn)介Hive開發(fā)使用-Hive的數(shù)據(jù)模型Hive數(shù)據(jù)庫(kù) 類似傳統(tǒng)數(shù)據(jù)庫(kù)的DataBase，在元數(shù)據(jù)庫(kù)里實(shí)際是一張表。對(duì)應(yīng)于HDFS上的數(shù)據(jù)倉(cāng)庫(kù)目錄下是一個(gè)文件夾。數(shù)據(jù)倉(cāng)庫(kù)目錄路徑，由hive-site.xml中$hive.metastore.warehouse.dir 參數(shù)指定。創(chuàng)建數(shù)據(jù)庫(kù)示例： create database 數(shù)據(jù)庫(kù)名; 元數(shù)據(jù)庫(kù)中查詢數(shù)據(jù)庫(kù)列表: select

13、 * from dbs; 如下圖：Hive開發(fā)使用-Hive的數(shù)據(jù)模型Hive數(shù)據(jù)庫(kù) hive-site.xml中的數(shù)據(jù)倉(cāng)庫(kù)目錄設(shè)置，如下圖：HDFS下對(duì)應(yīng)存儲(chǔ)目錄，數(shù)據(jù)庫(kù)名后綴為.db的數(shù)據(jù)庫(kù)列表，如下圖，Hive開發(fā)使用-Hive的數(shù)據(jù)模型內(nèi)部表內(nèi)部表與關(guān)系數(shù)據(jù)庫(kù)中的Table在概念上類似。每一個(gè)Table在Hive中都有一個(gè)相應(yīng)的目錄存儲(chǔ)數(shù)據(jù)。所有的Table數(shù)據(jù)（不包括External Table）都保存在這個(gè)目錄中。刪除表時(shí)，元數(shù)據(jù)與數(shù)據(jù)都會(huì)被刪除。元數(shù)據(jù)庫(kù)中查詢數(shù)據(jù)表列表: HDFS下對(duì)應(yīng)存儲(chǔ)目錄：Hive開發(fā)使用-Hive的數(shù)據(jù)模型外部表外部表指向已經(jīng)在HDFS中存在的數(shù)

14、據(jù)，可以創(chuàng)建Partition。它和內(nèi)部表在元數(shù)據(jù)的組織上是相同的，而實(shí)際數(shù)據(jù)的存儲(chǔ)則有較大的差異。內(nèi)部表的創(chuàng)建過(guò)程和數(shù)據(jù)加載過(guò)程這兩個(gè)過(guò)程可以分別獨(dú)立完成，也可以在同一個(gè)語(yǔ)句中完成，在加載數(shù)據(jù)的過(guò)程中，實(shí)際數(shù)據(jù)會(huì)被移動(dòng)到數(shù)據(jù)倉(cāng)庫(kù)目錄中；之后對(duì)數(shù)據(jù)訪問(wèn)將會(huì)直接在數(shù)據(jù)倉(cāng)庫(kù)目錄中完成。刪除表時(shí)，表中的數(shù)據(jù)和元數(shù)據(jù)將會(huì)被同時(shí)刪除。而外部表只有一個(gè)過(guò)程，加載數(shù)據(jù)和創(chuàng)建表同時(shí)完成（CREATE EXTERNAL TABLE LOCATION），實(shí)際數(shù)據(jù)是存儲(chǔ)在LOCATION后面指定的 HDFS 路徑中，并不會(huì)移動(dòng)到數(shù)據(jù)倉(cāng)庫(kù)目錄中。當(dāng)刪除一個(gè)External Table時(shí)，僅刪除該鏈接。Hive開發(fā)使用

15、-Hive的數(shù)據(jù)模型如何選擇使用內(nèi)部表或外部表？如果所有處理都由hive來(lái)完成，則使用內(nèi)部表如果需要用hive和外部其他工具處理同一組數(shù)據(jù)集，則使用外部表。Hive開發(fā)使用-Hive的數(shù)據(jù)模型分區(qū) Partition對(duì)應(yīng)于關(guān)系數(shù)據(jù)庫(kù)中的Partition列的密集索引，但是Hive中Partition的組織方式和數(shù)據(jù)庫(kù)中的很不相同。在Hive中，表中的一個(gè)Partition對(duì)應(yīng)于表下的一個(gè)目錄，所有的Partition的數(shù)據(jù)都存儲(chǔ)在對(duì)應(yīng)的目錄中。例如pvs表中包含ds和city兩個(gè)Partition，則對(duì)應(yīng)于ds = 20090801, city= jinan 的HDFS子目錄為：/wh/pv

16、s/ds=20090801/city=jinan ；對(duì)應(yīng)于 ds = 20090801, city= qingdao 的HDFS子目錄為：/wh/pvs/ds=20090801/city=qingdao 。 Hive開發(fā)使用-Hive的數(shù)據(jù)模型桶 Buckets是將表的列通過(guò)Hash算法進(jìn)一步分解成不同的文件存儲(chǔ)。它對(duì)指定列計(jì)算hash，根據(jù)hash值切分?jǐn)?shù)據(jù)，目的是為了并行，每一個(gè)Bucket對(duì)應(yīng)一個(gè)文件。分區(qū)是粗粒度的劃分，桶是細(xì)粒度的劃分，這樣做為了可以讓查詢發(fā)生在小范圍的數(shù)據(jù)上以提高效率。適合進(jìn)行表連接查詢、適合用于采樣分析。例如將user列分散至32個(gè)bucket，首先對(duì)user列

17、的值計(jì)算hash，則對(duì)應(yīng)hash值為0的HDFS目錄為：/wh/pvs/ds=20090801/ctry=US/part-00000；對(duì)應(yīng)hash值為20的HDFS目錄為：/wh/pvs/ds=20090801/ctry=US/part-00020。如果想應(yīng)用很多的Map任務(wù)這樣是不錯(cuò)的選擇。 Hive開發(fā)使用-Hive的數(shù)據(jù)模型 Hive的視圖視圖與傳統(tǒng)數(shù)據(jù)庫(kù)的視圖類似。視圖是只讀的，它基于的基本表，如果改變，數(shù)據(jù)增加不會(huì)影響視圖的呈現(xiàn)；如果刪除，會(huì)出現(xiàn)問(wèn)題。如果不指定視圖的列，會(huì)根據(jù)select語(yǔ)句后的生成。視圖的簡(jiǎn)單示例：創(chuàng)建表：create view test_view as s

18、elect * from test; 查看數(shù)據(jù)：select * from test_view;Hive開發(fā)使用-Hive的數(shù)據(jù)存儲(chǔ)模型數(shù)據(jù)庫(kù)（database）表（table）表（table）常規(guī)數(shù)據(jù)（data）（Buckets）桶（Buckets）桶分區(qū)（Partition）分區(qū)（Partition）（Buckets）桶（Buckets）桶Hive開發(fā)使用-Hive創(chuàng)建數(shù)據(jù)表命令CREATE TABLE 創(chuàng)建一個(gè)指定名字的表。如果相同名字的表已經(jīng)存在，則拋出異常；用戶可以用 IF NOT EXIST 選項(xiàng)來(lái)忽略這個(gè)異常。EXTERNAL 關(guān)鍵字可以讓用戶創(chuàng)建一個(gè)外部表，在建表的同時(shí)指定一個(gè)

19、指向?qū)嶋H數(shù)據(jù)的路徑（LOCATION），有分區(qū)的表可以在創(chuàng)建的時(shí)候使用 PARTITIONED BY 語(yǔ)句。一個(gè)表可以擁有一個(gè)或者多個(gè)分區(qū)，每一個(gè)分區(qū)單獨(dú)存在一個(gè)目錄下。表和分區(qū)都可以對(duì)某個(gè)列進(jìn)行 CLUSTERED BY 操作，將若干個(gè)列放入一個(gè)桶（bucket）中?？梢岳肧ORT BY 對(duì)數(shù)據(jù)進(jìn)行排序。這樣可以為特定應(yīng)用提高性能。默認(rèn)的字段分隔符為ascii碼的控制符001(A) tab分隔符為 t。只支持單個(gè)字符的分隔符。如果文件數(shù)據(jù)是純文本，可以使用 STORED AS TEXTFILE。如果數(shù)據(jù)需要壓縮，使用 STORED AS SEQUENCE 。CREATE EXTERNAL

20、TABLE IF NOT EXISTS table_name (col_name data_type COMMENT col_comment, .) COMMENT table_comment PARTITIONED BY (col_name data_type COMMENT col_comment, .) CLUSTERED BY (col_name, col_name, .) SORTED BY (col_name ASC|DESC, .) INTO num_buckets BUCKETS ROW FORMAT row_format STORED AS file_format LOCAT

21、ION hdfs_pathHive開發(fā)使用-Hive加載數(shù)據(jù)命令Load 操作只是單純的復(fù)制/移動(dòng)操作，將數(shù)據(jù)文件移動(dòng)到 Hive 表對(duì)應(yīng)的位置。如果表中存在分區(qū)，則必須指定分區(qū)名。加載本地?cái)?shù)據(jù)，指定LOCAL關(guān)鍵字，即本地，可以同時(shí)給定分區(qū)信息。load 命令會(huì)去查找本地文件系統(tǒng)中的 filepath。如果發(fā)現(xiàn)是相對(duì)路徑，則路徑會(huì)被解釋為相對(duì)于當(dāng)前用戶的當(dāng)前路徑。用戶也可以為本地文件指定一個(gè)完整的 URI，比如：file:/user/hive/project/data1.例如：加載本地?cái)?shù)據(jù)，同時(shí)給定分區(qū)信息：hive LOAD DATA LOCAL INPATH file:/example

22、s/files/kv2.txt OVERWRITE INTO TABLE invites PARTITION (ds=2008-08-15);加載DFS數(shù)據(jù) ，同時(shí)給定分區(qū)信息：如果 filepath 可以是相對(duì)路徑 URI路徑，對(duì)于相對(duì)路徑，Hive 會(huì)使用在 hadoop 配置文件中定義的 fs.defaultFS 指定的Namenode 的 URI來(lái)自動(dòng)拼接完整路徑。例如：加載數(shù)據(jù)到hdfs中，同時(shí)給定分區(qū)信息 hive LOAD DATA INPATH /user/myname/kv2.txt OVERWRITE INTO TABLE invites PARTITION (ds=200

23、8-08-15);OVERWRITE指定 OVERWRITE ,目標(biāo)表（或者分區(qū)）中的內(nèi)容（如果有）會(huì)被刪除，然后再將 filepath 指向的文件/目錄中的內(nèi)容添加到表/分區(qū)中。如果目標(biāo)表（分區(qū)）已經(jīng)有一個(gè)文件，并且文件名和 filepath 中的文件名沖突，那么現(xiàn)有的文件會(huì)被新文件所替代。LOAD DATA LOCAL INPATH filepath OVERWRITE INTO TABLE tablename PARTITION (partcol1=val1, partcol2=val2 .)Hive開發(fā)使用-Hive創(chuàng)建數(shù)據(jù)表命令示例內(nèi)部表例如：創(chuàng)建人員信息表person_insi

24、de，列以逗號(hào),分隔。建表示例：create table person_inside (id string,name string,sex string,age int) row format delimited fields terminated by , stored as textfile;加載數(shù)據(jù)：本地?cái)?shù)據(jù)位置： /tmp/person.txtload data local inpath file:/tmp/person.txt into table person_inside;Hive開發(fā)使用-Hive創(chuàng)建數(shù)據(jù)表命令示例外部表例如：創(chuàng)建人員信息表person_ex，列以逗號(hào),

25、分隔。外部表對(duì)應(yīng)路徑：hdfs:/mycluster/hivedb/person.txt 建表示例：create external table person_ext(id string,name string,sex string,age int) row format delimited fields terminated by , stored as textfilelocation /hivedb; (注意：location后面跟的是目錄，不是文件，hive將依據(jù)默認(rèn)配置的hdfs路徑，自動(dòng)將整個(gè)目錄下的文件都加載到表中)Hive開發(fā)使用-Hive創(chuàng)建數(shù)據(jù)表命令示例外部表 hive 默

26、認(rèn)數(shù)據(jù)倉(cāng)庫(kù)路徑下，不會(huì)生成外部表的文件目錄，如下圖：查看表信息： desc formatted person_ext; 查看location指向。如下圖：Hive開發(fā)使用-Hive創(chuàng)建數(shù)據(jù)表命令示例外部表查詢數(shù)據(jù)：select * from person_ext;刪除表：drop table person_ext; 只刪除邏輯表，不刪除數(shù)據(jù)文件，數(shù)據(jù)文件依然存在。如下圖：Hive開發(fā)使用-Hive創(chuàng)建數(shù)據(jù)表命令示例分區(qū)表例如：創(chuàng)建人員信息表person_part，列以逗號(hào),分隔。建立city為分區(qū)。建表示例：create table person_part(id string,name

27、string,sex string,age int) partitioned by (city string)row format delimited fields terminated by , stored as textfile;加載數(shù)據(jù)：本地?cái)?shù)據(jù)位置： /tmp/person.txtload data local inpath file:/tmp/person.txt into table person_part partition(city=jinan);Hive開發(fā)使用-Hive創(chuàng)建數(shù)據(jù)表命令示例分區(qū)表數(shù)據(jù)存儲(chǔ)在以分區(qū) city=jinan為目錄的路徑下，如下圖：根據(jù)分區(qū)查詢數(shù)據(jù)

28、：hive 會(huì)自動(dòng)判斷where語(yǔ)句中是否包含分區(qū)的字段。而且可以使用大于小于等運(yùn)算符select * from person_part where city=jinan; 如下圖：Hive開發(fā)使用-Hive創(chuàng)建數(shù)據(jù)表命令示例分桶表例如：創(chuàng)建人員信息表person_bucket，列以逗號(hào),分隔，在年齡age字段上建5個(gè)桶。建表示例：create table person_bucket (id string,name string,sex string,age int) partitioned by (city string) clustered by (age) sorted by(nam

29、e) into 5 buckets row format delimited fields terminated by , stored as textfile;打開桶參數(shù)： set hive.enforce.bucketing = true; 加載數(shù)據(jù)：insert into table person_bucket partition (city=jinan) select * from person_inside; Hive開發(fā)使用-Hive創(chuàng)建數(shù)據(jù)表命令示例分桶表數(shù)據(jù)加載到桶表時(shí)，會(huì)對(duì)字段取hash值，然后與桶的數(shù)量取模。把數(shù)據(jù)放到對(duì)應(yīng)的文件中。如下圖：抽樣查詢：查詢5個(gè)桶中的第2個(gè)

30、桶，即000001_0 文件 select * from person_bucket tablesample(bucket 2 out of 5 on age);Hive開發(fā)使用-Hive創(chuàng)建數(shù)據(jù)表命令示例分桶表：注意：要生成桶的數(shù)據(jù)，只能是由其他表通過(guò)insert into 或是insert overwrite導(dǎo)入數(shù)據(jù)，如果使用LOAD DATA 加載數(shù)據(jù)，則不能生成桶數(shù)據(jù)。定義桶可以使用整型字段或是string類型字段。若表沒有定義桶也可以進(jìn)行隨機(jī)抽樣，但是要全表掃描，速度慢。必須先set hive.enforce.bucketing = true，才可以將數(shù)據(jù)正常寫入桶中。Hive開發(fā)使

31、用-數(shù)據(jù)導(dǎo)出命令導(dǎo)出到本地文件系統(tǒng) insert overwrite local directory /tmp/exportest/ select * from person_inside;注意：導(dǎo)出路徑為文件夾路徑，不必指定文件名。執(zhí)行語(yǔ)句后，會(huì)在本地目錄的/tmp/hivedb/下生成一個(gè)000000_0結(jié)果集數(shù)據(jù)文件。如下圖：導(dǎo)出的數(shù)據(jù)列之間的分隔符默認(rèn)是A(ascii碼是001)。如下圖：Hive開發(fā)使用-數(shù)據(jù)導(dǎo)出命令導(dǎo)出到HDFS中insert overwrite directory /hivedb select * from person_inside;注意：導(dǎo)出路徑為文件夾路徑

32、，不必指定文件名。執(zhí)行語(yǔ)句后，會(huì)在HDFS目錄的/hivedb下生成一個(gè)000000_0結(jié)果集數(shù)據(jù)文件。如下圖：Hive開發(fā)使用-數(shù)據(jù)導(dǎo)出命令導(dǎo)出到Hive的另一個(gè)表中insert into table person_part partition (city=jinan) select * from person_inside;Hive開發(fā)使用-數(shù)據(jù)查詢命令基于Partition的查詢例如：分區(qū)為 citySELECT * FROM person_part WHERE city=jinan;限制條數(shù)查詢 LIMIT Limit可以限制查詢的記錄數(shù)。查詢的結(jié)果是隨機(jī)選擇的。下面的查詢語(yǔ)句從t

33、1表中隨機(jī)查詢5條記錄：SELECT * FROM person_inside LIMIT 5;Top N查詢下面的查詢語(yǔ)句查詢年齡最大的5個(gè)人。set mapred.reduce.tasks= 2; 設(shè)置mapReduce任務(wù)數(shù)為2 個(gè)select * from person_inside sort by age desc limit 5;Hive開發(fā)使用-數(shù)據(jù)表連接命令Hive只支持等值連接，即ON子句中使用等號(hào)連接，不支持非等值連接。如果連接語(yǔ)句中有WHERE子句，會(huì)先執(zhí)行JOIN子句，再執(zhí)行WHERE子句?？梢?join 多個(gè)表。示例：表employee數(shù)據(jù)如下:表job數(shù)據(jù)如下:H

34、ive開發(fā)使用-數(shù)據(jù)表連接命令創(chuàng)建employee表創(chuàng)建表create table employee(employee_id string,name string) row format delimited fields terminated by , stored as textfile;加載數(shù)據(jù)：本地?cái)?shù)據(jù)位置： /tmp/employee.txtload data local inpath file:/tmp/employee.txt into table employee;創(chuàng)建job表創(chuàng)建表 create table job (job_id string,job string,empl

35、oyee_id string) row format delimited fields terminated by , stored as textfile;加載數(shù)據(jù)：本地?cái)?shù)據(jù)位置： /tmp/job.txtload data local inpath file:/tmp/job.txt into table job ;Hive開發(fā)使用-數(shù)據(jù)表連接命令內(nèi)連接內(nèi)連接指的是把符合兩邊連接條件的數(shù)據(jù)查詢出來(lái)。查詢語(yǔ)句select * from employee join job on employee.employee_id=job.employee_id;結(jié)果如下：Hive開發(fā)使用-數(shù)據(jù)表連接命

36、令左外連接如果左邊有數(shù)據(jù)，右邊沒有數(shù)據(jù)，則左邊有數(shù)據(jù)的記錄的對(duì)應(yīng)列返回為空。查詢語(yǔ)句 select * from employee left outer join job on employee.employee_id=job.employee_id;注意：不能使用left join，只能使用left outer join。結(jié)果如下：Hive開發(fā)使用-數(shù)據(jù)表連接命令右外連接如果左邊沒有數(shù)據(jù)，右邊有數(shù)據(jù)，則右邊有數(shù)據(jù)的記錄對(duì)應(yīng)列返回為空。查詢語(yǔ)句select * from employee right outer join job on employee.employee_id=job.em

37、ployee_id;注意：不能使用right join，只能使用right outer join。結(jié)果如下：Hive開發(fā)使用-數(shù)據(jù)表連接命令全外連接顯示內(nèi)連接，左外連接，右外連接的合集。查詢語(yǔ)句select * from employee full outer join job on employee.employee_id=job.employee_id;結(jié)果如下：Hive開發(fā)使用-數(shù)據(jù)表連接命令左半連接左半連接與in操作或者exists操作，效果一樣。查詢語(yǔ)句select * from employee left semi join job on employee.employee_id=

38、job.employee_id;結(jié)果如下：上面語(yǔ)句相當(dāng)于如下語(yǔ)句:select * from employee where employee_id in (select employee_id from job);Hive開發(fā)使用-數(shù)據(jù)表連接命令hive 0.9.0版本開始支持 in、not in 、like、not likein 左邊的表在右邊表的范圍內(nèi)。與left semi join 效果一樣。 select * from employee where employee_id in (select employee_id from job); 結(jié)果如下：左邊的表不在右邊表的范圍內(nèi)。sele

39、ct * from employee where employee_id not in (select employee_id from job);結(jié)果如下：not in not likeHive開發(fā)使用-數(shù)據(jù)表連接命令like查詢左右模糊匹配的所有結(jié)果。select * from employee where name like 張%;結(jié)果如下：查詢左右模糊匹配以外的所有結(jié)果。select * from employee where name not like 張%;結(jié)果如下：Hive開發(fā)使用-常用顯示命令查詢數(shù)據(jù)庫(kù)：show databases;模糊搜索表：show tables like

40、 *name*;刪除數(shù)據(jù)庫(kù)：drop database dbname;刪除數(shù)據(jù)表：drop table tablename;查看表結(jié)構(gòu)信息：desc table_name;查看詳細(xì)表結(jié)構(gòu)信息： desc formatted table_name;查看分區(qū)信息： show partitions table_name;查看hdfs文件列表信息：hadoop fs -ls /user/hive/warehouse/查看hdfs文件內(nèi)容：hadoop fs -cat /user/hive/warehouse/file.txtHive開發(fā)使用-java客戶端hive需要引用的客戶端jar包列表： jav

41、a端連接hive,需要預(yù)先引入hive相關(guān)的客戶端jar包， jar包可以直接從hive安裝包的lib目錄下拷貝。jar包列表如下：Hive客戶端java代碼，如下： Hive開發(fā)使用-java客戶端一、 Hive簡(jiǎn)介二、 Hive體系結(jié)構(gòu)三、 Hive工作機(jī)制四、 Hive應(yīng)用場(chǎng)景五、 Hive安裝部署六、 Hive開發(fā)使用七、 SparkSQL簡(jiǎn)介什么是SparkSQLSparkSQL做為Spark生態(tài)里的成員。它是一個(gè)基于Spark引擎,運(yùn)行在Hadoop上的SQL工具。它兼容Hive、RDD、parquet（列式存儲(chǔ)）文件、JSON文件等數(shù)據(jù)源。在Hadoop上運(yùn)行sql,具備較高的運(yùn)行效率。Apache SparkSparkSQLSpark流式

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)系列Hive入門與實(shí)戰(zhàn)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大數(shù)據(jù)系列Hive入門與實(shí)戰(zhàn)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔