




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
Pig云創(chuàng)大數(shù)據(jù)目錄Pig簡介實(shí)戰(zhàn)PigPig簡介Pig為什么-是什么現(xiàn)實(shí)需求-概念程序員使用Pig腳本指揮
HDFS、MapReduce程序員使用MR處理
HDFS里數(shù)據(jù)1.太慢2.要求高Pig是用來處理大規(guī)模數(shù)據(jù)集的腳本語言平臺1.編寫MR程序
2.組織處理流1.編寫MR程序
2.組織處理流提交任務(wù)Pig是什么工作過程程序員或分析師根據(jù)業(yè)務(wù)邏輯寫好數(shù)據(jù)流腳本向Pig提交任務(wù)Pig會將寫好的數(shù)據(jù)流處理腳本翻譯成多個(gè)Hdfs,Map和Reduce操作Pig向hadoop提交任務(wù)Pig是什么架構(gòu)PigLatin解釋器PigLatin環(huán)境數(shù)據(jù)類型Pig是什么語法(1)基本數(shù)據(jù)類型:int、long、float、double、chararray和bytearray(2)復(fù)雜數(shù)據(jù)類型:字符串或基本類型與字符串的組合運(yùn)算符(1)算術(shù)運(yùn)算符:+,-,*,/,%(2)三目運(yùn)算符:?:(3)比較運(yùn)算符:==,!=函數(shù)操作名稱功能LOAD載入待處理數(shù)據(jù)FOREACH逐行處理TupleFILTER過濾不滿足條件的TupleDUMP將結(jié)果打印到屏幕STORE將結(jié)果保存到文件Pig實(shí)例部署yum
install
pig例題①使用Pig
Latin實(shí)現(xiàn)WordCountPig簡介Pig是一個(gè)構(gòu)建在Hadoop之上,用來處理大規(guī)模數(shù)據(jù)集的腳本語言平臺。其設(shè)計(jì)思想來源于谷歌的Sawzall,最初由雅虎團(tuán)隊(duì)開發(fā),并于2008年9月貢獻(xiàn)給Apache。由來程序員或分析師只需要根據(jù)業(yè)務(wù)邏輯寫好數(shù)據(jù)流腳本,
Pig會將寫好的數(shù)據(jù)流處理腳本翻譯成多個(gè)HDFS、Map和Reduce操作。通過這種方式,Pig為Hadoop提供了更高層次的抽象,將程序員從具體的編程中解放出來。作用Pig與各組件關(guān)系pig與HDFS關(guān)系Pig處理的數(shù)據(jù)存在HDFS上pig與YARN關(guān)系Pig使用MapReduce,而MapReduce運(yùn)行在YARN上pig與MapReduce關(guān)系Pig使用MapReducePig與各組件關(guān)系pig與Hive關(guān)系都是使用MapReduce處理存儲在HDFS上的數(shù)據(jù)區(qū)別聯(lián)系存儲時(shí):Hive將HDFS上的數(shù)據(jù)看成一張張表處理時(shí):Hive以類SQL形式操作存儲在HDFS上的數(shù)據(jù)實(shí)質(zhì):Hive翻譯器將HiveQL翻譯成MapReduce執(zhí)行存儲時(shí):Pig直接處理HDFS上的數(shù)據(jù)處理時(shí):Pig以腳本形式操作存儲在HDFS上的數(shù)據(jù)實(shí)質(zhì):Pig翻譯器將Pig
Latin翻譯成MapReduce執(zhí)行個(gè)人認(rèn)為:Hive大公司根據(jù)需求開發(fā)、Pig是牽強(qiáng)實(shí)現(xiàn)Google論文(畫虎不成反類犬)Pig與各組件關(guān)系pig與HBase關(guān)系性質(zhì)不同pig與Spark關(guān)系性質(zhì)不同pig與Storm關(guān)系性質(zhì)不同體系架構(gòu)體系架構(gòu)Pig語法Pig
Latin是Pig的專用語言,它是類似于SQL的面向數(shù)據(jù)流語言,這套腳本語言提供了對數(shù)據(jù)進(jìn)行排序、過濾、求和、分組、關(guān)聯(lián)等各種操作Pig
Latin數(shù)據(jù)類型Pig
Latin語法基本數(shù)據(jù)類型復(fù)雜數(shù)據(jù)類型Filed、Tuple、Bag、Mapint、long、float、doubleChararray、bytearrayPig
Latin運(yùn)算符算術(shù)、比較、關(guān)系等運(yùn)算符加(+),減(-),乘(*),除(/),取余(%)和三目運(yùn)算符(?:),比較運(yùn)算符主要包括等于(==),不等(!=)Pig
Latin函數(shù)操作名稱功能LOAD載入待處理數(shù)據(jù)FOREACH逐行處理TupleFILTER過濾不滿足條件的TupleDUMP將結(jié)果打印到屏幕STORE將結(jié)果保存到文件Filed:存放一個(gè)原子類型數(shù)據(jù),如一個(gè)字符串或一個(gè)數(shù)字等,例如'lucy'。Tuple:Field的序列,其中每個(gè)File可以是任何一種基本類型,例如('lucy','1234')。Bag:Tuple集合。每個(gè)Tuple可以包含不同數(shù)目不同類型的Field,例如:('lucy','1234')('jack'('ipod',
'apple'))Map:一組鍵值對的組合,一個(gè)關(guān)系中的鍵值對必須是唯一的,例如:
[name#Mike,phone#]部署Pig部署Pig前提:部署了HDFS、YARN、MapReduce部署實(shí)驗(yàn)部署Ambari部署企業(yè)級部署手工部署實(shí)驗(yàn)部署PigStep1 制定部署規(guī)劃Step2 準(zhǔn)備硬件機(jī)器Step3 準(zhǔn)備機(jī)器軟件環(huán)境修改機(jī)器名、關(guān)閉防火墻、添加域名映射、jdkStep4 部署HDFS、YARN、MapReduceStep5 下載并解壓pigStep6 為Pig配置Hadoop安裝路徑Step7 啟動(dòng)pig命令行Step8 驗(yàn)證pig是否啟動(dòng)成功實(shí)戰(zhàn)Pig實(shí)戰(zhàn)Pig下述命令完成 進(jìn)入Pig命令行,查看并練習(xí)常用命令。 使用Pig
Latin實(shí)現(xiàn)WordCount,該程序處理HDFS上/user/allen/input中的文件。[allen@iclient0
~]#
bin/piggrunt>
help;grunt>
A
=
load
'input';#進(jìn)入allen用戶的Pig命令行
#查看Pig操作#載入待處理文件夾inputgrunt>
B
=
foreach
A
generate
flatten(TOKENIZE((chararray)$0))
as
word; #劃分單詞grunt>
C
=
group
B
by
word; #指定按單詞聚合,即同一個(gè)單詞到一起grunt>
D
=
foreach
C
generate
COUNT(B),group; #同一個(gè)單詞出現(xiàn)次數(shù)相加grunt>
store
D
into
'out/wc-19'; #將處理好的文件存入HDFS下/user/allen/out/wc-19grunt>
dump
D
into
; #將處理結(jié)果D打印到屏幕執(zhí)行時(shí),用戶可以將結(jié)果存入HDFS,也可以將結(jié)果打印到屏幕。注意,只有最后兩條語句才會觸發(fā)MapReduce程序,這種“懶”策略有利于提高集群利用率。[allen@iclient0
~]#
bin/piggrunt>
help;grunt>
A
=
load
'input';#進(jìn)入allen用戶的Pig命令行
#查看Pig操作#載入待處理文件夾inputgrunt>
B
=
foreach
A
generate
flatten(TOKENIZE((chararray)$0))
as
word; #劃分單詞grunt>
C
=
group
B
by
word; #指定按單詞聚合,即同一個(gè)單詞到一起grunt>
D
=
foreach
C
gener
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 礦山資源勘查與評價(jià)方法考核試卷
- 硅冶煉與深海資源開發(fā)考核試卷
- 絕緣制品在海洋工程設(shè)備中的應(yīng)用考核試卷
- 電氣設(shè)備在智能電網(wǎng)實(shí)時(shí)監(jiān)控系統(tǒng)中的應(yīng)用考核試卷
- 水產(chǎn)品冷凍加工中的食品安全監(jiān)管考核試卷
- 社會看護(hù)服務(wù)中的非言語溝通技巧考核試卷
- 有線電視傳輸網(wǎng)絡(luò)文化產(chǎn)品與內(nèi)容創(chuàng)新考核試卷
- 稅務(wù)合規(guī)與風(fēng)險(xiǎn)防范培訓(xùn)考核試卷
- 禮儀情境模擬對話課件
- 生態(tài)農(nóng)業(yè)建設(shè)生物技術(shù)實(shí)踐考核試卷
- 抖音房產(chǎn)直播敏感詞匯表
- (高清版)JTGT 3383-01-2020 公路通信及電力管道設(shè)計(jì)規(guī)范
- 國際公法學(xué)馬工程全套教學(xué)課件
- 微專題地質(zhì)地貌的形成過程(解析)
- YY/T 0655-2024干式化學(xué)分析儀
- 中華民族共同體概論課件專家版2第二講 樹立正確的中華民族歷史觀
- 四年級四年級下冊閱讀理解100篇及答案經(jīng)典
- 中職對口升學(xué)復(fù)習(xí)資料:《汽車機(jī)械基礎(chǔ)》試題庫+答案
- 部編版語文五年級下冊第六單元整體教學(xué)設(shè)計(jì)教案
- 平面變壓器設(shè)計(jì)與仿真
- 合作取得更大的成功辯論稿范文六篇
評論
0/150
提交評論