版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Hadoop大數(shù)據(jù)解決方案進(jìn)階應(yīng)用Hadoop講師:迪倫(北風(fēng)網(wǎng)版權(quán)所有)MapReduce高階實(shí)現(xiàn)(14)hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第1頁!半連接實(shí)例
全局作業(yè)參數(shù)傳遞
全局?jǐn)?shù)據(jù)文件傳遞課程目標(biāo)hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第2頁!實(shí)例執(zhí)行結(jié)果:半連接hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第3頁!全局作業(yè)參數(shù)/數(shù)據(jù)的傳遞MapReduce作業(yè)處理過程中,有時(shí)需要讓每個(gè)節(jié)點(diǎn)共享一些重要的計(jì)算參數(shù)或數(shù)據(jù)對(duì)于小的計(jì)算參數(shù),可以通過Configuration類來傳遞對(duì)于較大的數(shù)據(jù),可以用共享數(shù)據(jù)文件來進(jìn)行傳遞盡量避免用硬代碼方式在程序中設(shè)置作業(yè)參數(shù),而是設(shè)置作業(yè)參數(shù)實(shí)現(xiàn)一個(gè)具有一定通用性的程序,允許任意指定字段作為參數(shù)運(yùn)行程序時(shí)指定需傳遞的數(shù)據(jù)然后該參數(shù)作為一個(gè)屬性保存在Configuration對(duì)象中并允許Map和Reduce節(jié)點(diǎn)從Configuration對(duì)象中獲取和使用該屬性值hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第4頁!全局作業(yè)參數(shù)的傳遞實(shí)例需求:處理顧客和訂單數(shù)數(shù)據(jù)集的連接連接主鍵參數(shù)希望通過在命令行中給出連接主鍵的列號(hào)來設(shè)置代碼實(shí)現(xiàn)將第1個(gè)輸入?yún)?shù)設(shè)置為GroupKeyColIdx屬性hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第5頁!查詢?nèi)諱apReduce作業(yè)屬性程序可以通過Configuration對(duì)象,使用預(yù)定義的屬性名稱查詢計(jì)算作業(yè)相關(guān)的信息hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第6頁!全局?jǐn)?shù)據(jù)文件的傳遞通過分布式緩存實(shí)現(xiàn)數(shù)據(jù)文件的傳遞先將這些文件傳送到分布式緩存中然后各個(gè)節(jié)點(diǎn)從分布式緩存中將文件復(fù)制到本地的文件系統(tǒng)中使用為提高訪問速度,通常會(huì)將較小的文件數(shù)據(jù)讀入各節(jié)點(diǎn)的內(nèi)存中使用涉及的編程設(shè)置Job類
publicvoidaddCacheFile(URLuri):將一個(gè)文件存放到分布式緩存中Mapper或Reducer的context類
publicPath[]getLocalCacheFiles():獲取設(shè)置在分布式緩存中的文件路徑,以便能將這些文件讀入到每個(gè)節(jié)點(diǎn)hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第7頁!全局?jǐn)?shù)據(jù)文件的傳遞hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第8頁!多數(shù)據(jù)源連接解決方法的限制如果數(shù)據(jù)源兩兩之間需要進(jìn)行多個(gè)不同的主鍵和外鍵的連接,則無法一次性完成數(shù)據(jù)源的連接通過多次使用MapReduce過程完成不同主/外鍵鍵的連接例如,有三個(gè)數(shù)據(jù)源,Customers(CustomerID主鍵)、Orders(OrderID主鍵,CustomerID外鍵、ItemID外鍵)、Products(ItemID主鍵)解決方法:設(shè)計(jì)兩個(gè)MapReduce作業(yè)個(gè)作業(yè)完成Customers與Orders的連接第二個(gè)作業(yè)完成個(gè)作業(yè)的連接結(jié)果與Products的連接hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第9頁!全局作業(yè)參數(shù)的傳遞Configuration類提供的保存和獲取屬性的方法hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第10頁!全局作業(yè)參數(shù)的傳遞實(shí)例在Mapper或Reducer類的初始化方法中從Configuration對(duì)象中讀取該屬性值hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第11頁!查詢?nèi)諱apReduce作業(yè)屬性通過Configuration類中提供的屬性獲取方法進(jìn)行,在屬性讀取方法中把相應(yīng)的作業(yè)屬性名設(shè)置好即可hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第12頁!全局?jǐn)?shù)據(jù)文件的傳遞實(shí)現(xiàn)將文件存入分布式緩存:從Mapper或Reducer的setup()方法中進(jìn)行讀取文件的初
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 科目四C照考試技巧記憶口訣-駕考實(shí)操
- 2024年折疊筷子:環(huán)保與便捷的餐具革新
- 2024年春季音樂教學(xué):《春之聲》教案全新設(shè)計(jì)方案
- 裝飾裝修施工工程技術(shù)交底大全
- 6月讀書筆記-觀看幼小協(xié)同科學(xué)銜接有感
- 《2024年老王的新起點(diǎn)》-老王的人生故事分享會(huì)
- 說課:橢圓(徐芳芳)
- 2023中考模擬英語試卷
- 員工培訓(xùn)協(xié)議書5篇
- 2024年教育創(chuàng)新下的《鄧稼先》課件
- 2024版人教版英語初一上單詞默寫單
- 化學(xué)實(shí)驗(yàn)室安全智慧樹知到期末考試答案2024年
- 經(jīng)典房地產(chǎn)營(yíng)銷策劃培訓(xùn)(全)
- 工人入場(chǎng)安全教育課件
- 【川教版】《生命 生態(tài) 安全》二年級(jí)上冊(cè)第12課 少點(diǎn)兒馬虎 多點(diǎn)兒收獲 課件
- 人教版數(shù)學(xué)四年級(jí)上冊(cè)第五單元 《平行四邊形和梯形》 大單元作業(yè)設(shè)計(jì)
- 靜配中心差錯(cuò)預(yù)防
- 送教上門體育、健康教案教學(xué)內(nèi)容
- 高夫品牌市場(chǎng)分析報(bào)告
- 職業(yè)規(guī)劃書-數(shù)字化設(shè)計(jì)與制造技術(shù)
- 國家臨床重點(diǎn)??平ㄔO(shè)項(xiàng)目申報(bào)書
評(píng)論
0/150
提交評(píng)論