hadoop入門實(shí)例教程_第1頁
hadoop入門實(shí)例教程_第2頁
hadoop入門實(shí)例教程_第3頁
hadoop入門實(shí)例教程_第4頁
hadoop入門實(shí)例教程_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Hadoop大數(shù)據(jù)解決方案進(jìn)階應(yīng)用Hadoop講師:迪倫(北風(fēng)網(wǎng)版權(quán)所有)MapReduce高階實(shí)現(xiàn)(14)hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第1頁!半連接實(shí)例

全局作業(yè)參數(shù)傳遞

全局?jǐn)?shù)據(jù)文件傳遞課程目標(biāo)hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第2頁!實(shí)例執(zhí)行結(jié)果:半連接hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第3頁!全局作業(yè)參數(shù)/數(shù)據(jù)的傳遞MapReduce作業(yè)處理過程中,有時(shí)需要讓每個(gè)節(jié)點(diǎn)共享一些重要的計(jì)算參數(shù)或數(shù)據(jù)對(duì)于小的計(jì)算參數(shù),可以通過Configuration類來傳遞對(duì)于較大的數(shù)據(jù),可以用共享數(shù)據(jù)文件來進(jìn)行傳遞盡量避免用硬代碼方式在程序中設(shè)置作業(yè)參數(shù),而是設(shè)置作業(yè)參數(shù)實(shí)現(xiàn)一個(gè)具有一定通用性的程序,允許任意指定字段作為參數(shù)運(yùn)行程序時(shí)指定需傳遞的數(shù)據(jù)然后該參數(shù)作為一個(gè)屬性保存在Configuration對(duì)象中并允許Map和Reduce節(jié)點(diǎn)從Configuration對(duì)象中獲取和使用該屬性值hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第4頁!全局作業(yè)參數(shù)的傳遞實(shí)例需求:處理顧客和訂單數(shù)數(shù)據(jù)集的連接連接主鍵參數(shù)希望通過在命令行中給出連接主鍵的列號(hào)來設(shè)置代碼實(shí)現(xiàn)將第1個(gè)輸入?yún)?shù)設(shè)置為GroupKeyColIdx屬性hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第5頁!查詢?nèi)諱apReduce作業(yè)屬性程序可以通過Configuration對(duì)象,使用預(yù)定義的屬性名稱查詢計(jì)算作業(yè)相關(guān)的信息hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第6頁!全局?jǐn)?shù)據(jù)文件的傳遞通過分布式緩存實(shí)現(xiàn)數(shù)據(jù)文件的傳遞先將這些文件傳送到分布式緩存中然后各個(gè)節(jié)點(diǎn)從分布式緩存中將文件復(fù)制到本地的文件系統(tǒng)中使用為提高訪問速度,通常會(huì)將較小的文件數(shù)據(jù)讀入各節(jié)點(diǎn)的內(nèi)存中使用涉及的編程設(shè)置Job類

publicvoidaddCacheFile(URLuri):將一個(gè)文件存放到分布式緩存中Mapper或Reducer的context類

publicPath[]getLocalCacheFiles():獲取設(shè)置在分布式緩存中的文件路徑,以便能將這些文件讀入到每個(gè)節(jié)點(diǎn)hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第7頁!全局?jǐn)?shù)據(jù)文件的傳遞hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第8頁!多數(shù)據(jù)源連接解決方法的限制如果數(shù)據(jù)源兩兩之間需要進(jìn)行多個(gè)不同的主鍵和外鍵的連接,則無法一次性完成數(shù)據(jù)源的連接通過多次使用MapReduce過程完成不同主/外鍵鍵的連接例如,有三個(gè)數(shù)據(jù)源,Customers(CustomerID主鍵)、Orders(OrderID主鍵,CustomerID外鍵、ItemID外鍵)、Products(ItemID主鍵)解決方法:設(shè)計(jì)兩個(gè)MapReduce作業(yè)個(gè)作業(yè)完成Customers與Orders的連接第二個(gè)作業(yè)完成個(gè)作業(yè)的連接結(jié)果與Products的連接hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第9頁!全局作業(yè)參數(shù)的傳遞Configuration類提供的保存和獲取屬性的方法hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第10頁!全局作業(yè)參數(shù)的傳遞實(shí)例在Mapper或Reducer類的初始化方法中從Configuration對(duì)象中讀取該屬性值hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第11頁!查詢?nèi)諱apReduce作業(yè)屬性通過Configuration類中提供的屬性獲取方法進(jìn)行,在屬性讀取方法中把相應(yīng)的作業(yè)屬性名設(shè)置好即可hadoop入門實(shí)例教程共14頁,您現(xiàn)在瀏覽的是第12頁!全局?jǐn)?shù)據(jù)文件的傳遞實(shí)現(xiàn)將文件存入分布式緩存:從Mapper或Reducer的setup()方法中進(jìn)行讀取文件的初

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論