2023學(xué)年完整公開課版MapReduce應(yīng)用案例_第1頁
2023學(xué)年完整公開課版MapReduce應(yīng)用案例_第2頁
2023學(xué)年完整公開課版MapReduce應(yīng)用案例_第3頁
2023學(xué)年完整公開課版MapReduce應(yīng)用案例_第4頁
2023學(xué)年完整公開課版MapReduce應(yīng)用案例_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Mapreduce應(yīng)用案例學(xué)習(xí)目標(biāo)2知識(shí)目標(biāo)●計(jì)數(shù)類應(yīng)用●去重計(jì)數(shù)類應(yīng)用能力目標(biāo)●了解計(jì)數(shù)類應(yīng)用●了解去重計(jì)數(shù)類應(yīng)用MapReduce的應(yīng)用案例3目錄計(jì)數(shù)類應(yīng)用去重計(jì)數(shù)類應(yīng)用MapReduce的應(yīng)用案例4前面通過WordCount示例的設(shè)計(jì)思路以及Map、Reduce執(zhí)行過程了解了MapReduce模型的工作原理等內(nèi)容,為編寫MapReduce應(yīng)用程序打下了應(yīng)有的基礎(chǔ),下面將結(jié)合實(shí)例介紹MapReduce應(yīng)用程序設(shè)計(jì)開發(fā)的模式,并給出關(guān)鍵代碼。計(jì)數(shù)類應(yīng)用5應(yīng)用需求:在前面章節(jié)中介紹了WordCount實(shí)例作為MapReduce模式下變成的實(shí)例程序,通過這個(gè)程序初步理解了MapReduce程序的結(jié)構(gòu)及執(zhí)行過程。實(shí)際上計(jì)數(shù)是大數(shù)據(jù)處理中比較常見的一種應(yīng)用場(chǎng)景,這類應(yīng)用的數(shù)據(jù)文件中包括大量的記錄,每條記錄中包含某類事物的若干屬性,在實(shí)際應(yīng)用中需要根據(jù)這類事物的某個(gè)屬性進(jìn)行數(shù)值計(jì)算,如求和、平均值等。計(jì)數(shù)類應(yīng)用6應(yīng)用場(chǎng)景:這樣的應(yīng)用場(chǎng)景有從話單中分析話費(fèi)統(tǒng)計(jì)、數(shù)據(jù)統(tǒng)計(jì)以及聯(lián)系人之間通話頻次的統(tǒng)計(jì);對(duì)log文件進(jìn)行分析,每條記錄都包含一個(gè)響應(yīng)時(shí)間,需要計(jì)算出平均響應(yīng)時(shí)間。解決方案:針對(duì)這類應(yīng)用,在Map函數(shù)中提取每條記錄中這類事物的特定屬性值,在Reduce函數(shù)中對(duì)所有相同的事物屬性值按照函數(shù)表達(dá)式進(jìn)行運(yùn)算。計(jì)數(shù)類應(yīng)用7應(yīng)用案例:WordCount就是經(jīng)典的計(jì)數(shù)類應(yīng)用中的求和案例,下面通過另一個(gè)案例講解求平均值的方法?,F(xiàn)有一個(gè)班級(jí)中有Rose、Andy、Tom、John、Michelle、Amy、Kim等同學(xué),學(xué)習(xí)了English、Math、Chinese三門課程,一門課程是一個(gè)文本文件,通過運(yùn)算求每個(gè)同學(xué)的平均成績(jī)。計(jì)數(shù)類應(yīng)用8文件內(nèi)容如下:English:Math:Chinese:Rose91Rose83Rose85Andy87Andy93Andy84Tom78Tom67Tom85John94John92John77Michelle74Michelle82Michelle93Amy67Amy85Amy94Kim71Kim80Kim83計(jì)數(shù)類應(yīng)用9執(zhí)行準(zhǔn)備:(1)通過Eclipse下面的DFSLocations在user/hadoop目錄右擊選擇Createnewdirectory菜單命令創(chuàng)建average_in文件夾用于存放輸入文件。(2)然后在本地建立三個(gè)txt文件,在Eclipse的DFSLocations在user/Hadoop/average_in目錄下,右擊選擇UploadfilestoDFS,把本地的三個(gè)txt文件上傳到user/Hadoop/average_in目錄下。(3)在Eclipse下面的ProjectExplorer中右擊Average類,選擇Runas–RunonHadoop。去重計(jì)數(shù)類應(yīng)用10應(yīng)用需求:在大數(shù)據(jù)文件中包含了大量的記錄,每條記錄記載了某事物的而一些屬性,需要根據(jù)某幾個(gè)屬性的組合,去除相同的重復(fù)組合,并統(tǒng)計(jì)其中某屬性的統(tǒng)計(jì)值。應(yīng)用場(chǎng)景:在大數(shù)據(jù)集中統(tǒng)計(jì)數(shù)據(jù)種類的個(gè)數(shù);在網(wǎng)站日志分析中統(tǒng)計(jì)訪問地,或者統(tǒng)計(jì)網(wǎng)站不同訪問者的訪問次數(shù);話單中分析手機(jī)號(hào)碼及撥打的號(hào)碼或訪問的網(wǎng)絡(luò);重復(fù)數(shù)據(jù)刪除等。這些應(yīng)用場(chǎng)景都經(jīng)常使用存儲(chǔ)數(shù)據(jù)縮減技術(shù),即數(shù)據(jù)去重。去重計(jì)數(shù)類應(yīng)用11解決方案:在此類應(yīng)用中,將計(jì)算過程分為兩個(gè)步驟。第一步,map函數(shù)將每條記錄中需要關(guān)注的屬性組合作為關(guān)鍵字,將空字符串作為值,生成的<鍵-值>對(duì)作為中間值輸出。第二步,reduce函數(shù)則將輸入的中間結(jié)果的鍵值作為新的鍵值,Value值仍然取空字符串,輸出結(jié)果。因?yàn)樗墟I值相同的key都被送到了同一reducer,而reducer只輸出了一個(gè)鍵值,這一過程實(shí)際上就是去重的過程。去重計(jì)數(shù)類應(yīng)用12應(yīng)用案例:有一下兩個(gè)文件,文件中表示某天,某IP訪問了系統(tǒng)這樣一個(gè)日志。當(dāng)時(shí)間和IP相同時(shí),將這種相同的數(shù)據(jù)去掉,只留下一個(gè)。Log1.txt:Log2.txt2014-10-310.3.5.192014-10-310.3.5.192014-10-310.3.5.192014-10-410.3.5.192014-10-310.3.5.182014-10-310.3.5.182014-10-310.3.51.192014-10-510.3.51.192014-10-310.3.2.192014-10-410.3.2.52014-10-410.3.2.52014-10-510.3.2.192014-10-410.3.2.18

去重計(jì)數(shù)類應(yīng)用13執(zhí)行準(zhǔn)備:(1)通過Eclipse下面的DFSLocations在user/hadoop目錄下,創(chuàng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論