廈門(mén)大學(xué)-林子雨-大數(shù)據(jù)技術(shù)基礎(chǔ)-第7章MapReduce-_第1頁(yè)
廈門(mén)大學(xué)-林子雨-大數(shù)據(jù)技術(shù)基礎(chǔ)-第7章MapReduce-_第2頁(yè)
廈門(mén)大學(xué)-林子雨-大數(shù)據(jù)技術(shù)基礎(chǔ)-第7章MapReduce-_第3頁(yè)
廈門(mén)大學(xué)-林子雨-大數(shù)據(jù)技術(shù)基礎(chǔ)-第7章MapReduce-_第4頁(yè)
廈門(mén)大學(xué)-林子雨-大數(shù)據(jù)技術(shù)基礎(chǔ)-第7章MapReduce-_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、廈門(mén)大學(xué)計(jì)算機(jī)科學(xué)系研究生課程 大數(shù)據(jù)技術(shù)原理與應(yīng)用上機(jī)練習(xí)MapReduce 編程初級(jí)實(shí)踐主講教師:林子雨廈門(mén)大學(xué)數(shù)據(jù)庫(kù)實(shí)驗(yàn)室二零一五年九月 目錄1作業(yè)題目 . . 1 2作業(yè)目的 . . 1 3作業(yè)性質(zhì) . . 1 4作業(yè)考核方法 . . 1 5作業(yè)提交日期與方式 . . 1 6實(shí)驗(yàn)平臺(tái) . . 1 7實(shí)驗(yàn)內(nèi)容和要求 . . 1 8實(shí)驗(yàn)報(bào)告 . . 4附錄 1:任課教師介紹 . 4附錄 2:課程教材介紹 . . 5大數(shù)據(jù)技術(shù)原理與應(yīng)用MapReduce 編程初級(jí)實(shí)踐上機(jī)練習(xí)說(shuō)明主講教師:林子雨E-mail: ziyulin 個(gè)人主頁(yè):1作業(yè)題目MapReduce 編程初級(jí)實(shí)踐。2作業(yè)目的1

2、. 通過(guò)實(shí)驗(yàn)掌握基本的 MapReduce 編程方法;2. 掌握用 MapReduce 解決一些常見(jiàn)的數(shù)據(jù)處理問(wèn)題,包括數(shù)據(jù)去重、數(shù)據(jù)排序和數(shù)據(jù) 挖掘等。3作業(yè)性質(zhì)課后作業(yè),必做,作為課堂平時(shí)成績(jī)。4作業(yè)考核方法提交上機(jī)實(shí)驗(yàn)報(bào)告,任課老師根據(jù)上機(jī)實(shí)驗(yàn)報(bào)告評(píng)定成績(jī)。5作業(yè)提交日期與方式林子雨編著大數(shù)據(jù)技術(shù)原理與應(yīng)用教材第七章 MapReduce 內(nèi)容結(jié)束后的下一周周 六晚上 9點(diǎn)之前提交。6實(shí)驗(yàn)平臺(tái)已經(jīng)配置完成的 Hadoop 偽分布式環(huán)境。7實(shí)驗(yàn)內(nèi)容和要求1. 編程實(shí)現(xiàn)文件合并和去重操作對(duì)于兩個(gè)輸入文件, 即文件 A 和文件 B , 請(qǐng)編寫(xiě) MapReduce 程序, 對(duì)兩個(gè)文件進(jìn)行合并, 并

3、剔除其中重復(fù)的內(nèi)容,得到一個(gè)新的輸出文件 C 。下面是輸入文件和輸出文件的一個(gè)樣例 供參考。輸入文件 A 的樣例如下:20150101 x20150102 y20150103 x20150104 y20150105 z20150106 x輸入文件 B 的樣例如下:20150101 y20150102 y20150103 x20150104 z20150105 y根據(jù)輸入文件 A 和 B 合并得到的輸出文件 C 的樣例如下:20150101 x20150101 y20150102 y20150103 x20150104 y20150104 z20150105 y20150105 z2015010

4、6 x2. 編寫(xiě)程序?qū)崿F(xiàn)對(duì)輸入文件的排序現(xiàn)在有多個(gè)輸入文件, 每個(gè)文件中的每行內(nèi)容均為一個(gè)整數(shù)。 要求讀取所有文件中的整 數(shù),進(jìn)行升序排序后,輸出到一個(gè)新的文件中,輸出的數(shù)據(jù)格式為每行兩個(gè)整數(shù), 第一個(gè)數(shù) 字為第二個(gè)整數(shù)的排序位次, 第二個(gè)整數(shù)為原待排列的整數(shù)。 下面是輸入文件和輸出文件的 一個(gè)樣例供參考。輸入文件 1的樣例如下:33371240輸入文件 2的樣例如下:416395輸入文件 3的樣例如下:14525根據(jù)輸入文件 1、 2和 3得到的輸出文件如下:1 12 43 54 125 166 257 338 379 3910 4011 453. 對(duì)給定的表格進(jìn)行信息挖掘下面給出一個(gè) child-parent 的表格,要求挖掘其中的父子輩關(guān)系,給出祖孫輩關(guān)系的 表格。輸入文件內(nèi)容如下:child parentSteven LucySteven JackJone LucyJone JackLucy MaryLucy F

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論