版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、廈門(mén)大學(xué)計(jì)算機(jī)科學(xué)系研究生課程 大數(shù)據(jù)技術(shù)原理與應(yīng)用上機(jī)練習(xí)MapReduce 編程初級(jí)實(shí)踐主講教師:林子雨廈門(mén)大學(xué)數(shù)據(jù)庫(kù)實(shí)驗(yàn)室二零一五年九月 目錄1作業(yè)題目 . . 1 2作業(yè)目的 . . 1 3作業(yè)性質(zhì) . . 1 4作業(yè)考核方法 . . 1 5作業(yè)提交日期與方式 . . 1 6實(shí)驗(yàn)平臺(tái) . . 1 7實(shí)驗(yàn)內(nèi)容和要求 . . 1 8實(shí)驗(yàn)報(bào)告 . . 4附錄 1:任課教師介紹 . 4附錄 2:課程教材介紹 . . 5大數(shù)據(jù)技術(shù)原理與應(yīng)用MapReduce 編程初級(jí)實(shí)踐上機(jī)練習(xí)說(shuō)明主講教師:林子雨E-mail: ziyulin 個(gè)人主頁(yè):1作業(yè)題目MapReduce 編程初級(jí)實(shí)踐。2作業(yè)目的1
2、. 通過(guò)實(shí)驗(yàn)掌握基本的 MapReduce 編程方法;2. 掌握用 MapReduce 解決一些常見(jiàn)的數(shù)據(jù)處理問(wèn)題,包括數(shù)據(jù)去重、數(shù)據(jù)排序和數(shù)據(jù) 挖掘等。3作業(yè)性質(zhì)課后作業(yè),必做,作為課堂平時(shí)成績(jī)。4作業(yè)考核方法提交上機(jī)實(shí)驗(yàn)報(bào)告,任課老師根據(jù)上機(jī)實(shí)驗(yàn)報(bào)告評(píng)定成績(jī)。5作業(yè)提交日期與方式林子雨編著大數(shù)據(jù)技術(shù)原理與應(yīng)用教材第七章 MapReduce 內(nèi)容結(jié)束后的下一周周 六晚上 9點(diǎn)之前提交。6實(shí)驗(yàn)平臺(tái)已經(jīng)配置完成的 Hadoop 偽分布式環(huán)境。7實(shí)驗(yàn)內(nèi)容和要求1. 編程實(shí)現(xiàn)文件合并和去重操作對(duì)于兩個(gè)輸入文件, 即文件 A 和文件 B , 請(qǐng)編寫(xiě) MapReduce 程序, 對(duì)兩個(gè)文件進(jìn)行合并, 并
3、剔除其中重復(fù)的內(nèi)容,得到一個(gè)新的輸出文件 C 。下面是輸入文件和輸出文件的一個(gè)樣例 供參考。輸入文件 A 的樣例如下:20150101 x20150102 y20150103 x20150104 y20150105 z20150106 x輸入文件 B 的樣例如下:20150101 y20150102 y20150103 x20150104 z20150105 y根據(jù)輸入文件 A 和 B 合并得到的輸出文件 C 的樣例如下:20150101 x20150101 y20150102 y20150103 x20150104 y20150104 z20150105 y20150105 z2015010
4、6 x2. 編寫(xiě)程序?qū)崿F(xiàn)對(duì)輸入文件的排序現(xiàn)在有多個(gè)輸入文件, 每個(gè)文件中的每行內(nèi)容均為一個(gè)整數(shù)。 要求讀取所有文件中的整 數(shù),進(jìn)行升序排序后,輸出到一個(gè)新的文件中,輸出的數(shù)據(jù)格式為每行兩個(gè)整數(shù), 第一個(gè)數(shù) 字為第二個(gè)整數(shù)的排序位次, 第二個(gè)整數(shù)為原待排列的整數(shù)。 下面是輸入文件和輸出文件的 一個(gè)樣例供參考。輸入文件 1的樣例如下:33371240輸入文件 2的樣例如下:416395輸入文件 3的樣例如下:14525根據(jù)輸入文件 1、 2和 3得到的輸出文件如下:1 12 43 54 125 166 257 338 379 3910 4011 453. 對(duì)給定的表格進(jìn)行信息挖掘下面給出一個(gè) child-parent 的表格,要求挖掘其中的父子輩關(guān)系,給出祖孫輩關(guān)系的 表格。輸入文件內(nèi)容如下:child parentSteven LucySteven JackJone LucyJone JackLucy MaryLucy F
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024高中地理第四章區(qū)域經(jīng)濟(jì)發(fā)展第2節(jié)區(qū)域工業(yè)化與城市化-以我國(guó)珠江三角洲地區(qū)為例精練含解析新人教必修3
- 2024高中生物第三章植物的激素調(diào)節(jié)第1節(jié)植物生長(zhǎng)素的發(fā)現(xiàn)精練含解析新人教版必修3
- 2024高考地理一輪復(fù)習(xí)第十七單元區(qū)域經(jīng)濟(jì)發(fā)展考法精練含解析
- 2024高考化學(xué)一輪復(fù)習(xí)第4章非金屬及其化合物第14講氮及其化合物精練含解析
- 2024高考?xì)v史一輪復(fù)習(xí)方案專(zhuān)題二代中國(guó)反侵略求民主的潮流專(zhuān)題綜合測(cè)驗(yàn)含解析人民版
- 2024高考地理一輪復(fù)習(xí)第一部分自然地理-重在理解第四章地表形態(tài)的塑造第14講河流地貌的發(fā)育學(xué)案新人教版
- DB42-T 168-2024 湖北省府河流域氯化物排放標(biāo)準(zhǔn)
- 股骨粗隆間骨折-內(nèi)固定失效
- (3篇)2024年幼兒園班級(jí)總結(jié)
- 項(xiàng)目管理人員職責(zé)
- 安徽省蕪湖市2023-2024學(xué)年高一上學(xué)期期末考試 生物 含解析
- 通用電子嘉賓禮薄
- 提高筒倉(cāng)滑模施工混凝土外觀(guān)質(zhì)量QC成果PPT
- 加拿大——文化ppt
- 100以?xún)?nèi)不進(jìn)位不退位加減法200道
- 小學(xué)期末班級(jí)頒獎(jiǎng)典禮動(dòng)態(tài)課件PPT
- 智慧城市綜合管廊信息化解決方案課件
- 開(kāi)展創(chuàng)新型課題QC小組活動(dòng)實(shí)施指導(dǎo)意見(jiàn)
- 鋼廠(chǎng)電爐煙氣量計(jì)算方式
- 皮具工藝生產(chǎn)流程(共6頁(yè))
- 鋼結(jié)構(gòu)施工方案(中英文對(duì)照)
評(píng)論
0/150
提交評(píng)論