廈門大學(xué)計(jì)算機(jī)科學(xué)系研究生課程_第1頁(yè)
廈門大學(xué)計(jì)算機(jī)科學(xué)系研究生課程_第2頁(yè)
廈門大學(xué)計(jì)算機(jī)科學(xué)系研究生課程_第3頁(yè)
廈門大學(xué)計(jì)算機(jī)科學(xué)系研究生課程_第4頁(yè)
廈門大學(xué)計(jì)算機(jī)科學(xué)系研究生課程_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、廈門大學(xué)計(jì)算機(jī)科學(xué)系研究生課程大數(shù)據(jù)技術(shù)原理與應(yīng)用上機(jī)練習(xí)MapReduce編程初級(jí)實(shí)踐主講教師:林子雨廈門大學(xué)數(shù)據(jù)庫(kù)實(shí)驗(yàn)室二零一五年九月目錄目錄 TOC o 1-3 h z u HYPERLINK l _Toc430676849 1作業(yè)題目 PAGEREF _Toc430676849 h 1 HYPERLINK l _Toc430676850 2作業(yè)目的 PAGEREF _Toc430676850 h 1 HYPERLINK l _Toc430676851 3作業(yè)性質(zhì) PAGEREF _Toc430676851 h 1 HYPERLINK l _Toc430676852 4作業(yè)考核方法 PA

2、GEREF _Toc430676852 h 1 HYPERLINK l _Toc430676853 5作業(yè)提交日期與方式 PAGEREF _Toc430676853 h 1 HYPERLINK l _Toc430676854 6實(shí)驗(yàn)平臺(tái) PAGEREF _Toc430676854 h 1 HYPERLINK l _Toc430676855 7實(shí)驗(yàn)內(nèi)容和要求 PAGEREF _Toc430676855 h 1 HYPERLINK l _Toc430676856 8實(shí)驗(yàn)報(bào)告 PAGEREF _Toc430676856 h 4 HYPERLINK l _Toc430676857 附錄1:任課教師介紹

3、 PAGEREF _Toc430676857 h 4 HYPERLINK l _Toc430676858 附錄2:課程教材介紹 PAGEREF _Toc430676858 h 5廈門大學(xué)計(jì)算機(jī)科學(xué)系研究生課程大數(shù)據(jù)技術(shù)原理與應(yīng)用 上機(jī)練習(xí) MapReduce編程初級(jí)實(shí)踐主講教師:林子雨 /linziyu 第 PAGE 5頁(yè)大數(shù)據(jù)技術(shù)原理與應(yīng)用MapReduce編程初級(jí)實(shí)踐上機(jī)練習(xí)說(shuō)明主講教師:林子雨E-mail: HYPERLINK mailto:ziyulin ziyulin 個(gè)人主頁(yè): HYPERLINK /linziyu /linziyu作業(yè)題目MapReduce編程初級(jí)實(shí)踐。作業(yè)目的1

4、.通過(guò)實(shí)驗(yàn)掌握基本的MapReduce編程方法;2.掌握用MapReduce解決一些常見的數(shù)據(jù)處理問(wèn)題,包括數(shù)據(jù)去重、數(shù)據(jù)排序和數(shù)據(jù)挖掘等。作業(yè)性質(zhì) 課后作業(yè),必做,作為課堂平時(shí)成績(jī)。作業(yè)考核方法 提交上機(jī)實(shí)驗(yàn)報(bào)告,任課老師根據(jù)上機(jī)實(shí)驗(yàn)報(bào)告評(píng)定成績(jī)。作業(yè)提交日期與方式林子雨編著大數(shù)據(jù)技術(shù)原理與應(yīng)用教材第七章MapReduce內(nèi)容結(jié)束后的下一周周六晚上9點(diǎn)之前提交。實(shí)驗(yàn)平臺(tái)已經(jīng)配置完成的Hadoop偽分布式環(huán)境。實(shí)驗(yàn)內(nèi)容和要求1.編程實(shí)現(xiàn)文件合并和去重操作對(duì)于兩個(gè)輸入文件,即文件A和文件B,請(qǐng)編寫MapReduce程序,對(duì)兩個(gè)文件進(jìn)行合并,并剔除其中重復(fù)的內(nèi)容,得到一個(gè)新的輸出文件C。下面是輸入

5、文件和輸出文件的一個(gè)樣例供參考。 輸入文件A的樣例如下:20150101 x20150102 y20150103 x20150104 y20150105 z20150106 x輸入文件B的樣例如下:20150101 y20150102 y20150103 x20150104 z20150105 y根據(jù)輸入文件A和B合并得到的輸出文件C的樣例如下:20150101 x20150101 y20150102 y20150103 x20150104 y20150104 z20150105 y20150105 z20150106 x2. 編寫程序?qū)崿F(xiàn)對(duì)輸入文件的排序現(xiàn)在有多個(gè)輸入文件,每個(gè)文件中的每行內(nèi)

6、容均為一個(gè)整數(shù)。要求讀取所有文件中的整數(shù),進(jìn)行升序排序后,輸出到一個(gè)新的文件中,輸出的數(shù)據(jù)格式為每行兩個(gè)整數(shù),第一個(gè)數(shù)字為第二個(gè)整數(shù)的排序位次,第二個(gè)整數(shù)為原待排列的整數(shù)。下面是輸入文件和輸出文件的一個(gè)樣例供參考。輸入文件1的樣例如下:33371240輸入文件2的樣例如下:416395輸入文件3的樣例如下:14525根據(jù)輸入文件1、2和3得到的輸出文件如下:1 12 43 54 125 166 257 338 379 3910 4011 453. 對(duì)給定的表格進(jìn)行信息挖掘下面給出一個(gè)child-parent的表格,要求挖掘其中的父子輩關(guān)系,給出祖孫輩關(guān)系的表格。輸入文件內(nèi)容如下:child p

7、arentSteven LucySteven JackJone LucyJone JackLucy MaryLucy FrankJack AliceJack JesseDavid AliceDavid JessePhilip DavidPhilip AlmaMark DavidMark Alma輸出文件內(nèi)容如下:grandchild grandparentSteven AliceSteven JesseJone AliceJone JesseSteven MarySteven FrankJone MaryJone FrankPhilip AlicePhilip JesseMark AliceM

8、ark Jesse實(shí)驗(yàn)報(bào)告廈門大學(xué)計(jì)算機(jī)系研究生課程大數(shù)據(jù)技術(shù)原理與應(yīng)用實(shí)驗(yàn)報(bào)告題目:姓名日期實(shí)驗(yàn)環(huán)境:實(shí)驗(yàn)內(nèi)容與完成情況:出現(xiàn)的問(wèn)題:解決方案(列出遇到的問(wèn)題和解決辦法,列出沒(méi)有解決的問(wèn)題): 附錄1:任課教師介紹林子雨(1978),男,博士,廈門大學(xué)計(jì)算機(jī)科學(xué)系助理教授,主要研究領(lǐng)域?yàn)閿?shù)據(jù)庫(kù),實(shí)時(shí)主動(dòng)數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘.主講課程:大數(shù)據(jù)技術(shù)原理與應(yīng)用辦公地點(diǎn):廈門大學(xué)海韻園科研2號(hào)樓E-mail: ziyulin個(gè)人主頁(yè):/linziyu數(shù)據(jù)庫(kù)實(shí)驗(yàn)室網(wǎng)站:附錄2:課程教材介紹大數(shù)據(jù)技術(shù)原理與應(yīng)用概念、存儲(chǔ)、處理、分析與應(yīng)用,由廈門大學(xué)計(jì)算機(jī)科學(xué)系教師林子雨博士編著,是中國(guó)高校第一本系統(tǒng)介紹大數(shù)據(jù)知識(shí)的專業(yè)教材。本書定位為大數(shù)據(jù)技術(shù)入門教材,為讀者搭建起通向“大數(shù)據(jù)知識(shí)空間”的橋梁和紐帶,以“構(gòu)建知識(shí)體系、闡明基本原理、引導(dǎo)初級(jí)實(shí)踐、了解相關(guān)應(yīng)用”為原則,為讀者在大數(shù)據(jù)領(lǐng)域“深耕細(xì)作”奠定基礎(chǔ)、指明方向。全書共有13章,系統(tǒng)地論述了大數(shù)據(jù)的基本概念、大數(shù)據(jù)處理架構(gòu)Hadoop、分布式文件系統(tǒng)HDFS、分布式數(shù)據(jù) 庫(kù)HBase、NoSQL數(shù)據(jù)庫(kù)、云數(shù)據(jù)庫(kù)、分布式并行編程模型MapReduce、流計(jì)算、圖計(jì)算、數(shù)據(jù)可視化以及大數(shù)據(jù)在互聯(lián)網(wǎng)、生物醫(yī)學(xué)和物流等各個(gè)領(lǐng)域的應(yīng)用。在Hadoop、HDFS、HBase和MapReduce等重要章節(jié),安排

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論