版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
HadoopJavaAPI讀取序列化日志文件主講:李強(qiáng)任務(wù)描述現(xiàn)有一份2020年用戶登錄某網(wǎng)站的序列化文件,本小節(jié)將使用HadoopJavaAPI的方式讀取序列化文件,并將讀取的數(shù)據(jù)保存到本地文件系統(tǒng)中,查看文件內(nèi)容是否是1月和2月的用戶登錄信息。任務(wù)分析本小節(jié)將進(jìn)行如下操作,完成序列化文件的讀取。(1)在Windows系統(tǒng)中配置Java開發(fā)環(huán)境,即安裝JDK、設(shè)置環(huán)境變量。(2)下載與安裝IntelliJIDEA。(3)創(chuàng)建Java工程。(4)讀取序列化文件并保存到本地。3.1.1配置開發(fā)環(huán)境1.安裝JDK8Java提供了標(biāo)準(zhǔn)的軟件開發(fā)工具箱JavaDevelopmentKit(JDK)。利用JDK可以開發(fā)Java桌面應(yīng)用程序和低端的服務(wù)器應(yīng)用程序,目前較為常用的版本為JDK1.8。安裝jdk-8u301-windows-x64.exe,具體步驟如下。(1)打開jdk-8u301-windows-x64.exe,點(diǎn)擊“下一步”,如圖3-1所示。圖3-1打開JDK安裝包1.安裝JDK8(2)在JDK“定制安裝”對(duì)話框中選擇安裝位置,然后點(diǎn)擊“下一步”,如圖3-2所示。圖3-2選擇JDK安裝位置1.安裝JDK8(3)完成JDK安裝后,安裝程序?qū)⑻崾綣ava運(yùn)行環(huán)境(JRE)的安裝,在“目標(biāo)文件夾”對(duì)話框中點(diǎn)擊“更改”按鈕修改JRE的安裝位置,然后點(diǎn)擊“下一步”,如圖3-3所示。圖3-3選擇JRE安裝位置1.安裝JDK8提示“已成功安裝”即可點(diǎn)擊“關(guān)閉”按鈕,如圖3-4所示。圖3-4完成JDK安裝2.設(shè)置環(huán)境變量環(huán)境變量是指在操作系統(tǒng)中用來指定操作系統(tǒng)運(yùn)行環(huán)境的一些參數(shù),包含了一個(gè)或者多個(gè)應(yīng)用程序所將使用到的信息。例如,Windows和DOS操作系統(tǒng)中的path環(huán)境變量,當(dāng)要求系統(tǒng)運(yùn)行一個(gè)程序而沒有告知程序所在的完整路徑時(shí),系統(tǒng)除了在當(dāng)前目錄下尋找此程序外,還應(yīng)到path中指定的路徑尋找。用戶通過設(shè)置環(huán)境變量,可以更好地運(yùn)行進(jìn)程。在Windows系統(tǒng)中設(shè)置環(huán)境變量,具體步驟如下。(1)右鍵單擊桌面的“此電腦”圖標(biāo),選擇“屬性”,如圖3-5所示。(2)在“設(shè)置”界面中找到相關(guān)設(shè)置的“高級(jí)系統(tǒng)設(shè)置”,如圖3-6所示。圖3-5打開此電腦屬性圖3-6高級(jí)系統(tǒng)設(shè)置2.設(shè)置環(huán)境變量(3)在彈出的“系統(tǒng)屬性”對(duì)話框中,單擊“環(huán)境變量”按鈕,在彈出的“環(huán)境變量”對(duì)下方“系統(tǒng)變量”話框中單擊新建,在“變量名”一欄中輸入“JAVA_HOME”,在“變量值”一欄中輸入JDK的安裝路徑,如圖3-7所示。圖3-7配置系統(tǒng)變量JAVA_HOME2.設(shè)置環(huán)境變量(4)在“系統(tǒng)變量”中找到變量“Path”并雙擊進(jìn)行編輯,點(diǎn)擊“新建”按鈕,輸入“%JAVA_HOME%\bin”,點(diǎn)擊確定,如圖3-8所示。圖3-8編輯系統(tǒng)環(huán)境Path2.設(shè)置環(huán)境變量(5)在命令提示符中輸入javac,返回信息不提示報(bào)錯(cuò),說明環(huán)境變量配置正確,如圖3-9所示。圖3-9javac驗(yàn)證配置2.設(shè)置環(huán)境變量(6)參考第3步,新建一個(gè)系統(tǒng)變量,在“變量名”一欄中輸入“HADOOP_HOME”,在“變量值”一欄中輸入Hadoop3.1.4安裝包解壓后的路徑,如圖3-10所示。(7)參考第4步,在“系統(tǒng)變量”的變量“Path”中新添一項(xiàng)變量,內(nèi)容為“%HADOOP_HOME%\bin”,點(diǎn)擊確定。圖3-10配置系統(tǒng)變量HADOOP_HOME3.1.2創(chuàng)建Maven工程創(chuàng)建Maven工程在官網(wǎng)下載IntelliJIDEA安裝包,安裝包名稱為“ideaIC-2018.3.6.exe”,本書使用的IDEA版本為社區(qū)版,即Community版,社區(qū)版是免費(fèi)開源的。下載后,請(qǐng)按照軟件指示進(jìn)行安裝。在IDEA中創(chuàng)建Maven工程流程如下。(1)啟動(dòng)IDEA,單擊“CreateNewProjects”,在“NewProject”對(duì)話框中選擇“Maven”,將“ProjectSDK”設(shè)置為3.1.1所配置的JDK8,如圖3-11所示,點(diǎn)擊“Next”。圖3-11創(chuàng)建Maven項(xiàng)目創(chuàng)建Maven工程(2)在彈出的頁面中,輸入項(xiàng)目名稱為“Hadoop_Java_API”,如圖3-12所示,完成后單擊“Finish”按鈕。(3)創(chuàng)建完成的Maven工程的菜單面板,如圖3-13所示。圖3-12對(duì)項(xiàng)目進(jìn)行命名圖3-13工程的菜單面板3.1.3讀取序列化文件讀取序列化文件在pom.xml文件里“</properties>”與“</project>”之間添加Hadoop依賴,內(nèi)容如表3-1所示。表3-1添加Hadoop依賴<dependencies><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>3.1.4</version></dependency>...省略...<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-core</artifactId><version>3.1.4</version></dependency></dependencies>讀取序列化文件添加完成后,在pom.xml文件界面任意處單擊右鍵,選擇“Maven”→“Reloadproject”,如圖3-14所示,或單擊界面右上角
,加載依賴。圖3-14加載依賴讀取序列化文件單擊右鍵如圖3-13所示的“java”,選擇“New”,單擊“Package”,如圖3-15所示,在彈出的頁面中輸入“demo”,單擊Enter鍵,完成名為“demo”的Package的創(chuàng)建,如圖3-16所示。圖3-15新建Package圖3-16為包命名讀取序列化文件單擊右鍵“demo”,選擇“New”,單擊“JavaClass”,如圖3-17所示,在彈出的窗口輸入“ReadSequenceFile”,單擊Enter鍵,完成Java文件的創(chuàng)建,如圖3-18所示。圖3-17新建JavaClass圖3-18為Java文件命名讀取序列化文件HadoopJavaAPI提供了讀取HDFS上的文件的方法,也可以讀取序列化文件,不同于普通文件的讀取方法,讀取序列化文件需要獲取到SequenceFile.Reader對(duì)象。讀取序列化文件,將讀取的數(shù)據(jù)寫入到本地文件系統(tǒng)的janfeb.txt文件中,代碼如代碼3-1所示。代碼3-1讀取序列化文件publicclassReadSequenceFile{publicstaticvoidmain(String[]args)throwsIOException{//獲取配置Configurationconf=newConfiguration();conf.set("fs.defaultFS","master:8020");//獲取文件系統(tǒng)FileSystemfs=FileSystem.get(conf);//獲取SequenceFile.Reader對(duì)象SequenceFile.Readerreader=newSequenceFile.Reader(fs,newPath("/data/sFile"),conf);
//獲取序列化文件中使用的鍵值類型Textkey=newText();Textvalue=newText();BufferedWriterout=newBufferedWriter(newOutputStreamWriter(newFileOutputStream("D:\\data\\janfeb.txt",true)));while(reader.next(key,value)){out.write(key.toString()+"\t"+value.toString()+"\r\n");}out.close();reader.close();}}讀取序列化文件執(zhí)行命令“hdfsdfs-put/opt/sFile/data”將Linux系統(tǒng)目錄/opt下的序列化文件sFile上傳至HDFS系統(tǒng)data目錄下,然后在ReadSequenceFile.java頁面單擊右鍵,選擇“Run'ReadSequenceFile.main()'”運(yùn)行ReadSequenceFile.java程序,如圖3-19所示。運(yùn)行完成后,查看D:\\data\\janfeb.txt文件,序列化文件讀取結(jié)果,如圖3-20所示。讀取序列化文件的結(jié)果文件查看janfeb.txt的文件內(nèi)容,可以發(fā)現(xiàn)文件中的數(shù)據(jù)都是1月和2月的數(shù)據(jù),這說明該序列化文件確實(shí)是1月和2月的用戶登錄信息數(shù)據(jù)。圖3-19運(yùn)行程序圖3-20
序列化文件讀取結(jié)果謝謝電影網(wǎng)站用戶性別測試主講:李強(qiáng)任務(wù)描述M網(wǎng)站是一個(gè)深受用戶歡迎的電影社區(qū)網(wǎng)站,它提供大量的電影介紹及評(píng)論,包括上映影片的影訊查詢及購票服務(wù)。用戶可以記錄想看、在看和看過的電影,順便打分、寫影評(píng)。為了提高用戶的使用體驗(yàn)與滿意度,網(wǎng)站計(jì)劃為廣大用戶提供更精準(zhǔn)更個(gè)性化的電影推薦服務(wù)??赡軙?huì)使用以下用戶信息數(shù)據(jù),如表3-2所示,有部分記錄的性別數(shù)據(jù)是缺失的。眾所周知,性別是用戶的一個(gè)非常重要的特征,也是建立推薦模型的一個(gè)重要維度指標(biāo)。那么獲得用戶信息中缺失的性別數(shù)據(jù),就是目前要解決的首要任務(wù)。本小節(jié)也將圍繞這一主題展開,嘗試以預(yù)測的方式來獲得用戶的性別信息。表3-2M電影網(wǎng)站用戶信息UserIDGenderAgeOccupationZip-code1F110480672M5616700723
2515551174
357024605M2520554556F509551177M35106810任務(wù)分析如圖3-21所示的數(shù)據(jù),是對(duì)每個(gè)用戶的性別信息及該用戶看過的電影類型的統(tǒng)計(jì)情況。其中UserID代表的是用戶ID,Gender代表的是用戶性別,其中1代表的是女性,0代表的是男性。Age代表的是用戶的年齡,Occupation代表的是用戶的職業(yè),Zip-code代表的是用戶的地區(qū)編碼。Action到Western代表的是電影的不同類型。例如,某條記錄中Action字段的值是4,則說明該用戶看過4部動(dòng)作片的電影。圖3-21用戶觀看過的電影類型統(tǒng)計(jì)數(shù)據(jù)任務(wù)分析本小節(jié)將使用MapReduce編程技術(shù),利用KNN算法對(duì)已知性別用戶觀看的電影類型統(tǒng)計(jì)數(shù)據(jù)建立聚類器,并且對(duì)這個(gè)聚類器的聚類結(jié)果進(jìn)行評(píng)價(jià),選出聚類性能最好的一個(gè)聚類器用于對(duì)未知性別的用戶進(jìn)行聚類。因?yàn)橛脩粼谠L問網(wǎng)站的電影時(shí)產(chǎn)生了大量的歷史瀏覽數(shù)據(jù),從用戶瀏覽過的電影類型記錄來預(yù)測該用戶的性別,這可以作為一個(gè)解決思路來進(jìn)行嘗試,大致的實(shí)現(xiàn)步驟可以是這樣的。(1)對(duì)用戶看過的所有電影類型進(jìn)行統(tǒng)計(jì),再通過已知性別用戶觀看電影的類型統(tǒng)計(jì)數(shù)據(jù)建立一個(gè)聚類器。(2)向聚類器輸入未知性別用戶觀看電影的類型統(tǒng)計(jì)數(shù)據(jù),獲得該用戶的性別聚類。3.2.1獲取數(shù)據(jù)獲取數(shù)據(jù)本小節(jié)為讀者提供四份與用戶信息相關(guān)的文件,分別為用戶對(duì)電影的評(píng)分?jǐn)?shù)據(jù)ratings.dat,已知性別的用戶信息數(shù)據(jù)users.dat,電影信息數(shù)據(jù)movies.dat以及數(shù)據(jù)相關(guān)字段的解釋文件README,其中README文件僅作為了解數(shù)據(jù)作用,此處不做展示。部分用戶對(duì)電影的評(píng)分?jǐn)?shù)據(jù)ratings.dat包含4個(gè)字段,即UserID(用戶ID),MovieID(電影ID),Rating(評(píng)分)及Timestamp(時(shí)間戳)。其中UserID的范圍是1到6040,MovieIDS的范圍是1到3952,Rating采用五分好評(píng)制度,即最高分為5分,最低分為1分。部分已知性別的用戶信息數(shù)據(jù)users.dat數(shù)據(jù)包含5個(gè)字段,分別為UserID(用戶ID),Gender(性別),Age(年齡),Occupation(職業(yè))以及Zip-code(編碼)。其中Occupation字段代表的是21種不同的職業(yè)類型,Age字段記錄的也并不是用戶的實(shí)際年齡,而是一個(gè)年齡段,比如1代表的是18歲以下,具體的解釋請(qǐng)參考README。部分電影信息數(shù)據(jù)movies.dat字段包含MovieID(電影ID),Title(電影名稱),Genres(電影類型)三個(gè)字段。其中Title字段不僅記錄電影的名稱,還記錄了電影的上映時(shí)間。數(shù)據(jù)中總共記錄了18種電影類型,包括喜劇片,動(dòng)作片,警匪片,愛情片等,具體的電影類型種類請(qǐng)參見README。3.2.2數(shù)據(jù)變換數(shù)據(jù)變換參考任務(wù)3.1,創(chuàng)建名為“Movie_knn”的Maven工程,在pom.xml文件里“</properties>”與“</project>”之間添加Hadoop依賴,內(nèi)容如表3-1所示。在src/main文件夾單擊右鍵選擇“New”→“Directory”,如圖3-22所示,創(chuàng)建一個(gè)名為“datajoin”的文件夾。圖3-22創(chuàng)建文件夾數(shù)據(jù)變換創(chuàng)建完文件夾后,對(duì)著“datajoin”單擊右鍵選擇“MarkDirectoryas”→“SourcesRoot”,如圖3-23所示,激活“datajoin”文件夾,使其以及子文件夾下的文件成為IDEA可編譯的原文件,激活后文件夾呈藍(lán)色,然后參考3.1.4小節(jié),創(chuàng)建名為“demo01”的Package。圖3-23激活文件夾數(shù)據(jù)變換數(shù)據(jù)變換是指將數(shù)據(jù)從一種表現(xiàn)形式變?yōu)榱硪环N表現(xiàn)形式的過程,數(shù)據(jù)變換主要是找到數(shù)據(jù)的特征表示。將網(wǎng)站用戶的用戶信息數(shù)據(jù)及觀影記錄數(shù)據(jù)轉(zhuǎn)換得到用戶觀看電影的類型統(tǒng)計(jì)數(shù)據(jù)的思路如下。(1)根據(jù)UserID字段連接ratings.dat數(shù)據(jù)和users.dat數(shù)據(jù),連接結(jié)果得到一份包含UserID(用戶ID),Gender(性別),Age(年齡),Occupation(職業(yè)),Zip-code(編碼),MovieID(電影ID)的數(shù)據(jù),連接的MapReduce代碼如代碼3-1所示。代碼3-1連接ratings.dat數(shù)據(jù)和users.dat數(shù)據(jù)的三個(gè)Java代碼的重要部分publicclassJarUtil{publicstaticStringjar(Class<?>cls){//驗(yàn)證okStringoutputJar=cls.getName()+".jar";Stringinput=cls.getClassLoader().getResource("").getFile();input=input.substring(0,input.length()-1);input=input.substring(0,input.lastIndexOf("/")+1);input=input+"bin/";jar(input,outputJar);returnoutputJar;}....省略....數(shù)據(jù)變換編寫好3個(gè)代碼后,單擊頁面上方菜單“File”選項(xiàng),選擇“ProjectStructure…”,在跳出的“ProjectStructure”窗口選擇“Artifacts”→“+”→“JAR”→“Frommoduleswithdependencies…”,如圖3-24所示,創(chuàng)建Jar包。圖3-24創(chuàng)建Jar包數(shù)據(jù)變換在彈出的對(duì)話框的“MainClass”選區(qū)中選擇RatingsAndUsers文件,單擊“OK”。為方便區(qū)分,將“Name”修改為“demo01”,如圖3-25所示,單擊“Apply”“OK”,完成Jar的添加。圖3-25修改“Name”數(shù)據(jù)變換在IDEA主界面選擇“Build”→“BuildArtifacts…”,如圖3-26所示,在彈出的窗口中選擇“demo01”→“Build”,如圖3-27所示,進(jìn)行編譯Jar文件。圖3-27編譯Jar文件2圖3-26編譯Jar文件1數(shù)據(jù)變換為方便區(qū)分,對(duì)生成的“Movie_knn.jar”文件單擊右鍵選擇“Refactor”→“Rename…”,如圖3-28所示,重命名為“demo01.jar”,如圖3-29所示,然后單擊“Refactor”。圖3-29重命名2圖3-28重命名1數(shù)據(jù)變換參考項(xiàng)目1將Jar包上傳到Linux的/opt目錄下,在HDFS上新建文件夾/movie,將ratings.dat,users.dat上傳到/movie下,程序運(yùn)行結(jié)果保存在/movie/ratings_users目錄下。在集群終端的命令行執(zhí)行如代碼3-2所示的命令。代碼3-2連接ratings.dat數(shù)據(jù)和users.dat數(shù)據(jù)的程序運(yùn)行命令hadoopjar/opt/demo01.jardemo01.RatingsAndUsers/movie/users.dat/movie/ratings.dat/movie/ratings_users程序運(yùn)行成功后登陸HDFSWebUI,選擇“Utilitles…”→“Browsethefilesystem”,查看/movie/ratings_users/part-m-00000文件,單擊“Headthefile”查看文件內(nèi)容,如圖3-30所示。圖3-30ratings.dat數(shù)據(jù)和users.dat數(shù)據(jù)的連接結(jié)果數(shù)據(jù)變換(2)根據(jù)MovieID連接movies.dat數(shù)據(jù)和/movie/ratings_users/part-m-00000上的數(shù)據(jù),連接結(jié)果得到一份包含UserID(用戶ID),Gender(性別),Age(年齡),Occupation(職業(yè)),Zip-code(編碼),MovieID(電影ID),Genres(電影類型)。在datajoin文件夾下創(chuàng)建“demo02”的Package,連接MapReduce程序代碼如代碼3-3所示。代碼3-3連接movies.dat數(shù)據(jù)與ratings_users數(shù)據(jù)的程序代碼重要部分publicclassUsersMoviesMapperextendsMapper<LongWritable,Text,Text,NullWritable>{privateHashMap<String,String>movie_info=newHashMap<String,String>();privateStringsplitter="";privateStringmovie_secondPart="";@Overrideprotectedvoidsetup(Mapper<LongWritable,Text,Text,NullWritable>.Contextcontext)throwsIOException,InterruptedException{Path[]DistributePaths=DistributedCache.getLocalCacheFiles(context.getConfiguration());splitter=context.getConfiguration().get("SPLITTER");Stringline="";BufferedReaderbr=null;....省略....數(shù)據(jù)變換參考第1步的操作,將demo02.jar包上傳至Linux的opt目錄下,將movies.dat數(shù)據(jù)上傳到HDFS的/movie目錄下,運(yùn)行結(jié)果保存在/movie/users_movies。在集群終端的命令行運(yùn)行如代碼3-4所示的命令。代碼3-4連接movies.dat數(shù)據(jù)與ratings_users數(shù)據(jù)的程序運(yùn)行命令hadoopjar/opt/demo02.jardemo02.UsersAndMovies/movie/movies.dat/movie/ratings_users/part-m-00000/movie/users_movies參考第1步的操作,查看/movie/users_movies/part-m-00000文件內(nèi)容,如圖3-31所示。圖3-31movies.dat數(shù)據(jù)與ratings_users數(shù)據(jù)連接結(jié)果數(shù)據(jù)變換(3)對(duì)每個(gè)用戶看過的電影類型進(jìn)行統(tǒng)計(jì),例如,假設(shè)圖3-31所示的數(shù)據(jù)就是UserID為1的用戶看過的所有電影,那么通過統(tǒng)計(jì)可以得到該用戶看過2部Action類電影,2部Adventure類電影,2部Animation類電影,2部Children’s類電影,3部Comedy類電影,4部Drama類電影,2部Musical類電影,2部Romance類電影,其他類型的電影都沒有看過,即為0,因此可以得到該用戶的一個(gè)特征向量,如表3-3所示。表3-3對(duì)某用戶看過的電影類型統(tǒng)計(jì)得到的特征向量數(shù)據(jù)1,F,1,10,48067,2,2,2,2,3,0,0,4,0,0,0,2,0,2,0,0,0,0數(shù)據(jù)變換對(duì)每個(gè)用戶看過電影類型進(jìn)行統(tǒng)計(jì),得到一個(gè)特征向量矩陣,可通過MapReduce編程實(shí)現(xiàn)。在Map階段,對(duì)Gender(性別)做一步轉(zhuǎn)換,如果是女性(F)則用1標(biāo)記,如果是男性(M)則用0標(biāo)記,Map輸出的鍵是UserID(用戶ID),Gender(性別),Age(年齡),Occupation(職業(yè))和Zip-code(編碼),輸出的值是Genres(電影類型)。Map端的實(shí)現(xiàn)流程如圖3-32所示。表3-3對(duì)某用戶看過的電影類型統(tǒng)計(jì)得到的特征向量數(shù)據(jù)數(shù)據(jù)變換在Reduce階段,reduce函數(shù)首先為每個(gè)用戶初始化一個(gè)HashMap集合,集合中有18個(gè)鍵值對(duì),鍵分別為18種電影類型,每個(gè)鍵對(duì)應(yīng)的值為0。Map端輸出的鍵值對(duì)中相同鍵的值被整合到一個(gè)列表中,reduce函數(shù)針對(duì)相同的鍵,遍歷其值列表,對(duì)列表中每個(gè)元素根據(jù)分隔符“|”進(jìn)行分割,遍歷分割結(jié)果,如果HashMap集合中的鍵包含分割結(jié)果中的元素,則該鍵對(duì)應(yīng)的值加1。最后將HashMap所有鍵對(duì)應(yīng)的值及Reduce輸入的鍵用逗號(hào)分隔符合并成一個(gè)字符串作為Reduce輸出的鍵,Reduce輸出的值則為空。Reduce端的實(shí)現(xiàn)流程如圖3-33所示。圖3-33Reduce端的實(shí)現(xiàn)流程數(shù)據(jù)變換Mapper類及Reducer類的實(shí)現(xiàn)代碼如代碼3-5所示。代碼3-5對(duì)每個(gè)用戶看過電影類型進(jìn)行統(tǒng)計(jì)的Mapper類及Reducer代碼重要部分packagedemo03;publicclassMoviesGenresMapperextendsMapper<LongWritable,Text,UserAndGender,Text>{ privateUserAndGenderuser_gender=newUserAndGender(); privateStringsplitter=""; privateTextgenres=newText(); @Override protectedvoidsetup(Mapper<LongWritable,Text,UserAndGender,Text>.Contextcontext) throwsIOException,InterruptedException{ splitter=context.getConfiguration().get("SPLITTER"); } @Override protectedvoidmap(LongWritablekey,Textvalue,Mapper<LongWritable,Text,UserAndGender,Text>.Contextcontext) throwsIOException,InterruptedException{ String[]val=value.toString().split(splitter); user_gender.setUserID(val[0]);.......省略......數(shù)據(jù)變換Driver類實(shí)現(xiàn)代碼如代碼3-6所示。代碼3-6對(duì)每個(gè)用戶看過電影類型進(jìn)行統(tǒng)計(jì)的Driver類代碼的重要部分packagedemo03;publicclassUserAndGenderimplementsWritableComparable<UserAndGender>{privateStringuserID;privateintgender;privateintage;privateStringoccupation;privateStringzip_code;publicintgetAge(){returnage;}publicvoidsetAge(intage){this.age=age;}.......省略......數(shù)據(jù)變換同樣將代碼3-5和代碼3-6打包成demo03.jar,將其上傳至Linux的opt目錄下。在集群終端的命令行運(yùn)行如代碼3-7所示的命令。代碼3-7對(duì)每個(gè)用戶看過電影類型進(jìn)行統(tǒng)計(jì)的程序運(yùn)行命令hadoopjar/opt/demo03.jardemo03.MoviesGenres/movie/users_movies/part-m-00000/movie/gender_genre::查看/movie/gender_genre/part-m-00000文件內(nèi)容,統(tǒng)計(jì)結(jié)果如圖3-34所示。圖3-34對(duì)每個(gè)用戶看過電影類型進(jìn)行統(tǒng)計(jì)的結(jié)果3.2.3數(shù)據(jù)清洗數(shù)據(jù)清洗數(shù)據(jù)清洗是數(shù)據(jù)預(yù)處理的一個(gè)重要步驟,3.2.2變換得到的數(shù)據(jù)中可能含有噪聲數(shù)據(jù),例如缺失值或者異常值,這類數(shù)據(jù)將會(huì)影響聚類器的建立,因此需要對(duì)這類數(shù)據(jù)進(jìn)行處理。一般情況下,數(shù)據(jù)中的缺失值可能是表示成空(即沒有值)、“NULL”“null”或“NAN”。而異常值則需要根據(jù)實(shí)際情況判斷,如3.2.2集成的數(shù)據(jù)的有些屬性列代表用戶看過的某種類型的電影的部數(shù),那么該值應(yīng)該大于或等于0,如果該值是小于0的則是屬于異常值。處理缺失值的方法可分為2類:刪除記錄和數(shù)據(jù)插補(bǔ)。本節(jié)采用數(shù)據(jù)插補(bǔ)的方式處理缺失值,由于屬性列的數(shù)據(jù)都是數(shù)值型數(shù)據(jù),所以用常量0替換缺失值。而異常值的處理方法有如下3種。(1)刪除含有異常值的記錄。(2)視為缺失值。(3)平均值修正:即用前后兩個(gè)觀測值的平均值修正異常值。對(duì)于異常值,本節(jié)將其視為缺失值,同處理缺失值的方法一樣,用常量0替換異常值。數(shù)據(jù)清洗將缺失值和異常值替換成0可以用MapReduce編程實(shí)現(xiàn),其思路非常簡單,針對(duì)3.2.2集成的數(shù)據(jù),在Mapper類中自定義計(jì)數(shù)器用于記錄數(shù)據(jù)中缺失值和異常值的記錄數(shù),在map函數(shù)讀取數(shù)據(jù),判斷讀取進(jìn)來的數(shù)據(jù)是否含有缺失值,若有則將該值替換成0,同時(shí)缺失值計(jì)數(shù)器加1,再判斷數(shù)據(jù)中是否有異常值,若有異常值則將該值替換成0并且異常值計(jì)數(shù)器加1。具體的實(shí)現(xiàn)代碼如代碼3-8所示。代碼3-8處理缺失值及異常值代碼重要部分packagepro_demo;publicclassDataProcessingMapperextendsMapper<LongWritable,Text,Text,NullWritable>{ privateStringsplitter=""; enumDataProcessingCounter{ NullData, AbnormalData } @Override protectedvoidsetup(Mapper<LongWritable,Text,Text,NullWritable>.Contextcontext) throwsIOException,InterruptedException{ splitter=context.getConfiguration().get("SPLITTER"); }.......省略......數(shù)據(jù)清洗打包成pro_demo.jar并上傳至Linux系統(tǒng)/opt目錄下。在集群終端的命令行運(yùn)行如代碼3-9所示的命令。代碼3-9數(shù)據(jù)清洗的程序運(yùn)行命令hadoopjar/opt/pro_demo.jarpro_demo.DataProcessing/movie/gender_genre/part-m-00000/movie/processing_out,運(yùn)行日志如圖3-35所示,其中部分日志省略,從圖中可以看出,記錄缺失值的計(jì)數(shù)器NullData的記錄結(jié)果為0,記錄異常值的計(jì)數(shù)器AbnormalData的記錄結(jié)果也為0,說明3.2.2集成的數(shù)據(jù)中沒有缺失值和異常值。圖3-35處理缺失值和異常值的MapReduce任務(wù)運(yùn)行日志3.2.4劃分?jǐn)?shù)據(jù)集劃分?jǐn)?shù)據(jù)集一般來說,聚類算法有3個(gè)過程:第一步是通過歸納分析訓(xùn)練樣本集來建立聚類器,第二步是用驗(yàn)證數(shù)據(jù)集來選擇最優(yōu)的模型參數(shù),第三步是用已知類別的測試樣本集評(píng)估聚類器的準(zhǔn)確性,如果準(zhǔn)確率是可以接受的,則使用該模型對(duì)未知類標(biāo)號(hào)的待測樣本集進(jìn)行預(yù)測。因此聚類算法需要把數(shù)據(jù)分成訓(xùn)練數(shù)據(jù),驗(yàn)證數(shù)據(jù)集和測試數(shù)據(jù)集。在建立M電影用戶聚類器之前,將預(yù)處理之后的數(shù)據(jù)劃分成訓(xùn)練數(shù)據(jù)集,驗(yàn)證數(shù)據(jù)集和測試數(shù)據(jù)集。采用8:1:1的比例隨機(jī)劃分?jǐn)?shù)據(jù)集,其中訓(xùn)練數(shù)據(jù)集占80%,驗(yàn)證數(shù)據(jù)集和測試數(shù)據(jù)集各占10%。劃分?jǐn)?shù)據(jù)集可以使用HadoopJavaAPI進(jìn)行處理,定義讀取原數(shù)據(jù)集并計(jì)算原始數(shù)據(jù)集記錄數(shù)的方法getSize(FileSystemfs,Pathpath),其中參數(shù)path是原數(shù)據(jù)集預(yù)處理之后的存放路徑。將原始數(shù)據(jù)看成一個(gè)列表,列表中的元素是每一條數(shù)據(jù),定義隨機(jī)獲取80%原始數(shù)據(jù)的數(shù)據(jù)下標(biāo)的方法trainIndex,該方法返回一個(gè)Set集合,例如,假如訓(xùn)練數(shù)據(jù)集得到的數(shù)據(jù)是原始數(shù)據(jù)的第1,第3,第5條數(shù)據(jù),則trainIndex方法的得到的Set集合的元素就為<1,3,5>。再定義隨機(jī)獲取10%原始數(shù)據(jù)的數(shù)據(jù)下標(biāo)的方法validateIndex,該方法同樣返回一個(gè)Set集合。trainIndex方法得到的集合與validateIndex得到的集合中的元素是不重復(fù)的。劃分?jǐn)?shù)據(jù)集創(chuàng)建SplitData.java文件,以上所述三個(gè)方法的具體實(shí)現(xiàn)代碼如代碼3-10所示。代碼3-10讀取HDFS的數(shù)據(jù)并統(tǒng)計(jì)記錄數(shù)的方法/***讀取原始數(shù)據(jù)并統(tǒng)計(jì)數(shù)據(jù)的記錄數(shù)*@paramfs*@parampath*@return*@throwsException*/publicstaticintgetSize(FileSystemfs,Pathpath)throwsException{ intcount=0; FSDataInputStreamis=fs.open(path); BufferedReaderbr=newBufferedReader(newInputStreamReader(is)); Stringline=""; while((line=br.readLine())!=null){ count++; } }.......省略......
劃分?jǐn)?shù)據(jù)集設(shè)置訓(xùn)練數(shù)據(jù)集的存儲(chǔ)路徑為/movie/trainData,驗(yàn)證數(shù)據(jù)集的存儲(chǔ)路徑為/movie/validateData,測試數(shù)據(jù)集的存儲(chǔ)路徑為/movie/testData,在main函數(shù)里面讀取原始數(shù)據(jù),將讀取到的數(shù)據(jù)分別寫入到/movie/trainData,/movie/validateData及/movie/testData。實(shí)現(xiàn)代碼如代碼3-11所示。代碼3-10讀取HDFS的數(shù)據(jù)并統(tǒng)計(jì)記錄數(shù)的方法publicstaticvoidmain(String[]args)throwsException{ Configurationconf=newConfiguration(); conf.set("fs.defaultFS","master:8020"); FileSystemfs=FileSystem.get(conf); //獲取預(yù)處理之后的電影數(shù)據(jù)路徑 Pathmoviedata=newPath("/movie/processing_out/part-m-00000"); //得到電影數(shù)據(jù)大小 intdatasize=getSize(fs,moviedata); //得到train數(shù)據(jù)對(duì)應(yīng)原始數(shù)據(jù)下標(biāo) Set<Integer>train_index=trainIndex(datasize); //得到validate數(shù)據(jù)對(duì)應(yīng)原始數(shù)據(jù)的下標(biāo) Set<Integer>validate_index=validateIndex(datasize,train_index);.......省略......劃分?jǐn)?shù)據(jù)集在SplitData.java界面上單擊右鍵選擇“Run'SplitData.main()'”,運(yùn)行成功后,在HDFSWebUI查看文件/movie/trainData,/movie/validateData及/movie/testData,得到的訓(xùn)練數(shù)據(jù)集如圖
3-36所示圖3-36訓(xùn)練數(shù)據(jù)集劃分?jǐn)?shù)據(jù)集測試數(shù)據(jù)集如圖3-37所示,驗(yàn)證測試集如圖3-38所示。圖3-37測試數(shù)據(jù)集圖3-38驗(yàn)證測試集3.2.5實(shí)現(xiàn)用戶性別聚類實(shí)現(xiàn)用戶性別聚類在src/main目錄下創(chuàng)建KNN文件夾并激活,在KNN文件夾下創(chuàng)建名為k_demo的Package用于實(shí)現(xiàn)用戶性別聚類。MapReduce編程實(shí)現(xiàn)M電影網(wǎng)站用戶聚類的思路如圖3-39所示,實(shí)現(xiàn)思路描述如下。圖3-39MapReduce實(shí)現(xiàn)KNN算法思路實(shí)現(xiàn)用戶性別聚類(1)自定義值類型表示距離和類型,由于KNN算法是計(jì)算測試數(shù)據(jù)與已知類別的訓(xùn)練數(shù)據(jù)之間的距離,找到距離與測試數(shù)據(jù)最近的K個(gè)訓(xùn)練數(shù)據(jù),再根據(jù)這些訓(xùn)練所屬的類別的眾數(shù)來判斷測試數(shù)據(jù)的類別。所以在Map階段需要將測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)的距離及該訓(xùn)練數(shù)據(jù)的類別作為值輸出,程序可以使用Hadoop內(nèi)置的數(shù)據(jù)類型Text作為值類型輸出距離及類別,但為了提高程序的執(zhí)行效率,建議自定義值類型表示距離和類別。(2)Map階段,setup函數(shù)讀取測試數(shù)據(jù)。在map函數(shù)里讀取每條訓(xùn)練數(shù)據(jù),遍歷測試數(shù)據(jù),計(jì)算讀取進(jìn)來的訓(xùn)練記錄與每條測試數(shù)據(jù)的距離,計(jì)算距離采用的是歐式距離的計(jì)算方法,Map輸出的鍵是每條測試數(shù)據(jù),輸出的值是該測試數(shù)據(jù)與讀取的訓(xùn)練數(shù)據(jù)的距離和訓(xùn)練數(shù)據(jù)的類別。(3)Reduce階段,setup函數(shù)初始化參數(shù)K值,reduce函數(shù)對(duì)相同鍵的值根據(jù)距離進(jìn)行升序排序,取出前K個(gè)值,輸出reduce函數(shù)讀取進(jìn)來的鍵和這K個(gè)值中類別的眾數(shù)。根據(jù)上述的思路分析,可知Map階段輸出的值是距離和類別的組合,為了提高程序的執(zhí)行效率,筆者不建議使用Hadoop內(nèi)置的Text類型作為輸出的值類型,而是自定義一個(gè)值類型表示距離和類別。筆者自定義了一個(gè)值類型DistanceAndLabel類,該類實(shí)現(xiàn)Writable接口,根據(jù)需求定義聲明兩個(gè)對(duì)象,一個(gè)double類型的distance對(duì)象表示距離,一個(gè)String類型的label對(duì)象表示類別。同時(shí)需要注意寫入和讀取的順序,這里先把distance寫入out輸出流,然后再把label寫入out輸出流。那么在讀取的時(shí)候就需要先讀取distance,接著再讀取label。最后還需要重寫toString的方法,將距離distance和類別label用逗號(hào)連接起來(分隔符可以自己指定),具體實(shí)現(xiàn)代碼如代碼3-12所示。實(shí)現(xiàn)用戶性別聚類代碼3-12自定義值類型重要部分publicclassDistanceAndLabelimplementsWritable{ privatedoubledistance; privateStringlabel; publicDistanceAndLabel(){ } publicDistanceAndLabel(doubledistance,Stringlabel){ this.distance=distance; this.label=label; } publicdoublegetDistance(){ returndistance; } publicvoidsetDistance(doubledistance){ this.distance=distance; }......省略實(shí)現(xiàn)用戶性別聚類在Map階段,setup函數(shù)讀取測試數(shù)據(jù),map函數(shù)讀取訓(xùn)練數(shù)據(jù),計(jì)算訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)的距離,輸出測試數(shù)據(jù),以及測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)的距離和訓(xùn)練數(shù)據(jù)的類別。假設(shè)訓(xùn)練數(shù)據(jù)為(1,1,1,10,48067,0,2,6,18,0,14,0,0,5,5,2,3,20,3,14,3,21,0),測試數(shù)據(jù)如表3-4所示,計(jì)算訓(xùn)練數(shù)據(jù)與每天測試數(shù)據(jù)的距離,Map端輸出的結(jié)果如表3-5所示,從表中可以看出,Map每讀取一條訓(xùn)練數(shù)據(jù),結(jié)果輸出的鍵值對(duì)個(gè)數(shù)是測試數(shù)據(jù)集的記錄數(shù)。假設(shè)有n條訓(xùn)練數(shù)據(jù),m條測試數(shù)據(jù),則最終Map輸出的鍵值對(duì)個(gè)數(shù)是n*m。在Mapper類里面,需要定義一個(gè)計(jì)算距離的方法calDistance(String[]test,String[]train),具體實(shí)現(xiàn)代碼如代碼3-13所示。表3-4測試數(shù)據(jù)示例5892,0,45,2,10920,4,6,12,2,7,29,7,1,19,14,12,4,5,40,4,27,49,25893,0,25,7,02139,0,9,33,4,3,144,5,0,8,8,4,3,3,8,6,6,47,25894,0,35,0,70748,0,19,8,0,1,24,1,32,75,22,9,2,3,18,1,24,36,05895,0,25,1,43026,3,38,4,0,3,17,6,1,11,0,0,0,0,3,1,22,27,0表3-5Map輸出結(jié)果key:(5892,0,45,2,10920,4,6,12,2,7,29,7,1,19,14,12,4,5,40,4,27,49,2)value:(2.48,1)key:(5893,0,25,7,02139,0,9,33,4,3,144,5,0,8,8,4,3,3,8,6,6,47,2)value:(3.32,1)key:(5894,0,35,0,70748,0,19,8,0,1,24,1,32,75,22,9,2,3,18,1,24,36,0)value:(1.63,1)key:(5895,0,25,1,43026,3,38,4,0,3,17,6,1,11,0,0,0,0,3,1,22,27,0)value:(7.08,1)實(shí)現(xiàn)用戶性別聚類代碼3-13Mapper類實(shí)現(xiàn)publicclassMovieClassifyMapperextendsMapper<LongWritable,Text,Text,DistanceAndLabel>{ privateDistanceAndLabeldistance_label=newDistanceAndLabel(); privateStringsplitter=""; ArrayList<String>testData=newArrayList<String>(); privateStringtestPath=""; @Override protectedvoidsetup(Mapper<LongWritable,Text,Text,DistanceAndLabel>.Contextcontext) throwsIOException,InterruptedException{ Configurationconf=context.getConfiguration(); splitter=conf.get("SPLITTER"); testPath=conf.get("TESTPATH"); //讀取測試數(shù)據(jù)存于列表testData中 FileSystemfs=FileSystem.get(conf); FSDataInputStreamis=fs.open(newPath(testPath)); BufferedReaderbr=newBufferedReader(newInputStreamReader(is)); Stringline="";......省略實(shí)現(xiàn)用戶性別聚類在Reduce階段,setup函數(shù)初始化K值,reduce函數(shù)針對(duì)相同的key,對(duì)其值根據(jù)距離進(jìn)行升序排序,取出前K個(gè)值,并找到這K個(gè)值類別的眾數(shù),輸出key和類別的眾數(shù)。例如,假設(shè)reduce接收到的鍵值對(duì)為<(5892,0,45,2,10920,4,6,12,2,7,29,7,1,19,14,12,4,5,40,4,27,49,2),[(2.48,1),(3.80,1),(6.53,0),(4.21,0)]>,對(duì)其值根據(jù)距離升序排序,則得到列表[(2.48,1),(3.80,1),(4.21,0),(6.53,0)],設(shè)置參數(shù)k為3,取出列表的前3個(gè)值,得到列表[(2.48,1),(3.80,1),(4.21,0)],這三個(gè)值中,類別1出現(xiàn)了2次,類別0出現(xiàn)了1次,即類別眾數(shù)為1,所以reduce輸出<1,(5892,0,45,2,10920,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 旅游公司客戶服務(wù)內(nèi)部控制規(guī)范
- 酒店業(yè)信息安全管理體系方案
- 中級(jí)職稱評(píng)審工作總結(jié)案例
- 高??蒲谢顒?dòng)疫情防控預(yù)案
- 環(huán)保項(xiàng)目污水管網(wǎng)施工方案
- 2024-2030年中國蜜月旅行市場發(fā)展前景預(yù)測及投資經(jīng)營模式分析報(bào)告
- 2024-2030年中國蓖麻油行業(yè)供需趨勢(shì)及投資可行性分析報(bào)告
- 2024-2030年中國蘋果行業(yè)產(chǎn)量預(yù)測及發(fā)展規(guī)模分析報(bào)告
- 2024-2030年中國花卉旅游行業(yè)經(jīng)營模式及發(fā)展規(guī)劃研究報(bào)告
- 2024-2030年中國自動(dòng)化物流系統(tǒng)行業(yè)未來發(fā)展趨勢(shì)及投資運(yùn)作模式分析報(bào)告
- 課程規(guī)劃和課程方案
- 財(cái)務(wù)管理的數(shù)字化轉(zhuǎn)型
- 當(dāng)前臺(tái)海局勢(shì)分析課件
- 基于云計(jì)算的醫(yī)療物聯(lián)網(wǎng)系統(tǒng)的設(shè)計(jì)與應(yīng)用
- 周亞夫軍細(xì)柳(教師版)-十年(2013-2022)中考真題之課內(nèi)文言文(全國通用)
- 供水公司招聘抄表員試題
- 浙江省9+1高中聯(lián)盟2022-2023學(xué)年高二上學(xué)期期中考試地理試題(解析版)
- 酒店裝修施工組織設(shè)計(jì)方案
- 固定資產(chǎn)處置方案
- 大數(shù)據(jù)對(duì)智能能源的應(yīng)用
- 血液透析預(yù)防體外循環(huán)凝血的策略護(hù)理課件
評(píng)論
0/150
提交評(píng)論