《大數(shù)據(jù)與云計算》課件-18.大數(shù)據(jù)分析案例_第1頁
《大數(shù)據(jù)與云計算》課件-18.大數(shù)據(jù)分析案例_第2頁
《大數(shù)據(jù)與云計算》課件-18.大數(shù)據(jù)分析案例_第3頁
《大數(shù)據(jù)與云計算》課件-18.大數(shù)據(jù)分析案例_第4頁
《大數(shù)據(jù)與云計算》課件-18.大數(shù)據(jù)分析案例_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)與云計算智能建造技術(shù)專業(yè)資源庫知識點大數(shù)據(jù)分析案例(一)3交通流量分析1日志分析2電商購買記錄分析大數(shù)據(jù)分析案例日志分析

大規(guī)模系統(tǒng)每天會產(chǎn)生大量的日志,日志是企業(yè)后臺服務(wù)系統(tǒng)的重要組成部分,企業(yè)每天通過日志分析監(jiān)控可以及時地發(fā)現(xiàn)系統(tǒng)運行中出現(xiàn)的問題,從而盡量將損失減小到最少。

由于企業(yè)中的日志數(shù)據(jù)一般規(guī)模比較龐大,需要Hadoop這樣的大數(shù)據(jù)處理系統(tǒng)來處理大量的日志。日志分析

以一個運行一段時間的Hadoop集群產(chǎn)生的日志文件為例,來說明使用Hadoop來進行日志分析的過程。

現(xiàn)在我們有Hadoop運行的日志文件,需要找出WARN級別的日志記錄信息,輸出結(jié)果信息包括日志文件中的行號和日志記錄內(nèi)容。

該問題的解決方法是采用類似Grep的方法,在Map階段對輸人的每條日志記錄匹配查找,如果有匹配關(guān)健字WARN,則產(chǎn)生<行號,記錄內(nèi)容>這樣的key-value鍵值對;在Reduce階段,則基本不采取任何操作,只是把所有的key-value鍵值對輸出到HDFS文件中。關(guān)鍵部分代碼:日志分析publicstaticciassMyMapperextendsMapper<LongWritable,Text,Longhritable,Test>{publicvoidmap(Longwritablelinenumber,Textline,Contextcontext)throwsIOException,InterruptedException{Stringpattern=context.getConfiguration().get("grep");Stringlinecontent=line.toString();if(linecontent.index0f(pattern)==-1){return;}context.write(linenumber,line);}}publicstaticclassMyReducerextendsReducer<LongWritable,Text,Longlwritable,Text>{publicvoidreduce(LongWritablelinenumber,Iterable<Text>line,Contextcontext)throwsIOException,InterruptedException{for(Textelement:line){context.write(linenumber.element);}}}日志分析

詳細完整的代碼和數(shù)據(jù)可以從GitHub上下載(ttps://github.com/bdintro/bdintro.git)。

編譯源代碼采用mvnpackage的方式,測試數(shù)據(jù)為hadoopuser-datanodedell119.log.zip.

在測試之前先把對應(yīng)數(shù)據(jù)上傳到HDFS集群中,把使用mvnpackage編譯好的jar文件復(fù)制到Hadoop集群節(jié)點上,當前測試為復(fù)制到del119機器上。日志分析啟動如下命令,執(zhí)行日志分析任務(wù)./bin/hdfsdfs/user/root/log/output./bin/hadoopjar/home/qzhong/bigdata-0.0.1.jar\bigdata.bigdata,.GrepWARN/user/root/log/input/hadoopyangyarudatanode-dell119.log/user/root/log/output運行結(jié)果如下圖,圖中左邊是原始日志文件中對應(yīng)WARN記錄的符號,右邊是對應(yīng)WARN級別日志記錄的具體內(nèi)容:知識點大數(shù)據(jù)分析案例(二)3交通流量分析1日志分析2電商購買記錄分析大數(shù)據(jù)分析案例電商購買記錄分析當前電子商務(wù)快速發(fā)展,大量的用戶開始在網(wǎng)上進行購物。各大電商為了更好地給用戶推薦商品,會將用戶的購買行為記錄下來。電商平臺存儲了大量用于挖掘產(chǎn)生價值的數(shù)據(jù)。單臺物理服務(wù)器無法完成分析大量數(shù)據(jù)的任務(wù),因此需要部署大規(guī)模大數(shù)據(jù)分析系統(tǒng)來完整電商購買記錄分析。電商購買記錄分析有一個電商平臺的部分用戶購買記錄數(shù)據(jù),利用上述搭建的簡易的Hndop運行平臺,分析得出每個商家每天的成交量信息。購買記錄為一個CSV格式文件,數(shù)器的格式為<用戶ID.商家ID,日期,時間>.前面三個字段采用逗號分隔,最后面的一個字段采用空格分隔,部分數(shù)據(jù)格式如圖。采用Hadop的MapReduce來進行商家每天的成交量電商購買記錄分析采用Hadoop的MoapReduce來進行商家每天的成交量分析。在Map階段對于每個輸人的購買記錄信息分隔,產(chǎn)生key為<商家ID,日期>和value為1的鍵值對:在Reduce階段對于相同的key<商家ID,日期>的進行合并。完整的代碼可以在GitHub上下載(ttps//githubcombdintro/bdintro.git)。測試數(shù)據(jù)為shop.txt.zi。在測試之前需要先上傳shop.1x文件到HDFS集群中.利用mvnpacknge生成的jar文件,執(zhí)行如下命令如左圖,運行結(jié)果如右圖交通流量分析現(xiàn)在車輛迅速增多,交通產(chǎn)生了大量的數(shù)據(jù)。為了有效地減少交通事故以及減少交通擁堵時間,需要有效地利用交通數(shù)據(jù)進行海量數(shù)據(jù)分析?,F(xiàn)在有交通違規(guī)的數(shù)據(jù)信息,需要找出每天的交通違規(guī)數(shù)據(jù)總的統(tǒng)計信息。交通流量的數(shù)據(jù)是csv格式文件,詳細的交通流量數(shù)據(jù)格式描述如網(wǎng)站所述(https://www./jana36/ustrafficviolationsmontgomery-countypolict)。采用MapReduce的方式來解決上述問題。在Map階段,產(chǎn)生<日期,1>這樣的key-value鍵值對;在Reduce階段,對相同的日期做總數(shù)相加統(tǒng)計操作。對應(yīng)的關(guān)鍵代碼如圖(見下一張幻燈片)交通流量分析完整的代碼可以從GitHub上下載https:/

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論