第2章大數(shù)據(jù)采集及預(yù)處理_第1頁(yè)
第2章大數(shù)據(jù)采集及預(yù)處理_第2頁(yè)
第2章大數(shù)據(jù)采集及預(yù)處理_第3頁(yè)
第2章大數(shù)據(jù)采集及預(yù)處理_第4頁(yè)
第2章大數(shù)據(jù)采集及預(yù)處理_第5頁(yè)
已閱讀5頁(yè),還剩30頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)技術(shù)與應(yīng)用

計(jì)算機(jī)中心第2章大數(shù)據(jù)采集及預(yù)處理導(dǎo)學(xué)

一、內(nèi)容與要求1.理解大數(shù)據(jù)采集的基本概念,掌握大數(shù)據(jù)采集的數(shù)據(jù)來(lái)源,了解大數(shù)據(jù)采集的技術(shù)方法。2.了解大數(shù)據(jù)預(yù)處理的方法和了解大數(shù)據(jù)采集及預(yù)處理的常用工具。二、重點(diǎn)、難點(diǎn)重點(diǎn)是大數(shù)據(jù)采集的概念,大數(shù)據(jù)采集的數(shù)據(jù)來(lái)源和技術(shù)方法。難點(diǎn)是大數(shù)據(jù)預(yù)處理的方法。2.1數(shù)據(jù)采集簡(jiǎn)介

2.1.1數(shù)據(jù)采集

大數(shù)據(jù)的數(shù)據(jù)采集是在確定用戶目標(biāo)的基礎(chǔ)上,針對(duì)該范圍內(nèi)所有結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)的采集。

傳統(tǒng)的數(shù)據(jù)采集大數(shù)據(jù)的數(shù)據(jù)采集數(shù)據(jù)來(lái)源

來(lái)源單一,數(shù)據(jù)量相對(duì)大數(shù)據(jù)較小來(lái)源廣泛,數(shù)據(jù)量巨大數(shù)據(jù)類型結(jié)構(gòu)單一

數(shù)據(jù)類型豐富,包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)處理關(guān)系型數(shù)據(jù)庫(kù)和并行數(shù)據(jù)倉(cāng)庫(kù)分布式數(shù)據(jù)庫(kù)2.1.2數(shù)據(jù)采集的數(shù)據(jù)來(lái)源按照數(shù)據(jù)來(lái)源劃分,大數(shù)據(jù)的三大主要來(lái)源為:商業(yè)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)與物聯(lián)網(wǎng)數(shù)據(jù)。1.商業(yè)數(shù)據(jù)商業(yè)數(shù)據(jù)是指來(lái)自于企業(yè)ERP系統(tǒng)、各種POS終端及網(wǎng)上支付系統(tǒng)等業(yè)務(wù)系統(tǒng)的數(shù)據(jù),是現(xiàn)在最主要的數(shù)據(jù)來(lái)源渠道。2.互聯(lián)網(wǎng)數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)是指網(wǎng)絡(luò)空間交互過(guò)程中產(chǎn)生的大量數(shù)據(jù),包括通信記錄及QQ、微信、微博等社交媒體產(chǎn)生的數(shù)據(jù),其數(shù)據(jù)復(fù)雜且難以被利用?;ヂ?lián)網(wǎng)數(shù)據(jù)具有的特點(diǎn):大量化多樣化快速化3.物聯(lián)網(wǎng)數(shù)據(jù)

物聯(lián)網(wǎng)是指在計(jì)算機(jī)互聯(lián)網(wǎng)的基礎(chǔ)上,利用射頻識(shí)別、傳感器、紅外感應(yīng)器、無(wú)線數(shù)據(jù)通信等技術(shù),構(gòu)造一個(gè)覆蓋世界上萬(wàn)事萬(wàn)物的“TheInternetofThings”,也就是“實(shí)現(xiàn)物物相連的互聯(lián)網(wǎng)絡(luò)”。其內(nèi)涵包含:物聯(lián)網(wǎng)的核心和基礎(chǔ)仍是互聯(lián)網(wǎng),是在互聯(lián)網(wǎng)基礎(chǔ)之上延伸和擴(kuò)展的一種網(wǎng)絡(luò)。用戶端延伸和擴(kuò)展到了任何物品與物品之間,進(jìn)行信息交換和通信。物聯(lián)網(wǎng)數(shù)據(jù)的特點(diǎn)主要包括:物聯(lián)網(wǎng)中的數(shù)據(jù)量更大物聯(lián)網(wǎng)中的數(shù)據(jù)傳輸速率更高物聯(lián)網(wǎng)中的數(shù)據(jù)更加多樣化物聯(lián)網(wǎng)對(duì)數(shù)據(jù)真實(shí)性的要求更高2.1.3數(shù)據(jù)采集的技術(shù)方法1.系統(tǒng)日志采集方法很多互聯(lián)網(wǎng)企業(yè)都有自己的海量數(shù)據(jù)采集工具,多用于系統(tǒng)日志采集,如:Hadoop的ChukwaCloudera的FlumeFacebook的Scribe2.對(duì)非結(jié)構(gòu)化數(shù)據(jù)的采集非結(jié)構(gòu)化數(shù)據(jù)的采集就是針對(duì)所有非結(jié)構(gòu)化的數(shù)據(jù)的采集,包括企業(yè)內(nèi)部數(shù)據(jù)的采集和網(wǎng)絡(luò)數(shù)據(jù)采集等。企業(yè)內(nèi)部數(shù)據(jù)的采集是對(duì)企業(yè)內(nèi)部各種文檔、視頻、音頻、郵件、圖片等數(shù)據(jù)格式之間互不兼容的數(shù)據(jù)采集。網(wǎng)絡(luò)數(shù)據(jù)采集是指通過(guò)網(wǎng)絡(luò)爬蟲(chóng)或網(wǎng)站公開(kāi)API等方式從網(wǎng)站上獲取互聯(lián)網(wǎng)中相關(guān)網(wǎng)頁(yè)內(nèi)容的過(guò)程,并從中抽取出用戶所需要的屬性內(nèi)容。網(wǎng)絡(luò)爬蟲(chóng)是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。3.其他數(shù)據(jù)采集方法對(duì)于企業(yè)生產(chǎn)經(jīng)營(yíng)數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),可以通過(guò)與企業(yè)或研究機(jī)構(gòu)合作,使用特定系統(tǒng)接口等相關(guān)方式采集數(shù)據(jù)。2.2大數(shù)據(jù)的預(yù)處理

大數(shù)據(jù)預(yù)處理的方法主要包括:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。大數(shù)據(jù)處理流程1.?dāng)?shù)據(jù)清洗

數(shù)據(jù)清洗是在匯聚多個(gè)維度、多個(gè)來(lái)源、多種結(jié)構(gòu)的數(shù)據(jù)之后,對(duì)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換和集成加載。目的在于刪除重復(fù)信息、糾正存在的錯(cuò)誤,并提供數(shù)據(jù)一致性。

大數(shù)據(jù)清洗工具DataWrangler2.?dāng)?shù)據(jù)集成數(shù)據(jù)集成是把不同來(lái)源、不同格式、不同特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而為企業(yè)提供全面的數(shù)據(jù)共享。目前通常采用聯(lián)邦式、基于中間件模型和數(shù)據(jù)倉(cāng)庫(kù)等方法來(lái)構(gòu)造集成的系統(tǒng)。大數(shù)據(jù)集成:狹義上講是指如何合并規(guī)整數(shù)據(jù);廣義上講數(shù)據(jù)的存儲(chǔ)、移動(dòng)、處理等與數(shù)據(jù)管理有關(guān)的活動(dòng)都稱為數(shù)據(jù)集成。

大數(shù)據(jù)集成一般需要將處理過(guò)程分布到源數(shù)據(jù)上進(jìn)行并行處理,并僅對(duì)結(jié)果進(jìn)行集成。3.?dāng)?shù)據(jù)變換

數(shù)據(jù)變換是將數(shù)據(jù)轉(zhuǎn)換成適合挖掘的形式。數(shù)據(jù)變換是采用線性或非線性的數(shù)學(xué)變換方法將多維數(shù)據(jù)壓縮成較少維數(shù)的數(shù)據(jù),消除它們?cè)跁r(shí)間、空間、屬性及精度等特征表現(xiàn)方面的差異(如統(tǒng)計(jì)學(xué)中的數(shù)據(jù)標(biāo)準(zhǔn)化)。4.?dāng)?shù)據(jù)規(guī)約

數(shù)據(jù)規(guī)約是從數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中選取并建立使用者感興趣的數(shù)據(jù)集合,然后從數(shù)據(jù)集合中濾掉一些無(wú)關(guān)、偏差或重復(fù)的數(shù)據(jù),在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡(jiǎn)數(shù)據(jù)量。數(shù)據(jù)歸約主要有兩個(gè)途徑:屬性選擇和數(shù)據(jù)采樣,分別針對(duì)原始數(shù)據(jù)集中的屬性和記錄。2.3數(shù)據(jù)采集及預(yù)處理的主要工具

1.FlumeFlume是Cloudera提供的一個(gè)高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)。官網(wǎng):/2.LogstashLogstash是一個(gè)應(yīng)用程序日志、事件的傳輸、處理、管理和搜索的平臺(tái)。可以用它來(lái)統(tǒng)一對(duì)應(yīng)用程序日志進(jìn)行收集管理,提供Web接口用于查詢和統(tǒng)計(jì)。官網(wǎng):/3.KibanaKibana是一個(gè)為L(zhǎng)ogstash和ElasticSearch提供的日志分析的Web接口。可使用它對(duì)日志進(jìn)行高效的搜索、可視化、分析等各種操作。主頁(yè):/4.CeilometerCeilometer主要負(fù)責(zé)監(jiān)控?cái)?shù)據(jù)的采集,是OpenStack中的一個(gè)子項(xiàng)目,它像一個(gè)漏斗一樣,能把OpenStack內(nèi)部發(fā)生的幾乎所有的事件都收集起來(lái),然后為計(jì)費(fèi)和監(jiān)控以及其它服務(wù)提供數(shù)據(jù)支撐。官方網(wǎng)站:/5.樂(lè)思網(wǎng)絡(luò)信息采集系統(tǒng)

主要目標(biāo)就是解決網(wǎng)絡(luò)信息采集和網(wǎng)絡(luò)數(shù)據(jù)抓取問(wèn)題。官方網(wǎng)站:/index.html6.火車采集器通過(guò)靈活的配置,可以很輕松迅速地從網(wǎng)頁(yè)上抓取結(jié)構(gòu)化的文本、圖片、文件等資源信息,可編輯篩選處理后選擇發(fā)布到網(wǎng)站后臺(tái),各類文件或其他數(shù)據(jù)庫(kù)系統(tǒng)中。官方網(wǎng)站:/7.網(wǎng)絡(luò)礦工(上機(jī)應(yīng)用)網(wǎng)絡(luò)礦工數(shù)據(jù)采集軟件是一款集互聯(lián)網(wǎng)數(shù)據(jù)采集、清洗、存儲(chǔ)、發(fā)布為一體的工具軟件。官方網(wǎng)站:/(1)進(jìn)入網(wǎng)絡(luò)礦工官方網(wǎng)站,下載免費(fèi)版,本例下載的是sominerv5.33(通常免費(fèi)版有試用期限,一般為30天)。網(wǎng)絡(luò)礦工的運(yùn)行需要.NetFramework2.0環(huán)境,建議使用Firefox瀏覽器。(2)下載的壓縮文件內(nèi)包含多個(gè)可執(zhí)行程序,其中SoukeyNetget.exe為網(wǎng)絡(luò)礦工采集軟件,運(yùn)行此文件即可打開(kāi)網(wǎng)絡(luò)礦工,操作界面如圖。(3)點(diǎn)擊“新建采集任務(wù)分類”,在彈出的“新建任務(wù)類別”中輸入類別名稱,并保存存儲(chǔ)路徑,如圖。(4)在“新建任務(wù)管理”中,右鍵單擊“新建采集任務(wù)”。在彈出的“新建采集任務(wù)”中輸入任務(wù)名稱,如圖。(5)在“新建采集任務(wù)”中,點(diǎn)擊“增加采集網(wǎng)址”,在彈出的操作頁(yè)面中輸入采集網(wǎng)址,如/。選中“導(dǎo)航采集”,并點(diǎn)擊“增加”導(dǎo)航規(guī)則,如圖。(6)在“導(dǎo)航頁(yè)規(guī)則配置”中,設(shè)置導(dǎo)航規(guī)則:http://,如圖。單擊確定按鈕。(7)配置采集數(shù)據(jù)的規(guī)則:因?yàn)橐杉侣劦恼?、?biāo)題、發(fā)布時(shí)間,可以用三種方式來(lái)完成:智能采集、可視化采集和規(guī)則配置。以智能采集為例,回到“新建采集任務(wù)”中,點(diǎn)擊“采集數(shù)據(jù)”,然后點(diǎn)擊“配置助手”,如圖。(8)在彈出的“采集規(guī)則自動(dòng)化配置”中,在地址欄輸入采集地址

,點(diǎn)擊“轉(zhuǎn)到”按鈕,可以看到百度新聞的頁(yè)面。再點(diǎn)擊“生成文章采集規(guī)則”,可以看到系統(tǒng)已經(jīng)將文章的智能規(guī)則輸入到系統(tǒng)中,點(diǎn)擊“測(cè)試”可以檢查采集結(jié)果是否正確,如圖。點(diǎn)擊“確定退出”,這樣就完成了配置。(9)點(diǎn)擊“保存”和“確定”按鈕。在返回的“新建采集任務(wù)”中,點(diǎn)擊“采集任務(wù)測(cè)試”,輸入示例網(wǎng)址:http://,點(diǎn)擊“啟動(dòng)測(cè)試”,如圖。(10)任務(wù)設(shè)置完成后,返回最初操作界面,如圖。選中任務(wù)右鍵單擊“啟動(dòng)”,可看到下面屏幕滾動(dòng),停止后則采集完成。(11)采集任務(wù)完成后,任務(wù)將以.smt文件形式保存在安裝路徑的tasks文件夾內(nèi)。右鍵單擊采集任務(wù)的名稱,在彈出的快捷菜單內(nèi)選擇數(shù)據(jù)導(dǎo)出的格式,包括文本、Excel和Word

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論