《大數(shù)據(jù)導(dǎo)論》課件-3數(shù)據(jù)采集介紹_第1頁
《大數(shù)據(jù)導(dǎo)論》課件-3數(shù)據(jù)采集介紹_第2頁
《大數(shù)據(jù)導(dǎo)論》課件-3數(shù)據(jù)采集介紹_第3頁
《大數(shù)據(jù)導(dǎo)論》課件-3數(shù)據(jù)采集介紹_第4頁
《大數(shù)據(jù)導(dǎo)論》課件-3數(shù)據(jù)采集介紹_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)導(dǎo)論數(shù)

據(jù)

集數(shù)據(jù)采集概述目錄01采集技術(shù)概述

02采集的特點(diǎn)

03采集的數(shù)據(jù)類型

04采集的范圍

05采集的流程

數(shù)據(jù)采集又稱數(shù)據(jù)獲取,是利用一種程序或裝置從系統(tǒng)外部采集數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終輸入到存儲系統(tǒng)中的一種過程。c以大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能、5G為核心特征的數(shù)字化浪潮正席卷全球,隨著網(wǎng)絡(luò)和信息技術(shù)的不斷普及,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級增長。大約每兩年翻一番,這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量。面對如此海量的數(shù)據(jù),與之相關(guān)的采集、存儲、分析等等環(huán)節(jié)產(chǎn)生了一系列的問題。如何收集有效的數(shù)據(jù)并且進(jìn)行轉(zhuǎn)換分析存儲以及有效率的分析成為巨大的挑戰(zhàn)。數(shù)據(jù)采集概述數(shù)據(jù)采集技術(shù)FilebeatXPATH爬蟲原理正則表達(dá)式HTTPFluentdSyslogFlumeBeautifulSoupLogstash相關(guān)技術(shù)和工具數(shù)據(jù)采集的特點(diǎn)以自動(dòng)化手段為主,擺脫人工錄入的方式自動(dòng)化以全量采集和增量采集并存的方式,不對采集的數(shù)據(jù)進(jìn)行采樣采集方式采集方式多樣化、內(nèi)容豐富化豐富多樣針對日志數(shù)據(jù)的采集,使用數(shù)據(jù)管道直達(dá)數(shù)據(jù)庫實(shí)時(shí)性高傳統(tǒng)的數(shù)據(jù)采集來源單一,且存儲、管理和分析數(shù)據(jù)量也相對較小,大多采用關(guān)系型數(shù)據(jù)庫和并行數(shù)據(jù)倉庫即可處理。在依靠并行計(jì)算提升數(shù)據(jù)處理速度方面,傳統(tǒng)的并行數(shù)據(jù)庫技術(shù)追求的是高度一致性和容錯(cuò)性,從而難以保證其可用性和擴(kuò)展性。數(shù)據(jù)采集的數(shù)據(jù)類型結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)具有固定格式或有限長度的數(shù)據(jù)

。例如:數(shù)據(jù)庫,元數(shù)據(jù)等。非關(guān)系模型的、有基本固定結(jié)構(gòu)模式的數(shù)據(jù)。例如:日志文件、XML文檔、JSON文檔、Email等。數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型。例如:所有格式的辦公文檔、文本、圖片、HTML、各類報(bào)表、圖像和音頻/視頻信息等等。采集的范圍數(shù)據(jù)庫數(shù)據(jù)互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)系統(tǒng)日志數(shù)據(jù)內(nèi)部業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫企業(yè)內(nèi)部的各個(gè)獨(dú)立的業(yè)務(wù)系統(tǒng),在各類數(shù)據(jù)庫中存儲了大量的數(shù)據(jù)互聯(lián)網(wǎng)對外公開內(nèi)容

凡是可以通過瀏覽器或者移動(dòng)APP公開訪問的互聯(lián)網(wǎng)內(nèi)容操作系統(tǒng)及業(yè)務(wù)系統(tǒng)日志自身操作系統(tǒng)或者自有業(yè)務(wù)系統(tǒng)的日常日志記錄數(shù)據(jù)互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)系統(tǒng)日志數(shù)據(jù)網(wǎng)絡(luò)設(shè)備日志網(wǎng)絡(luò)設(shè)備記錄的訪問日志、流量日志、攻擊日志等等設(shè)備狀態(tài)數(shù)據(jù)分布式運(yùn)算框架物聯(lián)網(wǎng)感知設(shè)備數(shù)據(jù)

物聯(lián)網(wǎng)的感知層設(shè)備采集的各類傳感數(shù)據(jù)采集的流程不同的數(shù)據(jù)對象,其采集流程不盡相同,這里僅介紹網(wǎng)頁內(nèi)容采集流程及系統(tǒng)日志的采集流程。網(wǎng)頁爬取的采集流程系統(tǒng)日志的采集流程網(wǎng)頁爬取的采集流程分析采集對象構(gòu)建采集請求獲取響應(yīng)內(nèi)容針對一個(gè)網(wǎng)頁,需要分析其網(wǎng)頁結(jié)構(gòu),明確要采集的對象清單,采集清單相關(guān)法律法規(guī)評估,同時(shí)確定目標(biāo)數(shù)據(jù)是否在同一個(gè)頁面中。通過HTTP協(xié)議向目標(biāo)站點(diǎn)發(fā)起請求,也就是發(fā)送一個(gè)Request,請求可以包含額外的header等信息,等待服務(wù)器響應(yīng)如果服務(wù)器能正常響應(yīng),會(huì)得到一個(gè)Response,Response的內(nèi)容便是所要獲取的頁面內(nèi)容,類型可能是HTML,Json字符串,二進(jìn)制數(shù)據(jù)(圖片或者視頻)等類型過濾解析內(nèi)容存儲采集數(shù)據(jù)保存形式多樣,可以存為文本,也可以保存到數(shù)據(jù)庫,或者保存特定格式的文件,如果是海量數(shù)據(jù),則可以存儲到HDFS文件系統(tǒng)或者HIVE數(shù)據(jù)庫中。得到的內(nèi)容可能是HTML文本,可以用正則表達(dá)式、BeautifulSoup、XPath進(jìn)行解析,可能是Json,可以直接轉(zhuǎn)換為Json對象解析,可能是二進(jìn)制數(shù)據(jù),可以做保存或者進(jìn)一步的處理系統(tǒng)日志的采集流程STEP1分析日志規(guī)模及實(shí)時(shí)性,選擇適合的日志采集工具。STEP2確定數(shù)據(jù)采集的輸入端、輸出端。STEP3配置日志采集器文件,明確

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論