




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)導(dǎo)論數(shù)
據(jù)
采
集數(shù)據(jù)采集概述目錄01采集技術(shù)概述
02采集的特點(diǎn)
03采集的數(shù)據(jù)類型
04采集的范圍
05采集的流程
數(shù)據(jù)采集又稱數(shù)據(jù)獲取,是利用一種程序或裝置從系統(tǒng)外部采集數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗,最終輸入到存儲(chǔ)系統(tǒng)中的一種過(guò)程。c以大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能、5G為核心特征的數(shù)字化浪潮正席卷全球,隨著網(wǎng)絡(luò)和信息技術(shù)的不斷普及,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級(jí)增長(zhǎng)。大約每?jī)赡攴环@意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量。面對(duì)如此海量的數(shù)據(jù),與之相關(guān)的采集、存儲(chǔ)、分析等等環(huán)節(jié)產(chǎn)生了一系列的問(wèn)題。如何收集有效的數(shù)據(jù)并且進(jìn)行轉(zhuǎn)換分析存儲(chǔ)以及有效率的分析成為巨大的挑戰(zhàn)。數(shù)據(jù)采集概述數(shù)據(jù)采集技術(shù)FilebeatXPATH爬蟲(chóng)原理正則表達(dá)式HTTPFluentdSyslogFlumeBeautifulSoupLogstash相關(guān)技術(shù)和工具數(shù)據(jù)采集的特點(diǎn)以自動(dòng)化手段為主,擺脫人工錄入的方式自動(dòng)化以全量采集和增量采集并存的方式,不對(duì)采集的數(shù)據(jù)進(jìn)行采樣采集方式采集方式多樣化、內(nèi)容豐富化豐富多樣針對(duì)日志數(shù)據(jù)的采集,使用數(shù)據(jù)管道直達(dá)數(shù)據(jù)庫(kù)實(shí)時(shí)性高傳統(tǒng)的數(shù)據(jù)采集來(lái)源單一,且存儲(chǔ)、管理和分析數(shù)據(jù)量也相對(duì)較小,大多采用關(guān)系型數(shù)據(jù)庫(kù)和并行數(shù)據(jù)倉(cāng)庫(kù)即可處理。在依靠并行計(jì)算提升數(shù)據(jù)處理速度方面,傳統(tǒng)的并行數(shù)據(jù)庫(kù)技術(shù)追求的是高度一致性和容錯(cuò)性,從而難以保證其可用性和擴(kuò)展性。數(shù)據(jù)采集的數(shù)據(jù)類型結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)具有固定格式或有限長(zhǎng)度的數(shù)據(jù)
。例如:數(shù)據(jù)庫(kù),元數(shù)據(jù)等。非關(guān)系模型的、有基本固定結(jié)構(gòu)模式的數(shù)據(jù)。例如:日志文件、XML文檔、JSON文檔、Email等。數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒(méi)有預(yù)定義的數(shù)據(jù)模型。例如:所有格式的辦公文檔、文本、圖片、HTML、各類報(bào)表、圖像和音頻/視頻信息等等。采集的范圍數(shù)據(jù)庫(kù)數(shù)據(jù)互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)系統(tǒng)日志數(shù)據(jù)內(nèi)部業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)企業(yè)內(nèi)部的各個(gè)獨(dú)立的業(yè)務(wù)系統(tǒng),在各類數(shù)據(jù)庫(kù)中存儲(chǔ)了大量的數(shù)據(jù)互聯(lián)網(wǎng)對(duì)外公開(kāi)內(nèi)容
凡是可以通過(guò)瀏覽器或者移動(dòng)APP公開(kāi)訪問(wèn)的互聯(lián)網(wǎng)內(nèi)容操作系統(tǒng)及業(yè)務(wù)系統(tǒng)日志自身操作系統(tǒng)或者自有業(yè)務(wù)系統(tǒng)的日常日志記錄數(shù)據(jù)互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)系統(tǒng)日志數(shù)據(jù)網(wǎng)絡(luò)設(shè)備日志網(wǎng)絡(luò)設(shè)備記錄的訪問(wèn)日志、流量日志、攻擊日志等等設(shè)備狀態(tài)數(shù)據(jù)分布式運(yùn)算框架物聯(lián)網(wǎng)感知設(shè)備數(shù)據(jù)
物聯(lián)網(wǎng)的感知層設(shè)備采集的各類傳感數(shù)據(jù)采集的流程不同的數(shù)據(jù)對(duì)象,其采集流程不盡相同,這里僅介紹網(wǎng)頁(yè)內(nèi)容采集流程及系統(tǒng)日志的采集流程。網(wǎng)頁(yè)爬取的采集流程系統(tǒng)日志的采集流程網(wǎng)頁(yè)爬取的采集流程分析采集對(duì)象構(gòu)建采集請(qǐng)求獲取響應(yīng)內(nèi)容針對(duì)一個(gè)網(wǎng)頁(yè),需要分析其網(wǎng)頁(yè)結(jié)構(gòu),明確要采集的對(duì)象清單,采集清單相關(guān)法律法規(guī)評(píng)估,同時(shí)確定目標(biāo)數(shù)據(jù)是否在同一個(gè)頁(yè)面中。通過(guò)HTTP協(xié)議向目標(biāo)站點(diǎn)發(fā)起請(qǐng)求,也就是發(fā)送一個(gè)Request,請(qǐng)求可以包含額外的header等信息,等待服務(wù)器響應(yīng)如果服務(wù)器能正常響應(yīng),會(huì)得到一個(gè)Response,Response的內(nèi)容便是所要獲取的頁(yè)面內(nèi)容,類型可能是HTML,Json字符串,二進(jìn)制數(shù)據(jù)(圖片或者視頻)等類型過(guò)濾解析內(nèi)容存儲(chǔ)采集數(shù)據(jù)保存形式多樣,可以存為文本,也可以保存到數(shù)據(jù)庫(kù),或者保存特定格式的文件,如果是海量數(shù)據(jù),則可以存儲(chǔ)到HDFS文件系統(tǒng)或者HIVE數(shù)據(jù)庫(kù)中。得到的內(nèi)容可能是HTML文本,可以用正則表達(dá)式、BeautifulSoup、XPath進(jìn)行解析,可能是Json,可以直接轉(zhuǎn)換為Json對(duì)象解析,可能是二進(jìn)制數(shù)據(jù),可以做保存或者進(jìn)一步的處理系統(tǒng)日志的采集流程STEP1分析日志規(guī)模及實(shí)時(shí)性,選擇適合的日志采集工具。STEP2確定數(shù)據(jù)采集的輸入端、輸出端。STEP3配置日志采集器文件,明確
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 電磁功能玻璃企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級(jí)戰(zhàn)略研究報(bào)告
- 耐熱不銹鋼中板企業(yè)縣域市場(chǎng)拓展與下沉戰(zhàn)略研究報(bào)告
- 立式復(fù)合破碎機(jī)企業(yè)縣域市場(chǎng)拓展與下沉戰(zhàn)略研究報(bào)告
- 無(wú)石棉離合器面片企業(yè)ESG實(shí)踐與創(chuàng)新戰(zhàn)略研究報(bào)告
- 節(jié)能型平板電視機(jī)企業(yè)ESG實(shí)踐與創(chuàng)新戰(zhàn)略研究報(bào)告
- 剝離液企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級(jí)戰(zhàn)略研究報(bào)告
- 制帚用成束材料企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級(jí)戰(zhàn)略研究報(bào)告
- 地質(zhì)、鉆探用合金鋼(粗鋼)企業(yè)縣域市場(chǎng)拓展與下沉戰(zhàn)略研究報(bào)告
- 微球型聚焦測(cè)井儀企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級(jí)戰(zhàn)略研究報(bào)告
- 聚酰胺(PA56)纖維企業(yè)縣域市場(chǎng)拓展與下沉戰(zhàn)略研究報(bào)告
- 二年級(jí)下冊(cè)科學(xué)不斷發(fā)展的人工產(chǎn)品鄂教版課件
- 小學(xué)部編版六年級(jí)下冊(cè)道德與法治《4、地球-我們的家園》第一課時(shí)說(shuō)課稿
- DB11T 1340-2022 居住建筑節(jié)能工程施工質(zhì)量驗(yàn)收規(guī)程
- 保險(xiǎn)市場(chǎng)調(diào)查與分析實(shí)訓(xùn)三任務(wù)一2.3.1任務(wù)一運(yùn)用Excel整理市場(chǎng)調(diào)查問(wèn)卷數(shù)據(jù)
- 中央空調(diào)(多聯(lián)機(jī))施工方案
- PKPM磚混結(jié)構(gòu)抗震及其他計(jì)算全攻略
- “育鯤”輪轉(zhuǎn)葉式舵機(jī)工作原理和電氣控制以及故障分析
- 流動(dòng)資金自動(dòng)測(cè)算表(內(nèi)自帶計(jì)算公式)
- 最新.爾雅批判與創(chuàng)意思考--馮林答案
- 宿州光伏玻璃項(xiàng)目可行性研究報(bào)告(范文模板)
- 10KV變電站施工方案
評(píng)論
0/150
提交評(píng)論