![《大數(shù)據(jù)導(dǎo)論》課件-3數(shù)據(jù)采集介紹_第1頁](http://file4.renrendoc.com/view9/M02/14/04/wKhkGWdS2aWAJ-hbAAN5Ioi6R9Y432.jpg)
![《大數(shù)據(jù)導(dǎo)論》課件-3數(shù)據(jù)采集介紹_第2頁](http://file4.renrendoc.com/view9/M02/14/04/wKhkGWdS2aWAJ-hbAAN5Ioi6R9Y4322.jpg)
![《大數(shù)據(jù)導(dǎo)論》課件-3數(shù)據(jù)采集介紹_第3頁](http://file4.renrendoc.com/view9/M02/14/04/wKhkGWdS2aWAJ-hbAAN5Ioi6R9Y4323.jpg)
![《大數(shù)據(jù)導(dǎo)論》課件-3數(shù)據(jù)采集介紹_第4頁](http://file4.renrendoc.com/view9/M02/14/04/wKhkGWdS2aWAJ-hbAAN5Ioi6R9Y4324.jpg)
![《大數(shù)據(jù)導(dǎo)論》課件-3數(shù)據(jù)采集介紹_第5頁](http://file4.renrendoc.com/view9/M02/14/04/wKhkGWdS2aWAJ-hbAAN5Ioi6R9Y4325.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大數(shù)據(jù)導(dǎo)論數(shù)
據(jù)
采
集數(shù)據(jù)采集概述目錄01采集技術(shù)概述
02采集的特點
03采集的數(shù)據(jù)類型
04采集的范圍
05采集的流程
數(shù)據(jù)采集又稱數(shù)據(jù)獲取,是利用一種程序或裝置從系統(tǒng)外部采集數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終輸入到存儲系統(tǒng)中的一種過程。c以大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能、5G為核心特征的數(shù)字化浪潮正席卷全球,隨著網(wǎng)絡(luò)和信息技術(shù)的不斷普及,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級增長。大約每兩年翻一番,這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當于之前產(chǎn)生的全部數(shù)據(jù)量。面對如此海量的數(shù)據(jù),與之相關(guān)的采集、存儲、分析等等環(huán)節(jié)產(chǎn)生了一系列的問題。如何收集有效的數(shù)據(jù)并且進行轉(zhuǎn)換分析存儲以及有效率的分析成為巨大的挑戰(zhàn)。數(shù)據(jù)采集概述數(shù)據(jù)采集技術(shù)FilebeatXPATH爬蟲原理正則表達式HTTPFluentdSyslogFlumeBeautifulSoupLogstash相關(guān)技術(shù)和工具數(shù)據(jù)采集的特點以自動化手段為主,擺脫人工錄入的方式自動化以全量采集和增量采集并存的方式,不對采集的數(shù)據(jù)進行采樣采集方式采集方式多樣化、內(nèi)容豐富化豐富多樣針對日志數(shù)據(jù)的采集,使用數(shù)據(jù)管道直達數(shù)據(jù)庫實時性高傳統(tǒng)的數(shù)據(jù)采集來源單一,且存儲、管理和分析數(shù)據(jù)量也相對較小,大多采用關(guān)系型數(shù)據(jù)庫和并行數(shù)據(jù)倉庫即可處理。在依靠并行計算提升數(shù)據(jù)處理速度方面,傳統(tǒng)的并行數(shù)據(jù)庫技術(shù)追求的是高度一致性和容錯性,從而難以保證其可用性和擴展性。數(shù)據(jù)采集的數(shù)據(jù)類型結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)具有固定格式或有限長度的數(shù)據(jù)
。例如:數(shù)據(jù)庫,元數(shù)據(jù)等。非關(guān)系模型的、有基本固定結(jié)構(gòu)模式的數(shù)據(jù)。例如:日志文件、XML文檔、JSON文檔、Email等。數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型。例如:所有格式的辦公文檔、文本、圖片、HTML、各類報表、圖像和音頻/視頻信息等等。采集的范圍數(shù)據(jù)庫數(shù)據(jù)互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)系統(tǒng)日志數(shù)據(jù)內(nèi)部業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫企業(yè)內(nèi)部的各個獨立的業(yè)務(wù)系統(tǒng),在各類數(shù)據(jù)庫中存儲了大量的數(shù)據(jù)互聯(lián)網(wǎng)對外公開內(nèi)容
凡是可以通過瀏覽器或者移動APP公開訪問的互聯(lián)網(wǎng)內(nèi)容操作系統(tǒng)及業(yè)務(wù)系統(tǒng)日志自身操作系統(tǒng)或者自有業(yè)務(wù)系統(tǒng)的日常日志記錄數(shù)據(jù)互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)系統(tǒng)日志數(shù)據(jù)網(wǎng)絡(luò)設(shè)備日志網(wǎng)絡(luò)設(shè)備記錄的訪問日志、流量日志、攻擊日志等等設(shè)備狀態(tài)數(shù)據(jù)分布式運算框架物聯(lián)網(wǎng)感知設(shè)備數(shù)據(jù)
物聯(lián)網(wǎng)的感知層設(shè)備采集的各類傳感數(shù)據(jù)采集的流程不同的數(shù)據(jù)對象,其采集流程不盡相同,這里僅介紹網(wǎng)頁內(nèi)容采集流程及系統(tǒng)日志的采集流程。網(wǎng)頁爬取的采集流程系統(tǒng)日志的采集流程網(wǎng)頁爬取的采集流程分析采集對象構(gòu)建采集請求獲取響應(yīng)內(nèi)容針對一個網(wǎng)頁,需要分析其網(wǎng)頁結(jié)構(gòu),明確要采集的對象清單,采集清單相關(guān)法律法規(guī)評估,同時確定目標數(shù)據(jù)是否在同一個頁面中。通過HTTP協(xié)議向目標站點發(fā)起請求,也就是發(fā)送一個Request,請求可以包含額外的header等信息,等待服務(wù)器響應(yīng)如果服務(wù)器能正常響應(yīng),會得到一個Response,Response的內(nèi)容便是所要獲取的頁面內(nèi)容,類型可能是HTML,Json字符串,二進制數(shù)據(jù)(圖片或者視頻)等類型過濾解析內(nèi)容存儲采集數(shù)據(jù)保存形式多樣,可以存為文本,也可以保存到數(shù)據(jù)庫,或者保存特定格式的文件,如果是海量數(shù)據(jù),則可以存儲到HDFS文件系統(tǒng)或者HIVE數(shù)據(jù)庫中。得到的內(nèi)容可能是HTML文本,可以用正則表達式、BeautifulSoup、XPath進行解析,可能是Json,可以直接轉(zhuǎn)換為Json對象解析,可能是二進制數(shù)據(jù),可以做保存或者進一步的處理系統(tǒng)日志的采集流程STEP1分析日志規(guī)模及實時性,選擇適合的日志采集工具。STEP2確定數(shù)據(jù)采集的輸入端、輸出端。STEP3配置日志采集器文件,明確
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 助產(chǎn)師復(fù)習(xí)試題含答案
- 2025年度智能電網(wǎng)規(guī)劃設(shè)計合同
- 醫(yī)保協(xié)議合同范本
- 農(nóng)村硅藻泥采購合同范本
- 儀器 借用合同范本
- cng纏繞氣瓶合同范本
- 2024年半導(dǎo)體分立器件項目評估報告
- 北京辦公裝修合同范本
- 樓地面找平工程合同范本
- 會議室使用合同范本
- 杭州市淳安縣國有企業(yè)招聘筆試真題2024
- 2024政府采購評審專家考試真題庫及答案
- 2025年道路貨運駕駛員從業(yè)資格證模擬考試題
- 數(shù)學(xué)-安徽省皖南八校2025屆高三上學(xué)期12月第二次大聯(lián)考試題和答案
- 退市新規(guī)解讀-上海證券交易所、大同證券
- 融資報告范文模板
- 桃李面包盈利能力探析案例11000字
- GB/Z 30966.71-2024風(fēng)能發(fā)電系統(tǒng)風(fēng)力發(fā)電場監(jiān)控系統(tǒng)通信第71部分:配置描述語言
- 腦梗死的護理查房
- 2025高考數(shù)學(xué)專項復(fù)習(xí):概率與統(tǒng)計的綜合應(yīng)用(十八大題型)含答案
- 2024-2030年中國紫蘇市場深度局勢分析及未來5發(fā)展趨勢報告
評論
0/150
提交評論