2023學年完整公開課版數據采集2_第1頁
2023學年完整公開課版數據采集2_第2頁
2023學年完整公開課版數據采集2_第3頁
2023學年完整公開課版數據采集2_第4頁
2023學年完整公開課版數據采集2_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

金華職業(yè)技術學院商務數據分析與應用綜合實訓直析主講教師:黃琪雯任務一數據采集

1.1數據采集技術要點1.2數據采集工具01020102(1)企業(yè)內部數據庫如今的商業(yè)公司都有自己的業(yè)務數據庫,存放公司日常經營中產生的相關業(yè)務數據,這個龐大的業(yè)務數據庫就是企業(yè)最直接的數據資源,需要充分地挖掘其中的價值,高效地利用起來。(2)公開出版物與公開數據集有許多官方機構發(fā)布的公開出版物如《中國統(tǒng)計年鑒》《世界經濟年鑒》具有較強的權威性和完整性。在如今的信息化時代還有其他的外部公開數據集,如GoogleDataset,阿里研究院數據集,企鵝智庫,百度指數等等。1.1數據采集技術要點一、數據采集來源0304(3)互聯(lián)網網站隨著互聯(lián)網的發(fā)展,網絡世界已經發(fā)布并積累了海量的數據,例如行業(yè)組織網站、政府機構網站、傳播媒體網站、大型綜合門戶網站等上面都可能有我們需要的數據,包含了財經、房產、輿情、新媒體等方方面面,借助搜索引擎就可以幫助我們快速找到所需要的數據。(4)市場調研有時在進行數據分析時,需要了解用戶的想法與需求,可以嘗試使用市場調查的方法收集用戶的想法和需求數據,有目的、有系統(tǒng)地收集、記錄、整理有關市場營銷的信息和資料,分析市場情況,了解市場現(xiàn)狀及其發(fā)展趨勢,為市場預測和決策提供客觀、準確的數據資料。1.1數據采集技術要點1.1數據采集技術要點

二、數據采集的方式(1)傳感器采集傳感器監(jiān)測早在工業(yè)時代的開始就廣泛應用于數據采集的過程中,如今主要應用于發(fā)展得如火如荼的物聯(lián)網(IoT)領域。通過溫濕度傳感器、氣體傳感器、視頻傳感器等外部硬件設備與系統(tǒng)進行通信,被采集數據是已被轉換為電訊號的各種物理量,如溫度、水位、風速、壓力等,可以是模擬量,也可以是數字量。(2)搜索引擎網絡世界已經積累了龐大的數據量,隨著人們在互聯(lián)網世界生產實踐的經驗不斷豐富,搜索引擎應運而生。從谷歌到百度、必應,方便快捷的搜索引擎成為了人們獲取信息的主要途徑,搜索引擎也隨著技術的發(fā)展能夠滿足人們日常使用的基本需求。善用各種搜索引擎,可以在繁雜的網絡世界中搜集到許多有價值的數據。(1)網絡爬蟲隨著網絡資源的不斷增長,用戶的個性化、定制化、專業(yè)化的數據需求不斷增多,對于獲取數據的體量、精確程度、速度與實效性都有了更高的要求,搜索引擎已經難以完全滿足用戶對于數據采集的需求,網絡爬蟲技術得到了蓬勃的發(fā)展。網絡爬蟲又稱作網絡機器人,它是一種自動化程序,向網站或網絡發(fā)起請求,得到響應后獲取資源內容,并且進行解析,進而提取出目標數據進行保存。(2)API接口API,英文全稱ApplicationProgrammingInterface,即“應用程序編程接口”。API是一些預先定義的函數,最初目的是提供應用程序與開發(fā)人員在內部進行數據交互的功能,如今互聯(lián)網中有許多開放的API,以URL的形式呈現(xiàn),可以直接訪問獲得某些網站和平臺的數據。1.1數據采集技術要點

1.2數據采集工具

一、云爬蟲平臺云爬蟲就是無需下載安裝軟件,直接在網頁上創(chuàng)建爬蟲并在網站服務器運行,享用網站提供的帶寬和24小時服務。目前國內有以下幾個主流的云爬蟲平臺:1.神箭手云爬蟲神箭手云爬蟲是一個大數據應用開發(fā)平臺,為開發(fā)者提供成套的數據采集、數據分析和機器學習開發(fā)工具,為企業(yè)提供專業(yè)化的數據抓取、數據實時監(jiān)控和數據分析服務。功能強大,涉及云爬蟲、API、機器學習、數據清洗、數據出售、數據訂制和私有化部署等。2.八爪魚云爬蟲八爪魚數據采集系統(tǒng)以完全自主研發(fā)的分布式云計算平臺為核心,可以在很短的時間內,輕松從各種不同的網站或者網頁獲取大量的規(guī)范化數據,幫助任何需要從網頁獲取信息的客戶實現(xiàn)數據自動化采集,編輯,規(guī)范化,擺脫對人工搜索及收集數據的依賴,從而降低獲取信息的成本,提高效率。采集任務自動分配到云端多臺服務器同時執(zhí)行,提高采集效率,可以很短的時間內獲取成千上萬條信息。1.2數據采集工具

GooSeeker的優(yōu)點在于其通用性,對于簡單網站,其定義好規(guī)則,獲取xslt文件后,爬蟲代碼幾乎不需要修改,可結合scrapy使用,提高爬取速度。用鼠標點選就能采集數據,不需要技術基礎。爬蟲群并發(fā)抓取海量網頁,適合大數據場景。無論動態(tài)或靜態(tài)網頁,ajax和html都可以采集,文本和圖片一站采集,無需單獨使用圖片采集工具。3.集搜客GooSeeker01MarketsEXISITNGNEWEXISITNG(1)火車頭采集器火車頭是國內發(fā)展較早的網頁數據采集器,是目前使用人數最多的互聯(lián)網數據抓取、處理、分析,挖掘本地采集器。它的優(yōu)勢是采集不限網頁,不限內容,同時還是分布式采集,效率較高。缺點是對普通用戶不是很友好,有一定的知識門檻(了解如網頁相關知識、HTTP協(xié)議等方面知識),而且熟悉工具操作有一定的學習成本。(2)后裔采集器后羿采集器是由前谷歌搜索技術團隊基于人工智能技術研發(fā)的新一代網頁采集軟件,使用了機器學習、自然語言處理等方式進行智能化采集,采用本地自動化采集的方式,支持對數據進行清洗、過濾等,同時支持Windows、Mac和Linux全操作系統(tǒng),支持智能采集以及流程圖采集兩種模式,90%多的網頁數據都可采集到,功能十分完備。1.2數據采集工具02二、本地采集器1.2數據采集工具

使用基于第三方平臺的工具,雖然具有便捷易用的特點,然而作為單一的工具平臺,當系統(tǒng)的功能需要靈活擴展、性能需要提高時,第三方平臺的效率仍然不如編程開發(fā),因此,作為數據分析相關專業(yè)的學生,掌握一定的網絡爬蟲編程開發(fā)能力,是必不可少的,需要掌握Python等編程語言及其環(huán)境配置,軟件使用等等。網絡爬蟲的基本工作流程與人為使用瀏覽器的工作原理相似,包括了對請求Request和響應Response的處理。打開一個網頁時,都將目標URL、請求頭信息、Cookies緩存信息等包裝成為Request請求,發(fā)送到對應的IP地址,網頁服務端接收并處理后,網絡爬蟲根據收到的Response響應,自動對響應狀態(tài)以及數據進行解析,不同之處在于瀏覽器將解析的結果臨時顯示在頁面上,而爬蟲則通常將結果進行數據庫存儲等持久化保存。網絡爬蟲通常有著定制化的工作流程,從而保證能夠持續(xù)穩(wěn)定地獲取數據,一個大型的網絡爬蟲系統(tǒng)需要多個模塊協(xié)同工作。三、網絡爬蟲編程1.2數據采集工具

1.配置模塊。此功能模塊主要用于保存用戶對于爬蟲系統(tǒng)進行的配置,例如隨機抓取的時間間隔,任務同時開啟的最大線程數量等。2.URL隊列模塊。此功能模塊主要對需要下載和已經下載過的URL進行識別,排除已經抓取過的頁面,維護一個URL隊列對任務順序進行調度。3.網頁下載模塊。此功能模塊的主要任務就是抓取網頁,根據URL查詢DNS服務器,再訪問對應

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論