商務(wù)數(shù)據(jù)分析與應(yīng)用實(shí)訓(xùn)教程 課件 項(xiàng)目10 數(shù)據(jù)采集_第1頁
商務(wù)數(shù)據(jù)分析與應(yīng)用實(shí)訓(xùn)教程 課件 項(xiàng)目10 數(shù)據(jù)采集_第2頁
商務(wù)數(shù)據(jù)分析與應(yīng)用實(shí)訓(xùn)教程 課件 項(xiàng)目10 數(shù)據(jù)采集_第3頁
商務(wù)數(shù)據(jù)分析與應(yīng)用實(shí)訓(xùn)教程 課件 項(xiàng)目10 數(shù)據(jù)采集_第4頁
商務(wù)數(shù)據(jù)分析與應(yīng)用實(shí)訓(xùn)教程 課件 項(xiàng)目10 數(shù)據(jù)采集_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

項(xiàng)目10數(shù)據(jù)采集場景描述數(shù)據(jù)是數(shù)據(jù)分析的基礎(chǔ),電商數(shù)據(jù)可以從多個(gè)渠道進(jìn)行獲取,如后臺的數(shù)據(jù)下載、生意參謀各模塊的數(shù)據(jù)下載、網(wǎng)頁數(shù)據(jù)采集等。學(xué)會如何在網(wǎng)頁中采集目標(biāo)數(shù)據(jù)是數(shù)據(jù)分析中不可或缺的一步。項(xiàng)目目標(biāo)通過Excel的PowerQuery采集網(wǎng)頁端的靜態(tài)和動態(tài)數(shù)據(jù)。項(xiàng)目任務(wù)分析維度數(shù)據(jù)采集任務(wù)1:靜態(tài)數(shù)據(jù)采集(一)如何使用PowerQuery數(shù)據(jù)清洗數(shù)據(jù)保存任務(wù)2:靜態(tài)數(shù)據(jù)采集(二)獲取靜態(tài)數(shù)據(jù)的url在PowerQuery中輸入公式及M函數(shù)數(shù)據(jù)清洗數(shù)據(jù)保存任務(wù)3:動態(tài)數(shù)據(jù)采集如何使用PowerQuery獲取動態(tài)數(shù)據(jù)的url在PowerQuery中輸入公式及M函數(shù)數(shù)據(jù)清洗數(shù)據(jù)保存分析思路判斷方式:復(fù)制部分目標(biāo)數(shù)據(jù),進(jìn)入網(wǎng)頁源代碼頁面,利用快速查找(Ctrl+F)功能確定是否能夠定位到目標(biāo)數(shù)據(jù),定位成功則目標(biāo)數(shù)據(jù)屬于靜態(tài)數(shù)據(jù),否則為動態(tài)數(shù)據(jù)。數(shù)據(jù)采集步驟判斷目標(biāo)數(shù)據(jù)是靜態(tài)數(shù)據(jù)還是動態(tài)數(shù)據(jù)采集目標(biāo)數(shù)據(jù)保存數(shù)據(jù)靜態(tài)數(shù)據(jù):在加載網(wǎng)頁時(shí),數(shù)據(jù)內(nèi)容就已經(jīng)存儲在網(wǎng)頁的源代碼中,可以直接從源代碼中提取出來。動態(tài)數(shù)據(jù):在網(wǎng)頁加載時(shí),并不會立即顯示出來,而是需要進(jìn)行一些特定的動作,如滑動鼠標(biāo)滾輪、點(diǎn)擊按鈕等,才會觸發(fā)加載動作,將數(shù)據(jù)動態(tài)地加載到網(wǎng)頁中。數(shù)據(jù)采集步驟判斷目標(biāo)數(shù)據(jù)是靜態(tài)數(shù)據(jù)還是動態(tài)數(shù)據(jù)采集目標(biāo)數(shù)據(jù)保存數(shù)據(jù)確定采集目標(biāo)的url:靜態(tài)數(shù)據(jù)的url與網(wǎng)址相同,而動態(tài)數(shù)據(jù)需要找到對應(yīng)加載包中請求頭頁面下的RequestURL。明確目標(biāo)所在位置:選中目標(biāo)數(shù)據(jù),鼠標(biāo)右擊選擇“檢查”,使用開發(fā)者工具(如瀏覽器的開發(fā)者工具)定位目標(biāo)數(shù)據(jù)在網(wǎng)頁中的位置,了解數(shù)據(jù)在網(wǎng)頁中的呈現(xiàn)方式、存儲形式。采集目標(biāo)數(shù)據(jù):編寫代碼,向網(wǎng)頁發(fā)送請求,針對網(wǎng)頁返回的內(nèi)容并提取目標(biāo)數(shù)據(jù)。將采集到的目標(biāo)數(shù)據(jù)以文件的形式存儲到本地電腦當(dāng)中,也可以存儲至云端數(shù)據(jù)庫。項(xiàng)目10數(shù)據(jù)采集任務(wù)1靜態(tài)數(shù)據(jù)采集(一)網(wǎng)址:/team/HOU.html(1)在NBA數(shù)據(jù)網(wǎng)頁上采集休斯敦火箭隊(duì)球員最新賽季的歷史數(shù)據(jù)。靜態(tài)數(shù)據(jù)采集(一)①利用Excel從“自網(wǎng)站”中獲取數(shù)據(jù)。②選擇目標(biāo)數(shù)據(jù)“Table0”表,點(diǎn)擊“編輯”進(jìn)入PowerQuery編輯器。(1)在NBA數(shù)據(jù)網(wǎng)頁上采集休斯敦火箭隊(duì)球員最新賽季的歷史數(shù)據(jù)。③刪除第一列空列。④篩選數(shù)據(jù)。將“總計(jì)”“全隊(duì)數(shù)據(jù)”“對手?jǐn)?shù)據(jù)”的勾去掉,只選擇需要的數(shù)據(jù)。靜態(tài)數(shù)據(jù)采集(一)(1)在NBA數(shù)據(jù)網(wǎng)頁上采集休斯敦火箭隊(duì)球員最新賽季的歷史數(shù)據(jù)。⑤關(guān)閉并上載數(shù)據(jù)。靜態(tài)數(shù)據(jù)采集(一)項(xiàng)目10數(shù)據(jù)采集任務(wù)2靜態(tài)數(shù)據(jù)采集(二)靜態(tài)數(shù)據(jù)采集(二)①選中數(shù)據(jù)中任一單元格,選擇“自表格/區(qū)域”,進(jìn)入PowerQuery編輯器。(1)通過設(shè)置URL規(guī)則,一次性對多個(gè)球隊(duì)的數(shù)據(jù)進(jìn)行采集。(1)通過設(shè)置URL規(guī)則,一次性對多個(gè)球隊(duì)的數(shù)據(jù)進(jìn)行采集。②添加自定義列,創(chuàng)建url。靜態(tài)數(shù)據(jù)采集(二)(1)通過設(shè)置URL規(guī)則,一次性對多個(gè)球隊(duì)的數(shù)據(jù)進(jìn)行采集。③再次添加自定義列。公式中的M函數(shù)說明:函數(shù)1:“Web.Page”是以網(wǎng)頁的方式加載數(shù)據(jù)。函數(shù)2:“Web.Contents”是將網(wǎng)頁以二進(jìn)制文件的格式下載。{0}[Data]是打開網(wǎng)頁中的第一張表格,也就是上一個(gè)采集的“Table0”。靜態(tài)數(shù)據(jù)采集(二)靜態(tài)數(shù)據(jù)采集(二)(1)通過設(shè)置URL規(guī)則,一次性對多個(gè)球隊(duì)的數(shù)據(jù)進(jìn)行采集。④展開table,空列可以直接取消勾選,并且取消勾選“使用原始列名作為前綴”復(fù)選框。⑤展開數(shù)據(jù)后,取消勾選“總計(jì)”“全隊(duì)數(shù)據(jù)”“對手?jǐn)?shù)據(jù)”復(fù)選框。⑥刪除不需要的列。⑦關(guān)閉并上載數(shù)據(jù)。靜態(tài)數(shù)據(jù)采集(二)(1)通過設(shè)置URL規(guī)則,一次性對多個(gè)球隊(duì)的數(shù)據(jù)進(jìn)行采集。項(xiàng)目10數(shù)據(jù)采集任務(wù)3動態(tài)數(shù)據(jù)采集網(wǎng)址:/team/HOU.html(1)在NBA數(shù)據(jù)網(wǎng)頁上采集不同球隊(duì)中不同球員的賽季比賽記錄。動態(tài)數(shù)據(jù)采集①F12進(jìn)入開發(fā)者模式NetWork(網(wǎng)絡(luò))界面,選擇不同年份賽季,此時(shí)右側(cè)的NetWork窗口的左側(cè)會新增文件鏈接,單擊該新增文件,在Preview窗口可查看文件內(nèi)容。②單擊“Headers”按鈕,從“Headers”窗口可以看到請求RequestURL:/team/stat_box_team.php?team=HOU&season=2017&col=pts&order=1&isseason=1。(1)在NBA數(shù)據(jù)網(wǎng)頁上采集不同球隊(duì)中不同球員的賽季比賽記錄。③將需要采集的球隊(duì)和年份數(shù)據(jù)作為參數(shù)導(dǎo)入采集過程。選擇“自表格/區(qū)域”選項(xiàng),將數(shù)據(jù)導(dǎo)入PowerQuery編輯器。④將年份的格式設(shè)置為文本,方便參數(shù)傳入U(xiǎn)RL中。動態(tài)數(shù)據(jù)采集(1)在NBA數(shù)據(jù)網(wǎng)頁上采集不同球隊(duì)中不同球員的賽季比賽記錄。⑤添加自定義列,創(chuàng)建目標(biāo)URL。動態(tài)數(shù)據(jù)采集⑥根據(jù)url下載文件,用自定義列實(shí)現(xiàn)。M函數(shù)說明:Text.FromBinary是將二進(jìn)制文件轉(zhuǎn)成文本,其語法結(jié)構(gòu)為:Text.FromBinary(binaryasnullablebinary,optionalencodingasnullablenumber)asnullabletext。本例使用該函數(shù)是為了解決亂碼問題,第二個(gè)參數(shù)65001表示UTF8編碼。動態(tài)數(shù)據(jù)采集(1)在NBA數(shù)據(jù)網(wǎng)頁上采集不同球隊(duì)中不同球員的賽季比賽記錄。⑦展

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論