《各平臺(tái)數(shù)據(jù)采集及方法》課件-競(jìng)品數(shù)據(jù)采集_第1頁
《各平臺(tái)數(shù)據(jù)采集及方法》課件-競(jìng)品數(shù)據(jù)采集_第2頁
《各平臺(tái)數(shù)據(jù)采集及方法》課件-競(jìng)品數(shù)據(jù)采集_第3頁
《各平臺(tái)數(shù)據(jù)采集及方法》課件-競(jìng)品數(shù)據(jù)采集_第4頁
《各平臺(tái)數(shù)據(jù)采集及方法》課件-競(jìng)品數(shù)據(jù)采集_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

競(jìng)品數(shù)據(jù)采集競(jìng)品數(shù)據(jù)的采集

本實(shí)例要求采集“京東”網(wǎng)站上所有標(biāo)題含有華為、小米的手機(jī)信息,需要的字段內(nèi)容包括標(biāo)題、價(jià)格、關(guān)鍵詞、規(guī)格參數(shù)及頁面網(wǎng)址。競(jìng)品數(shù)據(jù)的采集步驟1:新建自定義采集任務(wù)

翻頁設(shè)置。在自定義采集模式下的瀏覽器窗口中對(duì)網(wǎng)頁進(jìn)行翻頁操作,直至出現(xiàn)“下一頁”按鈕,單擊該按鈕,在“操作提示”面板中單擊“循環(huán)點(diǎn)擊下一頁”選項(xiàng),如圖所示。對(duì)網(wǎng)頁進(jìn)行翻頁操作過程中,系統(tǒng)會(huì)自動(dòng)設(shè)置“Ajax超時(shí)”選項(xiàng)。步驟2:輸入實(shí)例網(wǎng)址并保存網(wǎng)址步驟3競(jìng)品數(shù)據(jù)的采集步驟4

詳情頁設(shè)置。單擊進(jìn)入詳情頁設(shè)置界面,在瀏覽器窗口中確定商品全部加載完,連續(xù)單擊兩個(gè)商品標(biāo)題,確定所有標(biāo)題均被選中,單擊“操作提示”面板中的“循環(huán)點(diǎn)擊每個(gè)元素”選項(xiàng),在上方的流程圖中出現(xiàn)循環(huán)框和“點(diǎn)擊元素”模塊。競(jìng)品數(shù)據(jù)的采集步驟5

設(shè)置品牌篩選。將左側(cè)工具欄中的“判斷條件”拖至循環(huán)框中的“點(diǎn)擊元素”模塊內(nèi),再將“點(diǎn)擊元素”模塊拖至左側(cè)判斷框內(nèi),單擊選中左側(cè)判斷框,使其被虛框包圍。在右側(cè)的選項(xiàng)區(qū)域中修改執(zhí)行分支方式為“當(dāng)前循環(huán)項(xiàng)包含文本”,在“包含文本”文本框中輸入華為。競(jìng)品數(shù)據(jù)的采集步驟6

提取數(shù)據(jù)。單擊需要提取的標(biāo)題,在“操作提示”面板中單擊“采集該元素的文本”選項(xiàng),可在流程圖中出現(xiàn)“提取數(shù)據(jù)”模塊,按照同樣的方法分別提取價(jià)格、規(guī)格參數(shù)等信息。單擊“添加特殊字段”按鈕,在下拉列表中選擇“添加固定字段”選項(xiàng),在輸入框中輸入華為,單擊“確定”按鈕。再次單擊“添加特殊字段”按鈕,選擇“添加當(dāng)前網(wǎng)頁信息”選項(xiàng),選擇頁面網(wǎng)址。修改“字段名稱”為標(biāo)題、價(jià)格、關(guān)鍵詞、規(guī)格參數(shù)和頁面網(wǎng)址。競(jìng)品數(shù)據(jù)的采集步驟7

增加小米品牌篩選。單擊左側(cè)篩選框,使其被虛框包圍,單擊鼠標(biāo)右鍵,在彈出的快捷菜單中選擇“復(fù)制”命令。單擊選擇“判斷條件”模塊,單擊鼠標(biāo)右鍵,在彈出的快捷菜單中選擇“粘貼”命令,在出現(xiàn)的篩選框上按住鼠標(biāo)左鍵拖動(dòng)至“判斷條件”模塊下方正中的位置,最后選中該篩選框,修改右側(cè)的“包含文本”為小米。競(jìng)品數(shù)據(jù)的采集步驟8

修改提取數(shù)據(jù)關(guān)鍵詞字段名稱。單擊第二個(gè)篩選框中的“提取數(shù)據(jù)”模塊,直至其被虛框包圍,選擇右側(cè)的“關(guān)鍵詞”字段,直至其變?yōu)樗{(lán)色,單擊下方的“刪除數(shù)據(jù)字段”按鈕進(jìn)行刪除,如上圖所示。刪除該字段是為了添加其他關(guān)鍵詞。單擊“添加特殊字段”按鈕,選擇“添加固定字段”選項(xiàng),在輸入框中輸入小米,單擊“確定”按鈕,修改上方“字段名稱”為關(guān)鍵詞,因?yàn)橹虚g的篩選框篩選條件為小米,所以這里修改關(guān)鍵詞為小米,如下圖所示。競(jìng)品數(shù)據(jù)的采集步驟9

開始采集。單擊左上方的“開始采集”按鈕,在彈出的“運(yùn)行任務(wù)”對(duì)話框中單擊“啟動(dòng)本地采集”按鈕進(jìn)行采集。競(jìng)品數(shù)據(jù)的采集步驟10

導(dǎo)出數(shù)據(jù)。數(shù)據(jù)采集完成后,單擊右下方的“導(dǎo)出數(shù)據(jù)”按鈕,在彈出的“導(dǎo)出本地?cái)?shù)據(jù)”對(duì)話框中選擇需要的導(dǎo)出方式,然后單擊“確定”按鈕,即可選擇文件存放位置,完成數(shù)據(jù)導(dǎo)出。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論