




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
公眾號(hào)文章信息采集公眾號(hào)文章信息的采集
本實(shí)例主要采集公眾號(hào)內(nèi)的所有文章信息,如圖所示。通過搜索“讀悅文摘”公眾號(hào),采集公眾號(hào)內(nèi)的所有文章,要求使用提取數(shù)據(jù)的“自定義數(shù)據(jù)合并方式”保留文章格式,文章圖片位置轉(zhuǎn)化為圖片鏈接保存,并且在鏈接前加“<img>”標(biāo)簽,后加“</img>”標(biāo)簽。采集字段為文章標(biāo)題、文章正文、采集時(shí)間及頁(yè)面網(wǎng)址。步驟1:新建自定義采集任務(wù)
輸入公眾號(hào)名稱。單擊網(wǎng)頁(yè)界面中的輸入框,在“操作提示”面板中單擊“輸入文字”選項(xiàng),輸入公眾號(hào)名稱“讀悅文摘”,單擊“確定”按鈕。步驟2:輸入實(shí)例網(wǎng)址并保存網(wǎng)址步驟3公眾號(hào)文章信息的采集步驟4
單擊搜公眾號(hào)。單擊網(wǎng)頁(yè)界面中的“搜公眾號(hào)”按鈕,在“操作提示”面板中單擊“點(diǎn)擊該按鈕”選項(xiàng)。公眾號(hào)文章信息的采集步驟5
單擊進(jìn)入公眾號(hào)。單擊網(wǎng)頁(yè)界面中的“讀悅文摘”公眾號(hào)標(biāo)題,并在“操作提示”面板中單擊“點(diǎn)擊該元素”選項(xiàng)。步驟6
循環(huán)單擊商品標(biāo)題。連續(xù)單擊兩個(gè)文章標(biāo)題,八爪魚采集器會(huì)選中所有標(biāo)題,在“操作提示”面板中單擊“循環(huán)點(diǎn)擊每個(gè)元素”選項(xiàng)。公眾號(hào)文章信息的采集步驟7
提取標(biāo)題。單擊網(wǎng)頁(yè)界面中的文章標(biāo)題,在“操作提示”面板中單擊“采集該元素的文本”選項(xiàng),修改字段名稱為“文章標(biāo)題”,單擊“確定”按鈕。公眾號(hào)文章信息的采集步驟8
建立文章內(nèi)容循環(huán)。為了保留文章原格式,需要對(duì)文章每一段內(nèi)容單獨(dú)提取,然后追加至一個(gè)字段內(nèi)容。從流程圖左側(cè)的工具欄中拖動(dòng)一個(gè)循環(huán)放入指定位置,選中“不固定元素列表”單選項(xiàng),如圖所示。在下方的“不固定元素列表”文本框中輸入對(duì)應(yīng)XPath來匹配文章的每一段內(nèi)容。本實(shí)例的XPath為“//div[@class="rich_media_content"]//p”。公眾號(hào)文章信息的采集步驟9
判斷每段內(nèi)容是否為圖片。數(shù)據(jù)采集需要將文章內(nèi)的圖片保存為鏈接,可使用判斷條件來判斷每段內(nèi)容是否為圖片。添加判斷條件如圖所示。從流程圖左側(cè)的工具欄中拖動(dòng)判斷條件放入指定位置,在左側(cè)的條件分支中選擇當(dāng)前循環(huán)項(xiàng)包含元素,然后在“元素XPath”文本框中輸入“//img”,單擊“確定”按鈕進(jìn)行保存。公眾號(hào)文章信息的采集步驟10
配置圖片提取數(shù)據(jù)。圖片的提取內(nèi)容為圖片鏈接,并且需要進(jìn)行字段內(nèi)容的格式化,添加前綴“<img>”和后綴“</img>”。單擊文章內(nèi)的任一圖片,在“操作提示”面板中單擊“采集該圖片地址”選項(xiàng),如上圖所示。將“提取數(shù)據(jù)”模塊拖動(dòng)至左側(cè)的條件分支中,并修改“字段名稱”為文章內(nèi)容,在“高級(jí)選項(xiàng)”區(qū)域中設(shè)置“使用循環(huán)”,這里選中“采集當(dāng)前循環(huán)中設(shè)置的元素”復(fù)選框,如下圖所示。公眾號(hào)文章信息的采集步驟10
要修改“提取數(shù)據(jù)”模塊的自定義元素方式,首先選中文章內(nèi)容字段,待字段變藍(lán)后單擊下方的“自定義數(shù)據(jù)字段”按鈕,然后選擇“自定義定位元素方式”選項(xiàng),在打開的界面中選中“相對(duì)XPath”復(fù)選框,在右側(cè)的文本框中輸入“//img”,最后單擊“確定”按鈕進(jìn)行保存,如上圖所示。單擊“自定義數(shù)據(jù)字段”按鈕,選擇“格式化數(shù)據(jù)”選項(xiàng),在打開的界面中單擊“添加步驟”按鈕,選擇“添加前綴”選項(xiàng),輸入前綴內(nèi)容“<img>”后單擊“確定”按鈕,如下圖所示。添加后綴的方法和添加前綴的方法類似,選擇“添加后綴”選項(xiàng),輸入后綴內(nèi)容“</img>”。公眾號(hào)文章信息的采集步驟11
正文文本采集。單擊文字部分進(jìn)行提取,拖動(dòng)“提取數(shù)據(jù)”模塊至右側(cè)的分支條件中,無須修改分支內(nèi)容,修改“字段名稱”為“文章內(nèi)容”,在彈出的提示框中詢問已存在同名字段是否繼續(xù)進(jìn)行命名操作,單擊“是”按鈕,選中“采集當(dāng)前循環(huán)中設(shè)置的元素”復(fù)選框。選中文章內(nèi)容字段,待字段變藍(lán)后單擊“自定義數(shù)據(jù)字段”按鈕,然后選擇“自定義定位元素方式”選項(xiàng),在打開的界面中選中“相對(duì)XPath”復(fù)選框。公眾號(hào)文章信息的采集步驟12
修改自定義數(shù)據(jù)合并方式。分別單擊兩側(cè)“提取數(shù)據(jù)”模塊中的文章內(nèi)容字段,單擊下方的“自定義數(shù)據(jù)字段”按鈕,選擇“自定義數(shù)據(jù)合并方式”選項(xiàng),然后選中“同一字段多次提取合并為一行,即追加到同一字段。例如正文頁(yè)合并?!眴芜x項(xiàng),單擊“確定”按鈕。公眾號(hào)文章信息的采集步驟
13
啟動(dòng)本地采集。單擊“開始采集”按鈕,單擊“啟動(dòng)本地采集”按鈕。公眾號(hào)文章信息的采集步驟
14
導(dǎo)出數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 鐵路客車、敞車車身行業(yè)跨境出海戰(zhàn)略研究報(bào)告
- 個(gè)人建房建設(shè)合同樣本
- 企業(yè)退稅服務(wù)合同范例
- 買車押金合同樣本
- 公司板材采購(gòu)合同標(biāo)準(zhǔn)文本
- 共同采購(gòu)合同樣本
- 冷庫(kù)拆卸工程合同標(biāo)準(zhǔn)文本
- 便利店招工合同樣本
- 出租空地合同范例
- 冷凍雞爪供貨合同標(biāo)準(zhǔn)文本
- 2025【英文合同】授權(quán)代理合同英文范本
- 山東省名校聯(lián)盟2024-2025學(xué)年高一3月校際聯(lián)考英語(yǔ)試題(原卷版+解析版)
- 數(shù)據(jù)庫(kù)應(yīng)用技術(shù)-第三次形考作業(yè)(第10章~第11章)-國(guó)開-參考資料
- 湖南2025屆新高考教學(xué)教研聯(lián)盟(長(zhǎng)郡二十校)高三第二次預(yù)熱演練數(shù)學(xué)試題(含答案)
- 元朝的建立與統(tǒng)一課件 2024-2025學(xué)年統(tǒng)編版七年級(jí)歷史下冊(cè)
- 8個(gè)事故案例13個(gè)警示視頻文字完善篇(礦山局迎檢資料)
- 國(guó)旗下講話第三周校長(zhǎng)講話稿:以習(xí)慣鑄舟楫 以品格揚(yáng)云帆-讓成長(zhǎng)在堅(jiān)守中綻放華章
- 三門峽水庫(kù)實(shí)習(xí)報(bào)告
- Unit 3 Diverse Cultures Reading and Thinking (說課稿)高一英語(yǔ)同步高效課堂(人教版2019必修第三冊(cè))001
- 2023年小學(xué)科學(xué)實(shí)驗(yàn)知識(shí)競(jìng)賽試題庫(kù)含答案
- 價(jià)值共創(chuàng)理論形成路徑探析與未來研究展望
評(píng)論
0/150
提交評(píng)論