火車頭采集步驟和數(shù)據(jù)導(dǎo)出詳解PPT_第1頁
火車頭采集步驟和數(shù)據(jù)導(dǎo)出詳解PPT_第2頁
火車頭采集步驟和數(shù)據(jù)導(dǎo)出詳解PPT_第3頁
火車頭采集步驟和數(shù)據(jù)導(dǎo)出詳解PPT_第4頁
火車頭采集步驟和數(shù)據(jù)導(dǎo)出詳解PPT_第5頁
已閱讀5頁,還剩21頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、火車頭采集 1、什么是采集源?、什么是采集源? 2、認(rèn)識(shí)火車頭采集工具、認(rèn)識(shí)火車頭采集工具 3、火車頭采集工具的使用方法、火車頭采集工具的使用方法 4、數(shù)據(jù)導(dǎo)出與處理、數(shù)據(jù)導(dǎo)出與處理一些網(wǎng)站有大量的文章、圖片、郵箱等信息,對(duì)我們來說是一種資源,我們可以利用工具將這些資源采集回來,為我們所用。這樣的網(wǎng)站,就是采集源。1、采集的目標(biāo)頁面,不需要登錄即可訪問;2、采集的內(nèi)容列表頁面url跟隨一定的規(guī)律改變;3、該網(wǎng)站不屏蔽不干擾采集器的工作。火車采集器,是目前使用人數(shù)最多的互聯(lián)網(wǎng)數(shù)據(jù)抓取、處理、分析,挖掘軟件。軟件憑借其靈活 的配置與強(qiáng)大的性能領(lǐng)先國(guó)內(nèi)數(shù)據(jù)采集類產(chǎn)品。使用火車采集器,你可以建立一個(gè)擁

2、有龐大內(nèi)容的網(wǎng)站?;疖嚥杉魅绾稳プト?shù)據(jù),取決于您的規(guī)則。要獲取內(nèi)容頁的內(nèi)容,首先需要先將這個(gè)網(wǎng)頁的網(wǎng)址采下來,這就是采網(wǎng)址。程序按規(guī)則抓取列表頁里的內(nèi)容頁url。再根據(jù)您的采集規(guī)則,將,將標(biāo)題內(nèi)容等信息分離開來并保存下來。如果選擇了下載圖片,程序會(huì)對(duì)采集到的數(shù)據(jù)進(jìn)行分析,找出圖片的下載地址并將圖片下載到本地。3.1 打開火車頭工具,單擊左側(cè)空白處,根據(jù)需要新建分組3.2 右擊剛才建立好的分組,新建采集任務(wù),并填寫好任務(wù)名稱3.3 填寫批量采集網(wǎng)址規(guī)則,注意先分析目標(biāo)列表頁url規(guī)則3.4 設(shè)置“多級(jí)網(wǎng)址獲取”規(guī)則3.4 設(shè)置“多級(jí)網(wǎng)址獲取”規(guī)則,并測(cè)試設(shè)置好的規(guī)則是否生效3.5 校驗(yàn)設(shè)置好

3、的規(guī)則是否生效,如果生效,則返回修改設(shè)置;如果得到的結(jié)果不正確,也需要返回修改設(shè)置(重新分析采集范圍是否正確,一直校驗(yàn)到是我們需要的結(jié)果)3.6 返回修改采集的項(xiàng)數(shù),并且記得點(diǎn)擊“添加”和“完成”3.7 進(jìn)入到第二步“采集內(nèi)容規(guī)則”采集文章的標(biāo)題采集文章的標(biāo)題,選中“標(biāo)題”,點(diǎn)擊左側(cè)的修改,選擇“前后截取”,將文章標(biāo)題的html區(qū)域填寫完整,右側(cè)“典型頁面”填寫一條內(nèi)容頁url,以供隨時(shí)測(cè)試。3.8 采集文章的“摘要”3.9 采集文章的“標(biāo)簽”3.10 采集文章的“內(nèi)容”填寫內(nèi)容所在區(qū)間的html標(biāo)簽,添加數(shù)據(jù)處理,勾選“下載圖片”并填寫文件保存目錄和格式,最后點(diǎn)擊確定。3.11 保存設(shè)置好的

4、采集任務(wù)3.12 開始采集任務(wù)我們會(huì)看到,右側(cè)任務(wù)運(yùn)行的狀況,一切正常4、數(shù)據(jù)導(dǎo)出與處理采集到的數(shù)據(jù),需要用Accesss軟件才能處理,因此,如果我們的電腦沒有這個(gè)軟件,則需要先安裝Access軟件。4.1、安裝Access4.2、選中已經(jīng)采集完成的任務(wù),并右擊出現(xiàn)下拉菜單后,打開Data下任務(wù)文件夾,出現(xiàn)第二個(gè)截圖以.mdb擴(kuò)展名的文件。4.3、雙擊打開.mdb擴(kuò)展名的文件,此時(shí)由于已經(jīng)安裝了Access,辦公軟件已經(jīng)能正確識(shí)別.mdb文件,打開結(jié)果如下:4.4、已經(jīng)能用Excel打開采集到的文章內(nèi)容之后,就可以利用Excel對(duì)數(shù)據(jù)進(jìn)行批量處理,比如批量添加文章的發(fā)布時(shí)間、批量替換文字、批量修改圖片路徑等等。比如:在Excel表格里,按Ctrl+F,出現(xiàn)的對(duì)話框中選擇“替換”,填寫好需要替換的文字,即可對(duì)采集到的內(nèi)容進(jìn)行批量替換文字。4.1、安裝Access選中Excel表格的“內(nèi)容”列,用查找功能,將圖片路徑“1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論