火車頭采集器初學(xué)者入門教程ppt課件_第1頁
火車頭采集器初學(xué)者入門教程ppt課件_第2頁
火車頭采集器初學(xué)者入門教程ppt課件_第3頁
火車頭采集器初學(xué)者入門教程ppt課件_第4頁
火車頭采集器初學(xué)者入門教程ppt課件_第5頁
已閱讀5頁,還剩40頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、;n一、軟件下載n二、新建站點n 三、采集網(wǎng)址n 四、采集內(nèi)容n 五、其他功能;火車頭采集器官網(wǎng)地址為:火車頭采集器官網(wǎng)地址為:locoylocoy最新版本為最新版本為8.48.4,可以從官網(wǎng)下載到,下載地址:,可以從官網(wǎng)下載到,下載地址:files.locoy/v8/LocoySpider_V8.4_Build20190618.rarfiles.locoy/v8/LocoySpider_V8.4_Build20190618.rar如不會安裝如不會安裝apacheapache、mysqlmysql可以運用一鍵安裝軟件可以運用一鍵安裝軟件XAMPPXAMPP:big.softdl.360tpcd

2、n/xampp/xampp_1.8.3_5.exebig.softdl.360tpcdn/xampp/xampp_1.8.3_5.exe以下是本文中提到的其他一些軟件的下載地址:以下是本文中提到的其他一些軟件的下載地址: phpmyadmin phpmyadmin softdl.360tpcdn/phpMyAdmin/phpMyAdmin_4.2.11.zip softdl.360tpcdn/phpMyAdmin/phpMyAdmin_4.2.11.zip navicat for mysqlnavicat for mysql版版 cr173/soft/38153.html cr173/soft

3、/38153.html 軟件需求破解軟件需求破解注冊碼:注冊碼:NAVH-WK6A-DMVK-DKW3NAVH-WK6A-DMVK-DKW3稱號和組織不用填寫稱號和組織不用填寫;火車頭采集器有付費版和免費版,免費版根天性滿足需求。下面內(nèi)容是以免火車頭采集器有付費版和免費版,免費版根天性滿足需求。下面內(nèi)容是以免費版功能進(jìn)展的講解。費版功能進(jìn)展的講解。翻開火車頭軟件出現(xiàn)如何界面,由于運用的是免費版本,不用修正,點擊登翻開火車頭軟件出現(xiàn)如何界面,由于運用的是免費版本,不用修正,點擊登錄即可。錄即可。;翻開火車頭軟件,界面如以下圖:翻開火車頭軟件,界面如以下圖:;第一步:根據(jù)需求建立分組或義務(wù),義務(wù)需

4、求建立在分組之下如以下圖第一步:根據(jù)需求建立分組或義務(wù),義務(wù)需求建立在分組之下如以下圖;第二步:點擊第二步:點擊“新建站點后出現(xiàn)如下界面。填寫義務(wù)稱號新建站點后出現(xiàn)如下界面。填寫義務(wù)稱號;點擊起始網(wǎng)址區(qū)域右側(cè)點擊起始網(wǎng)址區(qū)域右側(cè)“添加按鈕后,根據(jù)需求選擇添加采集網(wǎng)址方式,這添加按鈕后,根據(jù)需求選擇添加采集網(wǎng)址方式,這里我們先選擇里我們先選擇“批量批量/ /多頁為例:多頁為例:;以抓取慧聰業(yè)界動態(tài)以抓取慧聰業(yè)界動態(tài)info.it.hc360/list/zx_yjdt.shtmlinfo.it.hc360/list/zx_yjdt.shtml為例:為例:經(jīng)過察看頁腳網(wǎng)址參數(shù)變化,可以看到下方網(wǎng)址中

5、標(biāo)紅部分?jǐn)?shù)字隨著頁數(shù)大小經(jīng)過察看頁腳網(wǎng)址參數(shù)變化,可以看到下方網(wǎng)址中標(biāo)紅部分?jǐn)?shù)字隨著頁數(shù)大小發(fā)生了變動,隨意復(fù)制其中一個網(wǎng)址,例如下方網(wǎng)址發(fā)生了變動,隨意復(fù)制其中一個網(wǎng)址,例如下方網(wǎng)址info.it.hc360/list/zx_yjdt-2.shtmlinfo.it.hc360/list/zx_yjdt-2.shtml;在地址格式中輸入剛剛復(fù)制的網(wǎng)址,框選中變動的數(shù)字,點擊右側(cè)的在地址格式中輸入剛剛復(fù)制的網(wǎng)址,框選中變動的數(shù)字,點擊右側(cè)的* *符號會自動輸入頁碼變動符號。符號會自動輸入頁碼變動符號。由于該網(wǎng)址采用數(shù)字等差數(shù)列,在由于該網(wǎng)址采用數(shù)字等差數(shù)列,在“等差數(shù)列右側(cè)首項輸入想要采集的等差

6、數(shù)列右側(cè)首項輸入想要采集的起始起始IDID頁數(shù),頁數(shù),“項數(shù)右側(cè)輸入一共要采集的數(shù)量,普通為最后頁碼數(shù)。項數(shù)右側(cè)輸入一共要采集的數(shù)量,普通為最后頁碼數(shù)。查看下方預(yù)覽區(qū)域中網(wǎng)址能否正確,如正確點擊查看下方預(yù)覽區(qū)域中網(wǎng)址能否正確,如正確點擊“添加添加- -完成按鈕。假完成按鈕。假設(shè)添加后發(fā)現(xiàn)有錯誤,可用鼠標(biāo)點擊完成下方的網(wǎng)址,選擇刪除即可。設(shè)添加后發(fā)現(xiàn)有錯誤,可用鼠標(biāo)點擊完成下方的網(wǎng)址,選擇刪除即可。;在在“單挑或多條網(wǎng)址區(qū)域下方輸入要采集的網(wǎng)址一行一個,點擊添單挑或多條網(wǎng)址區(qū)域下方輸入要采集的網(wǎng)址一行一個,點擊添加加“按鈕按鈕完成按鈕,完成添加。完成按鈕,完成添加。;有時我們知道要采集的網(wǎng)址,或

7、者有時用程序批量生成要采集的網(wǎng)址可以用有時我們知道要采集的網(wǎng)址,或者有時用程序批量生成要采集的網(wǎng)址可以用“文本導(dǎo)入功能。文本導(dǎo)入功能。下面是在文本編輯器中輸入范例中的部分網(wǎng)址的例如,接著我們把這部分網(wǎng)下面是在文本編輯器中輸入范例中的部分網(wǎng)址的例如,接著我們把這部分網(wǎng)址導(dǎo)入到火車頭采集器中,作為采集目的源。址導(dǎo)入到火車頭采集器中,作為采集目的源。;點擊點擊“閱讀按鈕,找到本人想要導(dǎo)入的文本文件,點閱讀按鈕,找到本人想要導(dǎo)入的文本文件,點“確定按鈕前往該確定按鈕前往該窗口,點擊窗口,點擊“添加添加- -完成按鈕完成添加義務(wù)。完成按鈕完成添加義務(wù)。;點擊“完成按鈕,那么出現(xiàn)以下類似界面,起始網(wǎng)址處可

8、以看到新添加的要采集的;假設(shè)要獲取的信息是在這個頁面中的鏈接,就需求設(shè)定“多級網(wǎng)址獲取。點擊“多級網(wǎng)址獲取右側(cè)的“添加按鈕。;為了更精準(zhǔn)獲取要采集的網(wǎng)址,會設(shè)定在頁面某區(qū)域中獲取相關(guān)網(wǎng)址。以第一頁為例,可以看到網(wǎng)址截取區(qū)域開場以及結(jié)尾頁面的內(nèi)容。網(wǎng)址截取區(qū)域開場網(wǎng)址截取區(qū)域結(jié)尾;查看頁面源代碼,我們以“業(yè)界動態(tài)快速定位到要抓取網(wǎng)址區(qū)域開場附近,經(jīng)過代碼分析,可以判別出標(biāo)紅區(qū)域中代碼為獨一代碼必需為獨一代碼,否那么抓取內(nèi)容會不準(zhǔn)確,標(biāo)志為開場內(nèi)容。同理可以獲取到頁尾代碼: ;1 1、從網(wǎng)頁自動分析得到地址鏈接:、從網(wǎng)頁自動分析得到地址鏈接:在方框內(nèi)輸入剛剛判別的截取區(qū)域開場和終了代碼,點擊在方框

9、內(nèi)輸入剛剛判別的截取區(qū)域開場和終了代碼,點擊“保管按鈕。如想保管按鈕。如想測試采集的網(wǎng)址效果,點擊右下角的測試采集的網(wǎng)址效果,點擊右下角的“測試網(wǎng)址采集。如確定信息正確點擊測試網(wǎng)址采集。如確定信息正確點擊“保管按鈕。保管按鈕。;2 2、手動填寫鏈接地址規(guī)那么:、手動填寫鏈接地址規(guī)那么:與與“從頁面自動分析獲得地址鏈接方式多了一塊功能區(qū)域。從頁面自動分析獲得地址鏈接方式多了一塊功能區(qū)域。從網(wǎng)頁源代碼中我們可以看到每篇文章的源代碼大體如下:從網(wǎng)頁源代碼中我們可以看到每篇文章的源代碼大體如下:O2O+O2O+會員營銷會員營銷, ,千億盛宴他預(yù)備好了嗎?千億盛宴他預(yù)備好了嗎? 11 11月月1010日

10、日 18:5418:54其中粗體紅色、藍(lán)色為變動值,框住網(wǎng)址部分,點右側(cè)的其中粗體紅色、藍(lán)色為變動值,框住網(wǎng)址部分,點右側(cè)的“參數(shù)參數(shù) 交換網(wǎng)址,交換網(wǎng)址,“實踐銜接處由于網(wǎng)址采用相對途徑,需求手工加上前面域名和途徑如鏈實踐銜接處由于網(wǎng)址采用相對途徑,需求手工加上前面域名和途徑如鏈接地址是完好的,可以忽略執(zhí)行這一步。其他變動信息用接地址是完好的,可以忽略執(zhí)行這一步。其他變動信息用( (* *) )交換掉。交換掉。頁面中能夠還有部分要采集的數(shù)據(jù),可以用頁面中能夠還有部分要采集的數(shù)據(jù),可以用“標(biāo)簽:標(biāo)簽:XXXXXX獲取,該內(nèi)容會獲取,該內(nèi)容會自動傳送到下一步的標(biāo)簽里,這里加過的標(biāo)簽不用出如今下一

11、步中。自動傳送到下一步的標(biāo)簽里,這里加過的標(biāo)簽不用出如今下一步中。;假設(shè)點擊了前面的“測試網(wǎng)址采集按鈕,顯示如以下圖相關(guān)界面??梢越?jīng)過點擊左側(cè)的“+看該網(wǎng)址下面的鏈接,可以用右側(cè)的導(dǎo)出功能導(dǎo)出相關(guān)網(wǎng)址。普通在左側(cè)選擇中要采集的網(wǎng)址,在右側(cè)選擇“導(dǎo)出同級節(jié)點??梢赃x擇左側(cè)網(wǎng)址,點擊右側(cè)“閱讀網(wǎng)頁預(yù)覽頁面。點擊“測試該頁可以進(jìn)入內(nèi)容采集預(yù)覽頁。如需退出點擊“前往修正設(shè)置按鈕。;在采集過程中遇到不需求采集的文章,可以經(jīng)過“不得包含功能將其過濾掉。為了減少采集范圍可以運用“必需包含功能。;正確獲取網(wǎng)址后,點擊“第二步:采集內(nèi)容規(guī)那么就可以進(jìn)入采集內(nèi)容模塊了。;運用左側(cè)的添加、修正、刪除按鈕修正標(biāo)簽對應(yīng)

12、的內(nèi)容。點擊“、“箭頭可以進(jìn)展標(biāo)簽稱號排序。右側(cè)“規(guī)那么測試區(qū)域可以在典型頁面輸入測試網(wǎng)址,也可以經(jīng)過前面測試頁面功能自動導(dǎo)入進(jìn)相應(yīng)頁面地址。點擊右側(cè)“測試按鈕,選擇“第二步:采集內(nèi)容規(guī)那么后,出現(xiàn)如下界面。;以info.it.hc360/2019/11/101145796593.shtml為例,該例如有分頁,需求運用到“分頁獲取規(guī)那么。由于這個例子更適宜上下頁獲取,應(yīng)選擇第二種。提取區(qū)域左側(cè)填寫的是分頁代碼獨一開場標(biāo)示代碼,右側(cè)為終了標(biāo)示代碼。;從對方頁面上判別需求采集的內(nèi)容,以info.it.hc360/2019/11/101145796593.shtml為例,主要有標(biāo)題、來源、內(nèi)容3項。

13、;“標(biāo)簽名右側(cè)輸入標(biāo)簽名字。特殊情況下勾選右側(cè)相應(yīng)匹配項,該例子中用到的是第二項。提取數(shù)據(jù)方式本例采用的是前后截取方式,分別在左右兩個標(biāo)紅區(qū)域填入開場、結(jié)尾獨一標(biāo)示字符串。;數(shù)據(jù)處置處可以點擊“添加新增處置方式,主要用到類型有“內(nèi)容交換、“HTML標(biāo)簽過濾2種。點擊左側(cè)添加,在“內(nèi)容交換區(qū)域左側(cè)輸入相應(yīng)字符串,右側(cè)“交換為輸入交換后的內(nèi)容,本例交換為空,故沒有內(nèi)容。添加終了按“確定按鈕提交。運用“刪除鍵可以刪除選中的數(shù)據(jù)處置方式。運用“、“箭頭可以進(jìn)展數(shù)據(jù)處置順序排序。;少量時候會涉及圖片或文件下載,這就需求勾選右下角相應(yīng)配置:免費版只需勾選“將相對地址補全為絕對地址;“HTML標(biāo)簽過濾可以交

14、換掉您不想采集到的相應(yīng)html代碼,例如對方頁面中關(guān)鍵詞鏈接、iframe、文字標(biāo)紅等等,詳細(xì)可以根據(jù)實踐需求進(jìn)展勾選。普通我會選擇“鏈接、“字體、“去除首位空白符、“框架4項。;提取數(shù)據(jù)方式除了“前后截取以外,還有其他幾種,常用只運用“正那么提取方式。以下是正那么提取樣例,大家可以和“前后截取例子看看之間有什么差別。正那么截取常用在復(fù)雜的內(nèi)容提取上,由于內(nèi)容復(fù)雜不容易懂,這里不再贅述。;除了“經(jīng)過采集得到數(shù)據(jù)方式以外,還可以運用“自定義固定格式的數(shù)據(jù),這里我們常用的是“固定的字符串、“隨機抽取信息2種。 “固定的字符串可以把標(biāo)簽固定寫死成某個字符串?!半S機抽取信息主要用于采集完文章后隨機生成

15、作者或發(fā)布人姓名一類。;進(jìn)入第三步:發(fā)布內(nèi)容設(shè)置可以看到如下界面。軟件提供了3種導(dǎo)入數(shù)據(jù)方案,由于公司目前沒有提供web網(wǎng)站,因此主要運用方式二和三。下面截圖中紅色區(qū)域是數(shù)據(jù)存成文件方式的根本配置。文件存成的格式免費版只能存成TXT、HTML、CSV 3種方式,WORD、EXCEL需求付費。TXT模板可以運用系統(tǒng)默許。HTML系統(tǒng)自帶模板沒有寫網(wǎng)頁字符方式呵斥輸出成亂碼,請運用我提供的模板,運用中需求查看采集網(wǎng)站的字符格式,并更改系統(tǒng)配置以及HTML模板中字符格式。CSV默許模板翻開后是亂碼,需求運用文本編輯器翻開修正模板,第一行是字段名,第二行字段值,編輯好后另存為以utf-8編碼保管。假設(shè)

16、要輸出excel表格,可以用csv格式輸出。;點擊“方式三下方的“數(shù)據(jù)庫發(fā)布配置管理鏈接,看到如下界面:;如是建立好的配置,雙擊左側(cè)配置列表或點擊下方編輯按鈕即可。如要新建入庫配置,先點擊左側(cè)“新建按鈕,再點擊右上方“新建按鈕。在下一頁里可以看到相應(yīng)頁面圖。;選擇數(shù)據(jù)庫類型為您運用的數(shù)據(jù)庫種類,普通運用“Mysql、“SQL Server,詳細(xì)根據(jù)您安裝的數(shù)據(jù)庫種類決議。點擊右側(cè)的“INSERT語句例如鏈接,可以看到上方自動插入了一些曾經(jīng)寫好的數(shù)據(jù)庫寫入語句。請根據(jù)曾經(jīng)建立好的數(shù)據(jù)庫表構(gòu)造修正“Table_Name中字段,VALUES后標(biāo)簽?zāi)敲词恰暗诙剑翰杉瘍?nèi)容規(guī)那么里的標(biāo)簽內(nèi)容。修正好后點

17、“保管模塊,輸入保管稱號點“保管,彈出“勝利保管窗口,點“確定。封鎖“數(shù)據(jù)庫模塊編輯器。;插入的語句下方有3排內(nèi)容,如以下圖。主要用到“常用標(biāo)簽和“系統(tǒng)標(biāo)簽。系統(tǒng)標(biāo)簽主要用到“采集頁網(wǎng)址,可以插入從哪個頁面采集相應(yīng)數(shù)據(jù)?!拔恼戮幪?表名XXX用于插入數(shù)據(jù)后獲取最后一條信息的ID號,這樣可以利用該ID號執(zhí)行新的select、update中包含該文章編號的“where id=xxx語句。;以下是比較復(fù)雜的SQL插入語句例子。INSERT INTO ceshi(gongsimingcheng,lianxiren,shoujihaoma,dianhuahaoma,chengxintongnianfen

18、,jingyingdizhi,zhuyinghangye,jingyingmoshi,zhuceziben,gongsichenglishijian,gongsizhucedi,qiyeleixing,fadingdaibiaoren,zhuyaoxiaoshouquyu,zhuyaokehuqunti,nianyingyee,fuwulingyu,yuangongrenshu,dangqianwangzhi,xingbie,chuanzhen,dizhi,youbian,gongsizhuye,gongsizhiwei,suozaidiqu,aliwangwang) VALUES (標(biāo)簽:公

19、司稱號,標(biāo)簽:聯(lián)絡(luò)人,標(biāo)簽:聯(lián)絡(luò),標(biāo)簽:固定,標(biāo)簽:誠信通年份,標(biāo)簽:運營地址,標(biāo)簽:主營行業(yè),標(biāo)簽:運營方式,標(biāo)簽:注冊資本,標(biāo)簽:公司成立時間,標(biāo)簽:公司注冊地,標(biāo)簽:企業(yè)類型,標(biāo)簽:法定代表人,標(biāo)簽:主要銷售區(qū)域,標(biāo)簽:主要客戶群體,標(biāo)簽:年營業(yè)額,標(biāo)簽:效力領(lǐng)域,標(biāo)簽:員工人數(shù),標(biāo)簽:當(dāng)前網(wǎng)址,標(biāo)簽:性別,標(biāo)簽:,標(biāo)簽:地址,標(biāo)簽:,標(biāo)簽:公司主頁,標(biāo)簽:部門職位,標(biāo)簽:所在地域,標(biāo)簽:阿里旺旺);以下MYSQL數(shù)據(jù)庫對應(yīng)建立數(shù)據(jù)庫的大約語句例子,需求對數(shù)據(jù)庫有一定了解??梢杂胮hpmyadmin或Navicat等圖形數(shù)據(jù)庫管理工具來處置。CREATE TABLE alibaba ( gongsiidhao int(10) NOT NULL AUTO_INCREMENT, gongsimingcheng char(255) NOT NULL, lianxiren char(255) DEFAULT , shoujihaoma char(255) DEFAULT , dianhuahaoma char(255) DEFAULT , chengxintongnianfen char(255) DEFAULT , jingyingdizhi char(255) DEFAULT , zhuyinghangye medi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論