![火車頭采集器教程_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/8/f16b9405-9219-425c-bb04-020cbbe57ed3/f16b9405-9219-425c-bb04-020cbbe57ed31.gif)
![火車頭采集器教程_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/8/f16b9405-9219-425c-bb04-020cbbe57ed3/f16b9405-9219-425c-bb04-020cbbe57ed32.gif)
![火車頭采集器教程_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/8/f16b9405-9219-425c-bb04-020cbbe57ed3/f16b9405-9219-425c-bb04-020cbbe57ed33.gif)
![火車頭采集器教程_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/8/f16b9405-9219-425c-bb04-020cbbe57ed3/f16b9405-9219-425c-bb04-020cbbe57ed34.gif)
![火車頭采集器教程_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/8/f16b9405-9219-425c-bb04-020cbbe57ed3/f16b9405-9219-425c-bb04-020cbbe57ed35.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、n一、軟件安裝n二、新建站點(diǎn)n 三、采集網(wǎng)址n 四、采集內(nèi)容n 五、發(fā)布內(nèi)容n六、任務(wù)采集n七、導(dǎo)出數(shù)據(jù)需要安裝軟件: () WAMP5-v1.7.4 () phpcms () LocoySpiderV2009SP4_Build20090807(火車頭采集器)注:每次采集前需要將wamp5打開后,在用火車頭采集。1、wamp5_1.7.4安裝完成后,解壓縮phpcms后將phpcms1剪切出來放到D:wampwww目錄下,將phpcms1改名為phpcms。2、打開WAMP5,啟動(dòng)PHP settings欄目中的short open tag。3、安裝PHP,輸入http:/localhost/
2、phpcms/install.php進(jìn)行。4、解壓LocoySpiderV2009SP4_Build20090807將Module文件下的phpcms2008-090109文件下的locoy.php復(fù)制到D:wampwwwphpcms下。安裝部分完成打開火車頭軟件(LocoySpider.exe)界面如下圖:第一步:新建站點(diǎn)(如右圖)第二步:點(diǎn)擊“新建站點(diǎn)”后出現(xiàn)如下界面。填寫站點(diǎn)名和站點(diǎn)網(wǎng)址點(diǎn)擊“更新”新建好的站點(diǎn)會排列在窗口左側(cè)“站點(diǎn)&任務(wù)列表”中。右擊新建好的站點(diǎn),點(diǎn)擊“從該站點(diǎn)新建任務(wù)”,出現(xiàn)如下界面。以本列表為例:http:/ “資訊內(nèi)容”、“內(nèi)容摘要”、“信息關(guān)鍵詞”、“m
3、eta關(guān)鍵詞”、“meta描述”、“責(zé)任編輯”、“信息來源”添加到標(biāo)簽名中,將其他不需要的標(biāo)簽名稱刪除,出現(xiàn)如下界面。下面分別說明“標(biāo)題”、“內(nèi)容摘要”、“信息關(guān)鍵詞”、“meta關(guān)鍵詞”、“meta描述”、“責(zé)任編輯”、“信息來源”、“資訊內(nèi)容”各個(gè)標(biāo)簽的采集規(guī)則。采集頁面以采集頁面以http:/ 如下圖:注釋:在資訊內(nèi)容采集過程中最主要的是對垃圾信息的刪除,其中需要注意的有以下幾項(xiàng):1、廣告語(例如:2010年建材行業(yè)十大評選活動(dòng)圓滿落幕,電話:01062298529)2、特殊標(biāo)簽(例如:標(biāo)簽,大部分標(biāo)簽會在“HTML標(biāo)簽排除”中刪除。)3、網(wǎng)站logo(例如:【慧聰建材網(wǎng)】)4、文章中銘
4、感文字(例如:點(diǎn)擊下一頁、點(diǎn)擊查看更多圖片、視頻、責(zé)任編輯、評論、【熱點(diǎn)導(dǎo)讀】、【相關(guān)新聞】等與文章正文無關(guān)的文字。)第三、內(nèi)容描述、meta描述查看本頁面“源文件” 搜索description代碼,找到文章描述部分。如下圖:將“源代碼”中對應(yīng)的描述開始代碼和結(jié)束代碼分別輸入到開始字符段開始字符段和結(jié)束字符結(jié)束字符段段中,點(diǎn)擊確定,內(nèi)容描述和meta描述標(biāo)簽設(shè)置完成。注釋:有些文章描述部分設(shè)有大量廣告語或與本文無關(guān)的內(nèi)容,這樣的文章描述我們不給予采集??梢詫?biāo)題的采集方法復(fù)制到描述采集中。第四、信息關(guān)鍵詞、meta關(guān)鍵詞查看本頁面“源文件” 搜索keywords代碼,找到文章關(guān)鍵詞部分。如下圖
5、:將“源代碼”中對應(yīng)的關(guān)鍵詞開始代碼和結(jié)束代碼分別輸入到開始字符段開始字符段和結(jié)束字結(jié)束字符段符段中,點(diǎn)擊確定,信息關(guān)鍵詞和meta關(guān)鍵詞標(biāo)簽設(shè)置完成。注釋:有些文章關(guān)鍵詞部分設(shè)有大量廣告語或與本文無關(guān)的內(nèi)容,這樣的文章關(guān)鍵詞我們不給予采集??梢詫?biāo)題的采集方法復(fù)制到關(guān)鍵詞采集中。第五、責(zé)任編輯雙擊責(zé)任編輯標(biāo)簽,選擇“自定義固定格式的數(shù)據(jù)”,在固定的字符串選項(xiàng)中填寫自己的名稱,點(diǎn)擊確定,責(zé)任編輯設(shè)定完成。第六、信息來源雙擊責(zé)任編輯標(biāo)簽,選擇“自定義固定格式的數(shù)據(jù)”,在固定的字符串選項(xiàng)中填寫信息來源,點(diǎn)擊確定,信息來源設(shè)定完成。第七、分頁在“頁面內(nèi)容分頁區(qū)域/樣式設(shè)置”中將分頁部分代碼輸入其中,
6、用(*)代替即可。如下圖:(注釋:各站的分頁代碼不同,需要具體分析,采集分頁的文章在我們后臺將成為一篇通篇文章。建議少采集分頁多的文章,影響用戶體驗(yàn)。)規(guī)則填寫完成后,返回至第一步“測試網(wǎng)址采集”。雙擊所采集到的任一文章地址。則會自己彈出如下界面。(注釋:建議多測試幾篇文章,減少垃圾代碼出現(xiàn)。)采集內(nèi)容階段完成,點(diǎn)擊進(jìn)入發(fā)布內(nèi)容設(shè)置1、啟動(dòng)以下兩項(xiàng),點(diǎn)擊“定義web在線發(fā)布到網(wǎng)站全局設(shè)置”。2、點(diǎn)擊添加,選擇phpcms2008 新聞發(fā)布模塊3、在“網(wǎng)站/cms根地址”:輸入http:/localhost/phpcms/4、點(diǎn)擊“在火車內(nèi)置瀏覽器中登錄”5、在地址欄輸入:http:/local
7、host/phpcms/admin6、輸入用戶名phpcms密碼phpcms7、登錄點(diǎn)擊“確認(rèn)登錄發(fā)布成功后即可關(guān)閉該窗口”,關(guān)掉此窗口。獲得8、登錄本地后臺(在瀏覽器中輸入:http:/localhost/phpcms/admin。賬號密碼phpcms)9、選擇“系統(tǒng)設(shè)置”中的“添加欄目”,點(diǎn)擊下一步10、輸入欄目名稱、欄目目錄,點(diǎn)擊確定,在本地后臺會出現(xiàn)對應(yīng)列表。11、點(diǎn)擊獲取列表后便可等對應(yīng)ID,選擇此次采集的對應(yīng)列表。12、在配置名中輸入要采集的欄目名稱,點(diǎn)擊保存配置。13、設(shè)置完成后點(diǎn)擊保存。發(fā)布內(nèi)容部分結(jié)束將剛剛編寫好的規(guī)則保存后,程序則會自動(dòng)跳轉(zhuǎn)到主界面。右鍵點(diǎn)擊設(shè)置好的任務(wù),選擇開始采集。在采集完成后系統(tǒng)會自動(dòng)提醒采集完成。采集數(shù)據(jù)在火車頭Data文件中。雙擊mdb格式文件,右鍵選擇content選項(xiàng),導(dǎo)出為Excel格式。建議將采集文檔都放在一個(gè)文件夾里,有利于后續(xù)工作進(jìn)行。打開導(dǎo)出的Excel文檔,將ID、已采、已發(fā)、縮略圖、PageUrl、處理中等無關(guān)數(shù)據(jù)刪除,只保留“標(biāo)題”、 “資訊內(nèi)容”、“內(nèi)容摘要”、“信息關(guān)鍵詞”、“meta關(guān)鍵詞”、“meta描述”、“責(zé)任編輯”、“信息來源”。在Excel中對采集文章進(jìn)行最后篩選修改:1、刪除內(nèi)容缺失的文章。2、刪除所有標(biāo)題中帶有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)村房屋建房合同范例
- 保姆和家政合同范本
- 兒童樂園實(shí)施合同范本
- 前期工程門窗合同范本
- 公地共用合同范本
- 傳媒主播合同范本
- 農(nóng)業(yè)抵押合同范本
- 義診合作協(xié)議合同范本
- 2025年標(biāo)準(zhǔn)鍵盤行業(yè)深度研究分析報(bào)告
- 寫結(jié)婚合同范例
- 《行政倫理學(xué)教程(第四版)》課件 第7、8章?行政人格、行政組織倫理
- 2024年江蘇蘇??毓杉瘓F(tuán)有限公司招聘筆試沖刺題(帶答案解析)
- 2023年4月自考00504藝術(shù)概論試題及答案含解析
- 美麗的大自然(教案)2023-2024學(xué)年美術(shù)一年級下冊
- 2024年低壓電工考試題庫(試題含答案)
- 成都特色民俗課件
- 地質(zhì)勘探行業(yè)分析
- 花城版音樂四下-第四課-認(rèn)知音樂節(jié)奏(教案)
- 寵物醫(yī)院員工手冊
- 2024年高考英語讀后續(xù)寫高分寶典專題08讀后續(xù)寫肢體動(dòng)作描寫積累1(詞-句-文)講義
- 商業(yè)與公積金貸款政策
評論
0/150
提交評論