抓站工具用戶手冊(cè)_第1頁(yè)
抓站工具用戶手冊(cè)_第2頁(yè)
抓站工具用戶手冊(cè)_第3頁(yè)
抓站工具用戶手冊(cè)_第4頁(yè)
抓站工具用戶手冊(cè)_第5頁(yè)
已閱讀5頁(yè),還剩66頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、益眾網(wǎng)站信息抓取工具 用戶手冊(cè) 目 錄 1.1.概述概述.4 1.1.關(guān)于網(wǎng)站抓取工具.4 1.2.特點(diǎn).5 2.2.軟件安裝軟件安裝.5 2.1.安裝環(huán)境.5 2.1.1.硬件環(huán)境.5 2.1.2.軟件環(huán)境.5 2.2.安裝步驟.6 2.2.1.安裝jdk 1.5.x.6 2.2.2.安裝數(shù)據(jù)庫(kù).6 2.2.3.導(dǎo)入系統(tǒng)數(shù)據(jù).6 2.2.4.安裝本系統(tǒng).7 2.2.5.tomcat啟動(dòng)和停止.9 3.3.術(shù)語(yǔ)術(shù)語(yǔ).10 4.4.使用說(shuō)明使用說(shuō)明.11 4.1.輔助功能.12 4.1.1.登錄.12 4.1.2.修改管理員信息.12 4.1.3.系統(tǒng)參數(shù)配置.12 4.1.4.入庫(kù)數(shù)據(jù)表配置.

2、13 4.1.5.抓取統(tǒng)計(jì).14 4.1.6.查看網(wǎng)頁(yè)源碼.14 4.1.7.軟件注冊(cè).14 4.2.頁(yè)面配置.14 4.2.1.增加頁(yè)面基本信息.15 4.2.2.修改頁(yè)面基本信息.16 4.2.3.刪除頁(yè)面基本信息.16 4.2.4.url配置.17 4.2.5.增加正文頁(yè)url及定位配置信息.17 4.2.6.修改正文頁(yè)url及定位配置信息.19 4.2.7.增加列表頁(yè)url配置信息.19 4.2.8.修改列表頁(yè)url配置信息.21 4.2.9.url參數(shù)配置.21 4.2.10.增加url參數(shù).21 4.2.11.修改url參數(shù).22 4.2.12.刪除url參數(shù).23 4.2.13.

3、設(shè)置url參數(shù)值.23 4.2.14.增加url參數(shù)值.23 4.2.15.修改url參數(shù)值.24 4.2.16.刪除url參數(shù)值.24 4.2.17.定位信息設(shè)置.24 4.2.18.增加列表頁(yè)定位配置信息.25 4.2.19.修改列表頁(yè)定位配置信息.26 4.2.20.下級(jí)頁(yè)面配置.26 4.2.21.增加子頁(yè)面.27 4.2.22.修改子頁(yè)面.28 4.2.23.刪除子頁(yè)面.28 4.2.24.設(shè)置抓取時(shí)間.28 4.2.25.抓取.30 4.3.頁(yè)面解析.30 4.3.1.增加頁(yè)面解析配置信息.30 4.3.2.修改頁(yè)面解析配置信息.34 4.3.3.刪除頁(yè)面解析配置信息.34 4.3

4、.4.值替換配置信息.34 4.3.5.增加值替換配置信息.35 4.3.6.修改值替換配置信息.35 4.3.7.刪除值替換配置信息.35 4.4.頁(yè)面入庫(kù).36 4.4.1.增加頁(yè)面入庫(kù)數(shù)據(jù)表信息.36 4.4.2.修改頁(yè)面入庫(kù)數(shù)據(jù)表信息.37 4.4.3.刪除頁(yè)面入庫(kù)數(shù)據(jù)表信息.37 4.4.4.字段對(duì)照值配置信息.37 4.4.5.增加字段對(duì)照值.38 4.4.6.修改字段對(duì)照值.39 4.4.7.刪除字段對(duì)照值.39 5.5.配置樣例配置樣例.39 5.1.登錄.40 5.2.入庫(kù)數(shù)據(jù)表配置.40 5.3.頁(yè)面配置.40 5.3.1.頁(yè)面基本信息配置:.41 5.3.2.url配置:

5、.42 5.3.3.定位信息配置:.43 5.4.頁(yè)面解析.44 5.5.下級(jí)頁(yè)面配置.46 5.6.下級(jí)頁(yè)面解析:.48 5.7.入庫(kù)配置:.51 5.7.1.選定入庫(kù)數(shù)據(jù)表.51 5.7.2.字段對(duì)照值配置.53 5.8.抓?。?55 6.6.參考內(nèi)容參考內(nèi)容.56 6.1.規(guī)則表達(dá)式.56 6.2.jdbc url.58 7.7.服務(wù)支持服務(wù)支持.60 1.1. 概述概述 . 關(guān)于關(guān)于網(wǎng)站抓取工具網(wǎng)站抓取工具 本工具可以抓取互聯(lián)網(wǎng)上的任何網(wǎng)頁(yè),包括需要登錄后才能訪問(wèn)的頁(yè)面。對(duì)抓取 到頁(yè)面內(nèi)容進(jìn)行解析,得到結(jié)構(gòu)化的信息,比如:新聞標(biāo)題、作者、來(lái)源、正文等。 支持列表頁(yè)的自動(dòng)翻

6、頁(yè)抓取,支持正文頁(yè)多頁(yè)合并,支持圖片、文件的抓取,可以抓 取靜態(tài)網(wǎng)頁(yè),也可以抓取帶參數(shù)的動(dòng)態(tài)網(wǎng)頁(yè),功能極其強(qiáng)大。 用戶指定要抓取的網(wǎng)站、抓取的網(wǎng)頁(yè)類型(固定頁(yè)面、分頁(yè)顯示的頁(yè)面等等) , 并配置如何解析數(shù)據(jù)項(xiàng)(如新聞標(biāo)題、作者、來(lái)源、正文等) ,系統(tǒng)可以根據(jù)配置信息 自動(dòng)實(shí)時(shí)抓取數(shù)據(jù),啟動(dòng)抓取的時(shí)間也可以通過(guò)配置設(shè)定,真正做到“按需抓取,一按需抓取,一 次配置,永久抓取次配置,永久抓取” 。抓來(lái)的數(shù)據(jù)可以保存到數(shù)據(jù)庫(kù)中。支持當(dāng)前主流數(shù)據(jù)庫(kù),包括: oracle、sql server、mysql 等。 本工具完全可以替代傳統(tǒng)的編輯手工處理信息的模式,能夠?qū)崟r(shí)、準(zhǔn)確、一天 24*60 不間斷為企業(yè)

7、提供最新資訊,真正能為企業(yè)降低成本,提高競(jìng)爭(zhēng)力。 系統(tǒng)功能結(jié)構(gòu)圖如下圖所示: . 特點(diǎn)特點(diǎn) 適用范圍廣,可以抓取任何網(wǎng)頁(yè)(包括登錄后才能訪問(wèn)的網(wǎng)頁(yè)) 處理速度快,如果網(wǎng)絡(luò)暢通,1 小時(shí)可以抓取、解析 10000 個(gè)網(wǎng)頁(yè) 采用獨(dú)特的重復(fù)數(shù)據(jù)過(guò)濾技術(shù),支持增量式數(shù)據(jù)抓取,可以抓取實(shí)時(shí)數(shù)據(jù),如: 股票交易信息、天氣預(yù)報(bào)等 抓取信息的準(zhǔn)確性高,系統(tǒng)提供了強(qiáng)大的數(shù)據(jù)校驗(yàn)功能,保證了數(shù)據(jù)的正確性 支持?jǐn)帱c(diǎn)續(xù)抓,在當(dāng)機(jī)或出現(xiàn)異常情況后可以恢復(fù)抓取,繼續(xù)后續(xù)的抓取工作, 提高了系統(tǒng)的抓取效率 對(duì)于列表頁(yè),支持翻頁(yè),可以抓取到所有列表頁(yè)中的數(shù)據(jù)。對(duì)于正文頁(yè),可以對(duì) 分頁(yè)顯示的內(nèi)容自動(dòng)進(jìn)行合并; 支

8、持頁(yè)面深度抓取,頁(yè)面間可以一級(jí)一級(jí)地抓下去。比如,通過(guò)列表頁(yè)抓取到正 文頁(yè) url,然后再抓取正文頁(yè)。各級(jí)頁(yè)面可以分別入庫(kù); web 操作界面,一處安裝,隨處使用 分步解析,分步入庫(kù) 一次配置,永久抓取,一勞永逸 2.2. 軟件安裝軟件安裝 . 安裝環(huán)境安裝環(huán)境 .1.1.硬件環(huán)境硬件環(huán)境 機(jī)型要求:pc、pc serve、服務(wù)器 最小內(nèi)存:256mb 最小硬盤空間:1gb .1.2.軟件環(huán)境軟件環(huán)境 操作系統(tǒng):windows 2k/xp,linux、solaris 等 unix 系統(tǒng) 數(shù)據(jù)庫(kù):mysql、sql server、oracle 之一 ja

9、va jdk:1.5 及以上版本 web server:tomcat5.0 及以上版本 . 安裝步驟安裝步驟 .2.1.安裝安裝 jdk 1.5.x 如果機(jī)器上沒(méi)有 jdk 1.5.x 的環(huán)境,需要安裝 jdk 1.5.x,推薦安裝的版本為 1.5.0。 jdk 為 sun 公司推出的 java 開(kāi)發(fā)包,您可以去網(wǎng)站 http:/ 下載,也可 以在我們的網(wǎng)站下載 jdk 1.5.0,下載鏈接: windows:http:/ linux:http:/ 安裝完畢后,設(shè)置環(huán)境變量 java_home,需要設(shè)置為 jdk 的安裝目錄。例如: windows 下為 c:jdk

10、1.5.0,unix 下為/usr/java/jdk1.5.0。 .2.2.安裝數(shù)據(jù)庫(kù)安裝數(shù)據(jù)庫(kù) 如果機(jī)器上沒(méi)有安裝數(shù)據(jù)庫(kù),請(qǐng)安裝 mysql 數(shù)據(jù)庫(kù)。您可以去 mysql 官方網(wǎng)站 http:/ mysql 4.0.x: windows:http:/ linux:http:/ .2.3.導(dǎo)入系統(tǒng)數(shù)據(jù)導(dǎo)入系統(tǒng)數(shù)據(jù) 數(shù)據(jù)庫(kù)腳本文件存放在目錄 dbscript 下。 如果使用的數(shù)據(jù)庫(kù)為 mysql,需要使用如下兩個(gè)命令行導(dǎo)入數(shù)據(jù): mysql u【用戶名】 -p【密碼】 db_mysql.sql mysql u【用戶名】 -p【密碼】 db_wis help.sql 例

11、如: mysql uroot db_mysql.sql mysql uroot db_wis help.sql 即可完成數(shù)據(jù)庫(kù)的創(chuàng)建及數(shù)據(jù)導(dǎo)入工作。 .2.4.安裝本系統(tǒng)安裝本系統(tǒng) 把安裝包解壓到指定目錄。windows 系統(tǒng)中,需要把本系統(tǒng)安裝在 c:webspider 目錄 下,請(qǐng)確認(rèn)文件 webspider.war 存放在 c:webspider 目錄下;unix 系統(tǒng)中,需要把本系統(tǒng)安 裝在/usr/local/webspider 目錄下,請(qǐng)請(qǐng)確認(rèn)文件 webspider.war 存放在/usr/local/webspider 目 錄下。 1)如果已經(jīng)安裝了 tomcat

12、5.0 及以上版本,可以把本抓站系統(tǒng)集成到已有 tomcat 中。 為了保證程序能正常運(yùn)行,需要修改 tomcat 的啟動(dòng)腳本。windows 下修改文件 catalina.bat,在文件的前面設(shè)置變量 java_opts,如下所示: set java_opts=-agentlib:c:webspiderclassloader unix 系統(tǒng)下,修改文件 catalina.sh,在文件的前面設(shè)置變量 java_opts,如下所示: java_opts=-agentpath:/usr/local/webspider/libclassloader.so 需要在 tomcat 的配置文件 serve

13、r.xml 中增加一個(gè) context(子項(xiàng)目) ,需要增加的配置 代碼如下(樣例): driverclassname org.gjt.mm.mysql.driver url jdbc:mysql:/:3306/db_wis?autoreconnect=trueuseunicode=true characterencoding=gbk username root password maxidle 5 maxactive 100 maxwait 5000 2)如果機(jī)器上沒(méi)有安裝 tomcat,直接使用安裝目錄下的 tomcat。windows 系統(tǒng)下需 要修改 c:webs

14、pidertomcat-5.0.28confserver.xml 中的 context 配置,unix 系統(tǒng)下需要修改 /usr/local/webspider/tomcat-5.0.28/conf/server.xml 中的 context 配置。 如果本系統(tǒng)沒(méi)有安裝在缺省目錄下,需要修改中的屬性 docbase,把其中的 路徑設(shè)置為系統(tǒng)安裝到的路徑。并且要修改 tomcat 的啟動(dòng)腳本,在 windows 下修改文件 catalina.bat,在 unix 下修改 catalina.sh,把變量 java_opts 中的-agentlib 設(shè)置為正確值。 參見(jiàn)本節(jié)的 1) 。 和之間為數(shù)據(jù)

15、庫(kù)連接池配置。需要修改數(shù)據(jù)庫(kù) 連接池配置中的 driverclassname、url、username 和 password 等參數(shù)值,以保證能正常連接 數(shù)據(jù)庫(kù)。 啟動(dòng) tomcat 后,在瀏覽器中鍵入網(wǎng)址:http:/【目標(biāo)服務(wù)器】/webspider/,例如: http:/locahost:8080/webspider/,進(jìn)入本抓站系統(tǒng)的登錄界面。 .2.5.tomcat 啟動(dòng)和停止啟動(dòng)和停止 1)windows 系統(tǒng)系統(tǒng): 啟動(dòng)命令:startup.bat 停止命令:shutdown.bat 為了實(shí)現(xiàn) tomcat 在開(kāi)機(jī)時(shí)自動(dòng)啟動(dòng),需要把 tomcat 加到系統(tǒng)服務(wù)中。進(jìn)

16、入 tomcat 的 bin 目錄,修改 tomcat 的 service.bat,在語(yǔ)句 echo the service %service_name% has been installed. 前加上: %executable% /us/%service_name% +jvmoptions - agentlib:c:webspiderclassloader 然后執(zhí)行如下兩行命令: service remove service install 重新安裝 tomcat 服務(wù) 2)unix 系統(tǒng)系統(tǒng): 啟動(dòng)命令:startup.sh 停止命令:shutdown.sh 為了實(shí)現(xiàn) tomcat 在開(kāi)機(jī)

17、時(shí)自動(dòng)啟動(dòng),需要把 tomcat 加到操作系統(tǒng)的啟動(dòng)腳本中,例如: linux 的啟動(dòng)腳本文件為/etc/rc.local。在啟動(dòng)腳本中增加一個(gè)命令行:【tomcat 所在目錄】 /bin/startup.sh msie 6.0; windows nt 5.0) cache-control=no-cache http_mime_mappingcontent-type 和文件后 綴名對(duì)照信息,格式為: content-type=文件后 綴名列表,多個(gè)文件后 綴名之間用西文逗號(hào)分 隔。 一個(gè)對(duì)照一行。 image/gif=gif image/jpeg=jpg,jpeg image/png=png

18、application/vnd.ms-powerpoint=ppt application/vnd.ms-excel=xls application/msword=doc application/x-shockwave-flash=swf text/html=html,htm text/plain=txt visual_parse_exclude_tag可視化解析時(shí),定位字a,iframe 符串中不應(yīng)出現(xiàn)的 html 標(biāo)記,多個(gè)標(biāo) 記之間用西文逗號(hào)分隔。 http_proxy_ipaddr代理服務(wù)器地址,如果 不使用代理服務(wù)器,不 需要設(shè)置。 http_proxy_port代理服務(wù)器端口,小于

19、 等于 0 表示不使用代理 服務(wù)器 8080 http_proxy_username代理服務(wù)器用戶名 http_proxy_password代理服務(wù)器用戶密碼 .1.4.入庫(kù)數(shù)據(jù)表配置入庫(kù)數(shù)據(jù)表配置 入庫(kù)數(shù)據(jù)表配置用于配置系統(tǒng)要使用的數(shù)據(jù)庫(kù)、數(shù)據(jù)表信息。包括增加入庫(kù)數(shù)據(jù)表、 修改入庫(kù)數(shù)據(jù)表、刪除入庫(kù)數(shù)據(jù)表功能。 增加入庫(kù)數(shù)據(jù)表,包括如下幾個(gè)輸入框: jdbc driver:jdbc 驅(qū)動(dòng)類名,例如:com.mysql.jdbc.driver jdbc url:jdbc 連接 url,例如: jdbc:mysql:/localhost:3306/test?useunicode=tr

20、ue,其中標(biāo)記$sys_current_page_no;表示當(dāng)前 頁(yè)碼。 設(shè)置好頁(yè)面各項(xiàng)以后,點(diǎn)擊“新增”按鈕,如果設(shè)置無(wú)誤,會(huì)顯示“增加正文頁(yè) url 及定位信息成功”頁(yè)面,該頁(yè)面會(huì)顯示設(shè)定的各項(xiàng)內(nèi)容。該頁(yè)面有兩個(gè)按鈕:“url 參數(shù) 配置”和“完成” ,如果該正文頁(yè) url 中包含參數(shù),點(diǎn)擊“url 參數(shù)配置”按鈕,會(huì)進(jìn)入 “url 參數(shù)列表”頁(yè)面,進(jìn)而進(jìn)行 url 參數(shù)配置。如不需要進(jìn)行 url 參數(shù)配置,點(diǎn)擊 “完成”按鈕,會(huì)返回“網(wǎng)站列表” ,這樣完成了該正文頁(yè)的 url 配置。 .2.6.修改正文頁(yè)修改正文頁(yè) url 及定位配置信息及定位配置信息 在頁(yè)面配置“網(wǎng)站列表

21、”中,選中要進(jìn)行配置的網(wǎng)頁(yè)類型為正文頁(yè)的網(wǎng)站,點(diǎn)擊列表 頁(yè)上方或下方的“url 配置”按鈕,如果該正文頁(yè)已經(jīng)進(jìn)行過(guò) url 配置,會(huì)進(jìn)入“修改 正文頁(yè) url 及定位配置信息”頁(yè)面,根據(jù)需要設(shè)置好要修改的項(xiàng),具體設(shè)置方式可參照 “增加正文頁(yè) url 及定位配置信息” ,點(diǎn)擊“保存”按鈕,如果設(shè)置正確無(wú)誤,會(huì)進(jìn)入 “修改正文頁(yè) url 及定位配置信息成功”頁(yè)面,顯示頁(yè)面設(shè)置的內(nèi)容,該頁(yè)面有兩個(gè)按鈕: “url 參數(shù)配置”和“完成” ,如果該正文頁(yè) url 中包含參數(shù),點(diǎn)擊“url 參數(shù)配置”按 鈕,會(huì)進(jìn)入“url 參數(shù)列表”頁(yè)面,進(jìn)而進(jìn)行 url 參數(shù)配置。如不需要進(jìn)行 url 參數(shù)配 置,點(diǎn)擊

22、“完成”按鈕,會(huì)返回“網(wǎng)站列表” 。 .2.7.增加列表頁(yè)增加列表頁(yè) url 配置信息配置信息 在“網(wǎng)站列表”中,選中要進(jìn)行配置的網(wǎng)頁(yè)類型為列表頁(yè)的網(wǎng)站,點(diǎn)擊列表頁(yè)上方或 下方的“url 配置”按鈕,如果該列表頁(yè)未進(jìn)行過(guò) url 配置,進(jìn)入“增加列表頁(yè) url 配 置信息”頁(yè)面; 按頁(yè)面提示設(shè)置好各項(xiàng),各項(xiàng)具體說(shuō)明如下: 第一頁(yè)第一頁(yè) url:該項(xiàng)必須輸入,設(shè)定要抓取的列表頁(yè)的第一頁(yè) url 地址,比如: http:/ 中可以嵌入系統(tǒng)變量或 url 參數(shù),嵌 入方式為:$ + 變量名稱 + ;。如$sys_current_page_no;(當(dāng)前頁(yè)碼) ,表示把當(dāng)前頁(yè)碼值 放置到$

23、sys_current_page_no;所在的位置。點(diǎn)擊右側(cè)的“選擇系統(tǒng)變量”按鈕可以選擇系統(tǒng) 變量或 url 參數(shù),加入到 url 中。 其他頁(yè)其他頁(yè) urlurl 獲得方式獲得方式:用來(lái)設(shè)定如何獲得其他頁(yè) url,有兩個(gè)選項(xiàng):固定模式和動(dòng)態(tài) 解析。如果其他頁(yè) url 比較固定,包括一些參數(shù),可以設(shè)定為固定模式,否則應(yīng)設(shè)定為動(dòng) 態(tài)解析方式。動(dòng)態(tài)解析表示在頁(yè)面中提取下一頁(yè) url,利用規(guī)則表達(dá)式解析處下一頁(yè)的 url。當(dāng)選擇動(dòng)態(tài)解析方式時(shí),會(huì)出現(xiàn)解析下一頁(yè) url 四個(gè)設(shè)置項(xiàng): 定位下一頁(yè)定位下一頁(yè) urlurl 開(kāi)始的字符串:開(kāi)始的字符串:用于設(shè)置能夠唯一定位到下一頁(yè) url 開(kāi)始的字符串,

24、 這樣可以保證定位到下一頁(yè) url 的準(zhǔn)確性,頁(yè)可以提高抓取效率。可以不設(shè)置,表示從頭 開(kāi)始定位。 定位下一頁(yè)定位下一頁(yè) urlurl 結(jié)束的字符串:結(jié)束的字符串:用于設(shè)置能夠唯一定位到下一頁(yè) url 結(jié)束的字符串, 這樣可以保證定位到下一頁(yè) url 的準(zhǔn)確性,也可以提高抓取效率??梢圆辉O(shè)置,表示定位 到整個(gè)頁(yè)面結(jié)束。 定位下一頁(yè)定位下一頁(yè) urlurl 的外圍規(guī)則表達(dá)式:的外圍規(guī)則表達(dá)式:用于設(shè)置縮小定位下一頁(yè) url 范圍的規(guī)則表達(dá)式。 本項(xiàng)可以不設(shè)置,表示直接使用“定位下一頁(yè) url 規(guī)則表達(dá)式”即可解析出下一頁(yè) url。 定位下一頁(yè)定位下一頁(yè) urlurl 規(guī)則表達(dá)式:規(guī)則表達(dá)式:用于

25、設(shè)置解析下一頁(yè) url 的規(guī)則表達(dá)式,該項(xiàng)必須設(shè)定。 其他頁(yè)其他頁(yè) url:設(shè)定要抓取的列表頁(yè)的其他頁(yè) url 地址,如果不設(shè)置表示無(wú)其他頁(yè), 只抓取第一頁(yè)。當(dāng)“其他頁(yè) url 獲得方式”為“動(dòng)態(tài)解析”時(shí),該項(xiàng)必須輸入。輸入內(nèi)容 如:$1、$2 等,其中$1 代表規(guī)則表達(dá)式中匹配到的第一組值(第一對(duì)括號(hào)中匹配到的值) , $2 代表規(guī)則表達(dá)式中匹配到的第二組值。當(dāng)“其他頁(yè) url 獲得方式”為“固定模式”時(shí), 點(diǎn)擊右側(cè)的“選擇系統(tǒng)變量”按鈕可以選擇系統(tǒng)變量或 url 參數(shù),加入到 url 中。 提取提取 hiddenhidden 參數(shù)的參數(shù)的 formform 名稱:名稱:用于自動(dòng)提取該 fo

26、rm 中的 hidden 參數(shù)及參數(shù)值,如 果不需要提取,請(qǐng)不要輸入。 提取的提取的 hiddenhidden 參數(shù)名稱:參數(shù)名稱:多個(gè)參數(shù)名之間用西文逗號(hào)分隔,為空表示提取指定 form 中的所有 hidden 參數(shù)。只有指定了提取 hidden 參數(shù)的 form 名稱時(shí),本字段才有意義。 提取提取 hiddenhidden 參數(shù)的頁(yè)面:參數(shù)的頁(yè)面:只從第一頁(yè)中提取 hidden 參數(shù),還是從上一頁(yè)提取 hidden 參數(shù)。當(dāng)下一頁(yè)的 url 中包含頁(yè)碼或記錄號(hào)時(shí),通常應(yīng)設(shè)置為“只從第一頁(yè)中提取” ,以 提高系統(tǒng)的處理效率。對(duì)于一些特殊的列表頁(yè)(例如:下一頁(yè) url 中沒(méi)有包含頁(yè)碼或記錄 號(hào)

27、) ,此時(shí)需要從上一頁(yè)中動(dòng)態(tài)提取 hidden 參數(shù),本數(shù)據(jù)項(xiàng)應(yīng)設(shè)置為“從上一頁(yè)提取” 。只 有指定了提取 hidden 參數(shù)的 form 名稱時(shí),本字段才有意義。 起始頁(yè)號(hào):起始頁(yè)號(hào):用于設(shè)定該列表頁(yè)的起始基準(zhǔn)頁(yè)號(hào),取值通常為 0 或 1。基于 0 的情況下, 第一頁(yè)的頁(yè)號(hào)為 0,第二頁(yè)的為 1,以此類推。本項(xiàng)的缺省值為 1,表示按頁(yè)碼的自然順序。 此項(xiàng)必須設(shè)定。 起始行號(hào):起始行號(hào):用于設(shè)定該列表頁(yè)的起始基準(zhǔn)行號(hào),取值通常為 0 或 1,缺省值為 1。解釋 參見(jiàn)上面的“起始頁(yè)號(hào)” 。此項(xiàng)必須設(shè)定。 第一頁(yè)的第一頁(yè)的調(diào)用方式調(diào)用方式:用來(lái)設(shè)定第一頁(yè)請(qǐng)求的處理方式,有兩個(gè)選項(xiàng):post 和 g

28、et, 通常應(yīng)設(shè)置為 get。 其他頁(yè)的其他頁(yè)的調(diào)用方式調(diào)用方式:用來(lái)設(shè)定其他頁(yè)或下一頁(yè)請(qǐng)求的處理方式,有兩個(gè)選項(xiàng):post 和 get,通常應(yīng)設(shè)置為 get。 是否是總頁(yè)數(shù)標(biāo)記是否是總頁(yè)數(shù)標(biāo)記:用來(lái)設(shè)定是總頁(yè)數(shù)還是總記錄數(shù)的標(biāo)記。 “總頁(yè)數(shù)”表示是總頁(yè)數(shù) 標(biāo)記, “總記錄數(shù)”表示是總記錄數(shù)標(biāo)記。 定位記錄數(shù)或總頁(yè)數(shù)的規(guī)則表達(dá)式:定位記錄數(shù)或總頁(yè)數(shù)的規(guī)則表達(dá)式:用于設(shè)置解析總記錄數(shù)或總頁(yè)數(shù)的規(guī)則表達(dá)式。 當(dāng)“是否是總頁(yè)數(shù)標(biāo)記是否是總頁(yè)數(shù)標(biāo)記”設(shè)置為總記錄數(shù)時(shí),本項(xiàng)用于設(shè)置解析總記錄數(shù)的規(guī)則表達(dá)式; “是否是總頁(yè)數(shù)標(biāo)記是否是總頁(yè)數(shù)標(biāo)記”設(shè)置為總頁(yè)數(shù)時(shí),本項(xiàng)用于設(shè)置解析總頁(yè)數(shù)的規(guī)則表達(dá)式。 是否允

29、許跳頁(yè)是否允許跳頁(yè):用來(lái)設(shè)定列表頁(yè)是否可以跳頁(yè), “可以”表示可以跳頁(yè), “不可以”表 示不能跳頁(yè)。此項(xiàng)用于設(shè)定斷點(diǎn)續(xù)抓??梢蕴?yè)的情況下,可以直接跳到上次抓取到的下 一頁(yè)繼續(xù)抓取,提高了處理效率,否則只能一頁(yè)一頁(yè)地翻到目標(biāo)頁(yè)。例如,列表頁(yè)上次抓 到了第 10 頁(yè)就停止了。重新開(kāi)始抓取從第 11 頁(yè)開(kāi)始,但有的網(wǎng)站不允許你直接到第 11 頁(yè), 必須一頁(yè)一頁(yè)的翻到第 11 頁(yè),這里就只能設(shè)定“不可以”跳頁(yè)。 設(shè)置好頁(yè)面各項(xiàng)以后,點(diǎn)擊“新增”按鈕,如果設(shè)置無(wú)誤,會(huì)顯示“增加列表頁(yè) url 配置信息成功”頁(yè)面,該頁(yè)面會(huì)顯示設(shè)定的各項(xiàng)內(nèi)容。該頁(yè)面有兩個(gè)按鈕:“url 參數(shù)配 置”和“完成” ,如果該列

30、表頁(yè) url 中包含參數(shù),點(diǎn)擊“url 參數(shù)配置”按鈕,會(huì)進(jìn)入 “url 參數(shù)列表”頁(yè)面,進(jìn)而進(jìn)行 url 參數(shù)配置。如不需要進(jìn)行 url 參數(shù)配置,點(diǎn)擊 “完成”按鈕,會(huì)返回“網(wǎng)站列表” ,這樣完成了該列表頁(yè)的 url 配置。 .2.8.修改列表頁(yè)修改列表頁(yè) url 配置信息配置信息 在“網(wǎng)站列表”中,選中要進(jìn)行配置的網(wǎng)頁(yè)類型為列表頁(yè)的網(wǎng)站,點(diǎn)擊列表頁(yè)上方或 下方的“url 配置”按鈕,如果該列表頁(yè)已經(jīng)進(jìn)行過(guò) url 配置,會(huì)進(jìn)入“修改列表頁(yè) url 配置信息”頁(yè)面,根據(jù)需要設(shè)置好要修改的項(xiàng),具體設(shè)置方式可參照“增加列表頁(yè) url 配置信息” ,點(diǎn)擊“保存”按鈕,如果設(shè)置正確無(wú)

31、誤,會(huì)進(jìn)入“修改列表頁(yè) url 配置 信息成功”頁(yè)面,顯示頁(yè)面設(shè)置的內(nèi)容,該頁(yè)面有兩個(gè)按鈕:“url 參數(shù)配置”和“完成” ,如果該列表頁(yè) url 中包含參數(shù),點(diǎn)擊“url 參數(shù)配置”按鈕,會(huì)進(jìn)入“url 參數(shù)列表” 頁(yè)面,進(jìn)而進(jìn)行 url 參數(shù)配置。如不需要進(jìn)行 url 參數(shù)配置,點(diǎn)擊“完成”按鈕,會(huì)返 回“網(wǎng)站列表” 。 .2.9.url 參數(shù)配置參數(shù)配置 在增加 url 配置信息完成或修改 url 配置信息時(shí),會(huì)出現(xiàn)“url 參數(shù)配置”按鈕, 如果需要配置 url 參數(shù),點(diǎn)擊該按鈕進(jìn)入“url 參數(shù)列表”頁(yè)面。在該列表的上方和下 方各有一排按鈕,點(diǎn)擊“新增”按鈕,進(jìn)入“增加

32、 url 參數(shù)”頁(yè)面;選中一條記錄,點(diǎn)擊 “刪除”按鈕會(huì)提示是否刪除該項(xiàng),確定后即刪除該 url 參數(shù)。列表右側(cè)“操作”欄目, 中有“修改”鏈接,對(duì)于“參數(shù)取值類型”為離散值的參數(shù),還會(huì)顯示“設(shè)置參數(shù)值”鏈 接:點(diǎn)擊“修改”按鈕進(jìn)入“修改 url 參數(shù)”頁(yè)面;點(diǎn)擊“設(shè)置參數(shù)值”按鈕進(jìn)入“url 參數(shù)值列表”頁(yè)面,進(jìn)行參數(shù)值的增加、修改、刪除操作。 .2.10.增加增加 url 參數(shù)參數(shù) 在“url 參數(shù)列表”中,點(diǎn)擊列表頁(yè)上方或下方的“新增”按鈕,進(jìn)入“增加 url 參 數(shù)”頁(yè)面; 按頁(yè)面提示設(shè)置好各項(xiàng),各項(xiàng)具體說(shuō)明如下: 參數(shù)名稱參數(shù)名稱:該項(xiàng)必須輸入,設(shè)定頁(yè)面中需要用到的參

33、數(shù)名稱,如 province(省份) 、 (城市)等。參數(shù)名稱中允許的字符包括:字母、數(shù)字、_(下劃線) 、-(減號(hào))和.(點(diǎn)) 。 參數(shù)說(shuō)明參數(shù)說(shuō)明:該項(xiàng)可以不設(shè),主要是為了說(shuō)明該參數(shù)的用途,便于理解和維護(hù)。 參數(shù)取值類型參數(shù)取值類型:用來(lái)設(shè)定該參數(shù)如何取值,有兩個(gè)選項(xiàng):有序值和離散值。如果是 “離散值” ,在增加 url 參數(shù)完成后,還要“設(shè)置 url 參數(shù)值” ;如果是“有序值”時(shí), 下面會(huì)出現(xiàn)有序值設(shè)置數(shù)據(jù)項(xiàng),包括以下四項(xiàng): 信息信息 idid 起始值:起始值:用于設(shè)置該有序值參數(shù)的起始值,該項(xiàng)必須輸入。 遞增值:遞增值:用于設(shè)置該有序值參數(shù)的遞增值,也叫循環(huán)步長(zhǎng)。設(shè)定為 0 時(shí),表示

34、只抓取 一次。該項(xiàng)必須輸入。 信息信息 idid 終止值:終止值:用于設(shè)置該有序值參數(shù)的終止值。設(shè)定為 0 時(shí),表示沒(méi)有最終值,對(duì) 應(yīng)的循環(huán)為無(wú)限循環(huán)。該項(xiàng)必須輸入。 循環(huán)順序:循環(huán)順序:用于設(shè)置該參數(shù)的循環(huán)順序。多個(gè)參數(shù)時(shí),順序值小的為外層循環(huán)(大循 環(huán)) ,大的為內(nèi)層循環(huán)(小循環(huán)) 。該項(xiàng)必須設(shè)定。 是否是否 url 參數(shù)參數(shù):用來(lái)設(shè)定該項(xiàng)是否應(yīng)用于頁(yè)面 url 參數(shù)中, “是”表示添加到 url 參數(shù)中, “否”表示不添加。通常都應(yīng)該是 url 參數(shù)。 是否有效是否有效:用來(lái)設(shè)定該參數(shù)是否生效。 “有效”系統(tǒng)使用本參數(shù), “無(wú)效”表示不使用 本參數(shù)。 設(shè)置好頁(yè)面各項(xiàng)以后,點(diǎn)擊“新增”按鈕

35、,如果設(shè)置無(wú)誤,會(huì)顯示“增加 url 參數(shù)信 息成功”頁(yè)面,該頁(yè)面會(huì)顯示設(shè)定的各項(xiàng)內(nèi)容。如果“參數(shù)取值類型”為“離散值” ,該頁(yè) 面會(huì)有兩個(gè)按鈕:“設(shè)置 url 參數(shù)值”和“完成” ,點(diǎn)擊“設(shè)置 url 參數(shù)值”按鈕,會(huì)進(jìn) 入“url 參數(shù)值列表”頁(yè)面,進(jìn)而進(jìn)行 url 參數(shù)值配置。如果“參數(shù)取值類型”為“有 序值” ,頁(yè)面只有一個(gè)“完成”按鈕,點(diǎn)擊“完成”按鈕,會(huì)返回“url 參數(shù)列表” ,這樣 完成了增加 url 參數(shù)配置, “url 參數(shù)列表”中會(huì)顯示剛剛增加的 url 參數(shù)。 .2.11.修改修改 url 參數(shù)參數(shù) 在“url 參數(shù)列表”中,點(diǎn)擊列表頁(yè)右側(cè)“操作”欄中的

36、“修改”鏈接,會(huì)進(jìn)入“修 改 url 參數(shù)信息”頁(yè)面,根據(jù)需要設(shè)置好要修改的項(xiàng),具體設(shè)置方式可參照“增加 url 參數(shù)信息” ,其中“參數(shù)取值類型”不能修改,點(diǎn)擊“保存”按鈕,如果設(shè)置正確無(wú)誤,會(huì) 進(jìn)入“修改 url 參數(shù)信息成功”頁(yè)面,顯示頁(yè)面設(shè)置的內(nèi)容,如果“參數(shù)取值類型”為 “離散值” ,該頁(yè)面會(huì)有兩個(gè)按鈕:“設(shè)置 url 參數(shù)值”和“完成” ,點(diǎn)擊“設(shè)置 url 參 數(shù)值”按鈕,會(huì)進(jìn)入“url 參數(shù)值列表”頁(yè)面,進(jìn)而進(jìn)行 url 參數(shù)值配置。如果“參數(shù) 取值類型”為“有序值” ,頁(yè)面只有一個(gè)“完成”按鈕,點(diǎn)擊“完成”按鈕,會(huì)返回“url 參數(shù)列表” ,這樣完成了修改 url 參數(shù)配置,

37、 “url 參數(shù)列表”中會(huì)顯示剛剛修改的 url 參數(shù)。 .2.12.刪除刪除 url 參數(shù)參數(shù) 在“url 參數(shù)列表”中,選中一條記錄,點(diǎn)擊列表頁(yè)上方或下方的“刪除”按鈕,系 統(tǒng)會(huì)提示確認(rèn)信息,確定后刪除該條 url 參數(shù)記錄,如果未選中記錄,系統(tǒng)會(huì)提示選中要 刪除的記錄。 .2.13.設(shè)置設(shè)置 url 參數(shù)值參數(shù)值 有三種方式可以進(jìn)入“設(shè)置參數(shù)值”頁(yè)面: “增加 url 參數(shù)”完成后,如果“參數(shù)取值類型”為“離散值” ,點(diǎn)擊“增加 url 參數(shù)信息成功”頁(yè)面上的“設(shè)置參數(shù)值”按鈕 “修改 url 參數(shù)”時(shí),如果“參數(shù)取值類型”為“離散值” ,點(diǎn)擊“設(shè)置參數(shù)值

38、” 按鈕 在“url 參數(shù)列表”中,如果 url 參數(shù)取值類型為“離散值” ,在列表頁(yè)右側(cè) “操作”欄中會(huì)有的“設(shè)置參數(shù)值”鏈接,點(diǎn)擊該鏈接 執(zhí)行以上任何一種操作后,進(jìn)入“url 參數(shù)值列表”頁(yè)面,在該列表頁(yè)面的上方和下 方各有一排按鈕,點(diǎn)擊“新增”按鈕,進(jìn)入“增加 url 參數(shù)值”頁(yè)面;點(diǎn)擊“批量增加” 按鈕,將進(jìn)入“批量增加參數(shù)值”頁(yè)面。 選中一條記錄,點(diǎn)擊“刪除”按鈕會(huì)提示是否刪除該項(xiàng),確定后即刪除該 url 參數(shù)值。 列表右側(cè)“操作”欄目,中有“修改”鏈接,點(diǎn)擊該鏈接進(jìn)入“修改 url 參數(shù)值”頁(yè)面。 url 參數(shù)值設(shè)定完成后,可以點(diǎn)擊導(dǎo)航條或頁(yè)面上方的菜單進(jìn)行其他配置。 4.2.14

39、.4.2.14.增加增加 url 參數(shù)值參數(shù)值 在“url 參數(shù)值列表”中,點(diǎn)擊列表頁(yè)上方或下方的“新增”按鈕,進(jìn)入“增加 url 參數(shù)值”頁(yè)面。 按頁(yè)面提示設(shè)置好各項(xiàng),各項(xiàng)具體說(shuō)明如下: 參數(shù)取值參數(shù)取值:該項(xiàng)必須輸入,根據(jù)頁(yè)面情況設(shè)定對(duì)應(yīng)參數(shù)的取值,如:省份名稱。 參數(shù)說(shuō)明參數(shù)說(shuō)明:該項(xiàng)可以不設(shè),主要是為了說(shuō)明該參數(shù)值的用途,便于維護(hù)和使用。 顯示順序:顯示順序:用于設(shè)置該參數(shù)的顯示順序,循環(huán)時(shí)按顯示順序升序遍歷參數(shù)值。該項(xiàng)必 須設(shè)定。 設(shè)置好頁(yè)面各項(xiàng)以后,點(diǎn)擊“新增”按鈕,如果設(shè)置無(wú)誤,會(huì)顯示“增加 url 參數(shù)值 信息成功”頁(yè)面,該頁(yè)面會(huì)顯示設(shè)定的各項(xiàng)內(nèi)容。該頁(yè)面有一個(gè)“完成”按鈕,點(diǎn)

40、擊“完 成”按鈕,會(huì)返回“url 參數(shù)值列表” ,這樣完成了增加 url 參數(shù)值配置, “url 參數(shù)值 列表”中會(huì)顯示剛剛增加的 url 參數(shù)值。 .2.15.批量增加批量增加 url 參數(shù)值參數(shù)值 在“url 參數(shù)值列表”中,點(diǎn)擊列表頁(yè)中的“批量增加”按鈕,進(jìn)入“批量增加 url 參數(shù)值”頁(yè)面。 頁(yè)面中的各項(xiàng)數(shù)據(jù)項(xiàng)說(shuō)明如下: 批量參數(shù)取值批量參數(shù)取值:該項(xiàng)必須輸入。需要循環(huán)的字符書寫為:起始字符-終止字符,不需 要循環(huán)的字符原樣書寫。循環(huán)的字符只能是字母 a-z、a-z 或數(shù)字 0-9 中的全部或一部分, 字符取值范圍中的小寫字母、大寫字母和數(shù)字不能交叉,如果取值范圍交叉,

41、則不是有效 的循環(huán),將保持原樣。正確的帶循環(huán)參數(shù)值如:a-z、column1-9,不正確的循環(huán)參數(shù)值 如:a-z、a-9。批量參數(shù)值中可以嵌入一個(gè)或多個(gè)字符循環(huán),允許不帶字符循環(huán),此時(shí) 等價(jià)于增加單個(gè)參數(shù)值。帶兩個(gè)循環(huán)的例子如:a-d-1-3,入庫(kù)時(shí)生成的參數(shù)值共 12 個(gè): a-1、a-2、a-3、b-1、b-2、b-3、c-1、c-2、c-3、d-1、d-2 和 d-3。 點(diǎn)擊“新增”按鈕,如果設(shè)置無(wú)誤,會(huì)顯示“增加批量 url 參數(shù)值信息成功”頁(yè)面, 并提示總共入庫(kù)了多少個(gè) url 參數(shù)值。 .2.16.修改修改 url 參數(shù)值參數(shù)值 在“url 參數(shù)值列表”中,點(diǎn)擊列表

42、頁(yè)右側(cè)“操作”欄中的“修改”鏈接,會(huì)進(jìn)入 “修改 url 參數(shù)值信息”頁(yè)面,根據(jù)需要設(shè)置好要修改的項(xiàng),具體設(shè)置方式可參照“增加 url 參數(shù)值” ,點(diǎn)擊“保存”按鈕,如果設(shè)置正確無(wú)誤,會(huì)進(jìn)入“修改 url 參數(shù)值信息成 功”頁(yè)面,顯示頁(yè)面設(shè)置的內(nèi)容,該頁(yè)面有一個(gè)“完成”按鈕,點(diǎn)擊“完成”按鈕,會(huì)返 回“url 參數(shù)值列表” ,這樣完成了修改 url 參數(shù)值配置, “url 參數(shù)值列表”中會(huì)顯示 剛剛修改的 url 參數(shù)值。 .2.17.刪除刪除 url 參數(shù)值參數(shù)值 在“url 參數(shù)值列表”中,選中一條記錄,點(diǎn)擊列表頁(yè)上方或下方的“刪除”按鈕, 系統(tǒng)會(huì)提示確認(rèn)信息,確定后刪除該

43、條 url 參數(shù)值記錄,如果未選中記錄,系統(tǒng)會(huì)提示選 中要?jiǎng)h除的記錄。 .2.18.定位信息設(shè)置定位信息設(shè)置 在“頁(yè)面配置”的“網(wǎng)站列表”頁(yè)面,選中要進(jìn)行配置的網(wǎng)站,點(diǎn)擊列表頁(yè)上方或下 方的“定位信息設(shè)置”按鈕,如果未選中要進(jìn)行配置的網(wǎng)站,系統(tǒng)會(huì)提示“請(qǐng)選擇要配置 定位信息的頁(yè)面” ,選中后,系統(tǒng)會(huì)根據(jù)所選中網(wǎng)站的網(wǎng)頁(yè)類型、是否已經(jīng)進(jìn)行過(guò)定位信息 設(shè)置,進(jìn)入不同的操作頁(yè)面: 網(wǎng)頁(yè)類型是正文頁(yè), “url 配置”和“定位信息設(shè)置”是相同的處理頁(yè)面 未進(jìn)行 url 配置或定位信息配置的,進(jìn)入“增加正文頁(yè) url 及定位配置信息”頁(yè) 面; 已經(jīng)進(jìn)行過(guò) url 配置或定位信息配置的,進(jìn)

44、入“修改正文頁(yè) url 及定位配置信息” 頁(yè)面; 網(wǎng)頁(yè)類型是列表頁(yè), 未進(jìn)行定位信息配置的,進(jìn)入“增加列表頁(yè)定位配置信息”頁(yè)面; 已經(jīng)進(jìn)行過(guò)定位信息配置的,進(jìn)入“修改列表頁(yè)定位配置信息”頁(yè)面; .2.19.增加列表頁(yè)定位配置信息增加列表頁(yè)定位配置信息 在“網(wǎng)站列表”中,選中要進(jìn)行定位配置的網(wǎng)頁(yè)類型為列表頁(yè)的網(wǎng)站,點(diǎn)擊列表頁(yè)上 方或下方的“定位信息設(shè)置”按鈕,如果該列表頁(yè)未進(jìn)行過(guò)定位信息設(shè)置,進(jìn)入“增加列 表頁(yè)定位配置信息”頁(yè)面; 按頁(yè)面提示設(shè)置好各項(xiàng),各項(xiàng)具體說(shuō)明如下: 每頁(yè)顯示的記錄數(shù)每頁(yè)顯示的記錄數(shù):設(shè)定每個(gè)列表頁(yè)的記錄數(shù)(數(shù)據(jù)行數(shù)) 。對(duì)于類型為列表頁(yè)的入口 頁(yè),正數(shù) n

45、 表示如果其中一頁(yè)的記錄數(shù)小于 n,則不再抓取和處理下一頁(yè);如果為-n,則 表示只要成功提取了一條記錄,且存在下一頁(yè),則繼續(xù)抓取和處理下一頁(yè)。對(duì)于中間頁(yè)面 (非入口頁(yè)) ,n 表示嘗試從該列表頁(yè)中提取 n 條記錄,如果沒(méi)有提取到 n 條記錄,則該 次處理失敗;-n 表示最多提取 n 條記錄,此時(shí)允許提取 0 條記錄(無(wú)記錄) 。如果列表頁(yè) 包含多頁(yè),最好準(zhǔn)確地設(shè)置每頁(yè)記錄數(shù)。如果只有一頁(yè),而且當(dāng)記錄數(shù)很多時(shí),可以估計(jì) 一個(gè)較大的數(shù)值,例如 n,保證能夠把頁(yè)面中的所有記錄處理完,推薦將記錄數(shù)設(shè)置為負(fù) 數(shù)-n。 在正常情況下,下級(jí)頁(yè)面處理(包括頁(yè)面解析和入庫(kù))出現(xiàn)錯(cuò)誤,將影響本頁(yè)面的處 理。如果本

46、頁(yè)的記錄數(shù)設(shè)置為 n,因出現(xiàn)錯(cuò)誤導(dǎo)致抓取結(jié)束;如果記錄數(shù)設(shè)置為-n,且本 頁(yè)正確處理的記錄數(shù)目大于 0,則繼續(xù)抓取和處理下一頁(yè)(不處理本頁(yè)面中的后續(xù)記錄) 。 記錄數(shù)設(shè)置為-n 時(shí),且 n10000,表示下級(jí)頁(yè)面出現(xiàn)頁(yè)面解析錯(cuò)誤時(shí),繼續(xù)處理本列 表頁(yè)中的后續(xù)記錄。此時(shí)從該列表頁(yè)中提取的最大記錄數(shù)為:n 10000。 注意:記錄數(shù)設(shè)置為-n 時(shí)的容錯(cuò)處理,只針對(duì)頁(yè)面解析錯(cuò)誤,而不針對(duì)(不包括)頁(yè) 面入庫(kù)時(shí)發(fā)生的錯(cuò)誤。 該項(xiàng)必須輸入。 定位到列表開(kāi)始的字符串:定位到列表開(kāi)始的字符串:用于設(shè)置能夠唯一定位到列表內(nèi)容開(kāi)始的字符串,這樣可 以保證列表內(nèi)容的準(zhǔn)確性,也可以提高抓取效率。本項(xiàng)可以不設(shè)置,表示

47、從頭開(kāi)始定位。 格式為:定位字符串,后面的“”為可 選項(xiàng)。當(dāng)沒(méi)有本可選項(xiàng)時(shí),表示跳過(guò)的匹配次數(shù)為 0。例如:表示跳過(guò) 2 次匹配, 第 3 次匹配到的為列表開(kāi)始位置。 定位到列表結(jié)束的字符串:定位到列表結(jié)束的字符串:用于設(shè)置能夠唯一定位到列表內(nèi)容結(jié)束的字符串,這樣可 以保證列表內(nèi)容的準(zhǔn)確性,也可以提高抓取效率,可以不設(shè)置本項(xiàng),表示列表內(nèi)容一直到 整個(gè)頁(yè)面結(jié)束。 格式為:定位字符串,后面的“”為可 選項(xiàng)。當(dāng)沒(méi)有本可選項(xiàng)時(shí),表示跳過(guò)的匹配次數(shù)為 0。例如:表示跳過(guò) 1 次匹配, 第 2 次匹配到的為列表結(jié)束位置。 定位到記錄開(kāi)始的字符串:定位到記錄開(kāi)始的字符串:用于設(shè)置能夠唯一定位到每條記錄內(nèi)容開(kāi)

48、始的字符串,這 樣可以保證記錄中數(shù)據(jù)的準(zhǔn)確性,也可以提高抓取效率??梢圆辉O(shè)置,不設(shè)定表示從頭開(kāi) 始定位。如果設(shè)置了本項(xiàng), “定位到記錄結(jié)束的字符串”也必須設(shè)置。 格式為:定位字符串,后面的“”為可 選項(xiàng)。當(dāng)沒(méi)有本可選項(xiàng)時(shí),表示跳過(guò)的匹配次數(shù)為 0。例如:表示跳過(guò) 1 次匹配, 第 2 次匹配到的為記錄開(kāi)始位置。 定位到記錄結(jié)束的字符串:定位到記錄結(jié)束的字符串:用于設(shè)置能夠唯一定位到每條記錄內(nèi)容結(jié)束的字符串,這 樣可以保證記錄中數(shù)據(jù)的準(zhǔn)確性,也可以提高抓取效率。可以不設(shè)置,表示定位到整個(gè)頁(yè) 面結(jié)束。如果設(shè)置了本項(xiàng), “定位到記錄開(kāi)始的字符串”也必須設(shè)置。 格式為:定位字符串,后面的“”為可 選項(xiàng)

49、。當(dāng)沒(méi)有本可選項(xiàng)時(shí),表示跳過(guò)的匹配次數(shù)為 0。例如:表示跳過(guò) 1 次匹配, 第 2 次匹配到的為記錄結(jié)束位置。 跳過(guò)的記錄數(shù)目:跳過(guò)的記錄數(shù)目:用于設(shè)定該列表頁(yè)跳過(guò)多少條記錄后開(kāi)始抓取記錄內(nèi)容,缺省為 0,表示不跳過(guò)。通常用于跳過(guò)表頭(此時(shí)應(yīng)設(shè)置為 1) 。此項(xiàng)必須設(shè)定。 是否重新抓取是否重新抓?。河脕?lái)設(shè)定對(duì)于抓取過(guò)的頁(yè)面是否重新抓取。 “是”表示重新抓取, “否” 表示不重新抓取。 是否需要是否需要 unescapeunescape 解碼解碼:如果頁(yè)面內(nèi)容使用 javascript escape 編碼,需要進(jìn)行 unescape 解碼。這種情況下頁(yè)面調(diào)用 javascript 的函數(shù) une

50、scape 解碼,為了獲得解碼后 的內(nèi)容,需要把本項(xiàng)設(shè)置為“是” 。 可接受的頁(yè)面可接受的頁(yè)面 url 連續(xù)重復(fù)次數(shù):連續(xù)重復(fù)次數(shù):抓取頁(yè)面過(guò)程中,url 連續(xù)重復(fù)時(shí),繼續(xù)嘗試的 抓取次數(shù)。假設(shè)其取值為 n,如果實(shí)際的連續(xù) url 重復(fù)次數(shù)大于 n,則不再繼續(xù)抓取。一旦 一個(gè)網(wǎng)頁(yè)的 url 不重復(fù),實(shí)際的 url 連續(xù)重復(fù)次數(shù)從零開(kāi)始重新計(jì)數(shù)。本項(xiàng)的缺省值為 0,表示碰到已抓取過(guò)的網(wǎng)頁(yè),就停止抓取。該項(xiàng)必須輸入且不小于零。 可接受的入庫(kù)連續(xù)失敗次數(shù):可接受的入庫(kù)連續(xù)失敗次數(shù):抓取網(wǎng)頁(yè)過(guò)程中,入庫(kù)連續(xù)失敗時(shí),繼續(xù)嘗試的抓取次 數(shù)。假設(shè)其取值為 n,如果實(shí)際的入庫(kù)連續(xù)失敗次數(shù)大于 n,則不再繼續(xù)抓

51、取。一旦一個(gè)網(wǎng) 頁(yè)成功入庫(kù),實(shí)際的入庫(kù)連續(xù)失敗次數(shù)從零開(kāi)始重新計(jì)數(shù)。本項(xiàng)的缺省值為 0,表示入庫(kù) 一旦失敗,就停止抓取。該項(xiàng)必須輸入且不小于零。 設(shè)置好頁(yè)面各項(xiàng)以后,點(diǎn)擊“新增”按鈕,如果設(shè)置無(wú)誤,會(huì)顯示“增加列表頁(yè)定位 配置信息成功”頁(yè)面,該頁(yè)面會(huì)顯示設(shè)定的各項(xiàng)內(nèi)容。該頁(yè)面有一個(gè)“完成”按鈕,點(diǎn)擊 該按鈕,會(huì)返回頁(yè)面配置的“網(wǎng)站列表” ,這樣完成了該列表頁(yè)的定位配置。 .2.20.修改列表頁(yè)定位配置信息修改列表頁(yè)定位配置信息 在“網(wǎng)站列表”中,選中要進(jìn)行配置的網(wǎng)頁(yè)類型為列表頁(yè)的網(wǎng)站,點(diǎn)擊列表頁(yè)上方或 下方的“頁(yè)面定位配置”按鈕,如果該列表頁(yè)已經(jīng)進(jìn)行過(guò)頁(yè)面定位配置,會(huì)進(jìn)入“修改

52、列 表頁(yè)定位配置信息”頁(yè)面,根據(jù)需要設(shè)置好要修改的項(xiàng),具體設(shè)置方式可參照“增加列表 頁(yè)定位配置信息” ,點(diǎn)擊“保存”按鈕,如果設(shè)置正確無(wú)誤,會(huì)進(jìn)入“修改列表頁(yè)定位配置 信息成功”頁(yè)面,顯示頁(yè)面設(shè)置的內(nèi)容,該頁(yè)面有一個(gè)“完成”按鈕,點(diǎn)擊該按鈕,會(huì)返 回頁(yè)面配置的“網(wǎng)站列表” ,這樣完成了該列表頁(yè)的定位信息修改。 .2.21.下級(jí)頁(yè)面配置下級(jí)頁(yè)面配置 在頁(yè)面配置的“網(wǎng)站列表”頁(yè)面右側(cè)“操作”欄中,點(diǎn)擊“下級(jí)頁(yè)面”鏈接,會(huì)進(jìn)入 “下級(jí)頁(yè)面列表”頁(yè)面:如果選中的網(wǎng)站已經(jīng)配置了下級(jí)頁(yè)面,會(huì)在該列表中顯示出來(lái), 在頁(yè)面右側(cè)“操作”欄中有“修改名稱”和“下級(jí)頁(yè)面”兩個(gè)連接,如果該下級(jí)頁(yè)面還有

53、 下級(jí)頁(yè)面,點(diǎn)擊“下級(jí)頁(yè)面”鏈接,可以看到下級(jí)頁(yè)面列表,在每一個(gè)下級(jí)頁(yè)面列表中都 可以增加新的子頁(yè)面,如此反復(fù)可以到無(wú)限多下級(jí)頁(yè)面,深度抓取頁(yè)面信息;如果沒(méi)有配 置,該列表頁(yè)為空列表頁(yè)。 在每一級(jí)“下級(jí)頁(yè)面列表”頁(yè)面的下方,有五個(gè)按鈕: “頁(yè)面定位信息”:增加或修改選中的子頁(yè)面的“頁(yè)面定位信息” ,頁(yè)面類型為 “列表頁(yè)”的子頁(yè)面頁(yè)面定位設(shè)置同頁(yè)面基本信息的頁(yè)面定位設(shè)置相同,頁(yè)面類 型為“正文頁(yè)”的子頁(yè)面頁(yè)面定位設(shè)置同頁(yè)面基本信息的頁(yè)面定位設(shè)置稍有不同, 缺少了“頁(yè)面 url”項(xiàng)的設(shè)置,其他項(xiàng)設(shè)置相同 “頁(yè)面解析”:對(duì)選中的子頁(yè)面進(jìn)行頁(yè)面解析 “頁(yè)面入庫(kù)”:對(duì)選中的子頁(yè)面進(jìn)行入庫(kù)配置 “增加”:

54、增加新的子頁(yè)面,前提是上級(jí)頁(yè)面進(jìn)行了“頁(yè)面解析” ,并且有解析出 來(lái)的類型為“url”的數(shù)據(jù)項(xiàng)。 “刪除”:刪除選中的子頁(yè)面 .2.22.增加子頁(yè)面增加子頁(yè)面 進(jìn)行該操作之前,必須針對(duì)上一級(jí)頁(yè)面進(jìn)行過(guò)頁(yè)面解析,并且有解析出來(lái)的數(shù)據(jù)類型 為“url”的數(shù)據(jù)項(xiàng),否則系統(tǒng)會(huì)提示“頁(yè)面中不存在數(shù)據(jù)類型為 url 的數(shù)據(jù)項(xiàng)” 。確認(rèn)已 經(jīng)進(jìn)行過(guò)上級(jí)頁(yè)面的解析處理后,在“下級(jí)頁(yè)面列表”中,點(diǎn)擊列表頁(yè)下方的“新增”按 鈕,進(jìn)入“增加子頁(yè)面”頁(yè)面; 按頁(yè)面提示設(shè)置好各項(xiàng),各項(xiàng)具體說(shuō)明如下: 網(wǎng)頁(yè)名稱網(wǎng)頁(yè)名稱:該項(xiàng)必須輸入,設(shè)定要增加的子頁(yè)面的名稱。 網(wǎng)頁(yè)類型網(wǎng)頁(yè)類型:有兩個(gè)選項(xiàng)“列表頁(yè)”和“正

55、文頁(yè)” ,根據(jù)該子頁(yè)面的頁(yè)面類型進(jìn)行設(shè)定, 該項(xiàng)必須設(shè)定。 頁(yè)面調(diào)用方式:頁(yè)面調(diào)用方式:請(qǐng)求子頁(yè)面的方式,有兩個(gè)選項(xiàng):post 和 get,通常應(yīng)設(shè)置為 get。 url 來(lái)源數(shù)據(jù)項(xiàng):來(lái)源數(shù)據(jù)項(xiàng):該列表框會(huì)列出所有上一級(jí)頁(yè)面解析出來(lái)的類型為“url”的數(shù)據(jù) 項(xiàng),選定該子頁(yè)面來(lái)源于哪個(gè) url 數(shù)據(jù)項(xiàng),該項(xiàng)必須設(shè)定。 設(shè)置好頁(yè)面各項(xiàng)以后,點(diǎn)擊“新增”按鈕,如果設(shè)置無(wú)誤,會(huì)顯示“增加頁(yè)面成功” 頁(yè)面,該頁(yè)面會(huì)顯示設(shè)定的各項(xiàng)內(nèi)容。該頁(yè)面有“定位信息設(shè)置”和“完成”兩個(gè)按鈕, 點(diǎn)擊“定位信息設(shè)置”按鈕,進(jìn)行該頁(yè)面的定位信息設(shè)置(頁(yè)面類型為“列表頁(yè)”的子頁(yè) 面頁(yè)面定位設(shè)置同頁(yè)面基本信息的頁(yè)面定位設(shè)置相同

56、,頁(yè)面類型為“正文頁(yè)”的子頁(yè)面頁(yè) 面定位設(shè)置同頁(yè)面基本信息的頁(yè)面定位設(shè)置稍有不同,缺少了“頁(yè)面 url”項(xiàng)的設(shè)置,其 他項(xiàng)設(shè)置相同) 。點(diǎn)擊“完成”按鈕,會(huì)返回“下級(jí)頁(yè)面列表” ,這樣完成了增加子頁(yè)面, “下級(jí)頁(yè)面列表”中會(huì)顯示剛剛增加的頁(yè)面信息。 .2.23.修改修改子頁(yè)面子頁(yè)面 在“下級(jí)頁(yè)面列表”中,點(diǎn)擊列表頁(yè)右側(cè)“操作”欄中的“修改名稱”鏈接,會(huì)進(jìn)入 “修改子頁(yè)面”頁(yè)面,根據(jù)需要設(shè)置好要修改的項(xiàng),具體設(shè)置方式可參照“增加子頁(yè)面” , 其中網(wǎng)頁(yè)類型不能修改。點(diǎn)擊“保存”按鈕,如果設(shè)置正確無(wú)誤,會(huì)進(jìn)入“修改子頁(yè)面成 功”頁(yè)面,顯示頁(yè)面設(shè)置的內(nèi)容,該頁(yè)面有一個(gè)“完成”按鈕,點(diǎn)擊

57、“完成”按鈕,會(huì)返 回“下級(jí)頁(yè)面列表” ,這樣完成了修改子頁(yè)面操作, “下級(jí)頁(yè)面列表”中會(huì)顯示剛剛修改的 頁(yè)面信息。 .2.24.刪除刪除子頁(yè)面子頁(yè)面 在“下級(jí)頁(yè)面列表”中,選中一條記錄,點(diǎn)擊列表頁(yè)下方的“刪除”按鈕,系統(tǒng)會(huì)提 示確認(rèn)信息,確定后刪除該條子頁(yè)面記錄,如果未選中記錄,系統(tǒng)會(huì)提示選中要?jiǎng)h除的記 錄。 .2.25.設(shè)置抓取時(shí)間設(shè)置抓取時(shí)間 設(shè)置抓取時(shí)間可以讓系統(tǒng)在設(shè)定的任意時(shí)間點(diǎn)執(zhí)行抓取操作,可以精確到分鐘。需要 對(duì)小時(shí)、分鐘、月、日以及星期分別設(shè)置。在頁(yè)面配置的“網(wǎng)站列表”中,點(diǎn)擊“設(shè)置抓 取時(shí)間”鏈接,會(huì)進(jìn)入“設(shè)置抓取小時(shí)和分鐘”頁(yè)面。小時(shí)分為 2

58、4 個(gè)復(fù)選框,分鐘分為 60 個(gè)復(fù)選框,小時(shí)和分鐘均可以全部選取,也可以設(shè)定為一個(gè)或多個(gè)值。點(diǎn)擊“下一步” 按鈕進(jìn)行月和日的設(shè)置,月分為 12 個(gè)復(fù)選框,日分為 31 個(gè)復(fù)選框,月和日均可以全部選 取,也可以設(shè)定為一個(gè)或多個(gè)值。點(diǎn)擊“下一步”按鈕進(jìn)行星期的設(shè)置,星期分為 7 個(gè)復(fù) 選框,可以全部選取,也可以設(shè)定為一個(gè)或多個(gè)值。 月、日和星期是兩套并列的時(shí)間單位,需要對(duì)它們進(jìn)行特別的說(shuō)明。 當(dāng)星期指定為一個(gè)星期的所有天數(shù),而月和日也指定為所有月份和一個(gè)月份中的所有 天數(shù)時(shí),表示抓取在每一天中的某些時(shí)間點(diǎn)進(jìn)行,格式如下(以星號(hào)“*”表示所有,下同) : 星期:* 月:* 日:* 當(dāng)星期指定為一個(gè)星

59、期的所有天數(shù),而月和日均不取所有值時(shí),忽略星期的設(shè)置,抓 取在給定月份和該月的某些天進(jìn)行,例如: 星期:* 月:* 日:1,15 表示抓取在每月的 1 號(hào)和 15 號(hào)進(jìn)行。 又如: 星期:* 月:1,4,7,10 日:* 表示抓取在 1 月、4 月、7 月、和 10 月中的每一天進(jìn)行。 再如: 星期:* 月:1,6 日:10,20 表示抓取在 1 月 10 號(hào)、1 月 20 號(hào)以及 6 月 10 號(hào)和 6 月 20 號(hào)進(jìn)行。 當(dāng)明確指定抓取在一個(gè)星期的哪些天進(jìn)行,而月和日指定為所有月份和一個(gè)月份中的 所有天數(shù)時(shí),忽略月和日的設(shè)置,抓取在一個(gè)星期的某些天進(jìn)行,例如: 星期:1,2,3,4,5 月

60、:* 日:* 表示抓取在工作日(星期一到星期五)的任何一天進(jìn)行。 當(dāng)明確指定抓取在一個(gè)星期的哪些天抓取,并且月和日均不取所有值時(shí),星期、月和 日都有效,二者是或(or)的關(guān)系,即:滿足星期的條件或月和日的條件時(shí),都進(jìn)行執(zhí)行 抓取工作,例如: 星期:6,7 月:1,5,10 日:1 表示抓取在周末(星期六和星期天)進(jìn)行,在 1 月 1 號(hào)、5 月 1 號(hào)和 10 月 1 號(hào)也要進(jìn) 行抓取。 設(shè)置完成后,點(diǎn)擊“完成”按鈕,提示設(shè)置成功,點(diǎn)擊“返回”按鈕返回“網(wǎng)站列表” 。 .2.26.抓取抓取 在頁(yè)面配置的“網(wǎng)站列表”中,選中一條記錄,點(diǎn)擊列表頁(yè)上方或下方的“抓取”按 鈕,會(huì)進(jìn)入“

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論