版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
heritrix的配置和抓取任務(wù)的創(chuàng)建配置:1?下載heritrix-1.14.3:(當(dāng)然也可以是最新的版本)http:〃/prcjects/archive-crawler/files/archive-crawler%20%28heritrix%201.x%29/1.14.3/heritrix-1.14.3.zip/download解壓到D:\dev\heritrix-1.14.33把heritrix-1.14.3.jar解壓并把里面的profiles文件夾拷到conf下4.修改conf目錄下的perties為heritrix.cmdline.admin=admin:admin(表示用戶名和密碼都是admin,用:分開(kāi))heritrix.cmdline.port=80804.把conf目錄下的jmxremote.password.template修改其中的:并修改monitorRole@PASSWORD@controlRole@PASSWORD@為:monitorRoleadmincontrolRoleletmein另存為jmxremote.password并移動(dòng)到D:\dev\heritrix-1.14.3目錄下,最后將其屬性設(shè)為"readonly"5?設(shè)置環(huán)境變量:在系統(tǒng)變量里新建HERITRIX_HOME=D:\dev\heritrix-1.14.3并在系統(tǒng)變量的path后添加;%HERITRIX_HOME%\bin6.在命令行下輸入heritrix--admin=admin:admin啟動(dòng)heritrix。抓取任務(wù)的創(chuàng)建:1?在地址欄輸入http://localhost:8080出現(xiàn)heritrix,說(shuō)明已經(jīng)啟動(dòng)成功。輸入用戶名和密碼并登陸。2?點(diǎn)擊"Jobs"標(biāo)簽頁(yè)會(huì)出現(xiàn):CreateNewJobBasedonexistingjobBasedonarecoveryBasedonaprofileWithdefaults第一次創(chuàng)建就選"Withdefaults",輸入Nameofnewjob,Description,seeds的地址,seeds的地址要特別注意,比如/(最后那個(gè)/是必須的),如果要輸入多個(gè)url,可以用回車(chē)隔開(kāi),也就是每行一個(gè)url。點(diǎn)下面的"modules"設(shè)置Writers把默認(rèn)的ARCWriterProcessor刪除添加MirrorWriterProcessor。4?點(diǎn)"settings"設(shè)置http-headers(這是非常非常重要的一點(diǎn),當(dāng)時(shí)折磨了我一個(gè)多小時(shí),都快崩潰了,不過(guò)關(guān)鍵是我沒(méi)好好利用起我那本書(shū),要不然就不至于這么慘烈)給個(gè)例子吧,就全明白了:user-agent:IE/7.0(compatible;heritrix/1.14.3+40)from:xxx@163.com最重要的是user-agent中http前的那個(gè)+號(hào),我就因?yàn)樗恢睕](méi)跑通,from中填寫(xiě)email地址,只要是email格式的就行5?最后點(diǎn)擊“submitjob"就完成了job的創(chuàng)建6?點(diǎn)“Console"中的start就能開(kāi)始抓取任務(wù),然后我們就可以在JobStatus看到任務(wù)的執(zhí)行情況。在Eclipse里配置Heritrix的開(kāi)發(fā)環(huán)境我在學(xué)習(xí)<<開(kāi)發(fā)自己的搜索引擎——Lucene2.0+Heritrix>>—書(shū)時(shí)對(duì)Heritrix的配置感到很迷惑,現(xiàn)在Heritrix已經(jīng)出到了第Heritrixl.14.4版本了,看到書(shū)上的配置覺(jué)得很復(fù)雜,于在網(wǎng)上找了一些資料,發(fā)現(xiàn)眾說(shuō)紛紛,但是還好,每個(gè)人的做法都有一定的道理,最主要的說(shuō)當(dāng)用別人說(shuō)的方法不對(duì),能夠找出解決方法,我在網(wǎng)上參考了一種方法,但是按照他的做法做下來(lái),卻有錯(cuò)誤,還好,我及時(shí)的改正過(guò)來(lái)了,實(shí)現(xiàn)起來(lái)很方便的,只要幾分鐘的時(shí)間就可以配置好了?以下是我總結(jié)后的方法,以供大家參考.首先到1、 下載heritrix-1.14.1-src.zip和heritrix-1.14.1.zip兩個(gè)壓縮包,并解壓,以后分別簡(jiǎn)稱(chēng)SRC包和ZIP包;2、 在Eclipse下新建Java項(xiàng)目,取名Heritrix;(如我打開(kāi)Eclipse的工作區(qū)在D:\eclipse\search下,當(dāng)我建了項(xiàng)目Heritrix后,我就可以找到D:\eclipse\search\Heritrix文件夾?其中包含兩個(gè)工程屬性文件.classpath和.project。有的人建了后還有兩個(gè)文件目錄bin和src,如果有的話可以刪除掉兩個(gè)文件目錄bin和src。之所以有src包的原因是因?yàn)樵诮üこ虝r(shí)沒(méi)有設(shè)置好就跳過(guò)next直接點(diǎn)finish了,建工程如下圖可保無(wú)src和bin包:projectlayout選擇"Useprojectfolderasrootforsourcesandclassfiles")
3、 復(fù)制SRC包下面src/java文件夾下org、com、st三個(gè)文件夾到項(xiàng)目根目錄(即D:\eclipse\search\Heritrix);4、 復(fù)制SRC包下src下resources文件夾到項(xiàng)目根目錄;打開(kāi)conf將其下所有文件復(fù)制到項(xiàng)目根目錄。5、 復(fù)制SRC包下lib文件夾到項(xiàng)目根目錄;6、 復(fù)制ZIP包下webapps文件夾到項(xiàng)目根目錄;做好了以上,在Eclipse中Heritrix項(xiàng)目右擊刷新一下,就可以看到剛才所復(fù)制的包了。7、 在Eclipse中修改項(xiàng)目conf下perties文件(修改內(nèi)容至少兩個(gè)兩個(gè)地方:@VERSION@改為1.14.3heritrix.cmdline.admin=改為heritrix.cmdline.admin=admin:xxm(這里是用戶名與密碼,可任讀者設(shè)定?)heritrix.cmdline.port=改為heritrix.cmdline.port=8080(注默認(rèn)是8080的如果你已占用了這個(gè)端口號(hào)的話,要設(shè)另一個(gè)才行,因?yàn)槲抑鞍惭b了tomcat,所以這里改為8090)配置Hperties,主要配置四項(xiàng):如下紅色部分所示###############################################################################Propertieswithprefixes'heritrix.'/org.archive.',or'system.'prefix
#getcopiedintoSpertiesonstartupsoavailablevia#System.getProperties.(For'system.'properties,thatprefixisstripped.#(SeeHeritrix.loadProperties()).#Versionisfilledinbythemaven.xmlpregoal.Itcopiesheretheproject#currentVersionproperty.heritrix.version=1.14.1#Locationoftheheritrixjobsdirectory.dir=jobs#Defaultcommandlinestartupvalues.#Belowvaluesareusedifunspecifiedonthecommandline.heritrix.cmdline.admin=admin:adminheritrix.cmdline.port=8088heritrix.cmdline.run=falseheritrix.cmdline.nowui=falseheritrix.cmdline.order=heritrix.cmdline.jmxserver=falseheritrix.cmdline.jmxserver.port=8081##############################################################################改好了以上的,別忘了保存一下哦.8、在項(xiàng)目Heritrix上右鍵選擇構(gòu)建路徑->配置構(gòu)建路徑->庫(kù)選項(xiàng)卡->添加Jar,將lib目錄下的所有.jar文件選中,點(diǎn)擊完成!預(yù)期出現(xiàn)的錯(cuò)誤:1,提示如下圖C:\ProgramFiles\Java\jrefillib\rtjC:\ProgramFiles\Java\jrefillib\rtjar囚ArchiveUtik.j日va |期Heritrix.java關(guān) importorg.azuhi■▽已.crawler1.s已If匸已st.SelfT已stCrawlJobHandler;importorg.archive.crawler.settings.XMLSettingsHandler;importorg.archive?io?SinkHandler;importorg.archive.io.SinkHandlerLogRecord;;?UUR1;importorg.airchi■▽已.ucil.FileUtils:importorg.archive.util.IoUtils;importorg.archive?JmxU匸ils;importorg.archive.util.JndiUtils;importorg.archive?util?P工opertYlItils;importorg.airchi■▽已.ucil.Tex匸Utils:119工程中的錯(cuò)誤如下所示:tsPackageExplorer卻 ▽1=1戸0Heritrix ▲田com.sleepycat.collections田jobs -電mons.httpclient護(hù)mons.httpclient.cookie護(hù)mons.pool.implorg.archive田org.archive.crawlerJ7]CommandLineParser.java冋Heritrix.java121122JT]SimpleHttpServer.java121122[J]WebappLifecycle.java凸doc-files解決方法:根據(jù)提示,需要訪問(wèn)rt.jar,那么我們就把C:\ProgramFiles\Java\jre6\lib\rt.jar拷到項(xiàng)目工程中,并構(gòu)建路徑,錯(cuò)誤解決。2,運(yùn)行heritrix1.14.4報(bào)錯(cuò)thread-10org.archive.util.ArchiveUtils.<clinit>()TLDlistunavailable10:02:59.968EVENTStartingJetty/4.2.2310:03:00.765EVENTStartedWebApplicationContext[/,HeritrixConsole]10:03:00.859EVENTThescratchDiryouspecified:F:\project3.5\heritrix\target\jsp—compiled—developmentisunusable?10:03:01.000EVENTStartedSocketListeneron:808810:03:01.000EVENT Startedorg.mortbay.jetty?Server@1f6ba0f2010—07—1010:03:01.250嚴(yán)重thread—10org.archive.util.ArchiveUtils.〈clinit>()TLDlistunavailablejava.lang.NullPointerExceptionatjava?io.Reader?〈init>(UnknownSource)atjava.io.InputStreamReader.〈init>(UnknownSource)atorg.archive.util.ArchiveUtils.〈clinit>(ArchiveUtils.java:759)atorg.archive.crawler.settings.CrawlSettingsSAXHandler$DateHandler.endElement(CrawlSettingsSAXHandler.java:385)atorg.archive.crawler.settings.CrawlSettingsSAXHandler.endElement(CrawlSettingsSAXHandler.java:248)at.ernal.parsers.AbstractSAXParserndElement(UnknownSource)ernal.impl.XMLDocumentFragmentScannerlmpl.scanEndElement(UnknownSource)ernal.impl.XMLDocumentFragmentScannerImpl$FragmentContentDispatcher.dispatch(UnknownSource)ernal.impl.XMLDocumentFragmentScannerlmpl.scanDocument(UnknownSource)ernal.parsers.XML11Configuration.parse(UnknownSource)ernal.parsers.XML11Configuration.parse(UnknownSource)ernal.parsers.XMLParser.parse(UnknownSource)ernal.parsers.AbstractSAXParseparse(UnknownSource)atorg.archive.crawler.settings.XMLSettingsHandler.readSettingsObject(XMLSettingsHandler.java:298)atorg.archive.crawler.settings.XMLSettingsHandler.readSettingsObject(XMLSettingsHandler.java:339)atorg.archive.crawler.settings.SettingsHandler.initialize(SettingsHandler.java:130)atorg.archive.crawler.settings.XMLSettingsHandler.initialize(XMLSettingsHandler.java:124)atorg.archive.crawler.admin.CrawlJobHandlerloadProfile(CrawlJobHandler.java:385)atorg.archive.crawler.admin.CrawlJobHandlerloadProfiles(CrawlJobHandler.java:348)atorg.archive.crawler.admin.CrawlJobHandler〈init>(CrawlJobHandler.java:217)atorg.archive.crawler.admin.CrawlJobHandler〈init>(CrawlJobHandler.java:186)atorg.archive.crawler.Heritrix.〈init>(Heritrix.java:405)atorg.archive.crawler.Heritrix.<init>(Heritrix.java:393)atorg.archive.crawler.Heritrix.doCmdLineArgs(Heritrix.java:718)atorg.archive.crawler.Heritrix.main(Heritrix.java:556)雖然報(bào)錯(cuò),但是可以進(jìn)入登陸頁(yè)面,UI已經(jīng)正常啟動(dòng)。經(jīng)過(guò)幾個(gè)小時(shí)調(diào)試,發(fā)現(xiàn)是少了一個(gè)名字為tlds-alpha-by-domain.txt的文件。發(fā)布包中對(duì)應(yīng)位置是有該文件的,具體位置為org\archive\util,在該路徑下補(bǔ)充該文件就不報(bào)錯(cuò)了。至于該文件的用途還不清楚,有高手可以指點(diǎn)一下。該文件可以在源文件包src\resources路徑下找到。如果在運(yùn)行時(shí)出現(xiàn)NullPointerException錯(cuò)誤,多半是少了某個(gè)文件,可以自行解決。9、在項(xiàng)目/src/org.archive.crawler包下Heritrix.java上點(diǎn)擊右鍵選運(yùn)行方式->運(yùn)行為應(yīng)用程序.如果?切正常,運(yùn)行后的控制臺(tái)顯示了:可能各都不一樣,大約意思是這樣了.12:1&12.703EVENTStartingJetty/4.2.2312:1&12.937EVENTStartedWebApplicationContext[/,HeritrixConsole]12:18:13.062EVENTStartedSocketListeneron:809012:18:13.062EVENTStartedHeritrixversion:1.14.3這時(shí)你可以打開(kāi)瀏覽器,輸入或然后輸入你的剛才設(shè)的用戶名和密碼就可以登錄Heritrix
總結(jié):本人按別人的方法做時(shí),發(fā)現(xiàn)了錯(cuò)在了源類(lèi)包的路徑不對(duì)?即在Eclipse中類(lèi)的源代碼中發(fā)現(xiàn)包的位置顯示了錯(cuò),于是按照類(lèi)中源代碼的的的包路徑重新調(diào)整了各包的位置,于是就對(duì)了,讀者如果出現(xiàn)這樣問(wèn)題可以自己查看一下做合當(dāng)?shù)恼{(diào)整.同時(shí),大約是只要把這幾個(gè)必須有的包都復(fù)制到了,就可以了。注:如由于大家出現(xiàn)了一些問(wèn)題?下面我給出了結(jié)構(gòu)圖,這是配置完后能運(yùn)行的工程,各位如果不一樣,可以自行調(diào)整?下面是兩個(gè)圖,由于太多了,中間的包就略了一些,大家查看?因?yàn)槟壳坝悬c(diǎn)忙,沒(méi)有能回答大家的問(wèn)題,請(qǐng)諒.byby?1mr&MPrfirfirfirtirfirtirfirtirfirnrnrnrfnrtirtirfirfimrfirtirfirnrtirfirfi3rfirtnrfnrtirfirti-H-r雖tptptp丑tp占tp屈以tpm廣u占tp^3tp-£t^tptp£^£tptpT?Jpm.a-?-?*:s- * mons,hitpcl1entorg.ap^mons,httpclient.cookieorg.apache,commoiis.pool,implorg.archive.crawlerorg.archive.crawler.adniiriorg.arehiv-&.cr^wler.乞血ixv.archive.crawler.latamodelorg.archive.crawler.d.atamodel.credentialorg.archive.crawler.Aecilerulesor$?archiv-a?cr^wler?dEcidExulew?recra.wlorg.archive.crawler.eventorg.archive.crawler.extractororg.archive.crawler.fetcherorg.arehiv-&.cr^wler.filterorg.archive.crawler.frameworkorg.archive.crawler.fr^jnework.excep七ionsorg.archive.crawler.fronti*archiv-a?cr^wler?cessororg.arehiv-&.cr^cessor.recr^wlorg.archive.crawler.scopeorg.archive.crawler.selftestorg.archive.crawler.settingsarchiv-e?cr^wler?settings?r?efiorg.archive.crawler.urlorg.archive.crawler.url.canorticalizeorg.archive.crawler.utilorg.arehiv-&.cr^wler.writerorg.archive.extractororg.archive.httpclientE-E-:l±l-?:l±l-?:l±l-?:EI-":[±]-?:EEI-?:l±l-?:l
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年青島房地產(chǎn)交易稅收優(yōu)惠政策合同
- 2024年金融科技產(chǎn)品研發(fā)與測(cè)試合同
- 2025年度城市基礎(chǔ)設(shè)施建設(shè)與運(yùn)營(yíng)管理服務(wù)合同3篇
- 2024年網(wǎng)絡(luò)劇拍攝聯(lián)合協(xié)議:場(chǎng)地、技術(shù)與創(chuàng)意共享2篇
- 2024年新能源汽車(chē)租賃與充電設(shè)施運(yùn)營(yíng)維護(hù)合同3篇
- 2024年項(xiàng)目部木工班組安全施工及現(xiàn)場(chǎng)安全管理協(xié)議3篇
- 2024年車(chē)輛交易綜合服務(wù)協(xié)議模板一
- 2024門(mén)窗行業(yè)技術(shù)升級(jí)改造項(xiàng)目合同3篇
- 2025年度文化產(chǎn)業(yè)項(xiàng)目投資合作協(xié)議書(shū)6篇
- 2025年度材料回收利用合同修訂版模板3篇
- 專(zhuān)項(xiàng)債券培訓(xùn)課件
- 2025年1月普通高等學(xué)校招生全國(guó)統(tǒng)一考試適應(yīng)性測(cè)試(八省聯(lián)考)語(yǔ)文試題
- CNAS-CL01-G001:2024檢測(cè)和校準(zhǔn)實(shí)驗(yàn)室能力認(rèn)可準(zhǔn)則的應(yīng)用要求
- 校園重點(diǎn)防火部位消防安全管理規(guī)定(3篇)
- 臨時(shí)施工圍擋安全應(yīng)急預(yù)案
- ICP-網(wǎng)絡(luò)與信息安全保障措施-1.信息安全管理組織機(jī)構(gòu)設(shè)置及工作職責(zé)
- 暨南大學(xué)珠海校區(qū)財(cái)務(wù)辦招考財(cái)務(wù)工作人員管理單位遴選500模擬題附帶答案詳解
- 碼頭安全生產(chǎn)管理制度
- 部隊(duì)冬季常見(jiàn)病的防治
- DB51-T 2944-2022 四川省社會(huì)組織建設(shè)治理規(guī)范
- 4《古詩(shī)三首》(說(shuō)課稿)2024-2025學(xué)年統(tǒng)編版語(yǔ)文三年級(jí)上冊(cè)
評(píng)論
0/150
提交評(píng)論