下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
基于廣度優(yōu)先搜索的網(wǎng)絡(luò)蜘蛛設(shè)計
【摘要】網(wǎng)絡(luò)蜘蛛搜索策略的研究是近年來專業(yè)搜索引擎研究的焦點之一,如何使搜索引擎快速準(zhǔn)確地從龐大的網(wǎng)頁數(shù)據(jù)中獲取所需資源的需求是目前所面臨的重要問題。本文重點闡述了搜索引擎的WebSpider(網(wǎng)絡(luò)蜘蛛)的搜索策略和搜索優(yōu)化措施,提出了一種簡單的基于廣度優(yōu)先算法的網(wǎng)絡(luò)蜘蛛設(shè)計方案,并分析了設(shè)計過程中的優(yōu)化措施。【關(guān)鍵詞】搜索引擎;網(wǎng)絡(luò)蜘蛛;搜索策略0引言近年來,隨著Internet技術(shù)的廣泛應(yīng)用,傳統(tǒng)的通用搜索引擎,如Google、Fast、AltaVista和GoTo等正面臨巨大的挑戰(zhàn)。挑戰(zhàn)之一是Web信息資源呈指數(shù)級增長,搜索引擎無法索引所有頁面。據(jù)統(tǒng)計,目前Web上靜態(tài)頁面的數(shù)量超過40億個,而且這一數(shù)量還在以平均每天730萬個頁面的速度遞增。在過去的幾年中,盡管各種通用搜索引擎在索引技術(shù)、索引數(shù)量上有所提高,但遠(yuǎn)遠(yuǎn)無法跟上Web本身的增長速度,即使是目前全球最大的搜索引擎Google,其索引的頁面數(shù)量僅占Web總量的40%;挑戰(zhàn)之二是Web信息資源的動態(tài)變化,搜索引擎無法保證對信息的及時更新。近年來的研究表明,Web上的頁面平均50天就有約50%的頁面發(fā)生變化,而目前通用搜索引擎更新的時間至少需要數(shù)星期之久;挑戰(zhàn)之三是傳統(tǒng)的搜索引擎提供的信息檢索服務(wù),不能滿足人們?nèi)找嬖鲩L的對個性化服務(wù)的需要。因此如何設(shè)計網(wǎng)絡(luò)蜘蛛(WebSpider)來更有效率的爬取互聯(lián)網(wǎng)上的內(nèi)容成為搜索引擎的一個首要問題。在設(shè)計網(wǎng)絡(luò)蜘蛛時,不僅需要充分考慮到爬取的效率和站點設(shè)置的靈活性還要確保系統(tǒng)的穩(wěn)定性。一個優(yōu)秀的搜索引擎,需要不斷的優(yōu)化網(wǎng)絡(luò)蜘蛛的算法,提升其性能。本文在分析網(wǎng)絡(luò)蜘蛛的工作原理的基礎(chǔ)上,提出了一種基于廣度優(yōu)先搜索算法的網(wǎng)絡(luò)蜘蛛的實現(xiàn),并對提高網(wǎng)絡(luò)蜘蛛搜索效率的相關(guān)看法。由于不可能抓取所有的網(wǎng)頁,有些網(wǎng)絡(luò)蜘蛛對一些不太重要的網(wǎng)站,設(shè)置了訪問的層數(shù)。[2]例如,在上圖中,A為起始網(wǎng)頁,屬于0層,B、C、D、E、F屬于第1層,G、H屬于第2層,I屬于第3層。如果網(wǎng)絡(luò)蜘蛛設(shè)置的訪問層數(shù)為2的話,網(wǎng)頁I是不會被訪問到的。這也讓有些網(wǎng)站上一部分網(wǎng)頁能夠在搜索引擎上搜索到,另外一部分不能被搜索到。對于網(wǎng)站設(shè)計者來說,扁平化的網(wǎng)站結(jié)構(gòu)設(shè)計有助于搜索引擎抓取其更多的網(wǎng)頁。網(wǎng)絡(luò)蜘蛛在訪問網(wǎng)站網(wǎng)頁的時候,經(jīng)常會遇到加密數(shù)據(jù)和網(wǎng)頁權(quán)限的問題,有些網(wǎng)頁是需要會員權(quán)限才能訪問。當(dāng)然,網(wǎng)站的所有者可以通過協(xié)議讓網(wǎng)絡(luò)蜘蛛不去抓?。ㄏ滦」?jié)會介紹),但對于一些出售報告的網(wǎng)站,他們希望搜索引擎能搜索到他們的報告,但又不能完全免費的讓搜索者查看,這樣就需要給網(wǎng)絡(luò)蜘蛛提供相應(yīng)的用戶名和密碼。網(wǎng)絡(luò)蜘蛛可以通過所給的權(quán)限對這些網(wǎng)頁進行網(wǎng)頁抓取,從而提供搜索。而當(dāng)搜索者點擊查看該網(wǎng)頁的時候,同樣需要搜索者提供相應(yīng)的權(quán)限驗證。2網(wǎng)絡(luò)蜘蛛的設(shè)計根據(jù)抓取過程,蜘蛛主要分為三個功能模塊,一個是網(wǎng)頁讀取模塊主要是用來讀取遠(yuǎn)程Web服務(wù)器上的網(wǎng)頁內(nèi)容,另一個是超鏈分析模塊,這個模塊主要是分析網(wǎng)頁中的超鏈接,將網(wǎng)頁上的所有超鏈接提取出來,放入到待抓取URL列表中,再一個模塊就是內(nèi)容分析模塊,這個模塊主要是對網(wǎng)頁內(nèi)容進行分析,將網(wǎng)頁中所有超標(biāo)志去掉只留下網(wǎng)頁文字內(nèi)容。蜘蛛的主要工作流程如圖所示。首先蜘蛛讀取抓取站點的URL列表,取出一個站點URL,將其放入未訪問的URL列表(UVURL列表)中,如果UVURL不為空剛從中取出一個URL判斷是否已經(jīng)訪問過,若沒有訪問過則讀取此網(wǎng)頁,并進行超鏈分析及內(nèi)容分析,并將些頁存入文檔數(shù)據(jù)庫,并將些URL放入已訪問URL列表(VURL列表),直到UVRL為空為止,此時再抓取其他站點,依次循環(huán)直到所有的站點URL列表都抓取完為止。為了提高網(wǎng)絡(luò)蜘蛛的抓取效率,需要引入以下技術(shù)。(1)、多線程技術(shù):由于抓取的站點URL相當(dāng)多,采用單線程蜘蛛抓取時速度不夠,也不能滿足實際的需要。因而需要多線程技術(shù)來創(chuàng)建多個蜘蛛線程來同時抓取,以提高速度。(2)、網(wǎng)頁抓?。壕W(wǎng)頁抓取是基于HTTP協(xié)議之上的,網(wǎng)頁上的資源有多種,有網(wǎng)頁,有Word文檔也有其他類型的文件,這樣抓取時需要判斷URL所指向資源的類型。(3)、超鏈分析:超鏈分析是一個比較重要的環(huán)節(jié),需要對HTML的各種標(biāo)志(tag)有一個很全面的了解。需要反復(fù)測試,考慮各種情形的發(fā)生。超鏈分析時從網(wǎng)頁里提取出來的是相對于當(dāng)前頁的相對URL,因而需要根據(jù)當(dāng)前頁的絕對URL將提取的這個URL轉(zhuǎn)換成絕對URL。在此過程中需要根據(jù)ParentURL(就是當(dāng)前頁的URL)作出各種判斷。3改進方法商業(yè)化的蜘蛛需要抓取上億的網(wǎng)頁,因而抓取速度是一個關(guān)鍵,另外蜘蛛需要自動運行,盡是減少人工的參與,因而系統(tǒng)的性能也是一個很重要的關(guān)鍵,系統(tǒng)能夠在發(fā)生異常的時候自動進行處理,防止程序的退出和死機。[3]有一些細(xì)節(jié)需要注意:系統(tǒng)應(yīng)該使用多線程,使用多個蜘蛛同時抓取,在可能的情況下,最好是做成分布式的蜘蛛程序,蜘蛛應(yīng)該分布地網(wǎng)絡(luò)上多臺服務(wù)器上協(xié)同抓取網(wǎng)頁,這樣速度會更快,更符合我們的實際應(yīng)用。對于同一網(wǎng)站的網(wǎng)頁應(yīng)該采用同一個HttpConnection這樣有效地節(jié)省創(chuàng)建一個連接的時間,另外對于抓取的URL采用域名緩沖機制(可在網(wǎng)關(guān)一級上實現(xiàn)),這樣抓取時減少由域名到IP地址的轉(zhuǎn)換時間以及重復(fù)的域名轉(zhuǎn)換。若能做到這一步將會大大減少抓取時間,因為訪問一URL時每次都要進行域名到主機IP地址的轉(zhuǎn)換。最好是能夠?qū)⒆x取網(wǎng)頁、超鏈分析及網(wǎng)頁內(nèi)容分析三部分分開來做,讓它們并行協(xié)同工作,這樣效率會更高。因為在這三個過程中網(wǎng)頁讀取比起其他兩個功能來說是一個長任務(wù),最耗時間。當(dāng)抓取完一網(wǎng)頁后,在抓取下一網(wǎng)頁的時候讓去執(zhí)行超鏈分析和內(nèi)容分析。這樣在下一網(wǎng)頁抓取完成之前超鏈分析和內(nèi)容分析任務(wù)就能完成,抓取任務(wù)不會延遲,這樣節(jié)省了一些時間。4
結(jié)束語隨著人們對“個性化”信息服務(wù)需要的日益增長,專業(yè)搜索引擎的發(fā)展將成為搜索引擎發(fā)展的主要趨勢之一。[4]網(wǎng)絡(luò)蜘蛛搜索策略問題的研究,對專業(yè)搜索引擎的應(yīng)用與發(fā)展具有重要意義。本文對現(xiàn)有的網(wǎng)絡(luò)蜘蛛搜索策略進行了簡單的介紹和分析,提出了
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工業(yè)設(shè)備采購合同樣本
- 股權(quán)抵押借款合同格式示例
- 建筑用沙購銷合同
- 幸福啟航婚戀服務(wù)合同
- 簡易建房合同協(xié)議
- 訂閱報刊的合同書模板
- 工藝美術(shù)品交易合同
- 長期采購合同的績效改進
- 物業(yè)服務(wù)合同協(xié)議范例
- 版合同補充協(xié)議范本
- 中國近現(xiàn)代史綱要智慧樹知到答案2024年北京師范大學(xué)等跨校共建
- JGJ7-2010 空間網(wǎng)格結(jié)構(gòu)技術(shù)規(guī)程
- 建筑工程代付款協(xié)議書
- 判斷推理練習(xí)試卷1(共100題)
- 大學(xué)《物理化學(xué)》期末試卷及答案
- DL-T-1878-2018燃煤電廠儲煤場盤點導(dǎo)則
- 2024年《滿江紅·小住京華》原文及賞析
- 植物病蟲害防治賽項賽題及答案
- 2022-2023學(xué)年遼寧省葫蘆島市綏中縣遼師大版(三起)四年級上學(xué)期期末英語試卷
- 鑄造實訓(xùn)實驗報告
- 正話反說-34-5字詞語
評論
0/150
提交評論