![分布式搜索引擎研究_第1頁](http://file4.renrendoc.com/view/c09809773bacc41923030d2a07fbe60b/c09809773bacc41923030d2a07fbe60b1.gif)
![分布式搜索引擎研究_第2頁](http://file4.renrendoc.com/view/c09809773bacc41923030d2a07fbe60b/c09809773bacc41923030d2a07fbe60b2.gif)
![分布式搜索引擎研究_第3頁](http://file4.renrendoc.com/view/c09809773bacc41923030d2a07fbe60b/c09809773bacc41923030d2a07fbe60b3.gif)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
分布式搜索引擎研究
關(guān)鍵詞分布,搜索引擎,遠程教育,HJ-YHS隨著Internet迅速發(fā)展,WWW(WorldWideWeb簡稱WWW)已成為一個巨大的信息空間,為用戶提供了極具價值的信息資源。而面對大量的信息資源,通過瀏覽器一步步瀏覽已十分不便,如何快捷、準確地從WWW上獲取所需信息,成為至關(guān)重要的問題。搜索引擎的出現(xiàn),大大提高了人們搜集信息的能力。然而,現(xiàn)有的搜索引擎在搜索效率、信息維護、信息重復(fù)、網(wǎng)絡(luò)及站點、負載等方面還存在著問題和困難。目前,從體系結(jié)構(gòu)上看,大部分搜索引擎是集中式的。即從Internet上取回頁面,經(jīng)過分析、處理后將所有的索引信息集中存儲在某個站點,用戶通過訪問該站點實現(xiàn)查詢。它們之間通常沒有什么協(xié)作,各自獨立搜索和處理信息,造成了大量的重復(fù)工作和嚴重的帶寬浪費,有時甚至能造成網(wǎng)絡(luò)阻塞。這種體系結(jié)構(gòu)難以適應(yīng)網(wǎng)絡(luò)規(guī)模的日益擴大,業(yè)界已紛紛提出建立分布式搜索引擎的策略。1分布式搜索引擎分布式搜索引擎是根據(jù)地域、主題、IP地址及其它的劃分標(biāo)準將全網(wǎng)分成若干個自治區(qū)域,在每個自治區(qū)域內(nèi)設(shè)立一個檢索服務(wù)器,而每個檢索服務(wù)器由信息搜索機器人、索引搜索軟件數(shù)據(jù)庫和代理三部分組成。信息搜索機器人負責(zé)本自治區(qū)域內(nèi)的信息搜索,并建立索引信息存入索引數(shù)據(jù)庫。代理負責(zé)向用戶提供查詢接口,并與其它代理進行互換,實現(xiàn)檢索服務(wù)器之間的信息交換,且查詢可以重定向,即如果一個索引數(shù)據(jù)庫沒有滿足查詢要求,它可以將查詢請求發(fā)送到其它檢索服務(wù)器上。1.1分布式搜索引擎體系結(jié)構(gòu)它與集中式搜索引擎相比有以下優(yōu)點:各檢索服務(wù)器之間相互共享資源,站點只向本自治區(qū)域內(nèi)的信息搜索機器人提供信息,減輕了網(wǎng)絡(luò)及各站點的負載。各代理之間的相互協(xié)作及查詢重定向使得提供的服務(wù)更完善。與Web本身的分布式特性相適應(yīng),具有良好的可擴充性,便于維護。索引信息劃分到各自的索引數(shù)據(jù)庫中,使得各索引數(shù)據(jù)庫相對較小,查詢的響應(yīng)時間相對較短。部分檢索服務(wù)器發(fā)生故障時,其它部分能正常工作。Web服務(wù)器集群是一種典型的分布式處理系統(tǒng)。所謂Web集群就是采用高速網(wǎng)絡(luò),將原來獨立的若干個服務(wù)器聯(lián)結(jié)起來,作為一個整體提供服務(wù),把到達的請求分配到集群中的各個后臺服務(wù)器上,讓它們分攤負載及I/O,通過并行處理提高性能。此時涉及到請求分配器及負載平衡的技術(shù)問題。請求分配器集中所有用戶的請求,然后將這些請求分配到各檢索服務(wù)器中進行并行處理。目前此技術(shù)的實現(xiàn)方法主要有IPTranslation、TCPProxy、DynamicDNS和HTTPRedirection,相應(yīng)的典型產(chǎn)品有Cisco的LocalDirector、DistributedDirector、IBM的NetworkDispatcher、UIUCNCSA的ScalableWebServer等。目前請求分配器多采用TCPProxy技術(shù)。每個請求都由客戶程序發(fā)起建立一個獨立的TCP連接,應(yīng)答結(jié)束后由服務(wù)器拆除該連接。在TCPProxy技術(shù)中,請求分配器主要完成以下任務(wù)接收用戶的信息請求,并將其轉(zhuǎn)發(fā)給檢索服務(wù)器;接收檢索服務(wù)器返回的查詢結(jié)果,并將其轉(zhuǎn)發(fā)給客戶;如果一端中斷TCP連接,立即中斷另一端的TCP連接。為了提高請求分配器的效率和吞吐能力多采用多線程和多路阻塞式I/O技術(shù),如Microsoft的InternetInformationServer和Netscape的EnterpriseServer就是采用這兩種技術(shù)。請求分配器的連接監(jiān)聽進程接收到一個來自客戶機的TCP連接后,立即在內(nèi)存中生成一個Worker進程。此后的工作,包括建立與服務(wù)器的TCP連接、接收和發(fā)送數(shù)據(jù)、拆除連接等,均由該線程完成。應(yīng)答結(jié)束后,請求分配器立即從內(nèi)存中刪除該線程。多路阻塞式I/O是通過調(diào)用Select原語實現(xiàn)的,每個Worker進程用這種方法同時監(jiān)聽與客戶機和服務(wù)器的兩個TCP連接。接收數(shù)據(jù)時,如果沒有數(shù)據(jù)到達,Select使線程處于一種開銷極小的休眠狀態(tài),一旦有數(shù)據(jù)到達,立即退出休眠狀態(tài),啟動接收過程接收數(shù)據(jù)。發(fā)送數(shù)據(jù)也如此。負載平衡一般是通過請求分配器選擇目標(biāo)檢索服務(wù)器來實現(xiàn)的。目前常用的請求分配算法主要有“輪轉(zhuǎn)法”、“最少連接法”和“最快連接法”三種。為有效提高請求分配器算法效率,并使算法能夠適應(yīng)異構(gòu)服務(wù)器集群,應(yīng)使請求分配器知道每臺檢索服務(wù)器的處理能力,并能夠?qū)邮盏拿恳挥脩粽埱蟮膬?nèi)容進行分析,同時應(yīng)能夠準確地跟蹤各個服務(wù)器的負載情況。Web服務(wù)器的集群技術(shù)使得處理能力更強,I/O帶寬加大,擴展性好,可靠性高,且容易管理,成本降低。常見的并行Web服務(wù)器集群主要有兩種組成方式:以Cisco的LocalDirector為代表的“隔離式”,采用“最少連接法”或“最快連接法”進行請求分配。以NCSA的ScalableWebServer為代表的“非隔離式”,采用“輪轉(zhuǎn)法”進行請求分配。無論哪種方式,都要求后臺服務(wù)器上的Web信息的訪問路徑和內(nèi)容要完全一樣。二者的區(qū)別在于這些服務(wù)器在Internet上對用戶是否可見?!案綦x式”集群采用類似于Proxy技術(shù),只有請求分配器具有一個對外的IP地址,所有的用戶請求都發(fā)往請求分配器,然后再由請求分配器將請求發(fā)到集群中的各后臺服務(wù)器去處理,返回結(jié)果也由請求分配器返回給客戶?!胺歉綦x式”集群中的每臺服務(wù)器都有獨立的IP地址,請求分配經(jīng)過動態(tài)DNS等實現(xiàn),對請求的應(yīng)答不通過請求分配器,而直接由服務(wù)器傳給客戶。2分布式搜索引擎實例以江蘇省邗江中學(xué)遠程教育信息資源搜索系統(tǒng)——遠航搜索系統(tǒng)(簡稱HJ-YHS)為例。社會的不斷進步和科學(xué)技術(shù)的發(fā)展,教育的各個方面包括教育思想、觀念、教育手段及方式都應(yīng)作出相應(yīng)改革。傳統(tǒng)的教育方式遠遠不能滿足時代發(fā)展的需要。信息時代教學(xué)的一個重要手段就是引入基于WWW的交互式遠程教育。而Internet上資源分散,數(shù)據(jù)類型多,地址變動大,要想迅速找到所需信息并不容易。因此,要將Internet上的信息資源進行集中、分類、整理,建立基于WWW的信息資源導(dǎo)航庫,讓用戶根據(jù)自己的需求快速找到所需資源。HJ-YHS就是基于以上背景而進行開發(fā)設(shè)計,旨在通過建立分布式搜索引擎技術(shù),提高遠程教育中信息資源的搜索效率和精度。1.2.1應(yīng)用體系總體結(jié)構(gòu)及功能實現(xiàn)HJ-YHS系統(tǒng)以WindowsNT4.0為開發(fā)平臺,采用ASP(ActiveServerPage)實現(xiàn)查詢頁面的動態(tài)生成及結(jié)果顯示,后臺的Web服務(wù)器采用IIS4.0,數(shù)據(jù)庫服務(wù)器采用SQLServer7.0以提供數(shù)據(jù)服務(wù),Web客戶端安裝95/98操作系統(tǒng)及IE4.0等瀏覽器,開發(fā)工具使用VisualInterDev6.0或VB6.0等。HJ-YHS特點是:以教育信息、學(xué)術(shù)內(nèi)容為主,服務(wù)對象為各類中學(xué)和教育部門,信息資源也以學(xué)術(shù)水準為選擇條件。按預(yù)先定義好的專題,有選擇性的搜索相關(guān)網(wǎng)頁,避免無關(guān)的Web網(wǎng)頁,并將索引信息存入索引數(shù)據(jù)庫。對產(chǎn)生的大量初步檢索結(jié)果進行分析、歸類,根據(jù)用戶交互反饋信息進一步縮小檢索范圍,提高檢索精度。2.1.1HJ-YHS體系結(jié)構(gòu):2.1.2系統(tǒng)功能模塊:網(wǎng)頁搜索模塊:負責(zé)定期啟動網(wǎng)頁搜集系統(tǒng),根據(jù)給定的站點名在指定的范圍內(nèi)搜集信息。信息分析模塊:對搜集到的網(wǎng)頁進行分析、整理,提取關(guān)鍵字和摘要,將索引信息存入索引數(shù)據(jù)庫。資源上載模塊:接收客戶端的上載文件,并將文件上載至Web服務(wù)器端特定目錄中,同時將有關(guān)信息添加到索引數(shù)據(jù)庫中,該模塊只允許擁有相應(yīng)權(quán)限的用戶使用。ASP信息檢索模塊:由用戶查詢界面啟動,提供三種查詢方式:即基于關(guān)鍵字的查詢、學(xué)科分類查詢和按年級查詢。基于內(nèi)容的查詢根據(jù)用戶提交的信息產(chǎn)生二級查詢界面,進一步明確搜索意向,然后綜合所有用戶信息對網(wǎng)頁的全文進行查詢;基于學(xué)科分類和年級的查詢可根據(jù)用戶的需求,在指定范圍內(nèi)進行檢索。動態(tài)頁面生成模塊:按相關(guān)度大小輸出結(jié)果。動態(tài)生成的頁面中給出查詢產(chǎn)生的頁面標(biāo)題,URL地址,內(nèi)容摘要等。靜態(tài)頁面生成模塊:按學(xué)科專業(yè)目錄分類。靜態(tài)頁面生成模塊根據(jù)目錄生成不同分類的靜態(tài)頁面綜上所述,基于分布式搜索引擎技術(shù)的優(yōu)點,及全球互聯(lián)網(wǎng)上信息資源的迅速增加,在遠程教育領(lǐng)域內(nèi),分布式搜索引擎技術(shù)將會得到更廣泛的發(fā)展。參考文獻
1朱義軍,馬范援,白英彩.分布式搜索引擎與Z39.50協(xié)議.世界網(wǎng)絡(luò)與多媒體,Jan.1999
2翁惠
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 丁二烯法合成氯丁橡膠生產(chǎn)裝置項目可行性研究報告模板-備案拿地
- 2024-2025學(xué)年河北省尚義縣第一中學(xué)等校高二上學(xué)期12月月考歷史試卷
- 2025年債務(wù)轉(zhuǎn)股權(quán)協(xié)議標(biāo)準格式
- 2025年古園林保護性維護協(xié)議
- 2025年農(nóng)產(chǎn)品交易市場租賃合同模板
- 2025年功能性棚模新材料及各種助劑項目提案報告
- 2025年企業(yè)與個人租車合同模板及規(guī)定
- 2025年長租公寓項目立項申請報告范文
- 2025年家居用品商貿(mào)公司采購協(xié)議書
- 2025年綠色共享汽車合作投資與發(fā)展策劃協(xié)議
- 商業(yè)銀行的風(fēng)險審計與內(nèi)部控制
- 2024項目管理人員安全培訓(xùn)考試題及參考答案AB卷
- 2025年與商場合作協(xié)議樣本(5篇)
- 2024年12月青少年機器人技術(shù)等級考試理論綜合試卷(真題及答案)
- 網(wǎng)絡(luò)與社交媒體管理制度
- 2025年春新外研版(三起)英語三年級下冊課件 Unit1第1課時Startup
- 2025年安徽碳鑫科技有限公司招聘筆試參考題庫含答案解析
- 2025廣東珠海高新區(qū)科技產(chǎn)業(yè)局招聘專員1人歷年高頻重點提升(共500題)附帶答案詳解
- 數(shù)學(xué)-福建省泉州市2024-2025學(xué)年高三上學(xué)期質(zhì)量監(jiān)測(二)試卷和答案(泉州二模)
- 潤滑油、潤滑脂培訓(xùn)課件
- 2025年寒假實踐特色作業(yè)設(shè)計模板
評論
0/150
提交評論