下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
分布式搜索引擎研究
關(guān)鍵詞分布,搜索引擎,遠(yuǎn)程教育,HJ-YHS隨著Internet迅速發(fā)展,WWW(WorldWideWeb簡稱WWW)已成為一個巨大的信息空間,為用戶提供了極具價值的信息資源。而面對大量的信息資源,通過瀏覽器一步步瀏覽已十分不便,如何快捷、準(zhǔn)確地從WWW上獲取所需信息,成為至關(guān)重要的問題。搜索引擎的出現(xiàn),大大提高了人們搜集信息的能力。然而,現(xiàn)有的搜索引擎在搜索效率、信息維護(hù)、信息重復(fù)、網(wǎng)絡(luò)及站點、負(fù)載等方面還存在著問題和困難。目前,從體系結(jié)構(gòu)上看,大部分搜索引擎是集中式的。即從Internet上取回頁面,經(jīng)過分析、處理后將所有的索引信息集中存儲在某個站點,用戶通過訪問該站點實現(xiàn)查詢。它們之間通常沒有什么協(xié)作,各自獨立搜索和處理信息,造成了大量的重復(fù)工作和嚴(yán)重的帶寬浪費,有時甚至能造成網(wǎng)絡(luò)阻塞。這種體系結(jié)構(gòu)難以適應(yīng)網(wǎng)絡(luò)規(guī)模的日益擴大,業(yè)界已紛紛提出建立分布式搜索引擎的策略。1分布式搜索引擎分布式搜索引擎是根據(jù)地域、主題、IP地址及其它的劃分標(biāo)準(zhǔn)將全網(wǎng)分成若干個自治區(qū)域,在每個自治區(qū)域內(nèi)設(shè)立一個檢索服務(wù)器,而每個檢索服務(wù)器由信息搜索機器人、索引搜索軟件數(shù)據(jù)庫和代理三部分組成。信息搜索機器人負(fù)責(zé)本自治區(qū)域內(nèi)的信息搜索,并建立索引信息存入索引數(shù)據(jù)庫。代理負(fù)責(zé)向用戶提供查詢接口,并與其它代理進(jìn)行互換,實現(xiàn)檢索服務(wù)器之間的信息交換,且查詢可以重定向,即如果一個索引數(shù)據(jù)庫沒有滿足查詢要求,它可以將查詢請求發(fā)送到其它檢索服務(wù)器上。1.1分布式搜索引擎體系結(jié)構(gòu)它與集中式搜索引擎相比有以下優(yōu)點:各檢索服務(wù)器之間相互共享資源,站點只向本自治區(qū)域內(nèi)的信息搜索機器人提供信息,減輕了網(wǎng)絡(luò)及各站點的負(fù)載。各代理之間的相互協(xié)作及查詢重定向使得提供的服務(wù)更完善。與Web本身的分布式特性相適應(yīng),具有良好的可擴充性,便于維護(hù)。索引信息劃分到各自的索引數(shù)據(jù)庫中,使得各索引數(shù)據(jù)庫相對較小,查詢的響應(yīng)時間相對較短。部分檢索服務(wù)器發(fā)生故障時,其它部分能正常工作。Web服務(wù)器集群是一種典型的分布式處理系統(tǒng)。所謂Web集群就是采用高速網(wǎng)絡(luò),將原來獨立的若干個服務(wù)器聯(lián)結(jié)起來,作為一個整體提供服務(wù),把到達(dá)的請求分配到集群中的各個后臺服務(wù)器上,讓它們分?jǐn)傌?fù)載及I/O,通過并行處理提高性能。此時涉及到請求分配器及負(fù)載平衡的技術(shù)問題。請求分配器集中所有用戶的請求,然后將這些請求分配到各檢索服務(wù)器中進(jìn)行并行處理。目前此技術(shù)的實現(xiàn)方法主要有IPTranslation、TCPProxy、DynamicDNS和HTTPRedirection,相應(yīng)的典型產(chǎn)品有Cisco的LocalDirector、DistributedDirector、IBM的NetworkDispatcher、UIUCNCSA的ScalableWebServer等。目前請求分配器多采用TCPProxy技術(shù)。每個請求都由客戶程序發(fā)起建立一個獨立的TCP連接,應(yīng)答結(jié)束后由服務(wù)器拆除該連接。在TCPProxy技術(shù)中,請求分配器主要完成以下任務(wù)接收用戶的信息請求,并將其轉(zhuǎn)發(fā)給檢索服務(wù)器;接收檢索服務(wù)器返回的查詢結(jié)果,并將其轉(zhuǎn)發(fā)給客戶;如果一端中斷TCP連接,立即中斷另一端的TCP連接。為了提高請求分配器的效率和吞吐能力多采用多線程和多路阻塞式I/O技術(shù),如Microsoft的InternetInformationServer和Netscape的EnterpriseServer就是采用這兩種技術(shù)。請求分配器的連接監(jiān)聽進(jìn)程接收到一個來自客戶機的TCP連接后,立即在內(nèi)存中生成一個Worker進(jìn)程。此后的工作,包括建立與服務(wù)器的TCP連接、接收和發(fā)送數(shù)據(jù)、拆除連接等,均由該線程完成。應(yīng)答結(jié)束后,請求分配器立即從內(nèi)存中刪除該線程。多路阻塞式I/O是通過調(diào)用Select原語實現(xiàn)的,每個Worker進(jìn)程用這種方法同時監(jiān)聽與客戶機和服務(wù)器的兩個TCP連接。接收數(shù)據(jù)時,如果沒有數(shù)據(jù)到達(dá),Select使線程處于一種開銷極小的休眠狀態(tài),一旦有數(shù)據(jù)到達(dá),立即退出休眠狀態(tài),啟動接收過程接收數(shù)據(jù)。發(fā)送數(shù)據(jù)也如此。負(fù)載平衡一般是通過請求分配器選擇目標(biāo)檢索服務(wù)器來實現(xiàn)的。目前常用的請求分配算法主要有“輪轉(zhuǎn)法”、“最少連接法”和“最快連接法”三種。為有效提高請求分配器算法效率,并使算法能夠適應(yīng)異構(gòu)服務(wù)器集群,應(yīng)使請求分配器知道每臺檢索服務(wù)器的處理能力,并能夠?qū)邮盏拿恳挥脩粽埱蟮膬?nèi)容進(jìn)行分析,同時應(yīng)能夠準(zhǔn)確地跟蹤各個服務(wù)器的負(fù)載情況。Web服務(wù)器的集群技術(shù)使得處理能力更強,I/O帶寬加大,擴展性好,可靠性高,且容易管理,成本降低。常見的并行Web服務(wù)器集群主要有兩種組成方式:以Cisco的LocalDirector為代表的“隔離式”,采用“最少連接法”或“最快連接法”進(jìn)行請求分配。以NCSA的ScalableWebServer為代表的“非隔離式”,采用“輪轉(zhuǎn)法”進(jìn)行請求分配。無論哪種方式,都要求后臺服務(wù)器上的Web信息的訪問路徑和內(nèi)容要完全一樣。二者的區(qū)別在于這些服務(wù)器在Internet上對用戶是否可見。“隔離式”集群采用類似于Proxy技術(shù),只有請求分配器具有一個對外的IP地址,所有的用戶請求都發(fā)往請求分配器,然后再由請求分配器將請求發(fā)到集群中的各后臺服務(wù)器去處理,返回結(jié)果也由請求分配器返回給客戶?!胺歉綦x式”集群中的每臺服務(wù)器都有獨立的IP地址,請求分配經(jīng)過動態(tài)DNS等實現(xiàn),對請求的應(yīng)答不通過請求分配器,而直接由服務(wù)器傳給客戶。2分布式搜索引擎實例以江蘇省邗江中學(xué)遠(yuǎn)程教育信息資源搜索系統(tǒng)——遠(yuǎn)航搜索系統(tǒng)(簡稱HJ-YHS)為例。社會的不斷進(jìn)步和科學(xué)技術(shù)的發(fā)展,教育的各個方面包括教育思想、觀念、教育手段及方式都應(yīng)作出相應(yīng)改革。傳統(tǒng)的教育方式遠(yuǎn)遠(yuǎn)不能滿足時代發(fā)展的需要。信息時代教學(xué)的一個重要手段就是引入基于WWW的交互式遠(yuǎn)程教育。而Internet上資源分散,數(shù)據(jù)類型多,地址變動大,要想迅速找到所需信息并不容易。因此,要將Internet上的信息資源進(jìn)行集中、分類、整理,建立基于WWW的信息資源導(dǎo)航庫,讓用戶根據(jù)自己的需求快速找到所需資源。HJ-YHS就是基于以上背景而進(jìn)行開發(fā)設(shè)計,旨在通過建立分布式搜索引擎技術(shù),提高遠(yuǎn)程教育中信息資源的搜索效率和精度。1.2.1應(yīng)用體系總體結(jié)構(gòu)及功能實現(xiàn)HJ-YHS系統(tǒng)以WindowsNT4.0為開發(fā)平臺,采用ASP(ActiveServerPage)實現(xiàn)查詢頁面的動態(tài)生成及結(jié)果顯示,后臺的Web服務(wù)器采用IIS4.0,數(shù)據(jù)庫服務(wù)器采用SQLServer7.0以提供數(shù)據(jù)服務(wù),Web客戶端安裝95/98操作系統(tǒng)及IE4.0等瀏覽器,開發(fā)工具使用VisualInterDev6.0或VB6.0等。HJ-YHS特點是:以教育信息、學(xué)術(shù)內(nèi)容為主,服務(wù)對象為各類中學(xué)和教育部門,信息資源也以學(xué)術(shù)水準(zhǔn)為選擇條件。按預(yù)先定義好的專題,有選擇性的搜索相關(guān)網(wǎng)頁,避免無關(guān)的Web網(wǎng)頁,并將索引信息存入索引數(shù)據(jù)庫。對產(chǎn)生的大量初步檢索結(jié)果進(jìn)行分析、歸類,根據(jù)用戶交互反饋信息進(jìn)一步縮小檢索范圍,提高檢索精度。2.1.1HJ-YHS體系結(jié)構(gòu):2.1.2系統(tǒng)功能模塊:網(wǎng)頁搜索模塊:負(fù)責(zé)定期啟動網(wǎng)頁搜集系統(tǒng),根據(jù)給定的站點名在指定的范圍內(nèi)搜集信息。信息分析模塊:對搜集到的網(wǎng)頁進(jìn)行分析、整理,提取關(guān)鍵字和摘要,將索引信息存入索引數(shù)據(jù)庫。資源上載模塊:接收客戶端的上載文件,并將文件上載至Web服務(wù)器端特定目錄中,同時將有關(guān)信息添加到索引數(shù)據(jù)庫中,該模塊只允許擁有相應(yīng)權(quán)限的用戶使用。ASP信息檢索模塊:由用戶查詢界面啟動,提供三種查詢方式:即基于關(guān)鍵字的查詢、學(xué)科分類查詢和按年級查詢?;趦?nèi)容的查詢根據(jù)用戶提交的信息產(chǎn)生二級查詢界面,進(jìn)一步明確搜索意向,然后綜合所有用戶信息對網(wǎng)頁的全文進(jìn)行查詢;基于學(xué)科分類和年級的查詢可根據(jù)用戶的需求,在指定范圍內(nèi)進(jìn)行檢索。動態(tài)頁面生成模塊:按相關(guān)度大小輸出結(jié)果。動態(tài)生成的頁面中給出查詢產(chǎn)生的頁面標(biāo)題,URL地址,內(nèi)容摘要等。靜態(tài)頁面生成模塊:按學(xué)科專業(yè)目錄分類。靜態(tài)頁面生成模塊根據(jù)目錄生成不同分類的靜態(tài)頁面綜上所述,基于分布式搜索引擎技術(shù)的優(yōu)點,及全球互聯(lián)網(wǎng)上信息資源的迅速增加,在遠(yuǎn)程教育領(lǐng)域內(nèi),分布式搜索引擎技術(shù)將會得到更廣泛的發(fā)展。參考文獻(xiàn)
1朱義軍,馬范援,白英彩.分布式搜索引擎與Z39.50協(xié)議.世界網(wǎng)絡(luò)與多媒體,Jan.1999
2翁惠
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 政府公共關(guān)系(第二版)課件 第10章 政府政策過程中的傳播
- 暢想青春演講稿
- 小孩八佰觀后感心得體會
- 讀《鋼鐵是怎樣煉成的》有感6篇
- 周黑鴨亞博市場前景調(diào)研分析報告
- 設(shè)備管理制度15
- 河南省安陽市第十二中學(xué)2022-2023學(xué)年高三地理月考試題含解析
- 商店門面租賃合同
- 房屋租賃合同是怎樣模板
- 商鋪承包租賃合同書
- 乳腺腔鏡手術(shù)介紹
- 服裝的生產(chǎn)方案
- JTGT F20-2015 公路路面基層施工技術(shù)細(xì)則
- 機械加工廠計劃管理
- 太陽能光伏發(fā)電系統(tǒng)最大功率點跟蹤技術(shù)研究
- 幼兒教師專業(yè)發(fā)展及《幼兒園教師專業(yè)標(biāo)準(zhǔn)》解讀課件
- 福維克直銷獎金制度完整版
- 銀行業(yè)聲譽風(fēng)險管理培訓(xùn)
- 四川省成都市成華區(qū)2023-2024學(xué)年七年級上學(xué)期期末語文試題
- 醫(yī)院季度投訴分析整改報告
- 全面醫(yī)療安全生產(chǎn)隱患排查清單
評論
0/150
提交評論