中外搜索引擎研究的現狀與發(fā)展_第1頁
中外搜索引擎研究的現狀與發(fā)展_第2頁
中外搜索引擎研究的現狀與發(fā)展_第3頁
中外搜索引擎研究的現狀與發(fā)展_第4頁
中外搜索引擎研究的現狀與發(fā)展_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 中外搜索引擎研究的現狀與發(fā)展夏旭李健康(第一軍醫(yī)大學圖書館廣州510515)摘要:以WWW網絡搜索引擎的發(fā)展歷程為基礎,綜述了WWW網絡搜索引擎的定義、檢索機制、檢索規(guī)則、詞表應用、分類研究、比較研究等方面取得的新進展,探討搜索引擎發(fā)展走向與思路。同時就目前中外搜索引擎普遍存在的問題進行分析,希能對國內中文搜索引擎的開發(fā)和準確、快速、全面檢索WWW網絡乃至因特網信息資源有所啟示。關鍵詞:搜索引擎研究進展綜述信息資源管理由于因特網上信息資源內容廣泛、時效性強、訪問快速、網絡交互搜尋、動態(tài)更新,而且還提供快速訪問網上信息資源的各種搜索引擎(SearchEngines),用于快速搜索WWW網絡乃至

2、因特上的有用信息,使得通過WWW網絡獲取網絡信息資源成為國內外研究的一大熱點?;诰W絡的搜索引擎的研制與開發(fā)應用成為當前網絡信息資源開發(fā)應用研究領域的熱點。英文搜索引擎“GOOGLE”和中文搜索引擎“百度搜索”的推出,拉開了搜索引擎核心技術爭奪戰(zhàn)的序幕??梢灶A言,在今后一段相當長的時間里,搜索引擎還將有長足的發(fā)展和進步,檢索功能將更趨向于集成化和更具親和力、更顯人性化。搜索引擎的定義、檢索機制、檢索規(guī)則和詞表應用定義搜索引擎,Searchengines,又稱搜索機,Web搜索器,是伴隨WWW網絡出現的檢索網上信息資源的新工具。實質上是一種網頁網址檢索系統(tǒng),有的提供分類和關鍵詞檢索途徑,有的僅提

3、供關鍵詞檢索途徑。它根據檢索規(guī)則和從其他信息服務器上得到數據并對數據進行加工處理,自動建立索引,并通過檢索接口為用戶提供信息查詢服務,能夠自動對WWW資源建立索引或進行主題分類,并通過查詢語法為用戶返回匹配資源的系統(tǒng)。搜索引擎主要是由Crawler、Spider、Worm、Robot等計算機軟件程序自動在因特網上漫游,不斷搜集各類新網址及網頁,形成數以千萬甚至上億條記錄的數據庫。它是通過采集標引眾多網絡站點來提供全局性網絡資源控制與檢索機制、將全球WWW網絡中所有信息資源作一完整的集合、整理和分類、方便用戶查找所需信息的網絡檢索軟件。具有檢索面廣、信息量大、信息更新速度快,特定主題的檢索專指性

4、強等特點。常規(guī)搜索引擎和元搜索引擎自帶索引數據庫的搜索引擎通常被稱為常規(guī)搜索引擎或獨立搜索引擎,相應地,集多種常規(guī)搜索引擎于一體的搜索引擎則稱為(多)元搜索引擎。元搜索引擎是國外搜索引擎開發(fā)者新設計的一種集成型搜索引擎與獨立搜索引擎的區(qū)別在于:它是通過一個統(tǒng)一的用戶界面幫助用戶在多個獨立搜索引擎中選擇和利用合適的搜索引擎,甚至是同時利用多個搜索引擎來實現檢索操作。元搜索引擎沒有自己獨立的數據庫,卻更多地提供統(tǒng)一界面,形成一個由多個搜索引擎構成的具有獨立功能的虛擬邏輯體,通過元搜索引擎的功能實現對這個虛擬邏輯體中各搜索引擎數據庫的查詢等一切操作。由于元搜索引擎預先配置好多個搜索引擎,每條檢索指令

5、都自動通過預先配置的搜索引擎執(zhí)行,免去了用戶逐一記憶和單獨使用每個搜索引擎的麻煩。主要的元搜索引擎有ALL-IN-ONE、CUSI、FunCityWebSearch、HyperNews、Linksearch、Savvysearch、Metacrawler、BestSearch、W3SearchEngines、WebSearch、Profusion、Mamma、Avenuesearch、Dogpile、Kwikseek、Findspot、Bytesearch、Webferret、BluesquirrelWebseeker等。Metacrawler()能同時調用6個搜索引擎;Savvysearch

6、()可有選擇地調用21個獨立的搜索引擎,檢索Web、Usenet新聞組、軟件、參考工具、技術報告等信息,每次最多并行檢索5個搜索引擎的數據庫oProfusion()最多同時調用9個獨立的搜索引擎,調用方式有全部調用、系統(tǒng)自動選擇最好的3個、系統(tǒng)自動選擇最快的3個、用戶從中選取任意個搜索引擎。最新出現的桌面型離線式搜索引擎如Webcompass、WebSeeker、WebFerret、Echosearch、Copernic98等也是元搜索引擎。集中式搜索引擎和分布式搜索引擎基于搜索機器人的搜索引擎如AltaVista和目錄式搜索引擎Yahoo從體系結構上看都是集中式的,從因特網上取回Web頁,經

7、過處理后將所有這些信息集中存到某個站點,用戶通過訪問該站點實現查詢,通常它們之間沒有協作,各自獨立地搜集和處理信息,造成了大量重復工作,也浪費了網絡帶寬和CPU資源,給各Web站點帶來了嚴重的負擔,這種集中式的體系結構難以適應網絡規(guī)模的日益擴大。分布式搜索引擎則可彌補這方面的不足。其基本思想是根據地域、主題、IP地址或其它的劃分標準將全網劃分成若干自治域,在每個自治域內分設檢索服務器(Indexserver),每個檢索服務器由信息搜集軟件(Gather)、索引數據庫(Indexdatabase)和代理(Broker)三部分組成,信息搜索軟件負責本自治域信息的搜集,并建立索引信息存入索引數據庫,

8、代理則負責向用戶提供查詢接口,并與其它代理進行交互,實現檢索服務器之間的中間信息交換。關于分布式搜索引擎,目前主要以理論研究為主,還沒有出現實際營運的研究成果。國內有文獻提出建立分布協作式搜索引擎的設想,其主要思想是以CERNET為依托,在其不同域內分別建立搜索引擎,并通過引擎注冊機制和引擎間數據交換機制相結合的方法實現網絡搜索引擎之間的協作,達到降低資源消耗,提高搜索引擎效率的目的。搜索引擎的檢索機制網/K1新聞組站點絡LGopher站點WWW站點FTP站點搜索引擎定期自動搜尋有關Web站點、采集關于這些站點上的各類信息,自動對這些資源進行標引、編制目錄和文摘,自動將這些數據整合到數據庫,并

9、能提供以Web為基礎的包括布爾檢索、短語或詞組檢索、自然語言檢索和各種限制檢索在內的數據檢索,按相關度輸出檢索結果。搜索引擎的主體部分包括了數據采集模塊、數據組織模塊和數據檢索模塊。對應地,其資源組織和檢索機制包括了數據采集標引機制、數據組織機制和用戶檢索機制,見圖一。搜索引擎一、采集標引機制*二=:二、數據組織機制三、用戶檢索機制圖一搜索引擎的檢索機制示意圖1.3檢索規(guī)則研究由于Web資源的特殊性,搜索引擎的檢索語法和檢索規(guī)則與傳統(tǒng)的光盤檢索和聯機檢索等有所不同。Medscape、Oncolink等醫(yī)學搜索引擎通過AltaVista完成搜索任務。AltaVista的檢索語法規(guī)則較為復雜,基本

10、上囊括了醫(yī)學搜索引擎的檢索規(guī)則。Medscape和Oncolink為代表的搜索引擎檢索規(guī)則主要包括:布爾邏輯操作符。包括:AND(;、&)、OR(,、I)、NOT(、!),此外逗號“,”類似于OR,空格和分號(;)類似于AND。短語檢索使用雙引號,如“radiationenteritis”。如要查找數字信息,如“180*1212”,可用破折號“一”連接作為短語進行檢索。大小寫有別(case-sensitivity),如輸入brca1,可查找brca1,Brca1和BRCA1,如輸入Brca1,則只能查找“Brca1”的網頁,不能查找brca1、BRCA1的網頁。+/-

11、號,如要查找乳腺癌治療但非放射療法的信息,輸入breast+treatment-radiation進行精細檢索。同樣,如要查找異基因骨髓移植而非自體骨髓移植的信息,輸入“bonemarrow+allogeneic-autologous”即可。截詞檢索,使用通配符“*”,也有使用“$”或“?”、英文句點“.”的作用正好與通配符相反,用于禁止單詞擴展,如gene.不能檢索genetics、genetic、general等詞;vin,限定范圍,如新聞vintitle;/n,如digital/100television二者的間隔不超過100個單詞的網頁。t、u的使用,t(TITLE)加關鍵詞前,搜索引

12、擎只檢索網站名稱,u(URL)加于關鍵詞前面,僅查網址。精細檢索:在特定主機或特定域名中查找網頁、查找包含指向自己Web鏈接的全部網頁,如查找包含一類特定Java語言的全部網頁。超鏈和錨關鍵詞在查找有關“jump”信息方面的作用相似。Link關鍵詞查找URL帶有跳躍性的網頁如:/help.html,而anchor關鍵詞查找用戶能在頁面中看見的超鏈文本,如clickhere,文本和標題標記用于查找網頁內容。Text關鍵詞查找網頁內任何可見的文本詞(非標記、鏈接、URLs),而標題關鍵詞僅限于作者編碼為title標記的文本,題目出現在Web瀏覽器的旗標窗口中。禁用詞的使用。在MedHunt等搜索引

13、擎中,檢索時規(guī)定了一些禁用詞,如冠詞、代詞、介詞和連詞,此外還有一些其它禁用詞:如back、top、up、down、net。醫(yī)學術詞中帶有禁用詞的術語MedHunt可識別,如“VitaminA”,不視其為禁用詞( HYPERLINK http:/www.hon.ch/MedHunt)o http:/www.hon.ch/MedHunt)o此外,還可將檢索詞的間隔范圍限定在句子或段落中(如vsentence、paragraph)、限定檢索信息范圍(每頁顯示信息條數,顯示的語種、顯示模式、匹配模式)等。相關性排序。Oncolink主要依據下列規(guī)則進行結果排序:檢索詞或短語是否在網頁的前幾行(如We

14、b頁的標題);在一個三個詞的檢索提問中,包含三個檢索詞的網頁將比只包含一個詞或兩個詞的網頁遠遠排在前面;不常出現在索引中的檢索詞較普通詞的權重更大,每個網頁的權重值是出現在網頁中所有檢索詞的權重和,權重值最高的網頁在結果表中排在最前面;一個詞在網頁中出現次數的多少不影響排序,檢索詞只出現一次的網頁與檢索詞在其中出現50次的網頁權重相等。WWW網絡搜索引擎試圖以檢索詞的詞頻、在文中的位置、以及檢索詞的相鄰程度等依據判斷檢索結果的相關性,Magellan使用的“personallibrarysoftware”除依據這三條標準判斷檢索結果的相關性外,還考慮檢索詞在數據庫中的獨特性及每個檢索提問包含獨

15、特檢索詞的數量。1.4詞表應用據敘詞表指南的統(tǒng)計,敘詞表有500多種。由于目前標識HTML文件題目的詞一般都是使用自由詞,隨意性大又不受控制,所以搜索引擎無法定位和鑒別,造成網絡信息查全率、查準率低。隨著信息資源的迅速增加,信息資源的組織控制發(fā)生了一些新的變化,DublinCore和URC等一系列元數據格式在Web資源組織和控制上得到了應用。詞表在搜索引擎的應用,提高了檢索針對性、準確性,且使搜索引擎趨向智能化。搜索引擎是WWW網絡信息資源組織和檢索的最主要方式,其理想的知識組織模式應當是建立一個結構簡明的知識分類體系和智能化控制詞表,實現對作者語言和用戶語言的控制轉換,實現自然語言檢索和控制

16、性語言檢索一體化。美國著名情報學家蘭開斯特(Lancaster)提出,采用一個較粗泛的控制詞表,也許只包含幾百個詞,提供系統(tǒng)的全部上層結構,文獻標引在一個或幾個這種粗泛的敘詞之下。自然語言可以使檢索有一定的專指度,而粗泛控制詞表可提供族性檢索,并可給出自然語言的上下文。因此,最好是把控制詞匯同自然語言結合起來。美國國立醫(yī)學圖書館(NLM)研制的一體化醫(yī)學語言系統(tǒng)UMLS在IGM中的應用使得IGM對MEDLINE數據庫的檢索趨向智能化。UMLS由超級敘詞表、語義網絡、情報源圖譜和專家詞典組成,是NLM主持研究開發(fā)的生物醫(yī)學檢索語言集成系統(tǒng),它不僅可以克服不同系統(tǒng)檢索語言的差異,而且實現了跨數據庫

17、檢索的詞匯轉換,幫助用戶對計算機化的病案系統(tǒng)、書目數據庫、事實數據庫、圖像數據庫和專家系統(tǒng)等各種聯機情報源中的生物醫(yī)學信息作一體化檢索。目前UMLS已在MedicalWorldSearch和CliniWebInternational兩個醫(yī)學專業(yè)搜索引擎中得到應用。搜索引擎的分類研究WWW網絡搜索引擎不僅數量增長快,而且種類也比較多。但目前尚無統(tǒng)一的分類標準。以下是一些主要的分類方法:按索及資源內容的詳略劃分,有目錄型、全文索引型、文摘型。按索及資源的來源劃分,有萬維網和非萬維網檢索工具。按覆蓋范圍劃分,有通用查詢引擎和專業(yè)查詢引擎。按檢索方式劃分,主要有關鍵詞索引、主題指南和元搜索引擎,或按范

18、疇層次查詢的搜索引擎和詞語查詢引擎。有的將醫(yī)學搜索引擎劃分為目錄型、檢索型、評價型和匯集型,此外,還有作者將搜索引擎劃分為分類主題目錄、搜索引擎、主題索引、多種合一的集成檢索工具。也有文獻將其劃分為檢索型、目錄型和混合型檢索工具;或瀏覽式、按主題指南分類目錄查詢方式、利用檢索軟件進行關鍵詞或自然語言的查詢方式、集成式和多線索的查詢。按檢索機制劃分,有常規(guī)搜索引擎和元搜索引擎,或單獨型和集合型檢索工具;或人工分類式、自動搜尋式和混合式搜索引擎;或基于目錄的搜索引擎、基于機器人的搜索引擎、基于客戶的搜索引擎、元搜索引擎、分布式搜索引擎。離線式搜索軟件需下載后安裝運行方可進行檢索,這類離線式搜索引擎

19、多為元搜索引擎,主要有TURBOSTAT、WEBSEEKER,颶風搜索通、小獵狗、SEARCHX等中外離線式元搜索引擎。以上各類型搜索引擎,除分布式搜索引擎尚無實際營運的研究成果外,其他類型的搜索引擎均已有較多的實際應用。搜索引擎的比較研究搜索引擎的功能在于將分散的網址集中起來,分類提供給用戶,以便快速查找到所需的信息。常規(guī)搜索引擎一般都帶有數據庫資源,因此對搜索引擎的比較主要集中在數據庫資源和搜索引擎的性能兩個方面。數據庫資源方面的比較研究主要包括:數據庫規(guī)模、索引方式、以及資源內容(如聲音、圖像、Usenet、FTP、Newsgroup、Gopher、Email等其它資源)。檢索性能的比較

20、,主要有布爾檢索、復雜布爾檢索、相鄰和相鄰and/or檢索(NEAR、ADJ、FAR、BEFORE、FOLLOWEDBY、vSentences、vParagraph)、截詞檢索、檢索范圍限定、出版日期限定、多語種檢索、多種版本選擇、大小寫有別、概念檢索、詞語加權、詞語限定、自然語言檢索、特定字段檢索、缺省值、檢索結果顯示方式、顯示數量選擇、相關排序、站點評價、相似性檢索、結果過濾、用戶界面、查準率、響應時間等方面的比較研究。國外的比較研究國外學者對AltaVista、Excite、Lycos從檢索方式、響應時間、準確性等方面進行比較與評價,AltaVista檢索功能較強,Lycos的覆蓋范圍較

21、廣,AltaVista真正地支持詞語檢索。不同搜索引擎的檢索結果有很大差別,由于醫(yī)學搜索引擎的檢索功能不夠強大,在解決臨床提問時所獲得的相關文獻不多,平均僅解決了1個提問,醫(yī)學搜索引擎出現了相關檢索結果為0的現象,檢索的相關網頁數明顯少于通用搜索引擎,醫(yī)學搜索引擎提供信息的質量有待提高。有研究認為,權威醫(yī)學醫(yī)學數據庫Medline、EM)仍然是衛(wèi)生專業(yè)人員和其他人員的第一選擇。此外,即使功能最完善的搜索引擎也只能找到Web上大約1/3的網頁,1998年6種主要搜索引擎的Web網頁搜索覆蓋率:HotBot34%;AltaVista28%;NorthenLight20%;Excite14%;Inf

22、oseek10%;Lycos3%。1999年被測試的11種搜索引擎中查詢到網頁最多的前三名是NorthernLight、Snap、AltaVista,沒有任何一種搜索引擎可以包羅超過16%的網上信息資源,搜索引擎的覆蓋能力與一年前相比明顯萎縮。近些年來陸續(xù)出現了許多比較網絡檢索工具的研究和報道,絕大多數研究是就一些檢索提問,比較和評價多個檢索工具,采用的比較和評價標準不統(tǒng)一。隨后,又出現了專門匯集此類研究和報道的聯網書目, HYPERLINK http:/www.ub2.lu.se/desire http:/www.ub2.lu.se/desire/radar/lit-about-search

23、-services和 HYPERLINK http:/state.Wi.us/ http:/state.Wi.us/agencies/dpi/www/srch_bib.html,它們?yōu)橛脩舯容^和評價國際互聯網檢索工具提供了方便。國內的比較研究國內對于搜索引擎的比較研究主要在兩個方面:一是對搜索引擎的基本檢索性能和數據庫內容進行比較;二是通過一定的檢索提問進行上網測試。已有作者從數據庫的內容和結構、檢索方式及特點、檢索結果的顯示、數據庫的更新及有無擴展功能等方面四個方面加以比較,發(fā)現目錄型檢索工具Yahoo、Librarians的檢索功能相對較弱,檢索型檢索工具的檢索功能則相對較強。在布爾邏輯檢

24、索方面,僅僅少數搜索引擎做得比較好。Infoseek和OpenText為檢索結果提供了很好的描述,OpenText是唯一支持全文檢索的引擎,Lycos、Excite、OpenText是覆蓋面較廣的數據庫,Yahoo是較完整的目錄。國內作者對多種搜索引擎的比較測試表明,對同一檢索式,不同檢索引擎的檢索結果相互交叉的現象不多,各搜索引擎檢索出的條數有較大差別,元搜索引擎檢索出的結果不一定比單一搜索引擎多。有作者發(fā)現,AltaVista、Excite、HotBot、Infoseek、Lycos、OpenText、Webcrawler、Yahoo以及中文搜索引擎Goyoyo在索引資源、用戶界面、功能設

25、置、檢索速度、檢索數量以及準確率等方面各有所長。也有人對中文搜索引擎進行了網絡測試。與傳統(tǒng)的光盤數據庫檢索相比,因特網信息缺乏深度、質量和可靠性不穩(wěn)定,搜索引擎查詢和光盤檢索在用戶服務方面均有優(yōu)勢和不足。國外知名通用搜索引擎Yahoo、AltaVisat、醫(yī)學搜索引擎HealthAtoZ、MedicalMatrix、Biomednet、MedWeb、Cliniweb和MedWebplus等都有其各自的特色與優(yōu)點,但都是互相補充,而不能彼此替代。表一國內外常用WWW網絡搜索引擎一覽表搜索引擎及網址開發(fā)公司運行時間網頁數檢索功能結果顯示Google( HYPERLINK )199833億網頁簡單、

26、高級檢索、精標準、相關性排序、頁顯確檢索、網站定位示結果數可選擇Altavista(http:/www.美國數字1995.121億多網頁簡單、高級檢索、精標準、壓縮、詳細格式、)設備公司確檢索頁顯示條數可選擇Lycos( HYPERLINK http:/www.lycos http:/www.lycos.美國卡內基1994.56600萬余網自然語言、布爾、截結果顯示可選擇com)梅隆大學頁詞檢索Excite( HYPERLINK )Architext19955500萬網頁自然語言,布爾檢索、檢索結果帶文摘,數量和軟件公司概念查詢,精確檢索質量均較理想。Yahoo( HYPERLINK http

27、:/www.yahoo http:/www.yahoo.美國斯坦福大學19945000萬主題,關鍵詞檢索、布簡短描述,檢索結果較com)網頁爾、精確檢索好,但數量不多。Infoseek( HYPERLINK 美國Infoseek公19955000萬主題分類、關鍵詞相關性排序,結果有描)司網頁查詢述、較詳細。收費Webcrawler( HYPERLINK http:/www.webcrawl http:/www.webcrawl華盛頓大學1994200萬網頁自然語言、布爾檢索相關性排序,簡單、詳細)NEAR、ADJ檢索格式結果數量大Magellan( HYPERLINK http:/www.ma

28、gellan.co http:/www.magellan.co美國Magellan公自然語言、布爾檢索詳細的信息描述結果顯m)司示網站打分HotBot( HYPERLINK )Lycosnetwork5400萬網頁布爾運算、關鍵詞無相關排序Inktomi( HYPERLINK http:/inktomi.berkeley.e http:/inktomi.berkeley.eInktomi公司1996.2280萬網頁關鍵詞、詞根檢索;智能相關排序,有描述:du)+/-表必用或禁用詞無摘要Medicalmatrix(http:/wwwHealthitel5000多個醫(yī)分類、關鍵詞檢索簡單、詳細格式

29、M)公司學站點搜狐( HYPERLINK http:/www.sohu http:/www.sohucom)愛特信公司1998.2200萬網頁分類查詢、關鍵詞標準、簡要格式百度( HYPERLINK )百度網絡公司19994500萬網頁分類瀏覽、簡單、高詳細格式、有描述,相關級檢索性排序天網( HYPERLINK http:/pccms.pku http:/pccms.pku北京大學100萬網頁簡單、高級查詢、查命中率高,重復網頁多相:8000/gbindex.htm)計算機系詞串查詢率高關性排序,標準/簡要Goyoyo( HYPERLINK http:/www.G http:/www.G.香

30、港優(yōu)聯克、199724萬中文關鍵詞、分類主題網頁過濾、詳細格式cn)北京聯克公司網頁存在的問題WWW搜索引擎的分類方法不統(tǒng)一,缺乏權威的分類標準,國內有關WWW搜索引擎的分類研究更顯薄弱。無論從評價標準、評價方法和評價范圍來看,目前的研究還不夠深入,盡管有大量的搜索引擎比較研究論文,由于缺乏統(tǒng)一的標準和權威的評價指標體系,還要從理論上進行深入探討,并開展更具規(guī)模和系統(tǒng)性的分析和評價工作,形成權威的評價站點和搜索引擎性能評價指標體系。目前國內還沒有出現WWW網上的權威評價站點,國內的搜索引擎評價標準多是綜合或借鑒了國外的研究成果,有所創(chuàng)新的評價研究和評價指標并不多見,網絡中文信息資源和搜索引擎性

31、能評價也還剛剛起步。當然,網上中文信息匱乏也是帶普遍性的問題。在國際數據庫市場中,數據庫產品的地區(qū)分布為北美占64%、西歐占28%、亞洲占4%、澳洲占2%、非洲和南美洲1%;發(fā)展中國家對數據庫的占有量不到5%,在亞洲只有日本、韓國有100種以上的數據庫產品進入國際數據庫市場,各為143、132種,中國只有4種。在國際各類數據庫中,11.26%的數據庫在100萬條記錄以上,其中超過1億條記錄的占0.36%,2.78%的數據庫在1000萬-1億條之間,8.03%的數據在100萬-1000萬條間。除了大型數據庫外,其余數據庫平均記錄在11.3萬條左右;國內29家單位142個數據庫的調查表明,10萬條

32、以下的數據庫占72.32,大型數據庫僅占5.6,尚無超過1000萬條記錄的數據庫。中文信息不全,質量不高,也是制約中文搜索引擎進一步發(fā)展并推向國際市場的重大障礙。WWW搜索引擎的選擇也是仁者見仁,智者見智,多是根據經驗的初步選擇,還沒有形成一套固定的選擇原則和方法。WWW信息查詢還不可能取代技術成熟的聯機檢索和光盤檢索。據估計,因特網上目前有3000萬URL和35億頁文件,而且文件數量每年增加一倍,迄今搜索引擎尚存在以下主要的問題:即使最強有力的搜索引擎也只能覆蓋其中的1/3;查準率不高,檢索精度不如傳統(tǒng)檢索系統(tǒng);更新速度慢而且無法控制網絡信息的動態(tài)變化;此外對信息內容的表達和格式的多樣化難于

33、控制和管理。WWW中文搜索引擎帶有的數據庫容量小,尚未形成大型的檢索系統(tǒng),大型、綜合、集成的元搜索引擎還沒有開發(fā)出來,專業(yè)性和專題性中文搜索引擎亟需研究開發(fā)?;赪WW的因特網檢索越來越普遍,信息過載成為日益緊迫的研究問題;電子期刊全文數據庫提供的信息時滯參差不齊、蘊含的信息量少于印刷本期刊。信息組織的局部有序性與整體無序性。各搜索引擎和站點目錄都收集大量的站點,并按專業(yè)和文獻信息類型分類,實現了信息組織的局部有序化,但仍有大量信息被湮滅在信息的海洋里,這種無序性導致了網絡信息檢索的系統(tǒng)性和完整性不如商用聯機檢索系統(tǒng),此外,有害信息(黃色、吸毒、暴力宣揚)多,不安全因素有增無減,缺少一個統(tǒng)一的

34、監(jiān)督機構,信息泛濫造成了信息污染和資源、時間的浪費。多媒體信息需要巨大的空間開銷,而許多編寫WWW文檔的人員并非專業(yè)的WWW開發(fā)人員,因而文檔中包含了大量的圖像連接,使用戶在將入全部圖像前不可能在起頁作任何訪問連接。WWW用戶依賴文檔或服務器的提供者去修改自制的信息,當沒有對信息進行修改時,信息可能過時或出錯。加上網上收集資料的經濟條件限制、設備條件限制更多,帶寬和傳輸速度的限制,用戶要花大量的時間去等待,效率低下。此外,WWW搜索引擎在數據庫、檢索功能和應用上也存在一些局限性,與傳統(tǒng)數據庫人工搜集、人工標引相比,WWW數據庫中數據主要由計算機自動搜集、標引,準確性和可靠性差,數據錯誤、遺漏、

35、過時等問題較為常見。國內的中文搜索引擎盡管也有不少,但質量參差不齊,檢索途徑較為單一。此外,通用的搜索引擎采用的相關排序技術往往只是利用了一種排序方法,檢索精度不高,國內網絡信息資源匱乏,中文搜索引擎的研究開發(fā)和中文權威數據庫的建設仍是國內的當務之急。搜索引擎發(fā)展走向因特網搜索引擎既是一門技術,又是一項服務,因此搜索引擎的發(fā)展應該包括搜索引擎產品技術的研發(fā)及其服務方式的改進與發(fā)展。但是,不管搜索引擎技術如何發(fā)展,服務方式如何改進,都不應偏離用戶快速準確、方便查找信息的主導方向。提供經過甄別、篩選、評價和專家推薦的網站信息無疑是高質量搜索引擎永恒不懈的追求,是搜索引擎智能化與專家系統(tǒng)交匯融合的結

36、果?;趩栴}的搜索技術可能將成為未來搜索引擎發(fā)展的新趨勢。從1994年Yahoo的運行到現在,搜索引擎取得了長足的發(fā)展與進步,無論是從數量上看還是從檢索性能來看,都已經基本趨于成熟。雖然中文搜索引擎在產業(yè)化發(fā)展道路上還存在一些距離,但在搜索技術方面已不亞于國外搜索引擎。特別是在處理漢字上運用的切分標引技術、內碼轉換、詞典標引技術單漢字標引技術等獨特技術與方法,使中文網絡信息檢索成為因特網上的一道亮麗的風景線。綜合國內外搜索引擎研究與開發(fā)利用情況,搜索引擎的發(fā)展主要有以下趨勢:5.1大型綜合性的搜索引擎與小型專業(yè)專題性搜索引擎協調發(fā)展開發(fā)大型搜索引擎像Google、Yahoo和Altavista

37、需要大量的人力、物力和財力,不是一般信息開發(fā)機構所能做到的,網上已有許多大型的優(yōu)秀搜索引擎,中小型的信息開發(fā)機構和信息應用單位可充分利用網上現有的大型搜索引擎,經二次檢索建立符合自己需要的小型專業(yè)性搜索引擎,來滿足本行業(yè)本單位和本專業(yè)的需要。如可以搜集網上的醫(yī)學圖像,建立影像搜索引擎,也可以通過人工方式和利用搜索引擎結果,將因特網上的醫(yī)學網站集中起來建立一個生物醫(yī)學專題導航系統(tǒng)或生物醫(yī)學搜索引擎。5.2方便使用與查全率、查準率的協調發(fā)展網絡用戶沒有經過網絡信息檢索知識與技能的培訓,對網絡信息檢索知識不了解,對為提高查全率和查準率而設置的各種檢索句法和規(guī)則很難理解,因此,設計搜索引擎時要充分考慮

38、各層次網絡用戶的使用水平,既要做到滿足一定的查全與查準,又要盡量做到簡化查詢句法,查詢界面清晰、有層次,給用戶以更多的選擇。5.3概念檢索、自然語言檢索與精確檢索、主題詞語言檢索協調發(fā)展自然語言檢索和概念檢索是檢索語言的兩個不同的發(fā)展方向,可以分別滿足不同用戶對查全和查準的要求,自然語言檢索則考慮的是方便用戶的使用。國外已有不少醫(yī)學搜索引擎使用了醫(yī)學主題詞表來支撐網絡信息檢索,能夠實現由關鍵詞或文本詞向規(guī)范化主題詞的自動轉換(如PubMed),從而大大提高了醫(yī)學搜索引擎的智能化程度。主題詞語言與自然語言的協調發(fā)展和相互兼容也是大勢所趨。制定分編網頁內容的標準語言和格式并倡導實行要提高網絡信息資

39、源的查全率和查準率,必須對網上最基本的資源單位如網頁內容進行規(guī)范化和標準化處理,每個網頁在發(fā)布之前,由網頁的制作者或專門的人員,對該網頁按照一定的標準進行規(guī)范,如網頁的標題必須能夠反映網頁的內容,提取能反映網頁內容的關鍵詞放在特殊位置,編寫網頁摘要等。這樣做不僅可以大大地提高網絡資源的查全率與查準率,而且可以極大地降低搜索引擎加工網頁的成本和時間。網上醫(yī)學信息的規(guī)范化處理和標準化編目著錄尤其重要,對醫(yī)學專業(yè)網站和相關網頁的標準化處理可以讓用戶放心大膽地使用這些醫(yī)學信息。多途徑檢索網上檢索工具最初只是提供類目瀏覽和關鍵詞檢索,發(fā)展至今已成為能夠檢索多種類型信息的檢索工具。醫(yī)學圖像信息的獲取與利用

40、,對于開展教育培訓與繼續(xù)醫(yī)學教育有著非常重要的作用,國外一些大型搜索引擎提供了圖像搜索的功能,生物醫(yī)學搜索引擎特別要在提供圖像搜索功能方面加大研究力度。多語種檢索、本土化服務隨著上網用戶的不斷增加,世界各地上網人數不斷增多,英語已無法滿足所有用戶的需要,語言障礙越來越明顯。許多搜索引擎認識到這一點,正在相繼加入多語種檢索。與此同時,為解決信道擁擠、上網速度慢等問題,一些搜索引擎提供了本土化的檢索服務,增加服務器,分流用戶,提高上網查詢速度。生物醫(yī)學搜索引擎在本地化、本土化服務方面較大型通用搜索引擎還有很大一段距離,能夠提供多語種檢索的生物醫(yī)學搜索引擎為數不多,以建立分站點或不同語言站點的方式來

41、提供本土化服務的搜索引擎還很少。增加個性化服務與特色服務個性化服務是指滿足用戶的特定需要。搜索引擎通過長期觀察用戶的搜索行為,能夠從中識別用戶的信息需求偏好,并且能夠根據用戶對搜索結果的評價,自覺調整搜索策略;在某些時候如用戶所關心的信息發(fā)生變化時,自動發(fā)送電子郵件通知用戶,保證用戶能在第一時間獲取最新的信息。搜索引擎的個性化服務可以幫助用戶更快、更準確地找到所需信息,還可以避免無關信息的干擾,這其實也是搜索引擎智能化的一個方面。網上檢索工具已不僅僅是單純意義上的檢索工具,正在向其它服務范疇擴展,提供站點評論、天氣預報、新聞報道、股票點評、各種黃頁(如電話號碼、航班和列車時刻表、地圖等)。那些

42、主動向有關用戶提供信息的服務項目具有較強的主動性和針對性,信息質量較高,用戶不必在網絡中漫無邊際地查詢,有些類似目前流行的信息推送技術。收費型與免費型搜索引擎并存自搜索引擎出現以來,其提供的檢索服務多為免費。但是隨著因特網市場的發(fā)展壯大,搜索引擎作為一種網絡服務,如同電子郵件一樣,也會出現一些有償的搜索服務。從長遠發(fā)展來看,搜索引擎的部分有償服務將有利于它的發(fā)展:技術開發(fā)商可以有更多的資金投入到技術研究與開發(fā)中,加快搜索引擎產品的更新換代;服務提供商可以通過與數據庫廠商合作,有償使用其數據庫產品,從而加強自身數據庫的建設。繼Northernlight實行一頭免費、一頭收費的部分收費服務機制之后

43、,MedicalWorldSearch這一醫(yī)學搜索引擎也開始了收費服務。雖然目前大多數搜索引擎仍提供免費型服務,主要靠網路廣告和提供搜索技術等來維持網站的運轉,但收費型搜索引擎以其高質量的全文信息服務和低于聯機檢索和光盤檢索的收費標準,使用戶檢索的信息在質量上有明顯提高。因此,收費型與免費型搜索引擎還將同時存在,并彼此展開競爭,從而推動搜索引擎技術的發(fā)展和檢索性能的改善。5.9搜索引擎廣泛吸納信息技術人員參與,加強對搜索引擎檢索信息質量的評價對于搜索引擎的質量評價,更多的應依靠信息技術人員與圖書館人員,通過他們的參與制定具體、操作性強的量化指標體系來綜合評價搜索引擎的質量,同時開展因特網醫(yī)學信

44、息的評價與評價標準的研究,使搜索引擎提供的檢索結果更可信,質量更高。5.10搜索引擎索及網頁的質量控制將成為制約其發(fā)展的重要因素隨著網絡信息資源的爆炸性增長,任何一個搜索引擎都不可能不加選擇地從網上搜索新的網頁和網站,制定網頁質量評價指標及網頁入選標準,并公諸于世。只有能滿足用戶信息需求的搜索引擎,才能更快速地發(fā)展。5.11大型元搜索引擎的發(fā)展將格外引人注目,分布式搜索引擎研發(fā)市場前景看好研建以多個搜索引擎甚至是多個元搜索引擎為主體的大型元搜索引擎,必將在提高網絡信息覆蓋率方面更勝一籌,同時也能包容更多的檢索型搜索引擎,從而更大程度地滿足網絡用戶查全率的要求。而分地區(qū)、分專題的分布式搜索引擎研

45、發(fā)在降低網絡帶寬資源和其他設備資源方面有其優(yōu)勢和特色,因此對于分布式搜索引擎的研發(fā)將提上議事日程。隨著國際大型資源合作編目組織如OCLC和中國CALIS中心的范圍擴大,分布式搜索引擎的研發(fā)將變?yōu)楝F實。開發(fā)中文搜索引擎的幾點建議必須大力提高中文搜索引擎自動搜索軟件的智能化程度包括自然語言檢索、概念查詢和冗余檢測能力,同時自動去除搜索站點不可鏈接的無效站點,確保網絡站點的及時更新。經測試,網上中文搜索引擎都還不具備冗余檢測功能,對于網址/index.html和 HYPERLINK /,%e5%be%88%e6%98%8e%e6%98%be%e8%bf%99%e4%b8%a4%e4%b8%aa%e7

46、%bd%91%e5%9d%80%e6%98%af%e4%b8%80%e6%a0%b7%e7%9a%84%ef%bc%8c /,很明顯這兩個網址是一樣的,這類冗余通常很容易被忽略,又如個人主頁網址經常含有“”,而該符號可用代碼%7E代表,如 HYPERLINK /jsmith /jsmith和 HYPERLINK /%7Ejsmith /%7Ejsmith是同一網址,但這種冗余也檢測不出,從我們的測試中也發(fā)現,所有的醫(yī)學搜索引擎基本上還不具備概念檢索或智能檢索的功能,由于缺乏對關鍵詞的規(guī)范控制,以致于單個搜索引擎很難查全相關的信息,因此需要一種智能化的冗余檢測技術和進一步增強智能檢索功能,實現自

47、動剔除那些形式上不同但實質上相同的鏈接,真正實現自然語言的檢索和概念檢索。Internet上的變化迅速,但一些中文搜索引擎檢索出的相關網站中還有不少無效的或過時的鏈接,或已更換了新的名稱,或文檔已轉移至新的網站,搜索引擎還必須具備鏈接校驗功能,能檢測出這些無效的鏈接并將它們及時過濾或給出無效標記,方便網絡用戶使用,同時節(jié)省用戶的上網時間。國外一些搜索引擎和主題指南的多種文字版本已經出現,國內的網絡指南針、萬緯搜索等雖可實現中英語語種的檢索,但對于不懂中文的網民來說,這一功能也和只能檢索英文關鍵詞的搜索引擎功能一樣,沒有更吸引人的服務方式。我們既要方便我國用戶利用英文搜索引擎和主題指南,同時也要

48、方便國外用戶利用我國的中文搜索引擎和主題指南,因此有必要研制中外主要自然語言之間的對應轉換工具。搜索引擎和主題指南實質上是一種網頁網址檢索系統(tǒng),其數據庫中收錄了幾十萬乃至數百萬個網頁網址,因此檢索結果往往輸出幾千個乃至數十萬個網址,雖可按相關性排序輸出,但檢準率較低。關鍵問題是標引用語和標引方法,大有改進的必要,同時有必要實現標引規(guī)范化和標準化。規(guī)范網絡資源的組織與控制,大力挖掘網絡醫(yī)學信息資源。由于網絡資源的動態(tài)性、多樣化及提取使用上的復雜性,網絡界開發(fā)了一系列以檢索資源為目標的元數據(metadata)格式(如Dublincore、URC),建立了一系列以詳細描述資源為目標的元數據格式TEIheader、G

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論