八個著名中文搜索引擎的特征及其評析 - 陸興-_第1頁
八個著名中文搜索引擎的特征及其評析 - 陸興-_第2頁
八個著名中文搜索引擎的特征及其評析 - 陸興-_第3頁
八個著名中文搜索引擎的特征及其評析 - 陸興-_第4頁
八個著名中文搜索引擎的特征及其評析 - 陸興-_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、陸 興(寧夏大學(xué)物理電氣信息學(xué)院,寧夏 銀川 750021八個著名中文搜索引擎的特征及其評析關(guān)鍵詞搜索引擎;中文網(wǎng)站;信息檢索;評價摘 要對八個著名中文搜索引擎(新浪、搜狐、網(wǎng)易、天網(wǎng)、悠游、FM365、古戈爾中文、雅虎中文的數(shù)據(jù)庫規(guī)模、信息采集、檢索功能、結(jié)果顯示格式、結(jié)果排列順序等方面的主要特征進行了比較和評析。中圖分類號G354.2;G250.73文獻標(biāo)識碼B文章編號1005-8214(200302-0046-03Internet搜索引擎就像信息海洋中的導(dǎo)航員,能幫助人們快速找到所需的信息。然而隨著各種信息的巨量增長,人們使用搜索引擎也遇到了許多困難,相同的搜索詞在不同的搜索引擎中得出不

2、同的結(jié)果,在質(zhì)量和數(shù)量上都有所不同。產(chǎn)生這種現(xiàn)象是因為不同的搜索引擎采集信息的方法、標(biāo)引的內(nèi)容以及檢索功能是有所區(qū)別的。本文對八個著名的中文搜索引擎的特征進行比較和評析,通過比較不同搜索引擎的工作方式,幫助用戶正確掌握不同搜索引擎的使用規(guī)則,輕松方便地上網(wǎng)查找信息;另一方面,還可以幫助網(wǎng)頁設(shè)計者根據(jù)搜索引擎的要求去設(shè)計網(wǎng)頁,確保自己的網(wǎng)站能被搜索引擎收錄并且在進行檢索時能得到較好的排名。1 搜索引擎的工作原理機器人搜索引擎一般由搜索軟件、索引軟件和檢索軟件三部分組成。搜索軟件通常稱為機器人(Robot、爬蟲(Crawlers或蜘蛛(Spiders,它們可以運行在WWW上,是能夠沿著網(wǎng)站的鏈接從

3、一個頁面跨越到另一個頁面,自動追尋和發(fā)掘網(wǎng)上的各種文獻信息資源,采集新出現(xiàn)的信息,確認(rèn)網(wǎng)頁之間的鏈接是否有效并剔除死鏈的一種軟件。索引軟件將采集的網(wǎng)頁信息進行自動標(biāo)引,建立索引數(shù)據(jù)庫。不同的索引軟件標(biāo)引網(wǎng)頁的內(nèi)容是不同的,有些對網(wǎng)頁全文進行標(biāo)引,有些只標(biāo)引網(wǎng)頁的地址、篇名、題名、特定段落和重要的詞。不同的索引軟件建立數(shù)據(jù)庫的規(guī)模不一樣,數(shù)據(jù)規(guī)模大小決定查詢的信息是否全面和查全率的高低。查詢軟件決定搜索引擎的檢索功能和返回結(jié)果的相關(guān)性。在檢索過程中,該軟件還會利用特殊的計算機算法對文獻與檢索詞的相關(guān)性進行計算和評估。不同的搜索引擎依據(jù)各自的標(biāo)準(zhǔn)對相關(guān)度做出判斷。2 八個著名中文搜索引擎的特征及其

4、評析2.1 新浪網(wǎng) h ttp:/新浪公司于1998年底成功地并購海外最大的華人網(wǎng)站公司 華淵資訊 ,成立全球最大的華人網(wǎng)站 新浪網(wǎng) 。新浪網(wǎng)收錄了大量中文網(wǎng)址,內(nèi)容豐富,分類詳細(xì),共分為15個大類,1萬個細(xì)目和10余萬個網(wǎng)站。在關(guān)鍵字搜索中還推出一些熱門關(guān)鍵字,如交友、聊天、股票等,用戶可直接由此進入相關(guān)網(wǎng)站。是一個在多項服務(wù)上齊頭并進的商業(yè)網(wǎng)站。新浪網(wǎng)數(shù)據(jù)庫中收錄了200多萬個網(wǎng)頁,在中文搜索引擎容量排行榜上列居第一。在查詢途徑上提供關(guān)鍵詞查詢和分類檢索兩種查詢方法,信息采集方式為網(wǎng)絡(luò)機器人自動搜索。支持簡單和高級查詢,能通過 and、or、not 等的聯(lián)系,擴大或縮小查詢結(jié)果,支持從結(jié)果

5、中再檢索。查詢結(jié)果顯示格式包括:標(biāo)題、簡要描述、URL文件大小、文件索引日期等。檢索結(jié)果按相關(guān)度級別順序顯示結(jié)果,同時提供相關(guān)類目、相關(guān)站點、相關(guān)網(wǎng)頁等。評價:數(shù)據(jù)庫容量大,用戶界面友好,人性化方面做得相當(dāng)出色。高級搜索方便實用,站點本身內(nèi)容豐富,是目前檢索軟件中功能最全面、查全率最高的優(yōu)秀搜索引擎之一。2.2 搜狐 搜狐是由愛特信(ITC公司于1998年2月在北京隆重推出的有 中文網(wǎng)路神探 之稱的大型網(wǎng)上中文查找工具。它是以提供分類目錄為主的中文搜索引擎,其分類原則是以圖書分類為基礎(chǔ),與日常應(yīng)用習(xí)慣相結(jié)合,由編輯人員分類。它的信息抓取范圍較其它中文搜索引擎要廣,不僅有國內(nèi)站點,還包括國外的中

6、文站點,日訪問率達上萬人次。搜狐還提供了許多高質(zhì)量的內(nèi)容服務(wù),如 新聞導(dǎo)讀 、 娛樂天地 、 企業(yè)集錦 等服務(wù)項目。搜狐數(shù)據(jù)庫中收錄了200萬個網(wǎng)頁,搜索方式是通過人工建立一個結(jié)構(gòu)化的分類目錄體系,將網(wǎng)絡(luò)機器人 抓 回來的網(wǎng)站劃分到各個類別及子類下,并將各個網(wǎng)址抽象為一般摘要性信息,作為該網(wǎng)站的概括介紹。各級類目下還伴有一個搜索框,用戶可輸入關(guān)鍵詞檢索,層次清楚,方便用戶簡單地查找某一方面的信息。有基本檢索和高級檢索,支持布爾邏輯檢索,用邏輯符號 AND 或 OR 連接起來。搜索結(jié)果按關(guān)鍵字串的相關(guān)程度來排列相關(guān)網(wǎng)頁或網(wǎng)站,相關(guān)度越高,排列位置越靠前。評價:系統(tǒng)反應(yīng)速度快,查詢準(zhǔn)確性高,便于簡

7、單查詢,界面人性化好。自從2000年改用百度的搜索引擎后,搜索能力有了很大提高,但實力還有待提高。2.3 網(wǎng)易 http:/www.16網(wǎng)易是由廣州網(wǎng)易計算機系統(tǒng)有限公司推出的一個中文搜索引擎。網(wǎng)易公司連續(xù)在中國互聯(lián)網(wǎng)歷史上創(chuàng)造了多個第一,如:中國第一家提供中文全文搜索,第一個免費賀卡站,第一個虛擬社區(qū)等。網(wǎng)易自從采用Google的搜索引擎技術(shù)后,目前實力不俗,搜索功能全面而實用, 虛擬社區(qū) 服務(wù)很有特色。網(wǎng)易提供了分類瀏覽和關(guān)鍵詞查詢兩種方式。分類瀏覽有12個大類,各大類下分若干個小類。關(guān)鍵詞檢索支46持全文檢索,支持布爾邏輯檢索,不需使用邏輯符號 AND ,搜索引擎自動在關(guān)鍵詞之間添加 A

8、ND 。檢索結(jié)果顯示包括網(wǎng)址、提要、長度、最近修改時間和相關(guān)度等。檢索結(jié)果按分類類目及網(wǎng)站信息與關(guān)鍵字串的相關(guān)程度來排列。另外,網(wǎng)易還提供了一些原代碼,用戶可以將這些原代碼放到自己的主頁上,這樣就可以隨時對網(wǎng)絡(luò)資料進行查詢并得出結(jié)果。評價:檢索結(jié)果質(zhì)量相關(guān)度很高,界面友好,搜索個人主頁方便,但不支持從搜索結(jié)果中再搜索。2.4 天網(wǎng) h ttp:/天網(wǎng)搜索引擎是國家 九五 科技攻關(guān)重點項目 中文編碼和分布式中英文信息發(fā)現(xiàn) 的研究成果,曾被 軟件世界 雜志評為最值得關(guān)注的中文搜索引擎。它支持簡體中文、繁體中文以及英文的關(guān)鍵詞檢索,信息來源是國內(nèi)CERNE T、CHINANET、C HINAGBN、

9、CSTE T四大網(wǎng)絡(luò)。天網(wǎng)搜索引擎數(shù)據(jù)庫目前大約收集了135萬個網(wǎng)頁和9萬新聞組文章,信息采集方式為 Robot 自動發(fā)現(xiàn)和收集信息。天網(wǎng)搜索引擎采用搜索網(wǎng)頁全文的方式,既可以提供WWW網(wǎng)頁全文的檢索,又可以檢索Newsgroup,同時還支持復(fù)雜查詢和FTP檢索。支持布爾邏輯檢索,邏輯運算符號為 & (與 - (非 | (或。檢索結(jié)果顯示格式包括網(wǎng)址、摘要、最后修改時間、長度、相關(guān)度、編碼類型等。檢索結(jié)果按關(guān)鍵字串的相關(guān)程度來排列。評價:數(shù)據(jù)庫容量較大,有中、英文兩個界面。界面友好,操作方便,支持復(fù)雜檢索,查準(zhǔn)率高,反饋信息豐富。2.5 悠游 h ttp:/悠游中文搜索引擎是由美國優(yōu)聯(lián)克有限公

10、司于1997年5月在香港推出的一個高智能的中文搜索引擎,分別在北京、上海、重慶、香港和美國設(shè)立5個分站點,由各地的優(yōu)聯(lián)克分公司進行制作和維護,號稱是一個極具高度智慧的中文搜索器。由于悠游中文搜索引擎融入了人工智能技術(shù),所以它在一定程度上提高了查詢結(jié)果的準(zhǔn)確率。同時悠游中文搜索引擎還能夠自動轉(zhuǎn)換GB碼(中文簡體和BIG5碼(中文繁體,所以可以為大陸的用戶查找港臺地區(qū)網(wǎng)站,或者為其它地區(qū)的朋友查找網(wǎng)站提供方便。悠游中文搜索引擎數(shù)據(jù)庫目前大約已收錄了8萬個網(wǎng)站以及80萬中文網(wǎng)頁的信息。信息采集方式為智能機器系統(tǒng),以兩天為周期不停地搜索全球互聯(lián)網(wǎng)網(wǎng)頁,查找新網(wǎng)頁和網(wǎng)頁中的最新資料,并能自動識別和歸類。

11、提供了自動構(gòu)造式的概念類型查詢和關(guān)鍵詞檢索兩種查詢方式,采用布爾算符,還提供了字段限制。查詢結(jié)果顯示格式內(nèi)容豐富,有站點名稱、編碼類型、相關(guān)程度、所在目錄地址、簡要介紹、最后修改日期等。檢索結(jié)果按相關(guān)度高低排列。評價:悠游中文搜索引擎同時提供了GB碼和BIG5碼兩種碼字的檢索界面,它具有漢字內(nèi)碼的自動轉(zhuǎn)換和跟蹤功能,查準(zhǔn)率高,用戶可按書寫習(xí)慣輸入檢索請求,方便易用。2.6 FM365 http:/sear FM365號稱是新三大門戶網(wǎng)站之一,是聯(lián)想與美國在線在2001年各注冊1億美元合作經(jīng)營的一個電子商務(wù)網(wǎng)站。在最近的幾次測評中,無論是搜索結(jié)果數(shù)量、相關(guān)度等硬指標(biāo),還是幫助文檔等服務(wù)性軟指標(biāo),

12、FM365均表現(xiàn)不俗。FM365搜索引擎采用藍帆的搜索技術(shù),提供分類目錄檢索和關(guān)鍵詞檢索兩種途徑。關(guān)鍵詞檢索使用同音功能,如輸入 網(wǎng)情 時,同音字 網(wǎng)擎 也會找到,十分方便。在查詢中支持基本查詢和高級查詢,支持布爾邏輯檢索,運用邏輯運算符號 and、or、not 的連接,支持從結(jié)果中再搜索。查詢結(jié)果顯示格式包括網(wǎng)址、標(biāo)題、簡要介紹、相關(guān)度等。檢索結(jié)果按相關(guān)度高低排列。評價:搜索能力強,反饋信息豐富,查詢結(jié)果質(zhì)量相關(guān)度很高,界面友好。支持模糊搜索,方便靈活。2.7 古戈爾中文 Google是由美國斯坦福大學(xué)的兩位博士生Larry Page 和Sergey Brin在1998年創(chuàng)建的。自2000年

13、正式開始商業(yè)運營以來,目前在全球范圍內(nèi)已擁有一個正在快速增長的忠實用戶群。Google中文搜索引擎是收集亞洲網(wǎng)站最多的搜索引擎之一,信息采集方式是利用蜘蛛程序(Spider以某種方法自動地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,并由索引器為搜集到的信息建立索引,從而為用戶提供面向網(wǎng)頁的全文檢索服務(wù),提供基本查詢和高級搜索兩種檢索功能。基本檢索部分最本質(zhì)的是布爾檢索功能,高級檢索功能包括: 可以將檢索結(jié)果局限在一個網(wǎng)站上; 可以排除某個特定站點的網(wǎng)頁; 可以對網(wǎng)頁以及檢索結(jié)果頁面的語言類型進行限制; 可以檢索鏈向某個網(wǎng)頁的所有頁面; 可以檢索與某個網(wǎng)頁相關(guān)的所有網(wǎng)頁。檢索結(jié)果顯示格式包括標(biāo)題、網(wǎng)頁(站簡介、U

14、RL長度、附帶的全新功能等相關(guān)信息,還會根據(jù)具體情況顯示最新更新日期、類別等信息。檢索結(jié)果按相關(guān)性從大到小排序。評價:Google中文搜索引擎技術(shù)專精,實力出眾。界面很具人性化,首頁設(shè)計簡捷、鮮明、大方,完全突出了檢索功能。操作簡單易用,查詢結(jié)果相關(guān)度很高。不足之處是其數(shù)據(jù)的更新速度無法進一步提高。由于數(shù)據(jù)量龐大,使Google搜索引擎的數(shù)據(jù)更新無法早于30天,在一定程度上影響了用戶對信息的時效需求。2.8 雅虎中文 雅虎是1995年由美籍華裔楊致遠博士與其同事在斯坦福大學(xué)研制出來的搜索引擎。1997年Yahoo發(fā)布了Ya hoo中文搜索引擎,它的功能和形式與Yahoo英文保持一致。針對中文的

15、目前狀況,分別設(shè)立了簡體中文(GB和繁體中文(BIG5兩種版本,用戶可利用繁體或簡體中文進行檢索。如果對相對內(nèi)容的英文感興趣,只要點擊鼠標(biāo),就可換成英文,速度較快。它現(xiàn)在提供的服務(wù)包括拍賣、購物、開設(shè)商店、個人免費電子郵箱、聊天和新聞等多種網(wǎng)絡(luò)服務(wù)。Yahoo由人工索引的分類數(shù)據(jù)庫也保持了庫內(nèi)數(shù)據(jù)質(zhì)量較高、冗余信息較少的優(yōu)點。Yahoo中文搜索引擎收錄了全球咨詢網(wǎng)上數(shù)以萬計的中文網(wǎng)址,以14個類別排列,每個大類下面又分若干子類。信息采集方式由索引人員用人工方式建立并更新。鼓勵用戶利用聯(lián)機表格遞交自己的網(wǎng)頁地址,用人工和Ya hoo的蜘蛛軟件不定期地在Web的 What s new 網(wǎng)站上發(fā)現(xiàn)新

16、文件。Yahoo對收集到的信息要進行嚴(yán)格的審核和分類,提供按目錄逐級搜索和輸入關(guān)鍵詞檢索兩種查檢方式,支持簡單和高級查詢功能。簡單查詢功能支持布爾邏輯的進階檢索。進階檢索提供一些特殊檢索格式;高級查47詢中,支持詞語搜索等。它還提供日期限定、URL和題名限制檢索等。查詢結(jié)果顯示格式按下列順序排列:首先是滿足條件的雅虎目錄和子目錄,接著是滿足查詢條件的網(wǎng)站,最后是網(wǎng)頁。網(wǎng)頁只顯示題名、摘要和URL。查詢結(jié)果排序根據(jù)分類類目、網(wǎng)站信息與關(guān)鍵字串的相關(guān)程度排列出相關(guān)的類目和網(wǎng)站。匹配關(guān)鍵詞越多,相關(guān)性越高。檢索詞出現(xiàn)在題名中的文獻給出一個優(yōu)先的排序;出現(xiàn)在分類目錄中的級別,按目錄的級別從高到低排序。

17、評價:系統(tǒng)反應(yīng)速度快,界面友好、人性化,通過主題指南查詢查準(zhǔn)率高,內(nèi)容豐富,方便易用。優(yōu)點是反映了人在選擇和組織信息時的知識和智慧,收錄網(wǎng)頁經(jīng)過篩選和系統(tǒng)組織,質(zhì)量較高,條理性較強,檢索結(jié)果接近用戶的信息需求。缺點是采集信息的速度遠遠比不上網(wǎng)絡(luò)資源的增長,因此檢索的數(shù)量有限。參考文獻1陳延軍,張崗.著名中文搜索引擎評析J.沈陽電子高等??茖W(xué)校學(xué)報,2002,(2.2張延蘅.漫談因特網(wǎng)中文搜索引擎J.泰安師專學(xué)報,2002,(1.3丁華.讓信息隨手可得 介紹幾個中文搜索引擎J.電腦技術(shù),2000,(3.4朱俊卿.搜索引擎Google研究J.現(xiàn)代圖書情報技術(shù),2002,(1.513家搜索引擎橫向評

18、測 梳理紛繁的網(wǎng)絡(luò)資源J.電子計算機與外部設(shè)備,2001,(9.作者簡介陸興,男,寧夏大學(xué)物理電氣信息學(xué)院講師,發(fā)表論文數(shù)篇。收稿日期2002-12-04 責(zé)任編輯王 崗(上接第35頁的專業(yè)設(shè)置聯(lián)系密切,針對性強,而且藏書系統(tǒng)完整,復(fù)本較多。這些特點是一般公共圖書館和科技圖書館所不及的。據(jù)統(tǒng)計,目前國家每年要花上億元的巨額資金,為黨校圖書館購進大批中外文書刊,我國黨校圖書館現(xiàn)已有藏書3億多冊。而這筆巨大的智力資源和寶貴財富的利用率僅為15% 25%。這種投入與產(chǎn)出極不相稱的局面,再也不能繼續(xù)下去了,必須盡快突破封閉的辦館模式,充分發(fā)揮自身的優(yōu)勢和作用,直接面向社會,面向經(jīng)濟建設(shè),提供多種形式的

19、文獻信息服務(wù),迅速與市場經(jīng)濟接軌。黨校圖書館面向社會服務(wù),與市場經(jīng)濟接軌,必須堅持三條原則:一是要圍繞黨校圖書館的基本任務(wù),以本校師生為主要服務(wù)對象,把為教學(xué)、科研服務(wù)作為自己的工作重心,切忌本末倒置;二是要從實際出發(fā),選擇適當(dāng)?shù)姆?wù)方式,根據(jù)不同的服務(wù)對象,采取不同方式向社會開放;三是要正確處理社會效益和經(jīng)濟效益的關(guān)系。在以社會效益為主的前提下,實現(xiàn)兩個效益的統(tǒng)一。黨校圖書館面向社會開展服務(wù)的目的,一方面是充分開發(fā)利用圖書館的各種資源,實現(xiàn)社會范圍的資源共享,促進經(jīng)濟建設(shè)和社會發(fā)展;另一方面,也可作為創(chuàng)收的手段,從中收取合理的費用,改善辦館條件。因此,既要重視經(jīng)濟效益,更要重視社會效益。3

20、黨校圖書館怎樣面向社會、面向經(jīng)濟建設(shè),實現(xiàn)與市場經(jīng)濟接軌首先,面向社會和經(jīng)濟建設(shè),進一步擴展教育職能和信息職能。黨校圖書館不僅成為全校的文獻信息中心和學(xué)員的第二課堂,而且應(yīng)當(dāng)充分挖掘潛力,把它的教育職能和信息職能從黨校內(nèi)部擴展到社會經(jīng)濟領(lǐng)域,成為其他系統(tǒng)科研人員和一般讀者接受繼續(xù)教育的第二課堂和信息源。就當(dāng)前社會讀者的需求情況看,黨校圖書館可以從三個方面開展工作。一是為各行各業(yè)的科研人員、理論工作者舉辦文獻檢索講座。黨校圖書館針對各行各業(yè)科研人員和理論工作者的不同需求,為他們開設(shè)文獻檢索講座,使他們能夠較快地掌握檢索技能;二是不定期地舉辦各種知識講座。根據(jù)經(jīng)濟發(fā)展的需要和人們普遍關(guān)注的熱點問題,黨校圖書館可以為社會讀者舉辦諸如知識經(jīng)濟、WTO、外經(jīng)外貿(mào)政策法律等專業(yè)知識講座或其它內(nèi)容的科普知識教育,增強他們的改革開放意識,提高人們的文化素質(zhì);三是為領(lǐng)導(dǎo)決策提供服務(wù)。黨校圖書館是社科情報五大系統(tǒng)之一,以收藏社科理論書刊,黨的路線、方針、政策法律等內(nèi)部和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論