第五章-網(wǎng)絡(luò)信息檢索工具--搜索引擎_第1頁
第五章-網(wǎng)絡(luò)信息檢索工具--搜索引擎_第2頁
第五章-網(wǎng)絡(luò)信息檢索工具--搜索引擎_第3頁
第五章-網(wǎng)絡(luò)信息檢索工具--搜索引擎_第4頁
第五章-網(wǎng)絡(luò)信息檢索工具--搜索引擎_第5頁
已閱讀5頁,還剩84頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第五章網(wǎng)絡(luò)信息檢索工具——搜索引擎第一節(jié)搜索引擎概述一、搜索引擎的發(fā)展過程

搜索引擎的起源可以上溯到1990年由加拿大蒙特利爾大學(xué)學(xué)生AlanEmtage開發(fā)的Archie。Archie用于檢索分散在各FTP服務(wù)器上的文件,但其工作原理與現(xiàn)在的搜索引擎很接近。第一個現(xiàn)代意義上的搜索引擎出現(xiàn)在1994年7月——Lycos

。

二、搜索引擎的含義

引擎是英文“Engine”的音譯詞,代表發(fā)動機(jī),搜索引擎即“SearchEngine”具有導(dǎo)航的含義。一般認(rèn)為,搜索引擎是指對萬維網(wǎng)站點(diǎn)資源和其他網(wǎng)絡(luò)資源進(jìn)行標(biāo)引和檢索的一類檢索系統(tǒng)。由信息搜索器、索引器、檢索器、和用戶界面四部分組成。

1、搜索器(Robot)

20世紀(jì)90年代,“機(jī)器人”

(Robot)一詞在計(jì)算機(jī)編程者中用于特指某種能以人類無法達(dá)到的速度不間斷地執(zhí)行某項(xiàng)任務(wù)的軟件程序。由于專門用于檢索Web信息的“機(jī)器人”程序像蜘蛛一樣在網(wǎng)絡(luò)間爬來爬去,因此,作為Web搜索器的“機(jī)器人”就被稱為“網(wǎng)絡(luò)蜘蛛”(Spider)?!熬W(wǎng)絡(luò)蜘蛛”的功能就是在互聯(lián)網(wǎng)中不斷漫游,發(fā)現(xiàn)和搜集信息。作為一個計(jì)算機(jī)程序,搜索器日夜不停地運(yùn)行,盡可能多、盡可能快地搜集各種類型的新信息,并定期更新已經(jīng)搜集過的舊信息,以避免出現(xiàn)死鏈接和無效鏈接。

三、搜索引擎的組成2、索引器(Indexer)

索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項(xiàng),并生成文檔庫的索引表。索引項(xiàng)有客觀索引項(xiàng)和內(nèi)容索引項(xiàng)兩種:客觀索引項(xiàng)與文檔的語意內(nèi)容無關(guān),如作者名、URL、更新時間等等;內(nèi)容索引項(xiàng)則是用來反映文檔內(nèi)容的,如關(guān)鍵詞及其權(quán)重、短語、單字等等。3、檢索器(searcher)其功能是處理用戶查詢要求。檢索器根據(jù)用戶輸入的提問詞,按照一定的算法,在索引數(shù)據(jù)庫中進(jìn)行提問詞與索引詞的模糊匹配,并對所有的查找出文檔進(jìn)行集合運(yùn)算,將結(jié)果集按照基于內(nèi)容和基于鏈接分析的方法進(jìn)行相關(guān)度評價(jià)并排序,將最終形成的有序查詢結(jié)果輸出到用戶界面。

4、用戶檢索界面(Interface)

用戶檢索界面是搜索引擎呈現(xiàn)在用戶面前的形象,其作用是接受用戶輸入的查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋。為使用戶方便、高效地使用搜索引擎,從搜索引擎中檢索到有效、及時的信息,用戶檢索界面的設(shè)計(jì)和實(shí)現(xiàn)采用人機(jī)交互的理論和方法,以充分適應(yīng)人類的思維習(xí)慣。用戶檢索界面包括簡單界面和高級界面兩類。簡單界面只提供用戶輸入查詢串的文本框;高級界面提供用戶按照檢索模型查詢的機(jī)制。檢索界面檢索器搜索器索引器索引庫典型的搜索引擎的體系結(jié)構(gòu)

(1)發(fā)現(xiàn)并搜集網(wǎng)頁信息

因此搜索引擎的運(yùn)作如下:

(2)對信息進(jìn)行提取并建立索引庫

(3)用戶檢索利用

四、搜索引擎的主要類型1、目錄式搜索引擎目錄式搜索引擎式人工干預(yù)型搜索引擎,其數(shù)據(jù)庫由人工建立,主要通過人工發(fā)現(xiàn)信息。目錄界面一般采用分級結(jié)構(gòu),可從基本的大類的入口,一級級向下訪問,通過層層點(diǎn)擊直至找到所需資源,也可利用目錄提供的搜索功能直接查詢關(guān)鍵詞。

目錄導(dǎo)引型搜索引擎中最具代表性的是Yahoo,OpenDirectory等。國內(nèi)的搜狐、新浪等搜索也都屬于這一類。優(yōu)點(diǎn):層次、結(jié)構(gòu)清晰,易于查找;多級類目,便于查詢到具體明確的主題;網(wǎng)絡(luò)信息資源經(jīng)過人工篩選,查準(zhǔn)率較高。

缺點(diǎn):缺點(diǎn)是檢索范圍較小,查全率較低;沒有統(tǒng)一的、科學(xué)的分類體系為依據(jù),類目之間交叉,內(nèi)容重復(fù);需要投入較多的人力,不易跟上網(wǎng)絡(luò)資源的增長,更新速度慢。2、全文搜索引擎(關(guān)鍵詞型)(通用型)

全文搜索引擎也稱機(jī)器人搜索引擎、自動搜索式搜索引擎。它利用網(wǎng)絡(luò)Robot自動搜索技術(shù)對網(wǎng)絡(luò)各種資源進(jìn)行抽取、標(biāo)引、規(guī)類、排序,創(chuàng)建可按關(guān)鍵詞查詢的web網(wǎng)頁索引數(shù)據(jù)庫。當(dāng)輸入檢索詞后,搜索引擎會自動將其與存儲在索引數(shù)據(jù)庫中的信息特征進(jìn)行比較匹配,提供包含該關(guān)鍵詞信息的所有網(wǎng)址,并提供通往該網(wǎng)站(頁)的連接。代表性的全文搜索引擎有Google、百度等。全文搜索引擎的優(yōu)缺點(diǎn):優(yōu)點(diǎn)是所收錄的信息量巨大,索引數(shù)據(jù)庫規(guī)模大,耗費(fèi)人力資源較小,信息更新速度快,搜索功能強(qiáng)大,適合特性檢索,查全率高。缺點(diǎn)是返回信息量過多,檢準(zhǔn)率較低;并且提供的檢索所結(jié)果重復(fù)鏈接較多,層次結(jié)構(gòu)不清晰;給人一種繁多雜亂的感覺。對同一關(guān)鍵詞的檢索,不同全文搜索引擎反饋的結(jié)果相差很大,須從結(jié)果中進(jìn)行篩選,費(fèi)時費(fèi)力。3、專用搜索引擎

專用搜索引擎是指專門用于檢索某特定專業(yè)領(lǐng)域信息的搜索引擎,是目前搜索引擎發(fā)展的一大方向。例如:電子地圖搜索引擎()

FTP搜索引擎——北大天網(wǎng)(

)4、元搜索引擎

元搜索引擎是一種基于搜索引擎的網(wǎng)絡(luò)檢索工具,它是將多個搜索引擎集合在一起,通過一個統(tǒng)一的檢索界面接受并處理用戶的檢索提問,在進(jìn)行檢索時調(diào)用一個或多個獨(dú)立的搜索引擎的數(shù)據(jù)庫,檢索結(jié)果是來自獨(dú)立搜索引擎的檢索結(jié)果或者是來自多個搜索引擎檢索結(jié)果的綜合,呈現(xiàn)給用戶的檢索結(jié)果既可以是引用原始的獨(dú)立的搜索引擎的頁面,也可以是由元搜索引擎重新定制后的形式。著名的元搜索引擎有萬維搜索(

)、Dogpile——等。1、常用檢索方法

(1)簡單搜索(SimpleSearch):指輸入一個單詞(關(guān)鍵詞),提交搜索引擎檢索后反饋結(jié)果,也叫單詞搜索。這是最基本的檢索方法。(2)詞組搜索(PhraseSearch):也稱為“精確搜索,”指輸入兩個單詞以上的詞組(短語),提交搜索引擎檢索并反饋結(jié)果,也叫短語搜索?,F(xiàn)有搜索引擎一般都約定把詞組或短語放在引號“”內(nèi)。如果查找的是一個詞組或多個漢字,最好的辦法就是將它們用雙引號括起來,這樣得到的結(jié)果最精確,這就叫使用雙引號進(jìn)行精確查找。一般說來在網(wǎng)頁搜索引擎中,用詞組搜索來縮小范圍從而找到搜索結(jié)果是最好的辦法。

五、搜索引擎的檢索方法(3)高級搜索(AdvancedSearch):指用布爾邏輯組配方式檢索,也可限定檢索的語言、范圍、文件類型、時間等,也叫定制搜索。

(1)語句搜索(SentenceSearch):指輸入任意自然語言問句,提交搜索引擎檢索并反饋結(jié)果,這種方式也叫任意檢索,實(shí)際上就是自然語言檢索。并非所有的搜索引擎都支持這樣的檢索,而且不同搜索引擎對語句中詞與詞之間的關(guān)系的處理方式也不同。(2)目錄搜索(CatalogSearch):指按搜索引擎提供的分類目錄逐級檢索,用戶一般不需要輸入檢索詞,而是按照檢索系統(tǒng)所給的幾種分類項(xiàng)目,選擇類別進(jìn)行搜索,也叫分類搜索(ClassifiedSearch)。2、其它檢索方法

最具代表性的全文搜索引擎是Google、AlltheWeb、百度等,全文搜索引擎是相對于專用搜索引擎而言的,全文搜索引擎是一種“大眾資源”,試圖為每個人提供所有的信息;而專用搜索引擎往往將資源范圍限定在某個特定的學(xué)科或某種特色資源領(lǐng)域,因而適用于特定的人群。全文搜索引擎使用方便,對信息查詢反應(yīng)迅速,為廣大用戶所喜愛,因此是真正意義上的搜索引擎。第二節(jié)全文搜索引擎簡介

(1)Google簡介:Google是由美國斯坦福大學(xué)的兩位博士生LarryPage和SergeyBrin在1998年創(chuàng)建的。1999年6月,Google通過自己的網(wǎng)站推出,很快以其特有的技術(shù)優(yōu)勢和極佳性能揚(yáng)名世界。

Google的使命就是要提供網(wǎng)上最好的檢索服務(wù),促進(jìn)全球信息的交流和共享。Google開發(fā)出了世界上最大的搜索引擎,提供了最便捷的網(wǎng)上信息檢索方法,通過對30多億網(wǎng)頁進(jìn)行整理,Google可為世界各地的用戶提供所需的搜索結(jié)果,而且搜索響應(yīng)時間通常不到半秒。

一、Google()1、Google簡介:

Google是由美國斯坦福大學(xué)的兩位博士生

LarryPage和

SergeyBrin在

1998年創(chuàng)建的,誕生在斯坦福大學(xué)的宿舍里。1999年

6月,Google通過自己的網(wǎng)站

推出

,很快以其特有的技術(shù)優(yōu)勢和極佳性能揚(yáng)名世界。

(2)Google一般檢索方法

Google支持簡單搜索、詞組搜索和高級搜索(選搜索框右側(cè)的高級搜索項(xiàng)即可進(jìn)入),而且以多語種、多媒體兼容為特色,用戶鍵入搜索框中的任何符號均可得到反饋。如果用戶鍵入了明顯的錯別字詞,Google會給出提示,顯示了一定的智能。①簡單搜索:簡單搜索是Google的基本搜索,檢索簡潔且方便,僅需輸入檢索內(nèi)容并敲一下回車鍵(Enter),或單擊“Google搜索”按鈕,即可得到相關(guān)資料。如果想縮小搜索范圍,可輸入更多的關(guān)鍵詞,只要在關(guān)鍵詞中間留空格就行,此時,會自動使用“and”進(jìn)行邏輯組配檢索。

②詞組搜索:Google詞組搜索使用英文雙引號。在Google中,可以通過添加英文雙引號來搜索短語。雙引號中的詞語(比如“worldeconomy”)在檢索到的文檔中將作為一個整體出現(xiàn)。這一方法在查找名言警句或?qū)S忻~時顯得格外有用。Google檢索時會自動忽略最常用的詞和字符,這些詞和字符稱為忽略詞。Google忽略詞包括“http”、“.com”和“的”等字符以及數(shù)字和單字,因?yàn)檫@類字詞不僅無助于縮小檢索范圍,而且會大大降低搜索速度。

③高級搜索:可以將檢索策略輸入Google主頁面的檢索框中進(jìn)行檢索,也可以進(jìn)入高級檢索界面后將檢索策略輸入檢索框中檢索。(3)Google特殊功能①圖像搜索:Google的“圖像搜索”是網(wǎng)絡(luò)上現(xiàn)今最好的圖像搜索工具,收錄有幾十億張圖像供查看。在

Google的

高級搜索頁上以及

中都可以找到圖像搜索。要訪問它,必須在使用偏好頁上將界面語言設(shè)置為英語。在圖像搜索框中輸入要查找的圖像主題或相關(guān)關(guān)鍵詞,然后單擊“搜索”按鈕。在檢索結(jié)果頁上單擊縮略圖即可看到原始大小的圖像,同時還可看到該圖像所在的網(wǎng)頁。

②信息挖掘:如果要查找網(wǎng)絡(luò)上的PDF格式、DOC格式、GIF格式等專門格式的文件,只需在檢索詞后加上關(guān)鍵詞filetype:再加上PDF、.DOC、.GIF等文件類型信息即可,Google會自動到服務(wù)器甚至數(shù)據(jù)庫中去搜尋這些文件,體現(xiàn)了新穎的信息挖掘功能。③手氣不錯:按下“手氣不錯?”按鈕將自動進(jìn)入Google檢索到的第一個網(wǎng)頁,而完全看不到其它搜索結(jié)果。使用“手氣不錯”進(jìn)行搜索表示用于搜索網(wǎng)頁的時間較少而用于檢查網(wǎng)頁的時間較多。

④網(wǎng)頁快照:Google在訪問網(wǎng)站時,會將看過的網(wǎng)頁復(fù)制一份網(wǎng)頁快照,以備在找不到原來的網(wǎng)頁時使用。單擊“網(wǎng)頁快照”時,您將看到Google將該網(wǎng)頁編入索引時的頁面。在顯示網(wǎng)頁快照時,其頂部有一個標(biāo)題,用來提醒用戶這不是實(shí)際的網(wǎng)頁。符合搜索條件的詞語在網(wǎng)頁快照上突出顯示,便于快速找到所需的相關(guān)資料。⑤類似網(wǎng)頁:單擊“類似網(wǎng)頁”時,Google偵察兵便開始尋找與這一網(wǎng)頁相關(guān)的網(wǎng)頁。Google偵察兵可以“一兵多用”。如果用戶對某一網(wǎng)站的內(nèi)容很感興趣,但又嫌資料不夠,Google偵察兵會幫助找到其他有類似資料的網(wǎng)站。。⑥按鏈接搜索:有一些詞后面加上冒號對Google具有特殊的含義。其中的一個詞是“l(fā)ink:”。檢索link:顯示所有指向該網(wǎng)址的網(wǎng)頁。⑦指定網(wǎng)域:又一個后面加冒號而有特殊含義的詞是“site:”。要在某個特定的網(wǎng)域或網(wǎng)站中進(jìn)行搜索,可以在Google搜索框中輸入“site:”。⑧語句搜索Google是最早支持自然語言檢索的少數(shù)搜索引擎之一,目前這一功能仍在不斷改善之中。

(9)地圖搜索(2007版最新地圖數(shù)據(jù))

(10)圖書搜索:

對書籍進(jìn)行全文搜索,并發(fā)現(xiàn)新書。(11)中英文字典Google給中英文單詞互譯帶來了極大的方便。您只需輸入一個關(guān)鍵詞(“翻譯”,“fy”

和“FY”

任選其一)和要查的中

(英)文單詞,Google會直接顯示您要查的單詞的英文(或中文)翻譯。(12)天氣查詢用Google查詢中國城市地區(qū)的天氣和天氣預(yù)報(bào),只需輸入一個關(guān)鍵詞(“天氣”,“tq”

或“TQ”

任選其一)和您要查詢的城市地區(qū)名稱即可。

(13)股票查詢用Google查詢股票價(jià)格和股市行情,非常簡潔方便。您只需輸入一個關(guān)鍵詞(“股票”,“gp”

和“GP”

任選其一)和想查詢的股票證券名稱或是其六位數(shù)代碼,Google就會返回其他鏈接讓您只要一次點(diǎn)擊便能得到有關(guān)股票證券的詳盡資料。(14)手機(jī)號碼定位查詢用Google查詢手機(jī)電話號碼歸屬地。(15)定義(名詞解釋)功能要查看字詞或詞組的定義,只需鍵入“define”,接著鍵入一個空格,然后鍵入您需要其定義的詞。如果

Google在網(wǎng)絡(luò)上找到了該字詞或詞組的定義,則會檢索該信息并在搜索結(jié)果的頂部顯示它們。示例:

定義

HTML或者通過包含特殊操作符“define:”,

Ask原名AskJeeves,初出道時只是一個元搜索引擎,后以目錄搜索為主,而在2002年初收購Teoma全文搜索引擎后,很快便成為以實(shí)現(xiàn)自然語言檢索為特色的全文搜索引擎,并躋身著名搜索引擎之林,在國際互聯(lián)網(wǎng)上贏得一席之地。

Ask主頁中欄有檢索選擇及輸入框,輸入檢索詞后點(diǎn)擊Ask按鈕可查。Ask的搜索功能包括:(1)支持簡單搜索;(2)支持詞組搜索;(3)支持高級搜索。(4)支持布爾檢索。其特色是支持自然語言搜索。

二、Ask()Ask支持自然語言搜索的實(shí)現(xiàn)方式是支持自然語言提問,它的數(shù)據(jù)庫里已經(jīng)儲存了1000多萬個問題的答案,只要用英文輸入一個問題,它就會給出問題的答案。如果問題答案不在它的數(shù)據(jù)庫中,那么它會列出一串與問題類似的問題和含有答案的鏈接,供選擇。用自然語言具體檢索Ask時,可以用特殊疑問句或一般疑問句提問,通常用用特殊疑問句提問效果較好。也就是說,當(dāng)遇到一些屬于事實(shí)型、原理型的問題時,使用Ask是很方便的。三、百度()1、編制者

1999年底由李彥宏和徐勇于美國硅谷創(chuàng)建。2000年,回國發(fā)展,從此掀開中文搜索引擎的新篇章。2、數(shù)據(jù)庫的規(guī)模和范圍全球最的中文搜索引擎之一,索引的網(wǎng)頁數(shù)量達(dá)到8億多??蓹z索的資源類型包括:網(wǎng)頁、新聞、flash、圖片、mp3和地理資源。此外還包括:貼吧:百度開辟的用戶討論區(qū),涉及的主題范圍向廣泛,是供用戶交流和分享信息的便利工具,可用關(guān)鍵詞在貼吧中搜索相關(guān)主題的帖子。3、檢索功能(1)基本檢索

布爾檢索:支持不完全的布爾檢索。默認(rèn)的是邏輯“與”,兩個關(guān)鍵詞之間需空格。但邏輯“或”是用“|”連接兩個關(guān)鍵詞,并用小括號括起來。用“-”(英文字符的減號)執(zhí)行NOT操作,如“信息管理-(信息技術(shù))“。另外,這些功能在高級檢索界面中均可實(shí)現(xiàn),且不需要創(chuàng)建復(fù)雜的檢索式。

詞組檢索:用英文狀態(tài)下“”表示詞組。(2)特色搜索特殊文檔搜索:filetype:文檔格式字段檢索:可使用intitle、inurl、site運(yùn)算符如intitle:知識經(jīng)濟(jì)關(guān)鍵詞site:網(wǎng)址

其它檢索方法:在百度的高級檢索界面中,除了能限制關(guān)鍵詞出現(xiàn)的位置和邏輯關(guān)系外,還能限定網(wǎng)頁的時間、地區(qū)、語言(僅限于中文的繁簡體的選擇)(3)結(jié)果顯示(4)評價(jià)

(1)搜狐——搜狗搜索()(2)Excite():是基于斯坦福大學(xué)1993年8月創(chuàng)建的Architext擴(kuò)展而成的萬維網(wǎng)搜索引擎,它能為簡單搜索返回很好的結(jié)果,并能提供一系列附加內(nèi)容,尤其適合經(jīng)驗(yàn)不多的用戶使用,也支持詞組搜索和高級搜索。

四、其它著名搜索引擎(3)中國搜索()是目前性能直逼百度的中文搜索引擎。(4)yahoo搜索:/

第三節(jié)元搜索引擎(Meta-searchEngines)一、元搜索引擎概述

元搜索引擎(又稱集成搜索引擎,MegaSearchEngine,MultipleSearchEnginge)是一種集成化搜索引擎,它是多個獨(dú)立型搜索引擎的集合體。與獨(dú)立搜索引擎的區(qū)別在于,元搜索引擎沒有自己獨(dú)立的數(shù)據(jù)庫,通過一個統(tǒng)一的用戶界面幫助用戶在多個搜索引擎中選擇和利用合適的甚至是同時利用多個搜索引擎實(shí)現(xiàn)檢索操作。

二、元搜索引擎的分類1、All-in-One式元搜索引擎

All-in-One式的元搜索引擎又稱為搜索引擎元目錄,它將主要的搜索引擎集中起來,并按類型或按檢索問題等編排組成目錄,幫助、引導(dǎo)用戶根據(jù)檢索需求來選擇使用的搜索引擎;它集中羅列檢索工具,并將用戶引導(dǎo)到相應(yīng)的工具去檢索;檢索的還是某一搜索引擎的數(shù)據(jù)庫,與普通單一搜索引擎的檢索是一樣的。只不過是設(shè)立了又一層門戶,通過其組織、檢索界面,為用戶選擇適用的檢索工具提供積極的幫助,以克服用戶面對眾多的檢索工具的茫然和無所適從。2、并行檢索式元搜索引擎并行檢索式元搜索引擎將多個搜索引擎集成在一起,提供一個統(tǒng)一的檢索界面,用戶發(fā)出檢索請求后,提問式被同時分別提交給多個獨(dú)立的搜索引擎,同時檢索多個數(shù)據(jù)庫,最終輸出的檢索結(jié)果是經(jīng)過聚合、去重之后反饋的多個獨(dú)立搜索引擎查詢結(jié)果的綜合,它是一種集中的、跨平臺的檢索方式。三、元搜索引擎的技術(shù)原理

并行檢索式元搜索引擎是真正意義上的元搜索引擎,它通常由三部分組成,即:檢索請求提交機(jī)制、檢索接口代理機(jī)制和檢索結(jié)果顯示機(jī)制。

“請求提交”負(fù)責(zé)實(shí)現(xiàn)用戶個性化的檢索設(shè)置要求,包括調(diào)用哪些搜索引擎、檢索時間限制、結(jié)果數(shù)量限制等。

“接口代理”負(fù)責(zé)將用戶的檢索請求“翻譯成滿足不同搜索引擎本地化要求的格式”。

“結(jié)果顯示”負(fù)責(zé)所有目標(biāo)搜索引擎檢索結(jié)果的去重、合并、輸出處理等。四、常用元搜索引擎簡介1、常用的All-in-One式元搜索引擎iTools()1995年提供服務(wù),集中了Google、Metecrawler、Alltheweb、Altavista、Ask等15個通用搜索引擎,以及提供字典、百科全書、地圖、黃白頁信息、財(cái)經(jīng)等參考資料的網(wǎng)站或搜索工具。iTools提供6種網(wǎng)絡(luò)資源工具:檢索工具:搜索web資源。所集成的工具包括索引型搜索引擎、目錄型搜索引擎、黃白頁信息檢索工具。語言工具:字詞的查找和翻譯。集成的工具包括網(wǎng)絡(luò)上優(yōu)秀的在線詞典、專業(yè)詞庫和翻譯工具。研究調(diào)查工具:列舉眾多在線參考工具和報(bào)紙雜志,如百科全書、人物傳記、電子期刊、法律政策的查詢工具等。

金融工具:提供Oanda的實(shí)時匯率換算功能。地圖工具:提供著名地圖檢索工具M(jìn)apQuest的部分檢索功能,包括查找國家城市地圖(美國、英國、加拿大)3國的街區(qū)地圖、行車路線圖等。網(wǎng)絡(luò)工具:一些很實(shí)用的網(wǎng)絡(luò)測試工具。結(jié)果顯示:按照所選引工具的結(jié)果顯示方法。評價(jià):iTools曾多次榮獲業(yè)界大獎,它集中了網(wǎng)絡(luò)上最優(yōu)秀的資源工具,可為檢索者使用這些資源提供捷徑。2、常用的并發(fā)式元搜索引擎(1)Dogpile()

Dogpile是老資格的元搜索引擎之一,其歷史可追溯至1996年,早期只提供晨報(bào)新聞檢索?,F(xiàn)為InforSpace公司經(jīng)營。收錄范圍:

Dogpile目前可檢索包括Google、Yahoo、bing、ask等多達(dá)26個搜索引擎的各類信息資源。包括WWW資源、Usenet資源、FTP資源、拍賣信息、音頻資源、圖像資源、新聞、商業(yè)討論組、視頻資源。另還自建黃頁、白頁信息以及地圖、天氣的檢索功能,此功能只限美國和加拿大。檢索特點(diǎn):采用獨(dú)特的并行和串行向和的查詢方式;可使用布爾算符和模糊查詢

Dogpile的搜索技術(shù)十分先進(jìn),即使是高級運(yùn)算符和連接符,它也能將其轉(zhuǎn)化為符合每個搜索引擎的語法。設(shè)置網(wǎng)頁目錄,支持分類瀏覽功能(2)萬緯搜索()

由上海萬緯信息技術(shù)有限公司2001年創(chuàng)建,2002年5月萬緯搜索引擎2.0版本發(fā)布?,F(xiàn)包括的英文搜索引擎有:Google、NorthernLight、HotBot、Argos、Yahoo,中文引擎有:天網(wǎng)、新浪、搜狐、中文雅虎、悠游、網(wǎng)典、中文Google。提供的檢索方式:(1)一般搜索

提供2種搜索模式,一般查找和精確查找。一般查找為本引擎默認(rèn)的搜索方式,采用系統(tǒng)規(guī)定方式。搜索精確查找時,本引擎將使用網(wǎng)頁智能分析和精確網(wǎng)絡(luò)環(huán)境模擬技術(shù),以提供用戶更接近的結(jié)果。支持中、英文關(guān)鍵字檢索,不支持and、or等布爾代數(shù)運(yùn)算法則。(2)高級搜索提供更為細(xì)致的查詢方法和分類:

a.

選擇查詢結(jié)果的記錄數(shù);

b.

選擇所要查詢的各類引擎名稱,包括中文引擎和英文引擎;

c.

選擇自己的最大等待時間;

d.選擇結(jié)果的排序、分類。

一、Email搜索引擎:

Email搜索引擎的代表是BigFoot()。主要功能是可以檢索個人電子郵件地址、住址和電話號碼等信息。由于傳統(tǒng)電話號碼薄的個人信息內(nèi)容是白頁,故搜索引擎中有關(guān)檢索住址和電話號碼的部分也稱白頁搜索引擎(WhitePagesSearchEngine)。又因BigFoot的數(shù)據(jù)庫不是集成的,所以查電子郵件地址與查住址和電話號碼的分別形成了獨(dú)立的功能,查電子郵件地址用FindPeople功能項(xiàng),查住址和電話號碼則用WhitePages功能項(xiàng)。

第四節(jié)專用搜索引擎二、FTP搜索引擎:國外:

國內(nèi)的有:北大天網(wǎng)()三、商用搜索引擎:(1)黃頁搜索引擎SuperPages()。迄今為止最好的黃頁搜索引擎,(2)制造商網(wǎng)

/五、電子地圖信息搜索引擎

1、圖行天下()這是我國第一個電子地圖搜索引擎,是檢索全國地圖信息的重要工具??衫玫孛阉髯鎳箨懠案郯呐_的各大城市的信息,包括地圖、出行、住房、生活、旅游等信息。2、百度地圖

/

3、必應(yīng)地圖

4、Google地圖搜索5、

搜狗地圖/6、MapBlast(httP://)MapBlast是由Vicinity公司提供的免費(fèi)地圖信息服務(wù)網(wǎng)站,提供精確的美國和歐洲的交互地圖、行車指南、住宿信息、交通報(bào)告、預(yù)約功能以及當(dāng)?shù)赜腥さ牡攸c(diǎn)。

MapBlast的主要服務(wù)內(nèi)容有:美國地圖查詢、美國黃頁查詢、加拿大地圖查詢和世界地圖查詢。

六、IP、手機(jī)號碼、身份證查詢

IP地址探索者(/)/Google手機(jī)定位查詢

第五節(jié)搜索引擎的使用技巧一、關(guān)鍵詞—搜索引擎檢索的靈魂

目前應(yīng)用最成成熟的最廣泛的是基于關(guān)鍵詞的檢索。對于檢索來說,最根本的、也是最難的,是使用什么樣的關(guān)鍵詞來構(gòu)造檢索式。1、足夠多的關(guān)鍵詞是快速定位目標(biāo)信息的關(guān)鍵

初學(xué)者容易犯的錯誤之一就是檢索提問中缺少足夠多的關(guān)鍵詞。例如:檢索“手機(jī)”這部電影檢索美國黑人人權(quán)領(lǐng)袖馬丁?路德金的生平檢索“三從四德”中三從

“黃花閨女”中黃花的含義

奧巴馬的英文拼寫

記者們提問的時候常用的5W1H(what、who、where、when、why、how)在構(gòu)件檢索式時是很有用的。What:自己要找的信息的中心主題是什么,可以從什么角度或立場來切入,把相關(guān)的關(guān)鍵詞或是詞組都列出來。Who:是否涉及特定的群體或個人?有特定的人名的話,應(yīng)該把人名也列出來,并留意這個人名有沒有不同的寫法(譯法)或是拼法?Where:是否限于特定的國家地區(qū)?中國內(nèi)地還是港澳臺?很多搜索引擎都可以按地區(qū)或國家限定查詢范圍。When:是否從特定的時間剖面來探討?或特定的時間以后才有的事件或情況?Why:這個主題有什么意義或影響?為什么會有這種現(xiàn)象發(fā)生?檢索智力題:(1)下水道的蓋子為什么是圓的?(2)吃企鵝肉自殺How:是不是有特定的方法,有的話,也應(yīng)該將其列為關(guān)鍵詞,有時在查詢結(jié)果太多時??梢栽黾雨P(guān)鍵詞在查詢。例如:我們想要檢索有關(guān)“知識管理”的定義時,,此時關(guān)鍵詞就不只是“知識管理”或“knowledgemanagement”,還應(yīng)該把“定義”或“definition”也列為關(guān)鍵詞。2、停用詞和常用詞

如:某三年級小學(xué)生,想查一些關(guān)于時間的名人名言,他的查詢詞是“小學(xué)三年級關(guān)于時間的名人名言”能不能按照他的檢索詞進(jìn)行檢索呢?答案是否定的。原因是他的提問中包含了很多過于“通用”的詞,像中文中“的、了、這、那、很等等”以及英文中的“and、about、the、of、a、an、if、not、it”等都屬于停用詞,因?yàn)樘S昧?,信息價(jià)值很低,檢索工具常常會忽略掉。3、使用截詞符和通配符

尤其在英文和西文檢索中常用。并不是所有搜索引擎都支持,Google不支持。如:Bird*就能檢索出包含“Bird”和“Birds”的所有記錄。

“中*科*大”就能檢索到與“中科大”或“中國科技大學(xué)”相關(guān)的信息。適用截詞符的條件(1)這些詞的詞干應(yīng)該比較長(像com只有三個字母就太短了)(2)它們的復(fù)數(shù)形式是比較簡單的-s或-es的形式,而不是-ies。(3)它們的詞干不能也是其他很常見詞的詞干。4、選定合適的關(guān)鍵詞級別

如果選定的檢索范圍大于檢索主題實(shí)際包括的范圍,檢索結(jié)果就會過多;反之就是丟失一部分有價(jià)值的結(jié)果。選定合適的檢索范圍為我們節(jié)省的時間難以計(jì)算。5、注意使用同義詞

這里的同義詞是指只要不同的詞指的是同一個明確的概念、互相等同,就可以稱為同義詞。引起同義詞的原因很多,諸如縮寫、全稱、簡稱、學(xué)名、俗名、簡繁體、不同語言說法、不同地區(qū)的說法、不同時代的說法、別稱、大小寫、通假詞等。

像下面的5個詞就是同義詞:飄、亂世佳人、隨風(fēng)而逝、Gonewiththewine、gonewiththewine

毛澤東、毛潤之、毛主席6、進(jìn)行詞組檢索

加雙引號(英文狀態(tài)下)檢索式最強(qiáng)有力的關(guān)鍵詞是詞組,詞組的強(qiáng)制檢索結(jié)果必須與詞組的形式完全一致(順序和間隔都不變)。如:檢索樂隊(duì)“動力火車”二、熟練應(yīng)用布爾檢索

布爾檢索是計(jì)算檢索最成熟最常用的檢索技術(shù)。常見的布爾運(yùn)算符如下:AND:用AND運(yùn)算符連接的兩個關(guān)鍵詞都必須出現(xiàn)在檢索結(jié)果中。某些檢索工具用符號“+”代替AND。OR:用OR連接的兩個關(guān)鍵詞必須有一個出現(xiàn)在檢索結(jié)果中,百度用“|”。NOT:緊跟在NOT后的關(guān)鍵詞不出現(xiàn)在結(jié)果中。某些檢索工具用ANDNOT或者“-”代替“NOT”。如:使用“花木蘭AND迪斯尼”可檢索到迪斯尼電影花木蘭相關(guān)的信息使用“飄OR亂世佳人”可檢索到所有與“飄”有關(guān)的小說使用“寵物NOT貓”可檢索到除了貓以外的所有寵物的信息三、巧妙開展進(jìn)階檢索

所謂進(jìn)階檢索是指利用上一次的檢索結(jié)果再進(jìn)行檢索。1、猜測URL——順藤摸瓜合同的訂立filetype:ppt我們要善于分析網(wǎng)頁命名的特點(diǎn)和規(guī)律,順藤摸瓜。這些規(guī)律一般不外乎用英文單詞、漢語拼音或縮寫,數(shù)字結(jié)尾、網(wǎng)頁更新當(dāng)天的日期、刊物的期數(shù)加版面這幾種形式。如湖南圖書館出版社《圖書館》期刊是可以上網(wǎng)查看的,每一期目錄網(wǎng)頁的地址中幾乎都包含一個表示日期的數(shù)字串,像

.tsg/20030623/content/index.htm

http:傳輸協(xié)議.表示湖南圖書館tsg則是《圖書館》期刊的簡稱200306023則表示該期的出版日期

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論