信息檢索:第八章 網(wǎng)絡(luò)信息檢索_第1頁(yè)
信息檢索:第八章 網(wǎng)絡(luò)信息檢索_第2頁(yè)
信息檢索:第八章 網(wǎng)絡(luò)信息檢索_第3頁(yè)
信息檢索:第八章 網(wǎng)絡(luò)信息檢索_第4頁(yè)
信息檢索:第八章 網(wǎng)絡(luò)信息檢索_第5頁(yè)
已閱讀5頁(yè),還剩110頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第八章網(wǎng)絡(luò)信息檢索主要闡述網(wǎng)絡(luò)信息資源及搜索引擎理論基礎(chǔ)第一節(jié)網(wǎng)絡(luò)信息資源及其評(píng)價(jià)第二節(jié)網(wǎng)絡(luò)信息檢索的發(fā)展趨勢(shì)第三節(jié)搜索引擎的類型第四節(jié)中文搜索引擎舉要第五節(jié)英文搜索引擎舉要第一節(jié)網(wǎng)絡(luò)信息資源及其評(píng)價(jià)

一、因特網(wǎng)上的信息資源的類型

1.從是否付費(fèi)角度劃分,有付費(fèi)和免費(fèi)兩大類

付費(fèi)的網(wǎng)絡(luò)資源:大多是技術(shù)含量高、整理有序、具有很高利用價(jià)值的各信息公司開(kāi)發(fā)的數(shù)據(jù)庫(kù)系統(tǒng),如CNKI、DIALOG等。免費(fèi)信息資源:大多是由單位或個(gè)人提供的各種信息資源?;厥醉?yè)2.從內(nèi)容角度劃分,有政府機(jī)構(gòu)信息、科研信息、教育信息、文化信息、消遣娛樂(lè)性信息資源等。3.從表現(xiàn)形式角度劃分,有網(wǎng)絡(luò)數(shù)據(jù)庫(kù)、聯(lián)機(jī)館藏目錄庫(kù)、電子出版物等。(1)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)又稱為文獻(xiàn)庫(kù)、資料庫(kù),是發(fā)展最早、影響最廣的一種主要電子資源,主要為收費(fèi)資源。INTERNET上的數(shù)據(jù)庫(kù)不計(jì)其數(shù),除了DIALOG、STN所提供的收費(fèi)商業(yè)性數(shù)據(jù)庫(kù)外,也有許多免費(fèi)供用戶使用的數(shù)據(jù)庫(kù)。除文獻(xiàn)數(shù)據(jù)庫(kù)外,還有各種如公司名錄庫(kù)、專利庫(kù)、標(biāo)準(zhǔn)庫(kù)、招聘求職庫(kù)、征婚交友庫(kù)等,涉及各個(gè)領(lǐng)域、不同專業(yè)。(2)聯(lián)機(jī)館藏目錄庫(kù),也是信息檢索的重要對(duì)象,大多數(shù)是免費(fèi)的。目前有6000多個(gè)館藏目錄庫(kù)通過(guò)網(wǎng)絡(luò)對(duì)外開(kāi)放,以便讀者了解圖書(shū)館資源并實(shí)現(xiàn)資源共享。用戶可以通過(guò)INTERNET進(jìn)入世界各大學(xué)的圖書(shū)館、公共圖書(shū)館、專業(yè)圖書(shū)館。不同的圖書(shū)館所提供的信息不同,但一般都會(huì)提供本館的館藏目錄,用戶可以從作者名、篇名、主題、出版年代、出版社等多種途徑查詢?cè)擆^館藏情況。http://www.ouls.ox.ac.uk/OxfordUniversityLibraryServices

Aboutus

Libraries

Services

Collections&Catalogues

E-resourcesSearch

QuicklinksUsingthelibrariesOLIS(onlinecatalogue)OxLIP(e-resources)InformationskillsSupportthelibraryVisitorsContactusSitemap

StaffPages

WelcometothewebsiteoftheOxfordUniversityLibraryServicesWeareproudtobethelargestuniversitylibrarysystemintheUnitedKingdom.MostoftheUniversity’slibraryfacilitiesaremanagedundertheumbrellaoftheintegratedOxfordUniversityLibraryServices(OULS).ThisincludestheBodleianLibrary,whichhasbeenalibraryoflegaldepositforalmost400years.ThecombinedcollectionsoftheOULSnumbermorethan11millionprinteditems,inadditiontovastquantitiesofmaterialsinmanyotherformats.OxfordUniversityhasanextremelyrichanddiverselibraryserviceprovidedbyoveronehundredlibraries.Therearemajorresearchlibrariesaswellaslibrariesattachedtofaculties,departmentsandotherinstitutionsoftheUniversity.Thecollegesalsohavelibraries,andthoughtheircurrentholdingsareprimarilyfortheirownmembers,manycollegelibrariescontainimportantspecialandhistoriccollectionsopentoallresearchers.[Thiswebsiteiscurrentlybeingdeveloped,toprovideaccessforreaderstoall

singlesourceof

informationabouttheLibraryServices.Pleasebearwithusaswe

continue

thisworkduringthecomingmonths.]

NewsandEventsCurrentExhibition:Children'sGames&Pastimes,28November2005to29April2005

AUniversityLibraryforthe21stCenturyReadingLightisnowavailableBodleianLibraryCJKCatalogues

CHINESECATALOGUEBrowseIndexIndex:Displayfrom:Numberoflines:SearchPersonalauthorTitlekeyword1Titlekeyword2Titlekeyword3Combinewith:AND

ORSearchmode:truncated

exact

Withthetruncatedoption(default),alltermslongerthanthesearchtermarealsofound.

HelpOtherCJKcatalogues

BodleianLibrary

Allegro-W3V2.5,(C)1996UniversitaetsbibliothekBraunschweig

Revised:12Nov1997BodleianLibrary.Revised:11Dec1997

ThaddeusLipinskitsl@bodley.ox.ac.uk

BodleianLibraryCJKCatalogues

CHINESECATALOGUE

Titlekeyword1:culture??=truncatedsearch

Page1(of8)

中國(guó)文化研究

/

北京語(yǔ)言學(xué)院

19uu基督教文化評(píng)論.

9

/

劉小楓主編

1999基督教文化評(píng)論.

10

/

劉小楓主編

1999翻譯?文學(xué)?文化

/

孔慧怡著

1999臺(tái)灣原住民文化藝術(shù)

/

劉其偉編著

1999禮教與情慾

:

前近代中國(guó)文化中?nbsp;/

熊秉真

1999六朝文化國(guó)際學(xué)術(shù)研討會(huì)暨中國(guó)魏

/

南京博物院<東南文化>雜誌社

1998英漢?漢英文化考古詞典

/

吉林大學(xué)<英漢?漢英文化考古詞典>?nbsp;

1998歷史與文化

/

香港浸會(huì)大學(xué)歷史學(xué)系

1998故鄉(xiāng)常新,

文化常青

:

86年度全?nbsp;/

國(guó)立藝術(shù)學(xué)院傳統(tǒng)藝術(shù)研究中心

1998

...

Marktherequiredrecordsfirst.

BodleianLibraryCJKCatalogues

CHINESECATALOGUE中國(guó)文化研究=Chinesecultureresearch/北京語(yǔ)言學(xué)院主辦.-北京:北京語(yǔ)言學(xué)院出版社,[19??]-.-冊(cè);26公分.-ISSN1005-3247藏館:BODPer.Chin.d.80123(1994:春),4(1994:夏),6(1994:冬),7(1995:春)ChangeDisplayISBD

Tagged

(3)電子出版物,包括電子圖書(shū)、電子期刊、電子報(bào)紙、其它電子文檔電子圖書(shū)(electronicbook,e-book),是指以數(shù)字化方式發(fā)行的、有ISBN編號(hào)的單卷本正式出版物。目前絕大多數(shù)電子圖書(shū)是印刷版圖書(shū)的光盤(pán)版和網(wǎng)絡(luò)版,只有少數(shù)電子圖書(shū)是沒(méi)有印刷版的。目前可見(jiàn)到的電子圖書(shū)大多是辭典、指南、百科全書(shū)、文摘、索引等工具書(shū)。電子型工具書(shū)比印刷型有更多的檢索點(diǎn)和更靈活的檢索方法,因而特別受到用戶歡迎?,F(xiàn)在,越來(lái)越多的圖書(shū)館紛紛購(gòu)買(CD-ROM)或租用(Online)電子型圖書(shū)。這些電子型圖書(shū)和期刊往往都會(huì)在每個(gè)圖書(shū)館的HomePage上專列一項(xiàng),稱之為電子圖書(shū)館資源(ResourcesintheElectronicLibrary)。電子期刊(electronicjournal,e-journal)

,是指以數(shù)字化方式發(fā)行的、有ISSN編號(hào)的系列正式出版物。電子期刊是非常重要的網(wǎng)絡(luò)資源,其數(shù)量超過(guò)電子圖書(shū),網(wǎng)絡(luò)載體反映信息的快捷特性滿足了期刊的要求。電子期刊一般比較正規(guī),和印刷型期刊一樣有專門的出版社。目前網(wǎng)絡(luò)上有上萬(wàn)種期刊提供服務(wù),有很多是全文或部分免費(fèi)。最為用戶關(guān)注的是免費(fèi)的電子期刊。

許多出版社為宣傳其期刊,在其主頁(yè)下不僅會(huì)列出它們出版的期刊名稱、內(nèi)容介紹、投稿指南、訂購(gòu)方式,并且還會(huì)列出樣本,刊出全文;有的出版社在網(wǎng)上提供全部期刊的目次,并提供部分全文.有的只列出近期目錄不提供全文,如:ReviewsofModernPhysics();有的還提供近幾年的全部目次及少數(shù)全文,如:Sciencemagzine();有的不僅提供目次,還提供文摘,并具有檢索功能;也有的學(xué)會(huì)期刊可供會(huì)員閱讀,如美國(guó)電氣與電子工程師學(xué)會(huì)IEEETransactions.現(xiàn)在有網(wǎng)上電子期刊的目錄可以提供搜索幫助,如渥太華大學(xué)網(wǎng)絡(luò)系統(tǒng)研究人員MichaelStrangelove編輯的《電子期刊目錄(DirectoryofElectronicJournalsandNewsletters)》。電子報(bào)紙,網(wǎng)上也有許多報(bào)紙全文免費(fèi)。人民網(wǎng)(),光明網(wǎng),《紐約時(shí)報(bào)》(NewYorkTimes,),《金融時(shí)報(bào)》(TheFinancialTimesArchive,http://ft.chadwyck.co.uk)等等??梢酝ㄟ^(guò)網(wǎng)上的報(bào)紙目錄和重要報(bào)紙網(wǎng)站來(lái)獲取搜索幫助。光明日?qǐng)?bào)網(wǎng)的“中國(guó)網(wǎng)上報(bào)刊大全”,新聞時(shí)空網(wǎng)站.其它電子文檔。網(wǎng)上其它電子文檔層出不窮,許多文檔對(duì)用戶有很高的利用價(jià)值,主要有以下幾種:商業(yè)公司、企業(yè)單位免費(fèi)提供其產(chǎn)品樣本和目錄;大學(xué)和研究機(jī)構(gòu)提供單位的有關(guān)信息;電子布告欄、電子論壇等。

二.網(wǎng)絡(luò)信息資源評(píng)價(jià)1.評(píng)價(jià)的意義網(wǎng)上信息資源的廣泛可存取性(accessibility),使得網(wǎng)上信息廣泛、豐富,卻缺乏組織和質(zhì)量控制,呈現(xiàn)無(wú)限、無(wú)序、優(yōu)劣混雜的發(fā)展?fàn)顟B(tài)。因特網(wǎng)改變了傳統(tǒng)的信息發(fā)表和評(píng)價(jià)程序,網(wǎng)絡(luò)信息評(píng)價(jià)更多地由用戶自己承擔(dān)。因此掌握評(píng)價(jià)標(biāo)準(zhǔn),顯得更為重要。2.評(píng)價(jià)的標(biāo)準(zhǔn)網(wǎng)絡(luò)信息資源的評(píng)價(jià)標(biāo)準(zhǔn)仍處于發(fā)展之中。目前對(duì)網(wǎng)絡(luò)信息資源的評(píng)價(jià)一般以網(wǎng)站或者網(wǎng)頁(yè)為評(píng)價(jià)單位,評(píng)價(jià)標(biāo)準(zhǔn)是在借鑒傳統(tǒng)的對(duì)印刷型文獻(xiàn)的基礎(chǔ)上,結(jié)合網(wǎng)絡(luò)信息的特點(diǎn),對(duì)網(wǎng)頁(yè)和網(wǎng)站所提供信息內(nèi)容質(zhì)量和信息存取方式等綜合而成。(1)目的(purpose)(2)范圍(scope)(3)內(nèi)容(content)――準(zhǔn)確性(accuracy)、權(quán)威性(authority)、新穎性(currency)、獨(dú)特性(uniqueness)、可靠性(reliability)、鏈接(links)(4)圖形和多媒體設(shè)計(jì)(graphicandmultimediadesign)(5)信息的展示與設(shè)計(jì)(informationpresentationanddesign)(6)可操作性(workability)――用戶友好性(userfriendliness)、檢索性能(searching)、交互性(interactivity)、連通性(connectivity)(7)費(fèi)用(cost)――連通費(fèi)用、資源費(fèi)用(8)評(píng)論(review)3.評(píng)價(jià)的方法采用定性和定量評(píng)價(jià)方法。4.幾個(gè)重要的評(píng)價(jià)站點(diǎn)TheArgusClearinghouse—-《面向主題的Internet資源指南》(TheClearinghouseforSubject-orientedResource)()TheWWWVirtualLibrary()OCLC的NewFirst服務(wù)。

第二節(jié)網(wǎng)絡(luò)信息檢索回顧過(guò)去十多年信息檢索領(lǐng)域的發(fā)展變化,最引人注目的是互聯(lián)網(wǎng)的出現(xiàn)以及隨后應(yīng)運(yùn)而生、用于檢索網(wǎng)絡(luò)信息的搜索引擎和瀏覽目錄?;厥醉?yè)萬(wàn)維網(wǎng)和互聯(lián)網(wǎng)不是同義詞,它只是互聯(lián)網(wǎng)的一部分,且使用頻率始終居于電子郵件之后,但萬(wàn)維網(wǎng)正在逐漸成為各種檢索工具和系統(tǒng)的平臺(tái),且有發(fā)展成為信息檢索唯一平臺(tái)的趨勢(shì)。在不遠(yuǎn)的過(guò)去,數(shù)據(jù)庫(kù)(如Dialog)和聯(lián)機(jī)公用圖書(shū)館目錄都有與各自相應(yīng)的檢索平臺(tái)。然而,這種不同類型的信息檢索系統(tǒng)采用獨(dú)有的平臺(tái)的狀況,正在漸漸地成為歷史,取而代之的是以萬(wàn)維網(wǎng)作為共同的平臺(tái)。一.源于萬(wàn)維網(wǎng)和基于萬(wàn)維網(wǎng)的信息檢索以萬(wàn)維網(wǎng)作為共同的信息檢索平臺(tái)地現(xiàn)實(shí),使我們可將信息檢索分為源于萬(wàn)維網(wǎng)(Web-born)與基于萬(wàn)維網(wǎng)(Web-borne)兩類?,F(xiàn)有的三大信息檢索系統(tǒng)即數(shù)據(jù)庫(kù)、聯(lián)機(jī)公用圖書(shū)館目錄和網(wǎng)絡(luò)檢索工具則各得其位。萬(wàn)維網(wǎng)檢索工具有著許多與數(shù)據(jù)庫(kù)、聯(lián)機(jī)公用圖書(shū)館目錄截然不同的特點(diǎn)。二.聯(lián)機(jī)信息檢索(數(shù)據(jù)庫(kù))與網(wǎng)絡(luò)信息檢索的比較

1.兩者異同的比較相似之處:檢索實(shí)質(zhì)相同,邏輯組織大體相同,提供檢索的邏輯組配手段相似,檢索入口相同。不同之處:標(biāo)引所依據(jù)的語(yǔ)言不同,系統(tǒng)界面設(shè)計(jì)不同,信息組織方式不同。

2.兩者優(yōu)劣勢(shì)的比較

2.1聯(lián)機(jī)信息檢索的優(yōu)勢(shì)和缺陷優(yōu)勢(shì):聯(lián)機(jī)系統(tǒng)在信息數(shù)量上的優(yōu)勢(shì),聯(lián)機(jī)系統(tǒng)在信息質(zhì)量上的優(yōu)勢(shì),聯(lián)機(jī)系統(tǒng)在檢索效率上的優(yōu)勢(shì)。缺陷:聯(lián)機(jī)信息檢索費(fèi)用高,聯(lián)機(jī)信息檢索需要一定的檢索技巧。2.2網(wǎng)絡(luò)信息檢索優(yōu)勢(shì)和不足優(yōu)勢(shì):檢索費(fèi)用低,用戶界面友好,信息內(nèi)容及形式較新穎多樣、原文可獲得性高。不足:信息質(zhì)量、時(shí)效性、可靠性無(wú)法得到保證,網(wǎng)絡(luò)信息檢索效率低,增加用戶的時(shí)間成本。具體比較見(jiàn)下表:比較項(xiàng)目DIALOG等系統(tǒng)搜索引擎信息量約數(shù)億頁(yè)面約80億頁(yè)面(不斷變化)信息內(nèi)容可靠的專業(yè)信息一般信息,可靠性有待提高操作檢索的人員信息檢索專業(yè)人員普通網(wǎng)絡(luò)用戶費(fèi)用昂貴低廉標(biāo)引方式人工標(biāo)引文獻(xiàn)自動(dòng)標(biāo)引(及人工分類)檢索的復(fù)雜性較高一般檢索界面非圖形化界面,不太友好圖形化界面,較為友好檢索效率及質(zhì)量高低檢索的時(shí)間短長(zhǎng)原文的可得性較高高三.網(wǎng)絡(luò)信息檢索機(jī)遇和挑戰(zhàn)通過(guò)網(wǎng)絡(luò)信息檢索,人們可以便捷地獲取遍布全球、各種各類的網(wǎng)絡(luò)信息。信息檢索不再局限于特定的地點(diǎn)和特定的系統(tǒng),終端用戶也不必在檢索信息之前,接受相關(guān)的檢索技能訓(xùn)練。人們可以在自己選定的地點(diǎn),查詢自己需要的網(wǎng)絡(luò)信息。網(wǎng)絡(luò)信息檢索工具的出現(xiàn)導(dǎo)致了信息檢索領(lǐng)域的歷史性變革。然而,網(wǎng)絡(luò)檢索工具的出現(xiàn)也在信息檢索領(lǐng)域引發(fā)了從未遇到的問(wèn)題。例如,如何篩選和標(biāo)引數(shù)量龐大、質(zhì)量參差、瞬息萬(wàn)變和來(lái)源復(fù)雜的網(wǎng)絡(luò)信息?如何提高網(wǎng)絡(luò)信息檢索的查準(zhǔn)率?如何研制開(kāi)發(fā)老少咸宜、新手和專家兼可的檢索界面?如何向用戶提供有針對(duì)性和個(gè)性化(personalized)的檢索結(jié)果,而不是將系統(tǒng)檢索得到的少則成千條、多則上億條的信息魚(yú)目混珠地和盤(pán)托出?等1.網(wǎng)絡(luò)信息的篩選IBM公司在其名為WebFountain(萬(wàn)維網(wǎng)噴泉)研究項(xiàng)目報(bào)告中指出,所有的萬(wàn)維網(wǎng)信息中有30%內(nèi)容淫穢,有30%內(nèi)容重復(fù);每天有5000萬(wàn)網(wǎng)頁(yè)是新添加的或被修改過(guò)的,加之目前互聯(lián)網(wǎng)還缺乏有效的質(zhì)量控制,所以網(wǎng)絡(luò)信息數(shù)量龐大、質(zhì)量參差、瞬息萬(wàn)變和來(lái)源復(fù)雜的特點(diǎn),決定了網(wǎng)絡(luò)檢索工具在篩選工作方面的艱巨性。網(wǎng)絡(luò)檢索工具在決定信息取舍時(shí),一般依據(jù)詞頻、詞與詞之間的距離(proximity)、檢索詞在文獻(xiàn)中出現(xiàn)的位置和被鏈接次數(shù)(backlinking)的次數(shù)等等,這些依據(jù)本身后來(lái)被一些人有意利用,以達(dá)到自己的網(wǎng)絡(luò)信息不但被檢索工具標(biāo)引收錄,而且還出現(xiàn)在檢索結(jié)果最前列的目的。詞語(yǔ)密植和鏈接濫置是兩種比較突出的手段。詞語(yǔ)密植(wordstuffing),又稱為詞語(yǔ)濫置(textspamming),是在網(wǎng)頁(yè)的有關(guān)部位,如<title>、

<keyword>、

<meta>等標(biāo)識(shí)(tag)處,多次重復(fù)與網(wǎng)頁(yè)主題內(nèi)容相關(guān)的關(guān)鍵詞語(yǔ).更有甚者,為了不被肉眼察覺(jué),,特意將重復(fù)的詞語(yǔ)文字和背景的顏色調(diào)為相同,即所謂的“偽裝隱蔽”(cloaking)。鏈接濫置(linkspamming)方式通常以兩種方式實(shí)現(xiàn),一是鏈接農(nóng)場(chǎng)(linkfarm),即在特定網(wǎng)站各網(wǎng)頁(yè)末尾設(shè)立指向本網(wǎng)站網(wǎng)頁(yè)的超鏈接(hyperlink);二是為鏈接門戶(doorwaypages),即在特定網(wǎng)頁(yè)上只設(shè)立指向其想要提高相關(guān)性排序(relevanceranking)位置的目標(biāo)網(wǎng)頁(yè)的超鏈接而不登載內(nèi)容。兩種鏈接濫置方式殊途同歸,均為提高特定目標(biāo)網(wǎng)站或網(wǎng)頁(yè)的相關(guān)性排序,以增加被網(wǎng)絡(luò)檢索工具選入其數(shù)據(jù)庫(kù)和作為檢得結(jié)果的幾率。網(wǎng)絡(luò)信息的篩選問(wèn)題面臨著不可低估的挑戰(zhàn)。為此越來(lái)越多的網(wǎng)絡(luò)信息檢索工具在繼續(xù)使用傳統(tǒng)信息篩選方法(如詞頻)的基礎(chǔ)上,結(jié)合考慮“萬(wàn)維網(wǎng)依據(jù)”(web-evidence),以便更準(zhǔn)確地判斷網(wǎng)絡(luò)信息的質(zhì)量。萬(wàn)維網(wǎng)依據(jù)是鏈接名稱(linkname或anchortext)、被鏈接次數(shù)、

URL構(gòu)成(URLstructure)等的總稱。2.網(wǎng)絡(luò)信息的查準(zhǔn)率網(wǎng)絡(luò)信息檢索的高噪音、低查準(zhǔn)率的原因大致包括來(lái)源信息混雜、自動(dòng)標(biāo)引技術(shù)有待完善、針對(duì)網(wǎng)絡(luò)信息特點(diǎn)的檢索技術(shù)正在發(fā)展等等。檢索提問(wèn)修改和問(wèn)題解答檢索是解決問(wèn)題的兩個(gè)突出例子。3.網(wǎng)絡(luò)結(jié)果的顯示相關(guān)性由高至低的順序顯示,而數(shù)據(jù)庫(kù)可以按照時(shí)間順序顯示,這是不易為人所更改.網(wǎng)絡(luò)檢索結(jié)果數(shù)量的龐大和用戶通過(guò)瀏覽結(jié)果數(shù)量的有限之現(xiàn)實(shí).檢索結(jié)果的聚類和可視化是嘗試解決這一問(wèn)題的方法之一.檢索結(jié)果的聚類和可視化均由網(wǎng)絡(luò)檢索工具自動(dòng)完成.三.新興的網(wǎng)絡(luò)信息檢索領(lǐng)域分支基于內(nèi)容的多媒體信息檢索多語(yǔ)種和跨語(yǔ)種信息檢索交互型信息檢索四.人工智能在網(wǎng)絡(luò)信息檢索領(lǐng)域的應(yīng)用信息檢索智能代理自然語(yǔ)言檢索個(gè)性化信息檢索第三節(jié)搜索引擎一.網(wǎng)絡(luò)信息檢索方法1.瀏覽1.1偶然發(fā)現(xiàn)1.2順“鏈”而行2.利用搜索引擎回首頁(yè)二.搜索引擎及其類型搜索引擎(SearchEngine)是Internet上具有查詢功能的網(wǎng)頁(yè)的統(tǒng)稱,是提供給用戶進(jìn)行關(guān)鍵詞、詞組或自然語(yǔ)言在因特網(wǎng)上檢索信息的工具。目前已多達(dá)數(shù)百種,包括WebSearchEngine(萬(wàn)維網(wǎng)搜索引擎)、UsenetSearchEngine(新聞?wù)搲阉饕?、YellowPageSearchEngine(黃頁(yè)搜索引擎)、WhitePageSearchEngine(白頁(yè)搜索引擎)、Meta-SearchEngine(元搜索引擎)等類型。

1.按信息內(nèi)容的組織方式劃分1.1目錄式搜索引擎目錄式搜索引擎(Directory,Catalog)提供由網(wǎng)頁(yè)作者所呈送的因特網(wǎng)資源的鏈接集合,同時(shí)對(duì)這些資源作出評(píng)價(jià)并組織成主題目錄。典型代表是Yahoo()。

1.2機(jī)器人搜索引擎(狹義的SearchEngine)不是靠人工發(fā)現(xiàn)和甄別信息,而是由一個(gè)被稱為“蜘蛛”(Spider)的計(jì)算機(jī)程序在網(wǎng)中爬行,依據(jù)一定的網(wǎng)絡(luò)協(xié)議在因特網(wǎng)中發(fā)現(xiàn)、加工、整理信息,并為用戶提供檢索服務(wù)。由自動(dòng)索引程序、數(shù)據(jù)庫(kù)、檢索代理軟件三部分構(gòu)成。典型代表是AltaVista,Excite,HotBot,Infoseek,Lycos,中文的百度等。2.按專業(yè)范疇劃分2.1綜合性搜索引擎,如AltaVista,Excite。2.2專業(yè)性搜索引擎,如SocialScienceInformationGateway(http://www.sosig.ac.uk),Medicalworldsearch(),Checkdomain(http://),E-mailaddresses(http://www.E-)3.按檢索功能劃分3.1獨(dú)立搜索引擎(單一搜索引擎、常規(guī)搜索引擎),如AltaVista等3.2元搜索引擎(多元搜索引擎metasearchengine或集成式搜索引擎multiplesearchengine)三.搜索引擎的搜索方式1.簡(jiǎn)單搜索(SimpleSearch):指輸入一個(gè)單詞(關(guān)鍵詞),提交搜索引擎查詢,這是最基本的搜索方式。2.詞組搜索(PhraseSearch):指輸入兩個(gè)單詞以上的詞組(短語(yǔ)),提交搜索引擎查詢,也叫短語(yǔ)搜索,現(xiàn)有搜索引擎一般都約定把詞組或短語(yǔ)放在引號(hào)“”內(nèi)表示。

3.語(yǔ)句搜索(SentenceSearch):指輸入一個(gè)多詞的任意語(yǔ)句,提交搜索引擎查詢,這種方式也叫任意查詢。不同搜索引擎對(duì)語(yǔ)句中詞與詞之間的關(guān)系的處理方式不同。4.目錄搜索(CatalogSearch):指按搜索引擎提供的分類目錄逐級(jí)查詢,用戶一般不需要輸入查詢?cè)~,而是按照查詢系統(tǒng)所給的幾種分類項(xiàng)目,選擇類別進(jìn)行搜索,也叫分類搜索(ClassifiedSearch)。

5.高級(jí)搜索(AdvancedSearch):指用布爾邏輯組配方式查詢,也叫定制搜索。常用的邏輯運(yùn)算為AND(和)、OR(或)、NOT(非),對(duì)A、B兩詞而言,AANDB是指取A和B的公共部分(交集),AORB是指取A和B的全部(并集),AANDNOTB是指取A中排除B后的部分,其中NOT只作用于一個(gè)詞,故稱為一元操作符,其余作用于二個(gè)詞,故稱作二元操作符。A、B本身為多詞時(shí),可以用括號(hào)()分別括起來(lái)作為一個(gè)邏輯單位。此外,還有NEAR(鄰近)算符。上述前三種搜索方式可以合稱為語(yǔ)詞搜索(WordSearch),與高級(jí)搜索和目錄搜索一道構(gòu)成三類常見(jiàn)搜索方式。在所有搜索方式中,還可使用通配符,通配符用于指代一串字符,不過(guò)每個(gè)搜索引擎所用的通配符不完全相同,大多用*或?,少數(shù)用$。不少搜索引擎還支持加(+)、減(-)詞操作。

搜索引擎目錄

1)SearchEngineWatch()1997年7月以現(xiàn)名正式發(fā)行,1997年11月成為I網(wǎng)站的一部分。該網(wǎng)站分幾大類列出國(guó)外大量?jī)?yōu)秀搜索引擎網(wǎng)站,如主要搜索引擎、新聞?lì)愃阉饕?、兒童用搜索引擎、多媒體搜索引擎、各學(xué)科專業(yè)搜索引擎、收費(fèi)搜索引擎、各地搜索引擎等。對(duì)主要搜索引擎,有較詳細(xì)的對(duì)其產(chǎn)生歷史、功能等文字介紹,還有大量對(duì)主要搜索引擎的各項(xiàng)主要功能指標(biāo)的評(píng)價(jià)和比較,是了解搜索引擎總體概況、具有實(shí)際價(jià)值的指南性搜索引擎。(Searchenginelisting主要搜索引擎的分類和介紹;Reviews,Ratings&Tests,可得到有關(guān)搜索引擎的評(píng)價(jià)、比較數(shù)據(jù))2)SearchEngineColossus()該網(wǎng)站最初于1998年4月在加拿大面世,原先是個(gè)人產(chǎn)品,現(xiàn)已歸并于DigitalValley公司.該數(shù)據(jù)庫(kù)收錄全世界228個(gè)國(guó)家和地區(qū)的1900多個(gè)搜索引擎.其最突出特點(diǎn)是允許按國(guó)家點(diǎn)擊各國(guó)的主要的搜索引擎,而且主要頁(yè)面用英語(yǔ)和法語(yǔ)兩種語(yǔ)言構(gòu)成,另外有西班牙語(yǔ)檢索界面,此外還按學(xué)科列出所屬的搜索引擎的目錄.3)SearchEngineShowdown()

這是個(gè)人網(wǎng)站,由美國(guó)的一位叫作GregR.Notess的作家開(kāi)發(fā)維護(hù),1999年開(kāi)始上網(wǎng),主要功能在于比較和評(píng)價(jià)各種搜索引擎.該網(wǎng)站有大量的各種搜索引擎特征的比較和評(píng)價(jià)表格\數(shù)據(jù).另外,在主頁(yè)上還及時(shí)地報(bào)道有關(guān)搜索引擎的最新消息.4)SearchEngineGuide()

該網(wǎng)站由RobertClough開(kāi)發(fā),其特點(diǎn)是學(xué)科分類細(xì)、搜索引擎類別清楚;另外,該網(wǎng)站還提供有關(guān)搜索引擎的市場(chǎng)分析和消息新聞.5)SearchEngineTutorial()

該網(wǎng)站分別列出了各大主要搜索引擎的各種主要指標(biāo),如大小、范圍、歷史、檢索技術(shù)、查詢方法等明細(xì)的內(nèi)容,便于用戶掌握.但相對(duì)來(lái)說(shuō),該網(wǎng)站對(duì)搜索引擎最新發(fā)展的動(dòng)態(tài)反映不足,有不少描述性的內(nèi)容更新不及時(shí)。6)美國(guó)紐約Buffalo大學(xué)圖書(shū)館搜索引擎介紹(http://ublib./libraries/search/searchint.html)

這是一個(gè)組織得很好得搜索引擎目錄,其專題名為“如何通過(guò)網(wǎng)絡(luò)查找所需信息”,其下列出了大量英文版搜索引擎,并有檢索指導(dǎo)。第四節(jié)中文搜索引擎舉要中文搜索引擎的含義中文搜索引擎的分類當(dāng)前中文搜索引擎檢索結(jié)果的排序方式全球最大的中文搜索引擎――百度中文Google一、中文搜索引擎的含義

中文搜索引擎是指以Internet/Intranet網(wǎng)絡(luò)上的中文信息為主要對(duì)象,提供信息的自動(dòng)收集、自動(dòng)過(guò)濾、自動(dòng)索引和檢索導(dǎo)航等服務(wù)的搜索引擎。中文搜索引擎的最關(guān)鍵組件是能夠在海量中文數(shù)據(jù)上進(jìn)行高效全文檢索的信息管理系統(tǒng)。中文搜索引擎的最關(guān)鍵組件是能夠在海量中文數(shù)據(jù)上進(jìn)行高效全文檢索的信息管理系統(tǒng)。

返回

二、中文搜索引擎的分類

1.根據(jù)是否采用詞語(yǔ)切分技術(shù),中文搜索引擎可分為基于字的搜索引擎和基于詞的搜索引擎。

基于字的搜索引擎將文章中的每一個(gè)漢字都錄入到索引庫(kù)中,用戶的檢索提問(wèn)根據(jù)單漢字匹配的原則去檢索,此法的優(yōu)點(diǎn)是能夠保證很高的查全率,但查準(zhǔn)率低基于詞的搜索引擎則是按詞建庫(kù),當(dāng)然這種詞語(yǔ)是按一定的規(guī)則與方法對(duì)文章切詞得來(lái)的,這種搜索引擎的優(yōu)點(diǎn)是擁有較高的查準(zhǔn)率,用戶檢索時(shí)往往能一次命中,缺點(diǎn)是對(duì)切詞技術(shù)要求高。2.由于網(wǎng)頁(yè)的漢字所采用的編碼方式不同,中文搜索引擎按其檢索內(nèi)容的編碼方式可分為簡(jiǎn)體中文搜索引擎和繁體中文搜索引擎。

3.按檢索機(jī)制不同,可以分為目錄型、關(guān)鍵詞型和混合型中文搜索引擎

目錄型中文搜索引擎一般是由專家根據(jù)網(wǎng)站內(nèi)容來(lái)描述網(wǎng)站,其優(yōu)點(diǎn)是查準(zhǔn)率高,檢索目的明確;缺點(diǎn)是檢索范圍小,容易產(chǎn)生漏檢。

關(guān)鍵詞型中文搜索引擎是依靠機(jī)器人,在Web頁(yè)面上進(jìn)行不斷的搜索,建成龐大的索引數(shù)據(jù)庫(kù),其優(yōu)點(diǎn)是檢全率高,能夠全文檢索;缺點(diǎn)是誤檢率高,返回的結(jié)果仍需用戶篩選?;旌闲椭形乃阉饕媸乔懊鎯烧叩慕Y(jié)合,用戶可在某一分類目錄下使用關(guān)鍵詞檢索,這樣可以提高檢準(zhǔn)率。

返回三、當(dāng)前中文搜索引擎檢索結(jié)果的排序方式

1.搜索引擎檢索結(jié)果的排序規(guī)則1.1地點(diǎn)和頻率法地點(diǎn)和頻率法最主要的算法就是看網(wǎng)頁(yè)關(guān)鍵詞出現(xiàn)的地點(diǎn)和頻率。搜索引擎先檢查標(biāo)題中含有關(guān)鍵字的網(wǎng)頁(yè)并認(rèn)為它比其它網(wǎng)頁(yè)的相關(guān)性更強(qiáng)。該算法認(rèn)為與要檢索的關(guān)鍵字相關(guān)的網(wǎng)頁(yè)應(yīng)該從一開(kāi)始就含有該關(guān)鍵字。

1.2人氣質(zhì)量定律科學(xué)引文索引機(jī)制認(rèn)為被引用次數(shù)多的論文就是權(quán)威論文、好論文。那么在網(wǎng)上誰(shuí)的網(wǎng)頁(yè)被鏈接次數(shù)多,就認(rèn)為該網(wǎng)頁(yè)的質(zhì)量高、人氣旺。1.3自信心定律向那些網(wǎng)站的擁有者們拍賣他們網(wǎng)站在檢索結(jié)果中的排名,誰(shuí)付的錢多,誰(shuí)的網(wǎng)站就排在前面,且付費(fèi)是根據(jù)網(wǎng)民點(diǎn)擊該網(wǎng)站的情況來(lái)計(jì)算的,僅在檢索結(jié)果中出現(xiàn)并不需要付費(fèi)。2.中文Google檢索結(jié)果排序方式

2.1Google的排序技術(shù)

(1)PageRankTM技術(shù)(網(wǎng)頁(yè)級(jí)別)(2)“超文本匹配分析”技術(shù)(Hypertext-MatchingAnalysis)

2.2Google的“關(guān)鍵詞廣告”(GoogleAdWords)

Google根據(jù)客戶購(gòu)買的關(guān)鍵字,以純文本的方式把網(wǎng)站客戶信息安置在檢索頁(yè)面的右側(cè)空白處,并標(biāo)有“贊助商鏈接”的標(biāo)記。

3.百度的排序方式3.1百度的“超鏈分析”技術(shù)(LinkAnalysis)統(tǒng)計(jì)每個(gè)網(wǎng)頁(yè)被其它網(wǎng)頁(yè)鏈接指向的情況,次數(shù)越多則級(jí)別越高,排名也就越靠前。

3.2百度的競(jìng)價(jià)排名方式競(jìng)價(jià)排名服務(wù)是百度在2001年7月建立的一個(gè)商業(yè)模式,它是由客戶為自己的網(wǎng)頁(yè)購(gòu)買關(guān)鍵字排名、按訪問(wèn)量計(jì)費(fèi)的一種服務(wù)。也即搜索引擎排序的自信心定律。競(jìng)價(jià)排名是否削弱了檢索結(jié)果的可靠性?

百度聲稱,其競(jìng)價(jià)排名系統(tǒng)不會(huì)降低檢索結(jié)果的相關(guān)性:“百度競(jìng)價(jià)排名系統(tǒng)對(duì)客戶選擇關(guān)鍵字和填寫(xiě)信息的規(guī)定和審核非常嚴(yán)格,保證結(jié)果都是跟該關(guān)鍵字最相關(guān)的信息?!笨傊?,搜索引擎結(jié)果排序是多種因素綜合而成,如何在檢索結(jié)果的公正性、客觀性與搜索引擎提供商的經(jīng)濟(jì)利益之間求得平衡事關(guān)搜索引擎的未來(lái)。中文Google和百度的排序方式可以用下表總結(jié)如下:搜索引擎檢索范圍主要排序技術(shù)影響排序的廣告形式中文GOOGLE

所有中文網(wǎng)頁(yè)P(yáng)ageRankTM技術(shù)(網(wǎng)頁(yè)級(jí)別),超文本匹配分析技術(shù)—百度所有中文網(wǎng)頁(yè)超鏈分析技術(shù),內(nèi)容相關(guān)度評(píng)價(jià)技術(shù)百度競(jìng)價(jià)排名中文Google和百度的排序方式返回三.全球最大的中文搜索引擎――百度1.基本情況百度搜索引擎由四部分組成:蜘蛛程序、監(jiān)控程序、索引數(shù)據(jù)庫(kù)、檢索程序。百度搜索引擎擁有目前世界上最大的中文信息庫(kù),并且還在以每天幾十萬(wàn)頁(yè)的速度快速增長(zhǎng)。2.功能特點(diǎn)1)基于字詞結(jié)合的信息處理方式2)支持主流的中文編碼標(biāo)準(zhǔn)3)智能相關(guān)度算法4)檢索結(jié)果能標(biāo)示豐富的網(wǎng)頁(yè)屬性5)百度搜索支持二次檢索(又稱漸進(jìn)檢索或逼進(jìn)檢索)6)相關(guān)檢索詞智能推薦技術(shù)7)運(yùn)用多線程技術(shù)、高效的搜索算法、穩(wěn)定的UNIX平臺(tái)、和本地化的服務(wù)器,保證了最快的響應(yīng)速度8)可以在7天之內(nèi)完成網(wǎng)頁(yè)的更新,是目前更新時(shí)間最快、數(shù)據(jù)量最大的中文搜索引擎9)檢索結(jié)果輸出支持內(nèi)容類聚、網(wǎng)站類聚、內(nèi)容類聚+網(wǎng)站類聚等多種方式10)智能性、可擴(kuò)展的搜索技術(shù)保證最快最多的收集互聯(lián)網(wǎng)信息11)先進(jìn)的網(wǎng)頁(yè)動(dòng)態(tài)摘要顯示技術(shù)12)百度快照,巧妙解決了搜索用戶經(jīng)常遇到的死鏈接問(wèn)題13)支持多種高級(jí)檢索語(yǔ)法,使用戶查詢效率更高、結(jié)果更準(zhǔn)14)百度不斷提供多種特色服務(wù)圖片搜索(/)、MP3搜索(/)、新聞中心()、信息快遞(/)、黃頁(yè)搜索、影視搜索等。

返回四、中文Google

采用的是英文Google的搜索技術(shù),而且服務(wù)器也在總公司,但其在功能上,除傳統(tǒng)網(wǎng)頁(yè)檢索和類目查詢外,僅保留了英文Google的部分特色服務(wù)。如:圖片檢索、網(wǎng)上論壇(即新聞組檢索)、特定文件檢索、網(wǎng)頁(yè)快照和計(jì)算器等。

Google檢索功能

1.查找Flash文件Google已經(jīng)可以支持13種非HTML文件的搜索。Google同時(shí)也提供用戶不同類型文件的“HTML版”,查找Flash文件。只需搜索“關(guān)鍵詞filetype:swf”

2.網(wǎng)頁(yè)快照

Google在訪問(wèn)網(wǎng)站時(shí),會(huì)將看過(guò)的網(wǎng)頁(yè)復(fù)制一份網(wǎng)頁(yè)快照,以備在找不到原來(lái)的網(wǎng)頁(yè)時(shí)使用。3.計(jì)算器Google為用戶提供了一個(gè)內(nèi)置計(jì)算器。這個(gè)計(jì)算器可以用來(lái)做所有簡(jiǎn)單的計(jì)算、一些復(fù)雜的科學(xué)計(jì)算、單位換算以及提供各種物理常數(shù)

4.相關(guān)搜索Google能夠提供與用戶原搜索相關(guān)的搜索詞。

5.類似網(wǎng)頁(yè)單擊“類似網(wǎng)頁(yè)”時(shí),Google便開(kāi)始尋找與這一網(wǎng)頁(yè)相關(guān)的網(wǎng)頁(yè)。

6.按鏈接搜索有一些詞后面加上冒號(hào)對(duì)Google具有特殊的含義。比如“l(fā)ink:”。查詢link:顯示所有指向該網(wǎng)址的網(wǎng)頁(yè)。但不能將link:搜索與普通關(guān)鍵詞搜索結(jié)合使用

7.指定網(wǎng)域有一些詞后面加上冒號(hào)對(duì)Google有特殊的含義。其中的一個(gè)詞是“site:”。要在某個(gè)特定的域或站點(diǎn)中進(jìn)行搜索,可以在Google搜索框中輸入“site:”

8.手氣不錯(cuò)按下“手氣不錯(cuò)?”按鈕將自動(dòng)進(jìn)入Google查詢到的第一個(gè)網(wǎng)頁(yè)。用戶將完全看不到其它的搜索結(jié)果。使用“手氣不錯(cuò)”進(jìn)行搜索表示用于搜索網(wǎng)頁(yè)的時(shí)間較少而用于檢查網(wǎng)頁(yè)的時(shí)間較多9.錯(cuò)別字改正Google的錯(cuò)別字改正軟件系統(tǒng)會(huì)對(duì)輸入的關(guān)鍵詞進(jìn)行自動(dòng)掃描,檢查有沒(méi)有錯(cuò)別字。如果發(fā)現(xiàn)用其他字詞搜索可能會(huì)有更好的結(jié)果,它能提供相應(yīng)提示來(lái)幫助糾正可能有的錯(cuò)別字。例如搜索“互連網(wǎng)”10.中英文字典Goo

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論