計(jì)算機(jī)檢索教案_第1頁
計(jì)算機(jī)檢索教案_第2頁
計(jì)算機(jī)檢索教案_第3頁
計(jì)算機(jī)檢索教案_第4頁
計(jì)算機(jī)檢索教案_第5頁
已閱讀5頁,還剩128頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

InformationRetrieval信息檢索第一章計(jì)算機(jī)信息檢索概述

計(jì)算機(jī)檢索是伴隨著計(jì)算機(jī)科學(xué)和情報(bào)學(xué)的發(fā)展而發(fā)展的。情報(bào)學(xué)是一門發(fā)展中的交叉學(xué)科,吸收融合了其他學(xué)科,例如:認(rèn)知學(xué)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、語言學(xué)、信息論、控制論、行為科學(xué)等。自動采集數(shù)據(jù)、自動分類整理、自動信息群聚類、自動網(wǎng)頁鏈接、自動全文內(nèi)容概括、自然語言理解、多媒體信息檢索、概念檢索、數(shù)據(jù)挖掘、知識發(fā)現(xiàn)、信息過濾等已經(jīng)將情報(bào)學(xué)推上了數(shù)字化、網(wǎng)絡(luò)化、智能化的舞臺。1.1信息檢索的起源和發(fā)展信息的含義《暮春懷古人》-夢斷美人沉信息,目穿長路依樓臺?!都倪h(yuǎn)》-塞外音書無信息,道旁車馬起塵埃。美國數(shù)學(xué)家克勞德·香農(nóng)——”信息是用來消除不確定性的東西”控制論的創(chuàng)始人維納——”信息是人們在適應(yīng)外部世界并使這種適應(yīng)反作用于外部世界的過程中,同外部世界進(jìn)行互相交換的內(nèi)容的名稱?!?/p>

1.1信息檢索的起源和發(fā)展信息的特征客觀性——信息的存在可以被人感知、獲取、傳遞和利用。時效性——信息會隨事物存在方式和運(yùn)動狀態(tài)的改變而改變。載體性——信息必須依附一定的載體。傳遞性——信息從信息源出發(fā)經(jīng)過載體的傳遞被接收或處理和利用??伤苄浴藗兛梢詫π畔⑦M(jìn)行綜合處理、分析和加工。共享性——同一信息可同時或不同時被多用戶使用。1.1信息檢索的起源和發(fā)展信息的級別述評綜述詞典年鑒手冊百科全書知識的產(chǎn)生記錄檔案學(xué)位論文標(biāo)準(zhǔn)科技報(bào)告專利說明書會議論文期刊論文專著一次信息二次信息文摘索引目錄三次信息傳播信息的利用1.1信息檢索的起源和發(fā)展信息檢索的概念信息檢索(InformationRetrieval)是指信息用戶為處理解決各種問題而查找、識別、獲取相關(guān)的事實(shí)、數(shù)據(jù)、文獻(xiàn)的活動和過程。(信息的存儲和組織、信息的檢索、信息的展示)信息檢索的研究是伴隨著科學(xué)技術(shù)的發(fā)展和信息數(shù)量劇增而興起的研究領(lǐng)域。(1)文獻(xiàn)檢索——20世紀(jì)中葉以前,信息存儲和傳播主要以紙質(zhì)介質(zhì)為載體,信息檢索活動也圍繞著文獻(xiàn)的獲取和控制展開。(2)隨著科技的發(fā)展,計(jì)算機(jī)的應(yīng)用,信息檢索經(jīng)歷了從手工檢索到機(jī)械檢索再到計(jì)算機(jī)檢索的過程。1.1信息檢索的起源和發(fā)展信息檢索的類型——依據(jù)信息存儲和檢索方式和技術(shù)來劃分手工檢索——用手工方式來處理和查找文獻(xiàn),如作者、文摘、索引、目錄、參考文獻(xiàn)、關(guān)鍵字等。脫機(jī)批處理檢索——是指定期由專職檢索人員把用戶課題匯總,批量處理提問要求并把結(jié)果提供給用戶。(50年代中后期)聯(lián)機(jī)檢索——用戶使用終端設(shè)備,通過通信線路與中央計(jì)算機(jī)連接,直接與計(jì)算機(jī)對話進(jìn)行檢索,結(jié)果由終端輸出。(70年代)光盤檢索——光盤信息存儲密度高,容量大,讀取速度快。光盤檢索系統(tǒng)費(fèi)用大大低于聯(lián)機(jī)檢索。(80年代)網(wǎng)絡(luò)化聯(lián)機(jī)檢索——國際互聯(lián)網(wǎng)的出現(xiàn)。(90年代)1.1信息檢索的起源和發(fā)展信息檢索的類型——依據(jù)檢索內(nèi)容來劃分文獻(xiàn)信息檢索——凡是利用目錄、文獻(xiàn)或索引等二次信息來查找某一課題、著作等屬于此類。數(shù)據(jù)信息檢索——利用參考書、數(shù)據(jù)庫等檢索工具檢索包含在文獻(xiàn)中的數(shù)據(jù)、參數(shù)、公式等稱為數(shù)據(jù)檢索。事實(shí)信息檢索——利用百科全書等檢索工具從事實(shí)信息系統(tǒng)中查找特定事實(shí)的過程稱為事實(shí)信息檢索。1.1信息檢索的起源和發(fā)展應(yīng)用系統(tǒng)1956~1963年美國武裝部隊(duì)技術(shù)情報(bào)局的ASTIA系統(tǒng);1962年美國航空航天局的NASA系統(tǒng);1964年美國國家醫(yī)學(xué)圖書館創(chuàng)建的醫(yī)學(xué)文獻(xiàn)分析與檢索系統(tǒng)MEDLARS;化學(xué)文摘等。70~80年代DIALOG系統(tǒng)、RECON系統(tǒng)等。CyFr系統(tǒng)。CyFr系統(tǒng)是Schank、Kolodner和DeJong于1981年根據(jù)概念信息檢索理論建立的系統(tǒng),用于處理與美國前國務(wù)卿范斯(Vance)有關(guān)的新聞。Researcher系統(tǒng)。由Lebowitz于1983年在哥倫比亞大學(xué)研制,用于閱讀和理解用自然語言形式輸入的專利文獻(xiàn)摘要。目前已建立的基于超文本的信息檢索系統(tǒng),如AltaVista、WebCrawler、Yahoo!、Lycos、OpenText、Infoseek、Google等著名的網(wǎng)絡(luò)檢索系統(tǒng)。1.1信息檢索的起源和發(fā)展信息檢索(InformationRetrieval)是針對信息項(xiàng)進(jìn)行表示、存儲、組織和存取。對信息項(xiàng)的表示和組織應(yīng)該為用戶提供其感興趣信息的方便存取。數(shù)據(jù)檢索(DataRetrieval)檢索滿足給定查詢的數(shù)據(jù)。數(shù)據(jù)檢索語言目的在于檢索出所有明確滿足給定條件的對象。信息檢索處理的通常是自然語言文本,而人們總不能使自然語言文本很好的結(jié)構(gòu)化,而且自然語言文本有可能會有語義上的歧義。數(shù)據(jù)檢索系統(tǒng)(如關(guān)系型數(shù)據(jù)庫)處理的是那些已經(jīng)定義好結(jié)構(gòu)和語義的數(shù)據(jù)。Selectcount(*)fromtable_1whereage>=30;1.1信息檢索的起源和發(fā)展為了有效的滿足用戶信息需求,IR系統(tǒng)必須以某種方式“解釋”集合中信息項(xiàng)的內(nèi)容,并根據(jù)與用戶查詢的相似度對它們進(jìn)行排序。這種對文獻(xiàn)(信息)內(nèi)容的“解釋”包括從文獻(xiàn)文本(信息)中提取語法和語義信息并將這些信息用于匹配用戶的信息需求。難點(diǎn)在于:如何提取這些信息,和如何運(yùn)用它來確定相關(guān)性。相關(guān)性(Relevance)的概念就成為信息檢索的核心。1.2信息檢索的過程用戶界面文本操作查詢操作檢索排序標(biāo)引索引數(shù)據(jù)庫管理模塊文本數(shù)據(jù)庫文本文本邏輯視圖倒排文檔邏輯視圖用戶反饋查詢檢出文獻(xiàn)排序文獻(xiàn)信息檢索的過程用戶需求1.3信息檢索技術(shù)的研究內(nèi)容1、檢索模型的研究。(不再是僅僅以布爾模型、概率模型為理論基礎(chǔ),而是逐漸引入遺傳算法、并行算法、粗糙集理論等構(gòu)建智能檢索模型)2、信息處理技術(shù)與組織研究。自動分類(自動歸類、自動聚類、類號自動轉(zhuǎn)換)自動文摘和查詢的擴(kuò)展和精化3、信息檢索技術(shù)與方法研究。檢索算法的研究全文檢索、超文本檢索、多媒體檢索智能檢索、多語種檢索、分布式檢索4、信息可視化技術(shù)。1.4檢索技術(shù)的未來以人工智能為代表的信息檢索自動化趨勢。人工參與檢索工具的信息組織是檢索工具的發(fā)展趨勢。多媒體信息檢索技術(shù)的成熟與發(fā)展(圖像:顏色相似性、紋理相似性、形狀相似性、目標(biāo)和目標(biāo)關(guān)系相似性)。多語種檢索的支持。個人化的檢索工具和專業(yè)化的檢索工具。1.4檢索技術(shù)的未來1.4檢索技術(shù)的未來1.4檢索技術(shù)的未來1.4檢索技術(shù)的未來1.4檢索技術(shù)的未來1.4檢索技術(shù)的未來第二章

WEB信息檢索系統(tǒng)

WEB資源現(xiàn)已成為Internet上最主要的信息資源,它影響著人們的學(xué)習(xí)、工作、生活等方方面面。面對這樣一個巨大的信息寶庫,如何快捷的從中獲取信息,發(fā)揮它的最大作用,這是信息工作者和相關(guān)領(lǐng)域研究者面臨的重要研究課題。如何把分布在世界各地的、無序的、各式各樣的WEB資源信息有序化,使之便于提取。因此,要求人們必須能對WEB信息進(jìn)行及時的采集、高效的處理、科學(xué)的組織,并提供對其進(jìn)行快速有效查詢的檢索工具。2.1Web技術(shù)發(fā)展概述

目前Internet能夠找到的網(wǎng)頁已多達(dá)數(shù)百億,并且仍以每幾個月翻一番的速度增長。網(wǎng)頁數(shù)全國網(wǎng)頁總數(shù)157,091,220個其中:靜態(tài)網(wǎng)頁數(shù)104,593,217個

動態(tài)網(wǎng)頁數(shù)52,498,003個靜動態(tài)網(wǎng)頁數(shù)比例1.99:1平均每個網(wǎng)站的網(wǎng)頁數(shù)423個網(wǎng)頁字節(jié)數(shù)全國網(wǎng)頁總字節(jié)數(shù)2,877,754,095KB每個網(wǎng)頁平均字節(jié)數(shù)18.319KB平均每個網(wǎng)站的網(wǎng)頁字節(jié)數(shù)7744.2KB2.1Web技術(shù)發(fā)展概述

互聯(lián)網(wǎng)用戶:21億:全球互聯(lián)網(wǎng)用戶總數(shù)9.222億:亞洲互聯(lián)網(wǎng)用戶數(shù)量4.762億:歐洲互聯(lián)網(wǎng)用戶數(shù)量2.711億:北美互聯(lián)網(wǎng)用戶數(shù)量2.159億:拉丁美洲和加勒比海地區(qū)互聯(lián)網(wǎng)用戶數(shù)量1.186億:非洲互聯(lián)網(wǎng)用戶數(shù)量6860萬:中東地區(qū)互聯(lián)網(wǎng)用戶數(shù)量2130萬:大洋洲/澳大利亞互聯(lián)網(wǎng)用戶數(shù)量45%:25歲以下互聯(lián)網(wǎng)用戶的比例4.85億:中國互聯(lián)網(wǎng)用戶數(shù)量,這超過了世界上其它任何一個國家36.3%:中國互聯(lián)網(wǎng)普及率5.91億:全球固定線路寬帶連接數(shù)量2.1Web技術(shù)發(fā)展概述

社交媒體:8億多::截至2011年底,F(xiàn)acebook用戶數(shù)量2億:2011年Facebook新增用戶數(shù)量3.5億:通過手機(jī)登錄Facebook的用戶數(shù)量2.25億:Twitter賬戶數(shù)量1億:2011年活躍Twitter用戶數(shù)量1810萬:LadyGaga的關(guān)注者數(shù)量,這是Twitter上最受歡迎的用戶2.5億:每天發(fā)送的Twitter消息數(shù)量(2011年10月)2.1Web技術(shù)發(fā)展概述

電子郵件:314.6億:全球電子郵件賬戶數(shù)量27.6%:微軟Outlook是最流行的電子郵件客戶端19%:經(jīng)過垃圾郵件過濾之后企業(yè)郵箱收件箱收到的垃圾郵件比例112封:平均每位企業(yè)客戶每天收發(fā)的電子郵件數(shù)量71%:全球垃圾郵件的比例(2011年11月)3.6億:Hotmail用戶總數(shù)(全球最大的電子郵件服務(wù))44.25美元:2011年每投入1美元的電子郵件營銷預(yù)計(jì)可獲得的回報(bào)40年:自1971年首封電子郵件發(fā)出之后的時間0.39%:惡意電子郵件比例(2011年11月)網(wǎng)站:5.55億:網(wǎng)站數(shù)量(2011年12月)3億:2011年新增網(wǎng)站數(shù)量2.1Web技術(shù)發(fā)展概述

不同地區(qū)的互聯(lián)網(wǎng)用戶比例,2011年3月亞洲:44%歐洲:23%北美:13%拉丁美洲和加勒比海地區(qū):10%非洲:6%中東:3%大洋洲/澳大利亞:1%2.1Web技術(shù)發(fā)展概述

不同地區(qū)的互聯(lián)網(wǎng)普及率,2011年3月非洲:11%亞洲:24%中東:31.7%拉丁美洲和加勒比海地區(qū):36.2%歐洲:58.3%大洋洲/澳大利亞:60.1%北美:78.3%2.1Web技術(shù)發(fā)展概述

全球桌面瀏覽器市場份額,2011年12月IE:39%Chrome:28%火狐:25%Safari:6%2.1Web技術(shù)發(fā)展概述

非結(jié)構(gòu)化——由腳本語言構(gòu)成。

動態(tài)性——Internet每個月變化的信息量占總信息量的40%。復(fù)雜性——Internet是完全開放的,數(shù)以億計(jì)的網(wǎng)絡(luò)使用者都可能成為信息提供者,形成一個無序而復(fù)雜的信息源。WEB信息的基本特點(diǎn)2.1Web技術(shù)發(fā)展概述

Htm/36.80%html16.35%shtml5.36%/3.99%asp2.93%php1.08%txt0.34%nsf0.17%xml0.15%jsp0.11%cgi0.08%pl0.03%其它32.61%2.1Web技術(shù)發(fā)展概述

Web信息的表現(xiàn)方式和查詢方式

通過統(tǒng)一資源定位器能夠獲取WEB信息,但其前提是知道存放信息的服務(wù)器的具體地址,而在龐雜的網(wǎng)絡(luò)中尋找IP地址的開銷太大了。借助于Internet特有的信息檢索工具。隨著Web逐漸成為Internet信息組織與利用的主流形式,針對Web資源的搜索引擎工具成為主要的檢索工具。2.1Web技術(shù)發(fā)展概述

網(wǎng)絡(luò)信息檢索工具發(fā)展概述

目前在Internet上運(yùn)行的網(wǎng)絡(luò)檢索工具可分為三大類:交互式信息提供服務(wù)(InteractiveInformationDeliveryServices);名錄服務(wù)(DirectoryServices);索引服務(wù)(IndexingServices)。2.2Web信息檢索工具

網(wǎng)絡(luò)信息檢索工具發(fā)展概述

2.2Web信息檢索工具

目前在互聯(lián)網(wǎng)運(yùn)行的交互式信息服務(wù)軟件主要基于WWW和Gopher,名錄服務(wù)軟件主要基于WHOIS、NETFIND和X.500,索引服務(wù)軟件主要基于Archie、Veronica、Jughead和WAIS。交互式信息檢索工具一般為用戶提供友好的交互操作界面,并具備交互瀏覽信息的功能,信息在網(wǎng)絡(luò)上的存放方式以及如何取得信息,對使用者都是透明的。菜單式查詢系統(tǒng)Gopher是Internet上較早出現(xiàn)的一種交互信息查詢工具。WWW系統(tǒng)是近年來發(fā)展的最重要的一種交互信息查詢工具,也是迄今用戶最多和使用最為方便的工具。2.2Web信息檢索工具

菜單式查詢系統(tǒng)(Gopher)

Gopher是一種按“菜單”形式組織的分布式文檔查詢系統(tǒng),1991年在美國Minnesota大學(xué)發(fā)展起來。開始用于校園網(wǎng),后來推廣到Internet。Gopher為用戶查詢信息提供一個多級的菜單界面,只需按照菜單指示的路徑就能獲取想要的信息,使用非常方便。發(fā)一封E-mail信件給某一最靠近你的Gophermail服務(wù)器,服務(wù)器響應(yīng)你的信件,郵寄給你一封包含它的主菜單或某一gopher服務(wù)器的主菜單;你處理該信件,把需要的菜單項(xiàng)打上標(biāo)志,然后返回給Gopher服務(wù)器。2.2Web信息檢索工具

廣域信息服務(wù)系統(tǒng)(WAIS)

WAIS(WideAreaInformationSystem)以各種文本數(shù)據(jù)文件為檢索對象(信息源),融匯了Archie、newsgroup等的信文件在內(nèi)的各類信息。目前,Internet上已建立了幾千個提供檢索服務(wù)的WAIS服務(wù)器,成為整個Internet網(wǎng)絡(luò)文本式信息資源的檢索工具。用WAIS檢索信息可分兩步進(jìn)行:第一步,先從信息源(文件題目)列表選擇檢索對象;第二步,在選定范圍內(nèi)通過文件的關(guān)鍵詞查找文件。2.2Web信息檢索工具

網(wǎng)絡(luò)文件搜索系統(tǒng)(Archie)

Archie可以使用戶能夠查詢信息資源的存放地址,以便能夠從特定場所的服務(wù)器中獲取各種感興趣的或者有用的信息。Archie服務(wù)器其實(shí)是一個存放了所有匿名FTP服務(wù)器地址和相關(guān)信息的數(shù)據(jù)庫,它能幫助你找到有關(guān)FTP的地址或文件的信息,因而使用電子郵件來查詢地址是十分方便的。

archie@

archie@

archie@

archie@archie.doc.ic.ac.uk

archie@archie.au

archie@archie.funet.fi

archie@archie.luth.se2.2Web信息檢索工具

搜索引擎系統(tǒng)(SEARCHENGINE)搜索引擎起源于傳統(tǒng)的信息全文檢索理論,即計(jì)算機(jī)程序通過掃描每一篇文章中的每一個詞,建立以詞為單位的倒排文件,檢索程序根據(jù)檢索詞在每一篇文章中出現(xiàn)的頻率和每一個檢索詞在一篇文章中出現(xiàn)的概率,對包含這些檢索詞的文章進(jìn)行排序,最后輸出排序的結(jié)果?;ヂ?lián)網(wǎng)搜索引擎除了需要有全文檢索系統(tǒng)之外,還有“蜘蛛”(SPIDER)系統(tǒng),即能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的數(shù)據(jù)搜集系統(tǒng)。2.2Web信息檢索工具

2.3Web搜索引擎的類型和特點(diǎn)

搜索引擎系統(tǒng)(SEARCHENGINE)從最初的主題指南發(fā)展到獨(dú)立型搜索引擎、混合式搜索引擎、元搜索引擎乃至分布式搜索引擎,折射出搜索引擎功能不斷改進(jìn)、性能日趨完善、更趨向智能化的檢索特征。2.3Web搜索引擎的類型和特點(diǎn)

1、主題指南(目錄式搜索引擎)目錄式搜索引擎是搜索引擎的最初表現(xiàn)形式。是人工式或半自動式建立的、結(jié)構(gòu)化的互聯(lián)網(wǎng)網(wǎng)址主題類目和子類目,按照字母、時間、地點(diǎn)、主題等順序進(jìn)行排列,使用戶通過瀏覽網(wǎng)絡(luò)站點(diǎn)列表,檢索有關(guān)信息。主題指南由人工編制和維護(hù),因此在信息的收集、編排、HTML編碼以及信息注解等方面花費(fèi)大量的人力和時間。它強(qiáng)調(diào)的是瀏覽功能,優(yōu)點(diǎn)是采用人工干預(yù)提高了主題指南返回結(jié)果的相關(guān)性;缺點(diǎn)是很難檢索到較深的信息,難于控制主題等級類目的質(zhì)量,信息更新速度相對較慢,收錄信息數(shù)量相對不足。2.3Web搜索引擎的類型和特點(diǎn)

1、主題指南(目錄式搜索引擎)用戶進(jìn)行籠統(tǒng)或較籠統(tǒng)的主題瀏覽和檢索。當(dāng)用戶尚未形成很精確的檢索概念時,采用主題指南作為檢索起始點(diǎn)非常有效。除綜合性主題指南之外,為了適應(yīng)網(wǎng)上各種類型信息的發(fā)展變化,又出現(xiàn)了某些專業(yè)的主題指南,它由某一領(lǐng)域的專家編制和維護(hù),在信息準(zhǔn)確性和易于理解方面比綜合性主題指南要好。2.3Web搜索引擎的類型和特點(diǎn)

2、機(jī)器人搜索引擎由一個稱為蜘蛛、機(jī)器人、爬行者或蠕蟲的程序以某種策略自動的在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入索引庫,并將查詢結(jié)果返回用戶。WEB信息資源信息采集模塊信息標(biāo)引模塊索引數(shù)據(jù)庫信息檢索模塊用戶系統(tǒng)2.3Web搜索引擎的類型和特點(diǎn)

2、機(jī)器人搜索引擎在WEB搜索引擎中,信息采集Robot的效率會直接影響搜索引擎的更新周期和數(shù)據(jù)的及時性。信息采集Robot是一種軟件程序,它從一個或一組URL出發(fā),訪問該URL并進(jìn)行索引,同時紀(jì)錄該URL所指向的HTML文件中的URL。

為了使標(biāo)引關(guān)鍵詞和摘要更好的反映網(wǎng)頁內(nèi)容,保障用戶檢索的查準(zhǔn)率,Html語言提供了Metakeyword標(biāo)記和Metadescription標(biāo)記來幫助網(wǎng)頁編制者們專門提供關(guān)鍵詞和整個站點(diǎn)的描述摘要。2.3Web搜索引擎的類型和特點(diǎn)

2、機(jī)器人搜索引擎

Robot在信息采集的過程中,具體包括3個模塊:文件訪問模塊、路徑選擇模塊、訪問控制模塊。文檔訪問模塊訪問控制模塊路徑選擇模塊2.3Web搜索引擎的類型和特點(diǎn)

3、混合式搜索引擎隨著搜索引擎技術(shù)的不斷發(fā)展,機(jī)器人搜索引擎多與主題指南合二為一,演化為兼具有分類瀏覽和關(guān)鍵詞檢索功能的混合式搜索引擎。混合式搜索引擎是目前占據(jù)搜索引擎主導(dǎo)地位的一種搜索引擎,具有分類瀏覽和關(guān)鍵詞檢索功能。2.3Web搜索引擎的類型和特點(diǎn)

4、元搜索引擎元搜索引擎(又稱集成搜索引擎,MegaSearchEngine,MultipleSearchEnginge)是一種集成化搜索引擎,它是多個獨(dú)立型搜索引擎的集合體。與獨(dú)立搜索引擎的區(qū)別在于,元搜索引擎沒有自己獨(dú)立的數(shù)據(jù)庫,通過一個統(tǒng)一的用戶界面幫助用戶在多個搜索引擎中選擇和利用合適的甚至是同時利用多個搜索引擎實(shí)現(xiàn)檢索操作。2.3Web搜索引擎的類型和特點(diǎn)

5、分布式搜索引擎分布式搜索引擎是基于搜索機(jī)器人的搜索引擎。其基本思想是:根據(jù)地域、主題、IP地址或其他的劃分標(biāo)準(zhǔn),將全網(wǎng)劃分成若干自治域,在每個自治區(qū)內(nèi)分設(shè)檢索服務(wù)器。由于分布式搜索引擎將索引數(shù)據(jù)庫劃分到幾個分散的數(shù)據(jù)庫中,每個數(shù)據(jù)庫變小了,但所有搜索引擎覆蓋的范圍則變大了,且很少有信息重復(fù)。而作為分布式系統(tǒng)特性之一的可擴(kuò)充性也是分布式搜索引擎的優(yōu)點(diǎn)之一。第三章

常用中英文搜索引擎及檢索策略

第三章

常用中英文搜索引擎及檢索策略

2011年,谷歌仍然盤踞核心搜索引擎榜首,占到總搜索量的65.9%,占據(jù)了近2/3的市場份額。但2011年最引人注意的還是微軟必應(yīng)。12月份,必應(yīng)首次趕超雅虎,位居榜單第二的位置。2011年,必應(yīng)持續(xù)穩(wěn)定發(fā)展。截至年底,必應(yīng)所占市場份額達(dá)到15.1%,與去年同期相比,增長了3.1%。12月,雅虎以14.5%的搜索量位列第三。AskNetwork及美國在線(AOL)分列第四、第五,搜索量所占份額分別為2.9%和1.6%。第三章

常用中英文搜索引擎及檢索策略

根據(jù)艾瑞咨詢統(tǒng)計(jì)數(shù)據(jù)顯示,2012年第二季度中國搜索引擎市場規(guī)模68.7億元。從市場競爭格局來看,2012年第二季度百度在中國搜索引擎市場中的絕對優(yōu)勢地位得到進(jìn)一步增強(qiáng),市場份額由77.6%擴(kuò)張到79.4%;搜狗保持增長態(tài)勢,由從2.6%上升到2.9%;谷歌中國市場持續(xù)被壓縮,由17.9%降至16.2%;此外,搜搜占比由1.5%微降至1.4%,其它企業(yè)占比下降至0.2%。3.1常用中文搜索引擎1.搜狐

搜狐(http:///)提供分類目錄網(wǎng)站檢索,搜集范圍以中國為主,收錄較豐富,還加入了部分英文網(wǎng)站,分類較科學(xué),類目縝密。它也是第一個針對國內(nèi)中文網(wǎng)頁的搜索引擎,此外它還包括新聞信息、多媒體文件下載、網(wǎng)上調(diào)查、免費(fèi)電子郵件等其他服務(wù)。搜狐的分類庫組織的更象一個精心組織的導(dǎo)航庫,對于一個想在網(wǎng)上瀏覽的新手來手有一定參考價值。

第三章

常用中英文搜索引擎及檢索策略

第三章

常用中英文搜索引擎及檢索策略

第三章

常用中英文搜索引擎及檢索策略

3.1常用中文搜索引擎2.新浪新浪(http:///)提供分類目錄、網(wǎng)站檢索以及全文檢索,搜集范圍遍及全球中文網(wǎng)站,收錄非常豐富;分類規(guī)范,層次合理;全文檢索為AltaVista、IPO提供支持;但復(fù)雜條件查詢較弱;可提供熱門關(guān)鍵詞查詢等新方式。第三章

常用中英文搜索引擎及檢索策略

第三章

常用中英文搜索引擎及檢索策略

第三章

常用中英文搜索引擎及檢索策略

3.1常用中文搜索引擎3.網(wǎng)易網(wǎng)易(/)提供較豐富的分類目錄、網(wǎng)站檢索及FTP檢索,范圍以中國為主收錄富,目錄較嚴(yán)密;提供新聞等其他服務(wù),網(wǎng)易主站另有“網(wǎng)站導(dǎo)航”欄目,分類列舉推薦網(wǎng)站。它的搜索引擎也是頗有特色,它先將用戶的檢索式在自己的分類庫中進(jìn)行查詢,如果沒有檢索出結(jié)果,系統(tǒng)將自動將提問式轉(zhuǎn)向全文數(shù)據(jù)庫進(jìn)行檢索。如果在分類庫中檢索出結(jié)果,用戶對檢索結(jié)果不滿意,可以直接按檢索結(jié)果頁面底部的全文檢索按鈕,繼續(xù)在全文庫中進(jìn)行檢索,這對于一個非專業(yè)用戶來說是非常實(shí)用的一種檢索策略。第三章

常用中英文搜索引擎及檢索策略

第三章

常用中英文搜索引擎及檢索策略

3.1常用中文搜索引擎4.百度百度(http:///),2000年1月創(chuàng)立于北京中關(guān)村,是全球最大的中文搜索引擎。擁有目前世界上最大的中文信息庫--超過10億的中文網(wǎng)頁數(shù)據(jù)庫,這些網(wǎng)頁的數(shù)量每天正以千萬級的速度在增長。百度采用了基于內(nèi)容和基于超鏈分析相結(jié)合的方法進(jìn)行相關(guān)度評價,能夠客觀分析網(wǎng)頁所包含的信息,從而最大限度保證了檢索結(jié)果相關(guān)性。百度搜索支持二次檢索(又稱漸進(jìn)檢索或逼進(jìn)檢索)也是其相當(dāng)重要的特點(diǎn)??稍谏洗螜z索結(jié)果中繼續(xù)檢索,逐步縮小查找范圍,直至達(dá)到最小、最準(zhǔn)確的結(jié)果集。利于用戶更加方便地在海量信息中找到自己真正感興趣的內(nèi)容。第三章

常用中英文搜索引擎及檢索策略

3.1常用中文搜索引擎5.雅虎中國雅虎(http:///),1994年4月,斯坦福大學(xué)兩位博士生楊致遠(yuǎn)和DavidFilo共同創(chuàng)辦了雅虎,通過著名的雅虎目錄為用戶提供導(dǎo)航服務(wù)。雅虎目錄有近100萬個分類頁面,14個國家和地區(qū)當(dāng)?shù)卣Z言的專門目錄,包括英語、漢語、丹麥語、法語、德語、日語、韓文、西班牙語等。從1996年到2004年,雅虎先后選用AltaVista、Inktomi等第三方的搜索引擎作為自己網(wǎng)頁搜索的后臺服務(wù)提供商。雅虎先后收購了Inktomi和Overture等著名的搜索引擎公司,重新整合打造出YST搜索技術(shù)平臺。2004年3月,雅虎開始推出獨(dú)立的搜索服務(wù),迅速成長為全球第二大搜索引擎。涵蓋全球120多億網(wǎng)頁(其中雅虎中國為12億)的強(qiáng)大數(shù)據(jù)庫,擁有數(shù)十項(xiàng)技術(shù)專利、精準(zhǔn)運(yùn)算能力,支持38種語言,近10,000臺服務(wù)器。3.1常用中文搜索引擎6.谷歌(中國)谷歌(/),創(chuàng)建于1998年9月,創(chuàng)始人為LarryPage和SergeyBrin。Google是萬維網(wǎng)上最大的搜索引擎,用戶能夠訪問一個包含超過80億個網(wǎng)址的索引。Google不僅能搜索出包含所有關(guān)鍵詞的結(jié)果,并且還對網(wǎng)頁關(guān)鍵詞的接近度進(jìn)行分析。與大多數(shù)其它搜索引擎的又一區(qū)別是:Google按照關(guān)鍵詞的接近度確定搜索結(jié)果的先后次序,優(yōu)先考慮關(guān)鍵詞較為接近的結(jié)果,這樣可以為您節(jié)省時間,而無須在無關(guān)的結(jié)果中徘徊。Google最擅長于為常見查詢找出最準(zhǔn)確的搜索結(jié)果。3.1常用中文搜索引擎6.谷歌(中國)谷歌的特殊功能:Google已經(jīng)可以支持13種非HTML文件的搜索。除了PDF文檔,Google現(xiàn)在還可以搜索MicrosoftOffice(doc,ppt,xls,rtf)、ShockwaveFlash(swf)、PostScript(ps)和其它類型文檔。Google在訪問網(wǎng)站時,會將看過的網(wǎng)頁復(fù)制一份網(wǎng)頁快照,以備在找不到原來的網(wǎng)頁時使用。單擊“類似網(wǎng)頁”時,Google偵察兵便開始尋找與這一網(wǎng)頁相關(guān)的網(wǎng)頁。3.1常用中文搜索引擎6.谷歌(中國)谷歌的特殊功能:按鏈接搜索:查詢link:顯示所有指向該網(wǎng)址的網(wǎng)頁。例如,“l(fā)ink:”將找出所有指向Google主頁的網(wǎng)頁。不能將link:搜索與普通關(guān)鍵詞搜索結(jié)合使用。指定網(wǎng)域:“site:”。要在某個特定的域或站點(diǎn)中進(jìn)行搜索,可以在Google搜索框中輸入“site:”。例如:新聞site:Google的錯別字改正軟件系統(tǒng)會對輸入的關(guān)鍵詞進(jìn)行自動掃描,檢查有沒有錯別字。中英文字典、天氣查詢、股票查詢、郵編區(qū)號、手機(jī)電話號碼歸屬地等。第三章

常用中英文搜索引擎及檢索策略

第三章

常用中英文搜索引擎及檢索策略

第三章

常用中英文搜索引擎及檢索策略

搜搜是騰訊旗下的搜索網(wǎng)站,是騰訊主要的業(yè)務(wù)單元之一。網(wǎng)站于2006年3月正式發(fā)布并開始運(yùn)營。搜搜目前已成為中國網(wǎng)民首選的三大搜索引擎之一,主要為網(wǎng)民提供實(shí)用便捷的搜索服務(wù),同時承擔(dān)騰訊全部搜索業(yè)務(wù),是騰訊整體在線生活戰(zhàn)略中重要的組成部分之一。搜搜目前主要包括網(wǎng)頁搜索、綜合搜索、圖片搜索、音樂搜索、論壇搜索、搜吧等16項(xiàng)產(chǎn)品。用戶既可以使用網(wǎng)頁、音樂、圖片等搜索功能尋找海量的內(nèi)容信息,也可以通過搜吧、論壇等產(chǎn)品表達(dá)和交流思想。搜搜旗下的問問產(chǎn)品將為用戶提供更廣闊的信息及知識分享平臺。2009年9月3日,搜搜搜索結(jié)果頁面已經(jīng)去掉“以下結(jié)果由Google提供”字樣,很可能表明,搜搜已改用自主研發(fā)的搜索引擎技術(shù)。而之前,一直是由Google提供技術(shù)支持。

3.2常用英文搜索引擎1.AltaVista(http:///)

AltaVista是屬于全文搜索引擎。提供常規(guī)搜索、高級搜索和主題搜索,主題包括圖象(Images)、MP3/Audio&Video等。允許以25種不同的語言進(jìn)行搜索,并提供英、法、德、意、葡萄牙、西班牙語雙向翻譯。

AltaVista是搜索引擎的元老,誕生于DEC研發(fā)中心。它也是Yahoo!最早的搜索引擎技術(shù)的提供者。

AltaVista在更新頻率上不是很快,其中文搜索的技術(shù)已經(jīng)有兩三年沒有改進(jìn)過,檢索內(nèi)容更新頻率大約是一個月一次。音頻、視頻與圖像占用空間很大,要做好這方面的服務(wù),需要占用相當(dāng)大的存儲空間,而AltaVista在這方面做得相當(dāng)不錯,可以說處于世界領(lǐng)先的地位。3.2常用英文搜索引擎3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎3.2常用英文搜索引擎2.Excite

Excite數(shù)據(jù)庫中存有2.5億張網(wǎng)頁及媒體文件,并且檢索Usenet新聞。此外還提供總數(shù)達(dá)15萬種的主題分類查詢(實(shí)際上是定制的關(guān)鍵詞搜索)。提供常規(guī)及高級搜索。操作界面提供了11種語言供選擇,此外還可以在國別列表中選定某個國家或地區(qū),以及限定域名后綴(如“cn”等)進(jìn)行一定區(qū)域范圍的搜索。Excite提供了很好的概念延伸查詢,能列出比輸入的關(guān)鍵詞更具體的相關(guān)領(lǐng)域供用戶選擇查詢。

Excite是斯坦福大學(xué)的六位計(jì)算機(jī)系的本科生創(chuàng)辦的。一開始提出的概念搜索(ConceptSearch),即用同義詞推斷來增加搜索的結(jié)果很快就宣告失敗。因?yàn)榛ヂ?lián)網(wǎng)的信息不是太少了而是太多了,搜索的目的是在茫茫的信息海洋中找到所需要的精確的信息。1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎3.2常用英文搜索引擎3.Infoseek

()(http:///)

Infoseek不是以數(shù)據(jù)庫大而見長的,而是以檢索的相關(guān)程度高而知名。Infoseek購買了馬薩諸塞大學(xué)的搜索軟件產(chǎn)品,而馬薩諸塞大學(xué)的信息檢索是全美高校數(shù)一數(shù)二的,所以Infoseek一開始的起點(diǎn)就很高。但他們很快就發(fā)現(xiàn),互聯(lián)網(wǎng)數(shù)據(jù)量太大了,當(dāng)初設(shè)計(jì)的規(guī)模太小,只好重新編寫程序。于是Infoseek請了一位華人工程師WilliamChang設(shè)計(jì)了第一代Infoseek搜索引擎Ultraseek,其特點(diǎn)也是速度快,同時檢索結(jié)果的相關(guān)程度也很高。

1999年,Infoseek被Disney所購買,發(fā)展方向與定位都做了調(diào)整。Disney將其做為入門網(wǎng)站Go.COM的搜索引擎,在技術(shù)上的革新比較少,處于維持現(xiàn)狀的水平,主要是做娛樂方面的索引。1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎3.2常用英文搜索引擎4.Inktomi()

Inktomi是加州大學(xué)伯克利分校EricBrewer的教授最先開始研究的,這位教授是并行處理研究的專家。EricBrewer希望用這個搜索引擎產(chǎn)品來證明他的并行算法是十分出色的,后來他將自己的技術(shù)賣給了Hotbot,作為后臺技術(shù)的提供商。EricBrewer完成Inktomi的時候,這個市場競爭已經(jīng)相當(dāng)激烈,再想做門戶已經(jīng)不可能了。所以他決定只做背后技術(shù)的提供商,而這卻正中Yahoo!的下懷,Yahoo!以前使用的是Altavista的技術(shù),但Altavista本身也是門戶,與Yahoo!處于競爭關(guān)系,而Inktomi與Yahoo!沒有利益沖突關(guān)系,便很快成了其后臺技術(shù)的提供商。3.2常用英文搜索引擎5.LookSmart也是主要的目錄索引之一,向包括MSN、AltaVista、Excite等在內(nèi)的其他搜索引擎提供搜索內(nèi)容。與ODP一樣,其注冊網(wǎng)站在合作伙伴搜索結(jié)果中排位往往也靠前。LookSmart在網(wǎng)站結(jié)構(gòu)和內(nèi)容上與其他目錄索引大同小異,其目錄中的網(wǎng)站排列也是根據(jù)字母順序。它使用Inktomi的數(shù)據(jù)庫提供二級網(wǎng)頁搜索。1.谷歌3.2常用英文搜索引擎6.LYCOS(http:///)搜索引擎中的元老,是最早提供信息搜索服務(wù)的網(wǎng)站之一。Lycos整合了搜索數(shù)據(jù)庫、在線服務(wù)和其他互聯(lián)網(wǎng)工具,提供網(wǎng)站評論、圖象及包括MP3在內(nèi)的壓縮音頻文件下載鏈接等等。提供常規(guī)及高級搜索。高級搜索提供多種選擇定制搜索條件,并允許針對網(wǎng)頁標(biāo)題、地址進(jìn)行檢索。具有多語言搜索功能,共有25種語言供選擇。3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎7.HOTBOTHotBot在頁面上提供了直觀的圖形化檢索菜單功能,用戶可以通過簡單的下拉菜單創(chuàng)建復(fù)雜的布爾查詢,或者按日期、地理區(qū)域和媒體類型進(jìn)行限制性搜索。在結(jié)果顯示時,HotBot會列出標(biāo)題、摘要、相應(yīng)的打分、文件大小、日期和網(wǎng)址,但是其結(jié)果顯示不能任意進(jìn)行前后跳轉(zhuǎn),這對于用戶評估大的檢索結(jié)果集是相當(dāng)?shù)牟环奖恪?.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎8.SearchAllinOne

MetaSearch

All-in-One方式是指元搜索引擎界面以任意順序或分類羅列多個搜索引擎,而元搜索引擎本身主要提供各類搜索引擎的介紹信息和物理連接機(jī)制。僅僅提供一個簡單的界面來幫助用戶選擇和使用各種搜索引擎;對各獨(dú)立搜索引擎檢索界面的復(fù)制可能是部分的或全部的;直接利用所選搜索引擎的顯示格式呈送給用戶。3.2常用英文搜索引擎8.3.2常用英文搜索引擎在我辦公室速度太慢8.3.2常用英文搜索引擎8.3.2常用英文搜索引擎8.3.2常用英文搜索引擎不支持中文8.3.2常用英文搜索引擎8.3.2常用英文搜索引擎速度比較快8.3.2常用英文搜索引擎8.3.2常用英文搜索引擎3.3搜索引擎的檢索策略1.選擇適當(dāng)?shù)牟樵冊~

A表述準(zhǔn)確——許多搜索引擎會嚴(yán)格按照您提交的查詢詞去搜索,因此,查詢詞表述準(zhǔn)確是獲得良好搜索結(jié)果的必要前提。

例如,要查找2004年國內(nèi)十大新聞,查詢詞可以是“2004年國內(nèi)十大新聞”;但如果把查詢詞換成“2004年國內(nèi)十大事件”,搜索結(jié)果就沒有能滿足需求的了。例如,要查找林心如的寫真圖片,用“林心如寫真”,但如果寫錯了字,變成“林心茹寫真”,搜索結(jié)果質(zhì)量就差得遠(yuǎn)了。例如,想查找去長城旅游的信息,“長城一日游”就是比“旅游”更好的關(guān)鍵詞。3.3搜索引擎的檢索策略1.選擇適當(dāng)?shù)牟樵冊~

B查詢詞的主題關(guān)聯(lián)與簡練——目前的搜索引擎并不能很好的處理自然語言。因此,在提交搜索請求時,您最好把自己的想法,提煉成簡單的,而且與希望找到的信息內(nèi)容主題關(guān)聯(lián)的查詢詞。

例如,某三年級小學(xué)生,想查一些關(guān)于時間的名人名言,他的查詢詞是“小學(xué)三年級關(guān)于時間的名人名言”?!靶W(xué)三年級”和主題無關(guān),會使得搜索引擎丟掉不含“小學(xué)三年級”的信息;“關(guān)于”也是一個與名人名言沒有關(guān)系的詞;“時間的名人名言”,其中的“的”也不是一個必要的詞,會對搜索結(jié)果產(chǎn)生干擾;“名人名言”,名言通常就是名人留下來的,在名言前加上名人,是一種不必要的重復(fù)。3.3搜索引擎的檢索策略1.選擇適當(dāng)?shù)牟樵冊~——避免使用無意義的虛詞:

去掉關(guān)鍵詞中的疑問詞、連詞、嘆詞、助詞、語氣詞等無意義的虛詞,有助于提高檢索質(zhì)量。比如“怎么樣給金魚換水”的檢索質(zhì)量就不如“金魚換水”。使用多個關(guān)鍵詞組合:

當(dāng)您發(fā)現(xiàn)搜索結(jié)果中存在很多無關(guān)信息的時候,您可以嘗試增加關(guān)鍵詞來過濾掉無關(guān)的結(jié)果。比如位于深圳的你搜索“同城快遞

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論