信息檢索與文字處理_第1頁
信息檢索與文字處理_第2頁
信息檢索與文字處理_第3頁
信息檢索與文字處理_第4頁
信息檢索與文字處理_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

信息檢索與文字處理第一頁,共三十一頁,編輯于2023年,星期六SENTAIDAITBADE信息檢索與網絡應用感受檢索的魅力網站內容的獲取常用網站主題詞的設定計算機信息的檢索第二頁,共三十一頁,編輯于2023年,星期六計算機信息檢索基礎計算機檢索系統基本程序概述結構第三頁,共三十一頁,編輯于2023年,星期六計算機檢索系統概述計算機信息檢索:利用計算機及相關軟件和通信設備,對本地計算機、遠程服務器上存貯的信息進行檢索。1.計算機信息檢索的發(fā)展大體經歷了三個階段:聯機檢索階段(60年代中期到70年代中期);光盤數據庫檢索階段(70年代中期到80年代末);網絡化檢索階段(90年代初至今)。2.計算機信息檢索的服務方式(1)回溯檢索指追溯查找過去的信息,幫助用戶查找過去幾年甚至幾十年的文獻信息,使用戶一次檢索就可以全面了解某一課題在某一段時間中的發(fā)展情況。第四頁,共三十一頁,編輯于2023年,星期六計算機檢索系統概述

(2)定題檢索

定題檢索服務是根據用戶檢索課題的內容,一次性輸人事先確定好的檢索提問式保存在檢索系統中。(3)人機對話檢索

用戶一旦輸入檢索提問,計算機檢索系統就可立即執(zhí)行,并在用戶終端顯示屏上輸出檢索結果。(4)聯機訂購

用戶通過聯機檢索得到的結果一般都是二次文獻,如果需要一次文獻,可以通過終端聯機訂購原始文獻的復印件或原文。SENTAIDA第五頁,共三十一頁,編輯于2023年,星期六計算機檢索系統的結構1.計算機信息檢索原理

計算機信息檢索是指人們在計算機檢索網絡或終端上,使用特定的檢索指令、檢索詞和檢索策略,從計算機檢索系統的數據庫中檢索出所需要的信息,然后再由終端設備顯示、下載和打印的過程。廣義的計算機信息檢索包含兩個過程:(1)對原始信息加工處理并存貯在各種信息載體上一是對待加工的信息進行著錄,即按一定的規(guī)則進行描述。二是對待加工的信息進行標引。形成從內容角度查找信息的檢索點。SENTAIDA第六頁,共三十一頁,編輯于2023年,星期六計算機檢索系統的結構

(2)信息查詢過程用戶對檢索需求加以分析,明確檢索范圍,弄清主題概念,然后用系統語言或自然語言表示主題概念,形成檢索標識及檢索策略,輸入計算機進行查找。2.計算機檢索系統的構成由計算機硬件,檢索軟件、數據庫、通信網絡等組成。第七頁,共三十一頁,編輯于2023年,星期六計算機檢索的基本程序1.分析檢索課題

就是明確檢索目的、要求和檢索的范圍。2.選擇檢索系統和數據庫

根據主題范圍、信息類型、時間范圍等因素選擇檢索系統和數據庫。3.確定檢索途徑和檢索詞

常用的檢索途徑有著者、分類、主題、文獻題名、文獻號、代碼、引文、文獻類型,出版時間、語種等。檢索詞是表達文獻信息需求的基本元素,是用戶輸入的檢索語詞。第八頁,共三十一頁,編輯于2023年,星期六計算機檢索的基本程序4.構建檢索式

是用來表達用戶檢索提問的邏輯表達式,由檢索詞和各種布爾邏輯算符、位置算符、截詞符以及系統規(guī)定的其他組配連接符號組成,是檢索策略具體體現。5.檢索并調整檢索策略

在檢索過程中應及時分析檢索結果是否與檢索要求一致,并根據檢索結果對檢索詞、檢索提問式作相應的修改和調整,直至得到比較滿意的結果。6.輸出檢索結果

根據檢索系統提供的檢索結果輸出方式,選擇需要的記錄以及相應的字段,選擇文摘或全文等,將檢索結果顯示在屏幕上、或存儲到磁盤上、或打印輸出。第九頁,共三十一頁,編輯于2023年,星期六信息檢索的基本技術布爾邏輯截詞檢索位置檢索加權檢索限制檢索基本技術

信息檢索第十頁,共三十一頁,編輯于2023年,星期六計算機檢索的基本技術信息的檢索模型有布爾檢索模型、向量空間模型、概率模型、模糊集合模型、擴展布爾檢索模型等幾種。具體檢索技術有布爾檢索、截詞檢索、限制檢索、加權檢索、聚類檢索等。1.布爾邏輯檢索技術

指利用布爾運算符連接各個檢索詞,由計算機進行相應邏輯運算,以找出所需信息的方法。AND(或)、OR(或+)、NOT(或一)。2.截詞檢索技術

分為后截詞檢索(前方一致),前截詞檢索(后方一致),中截詞檢索(前后方一致),以及前后截詞檢索(中間一致)基本類型。

“*”代表多個字符,“#”代表單個字符,“?”或者“n?”代表O個到9個額外的字符。

第十一頁,共三十一頁,編輯于2023年,星期六計算機檢索的基本技術3.位置檢索技術

可要求檢索詞以用戶所規(guī)定的相對位置出現。常用的位置算符有以下8種:(w)算符(WITH)、(nw)算符(nWORD)、(N)算符(NEAR)、(nN)算符(nNEAR)、(F)算符(FIELD)、(S)算符(SUBFIELD)、(C)算符(CITATION)、(L)算符(LINK)4.加權檢索技術

方法是:在檢索提問式中,根據每個提問詞重要程度,分別給予一定的加權數值加以區(qū)別,稱為權數;同時再給出檢索命中的閾值。5.限制檢索技術是通過限制檢索范圍,達到優(yōu)化檢索結果的方法。限制檢索的方式有多種,例如進行字段檢索、使用限制符、采用限制檢索命令等。第十二頁,共三十一頁,編輯于2023年,星期六互聯網信息資源概述1.互聯網信息資源的內涵即指以數字化形式記錄的,以多種媒體形式表達的,分布式存儲在互聯網不同主機上并通過計算機網絡通訊方式進行傳遞的信息資源的集合。2.互聯網信息資源的特點

數字化存儲和傳遞;數量巨大,增長迅速;內容豐富,形式多樣;穩(wěn)定性差,變化頻繁;結構復雜,分布廣泛;信息組織的局部有序性與整體無序性;信息新穎,定期更新;3.互聯網信息資源的類型和內容類型主要包括:非正式出版信息、半正式出版信息、正式出版信息、萬維網(WWW)信息資源、電子郵件(E-mail)信息資源、FTP信息資源(文件傳送協議)、Telnet信息資源(遠程登錄協議)、Usenet/Newsgroup信息資源(專題討論組)第十三頁,共三十一頁,編輯于2023年,星期六互聯網信息資源概述4.互聯網信息資源的組織

互聯網信息組織方法可歸納為語法信息組織方法、語義信息組織方法和語用信息組織方法?;ヂ摼W信息資源的組織形式主要表現為:網頁網站、搜索引擎、專業(yè)導航系統、虛擬圖書館等。5.互聯網信息資源的評價

評價標準包括9項:信息的準確性;信息發(fā)布者的權威性;提供信息的廣度和深度;主頁中的鏈接是否可靠、有效;版面設計質量;信息的時效性;讀者對象;信息的獨特性;主頁的可操作性,并特別強調可存取性、權威性、交互性和愉悅性這四項標準。第十四頁,共三十一頁,編輯于2023年,星期六互聯網搜索引擎搜索引擎(searchengine)是對互聯網上的信息資源進行搜集整理,然后提供查詢的系統.它包括信息搜集、信息整理和用戶查詢三部分。包括目錄服務和關鍵字檢索兩種服務方式。搜索引擎可以是一個專門的網站,也可以是某個網站上的一個系統。1.搜索引擎的類型

按照索引方式分為分類搜索引擎和機器人搜索引擎。

分類搜索引擎采用人工或機器搜索WWW信息,依靠專業(yè)人員對信息進行甄別和分類而建立的以分類導航或分類摘要查詢?yōu)橹鞯囊活愐?,又稱“主題指南”。

機器人搜索引擎指由網上搜索軟件自動收集網頁建庫,以全文檢索為主的引擎。按照檢索方式可將搜索引擎劃分獨立搜索引擎、元搜索引擎、網絡搜索軟件。第十五頁,共三十一頁,編輯于2023年,星期六互聯網搜索引擎2.搜索引擎的工作原理

搜索引擎實際上是一個專用的WWW服務器,它收集Internet上成千上萬甚至上億個網頁信息,組成龐大的索引數據庫。自動運行并對大量頁面進行索引。3.搜索引擎的檢索功能

大多數搜索引擎提供以下檢索功能:布爾邏輯檢索、截詞檢索、限制檢索、區(qū)分大小寫檢索、加減檢索、概念檢索、結果過濾、語句檢索、智能化檢索等。第十六頁,共三十一頁,編輯于2023年,星期六常用搜索引擎搜索引擎LiveGoogle百度第十七頁,共三十一頁,編輯于2023年,星期六著名搜索引擎的使用1.Google中文http://www.google.com

Google收錄20億多網頁。Google提供的關鍵詞查詢,查詢范圍有四種:所有網站、圖像、網上論壇和網頁目錄。Google所提供的幾項特殊檢索功能有:(1)按鏈接搜索(2)按指定網域搜索(3)網頁快照(4)查找PDF文件2.百度

百度也提供了搜索幫助、高級搜索、搜索工具、百度大全等,也是基于關鍵詞的搜索引擎。百度提供網頁快照、在指定網站內搜索、在標題中搜索、在URI。中搜索、并行搜索、相關搜索等功能。百度搜霸。第十八頁,共三十一頁,編輯于2023年,星期六著名搜索引擎的使用3.metacrawlerhttp://WWW.

metaerawler是一個并行式的元搜索引擎,主要提供三種類型服務:Web搜索服務、黃頁服務、白頁服務。具有同時調用Google、Yahoo、AskJeevesAbout、LookSmart、TeomaOverture等搜索引擎的功能,然后按相關度給出詳細結果。4.Excite搜索引擎

Excite是一個智能性的搜索引擎,主要提供頻道(channel)和搜索(search)兩種Web信息服務,可以對網站、目錄,新聞、照片等進行搜索。Excite搜索服務的個性化服務特色非常突出。第十九頁,共三十一頁,編輯于2023年,星期六檢索效果評價檢索效果評價的指標在檢索評價實踐中,評價檢索效果的常用指標具體有以下幾種:查全率(Recallratio)——用R表示;查準率(Precisionratio)——用P表示;漏檢率(()missionratio)一一用U表示;誤檢率(Fall—Outratio)——用F表示。其中,最常用的檢索效果評價指標為查全率和查準率。第二十頁,共三十一頁,編輯于2023年,星期六檢索效果評價1.查全率和漏檢率是評價檢索效果最常用的兩項關鍵指標。2.查準率和誤檢率

查準率是指檢出的相關文獻量與檢出文獻總量的比率,是衡量信息檢索系統精確度的尺度。

誤檢率是指誤檢(檢出不相關)文獻總量的比率,是衡量信息檢索系統誤檢文獻和程度的尺度。3.檢索速度(T)、新穎率(N)與有效率(A)第二十一頁,共三十一頁,編輯于2023年,星期六檢索效果的優(yōu)化

影響檢索效果的因素是多方面的,檢索效果的優(yōu)化就需要針對影響查全率、查準率、檢索速度等因素從多方面進行改進。1.提高檢索系統的功能

包括提高檢索系統的運行速度,提供檢索手段的完備性,檢索功能的智能化,檢索界面的友好性和易用性等。這里既包括硬件設備也包括檢索程序的設計2.提高數據庫的質量

數據庫的質量是提高檢索效率的基本因素。從數據庫整體來說,要做到相關文獻信息收錄完整,具有完備的索引系統、完備的幫助系統,數據庫結構科學,信息記錄使用標準規(guī)范的格式等。第二十二頁,共三十一頁,編輯于2023年,星期六檢索效果的優(yōu)化3.提高檢索人員的素質

檢索人員不僅指專門從事檢索的圖書情報工作人員,也包括普通用戶。4.優(yōu)化檢索策略

檢索者利用檢索工具對查找到所需內容的科學安排。一般可采取三方面的舉措來優(yōu)化檢索策略,從而提高檢索效果。(1)科學選擇數據庫(2)提高查全率(3)提高查準率第二十三頁,共三十一頁,編輯于2023年,星期六綜合檢索實例及分析用百度進行檢索:(1)在百度檢索框中輸入檢索詞“城市青少年”,檢索到10,400,000條記錄;再用“價值結構”在結果中檢索共檢索到1,370,000條記錄,其中兩條為相關記錄。從檢索情況來看,用“城市青少年”進行檢索,檢索詞過于專指,造成很大的漏檢。(2)在百度檢索框中輸入檢索詞“青少年價值觀”擴檢,檢索到1,620,000條記錄,很大程度上提高了檢全率。相關記錄有:青少年人生價值觀狀況分析、我國青少年價值觀發(fā)展特點與教育對策研究、新時期青少年價值觀的現狀與變化的追蹤研究、我國五城市青少年學生價值觀的調查等等。(3)在百度檢索框中輸入檢索式:“青年價值觀”+“社會教育”再次擴檢,從檢索命中記錄來看,用“青年價值觀”+“社會教育”檢索,彌補了用“青少年價值觀”+“社會教育”檢索時造成的對青年價值觀的部分漏檢。用戶可以嘗試著用其它檢索詞進行組配檢索,不斷地擴檢、縮檢以提高檢準率和檢全率。另外,百度會提供相關的檢索詞供用戶參考。在檢索的過程當中,我們可以利用檢索到的文獻以及其參考文獻為線索進行相關文獻的檢索。除了百度外,Google也是最常用、檢索功能強大的搜索引擎,用戶可以配合一起使用。第二十四頁,共三十一頁,編輯于2023年,星期六示例第二十五頁,共三十一頁,編輯于2023年,星期六網站內容的獲取第二十六頁,共三十一頁,編輯于2023年,星期六上機作業(yè)上機內容:題目:搜索引擎的界面和原理的進一步理解具體內容:對比以下四個搜索引擎界面、主要檢索方法及功能1.Google中文2.百度3.metacrawlerhttp://WWW.4.Excite搜索引擎要求:對比各搜索引擎的界面、主要檢索方法和功能特色及異同,寫出你的評價。第二十七頁,共三十一頁,編輯于2023年,星期六題目:檢索工具的初步使用具體內容:請查找寫出4個或以上的國內外搜索引擎(即網站)。然后分別在上述四個搜索引擎中查找并記下:1.利用關鍵字“模具設計”所檢索到的記錄的條數2.利用關鍵字“機械模具設計”所檢索到的記錄的條數3.對比各搜索引擎所檢索到的記錄條數,寫出你的認識與結論。第二十八頁,共三十一頁,編輯于2023年,星期六檢索實例[檢索課題]“非典”對中國經濟的影響(期刊

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論