信息檢索基本方法_第1頁
信息檢索基本方法_第2頁
信息檢索基本方法_第3頁
信息檢索基本方法_第4頁
信息檢索基本方法_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第五章 信息檢索的基本方法5.1 布爾邏輯檢索 Boolean logic 由GEORGE BOOLE 1815-1864提出,目前大多數(shù)搜索引擎都采用 與 AND, *, & 或 OR, + , 非 NOT, , !邏輯“與”:用關(guān)系詞AND表示(可寫作“*”或“&”)。邏輯“與”表示AND所連接的兩個(gè)檢索詞必須同時(shí)在結(jié)果中出現(xiàn)才滿足檢索條件。邏輯“或”:用關(guān)系詞OR表示(可寫作“+”或“”),邏輯“或”表示OR所連接的兩個(gè)檢索詞只要有一個(gè)能出現(xiàn)在結(jié)果中就算滿足了檢索條件。邏輯“非”:用關(guān)系詞NOT表示(可寫作“and not”“ ”或“!”),邏輯“非”表示NOT后面的那個(gè)檢索詞一定不能在

2、檢索結(jié)果中出現(xiàn)。例如: 校慶 AND 武漢大學(xué) 高等教育 * 中國 湖南 OR 湖北 移動(dòng)學(xué)習(xí) + 泛在學(xué)習(xí) 大學(xué) NOT 武漢大學(xué) 玉米 甜玉米例如,用GFsoso檢索, 電子 AND 讀書筆記 電子讀書筆記 OR 讀書筆記軟件5.2 位置限制檢索臨近檢索(Proximity Search)以Dialog為例,收900多個(gè)數(shù)據(jù)庫 (1)PRE/0,P/0 表示前后詞序不能顛倒,中間不能插入其他詞,但可以插入符號(hào)。 With, (W) 例如:Wuhan P/0 University (2)PRE/#,P/# 表示前后詞序不能顛倒,中間可插入一定數(shù)量的單詞,即插入#個(gè)單詞。例如:Wuhan P/

3、1 University 檢索結(jié)果: Wuhan Medical University; Wuhan Agriculture University; Wuhan Technology University; (3)NEAR/0,N/0 表示前后詞序可以顛倒,但中間不能插入單詞。 例如: Wuhan N/0 University檢索結(jié)果: Wuhan University; Wuhan University;Wuhan ,University University, Wuhan; University-Wuhan; University Wuhan (4)NEAR/#,N/# 表示前后詞序可以顛

4、倒,中間可以插入#個(gè)單詞。例如: Wuhan N/1 University檢索結(jié)果: Wuhan Medical University; Wuhan Agriculture University; Wuhan Technology University; University of Wuhan; University in Wuhan; University at Wuhan(5)(s)是sentence的縮寫,A(s)B表示A和B必須同時(shí)出現(xiàn)在記錄的同一個(gè)句子或短語中,但次序可以隨意改變,A與B之間可以有若干個(gè)其他的詞。如:resin (s) ester (酯化樹脂)【練習(xí)】1、查找comp

5、uter和game的間隔不大于100個(gè)單詞的網(wǎng)頁2、檢索“雜交玉米”的外文文獻(xiàn),要求兩詞間隔1個(gè)詞,前后次序固定。hybrid、corn答案:1、computer near/100 game2、hybrid p/1 cornhybrid w/1 corn5.3 短語檢索(精確檢索)(Phrase Search Exact Search) 一般用“”表示。常見類型: (1)機(jī)構(gòu)名稱檢索:“Wuhan University” “The World Intellectual Property Organization” (2)人名檢索: 如“George W. Washington”否則可能出現(xiàn):G

6、eorge W. Bush spoke at Washington D.C about human rights (3)用于專有名稱檢索:如 “information retrieval” “sleepless in seattle”電影名 電子讀書筆記 與 “電子讀書筆記”的檢索結(jié)果是不同的5.4 截詞檢索(Truncation Wildcat)是指在檢索式中用專門的截詞符號(hào)(一般用* 表示)表示檢索詞中的某一部分允許有一定的詞形的變化。因此,檢索詞的不變部分加上由截詞符號(hào)所代表的任何變化形式所構(gòu)成的詞匯都是合法檢索詞。 截詞符號(hào)可以用*,?,位置可分左截?cái)唷⒂医財(cái)?、中間截?cái)唷⒆笥医財(cái)啵?)

7、左截?cái)啵?physics可檢索出physics, bio physics, chemophysics, geo physics等。*ology Biology, geology, zoology *ism, *graphy(2)右截?cái)啵篊omput*可檢索出Comput, Computing,Computer,Computerized等。econom*,economy; economic; economics; economical; economist; economize; (3)中間截?cái)鄔om*n 一個(gè)?代表一個(gè)字符,結(jié)果是woman, women (4)左右截?cái)?toxic* cyto

8、toxic; neurotoxicities; hepatoxicologic; 表5-1 世界上主要數(shù)據(jù)庫截詞算符數(shù)據(jù)庫平臺(tái)1個(gè)字符多個(gè)字符0或1個(gè)字符MEDLINEPubMed*MEDLINE,SCIWOS?*$MEDLINE,CSAProQuest?*Agricola?EBSCO?*#Lexis-Nexis*!SDOL,Springer?*5.5字段限制檢索(Field Limiting) 通過對(duì)檢索詞出現(xiàn)的位置進(jìn)行限定,以實(shí)現(xiàn)精確檢索。 例如:中國有多少政府網(wǎng)站? 無固定答案,因該題是一個(gè)動(dòng)態(tài)變化的過程。網(wǎng)站的構(gòu)成規(guī)律,斜杠越多,層次越多。 例如:cn 國家或地區(qū)代碼,美國沒有used

9、u 機(jī)構(gòu)類型代碼,如gov表示政府機(jī)構(gòu);org表示非盈利機(jī)構(gòu);com表示商業(yè)性機(jī)構(gòu)whu 表示機(jī)構(gòu)名稱sim表示某機(jī)構(gòu)下面的子機(jī)構(gòu),此處代表School of Information Management(1)網(wǎng)址字段:URL: Uniform Resource Locator 例如: url: 結(jié)果有多少個(gè)記錄,就有多少個(gè)政府網(wǎng)站(2)題名字段: title(ti): Wuhan University(3)出版字段:PY =2010 (PY=Publication Year)(4)語種字段:la = english(5)鏈接字段:link: (link用來查找鏈

10、接到某個(gè)網(wǎng)站的所有的網(wǎng)頁,如果某人有自己的博客或主頁,通過這種方法可以看到它被鏈接的情況,從而了解到本人的知名度。此外,用link還可以查看其它網(wǎng)站的鏈接情況)(6)多字段組合檢索例如: admission AND site: (site表示檢索結(jié)果要限制在后面這個(gè)網(wǎng)址當(dāng)中,即只能從這個(gè)網(wǎng)站去找資料。上式表示從哈佛大學(xué)的官網(wǎng)中找入學(xué)的資料)例如:au = wang li AND (CS=Wuhan Univ.) (CS=corporate source)例如:比較下三個(gè)檢索式檢索結(jié)果的不同之處 “information retrieval”/TI informa

11、tion AND retrieval /TI information (F)retrieval (F=field)檢索結(jié)果中,第3個(gè)最多,第1個(gè)最少。第一個(gè)結(jié)果表示在題名字段中檢索,并且必須與輸入的形式完全相同;第二個(gè)表示在題名字段中檢索,但不嚴(yán)格限制是短語,如“information organization methods for effective retrieval”;第三個(gè)表示只需要在同一個(gè)字段中即可。5.6 區(qū)分大小寫檢索(Case-Sensitive) China 中國;china 瓷器 Apple蘋果公司(產(chǎn)品);apple蘋果 Windows windows操作系統(tǒng); win

12、dows窗戶 Jobs 喬布斯; job 工作Web萬維網(wǎng)、web蜘蛛網(wǎng)例如:國家圖書館聯(lián)機(jī)公共目錄查詢系統(tǒng)中的“多字段檢索”采用的就是字段檢索; Metacrawler的高級(jí)檢索等。5.7 多語種檢索方法的綜合運(yùn)用(Integrating Different Search Methods)表達(dá)一個(gè)概念的詞有很多,如移動(dòng)學(xué)習(xí)、數(shù)字學(xué)習(xí)、泛在學(xué)習(xí);信息素質(zhì)、信息素養(yǎng)、咨詢素養(yǎng)等,因此在構(gòu)造檢索式時(shí)要充分考慮每個(gè)檢索詞的不同表達(dá)形式,盡量不要遺漏,最好的方法是采用積木型檢索式構(gòu)造方法。例1:查找與電子圖書標(biāo)準(zhǔn)化有關(guān)的文獻(xiàn)(“電子圖書” OR “電子書” OR “數(shù)字圖書” OR “在線圖書” OR

13、 “線上圖書” )AND (“標(biāo)準(zhǔn)化” OR 標(biāo)準(zhǔn) OR 規(guī)范)上述的問題若換成英文檢索,其中標(biāo)準(zhǔn)的表達(dá)是standard; standards; standardize; standardizing; standardization; standardizations等,很麻煩,可以考慮用截詞符號(hào)代替,即standard*,上述檢索式可轉(zhuǎn)換為:(e-book OR “electronic book” OR “digital book” OR “online book” )AND (standard* OR specification)例2:查2009年出版或發(fā)行的關(guān)于克隆人立法方面的英文著作或論文中文檢索式: PY=2009 AND 克隆人 AND (立法 OR 法律 OR 法規(guī)) AND LA=English AND (DT=book OR article)英文檢索式:PY=2009 AND “human cloning” AND (law OR laws OR leg

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論