第二章信息檢索原理與方法_第1頁
第二章信息檢索原理與方法_第2頁
第二章信息檢索原理與方法_第3頁
第二章信息檢索原理與方法_第4頁
第二章信息檢索原理與方法_第5頁
已閱讀5頁,還剩38頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第二章信息檢索原理與方法圖書館英特爾國際科學(xué)與工程大獎賽17歲席夫爾開發(fā)了一個模型,用來提高互聯(lián)網(wǎng)搜索引擎的能力,能夠顯示微小的內(nèi)容變化15歲杰克.安德拉卡利用課余時間發(fā)明了一種一種濾紙,可能通過尿液和血液檢測胰腺癌、卵巢癌和肺癌18歲別克維斯基則研究了量子隱形傳態(tài),利用這種手段,需要高數(shù)據(jù)安全性的團體可以發(fā)送遠距離加密信息,而不用擔心被攔截。不斷“檢索”的時代使用圖書館=維護自己的權(quán)利/video/2009-05/06/content_11320551.htm/program/xinwen1jia1/20110121/109469.shtml從“圖靈實驗”說起計算機發(fā)展史上有一個重要人物,即人工智能的始祖阿倫?圖靈,他在上世紀50年代曾經(jīng)提出了一個假想的實驗,認為計算機可以具有人類的思維能力,被稱為“圖靈實驗”。并且預(yù)言,在20世紀末,具有人工智能的計算機將會出現(xiàn)。但時至今日,仍未有任何一臺計算機能通過“圖靈實驗”。計算機檢索的奧妙:關(guān)鍵詞匹配計算機實現(xiàn)檢索的奧妙,就在于它能把你輸入的檢索詞,與它后臺數(shù)據(jù)庫中存儲的文件關(guān)鍵詞進行比對,如果能夠匹配,就認為這條信息是你需要的,立刻輸出給你。信息檢索的方法信息檢索的原理信息檢索的流程信息檢索的原理AB信息檢索的概念信息檢索的原理

信息檢索的概念信息檢索(InformationRetrieval):1950年由美國信息科學(xué)先鋒穆爾斯提出的CalvinMooers將信息按一定的方式組織和存儲起來,并根據(jù)信息用戶的需要找出有關(guān)的信息的過程和技術(shù)。狹義的信息檢索從信息集合中找出所需要的信息的過程,也就是我們常說的信息查詢。信息檢索的原理

將特定的信息需求與存儲在檢索系統(tǒng)中的信息集合進行異同的比較與匹配,選取兩者相符或者部分相符的信息予以輸出。信息需求比較與匹配信息集合表達標識檢索詞在數(shù)據(jù)庫紀錄中的匹配【題名】大數(shù)據(jù)時代下圖書館的挑戰(zhàn)及其應(yīng)對策略【關(guān)鍵詞】大數(shù)據(jù);數(shù)據(jù)處理;數(shù)據(jù)挖掘;數(shù)據(jù)服務(wù);

圖書館;【文摘】文章首先闡述了大數(shù)據(jù)的特征與內(nèi)涵,指出了大數(shù)據(jù)在圖書館工作中的重要性及兩者之間的關(guān)系,分析了大數(shù)據(jù)所帶來的數(shù)據(jù)管理、數(shù)據(jù)存儲、數(shù)據(jù)挖掘等方面的挑戰(zhàn)。然后研究了圖書館應(yīng)從數(shù)據(jù)管理、數(shù)據(jù)技術(shù)及數(shù)據(jù)隊伍建設(shè)上所采取的策略。最后探討。。。。信息檢索的方法123關(guān)鍵詞檢索布爾邏輯檢索截詞檢索

關(guān)鍵詞檢索

關(guān)鍵詞

關(guān)鍵詞是那些出現(xiàn)在文獻的篇名、章節(jié)名、摘要、正文中,對描述文獻主題內(nèi)容具有實質(zhì)意義的語詞。關(guān)鍵詞的確定(1)列出論文所屬學(xué)科領(lǐng)域(2)列出研究課題名稱(3)列出研究方法或工具名稱(4)列出論文作為主要研究對象的事或物質(zhì)的名稱及其相關(guān)概念(5)有利于檢索和文獻利用的其他關(guān)鍵詞中國科協(xié)關(guān)于標識關(guān)鍵詞的規(guī)定題名中包含多少語詞?那些是關(guān)鍵詞?那些是非關(guān)鍵詞?這些詞有什么特點?他們之間及其與全文有什么關(guān)系?

例子:“基于項目治理的政府投資項目代建人激勵機制研究”課題:基于項目治理的政府投資項目代建人激勵機制研究關(guān)鍵詞:政府投資項目;代建制;代建人;項目治理;激勵機制政府投資項目代建制代建人項目治理激勵機制研究目標對象研究成果的名稱

研究學(xué)科領(lǐng)域研究內(nèi)容對象雪災(zāi)、冰雪天氣、雨雪天氣。。。

災(zāi)情、成因、供電、交通、物價、旅游、環(huán)境。。。。

影響、中斷、關(guān)閉、斷線、上漲、污染。。。1.簡練使用關(guān)鍵詞———不濫選;2.正確揭示主題

———不錯選;3.全面反映主題

———不漏選;總結(jié):關(guān)鍵詞的三個原則百度指數(shù)GoogleAdwords布爾邏輯檢索布爾邏輯運算符是為了表達檢索詞之間的邏輯關(guān)系的算符。由英國學(xué)者喬治.布爾發(fā)明的布爾邏輯運算符包括邏輯“與”、邏輯“或”和邏輯“非”三種類型,分別用and、or和not表示。用布爾邏輯運算符連接檢索詞形成的檢索式稱為布爾邏輯檢索式。

邏輯“與”

如:“計算機”AND“文獻檢索”,表示查找文獻內(nèi)容中既含有“計算機”又含有“文獻檢索”詞的文獻。

如:“計算機”O(jiān)R“文獻檢索”,表示查找文獻內(nèi)容中含有“計算機”或含有“文獻檢索”以及兩詞都包含的文獻。邏輯“或”如:“計算機”NOT“文獻檢索”,表示查找文獻內(nèi)容中含有“計算機”而不含有“文獻檢索”的那部分文獻。邏輯“非”編寫布爾邏輯檢索式應(yīng)注意以下技巧:1、把出現(xiàn)頻率低的檢索詞放在邏輯“與”(AND)的左邊,可縮短計算機處理時間。例如:檢索有關(guān)“計算機在機器人應(yīng)用方面”的文獻,檢索式為:機器人*計算機2、把出現(xiàn)頻率高的檢索詞放在邏輯“或”(OR)的左邊,有利于提高檢索速度。例如:檢索有關(guān)“計算機或者有關(guān)機器人”的文獻,構(gòu)造檢索式為:計算機+機器人3、同時使用邏輯“與”(AND)和邏輯“或”(OR)檢索時,應(yīng)把“或”運算放在“與”運算的左邊。例如:正確的檢索式:(醫(yī)學(xué)+生物)*健康報4、布爾運算符優(yōu)先級比較:有括號時:括號內(nèi)的先執(zhí)行;無括號時:NOT>AND>OR例:檢索“唐宋詩歌”的有關(guān)信息。關(guān)鍵詞:唐、宋、詩歌;檢索表達式:(唐OR宋)AND詩歌;唐AND詩歌OR宋AND詩歌;截詞檢索

截詞檢索就是用截斷的詞的一個局部進行的檢索,并認為凡滿足這個詞局部中的所有字符(串)的文獻,都為命中的文獻。按截斷的位置來分,截詞可有后截斷、前截斷、中截斷三種類型。

不同的系統(tǒng)所用的截詞符也不同,常用的有?、$、*等。分為有限截詞(即一個截詞符只代表一個字符)和無限截詞(一個截詞符可代表多個字符)。

截詞原因:西文的結(jié)構(gòu)特性

(1)單復(fù)數(shù)形式不一

(2)同一個意思的詞,英美拼法不一致;

(3)詞干+前綴/后綴就=派生詞截詞檢索的方式(根據(jù)檢索系統(tǒng)而定,參見上海大學(xué)圖書館OPAC)前截詞,后方一致。如:?computer表示minicomputer,microcomputers等

后截詞,前方一致。如:comput?表示computer,computers,computing等。

前后截詞,中間一致。如?comput?表示minicomputer,microcomputers等。

ACEFDB用戶需求分析主題概念分析確定檢索詞選擇檢索工具構(gòu)造檢索式并檢索反饋與調(diào)整獲取結(jié)果信息檢索流程

用戶信息需求分析信息檢索需求類型

查找某概念的確切含義,如:什么是“blog”

查找某概念的背景知識,如:誰最先發(fā)現(xiàn)青霉素

查找某些事物的數(shù)值及量化指標,如KPI

查找某一學(xué)科的一般知識,如:關(guān)于分子生物學(xué)有

哪些專著

查找學(xué)科專業(yè)領(lǐng)域的新進展,如:有關(guān)納米技術(shù)的

研究綜述

查找課題相關(guān)的專業(yè)文獻

最常見的!用戶信息需求

檢索目的(開題報告、學(xué)術(shù)論文、課程論文)學(xué)科范圍(新聞學(xué)、會計學(xué))

文獻類型(期刊論文、會議論文、科技報告、圖

書、專利、標準、網(wǎng)站等)

結(jié)果形式(全文、文摘、題錄、數(shù)值、事實等)

檢索年限(如2000年以來的文獻)

語種(中文、外文;英文、日文)

檢索結(jié)果數(shù)量(100?50?)

主題概念分析從熟悉的已知文獻信息入手

分析檢索課題的內(nèi)容實質(zhì)

表示的概念過大,必然造成大量誤檢;表達的概念過小,則會發(fā)生大量漏檢例子:青少年性格形成分析主要是考察青少年的性格以及影響其性格形成的因素分析,實質(zhì)上是青少年心理變化的分析

隱性主題具體化分析課題時不能僅從題目中的詞找出概念就認為是滿足檢索課題要求的概念,而要從專業(yè)方面及檢索目標與規(guī)則方面分析,找出反映課題本質(zhì)的概念。如:“垃圾的處理”中的“處理”一詞就隱含著“回收”和“再生”等概念

主題概念具體化如:中國特大城市空氣污染(中國特大城市+北京+上海+廣州+重慶+武漢+天津+,,)*(空氣污染+大氣污染+空氣質(zhì)量+工業(yè)廢氣+一氧化硫+二氧化硫+一氧化碳+二氧化碳+灰霾+,)

找出核心概念,排除無關(guān)概念和重復(fù)概念,簡化邏

輯關(guān)系并不是概念越多越好!抓住主題的核心:最能表達檢索課題內(nèi)容,而且具有實際檢索意義的關(guān)鍵詞。如“大數(shù)據(jù)下的空間數(shù)據(jù)挖掘思考”

-大數(shù)據(jù)

空間

數(shù)據(jù)挖掘

思考

-大數(shù)據(jù)

空間數(shù)據(jù)挖掘排除檢索意義不大而且比較泛指的概念,如:展望、發(fā)展趨勢、現(xiàn)狀、近況、生產(chǎn)工藝、應(yīng)用、利用、作用、方法、影響、制備、結(jié)果

明確概念間的邏輯關(guān)系同義詞、近義詞是或的關(guān)系上位詞,概念上外延更廣的主題詞,1個主題詞所表達概念的的任何一種屬性、任何一種歸類方式,都可以是它的上位詞下位詞,指概念上內(nèi)涵更窄的主題詞例子分析

“鮮花快遞”、”鮮花”、”快遞”、”網(wǎng)上購物”、“上海鮮花速遞”、”深圳鮮花速遞”、”網(wǎng)上鮮花速遞”PPT背景圖片:/beijing/

確定檢索詞

表示具體事物名稱的名詞術(shù)語

表示事物的狀態(tài)或現(xiàn)象的名詞術(shù)語

表示科學(xué)分類的名詞術(shù)語

表示研究方法、技術(shù)方法的名詞術(shù)語

表示工藝方法、加工技術(shù)的名詞術(shù)語

表示化學(xué)元素、化合物、金屬材料與合金的名詞術(shù)語

表示國家名稱、地名、組織機構(gòu)名稱及人名的專有名

文獻類型、文獻載體的名詞術(shù)語注意:

不要將整個題目輸入檢索框,要從概念入手,而不是從字面意思入手。

當課題比較生疏時,應(yīng)當首先利用百科全書、圖書等弄清楚概念,了解課題的有關(guān)專業(yè)知識,弄清楚課題的內(nèi)容和要解決的問題以及解決該問題的初步設(shè)想等,進而確定檢索的主題范圍。立足規(guī)范詞,兼顧自由詞

詞的全稱、簡稱及縮寫字母

勿忘下位類詞

注意外來詞的譯寫變化

檢索工具的選擇(設(shè)置鏈接,第三章圖書館電子資源檢索)

構(gòu)建檢索提問式

使用邏輯“與”算符

使用邏輯“或”算符

使用“非”算符課題:汽車導(dǎo)航系統(tǒng)的研究關(guān)鍵詞:汽車機動車導(dǎo)航系統(tǒng)全球定位系統(tǒng)GPS研究設(shè)計調(diào)查檢索式:(汽車+機動車)*(導(dǎo)航系統(tǒng)+全球定位系統(tǒng)+GPS)*(研究+設(shè)計+調(diào)查)

檢索并調(diào)整檢索策略

評價標準查全率:

R=被檢出相關(guān)文獻量/相關(guān)文獻總量=(a/a+c)

*100%查準率:P=被檢出相關(guān)文獻量/被檢出文獻總量=(a/a+b)

*100%

檢索結(jié)果信息量過多——提高查準率(縮檢)原因:措施:提高檢索詞或分類號的專指度。更多地采用專用名詞及特性檢索的途徑。選擇邏輯“與”及邏輯“非”的使用。減少或不采用邏輯“或”及截詞檢索技術(shù)的使用。限定檢索詞出現(xiàn)的字段及在段落

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論