第3章文獻(xiàn)數(shù)據(jù)庫與計算機(jī)檢索_第1頁
第3章文獻(xiàn)數(shù)據(jù)庫與計算機(jī)檢索_第2頁
第3章文獻(xiàn)數(shù)據(jù)庫與計算機(jī)檢索_第3頁
第3章文獻(xiàn)數(shù)據(jù)庫與計算機(jī)檢索_第4頁
第3章文獻(xiàn)數(shù)據(jù)庫與計算機(jī)檢索_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、文獻(xiàn)數(shù)據(jù)庫與計算機(jī)檢索1. 文獻(xiàn)信息數(shù)據(jù)庫2. 計算機(jī)信息檢索基礎(chǔ)3. 檢索效果評價及其優(yōu)化1. 文獻(xiàn)信息數(shù)據(jù)庫 文獻(xiàn)是記錄知識的載體。數(shù)據(jù)庫是結(jié)構(gòu)化的數(shù)據(jù)集合,至少由一種文檔組成并能夠滿足某種特定目的或特定數(shù)據(jù)處理系統(tǒng)需要的數(shù)據(jù)集合 。當(dāng)數(shù)據(jù)庫記錄的對象為文獻(xiàn)信息時,就稱為文獻(xiàn)信息數(shù)據(jù)庫 。文獻(xiàn)信息數(shù)據(jù)庫的結(jié)構(gòu)一個數(shù)據(jù)庫通常由一個主文檔(Master File) 和若干個索引文檔或稱倒排文檔(Inverted File) 組成。文檔是具有某種特征的全部記錄的集合。記錄是構(gòu)成文檔的基本單元,由各種反映 文獻(xiàn)特征的字段組成。如一篇論文、一件專利、 一本圖書、一個標(biāo)準(zhǔn)的相關(guān)信息都能夠成為文 檔中的

2、一條記錄。字段是記錄的基本組成元素。一條記錄的 常見字段通常包含題名字段、著者字段、主題 詞字段、文獻(xiàn)出處字段(如刊名等)多種字段。文獻(xiàn)數(shù)據(jù)庫中常見的字段和段碼2022-3-17文獻(xiàn)數(shù)據(jù)庫的類型按數(shù)據(jù)庫文獻(xiàn)記載的詳細(xì)度可分為書目型數(shù)據(jù)庫(二次文獻(xiàn)數(shù)據(jù)庫):僅提供文獻(xiàn)檢索,讀者根據(jù)其提供的線索查找文獻(xiàn)原文。 可以分為:題錄型 文摘型EI SCI 中國科學(xué)引文索引文獻(xiàn)數(shù)據(jù)庫的類型按數(shù)據(jù)庫文獻(xiàn)記載的詳細(xì)度可分為全文數(shù)據(jù)庫:不僅提供文獻(xiàn)的基本信息及線索,同時還提供原始文獻(xiàn)本身的數(shù)據(jù)庫。主要包括全文數(shù)據(jù)庫、術(shù)語數(shù)據(jù)庫、圖像數(shù)據(jù)庫等等。如: CNKI 萬方 Elsevier IEL文獻(xiàn)數(shù)據(jù)庫的類型按數(shù)據(jù)庫

3、文獻(xiàn)記載的詳細(xì)度可分為混合型數(shù)據(jù)庫:數(shù)據(jù)中的數(shù)據(jù),一部分只是提供參考數(shù)據(jù)庫中的信息(文獻(xiàn)的基本情況及線索);另一部分則可以提供全文數(shù)據(jù)庫中的信息(原始文獻(xiàn)本身)。如: EBSCO (ASPBSP)文獻(xiàn)數(shù)據(jù)庫的類型按文獻(xiàn)數(shù)據(jù)庫收錄信息的學(xué)科范圍可分為 (1) 專業(yè)性文獻(xiàn)信息數(shù)據(jù)庫 (CA)(2) 綜合性文獻(xiàn)信息數(shù)據(jù)庫 (中國期刊網(wǎng))文獻(xiàn)信息數(shù)據(jù)庫的評價標(biāo)準(zhǔn)收錄內(nèi)容范圍系統(tǒng)準(zhǔn)確。揭示文獻(xiàn)詳略完備詳細(xì)。更新速度快慢及時快速。檢索字段多寡途徑豐富。檢索功能強(qiáng)弱高效完善。用戶使用方便易學(xué)易用。維護(hù)服務(wù)質(zhì)量及時到位。計算機(jī)信息檢索基礎(chǔ)計算機(jī)信息檢索指利用計算機(jī)及相關(guān)軟件和通信設(shè)施,對本地計算機(jī)、遠(yuǎn)程服務(wù)器

4、及網(wǎng)上信息進(jìn)行檢索的過程或活動。隨著信息技術(shù)的快速發(fā)展及對各種文獻(xiàn)信息的數(shù)字化處理,計算機(jī)文獻(xiàn)信息檢索已經(jīng)成為文獻(xiàn)信息檢索的主要手段。計算機(jī)信息檢索發(fā)展過程脫機(jī)檢索階段(50年代中期到60年代中期)聯(lián)機(jī)檢索階段(60年代中期到70年代中期)光盤數(shù)據(jù)庫檢索階段(70年代中期到80年代末)網(wǎng)絡(luò)化檢索階段(90初年代至今) 1)分析檢索課題,明確檢索要求(2)選擇適當(dāng)檢索系統(tǒng)(數(shù)據(jù)庫)(3)確定檢索途徑及檢索詞(4)構(gòu)建檢索提問式(5)上機(jī)檢索并調(diào)整檢索策略(6)輸出檢索結(jié)果 (具體)計算機(jī)檢索的一般程序計算機(jī)檢索的一般程序主題分析明確檢索需求及檢索目標(biāo)(1)檢索信息的學(xué)科范圍(2)檢索信息的類型(

5、3)檢索的目的選擇檢索系統(tǒng)(數(shù)據(jù)庫等)(1)根據(jù)檢索目的確定所需數(shù)據(jù)庫的類型(2)根據(jù)信息需求的內(nèi)容、專業(yè)范圍選擇數(shù)據(jù)庫(3)根據(jù)記錄來源選擇數(shù)據(jù)庫(4)根據(jù)熟悉程度選擇數(shù)據(jù)庫計算機(jī)檢索的一般程序主題概念分析(注:是課題檢索的重點和難點)檢索目的(申報課題、開題報告、學(xué)術(shù)論文、成果查新、課程論文、商業(yè)需求以及其它需求類型等)文獻(xiàn)類型(期刊論文、會議論文、科技報告、圖書、專利、標(biāo)準(zhǔn)、網(wǎng)站等)?結(jié)果形式(全文、文摘、題錄、數(shù)值、事實等)檢索年限(如2000年以來的文獻(xiàn))語種(中文、外文;英文、日文)檢索結(jié)果數(shù)量(100?50?)2.計算機(jī)檢索基本技術(shù)布爾邏輯檢索技術(shù)布爾檢索技術(shù)是指利用布爾運(yùn)算符連

6、接各個檢索詞,然后由計算機(jī)進(jìn)行相應(yīng)邏輯運(yùn)算,以檢索出所需信息的方法。常用算符及含義:AND (*) OR (+) NOT (-)布爾邏輯檢索技術(shù)AND (*)接不相容的主題概念(或不同字段)檢索結(jié)果同時出現(xiàn)連接的詞限定, 縮小范圍, 提高準(zhǔn)確率。OR (+)?連接同義詞 ,同族詞, 相關(guān)詞檢索結(jié)果至少含有其中一詞或同時有擴(kuò)大,檢索范圍, 提高查全。NOT (-)縮小檢索范圍,起到減少文獻(xiàn)輸出量。布爾邏輯檢索技術(shù)優(yōu)先處理算符“( )” 邏輯算符OR和AND的使用方法,如果歸納成一個模式,比如有A、B、C、D四個檢索詞(其中A和B,C和D分別為同義概念), 檢索提問式為:(A OR B)AND (

7、C OR D) 即,同一組檢索提問既含有OR算符,又含有AND算符,此時須使用優(yōu)先處理算符“( )”,將OR算符前后的詞放入括號中,計算機(jī)將優(yōu)先運(yùn)算括號內(nèi)的算符。位置算符位置檢索可要求檢索詞以用戶所規(guī)定的相對位置出現(xiàn)。比如:以詞組形式表達(dá)的概念;彼此相鄰的兩個或兩個以上的詞;被禁用詞或特殊符號分隔的詞以及化學(xué)分子式等。位置算符是調(diào)整檢索策略的一種重要手段。 輸入:COMMUNICATION SATELLITE系統(tǒng)認(rèn)為 :COMMUNICATION AND SATELLITE結(jié)果: communication satellite ,satellite communication , commun

8、ication devices for satellite ;communication links without satellite位置算符常用的位置算符及含義: (W)算符(WITH) 表示兩個檢索詞緊挨著,詞序不能顛倒, 中間不得插入其他詞、字母或代碼,但允許有空格或標(biāo)點符號,也可用()表示。 例:COMMUNICATION(W)SATELLITE (n W)算符(n WORD)表示兩個檢索詞中間可插入n個詞,但它們之間的順序不可顛倒。 (N)算符 (NEAR) 表示兩個檢索詞必須相連,不得插入其他詞,但詞序可以顛倒。位置算符(n N)算符(n NEAR) 表示兩個檢索詞中間可以插入n

9、個詞,且詞序可以顛倒。 (S)算符(SUBFIELD) 表示兩個檢索詞必須出現(xiàn)在同一個子句子中,但兩詞的詞序和插入的詞數(shù)不限。句子位置算符 (F)算符(FIELD)表示兩個檢索詞必須同時出現(xiàn)在同一個字段內(nèi),但兩詞的詞序和中間插入的詞數(shù)不限。字段位置算符 (C)算符(CITATION)表示兩個檢索詞必須出現(xiàn)在同一記錄中,但兩詞的詞序和所在的字段不限。 (L)算符(LINK)表示兩個檢索詞之間存在從屬關(guān)系或限制關(guān)系,如果其中一個為一級主題詞,另一個就為二級主題詞。截詞檢索技術(shù) 截詞檢索是為擴(kuò)大檢索范圍與增加檢索結(jié)果而采用的一種檢索技術(shù)。常件的截詞符號及含義:“*”可代表多個字符“#”代表單個的字符

10、一個“?”或者“n?”代表0個到9個額外的字符 。加權(quán)檢索技術(shù)加權(quán)檢索是在檢索提問式中,根據(jù)每個提問詞在檢索要求中的重要程度,分別給予一定的加權(quán)數(shù)值加以區(qū)別,我們稱這個數(shù)值為權(quán)數(shù)。同時再給出檢索命中的閾值。當(dāng)檢索結(jié)果達(dá)到所設(shè)定的閾值時,系統(tǒng)將顯示為命中記錄。采用加權(quán)檢索的目的在于提高檢索結(jié)果的準(zhǔn)確程度限制檢索技術(shù)具體形式主要有:(1)字段限制檢索(2)使用符號限制(3)進(jìn)行范圍限制(4)采用限制指令字段限制檢索基本字段限制字段限制(TI,AB,DE,ID)基本字段限制的用法是在需要指定字段(題目、敘詞、識別詞和文摘)的檢索詞后加上后綴運(yùn)算符“/”和段碼。例如,檢索策略“OPTICAL/TI A

11、ND FIBER/TI”的含義是指定在題目字段中查找含有 “optical” 和“fiber”兩詞的所有記錄。字段段碼可以多個連用,段碼之間加“,”即可。例如,檢索策略“FIB?/TI,DE”的含義是指定在題目和敘詞字段中查找以 “fib”為詞干的所有記錄。字段限制檢索輔助字段限制輔助字段運(yùn)算符的用法是在需要指定字段的檢索詞(有時檢索詞須放在雙引號內(nèi))之前加上段碼和前綴運(yùn)算符“=”。例如檢索策略AU=“Robert, S.”的含義是在作者字段中查找含有“Robert, S.”的所有記錄。下面是其他常用的輔助字段限制及其實例:指定著者單位字段 CS=SHANGHAI UNIVERSITY指定刊物

12、名稱字段 JN=APPLIED MATHEMATICS 指定語言字段 LA=ENGLISH 指定文獻(xiàn)類型字段 DT=JOURNAL3.檢索式的調(diào)整檢索表達(dá)式輸入檢索系統(tǒng)后,輸出的檢 索結(jié)果有時不一定能滿足課題的要求:檢出的篇 數(shù)過多,而且不相關(guān)文獻(xiàn) 所占比例很大檢出的文獻(xiàn)數(shù)量太少,有時甚至為零,需要調(diào)整檢索策略。調(diào)整檢索策略對于輸出篇數(shù)過多的情況a .選用了多義性的檢索詞;b .截詞截得過短;c. 輸入的檢索詞太少;d. 應(yīng)該使用“與(AND)”的使用了“或(OR)”;e.優(yōu)先運(yùn)算符“()”使用錯誤。調(diào)整檢索策略對于輸出篇數(shù)過少的情況a. 檢索詞拼寫錯誤;b. 遺漏重要的同義詞或隱含概念;c.

13、 檢索詞過于冷僻具體;d. 沒有使用截詞算符;e. 位置算符和字段算符使用的過多;f. 使用過多的“AND”算符。計算機(jī)檢索實例檢索需求查找某概念的確切含義如:什么是“blog” 查找某概念的背景知識如:誰最先發(fā)現(xiàn)青霉素查找某些事物的數(shù)值及量化指標(biāo)特征型知一般通過事實型、數(shù)值型數(shù)據(jù)庫和搜索引擎獲得。查找某一學(xué)科的一般知識如:關(guān)于分子生物學(xué)有哪些專著查找學(xué)科專業(yè)領(lǐng)域的新進(jìn)展如:有關(guān)納米技術(shù)的研究綜述查找課題相關(guān)的專業(yè)文獻(xiàn)最常見的!文獻(xiàn)數(shù)據(jù)庫 電子元器件的技術(shù)特性數(shù)據(jù),可用有關(guān)的電子元器件類手冊、產(chǎn)品目錄、樣本或書查找; 查過去某年度某種電氣電子類產(chǎn)品的產(chǎn)銷、貿(mào)易、市場概況,可用有關(guān)年鑒類資料;

14、查國內(nèi)外哪些大學(xué)招收電氣電子類研究生,可查大學(xué)類的機(jī)構(gòu)名錄或校方的招生簡章資料; 查“自動化”一詞的概念與含義,可用百科全書、學(xué)科術(shù)語類解釋辭典和相關(guān)手冊; 查電子產(chǎn)品的電路圖,可用相應(yīng)的電路圖集或手冊; 查錢學(xué)森的主要論著和貢獻(xiàn),可用名人錄;等等。主題分析實例 直接從檢索項目中獲取相關(guān)概念例:項目“聚乙烯的合成(synthesis of polyethylene)”主要概念:聚乙烯、合成(synthesis、polyethylene)檢索式: 聚乙烯 and 合成 Synthesis and polyethylene主題分析實例 排除重復(fù)無關(guān)的概念項目“河豚毒素的液相色譜分析”從項目名稱上看

15、,其主要概念為“河豚毒素”、“液相色譜”和“分析”,但由于液相色譜本身就是一種分析方法,它隱含了“分析”這一概念主要概念:河豚毒素、液相色譜檢索式:河豚毒素and液相色譜主題分析實例 檢索詞之間存在部分與整體關(guān)系例:1.檢索“歐洲能源”方面的文獻(xiàn)按照“歐洲”;同時包括許多國家。英 法 德 意 2.國外綜述 主題分析實例 隱性概念的處理課題:高溫下使用的不銹鋼“不銹鋼” “耐熱鋼”主題分析實例 隱性概念的處理項目“灌溉用的橡塑多孔管”Rubber-Plastic Porous Pipe For Irrigation 橡塑多孔管也稱為橡塑滲灌管,其主要原料為橡膠粉(由廢舊輪胎制得)和塑料(如粉狀聚

16、乙烯)。隱含概念:橡膠、塑料 該產(chǎn)品主要用于農(nóng)林、園藝等方面的灌溉。主要概念:橡膠、塑料、多孔管、灌溉檢索式:(橡膠or塑料or橡塑)and多孔管and灌溉2022-3-17主題分析實例 隱性概念的處理 文昌魚的遺傳多樣性顯性主題概念 :文昌魚 遺傳多樣 隱含主題概念: 文昌魚 -頭索動物 遺傳 -基因 同義 近義詞: 基因 -DNA主題分析實例 隱性概念的處理項目“唐山綜合防災(zāi)的研究” 由于唐山是一個城市,因此該項目實際上是“城市綜合防災(zāi)的研究”。 該項目針對的主要災(zāi)害是地震、洪水和火災(zāi),所采用的研究手段是決策支持系統(tǒng)和專家系統(tǒng)。防災(zāi):地震、洪水、火災(zāi)研究:決策支持系統(tǒng)、專家系統(tǒng)主要概念:城

17、市、地震、洪水、火災(zāi)、決策支持系統(tǒng)、專家系統(tǒng)檢索式:城市and(地震or洪水or火災(zāi))and(決策支持系統(tǒng)or專家系統(tǒng))主題分析實例 概念間邏輯關(guān)系的處理同義詞、近義詞是或的關(guān)系上位詞即擴(kuò)檢,如“教育心理學(xué)”下位詞即縮檢,如“智育心理”、“德育心理”、“美育心理”、“教學(xué)心理學(xué)”、“學(xué)習(xí)心理學(xué)”、“教師心理學(xué)”、“學(xué)生心理學(xué)”等。若多個下位詞都用來檢索,相對于一個上位詞來說,一般是擴(kuò)檢。一個下位詞相對于一個上位詞來說,一般是縮檢。檢索詞的選擇 規(guī)范詞 選擇檢索詞時,一般應(yīng)優(yōu)先選擇主題詞作基本檢索詞,但為了檢索的專指性也選用自由詞配合檢索。如查找“人造金剛石”的文獻(xiàn),很可能用“manmade(

18、人造) ”、“diamonds( 金剛石) ”作為檢索詞,但“人造”的實質(zhì)是“人工合成”,檢索詞的范圍可放寬至:synthetic(W)diamonds 合成金剛石;synthetic(W)gems 合成寶石;synthetic(W)materials 合成材料;synthetic(W)stones 合成石;synthetic(W)crystals 合成晶體;artificial(W)crystals 人造晶體;diamonds 金剛石。檢索策略:1+(2+3+4+5+6)*7盡量使用代碼不少文檔有自己的各種代碼,如世界專利索引(WPI) 文檔的國際專利分類號代碼IC ,世界工業(yè)產(chǎn)品市場與技術(shù)

19、概況文檔中的產(chǎn)品代碼PC 和事項代碼EC,化學(xué)文摘(CA) 中的化學(xué)物質(zhì)登記號RN 等。如查找“20 年來CA 收錄的錫酸鋇導(dǎo)電機(jī)理”的文獻(xiàn),就應(yīng)該用化學(xué)物質(zhì)登記號表示,即rn 12009-18-6 。其檢索式可為:rn 12009-18-6*electric?(w)conduct? 。而用如下檢索式則不能保證文獻(xiàn)查全:(barium (w)stannate+BaSn03)*eletrical(w)conductivity同義詞盡量選全 檢索時為保證查全率,同義詞盡量選全。同義詞選擇應(yīng)主要考慮以下幾點:同一概念的幾種表達(dá)方式,如化學(xué)分析有chemical analysis,analytical

20、 chemistry,chemical determination,composition measurement等。同一名詞的單、復(fù)數(shù)、動詞、動名詞、過去分詞形式等,如生產(chǎn)有product,production,producing,produce,productive等,詞根相同時,可用截詞符解決。同義詞盡量選全要考慮上位概念詞與下位概念詞,如水果榨汁,不僅要選fruit ,也應(yīng)選各種水果,如pear( 梨) 、orange( 橙) 、plum( 李子) 、peach( 桃) 、apple( 蘋果) 、pineapple( 菠蘿) 等,反之,如某一種水果保鮮則應(yīng)參考水果保鮮?;瘜W(xué)物質(zhì)用其名稱

21、也要用其元素符號,如氖,Nitrogen 和N 。植物和動物名,其英文和拉丁名均要選。 注意選用國外慣用的技術(shù)術(shù)語查閱外文文獻(xiàn)時,一些技術(shù)概念的英文詞若在詞表查不到,可先閱讀國外的有關(guān)文獻(xiàn),再選擇正確的檢索詞同義詞盡量選全 表示研究方法、技術(shù)方法的名詞術(shù)語,如分析(化學(xué))、針刺手法、有限元法、結(jié)構(gòu)功能法、力學(xué)性能試驗等 表示工藝方法、加工技術(shù)的名詞術(shù)語,如鑄造、鍛造、熱處理、焊接、釀造、取心鉆進(jìn)、爆破成型、激光切割等;激光加工技術(shù)在航空工業(yè)中的應(yīng)用有關(guān)激光加工;在航空工業(yè)中的應(yīng)用。第一組面:激光。從詞表中可以選取(1) laser (激光) (2) laser bean (激光束)第二組面:激

22、光加工技術(shù)。3-6 從詞表中可以選?。?)laser annealing(激光熱處理)(4)laser cutting (激光切削)(5)laser drilling (激光鉆孔)(6)laser welding (激光焊接)7-10加工技術(shù)(7)Suface alloying (表面合金化)(8)Surface hardening (表面硬化)(9)Remelting (再溶化)(10)Radiation hardening (表面硬化)第三組面:航空工業(yè)(11)aircraft (12)aircraft industry(13)aircraft equipment擬定檢索式(1+2)*(7+8+9+10)+(3+4+5+6)*(11+12+13)注意:對于復(fù)合詞可以用位置算符,截詞符。 檢索效果評價的指標(biāo)評價檢索效果的常用指標(biāo)有:查全率(Recallratio)用R表示查準(zhǔn)率(Precisionratio)用P表示漏檢率(Omissionratio)用O表示誤檢率(Fall-outratio)用F表示高查全率或查準(zhǔn)率是人們在檢索活動中通常所追求的目標(biāo)。查全率 查全率是指被檢出的相關(guān)文獻(xiàn)量與系統(tǒng)文檔中實有的相關(guān)文獻(xiàn)量之間的比率。它是衡量信息檢索系統(tǒng)收錄內(nèi)容及其用戶檢索結(jié)果的完整程度的指標(biāo)??捎孟率奖硎荆?被檢出相關(guān)文

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論