![第三章計算機檢索原理_第1頁](http://file4.renrendoc.com/view/75dbc4da6564acf1f975c828d46a010e/75dbc4da6564acf1f975c828d46a010e1.gif)
![第三章計算機檢索原理_第2頁](http://file4.renrendoc.com/view/75dbc4da6564acf1f975c828d46a010e/75dbc4da6564acf1f975c828d46a010e2.gif)
![第三章計算機檢索原理_第3頁](http://file4.renrendoc.com/view/75dbc4da6564acf1f975c828d46a010e/75dbc4da6564acf1f975c828d46a010e3.gif)
![第三章計算機檢索原理_第4頁](http://file4.renrendoc.com/view/75dbc4da6564acf1f975c828d46a010e/75dbc4da6564acf1f975c828d46a010e4.gif)
![第三章計算機檢索原理_第5頁](http://file4.renrendoc.com/view/75dbc4da6564acf1f975c828d46a010e/75dbc4da6564acf1f975c828d46a010e5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第三章計算機檢索原理計算機檢索概述1.計算機檢索的發(fā)展2.計算機檢索的原理3.文獻數(shù)據(jù)庫簡介4.計算機檢索中常用的運算符5.計算機檢索策略的制定及調(diào)整1.計算機檢索的發(fā)展歷史計算機檢索從產(chǎn)生到現(xiàn)在經(jīng)歷了4個階段:
(1)20世紀50年代,以批量處理、脫機檢索為特點的第一階段(美國海軍兵器中心NOTS,4000條記錄,“與”,不能人機對話);(2)20世紀60年代末,聯(lián)機檢索階段(出現(xiàn)網(wǎng)絡(luò),dialog,人機對話);(3)20世紀70-80年代,聯(lián)機檢索與光盤檢索共同發(fā)展階段;
前三階段以文獻數(shù)據(jù)庫檢索為主;(4)20世紀90年代,基于互連網(wǎng)的數(shù)據(jù)庫檢索和Internet網(wǎng)上信息檢索并重的第四階段。因特網(wǎng)成為重要的電子信息源.2.計算機檢索的原理
計算機檢索的原理就是利用計算機將用戶所提出的檢索標識與檢索系統(tǒng)中的標引標識進行比較,將匹配的文獻視為命中。
檢索標識(檢索式)是檢索者根據(jù)對課題的分析,制定出的既能反映課題的要求,又符合計算機檢索要求的檢索語言,其中包括適當?shù)臋z索詞,以及合適的邏輯算符和位置算符。例:朱萬成2008年論文,題目是“動態(tài)荷載作用下混凝土破裂的數(shù)值模擬”。AU=朱萬成andTI=動態(tài)荷載作用下混凝土破裂的數(shù)值模擬(CNKI)3.文獻數(shù)據(jù)庫簡介3.1數(shù)據(jù)庫的定義和類型3.1.1定義:按一定方式存儲的相互關(guān)聯(lián)的數(shù)據(jù)集合。它是檢索工具的一種:CNKI/萬方。3.1.2數(shù)據(jù)庫類型:文獻目錄型數(shù)據(jù)庫(bibliographicdatabase).也稱為書目數(shù)據(jù)庫或者目錄數(shù)據(jù)庫,是二次文獻數(shù)據(jù)庫,包含文摘數(shù)據(jù)庫、題錄數(shù)據(jù)庫、索引數(shù)據(jù)庫、各國的MARC格式的圖書目錄。如EI,SCIE等。指南數(shù)據(jù)庫(referencedatabases).也稱指示性數(shù)據(jù)庫,其內(nèi)容是關(guān)于某些機構(gòu)、人物、出版物、項目、程序、活動等對象的簡要描述,是指引用戶從其他有關(guān)的信息源獲取更詳細的信息的一類數(shù)據(jù)庫。如中國人物數(shù)據(jù)庫、Dialog系統(tǒng)中的鄧白氏國際市場情報庫。數(shù)值數(shù)據(jù)庫(numericdatabase).又稱數(shù)據(jù)型數(shù)據(jù)庫,此類數(shù)據(jù)庫存儲的均為數(shù)據(jù)信息。如中國統(tǒng)計年鑒\Dialog系統(tǒng)中的公司披露數(shù)據(jù)庫。全文型數(shù)據(jù)庫(full-textdatabase)。是指儲存的數(shù)據(jù)是文獻全文或者其主要部分是文獻全文的一種數(shù)據(jù)庫。如中國期刊全文數(shù)據(jù)庫,重慶維普期刊全文庫。3.2數(shù)據(jù)庫的構(gòu)成
由文檔、記錄、字段構(gòu)成。(1)文檔(file),若干個邏輯記錄構(gòu)成的信息集合。文檔是書目數(shù)據(jù)庫和文獻檢索系統(tǒng)中數(shù)據(jù)組織的基本形式。根據(jù)數(shù)據(jù)庫的內(nèi)部結(jié)構(gòu),一個數(shù)據(jù)庫至少包含一個順排文檔和一個倒排文檔。順排文檔:是按文獻記錄的輸入順序(即文獻序號)排列的文檔。在順排文檔中,記錄按順序一個接一個地存放,一個存取號對應(yīng)一條記錄,存取號愈大,對應(yīng)的記錄就愈新。由于它存貯有記錄的最完整的信息,所以,通常又把它稱之為主文檔(MasterFile)。倒排文檔:把順排文檔中的標引詞抽出,按標引詞的字母順序依次排列而成的文檔。倒排文檔實際上相當于印刷型檢索工具中的輔助索引。(2)記錄(record),記錄是若干個字段組成的文獻單元。是對某一實體屬性進行描述的結(jié)果。一個數(shù)據(jù)庫由若干條記錄構(gòu)成。在全文數(shù)據(jù)庫中,一個記錄相當于一篇完整的文獻;在書目數(shù)據(jù)庫中,一個記錄相當于一條文摘或題錄。(3)字段(field),是文獻著錄的基本單元,用來描述文獻主題內(nèi)容相關(guān)的某種屬性。一個字段有時還可分為幾個子字段(Subfield)。數(shù)據(jù)庫的字段可分為基本字段和輔助字段:基本字段主要是描述文獻內(nèi)容特征的字段,如篇名、文摘、敘詞、自由標引詞等字段;輔助字段主要是描述文獻外表特征的字段,如著者、機構(gòu)名稱、語種、文獻來源等字段。4.計算機檢索中常用的運算符4.1邏輯算符4.1.1邏輯“與”。用“and”或者“*”表示,是用以組配不同的概念邏輯符號,表示“and”連接的兩個詞在一個記錄中必須同時出現(xiàn)。如:LibraryandComputerLibraryComputer4.1.2邏輯“或”。用“or”或“+”表示。是用來組配相同或相近概念的邏輯算符,表示在記錄中出現(xiàn)其一即可作為命中。如:fiberorfibrefiberfibre4.1.3邏輯“非”。在系統(tǒng)中用“not”或者“-”表示,排除某個概念的邏輯算符,如:PatentnotJapan,表示檢中的記錄中包含Patent,不包含Japan。
PatentJapan4.2優(yōu)先算符
優(yōu)先算符用()表示,在含有多個運算的檢索式中,可以用()將需要優(yōu)先運算的部分括上,系統(tǒng)會優(yōu)先運算()中的部分,然后在按照not,and,or的順序進行運算。如:S
(fiberorfibre)andoptical
4.3截詞符和屏蔽符4.3.1.截詞符:用“?”或者“*”,不同數(shù)據(jù)庫有不同的規(guī)定4.3.2
屏蔽符:“?”作為屏蔽符,加在單詞中間,可以代表1個字符的變化。如:wom?n,表示women和woman。詞中使用幾個屏蔽符,則代表有幾個字符的變化。有的數(shù)據(jù)庫使用“#”4.4位置算符位置算符是用來規(guī)定檢索詞之間的位置關(guān)系的算符:4.4.1.(w),(nW),意思是with,表示它連結(jié)的兩個詞前后位置確定,中間插詞不能超過0-n個。(w)也寫作(),實際上是(0W),表示連接的兩個詞必須緊密相連,中間不能插詞,但是中間可以加連字符。如:卡車S
motor(W)lorry可以檢出motor-lorry和motorlorry。4.4.2.(N),(nN),意思是near,表示它連結(jié)的兩個詞前后次序不限,中間可以插入n個詞。(N)實際上是(0N),表示連結(jié)的兩個詞中間不得插入其他詞。如:S
corrosion(N)resist?可以檢索出corrosionresistance;corrosionresistant;resistingcorrosion;
S
protect?(2N)forest可以檢出protectionofforest,forestprotection,protectingtheforest等。
4.4.3
(S),意思是subfield或sentence,它表示連結(jié)的兩個檢索詞要在同一個子字段或同一句話中出現(xiàn)。如:
S
computer(s)library要求computer和library在同一個句子中出現(xiàn)
Scs=shenyang(s)university
要求shenyang和university在cs字段中的同一個子字段出現(xiàn)。4.4.4(F),意思是field,表示連結(jié)的兩個詞要在同一個字段中出現(xiàn)。如:S
fieldbus(f)multimedia要求fieldbus和multimedia在同一個字段中出現(xiàn)。以上是計算機中常用的位置算符,但并非所有的系統(tǒng)都可用,不同的檢索系統(tǒng)有其自己的規(guī)定。5.計算機檢索策略的制定及調(diào)整1.概念的選?。?)核心概念的選取:
變溫條件下煤層損傷與瓦斯運移的熱流固耦合模型
a.選取語言最小單位;b.切分詞(拆詞);C.同義詞、近義詞
(2)發(fā)掘隱含概念:石質(zhì)文物的保護—石雕、石刻、石碑…(3)考慮同義詞包括術(shù)語和俗稱:保護conservation,preservation,protection
(鋁礦or鋁土礦or鋁礦石or鋁土礦石or一水鋁石型鋁土礦or一水硬鋁石)(4)排除不必要的概念:使用專業(yè)數(shù)據(jù)庫或通用詞(5)使用準確的代碼:標準號、專利號、產(chǎn)品代碼借助工具找出核心概念同義詞的方法在檢索出來的文獻中尋找中文同義詞:百度百科CNKI工具書與知識元搜索讀秀知識搜索英文翻譯:金山詞霸GoogleCNKI翻譯助手百度百科CNKI工具書與知識元搜索CNKI工具書與知識元搜索CNKI工具書與知識元搜索CNKI工具書與知識元搜索讀秀知識搜索讀秀知識搜索CNKI翻譯助手2.數(shù)據(jù)庫的選擇(1)合適的主題范疇(社科、工程技術(shù)、化學、醫(yī)學…)(2)合適的數(shù)據(jù)庫類型、年度范圍(專利、標準、期刊、書…)3.檢索策略的制定及調(diào)整(1)擬定檢索式:變溫條件下煤層損傷與瓦斯運移的熱流固耦合模型
(非等溫or變溫)and(煤層or煤巖體)and(損傷or破壞or損壞)and
(瓦斯or煤層氣or煤氣)and(運移or漂移or運動)and熱流固(2)如果檢索結(jié)果太少,適當調(diào)整策略,以擴大檢索范圍(增加同義詞或隱含概念)a.熱流固有沒有同義詞熱-流-固;b.去掉熱流固;c.and改為or:((煤層or煤巖體)and
(損傷or破壞or損壞)or(瓦斯or煤層氣or煤氣)and
(運移or漂移or運動))d.去掉第一個檢索詞(非等溫or變溫)注意:盡量從概念和邏輯關(guān)系上找原因,或者“精確”匹配改為“模糊”匹配(3)如果檢索結(jié)果太多,也要適當調(diào)整策略,以縮小檢索范圍(增加概念(檢索詞)或用字段、年代等限制)。
(非等溫or變溫)and(煤層
/主題or煤巖體/主題)
and(損傷or破壞or損壞)and(瓦斯or煤層氣)/主題
and(運移or漂移or運動)and熱流固and(耦合模型or數(shù)學模型or仿真or數(shù)值模擬)要把檢索式變成數(shù)據(jù)庫認識的檢索式:第一檢索式結(jié)果為0增加檢索詞熱-流-固,三個檢索式都是0去掉(變溫+非等溫)條件:2條?;蛘呷サ簟盁崃鞴獭备拍?/p>
SU=(非等溫+變溫)and(SU=(煤層+煤巖體)andSU=(損傷+破壞+損壞)orSU=(瓦斯+煤層氣+煤氣)andSU=(運移+漂移+運動))5條同時去掉非等溫和熱流固概念
(SU=(煤層+煤巖體)andSU=(損傷+破壞+損壞)andSU=(瓦斯+煤層氣+煤氣)andSU=(運移+漂移+運動))108條發(fā)現(xiàn)一個新詞:煤層變形把“變形”加進去,結(jié)果變得非常多,251條
(SU=(煤層+煤巖體)andSU=(損傷+破壞+損壞+變形)andSU=(瓦斯+煤層氣+煤氣)andSU=(運移+漂移+運動))再檢索(變溫+非等溫)*(煤層+煤巖體)*(瓦斯+煤層氣+煤氣):18條,發(fā)現(xiàn)有一個新詞:溫度變化把“溫度變化”加進去,有79條記錄,用這種方法再找找有沒有“運移”的同義詞。把“溫度變化”和“變形”同時加進去SU=(非等溫+變溫+溫度
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中圖版歷史七年級上冊第14課《兩漢科技與文化》聽課評課記錄
- 八年級政治下冊第五單元我是中國公民5.2《公民的權(quán)利和義務(wù)》活動探究型聽課評課記錄(粵教版)
- 七年級數(shù)學上冊第3章實數(shù)3.1平方根聽評課記錄(新版浙教版)
- 人教版道德與法治八年級下冊3.1《公民基本權(quán)利》聽課評課記錄
- 粵教版地理七年級下冊7.5《日本》聽課評課記錄2
- 教科版道德與法治九年級上冊第十課《走向小康》聽課評課記錄
- 冀教版數(shù)學九年級上冊26.4《解直角三角形的應(yīng)用》聽評課記錄
- 人教版七年級數(shù)學下冊9.3.1《解一元一次不等式組》聽評課記錄
- 湘教版數(shù)學九年級下冊2.3《垂徑定理》聽評課記錄
- 人教版地理七年級下冊《第二節(jié) 東南亞》聽課評課記錄3
- 婦科惡性腫瘤免疫治療中國專家共識(2023)解讀
- 2024年浪潮入職測評題和答案
- 小班數(shù)學《整理牛奶柜》課件
- 皮膚感染的護理診斷與護理措施
- 中考語文真題雙向細目表
- 2024年江蘇省對口單招英語試卷及答案
- 藥品集采培訓課件
- 高中物理考試成績分析報告
- 部編版小學語文三年級上冊同步練習試題含答案(全冊)
- 血性胸水的護理課件
- 醫(yī)共體人財物管理系統(tǒng)需求說明
評論
0/150
提交評論