![信息檢索語言_第1頁](http://file4.renrendoc.com/view/a558371c86a904d19d496d51e79d87fa/a558371c86a904d19d496d51e79d87fa1.gif)
![信息檢索語言_第2頁](http://file4.renrendoc.com/view/a558371c86a904d19d496d51e79d87fa/a558371c86a904d19d496d51e79d87fa2.gif)
![信息檢索語言_第3頁](http://file4.renrendoc.com/view/a558371c86a904d19d496d51e79d87fa/a558371c86a904d19d496d51e79d87fa3.gif)
![信息檢索語言_第4頁](http://file4.renrendoc.com/view/a558371c86a904d19d496d51e79d87fa/a558371c86a904d19d496d51e79d87fa4.gif)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第二節(jié)信息檢索語言計算機(jī)檢索的基本原理是將用戶的檢索提問詞與數(shù)據(jù)庫文獻(xiàn)記錄中的標(biāo)引詞進(jìn)行對比,當(dāng)提問詞與標(biāo)引詞匹配一致時,即為命中,檢索成功。由此可見,能否準(zhǔn)確地檢索出用戶所需信息,關(guān)鍵在于能否準(zhǔn)確地選擇檢索詞。這里所說的“準(zhǔn)確”,是指用戶所選的檢索詞必須與數(shù)據(jù)庫中標(biāo)引文獻(xiàn)記錄所用的標(biāo)引詞一致。然而實際工作中,從事信息存儲的人員與從事信息檢索的人員絕大多數(shù)情況下不可能進(jìn)行直接的思想交流,因而會造成存儲信息與檢索信息所依據(jù)的規(guī)則不一致,導(dǎo)致存入的文獻(xiàn)檢不出。為了避免這種情況發(fā)生,在信息標(biāo)引人員與信息檢索人員之間必須制定一種共同遵守的規(guī)則,即一種約定的相同標(biāo)識和線路,這就是檢索語言。一檢索語言的含義及作用檢索語言的概念檢索語言(informationretrievallanguage),是信息存儲與檢索過程中用于描述信息特征和表達(dá)用戶信息提問的一種專門語言。所謂檢索的運(yùn)算匹配就是通過檢索語言的匹配來實現(xiàn)的。檢索語言是人與檢索系統(tǒng)對話的基礎(chǔ)。有了這種規(guī)則,信息標(biāo)引人員在進(jìn)行信息存儲的過程中,就會對原始信息進(jìn)行分析,找出其能代表信息的特征與檢索語言(檢索標(biāo)識系統(tǒng))進(jìn)行對照標(biāo)引,然后納入檢索系統(tǒng);而信息檢索人員在進(jìn)行信息檢索的過程中,則先對待查課題進(jìn)行分析,歸納出各種信息特征,使之形成能代表需要的檢索提問,然后把這些提問與檢索語言(檢索標(biāo)識系統(tǒng))進(jìn)行核對,標(biāo)引成檢索提問標(biāo)識。如果沒有檢索語言作為標(biāo)引人員和檢索人員的共同語言,就很難使得標(biāo)引人員對文獻(xiàn)信息內(nèi)容的表達(dá)和檢索人員對相同文獻(xiàn)信息內(nèi)容需求時的表達(dá)取得一致,信息檢索也就不可能順利實現(xiàn)。檢索語言的工作原理存儲:檢索系統(tǒng)對文獻(xiàn)內(nèi)容進(jìn)行分析,概括分析出若干能代表文獻(xiàn)內(nèi)容的語詞,并賦予一定的標(biāo)識,如題名、作者、主題詞等,作為存儲與檢索的依據(jù),然后納入到數(shù)據(jù)庫中。檢索:檢索人員首先要對檢索課題進(jìn)行分析,同樣形成若干能代表信息需求的語詞,然后通過檢索系統(tǒng)在數(shù)據(jù)庫中匹配具有同樣語詞和標(biāo)識的文獻(xiàn),找到自己所需的信息。檢索語言的作用保證不同標(biāo)引人員表征文獻(xiàn)信息的一致性。(2)使內(nèi)容相同及相關(guān)的文獻(xiàn)集中化。保證檢索提問與文獻(xiàn)信息標(biāo)引的一致性。(4)保證檢索者按不同需求檢索文獻(xiàn)信息時都能獲得較高的查全率和查準(zhǔn)率。二檢索語言的類型1自然語言(naturallanguage)檢索用詞是從信息內(nèi)容本身抽取的,主要依賴于計算機(jī)自動抽詞技術(shù)完成,輔以人工自由標(biāo)引(非依據(jù)詞表的標(biāo)引方法),是非規(guī)范詞(uncontrolledterm)。關(guān)鍵詞(keyword):直接從信息資源名稱、正文或文摘中抽出的代表信息主要內(nèi)容的重要語詞。題名:信息資源的名稱,如論文篇名、圖書書名、網(wǎng)站名稱等。全文:從資源的內(nèi)部內(nèi)容中自動抽取、查找,是目前網(wǎng)上各類搜索引擎使用的最多的方法。引文(quotation):將文獻(xiàn)所引用的參考文獻(xiàn)的作者、篇名、來源出版物抽取出來進(jìn)行標(biāo)引。自然語言的優(yōu)點(diǎn):新穎性強(qiáng):一旦文獻(xiàn)中出現(xiàn)某個新詞語,即可直接使用這一詞語作為檢索入口,根本無需像受控語言那樣冥思苦想地將其轉(zhuǎn)換成另一規(guī)范詞用于檢索。檢索方便:它解除了人工語言的種種限制,不需要復(fù)雜的檢索規(guī)則,使用者能較快適應(yīng),易用性強(qiáng)。標(biāo)引準(zhǔn)確度高:自然語言采用從文獻(xiàn)中抽詞標(biāo)引的方式,不容易發(fā)生誤標(biāo)引,適用于計算機(jī)檢索。只要數(shù)據(jù)庫的文獻(xiàn)標(biāo)題中含有該檢索詞,即視為命中,健全率較高。自然語言的缺點(diǎn):詞匯量太大,給詞匯的存儲、加工和檢索帶來許多操作性方面的困難。當(dāng)文獻(xiàn)的主題很明白清楚地在標(biāo)題或主題詞中表達(dá)出來時,檢索才會較成功,反之則失效。詞匯具有模糊性,另外多義、近義、同義現(xiàn)象較多,給標(biāo)引和檢索帶來困難。2人工語言由人工創(chuàng)制的,采用規(guī)范詞,用來專指某個概念或與之相應(yīng)的概念??梢詫⑼x詞、近義詞、相關(guān)詞、多義詞及縮略詞規(guī)范在一起,由人工控制。包括分類檢索語言、主題檢索語言、代碼檢索語言。(1)分類檢索語言按學(xué)科范疇及知識之間的關(guān)系列出類目,并用數(shù)字、字母符號對類目進(jìn)行標(biāo)識的一種語言體系,也稱分類法。中國圖書館圖書分類法美國國會圖書館分類法杜威十進(jìn)位分類法IPC國際專利分類表下面以《中圖法》為例說明體系分類法的結(jié)構(gòu)與功能?!吨袌D法》是體系分類法的典型代表,是現(xiàn)今國內(nèi)圖書情報部門普遍使用的一部分類法。《中圖法》的類目表由基本大類、簡表、詳表和復(fù)分表組成?;敬箢愂欠诸惙ㄖ械牡谝患夘惸浚菍W(xué)科領(lǐng)域的基本劃分?!吨袌D法》共有二十二個基本大類,每個大類都用一個英文字母表示。如下所示:A馬克思主義、列寧主義、毛澤東思想、鄧小平理論B哲學(xué)宗教C社會科學(xué)總論D政治法律E軍事F經(jīng)濟(jì)G文化科學(xué)教育體育H語言文字I文學(xué)J藝術(shù)K歷史地理N自然科學(xué)總論O數(shù)理科學(xué)化學(xué)P天文學(xué)地球科學(xué)Q生物科學(xué)R醫(yī)藥衛(wèi)生S農(nóng)業(yè)科學(xué)T工業(yè)技術(shù)U交通運(yùn)輸V航空航天X環(huán)境科學(xué)勞動保護(hù)科學(xué)Z綜合性圖書簡表又稱為基本類目表,是分別對每個基本大類,依據(jù)它的某些屬性,作進(jìn)一步劃分后而形成的二、三級類目表。如Q生物科學(xué)Q1普通生物學(xué)Q2細(xì)胞學(xué)Q3遺傳學(xué)Q4生理學(xué)Q5生物化學(xué)III詳表又稱主表或正表,由簡表進(jìn)一步細(xì)分而成的最小概念性分類表。如:I文學(xué)I0 文學(xué)理論I1 世界文學(xué)I2 中國文學(xué)I20I21 作品集I22 詩歌、韻文I23 戲劇文學(xué)I24 小說I242古代至近代作品I246現(xiàn)代作品I247當(dāng)代作品I247.4章回小說I247.5新體長篇、中篇小說I247.7新體短篇小說I247.8故事、微型小說I25 報告文學(xué)I26 散文I3/7各國文學(xué)復(fù)分表是供主表中某些類目共同細(xì)分而從主表中抽出的一部分類目表。使用體系分類檢索語言編制的分類表按學(xué)科或?qū)I(yè)集中文獻(xiàn)信息,以學(xué)科概念的上下左右關(guān)系反映事物的派生、隸屬平行的關(guān)系,較好地體現(xiàn)了學(xué)科的系統(tǒng)性,能較好地滿足族性檢索的要求。其次,體系分類法用字母和數(shù)字表示類目便于組織文獻(xiàn)排架及目錄系統(tǒng),又適于文獻(xiàn)信息的收集和編制手工檢索工具。但由于體系分類法使用的是號碼式語言作檢索標(biāo)識,一方面不直觀,另一方面在檢索文獻(xiàn)信息時,必須將文字主題轉(zhuǎn)換成分類標(biāo)識,在轉(zhuǎn)換過程中,容易產(chǎn)生差錯,造成誤檢或漏檢,影響檢索效率。此外,體系分類法采用的是先組式檢索語言,因此,增補(bǔ)新概念困難,修改不及時,不適應(yīng)新興學(xué)科和邊緣學(xué)科的檢索。(2)主題檢索語言:主題檢索語言是以詞語作為表達(dá)主題概念的標(biāo)識,按字順編排的檢索語言。標(biāo)題詞語言是最早使用的一種主題語言。它以規(guī)范化的自然語義作為標(biāo)識來表達(dá)文獻(xiàn)涉及的主題概念,表達(dá)主題的詞語稱為標(biāo)題。單元詞語言是從文獻(xiàn)內(nèi)容中抽選出來的最基本的詞匯、將代表最一般、最基本的、不可再分割的概念的詞作為單獨(dú)標(biāo)引文獻(xiàn)的單位。敘詞語言是從自然語言中優(yōu)選出來并經(jīng)過規(guī)范化處理的名詞術(shù)語。采用表示單元概念的規(guī)范化語詞的組配對文獻(xiàn)內(nèi)容主題進(jìn)行描述,也是目前使用最廣泛的主題語言。主題語言舉例:下例為EBSCO出版公司BusinessSourcePremier數(shù)據(jù)庫中選定“建議主題語”(據(jù)2008年數(shù)據(jù))□魁^0切購□ELECTRONI匚infunriBti曲怕sow"能am恤ig□□魁^0切購□ELECTRONI匚infunriBti曲怕sow"能am恤ig□理FORMATIONst口rag&retriMnlsystemsIIFOFF二TIO【i 七□DNF0莊MATIQN.s匚iEneNarrov/erTerms□跑就;E律triEMl□斟FORM!ATIONservit^|UJTER口ET霽目「匚hingRelatedTermsScopeNoteBroaderTermsHereareenteredgeneralv;orksonwarchingforandretrievingdatafromaninformationstoragestructure,faciJjty,orservice.Useonlyif7anarrowertermdoesnotappEy(e.g,r"Databasesearchingr"■'Electronicinformationresourcesearching/''Imager-etrievalr""Siformaticinsendees/1"Informationstorage81retrieval"or"Internetwerching'1).[EPC]|負(fù)MESSt°infcirmation□DXUhlERTATIO口(3)代碼檢索語言就事物的某一方面特征,用某種代碼系統(tǒng)來加以標(biāo)引和排列,目前主要應(yīng)用于化學(xué)領(lǐng)域。例如。化合物的分子式索引系統(tǒng)、環(huán)狀化合物的環(huán)系索引系統(tǒng)等。3人工語言與自然語言的關(guān)系與自然語言相比較,人工語言的檢索效率要高于自然語言,查全率和差準(zhǔn)率都比較高,但人工語言是基于印刷性資源產(chǎn)生的,對標(biāo)引和檢索來說,標(biāo)引工作量大,需要不斷維護(hù),管理成本高,用戶也不易掌握。因此,在數(shù)字資源飛速發(fā)展的今天,僅使用人工語言是遠(yuǎn)遠(yuǎn)不夠的。自然語言由于主要由系統(tǒng)自動標(biāo)引完成,靈活、新穎、檢索入口多、專
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030全球桌面排版系統(tǒng)行業(yè)調(diào)研及趨勢分析報告
- 2025-2030全球醫(yī)療設(shè)備安全解決方案行業(yè)調(diào)研及趨勢分析報告
- 2025年全球及中國一次性甲狀腺穿刺器行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025-2030全球亞歷山大變石激光器行業(yè)調(diào)研及趨勢分析報告
- 2025廣州市農(nóng)村集體經(jīng)濟(jì)承包合同管理規(guī)定
- 勞務(wù)派遣合同協(xié)議模板范本
- 2025地區(qū)展柜、物料定作布展合同
- 個人連帶擔(dān)保合同
- 房屋場地租賃合同
- 砌筑勞務(wù)分包合同范本
- 《中國古代寓言》導(dǎo)讀(課件)2023-2024學(xué)年統(tǒng)編版語文三年級下冊
- 五年級上冊計算題大全1000題帶答案
- 工程建設(shè)行業(yè)標(biāo)準(zhǔn)內(nèi)置保溫現(xiàn)澆混凝土復(fù)合剪力墻技術(shù)規(guī)程
- 液壓動力元件-柱塞泵課件講解
- 人教版五年級上冊數(shù)學(xué)脫式計算100題及答案
- 屋面細(xì)石混凝土保護(hù)層施工方案及方法
- 2024年1月山西省高三年級適應(yīng)性調(diào)研測試(一模)理科綜合試卷(含答案)
- 110kv各類型變壓器的計算單
- 5A+Chapter+1+Changes+at+home+課件(新思維小學(xué)英語)
- 安徽省2023年中考數(shù)學(xué)試卷(附答案)
- 護(hù)工(陪護(hù))培訓(xùn)教材(完整版)資料
評論
0/150
提交評論