信息檢索原理與檢索語(yǔ)言.ppt_第1頁(yè)
信息檢索原理與檢索語(yǔ)言.ppt_第2頁(yè)
信息檢索原理與檢索語(yǔ)言.ppt_第3頁(yè)
信息檢索原理與檢索語(yǔ)言.ppt_第4頁(yè)
信息檢索原理與檢索語(yǔ)言.ppt_第5頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三章 社科信息檢索原理與技術(shù),第一節(jié) 信息檢索原理與檢索語(yǔ)言,第二節(jié) 信息檢索技術(shù),第一節(jié) 信息檢索原理與檢索語(yǔ)言 The Principles and Language of Information Retrieval,信息檢索原理圖,A.信息存儲(chǔ)過(guò)程:將大量分散的文獻(xiàn)信息搜集起來(lái),根據(jù)其內(nèi)容特征或外表特征進(jìn)行標(biāo)引,形成表征這些文獻(xiàn)信息的特征標(biāo)識(shí),并存儲(chǔ)在一定的載體上,成為有查詢功能的檢索工具。 B.信息檢索過(guò)程:用戶根據(jù)自己的信息需求,提出檢索提問(wèn),然后使用有關(guān)的標(biāo)引語(yǔ)言(也稱檢索語(yǔ)言)將擬定的檢索提問(wèn)規(guī)范成檢索標(biāo)識(shí),用于檢索的過(guò)程。,1.信息檢索原理,簡(jiǎn)言之,信息檢索原理就是用戶將信息需求轉(zhuǎn)變?yōu)闄z索系統(tǒng)所能識(shí)別的檢索標(biāo)識(shí),與信息檢索系統(tǒng)中存儲(chǔ)的信息特征進(jìn)行逐一比對(duì),兩者完全一致或基本一致時(shí),即為檢索命中信息,可按用戶要求從檢索系統(tǒng)中輸出。其檢索結(jié)果既可能是用戶需要的最終信息(一次信息),也可能是用戶需要的信息線索(二次信息),用戶可據(jù)此線索進(jìn)一步進(jìn)行判斷、篩選,以獲取所需要的最終信息。,概念: 信息檢索語(yǔ)言就是信息組織和信息檢索時(shí)所使用的語(yǔ)言(包括自然語(yǔ)言)。信息檢索語(yǔ)言是文獻(xiàn)信息標(biāo)引的規(guī)則和標(biāo)準(zhǔn),標(biāo)引人員可用它來(lái)標(biāo)引文獻(xiàn)以便將文獻(xiàn)整理、加工、存儲(chǔ)于檢索系統(tǒng)中,同時(shí),檢索人員可用它來(lái)表達(dá)檢索課題信息的內(nèi)容,以便把特定文獻(xiàn)從檢索系統(tǒng)中檢索出來(lái)。 因此,檢索語(yǔ)言就是一種把文獻(xiàn)的存儲(chǔ)與檢索聯(lián)系起來(lái),把標(biāo)引人員和檢索人員溝通起來(lái)的約定人工語(yǔ)言。,2.信息檢索語(yǔ)言,功能: 對(duì)文獻(xiàn)的信息內(nèi)容及其外表特征加以規(guī)范化的標(biāo)引 對(duì)內(nèi)容相同及相關(guān)的文獻(xiàn)信息加以集中或揭示其相關(guān)性 可使文獻(xiàn)信息的存儲(chǔ)集中化、系統(tǒng)化、組織化,便 于用戶按一定的排列次序進(jìn)行有序化檢索。 便于將標(biāo)引用語(yǔ)和檢索用語(yǔ)進(jìn)行相符性比較,例如:有三篇文獻(xiàn)篇名如下: 文獻(xiàn)1:A Model of multimedia information retrieval 文獻(xiàn)2:The Information retrieval in chemistry WWW server 文獻(xiàn)3:ERIC resources 在對(duì)信息存儲(chǔ)的過(guò)程中,對(duì)這三篇文獻(xiàn)內(nèi)容分別進(jìn)行了分析,并使用檢索語(yǔ)言對(duì)其進(jìn)行標(biāo)引,標(biāo)引結(jié)果為: 文獻(xiàn)1:篇名(title): A Model of multimedia information retrieval 主題(subject): information retrieval, multimedia computer applications,文獻(xiàn)2: 篇名(title): The Information retrieval in chemistry WWW server 主題(subject): chemistry, educational materials 文獻(xiàn)3: 篇名(title): ERIC resources 主題(subject): educational materials 標(biāo)引后這三篇文獻(xiàn)分別被存儲(chǔ)進(jìn)數(shù)據(jù)庫(kù)。,在信息檢索過(guò)程中: 如果用戶輸入“information retrieval”一詞,并將檢索范圍限定在篇名中,則文獻(xiàn)1與文獻(xiàn)2符合用戶要求,成為檢索結(jié)果。 如果用戶輸入“information retrieval”一詞,并將檢索范圍限定在主題中,則只有文獻(xiàn)1符合用戶要求,成為檢索結(jié)果 如果用戶輸入“educational materials”一詞,并將檢索范圍限定在主題中,則文獻(xiàn)2和文獻(xiàn)3符合用戶要求,成為檢索結(jié)果。,在上述例子中,“information retrieval”、 “educational materials”都是檢索語(yǔ)言,篇名和主題則 是檢索語(yǔ)言的標(biāo)識(shí),檢索系統(tǒng)就是通過(guò)他們將用戶需求與 信息內(nèi)容進(jìn)行運(yùn)算匹配,最終找到檢索結(jié)果的。 由這個(gè)例子可以看出,檢索語(yǔ)言的主要作用就是對(duì)文 獻(xiàn)的外部特征和內(nèi)容進(jìn)行多層次描述,提供多種檢索途徑 ,以方便用戶從不同角度檢索查找。,(1)分類檢索語(yǔ)言 文獻(xiàn)分類的實(shí)質(zhì)是按照知識(shí)體系分類和概念邏輯的方法,對(duì)文件的信息進(jìn)行區(qū)分和歸類。分類語(yǔ)言的詞表即為分類表,它是由眾多類目按照一定的知識(shí)分類和概念邏輯秩序,并考慮文獻(xiàn)分類的需要而構(gòu)成的體系。其中,類目是組成分類語(yǔ)言的基本單元,每一個(gè)類目都是一個(gè)相同事物構(gòu)成的集合,體現(xiàn)單一的概念意義或復(fù)合的概念意義,表達(dá)這些概念意義的自然語(yǔ)言詞語(yǔ)為類目名稱或類名。,2.1 檢索語(yǔ)言的分類, 由于分類語(yǔ)言通常采用字母或數(shù)字符號(hào)來(lái)構(gòu)詞,因而表達(dá)這些概念意義的分類語(yǔ)言詞語(yǔ)就是類目的號(hào)碼,即類號(hào),通過(guò)自然語(yǔ)言的類名,可以直接的理解類目的含義,借助形勢(shì)化符號(hào)的類號(hào),可以系統(tǒng)的揭示與組織文獻(xiàn)信息。 文獻(xiàn)分類的意義在于,根據(jù)文獻(xiàn)信息的內(nèi)容特征和分類詞表,把相同內(nèi)容的文獻(xiàn)集中起來(lái),同時(shí),又把不同內(nèi)容的文獻(xiàn)信息區(qū)別開(kāi)來(lái),以實(shí)現(xiàn)相關(guān)集中的功能。,分類檢索語(yǔ)言的類型有: (1)體系分類法 (2)組配分類法 (3)混合式分類法 使用較多的是體系分類法,其主要特點(diǎn)是按學(xué)科、專業(yè)集中文獻(xiàn),并從知識(shí)分類角度揭示各類文獻(xiàn)在內(nèi)容上的區(qū)別和聯(lián)系,提供從學(xué)科分類檢索文獻(xiàn)信息的途徑。體系分類法具有按學(xué)科或?qū)I(yè)集中系統(tǒng)地向人們揭示文獻(xiàn)資料內(nèi)容的功能,這對(duì)于希望系統(tǒng)掌握和利用某一專業(yè)范圍的文獻(xiàn)而言,無(wú)疑是有效的。,中國(guó)圖書(shū)館分類法是國(guó)家推薦統(tǒng)一使用的分類法,被許多檢索工具采用或改編,分5大部類22大類,類號(hào)采用漢語(yǔ)拼音字母與阿拉伯?dāng)?shù)字的混合號(hào)碼,用一個(gè)字母代表一個(gè)大類,以字母的順序反映大類的序列,在字母后用數(shù)字表示大類下類目的劃分,數(shù)字的設(shè)置盡可能代表類的級(jí)位,并基本上遵從層累制的原則。 例如: F經(jīng)濟(jì)(大類) F2- 經(jīng)濟(jì)計(jì)劃與管理(二級(jí)類) F25 -物資經(jīng)濟(jì)(三級(jí)類) F250 -物資經(jīng)濟(jì)理論(四級(jí)類) F251.1 -物資管理(五級(jí)類).,由此可見(jiàn),按體系分類法檢索的長(zhǎng)處是,能滿足從學(xué)科或?qū)I(yè)角度廣泛地進(jìn)行課題檢索的要求,達(dá)到較高的查全率。查準(zhǔn)率的高低與類目的粗細(xì)多少有關(guān),類目越細(xì),專指度越高,查準(zhǔn)率也越高。但類表的篇幅是有限的,類目不可能設(shè)計(jì)得很細(xì)。因此,分類法只是一種“族性檢索”,而非“特性檢索”。,概念:主題語(yǔ)言是以自然語(yǔ)言的語(yǔ)詞為字符,以規(guī)范化或未經(jīng)規(guī)范化的名詞術(shù)語(yǔ)為基本詞匯,以概念之間的形式邏輯作為語(yǔ)法和構(gòu)詞法,用語(yǔ)詞字順排列,主題概念以參照系統(tǒng)顯示概念之間關(guān)系的一類檢索語(yǔ)言。主題詞又稱敘詞,在標(biāo)引和檢索中用以表達(dá)文獻(xiàn)主題的規(guī)范化的詞或詞組。 類型: 主題檢索語(yǔ)言包括標(biāo)題詞語(yǔ)言、單元詞語(yǔ)言、敘詞語(yǔ)言和關(guān)鍵詞語(yǔ)言,它們可統(tǒng)稱為主題法系統(tǒng),(2)主題語(yǔ)言,選擇主題詞的原則,實(shí)用性原則: 所選擇的主題詞應(yīng)能夠滿足標(biāo)引文獻(xiàn)和檢索文獻(xiàn)的要求。 準(zhǔn)確性原則: 所選擇的主題詞應(yīng)能夠準(zhǔn)確地表達(dá)概念的含義。 通用性原則: 應(yīng)選擇通用的為人們普遍接受的詞語(yǔ)作為主題詞。,概念: 就是將千百年來(lái)存在于人類社會(huì)生活中自然形成的非正式語(yǔ)言,通過(guò)一定的語(yǔ)言處理技術(shù),使之應(yīng)用于信息檢索系統(tǒng)的信息組織、標(biāo)引與輸出。而就信息用戶而言,自然語(yǔ)言檢索則主要反映在提問(wèn)輸入和對(duì)話接口的語(yǔ)言檢索方式上。 特點(diǎn): 對(duì)信息檢索領(lǐng)域來(lái)說(shuō),采用自然語(yǔ)言的方式,可以有效解決潛在語(yǔ)義表達(dá)上的不匹配因素,自然語(yǔ)言的語(yǔ)言思維形式,對(duì)信息的表達(dá)對(duì)應(yīng)性較強(qiáng),因而有利于形成在語(yǔ)言無(wú)損耗意義上的排序輸出問(wèn)題。,(3)自然語(yǔ)言,自然語(yǔ)言(natural language)檢索用詞是從信息內(nèi)容本身抽取的,主要依賴于計(jì)算機(jī)自動(dòng)抽詞技術(shù)完成,輔以人工自由標(biāo)引,是非規(guī)范詞(uncontrolled term)。 自然語(yǔ)言的標(biāo)識(shí)包括: (1)關(guān)鍵詞(keyword):直接從信息資源名稱、正文或文摘中抽出的代表信息主要內(nèi)容的重要語(yǔ)詞。這部分有時(shí)由人工自由標(biāo)引進(jìn)行,如期刊論文中的作者關(guān)鍵詞,大部分由計(jì)算機(jī)標(biāo)引系統(tǒng)自動(dòng)完成。 (2)題名:信息資源的名稱,如論文篇名、圖書(shū)書(shū)名、網(wǎng)站名稱等。,(3)全文: 從資源的全部?jī)?nèi)容中自動(dòng)抽取、查找,是目前網(wǎng)上各類搜 索引擎使用得最多的方法。 (4)引文: 將文獻(xiàn)所引用的參考文獻(xiàn)的作者、篇名、來(lái)源出版物抽取 出來(lái)進(jìn)行標(biāo)引。 此外,還有責(zé)任人(作者)、摘要

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論