信息檢索的小

上傳人：李*** IP屬地：遼寧上傳時(shí)間：2021-12-22 格式：DOC 頁(yè)數(shù)：13 大小：36.50KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩8頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、信息檢索的小信息檢索，是指將信息按一定的方式組織和存儲(chǔ)起來(lái)，并根據(jù)信息用戶的需要找出有關(guān)的信息過(guò)程。以下是小編整理的信息檢索的小，歡迎閱讀。信息檢索的小1圖書(shū)情報(bào)的信息檢索也就是把信息進(jìn)行整理、排序、歸納以及存儲(chǔ)起來(lái)，這樣不僅能夠展現(xiàn)情報(bào)的內(nèi)在特征，還能夠反應(yīng)情報(bào)的外在形式。眾所周知，傳統(tǒng)的圖書(shū)情報(bào)搜索模式已不能夠適應(yīng)現(xiàn)代社會(huì)的發(fā)展，現(xiàn)在人們更加的追求智能化的信息檢索方式，在信息檢索的過(guò)程中，把高科技的技術(shù)以及方法引入到圖書(shū)情報(bào)管理工作中，確保圖書(shū)情報(bào)更加的真實(shí)科學(xué)。一、我國(guó)信息檢索在圖書(shū)情報(bào)應(yīng)用中存在的問(wèn)題1. 信息檢索技術(shù)不完善目前，信息檢索在圖書(shū)情報(bào)中的應(yīng)用仍然不是很完善，其

2、中主要包括以下兩個(gè)方面：一方面是知識(shí)的獲取和技術(shù)的表達(dá)存在一些問(wèn)題。把復(fù)雜多樣的專業(yè)知識(shí)形成一個(gè)比較系統(tǒng)的、有規(guī)律的模式，往往是比較復(fù)雜的。另一方面是由于語(yǔ)言處理方面的局限，在進(jìn)行檢索工作的時(shí)候，檢索者的文化素養(yǎng)以及專業(yè)知識(shí) 往往直接影響著檢索所出現(xiàn)的結(jié)果。因此若想使計(jì)算機(jī)能夠準(zhǔn)確的把握檢索者輸入的各種語(yǔ)言方式，將大大提高檢索的效率，然而在實(shí)際的檢索過(guò)程中，由于計(jì)算機(jī)只能夠接收一些簡(jiǎn)單的、規(guī)范的語(yǔ)句，大大降低了檢索效率。2. 信息檢索系統(tǒng)本身的障礙檢索者在進(jìn)行圖書(shū)情報(bào)檢索的過(guò)程中，容易出現(xiàn)各種問(wèn)題，其中信息檢索系統(tǒng)本身就存在一定的局限。首先，信息檢索的用戶往往來(lái)自不同的專業(yè)領(lǐng)域，他

3、們知識(shí)水平和專業(yè)素質(zhì)都不相同，這使得計(jì)算機(jī)很難對(duì)其進(jìn)行一個(gè)合理的定位。其次是圖書(shū)情報(bào)不僅存在一定的豐富性，還存在一定的復(fù)雜性，而將那么多綜合復(fù)雜的信息整個(gè)到一個(gè)系統(tǒng)當(dāng)中，是一件非常困難的事情。最后是圖書(shū)情報(bào)檢索專家系統(tǒng)不易建立，一方面是這些專家的經(jīng)驗(yàn)和技術(shù)不能夠準(zhǔn)確的表達(dá)，另一方面是不同檢索專家往往具有不同的觀點(diǎn)，這都對(duì)圖書(shū)情報(bào)檢索專家系統(tǒng)的建立，帶來(lái)一定的困難。3我國(guó)的情報(bào)技術(shù)發(fā)展落后眾所周知，相對(duì)于國(guó)外的情報(bào)技術(shù)的發(fā)展，我國(guó)的情報(bào)技術(shù)明顯落后，這嚴(yán)重影響了信息檢索在圖書(shū)情報(bào)中的應(yīng)用。同時(shí)我國(guó)在對(duì)于信息檢索技術(shù)上的人力、財(cái)力以及物力的投資也明顯沒(méi)有國(guó)外高?？偠灾?，由于我國(guó)對(duì)于情

4、報(bào)技術(shù)的重視程度不高，在很大程度上影響了信息檢索的發(fā)展。二、信息檢索在圖書(shū)情報(bào)中應(yīng)用的幾點(diǎn)建議1. 建立理論基礎(chǔ)，打破傳統(tǒng)思維模式任何一項(xiàng)技術(shù)都有理論依據(jù)，信息檢索也不例外，然而目前大多數(shù)負(fù)責(zé)的圖書(shū)情報(bào)的管理工作人員不能夠很好的理解信息檢索在圖書(shū)情報(bào)中的作用，因此在今后的發(fā)展過(guò)程中，要對(duì)信息檢索建立一定的理論依據(jù)，并且打破傳統(tǒng)的思維模式，促進(jìn)信息檢索的發(fā)展。信息檢索就是要確保圖書(shū)情報(bào)能夠進(jìn)行有組織的、有規(guī)律的分類和歸納，同時(shí)也要讓工作人員明白其中的復(fù)雜程度，讓他們認(rèn)真對(duì)待信息檢索在圖書(shū)情報(bào)中的應(yīng)用，以提高圖書(shū)情報(bào)的發(fā)展。2. 圖書(shū)情報(bào)檢索專家化在圖書(shū)情報(bào)中推廣信息檢索，可

5、以嘗試成立專門(mén)的圖書(shū)情報(bào)檢索小組，讓信息檢索在圖書(shū)情報(bào)中受到重視。眾所周知，我國(guó)對(duì)于圖書(shū)情報(bào)的檢索往往不夠重視，導(dǎo)致了圖書(shū)情報(bào)檢索工作停滯不前，因此，在今后的圖書(shū)情報(bào)檢索發(fā)展的過(guò)程中，要建立由國(guó)家情報(bào)信息機(jī)構(gòu)牽頭以及各行各業(yè)的專家組成，確保我國(guó)圖書(shū)情報(bào)信息檢索工作在今后的發(fā)展過(guò)程中能夠有組織、有計(jì)劃，以此來(lái)打破各自為政的發(fā)展方式，確保我國(guó)圖書(shū)情報(bào)檢索向著統(tǒng) 一化、系統(tǒng)化、智能化的方向發(fā)展。3. 加強(qiáng)自身知識(shí)建設(shè)，提高專業(yè)水平加強(qiáng)圖書(shū)情報(bào)教育，要從大學(xué)生教育開(kāi)始。因此在今后的發(fā)展過(guò)程中，要全面的提高學(xué)生的基本素質(zhì)，培養(yǎng)大學(xué)生的情報(bào) 信息素養(yǎng)，確保他們能夠熟練的運(yùn)用當(dāng)代的信息檢索技

6、術(shù)進(jìn)行圖書(shū)情報(bào)的獲取。在學(xué)習(xí)的過(guò)程中，圖書(shū)情報(bào)信息的識(shí)別、歸納綜合處理信息以及傳遞信息等是基本技能，因此一定要確保大學(xué)生能夠掌握以上技能。而高水平的檢索者能夠?qū)D書(shū)情報(bào)進(jìn)行一定分析和判定，善于利用信息檢索，確保信息檢索在圖書(shū)情報(bào)中能夠得到很好的應(yīng)用，讓我國(guó)的信息檢索在圖書(shū)情報(bào)中得到更好的發(fā)展。眾所周知，未來(lái)是一個(gè)信息技術(shù)發(fā)達(dá)的社會(huì)，誰(shuí)先掌握了技術(shù)，誰(shuí)就能夠主宰這個(gè)社會(huì)，因此在今后的發(fā)展過(guò)程中，要不斷的學(xué)習(xí)和發(fā)展人工智能技術(shù)，確保我國(guó)圖書(shū)情報(bào)的發(fā)展。三、圖書(shū)情報(bào)人員必須接受的教育若想確保我國(guó)圖書(shū)情報(bào)的發(fā)展，就必須對(duì)圖書(shū)情報(bào)人員進(jìn) 行教育和培訓(xùn)。首先要擴(kuò)展他們的知識(shí)，對(duì)圖書(shū)情報(bào)工作人

7、員不僅要補(bǔ)充他們的知識(shí)，還要確保他們知識(shí)結(jié)構(gòu)的合理化。同時(shí)還要培養(yǎng)他們的計(jì)算機(jī)以及外語(yǔ)水平，確保他們能夠勝任圖書(shū)情報(bào) 這一工作。其次要對(duì)圖書(shū)情報(bào)工作人員的知識(shí)進(jìn)行更新，現(xiàn)在技術(shù)和知識(shí)都發(fā)展很整理快，圖書(shū)情報(bào)工作人員為了能夠更好的掌握?qǐng)D書(shū)情報(bào)工作，就要不斷的學(xué)習(xí)，不斷的更新自己的知識(shí)。最后是培養(yǎng)圖書(shū)情報(bào)工作人員的科研能力，圖書(shū)情報(bào)工作人員只有敢于探索，敢于鉆研，才能夠推動(dòng)圖書(shū)情報(bào)工作的發(fā)展?？偨Y(jié)語(yǔ)綜上所述，目前在我國(guó)信息檢索在圖書(shū)情報(bào)的應(yīng)用仍然不夠完善，其中不僅由于技術(shù)發(fā)展的落后，還由于缺乏專業(yè)的圖書(shū) 情報(bào)工作人員。因此在今后的圖書(shū)情報(bào)的發(fā)展過(guò)程中，相關(guān)部門(mén)要重視圖書(shū)情報(bào)工作，不惜投

8、入大量的資金和人力，以促進(jìn)我國(guó) 圖書(shū)情報(bào)的發(fā)展。信息檢索的小2引言互聯(lián)網(wǎng)的快速發(fā)展和廣泛應(yīng)用，為人們提供了一個(gè)廣闊的信息空間，也為信息檢索提供了一個(gè)廣闊的發(fā)展平臺(tái)?；ヂ?lián)網(wǎng)的開(kāi)放性和自由性使得網(wǎng)絡(luò)信息資源呈現(xiàn)出數(shù)量巨大、異構(gòu)性、分散性和動(dòng)態(tài)性特征。但由于網(wǎng)絡(luò)信息時(shí)效性強(qiáng)以及互聯(lián)網(wǎng)缺乏必要的監(jiān)督和質(zhì)量控制，使得大量垃圾信息混于高質(zhì)量信息當(dāng)中，增加了有效信息獲取的難度，影響檢索效率。因此，使用有效的檢索工具才能使得網(wǎng)絡(luò)信息資源為人們所充分利用。1網(wǎng)絡(luò)信息資源點(diǎn)與檢索工具上世紀(jì)90年代中期出現(xiàn)的搜索引擎技術(shù)目前已經(jīng)成為檢索各類網(wǎng)絡(luò)信息資源最主要的檢索工具。搜索引擎一般工作流程是借助于網(wǎng)絡(luò)自

9、動(dòng)搜索軟件（Robot、Spider等）訪問(wèn)瀏覽網(wǎng)頁(yè) 并抓取文件，并通過(guò)已瀏覽的網(wǎng)頁(yè)中的鏈接訪問(wèn)更多網(wǎng)頁(yè)。在抓取網(wǎng)頁(yè)的同時(shí)對(duì)頁(yè)面文件進(jìn)行分析分解以及索引，建立索引數(shù)據(jù)庫(kù)。當(dāng)用戶在搜索引擎界面輸入搜索詞后，搜索引擎對(duì)搜索詞進(jìn)行處理，按照處理后的搜索詞在索引數(shù)據(jù)庫(kù)中找出所有包含相關(guān) 內(nèi)容的網(wǎng)頁(yè)，并更具排名算法計(jì)算出排名順序然后按照一定的格式返回到搜索頁(yè)面。普通的搜索引擎缺點(diǎn)在于返回的檢索結(jié)果數(shù) 量巨大，無(wú)關(guān)和冗余信息較多，用戶必須從中進(jìn)行篩選。雖然布爾運(yùn)算、截詞運(yùn)算、自然語(yǔ)言檢索等技術(shù)使用大大提高了準(zhǔn)確率，但對(duì)用戶檢索素養(yǎng)要求很高。針對(duì)以上問(wèn)題，學(xué)者把研究對(duì)象放到對(duì)詞意的挖掘上，探索實(shí)現(xiàn)基于概

10、念匹配的檢索技術(shù)和方法，基于本體的語(yǔ)義檢索成為研究重點(diǎn)。2語(yǔ)義檢索基本要素和原理隨著人工智能以及自然語(yǔ)言處理的發(fā)展，尤其是語(yǔ)義網(wǎng)技術(shù)的興起，自上個(gè)世紀(jì)以來(lái)語(yǔ)義檢索研究得到了迅猛的發(fā)展。雖然對(duì)于語(yǔ)義檢索在概念上到目前為止沒(méi)有統(tǒng)一的界定，但是不同的研究都有一個(gè)共同之處就是基于對(duì)信息資源的語(yǔ)義處理時(shí)限效率更高的檢索。本體是語(yǔ)義檢索的基礎(chǔ)，其主要任務(wù)是對(duì)信息資源進(jìn)行語(yǔ)義表達(dá)。本體(Ontology )原本是一個(gè)描述客觀事物本質(zhì)的哲學(xué)概念，是對(duì)客觀存在的一個(gè)系統(tǒng)的解釋和說(shuō)明。如今，本體是一種能在語(yǔ)義和知識(shí)層次上描述概念體系的有效工具，用來(lái)描述概念以及概念之間的關(guān)系，通過(guò)概念之間的管理來(lái)描述概

11、念的語(yǔ)義。本體作為一種最先進(jìn)的知識(shí)表示方式能夠充分的描述所以的數(shù) 據(jù)結(jié)構(gòu)，是推理和關(guān)系數(shù)據(jù)庫(kù)的結(jié)合。概括的講本體能夠在人們和應(yīng)用系統(tǒng)之間達(dá)成對(duì)術(shù)語(yǔ)含義的共享和共同理解，通過(guò)函數(shù)(functions)、關(guān)系(relations)、原貝U(axioms)禾口實(shí)例(instanceS)、類(classes這5種元素表達(dá)本體中的知識(shí)，使其具有邏輯推理和語(yǔ)義識(shí)別功能，幫助檢索系統(tǒng)跨越目前基于關(guān)鍵詞的檢索過(guò)程中的上述問(wèn)題以實(shí)現(xiàn)語(yǔ)義檢索。目前實(shí)現(xiàn)網(wǎng)絡(luò)檢索的技術(shù)主要有兩種：第一種，依賴于編碼處理，以分類模式來(lái)描述信息資源以實(shí)現(xiàn)檢索的目的；第二種，是通過(guò)全文檢索查找文本中包含用戶指定的詞語(yǔ)的信息源

12、。語(yǔ)義檢索的語(yǔ)義信息的提取和處理是基于語(yǔ)義網(wǎng)方法與技術(shù)的查詢處理與文檔標(biāo)注及索引。基于本體的查詢處理包括：查詢消歧和查詢擴(kuò)展，通過(guò)消岐，明確查詢的確切所指，準(zhǔn)確反映用戶的信息意圖，繼而通過(guò)加入與其語(yǔ)義相關(guān)的其他概念來(lái)實(shí)施擴(kuò)展。在對(duì)文檔進(jìn)行語(yǔ)義標(biāo)注與索引的基礎(chǔ)上，先進(jìn)行實(shí)例檢索，再據(jù)此返回所有以檢出實(shí)例標(biāo)注的文檔信息是語(yǔ)義標(biāo)注文檔檢索的一種普遍思路。相對(duì)于傳統(tǒng)的網(wǎng)絡(luò)檢索，基于本體的語(yǔ)義檢索的優(yōu)勢(shì)在于體現(xiàn)語(yǔ)義信息，準(zhǔn)確表達(dá)用戶的查詢意圖。3常見(jiàn)語(yǔ)義檢索系統(tǒng)介紹3.1 一體化醫(yī)學(xué)語(yǔ)言系統(tǒng) (UMLS)UMLS (Unified MedicalLanguage System)作為計(jì)算機(jī)化的情報(bào)

13、檢索語(yǔ)言集成系統(tǒng)，是美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館(NLM )主持的一項(xiàng)長(zhǎng)期開(kāi)發(fā)研究計(jì)劃。它不僅是自然語(yǔ)言處理、語(yǔ)言規(guī)范化以及語(yǔ)言翻譯的規(guī)范化工具，更是實(shí)現(xiàn)實(shí)現(xiàn)跨數(shù)據(jù)庫(kù)檢測(cè)的詞匯轉(zhuǎn)換系統(tǒng)并且還可以幫助用戶連接情報(bào)源，包括書(shū)目數(shù)據(jù)庫(kù)、事實(shí)數(shù)據(jù)庫(kù)、計(jì)算機(jī)化的病案記錄以及專家系統(tǒng)過(guò)程中對(duì)于其他的電子式生物醫(yī)學(xué)情報(bào)的一體化檢索。UMLS包括情報(bào)源圖譜(In formation Sources Map )、語(yǔ)義網(wǎng)絡(luò)(Semantic Network )、專家詞典(SPECIALIST Lexicon)和超級(jí)敘詞表(Metathesaurus)四部分。其中超級(jí) 敘詞表是術(shù)語(yǔ)、生物醫(yī)學(xué)概念、等級(jí)范疇、詞匯及

14、其涵義的廣泛集成。1997年第8版的超級(jí)敘詞表收錄了 739439個(gè)詞匯，這些詞匯來(lái)源于30多種生物醫(yī)學(xué)詞表和分類表的能表達(dá)33萬(wàn)多個(gè)概念的，詞匯量達(dá)到空前規(guī)模。而語(yǔ)義網(wǎng)絡(luò)是為超級(jí)敘詞表中的所有概念提供語(yǔ)義類型及相互關(guān)系結(jié)構(gòu)的工具，是為建立概念術(shù)語(yǔ) 間相互錯(cuò)綜復(fù)雜關(guān)系而設(shè)計(jì)的。UMLS的語(yǔ)義網(wǎng)絡(luò)不僅運(yùn)用了常規(guī)的語(yǔ)義控制手段，如屬分、相關(guān)關(guān)系控制、語(yǔ)義等級(jí)，同時(shí)在語(yǔ)義規(guī)范和語(yǔ)義關(guān)系分析、延伸等多方面有許多創(chuàng)新。3.2語(yǔ)義網(wǎng)(Semantic Web)為了能夠在網(wǎng)絡(luò)環(huán)境下也同樣實(shí)現(xiàn)語(yǔ)義檢索的功能進(jìn)而開(kāi)發(fā)研究了語(yǔ)義網(wǎng)的W3C項(xiàng)目。W3C項(xiàng)目是將網(wǎng)絡(luò)上的數(shù)據(jù)通過(guò)一種方式進(jìn)行連續(xù)和定義，通過(guò)

15、這種定義和連續(xù)可以根據(jù)人的不同需求實(shí)現(xiàn)計(jì)算機(jī)將數(shù)據(jù)自動(dòng)進(jìn)行整合以及再利用，從而達(dá)到更有利于人機(jī)協(xié)作的目的。資源描述框架(Re-source Description Framework，簡(jiǎn)稱 RDF)是語(yǔ)義網(wǎng)的核心構(gòu)件。在網(wǎng)絡(luò)中，一般用元數(shù)據(jù)對(duì)資源進(jìn)行描述，而RDF則是處理元數(shù)據(jù)的一個(gè)基礎(chǔ)。RDF認(rèn)為一個(gè)具體的元數(shù)據(jù)是由屬性值(Statements)、屬性(Properties)和資源(Resources)構(gòu)成的三元關(guān)系模式，實(shí)際上是關(guān)于一個(gè)特定的資源特定屬性的取值聲明。使用RDFS語(yǔ)言，元數(shù)據(jù)的設(shè)計(jì)者不僅可以定義所描述資源的類別、屬性以及詞匯，還可以定義這些屬性或者對(duì)象的關(guān)系以及

16、對(duì)象與屬性之間的相互關(guān)系，同時(shí)還可以進(jìn)一步定義這些資源的對(duì)象、屬性以及屬性應(yīng)用類別和取值條件等，通過(guò)這些定義從而能以計(jì)算機(jī)理解的標(biāo)準(zhǔn)方式對(duì)元數(shù)據(jù)進(jìn)行描述語(yǔ)義內(nèi)容以及元數(shù)據(jù)的結(jié)構(gòu)關(guān)系。3.3 WordNet WordNet是一種基于認(rèn)知語(yǔ)言學(xué)的英語(yǔ)詞典，它是由普林斯頓大學(xué)的計(jì)算機(jī)工程師、心理學(xué)家和語(yǔ)言學(xué)家聯(lián)合設(shè)計(jì)的不僅是把單詞以字母順序排列，并且是按單側(cè)的意義組成的一個(gè)單詞的網(wǎng)絡(luò)”。WordNet將所有的英語(yǔ)詞匯按詞性分為功能詞、形容詞、動(dòng)詞、名詞和副詞五類。動(dòng)詞被組成各種推演關(guān) 系；名詞在詞匯記憶中被組成主題的層次；而形容詞和副詞被組織在N維超空間中。根據(jù) WordNet關(guān)系分析最大的優(yōu)勢(shì)是能在他的單詞網(wǎng)里通過(guò)相關(guān)關(guān)系消除歧義，因?yàn)閃ordNet分析主要是關(guān)系分析。WordNet在名詞的語(yǔ)義消歧率可以超過(guò) 60

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

信息檢索的小

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

信息檢索的小

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔