信息檢索的小_第1頁
信息檢索的小_第2頁
信息檢索的小_第3頁
已閱讀5頁,還剩8頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、信息檢索的小信息檢索,是指將信息按一定的方式組織和存儲起來,并根 據(jù)信息用戶的需要找出有關(guān)的信息過程。以下是小編整理的信息檢索的小,歡迎閱讀。信息檢索的小1圖書情報的信息檢索也就是把信息進(jìn)行整 理、排序、歸納以及存儲起來,這樣不僅能夠展現(xiàn)情報的內(nèi)在特 征,還能夠反應(yīng)情報的外在形式。眾所周知,傳統(tǒng)的圖書情報搜 索模式已不能夠適應(yīng)現(xiàn)代社會的發(fā)展,現(xiàn)在人們更加的追求智能化的信息檢索方式,在信息檢索的過程中,把高科技的技術(shù)以及 方法引入到圖書情報管理工作中,確保圖書情報更加的真實(shí)科 學(xué)。一、我國信息檢索在圖書情報應(yīng)用中存在的問題1. 信息檢索技術(shù)不完善目前,信息檢索在圖書情報中的應(yīng)用仍然不是很完善,其

2、 中主要包括以下兩個方面:一方面是知識的獲取和技術(shù)的表達(dá)存 在一些問題。把復(fù)雜多樣的專業(yè)知識形成一個比較系統(tǒng)的、有規(guī)律的模式,往往是比較復(fù)雜的。另一方面是由于語言處理方面的 局限,在進(jìn)行檢索工作的時候, 檢索者的文化素養(yǎng)以及專業(yè)知識 往往直接影響著檢索所出現(xiàn)的結(jié)果。因此若想使計(jì)算機(jī)能夠準(zhǔn)確的把握檢索者輸入的各種語言方式,將大大提高檢索的效率,然而在實(shí)際的檢索過程中,由于計(jì)算機(jī)只能夠接收一些簡單的、規(guī)范的語句,大大降低了檢索效率。2. 信息檢索系統(tǒng)本身的障礙檢索者在進(jìn)行圖書情報檢索的過程中, 容易出現(xiàn)各種問題, 其中信息檢索系統(tǒng)本身就存在一定的局限。首先,信息檢索的用戶往往來自不同的專業(yè)領(lǐng)域,他

3、們知識水平和專業(yè)素質(zhì)都不相 同,這使得計(jì)算機(jī)很難對其進(jìn)行一個合理的定位。其次是圖書情報不僅存在一定的豐富性, 還存在一定的復(fù)雜性,而將那么多綜 合復(fù)雜的信息整個到一個系統(tǒng)當(dāng)中,是一件非常困難的事情。 最后是圖書情報檢索專家系統(tǒng)不易建立,一方面是這些專家的經(jīng)驗(yàn)和技術(shù)不能夠準(zhǔn)確的表達(dá),另一方面是不同檢索專家往往具有不 同的觀點(diǎn),這都對圖書情報檢索專家系統(tǒng)的建立,帶來一定的困難。3我國的情報技術(shù)發(fā)展落后眾所周知,相對于國外的情報技術(shù)的發(fā)展,我國的情報技 術(shù)明顯落后,這嚴(yán)重影響了信息檢索在圖書情報中的應(yīng)用。同時我國在對于信息檢索技術(shù)上的人力、財力以及物力的投資也明顯沒有國外高??偠灾?,由于我國對于情

4、報技術(shù)的重視程度不高, 在很大程度上影響了信息檢索的發(fā)展。二、信息檢索在圖書情報中應(yīng)用的幾點(diǎn)建議1. 建立理論基礎(chǔ),打破傳統(tǒng)思維模式任何一項(xiàng)技術(shù)都有理論依據(jù),信息檢索也不例外,然而目 前大多數(shù)負(fù)責(zé)的圖書情報的管理工作人員不能夠很好的理解信 息檢索在圖書情報中的作用, 因此在今后的發(fā)展過程中, 要對信 息檢索建立一定的理論依據(jù), 并且打破傳統(tǒng)的思維模式, 促進(jìn)信 息檢索的發(fā)展。信息檢索就是要確保圖書情報能夠進(jìn)行有組織 的、有規(guī)律的分類和歸納,同時也要讓工作人員明白其中的復(fù)雜 程度,讓他們認(rèn)真對待信息檢索在圖書情報中的應(yīng)用,以提高圖書情報的發(fā)展。2. 圖書情報檢索專家化在圖書情報中推廣信息檢索,可

5、以嘗試成立專門的圖書情報檢索小組,讓信息檢索在圖書情報中受到重視。眾所周知,我 國對于圖書情報的檢索往往不夠重視, 導(dǎo)致了圖書情報檢索工作 停滯不前,因此,在今后的圖書情報檢索發(fā)展的過程中,要建立 由國家情報信息機(jī)構(gòu)牽頭以及各行各業(yè)的專家組成,確保我國圖書情報信息檢索工作在今后的發(fā)展過程中能夠有組織、有計(jì)劃, 以此來打破各自為政的發(fā)展方式, 確保我國圖書情報檢索向著統(tǒng) 一化、系統(tǒng)化、智能化的方向發(fā)展。3. 加強(qiáng)自身知識建設(shè),提高專業(yè)水平加強(qiáng)圖書情報教育,要從大學(xué)生教育開始。因此在今后的 發(fā)展過程中,要全面的提高學(xué)生的基本素質(zhì), 培養(yǎng)大學(xué)生的情報 信息素養(yǎng),確保他們能夠熟練的運(yùn)用當(dāng)代的信息檢索技

6、術(shù)進(jìn)行圖 書情報的獲取。在學(xué)習(xí)的過程中,圖書情報信息的識別、歸納綜 合處理信息以及傳遞信息等是基本技能,因此一定要確保大學(xué)生能夠掌握以上技能。而高水平的檢索者能夠?qū)D書情報進(jìn)行一定 分析和判定,善于利用信息檢索,確保信息檢索在圖書情報中能 夠得到很好的應(yīng)用,讓我國的信息檢索在圖書情報中得到更好的 發(fā)展。眾所周知,未來是一個信息技術(shù)發(fā)達(dá)的社會,誰先掌握了 技術(shù),誰就能夠主宰這個社會,因此在今后的發(fā)展過程中,要不 斷的學(xué)習(xí)和發(fā)展人工智能技術(shù),確保我國圖書情報的發(fā)展。三、圖書情報人員必須接受的教育若想確保我國圖書情報的發(fā)展,就必須對圖書情報人員進(jìn) 行教育和培訓(xùn)。首先要擴(kuò)展他們的知識,對圖書情報工作人

7、員不 僅要補(bǔ)充他們的知識,還要確保他們知識結(jié)構(gòu)的合理化。同時還要培養(yǎng)他們的計(jì)算機(jī)以及外語水平, 確保他們能夠勝任圖書情報 這一工作。其次要對圖書情報工作人員的知識進(jìn)行更新,現(xiàn)在技術(shù)和知識都發(fā)展很整理快,圖書情報工作人員為了能夠更好的掌握圖書情報工作,就要不斷的學(xué)習(xí),不斷的更新自己的知識。最 后是培養(yǎng)圖書情報工作人員的科研能力,圖書情報工作人員只有 敢于探索,敢于鉆研,才能夠推動圖書情報工作的發(fā)展。總結(jié)語綜上所述,目前在我國信息檢索在圖書情報的應(yīng)用仍然不 夠完善,其中不僅由于技術(shù)發(fā)展的落后, 還由于缺乏專業(yè)的圖書 情報工作人員。因此在今后的圖書情報的發(fā)展過程中,相關(guān)部門要重視圖書情報工作,不惜投

8、入大量的資金和人力, 以促進(jìn)我國 圖書情報的發(fā)展。信息檢索的小2引言互聯(lián)網(wǎng)的快速發(fā)展和廣泛應(yīng)用,為人們提供了一個廣闊的 信息空間,也為信息檢索提供了一個廣闊的發(fā)展平臺?;ヂ?lián)網(wǎng)的開放性和自由性使得網(wǎng)絡(luò)信息資源呈現(xiàn)出數(shù)量巨大、異構(gòu)性、分散性和動態(tài)性特征。但由于網(wǎng)絡(luò)信息時效性強(qiáng)以及互聯(lián)網(wǎng)缺乏必 要的監(jiān)督和質(zhì)量控制,使得大量垃圾信息混于高質(zhì)量信息當(dāng)中, 增加了有效信息獲取的難度,影響檢索效率。因此,使用有效的 檢索工具才能使得網(wǎng)絡(luò)信息資源為人們所充分利用。1網(wǎng)絡(luò)信息資源點(diǎn)與檢索工具上世紀(jì)90年代中期出現(xiàn)的搜索引擎技術(shù)目前已經(jīng)成為檢 索各類網(wǎng)絡(luò)信息資源最主要的檢索工具。搜索引擎一般工作流程是借助于網(wǎng)絡(luò)自

9、動搜索軟件(Robot、Spider等)訪問瀏覽網(wǎng)頁 并抓取文件,并通過已瀏覽的網(wǎng)頁中的鏈接訪問更多網(wǎng)頁。在抓取網(wǎng)頁的同時對頁面文件進(jìn)行分析分解以及索引,建立索引數(shù)據(jù)庫。當(dāng)用戶在搜索引擎界面輸入搜索詞后,搜索引擎對搜索詞進(jìn)行處理,按照處理后的搜索詞在索引數(shù)據(jù)庫中找出所有包含相關(guān) 內(nèi)容的網(wǎng)頁,并更具排名算法計(jì)算出排名順序然后按照一定的格式返回到搜索頁面。普通的搜索引擎缺點(diǎn)在于返回的檢索結(jié)果數(shù) 量巨大,無關(guān)和冗余信息較多,用戶必須從中進(jìn)行篩選。雖然布 爾運(yùn)算、截詞運(yùn)算、自然語言檢索等技術(shù)使用大大提高了準(zhǔn)確率, 但對用戶檢索素養(yǎng)要求很高。針對以上問題,學(xué)者把研究對象放到對詞意的挖掘上,探索實(shí)現(xiàn)基于概

10、念匹配的檢索技術(shù)和方法, 基于本體的語義檢索成為研究重點(diǎn)。2語義檢索基本要素和原理隨著人工智能以及自然語言處理的發(fā)展,尤其是語義網(wǎng)技 術(shù)的興起,自上個世紀(jì)以來語義檢索研究得到了迅猛的發(fā)展。雖然對于語義檢索在概念上到目前為止沒有統(tǒng)一的界定,但是不同的研究都有一個共同之處就是基于對信息資源的語義處理時限 效率更高的檢索。本體是語義檢索的基礎(chǔ),其主要任務(wù)是對信息 資源進(jìn)行語義表達(dá)。本體(Ontology )原本是一個描述客觀事物本質(zhì)的哲學(xué)概 念,是對客觀存在的一個系統(tǒng)的解釋和說明。如今,本體是一種 能在語義和知識層次上描述概念體系的有效工具,用來描述概念以及概念之間的關(guān)系,通過概念之間的管理來描述概

11、念的語義。 本體作為一種最先進(jìn)的知識表示方式能夠充分的描述所以的數(shù) 據(jù)結(jié)構(gòu),是推理和關(guān)系數(shù)據(jù)庫的結(jié)合。 概括的講本體能夠在人們 和應(yīng)用系統(tǒng)之間達(dá)成對術(shù)語含義的共享和共同理解,通過函數(shù)(functions)、關(guān)系(relations)、原貝U(axioms)禾口實(shí)例(instanceS)、 類(classes這5種元素表達(dá)本體中的知識,使其具有邏輯推理 和語義識別功能,幫助檢索系統(tǒng)跨越目前基于關(guān)鍵詞的檢索過程 中的上述問題以實(shí)現(xiàn)語義檢索。目前實(shí)現(xiàn)網(wǎng)絡(luò)檢索的技術(shù)主要有兩種:第一種,依賴于編碼處理,以分類模式來描述信息資源以 實(shí)現(xiàn)檢索的目的;第二種,是通過全文檢索查找文本中包含用戶指定的詞語的信息源

12、。語義檢索的語義信息的提取和處理是基于 語義網(wǎng)方法與技術(shù)的查詢處理與文檔標(biāo)注及索引?;诒倔w的查詢處理包括:查詢消歧和查詢擴(kuò)展,通過消岐,明確查詢的確切 所指,準(zhǔn)確反映用戶的信息意圖,繼而通過加入與其語義相關(guān)的其他概念來實(shí)施擴(kuò)展。在對文檔進(jìn)行語義標(biāo)注與索引的基礎(chǔ)上, 先進(jìn)行實(shí)例檢索,再據(jù)此返回所有以檢出實(shí)例標(biāo)注的文檔信息是 語義標(biāo)注文檔檢索的一種普遍思路。相對于傳統(tǒng)的網(wǎng)絡(luò)檢索,基于本體的語義檢索的優(yōu)勢在于體現(xiàn)語義信息,準(zhǔn)確表達(dá)用戶的查詢意圖。3常見語義檢索系統(tǒng)介紹3.1 一體化醫(yī)學(xué)語言系統(tǒng) (UMLS)UMLS (Unified MedicalLanguage System)作為計(jì)算機(jī)化的情報

13、檢索語言集成系統(tǒng),是美國國立醫(yī)學(xué)圖書館(NLM )主持的一項(xiàng)長期開發(fā)研究計(jì)劃。它 不僅是自然語言處理、語言規(guī)范化以及語言翻譯的規(guī)范化工具, 更是實(shí)現(xiàn)實(shí)現(xiàn)跨數(shù)據(jù)庫檢測的詞匯轉(zhuǎn)換系統(tǒng)并且還可以幫助用 戶連接情報源,包括書目數(shù)據(jù)庫、事實(shí)數(shù)據(jù)庫、計(jì)算機(jī)化的病案 記錄以及專家系統(tǒng)過程中對于其他的電子式生物醫(yī)學(xué)情報的一 體化檢索。UMLS包括情報源圖譜(In formation Sources Map )、 語義網(wǎng)絡(luò)(Semantic Network )、專家詞典(SPECIALIST Lexicon)和超級敘詞表(Metathesaurus)四部分。其中超級 敘詞表是術(shù)語、生物醫(yī)學(xué)概念、等級范疇、詞匯及

14、其涵義的廣泛 集成。1997年第8版的超級敘詞表收錄了 739439個詞匯,這些 詞匯來源于30多種生物醫(yī)學(xué)詞表和分類表的能表達(dá)33萬多個概念的,詞匯量達(dá)到空前規(guī)模。而語義網(wǎng)絡(luò)是為超級敘詞表中的所 有概念提供語義類型及相互關(guān)系結(jié)構(gòu)的工具, 是為建立概念術(shù)語 間相互錯綜復(fù)雜關(guān)系而設(shè)計(jì)的。UMLS的語義網(wǎng)絡(luò)不僅運(yùn)用了常規(guī)的語義控制手段,如屬分、相關(guān)關(guān)系控制、語義等級,同時在語義規(guī)范和語義關(guān)系分析、 延伸等多方面有許多創(chuàng)新。3.2語義網(wǎng)(Semantic Web)為了能夠在網(wǎng)絡(luò)環(huán)境下也同樣實(shí)現(xiàn)語義 檢索的功能進(jìn)而開發(fā)研究了語義網(wǎng)的W3C項(xiàng)目。W3C項(xiàng)目是將網(wǎng)絡(luò)上的數(shù)據(jù)通過一種方式進(jìn)行連續(xù)和定義,通過

15、這種定義和連續(xù)可以根據(jù)人的不同需求實(shí)現(xiàn)計(jì)算機(jī)將數(shù)據(jù)自動進(jìn)行整合以及 再利用,從而達(dá)到更有利于人機(jī)協(xié)作的目的。資源描述框架(Re-source Description Framework,簡稱 RDF)是語義網(wǎng)的核心 構(gòu)件。在網(wǎng)絡(luò)中,一般用元數(shù)據(jù)對資源進(jìn)行描述,而RDF則是處理元數(shù)據(jù)的一個基礎(chǔ)。RDF認(rèn)為一個具體的元數(shù)據(jù)是由屬性 值(Statements)、屬性(Properties)和資源(Resources)構(gòu)成的 三元關(guān)系模式,實(shí)際上是關(guān)于一個特定的資源特定屬性的取值聲 明。使用RDFS語言,元數(shù)據(jù)的設(shè)計(jì)者不僅可以定義所描述資源 的類別、屬性以及詞匯,還可以定義這些屬性或者對象的關(guān)系以 及

16、對象與屬性之間的相互關(guān)系,同時還可以進(jìn)一步定義這些資源的對象、屬性以及屬性應(yīng)用類別和取值條件等, 通過這些定義從 而能以計(jì)算機(jī)理解的標(biāo)準(zhǔn)方式對元數(shù)據(jù)進(jìn)行描述語義內(nèi)容以及 元數(shù)據(jù)的結(jié)構(gòu)關(guān)系。3.3 WordNet WordNet是一種基于認(rèn)知語言學(xué)的英語詞典, 它是由普林斯頓大學(xué)的計(jì)算機(jī)工程師、心理學(xué)家和語言學(xué)家聯(lián)合設(shè)計(jì)的不僅是把單詞以字母順序排列,并且是按單側(cè)的意義組成的一個單詞的網(wǎng)絡(luò)”。WordNet將所有的英語詞匯按詞性分為功 能詞、形容詞、動詞、名詞和副詞五類。動詞被組成各種推演關(guān) 系;名詞在詞匯記憶中被組成主題的層次;而形容詞和副詞被組織在N維超空間中。根據(jù) WordNet關(guān)系分析最大的優(yōu)勢是能在 他的單詞網(wǎng)里通過相關(guān)關(guān)系消除歧義,因?yàn)閃ordNet分析主要是關(guān)系分析。WordNet在名詞的語義消歧率可以超過 60

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論