WEB全文信息檢索技術_第1頁
WEB全文信息檢索技術_第2頁
WEB全文信息檢索技術_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、WEB全文信息檢索技術李燦(華南理工大學圖書館 510641)摘要:本文探索了在INTERNET網(wǎng)上實現(xiàn)全文檢索的技術。計論了從網(wǎng)上信息的標引、分類等預處理到組織信息檢索的過程,并就智能檢索技術的發(fā)展進行了闡述。關鍵詞:信息檢索 因特網(wǎng) 全文檢索一、 前言網(wǎng)是目前全球最大的、最有影響力的信息網(wǎng)絡,它將政府、學校、圖書館、商務場所、研究機構和其它組織中的局域網(wǎng)()集成為一個單一的、龐大的、跨越全球的通訊網(wǎng)絡。越來越多的人們利用這一網(wǎng)絡與世界各地的人進行交流。如何利用網(wǎng)獲取有價值的信息,已成為科研人員必備的一項基本技能。因特網(wǎng)是一個開放型的巨大的信息資源庫,擁有上千萬臺以上的主機和過億的用戶;并且

2、由于因特網(wǎng)信息蘊含的無限豐富,信息組織、表達的直觀、生動以及信息服務的方便性和多樣性,愈來愈多的信息搜索者被其獨特的魅力所吸引。而在近幾年,因特網(wǎng)用戶的數(shù)量更是成倍地增長。可見,因特網(wǎng)檢索已成為實際上最普及、最受關注、最常涉及的信息檢索領域。二、 概述網(wǎng)上的信息具有數(shù)量大、形式多、內(nèi)容廣、專業(yè)性不強等特點,給情報搜集、分類、檢索等工作帶來了新的問題和挑戰(zhàn)。如何充分利用因特網(wǎng)上的信息資源正成為情報科學研究者所關注的熱點。全文信息檢索就是概據(jù)信息的特點而發(fā)展起來的一種檢索方式。它主要指研究對整個文檔信息的表示,存儲、組織和訪問,即根據(jù)用戶的查詢要求,從信息數(shù)據(jù)庫中檢索出相關信息資料。全文檢索的中心

3、環(huán)節(jié)是文件內(nèi)容表達、信息查詢的獲得以及相關信息的匹配。一個好的全文信息檢索系統(tǒng)不僅要求將輸出信息進行相關性排列,還應該能夠根據(jù)用戶的意圖、興趣和特點自適應和智能化地調(diào)整匹配機制,獲得用戶滿意的檢索輸出。要實現(xiàn)全文檢索,首先必須對WEB信息進行預處理。三、 WEB信息的預處理信息預處理的主要功能是過濾文件系統(tǒng)信息,為文件系統(tǒng)的表達提供一種滿意的索引輸出。其基本目的是為了獲取最優(yōu)的索引記錄,使用戶能很容易地檢索到所需信息。()格式過濾:信息預處理應該能夠過濾不同格式的文檔,以及圖片、聲音、視頻等信息。這使得搜索引擎不僅能夠檢索文字,而且能夠檢索原始格式文件的所有信息。()語詞切分:語詞是信息表達的

4、最小單位,而漢語不同于西方語言,其句子的語詞間沒有分隔符因此需要進行語詞切分。常用的語詞切分方法有按詞典進行最大詞組匹配、逆向最大詞組匹配、最佳匹配法,聯(lián)想回溯法、全自動詞典切詞等。近年來,又出現(xiàn)了基于神經(jīng)元網(wǎng)絡的和專家系統(tǒng)的分詞方法和基于統(tǒng)計和頻度分析的分詞方法。()詞法分析:漢語語詞切分中存在切分歧異,如句子“網(wǎng)球拍賣完了”,可以切分為“網(wǎng)球拍賣完了”,也可以切分為“網(wǎng)球拍賣完了”。因此需要利用各種上下文知識解決語詞切分歧異。此外,還需要對語詞進行詞法分析,識別出各個語詞的詞干,以便根據(jù)詞干建立信息索引。對于英語語詞,建立索引之前首先要去除一些停頓詞(如常見的功能詞“”,“”,“”等)和詞

5、根(如“”,“”,“”等)。()詞性標注和短語識別:在切分的基礎上,利用基于規(guī)則和統(tǒng)計的方法進行詞性標注。在此基礎上,還要利用各種語法規(guī)則,識別出重要的短語結構。(5)自動標引:從網(wǎng)頁文檔中提取出一組能最大程度上概括其內(nèi)容特征、可作為用戶檢索入口的關鍵性信息,用該組信息對文文件進行標引,使用戶可以通過輸入關鍵信息檢索到該文文件的簡要信息,如標題、摘要、時間、作者和等,進一步點擊可查詢到該文檔(6)自動分類:建立并維護一套完整的分類目錄體系,根據(jù)文文件的信息特征,計算出與其相關程度最大的一個或多個分類,將文檔劃歸到這些分類中去,使用戶可以通過瀏覽分類體系直接查詢到該文檔四、檢索檢索包括文件信息表

6、達和查詢信息表達以及相關信息預測過程。()信息表達:信息的表達有多種方式,如布爾表達、矢量空間表達、自然語言表達等,每種表達方式由應用系統(tǒng)服務者提出并由整個應用系統(tǒng)的目的和需求所決定,并對應于相應的存儲模式和檢索算法,信息查詢和組織的效率,也就是速度和存儲的空間在很大程度上決定了檢索服務系統(tǒng)的性能。()查詢分析:用戶端的查詢信息首先要進行分析處理,提取出查詢項索引、邏輯表達式或其它查詢特征描述。和文件信息索引不同的是:查詢索引處理是及時地提交處理形成索引,而文件信息索引是由搜索引擎按某種策略進行遠程數(shù)據(jù)的搜索和獲取預先生成的本地索引。查詢索引和文件索引采取同樣的表達方式,因此能夠采取相似性估計

7、算法檢索出相關文件。()查詢擴展:近年來,為了提高信息檢索的性能,將應用領域知識和索引、相關性、估計、查詢表達相結合實現(xiàn)查詢擴展,即查詢索引還包括不在用戶查詢中出現(xiàn)的查詢詞部分。典型的知識庫查詢擴展應用如圖所示,知識庫中存儲的知識為原始查詢增添了相關詞,從而擴展了原始查詢。()查詢詞的選擇策略:·非獨立詞:非獨立詞指的是和查詢詞具有較大相關性的詞。但是預先必須計算文件集合中的所有詞之間的相關性。·反饋詞:根據(jù)用戶反饋的文件信息,按照在相關文件和非相關文件中詞的出現(xiàn)頻率和分布決定出重要的詞,將這些詞增加到用戶查詢中。·交互式選擇:用戶從通過上述策略得出的待選詞中決定

8、最后的查詢詞。反饋網(wǎng)絡屬于人機交互范疇,目的在于提高查詢性能和針對性。不同的用戶根據(jù)實際情況提供不同的反饋信息,不同的信息檢索服務系統(tǒng)按照其功能與檢索方法也有不同的反饋結構和交互方式,因此查詢結果也不盡相同。(5)信息檢索模型:信息檢索系統(tǒng)的核心是搜索引擎,它需要從大量復雜信息中,篩選出符合用戶需要的信息。根據(jù)搜索引擎查找相關信息方式的不同,可將信息檢索分為:布爾邏輯模型、模糊邏輯模型、矢量空間模型以及概率模型等。布爾邏輯模型布爾邏輯模型是最簡單的檢索模型,也是其他檢索模型的基礎。標準布爾邏輯模型為二元邏輯,即一系列對應于文件特征的二元變量。這些變量包括從文件中提取的文本檢索詞,有時也包括一些

9、更為復雜的特征,如數(shù)據(jù)、短語、私人簽名和手工加入的描述子。在布爾模型中有確切的文件特征表達集合。用戶可以根據(jù)檢索項在文檔中的布爾邏輯關系遞交查詢。匹配函數(shù)由布爾邏輯的基本法則確定。所檢索出的文檔或者與查詢相關,或者與查詢無關。查詢結果一般不進行相關性排序。模糊邏輯模型為了處理精度和復雜性之間的矛盾,引入了模糊邏輯模型,它以邏輯真值為,的模糊邏輯為基礎的,以隸屬函數(shù)概念來描述現(xiàn)象差異的中間過渡。在查詢結果處理過程中引入模糊邏輯運算,將所檢索的文件信息和用戶的查詢要求進行模糊邏輯比較,按照相關性的優(yōu)先次序排出查詢結果,在布爾檢索中借助模糊邏輯模型能夠克服布爾邏輯查詢結果的無序性。矢量空間模型和布爾

10、檢索模型不同,矢量空間模型中查詢和文件都映射為同一維空間矢量。利用奇異值分解()、查詢詞和文件的內(nèi)部結構聯(lián)系,通過歐幾里德距離和余弦法則作相似性比較,根據(jù)矢量空間的相似性,排列查詢結果。矢量空間模型不僅可以方便地產(chǎn)生有效的查詢結果,而且能夠提供查詢結果分類,為用戶提供準確定位所需的信息。概率模型在信息檢索中存在不確定性問題,對查詢本身來說,它不能唯一地表示信息需求,對于結果來說,定查詢結果的正確與否。對于布爾檢索也是如此,因為查詢的提交本身就是一種不確切方式。為了解決在布爾檢索模型中的不確定性問題,引入了概率檢索模型。該模型基于概率排隊理論:當文件按相關概率遞減原則排列時可以獲得最大的檢索性能

11、。五、全文信息檢索技術的發(fā)展目前的全文檢索技術還存在著一些未盡人意的結果,主要是通常的信息檢索系統(tǒng)性能較低,原因是將孤立詞和詞匯術語作為查詢描述子,因而文件內(nèi)容的相似性較差。智能化信息檢索是人工智能和信息檢索的相結合的產(chǎn)物。它能使信息檢索系統(tǒng)“理解”用戶的信息需要和文件包含的信息內(nèi)容。它在對內(nèi)容的分析理解、內(nèi)容表達、知識學習、推理機制,決策等基礎上實現(xiàn)檢索的智能化。目前人工智能和信息檢索的結合主要包括三方面:(1)信息檢索和專家系統(tǒng):主要研究方向是開發(fā)一個專家中介系統(tǒng)來協(xié)助查詢形成、搜索策略選擇以及預測檢索文件;(2)信息檢索和自然語言處理:它實際上是以字或詞為符號的一種符號系統(tǒng)。目前自然語言處理對信息檢索的應用仍停留在簡單語言處理上,例如確認詞根和詞組等。()信息檢索和知識表達:此領域的研究主要是通過應用領域知識來理解文件和查詢的信息內(nèi)容。目前,雖然某些在上的信息檢索服務系統(tǒng)采取了智能用戶代理的等方式,可以根據(jù)用戶事先定義的信息檢索要求,在網(wǎng)絡上實時監(jiān)視信息源,如指定頁面的更新、網(wǎng)絡新聞、電子郵件等,并將用戶所需的信息通過電子郵件等方式,主動提供給用戶,減少用戶檢索信息的時間。但是商用信息檢索系統(tǒng)仍主要以布爾模糊邏輯為主,輔以部分自

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論