


下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、WEB全文信息檢索技術(shù)李燦(華南理工大學(xué)圖書(shū)館 510641)摘要:本文探索了在INTERNET網(wǎng)上實(shí)現(xiàn)全文檢索的技術(shù)。計(jì)論了從網(wǎng)上信息的標(biāo)引、分類(lèi)等預(yù)處理到組織信息檢索的過(guò)程,并就智能檢索技術(shù)的發(fā)展進(jìn)行了闡述。關(guān)鍵詞:信息檢索 因特網(wǎng) 全文檢索一、 前言網(wǎng)是目前全球最大的、最有影響力的信息網(wǎng)絡(luò),它將政府、學(xué)校、圖書(shū)館、商務(wù)場(chǎng)所、研究機(jī)構(gòu)和其它組織中的局域網(wǎng)()集成為一個(gè)單一的、龐大的、跨越全球的通訊網(wǎng)絡(luò)。越來(lái)越多的人們利用這一網(wǎng)絡(luò)與世界各地的人進(jìn)行交流。如何利用網(wǎng)獲取有價(jià)值的信息,已成為科研人員必備的一項(xiàng)基本技能。因特網(wǎng)是一個(gè)開(kāi)放型的巨大的信息資源庫(kù),擁有上千萬(wàn)臺(tái)以上的主機(jī)和過(guò)億的用戶(hù);并且
2、由于因特網(wǎng)信息蘊(yùn)含的無(wú)限豐富,信息組織、表達(dá)的直觀、生動(dòng)以及信息服務(wù)的方便性和多樣性,愈來(lái)愈多的信息搜索者被其獨(dú)特的魅力所吸引。而在近幾年,因特網(wǎng)用戶(hù)的數(shù)量更是成倍地增長(zhǎng)??梢?jiàn),因特網(wǎng)檢索已成為實(shí)際上最普及、最受關(guān)注、最常涉及的信息檢索領(lǐng)域。二、 概述網(wǎng)上的信息具有數(shù)量大、形式多、內(nèi)容廣、專(zhuān)業(yè)性不強(qiáng)等特點(diǎn),給情報(bào)搜集、分類(lèi)、檢索等工作帶來(lái)了新的問(wèn)題和挑戰(zhàn)。如何充分利用因特網(wǎng)上的信息資源正成為情報(bào)科學(xué)研究者所關(guān)注的熱點(diǎn)。全文信息檢索就是概據(jù)信息的特點(diǎn)而發(fā)展起來(lái)的一種檢索方式。它主要指研究對(duì)整個(gè)文檔信息的表示,存儲(chǔ)、組織和訪(fǎng)問(wèn),即根據(jù)用戶(hù)的查詢(xún)要求,從信息數(shù)據(jù)庫(kù)中檢索出相關(guān)信息資料。全文檢索的中心
3、環(huán)節(jié)是文件內(nèi)容表達(dá)、信息查詢(xún)的獲得以及相關(guān)信息的匹配。一個(gè)好的全文信息檢索系統(tǒng)不僅要求將輸出信息進(jìn)行相關(guān)性排列,還應(yīng)該能夠根據(jù)用戶(hù)的意圖、興趣和特點(diǎn)自適應(yīng)和智能化地調(diào)整匹配機(jī)制,獲得用戶(hù)滿(mǎn)意的檢索輸出。要實(shí)現(xiàn)全文檢索,首先必須對(duì)WEB信息進(jìn)行預(yù)處理。三、 WEB信息的預(yù)處理信息預(yù)處理的主要功能是過(guò)濾文件系統(tǒng)信息,為文件系統(tǒng)的表達(dá)提供一種滿(mǎn)意的索引輸出。其基本目的是為了獲取最優(yōu)的索引記錄,使用戶(hù)能很容易地檢索到所需信息。()格式過(guò)濾:信息預(yù)處理應(yīng)該能夠過(guò)濾不同格式的文檔,以及圖片、聲音、視頻等信息。這使得搜索引擎不僅能夠檢索文字,而且能夠檢索原始格式文件的所有信息。()語(yǔ)詞切分:語(yǔ)詞是信息表達(dá)的
4、最小單位,而漢語(yǔ)不同于西方語(yǔ)言,其句子的語(yǔ)詞間沒(méi)有分隔符因此需要進(jìn)行語(yǔ)詞切分。常用的語(yǔ)詞切分方法有按詞典進(jìn)行最大詞組匹配、逆向最大詞組匹配、最佳匹配法,聯(lián)想回溯法、全自動(dòng)詞典切詞等。近年來(lái),又出現(xiàn)了基于神經(jīng)元網(wǎng)絡(luò)的和專(zhuān)家系統(tǒng)的分詞方法和基于統(tǒng)計(jì)和頻度分析的分詞方法。()詞法分析:漢語(yǔ)語(yǔ)詞切分中存在切分歧異,如句子“網(wǎng)球拍賣(mài)完了”,可以切分為“網(wǎng)球拍賣(mài)完了”,也可以切分為“網(wǎng)球拍賣(mài)完了”。因此需要利用各種上下文知識(shí)解決語(yǔ)詞切分歧異。此外,還需要對(duì)語(yǔ)詞進(jìn)行詞法分析,識(shí)別出各個(gè)語(yǔ)詞的詞干,以便根據(jù)詞干建立信息索引。對(duì)于英語(yǔ)語(yǔ)詞,建立索引之前首先要去除一些停頓詞(如常見(jiàn)的功能詞“”,“”,“”等)和詞
5、根(如“”,“”,“”等)。()詞性標(biāo)注和短語(yǔ)識(shí)別:在切分的基礎(chǔ)上,利用基于規(guī)則和統(tǒng)計(jì)的方法進(jìn)行詞性標(biāo)注。在此基礎(chǔ)上,還要利用各種語(yǔ)法規(guī)則,識(shí)別出重要的短語(yǔ)結(jié)構(gòu)。(5)自動(dòng)標(biāo)引:從網(wǎng)頁(yè)文檔中提取出一組能最大程度上概括其內(nèi)容特征、可作為用戶(hù)檢索入口的關(guān)鍵性信息,用該組信息對(duì)文文件進(jìn)行標(biāo)引,使用戶(hù)可以通過(guò)輸入關(guān)鍵信息檢索到該文文件的簡(jiǎn)要信息,如標(biāo)題、摘要、時(shí)間、作者和等,進(jìn)一步點(diǎn)擊可查詢(xún)到該文檔(6)自動(dòng)分類(lèi):建立并維護(hù)一套完整的分類(lèi)目錄體系,根據(jù)文文件的信息特征,計(jì)算出與其相關(guān)程度最大的一個(gè)或多個(gè)分類(lèi),將文檔劃歸到這些分類(lèi)中去,使用戶(hù)可以通過(guò)瀏覽分類(lèi)體系直接查詢(xún)到該文檔四、檢索檢索包括文件信息表
6、達(dá)和查詢(xún)信息表達(dá)以及相關(guān)信息預(yù)測(cè)過(guò)程。()信息表達(dá):信息的表達(dá)有多種方式,如布爾表達(dá)、矢量空間表達(dá)、自然語(yǔ)言表達(dá)等,每種表達(dá)方式由應(yīng)用系統(tǒng)服務(wù)者提出并由整個(gè)應(yīng)用系統(tǒng)的目的和需求所決定,并對(duì)應(yīng)于相應(yīng)的存儲(chǔ)模式和檢索算法,信息查詢(xún)和組織的效率,也就是速度和存儲(chǔ)的空間在很大程度上決定了檢索服務(wù)系統(tǒng)的性能。()查詢(xún)分析:用戶(hù)端的查詢(xún)信息首先要進(jìn)行分析處理,提取出查詢(xún)項(xiàng)索引、邏輯表達(dá)式或其它查詢(xún)特征描述。和文件信息索引不同的是:查詢(xún)索引處理是及時(shí)地提交處理形成索引,而文件信息索引是由搜索引擎按某種策略進(jìn)行遠(yuǎn)程數(shù)據(jù)的搜索和獲取預(yù)先生成的本地索引。查詢(xún)索引和文件索引采取同樣的表達(dá)方式,因此能夠采取相似性估計(jì)
7、算法檢索出相關(guān)文件。()查詢(xún)擴(kuò)展:近年來(lái),為了提高信息檢索的性能,將應(yīng)用領(lǐng)域知識(shí)和索引、相關(guān)性、估計(jì)、查詢(xún)表達(dá)相結(jié)合實(shí)現(xiàn)查詢(xún)擴(kuò)展,即查詢(xún)索引還包括不在用戶(hù)查詢(xún)中出現(xiàn)的查詢(xún)?cè)~部分。典型的知識(shí)庫(kù)查詢(xún)擴(kuò)展應(yīng)用如圖所示,知識(shí)庫(kù)中存儲(chǔ)的知識(shí)為原始查詢(xún)?cè)鎏砹讼嚓P(guān)詞,從而擴(kuò)展了原始查詢(xún)。()查詢(xún)?cè)~的選擇策略:·非獨(dú)立詞:非獨(dú)立詞指的是和查詢(xún)?cè)~具有較大相關(guān)性的詞。但是預(yù)先必須計(jì)算文件集合中的所有詞之間的相關(guān)性。·反饋詞:根據(jù)用戶(hù)反饋的文件信息,按照在相關(guān)文件和非相關(guān)文件中詞的出現(xiàn)頻率和分布決定出重要的詞,將這些詞增加到用戶(hù)查詢(xún)中。·交互式選擇:用戶(hù)從通過(guò)上述策略得出的待選詞中決定
8、最后的查詢(xún)?cè)~。反饋網(wǎng)絡(luò)屬于人機(jī)交互范疇,目的在于提高查詢(xún)性能和針對(duì)性。不同的用戶(hù)根據(jù)實(shí)際情況提供不同的反饋信息,不同的信息檢索服務(wù)系統(tǒng)按照其功能與檢索方法也有不同的反饋結(jié)構(gòu)和交互方式,因此查詢(xún)結(jié)果也不盡相同。(5)信息檢索模型:信息檢索系統(tǒng)的核心是搜索引擎,它需要從大量復(fù)雜信息中,篩選出符合用戶(hù)需要的信息。根據(jù)搜索引擎查找相關(guān)信息方式的不同,可將信息檢索分為:布爾邏輯模型、模糊邏輯模型、矢量空間模型以及概率模型等。布爾邏輯模型布爾邏輯模型是最簡(jiǎn)單的檢索模型,也是其他檢索模型的基礎(chǔ)。標(biāo)準(zhǔn)布爾邏輯模型為二元邏輯,即一系列對(duì)應(yīng)于文件特征的二元變量。這些變量包括從文件中提取的文本檢索詞,有時(shí)也包括一些
9、更為復(fù)雜的特征,如數(shù)據(jù)、短語(yǔ)、私人簽名和手工加入的描述子。在布爾模型中有確切的文件特征表達(dá)集合。用戶(hù)可以根據(jù)檢索項(xiàng)在文檔中的布爾邏輯關(guān)系遞交查詢(xún)。匹配函數(shù)由布爾邏輯的基本法則確定。所檢索出的文檔或者與查詢(xún)相關(guān),或者與查詢(xún)無(wú)關(guān)。查詢(xún)結(jié)果一般不進(jìn)行相關(guān)性排序。模糊邏輯模型為了處理精度和復(fù)雜性之間的矛盾,引入了模糊邏輯模型,它以邏輯真值為,的模糊邏輯為基礎(chǔ)的,以隸屬函數(shù)概念來(lái)描述現(xiàn)象差異的中間過(guò)渡。在查詢(xún)結(jié)果處理過(guò)程中引入模糊邏輯運(yùn)算,將所檢索的文件信息和用戶(hù)的查詢(xún)要求進(jìn)行模糊邏輯比較,按照相關(guān)性的優(yōu)先次序排出查詢(xún)結(jié)果,在布爾檢索中借助模糊邏輯模型能夠克服布爾邏輯查詢(xún)結(jié)果的無(wú)序性。矢量空間模型和布爾
10、檢索模型不同,矢量空間模型中查詢(xún)和文件都映射為同一維空間矢量。利用奇異值分解()、查詢(xún)?cè)~和文件的內(nèi)部結(jié)構(gòu)聯(lián)系,通過(guò)歐幾里德距離和余弦法則作相似性比較,根據(jù)矢量空間的相似性,排列查詢(xún)結(jié)果。矢量空間模型不僅可以方便地產(chǎn)生有效的查詢(xún)結(jié)果,而且能夠提供查詢(xún)結(jié)果分類(lèi),為用戶(hù)提供準(zhǔn)確定位所需的信息。概率模型在信息檢索中存在不確定性問(wèn)題,對(duì)查詢(xún)本身來(lái)說(shuō),它不能唯一地表示信息需求,對(duì)于結(jié)果來(lái)說(shuō),定查詢(xún)結(jié)果的正確與否。對(duì)于布爾檢索也是如此,因?yàn)椴樵?xún)的提交本身就是一種不確切方式。為了解決在布爾檢索模型中的不確定性問(wèn)題,引入了概率檢索模型。該模型基于概率排隊(duì)理論:當(dāng)文件按相關(guān)概率遞減原則排列時(shí)可以獲得最大的檢索性能
11、。五、全文信息檢索技術(shù)的發(fā)展目前的全文檢索技術(shù)還存在著一些未盡人意的結(jié)果,主要是通常的信息檢索系統(tǒng)性能較低,原因是將孤立詞和詞匯術(shù)語(yǔ)作為查詢(xún)描述子,因而文件內(nèi)容的相似性較差。智能化信息檢索是人工智能和信息檢索的相結(jié)合的產(chǎn)物。它能使信息檢索系統(tǒng)“理解”用戶(hù)的信息需要和文件包含的信息內(nèi)容。它在對(duì)內(nèi)容的分析理解、內(nèi)容表達(dá)、知識(shí)學(xué)習(xí)、推理機(jī)制,決策等基礎(chǔ)上實(shí)現(xiàn)檢索的智能化。目前人工智能和信息檢索的結(jié)合主要包括三方面:(1)信息檢索和專(zhuān)家系統(tǒng):主要研究方向是開(kāi)發(fā)一個(gè)專(zhuān)家中介系統(tǒng)來(lái)協(xié)助查詢(xún)形成、搜索策略選擇以及預(yù)測(cè)檢索文件;(2)信息檢索和自然語(yǔ)言處理:它實(shí)際上是以字或詞為符號(hào)的一種符號(hào)系統(tǒng)。目前自然語(yǔ)言處理對(duì)信息檢索的應(yīng)用仍停留在簡(jiǎn)單語(yǔ)言處理上,例如確認(rèn)詞根和詞組等。()信息檢索和知識(shí)表達(dá):此領(lǐng)域的研究主要是通過(guò)應(yīng)用領(lǐng)域知識(shí)來(lái)理解文件和查詢(xún)的信息內(nèi)容。目前,雖然某些在上的信息檢索服務(wù)系統(tǒng)采取了智能用戶(hù)代理的等方式,可以根據(jù)用戶(hù)事先定義的信息檢索要求,在網(wǎng)絡(luò)上實(shí)時(shí)監(jiān)視信息源,如指定頁(yè)面的更新、網(wǎng)絡(luò)新聞、電子郵件等,并將用戶(hù)所需的信息通過(guò)電子郵件等方式,主動(dòng)提供給用戶(hù),減少用戶(hù)檢索信息的時(shí)間。但是商用信息檢索系統(tǒng)仍主要以布爾模糊邏輯為主,輔以部分自
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 抖音短視頻平臺(tái)與火花量子計(jì)算公司合作開(kāi)發(fā)智能語(yǔ)音交互協(xié)議
- 線(xiàn)上線(xiàn)下改編作品分成補(bǔ)充協(xié)議
- 抖音與云服務(wù)商簽訂的火花級(jí)視頻處理云端服務(wù)協(xié)議
- 電視臺(tái)主持人崗位綜合能力考核聘用合同
- 股權(quán)投資虧損風(fēng)險(xiǎn)預(yù)警與結(jié)算管理協(xié)議
- 繼承房產(chǎn)瑕疵披露及維修責(zé)任承擔(dān)協(xié)議
- 獨(dú)角戲影視替身演員獨(dú)家合作協(xié)議
- 消防安全評(píng)估與消防設(shè)施檢測(cè)維修協(xié)議
- 國(guó)際物流海外倉(cāng)代運(yùn)營(yíng)及全球供應(yīng)鏈優(yōu)化合同
- 校招文科筆試題目及答案及答案
- 壓瘡信息登記本
- 學(xué)校質(zhì)量監(jiān)測(cè)應(yīng)急預(yù)案
- 體育產(chǎn)業(yè)概論(第七章奧運(yùn)經(jīng)濟(jì))課件
- 擬投入本項(xiàng)目主要人員匯總表(工程項(xiàng)目招投標(biāo)資料模板)
- 保護(hù)性約束PPT通用PPT課件
- 哈爾濱工業(yè)大學(xué)機(jī)械制造裝備設(shè)計(jì)大作業(yè)
- 金風(fēng)科技5MW風(fēng)力發(fā)電機(jī)專(zhuān)業(yè)題庫(kù)分解
- HDS_VSP_G200安裝配置指南
- 排球比賽計(jì)分表2
- GB_T 3795-2014 錳鐵(高清版)
評(píng)論
0/150
提交評(píng)論