



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、WWW網(wǎng)絡(luò)信息檢索技術(shù)概述摘要:本文針對網(wǎng)絡(luò)搜索引擎工作中的重點(diǎn)技術(shù)作出詳盡的闡述,它包括obot程序、索引數(shù)據(jù)庫、檢索程序三個(gè)方面。通過他們來概述WWW網(wǎng)絡(luò)信息檢索技術(shù)的發(fā)展?fàn)顩r。關(guān)鍵詞:obot程序、數(shù)據(jù)索引、遍歷算法、相關(guān)性The abstracts of information retrievals on the world wide webAbstract: This scheduals decribe the details of fatal techniques about the information on the world wide website ,including
2、three aspects: Robot techniques,Indexing database and searching programmes .We can learn the developing states of information retrivals through them.Key words: Robot, Indces, Revelance, arithmetic隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)信息不斷爆炸式的擴(kuò)張,網(wǎng)民怎么才能從這樣海量的信息中找到他們所需要的信息呢?搜索引擎,這是目前為止,世界上最流行的一種準(zhǔn)確獲得信息的一種工具。象Google、Altavista、Info
3、seek 、Hotbot、Yahoo、網(wǎng)絡(luò)指南針、北大天網(wǎng)和華好網(wǎng)景的ChinaOK等等。這些都是世界上非常著名的搜索引擎。他們都是通過網(wǎng)絡(luò)機(jī)器人搜集網(wǎng)絡(luò)信息,建立索引數(shù)據(jù)庫,并且不但的更新,通過一定的相關(guān)性算法,對用戶提供的請求作出響應(yīng),并按一定的次序輸出高質(zhì)量的信息。它的主要由下面三個(gè)部分組成:蜘蛛程序、索引數(shù)據(jù)庫、檢索程序。三個(gè)部分協(xié)調(diào)一致,其工作原理(圖1)如下:1 obot技術(shù)程序obot是一種計(jì)算機(jī)的程序 ,可以自動(dòng)地在網(wǎng)絡(luò)中穿梭 ,該程序最重要的功能是使用索引策略 ,也就是查找網(wǎng)站和網(wǎng)頁的次序??梢杂妙}目、關(guān)鍵詞進(jìn)行索引 ,也可以是以上幾項(xiàng)的某種組合。由于的數(shù)據(jù)量大 ,在現(xiàn)有的機(jī)
4、器和網(wǎng)絡(luò)條件下 ,搜索引擎只能對部分上的資料進(jìn)行采集 ;加上搜索的索引策略不同 ,所以對相同關(guān)鍵詞的搜索在不同的搜索器上可以有截然不同的結(jié)果。如果把整個(gè)看作是一個(gè)圖或一棵樹的話 ,可以發(fā)現(xiàn)技術(shù)的基本工作原理和人工智能中的搜索樹一樣 ,這在計(jì)算機(jī)中可以方便地使用遞歸方法實(shí)現(xiàn) ,具體如下:(1 )根據(jù)首頁進(jìn)行搜索 ,相當(dāng)于搜索樹的根 ;(2 )根據(jù)首頁的第 1個(gè)鏈接到下一個(gè)頁面 ;(3)重復(fù) (1 )和 (2 );(4)到某頁已經(jīng)沒有鏈接 ,回退上一級頁面的下一個(gè)鏈接 ,如此循環(huán)往復(fù)。但若要建立全面的索引數(shù)據(jù)庫 ,必須對系統(tǒng)進(jìn)行遍歷。我們可以進(jìn)行這樣假設(shè) :將作為一個(gè)有向圖處理 ,將頁面看作圖中的
5、節(jié)點(diǎn) ,頁面中的超鏈看作圖中的有向邊。因此可以使用有向圖遍歷算法 (深度優(yōu)先或廣度優(yōu)先算法或啟發(fā)式方式 )對其進(jìn)行遍歷。是個(gè)典型的 結(jié)構(gòu)系統(tǒng) ,所以可在一臺主機(jī)上完成遍歷。遍歷一般采用以下 3種方法 :(1)定一個(gè)種子 ,obot從種子開始對遍歷 ; (2)定一組不同類別、被訪問頻率高的 ,obot從這些開始遍歷 ;(3)據(jù)域名或地址將空間劃分為多個(gè)子空間 ,運(yùn)行多個(gè)obot程序并行地在不同子空間中進(jìn)行遍歷。在實(shí)際使用中 ,一般是將這三種方法組合起來使用。按照上述遍歷算法 ,obot可以系統(tǒng)地、周期性地訪問 ,從而建立較為全面的索引庫 ,并能保持對庫的不斷更新。在遍歷算法中,一般用到了兩種方式
6、,深度優(yōu)先和廣度優(yōu)先兩種基本的搜索策略。Robit以URL列表存取的方式?jīng)Q定搜索策略:(1) 先進(jìn)先出,則形成廣度優(yōu)先搜索。當(dāng)起始列表包含有大量的服務(wù)器地址時(shí),廣度優(yōu)先搜索將產(chǎn)生一個(gè)很好的初始結(jié)果,但很難深入到服務(wù)器中去。(2) 先進(jìn)后出,則形成深度優(yōu)先搜索。這樣能產(chǎn)生較好的文檔分布,更容易發(fā)現(xiàn)文檔的結(jié)構(gòu),即找到最大數(shù)目的交叉引用在實(shí)際使用中 ,一般是將這三種方法組合起來使用。按照上述遍歷算法 ,obot可以系統(tǒng)地、周期性地訪問 ,從而建立較為全面的索引庫 ,并能保持對庫的不斷更新。在遍歷的過程中 ,為了提高其效率 ,可以融入人工智能的方法使其變得智能化 ,以下為可行的方法 :(1)搜索引擎基
7、本信息的采集??紤]網(wǎng)絡(luò)中海量的數(shù)據(jù) ,首先選取一些網(wǎng)絡(luò)的主要節(jié)點(diǎn) ,使搜索引擎存放某些監(jiān)控程序到站點(diǎn)中 ,和站點(diǎn)之間建立一種通信聯(lián)系 ,使搜索引擎不必每次更新時(shí)都要一個(gè)個(gè)頁面地比較 ,而是智能地知道自上次訪問后哪些頁面已更新 ,直接采集新的頁面。 (2)搜索引擎數(shù)據(jù)庫的建立。考慮數(shù)據(jù)庫中數(shù)據(jù)的有用性 ,可以根據(jù)用戶的訪問頻度 ,建立站點(diǎn)的用戶訪問頻度表格 ,obot查找鏈接和頁面時(shí) ,要查看該表格 ,從用戶訪問頻度高的站點(diǎn)開始查找 ,對上升速度和下降速度特別快的還要特別處理。搜索引擎的數(shù)據(jù)庫內(nèi)容是用戶經(jīng)常訪問并樂意訪問的 ,使搜索引擎越來越貼近用戶。2 索引技術(shù)索引技術(shù)的目的是理解obot所搜
8、索的信息 ,從中抽取索引項(xiàng) ,用于表示文檔以及生成文檔庫的索引表。索引項(xiàng)有客觀索引項(xiàng)和內(nèi)容索引項(xiàng)兩種 :客觀項(xiàng)與文檔的語意內(nèi)容無關(guān) ,如作者名、更新時(shí)間、編碼、長度、鏈接流行度 (Link Popularity)等等 ;內(nèi)容索引項(xiàng)是用來反映文檔內(nèi)容的 ,如關(guān)鍵詞及其權(quán)重、短語、單字等等。內(nèi)容索引項(xiàng)可以分為單索引項(xiàng)和多索引項(xiàng) (或稱短語索引項(xiàng) )兩種。單索引項(xiàng)對于英文來講是英語單詞 ,比較容易提取 ,因?yàn)閱卧~之間有天然的分隔符 (空格 );對于中文等連續(xù)書寫的語言 ,必須進(jìn)行詞語的切分。在搜索引擎中 ,一般要給單索引項(xiàng)賦予一個(gè)權(quán)值 ,以表示該索引項(xiàng)對文檔的區(qū)分索引項(xiàng)的提取方法有統(tǒng)計(jì)法、概率法和語
9、言學(xué)法。索引表一般使用某種形式的倒排表 (Invers度 ,同時(shí)用來計(jì)算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計(jì)法、信息論法和概率法。短語索引,即由索引項(xiàng)查找相應(yīng)的文檔。索引表要記錄索引項(xiàng)在文檔中出現(xiàn)的位置 ,以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系 (Proximity)。索引技術(shù)可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時(shí) ,必須實(shí)現(xiàn)即時(shí)索引 (Instant Indexing),否則不能跟上信息量劇增的速度。索引算法對索引技術(shù)的性能 (如大規(guī)模峰值查詢時(shí)的響應(yīng)速度 )有很大的影響。一個(gè)搜索引擎的有效性在很大程度上取決于索引的質(zhì)量 ,而索引的質(zhì)量由索引技術(shù)和索引策略來決定 ;但現(xiàn)行
10、的索引技術(shù)隨著數(shù)據(jù)量的增大 ,其耗費(fèi)的資源指數(shù)速度飛速增長 ,極大地影響到搜索數(shù)據(jù)庫的容量和檢索 ;考慮用提高索引智能化的方式來提高索引的質(zhì)量。按建立索引的策略來看 ,應(yīng)確定是全文關(guān)鍵字提取 ,還是內(nèi)容提取 ,根據(jù)不同的查詢目標(biāo)會有不同的提取目標(biāo)和提取范圍 ,最終將大大影響數(shù)據(jù)提取的速度和效果 ,這是索引技術(shù)所要考慮的首要問題 ;按內(nèi)容提取可以采用分類技術(shù) ,把頁面的主題或內(nèi)容分類 ,進(jìn)入到不同的數(shù)據(jù)庫中 ,在輸入關(guān)鍵詞查詢時(shí) ,要求第個(gè)關(guān)鍵詞必須是內(nèi)容類別的詞 ,這樣第個(gè)關(guān)鍵詞就可以使搜索引擎知道到哪個(gè)內(nèi)容類別的數(shù)據(jù)庫中查找 ,再匹配后面的關(guān)鍵詞 ,這樣可以大大減少系統(tǒng)匹配的時(shí)間。這項(xiàng)技術(shù)要
11、求在相關(guān)詞庫的基礎(chǔ)上 ,還要統(tǒng)計(jì)使用頻度 ,再加上一定的算法方可實(shí)現(xiàn)。當(dāng)然上述兩者應(yīng)有機(jī)地結(jié)合才可提高整個(gè)系統(tǒng)的性能。3 檢索程序。當(dāng)用戶檢索的時(shí)候,首先需要輸入關(guān)鍵詞,系統(tǒng)將對其進(jìn)行語言分析,分解成多個(gè)詞或詞組,在去服務(wù)器的索引數(shù)據(jù)庫,根據(jù)檢索詞的相關(guān)性進(jìn)行匹配,找到與檢索詞相關(guān)度逼近的網(wǎng)頁,按照相關(guān)度的高低進(jìn)行排序輸出,關(guān)鍵詞出現(xiàn)了的越多的結(jié)果排得越靠前,越知名的站點(diǎn)排得越靠前。這里,相關(guān)性的設(shè)計(jì)相當(dāng)?shù)闹匾?,它直接影響著搜索的效率。但“相關(guān)性”的概念一直非常模糊。一方面 ,人們觀察到特定文檔對特定查詢而言可以有多種“相關(guān)”的方式 ,比如用戶輸入一個(gè)關(guān)鍵詞作為查詢向系統(tǒng)提交 ,系統(tǒng)返回的文檔
12、列表中的文檔講述與此關(guān)鍵詞相關(guān)的事件 ,談?wù)撆c此關(guān)鍵詞相關(guān)的人物等等 ,都可以說與這個(gè)關(guān)鍵詞“相關(guān)” ,但我們顯然覺得二者與查詢的相關(guān)并不屬于同一層次。另一方面 ,由于用戶本身的差異使其對檢出文檔是否真正相關(guān)的判斷也有諸多差異。但是在設(shè)計(jì)信息檢索系統(tǒng)的過程中 ,不可避免地要用到相關(guān)性這個(gè)概念 ;具體地說 ,設(shè)計(jì)者必須對怎樣才算是“相關(guān)”有一個(gè)比較明確的想法 ,在沒有弄清楚什么是相關(guān)性之前就談?wù)撛鯓訁^(qū)別相關(guān)和不相關(guān)文檔 ,的確令人覺得在邏輯上缺少了一個(gè)重要的環(huán)節(jié)。下面就相關(guān)性做詳盡的闡述:3.1相關(guān)性研究的理論框架3.1.1系統(tǒng)角度的相關(guān)信息檢索似乎從一開始就定位為一種單方向的過程 ,即系統(tǒng)輸出
13、結(jié)果 ,用戶是信息的接受者。這種理解置用戶于被動(dòng)的地位 :基于這種理解 ,研究的重心自然落在系統(tǒng)本身。系統(tǒng)角度的相關(guān)一般有兩種比較方式。其一是在文檔本身固有的特征信息 ,如詞頻等等與用戶提交的查詢表達(dá)式中固有的特征信息之間進(jìn)行比較。典型做法是在文檔集中尋找出現(xiàn)了查詢表達(dá)式中的索引項(xiàng)的文檔 ;其二是在從文檔中抽取的“主題”與用戶查詢表達(dá)式中體現(xiàn)的“主題”之間做比較 ,即首先計(jì)算文檔中各索引項(xiàng)的權(quán)值 ,再按權(quán)值大小進(jìn)行排序 ,以此為依據(jù)確定文檔的主題詞。這種做法比較簡單明了 ,易于操作而且可以直接觀察 ,所以一直是信息檢索研究者們樂于接受的。3.1.2改進(jìn)后的系統(tǒng)相關(guān)從系統(tǒng)角度定義的相關(guān)性 (即主
14、題性相關(guān) )最突出的優(yōu)點(diǎn) ,就是簡明和可操作性 ;而至少目前的系統(tǒng)還無法把握人的主觀感覺。這樣看來 ,采取主題性相關(guān)的態(tài)度就是唯一可行的做法。然而并不能把詞頻統(tǒng)計(jì)作為唯一的解決辦法。airthorne曾提出 :如果允許個(gè)人推論和個(gè)人理解介入相關(guān)性判斷 ,那么從某種角度來看 ,任何文本對任何請求都是相關(guān)的。所以 ,改進(jìn)系統(tǒng)角度相關(guān)度計(jì)算方法似乎比較可以接受。基于此種看法 ,在這里可以做這樣一個(gè)設(shè)想 :如果主題詞提取算法能體現(xiàn)用戶的相關(guān)性判斷直覺 ,那么用戶的相關(guān)性判斷就可以被描述 ,而檢索系統(tǒng)的輸出就可能更加令人滿意 (見下圖 )。系統(tǒng)角度相關(guān)不能解決相關(guān)性判斷的不確定性。相關(guān)性判斷的不確定性基
15、本上集中于用戶的主觀因素上。信息檢索研究者的觀點(diǎn)往往局限在雖然簡單但引起很多爭議的系統(tǒng)角度相關(guān)。但是隨著檢索系統(tǒng)日益廣泛的應(yīng)用 ,人們開始更多地思索人機(jī)交互過程中人的因素。 3.2相關(guān)反饋技術(shù)在信息檢索系統(tǒng)中的應(yīng)用及局限從用戶角度討論相關(guān)大體上就是觀察用戶對檢索結(jié)果的反應(yīng) ,是系統(tǒng)輸出向用戶需求的投射。作為系統(tǒng)本身必須“知道”如何判斷相關(guān)性 ,而這種機(jī)制實(shí)際上是設(shè)計(jì)者對用戶判斷方式的模擬。最終的系統(tǒng)只能將用戶判斷有差異這一事實(shí)“忽略”過去。在檢索系統(tǒng)中 ,使用相關(guān)反饋技術(shù)的目的 ,是通過檢索策略的調(diào)整來增強(qiáng)對相關(guān)文獻(xiàn)的響應(yīng)而抑制非相關(guān)文獻(xiàn)。許多年來 ,相關(guān)反饋被用來修正提問的問題。較復(fù)雜一些的檢索系統(tǒng)如以向量空間模型為基礎(chǔ)的和概率模型等等固然包含了某“相關(guān)反饋”技術(shù) ,即以已經(jīng)得出的檢索結(jié)果和用戶的相關(guān)性評價(jià)為依據(jù) ,不斷修正查詢表達(dá)式和檢索結(jié)果集合 ;但是 ,系統(tǒng)賴以區(qū)分相關(guān)與不相關(guān)文檔集的算法卻只考慮文檔自身的特性。信息檢索的主要工作簡而言之就是提取文檔內(nèi)容特征項(xiàng)的過程。這就使得檢索系統(tǒng)不能跳出“系統(tǒng)中心”的局限而用戶判斷的不確定性不能得到本質(zhì)的運(yùn)用。雖然從用戶角度討論相關(guān)性定義的文獻(xiàn)多如牛毛 ,卻從未有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 財(cái)務(wù)管賬協(xié)議書范本
- 設(shè)計(jì)印刷廣告協(xié)議書范本
- 貨物采購?fù)獍贤瑓f(xié)議
- 設(shè)備消毒合同協(xié)議書范本
- 贊助商合作合同協(xié)議模板
- 豪車租賃質(zhì)押合同協(xié)議
- 試用協(xié)議等同為合同
- 貸款銀行收購房合同協(xié)議
- 超市會員協(xié)議書范本
- 豆腐生意轉(zhuǎn)讓合同協(xié)議
- 2024年山東省青島市中考地理試題卷(含答案及解析)
- 《衛(wèi)生事業(yè)管理學(xué)》題集
- 086.機(jī)械氣道廓清技術(shù)臨床應(yīng)用專家共識
- IATF16949組織環(huán)境因素識別表
- 【真題】2024年宿遷市中考生物試卷(含答案解析)
- 2024年4月自考08229計(jì)算機(jī)統(tǒng)計(jì)分析方法試題
- 汽車坡道玻璃雨棚施工方案
- 創(chuàng)意輪椅設(shè)計(jì)說明書
- 2024年建筑業(yè)10項(xiàng)新技術(shù)
- 【真題】2023年鎮(zhèn)江市中考化學(xué)試卷(含答案解析)
- 高三一??偨Y(jié)主題班會課件
評論
0/150
提交評論