




已閱讀5頁(yè),還剩61頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)基于agent的元搜索引擎檢索結(jié)果優(yōu)化研究.pdf.pdf 免費(fèi)下載
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于a g e n t 的元搜索引擎檢索結(jié)果優(yōu)化研究 王紅( 計(jì)算機(jī)l 應(yīng)用技術(shù)) 指導(dǎo)教師:李村合( 教授) 摘要 目前所有的搜索引擎中,沒(méi)有一個(gè)能夠訪問(wèn)全部的w w w 資源,大多 數(shù)的搜索引擎都只能覆蓋整個(gè)網(wǎng)絡(luò)資源的- 4 , 部分。由于各類搜索引擎的 信息來(lái)源差異較大,因此集成多個(gè)搜索引擎而產(chǎn)生的元搜索引擎應(yīng)運(yùn)而 生,它具有比傳統(tǒng)搜索引擎覆蓋信息全面、檢索效果更好以及可擴(kuò)展性強(qiáng) 等優(yōu)點(diǎn)。其中如何對(duì)各個(gè)成員搜索引擎返回的結(jié)果進(jìn)行相關(guān)性排序是提高 元搜索引擎效率的關(guān)鍵技術(shù)。 搜索引擎返回的結(jié)果太多且不能根據(jù)用戶的興趣提供檢索結(jié)果是當(dāng) 前倍受關(guān)注的問(wèn)題。通過(guò)對(duì)網(wǎng)頁(yè)文本聚類技術(shù)的研究,以概念提取為目標(biāo), 提出了一種基于中頻詞的實(shí)時(shí)網(wǎng)頁(yè)聚類策略。與傳統(tǒng)的聚類方法不同,該 算法將文檔聚類和主題描述統(tǒng)一起來(lái),具有復(fù)雜度低、靈活性高的特點(diǎn)。 在分析目前已有的結(jié)果合成算法的基礎(chǔ)上,提出了一種從用戶瀏覽行為到 用戶興趣的映射算法,并結(jié)合用戶興趣對(duì)主題敏感頁(yè)面等級(jí)算法進(jìn)行改 進(jìn),實(shí)現(xiàn)了對(duì)檢索結(jié)果的個(gè)性化排序,解決了搜索引擎的查詢結(jié)果規(guī)模龐 大,用戶又缺乏足夠耐心去瀏覽所有結(jié)果的問(wèn)題,大大提高了用戶的查詢 質(zhì)量和效率。最后在對(duì)a g e n t 和多a g e n t 技術(shù)研究的基礎(chǔ)上,設(shè)計(jì)開發(fā)了 一個(gè)基于a g e n t 的元搜索引擎原型系統(tǒng),提出了基于j a d e 平臺(tái)的元搜索 引擎多代理系統(tǒng)框架。它使用基于多a g e n t 的體系結(jié)構(gòu)來(lái)實(shí)現(xiàn)信息收集過(guò) 程的并行、分布式處理,由系統(tǒng)代替用戶對(duì)搜索引擎結(jié)果進(jìn)行對(duì)比,并去 除冗余網(wǎng)頁(yè),將去重后的結(jié)果重新排序后提供給用戶。相對(duì)于傳統(tǒng)的面向 對(duì)象的元搜索引擎系統(tǒng),該系統(tǒng)具有響應(yīng)速度快,耦合性低的特點(diǎn)。 關(guān)鍵詞:元搜索引擎,a g e n t ,結(jié)果優(yōu)化,主題分類,用戶興趣 r e s u l to p t i m i z a t i o no fm e t as e a r c h e n g i n e b a s e do l la g e n t w a n gh o n g ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db yp r o f e s s o rl ic u r t - h e a b s t r a c t a t p r e s e n t , a m o n ga l lt h es e a r c he n g i n e s , n oo n ec a p _ c o v e ra l lt h ew w w r e s o u r e e s m o s to f t h e mc a no n l yo d v e rav e r ys m a l lp a r to f t h ee n t i r er e s o u l v t h ed i f f e r e n c ea m o n gi n f o r m a t i o ns o u r c e so fa l lk i n d so fs e a r c he n g i n e si ss o l a r g et h a tm e t as e a r c he n g i n e ( m s e ) a p p e a r sw h i c hi n t e g r a t e s m a n y i n d e p e n d e n ts e a r c he n g i n e s m s eh a sl a r g 盯c o v e rf a c e , b e t t e rs e a r c h e f f i c i e n c ya n de x p a n s i b i l i t y r e s u l to p t i m i z a t i o ni sak e yt e c h n o l o g yi na s p e c t o f i m p r o v i n gm e m - s e n r e he 1 3 9 i n e se f f i c i e n c y i ti sar e m a r k a b l ep r o b l e mt h a tt h ea m o u n to fr e s u l t sr e t u m e db ys e a r c h e n g i n e si se n o r f f l o u sa n de n g i n e sc a nn o tp r o v i d et ou s e r sw i t hr e q u i r e dr e s d t s b a s e do nt h e i ri n t e r e s t s b yr e s e a r c h i n go nt h ec l u s t e r i n gt e c h n o l o g yo fw e b p a g e ,w i t hc o n c e p te x t r a c t i o na sg o a l ,ar e a l - t i m ec l u s t e r i n ga l g o r i t h mw a s b r o u g h tf o r w a r d d i f f e r e n tf r o mt h et r a d i t i o n a lc l u s t e r i n gs t r a t e g y , i tc a nn o t o n l yc l a s s i f yt h er e s u l td o c u m e n ts e t sb u ta l s og i v ei t s t o p i cd e s c r i p t i o n e f f e c t i v e l yw i t ht h ea d v a n t a g e so fl o w e rc o m p l e x i t ya n dh i g h e rf l e x i b i l i t y t h r o u g ha n a l y z i n gr e s e ti n t e g r a t i o na l g o d t h m s ,w ep r o p o s e dak i n do f m a p p i n ga l g o r i t h mf r o mu s e r sb r o w s i n gb e h a v i o rt ou s e r si n t e r e s t sa n d i m p r o v e dt o p i c - s e n s i t i v ep a g er a n ka l g o r i t h mc o m b i n i n gw i t hu s e r si n t e r e s t s i tr e a l i z e st h ep e r s o n a l c o m p o s i t o ro fs e a r c hr e s u l t sa n df i g u r e so u tt h e i 釘 p r o b l e mt h a tt h ea m o u n to f r e s u l t sr e t u r n e db y s e a r c he n g i n e si st o ol a r g ea n d u s u a l l yu s e r sd o n th a v ee n o u g hp a t i e n c et ol o o kt h r o u g ha l lt h er e s u l t s a sa r e s u l t , t h i sa l g o r i t h mi m p r o v e st h eq u e r yq u a l i t ya n de f f i c i e n c yo b v i o u s l y a t l a s t ,b a s e do nt h er e s e a r c ho fa g e n ta n dm u l t i - a g e n tt e c h n o l o g y , t h i sp a p e r d e s i g n e dat e s t i n gs y s t e mf o rm e t a - s e a r c he n g i n eb a s e do nm u l t i - a g e n ta n d p r o p o s e d a m u l t i a g e n ts y s t e m f r a m e w o r kb a s e do nj a d ew h i c h a c c o m p l i s h e dt h ep a r a l l d , d i s t r i b u t i o n a lp r o c e s s i n go fi n f o r m a t i o nc o l l e c t i o n p r o c e s s i ti st h es y s t e mn o tt h eu 5 e 1 苫t h a td r a w sc o m p a r i s o n sa m o n gt h e s e a r c hr e s u l t s 1 9 1 l o v e $ r e d u n d a a c yw e bp a g e sa n dr e t u r n st ou s o r sw i t hw e b p a g e si ng o o do r d e r c o n t r a s t e dt ot r a d i t i o n a lo b j e c t - e r i e n t e ds y s t e m ,i th a s q u i c k e rr e s p o n s es p e e da n dl o w e rc o u p l i n g k e y w o r d s :m e t as e a r c he n g i n e ,a g e n t , r e s u l to p t i m i z a t i o n ,s u b j e c t c l a s s i f i c a t i o n , u s e r si n t e r e s t 獨(dú)創(chuàng)性聲明 本人聲明所呈交的論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作 及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外, 論文中不包含其他人已經(jīng)發(fā)表或撰寫過(guò)的研究成果,也不包含為獲得中 國(guó)石油大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過(guò)的材料。與我一同工 作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說(shuō)明并表示 了謝意。 。 簽名:至焦 ) 。0 7 年弘月e l 關(guān)于論文使用授權(quán)的說(shuō)明 本人完全了解中國(guó)石油大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即: 學(xué)校有權(quán)保留送交論文的復(fù)印件及電子版,允許論文被查閱和借閱;學(xué) ??梢怨颊撐牡娜炕虿糠謨?nèi)容,可以采用影印、縮印或其他復(fù)制手 段保存論文。 ( 保密論文在解密后應(yīng)遵守此規(guī)定) 學(xué)生簽名: 導(dǎo)師簽名: 王組 j 7 年乒月 日 伽7 年孕月f 日 中國(guó)石油大學(xué)( 華東) 碩士論文第1 章前言 第1 章前言 1 1 課題的研究背景及意義 隨著i n t e m e t 的發(fā)展和普及,越來(lái)越多的用戶利用搜索引擎來(lái)搜索網(wǎng) 上信息。然而在信息極大豐富的同時(shí),用戶也面臨著信息過(guò)載和資源迷向 的問(wèn)題【1 1 。如何在浩瀚如海的信息空間里,快速查找并獲取所需的信息己 成為信息時(shí)代最根本的問(wèn)題之一。 盡管搜索引擎的發(fā)展已較成熟,但人們?cè)谑褂弥袇s發(fā)現(xiàn)要準(zhǔn)確、快速 地查找自己所需的信息是越來(lái)越困難。傳統(tǒng)的獨(dú)立搜索引擎存在著信息資 源覆蓋率低、檢索效率較低等問(wèn)題【刎,人們經(jīng)常無(wú)法在一個(gè)搜索引擎上 找到自己想要的信息,而需要不停地在多個(gè)搜索引擎之間切換,在多個(gè)檢 索結(jié)果列表之間挑選對(duì)自己有用的內(nèi)容。另外網(wǎng)絡(luò)用戶對(duì)搜索引擎不滿意 的地方還集中在搜索速度慢、無(wú)效鏈接太多,重復(fù)或不相關(guān)信息較多,搜 索結(jié)果不具有個(gè)性化、不能因人而異等方面。出于以上原因,一種能集成 不同搜索引擎返回結(jié)果的檢索工具元搜索引擎出現(xiàn)了【5 。6 1 。 元搜索引擎 7 1 ( m e t as e a r c he n g i n e ,簡(jiǎn)稱m s e ) 是一種調(diào)用其它獨(dú) 立搜索引擎的引擎,亦稱“搜索引擎之母”。它在檢索信息時(shí)通過(guò)調(diào)用其 它多個(gè)獨(dú)立搜索引擎來(lái)完成檢索功能,并能夠?qū)⒍鄠€(gè)搜索引擎查詢的結(jié)果 信息進(jìn)行融合、再加工后向用戶二次陳列,以強(qiáng)化檢索效果、提高檢索質(zhì) 量。其最大的特點(diǎn)是不需要設(shè)立自己獨(dú)立的索引數(shù)據(jù)庫(kù),可把更多資源投 入統(tǒng)一檢索界面的建設(shè)【3 1 。元搜索引擎集中了許多獨(dú)立搜索引擎的優(yōu)勢(shì), 簡(jiǎn)化了用戶訪問(wèn)多個(gè)搜索引擎的工作量,是一種新穎且具有開發(fā)前景的搜 索引擎。 現(xiàn)在已經(jīng)出現(xiàn)了一大批元搜索引擎,其中英文元搜索引擎較多,發(fā)展 較好,而中文元搜索引擎發(fā)展緩慢。目前運(yùn)營(yíng)的元搜索引擎各具特色,功 能各有側(cè)重,完全“理想”的尚不多見 9 1 。另外很多主流的搜索引擎提 供的服務(wù)沒(méi)有考慮每個(gè)個(gè)體用戶的需求,沒(méi)有考慮用戶的差異。同時(shí),由 于不同的搜索引擎在搜集信息的數(shù)量、收集信息的范圍、采用的索引方法、 使用的相似度評(píng)價(jià)等方面差異巨大,再加上元搜索引擎的設(shè)計(jì)者不能獲取 中國(guó)石油大學(xué)( 華東) 碩士論文第1 章前言 這些搜索引擎的很多技術(shù)細(xì)節(jié),故元搜索對(duì)不同搜索引擎返回的大量結(jié)果 不能很好地進(jìn)行排序。本文旨在研究現(xiàn)有元搜索引擎存在的局限性的基礎(chǔ) 上,設(shè)計(jì)出一個(gè)結(jié)構(gòu)更合理,功能更優(yōu)越,同時(shí)能夠融合更多相關(guān)領(lǐng)域技 術(shù),體現(xiàn)個(gè)性查詢的元搜索引擎結(jié)構(gòu)模型。 1 2 國(guó)內(nèi)外研究現(xiàn)狀 實(shí)際的元搜索引擎系統(tǒng)使用的結(jié)果合成方法是各種各樣的,目前典型 算法有三種: ( 1 ) 如果只有文檔的原始順序是已知的,則可以采用間隔排列合成 法:首先把每個(gè)獨(dú)立搜索引擎檢索結(jié)果中的第1 項(xiàng)交叉列出,然后再把各 個(gè)檢索結(jié)果中的第2 項(xiàng)交叉列出,依此類推。 ( 2 ) 如果可以得到文檔的原始相關(guān)性分值,那么當(dāng)這些分值可以直接 比較時(shí),則可以采用原始分值合成法:直接依據(jù)每個(gè)文檔的原始相關(guān)性分 值決定其合成排列次序;如果文檔的原始分值不能直接比較,則可以采用 規(guī)范分值合成法:通過(guò)對(duì)其進(jìn)行標(biāo)準(zhǔn)化來(lái)得到規(guī)范的相關(guān)性分值,并以此 為根據(jù)確定文檔的合成排列次序。 ( 3 ) 加權(quán)分值法:首先計(jì)算出各個(gè)檢索結(jié)果相應(yīng)于檢索條件的重要 性,再以此為權(quán)乘上文檔的相關(guān)性分值作為決定其合成排列次序的根據(jù)。 可見,確定文檔與檢索條件之間的相關(guān)性是優(yōu)化檢索結(jié)果的關(guān)鍵所 在。對(duì)于元搜索引擎檢索結(jié)果合成問(wèn)題,目前已有不少研究者從不同角度 提出了各自的解決方法和優(yōu)化方案。通過(guò)閱讀大量文獻(xiàn),總結(jié)得出以下3 個(gè)主要方面: ( 1 ) 相似度排序算法 對(duì)搜索結(jié)果進(jìn)行相關(guān)度評(píng)價(jià),重新給出相關(guān)度,按新的相關(guān)性排列查 詢后提交給用戶,通過(guò)這樣的二次處理來(lái)提高查準(zhǔn)率。 ( 2 ) 對(duì)檢索結(jié)果集進(jìn)行分類或聚類分柝 主要思想是通過(guò)將搜索引擎返回的結(jié)果進(jìn)行分類組織,用戶只需根據(jù) 自己感興趣的內(nèi)容來(lái)選擇不同類別,直接查看此類剔下的信息,以提高用 2 中國(guó)石油大學(xué)( 華東) 碩士論文第1 章前言 戶查詢的效率,增強(qiáng)搜索引擎與用戶的交互。 許多研究者對(duì)此做了相當(dāng)多的努力。z a m i r 和e t z i o n i 對(duì)如何將搜索 引擎返回的結(jié)果進(jìn)行聚類做了研究【l 。】,此文提出了一種后綴樹算法( s u f f i x t r e ea l g o r i t h m ) ,它充分利用了共享單詞之間的先后順序這一信息來(lái)進(jìn)行 聚類,缺點(diǎn)在于沒(méi)有體現(xiàn)出類別之間的層次結(jié)構(gòu)。y w a n g 在文獻(xiàn)【1 l 】中 提出了根據(jù)網(wǎng)頁(yè)之間的鏈接關(guān)系進(jìn)行聚類的方法。此方法不僅更適合w e b 搜索結(jié)果的聚類,而且克服了標(biāo)準(zhǔn)k m e a n s 算法易被噪音干擾的缺點(diǎn), 不足在于需要下載并分析實(shí)際的網(wǎng)頁(yè),在速度上無(wú)法滿足在線的使用。文 獻(xiàn) 1 2 d p ,h a n g c 和o s m a r 提出了一種基于語(yǔ)義類別進(jìn)行分類的方法, 此方法不需要事先訓(xùn)練數(shù)據(jù)這一步驟,而是使用一個(gè)在線數(shù)據(jù)庫(kù)作為類別 庫(kù)來(lái)確定建立具有層次的類別,缺點(diǎn)在于預(yù)先定義好的類別很難做到實(shí)時(shí) 更新。 聚類方法的主要缺點(diǎn)在于所花的時(shí)間較多,影響其滿足搜索引擎實(shí)時(shí) 性的要求;而分類方法的問(wèn)題在于預(yù)定義的類別相對(duì)固定,很難做到實(shí)時(shí) 更新,導(dǎo)致最新信息的缺失和疏漏,影響其滿足搜索引擎信息覆蓋率的要 求。 ( 3 ) 個(gè)性化的排序方法 目前大多數(shù)的搜索引擎都沒(méi)有考慮用戶的偏好,不具備個(gè)性化服務(wù)功 能。隨著互聯(lián)網(wǎng)上信息的急劇增加,個(gè)性化搜索的研究和實(shí)現(xiàn)得到了人們 的廣泛重視。個(gè)性化搜索的主要思想就是根據(jù)用戶輸入的檢索詞,再結(jié)合 用戶興趣來(lái)進(jìn)行信息推薦,而不只是簡(jiǎn)單的基于檢索詞進(jìn)行信息推薦,具 有更高的查準(zhǔn)率。建立反映用戶興趣的用戶特征文件是實(shí)現(xiàn)個(gè)性化推薦的 基礎(chǔ)。 目前,已有多種建立用戶特征文件的方法。文獻(xiàn) 1 3 】提出的方法是: 根據(jù)用戶檢索歷史建立一個(gè)用戶特征文件,再根據(jù)開放目錄建立一個(gè)通用 特征文件,然后基于這兩個(gè)文件推理用戶查詢所屬的適當(dāng)分類,并且在這 個(gè)分類中加入用戶輸入的檢索詞,以此來(lái)提高檢索效率。該方法只考慮了 分類,沒(méi)有考慮到同一層分類之間可能具有的某種邏輯關(guān)系,比如同時(shí)隸 屬于一個(gè)上層分類。文獻(xiàn) 1 4 】的用戶特征文件采用了一個(gè)詞與詞的關(guān)系 中國(guó)石油大學(xué)( 華東) 碩士論文第1 章前言 表,該表記錄了詞與詞之間的同義率和同現(xiàn)率,并且對(duì)用戶輸入的檢索詞 做了擴(kuò)展,即用“( 檢索詞v 同義詞) 八一同出現(xiàn)的詞”來(lái)進(jìn)行檢索。這 種方法的缺點(diǎn):一是詞匯量大,可行性不高:二是由于“邏輯與”運(yùn)算, 使得檢索范圍縮小,用戶有可能檢索不到想要的信息。文獻(xiàn) 1 5 】采用的方 法是給出用戶輸入檢索詞的近義詞、同義詞,供用戶選擇,以此來(lái)提高查 全率;在返回結(jié)果的時(shí)候,通過(guò)用戶個(gè)性化信息表,過(guò)濾掉用戶不感興趣 的內(nèi)容,從而提高檢索精度。這種方法雖然提高了查準(zhǔn)率,但沒(méi)有從根本 上解決個(gè)性化推薦的問(wèn)題。 許多關(guān)于信息過(guò)濾【1 6 _ 19 】和智能代理【2 0 】的文章也提到了建立顯式或隱 式的用戶特征文件,然后利用用戶特征文件過(guò)濾檢索結(jié)果。但這些文章沒(méi) 有考慮到信息概念在邏輯上的層次關(guān)系。 綜上所述,目前已有的國(guó)內(nèi)外元搜索引擎采用的結(jié)果合成方法都還不 夠完善,不能令人滿意,需要增強(qiáng)對(duì)檢索結(jié)果的后處理,如可以綜合考慮 多種因素對(duì)結(jié)果進(jìn)行排序;剔除死鏈接、重復(fù)網(wǎng)頁(yè)和不相關(guān)網(wǎng)頁(yè),給用戶 提供更高質(zhì)量的檢索結(jié)果;將檢索結(jié)果自動(dòng)聚類,方便用戶瀏覽等。個(gè)性 化也是元搜索引擎發(fā)展的趨勢(shì)。因此對(duì)元搜索引擎檢索結(jié)果優(yōu)化技術(shù)的研 究有一定的價(jià)值和意義。 1 3 課題研究的主要內(nèi)容 主要研究?jī)?nèi)容如下: ( 1 ) 元搜索引擎技術(shù):明確元搜索引擎的基本概念,了解元搜索引擎 的性能指標(biāo)評(píng)價(jià)體系,討論元搜索引擎的發(fā)展趨勢(shì)。 ( 2 ) a g e n t 技術(shù)研究和w e b 挖掘技術(shù):研究a g e n t 的組成、功能和基 本結(jié)構(gòu)等,并在a g e n t 基礎(chǔ)上對(duì)多a g e n t 協(xié)作系統(tǒng)的特點(diǎn)、分類和交互進(jìn) 行研究。深入分析w e b 挖掘技術(shù),明確其涵義,包括w e b 內(nèi)容挖掘、w e b 結(jié)構(gòu)挖掘和w e b 使用挖掘。 ( 3 ) 網(wǎng)頁(yè)文本聚類技術(shù)研究:分析文檔的表示方法,學(xué)習(xí)聚類知識(shí), 在此基礎(chǔ)上,提出了一種基于中頻詞的網(wǎng)頁(yè)聚類算法,以此對(duì)檢索結(jié)果集 進(jìn)行分類。 4 中國(guó)石油大學(xué)( 華東) 碩士論文 第1 章前言 ( 4 ) 查詢結(jié)果合成算法研究:在分析現(xiàn)有的元搜索引擎檢索結(jié)果合成 算法的基礎(chǔ)上,針對(duì)其不能滿足用戶的個(gè)性化檢索方面的不足,解析用戶 瀏覽行為與興趣間的關(guān)系,提出了一種基于用戶興趣的檢索結(jié)果排序算 法,以提高檢索效率為最終目標(biāo)。 ( 5 ) 基于a g e n t 的元搜索引擎系統(tǒng)模型的設(shè)計(jì)與實(shí)現(xiàn):設(shè)計(jì)并實(shí)現(xiàn)一 個(gè)基于a g e n t 的個(gè)性化元搜索引擎系統(tǒng)模型,并對(duì)檢索性能進(jìn)行測(cè)試,給 出效果評(píng)價(jià)。 1 4 論文的組織結(jié)構(gòu) 論文共分6 個(gè)章節(jié),主要內(nèi)容組織如下: 第1 章分析了元搜索引擎檢索結(jié)果優(yōu)化技術(shù)的問(wèn)題緣由,包括該課題 的研究背景及意義、國(guó)內(nèi)外研究現(xiàn)狀以及研究的主要內(nèi)容。 第2 章對(duì)元搜索引擎相關(guān)技術(shù)進(jìn)行了闡述,首先介紹了元搜索引擎的 相關(guān)概念,然后對(duì)a g e n t 技術(shù)和w e b 挖掘技術(shù)做了簡(jiǎn)單系統(tǒng)地論述。 第3 章對(duì)網(wǎng)頁(yè)文本分類技術(shù)進(jìn)行了研究,將網(wǎng)頁(yè)分類與主題描述結(jié)合 起來(lái),提出了一種基于中頻詞的網(wǎng)頁(yè)聚類策略。 第4 章對(duì)元搜索引擎檢索結(jié)果合成的關(guān)鍵技術(shù)進(jìn)行了闡述。在對(duì)現(xiàn)有 的查詢結(jié)果排列算法進(jìn)行研究的基礎(chǔ)上,通過(guò)深入分析用戶瀏覽行為與興 趣之間的關(guān)系,提出了一種從用戶行為到用戶興趣的映射算法,并結(jié)合用 戶興趣對(duì)t s p r 算法進(jìn)行改進(jìn),最終實(shí)現(xiàn)對(duì)元搜索引擎檢索結(jié)果的優(yōu)化捧 序。 第5 章給出了基于a g e n t 的元搜索引擎系統(tǒng)模型的設(shè)計(jì)方案,結(jié)合實(shí) 際情況實(shí)現(xiàn)了一個(gè)原型系統(tǒng),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行測(cè)試和評(píng)價(jià)。 第6 章是對(duì)本文工作的總結(jié)和展望。 中國(guó)石油大學(xué)( 華東) 碩士論文第2 章元搜索引擎相關(guān)技術(shù) 第2 章元搜索引擎相關(guān)技術(shù) 2 1 元搜索引擎概述 2 1 1 元搜索引擎的基本概念 元搜索引擎【2 1 l 將現(xiàn)有的多個(gè)搜索引擎看成一個(gè)整體,為用戶提供一 個(gè)統(tǒng)一的查詢界面,用戶的查詢請(qǐng)求由元搜索引擎根據(jù)知識(shí)庫(kù)中的信息, 轉(zhuǎn)換為多個(gè)搜索引擎所能識(shí)別的格式,然后分別發(fā)送給調(diào)用的各獨(dú)立搜索 引擎,由這些搜索引擎完成實(shí)際的信息檢索,最后元搜索引擎再把各搜索 引擎返回的結(jié)果收集起來(lái),進(jìn)行比較分析,剔除冗余信息,以一定的格式 返回給用戶。元搜索引擎調(diào)用的各獨(dú)立搜索引擎被稱為“目標(biāo)搜索引擎”、 “成員搜索引擎”或“源搜索引擎”,它們各自保持其原來(lái)的局部數(shù)據(jù)模 式和檢索指令。元搜索引擎給出一個(gè)全局外部模式,用以接受用戶檢索輸 入和結(jié)果輸出。 元搜索引擎有多種分類方式【2 2 】,按功能劃分包括集成搜索引擎和多 線索式搜索引擎;按運(yùn)行方式的差異可分為桌面型元搜索引擎和基于w e b 的元搜索引擎;按照工作方式可分為并行處理式和串行處理式兩類。 與獨(dú)立搜索引擎相比,元搜索引擎不需要維護(hù)龐大的索引數(shù)據(jù)庫(kù),也 不需要網(wǎng)絡(luò)蜘蛛去采集網(wǎng)頁(yè)。具體說(shuō)來(lái),元搜索引擎主要由三部分組成 2 3 1 : 請(qǐng)求提交代理、檢索接口代理和結(jié)果顯示代理。如圖2 1 所示。 圖2 1 元搜索引擎的體系結(jié)構(gòu) 中國(guó)石油大學(xué)( 華東) 碩士論文第2 章元搜索引擎相關(guān)技術(shù) 請(qǐng)求提交代理負(fù)責(zé)實(shí)現(xiàn)用戶“個(gè)性化”的檢索設(shè)置要求,包括調(diào)用哪 些搜索引擎、檢索時(shí)間限制、結(jié)果數(shù)量限制等。檢索接口代理負(fù)責(zé)將用戶 的檢索請(qǐng)求“翻譯”成能滿足不同搜索引擎“本地化”要求的格式。由于 不同的搜索引擎所支持的查詢方式不同,即便是同一種方式。也有不同的 表達(dá)方法,所以必須將元搜索引擎中的查詢請(qǐng)求映射到對(duì)應(yīng)的搜索引擎 中,而且要保證語(yǔ)義信息不丟失。結(jié)果顯示代理負(fù)責(zé)所有成員搜索引擎檢 索結(jié)果的去重、合并、輸出處理等。 2 1 2 元搜索引擎的評(píng)價(jià)指標(biāo) 作為一種搜索引擎,元搜索引擎也具有搜索引擎的一些基本指標(biāo),如 查全率、查準(zhǔn)率、召回率、響應(yīng)速度、響應(yīng)時(shí)間,用戶負(fù)擔(dān)等【2 4 1 但是 元搜索引擎之間個(gè)體差異很大,很難進(jìn)行精確的評(píng)價(jià)1 2 5 。元搜索引擎的 評(píng)價(jià)主要依靠下面幾個(gè)指標(biāo): ( 1 ) 獨(dú)立搜索引擎的調(diào)度策略:有些元搜索引擎固定地調(diào)用幾個(gè)獨(dú)立 搜索引擎,用戶不能修改。有些元搜索引擎在高級(jí)特性中讓用戶選擇調(diào)用 哪些搜索引擎。這兩種策略都有不足之處,前一種將跟不上搜索引擎的發(fā) 展潮流。后一種,對(duì)于不熟悉搜索引擎的用戶來(lái)說(shuō)可能選擇不到適合自己 需要的搜索引擎。實(shí)現(xiàn)獨(dú)立搜索引擎的自動(dòng)調(diào)度必會(huì)大大提高系統(tǒng)的查準(zhǔn) 率。 ( 2 ) 是否提供足夠的檢索選項(xiàng):包括是否提供高級(jí)檢索服務(wù),是否可 以限定最長(zhǎng)檢索時(shí)間,是否可以設(shè)置每個(gè)搜索引擎返回的結(jié)果數(shù)量是否 可以設(shè)置每頁(yè)顯示的結(jié)果數(shù)目等。檢索選項(xiàng)越多,用戶使用的時(shí)候就越靈 活。這也是衡量元搜索引擎性能的一個(gè)標(biāo)準(zhǔn)。但是由于元搜索引擎的檢索 特性向它所調(diào)用的獨(dú)立搜索引擎檢索特性的轉(zhuǎn)換所具有的復(fù)雜性,許多元 搜索引擎不提供復(fù)雜的檢索特性。 ( 3 ) 對(duì)搜索結(jié)果的處理能力:對(duì)獨(dú)立搜索引擎返回結(jié)果的處理能力是 評(píng)價(jià)元搜索引擎性能的又一重要指標(biāo)【2 6 】。它包括結(jié)果的處理和顯示。 ( 4 ) 相關(guān)度評(píng)價(jià):每個(gè)搜索引擎開發(fā)商為了將最滿意的結(jié)果放到最前 面,不遺余力地創(chuàng)建出各種相關(guān)度指標(biāo)體系,雖然沒(méi)有一種方法是完美的, 但都有戧新和獨(dú)到之處。 7 中國(guó)石油大學(xué)( 華東) 碩士論文第2 章元搜索引擎相關(guān)技術(shù) 2 1 3 國(guó)內(nèi)外相關(guān)研究工作 利用o o o g l e 、百度和雅虎等搜索引擎搜索元搜索引擎,并通過(guò)一些著 名的引擎指南網(wǎng)站所提供的線索來(lái)確定有代表性的國(guó)內(nèi)外元搜索引擎,然 后對(duì)檢索出的元搜索引擎進(jìn)行簡(jiǎn)單的測(cè)試,從中選出2 個(gè)中文元搜索引擎 和4 個(gè)英文元搜索引擎 2 7 - 3 2 1 ,如表2 1 所示: 表2 1 國(guó)內(nèi)外元搜索引擎的性能比較 測(cè)試項(xiàng)萬(wàn)緯搜星 d o g p i l e m e t a c r a w l e rm a m m as e a r c h c o r n 主頁(yè)設(shè)置較好一般好好好好 搜索范圍 8 個(gè) 未顯示 6 個(gè)7 個(gè)1 4 個(gè)5 個(gè) 可選不可選不可選可選可選 響應(yīng)時(shí)間可選 不可選 不可選不可選可選不可選 分類搜索無(wú)有無(wú)無(wú)無(wú)有 高級(jí)檢索有無(wú)有有有無(wú) 短語(yǔ)檢索無(wú)無(wú)有有有有 布爾檢索 a n d 、 空格 a n d 、a n d 、o r 、a n d 、a n d 、o r 、 o ro r 、n o tn o t 、a n do r 、 n o ,r n o tn o t 限制檢索無(wú)無(wú)有有 無(wú)無(wú) 二次檢索 無(wú)無(wú)無(wú)無(wú)無(wú)有 相關(guān)檢索無(wú)無(wú) 無(wú)無(wú)有有 結(jié)果選擇可選可選可選可選可選 可選 結(jié)果排序相關(guān)度無(wú)相關(guān)度相關(guān)度相關(guān)度相關(guān)度 方式 鏈接情況般一般一般一般一般一般 檢索結(jié)果 有 有無(wú)無(wú)無(wú)有 有無(wú)重復(fù) 由此看來(lái),目前運(yùn)營(yíng)的元搜索引擎各具特色,功能各有側(cè)重,完全“理 想”的尚不多見。在出現(xiàn)的一大批元搜索引擎中,以英文元搜索引擎較多, 發(fā)展較好,而中文元搜索引擎的發(fā)展還比較緩慢,目前較著名的有萬(wàn)緯搜 8 中國(guó)石油大學(xué)( 華東) 碩士論文第2 章元搜索引擎相關(guān)技術(shù) 索引擎1 2 q 。 搜索前的預(yù)處理和對(duì)搜索返回結(jié)果的集成是元搜索引擎的核心。個(gè)性 化、智能化和專業(yè)化將是未來(lái)元搜索引擎的發(fā)展方向圓。在未來(lái)的互聯(lián)網(wǎng) 信息檢索領(lǐng)域,元搜索引擎會(huì)有更廣闊的應(yīng)用前景,尤其是大多數(shù)中文元 搜索引擎還處于起步階段,發(fā)展余地很大。相信在不久的將來(lái)會(huì)有更多、 更強(qiáng)的中文元搜索引擎出現(xiàn)。 2 2a g e n t 技術(shù) 2 2 1a g e n t 的基本概念 ( 1 ) a g e n t 的概念 a g e n t 技術(shù)是近年來(lái)研究的一個(gè)熱點(diǎn),它是從人工智能的一個(gè)分支 d a i ( d i s t r i b u t e da r t i f i c i a li n t e l l i g e n c e ) 發(fā)展起來(lái)的,從2 0 世紀(jì)8 0 年代 才開始研究,直到2 0 世紀(jì)9 0 年代中才得到廣泛的認(rèn)同目前對(duì)a g e n t 和多a g e n t 系統(tǒng)的研究主要集中在以下方面【3 3 】;a g e n t 和多a g e n t 理論、 a g e n t 的體系結(jié)構(gòu)和組織、a g e n t 語(yǔ)言、a g e n t 之間的協(xié)作和協(xié)調(diào)、通信 和交互技術(shù)、移動(dòng)a g e n t 、多a g e n t 學(xué)習(xí)以及多a g e n t 系統(tǒng)應(yīng)用等。 a g e n t 一詞一直被翻譯成。代理”,也有人把它翻譯為“智能代理”, 廣義上它是指具有智能的任何實(shí)體,包括人類、智能硬件( 如機(jī)器人) 和 智能軟件。f i p a ( f o u n d a t i o nf o ri n t e l l i g e n tp h y s i c a la g e n t ) 是致力于a g e n t 標(biāo)準(zhǔn)化的組織,a g e n t 被該組織定義為 3 4 1 :“駐留于環(huán)境中的實(shí)體,它可 以解釋從環(huán)境中獲得,反映環(huán)境中所發(fā)生事件的數(shù)據(jù),并且執(zhí)行對(duì)環(huán)境產(chǎn) 生影響的行為”。a g e n t 也能為用戶執(zhí)行特定的任務(wù)、具有一定程度的智 能,以允許自主執(zhí)行部分任務(wù)。 a g e n t 與對(duì)象既有相同之處,又有很大的不同。a g e n t 和對(duì)象一樣具 有標(biāo)志、狀態(tài)、行為和接口。但a g e n t 和對(duì)象相比主要有以下差異: a g e n t 具有智能,通常擁有自己的知識(shí)庫(kù)和推理機(jī),而對(duì)象則一 般不具備智能性。 a g e n t 能夠自主地決定是否對(duì)來(lái)自其它a g e n t 的信息做出響應(yīng), 而對(duì)象卻必須按照外界的要求行動(dòng)。也就是說(shuō)a g e n t 系統(tǒng)能封裝行為,而 9 中國(guó)石油大學(xué)( 華東) 碩士論文第2 章元搜索引擎相關(guān)技術(shù) 對(duì)象只能封裝狀態(tài),不能封裝行為,對(duì)象的行為取決于外部的方法調(diào)用。 a g e n t 之間的通信通常采用支持知識(shí)傳遞的通信語(yǔ)言。 a g e n t 可以被看作是一類特殊的對(duì)象,即具有心智狀態(tài)和智能的對(duì) 象。a g e n t 本身可以通過(guò)對(duì)象技術(shù)構(gòu)造,而且目前大多數(shù)a g e n t 都采用了 對(duì)象技術(shù)。 圖2 - 2 給出了a g e n t 與環(huán)境交互的典型行為圖【3 5 】。a g e n t 為了影響環(huán) 境而產(chǎn)生動(dòng)作輸出。a g e n t 接收從環(huán)境中感知的輸入,并產(chǎn)生輸出動(dòng)作作 用于環(huán)境。這種交互通常是一個(gè)連續(xù)不斷的過(guò)程。在復(fù)雜適度的環(huán)境中, a g e n t 不能完全控制自己的環(huán)境,最多只能部分地控制,即對(duì)環(huán)境產(chǎn)生影 響。 圖2 - 2 a g e n t 行為圖 ( 2 ) a g e n t 的特性 盡管目前人們對(duì)a g e n t 還沒(méi)有非常確切的概念定義,但是業(yè)界普遍認(rèn) 為,a g e n t 一般應(yīng)具備以下屬性: a ) 自治性:a g e n t 能在沒(méi)有人類或其它a g e n t 直接干涉和指導(dǎo)的情況 下獨(dú)立運(yùn)行,并能獨(dú)立地根據(jù)其內(nèi)部狀態(tài)和感知的環(huán)境信息決定和控制內(nèi) 部狀態(tài)和自身的行為。 b ) 反應(yīng)性:a g e n t 能夠通過(guò)各種接1 :3 和通信機(jī)制感知外部環(huán)境的變化 并及時(shí)產(chǎn)生復(fù)雜和適當(dāng)?shù)姆磻?yīng)。 c ) 社會(huì)性:a g e n t 擁有其它實(shí)體( a g e n t 、人、對(duì)象以及它們構(gòu)成的 l o 中國(guó)石油大學(xué)( 華東) 碩士論文第2 章元搜索引擎相關(guān)技術(shù) 環(huán)境) 的信息和知識(shí),并能夠通過(guò)某種通信語(yǔ)言與這些實(shí)體進(jìn)行交互和協(xié) 作。 d ) 主動(dòng)性:a g e n t 能夠根據(jù)承諾采取主動(dòng)行為,表現(xiàn)出目標(biāo)驅(qū)動(dòng)的特 性。 e ) 適應(yīng)性:a g e n t 是具有學(xué)習(xí)功能的智能體。 f ) 理性:a g e n t 沒(méi)有沖突的目標(biāo),其動(dòng)作和行為總是基于內(nèi)部已有的 目標(biāo),而且行為有助于目標(biāo)的實(shí)現(xiàn),而不會(huì)故意阻止其目標(biāo)的實(shí)現(xiàn)。 g ) 友好性:a g e n t 總是能盡可能地完成其它a g e n t 的要求。 h ) 交互性:a g e n t 能夠和環(huán)境以及其它a g e n t 進(jìn)行通信。通過(guò)交互可 以報(bào)告自己的狀態(tài)和感知環(huán)境的變化。交互是a g e n t 最重要的屬性之一。 i ) 移動(dòng)性:a g e n t 能夠?qū)⒆约簭囊粋€(gè)環(huán)境移動(dòng)到另一個(gè)環(huán)境,并在新 環(huán)境下正常運(yùn)行。 j ) 智能性:a g e n t 的狀態(tài)由信念、目標(biāo)、規(guī)劃和意圖等心智狀態(tài)構(gòu)成, 并通過(guò)符號(hào)語(yǔ)言與其它a g e n t 進(jìn)行交互。 k ) 代理性:a g e n t 可以代表某人或某實(shí)體為其獲得利益或代其行使職 權(quán)。 d 不可預(yù)測(cè)性:a g e n t 的行為具有某種不確定性。即使知道a g e n t 的 內(nèi)部狀態(tài)也不能完全預(yù)測(cè)a g e n t 的行為方式。 m 1 協(xié)作性:a g e m 可以為達(dá)到相同目標(biāo)而協(xié)同工作。 n ) 可信性:a g e n t 遵從a g e n t 社會(huì)的法則,從這個(gè)角度上看a g e n t 是 可信賴的, o ) 協(xié)調(diào)性:一個(gè)a g e n t 可以在與其它a g e n t 共享的環(huán)境下工作,其 行為可以通過(guò)規(guī)劃、工作流和其它管理機(jī)制進(jìn)行協(xié)調(diào)。 p ) 健壯性:a g e n t 能夠處理一些錯(cuò)誤和不完整數(shù)據(jù)。 q ) 持續(xù)性:a g e n t 是一個(gè)持續(xù)運(yùn)行的實(shí)體,它可以有持續(xù)性的目標(biāo), 也可以不斷產(chǎn)生新的目標(biāo)。 對(duì)于一個(gè)具體的a g e n t 系統(tǒng)而言,并不一定具有上述所有特點(diǎn)。研究 人員通常將只具有屬性州) 的a g e n t 視為弱a g e n t 。而人工智能領(lǐng)域的研 究人員對(duì)強(qiáng)a g e n t 概念更感興趣。他們認(rèn)為強(qiáng)a g e n t 應(yīng)具有更多的人類特 中國(guó)石油大學(xué)( 華東) 碩士論文第2 章元搜索引擎相關(guān)技術(shù) 征,如知識(shí)、信念、期望和意圖等心智狀態(tài)特征,甚至具有感情特征1 3 6 j 。 ( 3 ) a g e n t 的結(jié)構(gòu) 一般認(rèn)為一個(gè)可以在軟件環(huán)境中進(jìn)行智能活動(dòng)的a g m ,由四大要素 組成,即行為( b e h a v i 0 0 、資源( r e s o u r c e ) 、意念( i n t e n t i o n ) 和愿望( d e s i r e ) , 分別描述了a g e n t 的活動(dòng)特性、信息特性、決策特性和動(dòng)機(jī)特性。一個(gè) a g e n t 的行為包括感知行為、效應(yīng)行為、通訊行為和認(rèn)知( 推理) 行為;資 源包括信念( 即a g e n t 關(guān)于自身、環(huán)境和其它a g e n t 的模型) 和知識(shí)( 專業(yè)知 識(shí)、專業(yè)規(guī)劃、通訊協(xié)議知識(shí)等) ;意念是a g e n t 受到外部條件觸發(fā)或內(nèi) 部愿望的驅(qū)使所進(jìn)行規(guī)劃動(dòng)作的執(zhí)行過(guò)程;愿望是a g e n t 所承擔(dān)角色的目 標(biāo)和職責(zé),集中反映了a g e n t 的行為動(dòng)機(jī)。根據(jù)以上描述可以給出a g e n t 的基本結(jié)構(gòu)圖如2 - 3 所示。 圖2 3 代理的基本結(jié)構(gòu) 2 2 2 _ u i t i - a g e n t 系統(tǒng) ( 1 ) m a s 的概念 多a g e n t 協(xié)作系統(tǒng)( m u l t i - a g e n ts y s t e m ,簡(jiǎn)稱m a s ) 是由多個(gè)a g e n t 組成的系統(tǒng),其形成一個(gè)計(jì)算機(jī)網(wǎng)絡(luò)環(huán)境下完成特定任務(wù)的a g e n t 群,其 中每個(gè)a g e n t 通過(guò)通訊接口與其它a g e n t 進(jìn)行交互。系統(tǒng)內(nèi)的各個(gè)a g e n t 不一定都運(yùn)行在同一個(gè)計(jì)算機(jī)上,可能是異構(gòu)計(jì)算機(jī)環(huán)境。m a s 具有以 下優(yōu)勢(shì): 中國(guó)石油大學(xué)( 華東) 碩士論文第2 章元搜索引擎相關(guān)技術(shù) 通過(guò)a g e n t 之間的交互通訊,可以開發(fā)新的任務(wù)問(wèn)題求解方法來(lái) 解決不完全的、不確定的知識(shí)。 通過(guò)a g e n t 之間的相互合作,m a s 系統(tǒng)不僅改善了每個(gè)a g e n t 的基本能力,而且可以從a g e n t 之間的交互中進(jìn)一步理解社會(huì)活動(dòng)。 可以用模塊化風(fēng)格來(lái)組織系統(tǒng)。根據(jù)a g e n t 描述可知,a g e n t 具 有類似于人的特征,因此采用模擬人類社會(huì)的組織結(jié)構(gòu)來(lái)構(gòu)造多a g e n t 系統(tǒng)的體系結(jié)構(gòu)將會(huì)帶來(lái)諸多好處。首先人類在社會(huì)生產(chǎn)活動(dòng)中存在著許 多有效的組織形式,把這些組織形式映射到m a s 的設(shè)計(jì)上可獲得多種不 同特點(diǎn)的m a s ;其次人們對(duì)人類社會(huì)的組織形式有一種很強(qiáng)的理解力, 因此采用這種方式構(gòu)造的m a s 更易為軟件開發(fā)設(shè)計(jì)人員理解和接受;另 外人類社會(huì)活動(dòng)中存在著許多智能活動(dòng),把這些智能活動(dòng)引入到m a s 中 可明顯提高m a s 系統(tǒng)的問(wèn)題處理能力。 ( 2 ) m a s 的結(jié)構(gòu) m u l t i - a g e n t 系統(tǒng)為了更好的進(jìn)行合作,必須具有良好的體系結(jié)構(gòu)。 m u l t i a g e n t 系統(tǒng)的基本結(jié)構(gòu)可分為以下三種口7 ) : 上下級(jí)結(jié)構(gòu) 上下級(jí)結(jié)構(gòu)的多a g e n t 系統(tǒng)是根據(jù)標(biāo)準(zhǔn)的任務(wù)分層而構(gòu)建的,下級(jí)從 上級(jí)那里得到命令、要求和數(shù)據(jù),經(jīng)過(guò)計(jì)算處理后,再將計(jì)算結(jié)果反饋回 上級(jí)。這種結(jié)構(gòu)的特點(diǎn)是任務(wù)分層清晰,a g e n t 之間信息流動(dòng)的控制較為 容易,缺點(diǎn)是大大加重了高層節(jié)點(diǎn)的工作量,同時(shí)造成系統(tǒng)對(duì)高層節(jié)點(diǎn)的 失誤很敏感。結(jié)構(gòu)如圖2 - 4 所示: 對(duì)等結(jié)構(gòu) 圖2 4m u l t i a g e n t 的上下級(jí)結(jié)構(gòu)圖 中國(guó)石油大學(xué)( 華東) 碩士論文 第2 章元搜索引擎相關(guān)技術(shù) 在多a g e n t 系統(tǒng)中,各個(gè)a g e n t 之間需要較多的直接交互,不需要管 理者時(shí),對(duì)等結(jié)構(gòu)就表現(xiàn)出了它的優(yōu)越性。如圖2 5 所示,與上下級(jí)結(jié)構(gòu) 不同的是各個(gè)a g e n t 在整個(gè)系統(tǒng)中的地位是相等的,不依賴于某個(gè)上級(jí)下 達(dá)指令,并建立了與相關(guān)a g e n t 的直接聯(lián)系。這樣以來(lái),就大大加快了信 息流動(dòng)的效率。同時(shí),由于消除了高層節(jié)點(diǎn)間的依賴,從而提高了系統(tǒng)的 健壯性。這種系統(tǒng)帶來(lái)的問(wèn)題是信息的流動(dòng)顯著增加,信息控制變得更為 復(fù)雜。 圖2 - 5m u l t i - a g e n t 的對(duì)等結(jié)構(gòu)圖 分層結(jié)構(gòu) 分層結(jié)構(gòu)綜合了上述兩種結(jié)構(gòu)的特點(diǎn),既包含了上下級(jí)間的控制關(guān) 系,又可以建立相關(guān)a g e n t 之間的直接聯(lián)系,提高了信息交流的靈活性。 結(jié)構(gòu)如圖2 - 6 所示: 圖2 - 6m u l t i - a g e n t 的分層結(jié)構(gòu)圖 ( 3 ) 多a g e n t 的交互 從a g e n t 的定義中可以看出,a g e n t 對(duì)外界( 包括軟件環(huán)境和其它環(huán) 境) 消息的獲取可分為兩種方式:一種是通過(guò)感知器去感知外界的變化; 另一種是通過(guò)通訊器的相互交流來(lái)獲取外界消息。多a g e n t 的交互就是基 1 4 中國(guó)石油大學(xué)( 華東) 碩士論文第2 章元搜索引擎相關(guān)技術(shù) 于這兩種方式的交互。 基于前一種方式的交互被稱為黑板式交互。這里的黑板可以是共享的 數(shù)據(jù)庫(kù)、數(shù)據(jù)文件、內(nèi)存數(shù)據(jù)結(jié)構(gòu)、w 曲頁(yè)面等,黑板從內(nèi)容上可以劃 分成幾個(gè)分區(qū),每個(gè)分區(qū)存放不同的內(nèi)容信息;從存取方式上可分為專寫 專讀( 一個(gè)a g e n t 往上寫,另一個(gè)a g e n t 讀) 、專寫多讀( 一個(gè)a g e n t 往上寫, 多個(gè)a g e n t 讀) 、多寫專讀( 多個(gè)a g e n t 往上寫,一個(gè)a g e n t 讀) 和多寫多讀 ( 多個(gè)a g e n t 往上寫,多個(gè)a g e n t 讀) 方式,還可以對(duì)多個(gè)a g e n t 進(jìn)行某種 限制,如某一類型的a g e n t 可以讀或某一類型的a g e n t 可以寫。黑板式交 互是一種異步的交互方式。 基于后一種方式的交互被稱為通訊原語(yǔ)式交互。通訊原語(yǔ)式交互是一 種同步交互方式,通過(guò)信道進(jìn)行直接傳輸。其傳輸可以是一對(duì)一和一對(duì)多 方式,與黑板式交互一樣,在一對(duì)多的傳輸方式中,多個(gè)a g e n t 可以根據(jù) 具體需要進(jìn)行分類。 多a g e n t 之間的交互是構(gòu)造m a s 系統(tǒng)的前提。幾個(gè)a g e n t 在一起永 遠(yuǎn)是幾個(gè)獨(dú)立的個(gè)體a g e n t ,只有依靠交互手段實(shí)現(xiàn)a g e n t 間的協(xié)調(diào)合作 才能構(gòu)成一個(gè)完整的系統(tǒng)。本課題采用人工智能中的a g e n t 技術(shù),在m a s 的基礎(chǔ)上,設(shè)計(jì)開發(fā)了一個(gè)基于多a g e n t 協(xié)作的個(gè)性化元搜索引擎原型系 統(tǒng)。 2 2 3a g e r r t 技術(shù)的應(yīng)用 智能a g e n t 具有的自治、學(xué)習(xí)及合作性等特點(diǎn),為實(shí)現(xiàn)w e b 信息檢 索智能化提供了有力支持 3 s 】。可以在w e b 上建立各種代替人類完成相應(yīng) 服務(wù)的智能a g e n t ,由它們相互配合,協(xié)助用戶完整、準(zhǔn)確、有效地獲取 信息。 a g e n t 技術(shù),個(gè)性化搜索引擎和智能信息檢索是當(dāng)今國(guó)際、國(guó)內(nèi)的研 究熱點(diǎn)問(wèn)題。如何從龐雜的因特網(wǎng)中抽取相關(guān)信息一直是擺在各國(guó)科學(xué)家 面前的一道難題,同時(shí)也是在計(jì)算機(jī)科學(xué)研究領(lǐng)域取得較快進(jìn)展和廣泛應(yīng) 用的一個(gè)分支。在這個(gè)領(lǐng)域產(chǎn)生了各種研究方法和實(shí)現(xiàn)手段,將a g e n t 和個(gè)性化技術(shù)應(yīng)用于搜索引擎是一種比較先進(jìn)的方法 3 9 1 ,采用a g e n t 實(shí) 現(xiàn)自主的行為和個(gè)性化的載體,完成系統(tǒng)中各個(gè)相對(duì)獨(dú)立的功能模塊。對(duì) 中國(guó)石油大學(xué)( 華東) 碩士論文 第2 章元搜索引擎相關(guān)技術(shù) 于信息檢索,較流行的是采用b a go f w o r d s ,即在不考慮詞序的情況下進(jìn) 行非語(yǔ)法的分析,運(yùn)用與人工智能相結(jié)合的統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)的方法對(duì)文 本信息進(jìn)行結(jié)構(gòu)化處理,使其能夠接受標(biāo)準(zhǔn)化查詢。實(shí)現(xiàn)時(shí)大量采用向量 空問(wèn)模型( v e c t o rs p a c em o d e l ) 處理大規(guī)模的文檔,使用a g e n t 技術(shù)代理用 戶檢索請(qǐng)求,采用跨平臺(tái)的語(yǔ)言( 如j a v a ) 和便于與用戶交互的方式( 如 b r o w s e r 方式) ,融合用戶的行為模式,以提高檢索的精度和廣度。國(guó)內(nèi)在 如何利用a g e n t 實(shí)現(xiàn)智能化方面也進(jìn)行了許多探討并做了大量的實(shí)踐工 作。在信息檢索領(lǐng)域,文檔的自動(dòng)聚類和理解也是一個(gè)研究重點(diǎn)。另外由 于中文和西文在編碼和表達(dá)方式上有很大不同,因此國(guó)內(nèi)在中文檢索的處 理上也投入了大量精力。 2 3w e b 挖掘技術(shù) ( 1 ) w e b 挖掘的概念 當(dāng)前搜索引擎所使用的兩種技術(shù)都難以解決找信息難的問(wèn)題,造成這 種困難的實(shí)質(zhì)在于搜索引擎缺乏知識(shí)處理能力和理解能力,對(duì)要檢索的信 息僅僅采用機(jī)械的關(guān)鍵詞匹配來(lái)實(shí)現(xiàn)。把信息檢索從目前的基于關(guān)鍵詞層 面提高到基于知識(shí)( 或概念) 層面,是解決問(wèn)題的根本和關(guān)鍵。為了解決 w e b 信息檢索中存在的各種問(wèn)題,e t z i o n i 提出了w e b 挖掘( w e bm i n i n g ) 的概念【鐘】:“在已知數(shù)據(jù)樣本的基礎(chǔ)上,通過(guò)歸納學(xué)習(xí)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì) 分析等方法得到數(shù)據(jù)對(duì)象間的內(nèi)在特性,據(jù)此采用信息過(guò)濾技術(shù)在網(wǎng)絡(luò)中 提取用戶感興趣的信息或者更高層次的知識(shí)和規(guī)律,簡(jiǎn)單的說(shuō),就是利用 數(shù)據(jù)挖掘技術(shù)從w e b 文檔和w e b 活動(dòng)中發(fā)現(xiàn)、抽取人們感興趣的、潛在 的有用模式和隱藏的信息。”w e b 挖掘的研究對(duì)象是以半結(jié)構(gòu)化和無(wú)結(jié)構(gòu) 文檔為中心的w e b ,這些數(shù)據(jù)沒(méi)有統(tǒng)一的模式,數(shù)據(jù)的內(nèi)容和表示相互 交織,數(shù)據(jù)內(nèi)容基本上沒(méi)有語(yǔ)義信息描述,僅僅依靠h t m l
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 智慧物流技術(shù)與實(shí)務(wù) 教案全套 潘艷君 項(xiàng)目1-6 智慧物流概述-智慧物流的綜合應(yīng)用
- 2025年環(huán)保產(chǎn)業(yè)園區(qū)產(chǎn)業(yè)集聚與協(xié)同發(fā)展中的環(huán)保產(chǎn)業(yè)綠色技術(shù)創(chuàng)新報(bào)告
- 2025年工業(yè)互聯(lián)網(wǎng)平臺(tái)數(shù)據(jù)清洗算法在智能教育領(lǐng)域的應(yīng)用對(duì)比報(bào)告
- 金融與投資行業(yè)洞察報(bào)告:2025年金融科技在金融衍生品交易中的應(yīng)用與創(chuàng)新
- 美妝行業(yè)個(gè)性化定制服務(wù)模式在美妝行業(yè)市場(chǎng)拓展中的應(yīng)用報(bào)告
- 2025年工業(yè)互聯(lián)網(wǎng)平臺(tái)RFID技術(shù)在智能工廠生產(chǎn)安全風(fēng)險(xiǎn)控制中的應(yīng)用報(bào)告
- 做微商的心得體會(huì)經(jīng)典十四篇
- 無(wú)人機(jī)傳感器技術(shù) 8.1.陀螺儀在航空領(lǐng)域及無(wú)人機(jī)飛控中的應(yīng)用
- 無(wú)人看守設(shè)備管理制度
- ktv安全風(fēng)險(xiǎn)管理制度
- 2025汾西礦業(yè)井下操作技能人員招聘300人(山西)筆試參考題庫(kù)附帶答案詳解析集合
- 伊春市紀(jì)委監(jiān)委所屬事業(yè)單位招聘筆試真題2024
- 2025餐廳管理與服務(wù)合同
- 2025年全國(guó)“銀行業(yè)金融消費(fèi)者權(quán)益保護(hù)”應(yīng)知應(yīng)會(huì)知識(shí)考試題與答案
- (期末復(fù)習(xí))??贾R(shí)清單(八大單元52個(gè)小知識(shí)點(diǎn))-2024-2025學(xué)年三年級(jí)下冊(cè)數(shù)學(xué)期末備考總復(fù)習(xí)(人教版)
- 社會(huì)工作者的政策與法律試題及答案
- 2025年時(shí)事政治試題庫(kù)(含答案)
- 2025年農(nóng)村經(jīng)濟(jì)發(fā)展考試試卷及答案
- 充電樁設(shè)備生產(chǎn)建設(shè)項(xiàng)目投資可行性報(bào)告
- T/CECS 10011-2022聚乙烯共混聚氯乙烯高性能雙壁波紋管材
- 2025屆江蘇省宿遷市名校八下數(shù)學(xué)期末檢測(cè)試題含解析
評(píng)論
0/150
提交評(píng)論