（計算機軟件與理論專業(yè)論文）基于多agent智能搜索引擎模型研究.pdf

上傳人：伐*** IP屬地：寧夏上傳時間：2019-12-15 格式：PDF 頁數(shù)：102 大小：2.15MB 積分：0 舉報 版權(quán)申訴

（計算機軟件與理論專業(yè)論文）基于多agent智能搜索引擎模型研究.pdf_第2頁

（計算機軟件與理論專業(yè)論文）基于多agent智能搜索引擎模型研究.pdf_第3頁

（計算機軟件與理論專業(yè)論文）基于多agent智能搜索引擎模型研究.pdf_第4頁

（計算機軟件與理論專業(yè)論文）基于多agent智能搜索引擎模型研究.pdf_第5頁

已閱讀5頁，還剩97頁未讀，繼續(xù)免費閱讀

（計算機軟件與理論專業(yè)論文）基于多agent智能搜索引擎模型研究.pdf.pdf 免費下載

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

太原理【人學(xué)碩十研究生學(xué)佗論文 r 7 8 8 3 嘎6 基于多a g e n t 智能搜索引擎模型研究摘要隨著i n t e r n e t 的迅速發(fā)展，網(wǎng)上信息資源越來越豐富，網(wǎng) 絡(luò)已經(jīng)成為人們獲得信息的必要途徑和重要手段，但是這種網(wǎng) 上信息浩繁，具有分布、動態(tài)變化、結(jié)構(gòu)復(fù)雜等特點，使得用戶根本無法完全了解龐大的、瞬息萬變的信息資源。在這種情況f ，傳統(tǒng)的功能固定的搜索引擎已經(jīng)不能滿足用戶需求，人們期盼著新的、具備了智能性和用戶可區(qū)分的新一代搜索引擎的出現(xiàn)。本文在分析研究了國內(nèi)外的搜索引擎技術(shù)的發(fā)展和未來趨勢，結(jié)合人工智能技術(shù)的最新研究成果一a g e n t 技術(shù)，提出r 基于智能a g e n t 的搜索引擎系統(tǒng)研究，并以此為體系架構(gòu)，在 r o b o t 和用戶界面方面做了大量的優(yōu)化和個性化工作。采用興趣模型，多用戶協(xié)作等人工智能模型使得搜索引擎完全實現(xiàn)了個性化服務(wù)的特點，并提出了對信息的“推一拉”操作融為一體的新型搜索引擎模型。其主要工作和結(jié)果如下： ( 1 ) 分析和研究了傳統(tǒng)搜索引擎的技術(shù)特點和主要的體系架構(gòu)，對搜索引擎的發(fā)展歷程和未來的發(fā)展方向做了較詳細的探討，從而明確指出了未來的搜索引擎發(fā)展趨勢就是要引入 a g e n t 技術(shù)和個性化、專業(yè)化的發(fā)展道路。 ( 2 ) 分析和研究丫a g e n t 技術(shù)的主要類別和各自的特點，結(jié) 合搜索引擎的特點和實現(xiàn)因素的考慮，選擇了m u l t i a g e n t 模型來實現(xiàn)搜索引擎系統(tǒng)。實驗表明：m u l t i a g e n t 模型是容太原理1 ：火學(xué)碩士研究生學(xué)位論文易實現(xiàn)并符合搜索引擎自身特點的目前技術(shù)最為實用的a g e n t 實現(xiàn)模型。 ( 3 ) 在a g e n t 模型和搜索引擎功能架構(gòu)的基礎(chǔ)上，引入并改進了多個人工智能的算法和思想，結(jié)合h t m l 代碼自身的特點，大力提高了搜索引擎系統(tǒng)的智能性和用戶個性，其主要技術(shù)包括： a ) 在r o b o t 方面，結(jié)合h t m l 代碼的特點，在強調(diào)關(guān)鍵詞和超鏈權(quán)重的基礎(chǔ)上，提高了r o b o t 在網(wǎng)頁搜索和下載過程中的智能性，節(jié)省了r o b o t 方面的開支。 b ) 通過標(biāo)記樹以及分層標(biāo)記符的劃分，提高了系統(tǒng)對于文檔核心意義判定的麓力。 c ) 采用了用戶興趣度研究，多用戶興趣協(xié)作等人工智能模型和思想，提高用戶界面a g e n t 的智能性和個性，并將信息“推一拉”理論引入到搜索引擎中，提出一個全薪的搜索引擎模型。 ( 4 ) 對予以上a g e n t 的算法和思想，考慮它們的具體實現(xiàn)情況，給出了a g e n t 具體的實現(xiàn)算法和圖示講解，加深對于a g e n t 的了解和熟悉。關(guān)鍵詞：搜索引擎，a g e n t ，信息檢索，個性化服務(wù) 太原理i ：人學(xué)碩十研究生學(xué)位論文 r e s e a r c h0 nm o d e l0 fs e a r c h e n g l n eb a s e do nm u l t i a g e n t a b s t r a c t a l o n gw i t ht h er a p i dd e v e l o p m e n to fi n t e m e t ，t h ei n f o r m a t i o n r e s o u r c e si nt h ew e ba r eb e c o m i n gm o r ea n dm o r ea b u n d a n t ，a n d t h ei n t e r n e th a sa l r e a d yb e c o m eak i n do fn e c e s s a r ya n di m p o r t a n t a c c e s sf o r p e o p l e t o g a i n t h ei n f o r m a t i o n h o w e v e rw e b i n f o r m a t i o nh a ss o m ec h a r a c t e r i s t i c s ，s u c ha sv a s t n e s s ，d i s t r i b u t i o n ， c o m p l e x i t y , w h i c hm a k eu s e r u n a b l et o c o m p l e t e l yu n d e r s t a n d h u g ea n dv o l a t i l ei n f o r m a t i o n 。i nt h i sc a s e ，t h et r a d i t i o n a ls e a r c h e n g i n e s ，w h o s ef u n c t i o n sa r ef i x e d ，d o n tc a s tf o rt h eu s e r sd e s i r e u s e r se x p e c tt ou s ean e wg e n e r a t i o n a ls e a r c he n g i n e ，w h i c hh a s i n t e l l i g e n c ea n di n d i v i d u a t i o n t h i sp a p e rh a sa n a l y s e dt h ed e v e l o p m e n ta n dt e n d e n c yi nt h e i i i 太原理：大學(xué)碩十研究生學(xué)位論文思想超前的各公司都有自己的網(wǎng)站。根據(jù)c 硪i c ( 中國互聯(lián)網(wǎng)絡(luò)信息中心) 2 0 ( ) 4 年7 月在京發(fā)布的最新的中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告，截止到2 0 0 4 年6 月： o 同止，我國上網(wǎng)計算機數(shù)有約3 6 3 0 萬臺。我國上網(wǎng)用戶人數(shù)約8 7 0 0 萬人，除計算機外同時使用其它設(shè)備( 移動終端、信息家電等) 上網(wǎng)的用戶人數(shù)為2 6 0 萬。c n 下注冊的域名總數(shù)為3 8 2 2 1 6 個， w w w 站點數(shù)( 包括c n 、c o m 、k e 丁、0 r g 下的網(wǎng)站) 約6 2 6 6 0 0 個，我圉國際線路的總?cè)萘繛? 3 9 4 l m 。關(guān)于網(wǎng)頁的數(shù)目沒有具體的統(tǒng)計數(shù)據(jù)，但根據(jù)科學(xué)雜志上提供的集合估計法，通過中國幾個主要搜索引擎獲得的搜索數(shù)據(jù)( 天網(wǎng)、c h i n a r e n 、新浪、搜狐、網(wǎng)易) ，我們可以估計到當(dāng) 前中國擁有的網(wǎng)頁數(shù)已經(jīng)超過8 0 0 0 萬。但是掘我所知，它們卻沒有建立起一條有效的信息提供途徑。絕大多數(shù)的網(wǎng)站都是僅僅通過瀏覽的方式提供內(nèi)容，即使是經(jīng)過精心編排、組織合理的網(wǎng)站，也會有7 0 到8 0 的網(wǎng)頁內(nèi)容不能被有效查閱。網(wǎng)民對信息的需求越來越大，同時也越來越?jīng)]有耐心。搜索引擎的出現(xiàn)改變了人們獲取信息的方式，利用搜索引擎可以快速地找到需要的信息。目前，搜索引擎是僅次于門戶的互聯(lián)網(wǎng)第二大核心技術(shù)，伴隨互聯(lián)網(wǎng)的普及和網(wǎng)上信息的爆炸式增長，它越來越引起人們的重視。1 1 1 2 論文選題及其研究意義搜索引擎的出現(xiàn)為我們在i n t e r n e t 上獲取信息提供了一種有效的手段但隨著i n t e r n e t 的發(fā)展和網(wǎng)上信息量的激增，人們在使用中卻發(fā)現(xiàn) 要準(zhǔn)確、快速地查找自己所需的信息是越來越困難。 2 0 0 1 年，r o p e rs t a r c h 的調(diào)查指出，3 6 的互聯(lián)網(wǎng)用戶一個星期花了超過2 個小時時間在網(wǎng)上搜索；7 1 的用戶在使用搜索引擎的時候遇到過麻煩；平均搜索1 2 分鐘以后發(fā)現(xiàn)搜索受挫；搜索受挫中4 6 都是因為鏈接錯誤；絕大部分( 8 6 ) 的互聯(lián)網(wǎng)用戶感到應(yīng)當(dāng)出現(xiàn)更有效的、準(zhǔn)確的信息搜索技術(shù)。另一項出k e e n 所做的調(diào)查顯示，人們平均每天有四個問題需要從外界獲取答案；其中3 1 的人使用搜索引擎尋找答案；平均每周花費8 7 5 2 太原理j ：人學(xué)碩l ：研究生學(xué)能論文 2 1 搜索引擎定義第二章搜索引擎概述隨著i n t e r n e t 的迅速發(fā)展，網(wǎng)上的信息資源非常豐富。對于這種海量的信息，用戶單純依靠自己手工查找所需的信息，如同大海撈針一樣。因此，需要一個w e b 信息發(fā)現(xiàn)服務(wù)系統(tǒng)，它能夠在很短時間內(nèi)自動發(fā)現(xiàn)新的信息，將所發(fā)現(xiàn)的信息進行分類處理，并且在本地建立索引，這種信息自動發(fā)現(xiàn)系統(tǒng)是搜索引擎的核心。所謂搜索引擎( s e a r c he n g i n e s ) 是一個對互聯(lián)網(wǎng)上的信息資源進行搜集整理，然后供你查詢的系統(tǒng)，它包括信息搜集、信息整理和用戶查詢?nèi)糠??！? 一個好的搜索引擎系統(tǒng)還應(yīng)能夠對用戶提出的搜索請求進行處理，同時應(yīng)能夠?qū)⑺阉鞯慕Y(jié)果進行合理的組織，提交給用戶。 2 2 搜索引擎發(fā)展史搜索引擎的基本概念出現(xiàn)于2 0 世紀(jì)7 0 年代，但它真正發(fā)展和應(yīng)用卻是9 0 年代的事情，特別是在9 0 年代中期得到快速的發(fā)展。i n t e r n e t 或 i n t r a n e t 信息搜索引擎是指運行于i n t e r n e t 或i n t r a n e t 上，以i n t e r n e t 或i n t r a n e t 網(wǎng)絡(luò)中的各種信息資源為對象，以信息檢索的方式提供用戶所需信息的數(shù)據(jù)庫服務(wù)系統(tǒng)，它主要提供了信息的自動收集、自動過濾、自動索引和檢索導(dǎo)航等服務(wù)，其最關(guān)鍵的組件是能夠在海量中英文數(shù)據(jù)上進行高效全文檢索的信息管理系統(tǒng)。就搜索引擎技術(shù)應(yīng)用的發(fā)展而占，它大致上可分為以下幾個方面： l 、第一代搜索引擎搜索結(jié)果的好壞往往用反饋結(jié)果的數(shù)量來衡量，也就是浣，第一代搜索引擎“求全”。 i n f o s e e k ( w w w i n f o s e e k c o m ) ： i n f o s e e k 是以檢索的相關(guān)程度高而知名。1 9 9 9 年被d i s n e y 收購，發(fā)展與定位都做了調(diào)整，d i s n e y 將其作為入門網(wǎng)站g o c o m 的搜索引 4 太原理工大學(xué)碩士研究生學(xué)位論文和用戶髫冀透辛矗若囂竿牟：謝耐薊劐葡卜舷廷樂剛。魚圳裂巾1 強蔫幕誅氓善秭! 鏊蒯聊眇鏟紫曩肆： i j # 警引摯弱搿鞘塾轔型墼問邑k 雛嘛彰積跑鞋弘禱b 霸糕觚翱螽竊朔霉霸蹙強擎囂餮季癸援貳鏈上臻；烈圳娶勒剽掣愛護；曼芒穩(wěn)髫鬲菱e 蠹氡砭專；簞再奄菩杰蘩囊i 萋；引薹鎣薹囊蠢霪囊薹蓮離描謹；要縫壇鼢理叼聃。弛啊甏移趟聰措搜索引擎已成為一個新的研究、開發(fā)領(lǐng)域。在我看來，因為它要用到信息檢索、人工智能、計算機網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語言處理等多領(lǐng)域的理論和技術(shù)，所以具有綜合性和挑戰(zhàn)性。又由于搜索引擎有大量的用戶，有很好的經(jīng)濟價值，所以引起了世界各國計算機科學(xué)界和信息產(chǎn)業(yè)界的高度關(guān)注，目前的研究、開發(fā)十分活躍，并出現(xiàn)了很多值得注意的動向。“ 1 、十分注意提高信息查詢結(jié)果的精度，提高檢索的有效性用戶在搜索引擎上進行信息查詢時，并不十分關(guān)注返回結(jié)果的多少，而是看結(jié)果是否和自己的需求吻合。對于一個查詢，傳統(tǒng)的搜索引擎動輒返回幾十萬、幾百萬篇文檔，用戶不得不在結(jié)果中篩選。解決查詢結(jié)果過多的現(xiàn)象目前出現(xiàn)了幾種方法：一是通過各種方法獲得用戶沒有在查詢語句中表達出來的真正用途，包括使用智能代理跟蹤用戶檢索行為，分析用戶模型：使用相關(guān)度反饋機制，使用戶告訴搜索引擎哪些文檔和自己的需求相關(guān)( 及其相關(guān)的程度) ，哪些不相關(guān)，通過多次交互逐步求精。二是用f 文分類( t e xtc a t e g o r i z a t i o n ) 技術(shù)將結(jié)果分類，使用可視化技術(shù) 顯示分類結(jié)構(gòu)，用戶可以只瀏覽自己感興趣的類別。三是進行站點類聚或內(nèi)容類聚，減少信息的總量。 2 、基于智能代理的信息過濾和個性化服務(wù) 信息智能代理是另外一種利用互聯(lián)網(wǎng)信息的機制。它使用自動獲得的領(lǐng)域模型( 如w e b知識、信息處理、與用戶興趣相關(guān)的信息資源、領(lǐng)域組織結(jié)構(gòu)) 、用戶模型( 如用戶背景、興趣、行為、風(fēng)格) 知識進行信息搜集、索引、過濾( 包括興趣過濾和不良信息過濾) ，并自動地將用戶感興趣的、對用戶有用的 x 太原理工大學(xué)碩士研究生學(xué)位論文和用戶興趣動態(tài)變化的能力，從而提供個性化的服務(wù)。智能代理可以在用戶端進行，也可以在服務(wù)器端運行。 3 、采用分布式體系結(jié)構(gòu)提高系統(tǒng)規(guī)模和性能搜索引擎的實現(xiàn)可以采用集中式體系結(jié)構(gòu)和分布式體系結(jié)構(gòu)，兩種方法各有千秋。但當(dāng)系統(tǒng)規(guī)模到達一定程度( 如網(wǎng)頁數(shù)達到億級) 時，必然要采用某種分布式方法，以提高系統(tǒng)性能。搜索引擎的各個組成部分，除了用戶接口之外，都可以進行分布：搜索器可以在多臺機器上相互合作、相互分工進行信息發(fā)現(xiàn)，以提高信息發(fā)現(xiàn)和更新速度；索引器可以將索引分布在不同的機器上，以減小索引對機器的要求；檢索器可以在不同的機器上進行文檔的并行檢索，以提高檢索的速度和性能。 4 、重視交叉語言檢索的研究和開發(fā) 交叉語言信息檢索是指用戶用母語提交查詢，搜索引擎在多種語言的數(shù)據(jù)庫中進行信息檢索，返回能夠回答用戶問題的所有語言的文檔。如果再加上機器翻譯，返回結(jié)果可以用母語顯示。該技術(shù)目前還處于初步研究階段，主要的困難在于語言之間在表達方式和語義對應(yīng)上的不確定性。但對于經(jīng)濟全球化、互聯(lián)網(wǎng)跨越國界的今天，無疑具有很重要的意義。 2 4 搜索引擎工作原理搜索引擎并不真正搜索互聯(lián)網(wǎng)，它搜索的實際上是預(yù)先整理好的網(wǎng)頁索引數(shù)據(jù)庫。搜索引擎，也不能真正理解網(wǎng)頁上的內(nèi)容，它只能機械的匹配網(wǎng)頁上的文字。真正意義上的搜索引擎，通常指的是收集了互聯(lián)網(wǎng)上幾千萬到幾十億個網(wǎng)頁并對網(wǎng)頁中的每一個文字( 即關(guān)鍵詞) 進行索引，建立索引數(shù)據(jù)庫的全文搜索引擎。當(dāng)用戶查找某個關(guān)鍵詞的時候，所有在頁面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來。在經(jīng)過復(fù)雜的算法進行排序后，這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度高低，依次排列?，F(xiàn)在的搜索引擎已普遍使用超鏈分析技術(shù)，除了分析索引網(wǎng)頁本身的文字，還分析索引所有指向該網(wǎng)頁的鏈接的u r l 、a n c h o r t e x t 、甚至鏈接周圍的文字”1 。所以，有時候，即使某個網(wǎng)頁a 中并沒有某個詞比如“計算機網(wǎng)絡(luò)”，但如果有別的網(wǎng)頁b 用鏈接“計算機網(wǎng)絡(luò)”指向這個網(wǎng)頁a ，那么用戶搜索“計算機網(wǎng)絡(luò)”時也能找到網(wǎng)頁a 。而且，如果有越多網(wǎng)頁 7 太原理i ：大學(xué)碩士研究生學(xué)位論文 ( c 、d 、e 、f ) 用名為“計算機網(wǎng)絡(luò)”的鏈接指向這個網(wǎng)頁a ，或者給出這個鏈接的源網(wǎng)頁( b 、c 、d 、e 、f ) 越優(yōu)秀，那么網(wǎng)頁a 在用戶搜索“計算機網(wǎng)絡(luò)”時也會被認為更相關(guān)排序也會越靠前。搜索引擎的原理，可以看作三步： l 、從互聯(lián)網(wǎng)上抓取網(wǎng)頁利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的s p i d e r 系統(tǒng)程序，自動訪問互聯(lián)網(wǎng)，并沿著任何網(wǎng)頁中的所有u r l 爬到其它網(wǎng)頁，重復(fù)這過程，并把爬過的所有網(wǎng)頁收集回來。 2 、建立索引數(shù)據(jù)庫由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進行分析，提取相關(guān)網(wǎng)頁信息 ( 包括網(wǎng)頁所在0 r l 、編碼類型、頁面內(nèi)容包含的所有關(guān)鍵詞、關(guān)鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈接關(guān)系等) ，根據(jù)一定的相關(guān)度算法進行大量復(fù)雜計算，得到每一個網(wǎng)頁針對頁面文字中及超鏈中每一個關(guān) 鍵詞的相關(guān)度( 或重要性) ，然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。 3 、在索引數(shù)據(jù)庫中搜索排序當(dāng)用戶輸入關(guān)鍵詞搜索后，由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。因為所有相關(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)度早已算好，所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序，相關(guān)度越高，排名越靠前。最后，由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。搜索引擎的s p i d e r 一般要定期重新訪問所有網(wǎng)頁( 各搜索引擎的周期不同，可能是幾天、幾周或幾個月，也可能對不同重要性的網(wǎng)頁有不同的更新頻率) ，更新網(wǎng)頁索引數(shù)據(jù)庫，以反映出網(wǎng)頁文字的更新情況，增加新的網(wǎng)頁信息，去除死鏈接，并根據(jù)網(wǎng)頁文字和鏈接關(guān)系的變化重新排序。這樣，網(wǎng)頁的具體文字變化情況就會反映到用戶查詢的結(jié)果中。 2 5 搜索引擎的基本類型現(xiàn)在i nc e r n e t 上已有數(shù)千個能提供檢索服務(wù)的站點，這些站點的搜索引擎在收錄的范圍、內(nèi)容、檢索方法上都各有不同t 但總的來看，根據(jù) 8 太原理工大學(xué)碩士研究生學(xué)位論文它們所基于的技術(shù)原理，可以將其分成三大類型：基于r o b o t 的搜索引擎、目錄( d i r e c t o r y ，也叫做c a t a l o g ) 和元搜索弓! 擎。從目前的使用來看，主要有以下幾類： l 、基于r o b o t 的搜索引擎基于r o b 。t 的搜索引擎不是靠人工發(fā)現(xiàn)和甄別信息，而是由一個被稱作r o b o t ”( 也稱為“s p i d e r ”、“w e bc r a w l e r ”) 的計算機程序在網(wǎng)頁中爬行，依據(jù)一定的網(wǎng)絡(luò)協(xié)議在i n t e r n e t 中發(fā)現(xiàn)、加工、整理信息，并為用戶提供檢索服務(wù)“?；趓 o b o t 的搜索引擎一般由四部分組成： w _ l v w 信息的采集通常搜索引擎會生成多個r o b o t ，自動地根據(jù)初始搜索列表和一定的搜索策略去w w w 站點搜集文檔( 通常為h t m l 文檔) 。 w w w 信息的分析對由機器人搜集的文檔，一般在搜索引擎本地進行分析，提取出表達文檔的關(guān)鍵詞、摘要等信息及文檔中的構(gòu)成w w w 結(jié)構(gòu)的超鏈( h y p e r l i n k ) 來建立索引。 w w w 信息的存儲把文檔的索引按照一定結(jié)構(gòu)存儲在搜索引擎本地數(shù)據(jù)庫服務(wù)器上，同時建立適應(yīng)查詢的高效索引。 w w w 信息的檢索一般搜索引擎提供基于w w w 瀏覽器的查詢請求輸入界面，它根據(jù)用戶提交的查詢請求，在本地數(shù)據(jù)庫中檢索出符合用戶查詢的記錄，并通常依命中相關(guān)程度的次序來排列結(jié)果，最后通過瀏覽器返回給用戶。我們把對用戶可見的“腳w 信息的檢索”這部分稱之為“搜索引擎前端”。它是這樣工作的：瀏覽器與w e b 服務(wù)器相連，在搜索引擎的搜索界面中輸入要查詢的關(guān)鍵字，然后提交查詢請求，w e b 服務(wù)器就在一個大型索引數(shù)據(jù)庫中查找相匹配的條文，列出找到的站點，把結(jié)果傳給瀏覽器。對用戶來說，其它部分是不可見的，我們把它們稱之為“搜索引擎后端”。搜索引擎后端是由r o b o t 快速掃描i n t e r n e t 上的w e b 頁面，提取其中的關(guān)鍵詞并編制索引，定期更新數(shù)據(jù)庫。其中，r o b o t 作為一個程序，可以用c 、p e r l 、j a v a 等語言來編寫， 9 太原理1 ：大學(xué)碩士研究生學(xué)f 市論文可以運行在u n i x 、s o l a r is 、w i n d o w s 、n 1 、0 s 2 和m a c 等平臺上。r o b o l 設(shè)計是否合理將直接影響它訪問w e b 的效率，影響搜索數(shù)據(jù)庫的質(zhì)量。另外，在設(shè)計r o b o t 時還必須考慮它對網(wǎng)絡(luò)和被訪問站點的影響，因為r o b o l 一般都運行在速度快、帶寬高的主機上如果它快速訪問一個速度比較慢的目標(biāo)站點，就有可能會導(dǎo)致該站點出現(xiàn)阻塞甚至死機。r o b o t 還應(yīng)遵守一些協(xié)議，以便被訪問站點的管理員能夠確定哪些內(nèi)容能被訪問，哪些不能。不同的搜索引擎會采取不同方式來建立索引，有的對整個h t m l 文件的所有單詞都建立索引，有的只分析h t m l 文件的標(biāo)題或前幾段內(nèi)容，還有的能處理h t m l 文件中的m e t a 標(biāo)記或其它不可見的特殊標(biāo)記。不同的搜索引擎在計算等級值時使用了不同的方法，但它們都以關(guān)鍵詞在網(wǎng)頁中出現(xiàn)的位置和頻率為基本依據(jù)，例如，關(guān)鍵詞出現(xiàn)在標(biāo)題中的網(wǎng)頁可能比只出現(xiàn)在其它地方的網(wǎng)頁更符合要求，關(guān)鍵詞出現(xiàn)在網(wǎng)頁的前面可能比只出現(xiàn)在網(wǎng)頁的后面更符合要求，同一個關(guān)鍵詞出現(xiàn)多次的網(wǎng)頁又可能比只出現(xiàn)一兩次的網(wǎng)頁更符合要求，把這些因素綜合起來考慮便可得出一個計算等級值的公式。不過，絕大多數(shù)搜索引擎都沒有只按照上述因素采確定計算公式，它們還加入了一些特殊考慮，例如，e x c i t e 能檢查是否有很多鏈接指向同一個網(wǎng)頁，如果是的話，它就把這個網(wǎng)頁的等級值稍微提高一些，理由是這樣的網(wǎng)頁一般都具有更大的訪問量。 2 、目錄式搜索引擎目錄式搜索引擎與基于r o b o t 的搜索引擎所不同的是，目錄的數(shù)據(jù)庫是依靠專職編輯或志愿人員建立起來的，這些編輯人員在訪問了某個w e b 站點后撰寫一段對該站點的描述，并根據(jù)站點的內(nèi)容和性質(zhì)將其歸為一個預(yù)先分好的類別，把站點的u r l 平 i 描述放在這個類別中，當(dāng)用戶查詢某個關(guān)鍵詞時，搜索軟件只在這些描述中進行搜索。很多目錄也接受用戶提交的網(wǎng)站和描述，當(dāng)目錄的編輯人員認可該網(wǎng)站及描述后，就會將之添加到合適的類別中。目錄的用戶界面基本上都是分級結(jié)構(gòu)，首頁提供了最基本的幾個大類的入口，用戶可以一級一級地向下訪問，直至找到自己感興趣的類別，另外，用戶也可以利用目錄提供的搜索功能直接查找一個關(guān)鍵詞，不過，由 1 0 太原理工大學(xué)碩士研究生學(xué)位論文于目錄只在保存的對站點的描述中進行搜索，因此站點本身的動態(tài)變化不會反映到搜索結(jié)果中來，這也是目錄與基于r o b o t 的搜索引擎之間的一大區(qū)別。由于目錄是依靠人工來評價一個網(wǎng)站的內(nèi)容，因此用戶從目錄搜索得到的結(jié)果往往比從基于r o b o t 的搜索引擎得到的結(jié)果更具參考價值。 3 、元搜索引擎元搜索引擎又叫做m u l t i p l es e a r c he n g i n e ，它的特點是本身并沒有存放網(wǎng)頁信息的數(shù)據(jù)庫，當(dāng)用戶查詢一個關(guān)鍵詞時，它把用戶的查詢請求轉(zhuǎn)換成其它搜索引擎能夠接受的命令格式，并行地訪問數(shù)個搜索引擎采查詢這個關(guān)鍵詞，并把這些搜索引擎返回的結(jié)果經(jīng)過處理后再返回給用戶。與獨立搜索引擎相比，元搜索引擎不需要維護龐大的索引數(shù)據(jù)庫，也不需要網(wǎng)絡(luò)蜘蛛( s p i d e r ) 去采集網(wǎng)頁。具體說來，元搜索引擎主要由三部分組成，即：請求提交代理、檢索接口代理、結(jié)果顯示代理。“請求提交代理”負責(zé)實現(xiàn)用戶“個性化”的檢索設(shè)置要求，包括調(diào)用哪些搜索引擎、檢索時間限制、結(jié)果數(shù)量限制等?！皺z索接口代理”負責(zé)將用戶的檢索請求“翻譯”成滿足不同搜索引擎“本地化”要求的格式。“結(jié)果顯示代理”負責(zé)所有源搜索引擎檢索結(jié)果的去重、合并、輸出處理等。由此也可看出，元搜索引擎是建立于獨立搜索引擎之上的搜索引擎，其技術(shù)重心就在于查詢前的處理( 檢索請求提交機制和檢索接口代理) 和結(jié)果的集成。元搜索引擎可以靈活地選擇所要采用的獨立搜索引擎，它一般都是選擇那些比較典型的、性能優(yōu)異的獨立搜索引擎。這種強強聯(lián)合的結(jié)果保證了搜索結(jié)果的權(quán)威性和可靠性。它還可以充分發(fā)揮各個獨立搜索引擎在某個搜索領(lǐng)域的功能與優(yōu)勢，彌補獨立搜索引擎信息覆蓋面上的局限性。 2 6 搜索引擎的基本結(jié)構(gòu)及各部分的工作機理搜索引擎雖然表現(xiàn)為各種不同的形式，但其最根本是由搜索器 ( s p i d e r ) 、索引器( i n d e x e r ) 、檢索器( s e a r c h e r ) 和用戶接口( u s e r i n t e r f a c e ) 四部分組成。當(dāng)然，個完整的搜索引擎系統(tǒng)還需要有一個檢索結(jié)果的頁面生成系統(tǒng)，也就是要把檢索結(jié)果高效地組裝成萬維網(wǎng)頁面。其結(jié)構(gòu)圖如圖2 一l 所示： 1 1 太原理【大學(xué)碩士研究生學(xué)位論文藩墅：鬟翼霧硅r o b o t 焚c r a w l e r ；蕊霹囂蠹露篷需匡羲薹薹薹萄型薯囊簍季；皋引i 函一巍p 抑i 驕烈攆醐爨釋篤高w 啦塑簪；躺妻蠶1 玉謄營鯔蟛剖睽信恩霪j 拿塵粵盞駕氣蠖暾撙瀠弓哩q ，一罹緣is p i d e r 馳堋琶h 鞋u r l 驟恥駔鯉，赫帶u r l 即驄堅醵魏u r l 摁駱籜掘露豎孰酏聯(lián) 鉑望vu r l j 型扎莘影夏囂蝌= 覆蓋率不高，用戶往往為了尋找目的數(shù)據(jù)和資源，而不斷地在多個搜索引擎間切換，這常常令用戶事倍功半。其次，現(xiàn)有傳統(tǒng)搜索引擎對提供的檢索信息沒有進行綜合處理，冗余和噪聲含量大，用戶只能親自從大量的反饋信息中提取自己的所需信息。再者，現(xiàn)有的傳統(tǒng)搜索引擎各自使用不同的索引技術(shù)、信息收集技術(shù) 和關(guān)鍵字查詢語法技術(shù)，使得它們各自搜索的信息資源在很大程度上有相當(dāng)大的差異，同時給用戶檢索查詢帶來很大的不便。最后，現(xiàn)有傳統(tǒng)搜索引擎基本上都采用“一個搜索適用于所有用戶” 的搜索模型( 不同的用戶提交相同的關(guān)鍵字查詢請求時，搜索引擎返回相同的搜索幕疃煌撓沒運1 6 x 太原理工大學(xué)碩士研究生學(xué)位論文多s p i d e r ：采用多s p i d e r 并行的策略能極大地提高效率。我們將多個s p i d e r 同時運行，每個s p i d e r 從不同的u r l 列表出發(fā)開始搜索，搜索結(jié)果返回到網(wǎng)頁數(shù)據(jù)庫中。多個s p i d e r 之間通過相互間的通信機制來確定是否有重復(fù)的u r l 鏈接，以避免冗余的工作。多線程：在具體實現(xiàn)時，由于對每個u r l 的連接都需要一定的時間，即獲得對方服務(wù)器端的響應(yīng)需要等待時間，再加上網(wǎng)絡(luò)傳輸和擁塞的耗時，s p i d e r 的大量時間浪費在等待響應(yīng)或信息這上面。為解決這個問題，我們采用了j a v a 的多線程機制，一個線程對應(yīng)一個u r l 連接，多個線程同時運行，則充分利用了各個連接的等待時間去完成其它連接或信息傳輸與處理的工作，其實際效率要比順序執(zhí)行要快幾倍。但線程的數(shù)量的最佳值與本地c p u 性能和網(wǎng)絡(luò)帶寬等因素有關(guān)，c p u 性能好，則線程個數(shù)可以多一些，而若網(wǎng)絡(luò)帶寬較寬，則線程個數(shù)應(yīng)當(dāng)減少一些。索引器負責(zé)索引庫的建立。s p i d e r 收回的信息很多，直接用于查詢，其效率將非常低。為了提高檢索的效率，需要按照一定的規(guī)則對網(wǎng)頁建立索引，并將其存放于索引數(shù)據(jù)庫，以備搜索引擎軟件查詢。索引器的主要工作是建立一個包含關(guān)鍵信息的索引庫以備查詢。索引器的功能是理解搜索器所搜索的信息，從中抽取出索引項，用于表示文檔以及生成文檔庫的索引表。索引器可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時，必須實現(xiàn)即時索引，否則不能夠跟上信息量急劇增加的速度。索引算法對索引器的性能( 如大規(guī)模峰值查詢時的響應(yīng)速度) 有很大的影響。一個搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。索引器的策略很大程度上影響了搜索引擎的效率與準(zhǔn)確性。目前，比較常用的方法是對網(wǎng) 頁的標(biāo)題( t i t l e ) 和評語( c o m m e n t ) 進行索引。在一個文本中，不是所有的單詞都能等同地表示該文本的語義，一些詞匯與其它詞匯相比能夠表達更多的意思。一般來說，名詞是最能夠表達文本的內(nèi)容的。因此，在建立文本索引以前有必要對文本進行預(yù)處理，以決定對哪些詞匯建立索引。文本預(yù)處理包括以下五個步驟：”1 文本的詞法分析，它是將字符串( 文檔中的文本) 轉(zhuǎn)化為詞條的過程。它主要是處理文本中的數(shù)字、連接符、標(biāo)點符號和字符的大小寫。其目的主要是識別文本中的詞條。 1 3 太原理工大學(xué)碩士研究生學(xué)位論文用戶反饋信息的查詢擴展方法、基于局部信息的查詢擴展方法和基于全部信息的查詢擴展方法。用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機制。主要的目的是方便用戶使用搜索引擎，高效率、多方式地從搜索引擎中得到有效、及時的信息。用戶接口的設(shè)計和實現(xiàn)使用人機交互的理論和方法，以充分適應(yīng)人類的思維習(xí)慣。 2 7 評價搜索引擎技術(shù)指標(biāo) 為了對現(xiàn)有的搜索引擎進行分析、對比與評價，我們必須首先了解有哪些評價搜索引擎的技術(shù)指標(biāo)。 1 、查全率查全率是指相關(guān)文件與總的相關(guān)文件的比率。即用戶通過搜索引擎所獲取的有用信息與整個i n t e r n e t 中相關(guān)信息的比率。 2 、查準(zhǔn)率查準(zhǔn)率是指獲取的相關(guān)文件與獲取總文件的比率。即用戶通過搜索引擎所獲取的信息中真正是用戶需要的信息占總共獲取信息的比率。下面讓我們用一個例子來說明，假設(shè)整個i n t e r n e t 是一個大的數(shù)據(jù) 庫，其中有關(guān)“搜索引擎”為關(guān)鍵字在某個搜索引擎查詢到的信息有5 0 條，但真正符合用戶需要的只有3 0 個，那么：查全率= 5 0 1 0 0 = 5 0 查準(zhǔn)率= 3 0 5 0 = 6 0 3 、覆蓋范圍覆蓋范圍指的是搜索引擎索引數(shù)據(jù)庫索引的w e b 頁面占整個 i n t e r n e t 中頁面的比例。 4 、響應(yīng)時間響應(yīng)時間指的是用戶發(fā)出查詢請求后到觀看到查詢結(jié)果的這段時間。 5 、用戶方便性用戶方便性包括查詢界面是否直觀、易于使用，查詢語法是否豐富，顯示結(jié)果是否易于查看等等。 1 5 太原理【大學(xué)碩士研究生學(xué)位論文藩墅：鬟翼霧硅r o b o t 焚c r a w l e r ；蕊霹囂蠹露篷需匡羲薹薹薹萄型薯囊簍季；皋引i 函一巍p 抑i 驕烈攆醐爨釋篤高w 啦塑簪；躺妻蠶1 玉謄營鯔蟛剖睽信恩霪j 拿塵粵盞駕氣蠖暾撙瀠弓哩q ，一罹緣is p i d e r 馳堋琶h 鞋u r l 驟恥駔鯉，赫帶u r l 即驄堅醵魏u r l 摁駱籜掘露豎孰酏聯(lián) 鉑望vu r l j 型扎莘影夏囂蝌= 覆蓋率不高，用戶往往為了尋找目的數(shù)據(jù)和資源，而不斷地在多個搜索引擎間切換，這常常令用戶事倍功半。其次，現(xiàn)有傳統(tǒng)搜索引擎對提供的檢索信息沒有進行綜合處理，冗余和噪聲含量大，用戶只能親自從大量的反饋信息中提取自己的所需信息。再者，現(xiàn)有的傳統(tǒng)搜索引擎各自使用不同的索引技術(shù)、信息收集技術(shù) 和關(guān)鍵字查詢語法技術(shù)，使得它們各自搜索的信息資源在很大程度上有相當(dāng)大的差異，同時給用戶檢索查詢帶來很大的不便。最后，現(xiàn)有傳統(tǒng)搜索引擎基本上都采用“一個搜索適用于所有用戶” 的搜索模型( 不同的用戶提交相同的關(guān)鍵字查詢請求時，搜索引擎返回相同的搜索幕疃煌撓沒運1 6 太原理一l i 大學(xué)碩士研究生學(xué)位論文無用詞匯的刪除，它主要是過濾掉那些對于信息獲取過程來說區(qū)分能力低的詞匯。在信息庫的文檔中太頻繁出現(xiàn)的單詞不會成為具有良好區(qū) 分能力的詞匯。實際上如果一個單詞出現(xiàn)在信息庫中8 0 的文檔中。陔單詞對于信息獲取過程來說根本沒用。一般來說，冠詞、介詞、連詞和一些動詞、副詞、形容詞等部可以算作無用詞匯。詞干的提取，所謂詞干，是指將詞的詞綴( 前綴和后綴) 刪除后剩下的部分。它的主要任務(wù)是去除詞綴，這樣可以允許所獲取的文檔包含一些查詢詞條的變換形式。目前，詞干提取技術(shù)可以分為以下幾種：詞綴刪除、表格查詢、后續(xù)變形和n 一連字。所謂表格查詢方法是指通過在表格中查找某個詞匯的詞干來實現(xiàn)，表格中的信息依賴于整個語言中詞匯的詞干。所謂后續(xù)變形詞干提取法主要是通過結(jié)構(gòu)化語言的知識來確定詞素的邊界，這種方法比詞綴刪除法要來得復(fù)雜。所謂n 一連字詞干提取法是基于對單詞中字母是否應(yīng)該連在一起的識別，這一過程實際上是詞條聚類的過程。索引詞條詞干的選擇，自然語言中的句子一般由名詞、代詞、冠詞、動詞、形容詞、副詞、介詞和連詞構(gòu)成。在這些詞中，主要由名詞表達句子語義的，因此，選擇句子中的名詞作為索引詞條是一種可行的方法。太原理1 i 大學(xué)碩士研究生學(xué)位論文給用戶，而且還能去偽存真，把貌似符合查詢要求，實際離用戶查詢要求相去甚遠的信息過濾掉。進行文檔相關(guān)性評價，并最終按與用戶查詢相關(guān) 程度來篩選出查詢結(jié)果是搜索引擎的重要一環(huán)。搜索引擎作為w w w 上的一個查詢工具，其處理的文檔已不再是靜態(tài)和孤立的。w w w 本身可看作為隨時間變化其結(jié)構(gòu)吐l 發(fā)生變化的動態(tài)對象。w w w 實際上可描述成時間和u r l 的表達式。文檔中所臺有的表征了文檔在w w w 中的結(jié)構(gòu)的超鏈在評價文檔相關(guān)性時也應(yīng)作為一個評價標(biāo)準(zhǔn)。把文檔放在w w w 上作為其中一部分考慮時，其信息可表示成如下形式： i n f o r m a t l 0 n ( d o c ) = t e x t d j f o r m a t i o n ( d o c ) + h y p e r i n f o r m a t i o n ( d o c )( 式2 1 ) 當(dāng)搜索引擎進行文檔相關(guān)性評價時，對文檔中超鏈的賦值完全可以依賴 1 e x t i n f ( ) r a t i o n 評價作出正確選擇。 2 1 0 搜索引擎的未來發(fā)展展望 l 、讓搜索引擎更了解你的需求意圖當(dāng)前的信息檢索服務(wù)大多是基于關(guān)鍵字查找，并運用布爾計算，由用戶給定需求信息中的關(guān)鍵詞語，系統(tǒng)在數(shù)據(jù)庫中查找包含關(guān)鍵詞語的文件，并給出相應(yīng)的網(wǎng)絡(luò)地址鏈接。這種方式將詞語從語義背景中提出，以孤立的關(guān)鍵字標(biāo)引文檔，割裂了原始文檔中的邏輯語義。只用文檔中的詞組不能完全表達文檔的含義，更重要的是在自然語言中，有很多的方法可以表達一個詢問的概念，同時一個詞可以用到多個領(lǐng)域，所以關(guān)鍵詞方式脫離了用戶本身意圖的領(lǐng)域背景，使得“誤解”概率增大導(dǎo)致檢索結(jié)果與用戶意圖不符1 。因此，未來的搜索引擎應(yīng)能更好的了解用戶。讓用戶更好地表達需求現(xiàn)有的關(guān)鍵字接口不符合人們的日常習(xí)慣。自然語占接口的提供可以讓用戶以自然語言和熟悉的方式使用搜索引擎，而且自然語言能更好地表達用戶的意圖和需求使檢索的結(jié)果更加準(zhǔn)確。主動讓搜索引擎了解用戶搜索引擎的定制、個性化是未來商業(yè)服務(wù)的一個發(fā)展趨勢。讓用戶成為搜索引擎的注冊用戶，注冊用戶可以提交自己的個性化信息，甚至自己】8 太原理，：火學(xué)碩士研究生學(xué)位論文第三章a g e n t 技術(shù)研究 3 1 艇e n t 的產(chǎn)生與定義 a g e n t 理論與技術(shù)源于d a i ( d i s t r i b u t e da r t i f i c i a li n t e l l i g e n c e ，分布式人工智能) 。d a i 系統(tǒng)研究是以模擬人婁社會各種組織及其協(xié)作關(guān) 系為目標(biāo)。自從2 0 世紀(jì)8 0 年代末開始，a g e nl 理論與技術(shù)研究從d a i 領(lǐng) 域中擴張開來，并與許多其他領(lǐng)域互相借鑒和融合，得到了比d a i 更為廣泛的應(yīng)用。 a g e n t 是由m i n s k y 于1 9 8 6 年出版的思維的社會一書中提出的，但到目前為止，沒有一個被普遍接受的a g e n t 的定義，它只是一種抽象工具。w 0 0 1 d r i d g e 和j e n n i n g s 給出的定義是”。：“a g e n t 是處在某個環(huán)境中的計算機系統(tǒng)，該系統(tǒng)有能力在這個環(huán)境中自主行動以實現(xiàn)其設(shè)計目標(biāo)。”f r a n k li n 和g r a e s s e r 對a g e n t 給出這樣的定義“”：“a g e n t 是一個處于一個環(huán)境之中并且作為這個環(huán)境一部分的個系統(tǒng)，它隨時可以感測這個環(huán)境并且執(zhí)行相應(yīng)的動作，同時逐漸建立自己的活動規(guī)劃以應(yīng)付未來可能感測到的環(huán)境變化?！倍鴖 h o h a m 認為?！埃骸癮 g e n t 就是一種實體，它由許多心智狀態(tài)( m e n t a ls t a t e ) ，如信念( b e l i e f ) 、能力( c a p a b i l i t y ) 、選擇( s e l e c t i o n ) 、和承諾( c o m m i t m e n t ) 等組成的?！睂τ赼 g e n t 應(yīng)具有的性質(zhì)也只有一點達成了普遍的共識，即自治性。 a g e n t 的特征有：自治性：船e n t 具有屬于其自身的計算資源和局部于自身行為控制的機制，能在無外界直接操縱的情況下，根據(jù)其內(nèi)部狀態(tài)和感知到的( 外部) 環(huán)境信息，決定和控制自身的行為。交互性：能與其它a g e n t 進行多種形式的交互，能有效地與其它 a g e n t 協(xié)同工作。反應(yīng)性；智能a g e n t 可以感知它們的環(huán)境，并可以對環(huán)境發(fā)生的變化以及時的方式做出反應(yīng)，以滿足它們的設(shè)計目標(biāo)。 2 0 x 太原理工大學(xué)碩士研究生學(xué)位論文預(yù)動性：智能a g e n t 通過主動發(fā)起可以表現(xiàn)出目標(biāo)引導(dǎo)的行為，以滿足它們的設(shè)計目標(biāo)可以主動發(fā)起一個動作。社會性：智能a g e n t 可以與其它a g e n t ( 也可能是j k ) 交互，以滿足它們的設(shè)計目標(biāo)。代理性：智能a g e n t 具有代表他人的能力，即它們都代表用戶工作。智能性：智能a g e n t 具有一定程度的智能，包括推理到自學(xué)習(xí)等一系列的智能行為。 3 2a g e n t 的主要技術(shù) a g e n t 的智能性( i n t e l l i g e n c e ) 和代理性( a g e n c y ) 是定性描述a g e n t 的兩個主要技術(shù)特征。智能性是指應(yīng)用系統(tǒng)使用推理、學(xué)習(xí)和其他技術(shù)來分析解釋它己接觸過的或剛提交給它的各種信息和知識能力。代理能力是指一個a g e n t 代理用戶執(zhí)行某個任務(wù)的能力，即在沒有外界直接操縱的情況下，根據(jù)自身的內(nèi)部狀態(tài)以及感知到的外部環(huán)境信息，決定和控制自身的行為。、 a g e n t 的主要技術(shù)包括機器技術(shù)、內(nèi)容技術(shù)、訪問技術(shù)和安全技術(shù)，這些技術(shù)都是緊緊圍繞智能性和代理能力這兩個a g e n t 的根本特征展開的。 1 、機器技術(shù) 這里指的機器是各種在人工智能領(lǐng)域中開發(fā)的，支持各種程度智能的軟件，包括有：各種形式的推理機、學(xué)習(xí)機、用戶創(chuàng)建修改規(guī)則和知識的工具等，機器是事件驅(qū)動的，事件在這里是指代理環(huán)境的改變，即某個外部事件的發(fā)生或者是有新的知識和內(nèi)容產(chǎn)生。機器技術(shù)中的核心是推理機和學(xué)習(xí)機，它們提供了a g e n t 所需的推理能力和學(xué)習(xí)能力。推理機依賴于外部事件和數(shù)據(jù)，通過其外圍邏輯接口輸入而進行推理，從而使a g e n t 產(chǎn)生各種可能的行為，學(xué)習(xí)機制則提供了修改規(guī)則庫和長期事實的能力，包括增加新規(guī)則，修改過期規(guī)則，增加新的事實和修改無效的事實，修改信任系數(shù)等等。因此，機器技術(shù)決定了a g e n t 智能性的高低程度，是a g e n t 技術(shù)的核心。 2 】太原理：大學(xué)碩十研究生學(xué)付論文 2 、內(nèi)容技術(shù) 內(nèi)容技術(shù)與機器技術(shù)是息息相關(guān)的，內(nèi)容是指機器用于推理和學(xué)習(xí)的數(shù)據(jù)，但它們不一定就是知識，主要包括屬于結(jié)構(gòu)化知識的規(guī)則和數(shù)據(jù) 大量非結(jié)構(gòu)化的通用知識。規(guī)則主要是用戶策略的表達，同時也是對現(xiàn)實世界中知識的表示。這樣，a g e n t 就可以在基于規(guī)則的基礎(chǔ)上和用戶進行相互的通信和交流。內(nèi)容技術(shù)的應(yīng)用在于：將用戶的參數(shù)設(shè)置標(biāo)準(zhǔn)化以后，咀一種規(guī)則的形式提交給學(xué)習(xí)機；將非結(jié)構(gòu)化信息標(biāo)準(zhǔn)化后，以結(jié)構(gòu)化數(shù) 據(jù)提交給推理機。因此，內(nèi)容技術(shù)是推理機、學(xué)習(xí)機等進行計算和推理的基礎(chǔ)，它同機器技術(shù)一樣影響著a g e n t 的智能性的高低。 3 、訪問技術(shù) 訪問是指a g e n t 同周圍環(huán)境( 包括用戶或其他a g e n t 等) 進行交互。一個a g e n t 必須能夠感知其環(huán)境中發(fā)生的事件并能夠采取相應(yīng)的動作，在大多數(shù)情況下，a g e n t 是為已有的環(huán)境和應(yīng)用開發(fā)的。因此，訪問技術(shù)與 a g e n t 的代理能力密切相關(guān)，不同程度、不同類別的訪問技術(shù)將決定代理能力不同，也將決定代理能力的高低。 4 、安全技術(shù) a g e n t 的安全問題涉及的范圍非常廣泛。不但要考慮如何保護用戶隱私，包括用戶個人資料、興趣愛好等信息，而且在其他一些環(huán)境更加復(fù)雜的網(wǎng)絡(luò)代理事務(wù)中，如電子商務(wù)，就不得不考慮安全性和完整性這些更加復(fù)雜的情況。因此，無論在代理交互性還是服務(wù)交互性方面，安全技術(shù)都是影響a g e n t 代理能力的重要因素。 3 3 軟件a g e n t l 、軟件a g e n t 定義 a g e n t 一詞直譯為“代理”，也有人把它稱為“智能代理”，廣義上它是指具有智能的任何實體，包括人類、智能硬件( 如機器人) 和智能軟件。 a g e n t 思想的誕生可歸功于j o h nm c c a r t h y 在2 0 世紀(jì)5 0 年代提出的 “t h ea d v i c et a k e r ”系統(tǒng)，該系統(tǒng)被設(shè)想為具有目標(biāo)性，系統(tǒng)內(nèi)實體間用人類的術(shù)語進行交流，他們從用戶的利益來考慮從事各項任務(wù)。到目前為止，許多研究者提出了各自對a g e n t 的定義，但是至今沒有一個被大多 2 2 太原理1 ：人學(xué)碩十研究生學(xué)俄論文戶交互的方式( 如b r o w s e r 方式) ，融合用戶的行為模式，以提高檢索的精度和廣度。國內(nèi)在如何利用a g e n t 實現(xiàn)智能化方面也進行了許多探討并做了火量的實踐工作，在信息檢索上，文檔的自動聚類和理解也是該領(lǐng)域的一個研究重點。另外由于中文和西文在編碼和表達方式上有很大的不同，因此國內(nèi)在中文檢索的處理上也投入了大量的精力。 3 4 基于樞e n t 的系統(tǒng) 合作船e n t 系統(tǒng)：是一種典型的、大規(guī)模和粗粒度的a g e n t 系統(tǒng)，強調(diào)a g e n t 的自治性和a g e nl 問的相互操作性，在一個開放的多船e n t 環(huán)境中完成a g e n t 的所有者的任務(wù)。a g e n t 之間可以達成一種可相互接受的一致性。界面a g e n t 系統(tǒng)：支持和提供一種主動性的協(xié)助，這種協(xié)助對于使用復(fù)雜應(yīng)用系統(tǒng)的用戶特別有利。界面a g e n t 強調(diào)自治性和學(xué)習(xí)性，以完成所有者的任務(wù)。界面a g e n t 最主要的性質(zhì)是它是一個個人助理，它與同一工作環(huán)境中的用戶進行合作。一個a g e n t 與其他a g e n c 之間如果有操作的話，這種互操作僅限于請求建議。信息a g e n t 系統(tǒng)：是一個具有主動性、適應(yīng)性和互操作性的w w w 信息管理者，完成在多個分布的資源中管理、操縱、收集信息的功能。移動a g e n t 系統(tǒng)：是一種軟件程序，能在w w w 上漫游，代表其所有者的利益完成任務(wù)，最后，履行完賦予它的職責(zé)并回到原先的位置。 3 5a g e n t 的體系結(jié)構(gòu) 1 、單a g e n t 的體系結(jié)構(gòu) 單a g e n t 系統(tǒng)由一個a

人人文庫> 全部分類> 畢業(yè)設(shè)計 > 畢業(yè)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

（計算機軟件與理論專業(yè)論文）基于多agent智能搜索引擎模型研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

（計算機軟件與理論專業(yè)論文）基于多agent智能搜索引擎模型研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔