(計算機軟件與理論專業(yè)論文)基于多agent智能搜索引擎模型研究.pdf_第1頁
(計算機軟件與理論專業(yè)論文)基于多agent智能搜索引擎模型研究.pdf_第2頁
(計算機軟件與理論專業(yè)論文)基于多agent智能搜索引擎模型研究.pdf_第3頁
(計算機軟件與理論專業(yè)論文)基于多agent智能搜索引擎模型研究.pdf_第4頁
(計算機軟件與理論專業(yè)論文)基于多agent智能搜索引擎模型研究.pdf_第5頁
已閱讀5頁,還剩97頁未讀, 繼續(xù)免費閱讀

(計算機軟件與理論專業(yè)論文)基于多agent智能搜索引擎模型研究.pdf.pdf 免費下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

太原理【人學(xué)碩十研究生學(xué)佗論文 r 7 8 8 3 嘎6 基于多a g e n t 智能搜索引擎模型研究 摘要 隨著i n t e r n e t 的迅速發(fā)展,網(wǎng)上信息資源越來越豐富,網(wǎng) 絡(luò)已經(jīng)成為人們獲得信息的必要途徑和重要手段,但是這種網(wǎng) 上信息浩繁,具有分布、動態(tài)變化、結(jié)構(gòu)復(fù)雜等特點,使得用 戶根本無法完全了解龐大的、瞬息萬變的信息資源。在這種情 況f ,傳統(tǒng)的功能固定的搜索引擎已經(jīng)不能滿足用戶需求,人 們期盼著新的、具備了智能性和用戶可區(qū)分的新一代搜索引擎 的出現(xiàn)。 本文在分析研究了國內(nèi)外的搜索引擎技術(shù)的發(fā)展和未來趨 勢,結(jié)合人工智能技術(shù)的最新研究成果一a g e n t 技術(shù),提出r 基于智能a g e n t 的搜索引擎系統(tǒng)研究,并以此為體系架構(gòu),在 r o b o t 和用戶界面方面做了大量的優(yōu)化和個性化工作。采用興 趣模型,多用戶協(xié)作等人工智能模型使得搜索引擎完全實現(xiàn)了 個性化服務(wù)的特點,并提出了對信息的“推一拉”操作融為一 體的新型搜索引擎模型。其主要工作和結(jié)果如下: ( 1 ) 分析和研究了傳統(tǒng)搜索引擎的技術(shù)特點和主要的體系 架構(gòu),對搜索引擎的發(fā)展歷程和未來的發(fā)展方向做了較詳細的 探討,從而明確指出了未來的搜索引擎發(fā)展趨勢就是要引入 a g e n t 技術(shù)和個性化、專業(yè)化的發(fā)展道路。 ( 2 ) 分析和研究丫a g e n t 技術(shù)的主要類別和各自的特點,結(jié) 合搜索引擎的特點和實現(xiàn)因素的考慮,選擇了m u l t i a g e n t 模型來實現(xiàn)搜索引擎系統(tǒng)。實驗表明:m u l t i a g e n t 模型是容 太原理1 :火學(xué)碩士研究生學(xué)位論文 易實現(xiàn)并符合搜索引擎自身特點的目前技術(shù)最為實用的a g e n t 實現(xiàn)模型。 ( 3 ) 在a g e n t 模型和搜索引擎功能架構(gòu)的基礎(chǔ)上,引入并改 進了多個人工智能的算法和思想,結(jié)合h t m l 代碼自身的特點, 大力提高了搜索引擎系統(tǒng)的智能性和用戶個性,其主要技術(shù)包 括: a ) 在r o b o t 方面,結(jié)合h t m l 代碼的特點,在強調(diào)關(guān)鍵詞 和超鏈權(quán)重的基礎(chǔ)上,提高了r o b o t 在網(wǎng)頁搜索和下載過程中 的智能性,節(jié)省了r o b o t 方面的開支。 b ) 通過標(biāo)記樹以及分層標(biāo)記符的劃分,提高了系統(tǒng)對于文 檔核心意義判定的麓力。 c ) 采用了用戶興趣度研究,多用戶興趣協(xié)作等人工智能模 型和思想,提高用戶界面a g e n t 的智能性和個性,并將信息“推 一拉”理論引入到搜索引擎中,提出一個全薪的搜索引擎模型。 ( 4 ) 對予以上a g e n t 的算法和思想,考慮它們的具體實現(xiàn)情 況,給出了a g e n t 具體的實現(xiàn)算法和圖示講解,加深對于a g e n t 的了解和熟悉。 關(guān)鍵詞:搜索引擎,a g e n t ,信息檢索,個性化服務(wù) 太原理i :人學(xué)碩十研究生學(xué)位論文 r e s e a r c h0 nm o d e l0 fs e a r c h e n g l n eb a s e do nm u l t i a g e n t a b s t r a c t a l o n gw i t ht h er a p i dd e v e l o p m e n to fi n t e m e t ,t h ei n f o r m a t i o n r e s o u r c e si nt h ew e ba r eb e c o m i n gm o r ea n dm o r ea b u n d a n t ,a n d t h ei n t e r n e th a sa l r e a d yb e c o m eak i n do fn e c e s s a r ya n di m p o r t a n t a c c e s sf o r p e o p l e t o g a i n t h ei n f o r m a t i o n h o w e v e rw e b i n f o r m a t i o nh a ss o m ec h a r a c t e r i s t i c s ,s u c ha sv a s t n e s s ,d i s t r i b u t i o n , c o m p l e x i t y , w h i c hm a k eu s e r u n a b l et o c o m p l e t e l yu n d e r s t a n d h u g ea n dv o l a t i l ei n f o r m a t i o n 。i nt h i sc a s e ,t h et r a d i t i o n a ls e a r c h e n g i n e s ,w h o s ef u n c t i o n sa r ef i x e d ,d o n tc a s tf o rt h eu s e r sd e s i r e u s e r se x p e c tt ou s ean e wg e n e r a t i o n a ls e a r c he n g i n e ,w h i c hh a s i n t e l l i g e n c ea n di n d i v i d u a t i o n t h i sp a p e rh a sa n a l y s e dt h ed e v e l o p m e n ta n dt e n d e n c yi nt h e i i i 太原理 :大學(xué)碩十研究生學(xué)位論文 思想超前的各公司都有自己的網(wǎng)站。根據(jù)c 硪i c ( 中國互聯(lián)網(wǎng)絡(luò)信息中 心) 2 0 ( ) 4 年7 月在京發(fā)布的最新的中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告, 截止到2 0 0 4 年6 月: o 同止,我國上網(wǎng)計算機數(shù)有約3 6 3 0 萬臺。我國上 網(wǎng)用戶人數(shù)約8 7 0 0 萬人,除計算機外同時使用其它設(shè)備( 移動終端、信 息家電等) 上網(wǎng)的用戶人數(shù)為2 6 0 萬。c n 下注冊的域名總數(shù)為3 8 2 2 1 6 個, w w w 站點數(shù)( 包括c n 、c o m 、k e 丁、0 r g 下的網(wǎng)站) 約6 2 6 6 0 0 個,我圉 國際線路的總?cè)萘繛? 3 9 4 l m 。關(guān)于網(wǎng)頁的數(shù)目沒有具體的統(tǒng)計數(shù)據(jù),但 根據(jù)科學(xué)雜志上提供的集合估計法,通過中國幾個主要搜索引擎獲得 的搜索數(shù)據(jù)( 天網(wǎng)、c h i n a r e n 、新浪、搜狐、網(wǎng)易) ,我們可以估計到當(dāng) 前中國擁有的網(wǎng)頁數(shù)已經(jīng)超過8 0 0 0 萬。 但是掘我所知,它們卻沒有建立起一條有效的信息提供途徑。絕大多 數(shù)的網(wǎng)站都是僅僅通過瀏覽的方式提供內(nèi)容,即使是經(jīng)過精心編排、組織 合理的網(wǎng)站,也會有7 0 到8 0 的網(wǎng)頁內(nèi)容不能被有效查閱。網(wǎng)民對信 息的需求越來越大,同時也越來越?jīng)]有耐心。 搜索引擎的出現(xiàn)改變了人們獲取信息的方式,利用搜索引擎可以快速 地找到需要的信息。目前,搜索引擎是僅次于門戶的互聯(lián)網(wǎng)第二大核心技 術(shù),伴隨互聯(lián)網(wǎng)的普及和網(wǎng)上信息的爆炸式增長,它越來越引起人們的重 視。1 1 1 2 論文選題及其研究意義 搜索引擎的出現(xiàn)為我們在i n t e r n e t 上獲取信息提供了一種有效的手 段但隨著i n t e r n e t 的發(fā)展和網(wǎng)上信息量的激增,人們在使用中卻發(fā)現(xiàn) 要準(zhǔn)確、快速地查找自己所需的信息是越來越困難。 2 0 0 1 年,r o p e rs t a r c h 的調(diào)查指出,3 6 的互聯(lián)網(wǎng)用戶一個星期花了 超過2 個小時時間在網(wǎng)上搜索;7 1 的用戶在使用搜索引擎的時候遇到過 麻煩;平均搜索1 2 分鐘以后發(fā)現(xiàn)搜索受挫;搜索受挫中4 6 都是因為鏈 接錯誤;絕大部分( 8 6 ) 的互聯(lián)網(wǎng)用戶感到應(yīng)當(dāng)出現(xiàn)更有效的、準(zhǔn)確的信 息搜索技術(shù)。 另一項出k e e n 所做的調(diào)查顯示,人們平均每天有四個問題需要從外 界獲取答案;其中3 1 的人使用搜索引擎尋找答案;平均每周花費8 7 5 2 太原理j :人學(xué)碩l :研究生學(xué)能論文 2 1 搜索引擎定義 第二章搜索引擎概述 隨著i n t e r n e t 的迅速發(fā)展,網(wǎng)上的信息資源非常豐富。對于這種海 量的信息,用戶單純依靠自己手工查找所需的信息,如同大海撈針一樣。 因此,需要一個w e b 信息發(fā)現(xiàn)服務(wù)系統(tǒng),它能夠在很短時間內(nèi)自動發(fā)現(xiàn)新 的信息,將所發(fā)現(xiàn)的信息進行分類處理,并且在本地建立索引,這種信息 自動發(fā)現(xiàn)系統(tǒng)是搜索引擎的核心。所謂搜索引擎( s e a r c he n g i n e s ) 是一 個對互聯(lián)網(wǎng)上的信息資源進行搜集整理,然后供你查詢的系統(tǒng),它包括信 息搜集、信息整理和用戶查詢?nèi)糠帧!? 一個好的搜索引擎系統(tǒng)還應(yīng)能夠 對用戶提出的搜索請求進行處理,同時應(yīng)能夠?qū)⑺阉鞯慕Y(jié)果進行合理的組 織,提交給用戶。 2 2 搜索引擎發(fā)展史 搜索引擎的基本概念出現(xiàn)于2 0 世紀(jì)7 0 年代,但它真正發(fā)展和應(yīng)用卻 是9 0 年代的事情,特別是在9 0 年代中期得到快速的發(fā)展。i n t e r n e t 或 i n t r a n e t 信息搜索引擎是指運行于i n t e r n e t 或i n t r a n e t 上,以i n t e r n e t 或i n t r a n e t 網(wǎng)絡(luò)中的各種信息資源為對象,以信息檢索的方式提供用戶 所需信息的數(shù)據(jù)庫服務(wù)系統(tǒng),它主要提供了信息的自動收集、自動過濾、 自動索引和檢索導(dǎo)航等服務(wù),其最關(guān)鍵的組件是能夠在海量中英文數(shù)據(jù)上 進行高效全文檢索的信息管理系統(tǒng)。就搜索引擎技術(shù)應(yīng)用的發(fā)展而占,它 大致上可分為以下幾個方面: l 、第一代搜索引擎搜索結(jié)果的好壞往往用反饋結(jié)果的數(shù)量來衡量, 也就是浣,第一代搜索引擎“求全”。 i n f o s e e k ( w w w i n f o s e e k c o m ) : i n f o s e e k 是以檢索的相關(guān)程度高而知名。1 9 9 9 年被d i s n e y 收購, 發(fā)展與定位都做了調(diào)整,d i s n e y 將其作為入門網(wǎng)站g o c o m 的搜索引 4 太原理工大學(xué)碩士研究生學(xué)位論文 和用戶髫冀透辛矗若囂竿牟:謝耐薊劐葡卜舷廷樂剛。魚圳裂巾1 強蔫幕 誅氓善秭! 鏊蒯聊眇鏟紫曩肆: i j # 警引摯弱搿鞘塾轔型墼問邑k 雛嘛彰積 跑鞋弘禱b 霸糕觚翱螽竊朔霉霸蹙強擎囂餮季癸援貳鏈上臻;烈圳娶 勒剽掣愛護;曼芒穩(wěn)髫鬲菱e 蠹氡砭專;簞 再奄菩杰蘩囊i 萋;引薹鎣 薹囊蠢霪囊薹蓮離描謹(jǐn);要縫壇鼢理叼聃。弛啊甏移趟聰措搜索引擎已成為一個新的研究、開發(fā)領(lǐng)域。在我看來,因為它 要用到信息檢索、人工智能、計算機網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫、數(shù)據(jù)挖 掘、數(shù)字圖書館、自然語言處理等多領(lǐng)域的理論和技術(shù),所以具有綜合性 和挑戰(zhàn)性。又由于搜索引擎有大量的用戶,有很好的經(jīng)濟價值,所以引起 了世界各國計算機科學(xué)界和信息產(chǎn)業(yè)界的高度關(guān)注,目前的研究、開發(fā)十 分活躍,并出現(xiàn)了很多值得注意的動向?!?1 、十分注意提高信息查詢結(jié)果的精度,提高檢索的有效性 用戶在搜索引擎上進行信息查詢時,并不十分關(guān)注返回結(jié)果的多少, 而是看結(jié)果是否和自己的需求吻合。對于一個查詢,傳統(tǒng)的搜索引擎動輒 返回幾十萬、幾百萬篇文檔,用戶不得不在結(jié)果中篩選。解決查詢結(jié)果過 多的現(xiàn)象目前出現(xiàn)了幾種方法:一是通過各種方法獲得用戶沒有在查詢語 句中表達出來的真正用途,包括使用智能代理跟蹤用戶檢索行為,分析用 戶模型:使用相關(guān)度反饋機制,使用戶告訴搜索引擎哪些文檔和自己的需 求相關(guān)( 及其相關(guān)的程度) ,哪些不相關(guān),通過多次交互逐步求精。二是 用f 文分類( t e xtc a t e g o r i z a t i o n ) 技術(shù)將結(jié)果分類,使用可視化技術(shù) 顯示分類結(jié)構(gòu),用戶可以只瀏覽自己感興趣的類別。三是進行站點類聚或 內(nèi)容類聚,減少信息的總量。 2 、基于智能代理的信息過濾和個性化服務(wù) 信息智能代理是另外一種利用互聯(lián)網(wǎng)信息的機制。它使用自動獲得的 領(lǐng)域模型( 如w e b知識、信息處理、與用戶興趣相關(guān)的信息資源、領(lǐng)域組 織結(jié)構(gòu)) 、用戶模型( 如用戶背景、興趣、行為、風(fēng)格) 知識進行信息搜 集、索引、過濾( 包括興趣過濾和不良信息過濾) ,并自動地將用戶感興 趣的、對用戶有用的 x 太原理工大學(xué)碩士研究生學(xué)位論文 和用戶興趣動態(tài)變化的能力,從而提供個性化的服務(wù)。智能代理可以在用 戶端進行,也可以在服務(wù)器端運行。 3 、采用分布式體系結(jié)構(gòu)提高系統(tǒng)規(guī)模和性能 搜索引擎的實現(xiàn)可以采用集中式體系結(jié)構(gòu)和分布式體系結(jié)構(gòu),兩種方 法各有千秋。但當(dāng)系統(tǒng)規(guī)模到達一定程度( 如網(wǎng)頁數(shù)達到億級) 時,必然 要采用某種分布式方法,以提高系統(tǒng)性能。搜索引擎的各個組成部分,除 了用戶接口之外,都可以進行分布:搜索器可以在多臺機器上相互合作、 相互分工進行信息發(fā)現(xiàn),以提高信息發(fā)現(xiàn)和更新速度;索引器可以將索引 分布在不同的機器上,以減小索引對機器的要求;檢索器可以在不同的機 器上進行文檔的并行檢索,以提高檢索的速度和性能。 4 、重視交叉語言檢索的研究和開發(fā) 交叉語言信息檢索是指用戶用母語提交查詢,搜索引擎在多種語言的 數(shù)據(jù)庫中進行信息檢索,返回能夠回答用戶問題的所有語言的文檔。如果 再加上機器翻譯,返回結(jié)果可以用母語顯示。該技術(shù)目前還處于初步研究 階段,主要的困難在于語言之間在表達方式和語義對應(yīng)上的不確定性。但 對于經(jīng)濟全球化、互聯(lián)網(wǎng)跨越國界的今天,無疑具有很重要的意義。 2 4 搜索引擎工作原理 搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實際上是預(yù)先整理好的網(wǎng)頁 索引數(shù)據(jù)庫。搜索引擎,也不能真正理解網(wǎng)頁上的內(nèi)容,它只能機械的匹 配網(wǎng)頁上的文字。真正意義上的搜索引擎,通常指的是收集了互聯(lián)網(wǎng)上幾 千萬到幾十億個網(wǎng)頁并對網(wǎng)頁中的每一個文字( 即關(guān)鍵詞) 進行索引,建 立索引數(shù)據(jù)庫的全文搜索引擎。當(dāng)用戶查找某個關(guān)鍵詞的時候,所有在頁 面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來。在經(jīng)過復(fù)雜 的算法進行排序后,這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度高低,依次排 列?,F(xiàn)在的搜索引擎已普遍使用超鏈分析技術(shù),除了分析索引網(wǎng)頁本身的 文字,還分析索引所有指向該網(wǎng)頁的鏈接的u r l 、a n c h o r t e x t 、甚至鏈接 周圍的文字”1 。所以,有時候,即使某個網(wǎng)頁a 中并沒有某個詞比如“計 算機網(wǎng)絡(luò)”,但如果有別的網(wǎng)頁b 用鏈接“計算機網(wǎng)絡(luò)”指向這個網(wǎng)頁a , 那么用戶搜索“計算機網(wǎng)絡(luò)”時也能找到網(wǎng)頁a 。而且,如果有越多網(wǎng)頁 7 太原理i :大學(xué)碩士研究生學(xué)位論文 ( c 、d 、e 、f ) 用名為“計算機網(wǎng)絡(luò)”的鏈接指向這個網(wǎng)頁a ,或者 給出這個鏈接的源網(wǎng)頁( b 、c 、d 、e 、f ) 越優(yōu)秀,那么網(wǎng)頁a 在用 戶搜索“計算機網(wǎng)絡(luò)”時也會被認(rèn)為更相關(guān)排序也會越靠前。 搜索引擎的原理,可以看作三步: l 、從互聯(lián)網(wǎng)上抓取網(wǎng)頁 利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的s p i d e r 系統(tǒng)程序,自動訪問互 聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有u r l 爬到其它網(wǎng)頁,重復(fù)這過程,并把爬 過的所有網(wǎng)頁收集回來。 2 、建立索引數(shù)據(jù)庫 由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進行分析,提取相關(guān)網(wǎng)頁信息 ( 包括網(wǎng)頁所在0 r l 、編碼類型、頁面內(nèi)容包含的所有關(guān)鍵詞、關(guān)鍵詞位 置、生成時間、大小、與其它網(wǎng)頁的鏈接關(guān)系等) ,根據(jù)一定的相關(guān)度算 法進行大量復(fù)雜計算,得到每一個網(wǎng)頁針對頁面文字中及超鏈中每一個關(guān) 鍵詞的相關(guān)度( 或重要性) ,然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。 3 、在索引數(shù)據(jù)庫中搜索排序 當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到 符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。因為所有相關(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)度 早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠 前。 最后,由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容 組織起來返回給用戶。 搜索引擎的s p i d e r 一般要定期重新訪問所有網(wǎng)頁( 各搜索引擎的周 期不同,可能是幾天、幾周或幾個月,也可能對不同重要性的網(wǎng)頁有不同 的更新頻率) ,更新網(wǎng)頁索引數(shù)據(jù)庫,以反映出網(wǎng)頁文字的更新情況,增 加新的網(wǎng)頁信息,去除死鏈接,并根據(jù)網(wǎng)頁文字和鏈接關(guān)系的變化重新排 序。這樣,網(wǎng)頁的具體文字變化情況就會反映到用戶查詢的結(jié)果中。 2 5 搜索引擎的基本類型 現(xiàn)在i nc e r n e t 上已有數(shù)千個能提供檢索服務(wù)的站點,這些站點的搜 索引擎在收錄的范圍、內(nèi)容、檢索方法上都各有不同t 但總的來看,根據(jù) 8 太原理工大學(xué)碩士研究生學(xué)位論文 它們所基于的技術(shù)原理,可以將其分成三大類型:基于r o b o t 的搜索引擎、 目錄( d i r e c t o r y ,也叫做c a t a l o g ) 和元搜索弓! 擎。從目前的使用來看, 主要有以下幾類: l 、基于r o b o t 的搜索引擎 基于r o b 。t 的搜索引擎不是靠人工發(fā)現(xiàn)和甄別信息,而是由一個被 稱作r o b o t ”( 也稱為“s p i d e r ”、“w e bc r a w l e r ”) 的計算機程序在網(wǎng)頁 中爬行,依據(jù)一定的網(wǎng)絡(luò)協(xié)議在i n t e r n e t 中發(fā)現(xiàn)、加工、整理信息,并 為用戶提供檢索服務(wù)“?;趓 o b o t 的搜索引擎一般由四部分組成: w _ l v w 信息的采集 通常搜索引擎會生成多個r o b o t ,自動地根據(jù)初始搜索列表和一定的 搜索策略去w w w 站點搜集文檔( 通常為h t m l 文檔) 。 w w w 信息的分析 對由機器人搜集的文檔,一般在搜索引擎本地進行分析,提取出表達 文檔的關(guān)鍵詞、摘要等信息及文檔中的構(gòu)成w w w 結(jié)構(gòu)的超鏈( h y p e r l i n k ) 來建立索引。 w w w 信息的存儲 把文檔的索引按照一定結(jié)構(gòu)存儲在搜索引擎本地數(shù)據(jù)庫服務(wù)器上, 同時建立適應(yīng)查詢的高效索引。 w w w 信息的檢索 一般搜索引擎提供基于w w w 瀏覽器的查詢請求輸入界面,它根據(jù)用 戶提交的查詢請求,在本地數(shù)據(jù)庫中檢索出符合用戶查詢的記錄,并通常 依命中相關(guān)程度的次序來排列結(jié)果,最后通過瀏覽器返回給用戶。 我們把對用戶可見的“腳w 信息的檢索”這部分稱之為“搜索引擎前 端”。它是這樣工作的:瀏覽器與w e b 服務(wù)器相連,在搜索引擎的搜索界面 中輸入要查詢的關(guān)鍵字,然后提交查詢請求,w e b 服務(wù)器就在一個大型索 引數(shù)據(jù)庫中查找相匹配的條文,列出找到的站點,把結(jié)果傳給瀏覽器。 對用戶來說,其它部分是不可見的,我們把它們稱之為“搜索引擎 后端”。搜索引擎后端是由r o b o t 快速掃描i n t e r n e t 上的w e b 頁面,提取 其中的關(guān)鍵詞并編制索引,定期更新數(shù)據(jù)庫。 其中,r o b o t 作為一個程序,可以用c 、p e r l 、j a v a 等語言來編寫, 9 太原理1 :大學(xué)碩士研究生學(xué)f 市論文 可以運行在u n i x 、s o l a r is 、w i n d o w s 、n 1 、0 s 2 和m a c 等平臺上。r o b o l 設(shè)計是否合理將直接影響它訪問w e b 的效率,影響搜索數(shù)據(jù)庫的質(zhì)量。另 外,在設(shè)計r o b o t 時還必須考慮它對網(wǎng)絡(luò)和被訪問站點的影響,因為r o b o l 一般都運行在速度快、帶寬高的主機上如果它快速訪問一個速度比較慢 的目標(biāo)站點,就有可能會導(dǎo)致該站點出現(xiàn)阻塞甚至死機。r o b o t 還應(yīng)遵守 一些協(xié)議,以便被訪問站點的管理員能夠確定哪些內(nèi)容能被訪問,哪些不 能。 不同的搜索引擎會采取不同方式來建立索引,有的對整個h t m l 文件 的所有單詞都建立索引,有的只分析h t m l 文件的標(biāo)題或前幾段內(nèi)容,還 有的能處理h t m l 文件中的m e t a 標(biāo)記或其它不可見的特殊標(biāo)記。 不同的搜索引擎在計算等級值時使用了不同的方法,但它們都以關(guān)鍵 詞在網(wǎng)頁中出現(xiàn)的位置和頻率為基本依據(jù),例如,關(guān)鍵詞出現(xiàn)在標(biāo)題中的 網(wǎng)頁可能比只出現(xiàn)在其它地方的網(wǎng)頁更符合要求,關(guān)鍵詞出現(xiàn)在網(wǎng)頁的前 面可能比只出現(xiàn)在網(wǎng)頁的后面更符合要求,同一個關(guān)鍵詞出現(xiàn)多次的網(wǎng)頁 又可能比只出現(xiàn)一兩次的網(wǎng)頁更符合要求,把這些因素綜合起來考慮便可 得出一個計算等級值的公式。不過,絕大多數(shù)搜索引擎都沒有只按照上述 因素采確定計算公式,它們還加入了一些特殊考慮,例如,e x c i t e 能檢查 是否有很多鏈接指向同一個網(wǎng)頁,如果是的話,它就把這個網(wǎng)頁的等級值 稍微提高一些,理由是這樣的網(wǎng)頁一般都具有更大的訪問量。 2 、目錄式搜索引擎 目錄式搜索引擎與基于r o b o t 的搜索引擎所不同的是,目錄的數(shù)據(jù)庫 是依靠專職編輯或志愿人員建立起來的,這些編輯人員在訪問了某個w e b 站點后撰寫一段對該站點的描述,并根據(jù)站點的內(nèi)容和性質(zhì)將其歸為一個 預(yù)先分好的類別,把站點的u r l 平 i 描述放在這個類別中,當(dāng)用戶查詢某個 關(guān)鍵詞時,搜索軟件只在這些描述中進行搜索。很多目錄也接受用戶提交 的網(wǎng)站和描述,當(dāng)目錄的編輯人員認(rèn)可該網(wǎng)站及描述后,就會將之添加到 合適的類別中。 目錄的用戶界面基本上都是分級結(jié)構(gòu),首頁提供了最基本的幾個大類 的入口,用戶可以一級一級地向下訪問,直至找到自己感興趣的類別,另 外,用戶也可以利用目錄提供的搜索功能直接查找一個關(guān)鍵詞,不過,由 1 0 太原理工大學(xué)碩士研究生學(xué)位論文 于目錄只在保存的對站點的描述中進行搜索,因此站點本身的動態(tài)變化不 會反映到搜索結(jié)果中來,這也是目錄與基于r o b o t 的搜索引擎之間的一大 區(qū)別。 由于目錄是依靠人工來評價一個網(wǎng)站的內(nèi)容,因此用戶從目錄搜索得 到的結(jié)果往往比從基于r o b o t 的搜索引擎得到的結(jié)果更具參考價值。 3 、元搜索引擎 元搜索引擎又叫做m u l t i p l es e a r c he n g i n e ,它的特點是本身并沒有 存放網(wǎng)頁信息的數(shù)據(jù)庫,當(dāng)用戶查詢一個關(guān)鍵詞時,它把用戶的查詢請求 轉(zhuǎn)換成其它搜索引擎能夠接受的命令格式,并行地訪問數(shù)個搜索引擎采查 詢這個關(guān)鍵詞,并把這些搜索引擎返回的結(jié)果經(jīng)過處理后再返回給用戶。 與獨立搜索引擎相比,元搜索引擎不需要維護龐大的索引數(shù)據(jù)庫,也 不需要網(wǎng)絡(luò)蜘蛛( s p i d e r ) 去采集網(wǎng)頁。具體說來,元搜索引擎主要由三部 分組成,即:請求提交代理、檢索接口代理、結(jié)果顯示代理?!罢埱筇峤?代理”負責(zé)實現(xiàn)用戶“個性化”的檢索設(shè)置要求,包括調(diào)用哪些搜索引 擎、檢索時間限制、結(jié)果數(shù)量限制等?!皺z索接口代理”負責(zé)將用戶的檢 索請求“翻譯”成滿足不同搜索引擎“本地化”要求的格式?!敖Y(jié)果顯示 代理”負責(zé)所有源搜索引擎檢索結(jié)果的去重、合并、輸出處理等。由此也 可看出,元搜索引擎是建立于獨立搜索引擎之上的搜索引擎,其技術(shù)重心 就在于查詢前的處理( 檢索請求提交機制和檢索接口代理) 和結(jié)果的集成。 元搜索引擎可以靈活地選擇所要采用的獨立搜索引擎,它一般都是選擇那 些比較典型的、性能優(yōu)異的獨立搜索引擎。這種強強聯(lián)合的結(jié)果保證了搜 索結(jié)果的權(quán)威性和可靠性。它還可以充分發(fā)揮各個獨立搜索引擎在某個搜 索領(lǐng)域的功能與優(yōu)勢,彌補獨立搜索引擎信息覆蓋面上的局限性。 2 6 搜索引擎的基本結(jié)構(gòu)及各部分的工作機理 搜索引擎雖然表現(xiàn)為各種不同的形式,但其最根本是由搜索器 ( s p i d e r ) 、索引器( i n d e x e r ) 、檢索器( s e a r c h e r ) 和用戶接口( u s e r i n t e r f a c e ) 四部分組成。當(dāng)然,個完整的搜索引擎系統(tǒng)還需要有一個 檢索結(jié)果的頁面生成系統(tǒng),也就是要把檢索結(jié)果高效地組裝成萬維網(wǎng)頁 面。其結(jié)構(gòu)圖如圖2 一l 所示: 1 1 太原理【大學(xué)碩士研究生學(xué)位論文 藩墅:鬟翼霧硅r o b o t 焚c r a w l e r ;蕊霹囂蠹露篷需匡羲薹薹薹萄型 薯囊簍季;皋引i 函一巍p 抑i 驕烈攆醐爨釋篤高w 啦塑簪;躺妻蠶1 玉謄 營鯔蟛剖睽信恩霪j 拿塵粵盞駕氣蠖暾撙瀠弓哩q ,一罹緣is p i d e r 馳 堋琶h 鞋u r l 驟恥駔鯉,赫帶u r l 即驄堅醵魏u r l 摁駱籜掘露豎孰酏聯(lián) 鉑望vu r l j 型扎莘影夏囂蝌= 覆 蓋率不 高,用戶往往為了尋找目的數(shù)據(jù)和資源,而不斷地在多個搜索引擎間切換, 這常常令用戶事倍功半。 其次,現(xiàn)有傳統(tǒng)搜索引擎對提供的檢索信息沒有進行綜合處理,冗余 和噪聲含量大,用戶只能親自從大量的反饋信息中提取自己的所需信息。 再者,現(xiàn)有的傳統(tǒng)搜索引擎各自使用不同的索引技術(shù)、信息收集技術(shù) 和關(guān)鍵字查詢語法技術(shù),使得它們各自搜索的信息資源在很大程度上有相 當(dāng)大的差異,同時給用戶檢索查詢帶來很大的不便。 最后,現(xiàn)有傳統(tǒng)搜索引擎基本上都采用“一個搜索適用于所有用戶” 的搜索模型( 不同的用戶提交相同的關(guān)鍵字查詢請求時,搜索引擎返回相 同的搜索幕疃煌撓沒運1 6 x 太原理工大學(xué)碩士研究生學(xué)位論文 多s p i d e r :采用多s p i d e r 并行的策略能極大地提高效率。我們將 多個s p i d e r 同時運行,每個s p i d e r 從不同的u r l 列表出發(fā)開始搜索,搜 索結(jié)果返回到網(wǎng)頁數(shù)據(jù)庫中。多個s p i d e r 之間通過相互間的通信機制來 確定是否有重復(fù)的u r l 鏈接,以避免冗余的工作。 多線程:在具體實現(xiàn)時,由于對每個u r l 的連接都需要一定的時間, 即獲得對方服務(wù)器端的響應(yīng)需要等待時間,再加上網(wǎng)絡(luò)傳輸和擁塞的耗 時,s p i d e r 的大量時間浪費在等待響應(yīng)或信息這上面。為解決這個問題, 我們采用了j a v a 的多線程機制,一個線程對應(yīng)一個u r l 連接,多個線程 同時運行,則充分利用了各個連接的等待時間去完成其它連接或信息傳輸 與處理的工作,其實際效率要比順序執(zhí)行要快幾倍。但線程的數(shù)量的最佳 值與本地c p u 性能和網(wǎng)絡(luò)帶寬等因素有關(guān),c p u 性能好,則線程個數(shù)可以 多一些,而若網(wǎng)絡(luò)帶寬較寬,則線程個數(shù)應(yīng)當(dāng)減少一些。 索引器負責(zé)索引庫的建立。s p i d e r 收回的信息很多,直接用于查詢, 其效率將非常低。為了提高檢索的效率,需要按照一定的規(guī)則對網(wǎng)頁建立 索引,并將其存放于索引數(shù)據(jù)庫,以備搜索引擎軟件查詢。索引器的主要 工作是建立一個包含關(guān)鍵信息的索引庫以備查詢。索引器的功能是理解搜 索器所搜索的信息,從中抽取出索引項,用于表示文檔以及生成文檔庫的 索引表。索引器可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很 大時,必須實現(xiàn)即時索引,否則不能夠跟上信息量急劇增加的速度。索引 算法對索引器的性能( 如大規(guī)模峰值查詢時的響應(yīng)速度) 有很大的影響。 一個搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。索引器的策略很 大程度上影響了搜索引擎的效率與準(zhǔn)確性。目前,比較常用的方法是對網(wǎng) 頁的標(biāo)題( t i t l e ) 和評語( c o m m e n t ) 進行索引。 在一個文本中,不是所有的單詞都能等同地表示該文本的語義,一些 詞匯與其它詞匯相比能夠表達更多的意思。一般來說,名詞是最能夠表達 文本的內(nèi)容的。因此,在建立文本索引以前有必要對文本進行預(yù)處理,以 決定對哪些詞匯建立索引。文本預(yù)處理包括以下五個步驟:”1 文本的詞法分析,它是將字符串( 文檔中的文本) 轉(zhuǎn)化為詞條的過 程。它主要是處理文本中的數(shù)字、連接符、標(biāo)點符號和字符的大小寫。其 目的主要是識別文本中的詞條。 1 3 太原理工大學(xué)碩士研究生學(xué)位論文 用戶反饋信息的查詢擴展方法、基于局部信息的查詢擴展方法和基于全部 信息的查詢擴展方法。 用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反 饋機制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索 引擎中得到有效、及時的信息。用戶接口的設(shè)計和實現(xiàn)使用人機交互的理 論和方法,以充分適應(yīng)人類的思維習(xí)慣。 2 7 評價搜索引擎技術(shù)指標(biāo) 為了對現(xiàn)有的搜索引擎進行分析、對比與評價,我們必須首先了解有 哪些評價搜索引擎的技術(shù)指標(biāo)。 1 、查全率 查全率是指相關(guān)文件與總的相關(guān)文件的比率。即用戶通過搜索引擎所 獲取的有用信息與整個i n t e r n e t 中相關(guān)信息的比率。 2 、查準(zhǔn)率 查準(zhǔn)率是指獲取的相關(guān)文件與獲取總文件的比率。即用戶通過搜索引 擎所獲取的信息中真正是用戶需要的信息占總共獲取信息的比率。 下面讓我們用一個例子來說明,假設(shè)整個i n t e r n e t 是一個大的數(shù)據(jù) 庫,其中有關(guān)“搜索引擎”為關(guān)鍵字在某個搜索引擎查詢到的信息有5 0 條,但真正符合用戶需要的只有3 0 個,那么: 查全率= 5 0 1 0 0 = 5 0 查準(zhǔn)率= 3 0 5 0 = 6 0 3 、覆蓋范圍 覆蓋范圍指的是搜索引擎索引數(shù)據(jù)庫索引的w e b 頁面占整個 i n t e r n e t 中頁面的比例。 4 、響應(yīng)時間 響應(yīng)時間指的是用戶發(fā)出查詢請求后到觀看到查詢結(jié)果的這段時間。 5 、用戶方便性 用戶方便性包括查詢界面是否直觀、易于使用,查詢語法是否豐富, 顯示結(jié)果是否易于查看等等。 1 5 太原理【大學(xué)碩士研究生學(xué)位論文 藩墅:鬟翼霧硅r o b o t 焚c r a w l e r ;蕊霹囂蠹露篷需匡羲薹薹薹萄型 薯囊簍季;皋引i 函一巍p 抑i 驕烈攆醐爨釋篤高w 啦塑簪;躺妻蠶1 玉謄 營鯔蟛剖睽信恩霪j 拿塵粵盞駕氣蠖暾撙瀠弓哩q ,一罹緣is p i d e r 馳 堋琶h 鞋u r l 驟恥駔鯉,赫帶u r l 即驄堅醵魏u r l 摁駱籜掘露豎孰酏聯(lián) 鉑望vu r l j 型扎莘影夏囂蝌= 覆 蓋率不 高,用戶往往為了尋找目的數(shù)據(jù)和資源,而不斷地在多個搜索引擎間切換, 這常常令用戶事倍功半。 其次,現(xiàn)有傳統(tǒng)搜索引擎對提供的檢索信息沒有進行綜合處理,冗余 和噪聲含量大,用戶只能親自從大量的反饋信息中提取自己的所需信息。 再者,現(xiàn)有的傳統(tǒng)搜索引擎各自使用不同的索引技術(shù)、信息收集技術(shù) 和關(guān)鍵字查詢語法技術(shù),使得它們各自搜索的信息資源在很大程度上有相 當(dāng)大的差異,同時給用戶檢索查詢帶來很大的不便。 最后,現(xiàn)有傳統(tǒng)搜索引擎基本上都采用“一個搜索適用于所有用戶” 的搜索模型( 不同的用戶提交相同的關(guān)鍵字查詢請求時,搜索引擎返回相 同的搜索 幕疃煌撓沒運1 6 太原理一l i 大學(xué)碩士研究生學(xué)位論文 無用詞匯的刪除,它主要是過濾掉那些對于信息獲取過程來說區(qū)分 能力低的詞匯。在信息庫的文檔中太頻繁出現(xiàn)的單詞不會成為具有良好區(qū) 分能力的詞匯。實際上如果一個單詞出現(xiàn)在信息庫中8 0 的文檔中。 陔單詞對于信息獲取過程來說根本沒用。一般來說,冠詞、介詞、連詞和 一些動詞、副詞、形容詞等部可以算作無用詞匯。 詞干的提取,所謂詞干,是指將詞的詞綴( 前綴和后綴) 刪除后剩 下的部分。它的主要任務(wù)是去除詞綴,這樣可以允許所獲取的文檔包含一 些查詢詞條的變換形式。目前,詞干提取技術(shù)可以分為以下幾種:詞綴刪 除、表格查詢、后續(xù)變形和n 一連字。所謂表格查詢方法是指通過在表格 中查找某個詞匯的詞干來實現(xiàn),表格中的信息依賴于整個語言中詞匯的詞 干。所謂后續(xù)變形詞干提取法主要是通過結(jié)構(gòu)化語言的知識來確定詞素的 邊界,這種方法比詞綴刪除法要來得復(fù)雜。所謂n 一連字詞干提取法是基 于對單詞中字母是否應(yīng)該連在一起的識別,這一過程實際上是詞條聚類的 過程。 索引詞條詞干的選擇,自然語言中的句子一般由名詞、代詞、冠 詞、動詞、形容詞、副詞、介詞和連詞構(gòu)成。在這些詞中,主要由名詞表 達句子語義的,因此,選擇句子中的名詞作為索引詞條是一種可行的方法。 太原理1 i 大學(xué)碩士研究生學(xué)位論文 給用戶,而且還能去偽存真,把貌似符合查詢要求,實際離用戶查詢要求 相去甚遠的信息過濾掉。進行文檔相關(guān)性評價,并最終按與用戶查詢相關(guān) 程度來篩選出查詢結(jié)果是搜索引擎的重要一環(huán)。搜索引擎作為w w w 上的一 個查詢工具,其處理的文檔已不再是靜態(tài)和孤立的。w w w 本身可看作為隨 時間變化其結(jié)構(gòu)吐l 發(fā)生變化的動態(tài)對象。w w w 實際上可描述成時間和u r l 的表達式。文檔中所臺有的表征了文檔在w w w 中的結(jié)構(gòu)的超鏈在評價文檔 相關(guān)性時也應(yīng)作為一個評價標(biāo)準(zhǔn)。把文檔放在w w w 上作為其中一部分考慮 時,其信息可表示成如下形式: i n f o r m a t l 0 n ( d o c ) = t e x t d j f o r m a t i o n ( d o c ) + h y p e r i n f o r m a t i o n ( d o c )( 式2 1 ) 當(dāng)搜索引擎進行文檔相關(guān)性評價時,對文檔中超鏈的賦值完全可以依賴 1 e x t i n f ( ) r a t i o n 評價作出正確選擇。 2 1 0 搜索引擎的未來發(fā)展展望 l 、讓搜索引擎更了解你的需求意圖 當(dāng)前的信息檢索服務(wù)大多是基于關(guān)鍵字查找,并運用布爾計算,由用 戶給定需求信息中的關(guān)鍵詞語,系統(tǒng)在數(shù)據(jù)庫中查找包含關(guān)鍵詞語的文 件,并給出相應(yīng)的網(wǎng)絡(luò)地址鏈接。這種方式將詞語從語義背景中提出,以 孤立的關(guān)鍵字標(biāo)引文檔,割裂了原始文檔中的邏輯語義。只用文檔中的詞 組不能完全表達文檔的含義,更重要的是在自然語言中,有很多的方法可 以表達一個詢問的概念,同時一個詞可以用到多個領(lǐng)域,所以關(guān)鍵詞方式 脫離了用戶本身意圖的領(lǐng)域背景,使得“誤解”概率增大導(dǎo)致檢索結(jié)果 與用戶意圖不符1 。因此,未來的搜索引擎應(yīng)能更好的了解用戶。 讓用戶更好地表達需求 現(xiàn)有的關(guān)鍵字接口不符合人們的日常習(xí)慣。自然語占接口的提供可以 讓用戶以自然語言和熟悉的方式使用搜索引擎,而且自然語言能更好地表 達用戶的意圖和需求使檢索的結(jié)果更加準(zhǔn)確。 主動讓搜索引擎了解用戶 搜索引擎的定制、個性化是未來商業(yè)服務(wù)的一個發(fā)展趨勢。讓用戶成 為搜索引擎的注冊用戶,注冊用戶可以提交自己的個性化信息,甚至自己 】8 太原理,:火學(xué)碩士研究生學(xué)位論文 第三章a g e n t 技術(shù)研究 3 1 艇e n t 的產(chǎn)生與定義 a g e n t 理論與技術(shù)源于d a i ( d i s t r i b u t e da r t i f i c i a li n t e l l i g e n c e , 分布式人工智能) 。d a i 系統(tǒng)研究是以模擬人婁社會各種組織及其協(xié)作關(guān) 系為目標(biāo)。自從2 0 世紀(jì)8 0 年代末開始,a g e nl 理論與技術(shù)研究從d a i 領(lǐng) 域中擴張開來,并與許多其他領(lǐng)域互相借鑒和融合,得到了比d a i 更為廣 泛的應(yīng)用。 a g e n t 是由m i n s k y 于1 9 8 6 年出版的思維的社會一書中提出的, 但到目前為止,沒有一個被普遍接受的a g e n t 的定義,它只是一種抽象工 具。w 0 0 1 d r i d g e 和j e n n i n g s 給出的定義是”。:“a g e n t 是處在某個環(huán)境 中的計算機系統(tǒng),該系統(tǒng)有能力在這個環(huán)境中自主行動以實現(xiàn)其設(shè)計目 標(biāo)?!眆 r a n k li n 和g r a e s s e r 對a g e n t 給出這樣的定義“”:“a g e n t 是一個 處于一個環(huán)境之中并且作為這個環(huán)境一部分的個系統(tǒng),它隨時可以感測 這個環(huán)境并且執(zhí)行相應(yīng)的動作,同時逐漸建立自己的活動規(guī)劃以應(yīng)付未來 可能感測到的環(huán)境變化?!倍鴖 h o h a m 認(rèn)為?!埃骸癮 g e n t 就是一種實體,它 由許多心智狀態(tài)( m e n t a ls t a t e ) ,如信念( b e l i e f ) 、能力( c a p a b i l i t y ) 、 選擇( s e l e c t i o n ) 、和承諾( c o m m i t m e n t ) 等組成的。”對于a g e n t 應(yīng)具 有的性質(zhì)也只有一點達成了普遍的共識,即自治性。 a g e n t 的特征有: 自治性:船e n t 具有屬于其自身的計算資源和局部于自身行為控制 的機制,能在無外界直接操縱的情況下,根據(jù)其內(nèi)部狀態(tài)和感知到的( 外 部) 環(huán)境信息,決定和控制自身的行為。 交互性:能與其它a g e n t 進行多種形式的交互,能有效地與其它 a g e n t 協(xié)同工作。 反應(yīng)性;智能a g e n t 可以感知它們的環(huán)境,并可以對環(huán)境發(fā)生的變 化以及時的方式做出反應(yīng),以滿足它們的設(shè)計目標(biāo)。 2 0 x 太原理工大學(xué)碩士研究生學(xué)位論文 預(yù)動性:智能a g e n t 通過主動發(fā)起可以表現(xiàn)出目標(biāo)引導(dǎo)的行為,以 滿足它們的設(shè)計目標(biāo)可以主動發(fā)起一個動作。 社會性:智能a g e n t 可以與其它a g e n t ( 也可能是j k ) 交互,以滿 足它們的設(shè)計目標(biāo)。 代理性:智能a g e n t 具有代表他人的能力,即它們都代表用戶工 作。 智能性:智能a g e n t 具有一定程度的智能,包括推理到自學(xué)習(xí)等一 系列的智能行為。 3 2a g e n t 的主要技術(shù) a g e n t 的智能性( i n t e l l i g e n c e ) 和代理性( a g e n c y ) 是定性描述a g e n t 的兩個主要技術(shù)特征。智能性是指應(yīng)用系統(tǒng)使用推理、學(xué)習(xí)和其他技術(shù)來 分析解釋它己接觸過的或剛提交給它的各種信息和知識能力。代理能力是 指一個a g e n t 代理用戶執(zhí)行某個任務(wù)的能力,即在沒有外界直接操縱的情 況下,根據(jù)自身的內(nèi)部狀態(tài)以及感知到的外部環(huán)境信息,決定和控制自身 的行為。 、 a g e n t 的主要技術(shù)包括機器技術(shù)、內(nèi)容技術(shù)、訪問技術(shù)和安全技術(shù), 這些技術(shù)都是緊緊圍繞智能性和代理能力這兩個a g e n t 的根本特征展開 的。 1 、機器技術(shù) 這里指的機器是各種在人工智能領(lǐng)域中開發(fā)的,支持各種程度智能的 軟件,包括有:各種形式的推理機、學(xué)習(xí)機、用戶創(chuàng)建修改規(guī)則和知識的 工具等,機器是事件驅(qū)動的,事件在這里是指代理環(huán)境的改變,即某個外 部事件的發(fā)生或者是有新的知識和內(nèi)容產(chǎn)生。機器技術(shù)中的核心是推理機 和學(xué)習(xí)機,它們提供了a g e n t 所需的推理能力和學(xué)習(xí)能力。推理機依賴于 外部事件和數(shù)據(jù),通過其外圍邏輯接口輸入而進行推理,從而使a g e n t 產(chǎn)生各種可能的行為,學(xué)習(xí)機制則提供了修改規(guī)則庫和長期事實的能力, 包括增加新規(guī)則,修改過期規(guī)則,增加新的事實和修改無效的事實,修改 信任系數(shù)等等。因此,機器技術(shù)決定了a g e n t 智能性的高低程度,是a g e n t 技術(shù)的核心。 2 】 太原理 :大學(xué)碩十研究生學(xué)付論文 2 、內(nèi)容技術(shù) 內(nèi)容技術(shù)與機器技術(shù)是息息相關(guān)的,內(nèi)容是指機器用于推理和學(xué)習(xí)的 數(shù)據(jù),但它們不一定就是知識,主要包括屬于結(jié)構(gòu)化知識的規(guī)則和數(shù)據(jù) 大量非結(jié)構(gòu)化的通用知識。規(guī)則主要是用戶策略的表達,同時也是對現(xiàn)實 世界中知識的表示。這樣,a g e n t 就可以在基于規(guī)則的基礎(chǔ)上和用戶進行 相互的通信和交流。內(nèi)容技術(shù)的應(yīng)用在于:將用戶的參數(shù)設(shè)置標(biāo)準(zhǔn)化以后, 咀一種規(guī)則的形式提交給學(xué)習(xí)機;將非結(jié)構(gòu)化信息標(biāo)準(zhǔn)化后,以結(jié)構(gòu)化數(shù) 據(jù)提交給推理機。因此,內(nèi)容技術(shù)是推理機、學(xué)習(xí)機等進行計算和推理的 基礎(chǔ),它同機器技術(shù)一樣影響著a g e n t 的智能性的高低。 3 、訪問技術(shù) 訪問是指a g e n t 同周圍環(huán)境( 包括用戶或其他a g e n t 等) 進行交互。 一個a g e n t 必須能夠感知其環(huán)境中發(fā)生的事件并能夠采取相應(yīng)的動作,在 大多數(shù)情況下,a g e n t 是為已有的環(huán)境和應(yīng)用開發(fā)的。因此,訪問技術(shù)與 a g e n t 的代理能力密切相關(guān),不同程度、不同類別的訪問技術(shù)將決定代理 能力不同,也將決定代理能力的高低。 4 、安全技術(shù) a g e n t 的安全問題涉及的范圍非常廣泛。不但要考慮如何保護用戶隱 私,包括用戶個人資料、興趣愛好等信息,而且在其他一些環(huán)境更加復(fù)雜 的網(wǎng)絡(luò)代理事務(wù)中,如電子商務(wù),就不得不考慮安全性和完整性這些更加 復(fù)雜的情況。因此,無論在代理交互性還是服務(wù)交互性方面,安全技術(shù)都 是影響a g e n t 代理能力的重要因素。 3 3 軟件a g e n t l 、軟件a g e n t 定義 a g e n t 一詞直譯為“代理”,也有人把它稱為“智能代理”,廣義上它 是指具有智能的任何實體,包括人類、智能硬件( 如機器人) 和智能軟件。 a g e n t 思想的誕生可歸功于j o h nm c c a r t h y 在2 0 世紀(jì)5 0 年代提出的 “t h ea d v i c et a k e r ”系統(tǒng),該系統(tǒng)被設(shè)想為具有目標(biāo)性,系統(tǒng)內(nèi)實體間 用人類的術(shù)語進行交流,他們從用戶的利益來考慮從事各項任務(wù)。到目前 為止,許多研究者提出了各自對a g e n t 的定義,但是至今沒有一個被大多 2 2 太原理1 :人學(xué)碩十研究生學(xué)俄論文 戶交互的方式( 如b r o w s e r 方式) ,融合用戶的行為模式,以提高檢索的 精度和廣度。國內(nèi)在如何利用a g e n t 實現(xiàn)智能化方面也進行了許多探討并 做了火量的實踐工作,在信息檢索上,文檔的自動聚類和理解也是該領(lǐng)域 的一個研究重點。另外由于中文和西文在編碼和表達方式上有很大的不 同,因此國內(nèi)在中文檢索的處理上也投入了大量的精力。 3 4 基于樞e n t 的系統(tǒng) 合作船e n t 系統(tǒng):是一種典型的、大規(guī)模和粗粒度的a g e n t 系統(tǒng),強 調(diào)a g e n t 的自治性和a g e nl 問的相互操作性,在一個開放的多船e n t 環(huán)境 中完成a g e n t 的所有者的任務(wù)。a g e n t 之間可以達成一種可相互接受的一 致性。 界面a g e n t 系統(tǒng):支持和提供一種主動性的協(xié)助,這種協(xié)助對于使用 復(fù)雜應(yīng)用系統(tǒng)的用戶特別有利。界面a g e n t 強調(diào)自治性和學(xué)習(xí)性,以完成 所有者的任務(wù)。界面a g e n t 最主要的性質(zhì)是它是一個個人助理,它與同一 工作環(huán)境中的用戶進行合作。一個a g e n t 與其他a g e n c 之間如果有操作的 話,這種互操作僅限于請求建議。 信息a g e n t 系統(tǒng):是一個具有主動性、適應(yīng)性和互操作性的w w w 信息 管理者,完成在多個分布的資源中管理、操縱、收集信息的功能。 移動a g e n t 系統(tǒng):是一種軟件程序,能在w w w 上漫游,代表其所有者 的利益完成任務(wù),最后,履行完賦予它的職責(zé)并回到原先的位置。 3 5a g e n t 的體系結(jié)構(gòu) 1 、單a g e n t 的體系結(jié)構(gòu) 單a g e n t 系統(tǒng)由一個a

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論