版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、基于agent的數(shù)據(jù)挖掘在web預(yù)取中的應(yīng)用研究摘要隨著internet技術(shù)的飛速發(fā)展,www以其多媒體的傳輸及良好的交互性 而倍受青睞?,F(xiàn)在市面上已經(jīng)有了許多用于web預(yù)取的軟件,如cnet網(wǎng)絡(luò)公司的 netsonic瀏覽器加速軟件,它的soniccache技術(shù)會預(yù)先讀入由目前瀏覽網(wǎng)頁所連 結(jié)出去網(wǎng)頁的文字部分以節(jié)省時間,但它可能獲取大量對用戶無用的頁面,這對 于整個網(wǎng)絡(luò)系統(tǒng)以及用戶的花費(fèi)(有些網(wǎng)絡(luò)是按照用戶訪問的流量來計(jì)費(fèi)的)是個 較大的負(fù)擔(dān);還冇如naviscope公司的naviscope軟件,它是一種站內(nèi)快速檢索引 擎,當(dāng)進(jìn)入一個站點(diǎn),它會將該站點(diǎn)的結(jié)構(gòu)圖顯示出來,以便快速查到所需內(nèi)容
2、, 并顯示下傳和上傳信息,它也需要獲取大量無用的web頁面,而11使用起來對 用戶并不透明。針對上述問題,本文研究并提出了一個基于agent的web預(yù)取系統(tǒng)。關(guān)鍵詞:數(shù)據(jù)挖掘 預(yù)取 數(shù)據(jù)模型www agent目錄摘 要i第一章 綜述1第二章預(yù)備知識22.1數(shù)據(jù)挖掘的發(fā)展22.2數(shù)據(jù)挖掘的定義2第三章 基于agent的智能數(shù)拯挖掘系統(tǒng)83.1系統(tǒng)結(jié)構(gòu)83.2目標(biāo)表示及信息預(yù)處理93.3興趣關(guān)聯(lián)規(guī)則挖掘算法10第四章 基于agent的web預(yù)取系統(tǒng)124系統(tǒng)要求124.2系統(tǒng)模型124.3 web文檔的預(yù)取12第五章系統(tǒng)實(shí)現(xiàn)145.1系統(tǒng)功能145.2開發(fā)環(huán)境14結(jié)束語17致謝18參考文獻(xiàn)19第一
3、章綜述隨著internet技術(shù)的飛速發(fā)展,www以其多媒體的傳輸及良好的交互性 而倍受青睞。門從其1991年誕生以來,已經(jīng)發(fā)展成為一個巨大的分布式信息空間, 擁有上億用戶、幾百萬站點(diǎn)和幾億頁面,而11其信息容量仍在以指數(shù)形式飛速增 長,為用戶提供了一個巨大的信息源。雖然近幾年來網(wǎng)絡(luò)速度得到了很大的提高, 但是由于接入internet的用戶數(shù)量劇增以及web服務(wù)和網(wǎng)絡(luò)固有的延遲,使 得網(wǎng)絡(luò)越來越擁擠,用戶的服務(wù)質(zhì)量得不到很好的保證。www以請求/響應(yīng)方式 工作,由于http協(xié)議的無狀態(tài)性,使得web服務(wù)器不能很好地了解用戶的需 求,從而不能預(yù)測用戶的請求?,F(xiàn)在的瀏覽器-般都使用緩沖機(jī)制,它利用w
4、ww 訪問的時間局部性,將曾經(jīng)訪問過的文檔保存在非服務(wù)器站點(diǎn),從而避免向遠(yuǎn)程 服務(wù)器發(fā)送請求,或者避免由遠(yuǎn)程服務(wù)器發(fā)送完整的響應(yīng)。單純的cache技術(shù)只 是利用了 www訪問模式的時間局部性,對于未曾訪問過的內(nèi)容無法緩沖,響應(yīng) 性能依然得不到改善,這一點(diǎn)在用戶發(fā)現(xiàn)一個新的熱點(diǎn)服務(wù)器或服務(wù)器的頁面經(jīng) 常更新時,感覺尤其明顯。另外,如果用戶機(jī)器或本地代理服務(wù)器用于www內(nèi) 容緩沖的空間不大,曾經(jīng)訪問過的內(nèi)容被覆蓋,單純的cache機(jī)制也不會產(chǎn)生好 的響應(yīng)性能。根據(jù)用戶以往的訪問習(xí)慣和當(dāng)前的請求,預(yù)測用戶將來可能發(fā)岀的訪問請求, 在用戶瀏覽當(dāng)而web頁面時將預(yù)測的內(nèi)容取到本地高速緩存中,這樣用戶在真
5、 正要訪問這些頁面時只需從本地高速緩存下載,從而在很大程度上減小用戶的訪 問延遲。預(yù)取對用戶未請求過的頁面進(jìn)行緩沖,是一種主動的cache,是cache機(jī) 制由時間局部性向空間局部性的擴(kuò)展。預(yù)取技術(shù)在web中的應(yīng)用可大大減少用 戶請求后的等待時間。第二章預(yù)備知識2.1數(shù)據(jù)挖掘的發(fā)展近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù) 據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。獲取的 信息和知識可以廣泛用于各種應(yīng)用,包括商務(wù)管理、生產(chǎn)控制、市場分析、工程 設(shè)計(jì)和www等。主要工具作岀了重要貢獻(xiàn)。自80年代屮期以來,數(shù)據(jù)庫技術(shù)的特點(diǎn)是廣泛接受關(guān)系技術(shù),研究和開發(fā)
6、新 的、功能強(qiáng)大的數(shù)據(jù)庫系統(tǒng)。這些使用了先進(jìn)的數(shù)據(jù)模型,如擴(kuò)充關(guān)系模型、面 向?qū)ο竽P?、對象一關(guān)系模型和演繹模型,包括空間的、時間的、多媒體的、主 動的和科學(xué)的數(shù)據(jù)庫、知識庫、辦公信息庫在內(nèi)的面向應(yīng)用的數(shù)據(jù)庫系統(tǒng)百花齊 放。涉及分布性、多樣性和數(shù)據(jù)共享問題被廣泛研究。異種數(shù)據(jù)庫和基于 internet的全球信息系統(tǒng)www也已出現(xiàn),并成為信息產(chǎn)業(yè)的生力軍。在過去的兒十年中,計(jì)算機(jī)換件穩(wěn)定的、令人吃驚的進(jìn)步導(dǎo)致了功能強(qiáng)大的 計(jì)算機(jī)、數(shù)據(jù)收集設(shè)備和存儲介質(zhì)的大量供應(yīng)。這些技術(shù)大大推進(jìn)了數(shù)據(jù)庫和信 息產(chǎn)業(yè)的發(fā)展,使得大量數(shù)據(jù)庫和信息存儲用于事務(wù)管理、信息檢索和數(shù)據(jù)分析。隨著數(shù)據(jù)庫技術(shù)和數(shù)據(jù)庫管理系統(tǒng)的
7、廣泛應(yīng)用,全球范圍內(nèi)數(shù)據(jù)庫中存儲的 數(shù)據(jù)量急劇增大。數(shù)據(jù)的有效性是有時間性的。數(shù)據(jù)的豐富和時效性帶來了對強(qiáng) 有力的數(shù)據(jù)分析工具的需求,人們希望能夠在對己有的大量數(shù)據(jù)分析的基礎(chǔ)上進(jìn) 行科學(xué)研究、商業(yè)決策或企業(yè)管理。但是,現(xiàn)冇的數(shù)據(jù)分析工具很難對數(shù)據(jù)進(jìn)行 深層次的處理,人們只能望“數(shù)”興嘆。大量的數(shù)據(jù)被描述為“數(shù)據(jù)豐富、信息 貧乏”??焖僭鲩L的海量數(shù)據(jù)收集、存放在大型和大量數(shù)據(jù)庫中,沒有強(qiáng)有力的工 較好的效果,為人們的正確決策提供了很大的幫助。2.2數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘(data miningdm)是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或具他信息庫中 的大量數(shù)據(jù)屮挖掘有趣知識的過程。作為一門新興的、來口各種
8、不同領(lǐng)域的交叉性學(xué)科,數(shù)據(jù)挖掘有許多不同的術(shù)語名稱,如知識抽取(information extraction)、知識發(fā)現(xiàn)(knowledge discovery 信息發(fā)現(xiàn)(infonnation discovery)、信息收獲(information harvesting)、智能數(shù)據(jù) 分析(intelligent data analysis)和數(shù)據(jù)考古(data archeology)等等。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)是人工智能、機(jī)器學(xué)習(xí)與數(shù)據(jù)庫技術(shù)相結(jié)合的產(chǎn)物。1) 機(jī)器學(xué)習(xí)(machine learning)是用計(jì)算機(jī)模擬人類學(xué)習(xí)的一門科學(xué), 開始于20世相關(guān)的數(shù)據(jù))2)數(shù)據(jù)變換(統(tǒng)一成適合挖掘的形
9、式)3)數(shù)據(jù)挖掘(基木步驟,使用智能方法提取數(shù)據(jù)模式)4)模式評估(根據(jù)某種興趣度度量、識別表示知識的真正有趣的模式)5)知識表示(使用可視化和知識表示技術(shù),向用戶捉供挖掘的知識)括時間序列數(shù)據(jù)分析、序列或周期模式匹配和基于類似性的數(shù)據(jù)分析。apriori性質(zhì):頻繁項(xiàng)集的所冇非空子集都必須也是頻繁的。apriori性質(zhì)基 于如下觀察:根據(jù)定義,如果項(xiàng)集i不滿足最小支持度閾值,則i不是頻繁的, 即p (i) <minsupo如果項(xiàng)a添加到i,則結(jié)果項(xiàng)集(即iua)不可能比i更頻 繁岀現(xiàn)。因此,iua也不是頻繁的,即p (iua) <minsupoapriori 算法1) li = f
10、ind_frequent_l-itemsets(d); iua2) for (k=2; lkjh;k+)3) 4) ck=apriori-gen(lk_);新的候選集5) for all transactions ted6) 7) ct=subset(ck,t);事務(wù)t屮包含的候選集8) for all candidates cg c( do9) c.count+;10) 11) lr= ce cr lc.count>minsup12) 13) return l=5lk;首先產(chǎn)生頻繁1 項(xiàng)集l,然后是頻繁2項(xiàng)集l2,直到有某個r值使得l為空, 這時算法停止。這里在第k次循環(huán)中,過程先產(chǎn)生
11、候選k項(xiàng)集的集合ck,ck中的 每一個項(xiàng)集是對兩個只有一個項(xiàng)不同的屬于li的頻集做一個(k2)連接來產(chǎn)生 的。ck中的項(xiàng)集是用來產(chǎn)生頻集的候選集,最后的頻集lk必須是ck的一個子集。 ck屮的每個元素需在交易數(shù)據(jù)庫中進(jìn)行驗(yàn)證來決定其是否加入lk,這里的驗(yàn)證過 程是算法性能的一個瓶頸。這個方法要求多次掃描可能很大的交易數(shù)據(jù)庫,即如 果頻集最多包含10個項(xiàng),那么就需要掃描交易數(shù)據(jù)庫10遍,這需要很人的i/o 負(fù)載。agrawal等引入了修剪技術(shù)(pruning)來減小候選集ck的大小,由此可以顯 著地改進(jìn)生成所有頻集算法的性能。算法屮引入的修剪策略就是基于apriopri性 質(zhì):一個項(xiàng)集是頻繁項(xiàng)集
12、當(dāng)且僅當(dāng)它的所有了集都是頻繁項(xiàng)集。那么,如果ck 中某個候選項(xiàng)集有一個(kl)子集不屬于li,則這個項(xiàng)集可以被修剪掉不再被考 慮,這個修剪過程可以降低計(jì)算所有的候選集的支持度的代價。利用雜湊樹(hash tree)方法來有效地計(jì)算毎個項(xiàng)集的支持度。算法屮的apriori-gen函數(shù)以li作為輸入?yún)?shù),返回所冇頻繁k-項(xiàng)集的集合 5,包含兩個動作:連接和剪枝。第一步,連接insert into ckselect p.iteml, p.item2,.9p.itemk-1 .q.itemk-1from lk.ip,lk iqwhere p.iteml = q.iteml.,p.itemk-2 = q
13、.itemk-2, p.itemk-1 < q.itemk-1;第二步,剪枝(pruning),如果存在c的(kl卜子序列不包含于lk.i 之中,則刪除所有項(xiàng)集ceckofor all itemsets cgcr dofor all (k-1 )-subsets s of c doif ( s g lk)thendelete c from ck;例:令 l3 為1 23,1 24,1 34,i 35,234,連接階段后,c4 將 為1 234,1 345。在剪枝階段1 345將被刪除,因?yàn)樗囊粋€子集1 45不在l3之中。這樣我們得到的g中只剩下1 234o一旦由數(shù)據(jù)庫d屮的事務(wù)找出頻繁
14、項(xiàng)集,由它們產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則是直接 了當(dāng)?shù)?。對于可信度,可以用下式表示,為便于?jì)算,條件概率可用項(xiàng)集支 持度計(jì)數(shù)來表示。則 conf(x->y) = p (x/y) =sup(xu y)/sup(x)其中,sup(x u y)是包含項(xiàng)集xuy的事務(wù)數(shù),sup(x)是包含項(xiàng)集x的事 務(wù)數(shù)。根據(jù)該式,關(guān)聯(lián)規(guī)則可以產(chǎn)生如下:1) 對于每個頻繁項(xiàng)集1,產(chǎn)生1的所有非空子集。2) 對于1的每個非空子集s,如果sup(l)/sup(s)minconf,則輸出規(guī)則“s 一(罔”。由于規(guī)則由頻繁項(xiàng)集產(chǎn)生,每個規(guī)則都口動滿足最小支持度。頻繁項(xiàng)集 連同它們的支持度預(yù)先存在散列表中,使得它們可以快速被訪問。例:
15、有如下事務(wù)數(shù)據(jù)庫d:tid項(xiàng)id的列表t1ii, 12, 15t212, 14t312, 13t4ii, 12, 14t5ii, 13t612, 13t7ii, 13t8ii, 12, 13, 15t9ii, 12, 13由apriori算法可知,此數(shù)據(jù)庫中包含頻繁項(xiàng)集(ii, 12, 15和ii, 12,13。下而看一下由頻繁項(xiàng)集1=ii,12,15 nj產(chǎn)生哪些關(guān)聯(lián)規(guī)則? 1的非空子集有ii, 12, ii, 15, 12, 15, ii, 12, 15。結(jié)果關(guān)聯(lián)規(guī)則如下:i1ai2->15, conf=2/4=50%il al5->i2,conf=2/2=100%i2ai5i
16、1 ,con f=2/2= 100%11- >i2al5,conf=2/6=33%12- >11 al5,conf=2/7=29%15 ->11 al2,conf=2/2=100%如果最小可信度閾值為70%,貝u只有第2、3和最后一個規(guī)則可以輸出,因 為只有這些是產(chǎn)生的強(qiáng)規(guī)則。盡管agrawal算法門身已經(jīng)進(jìn)行了一定的優(yōu)化,但是在實(shí)際的應(yīng)用中,還 是存在不令人滿意的地方,于是人們相繼提出了一些優(yōu)化的方法。如mannila等 提出的基于采樣的方法,park1231等提出的基于hash的方法及savaserel26j等提出 的基于劃分(partition)的算法等。這些方法都是基
17、于apriori的頻集方法。即使 進(jìn)行了優(yōu)化,但是apriori方法一些固冇的缺陷還是無法克服:1) 可能產(chǎn)生大量的候選集。當(dāng)長度為1的頻集有10000個的時候,長度為 2的候選集個數(shù)將會超過10mo2) 無法對稀有信息進(jìn)行分析。由于頻集使用了參數(shù)minsup,所以就無法對 小于minsup的事件進(jìn)行分析;而如果將minsup設(shè)成一個很低的值,那 么算法的效率就成了一個很難處理的問題。為了解決上述兩個問題,人們相繼提出了一些改進(jìn)方法。文i中提出了一種 fpgrowth的方法。fpgrowth x'j不同長度的規(guī)則都冇很好適應(yīng)性,同時在效率 上較之a(chǎn)priori算法有很大的提高。第二個問
18、題的解決是基于這樣一個想法:apriori算法得出的關(guān)系都是頻繁出 現(xiàn)的,但是在實(shí)際的應(yīng)用屮,我們可能需要尋找一些高度相關(guān)的元素,即使這些 元素不是頻繁出現(xiàn)的。在apriori算法中,起決定作用的是支持度,而我們現(xiàn)在將 把可信度放在第一位,挖掘一些具有非常高可信度的規(guī)則。文中介紹了對于這 個問題的一個解決方法。整個算法基木上分成三個步驟:計(jì)算特征、生成候選集、 過濾候選集。價和較小的沖突加入系統(tǒng)或從系統(tǒng)中移除。ent用于信息網(wǎng)絡(luò)中,形成網(wǎng)絡(luò)agent,它們能夠在網(wǎng)絡(luò)上進(jìn)行流動,改變網(wǎng) 絡(luò)的通信過程,稱為mobile agentomulti-agent系統(tǒng)屮,agent之間的協(xié)商一般指合作前或合
19、作屮的通信過程, 協(xié)商的目的是為了合作,合作一般指通過協(xié)商進(jìn)行規(guī)劃直至形成合作計(jì)劃的過程, 合作的目的是以最小代價,共同完成某項(xiàng)工作,從而獲得最大的效益。mobile agent是general magic公司提出的一種將整個公共信息網(wǎng)絡(luò)作為計(jì)算 平臺的新型通訊范型。在這種新型通訊范型屮,一臺計(jì)算機(jī)不僅可以調(diào)用位于另 一臺計(jì)算機(jī)上的過程,而且能夠提供可執(zhí)行的過程,網(wǎng)絡(luò)上傳遞的信息是過程代 碼和表示當(dāng)前狀態(tài)的數(shù)據(jù)。按照這種通訊范型形成的網(wǎng)絡(luò),計(jì)算機(jī)a若要求b完 成某項(xiàng)工作,貝ij將完成該項(xiàng)工作的過程代碼和過程參數(shù)通過網(wǎng)絡(luò)傳送到計(jì)算機(jī)b 上,然后過程代碼連同其結(jié)果再通過網(wǎng)絡(luò)傳送到計(jì)算機(jī)a處。此處,
20、過程和其狀 態(tài)的封裝體定義為mobile agento總之,agent是能夠口主運(yùn)行的程序段,它能進(jìn)行自身復(fù)制,亦能隨環(huán)境變化 而作岀相應(yīng)的反應(yīng),和該環(huán)境中另外的agent進(jìn)行協(xié)商和合作,同時,它還能通 過網(wǎng)絡(luò)漫游到其它場所,在其它場所中執(zhí)行,然后連同其結(jié)杲一起返回到起始點(diǎn)。第三章 基于agent的智能數(shù)據(jù)挖掘系統(tǒng)3.1系統(tǒng)結(jié)構(gòu)multi-agent系統(tǒng)是由多個agent組成的分布的、合作的系統(tǒng),把multi-agent 技術(shù)引入到數(shù)據(jù)挖掘屮,用agent來描述數(shù)據(jù)挖掘過程的各個部分,整個知識發(fā) 現(xiàn)的過程即是一個multi-agent系統(tǒng),利用agent本身具有的知識(領(lǐng)域知識、通 訊知識、控
21、制知識)、目標(biāo)及推理、決策、規(guī)劃、控制等能力,及自主性、社會性、 反應(yīng)性、能動性等特性,可以實(shí)現(xiàn)整個挖掘過程的智能化。弓i,更沒冇按標(biāo)題、作者、目錄等的索引。web頁面通過html語言來定 義的,其通過多用途internet郵件擴(kuò)展mime來標(biāo)識不同類型的內(nèi)容。web頁面 之間的web頁面,屬性可以是相對url、類型、鏈接點(diǎn)集合、容器、內(nèi)容、修 改日期等,根據(jù)web頁而中鏈接存在與否及鏈接的指向,頁而節(jié)點(diǎn)可以分為孤 立頁面節(jié)點(diǎn)、源頁面節(jié)點(diǎn)和目標(biāo)頁面節(jié)點(diǎn)。孤立頁面節(jié)點(diǎn)是不包含任何鏈接的頁 面節(jié)點(diǎn)。包含鏈接的頁面節(jié)點(diǎn)稱為這些鏈接的源頁面節(jié)點(diǎn)。鏈接所指向的頁面節(jié) 點(diǎn)叫做該鏈接的口標(biāo)頁面節(jié)點(diǎn)。很顯然頁
22、面節(jié)點(diǎn)相對于不同的鏈接而言既可以為 源頁面節(jié)點(diǎn)也可以為目標(biāo)頁面節(jié)點(diǎn)。定義2:頁而中的鏈接點(diǎn)用三元組(lid, string,target_node_id)表示,lid唯一 標(biāo)記一個鏈接點(diǎn),string描述了該鏈接的展示信息,target_node_id是lid所標(biāo)記 的鏈接點(diǎn)所指向的目標(biāo)頁面節(jié)點(diǎn)的pido定義3:頁面屮的鏈接用三元組(source_node,l,target_node)表示,其屮, source_node為源頁面節(jié)點(diǎn),l為source_node中的鏈接點(diǎn),target_node為目標(biāo)頁 而節(jié)點(diǎn),l.target_node_id=target_nodeo針對數(shù)據(jù)挖掘的要求及高速緩
23、存的特點(diǎn),木文通過頁面節(jié)點(diǎn)、鏈接點(diǎn)和鏈接 描述一種www數(shù)據(jù)模型。定義 4: www 數(shù)據(jù)模型可以用三元組(page_node_set,page_linknode_set,link_set)表示,其中,page_node_set 為頁面節(jié)點(diǎn) 集合,page_linknode_set為鏈接點(diǎn)集合,link_set為鏈接集合。如圖32所示,頁面節(jié)點(diǎn)ni,n2, n3, n4, n5分別表示不同的web頁面, 這些頁面節(jié)點(diǎn)之間可以通過有向邊相互鏈接。這些有向邊直觀地表示了頁面間的 鏈接。圖3-2 www數(shù)據(jù)模型可以看出,www數(shù)據(jù)模型實(shí)際上就是一個有向圖,因而其存儲可以采用鄰 接矩陣或鄰接表,本系統(tǒng)
24、屮采用了鄰接表作為其存儲結(jié)構(gòu);其訪問可采用圖的深 度優(yōu)先搜索遍歷或廣度優(yōu)先搜索遍歷。一般的瀏覽器都使用了高速緩存技術(shù),它將用戶最近和經(jīng)常訪問的頁面保存 在木地機(jī)器上,當(dāng)用戶再次訪問這些頁面時,瀏覽器首先檢查木地機(jī)器是否存在 對應(yīng)的頁面,如果有,就檢查web服務(wù)器上對應(yīng)的頁面有沒有更新,如果沒有 更新,那么就從本地取該頁而,否則就從對應(yīng)web服務(wù)器上取回該頁而。也就 是說目而瀏覽器所提供的高速緩存只是提供了被動的緩沖功能。高速緩存中保存 的歷史數(shù)據(jù)反映了用戶訪問頁面過程中的興趣愛好。利用用戶的興趣間的關(guān)聯(lián)信 息可以對用戶的行為進(jìn)行預(yù)測。高速緩存屮頁面間的聯(lián)系可以很方便地用圖3-2 中的www數(shù)據(jù)
25、模型來描述,但是這種數(shù)據(jù)模型不能直觀地表示用戶的興趣間的 關(guān)聯(lián)信息,為了對用戶的行為進(jìn)行預(yù)測,從而實(shí)現(xiàn)主動的緩沖,需要將由www 數(shù)據(jù)模型表示的數(shù)據(jù)反映到適合于挖掘的數(shù)據(jù)模型中去。挖掘模型的構(gòu)造過程實(shí) 際上就是目標(biāo)表示的構(gòu)造過程。3.2目標(biāo)表示及信息預(yù)處理目標(biāo)表示的分詞錯課率的情況。對于www中的圖像信息和以pdf、ps等格式存儲的文檔,如果采用圖像 處理和ocr的方法對其進(jìn)行內(nèi)容分析和特征提取,將會使系統(tǒng)變得十分龐大和 低效,考慮到www中的非文本信息一般都是采用“鏈接一文件”的形式呈現(xiàn)給 用戶的,每個文件都冇一段鏈接文本與其對應(yīng),而這些文本往往都是對所鏈接的 非文木對象的高度概括描述,所以
26、可以采用非文本的鏈接文本對其進(jìn)行特征抽取, 從面將非文本轉(zhuǎn)化為文本信息進(jìn)行處理。目標(biāo)表示中詞條t及其權(quán)值的選取稱為特征提取,特征提取是挖掘目標(biāo)共性 與規(guī)則的提取過程,其采用策略的優(yōu)劣直接影響到挖掘的效果。詞、詞組和短語是組成文檔的基本元素,并口在不同內(nèi)容的文檔中,各詞條 岀現(xiàn)頻率冇一定的規(guī)律性,因此可根據(jù)詞條的頻率特性進(jìn)行目標(biāo)特征捉取。不同 的詞條在文檔中的作用是不同的,常用詞(如“的”)在所有文檔中都有很高的出 現(xiàn)頻率,無法體現(xiàn)目標(biāo)內(nèi)容,而冷僻詞在所冇文檔中出現(xiàn)的次數(shù)都很少,其詞頻 統(tǒng)計(jì)特性很難確定,這兩類詞都不能作為特征項(xiàng)。還有一些詞在所有文檔屮出現(xiàn) 的頻率都基本相同,區(qū)分性差,也不能作為
27、特征項(xiàng)。一個有效的特征項(xiàng)集,必須 具備以下兩個特征:1、完全性:特征項(xiàng)能夠確實(shí)表示目標(biāo)內(nèi)容2、區(qū)分性:根據(jù)特性項(xiàng)集,能將目標(biāo)同其他文檔相區(qū)分。根據(jù)以上兩條特征可構(gòu)造詞條權(quán)值評價函數(shù):wik 二如 0*% + °)log2 (%+ 0.1)v k=其中tfik表示詞條tk在文檔di屮的出現(xiàn)頻率,n表示全部樣本文檔總數(shù),nk 表示詞條tk的文檔頻數(shù)。html文檔中存在很多標(biāo)記信息,這些標(biāo)記信息往往對文檔的內(nèi)容冇很高的 概括性,因此可利用這些標(biāo)記信息提高特征提取精度,在特征提取時,可設(shè)置一 些針對文檔中的<head></head>、<title><
28、/title>等域文本的加權(quán)系數(shù),對出現(xiàn) 在不同域的詞條賦以不同的頻率加權(quán)系數(shù)。3.3興趣關(guān)聯(lián)規(guī)則挖掘算法興趣關(guān)聯(lián)規(guī)則直接表明了用戶興趣間的遞推關(guān)系,而通過簡化www數(shù)據(jù)模 型表由分的權(quán)重單位化,即rule(node(unode(tj)weigh=讐皿加吃),nod 垃).啦的工 rulenodeti node(tj).weightq(node(ti)其中 q(node(ti)為tjltj 丘 t,rule(node(ti),node(tj) g rule。在上面的算法中,for4循環(huán)中的g(fp, fq , yj.time, yj.time)為詞條f在頁面yi 中出),用來表示高速緩存
29、中的頁而及其中的鏈接對興趣關(guān)聯(lián)知識庫中興趣關(guān)聯(lián)規(guī) 則的影響。支持度是數(shù)據(jù)挖掘中一個很重要的指標(biāo)。通過以上挖掘算法所得興趣關(guān)聯(lián)規(guī) 貝i中的 rule(node(tj),node(tj).weight 就是興趣關(guān)聯(lián)規(guī)則 rule(node(tj),node(tj)的 支持度。give me some information: 請求另一個 agent 的信息。bye:通信完畢斷開連接。第四章基于agent的web預(yù)取系統(tǒng)4.1系統(tǒng)要求基于agent的web預(yù)取系統(tǒng)的設(shè)計(jì)目標(biāo)是使用最少的用戶花銷和最少的系統(tǒng) 資源,及吋準(zhǔn)確地為用戶提供相關(guān)的最新信息。因此系統(tǒng)應(yīng)具備如下功能:系統(tǒng)應(yīng)能口動發(fā)現(xiàn)用戶感興趣的
30、主題。當(dāng)系統(tǒng)代表用戶發(fā)現(xiàn)相關(guān)知識時,應(yīng) 使用用戶的興趣領(lǐng)域知識。系統(tǒng)應(yīng)當(dāng)學(xué)習(xí)用戶的存取模式和信息資源更新模式,也應(yīng)了解資源文檔何時 更新,并在用戶提出需求之前,提前及時獲取最新版本的信息。系統(tǒng)應(yīng)當(dāng)創(chuàng)建并維護(hù)一個數(shù)據(jù)庫,并在獲取的文檔上建立全文索引??梢詫?數(shù)據(jù)挖掘技術(shù)應(yīng)用到儲存的文檔中,以便發(fā)現(xiàn)各種有用的和有意義的存取模式。系統(tǒng)應(yīng)當(dāng)是開放式的。它適合大多數(shù)www瀏覽器。除了標(biāo)準(zhǔn)的http協(xié)議 外,瀏覽器與系統(tǒng)的交流不應(yīng)有額外的需求。4.2系統(tǒng)模型根據(jù)上述對系統(tǒng)的基本要求,設(shè)計(jì)岀基于agent的web預(yù)取系統(tǒng),如圖41 所示。它在瀏覽器端增加了興趣關(guān)聯(lián)知識庫、數(shù)據(jù)預(yù)處理agent.挖掘agent
31、人 機(jī)界面agent與決策agent of(n)其中f(n)表示新鮮度,是一單調(diào)非遞減函數(shù)。4.3 web文檔的預(yù)取web文檔的預(yù)取過程包括學(xué)習(xí)、匹配和獲取三個階段。學(xué)習(xí)是分析用戶對 web文檔的存取行為及wee文檔口身的更新規(guī)律,提取用戶一般情況卜的行為 模式和一些web文檔的更新模式;匹配是確定正在進(jìn)行的用戶訪問所屬的行為 模式,根據(jù)共同訪問模式來推斷將來的請求;獲取是利用現(xiàn)有的搜索引擎,將多 個搜索引擎的結(jié)果綜合起來,從中選取與興趣主題相關(guān)性較強(qiáng)的web文檔,并 以統(tǒng)一界而呈現(xiàn)給用戶。學(xué)習(xí)和匹配屈于預(yù)測過程,可根據(jù)用戶過去的訪問模式, 對用戶即將發(fā)生的行為作出預(yù)測,木系統(tǒng)中利用挖掘age
32、nt來挖掘用戶的興趣關(guān) 聯(lián)規(guī)則實(shí)現(xiàn)對用戶未來行為的預(yù)測,決策agent決定要預(yù)取哪些web文檔,然 后利用現(xiàn)在已有的瀏覽器和搜索引擎,獲取用戶未來需求的web文檔。因此, 木系統(tǒng)屮如何發(fā)現(xiàn)用戶興趣間的關(guān)聯(lián)規(guī)則是關(guān)鍵。發(fā)現(xiàn)興趣關(guān)聯(lián)規(guī)則的機(jī)制是一 個三階段的過程。階段1:數(shù)據(jù)預(yù)處理agent處理以www數(shù)據(jù)模型表示的高速緩存中的數(shù)據(jù), 并產(chǎn)生一個興趣結(jié)點(diǎn)集合,其形式為(keyword,weight)。例如一個包括 (basketball,0.35)的興趣結(jié)點(diǎn)。使用詞干抽取或分詞方法從數(shù)據(jù)中提取關(guān)鍵字,并 計(jì)算其關(guān)鍵字的權(quán)值。階段2:根據(jù)階段1產(chǎn)生的興趣結(jié)點(diǎn)發(fā)現(xiàn)用戶興趣。但是,在興趣結(jié)點(diǎn)中有大 量的
33、噪聲數(shù)據(jù)。例如,一些web頁可能不會向用戶捉供任何信息,但僅因?yàn)樗?們有大量的引用鏈接而被頻繁訪問。因而,預(yù)處理agent必須決定每個頁面的相 關(guān)程度,并根據(jù)頁面的相關(guān)程度調(diào)整相應(yīng)關(guān)鍵字的權(quán)值??梢岳孟旅娴膯l(fā)式 信息對關(guān)鍵字權(quán)值進(jìn)行調(diào)整。(1) 有大量urls的頁面很可能是指向鏈接的引用頁面。若頁面中超鏈接數(shù)超 過某一闕值,則將其作為一個引用頁而。它的相關(guān)程度向下調(diào)整,從中捉取的關(guān) 鍵字權(quán)值也應(yīng)隨z卜調(diào)。(2) 從頁面中抽取出來的,具冇高相關(guān)度的關(guān)鍵字應(yīng)根據(jù)它們在頁面中的作用 作進(jìn)一步的調(diào)整。例如,在標(biāo)題屮或高層頭標(biāo)屮的那些關(guān)鍵字,應(yīng)增加它們的權(quán) 值。(3) 指向高相關(guān)性頁而的urls屮可
34、能會包含用戶冇興趣瀏覽的關(guān)鍵字。因而, 在這些urls中發(fā)現(xiàn)的關(guān)鍵字,應(yīng)增大它們的權(quán)值,以體現(xiàn)其重要性??偟膩碚f,發(fā)現(xiàn)過程第2階段的任務(wù)是使用以上的啟發(fā)式信息調(diào)整在第一階 段發(fā)現(xiàn)的原始興趣結(jié)點(diǎn)的相關(guān)度。第2階段的輸出是調(diào)整后的一組興趣結(jié)點(diǎn)。階段3:發(fā)現(xiàn)過程的最后階段是挖掘agent利用前面介紹的興趣關(guān)聯(lián)規(guī)則挖掘 算法在調(diào)整后的興趣結(jié)點(diǎn)的基礎(chǔ)上挖掘用戶興趣間的關(guān)系,即興趣關(guān)聯(lián)規(guī)則,并 將其存放到興趣關(guān)聯(lián)規(guī)則知識庫中,作為決策agent預(yù)測用戶行為的依據(jù),從而 預(yù)取很大可能上符合用戶興趣的頁面。第五章系統(tǒng)實(shí)現(xiàn)5.1系統(tǒng)功能基于agent的web預(yù)取系統(tǒng)主要包括數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)挖掘模塊、決策 模
35、塊,各模塊功能如下:數(shù)據(jù)預(yù)處理agent的功能是對用www數(shù)拯模型表示的cache中的數(shù)據(jù)進(jìn)行 處理,主要完成詞干抽取、詞條切分等類似的處理。挖掘取web頁面并將z存放到木地高速緩存中。決策agent利用興趣關(guān)聯(lián)知 識庫調(diào)整增量算法,再加上對挖掘agent靈活的時間調(diào)度,既保證了系統(tǒng)的運(yùn)行 效率又保證了興趣關(guān)聯(lián)知識庫的信息與用戶行為的同步。興趣關(guān)聯(lián)知識庫、挖掘 agent與決策agent的存在對用戶是透明的,用戶仍像平時一樣使用瀏覽器。5.2開發(fā)環(huán)境木系統(tǒng)在windows 98環(huán)境屮實(shí)現(xiàn),主要的開發(fā)工具是jbuilder5。它是口 前最流行的java開發(fā)環(huán)境,擁有最完整的創(chuàng)建java 2平臺應(yīng)
36、用的可視化工具,使 應(yīng)用開發(fā)更加方便、快捷。其包含的向?qū)Ш涂梢暬ぞ?,可以?chuàng)建瘦客戶端java 應(yīng)用程序,此應(yīng)用程序能被任意web瀏覽器訪問。為簡單起見,興趣關(guān)聯(lián)知識庫及興趣集(詞典t)用access數(shù)據(jù)庫存放, 它是一個小型數(shù)據(jù)庫管理系統(tǒng),管理使用簡單,且可以方便地移植到像sql server等大型數(shù)據(jù)庫平臺上。即若預(yù)取集合pi(pagei)czp2(pagei),相應(yīng)的命屮率必定是hrl<hr2;命屮率越高, 用戶從發(fā)出訪問請求到文檔取回的這一段等待時間tacccss二hr*tcachc+( 1 -hr)(tcache*+*tremote)和用戶上機(jī)時間tclicnt=trcad+tacccss越小,工作效率可以進(jìn)一步提高,其中人頑為cache訪問吋間,t©喚為從服務(wù)器遠(yuǎn)程獲取頁面的時間,tzd為頁面閱讀時間。設(shè)用戶a在一次會話s期間從瀏覽器上發(fā)出m個請求,若冇hit_num個命屮,那么會話s的命屮率表示為hs(s)=hit_num/m。 用戶對頁面pagej進(jìn)行訪問所引發(fā)的預(yù)取,預(yù)取效率 ur(pagei)=hr(reqi+i)/#p(pagei),預(yù)取代價 qr
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 云服務(wù)提供商安全合規(guī)性-洞察分析
- 牙周植物菌與免疫調(diào)節(jié)-洞察分析
- 添加劑在食品工業(yè)中的應(yīng)用策略-洞察分析
- 源碼克隆與相似性分析-洞察分析
- 藥物經(jīng)濟(jì)學(xué)評價-第1篇-洞察分析
- 學(xué)習(xí)效果量化評估方法-洞察分析
- 網(wǎng)絡(luò)棋牌游戲安全防護(hù)-洞察分析
- 單位給單位的感謝信范文(8篇)
- 洗滌設(shè)備共享經(jīng)濟(jì)案例分析-洞察分析
- 醫(yī)療器械采購合同三篇
- 2025蛇年春節(jié)春聯(lián)對聯(lián)帶橫批(276副)
- 中國PHM系統(tǒng)行業(yè)投資方向及市場空間預(yù)測報告(智研咨詢發(fā)布)
- 2024質(zhì)量管理復(fù)習(xí)題
- 2025年中學(xué)德育工作計(jì)劃
- 2024年專業(yè)會務(wù)服務(wù)供應(yīng)與采購協(xié)議版B版
- 《數(shù)字通信原理》習(xí)題答案(全)
- 中國上市公司ESG行動報告
- 早產(chǎn)臨床防治指南(2024版)解讀
- 《電子煙知識培訓(xùn)》課件
- GB/T 30661.10-2024輪椅車座椅第10部分:體位支撐裝置的阻燃性要求和試驗(yàn)方法
- 全套教學(xué)課件《工程倫理學(xué)》
評論
0/150
提交評論