




已閱讀5頁,還剩48頁未讀, 繼續(xù)免費(fèi)閱讀
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)對(duì)于web用戶分類與個(gè)性化瀏覽模式提取的研究.pdf.pdf 免費(fèi)下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
碩士學(xué)位論文 摘要 w e b 日志挖掘的研究目的在于發(fā)現(xiàn)瀏覽網(wǎng)站的行為規(guī)律,改善站點(diǎn)的結(jié)構(gòu)和頁 面間超鏈接結(jié)構(gòu),提高站點(diǎn)服務(wù)質(zhì)量以及在電子商務(wù)中的客戶關(guān)系管理方面的決 策支持。 本文對(duì)w e b 日志挖掘的研究背景、研究現(xiàn)狀、挖掘步驟和各個(gè)技術(shù)環(huán)節(jié)以及 應(yīng)用領(lǐng)域做了全面闡述,并在此基礎(chǔ)上重點(diǎn)深入研究了其中的一個(gè)關(guān)鍵領(lǐng)域:個(gè) 性化服務(wù)。個(gè)性化服務(wù)一般包括兩個(gè)方面:離線信息提取,在線信息推薦。本文 的工作主要集中在研究離線信息提取這一步。 在離線信息提取中,本文在以下方面展開深入研究和討論: 提出了三種依據(jù)用戶上網(wǎng)瀏覽網(wǎng)頁行為對(duì)用戶進(jìn)行聚類的方法,并通過實(shí) 驗(yàn)對(duì)這三種方法進(jìn)行了對(duì)比。本文提出了旨在解決因?yàn)槿说臑g覽行為經(jīng)常變化而 很難將其歸類的有效方法,為進(jìn)一步進(jìn)行個(gè)性化模式提取及提高個(gè)性化服務(wù)質(zhì)量 打下了堅(jiān)實(shí)的基礎(chǔ)。 針對(duì)聚類方法工作量大,效率較低,每次都要對(duì)聚類結(jié)果進(jìn)行解釋和評(píng)價(jià) 的缺點(diǎn),本文在對(duì)用戶聚類工作的基礎(chǔ)上又提出了基于支持向量機(jī)的用戶分類方 法,實(shí)驗(yàn)證明了方法的準(zhǔn)確性和高效性。該方法主要應(yīng)用于w e b 日志中不斷變化 和新增的用戶。 在對(duì)用戶聚類和分類的基礎(chǔ)上,本文針對(duì)每類用戶瀏覽行為相近的特點(diǎn)提 出了一遍掃描數(shù)據(jù)庫的模式提取方法,實(shí)驗(yàn)證明了方法的準(zhǔn)確性和高效性。 本文通過以上三方面的研究形成了完整且準(zhǔn)確高效的用戶個(gè)性化信息提取模 型。 關(guān)鍵詞:w e b 日志挖掘;用戶聚類;用戶分類;模式提??;瀏覽興趣;支持向量 機(jī); b q - t e 對(duì)于w 曲用戶分類與個(gè)性化瀏覽模式提取的研究 a b s t r a c t w 曲l o gm i n i n ga i m sa tt h er u l ed i s c o v e r yo fb r o w s i n gb e h a v i o r s0 fs i t e s v i s i t o r s , t h ei m p r o v e m e n to fs i t e s s t r u c t u r ea n dl i n k a g es t r u c t u r ea m o n gp a g e sa n dt h e e n h a n c e m e n to nt h eq u a l i t yo fw e bs e r v i e sa n dt h ed e c i s i o ns u p p o r to nc l i e n t f e l a t i o n s h i pm a n a g e m e n t o ft h ee - c o m m e r c e w e bl o gm i n i n gi sd e s c r i b e di nt h i s p a p e ri n c l u d i n gb a c k g r o u n d ,s t a t u s i n n o w d a y s ,t h et e c h n o l o g yo fe v e r ys t e pa n da p p l i c a t i o ni nf i i t u r e t h em a i nr e s e a r c h i s s u eo ft h i sp a p e ri sp e r s o n a l i z e ds e r v i c ew h i c hi so n eo fa r e a s0 fw e bl o gm i n i n g i n g e n e r a l ,p e r s o n a l i z e ds e r v i c ei n c l u d ei n f o r m a t i o nm i n i n go f f - l i n e a n dc o m m e n d o n l i n e o u rw o r kf o c u so ni n f o r m a t i o nm i n i n go f f l i n e t h em a i nw o r ka n d m a i nn o v e li d e a so ft h et h e s i sa r es h o w e da sf o l l o w i n g : t h r e ec u s t o m e rc i u s t e r i n gm e t h o d sb a s e do nb r o w s i n gb e h a v i o ro fu s e r sa r e p r o p o s e di nt h i sp a p e r ,t h ee f f e c to ft h et h r e em e t h o d sa r ec o m p a r e db ye x p e f i m e n t i ti s h a r dt oc l a s s i f y i n gt h eu s e r sd u et ot h eu s e r s b r o w s i n gb e h a v i o ri sv a r i o u s ,t h e s e m e t h o d so ft h i sp a p e rr e s o l v et h ed i f f i c u l t yp e r f e c t l ya n da r ei m p o r t a n tt om i n i n g p e r s o n a l i z e db r o w s i n gp a t t e r n s t h em e t h o do fu s e r s c l a s s i f y i n gb a s e do ns v mi sp r o p o s e dd u et o i ti s u n e f f i c i e n tt oc l u s t e r i n gu s e r sa n dw eh a v et oe x p l a i na n de v a l u a t ec l u s t e r i n gr e s u l ti f a d o p tc l u s t e r i n g m e t h o d t h e e x p e r i m e n tp r 0 v et h e m e t h o di s a c c u r a c y a n d e f f i c i e n t t h i sc l s s s i f y i n gm e t h o di sa p p l i e dt ot h er e n e wu s e r so fw e b l o g l an o v e lp a t t e r nm i n i n gm e t h o db a s e do nt h er e s u l to fu s e r sc l u s t e r i n ga n du s e r s c l a s s i f y i n gi sp r o p o s e d t h em e t h o di s e f h c i e n tb e c a u s ei tn e e do n l yo n c et os c a n d a t a b a s ea n di sa c c u r a c yb e c a u s et h eb r o w s i n gb e h a v i o ro fu s e r so fe a c hc l a s si s s i m i l a r t h ee x p e f i m e n tp r o v et h em e t h o di se f f e c t i v e am o d e lo fu s e r sp e r s o n a l i z e di n f o r m a t i o nm i n i n gi sp r o p o s e di nt h i sp a p e r ,w h i c h i sb a s e do nt h er e s e a r c ho ft h r e ei s s u em e n t i o n e da b o v ea n di sa c c u r a c ya n de f f i c i e n t k e yw o r d s :w c bl o gm i n i n g ;u s e r s c l u s t e r i n g ;u s e r s c l a s s i f y i n g ;p a t t e m sm i n i n g ; i n t e r e s t i n go f b r o w s i n g ;s v m ;b q t r e e 碩士學(xué)位論文 插圖索引 2 1w e b 日志挖掘過程5 2 2w e b 使用數(shù)據(jù)的基本e r 模型一6 2 3w e b 交互環(huán)境6 2 4w e b 日志挖掘數(shù)據(jù)預(yù)處理具體過程8 2 5w e b 日志挖掘的主要應(yīng)用領(lǐng)域1 3 4 1 決策二叉樹3 0 5 1b q t r e e 樹節(jié)點(diǎn)結(jié)構(gòu)3 7 5 2b q t r e e 樹挖掘3 9 5 3 實(shí)驗(yàn)結(jié)果比較( 二) 4 0 圖圖圖圖圖圖圖圖圖 對(duì)于w | e b 用戶分類與個(gè)性化瀏覽模式提取的研究 附表索引 表1 1w 曲數(shù)據(jù)挖掘研究相目一覽表4 表2 1 與使用數(shù)據(jù)相關(guān)的概念5 表2 2w e b 服務(wù)器日志7 表3 1 聚類實(shí)驗(yàn)結(jié)果比較2 4 表4 1 實(shí)驗(yàn)比較( 一) 3 0 表4 2 實(shí)驗(yàn)比較( 二) 3 1 表5 1 會(huì)話實(shí)例3 8 表5 2 實(shí)驗(yàn)結(jié)果比較( 一) 。3 9 蘭州理工大學(xué)學(xué)位論文原創(chuàng)性聲明和使用授權(quán)說明 原創(chuàng)性聲明 本人鄭重聲明:所呈交的論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取 得的研究成果。除了文中特別加以標(biāo)注引用的內(nèi)容外,本論文不包含任何其 他個(gè)人或集體已經(jīng)發(fā)表或撰寫的成果作品。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè) 人和集體,均已在文中以明確方式標(biāo)明。本人完全意識(shí)到本聲明的法律后果 由本人承擔(dān)。 作者簽名: 尋乏1 日期:如d 年r 月) z 日 學(xué)位論文版權(quán)使用授權(quán)書 本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué) 校有權(quán)保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文 被查閱和借閱。本人授權(quán)蘭州理工大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容 編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯 編本學(xué)位論文。同時(shí)授權(quán)中國(guó)科學(xué)技術(shù)信息研究所將本學(xué)位論文收錄到中 國(guó)學(xué)位論文全文數(shù)據(jù)庫,并通過網(wǎng)絡(luò)向社會(huì)公眾提供信息服務(wù)。 作者簽名: 毒如, 一 導(dǎo)師簽名:矽必孚 日期: ,o 考年r 月) 乙日 日期:i 夕年,月2 2 ,日 碩+ 學(xué)位論文 1 1 課題背景及意義 第1 章緒論 隨著i n t e r n e t 的發(fā)展,w w w 的應(yīng)用越來越廣泛,w e b 站點(diǎn)如雨后春筍般不斷 涌現(xiàn)。在競(jìng)爭(zhēng)日益激烈的網(wǎng)絡(luò)經(jīng)濟(jì)中,只有贏得用戶才能最終贏得競(jìng)爭(zhēng)的優(yōu)勢(shì)。 所有客戶行為的電子化,使得大量收集每個(gè)用戶的每一個(gè)行為數(shù)據(jù)、深入研究 用戶行為成為可能。如何利用這個(gè)機(jī)會(huì),從這些“無意義 的繁瑣數(shù)據(jù)中得到 大家都看得懂的、有價(jià)值的信息和知識(shí)是我們面臨的問題。所以,出現(xiàn)了數(shù)據(jù) 挖掘在w e b 站點(diǎn)分析中的應(yīng)用,即w e b 挖掘。 目前w w w 的數(shù)據(jù)挖掘應(yīng)用有很大一部分集中在w e b 站點(diǎn)的日志上。w e b 站點(diǎn) 的日志記錄了w e b 站點(diǎn)的瀏覽者的所有動(dòng)作,對(duì)這些記錄進(jìn)行挖掘,找出瀏覽者 喜愛的瀏覽路線,對(duì)w e b 站點(diǎn)的經(jīng)營(yíng)者和管理者有現(xiàn)實(shí)意義。一方面,不同層次、 不同愛好和使用目的的瀏覽者需要個(gè)性化的信息服務(wù);另一方面,w e b 站點(diǎn)的經(jīng) 營(yíng)者和管理者為提高網(wǎng)站的聲譽(yù)和效益,需要了解用戶需要什么和想做什么。 其中包括大多數(shù)用戶的共同興趣,開展針對(duì)性服務(wù),以及對(duì)特定的用戶開展個(gè) 性化的信息服務(wù)和電子商務(wù)活動(dòng)。因此在當(dāng)今這個(gè)信息社會(huì),w e b 站點(diǎn)管理人員 如何能夠更加了解客戶,提供更加個(gè)性化的內(nèi)容來滿足不同客戶的需求以吸引 客戶,就成為一項(xiàng)十分重要而緊迫的研究課題。同時(shí),分析w e b 站點(diǎn)服務(wù)器數(shù)據(jù) 發(fā)現(xiàn)有意義的隱藏訪問模式規(guī)則,對(duì)于分析和改善站點(diǎn)的使用情況及資源配置 也具有重要的意義。w e b 使用挖掘的目的就在于此,它通過研究w e b 服務(wù)器的日 志文件,以發(fā)現(xiàn)用戶訪問站點(diǎn)的瀏覽模式,為站點(diǎn)管理員提供各種利于w e b 站點(diǎn) 改進(jìn)或可以帶來經(jīng)濟(jì)效益的信息,w e b 日志數(shù)據(jù)挖掘,已經(jīng)成為現(xiàn)在的一個(gè)研究 熱點(diǎn)。 1 2 國(guó)內(nèi)外研究現(xiàn)狀 w e b 挖掘正在成為高效的、智能的w e b 應(yīng)用的前提條件之一,而與用戶的 喜好和期望等緊密聯(lián)系的w e b 使用模式構(gòu)成了w e b 服務(wù)的基礎(chǔ)。這些w e b 服 務(wù)通常能夠達(dá)到個(gè)性化、對(duì)用戶友好以及能不斷優(yōu)化等標(biāo)準(zhǔn)。目前,國(guó)內(nèi)外 w e b 使用挖掘的研究不僅僅局限于對(duì)w e b 日志的挖掘,從更廣泛意義上說是從 多方面對(duì)用戶使用w e b 的行為規(guī)律的分析和研究。 w e b 使用挖掘主要有兩個(gè)研究發(fā)展方向:一般化的w e b 使用模式分析【1 2 ,3 】 和個(gè)性化的w e b 使用模式分析l 引。 一般化的w e b 使用模式是從w e b 日志中挖掘用戶的訪問模式和預(yù)測(cè)用戶 對(duì)丁w 曲用戶分類與個(gè)性化瀏覽模式提取的研究 的訪問模式。這些挖掘出來的模式和規(guī)則對(duì)w e b 站點(diǎn)的改進(jìn)包括p j : a 使用戶所關(guān)心的頁面更加容易訪問; b 使用戶所關(guān)心的超鏈接更加醒目; c 鏈接相關(guān)的頁面; d 聚合相似的頁面; e 增加緩沖預(yù)取機(jī)制、改善服務(wù)器響應(yīng)時(shí)間; f 合理設(shè)置廣告; 個(gè)性化的w e b 使用模式是挖掘某一類或某幾類用戶( 甚至某個(gè)用戶) 訪問 網(wǎng)站的行為規(guī)律,這使得網(wǎng)站能夠動(dòng)態(tài)地為用戶提供個(gè)性化的服務(wù)以極大的滿 足用戶的需求。所謂的個(gè)性化服務(wù)是指w e b 站點(diǎn)為適應(yīng)某一類或某一個(gè)特定的 用戶需要而實(shí)時(shí)地調(diào)整數(shù)據(jù)的組織和顯示。一種實(shí)現(xiàn)個(gè)性化服務(wù)的方法是允許 用戶手工定制w e b 站點(diǎn)顯示選項(xiàng),系統(tǒng)將記住每個(gè)用戶的定制,并在該用戶再 次進(jìn)入該網(wǎng)站時(shí)進(jìn)行相應(yīng)調(diào)整。例如微軟的m s n 站點(diǎn)允許用戶只看用戶自己 選擇的新聞欄目。 當(dāng)前國(guó)內(nèi)外許多大學(xué)和研究機(jī)構(gòu)對(duì)w e b 使用挖掘的兩個(gè)發(fā)展方向,將理論 研究和實(shí)際應(yīng)用結(jié)合起來開展了大量的研究工作并且開發(fā)了許多具有代表性 的w e b 使用挖掘的實(shí)際原形系統(tǒng)。 1 國(guó)外主要系統(tǒng) ( 1 ) w u m 系統(tǒng) w u m ( w e bu t i l i z a t i o nm i n e r ) 是一個(gè)序列模式挖掘系統(tǒng)【引。它的主要目 標(biāo)是分析訪問網(wǎng)站的用戶們的瀏覽行為。w u m 發(fā)現(xiàn)的模式不一定是由相鄰的 瀏覽事件組成的,同時(shí)這些模式也要滿足用戶的某種興趣度標(biāo)準(zhǔn)。用戶的興趣 度標(biāo)準(zhǔn)能夠通過w u m 使用的挖掘語言m l n t 提供的謂詞邏輯動(dòng)態(tài)的表達(dá)。作 為一種挖掘語言,m i n t 是用戶和系統(tǒng)之間的接口。w u m 是一個(gè)可用于日志 預(yù)處理、查詢和可視化的集成環(huán)境。它主要包括兩個(gè)模塊:聚合服務(wù) ( a g g r e g a t i o ns e r v i c e ) 和m i n t 處理器( m i n t - p r o c e s s o r ) 。聚合服務(wù)模塊的 功能是準(zhǔn)備用于挖掘的w e b 日志數(shù)據(jù)。它從用戶訪問網(wǎng)站的活動(dòng)中抽取信息, 并把同一用戶的連續(xù)活動(dòng)分組成一個(gè)事務(wù),然后將這些事務(wù)轉(zhuǎn)化成序列。聚合 服務(wù)模塊最主要的任務(wù)就是把各種序列合并成樹結(jié)構(gòu),并且把聚集的統(tǒng)計(jì)信息 保留在樹結(jié)構(gòu)中。m i n t 處理器模塊是w u m 的核心部分,它的功能是根據(jù)專 家的指示從聚合服務(wù)模塊產(chǎn)生的聚合數(shù)據(jù)中抽取有用的信息,發(fā)現(xiàn)各種不同的 瀏覽模式。 ( 2 ) 、k b w a t c h e r 系統(tǒng) w 曲w a t c h e r 【7 ,8 ,9 1 是由美國(guó)奈基梅隆大學(xué)研制的一個(gè)w e b 瀏覽向?qū)е悄荏w ( w 曲t o u rg u i d ea g e n t ) 。一旦你告訴它要搜尋的信息范圍,它將在你瀏覽 w e b 時(shí)一直陪伴你,幫助你查看或搜尋那些它認(rèn)為你感興趣的w e b 頁面和超鏈 2 碩士學(xué)位論文 接。它的學(xué)習(xí)策略主要是根據(jù)用戶感興趣的內(nèi)容和用戶瀏覽歷史中反饋信息, 逐步地改進(jìn)訪問者的訪問模式,從而動(dòng)態(tài)地提供用戶感興趣的內(nèi)容。 ( 3 ) w e b m i n e r 系統(tǒng) w e b m i n e r 【1 0 】主要貢獻(xiàn)是: a 提出了一種靈活的w e b 挖掘體系結(jié)構(gòu); b 提出一種由多個(gè)w e b 日志條目組成的用戶事務(wù)模型; c 運(yùn)用聚類算法將w e b 日志條目劃分成事務(wù); d 采用關(guān)聯(lián)規(guī)則和時(shí)間序列發(fā)現(xiàn)算法進(jìn)行模式發(fā)現(xiàn)。 ( 4 ) w e b l o g m i n e f 系統(tǒng) w c b l o g m i n e r 是用于挖掘w e b 日志文件的知識(shí)發(fā)現(xiàn)工具【1 1 】。在 w 曲l o g m i n e r 系統(tǒng)中,知識(shí)發(fā)現(xiàn)總共分為四個(gè)步驟: 第一階段:根據(jù)w e b 服務(wù)器同志文件構(gòu)建數(shù)據(jù)庫。在此階段中,從w e b 日志數(shù)據(jù)中過濾掉不相關(guān)的信息,將剩下的有意義信息經(jīng)過數(shù)據(jù)轉(zhuǎn)換后構(gòu)造成 一個(gè)關(guān)系型數(shù)據(jù)庫。這個(gè)數(shù)據(jù)庫將有利于下一個(gè)階段的信息抽取和數(shù)據(jù)總結(jié): 第二階段:多維w e b 日志數(shù)據(jù)立方體的構(gòu)造; 第三階段:基于數(shù)據(jù)立方體的聯(lián)機(jī)分析處理( o l a p ) 。在第二階段構(gòu)造 的數(shù)據(jù)立方體上利用卷( r o l l u p ) 、下鉆( d r i l l d o w n ) 、切片( s l i c e ) 和切塊 ( d i c e ) 操作來進(jìn)行聯(lián)機(jī)分析處理; 第四階段:知識(shí)發(fā)現(xiàn)和表示。通過聯(lián)機(jī)分析處理發(fā)現(xiàn)的潛在知識(shí)通過數(shù) 據(jù)特征化、類別比較、關(guān)聯(lián)規(guī)則、預(yù)測(cè)分類和時(shí)間序列分析等形式表示出來。 2 國(guó)內(nèi)主要系統(tǒng) ( 1 ) w e b i a m 系統(tǒng) 網(wǎng)站智能分析、e b i a m ( w e bi n t e l l i g e n ta n a l y s i sa n dm a n a g e m e n t ) ,是一 個(gè)對(duì)w e b 工作情況進(jìn)行全面分析、測(cè)試與管理的軟件系統(tǒng)【1 2 】。通過使用 w 曲i a m ,用戶可以全面了解和掌握網(wǎng)站的客戶訪問情況、內(nèi)容設(shè)置情況和技 術(shù)設(shè)備工作情況。 w e b i a m 是一個(gè)基于系統(tǒng)模型技術(shù)設(shè)計(jì)的軟件,通過w e b i a m 多維的信 息挖掘技術(shù)與系統(tǒng)模型技術(shù),管理者可以發(fā)現(xiàn)用一般的統(tǒng)計(jì)分析方法不能夠得 到的、規(guī)律性的w e b 運(yùn)行特性,深入地分析網(wǎng)站的各級(jí)管理者詳細(xì)地、定量地、 科學(xué)地了解和掌握被管理對(duì)象w e b 的工作狀態(tài),提高經(jīng)營(yíng)和管理水平。 w 曲1 a m 在w e b 分析功能上具有如下特點(diǎn):分析指標(biāo)體系、匯總分析、管 理等級(jí)與權(quán)限、訪問行為分析、頻道分析、地區(qū)分析、注冊(cè)用戶分析、同期比 較、安全審計(jì)、指定日期分析、介入分析、運(yùn)營(yíng)商分析、外部壓力測(cè)試; w 曲i a m 在w e b 分析技術(shù)上具有以下特點(diǎn):實(shí)時(shí)監(jiān)測(cè)系統(tǒng)資源、多線程技 術(shù)、服務(wù)器集群分析和超大規(guī)模日志分析等。 ( 2 ) s w l m s 系統(tǒng) 3 對(duì)于w 曲用戶分類與個(gè)性化瀏覽模式提取的研究 s w l m s ( as i m p l ew e bl 0 9m i n i n gs y s t e m ) 是西安交通大學(xué)研制的一個(gè)小 型w e b 日志挖掘試驗(yàn)系統(tǒng)【”l 。它的目標(biāo)是從w e b 日志中進(jìn)行序列模式的分析, 解決訪問序列回路問題,從而改進(jìn)網(wǎng)站結(jié)構(gòu),提高用戶訪問效率。 以上介紹的系統(tǒng)是具有代表性的一些w e b 日志挖掘工具。表1 1 對(duì)目前的 w e b 日志挖掘工具作了一個(gè)概括性總結(jié)。 表1 1w e b 數(shù)據(jù)挖掘研究項(xiàng)目一覽表 項(xiàng)目應(yīng)用領(lǐng)域 項(xiàng)目應(yīng)用領(lǐng)域 w e b s l f t 普通s h a h a b j 普通 w u m 普通w e bl o g m i n e r 商業(yè) s i t eh e l p e f 個(gè)性化服務(wù) p a g e g a t h e r 網(wǎng)站結(jié)構(gòu)設(shè)計(jì) l e t i z i a 個(gè)性化服務(wù)m a n l e y 用戶分類 w e bw a t c h e r 個(gè)性化服務(wù) a r l i t t 用戶分類 l o i s h n a p u r a m 個(gè)性化服務(wù) p i t k o w用戶分類 a n a l o g 個(gè)性化服務(wù) a l m e i d a 用戶分類 t u z h i l i n 商業(yè) r e x f o r d 提高系統(tǒng)效率 b u c h n e r 商業(yè) s h e c h t e r 提高系統(tǒng)效率 w e bt r e n d s 商業(yè) a g g a r w a l 提高系統(tǒng)效率 1 3 論文的主要研究工作 1 收集有關(guān)w e b 挖掘及w e b 日志挖掘研究的國(guó)內(nèi)外論文,了解w e b 日志 挖掘研究的最新動(dòng)態(tài),引導(dǎo)研究工作的進(jìn)行。 2 對(duì)w e b 日志挖掘整個(gè)過程中涉及到的每個(gè)步驟進(jìn)行研究,包括數(shù)據(jù)收 集、數(shù)據(jù)預(yù)處理、分類聚類、模式發(fā)現(xiàn)、模式分析、在線服務(wù)等等。 3 對(duì)于用戶聚類提出了三種從不同角度出發(fā)的方法,提出了不同以往的 興趣度的概念,并構(gòu)造數(shù)學(xué)模型通過模擬實(shí)驗(yàn)驗(yàn)證。 4 提出了基于支持向量機(jī)的新的用戶分類方法,并通過實(shí)驗(yàn)驗(yàn)證。 5 提出了快速頻繁瀏覽模式提取方法,并通過實(shí)驗(yàn)驗(yàn)證。 6 構(gòu)建了完整的w e b 用戶個(gè)性化信息提取模型框架。 1 4 論文內(nèi)容安排 論文其余各章的安排如下: 第2 章:w e b 日志挖掘概述 第3 章:基于瀏覽行為的用戶聚類研究 第4 章:基于瀏覽行為的用戶分類研究 第5 章:分類用戶的w e b 頻繁瀏覽模式提取 4 碩士學(xué)位論文 2 1 挖掘過程 第2 章w e b 日志挖掘概述 圖2 - 1w e b 日志挖掘過程 圖2 1 是w e b 使用挖掘的過程模型【1 4 l ,為了實(shí)現(xiàn)數(shù)據(jù)收集在整個(gè)過程中的 重要性,在原過程模型上添加了數(shù)據(jù)收集這個(gè)前端任務(wù)。圖中橢圓表示過程的 四個(gè)任務(wù):數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)和模式分析。各個(gè)任務(wù)有不同的 輸出,圖中還顯示了可使用的輔助數(shù)據(jù)。 2 2 數(shù)據(jù)收集 2 2 1 基本概念和數(shù)據(jù)類型 w 3 c 組織為描述用戶在w e b 上的使用行為定義了若干概念【1 5 l ,雖然召不 是_ 個(gè)標(biāo)準(zhǔn),但是其中的一些概念還是得到了廣泛接受。雖然這些概念在w e b 使用挖掘領(lǐng)域內(nèi)的解釋變化,但它們依舊是理解w e b 使用數(shù)據(jù)特性的基礎(chǔ)。表 2 1 是經(jīng)常使用的一些概念在本文中的定義【1 4 】: 表2 1 與使用數(shù)據(jù)相關(guān)的概念 概念英文解釋 w 曲服務(wù)器 w e bs e r v e r 能夠處理h 1 1 p 請(qǐng)求的服務(wù)器端軟件 瀏覽器 b r o w s e r 向w e b 服務(wù)器發(fā)送h t t p 請(qǐng)求并顯示其內(nèi)容的客戶端軟件 應(yīng)用服務(wù)器 a p p l i c a t i o n 構(gòu)建和運(yùn)行在w e b 服務(wù)上的能夠動(dòng)態(tài)地提供頁面內(nèi)容的任 s e r v e r 何應(yīng)用系統(tǒng),負(fù)責(zé)根據(jù)h t t p 請(qǐng)求動(dòng)態(tài)地生成頁面文件 用戶 u s e r 使用瀏覽器訪問w e b 的單個(gè)人 頁面文件 p a g ef i l e w e b 服務(wù)器通過h t t p 協(xié)議發(fā)送給瀏覽器的w e b 數(shù)據(jù)文件 頁面視圖 p a g ev i e w 同時(shí)顯示在瀏覽器窗口內(nèi)的頁面文件集合 服務(wù)器會(huì)話 s e r v e rs e s s i o n單個(gè)w e b 用戶訪問單個(gè)w e b 服務(wù)器產(chǎn)生頁面視圖序列 用戶會(huì)話 u s e rs e s s i o n 單個(gè)w e b 用戶訪問w e b 產(chǎn)生的頁面視圖序列 5 對(duì)于w 曲用戶分類與個(gè)性化瀏覽模式提取的研究 圖2 2 是w e b 使用數(shù)據(jù)的基本數(shù)據(jù)模型的e r 圖。圖中的關(guān)系都是一對(duì)多 的組成關(guān)系。圖中只標(biāo)出了實(shí)體的幾個(gè)常見的關(guān)鍵屬性,省略號(hào)”表示 還有其他屬性。各種數(shù)據(jù)實(shí)體都有特定的屬性。用戶和頁面文件是w e b 使用數(shù) 據(jù)與其他輔助數(shù)據(jù)集成的“連接點(diǎn)”。類似頁面文件關(guān)聯(lián)著內(nèi)容數(shù)據(jù)和站點(diǎn)的 結(jié)構(gòu)數(shù)據(jù)。常用的w e b 使用數(shù)據(jù)模型是圖的子集或者變體。 圖2 2w e b 使用數(shù)據(jù)的基本e r 模型 2 2 2 數(shù)據(jù)收集 用戶的訪問行為會(huì)衍生許多包含行為信息的數(shù)據(jù),它們流經(jīng)w e b 環(huán)境中 的不同軟硬件實(shí)體。數(shù)據(jù)收集研究的主要方向是如何有效地從這些實(shí)體上可 截取使用數(shù)據(jù)。 1 瀏覽器交互數(shù)據(jù)3 h t t p 協(xié)議數(shù)據(jù) 2 應(yīng)用交互數(shù)據(jù) 費(fèi) 用戶 4 t c p ,i p 協(xié)議數(shù)據(jù) 圖2 3w e b 交互環(huán)境 圖2 3 是整個(gè)w e b 交互環(huán)境的概要描述。如圖所示,常見的收集地點(diǎn)有瀏 覽器、網(wǎng)絡(luò)層( t c p i p 協(xié)議層) 、h t t p 代理服務(wù)器、w e b 服務(wù)器和應(yīng)用服務(wù) 器。常見原始數(shù)據(jù)分四類:應(yīng)用交互數(shù)據(jù)、h t t p 協(xié)議數(shù)據(jù)、t c p i p 協(xié)議數(shù)據(jù) 和瀏覽器交互數(shù)據(jù)。四者容納的行為信息量和類型是不同的,它們包含的行為 信息基本上有一個(gè)遞增關(guān)系:應(yīng)用交互使用h t t p 協(xié)議,h t t p 協(xié)議依賴于 6 碩士學(xué)位論文 t c p i p 協(xié)議層傳輸數(shù)據(jù)包,所有使用數(shù)據(jù)又都是用戶從瀏覽器端點(diǎn)擊輸入超 鏈接而觸發(fā)。為了提高數(shù)據(jù)傳輸速度,w e b 上由各種頁面緩沖環(huán)節(jié)( 瀏覽器或 者h(yuǎn) t t p 代理等) ,這造成除了瀏覽器交互數(shù)據(jù),其他原始使用數(shù)據(jù)均面臨行 為信息缺失的問題,除非采用特殊技術(shù)來阻止緩沖( 例如的u r l 動(dòng)態(tài)修改法 【1 6 】、 o 2 2 3 數(shù)據(jù)特性 因?yàn)閣 e b 使用數(shù)據(jù)具有和傳統(tǒng)數(shù)據(jù)挖掘領(lǐng)域不同的數(shù)據(jù)特性,所以如何 針對(duì)這些特性設(shè)計(jì)和擴(kuò)展各種數(shù)據(jù)挖掘方法是一個(gè)研究的重點(diǎn)。具體來講有以 下特性: 1 時(shí)序性 從圖2 2 可看出用戶擁有多個(gè)有序的用戶會(huì)話,而后者又可包含多個(gè)有序 的服務(wù)器會(huì)話,服務(wù)器會(huì)話又由頁面視圖的訪問組成。 2 屬性豐富 各種數(shù)據(jù)實(shí)體都有其特定屬性,其中用戶和頁面文件是使用數(shù)據(jù)和其他輔 助數(shù)據(jù)集成的“連接點(diǎn)”。用戶關(guān)聯(lián)著商業(yè)數(shù)據(jù),頁面文件關(guān)聯(lián)著內(nèi)容數(shù)據(jù)和 站點(diǎn)的結(jié)構(gòu)數(shù)據(jù)。通過頁面文件甚至可以關(guān)聯(lián)到商品的屬性。 3 數(shù)量巨大 w e b 站點(diǎn)的訪問基本不受時(shí)空限制,所以產(chǎn)生的使用數(shù)據(jù)會(huì)變得十分巨大。 例如根據(jù)y a h 0 0 2 0 0 1 年第一季度報(bào)告【17 1 ,它當(dāng)時(shí)已有用戶1 9 2 億( u n i q u e u s e r ) ,每日有逾1 1 億的頁面訪問。這對(duì)傳統(tǒng)的挖掘方法和系統(tǒng)都是一個(gè)巨大 的挑戰(zhàn)。 2 3 數(shù)據(jù)預(yù)處理 表2 2 是服務(wù)器上部分w e b 日志,從中我們可以看到有關(guān)用戶的一些登陸 信息,包括:登陸時(shí)間,i p 地址,瀏覽頁面和所使用的瀏覽器及代理服務(wù)器等 信息。 表2 2w e b 服務(wù)器日志 l p 地址時(shí)間方法、u r l 、協(xié)議引用代理 頁面 16 1 1 1 6 6 5 1 1 1 2 o c t 2 0 0 2 :0 3 :0 5 :0 9 0 5 0 0 g e ta h t m lh 1 t p 1 0m o z i l l a 4 0 i e s 26 1 11 6 6 5 1 11 2 o c t 2 0 0 2 :0 3 :0 5 :4 2 一0 5 0 0g e tb h l m lh r i p 1 ,oa h t m lm o z j l l a 4 o i e s 36 1 1 1 6 6 5 1 11 2 0 c t 2 0 0 2 :0 3 :0 6 :3 8 - 0 5 0 0g e tl h t m lh t t p 1 om o z i a 4 0 i e s 46 1 1 1 6 6 5 1 11 2 ,o c t ,2 0 0 2 :0 3 :0 8 :0 2 一0 5 0 0g e tf t m lh t t p ,1 ob i h t m lm o z i l i a ,4 o l e s 56 1 11 6 6 5 111 2 0 c t 2 0 0 2 :0 3 :1 5 :2 6 一0 5 0 0g e tr h t m lh t t p ,1 ol h t m l x i l ,i ,i r l x 6 ,i p 2 2 66 1 1 1 6 。6 5 1 11 2 o c t 2 0 0 2 :0 3 :1 8 :3 1 0 5 0 0g e tc h t m lh t t p 1 ,oa h t m l x i i ,l ,i r l x 6 ,i p 2 2 7 對(duì)于w 曲用戶分類與個(gè)性化瀏覽模式提取的研究 數(shù)據(jù)預(yù)處理就是對(duì)w e b 日志中的數(shù)據(jù)進(jìn)行處理,包括站點(diǎn)識(shí)別、數(shù)據(jù)凈化、 用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)全等步驟,圖2 4 描述了預(yù)處理的具體過程: 圖2 - 4w e b 日志挖掘數(shù)據(jù)預(yù)處理具體過程 2 3 1 站點(diǎn)識(shí)別 站點(diǎn)識(shí)別過程主要產(chǎn)生網(wǎng)站結(jié)構(gòu)圖,該圖對(duì)于預(yù)處理過程和其后的模式分 析過程都具有重要的參考價(jià)值。預(yù)處理過程需要結(jié)合網(wǎng)站結(jié)構(gòu)圖來抽取和過濾 瀏覽頁面,以助于最終識(shí)別會(huì)話。同樣模式分析過程也需要參照網(wǎng)站結(jié)構(gòu)圖來 分析已產(chǎn)生的模式,過濾掉無意義的模式,并將最終結(jié)果反饋給用戶。 2 3 2 網(wǎng)頁編碼 為了便于描述和分析通常根據(jù)網(wǎng)站結(jié)構(gòu)將相關(guān)主題頁面放在一起編號(hào),每 個(gè)頁面被賦予一個(gè)特定的數(shù)字p ,p 1 ,2 ,n ) ,n 為網(wǎng)站現(xiàn)有的網(wǎng)頁數(shù)。 2 3 3 數(shù)據(jù)凈化 1 數(shù)據(jù)選擇應(yīng)考慮的幾個(gè)方面:1 ) 區(qū)分不同的使用者需要什么信息;2 ) 通 過何種信息識(shí)別使用者會(huì)話;3 ) 與瀏覽模式發(fā)現(xiàn)和分析有關(guān)的數(shù)據(jù)項(xiàng)有哪些; 4 ) 對(duì)網(wǎng)站應(yīng)用進(jìn)行其它方面的統(tǒng)計(jì)需要哪些數(shù)據(jù)( 如瀏覽器類型,地區(qū)分布等) ; 5 ) 在會(huì)話識(shí)別之后如何過濾w e br o b o t 瀏覽記錄。 2 過濾日志記錄:包括出錯(cuò)記錄、圖像文件請(qǐng)求記錄( 如j p g ,j p e g ,g i f 等) 、 除g e t 方法外的所有請(qǐng)求記錄。如果日志記錄來自于多個(gè)服務(wù)器還要進(jìn)行融合。 含有鏈接的圖像文件也過濾掉,因?yàn)槿绻脩魹g覽了其鏈接,則其內(nèi)容已在日 志中。 8 碩士學(xué)位論文 3 清除w e br o b o t 的瀏覽日志記錄:感情是人的天性,而r o b o t 的瀏覽是不 帶任何感情色彩的,因此必須將其過濾。檢查代理是否與通常的瀏覽器一樣或 檢查對(duì)“r o b o t s t x t 文件的訪問。通常的r o b o t 會(huì)檢查文件“r o b o t s t x t ”是否存 在,從而從中得知哪些頁文件對(duì)其沒有限制的信息。對(duì)于不遵守以上規(guī)定的r o b o t 記錄,可采用如下方式:1 ) 由同一客戶機(jī)發(fā)出的對(duì)某頁的定時(shí)重復(fù)請(qǐng)求;2 ) 對(duì)網(wǎng) 站進(jìn)行深度優(yōu)先的瀏覽;3 ) 相對(duì)于網(wǎng)頁內(nèi)容來說的瀏覽時(shí)間異常短的訪問請(qǐng)求; 4 ) 來自于同一客戶機(jī),并且參考欄都為空的請(qǐng)求。 2 3 4 用戶識(shí)別 在w e b 數(shù)據(jù)挖掘預(yù)處理過程中,區(qū)分使用者是一件非常重要的工作。因?yàn)槠?錯(cuò)誤會(huì)傳遞到會(huì)話識(shí)別,從而影響整個(gè)預(yù)處理結(jié)果。而在已有的研究工作中以 使用者i p 和瀏覽器代理區(qū)分使用者,遇到以下情況就無能為力了:1 ) 單i p 地址 使用者會(huì)話活動(dòng);2 ) 多i p 地址單服務(wù)器會(huì)話;3 ) 多i p 地址單使用者;4 ) 多服務(wù) 器會(huì)話單個(gè)使用者;5 ) 單客戶機(jī)多使用者;6 ) 單用戶多瀏覽器。下面給出一 般的解決辦法: 1 采用c o o k i e 來區(qū)分使用者【1 8 】:c o o k i e 不是代碼塊,雖然唯一但不可查對(duì), 只用來區(qū)別使用者,不涉及隱私。這樣情況1 ) 、2 ) 、3 ) 、4 ) 都可避免,但遇到5 ) 、 6 ) 就無能為力。為避免因用戶更新操作系統(tǒng)使原來的c o o k i e 丟失的問題,日志數(shù) 據(jù)的時(shí)間跨度要小一些。 2 使用不允許緩沖的h t t p 1 1 協(xié)議避免客戶方緩沖帶來的會(huì)話識(shí)別路徑不 全的問題:由于當(dāng)前的網(wǎng)站越來越趨向于動(dòng)態(tài)的信息服務(wù),因而緩沖問題對(duì)于 采用動(dòng)態(tài)技術(shù)的網(wǎng)站來說并不需考慮。雖然如此靜態(tài)的h t m l 頁面仍大量運(yùn)用在 網(wǎng)站實(shí)踐中,因而緩沖問題的處理仍是一個(gè)對(duì)會(huì)話識(shí)別來說有著重要意義的問 題。也可采用在h t m l 文件頭加過期標(biāo)識(shí)去緩沖。 2 3 5 會(huì)話識(shí)別 用戶會(huì)話是指用戶對(duì)服務(wù)器的一次有效訪問,通過其連續(xù)請(qǐng)求的頁面,我 們可以獲得他在網(wǎng)站中的訪問行為和瀏覽興趣。日志文件中不同用戶訪問的頁 面當(dāng)然屬于不同的會(huì)話。當(dāng)某個(gè)用戶的頁面請(qǐng)求在時(shí)間上跨度比較大時(shí),就有 可能是該用戶多次訪問同一個(gè)網(wǎng)站,我們可以將用戶的訪問記錄分成多個(gè)會(huì)話 來處理。最簡(jiǎn)單的方法就是設(shè)置一個(gè)t i m e o u t 值,如果用戶訪問頁面的時(shí)間差超 過了這個(gè)值,則認(rèn)為用戶開始了一個(gè)新的會(huì)話。許多商業(yè)產(chǎn)品都采用3 0 分鐘作 為缺省的t i m e o u t 值,但是l c a t l e d g e 和j p i t k o w 由實(shí)驗(yàn)得出t i m e 伽t 值設(shè)為 2 5 5 分鐘更好一點(diǎn)【”,2 0 1 。在識(shí)別用戶會(huì)話的過程中,也要?jiǎng)h除那些只有一個(gè)訪問 事務(wù)的用戶,因?yàn)槲覀円诰蛴脩舻男蛄性L問模式,這部分用戶是無序列可言 的。這一過程可能會(huì)損失一些用戶的訪問信息,比如用戶在分析期間里前后兩 9 對(duì)于w 曲用戶分類與個(gè)性化瀏覽模式提取的研究 次訪問頁面都一樣,因此只有前一次用戶訪問記入了序列。 2 4 聚類與分類 2 4 1 分類 在w e b 使用挖掘中,分類技術(shù)可以發(fā)現(xiàn)如下關(guān)系:“從教育網(wǎng)發(fā)出的用戶請(qǐng) 求5 0 會(huì)訪問c o m p a n y p r o d u c t s b o o k h t m l ”或“在線下訂單購買計(jì)算機(jī)游戲的 用戶中,3 0 處于1 8 2 5 歲之間,并且家住北京”。分類算法首先建立一個(gè)模型, 通過對(duì)訓(xùn)練數(shù)據(jù)的分析,給出預(yù)定數(shù)據(jù)類集或概念集的特征描述,然后抽取未 知數(shù)據(jù)對(duì)象的自身特性,根據(jù)模型中的定義,將其劃分到相對(duì)應(yīng)的類別中1 2 1 1 。 典型的分類方法將在下面章節(jié)詳細(xì)介紹。 2 4 2 聚類 聚類技術(shù)將數(shù)據(jù)對(duì)象按特征相近的原則劃分為多個(gè)類或簇。在w e b 使用挖 掘領(lǐng)域有兩種有趣的聚類:使用聚類和頁面聚類。使用聚類就是將那些經(jīng)常訪 問相同頁面的用戶群劃分出來,他們具有相同的使用習(xí)慣和網(wǎng)上行為,可以對(duì) 他們開展特定的廣告策略或是個(gè)性化定制。頁面聚類則發(fā)現(xiàn)內(nèi)容相關(guān)的頁面組, 為搜索引擎和w e b 服務(wù)商提供有用信息。在w e b 使用挖掘中,聚類算法將用戶瀏 覽頁面的總和視為數(shù)據(jù)空間,構(gòu)造一個(gè)稀疏圖。首先,根據(jù)每個(gè)頁面的內(nèi)容相 似性和路徑互聯(lián)性,將數(shù)據(jù)對(duì)象分割為若干個(gè)k 最近鄰居子圖( 簇) ,圖中的每 個(gè)點(diǎn)都代表一個(gè)頁,子圖的密度作為邊的權(quán)重被記錄下來。如果發(fā)現(xiàn)兩個(gè)子圖 間的互聯(lián)性和相似性與子圖內(nèi)部頁面的互聯(lián)性和相似性高度相關(guān)的話,則將二 者合并為個(gè)簇。 2 5 模式發(fā)現(xiàn)與分析 2 5 1 模式發(fā)現(xiàn) 1 統(tǒng)計(jì)分析 統(tǒng)計(jì)方法是從w e b 中提取有用信息最常用的一種技術(shù)。通過對(duì)s e s s i o n 文件 的分析,可以對(duì)感興趣的信息進(jìn)行統(tǒng)計(jì),一般的包括各種統(tǒng)計(jì)數(shù)據(jù),如最頻繁 訪問的n 個(gè)頁面、每頁平均瀏覽時(shí)間、網(wǎng)址路徑平均訪問長(zhǎng)度等,也可能涉及一 些關(guān)于限制的錯(cuò)誤分析,如統(tǒng)計(jì)非法i p 、無效u r l 和未授權(quán)訪問等。這些信息對(duì) 于提高系統(tǒng)性能,加強(qiáng)網(wǎng)站安全起到輔助決策作用。 2 關(guān)聯(lián)規(guī)則 在w e b 使用挖掘中,關(guān)聯(lián)規(guī)則主要用于發(fā)現(xiàn)用戶之間、頁面之間以及用戶 瀏覽頁面和網(wǎng)上行為之間存在的潛在關(guān)系。比如挖掘可能得出“瀏覽 c o m p a n y p r o d u c t s e l e c t r o n i c p r o d u c t h t m l 的用戶 6 8 都會(huì)瀏覽 1 0 碩十學(xué)位論文 c o m p a n y 佃r o d u c t s s o f t w a r e h t m l ”,并且“瀏覽c o m p a n y p r o d u c t s s o f t w a r e h t m l 的用戶5 9 都會(huì)在線下訂單”的規(guī)則,那么顯然,網(wǎng)絡(luò)管理員應(yīng)該在電子商品目 錄頁面提供進(jìn)入計(jì)算機(jī)軟件目錄頁面的直接途徑。關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)都遵循兩個(gè) 步驟:第1 步是迭代識(shí)別所有的頻繁項(xiàng)目集,要求頻繁項(xiàng)目集的支持率不低于用 戶設(shè)定的最小支持度;第2 步是從頻繁項(xiàng)目集中構(gòu)造可信度不低于用戶設(shè)定的最 小置信度。 3 序列模式 序列模式挖掘目的是發(fā)現(xiàn)含有時(shí)間戳的事務(wù)間的關(guān)聯(lián)關(guān)系【2 2 ,2 3 1 。在w e b 服務(wù) 器事務(wù)日志中記錄的是一段時(shí)間內(nèi)的用戶訪問行為,那么在數(shù)據(jù)預(yù)處理階段, 每個(gè)事務(wù)都會(huì)附帶一個(gè)時(shí)間片,稱為時(shí)間戳。w e b 使用數(shù)據(jù)的序列挖掘,可以幫 助研究人員預(yù)測(cè)用戶訪問行為?;谕诰虺龅男蛄心J?,例如“如果計(jì)算機(jī)和 打印機(jī)的銷售上升的話,一個(gè)星期內(nèi)p d a 的銷售也會(huì)隨之上升”或是“在線購買 商品a 的用戶6 0 在1 5 天內(nèi)也會(huì)購買商品b ”,可以對(duì)不同的用戶組開展有針對(duì) 性的廣告宣傳。 2 5 2 模式分析 如果沒有合適的工具和機(jī)制來輔助分析人員的理解,采用各種技術(shù)挖掘出 來的模式,數(shù)目龐大,表達(dá)晦澀,從而得不到很好的利用。因此,模式分析技 術(shù)和工具也是近年來研究w e b 使用挖掘的一個(gè)新熱點(diǎn)。這些技術(shù)包括:統(tǒng)計(jì)、 圖形可視化、可用性分析和智能查詢等。 1 可視化技術(shù) 可視化良好的系統(tǒng)用圖形和圖像表示抽象網(wǎng)絡(luò)中錯(cuò)綜復(fù)雜的關(guān)系;用文字 描述解釋和闡述模式之間相互的作用,幫助人們更好地理解我w e b 中海量數(shù)據(jù) 各部分之間的關(guān)系,指導(dǎo)和加速查找的過程。i d l ( i n t e r a c t i v ed a t al a n g u a g e ) 交互式數(shù)據(jù)語言是面向矩陣、語法簡(jiǎn)單的第四代可視化語言,它支持o p e n g l 圖 形加速、量化可視化表現(xiàn)、集成數(shù)學(xué)與統(tǒng)計(jì)學(xué)算法、方便的數(shù)據(jù)輸入輸出方式、 跨平臺(tái)圖形用戶界面工具包、連接o d b c 兼容數(shù)據(jù)庫及多種程序連接工具等, 是目前科學(xué)數(shù)據(jù)可視化方面較好工具。 2 聯(lián)機(jī)分析處理工具o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) 在基于多維數(shù)據(jù)模型的數(shù)據(jù)倉庫或數(shù)據(jù)集市上使用,目標(biāo)是滿足決策支持 或者滿足在多維環(huán)境下特定的查詢和報(bào)表需求,它將傳統(tǒng)數(shù)據(jù)以多維數(shù)據(jù)模型 重新組織,然后通過上卷、下鉆、切片和切塊、旋轉(zhuǎn)等操作實(shí)現(xiàn)對(duì)多個(gè)抽象層 上的知識(shí)發(fā)現(xiàn)。w e b 服務(wù)器上的訪問數(shù)據(jù)隨時(shí)間呈海量增長(zhǎng)趨勢(shì),而且用戶信 息的數(shù)據(jù)存儲(chǔ)也呈現(xiàn)分布的趨勢(shì),這兩個(gè)特性表明了w e b 使用數(shù)據(jù)的分析通常 需要大型數(shù)據(jù)倉庫的支持,o l a p 技術(shù)就是在其上發(fā)展出的技術(shù)。它整理信息 的結(jié)構(gòu),允許基于主題對(duì)數(shù)據(jù)進(jìn)行查詢和分析,快速完成報(bào)表和數(shù)據(jù)分析功能, 對(duì)于w 曲用戶分類與個(gè)性化瀏覽模式提取的研究 使分析人員或管理人員能夠從多角度對(duì)信息進(jìn)行快速、一致、交互地存取,這 些與可視化工具一起,將大大增強(qiáng)探測(cè)式w e b 使用挖掘的能力和靈活性。這一 新興領(lǐng)域的問題,已引起研究人員的廣泛關(guān)注,有待進(jìn)一步的討論和發(fā)展。 3 知識(shí)查詢機(jī)制 知識(shí)查詢機(jī)制首先分析查詢目的,然后自動(dòng)搜索相關(guān)的規(guī)則模式以及其它 的知識(shí),可以幫助分析用戶目的,用智能的方式回答查詢。這樣,它不僅可以 直接列出用戶所指定屬性的項(xiàng)目列表,還可以向用戶提供輔助決策的附加信息。 另外,模式的大量聚集常常使用戶不知所措。有必要定義一些機(jī)制,使用戶可 以將焦點(diǎn)聚集在某些感興趣的細(xì)節(jié)上。達(dá)到這一目的的途徑有兩個(gè):一是在挖 掘之前,在數(shù)據(jù)庫上設(shè)置約束,使挖掘只在一部分?jǐn)?shù)據(jù)中進(jìn)行;二是挖掘過程 中執(zhí)行查詢語句,不斷篩選出需要的信息,將無用的數(shù)據(jù)過濾掉。研究人員已 經(jīng)在s q l 語言的基礎(chǔ)上提出幾種適合在數(shù)據(jù)挖掘過程中使用的查詢語言,如 d m q l ;也有專門為w e b 挖掘而定義的w c b s s q l ,w c b l q m 和s q u e a l 等。 2 6w e b 日志挖掘的應(yīng)用 w e b 使用挖掘的結(jié)果可以客觀反映w e b 的組成、內(nèi)容和訪問頻度等重要信 息,也能幫助理解用戶的網(wǎng)上訪問行為。利用這些信息,研究人員和網(wǎng)站開發(fā) 者都建立了一系列的應(yīng)用。圖2 5 是w e b 日志挖掘的主要應(yīng)用領(lǐng)域。 1 推薦系統(tǒng) w e b 推薦系統(tǒng)通過收集和分析用戶信息來學(xué)習(xí)用戶的興趣和行為,對(duì)用戶可 能訪問的網(wǎng)頁進(jìn)行預(yù)測(cè),從而實(shí)現(xiàn)主動(dòng)推薦的目的,也稱為個(gè)性化服務(wù) ( p e r s o n a l i z a t i o n ) 【2 4 1 。這項(xiàng)應(yīng)用的主要原理是將與用戶行為無關(guān)的信息過濾掉, 使用戶只關(guān)注那些可能感興趣的資源。信息過濾技術(shù)分為基于內(nèi)容的過濾 ( c 0 n t e n t - b a s e df i l t e r i n g ) 和協(xié)作過濾( c o l l a b o r a t i v e f i l t e r i n g ) 。 2 w e b 系統(tǒng)改善 對(duì)于網(wǎng)絡(luò)服務(wù)提供商來說,用戶滿意度將是重要的指標(biāo);而對(duì)于用戶來說, 服務(wù)質(zhì)量和服務(wù)器性能是關(guān)鍵。w e b 使用挖掘向網(wǎng)站建立者提供了各種關(guān)于網(wǎng)站 架構(gòu)的信息
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025上海租房合同自由交易版
- 邵陽市畢業(yè)考試卷及答案
- 水運(yùn)市場(chǎng)營(yíng)銷策略研究考核試卷
- 木地板品牌形象與公關(guān)策略考核試卷
- 糧食倉儲(chǔ)品種改良技術(shù)考核試卷
- 紡織品標(biāo)準(zhǔn)與法規(guī)考核試卷
- 組織學(xué)習(xí)與知識(shí)管理策略考核試卷
- 電氣設(shè)備絕緣與接地知識(shí)考核試卷
- 糧食加工副產(chǎn)物綜合利用考核試卷
- 焊接設(shè)備在金屬建筑模板制造中的應(yīng)用考核試卷
- 合同到期不續(xù)簽的模板
- 搬遷服務(wù)項(xiàng)目 投標(biāo)方案(技術(shù)標(biāo))
- 2005室外給水管道附屬構(gòu)筑物閥門井05S502
- 浙江省寧波市鎮(zhèn)海中學(xué)2025屆高三數(shù)學(xué)下學(xué)期適應(yīng)性考試試題含解析
- “雙新”背景下高中信息技術(shù)單元整合教學(xué)實(shí)踐
- 廣東省佛山2024年中考一模數(shù)學(xué)試卷(含答案)
- 新能源發(fā)電技術(shù) 課件 第一章-新能源發(fā)電概述
- 心理健康《欣賞我自己》課件
- 上海市存志中學(xué)2024-2025學(xué)年中考一模英語試題含答案
- MTT 1114-2011 煤礦供電監(jiān)控系統(tǒng)通.用技術(shù)條件
- 貴州省遵義市2019年中考數(shù)學(xué)試卷【含答案】
評(píng)論
0/150
提交評(píng)論