電子商務(wù)與數(shù)據(jù)挖掘分析課件_第1頁(yè)
電子商務(wù)與數(shù)據(jù)挖掘分析課件_第2頁(yè)
電子商務(wù)與數(shù)據(jù)挖掘分析課件_第3頁(yè)
電子商務(wù)與數(shù)據(jù)挖掘分析課件_第4頁(yè)
電子商務(wù)與數(shù)據(jù)挖掘分析課件_第5頁(yè)
已閱讀5頁(yè),還剩53頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

電子商務(wù)與數(shù)據(jù)挖掘基于WEB日志的用戶訪問(wèn)模式挖掘電子商務(wù)與數(shù)據(jù)挖掘基于WEB日志的用戶訪問(wèn)模式挖掘1電子商務(wù)與數(shù)據(jù)挖掘——完美結(jié)合在電子商務(wù)中進(jìn)行成功的數(shù)據(jù)挖掘得益于:電子商務(wù)提供海量的數(shù)據(jù)如果一個(gè)電子商務(wù)網(wǎng)站平均每個(gè)小時(shí)賣出五件物品,那么它一個(gè)月的平均點(diǎn)擊量是160萬(wàn)次。豐富的記錄信息良好的WEB站點(diǎn)設(shè)計(jì)將有助于獲得豐富的信息干凈的數(shù)據(jù)從電子商務(wù)站點(diǎn)收集的都是電子數(shù)據(jù),無(wú)需人工輸入或者是從歷史系統(tǒng)進(jìn)行整合研究成果容易轉(zhuǎn)化在電子商務(wù)中,很多知識(shí)發(fā)現(xiàn)都可以進(jìn)行直接應(yīng)用投資收益容易衡量電子商務(wù)與數(shù)據(jù)挖掘——完美結(jié)合在電子商務(wù)中進(jìn)行成功的數(shù)據(jù)挖掘2電子商務(wù)為數(shù)據(jù)挖掘提供海量數(shù)據(jù)“點(diǎn)擊流”(Clickstreams)將會(huì)產(chǎn)生電子商務(wù)挖掘的大量數(shù)據(jù)Yahoo!在2000年每天被訪問(wèn)的頁(yè)面數(shù)是10億,如此大的訪問(wèn)量將會(huì)產(chǎn)生巨大的Web日志(記載頁(yè)面訪問(wèn)的情況),每個(gè)小時(shí)產(chǎn)生的Web日志量就達(dá)到10GB!即便是一個(gè)小的電子商務(wù)站點(diǎn),也會(huì)在斷時(shí)間內(nèi)產(chǎn)生進(jìn)行數(shù)據(jù)挖掘所需的大量數(shù)據(jù)計(jì)算一下,如果你的站點(diǎn)一個(gè)小時(shí)賣出5件物品,一個(gè)月會(huì)有多少頁(yè)面訪問(wèn):5件×24小時(shí)×30天/%2(轉(zhuǎn)化率,表示訪問(wèn)的人中買東西的人的比率)×9頁(yè)面(平均買一件物品要訪問(wèn)9個(gè)頁(yè)面)=1,600,000頁(yè)面電子商務(wù)為數(shù)據(jù)挖掘提供海量數(shù)據(jù)“點(diǎn)擊流”(Clickstre3豐富的記錄信息如果你的電子商務(wù)站點(diǎn)設(shè)計(jì)的好,你將可以獲得各種商務(wù)的或者是用戶訪問(wèn)的信息:商品和商品的屬性商品的歸類信息(當(dāng)同時(shí)展示多種商品是,歸類信息是非常有用的)促銷信息關(guān)于訪問(wèn)的信息(比如:訪問(wèn)計(jì)數(shù))關(guān)于客戶額信息(可以通過(guò)登陸/注冊(cè)來(lái)獲得)豐富的記錄信息如果你的電子商務(wù)站點(diǎn)設(shè)計(jì)的好,你將可以獲得各種4“干凈的數(shù)據(jù)”信息直接從網(wǎng)站上提取無(wú)需從歷史系統(tǒng)中集成,避免很多錯(cuò)誤可以通過(guò)良好的站點(diǎn)設(shè)計(jì),直接獲得跟數(shù)據(jù)挖掘有關(guān)的數(shù)據(jù)而不是再來(lái)分析、計(jì)算、預(yù)處理要用的數(shù)據(jù)直接收集的電子數(shù)據(jù)——可靠無(wú)需人工數(shù)據(jù)輸入,避免了很多錯(cuò)誤可以通過(guò)良好的站點(diǎn)設(shè)計(jì),良好的控制數(shù)據(jù)采樣的顆粒度顆粒度控制在客戶級(jí)別或者是session級(jí)別,而不是頁(yè)面級(jí)別“干凈的數(shù)據(jù)”信息直接從網(wǎng)站上提取5有趣的“生日現(xiàn)象”一個(gè)銀行通過(guò)對(duì)客戶數(shù)據(jù)統(tǒng)計(jì)發(fā)現(xiàn),它的5%的客戶都是在同一天出生的(同年同月同日)!為什么?如何解釋?有趣的“生日現(xiàn)象”一個(gè)銀行通過(guò)對(duì)客戶數(shù)據(jù)統(tǒng)計(jì)發(fā)現(xiàn),它的5%的6研究成果容易轉(zhuǎn)化歷史上的數(shù)據(jù)挖掘研究有過(guò)許多的知識(shí)發(fā)現(xiàn),但是這些知識(shí)發(fā)現(xiàn)卻很少在實(shí)際的商業(yè)應(yīng)用中產(chǎn)生什么效果要應(yīng)用這些發(fā)現(xiàn)的知識(shí)可能意味著要進(jìn)行復(fù)雜的系統(tǒng)更改、流程更改或是改變?nèi)藗兊霓k事習(xí)慣,這在現(xiàn)實(shí)中是非常困難的。在電子商務(wù)中,很多知識(shí)發(fā)現(xiàn)都可以進(jìn)行直接應(yīng)用改變站點(diǎn)的設(shè)計(jì)(改變布局,進(jìn)行個(gè)性化設(shè)計(jì)等)開(kāi)始有目標(biāo)的促銷根據(jù)對(duì)廣告效果的統(tǒng)計(jì)數(shù)據(jù)改變廣告策略可以很容易的提供捆綁銷售研究成果容易轉(zhuǎn)化歷史上的數(shù)據(jù)挖掘研究有過(guò)許多的知識(shí)發(fā)現(xiàn),但是7投資收益容易衡量使用數(shù)據(jù)挖掘成果的革新帶來(lái)的收益如何衡量?在傳統(tǒng)的商業(yè)中衡量投資收益需要長(zhǎng)期的測(cè)量和觀察,PacoUnderhill在《購(gòu)物的科學(xué)》一書中提及,一個(gè)超市為了衡量他們的促銷策略帶來(lái)的投資收益,每年要花14,000個(gè)小時(shí)查看錄像帶。在電子商務(wù)中,衡量革新的投資收益是非常容易的銷售變化的報(bào)表可以自動(dòng)產(chǎn)生客戶對(duì)電子郵件和電子調(diào)查的反饋都可以在幾天內(nèi)得到,而不必等個(gè)幾個(gè)月電子商務(wù)乃至整個(gè)互聯(lián)網(wǎng)都是傳統(tǒng)商業(yè)的理想試驗(yàn)室。投資收益容易衡量使用數(shù)據(jù)挖掘成果的革新帶來(lái)的收益如何衡量?8對(duì)電子商務(wù)網(wǎng)站的Web數(shù)據(jù)挖掘通常在一個(gè)電子商務(wù)網(wǎng)站上應(yīng)用的數(shù)據(jù)挖掘技術(shù)是Web數(shù)據(jù)挖掘。我們可以在一個(gè)電子商務(wù)網(wǎng)站挖掘些什么東西??jī)?nèi)容挖掘(WebContentMining)結(jié)構(gòu)挖掘(WebStructureMining)使用挖掘(WebUsageMining)對(duì)電子商務(wù)網(wǎng)站的Web數(shù)據(jù)挖掘通常在一個(gè)電子商務(wù)網(wǎng)站上應(yīng)用的9WebContentMining對(duì)Web頁(yè)面內(nèi)容進(jìn)行挖掘,從Web數(shù)據(jù)中發(fā)現(xiàn)信息。自動(dòng)地從數(shù)以百萬(wàn)計(jì)的Web站點(diǎn)和在線數(shù)據(jù)庫(kù)中搜索和獲取信息和資料;盡管人們可以直接從網(wǎng)上通過(guò)抓取建立索引,實(shí)現(xiàn)檢索服務(wù)來(lái)獲得資源,但是大量的“隱藏”信息只能通過(guò)內(nèi)容挖掘來(lái)自動(dòng)挖掘。WebContentMining對(duì)Web頁(yè)面內(nèi)容進(jìn)行挖掘10WebStructureMiningWebStructureMining是對(duì)Web頁(yè)面之間的結(jié)構(gòu)進(jìn)行挖掘。在整個(gè)Web空間,有用的知識(shí)不僅包含在頁(yè)面的內(nèi)容中,而且也包含在頁(yè)面的結(jié)構(gòu)中。Web結(jié)構(gòu)挖掘主要針對(duì)的就是頁(yè)面的超鏈接結(jié)構(gòu),如果有較多的超鏈接指向它,那么該頁(yè)面就是重要的,發(fā)現(xiàn)的這種知識(shí)可用來(lái)改進(jìn)搜索路徑等。WebStructureMiningWebStruct11WebUsageMining與WebContentMining和WebStructureMining不同的是,WebUsageMining的挖掘?qū)ο笫怯脩艉途W(wǎng)絡(luò)交互過(guò)程中抽取出來(lái)的二手?jǐn)?shù)據(jù),這些數(shù)據(jù)主要是用戶在訪問(wèn)Web時(shí)在Web日志里留下的信息,以及其它一些交互信息,日志信息包括訪問(wèn)日期、時(shí)間、用戶IP地址、服務(wù)器IP地址、方法、所請(qǐng)求URL資源、服務(wù)器響應(yīng)狀態(tài)、用戶代理、發(fā)送字節(jié)等。WebUsageMining就是對(duì)系統(tǒng)日志信息,以及用戶的注冊(cè)數(shù)據(jù)等進(jìn)行挖掘,以發(fā)現(xiàn)有用的模式和知識(shí)。WebUsageMining與WebContentM12WebUsageMining的作用通過(guò)對(duì)電子商務(wù)網(wǎng)站應(yīng)用WebUsageMining數(shù)據(jù)挖掘技術(shù),可以提高站點(diǎn)的質(zhì)量改善WEB緩存,緩解網(wǎng)絡(luò)交通,提高性能在電子商務(wù)中還可捕捉到大量的采購(gòu)過(guò)程的細(xì)節(jié),為更加深入的分析提供了可能WebUsageMining的作用通過(guò)對(duì)電子商務(wù)網(wǎng)站應(yīng)用13Web日志(1)典型的日志文件片斷--[01/Aug/1995:00:01:38-0400]"GET/shuttle/missions/sts-71/images/images.htmlHTTP/1.0"20085295--[01/Aug/1995:00:01:39-0400]"GET/shuttle/missions/sts-72/mission-sts-72.htmlHTTP/1.0"200380480--[01/Aug/1995:00:01:48-0400]"GET/persons/nasa-cm/jmd.htmlHTTP/1.0"2004067WEB日志通常包含7個(gè)字段:第一項(xiàng):遠(yuǎn)程主機(jī)的地址,即它表明訪問(wèn)網(wǎng)站的究竟是誰(shuí)。第二項(xiàng):瀏覽者的email地址或者其他唯一標(biāo)識(shí)符。到了今天,我們?cè)谌罩居涗浀牡诙?xiàng)看到email地址的機(jī)會(huì)已經(jīng)微乎其微,所以上面用-,標(biāo)志字段為空Web日志(1)典型的日志文件片斷WEB日志通常包含7個(gè)字14Web日志(2)典型的日志文件片斷--[01/Aug/1995:00:01:38-0400]"GET/shuttle/missions/sts-71/images/images.htmlHTTP/1.0"2008529第三項(xiàng):記錄瀏覽者進(jìn)行身份驗(yàn)證時(shí)提供的名字;對(duì)于不需要用戶身份驗(yàn)證的網(wǎng)站,這個(gè)字段都是空白-;第四項(xiàng):請(qǐng)求的時(shí)間;第五項(xiàng):告訴我們服務(wù)器收到的是一個(gè)什么樣的請(qǐng)求。該項(xiàng)信息的典型格式是“METHODRESOURCEPROTOCOL”,即“方法資源協(xié)議”;這是Web日志中最有用的信息,在上面的示例中METHOD是GETRESOURCE是指瀏覽者向服務(wù)器請(qǐng)求的文檔,或URLPROTOCOL通常是HTTP,后面再加上版本號(hào)。Web日志(2)典型的日志文件片斷第三項(xiàng):記錄瀏覽者進(jìn)行身15Web日志(3)典型的日志文件片斷--[01/Aug/1995:00:01:38-0400]"GET/shuttle/missions/sts-71/images/images.htmlHTTP/1.0"2008529第六項(xiàng):狀態(tài)代碼。它告訴我們請(qǐng)求是否成功,或者遇到了什么樣的錯(cuò)誤。大多數(shù)時(shí)候,這項(xiàng)值是200,它表示服務(wù)器已經(jīng)成功地響應(yīng)瀏覽器的請(qǐng)求,一切正常。第七項(xiàng):發(fā)送給客戶端的總字節(jié)數(shù)。Web日志(3)典型的日志文件片斷第六項(xiàng):狀態(tài)代碼。它告訴16WebUsageMining的基本過(guò)程進(jìn)行WebUsageMining主要是通過(guò)對(duì)系統(tǒng)日志信息的數(shù)據(jù)挖掘Web服務(wù)器日志ErrorLogsCookiesWebUsageMining的基本實(shí)現(xiàn)過(guò)程預(yù)處理模式發(fā)現(xiàn)模式分析WebUsageMining的基本過(guò)程進(jìn)行WebUsa17預(yù)處理通過(guò)預(yù)處理,使挖掘過(guò)程更有效、更容易數(shù)據(jù)清洗其目的在于把日志文件中一些與數(shù)據(jù)分析、挖掘無(wú)關(guān)的項(xiàng)清除掉;比如:剔除用戶請(qǐng)求方法中不是GET的記錄;用戶識(shí)別日志文件只是記錄了主機(jī)或代理服務(wù)器的IP地址,要識(shí)別用戶,需要Cookie技術(shù)和用一些啟發(fā)規(guī)則來(lái)幫助識(shí)別;路徑補(bǔ)充確認(rèn)Web日志中是否有重要的頁(yè)面訪問(wèn)記錄被遺漏;事件識(shí)別事件識(shí)別是與要挖掘什么樣的知識(shí)有關(guān),將用戶會(huì)話針對(duì)挖掘活動(dòng)的特定需要進(jìn)行事件定義。預(yù)處理通過(guò)預(yù)處理,使挖掘過(guò)程更有效、更容易18模式發(fā)現(xiàn)在經(jīng)過(guò)預(yù)處理后的數(shù)據(jù)上應(yīng)用各種數(shù)據(jù)挖掘的功能和算法,挖掘出有用的模式和規(guī)則的過(guò)程。WebUsageMining中用到的Web日志分析及用戶行為模式的挖掘方法包括:關(guān)聯(lián)分析分類和預(yù)測(cè)聚類分析序列模式統(tǒng)計(jì)分析模式發(fā)現(xiàn)在經(jīng)過(guò)預(yù)處理后的數(shù)據(jù)上應(yīng)用各種數(shù)據(jù)挖掘的功能和算法,19WebUsageMining——關(guān)聯(lián)分析(1)通過(guò)分析用戶訪問(wèn)網(wǎng)頁(yè)間的潛在聯(lián)系而歸納出的一種規(guī)則;如80%的用戶訪問(wèn)Web頁(yè)面/company/product1時(shí),也訪問(wèn)了/company/product2;常用算法Apriori算法或其變形算法,頻繁模式樹(shù)(FP-樹(shù))算法等等,挖掘出訪問(wèn)頁(yè)面中頻繁的在一起被訪問(wèn)的頁(yè)面集比如可以通過(guò)A=>B=>CA=>B=>DA=>BA=>B=>E=>FWebUsageMining——關(guān)聯(lián)分析(1)通過(guò)分析用20WebUsageMining——關(guān)聯(lián)分析(2)可以使用通過(guò)關(guān)聯(lián)分析挖掘出來(lái)的頻繁項(xiàng)集(頁(yè)面集)來(lái)預(yù)取可能請(qǐng)求的頁(yè)面,以減少等待時(shí)間,對(duì)于頻繁項(xiàng)集(頁(yè)面集){A,B},在用戶訪問(wèn)A時(shí),將頁(yè)面B調(diào)入緩存中,從而改善Web緩存,緩解網(wǎng)絡(luò)交通,提高性能促進(jìn)網(wǎng)上商務(wù)對(duì)于頻繁項(xiàng)集{A,B},如果分別代表兩個(gè)產(chǎn)品的頁(yè)面,則說(shuō)明這兩個(gè)產(chǎn)品間存在相關(guān)性,可以利用這點(diǎn)在電子商務(wù)的實(shí)踐中給出更有效的促銷策略或廣告策略WebUsageMining——關(guān)聯(lián)分析(2)可以使用通21WebUsageMining——分類和預(yù)測(cè)分類和預(yù)測(cè)功能可以用來(lái)提取描述重要數(shù)據(jù)類的模型,并使用模型預(yù)測(cè)來(lái)判定未知數(shù)據(jù)的類標(biāo)號(hào),從而預(yù)測(cè)未來(lái)的數(shù)據(jù)趨勢(shì)。常用算法:判定歸納樹(shù)、貝葉斯分類、k-最近鄰分類等應(yīng)用:可以根據(jù)用戶的個(gè)人資料或者其特定的訪問(wèn)模式,將其歸入某一特定的類可以根據(jù)用戶對(duì)某類產(chǎn)品的訪問(wèn)情況,或者時(shí)根據(jù)其購(gòu)物情況,或者根據(jù)其拋棄購(gòu)物車的情況,來(lái)決定用戶的分類(e.g.對(duì)電子產(chǎn)品感興趣的用戶),并對(duì)相應(yīng)的分類使用相應(yīng)的促銷策略。WebUsageMining——分類和預(yù)測(cè)分類和預(yù)測(cè)功能22WebUsageMining——聚類分析(1)聚類:將對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過(guò)程。(與分類的區(qū)別?)常用聚類算法:劃分方法、層次的方法、基于密度的方法等等。在WebUsageMining應(yīng)用中包含著兩種聚類。頁(yè)聚類將內(nèi)容相關(guān)的頁(yè)面歸在一個(gè)網(wǎng)頁(yè)組,對(duì)網(wǎng)上搜索引擎及提供上網(wǎng)幫助很有用用戶聚類將具有相似訪問(wèn)特性的用戶歸在一起,在電子商務(wù)的市場(chǎng)分割和為用戶提供個(gè)性化服務(wù)中,能發(fā)揮巨大作用WebUsageMining——聚類分析(1)聚類:將對(duì)23WebUsageMining——聚類分析(2)聚類分析可以喜好類似的用戶,從而動(dòng)態(tài)地為用戶定制觀看的內(nèi)容或提供瀏覽建議。比如:購(gòu)買推薦系統(tǒng)或動(dòng)態(tài)促銷系統(tǒng)作用:1)方便用戶查詢和瀏覽2)增強(qiáng)廣告的作用3)促進(jìn)網(wǎng)上銷售4)提高用戶忠誠(chéng)度WebUsageMining——聚類分析(2)聚類分析可24WebUsageMining——統(tǒng)計(jì)分析(1)

統(tǒng)計(jì)分析通過(guò)求出現(xiàn)率、求平均、求中值等,統(tǒng)計(jì)最常訪問(wèn)的網(wǎng)頁(yè),每頁(yè)平均訪問(wèn)的時(shí)間,瀏覽路徑的平均長(zhǎng)度等,以獲得用戶訪問(wèn)站點(diǎn)的基本信息。還能提供有限的低層次的錯(cuò)誤分析,比如檢測(cè)未授權(quán)入口點(diǎn),找出最常見(jiàn)不變的URL等。可以用來(lái)計(jì)算客戶對(duì)某頁(yè)面的訪問(wèn)次數(shù),停留時(shí)間等,得到訪問(wèn)次數(shù)最多的頁(yè)面(或產(chǎn)品、URL等)WebUsageMining——統(tǒng)計(jì)分析(1)統(tǒng)計(jì)分析25WebUsageMining——統(tǒng)計(jì)分析(1)常用的電子商務(wù)網(wǎng)站用戶訪問(wèn)數(shù)據(jù)統(tǒng)計(jì)(節(jié)選)平均一個(gè)用戶訪問(wèn)8-10個(gè)頁(yè)面在站點(diǎn)上花5分鐘每個(gè)頁(yè)面上花35秒平均一個(gè)購(gòu)物的用戶訪問(wèn)50個(gè)頁(yè)面在站點(diǎn)上花30分鐘這是經(jīng)過(guò)大量的數(shù)據(jù)統(tǒng)計(jì)得出的結(jié)果,具有高度一致性。WebUsageMining——統(tǒng)計(jì)分析(1)常用的電子26WebUsageMining——序列模式序列模式試圖找出頁(yè)面依照時(shí)間順序出現(xiàn)的內(nèi)在模式序列模式可以用來(lái)做用戶的瀏覽趨勢(shì)分析,即一組數(shù)據(jù)項(xiàng)之后出現(xiàn)另一組數(shù)據(jù)項(xiàng),從而形成一組按時(shí)間排序的會(huì)話,以預(yù)測(cè)未來(lái)的訪問(wèn)模式,這將有助于針對(duì)特別用戶群安排特定內(nèi)容。趨勢(shì)分析訪問(wèn)模式的相似性分析WebUsageMining——序列模式序列模式試圖找出27模式分析在挖掘出一系列用戶訪問(wèn)模式和規(guī)則后,還需要進(jìn)一步觀察發(fā)現(xiàn)的規(guī)則、模式和統(tǒng)計(jì)值。確定下一步怎么辦?是發(fā)布模型?還是對(duì)數(shù)據(jù)挖掘過(guò)程進(jìn)行進(jìn)一步的調(diào)整,產(chǎn)生新的模型。經(jīng)過(guò)模式分析得到有價(jià)值的模式,即我們感興趣的規(guī)則、模式,采用可視化技術(shù),以圖形界面的方式提供給使用者。模式分析在挖掘出一系列用戶訪問(wèn)模式和規(guī)則后,還需要進(jìn)一步觀察28課后思考除了用戶訪問(wèn)模式,電子商務(wù)中還能挖掘其他什么東西?基于Web日志的用戶訪問(wèn)模式挖掘有什么缺點(diǎn)?課后思考除了用戶訪問(wèn)模式,電子商務(wù)中還能挖掘其他什么東西?29電子商務(wù)與數(shù)據(jù)挖掘基于WEB日志的用戶訪問(wèn)模式挖掘電子商務(wù)與數(shù)據(jù)挖掘基于WEB日志的用戶訪問(wèn)模式挖掘30電子商務(wù)與數(shù)據(jù)挖掘——完美結(jié)合在電子商務(wù)中進(jìn)行成功的數(shù)據(jù)挖掘得益于:電子商務(wù)提供海量的數(shù)據(jù)如果一個(gè)電子商務(wù)網(wǎng)站平均每個(gè)小時(shí)賣出五件物品,那么它一個(gè)月的平均點(diǎn)擊量是160萬(wàn)次。豐富的記錄信息良好的WEB站點(diǎn)設(shè)計(jì)將有助于獲得豐富的信息干凈的數(shù)據(jù)從電子商務(wù)站點(diǎn)收集的都是電子數(shù)據(jù),無(wú)需人工輸入或者是從歷史系統(tǒng)進(jìn)行整合研究成果容易轉(zhuǎn)化在電子商務(wù)中,很多知識(shí)發(fā)現(xiàn)都可以進(jìn)行直接應(yīng)用投資收益容易衡量電子商務(wù)與數(shù)據(jù)挖掘——完美結(jié)合在電子商務(wù)中進(jìn)行成功的數(shù)據(jù)挖掘31電子商務(wù)為數(shù)據(jù)挖掘提供海量數(shù)據(jù)“點(diǎn)擊流”(Clickstreams)將會(huì)產(chǎn)生電子商務(wù)挖掘的大量數(shù)據(jù)Yahoo!在2000年每天被訪問(wèn)的頁(yè)面數(shù)是10億,如此大的訪問(wèn)量將會(huì)產(chǎn)生巨大的Web日志(記載頁(yè)面訪問(wèn)的情況),每個(gè)小時(shí)產(chǎn)生的Web日志量就達(dá)到10GB!即便是一個(gè)小的電子商務(wù)站點(diǎn),也會(huì)在斷時(shí)間內(nèi)產(chǎn)生進(jìn)行數(shù)據(jù)挖掘所需的大量數(shù)據(jù)計(jì)算一下,如果你的站點(diǎn)一個(gè)小時(shí)賣出5件物品,一個(gè)月會(huì)有多少頁(yè)面訪問(wèn):5件×24小時(shí)×30天/%2(轉(zhuǎn)化率,表示訪問(wèn)的人中買東西的人的比率)×9頁(yè)面(平均買一件物品要訪問(wèn)9個(gè)頁(yè)面)=1,600,000頁(yè)面電子商務(wù)為數(shù)據(jù)挖掘提供海量數(shù)據(jù)“點(diǎn)擊流”(Clickstre32豐富的記錄信息如果你的電子商務(wù)站點(diǎn)設(shè)計(jì)的好,你將可以獲得各種商務(wù)的或者是用戶訪問(wèn)的信息:商品和商品的屬性商品的歸類信息(當(dāng)同時(shí)展示多種商品是,歸類信息是非常有用的)促銷信息關(guān)于訪問(wèn)的信息(比如:訪問(wèn)計(jì)數(shù))關(guān)于客戶額信息(可以通過(guò)登陸/注冊(cè)來(lái)獲得)豐富的記錄信息如果你的電子商務(wù)站點(diǎn)設(shè)計(jì)的好,你將可以獲得各種33“干凈的數(shù)據(jù)”信息直接從網(wǎng)站上提取無(wú)需從歷史系統(tǒng)中集成,避免很多錯(cuò)誤可以通過(guò)良好的站點(diǎn)設(shè)計(jì),直接獲得跟數(shù)據(jù)挖掘有關(guān)的數(shù)據(jù)而不是再來(lái)分析、計(jì)算、預(yù)處理要用的數(shù)據(jù)直接收集的電子數(shù)據(jù)——可靠無(wú)需人工數(shù)據(jù)輸入,避免了很多錯(cuò)誤可以通過(guò)良好的站點(diǎn)設(shè)計(jì),良好的控制數(shù)據(jù)采樣的顆粒度顆粒度控制在客戶級(jí)別或者是session級(jí)別,而不是頁(yè)面級(jí)別“干凈的數(shù)據(jù)”信息直接從網(wǎng)站上提取34有趣的“生日現(xiàn)象”一個(gè)銀行通過(guò)對(duì)客戶數(shù)據(jù)統(tǒng)計(jì)發(fā)現(xiàn),它的5%的客戶都是在同一天出生的(同年同月同日)!為什么?如何解釋?有趣的“生日現(xiàn)象”一個(gè)銀行通過(guò)對(duì)客戶數(shù)據(jù)統(tǒng)計(jì)發(fā)現(xiàn),它的5%的35研究成果容易轉(zhuǎn)化歷史上的數(shù)據(jù)挖掘研究有過(guò)許多的知識(shí)發(fā)現(xiàn),但是這些知識(shí)發(fā)現(xiàn)卻很少在實(shí)際的商業(yè)應(yīng)用中產(chǎn)生什么效果要應(yīng)用這些發(fā)現(xiàn)的知識(shí)可能意味著要進(jìn)行復(fù)雜的系統(tǒng)更改、流程更改或是改變?nèi)藗兊霓k事習(xí)慣,這在現(xiàn)實(shí)中是非常困難的。在電子商務(wù)中,很多知識(shí)發(fā)現(xiàn)都可以進(jìn)行直接應(yīng)用改變站點(diǎn)的設(shè)計(jì)(改變布局,進(jìn)行個(gè)性化設(shè)計(jì)等)開(kāi)始有目標(biāo)的促銷根據(jù)對(duì)廣告效果的統(tǒng)計(jì)數(shù)據(jù)改變廣告策略可以很容易的提供捆綁銷售研究成果容易轉(zhuǎn)化歷史上的數(shù)據(jù)挖掘研究有過(guò)許多的知識(shí)發(fā)現(xiàn),但是36投資收益容易衡量使用數(shù)據(jù)挖掘成果的革新帶來(lái)的收益如何衡量?在傳統(tǒng)的商業(yè)中衡量投資收益需要長(zhǎng)期的測(cè)量和觀察,PacoUnderhill在《購(gòu)物的科學(xué)》一書中提及,一個(gè)超市為了衡量他們的促銷策略帶來(lái)的投資收益,每年要花14,000個(gè)小時(shí)查看錄像帶。在電子商務(wù)中,衡量革新的投資收益是非常容易的銷售變化的報(bào)表可以自動(dòng)產(chǎn)生客戶對(duì)電子郵件和電子調(diào)查的反饋都可以在幾天內(nèi)得到,而不必等個(gè)幾個(gè)月電子商務(wù)乃至整個(gè)互聯(lián)網(wǎng)都是傳統(tǒng)商業(yè)的理想試驗(yàn)室。投資收益容易衡量使用數(shù)據(jù)挖掘成果的革新帶來(lái)的收益如何衡量?37對(duì)電子商務(wù)網(wǎng)站的Web數(shù)據(jù)挖掘通常在一個(gè)電子商務(wù)網(wǎng)站上應(yīng)用的數(shù)據(jù)挖掘技術(shù)是Web數(shù)據(jù)挖掘。我們可以在一個(gè)電子商務(wù)網(wǎng)站挖掘些什么東西??jī)?nèi)容挖掘(WebContentMining)結(jié)構(gòu)挖掘(WebStructureMining)使用挖掘(WebUsageMining)對(duì)電子商務(wù)網(wǎng)站的Web數(shù)據(jù)挖掘通常在一個(gè)電子商務(wù)網(wǎng)站上應(yīng)用的38WebContentMining對(duì)Web頁(yè)面內(nèi)容進(jìn)行挖掘,從Web數(shù)據(jù)中發(fā)現(xiàn)信息。自動(dòng)地從數(shù)以百萬(wàn)計(jì)的Web站點(diǎn)和在線數(shù)據(jù)庫(kù)中搜索和獲取信息和資料;盡管人們可以直接從網(wǎng)上通過(guò)抓取建立索引,實(shí)現(xiàn)檢索服務(wù)來(lái)獲得資源,但是大量的“隱藏”信息只能通過(guò)內(nèi)容挖掘來(lái)自動(dòng)挖掘。WebContentMining對(duì)Web頁(yè)面內(nèi)容進(jìn)行挖掘39WebStructureMiningWebStructureMining是對(duì)Web頁(yè)面之間的結(jié)構(gòu)進(jìn)行挖掘。在整個(gè)Web空間,有用的知識(shí)不僅包含在頁(yè)面的內(nèi)容中,而且也包含在頁(yè)面的結(jié)構(gòu)中。Web結(jié)構(gòu)挖掘主要針對(duì)的就是頁(yè)面的超鏈接結(jié)構(gòu),如果有較多的超鏈接指向它,那么該頁(yè)面就是重要的,發(fā)現(xiàn)的這種知識(shí)可用來(lái)改進(jìn)搜索路徑等。WebStructureMiningWebStruct40WebUsageMining與WebContentMining和WebStructureMining不同的是,WebUsageMining的挖掘?qū)ο笫怯脩艉途W(wǎng)絡(luò)交互過(guò)程中抽取出來(lái)的二手?jǐn)?shù)據(jù),這些數(shù)據(jù)主要是用戶在訪問(wèn)Web時(shí)在Web日志里留下的信息,以及其它一些交互信息,日志信息包括訪問(wèn)日期、時(shí)間、用戶IP地址、服務(wù)器IP地址、方法、所請(qǐng)求URL資源、服務(wù)器響應(yīng)狀態(tài)、用戶代理、發(fā)送字節(jié)等。WebUsageMining就是對(duì)系統(tǒng)日志信息,以及用戶的注冊(cè)數(shù)據(jù)等進(jìn)行挖掘,以發(fā)現(xiàn)有用的模式和知識(shí)。WebUsageMining與WebContentM41WebUsageMining的作用通過(guò)對(duì)電子商務(wù)網(wǎng)站應(yīng)用WebUsageMining數(shù)據(jù)挖掘技術(shù),可以提高站點(diǎn)的質(zhì)量改善WEB緩存,緩解網(wǎng)絡(luò)交通,提高性能在電子商務(wù)中還可捕捉到大量的采購(gòu)過(guò)程的細(xì)節(jié),為更加深入的分析提供了可能WebUsageMining的作用通過(guò)對(duì)電子商務(wù)網(wǎng)站應(yīng)用42Web日志(1)典型的日志文件片斷--[01/Aug/1995:00:01:38-0400]"GET/shuttle/missions/sts-71/images/images.htmlHTTP/1.0"20085295--[01/Aug/1995:00:01:39-0400]"GET/shuttle/missions/sts-72/mission-sts-72.htmlHTTP/1.0"200380480--[01/Aug/1995:00:01:48-0400]"GET/persons/nasa-cm/jmd.htmlHTTP/1.0"2004067WEB日志通常包含7個(gè)字段:第一項(xiàng):遠(yuǎn)程主機(jī)的地址,即它表明訪問(wèn)網(wǎng)站的究竟是誰(shuí)。第二項(xiàng):瀏覽者的email地址或者其他唯一標(biāo)識(shí)符。到了今天,我們?cè)谌罩居涗浀牡诙?xiàng)看到email地址的機(jī)會(huì)已經(jīng)微乎其微,所以上面用-,標(biāo)志字段為空Web日志(1)典型的日志文件片斷WEB日志通常包含7個(gè)字43Web日志(2)典型的日志文件片斷--[01/Aug/1995:00:01:38-0400]"GET/shuttle/missions/sts-71/images/images.htmlHTTP/1.0"2008529第三項(xiàng):記錄瀏覽者進(jìn)行身份驗(yàn)證時(shí)提供的名字;對(duì)于不需要用戶身份驗(yàn)證的網(wǎng)站,這個(gè)字段都是空白-;第四項(xiàng):請(qǐng)求的時(shí)間;第五項(xiàng):告訴我們服務(wù)器收到的是一個(gè)什么樣的請(qǐng)求。該項(xiàng)信息的典型格式是“METHODRESOURCEPROTOCOL”,即“方法資源協(xié)議”;這是Web日志中最有用的信息,在上面的示例中METHOD是GETRESOURCE是指瀏覽者向服務(wù)器請(qǐng)求的文檔,或URLPROTOCOL通常是HTTP,后面再加上版本號(hào)。Web日志(2)典型的日志文件片斷第三項(xiàng):記錄瀏覽者進(jìn)行身44Web日志(3)典型的日志文件片斷--[01/Aug/1995:00:01:38-0400]"GET/shuttle/missions/sts-71/images/images.htmlHTTP/1.0"2008529第六項(xiàng):狀態(tài)代碼。它告訴我們請(qǐng)求是否成功,或者遇到了什么樣的錯(cuò)誤。大多數(shù)時(shí)候,這項(xiàng)值是200,它表示服務(wù)器已經(jīng)成功地響應(yīng)瀏覽器的請(qǐng)求,一切正常。第七項(xiàng):發(fā)送給客戶端的總字節(jié)數(shù)。Web日志(3)典型的日志文件片斷第六項(xiàng):狀態(tài)代碼。它告訴45WebUsageMining的基本過(guò)程進(jìn)行WebUsageMining主要是通過(guò)對(duì)系統(tǒng)日志信息的數(shù)據(jù)挖掘Web服務(wù)器日志ErrorLogsCookiesWebUsageMining的基本實(shí)現(xiàn)過(guò)程預(yù)處理模式發(fā)現(xiàn)模式分析WebUsageMining的基本過(guò)程進(jìn)行WebUsa46預(yù)處理通過(guò)預(yù)處理,使挖掘過(guò)程更有效、更容易數(shù)據(jù)清洗其目的在于把日志文件中一些與數(shù)據(jù)分析、挖掘無(wú)關(guān)的項(xiàng)清除掉;比如:剔除用戶請(qǐng)求方法中不是GET的記錄;用戶識(shí)別日志文件只是記錄了主機(jī)或代理服務(wù)器的IP地址,要識(shí)別用戶,需要Cookie技術(shù)和用一些啟發(fā)規(guī)則來(lái)幫助識(shí)別;路徑補(bǔ)充確認(rèn)Web日志中是否有重要的頁(yè)面訪問(wèn)記錄被遺漏;事件識(shí)別事件識(shí)別是與要挖掘什么樣的知識(shí)有關(guān),將用戶會(huì)話針對(duì)挖掘活動(dòng)的特定需要進(jìn)行事件定義。預(yù)處理通過(guò)預(yù)處理,使挖掘過(guò)程更有效、更容易47模式發(fā)現(xiàn)在經(jīng)過(guò)預(yù)處理后的數(shù)據(jù)上應(yīng)用各種數(shù)據(jù)挖掘的功能和算法,挖掘出有用的模式和規(guī)則的過(guò)程。WebUsageMining中用到的Web日志分析及用戶行為模式的挖掘方法包括:關(guān)聯(lián)分析分類和預(yù)測(cè)聚類分析序列模式統(tǒng)計(jì)分析模式發(fā)現(xiàn)在經(jīng)過(guò)預(yù)處理后的數(shù)據(jù)上應(yīng)用各種數(shù)據(jù)挖掘的功能和算法,48WebUsageMining——關(guān)聯(lián)分析(1)通過(guò)分析用戶訪問(wèn)網(wǎng)頁(yè)間的潛在聯(lián)系而歸納出的一種規(guī)則;如80%的用戶訪問(wèn)Web頁(yè)面/company/product1時(shí),也訪問(wèn)了/company/product2;常用算法Apriori算法或其變形算法,頻繁模式樹(shù)(FP-樹(shù))算法等等,挖掘出訪問(wèn)頁(yè)面中頻繁的在一起被訪問(wèn)的頁(yè)面集比如可以通過(guò)A=>B=>CA=>B=>DA=>BA=>B=>E=>FWebUsageMining——關(guān)聯(lián)分析(1)通過(guò)分析用49WebUsageMining——關(guān)聯(lián)分析(2)可以使用通過(guò)關(guān)聯(lián)分析挖掘出來(lái)的頻繁項(xiàng)集(頁(yè)面集)來(lái)預(yù)取可能請(qǐng)求的頁(yè)面,以減少等待時(shí)間,對(duì)于頻繁項(xiàng)集(頁(yè)面集){A,B},在用戶訪問(wèn)A時(shí),將頁(yè)面B調(diào)入緩存中,從而改善Web緩存,緩解網(wǎng)絡(luò)交通,提高性能促進(jìn)網(wǎng)上商務(wù)對(duì)于頻繁項(xiàng)集{A,B},如果分別代表兩個(gè)產(chǎn)品的頁(yè)面,則說(shuō)明這兩個(gè)產(chǎn)品間存在相關(guān)性,可以利用這點(diǎn)在電子商務(wù)的實(shí)踐中給出更有效的促銷策略或廣告策略WebUsageMining——關(guān)聯(lián)分析(2)可以使用通50WebUsageMining——分類和預(yù)測(cè)分類和預(yù)測(cè)功能可以用來(lái)提取描述重要數(shù)據(jù)類的模型,并使用模型預(yù)測(cè)來(lái)判定未知數(shù)據(jù)的類標(biāo)號(hào),從而預(yù)測(cè)未來(lái)的數(shù)據(jù)趨勢(shì)。常用算法:判定歸納樹(shù)、貝葉斯分類、k-最近鄰分類等應(yīng)用:可以根據(jù)用戶的個(gè)人資料或者其特定的訪問(wèn)模式,將其歸入某一特定的類可以根據(jù)用戶對(duì)某類產(chǎn)品的訪問(wèn)情況,或者時(shí)根據(jù)其購(gòu)物情況,或者根據(jù)其拋棄購(gòu)物車的情況,來(lái)決定用戶的分類(e.g.對(duì)電子產(chǎn)品感興趣的用戶),并對(duì)相應(yīng)的分類使用相應(yīng)的促銷策略。WebUsageMining——分類和預(yù)測(cè)分類和預(yù)測(cè)功能51Web

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論