:案例:電子商務數(shù)據(jù)挖掘改_第1頁
:案例:電子商務數(shù)據(jù)挖掘改_第2頁
:案例:電子商務數(shù)據(jù)挖掘改_第3頁
:案例:電子商務數(shù)據(jù)挖掘改_第4頁
:案例:電子商務數(shù)據(jù)挖掘改_第5頁
已閱讀5頁,還剩95頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)挖掘技術與應用第九章電子商務與數(shù)據(jù)挖掘

------基于WEB日志的用戶訪問模式挖掘聯(lián)系電話Q:26653926E-mail:treeroot126@126.com案例:電子商務網(wǎng)站公共頁面該放哪些內容最可能產(chǎn)生購買行為?圣地亞哥的P通過采用HitBox,即WebSideStory的數(shù)據(jù)挖掘ASP服務,使企業(yè)的計劃者在業(yè)務高峰日也能夠對銷售情況做出迅速反應。由于鮮花極易枯萎,Proflowers不得不均勻地削減庫存,否則可能導致一種商品過快地售罄或庫存鮮花的凋謝。由于日交易量較高,管理人員需要對零售情況進行分析,比如轉換率,也就是多少頁面瀏覽量將導致銷售產(chǎn)生。舉例來說,如果100人中僅有5人看到玫瑰時就會購買,而盆景的轉換率則為100比20,那么不是頁面設計有問題,就是玫瑰的價格有問題。公司能夠迅速對網(wǎng)站進行調整,比如在每個頁面上都展示玫瑰或降低玫瑰的價格。對于可能過快售罄的商品,公司通常不得不在網(wǎng)頁中弱化該商品或取消優(yōu)惠價格,從而設法減緩該商品的銷售。采用HitBox的優(yōu)勢在于借助便于閱讀的顯示器來展現(xiàn)銷售數(shù)據(jù)和轉換率。Proflowers營銷副總裁Chrisd'Eon說:"自己分析數(shù)據(jù)是浪費時間。我們需要一種瀏覽數(shù)據(jù)的方式,能夠讓我們即刻采取行動。"第九章:電子商務與數(shù)據(jù)挖掘——基于WEB日志的用戶訪問模式挖掘9.1電子商務與數(shù)據(jù)挖掘9.2數(shù)據(jù)預處理9.3模式挖掘9.1電子商務與數(shù)據(jù)挖掘在電子商務中進行成功的數(shù)據(jù)挖掘得益于:電子商務提供海量的數(shù)據(jù)豐富的記錄信息干凈的數(shù)據(jù)研究成果容易轉化投資收益容易衡量一、電子商務為數(shù)據(jù)挖掘提供海量數(shù)據(jù)“點擊流”(Clickstreams)將會產(chǎn)生電子商務挖掘的大量數(shù)據(jù)Yahoo!在2000年每天被訪問的頁面數(shù)是10億,如此大的訪問量將會產(chǎn)生巨大的Web日志(記載頁面訪問的情況),每個小時產(chǎn)生的Web日志量就達到10GB!一、電子商務為數(shù)據(jù)挖掘提供海量數(shù)據(jù)即便是一個小的電子商務站點,也會在短時間內產(chǎn)生進行數(shù)據(jù)挖掘所需的大量數(shù)據(jù)計算一下,如果你的站點一個小時賣出5件物品,一個月會有多少頁面訪問:5件×24小時×30天/%2(轉化率,表示訪問的人中買東西的人的比率)×9頁面(平均買一件物品要訪問9個頁面)=1,600,000頁面二、豐富的記錄信息如果你的電子商務站點設計的好,你將可以獲得各種商務的或者是用戶訪問的信息:商品和商品的屬性商品的歸類信息(當同時展示多種商品時,歸類信息是非常有用的)促銷信息關于訪問的信息(比如:訪問計數(shù))關于客戶額信息(可以通過登陸/注冊來獲得)三、“干凈的數(shù)據(jù)”信息直接從網(wǎng)站上提取無需從歷史系統(tǒng)中集成,避免很多錯誤可以通過良好的站點設計,直接獲得跟數(shù)據(jù)挖掘有關的數(shù)據(jù)而不是再來分析、計算、預處理要用的數(shù)據(jù)直接收集的電子數(shù)據(jù)——可靠無需人工數(shù)據(jù)輸入,避免了很多錯誤可以通過良好的站點設計,良好的控制數(shù)據(jù)采樣的顆粒度顆粒度控制在客戶級別或者是session級別,而不是頁面級別四、研究成果容易轉化歷史上的數(shù)據(jù)挖掘研究有過許多的知識發(fā)現(xiàn),但是這些知識發(fā)現(xiàn)卻很少在實際的商業(yè)應用中產(chǎn)生什么效果要應用這些發(fā)現(xiàn)的知識可能意味著要進行復雜的系統(tǒng)更改、流程更改或是改變人們的辦事習慣,這在現(xiàn)實中是非常困難的。在電子商務中,很多知識發(fā)現(xiàn)都可以進行直接應用改變站點的設計(改變布局,進行個性化設計等)開始有目標的促銷根據(jù)對廣告效果的統(tǒng)計數(shù)據(jù)改變廣告策略可以很容易的提供捆綁銷售五、投資收益容易衡量使用數(shù)據(jù)挖掘成果的革新帶來的收益如何衡量?在傳統(tǒng)的商業(yè)中衡量投資收益需要長期的測量和觀察,PacoUnderhill在《購物的科學》一書中提及,一個超市為了衡量他們的促銷策略帶來的投資收益,每年要花14,000個小時查看錄像帶。在電子商務中,衡量革新的投資收益是非常容易的銷售變化的報表可以自動產(chǎn)生客戶對電子郵件和電子調查的反饋都可以在幾天內得到,而不必等個幾個月電子商務乃至整個互聯(lián)網(wǎng)都是傳統(tǒng)商業(yè)的理想試驗室。9.1.2基于電子商務網(wǎng)站的數(shù)據(jù)挖掘通常在一個電子商務網(wǎng)站上應用的數(shù)據(jù)挖掘技術是Web數(shù)據(jù)挖掘??梢栽谝粋€電子商務網(wǎng)站挖掘些什么東西?內容挖掘(WebContentMining)結構挖掘(WebStructureMining)使用挖掘(WebUsageMining)一、WebContentMining對Web頁面內容進行挖掘,從Web數(shù)據(jù)中發(fā)現(xiàn)信息。自動地從數(shù)以百萬計的Web站點和在線數(shù)據(jù)庫中搜索和獲取信息和資料;盡管人們可以直接從網(wǎng)上通過抓取建立索引,實現(xiàn)檢索服務來獲得資源,但是大量的“隱藏”信息只能通過內容挖掘來自動挖掘。二、WebStructureMiningWebStructureMining是對Web頁面之間的結構進行挖掘。在整個Web空間,有用的知識不僅包含在頁面的內容中,而且也包含在頁面的結構中。Web結構挖掘主要針對的就是頁面的超鏈接結構,如果有較多的超鏈接指向它,那么該頁面就是重要的,發(fā)現(xiàn)的這種知識可用來改進搜索路徑等。三、WebUsageMining與WebContentMining和WebStructureMining不同的是,WebUsageMining的挖掘對象是用戶和網(wǎng)絡交互過程中抽取出來的二手數(shù)據(jù),這些數(shù)據(jù)主要是用戶在訪問Web時在Web日志里留下的信息,以及其它一些交互信息,web日志日志信息包括訪問日期、時間、用戶IP地址、服務器IP地址、方法、所請求URL資源、服務器響應狀態(tài)、用戶代理、發(fā)送字節(jié)等。WebUsageMining就是對系統(tǒng)日志信息,以及用戶的注冊數(shù)據(jù)等進行挖掘,以發(fā)現(xiàn)有用的模式和知識。WebUsageMining的作用通過對電子商務網(wǎng)站應用WebUsageMining數(shù)據(jù)挖掘技術,可以提高站點的質量改善WEB緩存,緩解網(wǎng)絡交通,提高性能在電子商務中還可捕捉到大量的采購過程的細節(jié),為更加深入的分析提供了可能進行WebUsageMining主要是通過對系統(tǒng)日志信息的數(shù)據(jù)挖掘Web服務器日志ErrorLogsCookiesWebUsageMining的基本實現(xiàn)過程預處理模式發(fā)現(xiàn)模式分析WEB日志挖掘過程Web用戶訪問日志主要來源于Web服務器、Web代理服務器和客戶端。這3處日志數(shù)據(jù)集記錄了用戶使用網(wǎng)絡資源的不同模式。Web服務器端日志數(shù)據(jù)記錄了多個Web用戶對單個站點的訪問行為;Web代理服務器日志數(shù)據(jù)記錄了多個Web用戶向多個Web服務器的請求;客戶端日志數(shù)據(jù)記錄了單個用戶訪問多個Web服務器的模式。Web用戶訪問日志分布及特點:9.1.3Web日志其中前兩者數(shù)據(jù)的收集是由服務器自動記錄的,而客戶端日志數(shù)據(jù)則需要專門的程序收集,如客戶端的代理軟件或者使用修改過的瀏覽器。相對而言,服務器端日志格式標準化程度最高。常用的是Web服務器端日志W(wǎng)3C組織規(guī)定了服務器日志的兩種格式:

通用日志格式和擴展型日志格式。重慶大學主頁重慶大學Web服務器上記錄的一條完整的日志項。202.202.3.4———[06/12/2004:17:51:33+0800]

“GET/images/index_bg_15.gifHTTP/1.1”3040“http://www.cqu.edu.cn/”“Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.0)”。第1部分包含有關訪問服務器主機的信息,從第1條記錄可知,發(fā)出請求的主機的IP地址為202.202.3.4。第2部分指明了訪問的日期和時間。這次訪問發(fā)生在2004年12月6日17:51:33,+0800說明重大的Web服務器位于第8時區(qū)。第3部分是該主機發(fā)出的請求瀏覽網(wǎng)頁的指令內容,包括請求方式、請求的頁面(URL)和采用的協(xié)議,指出服務器收到的是一個什么樣的請求。該項信息的典型格式是“METHODRESOURCEPROTOCOL”,在上面的示例中:“GET/images/index_bg_15.gifHTTP/1.1”METHOD請求方式一般有3種,即GET、POST和HEAD。

GET指從Web服務器請求了一個對象;POST表示向服務器發(fā)送信息;HEAD指只取一個對象的頭。

RESOURCE是指瀏覽者向服務器請求的文檔,或URLPROTOCOL通常是HTTP,后面再加上版本號。這條記錄顯示訪問的類型是“GET”行為,被訪問的內容是位于/images/目錄下的一個圖片文件index_bg_15.gif,所用的協(xié)議是HTTP/1.1

第4部分為服務器執(zhí)行該請求的結果狀態(tài)信息和請求網(wǎng)頁的字節(jié)數(shù)。200表示請求成功,304表示網(wǎng)頁內容沒有改變,404是最常見的錯誤信息,它表示請求的文件沒有找到。第5部分為用戶訪問網(wǎng)站的主頁URL地址。記錄顯示的都是http://www.cqu.edu.cn/。第6部分為用戶使用的瀏覽器以及操作系統(tǒng)的版本。該記錄顯示,使用的瀏覽器是Mozilla/4.0,操作系統(tǒng)版本為WindowsNT5.0。3040“http://www.cqu.edu.cn/”“Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.0)”。主機名

Time

Request,e.g.,一個網(wǎng)頁的URL

Referrer

Useragent(瀏覽器及版本號)

IP地址

Cookie

字節(jié)數(shù)

狀態(tài)位

等等...

擴展日志格式(ECLF):附:Web日志其它一些實例--[01/Aug/1995:00:01:38-0400]"GET/shuttle/missions/sts-71/images/images.htmlHTTP/1.0"20085295--[01/Aug/1995:00:01:39-0400]"GET/shuttle/missions/sts-72/mission-sts-72.htmlHTTP/1.0"200380480--[01/Aug/1995:00:01:48-0400]"GET/persons/nasa-cm/jmd.htmlHTTP/1.0"20040679.2數(shù)據(jù)預處理

通過預處理,使挖掘過程更有效、更容易數(shù)據(jù)凈化:其目的在于把日志文件中一些與數(shù)據(jù)分析、挖掘無關的項清除掉;比如剔除用戶請求方法中不是GET的記錄;用戶識別:日志文件只是記錄了主機或代理服務器的IP地址,要識別用戶,需要Cookie技術和用一些啟發(fā)規(guī)則來幫助識別;路徑補充:確認Web日志中是否有重要的頁面訪問記錄被遺漏;事件識別:事件識別是與要挖掘什么樣的知識有關,將用戶會話針對挖掘活動的特定需要進行事件定義。數(shù)據(jù)預處理的功能數(shù)據(jù)凈化是指刪除Web服務器日志中與挖掘算法無關的數(shù)據(jù),一般來說只有日志中HTML文件與用戶會話相關。Web日志文件的目的是獲得用戶的行為模式,通過檢查URL的后綴,刪除認為不相關的數(shù)據(jù)。例如:將日志中文件的后綴名為GIF、JPEG、JPG等的圖形文件刪除。將后綴名為CGI的腳本文件刪除。具體到實際的系統(tǒng)就使用一個缺省的后綴名列表幫助刪除文件。列表可以根據(jù)正在分析的站點類型進行修改。過濾非法請求的頁面:有些網(wǎng)站的頁面用戶在提出請求,Web服務器拒絕該頁面的請求,那么應該過濾掉非法請求的頁面,僅僅只對正常的頁面進行數(shù)據(jù)處理是很有價值的。一、數(shù)據(jù)凈化對于數(shù)據(jù)凈化之后的數(shù)據(jù),使用基于日志/站點的方法,同時輔助一些啟發(fā)式規(guī)則,可以識別出每個訪問網(wǎng)站的用戶,該過程稱為用戶識別。在跨越時間區(qū)段較大的Web服務器日志中,用戶有可能多次訪問了該站點。會話識別的目的就是將用戶的訪問記錄分為單個的會話(Session)。用戶會話S是一個二元組(userid,RS〉,其中userid是用戶標識,RS是用戶在一段時間內請求的Web頁面的集合,包含用戶請求的頁面的標識符Pid和請求時間。所以用戶會話S

可以表示為下式所示的元組。S=〈userid,{(Pid1,time1),……,(Pidk,timek)}〉(1)二、用戶識別與會話識別由于本地緩存和代理服務器緩存的存在,使得服務器的日志會遺漏一些重要的頁面請求。路徑補充的任務就是利用引用日志或站點的拓撲結構將這些遺漏的請求補充到用戶會話中。經(jīng)過路徑補充后S變?yōu)楸磉_式(2)。S=<userid,{(Pid1,time1),?,(Pidi,timei),(Pidu,timeu),(Pidi+1,timei

+1),?,(Pidk,timek)}>其中:Pidu∈{Pid1,Pid2,?Pidi}hyperlink(Pidu,Pidi+1)∈Topo∧hyperlink(Pidj,Pidi+1)∈Topo,a<j≤Itimei<=timeu<=timei

+1

三、路徑補充

其中(Pidu,timeu)是添加的頁面請求,topo是Web站點的拓撲結構,hyperlink(a,b)∈Topo表示頁面a中有指向頁面b的超鏈接,

請求時間timeu設備為前后兩次請求時間的平均值。用戶會話是Web日志挖掘中唯一具備自然事務特征的元素。但對于某些挖掘算法來說可能它的粒度太粗,為此需要利用分割算法將其轉化為更小的事務,即進行事務識別?!磆tml〉

〈framesetcols=“3,60%,3”〉〈framename=“B”src=“B.html”〉

〈framesetrows=“45,3”〉

〈framename=“c”src=“C.html”〉

〈framename=“d”src=“D.html”〉

〈/frameset〉

〈/framename=“E”,src=“E.html”〉

〈/frameset〉

〈/html〉A.Html〈html〉

〈framesetrows=“100,3”〉

〈framename=“F”src=“F.html”〉

〈framename=“G”src=“G.html”〉

〈/frameset〉

〈/html〉D.html四、事務(FRAME)識別與子頁刪除HTML規(guī)范通過“Frame”標記支持多窗口頁面,每個窗口里裝載的頁面對應一個URL。多窗口頁面中Frame頁面是定義多窗口頁面的大小、位置及內容的頁面,Subframe頁面是多窗口頁面中被Frame頁面包含的子窗口所對應的頁面。圖2是使用“Frame”標記定義多窗口頁面的兩個html文件。A.html的第一個frameset標記將頁面分為左,中,右三個部分,中間半部分寬度為整個寬度的60%,又通過frameset標記分為上下兩個部分,上半部分高度為45象素,顯示C.html頁面,下半部發(fā)顯示D.html頁面;左、右兩部分均分其余的40%,分別顯示B.html頁面和E.html。D.html也是一個多窗口頁,其上下兩部分分別顯示F.html和G.html。

當用戶訪問的URL對應的是一個Frame頁面時,瀏覽器通過解釋執(zhí)行頁面源程序,會自動向Web服務器請求該Frame頁面中包含的所有Subframe頁面,這一個過程可以重復進行,直到所有的Subframe頁面被請求。在這樣的用戶會話文件上進行數(shù)據(jù)挖掘,Frame頁面和Subframe頁面作為頻繁遍歷路徑或者頻繁訪問頁組出現(xiàn)的概率很高,這就降低了挖掘結果的價值和意義。Web日志挖掘的目的是發(fā)現(xiàn)未知的用戶行為模式,而Frame頁面和Subframe頁面的對應關系是已知事實,為此應當消除Frame頁面對挖掘算法的影響,發(fā)現(xiàn)用戶真正感興趣的挖掘結果。經(jīng)過Frame頁面過濾后包含在Subframe頁面中的超鏈接信息隨之丟失,原有的站點結構已經(jīng)不能為路徑補充提供正確的信息,為此我們將Subframe頁面中的超鏈接信息添加到相應的Frame頁面中,這個過程叫做站點提升。已知站點拓撲結構Topo和FS+,提升后的站點結構Topo↑為:Topo↑∷={(a,b)|(a,b)∈FS+∧(vs)(((a,s)∈FS+∧(s,b)∈Topo)∨((b,s)∈FS+∧(s,a)∈Topo))}∪Topo利用提升站點結構的算法進行站點提升得到Topo↑,利用已有的路徑補充算法就可以將用戶會話中遺漏的頁面請求補充完整。Web站點結構提升9.3WEB日志挖掘:模式發(fā)現(xiàn)在經(jīng)過預處理后的數(shù)據(jù)上應用各種數(shù)據(jù)挖掘的功能和算法,挖掘出有用的模式和規(guī)則的過程。WebUsageMining中用到的Web日志分析及用戶行為模式的挖掘方法包括:關聯(lián)分析分類和預測聚類分析序列模式統(tǒng)計分析一、Web日志挖掘—關聯(lián)分析通過分析用戶訪問網(wǎng)頁間的潛在聯(lián)系而歸納出的一種規(guī)則;如80%的用戶訪問Web頁面/company/product1時,也訪問了/company/product2;預取可能請求的頁面,以減少等待時間對于頻繁項集(頁面集){A,B},在用戶訪問A時,將頁面B調入緩存中,從而改善Web緩存,緩解網(wǎng)絡交通,提高性能促進網(wǎng)上商務。

對于頻繁項集{A,B},如果分別代表兩個產(chǎn)品的頁面,則說明這兩個產(chǎn)品間存在相關性,可以利用這點在電子商務的實踐中給出更有效的促銷策略或廣告策略A=>BA=>B=>CA=>B=>DA=>B=>E=>F常用算法

Apriori算法或其變形算法,頻繁模式樹(FP-樹)算法等等,挖掘出訪問頁面中頻繁的在一起被訪問的頁面集。比如可以通過:二、Web日志挖掘—分類和預測分類和預測功能可以用來提取描述重要數(shù)據(jù)類的模型,并使用模型預測來判定未知數(shù)據(jù)的類標號,從而預測未來的數(shù)據(jù)趨勢。常用算法:判定歸納樹、貝葉斯分類、k-最近鄰分類等應用:可以根據(jù)用戶的個人資料或者其特定的訪問模式,將其歸入某一特定的類可以根據(jù)用戶對某類產(chǎn)品的訪問情況,或者根據(jù)其購物情況,或者根據(jù)其拋棄購物車的情況,來決定用戶的分類(e.g.對電子產(chǎn)品感興趣的用戶),并對相應的分類使用相應的促銷策略。三、Web日志挖掘—聚類分析聚類:將對象的集合分組成為由類似的對象組成的多個類的過程。(與分類的區(qū)別?)常用聚類算法:劃分方法、層次的方法、基于密度的方法等等。在WebUsageMining應用中包含著兩種聚類。頁聚類:將內容相關的頁面歸在一個網(wǎng)頁組,對網(wǎng)上搜索引擎及提供上網(wǎng)幫助很有用用戶聚類:將具有相似訪問特性的用戶歸在一起,在電子商務的市場分割和為用戶提供個性化服務中,能發(fā)揮巨大作用聚類分析可以分析喜好類似的用戶,從而動態(tài)地為用戶定制觀看的內容或提供瀏覽建議。比如:購買推薦系統(tǒng)或動態(tài)促銷系統(tǒng)作用:1)方便用戶查詢和瀏覽2)增強廣告的作用3)促進網(wǎng)上銷售4)提高用戶忠誠度四、Web日志挖掘—統(tǒng)計分析統(tǒng)計分析包括的內容統(tǒng)計分析包括的內容有:通過求出現(xiàn)率、求平均、求中值等,統(tǒng)計最常訪問的網(wǎng)頁,每頁平均訪問的時間,瀏覽路徑的平均長度等,以獲得用戶訪問站點的基本信息。還能提供有限的低層次的錯誤分析,比如檢測未授權入口點,找出最常見不變的URL等??梢杂脕碛嬎憧蛻魧δ稠撁娴脑L問次數(shù),停留時間等,得到訪問次數(shù)最多的頁面(或產(chǎn)品、URL等)常用的電子商務網(wǎng)站用戶訪問數(shù)據(jù)統(tǒng)計(節(jié)選)平均一個用戶訪問8-10個頁面在站點上花5分鐘每個頁面上花35秒平均一個購物的用戶訪問50個頁面在站點上花30分鐘這是經(jīng)過大量的數(shù)據(jù)統(tǒng)計得出的結果,具有高度一致性。五、Web日志挖掘——序列模式

序列模式視圖找出頁面依照時間順序出現(xiàn)的內在模式序列模式可以用來做用戶的瀏覽趨勢分析,即一組數(shù)據(jù)項之后出現(xiàn)另一組數(shù)據(jù)項,從而形成一組按時間排序的會話,以預測未來的訪問模式,這將有助于針對特別用戶群安排特定內容。趨勢分析訪問模式的相似性分析

六、Web日志挖掘--模式分析在挖掘出一系列用戶訪問模式和規(guī)則后,還需要進一步觀察發(fā)現(xiàn)的規(guī)則、模式和統(tǒng)計值。確定下一步怎么辦?是發(fā)布模型?還是對數(shù)據(jù)挖掘過程進行進一步的調整,產(chǎn)生新的模型。經(jīng)過模式分析得到有價值的模式,即我們感興趣的規(guī)則、模式,采用可視化技術,以圖形界面的方式提供給使用者。電子商務與數(shù)據(jù)挖掘(2)BeyondWebLogsWEB日志挖掘的不足WEB日志提供的數(shù)據(jù)非常有限,即使使用的是擴展日志格式(ECLF)主機名TimeRequest,e.g.,一個網(wǎng)頁的URLReferrerUseragent(瀏覽器及版本號)IP地址Cookie字節(jié)數(shù)和狀態(tài)位等等...網(wǎng)頁上都有什么?WEB日志的設計目的是分析WEB服務器的運行狀況,而不是挖掘電子商務的交易數(shù)據(jù)和點擊流雖然Web日志中給出了被訪問頁面的URL,但是這并不等于知道了該URL所指向的網(wǎng)頁內容。給定一個URL,能不能提取出上面有什么?/computers/common/info.asp?id=12177要自動提取出關于這個網(wǎng)頁所描述的產(chǎn)品的信息,像作者、版本、出版日期就更加困難了動態(tài)內容隨著互聯(lián)網(wǎng)上的動態(tài)內容越來越多,基于WEB日志的分析與挖掘就越來越困難了同樣的URL將會連接到不同的內容在動態(tài)站點,URL往往會很長很復雜而實際所指的內容卻是在應用服務器的session上/American?BV_EngineID=dealikcjfekgbfdmcflmcfkhdgfh.7&BV_Operation=Dyn_RawSmartLink&BV_SessionID=%40%40%40%400822617159.0968100982%40%40%40%40&form%25destination=indexmember.tmpl&BV_ServiceName=American個性化的內容(比如:推薦的捆綁銷售內容),基本上無法通過Web日志來進行重構重構session的困難一個Session代表著一次用戶和網(wǎng)站之間的連接,從Web日志中的多個用戶的requests中重構每個用戶的session是困難的。由于HTTP是無狀態(tài)的,因此通過Web日志重構session只能依賴于假設與推斷,而且用于假設與推斷的數(shù)據(jù)也少得可憐IP地址Cookies瀏覽器類型商業(yè)事件對用戶“點擊流”事件的考察,最終必須定位到“商業(yè)事件”,即將一個點擊(或請求)的集合轉化為一個邏輯上有意義的事件或商業(yè)細節(jié)。一些對數(shù)據(jù)挖掘很重要的商業(yè)相關事件無法由Web日志來決定購物中哪些東西添加到購物車,哪些又被拋棄了購物車中物品數(shù)量的增減網(wǎng)頁上的促銷信息當時顯示的“沒有庫存”的商品表單數(shù)據(jù)檢索——關鍵字以及沒有找到內容的關鍵字示例——關鍵字檢索在一個銷售運動器材的電子商務網(wǎng)站,排名前10的檢索關鍵字為:籃球錄像足球排球乒乓球音樂書海報撲克手套紅色字體顯示的關鍵字都有些什么共同特點?失敗的檢索紅色字體顯示的關鍵字都是沒有檢索結果的關鍵字!有些關鍵字可能是因為用詞不正確有些卻傳達了一種強烈的暗示:這個網(wǎng)站都還應該賣些什么東西而Web日志卻沒有足夠的信息讓我們來提取哪些關鍵字檢索失敗了在實際的電子商務網(wǎng)站中,11%的檢索沒有返回任何結果!將Web日志中的內容映射到數(shù)據(jù)庫從Web日志中提取一個URL請求,如何才能:將這個請求映射到在你的數(shù)據(jù)庫中注冊過的一個客戶?決定這是這個客戶的第幾次訪問?決定這個客戶是否曾經(jīng)購物?由事后來決定上述信息是極端困難的要想由一系列的請求來重構一個用戶的購物過程就更加困難了Web數(shù)據(jù)到底挖掘什么?用點擊率和訪問量來決定一個站點成功與否,就好像用音量來決定音樂美妙與否。--ForresterReport,1999對電子商務站點而言,只有轉化率(購物者與瀏覽者之間的比率)才是最重要的指標對廣告鏈接而言,更是如此給出一個指向你的廣告的HTTP請求,你怎么決定該HTTP請求是否會帶來一個銷售?ForresterReport結論現(xiàn)在流行的基于Web日志的數(shù)據(jù)挖掘并不是一個很好的選擇電子商務中蘊涵有的數(shù)據(jù),遠比Web日志中所提供的內容要多兩種比Web日志更好的數(shù)據(jù)收集方法:Packetsniffer在應用服務器層收集數(shù)據(jù)PacketSnifferPacketsniffer通過偵聽從Web服務器發(fā)送的數(shù)據(jù)包來獲得跟電子商務相關的數(shù)據(jù)。優(yōu)點可以獲得比Web日志中更多的信息不需要改動現(xiàn)有的應用架構缺點在識別用戶和session方面還是有困難邏輯信息提取困難無法探測到加密的信息,比如使用SSL協(xié)議傳送的信息,而實際應用中,一些關鍵信息,像用戶登陸,登出,用戶信息傳送都常常使用SSL協(xié)議多層應用框架(J2EE/EJB)應用服務器層數(shù)據(jù)收集應用服務器層數(shù)據(jù)收集可以克服Web日志和Packetsniffer的缺點,對用戶的訪問數(shù)據(jù)做全面的收集和解析。應用服務器端可以得到返回給用戶的所有內容應用服務器使用cookie技術(或者是URL編碼技術)來記錄一個用戶的session應用服務器通過用戶登陸機制來鎖定一個用戶,因而可以將每個點擊定位到用戶需要將數(shù)據(jù)收集機制和應用服務器端相集成電子商務中進行數(shù)據(jù)挖掘的幾個難點爬蟲/機器人大量數(shù)據(jù)的處理分析前的數(shù)據(jù)變換提供市場級的決策支持網(wǎng)絡爬蟲/機器人網(wǎng)絡爬蟲/機器人是自動訪問你的站點的程序搜索引擎使用的爬蟲(√

)購物機器人(√

)IE離線瀏覽器(√

)E-MAIL搜索者(×)一些PERL腳本(×)為了對客戶行為作出準確研究,必須過濾掉爬蟲/機器人的訪問30%的session是由網(wǎng)絡爬蟲/機器人造成的有些網(wǎng)絡爬蟲/機器人會故意將自己隱藏起來數(shù)據(jù)變換在電子商務中進行數(shù)據(jù)挖掘時,有時70%以上的數(shù)據(jù)分析時間都消耗在數(shù)據(jù)變換上改善數(shù)據(jù)變換的方法:自動的將站點上的數(shù)據(jù)傳送到數(shù)據(jù)倉庫中提供良好的數(shù)據(jù)轉換用戶界面為常見的數(shù)據(jù)轉換問題定制一些工具提供市場級的決策支持你花費了大量的時間來收集數(shù)據(jù)構建數(shù)據(jù)倉庫數(shù)據(jù)變換建模分析...最后將你的結果交給了用戶...這個具有237個維的數(shù)據(jù)立方體到底是什么東西?總結:9.1電子商務與數(shù)據(jù)挖掘9.2數(shù)據(jù)預處理9.3模式挖掘Theend第一節(jié)活塞式空壓機的工作原理第二節(jié)活塞式空壓機的結構和自動控制第三節(jié)活塞式空壓機的管理復習思考題單擊此處輸入你的副標題,文字是您思想的提煉,為了最終演示發(fā)布的良好效果,請盡量言簡意賅的闡述觀點。第六章活塞式空氣壓縮機

piston-aircompressor壓縮空氣在船舶上的應用:

1.主機的啟動、換向;

2.輔機的啟動;

3.為氣動裝置提供氣源;

4.為氣動工具提供氣源;

5.吹洗零部件和濾器。

排氣量:單位時間內所排送的相當?shù)谝患壩鼩鉅顟B(tài)的空氣體積。單位:m3/s、m3/min、m3/h第六章活塞式空氣壓縮機

piston-aircompressor空壓機分類:按排氣壓力分:低壓0.2~1.0MPa;中壓1~10MPa;高壓10~100MPa。按排氣量分:微型<1m3/min;小型1~10m3/min;中型10~100m3/min;大型>100m3/min。第六章活塞式空氣壓縮機

piston-aircompressor第一節(jié)活塞式空壓機的工作原理容積式壓縮機按結構分為兩大類:往復式與旋轉式兩級活塞式壓縮機單級活塞壓縮機活塞式壓縮機膜片式壓縮機旋轉葉片式壓縮機最長的使用壽命-

----低轉速(1460RPM),動件少(軸承與滑片),潤滑油在機件間形成保護膜,防止磨損及泄漏,使空壓機能夠安靜有效運作;平時有按規(guī)定做例行保養(yǎng)的JAGUAR滑片式空壓機,至今使用十萬小時以上,依然完好如初,按十萬小時相當于每日以十小時運作計算,可長達33年之久。因此,將滑片式空壓機比喻為一部終身機器實不為過。滑(葉)片式空壓機可以365天連續(xù)運轉并保證60000小時以上安全運轉的空氣壓縮機1.進氣2.開始壓縮3.壓縮中4.排氣1.轉子及機殼間成為壓縮空間,當轉子開始轉動時,空氣由機體進氣端進入。2.轉子轉動使被吸入的空氣轉至機殼與轉子間氣密范圍,同時停止進氣。3.轉子不斷轉動,氣密范圍變小,空氣被壓縮。4.被壓縮的空氣壓力升高達到額定的壓力后由排氣端排出進入油氣分離器內。4.被壓縮的空氣壓力升高達到額定的壓力后由排氣端排出進入油氣分離器內。1.進氣2.開始壓縮3.壓縮中4.排氣1.凸凹轉子及機殼間成為壓縮空間,當轉子開始轉動時,空氣由機體進氣端進入。2.轉子轉動使被吸入的空氣轉至機殼與轉子間氣密范圍,同時停止進氣。3.轉子不斷轉動,氣密范圍變小,空氣被壓縮。螺桿式氣體壓縮機是世界上最先進、緊湊型、堅實、運行平穩(wěn),噪音低,是值得信賴的氣體壓縮機。螺桿式壓縮機氣路系統(tǒng):

A

進氣過濾器

B

空氣進氣閥

C

壓縮機主機

D

單向閥

E

空氣/油分離器

F

最小壓力閥

G

后冷卻器

H

帶自動疏水器的水分離器油路系統(tǒng):

J

油箱

K

恒溫旁通閥

L

油冷卻器

M

油過濾器

N

回油閥

O

斷油閥冷凍系統(tǒng):

P

冷凍壓縮機

Q

冷凝器

R

熱交換器

S

旁通系統(tǒng)

T

空氣出口過濾器螺桿式壓縮機渦旋式壓縮機

渦旋式壓縮機是20世紀90年代末期開發(fā)并問世的高科技壓縮機,由于結構簡單、零件少、效率高、可靠性好,尤其是其低噪聲、長壽命等諸方面大大優(yōu)于其它型式的壓縮機,已經(jīng)得到壓縮機行業(yè)的關注和公認。被譽為“環(huán)保型壓縮機”。由于渦旋式壓縮機的獨特設計,使其成為當今世界最節(jié)能壓縮機。渦旋式壓縮機主要運動件渦卷付,只有磨合沒有磨損,因而壽命更長,被譽為免維修壓縮機。

由于渦旋式壓縮機運行平穩(wěn)、振動小、工作環(huán)境安靜,又被譽為“超靜壓縮機”。

渦旋式壓縮機零部件少,只有四個運動部件,壓縮機工作腔由相運動渦卷付形成多個相互封閉的鐮形工作腔,當動渦卷作平動運動時,使鐮形工作腔由大變小而達到壓縮和排出壓縮空氣的目的。活塞式空氣壓縮機的外形第一節(jié)活塞式空壓機的工作原理一、理論工作循環(huán)(單級壓縮)工作循環(huán):4—1—2—34—1吸氣過程

1—2壓縮過程

2—3排氣過程第一節(jié)活塞式空壓機的工作原理一、理論工作循環(huán)(單級壓縮)

壓縮分類:絕熱壓縮:1—2耗功最大等溫壓縮:1—2''耗功最小多變壓縮:1—2'耗功居中功=P×V(PV圖上的面積)加強對氣缸的冷卻,省功、對氣缸潤滑有益。二、實際工作循環(huán)(單級壓縮)1.不存在假設條件2.與理論循環(huán)不同的原因:1)余隙容積Vc的影響Vc不利的影響—殘存的氣體在活塞回行時,發(fā)生膨脹,使實際吸氣行程(容積)減小。Vc有利的好處—

(1)形成氣墊,利于活塞回行;(2)避免“液擊”(空氣結露);(3)避免活塞、連桿熱膨脹,松動發(fā)生相撞。第一節(jié)活塞式空壓機的工作原理表征Vc的參數(shù)—相對容積C、容積系數(shù)λv合適的C:低壓0.07-0.12

中壓0.09-0.14

高壓0.11-0.16

λv=0.65—0.901)余隙容積Vc的影響C越大或壓力比越高,則λv越小。保證Vc正常的措施:余隙高度見表6-1壓鉛法—保證要求的氣缸墊厚度2.與理論循環(huán)不同的原因:二、實際工作循環(huán)(單級壓縮)第一節(jié)活塞式空壓機的工作原理2)進排氣閥及流道阻力的影響吸氣過程壓力損失使排氣量減少程度,用壓力系數(shù)λp表示:保證措施:合適的氣閥升程及彈簧彈力、管路圓滑暢通、濾器干凈。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論