版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第3章關(guān)聯(lián)分析Part/
01關(guān)聯(lián)分析的準備工作以對消費者的建模為例,舉一些場景下的常用算法對應(yīng):劃分消費者群體:聚類,分類;購物籃分析:相關(guān),聚類;購買額預(yù)測:回歸,時間序列;滿意度調(diào)查:回歸,聚類,分類;什么是關(guān)聯(lián)分析數(shù)據(jù)挖掘主要模型:分類、聚類、預(yù)測及關(guān)聯(lián)什么是關(guān)聯(lián)分析什么是關(guān)聯(lián)分析什么是關(guān)聯(lián)分析
關(guān)聯(lián)規(guī)則算法常用來描述數(shù)據(jù)之間的相關(guān)關(guān)系,關(guān)聯(lián)規(guī)則模式屬于描述型模式,挖掘關(guān)聯(lián)規(guī)則的算法和聚類算法類似,屬于無監(jiān)督學習的方法。什么是關(guān)聯(lián)分析
關(guān)聯(lián)規(guī)則就是由關(guān)聯(lián)的規(guī)則,它的定義是:兩個不相交的非空集合X、Y,如果由X->Y,就說X->Y是一條關(guān)聯(lián)規(guī)則。其中X表示的是兩個互斥事件,X稱為前因(antecedent),Y稱為后果(consequent),上述關(guān)聯(lián)規(guī)則表示X會導(dǎo)致Y。關(guān)聯(lián)規(guī)則的強度用支持度(support)和置信度(confidence)來描述。在實際應(yīng)用中,商品在銷售中存在一定的關(guān)聯(lián)性。如果大量的數(shù)據(jù)表明,消費者購買A產(chǎn)品的同時也會同時購買B產(chǎn)品,那么A和B之間存在關(guān)聯(lián)性,記為A->B。例如,在超市中,常常會看到兩個商品的捆綁銷售,很有可能就是關(guān)聯(lián)分析的結(jié)果。什么是關(guān)聯(lián)分析什么是關(guān)聯(lián)分析時間(Time)商品(Items)T1{牛奶,面包}T2{面包,尿布,啤酒,雞蛋}T3{牛奶,尿布,啤酒,可樂}T4{面包,牛奶,尿布,啤酒}T5{面包,牛奶,尿布,可樂}Part/
02Apriori規(guī)則1使用Apriori規(guī)則完成關(guān)聯(lián)挖掘Apriori是廣為人知的關(guān)聯(lián)規(guī)則挖掘算法,它依靠逐層的廣度優(yōu)先策略生成候選項集,首先逐層找到所有的頻繁項集(項集支持度大于給定值),例如先找到1-頻繁項集,然后基于1-頻繁項集找到2-頻繁項集,依次遞歸,基于k-頻繁項集生成新的k+1頻繁項集,直至找不到新的頻繁項集為止。Apriori原理(1)尋找所有不低于最小支持度的項集(頻繁項集);(2)使用頻繁項集生成規(guī)則。PS:
支持度:數(shù)據(jù)集中包含該項集的記錄所占的比例;
頻繁項集:支持度大于最小支持度的項集。對數(shù)據(jù)集中的每條交易記錄tran和每個候選項集can:
檢查一下can是否是tran的子集:
如果是,則增加can的計數(shù)值
對每個候選項集:
如果其支持度不低于最小值,則保留該項集返回所有頻繁項集列表生成候選項集工作流程發(fā)現(xiàn)關(guān)聯(lián)規(guī)則當集合中項的個數(shù)大于0時:
構(gòu)建一個k個項組成的候選項集的列表
檢查數(shù)據(jù)以確認每個項集都是頻繁的
保留頻繁項集并構(gòu)建k+1項組成的候選項集的列表規(guī)則原則2去掉冗余規(guī)則要去掉冗余規(guī)則,首先應(yīng)找到冗余的規(guī)則。我們可以先基于提升度對規(guī)則排序,再調(diào)用is.subset函數(shù)找到已排序規(guī)則的子集,is.subset函數(shù)會產(chǎn)生一個itemMatrix對象??梢詫⑾氯蔷仃囋O(shè)置為NA,然后計算矩陣的colSums值,如果該值大于等于1,則意味著該指定規(guī)則是冗余的。當我們找到這些冗余規(guī)則后,就可以從已排序的規(guī)則中去掉它們。最后,再調(diào)用inspect函數(shù)驗證這些冗余規(guī)則。3關(guān)聯(lián)規(guī)則的可視化除了可以以文本形式展示關(guān)聯(lián)規(guī)則外,我們還可以對規(guī)則進行可視化,以便更輕松地發(fā)現(xiàn)項集間的關(guān)聯(lián)。接下來,我們將介紹如何使用arulesViz包實現(xiàn)關(guān)聯(lián)規(guī)則的可視化。Part/
03Eclat挖掘使用Eclat挖掘頻繁項集Apriori算法使用水平數(shù)據(jù)結(jié)構(gòu)來存放事務(wù),Eclat則使用垂直數(shù)據(jù)結(jié)構(gòu)來存放每個事務(wù)的ID(tid)列表,在計算K+1項集的支持度時,Eclat算法只需要計算兩個K項集的tid表的交集即可。Eclat算法也可從頻繁項集中生成關(guān)聯(lián)規(guī)則。使用cspade挖掘頻繁時序模式序列模式挖掘常用方法是使用SPADE算法,該算法是時間序列頻繁模式挖掘中的一種,使用垂直數(shù)據(jù)結(jié)構(gòu)存放ID列表,數(shù)據(jù)庫中每個輸入序列都擁有一個SID值,而事件則擁有各自的EID值。SPADE算法采用Apr
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教程教案上學期
- 玉溪師范學院《現(xiàn)代教育技術(shù)應(yīng)用》2021-2022學年第一學期期末試卷
- 玉溪師范學院《小學語文教學設(shè)計與實踐訓練》2022-2023學年第一學期期末試卷
- 影視鑒賞教育課件
- 塊料樓地面施工工藝
- 2024年紅外光學測量雷達項目評價分析報告
- 2023年復(fù)配色粉項目綜合評估報告
- 2024屆貴州安順市平壩區(qū)集圣中學高三下學期3月統(tǒng)一聯(lián)合考試數(shù)學試題
- 倉儲配送合同流程
- 采購合同資金結(jié)算流程
- 醫(yī)務(wù)部運用PDCA循環(huán)提高醫(yī)院日間手術(shù)量PDCA成果匯報
- 高中教學經(jīng)驗交流發(fā)言稿
- 廣東開放改革開放史(本專23春)-第七單元形成性考核0
- 小學希望之星看圖說話分類整理
- 高中區(qū)域地理非洲
- 第六單元 第7課時 解決問題(一)(教學設(shè)計)-三年級數(shù)學上冊 人教版
- 廣東輕工職業(yè)技術(shù)學院職業(yè)教育專業(yè)教學資源庫建設(shè)管理辦法
- GB/T 3499-2003原生鎂錠
- 從你的全世界路過讀書筆記作品課件
- 初中道德與法治人教九年級下冊我們共同的世界《放眼全球經(jīng)濟》PPT
- 數(shù)據(jù)安全培訓課件PPT(32張)
評論
0/150
提交評論