




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第3章關(guān)聯(lián)分析Chapter3:AssociationAnalysis主要內(nèi)容3.1頻繁模式與關(guān)聯(lián)規(guī)則3.2頻繁項(xiàng)集的典型挖掘方法3.3關(guān)聯(lián)規(guī)則的生成方法3.4關(guān)聯(lián)規(guī)則的其他類型3.5關(guān)聯(lián)規(guī)則的興趣度的其他度量3.1頻繁模式與關(guān)聯(lián)規(guī)則從交易數(shù)據(jù)庫、關(guān)系數(shù)據(jù)庫以及其他的數(shù)據(jù)集中發(fā)現(xiàn)項(xiàng)或?qū)ο蟮念l繁模式(frequentpatterns)、關(guān)聯(lián)(associations)的過程buys(x,“diapers”)?buys(x,“beers”)[0.5%,60%]Rao,SrikumarS.“Diaper-beerSyndrome,”Forbes,April6,1998.pp.128–130outlooktemperaturehumiditywindyplaysunnyhothighFALSEnosunnyhothighTRUEnoovercasthothighFALSEyesrainymildhighFALSEyesrainycoolnormalFALSEyes交易號(hào)(TID)商品(Items)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts交易數(shù)據(jù)庫Transactionaldatabase
每個(gè)交易:由顧客一次購買的商品(items)組成I={i1,i2,…,im}項(xiàng)集(Itemset):x={ij1,ij2,…,ijp},ijiI每個(gè)項(xiàng)集包含的項(xiàng)的個(gè)數(shù),稱為項(xiàng)集的長度,一個(gè)長度為k的項(xiàng)集又稱為k項(xiàng)集。I={A,B,C,D,E,F}2項(xiàng)集:AC,AD支持度(Support)交易包含項(xiàng)集X的概率
E.g.X={A},Y={A,B}=AB若support(X)>=minsup,則X稱為頻繁項(xiàng)集(frequentitemset),也可以說X是頻繁的.設(shè)minsup=50%
{A:3,B:3,D:4,E:3,AD:3}TIDItemsbought10A,B,D20A,C,D30A,D,E40B,E,F50B,C,D,E,F閉合頻繁項(xiàng)集一個(gè)頻繁項(xiàng)集X
被稱為閉合頻繁項(xiàng)集(closedfrequentitemset)當(dāng)且僅當(dāng)不存在任一個(gè)項(xiàng)集Y
滿足X
Y
且support(Y)=support(X)。閉合頻繁項(xiàng)集X
被稱為是閉合的。例如:A是頻繁的,但不是閉合的,因?yàn)閟upport(AD)=support(A),且
AADTIDItemsbought10A,B,D20A,C,D30A,D,E40B,E,F50B,C,D,E,F關(guān)聯(lián)規(guī)則給定兩個(gè)項(xiàng)集X和Y,關(guān)聯(lián)規(guī)則是形如X→Y的蘊(yùn)含式X
I稱為規(guī)則的前件,Y
I稱為規(guī)則的后件,X∩Y=
規(guī)則X→Y
的支持度(support)support(X→Y)=support(X∪Y)規(guī)則X→Y
的置信度(confidence)SupportandconfidenceTransaction-idItemsbought10A,B,D20A,C,D30A,E40B,E,F50B,C,D,E,F關(guān)聯(lián)規(guī)則:X
Ysupport(X
Y)=support(X∪Y)=|TXY|/nE.g:X={A}Y={C}support(A
C)=support(AC)=0.2X={A,D}=ADY=Csupport(AD
C)=support=(ADC)=0.2SupportandconfidenceTIDItemsbought10A,B,D20A,C,D30A,E40B,E,F50B,C,D,E,F置信度(confidence)Confidence(X
Y)=|TXY|/|TX|=sup(XY)/sup(X)A
C(20%,33%)AD
C(20%,50%)買尿片的交易同時(shí)買啤酒和尿片的交易買啤酒的交易關(guān)聯(lián)規(guī)則的挖掘給定如下閾值minimumsupport:minsupMinimumconfidence:
minconf發(fā)現(xiàn)所有形如X
Y
的關(guān)聯(lián)規(guī)則,滿足Support(XY)≥minsupConfidence(XY)≥minconf3.2頻繁項(xiàng)集的典型挖掘方法3.2.1逐層發(fā)現(xiàn)算法AprioriApriori(Agrawal&Srikant@VLDB’94)3.2.2無候選集發(fā)現(xiàn)算法FP-growthFreq.patterngrowth(FPgrowth—Han,Pei&Yin@SIGMOD’00)其他方法:Verticaldataformatapproach(Charm—Zaki&Hsiao@SDM’02)Highdimensionaldataset:TD-close(Liu,Han,etal.@ICDE06)…3.2.1逐層發(fā)現(xiàn)算法Apriori主要步驟k=1統(tǒng)計(jì)每個(gè)k項(xiàng)候選集的支持度,找出頻繁的k項(xiàng)集:Lk利用頻繁的k項(xiàng)集生成k+1項(xiàng)候選集(Candidateitemset
):Ck+1k=k+1;轉(zhuǎn)至步驟2示例DatabaseTDB1stscanC1L1L2C2C22ndscanC3L33rdscanTidItems10A,C,D20B,C,E30A,B,C,E40B,EItemsetsup{A}2{B}3{C}3{D}1{E}3Itemsetsup{A}2{B}3{C}3{E}3Itemset{A,B}{A,C}{A,E}{B,C}{B,E}{C,E}Itemsetsup{A,B}1{A,C}2{A,E}1{B,C}2{B,E}3{C,E}2Itemsetsup{A,C}2{B,C}2{B,E}3{C,E}2Itemset{B,C,E}Itemsetsup{B,C,E}2minsup=2/4如何生成候選項(xiàng)集?性質(zhì)1:給定最小支持度閾值minsup,一個(gè)頻繁項(xiàng)集的所有非空子集都是頻繁的。if{beer,diaper}isfrequent,sois{beer}and{diaper}If{beer}isnotfrequent,{beer,diaper}isnotfrequentApriori剪裁規(guī)則:若存在某些項(xiàng)集是不頻繁的,則這些項(xiàng)集的任何超集都是不頻繁的,因而無須生成和測試。如何生成候選項(xiàng)集?假設(shè)每個(gè)Lk
中的項(xiàng)集的項(xiàng)都是按順序排列的步驟1:兩兩組合
Lk中項(xiàng)集生成
Ck+1步驟2:裁剪(pruning)如何生成候選項(xiàng)集?假設(shè)項(xiàng)集的項(xiàng)按字母序排列:beer<bread<butter<cheese<diaper<nuts如何生成候選項(xiàng)集?步驟1
abcd
abce設(shè)p和q
是Lk
中的兩個(gè)項(xiàng)集,滿足時(shí)生成(k+1)項(xiàng)集:
p.item1=q.item1,…,p.itemk-1=q.itemk-1,
p.itemk<q.itemkp.item1p.item2…p.itemk-1p.itemkq.item1q.item2…q.itemk-1q.itemkp.item1p.item2…p.itemk-1p.itemkq.itemk如何生成候選項(xiàng)集?步驟1字母序:a<b<c<d<eL3={abc,abd,acd,ace,bcd}abcdfromabcandabdacdefromacdandaceC4={abcd,acde}L3item1item2item3abcabdacdacebcd如何生成候選項(xiàng)集?步驟2刪除那些包含非頻繁k項(xiàng)集的(k+1)項(xiàng)集E.g:L3={abc,abd,acd,ace,bcd},C4={abcd,acde}由于{cde}不頻繁,所以acde不可能頻繁
C4={abcd}DatabaseTDB1stscanC1C2C22ndscanL33rdscanC3L1L2TidItems10A,C,D20B,C,E30A,B,C,E40B,EItemsetsup{A}2{B}3{C}3{D}1{E}3Itemsetsup{A}2{B}3{C}3{E}3Itemset{A,B}{A,C}{A,E}{B,C}{B,E}{C,E}Itemsetsup{A,B}1{A,C}2{A,E}1{B,C}2{B,E}3{C,E}2Itemsetsup{A,C}2{B,C}2{B,E}3{C,E}2Itemset{B,C,E}Itemsetsup{B,C,E}2Supmin=23.2.2無候選集發(fā)現(xiàn)算法FP-growthFPgrowth—Han,Pei&Yin@SIGMOD’00采用一種樹的數(shù)據(jù)結(jié)構(gòu)(FP-tree)來實(shí)現(xiàn)頻繁項(xiàng)集的發(fā)現(xiàn),不需要先生成候選項(xiàng)集FP-tree的特點(diǎn)完整性保留了用于挖掘頻繁項(xiàng)集的所有信息緊湊性減少了與頻繁項(xiàng)集挖掘無關(guān)的信息,F(xiàn)-list:高頻項(xiàng)更多機(jī)會(huì)被不同交易共享永遠(yuǎn)小于原來的交易數(shù)據(jù)庫TID Itemsbought 100 {f,a,c,d,g,i,m,p}
200 {a,b,c,f,l,m,o}300
{b,f,h,j,o,w}
400
{b,c,k,s,p}
500
{a,f,c,e,l,p,m,n}
算法:FP-growthHeaderTableItemfrequencyheadf 4c 4a 3b 3m 3p 3minsup=3/5掃描交易數(shù)據(jù)庫,找出所有頻繁單項(xiàng)按照支持度降序排列所有頻繁單項(xiàng),得到f-list掃描交易數(shù)據(jù)庫,構(gòu)建FP-treeT調(diào)用mineTree(T,}f-list=f-c-a-b-m-p{}f:4c:1b:1p:1b:1c:3a:3b:1m:2p:2m:1FP-treeTID (ordered)frequentitems100
{f,c,a,m,p}200 {f,c,a,b,m}300
{f,b}400
{c,b,p}500
{f,c,a,m,p}頻繁項(xiàng)集的分割頻繁項(xiàng)集的集合可以分為若干個(gè)不相交的子集例如:F-list=f-c-a-b-m-p所有包含p的項(xiàng)集含有m不包含p的項(xiàng)集…含有c
不含a,b,m,p的項(xiàng)集項(xiàng)f生成條件模式庫(conditionalpatternbase)從頭表(headertable)開始
通過指針鏈遍歷FP-tree找到所有包含某項(xiàng)如p的分支合并相同前綴路徑,構(gòu)成
p條件模式庫Conditionalpatternbasesitem cond.patternbasec f:3a fc:3b fca:1,f:1,c:1m fca:2,fcab:1p fcam:2,cb:1{}f:4c:1b:1p:1b:1c:3a:3b:1m:2p:2m:1HeaderTableItemfrequencyheadf 4c 4a 3b 3m 3p 3FP-tree:T100{f,c,a,m,p}200 {f,c,a,b,m}300
{f,b}400
{c,b,p}500
{f,c,a,m,p}mineTree(T,X)以p為例:X=
;生成并輸出頻繁項(xiàng)集X∪{p}=p,support=3生成p的條件模式庫統(tǒng)計(jì)單項(xiàng)頻率:c:3,f:2,a:2,m:2,
b:1為條件模式庫構(gòu)建FP-tree:
TpX={p},調(diào)用mineTree(Tp,X){}c:3HeaderTableItemfrequencyheadc 3Tpfcam:2cb:1優(yōu)化對(duì)單支前綴路徑特殊處理,減少處理時(shí)間設(shè)minsup=2(出現(xiàn)2次)圖3.2頻繁模式樹T項(xiàng)集頻數(shù)abc2abd2表3.3項(xiàng)e的條件模式庫優(yōu)化
圖3.3項(xiàng)e的頻繁模式樹Te
圖3.4頻繁模式樹Te的多分支部分Q單支前綴路徑ab:5,生成與e的所有組合,即S={ae:4,be:4,abe:4}將此路徑用一個(gè)空的根節(jié)點(diǎn)替換,生成樹Q,分別對(duì)單項(xiàng)c和d處理,分別生成了1個(gè)項(xiàng)集,ce和de,構(gòu)成集合M={ce:2,de:2}返回S∪M∪(S
M),S
M={ace:2,ade:2,bce:2,bde:2,abce:2,abde:2}挖掘高維度數(shù)據(jù)集中的頻繁項(xiàng)集Carpenter(Pan,etal.@KDD’03)MinedatasetswithsmallrowsbutnumerouscolumnsConstructabottom-uprow-enumerationtreeforefficientminingTD-close(Liu,Han,etal.@ICDE06)MinedatasetswithsmallrowsbutnumerouscolumnsConstructaTop-downrow-enumerationtreeforefficientminingMiningFrequentPatternsfromVeryHighDimensional
Data:ATop-DownRowEnumerationApproach
HongyanLiuTsinghuaUniversityJiaweiHan,DongXin,ZhengShao
UniversityofIllinoisatUrbana-Champaign低維度--高維度TIDItems1A,C,D2B,C,E3A,B,C,E4B,E567…100000TIDItems1Pj1,Pj2,…,Pj100002Pk1,Pk2,…,Pk9993Pl1,Pl2,…,Pl2000…56Pm1,Pm2,…,Pm6000行枚舉方法riABCD1a1b1c1d12a1b1c2d23a1b1c1d24a2b1c2d25a2b2c2d310/29/2023Minsup=2TableTTransposedTableitemsetrowseta11,2,3a24,5b11,2,3,4c11,3c22,4,5d22,3,410/29/2023自上而下的挖掘策略1a1b1c1d12a1b1c2d23a1b1c1d24a2b1c2d25a2b2c2d313a1b1c124b1c2d225c234b1d245a2c2351514b123a1b1d2245c2234b1d2134b1124b1123a1b113512514523534512a1b11245134523451234b11235Minsup=31234510/29/2023自上而下、分而治之的遞歸挖掘345134523451234545a2c2245c214512455a2b2c2d325c2351513512523512351a1b1c1d12a1b1c2d23a1b1c1d24a2b1c2d213a1b1c124b1c2d234b1d214b123a1b1d2234b1d2134b1124b1123a1b112a1b11234b1Without5With5w/o4With45w/o3With345w/o2With2345w/o1Divide-and-conquer3.3關(guān)聯(lián)規(guī)則的生成方法生成關(guān)聯(lián)規(guī)則為每個(gè)頻繁項(xiàng)集l,生成非空子集s;若滿足
則輸出規(guī)則:(l-s)
se.g:l=ABCD,s=D,(l-s)=ABCconfidence(ABC
D)=support(ABCD)/support(ABC)生成關(guān)聯(lián)規(guī)則minconf=80%For{BCE}:Confidence(BE
C)<80%,Confidence(BC
E)>80% Confidence(CE
B)>80%
Confidence(B
CE)<80%
Confidence(E
BC)<80%
Confidence(C
BE)<80%
L1L2L3生成關(guān)聯(lián)規(guī)則minconf=80%For{BCE}:Confidence(BE
C)<80%,Confidence(BC
E)>80% Confidence(CE
B)>80%confidence(C
BE):<80%L1L2L3生成關(guān)聯(lián)規(guī)則ForBCE,Confidence(BE
C)<80%,HowaboutB
ECandE
BC?生成關(guān)聯(lián)規(guī)則對(duì)于頻繁項(xiàng)集l=ABCD若BCDA和ACDB
都成立
則CDAB
有可能成立.若CDAB,BDAC,和ADBC都成立,
則DABC
有可能成立3.4關(guān)聯(lián)規(guī)則的其他類型關(guān)聯(lián)規(guī)則的類型多層次關(guān)聯(lián)規(guī)則什么品牌的啤酒和尿片(diapers)有關(guān)聯(lián)?負(fù)關(guān)聯(lián)規(guī)則、無關(guān)規(guī)則(dissociationrule)playbasketball
noteatcereal[20%,33.3%]結(jié)構(gòu)化數(shù)據(jù)中的關(guān)聯(lián)分析多層次關(guān)聯(lián)規(guī)則項(xiàng)有概念層次性低層的項(xiàng)通常具有較低的支持度將項(xiàng)抽象到一定高的層次產(chǎn)生的規(guī)則更有意義一個(gè)超市的庫存中至少有10000個(gè)項(xiàng)FoodbreadmilkskimSunsetFraser2%whitewheat
milk→bread[20%,60%].2%milk→wheatbread[6%,50%].多層次關(guān)聯(lián)規(guī)則兩類單層 F→GBC→E多層 FC→ETidItems10A,C,D20B,C,E30A,B,C,E40B,EHGFAEBDC負(fù)模式負(fù)項(xiàng)與正項(xiàng)
當(dāng)項(xiàng)ik
沒有出現(xiàn)在某個(gè)給定的交易中,稱該項(xiàng)對(duì)于該交易是個(gè)負(fù)項(xiàng),記為
,與此對(duì)應(yīng),出現(xiàn)在該交易中的每個(gè)項(xiàng)id
稱為正項(xiàng)。負(fù)項(xiàng)集與負(fù)關(guān)聯(lián)規(guī)則
一個(gè)包含負(fù)項(xiàng)的項(xiàng)的集合稱為負(fù)項(xiàng)集。一個(gè)負(fù)項(xiàng)集的支持度如果不小于用戶給定的最小支持度,則稱為頻繁負(fù)項(xiàng)集
負(fù)關(guān)聯(lián)規(guī)則:包含負(fù)項(xiàng)的關(guān)聯(lián)規(guī)則。負(fù)項(xiàng)集和負(fù)關(guān)聯(lián)規(guī)則統(tǒng)稱為負(fù)模式。負(fù)關(guān)聯(lián)規(guī)則、無關(guān)規(guī)則(dissociationrule)TIDItems1A,B,
C,D
2
A,B,C,D
3A,B,
C,D
4A,C,D,B
發(fā)現(xiàn)帶有“非Ii”的規(guī)則:(A,
B)→CTIDItems1A,B2B,C3A,C4A,C,DTIDITEMS1age30,income=high,student=no,credit_rating=fair,buys_PC=no2age30,income=high,student=no,credit_rating=excellent,buys_PC=no3age30,income=medim,student=no,credit_rating=fair,buys_PC=no4age30,income=low,student=yes,credit_rating=fair,buys_PC=yes5age30,income=medium,student=yes,credit_rating=excellent,buys_PC=yes…14Age40,income=medium,student=no,credit_rating=excellent,buys_PC=no結(jié)構(gòu)化數(shù)據(jù)集非結(jié)構(gòu)化轉(zhuǎn)化為結(jié)構(gòu)化交易號(hào)(TID)Beerdiapernutsbiscuitbreadbuttercheese1111
211
1
3
1114111
151
1
11交易號(hào)(TID)商品(Items)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)供應(yīng)鏈管理的數(shù)字化轉(zhuǎn)型及優(yōu)化策略研究
- 三農(nóng)產(chǎn)品質(zhì)量安全追溯系統(tǒng)建設(shè)手冊
- 新零售技術(shù)應(yīng)用與發(fā)展趨勢分析報(bào)告
- 停車場車輛出入智能管理系統(tǒng)
- 做可行性研究情況報(bào)告
- 生態(tài)農(nóng)業(yè)觀光園區(qū)采購
- 生物質(zhì)顆粒燃料大鍋灶
- 照明發(fā)展趨勢
- 主管護(hù)師考試練習(xí)卷含答案(一)
- 開發(fā)商房銷售合同
- 內(nèi)蒙古機(jī)電職業(yè)技術(shù)學(xué)院單獨(dú)招生(機(jī)電類)考試題(附答案)
- 城市公園景觀設(shè)計(jì)教學(xué)課件
- 2025年阜陽職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫及參考答案
- 【凱度】2025年生鮮消費(fèi)新趨勢
- 《防波堤施工》課件
- 2025河南中煙安陽卷煙廠一線崗位招聘14人易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 四川省2024年高等職業(yè)教育單獨(dú)招生考試中職類語文試題及答案
- 眼科手術(shù)學(xué)基礎(chǔ)
- 多晶硅大型還原爐裝備項(xiàng)目可行性研究報(bào)告建議書
- 2025年高考作文備考之模擬試題:“自塑”與“他塑”
- (完整版)高考英語詞匯3500詞(精校版)
評(píng)論
0/150
提交評(píng)論