基于約束的挖掘(上課)_第1頁
基于約束的挖掘(上課)_第2頁
基于約束的挖掘(上課)_第3頁
基于約束的挖掘(上課)_第4頁
基于約束的挖掘(上課)_第5頁
已閱讀5頁,還剩31頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、中南大學(xué)信息科學(xué)與工程學(xué)院2004.3l 使用約束的必要性 - 基于約束的關(guān)聯(lián)規(guī)則挖掘可以促進(jìn)交互式探查與分析。 - 在實際的挖掘過程中,用戶往往希望參與到挖掘的全過程中,以便對挖掘過程進(jìn)行指導(dǎo)和控制;用戶所關(guān)心的通常只是關(guān)聯(lián)規(guī)則的某個子集,而不是泛泛地發(fā)現(xiàn)全部規(guī)則,這就需要有效地利用約束條件縮減數(shù)據(jù)庫中事務(wù)的數(shù)量,提高挖掘效率。 l在數(shù)據(jù)挖掘中常使用的幾種約束:知識類型約束:指定要挖掘的知識類型 如關(guān)聯(lián)規(guī)則數(shù)據(jù)約束: 指定與任務(wù)相關(guān)的數(shù)據(jù)集 lFind product pairs sold together in Vancouver in Dec.98.維/層次約束:指定所用的維或概念結(jié)構(gòu)中

2、的層lin relevance to region, price, brand, customer category.規(guī)則約束:指定要挖掘的規(guī)則形式(如規(guī)則模板)l單價 (price $200).興趣度約束:指定規(guī)則興趣度閾值或統(tǒng)計度量l如 (min_support 3%, min_confidence 60%).l假定AllElectronics的一個銷售多維數(shù)據(jù)庫有如下關(guān)系:lSales(customer_name,item_name,transaction_id)lLives(customer_name,region,city)lItems(item_name,category,pric

3、e)lTransaction(transaction_id,day,month,year) (1) mine associations as (2)lives(C,_,”Pudong”)sales(C,I,S)=sales(C,JT) (3) from sales (4)where S.year=1999 &T.year=1999 &I.category=J.category (5)group by C,I.category (6)having sum(I.price=500 (7)with support threshold=1% (8)with confidence thr

4、eshold=50%Lives(C,_,”Pudong”)Sales(C,”Census_CD”,_)Sales(C,”MS/Office”,_)=Sales(C,”MS/SQLSever”,_) 1.5%,65%l單調(diào)性約束(monotone constraint)l反單調(diào)性約束(anti-monotone constraint)l可轉(zhuǎn)變的約束(convertible constraint)l簡潔性約束(succinct constraint)l不可轉(zhuǎn)變的約束(inconvertible constraint) 設(shè)Ii1,i2,im是項的集合。設(shè)X是一個項集,關(guān)聯(lián)規(guī)則是形如XY的蘊含式,其中

5、XI,YI,XY。支持度s是DB中事務(wù)包含XY(即X和Y二者)的百分比。置信度c是DB中包含X的事務(wù)也包含Y的百分比。滿足最小支持度閾值min_sup的項集稱為頻繁項集。挖掘關(guān)聯(lián)規(guī)則就是在給定的交易集合中產(chǎn)生所有滿足最小支持度閾值和最小置信度的強規(guī)則。 關(guān)聯(lián)規(guī)則的挖掘是一個兩步的過程:(1)找出所有頻繁項集;(2)由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則。第二步相對來說比較簡單。挖掘關(guān)聯(lián)規(guī)則的總體性能由第一步?jīng)Q定。l項目集:I = i1,i2,iml交易:T = l模式S是項目集的子集,S = ij1,ij2,ijkl模式S約束于T,T = ,if and only if S It; S是S的子模式(subp

6、attern)且S 是S的超模式(superpattern), if and only if有SS。l定義約束: C是作用于項目集I的冪集(powerset)上的謂詞,C(S)=True/False;l滿意模式集(satisfying pattern set) SATc(I)是指那些完全滿足約束C的項目集的全體l將約束條件用于頻繁集的查詢無非是找出那些滿足C的頻繁集l規(guī)則 Ca 是 反單調(diào)的(:如果對于任給的不滿足Ca的項集(模式) S,不存在S的任何超集能夠滿足 Ca。 - e.g: Ca : min(S)=v , v是S的一個項集 諸如“min(J.Price) =500”的約束,對于一個

7、不滿足該約束的項集,無論添加多少項得到的超集都不可能滿足該約束。 - Apriori性質(zhì)(頻繁項集的任何非空子集也必然是頻繁的)也是反單調(diào)的。l約束Cm 是單調(diào)的(monotone ):如果對于任給的滿足Cm的項集(模式) S, 每一個S的超集都能夠滿足 Cm。 - e.g: Cm : min(S)=v, v是S的一個項集 諸如“min(J.Price) C(S) 則C(S)是反單調(diào)可轉(zhuǎn)變的l令I(lǐng)為一組以升序排列數(shù)值的項目集E.g. I=1,3,4,6,8,9 , R指升序lAvg(S) = v 是反單調(diào)可轉(zhuǎn)變的如果 S 是S的一個后綴, 那么avg(S) = avg(S)l6,8,9 is

8、a suffix of 3,4,6,8,9lavg(6,8,9)=23/3 avg(3,4,6,8,9)=6如果 S滿足約束 avg(S) v, 則 S也滿足l單調(diào)可轉(zhuǎn)變的 1. C(S)既不是單調(diào)性約束,也不是反單調(diào)性約束; 2. 若存在順序R,使得經(jīng)R排序后的I具有如下性質(zhì): 任給 Ssuffix_S, if C(S)=C(S) 則C(S)是單調(diào)可轉(zhuǎn)變的l令I(lǐng)為一組以降序排列數(shù)值的項目集E.g. I=9, 8, 6, 4, 3, 1, R指降序lAvg(S) v 是單調(diào)可轉(zhuǎn)變的如果 S 是S的一個后綴, 那么avg(S) avg(S)l8, 4, 3 is a suffix of 9, 8

9、, 4, 3lavg(9, 8, 4, 3)=6 avg(8, 4, 3)=5如果 S滿足約束 avg(S) v, 則 S也滿足l8, 4, 3 satisfies constraint avg(S) 4, so does 9, 8, 4, 3l一個項目子集Is 是一個 簡潔集(, 如果對于某些選擇性謂詞p,該項目子集能夠表示為p(I) ,此處, 是一個選擇符lSP2I 是一個強簡潔集( succinct ,如果有一個數(shù)目不變的簡潔集 I1, , Ik I, SP 能夠用I1, , Ik 的并、差運算表示出來 be expressed in terms of the strict power

10、sets of I1, , Ik using union and minusl約束 Cs 是 假如 SATCs(I)是一個強簡潔集l如果一個約束是簡潔的,我們可以直接精確地產(chǎn)生滿足它的集合,甚至在支持計數(shù)之前。即這種約束是計數(shù)前可剪枝的。l例如“min(J.Price) =500”是簡潔的。我們能夠準(zhǔn)確無誤地產(chǎn)生滿足該約束的所有項集。在挖掘過程中不必迭代地檢驗規(guī)則約束。約束規(guī)則約束規(guī)則v SS VS VS Vmin(S) vmin(S) vmin(S) vmax(S) vmax(S) vmax(S) vcount(S) vcount(S) vcount(S) vsum(S) vsum(S) v

11、sum(S) vavg(S) v, , , (frequent constraint)簡潔性簡潔性yesyesyesyesyesyesyesyesyesyesweaklyweaklyweakly nononono(no)2004年12月14日星期二Data Mining: Concepts and Techniques77Classification of ConstraintsConvertibleanti-monotoneConvertiblemonotoneStronglyconvertibleInconvertibleSuccinctAntimonotoneMonotonel CFG(

12、Constrained Frequent pattern Growth)算法: - 基于FP-Growth算法, 針對可轉(zhuǎn)變約束條件 - Can we push more constraints into frequent pattern mining? (J.Pei, J.Han KDD00)l MultipleJoins、Reorder和Direct算法: - 約束條件為布爾表達(dá)式形式 - Mining Association Rules with Item Constraints(Srikant, Vu&Agrawal 1997) Transaction_ID Items In

13、Transaction 100 a,e,c,d,f 200 a,b 300 a,e,c,f 400 a,e,b,c,d,f 500 a,e,b,d l交易數(shù)據(jù)庫TDB如下所示,支持度為 3 頻繁項目按照降續(xù)排列 :a:5; e:4; b:3; c:3; d:3; f:3l將排序后的每次交易的項目列表的前綴項目映射到條件數(shù)據(jù)庫TDB|f; TDB|d; TDB|c; TDB|b; TDB|e中l(wèi)例如:對于交易號為100的交易(a,e,c,d,f)。將f的前綴a,e,c,d插入f的條件數(shù)據(jù)庫TDB|f中;將d的前綴a,e,c插入d的條件數(shù)據(jù)庫TDB|d中;將c的前綴a,e插入c的條件數(shù)據(jù)庫TDB|

14、c中;將e的前綴a插入e的條件數(shù)據(jù)庫TDB|e中。TD Baecdf,ab,aecf,aebcdf,aebd Frequent items: a,e,b,c,d,f f-Conditional database TD B |f aecd,aec,aebcd frequent items:a,e,c TDB|d TDB|c TDB|e TDB|b l條件數(shù)據(jù)庫的性質(zhì):如果模式在 TDB|f 中是頻繁的,則f 在TDB|f中也一定是頻繁的l頻繁集的生長過程 1. 在 TDB|f 中找到相應(yīng)的頻繁項目集, 被稱為f的條件頻繁項目集 2. 對于每一個在中的頻繁項目e,找出TDB|ef 中相應(yīng)的頻繁項目

15、集,這是一個遞歸的過程lCaSum(S)180,所以可以不必考慮項集d。l如果不滿足約束,則不必產(chǎn)生的條件項目集,也不必產(chǎn)生的條件數(shù)據(jù)庫TDB | 例如: Sum(a,b)=200 180 ,不滿足約束條件Ca ,項集a,b的任何超集都不滿足約束,因此不必產(chǎn)生a,b的條件數(shù)據(jù)庫。l如果滿足約束,則不必對條件數(shù)據(jù)庫TDB| 中的其余部分用Ca進(jìn)行約束檢查,此處是在TDB | 中的頻繁項目集。 (No constraint checking in the remaining conditional database TDB| , if satisfies the constraint.) 例如:對

16、于條件數(shù)據(jù)庫TDB| f,只存在3個頻繁1-項集a, e, c,sum(a, c, e, f)160 180。顯然,項集a, c, e, f的任何子集均滿足約束條件Ca ,因此在對這個條件數(shù)據(jù)庫的挖掘過程中,就不必進(jìn)行約束條件檢查了。TDB aecdf,ab,aecf,aebcdf,aebd Frequent items: a,e,b,c,d,fC(a)=true; C(e)=true; C(b)=true; C(c)=true; C(f)=true; C(d)=false TDB|f aecd,aec,aebcd Frequent items: a,e,c因為C(aecf)=true;所以C

17、(af)=true; C(ef)=true; C(cf)=true; C(aef)=true; C(acf)=true; TDB|c ae,ae,aeb Frequent items: a,e因為C(aec)=true;所以C(ac)=true; C(ec)=true; TDB|b a,ae,ae Frequent items: a,e因為C(ab)=false;所以ab的所有超集均不滿足約束條件C TDB|e a,a,a,a Frequent items: aC(ae)=true;l我們所討論的約束條件為項約束條件,即要求關(guān)聯(lián)規(guī)則中至少包含用戶定義的一個項集中的某個項。設(shè)給定項約束條件B,B

18、為I上的一個布爾 表 達(dá) 式 。 假 設(shè) B 已 經(jīng) 轉(zhuǎn) 變 為 D N F 形 式 :d1 d2 dm, 其 中 每 個 di形 如 :ai1ai2ain。l定義1 如果aij為i或i,其中iI,那么分別稱為項包含條件或項不包含條件。如果項集X包含di中所有項包含條件,而且不包含di中所有項不包含條件,那么稱項集X滿足約束條件項di。如果X滿足約束條件B中某個約束條件項di,那么稱X滿足約束條件B。 lDirect算法能直接從約束條件B中產(chǎn)生候選項集。l候選項集產(chǎn)生方法: 11kBkBkDFLC具體步驟:1. 2. Delete all candidates in that do not satisfy B3. Delete all candidates in with a k-subset that satisfies B but does not have minimum support4. For each disjunct di=ai1ai2ain,in B with exactly k+1 non-negated elements ,add the itemset to if all the are fre

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論