《Weka關(guān)聯(lián)規(guī)則解析》課件_第1頁
《Weka關(guān)聯(lián)規(guī)則解析》課件_第2頁
《Weka關(guān)聯(lián)規(guī)則解析》課件_第3頁
《Weka關(guān)聯(lián)規(guī)則解析》課件_第4頁
《Weka關(guān)聯(lián)規(guī)則解析》課件_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

Weka系統(tǒng)中的關(guān)聯(lián)規(guī)則1.Apriori2.PredictiveApriori3.Terius《Weka關(guān)聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第1頁!關(guān)聯(lián)規(guī)則的基本概念

設(shè)I={i1,i2,…,im}是所有數(shù)據(jù)項的集合,相當(dāng)于商品的所有種類的集合。設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫所有事務(wù)的集合,其中每個事務(wù)T是數(shù)據(jù)項的集合,使得。每一個事務(wù)有一個標(biāo)識符,稱作TID。設(shè)A是一個項集,事務(wù)T包含A當(dāng)且僅當(dāng)。關(guān)聯(lián)規(guī)則是形如的蘊涵式,其中,,并且。規(guī)則在事務(wù)集D中成立,具有支持度s,其中s是D中事務(wù)包含(即A和B二者)的百分比。它是概率P()。規(guī)則在事務(wù)集D中具置信度c,如果D中包含A的事務(wù)同時也包含B的百分比是c。這是條件概率P(B|A)。即是

Support(A=>B)=P(AUB)Confidence(A=>B)=P(B|A)。同時滿足最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的規(guī)則稱作強關(guān)聯(lián)規(guī)則?!禬eka關(guān)聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第2頁!Apriori算法綜述

經(jīng)典的頻集算法

Agrawal等于1994年提出了一個挖掘顧客交易數(shù)據(jù)庫中項集間的關(guān)聯(lián)規(guī)則的重要方法,其核心是基于兩個階段頻繁集思想的遞推算法。所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。算法的基本思想首先找出所有的頻繁集,這些項集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻繁集產(chǎn)生強關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。

《Weka關(guān)聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第3頁!Procedureapriori_gen(Lk-1,min_sup)(1)foreachl1∈Lk-1(2)foreachl2∈Lk-1

(3)if(l1[1]=l2[1])∧…∧(l1[k-2]=l2[k-2])∧(l1[k-1]=l2[k-1]){(4)c=l1joinl2;//將兩個項集連接到一起(5)ifhas_infrequent_itemset(c,Lk-1)(6)deletec;//除去不可能產(chǎn)生頻繁項集的候選(7)elseCk=Ck{c};(8)}(9)ReturnCk;procedurehas_infrequent_subset(c,Lk-1)(1)foreach(k-1)-subsetsofc(2)ifsLk-1returnTRUE;elsereturnFALSE;《Weka關(guān)聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第4頁!PredictiveApriori算法將置信度和支持度合并為預(yù)測精度而成為單一度測量法找出經(jīng)過預(yù)測精度排序的關(guān)聯(lián)規(guī)則《Weka關(guān)聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第5頁!實例:期貨市場與現(xiàn)貨市場之間的關(guān)聯(lián)性研究

源數(shù)據(jù)介紹數(shù)據(jù)是2004年1月到2006年8月的小麥期貨市場和現(xiàn)貨市場的價格,其中期貨市場價格來自鄭州商品交易所,選硬冬白小麥(WT609),價格為每月的收盤價,現(xiàn)貨市場的價格來自國家糧油信息中心,為中等普通小麥?zhǔn)袌雠l(fā)價格,價格數(shù)值為每個月的下旬平均價。單位均轉(zhuǎn)換為元/噸?!禬eka關(guān)聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第6頁!小麥期貨市場和現(xiàn)貨市場的價格數(shù)據(jù)《Weka關(guān)聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第7頁!現(xiàn)貨市場的最高價是2004年3月,價格為1642元/噸,最低價是2004年的1月份,價格為1401元/噸。與期貨市場采用相同的方法進(jìn)行離散化分箱操作,價差為(1642-1401)/5=48.2,分區(qū)間可得:

[1642,1593.8) 用HC表示;

[1593.8,1545.6)用HMC表示;

[1545.6,1497.4)用MC表示;

[1497.4,1449.2)用MLC表示;

[1449.2,1401]用LC表示。其中C為current,代表現(xiàn)貨市場?!禬eka關(guān)聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第8頁!Weka打開數(shù)據(jù)文件《Weka關(guān)聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第9頁!使用Apriori進(jìn)行分析

《Weka關(guān)聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第10頁!使用Apriori的調(diào)整設(shè)置《Weka關(guān)聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第11頁!使用Apriori的調(diào)整設(shè)置調(diào)整Apriori參數(shù),將minMitric(最小置信度)從0.9調(diào)成0.55。再次運算可得:Bestrulesfound:1.Future=LF3==>Current=LC3conf:(1)2.Current=MLC7==>Future=MLF4conf:(0.57)3.Future=HMF7==>Current=HMC4conf:(0.57)規(guī)則的意義為:如果期貨市場上小麥價格低,那么現(xiàn)貨市場的價格也是低,可信度100%。如果現(xiàn)貨市場上小麥價格中低,那么期貨市場的價格也是中低,可信度57%。如果期貨市場上小麥價格中高,那么現(xiàn)貨市場的價格也是中高,可信度57%。這幾條規(guī)則后也許可以判斷出這兩個價格之間存在著某種的正關(guān)聯(lián)關(guān)系。但其關(guān)聯(lián)程度如何,是否真正有正關(guān)聯(lián)便不得而知?!禬eka關(guān)聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第12頁!

·使用PredictiveApriori進(jìn)行挖掘Bestrulesfound:1.Future=LF3==>Current=LC3acc:(0.77994)2.Future=HMF7==>Current=HMC4acc:(0.47441)3.Current=MLC7==>Future=MLF4acc:(0.47441)4.Future=MLF10==>Current=LC5acc:(0.45524)5.Current=LC10==>Future=MLF5acc:(0.45524)6.Current=MC3==>Future=MF2acc:(0.45055)7.Current=HMC8==>Future=HMF4acc:(0.44328)8.Future=HF4==>Current=HC2acc:(0.40743)9.Future=HF4==>Current=HMC2acc:(0.40743)10.Current=HC4==>Future=HMF2acc:(0.40743)11.Current=HC4==>Future=HF2acc:(0.40743)12.Future=MLF10==>Current=MLC4acc:(0.3811)13.Current=LC10==>Future=LF3acc:(0.30799)14.Future=HMF7==>Current=HC2acc:(0.30513)15.Current=MLC7==>Future=MF2acc:(0.30513)16.Future=MF8==>Current=LC2acc:(0.28063)17.Future=MF8==>Current=MLC2acc:(0.28063)18.Current=HMC8==>Future=MF2acc:(0.28063)19.Current=HMC8==>Future=HF2acc:(0.28063)20.Current=LC10==>Future=MF2acc:(0.24374)共20條規(guī)則。其中前3條與Apriori的所挖出來的3條規(guī)則類似??梢钥闯觯琍redictiveApriori按acc數(shù)值的大小幾乎將所有規(guī)則都挖出來。規(guī)則雖然很多,但并沒有指出期貨市場與現(xiàn)貨市場的關(guān)聯(lián)關(guān)系。《Weka關(guān)聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第13頁!·使用Terius進(jìn)行挖掘得出的規(guī)則1./*0.3402600.000000*/Future=LF==>Current=LC2./*0.2917730.093750*/Future=HMF==>Current=HMC3./*0.2850940.125000*/Current=HMC==>Future=HMF4./*0.2588840.218750*/Current=LC==>Future=LF5./*0.2385760.093750*/Current=MLC==>Future=MLF6./*0.2356300.156250*/Current=LC==>Future=MLF7./*0.2356300.156250*/Future=MLF==>Current=LC8./*0.2265940.187500*/Future=MLF==>Current=MLC9./*0.2117750.062500*/Current=HC==>Future=HF10./*0.2117750.062500*/Future=HF==>Current=HC11./*0.2004720.031250*/Current=MC==>Future=MF12./*0.1636360.062500*/Current=HC==>Future=HMFNumberofhypothesesconsidered:70Numberofhypothesesexplored:70Time:00min00s032ms共得出12條規(guī)則。第二條規(guī)則的意思期貨市場價格中高那么現(xiàn)貨市場價格也是中高。第三條規(guī)則反過來了,就是現(xiàn)貨市場價格中高那么期貨市場價格也是中高。規(guī)則很多,但并不是什么重要的信息。《Weka關(guān)聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第14頁!Apriori核心算法分析為生成所有頻繁集,使用了遞推的方法。其核心思想簡要描述如下:

輸入:交易數(shù)據(jù)庫D,最小支持閾值min_sup;輸出:Li,D中的頻繁項集;方法:(1)L1=find_frequent_1_itemset(D);//發(fā)現(xiàn)1-項集(2)For(k=2;Lk-1≠?;k++){(3)Ck=apriori_gen(Lk-1,min_sup);//根據(jù)頻繁(k-1)-項集產(chǎn)生候選k-項集(4)Foreacht∈D{//掃描數(shù)據(jù)庫,確定每個候選集的支持頻度(5)Ct=subset(Ck,t);//獲得t所包含的候選項集(6)Foreachc∈Ctc.count++;(7)}(8)Lk={c∈Ct|c.count>min_sup};(9)ReturnL=UkLk;《Weka關(guān)聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第15頁!Apriori算法的第(1)步就是發(fā)現(xiàn)頻繁1-項集L1;在第(2)至第(8)步,利用Lk-1產(chǎn)生Ck以便獲得Lk。apriori_gen過程產(chǎn)生相應(yīng)的候選項集;然后利用Apriori性質(zhì)刪除那些子集為非頻繁項集的候選項集(第(3)步)。一但產(chǎn)生所有候選,就要掃描數(shù)據(jù)庫(第(4)步),對于數(shù)據(jù)庫中的每個交易利用subset函數(shù)來幫助發(fā)現(xiàn)該交易記錄的所有(已成為候選項集)的子集(第(5)步),由此累計每個候選項集的支持頻度(第(6)步)。最終滿足最小支持頻度的候選項集組成了頻繁項集L。這樣可以利用一個過程來幫助從所獲得頻繁項集中生成所有的關(guān)聯(lián)規(guī)則。Apriori過程完成兩種操作,那就是連接和消減操作。在連接過程中,Lk-1與Lk-1相連接以產(chǎn)生潛在候選項集(Apriori算法中的第(1)步至第(4)步);消減過程中(Apriori算法中的第(5)步至第(6)步)利用Apriori性質(zhì)消除候選項集中那些子集為非頻繁項集的項集??赡墚a(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫,是Apriori算法的兩大缺點。《Weka關(guān)聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第16頁!Terius算法根據(jù)確認(rèn)度來尋找規(guī)則,它與Apriori一樣尋找其結(jié)論中含有多重條件的規(guī)則,但不同的是這些條件相互間是‘或’,而不是‘與’的關(guān)系?!禬eka關(guān)聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第17頁!數(shù)據(jù)預(yù)處理

WEKA數(shù)據(jù)挖掘平臺上的關(guān)聯(lián)規(guī)則挖掘算法有三種,分別是Apriori、PredictiveApriori和Terius,這三個算法均不支持?jǐn)?shù)值型數(shù)據(jù)。事實上,絕大部分的關(guān)聯(lián)規(guī)則算法均不支持?jǐn)?shù)值型。所以必須將數(shù)據(jù)進(jìn)行處理,將數(shù)據(jù)按區(qū)段進(jìn)行劃分,進(jìn)行離散化分箱處理?!禬eka關(guān)聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第18頁!期貨市場的最高價是2004年9月,價格為1700元/噸,最低價是2006年6月,價格為1266元/噸。根據(jù)實際情況和業(yè)務(wù)需求,將價格按高低分為5個部分,分別為高、中高、中、中低和低。其劃分方法是:將最高價減去最低價再除以5,得價差。即(1700-1266)/5=86.8。將最高價減去價差,得區(qū)間最低值,即1700-86.8=1613.2。將區(qū)間最低值減去價差,得第二區(qū)間最低值,即1613.2-86.8=1526.4。依步驟3,得第三區(qū)間最低值1439.6和第四區(qū)間最低值1352.8。每個區(qū)間的最低值為下一區(qū)間的最高值。這樣就可以分為[1700,1613.2),[1613.2,1526.4),[1526.4,1439.6),[1439.6,1352.8),[1352.8,1266]。分別用HF,HMF,MF,MLF,LF表示,其中H為high,代表高,M為medium代表中,L為low,代表低。

F為future,代表期貨市場。《Weka關(guān)聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第19頁!離散化分箱后數(shù)據(jù)文件《Weka關(guān)聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第20頁!刪除不需要的屬性《Weka關(guān)聯(lián)規(guī)則解析》課件共26頁,您現(xiàn)在瀏覽的是第21頁!使用Apriori進(jìn)行分析

Apri

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論