




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、Data Mining關(guān)聯(lián)規(guī)那么分析及運(yùn)用2019-10-121目錄目錄根本概念根本概念關(guān)聯(lián)規(guī)那么發(fā)掘過程關(guān)聯(lián)規(guī)那么發(fā)掘過程分類分類關(guān)聯(lián)規(guī)那么的價(jià)值衡量關(guān)聯(lián)規(guī)那么的價(jià)值衡量4123發(fā)掘算法發(fā)掘算法關(guān)聯(lián)規(guī)那么的運(yùn)用關(guān)聯(lián)規(guī)那么的運(yùn)用562019-10-122緒論緒論p在購買鐵錘的顧客當(dāng)中,有70的人同時(shí)購買了鐵釘。p年齡在40 歲以上,任務(wù)在A區(qū)的投保人當(dāng)中,有45的人曾經(jīng)向保險(xiǎn)公司索賠過。p p在超市購買面包的人有70%會購買牛奶2019-10-123緒論緒論2019-10-124一、根本概念一、根本概念設(shè) I=I1,I2,In 是項(xiàng)的集合。義務(wù)相關(guān)數(shù)據(jù)D:是事務(wù)或元組的集合。事務(wù)T:是項(xiàng)的集合
2、,且每個(gè)事務(wù)具有事務(wù)標(biāo)識符TID。項(xiàng)集A:是T 的一個(gè)子集,加上TID 即事務(wù)。項(xiàng)集(Items):項(xiàng)的集合,包含k個(gè)項(xiàng)的項(xiàng)集稱為k-項(xiàng)集,如二項(xiàng)集I1,I2。支持度計(jì)數(shù)(Support count):一個(gè)項(xiàng)集的出現(xiàn)次數(shù)就是整個(gè)數(shù)據(jù)集中包含該項(xiàng)集的事務(wù)數(shù)。2019-10-125一、根本概念一、根本概念TIDItems001I1、I2、I5002I2、I4003I2、I3004I1、I2、I4005I1、I3006I2、I3007I1、I3008I1、I2、I3、I5009I1、I2、I3DTABInInn=1,2,n=1,2,指詳細(xì)工程,如指詳細(xì)工程,如購物籃分析中:購物籃分析中:I1=I1=
3、蘋果蘋果I2=I2=面包面包I3=I3=牛奶牛奶I4=I4=尿布尿布I5=I5=啤酒啤酒Support-Support-count(I1)=6count(I1)=62019-10-126一、根本概念一、根本概念v關(guān)聯(lián)規(guī)那么:形如 A = B 的蘊(yùn)涵式,其中A I , BI,并且 AB =。v支持度:關(guān)聯(lián)規(guī)那么在D中的支持度(support)是D中事務(wù)同時(shí)包含A、B的百分比,即概率。規(guī)那么代表性、重要性衡量v Support(A B)=P ( A B )v = support _ count(AB)v count (T)v頻繁項(xiàng)集:假設(shè)一個(gè)項(xiàng)集的支持度大于等于某個(gè)閾值。2019-10-127一、
4、根本概念一、根本概念v置信度置信度c:是包含是包含A的事務(wù)中同時(shí)又包含的事務(wù)中同時(shí)又包含B的百分比,的百分比,即條件概率。即條件概率。規(guī)那么準(zhǔn)確性衡量規(guī)那么準(zhǔn)確性衡量v confidence ( A B ) = P ( B | A)v強(qiáng)關(guān)聯(lián)規(guī)那么:同時(shí)滿足用戶定義的最小支持度強(qiáng)關(guān)聯(lián)規(guī)那么:同時(shí)滿足用戶定義的最小支持度閾值閾值min_sup和最小置信度閾值和最小置信度閾值(min_conf)的的規(guī)那么稱為強(qiáng)規(guī)那么。規(guī)那么稱為強(qiáng)規(guī)那么。2019-10-128=9support _ count ( A U B )support_count ( A)二、關(guān)聯(lián)規(guī)那么發(fā)掘過程二、關(guān)聯(lián)規(guī)那么發(fā)掘過程兩個(gè)步驟
5、:找出一切頻繁項(xiàng)集。 由頻繁項(xiàng)集生成滿足最小信任度閾值的規(guī)那么。發(fā)掘方式:2019-10-129min_supmin_conf產(chǎn)生頻繁項(xiàng)集生成強(qiáng)關(guān)聯(lián)規(guī)那么規(guī)那么評價(jià)用戶Database二、關(guān)聯(lián)規(guī)那么發(fā)掘過程二、關(guān)聯(lián)規(guī)那么發(fā)掘過程關(guān)聯(lián)規(guī)那么發(fā)掘舉例:關(guān)聯(lián)規(guī)那么發(fā)掘舉例: 假定數(shù)據(jù)包含頻繁項(xiàng)集假定數(shù)據(jù)包含頻繁項(xiàng)集M=I1,I2,I5??梢杂伞?梢杂蒑 產(chǎn)生哪些關(guān)聯(lián)規(guī)那么?產(chǎn)生哪些關(guān)聯(lián)規(guī)那么?2019-10-1210二、關(guān)聯(lián)規(guī)那么發(fā)掘過程二、關(guān)聯(lián)規(guī)那么發(fā)掘過程v M 的非空真子集有I1,I2、I1,I5、I2,I5、I1、I2和I5。那么結(jié)果關(guān)聯(lián)規(guī)那么如下,每個(gè)都列出置信度。2019-10-1211
6、項(xiàng)集項(xiàng)集支持度支持度計(jì)數(shù)計(jì)數(shù)67622I1I2I3I4I5項(xiàng)集項(xiàng)集支持度計(jì)支持度計(jì)數(shù)數(shù)I1,I24 4I1,I34 4I1,I52 2I2,I34 4I2,I42 2I2,I52 2項(xiàng)集項(xiàng)集支持度支持度計(jì)數(shù)計(jì)數(shù)I1,I2,I32I1,I2,I52二、關(guān)聯(lián)規(guī)那么發(fā)掘過程二、關(guān)聯(lián)規(guī)那么發(fā)掘過程I1 I2 I5,I1 I5 I2,I2 I5 I1,I1 I2 I5,I2 I1 I5,I5 I1 I2,2019-10-1212confidence = 2/4 = 50 % confidence = 2/2 = 100 %confidence = 2/2 = 100 %confidence = 2/6
7、= 33%confidence = 2/7 = 29%confidence = 2/2 = 100 %二、關(guān)聯(lián)規(guī)那么發(fā)掘過程二、關(guān)聯(lián)規(guī)那么發(fā)掘過程假設(shè)最小置信度閾值為70%,那么只需第2、3、6個(gè)規(guī)那么可以作為最終的結(jié)果輸出,由于只需這些是產(chǎn)生的強(qiáng)關(guān)聯(lián)規(guī)那么。2019-10-1213I1 I5 I2,I2 I5 I1,I5 I1 I2,confidence = 2/2 = 100 %confidence = 2/2 = 100%confidence = 2/2 = 100%二、關(guān)聯(lián)規(guī)那么發(fā)掘過程二、關(guān)聯(lián)規(guī)那么發(fā)掘過程對強(qiáng)關(guān)聯(lián)規(guī)那么的批判:eg:2019-10-1214項(xiàng)目項(xiàng)目打籃球打籃球不打籃
8、球不打籃球合計(jì)合計(jì)喝麥片200017503750不喝麥片10002501250合計(jì)300020005000 在5000個(gè)學(xué)生中,3000個(gè)打籃球,3750個(gè)喝麥片粥,2000個(gè)學(xué)生既打籃球又喝麥片粥。打籃球 = 喝麥片粥 40%, 66.7%是錯(cuò)誤的,由于全部學(xué)生中喝麥片粥的比率是75%,比打籃球?qū)W生的66.7%要高。打籃球 = 不喝麥片粥 20%, 33.3%這個(gè)規(guī)那么遠(yuǎn)比上面那個(gè)要準(zhǔn)確,雖然支持度和置信度都要低的多。二、關(guān)聯(lián)規(guī)那么發(fā)掘過程二、關(guān)聯(lián)規(guī)那么發(fā)掘過程興趣度作用度:描畫了項(xiàng)集A對項(xiàng)集B的影響力的大小,即A與B的相關(guān)程度。 P(AB) P(A)P(B)假設(shè)I(A B)=1,即P(A)
9、P(B)=P(AB),A與B相互獨(dú)立;假設(shè)I(A B)1,表示A出現(xiàn)和B出現(xiàn)是正相關(guān)的。意味著A的出 現(xiàn)蘊(yùn)含B的出現(xiàn)。小結(jié):只需興趣度大于1,該規(guī)那么才具有實(shí)踐價(jià)值。2019-10-1215I(A B)=三、關(guān)聯(lián)規(guī)那么的分類三、關(guān)聯(lián)規(guī)那么的分類p基于規(guī)那么中處置的變量的類別基于規(guī)那么中處置的變量的類別p布爾型:布爾型關(guān)聯(lián)規(guī)那么處置的值都是離散的、布爾型:布爾型關(guān)聯(lián)規(guī)那么處置的值都是離散的、種類化的,它顯示了這些變量之間的關(guān)系;種類化的,它顯示了這些變量之間的關(guān)系;pB. 數(shù)值型:數(shù)值型關(guān)聯(lián)規(guī)那么可以和多維關(guān)聯(lián)或數(shù)值型:數(shù)值型關(guān)聯(lián)規(guī)那么可以和多維關(guān)聯(lián)或多層多層 關(guān)聯(lián)規(guī)那么結(jié)合起來,對數(shù)值型字段進(jìn)
10、展關(guān)聯(lián)規(guī)那么結(jié)合起來,對數(shù)值型字段進(jìn)展處置。處置。p eg: 性別性別=“女女=職業(yè)職業(yè)=“秘書秘書 p 性別性別=“女女=avg收入收入=23002019-10-1216三、關(guān)聯(lián)規(guī)那么的分類三、關(guān)聯(lián)規(guī)那么的分類p基于規(guī)那么中處置的變量的類別基于規(guī)那么中處置的變量的類別p布爾型布爾型:布爾型關(guān)聯(lián)規(guī)那么處置的值都是離散的、布爾型關(guān)聯(lián)規(guī)那么處置的值都是離散的、種類化的,它顯示了這些變量之間的關(guān)系;種類化的,它顯示了這些變量之間的關(guān)系;pB. 數(shù)值型數(shù)值型 :數(shù)值型關(guān)聯(lián)規(guī)那么可以和多維關(guān)聯(lián)或數(shù)值型關(guān)聯(lián)規(guī)那么可以和多維關(guān)聯(lián)或多層多層 關(guān)聯(lián)規(guī)那么結(jié)合起來,對數(shù)值型字段進(jìn)展處關(guān)聯(lián)規(guī)那么結(jié)合起來,對數(shù)值型字
11、段進(jìn)展處置。置。p eg: 性別性別=“女女=職業(yè)職業(yè)=“秘書秘書 p 性別性別=“女女=avg收入收入=23002019-10-1217三、關(guān)聯(lián)規(guī)那么的分類三、關(guān)聯(lián)規(guī)那么的分類p基于規(guī)那么中數(shù)據(jù)的籠統(tǒng)層次:基于規(guī)那么中數(shù)據(jù)的籠統(tǒng)層次:p單層關(guān)聯(lián)規(guī)那么單層關(guān)聯(lián)規(guī)那么:一切的變量都沒有思索到現(xiàn)實(shí)的一切的變量都沒有思索到現(xiàn)實(shí)的數(shù)據(jù)是具有多個(gè)不同的層次的;數(shù)據(jù)是具有多個(gè)不同的層次的;p多層關(guān)聯(lián)規(guī)那么多層關(guān)聯(lián)規(guī)那么:對數(shù)據(jù)的多層性曾經(jīng)進(jìn)展了充分對數(shù)據(jù)的多層性曾經(jīng)進(jìn)展了充分的思索。的思索。p 層:大類能否細(xì)分的問題,如上衣可以細(xì)分為層:大類能否細(xì)分的問題,如上衣可以細(xì)分為 襯衣、夾克、風(fēng)衣等。襯衣、夾克
12、、風(fēng)衣等。peg: IBM臺式機(jī)臺式機(jī)=Sony打印機(jī)打印機(jī)p 臺式機(jī)臺式機(jī)=Sony打印機(jī)打印機(jī)2019-10-1218三、關(guān)聯(lián)規(guī)那么的分類三、關(guān)聯(lián)規(guī)那么的分類2019-10-1219分層例如:三、關(guān)聯(lián)規(guī)那么的分類三、關(guān)聯(lián)規(guī)那么的分類2019-10-1220p基于規(guī)那么中數(shù)據(jù)的維數(shù):基于規(guī)那么中數(shù)據(jù)的維數(shù):p單維關(guān)聯(lián)規(guī)那么單維關(guān)聯(lián)規(guī)那么:只涉及到數(shù)據(jù)的一個(gè)維,如用戶只涉及到數(shù)據(jù)的一個(gè)維,如用戶購買的物品;購買的物品;p多維關(guān)聯(lián)規(guī)那么多維關(guān)聯(lián)規(guī)那么:要處置的數(shù)據(jù)將會涉及多個(gè)維。要處置的數(shù)據(jù)將會涉及多個(gè)維。p p eg: 啤酒啤酒=尿布尿布p 性別性別=“女女=職業(yè)職業(yè)=“秘書秘書TID姓名姓名
13、性別性別職業(yè)職業(yè)購買物品購買物品月工資月工資001張三女秘書尿布3000002李四男工程師啤酒、尿布5000四、關(guān)聯(lián)規(guī)那么的價(jià)值衡量四、關(guān)聯(lián)規(guī)那么的價(jià)值衡量對關(guān)聯(lián)規(guī)那么的評價(jià)與價(jià)值衡量涉及兩個(gè)層面:對關(guān)聯(lián)規(guī)那么的評價(jià)與價(jià)值衡量涉及兩個(gè)層面:A.A.系統(tǒng)客觀的層面系統(tǒng)客觀的層面 運(yùn)用運(yùn)用“支持度和信任度框架能夠會產(chǎn)生一些支持度和信任度框架能夠會產(chǎn)生一些不正確的規(guī)那么。不正確的規(guī)那么。B.B.用戶客觀的層面用戶客觀的層面只需用戶才干決議規(guī)那么的有效性、可行性。只需用戶才干決議規(guī)那么的有效性、可行性。假設(shè)把某些約束條件與算法嚴(yán)密結(jié)合,既能提高數(shù)假設(shè)把某些約束條件與算法嚴(yán)密結(jié)合,既能提高數(shù)據(jù)發(fā)掘效率,又能明確數(shù)據(jù)發(fā)掘的目的。據(jù)發(fā)掘效率,又能明確數(shù)據(jù)發(fā)掘的目的。 2019-10-1221五、關(guān)聯(lián)規(guī)那么的發(fā)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江蘇省南通市如皋市2024-2025學(xué)年高二(下)期中語文試題(含答案)
- 考滿分!工程經(jīng)濟(jì)練習(xí)題試題及答案
- 乳制品行業(yè)奶源質(zhì)量控制與品牌競爭力提升策略報(bào)告
- 基于在線評測的2025年在線教育平臺教學(xué)質(zhì)量評估與改進(jìn)策略
- 工程項(xiàng)目管理目標(biāo)達(dá)成策略試題及答案
- 社會福利與市政學(xué)試題及答案
- 現(xiàn)代管理學(xué)的實(shí)操研究與試題及答案
- 全面掌握工程經(jīng)濟(jì)試題及答案
- 2025年高端定制農(nóng)產(chǎn)品市場品牌傳播策略研究報(bào)告
- 工程項(xiàng)目管理行業(yè)需求試題及答案
- 時(shí)間序列分類與聚類方法-深度研究
- 七年級數(shù)學(xué)下冊 第3章 單元綜合測試卷(北師陜西版 2025年春)
- 2025年高校教師資格證考試題庫(帶答案能力提升)
- 2024年公司網(wǎng)絡(luò)安全管理制度
- NCCN化療止吐指南教程
- 《小王子》講解+知識點(diǎn)+教案+課件
- 2025年甘肅蘭州市事業(yè)單位招考(868人)高頻重點(diǎn)提升(共500題)附帶答案詳解
- 生成式人工智能的教育應(yīng)用與展望-以ChatGPT 系統(tǒng)為例
- 妊娠期糖尿病病人的護(hù)理查房
- 幼兒園大班游戲中“一對一傾聽”的策略
- 醫(yī)院信息安全管理課件
評論
0/150
提交評論