版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Data Mining關(guān)聯(lián)規(guī)則分析及應(yīng)用關(guān)聯(lián)規(guī)則分析及應(yīng)用2012-10-121目錄目錄基本概念基本概念關(guān)聯(lián)規(guī)則挖掘過程關(guān)聯(lián)規(guī)則挖掘過程分類分類關(guān)聯(lián)規(guī)則的價(jià)值衡量關(guān)聯(lián)規(guī)則的價(jià)值衡量4123挖掘算法挖掘算法關(guān)聯(lián)規(guī)則的應(yīng)用關(guān)聯(lián)規(guī)則的應(yīng)用562012-10-122緒論緒論p 在購(gòu)買鐵錘的顧客當(dāng)中,有70的人同時(shí)購(gòu)買了鐵釘。p 年齡在40 歲以上,工作在A區(qū)的投保人當(dāng)中,有45的人曾經(jīng)向保險(xiǎn)公司索賠過。 p 在超市購(gòu)買面包的人有70%會(huì)購(gòu)買牛奶2012-10-123緒論緒論2012-10-124一、基本概念一、基本概念設(shè) I=I1,I2,In 是項(xiàng)的集合。v任務(wù)相關(guān)數(shù)據(jù)D:是事務(wù)(或元組)的集合。v事
2、務(wù)T:是項(xiàng)的集合,且每個(gè)事務(wù)具有事務(wù)標(biāo)識(shí)符TID。v項(xiàng)集A:是T 的一個(gè)子集,加上TID 即事務(wù)。v項(xiàng)集(Items):項(xiàng)的集合,包含k個(gè)項(xiàng)的項(xiàng)集稱為k-項(xiàng)集,如二項(xiàng)集如二項(xiàng)集I1,I2。v支持度計(jì)數(shù)(Support count):一個(gè)項(xiàng)集的出現(xiàn)次數(shù)就是整個(gè)數(shù)據(jù)集中包含該項(xiàng)集的事務(wù)數(shù)。2012-10-125一、基本概念一、基本概念TIDItems001I1、I2、I5002I2、I4003I2、I3004I1、I2、I4005I1、I3006I2、I3007I1、I3008I1、I2、I3、I5009I1、I2、I3DTABI In(n=1,2,)指具體項(xiàng)目,如購(gòu)物籃分析中:I1=蘋果I2=面
3、包I3=牛奶I4=尿布I5=啤酒Support-count(I1)=62012-10-126一、基本概念一、基本概念v 關(guān)聯(lián)規(guī)則:形如 A = B 的蘊(yùn)涵式,其中A I , BI,并且 AB =。v 支持度:關(guān)聯(lián)規(guī)則在D中的支持度(support)是D中事務(wù)同時(shí)包含A、B的百分比,即概率。規(guī)則代表性、重要性衡量 Support(A B)=P ( A B ) = support _ count(AB) count (T)v 頻繁項(xiàng)集:若一個(gè)項(xiàng)集的支持度大于等于某個(gè)閾值。2012-10-127一、基本概念一、基本概念v 置信度置信度c:是包含A的事務(wù)中同時(shí)又包含B的百分比,即條件概率。規(guī)則準(zhǔn)確性衡
4、量 confidence ( A B ) = P ( B | A)v 強(qiáng)關(guān)聯(lián)規(guī)則:同時(shí)滿足用戶定義的最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的規(guī)則稱為強(qiáng)規(guī)則。2012-10-128=9support _ count ( A U B )support_count ( A)二、關(guān)聯(lián)規(guī)則挖掘過程二、關(guān)聯(lián)規(guī)則挖掘過程兩個(gè)步驟: 找出所有頻繁項(xiàng)集。 由頻繁項(xiàng)集生成滿足最小信任度閾值的規(guī)則。挖掘模式:2012-10-129min_supmin_conf產(chǎn)生頻繁項(xiàng)集生成強(qiáng)關(guān)聯(lián)規(guī)則規(guī)則評(píng)價(jià)用戶Database二、關(guān)聯(lián)規(guī)則挖掘過程二、關(guān)聯(lián)規(guī)則挖掘過程關(guān)聯(lián)規(guī)則挖掘舉例:關(guān)聯(lián)規(guī)則挖掘舉例
5、: 假定數(shù)據(jù)包含頻繁項(xiàng)集M=I1,I2,I5??梢杂蒑 產(chǎn)生哪些關(guān)聯(lián)規(guī)則?2012-10-1210二、關(guān)聯(lián)規(guī)則挖掘過程二、關(guān)聯(lián)規(guī)則挖掘過程vM 的非空真子集有I1,I2、I1,I5、I2,I5、I1、I2和I5。則結(jié)果關(guān)聯(lián)規(guī)則如下,每個(gè)都列出置信度。2012-10-1211項(xiàng)集項(xiàng)集支持度計(jì)支持度計(jì)數(shù)數(shù)67622I1I2I3I4I5項(xiàng)集項(xiàng)集支持度計(jì)支持度計(jì)數(shù)數(shù)I1,I24 4I1,I34 4I1,I52 2I2,I34 4I2,I42 2I2,I52 2項(xiàng)集項(xiàng)集支持度支持度計(jì)數(shù)計(jì)數(shù)I1,I2,I32I1,I2,I52二、關(guān)聯(lián)規(guī)則挖掘過程二、關(guān)聯(lián)規(guī)則挖掘過程I1 I2 I5,I1 I5 I2,I2
6、 I5 I1,I1 I2 I5,I2 I1 I5,I5 I1 I2,2012-10-1212confidence = 2/4 = 50 % confidence = 2/2 = 100 %confidence = 2/2 = 100 %confidence = 2/6 = 33%confidence = 2/7 = 29%confidence = 2/2 = 100 %二、關(guān)聯(lián)規(guī)則挖掘過程二、關(guān)聯(lián)規(guī)則挖掘過程如果最小置信度閾值為70%,那么只有第2、3、6個(gè)規(guī)則可以作為最終的結(jié)果輸出,因?yàn)橹挥羞@些是產(chǎn)生的強(qiáng)關(guān)聯(lián)規(guī)則。2012-10-1213I1 I5 I2,I2 I5 I1,I5 I1 I2,
7、confidence = 2/2 = 100 %confidence = 2/2 = 100%confidence = 2/2 = 100%二、關(guān)聯(lián)規(guī)則挖掘過程二、關(guān)聯(lián)規(guī)則挖掘過程對(duì)強(qiáng)關(guān)聯(lián)規(guī)則的批評(píng):eg:2012-10-1214項(xiàng)目項(xiàng)目打籃球打籃球不打籃球不打籃球合計(jì)合計(jì)喝麥片200017503750不喝麥片10002501250合計(jì)300020005000 在5000個(gè)學(xué)生中,3000個(gè)打籃球,3750個(gè)喝麥片粥,2000個(gè)學(xué)生既打籃球又喝麥片粥。 打籃球 = 喝麥片粥 40%, 66.7%是錯(cuò)誤的,因?yàn)槿繉W(xué)生中喝麥片粥的比率是75%,比打籃球?qū)W生的66.7%要高。 打籃球 = 不喝麥片
8、粥 20%, 33.3%這個(gè)規(guī)則遠(yuǎn)比上面那個(gè)要精確,盡管支持度和置信度都要低的多。二、關(guān)聯(lián)規(guī)則挖掘過程二、關(guān)聯(lián)規(guī)則挖掘過程興趣度(作用度):描述了項(xiàng)集A對(duì)項(xiàng)集B的影響力的大小,即A與B的相關(guān)程度。 P(AB) P(A)P(B)若I(A B)=1,即P(A)P(B)=P(AB),A與B相互獨(dú)立;若I(A B)1,表示A出現(xiàn)和B出現(xiàn)是正相關(guān)的。意味著A的出 現(xiàn)蘊(yùn)含B的出現(xiàn)。小結(jié):只有興趣度大于1,該規(guī)則才具有實(shí)際價(jià)值。2012-10-1215I(A B)=三、關(guān)聯(lián)規(guī)則的分類三、關(guān)聯(lián)規(guī)則的分類p 基于規(guī)則中處理的變量的類別基于規(guī)則中處理的變量的類別v布爾型:布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的
9、,它顯示了這些變量之間的關(guān)系;B. 數(shù)值型:數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層 關(guān)聯(lián)規(guī)則結(jié)合起來,對(duì)數(shù)值型字段進(jìn)行處理。 eg: 性別=“女”=職業(yè)=“秘書” 性別=“女”=avg(收入)=23002012-10-1216三、關(guān)聯(lián)規(guī)則的分類三、關(guān)聯(lián)規(guī)則的分類p 基于規(guī)則中處理的變量的類別基于規(guī)則中處理的變量的類別v布爾型:布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的,它顯示了這些變量之間的關(guān)系;B. 數(shù)值型 :數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層 關(guān)聯(lián)規(guī)則結(jié)合起來,對(duì)數(shù)值型字段進(jìn)行處理。 eg: 性別=“女”=職業(yè)=“秘書” 性別=“女”=avg(收入)=23002012-10-1217三、關(guān)聯(lián)規(guī)
10、則的分類三、關(guān)聯(lián)規(guī)則的分類p 基于規(guī)則中數(shù)據(jù)的抽象層次:基于規(guī)則中數(shù)據(jù)的抽象層次:v單層關(guān)聯(lián)規(guī)則:所有的變量都沒有考慮到現(xiàn)實(shí)的數(shù)據(jù)是具有多個(gè)不同的層次的;v多層關(guān)聯(lián)規(guī)則:對(duì)數(shù)據(jù)的多層性已經(jīng)進(jìn)行了充分的考慮。 層:大類是否細(xì)分的問題,如上衣可以細(xì)分為 襯衣、夾克、風(fēng)衣等。eg: IBM臺(tái)式機(jī)=Sony打印機(jī) 臺(tái)式機(jī)=Sony打印機(jī)2012-10-1218三、關(guān)聯(lián)規(guī)則的分類三、關(guān)聯(lián)規(guī)則的分類2012-10-1219分層示例:三、關(guān)聯(lián)規(guī)則的分類三、關(guān)聯(lián)規(guī)則的分類2012-10-1220p 基于規(guī)則中數(shù)據(jù)的基于規(guī)則中數(shù)據(jù)的維數(shù)維數(shù):v單維關(guān)聯(lián)規(guī)則:只涉及到數(shù)據(jù)的一個(gè)維,如用戶購(gòu)買的物品;v多維關(guān)聯(lián)規(guī)則
11、:要處理的數(shù)據(jù)將會(huì)涉及多個(gè)維。 eg: 啤酒=尿布 性別=“女”=職業(yè)=“秘書”TID姓名姓名性別性別職業(yè)職業(yè)購(gòu)買物品購(gòu)買物品月工資月工資001張三女秘書尿布3000002李四男工程師啤酒、尿布5000四、關(guān)聯(lián)規(guī)則的價(jià)值衡量四、關(guān)聯(lián)規(guī)則的價(jià)值衡量對(duì)關(guān)聯(lián)規(guī)則的評(píng)價(jià)與價(jià)值衡量涉及兩個(gè)層面:對(duì)關(guān)聯(lián)規(guī)則的評(píng)價(jià)與價(jià)值衡量涉及兩個(gè)層面:A.系統(tǒng)客觀的層面 使用“支持度和信任度”框架可能會(huì)產(chǎn)生一些不正確的規(guī)則。B.用戶主觀的層面只有用戶才能決定規(guī)則的有效性、可行性。如果把某些約束條件與算法緊密結(jié)合,既能提高數(shù)據(jù)挖掘效率,又能明確數(shù)據(jù)挖掘的目標(biāo)。 2012-10-1221五、關(guān)聯(lián)規(guī)則的挖掘算法五、關(guān)聯(lián)規(guī)則的挖掘算法2012-10-1222u Ap
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 科研實(shí)驗(yàn)草場(chǎng)租賃合同
- ??谑嗅烎~場(chǎng)租賃合同
- 煙草行業(yè)整合:天價(jià)煙管理辦法
- 挖掘機(jī)租賃協(xié)議書中租賃費(fèi)用
- 礦山槽探施工合同
- 玩具產(chǎn)品保修辦法
- 城市公園建設(shè)合同協(xié)議書內(nèi)容
- 職場(chǎng)人際沖突調(diào)解援助政策
- 知識(shí)分享意見箱管理
- 餐飲業(yè)員工傷害管理
- AQ/T 1119-2023 煤礦井下人員定位系統(tǒng)通 用技術(shù)條件(正式版)
- 幼兒園班級(jí)幼兒圖書目錄清單(大中小班)
- 2024-2034年全球及中國(guó)年糕行業(yè)市場(chǎng)發(fā)展分析及前景趨勢(shì)與投資發(fā)展研究報(bào)告
- 烈士陵園的數(shù)字化轉(zhuǎn)型與智能服務(wù)
- 生理學(xué)重點(diǎn)復(fù)習(xí)資料全
- 初中生理想信念教育班會(huì)(3篇模板)
- (高清版)JGT 225-2020 預(yù)應(yīng)力混凝土用金屬波紋管
- 2024年上海市奉賢區(qū)中考一模英語(yǔ)試題(含答案解析)
- 農(nóng)產(chǎn)品加工與貯藏原理復(fù)習(xí)資料
- (正式版)JBT 5300-2024 工業(yè)用閥門材料 選用指南
- Unit1WhatsthematterSectionB2a-2e教學(xué)設(shè)計(jì)人教版八年級(jí)英語(yǔ)下冊(cè)
評(píng)論
0/150
提交評(píng)論