




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘與商務(wù)智能實(shí)驗(yàn)》實(shí)驗(yàn)報(bào)告實(shí)驗(yàn)題目:關(guān)聯(lián)分析:關(guān)聯(lián)規(guī)則姓名:王俊學(xué)號(hào):201430850164指導(dǎo)教師: 張大斌實(shí)驗(yàn)時(shí)間: 2016.11.092016年11月12日實(shí)驗(yàn)8關(guān)聯(lián)分析:關(guān)聯(lián)規(guī)則一、 實(shí)驗(yàn)?zāi)康模?) 了解和熟悉SPSSModeler及其相關(guān)知識(shí);(2) 掌握SPSSModeler工具建立Apriori關(guān)聯(lián)規(guī)則的方法;(3) 學(xué)會(huì)運(yùn)用SPSSModeler關(guān)聯(lián)規(guī)則進(jìn)行相關(guān)的內(nèi)容分析。二、 實(shí)驗(yàn)內(nèi)容本實(shí)驗(yàn)分析的是超市顧客個(gè)人信息和他們的一次購(gòu)買商品數(shù)據(jù),采用的是關(guān)聯(lián)分析中的Apriori算法。本實(shí)驗(yàn)的數(shù)據(jù)來自文件名為BASKETS.txt的文件。數(shù)據(jù)的主要內(nèi)容包括兩個(gè)部分,第一部分是顧客的個(gè)人信息,主要變量有會(huì)員卡號(hào)(cardid)、消費(fèi)金額(value)、支付方式(pmethod)、性別(sex)、是否業(yè)主(homeown)、年齡(age)、收入(income);第二部分是顧客的一次購(gòu)買商品的信息,主要變量有果蔬(fruitveg)、鮮肉(freshmeat)、奶制品(dairy)、罐頭蔬菜(cannedveg)、罐頭肉(cannedmeat)、冷凍食品(frozenmeal)、啤酒(beer)、葡萄酒(wine)、軟飲料(softdrink)、魚(fish)、糖果(confectionery),均為二分類型變量,取值T表示購(gòu)買,F表示未購(gòu)買,是一種事實(shí)表的數(shù)據(jù)組織格式。本次試驗(yàn)分析的是的哪些商品最有可能購(gòu)買。具體實(shí)驗(yàn)步驟如下:三、 實(shí)驗(yàn)步驟與結(jié)果步驟1創(chuàng)建Apriori算法數(shù)據(jù)流(1) 通過“可變文件”節(jié)點(diǎn)讀入數(shù)據(jù)BASKETS.txt。(2) 選擇建??ㄆ械摹癆priori”節(jié)點(diǎn)并將其簡(jiǎn)潔到數(shù)據(jù)中的恰當(dāng)位置,點(diǎn)擊鼠標(biāo),選擇菜單中的編輯選項(xiàng)進(jìn)行參數(shù)設(shè)置。步驟2設(shè)置具體參數(shù)(1)在“字段”下,選擇“使用定制設(shè)置”選項(xiàng)。在“后項(xiàng)”和“前項(xiàng)”框中選擇關(guān)聯(lián)規(guī)則的后項(xiàng)和前項(xiàng)的變量,本例中分析連帶銷售商品,因此所有商品均被選入后項(xiàng)和前項(xiàng)。如圖8-1(a)所示。
BASKETS.tKt五收藏夾(F)|?數(shù)據(jù)源BASKETS.tKt五收藏夾(F)|?數(shù)據(jù)源(U) ?記錄選項(xiàng)何|?字段選項(xiàng)(D) ▲圖形(G)|?建模(M)I■輸出(0)|■導(dǎo)出(E)I圖8-1(a)(2)在“類型”下,制定當(dāng)前前項(xiàng)最低條件支持度,默認(rèn)值10%;最小規(guī)則置信度,默認(rèn)值為80%;最大前項(xiàng)數(shù),默認(rèn)為5;勾選“僅包含標(biāo)志變量的真值”,表示只顯示項(xiàng)目出現(xiàn)的規(guī)則,而不顯示項(xiàng)目不出現(xiàn)時(shí)的規(guī)則,這里關(guān)心的是商品的連帶購(gòu)買。如圖8-1(b)所示。圖8-1(b)3)在“專家”的選項(xiàng)下,選擇模式“專家”選項(xiàng),并選擇評(píng)價(jià)關(guān)聯(lián)規(guī)則的度量指標(biāo),這里選擇默認(rèn)選項(xiàng)“規(guī)則置信度”。如圖8-2所示。
圖8-2步驟3結(jié)果運(yùn)行實(shí)驗(yàn)結(jié)果如圖8-3所示。結(jié)果說明,如按第2條關(guān)聯(lián)規(guī)則,購(gòu)買啤酒和冷凍食品則會(huì)同時(shí)購(gòu)買罐頭蔬菜,樣本中購(gòu)買啤酒喝冷凍食品的樣本為170;同樣也說明購(gòu)買啤和冷凍食品
的顧客有85.882%的可能購(gòu)買罐頭蔬菜,該規(guī)則的支持度為14.6%。本例中產(chǎn)生了三條關(guān)聯(lián)規(guī)則:啤酒和罐頭蔬菜f冷凍食品(S=14.6%,C=87.452%);啤酒和冷凍食品f罐頭蔬菜(S=14.6%,C=85.882%);冷凍食品和罐頭蔬菜f啤酒(S=14.6%,C=84.393%)。同時(shí)三條關(guān)聯(lián)規(guī)則的提升度2895,2.834,2.88)都可以接受。因此,啤酒、罐頭蔬菜、冷凍食品是最可能連帶銷售的商品??梢岳藐P(guān)聯(lián)規(guī)則考察哪類和顧客符合哪條關(guān)聯(lián)規(guī)律。如果顧客滿足某條關(guān)聯(lián)規(guī)則,則可以推斷其有一定可能性同時(shí)購(gòu)買某種商品,反之,則無法預(yù)測(cè)。步驟4考察關(guān)聯(lián)規(guī)律(1)將Apriori節(jié)點(diǎn)中的模型計(jì)算的結(jié)果添加到數(shù)據(jù)流編輯區(qū)域的恰當(dāng)位置。點(diǎn)擊鼠標(biāo)右鍵選擇“編輯”選項(xiàng),進(jìn)行“選項(xiàng)”的設(shè)置?!白畲箢A(yù)測(cè)數(shù)”中輸入數(shù)值,默認(rèn)為3.勾選“忽略不匹配籃項(xiàng)目”,表示樣本應(yīng)用規(guī)則時(shí)不能按照順序完全匹配前項(xiàng)的所有項(xiàng)目時(shí),允許采用非精度匹配。勾選“檢查預(yù)測(cè)不在籃中”,表示樣本應(yīng)用關(guān)聯(lián)規(guī)則時(shí),給出的后項(xiàng)結(jié)果不應(yīng)出現(xiàn)在前項(xiàng)。如圖8-4所示。|II文件(E) 也生成◎|II文件(E) 也生成◎g預(yù)測(cè)的盤多數(shù)量:規(guī)則標(biāo)惟:□允許重復(fù)預(yù)測(cè)回忽略不匹配的籃孑項(xiàng)目④檢查籃子中不存在預(yù)測(cè)值o檢查籃子中存在預(yù)測(cè)值o不檢查籃孑中是否存在預(yù)測(cè)值h欄Hys-exJIJ3^--llp-D一少IFih欄Hys-exJIJ3^--llp-D一少IFisalplpD應(yīng)用回重置?皇槻模型設(shè)置匯總注解辰I確定(0)—|丨取消(C)|圖8-4通過“表”節(jié)點(diǎn)課觀察具體的結(jié)果。$A、$AC、$A-Rule表示每個(gè)樣本應(yīng)用關(guān)聯(lián)規(guī)則的推測(cè)結(jié)果、置信度和規(guī)則編號(hào)。例如在表中向編號(hào)16的顧客運(yùn)用關(guān)聯(lián)規(guī)則1,可以推測(cè)其有85.9%的可能性同時(shí)購(gòu)買罐頭蔬菜。當(dāng)然,如果樣本不
符合任何關(guān)聯(lián)規(guī)則,也就是沒有一條關(guān)聯(lián)規(guī)則中出現(xiàn)的商品出現(xiàn)在顧客的購(gòu)物清單中,則推斷結(jié)果為系統(tǒng)缺失值$null$。實(shí)驗(yàn)結(jié)果如圖8-5所示。圖8-5實(shí)驗(yàn)最終圖示如下:四、實(shí)驗(yàn)分析與擴(kuò)展練習(xí)1.實(shí)驗(yàn)分析:請(qǐng)總結(jié)分析下面的問題:(1)如果需要關(guān)注的關(guān)聯(lián)規(guī)則比較多,或者讀者只是想關(guān)注特定情況下的規(guī)則如何使用該軟件工具進(jìn)行相關(guān)的過濾。答:先在導(dǎo)入文件時(shí)候選擇篩選過濾選項(xiàng),根據(jù)自己的需要選取需要的字段;然后在字段中進(jìn)行相關(guān)的篩選和過濾也可以達(dá)到要求,如圖所示:2)在相關(guān)的分析中,如何合理的使用GRI算法得到相應(yīng)的結(jié)果。<Useparttl-Dneddata節(jié)點(diǎn)和模型的名字Ft?蠶了錦鑑?T最小的條件支持度丿護(hù)函0CUfflOlfl最小的可信度只信度大于上述兩個(gè)的最小値時(shí)'該規(guī)則才成立Mnrflimar帕;eduMscpaur憎)M門muTiRj;d:cnfdgncei'%}Msirrun-ruTtorcfsnszedentE.M^irunrrurrb9rcrrjl9^:Mel□□Can〔ml指定規(guī)則的最大前提條件數(shù)(即antecedent里條件的個(gè)數(shù)).這是限制規(guī)則復(fù)雜程度的…種方法匸如呆規(guī)則過于復(fù)雜或君過于具體,或計(jì)算時(shí)間過心,可以嘗試降低該項(xiàng)設(shè)置“保密在規(guī)則巢屮的搦則數(shù),即結(jié)杲屮consequent的數(shù)th規(guī)則按照重密MlC±GRI算法計(jì)算山)遞減的順序禰列。規(guī)則巢朋含規(guī)則數(shù)可能會(huì)比指定的要少,特別是在使用嚴(yán)格的信賴準(zhǔn)則或支持準(zhǔn)則時(shí)。如呆選擇了該頤疋右真值會(huì)山現(xiàn)在最終的規(guī)麗五、結(jié)論與討論(重點(diǎn))Apriori算法的基本思想是:首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng),這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞推的方法。關(guān)聯(lián)規(guī)則的優(yōu)缺點(diǎn):(1)優(yōu)點(diǎn):它可以產(chǎn)生清晰有用的結(jié)果;它支持間接數(shù)據(jù)挖掘;可以處理變長(zhǎng)的數(shù)據(jù);它的計(jì)算的消耗量是可以預(yù)見的。(2)缺點(diǎn):當(dāng)問題變大時(shí),計(jì)算量增長(zhǎng)得厲害;難以決定正確的數(shù)據(jù);容易忽略稀有的數(shù)據(jù)。整個(gè)Apriori算法的偽代碼如下:當(dāng)集合中項(xiàng)的個(gè)數(shù)大于0時(shí):構(gòu)建一個(gè)由k個(gè)項(xiàng)組成的候選項(xiàng)集的列表(k從1開始)計(jì)算候選項(xiàng)集的支持度,刪除非頻繁項(xiàng)集構(gòu)建由k+1項(xiàng)組成的候選項(xiàng)集的列表程序代碼如下:
defapriori6en(Lc:,k):re^List=:]lenLk=len(L<)foriinran^e(lenLk):for;in"日nge(i+ljlenLk):#前「21頁(yè)相同時(shí),將兩個(gè)隼合臺(tái)并7LI
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)徒烘焙合同范本
- 2025年銀色金屬弦項(xiàng)目可行性研究報(bào)告
- 2025年鍍鋅板板材項(xiàng)目可行性研究報(bào)告
- 2025至2030年中國(guó)大型不銹鋼設(shè)備數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025年車架后叉項(xiàng)目可行性研究報(bào)告
- 2025年茶籽油項(xiàng)目可行性研究報(bào)告
- 成都四川成都簡(jiǎn)陽(yáng)市三合鎮(zhèn)便民服務(wù)和智慧蓉城運(yùn)行中心招聘綜治巡防隊(duì)員2人筆試歷年參考題庫(kù)附帶答案詳解
- 2025至2030年中國(guó)霍爾效應(yīng)傳感IC數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)防偽收縮膜數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 塑料封皮合同范本
- 如何在本機(jī)上架設(shè)服務(wù)器
- 一年級(jí)寫字下學(xué)期課件(PPT 38頁(yè))
- 《實(shí)用日本語(yǔ)應(yīng)用文寫作》全套電子課件完整版ppt整本書電子教案最全教學(xué)教程整套課件
- 怎樣處理課堂突發(fā)事件
- 采礦學(xué)課程設(shè)計(jì)-隆德煤礦1.8Mta新井開拓設(shè)計(jì)
- 中藥藥劑學(xué)講義(英語(yǔ)).doc
- 【課件】Unit1ReadingforWriting課件高中英語(yǔ)人教版(2019)必修第二冊(cè)
- Q∕GDW 10799.6-2018 國(guó)家電網(wǎng)有限公司電力安全工作規(guī)程 第6部分:光伏電站部分
- 滴灌工程設(shè)計(jì)示例
- 配套模塊an9238用戶手冊(cè)rev
- 醫(yī)院室外管網(wǎng)景觀綠化施工組織設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論