關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘_第1頁
關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘_第2頁
關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘_第3頁
關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘_第4頁
關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘?qū)W習(xí)報(bào)告目錄引言 2案例 2關(guān)聯(lián)規(guī)則 3(一)關(guān)聯(lián)規(guī)則定義(二)相關(guān)概念(三)關(guān)聯(lián)規(guī)則分類數(shù)據(jù) 6(一)小型數(shù)據(jù)(二)大型數(shù)據(jù)應(yīng)用軟件 7(一WEKA(二IBMSPSSModeler數(shù)據(jù)挖掘 12總結(jié) 27一、引言數(shù)與網(wǎng)日展,天獲信呈數(shù)級(jí)如這瀚據(jù)出需據(jù)尤要挖掘資勘采數(shù)知現(xiàn)一據(jù)一般是大數(shù)過搜藏信過據(jù)通計(jì)算依。類(Classification估(Estimation、預(yù)(Predictio相關(guān)性分組或關(guān)聯(lián)規(guī)(Affinitygroupingorassociationrule)、聚類Clusterin)、復(fù)雜數(shù)據(jù)類型挖(Text,Web圖形圖像,視頻,音頻)。二、案例"酒"的。這在界對(duì)沃基:"個(gè)在"尿酒"背一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時(shí)也為自己買一些啤酒產(chǎn)生這一現(xiàn)象的原因是美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們?cè)谫I尿布后又隨手帶回了他們喜歡的啤酒。交。在這個(gè)案例中使用了數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則分析關(guān)聯(lián)分析是發(fā)現(xiàn)交易數(shù)據(jù)庫中不同項(xiàng)之間的聯(lián)系毫無疑問關(guān)聯(lián)分析中發(fā)現(xiàn)的規(guī)則為超市帶來了更多的收益。如果我們能在生活中對(duì)關(guān)聯(lián)分析進(jìn)行應(yīng)用,一定可以解決更多的問題。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)若兩個(gè)或多個(gè)變量因。中。。l于3的算對(duì),近。三、關(guān)聯(lián)規(guī)則(關(guān)定義關(guān)析簡(jiǎn)實(shí)分是在數(shù)的關(guān)聯(lián)相從了物屬出規(guī)式。關(guān)析量發(fā)之的相系聯(lián)的一型購析過發(fā)放物的品之間系客買了商繁客買這種的以售營應(yīng)括設(shè)商品、排于式劃。(相念1.關(guān)則關(guān)則據(jù)簡(jiǎn)用是之相關(guān)。關(guān)則:XY;其中XI,YI,并且X∩Y=。X為決,Y為果聯(lián)規(guī)映集X出現(xiàn)時(shí)集Y也會(huì)出。2.支(Suot)設(shè)X屬據(jù)為數(shù)包含X的記事庫中記錄的總個(gè)數(shù)那么項(xiàng)目集X的支持度=/支持度表示項(xiàng)目集在事物集中出現(xiàn)的頻率的是多少。3.置信度(Confidence)有關(guān)聯(lián)規(guī)則XY其中XIYI并且X∩Y=那么XY的置信度為:Con(XY)=*100%=P(Y|X)。置信度是反映在事物X中出現(xiàn)事物Y的條件概率。4.強(qiáng)關(guān)聯(lián)規(guī)則如果某條規(guī)則同時(shí)滿足最小支持度和最小置信度則稱為強(qiáng)關(guān)聯(lián)規(guī)則。5.最小支持度、大項(xiàng)集和最小置信度從關(guān)聯(lián)規(guī)則的定義可以看出任意兩個(gè)數(shù)據(jù)項(xiàng)集都存在關(guān)聯(lián)規(guī)則只是其支持度和置信度不同而已為了找出有意義的規(guī)則就需要規(guī)定最小支持度和最小置信度前者描述了關(guān)聯(lián)規(guī)則中數(shù)據(jù)項(xiàng)集的最低重要程度,記為minsup后者規(guī)定了關(guān)聯(lián)規(guī)則必須滿足的最低可靠性記為,minconf。支持度大于最小支持度的數(shù)據(jù)項(xiàng)集稱作大項(xiàng)集(LargeItemset)反之則稱為弱項(xiàng)集(SmallIterns)。同時(shí)滿足最小支持度、最小置信度的關(guān)聯(lián)規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則。(三)關(guān)聯(lián)規(guī)則分類1.基于規(guī)則中處理的變量的類別,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的種類化的它顯示了這些變量之間的關(guān)系;而數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來對(duì)數(shù)值型字段進(jìn)行處理將其進(jìn)行動(dòng)態(tài)的分割或者直接對(duì)原始的數(shù)據(jù)進(jìn)行處理當(dāng)然數(shù)值型關(guān)聯(lián)規(guī)則中也可以包含種類變量。2.基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。在單層的關(guān)聯(lián)規(guī)則中所有的變量都沒有考慮到現(xiàn)實(shí)的數(shù)據(jù)是具有多個(gè)不同的層次的;而在多層的關(guān)聯(lián)規(guī)則中,對(duì)數(shù)據(jù)的多層性已經(jīng)進(jìn)行了充分的考慮。3.基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的。單維關(guān)聯(lián)規(guī)則是處理單個(gè)屬性中的一些關(guān)系多維關(guān)聯(lián)規(guī)則是處理各個(gè)屬性之間的某些關(guān)系。(四)算法算法1)Apriori算法是一種使用頻繁項(xiàng)集的先驗(yàn)知識(shí)從而生成關(guān)聯(lián)規(guī)則的一種算法也是最有影響的關(guān)聯(lián)規(guī)則挖掘算法。2)設(shè)(k選-集(k示(k等的-即-是-。3)i的-繁-為有-大該-的k事的有-有-念小根成-將-刪候-到-。4)i下①度s度c。②i集。③在i被選-繁-選-集的-。④選-繁-這繁-選-。⑤該。法1對(duì)i,.n掘:FP-樹頻集算法。采用分而治之的策略,在經(jīng)過第一遍掃描之后,把數(shù)據(jù)庫中的頻集壓縮進(jìn)一棵頻繁模式樹FP-tre),同時(shí)依然保留其中的關(guān)聯(lián)信息隨后再將FP-tree分化成一些條件庫每個(gè)庫和一個(gè)長(zhǎng)度為1的頻集相關(guān)然后再對(duì)這些條件庫分別進(jìn)行挖掘當(dāng)原始數(shù)據(jù)量很大的時(shí)候也可以結(jié)合劃分的方法,使得一個(gè)FP-tree可以放入主存中。實(shí)驗(yàn)表明,F(xiàn)P-growth對(duì)不同長(zhǎng)度的規(guī)則都有很好的適應(yīng)性同時(shí)在效率上較之Apriori算法有巨大的提高。2)FP-樹頻集算法的步驟步驟如下①遍歷一次數(shù)據(jù)庫到處頻繁項(xiàng)(1項(xiàng)集的集合和支持度計(jì)(頻率,并且以降序排序,結(jié)果集或表記為L(zhǎng)。②構(gòu)造FP-tree。③根據(jù)第二步得到的FP-tree,為1項(xiàng)頻繁項(xiàng)集中的每一項(xiàng)構(gòu)造條件FP-tree。④得到頻繁模式(頻繁項(xiàng)集)。四、數(shù)據(jù)(一)小型數(shù)據(jù)這是我們得到的最原始的數(shù)據(jù)是國外某超市的購物籃數(shù)據(jù)共有約一千條。文件格式為txt格式,每一行代表一個(gè)顧客購物籃中的商品。(二)大型數(shù)據(jù)第二個(gè)大型數(shù)據(jù)也是國外某公司的超市購物籃數(shù)據(jù),共有88162條數(shù)據(jù)。數(shù)據(jù)為txt格式第一行是對(duì)每列數(shù)據(jù)的一個(gè)編號(hào)從第二列開始是每個(gè)顧客超市購物籃中的東西每個(gè)數(shù)字代表一個(gè)商品因?yàn)閿?shù)據(jù)過大所以整個(gè)數(shù)據(jù)是數(shù)據(jù)集的形式。五.應(yīng)用軟件(一)WEKA1.WEKA簡(jiǎn)介WEKA的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),是一款免費(fèi)的,非商業(yè)化的,基于JAVA環(huán)境下開源的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件。它和它的源代碼可在其官方網(wǎng)站下載。WEKA作為一個(gè)公開的數(shù)據(jù)挖掘工作平臺(tái)集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理分類回歸聚類關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。存儲(chǔ)數(shù)據(jù)的格式是ARFF(Attribute-RelationFileFormat)文件,這是一種ASCII文本文件。二維表格存儲(chǔ)在如下的ARFF文件中。識(shí)別ARFF文件的重要依據(jù)是分行因此不能在這種文件里隨意的斷行空(或全是空格的行)將被忽略。WEKA的關(guān)聯(lián)規(guī)則分析功能僅能用來作示范,不適合用來挖掘大型數(shù)據(jù)集。3.數(shù)據(jù)處理由于我們的源數(shù)據(jù)為TXT格式,無法應(yīng)用于WEKA軟件,所以我們需要將它轉(zhuǎn)換為ARFF格式我們查閱有關(guān)資料以及有關(guān)網(wǎng)站找到了一個(gè)用Python轉(zhuǎn)換格式的方法。TXT轉(zhuǎn)為ARFF格式deftxt2arff(filename,value):withopen('./','w')asfp:('''@relationExceptionRelation@attributeIDstring@attributeThrownnumeric@attributeSetLogicFlagnumeric@attributeReturnnumeric@attributeLOCnumeric@attributeNumMethodnumeric@attributeEmptyBlocknumeric@attributeRecoverFlagnumeric@attributeOtherOperationnumeric@attributeclass-att{True,False}@data''')withopen(filename)asf:contents=()forcontentincontents:lines=('\t')lines=[()forlineinlines]iflines[9]=='1':lines[9]="True"('{'+str(value)+'}')else:lines[9]="False"('{1}')array=','.join(lines)("%s\n"%array)處理結(jié)果:小型數(shù)據(jù)大型數(shù)據(jù)(二)IBMSPSSModeler為了解決各種商務(wù)問題,企業(yè)需要以不同的方式來處理各種類型迥異的數(shù)據(jù),相異的任務(wù)類型和數(shù)據(jù)類型就要求有不同的分析技術(shù)。Clementine為您提供最出色最廣泛的數(shù)據(jù)挖掘技術(shù)確保您可用最恰當(dāng)?shù)姆治黾夹g(shù)來處理相應(yīng)的問題從而得到最優(yōu)的結(jié)果以應(yīng)對(duì)隨時(shí)出現(xiàn)的商業(yè)問題即便改進(jìn)業(yè)務(wù)的機(jī)會(huì)被龐雜的數(shù)據(jù)表格所掩蓋,Clementine也能最大限度地執(zhí)行標(biāo)準(zhǔn)的數(shù)據(jù)挖掘流程,為您找到解決商業(yè)問題的最佳答案。其中看到其實(shí)Modeler也是SPSS公司收購回的前身即是Clementine09年整個(gè)SPSS被IBM收購后,就改名為IBMSPSSModeler了,今年Modeler已經(jīng)發(fā)布18版本,更新要比以前多了不少,多了非常多的擴(kuò)展功能(例如天氣數(shù)據(jù)獲取等等)Modeler是類的,。r界據(jù)分。MSr端/版行MSr到MSrr據(jù)。MSr,掘程:。.理Sr為v的A將t式為v。六.?dāng)?shù)據(jù)挖掘(一)WEKA算法——小數(shù)據(jù)1)默認(rèn)數(shù)值car如果設(shè)為真,則會(huì)挖掘類關(guān)聯(lián)規(guī)則而不是全局關(guān)聯(lián)規(guī)則。classindex類屬性索引。如果設(shè)置為-1,最后的屬性被當(dāng)做類屬性。delta以為迭代遞減單位。不斷減小支持度直至達(dá)到最小支持度或產(chǎn)生了滿足數(shù)量要求的規(guī)則。lowerBoundMinSupport最小支持度下界為。metricType類度)率)度)。在a度)程:) t:)1示A和B。大)明A和B象,關(guān)度.) e)0時(shí)A和B,e大A和B切) )(B示B發(fā))n量A和B和t對(duì)B取入t大,A、B。cs

。為0。s。removeAllMissingCols移除全部為缺省值的列。significanceLevel重要程度。重要性測(cè)試(僅用于置信度)。upperBoundMinSupport最小支持度上界。從開始迭代減小最小支持度。verbose如果設(shè)置為真,則算法會(huì)以冗余模式運(yùn)行。2)結(jié)果解釋scheme-所選的關(guān)聯(lián)規(guī)則挖掘方案:Apriori算法算法的參數(shù)設(shè)置:-I-N10-T0-C-D-U-M-S-c-1;各參數(shù)依次表示:I-輸出項(xiàng)集,若設(shè)為false則該值缺省;N10-規(guī)則數(shù)為10;T0–度量單位選為置信度,(T1-提升度,T2杠桿率,T3確信度);C–度量的最小值為;D-遞減迭代值為;U-最小支持度上界為;M-最小支持度下屆設(shè)為;S-重要程度為;c-1-類索引為-1輸出項(xiàng)集設(shè)為真(由于c,,e都值Fe,結(jié)為Te,為,)m:(0) ) e)0時(shí)A和B獨(dú),Le越大A和B切) )(!B表示B發(fā))Cn也量A和B和t對(duì)B取入t大,A、B。c。numRules要發(fā)現(xiàn)的規(guī)則數(shù)為10。outputItemSets如果設(shè)置為真,會(huì)在結(jié)果中輸出項(xiàng)集。removeAllMissingCols移除全部為缺省值的列。upperBoundMinSupport最小支持度上界。從開始迭代減小最小支持度。2)結(jié)果解釋使用默認(rèn)設(shè)置數(shù)值沒有發(fā)現(xiàn)規(guī)則。3)修改數(shù)值修改lowerBoundMinSupport最小支持度下界為。4)結(jié)果解釋僅發(fā)現(xiàn)兩條規(guī)則。I48與I39有關(guān)聯(lián)規(guī)則conf:<life:>lev:cosv:5)修改數(shù)值修改lowerBoundMinSupport最小支持度下界為。6)結(jié)果釋發(fā)現(xiàn)8條規(guī)則7值改t最。)結(jié)釋下)IMSr—據(jù).操驟i算法讀取值然后將測(cè)量全部修改為標(biāo)記,角色全部改為任意。最小置信度為50%結(jié)分析:I8與I39有關(guān)則I41與I39有關(guān)則I9與I38有關(guān)則I48與I41有關(guān)則I2與I39有關(guān)則I48與I32有關(guān)則I8與I38有關(guān)則最為60%I8與I39有關(guān)則I41與I39有關(guān)則I9與I38有關(guān)則I48與I41有關(guān)則七結(jié)數(shù)據(jù)挖掘可以通過不同的工具來進(jìn)行分析。通過使用WEKA和IBMSPSSModeler發(fā)現(xiàn)兩個(gè)軟件適用的情況有所不同。WEKA的關(guān)聯(lián)規(guī)則Apriori分析僅能用來

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論