![非參數(shù)統(tǒng)計-第5章分類數(shù)據(jù)的關聯(lián)分析課件_第1頁](http://file4.renrendoc.com/view/5b57a2d6e0762a4c4e0f7d1cfd22c2e3/5b57a2d6e0762a4c4e0f7d1cfd22c2e31.gif)
![非參數(shù)統(tǒng)計-第5章分類數(shù)據(jù)的關聯(lián)分析課件_第2頁](http://file4.renrendoc.com/view/5b57a2d6e0762a4c4e0f7d1cfd22c2e3/5b57a2d6e0762a4c4e0f7d1cfd22c2e32.gif)
![非參數(shù)統(tǒng)計-第5章分類數(shù)據(jù)的關聯(lián)分析課件_第3頁](http://file4.renrendoc.com/view/5b57a2d6e0762a4c4e0f7d1cfd22c2e3/5b57a2d6e0762a4c4e0f7d1cfd22c2e33.gif)
![非參數(shù)統(tǒng)計-第5章分類數(shù)據(jù)的關聯(lián)分析課件_第4頁](http://file4.renrendoc.com/view/5b57a2d6e0762a4c4e0f7d1cfd22c2e3/5b57a2d6e0762a4c4e0f7d1cfd22c2e34.gif)
![非參數(shù)統(tǒng)計-第5章分類數(shù)據(jù)的關聯(lián)分析課件_第5頁](http://file4.renrendoc.com/view/5b57a2d6e0762a4c4e0f7d1cfd22c2e3/5b57a2d6e0762a4c4e0f7d1cfd22c2e35.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第5章分類數(shù)據(jù)的
關聯(lián)分析第5章分類數(shù)據(jù)的
關聯(lián)分析本章內容本章內容本章要求掌握分類數(shù)據(jù)的獨立性研究方法;區(qū)分分類數(shù)據(jù)的獨立性和齊性檢驗的異同;掌握Fisher檢驗與卡方檢驗的應用條件的異同;了解Ridit方法和應用;了解對數(shù)線性模型和卡方檢驗的異同;熟練應用R語言中的相關命令學習如上方法。本章要求掌握分類數(shù)據(jù)的獨立性研究方法;5.1 列聯(lián)表和獨立性檢驗5.1 列聯(lián)表和獨立性檢驗分別為A和B的邊緣概率.若A和B獨立,或者A和B之間沒有關聯(lián),則A和B的聯(lián)合概率應該等于A和B的邊緣概率的乘積,假設檢驗問題:分別為A和B的邊緣概率.若A和B獨立,或者A和B之間沒有關當取大值,或者p-值很小的時候,拒絕零假設。獨立性檢驗
零假設下,時,構造統(tǒng)計量:獨立性檢驗構造統(tǒng)計量:非參數(shù)統(tǒng)計-第5章分類數(shù)據(jù)的關聯(lián)分析課件>blood=c(98,38,289,67,41,262,13,8,57,18,12,30)blood=matrix(blood,nrow=4,byrow=T)
#如果想按照行填入矩陣
>blood[,1][,2][,3][1,]9838289[2,]6741262[3,]13857[4,]181230>chisq.test(blood)Pearson'sChi-squaredtestdata:bloodX-squared=15.0734,df=6,p-value=0.01969R程序>blood=c(98,38,289,67,41,262,要檢驗不同變量之間是否獨立,頻率過小的點不能太多.Siegel和Castellan(1988)指出行數(shù)和列數(shù)至少其一要超過2,頻數(shù)低于5個的單元格數(shù)不能超過20%,不能充許存在頻數(shù)小于1的單元格要檢驗不同變量之間是否獨立,頻率過小的點不能上一節(jié)是利用列聯(lián)表分析兩個因素之間是否獨立.當其中一個因素換成區(qū)組時,對應的問題是檢驗實驗數(shù)據(jù)在不同區(qū)組上的分布是否一致,這類檢驗問題稱為齊性檢驗.檢驗方法和獨立性檢驗相同。5.2齊性檢驗
假設檢驗問題:構造Pearson統(tǒng)計量:在零假設下近似有:上一節(jié)是利用列聯(lián)表分析兩個因素之間是否獨立.>Jane_Austen=c(147,186,101,83,25,26,11,29,32,39,15,15,94,105,37,22,59,74,28,43,18,10,10,4)>Jane_Austen=matrix(Jane_Austen,nrow=6,byrow=T)>chisq.test(Jane_Austen)Pearson'sChi-squaredtestdata:Jane_AustenX-squared=45.5775,df=15,p-value=6.205e-05例5.2R程序>Jane_Austen=c(147,186,101,83,非參數(shù)統(tǒng)計-第5章分類數(shù)據(jù)的關聯(lián)分析課件非參數(shù)統(tǒng)計-第5章分類數(shù)據(jù)的關聯(lián)分析課件R程序>TV_lover=c(83,70,45,91,86,15,41,38,10)>TV_lover=matrix(TV_lover,nrow=3,byrow=T)>chisq.test(TV_lover)Pearson'sChi-squaredtestdata:TV_loverX-squared=18.6508,df=4,p-value=0.0009203R程序>TV_lover=c(83,70,45,91,865.3Fisher精確檢驗
Pearson檢驗要求頻數(shù)低于5個的單元格數(shù)不能超過20%.對于22列聯(lián)表,只要有一格數(shù)據(jù)小于5,就不能滿足要求.因此有必要采用別的方法.Fisher精確檢驗(Fisher’sexacttest)就是其中之一.
下面以22列聯(lián)表為例介紹Fisher精確檢驗5.3Fisher精確檢驗Pearsonn..n.1總和n2.n1.n12總和n22n.2
n11n212*2列聯(lián)表假設邊緣頻數(shù)和總頻數(shù)都是固定的.在因數(shù)A和因數(shù)B獨立的零假設之下,服從超幾何分布:n..n.1總和n2.n1.n12總和n22n.2n11事實上,4個格點中只要一個數(shù)確定了,其它3個會隨著而定,因此也可以表示為:R語言和EXCEL軟件的調用函數(shù)分別為比如行總數(shù)依次為5,3,列總數(shù)依次為3,5時,所有可能的表為其R語言調用函數(shù)為HYPGEOMDIST(n11,n1.,n.1,n)dhyper(n11,n.1,n.2,n1.,log=FALSE)dhyper(k,3,5,5,log=FALSE)事實上,4個格點中只要一個數(shù)確定了,其它3個會隨著而定,因此>dhyper(0,3,5,5,log=FALSE)[1]0.01785714>dhyper(1,3,5,5,log=FALSE)[1]0.2678571>dhyper(2,3,5,5,log=FALSE)[1]0.5357143>dhyper(3,3,5,5,log=FALSE)[1]0.1785714以上四種表格的概率依次為:>dhyper(0,3,5,5,log=FAL檢驗任何一個格子中的的數(shù)目(我們只要考慮就可以了)都不會過小或者過大,如果過小或者過大,相應的概率會很小,是小概率事件,因而可以拒絕零假設。
當大樣本時,還可以采用近似正態(tài)分布進行檢驗,即:檢驗任何一個格子中的的數(shù)目(我們只要考慮非參數(shù)統(tǒng)計-第5章分類數(shù)據(jù)的關聯(lián)分析課件R程序>medicine=c(8,2,7,23)>medicine=matrix(medicine,nrow=2,byrow=T)>fisher.test(medicine)Fisher'sExactTestforCountDatadata:medicinep-value=0.002429alternativehypothesis:trueoddsratioisnotequalto195percentconfidenceinterval:1.856547143.340082sampleestimates:oddsratio12.12648R程序>medicine=c(8,2,7,23)>sum=0>for(kin8:10)sum=sum+dhyper(k,15,25,10,log=FALSE);>sum[1]0.0024286dhyper(8,15,25,10,log=FALSE)>sum=0dhyper(8,15,25,10,l用卡方檢驗,出現(xiàn)警告信息>medicine=c(8,2,7,23)>medicine=matrix(medicine,nrow=2,byrow=T)>chisq.test(medicine)Pearson'sChi-squaredtestwithYates'continuitycorrectiondata:medicineX-squared=8,df=1,p-value=0.004678Warningmessage:Inchisq.test(medicine):Chi-squaredapproximationmaybeincorrect用卡方檢驗,出現(xiàn)警告信息>medicine=c(8,2,5.4Mantel-Haenszel檢驗前面介紹的Pearson獨立性(齊性)檢驗和Fisher精確性檢驗都是針對兩因素的檢驗,若影響因素有三個,或者兩因素之外還要考慮層次的影響,或者單因素還要考慮區(qū)組和層次影響,則可以利用Mantel-Haenszel檢驗,用于某兩個因素之間是否有關聯(lián).比如產品研究中,需要研究城市和農村兩個層次的人群對產品或服務的是否滿意;比如,由于不同醫(yī)院(相當于不同層次)收治的病人不同,需要在不同醫(yī)院中研究不同治療方案對病人的治療效果的差異性.5.4Mantel-Haenszel檢驗前面介紹的Pear檢驗
以醫(yī)院為例,令h=1,2,….,k代表k家醫(yī)院(k個層次),表示h層四格列聯(lián)表觀測頻數(shù),表示第h家醫(yī)院觀測的病案總頻數(shù),n為所有k家醫(yī)院的病案總頻數(shù).假設檢驗問題為:
實驗組與對照組在治療效果上沒有差異;實驗組與對照組在治療效果上有差異;將病案總頻數(shù)構成一個三維列聯(lián)表,其中第h層的列聯(lián)表如下nhnh.1總和nh2.nh1.nh12合計nh22nh.2
nh11nh21檢驗以醫(yī)院為例,令h=1,2,….,k代表k家醫(yī)院(kQMH統(tǒng)計量QMH統(tǒng)計量對于小樣本,可以直接查表,也可以利用R語言.QMH統(tǒng)計量QMH統(tǒng)計量例5.4R程序求解>HA=c(50,15,92,90)>HB=c(47,135,5,60)>HA=matrix(HA,nrow=2,byrow=T)>HB=matrix(HB,nrow=2,byrow=T)>m=c(HA,HB)>x=array(m,c(2,2,2))>mantelhaen.test(x)Mantel-Haenszelchi-squaredtestwithcontinuitycorrectiondata:xMantel-HaenszelX-squared=21.9443,df=1,p-value=2.807e-06alternativehypothesis:truecommonoddsratioisnotequalto195percentconfidenceinterval:2.0801676.099585sampleestimates:commonoddsratio3.562044例5.4R程序求解>HA=c(50,15,92,90)統(tǒng)計決策以上得到的Mantel-Haenszel檢驗的結果為:通過檢驗,說明治癌藥與效果有強關聯(lián)(oddsratio=3.562044),即治癌藥有效果.
對于大樣本,QMH統(tǒng)計量近似服從自由度為1的卡方分布,參見定理5.1.因此還可以利用卡方分布計算p值.Mantel-Haenszel檢驗方法消除了層次因素對結果的影響,從而提高了檢驗出來的關聯(lián)性的可靠性.
本例中,還可以對各層分別利用前面介紹的關聯(lián)性檢驗:
fisher.test(HA),fisher.test(HB),chisq.test(HA),chisq.test(HB)統(tǒng)計決策以上得到的Mantel-Haensze>fisher.test(HA)Fisher'sExactTestforCountDatadata:HAp-value=0.0002323alternativehypothesis:trueoddsratioisnotequalto195percentconfidenceinterval:1.6515796.690462sampleestimates:oddsratio3.245835>fisher.test(HA)>fisher.test(HB)Fisher'sExactTestforCountDatadata:HBp-value=0.001391alternativehypothesis:trueoddsratioisnotequalto195percentconfidenceinterval:1.55012614.070352sampleestimates:oddsratio4.158592>fisher.test(HB)>chisq.test(HA)Pearson'sChi-squaredtestwithYates'continuitycorrectiondata:HAX-squared=12.5737,df=1,p-value=0.0003912>chisq.test(HB)Pearson'sChi-squaredtestwithYates'continuitycorrectiondata:HBX-squared=8.4144,df=1,p-value=0.003723>chisq.test(HA)什么是關聯(lián)規(guī)則挖掘?關聯(lián)規(guī)則挖掘:從事務數(shù)據(jù)庫,關系數(shù)據(jù)庫和其他信息存儲中的大量數(shù)據(jù)的項集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關聯(lián)和相關性。應用:購物籃分析、分類設計、捆綁銷售等5.5關聯(lián)規(guī)則什么是關聯(lián)規(guī)則挖掘?關聯(lián)規(guī)則挖掘:5.5關聯(lián)規(guī)則“尿布與啤酒”——典型關聯(lián)分析案例
采用關聯(lián)模型比較典型的案例是“尿布與啤酒”的故事。在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,超市也因此發(fā)現(xiàn)了一個規(guī)律,在購買嬰兒尿布的年輕父親們中,有30%~40%的人同時要買一些啤酒。超市隨后調整了貨架的擺放,把尿布和啤酒放在一起,明顯增加了銷售額。同樣的,我們還可以根據(jù)關聯(lián)規(guī)則在商品銷售方面做各種促銷活動?!澳虿寂c啤酒”——典型關聯(lián)分析案例采用關聯(lián)模購物籃分析
如果問題的全域是商店中所有商品的集合,則對每種商品都可以用一個布爾量來表示該商品是否被顧客購買,則每個購物籃都可以用一個布爾向量表示;而通過分析布爾向量則可以得到商品被頻繁關聯(lián)或被同時購買的模式,這些模式就可以用關聯(lián)規(guī)則表示.購物籃分析如果問題的全域是商店中所有商品的集關聯(lián)規(guī)則(AssociationRuleMining)挖掘是數(shù)據(jù)挖掘中最活躍的研究方法之一最早是由R.Agrawal等人提出的其目的是為了發(fā)現(xiàn)超市交易數(shù)據(jù)庫中不同商品之間的關聯(lián)關系。一個典型的關聯(lián)規(guī)則的例子是:70%購買了牛奶的顧客將傾向于同時購買面包。經(jīng)典的關聯(lián)規(guī)則挖掘算法:Apriori算法關聯(lián)規(guī)則的基本概念關聯(lián)規(guī)則(AssociationRuleMining)挖1.購物籃分析-引發(fā)關聯(lián)規(guī)則挖掘的例子問題:“什么商品組或集合顧客多半會在一次購物中同時購買?”購物籃分析:設全域為商店出售的商品的集合(即項目全集),一次購物購買(即事務)的商品為項目全集的子集,若每種商品用一個布爾變量表示該商品的有無,則每個購物籃可用一個布爾向量表示。通過對布爾向量的分析,得到反映商品頻繁關聯(lián)或同時購買的購買模式。這些模式可用關聯(lián)規(guī)則描述。1.購物籃分析-引發(fā)關聯(lián)規(guī)則挖掘的例子例購買計算機與購買財務管理軟件的關聯(lián)規(guī)則可表示為:computerfinancial_management_software [support=2%,confidence=60%]support為支持度,confidence為置信度。該規(guī)則表示:在所分析的全部事務中,有2%的事務同時購買計算機和財務管理軟件;在購買計算機的顧客中60%也購買了財務管理軟件。關聯(lián)(Associations)分析的目的是為了挖掘隱藏在數(shù)據(jù)間的相互關系,即對于給定的一組項目和一個記錄集,通過對記錄集的分析,得出項目集中的項目之間的相關性。項目之間的相關性用關聯(lián)規(guī)則來描述,關聯(lián)規(guī)則反映了一組數(shù)據(jù)項之間的密切程度或關系。例購買計算機與購買財務管理軟件的關聯(lián)規(guī)則可表示為:comp以商場超市的市場數(shù)據(jù)庫為例,形式化描述關聯(lián)規(guī)則。設I={i1,i2,…,im}是項的集合,表示各種商品的集合;D={t1,t2,…,tn}為交易集,表示每筆交易的集合(是全體事務的集合)。其中每一個事務T都是項的集合,且有T
I。每個事務都有一個相關的唯一標識符和它對應,也就是事務標識符或TID。設X為一個由項目構成的集合,稱為項集,當且僅當X
T時我們說事務T包含X。項集X在在事務數(shù)據(jù)庫DB中出現(xiàn)的次數(shù)占總事務的百分比叫做項集的支持度。如果項集的支持度超過用戶給定的最小支持度閾值,就稱該項集是頻繁項集(或大項集)。以商場超市的市場數(shù)據(jù)庫為例,形式化描述關聯(lián)規(guī)則。39可編輯39可編輯關聯(lián)規(guī)則是形如X
Y的蘊含式,其中X
I,Y
I且X
Y=
,則X稱為規(guī)則的條件(前項),Y稱為規(guī)則的結果(后項)。如果事務數(shù)據(jù)庫DB中有s%的事務包含XY,則稱關聯(lián)規(guī)則X
Y的支持度為s%。支持度是一個概率值。關聯(lián)規(guī)則
X
Y對事物集D的支持度(support)定義為D中包含有事務X和Y的百分比。關聯(lián)規(guī)則X
Y對事務集合D的置信度(confidence)定義為D中包含有X的事務數(shù)與同時包含Y的百分比。即:support(XY)=(含X和Y的事務數(shù)/事務總數(shù))×100%
confidence(XY)=(含X和Y的事務數(shù)/含X的事務數(shù))×100%關聯(lián)規(guī)則是形如XY的蘊含式,其中XI,YI且XY=簡單事務數(shù)據(jù)庫模型數(shù)據(jù)庫DB:TID項001ACD002BCE003ABCE004BE簡單事務數(shù)據(jù)庫模型數(shù)據(jù)庫DB:TID項001ACD002BC置信度和支持度均大于給定閾值(即最小置信度閾值和最小支持度閾值)。即:
support(X
Y)>=min_sup confidence(XY)>=min_conf的關聯(lián)規(guī)則稱為強規(guī)則;否則稱為弱規(guī)則。關聯(lián)規(guī)則挖掘主要就是對強規(guī)則的挖掘。通過設置最小支持度和最小置信度可以了解某些數(shù)據(jù)之間的關聯(lián)程度。強規(guī)則X
Y對應的項集(X∪Y)必定是頻繁集。因此,可以把關聯(lián)規(guī)則挖掘劃分為以下兩個子問題:根據(jù)最小支持度找出事務集D中的所有頻繁項集。―核心根據(jù)頻繁項集和最小置信度產生關聯(lián)規(guī)則。―較易置信度和支持度均大于給定閾值(即最小置信度閾值和最小支持度閾關聯(lián)規(guī)則挖掘:給定一組Item和記錄集合,挖掘出Item間的相關性,使其置信度和支持度分別大于用戶給定的最小置信度和最小支持度。購買商品事務如下表所示,設最小支持度為50%,最小可信度為50%,則可得到以下關聯(lián)規(guī)則:
A
C(50%,66.6%) C
A(50%,100%)
支持度可信度關聯(lián)規(guī)則挖掘:給定一組Item和記錄集合,挖掘出Item間的關聯(lián)規(guī)則挖掘的分類(1)
基于規(guī)則中處理的變量的類別 基于規(guī)則中處理的變量的類別,關聯(lián)規(guī)則可以分為布爾型和數(shù)值型。布爾型關聯(lián)規(guī)則:如果規(guī)則考慮的關聯(lián)是項“在”或“不在”,則關聯(lián)規(guī)則是布爾型的。例如,由購物籃分析得出的關聯(lián)規(guī)則。量化型關聯(lián)規(guī)則:如果描述的是量化的項或屬性之間的關聯(lián),則該規(guī)則是量化型的關聯(lián)規(guī)則。例如:以下是量化型關聯(lián)規(guī)則的一個例子(其中X為表示顧客的變量,量化屬性age和income已經(jīng)離散化):age(X,“30…39”)∧income(“42K…48K”) buys(X,“high_resolution_TV”)量化型關聯(lián)規(guī)則中也可以包含多種變量。例如:性別=“女”=>職業(yè)=“秘書”,是布爾型關聯(lián)規(guī)則;性別=“女”=>avg(月收入)=2300,涉及的收入是數(shù)值類型,所以是一個量化型關聯(lián)規(guī)則。關聯(lián)規(guī)則挖掘的分類例如:以下是量化型關聯(lián)規(guī)則的一個例子(其中(2)基于規(guī)則中數(shù)據(jù)的抽象層次 基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關聯(lián)規(guī)則和多層關聯(lián)規(guī)則。單層的關聯(lián)規(guī)則:所有的變量都不涉及不同抽象層次的項或屬性。 例如:
buys(X,“computer”) buys(X,“printer”)
顧客X購買的商品不涉及不同抽象層次(“computer”和“printer”在同一個抽象層),因此是單層關聯(lián)規(guī)則。多層的關聯(lián)規(guī)則:變量涉及不同抽象層次的項或屬性。 例如:
age(X,“30…39”) buys(X,“l(fā)aptopcomputer”) age(X,“30…39”) buys(X,“computer”) 顧客X購買的商品涉及不同抽象層次(“computer”在比“l(fā)aptopcomputer”高的抽象層),因此是多層關聯(lián)規(guī)則。(2)基于規(guī)則中數(shù)據(jù)的抽象層次(3)基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù)基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關聯(lián)規(guī)則可以分為單維的和多維的。單維關聯(lián)規(guī)則:處理單個維中屬性間的關系,即在單維的關聯(lián)規(guī)則中,只涉及到數(shù)據(jù)的一個維。 例如:用戶購買的物品:“咖啡=>砂糖”,這條規(guī)則只涉及到用戶的購買的物品。多維關聯(lián)規(guī)則:處理多個維中屬性之間的關系,即在多維的關聯(lián)規(guī)則中,要處理的數(shù)據(jù)將會涉及多個維。 例如:性別=“女”=>職業(yè)=“秘書”,這條規(guī)則就涉及到兩個維中字段的信息,是兩個維上的一條關聯(lián)規(guī)則。給出了關聯(lián)規(guī)則的分類之后,就可以考慮某個具體的關聯(lián)規(guī)則挖掘算法適用于哪一類規(guī)則的挖掘,某類關聯(lián)規(guī)則又可以用哪些不同的方法進行處理。最簡單的是單維、單層、布爾型的關聯(lián)規(guī)則。(3)基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù)給出了關聯(lián)規(guī)則的分類之后,關聯(lián)規(guī)則挖掘即給定一組Item和記錄集合,挖掘出Item間的相關性,使其置信度和支持度分別大于用戶給定的最小置信度和最小支持度。關聯(lián)規(guī)則挖掘過程
在關聯(lián)規(guī)則挖掘算法中,把項目的集合稱為項集(itemset),包含有k個項目的項集稱為k-項集。包含項集的事務數(shù)稱為項集的出現(xiàn)頻率,簡稱為項集的頻率或支持度計數(shù)。如果項集的出現(xiàn)頻率大于或等于最小支持度s與D中事務總數(shù)的乘積,則稱該項集滿足最小支持度s。如果項集滿足最小支持度,則稱該項集為頻繁項集(frequentitemset)。關聯(lián)規(guī)則挖掘即給定一組Item和記錄集合,挖掘出Item間的一個食品連鎖店保留著每周的事務記錄,其中每一條事務表示在一項收款機業(yè)務中賣出的項目。連鎖店的管理會收到一個事務匯總報告,報告表明了每種項目的銷售量是多少。此外,他們要定期了解哪些項目經(jīng)常被顧客一起購買。他們發(fā)現(xiàn)顧客購買了花生醬后,100%地會購買面包。而且,顧客購買了花生醬后,有33%也購買果凍。不過,所有事務中大約只有50%包含花生醬。被用于在其中尋找關聯(lián)規(guī)則的數(shù)據(jù)庫可以看作為一個元組集合,每個元組包含一組項目。一個元組可能是:
{花生醬、面包、果凍}包含三個項目:花生醬、面包、果凍每個項目表示購買的一種產品一個元組是一次購買的產品列表一個食品連鎖店保留著每周的事務記錄,其中每一條事務表示在一項演示關聯(lián)規(guī)則的樣本數(shù)據(jù)事務項目t1面包、果凍、花生醬t2面包、花生醬t3面包、牛奶、花生醬t4啤酒、面包t5啤酒、牛奶演示關聯(lián)規(guī)則的樣本數(shù)據(jù)事務項目t1面包、果凍、花生醬t2面包關聯(lián)規(guī)則的挖掘過程最常用的關聯(lián)規(guī)則挖掘方法被分解為下面兩步:第1步:找出所有的頻繁項集,即找出支持度大于或等于給定的最小支持度閾值的所有項集??梢詮?到k遞歸查找k-頻繁項集。第2步:由頻繁項集產生強關聯(lián)規(guī)則,即找出滿足最小支持度和最小置信度的關聯(lián)規(guī)則。找出滿足定義的大項目集從大項目集(頻繁項目集)生成關聯(lián)規(guī)則關聯(lián)規(guī)則的挖掘過程最常用的關聯(lián)規(guī)則挖掘方法被分解為下面兩步:大(頻繁)項目集是出現(xiàn)次數(shù)大于閾值S的項目集。用符號L表示大項目集組成的整個集合,用
表示一個特定的大項目集。一旦找出大項目集,則對于任何有趣的關聯(lián)規(guī)則X
Y,在頻繁項目集的集合中一定有XY。大項目集找出大項目集的算法可以很簡單,但代價很高。簡單的方法是:對出現(xiàn)在事務中的所有項目集進行計數(shù)。給定一個大小為m的項目集合,共有2m個子集,去掉空集,則潛在的大項目集數(shù)為2m-1。隨著項目數(shù)的增多,潛在的大項目集數(shù)成爆炸性增長。(當m=5,為31個;當m=30,變成1073741823個)解決問題的難點:如何高效確定所有大項目集。大部分關聯(lián)規(guī)則算法都利用巧妙的方法來減少要計數(shù)的項目集。大(頻繁)項目集是出現(xiàn)次數(shù)大于閾值S的項目集。用符號L大項目集的性質大項目集的任一子集也一定是大的。大項目集也稱作是向下封閉的,如果一個項目集滿足最小支持度的要求,其所有的子集也滿足這一要求。其逆命題:如果知道一個項目集是小的,就不需要生成它的任何超集來作為它的候選集,因為它們也一定是小的。Apriori性質基于如下事實:根據(jù)定義,如果項集I不滿足最小支持度閾值min_sup,則I不是頻繁的,即sup(I)<min_sup。如果將項A添加到I,則結果項集(即I∪A)不可能比I更頻繁出現(xiàn)。因此,I∪A也不是頻繁的,即sup(I∪A)<min_sup。頻繁項集的Apriori性質用于壓縮搜索空間(剪枝),以提高逐層產生頻繁項集的效率。大項目集的性質大項目集的任一子集也一定是大的。Apriori算法的基本思想是:首先,通過掃描數(shù)據(jù)集,產生一個大的候選數(shù)據(jù)項集,并計算每個候選數(shù)據(jù)項發(fā)生的次數(shù),然后基于預先給定的最小支持度生成頻繁1-項集的集合,該集合記作;然后基于和數(shù)據(jù)集中的數(shù)據(jù),產生頻繁2-項集;用同樣的方法,直到生成頻繁n-項集,其中已不再可能生成滿足最小支持度的(N+1)-項集。最后,從大數(shù)據(jù)項集中導出規(guī)則。Apriori算法是一種最有影響的挖掘布爾關聯(lián)規(guī)則大(頻繁)項目集的算法。它使用一種稱作逐層搜索的迭代算法,通過k-項集用于探索(k+1)-項集。已經(jīng)為大部分商業(yè)產品所使用。包括:基于劃分的Apriori方法,
Apriori-Gen的算法等.Apriori算法Apriori算法的基本思想是:Apriori算法是一5.6Ridit檢驗Ridit(RelativetoIdentifiedDistributionUnit)方法背景:實際中經(jīng)常需要比較人對某些事物的抽象感知.比如:通過測量病人對幾種藥物治療的反映程度,以獲得這些藥物的反映程度的強弱順序.分析用戶對產品或服務的滿意程度的高低順序.
體育運動比賽中評委對某運動員的動作評價.
專家對藝術作品的評級.這些數(shù)據(jù)往往是定序數(shù)據(jù).5.6Ridit檢驗Ridit(Relat
這類問題的共同特征是采用量表測量受訪者的感知,由于人為和個體差異,獲得的數(shù)據(jù)往往是定序數(shù)據(jù),并非定距數(shù)據(jù)或定比數(shù)據(jù).比如4級痛感不能代表是1級痛感的4倍,藥物的4級痛感降為3級痛感的效果不能說是和藥物的3級痛感降為2級痛感的效果一樣.因此單純應用定量數(shù)據(jù)進行各處理的強弱的比較,數(shù)據(jù)的量的關系可能與客觀實際不一致.
自然的想法是考慮將不能反映嚴格數(shù)量關系的數(shù)據(jù)得分合并,重新計算量表評級,降低人為干擾,從而作出更客觀的評價.Ridit檢驗法的原理:取一個樣本數(shù)較多的組或者將幾組數(shù)據(jù)匯總成為參照組,根據(jù)參照組的樣本結構將原來各組響應數(shù)變換為參照得分:Ridit得分,利用變換以后的Ridit得分進行個處理之間的強弱比較。這類問題的共同特征是采用量表測量受訪者的感知,由于人考慮下列r
s二維列聯(lián)表
行向量A表示不同比較組,列向量B為表示強弱高低等級變量,假設,表示對應格子的響應頻數(shù)。假設檢驗問題:考慮下列rs二維列聯(lián)表行向量A表示不同比較Ridit得分定義Ridit得分選擇用累積概率得分表示等級類別B中第j類的邊緣分布是(j=1,…,s),那么第j類的順序強度(Ridit得分)定義如下:其中
是B的累積概率.由定義,顯然有,這和
對應,符合類別等級的度量特征.Ridit得分定義Ridit得分選擇用累積概定理5.2如上定義的Ridit得分,滿足如下性質:定理5.2如上定義的Ridit得分,滿足如下性質:計算步驟
在實際計算中用樣本估計.下面給出Ridit得分計算的步驟,并將過程顯示于下表.1.計算各等級類別響應總數(shù)的一半,得到行(1).2.將行(1)右移一格,第一格為0,其余為累計前一級(j-1)的累積頻數(shù),得到行(2).3.將行(1)與行(2)對應位置相加,得到行(3),即行(3)中計算步驟在實際計算中用樣本估計.下面給出Ri計算步驟4.計算各等級類別的Ridit得分,得到行(4).5.將的值按照的權重重新配置第i,j位置的Ridit得分:6.計算第i處理的Ridit得分:這些得分的期望為0.5.計算步驟非參數(shù)統(tǒng)計-第5章分類數(shù)據(jù)的關聯(lián)分析課件檢驗根據(jù)計算的構造檢驗統(tǒng)計量:其中T為打結校正因子.當大樣本時,T值接近于1,從而檢驗統(tǒng)計量簡化為:在零假設情況下,W近似服從分布,當W過大或者過小的時候,都考慮拒絕零假設。檢驗根據(jù)計算的構造檢驗統(tǒng)計量:根據(jù)置信區(qū)間分組設由公式(5.8)給出,則其在大樣本的情況下服從正態(tài)分布,其95%的置信區(qū)間為:如果希望通過置信區(qū)間來比較第i處理與參照組之間的差異,可以用代替,其中當顯著性水平<0.05時,(1-)的置信區(qū)間近似于其中為第i處理的響應數(shù).若,且B1比Bs的等級高,則當Ridit得分的值越小,其對應的第i處理(Ai)的等級越高
例5.6參見教材根據(jù)置信區(qū)間分組設由公式(5.8)給前面章節(jié)介紹的列聯(lián)表,是研究分類變量的獨立性和依賴性的重要工具.其能確定兩個變量之間有無關聯(lián),不能確定變量之間有什么關聯(lián).針對定量數(shù)據(jù)(定比,定距數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 技術變革推動下的農村建筑墻材市場變革分析
- 多模態(tài)成像融合-深度研究
- 設計院門窗改造合同協(xié)議
- 陪護人員居間服務合同
- 外用制劑項目融資計劃書
- 智能硬件制造合同協(xié)議
- 文化交流合同
- 商業(yè)街店面租賃合同范本
- 資產轉讓合同范本
- 電焊工安全責任合同范本
- 城市基礎設施修繕工程的重點與應對措施
- GB 12710-2024焦化安全規(guī)范
- 【牛客網(wǎng)】2024秋季校園招聘白皮書
- 2024-2025銀行對公業(yè)務場景金融創(chuàng)新報告
- 2025屆鄭州市高三一診考試英語試卷含解析
- 《我國個人所得稅制下稅收征管問題研究》
- 腫瘤中醫(yī)治療及調養(yǎng)
- 組長競選課件教學課件
- 2022年公務員多省聯(lián)考《申論》真題(遼寧A卷)及答案解析
- 北師大版四年級下冊數(shù)學第一單元測試卷帶答案
- 術后肺炎預防和控制專家共識解讀課件
評論
0/150
提交評論