列聯(lián)表、卡方檢驗(yàn)與對(duì)數(shù)線性模型2022優(yōu)秀文檔_第1頁
列聯(lián)表、卡方檢驗(yàn)與對(duì)數(shù)線性模型2022優(yōu)秀文檔_第2頁
列聯(lián)表、卡方檢驗(yàn)與對(duì)數(shù)線性模型2022優(yōu)秀文檔_第3頁
列聯(lián)表、卡方檢驗(yàn)與對(duì)數(shù)線性模型2022優(yōu)秀文檔_第4頁
列聯(lián)表、卡方檢驗(yàn)與對(duì)數(shù)線性模型2022優(yōu)秀文檔_第5頁
已閱讀5頁,還剩38頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

列聯(lián)表、c2檢驗(yàn)和對(duì)數(shù)線性模型列聯(lián)表前面就是一個(gè)所謂的三維列聯(lián)表(contingencytable).這些變量中每個(gè)都有兩個(gè)或更多的能夠取值。這些取值也稱為程度;比如收入有三個(gè)程度,觀念有兩個(gè)程度,性別有兩個(gè)程度等。該表為3×2×2列聯(lián)表在SPSS數(shù)據(jù)中,表就不和課本印的一樣,收入的“低〞、“中〞、“高〞用代碼1、2、3代表;性別的“女〞、“男〞用代碼0、1代表;觀念“贊成〞和“不贊成〞用1、0代表。有些計(jì)算機(jī)數(shù)據(jù)對(duì)于這些代碼的方式不限〔可以是數(shù)字,也可以是字符串〕。Table7.sav數(shù)據(jù)0000,對(duì)g的估計(jì)為0.利用crosstabs處置三維列聯(lián)表問題的輸出ErrorzvaluePr(>|z|)ErrorzvaluePr(>|z|)Sex=factor(Sex);Polution=factor(Polution)(Intercept)-0.從對(duì)于數(shù)據(jù)(asthma.這些變量中每個(gè)都有兩個(gè)或更多的能夠取值。這個(gè)表格和前面的列聯(lián)表的不同點(diǎn)在于每一格的計(jì)數(shù)并不簡(jiǎn)單是前面三個(gè)變量的組合的數(shù)目(某個(gè)年齡段,某種性別及某種污染下的人數(shù)),而是代表了某個(gè)年齡段,某種性別及某種污染下發(fā)生哮喘的人數(shù)。這些變量中每個(gè)都有兩個(gè)或更多的能夠取值。最后Continue-OK即可得出結(jié)果。ErrorzvaluePr(>|z|)實(shí)踐上有不止一個(gè)c2檢驗(yàn)統(tǒng)計(jì)量。本來沒有交叉影響,但假設(shè)寫入,也沒有關(guān)系,在分析過程中普通可以知道哪些影響是顯著的,而那些是不顯著的。(Intercept)1.列聯(lián)表列聯(lián)表的中間各個(gè)變量不同程度的交匯處,就是這種程度組合出現(xiàn)的頻數(shù)或計(jì)數(shù)〔count〕。二維的列聯(lián)表又稱為交叉表〔crosstable〕。列聯(lián)表可以有很多維。維數(shù)多的叫做高維列聯(lián)表。留意前面這個(gè)列聯(lián)表的變量都是定性變量;但列聯(lián)表也會(huì)帶有定量變量作為協(xié)變量。二維列聯(lián)表的檢驗(yàn)研討列聯(lián)表的一個(gè)主要目的是看這些變量能否相關(guān)。比如前面例子中的收入和觀念能否相關(guān)。這需求方式上的檢驗(yàn)二維列聯(lián)表的檢驗(yàn)下面表是把該例的三維表簡(jiǎn)化成只需收入和觀念的二維表(這是SPSS自動(dòng)轉(zhuǎn)化的:Analyze-DescriptiveStatistics-Crosstabs-…..).二維列聯(lián)表的檢驗(yàn)對(duì)于上面那樣的二維表。我們檢驗(yàn)的零假設(shè)和備選假設(shè)為H0:觀念和收入這兩個(gè)變量不相關(guān);H1:這兩個(gè)變量相關(guān)。這里的檢驗(yàn)統(tǒng)計(jì)量在零假設(shè)下有〔大樣本時(shí)〕近似的c2分布。當(dāng)該統(tǒng)計(jì)量很大時(shí)或p-值很小時(shí),就可以回絕零假設(shè),以為兩個(gè)變量相關(guān)。實(shí)踐上有不止一個(gè)c2檢驗(yàn)統(tǒng)計(jì)量。包括Pearsonc2統(tǒng)計(jì)量和似然比〔likelihoodratio〕c2統(tǒng)計(jì)量;它們都有漸近的c2分布。根據(jù)計(jì)算可以得到〔對(duì)于這兩個(gè)統(tǒng)計(jì)量均有〕p-值小于0.001。因此可以說,收入高低確實(shí)影響觀念。Pearsonc2統(tǒng)計(jì)量似然比c2統(tǒng)計(jì)量Oi代表第i個(gè)格子的計(jì)數(shù),Ei代表按照零假設(shè)〔行列無關(guān)〕對(duì)第i格子的計(jì)數(shù)的期望值二維列聯(lián)表的檢驗(yàn)剛剛說,這些c2統(tǒng)計(jì)量是近似的,那么有沒有準(zhǔn)確的統(tǒng)計(jì)量呢?當(dāng)然有。這個(gè)檢驗(yàn)稱為Fisher準(zhǔn)確檢驗(yàn);它不是c2分布,而是超幾何分布。對(duì)本問題,計(jì)算Fisher統(tǒng)計(jì)量得到的p-值也小于0.001。聰明的同窗必然會(huì)問,既然有準(zhǔn)確檢驗(yàn)為什么還要用近似的c2檢驗(yàn)?zāi)兀窟@是由于當(dāng)數(shù)目很大時(shí),超幾何分布計(jì)算相當(dāng)緩慢〔比近似計(jì)算會(huì)差很多倍的時(shí)間〕;而且在計(jì)算機(jī)速度不快時(shí),根本無法計(jì)算。因此人們多用大樣本近似的c2統(tǒng)計(jì)量。而列聯(lián)表的有關(guān)檢驗(yàn)也和c2檢驗(yàn)聯(lián)絡(luò)起來了。Fisher準(zhǔn)確檢驗(yàn)SPSS:Weight-Describ-crosstab-exact…下面為SPSS對(duì)于table7.savs數(shù)據(jù)產(chǎn)生的下面二維列聯(lián)表相關(guān)分析的輸出利用crosstabs處置三維列聯(lián)表問題的SPSS選項(xiàng)利用crosstabs處置三維列聯(lián)表問題的輸出利用crosstabs處置三維列聯(lián)表問題的輸出利用crosstabs處置三維列聯(lián)表問題的輸出從對(duì)于數(shù)據(jù)(asthma.0023331.它們?cè)谝粋€(gè)參數(shù)為0的約束條件下得到的。剛剛說,這些c2統(tǒng)計(jì)量是近似的,那么有沒有準(zhǔn)確的統(tǒng)計(jì)量呢?(Intercept)-0.比如前面例子中的收入和觀念能否相關(guān)。Min1QMedian3QMax后面表格為某地在一段時(shí)間記錄的60組在不同空氣污染形狀的不同年齡及不同性別的人的發(fā)生哮喘的人數(shù)。Residualdeviance:68.后面表格為某地在一段時(shí)間記錄的60組在不同空氣污染形狀的不同年齡及不同性別的人的發(fā)生哮喘的人數(shù)。a=glm(Count~Sex+Polution+Age,family=poisson)1743460.利用crosstabs處置三維列聯(lián)表問題的輸出(Intercept)1.性別的“女〞、“男〞用代碼0、1代表;而且在計(jì)算機(jī)速度不快時(shí),根本無法計(jì)算。高維列聯(lián)表和(多項(xiàng)分布)對(duì)數(shù)線性模型前面例子原始數(shù)據(jù)是個(gè)三維列聯(lián)表,對(duì)三維列聯(lián)表的檢驗(yàn)也類似。但高維列聯(lián)表在計(jì)算機(jī)軟件的選項(xiàng)可有所不同,而且可以構(gòu)造一個(gè)所謂(多項(xiàng)分布)對(duì)數(shù)線性模型(loglinearmodel)來進(jìn)展分析。利用對(duì)數(shù)線性模型的益處是不僅可以直接進(jìn)展預(yù)測(cè),而且可以添加定量變量作為模型的一部分。對(duì)數(shù)線性模型如今簡(jiǎn)單直觀地經(jīng)過二維表引見一下對(duì)數(shù)線性模型,假定不同的行代表第一個(gè)變量的不同程度,而不同的列代表第二個(gè)變量的不同程度。用mij代表二維列聯(lián)表第i行,第j列的頻數(shù)。人們常假定這個(gè)頻數(shù)可以用下面的公式來確定:這就是所謂的多項(xiàng)分布對(duì)數(shù)線性模型。這里ai為行變量的第i個(gè)程度對(duì)ln(mij)的影響,而bj為列變量的第j個(gè)程度對(duì)ln(mij)的影響,這兩個(gè)影響稱為主效應(yīng)〔maineffect〕。(多項(xiàng)分布)對(duì)數(shù)線性模型這個(gè)模型看上去和回歸模型很象,但由于對(duì)于分布的假設(shè)不同,不能簡(jiǎn)單地用線性回歸的方法來套用(和Logistic回歸類似);計(jì)算過程也很不一樣。當(dāng)然我們把這個(gè)留給計(jì)算機(jī)去操心了。只需利用數(shù)據(jù)來擬合這個(gè)模型就可以得到對(duì)于ai和bj的“估計(jì)〞。有了估計(jì)的參數(shù),就可以預(yù)測(cè)出任何i,j程度組合的頻數(shù)mij了〔經(jīng)過其對(duì)數(shù)〕。留意,這里的估計(jì)之所以打引號(hào)是由于一個(gè)變量的各個(gè)程度的影響是相對(duì)的,因此,只需事先固定一個(gè)參數(shù)值(比如a1=0),或者設(shè)定類似于Sai=0這樣的約束,才能夠估計(jì)出各個(gè)的值。沒有約束,那么這些參數(shù)是估計(jì)不出來的。〔多項(xiàng)分布〕對(duì)數(shù)線性模型二維列聯(lián)表的更完全的對(duì)數(shù)線性模型為這里的(ab)ij代表第一個(gè)變量的第i個(gè)程度和第二個(gè)變量的第j個(gè)程度對(duì)ln(mij)的共同影響(交叉效應(yīng))。即當(dāng)單獨(dú)作用時(shí),每個(gè)變量的一個(gè)程度對(duì)ln(mij)的影響只需ai(或bj)大,但假設(shè)這兩個(gè)變量一同影響就不僅是ai+bj,而且還多出一項(xiàng)。這里的交叉項(xiàng)的諸參數(shù)的大小也是相對(duì)的,也需求約束條件來得到其“估計(jì)〞;涉及的變量和程度越多,約束也越多。留意,無論他對(duì)模型假定了多少種效應(yīng),并不見得都有意義;有些能夠是多余的。本來沒有交叉影響,但假設(shè)寫入,也沒有關(guān)系,在分析過程中普通可以知道哪些影響是顯著的,而那些是不顯著的。兩種對(duì)數(shù)線性模型前面引見的多項(xiàng)分布對(duì)數(shù)線性模型假定一切的能夠格子里面的頻數(shù)滿足多項(xiàng)分布。另一類為Poisson對(duì)數(shù)線性模型.它假定每個(gè)格子里面的頻數(shù)滿足一Poisson分布〔后面再引見〕.統(tǒng)計(jì)軟件的選項(xiàng)中有關(guān)于分布的選項(xiàng)高維表的檢驗(yàn)統(tǒng)計(jì)量和二維表一樣也包含了Pearsonc2統(tǒng)計(jì)量和似然比c2統(tǒng)計(jì)量。用table7.sav數(shù)據(jù)擬合對(duì)數(shù)線性模型假定〔多項(xiàng)分布〕對(duì)數(shù)線性模型為這里ai為收入〔i=1,2,3代表收入的低、中、高三個(gè)程度〕,bj為觀念〔j=1,2代表不贊成和贊成兩個(gè)程度〕,gk為性別〔k=1,2代表女性和男性兩個(gè)程度〕,mijk代表三維列聯(lián)表對(duì)于三個(gè)變量的第ijk程度組合的出現(xiàn)次數(shù)。而從相應(yīng)的參數(shù)估計(jì)輸出結(jié)果,可以得到對(duì)ai的三個(gè)值的估計(jì)為0.5173,0.2549,0.0000,對(duì)bj的兩個(gè)值的估計(jì)為-0.6931,0.0000,對(duì)gk的兩個(gè)值的估計(jì)為0.1,0.0000。(多項(xiàng)對(duì)數(shù)線性模型常數(shù)無意義,輸出的常數(shù)項(xiàng)僅僅是數(shù)學(xué)意義)SPSS輸出就這里的三維列聯(lián)表問題,如只思索各個(gè)變量單獨(dú)的影響,而不思索變量組合的綜合影響,其SPSS輸出的Pearsonc2統(tǒng)計(jì)量和似然比c2統(tǒng)計(jì)量得到的p-值分別為0.0029和0.0011。SPSS輸出Poison對(duì)數(shù)線性模型有的時(shí)候,類似的高維表并不一定滿足多項(xiàng)分布對(duì)數(shù)線性模型。下面看一個(gè)例子。這是關(guān)于哮喘病人個(gè)數(shù)和空氣污染程度,年齡和性別的數(shù)據(jù)〔asthma.sav〕后面表格為某地在一段時(shí)間記錄的60組在不同空氣污染形狀的不同年齡及不同性別的人的發(fā)生哮喘的人數(shù)。其中性別為定性變量S(sex,1代表女性,2代表男性),空氣污染程度P也是定性變量〔polut,1、2、3分別代表輕度、中度和嚴(yán)重污染〕,年齡A(age)為定量變量,為那一組人的平均年齡;還有一列計(jì)數(shù)C(count)為這一組的哮喘人數(shù)。這個(gè)表格和前面的列聯(lián)表的不同點(diǎn)在于每一格的計(jì)數(shù)并不簡(jiǎn)單是前面三個(gè)變量的組合的數(shù)目(某個(gè)年齡段,某種性別及某種污染下的人數(shù)),而是代表了某個(gè)年齡段,某種性別及某種污染下發(fā)生哮喘的人數(shù)。Poisson對(duì)數(shù)線性模型簡(jiǎn)介

在某些固定的條件下,人們以為某些事件出現(xiàn)的次數(shù)服從Poisson分布,比如在某一個(gè)時(shí)間段內(nèi)某種疾病的發(fā)生病數(shù),顯微鏡下的微生物數(shù),血球數(shù),門診病人數(shù),投保數(shù),商店的顧客數(shù),公共汽車到達(dá)數(shù),接通數(shù)等等.然而,條件是不斷變化的.因此,所涉及的Poisson分布的參數(shù)也隨著變化.Poisson對(duì)數(shù)線性模型假定哮喘發(fā)生服從Poisson分布;但是由于條件不同,Poisson分布的參數(shù)l也應(yīng)該隨著條件的變化而改動(dòng)。這里的條件就是給出的性別、空氣污染程度與年齡。當(dāng)然,如何影響以及這些條件影響能否顯著那么是我們所關(guān)懷的。這個(gè)模型可以寫成這里m為常數(shù)項(xiàng),ai為性別〔i=1,2分別代表女性和男性兩個(gè)程度〕,bj為空氣污染程度〔j=1,2,3代表低、中高三個(gè)污染程度〕,x為延續(xù)變量年齡,而g為年齡前面的系數(shù),eij為殘差項(xiàng)。Poisson對(duì)數(shù)線性模型從對(duì)于數(shù)據(jù)(asthma.sav)的Poisson對(duì)數(shù)線性模型的相應(yīng)SPSS輸出,可以得到對(duì)m的估計(jì)為4.9820,對(duì)ai的兩個(gè)值的“估計(jì)〞為-0.0608、0.0000,對(duì)bj的三個(gè)值的“估計(jì)〞為-0.1484,0.1223、0.0000,對(duì)g的估計(jì)為0.0126。留意,這里的對(duì)主效應(yīng)aI和bj的估計(jì)只需相對(duì)意義;它們?cè)谝粋€(gè)參數(shù)為0的約束條件下得到的。從模型看上去,年齡和性別對(duì)哮喘影響都不那么重要。輕度污染顯然比中度污染和嚴(yán)重污染哮喘要好。但是似乎嚴(yán)重污染時(shí)哮喘略微比中度污染少些(差別不顯著)。經(jīng)過更進(jìn)一步的分析〔這里不進(jìn)展〕,可以發(fā)現(xiàn),中度和嚴(yán)重空氣污染〔無論單獨(dú)還是一同〕和輕度空氣污染比較都顯著添加哮喘人數(shù),而中度及嚴(yán)重污染時(shí)的哮喘人數(shù)并沒有顯著區(qū)別。數(shù)據(jù)(asthma.sav)m=read.table("d:/booktj1/data/asthma.txt")names(m)=c("Sex","Polution","Age","Count")attach(m)a=glm(Count~Sex+Polution+Age,family=poisson)Sex=factor(Sex);Polution=factor(Polution)a=glm(Count~Sex+Polution+Age,family=poisson)summary(a)數(shù)據(jù)(asthma.sav)m=read.table("d:/booktj1/data/asthma.txt")Call:glm(formula=Count~Sex+Polution+Age,family=poisson)DevianceResiduals:Min1QMedian3QMax-1.7901-0.6700-0.06510.60931.5848Coefficients:EstimateStd.ErrorzvaluePr(>|z|)(Intercept)1.7307120.14023812.341<2e-16***Sex20.0239260.0905430.2640.7916Polution20.2974650.1123532.6480.0081**Polution30.1743460.1155191.5090.1312Age0.0044070.0023331.8890.0589.---Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1(Dispersionparameterforpoissonfamilytakentobe1)Nulldeviance:56.577on59degreesoffreedomResidualdeviance:45.772on55degreesoffreedomAIC:289.41NumberofFisherScoringiterations:4SPSS的實(shí)現(xiàn)[數(shù)據(jù)asthma.sav]假定曾經(jīng)加權(quán)這時(shí)的選項(xiàng)為Analyze-Loglinear-General,首先選擇格子中頻數(shù)的分布,這里是Poisson分布。然后把兩個(gè)變量〔sex,polut〕選入Factors〔因子〕,把a(bǔ)ge選入CellCovariate(s)。再選Model〔模型〕,這里以選Custom〔自定義〕,在BuildingTerms〔構(gòu)造模型的項(xiàng)〕選Maineffect〔主效應(yīng)〕,再把三個(gè)變量一個(gè)一個(gè)地選進(jìn)來。假設(shè)想要知道模型參數(shù),在Options中選擇Estimates。最后Continue-OK即可得出結(jié)果。在結(jié)果中可以找到有關(guān)Pearsonc2統(tǒng)計(jì)量和似然比c2統(tǒng)計(jì)量的檢驗(yàn)結(jié)果及參數(shù)的估計(jì)〔假設(shè)SPSS的Viewer輸出不完全,可以選中不完全的輸出,利用Edit-CopyObjects來復(fù)制到例如記事本那樣的文件中,就可以看到完好輸出了〕。數(shù)據(jù)〔acc2.txt,acc2sas.txt,acc2.sav〕m=read.table("d:/booktj1/data/acc2.txt",header=T)attach(m);Machine=factor(Machine);Person=factor(Person)a=glm(Incidents~Time+Machine+Person,family=poisson)summary(a)數(shù)據(jù)〔acc2.txt,acc2sas.txt,acc2.sav〕summary(a)Call:glm(formula=Incidents~Tim

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論