




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
統(tǒng)計學(xué)列聯(lián)表及對數(shù)線性模型第一頁,共三十三頁,2022年,8月28日第八章
列聯(lián)表、c2檢驗和對數(shù)線性模型
第二頁,共三十三頁,2022年,8月28日三維列聯(lián)表
(關(guān)于某項政策調(diào)查所得結(jié)果:table7.txt)
觀點:贊成觀點:不贊成
低收入中等收入高收入低收入中等收入高收入男201055810女25157279第三頁,共三十三頁,2022年,8月28日列聯(lián)表前面就是一個所謂的三維列聯(lián)表(contingencytable).這些變量中每個都有兩個或更多的可能取值。這些取值也稱為水平;比如收入有三個水平,觀點有兩個水平,性別有兩個水平等。該表為3×2×2列聯(lián)表在下面SPSS數(shù)據(jù)中,表就和上面的不同,收入的“低”、“中”、“高”用代碼1、2、3代表;性別的“女”、“男”用代碼0、1代表;觀點“贊成”和“不贊成”用1、0代表。有些計算機數(shù)據(jù)對于這些代碼的形式不限(可以是數(shù)字,也可以是字符串)。第四頁,共三十三頁,2022年,8月28日第五頁,共三十三頁,2022年,8月28日列聯(lián)表列聯(lián)表的中間各個變量不同水平的交匯處,就是這種水平組合出現(xiàn)的頻數(shù)或計數(shù)(count)。二維的列聯(lián)表又稱為交叉表(crosstable)。列聯(lián)表可以有很多維。維數(shù)多的叫做高維列聯(lián)表。注意前面這個列聯(lián)表的變量都是定性變量;但列聯(lián)表也會帶有定量變量作為協(xié)變量。第六頁,共三十三頁,2022年,8月28日二維列聯(lián)表的檢驗
研究列聯(lián)表的一個主要目的是看這些變量是否相關(guān)。比如前面例子中的收入和觀點是否相關(guān)。這需要形式上的檢驗第七頁,共三十三頁,2022年,8月28日二維列聯(lián)表的檢驗
下面表是把該例的三維表簡化成只有收入和觀點的二維表(這是SPSS自動轉(zhuǎn)化的:Analyze-DescriptiveStatistics-Crosstabs-…..).第八頁,共三十三頁,2022年,8月28日二維列聯(lián)表的檢驗對于上面那樣的二維表。我們檢驗的零假設(shè)和備選假設(shè)為H0:觀點和收入這兩個變量不相關(guān);H1:這兩個變量相關(guān)。這里的檢驗統(tǒng)計量在零假設(shè)下有(大樣本時)近似的c2分布。當該統(tǒng)計量很大時或p-值很小時,就可以拒絕零假設(shè),認為兩個變量相關(guān)。第九頁,共三十三頁,2022年,8月28日二維列聯(lián)表的檢驗實際上有不止一個c2檢驗統(tǒng)計量。包括Pearson
c2統(tǒng)計量和似然比(likelihoodratio)c2統(tǒng)計量;它們都有漸近的c2分布。對于我們的數(shù)據(jù),根據(jù)計算可以得到(對于這兩個統(tǒng)計量均有)p-值小于0.001。因此可以說,收入高低的確影響觀點。
第十頁,共三十三頁,2022年,8月28日Pearson
c2統(tǒng)計量似然比c2統(tǒng)計量第十一頁,共三十三頁,2022年,8月28日二維列聯(lián)表的檢驗剛才說,這些c2統(tǒng)計量是近似的,那么有沒有精確的統(tǒng)計量呢?當然有。這個檢驗稱為Fisher精確檢驗;它不是c2分布,而是超幾何分布。對本問題,計算Fisher統(tǒng)計量得到的p-值也小于0.001。Fisher精確檢驗的又一例子第十二頁,共三十三頁,2022年,8月28日二維列聯(lián)表的檢驗聰明的同學(xué)必然會問,既然有精確檢驗為什么還要用近似的c2檢驗?zāi)兀窟@是因為當數(shù)目很大時,超幾何分布計算相當緩慢(比近似計算會差很多倍的時間);而且在計算機速度不快時,根本無法計算。因此人們多用大樣本近似的c2統(tǒng)計量。而列聯(lián)表的有關(guān)檢驗也和c2檢驗聯(lián)系起來了。第十三頁,共三十三頁,2022年,8月28日具體運算:先加權(quán),加權(quán)之后,按照次序選Analyze-DescriptiveStatistics-Crosstabs。在打開的對話框中,把opinion和income分別選入Row(行)和Column(列);至于哪個放入行或哪個放入列是沒有關(guān)系的。如果要Fisher精確檢驗則可以點Exact,另外在Statistics中選擇Chi-square,以得到c2檢驗結(jié)果。最后點擊OK之后,就得到有關(guān)Pearsonc2統(tǒng)計量、似然比c2統(tǒng)計量以及Fisher統(tǒng)計量的輸出了(這里的Sig就是p-值)。
第十四頁,共三十三頁,2022年,8月28日下面就是SPSS計算機對于這個問題的輸出第十五頁,共三十三頁,2022年,8月28日高維列聯(lián)表和(多項分布)對數(shù)線性模型
前面例子原始數(shù)據(jù)是個三維列聯(lián)表,其檢驗和對兩維類似。但高維列聯(lián)表在計算機軟件的選項上有所不同,而且可以構(gòu)造一個所謂(多項分布)對數(shù)線性模型(loglinearmodel)來進行分析。利用對數(shù)線性模型的好處是不僅可以直接進行預(yù)測,而且可以增加定量變量作為模型自變量的一部分。第十六頁,共三十三頁,2022年,8月28日對數(shù)線性模型現(xiàn)在簡單直觀地通過二維表介紹一下對數(shù)線性模型,假定不同的行代表第一個變量的不同水平,而不同的列代表第二個變量的不同水平。用mij代表二維列聯(lián)表第i行,第j列的頻數(shù)。人們常假定這個頻數(shù)可以用下面的公式來確定:這就是所謂的對數(shù)線性模型。這里ai為行變量的第i個水平對ln(mij)的影響,而bj為列變量的第j個水平對ln(mij)的影響,這兩個影響稱為主效應(yīng)(maineffect);eij代表隨機誤差。
第十七頁,共三十三頁,2022年,8月28日(多項分布)對數(shù)線性模型該模型看上去和回歸模型很象,但由于分布假設(shè)不同,不能簡單地用線性回歸的方法來套用(和Logistic回歸類似);計算過程也很不一樣(把這個留給計算機去操心)。只要利用數(shù)據(jù)來擬合這個模型就可以得到對于參數(shù)m的估計(沒有意義),以及ai和bj的“估計”。有了估計的參數(shù),就可以預(yù)測出任何i,j水平組合的頻數(shù)mij了(通過對數(shù))第十八頁,共三十三頁,2022年,8月28日(多項分布)對數(shù)線性模型注意,這里的估計之所以打引號是因為一個變量的各個水平的影響是相對的,只有事先固定一個參數(shù)值(比如a1=0),或者設(shè)定類似于Sai=0這樣的約束,才可能估計出各個的值。沒有約束,這些參數(shù)是估計不出來的。第十九頁,共三十三頁,2022年,8月28日(多項分布)對數(shù)線性模型二維列聯(lián)表的更完全的對數(shù)線性模型為這里的(ab)ij代表第一個變量的第i個水平和第二個變量的第j個水平對ln(mij)的共同影響,稱為交叉效應(yīng)。即當單獨作用時,每變量的某水平對ln(mij)的影響只有ai(或bj)大,但如這兩個變量共同影響就不僅是ai+bj,而且還多出一項。這里的交叉項的諸參數(shù)的大小也是相對的,也需要約束條件來得到其“估計”。第二十頁,共三十三頁,2022年,8月28日用table7.txt數(shù)據(jù)擬合對數(shù)線性模型假定(多項分布)對數(shù)線性模型為這里ai為收入(i=1,2,3代表收入的低、中、高三個水平),bj為觀點(j=1,2代表不贊成和贊成兩個水平),gk為性別(k=1,2代表女性和男性兩個水平),
mijk代表三維列聯(lián)表對于三個變量的第ijk水平組合的出現(xiàn)次數(shù),eijk為殘差而從相應(yīng)的參數(shù)估計輸出結(jié)果,可以得到對ai的三個值的估計為0.5173,0.2549,0.0000,對bj的兩個值的估計為-0.6931,0.0000,對gk的兩個值的估計為0.1139,0.0000。(多項對數(shù)線性模型無常數(shù)項)第二十一頁,共三十三頁,2022年,8月28日對數(shù)線性模型高維表的檢驗統(tǒng)計量和二維表一樣也包含了Pearsonc2統(tǒng)計量和似然比c2統(tǒng)計量,檢驗對數(shù)線性模型擬合的好壞程度的。就我們這里的三維列聯(lián)表問題,如果只考慮各個變量單獨的影響,而不考慮變量組合的綜合影響,計算機輸出的Pearsonc2統(tǒng)計量和似然比c2統(tǒng)計量得到的p-值分別為0.0029和0.0011。第二十二頁,共三十三頁,2022年,8月28日多項分布對數(shù)線性模型的SPSS實現(xiàn)[數(shù)據(jù)table7.sav]假定已經(jīng)加權(quán)(加權(quán)一次并存盤了既可)這時的選項為Analyze-Loglinear-General,首先選擇格子中頻數(shù)的分布,這里是多項分布(其默認值是Poisson對數(shù)線性模型).然后把三個變量(sex,opinion,income)選入Factors(因子);再選Model(模型),如果選Saturated(飽和模型),那就是所有交叉效應(yīng)都要放入模型;但如果不想這樣,可以選Custom(自定義),在BuildingTerms(構(gòu)造模型的項)選Maineffect(主效應(yīng)),再把三個變量一個一個地選進來(如果兩個或三個一同選入,等于選入交叉效應(yīng)).如果想要知道模型參數(shù),在Options中選擇Estimates。最后Continue-OK即可得出結(jié)果.在計算機輸出的結(jié)果中可以找到我們感興趣的結(jié)果。如果SPSS的Viewer輸出不完全,可以選中不完全的輸出,利用Edit-CopyObjects來復(fù)制到例如記事本那樣的文件中,就可以看到完整輸出了第二十三頁,共三十三頁,2022年,8月28日注意,無論你對模型假定了多少種效應(yīng),并不見得都有意義;有些可能是多余的。本來沒有交叉影響,但如果寫入,也沒有關(guān)系,在分析過程中一般可以知道哪些影響是顯著的,而那些是不顯著的。然后可決定舍取變量。第二十四頁,共三十三頁,2022年,8月28日另一種對數(shù)線性模型常用的對數(shù)線性模型主要是兩種,我們已經(jīng)介紹了多項分布對數(shù)線性模型(格子里面的頻數(shù)滿足多項分布)。另一類為Poisson對數(shù)線性模型.它假定每個格子里面的頻數(shù)滿足一個Poisson分布.在統(tǒng)計軟件的選項中會有關(guān)于分布的選項的。第二十五頁,共三十三頁,2022年,8月28日Poison對數(shù)線性模型
有的時候,類似的高維表并不一定滿足多項分布對數(shù)線性模型。下面例子是關(guān)于哮喘病人個數(shù)和空氣污染程度,年齡和性別的數(shù)據(jù)(asthma.txt)數(shù)據(jù)為某地在一段時間記錄下來的60組在不同空氣污染狀態(tài)的不同年齡及不同性別的人的發(fā)生哮喘的人數(shù)。第二十六頁,共三十三頁,2022年,8月28日Poison對數(shù)線性模型
其中性別為定性變量S(sex,1代表女性,2代表男性),空氣污染程度P也是定性變量(polut,1、2、3分別代表輕度、中度和嚴重污染),年齡A(age)為定量變量,為那一組人的平均年齡;數(shù)目C(count)為相應(yīng)組的哮喘人數(shù)。該表格和前面的列聯(lián)表的不同點在于每一格的計數(shù)并不簡單是前面三個變量的組合的數(shù)目(某個年齡段,某種性別及某種污染下的人數(shù)),而是代表了某個年齡段,某種性別及某種污染下發(fā)生哮喘的人數(shù)。
第二十七頁,共三十三頁,2022年,8月28日第二十八頁,共三十三頁,2022年,8月28日Poisson對數(shù)線性模型假定哮喘發(fā)生服從Poisson分布;但是由于條件不同,Poisson分布的參數(shù)l也應(yīng)該隨著條件的變化而改變。這里的條件就是給出的性別、空氣污染程度與年齡。當然,如何影響以及這些條件影響是否顯著則是我們所關(guān)心的。這個模型可以寫成
這里m為常數(shù)項,ai為性別(i=1,2分別代表女性和男性兩個水平),bj為空氣污染程度(j=1,2,3代表低、中高三個污染水平),x為連續(xù)變量年齡,而g為年齡前面的系數(shù),eij為殘差項。
第二十九頁,共三十三頁,2022年,8月28日Poisson對數(shù)線性模型從對于數(shù)據(jù)(asthma.txt)的Poisson對數(shù)線性模型的相應(yīng)SPSS輸出,可以得到對m的估計為4.9820,對ai的兩個值的“估計”為-0.0608、
0.0000,對bj的三個值的“估計”為-0.1484,0.1223、0.0000,對g的估計為
0.0126。注意,這里的對主效應(yīng)aI和bj的估計只有相對意義;它們在一個參數(shù)為0的約束條件下得到的。第三十頁,共三十三頁,2022年,8月28日Poisson對數(shù)線性模型看來,年齡和性別對哮喘影響不很顯著。輕度污染顯然比中度污染和嚴重污染哮喘要好。但是似乎嚴重污染時哮喘稍微比中度污染少些(不顯著)。通過更進一步的分析(這里略),可以發(fā)現(xiàn),中度和嚴重空氣污染(無論單獨還是一起)和輕度空氣污染比較都顯著增加哮喘人數(shù),而中度及嚴重污染時的哮喘人數(shù)并沒有顯著區(qū)別。第三十一頁,共三十三頁,2022年,8月28日Poisson對數(shù)線性模型的SPSS實現(xiàn)[數(shù)據(jù)asthma.sav]假定已經(jīng)加權(quán)這時的選項為Analyze-Loglinear-General,首先選擇格子中頻數(shù)的分布,這里是Poisson分布。然后把兩個變量(sex,polut)選入Factors(因子),把age選入CellCovariate(s)。再選Model(模型),這里以選Custom(自定義),在BuildingTerms(構(gòu)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電焊工施工合同協(xié)議書
- 湖北省隨州市部分高中2024-2025學(xué)年高一下學(xué)期2月聯(lián)考地理試卷(含答案)
- 洗衣設(shè)備購銷合同共
- 健身房運營管理作業(yè)指導(dǎo)書
- 會議策劃與活動執(zhí)行服務(wù)協(xié)議
- 健康科技在老年健康管理中的應(yīng)用解決方案
- 水利建設(shè)工程施工合同協(xié)議書
- 大學(xué)生科普小說讀后感
- 觀看紀錄片長江觀后感
- 車隊土石方運輸合同
- 化學(xué)電源電化學(xué)原理
- 英語國家概況謝福之chapter-1
- 高頻訂單失衡及價差因子
- 部門預(yù)算與預(yù)算管理(PPT-38頁)課件
- (KPI績效考核)某制造業(yè)公司X年績效考核全套考核指標
- 布朗德戰(zhàn)略導(dǎo)向的薪酬管理體系
- SOP標準作業(yè)指導(dǎo)書樣板
- 食品經(jīng)營餐飲操作流程(共1頁)
- JTS 144-1-2010 港口工程荷載規(guī)范
- 產(chǎn)液剖面介紹
- 美國UNF和unc螺紋標準
評論
0/150
提交評論