應用統(tǒng)計學:第7章 方差分析_第1頁
應用統(tǒng)計學:第7章 方差分析_第2頁
應用統(tǒng)計學:第7章 方差分析_第3頁
應用統(tǒng)計學:第7章 方差分析_第4頁
應用統(tǒng)計學:第7章 方差分析_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第7章方差分析

AnalysisofVariance(ANOVA)7.1方差分析簡介7.2單因素方差分析7.3雙因素方差分析1學習目標掌握方差分析中的基本概念;掌握方差分析的基本思想和原理;掌握單因素方差分析的方法及應用;初步了解多重比較方法的應用;了解雙因素方差分析的方法及應用。27.1方差分析中的基本概念和假設7.1.1方差分析中的基本概念7.1.2方差分析中的基本假設與檢驗3失業(yè)保險案例:為什么要進行方差分析?

為了減小失業(yè)保險支出、促進就業(yè),政府試圖為失業(yè)者提供再就業(yè)獎勵:如果失業(yè)者可以在限定的時間內(nèi)重新就業(yè),他將可以獲得一定數(shù)額的獎金。政策會有效嗎?

4要研究的問題總體1,μ1(獎金=1)總體2,μ2

(獎金=2)總體3,μ3(獎金=3)樣本1樣本2樣本3樣本4總體4,μ4(獎金=4)5各個總體的均值相等嗎?Xf(X)

1

2

3

4

Xf(X)

3

1

2

4

6失業(yè)保險案例:實驗結果……1=無獎金2=低獎金3=中獎金4=高獎金。根據(jù)實驗結果,可以認為各總體的平均失業(yè)時間相同嗎?7研究方法:兩樣本的t檢驗?用t檢驗比較兩個均值:每次只能比較兩個均值,要解決上述問題需要進行6次t檢驗……在整體檢驗中犯第一類錯誤的概率顯著增加:

如果在每次t檢驗中犯第一類錯誤的概率等于5%,則在整體檢驗中等于1-(1-0.05)6=0.26498方差分析可以用來比較多個均值方差分析(Analysisofvariance,ANOVA)的主要目的是通過對方差的比較來檢驗多個均值之間差異的顯著性??梢钥醋鱰檢驗的擴展,只比較兩個均值時與t檢驗等價。20世紀20年代由英國統(tǒng)計學家費喧(R.A.Fisher)最早提出的,開始應用于生物和農(nóng)業(yè)田間試驗,以后在許多學科中得到了廣泛應用。97.1.1方差分析中的幾個基本概念因變量:我們實際測量的、作為結果的變量,例如失業(yè)持續(xù)時間。自變量:作為原因的、把觀測結果分成幾個組以進行比較的變量例如獎金水平。在方差分析中,自變量也被稱為因素(factor)。因素的不同表現(xiàn),即每個自變量的不同取值稱為因素的水平。107.1.1基本概念方差分析主要用來研究一個定量因變量與一個或多個定性自變量的關系只有一個自變量的方差分析稱為單因素方差分析。研究多個因素對因變量的影響的方差分析稱為多因素方差分析,其中最簡單的情況是雙因素方差分析。117.1.1:固定效應與隨機效應模型固定效應模型:因素的所有水平都是由實驗者審慎安排而不是隨機選擇的。隨機效應模型:因素的水平是從多個可能的水平中隨機選擇的。固定效應和隨機效應模型在假設的設置和參數(shù)估計上有所差異,本章研究的都是固定效應模型。12方差分析與回歸分析的聯(lián)系*回歸分析主要用來研究定量自變量和定量因變量之間的關系(以后學習)?;貧w分析中方差分析常常用來檢驗回歸方程的整體顯著性?;貧w模型中也可以包含定性自變量。這時回歸模型與方差分析模型是等價的。137.1.2:方差分析中的基本假設(1)在各個總體中因變量都服從正態(tài)分布;(2)在各個總體中因變量的方差都相等;(3)各個觀測值之間是相互獨立的。14(1)正態(tài)性的檢驗各組數(shù)據(jù)的直方圖Q-Q圖,K-S檢驗*15(2)等方差性的檢驗經(jīng)驗方法:計算各組數(shù)據(jù)的標準差,如果最大值與最小值的比例小于2:1,則可認為是同方差的。

最大值和最小值的比例等于1.83<2

Levene檢驗*獎金水平均值N標準差188.4496.82285.33911.02382.5698.38477.1196.0116(3)其它說明方差分析對前兩個假設條件是穩(wěn)健的,允許一定程度的偏離。獨立性的假設條件一般可以通過對數(shù)據(jù)搜集過程的控制來保證。如果確實嚴重偏離了前兩個假設條件,則需要先對數(shù)據(jù)進行數(shù)學變換,也可以使用非參數(shù)的方法來比較各組的均值。177.2.單因素方差分析7.2.1單因素方差分析模型7.2.2方差分析的基本原理7.2.3單因素方差分析的步驟7.2.4方差分析中的多重比較187.2.1單因素方差分析模型單因素方差分析:模型中有一個自變量

(因素)和一個因變量。在失業(yè)保險實驗中假設張三在高獎金組,則

張三的失業(yè)時間

=高獎金組的平均失業(yè)時間

+隨機因素帶來的影響

=總平均失業(yè)時間

+高獎金組平均值與總平均值之差

+隨機因素帶來的影響

197.2.2:總變差(離差平方和)的分解總變差SST=SSA+SSE

因素A導致的變差隨機因素導致的變差組間離差平方和組內(nèi)離差平方和207.2.2:組間方差和組內(nèi)方差各離差平方和的大小與觀察值的多少有關,為了消除觀察值多少對離差平方和大小的影響,需要將其平均,這就是均方,也稱為方差。計算方法是用離差平方和除以相應的自由度三個平方和的自由度分別是SST的自由度為n-1,n為全部觀察值的個數(shù)SSA的自由度為r-1,其中r為因素水平的個數(shù)SSE的自由度為n-r217.2.2:組間方差和組內(nèi)方差組間離差平方和組內(nèi)離差平方和組間方差組內(nèi)方差受因素A和

隨機

因素的影響只受隨機

因素的影響227.2.2:方差分析的基本思想組間方差組內(nèi)方差如果因素A的不同水平對結果沒有影響,那么在組間方差中只包含有隨機誤差,兩個方差的比值會接近1如果不同水平對結果有影響,組間方差就會大于組內(nèi)方差,組間方差與組內(nèi)方差的比值就會大于1當這個比值大到某種程度時,就可以說不同水平之間存在顯著差異,或者說因素A對結果有顯著影響。F=231.檢驗數(shù)據(jù)是否符合方差分析的假設條件。2.提出零假設和備擇假設:零假設:各總體的均值之間沒有顯著差異,即

備擇假設:至少有兩個均值不相等,即7.2.3:方差分析的步驟247.2.3:方差分析的步驟3.根據(jù)樣本計算F統(tǒng)計量的值。方差分析表變差來源離差平方和SS自由度df均方MSF值組間SSAr-1MSAMSA/MSE組內(nèi)SSEn-rMSE總變異SSTn-1257.2.3:方差分析的步驟4.確定決策規(guī)則并根據(jù)實際值與臨界值的

比較,或者p-值與α的比較得出檢驗結論。

在零假設成立時組間方差與組內(nèi)方差的比值服從服從自由度為(r-1,n-r)的F分布臨界值拒絕域p-值α實際值

F檢驗的臨界值和拒絕域

26失業(yè)保險的例子(1)在失業(yè)保險實驗中,設顯著性水平α=0.05,試分析獎金水平對失業(yè)時間的影響是否顯著。不同獎金水平失業(yè)者的再就業(yè)時間(天)

無獎金低獎金中獎金高獎金9286967810010892758593907688887787898979739075718394788282807275687879817227失業(yè)保險的例子(2)1、根據(jù)前面的分析,數(shù)據(jù)符合方差分析的假設條件。2、提出零假設和備擇假設:H0:μ1=μ2=μ3=μ4,H1:μ1、μ2、μ3、μ4不全相等。28失業(yè)保險的例子(3)3、計算F統(tǒng)計量的實際值。

手工計算可以按照方差分析表的內(nèi)容逐步計算。由于計算量大,實際應用中一般要借助于統(tǒng)計軟件。下面是Excel計算的方差分析表。變差來源SS自由度MSFp-值F臨界值組間624.973208.323.040.04332.90組內(nèi)2195.333268.60總變差2820.3135

29失業(yè)保險的例子(4)4、樣本的F值為3.04。由于

因此我們應拒絕零假設,從而得出獎金水平對再就業(yè)時間有顯著影響的結論。類似的,由于,可以得出同樣的結論。2.90.04330.053.0430例2熱帶雨林(1)各水平下的樣本容量不同時單因素方差分析的方法也完全適用,只是公式的形式稍有不同,在使用軟件進行分析時幾乎看不出這種差別。一份研究伐木業(yè)對熱帶雨林影響的統(tǒng)計研究報告指出,“環(huán)保主義者對于林木采伐、開墾和焚燒導致的熱帶雨林的破壞幾近絕望”。這項研究比較了類似地塊上樹木的數(shù)量,這些地塊有的從未采伐過,有的1年前采伐過,有的8年前采伐過。根據(jù)數(shù)據(jù),采伐對樹木數(shù)量有顯著影響嗎?顯著性水平α=0.05。

31例2熱帶雨林(2)1、正態(tài)性檢驗:直方圖從未采伐過1年前采伐過8年前采伐過27121822124291522219151920183318191617222014122414122722817191932例2熱帶雨林(3)同方差性檢驗:最大值與最小值之比等于33.19/4.81=1.34,明顯小于4,因此可以認為是等方差的。

組計數(shù)求和平均方差從未采伐過1228523.7525.661年前采伐過1216914.0824.818年前采伐過914215.7833.1933例2熱帶雨林(4)2、提出零假設和備擇假設零假設:雨林采伐對林木數(shù)量沒有顯著影響(各組均值相等);備擇假設:雨林采伐對是有顯著影響(各組均值不全相等)。34例2熱帶雨林(5)3、方差分析表4、結論。F值=11.43>3.32,p-值=0.0002<0.05,因此檢驗的結論是采伐對林木數(shù)量有顯著影響。變差源SSdfMSFP-valueFcrit組間625.162312.5811.430.00023.32組內(nèi)820.723027.36總計1445.8832

357.2.4方差分析中的多重比較在方差分析中,當零假設被拒絕時我們可以確定至少有兩個總體的均值有顯著差異。但要進一步檢驗哪些均值之間有顯著差異還需要采用多重比較的方法進行分析。這在方差分析中稱為事后檢驗(PostHoctest)。多重比較是對各個總體均值進行的兩兩比較。方法很多,如Fisher最小顯著差異(LeastSignificantDifference,LSD)方法、Tukey的誠實顯著差異(HSD)方法或Bonferroni的方法等。這里我們只介紹最小顯著差異方法。36用LSD法進行多重比較的步驟1、提出假設H0:mi=mjH1:mi

mj2、計算檢驗的統(tǒng)計量3a、如果或則拒絕H0。3b、計算的置信區(qū)間:

如果0包含在該置信區(qū)間內(nèi)則不能拒絕H0,否則拒絕H0。37實例:失業(yè)保險實驗根據(jù)第一個總體和第四個總體計算的t統(tǒng)計量利用統(tǒng)計軟件可以計算出t檢驗的臨界值

由于,因此我們有證據(jù)表明

無獎金組與高獎金組的再就業(yè)時間有顯著差異。其他獎金水平效應之間差異的顯著性也可以用類似的方法計算。

38實例:熱帶雨林采伐很多統(tǒng)計軟件都可以直接進行多重比較。下表是SPSS對熱帶雨林例子的輸出結果。置信區(qū)間5.31~14.03,3.26~12.68不包括0,差異顯著。置信區(qū)間-6.04~3.02包括了0,差異不顯著。(I)采伐類型(J)采伐類型均值差(I-J)標準誤p-值95%置信區(qū)間下限上限從未采伐過1年前采伐過9.672.140.00015.3114.038年前采伐過7.972.310.00173.2612.681年前采伐過從未采伐過-9.672.140.0001-14.03-5.318年前采伐過-1.692.310.4682-6.403.028年前采伐過從未采伐過-7.972.310.0017-12.68-3.261年前采伐過1.692.310.4682-3.026.40397.3雙因素方差分析7.3.1無交互作用的雙因素方差分析7.3.2有交互作用的雙因素方差分析7.3.3雙因素方差分析的步驟40交互作用交互作用即一個因素對因變量的影響程度

受另一個因素的影響的情況。假設學生分兩類:在校和在職。把兩類學生隨機分成兩組,分別采用課堂講授和交互式教學方法,考試結果如下表??梢娬n堂講授的方式更適合于在校生,交互式教學方式更適合于在職生。在這種情況下我們說兩個因素之間存在著交互作用。課堂講授交互式教學在校學生9075在職學生759041雙因素方差分析的類型和基本假設雙因素方差分析中因素A和B對結果的影響相互獨立時稱為無交互作用的雙因素方差分析。如果除了A和B對結果的單獨影響外還存在交互作用,這時的雙因素方差分析稱為有交互作用的雙因素方差分析。雙因素方差分析中的基本假設是各個子總體都服從正態(tài)分布,有相同的方差,并且各個觀測值之間相互獨立(與單因素時相同)。427.3.1無交互作用的雙因素方差分析模型在無交互作用的雙因素方差分析模型中因變量的取值受四個因素的影響:總體的平均值;因素A導致的差異;因素B導致的差異;以及誤差項。寫成模型的形式就是:437.3.1無交互作用的雙因素方差分析模型離差平方和的分解:SSASSBSSESST44無交互作用的雙因素方差分析表變差來源離差平方和SS自由度df均方MSF值A因素SSAr-1MSA=SSA/(r-1)FA=MSA/MSEB因素SSBs-1MSB=SSB/(s-1)FB=MSB/MSE誤差SSE(r-1)(s-1)MSE=SSE/(r-1)(s-1)合計SSTrs-1457.3.2有交互作用的雙因素方差分析模型在有交互作用的雙因素方差分析模型中因變量的取值受五個因素的影響:總體的平均值;因素A導致的差異;因素B導致的差異;由因素A和因素B的交互作用導致的差異;以及誤差項。寫成模型的形式就是:467.3.2有交互作用的雙因素方差分析模型離差平方和的分解:

SSTSSASSBSSESSAB47有交互作用的雙因素方差分析表變異來源離差平方和SS自由度df均方MSF值A因素SSAr-1MSA=SSA/(r-1)FA=MSA/MSEB因素SSBs-1MSB=SSB/(s-1)FB=MSB/MSEAB交互作用SSAB(r-1)(s-1)MSAB=SSAB/(r-1)(s-1)FAB=MSAB/MSE誤差SSErs(m-1)MSE=SSE/rs(m-1)合計SSTrsm-1487.3.3

雙因素方差分析的步驟(1)雙因素方差分析的步驟與單因素分析類似,主要包括以下步驟:1.分析所研究數(shù)據(jù)能否滿足方差分析要求的假設條件,需要的話進行必要的檢驗。如果假設條件不滿足需要先對數(shù)據(jù)進行變換。497.3.3

雙因素方差分析的步驟(2)2、提出零假設和備擇假設。雙因素方差分析可以

同時檢驗兩組或三組零假設和備擇假設。要說明因素A有無顯著影響,就是檢驗如下假設:要說明因素B有無顯著影響,就是檢驗如下假設:

在有交互作用的雙因素方差中,要說明兩個因素的交互作用是否顯著還要檢驗第三組零假設和備擇假設:507.3.3

雙因素方差分析的步驟(3)

3、計算F檢驗值。4、根據(jù)實際值與臨界值的比較,或者p-值與α的比較得出檢驗結論。與單因素方差分析的情況類似,對FA、FB和FAB,當F的計算值大于臨界值Fα(或者p-值<α)時拒絕零假設H0。51雙因素方差分析:失業(yè)保險的例子(1)年齡組123

928894獎11008980

859078868878金21088972937579967782水3927975

907181

788782平4757368

768372同時考慮獎金和年齡因素,二者對失業(yè)時間有顯著影響嗎?52雙因素方差分析:失業(yè)保險的例子(2)1、同時考慮獎金水平和年齡因素時,每種實驗條件

下的數(shù)據(jù)只有3個,不適合直接進行正態(tài)性和等方差

性檢驗。假設這些條件成立。2、提出假設(有交互作用的方差分析模型):對獎金因素:對年齡因素:對交互作用:53雙因素方差分析:失業(yè)保險的例子(3)3、方差分析表(Excel)4、結論:在5%的顯著性水平下獎金水平對就業(yè)時間影響顯著;年齡對就業(yè)時間有顯著

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論