統(tǒng)計學-7方差分析-PPT課件_第1頁
統(tǒng)計學-7方差分析-PPT課件_第2頁
統(tǒng)計學-7方差分析-PPT課件_第3頁
統(tǒng)計學-7方差分析-PPT課件_第4頁
統(tǒng)計學-7方差分析-PPT課件_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第七章 方差分析一、方差分析的內(nèi)容二、方差分析的有關(guān)術(shù)語及假設(shè)三、方差分析的原理四、單因素方差分析五、雙因素方差分析六、關(guān)系強度的測量 七、用Excel進行方差分析重點:方差分析的方法難點:方差分析的基本思想 7/21/20221 方差分析(Analysis of Variance, ANOVA)是假設(shè)檢驗的一種延續(xù)與擴展,它可以解決諸如多個總體均值是否相等等方面的檢驗問題,在因素分析中具有一定的優(yōu)勢。方差分析主要用來對多個總體均值是否相等作出假設(shè)檢驗,研究分類型自變量對數(shù)值型因變量的影響 。 例:某飲料制造商生產(chǎn)一種新型飲料,共有四種顏色: (1)橘黃、(2)粉紅、(3)綠色、(4)無色。

2、該制造商想知道顏色是否對銷售量有顯著影響,隨機抽取了5家超市前一期的銷售量(表1)進行分析。 一、方差分析的內(nèi)容7/21/20222表1 四種顏色飲料的銷售量及均值超市( j )水平A ( i )無色(A1)粉紅(A2)橘黃色(A3)綠色(A4)1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8合計136.6147.8132.2157.3573.9水平均值觀察值個數(shù)樣本方差樣本標準差x1 =27.32n1=52.671.64x2=29.56n2=52.141.46x3=26.

3、44n3=53.311.82x4=31.46n4=51.661.29總均值x =28.695一、方差分析的內(nèi)容結(jié)果觀后返回7/21/20223 其中, i(I=1,2,3,4) 表示所有飲料(無色、粉紅、橘黃、綠色)銷售量之均值。 要知道顏色是否對飲料銷售有顯著影響,就是要知道四種顏色飲料銷售量的均值是否有顯著差異,即進行下述假設(shè)檢驗: H0: 1=2=3=4 H1: 四個總體均值不全相等一、方差分析的內(nèi)容7/21/20224 1、相關(guān)術(shù)語 因素或因子:是一個獨立的變量,是方差分析的研究對象 (例中飲料的顏色); 單因素方差分析:只針對一個因素進行分析; 多因素方差分析:同時針對多個因素進行分

4、析。 水平或處理:因子的不同表現(xiàn) (例中飲料的四種不同顏色:無色、粉紅、橘黃色、綠色 ); 二、方差分析的有關(guān)術(shù)語及假設(shè)7/21/20225試驗收集樣本數(shù)據(jù)的過程。這里若只考慮顏色一個因素,則可稱為單因素四水平的試驗總體因素的每一個水平可以看作是一個總體比如A1、A2、A3、 A4四種顏色可以看作是四個總體樣本數(shù)據(jù)上面的數(shù)據(jù)可以看作是從這四個總體中抽取的樣本數(shù)據(jù)相關(guān)術(shù)語 二、方差分析的有關(guān)術(shù)語及假設(shè)7/21/202262、進行方差分析必須滿足如下假設(shè) (1)每個總體都應(yīng)服從正態(tài)分布 (2)各個總體的方差2必須相等 (3)不同觀測值是獨立的(每個樣本點的取值不影響其他樣本點的取值)樣本來自于一個

5、相同的總體樣本來自于不同的總體 二、方差分析的有關(guān)術(shù)語及假設(shè)7/21/20227 分析可知,四種顏色飲料銷售量的差異主要來自以下兩個方面: 隨機誤差:在因素的同一水平(同一個總體)下,樣本的各觀察值之間的差異。比如,同一種顏色的飲料在不同超市上的銷售量是不同的,不同超市銷售量的差異可以看成是隨機因素的影響,或者說是由于抽樣的隨機性所造成的,稱為隨機誤差。 系統(tǒng)誤差:在因素的不同水平(不同總體)下,各觀察值之間的差異。比如,同一家超市,不同顏色飲料的銷售量也是不同的,這種差異可能是由于抽樣的隨機性所造成的,也可能是由于顏色本身所造成的,后者所形成的誤差是由系統(tǒng)性因素造成的,稱為系統(tǒng)誤差。三、方差

6、分析的原理7/21/20228數(shù)據(jù)的誤差用平方和(sum of squares)表示1.組內(nèi)平方和(within groups)因素的同一水平下數(shù)據(jù)誤差的平方和比如,無色飲料A1在5家超市銷售量的誤差平方和只包含隨機誤差2.組間平方和(between groups)因素的不同水平之間數(shù)據(jù)誤差的平方和比如,A1、A2、A3、A4四種顏色飲料銷售量之間 的誤差平方和既包括隨機誤差,也包括系統(tǒng)誤差三、方差分析的原理7/21/20229兩類方差組內(nèi)方差(MSE)因素的同一水平(同一個總體)下樣本數(shù)據(jù)的方差比如,無色飲料A1在5家超市銷售數(shù)量的方差組內(nèi)方差只包含隨機誤差組間方差(MSA)因素的不同水平(

7、不同總體)下各樣本之間的方差比如,A1、A2、A3、A4四種顏色飲料銷售量之間的方差組間方差既包括隨機誤差,也包括系統(tǒng)誤差三、方差分析的原理7/21/202210方差比較若不同顏色對銷售量沒有影響,則組間方差中只包含隨機誤差,沒有系統(tǒng)誤差。這時,組間方差與組內(nèi)方差的數(shù)值就應(yīng)該很接近,它們的比值就會接近1若不同顏色對銷售量有影響,在組間方差中除了包含隨機誤差外,還會包含系統(tǒng)誤差,這時組間方差的數(shù)值就會大于組內(nèi)方差的數(shù)值,它們之間的比值就會大于1當這個比值大到某種程度時,就可以說不同水平之間存在著顯著差異,也就是自變量對因變量有影響所剩問題歸結(jié)為:比值多大,才能拒絕原假設(shè)??赏ㄟ^計算F統(tǒng)計量進行F

8、檢驗來判斷。三、方差分析的原理7/21/202211 觀察值之間的差異來自兩個方面:某因素不同水平的影響(系統(tǒng)性影響)其他隨機因素的影響(隨機性影響)水平間方差(組間方差)水平內(nèi)方差(組內(nèi)方差) 小結(jié): 如果原假設(shè)成立:說明某因素不同水平的影響不顯著(無系統(tǒng)性影響),只剩下隨機性影響,因此組間方差與組內(nèi)方差差別不大,它們的比接近于1。 如果原假設(shè)不成立:說明某因素不同水平的影響顯著(存在系統(tǒng)性影響),組間方差與組內(nèi)方差差別較大,它們的比遠超出1。三、方差分析的原理7/21/202212(一)單因素方差分析的數(shù)據(jù)結(jié)構(gòu) (one-way analysis of variance) 觀察值 ( j

9、)因素A ( i ) 水平A1 水平A2 水平Ak12:ni x11 x21 xk1 x12 x22 xk2 : : : : 四、單因素方差分析7/21/202213(二)分析步驟1、提出假設(shè)2、構(gòu)造檢驗統(tǒng)計量3、統(tǒng)計決策四、單因素方差分析7/21/2022141、提出假設(shè)一般提法H0 : m1 = m2 = mk 自變量對因變量沒有顯著影響 H1 : m1 ,m2 , ,mk不全相等自變量對因變量有顯著影響 注意:拒絕原假設(shè),只表明至少有兩個總體的均值不相等,并不意味著所有的均值都不相等 7/21/202215 構(gòu)造檢驗統(tǒng)計量需要計算(1)水平的均值(2)全部觀察值的總均值(3)誤差平方和(

10、4)均方(MS)(5)檢驗統(tǒng)計量F2、構(gòu)造檢驗的統(tǒng)計量7/21/202216假定從第i個總體中抽取一個容量為ni的簡單隨機樣本,第i個總體的樣本均值為該樣本的全部觀察值總和除以觀察值的個數(shù)計算公式為 式中: ni為第 i 個總體的樣本觀察值個數(shù) xij 為第 i 個總體的第 j 個觀察值 (1)計算水平的均值7/21/202217全部觀察值的總和除以觀察值的總個數(shù)計算公式為 (2)計算全部觀察值的總均值前例計算結(jié)果7/21/202218總誤差平方和(sum of squares for total, SST)全部觀察值 與總平均值 的離差平方和反映全部觀察值的離散狀況其計算公式為(3)計算誤差

11、平方和 前例的計算結(jié)果: SST = (26.5-28.695)2+(32.8-28.695)2 =115.937/21/202219各組平均值 與總平均值 的離差平方和(Sum of Squares for Factor A, SSA)反映各總體的樣本均值之間的差異程度,又稱組間平方和該平方和既包括隨機誤差,也包括系統(tǒng)誤差計算公式為 水平項平方和SSA(3)計算誤差平方和 前例的計算結(jié)果:SSA =76.8467/21/202220每個水平或組的各樣本數(shù)據(jù)與其組平均值的離差平方和(Sum of Squares for Error,SSE)反映每個樣本各觀察值的離散狀況,又稱組內(nèi)平方和該平方和

12、反映的是隨機誤差的大小計算公式為 誤差項平方和SSE(3)計算誤差平方和 前例的計算結(jié)果:SSE =39.0847/21/202221可以證明:總離差平方和(SST)、誤差項離差平方和(SSE)、水平項離差平方和 (SSA) 之間有如下關(guān)系SST = SSA + SSE 在本例中,可以驗證:115.930=76.846+39.084三個平方和的關(guān)系(3)計算誤差平方和7/21/202222 SST反映全部數(shù)據(jù)總的誤差程度;SSE反映隨機誤差的大小;SSA反映隨機誤差和系統(tǒng)誤差的大小如果原假設(shè)成立,則表明沒有系統(tǒng)誤差,SSA除以其自由度后的均方(組間均方)與SSE除以其自由度后的均方(組內(nèi)均方)

13、差異就不會太大;如果組間均方顯著地大于組內(nèi)均方,說明各水平(總體)之間的差異不僅有隨機誤差,還有系統(tǒng)誤差判斷因素的水平是否對其觀察值有影響,實際上就是比較組間方差與組內(nèi)方差之間差異的大小三個平方和的作用(3)計算誤差平方和7/21/202223各誤差平方和的大小與觀察值的多少有關(guān),為消除觀察值多少對誤差平方和大小的影響,需要將其平均,這就是均方,也稱為方差計算方法是用誤差平方和除以相應(yīng)的自由度三個平方和對應(yīng)的自由度分別是SST的自由度為n-1,其中n為全部觀察值的個數(shù)SSA的自由度為k-1,其中k為因素水平(總體)的個數(shù)SSE 的自由度為n-k注:n-1=(k-1)+(n-k)(4)計算均方M

14、S7/21/202224 組間方差:SSA的均方,記為MSA,計算公式為 組內(nèi)方差:SSE的均方,記為MSE,計算公式為(4)計算均方MS7/21/202225將MSA和MSE進行對比,即得到所需要的檢驗統(tǒng)計量F當H0為真時,二者的比值服從分子自由度為k-1、分母自由度為 n-k 的 F 分布,即 (5)計算檢驗統(tǒng)計量 F 7/21/202226F分布與拒絕域如果均值相等,F(xiàn)=MSA/MSE1a F 分布F(k-1,n-k)0拒絕H0不能拒絕H0F(5)計算檢驗統(tǒng)計量 F 7/21/202227 將統(tǒng)計量的值F與給定的顯著性水平的臨界值F進行比較,作出對原假設(shè)H0的決策根據(jù)給定的顯著性水平,在

15、F分布表中查找與第一自由度df1k-1、第二自由度df2=n-k 相應(yīng)的臨界值 F 若FF ,則拒絕原假設(shè)H0 ,表明均值之間的差異是顯著的,所檢驗的因素對觀察值有顯著影響若F3.24,因此拒絕原假設(shè),從而得出:顏色對該公司飲料銷售有顯著影響。3、統(tǒng)計決策 7/21/202229(三)單因素方差分析表(基本結(jié)構(gòu))四、單因素方差分析7/21/202230(三)單因素方差分析表(例題分析)四、單因素方差分析7/21/202231 如果同時需考慮兩個因素A與B的影響,則可進行雙因素方差分析。 雙因素方差分析中需假設(shè)兩個因素有無交互作用,即各自是否獨立地發(fā)揮影響作用。 1.數(shù)據(jù)結(jié)構(gòu)五、雙因素方差分析7

16、/21/2022322.離差平方和的分解其中:可以證明:于是五、雙因素方差分析7/21/202233表3 雙因素方差分析表誤差來源 平方和 自由度 均方差 F值 A因素 SSC r-1 MSC=SSC/(r-1) FC=MSC/MSE B因素 SSR k-1 MSR=SSR/(k-1) FR=MSR/MSE 隨機誤差 SSE (r-1)(k-1) MSE=SSE/(r-1)(k-1) 合計 SST n-1 SST/(n-1) 在飲料銷售例中,如果我們還關(guān)心不同超市是否對銷售有影響,這時可將5個不同的超市作為因素B考慮,它有5個水平。雙因素分析結(jié)果如下:五、雙因素方差分析7/21/202234拒

17、絕原假設(shè)表明因素(自變量)與觀測值之間有關(guān)系組間平方和(SSA)度量了自變量(顏色)對因變量(銷售量)的影響效應(yīng)只要組間平方和SSA不等于0,就表明兩個變量之間有關(guān)系(只是是否顯著的問題) 當組間平方和比組內(nèi)平方和(SSE)大,而且大到一定程度時,就意味著兩個變量之間的關(guān)系顯著,大得越多,表明它們之間的關(guān)系就越強。反之,就意味著兩個變量之間的關(guān)系不顯著,小得越多,表明它們之間的關(guān)系就越弱六、關(guān)系強度的測量 7/21/202235變量間關(guān)系的強度用自變量平方和(SSA)占總平方和(SST)的比例大小來反映自變量平方和占總平方和的比例記為R2 ,即其平方根R就可以用來測量兩個變量之間的關(guān)系強度,取值范圍01。 六、關(guān)系強度的測量 7/21/202236第1步:選擇“工具 ”下拉菜單第2步:選擇“數(shù)據(jù)分析 ”選項第3步:在分析工具中選擇“單因素方差分析 ”

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論