方差分析與試驗設(shè)計講義_第1頁
方差分析與試驗設(shè)計講義_第2頁
方差分析與試驗設(shè)計講義_第3頁
方差分析與試驗設(shè)計講義_第4頁
方差分析與試驗設(shè)計講義_第5頁
已閱讀5頁,還剩80頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、方差分析與試驗設(shè)計講義第1頁,共85頁,2022年,5月20日,17點19分,星期三學(xué)習(xí)目標(biāo)解釋方差分析的概念解釋方差分析的基本思想和原理掌握單因素方差分析的方法及應(yīng)用理解多重比較的意義掌握雙因素方差分析的方法及應(yīng)用掌握試驗設(shè)計的基本原理和方法(略)第2頁,共85頁,2022年,5月20日,17點19分,星期三7.1 方差分析引論7.1.1 方差分析及其有關(guān)術(shù)語7.1.2 方差分析的基本思想和原理7.1.3 方差分析的基本假定7.1.4 問題的一般提法第3頁,共85頁,2022年,5月20日,17點19分,星期三方差分析及其有關(guān)術(shù)語第4頁,共85頁,2022年,5月20日,17點19分,星期三

2、什么是方差分析(ANOVA)?(analysis of variance) 檢驗多個總體均值是否相等通過分析數(shù)據(jù)的誤差判斷各總體均值是否相等研究分類型自變量對數(shù)值型因變量的影響 一個或多個分類尺度的自變量通常是兩個或多個 (k 個) 處理水平或分類一個間隔或比率尺度的因變量有單因素方差分析和雙因素方差分析單因素方差分析:涉及一個分類的自變量雙因素方差分析:涉及兩個分類的自變量第5頁,共85頁,2022年,5月20日,17點19分,星期三什么是方差分析? (例題分析)消費者對四個行業(yè)的投訴次數(shù) 行業(yè)觀測值零售業(yè)旅游業(yè)航空公司家電制造業(yè)1234567576649403453446839294556

3、5131492134404451657758【 例 】為了對幾個行業(yè)的服務(wù)質(zhì)量進(jìn)行評價,消費者協(xié)會在四個行業(yè)分別抽取了不同的企業(yè)作為樣本。最近一年中消費者對總共23家企業(yè)投訴的次數(shù)如下表第6頁,共85頁,2022年,5月20日,17點19分,星期三什么是方差分析? (例題分析)分析四個行業(yè)之間的服務(wù)質(zhì)量是否有顯著差異,也就是要判斷“行業(yè)”對“投訴次數(shù)”是否有顯著影響作出這種判斷最終被歸結(jié)為檢驗這四個行業(yè)被投訴次數(shù)的均值是否相等若它們的均值相等,則意味著“行業(yè)”對投訴次數(shù)是沒有影響的,即它們之間的服務(wù)質(zhì)量沒有顯著差異;若均值不全相等,則意味著“行業(yè)”對投訴次數(shù)是有影響的,它們之間的服務(wù)質(zhì)量有顯著

4、差異第7頁,共85頁,2022年,5月20日,17點19分,星期三方差分析中的有關(guān)術(shù)語因素或因子(factor)所要檢驗的對象要分析行業(yè)對投訴次數(shù)是否有影響,行業(yè)是要檢驗的因素或因子水平或處理(treatment)因子的不同表現(xiàn)零售業(yè)、旅游業(yè)、航空公司、家電制造業(yè)就是因子的水平觀察值在每個因素水平下得到的樣本數(shù)據(jù)每個行業(yè)被投訴的次數(shù)就是觀察值第8頁,共85頁,2022年,5月20日,17點19分,星期三方差分析中的有關(guān)術(shù)語試驗這里只涉及一個因素,因此稱為單因素四水平的試驗總體因素的每一個水平可以看作是一個總體比如零售業(yè)、旅游業(yè)、航空公司、家電制造業(yè)可以看作是四個總體樣本數(shù)據(jù)被投訴次數(shù)可以看作是

5、從這四個總體中抽取的樣本數(shù)據(jù)第9頁,共85頁,2022年,5月20日,17點19分,星期三方差分析的基本思想和原理第10頁,共85頁,2022年,5月20日,17點19分,星期三方差分析的基本思想和原理(圖形分析) 零售業(yè) 旅游業(yè) 航空公司 家電制造第11頁,共85頁,2022年,5月20日,17點19分,星期三從散點圖上可以看出不同行業(yè)被投訴的次數(shù)是有明顯差異的同一個行業(yè),不同企業(yè)被投訴的次數(shù)也明顯不同行業(yè)與被投訴次數(shù)之間有一定的關(guān)系如果行業(yè)與被投訴次數(shù)之間沒有關(guān)系,那么它們被投訴的次數(shù)應(yīng)該差不多相同,在散點圖上所呈現(xiàn)的模式也就應(yīng)該很接近圖形分析1第12頁,共85頁,2022年,5月20日,

6、17點19分,星期三僅從散點圖上觀察還不能提供充分的證據(jù)證明不同行業(yè)被投訴的次數(shù)之間有顯著差異這種差異也可能是由于抽樣的隨機性所造成的需要有更準(zhǔn)確的方法來檢驗這種差異是否顯著,也就是進(jìn)行方差分析之所以叫方差分析是因為雖然我們感興趣的是均值,但在判斷均值之間是否有差異時則需要借助于方差這個名字也表示:它是通過對數(shù)據(jù)誤差來源的分析判斷不同總體的均值是否相等。因此,進(jìn)行方差分析時,需要考察數(shù)據(jù)誤差的來源圖形分析2第13頁,共85頁,2022年,5月20日,17點19分,星期三比較兩類誤差,以檢驗均值是否相等比較的基礎(chǔ)是方差比如果系統(tǒng)(處理)誤差明顯地不同于隨機誤差,則均值就是不相等的;反之,均值就是

7、相等的誤差是由各部分的誤差占總誤差的比例來測度的圖形分析3第14頁,共85頁,2022年,5月20日,17點19分,星期三兩類誤差隨機誤差因素的同一水平(總體)下,樣本各觀察值之間的差異比如,同一行業(yè)下不同企業(yè)被投訴次數(shù)是不同的這種差異可以看成是隨機因素的影響,稱為隨機誤差 系統(tǒng)誤差因素的不同水平(不同總體)下,各觀察值之間的差異比如,不同行業(yè)之間的被投訴次數(shù)之間的差異這種差異可能是由于抽樣的隨機性所造成的,也可能是由于行業(yè)本身所造成的,后者所形成的誤差是由系統(tǒng)性因素造成的,稱為系統(tǒng)誤差第15頁,共85頁,2022年,5月20日,17點19分,星期三兩類方差數(shù)據(jù)的總誤差用平方和(sum of

8、squares)表示,稱為方差組內(nèi)方差(within groups)因素的同一水平(同一個總體)下樣本數(shù)據(jù)的方差比如,零售業(yè)被投訴次數(shù)的方差組內(nèi)方差只包含隨機誤差組間方差(between groups)因素的不同水平(不同總體)下各樣本之間的方差比如,四個行業(yè)被投訴次數(shù)之間的方差組間方差既包括隨機誤差,也包括系統(tǒng)誤差第16頁,共85頁,2022年,5月20日,17點19分,星期三方差的比較若不同行業(yè)對投訴次數(shù)沒有影響,則組間誤差中只包含隨機誤差,沒有系統(tǒng)誤差。這時,組間誤差與組內(nèi)誤差經(jīng)過平均后的數(shù)值就應(yīng)該很接近,它們的比值就會接近1若不同行業(yè)對投訴次數(shù)有影響,在組間誤差中除了包含隨機誤差外,還

9、會包含有系統(tǒng)誤差,這時組間誤差平均后的數(shù)值就會大于組內(nèi)誤差平均后的數(shù)值,它們之間的比值就會大于1當(dāng)這個比值大到某種程度時,就可以說不同水平之間存在著顯著差異,也就是自變量對因變量有影響判斷行業(yè)對投訴次數(shù)是否有顯著影響,實際上也就是檢驗被投訴次數(shù)的差異主要是由于什么原因所引起的。如果這種差異主要是系統(tǒng)誤差,說明不同行業(yè)對投訴次數(shù)有顯著影響第17頁,共85頁,2022年,5月20日,17點19分,星期三方差分析的基本假定第18頁,共85頁,2022年,5月20日,17點19分,星期三方差分析的基本假定每個總體都應(yīng)服從正態(tài)分布對于因素的每一個水平,其觀察值是來自服從正態(tài)分布總體的簡單隨機樣本比如,每

10、個行業(yè)被投訴的次數(shù)必需服從正態(tài)分布各個總體的方差必須相同各組觀察數(shù)據(jù)是從具有相同方差的總體中抽取的比如,四個行業(yè)被投訴次數(shù)的方差都相等觀察值是獨立的比如,每個行業(yè)被投訴的次數(shù)與其他行業(yè)被投訴的次數(shù)獨立第19頁,共85頁,2022年,5月20日,17點19分,星期三方差分析中的基本假定在上述假定條件下,判斷行業(yè)對投訴次數(shù)是否有顯著影響,實際上也就是檢驗具有同方差的四個正態(tài)總體的均值是否相等如果四個總體的均值相等,可以期望四個樣本的均值也會很接近四個樣本的均值越接近,推斷四個總體均值相等的證據(jù)也就越充分樣本均值越不同,推斷總體均值不同的證據(jù)就越充分 第20頁,共85頁,2022年,5月20日,17

11、點19分,星期三方差分析中基本假定 如果原假設(shè)成立,即H0 : m1 = m2 = m3 = m4四個行業(yè)被投訴次數(shù)的均值都相等意味著每個樣本都來自均值為、方差為 2的同一正態(tài)總體 Xf(X)1 2 3 4 第21頁,共85頁,2022年,5月20日,17點19分,星期三方差分析中基本假定若備擇假設(shè)成立,即H1 : mi (i=1,2,3,4)不全相等至少有一個總體的均值是不同的四個樣本分別來自均值不同的四個正態(tài)總體 Xf(X)3 1 2 4 第22頁,共85頁,2022年,5月20日,17點19分,星期三問題的一般提法第23頁,共85頁,2022年,5月20日,17點19分,星期三問題的一般

12、提法設(shè)因素有k個水平,每個水平的均值分別用1 , 2, , k 表示要檢驗k個水平(總體)的均值是否相等,需要提出如下假設(shè): H0 : 1 2 k H1 : 1 , 2 , ,k 不全相等設(shè)1為零售業(yè)被投訴次數(shù)的均值,2為旅游業(yè)被投訴次數(shù)的均值,3為航空公司被投訴次數(shù)的均值,4為家電制造業(yè)被投訴次數(shù)的均值,提出的假設(shè)為H0 : 1 2 3 4 H1 : 1 , 2 , 3 , 4 不全相等第24頁,共85頁,2022年,5月20日,17點19分,星期三7.2 單因素方差分析7.2.1 數(shù)據(jù)結(jié)構(gòu)7.2.2 分析步驟7.2.3 關(guān)系強度的測量7.2.4 用EXCEL進(jìn)行方差分析第25頁,共85頁,

13、2022年,5月20日,17點19分,星期三單因素方差分析的數(shù)據(jù)結(jié)構(gòu)(one-way analysis of variance) 觀察值 ( j )因素(A) i 水平A1 水平A2 水平Ak12:n x11 x21 xk1 x12 x22 xk2 : : : : : : : : x1n x2n xkn第26頁,共85頁,2022年,5月20日,17點19分,星期三分析步驟第27頁,共85頁,2022年,5月20日,17點19分,星期三提出假設(shè)一般提法H0 : m1 = m2 = mk 自變量對因變量沒有顯著影響 H1 : m1 ,m2 , ,mk不全相等自變量對因變量有顯著影響 注意:拒絕原

14、假設(shè),只表明至少有兩個總體的均值不相等,并不意味著所有的均值都不相等 第28頁,共85頁,2022年,5月20日,17點19分,星期三構(gòu)造檢驗的統(tǒng)計量(計算水平的均值)假定從第i個總體中抽取一個容量為ni的簡單隨機樣本,第i個總體的樣本均值為該樣本的全部觀察值總和除以觀察值的個數(shù)計算公式為 式中: ni為第 i 個總體的樣本觀察值個數(shù) xij 為第 i 個總體的第 j 個觀察值 第29頁,共85頁,2022年,5月20日,17點19分,星期三構(gòu)造檢驗的統(tǒng)計量(計算全部觀察值的總均值)全部觀察值的總和除以觀察值的總個數(shù)計算公式為 第30頁,共85頁,2022年,5月20日,17點19分,星期三構(gòu)

15、造檢驗的統(tǒng)計量(例題分析)第31頁,共85頁,2022年,5月20日,17點19分,星期三構(gòu)造檢驗的統(tǒng)計量(計算總誤差平方和 SST)全部觀察值 與總平均值 的離差平方和反映全部觀察值的離散狀況其計算公式為 前例的計算結(jié)果: SST = (57-47.869565)2+(58-47.869565)2 =115.9295第32頁,共85頁,2022年,5月20日,17點19分,星期三構(gòu)造檢驗的統(tǒng)計量(計算水平項平方和 SSA)各組平均值 與總平均值 的離差平方和反映各總體的樣本均值之間的差異程度,又稱組間平方和該平方和既包括隨機誤差,也包括系統(tǒng)誤差計算公式為 前例的計算結(jié)果:SSA = 1456

16、.608696第33頁,共85頁,2022年,5月20日,17點19分,星期三構(gòu)造檢驗的統(tǒng)計量(三個平方和的關(guān)系)總離差平方和(SST)、誤差項離差平方和(SSE)、水平項離差平方和 (SSA) 之間的關(guān)系SST = SSA + SSE 前例的計算結(jié)果: 4164.608696=1456.608696+2708 第34頁,共85頁,2022年,5月20日,17點19分,星期三構(gòu)造檢驗的統(tǒng)計量(計算誤差項平方和 SSE)每個水平或組的各樣本數(shù)據(jù)與其組平均值的離差平方和反映每個樣本各觀察值的離散狀況,又稱組內(nèi)平方和該平方和反映的是隨機誤差的大小計算公式為 前例的計算結(jié)果:SSE = 2708第35

17、頁,共85頁,2022年,5月20日,17點19分,星期三三個平方和的作用 SST反映全部數(shù)據(jù)總的誤差程度;SSE反映隨機誤差的大??;SSA反映隨機誤差和系統(tǒng)誤差的大小如果原假設(shè)成立,則表明沒有系統(tǒng)誤差,組間平方和SSA除以自由度后的均方與組內(nèi)平方和SSE和除以自由度后的均方差異就不會太大;如果組間均方顯著地大于組內(nèi)均方,說明各水平(總體)之間的差異不僅有隨機誤差,還有系統(tǒng)誤差判斷因素的水平是否對其觀察值有影響,實際上就是比較組間方差與組內(nèi)方差之間差異的大小第36頁,共85頁,2022年,5月20日,17點19分,星期三構(gòu)造檢驗的統(tǒng)計量(計算均方MS)各誤差平方和的大小與觀察值的多少有關(guān),為消

18、除觀察值多少對誤差平方和大小的影響,需要將其平均,這就是均方,也稱為方差計算方法是用誤差平方和除以相應(yīng)的自由度三個平方和對應(yīng)的自由度分別是SST 的自由度為n-1,其中n為全部觀察值的個數(shù)SSA的自由度為k-1,其中k為因素水平(總體)的個數(shù)SSE 的自由度為n-k第37頁,共85頁,2022年,5月20日,17點19分,星期三構(gòu)造檢驗的統(tǒng)計量(計算均方 MS) 組間方差:SSA的均方,記為MSA,計算公式為 組內(nèi)方差:SSE的均方,記為MSE,計算公式為第38頁,共85頁,2022年,5月20日,17點19分,星期三構(gòu)造檢驗的統(tǒng)計量(計算檢驗統(tǒng)計量 F )將MSA和MSE進(jìn)行對比,即得到所需

19、要的檢驗統(tǒng)計量F當(dāng)H0為真時,二者的比值服從分子自由度為k-1、分母自由度為 n-k 的 F 分布,即 第39頁,共85頁,2022年,5月20日,17點19分,星期三構(gòu)造檢驗的統(tǒng)計量(F分布與拒絕域)如果均值相等,F(xiàn)=MSA/MSE1a F 分布F(k-1,n-k)0拒絕H0不能拒絕H0F第40頁,共85頁,2022年,5月20日,17點19分,星期三統(tǒng)計決策 將統(tǒng)計量的值F與給定的顯著性水平的臨界值F進(jìn)行比較,作出對原假設(shè)H0的決策根據(jù)給定的顯著性水平,在F分布表中查找與第一自由度df1k-1、第二自由度df2=n-k 相應(yīng)的臨界值 F 若FF ,則拒絕原假設(shè)H0 ,表明均值之間的差異是顯

20、著的,所檢驗的因素對觀察值有顯著影響若FF ,則拒絕原假設(shè)H0 ,表明均值之間的差異是顯著的,即所檢驗的行因素對觀察值有顯著影響若FC F ,則拒絕原假設(shè)H0 ,表明均值之間有顯著差異,即所檢驗的列因素對觀察值有顯著影響 第70頁,共85頁,2022年,5月20日,17點19分,星期三雙因素方差分析表(基本結(jié)構(gòu))第71頁,共85頁,2022年,5月20日,17點19分,星期三雙因素方差分析(例題分析)提出假設(shè)對品牌因素提出的假設(shè)為H0: m1=m2=m3=m4 (品牌對銷售量沒有影響)H1: mi (i =1,2, , 4) 不全相等 (品牌對銷售量有影響)對地區(qū)因素提出的假設(shè)為H0: m1=

21、m2=m3=m4=m5 (地區(qū)對銷售量沒有影響)H1: mj (j =1,2,5) 不全相等 (地區(qū)對銷售量有影響) 用Excel進(jìn)行無重復(fù)雙因素分析第72頁,共85頁,2022年,5月20日,17點19分,星期三雙因素方差分析(例題分析) 結(jié)論: FR18.10777F3.4903,拒絕原假設(shè)H0,說明彩電的品牌對銷售量有顯著影響 FC2.100846 F3.2592,不能拒絕原假設(shè)H0,說明銷售地區(qū)對彩電的銷售量沒有顯著影響第73頁,共85頁,2022年,5月20日,17點19分,星期三雙因素方差分析(關(guān)系強度的測量)行平方和(行SS)度量了品牌這個自變量對因變量(銷售量)的影響效應(yīng)列平方

22、和(列SS)度量了地區(qū)這個自變量對因變量(銷售量)的影響效應(yīng)這兩個平方和加在一起則度量了兩個自變量對因變量的聯(lián)合效應(yīng)聯(lián)合效應(yīng)與總平方和的比值定義為R2其平方根R反映了這兩個自變量合起來與因變量之間的關(guān)系強度 第74頁,共85頁,2022年,5月20日,17點19分,星期三雙因素方差分析(關(guān)系強度的測量)例題分析品牌因素和地區(qū)因素合起來總共解釋了銷售量差異的83.94%其他因素(殘差變量)只解釋了銷售量差異的16.06%R=0.9162,表明品牌和地區(qū)兩個因素合起來與銷售量之間有較強的關(guān)系 第75頁,共85頁,2022年,5月20日,17點19分,星期三有交互作用的雙因素方差分析第76頁,共85頁,2022年,5月20日,17點19分,星期三可重復(fù)雙因素分析(例題)【例】城市道路交通管理部門為研究不同的路段和不同的時間段對行車時間的影響,讓一名交通警察分別在兩個路段和高峰期與非高峰期親自駕車進(jìn)行試驗,通過試驗取得共獲得20個行車時間(分鐘)的數(shù)據(jù),如下表。試分析路段、時段以及路段和時段的交互作用對行車時間的影響 第77頁,共85頁,2022年,5月20日,17點19分,星期三交互作用的圖示路段與時段對行車時間的影響交互作用無交互作用行車時間路段1路段2高峰期非高峰期行車時間路段1路段2高峰期非高峰期第78頁,共85頁,2022年,5月20日,17點19分,星期三可重復(fù)雙因素分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論