方差分析簡介_第1頁
方差分析簡介_第2頁
方差分析簡介_第3頁
方差分析簡介_第4頁
方差分析簡介_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、方差分析簡介1. 引言方差分析(analysis of variance,簡稱ANOVA)是一種假設(shè)檢驗方法,即基本思想可概述為:把全部數(shù)據(jù)的總方差分解成幾部分,每一部分表示某一影響因素或各影響因素之間的交互作用所產(chǎn)生的效應(yīng),將各部分方差與隨機誤差的方差相比較,依據(jù)F分布作出統(tǒng)計推斷,從而確定各因素或交互作用的效應(yīng)是否顯著。因為分析是通過計算方差的估計值進行的,所以稱為方差分析。方差分析的主要目標是檢驗均值間的差別是否在統(tǒng)計意義上顯著。如果只比較兩個均值,事實上方差分析的結(jié)果和t檢驗完全相同。只所以很多情況下采用方差分析,是因為它具有如下兩個優(yōu)點:(1)方差分析可以在一次分析中同時考察多個因素

2、的顯著性,比t檢驗所需的觀測值少;(2)方差分析可以考察多個因素的交互作用。方差分析的缺點是條件有些苛刻,需要滿足如下條件:(1)各樣本是相互獨立的;(2)各樣本數(shù)據(jù)來自正態(tài)總體(正態(tài)性:normality);(3)各處理組總體方差相等(方差齊性:homogeneity of variance)。因此在作方差分析之前,要作正態(tài)性檢驗和方差齊性檢驗,如不滿足上述要求,可考慮作變量變換。常用的變量變換方法有平方根變換,平方根反正弦變換、對數(shù)變換及倒數(shù)變換等。方差分析在醫(yī)藥、制造業(yè)、農(nóng)業(yè)等領(lǐng)域有重要應(yīng)用,多用于試驗優(yōu)化和效果分析中。2. 單因素方差分析2.1 基本概念(1) 試驗指標:在一項試驗中,

3、用來衡量試驗效果的特征量稱為試驗指標,有時簡稱指標,也稱試驗結(jié)果,通常用y表示。它類似于數(shù)學(xué)中的因變量或目標函數(shù)。試驗指標用數(shù)量表示稱為定量指標,如速度、溫度、壓力、重量、尺寸、壽命、硬度、強度、產(chǎn)量和成本等。不能直接用數(shù)量表示的指標稱為定性指標。如顏色,人的性別等。定性指標也可以轉(zhuǎn)化為定量指標,方法是用不同的數(shù)表示不同的指標值。(2) 試驗因素:試驗中,凡對試驗指標可能產(chǎn)生影響的原因都稱為因素(factor),也稱因子或元,類似于數(shù)學(xué)中的自變量。需要在試驗中考察研究的因素,稱為試驗因素,有時也稱為因素,通常用大寫字母A、B、C、表示。在試驗中,有些因素能嚴格控制,稱為可控因素;有些因素難以控

4、制,稱為不可控因素。試驗因素是試驗中的已知條件,能嚴格控制,所以是可控因素。通常把未被選作試驗因素的可控因素和不可控因素都稱為條件因素,統(tǒng)稱為試驗條件。(3) 因素水平:因素在試驗中所處的各種狀態(tài)或所取的不同值,稱為該因素的水平(level),也簡稱為水平或位級,通常用下標1、2、3、表示。若一個因素取K種狀態(tài)或K個值,就稱該因素為K水平因素。因素的水平,有的可以取得具體值,如6Kg、10cm;有的只能取大致范圍或某個模糊概念,如軟、硬、大、小、好、較好等;但也有無法用數(shù)值表征的,如履帶的不同形式,輪胎花紋的不同種類,機器的不同操作方式,大豆的不同品種等。(4) 處理組:所有試驗因素的水平組合

5、所形成的試驗點稱為處理組(treatment group),也稱組合處理。三因素試驗中,A1B2C3是一個組合處理,它表示由A因素1水平、B因素2水平和C因素3水平組合而形成的一個試驗點。2.2 主要步驟假設(shè)我們在實驗中只考慮因素A,該因素有p個水平,每個水平做r次重復(fù)試驗,設(shè)第i個水平的第j次重復(fù)試驗的數(shù)據(jù)為,如表1所示。表1 試驗數(shù)據(jù)12jr根據(jù)這些數(shù)據(jù),可以計算全體數(shù)據(jù)的均值和和各水平對應(yīng)數(shù)據(jù)的均值:,i=1, 2, , p進一步,可以計算全體數(shù)據(jù)的偏差平方和、因素A對應(yīng)的偏差平方和,以及誤差的偏差平方和:下一步,需要計算這三個偏差平方和所對應(yīng)的自由度。之所以要計算自由度,是因為如果用偏

6、差平方和除以對應(yīng)的數(shù)據(jù)項數(shù),得到的統(tǒng)計量并不是方差的無偏估計。而偏差平方和與對應(yīng)的自由度的商才是方差的無偏估計。設(shè)有n個數(shù)據(jù)x1, x2, , xn,它們的平方和的自由度取決于xi之間有多少個線性約束關(guān)系。 設(shè)X=(x1, x2, , xn)T,若存在秩為m的矩陣A,滿足則S的自由度是n-m。下面來求ST的自由度。令,則xi之間存在一個線性約束即m=1,A=(1, 1, , 1),故。同理可得,。可以證明(證明本文從略),對于偏差平方和與其對應(yīng)的自由度,如下關(guān)系成立:,這就是Fisher偏差平方和加性原理,它是全部方差分析的基礎(chǔ)。在得到偏差平方和及其對應(yīng)的自由度后,就可以得到因素A和誤差e對應(yīng)

7、的平均偏差平方和,平均偏差平方和是反映數(shù)據(jù)波動大小的一個測度,比較和的大小可以看出因素A的不同水平帶來的試驗指標的波動是否與隨機誤差相同,所以,可以由此判斷因素A對試驗指標是否有顯著影響。判斷和是否相同的方法采用F檢驗(基于F分布的假設(shè)檢驗),令則可認為F服從自由度為和的F分布。用求出的F值查F分布表可得到對應(yīng)的P值,一般取置信水平0.05,即當P值小于0.05時拒絕原假設(shè),認為因素A對試驗指標的影響顯著,否則維持原假設(shè),認為影響不顯著。2.3 數(shù)學(xué)模型設(shè)因素A取了p個水平,每個水平重復(fù)了r次試驗,在水平Ai下的第i次實驗結(jié)果yij可以分解為其中,表示在水平Ai下的理論指標值,是試驗誤差。我們

8、把試驗誤差認為是相互獨立的隨機變量,且服從正態(tài)分布,這是方差的基本假設(shè)之一。為了看出因素各水平的影響大小,將再進行分解,令,i=1, 2, , p則,i=1, 2, , p; j=1, 2, , r顯然ai之間有關(guān)系ai表示水平Ai對試驗結(jié)果產(chǎn)生的影響,它稱作水平Ai的效應(yīng)。方差分析的數(shù)學(xué)模型就是建立在這么幾條假定的基礎(chǔ)上的:(1),i=1, 2, , p; j=1, 2, , r(2)(3)相互獨立且都服從分布由這三條建立的模型叫做線性模型。建立模型以后,統(tǒng)計分析需要解決下列問題:1. 參數(shù)估計。即通過試驗估計和ai,它們的估計量用和表示??梢宰C明(本文從略),和是和ai的無偏估計。2. 假

9、設(shè)檢驗。如果因素A對指標有影響,效應(yīng)ai不全為0,如果因素A對指標沒有影響,則效應(yīng)ai全為0。因此,要檢驗因素A對指標影響是否顯著就是檢驗假設(shè)這需要選擇一個合適的統(tǒng)計量。令,則故 如果原假設(shè)H0成立,則,有因為相互獨立且都服從分布,由統(tǒng)計理論推知服從自由度為的分布,服從自由度為的分布,而且兩者獨立,從而服從自由度為,的F分布。所以可以采用F統(tǒng)計量作為假設(shè)檢驗的統(tǒng)計量(這種假設(shè)檢驗稱為F檢驗),通過查F分布表確定拒絕域或P值,從而作出推斷結(jié)論。3. 多因素方差分析所謂多因素方差分析,就是同時檢驗多個因素影響是否顯著的方差分析方法。多因素方差分析。方差分析的一大優(yōu)勢就是可以同時考慮多個試驗因素對試

10、驗指標的影響,這樣,既節(jié)省了試驗次數(shù),試驗誤差也比進行多次單因素方差分析要小。在多因素方差分析中,有一個很重要的問題,就是試驗設(shè)計(DOE: Design of Experiment)。其主要目的是通過設(shè)計每次試驗中因素水平的搭配,用盡可能少的試驗次數(shù)和試驗數(shù)據(jù)滿足方差分析的要求,獲得較好的分析結(jié)果。最常用的試驗設(shè)計有析因設(shè)計和正交設(shè)計。前者是對所有因素的所有水平組合都進行試驗,因此又稱交叉分組設(shè)計;后者是按照某種正交表設(shè)計試驗,以較少的試驗次數(shù)即可接近析因設(shè)計的效果。因此,析因設(shè)計一般用于兩個因素且水平數(shù)較少的情況,而因素和水平較多時則多采用正交設(shè)計。除正交設(shè)計外,還有其它許多實驗設(shè)計方法,

11、如系統(tǒng)分組設(shè)計(嵌套設(shè)計)、正交拉丁方設(shè)計、裂區(qū)設(shè)計等,它們一般用在并非任意組合都可以實現(xiàn)或找不到合適的正交表的情況。實驗設(shè)計確定的一個水平組合,如A1B2A3,稱作一個處理組。如果在一個處理組內(nèi)做多次重復(fù)試驗得到多個試驗數(shù)據(jù),則稱為有重復(fù)試驗的設(shè)計,否則稱無重復(fù)試驗的設(shè)計。在方差分析中,一般要求各處理組內(nèi)的重復(fù)試驗數(shù)相等。對于不相等的情況,方差分析也可以計算,但公式略有差別,而且可靠性差,所以一般采用其它方法如通用線性模型(GLM: General Linear Model)來計算。在多因素方差分析中,還有一個重要的概念,這就是因素間的交互作用(interaction),它是指幾個因素的某些

12、水平互相增強或互相削弱的現(xiàn)象。表2中,當A從A1變化到A2時,指標都增加,與B取B1或B2無關(guān);同樣,B從B1變到B2時,指標都增加,與A的水平無關(guān),此時,我們說A和B之間沒有交互作用。而在表3中,因素A對指標的影響與B的水平有關(guān),此時我們說A和B之間存在交互作用,記作A×B。表2 無交互作用的試驗數(shù)據(jù)A1A2B125A2710表3 有交互作用的試驗數(shù)據(jù)A1A2B125A2733.1 析因設(shè)計的方差分析由于析因設(shè)計主要用于因素和水平數(shù)較少的情形,所以本文以雙因素試驗為例,介紹析因設(shè)計的方差分析的主要步驟。設(shè)考慮兩個試驗因素A和B,A有p個水平,B有q個水平,每個處理組內(nèi)做r次重復(fù)試驗

13、,在AiBj條件下的第k次實驗的數(shù)據(jù)記作yijk;在AiBj條件下做的全部試驗數(shù)據(jù)之和記作Yij,顯然令表示在條件下試驗數(shù)據(jù)之和,表示在條件下試驗數(shù)據(jù)之和,即它們的平均值記為和整個試驗的總平均則總偏差平方和,因素A和B的偏差平方和,誤差的偏差平方和,交互作用的偏差平方和分別計算如下,它們的自由度分別為需要注意的是:如果各處理組中沒有重復(fù)試驗,即r=1,那么按上式計算出的=0,這將導(dǎo)致后續(xù)步驟無法開展。因此,在無重復(fù)試驗的情形,應(yīng)該用下式計算和此時,將無法計算。因此,無重復(fù)試驗的設(shè)計無法考察交互作用。然后,計算平均偏差平方和和F值把這些F值查F表求得拒絕域或P值,即可做出統(tǒng)計推斷。類似于2.3節(jié)

14、,也可以得到雙因素方差分析的數(shù)學(xué)模型:其中,分別為因素A,B的主效應(yīng)以及A與B的交互效應(yīng),滿足,為實驗的隨機誤差,它們相互獨立且都服從正態(tài)分布。由這一模型,可以與2.3節(jié)類似地得出各參數(shù)的估計,以及采用F檢驗的原因。3.2 正交設(shè)計的方差分析正交設(shè)計是利用一系列規(guī)格化的正交表來科學(xué)地安排多因素試驗的一種十分有效的設(shè)計方法。其原理是從各因素各水平的全搭配中選擇一部分必不可少的搭配進行試驗,從而大大減少試驗次數(shù),又基本不降低研究效率。正交表是已經(jīng)制作好的規(guī)格化的表,可分為同水平的和混合水平的大類。等水平表一般記作形如,其中a表示正交表的行數(shù),即試驗的次數(shù);b表示因素的水平數(shù),即每個因素有b個水平;

15、c表示正交表的列數(shù)即因素數(shù)。所以,正交表用于c個因素,每個因素b個水平的情形,按該表設(shè)計共需做a次試驗。表4所示為等水平表。表5所示為一個混合正交表,這表示可以安排4個因素,其中一個因素有2水平,另外3個因素有3水平,共需9次試驗。表4 正交表試驗號 列號1231111212232124221列名ABA×B表5 正交表試驗號 列號1234111112122231333411235123161312721328221392321之所以選用正交表,是因為它具有如下性質(zhì):在任何一列中各水平都出現(xiàn)且出現(xiàn)的次數(shù)相等,在任意兩列之間各種不同水平的所有可能組合都出現(xiàn),且出現(xiàn)的次數(shù)相等。這就使得部分

16、試驗中所有因素的所有水平信息即兩兩因素間的所有組合信息無一遺漏,且任一因素各水平的試驗條件相同,從而能最大限度的反映該因素不同水平對試驗指標的影響。在3.1節(jié)中討論了雙因素情況下的交互作用,事實上,當有多個因素時,還存在多個因素的交互作用,稱為高級交互作用,記作A×B×C。在正交試驗設(shè)計中,交互作用一律當作因素看待,這是處理交互作用問題的一條總的原則。在正交表中,一般都為交互作用安排了相應(yīng)的列,如表4中的的第3列即用于安排交互作用A×B,這意味著使用這一正交表時,如果要考察交互作用,則只能考慮兩個因素,因為第3列已經(jīng)被占用了。但和因素不同的是,用于考慮交互作用的列

17、并不影響試驗方案及其實施,也就是說不必在試驗中刻意安排交互作用,只需計算時按第3列計算即可,而且一個交互作用不一定只占1列,也可能占有多列。因為正交設(shè)計中把交互作用看作因素安排到正交表的列中,因此使得方差分析的計算過程更加簡單了。設(shè)選用正交表進行正交試驗,即有c列,每列b個水平,共a個處理組,設(shè)每個處理組有r個數(shù)據(jù),第i個處理組的第t個數(shù)據(jù)記為,則全體的均值和第j列第k個水平的均值為,其中,表示第j列中第k個水平出現(xiàn)的次數(shù),表示第i個處理組中第j列的水平是k。由此,總偏差平方和,各列的偏差平方和為 ,其對應(yīng)的自由度分別為,注意,第j列的偏差平方和可能是因素的偏差平方和,可能是交互作用的偏差平方和,也可能是空列的偏差平方和。如果正交表中留有空列,則令,其中表示空列。在無重復(fù)實驗的情況下,可把看作是誤差的偏差平方和,即,。在有重復(fù)實驗的情況下,令,即表示各處理組內(nèi)隨機誤差的偏差平方和的總和。則在有重復(fù)實驗時,總體試驗誤差的偏差平方和,可見,當正交表無空列時,即直接計算各處理組內(nèi)誤差的偏差平方和,將其總和作為總體試驗誤差的偏差平方和。另外,也可以看出,若正交表無空列,且無重復(fù)試驗,則方差分析無法開展,因此試驗設(shè)計時必須保證兩者有其一。在計算出偏差平方和與自由度后,即可由各因素和交

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論