多元正態(tài)總體的假設(shè)檢驗(yàn)和方差分析_第1頁(yè)
多元正態(tài)總體的假設(shè)檢驗(yàn)和方差分析_第2頁(yè)
多元正態(tài)總體的假設(shè)檢驗(yàn)和方差分析_第3頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第 3 章 多元正態(tài)總體的假設(shè)檢驗(yàn)與方差分析從本章開(kāi)始,我們開(kāi)始轉(zhuǎn)入多元統(tǒng)計(jì)方法和統(tǒng)計(jì)模型的學(xué)習(xí)。統(tǒng)計(jì)學(xué)分析處理的對(duì)象是帶有隨機(jī)性的數(shù)據(jù)。按照隨機(jī)排列、重復(fù)、局部控制、正交等原則設(shè)計(jì)一個(gè)試驗(yàn),通過(guò)試驗(yàn)結(jié)果 形成樣本信息(通常以數(shù)據(jù)的形式),再根據(jù)樣本進(jìn)行統(tǒng)計(jì)推斷,是自然科學(xué)和工程技術(shù)領(lǐng)域 常用的一種研究方法。由于試驗(yàn)指標(biāo)常為多個(gè)數(shù)量指標(biāo),故常設(shè)試驗(yàn)結(jié)果所形成的總體為多元 正態(tài)總體,這是本章理論方法研究的出發(fā)點(diǎn)。所謂統(tǒng)計(jì)推斷就是根據(jù)從總體中觀測(cè)到的部分?jǐn)?shù)據(jù)對(duì)總體中我們感興趣的未知部分作出推 測(cè),這種推測(cè)必然伴有某種程度的不確定性,需要用概率來(lái)表明其可靠程度。統(tǒng)計(jì)推斷的任務(wù) 是“觀察現(xiàn)象,提取信息

2、,建立模型,作出推斷”。統(tǒng)計(jì)推斷有參數(shù)估計(jì)和假設(shè)檢驗(yàn)兩大類問(wèn)題,其統(tǒng)計(jì)推斷目的不同。參數(shù)估計(jì)問(wèn)題回答諸 如“未知參數(shù)的值有多大 ?”之類的問(wèn)題 , 而假設(shè)檢驗(yàn)回答諸如 “未知參數(shù)的值是嗎 ?”之類的問(wèn) 題。本章主要討論多元正態(tài)總體的假設(shè)檢驗(yàn)方法及其實(shí)際應(yīng)用,我們將對(duì)一元正態(tài)總體情形作 一簡(jiǎn)單回顧, 然后將介紹單個(gè)總體均值的推斷, 兩個(gè)總體均值的比較推斷, 多個(gè)總體均值的比 較檢驗(yàn)和協(xié)方差陣的推斷等。3.1 一元正態(tài)總體情形的回顧一、 假設(shè)檢驗(yàn)在假設(shè)檢驗(yàn)問(wèn)題中通常有兩個(gè)統(tǒng)計(jì)假設(shè)(簡(jiǎn)稱假設(shè)) , 一個(gè)作為原假設(shè)(或稱零假設(shè)),另 一個(gè)作為備擇假設(shè)(或稱對(duì)立假設(shè)),分別記為和。1、顯著性檢驗(yàn)2為便于

3、表述,假定考慮假設(shè)檢驗(yàn)問(wèn)題:設(shè)X1 , X2,,Xn來(lái)自總體N(,)的樣本,我們要檢驗(yàn)假設(shè)3.1)原假設(shè)H。與備擇假設(shè)Hi應(yīng)相互排斥,兩者有且只有一個(gè)正確。備擇假設(shè)的意思是,一旦 否定原假設(shè) H0 ,我們就選擇已準(zhǔn)備的假設(shè) H1。2當(dāng) 已知時(shí),用統(tǒng)計(jì)量 z在原假設(shè)H。成立下,統(tǒng)計(jì)量z服從正態(tài)分布zN(0 ,1),通過(guò)查表,查得N(0 ,1)的上分位點(diǎn)z 2。對(duì)于檢驗(yàn)問(wèn)題(3.1.1,我們制定這樣一個(gè)檢驗(yàn)規(guī)則(簡(jiǎn)稱檢驗(yàn))當(dāng)z z 2時(shí),拒絕H 0 ;(3.2)當(dāng)z z 2時(shí),接受Ho。我們稱z 2為臨界值,是N(0,1)的上分位點(diǎn),不同的臨界值代表不同的檢驗(yàn)。稱拒絕原假 設(shè)H 0的統(tǒng)計(jì)量z的范圍

4、為拒絕域,稱接受H 0的統(tǒng)計(jì)量z的范圍為接受域,因此給出一個(gè)檢驗(yàn),就是給出一個(gè)拒絕域。2、兩類錯(cuò)誤由于樣本具有隨機(jī)性,因此在根據(jù)樣本進(jìn)行判斷時(shí),有可能犯兩種類型的錯(cuò)誤。一類錯(cuò)誤是,原假設(shè)H。本來(lái)正確,但按檢驗(yàn)規(guī)則卻作出了拒絕 H。的判斷,這類錯(cuò)誤稱為第一類錯(cuò)誤 (棄真錯(cuò)誤),其發(fā)生的概率P z z 2稱為犯第一類錯(cuò)誤的概率; 另一類錯(cuò)誤時(shí),原假設(shè)H。本來(lái)不正確,但按檢驗(yàn)規(guī)則卻作出了接收H。的判斷,這類錯(cuò)誤稱為第二類錯(cuò)誤(存?zhèn)五e(cuò)誤),其發(fā)生的概率稱為犯第二類錯(cuò)誤的概率,記為。同時(shí)控制這兩類錯(cuò)誤是困難的,當(dāng)時(shí)在樣本容量n固定的條件下,要使和 同時(shí)減小,通常是不可能的。在假設(shè)檢驗(yàn)的應(yīng)用中,由奈曼(N

5、EYMAN與皮爾遜(PEARSON提出了一個(gè)原則,即在控制犯第一類錯(cuò)誤的概率條件下,盡量使犯第二類錯(cuò)誤的概率小,這種檢驗(yàn)問(wèn)題,稱為顯著性檢驗(yàn)問(wèn)題。根據(jù)這一原則,原假設(shè)受到保護(hù),不至于被輕易拒絕,一旦檢驗(yàn)結(jié)果拒絕 了原假設(shè),則表明拒絕的理由是充分的,如果接受了原假設(shè),則只是表明拒絕的理由還不充分, 未必意味著原假設(shè)就是正確的。所以,在實(shí)際問(wèn)題中,為了通過(guò)樣本觀測(cè)值對(duì)某一猜測(cè)取得強(qiáng) 有力的支持,通稱我們把這一猜測(cè)的否定作為原假設(shè),而把猜測(cè)本身作為備擇假設(shè)。3、關(guān)于檢驗(yàn)的 p值F面,我們?cè)俳榻B進(jìn)行檢驗(yàn)的另一種方式p值,我們就以(3.1.1)的檢驗(yàn)問(wèn)題為例來(lái)加以說(shuō)明,對(duì)于樣本,我們通過(guò)統(tǒng)計(jì)量,計(jì)算出Z

6、o,是一確定值,這里的X是樣本觀測(cè)值的均值,再由統(tǒng)計(jì)量Z服從正態(tài)分布zN(o ,1),計(jì)算PzZo為檢驗(yàn)的p值。由于z .-2等價(jià)于p = P zZo,所以檢驗(yàn)規(guī)則可以表述為:上述時(shí),拒絕Ho ;時(shí),接受H o。接受H o。(3.3)p值的檢驗(yàn)規(guī)則與(3.1.2 )的檢驗(yàn)結(jié)果相比含有更豐富的信息,p值越小,拒絕原假設(shè)的理由就充分。通常 SAS等軟件的計(jì)算機(jī)輸出一般只給出p值,由你自己給定的值來(lái)判 斷檢驗(yàn)結(jié)果二、單一變量假設(shè)檢驗(yàn)的回顧1、單個(gè)正態(tài)總體均值的檢驗(yàn)考慮假設(shè)檢驗(yàn)冋題:設(shè)2Ho:X1 , X2,,Xn來(lái)自總體N(,)的樣本,我們要檢驗(yàn)假H1(1)總體方差2已知構(gòu)造統(tǒng)計(jì)量在原假設(shè)Ho成立下

7、,Z服從正態(tài)分布Z N(0 ,1),可得這樣一個(gè)檢驗(yàn)規(guī)則:當(dāng)Z Z 2時(shí),拒絕當(dāng)Z Z 2時(shí),接受Hoo2(2) 總體方差 未知構(gòu)造統(tǒng)計(jì)量當(dāng)tt2(n1)時(shí),拒絕當(dāng)tt2(n1)時(shí),接受Ho .Hoo(3.1.4)2、兩個(gè)正態(tài)總體均值的比較檢驗(yàn)考慮假設(shè)檢驗(yàn)問(wèn)題H 0 : 1 2 , H 1 :1 2(3.1.5)設(shè)X1,X2, ,Xn1是取自總體2N( 1 ,1 )的容量為n1的樣本,丫1,丫2,,丫n2是取自則:在原假設(shè)H°成立下,t服從自由度為n 1的t分布tt(n 1)可得這樣一個(gè)檢驗(yàn)規(guī)2N( 2,2 )的容量為n2的樣本,給定顯著性水平構(gòu)造檢驗(yàn)統(tǒng)計(jì)量 z(i) 兩個(gè)總體方差2

8、和;已知在原假設(shè)Ho成立下,(3.1.6)z服從正態(tài)分布z N (0 ,1),檢驗(yàn)規(guī)則為:當(dāng)Z Z 2時(shí),拒絕Ho ;z 2時(shí),接受Ho。2 2(2)兩個(gè)總體方差1和2都未知,但用樣本方差s代替,構(gòu)造檢驗(yàn)統(tǒng)計(jì)量在原假設(shè)H°成立下,t服從正態(tài)分布t t(nr n2 2),檢驗(yàn)規(guī)則為:當(dāng) t t (nin2 2)時(shí),拒絕 Ho ;2當(dāng) t t (ni n22)時(shí),接受 Ho。.23、多個(gè)正態(tài)總體均值的比較檢驗(yàn)(方差分析)設(shè)k個(gè)正態(tài)總體分別為N( 1 , 2),N(2),N(k , 2)從k個(gè)總體取ni個(gè)獨(dú)立樣本如下:X1Xn1考慮假設(shè)檢驗(yàn)冋題H° :假設(shè)H °成立條件

9、下這里SSAkSSTi 1inix;k)(k)入2(k) X nkH 1 :至少存在,構(gòu)造檢驗(yàn)統(tǒng)計(jì)量為:A/(KJ1SSE/( n k)ni(Xi X)2稱為組間平方和;(X X)2稱為總平方和n k)SSEXini(XjXi)2稱為組內(nèi)平方和;1 n1(i)Xjni j 1nXj(i)j 1n2給定檢驗(yàn)水平,可確定出臨界值 F , 則拒絕H 0 ,否則不能拒絕 H °。SAS過(guò)程,查F分布表,使PF F再利用樣本值計(jì)算出 F值,若F F , 附注:多元假設(shè)檢驗(yàn)與其中的計(jì)算一般都很復(fù)雜,可用國(guó)際上著名本章的主要內(nèi)容是多元假設(shè)檢驗(yàn)和方差分析,的專業(yè)軟件 SAS軟件計(jì)算。SAS中有GLM

10、 , ANOVA和NESTED等過(guò)程可用方差分析。 其中GLM過(guò)程最常用。SAS的GLM過(guò)程采用了一般線性模型:y b°6X1. bmXm在方差分析問(wèn)題中,變量x-i .xm是示性變量,即只取0或1的變量。GLM過(guò)程對(duì)每一因子的每一水平,通過(guò) CLASS語(yǔ)句產(chǎn)生1個(gè)示性變量,也稱分類變量。GLM過(guò)程主要有四個(gè)語(yǔ)句: PROC GLM , CLASS , MODEL和LSMEANS 語(yǔ)句。PROC GLM 語(yǔ)句 用以調(diào)用GLM過(guò)程,有許多選項(xiàng),一般形式是:Proc glm data=數(shù)據(jù)集名稱outstat=輸出的統(tǒng)計(jì)量order=formatted|freq|data|interna

11、l;CLASS語(yǔ)句 說(shuō)明哪些變量是分類變量。方差分析中的因素都是分類變量,如:Class V1 V2 V3 ;此語(yǔ)句指示計(jì)算機(jī)把因子V1,V2,V3作為分類變量,可以是字符型變量或數(shù)字型變量。如果是字符型變量,長(zhǎng)度限于10個(gè)字符以內(nèi)。MODEL語(yǔ)句 語(yǔ)句中等號(hào)前是響應(yīng)變量,如:Model Y=A ;Model Y=A B C ;Model Y=A B A*BModel Y1 Y2=A BLSMEANS 語(yǔ)句單因子ANOVA主效應(yīng)模型,含交互效應(yīng)的因子模型多因子方差模型 MANOV A 用以求待估參數(shù)的最小二乘估計(jì)。Lsmeans A B A*B ;MANOV A語(yǔ)句用以說(shuō)明是做多元方差分析。3

12、.2均值等于常數(shù)向量的檢驗(yàn)在經(jīng)濟(jì)生產(chǎn)、管理決策中的很多實(shí)際問(wèn)題,通常要選取多個(gè)指標(biāo)進(jìn)行考察,根據(jù)歷史數(shù)據(jù),將p項(xiàng)指標(biāo)的歷史平均水平記作°,考慮新的p項(xiàng)指標(biāo)平均值是否與歷史數(shù)據(jù)記載的平均值有明顯差異?若有差異,進(jìn)一步分析差異主要在哪些指標(biāo)上,先看下面的實(shí)例:例3.1測(cè)量20名健康女性排汗量 &、鈉含量X2、鉀含量X3得表3.1 o問(wèn)健康女性X,、X2、X3的均值是不是 4、50、10?表3-120名健康女性排汗量 X1、鈉含量X2、鉀含量X3數(shù)據(jù)排汗量x鈉含量X2鉀含量X33.748.59.35.765.18.03.847.210.93.253.212.03.155.5r 9.

13、74.636.17.92.424.814.07.233.17.66.747.48.55.454.1M1.33.936.912.74.558.8M2.33.527.89.84.540.2P 8.41.513.51°.18.556.4:7.14.571.68.26.552.8P 1°.94.144.111.25.54°.9:9.4例3.1的數(shù)學(xué)模型就是:x (X1,X2,X3)'服從N(,)要根據(jù)2°個(gè)樣品做復(fù)合檢驗(yàn)1414H° :25°,H1 :25°31°31°一般的,我們考慮 p維正態(tài)分布均值等

14、于常數(shù)的檢驗(yàn)問(wèn)題:X1,X2, ,Xn為取自P維正態(tài)總體Np( 1,)的一個(gè)樣本,要檢驗(yàn):H ° :°;H i :°,( 3.4)其中0為已知p維向量。對(duì)于這樣一個(gè)檢驗(yàn)問(wèn)題,分為以下兩種情形:一、協(xié)方差陣已知條件下,均值 的檢驗(yàn)作出假設(shè)后,需要構(gòu)造一個(gè)合適的統(tǒng)計(jì)量。要檢驗(yàn)的假設(shè)在形式上同一維情形是一樣的。H ° :°;H i :°X在一維時(shí)構(gòu)造的統(tǒng)計(jì)量為 u °且在H°成立時(shí),U服從正態(tài)分布 N(°,1)。°依照一維情形,由于 H°成立時(shí)X服從p維正態(tài)分布N( °, ),&#

15、176;。若記AAt,na為非奇異對(duì)稱陣,則有.nA 1(X°)服從 N(°,l)但用N(°, I)來(lái)確定拒絕域不方便,因此,改選用統(tǒng)計(jì)量,2 n(X)T 1°)(X°)(3.5)當(dāng)H°成立時(shí),2服從2(p)-分布。對(duì)給定的,從P2 2 2(p),求出(P)。當(dāng)22(P)時(shí),要先求11,這需要大量的計(jì)算。實(shí)際計(jì)算2時(shí),可以不必求出1,只要令Y1(X0)即Y(X0)(3.6 )求解方程組(3.2.3 ),求出Y后,則2 n(X0)ty二協(xié)方差陣未知條件下均值的檢驗(yàn)假設(shè)檢驗(yàn)問(wèn)題仍然是:H0:0 ;H1 :0其中0為已知p維向量。在回顧一元

16、情況,在原假設(shè)H0成立下,tX服從自由度為n1的t分布,在P維正態(tài)情況下,當(dāng)協(xié)方差已知時(shí),選用時(shí)統(tǒng)計(jì)量為現(xiàn)用樣本協(xié)方差S代替總體協(xié)方差陣,令T2 n(n 1)(Xo)TS 1(X 。)2統(tǒng)計(jì)量T的分布是一元統(tǒng)計(jì)中t分布的推廣,最早由 HOTELLING導(dǎo)出,在上一章中,我們 已經(jīng)給出了這個(gè)定義,可以直接用它作為檢驗(yàn)H0的統(tǒng)計(jì)量,T2分布已被仔細(xì)研究過(guò),1%及 5%2的分位點(diǎn)已經(jīng)列成專表,讀者可在3中找到這個(gè)表。也可以利用HOTELLINGT分布的性質(zhì),F(xiàn) ° J) t2F(p,n p)(證明參見(jiàn)朱道元 P210)(n 1)P當(dāng)Ho不成立時(shí),F(xiàn)有變大的趨勢(shì),對(duì)給定的,從PF F (p,

17、n p)求出F (p, n p),當(dāng)F F (p ,n p)時(shí),拒絕Ho ;否則接受Ho 。例3.1測(cè)量20名健康女性排汗量x1、鈉含量X2、鉀含量X3得表3.1 o問(wèn)健康女性X1、X2、n(X0)T 1(X0)x3的均值是不是 4、50、10?解:建立Ho :234i50 ,Hi:210.45010用sas,matematica,matlAB軟件都可算出4.64X 45.4 ,S9.9652T 20( XF2.879368410.0100000-1.809052610)'S (X(20 3)*T2/(19* 3)10.0100000199.7884211-5.64000000)9.7

18、4。2.90 F3,17(0.10)-1.8090526-5.64000003.62765792.44所以否定原假設(shè),即在0.10顯著水平下拒絕H0例3.1也可用下列SAS程序計(jì)算data han ye;in putx1-x3;y1=x1-4 ;y2=x2-50 ;y3=x3-10 ;a= 1;cards3.748.59.35.765.18.03.847.210.93.253.212.03.155.59.74.636.17.92.424.814.07.233.17.66.747.48.55.454.111.33.936.912.74.558.812.33.527.89.84.540.28.41

19、.513.510.18.556.47.14.571.68.26.552.810.94.144.111.25.540.99.4proc glm ;model y1-y3=a/ noint ;manova h =a/ printeprinth ;run ; I執(zhí)行此程序后得到的輸出中主要的是最后一個(gè)表H = Type III SSCP Matrix for aE = Error SSCP MatrixS=1M=0.5N=7.5Wilks' Lambda0.661127742.90Pillai's Trace0.338872262.90Hotelling-Lawley Trace 0

20、.512566992.903170.06493170.06493170.06493170.0649Roy's Greatest Root 0.512566992.90可見(jiàn)P值為0.0649,所以否定原假設(shè),即在0.10顯著水平下拒絕 Ho。在實(shí)際工作中,一元檢驗(yàn)與多元檢驗(yàn)可以聯(lián)合使用,多元的檢驗(yàn)具有概括和全面的優(yōu)點(diǎn),而一 元的檢驗(yàn)容易發(fā)現(xiàn)各指標(biāo)之間的關(guān)系和差異,兩者的結(jié)合能給統(tǒng)計(jì)人員提供更多的統(tǒng)計(jì)分析信3.3兩總體均值的比較檢驗(yàn)例3.2 為了研究日美兩國(guó)在華企業(yè)對(duì)中國(guó)經(jīng)營(yíng)環(huán)境的評(píng)價(jià)是否存在差異,從兩國(guó)在華企業(yè)對(duì)中國(guó)的政治、經(jīng)濟(jì)、法律、文化等環(huán)境打分,得表3-2。試分析日美兩國(guó)在華企業(yè)對(duì)

21、中國(guó)經(jīng)營(yíng)環(huán)境的評(píng)價(jià)是否存在差異?表3-2日美兩國(guó)在華企業(yè)對(duì)中國(guó)經(jīng)營(yíng)環(huán)境的評(píng)價(jià)美國(guó)企業(yè)號(hào)政治環(huán)境X1經(jīng)濟(jì)環(huán)境X2法律環(huán)境X3文化環(huán)境X4美165352560美275502055美360453565美475404070美570303050美655403565美760453060美865402560美960503070美1055553575日本企業(yè)號(hào)政治環(huán)境Y1經(jīng)濟(jì)環(huán)境Y2 法律環(huán)境Y3文化環(huán)境Y4日155554065日250604570日345453575日450505070日555503075日660404560日765554575假設(shè) X(Xi,X2,X3,X4)'服從 N( x下,且

22、有10對(duì)樣品,要做復(fù)合檢驗(yàn)x1X2x3X4x) , Y(丫1,丫2,丫3, 丫4)'服從 N( y, y)yiy2y3y4般情況下,我們考慮 X1,X2,X n為取自P維正態(tài)總體N p( 1,)的一個(gè)樣本,丫1,丫2, ,丫m為取自P維正態(tài)總體Np( 2,)的一個(gè)樣本。假定兩組樣本相互獨(dú)立,且Yii 1一、有共同已知的協(xié)差陣時(shí)對(duì)于例3.2提出的問(wèn)題,可歸類為假設(shè)檢驗(yàn)問(wèn)題:H 0 : 12H1 :12其中12為已知P維向量。XY n m在一維情形下,用了統(tǒng)計(jì)量U丫n m,與前面相似的思路,在 p維時(shí),選用統(tǒng)0, n m計(jì)量2nmt1 “(X Y)(XY)n m當(dāng)H。成立時(shí),服從2(p)-

23、分布。對(duì)給定的顯著性水平,從P 22(p)2O22求出(P)時(shí),拒絕Ho ; 當(dāng)(P)時(shí),接受Ho、有共同的未知協(xié)差陣時(shí)假定兩組樣本相互獨(dú)立,已知兩總體有相同的協(xié)方差陣>0,但未知,要檢驗(yàn)的假設(shè)為:Ho:12H1 :12其中12為已知p維向量。記日850653580日940453065日1045504570n_S1(Xi X)(Xi X)TS2(Y Y)(Y Y)Ti 1采用統(tǒng)計(jì)量為2nn t1 T2(m n 2)(X Y)T (S1 S2) 1(X Y)m n定理3.2若Ho: x y, x y成立;則2F (n m p 1)T /p(n m 2)F(p, n m p 1)證明參見(jiàn)朱道

24、元P217定理3.2可用于用做兩總體復(fù)合檢驗(yàn)。根據(jù)定理3.2,當(dāng)H0成立時(shí),統(tǒng)計(jì)量F (n m 2) p 1 丁 2 n m p 1 丁 2(n m 2) p(n m 2) p=mn(m n p 1)(X Y)TG S2) 1(X Y)F(p, n m p 1) p(m n)當(dāng)H0不成立時(shí),F(xiàn)有變大的趨勢(shì),對(duì)給定的,從PF F (p, n m p 1)求出F (p, n m p 1),當(dāng)F F ( p,n m p 1)時(shí),拒絕H 0 ;否則接受H 0以上有關(guān)的統(tǒng)計(jì)量在 H。成立時(shí)所服從的分布的相應(yīng)證明都比較復(fù)雜,這里我們只敘述了的解:作假設(shè)H。:xy ;H1 : xy645143-51X,Y3

25、0.5406370.554.4444444 4-18.8888888 9-13.3333333 3-27.2222222 2-18.8888888 956.6666666 71.1111111134.4444444 4-13.3333333 31.1111111135.8333333 328.8888888 9-27.2222222 234.4444444 428.8888888 956.6666666 7有關(guān)結(jié)論,沒(méi)有給出證明,可參看第二章的相關(guān)內(nèi)容。這些統(tǒng)計(jì)量同一維相應(yīng)的統(tǒng)計(jì)量均有相似之處,對(duì)比兩者的形式有助于理解和應(yīng)用。例3.2Sx55.8333333 35.83333333 Sy19.

26、4444444 45.8333333355.8333333 32.7777777819.4444444 42.7777777850.0000000 0-0.8333333326.9444444 4-11.1111111 1-0.8333333326.9444444 4-11.1111111 135.8333333 3T210*10 (X Y)'S 1(X Y) 29.862510 10F (10 10 4 1)/(910 10 2)*4)*29.8625 6.2214所以日美兩國(guó)在華企業(yè)對(duì)中國(guó)經(jīng)營(yíng)環(huán)境的評(píng)價(jià)存在顯著差異。例3.2可用如下SAS程序?qū)崿F(xiàn)data wu1;in putno

27、$ pol ecn leg cul cou $;cards美1 65352560a美2 75502055a美3 60453565a美4 75404070a美5 70303050a美6 55403565a美7 60453060a美8 65402560a美9 60503070a美 10 55553575a日1 55554065j日2 50604570j日3 45453575j日4 50505070j日5 55503075j日6 60404560j日7 65554575j日8 50603580j日9 40453065j日 10 45 50 4570j;procglm ;classcou;model

28、pol ecn leg cul=cou/ss3manova h =cou/ printeprinth ;run;執(zhí)行此程序后得到的輸出中主要的是最后一個(gè)表H = Type III SSCP Matrix for couE = Error SSCP MatrixS=1M=1N=6.5Wilks' Lambda0.376077346.22Pillai's Trace0.623922666.224150.00374150.0037Hotelling-Lawley Trace 1.659027526.224150.0037Roy's Greatest Root 1.659027

29、526.224150.0037由此可見(jiàn)p值是0.0037,因而日美兩國(guó)在華企業(yè)對(duì)中國(guó)經(jīng)營(yíng)環(huán)境的評(píng)價(jià)存在顯著差異。3.4多個(gè)總體均值向量的比較檢驗(yàn)在研究作物栽培時(shí),要考慮播種期、品種、土質(zhì)、施肥方式、灌溉方式對(duì)產(chǎn)量的影響;在 化學(xué)反應(yīng)中要觀察原料成分、劑量、催化劑、溫度、壓力,攪拌速度等對(duì)得率的影響。在很多 應(yīng)用領(lǐng)域尤其是科學(xué)研究中,都遇到過(guò)類似的問(wèn)題,常涉及許多因素,這類問(wèn)題要分析出影響 最“大”的因素,就是比較各種因素對(duì)試驗(yàn)結(jié)果所起的作用問(wèn)題。作為影響試驗(yàn)結(jié)果的每一因 素或因素的某一水平或某一方案,且試驗(yàn)結(jié)果都形成一個(gè)隨機(jī)總體。這樣,比較各種因素對(duì)試 驗(yàn)結(jié)果所起的作用問(wèn)題就變成對(duì)各種因素的試

30、驗(yàn)結(jié)果所形成的總體的比較問(wèn)題。由于試驗(yàn)指標(biāo)常為多元指標(biāo),故常設(shè)試驗(yàn)結(jié)果所形成的總體為多元正態(tài)總體。此外,我們 按照隨機(jī)排列、重復(fù)、局部控制、正交等原則設(shè)計(jì)一個(gè)試驗(yàn),除要考察的因素外,其他試驗(yàn)條 件均要求一致,即要考察的試驗(yàn)因素的試驗(yàn)結(jié)果都是同協(xié)方差陣的且相互獨(dú)立的多元正態(tài)總體。 因而,各因素對(duì)試驗(yàn)結(jié)果影響的結(jié)果的比較,就變成了多個(gè)同協(xié)方差陣的多元正態(tài)總體均值向 量的比較。統(tǒng)計(jì)上解決兩個(gè)以上同協(xié)方差陣多元正態(tài)總體均值向量比較的方法叫做多元方差分 析。多個(gè)總體均值向量的比較檢驗(yàn),特別是多元方差分析正是本節(jié)的內(nèi)容,這類方法在經(jīng)濟(jì)管 理,系統(tǒng)控制,生物醫(yī)藥等許多領(lǐng)域有著廣泛的應(yīng)用。這里先看一個(gè)具體實(shí)例

31、。3.4.1提出問(wèn)題例3.3為了研究某種疾病,對(duì)三組人測(cè)量:第1組是20至35歲女性、第2組是20至25歲男性、第3組是30至55歲男性。每組取20個(gè)人,測(cè)量第I組的第J人4個(gè)指標(biāo)是: 脂蛋白(Xj1 )、甘油三脂(Xj2 )、 脂蛋白(Xj3 )、前 脂蛋白(Xj4 )。測(cè)量結(jié)果見(jiàn)表 3-3。 問(wèn)三組人的指標(biāo)間有沒(méi)有顯著差別?表3-3脂蛋白、甘油三脂、脂蛋白、前 脂蛋白數(shù)據(jù)(1)Xj1(1)Xj2(1)Xj3(1)Xj4(2)Xj1(2)Xj2(2)Xj3(2)Xj4(3)Xj1(3)Xj2(3)Xj3(3)Xj4260754018310122302132064391720072341731

32、060r 3518 126059r 371124087451819040271536088282617065391722565r 3416 1295100r 36122701103924170653716270653221205r 130342321082r 3117380114r 3621190692715280673718240554210200464515210383617260553420250117212028065302326011029202001072820 :20076P 4017295733321225130361120076392024011438182101252617

33、2809426113101033218170(64311419060(3317330112211127076331329555P 301634512724201906034162701252421250622216280812018 :280120P 3218 :26059211931011925152406232202251003430270573182806929203451203618250673114370703020360107252326013539292804037172501173616問(wèn)題中的3組人的測(cè)量值X、X、X,每個(gè)隨機(jī)向量有4個(gè)指標(biāo),即4維隨機(jī)向量。例3.3要從每個(gè)總

34、體20個(gè)樣品值出發(fā),檢驗(yàn) E(X)E(X(2) E(X(3)是否成立。3.4.2單因素方差分析的數(shù)學(xué)模型方差分析的目的在于找出自變量與因變量之間的線性關(guān)系,或自變量對(duì)因變量的實(shí)驗(yàn)效果。方差分析是一種處理實(shí)驗(yàn)數(shù)據(jù)的方法,考察一個(gè)被稱為因變量或相依變量(depe nde nt variable,)的連續(xù)響應(yīng)變量,又稱反應(yīng)變量(Response Variable),其數(shù)值則是連續(xù)的,它在由分類變量識(shí)別的幾種試驗(yàn)條件下被測(cè)量,這些分類變量被稱為自變量,獨(dú)立變量(independent variable),定性變量(Qualitative Variable )或分類變量(Classification V

35、ariable),其數(shù)值多半是不連續(xù)的。這些分 類變量的水平組合形成試驗(yàn)設(shè)計(jì)的單元。例如,某個(gè)試驗(yàn)要測(cè)量男人和女人的重量變化(因變 量),他們采取了三種不同的減肥方法,這個(gè)設(shè)計(jì)的6個(gè)單元由性別(男、女)和減肥方法( A、B、C) 6種組合形成。一項(xiàng)試驗(yàn)有多個(gè)影響因素,因素也可以看成是一種變量,其取值不是數(shù),而是水平。例如 “產(chǎn)地”是一個(gè)變量,它取的值是“北京”、“上?!?、“南京”等。這種變量稱為屬性變量,定性變量或分類變量如果只有一個(gè)因素在發(fā)生變化,其他因素保持不變,貝U稱為單因素試驗(yàn), 與之對(duì)應(yīng)的方差分析,稱為單因素方差分析。我們所考察的影響產(chǎn)品指標(biāo)的因素(如產(chǎn)地,溫度)也稱為因子,用大寫(xiě)字

36、母 A,B,C表示。因素所能處的狀況,如甲、乙、丙;60, 65, 70, 75,,稱為因素的水平,簡(jiǎn)稱為水平。水平常以A2, B1, B2,表示。一般地,假設(shè)因素 A有k個(gè)水平:A1,., Ak。對(duì)第i個(gè)水平Ai進(jìn)行試驗(yàn),獨(dú)立觀察 ni次,i 1,2,k ,整個(gè)試驗(yàn)共作了 m n2nk n次,且完全隨機(jī)排列。設(shè)Ai的第j次觀察的試驗(yàn)指標(biāo)為 p維向量X(i)(x(1) ,x(2),x(ip) Np(Ui, ) i 1,2, , k , j1 ,2,ni假設(shè):(1)同一個(gè)水平Aj下得到的觀測(cè)值X1(1) ,X ;;X1(k),-,由于實(shí)驗(yàn)過(guò)程中各種偶然因素的干擾及測(cè)量誤差所致,每次實(shí)驗(yàn)中這些偶然

37、因素的總和稱為實(shí)驗(yàn)誤差,它們是方差相同的零均值正態(tài)隨機(jī)變量;(2) 所有誤差相互獨(dú)立;j為Ai的第j次觀察的隨機(jī)誤差向量,根i為Ai的主效應(yīng)向量,(3) 由于水平的不同,可能會(huì)給 X(i)一個(gè)定量的確定性的影響,其大小是未知的。1假定丄ki令iini 1于是有模型:x(i)ijX jiijijN p(0,)且相互獨(dú)立i 1,2, ,k ,j 1,2, ,n其中稱為總體均值向量,據(jù)假設(shè) j相互獨(dú)立且均服從Np(O,)。判斷這個(gè)因素的影響是否顯著就是要檢驗(yàn)假設(shè):k不全為0(3.7)設(shè)第I組樣本均值X(i)n.1 ini j 1X(i)1 kni總均值Xx(i)n i 1 j 1k ni樣本組內(nèi)差

38、E(X(i) X(i)(X(i) X(i)'i 1 j 1k樣本組間差 Bni(XX(i)(X X(i)',i 1k ni A(Xj X)(XjX)' B E,i 1 j 1對(duì)于該檢驗(yàn)問(wèn)題的統(tǒng)計(jì)量,取 WILKS統(tǒng)計(jì)量E/A定理3.3若12 k,則E/A服從WILKS分布p,n k 1 ,k 2證明參見(jiàn)朱道元第177頁(yè)例3.3為了研究某種疾病,對(duì)三組人測(cè)量:第1組是20至35歲女性、第2組是20至25歲男性、第3組是30至55歲男性。每組取 20個(gè)人,測(cè)量第I組的第J人4個(gè)指標(biāo)是:脂蛋白(i)(i)(i)(i)(X(1)、甘油三脂(X(2 )、 脂蛋白(X(3 )、前

39、脂蛋白(Xj4 )。測(cè)量結(jié)果見(jiàn)表3.3。問(wèn)三組人的指標(biāo)間有沒(méi)有顯著差別?解這兒有3個(gè)總體,建立假設(shè) H0 :13;Hi3不全相等4317375995912441.2 E312504.8E E1 E2 E3.1301.25723333457.4761.5112,476.8232785395.75174840466.3951937.75 2166.32082.526.91024.2計(jì)算三總體樣本均值231.0253.5292.75(1)89.6(2)x,x72.55 p,x90.232.932.4531.7517.117.918.4計(jì)算組內(nèi)差305306298107819515736.8796.8

40、1387.8E195590.2413.8517057021.51571.582712288.95807.95321.1. .364.955.1133.8E2計(jì)算組間差39065.83 2307.924017.23724.0878635.8226.913.4314.717.2計(jì)算總方差164474.5825586.424674.83253444484.181973.572139.4A BE2095.9341.61041.4計(jì)算統(tǒng)計(jì)量E/A 0.6621,杳得p,nk 仆 2 (0.01)0.709 > 0.6621 ;所以高度顯著否定H0,故三組人身體指標(biāo)有顯著差異。3.5總體協(xié)差陣相等的

41、檢驗(yàn)本章第三節(jié)和第四節(jié)中,總假定不同總體的方差是相同的,這一假定是否合理?在一些問(wèn)題中應(yīng)當(dāng)加以證明。3.5.1 一個(gè)正態(tài)總體協(xié)方差陣的檢驗(yàn)設(shè)Xi, X2, Xn為取自P維正態(tài)總體Np(,)的一個(gè)樣本,未知,且首先,我們考慮假設(shè)檢驗(yàn)問(wèn)題:H o :1 p , H 1 :Ip所構(gòu)造的檢驗(yàn)統(tǒng)計(jì)量為exP >An2(;)nP2其中nTA (Xi X)(Xi X)i 1然后,我們考慮假設(shè)檢驗(yàn)問(wèn)題:因?yàn)? 0,所以存在非奇異矩陣D,使得D oDT令Y DXi, i 1,2, ,n則Yi Np(D ,D Dt ) Np(,)因此檢驗(yàn)0等價(jià)于 * I p此時(shí)構(gòu)造檢驗(yàn)統(tǒng)計(jì)量為其中1 * *exp尹A An

42、2(e)np2A(Yi Y)(Yi Y)Ti 1給定檢驗(yàn)水平,因?yàn)橹苯佑械姆植加?jì)算臨界值很困難,所以通常采用的近似分布。在H。成立時(shí),2ln 的極限分布是2(p(p 1).2),因此當(dāng)n >> p ,由樣本值計(jì)算出2 ,值,若 2ln >2,即 <e 2,則拒絕H。,否則不能拒絕 H。3.5.2多個(gè)協(xié)方差陣相等檢驗(yàn)剛才討論的檢驗(yàn)°是一個(gè)正態(tài)總體協(xié)方差陣的檢驗(yàn),是檢驗(yàn)當(dāng)前協(xié)方差陣與過(guò)去是否一樣,在一些實(shí)際問(wèn)題中,可能會(huì)遇到多個(gè)正態(tài)總體的協(xié)方差陣是否相等的問(wèn)題。設(shè)有k個(gè)正態(tài)總體分別為 Np( -1 ),Np( k , k ) , i 0且未知,i 1,2 , k從

43、第i個(gè)總體中取ni個(gè)樣本Xj(x(1),x(i2), x(p) ) Np(Ui, i ), j 1,2, ,ni這里n1 n2nk n為總樣本容量。我們考慮假設(shè)檢驗(yàn)問(wèn)題為H 0 : 1 2構(gòu)造檢驗(yàn)統(tǒng)計(jì)量為np 2i 1An2kni p'2 nik其中A Aii 1A(Xj X)(x(" X)T,j 1(i)X丄nini j 1(i)X j ,按照Bartlett的建議,記Nini1, N n k得到修正的檢驗(yàn)統(tǒng)計(jì)量NNp2N -2A NNk不必相等;Nk相等例3.4 有甲、乙兩品種,取得如表3-4所示的兩個(gè)二元正態(tài)樣本,試檢驗(yàn)Ho :1NiNiP21 2則在Ho成立時(shí),2ln

44、 k'的極限分布是2(f),其中1 d1f -P(P 1)(k 1)22p23p-1 k 丄 16( p 1)(k1) i 1 N N(2p23p-1)(k1)6( p 1)Nk解:A14892822460883525314545504.132271.53742.59016348540.03742.5895.58540.04297.557891.9 12282.512282.534020ln A116.5164ln A217.6461ln A 19.5666由于 p 2, k 2, n16,2ln ' N ln A p ln N 175.1614 43.3371d 0.1874

45、n28,N15, N27, Nkkp Nk ln Nk Nk ln Aki 1i 1206.0957 7.81512,故表3-4方差陣檢驗(yàn)數(shù)據(jù)觀察值和Xi2X1X2甲X300232217100286320145538510926085235254310171233417乙 x(2)200150333150283383350300214963516716163850438341738086100556420441f 嚴(yán) 1)(k 1) 3由于 2ln2(f)110.18740.059.6176,故應(yīng)拒絕H09.617612,即認(rèn)為1 ,2有顯著差異。3.6獨(dú)立性檢驗(yàn)一個(gè)隨機(jī)向量Xx(1)Xq,若

46、其中兩子向量相互獨(dú)立,則可化為兩個(gè)低維隨即向量p q處理,給統(tǒng)計(jì)分析帶來(lái)極大的便利,因此檢驗(yàn)一個(gè)隨機(jī)向量的子向量之間是否獨(dú)立是參數(shù)假設(shè)檢驗(yàn)中的重大課題,而當(dāng)X(1)X(2)Np(1)1112時(shí),X,X(2)相互獨(dú)立X,X互不相2122也就是說(shuō),如果H。成立,則一般情況下,設(shè)X Np(,),正定,將X分割成k個(gè)子向量:X (X(1) ,x(2),X(k)T,其中X的維數(shù)為Pi,i1,2,k,k,pi p,將與也作相應(yīng)的剖分:i 1(1)11121k(2)21222k(k)k1k2kk檢驗(yàn)子向量X (1) ,X (2),x(k)之間的相互獨(dú)立的假設(shè)問(wèn)題可寫(xiě)成:H 0 : j 0,i j,i,j 1,2, kH1 : j0至少有一對(duì)i, j1100,X的獨(dú)立性檢驗(yàn)可歸結(jié)為參數(shù)假設(shè)檢驗(yàn)。關(guān)這時(shí),0)。2122012 0(kkA 以 x)(Xi x)T,剖分成的形式i 1a11a12a1 pA11A12A1kP1Aa21a22a2pA21A22A2kP2a p1ap2aPP p pAk1Ak2AkkPk也可以計(jì)算樣本相關(guān)陣,并作相應(yīng)剖分:1r121pR1甩R1k

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論