數(shù)理統(tǒng)計--參數(shù)估計、假設(shè)檢驗、方差分析(李志強(qiáng))(3)講解_第1頁
數(shù)理統(tǒng)計--參數(shù)估計、假設(shè)檢驗、方差分析(李志強(qiáng))(3)講解_第2頁
數(shù)理統(tǒng)計--參數(shù)估計、假設(shè)檢驗、方差分析(李志強(qiáng))(3)講解_第3頁
數(shù)理統(tǒng)計--參數(shù)估計、假設(shè)檢驗、方差分析(李志強(qiáng))(3)講解_第4頁
數(shù)理統(tǒng)計--參數(shù)估計、假設(shè)檢驗、方差分析(李志強(qiáng))(3)講解_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、教學(xué)單元案例:參數(shù)估計與假設(shè)檢驗北京化工大學(xué) 李志強(qiáng)教學(xué)內(nèi)容:統(tǒng)計量、抽樣分布及其基本性質(zhì)、點(diǎn)估計、區(qū)間估計、假設(shè)檢驗、方差分析教學(xué)目的:統(tǒng)計概念及統(tǒng)計推斷方法的引入和應(yīng)用(1) 理解總體、樣本和統(tǒng)計量等基本概念;了解常用的抽樣分布;(2) 熟練掌握矩估計和極大似然估計等方法;(3) 掌握求區(qū)間估計的基本方法;(4) 掌握進(jìn)行假設(shè)檢驗的基本方法;(5) 掌握進(jìn)行方差分析的基本方法;(6) 了解求區(qū)間估計、假設(shè)檢驗和方差分析的MATLAB命令。教學(xué)難點(diǎn):區(qū)間估計、假設(shè)檢驗、方差分析的性質(zhì)和求法教學(xué)時間:150分鐘教學(xué)對象:大一各專業(yè)皆可用一、統(tǒng)計問題引例例1已知小麥畝產(chǎn)服從正態(tài)分布,傳統(tǒng)小麥品種

2、平均畝產(chǎn)800斤,現(xiàn)有新品種產(chǎn)量未知,試種10塊,每塊一畝,產(chǎn)量為:775,816,834,836,858,863,873,877,885,901問:新產(chǎn)品畝產(chǎn)是否超過了800斤?一 2例 2 設(shè)有一組來自正態(tài)總體N (崇 )的樣本 0.497, 0.506, 0.518, 0.524, 0.488, 0.510, 0.510,0.512.(i) 已知匚2=0.012,求的95%置信區(qū)間;2(ii) 未知二,求的95%置信區(qū)間;2(iii) 求匚的95%置信區(qū)間。例3現(xiàn)有某型號的電池三批,分別為甲乙丙3個廠生產(chǎn)的,為評比其質(zhì)量,各隨機(jī)抽取5 只電池進(jìn)行壽命測試,數(shù)據(jù)如下表示,這里假設(shè)第i種電池

3、的壽命XiNCli2).工廠壽命/h甲4048384245乙2634302832丙3940435050(1) 試在檢驗水平-0.05下,檢驗電池的平均壽命有無顯著差異(2) 利用區(qū)間估計或假設(shè)檢驗比較哪個壽命最短.二統(tǒng)計的基本概念:總體、個體和樣本(1)總體與樣本總體在數(shù)理統(tǒng)計中,我們將研究對象的某項數(shù)量指標(biāo)的值的全體稱為總體,總體中的每個元素稱為個體比如,對電子元件我們主要關(guān)心的是其使用壽命而該廠生產(chǎn)的所有電子元件的使用壽命取值的全體,就構(gòu)成了研究對象的全體,即總體,顯然它是一個隨機(jī)變量,常用X表示為方便起見,今后我們把總體與隨機(jī)變量X等同起來看,即總體就是某隨機(jī)變量X可能取值的全體.它客觀

4、上存在一個分布,但我們對其分布一無所知,或部分未知,正因為如 此,才有必要對總體進(jìn)行研究簡單隨機(jī)樣本對總體進(jìn)行研究,首先需要獲取總體的有關(guān)信息 一般采用兩種方法:一是全面調(diào)查如人口普查,該方法常要消耗大量的人力、物力、財力有時甚至是不可能的,如測試某廠生產(chǎn)的所有電子元件的使用壽命二是抽樣調(diào)查抽樣調(diào)查是按照一定的方法, 從總體X中抽取n個個體這是我們對總 體掌握的信息數(shù)理統(tǒng)計就是要利用這一信息,對總體進(jìn)行分析、估計、推斷因此,要求抽取的這n個個體應(yīng)具有很好的代表性 按機(jī)會均等的原則隨機(jī)地從客觀存在的總體中抽取一些個體進(jìn)行觀察或測試的過程稱 為隨機(jī)抽樣從總體中抽出的部分個體,叫做總體的一個 樣本從

5、總體中抽取樣本時,不僅要求每一個個體被抽到的機(jī)會均等,同時還要求每次的抽取是獨(dú)立的,即每次抽樣的結(jié)果不影響其他各次的抽樣結(jié)果,同時也不受其他各次抽樣結(jié)果的影響這種抽樣方法稱為簡單隨機(jī)抽樣由簡單隨機(jī)抽樣得到的樣本叫做簡單隨機(jī)樣本往后如不作特別說明,提到“樣本”總是指簡單隨機(jī)樣本從總體X中抽取一個個體,就是對隨機(jī)變量X進(jìn)行一次試驗抽取n個個體就是對隨機(jī)變 量X進(jìn)行n次試驗,分別記為X1,X2,,Xn.則樣本就是 n維隨機(jī)變量(X1,X2,Xn).在一次 抽樣以后,(X1,X2,Xn)就有了一組確定的值(x1,x2,xn),稱為樣本觀測值樣本觀測值(x1,x2,,xn)可以看著一個隨機(jī)試驗的一個結(jié)果

6、,它的一切可能結(jié)果的全體構(gòu)成一個樣本空間,稱為子樣空間(2) 樣本函數(shù)與統(tǒng)計量設(shè)X-X2, xn為總體的一個樣本,稱即 h巒(Xi, X2, , xn )為樣本函數(shù),其中為一個連續(xù)函數(shù)。如果:中不包含任何未知參數(shù),則稱:(x11x2/ ,xn)為一個統(tǒng)計量。2、統(tǒng)計量(1)常用統(tǒng)計量樣本均值-1 ;xxi -n i 4樣本方差1 n -S2 (Xj 一 -)2.n - 1 i 丄(與概率論中的方差定義不同)樣本標(biāo)準(zhǔn)差1(Xi-)2.:n - 1 y樣本k階原點(diǎn)矩1 n kM kXi , k = 12n y樣本k階中心矩1 n - kMk(-i -x) ,k=2,3n y1 n 一(二階中心矩S

7、*2(Xi-X)2與概率論中的方差定義相同)n i呂例6. 2:用測溫儀對一物體的溫度測量5次,其結(jié)果為(C) : 1250, 1265, 1245,1260,1275,求統(tǒng)計計量 X,S2和S的觀察值x,s2和S.(2)統(tǒng)計量的期望和方差2E(X)二-J D(X):nE(S2)L,E(S*2)=g;n2 1 n 2 其中S*2(Xi -X)2,為二階中心矩。n i三X1,X2, ,XnF(x),i.i.d,獨(dú)立同分布。無限總體抽樣。(3)隨機(jī)數(shù)生成在Matlab中各種隨機(jī)數(shù)可以認(rèn)為是獨(dú)立同分布的,即簡單隨機(jī)樣本。以下羅列在Matlab中的實現(xiàn)方法。X1,X2 ,Xn U(0,1),均勻分布樣

8、本n=10;x=ra nd(1, n)Xi,X2, ,Xn U(a,b)n=10;a=_1;b=3;x=ra nd(1, n);x=(b_a)*x+aXi,X2,XnN(0,1),正態(tài)分布樣本n=10;x=ra ndn (1, n)Xi,X2,XnN(a,b2)mu=80.2;sigma=7.6;m=1; n=10;x=n ormrnd(mu,sigma,m, n)上面首先對總體均值賦值 mu=80.2;再對標(biāo)準(zhǔn)差賦值 sigma=7.6; m=1;n=10;分別對生成的 隨機(jī)陣對的行數(shù)和列數(shù)進(jìn)行賦值,然后可直接利用Matlab自帶的函數(shù)normrnd生成正態(tài)分布的隨機(jī)數(shù)。類似地可生成 m行n

9、列的隨機(jī)矩陣,服從指定的分布。生成隨機(jī)數(shù)的函數(shù)后綴都是 rnd, 前綴為分布的名稱。常用分布的隨機(jī)數(shù)產(chǎn)生方法羅列如下,注意使用前先要對參數(shù)賦值。x=betarnd(a,b,m, n)參數(shù)為a,b的beta 分布;x=b inorn d(N,p, m,n)參數(shù)為N,p的二項分布;x=chi2r nd(N, m,n)-2自由度為N的分布;x=expr nd(mu ,m,n)總體期望為mu的指數(shù)分布;x=frnd(n1,n2,m,n)自由度為n1與n2的F分布;x=gamrnd(a,b,m, n)參數(shù)為a,b的-分布;x=log nrn d(mu,sigma, m,n)參數(shù)為mu與sigma的對數(shù)正

10、態(tài)分布;x=poissr nd(mu ,m,n)總體均值為mu的Poisson 分布;x=trnd(N,m, n)自由度為N的T分布;Matlab統(tǒng)計工具箱中還有一些其它分布,不再一一列舉。3、三個抽樣分布(x 2、t、F分布)1.3三個常用分布以下羅列出數(shù)理統(tǒng)計中三個重要分布的概念與性質(zhì)。1.3.12分布定義1.2設(shè)一維連續(xù)型隨機(jī)變量 X的密度函數(shù)為fn(x) = n/2;( n/2)2(1-2 )0,則稱X服從自由度為n的2分布,記為X 2(n)。圖1-22分布密度函數(shù)示意圖(1)期望與方差:E X二n , D X=2n(2) 來源:若X,X2,,Xn N(0,1)獨(dú)立同分布,則X2 X;

11、:;川X: 2(n)(3) 可加性:若Y1 2(nJ,Y2 2(n2),且兩者獨(dú)立,則有丫1 丫2 2(ni 匕)重要結(jié)論:若X1,X2/ ,Xn N(點(diǎn)2),則n_2(n -1)S (Xi -X)22( n-1)i =1以下給出了自由度為5,10,20的2分布的密度函數(shù),如圖1-2所示。1.3.2 t分布定義1.3設(shè)一維連續(xù)型隨機(jī)變量X的密度函數(shù)為fn(X)(1-3)則稱X服從自由度為n的t分布,記為X t(n)。圖1-3 t分布密度函數(shù)與標(biāo)準(zhǔn)正態(tài)分布密度函數(shù)(1)密度函數(shù)特點(diǎn):與標(biāo)準(zhǔn)正態(tài)分布類似,方差較大。n“ 時,X2(x)二2:e 2(標(biāo)準(zhǔn)正態(tài)分布密度函數(shù))(2)來源:設(shè)X N(0,1

12、),Y 2(n),且兩者獨(dú)立,則X,Y/n t(n)(3) 重要結(jié)論:設(shè) Xi,X2,, Xn N(*2),則t(n -1)1.3.3 F分布定義1.4設(shè)一維連續(xù)型隨機(jī)變量X的密度函數(shù)為其中常數(shù)cx(1-4 )0,n1-(號)“2 F(n!,n2)。則稱X服從第一自由度n 1,第二自由度n2的F分布,記為(1)密度函數(shù)特點(diǎn):在 x =1附近密度函數(shù)取值較大,為單峰非對稱的。當(dāng)兩個自由度都很大時,X取值以較大概率集中在 x二1附近。以下畫出了 F (8,12)的密度函數(shù)X 2(n 1),丫2(n2),且兩者獨(dú)立,則(2)來源:設(shè)(3)重要結(jié)論:F 二丫 F(nn2)丫 /n2設(shè)X1,X2/ Xn

13、1為來自總體N(7,2)的簡單隨機(jī)樣本,丫|,丫2,,丫n2為來自總體Nj,,;擰)的簡單隨機(jī)樣本,且兩者獨(dú)立。又設(shè)兩個樣本方差分別為2,S2 與 s;,S2/S;”話F(n1仆-1)三、點(diǎn)估計的兩種方法(1)矩法所謂矩法就是利用樣本各階原點(diǎn)矩代替相應(yīng)的總體矩,來建立估計量應(yīng)滿足的方程,從而求得未知參數(shù)估計量的方法。設(shè)總體X的分布中包含有未知數(shù)“,二2,Cm,則其分布函數(shù)可以表成kF(X;九鮎Rm).顯示它的k階原點(diǎn)矩Vk = E(X )(k=1,2,m)中也包含了未知參數(shù)刊,6,,即Vk二VkCiC2,Cm)。又設(shè)XX2,Xn為總體X的n個樣本值,其 樣本的k階原點(diǎn)矩為A 1 n kVkXi

14、k(k=1,2, ,m).n i 4這樣,我們按照“當(dāng)參數(shù)等于其估計量時,總體矩等于相應(yīng)的樣本矩”的原則建立方程,即 有A AA 1 nVi 但 i,日 2,,)=送 X,n yA AA 1 n 2V2(,日2,日 m) = - X , n i =iA AA 1 n mVm(&1,&2,Qm)=-遲 Xi . In yA. A.A由上面的m個方程中,解出的 m個未知參數(shù)(宀,二2,rm)即為參數(shù)(宀門2,Cm)的 矩估計量。例7. 1:設(shè)總體X P(),求對的矩估計量。(2)最大似然法所謂最大似然法就是當(dāng)我們用樣本的函數(shù)值估計總體參數(shù)時,應(yīng)使得當(dāng)參數(shù)取這些值 時,所觀測到的樣本出現(xiàn)的概率為最大

15、。當(dāng)總體X為連續(xù)型隨機(jī)變量時,設(shè)其分布密度為f(X; V 1 , V 2 ,Cm),其中-1戶2,戶m為未知參數(shù)。又設(shè) X ,X2, , Xn為總體的一個樣本,稱Ln(“,R,Cm) =一 f(Xi;“ ,E,,對)i 4為樣本的似然函數(shù),簡記為Ln.當(dāng)總體X為離型隨機(jī)變量時,設(shè)其分布律為PX二X二p(x;R ,一,Jm),則稱nL(Xi,X2,Xn;r“2,Jm)P(Xi;宀,如)i=1為樣本的似然函數(shù)。若似然函數(shù)L(XX2,Xn;*6,Cm)在二1門2,,九處取到最大值,則稱A AAR,d2,,hm分別為R,d 2,Rm的最大似然估計值,相應(yīng)的統(tǒng)計量稱為最大似然估計量。我們把使Ln達(dá)到最大

16、的 力門2,,=m分別作為比,九,宀皿的估計量的方法稱為最大似然 估計法。由于Inx是一個遞增函數(shù),所以 Ln與In Ln同時達(dá)到最大值。我們稱ln Ln= 0,i =1,2,為似然方程。由多元微分學(xué)可知,由似然方程可以求出 比-(x-x?,xn)(i =1,2,m)為二i的最大似然估計量。容易看出,使得Ln達(dá)到最大的 小也可以使這組樣本值出現(xiàn)的可能性最大。2、估計量的評選標(biāo)準(zhǔn)(1)無偏性定義1.5 設(shè)總體X含有未知參數(shù) 二,X1,X2/ ,Xn為來自總體的簡單隨機(jī)樣本,又設(shè)?二?(X-X2,,Xn)為二的一個估計量。若在給定范圍內(nèi)無論二如何取值,總有E J馬-v,則稱為v的一個無偏估計量;若

17、E J勺北二,則稱彳為二的一個有偏估計量。注意無偏估計的含義是:由于樣本的隨機(jī)性,估計值有時候偏大,有時候偏小,多次估 計的平均值才能靠近真實的未知參數(shù)值。若總體X的均值E (X)和方差D (X )存在,則樣本均值X和樣本方差S2分別為E (X) 和D (X)的無偏估計,即 2E( X)=E(X), E(S)=D(X)。無論無偏估計還是有偏估計,可以統(tǒng)一使用“均方誤差” MSE評價:MSE(外二 E(-2 = DJ 外 h - E/細(xì)2( 2-1 )對于無偏估計,卩-2 =0,但(另可能很大,果真如此,它就不是一個好的估計量。反之,對于有偏估計,雖然卜_E(?2=0,但如果與D(詢相加之后MS

18、E(劣 仍然較小,則它就是一個較好的估計量。例2.1 設(shè)總體X 2(n),XX2,,X20為來自總體的簡單隨機(jī)樣本,欲估計總體均值.L (注意n未知),比較以下三個點(diǎn)估計量的好壞:1 ?! =101X! -100X2,?2 =-(X (1o)- X(11),?3 二 X解 本例題給出了利用 MSE評價點(diǎn)估計量的隨機(jī)模擬方法。由于 2(n)的總體均值為n,因此我們可以先取定一個固定值,例如n二 = 5,然后在這個參數(shù)已知且固定的總體中抽取容量為20的樣本,分別用樣本值依照三種方法分別計算估計值(注意誰也別偷看 底牌n = 4。=5),看看哪種方法誤差大,哪種方法誤差小。一次估計的比較一般不能說明

19、 問題,正如低手射擊也可能命中10環(huán),高手射擊也可能命中9環(huán)。如果連續(xù)射擊1萬次,比較總環(huán)數(shù)(或平均環(huán)數(shù)),多者一定是高手。同理,如果抽取容量為 20的樣本N= 10000 次,分別計算1 N 2 MSE(氣一送吆(k) %2N心小者為好。N=10000; m=5; n=20;mse1=0; mse2=0; mse3=0;for k=1:Nx=chi2rnd(m,1, n);m1=101*x(1)-100*x(2); m2=media n( x);m3=mea n( x);mes1=mse1+(m1-m)A2; mes2=mse2+(m2-m)A2;mes3=mse3+(m3-m)A2;end

20、 mse仁mes1/Nmse2=mes2/Nmse3=mes3/N以上程序保存為 ex21.m,命令窗口中鍵入 ex21,運(yùn)算結(jié)果為msel =58.1581mse2 =7.8351e-005mse3 =9.4469e-006可見第一個雖為無偏估計量,但MSE極大,表現(xiàn)很差。第二個雖為有偏估計,但表現(xiàn)與第三個相差不多,也是較好的估計量。另外,重復(fù)運(yùn)行ex21,每次的結(jié)果是不同的,但優(yōu)劣表現(xiàn)幾乎是一致的。例2.2 設(shè)XX2,X5。為來自0門上服從均勻分布的總體的簡單隨機(jī)樣本,容易得到未知參數(shù)的矩估計量聽=2X,最大似然估計量 = max(X1,X2,,X50),試用隨機(jī)模擬的方法比較兩者的優(yōu)劣。

21、解 不妨設(shè)v - 5,以下程序給出了兩者的評價。s=5;N=10000;mse1=0; mse2=0;for k=1:Nx=5.*ran d(1,50);s1= 2*mea n( x);s2=max(x);mse 仁mse1+(s1-s)2;mse2=mse2+(s2-s)A2;endmse1=mse1/N; mse2=mse2/N;mse1,mse2參考運(yùn)行結(jié)果:0.16550.0186本例中,最大似然估計精度較高。注意矩法估計量是無偏估計,本例中最大似然估計量顯然是有偏估計,且一定是偏小的。(2)有效性設(shè)二1 -6(X1,X,2,Xn)和二2 2(X1,X,2,Xn)是未知參數(shù) 二的兩個無

22、偏估計” AAA A量。右D(T 1 ) :: D V 2,則稱V 1比V 2有效。例7. 2 :設(shè)Xi,X,2,,Xn是總體的一個樣本,試證下列式子并比較有效性。A.131(1)J1X1X2+ X3;5102A115(2)-2X1-X2+ X3;3412A131(3)-3X1X2X3.34-12(3) 一致性(相合性)設(shè)v n是V的一串估計量,如果對于任意的正數(shù);,都有A lim P(|dn - 二 I 0=0, n :.則稱巧為二的一致估計量(或相合估計量)。3、區(qū)間估計所謂區(qū)間估計,就是用兩個估計量 $與礙估計未知參數(shù)日,使得隨機(jī)區(qū)間 包含未知參數(shù)的概率為指定的1 -二。即:P4 專:誇

23、)_ 1 _ :稱滿足上述條件的區(qū)間(,)為二的置信區(qū)間,稱1 -=為置信水平。 限,纟稱為置信上限。(岡,區(qū))能夠需稱為置信下3.1單正態(tài)總體均值的置信區(qū)間2 2(1)方差二-0已知情形z-亠a查表求U 一滿足:對于 N(0,1),P( -.)。(上分位數(shù))-222厶2對于總體N(6)中的樣本X1,X2/ ,Xn的置信區(qū)間為: a. a.(X -Ua, X 十Ua) w n ? P n $其中U可以用norminv(1-a /2)計算。(2-4)2例2.3 設(shè)1.1,22, 3,3, 4.4, 5.5為來自正態(tài)總體 N(山2.32)的簡單隨機(jī)樣本,求 二的置信水平為95%的置信區(qū)間。 解以下

24、用Matlab命令計算:x=1.1,2.2,3.3,4.4,5.5;n=len gth(x) ;m=mea n(x);c=2.3/sqrt( n);d=c* normi nv(0.975);a=m-d; b=m+d;a,b計算結(jié)果為1.2840 5.3160(2)方差二2未知情形對于總體NCU2)中的樣本XX2,,Xn的置信區(qū)間為:(2-4)其中r.為自由度n-1的t分布臨界值。2數(shù)據(jù)同上,繼續(xù)利用Matlab計算S=std(x); dd=S*ti nv(0.975,4)/sqrt( n);aa=m-dd; bb=m+dd; aa,bb結(jié)果為 1.14045.45963.2單正態(tài)總體方差的置信

25、區(qū)間1 n _由于W 2v(Xj-X)2 2(n-1),查表求臨界值c1與c2,使得則二2的置信區(qū)間為(2-5)1 2 1 2 (n-1)S2,- (n -1)S2)c2c1其中查表可用chi2inv進(jìn)行。數(shù)據(jù)同上,以下求二2的置信區(qū)間。c1=ch i2in v(0.025,4);c2=ch i2in v(0.975,4);T=( n-1)*var(x); aaa=T/c2; bbb=T/c1; aaa,bbb計算結(jié)果為1.0859 24.97843.3兩正態(tài)總體均值差的置信區(qū)間(1)方差已知情形2 2,此時設(shè) XX2, ,XmN(叫,G),丫1,丫2, ,YnN(2f2),兩樣本獨(dú)立叫-七的

26、置信區(qū)間為X 一丫 -u:_ 1 :- 2+弔,X -丫+U斜 m n(2-6)這里我們已經(jīng)知道 u-.可用normi nv(0.975)求得,Matlab計算很容易。(2)方差未知但相等:匚2此時叫-的置信區(qū)間為X -Y -r C , X - Y t.C2(2-7)1 . 1 (m1)S2 (n-1)S;m + n _2,而t.依照自由度m,n-2計算。3.4兩正態(tài)總體方差比的置信區(qū)間此時,查自由度為(m -1, n -1)的F分布臨界值表,使得P(c1 : F : c21 -:2 2則1 /;2的置信區(qū)間為:S2 / S;c2s12/s2c1(2-7)例2.4 設(shè)兩臺車床加工同一零件,各加

27、工8件,長度的誤差為:0.050.070.210.610.821.24A: -0.12-0.80-0.05-0.04-0.01B: -1.50-0.80-0.40-0.100.20求方差比的置信區(qū)間。解 用Matlab計算如下:x=-0.12,-0.80,-0.05,-0.04,-0.01,0.05,0.07,0.21;y=-1.50,-0.80,-0.40,-0.10,0.20,0.61,0.82,1.24; v1=var(x); v2=var(y);c仁fin v(0.025,7,7);c2=fi nv(0.975,7,7);a=(v1/v2)/c2;b=(v1/v2)/c1; a,b計算

28、結(jié)果為: 0.02290.5720方差比小于1的概率至少達(dá)到了95%,說明車床A的精度明顯高。三 假設(shè)檢驗(換令一個講)3.1假設(shè)檢驗的基本概念例3.1 已知小麥畝產(chǎn)服從正態(tài)分布,傳統(tǒng)小麥品種平均畝產(chǎn)800斤,現(xiàn)有新品種產(chǎn)量未知,試種10塊,每塊一畝,產(chǎn)量為:775,816,834,836,858,863,873,877,885,901問:新產(chǎn)品畝產(chǎn)是否超過了800斤?假設(shè)檢驗就是概率意義上的反證法。要證明命題 H1: J 800 ,可以首先假設(shè) H。:J =800。本體中容易計算樣本均值超過 800 了,有沒有可能超過800的原因是由于抽樣的 隨機(jī)性引起的?是否總體均值根本沒有變化?我們看如

29、下的統(tǒng)計量:T _ X - 800S/石容易看出,如果新品種確有增產(chǎn)效應(yīng),T應(yīng)偏大,不利于 H。,取=0.05,查表求臨界值t -.,使得P(T )二:,即構(gòu)造不利于 H。,有利于H1的小概率事件,如果在一次試驗中 該小概率事件發(fā)生了,就有理由拒絕H。,認(rèn)為Hj成立。嚴(yán)格邏輯意義上的反證法思路如下:欲證H1成立,先假設(shè)其否命題H0成立,然后找出邏輯意義上的矛盾,從而推翻H。成立,嚴(yán)格證明H1成立。假設(shè)檢驗的思路類似,只不過引出的不是矛盾,而是小概率事件在一次實驗中發(fā)生。我們稱想要證明的命題H1為備擇假設(shè),對立的命題 H0稱為原假設(shè),面對樣本,我們必須表態(tài)是接受原假設(shè)還是拒絕原假設(shè),這有可能出現(xiàn)

30、兩類錯誤。如果客觀上原假設(shè)的確成第一類錯誤,發(fā)立,面對樣本的異常我們拒絕了原假設(shè),這種“以真為假”的錯誤我們稱為 生的概率用:-表示;如果客觀上備擇假設(shè)成立,我們卻接受了原假設(shè),這種“以假為真”的錯誤我們稱為第二類錯誤,用發(fā)生的概率用 1表示。假設(shè)假設(shè)檢驗一般首先控制第一類 錯誤,即:當(dāng)我們拒絕原假設(shè)時有比較充足的理由,犯錯誤的概率不超過預(yù)設(shè)的 :,稱:為顯著性水平。常用的顯著性水平有:=0.1, 0.05, 0.01這種預(yù)設(shè)顯著性水平:的假設(shè)檢驗也稱為顯著性檢驗,以后我們提到的假設(shè)檢驗都是顯著性檢驗。對于顯著性檢驗,當(dāng)接受原假設(shè)時,可以認(rèn)為是拒絕的證據(jù)不足。3.2正態(tài)總體參數(shù)的假設(shè)檢驗321

31、單正態(tài)總體均值的假設(shè)檢驗設(shè)XX2,Xn為來自正態(tài)總體 N(*;2)簡單隨機(jī)樣本,為我們關(guān)心的已知的值,原假設(shè)為:H。: - J(1)方差已知情形X -卩0此時,檢驗統(tǒng)計量為U. 0 , Ho成立時u N(0,1),依據(jù)備擇假設(shè)的不同提法, /J n分三種情況分別給出拒絕域。1) 雙側(cè)檢驗 備擇假設(shè) 比:一-0拒絕域:|U卜u2這種情形我們關(guān)心的是總體均值是否發(fā)生了變化,增多減少都是我們同等關(guān)注的。例如要研究某種藥物的副作用,是否引起血壓的變化,變大變小都是副作用,如果實驗證明了確有副作用,就該停產(chǎn)或慎用。2) 單側(cè)檢驗(右側(cè))備擇假設(shè)J 拒絕域:U 7:.這種情形我們關(guān)心的是總體均值是否有增加

32、效應(yīng),例如小麥畝產(chǎn)。無增產(chǎn)效應(yīng)或者減 產(chǎn)都是我們不希望看到的,我們希望證明的是增產(chǎn)了。3) 單側(cè)檢驗(左側(cè))備擇假設(shè)比:化 拒絕域:U : - U:.這種情形我們希望看到總體均值變小了。每匹布上疵點(diǎn)的個數(shù)。新工藝后是否有減少。(2)方差未知情形原假設(shè)H。:-X _巴此時,檢驗統(tǒng)計量為T0,H0成立時T t(n -1),依據(jù)備擇假設(shè)的不同提法,S/J n分三種情況分別給出拒絕域。雙側(cè)檢驗備擇假設(shè)比:拒絕域:|T|t.2單側(cè)檢驗(右側(cè))備擇假設(shè)比:- o拒絕域:T t:單側(cè)檢驗(左側(cè))備擇假設(shè)已:0拒絕域:T : -t其實,上一章中區(qū)間估計與這里的雙側(cè)檢驗本質(zhì)上是相同的:區(qū)間套中0接受原假設(shè),沒套

33、中則拒絕原假設(shè)。只不過檢驗統(tǒng)計量的計算更簡單些。 類似于單側(cè)檢驗,也可以有單側(cè) 區(qū)間估計。322單正態(tài)總體方差的假設(shè)檢驗設(shè)Xi,X2,Xn為來自正態(tài)總體 N(d; CT)簡單隨機(jī)樣本,二為我們關(guān)心的已知的值,原假設(shè)為 H: c - ; ,檢驗統(tǒng)計量為22 (n -1)S_ 2n (Xi -X)2i 4當(dāng)H成立時,2 2(n -1),由此可查 2(n -1)臨界值表,構(gòu)造拒絕域。(1)雙側(cè)檢驗此時備擇假設(shè)為Hi:匚北匚,也就是說,我們希望通過樣本找到總2體方差比較-0有明顯變化的證據(jù),無論變大變小都是我們希望證明的。aa此時取臨界值c1與c2,使得P ( 2乞c1),P( 2 - c1),拒絕域

34、為:2 : c122(方差變小了),或者 2 c2 (方差變大了)。當(dāng)n已經(jīng)賦值的時候,執(zhí)行如下Matlab命令可得到臨界值。a=0.05, n=20, c1=chi2i nv(a/2, n-1), c2=ch i2in v(1-a/2, n-1),(2 )單側(cè)檢驗(右側(cè))此時備擇假設(shè)為 比:匚 二o,也就是說,我們關(guān)心的是方差是否變大了。此時臨界值為c滿足P( 2 c -,可用c=chi2in v(1-a, n-1)(3 )單側(cè)檢驗(左側(cè))此時備擇假設(shè)為 H1 : ;: ;0,也就是說,我們關(guān)心的是方差是否變小了。此時臨界值為c滿足P( 2 : c) =,可用c=chi2 in v(a ,n

35、-1)3.2.3兩正態(tài)總體均值的假設(shè)檢驗設(shè)X1,X2 / ,Xm為來自正態(tài)總體 N( %;擰)的簡單隨機(jī)樣本,,丫2,Yn為來自正2態(tài)總體N(2,二2 )的簡單隨機(jī)樣本,且兩樣本獨(dú)立。為比較兩個總體的期望, 提出如下原假設(shè):Ho : .!_:1 =2與前面類似,備擇假設(shè)有雙側(cè)、單側(cè)(左側(cè)、右側(cè))等提法。(1)方差已知情形此時檢驗統(tǒng)計量為uX -Y_2_2 ,當(dāng)12mnHo成立時U服從標(biāo)準(zhǔn)正態(tài)分布,臨界值 u:.,u 一.含義及計算方法同前。2此時原假設(shè)仍為Ho:亠二丄2,備擇假設(shè)同樣有三種提法。檢驗統(tǒng)計量為:(m n -2)雙側(cè)檢驗H1:丄1 -2,拒絕域:|U | u右側(cè)檢驗H1:丄1勺丄2

36、,拒絕域:U u左側(cè)檢驗H1:亠”:2,拒絕域:U : -u方差未知但相等情形;一 1 -;2 -廠1)a(2)a2當(dāng)Ho成立時T t(m n -2),由此得臨界值21)雙側(cè)檢驗Hi:叫-一 2,拒絕域:|T| J.2)右側(cè)檢驗Hi:-2,拒絕域:)左側(cè)檢驗Hi:匕:::2,拒絕域:324兩正態(tài)總體方差的假設(shè)檢驗設(shè)X1,X2/ ,Xm為來自正態(tài)總體N( %二1 )的簡單隨機(jī)樣本,丫1,丫2,,丫n為來自正 態(tài)總體N(J,二;)的簡單隨機(jī)樣本,且兩樣本獨(dú)立。為比較兩個總體的方差, 提出如下原假 設(shè):十2什2Ho : J 12與前面類似,備擇假設(shè)有雙側(cè)、單側(cè)(左側(cè)、右側(cè))等提法。此時檢驗統(tǒng)計量為

37、FSf/S;,當(dāng)H0成立時,F(xiàn) F(m -1, n 1),在Matlab中,如果m,n已經(jīng)賦值,例如 m=8,n=10則c1=finv(0.025,7,9), c2=finv(0.975,7,9)分別給出了=0.05時的兩個臨界值,雙側(cè)檢驗的拒絕域為F:c1或F .c2。c3=fi nv(0.05,7,9)給出了左側(cè)檢驗臨界值,F(xiàn) : c3時拒絕原假設(shè),認(rèn)為備擇假設(shè)比:二成立。c4=fin v(0.95,7,9)給出了右側(cè)檢驗臨界值,F(xiàn)c4時拒絕原假設(shè),認(rèn)為備擇假設(shè)比:二;.;打成立。325大樣本非正態(tài)總體均值的假設(shè)檢驗設(shè)XX2,Xn為來自非正態(tài)總體的簡單隨機(jī)樣本,設(shè)總體均值與總體方差匚2有限

38、,原假設(shè)H0:JX 卩此時可以將u作為近似的檢驗統(tǒng)計量,當(dāng)樣本容量很大時(例如100),由S/ . n中心極限定理知 H0成立時U近似服從標(biāo)準(zhǔn)正態(tài)分布,可以仿照3.2.1小節(jié)中的算法檢驗如下三個備擇假設(shè):比:% ;H1:丄弐-0 ; H1:二 ” -0設(shè)X1,X2 / ,Xm為來自非正態(tài)總體的簡單隨機(jī)樣本, 丫1,丫2,,丫n為來自非正態(tài)總體 的簡單隨機(jī)樣本,且兩樣本獨(dú)立。兩個總體有有限的均值與方差,均值為打與2,為比較兩個總體的期望,提出如下原假設(shè):H0 : -= J2與前面類似,備擇假設(shè)有雙側(cè)、單側(cè)(左側(cè)、右側(cè))等提法。此時可以將近似作為檢驗統(tǒng)計量,當(dāng)兩個樣本容量都很大時(例如100),由

39、中心極限定理知H。成立時U近似服從標(biāo)準(zhǔn)正態(tài)分布,可以仿照3.2.3小節(jié)中的算法檢驗如下三個備擇假設(shè):H1:叫-,;H1: 、 -2 ;H1:亠:J3.5總體分布的假設(shè)檢驗設(shè)X1,X2/ ,Xn為來自總體F(x)的簡單隨機(jī)樣本,F(xiàn)(x)為已知的一個固定的分布 函數(shù),要進(jìn)行如下的檢驗:H0: F(x)=F0(x)H1: F(x)=F0(x)對此檢驗問題,有兩種常用的方法。100。對總體分布進(jìn)行假設(shè)檢驗,一般要求樣本容量較大,例如至少3.5.12檢驗取正整數(shù) m : . n/2 ,將樣本排序為X(1)_ X(2)_-X(n),將區(qū)間X,X(n) m 1等分,分點(diǎn)為ti = X(1)X(n)- X(1

40、),i = 1,2; , mm +1這m個分點(diǎn)將(:)分割為m 1個小區(qū)間,二1 =( - 二角,二 2 = (t1, t2,二 m = (tm d ,tm,二 m 1 = (tm :)m*V記v為落入Ai的樣本點(diǎn)的個數(shù),顯然瓦Vi =n,稱丄為X落入也i的頻率。Pi = P(X E也i)i 二n表示Ho成立時X落入.訂的概率,即p1 = Fo(t1),P2 =Fo(t2)- Fo(t1),Pm = Fo(tm) - Fo(tm),Pm 1 二1 - F0(tm)檢驗統(tǒng)計量取為:m: :1V八i =1nPiidnp2可以證明,當(dāng)Ho成立時V近似服從自由度為 m的2分布,對于顯著性水平,取臨界值

41、vO=ch i2in v(1-alpha,m)當(dāng)VvO時,拒絕Ho。四單因素方差分析5.1.1方差分析的基本概念在實際問題中,人們常常需要在不同的條件下對所研究的對象進(jìn)行對比試驗,從而得 到若干組數(shù)據(jù)(樣本)。方差分析就是一種分析、處理多組實驗數(shù)據(jù)間均值差異的顯著性的 統(tǒng)計方法。其主要任務(wù)是,通過對數(shù)據(jù)的分析處理,搞清楚各實驗條件對實驗結(jié)果的影響, 以便更有效地指導(dǎo)實踐,提高經(jīng)濟(jì)效益或者科研水平。在統(tǒng)計中,人們稱受控制的條件為因素,因素所處的狀態(tài)稱為 水平。如果只讓一個因素變動,取該因素的多個不同水平進(jìn)行試驗,而其他因素保持不變,稱該試驗為單因素試驗。例如小麥種植產(chǎn)量,只考慮“品種”這一因素,

42、研究4個不同品種產(chǎn)量的差異,其它諸如施肥方案、灌溉方案等因素保持一致,就是一個4水平單因素試驗。如果同時考慮兩個因素,例如 4個小麥品種在3種不同施肥方案下的產(chǎn)量,就是一個雙 因素試驗。對于r組實驗數(shù)據(jù),我們假定都來自正態(tài)總體, 并且具有相同的方差(稱為方差齊性) 要檢驗這相互獨(dú)立的 r個正態(tài)總體N(叫,;2) i =1,2, ,r均值間有無差異,即:H 0: 叫= =;前面我們講過兩正態(tài)總體均值的假設(shè)檢驗,有Hi:諸叫不全相同T檢驗的方法。自然有一個想法,對于1 j tOP=P+1;endendP=P/N執(zhí)行上述程序,發(fā)現(xiàn)每次頻率都在0.05附近,說明上述兩個正態(tài)總體均值的T檢驗的確是水平為

43、=0.05的檢驗。我們設(shè)想有8組數(shù)據(jù),客觀上都是來自標(biāo)準(zhǔn)正態(tài)分布,沒有差異,每組樣本容量都是10?,F(xiàn)在用前述“兩兩 T檢驗法”進(jìn)行檢驗,下述程序計算出了萬次模擬中拒絕的頻率。N=10000;n=10; r=8;alpha=0.05;t0=t in v(1-alpha/2, n+n-2);P=0;for k=1:Nx=randn( 8,10);E=mea n( x,2);EE,l=sort(E);X=x(l,:);T=t2test(X(1,:),X(8,:);if abs(T)t0P=P+1;endendP=P/N;上述程序模擬發(fā)現(xiàn),拒絕頻率大約在0.45左右,嚴(yán)重偏離0.05,說明依照“兩兩

44、T檢驗”犯第一類錯誤的概率嚴(yán)重增大,判定結(jié)果很不可靠。對于8組數(shù)據(jù),兩兩比較共C; =28種組合,若每種組合接受原假設(shè)的概率為0.95,則28種組合都接受原假設(shè)的概率大致估計為0.9528 =0.2378,拒絕概率大致估計為 0.76。由于相關(guān)性,拒絕概率沒有達(dá)到0.76,但0.45也相當(dāng)大了。為了避免上述問題的出現(xiàn),1923年,波蘭數(shù)學(xué)家A.Fisher提出了方差分析(Analysis ofVarianee 簡稱ANOVA)法,可以同時判定多組數(shù)據(jù)均值間差異的顯著性檢驗問題。其檢 驗統(tǒng)計量在H。成立時服從F分布,這里F分布就是以Fisher姓氏的第一個字母命名的。512單因素方差分析的計算設(shè)有r組數(shù)據(jù),表示因素A的r個水平,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論