概率論與數(shù)理統(tǒng)計(jì)第8章 方差分析與回歸分析_第1頁(yè)
概率論與數(shù)理統(tǒng)計(jì)第8章 方差分析與回歸分析_第2頁(yè)
概率論與數(shù)理統(tǒng)計(jì)第8章 方差分析與回歸分析_第3頁(yè)
概率論與數(shù)理統(tǒng)計(jì)第8章 方差分析與回歸分析_第4頁(yè)
概率論與數(shù)理統(tǒng)計(jì)第8章 方差分析與回歸分析_第5頁(yè)
已閱讀5頁(yè),還剩114頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、8.1 方差分析8.2 多重比較8.3 方差齊性分析8.4 一元線性回歸8.5 一元非線性回歸 8.1.1 問題的提出 實(shí)際工作中我們經(jīng)常碰到多個(gè)正態(tài)總體均值的比較問題,處理這類問題通常采用所謂的方差分析方法。 例8.1.1 在飼料養(yǎng)雞增肥的研究中,某研究所提出三種飼料配方:A1是以魚粉為主的飼料,A2是以槐樹粉為主的飼料,A3是以苜蓿粉為主的飼料。為比較三種飼料的效果,特選 24 只相似的雛雞隨機(jī)均分為三組,每組各喂一種飼料,60天后觀察它們的重量。試驗(yàn)結(jié)果如下表所示: 飼料A雞 重(克)A110731009106010011002101210091028A21107109299011091

2、090107411221001A310931029108010211022103210291048 本例中,我們要比較的是三種飼料對(duì)雞的增肥作用是否相同。為此,把飼料稱為因子,記為A,三種不同的配方稱為因子A的三個(gè)水平水平,記為A1, A2, A3,使用配方Ai下第 j 只雞60天后的重量用yij表示,i=1, 2, 3, j=1, 2, 10。我們的目的是比較三種飼料配方下雞的平均重量是否相等,為此,需要做一些基本假定,把所研究的問題歸結(jié)為一個(gè)統(tǒng)計(jì)問題,然后用方差分析的方法進(jìn)行解決。 在例8.1.1中我們只考察了一個(gè)因子,稱其為單因子試驗(yàn)。 通常,在單因子試驗(yàn)中,記因子為 A, 設(shè)其有r個(gè)水

3、平,記為A1, A2, Ar,在每一水平下考察的指標(biāo)可以看成一個(gè)總體 ,現(xiàn)有 r 個(gè)水平,故有 r 個(gè)總體, 假定:1)每一總體均為正態(tài)總體,記為 N(i , i 2), i1, 2, r ;2)各總體的方差相同: 1 2= 22= r2 = 2 ;3)從每一總體中抽取的樣本是相互獨(dú)立的, 即所有的試驗(yàn)結(jié)果 yij 都相互獨(dú)立。 我們要比較各水平下的均值是否相同, 即要對(duì)如下的一個(gè)假設(shè)進(jìn)行檢驗(yàn): H0 :1 =2 =r (8.1.1) 備擇假設(shè)為H1 :1, 2, , r 不全相等 在不會(huì)引起誤解的情況下, H1 通??墒÷圆粚?。 如果H0成立,因子A的r個(gè)水平均值相同,稱因子A的r個(gè)水平間沒

4、有顯著差異,簡(jiǎn)稱因子A不顯著;反之,當(dāng)H0不成立時(shí),因子A的r個(gè)水平均值不全相同,這時(shí)稱因子A的不同水平間有顯著差異,簡(jiǎn)稱因子A顯著。 為對(duì)假設(shè)(8.1.1)進(jìn)行檢驗(yàn),需要從每一水平下的總體抽取樣本,設(shè)從第i個(gè)水平下的總體獲得m個(gè)試驗(yàn)結(jié)果,記 yij 表示第i個(gè)總體的第j次重復(fù)試驗(yàn)結(jié)果。共得如下n=rm個(gè)試驗(yàn)結(jié)果:yij, i1, 2, r , j1, 2, , m, 其中r為水平數(shù),m為重復(fù)數(shù),i為水平編號(hào), j 為重復(fù)編號(hào)。 在水平Ai下的試驗(yàn)結(jié)果yij與該水平下的指標(biāo)均值 i 一般總是有差距的,記 ij = yiji, ij 稱為隨機(jī)誤差。于是有 yij = i +ij (8.1.2)

5、(8.1.2)式稱為試驗(yàn)結(jié)果 yij 的數(shù)據(jù)結(jié)構(gòu)式。 單因子方差分析的統(tǒng)計(jì)模型: (8.1.3) 總均值與效應(yīng): 稱諸 i 的平均 為總均值. 稱第 i 水平下的均值 i 與總均值 的差: ai=i - 為 Ai 的效應(yīng)。 2,1,2,., ,1,2,.,(0,)ijiijijyir jmN諸相互獨(dú)立,且都服從1111(.)rriirr 模型(8.1.3)可以改寫為 (8.1.8) 假設(shè)(8.1.1)可改寫為 H0 :a1 =a2 =ar =0 (8.1.9) 12,1,2,., ,1,2,.,0N(0,)ijiijriiijyair jma相互獨(dú)立,且都服從一、試驗(yàn)數(shù)據(jù) 通常在單因子方差分析

6、中可將試驗(yàn)數(shù)據(jù)列成如下頁(yè)表格形式。表8.1.2中的最后二列的和與平均的含義如下:.111,2,miiijijriiTTyyirmTTTTyr mnnr m總試驗(yàn)次數(shù)因子水平 試 驗(yàn) 數(shù) 據(jù) 和 平均 A1y11 y12 y1m T1A2y21 y22 y2mT2Aryr1 yr2 yrmTrT1y2yyry 數(shù)據(jù)間是有差異的。數(shù)據(jù)yij與總平均 間的偏差可用yij 表示,它可分解為二個(gè)偏差之和 (8.1.10) 記二、組內(nèi)偏差與組間偏差.()()ijijiiyyyyyy.1111111,mrrmiijiijjiijmrnyy 由于 (8.1.11) 所以yij - 僅反映組內(nèi)數(shù)據(jù)與組內(nèi)平均的隨

7、機(jī)誤差,稱為組內(nèi)偏差;而 (8.1.12) 除了反映隨機(jī)誤差外,還反映了第i個(gè)水平的效應(yīng),稱為組間偏差。.()()ijiiijiiijiyyijy.()()iiiiiyya. iyy在統(tǒng)計(jì)學(xué)中,把k個(gè)數(shù)據(jù)y1 , y2 , , yk分別對(duì)其均值 =(y1+ + yk )/k 的偏差平方和 稱為k個(gè)數(shù)據(jù)的偏差平方和,它常用來度量若干個(gè)數(shù)據(jù)分散的程度。三、偏差平方和及其自由度y22211()()()kkiiQyyyyyy在構(gòu)成偏差平方和Q的k個(gè)偏差y1 , , yk 間有一個(gè)恒等式 ,這說明在Q中獨(dú)立的偏差只有k1個(gè)。在統(tǒng)計(jì)學(xué)中把平方和中獨(dú)立偏差個(gè)數(shù)稱為該平方和的自由度,常記為f,如Q的自由度為f

8、Q=k1。自由度是偏差平方和的一個(gè)重要參數(shù)。 yy1()0kiiyy各yij間總的差異大小可用總偏差平方和 表示,其自由度為fT=n1; 四、總平方和分解公式 僅由隨機(jī)誤差引起的數(shù)據(jù)間的差異可以用 組內(nèi)偏差平方和 表示, 也稱為誤差偏差平方和,其自由度為 fe=nr ;211()rmTijijSyy 2.11()rmeijiijSyy由于組間差異除了隨機(jī)誤差外,還反映了效應(yīng)間的差異,故由效應(yīng)不同引起的數(shù)據(jù)差異可用組間偏差平方和 表示,也稱為因子A的偏差平方和,其自由度為 fA=r1; 2.1()rAiiSmyy定理8.1.1 在上述符號(hào)下,總平方和ST可以分解為因子平方和SA與誤差平方和Se之

9、和,其自由度也有相應(yīng)分解公式,具體為: ST =SA +Se , fT =fA +fe (8.1.16) (8.1.16)式通常稱為總平方和分解式。 偏差平方和Q的大小與自由度有關(guān),為了便于在偏差平方和間進(jìn)行比較,統(tǒng)計(jì)上引入了均方和的概念,它定義為MS=Q/fQ ,其意為平均每個(gè)自由度上有多少平方和,它比較好地度量了一組數(shù)據(jù)的離散程度。 如今要對(duì)因子平方和 SA 與誤差平方和 Se 之間進(jìn)行比較,用其均方和 MSA= SA /fA , MSe= Se /fe 進(jìn)行比較更為合理,故可用 作為檢驗(yàn)H0的統(tǒng)計(jì)量。8.1.4 檢驗(yàn)方法/AAAeeeMSSfFMSSf定理8.1.2 在單因子方差分析模型

10、 (8.1.8) 及前述符號(hào)下,有 (1) Se / 2 2(nr) ,從而E(Se ) (nr) 2 ,進(jìn)一步,若H0成 立,則有SA/ 2 2(r1) (2) SA與Se獨(dú)立。 221()(1)rAiiE Srma由定理8.1.2,若H0成立,則檢驗(yàn)統(tǒng)計(jì)量F服從自由度為fA和fe的F分布,因此拒絕域?yàn)閃=FF1 (fA ,fe),通常將上述計(jì)算過程列成一張表格,稱為方差分析表。表8.1.3 單因子方差分析表來源平方和 自由度均方和F比因子SAfA=r1MSA= SA/fAF MSA/ MSe誤差Sefe=nrMSe= Se/fe總和STfT=n1對(duì)給定的,可作如下判斷: 若F F1 (fA

11、 ,fe) ,則說明因子A不顯著。 該檢驗(yàn)的p值也可利用統(tǒng)計(jì)軟件求出,若 以Y記服從F(fA ,fe)的隨機(jī)變量,則檢驗(yàn)的 p 值為 p=P(YF)。 如果 F F1 (fA ,fe),則認(rèn)為因子A顯著;常用的各偏差平方和的計(jì)算公式如下: (8.1.19) 一般可將計(jì)算過程列表進(jìn)行。 22112211rmTijijrAiieTATSynTSTmnSSS例8.1.2 采用例8.1.1的數(shù)據(jù),將原始數(shù)據(jù)減去1000, 列表給出計(jì)算過程: 表8.1.4 例8.1.2的計(jì)算表水平數(shù)據(jù)(原始數(shù)據(jù)-1000)TiTi2A173 96012129281943763610024A210792-10109907

12、4122158534222560355A393 298021223229483541253162098411335051779136321mijjy 利用(8.1.19),可算得各偏差平方和為: 把上述諸平方和及其自由度填入方差分析表2211339136337876.0417,24 1 2324505177 11339660.0833,3 1282437876.0417 9660.0833 28215.9584,3(8 1) 21TTAAeTAeSfSfSSSf 表8.1.5 例8.1.2的方差分析表 來源平方和自由度均方和F比因子9660.083324830.04173.5948 誤差282

13、15.9584211343.6171總和37876.041723若取=0.05,則F0.95 (2 ,21)=3.47 ,由于F=3.59483.47,故認(rèn)為因子A(飼料)是顯著的,即三種飼料對(duì)雞的增肥作用有明顯的差別。 在檢驗(yàn)結(jié)果為顯著時(shí),我們可進(jìn)一步求出總均值 、各主效應(yīng)ai和誤差方差 2的估計(jì)。 一、點(diǎn)估計(jì)由模型(8.1.8)知諸yij相互獨(dú)立,且yij N(+ ai , 2) ,因此, 可使用極大似然方法求出一般平均 、各主效應(yīng)ai和誤差方差 2的估計(jì):由極大似然估計(jì)的不變性,各水平均值i的極大似然估計(jì)為 ,由于 不是 2的無偏估計(jì),可修偏: .iiy2M2eMS.2211,1,1()

14、iirmeMijijyayyirSyynn 由于 ,可給出Ai的水平均值i的1- 的置信區(qū)間為 其中 。 .() ()/iieeem yt fSf二、置信區(qū)間.1/2.1/2()/,()/ieieytfmytfm2eMS例8.1.3 繼續(xù)例8.1.2,此處我們給出諸水平均值的估計(jì)。因子A的三個(gè)水平均值的估計(jì)分別為 從點(diǎn)估計(jì)來看,水平2(以槐樹粉為主的飼料)是最優(yōu)的。 12319410001024.25,858510001073.125,835410001044.25,8 誤差方差的無偏估計(jì)為 利用(8.1.23)可以給出諸水平均值的置信區(qū)間。此處, ,若取0.05 ,則t1- /2( fe )

15、= t0.95( 21 )=2.0796, ,于是三個(gè)水平均值的0.95置信區(qū)間分別為21343.6171eMS1343.6171 36.65540.975(21)/8 26.9509t123:1024.25 26.9509 = 997.2891, 1051.2109,:1073.125 26.9509 = 1046.1741, 1100.0759,:1044.25 26.9509 = 1017.2891, 1071.2109. 在單因子試驗(yàn)的數(shù)據(jù)分析中可得到如下三個(gè)結(jié)果: 因子是否顯著; 試驗(yàn)的誤差方差 2的估計(jì); 諸水平均值i的點(diǎn)估計(jì)與區(qū)間估計(jì)。 在因子A顯著時(shí),通常只需對(duì)較優(yōu)的水平均值作

16、參數(shù)估計(jì),在因子A不顯著場(chǎng)合,參數(shù)估計(jì)無需進(jìn)行。8.1.6 重復(fù)數(shù)不等情形 單因子方差分析并不要求每個(gè)水平下重復(fù)試驗(yàn)次數(shù)全相等,在重復(fù)數(shù)不等場(chǎng)合的方差分析與重復(fù)數(shù)相等情況下的方差分析極為相似,只在幾處略有差別。 數(shù)據(jù):設(shè)從第i個(gè)水平下的總體獲得mi個(gè)試驗(yàn)結(jié)果,記為yi1 , yi2 , yim ,i=1,2, r,統(tǒng)計(jì)模型為: (8.1.24) 2,1,2,., ,1,2,.,(0,)ijiijiijyirjmN各相互獨(dú)立,且都服從總均值:諸i的加權(quán)平均(所有試驗(yàn)結(jié)果的均值的平均) (8.1.25) 稱為總均值或一般平均。 效應(yīng)約束條件: 各平方和的計(jì)算: SA的計(jì)算公式略有不同 222.11

17、()rriAiiiiiTTSm yymn10riiima11111(.)rrriiimmmnn例8.1.4 某食品公司對(duì)一種食品設(shè)計(jì)了四種新包裝。為考察哪種包裝最受顧客歡迎,選了10個(gè)地段繁華程度相似、規(guī)模相近的商店做試驗(yàn),其中二種包裝各指定兩個(gè)商店銷售,另二個(gè)包裝各指定三個(gè)商店銷售。在試驗(yàn)期內(nèi)各店貨架排放的位置、空間都相同,營(yíng)業(yè)員的促銷方法也基本相同,經(jīng)過一段時(shí)間,記錄其銷售量數(shù)據(jù),列于表8.1.6左半邊,其相應(yīng)的計(jì)算結(jié)果列于右側(cè)。 包裝類型 銷售量 miTiTi2 / miA112214 12319 17 2135710831091A42

18、4 3025414581476和n=10T=18021imijjy213498riiiTm2113544imrijijy由此可求得各類偏差平方和如下 方差分析表如表8.1.8所示 .若取0.01,查表得F0.01(3,6)=9.78,由于 F=11.229.78,故我們可認(rèn)為各水平間有顯著差異。 3544 3240304,10 1 93498 3240258,4 1 3304 25846,10 46TTAAeeSfSfSf 22180324010Tn來源平方和自由度均方和F比因子A25838611.22 誤差e4667.67總和T3049 由于因子顯著,我們還可以給出諸水平均值的估計(jì)。因子A的

19、四個(gè)水平均值的估計(jì)分別為 由此可見,第四種包裝方式效果最好。誤差方差的無偏估計(jì)為123430/215,39/313,57/319,54/227,27.67eMS 進(jìn)一步,利用(8.1.23)也可以給出諸水平均值的置信區(qū)間,只是在這里要用不同的mi代替那里相同的m。此處, ,若取0.05,則t1-/2( fe )=t0.95(6)=2.4469, ,于是效果較好的第三和第四個(gè)水平均值的0.95置信區(qū)間分別為 7.672.76950.975(6)6.7767t:196.7767/3 15.0875,22.9125,3:276.7767/2 22.2081,31.7919.48.2.1 效應(yīng)差的置信

20、區(qū)間 如果方差分析的結(jié)果因子A顯著,則等于說有充分理由認(rèn)為因子A各水平的效應(yīng)不全相同,但這并不是說它們中一定沒有相同的。就指定的一對(duì)水平Ai與Aj,我們可通過求i - j的區(qū)間估計(jì)來進(jìn)行比較。 由于 ,故由此給出i - j的置信水平為1-的置信區(qū)間為 (8.2.1)其中 是 2的無偏估計(jì)。這里的置信區(qū)間與第六章中的兩樣本的t區(qū)間基本一致,區(qū)別在于這里 2的估計(jì)使用了全部樣本而不僅僅是兩個(gè)水平Ai, Aj下的觀測(cè)值。2.11(,()ijijijyyNmm.()()()11()ijijeeijeyytfSmmf.11221111()(),()()ijeijeijijyytfyytfmmmm2/ee

21、Sf例8.2.1 繼續(xù)例8.1.2, ,fe=21,取0.05 ,則t1-/2( fe )= t0.975(21)=2.0796, 于是可算出各個(gè)置信區(qū)間為 可見第一個(gè)區(qū)間在0的左邊,所以我們可以概率95%斷言認(rèn)為1 小于2,其它二個(gè)區(qū)間包含0點(diǎn),雖然從點(diǎn)估計(jì)角度看水平均值估計(jì)有差別,但這種差異在0.05水平上是不顯著的。 0.9751 1(21) 38.11438 8t121323:48.875038.1143 86.9893,10.7607:2038.1143 58.11433, 18.1143:28.875038.1143 9.2393, 66.9893 1343.6171 36.655

22、48.2.2 多重比較問題 對(duì)每一組(i, j), (8.2.1) 給出的區(qū)間的置信水平都是1 ,但對(duì)多個(gè)這樣的區(qū)間,要求其同時(shí)成立,其聯(lián)合置信水平就不再是1 了。 譬如,設(shè)E1 , , Ek是k個(gè)隨機(jī)事件,且有 P(Ei)=1,i=1 ,k ,則其同時(shí)發(fā)生的概率 這說明它們同時(shí)發(fā)生的概率可能比1 小很多。 為了使它們同時(shí)發(fā)生的概率不低于1,一個(gè)辦法是把每個(gè)事件發(fā)生的概率提高到1 /k. 這將導(dǎo)致每個(gè)置信區(qū)間過長(zhǎng),聯(lián)合置信區(qū)間的精度很差,一般人們不采用這種方法。 111()1()1()1kkkiiiiiiPEPEP Ek 在方差分析中,如果經(jīng)過F檢驗(yàn)拒絕原假設(shè),表明因子A是顯著的,即r個(gè)水平對(duì)

23、應(yīng)的水平均值不全相等,此時(shí),我們還需要進(jìn)一步確認(rèn)哪些水平均值間是確有差異的,哪些水平均值間無顯著差異。 同時(shí)比較任意兩個(gè)水平均值間有無明顯差異的問題稱為多重比較,多重比較即要以顯著性水平同時(shí)檢驗(yàn)如下r(r1)/2個(gè)假設(shè): (8.2.2) 0:,1,ijijHijr 直觀地看,當(dāng)H0ij成立時(shí), 不應(yīng)過大,因此,關(guān)于假設(shè)(8.2.2)的拒絕域應(yīng)有如下形式 諸臨界值應(yīng)在(8.2.2)成立時(shí)由P(W)= 確定。下面分重復(fù)數(shù)相等和不等分別介紹臨界值的確定。 .1|ijijij rWyyc .|ijyy 8.2.3 重復(fù)數(shù)相等場(chǎng)合的T法 在重復(fù)數(shù)相等時(shí),由對(duì)稱性自然可以要求諸cij相等,記為c. 記 ,

24、則由給定條件不難有 于是當(dāng) (8.2.2) 成立時(shí),1= r = , 2/eeSf. () /iiieytt fm11111maxmaxmaxminijijij rij rijij rjiij rij rP WPyycPyycyycPmmyycPmmm 其中 ,稱為t化極差統(tǒng)計(jì)量,其分布可由隨機(jī)模擬方法得到。 于是 , 其中q1(r, fe)表示q(r, fe)的1 分位數(shù),其值在附表8中給出。 ()( ,)/eP WP q r fmc.()()( ,)maxmin/jieijyyq r fmm1( , ) /ec qr fm 重復(fù)數(shù)相同時(shí)多重比較可總結(jié)如下:對(duì)給定的的顯著性水平 ,查多重比較

25、的分位數(shù)q(r,fe)表,計(jì)算 ,比較諸 與c的大小,若 則認(rèn)為水平Ai與水平Aj間有顯著差異,反之,則認(rèn)為水平Ai與水平Aj間無明顯差別。這一方法最早由Turkey提出,因此稱為T法。 1( ,)/ecqr fm.|ijyy.|ijyyc 例8.2.2 繼續(xù)例8.1.2,若取 =0.05,則查表知q1-0.05(3, 21)=3.57,而 。所以 ,認(rèn)為1與2有顯著差別 ,認(rèn)為1與3無顯著差別 ,認(rèn)為2與3有顯著差別 這說明: 1與3之間無顯著差別,而它們與2之間都有顯著差異。 36.65543.57 36.6554/846.2659c 1.3.| 2046.2659yy2.3.| 46.8

26、7546.2659yy1248.87546.2659yy在重復(fù)數(shù)不等時(shí),若假設(shè) (8.2.2) 成立,則 或 從而可以要求 ,在此要求下可推出.() ()11ijijeijyytt fmm2.2()(1,)11()ijijeijyyFFfmm11ijijccmm可以證明從而 亦即1max(1,)1i j rijeFF rfr 21(1,)( /)1eFrfcr2111(1)(1,)()ijeijcrFrfmm112222211211max11maxmax11ijijijrijrijijijijijrijrijyycP WPyycPmmmmyyccPPFmm 例8.2.3 在例8.1.4中,我們

27、指出包裝方式對(duì)食品銷量有明顯的影響,此處r=4, fe =6, ,若取 =0.05 ,則F0.95(3,6)=4.76。注意到m1= m4=2,m2= m3=3,故27.671213243414233 4.76 (1/2 1/3) 7.679.63 4.76 (1/2 1/2) 7.6710.53 4.76 (1/3 1/3) 7.678.5cccccc 由于 這說明A1 , A2 , A3間無顯著差異,A1 , A2與A4有顯著差異,但 A4與A3 的差異卻尚未達(dá)到顯著水平。綜合上述,包裝A4銷售量最佳。 1.2.121.3.131.4.142.3.232.4.243.4.34| 2,| 4

28、,| 12| 6,| 14,| 8yycyycyycyycyycyyc 在進(jìn)行方差分析時(shí)要求r個(gè)方差相等,這稱為方差齊性。理論研究表明,當(dāng)正態(tài)性假定不滿足時(shí)對(duì)F檢驗(yàn)影響較小,即F檢驗(yàn)對(duì)正態(tài)性的偏離具有一定的穩(wěn)健性,而F檢驗(yàn)對(duì)方差齊性的偏離較為敏感。所以r個(gè)方差的齊性檢驗(yàn)就顯得十分必要。 所謂方差齊性檢驗(yàn)是對(duì)如下一對(duì)假設(shè)作出檢驗(yàn): (8.3.1) 22220121riHvsH:諸不全相等 很多統(tǒng)計(jì)學(xué)家提出了一些很好的檢驗(yàn)方法,這里介紹幾個(gè)最常用的檢驗(yàn),它們是: Hartley檢驗(yàn),僅適用于樣本量相等的場(chǎng)合; Bartlett檢驗(yàn),可用于樣本量相等或不等 的場(chǎng)合,但是每個(gè)樣本量不得低于5; 修正的

29、Bartlett檢驗(yàn),在樣本量較小或較 大、相等或不等場(chǎng)合均可使用。 當(dāng)各水平下試驗(yàn)重復(fù)次數(shù)相等時(shí),即m1=m2=mr=m,Hartley提出檢驗(yàn)方差相等的檢驗(yàn)統(tǒng)計(jì)量: (8.3.2) 這個(gè)統(tǒng)計(jì)量的分布無明顯的表達(dá)式,但在諸方差相等條件下,可通過隨機(jī)模擬方法獲得H分布的分位數(shù),該分布依賴于水平數(shù)r 和樣本方差的自由度f=m1,因此該分布可記為H (r,f),其分位數(shù)表列于附表10上。 2221222212max,min,rrsssHsss 直觀上看,當(dāng)H0成立,即諸方差相等(12 =22=r2)時(shí),H的值應(yīng)接近于1,當(dāng)H的值較大時(shí),諸方差間的差異就大,H愈大,諸方差間的差異就愈大,這時(shí)應(yīng)拒絕

30、(8.3.1)中的H0。由此可知,對(duì)給定的顯著性水平 ,檢驗(yàn)H0的拒絕域?yàn)?W=H H1(r, f ) (8.3.3) 其中H1(r, f )為H分布的1 分位數(shù)。 例8.3.1 有四種不同牌號(hào)的鐵銹防護(hù)劑(簡(jiǎn)稱防銹劑),現(xiàn)要比較其防銹能力。數(shù)據(jù)見表8.3.1。 這是一個(gè)重復(fù)次數(shù)相等的單因子試驗(yàn)。我們考慮用方差分析方法對(duì)之進(jìn)行比較分析,為此,首先要進(jìn)行方差齊性檢驗(yàn)。 本例中,四個(gè)樣本方差可由表8.3.1中諸Qi求出,即 由此可得統(tǒng)計(jì)量H的值 在 =0.05時(shí),由附表10查得H0.95(4,9) =6.31,由于H d (8.3.4) Bartlett證明了,檢驗(yàn)的拒絕域?yàn)?W=B 1- 2 (

31、r-1) (8.3.8) 考慮到這里2分布是近似分布,在諸樣本量mi均不小于5時(shí)使用上述檢驗(yàn)是適當(dāng)?shù)摹?2111111lnln,131irreeiiiieBfMSfsCCrff 例8.3.2 為研究各產(chǎn)地的綠茶的葉酸含量是否有顯著差異,特選四個(gè)產(chǎn)地綠茶,其中A1制作了7個(gè)樣品, A2制作了5個(gè)樣品, A3與A4各制作了6個(gè)樣品,共有24個(gè)樣品,按隨機(jī)次序測(cè)試其葉酸含量,測(cè)試結(jié)果如表8.3.3所示。 為能進(jìn)行方差分析,首先要進(jìn)行方差齊性檢驗(yàn),從表8.3.3中數(shù)據(jù)可求得s12=2.14, s22=2.83, s32=2.41, s42=1.12,再?gòu)谋?.3.4上查得MSe =2.09,由(8.3

32、.6),可求得 再由(8.3.7),還可求得Bartlett檢驗(yàn)統(tǒng)計(jì)量的值 對(duì)給定的顯著性水平 =0.05,查表知0.952 (41) =7.815。由于B7.815,故應(yīng)保留原假設(shè)H0,即可認(rèn)為諸水平下的方差間無顯著差異。 11111111.08563(4 1)645520C 120 ln2.096 ln2.144 ln2.835 ln2.41 5 ln1.120.97 01.0856B 針對(duì)樣本量低于5時(shí)不能使用Bartlett檢驗(yàn)的缺點(diǎn),Box提出修正的Bartlett檢驗(yàn)統(tǒng)計(jì)量 (8.3.9) 其中B與C如(8.3.7)與(8.3.6)所示,且21()f BCBf ABC 212221

33、1,(1)22/frfrfACCf 在原假設(shè)H0:12 =22=r2成立下,Box還證明了統(tǒng)計(jì)量 的近似分布是F分布F(f1, f2),對(duì)給定的顯著性水平 ,該檢驗(yàn)的拒絕域?yàn)?(8.3.10) 其中f2的值可能不是整數(shù),這時(shí)可通過對(duì)F分布的分位數(shù)表施行內(nèi)插法得到分位數(shù)。 B112(,)WBFff 例8.3.3 對(duì)例8.3.2中的綠茶葉酸含量的數(shù)據(jù),我們用修正的Bartlett檢驗(yàn)再一次對(duì)等方差性作出檢驗(yàn)。 在例8.3.2中已求得:C=1.0856,B=0.970,還可求得: 對(duì)給定的顯著性水平 =0.05,在F分布的分位數(shù)表上可查得 F0.95(3,682.4)= F0.95(3,)=2.60

34、 由于 2.60,故保留原假設(shè)H0,即認(rèn)為四個(gè)水平下的方差間無顯著差異。 B1224 134 1682.4(1.08561)682.4743.92 1.08562/682.4682.4 0.970 1.08560.3223(743.90.970 1.0856)ffCAB 8.4.1 變量間的兩類關(guān)系 十九世紀(jì),英國(guó)生物學(xué)家兼統(tǒng)計(jì)學(xué)家高爾頓研究發(fā)現(xiàn): 其中x表示父親身高, y 表示成年兒子的身高(單位:英寸,1英寸=2.54厘米)。這表明子代的平均高度有向中心回歸的意思,使得一段時(shí)間內(nèi)人的身高相對(duì)穩(wěn)定。之后回歸分析的思想滲透到了數(shù)理統(tǒng)計(jì)的其它分支中。 33.730.516yx 回歸分析便是研究變

35、量間相關(guān)關(guān)系的一門學(xué)科。它通過對(duì)客觀事物中變量的大量觀察或試驗(yàn)獲得的數(shù)據(jù),去尋找隱藏在數(shù)據(jù)背后的相關(guān)關(guān)系,給出它們的表達(dá)形式回歸函數(shù)的估計(jì)。 變量間的相關(guān)關(guān)系不能用完全確切的函數(shù)形式表示,但在平均意義下有一定的定量關(guān)系表達(dá)式,尋找這種定量關(guān)系表達(dá)式就是回歸分析的主要任務(wù)。 回歸分析處理的是變量與變量間的關(guān)系。變量間常見的關(guān)系有兩類:確定性關(guān)系與相關(guān)關(guān)系。 8.4.2 一元線性回歸模型 設(shè)y與x間有相關(guān)關(guān)系,稱x為自變量(預(yù)報(bào)變量),y為因變量(響應(yīng)變量),在知道x取值后,y有一個(gè)分布p(yx),我們關(guān)心的是y的均值E(Yx): (8.4.1) 這便是y關(guān)于x的理論回歸函數(shù)條件期望,也就是我們要

36、尋找的相關(guān)關(guān)系的表達(dá)式。 通常,相關(guān)關(guān)系可用下式表示 y =f (x)+ 其中是隨機(jī)誤差,一般假設(shè) N(0, 2)。 ( )(|)(|)fxE Yxyp yx dy 例8.4.1 合金的強(qiáng)度y (107Pa) 與合金中碳的含量x (%) 有關(guān)。為研究?jī)蓚€(gè)變量間的關(guān)系。首先是收集數(shù)據(jù),我們把收集到的數(shù)據(jù)記為(xi,yi),i=1,2,n。本例中,我們收集到12組數(shù)據(jù),列于表8.4.1中 進(jìn)行回歸分析首先是回歸函數(shù)形式的選擇。當(dāng)只有一個(gè)自變量時(shí),通??刹捎卯嬌Ⅻc(diǎn)圖 的方法進(jìn)行選擇。序號(hào)x(%)y (107Pa)序號(hào)x(%)y (107Pa)10.1042.070.1649.020.1143.080

37、.1753.030.1245.090.1850.040.1345.0100.2055.050.1445.0110.2155.060.1547.5120.2360.0 為找出兩個(gè)量間存在的回歸函數(shù)的形式,可以畫一張圖:把每一對(duì)數(shù)(xi,yi)看成直角坐標(biāo)系中的一個(gè)點(diǎn),在圖上畫出n個(gè)點(diǎn),稱這張圖為散點(diǎn)圖,見圖8.4.1 0 .1 00 .1 50 .2 04 05 06 0碳含量合 金 鋼 強(qiáng) 度圖8 .4 .1 合金鋼強(qiáng)度及碳含量的散點(diǎn)圖 從散點(diǎn)圖我們發(fā)現(xiàn)12個(gè)點(diǎn)基本在一條直線附近,這說明兩個(gè)變量之間有一個(gè)線性相關(guān)關(guān)系,這個(gè)相關(guān)關(guān)系可以表示為 y =0+ 1x+ (8.4.2) 這便是y關(guān)于x的

38、一元線性回歸的數(shù)據(jù)結(jié)構(gòu)式。通常假定 E() =0, Var() = 2 (8.4.3) 在對(duì)未知參數(shù)作區(qū)間估計(jì)或假設(shè)檢驗(yàn)時(shí),還需要假定誤差服從正態(tài)分布,即 y N(0+ 1x, 2 ) (8.4.4) 顯然,假定(8.4.4) 比 (8.4.3) 要強(qiáng)。 由于 0, 1均未知,需要我們從收集到的數(shù)據(jù)(xi,yi),i=1,2,n,出發(fā)進(jìn)行估計(jì)。在收集數(shù)據(jù)時(shí),我們一般要求觀察獨(dú)立地進(jìn)行, 即假定y1, y2, yn,相互獨(dú)立。綜合上述諸項(xiàng)假定,我們可以給出最簡(jiǎn)單、常用的一元線性回歸的數(shù)學(xué)模型: (8.4.5) 0121,2, (0,) iiiiyxinN,各 獨(dú)立同分布,其分布為 由數(shù)據(jù)(xi,

39、yi),i=1,2,n,可以獲得0, 1的估計(jì) ,稱 (8.4.6) 為y關(guān)于x的經(jīng)驗(yàn)回歸函數(shù),簡(jiǎn)稱為回歸方程,其圖形稱為回歸直線。給定x=x0后, 稱 為回歸值(在不同場(chǎng)合也稱其為擬合值、預(yù)測(cè)值)。 01,01 yx0010 yx 一般采用最小二乘方法估計(jì)模型(8.4.5)中的0, 1 :令: 應(yīng)該滿足 稱這樣得到的 稱為0, 1的最小二乘估計(jì),記為L(zhǎng)SE。 01,01,201011(,)()niiiQyx10101,(,)min(,)QQ 最小二乘估計(jì)可以通過求偏導(dǎo)數(shù)并命其為0而得到: (8.4.7) 這組方程稱為正規(guī)方程組,經(jīng)過整理,可得 (8.4.8) 011001112()02()0

40、niiiniiiiQyxQyx x 01201iiinnxnynxxx y解(8.4.8)可得 (8.4.9)這就是參數(shù)的最小二乘估計(jì),其中 101/xyxxllyx222222222211,1()()1()1()iixyiiiiiiiixxiiiiyyiiiixxyynnlxxyyx ynx yx yxynlxxxnxxxnlyyynyyyn xi=1.90n=12yi=590.5xi2=0.3194xi yi =95.9250yi2=29392.75lxx=0.0186lxy=2.4292lyy=335.2292由此給出回歸方程為: 28.5340 130.6022yx例8.4.2 使用例

41、8.4.1種合金鋼強(qiáng)度和碳含量 數(shù)據(jù),我們可求得回歸方程,見下表. 0.1583x 49.2083y 20.3008nx 93.4958n x y229057.5208ny 1/130.6022xyxxll0128.5340yx 定理8.4.1 在模型(8.4.5)下,有 (1) (2) (3)對(duì)給定的x0,22200111,xxxxxNNnll,201Covxxxl ,220001 001 0()1xxxxyxNxnl,關(guān)于最小二乘估計(jì)的一些性質(zhì)羅列在如下定理之中 定理8.4.1 說明 分別是0, 1的無偏估計(jì); 01, 是E(y0)=0+ 1 x0的無偏估計(jì); 0 y 除 外, 與 是相關(guān)

42、的; 0 x10 要提高 的估計(jì)精度(即降低它們的方 差)就要求n大,lxx大(即要求x1, x2, xn較 分散)。 01, 在使用回歸方程作進(jìn)一步的分析以前,首先應(yīng)對(duì)回歸方程是否有意義進(jìn)行判斷。 如果1=0,那么不管x如何變化,E(y)不隨x的變化作線性變化,那么這時(shí)求得的一元線性回歸方程就沒有意義,稱回歸方程不顯著。如果10,E(y)隨x的變化作線性變化,稱回歸方程是顯著的。 綜上,對(duì)回歸方程是否有意義作判斷就是要作如下的顯著性檢驗(yàn):H0:1=0 vs H1: 10 拒絕H0表示回歸方程是顯著的。一、F 檢驗(yàn) 采用方差分析的思想,我們從數(shù)據(jù)出發(fā)研究各yi不同的原因。 數(shù)據(jù)總的波動(dòng)用總偏差

43、平方和 表示。引起各yi不同的原因主要有兩個(gè)因素:其一是H0可能不真,E(y)隨x的變化而變化,從而在每一個(gè)x的觀測(cè)值處的回歸值不同,其波動(dòng)用回歸平方和 表示;其二是其它一切因素,包括隨機(jī)誤差、x對(duì)E(y)的非線性影響等,這可用殘差平方和 表示。 且有如下平方和分解式: ST= SR + Se (8.4.13) 在一元線性回歸中有三種等價(jià)的檢驗(yàn)方法,下面分別加以介紹。2()TiyySyyl2()RiSyy2()eiiSyy定理8.4.2 設(shè)yi=i+ 1 xi + i,其中i n相互獨(dú)立, 且Ei=0,Var(yi)= 2,i=1,n,沿用上面的記號(hào),有 (8.4.14) (8.4.15) 這

44、說明 是 2的無偏估計(jì)。 關(guān)于SR 和 Se所含有的成分可由如下定理說明。 221()RxxE Sl2()(2)eE Sn2/(2)eSnSR 和 Se定理8.4.3 設(shè) y1, y2, yn 相互獨(dú)立,且 yiN(i + 1 xi , 2), i=1, , n, 則在上述記號(hào)下,有 (1)Se / 2 2(n2), (2)若H0成立,則有SR / 2 2(1) (3) SR與Se , 獨(dú)立(或 與Se , 獨(dú)立)。 yy1 如同方差分析那樣,我們可以考慮采用F比作為檢驗(yàn)統(tǒng)計(jì)量: 在1 =0時(shí),F(xiàn)F(1, n2),其中fR =1, fe =n2. 對(duì)于給定的顯著性水平,拒絕域?yàn)?F F1-(1

45、, n2) 整個(gè)檢驗(yàn)也可列成一張方差分析表。 /(2)ReSFSn來源平方和自由度均方和F比回歸 SR =317.2589fA=1MSA=317.2589176.55殘差Se =17.9703fe=10MSe= 1.79703總和 ST =335.2292fT=11例8.4.3 在合金鋼強(qiáng)度的例8.4.2中,我們已求出了回歸方程,這里我們考慮關(guān)于回歸方程的顯著性檢驗(yàn)。經(jīng)計(jì)算有 若取=0.01,則F0.99(1,10) =103.1698,因此,在顯著性水平0.01下回歸方程是顯著的。 130.602213.28721.7970 /0.0186t 三、相關(guān)系數(shù)檢驗(yàn) 一元線性回歸方程是反映兩個(gè)隨機(jī)

46、變量x與y間的線性相關(guān)關(guān)系,它的顯著性檢驗(yàn)還可通過對(duì)二維總體相關(guān)系數(shù)的檢驗(yàn)進(jìn)行。它的一對(duì)假設(shè)是 H0:=0 vs H1: 0 (8.4.18) 所用的檢驗(yàn)統(tǒng)計(jì)量為樣本相關(guān)系數(shù) (8.4.19) 拒絕域?yàn)閃=rc,其中臨界值c應(yīng)是H0: =0成立下r的分布的1 分位數(shù),故記為c=r1- (n2). 22()()()()xyiixx yyiilxxyyrl lxxyy 由樣本相關(guān)系數(shù)的定義可以得到 r與F統(tǒng)計(jì)量之間的關(guān)系 這表明, r是F的嚴(yán)格單調(diào)增函數(shù),故可以從F分布的1 分位數(shù) F1-(1, n2) 得到 r 的1 分位數(shù)為2(2)FrFn111(1,2)(2)(1,2) 1FncrnFn 譬

47、如,對(duì) =0.01,n=12, F0.99(1,10)=10.04 ,于是 。 為實(shí)際使用方便,人們已對(duì)r1- (n-2)編制了專門的表,見附表9。 以例8.4.2中數(shù)據(jù)為例,可以計(jì)算得到 若取 =0.01,查附表9知 r0.99(10)=0.708, 由于0.97280.708,因此,在顯著性水平0.01下回歸方程是顯著的。 0.9910.04(10)0.70810.041r2.42920.97280.0186335.2292r 8.4.5 估計(jì)與預(yù)測(cè) 當(dāng)回歸方程經(jīng)過檢驗(yàn)是顯著的后,可用來做估計(jì)和預(yù)測(cè)。這是二個(gè)不同的問題: (1)當(dāng)x=x0時(shí),尋求均值E(y0)=0+ 1 x0的點(diǎn)估計(jì)與區(qū)間

48、 估計(jì)(注意這里E(y0)是常量)是估計(jì)問題; (2)當(dāng)x=x0時(shí),y0的觀察值在什么范圍內(nèi)?由于y0是隨機(jī) 變量,為此只能求一個(gè)區(qū)間,使y0落在這一區(qū)間的概 率為1- ,即要求,使 稱區(qū)間 為y0的概率為1- 的預(yù)測(cè)區(qū)間, 這是預(yù)測(cè)問題。 00()1P yy 00,yy一、 E(y0)的估計(jì) 在x=x0時(shí),其對(duì)應(yīng)的因變量y0是一個(gè)隨機(jī)變量,有一個(gè)分布,我們經(jīng)常需要對(duì)該分布的均值給出估計(jì)。由于E(y0)=0+ 1 x0,一個(gè)直觀的估計(jì)應(yīng)為 我們習(xí)慣上將上述估計(jì)記為 (注意這里 表示的是E(y0)的估計(jì),而不表示y0的估計(jì),因?yàn)閥0是隨機(jī)變量,它是沒有估計(jì)的)。由于 分別是0, 1的無偏估計(jì),因

49、此, 也是E(y0)的無偏估計(jì)。 0 y0 y0 y01,0010()E yx 為得到E(y0)的區(qū)間估計(jì),我們需要知道 的分布。由定理8.4.1, 又由定理8.4.3知, Se / 2 2(n-2),且與 相互獨(dú)立,故010()yyxx2200010010()1xxxxyxNxnl,200000202()1()/ (2)()1/(2)xxexxxxyEynlyEyt nSxxnnl0 y于是E(y0)的1 的置信區(qū)間(CI)是 (8.4.20)其中 (8.4.21)2001/2()1(2)xxxxtnnl0000,yy 二、 y0的預(yù)測(cè)區(qū)間 實(shí)用中往往更關(guān)心x=x0時(shí)對(duì)應(yīng)的因變量y0的取值范

50、圍。 y0的最可能取值為 ,于是,我們可以使用以 為中心的一個(gè)區(qū)間 作為y0的取值范圍。經(jīng)推導(dǎo), 的表達(dá)式為 (8.4.23) 上述預(yù)測(cè)區(qū)間(PI)與E(y0)的置信區(qū)間的差別就在于根號(hào)里多個(gè)1。 0 y0 y00(,)yy2001/2()1()(2)1xxxxxtnnl 預(yù)測(cè)區(qū)間的長(zhǎng)度2與樣本量n、x的偏差平方和lxx、 x0 到 的距離 有關(guān)。 當(dāng) 時(shí),預(yù)測(cè)精度可能變得很差,在這種情況下的預(yù)測(cè)稱作外推,需要特別小心。另外,若x1, x2, xn較為集中時(shí),那么lxx就較小,也會(huì)導(dǎo)致預(yù)測(cè)精度的降低。因此,在收集數(shù)據(jù)時(shí)要使x1, x2, xn盡量分散,這對(duì)提高精度有利。 當(dāng)n較大時(shí)(如n 30

51、), t分布可以用正態(tài)分布近似,進(jìn)一步,若x0與 相差不大時(shí), 可以近似取為 。 0|xxx0(1)( ),nxxxx1/2u 例8.4.4 在例8.4.2中,如果x0=0.16,則得預(yù)測(cè)值為 若取 =0.05,則t0.975(10)=2.2281, 又 ,應(yīng)用(8.4.21), 故x0=0.16對(duì)應(yīng)因變量y0的均值E(y0)的0.95置信區(qū)間為(49.4328-1.0480, 49.4328+1.0480) =(48.3488, 50.5168)028.5364 130.6022 0.1649.4328y 17.9703/(122)1.3405201(0.160.19)1.3405 2.22

52、811.0840120.0186 應(yīng)用(8.4.23), 從而y0的概率為0.95的預(yù)測(cè)區(qū)間為 E(y0)的0.95置信區(qū)間比y0的概率為0.95的預(yù)測(cè)區(qū)間窄很多,這是因?yàn)殡S機(jī)變量的均值相對(duì)于隨機(jī)變量本身而言要更容易估計(jì)出來。 21(0.160.19)1.3405 2.228113.1774120.0186(49.43283.1774,49.43283.1774)(46.2554,52.6102) 例 8.5.1 煉鋼廠出鋼水時(shí)用的鋼包,在使用過程中由于鋼水及爐渣對(duì)耐火材料的浸蝕,其容積不斷增大。現(xiàn)在鋼包的容積用盛滿鋼水時(shí)的重量y (kg)表示,相應(yīng)的試驗(yàn)次數(shù)用x表示。數(shù)據(jù)見表8.5.1,要找出y 與x的定量關(guān)系表達(dá)式。 序號(hào)xy序號(hào)xy12106.4281111

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論