概率論及數(shù)理統(tǒng)計方差分析與回歸分析ppt課件_第1頁
概率論及數(shù)理統(tǒng)計方差分析與回歸分析ppt課件_第2頁
概率論及數(shù)理統(tǒng)計方差分析與回歸分析ppt課件_第3頁
概率論及數(shù)理統(tǒng)計方差分析與回歸分析ppt課件_第4頁
概率論及數(shù)理統(tǒng)計方差分析與回歸分析ppt課件_第5頁
已閱讀5頁,還剩114頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、8.1 方差分析8.2 多重比較8.3 方差齊性分析8.4 一元線性回歸8.5 一元非線性回歸 8.1.1 問題的提出 實踐任務(wù)中我們經(jīng)常碰到多個正態(tài)總體均值的比較問題,處置這類問題通常采用所謂的方差分析方法。 例8.1.1 在飼料養(yǎng)雞增肥的研討中,某研討所提出三種飼料配方:A1是以魚粉為主的飼料,A2是以槐樹粉為主的飼料,A3是以苜蓿粉為主的飼料。為比較三種飼料的效果,特選 24 只類似的雛雞隨機均分為三組,每組各喂一種飼料,60天后察看它們的分量。實驗結(jié)果如下表所示: 飼料A雞 重克A110731009106010011002101210091028A2110710929901109109

2、0107411221001A310931029108010211022103210291048 本例中,我們要比較的是三種飼料對雞的增肥作用能否一樣。為此,把飼料稱為因子,記為A,三種不同的配方稱為因子A的三個程度,記為A1, A2, A3,運用配方Ai下第 j 只雞60天后的分量用yij表示,i=1, 2, 3, j=1, 2, 10。我們的目的是比較三種飼料配方下雞的平均分量能否相等,為此,需求做一些根本假定,把所研討的問題歸結(jié)為一個統(tǒng)計問題,然后用方差分析的方法進展處理。 在例8.1.1中我們只調(diào)查了一個因子,稱其為單因子實驗。 通常,在單因子實驗中,記因子為 A, 設(shè)其有r個程度,記為

3、A1, A2, Ar,在每一程度下調(diào)查的目的可以看成一個總體 ,現(xiàn)有 r 個程度,故有 r 個總體, 假定:o每一總體均為正態(tài)總體,記為 N(i , i 2), i1, 2, r ;o各總體的方差一樣: 1 2= 22= r2 = 2 ;o從每一總體中抽取的樣本是相互獨立的, 即一切的實驗結(jié)果 yij 都相互獨立。 我們要比較各程度下的均值能否一樣, 即要對如下的一個假設(shè)進展檢驗: H0 :1 =2 =r 8.1.1 備擇假設(shè)為H1 :1, 2, , r 不全相等 在不會引起誤解的情況下, H1 通??墒÷圆粚?。 假設(shè)H0成立,因子A的r個程度均值一樣,稱因子A的r個程度間沒有顯著差別,簡稱因

4、子A不顯著;反之,當H0不成立時,因子A的r個程度均值不全一樣,這時稱因子A的不同程度間有顯著差別,簡稱因子A顯著。 為對假設(shè)8.1.1進展檢驗,需求從每一程度下的總體抽取樣本,設(shè)從第i個程度下的總體獲得m個實驗結(jié)果,記 yij 表示第i個總體的第j次反復實驗結(jié)果。共得如下n=rm個實驗結(jié)果:yij, i1, 2, r , j1, 2, , m, 其中r為程度數(shù),m為反復數(shù),i為程度編號, j 為反復編號。 在程度Ai下的實驗結(jié)果yij與該程度下的目的均值 i 普通總是有差距的,記 ij = yiji, ij 稱為隨機誤差。于是有 y i j = i + i j 8.1.2 8.1.2式稱為實

5、驗結(jié)果 yij 的數(shù)據(jù)構(gòu)造式。 單因子方差分析的統(tǒng)計模型: 8.1.3 總均值與效應(yīng): 稱諸 i 的平均 為總均值. 稱第 i 程度下的均值 i 與總均值 的差: ai=i - 為 Ai 的效應(yīng)。 2,1,2,., ,1,2,.,(0,)ijiijijyir jmN諸相互獨立,且都服從1111(.)rriirr 模型8.1.3可以改寫為 (8.1.8) 假設(shè)8.1.1可改寫為 H0 :a1 =a2 =ar =0 8.1.9 12,1,2,., ,1,2,.,0N(0,)ijiijriiijyair jma相互獨立,且都服從一、實驗數(shù)據(jù) 通常在單因子方差分析中可將實驗數(shù)據(jù)列成如下頁表格方式。表8

6、.1.2中的最后二列的和與平均的含義如下:.111,2,miiijijriiTTyyirmTTTTyr mnnr m總試驗次數(shù)因子程度 試 驗 數(shù) 據(jù) 和 平均 A1y11 y12 y1m T1A2y21 y22 y2mT2Aryr1 yr2 yrmTrT1y2yyry 數(shù)據(jù)間是有差別的。數(shù)據(jù)yij與總平均 間的偏向可用yij 表示,它可分解為二個偏向之和 8.1.10 記二、組內(nèi)偏向與組間偏向.()()ijijiiyyyyyy.1111111,mrrmiijiijjiijmrnyy 由于 8.1.11 所以yij - 僅反映組內(nèi)數(shù)據(jù)與組內(nèi)平均的隨機誤差,稱為組內(nèi)偏向;而 8.1.12 除了反

7、映隨機誤差外,還反映了第i個程度的效應(yīng),稱為組間偏向。.()()ijiiijiiijiyyijy.()()iiiiiyya. iyy在統(tǒng)計學中,把k個數(shù)據(jù)y1 , y2 , , yk分別對其均值 =(y1+ + yk )/k 的偏向平方和 稱為k個數(shù)據(jù)的偏向平方和,它常用來度量假設(shè)干個數(shù)據(jù)分散的程度。三、偏向平方和及其自在度y22211()()()kkiiQyyyyyy在構(gòu)成偏向平方和Q的k個偏向y1 , , yk 間有一個恒等式 ,這闡明在Q中獨立的偏向只需k1個。在統(tǒng)計學中把平方和中獨立偏向個數(shù)稱為該平方和的自在度,常記為f,如Q的自在度為fQ=k1。自在度是偏向平方和的一個重要參數(shù)。 y

8、y1()0kiiyy各yij間總的差別大小可用總偏向平方和 表示,其自在度為fT=n1; 四、總平方和分解公式 僅由隨機誤差引起的數(shù)據(jù)間的差別可以用 組內(nèi)偏向平方和 表示, 也稱為誤差偏向平方和,其自在度為 fe=nr ;211()rmTijijSyy 2.11()rmeijiijSyy由于組間差別除了隨機誤差外,還反映了效應(yīng)間的差別,故由效應(yīng)不同引起的數(shù)據(jù)差別可用組間偏向平方和 表示,也稱為因子A的偏向平方和,其自在度為 fA=r1; 2.1()rAiiSmyy定理8.1.1 在上述符號下,總平方和ST可以分解為因子平方和SA與誤差平方和Se之和,其自在度也有相應(yīng)分解公式,詳細為: ST =

9、SA +Se , fT =fA +fe 8.1.16 8.1.16式通常稱為總平方和分解式。 偏向平方和Q的大小與自在度有關(guān),為了便于在偏向平方和間進展比較,統(tǒng)計上引入了均方和的概念,它定義為MS=Q/fQ ,其意為平均每個自在度上有多少平方和,它比較好地度量了一組數(shù)據(jù)的離散程度。 如今要對因子平方和 SA 與誤差平方和 Se 之間進展比較,用其均方和 MSA= SA /fA , MSe= Se /fe 進展比較更為合理,故可用 作為檢驗H0的統(tǒng)計量。8.1.4 檢驗方法/AAAeeeMSSfFMSSf定理8.1.2 在單因子方差分析模型 (8.1.8) 及前述符號下,有 (1) Se / 2

10、 2(nr) ,從而E(Se ) (nr) 2 ,進一步,假設(shè)H0成 立,那么有SA/ 2 2(r1) (2) SA與Se獨立。 221()(1)rAiiE Srma由定理8.1.2,假設(shè)H0成立,那么檢驗統(tǒng)計量F服從自在度為fA和fe的F分布,因此回絕域為W=FF1 (fA ,fe),通常將上述計算過程列成一張表格,稱為方差分析表。表8.1.3 單因子方差分析表來源平方和 自在度均方和F比因子SAfA=r1MSA= SA/fAF MSA/ MSe誤差Sefe=nrMSe= Se/fe總和STfT=n1對給定的,可作如下判別: 假設(shè)F F1 (fA ,fe) ,那么闡明因子A不顯著。 該檢驗的

11、p值也可利用統(tǒng)計軟件求出,假設(shè) 以Y記服從F(fA ,fe)的隨機變量,那么檢驗的 p 值為 p=P(YF)。 假設(shè) F F1 (fA ,fe),那么以為因子A顯著;常用的各偏向平方和的計算公式如下: 8.1.19 普通可將計算過程列表進展。 22112211rmTijijrAiieTATSynTSTmnSSS例8.1.2 采用例8.1.1的數(shù)據(jù),將原始數(shù)據(jù)減去1000, 列表給出計算過程: 表8.1.4 例8.1.2的計算表程度數(shù)據(jù)原始數(shù)據(jù)-1000TiTi2A173 96012129281943763610024A210792-101099074122158534222560355A393

12、 298021223229483541253162098411335051779321mijjy 利用(8.1.19),可算得各偏向平方和為: 把上述諸平方和及其自在度填入方差分析表2211339136337876.0417,24 1 2324505177 11339660.0833,3 1282437876.0417 9660.0833 28215.9584,3(8 1) 21TTAAeTAeSfSfSSSf 表8.1.5 例8.1.2的方差分析表 來源平方和自在度均方和F比因子9660.083324830.04173.5948 誤差28215.9584211343.6171總和37876.

13、041723假設(shè)取=0.05,那么F0.95 (2 ,21)=3.47 ,由于F=3.59483.47,故以為因子A飼料是顯著的,即三種飼料對雞的增肥作用有明顯的差別。 在檢驗結(jié)果為顯著時,我們可進一步求出總均值 、各主效應(yīng)ai和誤差方差 2的估計。 一、點估計由模型(8.1.8)知諸yij相互獨立,且yij N(+ ai , 2) ,因此, 可運用極大似然方法求出普通平均 、各主效應(yīng)ai和誤差方差 2的估計:由極大似然估計的不變性,各程度均值i的極大似然估計為 ,由于 不是 2的無偏估計,可修偏: .iiy2M2eMS.2211,1,1()iirmeMijijyayyirSyynn 由于 ,

14、可給出Ai的程度均值i的1- 的置信區(qū)間為 其中 。 .() ()/iieeem yt fSf二、置信區(qū)間.1/2.1/2()/,()/ieieytfmytfm2eMS例8.1.3 繼續(xù)例8.1.2,此處我們給出諸程度均值的估計。因子A的三個程度均值的估計分別為 從點估計來看,程度2以槐樹粉為主的飼料是最優(yōu)的。 12319410001024.25,858510001073.125,835410001044.25,8 誤差方差的無偏估計為 利用(8.1.23)可以給出諸程度均值的置信區(qū)間。此處, ,假設(shè)取0.05 ,那么t1- /2( fe )= t0.95( 21 )=2.0796, ,于是三

15、個程度均值的0.95置信區(qū)間分別為21343.6171eMS1343.6171 36.65540.975(21)/ 8 26.9509t123:1024.25 26.9509 = 997.2891, 1051.2109,:1073.125 26.9509 = 1046.1741, 1100.0759,:1044.25 26.9509 = 1017.2891, 1071.2109. 在單因子實驗的數(shù)據(jù)分析中可得到如下三個結(jié)果: 因子能否顯著; 實驗的誤差方差 2的估計; 諸程度均值i的點估計與區(qū)間估計。 在因子A顯著時,通常只需對較優(yōu)的程度均值作參數(shù)估計,在因子A不顯著場所,參數(shù)估計無需進展。8

16、.1.6 反復數(shù)不等情形 單因子方差分析并不要求每個程度下反復實驗次數(shù)全相等,在反復數(shù)不等場所的方差分析與反復數(shù)相等情況下的方差分析極為類似,只在幾處略有差別。 數(shù)據(jù):設(shè)從第i個程度下的總體獲得mi個實驗結(jié)果,記為yi1 , yi2 , yim ,i=1,2, r,統(tǒng)計模型為: 8.1.24 2,1,2,., ,1,2,.,(0,)ijiijiijyirjmN各相互獨立,且都服從總均值:諸i的加權(quán)平均一切實驗結(jié)果的均值的平均 8.1.25 稱為總均值或普通平均。 效應(yīng)約束條件: 各平方和的計算: SA的計算公式略有不同 222.11()rriAiiiiiTTSm yymn10riiima111

17、11(.)rrriiimmmnn例8.1.4 某食品公司對一種食品設(shè)計了四種新包裝。為調(diào)查哪種包裝最受顧客歡迎,選了10個地段繁華程度類似、規(guī)模相近的商店做實驗,其中二種包裝各指定兩個商店銷售,另二個包裝各指定三個商店銷售。在實驗期內(nèi)各店貨架排放的位置、空間都一樣,營業(yè)員的促銷方法也根本一樣,經(jīng)過一段時間,記錄其銷售量數(shù)據(jù),列于表8.1.6左半邊,其相應(yīng)的計算結(jié)果列于右側(cè)。 包裝類型 銷售量 miTiTi2 / miA112214 12319 17 2135710831091A424 3025414581476和n=10 T=18021imi

18、jjy213498riiiTm2113544imrijijy由此可求得各類偏向平方和如下 方差分析表如表8.1.8所示 .假設(shè)取0.01,查表得F0.01(3,6)=9.78,由于 F=11.229.78,故我們可以為各程度間有顯著差別。 3544 3240304,10 193498 3240258,4 13304 25846,10 46TTAAeeSfSfSf 22180324010Tn來源平方和自在度均方和F比因子A25838611.22 誤差e4667.67總和T3049 由于因子顯著,我們還可以給出諸程度均值的估計。因子A的四個程度均值的估計分別為 由此可見,第四種包裝方式效果最好。誤

19、差方差的無偏估計為123430/215,39/313,57/319,54/227,27.67eMS 進一步,利用(8.1.23)也可以給出諸程度均值的置信區(qū)間,只是在這里要用不同的mi替代那里一樣的m。此處, ,假設(shè)取0.05,那么t1-/2( fe )=t0.95(6)=2.4469, ,于是效果較好的第三和第四個程度均值的0.95置信區(qū)間分別為 7.672.76950.975(6)6.7767t:196.7767/3 15.0875,22.9125,3:276.7767/2 22.2081,31.7919.48.2.1 效應(yīng)差的置信區(qū)間 假設(shè)方差分析的結(jié)果因子A顯著,那么等于說有充分理由以

20、為因子A各程度的效應(yīng)不全一樣,但這并不是說它們中一定沒有一樣的。就指定的一對程度Ai與Aj,我們可經(jīng)過求i - j的區(qū)間估計來進展比較。 由于 ,故由此給出i - j的置信程度為1-的置信區(qū)間為 (8.2.1)其中 是 2的無偏估計。這里的置信區(qū)間與第六章中的兩樣本的t區(qū)間根本一致,區(qū)別在于這里 2的估計運用了全部樣本而不僅僅是兩個程度Ai, Aj下的觀測值。2.11(,()ijijijyyNmm.()()()11()ijijeeijeyytfSmmf.11221111()(),()()ijeijeijijyytfyytfmmmm2/eeSf例8.2.1 繼續(xù)例8.1.2, ,fe=21,取0

21、.05 ,那么t1-/2( fe )= t0.975(21)=2.0796, 于是可算出各個置信區(qū)間為 可見第一個區(qū)間在0的左邊,所以我們可以概率95%斷言以為1 小于2,其它二個區(qū)間包含0點,雖然從點估計角度看程度均值估計有差別,但這種差別在0.05程度上是不顯著的。 0.9751 1(21) 38.11438 8t121323:48.875038.1143 86.9893,10.7607:2038.1143 58.11433, 18.1143:28.875038.1143 9.2393, 66.9893 1343.6171 36.65548.2.2 多重比較問題 對每一組(i, j), (

22、8.2.1) 給出的區(qū)間的置信程度都是1 ,但對多個這樣的區(qū)間,要求其同時成立,其結(jié)合置信程度就不再是1 了。 譬如,設(shè)E1 , , Ek是k個隨機事件,且有 P(Ei)=1,i=1 ,k ,那么其同時發(fā)生的概率 這闡明它們同時發(fā)生的概率能夠比1 小很多。 為了使它們同時發(fā)生的概率不低于1,一個方法是把每個事件發(fā)生的概率提高到1 /k. 這將導致每個置信區(qū)間過長,結(jié)合置信區(qū)間的精度很差,普通人們不采用這種方法。 111()1()1()1kkkiiiiiiPEPEP Ek 在方差分析中,假設(shè)經(jīng)過F檢驗回絕原假設(shè),闡明因子A是顯著的,即r個程度對應(yīng)的程度均值不全相等,此時,我們還需求進一步確認哪些

23、程度均值間是確有差別的,哪些程度均值間無顯著差別。 同時比較恣意兩個程度均值間有無明顯差別的問題稱為多重比較,多重比較即要以顯著性程度同時檢驗如下r(r1)/2個假設(shè): 8.2.2 0:,1,ijijHijr 直觀地看,當H0ij成立時, 不應(yīng)過大,因此,關(guān)于假設(shè)(8.2.2)的回絕域應(yīng)有如下方式 諸臨界值應(yīng)在8.2.2成立時由P(W)= 確定。下面分反復數(shù)相等和不等分別引見臨界值確實定。 .1|ijijij rWyyc .|ijyy 8.2.3 反復數(shù)相等場所的T法 在反復數(shù)相等時,由對稱性自然可以要求諸cij相等,記為c. 記 ,那么由給定條件不難有 2/eeSf. () /iiieytt

24、 fm 于是當 (8.2.2) 成立時,1= r = ,可推出 其中 ,稱為t化極差統(tǒng)計量,其分布可由隨機模擬方法得到。 于是 , 其中q1(r, fe)表示q(r, fe)的1 分位數(shù),其值在附表8中給出。 ()( ,)/eP WP q r fmc.()()( ,)maxmin/jieijyyq r fmm1( ,)/ecqr fm 反復數(shù)一樣時多重比較可總結(jié)如下:對給定的的顯著性程度 ,查多重比較的分位數(shù)q(r,fe)表,計算 ,比較諸 與c的大小,假設(shè) 那么以為程度Ai與程度Aj間有顯著差別,反之,那么以為程度Ai與程度Aj間無明顯差別。這一方法最早由Turkey提出,因此稱為T法。 1

25、( ,)/ecqr fm.|ijyy.|ijyyc 例8.2.2 繼續(xù)例8.1.2,假設(shè)取 =0.05,那么查表知q1-0.05(3, 21)=3.57,而 。所以 ,以為1與2有顯著差別 ,以為1與3無顯著差別 ,以為2與3有顯著差別 這闡明: 1與3之間無顯著差別,而它們與2之間都有顯著差別。 36.65543.57 36.6554/846.2659c 1.2.| 48.87546.2659yy1.3.| 2046.2659yy2.3.| 46.87546.2659yy在反復數(shù)不等時,假設(shè)假設(shè) (8.2.2) 成立,那么 或 從而可以要求 ,在此要求下可推出.() ()11ijijeijy

26、ytt fmm2.2()(1,)11()ijijeijyyFFfmm11ijijccmm21()(max( /) )ij rijP WPFc 可以證明 ,從而 亦即1max(1,)1ij rijeFF rfr 21(1,)( /)1eFrfcr2111(1)(1,)()ijeijcrFrfmm 例8.2.3 在例8.1.4中,我們指出包裝方式對食品銷量有明顯的影響,此處r=4, fe =6, ,假設(shè)取 =0.05 ,那么F0.95(3,6)=4.76。留意到m1= m4=2,m2= m3=3,故27.671213243414233 4.76 (1/2 1/3) 7.679.63 4.76 (1

27、/2 1/2) 7.6710.53 4.76 (1/3 1/3) 7.678.5cccccc 由于 這闡明A1 , A2 , A3間無顯著差別,A1 , A2與A4有顯著差別,但 A4與A3 的差別卻尚未到達顯著程度。綜合上述,包裝A4銷售量最正確。 1.2.121.3.131.4.142.3.232.4.243.4.34| 2,| 4,| 12| 6,| 14,| 8yycyycyycyycyycyyc 在進展方差分析時要求r個方差相等,這稱為方差齊性。實際研討闡明,當正態(tài)性假定不滿足時對F檢驗影響較小,即F檢驗對正態(tài)性的偏離具有一定的穩(wěn)健性,而F檢驗對方差齊性的偏離較為敏感。所以r個方差的

28、齊性檢驗就顯得非常必要。 所謂方差齊性檢驗是對如下一對假設(shè)作出檢驗: 8.3.1 22220121riHvsH:諸不全相等 很多統(tǒng)計學家提出了一些很好的檢驗方法,這里引見幾個最常用的檢驗,它們是: Hartley檢驗,僅適用于樣本量相等的場所; Bartlett檢驗,可用于樣本量相等或不等 的場所,但是每個樣本量不得低于5; 修正的Bartlett檢驗,在樣本量較小或較 大、相等或不等場所均可運用。 當各程度下實驗反復次數(shù)相等時,即m1=m2=mr=m,Hartley提出檢驗方差相等的檢驗統(tǒng)計量: 8.3.2 這個統(tǒng)計量的分布無明顯的表達式,但在諸方差相等條件下,可經(jīng)過隨機模擬方法獲得H分布的

29、分位數(shù),該分布依賴于程度數(shù)r 和樣本方差的自在度f=m1,因此該分布可記為H (r,f),其分位數(shù)表列于附表10上。 2221222212max,min,rrsssHsss 直觀上看,當H0成立,即諸方差相等12 =22=r2時,H的值應(yīng)接近于1,當H的值較大時,諸方差間的差別就大,H愈大,諸方差間的差別就愈大,這時應(yīng)回絕 (8.3.1)中的H0。由此可知,對給定的顯著性程度 ,檢驗H0的回絕域為 W=H H1(r, f ) 8.3.3 其中H1(r, f )為H分布的1 分位數(shù)。 例8.3.1 有四種不同牌號的鐵銹防護劑簡稱防銹劑,現(xiàn)要比較其防銹才干。數(shù)據(jù)見表8.3.1。 這是一個反復次數(shù)相

30、等的單因子實驗。我們思索用方差分析方法對之進展比較分析,為此,首先要進展方差齊性檢驗。 本例中,四個樣本方差可由表8.3.1中諸Qi求出,即 由此可得統(tǒng)計量H的值 在 =0.05時,由附表10查得H0.95(4,9) =6.31,由于H d 8.3.4 Bartlett證明了,檢驗的回絕域為 W=B 1- 2 (r-1) 8.3.8 思索到這里2分布是近似分布,在諸樣本量mi均不小于5時運用上述檢驗是適當?shù)摹?例8.3.2 為研討各產(chǎn)地的綠茶的葉酸含量能否有顯著差別,特選四個產(chǎn)地綠茶,其中A1制造了7個樣品, A2制造了5個樣品, A3與A4各制造了6個樣品,共有24個樣品,按隨機次序測試其葉

31、酸含量,測試結(jié)果如表8.3.3所示。 為能進展方差分析,首先要進展方差齊性檢驗,從表8.3.3中數(shù)據(jù)可求得s12=2.14, s22=2.83, s32=2.41, s42=1.12,再從表8.3.4上查得MSe =2.09,由(8.3.6),可求得 再由(8.3.7),還可求得Bartlett檢驗統(tǒng)計量的值 對給定的顯著性程度 =0.05,查表知0.952 (41) =7.815。由于B7.815,故應(yīng)保管原假設(shè)H0,即可以為諸程度下的方差間無顯著差別。 11111111.08563(4 1)645520C 120 ln2.096 ln2.144 ln2.835 ln2.41 5 ln1.1

32、20.9701.0856B 針對樣本量低于5時不能運用Bartlett檢驗的缺陷,Box提出修正的Bartlett檢驗統(tǒng)計量 8.3.9 其中B與C如8.3.7與8.3.6所示,且21()f BCBf ABC 2122211,(1)22/frfrfACCf 在原假設(shè)H0:12 =22=r2成立下,Box還證明了統(tǒng)計量 的近似分布是F分布F(f1, f2),對給定的顯著性程度 ,該檢驗的回絕域為 8.3.10 其中f2的值能夠不是整數(shù),這時可經(jīng)過對F分布的分位數(shù)表施行內(nèi)插法得到分位數(shù)。 B112(,)WBFff 例8.3.3 對例8.3.2中的綠茶葉酸含量的數(shù)據(jù),我們用修正的Bartlett檢驗

33、再一次對等方差性作出檢驗。 在例8.3.2中已求得:C=1.0856,B=0.970,還可求得: 對給定的顯著性程度 =0.05,在F分布的分位數(shù)表上可查得 F0.95(3,682.4)= F0.95(3,)=2.60 由于 2.60,故保管原假設(shè)H0,即以為四個程度下的方差間無顯著差別。 B1224 134 1682.4(1.08561)682.4743.92 1.08562/682.4682.4 0.970 1.08560.3223(743.90.970 1.0856)ffCAB 8.4.1 變量間的兩類關(guān)系 十九世紀,英國生物學家兼統(tǒng)計學家高爾頓研討發(fā)現(xiàn): 其中x表示父親身高, y 表示

34、成年兒子的身高單位:英寸,1英寸=2.54厘米。這闡明子代的平均高度有向中心回歸的意思,使得一段時間內(nèi)人的身高相對穩(wěn)定。之后回歸分析的思想浸透到了數(shù)理統(tǒng)計的其它分支中。 33.730.516yx 回歸分析便是研討變量間相關(guān)關(guān)系的一門學科。它經(jīng)過對客觀事物中變量的大量察看或?qū)嶒灚@得的數(shù)據(jù),去尋覓隱藏在數(shù)據(jù)背后的相關(guān)關(guān)系,給出它們的表達方式回歸函數(shù)的估計。 變量間的相關(guān)關(guān)系不能用完全確切的函數(shù)方式表示,但在平均意義下有一定的定量關(guān)系表達式,尋覓這種定量關(guān)系表達式就是回歸分析的主要義務(wù)。 回歸分析處置的是變量與變量間的關(guān)系。變量間常見的關(guān)系有兩類:確定性關(guān)系與相關(guān)關(guān)系。 8.4.2 一元線性回歸模型

35、 設(shè)y與x間有相關(guān)關(guān)系,稱x為自變量(預告變量),y為因變量(呼應(yīng)變量),在知道x取值后,y有一個分布p(yx),我們關(guān)懷的是y的均值E(Yx): (8.4.1) 這便是y關(guān)于x的實際回歸函數(shù)條件期望,也就是我們要尋覓的相關(guān)關(guān)系的表達式。 通常,相關(guān)關(guān)系可用下式表示 y =f (x)+ 其中是隨機誤差,普通假設(shè) N(0, 2)。 ( )(|)(|)fxE Yxyp yx dy 例8.4.1 合金的強度y (107Pa) 與合金中碳的含量x (%) 有關(guān)。為研討兩個變量間的關(guān)系。首先是搜集數(shù)據(jù),我們把搜集到的數(shù)據(jù)記為(xi,yi),i=1,2,n。本例中,我們搜集到12組數(shù)據(jù),列于表8.4.1中

36、 進展回歸分析首先是回歸函數(shù)方式的選擇。當只需一個自變量時,通??刹捎卯嬌Ⅻc圖 的方法進展選擇。序號x(%)y (107Pa)序號x(%)y (107Pa)10.1042.070.1649.020.1143.080.1753.030.1245.090.1850.040.1345.0100.2055.050.1445.0110.2155.060.1547.5120.2360.0 為找出兩個量間存在的回歸函數(shù)的方式,可以畫一張圖:把每一對數(shù)(xi,yi)看成直角坐標系中的一個點,在圖上畫出n個點,稱這張圖為散點圖,見圖8.4.1 0 .1 00 .1 50 .2 04 05 06 0碳含量合 金

37、鋼 強 度圖8 .4 .1 合金鋼強度及碳含量的散點圖 從散點圖我們發(fā)現(xiàn)12個點根本在一條直線附近,這闡明兩個變量之間有一個線性相關(guān)關(guān)系,這個相關(guān)關(guān)系可以表示為 y =0+ 1x+ (8.4.2) 這便是y關(guān)于x的一元線性回歸的數(shù)據(jù)構(gòu)造式。通常假定 E() =0, Var() = 2 (8.4.3) 在對未知參數(shù)作區(qū)間估計或假設(shè)檢驗時,還需求假定誤差服從正態(tài)分布,即 y N(0+ 1x, 2 ) (8.4.4) 顯然,假定(8.4.4) 比 (8.4.3) 要強。 由于 0, 1均未知,需求我們從搜集到的數(shù)據(jù)(xi,yi),i=1,2,n,出發(fā)進展估計。在搜集數(shù)據(jù)時,我們普通要求察看獨立地進展

38、, 即假定y1, y2, yn,相互獨立。綜合上述諸項假定,我們可以給出最簡單、常用的一元線性回歸的數(shù)學模型: (8.4.5) 0121,2, (0,) iiiiyxinN,各 獨立同分布,其分布為 由數(shù)據(jù)(xi,yi),i=1,2,n,可以獲得0, 1的估計 ,稱 (8.4.6) 為y關(guān)于x的閱歷回歸函數(shù),簡稱為回歸方程,其圖形稱為回歸直線。給定x=x0后, 稱 為回歸值在不同場所也稱其為擬合值、預測值。 01,01 yx0010 yx 普通采用最小二乘方法估計模型(8.4.5)中的0, 1 :令: 應(yīng)該滿足 稱這樣得到的 稱為0, 1的最小二乘估計,記為LSE。 01,01,201011(

39、,)()niiiQyx10101,(,)min(,)QQ 最小二乘估計可以經(jīng)過求偏導數(shù)并命其為0而得到: (8.4.7) 這組方程稱為正規(guī)方程組,經(jīng)過整理,可得 (8.4.8) 011001112()02()0niiiniiiiQyxQyx x 01201iiinnxnynxxx y解(8.4.8)可得 8.4.9這就是參數(shù)的最小二乘估計,其中 101/xyxxllyx222222222211,1()()1()1()iixyiiiiiiiixxiiiiyyiiiixxyynnlxxyyx ynx yx yxynlxxxnxxxnlyyynyyyn xi=1.90n=12yi=590.5xi2=

40、0.3194xi yi =95.9250yi2=29392.75lxx=0.0186lxy=2.4292lyy=335.2292由此給出回歸方程為: 28.5340 130.6022yx例8.4.2 運用例8.4.1種合金鋼強度和碳含量 數(shù)據(jù),我們可求得回歸方程,見下表. 0.1583x 49.2083y 20.3008nx 93.4958n x y229057.5208ny 1/130.6022xyxxll0128.5340yx 定理8.4.1 在模型(8.4.5)下,有 1 2 3對給定的x0,22200111,xxxxxNNnll,201Covxxxl ,220001 001 0()1x

41、xxxyxNxnl,關(guān)于最小二乘估計的一些性質(zhì)羅列在如下定理之中 定理8.4.1 闡明 分別是0, 1的無偏估計; 01, 是E(y0)=0+ 1 x0的無偏估計; 0 y 除 外, 與 是相關(guān)的; 0 x10 要提高 的估計精度即降低它們的方 差就要求n大,lxx大即要求x1, x2, xn較 分散。 01, 在運用回歸方程作進一步的分析以前,首先應(yīng)對回歸方程能否有意義進展判別。 假設(shè)1=0,那么不論x如何變化,E(y)不隨x的變化作線性變化,那么這時求得的一元線性回歸方程就沒有意義,稱回歸方程不顯著。假設(shè)10,E(y)隨x的變化作線性變化,稱回歸方程是顯著的。 綜上,對回歸方程能否有意義作

42、判別就是要作如下的顯著性檢驗:H0:1=0 vs H1: 10 回絕H0表示回歸方程是顯著的。一、F 檢驗 采用方差分析的思想,我們從數(shù)據(jù)出發(fā)研討各yi不同的緣由。 數(shù)據(jù)總的動搖用總偏向平方和 表示。引起各yi不同的緣由主要有兩個要素:其一是H0能夠不真,E(y)隨x的變化而變化,從而在每一個x的觀測值處的回歸值不同,其動搖用回歸平方和 表示;其二是其它一切要素,包括隨機誤差、x對E(y)的非線性影響等,這可用殘差平方和 表示。 且有如下平方和分解式: ST= SR + Se (8.4.13) 在一元線性回歸中有三種等價的檢驗方法,下面分別加以引見。2()TiyySyyl2()RiSyy2()

43、eiiSyy定理8.4.2 設(shè)yi=i+ 1 xi + i,其中i n相互獨立, 且Ei=0,Var(yi)= 2,i=1,n,沿用上面的記號,有 (8.4.14) (8.4.15) 這闡明 是 2的無偏估計。 關(guān)于SR 和 Se所含有的成分可由如下定理闡明。 221()RxxE Sl2()(2)eE Sn2/(2)eSn定理8.4.3 設(shè) y1, y2, yn 相互獨立,且 yiN(i + 1 xi , 2), i=1, , n, 那么在上述記號下,有 1Se / 2 2(n2), 2假設(shè)H0成立,那么有SR / 2 2(1) 3 SR與Se , 獨立或 與Se , 獨立。 yy1 好像方差

44、分析那樣,我們可以思索采用F比作為檢驗統(tǒng)計量: 在1 =0時,F(xiàn)F(1, n2),其中fR =1, fe =n2. 對于給定的顯著性程度,回絕域為 F F1-(1, n2) 整個檢驗也可列成一張方差分析表。 /(2)ReSFSn來源平方和自在度均方和F比回歸SR =317.2589fA=1MSA=317.2589176.55殘差Se =17.9703fe=10MSe= 1.79703總和ST =335.2292fT=11例8.4.3 在合金鋼強度的例8.4.2中,我們已求出了回歸方程,這里我們思索關(guān)于回歸方程的顯著性檢驗。經(jīng)計算有 假設(shè)取=0.01,那么F0.99(1,10) =103.169

45、8,因此,在顯著性程度0.01下回歸方程是顯著的。 130.602213.28721.7970 /0.0186t 三、相關(guān)系數(shù)檢驗 一元線性回歸方程是反映兩個隨機變量x與y間的線性相關(guān)關(guān)系,它的顯著性檢驗還可經(jīng)過對二維總體相關(guān)系數(shù)的檢驗進展。它的一對假設(shè) 是 H 0 : = 0 v s H 1 : 0 (8.4.18) 所用的檢驗統(tǒng)計量為樣本相關(guān)系數(shù) (8.4.19) 回絕域為W=rc,其中臨界值c應(yīng)是H0: =0成立下r的分布的1 分位數(shù),故記為c=r1- (n2). 22()()()()xyiixx yyiilxxyyrl lxxyy 由樣本相關(guān)系數(shù)的定義可以得到 r與F統(tǒng)計量之間的關(guān)系

46、這闡明, r是F的嚴厲單調(diào)增函數(shù),故可以從F分布的1 分位數(shù) F1-(1, n2) 得到 r 的1 分位數(shù)為2(2)FrFn111(1,2)(2)(1,2) 1FncrnFn 譬如,對 =0.01,n=12, F0.99(1,10)=10.04 ,于是 。 為實踐運用方便,人們已對r1- (n-2)編制了專門的表,見附表9。 以例8.4.2中數(shù)據(jù)為例,可以計算得到 假設(shè)取 =0.01,查附表9知 r0.99(10)=0.708, 由于0.97280.708,因此,在顯著性程度0.01下回歸方程是顯著的。 0.9910.04(10)0.70810.041r2.42920.97280.018633

47、5.2292r 8.4.5 估計與預測 當回歸方程經(jīng)過檢驗是顯著的后,可用來做估計和預測。這是二個不同的問題: 1當x=x0時,尋求均值E(y0)=0+ 1 x0的點估計與區(qū)間 估計留意這里E(y0)是常量是估計問題; 2當x=x0時,y0的察看值在什么范圍內(nèi)?由于y0是隨機 變量,為此只能求一個區(qū)間,使y0落在這一區(qū)間的概 率為1- ,即要求,使 稱區(qū)間 為y0的概率為1- 的預測區(qū)間, 這是預測問題。 00()1P yy 00,yy一、 E(y0)的估計 在x=x0時,其對應(yīng)的因變量y0是一個隨機變量,有一個分布,我們經(jīng)常需求對該分布的均值給出估計。由于E(y0)=0+ 1 x0,一個直觀

48、的估計應(yīng)為 我們習慣上將上述估計記為 留意這里 表示的是E(y0)的估計,而不表示y0的估計,由于y0是隨機變量,它是沒有估計的。由于 分別是0, 1的無偏估計,因此, 也是E(y0)的無偏估計。 0 y0 y0 y01,0010()E yx 為得到E(y0)的區(qū)間估計,我們需求知道 的分布。由定理8.4.1, 又由定理8.4.3知, Se / 2 2(n-2),且與 相互獨立,故010()yyxx2200010010()1xxxxyxNxnl,200000202()1()/ (2)()1/(2)xxexxxxyEynlyEyt nSxxnnl0 y于是E(y0)的1 的置信區(qū)間CI是 8.4

49、.20其中 8.4.212001/2()1(2)xxxxtnnl0000,yy 二、 y0的預測區(qū)間 適用中往往更關(guān)懷x=x0時對應(yīng)的因變量y0的取值范圍。 y0的最能夠取值為 ,于是,我們可以運用以 為中心的一個區(qū)間 作為y0的取值范圍。經(jīng)推導, 的表達式為 (8.4.23 上述預測區(qū)間PI與E(y0)的置信區(qū)間的差別就在于根號里多個1。 0 y0 y00(,)yy2001/2()1()(2)1xxxxxtnnl 預測區(qū)間的長度2與樣本量n、x的偏向平方和lxx、 x0 到 的間隔 有關(guān)。 當 時,預測精度能夠變得很差,在這種情況下的預測稱作外推,需求特別小心。另外,假設(shè)x1, x2, xn

50、較為集中時,那么lxx就較小,也會導致預測精度的降低。因此,在搜集數(shù)據(jù)時要使x1, x2, xn盡量分散,這對提高精度有利。 當n較大時如n 30), t分布可以用正態(tài)分布近似,進一步,假設(shè)x0與 相差不大時, 可以近似取為 。 0|xxx0(1)( ),nxxxx1/2u 例8.4.4 在例8.4.2中,假設(shè)x0=0.16,那么得預測值為 假設(shè)取 =0.05,那么t0.975(10)=2.2281, 又 ,運用(8.4.21), 故x0=0.16對應(yīng)因變量y0的均值E(y0)的0.95置信區(qū)間為(49.4328-1.0480, 49.4328+1.0480) =(48.3488, 50.51

51、68)028.5364 130.6022 0.1649.4328y 17.9703/(122)1.3405201(0.160.19)1.3405 2.22811.0840120.0186 運用(8.4.23), 從而y0的概率為0.95的預測區(qū)間為 E(y0)的0.95置信區(qū)間比y0的概率為0.95的預測區(qū)間窄很多,這是由于隨機變量的均值相對于隨機變量本身而言要更容易估計出來。 21(0.160.19)1.3405 2.228113.1774120.0186(49.4328 3.1774,49.43283.1774)(46.2554,52.6102) 例 8.5.1 煉鋼廠出鋼水時用的鋼包,在運用過程中由于鋼水及爐渣對耐火資料的浸蝕,其容積不斷增大。如今鋼包的容積用盛滿鋼水時的分量y (kg)表示,相應(yīng)的實驗次數(shù)用x表示。數(shù)據(jù)見表8.5.1,要找出y 與x的定量關(guān)系表達式。 序號xy序號xy12106.42811110.5923108.20914110.603

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論