![第八章直線相關(guān)與回歸分析_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/7/9d44621d-0c63-4cee-8a4f-9e583b3da3c1/9d44621d-0c63-4cee-8a4f-9e583b3da3c11.gif)
![第八章直線相關(guān)與回歸分析_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/7/9d44621d-0c63-4cee-8a4f-9e583b3da3c1/9d44621d-0c63-4cee-8a4f-9e583b3da3c12.gif)
![第八章直線相關(guān)與回歸分析_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/7/9d44621d-0c63-4cee-8a4f-9e583b3da3c1/9d44621d-0c63-4cee-8a4f-9e583b3da3c13.gif)
![第八章直線相關(guān)與回歸分析_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/7/9d44621d-0c63-4cee-8a4f-9e583b3da3c1/9d44621d-0c63-4cee-8a4f-9e583b3da3c14.gif)
![第八章直線相關(guān)與回歸分析_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/7/9d44621d-0c63-4cee-8a4f-9e583b3da3c1/9d44621d-0c63-4cee-8a4f-9e583b3da3c15.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、第十章 一元回歸與相關(guān)分析概述:許多問題需要研究多個變量之間的關(guān)系,例如生物的生長發(fā)育速度就與溫度,營養(yǎng),濕度等許多因素有關(guān)。相關(guān)關(guān)系:兩變量X,Y均為隨機變量,任一變量的每一可能值都有另一變量的一個確定分布與之對應(yīng)。回歸關(guān)系:X是非隨機變量(如施肥)或隨機變量(如穗長),Y是隨機變量,對X的每一確定值xi都有Y的一個確定分布與之對應(yīng)。區(qū)別:1.相關(guān)中的兩個變量地位對稱,互為因果;回歸中X是自變量,Y是因變量。兩種意義不同,分析的數(shù)學(xué)概念與推導(dǎo)過程不同,但如果使用共同標(biāo)準(zhǔn)即使y的殘差平方和最?。ㄗ钚《朔ǎ?,可得到相同的參數(shù)估計式。因此主要討論X為非隨機變量(不包含有隨機誤差)的情況,所得到的
2、參數(shù)估計式也可用于X為隨機變量的情況。2.分析目的不同。回歸分析是建立X與Y之間的數(shù)學(xué)關(guān)系式,用于預(yù)測;而相關(guān)分析研究X與Y兩個隨機變量之間的共同變化規(guī)律,例如當(dāng)X增大時Y如何變化,以及這種共變關(guān)系的強弱。分類:從兩個變量間相關(guān)(或回歸)的程度分三種:(1)完全相關(guān)。一個變量的值確定后,另一個變量的值可通過公式求出(函數(shù)關(guān)系);生物學(xué)研究中不太多見。(2)不相關(guān)。變量之間完全沒有任何關(guān)系。一個變量的值不能提供另一個變量的任何信息。(3)統(tǒng)計相關(guān)(不完全相關(guān))。介于上述兩情況之間。知道一個變量的值通過某種公式就可以提供另一個變量的均值的信息。一個變量的取值不完全決定另一個變量的取值,但可或多或少
3、地決定它的分布。科研中最常遇到。研究“一因一果”,即一個自變量與一個依變量的回歸分析稱為一元回歸分析;研究“多因一果”,即多個自變量與一個依變量的回歸分析稱為多元回歸分析。一元回歸分析又分為直線回歸分析與曲線回歸分析兩種;多元回歸分析又分為多元線性回歸分析與多元非線性回歸分析兩種。對兩個變量間的直線關(guān)系進行相關(guān)分析稱為直線相關(guān)分析;研究一個變量與多個變量間的線性相關(guān)稱為復(fù)相關(guān)分析;研究其余變量保持不變的情況下兩個變量間的線性相關(guān)稱為偏相關(guān)分析。 注意:1.相關(guān)與回歸只是一種工具,不是不相干的數(shù)據(jù)拼湊在一起。 2.除X、Y等需研究的因素外,其他的要嚴(yán)格控制一致。(身高與胸圍的關(guān)系要控制體重) 3
4、.對子一般在5對以上4.需限制自變量范圍,結(jié)果不能隨意外延。第一節(jié) 一元線性回歸(一)直線回歸方程的建立對于兩個相關(guān)變量,一個變量用x表示,另一個變量用y表示,如果通過試驗或調(diào)查獲得兩個變量的n對觀測值:(x1,y1),(x2,y2),(xn,yn)為直觀看出x和y間的變化趨勢,可將每一對觀測值在平面直角坐標(biāo)系描點,作出散點圖例11.1對大白鼠從出生第6天起,每三天稱一次體重,直到第18天。數(shù)據(jù)見表11.1。試計算日齡X與體重Y之間的回歸方程。表11.1 大白鼠6-18日齡的體重序號12345日齡xi69121518體重yi1116.5222629散點圖對X、Y之間的關(guān)系有直觀的、整體上的印象
5、,但是否有某種規(guī)律性,是接近一條直線還是一條曲線等,哪一條直線或曲線可以最好地代表X, Y之間的關(guān)系,不能做出判斷。圖11.1 大白鼠日齡體重關(guān)系圖一、 一元正態(tài)線性回歸統(tǒng)計模型:對于每個Y的觀察值yi來說,由于總是帶有隨機誤差,觀察值就應(yīng)該是在均值的基礎(chǔ)上再加上一個隨機誤差,即:(11.2)其中。隨機誤差服從正態(tài)分布。這是一元正態(tài)線性回歸的統(tǒng)計模型。二、 參數(shù)和的估計模型中的和是參數(shù),一般不知道。由于只能得到有限的觀察數(shù)據(jù),無法算出準(zhǔn)確的與的值,只能求出估計值a和b,并得到y(tǒng)i的估計值為:(11.3)a和b應(yīng)使殘差最小。為了避免使正負(fù)ei互相抵消,定義使殘差平方和達到最小的直線為回歸線,即令
6、:,且SSe對a、b的一階偏導(dǎo)數(shù)等于0得: 整理后,得(11.4)解此方程,得:這種方法稱為最小二乘法記 ,稱為X的校正平方和;,稱為Y的總校正平方和;,稱為校正交叉乘積和,則: (11.7)a叫樣本回歸截距,是回歸直線與y軸交點的縱坐標(biāo),當(dāng)x=0時, =a;b叫樣本回歸系數(shù),表示x 改變一個單位,y平均改變的數(shù)量;b 的符號反映了x影響y的性質(zhì),b的絕對值大小反映了x 影響y 的程度;叫做回歸估計值,是當(dāng)x在在其研究范圍內(nèi)取某一個值時,y值平均數(shù)x的估計值回歸方程的基本性質(zhì):1最小2 0 3.直線通過(,)轉(zhuǎn)化后得到回歸方程的另一種形式(中心化形式):在實際計算時,可采用以下公式:例11.1
7、 對大白鼠從出生第6天起,每三天稱一次體重,直到第18天。數(shù)據(jù)見表11.1。試計算日齡X與體重Y之間的回歸方程。表5.1 大白鼠6-18日齡的體重序號12345日齡xi69121518體重yi1116.5222629解:把數(shù)據(jù)代入上述公式,得:即:所求的回歸方程為:y = 2.6996 +1.5167 x帶有統(tǒng)計功能的計算器,只需把數(shù)據(jù)依次輸入,然后按一下鍵就可得到上述結(jié)果。根據(jù)直線回歸方程可作回歸直線,并不是所有的散點都恰好落在回歸直線上,說明用去估計y是有偏差的。三、直線回歸的偏離度估計偏差平方和的大小表示了實測點與回歸直線偏離的程度,因而偏差平方和又稱為離回歸平方和。統(tǒng)計學(xué)已經(jīng)證明:在直
8、線回歸分析中離回歸平方和的自由度為n-2。于是可求得離回歸均方為:離回歸均方是模型中2的估計值。離回歸均方的平方根叫離回歸標(biāo)準(zhǔn)誤,記為,即Syx的大小表示了回歸直線與實測點偏差的程度,即回歸估測值與實際觀測值y偏差的程度,于是把離回歸標(biāo)準(zhǔn)誤Syx用來表示回歸方程的偏離度。以后將證明:利用此式先計算出,然后再求Syx。四、直線回歸的顯著性檢驗x和y變量間即使不存在直線關(guān)系,但由n對觀測值(xi,yi)也可以根據(jù)上面的方法求得一個回歸方程。顯然,這樣的回歸方程所反應(yīng)的兩個變量間的直線關(guān)系是不真實的。需要判斷直線回歸方程的真實性。先探討依變量y的變異,然后再作出統(tǒng)計推斷。1、 直線回歸的變異來源 的
9、分解圖1) 一元回歸的方差分析(1) 無重復(fù)的情況。y的總校正平方和可進行如下的分解:即: SSy = SSe + SSR y的總校正平方和 殘差平方和 回歸平方和自由度: n-1 n-2 1反映了y的總變異程度,稱為y的總平方和,記為SSy;反映了由于y與x間存在直線關(guān)系所引起的y的變異程度,稱為回歸平方和,記為SSR;反映了除y與x存在直線關(guān)系以外的原因,包括隨機誤差所引起的y的變異程度,稱為離回歸平方和或剩余平方和,記為SSe。把y的總校正平方和分解成了殘差平方和與回歸平方和。MSe可作為總體方差s2的估計量,而MSR可作為回歸效果好壞的評價。如果MSR僅由隨機誤差造成的話,說明回歸失敗
10、,X和Y沒有線性關(guān)系;否則它應(yīng)顯著偏大。因此可用統(tǒng)計量(11.10)對H0:b= 0進行檢驗。若F <Fa(1, n-2),則接受H0,否則拒絕。簡化公式:對例11.1作方差分析解:由以前計算結(jié)果: SSy =210.2,df = 4; SSe = 3.1704, df = 3, SSR = 210.2 3.1704 = 207.03, df = 1查表得F0.95(1, 3) = 10.13, F0.99(1, 3) = 34.12F > F0.99(1, 3),拒絕H0,差異極顯著。即應(yīng)認(rèn)為回歸方程有效。(2) 有重復(fù)的情況:設(shè)在每一個xi取值上對Y作了m次觀察,結(jié)果記為yi1
11、, yi2, yim, 則線性統(tǒng)計模型變?yōu)椋? i = 1, 2, n, j = 1, 2, m估計值仍為:現(xiàn)在y的總校正平方和可分解為:SSy = SSR + SSLOF + SSpe其中SSLOF稱為失擬平方和,SSpe為純誤差平方和,表達式和自由度分別為:可試證明上述分解中的三個交叉項均為0。統(tǒng)計檢驗步驟為:I. 令,它服從F(n-2, mn-n)若F檢驗差異顯著,則可能的原因有:(1)除X以外還有其他變量影響Y的取值,而統(tǒng)計時沒有加以考慮;(2)模型不當(dāng),即X與Y之間不是線性關(guān)系;此時無必要再進一步對MSR作檢驗,而應(yīng)想辦法找出原因,并把它消除后重作回歸。若差異不顯著,則把MSLOF和
12、MSpe合并,再對MSR作檢驗:II. ,它服從F(1, mn-2) 若差異顯著,說明回歸是成功的,X,Y間確有線性關(guān)系;若差異仍不顯著,則回歸失敗,其可能的原因為:(1)X,Y無線性關(guān)系;(2)誤差過大,掩蓋了X,Y間的線性關(guān)系。如有必要,可設(shè)法減小實驗誤差,或增加重復(fù)數(shù)重做實驗后再重新回歸。二)一元回歸的t檢驗由于MSe的自由度為n-2,因此上述兩方差的自由度也均為n-2。有了a和b的方差與均值,我們就可構(gòu)造統(tǒng)計量對它們進行檢驗:H0 : b = 0HA: b¹ 0 (雙側(cè)檢驗)或: HA: b > 0 (或b< 0)(單側(cè)檢驗)統(tǒng)計量:其中,Sb為回歸系數(shù)標(biāo)準(zhǔn)誤。當(dāng)
13、H0成立時,ta t(n-2),可查相應(yīng)分位數(shù)表進行檢驗。對例11.1中的b作t-檢驗:H0:b=0解:查表,t0.995(3)=5.841 < t, 差異極顯著,應(yīng)拒絕H0,即b¹0,或X與Y有著極顯著的線性關(guān)系。上述統(tǒng)計量還有一個用途:進行兩個回歸方程間的比較。即檢驗H0: b1=b2和H0: a1 = a2。如果兩H0均被接受,則可認(rèn)為兩組數(shù)據(jù)是抽自同一總體,從而可將兩回歸方程合并,得到一個更精確的方程。例11.3 兩組實驗數(shù)據(jù)如下:x19193949698102105108y16668697173788285x280828587899195y25557606264677
14、1是否可從它們得到統(tǒng)一的回歸方程?解:從原始數(shù)據(jù)計算可得:組別nSxxSyySxyMSeba1898.37574.0257.875336.0294.00.13571.140-38.152787.062.286162.0187.429174.00.10801.074-31.15(1). 首先檢驗總體方差是否相等:查表,F(xiàn)0.975(6, 5)=6.978>F, 接受H0,可認(rèn)為兩總體方差相等。計算公共的總體方差:(2). 檢驗回歸系數(shù)b1與b2是否相等:H0: b1 = b2; HA: b1 ¹b2查表,得t0.975(11)=2.201>t, 接受H0,可認(rèn)為兩回歸系數(shù)相
15、等。共同總體回歸系數(shù)的估計值為:(3). 再檢驗a1,a2是否相等:H0: a1 = a2;HA: a1¹a2查表,t0.975(11) = 2.201, 接受H0,可認(rèn)為: a1 = a2。若檢驗結(jié)果為a1¹a2,此題即可結(jié)束;但若檢驗結(jié)果為a1 = a2,則需把全部原始數(shù)據(jù)放在一起,重新進行回歸:Sxx = 902.9333, Sxy = 965.4667,Syy = 1035.7333, = 93.067, = 68.533, b= 1.0693, a=30.9787從而得到合并的回歸方程?,F(xiàn)在證明t檢驗與前述的F檢驗是一致的:前已證明:SSe = Syy b
16、15; Sxy, SSR = Syy SSe = b × Sxy,五、點估計與區(qū)間估計前邊已經(jīng)證明a和b是和的點估計;但作為預(yù)測值僅給出點估計是不夠的,一般要求給出區(qū)間估計,即給出置信區(qū)間。和的區(qū)間估計已經(jīng)證明a和b是和的點估計,并求出了它們的方差。因此給出置信區(qū)間就很容易了:的95%置信區(qū)間為:(11.13)同理a的95%置信區(qū)間為: (11.14)這與以前假設(shè)檢驗中的置信區(qū)間求法完全一樣。若置信水平為99%,把分位數(shù)相應(yīng)換為t0.995(n-2)即可。對例11.1中的a和b給出95%置信區(qū)間。解:從前邊的計算可知: a= 2.6996, b=1.5167, Sxx=90, MSe
17、= 1.0568, n=5, 查表,得t0.975(3)=3.182a的95%置信區(qū)間為: 2.6996±4.3887, 即(-1.6891, 7.0883)b的95%置信區(qū)間為:1.5167± 0.3448, 即(1.1719, 1.8615)第二節(jié) 相關(guān)分析直線相關(guān)分析是根據(jù)x、y的實際觀測值,計算表示兩個相關(guān)變量x、y間線性相關(guān)程度和性質(zhì)的統(tǒng)計量相關(guān)系數(shù)r并進行顯著性檢驗。一、 相關(guān)系數(shù)。例:(1)X 7 7 1 6 5 3 8 9 3 1 1 總和50 Y 5 9 6 1 3 1 9 4 6 6 6 總和52 (2)X 9 8 7 9 6 5 3 3 1 1 總和5
18、0 Y 9 9 8 6 6 5 4 3 1 1 總和52 (3)X 1 1 3 3 5 6 7 1 8 9 總和50 Y 9 9 8 6 6 5 4 3 1 1 總和52可見:(1)X、Y關(guān)系紊亂(2)X減小、Y也減?。?)X增大、Y減小作散點圖,如果再以X和Y的平均數(shù)作坐標(biāo)原點,將原散點圖劃分為四個象限,如果各點均勻分布則 0,落在2、4象限則小于0負(fù)相關(guān),落在1、3象限則大于0正相關(guān),為消除變異程度(n-1)和單位的影響,需除以標(biāo)準(zhǔn)差。根據(jù)以前的推導(dǎo)結(jié)果,有:性質(zhì):。當(dāng)時,從上式可看出SSe = 0,即用可以準(zhǔn)確預(yù)測y值。此時若X不是隨機變量,則Y也不是隨機變量了。當(dāng)r = 0時,SSe
19、= Syy,回歸一點作用也沒有,即用X的線性函數(shù)完全不能預(yù)測Y的變化。但這時X與Y間還可能存在著非線性的關(guān)系。當(dāng)時,情況介于上述二者之間隔。X的線性函數(shù)對預(yù)測Y的變化有一定作用,但不能準(zhǔn)確預(yù)測,這說明Y還受其他一些因素,包括隨機誤差的影響。綜上,r可以作為X,Y間線性關(guān)系強弱的一種指標(biāo)。非常直觀,接近于1就是線性關(guān)系強,接近于0就是線性關(guān)系弱;而其他統(tǒng)計量都需要查表后才知檢驗結(jié)果。二、決定系數(shù)和相關(guān)系數(shù)前面已經(jīng)證明了等式:從這個等式:y與x直線回歸效果的好壞取決于回歸平方和與離回歸平方和的大小,或者說取決于回歸平方和在y的總平方和中所占的比例的大小。這個比例越大,y與x的直線回歸效果就越好,反
20、之則差。比值叫做x 對y 的決定系數(shù),記為 r2,即決定系數(shù)的大小表示了回歸方程估測可靠程度的高低,或者說表示了回歸直線擬合度的高低。顯然有0r21。因為:而SPxy/SSx是以x為自變量、y為依變量時的回歸系數(shù)byx。若把y作為自變量、x作為依變量,則回歸系數(shù)bxy =SPxy/Ssy ,所以決定系數(shù)r2等于y對x的回歸系數(shù)與x對y的回歸系數(shù)的乘積。即決定系數(shù)反應(yīng)了x為自變量、y為依變量和y為自變量、x為依變量時兩個相關(guān)變量x與y直線相關(guān)的信息,即決定系數(shù)表示了兩個互為因果關(guān)系的相關(guān)變量間直線相關(guān)的程度。但決定系數(shù)介于0和1之間,不能反應(yīng)直線關(guān)系的性質(zhì)是同向增減或是異向增減。另外,r顯著即一
21、個顯著的回歸方程并不一定具有實踐上的預(yù)測意義如一個資料x 、y兩個變量間的相關(guān)系數(shù)r =0.5,在df = 24 時,r0.01(24) = 0.496,r>r0.01(24),表明相關(guān)系數(shù)極顯著。而r2=0.25,即x變量或y變量的總變異能夠通過y變量或x變量以直線回歸的關(guān)系來估計的比重只占25%,其余的 75% 的變異無法借助直線回歸來估計。計算相關(guān)系數(shù):根據(jù)公式三、相關(guān)系數(shù)的顯著性檢驗在一般情況下r不是正態(tài)分布,直接檢驗有困難。但當(dāng)總體相關(guān)系數(shù)= 0時,r的分布近似于正態(tài)分布,此時用MSe代替,就可以對作t檢驗。這種檢驗與對回歸系數(shù)b的檢驗:是等價的。可證明如下:b的t檢驗統(tǒng)計量為:t=b/Sb。 b=Sxy/Sxx, 代入t的表
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 產(chǎn)品推廣與營銷方案總結(jié)
- 私人心理咨詢服務(wù)免責(zé)協(xié)議書
- 廢舊物資購銷合同
- 股份制企業(yè)合同審查文書模板
- Unit 1 You and Me 大單元整體教學(xué)設(shè)計 2024-2025學(xué)年人教版英語七年級上冊
- 第3章開源硬件創(chuàng)意設(shè)計3.4審查并優(yōu)化方案 -高中教學(xué)同步《信息技術(shù)人工-開源硬件項目設(shè)計》教學(xué)設(shè)計(人教-中圖版2019)
- 川教版信息技術(shù)(2019)五年級上冊第三單元 圖形化編程之聰明的角色 2 偵測太空垃圾-教學(xué)設(shè)計
- 20《美麗的小興安嶺》教學(xué)設(shè)計-2024-2025學(xué)年三年級上冊語文統(tǒng)編版(五四制)
- 2025屆高考生物備考教學(xué)設(shè)計:第四章 細胞的生命歷程 課時1 細胞的增殖
- 第六單元課題3二氧化碳的實驗室制取教學(xué)設(shè)計-2024-2025學(xué)年九年級化學(xué)人教版上冊
- 預(yù)防深靜脈血栓VTE持續(xù)改進QCC品管圈PDCA案例3例
- 水環(huán)境綜合治理服務(wù)方案(技術(shù)標(biāo))
- 【原創(chuàng)】頭腦特工隊開的那些心理學(xué)腦洞
- 美甲藝術(shù)全套教學(xué)課件
- 中國古代餐具
- 上海市嘉定一中2023年高二數(shù)學(xué)第一學(xué)期期末質(zhì)量檢測試題含解析
- 施工日志模板
- 消費者起訴狀模板范文
- Agilent7820A氣相色譜儀操作規(guī)程知識講解
- 醫(yī)院招標(biāo)采購管理辦法及實施細則(試行)
- 中華人民共和國文物保護法學(xué)習(xí)課程PPT
評論
0/150
提交評論