版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
直線相關與回歸分析.復習1、方差分析的用途。2、方差分析的基本思路3、方差分析的出發(fā)點4、方差分析的步驟5、單因素方差分析中SST、SSt、SSe的含義及三者的關系。.第九章第一節(jié)第二節(jié)第三節(jié)回歸與相關的概念直線回歸直線相關本章節(jié)內容.第一節(jié):回歸與相關的概念
前面各章我們討論的問題,都只涉及到一個變量,如體重、日增重、產仔數、體溫、血糖濃度、產奶量、產毛量或孵化率、發(fā)病率等。但是,由于客觀事物在發(fā)展過程中相互聯(lián)系、相互影響,因而在生物學研究中常常要研究兩個或兩個以上變量間的關系。
.
一、確定的函數關系:變量間存在著完全確定性的一一對應關系,可以用精確的數學表達式來表示。
二、不完全確定的函數關系:變量間不存在完全的確定性關系,不能用精確的數學公式來表示,統(tǒng)計學中把這些變量間的關系稱為協(xié)變關系(相關關系),把存在協(xié)變關系的變量稱為協(xié)變量(相關變量)。
研究兩個或兩個以上變量間的關系有兩類:
.相關變量因果關系平行關系一個變量的變化受另一個變量或幾個變量的制約。兩個以上變量之間互為因果或共同受到另外因素的影響。.1、回歸分析(regressionanalysis)研究呈因果關系的相關變量間的關系。表示原因的變量稱為自變量,表示結果的變量稱為依變量。一因一果,一元回歸分析一個自變量與一個依變量的回歸分析,分為直線回歸分析與曲線回歸分析兩種。多因一果,多元回歸分析多個自變量與一個依變量的回歸分析,分為多元線性回歸分析與多元非線性回歸分析兩種。.回歸分析的任務:
揭示出呈因果關系的相關變量間的聯(lián)系形式,建立它們之間的回歸方程,利用所建立的回歸方程,由自變量(原因)來預測、控制依變量(結果)。
回歸分析主要包括:找出回歸方程;檢驗回歸方程是否顯著;通過回歸方程來預測或控制另一變量。.2、相關分析(correlationanalysis)
研究呈平行關系的相關變量之間的關系。簡單相關分析:對兩個變量間的直線關系進行相關分析,也稱為直線相關分析。復相關分析:對多個變量進行相關分析時,研究一個變量與多個變量間的線性相關;偏相關分析:
研究其余變量保持不變的情況下兩個變量間的線性相關。 ..第二節(jié):直線回歸
LinearRegression一、直線回歸方程的建立二、直線回歸的數學模型和基本假定三、直線回歸的假設檢驗四、直線回歸的區(qū)間估計.一、直線回歸方程的建立通過試驗或調查獲得兩個變量的n對觀測值:(x1,y1),(x2,y2),……,(xn,yn)。為了直觀地看出x和y間的變化趨勢,可將每一對觀測值在平面直角坐標系描點,作出散點圖。1、散點圖:x與y的關系散點圖.兩個變量間關系的性質(正向協(xié)同變化或負向協(xié)同變化)和程度(關系是否密切)兩個變量間關系的類型(直線型或曲線型)是否有異常觀測值的干擾
散點圖直觀地、定性地表示了兩個變量之間的關系。為了探討它們之間的規(guī)律性,還必須根據觀測值將其內在關系定量地表達出來。
從散點圖可以看出:.X每一個取值都有Y的一個正態(tài)分布與之對應。根據回歸的定義:
由于依變量y的實際觀測值總是帶有隨機誤差,因而依變量y的實際觀測值yi可用自變量x的實際觀測值xi表示為:(i=1,2,…,n)(6-1)
式中:α,β為未知參數,
i為相互獨立,且服從N(0,)的隨機變量。這就是直線回歸的數學模型。2、直線回歸的數學模型.總體線性回歸模型的圖示YX觀察值觀察值.總體線性回歸模型因變量自變量參數隨機誤差y條件平均數.為了描述X與Y間的數量關系,必須找出一個能代表Y的值與χi對應,這個代表值只能是當X=χi時,Y的平均數μy/X=χi。μy/X=χi稱為Y的條件平均數。如何估計μy/X=χi是直線回歸所要解決的問題。.根據回歸方程所畫出的直線稱為回歸線,b是直線的斜率,稱為回歸系數。多次重復的平均值所做的直線估計總體最理想實際應用中并不設置重復,而是直接用n對觀察值估計總體回歸線。怎樣通過實際觀測值得到總體回歸α
和β的最好點估計值a和b?.下一張
主頁
退出
上一張
設回歸直線方程為:(6-2)其中,是α的估計值,b是β的估計值。最小二乘估計法參數α,β的估計.建立樣本線性回歸方程的方法
最小二乘法實際觀察值與樣本回歸線上的點的距離的平方和最小xye1e2e3e4最小
原則:回歸直線是指所有直線中最接近散點圖全部散點的直線,即最好的直線是使總的估計誤差達到最小的直線。.最小最小二乘法(methodofleastsquare)a、b應使回歸估計值與實際觀測值的誤差平方和最小,即:最小這種使估計誤差平方之和達最小的參數估計方法稱為最小二乘法。.令Q對a、b的一階偏導數等于0,即:
整理得關于a、b的正規(guī)方程組:
解正規(guī)方程組,得:
.自變量x的離均差與依變量y的離均差的乘積和。
a叫做樣本回歸截距,是總體回歸截距的最小二乘估計值也是無偏估計值,是回歸直線與y軸交點的縱坐標,當x=0時,
y=a;
簡稱乘積和,記作SPxy或Ssxy
。
簡稱SSX
。b叫做樣本回歸系數,表示x改變一個單位,y平均改變的數量;b的符號反映了x影響y的性質,b的絕對值大小反映了x影響y的程度;.為最小值基本性質.變量1變量2收集數據散點圖溫度天數XY平均溫度(℃)歷期天數(d)
11.830.114.717.315.616.716.813.617.111.918.810.719.58.320.46.7.XY平均溫度(℃)歷期天數(d)
11.830.114.717.315.616.716.813.617.111.918.810.719.58.320.46.7..以上計算也可在回歸計算表中進行。序號kXiYiXi2XiYiYi212∑回歸方程計算表1(一級數據).∑Xi=
∑Yi=
n=
X=Y=∑Xi2=∑XiYi=∑Yi2=(∑Xi)2/n=(∑Xi∑Yi)/n=(∑Yi)2/n=SSx=SPxy=SSy=b=SPxy/SSx=a=y-bx=回歸方程計算表2(二級數據)注:x,y分別為X,Y的平均數.01020304010121416182022溫度天數(天)(℃)11.8-----20.4b的生物學意義:當溫度提高一個單位時,歷期縮短2.5317天。a的生物學意義:當溫度為0時,歷期是57.04天。根據直線回歸方程可作出回歸直線,見圖。從圖看出,并不是所有的散點都恰好落在回歸直線上,這說明用去估計y是有偏差的。.二、直線回歸的假設檢驗有意義指導實踐?是否真正存在線性關系回歸關系是否顯著.(一)對回歸方程的F檢驗1、直線回歸的變異來源yy-y實際值與估計值之差,剩余或殘差。y-y估計值與均值之差,它與回歸系數的大小有關。y=a+bxy-yy-y(x,y).依變量
y的平方和,總平方和,記SST或SS總?;貧w平方和USSR離回歸平方和QSSE.y的離均差,反映了y的總變異程度,稱為y的總平方和。說明未考慮x與y的回歸關系時y的變異。
它反映在y的總變異中由于x與y的直線關系,而使y變異減小的部分,在總平方和中可以用x解釋的部分。
SSR(U)值大,說明回歸效果好。為由x變異引起y變異的平方和,稱回歸平方和(regressionsumofsquares)USSR.誤差因素引起的平方和,反映了除去x與y的直線回歸關系以外的其余因素使y引起變化的大小。反映x對y的線性影響之外的一切因素對y的變異的作用,也就是在總平方和中無法用x解釋的部分。離回歸平方,誤差平方和,殘差(剩余)平方和(residualsumofsquares)SSEQ在散點圖上,各實測點離回歸直線越近,SSE
(Q)值越小,說明直線回歸的估計誤差越小。..直線回歸分析中,回歸自由度等于自變量的個數,只涉及到1個自變量df回歸=1df總=n-1df離回歸=n-2.Q/n-2離回歸標準差回歸估計標準誤剩余標準差離回歸方差.兩個變量是否存在線性關系,可采用F檢驗法進行??傮w回歸截踞總體回歸系數隨機誤差若x與y間不存在直線關系,則總體回歸系數β=0;若x與y間存在直線關系,則總體回歸系數β≠0.假設H0:兩變量間無線性關系HA:兩變量間有線性關系在無效假設存在下,回歸方差與離回歸方差的比值服從F分布。df1=1df2=n-22、F顯著性檢驗.H0:黏蟲孵化歷期平均溫度x與歷期天數y之間不存在線性關系HA:兩變量間有線性關系變異來源dfSSs2FF0.05F0.01
回歸1353.6628353.662889.89**5.9913.74
離回歸623.60603.9343
總變異7377.2688.檢驗線性回歸系數的顯著性,采用t檢驗法進行。(二)t檢驗b的方差:.df=n-2假設H0:β=0
HA:β≠0檢驗樣本回歸系數b是否來自β=0的雙變量總體,以推斷線性回歸的顯著性。
說明樣本回歸系數的變異程度不僅取決于誤差方差的大小,也取決于自變量X的變異程度。如果自變量X的變異程度大,即取值分散一些,則b的變異就會小一些,b就會穩(wěn)定一些,回歸方程所估計出的值就會精確一些。..否定H0:β=0,接受HA:β≠0,認為黏蟲孵化歷期平均溫度與歷期天數間有真實直線回歸關系。.同一概率值F(一尾)值(df1=1,df2=n-2)t值(兩尾)(df=n-2).
依變量對自變量的回歸關系是通過回歸系數來體現的,截距的大小對回歸關系沒有影響。當截距為0時,表示回歸直線通過原點(0,0)。有時需要檢驗回歸直線是否通過原點,就要對是否為0進行檢驗,可以利用t檢驗,為此需要先求出的期望和方差:(三)對截距的檢驗df=n-2假設H0:=0HA:≠0.與0的差異是極顯著的,也就是說沒有通過原點。.
特別要指出的是:利用直線回歸方程進行預測或控制時,一般只適用于原來研究的范圍,不能隨意把范圍擴大,因為在研究的范圍內兩變量是直線關系,這并不能保證在這研究范圍之外仍然是直線關系。若需要擴大預測和控制范圍,則要有充分的理論依據或進一步的實驗依據。利用直線回歸方程進行預測或控制,一般只能內插,不要輕易外延。.第三節(jié):直線相關LinearCorrelation一、相關系數和決定系數二、相關系數的假設檢驗三、相關系數的區(qū)間估計.一、相關系數xy線性關系了解x和y相關以及相關的性質相關系數.相關類型正相關負相關零相關.IIIIIIIVIIIIIIIVIIIIIIIV.IIIIIIIV正相關.IIIIIIIV正相關IIIIIIIV負相關.IIIIIIIV零相關.直線相關的兩個變量的相關程度和性質乘積和互變量(1)單位問題(2)x與y本身的變異會影響x與y之間的相關性?n這個統(tǒng)計量也稱為樣本協(xié)變量(covairance),表示Cov(x,y)。.rr可以用來比較不同雙變量的相關程度和性質。.樣本總體.兩個變量在相關系數計算中的地位是平等的,沒有自變量和依變量之分相關回歸區(qū)別聯(lián)系..用y可以準確預測y值x與y完全相關。完全正相關完全負相關散點圖上所有點必在一條直線上。.回歸一點作用也沒有,即用x的線性函數完全不能預測y值的變化。x與y之間不存在直線相關關系,這時散點圖分布紊亂,沒有直線的趨勢,但可能存在非線性關系。IIIIIIIV.x的線性函數對預測y值的變化有一定作用,但不能準確預測,說明y還受其他因素(包括隨機誤差)的影響。.相關系數(r)和決定系數(r2)
的區(qū)別(1)除去r=1和0的情況外,r2<r,這樣可以防止對相關系數所表示的相關程度作夸張的解釋。(2)r可正可負,r2取正,r2一般只用于表示相關程度而不表示相關性質。.溫度天數黏蟲孵化歷期平均溫度與歷期天數成負相關。x和y的變異有93.74%可用二者之間的線性關系來解釋。.H0:ρ=0
HA:ρ≠0r是一個統(tǒng)計量,反映線性關系強弱的指標。而由于可能存在抽樣誤差,并不能直接說明總體線性相關關系是否確實存在。對于相關系數r作顯著性檢驗的無效假設為ρ=0,即測定r來自ρ=0總體的概率,也就是判斷r所代表的總體是否存在直線相關??傮w相關系數ρ=0二、相關系數的假設檢驗.(一)假設檢驗:檢驗方法有:F檢驗t檢驗利用相關系數臨界值表1、F檢驗從兩個變量中任選出一個變量,求出它的平方和并將其剖分為相關平方和與非相關平方和。如選擇變量y,其平方和及其剖分為:式中:等式右邊的第1項為相關平方和;第2項為非相關平方和。.綜上所述,可歸納成方差分析表(analysisofvariancetable)S非相關2n-2SS非相關非相關n-1SS總總和S相關21SS相關相關F均方自由度平方和變異來源F=S相關2S非相關23.9623.6非相關7SS總總和353.71353.7相關F均方自由度平方和變異來源F=90.7﹡﹡F0.05F0.0113.745.99.F值的計算實際上可以不考慮,因為分母和分子都有它,可以約掉。如果選擇x并對其平方和進行剖分,結果一樣的。.(1)假設(2)水平(3)檢驗(4)推斷H0:ρ=0;HA:ρ≠0選取顯著水平α=0.01否定H0,接受HA;推斷r極顯著,黏蟲孵化歷期溫度與歷期天數之間存在著極顯著的直線相關關系。2、t檢驗.3、利用相關系數臨界表檢驗相關系數的假設檢驗可不計算t值,直接從附表12查出df=n-2時r的臨界值。
臨界值特點:當樣本對子數很少時,樣本相關系數很大時才會顯著;而當對子數大到100時,只要達到0.1946就顯著。.r經顯著性檢驗的結果呈不顯著時,便推斷兩變數間不存在相關關系,這時不能用r代表其相關密切程度。.三、相關系數的區(qū)間估計r值經假設檢驗達到顯著水平,需要由r估計總體相關系數ρ所在的區(qū)間。ρy(x1,y1)(x2,y2)(x3,y3)(xn,yn)X.ρ=0兩變量無直線相關關系ρ≠0兩變量有直線相關關系.正態(tài)分布..黏蟲孵化歷期溫度與歷期天數的總體相關系數ρ的95%的置信區(qū)間為(-0.9944,-0.8294)。.相關與回歸的聯(lián)系回歸方程的顯著性回歸系數的顯著性相關系數的顯著性一致xy.三者同時顯著或不顯著。r與b的符號一致,由兩變量離均差乘積之和的符號決定。相關與回歸的聯(lián)系.r:+,兩變量間的相互關系是同向變化的。b:+,x增(減)一個單位,y平均值增(減)b個單位。相關與回歸的聯(lián)系.用回歸解釋相關。相關與回歸的聯(lián)系.y關于x的直線回歸系數x關于y的直線回歸系數xy.回歸相關x是可以精確測量和嚴格控制的變量。y服從正態(tài)分布。x服從正態(tài)分布。y服從正態(tài)分布。I型回歸II型回歸相關與回歸的區(qū)別資料要求xy.兩變量間依存變化的數量關系兩變量間相關關系回歸相關相關與回歸的區(qū)別應用xy單向xyxy雙向.回歸系數與相關系數的正負號都由兩變量離均差積之和的符號決定,所以同一資料的b與其r的符號相同?;貧w系數有單位,形式為(應變量單位/自變量單位),相關系數沒有單位。相關系數的范圍在-1~+1之間,而回歸系數沒有這種限制。.有些資料用相關表示較適宜,比如兄弟與姐妹間的身長關系、人的身長與前臂長之間的關系等資料。有些資料用相關和回歸都適宜,此時須視研究需要而定。就一般計算程序來說,是先求出相關系數r并對其進行假設檢驗,如果r顯著并有進行回歸分析之必要,再建立回歸方程。.注意問題作相關與回歸分析要有實際意義。不要把毫無關聯(lián)的兩個事物或現象用來作相關或回歸分析。****如兒童身高的增長與小樹的增長,作相關分析是沒有實際意義的,如果計算由兒童身高推算小樹高的回歸方程則更無實際意義。也許算得的r、b是顯著的,也是沒有意義的。
.相關分析只是以相關系數來描述兩個變量間相互關系的密切程度和方向,并不能闡明兩事物或現象間存在聯(lián)系的本質。對相關分析的作用要正確理解。****注意問題相關并不一定就是因果關系,切不可單純依靠相關系數或回歸系數的顯著性“證明”因果關系之存在。要證明兩事物間的因果關系,必須憑籍專業(yè)知識從理論上加以闡明。但是,當事物間的因果關系未被認識前,相關分析可為理論研究提供線索。.注意問題適合相關和回歸分析的資料通常有兩種一個變量X是選定的,另一個變Y是從正態(tài)分布的總體中隨機抽取的。****1回歸分析.注意問題由一個變量推算另一個變量說明兩變量間的相互關系兩變量X、Y(或X1、X2)都是從正態(tài)分布的總體中隨機抽取的,即是正態(tài)雙變量中的隨機樣本。2回歸分析相關分析.注意問題在回歸分析中,由X推算Y與由Y推算X的回歸方程是不同的,不可混淆。
必須正確選定自變量與應變量。一般說,事物的原因作自變量X,當事物的因果關系不很明確時,選誤差較小的即個體變異小的變量作自變量X,以推算應變量Y。.注意問題回歸方程的適用范圍有其限度,一般僅適用于自變量X的原數據范圍內,而不能任意外推。因為我們并不知道在這些觀察值的范圍之外,兩變量間是否也呈同樣的直線關系。
.一、直線回歸方程的建立通過試驗或調查獲得兩個變量的n對觀測值:(x1,y1),(x2,y2),……,(xn,yn)。為了直觀地看出x和y間的變化趨勢,可將每一對觀測值在平面直角坐標系描點,作出散點圖。1、散點圖:1234564321正向直線關系1234564321負向直線關系1234564321曲線關系.三、直線回歸的區(qū)間估計a和b的置信區(qū)間(一)μy/x
的置信區(qū)間和單個y的預測區(qū)間(二)μy/x
和單個y觀測值置信區(qū)間圖示(三).(一)a和b的置信區(qū)間.(一)a和b的置信區(qū)間df=2總體回歸截距α的置信區(qū)間.(一)a和b的置信區(qū)間總體回歸系數β
的置信區(qū)間..95%的樣本回歸截距落在該區(qū)間內95%的樣本回歸系數落在該區(qū)間內.(二)μy/x
的置信區(qū)間和單個y的預測區(qū)間不包含隨機誤差由回歸方程預測x為某一定值時y的觀測值所在區(qū)間,則y觀測值不僅受到y(tǒng)和b的影響,也受到隨機誤差的影響。.y總體的平均數單個y值所在的區(qū)間x點估計(二)μy/x
的置信區(qū)間和單個y的預測區(qū)間.df=n-2y總體的平均數單個y值所在的區(qū)間xy總體的平均數..黏蟲孵化歷期平均溫度為15℃時,歷期天數為多少天(取95%置信概率)?.df=n-2y總體的平均數x單個y值所在的區(qū)間單個y值所在的區(qū)間..某年的歷期平均溫度為15℃時,該年的歷期天數為多少天(取95%置信概率)?.(二)μy/x
的置信區(qū)間和單個y的預測區(qū)間.(三)μy/x
和單個y觀測值置信區(qū)間圖示.正比反比愈靠近x,對y總體平均值或單個y的估計值就愈精確,而增大樣本含量,擴大x的取值范圍亦可提高精確度。.四、回歸方程的擬合度——決定系數
回歸方程是根據使估計誤差平方和最小的原理(最小二乘法)建立的,但不同的資料所得到的回歸方程的擬合程度仍然有好壞之分。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度餐廚垃圾資源化利用清運合同
- 二零二五年度蔬菜肉類市場信息共享與合作合同
- 二零二五年度健康養(yǎng)生中心加盟管理合同4篇
- 2025年度美甲店美容護膚項目合作合同4篇
- 二零二五年度特種耐火材料采購及技術服務合同4篇
- 2025版農產品電商平臺客戶服務外包合同4篇
- 二零二五年度民政局離婚協(xié)議書模板版權授權協(xié)議4篇
- 二零二五年度智能機器人研發(fā)與應用股權質押擔保合同
- 二零二五年度戀愛雙方子女撫養(yǎng)權及探望權合同2篇
- 2025年度抹灰工程施工材料采購合同范本4篇
- 2024公路瀝青路面結構內部狀況三維探地雷達快速檢測規(guī)程
- 浙江省臺州市2021-2022學年高一上學期期末質量評估政治試題 含解析
- 2024年高考真題-地理(河北卷) 含答案
- 中國高血壓防治指南(2024年修訂版)解讀課件
- 2024年浙江省中考科學試卷
- 2024風力發(fā)電葉片維保作業(yè)技術規(guī)范
- 《思想道德與法治》課程教學大綱
- 2024光儲充一體化系統(tǒng)解決方案
- 2024年全國高考新課標卷物理真題(含答案)
- 處理后事授權委托書
- 食材配送服務方案投標方案(技術方案)
評論
0/150
提交評論