第8章 直線回歸和相關(guān)_第1頁
第8章 直線回歸和相關(guān)_第2頁
第8章 直線回歸和相關(guān)_第3頁
第8章 直線回歸和相關(guān)_第4頁
第8章 直線回歸和相關(guān)_第5頁
已閱讀5頁,還剩68頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第八章直線回歸與相關(guān)

第一節(jié)回歸和相關(guān)的概念第二節(jié)直線回歸:直線回歸方程的計算及檢驗第三節(jié)直線相關(guān):相關(guān)系數(shù)與決定系數(shù)的計算2/5/2023LaboratoryofChemicalEcology1、函數(shù)關(guān)系與統(tǒng)計關(guān)系第一節(jié)回歸和相關(guān)的概念變量之間的關(guān)系函數(shù)關(guān)系統(tǒng)計關(guān)系因果關(guān)系相關(guān)關(guān)系2/5/2023LaboratoryofChemicalEcology函數(shù)關(guān)系:是一種確定的關(guān)系。例如圓面積與半徑的關(guān)系為:2/5/2023LaboratoryofChemicalEcology統(tǒng)計關(guān)系:是一種非確定關(guān)系,即一個變數(shù)的取值受到另一變數(shù)的影響,兩者之間有關(guān)系,但又不存在完全確定的函數(shù)關(guān)系。例如作物的產(chǎn)量與施肥量、水稻的千粒重與株高。2/5/2023LaboratoryofChemicalEcology2、自變數(shù)與依變數(shù)對具有統(tǒng)計關(guān)系的兩個變數(shù),分別用變數(shù)符號X和Y表示。根據(jù)兩個變數(shù)的作用特點,統(tǒng)計關(guān)系又可分為因果關(guān)系和相關(guān)關(guān)系兩種。2/5/2023LaboratoryofChemicalEcology兩個變數(shù)間的關(guān)系若有原因和反應(yīng)(結(jié)果)的性質(zhì),則稱這兩個變數(shù)間存在因果關(guān)系,并定義原因變數(shù)為自變數(shù)(independentvariable),以X表示;定義結(jié)果變數(shù)為依變數(shù)(dependentvariable),以Y表示。例如施肥量和產(chǎn)量的關(guān)系。2/5/2023LaboratoryofChemicalEcology如果兩個變數(shù)并不是原因和結(jié)果的關(guān)系,而呈現(xiàn)一種共同變化的特點,則稱這兩個變數(shù)間存在相關(guān)關(guān)系。相關(guān)關(guān)系中沒有自變數(shù)和依變數(shù)之分。例如玉米穗長與穗重的關(guān)系。2/5/2023LaboratoryofChemicalEcology(1)對具有因果關(guān)系的兩個變數(shù),統(tǒng)計分析的任務(wù)是由試驗數(shù)據(jù)推算出一個表示Y隨X的改變而改變的方程,稱之為回歸方程(regressionequationofYonX),這一過程稱為回歸分析。3、回歸分析和相關(guān)分析2/5/2023LaboratoryofChemicalEcology(2)對具有相關(guān)關(guān)系的兩個變數(shù),統(tǒng)計分析的目標是計算表示Y和X關(guān)系密切程度的統(tǒng)計數(shù),并測驗其顯著性。這一過程稱為相關(guān)分析。決定系數(shù)R相關(guān)系數(shù)r2/5/2023LaboratoryofChemicalEcology將兩個變數(shù)的n對觀察值(x1,y1)、(x2,y2)、…、(xn,yn)分別以坐標點的形式標記于同一直角坐標平面上得到的圖:4、兩個變數(shù)資料的散點圖2/5/2023LaboratoryofChemicalEcology散點圖(scatterdiagram)1234x,生物產(chǎn)量(g)0.00.51.01.52.0y,稻谷產(chǎn)量(g)水稻單株生物產(chǎn)量與稻谷產(chǎn)量的散點圖2/5/2023LaboratoryofChemicalEcology3.23.644.44.8x,每平方米穎花數(shù)(萬)05560657075y,結(jié)實率(%)水稻每平方米穎花數(shù)和結(jié)實率的散點圖2/5/2023LaboratoryofChemicalEcology34567890250300350400450x,最高葉面積指數(shù)y,產(chǎn)量(kg/畝)水稻最高葉面積指數(shù)和畝產(chǎn)量的散點圖2/5/2023LaboratoryofChemicalEcology研究“一因一果”,即一個自變量與一個依變量的回歸分析稱為一元回歸分析;研究“多因一果”,即多個自變量與一個依變量的回歸分析稱為多元回歸分析。一元回歸分析又分為直線回歸分析與曲線回歸分析兩種;多元回歸分析又分為多元線性回歸分析與多元非線性回歸分析兩種。2/5/2023LaboratoryofChemicalEcology第二節(jié)直線回歸

一、直線回歸方程的建立對于兩個相關(guān)變量,一個變量用x表示,另一個變量用y表示,如果通過試驗或調(diào)查獲得兩個變量的n對觀測值:(x1,y1),(x2,y2),……,(xn,yn)

2/5/2023LaboratoryofChemicalEcology2/5/2023LaboratoryofChemicalEcology在x、y直角坐標平面上可以作出無數(shù)條直線,我們把所有直線中最接近散點圖中全部散點的直線用來表示x與y的直線關(guān)系,這條直線稱為回歸直線。設(shè)回歸直線的方程為:

為依變數(shù)的估計值,a為回歸直線的截距,b是回歸系數(shù)2/5/2023LaboratoryofChemicalEcologya、b應(yīng)使回歸估計值與實際觀測值y的偏差平方和最小,即:直線回歸方程的求解2/5/2023LaboratoryofChemicalEcology根據(jù)微積分學中的求極值的方法,令Q對a、b的一階偏導數(shù)等于0,即:2/5/2023LaboratoryofChemicalEcology整理得關(guān)于a、b的正規(guī)方程組:解正規(guī)方程組,得:x的離均差和y的離均差的乘積之和,稱之為乘積和。2/5/2023LaboratoryofChemicalEcologyb叫做樣本回歸系數(shù),表示x改變一個單位,y平均改變的數(shù)量;b的符號反映了x影響y的性質(zhì),b的絕對值大小反映了x影響y的程度;

叫做回歸估計值,是當x在其研究范圍內(nèi)取某一個值時,y值平均數(shù)的估計值。2/5/2023LaboratoryofChemicalEcology

回歸方程的基本性質(zhì):

性質(zhì)1最??;性質(zhì)2;性質(zhì)3回歸直線通過點。2/5/2023LaboratoryofChemicalEcology例一些夏季害蟲盛發(fā)期的早遲和春季溫度高低有關(guān)。江蘇武進連續(xù)九年測定3月下旬至4月中旬旬平均溫度積累值(x,旬·度)和水稻一代三化螟盛發(fā)期(y,以5月10日為0)的關(guān)系,得結(jié)果于表,試計算其直線回歸方程。2/5/2023LaboratoryofChemicalEcologyX35.534.131.740.336.840.231.739.244.2y12169273139-1注:以5月10日為0。2/5/2023LaboratoryofChemicalEcology1、作散點圖2/5/2023LaboratoryofChemicalEcology2、計算回歸截距a,回歸系數(shù)b,建立直線回歸方程首先根據(jù)實際觀測值計算出下列數(shù)據(jù):n=9∑x=35.5+34.1+……+44.2=333.7∑x2=35.52+34.12+……+44.22=12517.49∑y=12+16+……+(-1)=70∑y2=122+162+……+(-1)2=749∑xy=35.5*12+34.1*16+……+44.2*(-1)=2436.46個一級數(shù)據(jù)2/5/2023LaboratoryofChemicalEcologySSx=∑x2–(∑x)2/n=144.6356SSy=∑y2–(∑y)2/n=249.5556SP=∑xy–∑x∑y/n=-159.0444(乘積和)

5個二級數(shù)據(jù)2/5/2023LaboratoryofChemicalEcology解正規(guī)方程組2/5/2023LaboratoryofChemicalEcology進而計算出b、a:2/5/2023LaboratoryofChemicalEcology得到直線回歸方程為:2/5/2023LaboratoryofChemicalEcology自變量x的取值區(qū)間2/5/2023LaboratoryofChemicalEcology3、直線回歸的偏離度估計偏差平方和的大小表示了實測點與回歸直線偏離的程度,因而偏差平方和又稱為離回歸平方和。離回歸均方為:在建立回歸方程時,使用了a,b兩個統(tǒng)計數(shù),故自由度為n-22/5/2023LaboratoryofChemicalEcology離回歸均方的平方根叫離回歸標準誤,記為,即

離回歸標準誤Sy/x的大小表示了回歸直線與實測點偏差的程度,即回歸估測值與實際觀測值y偏差的程度,于是我們把離回歸標準誤Sy/x用來表示回歸方程的偏離度。(8-6)2/5/2023LaboratoryofChemicalEcology

(8-7)

利用(8-7)式先計算出,然后再代入(8-6)式求Sy/x。

對于【例8.1】有2/5/2023LaboratoryofChemicalEcology[例2]計算例1資料獲得的回歸方程的估計標準誤xyy`y-y`(y-y`)235.5129.51272.48736.186734.11611.05214.947924.481731.7913.6912......40.324.2346......36.878.0832......40.234.3446......31.71313.6912......39.295.4442......44.2-1-0.0538-0.94620.8953求和∑74.66702/5/2023LaboratoryofChemicalEcologySy/x=3.266天,表明用回歸方程由3-4月的積溫預測一代三化螟盛發(fā)時,有一個3.266天的估計標準誤。2/5/2023LaboratoryofChemicalEcology二、直線回歸的顯著性檢驗根據(jù)回歸方程的計算程序,任意二組變量(X,Y)都可以得到一個回歸方程:如果不經(jīng)過顯著性檢驗,顯然不能確定兩變量(X,Y)之間是否真實存在直線關(guān)系。也就是說,不經(jīng)過顯著檢驗的回歸方程毫無意義。可以采用F測驗和t測驗兩種方法2/5/2023LaboratoryofChemicalEcology1、直線回歸的變異來源圖的分解圖2/5/2023LaboratoryofChemicalEcology

從上圖看到:

上式兩端平方,然后對所有的n點求和,則有2/5/2023LaboratoryofChemicalEcology

由于所以于是2/5/2023LaboratoryofChemicalEcology

所以有

反映了y的總變異程度,稱為y的總平方和,記為SSy;反映了由于y與x間存在直線關(guān)系所引起的y的變異程度,稱為回歸平方和,記為SSR;反映了除y與x存在直線關(guān)系以外的原因,包括隨機誤差所引起的y的變異程度,稱為離回歸平方和,記為SSr。2/5/2023LaboratoryofChemicalEcology

可表示為:

這表明y的總平方和剖分為回歸平方和與離回歸平方和兩部分。與此相對應(yīng),y的總自由度dfy也劃分為回歸自由度dfR與離回歸自由度dfr兩部分,即平方和的分解2/5/2023LaboratoryofChemicalEcology

在直線回歸分析中,回歸自由度等于自變量的個數(shù),即;y的總自由度;離回歸自由度。于是:離回歸均方,回歸均方

自由度的分解2/5/2023LaboratoryofChemicalEcology

2、回歸關(guān)系顯著性檢驗—F檢驗無效假設(shè)H0:=0,備擇假設(shè)HA:≠0。在無效假設(shè)成立的條件下,回歸均方與離回歸均方的比值服從和的F分布,所以可以用

df1=1,df2=n-2來檢驗回歸關(guān)系即回歸方程的顯著性。2/5/2023LaboratoryofChemicalEcology對于【例1】資料,有而。于是可以列出方差分析表進行回歸關(guān)系顯著性檢驗。2/5/2023LaboratoryofChemicalEcology變異來源dfSSMSF值F0.05F0.01回歸SSR1174.8886174.888616.40**5.5912.25離回歸SSr774.667010.6667總變異8249.5556回歸關(guān)系方差分析2/5/2023LaboratoryofChemicalEcology因為,表明存在極顯著的直線關(guān)系。

2/5/2023LaboratoryofChemicalEcology

3、回歸系數(shù)的顯著性檢驗—t檢驗回歸系數(shù)顯著性檢驗的無效假設(shè)和備擇假設(shè)為

HO:β=0,HA:β≠0。β為總體的回歸系數(shù)2/5/2023LaboratoryofChemicalEcologyt值的計算公式為:回歸系數(shù)b的標準誤回歸方程的標準誤2/5/2023LaboratoryofChemicalEcology

對于【例1】資料,已計算得

故有

2/5/2023LaboratoryofChemicalEcology當,查t值表,得

因,,否定HO:β=0,接受HA:β≠0,即直線回歸系數(shù)b=-1.0996是極顯著的,表明存在極顯著的直線關(guān)系,可用所建立的直線回歸方程來進行預測和控制。,

,

2/5/2023LaboratoryofChemicalEcology三、回歸方程的應(yīng)用1.預測:發(fā)生期預測;由x去預測y。例,一代三化螟蛾盛發(fā)期y與3-4月積溫x的回歸方程如下:=48.5485-1.0996x假設(shè)某年的積溫x=35,則=48.5485-1.0996×35=10.0625≈10.1即該蟲盛發(fā)期約為5月20日(以5月10日為0)左右2/5/2023LaboratoryofChemicalEcology2.控制:由y去控制x。例,某作物的產(chǎn)量y與施肥量x的回歸方程如下:=391.93+6.62x若希望產(chǎn)量y>600斤/畝,則施肥量至少要多少斤/畝?由=391.93+6.62x>600可推出x>(斤/畝)2/5/2023LaboratoryofChemicalEcology注:①實際應(yīng)用中,預測應(yīng)結(jié)合誤差和概率進行區(qū)間估計。

②應(yīng)用回歸方程時,自變量x的取值范圍只限于原觀察值的變化范圍。③樣本容量n應(yīng)盡可能的大,至少要大于5。2/5/2023LaboratoryofChemicalEcology回歸分析的完整步驟:第一步建立回歸方程必作第二步進行回歸關(guān)系的顯著性檢驗第三步繪制回歸直線2/5/2023LaboratoryofChemicalEcology溫度x322926232017歷期y5.86.87.488.58.9計算線性回歸方程,并檢驗2/5/2023LaboratoryofChemicalEcology第三節(jié)直線相關(guān)

進行直線相關(guān)分析的基本任務(wù)在于根據(jù)x、y的實際觀測值,計算表示兩個相關(guān)變量x、y間線性相關(guān)程度和性質(zhì)的統(tǒng)計量——相關(guān)系數(shù)r并進行顯著性檢驗。2/5/2023LaboratoryofChemicalEcology

我們把比值

叫做x對y的決定系數(shù)(coefficientofdetermination),記為r2,即在依變量y的總變異中,由回歸關(guān)系引起的變異部分所占的百分比。一、決定系數(shù)和相關(guān)系數(shù)總變異=直線回歸變異+離回歸變異(誤差項)2/5/2023LaboratoryofChemicalEcology決定系數(shù)的意義:決定系數(shù)表示了兩個變量間直線相關(guān)的程度。2/5/2023LaboratoryofChemicalEcology相關(guān)系數(shù)coefficientofcorrelation,記為r:回歸因素所引起的變異與總變異之比的平方根,表示變量間聯(lián)系程度和聯(lián)系性質(zhì)的統(tǒng)計指標。相關(guān)系數(shù)2/5/2023LaboratoryofChemicalEcology二、相關(guān)系數(shù)的計算

【例】計算10個小區(qū)中某作物植株數(shù)量和產(chǎn)量(kg)的相關(guān)系數(shù)。株數(shù)(x)68707071717173747676產(chǎn)量(y)506068656972717375772/5/2023LaboratoryofChemicalEcology根據(jù)表中所列數(shù)據(jù)先計算出:代入r計算公式得:即株數(shù)與產(chǎn)量的相關(guān)系數(shù)為0.8475。2/5/2023LaboratoryofChemicalEcology此時無效假設(shè)、備擇假設(shè)為H0:ρ=0,HA:ρ≠0。三、相關(guān)系數(shù)的顯著性檢驗測定一個樣本相關(guān)系數(shù)為r所在的總體相關(guān)系數(shù)ρ是否為02/5/2023LaboratoryofChemicalEcology

t檢驗的計算公式為:t=,df=n-2(8-27)其中,,叫做相關(guān)系數(shù)標準誤。F檢驗的計算公式為:F=,df1=1,df2=n-2(8-28)2/5/2023LaboratoryofChemicalEcology

查表法檢驗r的顯著性,具體作法是:P376頁

先根據(jù)自由度n-2查臨界r值(附表10),得,若|r|<,P>0.05,則相關(guān)系數(shù)r不顯著,在r的右上方標記“ns”;若≤|r|<,0.01<P≤0.05,則相關(guān)系數(shù)r顯著,在r的右上方標記“*”;若|r|≥,P≤0.01,則相關(guān)系數(shù)r極顯著,在r的右上方標記“**”。2/5/2023LaboratoryofChemicalEcology

對于上例中,因為df=n-2=10-2=8,查附表10得:=0.632,=0.765,而r=0.8475>,P<0.01,表明株數(shù)與產(chǎn)量之間的相關(guān)系數(shù)極顯著。

2/5/2023LaboratoryofChemicalEcology四、相關(guān)系數(shù)與回歸系數(shù)的關(guān)系從相關(guān)系數(shù)計算公式的導出可以看到:相關(guān)變量x與y的相關(guān)系數(shù)r是y對x的回歸系數(shù)與x對y的相關(guān)系數(shù)bxy的幾何平均數(shù):2/5/2023LaboratoryofChemicalEcology

五、應(yīng)用直線回歸與相關(guān)的注意事項1、變量間是否存在相關(guān)2、其余變量盡量保持一致3、觀測值要盡可能的多4、外推要謹慎5、正確理解回歸或相關(guān)顯著與否的含義6、一個顯著的回歸方程并不一定具有實踐上的預測意義2/5/2023LaboratoryofChemicalEcology六、相關(guān)與回歸的計算器處理例,進行溫度對菌絲生長影響試驗,將孢子接種后分別置于不同溫度下12h,測量其菌絲的平均長度如表:溫度(℃)1821242730長度(mm)0.250.602.504.506.75建立溫度與菌絲生長長度間的回歸方程。2/5/2023LaboratoryofChemicalEcology進入

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論