7第八章 相關(guān)分析和回歸分析.ppt_第1頁
7第八章 相關(guān)分析和回歸分析.ppt_第2頁
7第八章 相關(guān)分析和回歸分析.ppt_第3頁
7第八章 相關(guān)分析和回歸分析.ppt_第4頁
7第八章 相關(guān)分析和回歸分析.ppt_第5頁
已閱讀5頁,還剩85頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第八章 相關(guān)分析和回歸分析,8.1 相關(guān)分析和回歸分析概述 8.2 相關(guān)分析 8.3 直線回歸 8.4 多元線性回歸 8.5 逐步回歸 8.6 非線性回歸,8.1 相關(guān)、回歸分析概述,相關(guān)分析計(jì)算反映各變量之間相關(guān)密切程度和性質(zhì)的統(tǒng)計(jì)數(shù)。,8.1.1 相關(guān)分析概述,簡單相關(guān):研究兩變量直線相關(guān)的密切程度和性質(zhì),也稱直線相關(guān)。 偏相關(guān):排除其余的影響因子,求出x 與y的純相關(guān),這種相關(guān)稱偏相關(guān)。 復(fù)相關(guān):研究一個變量與一組變量之間的相關(guān)性關(guān)系。 典型相關(guān):研究兩組變量的相關(guān)性。,8.1.2 回歸分析概述,由自變數(shù)預(yù)測因變數(shù)的問題都叫回歸分析。,相關(guān)分析反映各變量間相關(guān)密切程度,回歸分析反映因變量

2、(Y)和自變量(X)之間的數(shù)量關(guān)系,用回歸方程表示?;貧w模型不一定是因果關(guān)系,自變量可多于一個。,回歸分析依自變量個數(shù)的多少分為:一元回歸和多元回歸 因變量和自變量間關(guān)系的性質(zhì)分:線性回歸和非線性回歸,回歸分析的SAS過程:主要有REG(回歸分析) GLM (廣義線性模型),如由溫度表水銀柱高度(X)來估計(jì)溫度(Y )時(shí),自變量實(shí)際上是依賴于因變量。,1 簡單相關(guān) 2 偏相關(guān) 3 復(fù)相關(guān),8.2 相關(guān)分析,(Analysis of Correlation),補(bǔ):秩相關(guān),1 簡單相關(guān),簡單相關(guān): 是對有聯(lián)系的兩類事物(x與y)表面關(guān)系密切程度的衡量。,(Simple Correlation),一

3、、簡單相關(guān)系數(shù),二、簡單相關(guān)系數(shù)r的顯著性測驗(yàn),由d.f=n-2查出相關(guān)系數(shù)的臨界值r0.05 、r0.01(degree of freedom),SAS直接輸出prob|r|概率值,記為a.,統(tǒng)計(jì)假設(shè)H0:總體相關(guān)系數(shù)=0,若a 0.05,接受H0,相關(guān)不顯著,即總體x與y間不存在相關(guān)關(guān)系。 若0.01a 0.05,拒絕H0,相關(guān)顯著,即總體x與y間存在相關(guān)關(guān)系。 若a 0.01,接受H0,相關(guān)極顯著,即總體x與y間存在相關(guān)關(guān)系。,P175,data s; input x y; cards; 77 8.8 64 7.9 73 3.5 ;,例8.3 橡膠樹幼苗期刺檢干膠產(chǎn)量(x,毫克)與正式割

4、膠量(y,克)如下表,試求x與y的相關(guān)系數(shù)并畫出y關(guān)于x的散點(diǎn)圖。,三、簡單相關(guān)實(shí)例,proc corr; var x y; /*求r*/ Proc chart; plot y*x; /*散點(diǎn)圖*/ run;,Correlation Analysis 2 VAR Variables: X Y Simple Statistics Variable N Mean Std Dev Sum X 26 92.0385 30.4427 2393.0000 Y 26 9.1115 3.3269 236.9000 Variable Minimum Maximum X 61.0000 188.0000 y 3.

5、5000 17.7000,SAS輸出結(jié)果:,Pearson Correlation Coefficients / Prob |R| under Ho: Rho=0 / N = 26 X Y X 1.00000 0.71019 0.0 0.0001 Y 0.71019 1.00000 0.0001 0.0,結(jié)論:因r=0.71019,其出現(xiàn)的概率=0.00010.01,極顯著,表示刺檢干膠量與正式割膠量存在極顯著的簡單相關(guān)關(guān)系。,2 偏相關(guān)(Partial Correlation),1.一級偏相關(guān)系數(shù),簡單相關(guān)是數(shù)字間的表面聯(lián)系,如需了解x與y的本質(zhì)聯(lián)系,必須排除其余的影響因子,以得出x 與y的

6、純相關(guān),這種相關(guān)稱偏相關(guān)。,如果考查xi 、xj 、xk三個變數(shù),則固定xk后,xi與xj之間的相關(guān)稱為一級偏相關(guān)。,如果有xi ,xj ,xk, xl四個變數(shù),則用統(tǒng)計(jì)方法固定xk, xl后,xi與xj之間的相關(guān)稱為二級偏相關(guān)。,通式:,其顯著性由df=n-4查r0.05及r0.01確定。,2.二級偏相關(guān)系數(shù),(Multiple correlation),3 復(fù)相關(guān)(或多重相關(guān)),研究一個變量與一組變量之間的相關(guān)關(guān)系,即多元相關(guān)或復(fù)相關(guān)分析。,意義:復(fù)相關(guān)是因變數(shù)關(guān)于若干個自變數(shù)間關(guān)系密切程度的衡量。并以決定系數(shù)R2為衡量的標(biāo)準(zhǔn)。,一般,y關(guān)于x1,x2,xk的復(fù)相關(guān)系數(shù):,數(shù)值范圍:,(2

7、).R的顯著性測驗(yàn),Df1=p df2=n-p-1,復(fù)相關(guān)系數(shù)及顯著性測驗(yàn)將在多元線性回歸方程的SAS程序中輸出。,P167例8.1 橡膠樹白粉病最終病情指數(shù)(x1)與最冷月的平均溫度(x2)及一月份平均溫度(x3)十三年記錄資料如表5.2,試求簡單相關(guān)系數(shù)、偏相關(guān)系數(shù)r12.3及r13.2。,表8.2 橡膠樹病情指數(shù)與溫度表,proc gplot; plot x1*x2; proc gplot; plot x1*x3; proc corr; /* 簡單相關(guān) */ proc corr; var x1 x2; partial x3; /* r12.3 */ proc corr; var x1 x

8、3; partial x2; /* r13.2 */ run;,data temp; input x1 x2 x3; cards; 0.4 15.3 15.3 52.3 15.8 16.4 11.8 15.2 15.2 51.6 17.6 17.9 42.7 16.3 16.3 41.5 15.5 15.5 33.7 15.8 15.8 12.5 15.0 15.0 36.6 15.8 15.8 50.7 16.0 16.0 2.5 13.7 13.7 35.2 16.2 16.6 0.4 13.1 15.1 ;,主要的輸出結(jié)果如下:,統(tǒng)計(jì)結(jié)論: r12=0.79949 p=0.0010.05

9、 相關(guān)不顯著 r13.2=0.27108 p=0.271080.05 相關(guān)不顯著,實(shí)例:p170,例8.2 腰果分期播種試驗(yàn),采用10天播種一次,每次 播種10粒。1986年4月至1987年3月,共進(jìn)行33次分期 播種。表11是腰果種子發(fā)芽“普遍期”天數(shù)、平均氣 溫、平均最低氣溫、及平均最高氣溫的觀察資料。試 求簡單相關(guān)系數(shù)及二級偏相關(guān)系數(shù)。,表8.3 腰果種子“普遍期”天數(shù)與氣溫表,data cashew; input x1 x2 x3 x4 ; cards; 12 29.0 24.2 34.6 . 42 19.2 14.9 25.2 ; proc corr; var x1 x2 x3 x4

10、; proc corr; var x3 x4; partial x2; proc corr; var x1 x4; partial x2 x3; run;,Correlation Analysis 2 PARTIAL Variables: X2 X3 2 VAR Variables: X1 X4 Pearson Partial Correlation Coefficients / Prob |R| under Ho: Partial Rho=0 / N = 33 X1 X4 X1 1.00000 0.07517 0.0 0.6878 X4 0.07517 1.00000 0.6878 0.0,

11、統(tǒng)計(jì)結(jié)論: r34.2=-0.8031 p=0.00010.05 相關(guān)不顯著,部分輸出結(jié)果:,組合代號 X1 X2 X3 Y 1 10.37 29.56 33.31 10.520 2 10.47 34.25 29.05 10.070 3 9.67 35.25 37.65 12.790 4 9.87 29.25 31.52 9.230 5 8.20 37.85 33.62 10.360 6 8.67 37.78 38.09 12.570 7 10.03 40.97 30.42 12.560 8 9.00 46.00 29.10 11.388 9 10.07 39.73 32.06 12.830,

12、實(shí)習(xí)四,實(shí) 習(xí),作業(yè):21個小麥雙列雜交組合F1的單株產(chǎn)量y(克),每株穗數(shù)x1,每穗的粒數(shù)x2,千粒重x3(克)數(shù)據(jù)如下:,組合代號 X1 X2 X3 Y 10 10.57 36.30 30.59 11.800 11 8.73 37.10 27.17 8.730 12 10.20 35.67 32.21 11.790 13 8.93 35.44 33.22 10.420 14 9.83 34.28 28.40 9.830 15 8.60 33.31 35.49 10.920 16 8.83 35.10 27.54 8.440 17 8.80 34.45 34.20 10.500 18 8.8

13、0 30.65 29.47 7.940 19 9.40 31.20 30.75 8.830 20 10.03 39.27 29.21 11.330,試求ry1、ry3、ry1.2、 ry1.23 , 并確定其顯著性。, input x y ; cards; 77 8.8 64 7.9 73 3.5 ; proc reg corr; model y=x/ cli clm; /*CLI輸出Y值的95%預(yù)測區(qū)間*/ Plot y*x/conf95; run;,其SAS程序:,四、直線回歸實(shí)例,SAS輸出結(jié)果:,說明:proc reg corr; 選項(xiàng)corr輸出變量間的簡單相關(guān)系數(shù),決定系數(shù),修正決

14、定系數(shù),截距,截距a=2.00746,其標(biāo)準(zhǔn)誤為1.53037。 回歸系數(shù)b=0.07709,其標(biāo)準(zhǔn)誤為0.01580,t=4.88,p0.0001,可認(rèn)為總體回歸系數(shù)不為零。建立刺檢干膠量(x)與正式割膠產(chǎn)量(y)的回歸方程為:,在圖的上方列出了回歸方程,右方還給出了觀測個數(shù)、R2、修正的R2、剩余標(biāo)準(zhǔn)差。,例2(作業(yè)) 一些夏季害蟲盛發(fā)期的早遲和春季溫度高低有關(guān)。江蘇武進(jìn)連續(xù)9年測定3月下旬至4月中旬的平均積溫(x,旬.度)和水稻一代三化螟盛發(fā)期(y,以5月10日為0)的關(guān)系,得結(jié)果于表:,1. 試計(jì)算其直線回歸方程。t160,累積溫和一代三化螟盛發(fā)期的關(guān)系,2. 當(dāng)3月下旬至4月中旬的積

15、溫40旬.度時(shí), (1)歷年的一代三化螟平均盛發(fā)期在何時(shí)(取95可靠度)。 (2)估計(jì)該年的一代三化螟盛發(fā)期在何時(shí)(取95可靠度)。,data latex; input x y ; cards; 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1 40 . ;,proc reg corr; model y=x/ cli clm; /*CLI輸出Y值的95%預(yù)測區(qū)間*/ Plot y*x/conf95; run;,結(jié)果解釋:,回歸方程為:,方程中b=1.1的意義:當(dāng)3月下旬至4月中旬的平均積溫(x)每提高1旬.度時(shí)

16、,一代三化螟勝發(fā)期平均將提早1.1天。,a=48.5的意義:若x=0,則一代三化螟勝發(fā)期將在6月27-28日(因y以5月10日為0)。,當(dāng)x=40,即3月下旬至4月中旬的積溫40旬.度的年份,其一代三化螟勝發(fā)期的95置信區(qū)間為1.4,7.7,即5月12-18日。,即某年3月下旬至4月中旬的積溫40旬.度時(shí),該年一代三化螟勝發(fā)期的95置信區(qū)間為-3.8,12.9,即5月6-23日。,8.4 多元線性回歸,多元線性回歸分析是研究一因變量與多個自變量間關(guān)系的統(tǒng)計(jì)方法。,一、多元線性回歸的實(shí)際意義,多元回歸分析主要解決: 1)各個自變數(shù)對因變數(shù)的各自效應(yīng),即偏回歸系數(shù)。 2)建立由自變數(shù)描述和預(yù)測因變

17、數(shù)的多元回歸方程,計(jì)算標(biāo)準(zhǔn)誤。 3)對自變數(shù)進(jìn)行選擇,建立最優(yōu)回歸方程。 4)評定各個自變數(shù)對因變數(shù)的相對重要性。,二、多元線性回歸方程(K變元),式中:b0為常數(shù),當(dāng)x1-xk均為0時(shí)y的點(diǎn)估計(jì)值; b1,b2,bk為偏回歸系數(shù),它表示當(dāng)其它自變數(shù)都固定時(shí),某一自變數(shù)每變化一個單位而使因變量平均改變的數(shù)值,絕對值愈大,該因素就愈重要(但受單位影響),這些b均由正規(guī)方程組(略)求出。,三、回歸方程的顯著性測驗(yàn),五. 多元回歸分析的SAS書寫格式: proc reg; model 因變量串=自變量串/ 選項(xiàng)串;,四、多元線性回歸實(shí)例,1. 二元線性回歸,例 為研究橡膠樹白粉病的流行規(guī)律,以越冬期

18、最冷 月平均溫度(攝氏,x1)和越冬總發(fā)病率(x2)預(yù)測最 終病情指數(shù)(y),10年結(jié)果如下:,求二元回歸方程,并預(yù)測1977年最終病情指數(shù)值。,data dise; input year x1 x2 y ; cards; 1965 15.2 1.4 11.8 1966 17.6 10.0 51.6 1967 16.3 9.3 42.7 1968 15.5 1.6 41.5 1971 15.0 5.0 12.5 1972 15.8 5.0 36.6 1973 16.0 10.7 50.7 1974 13.7 0 2.5 1975 16.2 5.6 35.2 1976 13.1 0 0.5 19

19、77 16.2 0.8 . ; proc reg; model y=x1 x2/cli; run;,求二元回歸方程,預(yù)測出1977年最終病情指數(shù)值 95%的預(yù)測區(qū)間為-0.0675,62.2621,2:三元線性回歸,P180例8.4 甘蔗糖分與氣象資料如表8.5。試求y關(guān)于x1, x2,x3的線性回歸方程,并對方程作顯著性測驗(yàn)。當(dāng) 方程達(dá)顯著時(shí),再對1984年糖分作預(yù)測。,data sgca; input y x1-x3; cards; 13.93 408.6 834.3 13.85 460.9 833.0 . 11.59 480.4 831.5 . 390.0 804.6 ; proc re

20、g; model y=x1-x3/stb cli; run;,SAS結(jié)果及解釋P147,SAS主要輸出,8.5 逐步回歸,一、最優(yōu)回歸方程的選擇方法,PROC REG; MODEL 因變數(shù)=自變數(shù)/選項(xiàng);,選項(xiàng)SELECTION=模型選擇方法,包括NONE(或默認(rèn),全模型),STEPWISE(逐步回歸),F(xiàn)ORWARD(逐個選入),BACKWARD(逐個剔除),MAXR(最大R2增量法)等;設(shè)定概率水平,SLSTYR(簡記SLS)=剔除時(shí)概率水平,SLENTRY(簡記SLE)=選入時(shí)概率水平,缺省時(shí)為0.15。,最優(yōu)回歸方程的定義:一個方程,僅包含對y顯著的所有自變數(shù),而不含對y不顯著的自變數(shù)

21、,稱此方程為最優(yōu)方程。,The Stepwise Regression,二、逐步回歸法,按自變數(shù)對y作用的程度,從大到小依次逐個引入方程,當(dāng)先引入的變數(shù)由于在后面引進(jìn)的變數(shù)而變得都不顯著時(shí),隨時(shí)將它們從回歸剔除,直到在回歸的變數(shù)都不能被剔除,而又沒有新的變數(shù)可引入時(shí),逐步回歸過程即告結(jié)束,最后為最優(yōu)方程或稱最優(yōu)回歸方程。,三、實(shí)例,P184例8.5 甘蔗糖分與氣象資料如表8.5。試求y關(guān)于x1, x2,x3的逐步回歸方程。并用該方程對1984年糖分作預(yù)測。,data sgca; input y x1-x3; cards; 13.93 408.6 83 4.3 . . . . . . 11.59

22、 480.4 83 1.5 . 390.0 80 4.6 ; proc reg; model y=x1-x3/Selection=stepwise sle=0.10 sls=0.10; run; 或proc stepwise; model y=x1-x3; run;,引入水平,提除水平,輸出結(jié)果看書P150-152,SAS輸出與說明,最優(yōu)回歸方程為:,data sgca; input y x1-x3; cards; 13.93 408.6 83 4.3 . . . . . . 11.59 480.4 83 1.5 . 390.0 80 4.6 ; proc reg; model y=x1 x3

23、/cli; run;,1984年預(yù)測值13.9409 95%預(yù)測值區(qū)間 12.7193,15.1626,用逐步回歸方程預(yù)測84年糖分及95%估計(jì)區(qū)間,8.6 非線性回歸,8.6.1 曲線直線化 8.6.2 非線性回歸的NILIN過程(自學(xué)) 8.6.3 多項(xiàng)式回歸分析,當(dāng)對x與y的聯(lián)系一無所知時(shí),可先作試探性的點(diǎn)式圖或散點(diǎn)圖,主要有以下幾種代換:,哪種代換的點(diǎn)式圖更趨于直線,便選該代換作擬合的直線回歸方程(實(shí)際x與y是曲線回歸)。,8.6.1 曲線直線化,P187例8.6 以下是水渠流速(y)與水深(x)的10對觀察值,試求y關(guān)于x的回歸關(guān)系。,Y: 0.636 0.319 0.734 1.3

24、27 0.487 0.924 7.350 X: 0.34 0.29 0.28 0.42 0.29 0.40 0.76 Y: 5.890 1.979 1.124 X: 0.73 0.46 0.40,先作y與x間6種代換的模型散點(diǎn)圖及回歸線,然后比較各個F值選取F值最大者即為最佳模型,最后確定Y與x的回歸方程。,data canal; input y x ; d=sqrt(x); e=sqrt(y); f=log10(y); g=log10(x); w=1/y; t=1/x; cards; 0.636 0.34 0.319 0.29 1.124 0.40 ;,其SAS程序,proc plot; p

25、lot y*x=*; proc reg; model y=x; proc plot; plot y*d=*; proc reg; model y=d; proc plot; plot e*x=*; proc reg; model e=x;,proc plot; plot f*g=*; proc reg; model f=g; proc plot; plot f*x=*; proc reg; model f=x; proc plot; plot w*t=*; proc reg; model w=t; run;,SAS輸出結(jié)果小結(jié):,模型 F值 顯著性 方程 152.814 * y=-3.97+1

26、3.84x 90.618 * y=-10.41+19.19 321.863 * =-0.55+4.16x 129.343 * lgy=1.16+2.77x 115.429 * logy=-0.98+2.47x 21.176 * 1/y=0.132-0.97(1/x),8.6.3 多項(xiàng)式回歸分析,若常用的轉(zhuǎn)換仍無法找出顯著的直線化方程,可考慮采用多項(xiàng)式逼近。,多項(xiàng)式回歸方程通常只能用于描述試驗(yàn)范圍內(nèi)Y依X的變化關(guān)系,外推一般不可靠。 多項(xiàng)式回歸不屬于線性回歸,但是一般情況下可通過轉(zhuǎn)換,轉(zhuǎn)化為線性。 例:令x2=x*x ,x3=x*x*x,那么變量Y與x,x2,x3的回歸分析類似于線性回歸。,多項(xiàng)

27、式方程的一般形式:,多項(xiàng)式回歸分析實(shí)例,P194例8.8 取某水稻土(PH=5.5),加入Hcl或Na2CO3改變PH值(x),在30下放置28天,然后中和之,測定每100g烘干土中NH+4-N的豪克數(shù)(y),得結(jié)果于程序數(shù)據(jù)行,試確定變量y依x的多項(xiàng)式回歸方程。,/*數(shù)據(jù)來源農(nóng)業(yè)試驗(yàn)統(tǒng)計(jì)P478*/ DATA NEW; INPUT X Y; X2=X*X; X3=X*X*X; CARDS; 2 13.0 3 9.2 . 9 20.0 ;,PROC REG; MODEL Y=X; MODEL Y=X X2; MODEL Y=X X2 X3; RUN;,主要輸出結(jié)果: Model: MODEL1

28、 Dependent Variable: Y Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Model 1 29.00024 29.00024 0.998 0.3563 Error 6 174.33476 29.05579 C Total 7 203.33500 Root MSE 5.39034 R-square 0.1426 Dep Mean 9.72500 Adj R-sq -0.0003 C.V. 55.42769 Parameter Estimates Parameter Standard

29、 T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 5.154762 4.95571021 1.040 0.3384 X 1 0.830952 0.83174792 0.999 0.3563,回歸方程為:,data new; input x y; cards; 2 13.0 3 9.2 4 6.6 5 4.7 6 4.0 7 7.1 8 13.2 9 20.0 ; Proc GLM; MODEL Y=X X*X; RUN;,其SAS主要輸出:,經(jīng)管專業(yè)作業(yè):現(xiàn)有一組經(jīng)濟(jì)增長率與債券價(jià)格的數(shù)據(jù),希望找出二者之間的關(guān)系。要求先進(jìn)行二次項(xiàng)回歸,再考慮一般線性回歸。,data aa; input rate price; cards; 0.01127.6 0.48124 0.71110.8 0.95103.9 1.91101.5 0.01130.1 0.48122 1.4492.3 0.71113.1 1.9683.7 0.01128 1.4491.4 1.9686.2 ;,proc glm; model price=rate rate*

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論