一元回歸及簡(jiǎn)單相關(guān)分析_第1頁
一元回歸及簡(jiǎn)單相關(guān)分析_第2頁
一元回歸及簡(jiǎn)單相關(guān)分析_第3頁
一元回歸及簡(jiǎn)單相關(guān)分析_第4頁
一元回歸及簡(jiǎn)單相關(guān)分析_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第十章一元回歸及簡(jiǎn)單相關(guān)分析上課提綱:一、回歸和相關(guān)的基本概念二、一元線性回歸三、一元非線性回歸四、相關(guān)重點(diǎn):回歸方程的擬合及其顯著性檢驗(yàn)難點(diǎn):回歸的方差分析

前面,我們所討論的統(tǒng)計(jì)方法,只涉及一個(gè)變量。例如,在不同品種的產(chǎn)量比較試驗(yàn)中,每一品種平均數(shù)反映產(chǎn)量的集中點(diǎn)。標(biāo)準(zhǔn)差反映了產(chǎn)量的離散程度。如作物產(chǎn)量,通過計(jì)算平均數(shù)和標(biāo)準(zhǔn)差,就可知道這種作物在產(chǎn)量上的總體和變異情況,進(jìn)而根據(jù)變異程度進(jìn)行u-檢驗(yàn)、t-檢驗(yàn)、F-檢驗(yàn)和x2-檢驗(yàn),并可確定那個(gè)品種好,那個(gè)品種不好;可篩選出適宜的條件或措施,等等,而這些都只涉獵產(chǎn)量一個(gè)變量,而產(chǎn)量不僅與品種有關(guān),還與施肥量、播種密度、及灌水量等多種因素有關(guān)。因此在試驗(yàn)研究的過程中,經(jīng)常要研究?jī)蓚€(gè)或兩個(gè)以上變量間的相關(guān)關(guān)系。事物間或現(xiàn)象間的關(guān)系,這種研究事物間或現(xiàn)象間關(guān)系的統(tǒng)計(jì)方法就屬于回歸和相關(guān)。第十章一元回歸及簡(jiǎn)單相關(guān)分析一、回歸與相關(guān)的基本概念

回歸這個(gè)名稱是英國(guó)遺傳學(xué)家FrancesGolton提出來的。他研究了人的身高、肘長(zhǎng)和手的跨距等,發(fā)現(xiàn):身材高的父母所生子女的身材也高,但是高身材的父母所生子女的平均身高不如他們父母那么高,但子女的身高是依靠父母的身高,他把這種趨向稱作回歸,即回歸到全體人口的平均身高,這種子女身高依賴父母身高的關(guān)系就是回歸關(guān)系。

回歸關(guān)系是一種函數(shù)關(guān)系,但它不同于數(shù)學(xué)上的函數(shù)關(guān)系。數(shù)學(xué)上的函數(shù)關(guān)系是一種確定性的關(guān)系,比如,圓的面積S=πr2,你抽取多少個(gè)總體,都遵從這一關(guān)系;而回歸關(guān)系是一種非確定性的關(guān)系,總體不同,函數(shù)關(guān)系就發(fā)生變化。生物統(tǒng)計(jì)就是從這種非確定性關(guān)系中去了解變量間的聯(lián)系。表述這種變量間的聯(lián)系有兩個(gè)指標(biāo):回歸和相關(guān)。

對(duì)兩個(gè)變量,一個(gè)變量用符號(hào)x表示,另一個(gè)變量用y表示,如果通過試驗(yàn)或調(diào)查獲得兩個(gè)變量的成對(duì)觀測(cè)值,可表示為(x1,

y1),(x2,

y2),…,(xn,

yn)。為了直觀看出x和y變化關(guān)系.可將每一對(duì)觀測(cè)值在平面直角坐標(biāo)系中表示成一個(gè)點(diǎn),作成散點(diǎn)圖。圖10-1x和y之間的關(guān)系

從散點(diǎn)圖可以看出:①兩個(gè)變量間關(guān)系的性質(zhì)和程度;②兩個(gè)變量間關(guān)系的類型,是直線型還是曲線型;③是否有異常觀測(cè)值的干擾等。例如圖10.1是三幅兩個(gè)變量的散點(diǎn)圖,圖a和圖b都是直線型的,但圖a的兩個(gè)變量關(guān)系較圖b密切,且是正向的,即x增加y心也增加,圖b是負(fù)向的,圖c的兩個(gè)變量之間關(guān)系是曲線型的。由散點(diǎn)圖表示兩個(gè)變量之間的關(guān)系只是定性的研究,為了探討它們之間的規(guī)律性,必須根據(jù)觀測(cè)值將期理論關(guān)系推導(dǎo)出來。

研究?jī)蓚€(gè)變量的關(guān)系可采用回歸與相關(guān)的分析統(tǒng)計(jì)方法。如果兩個(gè)變量間關(guān)系屬于因果關(guān)系,一般用回歸來研究。表示原因的變量稱為自變量,用x表示。自變量是固定的(試驗(yàn)時(shí)預(yù)先確定的),沒有隨機(jī)誤差。表示結(jié)果的變量稱為依變量,用y表示.并有隨機(jī)誤差。例如作物施肥和產(chǎn)量之間的關(guān)系,前者是表示原因的變量,為事先確定的,是自變量,后者是表示結(jié)果的變量,且具有隨機(jī)誤差,為依變量,作物產(chǎn)量是隨施肥量的變化而變化的。(一個(gè)自變量x可以有許多y值和它對(duì)應(yīng))回歸分析的目的是揭示呈因果關(guān)系的變量之間的聯(lián)系形式,建立回歸方程,利用建立回歸方程由自變量來預(yù)測(cè)和控制依變量。

如果兩變量是平行關(guān)系,只能用相關(guān)來進(jìn)行研究。在相關(guān)分析中,無自變量和依變量之分,且都具有隨機(jī)誤差。(兩個(gè)變量取值不是一對(duì)一的)相關(guān)分析只能研究?jī)蓚€(gè)變量之間相關(guān)程度和性質(zhì),不能用一個(gè)變量的變化去預(yù)測(cè)另一個(gè)變量的變化,這是回歸與相關(guān)區(qū)別的關(guān)鍵所在。顯然,相關(guān)關(guān)系中兩個(gè)隨機(jī)變量沒有誰依賴誰的關(guān)系,而回歸關(guān)系中隨機(jī)變量是依賴于變量的。對(duì)于回歸分析而言,我們不但要弄清楚誰依賴誰,而且要搞明白依賴程度是否顯著。

相關(guān)關(guān)系(correlation)——兩個(gè)隨機(jī)變量(X和Y)的相互對(duì)應(yīng)關(guān)系(X

Y)?;貧w關(guān)系(regression)——一個(gè)變量(X)和一個(gè)隨機(jī)變量(Y)的對(duì)應(yīng)關(guān)系(X

Y)。簡(jiǎn)單直線相關(guān)與回歸的區(qū)別p1561.在資料要求上,相關(guān)要求兩變量x、y都是隨機(jī)變量,如動(dòng)物體高與體重.兩者都不能預(yù)先指定;回歸要求依變量y是隨機(jī)變員,而自變量x可以是隨機(jī)變量,亦可以指定,幅養(yǎng)試驗(yàn)中.建立采食量與增重的回歸關(guān)系,動(dòng)物采食量可以人為控制.

2.在意義上.相關(guān)反映兩變量間相互依賴的平行關(guān)系;而回歸則反映一個(gè)變量對(duì)另一變量的單向依賴關(guān)系.

3.在應(yīng)用上,說明兩變量間的相關(guān)程度用相關(guān);說明兩現(xiàn)象間變化的數(shù)量關(guān)系用回歸.第十章一元回歸及簡(jiǎn)單相關(guān)分析Ⅰ、一元回歸分析的意義二、一元線性回歸1、較少的工作量就可掌握事物或現(xiàn)象的趨勢(shì)或規(guī)律;假如土壤中NaCl含量為3.7g·kg-1

,葉干重是多少?因?yàn)椋簓=11.161x+81.786x=3.7所以:y=11.161×3.7+81.786=123.1mg·dm-2

2、預(yù)測(cè)事物或現(xiàn)象的具體變化;對(duì)于重復(fù)1:80、90、95、115、130、115、135樣本方差:s2=431

因?yàn)椋簓=11.161x+81.786

誤差均方:MSe=70.7。誤差均方是樣本方差的16.4%。

因此,只有在引進(jìn)自變量以后所得到的實(shí)驗(yàn)誤差,才是真正的實(shí)驗(yàn)誤差。

3、減小實(shí)驗(yàn)誤差。第十章一元回歸及簡(jiǎn)單相關(guān)分析二、一元線性回歸Ⅱ、一元直線回歸模型的建立:1、內(nèi)涵

為了描述兩變量間的數(shù)量關(guān)系,當(dāng)自變量時(shí),因變量Y的平均數(shù)與之相對(duì)應(yīng),那么,稱為Y的條件平均數(shù)(conditionalmean)。

在實(shí)驗(yàn)無限重復(fù)后,可以得到各xi上Y的條件平均數(shù),這些平均數(shù)構(gòu)成一條直線:

式中:α為直線的截距(intercept),β為斜率(slope)。

對(duì)于一對(duì)給定的X和Y與直線的離差(隨機(jī)誤差)ε,它獨(dú)立于X且服從于同一正態(tài)分布。

如上回歸模型只包含一個(gè)自變量X且具有正態(tài)性,所以稱為一元正態(tài)線性回歸模型。

一般情況下,得不到真正的α和β,只能求出它們的估計(jì)值a和b,從而得到一條估計(jì)的直線:

回歸方程估計(jì)值回歸系數(shù)畫出的線叫回歸線第十章一元回歸及簡(jiǎn)單相關(guān)分析Ⅱ、一元直線回歸模型的建立:2、模型建立二、一元線性回歸每一次a和b取值不同,每一個(gè)數(shù)據(jù)點(diǎn)的不同。對(duì)于所有點(diǎn)而言,每一次a和b取值不同,每一個(gè)數(shù)據(jù)點(diǎn)的離差不同?;貧w分析中,要使每一個(gè)離差都很小,必須選取適當(dāng)?shù)某?shù)a和b,使得:達(dá)到最小,進(jìn)而保證每個(gè)離差的絕對(duì)值都很小。這種根據(jù)離差的平方和為最小的條件來選擇常數(shù)的方法稱為最小二乘法(methodofleastsquare)。

第十章一元回歸及簡(jiǎn)單相關(guān)分析

目的明確以后,把L看成為自變量a

和b的一個(gè)二元函數(shù),那么問題就可歸結(jié)為求函數(shù)L=L(a,b)在那些點(diǎn)處取得的最小值,這樣就可通過數(shù)學(xué)方法可求出使L達(dá)到最小時(shí)的常數(shù)a和b。

二、一元線性回歸Ⅱ、一元直線回歸模型的建立:2、模型建立得正規(guī)方程(normalequation):

解正規(guī)方程,得到α和β的最小二乘估計(jì)a和b:

校正交叉乘積和SXYX的校正平方和SXX計(jì)算估計(jì)值a和b時(shí)的程序:

X和Y的校正交叉乘積和:

X的校正平方和:Y的校正平方和:直線回歸方程的兩個(gè)性質(zhì):(1);(2)回歸直線必須通過中心點(diǎn)。

(2)計(jì)算校正項(xiàng):

(3)計(jì)算估計(jì)值a和b:

(1)計(jì)算觀測(cè)平均值:

二、一元線性回歸第十章一元回歸及簡(jiǎn)單相關(guān)分析Ⅱ、一元直線回歸模型的建立:3、例題例題10-1土壤不同含鹽量時(shí)小麥?zhǔn)斋@的葉干重如下表:試建立土壤含鹽量與小麥葉干重的直線回歸方程。解:分別求出SXY、SXX、SYY

回歸系數(shù)b=11.16,表示當(dāng)自變量每變動(dòng)一個(gè)單位,因變量變動(dòng)11.16個(gè)單位。

二、一元線性回歸第十章一元回歸及簡(jiǎn)單相關(guān)分析Ⅲ、一元直線回歸模型的檢驗(yàn):(一)方差分析1、無重復(fù)時(shí)的方差分析

即:總平方和=剩余平方和(誤差平方和)+回歸平方和記為:,SYY具n-1自由度;其中:,SSe具n-2自由度;

,SSR具1自由度。

均方分別為:

若F<F1,(n-2),α,則接受H0:β=0;若F>F1,(n-2),α,則拒絕H0:β=0。

F>F1,5,0.01=16.26,回歸極顯著。二、一元線性回歸第十章一元回歸及簡(jiǎn)單相關(guān)分析2、有重復(fù)時(shí)的方差分析

Ⅲ、一元直線回歸模型的檢驗(yàn):(一)方差分析

如果對(duì)于同一個(gè)自變量,因變量重復(fù)觀測(cè)兩次以上,此時(shí)剩余平方和分解為純實(shí)驗(yàn)誤差平方和(pureexperimentalerrorsumofsquares)和失擬平方和(lackoffitsumofsquares)(模型選擇不當(dāng)造成的),總校正平方和做如下分解:

即:

總平方和=回歸平方和+失擬平方和+純實(shí)驗(yàn)誤差平方和

記為:

;SYY具mn-1自由度;

;SSR具1自由度;

;SSpe具mn-n自由度;

;SSLOF具n-2自由度。

均方分別為:

第一步:檢驗(yàn)選擇模型的適宜性

若F<F(n-2),(mn-n),α,則模型選擇正確;若F>F(n-2),(mn-n),α,則模型選擇不當(dāng)。當(dāng)差異不顯著(即模型選擇正確)時(shí),進(jìn)行下一步檢驗(yàn)。

第二步:檢驗(yàn)回歸關(guān)系的顯著性

此時(shí),失擬平方和基本上是由實(shí)驗(yàn)誤差造成的。將失擬平方和和純誤差平方和合并,相應(yīng)自由度合并(df=mn-2),以合并后的均方對(duì)回歸均方進(jìn)行顯著性檢驗(yàn)。

若F<F1,(mn-2),α,則接受H0:β=0;若F>F1,(mn-2),α,則拒絕H0:β=0。二、一元線性回歸第十章一元回歸及簡(jiǎn)單相關(guān)分析Ⅲ、一元直線回歸模型的檢驗(yàn):(一)方差分析2、有重復(fù)時(shí)的方差分析

例題10-7土壤不同含鹽量時(shí)有重復(fù)實(shí)驗(yàn)中小麥?zhǔn)斋@的葉干重如下表:試對(duì)該土壤含鹽量與小麥葉干重的直線回歸方程的顯著性進(jìn)行檢驗(yàn)。解:得到回歸方程

差異不顯著,說明模型選擇正確。注意:對(duì)于小樣本(n≤30),F(xiàn)≤1.5肯定不顯著;

對(duì)于大樣本(n>30),F(xiàn)≤1.0肯定不顯著。

F>F1,12,0.01=9.33,回歸關(guān)系極顯著。

二、一元線性回歸第十章一元回歸及簡(jiǎn)單相關(guān)分析Ⅲ、一元直線回歸模型的檢驗(yàn):(二)回歸系數(shù)t-檢驗(yàn)一元線性回歸模型的實(shí)測(cè)值可表示為,因無法獲得α和β,故實(shí)測(cè)值表述為。二、一元線性回歸第十章一元回歸及簡(jiǎn)單相關(guān)分析Ⅳ、一元直線回歸模型的檢驗(yàn):(3)點(diǎn)估計(jì)與區(qū)間估計(jì)1、對(duì)α和β的估計(jì)

二、一元線性回歸第十章一元回歸及簡(jiǎn)單相關(guān)分析Ⅳ、一元直線回歸模型的檢驗(yàn):(3)點(diǎn)估計(jì)與區(qū)間估計(jì)2、對(duì)回歸線和對(duì)的估計(jì)

總體平均數(shù)觀測(cè)值個(gè)體—樣本例題:在例題10-1中,請(qǐng)估計(jì)土壤含鹽量為1.6g·kg-1時(shí)小麥葉干重為多少mg·dm-2(取0.95置信概率)?張老師2006年在土壤含鹽量為1.6g·kg-1的試驗(yàn)地中進(jìn)行小麥實(shí)驗(yàn),葉干重為多少mg·dm-2(取0.95置信概率)?

解:分析——第一問為求總體平均值的置信區(qū)間;第二問為求單個(gè)觀測(cè)值——樣本的置信區(qū)間。三、一元非線性回歸第十章一元回歸及簡(jiǎn)單相關(guān)分析

多項(xiàng)式回歸

兩變量間的數(shù)據(jù)散點(diǎn)圖無法確定函數(shù)關(guān)系時(shí),用多項(xiàng)式回歸。一般形式為:

例題10-13

假設(shè)有一組數(shù)據(jù),如下表,

試建立回歸方程并做顯著性檢驗(yàn)。解:在Excel中,分別擬合多項(xiàng)式回歸方程,并做顯著性檢驗(yàn)。結(jié)果如下圖。1、相關(guān)系數(shù)概念及其計(jì)算相關(guān)系數(shù)(correlationcoefficient)是指由于回歸因素所引起的變差與總變差之比的平方根,它是衡量線性回歸好壞的一個(gè)標(biāo)志。由回歸因素所引起的變差在總變差中的比率越大,回歸的成分就越大,這兩個(gè)變量間的相關(guān)就越密切。樣本相關(guān)系數(shù)為:相關(guān)系數(shù)的性質(zhì)用散點(diǎn)圖說明第十章一元回歸及簡(jiǎn)單相關(guān)分析四、相關(guān)2、相關(guān)系數(shù)的檢驗(yàn)

涉及一個(gè)概念——總體相關(guān)系數(shù),即總體相關(guān)系數(shù)等于兩變量的協(xié)方差除以兩變量標(biāo)準(zhǔn)差的幾何平均數(shù)。

事實(shí)上,總體相關(guān)系數(shù)ρ很難計(jì)算,只能估計(jì)。

(1)r不經(jīng)變換:當(dāng)ρ=0時(shí)(待檢驗(yàn)數(shù)據(jù)分布符合正態(tài)分布),可用t=b/sb來檢驗(yàn)。檢驗(yàn)統(tǒng)計(jì)量為:t0.01

例題10-14

在研究水稻籽粒蛋白質(zhì)含量(%)時(shí),采用兩種不同的測(cè)定方法:凱氏定氮法(KP法)和染料結(jié)合法(DBC法),結(jié)果如下表,問兩種測(cè)定方法對(duì)結(jié)果是否有顯著影響?解:H0:ρ=0

說明兩種方法測(cè)定結(jié)果是一致的。

簡(jiǎn)單直線相關(guān)與回歸的區(qū)別p156楊運(yùn)清

1.在資料要求上,相關(guān)要求兩變量x。y都是隨機(jī)變量,如動(dòng)物體高與體重.兩者都不能預(yù)先指定;回歸要求依變量y是隨機(jī)變員,而自變量x可以是隨機(jī)變量,亦可以指定,幅養(yǎng)試驗(yàn)中.建立采食量與增重的回歸關(guān)系,動(dòng)物采食量可以人為控制.

2.在意義上.相關(guān)反映兩變量間相互依賴的平行關(guān)系;而回歸則反映一個(gè)變量對(duì)另一變量的單向依賴關(guān)系.

3.在應(yīng)用上,說明兩變量間的相關(guān)程度用相關(guān);說明兩現(xiàn)象間變化的數(shù)量關(guān)系用回歸.3、相關(guān)系數(shù)與回歸系數(shù)的關(guān)系通常以X為自變量、Y為因變量,這時(shí)的回歸系數(shù)

反過來,以Y為自變量、X為因變量,這時(shí)的回歸系數(shù)

Finished對(duì)比r和b兩個(gè)變量在相關(guān)系數(shù)計(jì)算中的地位是平等的,沒有自變量和依變量之分,這是回歸和相關(guān)的區(qū)別。R2

的含義是變量引起變異的回歸平方和占變異總平方和的比率。取值范圍是0到1例題中r=0.953R2=0.9082表明y的變異中有90.82%可用y與x二者之間的線性關(guān)系來解釋。

R2的作用:1R2

的大小可以說明曲線和散點(diǎn)配合的程度,越大配合的越好,散點(diǎn)離曲線越近。2(在實(shí)際應(yīng)用中的意義)為探討產(chǎn)婦尿液中雌三醇含量與初生兒體重是否有關(guān),以便盡早根據(jù)產(chǎn)婦產(chǎn)前尿中雌三醇含量水平估計(jì)胎兒是否超重,并判斷生產(chǎn)過程的風(fēng)險(xiǎn),某產(chǎn)科醫(yī)師測(cè)量了3l例待產(chǎn)婦24小時(shí)的尿雌三醇及其初生兒體重,數(shù)據(jù)記錄如表所示:

r=0.6097檢驗(yàn)后有極顯著意義。即認(rèn)為該樣本所代表的總體相關(guān)系數(shù)不等于0。因此,本例的相關(guān)系數(shù)結(jié)果可以這樣解釋:產(chǎn)婦尿雌三醇的含量與新生兒體重之間存在正相關(guān),即尿雌三醇含量高,相應(yīng)的新生兒體重也高。本例相關(guān)系數(shù)雖然達(dá)到o.6097,且具有極顯著性意義(P<0.01),但決定系數(shù)只有大約0.3717,即新生兒的體重改變量中只有將近37.17%可以用產(chǎn)婦尿雌三酵含量來解釋,其余大部分由未進(jìn)入本研究的其他因素所決定。由此可見,該回歸模型的效應(yīng)并不是很高。從散點(diǎn)圖上亦可看出,各散點(diǎn)的分布偏離回歸直線比較遠(yuǎn)。相關(guān)系數(shù)和決定系數(shù)有何區(qū)別和聯(lián)系?相關(guān)系數(shù)是指由于回歸因素所引起的變差與總變差之比的平方根,它是衡量線性回歸好壞的一個(gè)標(biāo)志。決定系數(shù)R2

的含義是變量引起變異的回歸平方和占變異總平方和的比率。R2

的大小可以說明曲線和散點(diǎn)配合的程度,越大配合的越好,散點(diǎn)離曲線越近。區(qū)別:都是表示相關(guān)程度的一個(gè)統(tǒng)計(jì)數(shù)。相關(guān)系數(shù)還可以表示雙變量相關(guān)的性質(zhì),而絕對(duì)系數(shù)只能表示相關(guān)程度不能表示相關(guān)性質(zhì)。

R2取值范圍是0到1r取值范圍是-1到1聯(lián)系R2

=r2

確定系數(shù)與回歸模型的效應(yīng)評(píng)價(jià)董時(shí)富126頁因變量的全部變異包括;隨x變化而發(fā)生b個(gè)單位的改變量和殘差兩個(gè)部分。這表明x不能100%地解釋y的全部變異。(數(shù)學(xué)中A=KbC濃度c可以100%解釋y的變異)那么y的全部變異中,x的確

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論