第6章相關(guān)與回歸分析_第1頁
第6章相關(guān)與回歸分析_第2頁
第6章相關(guān)與回歸分析_第3頁
第6章相關(guān)與回歸分析_第4頁
第6章相關(guān)與回歸分析_第5頁
已閱讀5頁,還剩66頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)分析

(方法與案例)

作者賈俊平統(tǒng)計(jì)學(xué)基礎(chǔ)

FundamentalStatistics2010年第6章相關(guān)與回歸分析6.1變量間關(guān)系的度量6.2一元線性回歸regressionanalysis2010年學(xué)習(xí)目標(biāo)相關(guān)關(guān)系的分析參數(shù)的最小二乘估計(jì)回歸直線的擬合優(yōu)度回歸方程的顯著性檢驗(yàn)利用回歸方程進(jìn)行預(yù)測(cè)用Excel

進(jìn)行回歸2010年子代與父代一樣嗎?Galton被譽(yù)為現(xiàn)代回歸和相關(guān)技術(shù)的創(chuàng)始人。1875年,Galton利用豌豆實(shí)驗(yàn)來確定尺寸的遺傳規(guī)律。他挑選了7組不同尺寸的豌豆,并說服他在英國不同地區(qū)的朋友每一組種植10粒種子,最后把原始的豌豆種子(父代)與新長的豌豆種子(子代)進(jìn)行尺寸比較當(dāng)結(jié)果被繪制出來之后,他發(fā)現(xiàn)并非每一個(gè)子代都與父代一樣,不同的是,尺寸小的豌豆會(huì)得到更大的子代,而尺寸大的豌豆卻得到較小的子代。Galton把這一現(xiàn)象叫做“返祖”(趨向于祖先的某種平均類型),后來又稱之為“向平均回歸”。一個(gè)總體中在某一時(shí)期具有某一極端特征(低于或高于總體均值)的個(gè)體在未來的某一時(shí)期將減弱它的極端性(或者是單個(gè)個(gè)體或者是整個(gè)子代),這一趨勢(shì)現(xiàn)在被稱作“回歸效應(yīng)”。人們發(fā)現(xiàn)它的應(yīng)用很廣,而不僅限于從一代到下一代豌豆大小問題2010年子代與父代一樣嗎?正如Galton進(jìn)一步發(fā)現(xiàn)的那樣,平均來說,非常矮小的父輩傾向于有偏高的子代;而非常高大的父輩則傾向于有偏矮的子代。在第一次考試中成績最差的那些學(xué)生在第二次考試中傾向于有更好的成績(比較接近所有學(xué)生的平均成績),而第一次考試中成績最好的那些學(xué)生在第二次考試中則傾向于有較差的成績(同樣比較接近所有學(xué)生的平均成績)。同樣,平均來說,第一年利潤最低的公司第二年不會(huì)最差,而第一年利潤最高的公司第二年則不會(huì)是最好的如果把父代和子代看作兩個(gè)變量,找出這兩個(gè)變量的關(guān)系,并根據(jù)這種關(guān)系建立適當(dāng)?shù)臄?shù)學(xué)模型,就可以根據(jù)父代的數(shù)值預(yù)測(cè)子代的取值,這就是經(jīng)典的回歸方法要解決的問題。學(xué)完本章的內(nèi)容你會(huì)對(duì)回歸問題有更深入的理解2010年回歸分析研究什么?研究某些實(shí)際問題時(shí)往往涉及到多個(gè)變量。在這些變量中,有一個(gè)變量是研究中特別關(guān)注的,稱為因變量,而其他變量則看成是影響這一變量的因素,稱為自變量假定因變量與自變量之間有某種關(guān)系,并把這種關(guān)系用適當(dāng)?shù)臄?shù)學(xué)模型表達(dá)出來,那么,就可以利用這一模型根據(jù)給定的自變量來預(yù)測(cè)因變量,這就是回歸要解決的問題在回歸分析中,只涉及一個(gè)自變量時(shí)稱為一元回歸,涉及多個(gè)自變量時(shí)則稱為多元回歸。如果因變量與自變量之間是線性關(guān)系,則稱為線性回歸(linearregression);如果因變量與自變量之間是非線性關(guān)系則稱為非線性回歸(nonlinearregression)2010年

6.1變量間關(guān)系的度量6.1.1變量間的關(guān)系6.1.2相關(guān)關(guān)系的描述與測(cè)度6.1.3相關(guān)系數(shù)的顯著性檢驗(yàn)第6章相關(guān)與回與歸分析2010年6.1.1變量間的關(guān)系6.1變量間關(guān)系的度量2010年

xy函數(shù)關(guān)系是一一對(duì)應(yīng)的確定關(guān)系設(shè)有兩個(gè)變量x和y,變量y隨變量x一起變化,并完全依賴于x

,當(dāng)變量x取某個(gè)數(shù)值時(shí),

y依確定的關(guān)系取相應(yīng)的值,則稱y是x的函數(shù),記為y=f(x),其中x稱為自變量,y稱為因變量各觀測(cè)點(diǎn)落在一條線上

2010年相關(guān)關(guān)系

(correlation)一個(gè)變量的取值不能由另一個(gè)變量唯一確定當(dāng)變量

x取某個(gè)值時(shí),變量y的取值對(duì)應(yīng)著一個(gè)分布各觀測(cè)點(diǎn)分布在直線周圍

y

x

2010年相關(guān)關(guān)系

(幾個(gè)例子)子女的身高與其父母身高的關(guān)系從遺傳學(xué)角度看,父母身高較高時(shí),其子女的身高一般也比較高。但實(shí)際情況并不完全是這樣,因?yàn)樽优纳砀卟⒉煌耆怯筛改干砀咭粋€(gè)因素所決定的,還有其他許多因素的影響一個(gè)人的收入水平同他受教育程度的關(guān)系收入水平相同的人,他們受教育的程度也不可能不同,而受教育程度相同的人,他們的收入水平也往往不同。因?yàn)槭杖胨诫m然與受教育程度有關(guān)系,但它并不是決定收入的惟一因素,還有職業(yè)、工作年限等諸多因素的影響農(nóng)作物的單位面積產(chǎn)量與降雨量之間的關(guān)系在一定條件下,降雨量越多,單位面積產(chǎn)量就越高。但產(chǎn)量并不是由降雨量一個(gè)因素決定的,還有施肥量、溫度、管理水平等其他許多因素的影響2010年6.1.2相關(guān)關(guān)系的描述與測(cè)度6.1變量間關(guān)系的度量2010年

完全負(fù)線性相關(guān)完全正線性相關(guān)

散點(diǎn)圖

(scatterdiagram)

不相關(guān)

負(fù)線性相關(guān)

正線性相關(guān)

非線性相關(guān)2010年用散點(diǎn)圖描述變量間的關(guān)系

(例題分析)【例6.6】一家大型商業(yè)銀行在多個(gè)地區(qū)設(shè)有分行,其業(yè)務(wù)主要是進(jìn)行基礎(chǔ)設(shè)施建設(shè)、國家重點(diǎn)項(xiàng)目建設(shè)、固定資產(chǎn)投資等項(xiàng)目的貸款。近年來,該銀行的貸款額平穩(wěn)增長,但不良貸款額也有較大比例的提高,這給銀行業(yè)務(wù)的發(fā)展帶來較大壓力。為弄清楚不良貸款形成的原因,希望利用銀行業(yè)務(wù)的有關(guān)數(shù)據(jù)做些定量分析,以便找出控制不良貸款的辦法。下面是該銀行所屬的25家分行2002年的有關(guān)業(yè)務(wù)數(shù)據(jù)

繪制散點(diǎn)圖2010年散點(diǎn)圖

(例題分析)2010年相關(guān)系數(shù)

(correlationcoefficient)度量變量之間線性關(guān)系強(qiáng)度的一個(gè)統(tǒng)計(jì)量若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計(jì)算的,稱為總體相關(guān)系數(shù),記為

若是根據(jù)樣本數(shù)據(jù)計(jì)算的,則稱為樣本相關(guān)系數(shù),簡稱為相關(guān)系數(shù),記為r也稱為Pearson相關(guān)系數(shù)

(Pearson’scorrelationcoefficient)樣本相關(guān)系數(shù)的計(jì)算公式

計(jì)算相關(guān)系數(shù)Excel2010年相關(guān)系數(shù)

(例題分析)2010年相關(guān)系數(shù)的性質(zhì)性質(zhì)1:r的取值范圍是[-1,1]|r|=1,為完全相關(guān)r=1,為完全正相關(guān)r=-1,為完全負(fù)正相關(guān)r=0,不存在線性相關(guān)關(guān)系-1

r<0,為負(fù)相關(guān)0<r

1,為正相關(guān)|r|越趨于1表示關(guān)系越強(qiáng);|r|越趨于0表示關(guān)系越弱2010年相關(guān)系數(shù)的性質(zhì)性質(zhì)2:r具有對(duì)稱性。即x與y之間的相關(guān)系數(shù)和y與x之間的相關(guān)系數(shù)相等,即rxy=ryx性質(zhì)3:r數(shù)值大小與x和y原點(diǎn)及尺度無關(guān),即改變x和y的數(shù)據(jù)原點(diǎn)及計(jì)量尺度,并不改變r(jià)數(shù)值大小性質(zhì)4:僅僅是x與y之間線性關(guān)系的一個(gè)度量,它不能用于描述非線性關(guān)系。這意為著,r=0只表示兩個(gè)變量之間不存在線性相關(guān)關(guān)系,并不說明變量之間沒有任何關(guān)系性質(zhì)5:r雖然是兩個(gè)變量之間線性關(guān)系的一個(gè)度量,卻不一定意味著x與y一定有因果關(guān)系2010年相關(guān)系數(shù)的經(jīng)驗(yàn)解釋|r|

0.8時(shí),可視為兩個(gè)變量之間高度相關(guān)0.5

|r|<0.8時(shí),可視為中度相關(guān)0.3

|r|<0.5時(shí),視為低度相關(guān)|r|<0.3時(shí),說明兩個(gè)變量之間的相關(guān)程度極弱,可視為不相關(guān)上述解釋必須建立在對(duì)相關(guān)系數(shù)的顯著性進(jìn)行檢驗(yàn)的基礎(chǔ)之上2010年6.1.3相關(guān)系數(shù)的顯著性檢驗(yàn)6.1變量間關(guān)系的度量2010年相關(guān)系數(shù)的顯著性檢驗(yàn)

(檢驗(yàn)的步驟)1. 檢驗(yàn)兩個(gè)變量之間是否存在線性相關(guān)關(guān)系采用R.A.Fisher提出的t檢驗(yàn)檢驗(yàn)的步驟為提出假設(shè):H0:

;H1:

0計(jì)算檢驗(yàn)的統(tǒng)計(jì)量用Excel中的【TDIST】函數(shù)得雙尾計(jì)算P值,并于顯著性水平比較,并作出決策若P<,拒絕H02010年相關(guān)系數(shù)的顯著性檢驗(yàn)

(例題分析)【例6.8】

對(duì)不良貸款與貸款余額之間的相關(guān)系數(shù)進(jìn)行顯著性檢(

0.05)提出假設(shè):H0:

;H1:

0計(jì)算檢驗(yàn)的統(tǒng)計(jì)量3.根據(jù)顯著性水平

=0.05,查t分布表得t

(n-2)=2.069由于t=7.5344>t

(25-2)=2.069,拒絕H0,不良貸款與貸款余額之間存在著顯著的正線性相關(guān)關(guān)系2010年相關(guān)系數(shù)的顯著性檢驗(yàn)

(例題分析)各相關(guān)系數(shù)檢驗(yàn)的統(tǒng)計(jì)量2010年

6.2一元線性回歸6.2.1一元線性回歸模型6.2.2參數(shù)的最小二乘估計(jì)6.2.3回歸直線的擬合優(yōu)度6.2.4顯著性檢驗(yàn)6.2.5利用回歸方程進(jìn)行估計(jì)和預(yù)測(cè)第6章相關(guān)與回與歸分析2010年6.2.1一元線性回歸模型6.2一元線性回歸2010年什么是回歸分析?

(regressionanalysis)重點(diǎn)考察考察一個(gè)特定的變量(因變量),而把其他變量(自變量)看作是影響這一變量的因素,并通過適當(dāng)?shù)臄?shù)學(xué)模型將變量間的關(guān)系表達(dá)出來利用樣本數(shù)據(jù)建立模型的估計(jì)方程對(duì)模型進(jìn)行顯著性檢驗(yàn)進(jìn)而通過一個(gè)或幾個(gè)自變量的取值來估計(jì)或預(yù)測(cè)因變量的取值2010年回歸分析與相關(guān)分析的區(qū)別相關(guān)分析中,變量x

變量y處于平等的地位;回歸分析中,變量y稱為因變量,處在被解釋的地位,x稱為自變量,用于預(yù)測(cè)因變量的變化相關(guān)分析中所涉及的變量x和y都是隨機(jī)變量;回歸分析中,因變量y是隨機(jī)變量,自變量x

可以是隨機(jī)變量,也可以是非隨機(jī)的確定變量相關(guān)分析主要是描述兩個(gè)變量之間線性關(guān)系的密切程度;回歸分析不僅可以揭示變量x對(duì)變量y的影響大小,還可以由回歸方程進(jìn)行預(yù)測(cè)和控制

2010年一元線性回歸涉及一個(gè)自變量的回歸因變量y與自變量x之間為線性關(guān)系被預(yù)測(cè)或被解釋的變量稱為因變量(dependentvariable),用y表示用來預(yù)測(cè)或用來解釋因變量的一個(gè)或多個(gè)變量稱為自變量(independentvariable),用x表示因變量與自變量之間的關(guān)系用一個(gè)線性方程來表示2010年一元線性回歸模型

(linearregressionmodel)描述因變量y如何依賴于自變量x和誤差項(xiàng)

的方程稱為回歸模型一元線性回歸模型可表示為

y=b0+b1x+ey是x的線性函數(shù)(部分)加上誤差項(xiàng)線性部分反映了由于x的變化而引起的y的變化誤差項(xiàng)

是隨機(jī)變量反映了除x和y之間的線性關(guān)系之外的隨機(jī)因素對(duì)y的影響是不能由x和y之間的線性關(guān)系所解釋的變異性

0和

1稱為模型的參數(shù)2010年一元線性回歸模型

(基本假定)

因變量x與自變量y之間具有線性關(guān)系在重復(fù)抽樣中,自變量x的取值是固定的,即假定x是非隨機(jī)的誤差項(xiàng)

滿足正態(tài)性。

是一個(gè)服從正態(tài)分布的隨機(jī)變量,且期望值為0,即

~N(0,

2)。對(duì)于一個(gè)給定的x值,y的期望值為E(y)=

0+

1x方差齊性。對(duì)于所有的x值,

的方差一個(gè)特定的值,的方差也都等于2都相同。同樣,一個(gè)特定的x值,y的方差也都等于

2獨(dú)立性。獨(dú)立性意味著對(duì)于一個(gè)特定的x值,它所對(duì)應(yīng)的ε與其他x值所對(duì)應(yīng)的ε不相關(guān);對(duì)于一個(gè)特定的x值,它所對(duì)應(yīng)的y值與其他x所對(duì)應(yīng)的y值也不相關(guān)2010年回歸方程

(regressionequation)描述y的平均值或期望值如何依賴于x的方程稱為回歸方程一元線性回歸方程的形式如下

E(y)=

0+

1x方程的圖示是一條直線,也稱為直線回歸方程

0是回歸直線在y軸上的截距,是當(dāng)x=0時(shí)y的期望值

1是直線的斜率,稱為回歸系數(shù),表示當(dāng)x每變動(dòng)一個(gè)單位時(shí),y的平均變動(dòng)值2010年估計(jì)的回歸方程

(estimatedregressionequation)總體回歸參數(shù)和

是未知的,必須利用樣本數(shù)據(jù)去估計(jì)用樣本統(tǒng)計(jì)量和代替回歸方程中的未知參數(shù)和,就得到了估計(jì)的回歸方程一元線性回歸中估計(jì)的回歸方程為其中:是估計(jì)的回歸直線在y軸上的截距,是直線的斜率,它表示對(duì)于一個(gè)給定的x的值,是y的估計(jì)值,也表示x每變動(dòng)一個(gè)單位時(shí),y的平均變動(dòng)值

2010年6.2.2參數(shù)的最小二乘估計(jì)6.2一元線性回歸2010年參數(shù)的最小二乘估計(jì)

(methodofleastsquares)德國科學(xué)家KarlGauss(1777—1855)提出用最小化圖中垂直方向的誤差平方和來估計(jì)參數(shù)

使因變量的觀察值與估計(jì)值之間的誤差平方和達(dá)到最小來求得和的方法。即用最小二乘法擬合的直線來代表x與y之間的關(guān)系與實(shí)際數(shù)據(jù)的誤差比其他任何直線都小2010年最小二乘估計(jì)的圖示xy(xn,yn)(x1,y1)

(x2,y2)(xi,yi)ei=yi-yi^2010年參數(shù)的最小二乘估計(jì)

(

和的計(jì)算公式)

根據(jù)最小二乘法,可得求解和的公式如下2010年估計(jì)方程的求法

(例題分析)【例6.9】求不良貸款對(duì)貸款余額的回歸方程回歸方程為:y=-0.8295+0.037895x回歸系數(shù)=0.037895表示,貸款余額每增加1億元,不良貸款平均增加0.037895億元

2010年估計(jì)方程的求法

(例題分析)不良貸款對(duì)貸款余額回歸方程的圖示2010年參數(shù)的最小二乘估計(jì)

(例題分析)【例6.6】估計(jì)的回歸方程第1步:選擇【工具】下拉菜單,并選擇【數(shù)據(jù)分析】選項(xiàng)第2步:在分析工具中選擇【回歸】,選擇【確定】第2步:當(dāng)對(duì)話框出現(xiàn)時(shí)

在【Y值輸入?yún)^(qū)域】設(shè)置框內(nèi)鍵入Y的數(shù)據(jù)區(qū)域在【X值輸入?yún)^(qū)域】設(shè)置框內(nèi)鍵入X的數(shù)據(jù)區(qū)域在【置信度】選項(xiàng)中給出所需的數(shù)值在【輸出選項(xiàng)】中選擇輸出區(qū)域在【殘差】分析選項(xiàng)中選擇所需的選項(xiàng)回歸分析Excel2010年6.2.3回歸直線的擬合優(yōu)度6.2一元線性回歸2010年變差因變量

y的取值是不同的,y取值的這種波動(dòng)稱為變差。變差來源于兩個(gè)方面由于自變量x的取值不同造成的除x以外的其他因素(如x對(duì)y的非線性影響、測(cè)量誤差等)的影響對(duì)一個(gè)具體的觀測(cè)值來說,變差的大小可以通過該實(shí)際觀測(cè)值與其均值之差來表示2010年誤差分解圖xyy

2010年誤差平方和的分解

(誤差平方和的關(guān)系)

SST=SSR+SSE總平方和(SST){回歸平方和(SSR)殘差平方和(SSE){{2010年誤差平方和的分解

(三個(gè)平方和的意義)總平方和(SST—totalsumofsquares)反映因變量的n個(gè)觀察值與其均值的總誤差回歸平方和(SSR—sumofsquaresofregression)反映自變量x

的變化對(duì)因變量y

取值變化的影響,或者說,是由于x

與y

之間的線性關(guān)系引起的y

的取值變化,也稱為可解釋的平方和殘差平方和(SSE—sumofsquaresoferror)反映除x

以外的其他因素對(duì)y

取值的影響,也稱為不可解釋的平方和或剩余平方和2010年判定系數(shù)R2

(coefficientofdetermination)回歸平方和占總誤差平方和的比例反映回歸直線的擬合程度取值范圍在[0,1]之間

R2

1,說明回歸方程擬合的越好;R2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論