




已閱讀5頁(yè),還剩111頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第七章 相關(guān)與回歸分析,相關(guān)分析 一元線性回歸 多元線性回歸 回歸分析的其他問(wèn)題,學(xué)習(xí)目標(biāo),掌握兩個(gè)或多個(gè)變量之間相關(guān)關(guān)系的分析方法。 能夠根據(jù)收集到的數(shù)據(jù)估計(jì)一元和多元回歸方程,并對(duì)結(jié)果進(jìn)行解釋。 掌握回歸分析模型的各類檢驗(yàn)方法。,7.1 相關(guān)分析,函數(shù)關(guān)系與相關(guān)關(guān)系 相關(guān)分析與回歸分析 散點(diǎn)圖 相關(guān)系數(shù),函數(shù)關(guān)系與相關(guān)關(guān)系,當(dāng)一個(gè)變量取一定數(shù)值時(shí),另一個(gè)變量有確定值與之相對(duì)應(yīng),這種關(guān)系稱為函數(shù)關(guān)系。 當(dāng)一個(gè)變量取一定數(shù)值時(shí),與之相對(duì)應(yīng)的另一變量的數(shù)值雖然不確定,但它仍按某種規(guī)律在一定的范圍內(nèi)變化,這種關(guān)系稱為相關(guān)關(guān)系。 對(duì)相關(guān)關(guān)系的分析是統(tǒng)計(jì)學(xué)的重要研究?jī)?nèi)容。 主要研究方法:相關(guān)分析和與回歸分析。,相關(guān)分析與回歸分析,相關(guān)分析(Correlation Analysis)研究變量之間相關(guān)的方向和相關(guān)的程度,但無(wú)法給出變量間相互關(guān)系的具體形式,因而無(wú)法從一個(gè)變量推測(cè)另一個(gè)變量。,回歸分析(Regression) 可以確定變量之間相互關(guān)系的具體形式(回歸方程),確定一個(gè)變量對(duì)另一個(gè)變量的影響程度,并根據(jù)回歸方程進(jìn)行預(yù)測(cè)。,相關(guān)分析的類型,根據(jù)相關(guān)關(guān)系的類型和程度可以有以下分類:,散點(diǎn)圖 Scatter Diagram,散點(diǎn)圖是觀察兩個(gè)變量之間的相關(guān)程度和類型最直觀的方法。 散點(diǎn)圖是在直角坐標(biāo)系中用相對(duì)應(yīng)的兩個(gè)變量值作為圖中一個(gè)點(diǎn)的橫坐標(biāo)和縱坐標(biāo)描點(diǎn)得到的圖形。,自變量和因變量,如果兩個(gè)變量中一個(gè)變量是另一個(gè)變量變化的結(jié)果,那么 代表原因的變量稱為自變量 Independent (Explanatory) Variable, 代表結(jié)果的變量稱為因變量 Dependent (Response) Variable 。 在散點(diǎn)圖中習(xí)慣上把因變量繪制在縱軸上。,用散點(diǎn)圖觀察變量之間的相關(guān)關(guān)系,例題7.1,教材中的表7.1是 1985-2007年北京市城鎮(zhèn)居民人均年消費(fèi)性支出(變量Y)和人均年可支配收入(變量X)的有關(guān)資料,請(qǐng)對(duì)X和Y變量進(jìn)行相關(guān)分析 。,散點(diǎn)圖,相關(guān)系數(shù)的計(jì)算及其檢驗(yàn),相關(guān)系數(shù)(Coefficient of Correlation)是用來(lái)衡量變量之間相關(guān)程度的指標(biāo),根據(jù)變量的多少和屬性可以有多種不同的計(jì)算方法。 衡量?jī)蓚€(gè)定量變量之間線性相關(guān)程度的常用指標(biāo)是皮爾遜( Pearson)相關(guān)系數(shù)。 通常以表示總體的相關(guān)系數(shù),以r表示樣本的相關(guān)系數(shù)。,總體相關(guān)系數(shù)的定義式是: 樣本相關(guān)系數(shù)的定義公式是:,相關(guān)系數(shù)的計(jì)算及其檢驗(yàn),相關(guān)系數(shù)的計(jì)算,相關(guān)系數(shù)r 的特征,當(dāng)r0時(shí),X與Y為正相關(guān);當(dāng)r0時(shí),X與Y為負(fù)相關(guān)。 沒(méi)有單位,取值介于1與1之間。 絕對(duì)值越接近1說(shuō)明關(guān)系越密切。r1為完全正相關(guān),而r1為完全負(fù)相關(guān)。 注意:當(dāng)r=0時(shí),只是表明兩個(gè)變量之間不存在線性關(guān)系,它并不意味著X與Y之間不存在其他類型的相關(guān)關(guān)系。,相關(guān)系數(shù)的顯著性檢驗(yàn),樣本相關(guān)系數(shù)r受到抽樣波動(dòng)的影響,是一個(gè)隨機(jī)變量。 相關(guān)系數(shù)非常高的樣本也有可能來(lái)自無(wú)相關(guān)關(guān)系的總體。為了排除這種情況,需要對(duì)相關(guān)系數(shù)進(jìn)行假設(shè)檢驗(yàn)。,樣本能代表總體嗎?,如果紅色的點(diǎn)碰巧為你的樣本,則樣本相關(guān)系數(shù)為0.907,總體相關(guān)系數(shù)為0.00005,相關(guān)系數(shù)的顯著性檢驗(yàn),1、提出假設(shè):H0: ;H1: 0,2、 計(jì)算檢驗(yàn)的統(tǒng)計(jì)量:,3、 確定顯著性水平,并作出決策 若 t t,拒絕H0 或者:若p值a ,拒絕H0,檢驗(yàn)的步驟是:,計(jì)算結(jié)果: t檢驗(yàn)值為 臨界值t(21)2.08,故拒絕H0,認(rèn)為相關(guān)系數(shù)顯著。,消費(fèi)支出和可支配收入的相關(guān)系數(shù),注意:相關(guān)關(guān)系因果關(guān)系!,典型的錯(cuò)誤推斷: 統(tǒng)計(jì)分析表明,慶祝生日次數(shù)越 多的人越長(zhǎng)壽。因此,慶祝生日有利于健康。 調(diào)查表明,世界各國(guó)人均電視機(jī)擁有量與預(yù)期壽命存在很強(qiáng)的正相關(guān)性。因此,電視機(jī)擁有量越高,預(yù)期壽命越長(zhǎng)。 對(duì)小學(xué)各年級(jí)學(xué)生的抽樣調(diào)查表明,學(xué)生的識(shí)字水平與他們鞋子的尺寸高度正相關(guān)。因此,學(xué)生穿的鞋越大,他的識(shí)字水平就越高。,72 一元線性回歸分析,總體回歸函數(shù) 、樣本回歸函數(shù) 一元線性回歸模型的估計(jì) 一元線性回歸模型的檢驗(yàn),趨向中間高度的回歸,回歸這個(gè)術(shù)語(yǔ)是由英國(guó)著名統(tǒng)計(jì)學(xué)家Francis Galton在19世紀(jì)末期研究孩子及他們的父母的身高時(shí)提出來(lái)的。Galton發(fā)現(xiàn)身材高的父母,他們的孩子也高。但這些孩子平均起來(lái)并不像他們的父母那樣高。對(duì)于比較矮的父母情形也類似:他們的孩子比較矮,但這些孩子的平均身高要比他們的父母的平均身高高。 Galton把這種孩子的身高向中間值靠近的趨勢(shì)稱之為一種回歸效應(yīng),而他發(fā)展的研究?jī)蓚€(gè)數(shù)值變量的方法稱為回歸分析。,Regression 的原始釋義,回歸模型的類型,回歸模型,多元回歸,一元回歸,線性回歸,非線性回歸,線性回歸,非線性回歸,總體回歸函數(shù),描述因變量y如何依賴于自變量x和隨機(jī)誤差項(xiàng) 的方程稱為回歸函數(shù)。總體回歸函數(shù)的形式如下:,總體截距項(xiàng),總體斜率系數(shù),隨機(jī)誤差項(xiàng),因變量,自變量,總體回歸直線: 所以,總體回歸函數(shù)也可表示為:,樣本回歸函數(shù)是對(duì)總體回歸函數(shù)的一個(gè)樣本估計(jì)結(jié)果。,樣本回歸函數(shù),樣本截距項(xiàng),樣本斜率系數(shù),殘差,Residual,樣本回歸直線:,總體回歸直線與樣本回歸直線,Y,X,樣本回歸函數(shù)與總體回歸函數(shù)區(qū)別,1、總體回歸線是未知的,只有一條。樣本回歸線是根據(jù)樣本數(shù)據(jù)擬合的,每抽取一組樣本,便可以擬合一條樣本回歸線。 2、總體回歸函數(shù)中的1和2是未知的參數(shù),表現(xiàn)為常數(shù)。而樣本回歸函數(shù)中的 是隨機(jī)變量,其具體數(shù)值隨所抽取的樣本觀測(cè)值不同而變動(dòng)。,樣本回歸函數(shù)與總體回歸函數(shù)區(qū)別,3、總體回歸函數(shù)中的et是t與未知的總體回歸線之間的縱向距離,它是不可直接觀測(cè)的。而樣本回歸函數(shù)中的t是t與樣本回歸線之間的縱向距離,當(dāng)根據(jù)樣本觀測(cè)值擬合出樣本回歸線之后,可以計(jì)算出t的具體數(shù)值。,在滿足一系列假設(shè)條件的情況下,最小二乘估計(jì)量是方差最小線性無(wú)偏估計(jì)量。需要的基本假設(shè)條件包括: 1、 2、對(duì)于所有的x, 的方差 相等 3、 與X之間不相關(guān) 4、 之間不相關(guān) 5、 服從正態(tài)分布,一元線性回歸模型的統(tǒng)計(jì)假設(shè),7.2.2 一元線性回歸模型的估計(jì),總體回歸直線是未知的,它只有一條;而樣本回歸直線則是根據(jù)樣本數(shù)據(jù)擬合的,每抽取一組樣本,便可以擬合一條樣本回歸直線。 在總體參數(shù)未知的情況下,如何保證樣本回歸系數(shù)盡可能接近總體參數(shù)的真實(shí)值? 在回歸分析中最常用的估計(jì)方法是最小二乘法。,的意義,為殘差:點(diǎn)到直線的縱向距離。,最小二乘估計(jì),通過(guò)使殘差平方和 達(dá)到最小來(lái)求得,最小二乘估計(jì),將Q對(duì) 和 求偏導(dǎo)數(shù)并令其等于零,可以得到正規(guī)方程組(Normal Equations)。,解這個(gè)方程組可得:,注意 的符號(hào)與相關(guān)系數(shù)r是一致的。,最小二乘回歸直線的性質(zhì),(1) 直線通過(guò)均點(diǎn) (2) (3) 取得最小值,高斯馬爾可夫定理表明,在給定經(jīng)典線性回歸的假定下,普通最小二乘估計(jì)量具有線性性、無(wú)偏性、最小方差性等優(yōu)良性質(zhì)。 具有這些優(yōu)良性質(zhì)的估計(jì)量又稱為最佳線性無(wú)偏估計(jì)量,即BLUE估計(jì)量(the Best Linear Unbiased Estimators)。,最小二乘估計(jì)量的有關(guān)性質(zhì),最小二乘估計(jì)量是Y的線性函數(shù)。 最小二乘估計(jì)量是無(wú)偏估計(jì)量,它的期望值等于總體的真實(shí)值; 最小二乘估計(jì)量在所有線性無(wú)偏估計(jì)量中具有最小方差。,最小二乘估計(jì)量的有關(guān)性質(zhì),根據(jù)表71的數(shù)據(jù),建立北京市城鎮(zhèn)居民消費(fèi)模型,以人均年消費(fèi)性支出(變量Y)為因變量,以人均年可支配收入(變量X)為自變量,建立一元線性回歸模型。假設(shè)2011年北京市人均年可支配收入為2.9萬(wàn)元,請(qǐng)根據(jù)已建立的消費(fèi)模型預(yù)測(cè)2011年人均消費(fèi)支出。,例題7.2,SPSS的回歸分析,利用SPSS選項(xiàng):AnalizeRegressionLinear 再把有關(guān)的自變量選入Independent,把因變量選入Dependent,然后OK即可。如果自變量有多個(gè)(多元回歸模型),只要都選入就行。,例題7.2 SPSS輸出結(jié)果,結(jié)果分析,上式中,0.7246是邊際消費(fèi)傾向,表示人均可支配收入每增加1千元,人均消費(fèi)支出會(huì)增加0.7246千元;0.5628是自主性消費(fèi),即與收入無(wú)關(guān)的最基本人均消費(fèi)為0.5628千元。 將 帶入代入回歸方程,得到2011年人均消費(fèi)支出的預(yù)測(cè)值。,一元線性回歸方程的評(píng)價(jià)和檢驗(yàn),擬合優(yōu)度 1、決定系數(shù) 2、估計(jì)標(biāo)準(zhǔn)誤差 顯著性檢驗(yàn) 3、t檢驗(yàn) 4、F檢驗(yàn),1、決定系數(shù),回歸直線與各觀測(cè)數(shù)據(jù)的接近程度稱為回歸直線的擬合優(yōu)度(goodness of fit)。 度量回歸直線的擬合優(yōu)度最常用的指標(biāo)是決定系數(shù)(coefficient of determination ,又稱可決系數(shù)、判定系數(shù))。 該指標(biāo)是建立在對(duì)總離差平方和進(jìn)行分解的基礎(chǔ)之上的。,何為“離差”?,因變量 y 相對(duì)于其均值的差異稱為離差,用 來(lái)表示。 離差來(lái)源于兩個(gè)方面 由于自變量 x 的取值不同造成的 除 x 以外的其他因素(如x對(duì)y的非線性影響、測(cè)量誤差等)的影響,離差分解圖,兩端平方后求和有,離差平方和的分解 (三個(gè)平方和的意義),總平方和(SST) 反映因變量的 n 個(gè)實(shí)際觀察值與其均值的總離差,回歸平方和(SSR),反映自變量 x 的變化對(duì)因變量 y 取值變化的影響,也即因變量的理論值與其樣本均值的離差,或者說(shuō),是由于 x 與 y 之間的線性關(guān)系引起的 y 的取值變化,也稱為可解釋的平方和。,殘差平方和(SSE),不能由回歸直線加以解釋的殘差平方和。 反映除 x 以外的其他因素對(duì) y 取值的影響,也稱為不可解釋的平方和或剩余平方和,決定系數(shù)為:,決定系數(shù)的取值,R2的取值范圍是0,1。 R2越接近于1,表明回歸平方和占總離差平方和的比例越大,回歸直線與各觀測(cè)點(diǎn)越接近,回歸直線的擬合程度就越好。 在一元線性回歸中,相關(guān)系數(shù)r的平方等于判定系數(shù),符號(hào)與自變量x的系數(shù)一致。因此可以根據(jù)回歸結(jié)果求出相關(guān)系數(shù)。 所有的回歸程序都會(huì)給出R2的值.,2、估計(jì)標(biāo)準(zhǔn)誤,估計(jì)標(biāo)準(zhǔn)誤(standard error of estimate)是對(duì)各觀測(cè)數(shù)據(jù)在回歸直線周圍分散程度的一個(gè)度量值,可以證明, 是對(duì)誤差項(xiàng)的標(biāo)準(zhǔn)差的無(wú)偏估計(jì)。 式中p為模型中自變量的個(gè)數(shù),一元回歸中等于1。,2、估計(jì)標(biāo)準(zhǔn)誤,估計(jì)標(biāo)準(zhǔn)誤反映了用估計(jì)的回歸方程擬合因變量Y時(shí)平均誤差的大小。 各觀測(cè)數(shù)據(jù)越靠近回歸直線,估計(jì)標(biāo)準(zhǔn)誤就越小,回歸直線對(duì)各觀測(cè)數(shù)據(jù)的代表性就越好。 與R2不同的是,估計(jì)標(biāo)準(zhǔn)誤是一個(gè)有單位的絕對(duì)數(shù)。,例題7.2 SPSS輸出的擬合優(yōu)度結(jié)果:,回歸分析中的顯著性檢驗(yàn),回歸分析中的顯著性檢驗(yàn)包括兩方面的內(nèi)容: 一是對(duì)單個(gè)自變量回歸系數(shù)的顯著性檢驗(yàn)( t檢驗(yàn)); 二是對(duì)整個(gè)回歸方程(所有自變量回歸系數(shù))顯著性的整體檢驗(yàn)( F檢驗(yàn))。 在一元線性回歸模型中,由于只有一個(gè)解釋變量X,因此,對(duì)10的t檢驗(yàn)與對(duì)整個(gè)方程的F檢驗(yàn)是等價(jià)的。,3 單個(gè)回歸系數(shù)顯著性的t檢驗(yàn),第1步:提出假設(shè)。一般為 對(duì)于一些具體問(wèn)題也可能需要進(jìn)行單側(cè)檢驗(yàn)。 第2步:確定檢驗(yàn)的統(tǒng)計(jì)量??梢宰C明在回歸模型的基本假設(shè)成立時(shí),如果零假設(shè)正確,則有,單個(gè)回歸系數(shù)的顯著性檢驗(yàn),第3步:計(jì)算檢驗(yàn)統(tǒng)計(jì)量的樣本觀測(cè)值或p值。 第4步:進(jìn)行決策: 根據(jù)顯著性水平a和自由度dfn2確定檢驗(yàn)統(tǒng)計(jì)量的臨界值, tt時(shí)拒絕H0; 或者p值 a時(shí)拒絕H0。 統(tǒng)計(jì)軟件都會(huì)給出相關(guān)計(jì)算結(jié)果。,例題7.2 SPSS輸出結(jié)果,幾點(diǎn)說(shuō)明,為什么要檢驗(yàn)回歸系數(shù)是否等于0? 如果總體中的回歸系數(shù)等于零,說(shuō)明相應(yīng)的自變量對(duì)y缺乏解釋能力,在這種情況下我們可能需要中回歸方程中去掉這個(gè)自變量。 我們也可以對(duì)常數(shù)項(xiàng)進(jìn)行t檢驗(yàn),但大部分情況下我們并不關(guān)心常數(shù)項(xiàng)的檢驗(yàn)結(jié)果。 通常情況下即使常數(shù)項(xiàng)在模型中不顯著,我們也會(huì)在模型中保留常數(shù)項(xiàng),去掉常數(shù)項(xiàng)可能會(huì)對(duì)模型帶來(lái)不利影響。,第1步:提出假設(shè)。在一元回歸為 第2步:確定檢驗(yàn)統(tǒng)計(jì)量: MSR稱為均方回歸,MSE稱為均方殘差。 第3步:計(jì)算檢驗(yàn)統(tǒng)計(jì)量的樣本觀測(cè)值或p值。,4、方程整體顯著性的F檢驗(yàn),整個(gè)方程的的顯著性檢驗(yàn),第4步:進(jìn)行決策: 根據(jù)顯著性水平a和自由度(1,n2)確定檢驗(yàn)統(tǒng)計(jì)量的臨界值Fa ,F(xiàn)F時(shí)拒絕H0; 或者p值 a時(shí)拒絕H0, 如果不能拒絕零假設(shè),則說(shuō)明所有自變量作為一個(gè)整體對(duì)因變量都沒(méi)有解釋能力。 注意這里F檢驗(yàn)是右側(cè)檢驗(yàn)!,F檢驗(yàn):例題7.2,收入-消費(fèi)模型的F檢驗(yàn)結(jié)果。很多統(tǒng)計(jì)軟件的F檢驗(yàn)都是以一個(gè)方差分析表的形式給出的。,利用回歸模型進(jìn)行預(yù)測(cè)* (本小節(jié)不做考試要求),均值預(yù)測(cè)與個(gè)值預(yù)測(cè) 均值預(yù)測(cè)(mean prediction):對(duì)于給定的X值,預(yù)測(cè)Y的平均值。例如,對(duì)于所有年收入=3萬(wàn)的居民,其平均消費(fèi)等于多少? 個(gè)值預(yù)測(cè)(individual prediction):張三的年收入=3萬(wàn),其消費(fèi)=? 均值和個(gè)值預(yù)測(cè)的點(diǎn)估計(jì)值相同:對(duì)于 x 的一個(gè)給定值x0 ,預(yù)測(cè)值都等于根據(jù)回歸方程得到 y 的估計(jì)值 。,均值預(yù)測(cè)的置信區(qū)間,對(duì)于 一個(gè)給定的x 值 x0 , y 的均值E(y0)的置信區(qū)間 。這一區(qū)間有時(shí)簡(jiǎn)稱為置信區(qū)間。 (confidence interval)。 E(y0) 在1-置信水平下的置信區(qū)間為,對(duì)于 一個(gè)給定的x值 x0 ,y 的一個(gè)個(gè)別值的估計(jì)區(qū)間。這一區(qū)間常稱為預(yù)測(cè)區(qū)間(prediction interval)。 y0在1-置信水平下的預(yù)測(cè)區(qū)間為 手工計(jì)算置信區(qū)間和預(yù)測(cè)區(qū)間幾乎是不可能的,但統(tǒng)計(jì)軟件可以直接給出計(jì)算結(jié)果。,個(gè)值預(yù)測(cè)的置信區(qū)間(預(yù)測(cè)區(qū)間),預(yù)測(cè)區(qū)間與置信區(qū)間,需要預(yù)測(cè)的值越接近x的均值,預(yù)測(cè)誤差越小。用回歸模型進(jìn)行外推預(yù)測(cè)可能會(huì)有較大的誤差,因此必須小心使用!,73 多元線性回歸,多元線性回歸模型 多元線性回歸方程的參數(shù)估計(jì) 回歸方程的擬合優(yōu)度和復(fù)相關(guān)系數(shù) 顯著性檢驗(yàn) 逐步回歸,多元線性回歸模型,總體回歸函數(shù): 樣本回歸方程:,多元線性回歸模型的基本假設(shè),在多元回歸中除了要求一元回歸中的基本假設(shè)條件外,還需要假設(shè)自變量之間不存在完全的多重共線性,否則無(wú)法估計(jì)回歸模型。 完全的多重共線性:一個(gè)自變量可以表示為其他自變量和常數(shù)項(xiàng)的線性函數(shù),例如x1 = 2x2 +x3 +5。,多元線性回歸方程的參數(shù)估計(jì),利用與一元回歸類似的最小二乘法可以得到總體參數(shù)的估計(jì)量和估計(jì)值。雖然計(jì)算過(guò)程要復(fù)雜一些,但用計(jì)算機(jī)很容易得到計(jì)算結(jié)果。 在多元回歸中對(duì)回歸系數(shù)的解釋有所不同。 例如變量x1的回歸系數(shù)應(yīng)解釋為:當(dāng)x2 , x3, xp不變時(shí), x1每變動(dòng)一個(gè)單位因變量y的平均變動(dòng)量。,根據(jù)表71的數(shù)據(jù),建立北京市城鎮(zhèn)居民消費(fèi)模型,要求以人均年消費(fèi)性支出(變量Y)為因變量,以人均年可支配收入(變量X)和家庭恩格爾系數(shù)(變量Z)為自變量,建立二元線性回歸模型。,例題7.3,用SPSS進(jìn)行二元線性回歸,用SPSS進(jìn)行二元線性回歸的具體步驟,與上一節(jié)介紹的估計(jì)一元線性回歸模型非常相似:前3步完全相同,只是在第4步,在彈出的“Linear Regression”對(duì)話框中,將Y變量選入“Dependent”欄后,需要將變量X和變量Z同時(shí)選入“Independent(s)”欄,最后點(diǎn)擊“確定”。,SPSS回歸結(jié)果,結(jié)果分析,二元線性回歸方程為: 變量X的回歸系數(shù)為0.602,其統(tǒng)計(jì)含義:在居民家庭恩格爾系數(shù)不變的條件下,居民可支配收入每上升1個(gè)單位(千元),居民消費(fèi)“平均”上升0.602個(gè)單位(千元);變量Z的回歸系數(shù)為0.097,說(shuō)明在居民可支配收入不變的條件下,居民恩格爾系數(shù)每降低1個(gè)單位(即降低1%),居民消費(fèi)水平就會(huì)“平均”上升0.097個(gè)單位(千元)。,多元回歸方程的檢驗(yàn),擬合優(yōu)度 修正的多重決定系數(shù) 估計(jì)標(biāo)準(zhǔn)誤差 顯著性檢驗(yàn) F檢驗(yàn) t檢驗(yàn),多元回歸模型的決定系數(shù),我們同樣可以用決定系數(shù)來(lái)衡量多元回歸模型的擬合效果,在多元回歸中也稱為多重決定系數(shù)(multiple coefficient of determination)。 R2的正的平方根稱為復(fù)相關(guān)系數(shù),它度量了因變量同p個(gè)自變量的相關(guān)程度。,在樣本容量一定的條件下,不斷向模型中增加自變量,即使新增的變量與Y不相關(guān),模型的R2也可能上升,至少不會(huì)下降。 在實(shí)際應(yīng)用中,研究人員更歡迎簡(jiǎn)單的模型,這樣的模型更簡(jiǎn)單和易于解釋。如果根據(jù)R2來(lái)選擇模型,顯然會(huì)傾向于復(fù)雜的模型。 更常用的指標(biāo)是“修正后的Ra2”。,修正的判定系數(shù),修正的判定系數(shù),在多元回歸中,比較自變量個(gè)數(shù)不同的方程的擬合效果時(shí)多使用修正的判定系數(shù)(adjusted multiple coefficient of determination):,Ra2特點(diǎn):,n-1和n-p-1實(shí)際分別是總離差平方和與殘差 平方和的自由度。 由各自定義知: Ra2小于1,但未必都大于0,在擬合極差的情況下, Ra2有可能為負(fù)值。,多元線性回歸模型的估計(jì)標(biāo)準(zhǔn)誤,多元線性回歸中的估計(jì)標(biāo)準(zhǔn)誤差也是對(duì)誤差項(xiàng)的方差2的一個(gè)估計(jì)值 含義:根據(jù)自變量x1,x2,xP來(lái)預(yù)測(cè)因變量y時(shí)的平均預(yù)測(cè)誤差。,例題7.3的結(jié)果,結(jié)果分析,可決系數(shù)為0.997。這個(gè)指標(biāo)可用于計(jì)算“復(fù)相關(guān)系數(shù)” (正的平方根)。 修正的可決系數(shù)為0.997。 回歸標(biāo)準(zhǔn)誤差為0.27276,其統(tǒng)計(jì)含義為,根據(jù)該回歸方程對(duì)城鎮(zhèn)居民消費(fèi)水平進(jìn)行擬合時(shí),平均的估計(jì)誤差為272.76元。,多元回歸中t檢驗(yàn)和F檢驗(yàn)的步驟與一元回歸類似,相應(yīng)t的檢驗(yàn)統(tǒng)計(jì)量為,多元回歸中的t檢驗(yàn),SPSS回歸結(jié)果,F檢驗(yàn)的統(tǒng)計(jì)量為 注意這里F檢驗(yàn)與t檢驗(yàn)不再等價(jià),其零假設(shè)和備擇假設(shè)分別為 H0:12p=0 H1:1,2,p至少有一個(gè)不等于0,多元回歸中的F檢驗(yàn),F檢驗(yàn):例題7.3的結(jié)果,多元回歸中的變量篩選,在多元回歸中,預(yù)先選定的自變量不一定都對(duì)Y有顯著的影響。有一些統(tǒng)計(jì)方法可以幫助我們從眾多可能的自變量中篩選出重要的自變量。,SPSS軟件提供了多種篩選自變量的方法: “向前引入法(Forward)” “向后剔除法(Backward)” “逐步引入剔除法(Stepwise)”,逐步回歸的思想,將變量逐一引入回歸方程,先建立與y相關(guān)最密切的一元線性回歸方程,然后再找出第二個(gè)變量,建立二元線性回歸方程,。 在每一步中都要對(duì)引入變量的顯著性作檢驗(yàn),僅當(dāng)其顯著時(shí)才引入,而每引入一個(gè)新變量后,對(duì)前面已引進(jìn)的變量又要逐一檢驗(yàn),一旦發(fā)現(xiàn)某變量變得不顯著了,就要將它剔除。 這些步驟反復(fù)進(jìn)行,直到引入的變量都是顯著的而沒(méi)有引入的變量都是不顯著的時(shí),就結(jié)束挑選變量的工作。 可以設(shè)定引入和刪除變量的條件。,逐步回歸舉例:澳大利亞的啤酒需求,為了研究澳大利亞啤酒需求的影響因素,研究人員收集了1955-1996如下資料(數(shù)據(jù)見(jiàn)data8-2.xls ): ConsBeer:人均啤酒消費(fèi)量(升) Pbeer: 啤酒的價(jià)格(澳元升) Pwine: 葡萄酒的價(jià)格(澳元升) Psprits:白酒的價(jià)格(澳元升) Income: 人均收入,澳元 根據(jù)數(shù)據(jù)擬合多元線性回歸模型。,多元線性回歸:澳大利亞的啤酒需求,部分?jǐn)?shù)據(jù):,回歸結(jié)果,ConsBeer 89.2811- 68.2395 Pbeer + 41.9225Pwine + 2.6519 Pspirits - 0.0100 Income,回歸結(jié)果,逐步回歸結(jié)果,使用默認(rèn)設(shè)置,逐步回歸得到的最終模型,74 回歸分析的其他問(wèn)題,非線性回歸 違背回歸模型統(tǒng)計(jì)假設(shè)的后果和補(bǔ)救方法,非線性回歸分析,如果y 與 x 之間不是線性關(guān)系,通常也可以可通過(guò)變量代換使其轉(zhuǎn)換成線性模型,然后再對(duì)線性模型進(jìn)行估計(jì)。 但并非所有的非線性模型都可以化為線性模型。,在對(duì)實(shí)際的客觀現(xiàn)象進(jìn)行定量分析時(shí),選擇回歸方程的具體形式應(yīng)遵循以下原則: 方程形式應(yīng)與有關(guān)實(shí)質(zhì)性科學(xué)的基本理論相一致。例如,采用冪函數(shù)的形式,能夠較好地表現(xiàn)生產(chǎn)函數(shù);采用多項(xiàng)式方程能夠較好地反映總成本與總產(chǎn)量之間的關(guān)系等等。 方程有較高的擬合程度。 方程的數(shù)學(xué)形式要盡可能簡(jiǎn)單。,非線性函數(shù)形式的確定,幾種常見(jiàn)的非線性模型,指數(shù)函數(shù),線性化方法 兩端取對(duì)數(shù)得:lny = ln + x 令:y = lny,則有y = ln + x,基本形式:,圖像,幾種常見(jiàn)的非線性模型,冪函數(shù),線性化方法 兩端取對(duì)數(shù)得:lg y = lg + lg x 令:y = lgy,x= lg x,則y = lg + x,基本形式:,圖像,幾種常見(jiàn)的非線性模型, 雙曲線函數(shù),線性化方法 令:y = 1/y,x= 1/x, 則有y = + x,基本形式:,圖像,幾種常見(jiàn)的非線性模型,對(duì)數(shù)函數(shù),線性化方法 x= lgx , 則有y = + x,基本形式:,圖像,幾種常見(jiàn)的非線性模型,S 型曲線,線性化方法 令:y = 1/y,x= e-x, 則有y = + x,基本形式:,圖像,OLS估計(jì)需要一系列的假設(shè)條件; 在實(shí)際應(yīng)用中這些假設(shè)條件能夠同時(shí)得到滿足的情況不多見(jiàn)。對(duì)這些假設(shè)條件的檢驗(yàn)以及采取相應(yīng)的補(bǔ)救措施就成為回歸分析的重要任務(wù)之一。 通過(guò)模型理論方法的發(fā)展,可以克服違背基本假設(shè)帶來(lái)的問(wèn)題。,違背回歸模型統(tǒng)計(jì)假設(shè)的幾種情況和后果,異方差問(wèn)題(違背同方差假設(shè)) 序列相關(guān)問(wèn)題(違背序列不相關(guān)假設(shè)) 多重共線性問(wèn)題(違背解釋變量不相關(guān)假設(shè)),違背回歸模型統(tǒng)計(jì)假設(shè)的常見(jiàn)情況,(1)異方差,當(dāng)回歸模型隨機(jī)誤差項(xiàng)et的方差不為常數(shù)時(shí),即為異方差(Heteroscedasticity)現(xiàn)象: 當(dāng)異方差出現(xiàn)時(shí),回歸模型的估計(jì)量不再具有最小方差的性質(zhì),因此不再保持有效性;同時(shí),我們此前介紹的t檢驗(yàn)也失效,無(wú)法對(duì)回歸系數(shù)的顯著性進(jìn)行檢驗(yàn)。,同方差,x1 x2,X,e,Y,隨著x變化隨機(jī)擾動(dòng)項(xiàng)e的方差不變,異方差,x1 x2,X,e,隨著x增加隨機(jī)擾動(dòng)項(xiàng)方差增大,Y,(2)序列相關(guān),隨機(jī)誤差項(xiàng)之間的協(xié)方差不
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- DB14-T 3355-2025 設(shè)施蔬菜高溫悶棚技術(shù)規(guī)程
- 餐飲業(yè)股份合作投資合同樣本
- Brand KPIs for neobanking Next in Brazil-英文培訓(xùn)課件2025.4
- 標(biāo)準(zhǔn)房地產(chǎn)抵押合同(35篇)
- 2025年心理測(cè)量學(xué)基礎(chǔ)知識(shí)測(cè)驗(yàn)試題及答案
- 構(gòu)建初中語(yǔ)文文學(xué)閱讀學(xué)習(xí)任務(wù)群的統(tǒng)合性思考
- 餐廳經(jīng)理勞動(dòng)合同范本:保密條款與知識(shí)產(chǎn)權(quán)
- 餐飲品牌加盟店租賃及經(jīng)營(yíng)合作協(xié)議
- 生物醫(yī)藥財(cái)產(chǎn)抵押貸款合同模板
- 成都市二手房交易房屋交易合同解除及后續(xù)處理?xiàng)l款
- (三模)煙臺(tái)市2025屆高三高考診斷性測(cè)試地理試卷(含答案)
- 戀愛(ài)合同續(xù)約協(xié)議書(shū)范本
- 護(hù)理教學(xué)體系構(gòu)建與實(shí)施
- 2025-2030年中國(guó)消毒劑行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 江蘇省鎮(zhèn)江市江南學(xué)校2025年七下數(shù)學(xué)期末綜合測(cè)試試題含解析
- 水權(quán)與水資源管理考試試題及答案
- 江蘇醫(yī)療質(zhì)量管理辦法實(shí)施細(xì)則
- 【8生 會(huì)考】2022-2024年安徽省初中(八年級(jí))中考初二會(huì)考生物試卷(3年真題)
- 安徽卓越縣中聯(lián)盟2024-2025學(xué)年高三下學(xué)期5月份檢測(cè)物理試題+答案
- 2024-2025學(xué)年湖北省十堰市高二歷史下學(xué)期6月期末調(diào)研考試試卷(附答案)
- 2025至2030中國(guó)養(yǎng)發(fā)服務(wù)行業(yè)營(yíng)銷策略及競(jìng)爭(zhēng)格局研究報(bào)告
評(píng)論
0/150
提交評(píng)論