版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
(優(yōu)選)線性回歸精確分析當(dāng)前第1頁\共有76頁\編于星期四\10點(diǎn)2回歸分析概述(一)回歸分析理解(1)“回歸”的含義galton研究研究父親身高和兒子身高的關(guān)系時(shí)的獨(dú)特發(fā)現(xiàn).
(2)回歸線的獲得方式一:局部平均
回歸曲線上的點(diǎn)給出了相應(yīng)于每一個(gè)x(父親)值的y(兒子)平均數(shù)的估計(jì)(3)回歸線的獲得方式二:擬和函數(shù)使數(shù)據(jù)擬和于某條曲線;通過若干參數(shù)描述該曲線;利用已知數(shù)據(jù)在一定的統(tǒng)計(jì)準(zhǔn)則下找出參數(shù)的估計(jì)值(得到回歸曲線的近似);當(dāng)前第2頁\共有76頁\編于星期四\10點(diǎn)3回歸分析概述(二)回歸分析的基本步驟(1)確定自變量和因變量(父親身高關(guān)于兒子身高的回歸與兒子身高關(guān)于父親身高的回歸是不同的).(2)從樣本數(shù)據(jù)出發(fā)確定變量之間的數(shù)學(xué)關(guān)系式,并對(duì)回歸方程的各個(gè)參數(shù)進(jìn)行估計(jì).(3)對(duì)回歸方程進(jìn)行各種統(tǒng)計(jì)檢驗(yàn).(4)利用回歸方程進(jìn)行預(yù)測.當(dāng)前第3頁\共有76頁\編于星期四\10點(diǎn)4線性回歸分析概述(三)參數(shù)估計(jì)的準(zhǔn)則目標(biāo):回歸線上的觀察值與預(yù)測值之間的距離總和達(dá)到最小最小二乘法(利用最小二乘法擬和的回歸直線與樣本數(shù)據(jù)點(diǎn)在垂直方向上的偏離程度最低)當(dāng)前第4頁\共有76頁\編于星期四\10點(diǎn)5一元線性回歸分析(一)一元回歸方程:
y=β0+β1xβ0為常數(shù)項(xiàng);β1為y對(duì)x回歸系數(shù),即:x每變動(dòng)一個(gè)單位所引起的y的平均變動(dòng)(二)一元回歸分析的步驟利用樣本數(shù)據(jù)建立回歸方程回歸方程的擬和優(yōu)度檢驗(yàn)回歸方程的顯著性檢驗(yàn)(t檢驗(yàn)和F檢驗(yàn))殘差分析預(yù)測當(dāng)前第5頁\共有76頁\編于星期四\10點(diǎn)6一元線性回歸方程的檢驗(yàn)(一)擬和優(yōu)度檢驗(yàn):(1)目的:檢驗(yàn)樣本觀察點(diǎn)聚集在回歸直線周圍的密集程度,評(píng)價(jià)回歸方程對(duì)樣本數(shù)據(jù)點(diǎn)的擬和程度。(2)思路:因?yàn)?因變量取值的變化受兩個(gè)因素的影響自變量不同取值的影響其他因素的影響于是:因變量總變差=自變量引起的+其他因素引起的即:因變量總變差=回歸方程可解釋的+不可解釋的可證明:因變量總離差平方和=回歸平方和+剩余平方和當(dāng)前第6頁\共有76頁\編于星期四\10點(diǎn)7一元線性回歸方程的檢驗(yàn)(一)擬和優(yōu)度檢驗(yàn):(3)統(tǒng)計(jì)量:判定系數(shù)R2=SSR/SST=1-SSE/SST.R2體現(xiàn)了回歸方程所能解釋的因變量變差的比例;1-R2則體現(xiàn)了因變量總變差中,回歸方程所無法解釋的比例。R2越接近于1,則說明回歸平方和占了因變量總變差平方和的絕大部分比例,因變量的變差主要由自變量的不同取值造成,回歸方程對(duì)樣本數(shù)據(jù)點(diǎn)擬合得好在一元回歸中R2=r2;因此,從這個(gè)意義上講,判定系數(shù)能夠比較好地反映回歸直線對(duì)樣本數(shù)據(jù)的代表程度和線性相關(guān)性。當(dāng)前第7頁\共有76頁\編于星期四\10點(diǎn)8一元線性回歸方程的檢驗(yàn)(二)回歸方程的顯著性檢驗(yàn):F檢驗(yàn)(1)目的:檢驗(yàn)自變量與因變量之間的線性關(guān)系是否顯著,是否可用線性模型來表示.(2)H0:β=0即:回歸系數(shù)與0無顯著差異(3)利用F檢驗(yàn),構(gòu)造F統(tǒng)計(jì)量:F=平均的回歸平方和/平均的剩余平方和~F(1,n-1-1)如果F值較大,則說明自變量造成的因變量的線性變動(dòng)遠(yuǎn)大于隨機(jī)因素對(duì)因變量的影響,自變量于因變量之間的線性關(guān)系較顯著(4)計(jì)算F統(tǒng)計(jì)量的值和相伴概率p(5)判斷p<=a:拒絕H0,即:回歸系數(shù)與0有顯著差異,自變量與因變量之間存在顯著的線性關(guān)系。反之,不能拒絕H0當(dāng)前第8頁\共有76頁\編于星期四\10點(diǎn)9一元線性回歸方程的檢驗(yàn)(三)回歸系數(shù)的顯著性檢驗(yàn):t檢驗(yàn)(1)目的:檢驗(yàn)自變量對(duì)因變量的線性影響是否顯著.(2)H0:β=0即:回歸系數(shù)與0無顯著差異(3)利用t檢驗(yàn),構(gòu)造t統(tǒng)計(jì)量:其中:Sy是回歸方程標(biāo)準(zhǔn)誤差(StandardError)的估計(jì)值,由均方誤差開方后得到,反映了回歸方程無法解釋樣本數(shù)據(jù)點(diǎn)的程度或偏離樣本數(shù)據(jù)點(diǎn)的程度如果回歸系數(shù)的標(biāo)準(zhǔn)誤差較小,必然得到一個(gè)相對(duì)較大的t值,表明該自變量x解釋因變量線性變化的能力較強(qiáng)。(4)計(jì)算t統(tǒng)計(jì)量的值和相伴概率p
(5)判斷當(dāng)前第9頁\共有76頁\編于星期四\10點(diǎn)10一元線性回歸方程的檢驗(yàn)(四)t檢驗(yàn)與F檢驗(yàn)的關(guān)系一元回歸中,F檢驗(yàn)與t檢驗(yàn)一致,即:F=t2,兩種檢驗(yàn)可以相互替代(六)F統(tǒng)計(jì)量和R2值的關(guān)系如果回歸方程的擬合優(yōu)度高,F(xiàn)統(tǒng)計(jì)量就越顯著。F統(tǒng)計(jì)量越顯著,回歸方程的擬合優(yōu)度就會(huì)越高。當(dāng)前第10頁\共有76頁\編于星期四\10點(diǎn)11一元線性回歸分析操作(一)基本操作步驟(1)菜單選項(xiàng):Analyze->regression->linear…(2)選擇一個(gè)變量為因變量進(jìn)入dependent框(3)選擇一個(gè)變量為自變量進(jìn)入independent框(4)enter:所選變量全部進(jìn)入回歸方程(默認(rèn)方法)(5)對(duì)樣本進(jìn)行篩選(selectionvariable)利用滿足一定條件的樣本數(shù)據(jù)進(jìn)行回歸分析(6)指定作圖時(shí)各數(shù)據(jù)點(diǎn)的標(biāo)志變量(caselabels)當(dāng)前第11頁\共有76頁\編于星期四\10點(diǎn)12一元線性回歸分析操作(二)statistics選項(xiàng)(1)基本統(tǒng)計(jì)量輸出Estimates:默認(rèn).顯示回歸系數(shù)相關(guān)統(tǒng)計(jì)量.confidenceintervals:每個(gè)非標(biāo)準(zhǔn)化的回歸系數(shù)95%的置信區(qū)間.Descriptive:各變量均值、標(biāo)準(zhǔn)差和相關(guān)系數(shù)單側(cè)檢驗(yàn)概率.Modelfit:默認(rèn).判定系數(shù)、估計(jì)標(biāo)準(zhǔn)誤差、方差分析表、容忍度(2)Residual框中的殘差分析Durbin-waston:D-W值casewisediagnostic:異常值(奇異值)檢測
(輸出預(yù)測值及殘差和標(biāo)準(zhǔn)化殘差)當(dāng)前第12頁\共有76頁\編于星期四\10點(diǎn)13一元線性回歸分析操作(三)plot選項(xiàng):圖形分析.Standardizeresidualplots:繪制殘差序列直方圖和累計(jì)概率圖,檢測殘差的正態(tài)性繪制指定序列的散點(diǎn)圖,檢測殘差的隨機(jī)性、異方差性ZPRED:標(biāo)準(zhǔn)化預(yù)測值ZRESID:標(biāo)準(zhǔn)化殘差SRESID:學(xué)生化殘差produceallpartialplot:繪制因變量和所有自變量之間的散點(diǎn)圖當(dāng)前第13頁\共有76頁\編于星期四\10點(diǎn)14線性回歸方程的殘差分析(一)殘差序列的正態(tài)性檢驗(yàn):繪制標(biāo)準(zhǔn)化殘差的直方圖或累計(jì)概率圖(二)殘差序列的隨機(jī)性檢驗(yàn)繪制殘差和預(yù)測值的散點(diǎn)圖,應(yīng)隨機(jī)分布在經(jīng)過零的一條直線上下當(dāng)前第14頁\共有76頁\編于星期四\10點(diǎn)15線性回歸方程的殘差分析(三)殘差序列獨(dú)立性檢驗(yàn):殘差序列是否存在后期值與前期值相關(guān)的現(xiàn)象,利用D.W(Durbin-Watson)檢驗(yàn)d-w=0:殘差序列存在完全正自相關(guān);d-w=4:殘差序列存在完全負(fù)自相關(guān);0<d-w<2:殘差序列存在某種程度的正自相關(guān);2<d-w<4:殘差序列存在某種程度的負(fù)自相關(guān);d-w=2:殘差序列不存在自相關(guān).殘差序列不存在自相關(guān),可以認(rèn)為回歸方程基本概括了因變量的變化;否則,認(rèn)為可能一些與因變量相關(guān)的因素沒有引入回歸方程或回歸模型不合適或滯后性周期性的影響.當(dāng)前第15頁\共有76頁\編于星期四\10點(diǎn)16線性回歸方程的殘差分析(四)異常值(casewise或outliers)診斷利用標(biāo)準(zhǔn)化殘差不僅可以知道觀察值比預(yù)測值大或小,并且還知道在絕對(duì)值上它比大多數(shù)殘差是大還是小.一般標(biāo)準(zhǔn)化殘差的絕對(duì)值大于3,則可認(rèn)為對(duì)應(yīng)的樣本點(diǎn)為奇異值異常值并不總表現(xiàn)出上述特征.當(dāng)剔除某觀察值后,回歸方程的標(biāo)準(zhǔn)差顯著減小,也可以判定該觀察值為異常值當(dāng)前第16頁\共有76頁\編于星期四\10點(diǎn)17線性回歸方程的預(yù)測(一)點(diǎn)估計(jì)y0(二)區(qū)間估計(jì)
x0為xi的均值時(shí),預(yù)測區(qū)間最小,精度最高.x0越遠(yuǎn)離均值,預(yù)測區(qū)間越大,精度越低.當(dāng)前第17頁\共有76頁\編于星期四\10點(diǎn)18多元線性回歸分析(一)多元線性回歸方程多元回歸方程:
y=β0+β1x1+β2x2+...+βkxkβ1、β2、βk為偏回歸系數(shù)。β1表示在其他自變量保持不變的情況下,自變量x1變動(dòng)一個(gè)單位所引起的因變量y的平均變動(dòng)(二)多元線性回歸分析的主要問題回歸方程的檢驗(yàn)自變量篩選多重共線性問題當(dāng)前第18頁\共有76頁\編于星期四\10點(diǎn)19多元線性回歸方程的檢驗(yàn)(一)擬和優(yōu)度檢驗(yàn):(1)判定系數(shù)R2:R是y和xi的復(fù)相關(guān)系數(shù)(或觀察值與預(yù)測值的相關(guān)系數(shù)),測定了因變量y與所有自變量全體之間線性相關(guān)程度(2)調(diào)整的R2:考慮的是平均的剩余平方和,克服了因自變量增加而造成R2也增大的弱點(diǎn)在某個(gè)自變量引入回歸方程后,如果該自變量是理想的且對(duì)因變量變差的解釋說明是有意義的,那么必然使得均方誤差減少,從而使調(diào)整的R2得到提高;反之,如果某個(gè)自變量對(duì)因變量的解釋說明沒有意義,那么引入它不會(huì)造成均方誤差減少,從而調(diào)整的R2也不會(huì)提高。當(dāng)前第19頁\共有76頁\編于星期四\10點(diǎn)20多元線性回歸方程的檢驗(yàn)(二)回歸方程的顯著性檢驗(yàn):(1)目的:檢驗(yàn)所有自變量與因變量之間的線性關(guān)系是否顯著,是否可用線性模型來表示.(2)H0:β1=β2=…=βk=0即:所有回歸系數(shù)同時(shí)與0無顯著差異(3)利用F檢驗(yàn),構(gòu)造F統(tǒng)計(jì)量:F=平均的回歸平方和/平均的剩余平方和~F(k,n-k-1)如果F值較大,則說明自變量造成的因變量的線性變動(dòng)大于隨機(jī)因素對(duì)因變量的影響,自變量于因變量之間的線性關(guān)系較顯著(4)計(jì)算F統(tǒng)計(jì)量的值和相伴概率p(5)判斷p<=a:拒絕H0,即:所有回歸系數(shù)與0有顯著差異,自變量與因變量之間存在顯著的線性關(guān)系。反之,不能拒絕H0當(dāng)前第20頁\共有76頁\編于星期四\10點(diǎn)21多元線性回歸方程的檢驗(yàn)(三)回歸系數(shù)的顯著性檢驗(yàn)(1)目的:檢驗(yàn)每個(gè)自變量對(duì)因變量的線性影響是否顯著.(2)H0:βi=0即:第i個(gè)回歸系數(shù)與0無顯著差異(3)利用t檢驗(yàn),構(gòu)造t統(tǒng)計(jì)量:其中:Sy是回歸方程標(biāo)準(zhǔn)誤差(StandardError)的估計(jì)值,由均方誤差開方后得到,反映了回歸方程無法解釋樣本數(shù)據(jù)點(diǎn)的程度或偏離樣本數(shù)據(jù)點(diǎn)的程度如果某個(gè)回歸系數(shù)的標(biāo)準(zhǔn)誤差較小,必然得到一個(gè)相對(duì)較大的t值,表明該自變量xi解釋因變量線性變化的能力較強(qiáng)。(4)逐個(gè)計(jì)算t統(tǒng)計(jì)量的值和相伴概率p
(5)判斷當(dāng)前第21頁\共有76頁\編于星期四\10點(diǎn)22多元線性回歸方程的檢驗(yàn)(四)t統(tǒng)計(jì)量與F統(tǒng)計(jì)量一元回歸中,F檢驗(yàn)與t檢驗(yàn)一致,即:F=t2,可以相互替代在多元回歸中,F(xiàn)檢驗(yàn)與t檢驗(yàn)不能相互替代Fchange=ti2從Fchange
角度上講,如果由于某個(gè)自變量xi的引入,使得Fchange是顯著的(通過觀察Fchange
的相伴概率值),那么就可以認(rèn)為該自變量對(duì)方程的貢獻(xiàn)是顯著的,它應(yīng)保留在回歸方程中,起到與回歸系數(shù)t檢驗(yàn)同等的作用。當(dāng)前第22頁\共有76頁\編于星期四\10點(diǎn)23多元線性回歸分析中的自變量篩選(一)自變量篩選的目的多元回歸分析引入多個(gè)自變量.如果引入的自變量個(gè)數(shù)較少,則不能很好的說明因變量的變化;并非自變量引入越多越好.原因:有些自變量可能對(duì)因變量的解釋沒有貢獻(xiàn)自變量間可能存在較強(qiáng)的線性關(guān)系,即:多重共線性.因而不能全部引入回歸方程.當(dāng)前第23頁\共有76頁\編于星期四\10點(diǎn)24多元線性回歸分析中的自變量篩選(二)自變量向前篩選法(forward):即:自變量不斷進(jìn)入回歸方程的過程.首先,選擇與因變量具有最高相關(guān)系數(shù)的自變量進(jìn)入方程,并進(jìn)行各種檢驗(yàn);其次,在剩余的自變量中尋找偏相關(guān)系數(shù)最高的變量進(jìn)入回歸方程,并進(jìn)行檢驗(yàn);默認(rèn):回歸系數(shù)檢驗(yàn)的概率值小于PIN(0.05)才可以進(jìn)入方程.反復(fù)上述步驟,直到?jīng)]有可進(jìn)入方程的自變量為止. 當(dāng)前第24頁\共有76頁\編于星期四\10點(diǎn)25多元線性回歸分析中的自變量篩選(三)自變量向后篩選法(backward):即:自變量不斷剔除出回歸方程的過程.首先,將所有自變量全部引入回歸方程;其次,在一個(gè)或多個(gè)t值不顯著的自變量中將t值最小的那個(gè)變量剔除出去,并重新擬和方程和進(jìn)行檢驗(yàn);默認(rèn):回歸系數(shù)檢驗(yàn)值大于POUT(0.10),則剔除出方程如果新方程中所有變量的回歸系數(shù)t值都是顯著的,則變量篩選過程結(jié)束.否則,重復(fù)上述過程,直到無變量可剔除為止.當(dāng)前第25頁\共有76頁\編于星期四\10點(diǎn)26多元線性回歸分析中的自變量篩選(四)自變量逐步篩選法(stepwise):即:是“向前法”和“向后法”的結(jié)合。向前法只對(duì)進(jìn)入方程的變量的回歸系數(shù)進(jìn)行顯著性檢驗(yàn),而對(duì)已經(jīng)進(jìn)入方程的其他變量的回歸系數(shù)不再進(jìn)行顯著性檢驗(yàn),即:變量一旦進(jìn)入方程就不回被剔除隨著變量的逐個(gè)引進(jìn),由于變量之間存在著一定程度的相關(guān)性,使得已經(jīng)進(jìn)入方程的變量其回歸系數(shù)不再顯著,因此會(huì)造成最后的回歸方程可能包含不顯著的變量。逐步篩選法則在變量的每一個(gè)階段都考慮的剔除一個(gè)變量的可能性。當(dāng)前第26頁\共有76頁\編于星期四\10點(diǎn)27線性回歸分析中的共線性檢測(一)共線性帶來的主要問題高度的多重共線會(huì)使回歸系數(shù)的標(biāo)準(zhǔn)差隨自變量相關(guān)性的增大而不斷增大,以至使回歸系數(shù)的置信區(qū)間不斷增大,造成估計(jì)值精度減低.(二)共線性診斷自變量的容忍度(tolerance)和方差膨脹因子容忍度:Toli=1-Ri2.其中:Ri2是自變量xi與方程中其他自變量間的復(fù)相關(guān)系數(shù)的平方.容忍度越大則與方程中其他自變量的共線性越低,應(yīng)進(jìn)入方程.(具有太小容忍度的變量不應(yīng)進(jìn)入方程,spss會(huì)給出警)(T<0.1一般認(rèn)為具有多重共線性)方差膨脹因子(VIF):容忍度的倒數(shù)SPSS在回歸方程建立過程中不斷計(jì)算待進(jìn)入方程自變量的容忍度,并顯示目前的最小容忍度當(dāng)前第27頁\共有76頁\編于星期四\10點(diǎn)28線性回歸分析中的共線性檢測(二)共線性診斷用特征根刻畫自變量的方差如果自變量間確實(shí)存在較強(qiáng)的相關(guān)關(guān)系,那么它們之間必然存在信息重疊,于是可從這些自變量中提取出既能反映自變量信息(方差)又相互獨(dú)立的因素(成分)來.從自變量的相關(guān)系數(shù)矩陣出發(fā),計(jì)算相關(guān)系數(shù)矩陣的特征根,得到相應(yīng)的若干成分.如果某個(gè)特征根既能夠刻畫某個(gè)自變量方差的較大部分比例(如大于0.7),同時(shí)又可以刻畫另一個(gè)自變量方差的較大部分比例,則表明這兩個(gè)自變量間存在較強(qiáng)的多重共線性。條件指標(biāo)0<k<10無多重共線性;10<=k<=100較強(qiáng);k>=100嚴(yán)重當(dāng)前第28頁\共有76頁\編于星期四\10點(diǎn)29線性回歸分析中的異方差問題(一)什么是差異方差回歸模型要求殘差序列服從均值為0并具有相同方差的正態(tài)分布,即:殘差分布幅度不應(yīng)隨自變量或因變量的變化而變化.否則認(rèn)為出現(xiàn)了異方差現(xiàn)象(二)差異方差診斷可以通過繪制標(biāo)準(zhǔn)化殘差序列和因變量預(yù)測值(或每個(gè)自變量)的散點(diǎn)圖來識(shí)別是否存在異方差(三)異方差處理實(shí)施方差穩(wěn)定性變換殘差與yi(預(yù)測值)的平方根呈正比:對(duì)yi開平方殘差與yi(預(yù)測值)呈正比:對(duì)yi取對(duì)數(shù).殘差與yi(預(yù)測值)的平方呈正比,則1/yi當(dāng)前第29頁\共有76頁\編于星期四\10點(diǎn)30多元線性回歸分析操作(一)基本操作步驟(1)菜單選項(xiàng):analyze->regression->linear…(2)選擇一個(gè)變量為因變量進(jìn)入dependent框(3)選擇一個(gè)或多個(gè)變量為自變量進(jìn)入independent框(4)選擇多元回歸分析的自變量篩選方法:enter:所選變量全部進(jìn)入回歸方程(默認(rèn)方法)remove:從回歸方程中剔除變量stepwise:逐步篩選;backward:向后篩選;forward:向前篩選(5)對(duì)樣本進(jìn)行篩選(selectionvariable)利用滿足一定條件的樣本數(shù)據(jù)進(jìn)行回歸分析(6)指定作圖時(shí)各數(shù)據(jù)點(diǎn)的標(biāo)志變量(caselabels)當(dāng)前第30頁\共有76頁\編于星期四\10點(diǎn)31多元線性回歸分析操作(二)statistics選項(xiàng)(1)基本統(tǒng)計(jì)量輸出Partandpartialcorrelation:與Y的簡單相關(guān)、偏相關(guān)和部分相關(guān)Rsquarechange:每個(gè)自變量進(jìn)入方程后R2及F值的變化量Collinearitydignostics:共線性診斷.當(dāng)前第31頁\共有76頁\編于星期四\10點(diǎn)32多元線性回歸分析操作(三)options選項(xiàng):steppingmethodcriteria:逐步篩選法參數(shù)設(shè)置.useprobabilityofF:以F值相伴概率作為變量進(jìn)入和剔除方程的標(biāo)準(zhǔn).一個(gè)變量的F值顯著性水平小于entry(0.05)則進(jìn)入方程;大于removal(0.1)則剔除出方程.因此:Entry<removaluseFvalue:以F值作為變量進(jìn)入(3.84)和剔除(2.71)方程的標(biāo)準(zhǔn)(四)save選項(xiàng):
將回歸分析結(jié)果保存到數(shù)據(jù)編輯窗口中或某磁盤文件中當(dāng)前第32頁\共有76頁\編于星期四\10點(diǎn)33曲線估計(jì)(curveestimate)(一)目的:
在一元回歸分析或時(shí)間序列中,因變量與自變量(時(shí)間)之間的關(guān)系不呈線性關(guān)系,但通過適當(dāng)處理,可以轉(zhuǎn)化為線性模型.可進(jìn)行曲線估計(jì).(二)曲線估計(jì)的常用模型:y=b0+b1t (線性擬和linear)y=b0+b1t+b2t2 (二次曲線quadratic)y=b0+b1t+b2t2+b3t3 (三次曲線cubic) t為時(shí)間,也可為某一自變量.當(dāng)前第33頁\共有76頁\編于星期四\10點(diǎn)34曲線估計(jì)(curveestimate)(三)基本操作步驟(1)繪制散點(diǎn)圖,觀察并確定模型.(2)菜單選項(xiàng):analyze->regression->curveestimation(3)選擇因變量到dependent框(4)
選擇自變量到independent框或選time以時(shí)間作自變量(5)選擇模型(R2最高擬和效果最好)當(dāng)前第34頁\共有76頁\編于星期四\10點(diǎn)35曲線估計(jì)(curveestimate)(四)其他選項(xiàng)(1)displayANOVAtable:方差分析表(2)plotmodels:繪制觀察值和預(yù)測值的對(duì)比圖.(3)save選項(xiàng):predictedvalues:保存預(yù)測值.Residual:保存殘差值.predictioninterval:保存預(yù)測值的默認(rèn)95%的可置信區(qū)間.Predictcase:以time作自變量進(jìn)行預(yù)測.Predictfromestimationperiodthroughlastcase:計(jì)算保存所有預(yù)測值.Predictthrough:如果預(yù)測周期超過了數(shù)據(jù)文件的最后一個(gè)觀測期,選擇此項(xiàng),并輸入預(yù)測期數(shù).當(dāng)前第35頁\共有76頁\編于星期四\10點(diǎn)36線性回歸分析的內(nèi)容能否找到一個(gè)線性組合來說明一組自變量和因變量的關(guān)系如果能的話,這種關(guān)系的強(qiáng)度有多大,也就是利用自變量的線性組合來預(yù)測因變量的能力有多強(qiáng)整體解釋能力是否具有統(tǒng)計(jì)上的顯著性意義在整體解釋能力顯著的情況下,哪些自變量有顯著意義回歸分析的一般步驟確定回歸方程中的解釋變量(自變量)和被解釋變量(因變量)確定回歸方程對(duì)回歸方程進(jìn)行各種檢驗(yàn)利用回歸方程進(jìn)行預(yù)測9.1線性回歸分析概述當(dāng)前第36頁\共有76頁\編于星期四\10點(diǎn)378.4.2線性回歸模型一元線性回歸模型的數(shù)學(xué)模型:其中x為自變量;y為因變量;為截距,即常量;為回歸系數(shù),表明自變量對(duì)因變量的影響程度。當(dāng)前第37頁\共有76頁\編于星期四\10點(diǎn)38
用最小二乘法求解方程中的兩個(gè)參數(shù),得到:當(dāng)前第38頁\共有76頁\編于星期四\10點(diǎn)39多元線性回歸模型多元線性回歸方程:
y=β0+β1x1+β2x2+...+βkxkβ1、β2、βk為偏回歸系數(shù)。β1表示在其他自變量保持不變的情況下,自變量x1變動(dòng)一個(gè)單位所引起的因變量y的平均變動(dòng)。當(dāng)前第39頁\共有76頁\編于星期四\10點(diǎn)40
8.4.3線性回歸方程的統(tǒng)計(jì)檢驗(yàn)回歸方程的擬合優(yōu)度回歸直線與各觀測點(diǎn)的接近程度稱為回歸方程的擬合優(yōu)度,也就是樣本觀測值聚集在回歸線周圍的緊密程度。1、離差平方和的分解:建立直線回歸方程可知:y的觀測值的總變動(dòng)可由來反映,稱為總變差。引起總變差的原因有兩個(gè):由于x的取值不同,使得與x有線性關(guān)系的y值不同;隨機(jī)因素的影響。當(dāng)前第40頁\共有76頁\編于星期四\10點(diǎn)41xy當(dāng)前第41頁\共有76頁\編于星期四\10點(diǎn)42總離差平方和可分解為
即:總離差平方和(SST)=剩余離差平方和(SST)+回歸離差平方和(SSR)
其中;SSR是由x和y的直線回歸關(guān)系引起的,可以由回歸直線做出解釋;SSE是除了x對(duì)y的線性影響之外的隨機(jī)因素所引起的Y的變動(dòng),是回歸直線所不能解釋的。當(dāng)前第42頁\共有76頁\編于星期四\10點(diǎn)432、可決系數(shù)(判定系數(shù)、決定系數(shù))
回歸平方和在總離差平方和中所占的比例可以作為一個(gè)統(tǒng)計(jì)指標(biāo),用來衡量X與Y的關(guān)系密切程度以及回歸直線的代表性好壞,稱為可決系數(shù)。對(duì)于一元線性回歸方程:當(dāng)前第43頁\共有76頁\編于星期四\10點(diǎn)44對(duì)于多元線性回歸方程:
在多元線性回歸分析中,引起判定系數(shù)增加的原因有兩個(gè):一個(gè)是方程中的解釋變量個(gè)數(shù)增多,另一個(gè)是方程中引入了對(duì)被解釋變量有重要影響的解釋變量。如果某個(gè)自變量引入方程后對(duì)因變量的線性解釋有重要貢獻(xiàn),那么必然會(huì)使誤差平方和顯著減小,并使平均的誤差平方和也顯著減小,從而使調(diào)整的判定系數(shù)提高。所以在多元線性回歸分析中,調(diào)整的判定系數(shù)比判定系數(shù)更能準(zhǔn)確的反映回歸方程的擬合優(yōu)度。當(dāng)前第44頁\共有76頁\編于星期四\10點(diǎn)45回歸方程的顯著性檢驗(yàn)(方差分析F檢驗(yàn))回歸方程的顯著性檢驗(yàn)是要檢驗(yàn)被解釋變量與所有的解釋變量之間的線性關(guān)系是否顯著。對(duì)于一元線性回歸方程,檢驗(yàn)統(tǒng)計(jì)量為:對(duì)于多元線性回歸方程,檢驗(yàn)統(tǒng)計(jì)量為:當(dāng)前第45頁\共有76頁\編于星期四\10點(diǎn)46回歸系數(shù)的顯著性檢驗(yàn)(t檢驗(yàn))回歸系數(shù)的顯著性檢驗(yàn)是要檢驗(yàn)回歸方程中被解釋變量與每一個(gè)解釋變量之間的線性關(guān)系是否顯著。對(duì)于一元線性回歸方程,檢驗(yàn)統(tǒng)計(jì)量為:
當(dāng)前第46頁\共有76頁\編于星期四\10點(diǎn)47對(duì)于多元線性回歸方程,檢驗(yàn)統(tǒng)計(jì)量為:當(dāng)前第47頁\共有76頁\編于星期四\10點(diǎn)48殘差分析
殘差是指由回歸方程計(jì)算得到的預(yù)測值與實(shí)際樣本值之間的差距,定義為:
對(duì)于線性回歸分析來講,如果方程能夠較好的反映被解釋變量的特征和規(guī)律性,那么殘差序列中應(yīng)不包含明顯的規(guī)律性。殘差分析包括以下內(nèi)容:殘差服從正態(tài)分布,其平均值等于0;殘差取值與X的取值無關(guān);殘差不存在自相關(guān);殘差方差相等。
當(dāng)前第48頁\共有76頁\編于星期四\10點(diǎn)491、對(duì)于殘差均值和方差齊性檢驗(yàn)可以利用殘差圖進(jìn)行分析。如果殘差均值為零,殘差圖的點(diǎn)應(yīng)該在縱坐標(biāo)為0的中心的帶狀區(qū)域中隨機(jī)散落。如果殘差的方差隨著解釋變量值(或被解釋變量值)的增加呈有規(guī)律的變化趨勢,則出現(xiàn)了異方差現(xiàn)象。2、DW檢驗(yàn)。DW檢驗(yàn)用來檢驗(yàn)殘差的自相關(guān)。檢驗(yàn)統(tǒng)計(jì)量為:
DW=2表示無自相關(guān),在0-2之間說明存在正自相關(guān),在2-4之間說明存在負(fù)的自相關(guān)。一般情況下,DW值在之間即可說明無自相關(guān)現(xiàn)象。當(dāng)前第49頁\共有76頁\編于星期四\10點(diǎn)50多重共線性分析
多重共線性是指解釋變量之間存在線性相關(guān)關(guān)系的現(xiàn)象。測度多重共線性一般有以下方式:1、容忍度:其中,是第i個(gè)解釋變量與方程中其他解釋變量間的復(fù)相關(guān)系數(shù)的平方,表示解釋變量之間的線性相關(guān)程度。容忍度的取值范圍在0-1之間,越接近0表示多重共線性越強(qiáng),越接近1表示多重共線性越弱。2、方差膨脹因子VIF。方差膨脹因子是容忍度的倒數(shù)。VIF越大多重共線性越強(qiáng),當(dāng)VIF大于等于10時(shí),說明存在嚴(yán)重的多重共線性。
當(dāng)前第50頁\共有76頁\編于星期四\10點(diǎn)513、特征根和方差比。根據(jù)解釋變量的相關(guān)系數(shù)矩陣求得的特征根中,如果最大的特征根遠(yuǎn)遠(yuǎn)大于其他特征根,則說明這些解釋變量間具有相當(dāng)多的重復(fù)信息。如果某個(gè)特征根既能夠刻畫某解釋變量方差的較大部分比例(0.7以上),又能刻畫另一解釋變量方差的較大部分比例,則表明這兩個(gè)解釋變量間存在較強(qiáng)的線性相關(guān)關(guān)系。4、條件指數(shù)。指最大特征根與第i個(gè)特征根比的平方根。通常,當(dāng)條件指數(shù)在0-10之間時(shí)說明多重共線性較弱;當(dāng)條件指數(shù)在10-100之間說明多重共線性較強(qiáng);當(dāng)條件指數(shù)大于100時(shí)說明存在嚴(yán)重的多重共線性。
當(dāng)前第51頁\共有76頁\編于星期四\10點(diǎn)528.4.3線性回歸分析的基本操作(1)選擇菜單Analyze-Regression-Linear,出現(xiàn)窗口:當(dāng)前第52頁\共有76頁\編于星期四\10點(diǎn)53(2)選擇被解釋變量進(jìn)入Dependent框。(3)選擇一個(gè)或多個(gè)解釋變量進(jìn)入Independent(s)框。(4)在Method框中選擇回歸分析中解釋變量的篩選策略。其中Enter表示所選變量強(qiáng)行進(jìn)入回歸方程,是SPSS默認(rèn)的策略,通常用在一元線性回歸分析中;Remove表示從回歸方程中剔除所選變量;Stepwise表示逐步篩選策略;Backward表示向后篩選策略;Forward表示向前篩選策略。當(dāng)前第53頁\共有76頁\編于星期四\10點(diǎn)54注:多元回歸分析中,變量的篩選一般有向前篩選、向后篩選、逐步篩選三種基本策略。向前篩選(Forward
)策略:解釋變量不斷進(jìn)入回歸方程的過程。首先,選擇與被解釋變量具有最高線性相關(guān)系數(shù)的變量進(jìn)入方程,并進(jìn)行回歸方程的各種檢驗(yàn);然后,在剩余的變量中尋找與被解釋變量偏相關(guān)系數(shù)最高且通過檢驗(yàn)的變量進(jìn)入回歸方程,并對(duì)新建立的回歸方程進(jìn)行各種檢驗(yàn);這個(gè)過程一直重復(fù),直到再也沒有可進(jìn)入方程的變量為止。向后篩選(Backward
)策略:變量不斷剔除出回歸方程的過程。首先,所有變量全部引入回歸方程,并對(duì)回歸方程進(jìn)行各種檢驗(yàn);然后,在回歸系數(shù)顯著性檢驗(yàn)不顯著的一個(gè)或多個(gè)變量中,剔除t檢驗(yàn)值最小的變量,并重新建立當(dāng)前第54頁\共有76頁\編于星期四\10點(diǎn)55
回歸方程和進(jìn)行各種檢驗(yàn);如果新建回歸方程中所有變量的回歸系數(shù)檢驗(yàn)都顯著,則回歸方程建立結(jié)束。否則按上述方法再一次剔除最不顯著的變量,直到再也沒有可剔除的變量為止。逐步篩選(Stepwise
)策略:在向前篩選策略的基礎(chǔ)上結(jié)合向后篩選策略,在每個(gè)變量進(jìn)入方程后再次判斷是否存在應(yīng)該剔除出方程的變量。因此,逐步篩選策略在引入變量的每一個(gè)階段都提供了再剔除不顯著變量的機(jī)會(huì)。當(dāng)前第55頁\共有76頁\編于星期四\10點(diǎn)56(5)第三和第四步中確定的解釋變量及變量篩選策略可放置在不同的塊(Block)中。通常在回歸分析中不止一組待進(jìn)入方程的解釋變量和相應(yīng)的篩選策略,可以單擊Next和Previous按鈕設(shè)置多組解釋變量和變量篩選策略并放置在不同的塊中。(6)選擇一個(gè)變量作為條件變量放到SelectionVariable框中,并單擊Rule按鈕給定一個(gè)判斷條件。只有變量值滿足判定條件的樣本才參與線性回歸分析。(7)在CaseLabels框中指定哪個(gè)變量作為樣本數(shù)據(jù)點(diǎn)的標(biāo)志變量,該變量的值將標(biāo)在回歸分析的輸出圖形中。當(dāng)前第56頁\共有76頁\編于星期四\10點(diǎn)578.4.4線性回歸分析的其他操作1、Statistics按鈕,出現(xiàn)的窗口可供用戶選擇更多的輸出統(tǒng)計(jì)量。當(dāng)前第57頁\共有76頁\編于星期四\10點(diǎn)58(1)Estimates:SPSS默認(rèn)輸出項(xiàng),輸出與回歸系數(shù)相關(guān)的統(tǒng)計(jì)量。包括回歸系數(shù)(偏回歸系數(shù))、回歸系數(shù)標(biāo)準(zhǔn)誤差、標(biāo)準(zhǔn)化回歸系數(shù)、回歸系數(shù)顯著性檢驗(yàn)的t統(tǒng)計(jì)量和概率p值,各解釋變量的容忍度。(2)ConfidenceIntervals:輸出每個(gè)非標(biāo)準(zhǔn)化回歸系數(shù)95%的置信區(qū)間。(3)Descriptive:輸出各解釋變量和被解釋變量的均值、標(biāo)準(zhǔn)差、相關(guān)系數(shù)矩陣及單側(cè)檢驗(yàn)概率p值。當(dāng)前第58頁\共有76頁\編于星期四\10點(diǎn)59(4)Modelfit:SPSS默認(rèn)輸出項(xiàng),輸出判定系數(shù)、調(diào)整的判定系數(shù)、回歸方程的標(biāo)準(zhǔn)誤差、回歸方程顯著F檢驗(yàn)的方程分析表。(5)Rsquaredchange:輸出每個(gè)解釋變量進(jìn)入方程后引起的判定系數(shù)的變化量和F值的變化量。(6)Partandpartialcorrelation:輸出方程中各解釋變量與被解釋變量之間的簡單相關(guān)、偏相關(guān)系數(shù)。當(dāng)前第59頁\共有76頁\編于星期四\10點(diǎn)60(7)Covariancematrix:輸出方程中各解釋變量間的相關(guān)系數(shù)、協(xié)方差以及各回歸系數(shù)的方差。(8)CollinearityDiagnostics:多重共線性分析,輸出各個(gè)解釋變量的容忍度、方差膨脹因子、特征值、條件指標(biāo)、方差比例等。(9)在Residual框中:Durbin-waston表示輸出DW檢驗(yàn)值;CasewiseDiagnostic表示輸出標(biāo)準(zhǔn)化殘差絕對(duì)值大于等于3(SPSS默認(rèn)值)的樣本數(shù)據(jù)的相關(guān)信息,包括預(yù)測值、殘差、杠桿值等。當(dāng)前第60頁\共有76頁\編于星期四\10點(diǎn)612、Options選項(xiàng),出現(xiàn)的窗口可供用戶設(shè)置多元線性回歸分析中解釋變量篩選的標(biāo)準(zhǔn)以及缺失值的處理方式。3、Plot選項(xiàng),出現(xiàn)的窗口用于對(duì)殘差序列的分析。當(dāng)前第61頁\共有76頁\編于星期四\10點(diǎn)62(1)窗口左邊框中各變量名的含義是:DEPENDNT表示被解釋變量,*ZPRED表示標(biāo)準(zhǔn)化預(yù)測值,*ZRESID表示標(biāo)準(zhǔn)化殘差,*DRESID表示剔除殘差,*ADJPRED表示調(diào)整的預(yù)測值,*SRESID表示學(xué)生化殘差,*SDRESID表示剔除學(xué)生化殘差。(2)繪制多對(duì)變量的散點(diǎn)圖,可根據(jù)需要在scatter框中定義散點(diǎn)圖的縱坐標(biāo)和橫坐標(biāo)變量。(3)在StandardizedResidualPlots框中選擇Histogram選項(xiàng)繪制標(biāo)準(zhǔn)化殘差序列的直方圖;選擇Normalprobabilityplot繪制標(biāo)準(zhǔn)化殘差序列的正態(tài)分布累計(jì)概率圖。選擇Produceallpartial
plots選項(xiàng)表示依次繪制被解釋變量和各個(gè)解釋變量的散點(diǎn)圖。當(dāng)前第62頁\共有76頁\編于星期四\10點(diǎn)634、Save選項(xiàng),該窗口將回歸分析的某些結(jié)果以SPSS變量的形式保存到數(shù)據(jù)編輯窗口中,并可同時(shí)生成XML格式的文件,便于分析結(jié)果的網(wǎng)絡(luò)發(fā)布。(1)PredictedValues框中:保存非標(biāo)準(zhǔn)化預(yù)測值、標(biāo)準(zhǔn)化預(yù)測值、調(diào)整的預(yù)測值和預(yù)測值的均值標(biāo)準(zhǔn)誤差。(2)Distance框中:保存均值或個(gè)體預(yù)測值95%(默認(rèn))置信區(qū)間的下限值和上限值。(3)Residual框中:保存非標(biāo)準(zhǔn)化殘差、標(biāo)準(zhǔn)化殘差等。(4)InfluenceStatistics框中:保存剔除第i個(gè)樣本后統(tǒng)計(jì)量的變化量。5、WSL選項(xiàng),采用加權(quán)最小二乘法替代普通最小二乘法估計(jì)回歸參數(shù),并指定一個(gè)變量作為權(quán)重變量。當(dāng)前第63頁\共有76頁\編于星期四\10點(diǎn)64
以高??蒲醒芯繑?shù)據(jù)為例,建立回歸方程研究
1、課題總數(shù)受論文數(shù)的影響
2、以課題總數(shù)為被解釋變量,解釋變量為投入人年數(shù)(X2)、受投入高級(jí)職稱的人年數(shù)(X3)、投入科研事業(yè)費(fèi)(X4)、專著數(shù)(X6)、論文數(shù)(X7)、獲獎(jiǎng)數(shù)(X8)。(1)解釋變量采用強(qiáng)制進(jìn)入策略(Enter),并做多重共線性檢測。(2)解釋變量采用向后篩選策略讓SPSS自動(dòng)完成解釋變量的選擇。(3)解釋變量采用逐步篩選策略讓SPSS自動(dòng)完成解釋變量的選擇。
8.4.5應(yīng)用舉例當(dāng)前第64頁\共有76頁\編于星期四\10點(diǎn)651、為研究收入和支出的關(guān)系,收集1978-2002年我國的年人均可支配收入和年人均消費(fèi)性支出數(shù)據(jù),研究收入與支出之間是否具有較強(qiáng)的線性關(guān)系。2、以年人均支出和教育數(shù)據(jù)為例,建立回歸方程研究年人均消費(fèi)支出、恩格爾系數(shù)、在外就餐、教育支出、住房人均使用面積受年人均可支配收入的影響。練習(xí)當(dāng)前第65頁\共有76頁\編于星期四\10點(diǎn)669.7曲線估計(jì)9.7.1曲線估計(jì)概述變量間的相關(guān)關(guān)系中,并不總是表現(xiàn)出線性關(guān)系,非線性關(guān)系也是極為常見的。變量之間的非線性關(guān)系可以劃分為本質(zhì)線性關(guān)系和本質(zhì)非線性關(guān)系。本質(zhì)線性關(guān)系是指變量關(guān)系形式上雖然呈非線性關(guān)系,但可通過變量變換為線性關(guān)系,并最終可通過線性回歸分析建立線性模型。本質(zhì)非線性關(guān)系是指變量關(guān)系不僅形式上呈非線性關(guān)系,而且也無法變換為線性關(guān)系。本節(jié)的曲線估計(jì)是解決本質(zhì)線性關(guān)系問題的。當(dāng)前第66頁\共有76頁\編于星期四\10點(diǎn)67常見的本質(zhì)線性模型有:1、二次曲線(Quadratic),方程為,變量變換后的方程為2、復(fù)合曲線(Compound),方程為,變量
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度廁所環(huán)保材料生產(chǎn)與銷售合同2篇
- 2025年度輪胎行業(yè)新能源汽車配套服務(wù)合同4篇
- 2025年度海洋工程裝備采購及租賃服務(wù)合同2篇
- 2025年度教育培訓(xùn)機(jī)構(gòu)場地租賃及課程研發(fā)服務(wù)合同3篇
- 2024物業(yè)公司環(huán)保措施合同
- 2025年度林地林木資源調(diào)查與監(jiān)測合同3篇
- 二零二五年房地產(chǎn)面積測繪與銷售備案合同范本3篇
- 2025年度二零二五年度奇幻馬戲團(tuán)國際巡演合作合同4篇
- 2025年度餐飲廚師個(gè)人技能保密及競業(yè)限制合同3篇
- 二零二五版船舶建造質(zhì)量檢測與驗(yàn)收合同3篇
- 拆遷評(píng)估機(jī)構(gòu)選定方案
- 床旁超聲監(jiān)測胃殘余量
- 上海市松江區(qū)市級(jí)名校2025屆數(shù)學(xué)高一上期末達(dá)標(biāo)檢測試題含解析
- 綜合實(shí)踐活動(dòng)教案三上
- 《新能源汽車電氣設(shè)備構(gòu)造與維修》項(xiàng)目三 新能源汽車照明與信號(hào)系統(tǒng)檢修
- 2024年新課標(biāo)《義務(wù)教育數(shù)學(xué)課程標(biāo)準(zhǔn)》測試題(附含答案)
- 醫(yī)院培訓(xùn)課件:《靜脈中等長度導(dǎo)管臨床應(yīng)用專家共識(shí)》
- 趣味知識(shí)問答100道
- 中國國際大學(xué)生創(chuàng)新大賽與“挑戰(zhàn)杯”大學(xué)生創(chuàng)業(yè)計(jì)劃競賽(第十一章)大學(xué)生創(chuàng)新創(chuàng)業(yè)教程
- 鋼管豎向承載力表
- 2024年新北師大版八年級(jí)上冊(cè)物理全冊(cè)教學(xué)課件(新版教材)
評(píng)論
0/150
提交評(píng)論