嶺回歸解決多重共線性_第1頁(yè)
嶺回歸解決多重共線性_第2頁(yè)
嶺回歸解決多重共線性_第3頁(yè)
嶺回歸解決多重共線性_第4頁(yè)
嶺回歸解決多重共線性_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、一、引言回歸分析是一種比較成熟的預(yù)測(cè)模型,也是在預(yù)測(cè)過(guò)程中使用較多的模型,在自然科學(xué)管理科學(xué)和社會(huì)經(jīng)濟(jì)中有著非常廣泛的應(yīng)用,但是經(jīng)典的最小二乘估計(jì),必需滿足一些假設(shè)條件,多重共線性就是其中的一種。實(shí)際上,解釋變量間完全不相關(guān)的情形是非常少見(jiàn)的,大多數(shù)變量都在某種程度上存在著一定的共線性,而存在著共線性會(huì)給模型帶來(lái)許多不確定性的結(jié)果。二、認(rèn)識(shí)多重共線性(一)多重共線性的定義設(shè)回歸模型如果矩陣的列向量存在一組不全為零的數(shù)使得, =1,2,則稱其存在完全共線性,如果, =1,2,則稱其存在近似的多重共線性。(二)多重共線性的后果1.理論后果 對(duì)于多元線性回歸來(lái)講,大多數(shù)學(xué)者都關(guān)注其估計(jì)精度不高,但是

2、多重共線性不可能完全消除,而是要用一定的方法來(lái)減少變量之間的相關(guān)程度。多重共線性其實(shí)是由樣本容量太小所造成的后果,在理論上稱作“微數(shù)缺測(cè)性”,所以當(dāng)樣本容量很小的時(shí)候,多重共線性才是非常嚴(yán)重的。多重共線性的理論后果有以下幾點(diǎn): (1)保持OLS估計(jì)量的BLUE性質(zhì);(2) 戈德伯格提出了近似多重共線性其實(shí)是樣本觀測(cè)數(shù)剛好超過(guò)待估參數(shù)個(gè)數(shù)時(shí)出現(xiàn)的情況。所以多重共線性并不是簡(jiǎn)單的自變量之間存在的相關(guān)性,也包括樣本容量的大小問(wèn)題。(3)近似的多重共線性中,OLS估計(jì)仍然是無(wú)偏估計(jì)。無(wú)偏性是一種多維樣本或重復(fù)抽樣的性質(zhì);如果X變量的取值固定情況下,反復(fù)對(duì)樣本進(jìn)行取樣,并對(duì)每個(gè)樣本計(jì)算OLS估計(jì)量,隨著

3、樣本個(gè)數(shù)的增加,估計(jì)量的樣本值的均值將收斂于真實(shí)值。(4)多重共線性是由于樣本引起的。即使總體中每一個(gè)X之間都沒(méi)有線性關(guān)系,但在具體取樣時(shí)仍存在樣本間的共線性。 2.現(xiàn)實(shí)后果(1)雖然存在多重共線性的情況下,得到的OLS估計(jì)是BLUE的,但有較大的方差和協(xié)方差,估計(jì)精度不高;(2)置信區(qū)間比原本寬,使得接受假設(shè)的概率更大;(3)統(tǒng)計(jì)量不顯著;(4)擬合優(yōu)度的平方會(huì)很大;(5)OLS估計(jì)量及其標(biāo)準(zhǔn)誤對(duì)數(shù)據(jù)微小的變化也會(huì)很敏感。(三)多重共線性產(chǎn)生的原因1.模型參數(shù)的選用不當(dāng),在我們建立模型時(shí)如果變量之間存在著高度的 相關(guān)性,我們又沒(méi)有進(jìn)行處理建立的模型就有可能存在著共線性。2. 由于研究的經(jīng)濟(jì)變

4、量隨時(shí)間往往有共同的變化趨勢(shì),他們之間存在著共線性。例如當(dāng)經(jīng)濟(jì)繁榮時(shí),反映經(jīng)濟(jì)情況的指標(biāo)有可能按著某種比例關(guān)系增長(zhǎng)3. 滯后變量。滯后變量的引入也會(huì)產(chǎn)生多重共線行,例如本期的消費(fèi)水平除了受本期的收入影響之外,還有可能受前期的收入影響,建立模型時(shí),本期的收入水平就有可能和前期的收入水平存在著共線性。(四) 多重共線性的識(shí)別 1.直觀的判斷方法(1)在自變量 的相關(guān)系數(shù)矩陣中,有某些自變量的相關(guān)系數(shù)值比較大。(2)回歸系數(shù)的符號(hào)與專業(yè)知識(shí)或一般經(jīng)驗(yàn)相反(3)對(duì)重要的自變量的回歸系數(shù)進(jìn)行t檢驗(yàn),其結(jié)果不顯著,但是F檢驗(yàn)確得到了顯著的通過(guò)(4)如果增加一個(gè)變量或刪除一個(gè)變量,回歸系數(shù)的估計(jì)值發(fā)生了很大

5、的變化(5)重要變量的回歸系數(shù)置信區(qū)間明顯過(guò)大2.方差擴(kuò)大因子法()定義=其中是以為因變量時(shí)對(duì)其他自變量的復(fù)測(cè)定系數(shù)。一般認(rèn)為如果最大的超過(guò)10,常常表示存在多重共線性。事實(shí)上=>10這說(shuō)明<0.1即>0.9。3.特征根判定法根據(jù)矩陣行列式的性質(zhì),矩陣行列式的值等于其特征根的連乘積。因此,當(dāng)行列式|0時(shí),至少有一個(gè)特征根為零,反過(guò)來(lái),可以證明矩陣至少有一個(gè)特征根近似為零時(shí),X的列向量必存在多重共線性,同樣也可證明有多少個(gè)特征根近似為零矩陣,就有多少個(gè)多重共線性。根據(jù)條件數(shù), 其中為最大的特征根,為其他的特征根,通常認(rèn)為0<<10,沒(méi)有多重共線性,>10存在著

6、多重共線性。(五)多重共線性的處理方法1增加樣本容量當(dāng)線性重合是由于測(cè)量誤差引起的以及他僅是偶然存在于原始樣本,而不存在于總體時(shí),通過(guò)增加樣本容量可以減少或是避免線性重合,但是在現(xiàn)實(shí)的生活中,由于受到各種條件的限制增加樣本容量有時(shí)又是不現(xiàn)實(shí)的。2剔除法對(duì)于一些不重要的解釋變量進(jìn)行剔除,主要有向前法和后退法,逐步回歸法。理論上這三種方法都是針對(duì)不相關(guān)的的數(shù)據(jù)而言的,在多重共線性很?chē)?yán)重的情況下,結(jié)論的可靠性受到影響,在一些經(jīng)濟(jì)模型中,要求一些很重要變量必須包含在里面,這時(shí)如果貿(mào)然的刪除就不符合現(xiàn)實(shí)的經(jīng)濟(jì)意義。3主成分法當(dāng)自變量間有較強(qiáng)的線性相關(guān)性時(shí),利用個(gè)變量的主成分,所具有的性質(zhì),如果他們是互不

7、相關(guān)的,可由前個(gè)主成來(lái)建立回歸模型。由原始變量的觀測(cè)數(shù)據(jù)計(jì)算前個(gè)主成分的得分值,將其作為主成分的觀測(cè)值,建立與主成分的回歸模型即得回歸方程。這時(shí)元降為元,這樣既簡(jiǎn)化了回歸方程的結(jié)構(gòu),且消除了變量間相關(guān)性帶來(lái)的影響4(偏最小二乘法)H.Wold在1975年提出的 偏最小二乘法近年來(lái)引起廣泛的關(guān)注,在解決多重共線性方面,它與主成分回歸法,嶺回歸法一樣都能很好的達(dá)到目的,但偏最小二乘又與前者又有較大的區(qū)別,偏最小二乘法集中了最小二乘法、主成分分析法和典型相關(guān)分析的的優(yōu)點(diǎn)克服了兩種方法的缺點(diǎn)。偏最小二乘法吸取了主成分回歸提取主成分的思想,但不同的是主成分回歸只是從自變量中去尋找主成分與因變量無(wú)關(guān),因而

8、主成分與因變量在算法上關(guān)系不密切,從而導(dǎo)致最后主成分在實(shí)際應(yīng)用中無(wú)法更好的進(jìn)一步擬合因變量,偏最小二乘法則是從因變量出發(fā),選擇與因變量相關(guān)性較強(qiáng)而又能方便運(yùn)算的自變量的線性組合。5嶺回歸法.嶺回歸分析是1962年由Heer首先提出的,1970年后他與肯納德合作,進(jìn)一步發(fā)展了該方法,在多元線性回歸模型的矩陣形式,參數(shù)的普通最小二乘估計(jì)為=, 嶺回歸當(dāng)自變量存在多重共線性|0時(shí),給矩陣加上一個(gè)正常系數(shù)矩陣,那么=,當(dāng)時(shí)就是普通最小二乘估計(jì)。三、實(shí)際的應(yīng)用 我們對(duì)于重慶市1987至2010年的統(tǒng)計(jì)數(shù)據(jù)做一個(gè)回歸預(yù)測(cè)模型,選取工業(yè)總產(chǎn)值為因變量,固定投資總額、貨物周轉(zhuǎn)量、財(cái)政支出、能源消耗總量四個(gè)變量

9、為自變量。設(shè)模型為 (3.1)(一) 普通的最小二乘法對(duì)模型進(jìn)行最小二乘估計(jì)得到如下的結(jié)果: 表3.1:模型總結(jié)ModelRR SquareAdjusted R SquareStd. Error of the EstimateChange StatisticsR Square ChangeF Changedf1df2Sig. F Change1.998a.996.995161.9431718.9961198.108419.000 表3.2: 方差分析表ModelSum of Squares df Mean SquareFSig.Regression1.257E843.142E71.198E3.

10、000aResidual498286.2271926225.591Total1.262E823表3.3:系數(shù)矩陣表ModelBStd. ErrorBetatSigToleranceVIF1-193.968311.594-.623.541.622.393.4871.582.130.002455.510.025.016.1881.570.133.01568.6941.202.743.3491.617.122.004224.271-.030.117-.023-.261.797.02737.372調(diào)整的可決系數(shù)為0.995,F(xiàn)=1198,在置信水平為95%,自由度4,方程通過(guò)了顯著性的檢驗(yàn),從這里我們

11、可以看出從整體上來(lái)說(shuō)方程得到了很好的擬合, 但是各個(gè)系數(shù)的檢驗(yàn)卻并沒(méi)有通過(guò),而且能源消費(fèi)的系數(shù)為負(fù),這于經(jīng)濟(jì)學(xué)的原理相反,我們初步斷定回歸的方程可能存在著多重共線性。 根據(jù)方差擴(kuò)大因子=455.510, =68.694, =224.271, =37.372.均大于10說(shuō)明存在多重共線性。此外我們還可以根據(jù)共線性的診斷,來(lái)判斷多重共線性的存在。為此,利用SPSS軟件進(jìn)行相關(guān)處理可以得到下表:表3.4: 多重共線性診斷表ModelDimensionEigenvalueCondition IndexVariance Proportions(Constant)114.4121.000.00.00.00

12、.00.002.5682.788.01.00.00.00.003.01716.264.13.00.00.05.224.00339.288.25.00.80.07.395.00171.989.611.00.20.88.39從特征值我們可以看到有兩個(gè)接近于零,條件數(shù)我們可以看到最大條件數(shù)為71.989,說(shuō)明存在著共線性,以上的分析說(shuō)明因變量間存在著多重共線性。(二)運(yùn)用嶺回歸解決多重共線性 用SPSS軟件的嶺回歸功能的語(yǔ)法實(shí)現(xiàn)嶺回歸,做出的結(jié)果如下:表3.5: 嶺參數(shù)K值表 K RSQ X1 X2 X3 X4 .00000 .99605 .486610 .187544 .349141 -.0229

13、74.05000 .99450 .298761 .231025 .351029 .109212.10000 .99286 .279395 .234139 .315824 .148780.15000 .99135 .268288 .234093 .295846 .168122.20000 .98984 .260456 .232912 .282446 .178951.25000 .98824 .254302 .231210 .272489 .185418.30000 .98652 .249140 .229240 .264570 .189368.35000 .98466 .244625 .22712

14、7 .257967 .191744.40000 .98265 .240562 .224938 .252270 .193079.45000 .98050 .236833 .222713 .247230 .193695.50000 .97822 .233363 .220477 .242684 .193798.55000 .97581 .230101 .218244 .238524 .193528.60000 .97327 .227009 .216026 .234672 .192980.65000 .97062 .224062 .213829 .231075 .192222.70000 .96786

15、 .221240 .211658 .227690 .191305.75000 .96501 .218527 .209517 .224485 .190265.80000 .96206 .215912 .207406 .221437 .189132.85000 .95903 .213385 .205328 .218526 .187927.90000 .95591 .210938 .203284 .215736 .186667.95000 .95273 .208564 .201273 .213056 .1853661.0000 .94948 .206258 .199296 .210473 .1840

16、34 圖3.1 嶺跡圖從嶺跡圖上看,最小二乘的穩(wěn)定性很差,當(dāng)稍微增大時(shí),系數(shù)有較大的變化。對(duì)各個(gè)變量分別來(lái)看,當(dāng)=0, 、和對(duì)于變量有顯著性正的影響,對(duì)于變量有負(fù)的影響,從嶺回歸的角度來(lái)看,變量和隨著的增大其系數(shù)值迅速減小最終趨于穩(wěn)定,隨著的增加變化不大,對(duì)于講,當(dāng)逐漸增大時(shí),由負(fù)的影響變?yōu)檎挠绊憽?由于和的嶺參數(shù)都迅速減少,兩者之和比較穩(wěn)定。從嶺回歸的角度看,和只要保留一個(gè)就可以了。和的嶺回歸系數(shù)相對(duì)穩(wěn)定。通過(guò)分析,決定剔除,對(duì)剩下的三個(gè)變量進(jìn)行嶺回歸。把嶺參數(shù)步長(zhǎng)改為0.02,范圍縮小到0.2,在SPSS中用命令生成得到如下結(jié)果: 表3.6 :步長(zhǎng)為0.02時(shí)的嶺參數(shù)值表 K RSQ X

17、1 X2 X3 .00000 .99604 .436166 .179183 .385799.02000 .99584 .351867 .262568 .380494.04000 .99560 .342222 .282832 .363342.06000 .99531 .336854 .291961 .353101.08000 .99497 .332900 .296644 .345962.10000 .99457 .329612 .299105 .340458.12000 .99410 .326701 .300300 .335921.14000 .99357 .324028 .300709 .33

18、2010.16000 .99297 .321521 .300600 .328527.18000 .99231 .319135 .300137 .325355.20000 .99159 .316844 .299420 .322417由上表可以看到,剔除了后嶺回歸系數(shù)變化幅度減小,從嶺跡圖看嶺參數(shù)在0.12到0.20之間時(shí),嶺參數(shù)已基本穩(wěn)定,當(dāng)=0.16時(shí),0.99297仍然很大,因而可以選取=0.16嶺參數(shù)。然后給定,重新作嶺回歸,計(jì)算結(jié)果如下:表3.7: k = 0.16時(shí)的嶺回歸Mult R .9964780RSquare .9929685Adj RSqu .9919137SE 210.62

19、52025:表3.8: 方差分析表 df SS MS F value Sin FRegress 3.000 125295417 41765139 941.44 .000000Residual 20.000 887259.52 44362.976 表3.9:方程中的變量 B SE(B) Beta B/SE(B)X1 .4110191 .0098800 .3215208 41.6010169X2 .0399873 .0017557 .3006004 22.7755604X3 1.1311326 .0405681 .3285272 27.8823490Constant -451.7066055 69

20、.6480613 .0000000 -6.4855589得到對(duì)對(duì)的標(biāo)準(zhǔn)化嶺回歸方程為: (3.2) (41.601) (22.776) (27.882 )0.993 =941.44普通最小二乘法得到的回歸方程為 (3.3) (1.582 ) (1.570) (1.617) ( -0.261)標(biāo)準(zhǔn)化嶺回歸得到的統(tǒng)計(jì)量都比OLS估計(jì)顯著,因此嶺回歸得到預(yù)期的效果。(三) 主成分分析法同樣利用SPSS軟件中的Analyze下拉菜單進(jìn)行主成分分析??梢缘玫饺缦陆Y(jié)果:表3.10:總的解釋方差表ComponentInitial EigenvaluesExtraction Sums of Squared L

21、oadingsTotal% of VarianceCumulative %Total% of VarianceCumulative %13.92798.16698.1663.92798.16698.1662.0601.49199.657.0601.49199.6573.012.30699.964.012.30699.9644.001.036100.000.001.036100.000由上表可以知道,四個(gè)主成分的特征值的最大值為3.927,最小值為0.001;前兩個(gè)因子的累積貢獻(xiàn)率已經(jīng)達(dá)到99.657%,故只需要保留前兩個(gè)主成分。利用SPSS的主成分分析進(jìn)入變量計(jì)算。對(duì)前兩主成分作普通最小二乘法

22、:第一主成分 (3.4)第二主成分 (3.5)用對(duì)、做普通最小二乘法,得如下回歸方程為 (3.6) 因此,可以得出主成分回歸方程為 (3.7)回歸方程的的修正的可決系數(shù)為 0.996。由上面的分析我們看到嶺回歸和主成分的所得到的結(jié)果比較接近,各個(gè)系數(shù)解釋也更加的合理,符合現(xiàn)實(shí)意義。五、結(jié)論 主成分法和嶺回歸所估計(jì)的參數(shù),都已經(jīng)不是無(wú)偏的估計(jì),主成分分析法作為多元統(tǒng)計(jì)分析的一種常用方法在處理多變量問(wèn)題時(shí)具有其一定的優(yōu)越性,其降維的優(yōu)勢(shì)是明顯的,主成分回歸方法對(duì)于一般的多重共線性問(wèn)題還是適用的,尤其是對(duì)共線性較強(qiáng)的變量之間.嶺回歸估計(jì)是通過(guò)最小二乘法的改進(jìn)允許回歸系數(shù)的有偏估計(jì)量存在而補(bǔ)救多重共線性的方法,采用它可以通過(guò)允許小的誤差而換取高于無(wú)偏估計(jì)量的精度, 因此它接近真實(shí)值的可能性較大。靈活運(yùn)用嶺回歸法, 可以對(duì)分析各變量之間的作用和關(guān)系帶來(lái)獨(dú)特而有效的幫助。作為統(tǒng)計(jì)方法,每種方法都有其適用范圍, 我們應(yīng)該比較其效果而選用而不是斷然否定一種方法。 參考文獻(xiàn)1 何曉群.應(yīng)用回歸分析M.中國(guó)人民統(tǒng)計(jì)大學(xué)出版社:2007,(13).2 錢(qián)曉莉. 基于特征值的多重共線性處理方法J.

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論