多重共線(xiàn)性處理

上傳人：l*** IP屬地：天津上傳時(shí)間：2023-02-02 格式：DOCX 頁(yè)數(shù)：15 大小：67.45KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩10頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

TOC\o"1-5"\h\z一、摘要 1二、引言 1三、認(rèn)識(shí)多重共線(xiàn)性 1（一）多重共線(xiàn)性的定義 1（二）多重共線(xiàn)性產(chǎn)生的危害 2（三）多重共線(xiàn)性產(chǎn)生的原因 2（四）多重共線(xiàn)性產(chǎn)生的診斷的方法 3（五）多重共線(xiàn)性的處理的方法 3\o"CurrentDocument"四、實(shí)際的應(yīng)用 7（一）普通最小二乘法 7（二）嶺回歸 8（三）主成分回歸 10（四）簡(jiǎn)單的比較 11（五）結(jié)論和建議 11五、結(jié)論 12六、參考書(shū)目 13七、附錄 14淺談多重共線(xiàn)性摘要各解釋變量之間存在多重共線(xiàn)性是現(xiàn)實(shí)中很普遍的現(xiàn)象。本文對(duì)線(xiàn)Keywords性估計(jì)多重共線(xiàn)性問(wèn)題進(jìn)行了簡(jiǎn)單的介紹，對(duì)一些常用的解決多重共線(xiàn)性的方法進(jìn)行了概括，并運(yùn)用主成分和嶺回歸的方法對(duì)實(shí)際的問(wèn)題進(jìn)行了分析.Keywords關(guān)鍵字嶺回歸主成分多重共線(xiàn)性AbstactTheinterpretationofvariablesbetweenmulticollinearityisinrealityverycommonphenomenon.Inthispaper,linearestimatedmulticollinearityissueasimple,commonlyusedtosolveanumberofmulti-linearwayofasummaryanduseofthemaincomponentsandridgeontheactualreturntothewaytheissuewasanalyzed.RidgeRegressionThemaincomponentregressioncollinearity一.引言回歸分析是一種比較成熟的預(yù)測(cè)模型，也是在預(yù)測(cè)過(guò)程中使用較多的模型，在自然科學(xué)管理科學(xué)和社會(huì)經(jīng)濟(jì)中有著非常廣泛的應(yīng)用，但是經(jīng)典的最小二乘估計(jì)，必需滿(mǎn)足一些假設(shè)條件，多重共線(xiàn)性就是其中的一種。實(shí)際上，解釋變量間完全不相關(guān)的情形是非常少見(jiàn)的，大多數(shù)變量都在某種程度上存在著一定的共線(xiàn)性，而存在著共線(xiàn)性會(huì)給模型帶來(lái)許多不確定性的結(jié)果。二?認(rèn)識(shí)多重共線(xiàn)性（一）.多重共線(xiàn)性的定義設(shè)回歸模型y=p+px+px+...0x+E如果矩陣X的列向量存在一0 11 22 pp組不全為零的數(shù)k.k.k...k使k+kx+kx+.kx=0, 1=l,2,???n，則稱(chēng)012p01i12i2 pip其存在完全共線(xiàn)性，如果k+kx+kx^^kx=0,I=1,2,???n,則稱(chēng)其0 1i1 2i2 pip存在近似的多重共線(xiàn)性（二） .多重共線(xiàn)性的危害如果矩陣存在完全共線(xiàn)性矩陣的秩rank（X）＜p+1,此時(shí)|x'X1=0正規(guī)方程組的解（X'X）廣Xy的解不為一且（X'X）-1不存在，回歸參數(shù)的最小二乘估計(jì)表達(dá)式不成立，最小二乘的系數(shù)將得不到估計(jì)經(jīng)濟(jì)問(wèn)題中出現(xiàn)最多的是近似共線(xiàn)性的情況，此時(shí)矩陣的秩rank（x）=p+1雖然成立，但是|x'XI§0,（x，x）-1對(duì)角線(xiàn)上的元素很大，估計(jì)參數(shù)p的方差陣（X'X）-1的對(duì)角線(xiàn)元素很大，而對(duì)角線(xiàn)上的元素正式各個(gè)參數(shù)的方差，這樣各個(gè)參數(shù)的估計(jì)的精度就會(huì)很低。這時(shí)雖然能夠得到參數(shù)的最小二乘無(wú)偏估計(jì)，但是回歸系數(shù)的估計(jì)值對(duì)樣本數(shù)據(jù)的微小變化將變的非常敏感，回歸系數(shù)的估計(jì)值的穩(wěn)定性將變得很差。3當(dāng)存在嚴(yán)重的多重共線(xiàn)性時(shí)，會(huì)給回歸系數(shù)的統(tǒng)計(jì)檢驗(yàn)造成一定的困難，可能造成F檢驗(yàn)獲得通過(guò)，T檢驗(yàn)卻不能夠通過(guò)。在自變量高度相關(guān)的情況下，估計(jì)系數(shù)的含義有可能與常識(shí)相反.在進(jìn)行預(yù)測(cè)時(shí)，因?yàn)榛貧w模型的建立是基于樣本數(shù)據(jù)的，多重共線(xiàn)性也是指抽樣的數(shù)據(jù)。如果把建立的回歸模型用于預(yù)測(cè)，而多重共線(xiàn)性問(wèn)題在預(yù)測(cè)區(qū)間仍然存在，則共線(xiàn)性問(wèn)題對(duì)預(yù)測(cè)結(jié)果不會(huì)產(chǎn)生特別嚴(yán)重的影響，但是如果樣本數(shù)據(jù)中的多重共線(xiàn)性發(fā)生了變化則預(yù)測(cè)的結(jié)果就不能完全的確定了（三） ?多重共線(xiàn)性產(chǎn)生的原因模型參數(shù)的選用不當(dāng)，在我們建立模型時(shí)如果變量之間存在著高度的相關(guān)性，我們又沒(méi)有進(jìn)行處理建立的模型就有可能存在著共線(xiàn)性。由于研究的經(jīng)濟(jì)變量隨時(shí)間往往有共同的變化趨勢(shì)，他們之間存在著共線(xiàn)性。例如當(dāng)經(jīng)濟(jì)繁榮時(shí)，反映經(jīng)濟(jì)情況的指標(biāo)有可能按著某種比例關(guān)系增長(zhǎng)3滯后變量。滯后變量的引入也會(huì)產(chǎn)生多重共線(xiàn)行，例如本期的消費(fèi)水平除了受本期的收入影響之外，還有可能受前期的收入影響，建立模型時(shí)，本期的收入水平就有可能和前期的收入水平存在著共線(xiàn)性。.多重共線(xiàn)性的診斷直觀(guān)的判斷方法在自變量的相關(guān)系數(shù)矩陣中，有某些自變量的相關(guān)系數(shù)值比較大?；貧w系數(shù)的符號(hào)與專(zhuān)業(yè)知識(shí)或一般經(jīng)驗(yàn)相反對(duì)重要的自變量的回歸系數(shù)進(jìn)行t檢驗(yàn)，其結(jié)果不顯著，但是F檢驗(yàn)確得到了顯著的通過(guò)如果增加一個(gè)變量或刪除一個(gè)變量，回歸系數(shù)的估計(jì)值發(fā)生了很大的變化重要變量的回歸系數(shù)置信區(qū)間明顯過(guò)大方差擴(kuò)大因子法(VIF)，定義vif=(1-R2)_】其中R2是以x.為因變量時(shí)對(duì)其他自變量的復(fù)測(cè)定系數(shù)。一般認(rèn)為如果最大的VIF超過(guò)10，常常表j示存在多重共線(xiàn)性。事實(shí)上VIF=(1-R2)-1>10這說(shuō)明1—R2<0.1即R2>0.9。特征根判定法 7 7 7 7根據(jù)矩陣行列式的性質(zhì)，矩陣行列式的值等于其特征根的連乘積。因此，當(dāng)行列式|x'X1^0時(shí)，至少有一個(gè)特征根為零，反過(guò)來(lái)，可以證明矩陣至少有一個(gè)特征根近似為零時(shí)，X的列向量必存在多重共線(xiàn)性，同樣也可證明X，X有多少個(gè)特征根近似為零矩陣X就有多少個(gè)多重共線(xiàn)性。根據(jù)條件數(shù)，K=&其中七為最大的特征根氣為其他的特征根，通常認(rèn)為0<k<10,沒(méi)有多重共線(xiàn)性，k.>10存在著多重共線(xiàn)性。多重共線(xiàn)性的處理方法一般有如下的幾種1增加樣本容量，當(dāng)線(xiàn)性重合是由于測(cè)量誤差引起的以及他僅是偶然存在于原始樣本，而不存在于總體時(shí)，通過(guò)增加樣本容量可以減少或是避免線(xiàn)性重合，但是在現(xiàn)實(shí)的生活中，由于受到各種條件的限制增加樣本容量有時(shí)又是不現(xiàn)實(shí)的2剔除一些不重要的解釋變量，主要有向前法和后退法，逐步回歸法。前進(jìn)法的主要思想是變量由少到多的，每次增加一個(gè)，直至沒(méi)有可引入的變量為止。具體做法是首先對(duì)一個(gè)因變量y和m個(gè)自變量分別建立回歸方程，并分別計(jì)算這m個(gè)回歸方程的F值，選其最大者，記為Fj,，給定顯著性水平F，如果Fj>F,則變量引入該方程，再分別對(duì)(Xj,X1),(Xj,X2)???(Xj,Xm)做回歸方程，并對(duì)他們進(jìn)行F檢驗(yàn)，選擇最大的Fi值，如果Fi.>F，則該變量引入方程，重復(fù)上述步驟，直到?jīng)]有變量引入為止。后退法，是先用m個(gè)因變量建立回歸方程，然后在這m個(gè)變量中選擇一個(gè)最不顯著的變量將它從方程中剔除，對(duì)m個(gè)回歸系數(shù)進(jìn)行F檢驗(yàn)，記所求得的最小的一個(gè)記為Fj,給定一個(gè)顯著性的水平，如果Fj<F則將Xj從方程中刪除，重復(fù)上述步驟直到所有不顯著的變量被剔除為止。逐步回歸法，前進(jìn)法存在著這樣的缺點(diǎn)當(dāng)一個(gè)變量被引入方程時(shí)，這個(gè)變量就被保留在這個(gè)方程中了，當(dāng)引入的變量導(dǎo)致其不顯著時(shí)，它也不會(huì)被刪除掉，后退法同樣存在著這樣的缺點(diǎn)，當(dāng)一個(gè)變量被剔除時(shí)就永遠(yuǎn)的被排斥在方程以外了，而逐步回歸法克除了兩者的缺點(diǎn)。逐步回歸的思想是有進(jìn)有出。將變量一個(gè)一個(gè)的引入，每引入一個(gè)變量對(duì)后面的變量進(jìn)行逐個(gè)檢驗(yàn)，當(dāng)變量由于后面變量的引入而不變的不顯著時(shí)將其剔除，進(jìn)行每一步都要進(jìn)行顯著性的檢驗(yàn)，以保證每一個(gè)變量都是顯著的。理論上上面的三種方法都是針對(duì)不相關(guān)的的數(shù)據(jù)而言的，在多重共線(xiàn)性很?chē)?yán)重的情況下，結(jié)論的可靠性受到影響，在一些經(jīng)濟(jì)模型中，要求一些很重要變量必須包含在里面，這時(shí)如果貿(mào)然的刪除就不符合現(xiàn)實(shí)的經(jīng)濟(jì)意義。不相關(guān)的系數(shù)法。當(dāng)變量之間存在著多重共線(xiàn)性最直接的表現(xiàn)就是各個(gè)解釋變量之間的決定系數(shù)很大?？紤]到兩個(gè)變量之間的決定系數(shù)眾所周知，在多元線(xiàn)性回歸模型中，當(dāng)各個(gè)解釋變量(如Xi與Xj,i#j)之間存在著多重共線(xiàn)性時(shí)，其最直接的表現(xiàn)就是各個(gè)解釋變量之間的決定系數(shù)（ri2,j）很大。ri2,j很大，則意味著重要變量Xi（在本文中，為研究方便，我們始終假定Xi相對(duì)于Xj而言，是一重要變量，iNj）的變化能夠說(shuō)明Xj的變化。如兩者之間的r2,j=90%,則我們以說(shuō)，Xi的變化說(shuō)明了Xj變化的90%,而剩余的（1-ri2,j）部分,則是由Xj自身的變化說(shuō)明的。由此決定，在反映被解釋變量（Y）與解釋變量Xi、Xj之間的關(guān)系時(shí)，對(duì)于解釋變量Xj來(lái)說(shuō)，并不需要用全部的信息來(lái)解釋被解釋變量的問(wèn)題，而只需要用剩余的（1-ri2,j）部分的信息來(lái)解釋就足夠了，因?yàn)橛衦i2,j部分的信息是與Xi相重復(fù)的，已由Xi解釋了。由此出發(fā)，如果我們能夠在保留重要變量（Xi）全部信息的同時(shí)，以重要變量（Xi）為基礎(chǔ)，對(duì)其他的解釋變量進(jìn)行一定的線(xiàn)形變換，使之轉(zhuǎn)換為一個(gè)新變量，如將Xj轉(zhuǎn)換為Xjj,并且使得Xi與新變量Xjj之間的決定系數(shù)（ri2,jj）降低到最小程度如（1-ri2,j）,則就可以消除多重共線(xiàn)性。而這也正是不相關(guān)法基本思想的具體體現(xiàn)。該方法的一個(gè)顯著的缺陷是我們無(wú)法知道哪一個(gè)變量是重要的。4主成分法。當(dāng)自變量間有較強(qiáng)的線(xiàn)性相關(guān)性時(shí)，利用P個(gè)變量的主成分，所具有的性質(zhì)，如果他們是互不相關(guān)的，可由前m個(gè)主成Z,Z2，Zm來(lái)建立回歸模型。 12m由原始變量的觀(guān)測(cè)數(shù)據(jù)計(jì)算前m個(gè)主成分的的得分值，將其作為主成分的觀(guān)測(cè)值，建立Y與主成分的回歸模型即得回歸方程。這時(shí)P元降為m元，這樣既簡(jiǎn)化了回歸方程的結(jié)構(gòu)，且消除了變量間相關(guān)性帶來(lái)的影響5.PLS（偏最小二乘法）.H.Wold在1975年提出的偏最小二乘法近年來(lái)引起廣泛的關(guān)注，在解決多重共線(xiàn)性方面，它與主成分回歸法，嶺回歸法一樣都能很好的達(dá)到目的，但偏最小二乘又與前者又有較大的區(qū)別，偏最小二乘法集中了最小二乘法，主成分分析法，和典型相關(guān)分析的的優(yōu)點(diǎn)克服了兩種方法的缺點(diǎn)。偏最小二乘法吸取了主成分回歸提取主成分的思想，但不同的是主成分回歸只是從自變量中去尋找主成分與因變量無(wú)關(guān)，因而主成分與因變量在算法上關(guān)系不密切，從而導(dǎo)致最后主成分在實(shí)際應(yīng)用中無(wú)法更好的進(jìn)一步擬合因變量，偏最小二乘法則是從因變量出發(fā)，選擇與因變量相關(guān)性較強(qiáng)而又能方便運(yùn)算算的自變量的線(xiàn)性組合。運(yùn)用嶺回歸法.嶺回歸分析是1962年由Heer首先提出的，1970年后他與肯納德合作，進(jìn)一步發(fā)展了該方法，在多元線(xiàn)性回歸模型的矩陣形式y(tǒng)=xp+8,參數(shù)p的普通最小二乘估計(jì)為p=(x'x)-1X，y,嶺回歸當(dāng)自變量存在多重共線(xiàn)性|x'x1^0時(shí)，給矩陣加上一個(gè)正常系數(shù)矩陣KI,那么p=(x'x+ki)-iX-y,當(dāng)k=0時(shí)就是普通最小二乘估計(jì)，一般對(duì)于常數(shù)k的選擇并沒(méi)有公認(rèn)的最優(yōu)標(biāo)準(zhǔn)，一般有如下的幾種方法：嶺跡法.我們知道當(dāng)嶺參數(shù)在(0，+8)，代(k)是k的函數(shù)，在平面直角坐標(biāo)系上，把函數(shù)選擇代(k)畫(huà)出來(lái)，畫(huà)出的曲線(xiàn)稱(chēng)為嶺跡，在實(shí)際應(yīng)用中，可以根據(jù)嶺跡曲線(xiàn)的變化情況來(lái)確定適當(dāng)?shù)膋值。k值的一般原則是?各回歸系數(shù)的嶺估計(jì)基本穩(wěn)定?用最小二乘估計(jì)時(shí)不合理的回歸系數(shù)，其嶺估計(jì)的符號(hào)變得合理?回歸系數(shù)沒(méi)有不合乎經(jīng)濟(jì)意義的絕對(duì)值?殘差平方和增大不太多方差擴(kuò)大因子法方差擴(kuò)大因子度量了多重共線(xiàn)性的嚴(yán)重程度，我們一般說(shuō)方差擴(kuò)大因子大于10時(shí)，模型就存在嚴(yán)重的共線(xiàn)性，計(jì)算嶺估計(jì)p(k)的協(xié)方差矩陣，得D(p(k))=Cov(p(k),p(k))=Cov((X'X+ki)-1X，y,(X'X+ki)-1X，y)=(X'X+ki)-1X，Cov(y,y)X(x'X+ki)-i=q2(X'X+ki)-iX，X(X'X+ki)-1矩陣(X'X+ki)-1X'X(X'X+ki)-1其對(duì)角線(xiàn)上的元素為嶺估計(jì)的方差擴(kuò)大因子。不難看出方差擴(kuò)大因子隨著k的增加而減少。應(yīng)用方差擴(kuò)大因子選擇k的一般原則是選擇k使得所有方差擴(kuò)大因子W10采用Heer和Baldins提出的公式*=”"［「其中t為因子個(gè)數(shù),°為模型的標(biāo)準(zhǔn)差，a為典型參數(shù)，a=PP其中P為相關(guān)陣的特征向量相關(guān)矩陣，由于p和a未知，用最小二乘估計(jì)得到的值代替。三、實(shí)際的應(yīng)用我們對(duì)于江蘇省的1985-2004年的統(tǒng)計(jì)數(shù)據(jù)做一個(gè)回歸預(yù)測(cè)模型，選取GDP為因變量，投資額，貨物周轉(zhuǎn)量，財(cái)政支出，能源消耗總量四個(gè)變量為自變量設(shè)模型為y=0+pX+PX+PX+PX+80 1 1 2 2 3 3 4 4（一）、普通的最小二乘法首先對(duì)于數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化，標(biāo)準(zhǔn)化的目的是消除量綱對(duì)于變量的影響，進(jìn)行最小二乘估計(jì)得到如下的結(jié)果：ModelSummarybAdjustedStd.ErrorofDurbin-RSquaremangeStatisticsModel R r988aJRSquare .976RSquare .970iiieEsiiiiiaie―.17344688change T976-1Fchange―154.142dfl df2 15-1Sig.fchange .000-^Watson .Tee-1Predictors:(Constant),Zscore(VAR00005),Zscore(VAR00004),Zscore(VAR00003),Zscore(VAR00002)DependentVariable:Zscore(VAR00001)ANOVAbModelSumofSquaresdfMeanSquareFSig.1 Regression18.54944.637154.142.000aResidual.45115.030Total19.00019Predictors:(Constant),Zscore(VAR00005),Zscore(VAR00004),Zscore(VAR00003),Zscore(VAR00002)DependentVariable:Zscore(VAR00001)antva UnstandardizedStandardizedcoefficientscoefficients95%confidencf:IntervalforBcorrelationscollinearityStatisticsModelBStd.ErrorBetatSig.LowerBoundUpperBoundZero-orderPartialPartloleranceVIF1 (Constant)-1.5E-016.039.0001.000-.083.083Zscore(VAR00002).933.496.9331.881.080-.1251.991.980.437.075.006155.594Zscore(VAR00003).376.406.376.924.370-.4901.241.972.232.037.010104.244Zscore(VAR00004)-.204.354-.204-.576.573-.958.550.938-.147-.023.01379.063Zscore(VrtR00005)-.115.397-.115-.290.776-.961.731.976-.075-.012.01099.459a-DependentVariable:Zscore(VAR00001)調(diào)整的可決系數(shù)r2為0.970，F(xiàn)=154.142,在置信水平為95%，自由度4,方程通過(guò)了顯著性的檢驗(yàn)，從這里我們可以看出從整體上來(lái)說(shuō)方程得到了很好的擬合，但是各個(gè)系數(shù)的檢驗(yàn)卻并沒(méi)有通過(guò)，而且財(cái)政支出的系數(shù)為負(fù)，這于經(jīng)濟(jì)學(xué)的原理相反，我們初步斷定回歸的方程可能存在著多重共線(xiàn)性。根據(jù)方差擴(kuò)大因子VIF1=155.59VIF2=104.244VIF3=79.062VIF4=99.459均大于10說(shuō)明存在多重共線(xiàn)性此外我們還可以根據(jù)共線(xiàn)性的診斷，來(lái)判斷多重共線(xiàn)性的存在. CollinearityDiagnostic妲 ConditionZscore(VAR00002)Zscore(VAR00003)Zscore(VAR00004)Zscore(VAR00005)1 123453.8591.000.129.0090031.0001.9645.46520.71735092.001.00.00.0000.00.00.00.2377.00.00.03.1384.00.00.05.0689.00.00.01.5742a-DependentVariable:Zscore(VAR00001)特征值我們可以看到有兩個(gè)接近于零，條件數(shù)我們可以看到最大條件數(shù)為35.092,說(shuō)明存在著共線(xiàn)性，以上的分析說(shuō)明因變量間存在著多重共線(xiàn)性。、應(yīng)用嶺回歸解決多重共線(xiàn)性對(duì)于k值的選擇采用嶺跡分析和上文提到的嶺跡圖和Heer-Baldins提出的2 ??相結(jié)合的方法，由嶺跡圖我們可以看到k=2￡02i

——b(1)b⑵一b(3)-b(4)從嶺跡圖上看，最小二乘的穩(wěn)定性很差，當(dāng)k稍微增大時(shí)，系數(shù)有較大的變化。對(duì)各個(gè)變量分別來(lái)看，當(dāng)K=0,X1對(duì)于變量有顯著性正的影響，X2對(duì)與變量有正的影響，X3,X4對(duì)于變量有負(fù)的影響，從嶺回歸的角度來(lái)看，變量X1隨著k的增大其系數(shù)值迅速減小最終趨于穩(wěn)定，X2隨著k的增加變化不大，X3,X4當(dāng)k=0時(shí)對(duì)于變量有負(fù)的影響，當(dāng)k逐漸增大時(shí)，由負(fù)的影響變?yōu)檎挠绊?。從圖上我們可以看到在k的值大約為0.9之后，各個(gè)參數(shù)的值趨于穩(wěn)定，用k=q。以利用a2lr0.50650.2190-0.5669-0.6117'<0.933)P=0.4968-0.5956-0.35180.52416=0.3760.49220.70350.20430.4701-0.204V… 八 — 0.5044-0.31990.7163-0.3608J廠(chǎng)0.115/g=0.6516帶入上面的公式即可得到k的值約為0.9,把其帶入即可得到各個(gè)參數(shù)的估計(jì)值。所以得到的回歸方程為y=0.3176*投資額+0.3308*貨物周轉(zhuǎn)量+0.1407*財(cái)政支出+0.1990*能源消費(fèi)總量。進(jìn)一步的我們可以得到調(diào)整的可決系數(shù)為0.9813,說(shuō)明方程整體的擬合程度較好。嶺回歸估計(jì)已不再是無(wú)偏估計(jì)，而是通過(guò)最小二乘法的改進(jìn)允許回歸系數(shù)的有偏估計(jì)量存在而補(bǔ)救的多重共線(xiàn)性的方法。采用它可以通過(guò)允許較小的誤差而換取高于無(wú)偏估計(jì)量的精度因此它接近真實(shí)值的可能性較大。靈活運(yùn)用它可以對(duì)各分析變量之間的作用和關(guān)系帶來(lái)獨(dú)特而有效的幫助.應(yīng)用主成分回歸解決線(xiàn)性回歸首先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化求標(biāo)準(zhǔn)化后的方程的協(xié)方差矩陣，也就是標(biāo)準(zhǔn)化后的相關(guān)系數(shù)矩陣對(duì)該矩陣進(jìn)行檢驗(yàn)，看能否進(jìn)行主成分分析，主成分分析適用于那些變量之間相關(guān)性較強(qiáng)，但是又不能完全具有相關(guān)性的變量。求出協(xié)方差矩陣的特征值與特征向量。首先對(duì)于數(shù)據(jù)進(jìn)行檢驗(yàn)?zāi)芊襁M(jìn)行主成分分析，得到的巴特萊特球度檢驗(yàn)參數(shù)值卡方值188.0831自由度6顯著性0.0000由巴特萊特球度檢驗(yàn)檢驗(yàn)我們知道，該模型可以進(jìn)行主成分的分析。根據(jù)數(shù)據(jù)求出協(xié)方差矩陣的特征向量，特征值分別如下：特征向量序號(hào)特征向量1特征向量2特征向量3特征向量410.50650.2190-0.5669-0.611720.4968-0.5956-0.35180.524130.49220.70350.20430.470140.5044-0.31990.7163-0.3608特征根和累計(jì)貢獻(xiàn)率因子特征根方差貢獻(xiàn)率％累計(jì)貢獻(xiàn)率％13.858796.467096.467020.12923.229999.696930.00900.224899.921740.00310.0783100.0000由累計(jì)貢獻(xiàn)率我們知道，我前兩個(gè)主成分就能夠提取變量的大約99.699%的信息因此我們只提取兩個(gè)主成分來(lái)代表原始變量的信息，且第一主成分T1=0.5065X1+0.4946X2+0.4922X3+0.5044X4,T2=0.219X1-0.5956X2+0.7035X3-0.3199X4用因變量Y對(duì)T1,T2進(jìn)行回歸到如下果：GDP=0.2261*投資額+0.3238*貨物周轉(zhuǎn)量+0.1580財(cái)政支出0004+0.2929*能源消費(fèi)總量回歸方程的的修正的可決系數(shù)為0.9809由上面的分析我們看到嶺回歸和主成分的所得到的結(jié)果比較接近，各個(gè)系數(shù)解釋也更加的合理，符合經(jīng)濟(jì)學(xué)的一般的意義。(四)簡(jiǎn)單的比較OLS嶺回歸主成分調(diào)整的可決系數(shù)0.9760.98130.9809通過(guò)比較我們知道在所得的可決系數(shù)中嶺回歸和主成分所得到的結(jié)果，都要比最小二乘法所得到的要大，且各個(gè)系數(shù)的解釋更加合理，由于嶺回歸的模型所建立的方程的可決系數(shù)更大一點(diǎn)，我們采用嶺回歸的結(jié)果對(duì)于構(gòu)建模型，可以對(duì)于各個(gè)參數(shù)進(jìn)行解釋。五.結(jié)論主成分法和嶺回歸所估計(jì)的參數(shù)，都已經(jīng)不是無(wú)偏的估計(jì)，主成分分析法作為多元統(tǒng)計(jì)分析的一種常用方法在處理多變量問(wèn)題時(shí)具有其一定的優(yōu)越性，其降維的優(yōu)勢(shì)是明顯的，主成分回歸方法對(duì)于一般的多重共線(xiàn)性問(wèn)題還是適用的，尤其是對(duì)共線(xiàn)性較強(qiáng)的變量之間.嶺回歸估計(jì)是通過(guò)最小二乘法的改進(jìn)允許回歸系數(shù)的有偏估計(jì)量存在而補(bǔ)救多重共線(xiàn)性的方法，采用它可以通過(guò)允許小的誤差而換取高于無(wú)偏估計(jì)量的精度，因此它接近真實(shí)值的可能性較大。靈活運(yùn)用嶺回歸法，可以對(duì)分析各變量之間的作用和關(guān)系帶來(lái)獨(dú)特而有效的幫助。作為統(tǒng)計(jì)方法，每種方法都有其適用范圍，我們應(yīng)該比較其效果而選用而不是斷然否定一種方法。參考書(shū)目：[1]何曉群.應(yīng)用回歸分析[M],中國(guó)人民統(tǒng)計(jì)大學(xué)出版社，2007,(13).[3]高惠旋多元統(tǒng)計(jì)分析[M],北京大學(xué)出版社.2004秦紅兵,多元回歸分析中多重共線(xiàn)性的探討與實(shí)證[J].科技信息(學(xué)術(shù)研究)，2007,(31).王玉梅,多重共線(xiàn)性的消除:不相關(guān)法[J].統(tǒng)計(jì)教育，2006,(07).高輝.多重共線(xiàn)性的診斷方法[J].統(tǒng)計(jì)與信息論壇，2003,(01).吳相波，葉阿忠,局部線(xiàn)性估計(jì)中的多重共線(xiàn)性問(wèn)題[J].統(tǒng)計(jì)與決策，2007,(08).錢(qián)曉莉.基于特征值的多重共線(xiàn)性處理方法 [J].統(tǒng)計(jì)與決策,2004,(10).趙松山，白雪梅.關(guān)于多重共線(xiàn)性檢驗(yàn)方法的研究[J].中國(guó)煤炭經(jīng)濟(jì)學(xué)院學(xué)報(bào)，2001,(04).魯茂，賀昌政.對(duì)多重共線(xiàn)性問(wèn)題的探討[J].統(tǒng)計(jì)與決策，2007,(08)錢(qián)曉莉.基于特征值的多重共線(xiàn)性處理方法 [J].統(tǒng)計(jì)與決策，(10)白雪梅，趙松山.更深入地認(rèn)識(shí)多重共線(xiàn)性[

人人文庫(kù)> 全部分類(lèi)> 行業(yè)資料 > 機(jī)電工程

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

多重共線(xiàn)性處理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

多重共線(xiàn)性處理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔