多重共線(xiàn)性處理_第1頁(yè)
多重共線(xiàn)性處理_第2頁(yè)
多重共線(xiàn)性處理_第3頁(yè)
多重共線(xiàn)性處理_第4頁(yè)
多重共線(xiàn)性處理_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

TOC\o"1-5"\h\z一、 摘要 1二、 引言 1三、 認(rèn)識(shí)多重共線(xiàn)性 1(一) 多重共線(xiàn)性的定義 1(二) 多重共線(xiàn)性產(chǎn)生的危害 2(三) 多重共線(xiàn)性產(chǎn)生的原因 2(四) 多重共線(xiàn)性產(chǎn)生的診斷的方法 3(五) 多重共線(xiàn)性的處理的方法 3\o"CurrentDocument"四、 實(shí)際的應(yīng)用 7(一) 普通最小二乘法 7(二) 嶺回歸 8(三) 主成分回歸 10(四) 簡(jiǎn)單的比較 11(五) 結(jié)論和建議 11五、 結(jié)論 12六、 參考書(shū)目 13七、 附錄 14淺談多重共線(xiàn)性摘要各解釋變量之間存在多重共線(xiàn)性是現(xiàn)實(shí)中很普遍的現(xiàn)象。本文對(duì)線(xiàn)Keywords性估計(jì)多重共線(xiàn)性問(wèn)題進(jìn)行了簡(jiǎn)單的介紹,對(duì)一些常用的解決多重共線(xiàn)性的方法進(jìn)行了概括,并運(yùn)用主成分和嶺回歸的方法對(duì)實(shí)際的問(wèn)題進(jìn)行了分析.Keywords關(guān)鍵字嶺回歸主成分多重共線(xiàn)性AbstactTheinterpretationofvariablesbetweenmulticollinearityisinrealityverycommonphenomenon.Inthispaper,linearestimatedmulticollinearityissueasimple,commonlyusedtosolveanumberofmulti-linearwayofasummaryanduseofthemaincomponentsandridgeontheactualreturntothewaytheissuewasanalyzed.RidgeRegressionThemaincomponentregressioncollinearity一.引言回歸分析是一種比較成熟的預(yù)測(cè)模型,也是在預(yù)測(cè)過(guò)程中使用較多的模型,在自然科學(xué)管理科學(xué)和社會(huì)經(jīng)濟(jì)中有著非常廣泛的應(yīng)用,但是經(jīng)典的最小二乘估計(jì),必需滿(mǎn)足一些假設(shè)條件,多重共線(xiàn)性就是其中的一種。實(shí)際上,解釋變量間完全不相關(guān)的情形是非常少見(jiàn)的,大多數(shù)變量都在某種程度上存在著一定的共線(xiàn)性,而存在著共線(xiàn)性會(huì)給模型帶來(lái)許多不確定性的結(jié)果。二?認(rèn)識(shí)多重共線(xiàn)性(一).多重共線(xiàn)性的定義設(shè)回歸模型y=p+px+px+...0x+E如果矩陣X的列向量存在一0 11 22 pp組不全為零的數(shù)k.k.k...k使k+kx+kx+.kx=0, 1=l,2,???n,則稱(chēng)012p01i12i2 pip其存在完全共線(xiàn)性,如果k+kx+kx^^kx=0,I=1,2,???n,則稱(chēng)其0 1i1 2i2 pip存在近似的多重共線(xiàn)性(二) .多重共線(xiàn)性的危害如果矩陣存在完全共線(xiàn)性矩陣的秩rank(X)<p+1,此時(shí)|x'X1=0正規(guī)方程組的解(X'X)廣Xy的解不為一且(X'X)-1不存在,回歸參數(shù)的最小二乘估計(jì)表達(dá)式不成立,最小二乘的系數(shù)將得不到估計(jì)經(jīng)濟(jì)問(wèn)題中出現(xiàn)最多的是近似共線(xiàn)性的情況 ,此時(shí)矩陣的秩rank(x)=p+1雖然成立,但是|x'XI§0,(x,x)-1對(duì)角線(xiàn)上的元素很大,估計(jì)參數(shù)p的方差陣(X'X)-1的對(duì)角線(xiàn)元素很大,而對(duì)角線(xiàn)上的元素正式各個(gè)參數(shù)的方差,這樣各個(gè)參數(shù)的估計(jì)的精度就會(huì)很低。這時(shí)雖然能夠得到參數(shù)的最小二乘無(wú)偏估計(jì),但是回歸系數(shù)的估計(jì)值對(duì)樣本數(shù)據(jù)的微小變化將變的非常敏感,回歸系數(shù)的估計(jì)值的穩(wěn)定性將變得很差。3當(dāng)存在嚴(yán)重的多重共線(xiàn)性時(shí),會(huì)給回歸系數(shù)的統(tǒng)計(jì)檢驗(yàn)造成一定的困難,可能造成F檢驗(yàn)獲得通過(guò),T檢驗(yàn)卻不能夠通過(guò)。在自變量高度相關(guān)的情況下,估計(jì)系數(shù)的含義有可能與常識(shí)相反.在進(jìn)行預(yù)測(cè)時(shí),因?yàn)榛貧w模型的建立是基于樣本數(shù)據(jù)的,多重共線(xiàn)性也是指抽樣的數(shù)據(jù)。如果把建立的回歸模型用于預(yù)測(cè),而多重共線(xiàn)性問(wèn)題在預(yù)測(cè)區(qū)間仍然存在,則共線(xiàn)性問(wèn)題對(duì)預(yù)測(cè)結(jié)果不會(huì)產(chǎn)生特別嚴(yán)重的影響,但是如果樣本數(shù)據(jù)中的多重共線(xiàn)性發(fā)生了變化則預(yù)測(cè)的結(jié)果就不能完全的確定了(三) ?多重共線(xiàn)性產(chǎn)生的原因模型參數(shù)的選用不當(dāng),在我們建立模型時(shí)如果變量之間存在著高度的相關(guān)性,我們又沒(méi)有進(jìn)行處理建立的模型就有可能存在著共線(xiàn)性。由于研究的經(jīng)濟(jì)變量隨時(shí)間往往有共同的變化趨勢(shì),他們之間存在著共線(xiàn)性。例如當(dāng)經(jīng)濟(jì)繁榮時(shí),反映經(jīng)濟(jì)情況的指標(biāo)有可能按著某種比例關(guān)系增長(zhǎng)3滯后變量。滯后變量的引入也會(huì)產(chǎn)生多重共線(xiàn)行,例如本期的消費(fèi)水平除了受本期的收入影響之外,還有可能受前期的收入影響,建立模型時(shí),本期的收入水平就有可能和前期的收入水平存在著共線(xiàn)性。.多重共線(xiàn)性的診斷直觀(guān)的判斷方法在自變量的相關(guān)系數(shù)矩陣中,有某些自變量的相關(guān)系數(shù)值比較大?;貧w系數(shù)的符號(hào)與專(zhuān)業(yè)知識(shí)或一般經(jīng)驗(yàn)相反對(duì)重要的自變量的回歸系數(shù)進(jìn)行t檢驗(yàn),其結(jié)果不顯著,但是F檢驗(yàn)確得到了顯著的通過(guò)如果增加一個(gè)變量或刪除一個(gè)變量,回歸系數(shù)的估計(jì)值發(fā)生了很大的變化重要變量的回歸系數(shù)置信區(qū)間明顯過(guò)大方差擴(kuò)大因子法(VIF),定義vif=(1-R2)_】其中R2是以x.為因變量時(shí)對(duì)其他自變量的復(fù)測(cè)定系數(shù)。一般認(rèn)為如果最大的VIF超過(guò)10,常常表j示存在多重共線(xiàn)性。事實(shí)上VIF=(1-R2)-1>10這說(shuō)明1—R2<0.1即R2>0.9。特征根判定法 7 7 7 7根據(jù)矩陣行列式的性質(zhì),矩陣行列式的值等于其特征根的連乘積。因此,當(dāng)行列式|x'X1^0時(shí),至少有一個(gè)特征根為零,反過(guò)來(lái),可以證明矩陣至少有一個(gè)特征根近似為零時(shí),X的列向量必存在多重共線(xiàn)性,同樣也可證明X,X有多少個(gè)特征根近似為零矩陣X就有多少個(gè)多重共線(xiàn)性。根據(jù)條件數(shù),K=&其中七為最大的特征根氣為其他的特征根,通常認(rèn)為0<k<10,沒(méi)有多重共線(xiàn)性,k.>10存在著多重共線(xiàn)性。多重共線(xiàn)性的處理方法一般有如下的幾種1增加樣本容量,當(dāng)線(xiàn)性重合是由于測(cè)量誤差引起的以及他僅是偶然存在于原始樣本,而不存在于總體時(shí),通過(guò)增加樣本容量可以減少或是避免線(xiàn)性重合,但是在現(xiàn)實(shí)的生活中,由于受到各種條件的限制增加樣本容量有時(shí)又是不現(xiàn)實(shí)的2剔除一些不重要的解釋變量,主要有向前法和后退法,逐步回歸法。前進(jìn)法的主要思想是變量由少到多的,每次增加一個(gè),直至沒(méi)有可引入的變量為止。具體做法是首先對(duì)一個(gè)因變量y和m個(gè)自變量分別建立回歸方程,并分別計(jì)算這m個(gè)回歸方程的F值,選其最大者,記為Fj,,給定顯著性水平F,如果Fj>F,則變量引入該方程,再分別對(duì)(Xj,X1),(Xj,X2)???(Xj,Xm)做回歸方程,并對(duì)他們進(jìn)行F檢驗(yàn),選擇最大的Fi值,如果Fi.>F,則該變量引入方程,重復(fù)上述步驟,直到?jīng)]有變量引入為止。后退法,是先用m個(gè)因變量建立回歸方程,然后在這m個(gè)變量中選擇一個(gè)最不顯著的變量將它從方程中剔除,對(duì)m個(gè)回歸系數(shù)進(jìn)行F檢驗(yàn),記所求得的最小的一個(gè)記為Fj,給定一個(gè)顯著性的水平,如果Fj<F則將Xj從方程中刪除,重復(fù)上述步驟直到所有不顯著的變量被剔除為止。逐步回歸法,前進(jìn)法存在著這樣的缺點(diǎn)當(dāng)一個(gè)變量被引入方程時(shí),這個(gè)變量就被保留在這個(gè)方程中了,當(dāng)引入的變量導(dǎo)致其不顯著時(shí),它也不會(huì)被刪除掉,后退法同樣存在著這樣的缺點(diǎn),當(dāng)一個(gè)變量被剔除時(shí)就永遠(yuǎn)的被排斥在方程以外了,而逐步回歸法克除了兩者的缺點(diǎn)。逐步回歸的思想是有進(jìn)有出。將變量一個(gè)一個(gè)的引入,每引入一個(gè)變量對(duì)后面的變量進(jìn)行逐個(gè)檢驗(yàn),當(dāng)變量由于后面變量的引入而不變的不顯著時(shí)將其剔除,進(jìn)行每一步都要進(jìn)行顯著性的檢驗(yàn),以保證每一個(gè)變量都是顯著的。理論上上面的三種方法都是針對(duì)不相關(guān)的的數(shù)據(jù)而言的,在多重共線(xiàn)性很?chē)?yán)重的情況下,結(jié)論的可靠性受到影響,在一些經(jīng)濟(jì)模型中,要求一些很重要變量必須包含在里面,這時(shí)如果貿(mào)然的刪除就不符合現(xiàn)實(shí)的經(jīng)濟(jì)意義。不相關(guān)的系數(shù)法。當(dāng)變量之間存在著多重共線(xiàn)性最直接的表現(xiàn)就是各個(gè)解釋變量之間的決定系數(shù)很大??紤]到兩個(gè)變量之間的決定系數(shù)眾所周知,在多元線(xiàn)性回歸模型中,當(dāng)各個(gè)解釋變量(如Xi與Xj,i#j)之間存在著多重共線(xiàn)性時(shí),其最直接的表現(xiàn)就是各個(gè)解釋變量之間的決定系數(shù)(ri2,j)很大。ri2,j很大,則意味著重要變量Xi(在本文中,為研究方便,我們始終假定Xi相對(duì)于Xj而言,是一重要變量,iNj)的變化能夠說(shuō)明Xj的變化。如兩者之間的r2,j=90%,則我們以說(shuō),Xi的變化說(shuō)明了Xj變化的90%,而剩余的(1-ri2,j)部分,則是由Xj自身的變化說(shuō)明的。由此決定,在反映被解釋變量(Y)與解釋變量Xi、Xj之間的關(guān)系時(shí),對(duì)于解釋變量Xj來(lái)說(shuō),并不需要用全部的信息來(lái)解釋被解釋變量的問(wèn)題,而只需要用剩余的(1-ri2,j)部分的信息來(lái)解釋就足夠了,因?yàn)橛衦i2,j部分的信息是與Xi相重復(fù)的,已由Xi解釋了。由此出發(fā),如果我們能夠在保留重要變量(Xi)全部信息的同時(shí),以重要變量(Xi)為基礎(chǔ),對(duì)其他的解釋變量進(jìn)行一定的線(xiàn)形變換,使之轉(zhuǎn)換為一個(gè)新變量,如將Xj轉(zhuǎn)換為Xjj,并且使得Xi與新變量Xjj之間的決定系數(shù)(ri2,jj)降低到最小程度 如(1-ri2,j),則就可以消除多重共線(xiàn)性。而這也正是不相關(guān)法基本思想的具體體現(xiàn)。該方法的一個(gè)顯著的缺陷是我們無(wú)法知道哪一個(gè)變量是重要的。4主成分法。當(dāng)自變量間有較強(qiáng)的線(xiàn)性相關(guān)性時(shí),利用P個(gè)變量的主成分,所具有的性質(zhì),如果他們是互不相關(guān)的,可由前m個(gè)主成Z,Z2,Zm來(lái)建立回歸模型。 12m由原始變量的觀(guān)測(cè)數(shù)據(jù)計(jì)算前m個(gè)主成分的的得分值,將其作為主成分的觀(guān)測(cè)值,建立Y與主成分的回歸模型即得回歸方程。這時(shí)P元降為m元,這樣既簡(jiǎn)化了回歸方程的結(jié)構(gòu),且消除了變量間相關(guān)性帶來(lái)的影響5.PLS(偏最小二乘法).H.Wold在1975年提出的偏最小二乘法近年來(lái)引起廣泛的關(guān)注,在解決多重共線(xiàn)性方面,它與主成分回歸法,嶺回歸法一樣都能很好的達(dá)到目的,但偏最小二乘又與前者又有較大的區(qū)別,偏最小二乘法集中了最小二乘法,主成分分析法,和典型相關(guān)分析的的優(yōu)點(diǎn)克服了兩種方法的缺點(diǎn)。偏最小二乘法吸取了主成分回歸提取主成分的思想,但不同的是主成分回歸只是從自變量中去尋找主成分與因變量無(wú)關(guān),因而主成分與因變量在算法上關(guān)系不密切,從而導(dǎo)致最后主成分在實(shí)際應(yīng)用中無(wú)法更好的進(jìn)一步擬合因變量,偏最小二乘法則是從因變量出發(fā),選擇與因變量相關(guān)性較強(qiáng)而又能方便運(yùn)算算的自變量的線(xiàn)性組合。運(yùn)用嶺回歸法.嶺回歸分析是1962年由Heer首先提出的,1970年后他與肯納德合作,進(jìn)一步發(fā)展了該方法,在多元線(xiàn)性回歸模型的矩陣形式y(tǒng)=xp+8,參數(shù)p的普通最小二乘估計(jì)為p=(x'x)-1X,y,嶺回歸當(dāng)自變量存在多重共線(xiàn)性|x'x1^0時(shí),給矩陣加上一個(gè)正常系數(shù)矩陣KI,那么p=(x'x+ki)-iX-y,當(dāng)k=0時(shí)就是普通最小二乘估計(jì),一般對(duì)于常數(shù)k的選擇并沒(méi)有公認(rèn)的最優(yōu)標(biāo)準(zhǔn),一般有如下的幾種方法:嶺跡法.我們知道當(dāng)嶺參數(shù)在(0,+8),代(k)是k的函數(shù),在平面直角坐標(biāo)系上,把函數(shù)選擇代(k)畫(huà)出來(lái),畫(huà)出的曲線(xiàn)稱(chēng)為嶺跡,在實(shí)際應(yīng)用中,可以根據(jù)嶺跡曲線(xiàn)的變化情況來(lái)確定適當(dāng)?shù)膋值。k值的一般原則是?各回歸系數(shù)的嶺估計(jì)基本穩(wěn)定?用最小二乘估計(jì)時(shí)不合理的回歸系數(shù),其嶺估計(jì)的符號(hào)變得合理?回歸系數(shù)沒(méi)有不合乎經(jīng)濟(jì)意義的絕對(duì)值?殘差平方和增大不太多方差擴(kuò)大因子法方差擴(kuò)大因子度量了多重共線(xiàn)性的嚴(yán)重程度,我們一般說(shuō)方差擴(kuò)大因子大于10時(shí),模型就存在嚴(yán)重的共線(xiàn)性,計(jì)算嶺估計(jì)p(k)的協(xié)方差矩陣,得D(p(k))=Cov(p(k),p(k))=Cov((X'X+ki)-1X,y,(X'X+ki)-1X,y)=(X'X+ki)-1X,Cov(y,y)X(x'X+ki)-i=q2(X'X+ki)-iX,X(X'X+ki)-1矩陣(X'X+ki)-1X'X(X'X+ki)-1其對(duì)角線(xiàn)上的元素為嶺估計(jì)的方差擴(kuò)大因子。不難看出方差擴(kuò)大因子隨著k的增加而減少。應(yīng)用方差擴(kuò)大因子選擇k的一般原則是選擇k使得所有方差擴(kuò)大因子W10采用Heer和Baldins提出的公式*=”"[「其中t為因子個(gè)數(shù),°為模型的標(biāo)準(zhǔn)差,a為典型參數(shù),a=PP其中P為相關(guān)陣的特征向量相關(guān)矩陣,由于p和a未知,用最小二乘估計(jì)得到的值代替。三、實(shí)際的應(yīng)用我們對(duì)于江蘇省的1985-2004年的統(tǒng)計(jì)數(shù)據(jù)做一個(gè)回歸預(yù)測(cè)模型,選取GDP為因變量,投資額,貨物周轉(zhuǎn)量,財(cái)政支出,能源消耗總量四個(gè)變量為自變量設(shè)模型為y=0+pX+PX+PX+PX+80 1 1 2 2 3 3 4 4(一)、普通的最小二乘法首先對(duì)于數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化的目的是消除量綱對(duì)于變量的影響,進(jìn)行最小二乘估計(jì)得到如下的結(jié)果:ModelSummarybAdjustedStd.ErrorofDurbin-RSquaremangeStatisticsModel R r988aJRSquare .976RSquare .970iiieEsiiiiiaie―.17344688change T976-1Fchange―154.142dfl df2 15-1Sig.fchange .000-^Watson .Tee-1Predictors:(Constant),Zscore(VAR00005),Zscore(VAR00004),Zscore(VAR00003),Zscore(VAR00002)DependentVariable:Zscore(VAR00001)ANOVAbModelSumofSquaresdfMeanSquareFSig.1 Regression18.54944.637154.142.000aResidual.45115.030Total19.00019Predictors:(Constant),Zscore(VAR00005),Zscore(VAR00004),Zscore(VAR00003),Zscore(VAR00002)DependentVariable:Zscore(VAR00001)antva UnstandardizedStandardizedcoefficientscoefficients95%confidencf:IntervalforBcorrelationscollinearityStatisticsModelBStd.ErrorBetatSig.LowerBoundUpperBoundZero-orderPartialPartloleranceVIF1 (Constant)-1.5E-016.039.0001.000-.083.083Zscore(VAR00002).933.496.9331.881.080-.1251.991.980.437.075.006155.594Zscore(VAR00003).376.406.376.924.370-.4901.241.972.232.037.010104.244Zscore(VAR00004)-.204.354-.204-.576.573-.958.550.938-.147-.023.01379.063Zscore(VrtR00005)-.115.397-.115-.290.776-.961.731.976-.075-.012.01099.459a-DependentVariable:Zscore(VAR00001)調(diào)整的可決系數(shù)r2為0.970,F(xiàn)=154.142,在置信水平為95%,自由度4,方程通過(guò)了顯著性的檢驗(yàn),從這里我們可以看出從整體上來(lái)說(shuō)方程得到了很好的擬合,但是各個(gè)系數(shù)的檢驗(yàn)卻并沒(méi)有通過(guò),而且財(cái)政支出的系數(shù)為負(fù),這于經(jīng)濟(jì)學(xué)的原理相反,我們初步斷定回歸的方程可能存在著多重共線(xiàn)性。根據(jù)方差擴(kuò)大因子VIF1=155.59VIF2=104.244VIF3=79.062VIF4=99.459均大于10說(shuō)明存在多重共線(xiàn)性此外我們還可以根據(jù)共線(xiàn)性的診斷,來(lái)判斷多重共線(xiàn)性的存在. CollinearityDiagnostic妲 ConditionZscore(VAR00002)Zscore(VAR00003)Zscore(VAR00004)Zscore(VAR00005)1 123453.8591.000.129.0090031.0001.9645.46520.71735092.001.00.00.0000.00.00.00.2377.00.00.03.1384.00.00.05.0689.00.00.01.5742a-DependentVariable:Zscore(VAR00001)特征值我們可以看到有兩個(gè)接近于零,條件數(shù)我們可以看到最大條件數(shù)為35.092,說(shuō)明存在著共線(xiàn)性,以上的分析說(shuō)明因變量間存在著多重共線(xiàn)性。、應(yīng)用嶺回歸解決多重共線(xiàn)性對(duì)于k值的選擇采用嶺跡分析和上文提到的嶺跡圖和Heer-Baldins提出的2 ??相結(jié)合的方法,由嶺跡圖我們可以看到k=2£02i

——b(1)b⑵一b(3)-b(4)從嶺跡圖上看,最小二乘的穩(wěn)定性很差,當(dāng)k稍微增大時(shí),系數(shù)有較大的變化。對(duì)各個(gè)變量分別來(lái)看,當(dāng)K=0,X1對(duì)于變量有顯著性正的影響,X2對(duì)與變量有正的影響,X3,X4對(duì)于變量有負(fù)的影響,從嶺回歸的角度來(lái)看,變量X1隨著k的增大其系數(shù)值迅速減小最終趨于穩(wěn)定,X2隨著k的增加變化不大,X3,X4當(dāng)k=0時(shí)對(duì)于變量有負(fù)的影響,當(dāng)k逐漸增大時(shí),由負(fù)的影響變?yōu)檎挠绊?。從圖上我們可以看到在k的值大約為0.9之后,各個(gè)參數(shù)的值趨于穩(wěn)定,用k=q。以 利用a2lr0.50650.2190-0.5669-0.6117'<0.933)P=0.4968-0.5956-0.35180.52416=0.3760.49220.70350.20430.4701-0.204V… 八 — 0.5044-0.31990.7163-0.3608J廠(chǎng)0.115/g=0.6516帶入上面的公式即可得到k的值約為0.9,把其帶入即可得到各個(gè)參數(shù)的估計(jì)值。所以得到的回歸方程為y=0.3176*投資額+0.3308*貨物周轉(zhuǎn)量+0.1407*財(cái)政支出+0.1990*能源消費(fèi)總量。進(jìn)一步的我們可以得到調(diào)整的可決系數(shù)為0.9813,說(shuō)明方程整體的擬合程度較好。嶺回歸估計(jì)已不再是無(wú)偏估計(jì),而是通過(guò)最小二乘法的改進(jìn)允許回歸系數(shù)的有偏估計(jì)量存在而補(bǔ)救的多重共線(xiàn)性的方法。采用它可以通過(guò)允許較小的誤差而換取高于無(wú)偏估計(jì)量的精度因此它接近真實(shí)值的可能性較大。靈活運(yùn)用它可以對(duì)各分析變量之間的作用和關(guān)系帶來(lái)獨(dú)特而有效的幫助.應(yīng)用主成分回歸解決線(xiàn)性回歸首先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化求標(biāo)準(zhǔn)化后的方程的協(xié)方差矩陣,也就是標(biāo)準(zhǔn)化后的相關(guān)系數(shù)矩陣對(duì)該矩陣進(jìn)行檢驗(yàn),看能否進(jìn)行主成分分析,主成分分析適用于那些變量之間相關(guān)性較強(qiáng),但是又不能完全具有相關(guān)性的變量。求出協(xié)方差矩陣的特征值與特征向量。首先對(duì)于數(shù)據(jù)進(jìn)行檢驗(yàn)?zāi)芊襁M(jìn)行主成分分析,得到的巴特萊特球度檢驗(yàn)參數(shù)值卡方值188.0831自由度6顯著性0.0000由巴特萊特球度檢驗(yàn)檢驗(yàn)我們知道,該模型可以進(jìn)行主成分的分析。根據(jù)數(shù)據(jù)求出協(xié)方差矩陣的特征向量,特征值分別如下:特征向量序號(hào)特征向量1特征向量2特征向量3特征向量410.50650.2190-0.5669-0.611720.4968-0.5956-0.35180.524130.49220.70350.20430.470140.5044-0.31990.7163-0.3608特征根和累計(jì)貢獻(xiàn)率因子特征根方差貢獻(xiàn)率%累計(jì)貢獻(xiàn)率%13.858796.467096.467020.12923.229999.696930.00900.224899.921740.00310.0783100.0000由累計(jì)貢獻(xiàn)率我們知道,我前兩個(gè)主成分就能夠提取變量的大約99.699%的信息因此我們只提取兩個(gè)主成分來(lái)代表原始變量的信息,且第一主成分T1=0.5065X1+0.4946X2+0.4922X3+0.5044X4,T2=0.219X1-0.5956X2+0.7035X3-0.3199X4用因變量Y對(duì)T1,T2進(jìn)行回歸到如下果:GDP=0.2261*投資額+0.3238*貨物周轉(zhuǎn)量+0.1580財(cái)政支出0004+0.2929*能源消費(fèi)總量回歸方程的的修正的可決系數(shù)為0.9809由上面的分析我們看到嶺回歸和主成分的所得到的結(jié)果比較接近,各個(gè)系數(shù)解釋也更加的合理,符合經(jīng)濟(jì)學(xué)的一般的意義。(四)簡(jiǎn)單的比較OLS嶺回歸主成分調(diào)整的可決系數(shù)0.9760.98130.9809通過(guò)比較我們知道在所得的可決系數(shù)中嶺回歸和主成分所得到的結(jié)果,都要比最小二乘法所得到的要大,且各個(gè)系數(shù)的解釋更加合理,由于嶺回歸的模型所建立的方程的可決系數(shù)更大一點(diǎn),我們采用嶺回歸的結(jié)果對(duì)于構(gòu)建模型,可以對(duì)于各個(gè)參數(shù)進(jìn)行解釋。五.結(jié)論主成分法和嶺回歸所估計(jì)的參數(shù),都已經(jīng)不是無(wú)偏的估計(jì),主成分分析法作為多元統(tǒng)計(jì)分析的一種常用方法在處理多變量問(wèn)題時(shí)具有其一定的優(yōu)越性,其降維的優(yōu)勢(shì)是明顯的,主成分回歸方法對(duì)于一般的多重共線(xiàn)性問(wèn)題還是適用的,尤其是對(duì)共線(xiàn)性較強(qiáng)的變量之間.嶺回歸估計(jì)是通過(guò)最小二乘法的改進(jìn)允許回歸系數(shù)的有偏估計(jì)量存在而補(bǔ)救多重共線(xiàn)性的方法,采用它可以通過(guò)允許小的誤差而換取高于無(wú)偏估計(jì)量的精度,因此它接近真實(shí)值的可能性較大。靈活運(yùn)用嶺回歸法,可以對(duì)分析各變量之間的作用和關(guān)系帶來(lái)獨(dú)特而有效的幫助。作為統(tǒng)計(jì)方法,每種方法都有其適用范圍,我們應(yīng)該比較其效果而選用而不是斷然否定一種方法。參考書(shū)目:[1]何曉群.應(yīng)用回歸分析[M],中國(guó)人民統(tǒng)計(jì)大學(xué)出版社,2007,(13).[3]高惠旋多元統(tǒng)計(jì)分析[M],北京大學(xué)出版社.2004秦紅兵,多元回歸分析中多重共線(xiàn)性的探討與實(shí)證[J].科技信息(學(xué)術(shù)研究),2007,(31).王玉梅,多重共線(xiàn)性的消除:不相關(guān)法[J].統(tǒng)計(jì)教育,2006,(07).高輝.多重共線(xiàn)性的診斷方法[J].統(tǒng)計(jì)與信息論壇,2003,(01).吳相波,葉阿忠,局部線(xiàn)性估計(jì)中的多重共線(xiàn)性問(wèn)題[J].統(tǒng)計(jì)與決策,2007,(08).錢(qián)曉莉.基于特征值的多重共線(xiàn)性處理方法 [J].統(tǒng)計(jì)與決策,2004,(10).趙松山,白雪梅.關(guān)于多重共線(xiàn)性檢驗(yàn)方法的研究[J].中國(guó)煤炭經(jīng)濟(jì)學(xué)院學(xué)報(bào),2001,(04).魯茂,賀昌政.對(duì)多重共線(xiàn)性問(wèn)題的探討[J].統(tǒng)計(jì)與決策,2007,(08)錢(qián)曉莉.基于特征值的多重共線(xiàn)性處理方法 [J].統(tǒng)計(jì)與決策,(10)白雪梅,趙松山.更深入地認(rèn)識(shí)多重共線(xiàn)性[

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論