主成分分析在STATA中的實現(xiàn)以及理論介紹_第1頁
主成分分析在STATA中的實現(xiàn)以及理論介紹_第2頁
主成分分析在STATA中的實現(xiàn)以及理論介紹_第3頁
主成分分析在STATA中的實現(xiàn)以及理論介紹_第4頁
主成分分析在STATA中的實現(xiàn)以及理論介紹_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、catrunkweightlengthheadroom,comp(2)covariance第十二章主成分分析主成分分分析也稱作主分量分析,是霍特林(Hotelling)在1933年首先提出。主成分分析是利用降維的思想,在損失較少信息的前提下把多個指標轉化為較少的綜合指標。轉化生成的綜合指標即稱為主成分,其中每個主成分都是原始變量的線性組合,且各個主成分互不相關。Stata對主成分分析的主要內(nèi)容包括:主成分估計、主成分分析的恰當性(包括負偏協(xié)方差矩陣和負偏相關系數(shù)矩陣、KMO(Kaiser-Meyer-Olkin)抽樣充分性、復相關系數(shù)、共同度等指標測度)、主成分的旋轉、預測、各種檢驗、碎石圖、

2、得分圖、載荷圖等。y=ab+e,i=1,2,.,nj=1,2,.,pijijij主成分的模型表達式為:pC=VaV=工九vvi=1iiivv=0ija=diag(尢,尢,尢),尢XX12p12p其中,a稱為得分,b稱為載荷。主成分分析主要的分析方法是對相關系數(shù)矩陣(或協(xié)方差矩陣)進行特征值分析。Stata中可以通過負偏相關系數(shù)矩陣、負相關系數(shù)平方和KMO值對主成分分析的恰當性進行分析。負偏相關系數(shù)矩陣即變量之間兩兩偏相關系數(shù)的負數(shù)。非對角線元素則為負的偏相關系數(shù)。如果變量之間存在較強的共性,則偏相關系數(shù)比較低。因此,如果矩陣中偏相關系數(shù)較高的個數(shù)比較多,說明某一些變量與另外一些變量的相關性比較

3、低,主成分模型可能不適用。這時,主成分分析不能得到很好的數(shù)據(jù)約化效果。Kaiser-Meyer-Olkin抽樣充分性測度也是用于測量變量之間相關關系的強弱的重要指標,是通過比較兩個變量的相關系數(shù)與偏相關系數(shù)得到的。KMO介于0于1之間。KMO越高,表明變量的共性越強。如果偏相關系數(shù)相對于相關系數(shù)比較高,則KMO比較低,主成分分析不能起到很好的數(shù)據(jù)約化效果。根據(jù)Kaiser(1974),般的判斷標準如下:0.00-0.49,不能接受(unacceptable);0.50-0.59,非常差(miserable);0.60-0.69,勉強接受(mediocre);0.70-0.79,可以接受(mid

4、dling);0.80-0.89,比較好(meritorious);0.90-1.00,非常好(marvelous)。SMC即一個變量與其他所有變量的復相關系數(shù)的平方,也就是復回歸方程的可決系數(shù)。SMC比較高表明變量的線性關系越強,共性越強,主成分分析就越合適。成分載荷、KMO、SMC等指標都可以通過extat命令進行分析。多元方差分析是方差分析在多元中的擴展,即模型含有多個響應變量。本章介紹多元(協(xié))方差分析以及霍特林(Hotelling)均值向量T檢驗。主成分估計Stata可以通過變量進行主成分分析,也可以直接通過相關系數(shù)矩陣或協(xié)方差矩陣進行。(1)sysuseauto,clearpcat

5、runkweightlengthheadroom(2)webusebg2,clearpcabg2cost*,vce(normal)Estatestat給出了幾個非常有用的工具,包括KMO、SMC等指標。webusebg2,clearpcabg2cost*,vce(normal)estatantiestatkmoestatloadingsestatresidualsestatsmcestatsummarize預測Stata可以通過predict預測變量得分、擬合值和殘差等。webusebg2,clearpcabg2cost*,vce(normal)predictscorefitresidualq

6、(備注:q代表殘差的平方和)碎石圖碎石圖是判斷保留多少個主成分的重要方法。命令為screeplotwebusebg2,clearpcabg2cost*,vce(normal)screeplotseulavnegi2tnenopmocrofseroc得分圖、載荷圖得分圖即不同主成分得分的散點圖。命令為scoreplotwebusebg2,clearpcabg2cost*,vce(normal)scoreplotScorevariables(pea)載荷圖即不同主成分載荷的散點圖。命令為loadingplot。webusebg2,clearpcabg2cost*,vce(normal)loadin

7、gplot66Componentloadingsbg2cost12tnenopmo*bg2cost3*bg2cost2bg2cost5*bg2cost6*.bg2cost4-.4-.20.2Component1.4.6旋轉對載荷進行旋轉的命令格式為rotatewebusebg2,clearpcabg2cost*,vce(normal)rotate例:對中國30個省市自治區(qū)經(jīng)濟發(fā)展基本情況的八項指標主成分分析,原始數(shù)據(jù)如下表:居民省份GDP消費(億元)水平(元)TOC o 1-5 h zareax1x2北京10488.0320346天津6354.3814000河北16188.616570山西69

8、38.736187內(nèi)蒙古7761.88108遼寧13461.579625吉林6424.067591黑龍江83107039貨物周固定資職工平轉量產(chǎn)投資均工資轉量(億噸公(億元)(元)里)x3x4x53814.756328758.93389.8417482703.48866.6247565925.53531.2258282562.25475.4261143658.710019.1277297033.95038.9234861157.83656230461690.9居民消商品零費價格售價格工業(yè)總指數(shù)指數(shù)產(chǎn)值(上年(上年(億元)100)100)x6x7x8105.1104.410413105.4105

9、.112503106.2106.723031107.2107.210024105.7104.78740.2104.6105.324769105.1106.28406.9105.6105.87624.5上海1369815656516029.8105.8105.325121江蘇30312.611101315300.6316674300.9105.4104.967799浙江21486.92138939323341464974.9105106.340832安徽8874.1763776747263635843.2106.2106.311162福建10823.1110361520

10、7.7257022396.2104.6105.715213江西6480.3357534745.4210002285.5106106.18499.6山東31072.06957315435.92640410107.8105.3104.962959河南18407.78587710490.6248165165.1107107.526028湖北11330.3874065647227392526.4106.3106.313455湖南11156.6471455534248702349.8106105.611553廣東35696.461439010868.7331104428.4105.610665425廣西

11、7171.5861033756.4256602079107.8107.66072海南1459.236550705.421864597.7106.9106.71103.1重慶5096.6698353979.6269851490.3105.61055755.9四川12506.2560727127.8250381578.7105.1105.314762貴州3333.444261864.524602805.3107.6107.23111.1云南5700.145533435.924030821.3105.7106.15144.6西藏395.913504309.94728035.5105.7103.948

12、.19陜西6851.3262904614.4259422027106.4106.97480.8甘肅3176.1148691712.8240171594.9108.2107.93667.5青海961.535830583.230983335.7110.1110.61103.1寧夏1098.517193828.930719703.6108.5108.51366.5新疆4203.4155422260246871273108.1108.54276.1數(shù)據(jù):來源于2009年中國統(tǒng)計年鑒程序:labelvararealabelvarx1labelvarx2labelvarx3labelvarx4labelv

13、arx5labelvarx6labelvarx7labelvarx8*定義變量的標簽clear省份GDP(億元)居民消費水平(元)固定資產(chǎn)投資(億元)職工平均工資(元)貨物周轉量(億噸公里)居民消費價格指數(shù)(上年100)商品零售價格指數(shù)(上年100)工業(yè)總產(chǎn)值(億元)describepcax1-x8/*主成分估計*/estatkmo/*KM0檢驗,越高越好*/estatsmc/*SMC檢驗,值越高越好*/screeplot/*碎石圖(特征值等于1處的水平線標示保留主成分的分界點)*/predictscorefitresidualq/*預測變量得分、擬合值和殘差以及殘差的平方和*/predict

14、f1f2f3predictq1q2q3scoreplot,mlabel(area)yline(0)xline(0)/*得分圖1*/scoreplot,xtitle(經(jīng)濟社會總量)ytitle(人民生活水平)/mlabel(area)yline(0)xline(0)/*得分圖*/scatterf2f3,xtitle(人民生活水平)ytitle(物價水平)/mlabel(area)yline(0)xline(0)/*得分圖*/scoreplot,factors(3)mlabel(area)/*得分圖*/scoreplot,combinedfactors(3)mlabel(area)yline(0)

15、xline(0)/*得分圖*/loadingplot,yline(O)xline(O)/*載荷圖*/loadingplot,combinedfactors(3)yline(0)xline(O)/*載荷圖*/rotate/*旋轉*/分析:先對數(shù)據(jù)進行標準化處理后,接著進行主成分分析,可以得到:表:R的特征值和特征向量主成分特征值方差貝獻率累計貝獻率14.254882.502580.531921.75229.5375380.750931.21475.7609160.90274.453839.2607010.95955.193137.1241410.98366.0689962.02734640.99

16、227.0416498.02119450.99748.0204553.1.0000從表中看到,前3個特征值累計貢獻率已達90.27%,說明前3個主成分基本包含了全部指標具有的信息,我們?nèi)∏?個特征值。通過對載荷矩陣進行旋轉可得到,相應的特征向量,見下表:第一、第二、第三特征值向量第一特征向量第二特征向量第三特征向量x1s0.42490.30640.1079x2s0.3217-0.44670.3101x3s0.40570.3855-0.0181x4s0.18560.61000.2536x5s0.3520-0.05100.3714x6s-0.34440.14270.5784x7s-0.31180.

17、27670.5769x8s0.42090.29380.1495因而前三個主成分為:第一主成分:F=0.4249xl+0.3217x2_s+0.4057x3_s+0.1856x4_s1+0.3520 x5_s-0.3444x6_s-0.3118x7_s+0.4209x8_s第二主成分:F=0.3064xl-0.4467x2_s+0.3855x3_s-0.6100 x4_s2-0.0510 x5_s+0.1427x6_s+0.2767x7_s+0.2938x8_s第三主成分:F=0.1079xl+0.3101x2_s-0.0181x3_s+0.2536x4_s3+0.3714x5_s-0.5784

18、x6_s+0.5769x7_s+0.1495x8_s在第一主成分的表達式中第一、第三、第八項指標的系數(shù)較大,這三項指標起主要作用,我們可以把第一主成分看成是由國內(nèi)生產(chǎn)總值、固定資產(chǎn)投資、工業(yè)總產(chǎn)值所刻劃的反映經(jīng)濟社會總量的綜合指標;在第二主成分中,第二、第三、第四項指標的影響大,且第二、第四項的影響較大,因此可以把第二主成分看成是由居民消費水平、職工平均工資表示的反映人民生活水平的綜合指標;在第三主成分中,第六、第七項指標大于其余的指標,可看成是受居民消費價格指數(shù)、商品零售價格指數(shù)的影響,反映物價水平的綜合指標。在這次的主成分分析里面,我們可以進行些檢驗以驗證我們分析的效果,通過KMO檢驗和S

19、MC檢驗,得到了下面的檢驗值:變量的KMO、SMC值表變量KMO值SMC值x1s0.74230.9656x2s0.53610.8366x3s0.77060.9276x4s0.47370.7647x5s0.67940.6515x6s0.54670.8837x7s0.54820.8627x8s0.76920.9591合計0.6447Kaiser-Meyer-Olkin抽樣充分性測度也是用于測量變量之間相關關系的強弱的重要指標,是通過比較兩個變量的相關系數(shù)與偏相關系數(shù)得到的。KMO介于0于1之間。KMO越高,表明變量的共性越強。如果偏相關系數(shù)相對于相關系數(shù)比較高,則KMO比較低,主成分分析不能起到很好的數(shù)據(jù)約化效果。根據(jù)Kaiser(1974),一般的判斷標準如下:0.00-0.49,不能接受(unacceptable);0.50-0.59,非常差(miserable);0.60-0.69,勉強接受(mediocre);0.70-0.79,可以接受(middling);0.80-0.89,比較好(meritorious);0.90-1.00,非常好(marvelous)。SMC即一個變量與其他所有變量的復相關系數(shù)的平方,也就是復

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論