

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第十二章主成分分析主成分分分析也稱作主分量分析,是霍特林(Hotelling)在1933年首先提出。主成分分析是利用降維的思想,在損失較少信息的前提下把多個(gè)指標(biāo)轉(zhuǎn)化為較少的綜合指標(biāo)。轉(zhuǎn)化生成的綜合指標(biāo)即稱為主成分,其中每個(gè)主成分都是原始變量的線性組合,且各個(gè)主成分互不相關(guān)。Stata對(duì)主成分分析的主要內(nèi)容包括:主成分估計(jì)、主成分分析的恰當(dāng)性(包括負(fù)偏協(xié)方差矩陣和負(fù)偏相關(guān)系數(shù)矩陣、KMO(Kaiser-Meyer-Olkin)抽樣充分性、復(fù)相關(guān)系數(shù)、共同度等指標(biāo)測(cè)度)、主成分的旋轉(zhuǎn)、預(yù)測(cè)、各種檢驗(yàn)、碎石圖、得分圖、載荷圖等。y=a'b+*,i=1,2nj=1,2pijijij主成分的模型表達(dá)式為:pC=VaV=工九vv'i=1iiiv'v=0ija=diag(尢,尢,…,尢),尢>X>?…>X12p12p其中,a稱為得分,b稱為載荷。主成分分析主要的分析方法是對(duì)相關(guān)系數(shù)矩陣(或協(xié)方差矩陣)進(jìn)行特征值分析。Stata中可以通過負(fù)偏相關(guān)系數(shù)矩陣、負(fù)相關(guān)系數(shù)平方和KM0值對(duì)主成分分析的恰當(dāng)性進(jìn)行分析。負(fù)偏相關(guān)系數(shù)矩陣即變量之間兩兩偏相關(guān)系數(shù)的負(fù)數(shù)。非對(duì)角線元素則為負(fù)的偏相關(guān)系數(shù)。如果變量之間存在較強(qiáng)的共性,則偏相關(guān)系數(shù)比較低。因此,如果矩陣中偏相關(guān)系數(shù)較高的個(gè)數(shù)比較多,說明某一些變量與另外一些變量的相關(guān)性比較低,主成分模型可能不適用。這時(shí),主成分分析不能得到很好的數(shù)據(jù)約化效果。Kaiser-Meyer-Olkin抽樣充分性測(cè)度也是用于測(cè)量變量之間相關(guān)關(guān)系的強(qiáng)弱的重要指標(biāo),是通過比較兩個(gè)變量的相關(guān)系數(shù)與偏相關(guān)系數(shù)得到的。KMO介于0于1之間。KMO越高,表明變量的共性越強(qiáng)。如果偏相關(guān)系數(shù)相對(duì)于相關(guān)系數(shù)比較高,則KMO比較低,主成分分析不能起到很好的數(shù)據(jù)約化效果。根據(jù)Kaiser(1974),—般的判斷標(biāo)準(zhǔn)如下:0.00-0.49,不能接受(unacceptable);0.50-0.59,非常差(miserable);0.60-0.69,勉強(qiáng)接受(mediocre);0.70-0.79,可以接受(middling);0.80-0.89,比較好(meritorious);0.90-1.00,非常好(marvelous)。SMC即一個(gè)變量與其他所有變量的復(fù)相關(guān)系數(shù)的平方,也就是復(fù)回歸方程的可決系數(shù)。SMC比較高表明變量的線性關(guān)系越強(qiáng),共性越強(qiáng),主成分分析就越合適。成分載荷、KMO、SMC等指標(biāo)都可以通過extat命令進(jìn)行分析。多元方差分析是方差分析在多元中的擴(kuò)展,即模型含有多個(gè)響應(yīng)變量。本章介紹多元(協(xié))方差分析以及霍特林Hotelling)均值向量T檢驗(yàn)。12.1主成分估計(jì)Stata可以通過變量進(jìn)行主成分分析,也可以直接通過相關(guān)系數(shù)矩陣或協(xié)方差矩陣進(jìn)行。(1)sysuseauto,clearpcatrunkweightlengthheadroompcatrunkweightlengthheadroom,comp(2)covariance(2)webusebg2,clearpcabg2cost*,vce(normal)12.2Estatestat給出了幾個(gè)非常有用的工具,包括KMO、SMC等指標(biāo)。webusebg2,clearpcabg2cost*,vce(normal)estatantiestatkmoestatloadingsestatresidualsestatsmcestatsummarize12.3預(yù)測(cè)Stata可以通過predict預(yù)測(cè)變量得分、擬合值和殘差等。webusebg2,clearpcabg2cost*,vce(normal)predictscorefitresidualq(備注:q代表殘差的平方和)12.4碎石圖碎石圖是判斷保留多少個(gè)主成分的重要方法。命令為screeplot。
webusebg2,clearpcabg2cost*,vce(normal)screeplotScreeplotofeigenvaluesafterpeaseulavnegi2_12seulavnegi2_123456Number12.5得分圖、載荷圖得分圖即不同主成分得分的散點(diǎn)圖。命令為scoreplot。webusebg2,clearpcabg2cost*,vce(normal)scoreplot332tnenopmocrofserocS420246-424-20Scoresforcomponent12tnenopmocrofserocS420246-424-20Scoresforcomponent1Scorevariables(pca)載荷圖即不同主成分載荷的散點(diǎn)圖。命令為loadingplot。webusebg2,clearpcabg2cost*,vce(normal)loadingplotComponentloadingsbg2cost12tnenopmo*bg2cost32tnenopmo*bg2cost2bg2cost5*bg2cost6.bg2cost4-.4-.20.2Component1.4-.4-.20.2Component1.4.612.6旋轉(zhuǎn)對(duì)載荷進(jìn)行旋轉(zhuǎn)的命令格式為rotate。webusebg2,clearpcabg2cost*,vce(normal)rotate例:對(duì)中國30個(gè)省市自治區(qū)經(jīng)濟(jì)發(fā)展基本情況的八項(xiàng)指標(biāo)主成分分析,原始數(shù)據(jù)如下表:固定貨物消費(fèi)零售工業(yè)居民職工資產(chǎn)周轉(zhuǎn)價(jià)格價(jià)格總產(chǎn)GDP消費(fèi)平均省份投資量指數(shù)指數(shù)值(億元)水平工資(億(億噸(上(上(億(元)(元)元)公里)年年元)100)100)areax1x2x3x4x5x6x7x8商品居民北10488.20343814.105.104.56328758.91041303天6354.314003389.津808河16188.65708866.北616山6938.761873531.西32內(nèi)蒙7761.881085475.古4遼13461.962510019寧57.1吉6424.075915038.林69黑龍831070393656江上13698.27344823.海1531江30312.110115300蘇613.6浙21486.13899323江923安8874.163776747徽72703.105.105.41748441125035925.106.106.24756230315272562.107.107.25828100242223658.105.104.8740.2611477727033.104.105.27729247699631157.105.106.8406.2348681291690.105.105.7624.23046968516029105.105.5656525121.8834300.105.104.31667677999494974.106.3414610540832935843.106.106.2636311162223福10823.10365207.2396.104.105.2570215213建1117267江6480.34745.2285.106.8499.575321000106西34516山31072.1543510107105.104.95732640462959東06.9.839河18407.104905165.107.58772481610726028南78.615湖11330.2526.106.106.740656472273913455北38433湖11156.2349.105.714555342487010611553南6486廣35696.1439108684428.105.3311010665425東460.746廣7171.53756.107.107.61032566020796072西8486海1459.2106.106.1103.6550705.421864597.7南3971重5096.63979.1490.105.5755.983526985105慶66369四12506.7127.1578.105.105.60722503814762川258713
貴1864.805.3107.6107.23111.1州3333.44426524602云3435.105.106.5144.5700.1455324030821.3南9716西105.103.395.913504309.94728035.548.19藏79陜6851.34614.106.106.7480.6290259422027西24498甘3176.11712.1594.108.107.3667.486924017肅189295青110.110.1103.961.535830583.230983335.7海161寧1098.5108.108.1366.7193828.930719703.6夏1555新4203.4108.108.4276.55422260246871273疆1151數(shù)據(jù):來源于2009年《中國統(tǒng)計(jì)年鑒》程序clear*定義變量的標(biāo)簽
labelvararea省份labelvarx1"GDP(億元)"labelvarx2"居民消費(fèi)水平(元)"labelvarx3"固定資產(chǎn)投資(億元)"labelvarx4"職工平均工資(元)"labelvarx5"貨物周轉(zhuǎn)量(億噸公里)"labelvarx6"居民消費(fèi)價(jià)格指數(shù)(上年100)"labelvarx7"商品零售價(jià)格指數(shù)(上年100)"labelvarx8"工業(yè)總產(chǎn)值(億元)"describepcax1-x8/*主成分估計(jì)*/estatkmo/*KM0檢驗(yàn),越高越好*/estatsmc/*SMC檢驗(yàn),值越高越好*/screeplot/*碎石圖(特征值等于1處的水平線標(biāo)示保留主成分的分界點(diǎn))*/predictscorefitresidualq/*預(yù)測(cè)變量得分、擬合值和殘差以及殘差的平方和*/predictf1f2f3predictq1q2q3scoreplot,mlabel(area)yline(0)xline(0)/*得分圖1*/scoreplot,xtitle("經(jīng)濟(jì)社會(huì)總量")ytitle("人民生活水平")///mlabel(area)yline(0)xline(0)/*得分圖*/scatterf2f3,xtitle("人民生活水平")ytitle("物價(jià)水平")///mlabel(area)yline(0)xline(0)/*得分圖*/scoreplot,factors(3)mlabel(area)/*得分圖*/scoreplot,combinedfactors(3)mlabel(area)yline(0)xline(0)/*得分圖*/loadingplot,yline(0)xline(0)/*載荷圖*/loadingplot,combinedfactors(3)yline(0)xline(0)/*載荷圖*/rotate/*旋轉(zhuǎn)*/分析:
先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后,接著進(jìn)行主成分分析,可以得到:表:R的特征值和特征向量主成分特征值方差貢獻(xiàn)率累計(jì)貢獻(xiàn)率14.254882.502580.531921.75229.5375380.750931.21475.7609160.90274.453839.2607010.95955.193137.1241410.98366.0689962.02734640.99227.0416498.02119450.99748.02045531.0000從表中看到,前3個(gè)特征值累計(jì)貢獻(xiàn)率已達(dá)90.27%,說明前3個(gè)主成分基本包含了全部指標(biāo)具有的信息,我們?nèi)∏?個(gè)特征值。通過對(duì)載荷矩陣進(jìn)行旋轉(zhuǎn),可得到,相應(yīng)的特征向量,見下表:第一、第二、第三特征值向量第一特征向量第二特征向量第三特征向量x1__s0.42490.30640.1079x2__s0.3217-0.44670.3101x3__s0.40570.3855-0.0181x4__s0.1856-0.61000.2536x5_s0.3520-0.05100.3714x6_s-0.34440.14270.5784x7_s-0.31180.27670.5769x8_s0.42090.29380.1495因而前三個(gè)主成分為:第一主成分:F=10.4249x1+0.3217x2_s+0.4057x3_s+0.1856x4_s+0.3520x5_s-0.3444x6_s-0.3118x7_s+0.4209x8_s第二主成分:F=20.3064x1-0.4467x2_s+0.3855x3_s-0.6100x4_s-0.0510x5_s+0.1427x6_s+0.2767x7_s+0.2938x8_s第三主成分:F=30.1079x1+0.3101x2_s-0.0181x3_s+0.2536x4_s+0.3714x5_s-0.5784x6_s+0.5769x7_s+0.1495x8_s在第一主成分的表達(dá)式中第一、第三、第八項(xiàng)指標(biāo)的系數(shù)較大,這三項(xiàng)指標(biāo)起主要作用,我們可以把第一主成分看成是由國內(nèi)生產(chǎn)總值、固定資產(chǎn)投資、工業(yè)總產(chǎn)值所刻劃的反映經(jīng)濟(jì)社會(huì)總量的綜合指標(biāo);在第二主成分中,第二、第三、第四項(xiàng)指標(biāo)的影響大,且第二、第四項(xiàng)的影響較大,因此可以把第二主成分看成是由居民消費(fèi)水平、職工平均工資表示的反映人民生活水平的綜合指標(biāo);在第三主成分中,第六、第七項(xiàng)指標(biāo)大于其余的指標(biāo),可看成是受居民消費(fèi)價(jià)格指數(shù)、商品零售價(jià)格指數(shù)的影響,反映物價(jià)水平的綜合指標(biāo)。在這次的主成分分析里面,我們可以進(jìn)行些檢驗(yàn)以驗(yàn)證我們分析的效果,通過KMO檢驗(yàn)和SMC檢驗(yàn),得到了下面的檢驗(yàn)值:變量的KMO、SMC值表變量KMO值SMC值x1_s0.74230.9656x2_s0.53610.8366x3_s0.77060.9276x4_s0.47370.7647x5_s0.67940.6515x6_s0.54670.8837x7_s0.54820.8627x8_s0.76920.9591合計(jì)0.6447—Kaiser-Meyer-Olkin抽樣充分性測(cè)度也是用于測(cè)量變量之間相關(guān)關(guān)系的強(qiáng)弱的重要指標(biāo),是通過比較兩個(gè)變量的相關(guān)系數(shù)與偏相關(guān)系數(shù)得到的。KMO介于0于1之間。KMO越高,表明變量的共性越強(qiáng)。如果偏相關(guān)系數(shù)相對(duì)于相關(guān)系數(shù)比較高,則KMO比較低,主成分分析不能起到很好的數(shù)據(jù)約化效果。根據(jù)Kaiser(1974),—般的判斷標(biāo)準(zhǔn)如下:0.00-0.49,不能接受(unacceptable);0.50-0.59,非常差(miserable);0.60-0.69,勉強(qiáng)接受(mediocre);0.70-0.79,可以接受(middling);0.80-0.89,比較好(meritorious);0.90-1.00,非常好(marvelous)。SMC即一個(gè)變量與其他所有變量的復(fù)相關(guān)系數(shù)的平方,也就是復(fù)回歸方程的可決系數(shù)。SMC比較高表明變量的線性關(guān)系越強(qiáng),共性越強(qiáng),主成分分析就越合適。根據(jù)KMO越高,表明變量的共性越強(qiáng)和SMC比較高表明變量的線性關(guān)系越強(qiáng),共性越強(qiáng),主成分分析就越合適
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 幾分包合同范本
- 農(nóng)村耕地流轉(zhuǎn)合同范本
- 產(chǎn)品免責(zé)合同范本
- 倉儲(chǔ)臨時(shí)合同范本
- 化妝產(chǎn)品合同范本
- 信息驗(yàn)收合同范例
- 書法裝裱售賣合同范本
- 農(nóng)村集體資源招租合同范本
- 免除追償工傷合同范本
- 兄弟籃球合同范本
- 2024年-ITSS新標(biāo)準(zhǔn)培訓(xùn)學(xué)習(xí)材料
- 第2課《讓美德照亮幸福人生》第2框《做守家庭美德的好成員》-【中職專用】《職業(yè)道德與法治》同步課堂課件
- (正式版)SHT 3227-2024 石油化工裝置固定水噴霧和水(泡沫)噴淋滅火系統(tǒng)技術(shù)標(biāo)準(zhǔn)
- 2024屆廣東省深圳市中考物理模擬試卷(一模)(附答案)
- 前庭功能鍛煉科普知識(shí)講座
- 供應(yīng)鏈戰(zhàn)略布局與區(qū)域拓展案例
- 上海話培訓(xùn)課件
- 注塑車間績(jī)效考核方案
- 初中英語閱讀理解專項(xiàng)練習(xí)26篇(含答案)
- 誦讀經(jīng)典傳承文明課件
- 高中數(shù)學(xué)選擇性必修3 教材習(xí)題答案
評(píng)論
0/150
提交評(píng)論