因子分析在STATA中實(shí)現(xiàn)和案例_第1頁(yè)
因子分析在STATA中實(shí)現(xiàn)和案例_第2頁(yè)
因子分析在STATA中實(shí)現(xiàn)和案例_第3頁(yè)
因子分析在STATA中實(shí)現(xiàn)和案例_第4頁(yè)
因子分析在STATA中實(shí)現(xiàn)和案例_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第13章因子分析因子分析始于1904年CharsSpearman對(duì)學(xué)生成績(jī)的分析,在經(jīng)濟(jì)領(lǐng)域有著極為廣泛的用途。在多個(gè)變量的變化過(guò)程中,除了一些特定因素之外,還受到一些共同因素的影響。因此,每個(gè)變量可以拆分成兩部分,一是共同因素,二是特殊因素。這些共同因素稱為公因子,特殊因素稱為特殊因子。因子分析即是提出多個(gè)變量的公共影響因子的一種多元統(tǒng)計(jì)方法,它是主成分分析的推廣。因子分析主要解決兩類問(wèn)題:一是尋求基本結(jié)構(gòu),簡(jiǎn)化觀察系統(tǒng)。給定一組變量或觀察數(shù)據(jù),是否存在一個(gè)子集,特別是一個(gè)加權(quán)子集,來(lái)解釋整個(gè)問(wèn)題,即將為數(shù)眾多的變量減少為幾個(gè)新的因子,以再現(xiàn)它們之間的內(nèi)在聯(lián)系。二是用于分類,將變量或樣本進(jìn)行分類,根據(jù)因子得分值,在因子軸所構(gòu)成的空間中進(jìn)行分類處理。p個(gè)變量X的因子模型表達(dá)式為:X=fN+ef稱為公因子,A稱為因子載荷。乂的相關(guān)系數(shù)矩陣分解為:£=AOA'+中對(duì)于未旋轉(zhuǎn)的因子,①二1。中稱為特殊度,即每個(gè)變量中不屬于共性的部分。13.1因子估計(jì)Stata可以通過(guò)變量進(jìn)行因子分析,也可以通過(guò)矩陣進(jìn)行。命令為factor或factormat。webusebg2,cleardescribefactorbg2cost1-bg2cost6factorbg2cost1-bg2cost6,factors(2)pf主因子方法,用復(fù)相關(guān)系數(shù)的平方作為因子載荷的估計(jì)量(默認(rèn)選項(xiàng))factorbg2cost1-bg2cost6,factors(2)pcfpcf主成分因子,假定共同度=1factorbg2cost1-bg2cost6,factors(2)ipfipf迭代主因子,重復(fù)估計(jì)共同度f(wàn)actorbg2cost1-bg2cost6,factors(2)mlml極大似然因子,假定變量(至少3個(gè))服從多元正態(tài)分布,對(duì)偏相關(guān)矩陣的行列式進(jìn)行最優(yōu)化求解,等價(jià)于Rao的典型因子方法13.2預(yù)測(cè)Stata可以通過(guò)predict預(yù)測(cè)變量得分、擬合值和殘差等。webusebg2,clearfactorbg2cost1-bg2cost6predictf1f2factor1factor2因子分得分predictstdpresiduals*預(yù)測(cè)標(biāo)準(zhǔn)差和殘差13.3EstatEatat給出了幾個(gè)非常有用的工具,包括KMO、SMC等指標(biāo)。webusebg2,clearfactorbg2cost1-bg2cost6estatantiestatkmoestatresidualsestatsmcestatsummarize13.4因子旋轉(zhuǎn)與作圖因子分析的旋轉(zhuǎn)方法以及碎石圖、得分圖、因子載荷圖與主成分分析的方法相同,請(qǐng)參見”主成分分析”一章。webusebg2,clearfactorbg2cost1-bg2cost6screeplot/*碎石圖*/scoreplot /*得分圖*/例:利用2009年的數(shù)據(jù)對(duì)中國(guó)社會(huì)發(fā)展?fàn)顩r進(jìn)行綜合考察,原始數(shù)據(jù)如下表:省份人均GDP(元)新增固定資產(chǎn)(億元)城鎮(zhèn)居民人均年可支配收入(元)農(nóng)村居民家庭人均純收入(元)高等學(xué)校數(shù)(所)衛(wèi)生機(jī)構(gòu)數(shù)(個(gè))areax1x2x3x4x5x6北京630292385.824724.8910661.92856497天津554731676.819422.537910.78552784河北232394734.213441.094795.4610515632山西203981772.613119.054097.24699431內(nèi)蒙古322143309.314432.554656.18397162遼寧312595056.714392.695576.4810414627吉林235143279.912829.454932.74559659黑龍江217272405.411581.284855.59787928上海731242523.226674.911440.26662822江蘇396227645.918679.527356.4714613357浙江422143434.822726.669257.939815290安徽144852849.512990.354202.491047837福建301231768.317961.456196.07814478江西147812962.512866.444697.19828229山東330836852.516305.415641.4312514973河南19593641413231.114454.249411683湖北198603053.413152.864656.3811810305湖南175212478.213821.164512.4611514455廣東375895529.219732.866399.7912515819廣西14966141914146.043690.346810427海南17175230.212607.844389.97162220重慶180251381.914367.554126.21476265四川153782918.712633.384121.219020738貴州882490311758.762796.93455848云南12587155113250.223102.6599249西藏13861137.412481.513175.8261326陜西182462262.812857.893136.46888812甘肅12110575.210969.412723.793910534青海17389322.811640.433061.2491582寧夏17892403.912931.533681.42151629新疆19893 1162.9 11432.1 3502.9 37 6739程序:clear*定義變量的標(biāo)簽labelvararea省份labelvarx1”人均GDP(元)"labelvarx2 ”新增固定資產(chǎn)(億元)"labelvarx3”城鎮(zhèn)居民人均年可支配收入(元)”labelvarx4”農(nóng)村居民家庭人均純收入(元)"labelvarx5 ”高等學(xué)校數(shù)(所)"labelvarx6 ”衛(wèi)生機(jī)構(gòu)數(shù)(個(gè))"describefactorx1-x6screeplot/*碎石圖(特征值等于1處的水平線標(biāo)示保留主成分的分界點(diǎn))*/*檢驗(yàn)estatkmo/*KMO檢驗(yàn),越高越好*/estatsmc/*SMC檢驗(yàn),值越高越好*/rotate/*旋轉(zhuǎn)*/loadingplot,yline(0)xline(0)/*載荷圖*/*預(yù)測(cè)predictscorefitresidualq/*預(yù)測(cè)變量得分、擬合值和殘差以及殘差的平方和*/predictf1f2labelvarf1收入因子labelvarf2”投資、社會(huì)因子”listareaf1f2summarizef1f2correlatef1f2scoreplot,xtitle("收入因子")ytitle("投資、社會(huì)因子")///mlabel(area)yline(0)xline(0)/*得分圖*/分析:首先通過(guò)主因子分析(factor),得到主成分因子:Factoranalysis/correlationMethod:principalfactorsFactoranalysis/correlationMethod:principalfactorsRotation:(unrotated)Numberofobs= 31Retainedfactors= 3Numberofparams= 15Factor|_ +EigenvalueDifferenceProportionCumulativeFactor1|3.281931.425440.65540.6554Factor2|1.856481.816770.37071.0261Factor3|0.039710.062440.00791.0341Factor4|-0.022720.03972-0.00451.0295Factor5|-0.062440.02293-0.01251.0170Factor6|-0.08538.-0.01701.0000LRtest:independentvs.saturated:chi2(15)=211.52Prob>chi2=0.0000Factorloadings(patternmatrix)anduniquevariancesVariable|Factor1Factor2Factor3|Uniqueness + + x1_s|0.8609-0.4463-0.1125|0.0469x2_s|0.62740.6026-0.1061|0.2320x3_s|0.8800-0.39310.0998|0.0611x4_s|0.9120-0.36580.0365|0.0332x5_s|0.65080.65260.0349|0.1494x6_s|0.34270.76160.0572|0.2993從上面的分析可以看出,只有兩個(gè)成分大于1大于的特征值,同時(shí)兩個(gè)成分解釋了全部六個(gè)變量組合的方差還多。不重要的第2到6個(gè)主成分在隨后的分析中可以放心地省略去。運(yùn)行factor命令后,我們可以接著運(yùn)行screeplot命令畫出碎石圖。碎石圖中特征值等于1處的水平線標(biāo)示了保留主成分的常用分界點(diǎn),同時(shí)再次強(qiáng)調(diào)了本例中的成分3到成分6并不重要。

碎石圖檢驗(yàn)的方法還是跟上一章的主成分分析一樣,由于我們都是選用實(shí)際的數(shù)據(jù)來(lái)進(jìn)行分析,所以在一般情況下,檢驗(yàn)都是通得過(guò)的,可以忽略,覺(jué)得有需要的再進(jìn)行檢驗(yàn)。旋轉(zhuǎn)會(huì)進(jìn)一步簡(jiǎn)化因子結(jié)構(gòu)。在提取因子之后,鍵入rotate命令進(jìn)行旋轉(zhuǎn)。Numberofobs= 31Retainedfactors= 3Numberofobs= 31Retainedfactors= 3Numberofparams= 15Method:principalfactorsRotation:orthogonalvarimax(Kaiseroff)Factor|+VarianceDifferenceProportionCumulativeFactor1|2.904890.672140.58010.5801Factor2|2.232762.192280.44591.0260Factor3|0.04047.0.00811.0341LRtest:independentvs.saturated:chi2(15)=211.52Prob>chi2=0.0000

Rotatedfactorloadings(patternmatrix)anduniquevariancesVariable|Factor1Factor2Factor3|Uniqueness + + X1|0.96590.06010.1284|0.0469x2|0.22690.83990.1052|0.2320x3|0.95850.1143-0.0844|0.0611x4|0.97080.1546-0.0211|0.0332x5|0.22360.8940-0.0362|0.1494x6|-0.09620.8291-0.0635|0.2993Factorrotationmatrix|Factor1Factor2Factor3 + Factor1|0.8578Factor2|-0.5137Factor3|0.0168 0.5138 0.01150.8579-0.0135-0.0056-0.9998結(jié)合實(shí)際情況,我們通過(guò)上面的分析整理出前兩個(gè)主因子的正交因子表。表:正交因子表因子 FactorFactor指標(biāo)12x10.96590.0601x20.22690.8399x30.95850.1143x40.97080.1546x50.22360.8940x6-0.09620.8291根據(jù)上表將六個(gè)指標(biāo)按高載荷分成兩類,并結(jié)合專業(yè)知識(shí)對(duì)各因子命名,如下表:表:高載荷分類高載荷指標(biāo)因子命名1人均GDP城鎮(zhèn)居民人均年可支配收入農(nóng)村居民家庭人均純收入收入因子

高等學(xué)校數(shù)投資、社會(huì)因子衛(wèi)生機(jī)構(gòu)數(shù)投資、社會(huì)因子新增固定資產(chǎn)接著進(jìn)行一個(gè)后續(xù)因子分析的制圖命令loadingplote有助于將其可視化。從圖中我們就可以直觀的看出在主因子1中x1、x3、x4明顯取得較大值,而對(duì)于主因子2則是x2、x5、x6取得較大的值。載荷圖x2Factorloadingsx2x6x4x〔..5Factor1Rotation:orthogonalvarimaxMethod:principalfactors因子分是通過(guò)將每個(gè)變量標(biāo)準(zhǔn)化為平均數(shù)等于0和方差等于1,然后以因子分系數(shù)進(jìn)行加權(quán)合計(jì)為每個(gè)因子構(gòu)成的線性組合?;谧罱膔otate或factor結(jié)果,predict會(huì)自動(dòng)進(jìn)行這些計(jì)算。通過(guò)命令predictf1f2,我們得到了各個(gè)觀察變量的主因子1、主因子2的得分情況。.listareaflf2+--- ---+16. |河南-.4744598--1.084772|areaf1f2|17.|湖北-.4194019.7986803| --|18.|湖南-.4611212.86095271.|北京2.561218-.3716789|19.|廣東.64253421.334332.|天津1.557873-.9623399|20.|廣西-.5491737-.12889663.|河北-.33086411.11135|| ---|4.|山西-.4196471-.1267554|21.|海南-.2889173-1.390155.|內(nèi)蒙古.0597282-.493462|22.|重慶-.3183038-.6323313| --|23.|四川-.652319.91087856.|遼寧.05891541.03599|24.|貴州-.9411649-.66184327.|吉林-.1869884-.0693724|25.|云南-.7608307-.25863838.|黑龍江-.3388027.0518705|| ---|9.|上海3.102133-.8749663|26.|西藏-.6072451-1.56923110.|江蘇.77138721.864629|27.|陜西-.7326311.1913275| --|28.|甘肅-.9497479-.598777711.|浙江1.640963.5580102|29.|青海-.6269016-1.5044412.|安徽-.5925296.5026094|30.|寧夏-.4114082-1.42228613.|福建.5376554-.3128498|| ---|14.|江西-.445243.2467043|31.|新疆-.5836563-.762833815.|山東.15895031.588749|+----—----+.summarizeflf2Variable| + ObsMeanStd.Dev.MinMaxf1|31-4.09e-09.988557-.94974793.102133f2|319.13e-09.9464783-1.5692311.864629在這些因子分之間是存在著才目關(guān),在默認(rèn)選項(xiàng)中,promax旋轉(zhuǎn)允許因子分之間存在才目關(guān)。通過(guò)運(yùn)行命令correlatef1f2可得。從運(yùn)行出來(lái)的結(jié)果看到,兩個(gè)因子分相關(guān)關(guān)系是很小的。.correlatef1f2(obs=31)|f1f2---+ f1| 1.0000f2| 0.0158 1.0000另一個(gè)后因子分析制圖命令,scoreplot可繪出這些觀測(cè)案例的因子分的散點(diǎn)蛙口不精口口圖。在本例的得分圖中,我們可以看到,上海、北京、浙江、天津這些城市的主因子1的得分相對(duì)于其他城市高,因?yàn)橹饕蜃?是收入因子,這些城市的收入在全國(guó)是排在前列的。而我們可以看到北京、上海的在主因子2(即投資、社會(huì)因子)的得分是較低,這是因?yàn)檫@兩個(gè)城市的經(jīng)濟(jì)總量相對(duì)較小。在江蘇、山東、廣東這些經(jīng)濟(jì)總量名列前茅的省份,它們的主因子2的得分也是相應(yīng)位于其他城市前面。得分圖Scorevariables(factor)1o子因會(huì)社、資投1o子因會(huì)社、資投-1收入因子-1收入因子Rotation:orthogonalvarimaxMethod:principalfactorsRotation:orthogonalvarimaxMethod:principalfactors練習(xí):將上一章的主成分分析的例子的數(shù)據(jù)進(jìn)行因子分析。

GDP居民消費(fèi)固定資職工平貨物周轉(zhuǎn)量居民消費(fèi)價(jià)格商品零售價(jià)格工業(yè)總省份產(chǎn)投資均工資指數(shù)產(chǎn)值(億元)水平(億噸公指數(shù)(上(億元)(元)(上年(億元)(元)里)年100)100)areax1x2x3x4x5x6x7x8北京10488.03203463814.756328758.9105.1104.410413天津6354.38140003389.8417482703.4105.4105.112503河北16188.6165708866.6247565925.5106.2106.723031山西6938.7361873531.2258282562.2107.2107.210024內(nèi)蒙古7761.881085475.4261143658.7105.7104.78740.2遼寧13461.57962510019.1277297033.9104.6105.324769吉林6424.0675915038.9234861157.8105.1106.28406.9黑龍江831070393656230461690.9105.6105.87624.5上海1369815656516029.8105.8105.325121江蘇30312.611101315300.6316674300.9105.4104.967799浙江21486.92138939323341464974.9105106.340832安徽8874.1763776747263635843.2106.2106.31116

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論