第9章因子分析_第1頁
第9章因子分析_第2頁
第9章因子分析_第3頁
第9章因子分析_第4頁
第9章因子分析_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第9章 因子分析與主成份分析因子分析與因子分析過程因子分析是將多個實測變量轉(zhuǎn)換為少數(shù)幾個不相關(guān)的綜合指標(biāo)的多元統(tǒng)計分析方法。線性綜合指標(biāo)往往是不能直接觀測到的,但它更能反映事物的本質(zhì)。因子分析概念 在各個領(lǐng)域的科學(xué)研究中往往需要對反映事物的多個變量進(jìn)行大量的觀測,收集大量數(shù)據(jù)以便進(jìn)行分析尋找規(guī)律。多變量大樣本無疑會為科學(xué)研究提供豐富的信息,但也在一定程度上增加了數(shù)據(jù)采集的工作量,更重要的是在大多數(shù)情況下,許多變量之間可能存在相關(guān)性而增加了問題分析的復(fù)雜性。由于各變量之間存在一定的相關(guān)關(guān)系,因此有可能用較少的綜合指標(biāo)分別綜合存在于各變量中的各類信息,而綜合指標(biāo)之間彼此不相關(guān),即各指標(biāo)代表的信息不

2、重疊。這樣就可以對綜合指標(biāo)根據(jù)專業(yè)知識和指標(biāo)所反映的獨特含義給予命名。這種分析方法成為因子分析,代表各類信息的綜合指標(biāo)就稱為因子或主成份。根據(jù)因子分析的目的我們知道,綜合指標(biāo)應(yīng)該比原始變量少,但包括的信息量應(yīng)該相對損失較少。原始變量:X1、X2、X3、X4Xm主成份:Z1、Z2、Z3、Z4Zn則各因子與原始變量之間的關(guān)系可以表示成:X1=b11Z1+b12Z2+b13Z3+b1nZn+1X2=b21Z1+b22Z2+b23Z3+b2nZn+2X3=b31Z1+b32Z2+b33Z3+b3nZn+3Xm=bm1Z1+bm2Z2+bm3Z3+bmnZn+n寫成矩陣形式為:X=BZ+E。其值X為原始

3、變量向量,B為公因子負(fù)荷系數(shù)矩陣,Z為公因子向量,E為殘差向量。公因子Z1、Z2、Z3Zn之間彼此不相關(guān),稱為正交模型。因子分析的任務(wù)就是求出公因子負(fù)荷系數(shù)和殘差。如果殘差E的影響很小可以忽略不計,數(shù)學(xué)模型變?yōu)閄=BZ。如果Z中各分量之間彼此不相關(guān),形成特殊形式的因子分析,稱為主成分分析。主成分分析的數(shù)學(xué)模型可以寫成:Z1=11X 1+12X2+13X 3+1mX mZ2=21X 1+22X2+23X 3+2mX mZ3=31X 1+32X2+33X 3+3mX mZn=n1X 1+n2X2+n3X 3+nmX m寫成矩陣形式為:Z=AX。Z為主成份向量,A為主成份變換矩陣,X為原始變量向量。

4、主成份分析的目的是把系數(shù)矩陣A求出。主成份Z1、Z2、Z3在總方差中所占比重依次遞減。從理論上講m=n即有多少原始變量就有多少主成份,但實際上,前面幾個主成份集中了大部分方差,因此取主成份數(shù)目遠(yuǎn)遠(yuǎn)小于原始變量的數(shù)目,但信息損失很小。因子分析的一個重要目的還在于對原始變量進(jìn)行分門別類的綜合評價。如果因子分析結(jié)果保證了因子之間的正交性(不相關(guān))但對因子不易命名,還可以通過對因子模型的旋轉(zhuǎn)變換使公因子負(fù)荷系數(shù)向更大(向1)或更?。ㄏ?)方向變化,使得對公因子的命名和解釋變得更加容易。進(jìn)行正交變換可以保證變換后各因子仍正交,這是比較理想的情況。如果經(jīng)過正交變換后對公因子仍然不易解釋,也可以進(jìn)行斜交旋轉(zhuǎn)

5、?;蛟S可以得到比較容易解釋的結(jié)果。 因 子 分 析使用系統(tǒng)默認(rèn)值進(jìn)行因子分析1 建立數(shù)據(jù)文件現(xiàn)以對12個地區(qū)的5個經(jīng)濟(jì)指標(biāo)的調(diào)查數(shù)據(jù)進(jìn)行因子分析為例,本數(shù)據(jù)是美國洛衫磯標(biāo)準(zhǔn)大城市統(tǒng)計區(qū)中的12個人口調(diào)查區(qū)的五個經(jīng)濟(jì)學(xué)變量的數(shù)據(jù)。數(shù)據(jù)編號data15-01。定義變量及標(biāo)簽:no編號,pop總?cè)丝?,school中等學(xué)校平均校齡,employ總雇員數(shù),services專業(yè)服務(wù)項目,house中等房價。2操作步驟:(1)AnalyzeData ReductionFactor(2)將pop、school、employ、services、house移入Variables框中3 結(jié)果及其說明 表1公因子提取

6、前后的公因子方差表。 Initial 在提取因子(或成分,系統(tǒng)默認(rèn)的是主成分法)之前的各變量的公因子方差。原始變量的公因子方差均為1,五個變量的公因子方差之總和為5。 Extraction各變量的未旋轉(zhuǎn)的公因子方差。說明各變量信息被提取的比例??梢?,五個變量的信息都提取的比較充分。表2各成分的公因子方差表 Components各主成分的序號。 Initial Eigenvalues相關(guān)矩陣或協(xié)方差矩陣的特征值。這些值是用于確定哪些因子(或成分)應(yīng)保留。共有三項:Total各成分的特征值。第一主成分特征值為Total=2.873,第二主成分特征值為Total=1.797。本例只有前兩個因子的特征

7、值大于1。 of Variance各成分所解釋的方差占總方差的百分比。也就是各因子特征值占特征值總和的百分比。Cumulative 從上至下各因子方差占總方差百分比的累積百分比。前兩個因子的特征值之和占總方差的93.4。 Extraction Sums of Squared Loadings 因子提取結(jié)果。未旋轉(zhuǎn)的因子載荷的平方和。給出的是每個因子(或成分)的特征值、說明的方差占總方差的百分比和累計百分比。從初始分析的統(tǒng)計量可以看出按照系統(tǒng)默認(rèn)值給出的分析原則,提取原則是特征值大于1。那么應(yīng)該取前兩個因子(就本次分析來說應(yīng)該稱作主成分)。而前兩個因子已經(jīng)對大多數(shù)數(shù)據(jù)給出了充分的概括,可以看出前

8、兩個成分所解釋的方差占總方差的93.4。因此,最后結(jié)果是確定提取兩個主成分。表3因子矩陣。因為默認(rèn)的提取公因子的方法是主成分法,因此可以稱之為成分矩陣。根據(jù)該表可以寫出兩個主成分表達(dá)式(使用變量名): Component 1=0.581×pop0.767×school0.672×employ0.932×service0.791×houseComponent 2=0.806×pop0.545×school0.726×employ0.104×service0.558×house可以說,用這兩個因子代

9、替五個原始變量,可以概括原始變量所包含信息的93.4。由以上輸出結(jié)果可以認(rèn)為對因子的提取結(jié)果是比較理想的。但是要想對兩個因子命名就感到比較困難,每個因子中各原始變量的系數(shù)沒有明顯的差別。因此為了對因子進(jìn)行命名,可以進(jìn)行旋轉(zhuǎn),使系數(shù)向0和1兩極分化。這就要使用選擇項了。因子分析實例之一(仍然用數(shù)據(jù)編號data15-01)操作步驟:(1)AnalyzeData ReductionFactor(2)將pop、school、employ、services、house移入Variables框中(3)單擊Statistics按紐(4)單擊Extraction按紐(5)單擊Rotation按紐(6)單擊Sc

10、ores按紐(7)單擊Options按紐結(jié)果分析與結(jié)論表1為單變量描述統(tǒng)計量(自左至右)變量標(biāo)簽(顯示變量標(biāo)簽或變量名)。Mean各變量的均值。Std.Deviation各變量的標(biāo)準(zhǔn)差。Analysis計算這些統(tǒng)計量的觀測量數(shù)。表2為原始變量的相關(guān)分析結(jié)果相關(guān)矩陣與相關(guān)矩陣中各相關(guān)系數(shù)對應(yīng)的顯著性概率。其中的“”表明自身相關(guān)的相關(guān)系數(shù)為1,其不相關(guān)的顯著性概率自然為0,因此不再顯示。各主成分的特征值和各主成分所解釋的方差百分比同上例表1和表2;初始因子提取結(jié)果同上例表3。不再解釋。圖5表現(xiàn)各成分特征值的碎石圖分析碎石圖可以看出因子1與因子2,以及因子2與因子3之間的特征值之差值比較大。而因子3

11、、4、5之間的特征值差值均比較小。可以初步得出保留兩個因子將能概括絕大部分信息。表6是初始捉取的因子(主成分)負(fù)荷矩陣。通過這個系數(shù)矩陣可以用各原始變量寫出因子表達(dá)式。各統(tǒng)計量含義見上例3的解釋。這兩個輸出表是相同的,排序有別。但對因子的命名尚感到困難。表 7是旋轉(zhuǎn)后因子(主成分)矩陣。表下方是有關(guān)因子提取與旋轉(zhuǎn)方法的說明:使用主成分法提取因子,使用最大方差法Varimax方法旋轉(zhuǎn),經(jīng)3次迭代收斂。表中給出了旋轉(zhuǎn)后的因子負(fù)荷矩陣,是按系數(shù)由大到小排列的??梢钥闯鼋?jīng)過旋轉(zhuǎn)后負(fù)荷系數(shù)己經(jīng)明顯地向兩極分化了。第一個主成分Component 1 對中等房價House、中等校平均校齡school、專業(yè)服

12、務(wù)項目services有絕對值較大的負(fù)荷系數(shù);第二個因子負(fù)荷系數(shù)絕對值較大的正好是五個原始變量中的另外兩個即總?cè)丝赑op和總雇員數(shù)Employ。根據(jù)這些變量的原始含義可以對兩個因子進(jìn)行命名。第一個因子主要概括了一般的社會福利情況的因子:中等房價、中等學(xué)校校齡和社會服務(wù)項目數(shù)可以命名為福利條件因子。第二個因子主要概括了人的情況,人口數(shù)和就業(yè)人數(shù),可以稱為人口因子。表8為因子轉(zhuǎn)換矩陣。圖9為旋轉(zhuǎn)后的因子(成分)載荷圖,分別以第一主成分和第二主成分值為橫、縱坐標(biāo),按表15-7(旋轉(zhuǎn)后因子矩陣)中數(shù)據(jù)作圖得到主成分圖。從圖中可以看出旋轉(zhuǎn)后各成分的變量更集中了。表10為有關(guān)因子得分的信息。因子得分系數(shù)矩

13、陣。根據(jù)因子得分系數(shù)和原始變量的標(biāo)準(zhǔn)化值可以計算每個觀測量的各因子的得分?jǐn)?shù)。并可以據(jù)此對觀測量進(jìn)行進(jìn)一步的分析(聚類分析)。旋轉(zhuǎn)后的因子(主成分)表達(dá)式可以寫成:式1facl_l=-0.039×employ+0.403×house-0.091×pop+0.392×school+0.229×services 式2fact2_l=0.465×employ-0.098×house+0.484×pop-0.096×school+0.138×services表11是估計回歸因子分?jǐn)?shù)的協(xié)方差矩陣,即因子(兩

14、個主成分)間的相關(guān)矩陣??梢钥闯鲂D(zhuǎn)后Component 1與 Component 2是完全不相關(guān)的。這也是因為正交旋轉(zhuǎn)(Varimax)后因子仍然正交。在數(shù)據(jù)編輯窗中的以新變量的形式保存的因子得分信息。數(shù)據(jù)文件中因子分?jǐn)?shù)變量的命名:FAC1_1是分析1的第一個回歸因子分?jǐn)?shù),F(xiàn)AC2_1標(biāo)簽是分析1的第二個回歸因子分?jǐn)?shù)變量。有了觀測量的因子得分變量的值,我們可以進(jìn)一步對觀測量估計因子得分變量進(jìn)行聚類分析,進(jìn)一步對每個調(diào)查區(qū)進(jìn)行人口與福利方面的分類或分析。因子分析實例之二(仍然用數(shù)據(jù)編號data15-01)利用新變量對12個調(diào)查區(qū)進(jìn)行聚類分析的過程及結(jié)果:聚類要求聚為兩類、三類、四類。然后利用G

15、raph功能作散點圖,比較分為兩類和三類的結(jié)果。操作步驟:(1) AnalyzeClassifyHierarchical Cluster(2) 選擇Fac1_1、fac2_2作為分析變量(3) 選擇no作為標(biāo)識變量(4) 選擇觀測量聚類(cases)(5) Statistics:Range of solutions(From 2 throug 3 cluster)(6) Method:選擇系統(tǒng)默認(rèn)狀態(tài)(7) Plots:選擇Dangrogram;在Icicle指定 All cluster;選擇Vertical(8) Save: Range of solutions(From 2 throug

16、3 cluster)(9)GraphsSactterSimple將Fac1_1、fac2_2選入X軸與Y軸;選擇no作為標(biāo)識變量;分別選擇clu2_1、clu3_1、clu4_1作為標(biāo)出類別號變量(Set Markers by)部分結(jié)果解釋:(1)從圖1可以看出如果將調(diào)查區(qū)分為兩類,第2、3、7區(qū)類號為2的,是福利因素和人口因素均比較低的,其余調(diào)查區(qū)的這兩個因素水平比較高??梢哉J(rèn)為經(jīng)濟(jì)狀況是相對來說比較好的。(2)從圖2可以更細(xì)致地劃分和分析各調(diào)查區(qū)的經(jīng)濟(jì)水平。 類號為2的調(diào)查區(qū)有編號為2、3、7三個地區(qū),在圖的左下角,是兩個因子得分均比較低的,可以認(rèn)為從五個經(jīng)濟(jì)指標(biāo)來看均較差的地區(qū)。 類號為3的調(diào)查區(qū)Facl_1比較低,即福利因子得分較低;而Fac2_1比較高即人口因子得分較高說明總?cè)丝诙啵蜆I(yè)人數(shù)多。但反映福利的學(xué)校、服務(wù)項目、中等房價均比較低。這樣的地區(qū)有6

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論