SAS講義 第三十六課因子分析_第1頁(yè)
SAS講義 第三十六課因子分析_第2頁(yè)
SAS講義 第三十六課因子分析_第3頁(yè)
SAS講義 第三十六課因子分析_第4頁(yè)
SAS講義 第三十六課因子分析_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、7013034.doc第三十六課 因子分析因子分析(Factor Analysis)是主成分分析的推廣,它也是從研究相關(guān)矩陣內(nèi)部的依賴關(guān)系出發(fā),把一些具有錯(cuò)綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個(gè)綜合因子的一種多變量統(tǒng)計(jì)分析方法。具體地說(shuō),就是要找出某個(gè)問(wèn)題中可直接測(cè)量的、具有一定相關(guān)性的諸指標(biāo),如何受少數(shù)幾個(gè)在專業(yè)中有意義,又不可直接測(cè)量到,且相對(duì)對(duì)立的因子支配的規(guī)律,從而可用諸指標(biāo)的測(cè)定來(lái)間接確定諸因子的狀態(tài)。一、 何為因子分析因子分析的目的是用有限個(gè)不可觀察的潛在變量來(lái)解釋原變量間的相關(guān)性或協(xié)方差關(guān)系。在這里我們把不可觀察的潛在變量稱為公共因子(common factor)。在研究樣品時(shí),每個(gè)樣品

2、需要檢測(cè)很多指標(biāo),假設(shè)測(cè)得p個(gè)指標(biāo),但是這p個(gè)指標(biāo)可能受到m(m<p)個(gè)共同因素的影響,再加上其他對(duì)這些指標(biāo)有影響的因素。寫(xiě)成數(shù)學(xué)的形式就是:ìX1=a11f1+a12f2+L+ a1mfm +e1ïïX2=a21f1+a22f2+L+a2mfm+e2 íLLïïîXp=ap1f1+ap2f2+L+apmfm+ep利用矩陣記號(hào)有p´1(36.1) X=Af+e P´mm´1p´1(36.2)各個(gè)指標(biāo)變量都受到fi的影響,因此fi稱為公共因子,A稱為因子載荷矩陣,ei是單變量。設(shè)f

3、1,f2,fm分別是均值為Xi所特有的因子,稱為Xi的特殊因子(unique factor)0,方差為1的隨機(jī)變量,即D(f)=Im;特殊因子e1,e2,ep分別是均值為0,方差2222為d12,d2,dp的隨機(jī)變量,即D(e)=diag(d12,d2,L,dp)=D;各特殊因子之間及特殊因子與公共因子之間都是相互獨(dú)立的,即Cov(ei,ej)=0,i¹j及Cov(e,f)=0。錯(cuò)誤!未定義書(shū)簽。是第j個(gè)變量在第i個(gè)公共因子上的負(fù)荷,從投影的角度看,aji就是Xj在坐標(biāo)軸fi上的投影。主成份分析的目標(biāo)是降維,而因子分析的目標(biāo)是找出公共因素及特有的因素,即公共因子與特殊因子。在主成份分

4、析中,殘差通常是彼此相關(guān)的。在公因子分析中,特殊因子起到殘差的作用,但被定義為彼此不相關(guān)且和公因子也不相關(guān)。而且每個(gè)公因子假定至少對(duì)兩個(gè)變量有貢獻(xiàn),否則它將是一個(gè)特殊因子。在開(kāi)始提取公因子時(shí),為了簡(jiǎn)便還假定公因子彼此不相關(guān)且具有單位方差。在這種情況下,向量X的協(xié)方差矩陣可以表為S=D(X)=D(Af+e)=AA¢+D (36.3)22),diag表示對(duì)角矩陣。這里D=diag(d12,d2如果假定已將錯(cuò)誤!未定義書(shū)簽。標(biāo)準(zhǔn)化,,L,dp7013034.doc也就是說(shuō)錯(cuò)誤!未定義書(shū)簽。的每一個(gè)分量Xi的均值都為0,方差都是1,即D(Xi)=1,那么ìXi=ai1f1+ai2f

5、2+L+aimfm+eiïm í1=Var(X)=a2+d2åiijiïj=1î記h=2i2aåij,則有j=1m(36.4)1=hi2+di2,i=1,2,L,p (36.5)錯(cuò)誤!未定義書(shū)簽。反映了公共因子f對(duì)Xi的影響,稱為公共因子f對(duì)Xi的“貢獻(xiàn)”。hi2實(shí)際反映了變量Xi對(duì)公共因子f的依賴程度。另一方面,還可以考慮指定的一個(gè)公共因子fj對(duì)各個(gè)變量Xi的影響。實(shí)際上,fj對(duì)各個(gè)變量Xi的影響可由A中第j列的元素來(lái)描述,那么2 g=åaij2ji=1p(36.6)2X稱為公共因子fj對(duì)X的“貢獻(xiàn)”。顯然g2越大,對(duì)的影

6、響就越大,fgjjj成為衡量因子重要性的一個(gè)尺度。實(shí)際上Cov(Xi,fj)=åaikCov(fk,fj)+Cov(ei,fj)=aijk=1m(36.7)那么矩陣A的統(tǒng)計(jì)意義就非常清楚:l 錯(cuò)誤!未定義書(shū)簽。是Xi和fj的相關(guān)系數(shù);l 錯(cuò)誤!未定義書(shū)簽。是Xi對(duì)公共因子f的依賴程度; l 錯(cuò)誤!未定義書(shū)簽。是公共因子fj對(duì)X的各個(gè)分量總的影響。 下面我們來(lái)看怎樣求解因子載荷矩陣A。二、 因子載荷矩陣的求解如果已知X協(xié)方差矩陣S和D,可以很容易地求出A。根據(jù)(36.3)有S-D=AA¢*(36.8) 記S*=S-D,則S*是非負(fù)定矩陣。若記矩陣S的p個(gè)特征值l1l2 lm

7、>lm+17013034.doc= =lp= 0,且m個(gè)非零特征值所對(duì)應(yīng)的特征向量分別為g1,g2,gm,則S*的譜¢+l2g2g2¢+L+lmgmgm¢S*=l1g1g1 =分解式為11,22,L,mmA=11,22,L,mm)¢(36.9)只要令l1g1,2g2,L,lmgm)(36.10)就可以求出因子載荷矩陣A。但在實(shí)際問(wèn)題中,我們并不知道S、D,即不知道S*,已知的只是n個(gè)樣品,每個(gè)樣品測(cè)得p個(gè)指標(biāo),共有np個(gè)數(shù)據(jù),樣品數(shù)據(jù)見(jiàn)表6.1所示。為了建立公因子模型,首先要估計(jì)因子載荷錯(cuò)誤!未定義書(shū)簽。和特殊因子方差di2。常用的參數(shù)估計(jì)方法有以

8、下三種:主成份法、主因子解法和極大似然法。1. 主成份法主成份法求因子載荷矩陣A的具體求法如下:首先從資料矩陣出發(fā)求出樣品的協(xié)方差矩,其特征值為l³l³L³l³0,相應(yīng)單位正交特征向量為g,g,L,g,陣,記之為S12p12p進(jìn)行譜分解可以近似為 當(dāng)最后p-m個(gè)特征值較小時(shí),則對(duì)S=l1g1g1¢+l2g2g2¢+L+lmgmgm¢+D S相應(yīng)的前m個(gè)較大特征值。先取a=其中l(wèi)1l2 lm> 0是協(xié)方差矩陣S1(36.11)l1g1,然-aa¢是否接近對(duì)角陣。如果接近對(duì)角陣,說(shuō)明公共因子只要取一個(gè)就行了,所有

9、指后看S11-aa¢不是近似對(duì)角陣,就取a=標(biāo)主要受到這一個(gè)公共因子的影響;如果S1122g2,然后-aa¢-aa¢是否接近對(duì)角陣,如果接近對(duì)角陣,就取兩個(gè)公共因子;否則再取看S1122a3=3g3,直到滿足“要求”為止。這里的“要求”要視具體情況而定,一般而言,就象主成分分析一樣,直接取前q個(gè)特征值和特征向量,使得它們的特征值之和占全部特征-åa2,i=1,2,L,p。 值之和的85以上即可。此時(shí),特殊因子方差d=Siiti2it=1q2. 主因子解法主因子解法是主成份法的一種修正,它是從資料矩陣出發(fā)求出樣品的相關(guān)矩陣R,設(shè)*)2,也就是已R=AA&#

10、162;+D,則R-D=AA¢。如果我們已知特殊因子方差的初始估計(jì)(di*)2=1-(d*)2,則約相關(guān)陣R=R-D為 知了先驗(yàn)公因子方差的估計(jì)為(hii*7013034.doc*)2é(hr12Lr1pù1êú*2êr21(h2)Lr2pú*R=êúêLLLLLLLLLúê*)2úrrL(hêp1úp2pëû*(36.12)*計(jì)算R的特征值和特征向量,取前m個(gè)正特征值l1³l*2³L³lm

11、79;0及相應(yīng)特征向量為*,則有近似分解式 g1*,g2,L,gmR*=AA¢(36.13)2i=1-其中A=(lg,lg,L,lg),令d*1*1*2*2*m*måat=1m2ti,i=1,2,L,p,則A和2,d2,L,d2)為因子模型的一個(gè)解,這個(gè)解就稱為主因子解。 D*=diag(d12p*)2,那么特殊因子方差的初始上面的計(jì)算是我們假設(shè)已知特殊因子方差的初始估計(jì)(di估計(jì)值如何得到呢?由于在實(shí)際中特殊因子方差di2(或公因子方差hi2)是未知的。以上得到的解是近似解。為了得到近似程度更好的解,常常采用迭代主因子法。即利用上面得到的2,d2,L,d2)作為特殊方差的

12、初始估計(jì),重復(fù)上述步驟,直到解穩(wěn)定為止。 D*=diag(d12p公因子方差(或稱變量的共同度)常用的初始估計(jì)有下面三種方法:l hi2取為第i個(gè)變量與其他所有變量的多重相關(guān)系數(shù)的平方(或者取di2=1/rii,其中r是相關(guān)矩陣R的可逆矩陣Rii-1的對(duì)角元素,則hi2=1-di2);l hi2取為第i個(gè)變量與其他所有變量相關(guān)系數(shù)絕對(duì)值的最大值; l 取hi2=1,它等價(jià)于主成份解。3. 極大似然法假定公共因子f和特殊因子e服從正態(tài)分布,那么我們可得到因子載荷陣和特殊方差的極大似然估計(jì)。設(shè)p維的n個(gè)觀察向量x(1),x(2),L,x(n)為來(lái)自正態(tài)總體Np(m,S)的隨機(jī)樣本,則樣本似然函數(shù)為

13、m和S的函數(shù)L(m,S)。設(shè)S=AA¢+D,取m=,對(duì)于一組確定的隨機(jī)樣本,m已經(jīng)變成了確定已知的值,則似然函數(shù)L(m,S)可以轉(zhuǎn)換為A和D的函數(shù)j(A,D)。接下來(lái)就可以求A和D取什么值,函數(shù)j(A,D)能達(dá)到最大。為了保證得到唯一解,可以附加唯一性條件A¢DA=對(duì)角陣,再用迭代方法可求得極大似然估計(jì)的A和D的-17013034.doc值。三、 因子旋轉(zhuǎn)因子模型被估計(jì)后,還必須對(duì)得到的公因子f進(jìn)行解釋。進(jìn)行解釋通常意味著對(duì)每個(gè)公共因子給出一種意義明確的名稱,它用來(lái)反映在預(yù)測(cè)每個(gè)可觀察變量中這個(gè)公因子的重要性,這個(gè)公因子的重要程度就是在因子模型矩陣中相應(yīng)于這個(gè)因子的系數(shù),顯

14、然這個(gè)因子的系數(shù)絕對(duì)值越大越重要,而接近0則表示對(duì)可觀察變量沒(méi)有什么影響。因子解釋是一種主觀的方法,有時(shí)侯,通過(guò)旋轉(zhuǎn)公因子可以減少這種主觀性,也就是要使用非奇異的線性變換。設(shè)p維可觀察變量X滿足因子模型X=Af+e。設(shè)錯(cuò)誤!未定義書(shū)簽。是任一正交陣,則因子模型可改寫(xiě)為X=AGG¢f+e=A*f*+e*其中,A=AG,f=G¢f。 *(36.14)根據(jù)我們前面假定:每個(gè)公因子的均值為0,即E(f)=0,每個(gè)公因子的方差為1,即D(f)=I,各特殊因子之間及特殊因子與公共因子之間都是相互獨(dú)立的,即Cov(ei,ej)=0,i¹j及Cov(e,f)=0。可以證明E(f*

15、)=E(G¢f)=G¢E(f)=0D(f*)=D(G¢f)=G¢D(f)G=G¢IG=ICov(e,f*)=Cov(e,G¢f)=G¢Cov(e,f)=0D(X)=D(A*f*+e)=D(A*f*)+D(e)=A*(A*)¢+D (36.15) (36.16) (36.17) (36.18)*因此,X=AA¢+D=A(A)¢+D。這說(shuō)明,若A和D是一個(gè)因子解,任給正交陣錯(cuò)誤!未定義書(shū)簽。,A=AG和D也是因子解。由于正交陣錯(cuò)誤!未定義書(shū)簽。是任給的,所以因子解不是唯一的。在實(shí)際工作中,為了使載荷

16、矩陣有更好的實(shí)際意義,在求出因子載荷矩陣A后,再右乘一個(gè)正交陣G,這樣就變換了因子載荷矩陣,這種方法稱為因子軸的正交旋轉(zhuǎn)。我們知道,一個(gè)所有系數(shù)接近0或±1的旋轉(zhuǎn)模型矩陣比系數(shù)多數(shù)為0與±1之間的模型容易解釋。因此,大多數(shù)旋轉(zhuǎn)方法都是試圖最優(yōu)化模型矩陣的函數(shù)。在初始因子提取后,這些公因子是互不相關(guān)的。如果這些因子用正交變換(orthogonal transformation)進(jìn)行旋轉(zhuǎn),旋轉(zhuǎn)后的因子也是不相關(guān)的。如果因子用斜交變換(oblique transformation)進(jìn)行旋轉(zhuǎn),則旋轉(zhuǎn)后的因子變?yōu)橄嚓P(guān)的。但斜交旋轉(zhuǎn)常常產(chǎn)生比正交旋轉(zhuǎn)更有用的模型。旋轉(zhuǎn)一組因子并不能改變

17、這些因子的統(tǒng)計(jì)解釋能力。如果兩種旋轉(zhuǎn)模型導(dǎo)出不同的解釋,*7013034.doc這兩種解釋不能認(rèn)為是矛盾的。倒不如說(shuō),是看待相同事物的兩種不同方法。從統(tǒng)計(jì)觀點(diǎn)看,不能說(shuō)一些旋轉(zhuǎn)比另一些旋轉(zhuǎn)好。在統(tǒng)計(jì)意義上,所有旋轉(zhuǎn)都是一樣的。因此在不同的旋轉(zhuǎn)之間進(jìn)行選擇必須根據(jù)非統(tǒng)計(jì)觀點(diǎn)。在多數(shù)應(yīng)用中,我們選擇最容易解釋的旋轉(zhuǎn)模型。四、 應(yīng)注意的幾個(gè)問(wèn)題l 因子分析是主成分分析的推廣,它也是一種降維技術(shù),其目的是用有限個(gè)不可觀測(cè)的隱變量來(lái)解釋原始變量之間的相關(guān)關(guān)系。l 因子模型在形式上與線性回歸模型很相似,但兩者有著本質(zhì)的區(qū)別:回歸模型中的自變量是可觀測(cè)到的,而因子模型中的各公因子是不可觀測(cè)的隱變量。而且,兩

18、個(gè)模型的參數(shù)意義很不相同。l 因子載荷矩陣不是唯一的,利用這一點(diǎn)通過(guò)因子的旋轉(zhuǎn),可以使得旋轉(zhuǎn)后的因子有更鮮明的實(shí)際意義。l 因子載荷矩陣的元素及一些元素組合有很明確的統(tǒng)計(jì)意義。l 因子模型中常用的參數(shù)估計(jì)方法主要有:主成分法,主因子法和極大似然法。 l 在實(shí)際應(yīng)用中,常從相關(guān)矩陣R出發(fā)進(jìn)行因子模型分析。常用的因子得分估計(jì)方法有:巴特萊特因子得分和湯姆森因子得分兩種方法。五、 Factor因子分析過(guò)程因子分析用少數(shù)起根本作用、相互獨(dú)立、易于解釋通常又是不可觀察的因子來(lái)概括和描述數(shù)據(jù),表達(dá)一組相互關(guān)聯(lián)的變量。通常情況下,這些相關(guān)因素并不能直觀觀測(cè),這類分析通常需用因子分析完成。factor過(guò)程一般

19、由下列語(yǔ)句控制:proc factor data=數(shù)據(jù)集 <選項(xiàng)列表> ;priors 公因子方差 ;var 變量表 ;partial 變量表 ;freq 變量 ;weight 變量 ;by 變量 ; run ;1. proc factor語(yǔ)句的<選項(xiàng)列表>。1) 有關(guān)輸出數(shù)據(jù)集選項(xiàng)。l out= 輸出數(shù)據(jù)集創(chuàng)建一個(gè)輸出數(shù)據(jù)集,包括輸入數(shù)據(jù)集中的全部數(shù)據(jù)和因子得分估計(jì)。l outstat= 輸出數(shù)據(jù)集用于存儲(chǔ)因子分析的結(jié)果。這個(gè)結(jié)果中的部分內(nèi)容可作為進(jìn)一步因子分析的讀入數(shù)據(jù)集。2) 有關(guān)因子提取和公因子方差選項(xiàng)。l method= 因子選擇方法包括principal(主

20、成份法),prinit(迭代主因子法),usl(沒(méi)有加權(quán)的最小二乘因子法),alpha(a因子法或稱harris法),ml(極大似然法),image(映象協(xié)方差陣的主成份法),pattern(從type=選項(xiàng)的數(shù)據(jù)集中讀入因子模型)、score7013034.doc(從type=選項(xiàng)的數(shù)據(jù)集中讀入得分系數(shù))。常用方法為principal(主成份法)、ml(極大似然法)和prinit(迭代主因子法)。l heywood公因子方差大于1時(shí)令其為1,并允許迭代繼續(xù)執(zhí)行下去。因?yàn)楣蜃臃讲钍窍嚓P(guān)系數(shù)的平方,我們要求它總是在0和1之間。這是公因子模型的數(shù)學(xué)性質(zhì)決定的。盡管如此,但在最終的公因子方差的迭代

21、估計(jì)時(shí)有可能超過(guò)1。如果公因子方差等于1,這種狀況稱為Heywood狀況,如果公因子方差大于1,這種狀況稱為超-Heywood狀況。在超-Heywood狀況時(shí),因子解是無(wú)效的。l priors =公因子方差的計(jì)算方法名規(guī)定計(jì)算先驗(yàn)公因子方差估計(jì)的方法,即給各變量的公因子方差hi2賦初值,包括one(等于1.0),max (最大絕對(duì)相關(guān)系數(shù) ),smc(多元相關(guān)系數(shù)的平方),asmc (與多元相關(guān)系數(shù)的平方成比例,但要適當(dāng)調(diào)整使它們的和等于最大絕對(duì)相關(guān)),input (從data=指定的數(shù)據(jù)集中,按type=指定類型讀入第一個(gè)觀察中的先驗(yàn)公因子方差估計(jì)),random(0與1之間的隨機(jī)數(shù))。3)

22、 有關(guān)規(guī)定因子個(gè)數(shù)及收斂準(zhǔn)則的選項(xiàng)。l nfactors=n要求保留n個(gè)公因子,否則只保留特征值大于1的那些公因子。 l mineigen=p規(guī)定被保留因子的最小特征值。l proportion=p使用先驗(yàn)公因子方差估計(jì),對(duì)被保留的因子規(guī)定所占公共方差比例為這個(gè)p值。l converge=p當(dāng)公因子方差的最大改變小于p時(shí)停止迭代。缺省值=0.001。 l maxiter=n規(guī)定迭代的最大數(shù)。缺省值為30。4) 有關(guān)旋轉(zhuǎn)方法的選項(xiàng)。l rotate因子轉(zhuǎn)軸方式名給出旋轉(zhuǎn)方法。包括none,varimax,quartimax,equamax,orthomax,hk,promax,procruste

23、s。常用的有varimax(正交的最大方差轉(zhuǎn)軸法)、orthomax(由gamma=指定權(quán)數(shù)的正交方差最大轉(zhuǎn)軸法)和promax(在正交最大方差轉(zhuǎn)軸的基礎(chǔ)上進(jìn)行斜交旋轉(zhuǎn))。l normkaiser | raw | weight | cov | none為了對(duì)因子模型進(jìn)行旋轉(zhuǎn),規(guī)定模型矩陣中行的正規(guī)化方法。例如,norm=kaiser表示使用Kaiser的正規(guī)化方法。norm=weight表示使用Cureton-Mulaik方法進(jìn)行加權(quán)。norm=cov表示模型矩陣的這些行被重新標(biāo)度為表示協(xié)方差而不是相關(guān)系數(shù)。norm=raw或none表示不進(jìn)行正規(guī)化。l gamma=p規(guī)定正交方差最大旋轉(zhuǎn)的權(quán)

24、數(shù)。l prerotate因子轉(zhuǎn)軸方式名規(guī)定預(yù)先旋轉(zhuǎn)的方法。除了promax和procrustes的旋轉(zhuǎn)方法,任何其他的旋轉(zhuǎn)方法都可使用。5) 有關(guān)控制打印輸出的選項(xiàng)。l simple打印輸出包括簡(jiǎn)單統(tǒng)計(jì)數(shù)。l corr打印輸出相關(guān)陣和偏相關(guān)陣。l score打印因子得分模型中的系數(shù)。l scree打印特征值的屏幕圖。l ev打印輸出特征向量。l residuals打印殘差相關(guān)陣和有關(guān)的偏相關(guān)陣。l nplot=n規(guī)定被作圖的因子個(gè)數(shù)。l plot在旋轉(zhuǎn)之后畫(huà)因子模型圖。l preplot在旋轉(zhuǎn)之前畫(huà)因子模型圖。l msa打印被所有其余變量控制的每對(duì)變量間的偏相關(guān),并抽樣適當(dāng)?shù)腒aiser度量

25、。7013034.docl reorder在打印輸出時(shí)讓各種因子矩陣的這些行重新排序。在第一個(gè)因子上具有最大絕對(duì)載荷的變量首先被輸出,然后按最大載荷到最小輸出,緊接著在第二個(gè)因子上輸出具有最大絕對(duì)載荷的變量等等。2. priors語(yǔ)句。為var變量設(shè)定公因子方差,值在0.0和1.0之間。其值的設(shè)定應(yīng)與var語(yǔ)句的變量相對(duì)應(yīng)。例如:proc factor;priors 0.7 0.8 0.9; var x y z;其他語(yǔ)句的使用略。六、 Factor score因子得分過(guò)程無(wú)論是初始因子模型還是旋轉(zhuǎn)后的因子模型,都是將指標(biāo)表示為公因子的線性組合。在因子分析中,還可以將公因子表示為指標(biāo)的線性組合,

26、這樣就可以從指標(biāo)的觀測(cè)值估計(jì)各個(gè)公因子的值,這種值叫因子得分。它對(duì)樣品的分類有實(shí)際意義。因子得分可由proc score過(guò)程完成。score過(guò)程一般由下列語(yǔ)句控制:proc score data=數(shù)據(jù)集 <選項(xiàng)列表> ;var 變量 ; run ;proc score語(yǔ)句選項(xiàng)包括out輸出數(shù)據(jù)集,存儲(chǔ)因子得分結(jié)果等。將factor和score兩個(gè)過(guò)程書(shū)寫(xiě)在同一個(gè)程序中,可以提高分析的效率。七、 實(shí)例分析例36.1 下表36.1給出的數(shù)據(jù)是在洛杉礬十二個(gè)標(biāo)準(zhǔn)大都市居民統(tǒng)計(jì)地區(qū)中進(jìn)行人口調(diào)查獲得的。它有五個(gè)社會(huì)經(jīng)濟(jì)變量,它們分別是人口總數(shù)(pop) 、居民的教育程度或中等教育的年數(shù)(s

27、chool )、雇傭人總數(shù)(employ )、各種服務(wù)行業(yè)的人數(shù)(services )和中等的房?jī)r(jià)(house ),試作因子分析。表36.1 五個(gè)社會(huì)因素調(diào)查數(shù)據(jù)7013034.doc1. 建立數(shù)據(jù)文件。程序如下: data socecon;input pop school employ services house;title 'FIVE SOCIO-ECONOMIC VARIABLES'cards;5700 12.8 2500 270 250001000 10.9 600 10 10000 9400 11.4 4000 100 13000; run;程序運(yùn)行后,生成一個(gè)sc

28、oecon數(shù)據(jù)集。2. 調(diào)用因子分析factor過(guò)程。菜單操作方法,在SAS系統(tǒng)的主菜上,選擇Globals/SAS/Assist 進(jìn)入Assist的主菜單,再選擇data analysis/multivar/factor analysis(因子分析)。編程方法如下: proc factor data=socecon method=prin priors=one simple corr score;run;proc factor data=socecon method=prin priors=smc msa scree residual preplotrotate=promax reorder

29、 plot outstat=fact_all ;run;proc factor data=socecon method=ml heywood nfacotors=1;run;proc factor data=socecon method=ml heywood nfactors=2;run;proc factor data=socecon method=ml heywood nfactors=3; run;程序說(shuō)明:共調(diào)用了5個(gè)factor因子分析過(guò)程。第1個(gè)過(guò)程為主成份因子分析,第2個(gè)過(guò)程為主因子分析,第3個(gè)過(guò)程為提取一個(gè)因子的最大似然分析,第4個(gè)過(guò)程為提取二個(gè)因子的最大似然分析,第5個(gè)過(guò)程為

30、提取三個(gè)因子的最大似然分析。第1個(gè)factor因子分析過(guò)程,由于選項(xiàng)method=prin 和priors=one,提取因子的方法采用主成份分析,先驗(yàn)公因子方差估計(jì)被規(guī)定為1。選項(xiàng)simple和 corr要求輸出描述統(tǒng)計(jì)量和相關(guān)陣。選項(xiàng)score要求輸出因子得分系數(shù)。第2個(gè)factor因子分析過(guò)程, 由于不是priors=one選項(xiàng),所以提取因子的方法采用主因子分析,選項(xiàng)method=prin不起作用。選項(xiàng)priors=smc表示先驗(yàn)公因子方差估計(jì)被規(guī)定為每個(gè)變量與其他變量的多重相關(guān)系數(shù)的平方。選項(xiàng)msa表示控制所有其余變量的偏相關(guān)。選項(xiàng)scree表示輸出所有特征值按從大到小排列的斜坡圖,用于

31、選擇因子個(gè)數(shù)。選項(xiàng)residual輸出殘差相關(guān)陣和有關(guān)的偏相關(guān)陣,得到特殊因子方差的剩余相關(guān)。選項(xiàng)rotate=promax規(guī)定因子模型預(yù)先按正交最大方差的旋轉(zhuǎn),再在正交最大方差轉(zhuǎn)軸的基礎(chǔ)上進(jìn)行斜交的promax旋轉(zhuǎn)。選項(xiàng)preplot表示繪制因子模型旋轉(zhuǎn)前的散點(diǎn)圖。選項(xiàng)plot表示繪制因子模型旋轉(zhuǎn)后的散點(diǎn)圖。選項(xiàng)reorder表示按因子上具有的載荷大小排列。選項(xiàng)outstat=fact_all表示將因子分析的各種結(jié)果輸出到fact_all數(shù)據(jù)集中。其他3個(gè)最大似然因子分析過(guò)程的說(shuō)明,我們?cè)谶@里省略。第1和第2個(gè)factor因子分7013034.doc析過(guò)程運(yùn)行后,主要的結(jié)果見(jiàn)表36.2到表3

32、6.9。表 36.2 均值、標(biāo)準(zhǔn)差及相關(guān)矩陣表 36.3 主成份法的輸出結(jié)果7013034.doc表 36.4 主因子法的輸出結(jié)果表 36.5 主因子法的正交最大方差預(yù)旋轉(zhuǎn)結(jié)果7013034.doc表 36.6 主因子法的Promax斜交旋轉(zhuǎn)結(jié)果7013034.doc表 36.7 主因子法的沒(méi)有旋轉(zhuǎn)因子模型圖表 36.8 主因子法的方差最大預(yù)旋轉(zhuǎn)因子模型圖7013034.doc表 36.9 主因子法的Promax斜交旋轉(zhuǎn)因子模型圖3. 主要結(jié)果分析。第1個(gè)factor過(guò)程輸出見(jiàn)表36.2所示的簡(jiǎn)單統(tǒng)計(jì)數(shù)(Means and Standard Deviations)和相關(guān)系數(shù)(Correlati

33、ons),以及見(jiàn)表36.3所示主成份分析結(jié)果。主成份分析的先驗(yàn)公因子方差估計(jì)按指定值為1(缺省值也為1),所以5個(gè)變量組成的相關(guān)矩陣的特征值之和為5,平均值為1。主成份法求解的結(jié)果表明有兩個(gè)較大的特征值且都大于1,分別為2.873314和1.796660,能解釋數(shù)據(jù)標(biāo)準(zhǔn)變異的93.4%,因而這兩個(gè)主成份能基本概括和解釋整個(gè)數(shù)據(jù)的信息。若使用三個(gè)主成份(解釋變異的97.7%),則大多數(shù)情況下都能滿足需要。factor過(guò)程依據(jù)特征值大于1的原則(確定因子個(gè)數(shù)的缺省準(zhǔn)則)選擇了前兩個(gè)主成份因子。所以含有兩個(gè)公因子的初始公因子模型為:pop= 0.58096f10.80642f2school= 0.7

34、6704f10.54476f2employ= 0.67243f10.72605f2services=0.93239f10.10431f2house= 0.79116f10.55818f2第1和第2公因子能解釋的方差分別為2.873314和 1.796660,5個(gè)標(biāo)準(zhǔn)化變量的最終公因子方差估計(jì)值之和為4.669974=2.873314+1.796660=0.987826+0.885106+0.979306+0.880236 +0.937500。特征值與它的特征向量之間有如下等式,例如,2.873314=0.580962+0.767042+7013034.doc0.672432+0.932392+

35、0.791162。第1主成份因子factor1在5個(gè)變量上的因子載荷量皆為正值,其中它與services的相關(guān)特別大(0.93239),總體上大小基本相近,可稱為基本社會(huì)因子。第2主成份因子factor2在pop(0.80642)和employ(0.72605)上有較大的正載荷量,而在house(-0.55818)和school(-0.54476)上有絕對(duì)值較大的負(fù)載荷量,在services(-0.10431)上的載荷量非常小。所以,第2主成份因子是反映了地區(qū)的總?cè)丝诤涂偣蛡蛉丝谂c地區(qū)的房?jī)r(jià)和教育水平的對(duì)比值,可稱為人口就業(yè)因子。最終公因子方差表明,所有變量都能由這兩個(gè)因子很好他說(shuō)明,其公因子

36、估計(jì)值從services的0.880236到pop的0.987826的范圍內(nèi)。主成份生成的標(biāo)準(zhǔn)因子得分具有均值為0方差為1。但計(jì)算得到的因子得分僅僅是真正因子得分的估計(jì),這些估計(jì)具有均值為0,方差等于該因子同這些變量的復(fù)相關(guān)系數(shù)的平方。所以,每個(gè)標(biāo)準(zhǔn)因子得分的系數(shù)計(jì)算,可以通過(guò)每個(gè)因子與所有變量的回歸分析得到的,標(biāo)準(zhǔn)因子得分模型為:f1=0.20219pop0.26695school0.23403employ0.32450services0.27535housef2=0.44884pop0.30320school0.40411employ0.05806services0.31068house第

37、2個(gè)factor過(guò)程進(jìn)行主因子分析,規(guī)定每個(gè)變量的先驗(yàn)公因子方差估計(jì)使用與其他所有變量復(fù)相關(guān)系數(shù)的平方(priors=smc)。主因子分析的選項(xiàng)要求計(jì)算抽樣適當(dāng)?shù)腒aiser度量(msa)。如果數(shù)據(jù)適合這個(gè)公因子模型,顯然應(yīng)該在控制所有其余變量的條件下,兩變量之間的相關(guān)系數(shù)(此時(shí)稱為偏相關(guān)系數(shù))應(yīng)該比原始的相關(guān)系數(shù)小。我們比較表36.4中的兩變量間的偏相關(guān)系數(shù)與前面表36.2中兩變量的原始相關(guān)系數(shù),pop和school間的偏相關(guān)系數(shù)為-0.54465,它的絕對(duì)值比原始相關(guān)系數(shù)0.00975大得多,這表明有問(wèn)題,此外不滿足條件的偏相關(guān)還有,pop和house之間、school和employ之間、

38、employ與house之間。msa指標(biāo)是度量偏相關(guān)比原始相關(guān)小多少的綜合指標(biāo),它既提供了所有變量一起考慮的msa值,又提供了單個(gè)變量的msa值,為我們直觀快速判斷因子模型擬合好壞提供了標(biāo)準(zhǔn)。msa的值在0.8以上是好的,msa的值在0.5以下需要采取補(bǔ)救措施,或者刪除一些違法的變量,或者引入與違法變量有關(guān)的其他變量。顯然所有變量的msa=0.57536759是很差的,單個(gè)變量除了services變量的msa=0.806644很好外,其余都很差甚至不能接受。所以,每個(gè)變量作為一個(gè)因子或者說(shuō)每一個(gè)因子只包含一個(gè)變量的因子模型是不能接受的。共同使用的經(jīng)驗(yàn)法則是每個(gè)因子至少應(yīng)該包含有三個(gè)變量。先驗(yàn)公

39、因子方差估計(jì)smc都很大(接近于1),如pop=0.968592 ,school= 0.822285 ,employ=0.969181,services= 0.785724 ,house=0.847019,而主成份分析的五個(gè)變量先驗(yàn)公因子方差估計(jì)都設(shè)定為1,因此,主因子分析的因子載荷應(yīng)該與主成份分析沒(méi)有大的差異。約化相關(guān)矩陣的特征值之和=0.968592+0.822285+0.969181+0.785724+0.847019=4.39280116,平均值為0.87856023。兩個(gè)很大的特征值2.7343和1.7161很明顯地表示,應(yīng)提取二個(gè)公因子。這兩個(gè)大的正特征值之和占公共方差4.3928

40、0116的(2.7343+1.7161)/4.39280116=101.31%,它像沒(méi)有進(jìn)行迭代時(shí)才可能得到的一樣,非常接近100%。對(duì)被保留因子個(gè)數(shù)的規(guī)定為,保留因子的特征值之和占公共方差的比例大于proportion=p選項(xiàng)中p值,p的缺省值為100%。主因子分析過(guò)程繪制了特征值的(scree)斜坡圖,圖形在這里我們沒(méi)有給出。從圖中我們可以看出在第三個(gè)特征值處有明顯的彎曲,也就是說(shuō)從第三個(gè)特征值開(kāi)始變成了在平地上,而不是在斜坡上。從觀察到的斜坡圖上也可證明取二個(gè)公因子的結(jié)論是正確的。見(jiàn)表36.4中給出的主因子模型,它類似于主成份模型。所有最終公因子方差都很接近于先驗(yàn)的公因子方差,值得注意的只有house從0.847019增加到0.884950。接近100%的公共方差被解釋了。在對(duì)角線上的特殊因子方差剩余相關(guān)都很小,且與最終公因子方差之和等于1。例如pop變量的最終公因子方差為0.978113,特殊因子方差為0.02189,兩者之和7013034.doc0.978113+0.02189=1。變量之間的剩余相關(guān)也很小,最大值為house與services之間的0.03370。輸出對(duì)所有變量

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論