主成份以及因子分析_第1頁(yè)
主成份以及因子分析_第2頁(yè)
主成份以及因子分析_第3頁(yè)
主成份以及因子分析_第4頁(yè)
主成份以及因子分析_第5頁(yè)
已閱讀5頁(yè),還剩86頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、關(guān)于主成份和因子分析第1頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四6.1 主成分分析6.1.1 主成分分析的概念與步驟6.1.2 使用INSIGHT模塊作主成分分析6.1.3 使用“分析家”作主成分分析6.1.4 使用PRINCOMP過(guò)程進(jìn)行主成分分析第2頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四6.1.1 主成分分析的概念與步驟1. 主成分分析基本思想 主成分分析是數(shù)學(xué)上對(duì)數(shù)據(jù)降維的一種方法。其基本思想是設(shè)法將原來(lái)眾多的具有一定相關(guān)性的指標(biāo)(比如p個(gè)指標(biāo)),重新組合成一組新的互不相關(guān)的綜合指標(biāo)來(lái)代替原來(lái)指標(biāo)。通常數(shù)學(xué)上的處理就是將原來(lái)p個(gè)指標(biāo)作線性組合,作為新

2、的綜合指標(biāo)。但是這種線性組合,如果不加限制,則可以有很多,應(yīng)該如何去選取呢?第3頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 在所有的線性組合中所選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來(lái)p個(gè)指標(biāo)的信息,再考慮選取F2即選第二個(gè)線性組合。為了有效地反映原有信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學(xué)語(yǔ)言表達(dá)就是要求Cov(F1,F(xiàn)2)0。稱F2為第二主成分,依此類推可以構(gòu)造出第三、第四、第p個(gè)主成分。第4頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四2. 主成分分析的數(shù)學(xué)模型 設(shè)有n個(gè)樣品(多元觀測(cè)值),每個(gè)樣品觀測(cè)p項(xiàng)指標(biāo)(

3、變量):X1,X2,Xp,得到原始數(shù)據(jù)資料陣:其中Xi = (x1i,x2i,xni),i = 1,2,p。第5頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 用數(shù)據(jù)矩陣X的p個(gè)列向量(即p個(gè)指標(biāo)向量)X1,X2,Xp作線性組合,得綜合指標(biāo)向量:簡(jiǎn)寫成:Fi = a1iX1 + ai2X2 +apiXp i = 1,2,p第6頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 為了加以限制,對(duì)組合系數(shù)ai = (a1i,a2i,api)作如下要求:即:ai為單位向量:aiai = 1,且由下列原則決定: 1) Fi與Fj(ij, i, j = 1, , p)互不相關(guān),即Co

4、v(Fi,F(xiàn)j) = aiai = 0,其中是X的協(xié)方差陣。 2) F1是X1,X2,Xp的一切線性組合(系數(shù)滿足上述要求)中方差最大的,即 ,其中c = (c1,c2,cp) F2是與F1不相關(guān)的X1,X2,Xp一切線性組合中方差最大的,F(xiàn)p是與F1,F(xiàn)2,F(xiàn)p-1都不相關(guān)的X1,X2,Xp的一切線性組合中方差最大的。第7頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 滿足上述要求的綜合指標(biāo)向量F1,F(xiàn)2,F(xiàn)p就是主成分,這p個(gè)主成分從原始指標(biāo)所提供的信息總量中所提取的信息量依次遞減,每一個(gè)主成分所提取的信息量用方差來(lái)度量,主成分方差的貢獻(xiàn)就等于原指標(biāo)相關(guān)系數(shù)矩陣相應(yīng)的特征值i,

5、每一個(gè)主成分的組合系數(shù)ai = (a1i,a2i,api)就是相應(yīng)特征值i所對(duì)應(yīng)的單位特征向量ti。方差的貢獻(xiàn)率為 ,i越大,說(shuō)明相應(yīng)的主成分反映綜合信息的能力越強(qiáng)。第8頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四3. 主成分分析的步驟(1) 計(jì)算協(xié)方差矩陣 計(jì)算樣品數(shù)據(jù)的協(xié)方差矩陣: = (sij)pp,其中 i,j = 1,2,p(2) 求出的特征值及相應(yīng)的特征向量 求出協(xié)方差矩陣的特征值12p0及相應(yīng)的正交化單位特征向量:則X的第i個(gè)主成分為Fi = aiX i = 1,2,p。第9頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四(3) 選擇主成分 在已確定的全部

6、p個(gè)主成分中合理選擇m個(gè)來(lái)實(shí)現(xiàn)最終的評(píng)價(jià)分析。一般用方差貢獻(xiàn)率解釋主成分Fi所反映的信息量的大小,m的確定以累計(jì)貢獻(xiàn)率達(dá)到足夠大(一般在85%以上)為原則。第10頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四(4) 計(jì)算主成分得分 計(jì)算n個(gè)樣品在m個(gè)主成分上的得分: i = 1,2,m(5) 標(biāo)準(zhǔn)化 實(shí)際應(yīng)用時(shí),指標(biāo)的量綱往往不同,所以在主成分計(jì)算之前應(yīng)先消除量綱的影響。消除數(shù)據(jù)的量綱有很多方法,常用方法是將原始數(shù)據(jù)標(biāo)準(zhǔn)化,即做如下數(shù)據(jù)變換:其中 , ,j = 1,2,p。標(biāo)準(zhǔn)化后的數(shù)據(jù)陣記為X*,其中每個(gè)列向量(標(biāo)準(zhǔn)化變量)的均值為0,標(biāo)準(zhǔn)差為1,數(shù)據(jù)無(wú)量綱。第11頁(yè),共91頁(yè),

7、2022年,5月20日,17點(diǎn)25分,星期四 標(biāo)準(zhǔn)化后變量的協(xié)方差矩陣(Covariance Matrix) = (sij)pp,即原變量的相關(guān)系數(shù)矩陣(Correlation Matrix)R= (rij)pp:i,j = 1,2,p 此時(shí)n個(gè)樣品在m個(gè)主成分上的得分應(yīng)為:Fj = a1jX1* + a2jX2* +.+ apjXp* j = 1,2,m第12頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四6.1.2 使用INSIGHT模塊作主成分分析【例6-1】全國(guó)沿海10個(gè)省市經(jīng)濟(jì)指標(biāo)的主成分分析表6-1 全國(guó)沿海10個(gè)省市經(jīng)濟(jì)綜合指標(biāo)假設(shè)表6-1中數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Myli

8、b.jjzb中,試對(duì)各地區(qū)的經(jīng)濟(jì)發(fā)展水平進(jìn)行主成分分析。地區(qū)GDPx1人均GDPx2工業(yè)增加值x3第三產(chǎn)業(yè)增加值x4固定資產(chǎn)投資x5基本建設(shè)投資x6社會(huì)消費(fèi)品零售總額x7海關(guān)出口總額x8地方財(cái)政收入x9遼寧5458.2130001376.22258.41315.95292258.4123.7399.7山東10550116433502.538512288.71070.73181.9211.1610.2河北6076.690471406.72092.61161.6597.11968.345.9302.3天津2022.622068822.8960703.7361.9941.4115.7171.8江蘇1

9、0636.3143973536.33967.223201141.33215.8384.7643.7上海5408.8406272196.22755.81970.2779.32035.2320.5709浙江7670165702356.530652296.61180.62877.5294.2566.9福建4682135101047.11859964.5397.91663.3173.7272.9廣東11769.7150304224.64793.63022.91275.55013.61843.71201.6廣西2455.45062367995.7542.2352.71025.515.1186.7第13頁(yè)

10、,共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四1. 使用INSIGHT模塊做主成分分析的步驟 使用INSIGHT模塊做主成分分析的步驟如下: 1) 在INSIGHT模塊中打開數(shù)據(jù)集Mylib.jjzb;選擇菜單“Analyze”“Multivariate(Y X)(多元分析)”,打開“Multivariate(Y X)”對(duì)話框; 2) 將做主成分分析的變量x1x9選為Y變量,將變量diqu選為L(zhǎng)abel變量,如圖所示。第14頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四圖6-1 多元分析對(duì)話框 3) 單擊“Method”按鈕,在打開的對(duì)話框中可以選擇計(jì)算協(xié)方差矩陣的特征值

11、或是計(jì)算相關(guān)系數(shù)矩陣的特征值。系統(tǒng)默認(rèn)計(jì)算相關(guān)系數(shù)矩陣的特征值和特征向量,單擊“OK”按鈕返回。第15頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 4) 單擊“Output”按鈕,在打開的對(duì)話框(圖左)中包括“Descriptive Statistics”選項(xiàng)、“Bivariate Plots”選項(xiàng)以及各種多元分析的選項(xiàng)。選中“Principal Component Analysis”復(fù)選框,單擊下面的“Principal Component Options”按鈕,打開“Principal Component Options”對(duì)話框,選中“Eigenvectors”復(fù)選框,取消“

12、Correlations(Structure)”復(fù)選框,如圖右所示。 第16頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四2. 主成分的結(jié)果分析 輸出的數(shù)字分析結(jié)果有4個(gè)部分:簡(jiǎn)單統(tǒng)計(jì)量、相關(guān)系數(shù)矩陣、相關(guān)系數(shù)矩陣的特征值以及相關(guān)系數(shù)矩陣的特征向量。第17頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 3) 圖6-5給出相關(guān)系數(shù)矩陣的特征值(Eigenvalue)、上下特征值之差(Difference)、各主成分的方差貢獻(xiàn)率(Proportion)以及累積貢獻(xiàn)率(Cumulative)。 相關(guān)系數(shù)矩陣的特征值即各主成分的方差,可以看出,第一主成分的方差貢獻(xiàn)率為80.11

13、%,前兩個(gè)主成分的累積貢獻(xiàn)率已達(dá)92.33%,因此,只需用前面2個(gè)主成分就可以概括這組數(shù)據(jù)。 第18頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 4) 圖6-6給出相關(guān)系數(shù)矩陣的兩個(gè)最大特征值的特征向量,據(jù)此可以寫出第一和第二主成分得分:PCR1 = 0.35x1* + 0.04x2* + 0.36x3* + 0.37x4* + 0.37x5* + 0.35x6* + 0.36x7* + 0.30 x8* + 0.36x9*PCR2 = -0.21x1* + 0.94x2* 0.01x3* 0.05x4* + 0.10 x5* 0.02x6* 0.14x7* + 0.05x8*

14、+ 0.18x9* 對(duì)于第一主成分而言,除了x2(人均GDP)外,各變量所占比重均在0.3左右以上,因此第一主成分(Prin1)主要由x1、x3x9八個(gè)變量解釋;而第二主成分則主要由x2這一個(gè)變量解釋。第19頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 5) 選擇菜單“Edit(編輯)”“Observations(觀測(cè))”“Label in Plots”,在彈出的對(duì)話框中選中所有diqu變量值,單擊“OK”按鈕返回,顯示結(jié)果中的散點(diǎn)圖上出現(xiàn)地區(qū)名; 圖中看出,上海在第二主成分PCR2的得分遠(yuǎn)遠(yuǎn)高于其他省市,而在第一主成分PCR1的得分則處于中間。廣東、江蘇、山東和浙江則在第1主成

15、分的得分上位于前列。第20頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 6) 回到INSIGHT的數(shù)據(jù)窗口,可以看到前兩個(gè)主成分的得分情況(如圖6-8左)。 單擊數(shù)據(jù)窗口左上角的箭頭,在彈出的菜單中選擇“Sort(排序)”選項(xiàng),在打開的對(duì)話框中選定排序變量PCR1,并單擊“Asc/Des”按鈕將其設(shè)為降序(Des),如圖6-8所示。 第21頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 單擊“OK”按鈕返回,得到按第一主成分排序的結(jié)果如圖6-9左所示。同樣方法可以得到按第二主成分排序的結(jié)果如圖6-9右所示。從第一主成分排序情況來(lái)看,沿海19省市經(jīng)濟(jì)發(fā)展?fàn)顩r綜合排名前5

16、位的省市依次為:廣東、江蘇、山東、浙江、上海;從第二主成分排序情況來(lái)看,人均GDP排名前5位的省市依次是:上海、天津、浙江、廣東、福建。 第22頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四6.1.3 使用“分析家”作主成分分析【例6-2】某企業(yè)為了了解其客戶的信用程度,評(píng)價(jià)客戶的信用等級(jí),采用信用評(píng)估常用的5C方法,5C的目的是說(shuō)明顧客違約的可能性。 1) 品格x1,指客戶的信譽(yù)。 2) 能力x2,指客戶的償還能力。 3) 資本x3,指客戶的財(cái)務(wù)勢(shì)力和財(cái)務(wù)狀況。 4) 附帶的擔(dān)保品x4。 5) 環(huán)境條件x5,指客戶的外部因素。第23頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25

17、分,星期四 通過(guò)專家打分,得到10個(gè)客戶5項(xiàng)指標(biāo)的得分如表6-3所示。表6-2 10個(gè)客戶5項(xiàng)指標(biāo)的得分假設(shè)表6-2中數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib.xydj中,試對(duì)各客戶的信用等級(jí)進(jìn)行評(píng)估。客戶編號(hào)IDx1x2x3x4x5客戶編號(hào)IDx1x2x3x4x5176.581.57675.871.768579.280.384.476.5270.67367.668.178.57949487.589.592390.787.39181.580884.666.968.864.866.4477.573.670.969.874.8957.760.457.460.865585.668.57062.276.5107

18、069.271.764.968.9第24頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四1. 使用“分析家”做主成分分析的步驟 1) 在“分析家”中打開數(shù)據(jù)集Mylib.xydj; 2) 選擇菜單“Statistics(統(tǒng)計(jì))”“Multivariate(多元分析)”“Principal Components(主成分分析)”,打開“Principal Components”對(duì)話框; 3) 在對(duì)話框中輸入主成分分析的變量,如圖所示。第25頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 4) 單擊“Statistics(統(tǒng)計(jì))”按鈕,打開“Principal Componen

19、ts:Statistics”對(duì)話框; 在“# of components:”右邊的框中指定主成分的個(gè)數(shù)4,如圖右。單擊“OK”返回;第26頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 5) 單擊“Save Data”按鈕,打開“Principal Components:Save Data”對(duì)話框,在該對(duì)話框中可選擇存儲(chǔ)數(shù)據(jù)。 選中“Create and save scores data”,如圖6-11所示。單擊“OK”返回;第27頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 6) 單擊“Plots”按鈕,打開“Principal Components:Plots”對(duì)

20、話框,可以設(shè)置圖形輸出。 在“Scree Plot (碎石圖)”選項(xiàng)卡中(圖左),選中“Create scree plot(建立碎石圖)”復(fù)選框。 在“Component Plot (成分圖)”選項(xiàng)卡中(圖右),選中“Create component Plot(建立成分圖)”復(fù)選框。 第28頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四2. 主成分的結(jié)果分析 輸出的數(shù)字分析結(jié)果包括4個(gè)部分:簡(jiǎn)單統(tǒng)計(jì)量、相關(guān)系數(shù)矩陣、相關(guān)系數(shù)矩陣的特征值以及相關(guān)系數(shù)矩陣的特征向量。 1) 圖6-13給出變量的簡(jiǎn)單統(tǒng)計(jì)量,圖中顯示5項(xiàng)指標(biāo)中品格、能力和附帶擔(dān)保品是最為重要的,其標(biāo)準(zhǔn)差高出其他變量。第2

21、9頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 2) 圖6-14給出各變量之間的相關(guān)系數(shù)矩陣??梢钥闯觯芰εc資本、附帶擔(dān)保品有著較強(qiáng)的相關(guān)性,表明客戶的償還能力與其財(cái)務(wù)實(shí)力、財(cái)務(wù)狀況和抵押資產(chǎn)有著重要的關(guān)系。第30頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 3) 圖6-15給出相關(guān)系數(shù)矩陣的特征值(Eigenvalues)、上下特征值之差(Difference)、各主成分的方差貢獻(xiàn)率(proportion)以及累積貢獻(xiàn)率(Cumulative)。 相關(guān)系數(shù)矩陣的特征值即各主成分的方差,可以看出,第一主成分的方差貢獻(xiàn)率為84.22%,第二主成分的方差貢獻(xiàn)率為7.6

22、7%,第三主成分的方差貢獻(xiàn)率為5.95%。說(shuō)明第一主成分已經(jīng)具有足夠多的方差貢獻(xiàn)率,可以很好地概括這組數(shù)據(jù)。第31頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 在“分析家”左邊的管理窗口中雙擊“Scree plot”項(xiàng),打開的“Scree plot”對(duì)話框顯示前4個(gè)特征值的“碎石圖”,很直觀地看到第一主成分遠(yuǎn)遠(yuǎn)大于其它特征值,說(shuō)明第一主成分已經(jīng)代表了絕大部分信息。第32頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 4) 圖6-16給出相關(guān)系數(shù)矩陣的特征向量,由最大特征值所對(duì)應(yīng)的特征向量可以寫出第一主成分的表達(dá)式。Prin1 = 0.4135x1* + 0.4729x

23、2* + 0.4656x3* + 0.4547x4* + 0.4265x5* 利用特征向量各分量的值可以對(duì)主成分進(jìn)行解釋,對(duì)于第一主成分而言,各變量所占比重大致相等,且均為正數(shù),說(shuō)明第一主成份是對(duì)所有指標(biāo)的一個(gè)綜合測(cè)度,作為綜合的信用等級(jí)指標(biāo),可以用來(lái)排序。第33頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 5) 在“分析家”窗口中,雙擊左邊項(xiàng)目管理中的“Scores Table”項(xiàng),打開“Scores Table”對(duì)話框; 選擇菜單“File”“Save as By SAS Name”,將其保存為數(shù)據(jù)表Scores;然后,在VIEWTABLE中打開該表;選擇菜單“Data”“S

24、ort”,按主成分Prin1排序,結(jié)果如表6-3所示。表6-3 客戶的信用等級(jí) 在正確評(píng)估了顧客的信用等級(jí)后,就能正確制定出對(duì)其的信用期、收賬政策等,這對(duì)于加強(qiáng)應(yīng)收賬款的管理大有幫助??蛻艟幪?hào)12345678910第一主成分得分3.17-9.0125.09-4.36-6.4113.6235.88-10.34-33.80-13.83名次47256318109第34頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四6.1.4 使用PRINCOMP過(guò)程進(jìn)行主成分分析1. PRINCOMP過(guò)程的功能簡(jiǎn)介 1) PRINCOMP過(guò)程計(jì)算結(jié)果有:簡(jiǎn)單統(tǒng)計(jì)量,相關(guān)陣或協(xié)方差陣,從大到小排序的特征值和

25、相應(yīng)特征向量,每個(gè)主成分解釋的方差比例,累計(jì)比例等。 由特征向量得出相應(yīng)的主成分,用少數(shù)幾個(gè)主成分代替原始變量,并計(jì)算主成分得分。 2) 主成分的個(gè)數(shù)可以由用戶自己確定,主成分的名字可以用戶自己規(guī)定,主成分得分是否標(biāo)準(zhǔn)化可由用戶規(guī)定。第35頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 3) 輸入數(shù)據(jù)集可以是原始數(shù)據(jù)集、相關(guān)陣、協(xié)方差陣等。輸入為原始數(shù)據(jù)時(shí),還可以規(guī)定從協(xié)方差陣出發(fā)還是從相關(guān)陣出發(fā)進(jìn)行分析,由協(xié)方差陣出發(fā)時(shí)方差大的變量在分析中起到更大的作用。 4) 該過(guò)程還可生成兩個(gè)輸出數(shù)據(jù)集:一個(gè)包含原始數(shù)據(jù)及主成分得分,它可作為主成分回歸和聚類分析的輸入數(shù)據(jù)集;另一個(gè)包含有關(guān)統(tǒng)

26、計(jì)量,類型為TYPE = CORR或COV的輸出集,它也可作為其他過(guò)程的輸入SAS集。第36頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四2. PRINCOMP過(guò)程的格式 PRINCOMP過(guò)程的常用格式如下:PROC PRINCOMP ; VAR 變量列表; WEIGHT 變量列表; FREQ 變量列表; PARTIAL 變量列表; BY 變量列表;RUN;第37頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 其中: 1) PROC PRINCOMP語(yǔ)句用來(lái)規(guī)定輸入輸出和一些運(yùn)行選項(xiàng),其選項(xiàng)及功能見表6-4。表6-4 PROC PRINCOMP語(yǔ)句的選項(xiàng) 2) VAR語(yǔ)

27、句指定用于主成分分析的變量,變量必須為數(shù)值型(區(qū)間型)變量。缺省使用DATA = 輸入數(shù)據(jù)集中所有數(shù)值型變量進(jìn)行主成分分析。DATA = 輸入數(shù)據(jù)集,可以是原始數(shù)據(jù)集,也可以是TYPE = CORR,COV的數(shù)據(jù)集;OUT = 輸出包含原始數(shù)據(jù)和主成分得分的數(shù)據(jù)集;OUTSTAT = 統(tǒng)計(jì)量輸出數(shù)據(jù)集;COVARIANCE | COV要求從協(xié)方差陣出發(fā)計(jì)算主成分,缺省為從相關(guān)陣出發(fā)計(jì)算。N = 要計(jì)算的主成分個(gè)數(shù),缺省時(shí)全部計(jì)算。STANDARD | STD要求在OUT = 的數(shù)據(jù)集中把主成分得分標(biāo)準(zhǔn)化為單位方差。缺省時(shí)主成分得分的方差為相應(yīng)特征值。PREFIX = 主成分名字的前綴,缺省時(shí)為

28、PRIN1、PRIN2。第38頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四3. 應(yīng)用實(shí)例【例6-3】對(duì)全國(guó)30個(gè)省市自治區(qū)經(jīng)濟(jì)發(fā)展基本情況的八項(xiàng)指標(biāo)作主成分分析,原始數(shù)據(jù)如表6-5。表6-5 全國(guó)30個(gè)省市自治區(qū)經(jīng)濟(jì)發(fā)展基本情況省份GDPx1居民消費(fèi)水平x2固定資產(chǎn)投資x3職工平均工資x4貨物周轉(zhuǎn)量x5居民消費(fèi)價(jià)格指數(shù)x6商品零售價(jià)格指數(shù)x7工業(yè)總產(chǎn)值x8北京1394.892505519.018144373.9117.3112.6843.43天津920.112720345.466501342.8115.2110.6582.51河北2849.521258704.8748392033

29、.3115.2115.81234.85山西1092.481250290.94721717.3116.9115.6697.25內(nèi)蒙832.881387250.234134781.7117.5116.8419.39遼寧2793.372397387.9949111371.1116.11141840.55吉林1129.21872320.454430497.4115.2114.2762.47黑龍江2014.532334435.734145824.8116.1114.31240.37上海2462.575343996.489279207.4118.71131642.95江蘇5155.2519261434.9

30、559431025.5115.8114.32026.64浙江3524.7922491006.396619754.4116.6113.5916.59第39頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四省份GDPx1居民消費(fèi)水平x2固定資產(chǎn)投資x3職工平均工資x4貨物周轉(zhuǎn)量x5居民消費(fèi)價(jià)格指數(shù)x6商品零售價(jià)格指數(shù)x7工業(yè)總產(chǎn)值x8安徽2003.5812544744609908.3114.8112.7824.14福建2160.522320553.975857609.3115.2114.4433.67江西1205.111182282.844211411.7116.9115.9571.84山

31、東5002.3415271229.5551451196.6117.6114.22207.69河南3002.741034670.3543441574.4116.5114.91367.92湖北2391.421527571.684685849120116.61220.72湖南2195.71408422.6147971011.8119115.5843.83廣東5381.7226991639.838250656.5114111.61396.35廣西1606.151314382.595105556118.4116.4554.97海南364.171814198.355340232.1113.5111.364

32、.33四川35341261822.544645902.3118.51171431.81貴州630.07942150.844475301.1121.4117.2324.72云南1206.6812613345149310.4121.3118.1716.65西藏55.98111017.8773824.2117.3114.95.57陜西1000.031208300.274396500.9119117600.98甘肅553.351007114.815493507119.8116.5468.79青海165.31144547.76575361.6118116.3105.8寧夏169.75135561.985

33、079121.8117.1115.3114.4新疆834.571469376.955348339119.7116.7428.76第40頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四(1) 數(shù)據(jù)集 假定上述數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib.jjfz中。(2) 執(zhí)行主成分分析的PRINCOMP過(guò)程 對(duì)數(shù)據(jù)集jjfz執(zhí)行主成分分析的PRINCOMP過(guò)程代碼如下:proc princomp data = Mylib.jjfz n = 4 out = w1 outstat = w2; var x1-x8;proc print data = w1;run;第41頁(yè),共91頁(yè),2022年,5月20

34、日,17點(diǎn)25分,星期四 (3) 結(jié)果分析 在各變量之間的相關(guān)系數(shù)矩陣中可以看出,有較強(qiáng)相關(guān)性的變量依次為: GDP(x1)與固定資產(chǎn)投資(x3)之間的相關(guān)系數(shù)為0.9506; GDP(x1)與工業(yè)總產(chǎn)值(x8)之間的相關(guān)系數(shù)為0.8737; 固定資產(chǎn)投資(x3)與工業(yè)總產(chǎn)值(x8)之間的相關(guān)系數(shù)為0.7919; 居民消費(fèi)價(jià)格指數(shù)(x6)與商品零售價(jià)格指數(shù)(x7)之間的相關(guān)系數(shù)為0.7628; 貨物周轉(zhuǎn)量(x5)與工業(yè)總產(chǎn)值(x8)之間的相關(guān)系數(shù)為0.6586,等等。第42頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 圖6-18給出相關(guān)系數(shù)矩陣的特征值、上下特征值之差、各主成分對(duì)

35、方差的貢獻(xiàn)率以及累積的貢獻(xiàn)率。 相關(guān)系數(shù)矩陣的特征值即各主成分的方差,可以看出,第一主成分對(duì)方差的貢獻(xiàn)率為46.94%,第二主成分對(duì)方差的貢獻(xiàn)率為27.46%,第三主成分對(duì)方差的貢獻(xiàn)率為15.19%,之后的主成分的貢獻(xiàn)率為0.05。前三個(gè)主成分的累積貢獻(xiàn)率為89.58%,因此,對(duì)第四主成分以后的主成分完全可以忽略不計(jì),用前三個(gè)主成分就可以很好地概括這組數(shù)據(jù)。第43頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四圖6-19 原始變量對(duì)于各個(gè)主成分的因子載荷量 圖6-19給出相關(guān)系數(shù)矩陣前4大特征值對(duì)應(yīng)的特征向量,由此可以寫出前三個(gè)主成分的表達(dá)式:Prin1 = 0.46x1* + 0.

36、31x2* + 0.47x3* + 0.24x4* + 0.25x5* 0.26x6* 0.32x7* + 0.42x8*Prin2 = 0.26x1* 0.40 x2* + 0.11x3* 0.49x4* + 0.50 x5* + 0.17x6* + 0.40 x7* + 0.29x8*Prin3 = 0.11x1* + 0.25x2* + 0.19x3* + 0.33x4* 0.25x5* + 0.72x6* + 0.40 x7* + 0.19x8*第44頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 可見,第一主成分中x3、x1、x8的系數(shù)最大;第二主成分中x5、x7具有較大

37、的正系數(shù),x4、x2則具有較大的負(fù)系數(shù);第三主成分中x6的系數(shù)最大,遠(yuǎn)遠(yuǎn)超過(guò)其他指標(biāo)的影響。因此,可以把第一主成分看成是由固定資產(chǎn)投資(x3)、GDP(x1)、工業(yè)總產(chǎn)值(x8)所刻畫的反映經(jīng)濟(jì)發(fā)展水平的綜合指標(biāo);把第二主成分看成是由貨物周轉(zhuǎn)量(x5)、職工平均工資(x4)、居民消費(fèi)水平(x2)、商品零售價(jià)格指數(shù)(x7)所刻畫的與人民生活水平有關(guān)的綜合指標(biāo);把第三主成分單獨(dú)看成是居民消費(fèi)價(jià)格指數(shù)(x6)的影響指標(biāo)。 最后輸出的是數(shù)據(jù)集w1,其中包含前4個(gè)主成分Prin1Prin4的得分。第45頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四(4) 主成分的散點(diǎn)圖 按第一主成分和第二主

38、成分的得分作圖,又稱為載荷圖,代碼如下:proc plot data=w1 vpct=80; plot prin1*prin2 $ diqu=*/ haxis=-3.5 to 3 by 0.5 HREF=-2,0,2 vaxis=-3 to 4.5 by 1.5 VREF=-2,0,2;run;顯示如圖6-20。第46頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 廣東、江蘇、上海、山東的第一主成分取值較高,說(shuō)明這些省市的經(jīng)濟(jì)發(fā)展水平較高,其次是浙江、遼寧、河北、河南、北京、天津等。 由于在第二主成分中職工平均工資與居民消費(fèi)水平具有負(fù)的載荷量,因此處于右半圖中的河北、河南、山東等地

39、的職工平均工資與居民消費(fèi)水平較低,商品零售價(jià)格指數(shù)較高;而左半圖中上海、天津、海南、北京等地的職工平均工資與居民消費(fèi)水平較高,商品零售價(jià)格指數(shù)較低。第47頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四6.2 因子分析6.2.1 因子分析的概念與步驟6.2.2 使用INSIGHT模塊作因子分析6.2.3 使用FACTOR過(guò)程進(jìn)行因子分析第48頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四6.2.1 因子分析的概念與步驟1. 因子分析模型 設(shè)p維可觀測(cè)的隨機(jī)向量X = (X1,.,Xp)(假定Xi為標(biāo)準(zhǔn)化變量,即E(Xi) = 0,Var(Xi) = 1,i = 1,2,p

40、)表示為第49頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四或 X = AF + 上式稱為因子模型,其中F1、F2、Fm稱為公共因子,簡(jiǎn)稱因子,是不可觀測(cè)的變量;待估的系數(shù)陣A稱為因子載荷陣,aij(i = 1,2,p;j = 1,2,m)稱為第i個(gè)變量在第j個(gè)因子上的載荷(簡(jiǎn)稱為因子載荷); 稱為特殊因子,是不能被前m個(gè)公共因子包含的部分。并且滿足:cov(F,) = 0,即F,不相關(guān); D(F) = Im,即F1、F2、Fm互不相關(guān),方差為1;D() = diag(12,22,p2),即1、2、p互不相關(guān),方差不一定相等,iN(0,i2)。 因子分析的目的就是通過(guò)模型X = A

41、F + 以F代替X,由于m 0,相應(yīng)的特征向量為u1*,u2*,up*,則有近似分解式:R* = AA其中 ,令 (i = 1,p),則A和D為因子模型的一個(gè)解,這個(gè)解稱為主因子解。第57頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 在實(shí)際中特殊因子方差(或變量共同度)是未知的。以上得到的解是近似解。為了得到近似程度更好的解,常常采用迭代主因子法。即利用上面得到的D* = diag( )作為特殊因子方差的初始估計(jì),重復(fù)上述步驟,直到解穩(wěn)定為止。 變量共同度hi2常用的初始估計(jì)有以下幾種方法: 取第i個(gè)變量與其他所有變量的多重相關(guān)系數(shù)的平方; 取第i個(gè)變量與其他變量相關(guān)系數(shù)絕對(duì)值的

42、最大值; 取1,它等價(jià)于主成分解。第58頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四(3) 極大似然法 假定公共因子F和特殊因子服從正態(tài)分布,那么可得到因子載荷陣和特殊因子方差的極大似然估計(jì),設(shè)p維觀測(cè)向量X(1),.,X(n)為來(lái)自正態(tài)總體Np(,)的隨機(jī)樣品,則樣品似然函數(shù)為,的函數(shù)L(,)。 設(shè)= AA + D,取 = ,則似然函數(shù)為A,D的函數(shù):(A,D),求A,D使達(dá)最大。為保證得到唯一解,可附加計(jì)算上方便的唯一性條件:AD-1A = 對(duì)角陣,用迭代方法可求得極大似然估計(jì)A和D。第59頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四4. 因子旋轉(zhuǎn)(正交變換)

43、所謂因子旋轉(zhuǎn)就是將因子載荷矩陣A右乘一個(gè)正交矩陣T后得到一個(gè)新的矩陣A*。它并不影響變量Xi的共同度hi2,卻會(huì)改變因子的方差貢獻(xiàn)qj2。因子旋轉(zhuǎn)通過(guò)改變坐標(biāo)軸,能夠重新分配各個(gè)因子解釋原始變量方差的比例,使因子更易于理解。第60頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 設(shè)p維可觀測(cè)向量X滿足因子模型:X = AF +。T為正交陣,則因子模型可寫為X = ATTF + = A*F* +其中A* = AT,F(xiàn)* = TF。 易知, = AA + D = A*A* + D(其中A* = AT)。這說(shuō)明,若A,D是一個(gè)因子解,任給正交陣T,A* = AT,D也是因子解。在這個(gè)意義下

44、,因子解是不惟一的。 由于因子載荷陣是不惟一的,所以可對(duì)因子載荷陣進(jìn)行旋轉(zhuǎn)。目的是使因子載荷陣的結(jié)構(gòu)簡(jiǎn)化,使載荷矩陣每列或行的元素平方值向0和1兩極分化,這樣的因子便于解釋和命名。第61頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 有三種主要的正交旋轉(zhuǎn)法:四次方最大法、方差最大法和等量最大法。這些旋轉(zhuǎn)方法的目標(biāo)是一致的,只是策略不同。 如果兩種旋轉(zhuǎn)模型導(dǎo)出不同的解釋,這兩種解釋不能認(rèn)為是矛盾的。倒不如說(shuō)是看待相同事物的兩種不同方法,是在公因子空間中的兩個(gè)不同點(diǎn)。只取決于惟一的一種你認(rèn)為是正確旋轉(zhuǎn)的任何結(jié)論都是不成立的。 在統(tǒng)計(jì)意義上所有旋轉(zhuǎn)都是一樣的,即不能說(shuō)一些旋轉(zhuǎn)比另一些旋轉(zhuǎn)

45、好。因此,在不同的旋轉(zhuǎn)方法之間進(jìn)行的選擇必須根據(jù)非統(tǒng)計(jì)觀點(diǎn),通常選擇最容易解釋的旋轉(zhuǎn)模型。第62頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四5. 因子得分 計(jì)算因子得分的途徑是用原有變量來(lái)描述因子,第j個(gè)因子在第i個(gè)樣品上的值可表示為:Fji = j1xi1 + j2xi2 + jpxip (j = 1,2,k) 式中,xi1,xi2,xip分別是第1,2,p個(gè)原有變量在第i個(gè)樣品上的取值,j1,j2,jp分別是第j個(gè)因子和第1,2,k個(gè)原有變量間的因子值系數(shù)??梢?,它是原有變量線性組合的結(jié)果(與因子分析的數(shù)學(xué)模型正好相反),因子得分可看作各變量值的加權(quán)(j1,j2,jp)總和,

46、權(quán)數(shù)的大小表示了變量對(duì)因子的重要程度。第63頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四于是有: Fj = j1X1+j2X2+jpXp (j = 1,2,k) 上式稱為因子得分函數(shù)。由于因子個(gè)數(shù)k小于原有變量個(gè)數(shù)p,故式中方程的個(gè)數(shù)少于變量的個(gè)數(shù)。因此,對(duì)因子值系數(shù)通常采用最小二乘意義下的回歸法進(jìn)行估計(jì)??蓪⑸鲜娇醋魇且蜃幼兞縁j對(duì)p個(gè)原有變量的線性回歸方程(其中常數(shù)項(xiàng)為0)??梢宰C明,式中回歸系數(shù)的最小二乘估計(jì)滿足:Bj = AjR-1,其中Bj = (j1,j2,jp),Aj = (a1j,a2j,apj)為第1,2,p個(gè)變量在第j個(gè)因子上的因子載荷,R-1為原有變量的相關(guān)

47、系數(shù)矩陣的逆矩陣。 由上式計(jì)算出因子變量Fj的因子值系數(shù),再利用因子得分函數(shù)可算出第j個(gè)因子在各個(gè)樣品上的因子得分。第64頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四6.2.2 使用INSIGHT模塊作因子分析【例6-4】今有20個(gè)鹽泉,鹽泉的水化學(xué)特征系數(shù)值見表6-6。試對(duì)鹽泉水的化學(xué)分析數(shù)據(jù)作因子分析。表6-6 鹽泉水化學(xué)特征系數(shù)的數(shù)據(jù)利用因子分析法,可揭示觀察數(shù)據(jù)中7個(gè)指標(biāo)之間的相互關(guān)系,尋找潛在的影響因子,并用這些潛在因子對(duì)原指標(biāo)之間的相關(guān)關(guān)系進(jìn)行解釋。假定表6-6的數(shù)據(jù)已經(jīng)存入數(shù)據(jù)集mylib.yq中。序號(hào)x1(礦化度)x2(Br103/Cl)x3(K103/鹽)x4(

48、K103/Cl)x5(Na/K)x6(Mg102/Cl)x7(Na/Cl)111.8350.48014.36025.21025.210.8100.98245.5960.52613.85024.04026.010.9100.9619304.0920.2830.7891.357438.360.1931.0120202.4460.0420.7411.266309.770.2900.99第65頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四1. 使用INSIGHT模塊做因子分析的步驟 在INSIGHT模塊中打開數(shù)據(jù)集Mylib.yq。(1) 求相關(guān)系數(shù)陣及其特征值 選擇菜單“Analyze”

49、“Multivariate(Y X)(多元分析)”,打開“Multivariate(Y X)”對(duì)話框。將變量x1x7選為Y變量,如圖所示。 第66頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 單擊“Output”按鈕,選中“Principal Component Analysis(主成分分析)”復(fù)選框,如圖所示。 單擊下面的“Principal Component Options(主成分選項(xiàng))”按鈕,打開“Principal Component Options”對(duì)話框,確認(rèn)“Correlations(Structure)(相關(guān)(結(jié)構(gòu)))”復(fù)選框被選中(默認(rèn)狀態(tài)),單擊“OK”按鈕

50、返回;第67頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 兩次單擊“OK”按鈕,得到因子分析結(jié)果。輸出的數(shù)字分析結(jié)果包括5個(gè)部分:簡(jiǎn)單統(tǒng)計(jì)量、相關(guān)系數(shù)矩陣、相關(guān)系數(shù)矩陣的特征值以及默認(rèn)的兩個(gè)因子載荷陣等。 其中相關(guān)系數(shù)陣及其特征值等如圖6-22所示。 結(jié)果顯示,前三個(gè)特征值的方差貢獻(xiàn)率依次為:0.6063、0.1788、0.1315。第68頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四(2) 建立因子載荷陣 由于前三個(gè)特征值的累積貢獻(xiàn)率已達(dá)91.66%,故取前三個(gè)特征值建立因子載荷陣。 選擇菜單“Tables”“Principal Components”,在彈出的“P

51、rincipal Component Analysis”對(duì)話框中選擇“3”個(gè)因子,及“Correlations(Structure)”選項(xiàng),單擊“OK” ,得到因子載荷陣如圖所示。 由于第1、2公因子的載荷中有一些數(shù)值在0.5附近的中等載荷,其意義含糊不清,故考慮作因子旋轉(zhuǎn)。 第69頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四(3) 因子旋轉(zhuǎn) 重新回到INSIGHT的數(shù)據(jù)窗口,選擇菜單“Analyze”“Multivariate(Y X)”,打開“Multivariate(Y X)”對(duì)話框,將變量x1x7選為Y變量。 首先,單擊“Method”按鈕,在打開的對(duì)話框中單擊“Rota

52、tion Options”按鈕,打開“Rotation Options”對(duì)話框,選擇旋轉(zhuǎn)方式為“Quartimax(最大四分位法)”,并修改“Components”的值為3,如圖6-25所示。第70頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 然后,單擊“Output”按鈕,在打開的對(duì)話框中單擊“Principal Component Analysis”復(fù)選框下面的“Principal Component Options”按鈕,打開“Principal Component Options”對(duì)話框。 選中“Component Rotation”復(fù)選框(圖左),單擊“Rotation

53、 Options”按鈕,打開“Rotation Options”對(duì)話框,增加選中“Output Component Scores”復(fù)選框和“Communality Estimates”復(fù)選框如圖右所示。 第71頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 結(jié)果包括正交旋轉(zhuǎn)矩陣(Orthogonal Rotation Matrix)、旋轉(zhuǎn)后的因子載荷陣(Rotation Correlations (Structure))(圖左),以及各變量的共同度(圖右)。在數(shù)據(jù)集窗口還可以看到旋轉(zhuǎn)前后的因子得分。第72頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四2. 因子分析的結(jié)果

54、分析 從旋轉(zhuǎn)后的因子模型(即因子載荷陣)中可以看出,相對(duì)于旋轉(zhuǎn)前的因子模型,第一個(gè)公因子在x1、x5上的載荷增加,而在x2、x6、x7三個(gè)指標(biāo)上的載荷明顯減少。公因子1的載荷有正有負(fù),正載荷主要是x5和x1,它們是鈉鹽形成的顯示;負(fù)載荷主要是x3和x4,它們表示了鉀鹽形成的必要物質(zhì)來(lái)源。 第二個(gè)公因子在x6(Mg102/Cl)、x7(Na/Cl)兩個(gè)指標(biāo)上的載荷明顯增加,這說(shuō)明第二公因子是鉀鹽形成的條件的顯示。 第三個(gè)公因子中起主要作用的是x2(Br103/Cl),它是鉀鹽或鉀礦化的一個(gè)環(huán)境標(biāo)志。第73頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 回到INSIGHT數(shù)據(jù)窗口,用鼠

55、標(biāo)單擊左上角的三角箭頭,在彈出的菜單中選擇“Extract”,打開“Extract”對(duì)話框,按下“Ctrl”鍵,用鼠標(biāo)選定ID、RT1、RT2和RT3,如圖6-28左所示,單擊“OK”按鈕,得到只包含編號(hào)及旋轉(zhuǎn)后因子得分的數(shù)據(jù)子集如圖6-29右。 第74頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 利用數(shù)據(jù)窗口的排序功能,依次按三種公因子排序結(jié)果如圖6-30所示。 第75頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四 圖6-31是根據(jù)樣品的因子得分,取RT1和RT2兩個(gè)因子軸作因子得分圖??梢?0個(gè)鹽泉除第3號(hào)和7號(hào)外可分為三類:第一類為第1420號(hào)鹽泉,它們以第一因

56、子軸上得分高,F(xiàn)2上得分絕對(duì)值低為特征;第二類為第813號(hào)鹽泉,它們以F1上得分絕對(duì)值小,F(xiàn)2上得分為較大的負(fù)值為特征;第三類為第16號(hào)鹽泉,它們以F1上得分為較大負(fù)值為特征。這三類表示三種不同的鹽泉。第76頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四6.2.3 使用FACTOR過(guò)程進(jìn)行因子分析1. FACTOR過(guò)程簡(jiǎn)介PROC FACTOR DATA = ; VAR ; PRIORS ; PARTIAL ; FREQ ; WEIGHT ; BY ;RUN;第77頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四(1) PROC FACTOR語(yǔ)句 PROC FACTOR語(yǔ)

57、句標(biāo)志FACTOR過(guò)程的開始,同時(shí)還可通過(guò)設(shè)置其他語(yǔ)句定義數(shù)據(jù)集、指定具體分析方法和過(guò)程等??稍O(shè)置的選項(xiàng)及其功能見表6-7。 通常只需要VAR語(yǔ)句作為PROC FACTOR語(yǔ)句的附加選項(xiàng),其余均可省略。(2) VAR語(yǔ)句 VAR語(yǔ)句用來(lái)指定需要分析的數(shù)值變量。如果該句省略,那么在其他語(yǔ)句中未做特殊規(guī)定的所有數(shù)值變量都將被分析。第78頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四(3) PARTIAL語(yǔ)句 如果想將因子分析建立在偏相關(guān)陣或協(xié)差陣的基礎(chǔ)上,可用PARTIAL語(yǔ)句,以便程序?qū)ARTIAL語(yǔ)句列出的變量的效果從整體分析中劃分出來(lái)。(4) PRIOR語(yǔ)句 PRIOR語(yǔ)句為每

58、一個(gè)變量指定一個(gè)從0.0到1.0之間的初始共性方差估計(jì)值。第一個(gè)數(shù)值對(duì)應(yīng)于VAR語(yǔ)句中的第一個(gè)變量,第二個(gè)數(shù)值對(duì)應(yīng)第二個(gè)變量,依次類推。給出的數(shù)值個(gè)數(shù)必須與變量個(gè)數(shù)相等。 可以用“PROC FACTOR”語(yǔ)句中的“PRIORS =”選項(xiàng)指定各種各樣的共性方差估計(jì)方法。第79頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四2. PROC SCORE得分過(guò)程 FACTOR過(guò)程的輸出結(jié)果包括特征值情況、因子載荷、公因子解釋比例,等等。為了計(jì)算因子得分,一般在PROC FACTOR語(yǔ)句中加一個(gè)SCORE選項(xiàng)和“OUTSTAT = 輸出數(shù)據(jù)集”選項(xiàng),然后用如下的得分過(guò)程計(jì)算公因子得分。PROC

59、 SCORE DATA = SCORE = OUT = ; VAR ;RUN;第80頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四3. 實(shí)例分析【例6-5】2004年31個(gè)省市自治區(qū)經(jīng)濟(jì)發(fā)展基本情況的八項(xiàng)指標(biāo),原始數(shù)據(jù)如表6-8所示。表6-8 31個(gè)省市自治區(qū)經(jīng)濟(jì)發(fā)展基本情況假定上述數(shù)據(jù)存放在數(shù)據(jù)集Mylib.jjfz中,試對(duì)經(jīng)濟(jì)發(fā)展基本情況的八項(xiàng)指標(biāo)作因子分析。地區(qū)GDP x1工業(yè)生產(chǎn)總值x2固定資產(chǎn)投資x3居民消費(fèi)水平x4貨物周轉(zhuǎn)量x5居民消費(fèi)價(jià)格指數(shù)x6商品零售價(jià)格指數(shù)x7職工平均工資x8北京4283.311290.162528.211354.23537.7100.95299

60、.24929674天津2931.881436.731245.66806.1111223102.255100.8321754河北8768.794086.433218.762619.184029.2104.25103.1712925山西3042.411568.471443.881147.271417.7104.14103.0612943新疆2200.157451147.15663.52727.8102.712100.7514484第81頁(yè),共91頁(yè),2022年,5月20日,17點(diǎn)25分,星期四(1) 主成分解PROC FACTOR DATA= Mylib.jjfz SIMPLE CORR; Var

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論