SPSS的多元統(tǒng)計分析課件(PPT 241頁)_第1頁
SPSS的多元統(tǒng)計分析課件(PPT 241頁)_第2頁
SPSS的多元統(tǒng)計分析課件(PPT 241頁)_第3頁
SPSS的多元統(tǒng)計分析課件(PPT 241頁)_第4頁
SPSS的多元統(tǒng)計分析課件(PPT 241頁)_第5頁
已閱讀5頁,還剩236頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、 第9章 SPSS的多元統(tǒng)計分析第1頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用9.1.1 因子分析的基本原理1、方法概述 人們在研究實際問題時,往往希望盡可能多的收集相關(guān)變量,以期望對問題有比較全面、完整的把握和認(rèn)識 。 為解決這些問題,最簡單和最直接的解決方案是減少變量數(shù)目,但這必然又會導(dǎo)致信息丟失或不完整等問題。為此,人們希望探索一種有效的解決方法,它既能減少參與數(shù)據(jù)分析的變量個數(shù),同時也不會造成統(tǒng)計信息的大量浪費和丟失。 因子分析就是在盡可能不損失信息或者少損失信息的情況下,將多個 變量減少為少數(shù)幾個因子的方法。這幾個因子可以高度概括大量數(shù)據(jù)中的信息,這樣,既減少了變量個數(shù),又同

2、樣能再現(xiàn)變量之間的內(nèi)在聯(lián)系。第2頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用2、基本原理通常針對變量作因子分析,稱為R型因子分析;另一種對樣品作因子分析,稱為Q型因子分析,這兩種分析方法有許多相似之處。R型因子分析數(shù)學(xué)模型是:設(shè)原有p個變量 且每個變量(或經(jīng)標(biāo)準(zhǔn)化處理后)的均值為0,標(biāo)準(zhǔn)差為1。現(xiàn)將每個原有變量用k( )個因子 的線性組合來表示,即有:上式就是因子分析的的數(shù)學(xué)模型,也可以用矩陣的形式表示為 第3頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用其中,X是可實測的隨機(jī)向量。F稱為因子,由于它們出現(xiàn)在每個原有變量的線性表達(dá)式中,因此又稱為公共因子。A稱為因子載荷矩陣, 稱為因

3、子載荷。 稱為特殊因子,表示了原有變量不能被因子解釋的部分,其均值為0 因子分析的基本思想是通過對變量的相關(guān)系數(shù)矩陣內(nèi)部結(jié)構(gòu)的分析,從中找出少數(shù)幾個能控制原始變量的隨機(jī)變量 選取公共因子的原則是使其盡可能多的包含原始變量中的信息,建立模型 ,忽略 , 以F代替X,用它再現(xiàn)原始變量X的信息,達(dá)到簡化變量降低維數(shù)的目的。第4頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用3、基本步驟 由于實際中數(shù)據(jù)背景、特點均不相同,故采用因子分析步驟上可能略有差異,但是一個較完整的因子分析主要包括如下幾個過程:(1) 確認(rèn)待分析的原變量是否適合作因子分析 因子分析的主要任務(wù)是將原有變量的信息重疊部分提取和綜合

4、成因子,進(jìn)而最終實現(xiàn)減少變量個數(shù)的目的。故它要求原始變量之間應(yīng)存在較強(qiáng)的相關(guān)關(guān)系。進(jìn)行因子分析前,通??梢圆扇∮嬎阆嚓P(guān)系數(shù)矩陣、巴特利特球度檢驗和KMO檢驗等方法來檢驗候選數(shù)據(jù)是否適合采用因子分析。(2)構(gòu)造因子變量 將原有變量綜合成少數(shù)幾個因子是因子分析的核心內(nèi)容。它的關(guān)鍵是根據(jù)樣本數(shù)據(jù)求解因子載荷陣。因子載荷陣的求解方法有基于主成分模型的主成分分析法、基于因子分析模型的主軸因子法、極大似然法等。第5頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用(3)利用旋轉(zhuǎn)方法使因子變量更具有可解釋性 將原有變量綜合為少數(shù)幾個因子后,如果因子的實際含義不清,則不利于后續(xù)分析。為解決這個問題,可通過因子

5、旋轉(zhuǎn)的方式使一個變量只在盡可能少的因子上有比較高的載荷,這樣使提取出的因子具有更好的解釋性。(4)計算因子變量得分 實際中,當(dāng)因子確定以后,便可計算各因子在每個樣本上的具體數(shù)值,這些數(shù)值稱為因子得分。于是,在以后的分析中就可以利用因子得分對樣本進(jìn)行分類或評價等研究,進(jìn)而實現(xiàn)了降維和簡化問題的目標(biāo)。第6頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用 根據(jù)上述步驟,可以得到進(jìn)行因子分析的詳細(xì)計算過程如下。將原始數(shù)據(jù)標(biāo)準(zhǔn)化,以消除變量間在數(shù)量級和量綱上的不同。求標(biāo)準(zhǔn)化數(shù)據(jù)的相關(guān)矩陣。求相關(guān)矩陣的特征值和特征向量。計算方差貢獻(xiàn)率與累積方差貢獻(xiàn)率。確定因子:設(shè)F1,F(xiàn)2, Fp為p個因子,其中前m個

6、因子包含的 數(shù)據(jù)信息總量(即其累積貢獻(xiàn)率)不低于85%時,可取前m個因子來反映原評價指標(biāo)。因子旋轉(zhuǎn):若所得的m個因子無法確定或其實際意義不是很明顯,這時需將因子進(jìn)行旋轉(zhuǎn)以獲得較為明顯的實際含義。用原指標(biāo)的線性組合來求各因子得分。綜合得分:通常以各因子的方差貢獻(xiàn)率為權(quán),由各因子的線性組合得到綜合評價指標(biāo)函數(shù)。第7頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用9.1.2 因子分析的SPSS操作詳解Step01:打開對話框選擇菜單欄中的【Analyze(分析)】【Data Reduction(降維)】【Factor(因子)】命令,彈出【Factor Analysis(因子分析)】對話框,這是因子

7、分析的主操作窗口。第8頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用 Step02:選擇因子分析變量 在【Factor Analysis(因子分析)】對話框左側(cè)的候選變量列表框中選擇進(jìn)行因子分析的變量,將其添加至【Variables(變量)】列表框中。如果要選擇參與因子分析的樣本,則需要將條件變量添加至【Selection Variable(選擇變量)】列表框中,并單擊【Value】按鈕輸入變量值,只有滿足條件的樣本數(shù)據(jù)才能進(jìn)行后續(xù)的因子分析。Step03:選擇描述性統(tǒng)計量 單擊【Descriptives】按鈕,在彈出的對話框中可以選擇輸出描述性統(tǒng)計量及相關(guān)矩陣等內(nèi)容 。第9頁,共241頁

8、。9.1 SPSS在因子分析中的應(yīng)用具體選項含義如下: 【Statistics(統(tǒng)計量)】選項組 Univariate descriptives:單變量描述統(tǒng)計量,即輸出參與分析的各原始變量的均值、標(biāo)推差等。 Initial solution:初始分析結(jié)果,系統(tǒng)默認(rèn)項。輸出各個分析變量的初始共同度、特征值以及解釋方差的百分比等。 【Correlation Matrix(相關(guān)矩陣)】選項組 Coefficients:原始分析變量間的相關(guān)系數(shù)矩陣。 Significance levels:顯著性水平。輸出每個相關(guān)系數(shù)相對于相關(guān)系數(shù)為0 的單尾假設(shè)檢驗的概率水平。 Determinant:相關(guān)系數(shù)矩

9、陣的行列式。 Inverse:相關(guān)系數(shù)矩陣的逆矩陣。 Reproduced:再生相關(guān)矩陣。輸出因子分析后的相關(guān)矩陣以及殘差陣。 Anti-image:象相關(guān)陣。包括偏相關(guān)系數(shù)的負(fù)數(shù)以及偏協(xié)方差的負(fù)數(shù)。在一個好的因子模型中,除對角線上的系數(shù)較大外,遠(yuǎn)離對角線的元素應(yīng)該比較小。第10頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用 KMO and Bartletts test of sphericity:KMO 和Bartlett 檢驗。前者輸出抽樣充足度的Kaisex-Meyer-Olkin 測度,用于檢驗變量間的偏相關(guān)是否很小。后者Bartlett 球度方法檢驗相關(guān)系數(shù)陣是否是單位陣。如果是

10、單位陣,則表明因子模型不合適采用因子模型。第11頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用Step04:選擇因子提取方法 單擊【 Extract(抽取)】按鈕,在彈出的對話框中可以選擇提取因子的方法及相關(guān)選項。 在【Method(方法)】框下拉列表框中可以選擇因子提取方法。 Principal components:主成份分析法。該方法假設(shè)變量是因子的純線性組合。第一成分有最大的方差,后續(xù)的成分其可解釋的方差逐個遞減。 Unweighted least square :不加權(quán)最小二乘法。 Generalized least squares :加權(quán)最小二乘法。 Maximum likel

11、ihood :極大似然法。 Principal axis factoring :主軸因子提取法。 Alphafa ctoring:因子提取法。 Image factoring:映象因子提取法。第12頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用 【Analyze(分析)】選項組 Correlation matrix:相關(guān)系數(shù)矩陣,系統(tǒng)默認(rèn)項。 Covariance matrix:協(xié)方差矩陣。 【Display(輸出)】選項組:輸出與因子提取有關(guān)的選項。 Unrotated factor solution:輸出未經(jīng)旋轉(zhuǎn)的因子提取結(jié)果。此項為系統(tǒng)默認(rèn)的輸出方式。 Scree plot:輸出因子

12、的碎石圖。它顯示了按特征值大小排列的因子序號。它有助于確定保留多少個因子。典型的碎石圖會有一個明顯的拐點,在該點之前是與大因子連接的陡峭的折線,之后是與小因子相連的緩坡折線。第13頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用 【Extract(抽?。?選項組:輸出與提取結(jié)果有關(guān)的選擇項。由于理論上因子數(shù)目與原始變量數(shù)目相等,但因子分析的目的是用少量因子代替多個原始變量,選擇提取多少個因子是由本欄來決定。 Eigenvalues over:指定提取的因子的特征值數(shù)目。在此項后面的矩形框中給出輸入數(shù)值(系統(tǒng)默認(rèn)值為1),即要求提取那些特征值大于1 的因子。 Number of f acto

13、rs:指定提取公因子的數(shù)目。用鼠標(biāo)單擊選擇此項后,將指定其數(shù)目。 Maximum iterations for Convergence:在對應(yīng)的文本框中指定因子分析收斂的最大迭代次數(shù)。系統(tǒng)默認(rèn)的最大迭代次數(shù)為25。第14頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用Step05:選擇因子旋轉(zhuǎn)方法 單擊【Rotation】按鈕,在彈出的對話框可以選擇因子旋轉(zhuǎn)方法及相關(guān)選項。第15頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用【Method(方法)】選項組選擇旋轉(zhuǎn)方法。None:不進(jìn)行旋轉(zhuǎn),此為系統(tǒng)默認(rèn)的選擇項。Varimax:方差最大旋轉(zhuǎn)法。這是一種正交旋轉(zhuǎn)方法。它使每個因子具有最高載荷

14、的變量數(shù)最小,因此可以簡化對因子的解釋。 Direct Oblimin:直接斜交旋轉(zhuǎn)法。指定此項可以在下面的“Delta”矩形框中鍵入值,該值應(yīng)該在01 之間。系統(tǒng)默認(rèn)的值為0。Quartma:四次方最大正變旋轉(zhuǎn)法。該旋轉(zhuǎn)方法使每個變量中需要解釋的因子數(shù)最少。Equamax:平均正交旋轉(zhuǎn)法。Promax:斜交旋轉(zhuǎn)方法。允許因子彼此相關(guān)。它比直接斜交旋轉(zhuǎn)更快,因此適用于大數(shù)據(jù)集的因子分析。指定此項可以在下面的“Kappa”矩形框中鍵入“”值,默認(rèn)為4(此值最適合于分析)?!綝isplay(輸出)】選項組:選擇有關(guān)輸出顯示。 Rotated solution:旋轉(zhuǎn)解。在Method欄中指定旋轉(zhuǎn)方法

15、才能選擇此項。 Lodingp lot(s):因子載荷散點圖。指定此項將給出以前兩因子為坐標(biāo)軸的各變量的載荷散點圖。 Maximum iterations for Convergence:可以指定旋轉(zhuǎn)收斂的最大迭代次數(shù)。系統(tǒng)默認(rèn)值為25??梢栽诖隧椇竺娴奈谋究蛑休斎胫付ㄖ怠5?6頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用Step06:選擇因子得分單擊【Scores】按鈕,在彈出的對話框中可以選擇因子得分方法及相關(guān)選項。具體選項含義如下。第17頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用【Save as variables(保存為變量)】選項組:將因子得分作為新變量保存在數(shù)據(jù)文件中

16、。 Save as variables:將因子得分作為新變量保存在工作數(shù)據(jù)文件。中。程序運行結(jié)束后,在數(shù)據(jù)窗中顯示出新變量?!綧ethod(方法)】選項組:指定計算因子得分的方法。Regression:回歸法。選擇此項,其因子得分的均值為0。方差等于估計的因子得分與實際因子得分值之間的復(fù)相關(guān)系數(shù)的平方。 Bartlett:巴特利特法。選擇此項,因子得分均值為0。超出變量范圍的各因子平方和被最小化。Anderson-Rubin:安德森一魯賓法。選擇此項,是為了保證因子的正交性。本例選中“Regression”項。 在輸出窗中顯示因子得分。 Display factor score coeffic

17、ient matrix:輸出因子得分系數(shù)矩陣。第18頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用Step07:其他選項輸出單擊【Options】按鈕,在彈出的對話框中可以選擇一些附加輸出項。具體選項含義如下。第19頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用【MissingValues(缺失值)】選項組:選擇處理缺失值方法。 Exclude cases listwise:分析變量中帶有缺失值的觀測量都不參與后續(xù)分析。 Exclude cases pairwise:成對剔除帶有缺失值的觀測量。 Replace with mean:用該變量的均值代替工作變量的所有缺失值?!綜oeffi

18、cient Display Format(系數(shù)顯示格式)】選項組:選擇載荷系數(shù)的顯示格式。 Sorted by size:將載荷系數(shù)按其大小排列構(gòu)成矩陣,使在同一因子上具有較高載荷的變量排在一起。便于得出結(jié)論。 Suppress absolute values less than:不顯示那些絕對值小于指定值的載荷系數(shù)。選擇此項后還需要在該項的參數(shù)框中鍵入01之間的數(shù)作為臨界值。系統(tǒng)默認(rèn)的臨界值為0.10。Step08:單擊【OK】按鈕,結(jié)束操作,SPSS軟件自動輸出結(jié)果。第20頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用9.1.3 實例分析:居民消費結(jié)構(gòu)的變動1. 實例內(nèi)容 消費結(jié)構(gòu)是指

19、在消費過程中各項消費支出占居民總支出的比重。它是反映居民生活消費水平、生活質(zhì)量變化狀況以及內(nèi)在過程合理化程度的重要標(biāo)志。而消費結(jié)構(gòu)的變動不僅是消費領(lǐng)域的重要問題, 而且也關(guān)系到整個國民經(jīng)濟(jì)的發(fā)展。因為合理的消費結(jié)構(gòu)及消費結(jié)構(gòu)的升級和優(yōu)化不僅反映了消費的層次和質(zhì)量的提高, 而且也為建立合理的產(chǎn)業(yè)結(jié)構(gòu)和產(chǎn)品結(jié)構(gòu)提供了重要的依據(jù)。 表9-1是某市居民生活費支出費用,具體分為食品、衣著、家庭設(shè)備用品及服務(wù)、醫(yī)療保健、交通通訊、文教娛樂及服務(wù)、居住和雜項商品與服務(wù)等8個部分。請利用因子分析探討該市居民消費結(jié)構(gòu),為產(chǎn)業(yè)政策的制定和宏觀經(jīng)濟(jì)的調(diào)控提供參考。第21頁,共241頁。9.1 SPSS在因子分析中的

20、應(yīng)用2. 實例操作 數(shù)據(jù)文件9-1.sav是某市居民在食品、衣著、醫(yī)療保健等八個方面的消費數(shù)據(jù),這些指標(biāo)之間存在著不同強(qiáng)弱的相關(guān)性。如果單獨分析這些指標(biāo),無法能夠分析居民消費結(jié)構(gòu)的特點。因此,可以考慮采用因子分析,將這八個指標(biāo)綜合為少數(shù)幾個因子,通過這些公共因子來反映居民消費結(jié)構(gòu)的變動情況。第22頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用3. 實例結(jié)果及分析(1)描述性統(tǒng)計表 下表顯示了食品、衣著等這八個消費支出指標(biāo)的描述統(tǒng)計量,例如均值、標(biāo)準(zhǔn)差等。這為后續(xù)的因子分析提供了一個直觀的分析結(jié)果。可以看到,食品支出消費所占的比重最大,其均值等于39.4750%,其次是文化娛樂服務(wù)支出消費和

21、交通通信支出消費。所有的消費支出中,醫(yī)療保健消費支出占的比重最低。第23頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用Mean Std. Deviation Analysis N 食品 39.4750 2.29705 8衣著 6.4875 .86592 8家庭設(shè)備用品及服務(wù) 7.9125 2.87772 8醫(yī)療保健 6.3625 1.54729 8交通和通信 8.1750 2.61302 8文化娛樂服務(wù) 14.4750 2.30016 8居住 12.1625 2.91545 8雜項商品與服務(wù) 2.9125 .52491 8第24頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用(2)因子分

22、析共同度 下表是因子分析的共同度,顯示了所有變量的共同度數(shù)據(jù)。第一列是因子分析初始解下的變量共同度。它表明,對原有八個變量如果采用主成分分析法提取所有八個特征根,那么原有變量的所有方差都可被解釋,變量的共同度均為1(原有變量標(biāo)準(zhǔn)化后的方差為1)。 事實上,因子個數(shù)小于原有變量的個數(shù)才是因子分析的目的,所以不可能提取全部特征根。于是,第二列列出了按指定提取條件(這里為特征根大于1)提取特征根時的共同度??梢钥吹?,所有變量的絕大部分信息(全部都大于83)可被因子解釋,這些變量信息丟失較少。因此本次因子提取的總體效果理想。第25頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用Initial Ext

23、raction食品 1.000 .842 衣著 1.000 .842家庭設(shè)備用品及服務(wù) 1.000 .976醫(yī)療保健 1.000 .954交通和通信 1.000 .925文化娛樂服務(wù) 1.000 .953居住 1.000.978雜項商品與服務(wù) 1.000.947第26頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用 (3)因子分析的總方差解釋 接著Spss軟件計算得到相關(guān)系數(shù)矩陣的特征值、方差貢獻(xiàn)率及累計方差貢獻(xiàn)率結(jié)果如表9-4所示。在下頁表中,第一列是因子編號,以后三列組成一組,組中數(shù)據(jù)項的含義依次是特征根、方差貢獻(xiàn)率和累計貢獻(xiàn)率。 第一組數(shù)據(jù)項(第二至第四列)描述了初始因子解的情況??梢?/p>

24、看到,第一個因子的特征根值為4.316,解釋了原有8個變量總方差的53.947。前三個因子的累計方差貢獻(xiàn)率為94.196,并且只有它們的取值大于1。說明前3個公因子基本包含了全部變量的主要信息,因此選前3個因子為主因子即可。 同時,Extraction Sums of Squared Loadings和Rotation Sums of Squared Loadings部分列出了因子提取后和旋轉(zhuǎn)后的因子方差解釋情況。從表中看到,它們都支持選擇3個公共因子。第27頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用因子分析的總方差解釋 第28頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用(4)因

25、子碎石圖 下圖為因子分析的碎石圖。橫坐標(biāo)為因子數(shù)目,縱坐標(biāo)為特征根。可以看到,第一個因子的特征值很高,對解釋原有變量的貢獻(xiàn)最大;第三個以后的因子特征根都較小,取值都小于1,說明它們對解釋原有變量的貢獻(xiàn)很小,稱為可被忽略的“高山腳下的碎石”,因此提取前三個因子是合適的。第29頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用第30頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用 (5)旋轉(zhuǎn)前的因子載荷矩陣 下表中顯示了因子載荷矩陣,它是因子分析的核心內(nèi)容。通過載荷系數(shù)大小可以分析不同公共因子所反映的主要指標(biāo)的區(qū)別。從結(jié)果看,大部分因子解釋性較好,但是仍有少部分指標(biāo)解釋能力較差,例如“食品”指標(biāo)

26、在三個因子的載荷系數(shù)區(qū)別不大。因此接著采用因子旋轉(zhuǎn)方法使得因子載荷系數(shù)向0或1兩極分化,使大的載荷更大,小的載荷更小。這樣結(jié)果更具可解釋性。第31頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用旋轉(zhuǎn)前的因子載荷矩陣 第32頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用(6)旋轉(zhuǎn)后的因子載荷矩陣 下表中顯示了實施因子旋轉(zhuǎn)后的載荷矩陣。可以看到,第一主因子在“交通和通信”和“醫(yī)療保健”等五個指標(biāo)上具有較大的載荷系數(shù),第二主因子在“居住”和“衣著”指標(biāo)上系數(shù)較大,而第三主因子在“雜項商品與服務(wù)”上的系數(shù)最大。此時,各個因子的含義更加突出。第33頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用

27、實施因子旋轉(zhuǎn)后的載荷矩陣 第34頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用 可以看出第一個公因子主要反映了交通和通信、醫(yī)療保健、文化娛樂服務(wù)、家庭設(shè)備用品及服務(wù)和食品上有較大載荷,說明第一個公因子綜合反映這幾個方面的變動情況,可以將其命名為第一基本生活消費因子,即享受性消費因子。 第二個公因子在居住、衣著上的載荷系數(shù)較大,代表了這兩個方面的變動趨勢,可以將其命名為第二基本生活消費因子,即發(fā)展性消費因子。 第三個公因子在雜項商品與服務(wù)上的消費變動較大,因此可以將第三個公因子命名為第三基本生活消費因子,即其他類型消費因子。 第35頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用(7)因子

28、得分系數(shù) 下表中列出了采用回歸法估計的因子得分系數(shù)。根據(jù)表中內(nèi)容可寫出以下因子得分函數(shù): 因子F1=-0.198X1+0.058X2-0.226X3+0.212X4+0.221X5+0.211X6+0.079X7+0.015X8; 因子F2=0.123X1+0.425X2+0.200X3+0.094X4+0.008X5+0.096X6-0.498X7+0.015X8; 因子F3=0.365X1-0.059X2-0.174X3+0.069X4+0.119X5-0.077X6-0.088X7+0.779X8;第36頁,共241頁。9.1 SPSS在因子分析中的應(yīng)用因子得分系數(shù) 第37頁,共241頁

29、。9.1 SPSS在因子分析中的應(yīng)用 不僅如此,原數(shù)據(jù)文件中增加了FAC1_1、FAC2_1和FAC3_1三個變量,它們表示了三個因子在不同年份的得分值。為了進(jìn)一步揭示因子的變動情況,繪制了如下圖所示的因子變動趨勢圖。第38頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用9.2.1 聚類分析的基本原理1、方法概述 聚類分析又稱群分析,它是研究(樣品或指標(biāo))分類問題的一種多元統(tǒng)計方法,所謂類,通俗地說,就是指相似元素的集合。 2、聚類分析的分類根據(jù)分類對象的不同可分為樣品聚類和變量聚類。(1)樣品聚類 樣品聚類在統(tǒng)計學(xué)中又稱為Q 型聚類。用SPSS 的術(shù)語來說就是對事件(Cases)進(jìn)行聚類,

30、或是說對觀測量進(jìn)行聚類。它是根據(jù)被觀測的對象的各種特征,即反映被觀測對象的特征的各變量值進(jìn)行分類。第39頁,共241頁。由上圖可以看出,在20002007年期間,第一公因子除了在開始階段有些下降外,此后每年都在逐步回升,并于2006年達(dá)到最高點。這主要是由于前幾年國企改革和中國經(jīng)濟(jì)的軟著陸,下崗職工大量增加,因此這段時間人們在享受性消費上的支出是減少的,而在其他基本生活消費上的支出增加。而隨著經(jīng)濟(jì)的發(fā)展和收入的增加,享受性消費逐步增加,其他生活消費由于享受性消費的突然增加而減少后也會逐漸增加。第二公因子得分的起伏波動主要是由市民住房比重有升有降的變動引起的,根本原因還是和國家執(zhí)行住房改革的力度

31、密切相關(guān),但由于住房改革政策的推行相對于其他政策而言較為緩慢,所以市民對住房消費存在一定的不確定性,這就造成了住房比重在總消費中的升降變化。第三公因子一直波動不已,這說明市民在雜項上的消費仍有較大的發(fā)展空間。第40頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用(2)變量聚類 變量聚類在統(tǒng)計學(xué)又稱為R 型聚類。反映同一事物特點的變量有很多,我們往往根據(jù)所研究的問題選擇部分變量對事物的某一方面進(jìn)行研究。由于人類對客觀事物的認(rèn)識是有限的,往往難以找出彼此獨立的有代表性的變量,而影響對問題的進(jìn)一步認(rèn)識和研究。例如在回歸分析中,由于自變量的共線性導(dǎo)致偏回歸系數(shù)不能真正反映自變量對因變量的影響等。因此

32、往往先要進(jìn)行變量聚類,找出彼此獨立且有代表性的自變量,而又不丟失大部分信息。 值得提出的是將聚類分析和其它方法聯(lián)合起來使用,如判別分析、主成分分析、回歸分析等往往效果更好。第41頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用3、距離和相似系數(shù) 為了將樣品(或指標(biāo))進(jìn)行分類,就需要研究樣品之間關(guān)系。目前用得最多的方法有兩個:一種方法是用相似系數(shù),性質(zhì)越接近的樣品,它們的相似系數(shù)的絕對值越接近1,而彼此無關(guān)的樣品,它們的相似系數(shù)的絕對值越接近于零。比較相似的樣品歸為一類,不怎么相似的樣品歸為不同的類。另一種方法是將一個樣品看作P維空間的一個點,并在空間定義距離,距離越近的點歸為一類,距離較遠(yuǎn)的

33、點歸為不同的類。但相似系數(shù)和距離有各種各樣的定義,而這些定義與變量的類型關(guān)系極大。第42頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用常用的距離和相似系數(shù)定義如下:(1)距離如果把n個樣品(X中的n個行)看成p維空間中n個點,則兩個樣品間相似程度可用p維空間中兩點的距離來度量。令dij表示樣品Xi與Xj的距離。常用的距離有:明氏(Minkowski)距離當(dāng)q=1時 即絕對距離當(dāng)q=2時 即歐氏距離當(dāng) 時 即切比雪夫距離第43頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用馬氏(Mahalanobis)距離 其中 表示指標(biāo)的協(xié)差陣,即: 馬氏距離既排除了各指標(biāo)之間相關(guān)性的干擾,而且還不受各

34、指標(biāo)量綱的影響。除此之外,它還有一些優(yōu)點,如可以證明,將原數(shù)據(jù)作一線性交換后,馬氏距離仍不變等等。第44頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用 蘭氏(Canberra)距離 它是由Lance和Williams最早提出的,故稱蘭氏距離。 此距離僅適用于一切的情況,這個距離有助于克服各指標(biāo)之間量綱的影響,但沒有考慮指標(biāo)之間的相關(guān)性。 第45頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用(2)相似系數(shù)研究樣品之間的關(guān)系,除了用距離表示外,還有相似系數(shù),顧名思義,相似系數(shù)是描寫樣品之間相似程度的一個量,常用的相似系數(shù)有: 夾角余弦將任何兩個樣品 與 看成p維空間的兩個向量,這兩個向量的

35、夾角余弦用 表示。則當(dāng) ,說明兩個樣品 與 完全相似; 接近1,說明 與 相似密切; ,說明 與 完全不一樣; 接近0,說明 與 差別大。第46頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用 相關(guān)系數(shù) 通常所說相關(guān)系數(shù),一般指變量間的相關(guān)系數(shù),作為刻劃樣品間的相似關(guān)系也可類似給出定義,即第i個樣品與第j個樣品之間的相關(guān)系數(shù)定義為:其中 聚類分析內(nèi)容非常豐富,有系統(tǒng)聚類法、有序樣品聚類法、動態(tài)聚類法、模糊聚類法等。本節(jié)主要介紹使用較多的快速聚類法和系統(tǒng)聚類法。第47頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用9.2.2 快速聚類法的SPSS操作詳解 K-均值聚類法又叫快速聚類法,可以用

36、于大量數(shù)據(jù)進(jìn)行聚類分析的情形。它是一種非分層的聚類方法。這種方法占用內(nèi)存少、計算量、處理速度快,特別適合大樣本的聚類分析。它的基本操作步驟如下: 1、指定聚類數(shù)目k,應(yīng)由用戶指定需要聚成多少類,最終也只能輸出關(guān)于它的唯一解。這點不同于層次聚類。 2、確定k個初始類的中心。兩種方式:一種是用戶指定方式,二是根據(jù)數(shù)據(jù)本身結(jié)構(gòu)的中心初步確定每個類別的原始中心點。 3、根據(jù)距離最近原則進(jìn)行分類。逐一計算每一記錄到各個中心點的距離,把各個記錄按照距離最近的原則歸入各個類別,并計算新形成類別的中心點 4、按照新的中心位置,重新計算每一記錄距離新的類別中心點的距離,并重新進(jìn)行歸類。 5、重復(fù)步驟4,直到達(dá)到

37、一定的收斂標(biāo)準(zhǔn)。 這種方法也常稱為逐步聚類分析,即先把被聚對象進(jìn)行初始分類,然后逐步調(diào)整,得到最終分類。第48頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用Step01:打開對話框 選擇菜單欄中的【Analyze(分析)】【Classify(分類)】【K-Means Cluster(K均值聚類)】命令,彈出【K-Means Cluster Analysis(K均值聚類分析)】對話框,這是快速聚類分析的主操作窗口。第49頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用 Step02:選擇聚類分析變量 在【K-Means Cluster Analysis(K均值聚類分析)】對話框左側(cè)的候選變

38、量列表框中選擇進(jìn)行聚類分析的變量,將其添加至【Variables(變量)】列表框中。同時可以選擇一個標(biāo)識變量移入【Label Cases by(個案標(biāo)記依據(jù))】列表框中。Step03:確定分類個數(shù) 在【Number of Clusters(聚類數(shù))】列表框中,可以輸入確定的聚類分析數(shù)目,用戶可以根據(jù)需要自行修改調(diào)整。系統(tǒng)默認(rèn)的聚類數(shù)為2.Step04:選擇聚類方法 在【Method(方法)】下拉列表框中可以選擇聚類方法。系統(tǒng)默認(rèn)值選擇【Iterative and classify(迭代與分類)】項。 Iterate and classify:選擇初始類中心,在迭代過程中不斷更新聚類中心。把觀測

39、量分派到與之最近的以類中心為標(biāo)志的類中去。 Classify only:只使用初始類中心對觀測量進(jìn)行分類,聚類中心始終不變。第50頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用Step05:聚類中心的輸入與輸出 在主對話框中,【Cluster Centers(聚類中心)】選項組表示輸入和輸出聚類中心。用戶可以指定外部文件或數(shù)據(jù)集作為初始聚類中心點,也可以將聚類分析的聚類中心結(jié)果輸出到指定文件或數(shù)據(jù)集中。 Read initial:要求使用指定數(shù)據(jù)文件中的觀測量或建立數(shù)據(jù)集作為初始類中心。 Write final as File:要求把聚類結(jié)果中的各類中心數(shù)據(jù)保存到指定的文件或數(shù)據(jù)集中。第5

40、1頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用 在主對話框中單擊Iterate(迭代)按鈕,打開設(shè)置迭代參數(shù)的對話框圖,這里可以進(jìn)一步選擇迭代參數(shù)。 Maximum Iterations:輸入K-Means 算法中的迭代次數(shù)。改變后面參數(shù)框中的數(shù)字,則改變迭代次數(shù)。當(dāng)達(dá)到限定的迭代次數(shù)上限時,即使沒有滿足收斂判據(jù),迭代也停止。系統(tǒng)默認(rèn)值為10。選擇范圍為1-999。 Convergence Criterion:指定K-Means 算法中的收斂標(biāo)準(zhǔn),輸入一個不超過1的正數(shù)作為判定迭代收斂的標(biāo)準(zhǔn)。系統(tǒng)缺省的收斂標(biāo)準(zhǔn)是0.02,表示當(dāng)兩次迭代計算的最小的類中心的變化距離小于初始類中心距離的百分

41、之2%時迭代停止。提示:如果設(shè)置了以上兩個參數(shù),只要在迭代過程中滿足了一個參數(shù),迭代就停止。 Use running means:使用移動平均。選中該復(fù)選框,限定在每個觀測量被分配到一類后立刻計算新的類中心。如果不選擇此項,則在完成了所有觀測量的一次分配后再計算各類的類中心,這樣可以節(jié)省迭代時間。第52頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用Step07:輸出聚類結(jié)果在主對話框中單擊【Save(保存)】按鈕,彈出【Save New Variables(保存新變量)】對話框,它用于選擇保存新變量。 Cluster membership:在當(dāng)前數(shù)據(jù)文件中建立一個名為“qcl_1”新變量。

42、其值表示聚類結(jié)果,即各觀測量被分配到哪一類。它的取值為1、2、3的序號。 Distance from cluster center:在當(dāng)前數(shù)據(jù)文件中建立一個名為“qcl_2”新變量。其值為各觀測量與所屬類中心之間的歐氏距離。第53頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用Step08:其他選項輸出在主對話框中單擊【Option(選項)】按鈕,彈出【Option(選項)】對話框,它用于指定要計算的統(tǒng)計量和對帶有缺失值的觀測量的處理方式。具體見圖 :【Statistics(統(tǒng)計量)】選項組:選擇輸出統(tǒng)計量。 Initial cluster centers:初始聚類中心。 ANOVA tab

43、le:方差分析表。Cluster information for each case:顯示每個觀測量的聚類信息?!綧issing Values(缺失值)】選項組:選擇處理缺失值方法。 Exclude cases listwise:分析變量中帶有缺失值的觀測量都不參與后續(xù)分析。 Exclude cases pairwise:成對剔除帶有缺失值的觀測量。Step09:單擊【OK】按鈕,結(jié)束操作,SPSS軟件自動輸出結(jié)果。第54頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用9.2.3 實例分析:全國環(huán)境污染程度分析 為了更深入了解我國環(huán)境的污染程度狀況,現(xiàn)利用2009年數(shù)據(jù)對全國31個省、自治區(qū)

44、、直轄市進(jìn)行聚類分析。 第55頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用 現(xiàn)在要分析我國各個地區(qū)的環(huán)境污染程度,案例中選擇了各地區(qū)“工業(yè)廢氣排放總量”、“工業(yè)廢水排放總量”和“二氧化硫排放總量”三個指標(biāo)來反映不同污染程度的環(huán)境狀況,同時選擇了北京等省市的數(shù)據(jù)加以研究。這個問題屬于典型的多元分析問題,需要利用多個指標(biāo)來分析各省市之間環(huán)境污染程度的差異。因此,可以考慮利用快速聚類分析來研究各省市之間的差異性,具體操作步驟如下。第56頁,共241頁。 打隨書光盤中的數(shù)據(jù)文件9-2.sav,選擇菜單欄中的【Analyze(分析)】【Classify(分類)】【K-Means Cluster(K

45、均值聚類)】命令,彈出【K-Means Cluster Analysis(K均值聚類分析)】對話框。 在左側(cè)的候選變量列表框中將X1、X2和X3變量設(shè)定為聚類分析變量,將其添加至【Variables(變量)】列表框中;同時選擇Y作為標(biāo)識變量,將其移入【Label Cases by(個案標(biāo)記依據(jù))】列表框中。 在【Number of Clusters(聚類數(shù))】文本框中輸入數(shù)值“3”,表示將樣品利用聚類分析分為三類,如下圖所示。第57頁,共241頁。第58頁,共241頁。 單擊【Save(保存)】按鈕,彈出【K-Means Cluster Analysis:Save(K均值聚類分析:保存)】對話

46、框;勾選【Cluster membership(聚類新成員)】和【Distance from cluster center(與聚類中心的距離)】復(fù)選框,表示輸出樣品的聚類類別及距離,其他選項保持系統(tǒng)默認(rèn)設(shè)置,如下圖所示,單擊【Continue(繼續(xù))】按鈕返回主對話框。 第59頁,共241頁。單擊【Options(選項)】按鈕,彈出【K-Means Cluster Analysis:Options(K均值聚類分析:選項】對話框;勾選【Statistics(統(tǒng)計量)】選項組中的復(fù)選框,其他選項保持系統(tǒng)默認(rèn)設(shè)置,如下圖所示,單擊【Continue(繼續(xù))】按鈕返回主對話框,單擊【OK(確定)】按鈕

47、完成操作。第60頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用實例結(jié)果及分析(1)快速聚類分析的初始中心 SPSS軟件首先給出了進(jìn)行快速聚類分析的初始中心數(shù)據(jù)。由于這里是要求將樣品分為三類,因此軟件給出了三個中心位置。但是,這些中心位置可能在后續(xù)的迭代計算中出現(xiàn)調(diào)整。 快速聚類分析的初始中心第61頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用(2)迭代歷史表 下表顯示了快速聚類分析的迭代過程??梢钥吹剑谝淮蔚淖兓底畲?,其后隨之減少。最后第三次迭代時,聚類中心就不再變化了。這說明,本次快速聚類的迭代過程速度很快。迭代歷史表 第62頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用

48、(3)聚類分析結(jié)果列表 通過快速聚類分析的最終結(jié)果列表可以看到整個樣品被分為以下三大類。第一類:北京、天津、山西、內(nèi)蒙古等20個地區(qū)。這些地區(qū)工業(yè)廢水、廢氣及二氧化硫的排放總量相對最低。第二類:河北、福建、河南、湖北、湖南、廣西和四川。它們的污染程度在所有省份中位居中等水平。第三類:江蘇、浙江、山東和廣東。這些地區(qū)的工業(yè)廢水、廢氣及二氧化硫排放總量是最高的,因此環(huán)境污染也最為嚴(yán)重。 表中最后一列顯示了樣品和所屬類別中心的聚類,此表中的最后兩列分別作為新變量保存于當(dāng)前的工作文件中。第63頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用(4)最終聚類分析中心表 如下表所示列出了最終聚類分析中心。

49、可以看到,最后的中心位置較初始中心位置發(fā)生了較大的變化。最終聚類分析中心 第64頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用 (5)最終聚類中心位置之間的距離 如下表所示為快速聚類分析最終確定的各類中心位置的距離表。從結(jié)果來看,第一類和第三類之間的距離最大,而第二類和第三類之間的距離最短,這些結(jié)果和實際情況是相符合的。最終聚類中心位置之間的距離 第65頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用(6)方差分析表 如下表所示為方差分析表,顯示了各個指標(biāo)在不同類的均值比較情況。各數(shù)據(jù)項的含義依次是:組間均方、組間自由度、組內(nèi)均方、組內(nèi)自由度??梢钥吹剑鱾€指標(biāo)在不同類之間的差異是非常明

50、顯的,這進(jìn)一步驗證了聚類分析結(jié)果的有效性。 方差分析表 第66頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用(7)聚類數(shù)目匯總 如下表所示是聚類數(shù)據(jù)匯總表,顯示了聚類分析最終結(jié)果中各個類別的數(shù)目。其中第一類的數(shù)目最多,等于20;而第三類的數(shù)目最少,只有4個。聚類數(shù)目匯總表 第67頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用9.2.4 系統(tǒng)聚類法的SPSS操作詳解 系統(tǒng)聚類法常稱為層次聚類法、分層聚類法,也是聚類分析中使用廣泛的一種方法。它有兩種類型,一是對研究對象本身進(jìn)行分類,稱為Q型聚類;另一是對研究對象的觀察指標(biāo)進(jìn)行分類,稱為R型聚類。同時根據(jù)聚類過程不同,又分為分解法和凝聚法。

51、 分解法:開始把所有個體(觀測量或變量)都視為同屬一大類,然后根據(jù)距離和相似性逐層分解,直到參與聚類的每個個體自成一類為止。 凝聚法:開始把參與聚類的每個個體(觀測量或變量)視為一類,根據(jù)兩類之間的距離或相似性逐步合并,直到合并為一個大類為止。第68頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用SPSS中的系統(tǒng)聚類法采用的凝聚法,它的算法步驟具體如下。 1、首先將數(shù)據(jù)各自作為一類(這時有n類),按照所定義的距離計算各數(shù)據(jù)點之間的距離,形成一個距離陣; 2、將距離最近的兩條數(shù)據(jù)并為一個類別,從而成為n-1個類別,計算新產(chǎn)生的類別與其他各個類別之間的距離或相似度,形成新的距離陣; 3、按照和第

52、二步相同的原則,再將距離最接近的兩個類別合并,這時如果類的個數(shù)仍然大于1,則繼續(xù)重復(fù)這一步驟,直到所有的數(shù)據(jù)都被合并成一個類別為止。第69頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用 在系統(tǒng)聚類中,當(dāng)每個類別有多于一個的數(shù)據(jù)點構(gòu)成時,就會涉及如何定義兩個類間的距離問題。根據(jù)距離公式不同,可能會得到不同的結(jié)果,這也就進(jìn)一步構(gòu)成了不同的系統(tǒng)聚類方法。常用的方法有如下幾種。 Between-groups linkage:組間平均距離法。 Within-groups linkage:組內(nèi)平均距離法。 Nearest neighbor:最短距離法。 Furthest neighbor:最遠(yuǎn)距離法。

53、 Centroid clustering:重心法。 Median clustering:中間距離法。 Wards method:離差平方和法。第70頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用 SPSS具體操作步驟如下:Step01:打開對話框 選擇菜單欄中的【Analyze(分析)】【Classify(分類)】【Hierarchical Cluster(系統(tǒng)聚類)】命令,彈出【Hierarchical Cluster Cluster Analysis(系統(tǒng)聚類分析)】對話框,這是系統(tǒng)聚類分析的主操作窗口。第71頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用 Step02:選擇聚類分

54、析變量在【Hierarchical Cluster Cluster Analysis(系統(tǒng)聚類分析)】對話框左側(cè)的候選變量列表框中選擇進(jìn)行系統(tǒng)聚類分析的變量,將其添加至【Variable(s) (變量)】列表框中。同時可以選擇一個標(biāo)識變量移入【Label Cases by(標(biāo)注個案)】列表框中。Step03:選擇聚類類型 在【Cluster(分群)】選項組中可以選擇聚類類型。系統(tǒng)默認(rèn)值是【Cases(個案0】選項。 Cases:對觀測量(樣品)進(jìn)行聚類,即Q型聚類。 Variable:對變量進(jìn)行聚類,即R型聚類。Step04:選擇輸出類型 在【Display(輸出)】選項組中可以選擇輸出類型。

55、系統(tǒng)默認(rèn)值是【Statistics(統(tǒng)計量)】歐諾供給量和【Plots(圖)】選項。 Statistic:輸出主對話框【Statistics】按鈕中設(shè)置的的統(tǒng)計量。 Plots:輸出主對話框中【Plots(圖)】按鈕中聚類圖形。第72頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用Step05:基本統(tǒng)計量輸出選擇 單擊【Statistics】按鈕,在彈出的對話中可以選擇進(jìn)行系統(tǒng)聚類分析的基本統(tǒng)計量。具體選項含義如下。第73頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用【Agglomeration schedule(合并進(jìn)程表)】:輸出聚類過程表,系統(tǒng)默認(rèn)選項。顯示聚類過程中每一步合并的類

56、或觀測量,反映聚類過程中每一步樣品或類的合并過程。【Proximity matrix(相似性矩陣)】:輸出各類之間的距離矩陣。以矩陣形式給出各項之間的距離或相似性測度值。產(chǎn)生什么類型的矩陣(相似性矩陣或不相似性矩陣)取決于在【Method(方法)】菜單中【Measure(度量標(biāo)準(zhǔn))】欄中的選擇?!綜luster Membership(聚類成員)】欄可以選擇聚類數(shù)目相關(guān)的輸出項: 【None(無)】:不顯示類成員表,它是系統(tǒng)默認(rèn)選項。 【Single solution(單一方案)】:選擇此項并在對應(yīng)的【Number of clusters(聚類數(shù))】參數(shù)框中指定分類數(shù),這里要求分類數(shù)是一個大于1

57、的整數(shù)。例如指輸入數(shù)字“4”,則會在輸出窗中顯示聚為4類的分析結(jié)果。 【Range of solutions(方案范圍)】:選擇此選項并在下邊的【Minimum number of clusters(最小聚類數(shù))】和【Maxmum number of clusters(最大聚類數(shù))】參數(shù)框中輸入最小聚類數(shù)目和最大聚類數(shù)目。它表示分別輸出樣品或變量的分類數(shù)從最小值到最大值的各種分類聚類表。輸入的兩個數(shù)值必須是不等于l 的正整數(shù),最大類數(shù)值不能大于參與聚類的樣品數(shù)或變量總數(shù)。第74頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用Step06:聚類統(tǒng)計圖形輸出選擇 單擊【Plots】按鈕,彈出的對

58、話框如下圖所示。這里可以選擇進(jìn)行系統(tǒng)聚類分析的統(tǒng)計圖形??蛇x擇輸出的統(tǒng)計圖表有兩種,一個是樹形圖,一個是冰柱圖。具體選項含義如下。第75頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用【Dendrogram(樹狀圖)】:顯示樹形圖。【Icicle(冰柱)】:顯示冰柱圖形。對于冰柱圖的具體選項還可以進(jìn)一步用以下選擇項來確定。 All clusters:顯示全部聚類結(jié)果的冰柱圖??捎么朔N圖查看聚類的全過程。但如果參與聚類的個體很多會造成圖形過大。 Specified range clusters:限定顯示的聚類范圍。當(dāng)選擇此項時,在下面的【Start cluster(開始聚類)】、【Stop c

59、luster(停止聚類)】和【By(排序標(biāo)準(zhǔn))】后的參數(shù)框中輸入要求顯示聚類過程的開始聚類數(shù)、終止聚類數(shù)及步長。輸入到參數(shù)框中的數(shù)字必須是正整數(shù)。例如,輸入的結(jié)果是:3,9,2,生成的冰柱圖從第三步開始,顯示第三、五、七、九步聚類的情況。 None:不輸出冰校圖。同時,冰柱圖顯示方向可以在【Orientation(方向)】選項組中確定。 Vertical:縱向顯示的冰柱圖。 Horizontal:橫向顯示的冰柱圖。第76頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用Step07:聚類方法選擇單擊【Method(方法)】按鈕,彈出的對話框如下圖所示。在對話框中可以設(shè)定聚類方法、距離測度的方法

60、、數(shù)值變換方法等內(nèi)容。具體選項含義如下。第77頁,共241頁。9.2 SPSS在聚類分析中的應(yīng)用 【Cluster Method(聚類方法)】下拉列表框:可以選擇聚類方法,具體如下。 Between-groups linkage:組間平均距離法。系統(tǒng)默認(rèn)選項。合并兩類的結(jié)果使所有的兩類的平均距離最小。 Within-groups linkage:組內(nèi)平均距離法。當(dāng)兩類合并為一類后,合并后的類中的所有項之間的平均距離最小。 Nearest neighbor:最近距離法。采用兩類間最近點間的距離代表兩類間的距離。 Furthest Neighbor:最遠(yuǎn)距離法。用兩類之間最遠(yuǎn)點的距離代表兩類之間的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論