聚類分析、對應(yīng)分析、因子分析、主成分分析spss操作入門_第1頁
聚類分析、對應(yīng)分析、因子分析、主成分分析spss操作入門_第2頁
聚類分析、對應(yīng)分析、因子分析、主成分分析spss操作入門_第3頁
聚類分析、對應(yīng)分析、因子分析、主成分分析spss操作入門_第4頁
聚類分析、對應(yīng)分析、因子分析、主成分分析spss操作入門_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

聚類分析因子分析主成分分析對應(yīng)分析親疏程度的判定距離:將每一個樣本看作p維空間的一個點,并用某種度量測量點與點之間的距離,距離較近的歸為一類,距離較遠的點應(yīng)屬于不同的類;相似系數(shù):性質(zhì)越接近的變量或樣本,它們的相似系數(shù)越接近于1或一l,而彼此無關(guān)的變量或樣本它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類;聚類方法不同:系統(tǒng)聚類:又稱為層次聚類(hierarchicalcluster),聚類過程是按照一定層次進行的;K均值聚類(K-meansCluster);聚類對象不同時的聚類類型:樣本之間的聚類:即Q型聚類分析,常用距離來測度樣本之間的親疏程度;變量之間的聚類:即R型聚類分析,常用相似系數(shù)來測度變量之間的親疏程度;聚類分析基本思想:根據(jù)所研究的樣本或變量在觀測數(shù)據(jù)上表現(xiàn)的不同親疏程度,采用不同的聚類方法將親疏程度較大的樣本/變量聚合為一類,把另外一些親疏程度較大的樣本/變量聚合為一類,直到把所有的樣本/變量都聚合完畢,形成一個由小到大的分類系統(tǒng)。聚類分析聚類主要步驟選擇變量數(shù)據(jù)處理聚類計算聚類統(tǒng)計量和聚類分析的目的密切相關(guān);反映要分類變量的特征;不同研究對象上的值有明顯的差異;變量之間不能高度相關(guān);為消除各指標量綱的影響,需對原始數(shù)據(jù)進行必要的變換處理;聚類統(tǒng)計量是根據(jù)變換以后的數(shù)據(jù)計算得到的一個新數(shù)據(jù);用于表明各樣本或變量間的關(guān)系密切程度;常用的統(tǒng)計量有距離和相似系數(shù)兩大類;選擇聚類的方法;確定形成的類數(shù);結(jié)果的解釋和證實結(jié)果的解釋是希望對各個類的特征進行準確的描述;給每類起一個合適的名稱;通常的做法是計算各類在各聚類變量上的均值,對均值進行比較;聚類分析系統(tǒng)聚類例1:利用2001年全國31個省市自治區(qū)各類小康和現(xiàn)代化指數(shù)的數(shù)據(jù),對地區(qū)進行聚類分析。數(shù)據(jù)中所含指數(shù):綜合指數(shù)、社會結(jié)構(gòu)指數(shù)、經(jīng)濟與技術(shù)發(fā)展指數(shù)、人口素質(zhì)指數(shù)、生活質(zhì)量指數(shù)、法制與治安指數(shù);采用聚類方法:系統(tǒng)聚類K均值聚類聚類分析系統(tǒng)聚類Agglomerationschedule:輸出聚類過程表Proximitymatrix:輸出個體之間的距離矩陣ClusterMembership中None表示不輸出樣本所屬類,Singlesolution表示當分成n類時各樣本所屬類,Rangeofsolutions表示當分成m-n類時各樣本屬性所屬類參與系統(tǒng)聚類的變量選到Variables(s)中字符型變量作為標記變量選到LableCasesby中Cluster中確定聚類類型,是Q型聚類還是R型聚類Display中Stastics表示輸出聚類分析相關(guān)統(tǒng)計量Plots表示輸出聚類分析相關(guān)圖形3聚類分析聚類輸出結(jié)果34參與聚類的個體或小類個體或小類距離計算的是個體還是小類本次結(jié)果將在第幾步出現(xiàn)聚類分析系統(tǒng)聚類Dendrogram:聚類樹形圖Icicle:冰柱圖,其中Allclusters表示輸出分析中每個階段的冰柱圖,Specifiedrangeofclusters表示輸出某個階段的冰柱圖,none表示不輸出冰柱圖Orientation冰柱圖的表現(xiàn)形式,Vertical表示縱向顯示,Hhorizontal表示橫向顯示聚類分析聚類輸出結(jié)果聚類分析系統(tǒng)聚類Cluster

Method:計算個體與小類、小類與小類之間距離的方法Measure:不同變量類型的個體距離計算方式Interval適用連續(xù)型定距變量,Counts適用計數(shù)型變量,Binary適用于二值變量TransformValues中的Standardize指的是消除量綱的方法,再下面表示對針對Q還是R型聚類聚類分析系統(tǒng)聚類Clustermethod:NearestNeighbor:最短距離法????以兩類中距離最近的兩個個體之間的距離作為類間距離。????????以兩類中距離最遠的兩個個體之間的距離作為類間距離。??????FurtherNeighbor:最長距離法Between-grouplinkage:組間平均連接法將兩類個體合并為一類后,以合并后類中所有個體之間的平均距離作為類間距離。????Within-grouplinkage:組內(nèi)平均連接法以兩類個體兩兩之間距離的平均數(shù)作為類間距離。??Centroidclustering:重心法以兩類變量均值(重心)之間的距離作為類間距離。Medianclustering:中位數(shù)法以兩類變量中位數(shù)之間的距離作為類間距離Ward’smethod:離差平方和法先將n個個體各自成一類,然后每次減少一類,隨著類與類的不斷聚合,類內(nèi)的離差平方和必然不斷增大,選擇使離差平方和增加最小的兩類合并,直到所有的個體歸為一類為止。聚類分析系統(tǒng)聚類此操作可將聚類分析的結(jié)果以變量的形式保存到數(shù)據(jù)編輯窗口345聚類分析聚類輸出結(jié)果聚類分析K均值聚類聚類分析K均值聚類NumberofClusters:輸入聚類數(shù)目,小于樣本數(shù)ClustersCenters:自行指定初始類中心點,一般默認Method中Iterateandclassify聚類分析每一步都重新確定類中心點,Classifyonly聚類分析中類中心點始終為初始類中心點默認就行Clustersmembership:保存?zhèn)€體所屬類的類號Distancefromclusterscenter:保存?zhèn)€體距各自類中心點的距離聚類分析K均值聚類Statistics中InitialClusterscenters表示輸出初始類中心點,ANOVAtable表示以聚類分析產(chǎn)生的類為控制變量,以k個變量為觀測變量進行單因素方差分析,并輸出各個變量的方差分析表,Clustersinformationforeachcase表示樣本分類信息及距所屬類中心點的距離MissingValues中存在缺失值時Excluedcaseslistwise表示將含有缺失值的記錄刪除,Excluedcaseslistwise表示將配對狀態(tài)下將含有缺失值的數(shù)據(jù)刪除,其他計算不受影響聚類分析聚類輸出結(jié)果初始類中心情況中心點偏移情況最終類中心情況最終類成員情況因子分析基本介紹:一種數(shù)據(jù)簡化的技術(shù);將原有變量中的信息重疊部分提取并綜合成因子,實現(xiàn)減少變量個數(shù)的目的;提取出來的因子能夠反映原來眾多變量的主要信息;原始的變量是可觀測的顯在變量,而提取因子是不可觀測的潛在變量;基本思想:把每個研究變量分解為幾個影響因素變量;將每個原始變量分解成兩部分因素,一部分是由所有變量共同具有的少數(shù)幾個公共因子組成的,另一部分是每個變量獨自具有的因素,即特殊因子;因子分析特點:因子個數(shù)遠遠小于原有變量的個數(shù);因子能夠反映原有變量的絕大部分信息;因子之間線性關(guān)系不顯著;因子具有命名解釋性;因子分析觀測變量間有較強的相關(guān)性;若變量之間無相關(guān)性或相關(guān)性較小的,則不會有公共因子;根據(jù)因子方差的大?。褐蝗》讲畲笥?(或特征值大于1)的那些因子;按照因子方差累積貢獻率大于80%的原則;坐標變換使每個原始變量在盡可能少的因子之間有密切的關(guān)系;這樣因子的實際意義更容易解釋;可以在許多分析中使用這些因子;如:多指標綜合評價、做聚類分析的變量、做回歸分析中的解釋變量等;前提條件因子提取因子命名可解釋性計算因子得分主要步驟因子分析軟件操作例2:已知2003年滬、深兩市48家上市公司的13個財務(wù)指標數(shù)據(jù)。因子分析軟件操作Statistics:Univariate

descriptives—基本描述統(tǒng)計量,Initialsolution—因子分析的初始解CorrelationMatrix:Coefficients—相關(guān)系數(shù)矩陣,Significancelevels—相關(guān)系數(shù)檢驗的概率P值,Determinant—變量相關(guān)系數(shù)矩陣的行列式值,Inverse—相關(guān)系數(shù)矩陣的逆矩陣,Reproduced—再生相關(guān)陣,Anti-image:反映像相關(guān)矩陣,KMOandBartlett’s—巴特利特球度檢驗和KMO檢驗Variables:參與因子分析的變量SelectionVariable:條件變量,設(shè)置Value值后,只有滿足相應(yīng)條件的樣本數(shù)據(jù)才參與因子分析因子分析輸出結(jié)果此操作目的在于檢驗原始變量之間是否存在一定線性關(guān)系,若線性關(guān)系不顯著,則不適合做因子分析相關(guān)系數(shù)越大越好P值越小越好當采用“特征根大于1”的方法提取因子時,所有變量的共同度過均較高,各變量的丟失信息較少,效果理想。因子分析輸出結(jié)果此操作目的在于檢驗原始變量之間是否存在一定線性關(guān)系,若線性關(guān)系不顯著,則不適合做因子分析看correlation矩陣,若對角線上元素的值較接近1,其他大多數(shù)元素的絕對值均較小,說明變量之間相關(guān)性較強,適合做因子分析。KMO度量標準:0.9以上表示非常適合;0.8~0.9表示適合;0.7~0.8表示一般;0.6~0.7表示不太適合;0.5以下表示極不適合。巴特利特球度檢驗:概率p值小于指定顯著性水平,則適合作因子分析;反之不適合作因子分析。因子分析軟件操作Method:提取因子的方法Analyze:提取因子依據(jù),Correlationmatrix(相關(guān)系數(shù)矩陣)和Covariancematrix(協(xié)方差陣)Extract:確定因子數(shù)目,BasedonEigenvalue(特征根值)或Fixednumberoffactors(指定數(shù)目)Display:Unrotatedfactorsolutions—輸出旋轉(zhuǎn)前的因子方差貢獻表和旋轉(zhuǎn)前的因子載荷陣。Screeplot:碎石圖因子分析輸出結(jié)果因子編號特征根值方差貢獻率累積方差貢獻率InitialEigenvalue中13個因子解釋了原有變量的總方差ExtractionSumsofSquaredLoadings表示的是按照“特征根大于1”原則選取的因子RotationSumsofSquaredLoadings表示旋轉(zhuǎn)后最終因子情況,因子的方差重新分布,但影響原有變量的共同度沒有變Method:因子旋轉(zhuǎn)的方法,Varimax—方差最大法,Quartimax—四次方最大法,Equamax—等量最大法,Display:輸出與因子旋轉(zhuǎn)相關(guān)的信息,Rotatedsolution—旋轉(zhuǎn)后的因子載荷矩陣,Loadingplot(s)—旋轉(zhuǎn)后的因子載荷散點圖因子分析軟件操作因子分析輸出結(jié)果獲利因子變現(xiàn)因子運營因子成長因子旋轉(zhuǎn)后的因子載荷矩陣旋轉(zhuǎn)前的因子載荷矩陣因子分析模型舉例:成本費用利潤率=0.848*F1+0.214*F2+0.235*F3+0.254*F4;主營業(yè)務(wù)利潤率=0.845*F1+0.157*F2+0.255*F3+0.069*F4;因子分析軟件操作Scores為計算因子的方法Saveasvariables:將因子得分保存在SPSS變量中,method表示計算因子得分的方法,Regression—回歸法Displayfactorscorecoefficientmatix:輸出因子得分系數(shù)矩陣因子分析輸出結(jié)果因子得分函數(shù):F1=-0.069*Z(流動比率)-0.042*Z(速動比率)-0.115*Z(總資產(chǎn)周轉(zhuǎn)率)+……+0.172*Z(總資產(chǎn)利潤率)……F4=-0.013*Z(流動比率)-0.041*Z(速動比率)-0.085*Z(總資產(chǎn)周轉(zhuǎn)率)+……-0.028*Z(總資產(chǎn)利潤率)

注:所有變量數(shù)值均為標準化之后的因子分析輸出結(jié)果綜合得分函數(shù):F=(32.032%*FAC1_1+21.282%*FAC2_1+18.893%*FAC3_1+17.443%*FAC4_1)/89.651%因子分析軟件操作MissingValues:缺失值的處理方法CoefficientDisplayFormat:因子載荷矩陣的輸出方式,Sortedbysize—以第一因子得分的降序輸出因子載荷矩陣,Suppresssmallcoefficients—通過輸入數(shù)值,只輸出大于該值的因子載荷

序號股票代碼因子分析綜合得分排序序號股票代碼因子分析綜合得分排序18800.022325600623-0.023826003030.0411266006250.031936001780.058279570.012746005010.05628868-0.01365600805-0.0339295190.031666008090.0034308000.031876008900.0034318870.003286002180.031532927-0.044096000660.065336007610.049106001040.092347600.0226116002130.0312356003730.0128126004180.11136600877-0.0137136003720.0221376002620.0314146310.0033386000810.0320156001480.031339571-0.1043165490.013040678-0.1044176001660.0225418830.0129185590.041042600698-0.1646199130.057436003880.0222206000060.08444738-0.1545216006860.031745600715-0.1747225500.022446600760-0.0741236000990.09347589-0.0942246005230.013148600609-0.2048因子分析最終結(jié)果主成分分析基本介紹:把原來多個變量轉(zhuǎn)化為少數(shù)幾個綜合指標的統(tǒng)計分析方法,屬于降維處理技術(shù);從原始變量中導(dǎo)出少數(shù)幾個主成分,用幾個主成分表達原始變量絕大部分信息,且彼此間互不相關(guān);基本思想:通過變量變換把注意力集中在具有較大變差的那些主成分上,而舍棄那些變差小的主成分;原有變量的線性組合表示新的綜合變量,即主成分;主成分分析與因子分析區(qū)別:主成分分析僅僅是變量變換,而因子分析需要構(gòu)造因子模型;主成分的個數(shù)i=原變量的個數(shù)p,其實質(zhì)是p維空間的坐標變換,不改變原始數(shù)據(jù)的結(jié)構(gòu)。而因子分析則是對原觀測變量分解成公共因子和特殊因子兩部分。

主成分的各系數(shù),是唯一確定的、正交的。不可以對系數(shù)矩陣進行任何的旋轉(zhuǎn),且系數(shù)大小并不代表原變量與主成分的相關(guān)程度;而因子模型的系數(shù)矩陣是不唯一的、可以進行旋轉(zhuǎn)的,且該矩陣表明了原變量和公共因子的相關(guān)程度。

主成分分析主要步驟主成分與綜合得分比較指標數(shù)據(jù)標準化(SPSS自動執(zhí)行指標相關(guān)性判定確定主成份個數(shù)主成分Fi表達式主成分Fi命名主成分分析例2:已知2003年滬、深兩市48家上市公司的13個財務(wù)指標數(shù)據(jù)。主成分分析軟件操作主成分分析輸出結(jié)果輸出結(jié)果主成分分析÷

1234流動比率0.120.560.120.05速動比率0.210.510.130.12總資產(chǎn)周轉(zhuǎn)率0.23-0.260.350.39存貨周轉(zhuǎn)率0.21-0.290.330.38營運資本0.200.480.170.15每股收益0.36-0.11-0.050.05凈利潤增長率0.26-0.070.31-0.55每股收益增長率0.26-0.070.31-0.56主營業(yè)務(wù)毛利率0.210.04-0.58-0.15主營業(yè)務(wù)利潤率0.31-0.03-0.310.14成本費用利潤率0.35-0.01-0.250.01凈資產(chǎn)收益率0.38-0.10-0.080.01總資產(chǎn)利潤率0.37-0.08-0.110.08÷÷÷特征值對應(yīng)的特征向量注:主成分個數(shù)提取原則為:主成分對應(yīng)的特征值大于1的前m個主成分獲利主成分運營主成分成長主成分不好命名主成分得分函數(shù):F1=0.12*Z(流動比率)+0.21*Z(速動比率)+0.23*Z(總資產(chǎn)周轉(zhuǎn)率)+……+0.37*Z(總資產(chǎn)利潤率)……F4=0.05*Z(流動比率)+0.12*Z(速動比率)+0.39*Z(總資產(chǎn)周轉(zhuǎn)率)+……+0.08*Z(總資產(chǎn)利潤率)

注:所有變量數(shù)值均為標準化之后的綜合得分函數(shù):F=(51.106%*F1+18.405%*F2+10.853%*F3+9.287%*F4)/89.651%輸出結(jié)果主成分分析

1234流動比率0.120.560.120.05速動比率0.210.510.130.12總資產(chǎn)周轉(zhuǎn)率0.23-0.260.350.39存貨周轉(zhuǎn)率0.21-0.290.330.38營運資本0.200.480.170.15每股收益0.36-0.11-0.050.05凈利潤增長率0.26-0.070.31-0.55每股收益增長率0.26-0.070.31-0.56主營業(yè)務(wù)毛利率0.210.04-0.58-0.15主營業(yè)務(wù)利潤率0.31-0.03-0.310.14成本費用利潤率0.35-0.01-0.250.01凈資產(chǎn)收益率0.38-0.10-0.080.01總資產(chǎn)利潤率0.37-0.08-0.110.08特征值對應(yīng)的特征向量輸出結(jié)果主成分分析序號股票代碼主成分綜合得分排序因子綜合得分排序排序差值序號股票代碼主成分綜合得分排序因子綜合得分排序排序差值18800.60190.0223-425600623-0.2237-0.0238-126003030.86110.04110266006250.73140.0319-536001780.88100.0582279570.24300.0127346005011.1460.056028868-0.1736-0.013605600805-0.4039-0.03390295190.49200.0316466008090.0833027290.03181176008900.0833008320.0032086002180.47210.0315632927-0.7540-0.0440096000661.5340.065-1336007610.9390.0490106001041.7830.0921347600.03350.02269116002130.80120.03120356003730.38260/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論