第8章聚類解析_第1頁
第8章聚類解析_第2頁
第8章聚類解析_第3頁
第8章聚類解析_第4頁
第8章聚類解析_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第八章聚類分析8.1聚類分析的步驟8.2相像性測度8.3聚類方法8.4聚類結(jié)果的說明8.5利用SPSS進(jìn)行聚類分析聚類分析(ClusterAnalysis)是依據(jù)探討對象的特征對探討對象進(jìn)行分類的多元統(tǒng)計分析技術(shù)。它的基本思想是,認(rèn)為我們所探討的案例(cases)或指標(biāo)(variables)之間存在著程度不同的相像性(親疏關(guān)系)。首先找出一些能夠度量案例或指標(biāo)之間相像程度的統(tǒng)計量,以此為劃分類別的依據(jù),然后,把一些彼此之間相像程度較大的聚合為一類,把另外一些彼此之間相像程度較大的聚合為另一類,關(guān)系親密的聚合到一個相對較小的分類單位,關(guān)系疏遠(yuǎn)的的聚合到一個相對較大的分類單位,直到把全部的都聚合完畢,把不同類型一一劃出來,形成由小到大的分類系統(tǒng)。最終,再把整個分類系統(tǒng)畫成一張譜系圖,用它把全部案例(或指標(biāo))間的親疏關(guān)系表示出來。聚類分析的大部分應(yīng)用都屬于探究性探討,最終的結(jié)果是產(chǎn)生探討對象的分類,通過對數(shù)據(jù)分類的探討提出假設(shè);聚類分析還可以用于證明(或驗證)性目的,對于通過其他方法確定的數(shù)據(jù)分類,可以應(yīng)用聚類分析進(jìn)行檢驗。聚類分析依據(jù)分類對象的不同,分為Q型聚類和R型聚類。對案例的分類稱為Q型聚類,對變量的分類稱為R型聚類。R型聚類分析的作用1、不但可以了解個別變量之間的親疏程度,而且可以了解各變量組合之間之間的親疏程度;2、依據(jù)變量的聚類結(jié)果以及它們之間的關(guān)系,可以選擇主要變量進(jìn)行回來分析或Q型聚類分析。選擇主要變量的方法是:在聚合的每類變量中各選出一個有代表性的變量作為典型變量。計算每一個變量與同類其他變量的樣本確定系數(shù)R2,選擇其最大者作為該類的典型變量。Q型聚類分析的作用與優(yōu)點1、可以綜合利用多個變量的信息對樣本進(jìn)行分類;2、分類結(jié)果是直觀的,聚類譜系圖特別清晰地表現(xiàn)案例的分類結(jié)果;3、聚類分析所得到的結(jié)果比傳統(tǒng)分類方法更細(xì)致、全面、合理。本章主要介紹Q型聚類。8.1聚類分析的主要步驟1、選擇聚類分析變量這些變量應(yīng)具備以下特點:(1)和聚類分析的目標(biāo)相關(guān);(2)反映了要分類對象的特征;(3)在不同對象的值具有明顯差異;(4)變量之間不應(yīng)當(dāng)高度相關(guān)。對于變量高度相關(guān)的處理方法(兩種):1)在對案例聚類分析之前,先對變量進(jìn)行聚類分析,在各類中選擇具有代表性的變量作為聚類變量;2)對變量做因素分析,產(chǎn)生一組不相關(guān)變量作為聚類變量。2、計算相像性相像性(Similarity)是聚類分析的一個基本概念,反映了探討對象之間的親疏程度。聚類分析就是依據(jù)探討對象之間的相像性來進(jìn)行分類的。3、聚類選定聚類方法,確定形成的類數(shù)。4、聚類結(jié)果的說明得到聚類結(jié)果后,對結(jié)果進(jìn)行驗證和說明,以保證聚類解是可信的。8.2相像性測度8.2.1相像系數(shù)8.2.2距離測度8.2.3關(guān)聯(lián)測度8.2.1相像系數(shù)8.2.2距離測度每個樣品(案例)有p個指標(biāo)(變量),故每個樣品可以看成p維空間中的一個點,n個樣品組成p維空間中的n個點,用距離來度量樣品之間接近的程度。距離測度應(yīng)滿足下列四個條件:1)dij0;2)dij=dji,即距離具有對稱性;3)dijdik+dkj,即三角不等式,隨意一邊小于其他兩邊之和;4)假如dij0,則ij常見的幾種距離:*:當(dāng)各指標(biāo)的測量值相差懸殊時,先對數(shù)據(jù)標(biāo)準(zhǔn)化,然后,用標(biāo)準(zhǔn)化后的數(shù)據(jù)計算距離。8.2.3關(guān)聯(lián)測度關(guān)聯(lián)測度用來度量聚類變量為分類變量的探討對象的相像性。1、簡潔匹配系數(shù)(Simplematchingcoefficient)適用于二分變量。估計探討對象在回答這些問題時的一樣性程度。案例210案例11ab0cd2、雅可比系數(shù)(Jaccard’scoefficient)雅可比系數(shù)在簡潔匹配系數(shù)的基礎(chǔ)上做了一些改進(jìn),它把兩個案例都回答“否”的部分從公式中去掉,只考慮“是”的部分。3、果瓦系數(shù)(Gower’scoefficient)果瓦系數(shù)優(yōu)于前兩個關(guān)聯(lián)測度之處在于它允許聚類變量可以是名義變量、依次變量和等距變量。定義為:8.3聚類方法8.3.1層次聚類法(HierarchicalClusterProcedures)聚集法(AgglomerativeMethod)分解法(DivisiveMethod)8.3.2迭代聚類法(IterativePartitioningProcedures)8.3.1層次聚類法1、聚集法:首先把每個案例各自看成一類,先把距離最近的兩類合并,然后重新計算類與類之間的距離,再把距離最近的兩類合并,每一步削減一類,這個過程始終持續(xù)到全部案例歸為一類為止。2、分解法:與聚集法相反,首先把全部的案例看成一類,然后把最不相像的案例分為兩類,每一步增加一類,直到每個案例都成為一類為止。3、層次聚類中計算類與類之間的距離(1)最短距離法(SingleLinkage)類與類之間的距離定義為一個類中的全部案例與另一類中的全部案例之間的距離最小者。(2)最長距離法(CompleteLinkage)與最短距離法相反,類與類之間的距離定義為兩類中離得最遠(yuǎn)的兩個案例之間的距離。(3)平均聯(lián)結(jié)法(AverageLinkage)兩類之間的距離定義為兩類中全部案例之間距離的平均值,分為:組間聯(lián)結(jié)法(Between-groupslinkage)和組內(nèi)聯(lián)結(jié)法(Within-groupslinkage)。(4)重心法(Centroid)兩類之間的距離定義為兩類重心之間的距離。每一類的重心是該類中全部案例在各個變量上的均值所代表的點。(5)離差平方和法(Ward’sMethod)該方法的基本思想是同一類案例的離差平方和盡量較小,不同類之間案例的離差平方和盡量較大。求解過程是首先使每個案例自成一類,每一步使離差平方和增加最小的兩類合并為一類,直到全部的案例都?xì)w為一類為止。以上幾種方法,離差平方和法和平均聯(lián)結(jié)法的分類效果較好。主要結(jié)果聚合進(jìn)度表冰柱圖(垂直、水平)樹狀圖案例歸類表聚類進(jìn)度表垂直冰柱圖case4clusters3clusters2clusters123456789101112131415121223333344444111112222233333111111111122222案例歸類表8.3.2迭代聚類法迭代聚類法也稱快速聚類法,具有占計算機內(nèi)存小、速度快的優(yōu)點,適用于大樣本的聚類分析。該方法有四個步驟:(1)指定要形成的聚類數(shù),對樣本進(jìn)行初始分類并計算每一類的重心;(2)調(diào)整分類。計算每個樣本點到各類重心的距離,把每個樣本點歸入距重心最近的那一類。(3)重新計算每一類的重心;(4)重復(fù)(2)-(3),直到?jīng)]有樣本點可以調(diào)整為止。分類數(shù)的確定方法1、依據(jù)樹狀圖確定分類數(shù)的準(zhǔn)則:(1)各類重心之間距離必需較大;(2)各類所包含的元素都不要過多;(3)分類的數(shù)目應(yīng)符合運用的目的;(4)若接受幾種不同的聚類方法,則在各自的聚類圖上應(yīng)發(fā)覺相同的類。方法2、依據(jù)聚合系數(shù)的變更確定分類數(shù)8.4聚類結(jié)果的說明所謂聚類結(jié)果的說明是指對各個類的特征進(jìn)行精確的描述,給每類一個合適的名稱??梢杂嬎愀黝愒诟骶垲愖兞可系木?,對其進(jìn)行比較,還可以運用聚類變量以外的變量,幫助描述各個類的特征,說明各個類差別的緣由。迭代聚類結(jié)果的各類樣本的均值和顯著性差異類變量類別123有顯著差異類經(jīng)濟(jì)生活指數(shù)教育生活指數(shù)健康生活指數(shù)居住生活指數(shù)0.38350.78430.95320.55000.21360.41300.82930.85120.09910.22450.15440.6223(1,2)(1,3)(2,3)(1,2)(1,3)(2,3)(1,3)(2,3)(1,2)(2,3)將30各省份分成了三類:一類地區(qū):經(jīng)濟(jì)、教化和健康方面皆高于其他地區(qū);二類地區(qū):居住方面標(biāo)準(zhǔn)最高,健康指數(shù)較高;三類地區(qū):居住方面較高,其他方面低于一、二類。8.5利用SPSS進(jìn)行聚類分析層次聚類法(菜單選擇)Analyzeclassifyhierarchicalclustervariable(指定聚類變量)cluster(指定聚類對象)cases(對案例聚類)variables(對變量聚類)method(指定聚類方法、相像測度方法和標(biāo)準(zhǔn)化數(shù)據(jù)的方法)clustermethod(聚類方法)measure(相像測度)intervalbinarycountsstatisticsagglomerationschedule(聚合進(jìn)度表)proximitymatrix(相像矩陣)clustermembership(聚類結(jié)果)plots(樹狀結(jié)構(gòu)圖、冰柱圖)dendrogram(樹狀圖)icicle(冰柱圖)save(數(shù)據(jù)文件中以變量形式保存聚類結(jié)果)singlesolutionrangeofsolution層次聚類法吩咐文件PROXIMITIESeconomyeducatiohealthhouse/MATRIXOUT('C:\WINDOWS\TEMP\spss4294687875\spssclus.tmp')/VIEW=CASE/MEASURE=SEUCLID/PRINTNONE/STANDARDIZE=VARIABLEZ.CLUSTER/MATRIXIN('C:\WINDOWS\TEMP\spss4294687875\spssclus.tmp')/METHODBAVERAGE/PRINTSCHEDULECLUSTER(3,6)/PRINTDISTANCE/PLOTDENDROGRAMVICICLE/SAVECLUSTER(3,6).ERASEFILE='C:\WINDOWS\TEMP\spss4294687875\spssclus.tmp'.迭代聚類法(菜單選擇)Analyzeclassifyk-meansclustervariables(選擇聚類變量)

numberofcluster(指定聚類數(shù)目)

centers(指定初始中心)methoditerateandclassifyonlyclassifyiteratemaximumiteration(確定最大迭代次數(shù))convergencecriterion(收斂標(biāo)準(zhǔn))

saveclustermembership(將聚類結(jié)果存為新變量)distancefromclustercenter(將每個案例距所屬類中心的距離作為新變量存入數(shù)據(jù)文件)

options(選擇輸出結(jié)果)

initialclustercenters(初始類中心)anovatable(方差分析表)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論