




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第五章聚類分析
5.1判別分析和聚類分析有何區(qū)別?
答:即根據(jù)一定的判別準(zhǔn)則,判定一個樣本歸屬于哪一類。具體而言,設(shè)有n個樣本,對每個樣本測
得p項指標(biāo)(變量)的數(shù)據(jù),每個樣本屬于k個類別(或總體)中的某一類,通過找出一個最優(yōu)的劃分,
使得不同類別的樣本盡可能地區(qū)別開,并判別該樣本屬于哪個總體。聚類分析是分析如何對樣品(或變
量)進(jìn)行量化分類的問題。在聚類之前,我們并不知道總體,而是通過一次次的聚類,使相近的樣品(或
變量)聚合形成總體。通俗來講,判別分析是在有多少類及是什么類的情況下進(jìn)行分類,而聚類分析是
在不知道類的情況下進(jìn)行分類。
5.2試述系統(tǒng)聚類的根本思想。
答:系統(tǒng)聚類的根本思想是:距離相近的樣品(或變量)先聚成類,距離相遠(yuǎn)的后聚成類,過程一直進(jìn)
行下去,每個樣品(或變量)總能聚到適宜的類中。
5.3對樣品和變量進(jìn)行聚類分析時,所構(gòu)造的統(tǒng)計量分別是什么?簡要說明為什么這樣構(gòu)造?
答:對樣品進(jìn)行聚類分析時,用距離來測定樣品之間的相似程度。因為我們把n個樣本看作p維空間的
n個點。點之間的距離即可代表樣品間的相似度。常用的距離為
(一)閔可夫斯基距離:⑥?⑷=(£曷-乂"『嚴(yán)
k=l
q取不同值,分為
(I)絕對距離"=1)
(2)歐氏距離"=2)
13)切比雪夫距離(4=8)
〔二)馬氏距離
(三)蘭氏距離
對變量的相似性,我們更多地要了解變量的變化趨勢或變化方向,因此用相關(guān)性進(jìn)行衡量。
將變量看作p維空間的向量,一般用
(一)夾角余弦
[二)相關(guān)系數(shù)
5.4在進(jìn)行系統(tǒng)聚類時,不同類間距離計算方法有何區(qū)別?選擇距離公式應(yīng)遵循哪些原則?答:設(shè)
必表示樣品M與號之間距離,用Dij表示類G與G之間的距離。
(1).最短距離法
(2)最長距離法
(3)中間距離法
埋,+限
其中
(4)重心法
(5)類平均法
(6)可變類平均法
其中B是可變的且為<1f
⑺;網(wǎng)入。葉底+}圓)+6/
比二—⑺0+^^+//其中。是可變的且P<1
(8)離差平方和法
通常選擇距離公式應(yīng)注意遵循以下的根本原則:
(1)要考慮所選擇的距離公式在實際應(yīng)用中有明確的意義。如歐氏距離就有非常明確的空間距離概念。
馬氏距離有消除量綱影響的作用。
(2)要綜合考慮對樣本觀測數(shù)據(jù)的預(yù)處理和將要采用的聚類分析方法。如在進(jìn)行聚類分析之前已經(jīng)對
變量作了標(biāo)準(zhǔn)化處理,那么通常就可采用歐氏距離。
(3)要考慮研究對象的特點和計算量的大小。樣品間距離公式的選擇是一個比擬復(fù)雜且?guī)в幸欢ㄖ饔^
性的問題,我們應(yīng)根據(jù)研究對象的特點不同做出具體分折。實際中,聚類分析前不妨試探性地多項選擇
擇幾個距離公式分別進(jìn)行聚類,然后對聚類分析的結(jié)果進(jìn)行比照分析,以確定最適宜的距離刻度方法。
試述K均值法與系統(tǒng)聚類法的異同。
答:相同:K—均值法和系統(tǒng)聚類法一樣,都是以距離的遠(yuǎn)近親疏為標(biāo)準(zhǔn)進(jìn)行聚類的。
不同:系統(tǒng)聚類對不同的類數(shù)產(chǎn)生一系列的聚類結(jié)果,而K—均值法只能產(chǎn)生指定類數(shù)的聚類結(jié)果。
具體類數(shù)確實定,離不開實踐經(jīng)驗的枳累:有時也可以借助系統(tǒng)聚類法以一局部樣品為對象進(jìn)行聚
類,其結(jié)果作為K—均值法確定類數(shù)的參考。
試述K均值法與系統(tǒng)聚類有何區(qū)別?試述有序聚類法的根本思想。
答:K均值法的根本思想是將每一個樣品分配給最近中心(均值)的類中。系統(tǒng)聚類對不同的類數(shù)產(chǎn)生
一系列的聚類結(jié)果,而K—均值法只能產(chǎn)生指定類數(shù)的聚類結(jié)果。具體類數(shù)確實定,有時也可以借助系
統(tǒng)聚類法以一局部樣品為對象進(jìn)行聚類,其結(jié)果作為K均值法確定類數(shù)的參考。
有序聚類就是解決樣品的次序不能變動時的聚類分析問題。如果用X⑴,X⑵,…,X0表示"個有序的樣
品,那么每一類必須是這樣的形式,即XRX.),…/⑺,其中〃,且簡記為
…,力。在同一類中的樣品是次序相鄰的。一般的步驟是(1)計算直徑{D(ij)}。(2)
計算最小分類損失函數(shù){L[p(l,k)]}。(3)確定分類個數(shù)匕(4)最優(yōu)分類。
5.7檢測某類產(chǎn)品的重量,抽了六個樣品,每個樣品只測了一個指標(biāo),分別為1,2,3,6,9,11.試用
最短距離法,重心法進(jìn)行聚類分析。
(1)用最短距離法進(jìn)行聚類分析。
采用絕對值距離,計算樣品間距離陣DYOY
GIG?GaG4G$G?
G10
G210
Ga2I0
5430
87630
GA1098520
s
Du=1
由上表易知DYW中最小元素是于是將Gi,G2,G?聚為一類,記為G7
計算距離陣Dy”
G7G4GsG&
G70
G430
Gs630
G“8520
°Y1Y中最小元素是D$6=2于是將G$,Gq聚為一類,記為Ga
計算樣本距離陣DYZY
G7G4Ga
%2Y中最小元素是于是將G。聚為一類,記為Gg
因此,
(2)用重心法進(jìn)行聚類分析
計算樣品間平方距離陣D、OY
G1G2G?G4G$G4
G?410
G4251690
G564493690
G610081642540
易知D~YOY中最小元素是于是將d,G2,G?聚為一類,記為G?
計算距離陣D、IY
G7G4GSGA
0
160
4990
812540
注:計算方法,其他以此類推。
02丫1丫中最小元素是D2§6=4于是將G5,GA聚為一類,記為Ga
計算樣本距離陣D、2Y
3■5
G7o
^4160
Ga64I60
D?Y2Y中最小元素是于是將G4,聚為一類,記為Gg
因此,
5.8下表是15個上市公司2001年的一些主要財務(wù)指標(biāo),使用系統(tǒng)聚類法和K—均值法分別對這些公司
在行聚類,并對結(jié)果進(jìn)行比擬分析。
公司凈資產(chǎn)每股凈總資產(chǎn)資產(chǎn)負(fù)流動負(fù)每股凈凈利潤總資產(chǎn)
編號收益率利潤周,專率債率債比率資產(chǎn)增匕率增K率
3010021.18
4
5
61086
7
8100
9
10100
11
12100
13
141
15
解:令凈資產(chǎn)收益率為XI,每股凈利潤X2,總資產(chǎn)周轉(zhuǎn)率為X3,資產(chǎn)負(fù)債率為X4,流動負(fù)債比率為
X5,每股凈資產(chǎn)為X6,凈利潤增長率為X7,總資產(chǎn)增長率為X8,用spss對公司聚類分析的步驟如下:
a)系統(tǒng)聚類法:
1.在SPSS窗口中選擇Analyze—ClassifyfHierachicalCluster,調(diào)出系統(tǒng)聚類分
析主界面,并將變量XI-X8移入Variables框中。在Cluster欄中選擇Cases單
項選擇按鈕,即對樣品進(jìn)行聚類(假設(shè)選擇Variables,那么對變量進(jìn)行聚類)。
在Display欄中選擇Statistics和Plots復(fù)選框,這樣在結(jié)果輸出窗口中可以同
時得到聚類結(jié)果統(tǒng)計量和統(tǒng)計圖。
圖5.1系統(tǒng)分析法主界面
2.點擊Statistics按鈕,設(shè)置在結(jié)果輸出窗口中給出的聚類分析統(tǒng)計量。我們選擇
Agglomerationschedule與ClusterMembership中的Rangeofsolution2-4,
如下圖,點擊Continue按鈕,返回主界面。
(其中,Agglomerationschedule表示在結(jié)果中給出聚類過程表,顯示系統(tǒng)聚類
的詳細(xì)步驟;Proximitymatrix表示輸出各個體之間的距離矩陣;Cluster
Membership表示在結(jié)果中輸出一個表,表中顯示每個個體被分配到的類別,Range
ofsolution2-4即將所有個體分為2至4類。)
3.點擊Plots按鈕,設(shè)置結(jié)果輸出窗口中給出的聚類分析統(tǒng)計圖。選中Dendrogram
復(fù)選框和Icicle欄中的None單項選擇按鈕,如圖,即只給出聚類樹形圖,而不給
出冰柱圖。單擊Continue按鈕,返回主界面。
圖Statistics子對話框圖Plots子對話框
4.點擊Method按鈕,設(shè)置系統(tǒng)聚類的方法選項。ClusterMethod下拉列表用于指定
聚類的方法,這里選擇Betweerrgroupinkage(組間平均數(shù)連接距離);Measure
欄用于選擇對距離和相似性的測度方法,選擇SquaredEuclideandistance(歐
氏距離);單擊Continue按鈕,返回主界面。
圖5.4Method子對話框圖5.5Save子對話框
5.點擊Save按鈕,指定保存在數(shù)據(jù)文件中的用于說明聚類結(jié)果的新變量。None表示
不保存任何新變量;Singlesolution表示生成一個分類變量,在其后的矩形框中
輸入要分成的類數(shù);Rangeofsolutions表示生成多個分類變量。這里我們選擇
Rangeofsolutions,并在后面的兩個矩形框中分別輸入2和4,即生成三個新的
分類變量,分別說明將樣品分為2類、3類和4類時的聚類結(jié)果,如圖。點擊
Continue,返回主界面。
6.點擊OK按鈕,運行系統(tǒng)聚類過程。
聚類結(jié)果分析:
下面的群集成員表給出了把公司分為2類,3類,4類時各個樣五所屬類別的情況,另外,從右邊的樹形
圖也可以直觀地看到,假設(shè)將15個公司分為2類,那么13單獨為一類,其余的為一類;假設(shè)分為3類,那
么公司8別離出來,自成一類。以此類推。
表5.1各樣品所屬類別表
圖5.6聚類樹形圖
b)K均值法的步驟如下:
1.在SPSS窗U中選擇AnalyzefCiassifyfK-MeansCluster,調(diào)出K均值聚類分析
主界面,并將變量X1-X8移入Variables框中。在Method框中選擇Iterate
classify,即使用K-means算法不斷計算新的類中心,并替換舊的類中心(假設(shè)選
擇Classifyonly,那么根據(jù)初始類中心進(jìn)行聚類,在聚類過程中不改變類中心)。
在NumberofCluster后面的矩形框中輸入想要把樣品聚成的類數(shù),這里我們輸入
3,即將15個公司分為3類。
(Centers按鈕,那么用于設(shè)置迭代的初始類中心。如果不手工設(shè)置,那么系統(tǒng)會
自動設(shè)置初始類中心,這里我們不作設(shè)置。)
圖5.7K均值聚類分析主界面
2.點擊Iterate按鈕,對迭代參數(shù)進(jìn)行設(shè)置。MaximumIterations參數(shù)框用于設(shè)定
K-means算法迭代的最大次數(shù),輸入10,ConvergenceCriterion參數(shù)框用于設(shè)定
算法的收斂判據(jù),輸入0,只要在迭代的過程中先滿足了其中的參數(shù),那么迭代過
程就停止。單擊Continue,返回主界面。
圖5.8Iterate子對話框
3.點擊Save按鈕,設(shè)置保存在數(shù)據(jù)文件中的說明聚類結(jié)果的新變量。我們將兩個復(fù)
選框都選中,其中Clustermembership選項用于建立一個代表聚類結(jié)果的變量,
默認(rèn)變量名為qcl_l;Distancefromclustercenter選項建立一個新變量,代表
各觀測量與其所屬類中心的歐氏距離。單擊Continue按鈕返回。
圖Save子對話框
4.點擊Options按鈕,指定要計算的統(tǒng)計量。選中Initialclustercenters和
Clusterinformationforeachcase復(fù)選框。這樣,在輸出窗口中將給出聚類的
初始類中心和每個公司的分類信息,包括分配到哪一類和該公司距所屬類中心的距
離。單擊Continue返回。
圖0Options子對話框
5.點擊0K按鈕,運行K均值聚類分析程序。
聚類結(jié)果分析:
以下三表給出了各公司所屬的類及其與所屬類中心的距離,聚類形成的類的中心的各變量值以及各
類的公司數(shù)。由以上表格可得公司13與公司8各自成一類,其余的公司為一類。
通過比擬可知,兩種聚類方法得到的聚類結(jié)果完全一致。
下表是某年我國16個地區(qū)農(nóng)民支出情況的抽樣調(diào)查數(shù)據(jù),每個地區(qū)調(diào)查了反映每人平均生活消費支出
情況的六個經(jīng)濟(jì)指標(biāo)。試通過統(tǒng)計分析軟件用不同的方法進(jìn)行系統(tǒng)聚類分析,并比擬何種方法與人們觀
察到的實際情況較接近。
交通和娛樂教
地區(qū)食品衣著燃料住房
通訊育文化
北京
天津
河北
山西
內(nèi)蒙
遼寧
吉林
黑龍江
上海
江蘇
浙江5
安徽
福建
江西
山東
河南
解:令食品支出為XI,衣著支出為X2,燃料支出為X3,住房支出為X4,交通和通訊支出為X5,娛樂
教育文化支出為X6,用spss對16各地區(qū)聚類分析的步驟如題,不同的方法在第4個步驟的Method子
對話框中選擇不同的Clustermethodo
1.Between-groupinkage(組間平均數(shù)連接距離)
上表給出了把全國16個地區(qū)分為2類、3類和4類時,各地區(qū)所屬的類別,另外從右邊的樹形圖也可以
直觀地觀察到,假設(shè)用組間平均數(shù)連接距離?將這些地區(qū)分為3類,那么9(上海)單獨為一類,1(北京)
和II(浙江)為一類,剩余地區(qū)為一類。
2.Within-group1inkage(組內(nèi)平均連接距離)
假設(shè)用組內(nèi)平均數(shù)連接距離將這些地區(qū)分為3類,那么9(上海)單獨為一類,1(北京)單獨為一類,
剩余地區(qū)為一類。
3.Nearestneighbor(最短距離法)
假設(shè)用最短距離法將這些地區(qū)分為3類,那么9(上海)單獨為一類,1(北京)單獨為一類,剩余地區(qū)
為一類。
4.Furthestneighbor(最遠(yuǎn)距離法〕
假設(shè)用最遠(yuǎn)距離法將這些地區(qū)分為3類,那么9(上海)單獨為一類,1(北京)和11
(浙江)為一類,剩余地區(qū)為一類。
5.Centroidcluster(重心法)
假設(shè)用重心法將這些地區(qū)分為3類,那么9(上海)單獨為一類,1(北京)和11(浙
江)為一類,剩余地區(qū)為一類。
6.Mediancluster(中位數(shù)距離)
假設(shè)用中位數(shù)距離法將這些地區(qū)分為3類,那么9(上海)單獨為一類,1(北京)和11(浙江)為一
類,剩余地區(qū)為一類。
7.Wardmethod(離差平方和)
假設(shè)用離差平方和法將這些地區(qū)分為3類,那么9(上海),1(北京)和11(浙江)為一類,2(天津)、
6(遼寧)、7(吉林)、10(江蘇)、12(安徽)、131福建)和14(江西)為一類,剩余地區(qū)為一類。
5.10根據(jù)上題數(shù)據(jù)通過SPSS統(tǒng)計分析軟件進(jìn)行快速聚類運算,并與系統(tǒng)聚類分析結(jié)果進(jìn)行比擬。
解:快速聚類運算即K均值法聚類,具體步驟同,聚類結(jié)果如下:
聚類的結(jié)果為9(上海)單獨為一類,1(北京)、2(天津)、6(遼寧)、7(吉林)、10(江蘇)、111浙
江)、13(福建)和14(江西)為一類,剩余地區(qū)為一類。
下表是2003年我國省會城市和方案單列市的主要經(jīng)濟(jì)指標(biāo):人均GDP王(元)、人均工業(yè)產(chǎn)值占(元)、
客運總量月(萬人)、貨運總后(萬噸)、地方財政預(yù)算內(nèi)收入&(億元)、固定資產(chǎn)投資總額4(億
元)、在崗職工占總?cè)丝诘谋壤?(%)、在崗職工人均工資額4(元)、城鄉(xiāng)居民年底儲蓄余額不(億
元)。試產(chǎn)過統(tǒng)計分析軟件進(jìn)行系統(tǒng)聚類分析,并比擬何種方法與人們觀察到的實際情況較接近。
x
城市$x2/匯》占4i4%
北京
318863316830520306715932000253126441
津
天
2643343732350734679205934186481825
黜
偌
1513413159118431000849416123061044
原
太
15752158312975152483319712679660
洛
用..1
??)1899111257350841552118214116255
陽
沈
232681544666121463681557149611423
連
大
407
春2914527615110012108111117560131()
長
18630210456999108924629413870831
的叫
1482575616458951876423124511154
海
上
46586770837212638618992274273056055
京
南
27547438531679014805136794221901134
州
杭
32667498232134916815150717246671466
波
亍
32543479042493813797139555236911060
肥
合
1062111714603446413624513901359
州
福
2228121310968082506737615053876
門
陵
5359093126444130557()23819024397
昌
南
142219205572844543121013913483
南
濟(jì)
23437226345810143547642916027758
島
吉
2470535506146663055312054815335908
州
鄭
166741402310709784766373135381048
漢
武
212781708311882166108()623137301286
沙
長
15446887310609106316043416987705
州
廣
482205540429751288592751089288053727
圳
深
191838347519109896793291875310532199
寧
南
81763390701658933617013171451
口
海
1644214553132843304129914819284
慶
重
7190507658290324501621187124401897
都
成
92897279328798788
陽1791490152741494
貴
明11046103501851153184023112181345
昆
安16215116015126123386034214255709
西
州13140891311413939265446135051211
蘭
寧1445917136220955812120313489468
西
川706656052788203787614629
銀175
木
國1178711013214621271213413497193
子22508171372188127544118016509420
南
口318863316830520306715932000253126441
海
2643343732350734679205934186481825
資料來源:《中國統(tǒng)計年鑒2004》
解:用spss對37個地區(qū)聚類分析的步驟如題,不同的方法在第4個步驟的Method子對話框中選擇不同
的Clustermethodo
1.Between-groupinkage(組間平均數(shù)連接距離)
從上面的樹形圖可以直觀地觀察到,假設(shè)用組間平均數(shù)連接距離將這些地區(qū)分為3類,那么24(深圳)
單獨為一類,10(上海)和16。夏門)為一類,剩余地區(qū)為一類。
2.Within-grouplinkage(組內(nèi)平均連接距離)
假設(shè)用組內(nèi)平均數(shù)連接距離將這些地區(qū)分為3
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司每月生日會策劃方案
- 2025年職業(yè)教育與成人繼續(xù)教育專業(yè)能力考核試題及答案
- 2025年醫(yī)學(xué)影像技術(shù)考試試卷及答案
- 2025年社會保障與就業(yè)考試題及答案
- 畜禽糞污資源化技術(shù)-洞察及研究
- 2025年教育信息化與學(xué)習(xí)平臺構(gòu)建考試試卷及答案
- 2025年環(huán)境工程師資格考試試卷及答案
- 2025年廣告與傳播專業(yè)考試試題及答案
- 2024年度浙江省二級造價工程師之建設(shè)工程造價管理基礎(chǔ)知識提升訓(xùn)練試卷B卷附答案
- 2024年度浙江省二級注冊建筑師之法律法規(guī)經(jīng)濟(jì)與施工題庫附答案(基礎(chǔ)題)
- (完整版)傳熱學(xué)期末考試試題
- JCT587-2012 玻璃纖維纏繞增強(qiáng)熱固性樹脂耐腐蝕立式貯罐
- Python數(shù)據(jù)分析與數(shù)據(jù)挖掘 課件 第6、7章 Pandas基礎(chǔ)與應(yīng)用、Matplotlib
- 玻璃體手術(shù)并發(fā)癥的預(yù)防及處理
- 2023年醫(yī)學(xué)高級職稱-中醫(yī)肛腸(醫(yī)學(xué)高級)考試歷年高頻考點試題含答案
- 爬架拆除技術(shù)交底
- pergeos軟件教程評價許可介紹
- 密封條范文模板(A4打印版)
- 出租車 專業(yè)部分考核試題 城市客運企業(yè)主要負(fù)責(zé)人和安全生產(chǎn)管理人員安全考核基礎(chǔ)題庫
- GB/T 9634.3-2002鐵氧體磁心表面缺陷極限導(dǎo)則第3部分:ETD和E形磁心
- GB/T 8478-2008鋁合金門窗
評論
0/150
提交評論