應(yīng)用多元統(tǒng)計分析習(xí)題解答-聚類分析_第1頁
應(yīng)用多元統(tǒng)計分析習(xí)題解答-聚類分析_第2頁
應(yīng)用多元統(tǒng)計分析習(xí)題解答-聚類分析_第3頁
應(yīng)用多元統(tǒng)計分析習(xí)題解答-聚類分析_第4頁
應(yīng)用多元統(tǒng)計分析習(xí)題解答-聚類分析_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第五章聚類分析

5.1判別分析和聚類分析有何區(qū)別?

答:即根據(jù)一定的判別準(zhǔn)則,判定一個樣本歸屬于哪一類。具體而言,設(shè)有n個樣本,對每個樣本測

得p項指標(biāo)(變量)的數(shù)據(jù),每個樣本屬于k個類別(或總體)中的某一類,通過找出一個最優(yōu)的劃分,

使得不同類別的樣本盡可能地區(qū)別開,并判別該樣本屬于哪個總體。聚類分析是分析如何對樣品(或變

量)進(jìn)行量化分類的問題。在聚類之前,我們并不知道總體,而是通過一次次的聚類,使相近的樣品(或

變量)聚合形成總體。通俗來講,判別分析是在有多少類及是什么類的情況下進(jìn)行分類,而聚類分析是

在不知道類的情況下進(jìn)行分類。

5.2試述系統(tǒng)聚類的根本思想。

答:系統(tǒng)聚類的根本思想是:距離相近的樣品(或變量)先聚成類,距離相遠(yuǎn)的后聚成類,過程一直進(jìn)

行下去,每個樣品(或變量)總能聚到適宜的類中。

5.3對樣品和變量進(jìn)行聚類分析時,所構(gòu)造的統(tǒng)計量分別是什么?簡要說明為什么這樣構(gòu)造?

答:對樣品進(jìn)行聚類分析時,用距離來測定樣品之間的相似程度。因為我們把n個樣本看作p維空間的

n個點。點之間的距離即可代表樣品間的相似度。常用的距離為

(一)閔可夫斯基距離:⑥?⑷=(£曷-乂"『嚴(yán)

k=l

q取不同值,分為

(I)絕對距離"=1)

(2)歐氏距離"=2)

13)切比雪夫距離(4=8)

〔二)馬氏距離

(三)蘭氏距離

對變量的相似性,我們更多地要了解變量的變化趨勢或變化方向,因此用相關(guān)性進(jìn)行衡量。

將變量看作p維空間的向量,一般用

(一)夾角余弦

[二)相關(guān)系數(shù)

5.4在進(jìn)行系統(tǒng)聚類時,不同類間距離計算方法有何區(qū)別?選擇距離公式應(yīng)遵循哪些原則?答:設(shè)

必表示樣品M與號之間距離,用Dij表示類G與G之間的距離。

(1).最短距離法

(2)最長距離法

(3)中間距離法

埋,+限

其中

(4)重心法

(5)類平均法

(6)可變類平均法

其中B是可變的且為<1f

⑺;網(wǎng)入。葉底+}圓)+6/

比二—⑺0+^^+//其中。是可變的且P<1

(8)離差平方和法

通常選擇距離公式應(yīng)注意遵循以下的根本原則:

(1)要考慮所選擇的距離公式在實際應(yīng)用中有明確的意義。如歐氏距離就有非常明確的空間距離概念。

馬氏距離有消除量綱影響的作用。

(2)要綜合考慮對樣本觀測數(shù)據(jù)的預(yù)處理和將要采用的聚類分析方法。如在進(jìn)行聚類分析之前已經(jīng)對

變量作了標(biāo)準(zhǔn)化處理,那么通常就可采用歐氏距離。

(3)要考慮研究對象的特點和計算量的大小。樣品間距離公式的選擇是一個比擬復(fù)雜且?guī)в幸欢ㄖ饔^

性的問題,我們應(yīng)根據(jù)研究對象的特點不同做出具體分折。實際中,聚類分析前不妨試探性地多項選擇

擇幾個距離公式分別進(jìn)行聚類,然后對聚類分析的結(jié)果進(jìn)行比照分析,以確定最適宜的距離刻度方法。

試述K均值法與系統(tǒng)聚類法的異同。

答:相同:K—均值法和系統(tǒng)聚類法一樣,都是以距離的遠(yuǎn)近親疏為標(biāo)準(zhǔn)進(jìn)行聚類的。

不同:系統(tǒng)聚類對不同的類數(shù)產(chǎn)生一系列的聚類結(jié)果,而K—均值法只能產(chǎn)生指定類數(shù)的聚類結(jié)果。

具體類數(shù)確實定,離不開實踐經(jīng)驗的枳累:有時也可以借助系統(tǒng)聚類法以一局部樣品為對象進(jìn)行聚

類,其結(jié)果作為K—均值法確定類數(shù)的參考。

試述K均值法與系統(tǒng)聚類有何區(qū)別?試述有序聚類法的根本思想。

答:K均值法的根本思想是將每一個樣品分配給最近中心(均值)的類中。系統(tǒng)聚類對不同的類數(shù)產(chǎn)生

一系列的聚類結(jié)果,而K—均值法只能產(chǎn)生指定類數(shù)的聚類結(jié)果。具體類數(shù)確實定,有時也可以借助系

統(tǒng)聚類法以一局部樣品為對象進(jìn)行聚類,其結(jié)果作為K均值法確定類數(shù)的參考。

有序聚類就是解決樣品的次序不能變動時的聚類分析問題。如果用X⑴,X⑵,…,X0表示"個有序的樣

品,那么每一類必須是這樣的形式,即XRX.),…/⑺,其中〃,且簡記為

…,力。在同一類中的樣品是次序相鄰的。一般的步驟是(1)計算直徑{D(ij)}。(2)

計算最小分類損失函數(shù){L[p(l,k)]}。(3)確定分類個數(shù)匕(4)最優(yōu)分類。

5.7檢測某類產(chǎn)品的重量,抽了六個樣品,每個樣品只測了一個指標(biāo),分別為1,2,3,6,9,11.試用

最短距離法,重心法進(jìn)行聚類分析。

(1)用最短距離法進(jìn)行聚類分析。

采用絕對值距離,計算樣品間距離陣DYOY

GIG?GaG4G$G?

G10

G210

Ga2I0

5430

87630

GA1098520

s

Du=1

由上表易知DYW中最小元素是于是將Gi,G2,G?聚為一類,記為G7

計算距離陣Dy”

G7G4GsG&

G70

G430

Gs630

G“8520

°Y1Y中最小元素是D$6=2于是將G$,Gq聚為一類,記為Ga

計算樣本距離陣DYZY

G7G4Ga

%2Y中最小元素是于是將G。聚為一類,記為Gg

因此,

(2)用重心法進(jìn)行聚類分析

計算樣品間平方距離陣D、OY

G1G2G?G4G$G4

G?410

G4251690

G564493690

G610081642540

易知D~YOY中最小元素是于是將d,G2,G?聚為一類,記為G?

計算距離陣D、IY

G7G4GSGA

0

160

4990

812540

注:計算方法,其他以此類推。

02丫1丫中最小元素是D2§6=4于是將G5,GA聚為一類,記為Ga

計算樣本距離陣D、2Y

3■5

G7o

^4160

Ga64I60

D?Y2Y中最小元素是于是將G4,聚為一類,記為Gg

因此,

5.8下表是15個上市公司2001年的一些主要財務(wù)指標(biāo),使用系統(tǒng)聚類法和K—均值法分別對這些公司

在行聚類,并對結(jié)果進(jìn)行比擬分析。

公司凈資產(chǎn)每股凈總資產(chǎn)資產(chǎn)負(fù)流動負(fù)每股凈凈利潤總資產(chǎn)

編號收益率利潤周,專率債率債比率資產(chǎn)增匕率增K率

3010021.18

4

5

61086

7

8100

9

10100

11

12100

13

141

15

解:令凈資產(chǎn)收益率為XI,每股凈利潤X2,總資產(chǎn)周轉(zhuǎn)率為X3,資產(chǎn)負(fù)債率為X4,流動負(fù)債比率為

X5,每股凈資產(chǎn)為X6,凈利潤增長率為X7,總資產(chǎn)增長率為X8,用spss對公司聚類分析的步驟如下:

a)系統(tǒng)聚類法:

1.在SPSS窗口中選擇Analyze—ClassifyfHierachicalCluster,調(diào)出系統(tǒng)聚類分

析主界面,并將變量XI-X8移入Variables框中。在Cluster欄中選擇Cases單

項選擇按鈕,即對樣品進(jìn)行聚類(假設(shè)選擇Variables,那么對變量進(jìn)行聚類)。

在Display欄中選擇Statistics和Plots復(fù)選框,這樣在結(jié)果輸出窗口中可以同

時得到聚類結(jié)果統(tǒng)計量和統(tǒng)計圖。

圖5.1系統(tǒng)分析法主界面

2.點擊Statistics按鈕,設(shè)置在結(jié)果輸出窗口中給出的聚類分析統(tǒng)計量。我們選擇

Agglomerationschedule與ClusterMembership中的Rangeofsolution2-4,

如下圖,點擊Continue按鈕,返回主界面。

(其中,Agglomerationschedule表示在結(jié)果中給出聚類過程表,顯示系統(tǒng)聚類

的詳細(xì)步驟;Proximitymatrix表示輸出各個體之間的距離矩陣;Cluster

Membership表示在結(jié)果中輸出一個表,表中顯示每個個體被分配到的類別,Range

ofsolution2-4即將所有個體分為2至4類。)

3.點擊Plots按鈕,設(shè)置結(jié)果輸出窗口中給出的聚類分析統(tǒng)計圖。選中Dendrogram

復(fù)選框和Icicle欄中的None單項選擇按鈕,如圖,即只給出聚類樹形圖,而不給

出冰柱圖。單擊Continue按鈕,返回主界面。

圖Statistics子對話框圖Plots子對話框

4.點擊Method按鈕,設(shè)置系統(tǒng)聚類的方法選項。ClusterMethod下拉列表用于指定

聚類的方法,這里選擇Betweerrgroupinkage(組間平均數(shù)連接距離);Measure

欄用于選擇對距離和相似性的測度方法,選擇SquaredEuclideandistance(歐

氏距離);單擊Continue按鈕,返回主界面。

圖5.4Method子對話框圖5.5Save子對話框

5.點擊Save按鈕,指定保存在數(shù)據(jù)文件中的用于說明聚類結(jié)果的新變量。None表示

不保存任何新變量;Singlesolution表示生成一個分類變量,在其后的矩形框中

輸入要分成的類數(shù);Rangeofsolutions表示生成多個分類變量。這里我們選擇

Rangeofsolutions,并在后面的兩個矩形框中分別輸入2和4,即生成三個新的

分類變量,分別說明將樣品分為2類、3類和4類時的聚類結(jié)果,如圖。點擊

Continue,返回主界面。

6.點擊OK按鈕,運行系統(tǒng)聚類過程。

聚類結(jié)果分析:

下面的群集成員表給出了把公司分為2類,3類,4類時各個樣五所屬類別的情況,另外,從右邊的樹形

圖也可以直觀地看到,假設(shè)將15個公司分為2類,那么13單獨為一類,其余的為一類;假設(shè)分為3類,那

么公司8別離出來,自成一類。以此類推。

表5.1各樣品所屬類別表

圖5.6聚類樹形圖

b)K均值法的步驟如下:

1.在SPSS窗U中選擇AnalyzefCiassifyfK-MeansCluster,調(diào)出K均值聚類分析

主界面,并將變量X1-X8移入Variables框中。在Method框中選擇Iterate

classify,即使用K-means算法不斷計算新的類中心,并替換舊的類中心(假設(shè)選

擇Classifyonly,那么根據(jù)初始類中心進(jìn)行聚類,在聚類過程中不改變類中心)。

在NumberofCluster后面的矩形框中輸入想要把樣品聚成的類數(shù),這里我們輸入

3,即將15個公司分為3類。

(Centers按鈕,那么用于設(shè)置迭代的初始類中心。如果不手工設(shè)置,那么系統(tǒng)會

自動設(shè)置初始類中心,這里我們不作設(shè)置。)

圖5.7K均值聚類分析主界面

2.點擊Iterate按鈕,對迭代參數(shù)進(jìn)行設(shè)置。MaximumIterations參數(shù)框用于設(shè)定

K-means算法迭代的最大次數(shù),輸入10,ConvergenceCriterion參數(shù)框用于設(shè)定

算法的收斂判據(jù),輸入0,只要在迭代的過程中先滿足了其中的參數(shù),那么迭代過

程就停止。單擊Continue,返回主界面。

圖5.8Iterate子對話框

3.點擊Save按鈕,設(shè)置保存在數(shù)據(jù)文件中的說明聚類結(jié)果的新變量。我們將兩個復(fù)

選框都選中,其中Clustermembership選項用于建立一個代表聚類結(jié)果的變量,

默認(rèn)變量名為qcl_l;Distancefromclustercenter選項建立一個新變量,代表

各觀測量與其所屬類中心的歐氏距離。單擊Continue按鈕返回。

圖Save子對話框

4.點擊Options按鈕,指定要計算的統(tǒng)計量。選中Initialclustercenters和

Clusterinformationforeachcase復(fù)選框。這樣,在輸出窗口中將給出聚類的

初始類中心和每個公司的分類信息,包括分配到哪一類和該公司距所屬類中心的距

離。單擊Continue返回。

圖0Options子對話框

5.點擊0K按鈕,運行K均值聚類分析程序。

聚類結(jié)果分析:

以下三表給出了各公司所屬的類及其與所屬類中心的距離,聚類形成的類的中心的各變量值以及各

類的公司數(shù)。由以上表格可得公司13與公司8各自成一類,其余的公司為一類。

通過比擬可知,兩種聚類方法得到的聚類結(jié)果完全一致。

下表是某年我國16個地區(qū)農(nóng)民支出情況的抽樣調(diào)查數(shù)據(jù),每個地區(qū)調(diào)查了反映每人平均生活消費支出

情況的六個經(jīng)濟(jì)指標(biāo)。試通過統(tǒng)計分析軟件用不同的方法進(jìn)行系統(tǒng)聚類分析,并比擬何種方法與人們觀

察到的實際情況較接近。

交通和娛樂教

地區(qū)食品衣著燃料住房

通訊育文化

北京

天津

河北

山西

內(nèi)蒙

遼寧

吉林

黑龍江

上海

江蘇

浙江5

安徽

福建

江西

山東

河南

解:令食品支出為XI,衣著支出為X2,燃料支出為X3,住房支出為X4,交通和通訊支出為X5,娛樂

教育文化支出為X6,用spss對16各地區(qū)聚類分析的步驟如題,不同的方法在第4個步驟的Method子

對話框中選擇不同的Clustermethodo

1.Between-groupinkage(組間平均數(shù)連接距離)

上表給出了把全國16個地區(qū)分為2類、3類和4類時,各地區(qū)所屬的類別,另外從右邊的樹形圖也可以

直觀地觀察到,假設(shè)用組間平均數(shù)連接距離?將這些地區(qū)分為3類,那么9(上海)單獨為一類,1(北京)

和II(浙江)為一類,剩余地區(qū)為一類。

2.Within-group1inkage(組內(nèi)平均連接距離)

假設(shè)用組內(nèi)平均數(shù)連接距離將這些地區(qū)分為3類,那么9(上海)單獨為一類,1(北京)單獨為一類,

剩余地區(qū)為一類。

3.Nearestneighbor(最短距離法)

假設(shè)用最短距離法將這些地區(qū)分為3類,那么9(上海)單獨為一類,1(北京)單獨為一類,剩余地區(qū)

為一類。

4.Furthestneighbor(最遠(yuǎn)距離法〕

假設(shè)用最遠(yuǎn)距離法將這些地區(qū)分為3類,那么9(上海)單獨為一類,1(北京)和11

(浙江)為一類,剩余地區(qū)為一類。

5.Centroidcluster(重心法)

假設(shè)用重心法將這些地區(qū)分為3類,那么9(上海)單獨為一類,1(北京)和11(浙

江)為一類,剩余地區(qū)為一類。

6.Mediancluster(中位數(shù)距離)

假設(shè)用中位數(shù)距離法將這些地區(qū)分為3類,那么9(上海)單獨為一類,1(北京)和11(浙江)為一

類,剩余地區(qū)為一類。

7.Wardmethod(離差平方和)

假設(shè)用離差平方和法將這些地區(qū)分為3類,那么9(上海),1(北京)和11(浙江)為一類,2(天津)、

6(遼寧)、7(吉林)、10(江蘇)、12(安徽)、131福建)和14(江西)為一類,剩余地區(qū)為一類。

5.10根據(jù)上題數(shù)據(jù)通過SPSS統(tǒng)計分析軟件進(jìn)行快速聚類運算,并與系統(tǒng)聚類分析結(jié)果進(jìn)行比擬。

解:快速聚類運算即K均值法聚類,具體步驟同,聚類結(jié)果如下:

聚類的結(jié)果為9(上海)單獨為一類,1(北京)、2(天津)、6(遼寧)、7(吉林)、10(江蘇)、111浙

江)、13(福建)和14(江西)為一類,剩余地區(qū)為一類。

下表是2003年我國省會城市和方案單列市的主要經(jīng)濟(jì)指標(biāo):人均GDP王(元)、人均工業(yè)產(chǎn)值占(元)、

客運總量月(萬人)、貨運總后(萬噸)、地方財政預(yù)算內(nèi)收入&(億元)、固定資產(chǎn)投資總額4(億

元)、在崗職工占總?cè)丝诘谋壤?(%)、在崗職工人均工資額4(元)、城鄉(xiāng)居民年底儲蓄余額不(億

元)。試產(chǎn)過統(tǒng)計分析軟件進(jìn)行系統(tǒng)聚類分析,并比擬何種方法與人們觀察到的實際情況較接近。

x

城市$x2/匯》占4i4%

北京

318863316830520306715932000253126441

2643343732350734679205934186481825

1513413159118431000849416123061044

15752158312975152483319712679660

用..1

??)1899111257350841552118214116255

232681544666121463681557149611423

407

春2914527615110012108111117560131()

18630210456999108924629413870831

的叫

1482575616458951876423124511154

46586770837212638618992274273056055

27547438531679014805136794221901134

32667498232134916815150717246671466

32543479042493813797139555236911060

1062111714603446413624513901359

2228121310968082506737615053876

5359093126444130557()23819024397

142219205572844543121013913483

濟(jì)

23437226345810143547642916027758

2470535506146663055312054815335908

166741402310709784766373135381048

212781708311882166108()623137301286

15446887310609106316043416987705

482205540429751288592751089288053727

191838347519109896793291875310532199

81763390701658933617013171451

1644214553132843304129914819284

7190507658290324501621187124401897

92897279328798788

陽1791490152741494

明11046103501851153184023112181345

安16215116015126123386034214255709

西

州13140891311413939265446135051211

寧1445917136220955812120313489468

西

川706656052788203787614629

銀175

國1178711013214621271213413497193

子22508171372188127544118016509420

口318863316830520306715932000253126441

2643343732350734679205934186481825

資料來源:《中國統(tǒng)計年鑒2004》

解:用spss對37個地區(qū)聚類分析的步驟如題,不同的方法在第4個步驟的Method子對話框中選擇不同

的Clustermethodo

1.Between-groupinkage(組間平均數(shù)連接距離)

從上面的樹形圖可以直觀地觀察到,假設(shè)用組間平均數(shù)連接距離將這些地區(qū)分為3類,那么24(深圳)

單獨為一類,10(上海)和16。夏門)為一類,剩余地區(qū)為一類。

2.Within-grouplinkage(組內(nèi)平均連接距離)

假設(shè)用組內(nèi)平均數(shù)連接距離將這些地區(qū)分為3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論