第三章聚類分析_第1頁
第三章聚類分析_第2頁
第三章聚類分析_第3頁
第三章聚類分析_第4頁
第三章聚類分析_第5頁
已閱讀5頁,還剩107頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心1多元統(tǒng)計(jì)分析何曉群中國(guó)人民大學(xué)出版社2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心2第三章聚類分析§3.1聚類分析的思想§3.2相似性度量§3.3類和類的特征§3.4系統(tǒng)聚類法§3.5模糊聚類分析§3.6K-均值聚類和有序樣本聚類§3.7計(jì)算步驟與上機(jī)實(shí)現(xiàn)§3.8社會(huì)經(jīng)濟(jì)案例研究2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心3第三章聚類分析人們往往會(huì)碰到通過劃分同種屬性的對(duì)象很好地解決問題的情形,而不論這些對(duì)象是個(gè)體、公司、產(chǎn)品甚至行為。如果沒有一種客觀的方法,基于在總體內(nèi)區(qū)分群體的戰(zhàn)略選擇,比如市場(chǎng)細(xì)分將不可能,其他領(lǐng)域也會(huì)遇到類似的問題,研究者都在基于一個(gè)多維剖面的觀測(cè)中尋找某種“自然”結(jié)構(gòu)。為此最常用的技巧是聚類分析,聚類分析將個(gè)體或?qū)ο蠓诸悾沟猛活愔械膶?duì)象之間的相似性比與其他類的對(duì)象的相似性更強(qiáng)。目的在于使類間對(duì)象的同質(zhì)性最大化和類與類間對(duì)象的異質(zhì)性最大化。本章將介紹聚類分析的性質(zhì)和目的,并且引導(dǎo)研究者使用各種聚類分析方法。目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心4§3.1聚類分析的思想3.1.1導(dǎo)言在古老的分類學(xué)中,人們主要靠經(jīng)驗(yàn)和專業(yè)知識(shí),很少利用數(shù)學(xué)方法。隨著生產(chǎn)技術(shù)和科學(xué)的發(fā)展,分類越來越細(xì),以致有時(shí)僅憑經(jīng)驗(yàn)和專業(yè)知識(shí)還不能進(jìn)行確切分類,于是數(shù)學(xué)這個(gè)有用的工具逐漸被引進(jìn)到分類學(xué)中,形成了數(shù)值分類學(xué)。近些年來,數(shù)理統(tǒng)計(jì)的多元分析方法有了迅速的發(fā)展,多元分析的技術(shù)自然被引用到分類學(xué)中,于是從數(shù)值分類學(xué)中逐漸的分離出聚類分析這個(gè)新的分支。目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5§3.1聚類分析的思想目錄上頁下頁返回結(jié)束我們認(rèn)為,所研究的樣品或指標(biāo)(變量)之間是存在著程度不同的相似性(親疏關(guān)系)。于是根據(jù)一批樣品的多個(gè)觀測(cè)指標(biāo),具體找出一些能夠度量樣品或指標(biāo)之間的相似程度的統(tǒng)計(jì)量,以這些統(tǒng)計(jì)量為劃分類型的依據(jù),把一些相似程度較大的樣品(或指標(biāo))聚合為一類,把另外一些彼此之間相似程度較大的樣品(或指標(biāo))又聚合為另外一類,…。關(guān)系密切的聚合到一個(gè)小的分類單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類單位,直到把所有的樣品(或指標(biāo))都聚合完畢,把不同的類型一一劃分出來,形成一個(gè)由小到大的分類系統(tǒng)。最后再把整個(gè)分類系統(tǒng)畫成一張分群圖(又稱譜系圖),用它把所有的樣品(或指標(biāo))間的親疏關(guān)系表示出來。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6§3.1聚類分析的思想目錄上頁下頁返回結(jié)束在經(jīng)濟(jì)、社會(huì)、人口研究中,存在著大量分類研究、構(gòu)造分類模式的問題。過去人們主要靠經(jīng)驗(yàn)和專業(yè)知識(shí),作定性分類處理,致使許多分類帶有主觀性和任意性,不能很好的提示客觀事物內(nèi)在的本質(zhì)差別和聯(lián)系,特別是對(duì)于多因素、多指標(biāo)的分類問題,定性分類更難以實(shí)現(xiàn)準(zhǔn)確分類。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心7§3.1聚類分析的思想目錄上頁下頁返回結(jié)束為了克服定性分類時(shí)存在的不足,數(shù)學(xué)這個(gè)有用的工具逐漸被引進(jìn)到分類學(xué)中,形成數(shù)值分類學(xué)。后來隨著多元分析的引進(jìn),聚類分析可以用來對(duì)案例進(jìn)行分類,也可以用來對(duì)變量進(jìn)行分類。對(duì)樣品的分類常稱為Q型聚類分析,對(duì)變量的分類常稱為R型聚類分析。與多元分析的其他方法相比,聚類分析的方法是很粗糙的,理論上還不完善,但由于它能解決許多實(shí)際問題,很受人們的重視,和回歸分析、判別分析一起被稱為多元分析的三大方法。

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心8§3.1聚類分析的思想目錄上頁下頁返回結(jié)束3.1.2聚類的目的在一些社會(huì)、經(jīng)濟(jì)問題中,我們面臨的往往是比較復(fù)雜的研究對(duì)象,如果能把相似的樣品(或指標(biāo))歸成類,處理起來就大為方便,聚類分析的目的就是把相似的研究對(duì)象歸成類?!纠?.1】若我們需要將下列11戶城鎮(zhèn)居民按戶主個(gè)人的收入進(jìn)行分類,對(duì)每戶作了如下的統(tǒng)計(jì),結(jié)果列于表3.1。在表中,“標(biāo)準(zhǔn)工資收入”、“職工獎(jiǎng)金”、“職工津貼”、“性別”、“就業(yè)身份”等稱為指標(biāo),每戶稱為樣品。若對(duì)戶主進(jìn)行分類,還可以采用其他指標(biāo),如“子女個(gè)數(shù)”、“政治面貌”等,指標(biāo)如何選擇取決于聚類的目的。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心9§3.1聚類分析的思想目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10§3.1聚類分析的思想目錄上頁下頁返回結(jié)束例3.1中的8個(gè)指標(biāo),前6個(gè)是定量的,后2個(gè)是定性的。如果分得更細(xì)一些,指標(biāo)的類型有三種尺度間隔尺度。變量用連續(xù)的量來表示。有序尺度。指標(biāo)用有序的等級(jí)來表示,有次序關(guān)系,但沒有數(shù)量表示。名義尺度。指標(biāo)用一些類來表示,這些類之間沒有等級(jí)關(guān)系也沒有數(shù)量關(guān)系。不同類型的指標(biāo),在聚類分析中,處理的方式是大不一樣的。總的來說,提供給間隔尺度的指標(biāo)的方法較多,對(duì)另兩種尺度的變量處理的方法不多。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心11§3.1聚類分析的思想目錄上頁下頁返回結(jié)束聚類分析根據(jù)實(shí)際的需要可能有兩個(gè)方向,一是對(duì)樣品(如例3.1中的戶主),一是對(duì)指標(biāo)聚類。第一位重要的問題是“什么是類”?粗糙地講,相似樣品(或指標(biāo))的集合稱作類。由于經(jīng)濟(jì)問題的復(fù)雜性,欲給類下一個(gè)嚴(yán)格的定義是困難的,在§3.2中,我們將給類一些待探討的定義。

聚類分析給人們提供了豐富多采的方法進(jìn)行分類,這些方法大致可歸納為:(1)系統(tǒng)聚類法。(2)模糊聚類法。(3)K-均值法。(4)有序樣品的聚類。(5)分解法。(6)加入法。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心12§3.2相似性度量目錄上頁下頁返回結(jié)束從一組復(fù)雜數(shù)據(jù)產(chǎn)生一個(gè)相當(dāng)簡(jiǎn)單的類結(jié)構(gòu),必然要求進(jìn)行“相關(guān)性”或“相似性“度量。在相似性度量的選擇中,常常包含許多主觀上的考慮,但是最重要的考慮是指標(biāo)(包括離散的、連續(xù)的和二態(tài)的)性質(zhì)或觀測(cè)的尺度(名義的、次序的、間隔的和比率的)以及有關(guān)的知識(shí)。當(dāng)對(duì)樣品進(jìn)行聚類時(shí),“靠近”往往由某種距離來刻畫。另一方面,當(dāng)對(duì)指標(biāo)聚類時(shí),根據(jù)相關(guān)系數(shù)或某種關(guān)聯(lián)性度量來聚類。

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心13§3.2相似性度量目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心14§3.2相似性度量目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心15§3.2相似性度量目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心16§3.2相似性度量目錄上頁下頁返回結(jié)束(1)當(dāng)各指標(biāo)的測(cè)量值相差懸殊時(shí),先對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化,然后用標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算距離,即蘭氏距離。(2)一種改進(jìn)的距離就是在前面曾討論過的馬氏距離,它對(duì)一切線性變換是不變的,不受指標(biāo)量綱的影響。它對(duì)指標(biāo)的相關(guān)性也作了考慮,我們僅用一個(gè)例子來說明。

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心17§3.2相似性度量目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心18§3.2相似性度量目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心19§3.2相似性度量目錄上頁下頁返回結(jié)束以上幾種距離均是適用于間隔尺度的變量,如果指標(biāo)是有序尺度或名義尺度時(shí)也有一些定義距離的方法。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心20§3.2相似性度量目錄上頁下頁返回結(jié)束定義距離的較靈活的思想方法。【例3.3】歐洲各國(guó)的語言有許多相似之處,有的十分相似。為了研究這些語言的歷史關(guān)系,也許通過比較它們數(shù)字的表達(dá)比較恰當(dāng)。表3.3列舉了英語、挪威語、丹麥語、荷蘭語、德語、法語、西班牙語、意大利語、波蘭語、匈牙利語和芬蘭語的1,2,…,10的拼法,希望計(jì)算這11種語言之間的距離。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心21§3.2相似性度量目錄上頁下頁返回結(jié)束顯然,此例無法直接用上述公式來計(jì)算距離,仔細(xì)觀察表3.3,發(fā)現(xiàn)前三種文字(英、挪、丹)很相似,尤其每個(gè)單詞的第一個(gè)字母,于是產(chǎn)生一種定義距離的辦法:用兩種語言的10個(gè)數(shù)詞中的第一個(gè)字母不相同的個(gè)數(shù)來定義兩種語言之間的距離,例如英語和挪威語中只有1和8的第一個(gè)字母不同,故它們之間的距離為2。十一種語言之間兩兩的距離列于表3.4中。

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心22§3.2相似性度量目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心23§3.2相似性度量目錄上頁下頁返回結(jié)束對(duì)于間隔尺度,常用的相似系數(shù)有:(1)夾角余弦。這是受相似形的啟發(fā)而來,圖3.1中的曲線AB和CD盡管長(zhǎng)度不一,但形狀相似,當(dāng)長(zhǎng)度不是主要矛盾時(shí),應(yīng)定義一種相似系數(shù)使AB和CD呈現(xiàn)出比較密切的關(guān)系。而夾角余弦適合這一要求。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心24§3.2相似性度量目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心25§3.2相似性度量目錄上頁下頁返回結(jié)束

(2)相關(guān)系數(shù)。這是大家最熟悉的統(tǒng)計(jì)量,它是將數(shù)據(jù)標(biāo)準(zhǔn)化后的夾角余弦。有時(shí)指標(biāo)之間也可用距離來描述它們的接近程度。實(shí)際上距離和相似系數(shù)之間可以互相轉(zhuǎn)化,2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心26§3.3類和類的特征目錄上頁下頁返回結(jié)束目的是聚類,那么什么叫類呢?由于客觀事物的千差萬別,在不同的問題中類的含義是不盡相同的。給類下一個(gè)嚴(yán)格的定義,決非易事。下面給出類的適用于不同的場(chǎng)合幾個(gè)定義。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心27§3.3類和類的特征目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心28§3.3類和類的特征目錄上頁下頁返回結(jié)束易見,定義3.1的要求是最高的,凡符合它的類,一定也是后三種定義的類。此外,凡符合定義3.2的類,也一定是定義3.3的類。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心29§3.3類和類的特征目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心30§3.3類和類的特征目錄上頁下頁返回結(jié)束在聚類分析中,不僅要考慮各個(gè)類的特征,而且要計(jì)算類與類之間的距離。由于類的形狀是多種多樣的,所以類與類之間的距離也有多種計(jì)算方法。

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心31§3.3類和類的特征目錄上頁下頁返回結(jié)束(1)最短距離法。(nearestneighbor或singlelinkagemethod)

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心32§3.3類和類的特征目錄上頁下頁返回結(jié)束(2)最長(zhǎng)距離法(farthestneighbor或completelinkagemethod)。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心33§3.3類和類的特征目錄上頁下頁返回結(jié)束(3)類平均法(groupaveragemethod)。

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心34§3.3類和類的特征目錄上頁下頁返回結(jié)束(4)重心法(Centroidmethod)。

(5)離差平方和法(SumofSquaresmethod)。

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心35§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束系統(tǒng)聚類法(hierarchicalclusteringmethod)在聚類分析中諸方法中用的最多,包含下列步驟:

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心36§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束不同的距離定義方式用到系統(tǒng)聚類程序中,得到不同的系統(tǒng)聚類法。我們現(xiàn)在通過一個(gè)簡(jiǎn)單的例子,來說明各種系統(tǒng)聚類法?!纠?.4】為了研究遼寧等5省份2000年城鎮(zhèn)居民消費(fèi)支出的分布規(guī)律,根據(jù)調(diào)查資料作類型劃分。指標(biāo)名稱及原始數(shù)據(jù)見表3.5。資料來源[10]

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心37§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心38§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束3.4.1最短距離法和最長(zhǎng)距離法所謂最短距離法就是類與類之間的距離采用(3.12)的系統(tǒng)聚類方法。

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心39§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心40§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心41§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心42§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心43§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束所謂最長(zhǎng)距離法是類與類之間的距離采用(3.13)的系統(tǒng)聚類法。選擇最大的距離作為新類與其他類之間的距離,然后將類間距離最小的兩類進(jìn)行合并,一直合并到只有一類為止。上述兩方法中,主要的不同是計(jì)算新類與其他類的距離的遞推公式不同。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心44§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束最短距離法也可用于對(duì)指標(biāo)的分類,分類時(shí)可以用距離也可以用相似系數(shù)。但用相似系數(shù)時(shí)應(yīng)找最大的元素并類,計(jì)算新類與其他類的距離應(yīng)使用公式(3.19)。最短距離法的主要缺點(diǎn)是它有鏈接聚合的趨勢(shì),因?yàn)轭惻c類之間的距離為所有距離中的最短者,兩類合并以后,它與其他類的距離縮小了,這樣容易形成一個(gè)比較大的類,大部分樣品都被聚在一類中,在樹狀聚類圖中,會(huì)看到一個(gè)延伸的鏈狀結(jié)構(gòu),所以最短距離法的聚類效果并不好,實(shí)際中不提倡使用。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心45§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束最長(zhǎng)距離法克服了最短距離法鏈接聚合的缺陷,兩類合并以后與其他類的距離是原來兩個(gè)類中的距離最大者,加大了合并后的類與其他類的距離。本例中最短距離法與最長(zhǎng)距離法得到的結(jié)果是相同的。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心46§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束3.4.2重心法和類平均法從物理的觀點(diǎn)看,一個(gè)類用它的重心(該類樣品的均值)做代表比較合理,類與類之間的距離就用重心之間的距離來代表。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心47§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束重心法雖有很好的代表性,但并未充分利用各樣本的信息,有人建議將兩類之間的距離平方定義為這兩類元素兩兩之間的平均平方距離,即類平均法。類平均法是聚類效果較好、應(yīng)用比較廣泛的一種聚類方法。它有兩種形式,一種是組間聯(lián)結(jié)法(Between-groupslinkage),另一種是組內(nèi)聯(lián)結(jié)法(Within-groupslinkage)。組間聯(lián)結(jié)法在計(jì)算距離時(shí)只考慮兩類之間樣品之間距離的平均,組內(nèi)聯(lián)結(jié)法在計(jì)算距離時(shí)把兩組所有個(gè)案之間的距離都考慮在內(nèi)。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心48§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心49§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束3.4.3離差平方和法(或稱Ward方法)離差平方和方法是由Ward提出來的,許多資料上稱做Ward法。他的思想是來于方差分析,如果類分得正確,同類樣品的離差平方和應(yīng)當(dāng)較小,類與類之間的離差平方和應(yīng)當(dāng)較大。

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心50§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心51§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束離差平方和法放棄了在一切分類中求的極小值的要求,而是設(shè)計(jì)出某種規(guī)格:找到一個(gè)局部最優(yōu)解,Ward法就是找局部最優(yōu)解的一個(gè)方法。其思想是先將n個(gè)樣品各自成一類,然后每次縮小一類,每縮小一類離差平方和就要增大,選擇使增加最小的兩類合并,直到所有的樣品歸為一類為止。

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心52§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束3.4.4分類數(shù)的確定如何選擇分類數(shù)是各種聚類方法中的主要問題之一。在K均值聚類法中聚類之前需要指定分類數(shù),譜系聚類法(系統(tǒng)聚類法)中我們最終得到的只是一個(gè)樹狀結(jié)構(gòu)圖,從圖中可以看出存在很多類,但問題是如何確定類的最佳個(gè)數(shù)。確定分類數(shù)的問題是聚類分析中迄今為止尚未完全解決的問題之一,主要的障礙是對(duì)類的結(jié)構(gòu)和內(nèi)容很難給出一個(gè)統(tǒng)一的定義,這樣就給不出從理論上和實(shí)踐中都可行的虛無假設(shè)。實(shí)際應(yīng)用中人們主要根據(jù)研究的目的,從實(shí)用的角度出發(fā),選擇合適的分類數(shù)。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心53§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束Demir-men曾提出了根據(jù)樹狀結(jié)構(gòu)圖來分類的準(zhǔn)則:準(zhǔn)則1:任何類都必須在鄰近各類中是突出的,即各類重心之間距離必須大。準(zhǔn)則2:各類所包含的元素都不要過分地多。準(zhǔn)則3:分類的數(shù)目應(yīng)該符合使用的目的。準(zhǔn)則4:若采用幾種不同的聚類方法處理,則在各自的聚類圖上應(yīng)發(fā)現(xiàn)相同的類。系統(tǒng)聚類中每次合并的類與類之間的距離也可以作為確定類數(shù)的一個(gè)輔助工具。首先把離得近的類合并,在并類過程中聚合系數(shù)呈增加趨勢(shì),聚合系數(shù)小,表示合并的兩類的相似程度較大,兩個(gè)差異很大的類合到一起,會(huì)使該系數(shù)很大。

如果以y軸為聚合系數(shù),x軸表示分類數(shù),畫出聚合系數(shù)隨分類數(shù)的變化曲線,會(huì)得到類似于因子分析中的碎石圖,可以在曲線開始變得平緩的點(diǎn)選擇合適的分類數(shù)。

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心54§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束3.4.5系統(tǒng)聚類法的統(tǒng)一上面介紹的五種系統(tǒng)聚類法,并類的原則和步驟是完全一樣的,所不同的是類與類之間的距離有不同的定義,從而得到不同的遞推公式,如果能將它們統(tǒng)一為一個(gè)公式,將大大有利于編制計(jì)算機(jī)程序。Lance和Williams于1967年給出了一個(gè)統(tǒng)一的公式2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心55§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束一般而言,不同的方法聚類的結(jié)果不完全相同。最短距離法適用于條形的類。最長(zhǎng)距離法、重心法、類平均法、離差平方和法適用于橢圓形的類。.2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心56§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束由于上述的聚類方法得到的結(jié)果是不完全相同的。于是產(chǎn)生一個(gè)問題:我們應(yīng)當(dāng)選擇哪一個(gè)結(jié)果為好?為了解決這個(gè)問題,需要研究系統(tǒng)聚類法的性質(zhì),現(xiàn)簡(jiǎn)要介紹如下。

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心57§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心58§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束關(guān)系統(tǒng)聚類法的性質(zhì),還可從其他角度提出了比較優(yōu)與劣的原則。將n個(gè)樣品,欲分為k類,有人定義一個(gè)分類函數(shù)(或叫損失函數(shù)),然后尋找這個(gè)函數(shù)的最優(yōu)解,在某些條件下,最短距離法的解是最優(yōu)的,而系統(tǒng)聚類法的其他方法都不具有這個(gè)性質(zhì)(參見[6]、[7]),故最短距離法在實(shí)際中也很被推崇。系統(tǒng)聚類法的各種方法的比較仍是值得研究的一個(gè)課題,例如,有人用隨機(jī)模擬作了研究,發(fā)現(xiàn)最長(zhǎng)距離法不可取。

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心59§3.5模糊聚類分析目錄上頁下頁返回結(jié)束模糊集的理論是二十世紀(jì)六十年代中期美國(guó)的自動(dòng)控制專家查德(L.A.Zadeh)教授首先提出的。模糊集的理論已廣泛應(yīng)用于許多領(lǐng)域,將模糊集概念用到聚類分析中便產(chǎn)生了模糊聚類分析。3.5.1模糊聚類的幾個(gè)基本概念1.特征函數(shù)2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心60§3.5模糊聚類分析目錄上頁下頁返回結(jié)束2.隸屬函數(shù)。當(dāng)我們要了解某企業(yè)完成年計(jì)劃利潤(rùn)程度的大小時(shí),僅用特征函數(shù)就不夠了。模糊數(shù)學(xué)把它推廣到[0,1]閉區(qū)間,即用0和1之間的一個(gè)數(shù)去度量它。這個(gè)數(shù)就叫隸屬度。當(dāng)用函數(shù)來表示隸屬度的變化規(guī)律時(shí),就叫做隸屬函數(shù)。

3.模糊矩陣的運(yùn)算法則。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心61§3.5模糊聚類分析目錄上頁下頁返回結(jié)束3.5.2模糊分類關(guān)系1.乘積空間

2.分類關(guān)系2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心62§3.5模糊聚類分析目錄上頁下頁返回結(jié)束模糊聚類分析的實(shí)質(zhì)就是根據(jù)研究對(duì)象本身的屬性而構(gòu)造模糊矩陣,在此基礎(chǔ)上根據(jù)一定的隸屬度來確定其分類關(guān)系。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心63§3.5模糊聚類分析目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心64§3.5模糊聚類分析目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心65§3.5模糊聚類分析目錄上頁下頁返回結(jié)束3.5.3模糊聚類分析計(jì)算步驟1.對(duì)原始數(shù)據(jù)進(jìn)行變換。變換方法通常有標(biāo)準(zhǔn)化變換、極差變換、對(duì)數(shù)變換等。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心66§3.5模糊聚類分析目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心67§3.5模糊聚類分析目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心68§3.6K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束3.6.1K-均值法(快速聚類法)非譜系聚類法是把樣品(而不是變量)聚集成K個(gè)類的集合。類的個(gè)數(shù)K可以預(yù)先給定,或者在聚類過程中確定。非譜系方法可應(yīng)用于比系統(tǒng)聚類法大得多的數(shù)據(jù)組。非譜系聚類法或者一開始就對(duì)元素分組,或者從一個(gè)構(gòu)成各類核心的“種子”集合開始。選擇好的初始構(gòu)形,將能免除系統(tǒng)的偏差。一種方法是從所有項(xiàng)目中隨機(jī)地選擇“種子”點(diǎn)或者隨機(jī)地把元素分成若干個(gè)初始類。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心69§3.6K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束K-均值法,又叫快速聚類法,是Macqueen于1967年提出的,其思想是把每個(gè)樣品聚集到其最近形心(均值)類中去。在它的最簡(jiǎn)單說明中,這個(gè)過程由下列三步所組成:把樣品粗略分成K個(gè)初始類;進(jìn)行修改,逐個(gè)分派樣品到其最近均值的類中去(通常用標(biāo)準(zhǔn)化數(shù)據(jù)或非標(biāo)準(zhǔn)化數(shù)據(jù)計(jì)算歐氏距離)。重新計(jì)算接受新樣品的類和失去樣品的類的形心(均值);重復(fù)第2步,直到各類無元素進(jìn)出。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心70§3.6K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束若不在一開始就粗略地把樣品分到K個(gè)預(yù)先指定的類(第1步),那我們也可以指定K個(gè)最初形心(種子點(diǎn)),然后進(jìn)行第2步。樣品的最終聚類在某種程度上依賴于最初的劃分,或種子點(diǎn)的選擇。為了檢驗(yàn)聚類的穩(wěn)定性,可用一個(gè)新的初始分類重新檢驗(yàn)整個(gè)聚類算法。如最終分類與原來一樣,則不必再行計(jì)算;否則,須另行考慮聚類算法。見[11]

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心71§3.6K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束3.6.2有序樣品的聚類在前幾節(jié)的討論中,分類的樣品是相互獨(dú)立的,分類時(shí)彼此是平等的。但在有些實(shí)際問題中,要研究的現(xiàn)象與時(shí)間的順序密切相關(guān)。例如我們想要研究,從1949年到2003年以來,國(guó)民收入可以劃分為幾個(gè)階段,階段的劃分必須以年份順序?yàn)橐罁?jù),總的想法是要將國(guó)民收入接近的年份劃分到一個(gè)段內(nèi),要完成類似這樣的問題的研究,用前幾節(jié)分類的方法顯然是不行了。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心72§3.6K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束對(duì)于這類有序樣品的分類,實(shí)質(zhì)上是需要找出一些分點(diǎn),將它們劃分成幾個(gè)分段,每個(gè)分段看作一類,稱這種分類為分割。顯然,分點(diǎn)在不同位置可以得到不同的分割。這樣就存在一個(gè)如何決定分點(diǎn),使達(dá)到所謂最優(yōu)分割的問題。即要求一個(gè)分割能使各段內(nèi)部樣品間的差異最小,而各段之間樣品的差異最大。這就是決定分割點(diǎn)的依據(jù)。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心73§3.6K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束1、可能的分類數(shù)目2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心74§3.6K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束2、最優(yōu)分割法2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心75§3.6K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心76§3.6K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心77§3.6K-均值聚類和有序樣品的聚類目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心78§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束本書以SPSS15.0和S-Plus2000兩種軟件來說明前面講述的幾種聚類法的實(shí)現(xiàn)過程。具體步驟如下:分析所需要研究的問題,確定聚類分析所需要的多元變量;選擇對(duì)樣品聚類還是對(duì)指標(biāo)聚類;選擇合適的聚類方法;選擇所需的輸出結(jié)果。我們將實(shí)現(xiàn)過程用邏輯框圖表示為圖3.8。

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心79§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心80§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束3.7.1系統(tǒng)聚類法用SPSS軟件自帶的數(shù)據(jù)文件World95.sav來做一個(gè)實(shí)例分析。為了研究亞洲國(guó)家的經(jīng)濟(jì)發(fā)展水平和文化教育水平,以便于對(duì)亞洲國(guó)家進(jìn)行分類研究,這里我們進(jìn)行聚類分析(在World95.sav數(shù)據(jù)中篩選出亞洲國(guó)家,使用Data→Select

Cases→Ifconditionissatisfied中選入region=3)。詳細(xì)步驟如下:(1)打開數(shù)據(jù)。使用菜單中File→Open命令,然后選中要分析的數(shù)據(jù)World95.sav。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心81§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束(2)在菜單中的選項(xiàng)中選擇Analyze→Classify命令,Classify命令下有兩個(gè)聚類分析命令,一是K-meanscluster(K--均值聚類),二是Hierarchicalcluster(系統(tǒng)聚類法)。這里我們選擇系統(tǒng)聚類法。(3)在系統(tǒng)聚類法中,我們看到Cluster下有兩個(gè)選項(xiàng),Cases(樣品聚類或Q型聚類)和Variables(變量聚類或R型聚類)。這里我們選擇對(duì)樣品進(jìn)行聚類。(4)Display下面有兩個(gè)選項(xiàng),分別是Statistics(統(tǒng)計(jì)量)、Plots(輸出圖形),我們可以選擇所需要輸出的統(tǒng)計(jì)量和圖形。

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心82§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束(5)在系統(tǒng)聚類法中底下有四個(gè)按紐,分別是Statistics、Plots、Method、Save。(a)在Statistics中,有Agglomerationschedule(每一階段聚類的結(jié)果),Proximitymatrix(樣品間的相似性矩陣)。由Clustermembership可以指定聚類的個(gè)數(shù),none選項(xiàng)不指定聚類個(gè)數(shù),Singlesolution指定一個(gè)確定類的個(gè)數(shù),Rangeofsolution指定類的個(gè)數(shù)的范圍(如從分3類到分5類)。(b)在Plots中,有Dendrogram(譜系聚類圖,也稱樹狀聚類圖)、Icicle(冰柱圖)、Orientation指冰柱圖的方向(Horizontal水平方向、Vertical垂直方向)。(c)在Method中,Cluster可以選擇聚類方法,Measure中可以選擇計(jì)算的距離。(d)在Save中,可以選擇保存聚類結(jié)果。選好每個(gè)選項(xiàng)后,點(diǎn)“OK”就可以執(zhí)行了。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心83§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束在這個(gè)數(shù)據(jù)文件中,我們選擇的變量(Variables(s))有Urban(城市人口比例),Lifeexpf(女性平均壽命)、Lifeexpm(男性平均壽命)、Literacy(有讀寫能力的人所占比例)、Gdp_cap(人均國(guó)內(nèi)生產(chǎn)總值),以Country(國(guó)家或地區(qū))來標(biāo)識(shí)(LabelCases)本例中的17個(gè)亞洲國(guó)家或地區(qū),并以其他5個(gè)變量進(jìn)行Q型聚類分析,即對(duì)國(guó)家進(jìn)行聚類。這里我們將原始變量標(biāo)準(zhǔn)化(在Method選項(xiàng)下TransformValues的Standardize空白框內(nèi),選擇ZScores),在Statistics選項(xiàng)中選擇AgglomerationSchedule,聚類方法選擇組內(nèi)聯(lián)結(jié)法(Within-grouplinkage),計(jì)算距離選擇平方歐氏距離,輸出冰柱圖和樹狀聚類圖。得到的結(jié)果如下:2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心84§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心85§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心86§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束將表3-8的聚合系數(shù)利用Excel作出聚合系數(shù)隨分類數(shù)變化曲線,如圖3-13.

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心87§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心88§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束輸出結(jié)果中,表3.9表示接近度矩陣,是反映樣品之間相似性或者相異性的矩陣。本例中由于計(jì)算距離使用的是平方歐氏距離,所以樣品間距離越大,樣品越相異,如果我們計(jì)算距離選擇Pearson相關(guān)系數(shù),則接近度矩陣是相似性矩陣。由表中矩陣可以看出,Bangladesh(孟加拉國(guó))與Cambodia(柬埔寨)的距離是最小的,因此它們最先聚為一類。圖3.9是冰柱圖,也是反映樣品聚類情況的圖,如果按照設(shè)定的類數(shù),在那類數(shù)的行上從左到右就可以找到各類所包含的樣品。比如我們希望分為三類,最左邊的類數(shù)應(yīng)選3,每個(gè)樣品右邊都有一列X,如果某個(gè)樣品右邊的X個(gè)數(shù)少于3,那么它和前面多于3個(gè)X的樣品聚為一類,如此下去,直到找到全部三類為止。例如,HongKong右邊的列只有兩個(gè)X,那么它就與Japan和Singapore聚為一類了,而China右邊的列只有一個(gè)X,那么從Taiwan到China又被聚為一類,后面樣品聚為另一類。

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心89§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束表3.10是反映每一階段聚類的結(jié)果,Coefficients表示聚合系數(shù),第2列和第3列表示聚合的類,比如第一階段時(shí)(Stage=1)第2個(gè)樣品——Bangladesh(孟加拉國(guó))與第三個(gè)樣品——Cambodia(柬埔寨)聚為一類,注意這時(shí)有16類(17-1=16)。因此某階段的分類數(shù)等于總的樣品數(shù)減去這個(gè)階段的序號(hào)。圖3.10是聚合系數(shù)隨分類數(shù)變化的曲線。由圖可以看出,當(dāng)分類數(shù)為3或4時(shí), 曲線變得比較平緩,這個(gè)分類數(shù)也符合我們分類的目的。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心90§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束圖3.11是樹狀聚類圖,從圖中可以由分類個(gè)數(shù)得到分類情況。如果我們選擇分類數(shù)為3,就從距離為10的地方往下切,得到分類結(jié)果如下。{1:孟加拉國(guó)、柬埔寨、阿富汗、印度、巴基斯坦};{2:香港、新加坡、日本};{3:泰國(guó)、越南、中國(guó)、印度尼西亞、馬來西亞、菲律賓、韓國(guó)、臺(tái)灣和朝鮮}。我們可以從經(jīng)濟(jì)發(fā)展水平和文化教育水平來理解所作的分類。第2類應(yīng)該是亞洲國(guó)家中經(jīng)濟(jì)發(fā)達(dá)程度最高的國(guó)家或地區(qū),第1類的經(jīng)濟(jì)水平和文教水平都比較低,第3類國(guó)家的經(jīng)濟(jì)水平和文教水平居中。

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心91§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束3.7.2快速聚類法(K-meanscluster)。同樣我們使用上面的數(shù)據(jù)文件World95.sav,從中篩選出亞洲國(guó)家,試圖將亞洲國(guó)家按經(jīng)濟(jì)和文教水平分為3類??梢允褂每焖倬垲惙▽?duì)樣品進(jìn)行聚類。我們使用的變量有Country(國(guó)家或地區(qū))、Urban(城市人口比例),Lifeexpf(女性平均壽命)、Lifeexpm(男性平均壽命)、Literacy(有讀寫能力的人所占比例)、Gdp_cap(人均國(guó)內(nèi)生產(chǎn)總值),以Country來標(biāo)識(shí)本例中的17個(gè)亞洲國(guó)家或地區(qū),并以其他5個(gè)變量進(jìn)行Q型聚類分析,即對(duì)國(guó)家進(jìn)行聚類。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心92§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束在SPSS軟件中選擇Analyze→Classify→K-MeansCluster。進(jìn)入K-均值聚類對(duì)話框以后,將上面5個(gè)變量選入Variable,將Country用于標(biāo)識(shí)(Labelcasesby)。將分類數(shù)(Numberofclusters)定為3。我們可以在Option選項(xiàng)中選擇Initialclustercenter(最初分類重心),ANOVA(方差分析表),Clusterinformationforeachcase(每個(gè)樣品的分類信息)。得到如下分類結(jié)果:2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心93§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心94§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心95§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束輸出結(jié)果中表3.9表示最初各類的重心,也就是種子點(diǎn)。表3.10是樣品的分類情況。這里我們看到快速聚類法將亞洲國(guó)家或地區(qū)分為這樣3類。{1:阿富汗、孟加拉國(guó)、柬埔寨、中國(guó)、印度、印度尼西亞、馬來西亞、朝鮮、巴基斯坦、泰國(guó)、越南}。{2:香港、日本、新加坡}。{3:韓國(guó)、臺(tái)灣}。我們也可以對(duì)分類結(jié)果做分析。第1類國(guó)家或地區(qū)經(jīng)濟(jì)和文教衛(wèi)生水平較低。第2類國(guó)家或地區(qū)是亞洲國(guó)家或地區(qū)中的佼佼者,其經(jīng)濟(jì)發(fā)達(dá)程度和文教衛(wèi)生水平都是很高的。第3類國(guó)家或地區(qū)處于兩者中間。這個(gè)結(jié)果可以結(jié)合表3.13(最后各類的重心)來分析,我們看到第2類的人均GDP比另外兩組要高。表3.12是方差分析表,但是應(yīng)當(dāng)注意值只能作為描述所用,而不能根據(jù)該值判斷各類均值是否有顯著差異。通過方差分析表我們可以看出,有4個(gè)變量對(duì)分類貢獻(xiàn)顯著。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心96§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束三、模糊聚類法繼續(xù)使用上面的例子,希望將亞洲國(guó)家或地區(qū)分成3類進(jìn)行分析研究。這里我們使用S-Plus2000軟件。進(jìn)入S-Plus軟件以后,首先打開上述數(shù)據(jù)文件,可以用File→Import

Data→FromFile,然后選擇數(shù)據(jù)形式為*.sav(SPSS數(shù)據(jù))。打開數(shù)據(jù)后,使用Statistics→ClusterAnalysis→FuzzyPartitioning實(shí)現(xiàn)模糊聚類分析。在Variables中選擇Urban(城市人口比例),Lifeexpf(女性平均壽命)、Lifeexpm(男性平均壽命)、Literacy(有讀寫能力的人所占比例)、Gdp_cap(人均國(guó)內(nèi)生產(chǎn)總值)進(jìn)行Q型聚類分析,即對(duì)國(guó)家或地區(qū)進(jìn)行聚類。在Option選項(xiàng)中指定類的個(gè)數(shù)為3。選擇好變量以后,點(diǎn)“OK”就可以得到結(jié)果。我們還選擇了Plot選項(xiàng)中的ClusterPlot(分類圖)和SilhouettePlot(側(cè)影圖)兩個(gè)圖輸出。得到以下結(jié)果。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心97§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心98§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心99§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束表3.15是各類的分類系數(shù),由于我們指定分為3類,某個(gè)樣品在這3類中的某類上系數(shù)最大,則將該樣品聚為該類。比如第1個(gè)樣品在第1類的系數(shù)最大,說明第1個(gè)樣品在第1類中。表3.16是聚類結(jié)果。由結(jié)果可以看出,與K-均值快速聚類得到的結(jié)果是完全一致的。圖3.12是樣品的分類圖,由圖可以看出,各類很明顯地被分開。圖3.13是樣品的側(cè)影圖,類似于水平的冰柱圖或者樹形圖,可以看出三類中,各類包含哪些樣品。我們看到此例中,由模糊聚類得到的結(jié)果與K-均值聚類得到的結(jié)果是一樣的。同時(shí)我們應(yīng)該看到這種分類帶有較強(qiáng)的主觀性,而且分類結(jié)果也比較粗糙。一般僅適合于對(duì)大量數(shù)據(jù)的快速聚類。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心100§3.8社會(huì)經(jīng)濟(jì)案例研究目錄上頁下頁返回結(jié)束例3.5城鎮(zhèn)居民消費(fèi)水平通常用表3.15中的八項(xiàng)指標(biāo)來描述,八項(xiàng)指標(biāo)間存在一定的線性相關(guān)。為研究城鎮(zhèn)居民的消費(fèi)結(jié)構(gòu),需將相關(guān)性強(qiáng)的指標(biāo)歸并到一起,這實(shí)際就是對(duì)指標(biāo)聚類。原始數(shù)據(jù)列于表3.15。將原始數(shù)據(jù)錄入SPSS,并依次點(diǎn)擊“Analyze”→“Correlate”→“Bivariate”,打開BivariateCorrelations對(duì)話框,把八個(gè)變量選入Variables欄中,單擊“OK”,得到這八個(gè)指標(biāo)對(duì)應(yīng)的相關(guān)系數(shù),列于表3.16。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心101§3.8社會(huì)經(jīng)濟(jì)案例研究目錄上頁下頁返回結(jié)束2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心102§3.8社會(huì)經(jīng)濟(jì)案例研究目錄上頁下頁返回結(jié)束表3.16中最大的相關(guān)系數(shù)為r4,8=0.837,將G4和G8并成一新類G9,然后計(jì)算G9與各類的相關(guān)系數(shù),再找最大的相關(guān)系數(shù),每次縮小一類得圖3-17。我們可以看出全國(guó)城鎮(zhèn)居民得消費(fèi)結(jié)構(gòu)大致可以分為三個(gè)方面,一類是各種副食、日用品及交通通信、文化教育和住房等支出,這是在消費(fèi)結(jié)構(gòu)中起主導(dǎo)作用的方面;其次是居民購買煙、酒、飲料及著裝支出;糧食和水電燃料是兩項(xiàng)很重要的消費(fèi)指標(biāo),但目前在城鎮(zhèn)居民的消費(fèi)中占的比例較小,可將它們歸并為同一類。2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心103§3.8社會(huì)經(jīng)濟(jì)案例研究目錄上頁下頁返回結(jié)束上面介紹的幾種系統(tǒng)聚類方法,并類的原則和步驟基本一致,所不同的是類與類的距離有不同的定義。其實(shí)可以把這幾種方法統(tǒng)一起來,有利于在計(jì)算機(jī)上靈活地選擇更有意義的譜系圖。

2023/2/4中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心104§3.8社會(huì)經(jīng)濟(jì)案例研究目錄上頁下頁返回結(jié)束對(duì)例3.5,我們采用歐氏距離分別用類平均法、最短距離法、最長(zhǎng)距離法把31個(gè)省市分類。類平均法聚類在SPSS中的操作為:點(diǎn)選“Analyze”→“Classify”→“HierarchicalCluster”,打開HierarchicalClusterAnalysis對(duì)話框,將八個(gè)聚類指標(biāo)選入Variables欄中,將表示地區(qū)的變量選入LabelCasesBy欄中,按“Plots”按鈕,在彈出的窗口中選中Dendrogram(譜系圖)選項(xiàng),按“Continue”返回主對(duì)話框,在按

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論