系統(tǒng)聚類法課件_第1頁
系統(tǒng)聚類法課件_第2頁
系統(tǒng)聚類法課件_第3頁
系統(tǒng)聚類法課件_第4頁
系統(tǒng)聚類法課件_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

2024/9/101第三章聚類分析§3.1聚類分析的思想§3.2相似性度量§3.3類和類的特征§3.4系統(tǒng)聚類法§3.5模糊聚類分析§3.6K-均值聚類和有序樣本聚類§3.7計算步驟與上機實現(xiàn)§3.8案例研究2024/9/102§3.1聚類分析的思想目錄上頁下頁返回結(jié)束對樣品的分類常稱為Q型聚類分析,對變量的分類常稱為R型聚類分析。與多元分析的其他方法相比,聚類分析的方法是很粗糙的,理論上還不完善,但由于它能解決許多實際問題,很受人們的重視,和回歸分析、判別分析一起被稱為多元分析的三大方法。2024/9/103§3.1聚類分析的思想目錄上頁下頁返回結(jié)束3.1.2聚類的目的聚類分析的目的就是把相似的研究對象歸成類。

類間對象同質(zhì)性最大化

類與類間對象的異質(zhì)性最大化2024/9/104§3.1聚類分析的思想目錄上頁下頁返回結(jié)束“什么是類”?粗糙地講,相似樣品(或指標(biāo))的集合稱作類。

聚類分析給人們提供了豐富多采的方法進(jìn)行分類,這些方法大致可歸納為:(1)系統(tǒng)聚類法。(2)模糊聚類法。(3)K-均值法。(4)有序樣品的聚類。(5)分解法。(6)加入法。2024/9/105§3.2相似性度量目錄上頁下頁返回結(jié)束從一組復(fù)雜數(shù)據(jù)產(chǎn)生一個相當(dāng)簡單的類結(jié)構(gòu),必然要求進(jìn)行“相關(guān)性”或“相似性“度量。在相似性度量的選擇中,常常包含許多主觀上的考慮,但是最重要的考慮是指標(biāo)(包括離散的、連續(xù)的和二態(tài)的)性質(zhì)或觀測的尺度(名義的、次序的、間隔的和比率的)以及有關(guān)的知識。當(dāng)對樣品進(jìn)行聚類時,“靠近”往往由某種距離來刻畫。另一方面,當(dāng)對指標(biāo)聚類時,根據(jù)相關(guān)系數(shù)或某種關(guān)聯(lián)性度量來聚類。

2024/9/106§3.2相似性度量目錄上頁下頁返回結(jié)束2024/9/10中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7§3.2相似性度量目錄上頁下頁返回結(jié)束2024/9/108§3.2相似性度量目錄上頁下頁返回結(jié)束2024/9/109目錄上頁下頁返回結(jié)束(1)當(dāng)各指標(biāo)的測量值相差懸殊時,先對數(shù)據(jù)標(biāo)準(zhǔn)化,然后用標(biāo)準(zhǔn)化后的數(shù)據(jù)計算蘭氏距離。(2)一種改進(jìn)的距離就是在前面曾討論過的馬氏距離,它對一切線性變換是不變的,不受指標(biāo)量綱的影響。它對指標(biāo)的相關(guān)性也作了考慮,我們僅用一個例子來說明。

蘭氏距離這是蘭思和維廉姆斯(Lance&Williams)所給定的一種距離,其計算公式為:

這是一個自身標(biāo)準(zhǔn)化的量,適用于一切x>0的情況。由于它對大的奇異值不敏感,這樣使得它特別適合于高度偏倚的數(shù)據(jù)。雖然這個距離有助于克服明氏距離的第一個缺點,但它也沒有考慮指標(biāo)之間的相關(guān)性。馬氏距離這是印度著名統(tǒng)計學(xué)家馬哈拉諾比斯(P.C.Mahalanobis)所定義的一種距離,其計算公式為:

分別表示第i個樣品和第j樣品的p指標(biāo)觀測值所組成的列向量,即樣本數(shù)據(jù)矩陣中第i個和第j個行向量的轉(zhuǎn)置,

表示觀測變量之間的協(xié)方差短陣。在實踐應(yīng)用中,若總體協(xié)方差矩陣

未知,則可用樣本協(xié)方差矩陣作為估計代替計算。2024/9/1012§3.2相似性度量目錄上頁下頁返回結(jié)束定義距離的較靈活的思想方法?!纠?.3】歐洲各國的語言有許多相似之處,有的十分相似。為了研究這些語言的歷史關(guān)系,也許通過比較它們數(shù)字的表達(dá)比較恰當(dāng)。表3.3列舉了英語、挪威語、丹麥語、荷蘭語、德語、法語、西班牙語、意大利語、波蘭語、匈牙利語和芬蘭語的1,2,…,10的拼法,希望計算這11種語言之間的距離。2024/9/1013§3.2相似性度量目錄上頁下頁返回結(jié)束顯然,此例無法直接用上述公式來計算距離,仔細(xì)觀察表3.3,發(fā)現(xiàn)前三種文字(英、挪、丹)很相似,尤其每個單詞的第一個字母,于是產(chǎn)生一種定義距離的辦法:用兩種語言的10個數(shù)詞中的第一個字母不相同的個數(shù)來定義兩種語言之間的距離,例如英語和挪威語中只有1和8的第一個字母不同,故它們之間的距離為2。十一種語言之間兩兩的距離列于表3.4中。

2024/9/1014§3.2相似性度量目錄上頁下頁返回結(jié)束2024/9/1015§3.2相似性度量目錄上頁下頁返回結(jié)束對于間隔尺度,常用的相似系數(shù)有:(1)夾角余弦。這是受相似形的啟發(fā)而來,圖3.1中的曲線AB和CD盡管長度不一,但形狀相似,當(dāng)長度不是主要矛盾時,應(yīng)定義一種相似系數(shù)使AB和CD呈現(xiàn)出比較密切的關(guān)系。而夾角余弦適合這一要求。2024/9/1016§3.2相似性度量目錄上頁下頁返回結(jié)束17§3.2相似性度量

(2)相關(guān)系數(shù)。這是大家最熟悉的統(tǒng)計量,它是將數(shù)據(jù)標(biāo)準(zhǔn)化后的夾角余弦。有時指標(biāo)之間也可用距離來描述它們的接近程度。實際上距離和相似系數(shù)之間可以互相轉(zhuǎn)化,2024/9/1018§3.3類和類的特征目錄上頁下頁返回結(jié)束目的是聚類,那么什么叫類呢?由于客觀事物的千差萬別,在不同的問題中類的含義是不盡相同的。給類下一個嚴(yán)格的定義,決非易事。下面給出類的適用于不同的場合幾個定義。2024/9/1019§3.3類和類的特征目錄上頁下頁返回結(jié)束2024/9/10中國人民大學(xué)六西格瑪質(zhì)量管理研究中心20§3.3類和類的特征目錄上頁下頁返回結(jié)束在聚類分析中,不僅要考慮各個類的特征,而且要計算類與類之間的距離。由于類的形狀是多種多樣的,所以類與類之間的距離也有多種計算方法。

2024/9/1021§3.3類和類的特征目錄上頁下頁返回結(jié)束(1)最短距離法。(nearestneighbor或singlelinkagemethod)

2024/9/1022§3.3類和類的特征目錄上頁下頁返回結(jié)束(2)最長距離法(farthestneighbor或completelinkagemethod)。2024/9/1023§3.3類和類的特征目錄上頁下頁返回結(jié)束(3)類平均法(groupaveragemethod)。

2024/9/1024§3.3類和類的特征目錄上頁下頁返回結(jié)束(4)重心法(Centroidmethod)。

(5)離差平方和法(SumofSquaresmethod)。

2,41,56,5紅綠(2,4,6,5)8.75離差平方和增加8.75-2.5=6.25黃綠(6,5,1,5)14.75離差平方和增加14.75-8.5=6.25黃紅(2,4,1,5)10-10=02024/9/1026§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束系統(tǒng)聚類法(hierarchicalclusteringmethod)在聚類分析中諸方法中用的最多,包含下列步驟:

2024/9/1027§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束不同的距離定義方式用到系統(tǒng)聚類程序中,得到不同的系統(tǒng)聚類法。我們現(xiàn)在通過一個簡單的最短例子,來說明各種系統(tǒng)聚類法。圖解上述聚類過程如下,此圖清楚說明了分組與分組發(fā)生時的距離水平。

2024/9/1030§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束【例3.4】為了研究遼寧等5省份某年城鎮(zhèn)居民消費支出的分布規(guī)律,根據(jù)調(diào)查資料作類型劃分。指標(biāo)名稱及原始數(shù)據(jù)見表3.5。資料來源[10]

2024/9/1031§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束2024/9/1032§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束3.4.1最短距離法和最長距離法所謂最短距離法就是類與類之間的距離采用(3.12)的系統(tǒng)聚類方法。

2024/9/1033§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束2024/9/1034§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束2024/9/1035§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束2024/9/1036§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束2024/9/1037§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束所謂最長距離法是類與類之間的距離采用(3.13)的系統(tǒng)聚類法。選擇最大的距離作為新類與其他類之間的距離,然后將類間距離最小的兩類進(jìn)行合并,一直合并到只有一類為止。上述兩方法中,主要的不同是計算新類與其他類的距離的遞推公式不同。2024/9/1038§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束最短距離法也可用于對指標(biāo)的分類,分類時可以用距離也可以用相似系數(shù)。但用相似系數(shù)時應(yīng)找最大的元素并類,計算新類與其他類的距離應(yīng)使用公式(3.19)。最短距離法的主要缺點是它有鏈接聚合的趨勢,因為類與類之間的距離為所有距離中的最短者,兩類合并以后,它與其他類的距離縮小了,這樣容易形成一個比較大的類,大部分樣品都被聚在一類中,在樹狀聚類圖中,會看到一個延伸的鏈狀結(jié)構(gòu),所以最短距離法的聚類效果并不好,實際中不提倡使用。2024/9/1039§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束最長距離法克服了最短距離法鏈接聚合的缺陷,兩類合并以后與其他類的距離是原來兩個類中的距離最大者,加大了合并后的類與其他類的距離。本例中最短距離法與最長距離法得到的結(jié)果是相同的。2024/9/1040§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束3.4.2重心法和類平均法從物理的觀點看,一個類用它的重心(該類樣品的均值)做代表比較合理,類與類之間的距離就用重心之間的距離來代表。重心法雖有很好的代表性,但并未充分利用各樣本的信息2024/9/1042§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束類平均法是聚類效果較好、應(yīng)用比較廣泛的一種聚類方法。它有兩種形式,一種是組間聯(lián)結(jié)法(Between-groupslinkage),另一種是組內(nèi)聯(lián)結(jié)法(Within-groupslinkage)。組間聯(lián)結(jié)法在計算距離時只考慮兩類之間樣品之間距離的平均,組內(nèi)聯(lián)結(jié)法在計算距離時把兩組所有個案之間的距離都考慮在內(nèi)。2024/9/1043§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束2024/9/1044§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束3.4.3離差平方和法(或稱Ward方法)離差平方和方法是由Ward提出來的,許多資料上稱做Ward法。他的思想是來于方差分析,如果類分得正確,同類樣品的離差平方和應(yīng)當(dāng)較小,類與類之間的離差平方和應(yīng)當(dāng)較大。

2024/9/1045§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束離差平方和法放棄了在一切分類中求的極小值的要求,而是設(shè)計出某種規(guī)格:找到一個局部最優(yōu)解,Ward法就是找局部最優(yōu)解的一個方法。其思想是先將n個樣品各自成一類,然后每次縮小一類,每縮小一類離差平方和就要增大,選擇使增加最小的兩類合并,直到所有的樣品歸為一類為止。

2024/9/1046§3.4系統(tǒng)聚類法目錄上頁下頁返回結(jié)束由于上述的聚類方法得到的結(jié)果是不完全相同的。于是產(chǎn)生一個問題:我們應(yīng)當(dāng)選擇哪一個結(jié)果為好?為了解決這個問題,需要研究系統(tǒng)聚類法的性質(zhì),現(xiàn)簡要介紹如下。

2024/9/1047§3.4系統(tǒng)聚類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論