聚類分析簡介原理與應(yīng)用課件_第1頁
聚類分析簡介原理與應(yīng)用課件_第2頁
聚類分析簡介原理與應(yīng)用課件_第3頁
聚類分析簡介原理與應(yīng)用課件_第4頁
聚類分析簡介原理與應(yīng)用課件_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

聚類分析陳龍震聚類分析陳龍震聚類分析聚類分析的簡介Q型聚類統(tǒng)計(jì)量——距離R型聚類統(tǒng)計(jì)量——相似系數(shù)系統(tǒng)聚類動(dòng)態(tài)聚類——k均值聚類其他聚類分析聚類分析的簡介聚類分析的定義聚類分析是研究如何研究對象(樣品或變量)按照多個(gè)方面的特征進(jìn)行綜合分類的一種多元統(tǒng)計(jì)方法,它是根據(jù)物以類聚的原理將相似的樣品(或變量)歸為一類。聚類和分類有什么區(qū)別?無監(jiān)督學(xué)習(xí)與分類判別不同,進(jìn)行聚類前并不知道將要?jiǎng)澐殖蓭讉€(gè)組和什么樣的組,也不知道根據(jù)哪些空間區(qū)分規(guī)則來定義組聚類分析的定義聚類分析是研究如何研究對象(樣品或變量)按照商業(yè)聚類分析被用來發(fā)現(xiàn)不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征。聚類分析是細(xì)分市場的有效工具,同時(shí)也可用于研究消費(fèi)者行為,尋找新的潛在市場、選擇實(shí)驗(yàn)的市場,并作為多元分析的預(yù)處理。聚類分析——主要應(yīng)用商業(yè)聚類分析——主要應(yīng)用聚類分析——主要應(yīng)用生物聚類分析被用來動(dòng)植物分類和對基因進(jìn)行分類,獲取對種群固有結(jié)構(gòu)的認(rèn)識聚類分析——主要應(yīng)用生物Q型聚類統(tǒng)計(jì)量與R型聚類統(tǒng)計(jì)量設(shè)有容量為n的樣本觀測數(shù)據(jù),觀測矩陣為:樣本變量Q型聚類R型聚類變量之間的聚類即R型聚類分析,常用相似系數(shù)來測度變量之間的親疏程度。樣品之間的聚類即Q型聚類分析,常用距離來測度樣品之間的親疏程度。Q型聚類統(tǒng)計(jì)量與R型聚類統(tǒng)計(jì)量設(shè)有容量為n的樣本觀測數(shù)據(jù),觀Q型聚類統(tǒng)計(jì)量——距離明氏距離測度明考夫斯基(Minkowski)距離設(shè)

和是第i和j個(gè)樣品的觀測值,則二者之間的距離為:當(dāng)

時(shí),絕對值距離當(dāng)

時(shí),歐氏距離當(dāng)

時(shí),切比雪夫距離Q型聚類統(tǒng)計(jì)量——距離明氏距離測度明考夫斯基(Minkow記切比雪夫距離證明記切比雪夫距離證明Q型聚類統(tǒng)計(jì)量——距離國際象棋棋盤上二個(gè)位置間的切比雪夫距離是指王要從一個(gè)位子移至另一個(gè)位子需要走的步數(shù)。由于王可以往斜前或斜后方向移動(dòng)一格,因此可以較有效率的到達(dá)目的的格子。上圖是棋盤上所有位置距f6位置的切比雪夫距離。Q型聚類統(tǒng)計(jì)量——距離國際象棋棋盤上二個(gè)位置間的切比雪夫距離Q型聚類統(tǒng)計(jì)量——距離明氏距離兩個(gè)缺點(diǎn):明氏距離的值與各指標(biāo)的量綱有關(guān)明氏距離的定義沒有考慮各個(gè)變量之間的相關(guān)性和重要性。

明氏距離是把各個(gè)變量都同等看待,將兩個(gè)樣品在各個(gè)變量上的離差簡單地進(jìn)行了綜合。蘭氏距離Q型聚類統(tǒng)計(jì)量——距離明氏距離兩個(gè)缺點(diǎn):蘭氏距離馬氏距離Q型聚類統(tǒng)計(jì)量——距離這是印度著名統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(P.C.Mahalanobis)所定義的一種距離,其計(jì)算公式為:分別表示第i個(gè)樣品和第j樣品的p指標(biāo)觀測值所組成的列向量,即樣本數(shù)據(jù)矩陣中第i個(gè)和第j個(gè)行向量的轉(zhuǎn)置,

表示觀測變量之間的協(xié)方差短陣。在實(shí)踐應(yīng)用中,若總體協(xié)方差矩陣

未知,則可用樣本協(xié)方差矩陣作為估計(jì)代替計(jì)算。馬氏距離Q型聚類統(tǒng)計(jì)量——距離這是印度著名統(tǒng)計(jì)學(xué)家馬哈拉諾比R型聚類統(tǒng)計(jì)量——相似系數(shù)相似系數(shù)設(shè)和是第和個(gè)樣品的觀測值,則二者之間的相似測度為:R型聚類統(tǒng)計(jì)量——相似系數(shù)相似系數(shù)設(shè)R型聚類統(tǒng)計(jì)量——夾角余弦夾角余弦夾角余弦時(shí)從向量集合的角度所定義的一種測度變量之間親疏程度的相似系數(shù)。設(shè)在n維空間的向量R型聚類統(tǒng)計(jì)量——夾角余弦夾角余弦夾角余弦時(shí)從向量集合的角度問題馬(歐)氏距離和余弦相似度的區(qū)別問題馬(歐)氏距離和余弦相似度的區(qū)別問題適用于何種不同的數(shù)據(jù)分析模型歐氏距離能夠體現(xiàn)個(gè)體數(shù)值特征的絕對差異,所以更多的用于需要從維度的數(shù)值大小中體現(xiàn)差異的分析,如使用用戶行為指標(biāo)分析用戶價(jià)值的相似度或差異余弦相似度更多的是從方向上區(qū)分差異,而對絕對的數(shù)值不敏感,更多的用于使用用戶對內(nèi)容評分來區(qū)分用戶興趣的相似度和差異,同時(shí)修正了用戶間可能存在的度量標(biāo)準(zhǔn)不統(tǒng)一的問題(因?yàn)橛嘞蚁嗨贫葘^對數(shù)值不敏感)問題適用于何種不同的數(shù)據(jù)分析模型歐氏距離能夠體現(xiàn)個(gè)體數(shù)值特征問題Q型與R型聚類區(qū)別?Q型聚類:當(dāng)聚類把所有的觀測記錄(cases)進(jìn)行分類時(shí),它把性質(zhì)相似的觀測分在同一個(gè)類,性質(zhì)差異較大的觀測分在不同的類。R型聚類:當(dāng)聚類把變量(variables)作為分類對象時(shí)。這種聚類用在變量數(shù)目比較多、且相關(guān)性比較強(qiáng)的情形,目的是將性質(zhì)相近的變量聚類為同一個(gè)類,并從中找出代表變量,從而減少變量個(gè)數(shù)以達(dá)到降維的效果。問題Q型與R型聚類區(qū)別?Q型聚類:當(dāng)聚類把所有的觀測記錄(c系統(tǒng)聚類凝聚的:從點(diǎn)作為個(gè)體簇開始,每一步合并兩個(gè)最接近的簇。這需要定義簇的臨近性(類間距離)的概念。分裂的:從包含所有點(diǎn)的某個(gè)簇開始,每一步分裂一個(gè)簇,直到剩下單點(diǎn)簇。在這種情況下,我們需要確定我每一步分裂那個(gè)簇,以及如何分裂。系統(tǒng)聚類凝聚的:從點(diǎn)作為個(gè)體簇開始,每一步合并兩個(gè)最接近的簇系統(tǒng)聚類——方法最短距離法設(shè)兩個(gè)類,分別含有n1和n2個(gè)樣本點(diǎn)系統(tǒng)聚類——方法最短距離法設(shè)兩個(gè)類,分別含有n系統(tǒng)聚類——方法若某步聚類將

合并為新類,即,新類與其他類

間的距離遞推公式為

系統(tǒng)聚類——方法若某步聚類將和合并為新系統(tǒng)聚類——方法最長距離法設(shè)兩個(gè)類,分別含有n1和n2個(gè)樣本點(diǎn)系統(tǒng)聚類——方法最長距離法設(shè)兩個(gè)類,分別含有n系統(tǒng)聚類——方法若某步聚類將

合并為新類,即,新類與其他類

間的距離遞推公式為

系統(tǒng)聚類——方法若某步聚類將和合并為新系統(tǒng)聚類——方法重心法重心距離:兩類中心分別為,則系統(tǒng)聚類——方法重心法重心距離:兩類中心分別為聚類分析簡介原理與應(yīng)用ppt課件聚類分析簡介原理與應(yīng)用ppt課件系統(tǒng)聚類——方法類平均法系統(tǒng)聚類——方法類平均法遞推公式:推導(dǎo):遞推公式:推導(dǎo):系統(tǒng)聚類——方法離差平方和設(shè)將n個(gè)樣品分成k類G1,G2,…,Gk,用Xit表示Gt中的第I個(gè)樣品,nt表示Gt中樣品的個(gè)數(shù),是Gt的重心,則Gt的樣品離差平方和為系統(tǒng)聚類——方法離差平方和設(shè)將n個(gè)樣品分成k類G1,G2,…系統(tǒng)聚類——方法系統(tǒng)聚類——方法遞推公式上述的各種類間距離定義的遞推公式可以統(tǒng)一成如下公式遞推公式上述的各種類間距離定義的遞推公式可以統(tǒng)一成如下公式系統(tǒng)聚類書:175頁例子系統(tǒng)聚類書:175頁例子系統(tǒng)聚類——類的個(gè)數(shù)確定給定閾值:通過觀測聚類圖,給出一個(gè)合適的閾值T。要求類與類之間的距離不要超過T值。例如我們給定T=0.3,當(dāng)聚類時(shí),類間的距離已經(jīng)超過了0.3,則聚類結(jié)束。系統(tǒng)聚類——類的個(gè)數(shù)確定給定閾值:通過觀測聚類圖,給出一個(gè)合系統(tǒng)聚類——半偏相關(guān)半偏相關(guān)統(tǒng)計(jì)量其中T是數(shù)據(jù)的總離差平方和,是組內(nèi)離差平方和。

比較大,說明分G個(gè)類時(shí)類內(nèi)的離差平方和比較小,也就是說分G類是合適的。但是,分類越多,每個(gè)類的類內(nèi)的離差平方和就越小,也就越大;所以我們只能取合適的G,使得足夠大,而G本身很小,隨著G的增加,的增幅不大。比如,假定分4類時(shí),=0.8;下一次合并分3類時(shí),下降了許多,=0.32,則分4類是合適的。系統(tǒng)聚類——半偏相關(guān)半偏相關(guān)統(tǒng)計(jì)量其中T是數(shù)據(jù)的總離差平方和系統(tǒng)聚類——半偏相關(guān)系統(tǒng)聚類——半偏相關(guān)系統(tǒng)聚類——偽F統(tǒng)計(jì)量偽F統(tǒng)計(jì)量偽F統(tǒng)計(jì)量用于評價(jià)聚為G類的效果。如果聚類的效果好,類間的離差平方和相對于類內(nèi)的離差平方和大,所以應(yīng)該取偽F統(tǒng)計(jì)量較大而類數(shù)較小的聚類水平。其中T是數(shù)據(jù)的總離差平方和,

是類內(nèi)離差平方和系統(tǒng)聚類——偽F統(tǒng)計(jì)量偽F統(tǒng)計(jì)量偽F統(tǒng)計(jì)量用于評價(jià)聚為G類的系統(tǒng)聚類——偽F統(tǒng)計(jì)量系統(tǒng)聚類——偽F統(tǒng)計(jì)量

偽統(tǒng)計(jì)量的定義為其中和分別是的類內(nèi)離差平方和,是將K和L合并為第M類的離差平方和

=--為合并導(dǎo)致的類內(nèi)離差平方和的增量。用它評價(jià)合并第K和L類的效果,偽統(tǒng)計(jì)量大說明不應(yīng)該合并這兩類,應(yīng)該取合并前的水平。系統(tǒng)聚類——偽統(tǒng)計(jì)量偽統(tǒng)計(jì)量的定義為系統(tǒng)聚類——偽統(tǒng)計(jì)量系統(tǒng)聚類——CCC統(tǒng)計(jì)量立方聚類準(zhǔn)則其中

,v是方差穩(wěn)定化變換,一般取值為一般由

維空間的均勻分布得到。一般選擇

后的第一個(gè)局部極大值點(diǎn)對應(yīng)的分類數(shù)。系統(tǒng)聚類——CCC統(tǒng)計(jì)量立方聚類準(zhǔn)則其中系統(tǒng)聚類——CCC統(tǒng)計(jì)量系統(tǒng)聚類——CCC統(tǒng)計(jì)量系統(tǒng)聚類法的基本性質(zhì)

在聚類分析過程中,并類距離分別為lk(k=1,2,3,…

)若滿足,則稱該聚類方法具有單調(diào)性。除了重心法和中間距離法之外,其他的系統(tǒng)聚類法均滿足單調(diào)性的條件。單調(diào)性系統(tǒng)聚類法的基本性質(zhì)在聚類分析過程中,并類距離分別系統(tǒng)聚類法的基本性質(zhì)空間的濃縮和擴(kuò)張?jiān)O(shè)有兩種系統(tǒng)聚類法A和B,他們在第i步的距離矩陣分別為Ai和Bi(I=1,2,3…),若Ai>Bi,則稱第一種方法A比第二種方法B使空間擴(kuò)張,或第二種方法比第一種方法濃縮。

D(短)D(平),D(重)D(平);D(長)

D(平);方法的比較類平均法適中系統(tǒng)聚類法的基本性質(zhì)空間的濃縮和擴(kuò)張?jiān)O(shè)有兩種系統(tǒng)聚類法A和B系統(tǒng)聚類局限樣品一旦劃到某個(gè)類以后就不變了,這要求分類方法比較準(zhǔn)確樣品數(shù)n很大時(shí),系統(tǒng)聚類法的計(jì)算很龐大,從而使其不方便應(yīng)用動(dòng)態(tài)聚類解決的問題是:假如有個(gè)樣本點(diǎn),要把它們分為類,使得每一類內(nèi)的元素都是聚合的,并且類與類之間還能很好地區(qū)別開。動(dòng)態(tài)聚類使用于大型數(shù)據(jù)。系統(tǒng)聚類局限樣品一旦劃到某個(gè)類以后就不變了,這要求分類方法比動(dòng)態(tài)聚類步驟動(dòng)態(tài)聚類步驟動(dòng)態(tài)聚類——凝聚點(diǎn)選擇憑經(jīng)驗(yàn)選擇,如果對問題已經(jīng)有一定的了解,可將所有的的樣品大致分類,在每類選擇一個(gè)有代表性的樣品作為聚類點(diǎn)將所有的樣品隨機(jī)地分成k類,計(jì)算每一類的均值,將這些均值作為凝聚點(diǎn)采用最大最小原則,假設(shè)樣品最終分為k類,先選擇所有樣品中相距最遠(yuǎn)的兩個(gè)樣品為凝聚點(diǎn),即選擇

,使.選擇第三個(gè)凝聚點(diǎn)

與前面兩個(gè)聚類點(diǎn)的距離最小者等于所有其余的樣品與

的最小距離中最大的。動(dòng)態(tài)聚類——凝聚點(diǎn)選擇動(dòng)態(tài)聚類——k均值聚類動(dòng)態(tài)聚類——k均值聚類動(dòng)態(tài)聚類——k均值聚類不足凝聚點(diǎn)選擇不當(dāng)動(dòng)態(tài)聚類——k均值聚類不足凝聚點(diǎn)選擇不當(dāng)動(dòng)態(tài)聚類——k均值聚類不足不同的簇動(dòng)態(tài)聚類——k均值聚類不足不同的簇動(dòng)態(tài)聚類——k均值聚類不足離群點(diǎn)動(dòng)態(tài)聚類——k均值聚類不足離群點(diǎn)其他基于劃分聚類算法(partitionclustering)其他基于劃分聚類算法(partitioncluster其他基于密度聚類算法:其他基于密度聚類算法:其他基于層次聚類算法:其他基于層次聚類算法:其他基于網(wǎng)格的聚類算法:基于統(tǒng)計(jì)學(xué)的聚類算法:其他基于網(wǎng)格的聚類算法:基于統(tǒng)計(jì)學(xué)的聚類算法:R軟件與聚類分析在R軟件中,dist()函數(shù)給出了各種距離的計(jì)算結(jié)果,其使用格式是其中x是樣本構(gòu)成的數(shù)據(jù)矩陣(樣本按行輸入)或數(shù)據(jù)框。Method表示計(jì)算距離的方法,缺省值為Euclide距離R軟件與聚類分析在R軟件中,dist()函數(shù)給出了各種距離的距離---enclidean--maximum--manhattan--canberra---minkowski距離---enclidean--maximum--manha聚類分析簡介原理與應(yīng)用ppt課件聚類分析簡介原理與應(yīng)用ppt課件例題一例題一聚類分析簡介原理與應(yīng)用ppt課件例題二對305名女中學(xué)生測量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論