spss課件10聚類分析_第1頁
spss課件10聚類分析_第2頁
spss課件10聚類分析_第3頁
spss課件10聚類分析_第4頁
spss課件10聚類分析_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、第10章 聚類分析10.1 聚類分析的一般問題10.2 層次聚類10.3 K-Means 聚類(快速聚類)1 例 對10位應聘者做智能檢驗。3項指標X,Y和Z分別表示數(shù)學推理能力,空間想象能力和語言理解能力。其得分如下,選擇合適的統(tǒng)計方法對應聘者進行分類。應聘者12345678910X28181121262016142422Y29232223292322232927Z281816222622222424242什么是聚類分析聚類分析是統(tǒng)計學所研究的“物以類聚”問題的一種方法,它屬于多元統(tǒng)計分析的范疇.它是一種建立分類的方法,能夠將一批樣本數(shù)據(jù)(或變量)按照它們在性質上的親疏程度在沒有先驗知識的情

2、況下自動進行分類。這里,一個類就是一個具有相似性的個體的集合,不同類之間具有明顯的非相似性。在分類過程中,不必事先給出一個分類標準,聚類分析能夠從樣本數(shù)據(jù)出發(fā),客觀地決定分類標準。3樣品間親疏程度的測度 研究樣品或變量的親疏程度的數(shù)量指標有兩種,一種叫相似系數(shù),性質越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無關的變量或樣品它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類;另一種叫距離,它是將每一個樣品看作p維空間的一個點,并用某種度量測量點與點之間的距離,距離較近的歸為一類,距離較遠的點應屬于不同的類。4 變量之間的聚類即R型聚類分析,常用相似系數(shù)來測度變量之間的親疏

3、程度。而樣品之間的聚類即Q型聚類分析,則常用距離來測度樣品之間的親疏程度。5常用距離的算法設 和是第i和 j 個樣品的觀測值,則二者之間的距離為:歐氏距離歐氏距離測度6聚類分析的幾點說明1.所選擇的變量應符合聚類的要求2.各變量的變量值不應有數(shù)量級的差異消除數(shù)量級常用的方法是標準化處理:3.各變量間不應有較強的線性相關性7層次聚類法層次聚類分析的基本思想是,在聚類分析的開始,每個樣本自成一類;然后,按照某種方法度量所有樣本之間的親疏程度,并把其中最親密或稱最相似的樣本首先聚成一小類;接下來,度量剩余的樣本和小類之間的親疏程度,并將當前最親密的樣本或小類再聚成一類;再接下來,再度量剩余下的樣本和

4、小類(或小類和小類)間的親疏程度,并將當前最親密的樣本或小類再聚成一類;如此反復,直到所有的樣本分別聚成一類為止。8由此可見,層次聚類方法中,度量數(shù)據(jù)之間的親疏程度是極為關鍵的。要注意的是,這里并沒有給定分類的標準,也沒有給出所有數(shù)據(jù)分成幾類,而要求比較客觀地從數(shù)據(jù)自身出發(fā)進行分類。層次聚類分析的結果是凝聚狀態(tài)表、冰柱圖和樹形圖。連續(xù)變量的樣本距離測度方法有歐氏距離,歐氏距離平方,切比雪夫距離,Block距離,明考夫斯基距離,夾角余弦距離,用戶自定義距離等。樣本數(shù)據(jù)與小類、小類與小類間親疏程度的度量方法有最短距離法,最長距離法,組間平均鏈鎖法,組內(nèi)平均鏈鎖法,重心法,離差平方和法。9樣本數(shù)據(jù)與

5、小類、小類與小類之間的度量1 、最短距離(Nearest Neighbor)x21x12x22x1110最長距離(Furthest Neighbor )x11x2111組間平均連接(Between-group Linkage)12 1 、組內(nèi)平均連接法(Within-group Linkage)x21x12x22x1113重心法(Centroid clustering):均值點的距離14用spss輸出的凝聚狀態(tài)表15冰柱圖16K-Means 聚類(快速聚類) 一、思想 層次聚類法是一種比較成功的聚類方法。然而當樣本點數(shù)量十分龐大時,則是一件非常繁重的工作,且聚類的計算速度也比較慢。比如在市場抽

6、樣調(diào)查中,有4萬人就其對衣著的偏好作了回答,希望能迅速將他們分為幾類。這時,采用層次聚類法就很困難,而快速聚類法就會顯得方便,適用。 17和層次聚類分析一致,快速聚類分析也以距離為樣本間親疏程度的標志。但兩者的不同點在于: 層次聚類可以對不同的聚類類數(shù)產(chǎn)生一系列的聚類解,而快速聚類只能產(chǎn)生固定類數(shù)的聚類解,類數(shù)需要用戶事先指定。18快速聚類分析的計算過程首先需要用戶指定聚類成多少類(如k類)然后確定k個類的初始類中心。指定方式有兩種:1)用戶指定;2)系統(tǒng)指定。Spss系統(tǒng)會根據(jù)樣本數(shù)據(jù)的實際情況,選擇k個有代表性的樣本數(shù)據(jù)作為初始類中心。計算所有樣本數(shù)據(jù)點到k個類中心的歐氏距離,并按照距k個類中心點距離最短原則,把所有樣本數(shù)據(jù)點分派到各中心點所在的類中,形成一個新的k類,完成一次迭代過程。19重新確定k個類中心。 Spss計算每個類中各個變量的變量值均值,并以均值點作為新的類中心點。然后重復上面的兩步計算過程,直到達到指定的迭代次數(shù),或終止迭代的判斷要求為止。20 (a)空間的群點 (b) 任取兩個聚核 (c) 第一次分類 (

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論