應(yīng)用多元統(tǒng)計分析第五章聚類分析_第1頁
應(yīng)用多元統(tǒng)計分析第五章聚類分析_第2頁
應(yīng)用多元統(tǒng)計分析第五章聚類分析_第3頁
應(yīng)用多元統(tǒng)計分析第五章聚類分析_第4頁
應(yīng)用多元統(tǒng)計分析第五章聚類分析_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

應(yīng)用多元統(tǒng)計分析第五章聚類分析1第一頁,共六十六頁,2022年,8月28日2第五章把對象分類

——聚類分析第二頁,共六十六頁,2022年,8月28日3分類俗語說,物以類聚、人以群分。當有一個分類指標時,分類比較容易。但是當有多個指標,要進行分類就不是很容易了。比如,要想把中國的縣分成若干類,可以按照自然條件來分:考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準、醫(yī)療條件、基礎(chǔ)設(shè)施等指標;第三頁,共六十六頁,2022年,8月28日4聚類分析由于不同的指標項對重要程度或依賴關(guān)系是相互不同的,所以也不能用平均的方法,因為這樣會忽視相對重要程度的問題。所以需要進行多元分類,即聚類分析。最早的聚類分析是由考古學(xué)家在對考古分類中研究中發(fā)展起來的,同時又應(yīng)用于昆蟲的分類中,此后又廣泛地應(yīng)用在天氣、生物等方面。第四頁,共六十六頁,2022年,8月28日5聚類分析對于一個數(shù)據(jù),人們既可以對變量(指標)進行分類(相當于對數(shù)據(jù)中的列分類),也可以對觀測值(事件,樣品)來分類(相當于對數(shù)據(jù)中的行分類)。對變量的聚類稱為R型聚類,而對觀測值聚類稱為Q型聚類。這兩種聚類在數(shù)學(xué)上是對稱的,沒有什么不同。第五頁,共六十六頁,2022年,8月28日6聚類中選擇變量的要求和聚類分析的目標密切相關(guān)反映了要分類對象的特征變量之間不應(yīng)該高度相關(guān)。第六頁,共六十六頁,2022年,8月28日7如何聚類?聚類分析就是要找出具有相近程度的點或類聚為一類;如何衡量這個“相近程度”?一種方法是用相似系數(shù),性質(zhì)越接近的樣品,它們的相似系數(shù)的絕對值越接近1,而彼此無關(guān)的樣品,它們的相似系數(shù)的絕對值越接近于零。比較相似的樣品歸為一類,不怎么相似的樣品歸為不同的類。另一種方法是將一個樣品看作p維空間的一個點,并在空間定義距離,距離越近的點歸為一類,距離較遠的點歸為不同的類。第七頁,共六十六頁,2022年,8月28日8距離和相似系數(shù)第八頁,共六十六頁,2022年,8月28日9距離什么是距離?首先我們看樣本數(shù)據(jù):一般滿足以下四個條件時,就稱為聚例:第九頁,共六十六頁,2022年,8月28日10常用距離——明氏距離Minkowski距離:當q=1時:當q=2時:當q=∞時:第十頁,共六十六頁,2022年,8月28日11明氏距離的缺點距離的大小與個指標的觀測單位有關(guān),具有一定的人為性。例如:對體重和身高進行測量,采用不同單位,其距離測量的結(jié)果不同。以歐氏距離為例。第十一頁,共六十六頁,2022年,8月28日12當長度=cm時:第十二頁,共六十六頁,2022年,8月28日13當長度=mm時:改進的方法:對數(shù)據(jù)進行標準化,然后再計算距離。第十三頁,共六十六頁,2022年,8月28日14采用明氏距離需要注意的是:一定要采用相同量綱的變量。如果各變量的量綱不同,或當各變量的量綱相同但各變量的測量值相差懸殊時,不能直接采用明氏距離。需要先對數(shù)據(jù)進行標準化處理,然后再用標準化處理后的數(shù)據(jù)計算距離。最常用的標準化處理方法是:第十四頁,共六十六頁,2022年,8月28日15對指標標準化的方法第十五頁,共六十六頁,2022年,8月28日16明氏距離的缺點另一個缺點:它沒有考慮到指標之間的相關(guān)性。改進的方法是:采用馬氏距離馬氏距離是1936年由印度數(shù)學(xué)家:馬哈拉比斯由協(xié)方差矩陣計算構(gòu)造的距離。第十六頁,共六十六頁,2022年,8月28日17距離矩陣第十七頁,共六十六頁,2022年,8月28日18相似系數(shù)研究樣品之間的關(guān)系,除了用距離表示外,還有相似系數(shù),顧名思義,相似系數(shù)是描寫樣品之間相似程度的一個量,常用的相似系數(shù)有:夾角余弦相關(guān)系數(shù)第十八頁,共六十六頁,2022年,8月28日19相似系數(shù)夾角余弦—cosine盡管圖中AB和CD長度不一樣,但形狀相似。當長度不是主要矛盾時,就可利用夾角余弦這樣的相似系數(shù)。第十九頁,共六十六頁,2022年,8月28日20夾角余弦—cosine第二十頁,共六十六頁,2022年,8月28日21相似矩陣第二十一頁,共六十六頁,2022年,8月28日22相關(guān)系數(shù)第二十二頁,共六十六頁,2022年,8月28日23相關(guān)系數(shù)矩陣把兩兩樣品的相關(guān)系數(shù)都計算出來,可形成樣品相關(guān)系數(shù)矩陣。第二十三頁,共六十六頁,2022年,8月28日24第二十四頁,共六十六頁,2022年,8月28日25聚類分析內(nèi)容系統(tǒng)聚類法有序樣品聚類法動態(tài)聚類法模糊聚類法圖論聚類法聚類預(yù)報法等。本章主要介紹常用的系統(tǒng)聚類法。第二十五頁,共六十六頁,2022年,8月28日26系統(tǒng)聚類法第二十六頁,共六十六頁,2022年,8月28日27系統(tǒng)聚類法的基本思想先將每個研究對象(樣品或指標)各自看成一類。然后根據(jù)對象間的相似度量,將h類中最相似的兩類合并,組成一個新類,這樣得到h-1類,再在這h-1類中找出最相似的兩類合并,得到h-2類,如此下去,直至將所有的對象并成一個大類為止。當然,真的合并成一個類就失去了聚類的意義,所以上面的聚類過程應(yīng)該在某個類水平數(shù)(即未合并的類數(shù))停下來,最終的類就取這些未合并的類。決定聚類個數(shù)是一個很復(fù)雜的問題。第二十七頁,共六十六頁,2022年,8月28日28系統(tǒng)聚類法的步驟可選擇適當?shù)木嚯x,計算距離把每個樣品看成一類,構(gòu)造n個類合并最近的兩類為一新類計算新類與當前各類的距離判斷畫聚類圖根據(jù)實際情況,確定類和類的個數(shù)僅有一個類不是僅有一個類采用系統(tǒng)聚類法第二十八頁,共六十六頁,2022年,8月28日29系統(tǒng)聚類法正如樣品之間的距離可以有不同的定義方法一樣,類與類之間的距離也有各種定義。例如可以定義類與類之間的距離為兩類之間最近樣品的距離,或者定義為兩類之間最遠樣品的距離,也可以定義為兩類重心之間的距離等等。類與類之間用不同的方法定義距離,就產(chǎn)生了不同的系統(tǒng)聚類方法。第二十九頁,共六十六頁,2022年,8月28日30八種系統(tǒng)聚類方法最短距離法最長距離法中間距離法重心法類平均法可變類平均法可變法離差平方和法系統(tǒng)聚類分析盡管方法很多,但歸類的步驟基本上是一樣的,所不同的僅是類與類之間的距離有不同的定義方法,從而得到不同的計算距離的公式。這些公式在形式上不大一樣,但最后可將它們統(tǒng)一為一個公式,對上機計算帶來很大的方便。第三十頁,共六十六頁,2022年,8月28日31系統(tǒng)聚類法最短距離法——NearestNeighborG1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6G3G4G5G6G3G4G501.5053.5075.520第三十一頁,共六十六頁,2022年,8月28日32系統(tǒng)聚類法最長距離法——FurthestNeighborG1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6G3G4G5G6G3G4G502.5063.5085.520第三十二頁,共六十六頁,2022年,8月28日系統(tǒng)聚類法-中間法33第三十三頁,共六十六頁,2022年,8月28日系統(tǒng)聚類法-中間法34G1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6

G3G4G5G6G3G4G501.7505.50

3.507.25

5.52第三十四頁,共六十六頁,2022年,8月28日35系統(tǒng)聚類法重心法——CentroidClustering重心法定義兩類之間的距離就是兩類重心的距離。設(shè)的重心(即該類樣品的均值)分別是(注意一般他們是p維向量),則

之間的距離是計算公式為:

具體計算過程見參考書2p78-79。第三十五頁,共六十六頁,2022年,8月28日36系統(tǒng)聚類法類平均法——Between-groupsLinkage重心法雖有很好的代表性,但并未充分利用個樣品的信息,因此給出類平均法,它定義兩類之間的距離平方為這兩類元素兩兩之間距離平方的平均,即:設(shè)聚類到某一步將第三十六頁,共六十六頁,2022年,8月28日37系統(tǒng)聚類法離差平方和法——Word’sMethodWord’s法的基本思想是來自于方差分析,如果分類正確,同類樣品的離差平方和應(yīng)當較小,類與類的離差平方和應(yīng)當較大。具體方法:先將n個樣品各自成一類,然后每次縮小一類;每縮小一類離差平方和就要增大,選擇使離差平方和增加最小的兩類合并,直到所有的樣品歸為一類為止。第三十七頁,共六十六頁,2022年,8月28日38系統(tǒng)聚類法

中樣品的離差平方和為:第三十八頁,共六十六頁,2022年,8月28日39系統(tǒng)聚類法如有五個樣品:1,2,3.5,7,9第一步:將五個樣品各自分成一類,顯然這時的類內(nèi)離差平方和S=0;第二步:將一切可能的任意兩樣品合并,計算所增加的離差平方和:如第三十九頁,共六十六頁,2022年,8月28日40G1G2G3G4G5G1G2G3G4G500.503.1251.12301812.56.12503224.512.12520此外,還有類內(nèi)平均法等。第四十頁,共六十六頁,2022年,8月28日41SPSS中的聚類分析與過程第四十一頁,共六十六頁,2022年,8月28日42例9.1飲料數(shù)據(jù)(drink.sav)16種飲料的熱量、咖啡因、鈉及價格四種變量

第四十二頁,共六十六頁,2022年,8月28日43SPSS中的聚類分析Spss中的聚類功能常用的有兩種:快速聚類(迭代過程):

K-MeansCluster分層聚類:Hierarchical第四十三頁,共六十六頁,2022年,8月28日44HierarchicalCluster聚類分層聚類由兩種方法:分解法和凝聚法。分層聚類的功能:即可進行樣品的聚類,也可進行變量的聚類。分層聚類的原理:即我們前面介紹過的系統(tǒng)聚類方法的原理和過程。第四十四頁,共六十六頁,2022年,8月28日45HierarchicalCluster聚類分層聚類的中要進行以下的選擇:數(shù)據(jù)的標準化測度方法的選擇:距離方法的選擇或相似性、關(guān)聯(lián)程度的選擇。聚類方法的選擇:即以什么方法聚類,spss中提供了7中方法可進行選擇。輸出圖形的選擇:樹形圖或冰柱圖。第四十五頁,共六十六頁,2022年,8月28日46第四十六頁,共六十六頁,2022年,8月28日47歐氏平方距離、類平均法聚類快速聚類法聚類第四十七頁,共六十六頁,2022年,8月28日48歐氏平方距離、最短距離法聚類歐氏平方距離、最長距離法聚類第四十八頁,共六十六頁,2022年,8月28日49歐氏平方距離、重心法聚類歐氏平方距離、Word’s法聚類第四十九頁,共六十六頁,2022年,8月28日50聚類分析在市場細分中的應(yīng)用

要對消費者購物的態(tài)度進行分類,在前期研究的基礎(chǔ)上,確定6個態(tài)度變量。每個消費者要對有關(guān)購物態(tài)度的6個觀點進行評價:1表示非常不同意,7表示非常同意。V1——購物很有趣V2——購物不利于我的預(yù)算V3——購物總是與上飯店吃飯聯(lián)系在一起V4——購物時我盡量買的最好V5——我對購物不感興趣V6——購物時多比較價格可以節(jié)省很多錢(SPSS文件:購物態(tài)度聚類分析)第五十頁,共六十六頁,2022年,8月28日511類:1、3、6、7、8、12、15、172類:2、5、9、11、13、203類:4、10、14、16、18、19第五十一頁,共六十六頁,2022年,8月28日52

第1類消費者對于V1和V3的評價相對較高,而對V5評價較低,因此可以稱其為“熱情的消費者”。

V1——購物很有趣V3——購物總是與上飯店吃飯聯(lián)系在一起V5——我對購物不感興趣第五十二頁,共六十六頁,2022年,8月28日53

第2類消費者正好與第1類相反,對于V1和V3的評價相對較低,而對V5評價較高,因此可以稱其為“冷淡的消費者”。V1——購物很有趣V3——購物總是與上飯店吃飯聯(lián)系在一起V5——我對購物不感興趣第五十三頁,共六十六頁,2022年,8月28日54

第3類消費者對于V2、V4和V6的評價相對較高,因此可以稱其為“經(jīng)濟型消費者”。V2——購物不利于我的預(yù)算V4——購物時我盡量買的最好V6——購物時多比較價格可以節(jié)省很多錢第五十四頁,共六十六頁,2022年,8月28日55K-MeansMethods-快速聚類第五十五頁,共六十六頁,2022年,8月28日56K-MeansMethods第五十六頁,共六十六頁,2022年,8月28日57K-MeansMethods第五十七頁,共六十六頁,2022年,8月28日58K-MeansCluster原理首先,選擇n個數(shù)值型變量參與聚類分析,最后要求的聚類數(shù)為k個;其次,由系統(tǒng)選擇k個(聚類的類數(shù))觀測量(也可由用戶指定)作為聚類的種子。第三,按照距離這些類中心的距離最小的原則把所有觀測量(樣品)分派到各類重心所在的類中去。第四,這樣每類中可能由若干個樣品,計算每個類中各個變量的均值,以此作為第二次迭代的中心;第五,然后根據(jù)這個中心重復(fù)第三、第四步,直到中心的迭代標準達到要求時,聚類過程結(jié)束。第五十八頁,共六十六頁,2022年,8月28日59K-MeansCluster聚類過程由Analyze——Classify

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論