




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、聚類分析聚類分析 聚類分析是研討樣品或目的分類問題的一種多元統(tǒng)計方法。類是指類似元聚類分析是研討樣品或目的分類問題的一種多元統(tǒng)計方法。類是指類似元素的集合。素的集合。分類:分類:1、系統(tǒng)聚類法、系統(tǒng)聚類法-分層聚類系統(tǒng)聚類法是運用最廣泛的一種分層聚類系統(tǒng)聚類法是運用最廣泛的一種 Hierarchical Cluster過程過程 1、 聚類原那么:都是相近的聚為一類,即間隔最近或最類似的聚為聚類原那么:都是相近的聚為一類,即間隔最近或最類似的聚為 一一類。類。 2、 分層聚類的方法可以用于樣本聚類分層聚類的方法可以用于樣本聚類Q型,也可以用于變量聚類型,也可以用于變量聚類 R型。型。2、非系統(tǒng)聚
2、類法、非系統(tǒng)聚類法-快速聚類法快速聚類法-K-均值聚類法均值聚類法K-means Cluster)3、兩步聚類法、兩步聚類法-一種探求性的聚類方法一種探求性的聚類方法TwoStep ClusterK-均值聚類分析均值聚類分析K-means Cluster 又稱為快速樣本聚類法,是非系統(tǒng)聚類中最常用的聚類法。優(yōu)點: 是占內存少、計算量小、處置速度快,特別適宜大樣本的聚類分析。缺陷: 運用范圍有限,要求用戶制定分類數(shù)目(要告知),只能對觀丈量樣本聚類,而不能對變量聚類,且所運用的聚類變量必需都是延續(xù)性變量。根本原理根本原理詳細做法詳細做法1、按照指定的分類數(shù)目、按照指定的分類數(shù)目n,按某種方法選擇
3、某些觀,按某種方法選擇某些觀丈量,設為丈量,設為Z1,Z2,Zn,作為初始聚心。,作為初始聚心。2、計算每個觀丈量到各個聚心的歐氏間隔。即、計算每個觀丈量到各個聚心的歐氏間隔。即 按就近原那么將每個觀丈量選入一個類中,然后計按就近原那么將每個觀丈量選入一個類中,然后計算各個類的中心位置,即均值,作為新的聚心。算各個類的中心位置,即均值,作為新的聚心。3、運用計算出來的新聚心重新進展分類,分類終了、運用計算出來的新聚心重新進展分類,分類終了后繼續(xù)計算各類的中心位置,作為新的聚心,如此后繼續(xù)計算各類的中心位置,作為新的聚心,如此反復操作,直到兩次迭代計算的聚心之間間隔的最反復操作,直到兩次迭代計算
4、的聚心之間間隔的最大改動量小于初始聚類心間最小間隔的倍數(shù)時,或大改動量小于初始聚類心間最小間隔的倍數(shù)時,或者到達迭代次數(shù)的上限時,停頓迭代。者到達迭代次數(shù)的上限時,停頓迭代。2112mkjkikjiijxxzxd數(shù)據(jù)規(guī)范化處置:數(shù)據(jù)規(guī)范化處置:存儲中間過程數(shù)據(jù)存儲中間過程數(shù)據(jù)數(shù)據(jù)規(guī)范化處置,并存儲。指定5類收斂規(guī)范值存儲最終結果輸出情況,在數(shù)據(jù)文件中存儲最終結果輸出情況,在數(shù)據(jù)文件中QCL-1、QCL-2初始聚心選項,輸出方差分析表初始聚類中心表詳細城市看后表最終聚類中心表最終聚類中心表聚類結果:聚類結果:QCL-1闡明聚類結果,闡明聚類結果,QCL-2闡明聚類的長度情況闡明聚類的長度情況系統(tǒng)
5、聚類法系統(tǒng)聚類法Hierarchical Cluster系統(tǒng)聚類法優(yōu)點:系統(tǒng)聚類法優(yōu)點: 既可以對觀丈量樣品也可對變量進展既可以對觀丈量樣品也可對變量進展聚類,既可以延續(xù)變量也可以是分類變量,提聚類,既可以延續(xù)變量也可以是分類變量,提供的間隔計算方法和結果顯示方法也很豐富。供的間隔計算方法和結果顯示方法也很豐富。運用實例運用實例某電冰箱廠開發(fā)某一新產品,在投放市場前希望對以往經銷某電冰箱廠開發(fā)某一新產品,在投放市場前希望對以往經銷的國內的國內6 6個地域征集對新產品的評價,假設對新產品的評價個地域征集對新產品的評價,假設對新產品的評價目的有三項:式樣、性能、顏色,評價的調整表采用目的有三項:式
6、樣、性能、顏色,評價的調整表采用1010分制,分制,調查結果的數(shù)據(jù)如下表調查結果的數(shù)據(jù)如下表 1 2 3 4 5 6 性能 9 1 10 9 2 8 顏色 8 2 7 9 4 6 式樣 7 2 8 3 5 7 地域樣品目的用分類法對用分類法對6 6個樣品進展分類,以估計哪些地域最有能夠經銷個樣品進展分類,以估計哪些地域最有能夠經銷這類新產品?這類新產品?按公式計算兩兩樣品間的類似系數(shù),得類似矩陣按公式計算兩兩樣品間的類似系數(shù),得類似矩陣)()(ijijqCosQ1916. 0921. 01928. 0994. 01787. 0899. 0994. 0910. 01927. 0841. 0955
7、. 01914. 0994. 01933. 01 1 2 3 4 5 6 123456Q =按四條原那么進展分類按四條原那么進展分類作聚類分析圖作聚類分析圖X3X6X1X4X2X510.9940.9550.9940.933一、問題提出一、問題提出聚類分析聚類分析對一批樣品或目的進展分類的一種統(tǒng)對一批樣品或目的進展分類的一種統(tǒng) 計方法。計方法。詳細處置方法:思緒詳細處置方法:思緒1 1、詳細研討的分類對象:樣品或目的、詳細研討的分類對象:樣品或目的2 2、方法:把、方法:把“性質類似性質類似或或“相互關系親密相互關系親密的樣品的樣品或目的聚在一同。或目的聚在一同。3 3、步驟:、步驟:1 1首先
8、給出度量首先給出度量“類似類似或或“關系親密關系親密的的統(tǒng)計目的統(tǒng)計目的 2 2構成一個由小到大的分析系統(tǒng)。構成一個由小到大的分析系統(tǒng)。3 3把整個分類系統(tǒng)畫成一張分類圖把整個分類系統(tǒng)畫成一張分類圖3 3相關系數(shù)相關系數(shù)4 4關聯(lián)絡數(shù)關聯(lián)絡數(shù) 目的:目的:1 1統(tǒng)計目的是類似系數(shù)。統(tǒng)計目的是類似系數(shù)。 根據(jù)類似性歸為一類,否那么為另一類。根據(jù)類似性歸為一類,否那么為另一類。 2 2統(tǒng)計目的是樣品空間的點之間的間隔統(tǒng)計目的是樣品空間的點之間的間隔 將間隔近的點歸成一類,否那么為另一類。將間隔近的點歸成一類,否那么為另一類。二、聚類統(tǒng)計量二、聚類統(tǒng)計量首先定義一些分類統(tǒng)計目的首先定義一些分類統(tǒng)計目
9、的 描寫樣或目的之描寫樣或目的之間的類似程度這些統(tǒng)計目的稱為聚類統(tǒng)計量間的類似程度這些統(tǒng)計目的稱為聚類統(tǒng)計量在市場研討中,樣品在市場研討中,樣品 用作分類的事物用作分類的事物 目的目的 用來作為分類根據(jù)的變量。用來作為分類根據(jù)的變量。如:年齡、收入、銷售量如:年齡、收入、銷售量一類似系數(shù)夾角余弦 普通式:假定每個樣品包含有P項目的,假設有幾個樣品的調查數(shù)據(jù)pXXXX112111pXXXX222212npnnnXXXX21每一個樣品都可看成P維空間中的一個向量對于恣意兩個樣品Xi和Xj的類似程度可用這兩個向量之間的夾角余弦 ijCos來表示:Xi和Xj相重合時,夾角0ij類似程度為100CosC
10、osijXi和Xj相互垂直時,2ij類似程度為02CosCosij類似親密解析幾何知識:類似系數(shù)pkpkjkikpkjkikjijiijXXXXXXXXCos11221其中:ipiiiXXXX21jpjjjXXXX2111ijCos假設把上述假設把上述n n個樣品的任何兩個樣品的類似系數(shù)個樣品的任何兩個樣品的類似系數(shù)),2,1,(njiCosij都計算出來并陳列成一都計算出來并陳列成一個矩陣:個矩陣:nnnnnnCosCosCosCosCosCosCosCosCos212222111211根據(jù)算出的根據(jù)算出的,就可對n個樣品進展聚類用類似系數(shù)作為聚類統(tǒng)計量時的分類方法用類似系數(shù)作為聚類統(tǒng)計量時
11、的分類方法1 1、分類原那么:、分類原那么: 1 1假設選出一對樣品,在已分好的類中未出現(xiàn),那假設選出一對樣品,在已分好的類中未出現(xiàn),那么構成一個獨立新類。么構成一個獨立新類。 2 2假設選出兩個樣品中,有一個是在已分好的類中假設選出兩個樣品中,有一個是在已分好的類中出現(xiàn)過,那么把另一個樣品也參與到該類中去。出現(xiàn)過,那么把另一個樣品也參與到該類中去。 3 3假設選出一對樣品,都分別出現(xiàn)曾經分好的兩類假設選出一對樣品,都分別出現(xiàn)曾經分好的兩類中,那么把這兩個類結合在一同。中,那么把這兩個類結合在一同。 4 4假設選出的一對樣品都出如今同一組中,那么這假設選出的一對樣品都出如今同一組中,那么這對樣
12、品就不用再分組了。對樣品就不用再分組了。按上述四條原那么反復進展,直到把一切樣品都分類終按上述四條原那么反復進展,直到把一切樣品都分類終了,最后以分類圖方式表示了,最后以分類圖方式表示2 2、分類方法、分類方法例:設有例:設有7 7個樣品,每個樣品測得個樣品,每個樣品測得P P個目的,數(shù)據(jù)如表個目的,數(shù)據(jù)如表 X1 X2 X3 X4 X5 X6 X7PXXX21樣品目的要求對此要求對此7 7個樣品進展聚類,采用的聚類統(tǒng)計量是個樣品進展聚類,采用的聚類統(tǒng)計量是類似系數(shù)夾角余弦類似系數(shù)夾角余弦pkpkjkikpkjkikjijiijXXXXXXXXCos11221首先計算一切的兩個樣品間的類似系數(shù)
13、首先計算一切的兩個樣品間的類似系數(shù))()(ijijqCosQ124. 016. 030. 020. 041. 024. 0152. 015. 092. 067. 020. 0174. 054. 001. 097. 0186. 091. 081. 0183. 094. 0151. 01 1 2 3 4 5 6 71234567Q =按矩陣中的數(shù)值對按矩陣中的數(shù)值對7 7個樣品按四個原那么進展聚類個樣品按四個原那么進展聚類124. 016. 030. 020. 041. 024. 0152. 015. 092. 067. 020. 0174. 054. 001. 097. 0186. 091. 0
14、81. 0183. 094. 0151. 01 1 2 3 4 5 6 71234567Q =順序 連結樣品 類似系數(shù)123456 X1 X5 0.97 X1 X5 X3 0.94 X2 X4 0.91 X2 X4 X6 0.67 X1 X5 X3 X2 X4 X6 0.51 X1 X5 X3 X7 0.24 X2 X4 X6按矩陣中的數(shù)值對按矩陣中的數(shù)值對7 7個樣品按四個原那么進展聚類個樣品按四個原那么進展聚類1 1、記下、記下Q Q中最大值中最大值q15=0.97q15=0.97,劃去,劃去Q Q中的第中的第5 5行第行第5 5列列2 2、記下、記下Q Q中剩余元素最大值中剩余元素最大值
15、q13=0.94q13=0.94,劃去,劃去Q Q中的第中的第3 3行第行第3 3列列行3 3記下記下Q Q中剩余元素最大值中剩余元素最大值q24=0.91q24=0.91,劃去,劃去Q Q中的第中的第4 4行第行第4 4列列4 4記下記下Q Q中剩余元素最大值中剩余元素最大值q26=0.67q26=0.67,劃去,劃去Q Q中的第中的第6 6行第行第6 6列列5 5記下記下Q Q中剩余元素最大值中剩余元素最大值q12=0.51q12=0.51,劃去,劃去Q Q中的第中的第2 2行第行第2 2列列6 6記下記下Q Q中剩余元素最大值中剩余元素最大值q17=0.24q17=0.24作聚類圖:作聚
16、類圖:X1X5X3X2X4X6X70.970.940.910.670.510.242 2利用相關作聚類分析利用相關作聚類分析例:設有例:設有n n個樣品,每個樣品測得個樣品,每個樣品測得8 8個目的個目的X1X1,X2X2,X8X8。要求對。要求對8 8個目的進展聚類,聚類統(tǒng)計個目的進展聚類,聚類統(tǒng)計量采用相關系數(shù)量采用相關系數(shù)ijr22jjkiikjjkjikijXXXXXXXXr設相關矩陣設相關矩陣R = R = 為:為:ijr188. 045. 049. 078. 051. 080. 038. 0149. 050. 073. 015. 068. 045. 0196. 049. 096.
17、053. 099. 0187. 094. 046. 094. 0149. 093. 045. 0157. 096. 0147. 01 1 2 3 4 5 6 7 812345678順序 連結樣品 類似系數(shù)1234567 X1 X6 0.99 X1 X6 X3 0.96 X2 X4 0.93 X2 X4 X7 0.68 X5 X8 0.49 X1 X6 X3 X2 X4 X7 0.47 X1 X6 X3 X5 X8 -0.94 X2 X4 X7R=按矩陣按矩陣R中數(shù)值對中數(shù)值對8個目的按四個原那么進展聚類:個目的按四個原那么進展聚類:1記下矩陣中的最大值記下矩陣中的最大值99. 016r,劃去第
18、,劃去第6行第行第6列列2記下矩陣中的最大值記下矩陣中的最大值96. 013r,劃去第,劃去第3行第行第3列列以此類推。以此類推。作聚類圖:X1X6X3X4X2X7X5X80.990.960.930.680.490.47-0.94主要城市日照時數(shù)注:延續(xù)變量注:延續(xù)變量SPSS提供不同類間提供不同類間間隔的丈量方法間隔的丈量方法1、組間銜接法、組間銜接法2、組內銜接法、組內銜接法3、最近間隔法、最近間隔法4、最遠間隔法、最遠間隔法5、重心法、重心法6、中位數(shù)法、中位數(shù)法7、Ward最小偏向平最小偏向平方和法方和法觀丈量概述表聚類步驟,與圖結合看!4、5聚類方法有系統(tǒng)聚類和逐漸聚類,輸入數(shù)據(jù)集可
19、以是普聚類方法有系統(tǒng)聚類和逐漸聚類,輸入數(shù)據(jù)集可以是普通數(shù)據(jù)集、相關矩陣通數(shù)據(jù)集、相關矩陣CORR過程產生或協(xié)方差矩陣過程產生或協(xié)方差矩陣FACTOR等過程產生。等過程產生。SAS提供的聚類過程有:提供的聚類過程有:1、CLUSTER對坐標數(shù)據(jù)或間隔數(shù)據(jù)的觀測值用對坐標數(shù)據(jù)或間隔數(shù)據(jù)的觀測值用11種方種方法進展系統(tǒng)聚類,當觀測值數(shù)太多時,不宜直接采用。法進展系統(tǒng)聚類,當觀測值數(shù)太多時,不宜直接采用。2、FASTCLUS對于坐標數(shù)據(jù),用對于坐標數(shù)據(jù),用K-均值法對觀測值進均值法對觀測值進展逐漸聚類,當觀測值很多時,那么先用展逐漸聚類,當觀測值很多時,那么先用FACTCLUS過過程對其進展初步聚類
20、,然后再用程對其進展初步聚類,然后再用CLUSTER過程進展系過程進展系統(tǒng)聚類。統(tǒng)聚類。3、VARCLUS經過斜交多組分量分析對變量進展系統(tǒng)聚經過斜交多組分量分析對變量進展系統(tǒng)聚類或逐漸聚類。類或逐漸聚類。4、TREE為為CLUSTER或或VARCLUS過程產生的輸出畫過程產生的輸出畫樹狀圖。樹狀圖。CLUSTER過程過程開場每個觀測值自成一類,然后求兩兩之間的間隔,開場每個觀測值自成一類,然后求兩兩之間的間隔,將間隔最近的兩個觀測值合成一類。這個過程不斷將間隔最近的兩個觀測值合成一類。這個過程不斷進展下去,每次減少一類,直到合成一類為止。進展下去,每次減少一類,直到合成一類為止。聚類方法有聚
21、類方法有11種,可根據(jù)問題的性質選用,它們的種,可根據(jù)問題的性質選用,它們的區(qū)別在于怎樣計算兩類之間的間隔。區(qū)別在于怎樣計算兩類之間的間隔。METHOD=指定方法指定方法AVERAGE平均法、平均法、CENTROID重心法、重心法、COMPLETE最大間隔法、最大間隔法、DENSITY密度密度法、法、MEDIAM中位數(shù)法等中位數(shù)法等美國十個城市的分類美國十個城市的分類根據(jù)兩個城市見航空間隔將美國十個大城市作根據(jù)兩個城市見航空間隔將美國十個大城市作分類分類聚類分析聚類分析SAS程序:程序:原始數(shù)據(jù)是兩兩之原始數(shù)據(jù)是兩兩之間間隔的三角陣間間隔的三角陣而不是坐標而不是坐標輸入格式輸入格式55列為城市
22、列為城市15位位平均法平均法重心法重心法最小間隔法最小間隔法輸出輸出F及及t統(tǒng)計量統(tǒng)計量觀測值之間間隔的均方根觀測值之間間隔的均方根輸出結果:輸出結果:類數(shù)類數(shù)指出被合并的類指出被合并的類新類中的觀測值數(shù)新類中的觀測值數(shù)類間間隔除以類間間隔除以觀測值間間隔觀測值間間隔均方根得來均方根得來F、t*2峰值峰值(起伏起伏)越大越大闡明分類顯著闡明分類顯著研討各種飲料在市場消費的分配規(guī)律,試確定各種飲料消費類型研討各種飲料在市場消費的分配規(guī)律,試確定各種飲料消費類型聚類分析的第幾步聚類分析的第幾步哪兩個樣本或小哪兩個樣本或小類聚成一類類聚成一類相應的樣本間隔相應的樣本間隔或小類間隔或小類間隔指明是樣本指明是樣本(0)還還是小類是小類(n)下面第幾下面第幾步用到步用到垂直冰柱圖垂直冰柱圖顯示層次聚顯示層次聚類分析類分析從冰柱圖最從冰柱圖最后一行開場后
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 低妝感放大真顏值
- 2021-2026年中國果蔬汁飲料行業(yè)市場全景調研及投資規(guī)劃建議報告
- 2025年無機復合材料合作協(xié)議書
- 蘋果手機供貨合同范本
- 2025年液壓泵項目評估報告
- 2025年中國當歸種植行業(yè)市場深度分析及發(fā)展前景預測報告
- 河沙開采合同范本
- 實驗漁船合同范本
- 2025年軋鋼導衛(wèi)裝置項目合作計劃書
- 電器勞動合同范本
- 護理工作十四五規(guī)劃
- 產后抑郁癥講課課件
- 人工智能背景下高職五育并舉的人才培養(yǎng)研究
- 汽車行業(yè)維修記錄管理制度
- IQC檢驗作業(yè)指導書
- 城市自來水廠課程設計
- 重慶市2024年小升初語文模擬考試試卷(含答案)
- 2024智慧城市數(shù)據(jù)采集標準規(guī)范
- 【人教版】《勞動教育》七上 勞動項目一 疏通廚房下水管道 課件
- 2024特斯拉的自動駕駛系統(tǒng)FSD發(fā)展歷程、技術原理及未來展望分析報告
- 2024-2030年中國銀行人工智能行業(yè)市場深度調研及發(fā)展趨勢與投資前景研究報告
評論
0/150
提交評論