版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第九章 SPSS的聚類分析聚類分析概述 概念:聚類分析是統(tǒng)計(jì)學(xué)中研究“物以類聚”的一種方法,屬多元統(tǒng)計(jì)分析方法. 例如:細(xì)分市場(chǎng)、消費(fèi)行為劃分 聚類分析是建立一種分類,是將一批樣本(或變量)按照在性質(zhì)上的“親疏”程度,在沒有先驗(yàn)知識(shí)的情況下自動(dòng)進(jìn)行分類的方法.其中:類內(nèi)個(gè)體具有較高的相似性,類間的差異性較大.聚類分析概述編號(hào)編號(hào) 購(gòu)物環(huán)境購(gòu)物環(huán)境 服務(wù)質(zhì)量服務(wù)質(zhì)量 A 73 68 B 66 69 C 84 82 D 91 88 E 94 90 兩類兩類:(A B) (C D E) 三類三類:(A B) (C) (D E)l依據(jù)平均得分依據(jù)平均得分的差距的差距, ,差距較差距較小的為一類小的為一
2、類. .l分類過程中分類過程中, ,沒有事先指定沒有事先指定分類的標(biāo)準(zhǔn)分類的標(biāo)準(zhǔn). .完完全根據(jù)樣本數(shù)全根據(jù)樣本數(shù)據(jù)客觀產(chǎn)生分據(jù)客觀產(chǎn)生分類結(jié)果類結(jié)果. . 親疏遠(yuǎn)程度的衡量指標(biāo)親疏遠(yuǎn)程度的衡量指標(biāo)相似性相似性: :數(shù)據(jù)間相似程度的度量數(shù)據(jù)間相似程度的度量距離距離: : 數(shù)據(jù)間差異程度的度量數(shù)據(jù)間差異程度的度量. .距離越近距離越近, ,越越“親密親密”, ,聚成一類聚成一類; ;距離越遠(yuǎn)距離越遠(yuǎn), ,越越“疏疏遠(yuǎn)遠(yuǎn)”, ,分別屬于不同的類分別屬于不同的類 定距型個(gè)體間的距離:定距型個(gè)體間的距離: 把每個(gè)個(gè)案數(shù)據(jù)看成是把每個(gè)個(gè)案數(shù)據(jù)看成是n n維空間上的點(diǎn)維空間上的點(diǎn), ,在點(diǎn)和點(diǎn)之間定義某種
3、距離在點(diǎn)和點(diǎn)之間定義某種距離. .一般適用于定距數(shù)一般適用于定距數(shù)據(jù)據(jù) 歐氏距離歐氏距離( (EUCLID)EUCLID) 平方歐氏距離平方歐氏距離( (SEUCLIDSEUCLID) )kiiiyxyxEUCLID12)(),(聚類分析概述個(gè)體距離矩陣l定距型個(gè)體間的距離聚類分析概述Proximity Matrix.0008.06217.80426.90730.4148.062.00025.45634.65538.21017.80425.456.0009.22012.80626.90734.6559.220.0003.60630.41438.21012.8063.606.000Case1:A
4、商廈2:B商廈3:C商廈4:D商廈5:E商廈1:A商廈2:B商廈3:C商廈4:D商廈5:E商廈 Euclidean DistanceThis is a dissimilarity matrixl品質(zhì)型個(gè)體間的距離姓名 授課方式 上機(jī)時(shí)間 選某門課程張三 1 1 1 李四 1 1 0王五 0 0 1聚類分析概述 品質(zhì)型個(gè)體間的距離品質(zhì)型個(gè)體間的距離簡(jiǎn)單匹配簡(jiǎn)單匹配( (simple matching)simple matching)系數(shù)系數(shù): :適用二值變量。適用二值變量。dcbacbjid),(個(gè)體j個(gè)體i 1 01 a b0 c d a為個(gè)體i與個(gè)體j在所有變量上同時(shí)取1的個(gè)數(shù);d為同時(shí)取0
5、的個(gè)數(shù)特點(diǎn):排除同時(shí)擁有或同時(shí)不擁有某特征的情況;取0和1地位等價(jià),編碼方案的變化不會(huì)引起系數(shù)的變化。聚類分析概述l品質(zhì)型個(gè)體間的距離l簡(jiǎn)單匹配(simple matching)系數(shù):適用二值變量。姓名 授課方式 上機(jī)時(shí)間 選某門課程張三 1 1 1 李四 1 1 0王五 0 0 1(張三,李四):a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3(張三,王五):a=1 b=2 c=0 d=0 d(x,y)=2/(1+2)=2/3張三距李四近聚類分析概述 品質(zhì)型個(gè)體間的距離品質(zhì)型個(gè)體間的距離根據(jù)臨床表現(xiàn)研究病人是否有類似的病根據(jù)臨床表現(xiàn)研究病人是否有類似的病姓名 性別 發(fā)燒
6、咳嗽 檢查1 檢查2 檢查3 檢查4張三 男 1 0 1 0 0 0李四 女 1 0 1 0 1 0王五 男 1 1 0 0 0 0. 聚類分析概述 品質(zhì)型個(gè)體間的距離品質(zhì)型個(gè)體間的距離雅科比(雅科比(JaccardJaccard)系數(shù)系數(shù): :適用二值變量適用二值變量cbacbjiJ),(個(gè)體j個(gè)體i 1 01 a b0 c d a為個(gè)體i與個(gè)體j在所有變量上同時(shí)取1的個(gè)數(shù);d為同時(shí)取0的個(gè)數(shù)特點(diǎn):排除同時(shí)不擁有某特征的情況;取1的狀態(tài)比取0更有意義(如:臨床檢驗(yàn)中的陽(yáng)性特征);編碼方案會(huì)引起系數(shù)的變化聚類分析概述l品質(zhì)型個(gè)體間的距離l雅科比(Jaccard)系數(shù):適用二值變量姓名 授課方式
7、 上機(jī)時(shí)間 選某門課程張三 1 (0) 1(0) 1(0) 李四 1 (0) 1(0) 0(1)王五 0 (1) 0(1) 1(0)(張三,李四) 1: a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3(張三,李四) 2: a=0 b=0 c=1 d=2 d(x,y)=1/(1+2)=1/3 (相同) (張三,李四) 1: a=2 b=1 c=0 d=0 J(x,y)=1/(1+2)=1/3(張三,李四) 2: a=0 b=0 c=1 d=2 J(x,y)=1/1=1 (不相同) 品質(zhì)型個(gè)體間的距離品質(zhì)型個(gè)體間的距離JaccardJaccard系數(shù)舉例系數(shù)舉例: :根據(jù)臨床
8、表現(xiàn)研究病人是否有類似的病根據(jù)臨床表現(xiàn)研究病人是否有類似的病姓名 性別 發(fā)燒 咳嗽 檢查1 檢查2 檢查3 檢查4張三 男 1 0 1 0 0 0李四 女 1 0 1 0 1 0王五 男 1 1 0 0 0 0. 33. 010210),(李四張三d67. 010111),(王五張三d75. 021121),(王五李四d結(jié)論:張三和李四最有可能得類似的病;李四和王五不太有可能聚類分析概述l品質(zhì)型個(gè)體間的距離卡方距離:計(jì)數(shù)變量姓名選修課門數(shù)(期望頻數(shù))專業(yè)課門數(shù)(期望頻數(shù))得優(yōu)門數(shù)(期望頻數(shù))合計(jì)張三9(8.5)6(6)4(4.5)19李四8(8.5)6(6)5(4.5)19合計(jì)17129381
9、2. 4)5 . 4)5 . 45(6)66(5 . 8)5 . 88()5 . 4)5 . 44(6)66(5 . 8)5 . 89(222222 說明說明 聚類過程中如果數(shù)據(jù)在數(shù)量級(jí)上存在差異時(shí),應(yīng)進(jìn)行標(biāo)準(zhǔn)化處理。聚類過程中如果數(shù)據(jù)在數(shù)量級(jí)上存在差異時(shí),應(yīng)進(jìn)行標(biāo)準(zhǔn)化處理。例如例如: : 樣本的歐氏距離 元 萬(wàn)元(1,2) 26500081.623(1,3) 218000193.700(2,3) 47000254.897樣 本 號(hào) 社科活動(dòng)人員 數(shù) (人 )研究與發(fā)展年投 入 經(jīng) 費(fèi) (元 )研 究 與 發(fā) 展課 題 數(shù) (項(xiàng) )1410438000019233617300002134902
10、200008聚類分析概述聚類分析概述l說明l聚類分析中的變量選擇問題變量應(yīng)和聚類分析的目標(biāo)密切相關(guān)(如;學(xué)??蒲心芰Φ脑u(píng)價(jià)。如:科研經(jīng)費(fèi) 項(xiàng)目 獲獎(jiǎng) 人數(shù) 辦學(xué)性質(zhì))聚類結(jié)果僅是所選定變量所具數(shù)據(jù)特點(diǎn)的反應(yīng).變量之間不應(yīng)具有高度相關(guān)性,否則相當(dāng)于給這些變量進(jìn)行了加權(quán)l(xiāng)聚類分析包括:個(gè)案聚類和變量聚類兩種。l聚類分析包括:分層聚類和快速聚類分層聚類 思路:聚類過程具有一定的層次性 以合并(凝聚)的方式聚類(SPSS采用)首先,每個(gè)個(gè)體自成一類其次,將最“親密”的個(gè)體聚成一小類然后,將最“親密”的小類或個(gè)體再聚成一類重復(fù)上述過程,即:把所有的個(gè)體和小類聚集成越來(lái)越大的類,直到所有的個(gè)體都到一起(一
11、大類)為止可見,隨著聚類的進(jìn)行,類內(nèi)的“親密”性在逐漸減低分層聚類 思路思路 以分解的方式聚類以分解的方式聚類首先首先, ,所有個(gè)體都屬于一類所有個(gè)體都屬于一類其次其次, ,將大類中最將大類中最“疏遠(yuǎn)疏遠(yuǎn)”的小類或個(gè)體分離出去的小類或個(gè)體分離出去然后然后, ,分別將小類中最分別將小類中最“疏遠(yuǎn)疏遠(yuǎn)”的小類或個(gè)體再分離出去的小類或個(gè)體再分離出去重復(fù)上述過程重復(fù)上述過程, ,即:把類分解成越來(lái)越小的小類,直到所有的個(gè)體自成一類為止即:把類分解成越來(lái)越小的小類,直到所有的個(gè)體自成一類為止可見可見, ,隨著聚類的進(jìn)行隨著聚類的進(jìn)行, ,類內(nèi)的親密性在逐漸增強(qiáng)類內(nèi)的親密性在逐漸增強(qiáng)分層聚類 “親疏親疏”
12、程度的衡量對(duì)象程度的衡量對(duì)象個(gè)體間距離個(gè)體間距離個(gè)體和小類間、小類和小類間的距離個(gè)體和小類間、小類和小類間的距離分層聚類 個(gè)體和小類、類和類間的距離個(gè)體和小類、類和類間的距離最短距離法最短距離法( (nearest neighbor):nearest neighbor): 兩類間的距離定義為兩類中距離最近的兩個(gè)個(gè)案之間的距離兩類間的距離定義為兩類中距離最近的兩個(gè)個(gè)案之間的距離最長(zhǎng)距離法最長(zhǎng)距離法( (furthest neighbor)furthest neighbor): 兩類間的距離定義為兩類中距離最遠(yuǎn)的兩個(gè)個(gè)案之間的距離兩類間的距離定義為兩類中距離最遠(yuǎn)的兩個(gè)個(gè)案之間的距離平均鏈鎖法平均鏈
13、鎖法( (within-groups linkage)within-groups linkage) 兩類之間的距離定義為兩類個(gè)案之間距離的平均值。包括:兩類之間的距離定義為兩類個(gè)案之間距離的平均值。包括: 組間平均鏈鎖法組間平均鏈鎖法( (between-groups linkage):between-groups linkage):只考慮兩類間個(gè)案的距離只考慮兩類間個(gè)案的距離 組內(nèi)平均鏈鎖法(組內(nèi)平均鏈鎖法(With-groups linage)With-groups linage):考慮所有個(gè)案間的距離考慮所有個(gè)案間的距離分層聚類 基本操作步驟基本操作步驟1.1.基本操作基本操作A.A.菜
14、單選項(xiàng)菜單選項(xiàng): : analyze-classify-hierachical clusteranalyze-classify-hierachical clusterB.B.選擇參與聚類分析的變量入選擇參與聚類分析的變量入variablesvariables框框C.C.選擇一字符型變量作為個(gè)案的標(biāo)記變量選擇一字符型變量作為個(gè)案的標(biāo)記變量( (label cases)label cases)D.D.選擇個(gè)案聚類還是變量聚類選擇個(gè)案聚類還是變量聚類分層聚類 基本操作步驟基本操作步驟2. 2. 選擇距離計(jì)算方法(選擇距離計(jì)算方法(methodmethod選項(xiàng))選項(xiàng)) cluster method:c
15、luster method:計(jì)算類間距離的方法計(jì)算類間距離的方法 measure:measure:計(jì)算樣本距離的方法計(jì)算樣本距離的方法 transform values:transform values:對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理by variable:by variable:以以變量為單位標(biāo)準(zhǔn)化,適于個(gè)案聚類變量為單位標(biāo)準(zhǔn)化,適于個(gè)案聚類 by case:by case:對(duì)個(gè)案為單位標(biāo)準(zhǔn)化,適于變量聚類對(duì)個(gè)案為單位標(biāo)準(zhǔn)化,適于變量聚類分層聚類 進(jìn)一步的工作進(jìn)一步的工作1.1.數(shù)據(jù)輸出(數(shù)據(jù)輸出(statisticsstatistics選項(xiàng))選項(xiàng)) agglomeration s
16、chedule:agglomeration schedule:凝聚狀態(tài)表(默認(rèn))凝聚狀態(tài)表(默認(rèn)) distance matrix:distance matrix:樣本的距離矩陣樣本的距離矩陣 cluster membership:cluster membership:類成員類成員none:none:不輸出類成員(默認(rèn))不輸出類成員(默認(rèn))single solutionsingle solution:聚成聚成n n類時(shí)各樣本的歸屬類時(shí)各樣本的歸屬range of solutions:range of solutions:聚成聚成mnmn類時(shí)各樣本的歸屬類時(shí)各樣本的歸屬( (mnmnclassi
17、fy-k means clusteranalyze-classify-k means clusterB.B.選定參加快速聚類分析的變量到選定參加快速聚類分析的變量到variablesvariables框框C.C.確定快速聚類的類數(shù)確定快速聚類的類數(shù)( (number of clusters).number of clusters).類數(shù)應(yīng)小類數(shù)應(yīng)小于個(gè)案總數(shù)于個(gè)案總數(shù)D.D.選擇聚類方法選擇聚類方法( (method)method):默認(rèn)默認(rèn)iterate and classifyiterate and classify,即:即:在聚類的每一步都重新計(jì)算新的類中心在聚類的每一步都重新計(jì)算新的類
18、中心E.E.確定聚類終止條件(確定聚類終止條件(iterate)iterate)K-means快速聚類( (四四) )其他其他1. 1. 保存快速聚類的結(jié)果保存快速聚類的結(jié)果( (save)save)cluster membership:cluster membership:將各個(gè)案所屬類的類號(hào)保存到將各個(gè)案所屬類的類號(hào)保存到qcl_qcl_1 1變量中變量中distance from cluster center:distance from cluster center:將各樣本距所屬類中心將各樣本距所屬類中心的距離保存到的距離保存到qcl_2qcl_2變量中變量中. .K-means快速聚類( (四四) )其他其他2.2.輸出選項(xiàng)輸出選項(xiàng)( (option)option)initial cluster centers:initial cluster centers:輸出輸出初始類中心點(diǎn)初始類中心點(diǎn)ANOVA table:ANOVA table:輸出各類的方差分析表輸出各類的方差分析表cluster information for each case:cluster information for each case:輸出每個(gè)樣本的分類輸出每個(gè)樣本的分類結(jié)果和距離結(jié)果和距離K-means快速聚類( (四四) )其他其他3. 3. us
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年石家莊客運(yùn)服務(wù)考試題
- 2024年上海客運(yùn)考試題庫(kù)
- 傳染病疫情事件應(yīng)急預(yù)案模板!提前收藏備用
- 民房建筑包工包料的合同范本(3篇)
- 租房協(xié)議書范文(31篇)
- 有關(guān)感恩老師演講稿(33篇)
- 小學(xué)一下家長(zhǎng)會(huì)教學(xué)課件教學(xué)
- 多發(fā)肋骨骨折護(hù)理查房及病例討論
- 幼兒園傳染病教學(xué)課件
- 《麻雀》課件教學(xué)課件
- 2024年4月自考02323操作系統(tǒng)概論試題及答案含評(píng)分標(biāo)準(zhǔn)
- 土地復(fù)墾方案報(bào)告書
- 公司人力資源管理存在的問題及對(duì)策
- (2024年)特種設(shè)備安全法律法規(guī)培訓(xùn)課件
- 2024-2030年中國(guó)再生資源產(chǎn)業(yè)園區(qū)行業(yè)未來(lái)發(fā)展趨勢(shì)分析及投資規(guī)劃建議研究報(bào)告
- 2024年1月法律文書寫作試題與答案
- (高清版)TDT 1013-2013 土地整治項(xiàng)目驗(yàn)收規(guī)程
- 醫(yī)療器械投標(biāo)流程
- 試卷講評(píng)課-課件
- 深圳市企業(yè)數(shù)據(jù)合規(guī)指引
- 顱骨缺損患者護(hù)理查房
評(píng)論
0/150
提交評(píng)論