版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第八章聚類分析的原理及操作“物以類聚,人以群分”,科學(xué)研究在揭示對象特點(diǎn)及其相互作用的過程中,不惜花費(fèi)時間和精力進(jìn)行對象分類,以揭示其中相同和不相同的特征。在心理學(xué)研究中,經(jīng)常遇到的分類包括兩種情況:一是對研究樣本或個案的分類,即根據(jù)每個個案的一系列觀測指標(biāo),將那些在這些觀測量方面表現(xiàn)相近的個案歸為一類,將那些在這些觀測量方面的表現(xiàn)很不相同的個案歸為不同類;二是對觀測量的分類,即將一系列的觀測量歸類合并為性質(zhì)明顯不同的少數(shù)幾個方面。一、聚類分析的基本原理
進(jìn)行聚類分析,要先建立由某些事物屬性構(gòu)成的指標(biāo)體系,或者說是一個變量組合。入選的每個指標(biāo)必須能刻畫事物屬性的某個側(cè)面,所有指標(biāo)組合起來形成一個完備的指標(biāo)體系,它們互相配合可以共同刻畫事物的特征。所謂完備的指標(biāo)體系,是說入選的指標(biāo)是充分的,其他任何新增變量對辨別事物差異無顯著性貢獻(xiàn)。如果所選指標(biāo)不完備,則導(dǎo)致分類偏差。比如要對家庭教養(yǎng)方式進(jìn)行分類,就要有描述家庭教育方式的一系列變量,這些變量能夠充分地反映不同家庭對子女的教養(yǎng)方式。簡單地說,聚類分析的結(jié)果取決于變量的選擇和變量值獲取的兩個方面。變量選擇越準(zhǔn)確、測量越可靠,得到的分類結(jié)果越是能描述事物各類間的本質(zhì)區(qū)別。
距離或相似性程度是聚類分析的基礎(chǔ)。點(diǎn)距如何計(jì)算呢?拿連續(xù)測量的變量來說,可以用歐氏距離平方計(jì)算:即各變量差值的平方和。1.聚類分析的前期準(zhǔn)備工作
聚類分析是以完備的數(shù)據(jù)文件為基礎(chǔ)的,一般還要求各個觀測變量的量綱一致,即各變量取值的數(shù)量級一致。所以,聚類分析前要檢查各變量的量綱是否一致,不一致則需進(jìn)行轉(zhuǎn)換,如將各變量均作標(biāo)準(zhǔn)化轉(zhuǎn)換就可保證量綱一致。2.聚類分析的主要方法聚類分析層次聚類分析快算聚類分析:Q聚類分析:R聚類分析:使用有共同特征的樣本聚齊在一起,以便對不同類的樣本進(jìn)行分析。對研究對象的觀察變量進(jìn)行分類,它使具有共同變化特征的變量(相關(guān)性高)聚集在一起。用戶指定類別數(shù)的大樣本資料的逐步聚類分析,其實(shí)質(zhì)是K-Mean聚類,它先對數(shù)據(jù)進(jìn)行初始分類,然后逐步調(diào)整,得到最終分類。3.聚類分析圖形表示(p174)例如,根據(jù)某一觀測指標(biāo)體系對6個個案進(jìn)行聚類分析,已經(jīng)知道指標(biāo)體系中的變量均為連續(xù)變化的數(shù)據(jù),所以采用歐氏距離測量個體與個體之間,小類與小類之間的距離,最先計(jì)算出來的個案間距離矩陣如表1。表1G(2)G(3)G(4)G(5)G(6)G(1)25378G(2)4569G(3)779G(4)34G(5)6凝聚狀態(tài)表依據(jù)距離最近原則,表1中個案1與個案2首先聚合在一起形成小類G(1,2),再以該小類,其他四個個體見距離計(jì)算距離矩陣,小類間或小類與個體間距離采用平均連鎖法計(jì)算距離。如表2所示表2G(3)G(4)G(5)G(6)G(1,2)5578G(3)779G(4)4G(5)6根據(jù)表2所示,個案4與個案5聚合在一起形成小類G(4,5)。再以兩個小類、兩個個案計(jì)算距離矩陣,如表3表3G(3)G(4,5)G(6)G(1,2)567G(3)89G(4,5)5表4G(4,5,6)G(1,2,3)7根據(jù)表3所示,個案3與小類G(1,2)聚合在一起形成小類G(1,2,3),個案6與小類G(4,5)聚合在一起形成小類G(4,5,6),再計(jì)算小類間的距離,如表所示。凝聚狀態(tài)表表格形式(p175)聚合階段相互聚合的小類形成小類后再參與聚合的下一階段類1類211232454323544655130上述過程可以用一個表格加以呈現(xiàn):第一階段,個案1和個案2凝聚成一個小類;第二階段,個案4和5凝聚成一個小類;第三階段,個案3和第一階段形成的小類凝聚成一個小類;第四階段,個案6與第二階段形成的小類凝聚;第五階段,第三步和第四步凝聚成的兩個小類凝聚成一個大類。利用樹形圖表示(p175)123456個案類利用冰柱圖表示(p175)類數(shù)個案12345612345個案1和2歸一類個案4,5,6歸一類樹狀圖和冰柱圖表示聚類的過程十分的直觀。二、Q聚類分析的SPSS過程第一步:數(shù)據(jù)文件的準(zhǔn)備。Q聚類分析是根據(jù)一系列觀測變量的測量值對個案進(jìn)行分類,分類的依據(jù)是個案之間的“距離”。聚類之前的數(shù)據(jù)文件包括:n個個案的k個觀測值。第二步:點(diǎn)擊“Analyze”菜單選中“Classify”的“HierarchicalClusterAnalysis”,打開對話框。將參與聚類分析的觀測變量置入“Variable(s)”下的方框中,同時在Cluster之下選擇Cases。然后選中“Statistics”和“Plots”。第三步:點(diǎn)擊“Method”打開聚類分析的距離計(jì)算方法設(shè)置對話框,以實(shí)現(xiàn)對小類間距離、樣本間距離計(jì)算方法的設(shè)置,同時對量綱不一致情況下的變量觀測值進(jìn)行轉(zhuǎn)換:(1)小類間距離計(jì)算:默認(rèn)方式是類間平均鏈鎖法(Between-Groupslinkage),這種方法最充分地使用了數(shù)據(jù)資料;(2)樣本間距離計(jì)算:
觀測變量為連續(xù)變量,默認(rèn)方法:歐氏距離平方;觀測變量為順序或名義變量,默認(rèn)方法:卡方測量方法;觀測變量為二項(xiàng)選擇變量,默認(rèn)方法:二元?dú)W氏距離平方。(3)如果觀測變量的量綱不一致,還需設(shè)置對不同量綱變量進(jìn)標(biāo)準(zhǔn)化處理。默認(rèn)狀態(tài)是“none”,需要時可以選擇“Z-scores”,這是使用最廣泛、最直觀的轉(zhuǎn)換方法。在進(jìn)行量綱轉(zhuǎn)換時,要選擇“Bycases”表明是屬于Q聚類分析中的量綱轉(zhuǎn)換。第四步:指定圖形輸出。層次聚類分析的圖形結(jié)果有兩種形式(1)樹形圖(Dendrogram),它可以展現(xiàn)聚類分析的每一次合并過程,SPSS首先將各類之間的距離重新轉(zhuǎn)換到0~25之間,然后表現(xiàn)在圖上。此圖可以粗略地表現(xiàn)聚類的過程;(2)冰柱圖(Icicle),包括縱向冰柱圖(Vertical)和橫向冰柱圖(Horizontal)。冰柱圖用X符號來表示聚類過程,其選擇包括:全部、部分、無。第五步:顯示凝聚狀態(tài)表。點(diǎn)擊層次聚類分析對話框中的“statistics”可以打開設(shè)置凝聚狀態(tài)對話框。(1)選中“Agglomerationschedule”,可以輸出聚類分析詳細(xì)過程,即每一階段完成的是哪些個案或小類間的聚集;(2)選中“Proximitymatrix”,可以輸出各個案的距離矩陣;(3)設(shè)置個案歸屬結(jié)果顯示狀態(tài):
選中none,不顯示個案歸屬情況;選中Singlesolution,則顯示聚集成指定的n類時個案歸屬情況;選中Rangeofsolutions,則顯示聚集成n1到n2范圍內(nèi)的各種情況下的個案歸屬情況。第六步:設(shè)定保存層次聚類分析的結(jié)果。點(diǎn)擊層次聚類分析對話框中的“save”可以打開設(shè)置保存分類結(jié)果的對話框。在“Clustermembership”下邊:
選中None,不保存聚類結(jié)果到數(shù)據(jù)編輯窗口;選中Singlesolution,則保存聚集成指定的n類時個案歸屬結(jié)果;選中Rangeofsolutions,則顯示聚集成n1到n2范圍內(nèi)的各種情況下的個案歸屬結(jié)果。
OK!
實(shí)例分析:根據(jù)20名被試在不同色光刺激下選擇反應(yīng)時間的反應(yīng)模式,對其進(jìn)行類型劃分。實(shí)驗(yàn)數(shù)據(jù)如下表所示:IDREDGREENBLUEYELLOW1410389450490235636039140634124224804654320350400420538039042546063904564554337412450440455835638340041094053904904501038841042641011378410426409123003504004201341242049052314420430451480153683903894031639040042050917405380510489183903904284761940038050045520420400486505SPSS過程演示三、R聚類分析的SPSS過程
R層次聚類分析對研究對象的觀察變量進(jìn)行分類,它使得具有共同特征的變量聚集在一起,以便選擇其中具有代表性的變量,實(shí)現(xiàn)用較少變量刻畫研究對象的目的。
R聚類分析的過程與Q聚類分析的過程是一致的,只是在打開“HierarchicalClusterAnalysis”的對話框中選“Variables”的聚類。在變量間距離的計(jì)算方法上選“PearsonCorrelation”,其他操作與Q聚類相同。實(shí)例分析:根據(jù)學(xué)生考試分?jǐn)?shù)對課程進(jìn)行分類四、快速聚類分析
快速聚類分析是由研究者指定類別數(shù)的大樣本資料逐步聚類分析。它先對數(shù)據(jù)進(jìn)行初始分類,然后逐步調(diào)整,得到最終分類。快速聚類分析一般是對個案來進(jìn)行的??焖倬垲惙治鲆彩且詡€案的距離為基礎(chǔ)的,與層次聚類分析不同的是:快速聚類分析先要指定分類的類別數(shù),其邏輯程序是:1.用戶指定分類類別數(shù)k(無經(jīng)驗(yàn)時可以進(jìn)行多次探索性分析)2.SPSS程序自動確定各類中心點(diǎn)(有經(jīng)驗(yàn)用戶也可以自己定義)3.計(jì)算所有個案數(shù)據(jù)點(diǎn)到k個類中心點(diǎn)的歐氏距離4.根據(jù)距離最近原則將個案歸類,即距離哪個類中心點(diǎn)最近歸為哪個類5.據(jù)初步分類計(jì)算各類中心點(diǎn)坐標(biāo)再計(jì)算距離重新歸類。6.不斷重復(fù)調(diào)整,直到各個個案真正進(jìn)入到最近類為止。第一步:數(shù)據(jù)文件的準(zhǔn)備??焖倬垲惙治龅臄?shù)據(jù)文件往往比較大,主要是包括的個案數(shù)較多,而且可以包括一個個案的標(biāo)識變量。當(dāng)數(shù)據(jù)文件中數(shù)據(jù)量綱不一致時,則需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化轉(zhuǎn)換或其他轉(zhuǎn)換。第二步:點(diǎn)擊“Analyze”菜單選中“Classify”的“K-MeansCluster”打開快速聚類分析對話框,將參與聚類分析的觀測變量置入“Variable(s)”下的方框中,指定類別數(shù),同時在“Method”之下選擇默認(rèn)的“IterateandClassify”,這樣,程序可以自動確定類中心點(diǎn)??焖倬垲惙治龅闹饕襟E是:第三步:點(diǎn)擊“Options”打開統(tǒng)計(jì)參數(shù)顯示對話框和缺省值處理方式對話框。在“Statistics”之下有三方面的顯示要求:
Initialclustercenters:顯示有關(guān)初始類中心點(diǎn)的數(shù)據(jù);
Anovatable:對快速聚類分析產(chǎn)生的類作單因素方差分析,并輸出各個變量的方差分析表;
Clusterinformationforeachcase:輸出個案的分類信息及距所屬類中心點(diǎn)的距離。其他操作以默認(rèn)方式進(jìn)行
實(shí)例分析:為反映員工心理因素方面的差異性,某研究者調(diào)研了一工廠36名員工的6項(xiàng)心理因素,如下表所示。請根據(jù)這一分?jǐn)?shù)對員工進(jìn)行分類,并回答:員工分成幾類比較理想?Z1Z2Z3Z4Z5Z6Z1Z2Z3Z4Z5Z6666462505856536653595545555059595351615558615861504749454646596460525456555950545269556072605567555948564750565268405155625468464651595161565256606056535251605362554763525269585762525157455559565557394446565757525955505068464556685871685361585460595251605361605651535255576564645674505957525653576351675360535351566552516247565667675652506359535548534649435048635760665156535765526759564658504552604071575658475057495048544544494246SPSS過程演示練習(xí)題1.為研究不同公司的運(yùn)營特點(diǎn),調(diào)查了15個公司的組織文化、組織氛圍、領(lǐng)導(dǎo)角色和員工發(fā)展4個方面的內(nèi)容。請將這15個公司按照其各自的特點(diǎn)劃分成4種類型。數(shù)據(jù)如下表所示。不同公司的特點(diǎn)公司組織文化組織氛圍領(lǐng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 釀酒廠天然氣供氣服務(wù)合同
- 物聯(lián)網(wǎng)工程居間合同
- 農(nóng)業(yè)政策支持方案
- 補(bǔ)充借款合同格式
- 新媒體運(yùn)營合作協(xié)議
- 林木種植與林業(yè)管理作業(yè)指導(dǎo)書
- 大型鉆機(jī)租賃合同
- 大廈物業(yè)租賃合同
- 小學(xué)二年級數(shù)學(xué)上冊口算題卡
- 2025年漢中貨運(yùn)上崗證模擬考試試題
- 監(jiān)理專題安全例會紀(jì)要(3篇)
- ISO 22003-1:2022《食品安全-第 1 部分:食品安全管理體系 審核與認(rèn)證機(jī)構(gòu)要求》中文版(機(jī)翻)
- GB/T 17374-2024食用植物油銷售包裝
- 高級煙草制品購銷員(三級)職業(yè)資格鑒定理論考試題及答案
- 河道清淤疏浚投標(biāo)方案(技術(shù)方案)
- 護(hù)理部工作總結(jié)
- 農(nóng)業(yè)生產(chǎn)質(zhì)量安全風(fēng)險評估與監(jiān)控方案
- 人教版六年級上冊解方程練習(xí)300道及答案
- 2017年湖北省黃岡市中考語文(有解析)
- 2024年廣東省高考地理真題(解析版)
- 中國水利水電第十二工程局有限公司招聘筆試真題2023
評論
0/150
提交評論