20用SPSS作聚類分析.ppt_第1頁
20用SPSS作聚類分析.ppt_第2頁
20用SPSS作聚類分析.ppt_第3頁
20用SPSS作聚類分析.ppt_第4頁
20用SPSS作聚類分析.ppt_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

3 3用SPSS作聚類分析 常言道 物以類聚 對事物分門別類進行研究 有利于我們做出正確的判斷 日常生活中 我們不自覺地用定性方法將人分為 好人 壞人 按熟悉程度分為 朋友 熟人 陌生人 等等 數(shù)理統(tǒng)計中的數(shù)值分類有兩種問題 判別分析 已知分類情況 將未知個體歸入正確類別聚類分析 分類情況未知 對數(shù)據(jù)結(jié)構(gòu)進行分類 通過分類 有利于我們抓住重點 從總體上去把握事物 找出解決問題的方法 例如將股票進行分類 可以為我們投資提供參考 一 聚類分析 ClusterAnalysis 簡介聚類分析是直接比較各事物之間的性質(zhì) 將性質(zhì)相近的歸為一類 將性質(zhì)差別較大的歸入不同的類的分析技術(shù) 要做聚類分析 首先得按照我們聚類的目的 從對象中提取出能表現(xiàn)這個目的的特征指標(biāo) 然后根據(jù)親疏程度進行分類 聚類分析根據(jù)分類對象的不同可分為Q型和R型兩大類 Q型是對樣本進行分類處理 其作用在于 能利用多個變量對樣本進行分類分類結(jié)果直觀 聚類譜系圖能明確 清楚地表達(dá)其數(shù)值分類結(jié)果所得結(jié)果比傳統(tǒng)的定性分類方法更細(xì)致 全面 合理 二 聚類對象 R型是對變量進行分類處理 其作用在于 可以了解變量間及變量組合間的親疏關(guān)系可以根據(jù)變量的聚類結(jié)果及它們之間的關(guān)系 選擇主要變量進行回歸分析或Q型聚類分析 聚類的主要過程一般可分為如下四個步驟 數(shù)據(jù)預(yù)處理 標(biāo)準(zhǔn)化 構(gòu)造關(guān)系矩陣 親疏關(guān)系的描述 聚類 根據(jù)不同方法進行分類 確定最佳分類 類別數(shù) 以下我們結(jié)合實際例子分步進行討論 三 聚類過程與方法 為什么要做數(shù)據(jù)變換 指標(biāo)變量的量綱不同或數(shù)量級相差很大 為了使這些數(shù)據(jù)能放到一起加以比較 常需做變換 在SPSS中如何選擇標(biāo)準(zhǔn)化方法 Analyze Classify HierachicalClusterAnalysis Method然后從對話框中進行如下選擇 1 數(shù)據(jù)預(yù)處理 標(biāo)準(zhǔn)化 例 下表給出了1982年全國28個省 市 自治區(qū)農(nóng)民家庭收支情況 有六個指標(biāo) 是利用調(diào)查資料進行聚類分析 為經(jīng)濟發(fā)展決策提供依據(jù) 詳見文件1982 農(nóng)民生活消費聚類 sav 從TransformValues框中點擊向下箭頭 將出現(xiàn)如下可選項 從中選一即可 常用標(biāo)準(zhǔn)化方法 選項說明 None 不進行標(biāo)準(zhǔn)化 這是系統(tǒng)默認(rèn)值 ZScores 標(biāo)準(zhǔn)化變換 為了便于后面的說明 作如下假設(shè) 均值表示為 標(biāo)準(zhǔn)差表示為 所有樣本表示為 極差表示為 作用 變換后的數(shù)據(jù)均值為0 標(biāo)準(zhǔn)差為1 消去了量綱的影響 當(dāng)抽樣樣本改變時 它仍能保持相對穩(wěn)定性 Range 1to1 極差標(biāo)準(zhǔn)化變換 作用 變換后的數(shù)據(jù)均值為0 極差為1 且 xij 1 消去了量綱的影響 在以后的分析計算中可以減少誤差的產(chǎn)生 Maximummagnitudeof1 作用 變換后的數(shù)據(jù)最大值為1 Range0to1 極差正規(guī)化變換 規(guī)格化變換 作用 變換后的數(shù)據(jù)最小為0 最大為1 其余在區(qū)間 0 1 內(nèi) 極差為1 無量綱 Meanof1 作用 變換后的數(shù)據(jù)均值為1 Standarddeviationof1 作用 變換后的數(shù)據(jù)標(biāo)準(zhǔn)差為1 在SPSS中如何選擇測度 Analyze Classify HierachicalClusterAnalysis Method然后從對話框中進行如下選擇 2 構(gòu)造關(guān)系矩陣 描述變量或樣本的親疏程度的數(shù)量指標(biāo)有兩種 相似系數(shù) 性質(zhì)越接近的樣品 相似系數(shù)越接近于1或 1 彼此無關(guān)的樣品相似系數(shù)則接近于0 聚類時相似的樣品聚為一類距離 將每一個樣品看作m維空間的一個點 在這m維空間中定義距離 距離較近的點歸為一類 相似系數(shù)與距離有40多種 但常用的只是少數(shù) 從Measure框中點擊Interval項的向下箭頭 將出現(xiàn)如左可選項 從中選一即可 常用測度 選項說明 Euclideandistance 歐氏距離 二階Minkowski距離 SquaredEucideandistance 平方歐氏距離 用途 聚類分析中用得最廣泛的距離但與各變量的量綱有關(guān) 未考慮指標(biāo)間的相關(guān)性 也未考慮各變量方差的不同 用途 聚類分析中用得最廣泛的距離 Cosine 夾角余弦 相似性測度 用途 計算兩個向量在原點處的夾角余弦 當(dāng)兩夾角為0o時 取值為1 說明極相似 當(dāng)夾角為90o時 取值為0 說明兩者不相關(guān) 取值范圍 0 1 Pearsoncorrelation 皮爾遜相關(guān)系數(shù) Chebychev 切比雪夫距離 用途 計算兩個向量的皮爾遜相關(guān)系數(shù) 用途 計算兩個向量的切比雪夫距離 Block 絕對值距離 一階Minkowski度量 又稱Manhattan度量或網(wǎng)格度量 用途 計算兩個向量的絕對值距離 Minkowski 明科夫斯基距離 用途 計算兩個向量的明科夫斯基距離 Customized 自定義距離 用途 計算兩個向量的自定義距離 確定了樣品或變量間的距離或相似系數(shù)后 就要對樣品或變量進行分類 分類的一種方法是系統(tǒng)聚類法 又稱譜系聚類 另一種方法是調(diào)優(yōu)法 如動態(tài)聚類法就屬于這種類型 此外還有模糊聚類 圖論聚類 聚類預(yù)報等多種方法 我們主要介紹系統(tǒng)聚類法 實際應(yīng)用中使用最多 系統(tǒng)聚類法的基本思想 令n個樣品自成一類 計算出相似性測度 此時類間距離與樣品間距離是等價的 把測度最小的兩個類合并 然后按照某種聚類方法計算類間的距離 再按最小距離準(zhǔn)則并類 這樣每次減少一類 持續(xù)下去直到所有樣品都?xì)w為一類為止 聚類過程可做成聚類譜系圖 Hierarchicaldiagram 3 選擇聚類方法 系統(tǒng)聚類法的聚類原則決定于樣品間的距離 或相似系數(shù) 及類間距離的定義 類間距離的不同定義就產(chǎn)生了不同的系統(tǒng)聚類分析方法 SPSS中如何選擇系統(tǒng)聚類法 從ClusterMethod框中點擊向下箭頭 將出現(xiàn)如左可選項 從中選一即可 1 系統(tǒng)聚類法的產(chǎn)生 Between groupslinkage組間平均距離連接法 特點 非最大距離 也非最小距離 方法簡述 合并兩類的結(jié)果使所有的兩兩項對之間的平均距離最小 項對的兩成員分屬不同類 Within groupslinkage組內(nèi)平均連接法 方法簡述 兩類合并為一類后 合并后的類中所有項之間的平均距離最小 3 常用系統(tǒng)聚類方法 Nearestneighbor最近鄰法 最短距離法 特點 樣品有鏈接聚合的趨勢 這是其缺點 不適合一般數(shù)據(jù)的分類處理 除去特殊數(shù)據(jù)外 不提倡用這種方法 方法簡述 首先合并最近或最相似的兩項 Furthestneighbor最遠(yuǎn)鄰法 最長距離法 方法簡述 用兩類之間最遠(yuǎn)點的距離代表兩類之間的距離 也稱之為完全連接法 Centroidclustering重心聚類法 特點 該距離隨聚類地進行不斷縮小 該法的譜系樹狀圖很難跟蹤 且符號改變頻繁 計算較煩 方法簡述 兩類間的距離定義為兩類重心之間的距離 對樣品分類而言 每一類中心就是屬于該類樣品的均值 Medianclustering中位數(shù)法 特點 圖形將出現(xiàn)遞轉(zhuǎn) 譜系樹狀圖很難跟蹤 因而這個方法幾乎不被人們采用 方法簡述 兩類間的距離既不采用兩類間的最近距離 也不采用最遠(yuǎn)距離 而采用介于兩者間的距離 Ward smethod離差平方和法 特點 實際應(yīng)用中分類效果較好 應(yīng)用較廣 要求樣品間的距離必須是歐氏距離 方法簡述 基于方差分析思想 如果分類合理 則同類樣品間離差平方和應(yīng)當(dāng)較小 類與類間離差平方和應(yīng)當(dāng)較大 經(jīng)過系統(tǒng)聚類法處理后 得到聚類樹狀譜系圖 Demirmen 1972 提出了應(yīng)根據(jù)研究的目的來確定適當(dāng)?shù)姆诸惙椒?并提出了一些根據(jù)譜系圖來分類的準(zhǔn)則 任何類都必須在臨近各類中是突出的 即各類重心間距離必須極大確定的類中 各類所包含的元素都不要過分地多分類的數(shù)目必須符合實用目的若采用幾種不同的聚類方法處理 則在各自的聚類圖中應(yīng)發(fā)現(xiàn)相同的類 四 譜系分類的確定 SPSS中其他選項 通過實例演示 例 下表給出了1982年全國28個省 市 自治區(qū)農(nóng)民家庭收支情況 有六個指標(biāo) 是利用調(diào)查資料進行聚類分析 為經(jīng)濟發(fā)展決策提供依據(jù) 詳見文件1982 農(nóng)民生活消費聚類 sav 生成樹形圖 生成冰柱圖 凝聚狀態(tài)表 顯示聚類過程 各項間的距離矩陣 類成員欄 結(jié)果分析 方法選擇如下 通過比較 可知離差平方和法 Ward smethod 分類結(jié)果較好 將28各樣本分為三類 第一類包含6個元素 2 15 10 11 6 7第二類包含10個元素 8 17

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論