聚類分析的思路和方法_第1頁
聚類分析的思路和方法_第2頁
聚類分析的思路和方法_第3頁
聚類分析的思路和方法_第4頁
聚類分析的思路和方法_第5頁
已閱讀5頁,還剩74頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

關于聚類分析的思路和方法第一頁,共七十九頁,編輯于2023年,星期三2什么是聚類分析?聚類分析是根據“物以類聚”的道理,對樣本或指標進行分類的一種多元統(tǒng)計分析方法,它們討論的對象是大量的樣本,要求能合理地按各自的特性進行合理的分類,沒有任何模式可供參考或依循,即在沒有先驗知識的情況下進行的。第二頁,共七十九頁,編輯于2023年,星期三3聚類分析的基本思想基本思想是認為研究的樣本或變量之間存在著程度不同的相似性(親疏關系)。根據一批樣本的多個觀測指標,找出一些能夠度量樣本或變量之間相似程度的統(tǒng)計量,以這些統(tǒng)計量作為分類的依據,把一些相似程度較大的樣本(或指標)聚合為一類,把另外一些相似程度較大的樣本(或指標)聚合為一類,直到把所有的樣本(或指標)都聚合完畢,形成一個由小到大的分類系統(tǒng)。第三頁,共七十九頁,編輯于2023年,星期三4聚類分析無處不在誰經常光顧商店,誰買什么東西,買多少?按會員卡記錄的光臨次數、光臨時間、性別、年齡、職業(yè)、購物種類、金額等變量分類這樣商店可以……識別顧客購買模式(如喜歡一大早來買酸奶和鮮肉,習慣周末時一次性大采購)刻畫不同的客戶群的特征第四頁,共七十九頁,編輯于2023年,星期三5聚類分析無處不在挖掘有價值的客戶,并制定相應的促銷策略:如,對經常購買酸奶的客戶對累計消費達到12個月的老客戶針對潛在客戶派發(fā)廣告,比在大街上亂發(fā)傳單命中率更高,成本更低!第五頁,共七十九頁,編輯于2023年,星期三6聚類分析無處不在誰是銀行信用卡的黃金客戶?利用儲蓄額、刷卡消費金額、誠信度等變量對客戶分類,找出“黃金客戶”!這樣銀行可以……制定更具吸引力的服務,留住客戶!比如:一定額度和期限的免息透支服務!贈送百盛的貴賓打折卡!在他或她生日的時候送上一個小蛋糕!第六頁,共七十九頁,編輯于2023年,星期三7聚類的應用領域經濟領域:幫助市場分析人員從客戶數據庫中發(fā)現不同的客戶群,并且用購買模式來刻畫不同的客戶群的特征。誰喜歡打國際長途,在什么時間,打到那里?對住宅區(qū)進行聚類,確定自動提款機ATM的安放位置股票市場板塊分析,找出最具活力的板塊龍頭股企業(yè)信用等級分類……生物學領域推導植物和動物的分類;對基因分類,獲得對種群的認識數據挖掘領域作為其他數學算法的預處理步驟,獲得數據分布狀況,集中對特定的類做進一步的研究第七頁,共七十九頁,編輯于2023年,星期三8

例對10位應聘者做智能檢驗。3項指標X,Y和Z分別表示數學推理能力、空間想象能力和語言理解能力。得分如下,選擇合適的統(tǒng)計方法對應聘者進行分類。應聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424第八頁,共七十九頁,編輯于2023年,星期三9第九頁,共七十九頁,編輯于2023年,星期三10第十頁,共七十九頁,編輯于2023年,星期三11

聚類分析根據一批樣本的許多觀測指標,按照一定的數學公式具體地計算一些樣本或一些指標的相似程度,把相似的樣本或指標歸為一類,把不相似的歸為一類。

第十一頁,共七十九頁,編輯于2023年,星期三12樣本或變量間親疏程度的測度

研究樣本或變量的親疏程度的數量指標有兩種:一種叫相似系數,性質越接近的變量或樣本,它們的相似系數越接近于1或一l,而彼此無關的變量或樣本它們的相似系數則越接近于0,相似的為一類,不相似的為不同類。另一種叫距離,它是將每一個樣本看作p維空間的一個點,并用某種度量測量點與點之間的距離,距離較近的歸為一類,距離較遠的點應屬于不同的類。第十二頁,共七十九頁,編輯于2023年,星期三13設有n個樣本單位,每個樣本測得p項指標(變量),原始資料矩陣為:第十三頁,共七十九頁,編輯于2023年,星期三14定比變量的聚類統(tǒng)計量:距離統(tǒng)計量絕對距離歐式距離明考斯基距離蘭氏距離馬氏距離切氏距離第十四頁,共七十九頁,編輯于2023年,星期三151.絕對距離(Block距離)2.歐氏距離(Euclideandistance)第十五頁,共七十九頁,編輯于2023年,星期三163.明考斯基距離(Minkowski)4.蘭氏距離5.馬氏距離6.切比雪夫距離(Chebychev)第十六頁,共七十九頁,編輯于2023年,星期三17第十七頁,共七十九頁,編輯于2023年,星期三181.相關系數2.夾角余弦定比變量的聚類統(tǒng)計量:相似系數統(tǒng)計量第十八頁,共七十九頁,編輯于2023年,星期三19計數變量(Count)(離散變量)的聚類統(tǒng)計量對于計數變量或離散變量,可用于度量樣本(或變量)之間的相似性或不相似性程度的統(tǒng)計量主要有卡方測度(Chi-squaremeasure)和Phi方測度(Phi-squaremeasure)。第十九頁,共七十九頁,編輯于2023年,星期三20二值(Binary)變量的聚類統(tǒng)計量第二十頁,共七十九頁,編輯于2023年,星期三21聚類的類型根據聚類對象的不同,分為Q型聚類和R型聚類。Q型聚類:樣本之間的聚類即Q型聚類分析,則常用距離來測度樣本之間的親疏程度。R型聚類:變量之間的聚類即R型聚類分析,常用相似系數來測度變量之間的親疏程度。第二十一頁,共七十九頁,編輯于2023年,星期三22聚類的類型根據聚類方法的不同分為系統(tǒng)聚類和K均值聚類。系統(tǒng)聚類:又稱為層次聚類(hierarchicalcluster),是指聚類過程是按照一定層次進行的。K均值聚類(K-meansCluster)第二十二頁,共七十九頁,編輯于2023年,星期三23層次聚類基本思想:

在聚類分析的開始,每個樣本(或變量)自成一類;然后,按照某種方法度量所有樣本(或變量)之間的親疏程度,并把最相似的樣本(或變量)首先聚成一小類;接下來,度量剩余的樣本(或變量)和小類間的親疏程度,并將當前最接近的樣本(或變量)與小類聚成一類;再接下來,再度量剩余的樣本(或變量)和小類間的親疏程度,并將當前最接近的樣本(或變量)與小類聚成一類;如此反復,直到所有樣本(或變量)聚成一類為止。第二十三頁,共七十九頁,編輯于2023年,星期三24系統(tǒng)聚類法不僅需要度量個體與個體之間的距離,還要度量類與類之間的距離。類間距離被度量出來之后,距離最小的兩個小類將首先被合并成為一類。由類間距離定義的不同產生了不同的系統(tǒng)聚類法。第二十四頁,共七十九頁,編輯于2023年,星期三25類間距離的度量方法最短距離法(NearestNeighbor)最長距離法(FurtherNeighbor)組間平均連接法(Between-grouplinkage)組內平均連接法(Within-grouplinkage)重心法(Centroidclustering)中位數法(Medianclustering)離差平方和法(Ward’smethod)第二十五頁,共七十九頁,編輯于2023年,星期三26最短距離法(NearestNeighbor)以兩類中距離最近的兩個個體之間的距離作為類間距離。第二十六頁,共七十九頁,編輯于2023年,星期三27x21?x12?x22?x11?第二十七頁,共七十九頁,編輯于2023年,星期三28最長距離法(FurtherNeighbor)以兩類中距離最遠的兩個個體之間的距離作為類間距離。第二十八頁,共七十九頁,編輯于2023年,星期三29???x11?x21????第二十九頁,共七十九頁,編輯于2023年,星期三30組間平均連接法

(Between-grouplinkage)以兩類個體兩兩之間距離的平均數作為類間距離。第三十頁,共七十九頁,編輯于2023年,星期三31??????組間平均連接法(Between-groupLinkage)第三十一頁,共七十九頁,編輯于2023年,星期三32組內平均連接法

(Within-grouplinkage)將兩類個體合并為一類后,以合并后類中所有個體之間的平均距離作為類間距離。第三十二頁,共七十九頁,編輯于2023年,星期三33

組內平均連接法(Within-groupLinkage)x21?x12?x22?x11?第三十三頁,共七十九頁,編輯于2023年,星期三34重心法(Centroidclustering)以兩類變量均值(重心)之間的距離作為類間距離。第三十四頁,共七十九頁,編輯于2023年,星期三35重心距離:均值點的距離??第三十五頁,共七十九頁,編輯于2023年,星期三36中位數法(Medianclustering)以兩類變量中位數之間的距離作為類間距離。第三十六頁,共七十九頁,編輯于2023年,星期三37離差平方和法(Ward’smethod)離差平方和法是由Ward提出的,因此也稱為Ward方法。具體做法是,先將n個個體各自成一類,然后每次減少一類,隨著類與類的不斷聚合,類內的離差平方和必然不斷增大,選擇使離差平方和增加最小的兩類合并,直到所有的個體歸為一類為止。第三十七頁,共七十九頁,編輯于2023年,星期三38

主要步驟1.選擇變量

(1)和聚類分析的目的密切相關(2)反映要分類變量的特征(3)在不同研究對象上的值有明顯的差異(4)變量之間不能高度相關2.數據變換處理

為了消除各指標量綱的影響,需要對原始數據進行必要的變換處理。

第三十八頁,共七十九頁,編輯于2023年,星期三393.計算聚類統(tǒng)計量

聚類統(tǒng)計量是根據變換以后的數據計算得到的一個新數據,它用于表明各樣本或變量間的關系密切程度。常用的統(tǒng)計量有距離和相似系數兩大類。第三十九頁,共七十九頁,編輯于2023年,星期三40

4.聚類

主要涉及兩個問題:(1)選擇聚類的方法(2)確定形成的類數第四十頁,共七十九頁,編輯于2023年,星期三415.聚類結果的解釋和證實

對聚類結果進行解釋是希望對各個類的特征進行準確的描述,給每類起一個合適的名稱。這一步可以借助各種描述性統(tǒng)計量進行分析,通常的做法是計算各類在各聚類變量上的均值,對均值進行比較,還可以解釋各類產生的原因。

第四十一頁,共七十九頁,編輯于2023年,星期三42k-均值聚類

K-meansClusterK-均值聚類也叫快速聚類要求事先確定分類數運算速度快(特別是對于大樣本)第四十二頁,共七十九頁,編輯于2023年,星期三43k-均值聚類

K-meansCluster系統(tǒng)首先選擇k個聚類中心,根據其他觀測值與聚類中心的距離遠近,將所有的觀測值分成k類;再將k個類的中心(均值)作為新的聚類中心,重新按照距離進行分類;……,這樣一直迭代下去,直到達到指定的迭代次數或達到中止迭代的判據要求時,聚類過程結束。第四十三頁,共七十九頁,編輯于2023年,星期三44聚類分析終止的條件迭代次數:當目前的迭代次數等于指定的迭代次數(SPSS默認為10)時終止迭代。類中心點偏移程度:新確定的類中心點距上個類中心點的最大偏移量小于等于指定的量(SPSS默認為0)時終止聚類。第四十四頁,共七十九頁,編輯于2023年,星期三45例子1:31個省區(qū)小康和現代化指數的聚類分析利用2001年全國31個省市自治區(qū)各類小康和現代化指數的數據,對地區(qū)進行聚類分析。數據中包括6類指數:綜合指數、社會結構指數、經濟與技術發(fā)展指數、人口素質指數、生活質量指數、法制與治安指數。第四十五頁,共七十九頁,編輯于2023年,星期三46系統(tǒng)聚類第四十六頁,共七十九頁,編輯于2023年,星期三47Agglomerationschedule:輸出聚類過程表Proximitymatrix:輸出各個體之間的距離矩陣ClusterMembership:每個個體類別歸屬表第四十七頁,共七十九頁,編輯于2023年,星期三48Dendrogram:聚類樹形圖Icicle:冰柱圖第四十八頁,共七十九頁,編輯于2023年,星期三49第四十九頁,共七十九頁,編輯于2023年,星期三50第五十頁,共七十九頁,編輯于2023年,星期三51第五十一頁,共七十九頁,編輯于2023年,星期三52第五十二頁,共七十九頁,編輯于2023年,星期三53第五十三頁,共七十九頁,編輯于2023年,星期三54如果分為3類第1類:北京、上海、天津第2類:江蘇、山東、遼寧、浙江、廣東、福建、黑龍江、吉林第3類:其余省區(qū)第五十四頁,共七十九頁,編輯于2023年,星期三55輸出各組的統(tǒng)計信息在數據文件中保存分類信息Data—Splitfile第五十五頁,共七十九頁,編輯于2023年,星期三56第五十六頁,共七十九頁,編輯于2023年,星期三57第五十七頁,共七十九頁,編輯于2023年,星期三58K均值聚類Iterateandclassify:不斷計算新的類中心,替換舊的類中心。Classifyonly:根據初始類中心進行聚類,不改變類中心。第五十八頁,共七十九頁,編輯于2023年,星期三59第五十九頁,共七十九頁,編

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論