版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、聚類分析的思路和方法第一頁,共78頁。2什么是聚類分析?v聚類分析是根據(jù)聚類分析是根據(jù)“物以類聚物以類聚”的道理,對樣本或指標進的道理,對樣本或指標進行分類的一種多元統(tǒng)計分析方法,它們討論的對象是大行分類的一種多元統(tǒng)計分析方法,它們討論的對象是大量的樣本,要求能合理地按各自的特性進行合理的分類,量的樣本,要求能合理地按各自的特性進行合理的分類,沒有任何模式可供參考或依循,即在沒有先驗知識的情沒有任何模式可供參考或依循,即在沒有先驗知識的情況下進行的。況下進行的。第二頁,共78頁。3聚類分析的基本思想聚類分析的基本思想v基本思想是認為研究的樣本或變量之間存在著程度不同的相似基本思想是認為研究的樣
2、本或變量之間存在著程度不同的相似性(親疏關(guān)系)。性(親疏關(guān)系)。v根據(jù)一批樣本的多個觀測指標,找出一些能夠度量樣本或變量之間相根據(jù)一批樣本的多個觀測指標,找出一些能夠度量樣本或變量之間相似程度的統(tǒng)計量,以這些統(tǒng)計量作為分類的依據(jù),把一些相似程度較似程度的統(tǒng)計量,以這些統(tǒng)計量作為分類的依據(jù),把一些相似程度較大的樣本(或指標)聚合為一類,把另外一些相似程度較大的樣本大的樣本(或指標)聚合為一類,把另外一些相似程度較大的樣本(或指標)聚合為一類,直到把所有的樣本(或指標)都聚合完畢,(或指標)聚合為一類,直到把所有的樣本(或指標)都聚合完畢,形成一個由小到大的分類系統(tǒng)。形成一個由小到大的分類系統(tǒng)。第
3、三頁,共78頁。4聚類分析無處不在聚類分析無處不在v誰經(jīng)常光顧商店,誰買什么東西,買多少?誰經(jīng)常光顧商店,誰買什么東西,買多少?v按會員卡記錄的光臨次數(shù)、光臨時間、性別、年齡、職按會員卡記錄的光臨次數(shù)、光臨時間、性別、年齡、職業(yè)、購物種類、金額等變量分類業(yè)、購物種類、金額等變量分類v這樣商店可以這樣商店可以v識別顧客購買模式(如喜歡一大早來買酸奶和鮮肉,習(xí)識別顧客購買模式(如喜歡一大早來買酸奶和鮮肉,習(xí)慣周末時一次性大采購)慣周末時一次性大采購)v刻畫不同的客戶群的特征刻畫不同的客戶群的特征第四頁,共78頁。5聚類分析無處不在v挖掘有價值的客戶,并制定相應(yīng)的促銷策略:挖掘有價值的客戶,并制定相
4、應(yīng)的促銷策略:如,對經(jīng)常購買酸奶的客戶如,對經(jīng)常購買酸奶的客戶對累計消費達到對累計消費達到12個月的老客戶個月的老客戶v針對潛在客戶派發(fā)廣告,比在大街上亂發(fā)傳針對潛在客戶派發(fā)廣告,比在大街上亂發(fā)傳單命中率更高,成本更低!單命中率更高,成本更低!第五頁,共78頁。6聚類分析無處不在v誰是銀行信用卡的黃金客戶?誰是銀行信用卡的黃金客戶?利用儲蓄額、刷卡消費金額、誠信度等變量對客戶分類,找出利用儲蓄額、刷卡消費金額、誠信度等變量對客戶分類,找出“黃金客戶黃金客戶”!這樣銀行可以這樣銀行可以制定更具吸引力的服務(wù),留住客戶!比如:制定更具吸引力的服務(wù),留住客戶!比如:v一定額度和期限的免息透支服務(wù)!一定
5、額度和期限的免息透支服務(wù)!v贈送百盛的貴賓打折卡!贈送百盛的貴賓打折卡!v在他或她生日的時候送上一個小蛋糕!在他或她生日的時候送上一個小蛋糕!第六頁,共78頁。7聚類的應(yīng)用領(lǐng)域v經(jīng)濟領(lǐng)域:經(jīng)濟領(lǐng)域:幫助市場分析人員從客戶數(shù)據(jù)庫中發(fā)現(xiàn)不同的客戶群,并且用購買模式來刻幫助市場分析人員從客戶數(shù)據(jù)庫中發(fā)現(xiàn)不同的客戶群,并且用購買模式來刻畫不同的客戶群的特征。畫不同的客戶群的特征。誰喜歡打國際長途,在什么時間,打到那里?誰喜歡打國際長途,在什么時間,打到那里?對住宅區(qū)進行聚類,確定自動提款機對住宅區(qū)進行聚類,確定自動提款機ATM的安放位置的安放位置股票市場板塊分析,找出最具活力的板塊龍頭股股票市場板塊分
6、析,找出最具活力的板塊龍頭股企業(yè)信用等級分類企業(yè)信用等級分類v生物學(xué)領(lǐng)域生物學(xué)領(lǐng)域推導(dǎo)植物和動物的分類;推導(dǎo)植物和動物的分類;對基因分類,獲得對種群的認識對基因分類,獲得對種群的認識v數(shù)據(jù)挖掘領(lǐng)域數(shù)據(jù)挖掘領(lǐng)域作為其他數(shù)學(xué)算法的預(yù)處理步驟,獲得數(shù)據(jù)分布狀況,集中對特定的類做進一步作為其他數(shù)學(xué)算法的預(yù)處理步驟,獲得數(shù)據(jù)分布狀況,集中對特定的類做進一步的研究的研究第七頁,共78頁。8 例例 對對10位應(yīng)聘者做智能檢驗。位應(yīng)聘者做智能檢驗。3項指標項指標X,Y和和Z分別表示數(shù)學(xué)推理能力、空間想象能力和語言理解分別表示數(shù)學(xué)推理能力、空間想象能力和語言理解能力。得分如下,選擇合適的統(tǒng)計方法對應(yīng)聘者進能力。
7、得分如下,選擇合適的統(tǒng)計方法對應(yīng)聘者進行分類。行分類。應(yīng)聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424第八頁,共78頁。9第九頁,共78頁。10第十頁,共78頁。11 聚類分析根據(jù)一批樣本的許多觀測聚類分析根據(jù)一批樣本的許多觀測指標,按照一定的數(shù)學(xué)公式具體地計算一指標,按照一定的數(shù)學(xué)公式具體地計算一些樣本或一些指標的相似程度,把相似的些樣本或一些指標的相似程度,把相似的樣本或指標歸為一類,把不相似的歸為一樣本或指標歸為一類,把不相似的歸為一類。類。 第十一頁,共78頁。12樣本或變量間親疏
8、程度的測度樣本或變量間親疏程度的測度v研究樣本或變量的親疏程度的數(shù)量指標有兩種:研究樣本或變量的親疏程度的數(shù)量指標有兩種:v一種叫一種叫相似系數(shù)相似系數(shù),性質(zhì)越接近的變量或樣本,它們的,性質(zhì)越接近的變量或樣本,它們的相似系數(shù)越接近于相似系數(shù)越接近于1 1或一或一l l,而彼此無關(guān)的變量或樣本它,而彼此無關(guān)的變量或樣本它們的相似系數(shù)則越接近于們的相似系數(shù)則越接近于0 0,相似的為一類,不相似的為,相似的為一類,不相似的為不同類。不同類。v另一種叫另一種叫距離距離,它是將每一個樣本看作,它是將每一個樣本看作p p維空間的一個維空間的一個點,并用某種度量測量點與點之間的距離,距離較近的歸為點,并用某
9、種度量測量點與點之間的距離,距離較近的歸為一類,距離較遠的點應(yīng)屬于不同的類。一類,距離較遠的點應(yīng)屬于不同的類。第十二頁,共78頁。13v設(shè)有設(shè)有n個樣本單位,每個樣本測得個樣本單位,每個樣本測得p項指標項指標(變量),原始資料矩陣為:(變量),原始資料矩陣為:npnnppxxxxxxxxxX212222111211第十三頁,共78頁。14定比變量的聚類統(tǒng)計量:距離統(tǒng)計量定比變量的聚類統(tǒng)計量:距離統(tǒng)計量v絕對距離絕對距離v歐式距離歐式距離v明考斯基距離明考斯基距離v蘭氏距離蘭氏距離v馬氏距離馬氏距離v切氏距離切氏距離第十四頁,共78頁。15v1. 絕對距離(絕對距離(Block距離)距離)v2.
10、 歐氏距離歐氏距離(Euclidean distance) pkjkikijxxd11 2112)(2pkjkikijxxd第十五頁,共78頁。16v3. 明考斯基距離明考斯基距離(Minkowski)v4. 蘭氏距離蘭氏距離v5. 馬氏距離馬氏距離v6. 切比雪夫距離切比雪夫距離(Chebychev)qpkqjkikijxxd11)( pkjkikjkikijxxxxLd1211jijiijxxSxxMdNoImagejkikpkijxxd1max)(第十六頁,共78頁。17第十七頁,共78頁。18v1. 相關(guān)系數(shù)相關(guān)系數(shù)v2. 夾角余弦夾角余弦2112121nkkjnkkinkkjkiij
11、xxxxCnknkjkjikinkjkjikiijxxxxxxxxr11221)()()(定比變量的聚類統(tǒng)計量:相似系數(shù)統(tǒng)計量定比變量的聚類統(tǒng)計量:相似系數(shù)統(tǒng)計量第十八頁,共78頁。19計數(shù)變量計數(shù)變量(Count)(離散變量)的聚類統(tǒng)計量(離散變量)的聚類統(tǒng)計量v對于計數(shù)變量或離散變量,可用于度量樣本對于計數(shù)變量或離散變量,可用于度量樣本(或變量)之間的相似性或不相似性程度的(或變量)之間的相似性或不相似性程度的統(tǒng)計量主要有卡方測度(統(tǒng)計量主要有卡方測度(Chi-square measure)和和Phi方測度(方測度(Phi-square measure)。)。第十九頁,共78頁。20二值二
12、值(Binary)變量的聚類統(tǒng)計量變量的聚類統(tǒng)計量第二十頁,共78頁。21聚類的類型v根據(jù)聚類對象的不同,分為根據(jù)聚類對象的不同,分為Q型聚類和型聚類和R型聚型聚類類。vQ型聚類:樣本之間的聚類即型聚類:樣本之間的聚類即Q型聚類分析,型聚類分析,則常用則常用距離距離來測度樣本之間的親疏程度。來測度樣本之間的親疏程度。vR型聚類:變量之間的聚類即型聚類:變量之間的聚類即R型聚類分析,型聚類分析,常用常用相似系數(shù)相似系數(shù)來測度變量之間的親疏程度。來測度變量之間的親疏程度。第二十一頁,共78頁。22聚類的類型v根據(jù)聚類方法的不同分為系統(tǒng)聚類和根據(jù)聚類方法的不同分為系統(tǒng)聚類和K均值均值聚類。聚類。v系
13、統(tǒng)聚類:又稱為層次聚類(系統(tǒng)聚類:又稱為層次聚類(hierarchical cluster),是指聚類過程是按照一定層次進),是指聚類過程是按照一定層次進行的。行的。vK均值聚類(均值聚類( K-means Cluster )第二十二頁,共78頁。23層次聚類層次聚類v基本思想:基本思想: 在聚類分析的開始,每個樣本(或變量)自成一類;然在聚類分析的開始,每個樣本(或變量)自成一類;然后,按照某種方法度量所有樣本(或變量)之間的親疏程度,后,按照某種方法度量所有樣本(或變量)之間的親疏程度,并把最相似的樣本(或變量)首先聚成一小類;接下來,度并把最相似的樣本(或變量)首先聚成一小類;接下來,度
14、量剩余的樣本(或變量)和小類間的親疏程度,并將當前最量剩余的樣本(或變量)和小類間的親疏程度,并將當前最接近的樣本(或變量)與小類聚成一類;再接下來,再度量接近的樣本(或變量)與小類聚成一類;再接下來,再度量剩余的樣本(或變量)和小類間的親疏程度,并將當前最接剩余的樣本(或變量)和小類間的親疏程度,并將當前最接近的樣本(或變量)與小類聚成一類;如此反復(fù),直到所有近的樣本(或變量)與小類聚成一類;如此反復(fù),直到所有樣本(或變量)聚成一類為止。樣本(或變量)聚成一類為止。第二十三頁,共78頁。24v系統(tǒng)聚類法不僅需要度量個體與個體之間的系統(tǒng)聚類法不僅需要度量個體與個體之間的距離,還要度量類與類之間
15、的距離。類間距距離,還要度量類與類之間的距離。類間距離被度量出來之后,距離最小的兩個小類將離被度量出來之后,距離最小的兩個小類將首先被合并成為一類。由類間距離定義的不首先被合并成為一類。由類間距離定義的不同產(chǎn)生了不同的系統(tǒng)聚類法。同產(chǎn)生了不同的系統(tǒng)聚類法。第二十四頁,共78頁。25類間距離的度量方法v最短距離法最短距離法(Nearest Neighbor)v最長距離法最長距離法(Further Neighbor)v組間平均連接法組間平均連接法(Between-group linkage)v組內(nèi)平均連接法組內(nèi)平均連接法(Within-group linkage)v重心法重心法(Centroid
16、clustering)v中位數(shù)法中位數(shù)法(Median clustering)v離差平方和法離差平方和法(Wards method)第二十五頁,共78頁。26最短距離法最短距離法(Nearest Neighbor)v以兩類中距離最近的兩個個體之間的距離作以兩類中距離最近的兩個個體之間的距離作為類間距離。為類間距離。第二十六頁,共78頁。27x21x12x22x1112d第二十七頁,共78頁。28最長距離法最長距離法(Further Neighbor)v以兩類中距離最遠的兩個個體之間的距離作以兩類中距離最遠的兩個個體之間的距離作為類間距離。為類間距離。第二十八頁,共78頁。29x11x2112d
17、第二十九頁,共78頁。30組間平均連接法組間平均連接法(Between-group linkage)v以兩類個體兩兩之間距離的平均數(shù)作為類間以兩類個體兩兩之間距離的平均數(shù)作為類間距離。距離。第三十頁,共78頁。311299ddd組間平均連接法(Between-group Linkage)第三十一頁,共78頁。32組內(nèi)平均連接法組內(nèi)平均連接法(Within-group linkage)v將兩類個體合并為一類后,以合并后類中所將兩類個體合并為一類后,以合并后類中所有個體之間的平均距離作為類間距離。有個體之間的平均距離作為類間距離。第三十二頁,共78頁。33 組內(nèi)平均連接法(組內(nèi)平均連接法(With
18、in-group Linkage)1234566ddddddx21x12x22x11第三十三頁,共78頁。34重心法重心法(Centroid clustering)v以兩類變量均值(重心)之間的距離作為類以兩類變量均值(重心)之間的距離作為類間距離。間距離。第三十四頁,共78頁。35重心距離:均值點的距離重心距離:均值點的距離11,x y22,xy第三十五頁,共78頁。36中位數(shù)法中位數(shù)法(Median clustering)v以兩類變量中位數(shù)之間的距離作為類間距離。以兩類變量中位數(shù)之間的距離作為類間距離。第三十六頁,共78頁。37離差平方和法離差平方和法(Wards method)v離差平方
19、和法是由離差平方和法是由Ward提出的,因此也稱為提出的,因此也稱為Ward方法。具體做法是,先將方法。具體做法是,先將n個個體各自個個體各自成一類,然后每次減少一類,隨著類與類的成一類,然后每次減少一類,隨著類與類的不斷聚合,類內(nèi)的離差平方和必然不斷增大,不斷聚合,類內(nèi)的離差平方和必然不斷增大,選擇使離差平方和增加最小的兩類合并,直選擇使離差平方和增加最小的兩類合并,直到所有的個體歸為一類為止。到所有的個體歸為一類為止。第三十七頁,共78頁。38 主要步驟主要步驟1. 1. 選擇變量選擇變量 (1)和聚類分析的目的密切相關(guān))和聚類分析的目的密切相關(guān) (2)反映要分類變量的特征)反映要分類變量
20、的特征 (3)在不同研究對象上的值有明顯的差異)在不同研究對象上的值有明顯的差異 (4)變量之間不能高度相關(guān))變量之間不能高度相關(guān)2. 2. 數(shù)據(jù)變換處理數(shù)據(jù)變換處理 為了消除各指標量綱的影響,需要對原始數(shù)為了消除各指標量綱的影響,需要對原始數(shù)據(jù)進行必要的變換處理。據(jù)進行必要的變換處理。 第三十八頁,共78頁。393. 3. 計算聚類統(tǒng)計量計算聚類統(tǒng)計量 聚類統(tǒng)計量是根據(jù)變換以后的數(shù)據(jù)計算得聚類統(tǒng)計量是根據(jù)變換以后的數(shù)據(jù)計算得到的一個新數(shù)據(jù),它用于表明各樣本或變量到的一個新數(shù)據(jù),它用于表明各樣本或變量間的關(guān)系密切程度。常用的統(tǒng)計量有距離和間的關(guān)系密切程度。常用的統(tǒng)計量有距離和相似系數(shù)兩大類。相
21、似系數(shù)兩大類。第三十九頁,共78頁。40 4. 4. 聚類聚類 主要涉及兩個問題:主要涉及兩個問題: (1 1)選擇聚類的方法)選擇聚類的方法 (2 2)確定形成的類數(shù))確定形成的類數(shù)第四十頁,共78頁。415. 5. 聚類結(jié)果的解釋和證實聚類結(jié)果的解釋和證實 對聚類結(jié)果進行解釋是希望對各個類的特征進行準確對聚類結(jié)果進行解釋是希望對各個類的特征進行準確的描述,給每類起一個合適的名稱。這一步可以借助各種的描述,給每類起一個合適的名稱。這一步可以借助各種描述性統(tǒng)計量進行分析,通常的做法是計算各類在各聚類描述性統(tǒng)計量進行分析,通常的做法是計算各類在各聚類變量上的均值,對均值進行比較,還可以解釋各類產(chǎn)
22、生的變量上的均值,對均值進行比較,還可以解釋各類產(chǎn)生的原因。原因。 第四十一頁,共78頁。42k-均值聚類均值聚類K-means ClustervK-均值聚類也叫快速聚類均值聚類也叫快速聚類v要求事先確定分類數(shù)要求事先確定分類數(shù)v運算速度快(特別是對于大樣本)運算速度快(特別是對于大樣本)第四十二頁,共78頁。43k-均值聚類均值聚類K-means Clusterv系統(tǒng)首先選擇系統(tǒng)首先選擇k個聚類中心,根據(jù)其他觀測值個聚類中心,根據(jù)其他觀測值與聚類中心的距離遠近,將所有的觀測值分與聚類中心的距離遠近,將所有的觀測值分成成k類;再將類;再將k個類的中心(均值)作為新的個類的中心(均值)作為新的聚
23、類中心,重新按照距離進行分類;聚類中心,重新按照距離進行分類;,這樣一直迭代下去,直到達到指定的迭代次這樣一直迭代下去,直到達到指定的迭代次數(shù)或達到中止迭代的判據(jù)要求時,聚類過程數(shù)或達到中止迭代的判據(jù)要求時,聚類過程結(jié)束。結(jié)束。第四十三頁,共78頁。44聚類分析終止的條件聚類分析終止的條件v迭代次數(shù):當目前的迭代次數(shù)等于指定的迭迭代次數(shù):當目前的迭代次數(shù)等于指定的迭代次數(shù)(代次數(shù)(SPSS默認為默認為10)時終止迭代。)時終止迭代。v類中心點偏移程度:新確定的類中心點距上類中心點偏移程度:新確定的類中心點距上個類中心點的最大偏移量小于等于指定的量個類中心點的最大偏移量小于等于指定的量(SPSS
24、默認為默認為0)時終止聚類。)時終止聚類。第四十四頁,共78頁。45例子1:31個省區(qū)小康和現(xiàn)代化指數(shù)的聚類分析v利用利用2001年全國年全國31個省市自治區(qū)各類小康和個省市自治區(qū)各類小康和現(xiàn)代化指數(shù)的數(shù)據(jù),對地區(qū)進行聚類分析?,F(xiàn)代化指數(shù)的數(shù)據(jù),對地區(qū)進行聚類分析。v數(shù)據(jù)中包括數(shù)據(jù)中包括6類指數(shù):綜合指數(shù)、社會結(jié)構(gòu)指類指數(shù):綜合指數(shù)、社會結(jié)構(gòu)指數(shù)、經(jīng)濟與技術(shù)發(fā)展指數(shù)、人口素質(zhì)指數(shù)、數(shù)、經(jīng)濟與技術(shù)發(fā)展指數(shù)、人口素質(zhì)指數(shù)、生活質(zhì)量指數(shù)、法制與治安指數(shù)生活質(zhì)量指數(shù)、法制與治安指數(shù)。第四十五頁,共78頁。46系統(tǒng)聚類第四十六頁,共78頁。47vAgglomeration schedule:輸出聚類過程表:輸出聚類過程表vProximity matrix:輸出各個體之間的距離:輸出各個體之間的距離矩陣矩陣vCluster Membership:每個個體類別歸屬表:每個個體類別歸屬表第四十七頁,共78頁。48vDendrogram:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工作總結(jié)之服裝設(shè)計助理實習(xí)總結(jié)
- 工地上工程進展情況報告-建筑實操
- 2024年柔印CTP項目資金需求報告
- 銀行合規(guī)管理制度修訂
- 酒店餐飲服務(wù)規(guī)范及衛(wèi)生要求制度
- 支教社會實踐報告15篇
- 高中期中考試后總結(jié)(33篇)
- 黃山導(dǎo)游詞1500字(31篇)
- 2024智能充電樁技術(shù)規(guī)范
- 《輸煤除塵器培訓(xùn)》課件
- 壓軸題01反比例函數(shù)的綜合(原卷版+解析)
- 2024包工包料的裝修合同
- 《Unit 4 What can you do?A Lets talk》(教案)2024-2025學(xué)年人教PEP版英語五年級上冊
- 2024-2030年中國隧道掘進機(TBM)行業(yè)現(xiàn)狀動態(tài)與應(yīng)用趨勢預(yù)測報告
- 【幼兒的不良飲食習(xí)慣及影響因素探究11000字(論文)】
- 心包疾病護理常規(guī)
- 三年級道德與法治上冊 第四單元 家是最溫暖的地方 4.10 父母多愛我教學(xué)設(shè)計 新人教版
- 六年級趣味數(shù)學(xué)思維拓展題50道及答案
- 人教版六年級語文上冊期末考試卷(完整版)
- 醫(yī)院感染監(jiān)測規(guī)范
- 第七單元、數(shù)學(xué)廣角-植樹問題 (課件) -2024-2025學(xué)年五年級上冊數(shù)學(xué)人教版
評論
0/150
提交評論