![第9章 聚類分析_第1頁](http://file4.renrendoc.com/view/376079f5acf1f2b82119d742b2af2592/376079f5acf1f2b82119d742b2af25921.gif)
![第9章 聚類分析_第2頁](http://file4.renrendoc.com/view/376079f5acf1f2b82119d742b2af2592/376079f5acf1f2b82119d742b2af25922.gif)
![第9章 聚類分析_第3頁](http://file4.renrendoc.com/view/376079f5acf1f2b82119d742b2af2592/376079f5acf1f2b82119d742b2af25923.gif)
![第9章 聚類分析_第4頁](http://file4.renrendoc.com/view/376079f5acf1f2b82119d742b2af2592/376079f5acf1f2b82119d742b2af25924.gif)
![第9章 聚類分析_第5頁](http://file4.renrendoc.com/view/376079f5acf1f2b82119d742b2af2592/376079f5acf1f2b82119d742b2af25925.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第九章聚類分析一、聚類分析含義將物理或抽象對象的集合分組成為由類似的對象組成的多個(gè)類的過程稱為聚類,由聚類所組成的簇是一組對象的集合,這些對象與同一簇中的對象彼此相似,與其它簇中的對象相異。與分類不同,它要?jiǎng)澐值念愂俏粗?。二、聚類分析中的?shù)據(jù)類型及轉(zhuǎn)換1、數(shù)據(jù)矩陣:用p個(gè)變量(也稱為度量或?qū)傩裕﹣肀憩F(xiàn)n個(gè)對象,例如用年齡、身高、性別等屬性來表現(xiàn)對象“人”。構(gòu)成一個(gè)n*p的矩陣。2、相異度矩陣:存儲n個(gè)對象兩兩之間的近似程度性,表現(xiàn)形式是一個(gè)n*n的矩陣。這里d(i,j)是對象i和對象j之間相異性的量化表示3、區(qū)間標(biāo)度度量一個(gè)粗略線性標(biāo)度的連續(xù)度量。(如重量,溫度等)
實(shí)現(xiàn)度量值的標(biāo)準(zhǔn)化:將原來的度量值轉(zhuǎn)換為無單位的值。為什么這么做?
選用的度量單位會直接影響聚類結(jié)果。例如千克改位克。一般,所用的單位越小,變量的值域就越大,對聚類的影響也越大。為了避免數(shù)據(jù)對度量單位的依賴,數(shù)據(jù)應(yīng)當(dāng)標(biāo)準(zhǔn)化。給定變量f,變換方法:(1)計(jì)算平均的絕對偏差Sf(2)計(jì)算標(biāo)準(zhǔn)化度量值,或z-score:注意:在特定的應(yīng)用中,是否要數(shù)據(jù)標(biāo)準(zhǔn)化和如何標(biāo)準(zhǔn)化是用戶自己的事情4、已標(biāo)準(zhǔn)化數(shù)據(jù)后怎么計(jì)算兩個(gè)對象的相似度三種常用的距離計(jì)算公式
(1)歐幾里德距離(2)曼哈坦距離(2)明斯基距離5、其它類型變量的相異度計(jì)算(1)二元變量變量的取值只有兩個(gè)狀態(tài),如性別,表示是否吸煙,醫(yī)療檢查正常還是不正常等。
i和j是兩個(gè)變量:q是兩個(gè)變量中都為1的個(gè)數(shù)
l是兩個(gè)變量中都為0的個(gè)數(shù)
s是i變量中為0,j中為1的個(gè)數(shù)
r是i變量中為1,j中為0的個(gè)數(shù)
p=q+r+s+t二元變量權(quán)重相同(對稱的,如性別)即:分子為兩者相異的總數(shù),分母為二元變量總數(shù)二元變量權(quán)重不同(非對稱的)例如,一個(gè)疾病化驗(yàn)結(jié)果正常和不正常,對一個(gè)群體,正常者總是大多數(shù),我們用1表現(xiàn)幾率小的情況,0表示另一種情況。評價(jià)系數(shù),Jaccard系數(shù)
即:兩個(gè)相異的數(shù)量作為分子,相異的數(shù)量加兩個(gè)為1的數(shù)量作為分母。(同對稱二元變量相比,兩個(gè)同為0的數(shù)量不出現(xiàn)在分母中)例:假定一個(gè)病人記錄表如下:姓名發(fā)燒咳嗽檢查1檢查2檢查3檢查4張明是否不正常正常正常正常王枚是否不正常正常不正常正常李力是是正常正常正常正?!?….….….….....…..例:假定一個(gè)病人記錄表如下:姓名發(fā)燒咳嗽檢查1檢查2檢查3檢查4張明是否不正常正常正常正常王枚是否不正常正常不正常正常李力是是正常正常正常正?!?….….….….....…..例:假定一個(gè)病人記錄表如下:姓名發(fā)燒咳嗽檢查1檢查2檢查3檢查4張明是否不正常正常正常正常王枚是否不正常正常不正常正常李力是是正常正常正常正?!?….….….….....…..從左邊的計(jì)算知道:(1)李力和王枚不大可能有相同疾病,因?yàn)橄喈惡芨撸唬?)張明和王枚最可能得相同的疾?。?)枚舉變量
可以有若干個(gè)不同取值,比如反映產(chǎn)品顏色的color可以是{紅、黃、綠、蘭、粉紅}
假設(shè)一個(gè)枚舉變量的狀態(tài)數(shù)目是M。這些狀態(tài)可以映射到字母、符號或一組整數(shù)(1,2,…,M)。p是全部變量的數(shù)目m是匹配的數(shù)目。(3)序數(shù)型變量是枚舉但有序,比如{金牌、銀牌、銅牌}
區(qū)間標(biāo)度度量值劃成了區(qū)間,比如年齡分成了年齡段{10
歲以下,11..20,21..30,..}等。一個(gè)序數(shù)型變量的值可以映射為秩。例如一個(gè)變量f可以有Mf個(gè)狀態(tài),可以映射到一個(gè)有序排列{1,2,…,Mf}。如何處理序數(shù)型變量?假設(shè)f是用于描述n個(gè)對象的一組序數(shù)型變量之一,關(guān)于f的相異度計(jì)算包括如下步驟:
1)第i個(gè)對象的f值為xif,變量f有Mf個(gè)有序的狀態(tài),對應(yīng)于序列1,…,Mf。用對應(yīng)的秩rif代替xif,rif{1,..,Mf}2)既然每個(gè)序數(shù)型變量可以有不同數(shù)目的狀態(tài),經(jīng)常必須將每個(gè)變量的值映射到[0.0,1.0]上,以便每個(gè)變量都有相同的權(quán)重??梢酝ㄟ^用zif代替rif來實(shí)現(xiàn)3)相異度的計(jì)算可以采用前面的任意一種距離度量方法(4)比例標(biāo)度型非線性的取正的數(shù)據(jù),如指數(shù)型數(shù)據(jù)。對數(shù)變換,對象i的f變量的值xif被變換成yif
,yif
=log(xif)將xif看成序數(shù)型數(shù)據(jù)6、混合類型的變量真實(shí)數(shù)據(jù)庫的元組的變量往往是混合的。處理方法為:(1)將變量按類型分組,對每種類型的變量進(jìn)行單獨(dú)的聚類分析。如果這些分析得到的結(jié)果是兼容的,則該方法是可行的。實(shí)際應(yīng)用中,這種情況比較少見。(2)將所有變量一起處理,只進(jìn)行一次聚類。將不同類型的變量組合在單個(gè)相異度矩陣中,把所有有意義的變量轉(zhuǎn)換到共同的值域區(qū)間[0.0,1.0]上。假設(shè)數(shù)據(jù)集包含p個(gè)不同類型的變量,對象i和j之間的相異度d(i,j)定義為:
其中,如果xif或xjf缺,或者xif=xjf=0,且變量f是不對稱的二元變量,則指示項(xiàng)=0;否則等于1。變量f對i和j之間相異的計(jì)算方式與其具體類型相關(guān):如果f是二元變量或枚舉變量:如果xif=xjf,,否則為1。如果f是區(qū)間標(biāo)度變量:如果f是虛數(shù)型或者比例標(biāo)度型變量:計(jì)算秩rif,在變換zif三、劃分方法劃分方法:將一個(gè)包含n個(gè)數(shù)據(jù)對象的數(shù)據(jù)庫組織成k個(gè)劃分(k<=n),其中每個(gè)劃分代表一個(gè)簇。給定一個(gè)k,要構(gòu)造出k個(gè)簇,并滿足采用的劃分準(zhǔn)則:k-平均
:由簇的中心來代表簇;k-中心點(diǎn):
每個(gè)簇由簇中的某個(gè)數(shù)據(jù)對象來代表。K-平均算法:把n個(gè)對象分為k個(gè)簇,是簇內(nèi)具有較高的相似度,而簇間的相似度較底。相似度的計(jì)算根據(jù)一個(gè)簇中對象的平均值(重心)來進(jìn)行。
流程:首先,隨機(jī)的抽取k個(gè)對象,每個(gè)對象初始地代表一個(gè)簇的平均值。對剩余的每個(gè)對象,根據(jù)與各個(gè)簇中心的距離,將它賦給最近的簇。然后重新計(jì)算各個(gè)簇的平均值。過程不斷反復(fù),直到準(zhǔn)則函數(shù)收斂。一般采用平方誤差準(zhǔn)則:這里,p是空間的點(diǎn),表示給定的對象,mi是簇Ci的平均值。例子初始點(diǎn)初始點(diǎn)K-中心點(diǎn):首先為每個(gè)簇隨意選擇一個(gè)代表;剩余的對象根據(jù)其與代表對象的距離分配給最近的一個(gè)簇。然后反復(fù)地用非代表對象代替代表對象,以改進(jìn)聚類質(zhì)量。質(zhì)量用一個(gè)代價(jià)函數(shù)估算。該函數(shù)計(jì)算對象與參照對象之間的平均相異度。(比如:代替后的點(diǎn)的平方誤差函數(shù)-原來的平方誤差函數(shù))描述:1)隨機(jī)選擇k個(gè)對象作為初始的中心點(diǎn);2)repeat3)指派每個(gè)剩余的對象給離它最近的中心點(diǎn)所代表的簇;4)隨機(jī)地選擇一個(gè)非中心點(diǎn)對象Orandom;5)計(jì)算用Orandom代替Oj的總代價(jià)S;6)ifS<0thenOrandom代替Oj
,形成新的k個(gè)中心點(diǎn)的集合;7)until不發(fā)生變化;
判定一個(gè)非代表對象Orandom是否是一個(gè)代表對象Oj的更好替代,對每個(gè)非中心點(diǎn)對象p,考慮下面四種情況:1)p當(dāng)前隸屬于中心點(diǎn)對象Oj。如果用Orandom代替它后,p離Oi更近,p重新分配給OiOiOjpOrandom
判定一個(gè)非代表對象Orandom是否是一個(gè)代表對象Oj的更好替代,對每個(gè)非中心點(diǎn)對象p,考慮下面四種情況:1)p當(dāng)前隸屬于中心點(diǎn)對象Oj。如果用Orandom代替它后,p離Oi更近,p重新分配給Oi。2)p當(dāng)前隸屬于中心點(diǎn)對象Oj。如果用Orandom代替它后,p離Orandom更近,p重新分配給Orandom
。OiOjpOrandom
判定一個(gè)非代表對象Orandom是否是一個(gè)代表對象Oj的更好替代,對每個(gè)非中心點(diǎn)對象p,考慮下面四種情況:1)p當(dāng)前隸屬于中心點(diǎn)對象Oj。如果用Orandom代替它后,p離Oi更近,p重新分配給Oi。2)p當(dāng)前隸屬于中心點(diǎn)對象Oj。如果用Orandom代替它后,p離Orandom更近,p重新分配給Orandom
。3)p當(dāng)前隸屬于中心點(diǎn)對象Oi。如果Oj被Orandom代替作為中心點(diǎn)后,而p仍然離Oi更近,那么對象的隸屬關(guān)系不變。OiOjpOrandom
判定一個(gè)非代表對象Orandom是否是一個(gè)代表對象Oj的更好替代,對每個(gè)非中心點(diǎn)對象p,考慮下面四種情況:1)p當(dāng)前隸屬于中心點(diǎn)對象Oj。如果用Orandom代替它后,p離Oi更近,p重新分配給Oi。2)p當(dāng)前隸屬于中心點(diǎn)對象Oj。如果用Orandom代替它后,p離Orandom更近,p重新分配給Orandom
。3)p當(dāng)前隸屬于中心點(diǎn)對象Oi。如果Oj被Orandom代替作為中心點(diǎn)后,而p仍然離Oi更近,那么對象的隸屬關(guān)系不變。4)p當(dāng)前隸屬于中心點(diǎn)對象Oi。如果Oj被Orandom代替作為中心點(diǎn)后,而p離Orandom更近,那么p重新分配給Orandom
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 交通銀行外匯融資合同樣本
- 中小學(xué)學(xué)生校園意外傷害賠償合同范本
- 國內(nèi)運(yùn)輸代理合同模板
- 銷售保健品合同范本
- 設(shè)備試用協(xié)議合同
- 個(gè)人資金借貸合同范本
- 個(gè)人房屋按揭貸款合同范本
- 個(gè)人住房擔(dān)保借款合同細(xì)則
- 個(gè)人房產(chǎn)抵押借款合同三方協(xié)議書
- 臨時(shí)雇傭合同書
- 2025年?duì)I口職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測試近5年??及鎱⒖碱}庫含答案解析
- 七年級歷史下冊第2課唐朝建立與貞觀之治
- 8.3+區(qū)域性國際組織+課件高中政治統(tǒng)編版選擇性必修一當(dāng)代國際政治與經(jīng)濟(jì)
- 2025年國網(wǎng)陜西省電力限公司高校畢業(yè)生招聘1100人(第二批)高頻重點(diǎn)提升(共500題)附帶答案詳解
- 《深度學(xué)習(xí)的7種有力策略》
- 2025年潞安化工集團(tuán)招聘筆試參考題庫含答案解析
- 李四光《看看我們的地球》原文閱讀
- 幼兒園一日生活安全課件
- 《認(rèn)罪認(rèn)罰案件被追訴人反悔應(yīng)對機(jī)制研究》
- 多旋翼無人飛行器嵌入式飛控開發(fā)實(shí)戰(zhàn)-基于STM32系列微控制器的代碼實(shí)現(xiàn)
- 國家開放大學(xué)護(hù)理社會實(shí)踐報(bào)告
評論
0/150
提交評論