0b924數(shù)據(jù)挖掘及應(yīng)用第7講聚類分析_第1頁
0b924數(shù)據(jù)挖掘及應(yīng)用第7講聚類分析_第2頁
0b924數(shù)據(jù)挖掘及應(yīng)用第7講聚類分析_第3頁
0b924數(shù)據(jù)挖掘及應(yīng)用第7講聚類分析_第4頁
0b924數(shù)據(jù)挖掘及應(yīng)用第7講聚類分析_第5頁
已閱讀5頁,還剩92頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第7 圖?聚類分析基?數(shù)據(jù)類型與距離計(jì)?離群點(diǎn)檢?聚類分析基?數(shù)據(jù)類型與距離計(jì)?離群點(diǎn)檢一個(gè)好的聚類分析方產(chǎn)生高質(zhì)量的聚類時(shí)能表現(xiàn)出高效數(shù)字型;二元類型,分類型/標(biāo)稱型,序數(shù)型,比例標(biāo)度型等對(duì) 數(shù)據(jù),參數(shù)很難決定,聚類的質(zhì)量也很難控對(duì)空缺值、離群點(diǎn)、數(shù)據(jù)噪聲不敏性的數(shù)據(jù)往往比較稀松,而且高度傾找到既滿足約束條件,又具有良好聚類特性的數(shù)據(jù)分聚類要和特定的 釋和應(yīng)用相聯(lián)?聚類分析基?數(shù)據(jù)類型與距離計(jì)?離群點(diǎn)檢 …區(qū)間標(biāo)度變二元變標(biāo)稱型、序數(shù)型和比例標(biāo)度型變混合類型的變qq

id(i,j)q(| i

|

xj2

...|

Object aObjecti ac bd

d(i,j) babcad(i,j)b abpd(i,j)pp紅綠藍(lán)黃0100綠0010藍(lán)比如:講師 、正教授1.設(shè)第i個(gè)對(duì)象的f值為xif,則用它在值中的序rif代

r{1,...,M2.將每個(gè)變量的值域映射到[0,1]的空

rif Mf3.采用區(qū)間標(biāo)度變量的相異度計(jì)算方法計(jì)算f的相異AeBtorAe- yif=將xif看作連續(xù)的序數(shù)型數(shù)據(jù)?聚類分析基?數(shù)據(jù)類型與距離計(jì)?離群點(diǎn)檢劃分方層次的方基于密度的方基于模型的方每個(gè)組至少包含一個(gè)每個(gè)對(duì)象屬于且僅屬于一個(gè)k中心點(diǎn)算自頂向下方法():開始將所有的對(duì)象置于一個(gè)簇中,在迭代的每一步,一個(gè)簇被為多個(gè)更小的簇,直到最終每個(gè)對(duì)象在一缺點(diǎn):合并或的步驟不能被撤 優(yōu)點(diǎn):可以過濾掉“噪聲”和“離群點(diǎn)”,發(fā)現(xiàn)任意形狀的這種方法同時(shí)也用于自動(dòng)的決定數(shù)據(jù)集中聚類的數(shù)隨機(jī)選擇k個(gè)對(duì)象,每個(gè)對(duì)象代表一個(gè)簇的初始均值或中計(jì)算每個(gè)簇的新均回到步驟2,循環(huán),直到準(zhǔn)則函數(shù)收

9879876543210 9876543210

98769876543210 9876543210

99876543210 用戶必須首先給定簇不適合發(fā)現(xiàn)非凸形狀的簇,或者大小差別很大的一個(gè)具有很 值的對(duì)象可能顯著 數(shù)據(jù)的分平方誤差函數(shù)將進(jìn)一步嚴(yán) 這種影降低算法對(duì)離群E pj pC 首先隨意選擇初+p+ +p+ 1.重新分配給 2.重新分配給++p ++p 3.不發(fā)生變 4.重新分配給總代價(jià)為負(fù),實(shí)際的絕對(duì)誤差E將減少,Oj可以被Orandom所取總代價(jià)為正,則本次迭代沒有變中心點(diǎn)較少的受離群點(diǎn)影k中心點(diǎn)方法:O(k(n-兩種方法都要用戶指定簇的數(shù)目 模型GaussianMixtureModel 每個(gè)樣本點(diǎn)是k 模型代表了一個(gè)類(Component樣本點(diǎn)在k 估計(jì)數(shù)據(jù)由每個(gè)Component生成的概率(并不是每個(gè)第i個(gè)Component生成的概率為 3、重新計(jì)算新生成的這個(gè)類與各個(gè)舊類之間的相似4、重復(fù)2和3直到所有樣本點(diǎn)都?xì)w為一類,結(jié)束GroupAverage-middle:取兩兩距離的中不易受到噪聲干傾向把大聚類分成小傾向球狀聚受噪音或異常點(diǎn)影響比較偏向球形聚 首先使用樹結(jié)構(gòu)對(duì)對(duì)象進(jìn)行層次劃分,形成微簇,然后再聚基于簇之間的關(guān)綜合簇的互聯(lián)性和近鄰DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)具有噪聲的基于密度的聚類應(yīng) 例如,ε=1cm,MinPts=5,q是一 對(duì)象 110240304421378

110240304421378點(diǎn)112無222無333無44553無新點(diǎn)加入簇6將點(diǎn)加入到簇C1中10,12}處理簇C1中的793無新點(diǎn)加入簇82無新點(diǎn)加入簇C1。簇C1完畢,繼續(xù)遍歷的963無782無新點(diǎn)加入簇21無通 距離和可達(dá)距離優(yōu)先密度高的點(diǎn)匯根據(jù)數(shù)據(jù)構(gòu)造一個(gè)Graph,Graph的每一個(gè)節(jié)點(diǎn)對(duì)應(yīng)一出來,記為W。 中的一個(gè)向量,并使用K-是原來Graph中的節(jié)點(diǎn)亦即最初的個(gè)數(shù)據(jù)點(diǎn)分別所屬的Minimum單點(diǎn)分割問 RatioNormalized如何選擇 ?聚類分析基?數(shù)據(jù)類型與距

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論