Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第2版 課件 第 8 章 聚類_第1頁
Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第2版 課件 第 8 章 聚類_第2頁
Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第2版 課件 第 8 章 聚類_第3頁
Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第2版 課件 第 8 章 聚類_第4頁
Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第2版 課件 第 8 章 聚類_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第8章聚類第8章聚類本章內(nèi)容聚類分析K-Means聚類層次聚類基于密度的聚類其他聚類方法聚類評(píng)估10十一月20242第8章聚類3無監(jiān)督學(xué)習(xí)(UnsuperviseLearning)著重于發(fā)現(xiàn)數(shù)據(jù)本身的分布特點(diǎn)。與監(jiān)督學(xué)習(xí)(SupervisedLearning)不同,無監(jiān)督學(xué)習(xí)不需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)記。從功能角度講,無監(jiān)督學(xué)習(xí)模型可以發(fā)現(xiàn)數(shù)據(jù)的“群落”,同時(shí)也可以尋找“離群”的樣本。另外,對(duì)于特征維度非常高的數(shù)據(jù)樣本,同樣可以通過無監(jiān)督學(xué)習(xí)進(jìn)行數(shù)據(jù)降維,保留最具有區(qū)分性的低維度特征。聚類是一個(gè)將數(shù)據(jù)對(duì)象集劃分為多個(gè)組或簇的過程,使得簇內(nèi)的數(shù)據(jù)對(duì)象具有很高的相似性,但不同簇間的對(duì)象具有很高的相異性。第8章聚類4聚類算法分類隨著聚類分析技術(shù)的蓬勃發(fā)展,目前已有很多類型的聚類算法。但很難對(duì)聚類方法進(jìn)行簡單的分類,因?yàn)檫@些類別的聚類可能重疊,從而使得一種方法具有一些交叉的特征。一般而言,聚類算法被劃分為以下幾類:1.劃分方法2.基于層次的方法3.基于密度的方法4.局域網(wǎng)格的方法K-Means聚類聚類分析中最廣泛使用的算法為K-Means聚類算法。10十一月20245給定一個(gè)n個(gè)對(duì)象或元組的數(shù)據(jù)庫,一個(gè)劃分方法構(gòu)建數(shù)據(jù)的k個(gè)劃分,每個(gè)劃分表示一個(gè)簇,k<=n,而且滿足:(1)每個(gè)組至少包含一個(gè)對(duì)象;(2)每個(gè)對(duì)象屬于且僅屬于一個(gè)組。劃分時(shí)要求同一個(gè)聚類中的對(duì)象盡可能地接近或相關(guān),不同聚類中的對(duì)象盡可能地遠(yuǎn)離或不同。K-Means算法是一個(gè)迭代的優(yōu)化算法,最終使得下面均方誤差最小。

K-Means聚類K-Means算法:10十一月20246用于劃分的K-Means算法,其中每個(gè)簇的中心都用簇中所有對(duì)象的均值來表示。K-Means聚類模型所采用的迭代算法直觀易懂且非常實(shí)用。但是具有容易收斂到局部最優(yōu)解和需要預(yù)先設(shè)定簇的數(shù)量的缺陷。K-Means聚類7K=2隨機(jī)劃分更新聚類中心更新聚類中心指派對(duì)象類標(biāo)號(hào)Loopifneeded初始數(shù)據(jù)集k均值算法的評(píng)論優(yōu)點(diǎn):可擴(kuò)展性較好,算法復(fù)雜度為O(nkt),其中n為對(duì)象總數(shù),k是簇的個(gè)數(shù),t是迭代次數(shù)。經(jīng)常終止于局部最優(yōu)解k均值算法的評(píng)論缺點(diǎn)只有當(dāng)簇均值有定義的情況下,k均值方法才能使用。(某些分類屬性的均值可能沒有定義)用戶必須首先給定簇?cái)?shù)目不適合發(fā)現(xiàn)非凸形狀的簇,或者大小差別很大的簇對(duì)噪聲和離群點(diǎn)數(shù)據(jù)敏感k均值算法實(shí)現(xiàn)fromsklearn.datasetsimportload_irisfromsklearn.clusterimportKMeansiris=load_iris()#加載數(shù)據(jù)集X=iris.dataestimator=KMeans(n_clusters=3)#構(gòu)造K-Means聚類模型estimator.fit(X)#數(shù)據(jù)導(dǎo)入模型進(jìn)行訓(xùn)練label_pred=estimator.labels_#獲取聚類標(biāo)簽print(label_pred)#顯示各個(gè)樣本所屬的類別標(biāo)簽[111111111111111111111111111111111111111111111111110020000000000000000000000002000000000000000000000020222202222220022220202022002222202222022202220220]11/10/2024k均值方法的變種k均值方法有些變種,他們的區(qū)別在于不同的初始k個(gè)均值的選擇不同的相異度計(jì)算不同的計(jì)算簇均值的策略k均值方法的變種聚類分類數(shù)據(jù)的方法:k眾數(shù)(mode)方法用眾數(shù)來替代簇的均值采用新的相異性度量處理分類對(duì)象采用基于頻率的方法更新簇的眾數(shù)可以集成k均值和k眾數(shù)方法,對(duì)具有數(shù)值和分類值的數(shù)據(jù)進(jìn)行聚類K-Means聚類K-Means算法改進(jìn):1.K-means++算法K-means算法初始時(shí)隨機(jī)選取數(shù)據(jù)集中K個(gè)點(diǎn)作為聚類中心,不同的初始聚類中心可能導(dǎo)致完全不同的聚類結(jié)果。K-means++算法初始的聚類中心之間的相互距離要盡可能的遠(yuǎn)。10十一月202413K-Means聚類K-Means算法改進(jìn):2.ISODATA算法ISODATA的全稱是迭代自組織數(shù)據(jù)分析法,是在K-means算法的基礎(chǔ)上,增加對(duì)聚類結(jié)果的“合并”和“分裂”兩個(gè)操作,當(dāng)屬于某個(gè)類別的樣本數(shù)過少時(shí)則刪除該類,當(dāng)屬于某個(gè)類別的樣本數(shù)過多、分散程度較大時(shí),把這個(gè)類分裂為兩個(gè)子類別。10十一月202414K-Means聚類K-Means算法改進(jìn):3.MiniBatch-KMeansMiniBatch-KMeans是一種能盡量保持聚類準(zhǔn)確性但能大幅度降低計(jì)算時(shí)間的聚類模型。MiniBatch-KMeans聚類每次迭代并不采用所有樣本,而是每次等量采樣獲得小的樣本集并把小樣本集中的樣本劃歸到距離最近的中心所在的簇,然后進(jìn)行聚類中心點(diǎn)的更新。與K-Means算法相比,簇中心點(diǎn)的更新是在每個(gè)小的樣本集上。MiniBatch-KMeans可以大大減少算法運(yùn)行時(shí)間,但產(chǎn)生的聚類效果只是略低與K-Means算法,適合于極大數(shù)據(jù)量的聚類分析。10十一月2024153.層次聚類算法原理層次聚類(HierarchicalClustering)就是按照某種方法進(jìn)行層次分類,直到滿足某種條件為止。層次聚類主要分成兩類:凝聚:從下到上。首先將每個(gè)對(duì)象作為一個(gè)簇,然后合并這些原子簇為越來越大的簇,直到所有的對(duì)象都在一個(gè)簇中,或者滿足某個(gè)終結(jié)條件。分裂:從上到下。首先將所有對(duì)象置于同一個(gè)簇中,然后逐漸細(xì)分為越來越小的簇,直到每個(gè)對(duì)象自成一簇,或者達(dá)到了某個(gè)終止條件。10十一月2024163.層次聚類簇間距離度量1.最短距離法(最大相似度)最短距離被定義為兩個(gè)類中最靠近的兩個(gè)對(duì)象間的距離為簇間距離。2.最長距離法(最小相似度)最長距離被定義為兩個(gè)類中最遠(yuǎn)的像個(gè)對(duì)象間的距離為簇間距離。10十一月2024173.層次聚類簇間距離度量3.類平均法計(jì)算兩類中任意兩個(gè)對(duì)象間的距離的平均值作為簇間距離4.中心法定義兩類的兩個(gè)中心點(diǎn)的距離為簇間距離。10十一月2024183.層次聚類分裂層次聚類DIANA分裂的層次聚類方法使用自頂向下的策略把對(duì)象劃分到層次結(jié)構(gòu)中。從包含所有對(duì)象的簇開始,每一步分裂一個(gè)簇,直到僅剩單點(diǎn)簇或者滿足用戶指定的簇?cái)?shù)為止。DIANA算法是典型的層次分裂聚類算法。DIANA算法中用到如下兩個(gè)定義:簇的直徑:計(jì)算一個(gè)簇中任意兩個(gè)數(shù)據(jù)點(diǎn)之間的歐式距離,選取距離中的最大值作為簇的直徑。平均相異度:兩個(gè)數(shù)據(jù)點(diǎn)之間的平均距離。10十一月2024193.層次聚類DIANA算法描述:10十一月2024203.層次聚類凝聚層次聚類AGNES凝聚的層次聚類方法使用自底向上的策略把對(duì)象組織到層次結(jié)構(gòu)中。開始時(shí)以每個(gè)對(duì)象作為一個(gè)簇,每一步合并兩個(gè)最相似的簇。AGNES算法是典型的凝聚層次聚類,起始將每個(gè)對(duì)象作為一個(gè)簇,然后根據(jù)合并準(zhǔn)則逐步合并這些簇。兩個(gè)簇間的相似度由這兩個(gè)不同簇中距離最近的數(shù)據(jù)點(diǎn)的相似度確定。聚類的合并過程反復(fù)進(jìn)行直到所有對(duì)象最終滿足終止條件設(shè)置的簇?cái)?shù)目。10十一月2024213.層次聚類凝聚層次聚類AGNES10十一月2024223.層次聚類凝聚層次聚類AGNES10十一月2024233.層次聚類凝聚層次聚類AGNES10十一月2024243.層次聚類層次聚類應(yīng)用Python中層次聚類的函數(shù)是AgglomerativeClustering(),最重要的參數(shù)有3個(gè):n_clusters為聚類數(shù)目,affinity為樣本距離定義,linkage是類間距離的定義,有3種取值:ward:組間距離等于兩類對(duì)象之間的最小距離average:組間距離等于兩組對(duì)象之間的平均距離complete:組間距離等于兩組對(duì)象之間的最大距離10十一月2024254基于密度的聚類Generateclustersofarbitraryshapes.Robustagainstnoise.NoKvaluerequiredinadvance.Somewhatsimilartohumanvision.26劃分和層次方法旨在發(fā)現(xiàn)球狀簇,很難發(fā)現(xiàn)任意形狀的簇。4基于密度的聚類基于密度的聚類算法的主要思想是:只要鄰近區(qū)域的密度(對(duì)象或數(shù)據(jù)點(diǎn)的數(shù)目)超過某個(gè)閾值

,就把它加到與之相近的聚類中。也就是說,對(duì)給定類中的每個(gè)數(shù)據(jù)點(diǎn),在一個(gè)給定范圍的區(qū)域中必須至少包含某個(gè)數(shù)目的點(diǎn)。基于密度的聚類算法代表算法有:DBSCAN算法、OPTICS算法及DENCLUE算法等。

10十一月2024274基于密度的聚類兩個(gè)參數(shù):Eps:鄰域最大半徑MinPts:在Eps鄰域中的最少點(diǎn)數(shù)定義1(Eps鄰域)

給定一個(gè)對(duì)象

p,p的Eps鄰域

NEps(p)定義為以

p為核心,以Eps為半徑的d維超球體區(qū)域,即:其中,D為d維實(shí)空間上的數(shù)據(jù)集,dist(p,q)表示D中的2個(gè)對(duì)象p和q之間的距離。284基于密度的聚類DBSCAN算法涉及2個(gè)參數(shù)5個(gè)定義:10十一月2024292個(gè)參數(shù):Eps:鄰域最大半徑MinPts:在Eps鄰域中的最少點(diǎn)數(shù)5個(gè)定義見表:定義內(nèi)容Eps鄰域給定一個(gè)對(duì)象

p,p的Eps鄰域

NEps(p)定義為以

p為核心,以Eps為半徑的d維超球體區(qū)域核心點(diǎn)與邊界點(diǎn)對(duì)于對(duì)象p∈D,給定一個(gè)整數(shù)MinPts,如果p的Eps鄰域內(nèi)的對(duì)象數(shù)滿足|NEps(p)|≥MinPts

,則稱p為(Eps,MinPts)條件下的核心點(diǎn);不是核心點(diǎn)但落在某個(gè)核心點(diǎn)的Eps鄰域內(nèi)的對(duì)象稱為邊界點(diǎn)4基于密度的聚類10十一月202430直接密度可達(dá)給定

(Eps,MinPts),如果對(duì)象p和

q同時(shí)滿足如下條件:p∈NEps(q);|NEps(q)|≥MinPts

(即q是核心點(diǎn)),則稱對(duì)象

p是從對(duì)象

q出發(fā),直接密度可達(dá)的密度可達(dá)給定數(shù)據(jù)集D,當(dāng)存在一個(gè)對(duì)象鏈

p1,p2,p3,…,pn,

其中

p1=q,

pN=

p,對(duì)于

pi∈D,如果在條件(Eps,MinPts)下pi+1從pi

直接密度可達(dá),則稱對(duì)象p從對(duì)象q在條件

(Eps,MinPts)下密度可達(dá)密度相連如果數(shù)據(jù)集D中存在一個(gè)對(duì)象o,使得對(duì)象p和q是從o在

(Eps,MinPts)條件下密度可達(dá)的,那么稱對(duì)象p和q在

(Eps,MinPts)條件下密度相連定義2(核心點(diǎn)與邊界點(diǎn))

對(duì)于對(duì)象p∈D,給定一個(gè)整數(shù)MinPts,如果p的Eps鄰域內(nèi)的對(duì)象數(shù)滿足|NEps(p)|≥MinPts

,則稱p為(Eps,MinPts)條件下的核心點(diǎn);不是核心點(diǎn)但落在某個(gè)核心點(diǎn)的Eps鄰域內(nèi)的對(duì)象稱為邊界點(diǎn)。

CorePointNoisePointBorderPoint4基于密度的聚類4基于密度的聚類定義3(直接密度可達(dá))

如圖所示,給定(Eps,MinPts),如果對(duì)象

p和

q同時(shí)滿足如下條件:p∈NEps(q);|NEps(q)|≥MinPts

(即q是核心點(diǎn)),

則稱對(duì)象

p是從對(duì)象

q出發(fā),直接密度可達(dá)的。定義4(密度可達(dá))

如圖所示,給定數(shù)據(jù)集D,當(dāng)存在一個(gè)對(duì)象鏈

p1,p2,p3,…,pn,

其中

p1=q,

pN=

p,對(duì)于

pi∈D,如果在條件(Eps,MinPts)下

pi+1從pi

直接密度可達(dá),則稱對(duì)象p從對(duì)象q在條件(Eps,MinPts)下密度可達(dá)。密度可達(dá)是非對(duì)稱的,即p從q密度可達(dá)不能推出q也從p密度可達(dá)。

4基于密度的聚類定義5(密度相連)

如圖所示,如果數(shù)據(jù)集D中存在一個(gè)對(duì)象o,使得對(duì)象p和q是從o在(Eps,MinPts)條件下密度可達(dá)的,那么稱對(duì)象p和q在(Eps,MinPts)條件下密度相連。密度相連是對(duì)稱的。4基于密度的聚類4基于密度的聚類35pqdirectlydensityreachablepqdensityreachableoqpdensityconnected4基于密度的聚類DBSCAN算法描述:10十一月202436輸入:Eps、MinPts和包含n個(gè)對(duì)象的數(shù)據(jù)庫。

輸出:基于密度的聚類結(jié)果。

方法:(1)任意選取一個(gè)沒有加簇標(biāo)簽的點(diǎn)p;(2)得到所有從p關(guān)于

Eps和

MinPts密度可達(dá)的點(diǎn);(3)如果p是一個(gè)核心點(diǎn),形成一個(gè)新的簇,給簇內(nèi)所有對(duì)象點(diǎn)加簇標(biāo)簽;(4)如果p是一個(gè)邊界點(diǎn),沒有從p密度可達(dá)的點(diǎn),DBSCAN將訪問數(shù)據(jù)庫中的下一個(gè)點(diǎn);(5)繼續(xù)這一過程,直到數(shù)據(jù)庫中所有的點(diǎn)都被處理。-鄰域?qū)ふ揖垲悾瑢⒕哂凶銐蚋呙芏鹊膮^(qū)域劃分為簇,并可以在帶有“噪聲”的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類。但是,DBSCAN算法對(duì)用戶設(shè)置的參數(shù)敏感,Eps和MinPts的設(shè)置會(huì)影響聚類的效果。針對(duì)這一問題,OPTICS(OrderingPointstoIdentifytheClusteringStructure)算法被提出,它通過引入核心距離和可達(dá)距離,使得聚類算法對(duì)輸入的參數(shù)不敏感。

4基于密度的聚類10十一月202437DBSCAN需要對(duì)數(shù)據(jù)集中的每個(gè)對(duì)象進(jìn)行考察,通過檢查每個(gè)點(diǎn)的4基于密度的聚類算法實(shí)現(xiàn)課本例8-3利用sklearn實(shí)現(xiàn):11/10/2024importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportDBSCANfromsklearnimportdatasetsiris=datasets.load_iris()data=iris.datadbscan=DBSCAN(eps=0.4,min_samples=10,metric='euclidean')dbscan.fit(data)label_pred=dbscan.labels_5其他聚類方法除了常用的劃分聚類、層次聚類和密度聚類方法之外,還有一些聚類方法如網(wǎng)格聚類方法STING、概念聚類COBWEB和模糊聚類方法等。1.STING算法STING(StatisticalInformationGrid_basedMethod)是一種基于網(wǎng)格的多分辨率的聚類技術(shù),它將輸入對(duì)象的空間區(qū)域劃分成矩形單元,空間可以用分層和遞歸方法進(jìn)行劃分。這種多層矩形單元對(duì)應(yīng)不同的分辨率,并且形成一個(gè)層次結(jié)構(gòu),每個(gè)高層單元被劃分為低一層的單元。有關(guān)每個(gè)網(wǎng)格單元的屬性的統(tǒng)計(jì)信息(如均值、最大值和最小值)被作為統(tǒng)計(jì)參數(shù)預(yù)先計(jì)算和存儲(chǔ)。10十一月2024395其他聚類方法除了常用的劃分聚類、層次聚類和密度聚類方法之外,還有一些聚類方法如網(wǎng)格聚類方法STING、概念聚類COBWEB和模糊聚類方法等。2COBWEB概念聚類是機(jī)器學(xué)習(xí)中的一種聚類算法。大多數(shù)的概念聚類方法采用了統(tǒng)計(jì)學(xué)方法,在決定概念或聚類時(shí)使用概率度量。COBWEB算法即簡單增量概念聚類算法,以一個(gè)分類樹的形式創(chuàng)建層次聚類,它的輸入對(duì)象用分類屬性-值對(duì)進(jìn)行描述。10十一月2024405其他聚類方法3模糊聚類10十一月202441模糊C均值聚類(FuzzyC-means,F(xiàn)CM)融合了模糊理論的精髓。相較于K-means的硬聚類,F(xiàn)CM聚類提供了更加靈活的聚類結(jié)果,它對(duì)每個(gè)對(duì)象和每個(gè)簇賦予一個(gè)權(quán)值,指明對(duì)象屬于該簇的程度(隸屬度)。5其他聚類方法3模糊聚類10十一月202442采用拉格朗日乘數(shù)法,求解得到參數(shù)的更新值:5其他聚類方法3模糊聚類10十一月202443輸入:數(shù)據(jù)樣本X輸出:每個(gè)樣本屬于的隸屬度及聚類中心過程:(1)設(shè)置初始值:算法迭代時(shí)目標(biāo)函數(shù)的精度閾值,模糊度和迭代的最大次數(shù);(2)初始化聚類中心和隸屬度矩陣;(3)使用公式8.9-8.10更新隸屬度矩陣

和聚類中心

;(4)加入

或迭代次數(shù)

結(jié)束迭代過程,否則轉(zhuǎn)步驟(3);5其他聚類方法Python中提供了模糊運(yùn)算的包scikit-fuzzy,簡稱skfuzzy,初次使用時(shí)需要安裝。skfuzzy中包含了FCM聚類方法:center,u,u0,d,jm,p,fpc=cmeans(x.T,m=2,c=k,error=0.5,maxiter=1000)其中的主要參數(shù)u是最終的隸屬度矩陣,u0是初始化隸屬度矩陣,d是每個(gè)數(shù)據(jù)到各個(gè)中心的歐式距離矩陣,jm是目標(biāo)函數(shù)優(yōu)化,p是迭代次數(shù),fpc是評(píng)價(jià)指標(biāo),0表示最差、1最好。11/10/20245其他聚類方法11/10/20245其他聚類方法11/10/20245其他聚類方法11/10/20245其他聚類方法11/10/20245其他聚類方法11/10/2024在sklearn中利用GaussianMixture方法實(shí)現(xiàn)高斯混合聚類,主要參數(shù)有n_components、covariance_type和max_iter。其中,n_components表示高斯混合模型的個(gè)數(shù),即要聚類的個(gè)數(shù),默認(rèn)值為1;max_iter代表最大迭代次數(shù),默認(rèn)值為100;covariance_type代表協(xié)方差類型。X,lables_true=make_blobs(n_samples=n_samples,centers=centers,cluster_std=0.8,random_state=71)gmm=GaussianMixture(n_components=3,random_state=23)gmm.fit(X)gmm_labels=gmm.predict(X)gmm_silhouette_score=silhouette_score(X,gmm_labels)print("高斯混合模型聚類性能:")print("輪廓系數(shù):{:.4f}".format(gmm_silhouette_score))5其他聚類方法11/10/20245其他聚類方法11/10/20245其他聚類方法11/10/20246.聚類評(píng)估聚類評(píng)估用于對(duì)在數(shù)據(jù)集上進(jìn)行聚類的可行性和被聚類方法產(chǎn)生的結(jié)果的質(zhì)量進(jìn)行評(píng)估。聚類評(píng)估主要包括以下任務(wù):1.估計(jì)聚類趨勢(shì)2.確定數(shù)據(jù)集中的劃分簇?cái)?shù)3.測定聚類質(zhì)量10十一月2024536.聚類評(píng)估1聚類趨勢(shì)的估計(jì)10十一月202454如果D是均勻分布的,H接近0.5.6.聚類評(píng)估2聚類簇?cái)?shù)的確定找出正確的簇?cái)?shù)依賴于數(shù)據(jù)集分布的形狀和尺度,也依賴于用戶要求的聚類分辨率。有許多估計(jì)簇?cái)?shù)的可能方法。這里簡略介紹幾種簡單但流行和有效的方法。10十一月2024556.聚類評(píng)估10十一月202456拐點(diǎn)法基于如下觀察:增加簇?cái)?shù)有助于降低每個(gè)簇的簇內(nèi)方差之和。這是因?yàn)橛懈嗟拇乜梢圆东@更細(xì)的數(shù)據(jù)對(duì)象簇,簇中對(duì)象之間更為相似。然而,如果形成太多的簇,則降低簇內(nèi)方差和的邊緣效應(yīng)可能下降,因?yàn)榘岩粋€(gè)凝聚的簇分裂成兩個(gè)簇只能使簇內(nèi)方差和的稍微降低。因此,一種選擇正確的簇?cái)?shù)啟發(fā)式方法是使用簇內(nèi)方差和關(guān)于簇?cái)?shù)曲線的拐點(diǎn)。6.聚類評(píng)估10十一月202457肘方法的核心思想是:隨著聚類數(shù)K的增大,樣本劃分會(huì)更加精細(xì),每個(gè)簇的聚合程度會(huì)逐漸提高,那么誤差平方和SSE自然會(huì)逐漸變小。并且,當(dāng)K小于真實(shí)聚類數(shù)時(shí),由于K的增大會(huì)大幅增加每個(gè)簇的聚合程度,故SSE的下降幅度會(huì)很大,而當(dāng)K到達(dá)真實(shí)聚類數(shù)時(shí),再增加K所得到的聚合程度回報(bào)會(huì)迅速變小,所以SSE的下降幅度會(huì)驟減,然后隨著K值的繼續(xù)增大而趨于平緩,也就是說SSE和K的關(guān)系圖是一個(gè)手肘的形狀,而這個(gè)肘部對(duì)應(yīng)的K值就是數(shù)據(jù)的真實(shí)聚類數(shù)。6.聚類評(píng)估聚類質(zhì)量的測定1.外在方法有許多度量(如熵、純度、精度、召回率和F度量)用來評(píng)估分類模型的性能。對(duì)于分類,度量預(yù)測的類標(biāo)號(hào)與實(shí)際類標(biāo)號(hào)的對(duì)應(yīng)程度。但是這些度量通過使用簇標(biāo)號(hào)而不是預(yù)測的類標(biāo)號(hào),不需要做較大的改變。蘭德系數(shù)RI和ARI:

10十一月20

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論