原創(chuàng)R語言聚類分析k-means和層次聚類附代碼數(shù)據(jù)_第1頁
原創(chuàng)R語言聚類分析k-means和層次聚類附代碼數(shù)據(jù)_第2頁
原創(chuàng)R語言聚類分析k-means和層次聚類附代碼數(shù)據(jù)_第3頁
原創(chuàng)R語言聚類分析k-means和層次聚類附代碼數(shù)據(jù)_第4頁
原創(chuàng)R語言聚類分析k-means和層次聚類附代碼數(shù)據(jù)_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、機器學習算法主要都是分類和回歸,這兩類的應用場景都很清晰,就是對分類型變量或者數(shù)值型變量的預測。聚類分析是一種根據(jù)樣本之間的距離或者說是相似性(親疏性),把越相似、差異越小的樣本聚成一類(簇),最后形成多個簇,使同一個簇內部的樣本相似度高,不同簇之間差異性高。有人不理解分類和聚類的差別,其實這個很簡單:分類是一個已知具體有幾種情況的變量,預測它到底是哪種情況;聚類則是盡量把類似的樣本聚在一起,不同的樣本分開。舉個例子,一個人你判斷他是男是女這是分類,讓男人站一排女人站一排這是聚類。聚類分析算法很多,比較經(jīng)典的有k-means和層次聚類法。k-meansk-means聚類分析算法k-meansk

2、-means 的 k k 就是最終聚集的簇數(shù),這個要你事先自己指定。k-meansk-means 在常見的機器學習算法中算是相當簡單的,基本過程如下:.首先任?。銢]看錯,就是任?。﹌ k 個樣本點作為 k k 個簇的初始中心;.對每一個樣本點,計算它們與 k k 個中心的距離,把它歸入距離最小的中心所在的簇;,等到所有的樣本點歸類完畢,重新計算 k k 個簇的中心;,重復以上過程直至樣本點歸入的簇不再變動。k-meansk-means 的聚類過程演示如下:DataStepDataStep1 1rteratlonrteratlon1,1,Step2aStep2aIteration1.Step2

3、bderationIteration1.Step2bderation2 2f fStep2aFinalResultsStep2aFinalResultsk-means聚類過程k-meansk-means 聚類分析的原理雖然簡單,但缺點也比較明顯:.首先聚成幾類這個 k k 值你要自己定,但在對數(shù)據(jù)一無所知的情況下你自己也不知道 k k 應該定多少;,初始質心也要自己選,而這個初始質心直接決定最終的聚類效果;,每一次迭代都要重新計算各個點與質心的距離,然后排序,時間成本較高。值得一提的是,計算距離的方式有很多種,不一定非得是笛卡爾距離;計算距離前要歸一化。層次聚類法盡管 k-meansk-mea

4、ns 的原理很簡單,然而層次聚類法的原理更簡單。它的基本過程如下:,每一個樣本點視為一個簇;計算各個簇之間的距離,最近的兩個簇聚合成一個新簇;重復以上過程直至最后只有一簇。層次聚類不指定具體的簇數(shù),而只關注簇之間的遠近,最終會形成一個樹形圖通過這張樹形圖,無論想劃分成幾個簇都可以很快地劃出。以下以癌細胞細據(jù)為例,演示 K-meansK-means 和層次聚類法的過程。library(ISLR)nci.labels=NCI60$labsnci.data=NCI60$datasd.data=scale(nci.data)data.dist=dist(sd.data)plot(hclust(data

5、.dist),labels=nci.labels,main=CompleteLinkage,xlab=,sub=,ylab=)#默認按最長距離聚類plot(hclust(data.dist,method=average),labels=nci.labels,main=AverageLinkage,xlab=,sub=,ylab=)#類平均法plot(hclust(data.dist),labels=nci.labels,main=SingleLinkage,xlab=,sub=,ylab二)#最短距離法CompleteLintCompleteLintI010SNszoX-rszozs0rNMO

6、NXNn,NLOWNWBOKSNIO1OSNWONKWrWNWY2OSNIHC04山比CDWN 山 H1-GN。-1wzoLI154w蠱ls4 山比AverageLinkAverageLinkNMONXNnIz50CHOSNzE0zE0Ip-WON4HH1-ONqlLUN-14z0N41山運-MamrHwsamI5OZ5乏 ON,山至JJszNO180島.。工ls山ocmdqzLLOHHlljxnw,009SingleLinkage可見選擇不同的距離指標,最終的聚類效果也不同。其中最長距離和類平均距離用得比較多,因為產生的譜系圖較為均衡。#指定聚類數(shù)hc.out=hclust(dist(sd.data)hc.clusters=cutree(hc.outj)table(hc.clusters,nci.labels)nci.labelshc.clustersBREASTCNSCOLONK562A-reproK562B-reproLEUKEMIAMCF7A-repro12320000SingleLinkaSingleLinka一嗑二LcIQ1OSNj-SNOSNOSNOudsNl-zs0NMONXNrlINN 山支I|who

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論