版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)聚類(lèi)思想與K-均值聚類(lèi)K-均值聚類(lèi)應(yīng)用舉例聚類(lèi)思想第5章
聚類(lèi)分析主要是使類(lèi)內(nèi)的樣本盡可能相似,而類(lèi)之間的樣本盡可能相異。聚類(lèi)問(wèn)題的一般提法是,設(shè)有n個(gè)樣本的
維觀測(cè)數(shù)據(jù)組成一個(gè)數(shù)據(jù)矩陣為:其中,每一行表示一個(gè)樣本,每一列表示一個(gè)指標(biāo),xij表示第i個(gè)樣本關(guān)于第j項(xiàng)指標(biāo)的觀測(cè)值,并根據(jù)觀測(cè)值矩陣X對(duì)樣本進(jìn)行聚類(lèi)。聚類(lèi)分析的基本思想是:在樣本之間定義距離,距離表明樣本之間的相似度,距離越小,相似度越高,關(guān)系越緊密;將關(guān)系密切的聚集為一類(lèi),關(guān)系疏遠(yuǎn)的聚集為另一類(lèi),直到所有樣本都聚集完畢。K-均值聚類(lèi)方法第5章
K-均值聚類(lèi)是一種基于原型的、根據(jù)距離劃分組的算法,其時(shí)間復(fù)雜度比其他聚類(lèi)算法低,用戶需指定劃分組的個(gè)數(shù)K。其中,K-均值聚類(lèi)常見(jiàn)距離測(cè)度包括歐幾里得距離(也稱歐氏距離)、曼哈頓距離、切比雪夫距離等。K-均值聚類(lèi)默認(rèn)采用歐氏距離進(jìn)行計(jì)算,其公式如下:(表示第個(gè)i樣本與第個(gè)j樣本之間的歐氏距離)K-均值聚類(lèi)算法的直觀理解如下:Step1:隨機(jī)初始化K個(gè)聚類(lèi)中心,即K個(gè)類(lèi)中心向量。Step2:對(duì)每個(gè)樣本,計(jì)算其與各個(gè)類(lèi)中心向量的距離,并將該樣本指派給距離最小的類(lèi)。Step3:更新每個(gè)類(lèi)的中心向量,更新的方法為取該類(lèi)所有樣本的特征向量均值。Step4:直到各個(gè)類(lèi)的中心向量不再發(fā)生變化為止,作為退出條件。K-均值聚類(lèi)方法第5章
xi1.51.71.62.12.22.42.51.8yi2.51.32.26.25.27.16.81.9將8個(gè)數(shù)據(jù)樣本聚為兩類(lèi),其算法執(zhí)行如下Step1:初始化兩個(gè)類(lèi)的聚類(lèi)中心,這里取前兩個(gè)樣本分別為聚類(lèi)中心。C1=(1.5,2.5),C2=(1.7,1.3)到達(dá)C1的距離:0
1.22
0.32
3.75
2.79
4.69
4.41
0.67到達(dá)C2的距離:1.22
0
0.91
4.92
3.93
5.84
5.56
0.61各樣本所屬類(lèi):
1
2
1
1
1
1
1
2Step2:分別計(jì)算每個(gè)樣本到達(dá)各個(gè)聚類(lèi)中心的距離:Step3:更新聚類(lèi)中心,更新方法為計(jì)算所屬類(lèi)的特征向量的均值C1=((1.5+1.6+2.1+2.2+2.4+2.5)/6,(2.5+2.2+6.2+5.2+7.1+6.8)/6)=(2.05,5)C2=((1.7+1.8)/2,(1.3+1.9)/2)=(1.75,1.6)K-均值聚類(lèi)方法第5章
xi1.51.71.62.12.22.42.51.8yi2.51.32.26.25.27.16.81.9將8個(gè)數(shù)據(jù)樣本聚為兩類(lèi),其算法執(zhí)行如下返回Step2,重新計(jì)算各樣本到達(dá)各聚類(lèi)中心的距離。到達(dá)C1的距離:2.56
3.72
2.84
1.2
0.25
2.13
1.86
3.11到達(dá)C2的距離:0.93
0.3
0.62
4.61
3.63
5.54
5.25
0.3各樣本所屬類(lèi):
2
2
2
1
1
1
1
2同理更新聚類(lèi)中心得C1=(2.3,6.325)C2=(1.65,1.975)返回Step2,重新計(jì)算各樣本到達(dá)各聚類(lèi)中心的距離。到達(dá)C1的距離:3.91
5.06
4.18
0.24
1.13
0.78
0.52
4.45到達(dá)C2的距離:0.55
0.68
0.23
4.25
3.27
5.18
4.9
0.17各樣本所屬類(lèi):
2
2
2
1
1
1
1
2同理更新聚類(lèi)中心得C1=(2.3,6.325)C2=(1.65,1.975)Step4:這里我們發(fā)現(xiàn),聚類(lèi)中心不再發(fā)生變化,而且類(lèi)歸屬也沒(méi)有發(fā)生變化。其實(shí)正是因?yàn)轭?lèi)歸屬?zèng)]有發(fā)生變化,才導(dǎo)致了聚類(lèi)中心不再發(fā)生變化,達(dá)到算法終止條件。故樣本1、2、3、8歸為一類(lèi),樣本4、5、6、7歸為另一類(lèi)。K-均值聚類(lèi)算法應(yīng)用舉例第5章
對(duì)表所示的31個(gè)地區(qū)2016年農(nóng)村居民人均可支配收入情況做聚類(lèi)分析地區(qū)工資性收入(X1)經(jīng)營(yíng)凈收入(X2)財(cái)產(chǎn)凈收入(X3)轉(zhuǎn)移凈收入(X4)北京16637.52061.91350.12260天津12048.15309.4893.71824.4河北6263.23970257.51428.6山西5204.42729.91491999.1內(nèi)蒙古2448.96215.7452.62491.7…………………………1.?dāng)?shù)據(jù)獲取及標(biāo)準(zhǔn)化處理importpandasaspddata=pd.read_excel('農(nóng)村居民人均可支配收入來(lái)源2016.xlsx')X=data.iloc[:,1:]fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)K-均值聚類(lèi)算法應(yīng)用舉例第5章
(1)導(dǎo)入K-均值聚類(lèi)模塊KMeans。
fromsklearn.clusterimportKMeans(2)利用KMeans創(chuàng)建K-均值聚類(lèi)對(duì)象model。
model=KMeans(n_clusters=K,random_state=0,max_iter=500)
參數(shù)說(shuō)明如下:
n_clusters:設(shè)置的聚類(lèi)個(gè)數(shù)K。
random_state:隨機(jī)初始狀態(tài),設(shè)置為0即可。
max_iter:最大迭代次數(shù)。(3)調(diào)用model對(duì)象中的fit()方法進(jìn)行擬合訓(xùn)練。
model.fit(X)(4)獲取model對(duì)象中的labels_屬性,可以返回其聚類(lèi)的標(biāo)簽。
c=model.labels_2.K-均值聚類(lèi)分析K-均值聚類(lèi)算法應(yīng)用舉例第5章
完整代碼如下:importpandasaspddata=pd.read_excel('農(nóng)村居民人均可支配收入來(lái)源2016.xlsx')X=data.iloc[:,1:]fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)fromsklearn.clusterimportKMeans
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年垃圾處理廠土石方開(kāi)挖與垃圾處理系統(tǒng)施工合同3篇
- 內(nèi)蒙古大學(xué)創(chuàng)業(yè)學(xué)院《商務(wù)辦公軟件應(yīng)用》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024年度合肥房產(chǎn)買(mǎi)賣(mài)合同違約責(zé)任規(guī)定2篇
- 2024年標(biāo)準(zhǔn)二手房代理協(xié)議
- 2024年度夫妻雙方無(wú)子女財(cái)產(chǎn)分配合同3篇
- 2024版工業(yè)用水處理系統(tǒng)設(shè)計(jì)與施工合同2篇
- 2024年度揚(yáng)州無(wú)人機(jī)研發(fā)生產(chǎn)合同3篇
- 2024年度影視劇制作與發(fā)行協(xié)議
- 2024年度醫(yī)療器械生產(chǎn)許可審查合同樣本3篇
- 安全演練注意事項(xiàng)
- 腫瘤物理消融治療新進(jìn)展
- 《數(shù)字信號(hào)處理(第2版)》本科全套教學(xué)課件
- 專題10 特殊的平行四邊形中的最值模型之胡不歸模型(原卷版)
- 賽力斯招聘在線測(cè)評(píng)題
- 2024秋五年級(jí)英語(yǔ)上冊(cè)期末專項(xiàng)突破閱讀三回答問(wèn)題人教PEP
- 4 古代詩(shī)歌四首《 觀滄?!方虒W(xué)設(shè)計(jì)
- 行政管理學(xué)(山東聯(lián)盟)智慧樹(shù)知到答案2024年曲阜師范大學(xué)
- 03“探界者”鐘揚(yáng)(同步教案)-2024-2025學(xué)年中職高二語(yǔ)文新教材同步教學(xué)講堂(高教版2023·職業(yè)模塊)
- 安徽省2022年中考語(yǔ)文現(xiàn)代文閱讀真題及答案
- 《 唐代二十四節(jié)氣詩(shī)研究》范文
- 四年級(jí)上冊(cè)道德與法治全冊(cè)教案
評(píng)論
0/150
提交評(píng)論