研究生課程上學(xué)期數(shù)理統(tǒng)計(jì)1_第1頁
研究生課程上學(xué)期數(shù)理統(tǒng)計(jì)1_第2頁
研究生課程上學(xué)期數(shù)理統(tǒng)計(jì)1_第3頁
研究生課程上學(xué)期數(shù)理統(tǒng)計(jì)1_第4頁
研究生課程上學(xué)期數(shù)理統(tǒng)計(jì)1_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

7.4聚類分析2014年日7.4聚類分析2014年日聚類分析的基本上一節(jié)介紹的判別分析,其特點(diǎn)是:事先知道對(duì)象分為幾個(gè)類別,而且有一些類別已知的樣品,從這些類別已知,對(duì)類別未知的樣品可以判別其聚類分析(Clusterysis)是指:有一些樣品分類,但是它們可以分成哪幾類,是什么樣的類型,事先都是不知道的,也沒有什么已知類別的樣品可以作為的“聚類分析的基本上一節(jié)介紹的判別分析,其特點(diǎn)是:事先知道對(duì)象分為幾個(gè)類別,而且有一些類別已知的樣品,從這些類別已知,對(duì)類別未知的樣品可以判別其聚類分析(Clusterysis)是指:有一些樣品分類,但是它們可以分成哪幾類,是什么樣的類型,事先都是不知道的,也沒有什么已知類別的樣品可以作為的“物以類聚”的原則,把特性比較接近參考。的樣品在一起,以此對(duì)樣品進(jìn)行的方法例如,動(dòng)植物的。了一大批某種動(dòng)物或植物的標(biāo)各種數(shù)據(jù)(例如動(dòng)物的各種體形特征,植物的各種外形尺寸)考慮把特征相近的標(biāo)本個(gè)聚類分析問題在一起,分成幾種類型。這是一又如上市對(duì)每一種的。在一個(gè)中,有成百上千種,都有一大批數(shù)據(jù)(例如價(jià)格、成交量、市盈率、公司資本、負(fù)債、產(chǎn)值、利潤等等),要求把特征相近的析問題在一起,分成幾種類型。這也是一個(gè)聚類分再如,不同氣象情況年份的。對(duì)某地積累了許多年的氣象資料,對(duì)每一年,都有一大批數(shù)據(jù)(例如各個(gè)月份的平均氣溫、降水量、年最高氣溫、年最低氣溫等等),要求把氣象情況相近的年份聚類分析問題在一起,分成幾種類型。這也是一個(gè)例如,動(dòng)植物的。了一大批某種動(dòng)物或植物的標(biāo)各種數(shù)據(jù)(例如動(dòng)物的各種體形特征,植物的各種外形尺寸)考慮把特征相近的標(biāo)本個(gè)聚類分析問題在一起,分成幾種類型。這是一又如上市對(duì)每一種的。在一個(gè)中,有成百上千種,都有一大批數(shù)據(jù)(例如價(jià)格、成交量、市盈率、公司資本、負(fù)債、產(chǎn)值、利潤等等),要求把特征相近的析問題在一起,分成幾種類型。這也是一個(gè)聚類分再如,不同氣象情況年份的。對(duì)某地積累了許多年的氣象資料,對(duì)每一年,都有一大批數(shù)據(jù)(例如各個(gè)月份的平均氣溫、降水量、年最高氣溫、年最低氣溫等等),要求把氣象情況相近的年份聚類分析問題在一起,分成幾種類型。這也是一個(gè)聚類的方法很多,比如系統(tǒng)聚類動(dòng)態(tài)聚類這里只介紹最常用的、也是比較成法是系統(tǒng)聚類法(聚類的方法很多,比如系統(tǒng)聚類動(dòng)態(tài)聚類這里只介紹最常用的、也是比較成法是系統(tǒng)聚類法(HierarchicalClusteringMethod,又稱譜系聚類法)。系統(tǒng)聚類法的基本為一類,類與類之間的距離也就是樣品與樣品之間的距離?!?,這樣一直下去,每次類別的個(gè)數(shù)減少1,直到所有的樣品合并成為一類為止聚類分析的結(jié)果,可以樣子(如圖),稱為聚類圖果,可以在聚類圖中與m條豎線相交的高度處畫一果,可以在聚類圖中與m條豎線相交的高度處畫一應(yīng)的就是用系統(tǒng)聚類法分m(如圖)2類的聚類結(jié)果,可以在在上圖中,如果與2條豎線相交的高度處畫一條水平線,可以看出,分成的2類是:{1,2},{3,4,5,6}希望知道分成4類的聚類結(jié)果,可以在與4條豎線相如果交的高度處畫一條水平線,可以看出,分成的4類是:{1,2},{3,4},{5},{6}系統(tǒng)聚類法中類與類之間的距離在系統(tǒng)聚類法的每一步中,都要尋找距離最近的兩類,所以,必須對(duì)類與類之間的距離作出定義系統(tǒng)聚類法中類與類之間的距離在系統(tǒng)聚類法的每一步中,都要尋找距離最近的兩類,所以,必須對(duì)類與類之間的距離作出定義類之間的距離也就是樣品與樣品之間的距離類之間的距離也就是樣品與樣品之間的距離,要計(jì)算類與類的距離了,下面介紹幾種常用的類與類之間距離的定義:類與類距離定義的最短距離法:類與類距離定義的最短距離法:(3)中間距離法(3)中間距離法首先,對(duì)每一類都可以確定一個(gè)中心:如果一個(gè)類中只有一個(gè)樣品,則中心就是這個(gè)樣品,如果將兩類合并,則合并后的類的中心,就是原來兩類中心的連線的中點(diǎn)cbacba可以證明:可以證明:系統(tǒng)聚類法的公式和計(jì)算步驟前面介紹了6種常用的系統(tǒng)聚類法,這些方法的區(qū)別在于:系統(tǒng)聚類法的公式和計(jì)算步驟前面介紹了6種常用的系統(tǒng)聚類法,這些方法的區(qū)別在于:它們對(duì)類與類之間的距離有不同的定義.下表列出了Wishart的計(jì)算公式中參數(shù)對(duì)應(yīng)的取值:下表列出了Wishart的計(jì)算公式中參數(shù)對(duì)應(yīng)的取值:系統(tǒng)聚類的步驟系統(tǒng)聚類的步驟下全部合并過程,就能畫出聚類圖。從聚類圖就可以得到聚類分析的結(jié)果下全部合并過程,就能畫出聚類圖。從聚類圖就可以得到聚類分析的結(jié)果聚類分析應(yīng)用實(shí)例例2002年足球賽16強(qiáng)2002年足球賽,最后有聚類分析應(yīng)用實(shí)例例2002年足球賽16強(qiáng)2002年足球賽,最后有16支16名,這些球隊(duì)在進(jìn)入失球數(shù)統(tǒng)計(jì)如右表,作圖如下:16支球隊(duì)進(jìn)行系統(tǒng)聚類分析。16支球隊(duì)進(jìn)行系統(tǒng)聚類分析。行標(biāo)準(zhǔn)化處理。選用歐氏距離作為樣品與樣品之間的距離(1)最短距離法得到的聚類圖:從聚類圖可以看出,如果分成5類,最短距離法有下列聚類結(jié)果:第1類:{從聚類圖可以看出,如果分成5類,最短距離法有下列聚類結(jié)果:第1類:{9.}第2類:{5.}第3類:{3.}第4類:{12.}第5類:16.比利時(shí),8.,4.巴拉圭,7.韓國,13.墨西哥,14.意大利,11.瑞典,2.塞內(nèi)加爾,6.土耳其,15.1.}2)最長距離法的聚類結(jié)果:從聚類圖可以看出最長距離法分成5類的聚類結(jié)果:第12)最長距離法的聚類結(jié)果:從聚類圖可以看出最長距離法分成5類的聚類結(jié)果:第1類:{9.德國,5.巴西}第2類:{3.}第3類:8.,4.巴拉圭,16.比利時(shí),2.塞內(nèi)加爾}第4類:{12.}第5類:{13.墨西哥,7.韓國,14.意大利,11.瑞典,6.土耳其,15.10.愛爾蘭,1.},(3)中間距離法得到的聚類結(jié)果從聚類圖可以看出中間距離法分成5類的聚類結(jié)果:第1類:{(3)中間距離法得到的聚類結(jié)果從聚類圖可以看出中間距離法分成5類的聚類結(jié)果:第1類:{9.德國,5.巴西}第2類:{3.}第3類:16.比利時(shí),8.,4.巴拉圭}第4類:{12.}第5類:13.墨西哥,7.韓國,2.塞內(nèi)加爾,14.意大利,11.瑞典,6.土耳其,15.1.}(4)重心法得到的聚類結(jié)果:從聚類圖可以看出重心法分成5類的結(jié)果:第1類:{(4)重心法得到的聚類結(jié)果:從聚類圖可以看出重心法分成5類的結(jié)果:第1類:{9.德國,5.巴西}第2類:{3.}第3類:16.比利時(shí),8.2.},4.巴拉圭,第4類:{12.}第5類:14.意大利,11.瑞典,13.墨西哥,7.韓國,6.土耳其,15.,10.愛爾蘭,1.丹麥}(5)類平均法得到的聚類結(jié)果:類平均法分成5類有下列聚類結(jié)果:第1類:{(5)類平均法得到的聚類結(jié)果:類平均法分成5類有下列聚類結(jié)果:第1類:{9.德國,5.巴西}第2類:{3.}第3類:16.比利時(shí),8.2.},4.巴拉圭,第4類:{12.}第5類:13.墨西哥,7.韓國,14.意大利,11.瑞典,6.土耳其,15.,10.愛爾蘭,1.丹麥}(6)離差平方和法得到的聚類結(jié)果從聚類圖可以看出,如果分成5類離差平方和法有下列聚類結(jié)果:第1類:{9.(6)離差平方和法得到的聚類結(jié)果從聚類圖可以看出,如果分成5類離差平方和法有下列聚類結(jié)果:第1類:{9.德國,5.巴西}第2類:{3.}第3類:16.比利時(shí),8.,4.巴拉圭}第4類:{12.}第5類:14.意大利,11.瑞典,6.土耳其,2.塞內(nèi)加爾,13.墨西哥,7.韓國,15.1.}例各地程度狀況1990年30個(gè)省、直轄市、得到數(shù)據(jù)如下要求根據(jù)程度狀況統(tǒng)計(jì)數(shù)據(jù)對(duì)上述地區(qū)作聚類分析例各地程度狀況1990年30個(gè)省、直轄市、得到數(shù)據(jù)如下要求根據(jù)程度狀況統(tǒng)計(jì)數(shù)據(jù)對(duì)上述地區(qū)作聚類分析用“用“類平均法”作系統(tǒng)聚類得到的聚類圖:從用“類平均法”作系統(tǒng)聚類的聚類圖可以看出,如果分成4類則聚類結(jié)果為:第1類:1.,2.,9.,6.遼寧,4.山西,8.黑龍江,7.吉林從用“類平均法”作系統(tǒng)聚類的聚類圖可以看出,如果分成4類則聚類結(jié)果為:第1類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論