聚類分析以及相關(guān)系數(shù)演示文稿_第1頁
聚類分析以及相關(guān)系數(shù)演示文稿_第2頁
聚類分析以及相關(guān)系數(shù)演示文稿_第3頁
聚類分析以及相關(guān)系數(shù)演示文稿_第4頁
聚類分析以及相關(guān)系數(shù)演示文稿_第5頁
已閱讀5頁,還剩78頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

聚類分析以及相關(guān)系數(shù)演示文稿當(dāng)前1頁,總共83頁。優(yōu)選聚類分析以及相關(guān)系數(shù)當(dāng)前2頁,總共83頁。(1)間隔尺度變量:變量有連續(xù)的量來表示,如長度,重量,速度,溫度等。(2)有序尺度變量:變量度量時(shí)不用明確的數(shù)量表示,而是用等級來表示,如某產(chǎn)品分為一等品,二等品,三等品等有次序關(guān)系。(3)名義尺度變量:變量用一些類表示,這些類之間既無等級關(guān)系也無數(shù)量關(guān)系。如性別,職業(yè),產(chǎn)品的型號等。通常變量按測量尺度的不同可以分為以下三類:當(dāng)前3頁,總共83頁。表6.1.1數(shù)據(jù)矩陣變量樣品

12

n

一、距離設(shè)為第個(gè)樣品的第個(gè)指標(biāo),數(shù)據(jù)矩陣列于表6.1.1當(dāng)前4頁,總共83頁。在表6.1.1中,每個(gè)樣品有個(gè)變量,故每個(gè)樣品都可以看成是中的一個(gè)點(diǎn),個(gè)樣品就是中的個(gè)點(diǎn)。在中需定義某種距離,第個(gè)樣品與第個(gè)樣品之間的距離記為,在聚類過程中,相距較近的點(diǎn)傾向于歸為一類,相距較遠(yuǎn)的點(diǎn)應(yīng)歸屬不同的類。當(dāng)前5頁,總共83頁。距離的定義一般滿足如下四個(gè)條件:當(dāng)前6頁,總共83頁。第個(gè)樣品與第個(gè)樣品間的明考夫斯基距離(簡稱明氏距離)定義為這里為某一自然數(shù)。明氏距離有以下三種特殊形式:常用的距離有如下幾種:1.明考夫斯基(Minkowski)距離當(dāng)前7頁,總共83頁。當(dāng)前8頁,總共83頁。其中為第個(gè)變量的樣本均值,為第個(gè)變量的樣本方差。當(dāng)各變量的單位不同或測量值范圍相差很大時(shí),不應(yīng)直接采用明氏距離,而應(yīng)先對各變量的數(shù)據(jù)作標(biāo)準(zhǔn)化處理,然后用標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算距離。最常用的標(biāo)準(zhǔn)化處理是,令當(dāng)前9頁,總共83頁。當(dāng)時(shí),可以定義第個(gè)樣品與第個(gè)樣品間的蘭氏距離為2.蘭氏(Lance和Williams)距離當(dāng)前10頁,總共83頁。其中為樣本協(xié)方差矩陣。使用馬氏距離的好處是考慮到了各變量之間的相關(guān)性,并且與各變量的單位無關(guān)。但馬氏距離有一個(gè)很大的缺陷,就是馬氏距離公式中的難以確定。3.馬氏(Mahalanobis)距離第個(gè)樣品與第個(gè)樣品之間的馬氏距離為當(dāng)前11頁,總共83頁。其中是變量與變量間的相關(guān)系數(shù)。當(dāng)個(gè)變量互不相關(guān)時(shí),,即斜交空間距離退化為歐氏距離(除相差一個(gè)常數(shù)倍外)。

4.斜交空間距離第個(gè)樣品與第個(gè)樣品間的斜交空間距離定義為當(dāng)前12頁,總共83頁。例6.2.1某高校舉辦一個(gè)培訓(xùn)班,從學(xué)員的資料中得到這樣六個(gè)變量:性別,取值為男和女;外語語種,取值為英,日和俄;專業(yè),取值為統(tǒng)計(jì),會計(jì)和金融;職業(yè),取值為教師和非教師;居住處,取值為校內(nèi)和校外;學(xué)歷,取值為本科和本科以下。現(xiàn)有兩名學(xué)員:當(dāng)前13頁,總共83頁。這兩名學(xué)員的第二個(gè)變量都取值“英”,稱為配合的,第一個(gè)變量一個(gè)取值為“男”,另一個(gè)取值為“女”,稱為不配合的。一般的,若記配合的變量數(shù)為,不配合的變量數(shù)為,則它們之間的距離可定義為故按此定義本例中與之間的距離為。當(dāng)前14頁,總共83頁。二相似系數(shù)變量與的相似系數(shù)用來表示,它一般應(yīng)滿足如下三個(gè)條件:當(dāng)前15頁,總共83頁。最常用的相似系數(shù)有如下兩種1.夾角余弦變量與的夾角余弦定義為它是中變量的觀察向量與變量的觀察向量之間的夾角的余弦函數(shù),即。當(dāng)前16頁,總共83頁。變量與的相關(guān)系數(shù)為2.相關(guān)系數(shù)常量之間常常借助于相似系數(shù)來定義距離,如令當(dāng)前17頁,總共83頁。第二節(jié)系統(tǒng)聚類法系統(tǒng)聚類法(hierarchicalclusteringmethod)的基本思想是:開始將個(gè)樣本各自作為一類,并規(guī)定樣本之間距離和類與類之間的距離,然后將距離最近的合并成一個(gè)新類,計(jì)算新類與其他類的距離;重復(fù)進(jìn)行兩個(gè)最近類的合并,每次減少一類,直至所有的樣品合并為一類。當(dāng)前18頁,總共83頁。用表示第個(gè)樣品與第個(gè)樣品的距離,表示類,表示與的距離。本節(jié)介紹的系統(tǒng)聚類方法中,所有的方法一開始每個(gè)樣品自成一類,類與類之間的距離與樣本之間的距離相同(除離差平方和法之外),即,所以起初距離矩陣全部相同,記為當(dāng)前19頁,總共83頁。一最短距離法類與類之間的距離為兩類最近樣本之間的距離,即稱這種系統(tǒng)聚類法為最短距離法(singlelinkagemethod)。(一)定義當(dāng)前20頁,總共83頁。(二)最短距離法的聚類步驟如下;(1)規(guī)定樣本之間的距離,計(jì)算個(gè)樣本距離矩陣,它是一個(gè)對稱矩陣。(2)選定中的最小元素,設(shè)為,則將和合并成一個(gè)新類,記為,即。(3)計(jì)算新類與任一類之間距離的遞推公式當(dāng)前21頁,總共83頁。在中,和所在的行與列合并成一個(gè)新行新列,對應(yīng),該行列上的新距離值由(6.3.2)式求得,其余行列上的距離值不變,這樣就得到新的距離矩陣,記為。(4)對重復(fù)上述對的兩步得,如此下去直至所有元素合并成一類為止。如果某一步中最小的元素不止一個(gè),則稱此現(xiàn)象為結(jié)(tie),對應(yīng)這些最小元素的類可以任選一類合并或同時(shí)合并。當(dāng)前22頁,總共83頁。

(1)樣品間采用絕對值距離(這時(shí)它與其它明氏距離完全相同),計(jì)算樣品間的距離矩陣,列于表6.2.1。設(shè)有五個(gè)樣品,每個(gè)只測量了一個(gè)指標(biāo),分別是1,2,6,8,11,試用最短距離法將它們分類。當(dāng)前23頁,總共83頁。

0105407620109530

當(dāng)前24頁,總共83頁。(2)中最小元素是,于是將和合并成,并利用(6.3.2)式計(jì)算與其他類的距離,列于表6.2.2

0406209530

當(dāng)前25頁,總共83頁。(3)的最小元素是,合并和成,與其他類之間的距離計(jì)算為表6.2.3

040930當(dāng)前26頁,總共83頁。(4)中的最小元素是,將和合并為,新的距離矩陣列于表6.2.4040(5)最后將和合并為,這時(shí)所有五個(gè)樣品聚為一類,過程終止。當(dāng)前27頁,總共83頁。

將上述聚類過程畫成一張樹形圖(或稱譜系圖,dendrogram),如圖6.2.1所示。圖6.2.1最短距離法樹形圖當(dāng)前28頁,總共83頁。類與類之間的距離定義為兩類最遠(yuǎn)樣品間的距離,即

稱這種系統(tǒng)聚類法為最長距離法(completelinkagemethod)。二最長距離法當(dāng)前29頁,總共83頁。最長距離法與最短距離法并類步驟完全相同,只是類間距離的遞推公式有所不同。設(shè)某步將類和合并成新類,則與任一類的距離為當(dāng)前30頁,總共83頁。圖6.2.2最長距離法樹形圖對例6.2.1采用最長距離法,其樹形圖如圖6.2.2所示當(dāng)前31頁,總共83頁。例6.2.2對305名女中學(xué)生測量八個(gè)體型指標(biāo):相關(guān)矩陣列于表6.2.5,我們用相似系數(shù)來度量各變量之間的相似性。當(dāng)前32頁,總共83頁。表6.2.5各變量之間的相關(guān)系數(shù)

1.0000.8461.0000.8050.8811.0000.8590.8260.8011.0000.4730.3760.3800.4361.0000.3980.3260.3190.3290.7621.0000.3010.2770.2370.3270.7300.5831.0000.3820.4150.3450.3650.6290.5770.5391.000當(dāng)前33頁,總共83頁。圖6.2.3八個(gè)體型變量的最長距離法樹形圖當(dāng)前34頁,總共83頁。

類與類之間的距離既不取兩類最近樣品間的距離,也不取兩類最遠(yuǎn)距離間的距離,而是取介于兩者之間的距離,稱為中間距離法(medianmethod)。中間距離法當(dāng)前35頁,總共83頁。設(shè)某一步將和合并為,對于任一類,考慮由為邊長組成的三角形(如圖6.2.4所示),取邊的中線作為,由初等平面幾何可知,的計(jì)算公式為當(dāng)前36頁,總共83頁。圖6.2.4中間距離法的幾何表示當(dāng)前37頁,總共83頁。中間距離法可推廣為更一般的情形,將(6.2.5)式三項(xiàng)的系數(shù)依賴于某個(gè)參數(shù),即這里,這種方法稱為可變法。當(dāng)前38頁,總共83頁。其中和分別為類和的樣品個(gè)數(shù),為中的樣品與中的樣品之間的距離。類平均法類平均法(gveragelinkagemethod)有兩種定義,一種定義方法是類與類之間距離定義為所有樣品對之間的平均距離,即定義和之間的距離為當(dāng)前39頁,總共83頁。遞推公式為:當(dāng)前40頁,總共83頁。另一種定義方法是定義類與類之間的平方距離為樣品對之間的平方距離的平均值,即它的遞推公式類似于(6.2.8)式,即當(dāng)前41頁,總共83頁。

在遞推公式(6.2.10)式中,的影響沒有被反映出來,為此可將該遞推公式進(jìn)一步推廣為其中,稱這種系統(tǒng)聚類方法為可變類平均法。當(dāng)前42頁,總共83頁。

對例6.2.1采用(6.2.9)式的類平均法進(jìn)行聚類。對的每個(gè)元素都平方,則使用遞推公式會比較方便。(1)計(jì)算,見表6.2.6。

01025160493640100812590當(dāng)前43頁,總共83頁。(2)找中的最小元素,它是,將和合并為,計(jì)算與的距離。這時(shí),由(6.2.9)式計(jì)算得當(dāng)前44頁,總共83頁。同樣可算得和,列于表6.2.7。020.5042.54090.52590當(dāng)前45頁,總共83頁。(3)對重復(fù)上述步驟,將和并為,得平方距離矩陣(見表6.2.8),再將和合并成得(見表6.2.9),最后將和合并為,聚類過程終止。當(dāng)前46頁,總共83頁。051.170

031.5090.5170樹形圖如圖6.2.5所示。當(dāng)前47頁,總共83頁。圖6.2.5類平均法樹形圖當(dāng)前48頁,總共83頁。

類與類之間的距離定義為它們的重心(均值)之間的歐氏距離。設(shè)和之間的重心分別為和,則與之間的平均距離為這種系統(tǒng)聚類法成為重心法。五重心法它的推遞公式為當(dāng)前49頁,總共83頁。類中各樣品到類重心(均值)的平方歐氏距離之和稱為(類內(nèi))離差平方和。設(shè)和合并成新類,則和的離差平方和分別是離差平方和法(Ward方法)當(dāng)前50頁,總共83頁。如果和這兩類相距較近,則合并后所增加的離差平方和應(yīng)較小;否則應(yīng)較大。于是和之間的平方距離定義為這種系統(tǒng)聚類法稱為離差平方和法或Ward法(Ward’sminimunvariancemethod)。當(dāng)前51頁,總共83頁。

也可以表達(dá)為離差平方和法的平方距離推導(dǎo)公式為當(dāng)前52頁,總共83頁。對例6.2.1采用離差平方和法進(jìn)行聚類,聚類過程中的平方距離矩陣列于表6.2.10至表6.2.13,樹形圖如圖6.2.6所示。并類的次序?yàn)楹秃喜⒊?,和合并成,和合并成,最后和合并成。?dāng)前53頁,總共83頁。00.5012.58024.518205040.512.54.50當(dāng)前54頁,總共83頁。

013.5028.172060.1712.54.50當(dāng)前55頁,總共83頁。

030.25060.1710.670

056.030當(dāng)前56頁,總共83頁。圖6.2.6離差平方和法樹形圖當(dāng)前57頁,總共83頁。

例6.2.3表6.2.14列出了1999年全國31個(gè)省、市和自治區(qū)的城鎮(zhèn)居民家庭平均每人全年消費(fèi)性支出的八個(gè)主要變量依據(jù)。這八個(gè)變量是

當(dāng)前58頁,總共83頁。表6.2.14消費(fèi)性支出數(shù)據(jù)單位:元地區(qū)北京天津河北山西內(nèi)蒙古遼寧黑龍江上海江蘇浙江安徽福建江西2959.19730.79749.41513.34467.871141.82478.42457.642459.77495.47697.33302.87284.19735.97570.84305.081495.63515.90362.37285.32272.95540.58364.91188.631406.33477.77290.15208.57501.50414.72281.84212.101303.97524.29254.83192.17249.81463.09287.87192.961730.84553.90246.91279.81239.18445.20330.24163.861410.11510.71211.88277.11224.65376.82317.61152.853712.31550.74893.37346.93527.001034.98720.33462.032207.58449.37572.40211.92302.09585.23429.77252.542629.16557.32629.73435.69514.66795.87575.76323.361844.78303.65233.81107.90209.70393.99509.39160.122709.46428.11334.12160.77405.14461.67535.13232.291563.78303.65233.81107.90209.70393.99503.39160.12當(dāng)前59頁,總共83頁。地區(qū)山東河南湖北湖南廣東廣西海南重慶四川貴州云南西藏陜西甘肅青海寧夏新疆1675.75613.32550.71219.79272.59599.43371.62211.841427.65431.79288.55208.14217.00337.76421.31165.321783.43511.88282.84201.01237.60617.74523.52182.521942.23512.27401.39206.06321.29697.22492.60226.453055.17353.23564.56356.27811.88873.061082.82420.812033.87300.82338.65157.78329.06621.74523.52182.522057.86186.44202.72171.79329.65477.17312.93279.192303.29589.99516.21236.55403.92730.05438.41225.801974.28507.76344.79203.21240.24575.10430.36223.461673.82437.75461.61153.32254.66445.59346.11191.482194.25537.01369.07249.54290.84561.91407.70330.952646.61839.70204.44209.11379.30371.04269.59389.331472.95390.89447395259.51230.61490.90469.10191.341525.57472.98328.90219.86206.65449.69249.66228.191654.69437.77258.78303.00244.93479.53288.56236.511375.46480.89273.84317.32251.08424.75228.73195.931608.82536.05423.46235.8250.28541.30344.85214.40當(dāng)前60頁,總共83頁。圖6.2.7和圖6.2.8中的聚類距離是經(jīng)正規(guī)化之后的距離(見附錄6-1中的說明(5)和(8)),圖6.2.9中的聚類“距離”是半偏(見(6.2.23)式)。從這三個(gè)樹形圖來看,Ward方法似乎更符合我們的聚類要求,它將31個(gè)地區(qū)分為以下三類:第Ⅰ類:北京、浙江、上海和廣東。這些都是我國經(jīng)濟(jì)最發(fā)達(dá)、城鎮(zhèn)居民消費(fèi)水平最高的沿海地區(qū)。第Ⅱ類:天津、江蘇、云南、重慶、河北、新疆、山東、湖北、四川、湖南、福建、廣西、海南和西藏。這些地區(qū)在我國基本上屬于經(jīng)濟(jì)發(fā)展水平和城鎮(zhèn)居民消費(fèi)水平中等的地區(qū)。第Ⅲ類:山西、甘肅、內(nèi)蒙古、遼寧、黑龍江、吉林、青海、寧夏、安徽、貴州、河南、陜西和江西。這些地區(qū)在握國基本上屬于經(jīng)濟(jì)較落后地區(qū),城鎮(zhèn)居民消費(fèi)水平也是較低的。如果分為五類,則廣東和西藏各自為一類。當(dāng)前61頁,總共83頁。Lance和Williams與1967年將這些遞推公式統(tǒng)一為:

其中、、和是參數(shù),不同的系統(tǒng)聚類法,它們有不同的取值。表6.2.15列出了上述八種方法和四個(gè)參數(shù)的取值。七、系統(tǒng)聚類法的統(tǒng)一當(dāng)前62頁,總共83頁。表6.2.15系統(tǒng)聚類法參數(shù)表方法最短距法法最長距離法中間距離法可變法類平均法可變類平均法重心法離差平方和法當(dāng)前63頁,總共83頁。八系統(tǒng)聚類法的兩個(gè)性質(zhì)。(一)單調(diào)性令是系統(tǒng)聚類法中第次并類時(shí)的距離,如例6.3.1中,用最短距離法時(shí),有,且有。如果一種系統(tǒng)聚類法能滿足,則稱它具有單調(diào)性。當(dāng)前64頁,總共83頁。

設(shè)和是兩個(gè)元素非負(fù)的同階矩陣,若,則記作。(二)空間的濃縮與擴(kuò)張?jiān)O(shè)有兩種系統(tǒng)聚類法,它們在第步的距離矩陣分別為和若則稱第一種方法比第二種方法更使空間擴(kuò)張,或第二種方法比第一種方法更使空間濃縮。當(dāng)前65頁,總共83頁。以類平均法為基準(zhǔn),其他方法都與它作比較有如下一些結(jié)論:

即最短距離法和重心法比類平均法更使空間濃縮。

即最長距離法比類平均法更使空間擴(kuò)張。

即這時(shí)可變類平均法比類平均法更使空間濃縮;當(dāng)即此時(shí)可變類平均法比類平均法更使空間擴(kuò)張。當(dāng)前66頁,總共83頁。九類的個(gè)數(shù)通過觀察樹型圖,給出一個(gè)你認(rèn)為適合的閾值T,要求類與類之間的距離要大于T,有些樣品可能會因此而歸不了類或只能自成一類。這種方法有比較強(qiáng)的主觀性,這是它的不足之處。(一)給定一個(gè)閾值T當(dāng)前67頁,總共83頁。如果樣品只有兩個(gè)或三個(gè)變量,則可通過觀測這些數(shù)據(jù)的散點(diǎn)圖來確認(rèn)類的個(gè)數(shù)。對于三個(gè)變量,可使用SAS軟件通過旋轉(zhuǎn)三維坐標(biāo)軸從各個(gè)角度來觀測散點(diǎn)圖。如果變量個(gè)數(shù)超過三個(gè),則可使原來變量綜合成兩個(gè)或三個(gè)綜合變量,然后再觀測這些綜合變量的散點(diǎn)圖。(二)觀察樣品的散點(diǎn)圖當(dāng)前68頁,總共83頁。設(shè)總樣品數(shù)為,聚類時(shí)把所有樣品合并為個(gè)類,類的樣品數(shù)和重心分別是和,則,所有樣品的總重心,令所有樣品的總離差平方和為(三)使用統(tǒng)計(jì)量1統(tǒng)計(jì)量當(dāng)前69頁,總共83頁。類中樣品的類內(nèi)離差平方和為個(gè)類的類內(nèi)離差平方和之和為可作如下分解當(dāng)前70頁,總共83頁。再令當(dāng)前71頁,總共83頁。

值越?。丛酱螅?,表明類內(nèi)離差平方和之和在總離差平方和中所占的比例越小,也就說明個(gè)類分得越開。因此,統(tǒng)計(jì)量可用于評價(jià)合并成個(gè)類時(shí)的聚類效果,值越大,聚類效果越好。當(dāng)前72頁,總共83頁。2半偏統(tǒng)計(jì)量其中,半偏值是上一步值與該步值之間差,因此半偏值越大,說明上一次聚類的效果越好。3偽F統(tǒng)計(jì)量當(dāng)前73頁,總共83頁。(6.2.23)式也可寫成

與的作用一樣,它也隨分類個(gè)數(shù)的減少而變小??煽醋饕粋€(gè)調(diào)整系數(shù),能夠使得偽F值不隨的減少而變小,并且可以直接根據(jù)偽F值的大小作出分幾類為合適的判斷。偽F值越大,表明此時(shí)的分類效果越好。偽F統(tǒng)計(jì)量不具有F分布。當(dāng)前74頁,總共83頁。偽值大表明和合并

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論