版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、聚聚 類類 分分 析析 一、聚類分析(一、聚類分析(Cluster Analysis)簡介)簡介 聚類分析是直接比較各事物之間的性質(zhì),將性質(zhì)聚類分析是直接比較各事物之間的性質(zhì),將性質(zhì)相相近近的歸為一類,將性質(zhì)的歸為一類,將性質(zhì)差別較大差別較大的歸入不同的類的分析的歸入不同的類的分析技術(shù)。技術(shù)?;舅枷牖舅枷?聚類分析的基本思想聚類分析的基本思想: : 所研究的所研究的樣品或指標樣品或指標( (變變量量) )之間存在著之間存在著程度不同的相似性程度不同的相似性( (或親疏關(guān)系或親疏關(guān)系) )。(1 1)根據(jù)一批樣本的多個指標)根據(jù)一批樣本的多個指標, , 具體找出一些能夠具體找出一些能夠度量度
2、量樣本或指標之間的樣本或指標之間的相似程度相似程度的的統(tǒng)計量統(tǒng)計量。(2 2)以這些統(tǒng)計量為分類的)以這些統(tǒng)計量為分類的依據(jù)依據(jù), , 把一些相似程度把一些相似程度較大較大的樣本的樣本( (或指標或指標) )聚合為一類。聚合為一類。 基本思想基本思想 按相似程度的大小按相似程度的大小把關(guān)系把關(guān)系密切密切的樣本聚合到一個的樣本聚合到一個小小的分類單位的分類單位, , 關(guān)系關(guān)系疏遠疏遠的樣本聚合到一個的樣本聚合到一個大大的分類單位的分類單位, , 直到把所有的樣本直到把所有的樣本( (或指標或指標) )都聚合完畢。都聚合完畢。 把不同的類型一一劃分出來把不同的類型一一劃分出來, , 形成一個由小到
3、大形成一個由小到大的分類系統(tǒng)。再把整個分類系統(tǒng)畫成一張分群圖的分類系統(tǒng)。再把整個分類系統(tǒng)畫成一張分群圖( (又又稱稱譜系譜系圖圖), ), 用它把所有樣本用它把所有樣本( (或指標或指標) )間的親疏關(guān)系間的親疏關(guān)系表示出來。表示出來。 一個事物常常需要用多個變量來刻畫,如果對于一一個事物常常需要用多個變量來刻畫,如果對于一群有待分類的樣本點需用群有待分類的樣本點需用p個變量描述,則這個樣本點個變量描述,則這個樣本點可以看成是可以看成是 空間中的一個點??臻g中的一個點。聚類分析根據(jù)分類對象的不同可分為聚類分析根據(jù)分類對象的不同可分為Q型和型和R型兩大類型兩大類Q型是對型是對樣本樣本進行分類處理
4、,其作用在于進行分類處理,其作用在于:1. 具有共同特點的樣本聚在一起具有共同特點的樣本聚在一起2. 所得結(jié)果比傳統(tǒng)的定性分類方法更細致、全面、所得結(jié)果比傳統(tǒng)的定性分類方法更細致、全面、合理合理二、聚類對象:二、聚類對象:樣本、變量樣本、變量pRR型是對型是對變量變量進行分類處理,其作用在于:進行分類處理,其作用在于:1. 可以了解變量間及變量組合間的親疏關(guān)系可以了解變量間及變量組合間的親疏關(guān)系2. 可以根據(jù)變量的聚類結(jié)果及它們之間的關(guān)系,可以根據(jù)變量的聚類結(jié)果及它們之間的關(guān)系,選擇主要變量進行回歸分析或選擇主要變量進行回歸分析或Q型聚類分析型聚類分析相似性度量相似性度量 進行進行“相關(guān)性相關(guān)
5、性”或或“相似性相似性”度量。在相似性度量。在相似性度量中常常包含有許多主觀上的考慮,但是最重要度量中常常包含有許多主觀上的考慮,但是最重要的是考慮指標性質(zhì)或觀測的尺度。的是考慮指標性質(zhì)或觀測的尺度。對對樣本進行聚類時,樣本進行聚類時,“靠近靠近”往往是往往是距離距離。對指標進行聚類時,根據(jù)對指標進行聚類時,根據(jù)相關(guān)系相關(guān)系數(shù)數(shù)或某種或某種關(guān)聯(lián)性關(guān)聯(lián)性度量度量來來聚類。聚類。Q型型樣本間樣本間的的“相似性相似性”度量度量距離距離 設(shè)每個樣本有 p 個指標, 觀察值記為nixxxxTpiiii, 2 , 1,),(21(1)每個樣本 可看成是 p 維空間的一個點。于是, 可用各點之間的距離來衡量
6、各樣本點之間的接近程度。 樣本 和 之間的距離 , 一般應(yīng)滿足如下條件: () , 且 時當且僅當 ; () ; () ; 有時所用的距離不滿足(), 但在廣義的角度上仍稱為距離。常用的距離有如下幾種:ixixjx),(jixxd0),(jixxd0),(jixxdjixx ),(),(ijjixxdxxd),(),(),(jkkijixxdxxdxxdpkjkikijxxd12112)(pkjkikijxxd 1、閔氏距離、閔氏距離(Minkowski)2、絕對距離(、絕對距離(Block距離)距離)3、歐氏距離、歐氏距離(Euclidean distance)qpkqjkikijxxd11
7、)(4、切比雪夫距離、切比雪夫距離(Chebychev)jkikpkijxxd1max)(6.馬氏距離馬氏距離5.數(shù)據(jù)的標準化數(shù)據(jù)的標準化ijjijjxxxS jjxSj其中 和是第 個指標的均值和樣本標準差以上距離與各變量的量綱有關(guān),為了消除量綱的以上距離與各變量的量綱有關(guān),為了消除量綱的影響,可對數(shù)據(jù)標準化。影響,可對數(shù)據(jù)標準化。21( )( )( )( )()()()ijijijdMxxSxx 例例1 歐洲各國的語言有許多相似之處,有的十分歐洲各國的語言有許多相似之處,有的十分相似。為了研究這些語言的歷史關(guān)系,也許通過比較相似。為了研究這些語言的歷史關(guān)系,也許通過比較他們數(shù)字的表達式比較
8、恰當。表格列舉出英語,挪威他們數(shù)字的表達式比較恰當。表格列舉出英語,挪威語,丹麥語,荷蘭語,德語,法語,西班牙語,意大語,丹麥語,荷蘭語,德語,法語,西班牙語,意大利語,波蘭語,匈牙利語和芬蘭語的利語,波蘭語,匈牙利語和芬蘭語的1,2,10的拼法,的拼法,希望計算這希望計算這11種語言之間的語言的距離種語言之間的語言的距離.11種歐洲語言的數(shù)詞選擇適用的距離選擇適用的距離 在聚類分析中通常要結(jié)合實際問題來選擇在聚類分析中通常要結(jié)合實際問題來選擇適用適用的的距離距離, , 有時應(yīng)根據(jù)實際問題定義新的距離有時應(yīng)根據(jù)實際問題定義新的距離, , 顯然,本例無法直接用上述公式來計算距離。但顯然,本例無法
9、直接用上述公式來計算距離。但可以發(fā)現(xiàn)可以發(fā)現(xiàn)前三種文字前三種文字( (英、挪、丹英、挪、丹) )很相似很相似, , 特別是每個單詞的第特別是每個單詞的第一一個字母??梢杂脗€字母。可以用1010個數(shù)詞個數(shù)詞中中第一個第一個字母字母不同不同的的個數(shù)個數(shù)來定義兩種語言之間的距離。來定義兩種語言之間的距離。例如:英語和挪威語中只有例如:英語和挪威語中只有1 1和和8 8的第一個字母不同的第一個字母不同, , 則它們之間的距離為則它們之間的距離為2 2。E N Da Du G Fr Sp I P H Fi E 0 N 2 0Da 2 1 0Du 7 5 6 0G 6 4 5 5 0Fr 6 6 6 9
10、7 0Sp 6 6 5 9 7 2 0I 6 6 5 9 7 1 1 0P 7 7 6 10 8 5 3 4 0H 9 8 8 8 9 10 10 10 10 0Fi 9 9 9 9 9 9 9 9 9 8 0首先定義類與類之間的距離,由類間距離的定義首先定義類與類之間的距離,由類間距離的定義 不同產(chǎn)生不同的系統(tǒng)聚類分析。常見的類間的距離不同產(chǎn)生不同的系統(tǒng)聚類分析。常見的類間的距離有有法。它們的歸類步驟基本是一致的。法。它們的歸類步驟基本是一致的。8種之多,與之相應(yīng)的系統(tǒng)聚類分析也有種之多,與之相應(yīng)的系統(tǒng)聚類分析也有8種之多、種之多、分別為最短距離法、最長距離法、中間距離法、重心分別為最短距離
11、法、最長距離法、中間距離法、重心法、類平均法、可變類平均法、可變法和離差平方和法、類平均法、可變類平均法、可變法和離差平方和Q型型類與類類與類間間的的“相似性相似性”度量度量 說明:說明: 用 i , j 表示樣本 。用 表示 與 之間的距離, 用 與 表示兩個類, 所包含的樣本數(shù)分別為 與 之間的距離用 表示。下面給出四種最常用的類與類之間距離的定義。jixx ,ixijdjxqGpGpGqGpnqn),(qpGGD1 、最短距離(、最短距離(Nearest Neighbor)x21x12x22x1112dqpijqppqGjGidGGDD,min),(即定義 與 之間的距離為 與 中最近的
12、兩個樣本的距離。 pGqGpGqGn最短距離法進行聚類分析的步驟如下:最短距離法進行聚類分析的步驟如下:(1)定義樣品之間距離,計算樣品的兩兩距離,得一距離)定義樣品之間距離,計算樣品的兩兩距離,得一距離 陣記為陣記為D(0) ,開始每個樣品自成一類,顯然這時,開始每個樣品自成一類,顯然這時Dij = dij。(2)找出距離最小元素,設(shè)為)找出距離最小元素,設(shè)為Dpq,則將,則將Gp和和Gq合并成一個合并成一個 新類,記為新類,記為Gr,即,即Gr = Gp,Gq。(3)按()按(5.12)計算新類與其它類的距離。)計算新類與其它類的距離。 (4)重復()重復(2)、()、(3)兩步,直到所有
13、元素。并成一類為)兩步,直到所有元素。并成一類為 止。如果某一步距離最小的元素不止一個,則對應(yīng)這些止。如果某一步距離最小的元素不止一個,則對應(yīng)這些 最小元素的類可以同時合并。最小元素的類可以同時合并。n【例例2】設(shè)有六個樣品,每個只測量一個指標,分別是設(shè)有六個樣品,每個只測量一個指標,分別是1,2,5,7,9,10,試用最短距離法將它們分類。,試用最短距離法將它們分類。(1)樣品采用絕對值距離,計算樣品間的距離陣)樣品采用絕對值距離,計算樣品間的距離陣D(0) ,見,見表表1表表1 G1G2G3G4G5G6G1 0G2 10G3 430G4 6520G5 8742 0G6 9852 10 D(
14、0)(2)D(0)中最小的元素是中最小的元素是D12D561,于是將,于是將G1和和G2合合并成并成G7,G5和和G6合并成合并成G8,并利用(,并利用(5.12)式計算新類與其)式計算新類與其它類的距離它類的距離D(1) ,見表,見表2表表2 (3)在)在D(1)中最小值是中最小值是D34D482,由于,由于G4與與G3合并,合并,又與又與G8合并,因此合并,因此G3、G4、G8合并成一個新類合并成一個新類G9,其與其,其與其它類的距離它類的距離D(2) ,見表,見表3表表3 (4)最后將)最后將G7和和G9合并成合并成G10,這時所有的六個樣品聚為一,這時所有的六個樣品聚為一類,其過程終止
15、。類,其過程終止。上述聚類的可視化過程見圖上述聚類的可視化過程見圖1所示,橫坐標的刻度表示并類所示,橫坐標的刻度表示并類的距離。這里我們應(yīng)該注意,聚類的個數(shù)要以實際情況所定,的距離。這里我們應(yīng)該注意,聚類的個數(shù)要以實際情況所定,其詳細內(nèi)容將在后面討論。其詳細內(nèi)容將在后面討論。圖圖1 最短距離聚類法的過程最短距離聚類法的過程G2=2G1=1G3=5G4=7G5=9G6=10G7G8G9G10123D2.最長距離(最長距離(Furthest Neighbor )x11x21n再找距離最小兩類并類,直至所有的樣品全歸為一類為止。再找距離最小兩類并類,直至所有的樣品全歸為一類為止。可以看出最長距離法與
16、最短距離法只有兩點不同:可以看出最長距離法與最短距離法只有兩點不同:一是類與類之間的距離定義不同;一是類與類之間的距離定義不同;另一是計算新類與其它類的距離所用的公式不同。另一是計算新類與其它類的距離所用的公式不同。n【例例2】針對例針對例1的數(shù)據(jù),試用重心法將它們聚類。的數(shù)據(jù),試用重心法將它們聚類。(1)樣品采用歐氏距離,計算樣品間的平方距離陣)樣品采用歐氏距離,計算樣品間的平方距離陣D2(0),見,見表表4所示。所示。 表表4 (2)D2(0)中最小的元素是中最小的元素是D212D2561,于是將,于是將G1和和G2合合并成并成G7,G5和和G6合并成合并成G8,并利用(,并利用(5.18
17、)式計算新類與)式計算新類與其它類的距離得到距離陣其它類的距離得到距離陣D2(1) ,見表,見表5: 其中,其中,其它結(jié)果類似可以求得其它結(jié)果類似可以求得 (3)在)在D2(1)中最小值是中最小值是D2344,那么,那么G3與與G4合并一個新合并一個新類類G9,其與與其它類的距離,其與與其它類的距離D2(2) ,見表,見表6: 表表6 (4)在中最小值是)在中最小值是12.5,那么與合并一個新類,其與與,那么與合并一個新類,其與與其它類的距離,見表其它類的距離,見表7:表表7 (5)最后將)最后將G7和和G10合并成合并成G11,這時所有的六個樣品聚為一類,這時所有的六個樣品聚為一類,其過程終
18、止。其過程終止。上述重心法聚類的可視化過程見圖上述重心法聚類的可視化過程見圖3所示,橫坐標的刻度表所示,橫坐標的刻度表示并類的距離。示并類的距離。圖圖3 重心聚類法的過程重心聚類法的過程G1=1G2=2G3=5G4=7G5=9G6=102412.5D1G9G7G8G10G115. 離差平方和法離差平方和法該方法是該方法是Ward提出來的,所以又稱為提出來的,所以又稱為Ward法。該方法的基法。該方法的基本思想來自于方差分析,如果分類正確,同類樣品的離差平本思想來自于方差分析,如果分類正確,同類樣品的離差平方和應(yīng)當較小,類與類的離差平方和較大。具體做法是先將方和應(yīng)當較小,類與類的離差平方和較大。
19、具體做法是先將n個樣品各自成一類,然后每次縮小一類,每縮小一類,離個樣品各自成一類,然后每次縮小一類,每縮小一類,離差平方和就要增大,選擇使方差增加最小的兩類合并,直到差平方和就要增大,選擇使方差增加最小的兩類合并,直到所有的樣品歸為一類為止。所有的樣品歸為一類為止。設(shè)將設(shè)將n個樣品分成個樣品分成k類類G1,G2,Gk,用,用Xit表示表示Gt中的第中的第I個樣品,個樣品,nt表示表示Gt中樣品的個數(shù),中樣品的個數(shù), 是是Gt的重心,則的重心,則Gt的樣品的樣品離差平方和為離差平方和為2112121nkkjnkkinkkjkiijxxxxCnknkjkjikinkjkjikiijxxxxxxxxr11221)()()(1、夾角余弦、夾角余弦2、相關(guān)系數(shù)、相關(guān)系數(shù)R型聚類統(tǒng)計量型聚類統(tǒng)計量 對兩個指標之間的相似程度用對兩個指標之間的相似程度用相關(guān)系數(shù)相關(guān)系數(shù)來刻劃,來刻劃,相關(guān)系數(shù)相關(guān)系數(shù)絕對
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度美甲店租賃合同(含美甲店品牌升級改造)
- 2025年度綠色建材貼牌生產(chǎn)與綠色建筑認證合同
- 二零二五年度商業(yè)保密協(xié)議書:航空航天領(lǐng)域技術(shù)保密與項目合作合同
- 2025年度環(huán)保產(chǎn)業(yè)渠道代理合同書
- 二零二五年度診所護士護理成果轉(zhuǎn)化聘用合同模板
- 2025年度認繳制股權(quán)轉(zhuǎn)讓協(xié)議書-文化創(chuàng)意產(chǎn)業(yè)股權(quán)變更合同
- 2025年度紙箱定制與智能包裝技術(shù)研發(fā)合同
- 2025年度高端餐廳股份合作經(jīng)營與管理合同
- 2025年度二零二五年度購房分期房地產(chǎn)稅收籌劃合同
- 2025年微金融合同模板
- 2025-2030年中國納米氧化鋁行業(yè)發(fā)展前景與投資戰(zhàn)略研究報告新版
- 2025年度正規(guī)離婚協(xié)議書電子版下載服務(wù)
- 2025年貴州蔬菜集團有限公司招聘筆試參考題庫含答案解析
- 2025年教科室工作計劃樣本(四篇)
- 春節(jié)后安全生產(chǎn)開工第一課
- 2025光伏組件清洗合同
- 電力電纜工程施工組織設(shè)計
- 《建筑與市政工程防水規(guī)范》解讀
- 2024年重慶市中考數(shù)學試題B卷含答案
- 醫(yī)生給病人免責協(xié)議書(2篇)
- 人教版(2024年新教材)七年級上冊英語Unit 7 Happy Birthday 單元整體教學設(shè)計(5課時)
評論
0/150
提交評論