版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
聚類分析一、聚類分析(ClusterAnalysis)簡(jiǎn)介聚類分析是直接比較各事物之間的性質(zhì),將性質(zhì)相近的歸為一類,將性質(zhì)差別較大的歸入不同的類的分析技術(shù)。數(shù)理統(tǒng)計(jì)中的數(shù)值分類有兩種問題:
判別分析:已知分類情況,將未知個(gè)體歸入正確類別
聚類分析:分類情況未知,對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行分類基本思想
聚類分析的基本思想:對(duì)所研究的樣品或指標(biāo)(變量)之間存在著程度不同的相似性(或親疏關(guān)系)。(1)根據(jù)一批樣品的多個(gè)指標(biāo),具體找出一些能夠度量樣品或指標(biāo)之間的相似程度的統(tǒng)計(jì)量。(2)以這些統(tǒng)計(jì)量為分類的依據(jù),把一些相似程度較大的樣品(或指標(biāo))聚合為一類。把另一些彼此之間相似程度較大的樣品(或指標(biāo))聚合為另一類。
基本思想
按相似程度的大小把關(guān)系密切的樣品聚合到一個(gè)小的分類單位,關(guān)系疏遠(yuǎn)的樣品聚合到一個(gè)大的分類單位,直到把所有的樣品(或指標(biāo))都聚合完畢。把不同的類型一一劃分出來,形成一個(gè)由小到大的分類系統(tǒng)。再把整個(gè)分類系統(tǒng)畫成一張分群圖(又稱譜系圖),用它把所有樣品(或指標(biāo))間的親疏關(guān)系表示出來。要做聚類分析,首先得按照我們聚類的目的,從對(duì)象中提取出能表現(xiàn)這個(gè)目的的特征指標(biāo);然后根據(jù)親疏程度進(jìn)行分類。聚類分析根據(jù)分類對(duì)象的不同可分為Q型和R型兩大類Q型是對(duì)樣本進(jìn)行分類處理,其作用在于:具有共同特點(diǎn)的樣本聚在一起所得結(jié)果比傳統(tǒng)的定性分類方法更細(xì)致、全面、合理二、聚類對(duì)象R型是對(duì)變量進(jìn)行分類處理,其作用在于:可以了解變量間及變量組合間的親疏關(guān)系可以根據(jù)變量的聚類結(jié)果及它們之間的關(guān)系,選擇主要變量進(jìn)行回歸分析或Q型聚類分析2相似性度量進(jìn)行“相關(guān)性”或“相似性”度量。在相似性度量中常常包含有許多主觀上的考慮,但是最重要的是考慮指標(biāo)性質(zhì)或觀測(cè)的尺度。
當(dāng)樣品進(jìn)行聚類時(shí),“靠近”往往是距離。同時(shí)對(duì)指標(biāo)進(jìn)行聚類時(shí),根據(jù)相關(guān)系數(shù)或某種關(guān)聯(lián)性度量來聚類。Q型樣品間的“相似性”度量—距離
設(shè)每個(gè)樣品有p個(gè)指標(biāo),觀察值記為(1)每個(gè)樣品可看成是p維空間的一個(gè)點(diǎn)。于是,可用各點(diǎn)之間的距離來衡量各樣品點(diǎn)之間的接近程度。
樣品和之間的距離,一般應(yīng)滿足如下條件:(ⅰ),且時(shí)當(dāng)且僅當(dāng);(ⅱ);(ⅲ);
有時(shí)所用的距離不滿足(ⅲ),但在廣義的角度上仍稱為距離。常用的距離有如下幾種:
3、明考斯基距離(Minkowski)1、絕對(duì)距離(Block距離)2、歐氏距離(Euclideandistance)4、切比雪夫距離(Chebychev)6.馬氏距離5.數(shù)據(jù)的標(biāo)準(zhǔn)化以上距離與各變量的量綱有關(guān),為了消除量綱的影響,可對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化。
例1歐洲各國(guó)的語(yǔ)言有許多相似之處,有的十分相似。為了研究這些語(yǔ)言的歷史關(guān)系,也許通過比較他們數(shù)字的表達(dá)式比較恰當(dāng)。表列舉出英語(yǔ),挪威語(yǔ),丹麥語(yǔ),荷蘭語(yǔ),德語(yǔ),法語(yǔ),西班牙語(yǔ),意大利語(yǔ),波蘭語(yǔ),匈牙利語(yǔ)和芬蘭語(yǔ)的1,2,…,10的拼法,希望計(jì)算這11種語(yǔ)言之間的語(yǔ)言的距離.11種歐洲語(yǔ)言的數(shù)詞選擇適用的距離在聚類分析中通常要結(jié)合實(shí)際問題來選擇適用的距離,有時(shí)應(yīng)根據(jù)實(shí)際問題定義新的距離,顯然,本例無(wú)法直接用上述公式來計(jì)算距離。但可以發(fā)現(xiàn)前三種文字(英、挪、丹)很相似,特別是每個(gè)單詞的第一個(gè)字母??梢杂?0個(gè)數(shù)詞中第一個(gè)字母不同的個(gè)數(shù)來定義兩種語(yǔ)言之間的距離。例如:英語(yǔ)和挪威語(yǔ)中只有1和8的第一個(gè)字母不同,則它們之間的距離為2。1、夾角余弦2、相關(guān)系數(shù)R型聚類統(tǒng)計(jì)量
對(duì)兩個(gè)指標(biāo)之間的相似程度用相似系數(shù)來刻劃,相似系數(shù)絕對(duì)對(duì)值越接近于1,表示指標(biāo)間的關(guān)系越密切,絕對(duì)值越接近于0,表示指標(biāo)間的關(guān)系越疏遠(yuǎn).三系統(tǒng)漠聚類畢分析1.系統(tǒng)梯聚類態(tài)分析目的基胞本思訓(xùn)想是銀:距離磁相近驅(qū)的樣另品(款或變?nèi)浚┕蜗染弁深愃?,距躲離相遠(yuǎn)包的后聚成汗類,潑過程鋪一直摔下去體,每糊個(gè)樣通品(仰或變量阿)總術(shù)能聚銹到合晶適的屬類中悠。系統(tǒng)期聚類奔分析部過程葵是:假設(shè)篩總共占有n個(gè)樣貨品(攀或變?nèi)剂浚┢妫谘嬉徊借b將每個(gè)樣妥品(觸或變苦量)鋪獨(dú)自鋼聚成望一類艱,共賢有n類;第二而步根論據(jù)所櫻確定銷的樣劇品(房誠(chéng)或變旱量)虹“距贊離”泄公式見,將距賣離較壘近的否兩個(gè)窮樣品桃(或赤變量雕)聚揪合為姨一類互,其他樣凳品(搏或變嗽量)擠仍各鋤自聚玻為一腿類,霞共有n-1類;第三販步將恭“距光離”威最近找的兩唐個(gè)類流進(jìn)一嚼步聚盛成一繁類,滴共聚成n-2類;……以上源步驟偏一直濁進(jìn)行輝下去蹲,最后將所閥有的杰樣品驢或變此量)醋聚成趁一類撇。將整償個(gè)分炸類系源統(tǒng)地頭畫成拉一張借譜系龜圖,免所以燙有時(shí)系統(tǒng)器聚類字分析也叫譜系康聚類浴分析。2.類間幼距離首先倚定義押類與紡類之檢間地伙距離屆,又偶類間醋的距紋離定趁義不同己產(chǎn)生面不同繞的系扮統(tǒng)聚糟類分援析。椅常見廢的類此間的攪距離有法。質(zhì)它們安的歸抓類步陡驟基衣本是順一致浸的。8種之柔多,今與之嗎相應(yīng)籃的系憲統(tǒng)聚森類分栽析也伯有8種之雖多、分別宿為最艦短距淚離法互、最擋長(zhǎng)距耍離法捎、中寒間距讀離法透、重生心法、尾類平喉均法藍(lán)、可躬變類勵(lì)平均萄法、鞠可變機(jī)法和紙離差株平方租和用i罷,荒j表示臂樣品丑。用保表示辱與嘩之失間的掩距離,用農(nóng)與滿表示配兩個(gè)咽類,所包柳含的煎樣品體數(shù)分妨別為與惡之促間的觀距離刷用犧表偶示。仙下面林給出捎四種割最?;庞玫木哳惻c澇類之貨間距燙離的養(yǎng)定義饅。1、最慕短距桑離(Ne席ar編es暈t貓Ne舟ig身hb破or霜)x21?x12?x22?x11?即定乞義變與搏之間磨的距錘離為扎與泊中怕最近超的兩櫻個(gè)樣之品的足距離按。類與事類之垃間的雹最短悄距離繳有如方下的豆遞推衡公式輕。設(shè)弄由畜與合并匆而成,則飾與其架它類渾的最減短距味離為1、根據(jù)貸樣品衫的特燙征,冊(cè)規(guī)定石樣品患之間脅的距煌離形,倦共有遷個(gè)社。將論所有朱列表森,記刪為D(0)表,燭該表趙是一噴張對(duì)鞠稱表找。所虜有的作樣本靈點(diǎn)各下自為詞一類劫。2、選擇D(0)表中伙最小按的非奔零數(shù)臟,不憤妨假湖設(shè)把,于敬是將薯和鐵合踩并為弓一類分,記行為奮。開始況各樣稍本自套成一筑類最短微距離嚼法進(jìn)杜行聚鑼類分難析的樹步驟贏如下晴:3、利梯用遞妄推公口式計(jì)侄算新晃類與腎其它恩類之馬間的嬌距離昂。分肢別刪除D(0)表的露第p,q行和猴第p,q列,害并新披增一征行和師一列忽添上媽的結(jié)順果,辰產(chǎn)生D(1)表。4、在D(1)表艇再選載擇最小的非咸零數(shù)唯,其寬對(duì)應(yīng)啟的兩減類有記構(gòu)成鐵新類忘,再稼利用伍遞推雅公式扯計(jì)算作新類飲與其狐它類捉之間世的距浴離。貫分別鴨刪除D(1)表廣的相冶應(yīng)的創(chuàng)行和傍列,急并新鼓增一斧行和疑一列北添上赴的新忽類和慈舊類絲式之間后的距以離。蛛結(jié)果避,產(chǎn)堵生D(2)表遼。類吵推直自至所碑有的遮樣本誦點(diǎn)歸伏為一混類為角止。最短開距離墊法進(jìn)節(jié)行聚服類分神析的東步驟掉如下因:(1)定義局樣品紅之間由的距冰離(2)找出距離最小元素,設(shè)為,則將
合并成一新類記為
,記為
(3)按上式計(jì)糧算新扎類與鹿其他解類之持間的神距離完。(4)欄重復(fù)勒(2),蝦(3)的痕步驟注,直繳到將抹所有座元素并成勾一類膠為止喬。(如果均某一略步距勿離最華小的托元素也不止使一個(gè)害,則裁將對(duì)應(yīng)這蟻些最霉小元撇素的腹類可溫以同剩時(shí)合翅并)例2設(shè)有6個(gè)樣觀品,慰每個(gè)件只測(cè)菠一個(gè)釘指標(biāo)顯,分普別是1,2,5,7,9,10,試克采用絕對(duì)情值距離清用最短疾距離法將瞎它們甲進(jìn)行竭分類已。解徐(1)樣參品首紫先采介用絕跳對(duì)值復(fù)距離黨,計(jì)炮算樣孕品之間的累距離學(xué)陣為D(0變).G1G2G3G4G5G6G10G210G3430G46520G587420G6985210D(0潑)G2={2}G1={1}G3={5}G4={7}G5={9}G6={10}G7G8G9G10123D2.最長(zhǎng)缸距離袖(Fu攻rt小he過stNe況ig頃hb鐮or)???x11?x21????即定墊義漠與夏之間針的距樸離為接與吩中辜最遠(yuǎn)冬的兩號(hào)個(gè)樣駝品的劣距離陵。類與縫類之炸間的抬最長(zhǎng)暈距離砍有如仗下的劑遞推超公式咽。設(shè)止由摟與合并養(yǎng)而成,則鋼到永的雕最長(zhǎng)用距離柜為2.最長(zhǎng)盤距離枝(Fu援rt助he雁st所N首ei離gh極bo餓r)??????組間喪平均烏連接劑(Be帆tw毫ee對(duì)n-恒gr論ou姨p忠Li清nk難ag舊e)3.類平簽均距揀離組內(nèi)倒平均據(jù)連接疤法(Wi確th漿in丹-g離ro度up笛L帥in稿ka因ge叛)x21?x12?x22?x11?3.類平做均距催離4.重心稱法(Ce稍nt唐ro起idcl犧us黑te水ri傅ng皇):均值風(fēng)點(diǎn)的挖距離??將p和q合并穿為k,則k類的袖樣品燭個(gè)數(shù)床為它的畝重心適是某一類r的重心是,它找與新悉類k的距攏離是經(jīng)推番導(dǎo)可奏以得擺到如暮下遞冰推公依式:設(shè)聚類到某一步,類p與q分別有樣品、個(gè),例2設(shè)有6個(gè)樣啞品,絲式每個(gè)選只測(cè)溜一個(gè)傅指標(biāo)混,分候別是1,2,5,7,9,10,試羊采用福歐氏產(chǎn)距離嘗的平蝕方,試用賠重心專法將折它們護(hù)進(jìn)行統(tǒng)分類滋。G1G2G3G4G5G6G10G210G31690G4362540G564491640G6816425910D2(0墊)G7G3G4G8G70G312.250G430.2540G86420.256.250D2(1縫)其中D2(2國(guó))G7G9G8G70G920.250G86412.250D2(3碌)G7G10G70G1039.06250G1={1}G2={2}G3={5}G4={7}G5={9}G6={10}2412.5D1G9G7G8G10G115.動(dòng)態(tài)亂聚類加法(擦快速普聚類澤法)系統(tǒng)時(shí)聚類坐法是一騰種比血較成始功的辣聚類貌方法樂。然窗而當(dāng)譯樣本如點(diǎn)數(shù)級(jí)量十素分龐大時(shí),觀則是骨一件章非常側(cè)繁重楊的工馳作,斃且聚年類的疲計(jì)算安速度賴也比附較慢渠。比如手在市毀場(chǎng)抽邁樣調(diào)拘查中景,有4萬(wàn)人暈就其圓對(duì)衣已著的裂偏好惜作了竿回答瀉,希倍望能會(huì)迅速甲將他選們分勻?yàn)閹追觐?。這時(shí)織,采齡用系到統(tǒng)聚捐類法阻就很閱困難酸,而抽動(dòng)態(tài)碗聚類筑法就芹會(huì)顯頑得方波便,奇適用舟。動(dòng)態(tài)懲聚類票使用最于大擊型數(shù)暈據(jù)。基本議思想咸:選郊取若嫁干個(gè)森樣品惱作為由凝聚蠢點(diǎn),寄計(jì)算堵每個(gè)甩樣品閑和凝沸聚點(diǎn)愿的距樂離,嚇進(jìn)行贊初始蘿分類鈴,然魔后根炕據(jù)初深始分喚類計(jì)線算其栽重心昌,再駐進(jìn)行壯第二季次分諒類,尿一直矩到所秤有樣冰品不脾再調(diào)兼整為承止。選擇潤(rùn)凝聚俊點(diǎn)分茫類修改去分類分類晉是否御合理分類濱結(jié)束Ye襖sNo用一播個(gè)簡(jiǎn)陷單的飛例子暫來說石明動(dòng)牲態(tài)聚紋類法隊(duì)的工拘作過翻程。棉例如凳我們漁要把球圖中節(jié)的點(diǎn)坑分成虎兩類韻??焖俸稻垲悓牟脚铙E:1、隨會(huì)機(jī)選唐取兩活個(gè)點(diǎn)燒和墾作為停凝聚刻點(diǎn)。2、對(duì)圍于任鹿何點(diǎn)遠(yuǎn),駛分別摩計(jì)算3、若貼,約則將圍劃為廊第一幫類,灘否則勞劃給死第二旨類。4、分別計(jì)算兩個(gè)類的重心,則得和,以其為新的凝聚點(diǎn),對(duì)空間中的點(diǎn)進(jìn)行重新分類,得到新分類。(b)任取兩個(gè)凝聚點(diǎn)(c)第一次分類(d)求各類中心(a)空間的群點(diǎn)(e百)第二自次分糠類動(dòng)態(tài)荷聚類旁法優(yōu)點(diǎn)噴:計(jì)覽算量曾小,置方法趨簡(jiǎn)便偷,可撞以根屠據(jù)經(jīng)偽驗(yàn),蜻先作垮主觀炭分類偷。缺點(diǎn)田:結(jié)喊果受小選擇稍凝聚嗽點(diǎn)好忙壞的堅(jiān)影響紗,分焦類結(jié)酷果不犁穩(wěn)定穿。第一脫,選稅擇凝爛聚點(diǎn)客;第二閥,初私始分嫩類;對(duì)于圈取定鞋的凝售聚點(diǎn)幻玉,視隨每個(gè)城凝聚渠點(diǎn)為胸一類戶,將械每個(gè)設(shè)樣品角根據(jù)類定義況的距勉離向樓最近湊的凝桶聚點(diǎn)酬歸類世。第三臂,修文改分欄類得到簡(jiǎn)初始羨分類紛,計(jì)綠算各兇類的閃重心乳,以揚(yáng)這些節(jié)重心帆作為宋新的穴凝聚雜點(diǎn),肯重新忘進(jìn)行裕分類煎,重別復(fù)步掏驟2,3,直纖到分點(diǎn)類的疫結(jié)果址與上脹一步員的分加類結(jié)成果相郊同,資表明厚分類鞠已經(jīng)賠合理鈴為止殖。動(dòng)態(tài)塵聚類伐法的館基本戚步驟富:例3:某閥商店5位售缸貨員氧的銷膛售量爹和教建育程猾度如揭下表諷:售貨員12345銷售量(千件)116
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年轎車短期租賃服務(wù)協(xié)議與車輛交付明細(xì)版
- 2025年度宗教場(chǎng)地租賃合同中的活動(dòng)安排與宗教儀式規(guī)范3篇
- 2024甲乙雙方關(guān)于砌體工程勞務(wù)合作的合同
- 2024年金蝶人力資源報(bào)表分析系統(tǒng)訂購(gòu)
- 2024年食品飲料銷售合同英文規(guī)范文本3篇
- 2024年適用:有機(jī)農(nóng)產(chǎn)品生產(chǎn)與銷售合同
- 2024許娣與配偶離婚協(xié)議書及財(cái)產(chǎn)分割協(xié)議書2篇
- 2024年股東撤資協(xié)議:股權(quán)份額轉(zhuǎn)讓合同
- 2024年生態(tài)環(huán)境保護(hù)與修復(fù)項(xiàng)目采購(gòu)合同3篇
- 北京市自然科學(xué)基金資助項(xiàng)目結(jié)題報(bào)告【模板】
- JCT 871-2023 鍍銀玻璃鏡 (正式版)
- 國(guó)家開放大學(xué)(機(jī)電控制工程基礎(chǔ))試題
- 中建項(xiàng)目管理手冊(cè)2023年
- 2024年湖南省益陽(yáng)市初中學(xué)業(yè)水平考試物理模擬試卷
- 2024-2030年中國(guó)產(chǎn)業(yè)園區(qū)輕資產(chǎn)運(yùn)營(yíng)行業(yè)市場(chǎng)發(fā)展分析及運(yùn)營(yíng)模式與企業(yè)案例研究報(bào)告
- 新人教版七年級(jí)上冊(cè)《生物》期末考試卷及答案【下載】
- JC-T 746-2023 混凝土瓦標(biāo)準(zhǔn)規(guī)范
- 如何落實(shí)管業(yè)務(wù)必須管安全
- 四年級(jí)上冊(cè)三位數(shù)乘除兩位數(shù)計(jì)算題
- MOOC 果樹栽培學(xué)總論-西北農(nóng)林科技大學(xué) 中國(guó)大學(xué)慕課答案
- 2024風(fēng)力發(fā)電機(jī)組 整機(jī)一階調(diào)諧質(zhì)量阻尼器
評(píng)論
0/150
提交評(píng)論