版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
(PPT1,PPT2)同學(xué),你好,今天我們學(xué)習(xí)多元統(tǒng)計(jì)分析——聚類分析。由聚類分析的背景、親疏程度的度量、聚類分析模型、案例分析和模型應(yīng)用五個(gè)部分組成。(PPT3)先看第一部分聚類分析的背景。(PPT4)(動(dòng)畫1)生活中聚類的應(yīng)用場(chǎng)景很多,如,一位媽媽想購(gòu)買奶粉,在母嬰店里奶粉區(qū)域可找到想要購(gòu)買的奶粉,這里,母嬰店貨架商品的擺放就用到了聚類的思想。(動(dòng)畫2)又如很多商場(chǎng)開張,為了熱鬧氣氛,會(huì)對(duì)不同年齡段人群舉行不同的活動(dòng),如小朋友安排拼插積木,青少年安排室內(nèi)攀爬,成年人可安排觀看展廳、老年人可安排抽獎(jiǎng)等。這種按年齡安排活動(dòng)也用到了聚類的思想。(PPT5)下面我們給出聚類分析的基本思想(動(dòng)畫1)一般情況下,所研究的樣品或指標(biāo)之間存在不同程度的親疏關(guān)系。根據(jù)所給樣品的多個(gè)觀測(cè)指標(biāo),按照親疏關(guān)系將樣品或指標(biāo)按親疏關(guān)系逐一歸類,,關(guān)系密切的聚集到較小的一類,關(guān)系疏遠(yuǎn)的聚集到較大的一類,直到所有的樣品(或指標(biāo))都聚合完畢。上述思想正是聚類分析的基本思想。(動(dòng)畫2,3)那么,我們?cè)趺春饬繕悠坊蛑笜?biāo)間的親疏程度呢?(PPT6)下面我們介紹第二部分,親疏程度的度量,由樣品間相似性度量、變量間相似性度量、類間相似性度量三部分內(nèi)容構(gòu)成。(PPT7)先看樣品間相似性度量——距離的定義。(動(dòng)畫1)設(shè)第i個(gè)樣品記為x_i,是一個(gè)p維列向量,p表示樣品的觀測(cè)指標(biāo)的數(shù)量,即x_i=(x_i1,x_i2,...,x_ip),i=1,2,...,n。常見的樣品間距離有:(動(dòng)畫2)1)絕對(duì)值距離,定義為:d(x_i,x_j)=x_ik-x_jk的絕對(duì)值關(guān)于k從1到p求和,i,j取值從1到n。(動(dòng)畫3)2)歐氏距離,定義為:d(x_i,x_j)=根號(hào)下x_ik-x_jk的平方關(guān)于k從1到p求和。(動(dòng)畫4)3)明氏距離,定義為:d(x_i,x_j)=x_ik-x_jk的絕對(duì)值的m次方關(guān)于k從1到p求和的m分之一次方,m為大于0的常數(shù)。(動(dòng)畫5)4)切氏距離:定義為d(x_i,x_j)=x_ik-x_jk的絕對(duì)值關(guān)于k從1到p取最大值。(PPT8)接下來介紹變量間相似性度量——相關(guān)系數(shù)和夾角余弦(動(dòng)畫1)變量X_j和X_k的相關(guān)系數(shù)定義為(動(dòng)畫2)r_jk=樣本協(xié)方差除以樣本標(biāo)準(zhǔn)差的乘積。(動(dòng)畫3)變量X_j和X_k夾角余弦定義為(動(dòng)畫4)c_jk=X_j與X_k的數(shù)量積除以X_j與X_k的長(zhǎng)度的乘積。(PPT9)最后,我們介紹常見的類間相似性度量——類間距離的定義。(動(dòng)畫1)兩個(gè)類的最短距離定義為:D(G_1,G_2)=G_1類中的樣品與G_2類中的樣品的距離中的最小值(動(dòng)畫2)兩個(gè)類的最長(zhǎng)距離定義為:D(G_1,G_2)=G_1類中的樣品與G_2類中的樣品的距離中的最大值(動(dòng)畫3)類平均距離定義為:D(G_1,G_2)=G_1類中的樣品與G_2類中的樣品的所有距離之和除以距離的總數(shù)量。(動(dòng)畫4)重心距離定義為兩類中心的歐式距離。(PPT10)介紹了親疏程度的度量后,我們就可以進(jìn)行具體的計(jì)算了。接下來我們介紹第三部分,聚類分析模型。這里,我們主要介紹應(yīng)用比較廣泛的k均值聚類(又稱快速聚類)和層次聚類(又稱系統(tǒng)聚類)。(PPT11)先來看K-均值聚類。(動(dòng)畫1)如圖所示,給出了二維平面上的樣本點(diǎn)的k均值聚類,共分為3類,紅色圓線框表示類,紅色方形框表示類中心。(動(dòng)畫2)k均值聚類的基本思想是先隨機(jī)選取K個(gè)對(duì)象作為初始的聚類中心,然后計(jì)算每個(gè)對(duì)象與各聚類中心之間的距離,把每個(gè)對(duì)象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對(duì)象就代表一個(gè)聚類。一旦全部對(duì)象都被分配了,每個(gè)聚類的中心會(huì)重新計(jì)算。這個(gè)過程不斷重復(fù)直到滿足某個(gè)終止條件為止。(PPT12)(動(dòng)畫1)下面,我們給出k均值聚類的計(jì)算步驟:(動(dòng)畫2)1)隨機(jī)選取K個(gè)對(duì)象作為初始聚類中心;(動(dòng)畫3)2)將數(shù)據(jù)樣本集合中的樣本按照最小距離原則分配到最鄰近聚類;(動(dòng)畫4)3)根據(jù)聚類的結(jié)果,重新計(jì)算K個(gè)聚類的平均值,并作為新的聚類中心;(動(dòng)畫5)4)重復(fù)2)、3)步直到聚類中心不再變化。(動(dòng)畫6)K-均值聚類的優(yōu)點(diǎn)是:計(jì)算速度快(動(dòng)畫7)其缺點(diǎn)是:結(jié)果依賴于均值的初始值;對(duì)噪聲和離群點(diǎn)非常敏感。(ppt13)接下來介紹層次聚類(動(dòng)畫1)圖1層次聚類是目前應(yīng)用比較廣泛的一種聚類方法。它是根據(jù)生物分類學(xué)的思想對(duì)研究對(duì)象進(jìn)行分類的方法。在生物分類學(xué)中,分類的單位是:界、門、綱、目、科、屬、種,其中種是分類的基本單位,分類單位越小,它所包含的生物就越少,生物之間的共同特征就越多。(動(dòng)畫2)基本思想可敘述如下:層次聚類首先將每個(gè)樣品看成一類,然后把最相似的樣品聚集為小類,再把已聚合的小類按各類之間的相似性進(jìn)行再聚合,隨著相似性的減弱最后將一切子類都聚為一大類,從而得到一個(gè)按相似性大小聚合起來的層次圖。(PPT14)(動(dòng)畫1)下面給出層次聚類的具體計(jì)算步驟(動(dòng)畫2)1)將n個(gè)樣本點(diǎn)各看成一類,計(jì)算n個(gè)樣本點(diǎn)兩兩之間的距離;(動(dòng)畫3)2)合并距離最近的兩類為新類,并且以兩類間的距離為聚類圖中的平臺(tái)高度;(動(dòng)畫4)3)計(jì)算新類與當(dāng)前各類的距離,若類的個(gè)數(shù)已為1,轉(zhuǎn)入第4)步,否則,回到步驟2);(動(dòng)畫5)4)畫聚類圖;(動(dòng)畫6)5)決定類的個(gè)數(shù)和類。(ppt15)接下來我們來看一個(gè)具體的例子。通過案例分析,我們對(duì)k-均值聚類和層次聚類有一個(gè)進(jìn)一步的了解。(PPT16)(動(dòng)畫1)由于我國(guó)各地區(qū)經(jīng)濟(jì)發(fā)展水平不均衡,加之高等院校原有布局使各地區(qū)高等教育發(fā)展的起點(diǎn)不一致,因而各地區(qū)普通高等教育的發(fā)展水平存在一定的差異,不同的地區(qū)具有不同的特點(diǎn)。請(qǐng)對(duì)我國(guó)各地區(qū)普通高等教育的發(fā)展?fàn)顩r進(jìn)行綜合評(píng)價(jià)。 參與評(píng)價(jià)的十個(gè)指標(biāo)各自含義見表1,指標(biāo)的原始數(shù)據(jù)除以各地區(qū)相應(yīng)的人口數(shù)得到的十項(xiàng)指標(biāo)值見表2。(PPT17)(動(dòng)畫1)先來看各個(gè)的指標(biāo)含義x1表示每百萬(wàn)人口高等院校數(shù)x2表示每十萬(wàn)人口高等院校畢業(yè)生數(shù)x3表示每十萬(wàn)人口高等院校招生數(shù)x4表示每十萬(wàn)人口高等院校在校生數(shù)x5表示每十萬(wàn)人口高等院校教職工數(shù)X6表示每十萬(wàn)人口高等院校專職教師數(shù)X7表示高級(jí)職稱占專職教師的比例X8表示平均每所高等院校的在校生數(shù)X9表示高教經(jīng)費(fèi)占國(guó)內(nèi)生產(chǎn)總值的比重X10表示生均教育經(jīng)費(fèi)(PPT18,PPT19)各地區(qū)高等教育發(fā)展?fàn)顩r數(shù)據(jù)見表2(PPT20)定性考察反映高等教育發(fā)展?fàn)顩r的10項(xiàng)評(píng)價(jià)指標(biāo),可以看出,某些指標(biāo)可能存在較強(qiáng)的相關(guān)性。比如x2-每10萬(wàn)人口高等院校畢業(yè)生數(shù)、x3-每10萬(wàn)人口高等院校招生數(shù)與x4-每10萬(wàn)人口高等院校在校生數(shù)之間可能存在很強(qiáng)的相關(guān)性,為驗(yàn)證這種想法,先對(duì)指標(biāo)進(jìn)行聚類分析。(動(dòng)畫1)作出10個(gè)指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化后的相關(guān)系數(shù)表如表3所示:(動(dòng)畫2)表3數(shù)據(jù)從數(shù)據(jù)中可以看出,每10萬(wàn)人口高等院校招生數(shù)x3、每10萬(wàn)人口高等院校在校生數(shù)x4、每10萬(wàn)人口高等院校教職工數(shù)x5、每10萬(wàn)人口高等院校專職教師數(shù)x6、每10萬(wàn)人口高等院校畢業(yè)生數(shù)x25個(gè)指標(biāo)之間有最強(qiáng)的相關(guān)性,最先被聚到一起。(PPT21)(動(dòng)畫1)如果將10個(gè)指標(biāo)分為6類,x2-x6為一類,其他5個(gè)指標(biāo)各自為一類,這樣就從10個(gè)指標(biāo)中選定了6個(gè)分析指標(biāo)。(動(dòng)畫2)分別記為x1-為每百萬(wàn)人口高等院校數(shù)(原x1);x2-為每10萬(wàn)人口高等院校畢業(yè)生數(shù)(原x2);x3-為高級(jí)職稱占專職教師比例(原x7);x4-為平均每所高等院校的在校生數(shù)(原x8);x5-普通高等教育經(jīng)費(fèi)占國(guó)內(nèi)生產(chǎn)總值的比例(原x9);x6-為生均教育經(jīng)費(fèi)(原x10)。簡(jiǎn)化后根據(jù)這6個(gè)指標(biāo)對(duì)表2中的30個(gè)地區(qū)進(jìn)行聚類分析。當(dāng)我們考慮對(duì)上述數(shù)據(jù)進(jìn)行k-均值聚類時(shí),我們發(fā)現(xiàn)運(yùn)行的結(jié)果有多種,原因是k-均值聚類對(duì)初值的選取非常敏感。因此,接下來我們只展示層次聚類的結(jié)果。(PPT22)(動(dòng)畫1)基于6個(gè)指標(biāo)的30個(gè)地區(qū)的標(biāo)準(zhǔn)化數(shù)據(jù),樣本間相似性采用歐氏距離度量,類間距離的計(jì)算選用類平均法。根據(jù)層次聚類步驟,可得聚類樹型圖如下圖所示。(動(dòng)畫2)圖該圖中橫坐標(biāo)的數(shù)目代表的是基于表2的城市編號(hào),基于聚類圖,可以根據(jù)需要將其分成2類,3類等。(PPT23)(動(dòng)畫1)接下來對(duì)結(jié)果進(jìn)行詳細(xì)的分析:(動(dòng)畫2)如果根據(jù)各地區(qū)高等教育發(fā)展?fàn)顩r把30個(gè)地區(qū)分為二類,結(jié)果為:第一類—北京;第二類—其他地區(qū)。(動(dòng)畫3)如果根據(jù)各地區(qū)高等教育發(fā)展?fàn)顩r把30個(gè)地區(qū)分為三類,結(jié)果為:第一類—北京;第二類—西藏;第三類—其他地區(qū)。(動(dòng)畫4)如果根據(jù)各地區(qū)高等教育發(fā)展?fàn)顩r把30個(gè)地區(qū)分為四類,結(jié)果為:第一類—北京;第二類—西藏;第三類—上海、天津;第四類—其他地區(qū)。(PPT24)(動(dòng)畫1)最后我們簡(jiǎn)單介紹第5部分模型應(yīng)用(PPT25)(動(dòng)畫1)聚類分析還可用于對(duì)不同地區(qū)城鎮(zhèn)、農(nóng)村居民收入或者消費(fèi)情況進(jìn)行分析,一般不是逐個(gè)省、市、自治區(qū)去分析,較好的做法是選取能反映收入
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 有檁鋼屋架課程設(shè)計(jì)6
- 測(cè)控裝置課程設(shè)計(jì)
- 牛的飼養(yǎng)飼料資源高效利用與可持續(xù)發(fā)展政策研究及優(yōu)化策略考核試卷
- 有關(guān)基金投資的課程設(shè)計(jì)
- 電子電路的精密測(cè)量技巧考核試卷
- 電影道具機(jī)械設(shè)計(jì)的生命周期評(píng)估考核試卷
- 2024年度廣西壯族自治區(qū)國(guó)家保安員資格考試??寄M試題(全優(yōu))
- 搪瓷制品在汽車行業(yè)中的創(chuàng)新研究考核試卷
- 硫酸鉛在涂料添加劑中的作用與應(yīng)用考核試卷
- 環(huán)保技術(shù)項(xiàng)目實(shí)施的質(zhì)量控制體系考核試卷
- 企業(yè)公司簡(jiǎn)介模板課件
- 第八版糖尿病教學(xué)
- 骨質(zhì)疏松的中醫(yī)中藥治療
- 衛(wèi)浴銷售部門年終總結(jié)
- 5人制足球裁判培訓(xùn)
- 人教A版(新教材)高中數(shù)學(xué)選擇性必修第三冊(cè)學(xué)案2:7 1 1 條件概率
- 藥房質(zhì)量方針和目標(biāo)管理制度
- 職業(yè)技術(shù)學(xué)院《智能化成本核算與管理》課程標(biāo)準(zhǔn)
- 《如果超載電梯?!方虒W(xué)設(shè)計(jì)
- 防火門工程施工組織設(shè)計(jì)方案
- 期末(試題)-2024-2025學(xué)年北師大版(三起)(2024)英語(yǔ)三年級(jí)上冊(cè)
評(píng)論
0/150
提交評(píng)論