(5.2.5)-3.3 聚類分析-高等教育發(fā)展評價_第1頁
(5.2.5)-3.3 聚類分析-高等教育發(fā)展評價_第2頁
(5.2.5)-3.3 聚類分析-高等教育發(fā)展評價_第3頁
(5.2.5)-3.3 聚類分析-高等教育發(fā)展評價_第4頁
(5.2.5)-3.3 聚類分析-高等教育發(fā)展評價_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

(PPT1,PPT2)同學(xué),你好,今天我們學(xué)習(xí)多元統(tǒng)計分析——聚類分析。由聚類分析的背景、親疏程度的度量、聚類分析模型、案例分析和模型應(yīng)用五個部分組成。(PPT3)先看第一部分聚類分析的背景。(PPT4)(動畫1)生活中聚類的應(yīng)用場景很多,如,一位媽媽想購買奶粉,在母嬰店里奶粉區(qū)域可找到想要購買的奶粉,這里,母嬰店貨架商品的擺放就用到了聚類的思想。(動畫2)又如很多商場開張,為了熱鬧氣氛,會對不同年齡段人群舉行不同的活動,如小朋友安排拼插積木,青少年安排室內(nèi)攀爬,成年人可安排觀看展廳、老年人可安排抽獎等。這種按年齡安排活動也用到了聚類的思想。(PPT5)下面我們給出聚類分析的基本思想(動畫1)一般情況下,所研究的樣品或指標之間存在不同程度的親疏關(guān)系。根據(jù)所給樣品的多個觀測指標,按照親疏關(guān)系將樣品或指標按親疏關(guān)系逐一歸類,,關(guān)系密切的聚集到較小的一類,關(guān)系疏遠的聚集到較大的一類,直到所有的樣品(或指標)都聚合完畢。上述思想正是聚類分析的基本思想。(動畫2,3)那么,我們怎么衡量樣品或指標間的親疏程度呢?(PPT6)下面我們介紹第二部分,親疏程度的度量,由樣品間相似性度量、變量間相似性度量、類間相似性度量三部分內(nèi)容構(gòu)成。(PPT7)先看樣品間相似性度量——距離的定義。(動畫1)設(shè)第i個樣品記為x_i,是一個p維列向量,p表示樣品的觀測指標的數(shù)量,即x_i=(x_i1,x_i2,...,x_ip),i=1,2,...,n。常見的樣品間距離有:(動畫2)1)絕對值距離,定義為:d(x_i,x_j)=x_ik-x_jk的絕對值關(guān)于k從1到p求和,i,j取值從1到n。(動畫3)2)歐氏距離,定義為:d(x_i,x_j)=根號下x_ik-x_jk的平方關(guān)于k從1到p求和。(動畫4)3)明氏距離,定義為:d(x_i,x_j)=x_ik-x_jk的絕對值的m次方關(guān)于k從1到p求和的m分之一次方,m為大于0的常數(shù)。(動畫5)4)切氏距離:定義為d(x_i,x_j)=x_ik-x_jk的絕對值關(guān)于k從1到p取最大值。(PPT8)接下來介紹變量間相似性度量——相關(guān)系數(shù)和夾角余弦(動畫1)變量X_j和X_k的相關(guān)系數(shù)定義為(動畫2)r_jk=樣本協(xié)方差除以樣本標準差的乘積。(動畫3)變量X_j和X_k夾角余弦定義為(動畫4)c_jk=X_j與X_k的數(shù)量積除以X_j與X_k的長度的乘積。(PPT9)最后,我們介紹常見的類間相似性度量——類間距離的定義。(動畫1)兩個類的最短距離定義為:D(G_1,G_2)=G_1類中的樣品與G_2類中的樣品的距離中的最小值(動畫2)兩個類的最長距離定義為:D(G_1,G_2)=G_1類中的樣品與G_2類中的樣品的距離中的最大值(動畫3)類平均距離定義為:D(G_1,G_2)=G_1類中的樣品與G_2類中的樣品的所有距離之和除以距離的總數(shù)量。(動畫4)重心距離定義為兩類中心的歐式距離。(PPT10)介紹了親疏程度的度量后,我們就可以進行具體的計算了。接下來我們介紹第三部分,聚類分析模型。這里,我們主要介紹應(yīng)用比較廣泛的k均值聚類(又稱快速聚類)和層次聚類(又稱系統(tǒng)聚類)。(PPT11)先來看K-均值聚類。(動畫1)如圖所示,給出了二維平面上的樣本點的k均值聚類,共分為3類,紅色圓線框表示類,紅色方形框表示類中心。(動畫2)k均值聚類的基本思想是先隨機選取K個對象作為初始的聚類中心,然后計算每個對象與各聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對象就代表一個聚類。一旦全部對象都被分配了,每個聚類的中心會重新計算。這個過程不斷重復(fù)直到滿足某個終止條件為止。(PPT12)(動畫1)下面,我們給出k均值聚類的計算步驟:(動畫2)1)隨機選取K個對象作為初始聚類中心;(動畫3)2)將數(shù)據(jù)樣本集合中的樣本按照最小距離原則分配到最鄰近聚類;(動畫4)3)根據(jù)聚類的結(jié)果,重新計算K個聚類的平均值,并作為新的聚類中心;(動畫5)4)重復(fù)2)、3)步直到聚類中心不再變化。(動畫6)K-均值聚類的優(yōu)點是:計算速度快(動畫7)其缺點是:結(jié)果依賴于均值的初始值;對噪聲和離群點非常敏感。(ppt13)接下來介紹層次聚類(動畫1)圖1層次聚類是目前應(yīng)用比較廣泛的一種聚類方法。它是根據(jù)生物分類學(xué)的思想對研究對象進行分類的方法。在生物分類學(xué)中,分類的單位是:界、門、綱、目、科、屬、種,其中種是分類的基本單位,分類單位越小,它所包含的生物就越少,生物之間的共同特征就越多。(動畫2)基本思想可敘述如下:層次聚類首先將每個樣品看成一類,然后把最相似的樣品聚集為小類,再把已聚合的小類按各類之間的相似性進行再聚合,隨著相似性的減弱最后將一切子類都聚為一大類,從而得到一個按相似性大小聚合起來的層次圖。(PPT14)(動畫1)下面給出層次聚類的具體計算步驟(動畫2)1)將n個樣本點各看成一類,計算n個樣本點兩兩之間的距離;(動畫3)2)合并距離最近的兩類為新類,并且以兩類間的距離為聚類圖中的平臺高度;(動畫4)3)計算新類與當前各類的距離,若類的個數(shù)已為1,轉(zhuǎn)入第4)步,否則,回到步驟2);(動畫5)4)畫聚類圖;(動畫6)5)決定類的個數(shù)和類。(ppt15)接下來我們來看一個具體的例子。通過案例分析,我們對k-均值聚類和層次聚類有一個進一步的了解。(PPT16)(動畫1)由于我國各地區(qū)經(jīng)濟發(fā)展水平不均衡,加之高等院校原有布局使各地區(qū)高等教育發(fā)展的起點不一致,因而各地區(qū)普通高等教育的發(fā)展水平存在一定的差異,不同的地區(qū)具有不同的特點。請對我國各地區(qū)普通高等教育的發(fā)展狀況進行綜合評價。 參與評價的十個指標各自含義見表1,指標的原始數(shù)據(jù)除以各地區(qū)相應(yīng)的人口數(shù)得到的十項指標值見表2。(PPT17)(動畫1)先來看各個的指標含義x1表示每百萬人口高等院校數(shù)x2表示每十萬人口高等院校畢業(yè)生數(shù)x3表示每十萬人口高等院校招生數(shù)x4表示每十萬人口高等院校在校生數(shù)x5表示每十萬人口高等院校教職工數(shù)X6表示每十萬人口高等院校專職教師數(shù)X7表示高級職稱占專職教師的比例X8表示平均每所高等院校的在校生數(shù)X9表示高教經(jīng)費占國內(nèi)生產(chǎn)總值的比重X10表示生均教育經(jīng)費(PPT18,PPT19)各地區(qū)高等教育發(fā)展狀況數(shù)據(jù)見表2(PPT20)定性考察反映高等教育發(fā)展狀況的10項評價指標,可以看出,某些指標可能存在較強的相關(guān)性。比如x2-每10萬人口高等院校畢業(yè)生數(shù)、x3-每10萬人口高等院校招生數(shù)與x4-每10萬人口高等院校在校生數(shù)之間可能存在很強的相關(guān)性,為驗證這種想法,先對指標進行聚類分析。(動畫1)作出10個指標數(shù)據(jù)標準化后的相關(guān)系數(shù)表如表3所示:(動畫2)表3數(shù)據(jù)從數(shù)據(jù)中可以看出,每10萬人口高等院校招生數(shù)x3、每10萬人口高等院校在校生數(shù)x4、每10萬人口高等院校教職工數(shù)x5、每10萬人口高等院校專職教師數(shù)x6、每10萬人口高等院校畢業(yè)生數(shù)x25個指標之間有最強的相關(guān)性,最先被聚到一起。(PPT21)(動畫1)如果將10個指標分為6類,x2-x6為一類,其他5個指標各自為一類,這樣就從10個指標中選定了6個分析指標。(動畫2)分別記為x1-為每百萬人口高等院校數(shù)(原x1);x2-為每10萬人口高等院校畢業(yè)生數(shù)(原x2);x3-為高級職稱占專職教師比例(原x7);x4-為平均每所高等院校的在校生數(shù)(原x8);x5-普通高等教育經(jīng)費占國內(nèi)生產(chǎn)總值的比例(原x9);x6-為生均教育經(jīng)費(原x10)。簡化后根據(jù)這6個指標對表2中的30個地區(qū)進行聚類分析。當我們考慮對上述數(shù)據(jù)進行k-均值聚類時,我們發(fā)現(xiàn)運行的結(jié)果有多種,原因是k-均值聚類對初值的選取非常敏感。因此,接下來我們只展示層次聚類的結(jié)果。(PPT22)(動畫1)基于6個指標的30個地區(qū)的標準化數(shù)據(jù),樣本間相似性采用歐氏距離度量,類間距離的計算選用類平均法。根據(jù)層次聚類步驟,可得聚類樹型圖如下圖所示。(動畫2)圖該圖中橫坐標的數(shù)目代表的是基于表2的城市編號,基于聚類圖,可以根據(jù)需要將其分成2類,3類等。(PPT23)(動畫1)接下來對結(jié)果進行詳細的分析:(動畫2)如果根據(jù)各地區(qū)高等教育發(fā)展狀況把30個地區(qū)分為二類,結(jié)果為:第一類—北京;第二類—其他地區(qū)。(動畫3)如果根據(jù)各地區(qū)高等教育發(fā)展狀況把30個地區(qū)分為三類,結(jié)果為:第一類—北京;第二類—西藏;第三類—其他地區(qū)。(動畫4)如果根據(jù)各地區(qū)高等教育發(fā)展狀況把30個地區(qū)分為四類,結(jié)果為:第一類—北京;第二類—西藏;第三類—上海、天津;第四類—其他地區(qū)。(PPT24)(動畫1)最后我們簡單介紹第5部分模型應(yīng)用(PPT25)(動畫1)聚類分析還可用于對不同地區(qū)城鎮(zhèn)、農(nóng)村居民收入或者消費情況進行分析,一般不是逐個省、市、自治區(qū)去分析,較好的做法是選取能反映收入

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論