(5.2.5)-3.3 聚類分析-高等教育發(fā)展評價

上傳人：職*** IP屬地：廣東上傳時間：2024-05-18 格式：DOC 頁數(shù)：9 大?。?7.95KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩4頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

（PPT1,PPT2）同學(xué)，你好，今天我們學(xué)習(xí)多元統(tǒng)計分析——聚類分析。由聚類分析的背景、親疏程度的度量、聚類分析模型、案例分析和模型應(yīng)用五個部分組成。（PPT3）先看第一部分聚類分析的背景。（PPT4）（動畫1）生活中聚類的應(yīng)用場景很多，如，一位媽媽想購買奶粉，在母嬰店里奶粉區(qū)域可找到想要購買的奶粉，這里，母嬰店貨架商品的擺放就用到了聚類的思想。（動畫2）又如很多商場開張，為了熱鬧氣氛，會對不同年齡段人群舉行不同的活動，如小朋友安排拼插積木，青少年安排室內(nèi)攀爬，成年人可安排觀看展廳、老年人可安排抽獎等。這種按年齡安排活動也用到了聚類的思想。（PPT5）下面我們給出聚類分析的基本思想（動畫1）一般情況下，所研究的樣品或指標之間存在不同程度的親疏關(guān)系。根據(jù)所給樣品的多個觀測指標，按照親疏關(guān)系將樣品或指標按親疏關(guān)系逐一歸類，，關(guān)系密切的聚集到較小的一類，關(guān)系疏遠的聚集到較大的一類，直到所有的樣品（或指標）都聚合完畢。上述思想正是聚類分析的基本思想。（動畫2,3）那么，我們怎么衡量樣品或指標間的親疏程度呢？（PPT6）下面我們介紹第二部分，親疏程度的度量，由樣品間相似性度量、變量間相似性度量、類間相似性度量三部分內(nèi)容構(gòu)成。（PPT7）先看樣品間相似性度量——距離的定義。（動畫1）設(shè)第i個樣品記為x_i，是一個p維列向量，p表示樣品的觀測指標的數(shù)量，即x_i=(x_i1,x_i2,...,x_ip)，i=1,2,...,n。常見的樣品間距離有：（動畫2）1）絕對值距離，定義為：d(x_i,x_j)=x_ik-x_jk的絕對值關(guān)于k從1到p求和，i,j取值從1到n。（動畫3）2）歐氏距離，定義為：d(x_i,x_j)=根號下x_ik-x_jk的平方關(guān)于k從1到p求和。（動畫4）3）明氏距離，定義為：d(x_i,x_j)=x_ik-x_jk的絕對值的m次方關(guān)于k從1到p求和的m分之一次方，m為大于0的常數(shù)。（動畫5）4）切氏距離：定義為d(x_i,x_j)=x_ik-x_jk的絕對值關(guān)于k從1到p取最大值。（PPT8）接下來介紹變量間相似性度量——相關(guān)系數(shù)和夾角余弦（動畫1）變量X_j和X_k的相關(guān)系數(shù)定義為（動畫2）r_jk=樣本協(xié)方差除以樣本標準差的乘積。（動畫3）變量X_j和X_k夾角余弦定義為（動畫4）c_jk=X_j與X_k的數(shù)量積除以X_j與X_k的長度的乘積。（PPT9）最后，我們介紹常見的類間相似性度量——類間距離的定義。（動畫1）兩個類的最短距離定義為：D(G_1,G_2)=G_1類中的樣品與G_2類中的樣品的距離中的最小值（動畫2）兩個類的最長距離定義為：D(G_1,G_2)=G_1類中的樣品與G_2類中的樣品的距離中的最大值（動畫3）類平均距離定義為：D(G_1,G_2)=G_1類中的樣品與G_2類中的樣品的所有距離之和除以距離的總數(shù)量。（動畫4）重心距離定義為兩類中心的歐式距離。（PPT10）介紹了親疏程度的度量后，我們就可以進行具體的計算了。接下來我們介紹第三部分，聚類分析模型。這里，我們主要介紹應(yīng)用比較廣泛的k均值聚類（又稱快速聚類）和層次聚類（又稱系統(tǒng)聚類）。（PPT11）先來看K-均值聚類。（動畫1）如圖所示，給出了二維平面上的樣本點的k均值聚類，共分為3類，紅色圓線框表示類，紅色方形框表示類中心。（動畫2）k均值聚類的基本思想是先隨機選取K個對象作為初始的聚類中心，然后計算每個對象與各聚類中心之間的距離，把每個對象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對象就代表一個聚類。一旦全部對象都被分配了，每個聚類的中心會重新計算。這個過程不斷重復(fù)直到滿足某個終止條件為止。（PPT12）（動畫1）下面，我們給出k均值聚類的計算步驟：（動畫2）1）隨機選取K個對象作為初始聚類中心；（動畫3）2）將數(shù)據(jù)樣本集合中的樣本按照最小距離原則分配到最鄰近聚類；（動畫4）3）根據(jù)聚類的結(jié)果，重新計算K個聚類的平均值，并作為新的聚類中心；（動畫5）4）重復(fù)2）、3）步直到聚類中心不再變化。（動畫6）K-均值聚類的優(yōu)點是：計算速度快（動畫7）其缺點是：結(jié)果依賴于均值的初始值；對噪聲和離群點非常敏感。（ppt13）接下來介紹層次聚類（動畫1）圖1層次聚類是目前應(yīng)用比較廣泛的一種聚類方法。它是根據(jù)生物分類學(xué)的思想對研究對象進行分類的方法。在生物分類學(xué)中，分類的單位是：界、門、綱、目、科、屬、種，其中種是分類的基本單位，分類單位越小，它所包含的生物就越少，生物之間的共同特征就越多。（動畫2）基本思想可敘述如下：層次聚類首先將每個樣品看成一類，然后把最相似的樣品聚集為小類，再把已聚合的小類按各類之間的相似性進行再聚合，隨著相似性的減弱最后將一切子類都聚為一大類，從而得到一個按相似性大小聚合起來的層次圖。（PPT14）（動畫1）下面給出層次聚類的具體計算步驟（動畫2）1）將n個樣本點各看成一類，計算n個樣本點兩兩之間的距離；（動畫3）2）合并距離最近的兩類為新類，并且以兩類間的距離為聚類圖中的平臺高度；（動畫4）3）計算新類與當前各類的距離，若類的個數(shù)已為1，轉(zhuǎn)入第4）步，否則，回到步驟2）；（動畫5）4）畫聚類圖；（動畫6）5）決定類的個數(shù)和類。（ppt15）接下來我們來看一個具體的例子。通過案例分析，我們對k-均值聚類和層次聚類有一個進一步的了解。（PPT16）（動畫1）由于我國各地區(qū)經(jīng)濟發(fā)展水平不均衡，加之高等院校原有布局使各地區(qū)高等教育發(fā)展的起點不一致，因而各地區(qū)普通高等教育的發(fā)展水平存在一定的差異，不同的地區(qū)具有不同的特點。請對我國各地區(qū)普通高等教育的發(fā)展狀況進行綜合評價。參與評價的十個指標各自含義見表1，指標的原始數(shù)據(jù)除以各地區(qū)相應(yīng)的人口數(shù)得到的十項指標值見表2。（PPT17）（動畫1）先來看各個的指標含義x1表示每百萬人口高等院校數(shù)x2表示每十萬人口高等院校畢業(yè)生數(shù)x3表示每十萬人口高等院校招生數(shù)x4表示每十萬人口高等院校在校生數(shù)x5表示每十萬人口高等院校教職工數(shù)X6表示每十萬人口高等院校專職教師數(shù)X7表示高級職稱占專職教師的比例X8表示平均每所高等院校的在校生數(shù)X9表示高教經(jīng)費占國內(nèi)生產(chǎn)總值的比重X10表示生均教育經(jīng)費（PPT18，PPT19）各地區(qū)高等教育發(fā)展狀況數(shù)據(jù)見表2（PPT20）定性考察反映高等教育發(fā)展狀況的10項評價指標，可以看出，某些指標可能存在較強的相關(guān)性。比如x2-每10萬人口高等院校畢業(yè)生數(shù)、x3-每10萬人口高等院校招生數(shù)與x4-每10萬人口高等院校在校生數(shù)之間可能存在很強的相關(guān)性，為驗證這種想法，先對指標進行聚類分析。（動畫1）作出10個指標數(shù)據(jù)標準化后的相關(guān)系數(shù)表如表3所示：（動畫2）表3數(shù)據(jù)從數(shù)據(jù)中可以看出，每10萬人口高等院校招生數(shù)x3、每10萬人口高等院校在校生數(shù)x4、每10萬人口高等院校教職工數(shù)x5、每10萬人口高等院校專職教師數(shù)x6、每10萬人口高等院校畢業(yè)生數(shù)x25個指標之間有最強的相關(guān)性，最先被聚到一起。（PPT21）（動畫1）如果將10個指標分為6類，x2-x6為一類，其他5個指標各自為一類，這樣就從10個指標中選定了6個分析指標。（動畫2）分別記為x1-為每百萬人口高等院校數(shù)（原x1）；x2-為每10萬人口高等院校畢業(yè)生數(shù)(原x2)；x3-為高級職稱占專職教師比例(原x7)；x4-為平均每所高等院校的在校生數(shù)(原x8)；x5-普通高等教育經(jīng)費占國內(nèi)生產(chǎn)總值的比例(原x9)；x6-為生均教育經(jīng)費(原x10)。簡化后根據(jù)這6個指標對表2中的30個地區(qū)進行聚類分析。當我們考慮對上述數(shù)據(jù)進行k-均值聚類時，我們發(fā)現(xiàn)運行的結(jié)果有多種，原因是k-均值聚類對初值的選取非常敏感。因此，接下來我們只展示層次聚類的結(jié)果。（PPT22）（動畫1）基于6個指標的30個地區(qū)的標準化數(shù)據(jù)，樣本間相似性采用歐氏距離度量，類間距離的計算選用類平均法。根據(jù)層次聚類步驟，可得聚類樹型圖如下圖所示。（動畫2）圖該圖中橫坐標的數(shù)目代表的是基于表2的城市編號，基于聚類圖，可以根據(jù)需要將其分成2類，3類等。（PPT23）（動畫1）接下來對結(jié)果進行詳細的分析：（動畫2）如果根據(jù)各地區(qū)高等教育發(fā)展狀況把30個地區(qū)分為二類，結(jié)果為：第一類—北京；第二類—其他地區(qū)。（動畫3）如果根據(jù)各地區(qū)高等教育發(fā)展狀況把30個地區(qū)分為三類，結(jié)果為：第一類—北京；第二類—西藏；第三類—其他地區(qū)。（動畫4）如果根據(jù)各地區(qū)高等教育發(fā)展狀況把30個地區(qū)分為四類，結(jié)果為：第一類—北京；第二類—西藏；第三類—上海、天津；第四類—其他地區(qū)。（PPT24）（動畫1）最后我們簡單介紹第5部分模型應(yīng)用（PPT25）（動畫1）聚類分析還可用于對不同地區(qū)城鎮(zhèn)、農(nóng)村居民收入或者消費情況進行分析，一般不是逐個省、市、自治區(qū)去分析，較好的做法是選取能反映收入

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

(5.2.5)-3.3 聚類分析-高等教育發(fā)展評價

文檔簡介

溫馨提示

最新文檔

評論

(5.2.5)-3.3 聚類分析-高等教育發(fā)展評價

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔