教育統(tǒng)計學(xué) 課件第15次-聚類分析及其應(yīng)用;第16次-判別分析及其應(yīng)用_第1頁
教育統(tǒng)計學(xué) 課件第15次-聚類分析及其應(yīng)用;第16次-判別分析及其應(yīng)用_第2頁
教育統(tǒng)計學(xué) 課件第15次-聚類分析及其應(yīng)用;第16次-判別分析及其應(yīng)用_第3頁
教育統(tǒng)計學(xué) 課件第15次-聚類分析及其應(yīng)用;第16次-判別分析及其應(yīng)用_第4頁
教育統(tǒng)計學(xué) 課件第15次-聚類分析及其應(yīng)用;第16次-判別分析及其應(yīng)用_第5頁
已閱讀5頁,還剩156頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

教育統(tǒng)計學(xué)聚類分析及其應(yīng)用學(xué)部本科科生課課程北京師范大學(xué)教育學(xué)部胡詠梅聚類方法:分層聚類(系統(tǒng)聚類)與快速聚類聚類分析概述:概念、準(zhǔn)則及原理聚類分析方法應(yīng)用示例聚類研究的質(zhì)量評價課堂操作練習(xí)contentso

概念:口聚類分析是統(tǒng)計學(xué)中研究“物以類聚”的一種方法,即根據(jù)事物外顯特

征研究個體分類的多元統(tǒng)計分析方法。o

聚類分析按分類的對象不同,可分為樣本聚類(或稱個案聚類)

和變量

聚類兩種類型。o

樣本聚類是根據(jù)被觀測對象的各種特征,即反映被觀測對象特征的各變

量值對樣本進行分類。o

在教育研究中適用于對于學(xué)生或?qū)W校按照某些指標(biāo)進行類別劃分等方面。例如:對大學(xué)按照辦學(xué)質(zhì)量分類、對學(xué)生按照興趣愛好分類、對校長進

行領(lǐng)導(dǎo)風(fēng)格分類等等。聚類分析概述o

變量聚類是一種降維的方法,用于在變量眾多時,尋找有代表性的變

量,以便當(dāng)用少數(shù)、有代表性的變量代替原始較多變量時,損失的信

息很少。o

在教育、心理研究中適用于對高校各系課程變量的類屬劃分以及心理

結(jié)構(gòu)變量的探查等方面。聚類分析概述o

準(zhǔn)則:聚類分析是建立一種分類,是將一批樣本(或變量)按照在性質(zhì)上的“親疏”程度,在沒有先驗知識的情況下自動進行分類的方法。其中:類

內(nèi)個體具有較高的相似性,類間的差異性較大。聚類分析概述若對以上五所高校進行分類,依據(jù)平均得分的差距,將差距較小的分為一類,我們可以將A

、B高校分為一類,C高校為一類,D

、E高校為一類。o

例15-1假設(shè)現(xiàn)在對A

、B

、C

、D

、E五所高校教學(xué)、科研、社會服務(wù)三大職能進行評價,評分情況如下:聚類分析研究的關(guān)鍵問題

問題3.

形成

多少類別最

合適?問題1.

怎樣測量相似性?問題2.如何

聚類?o

親疏遠(yuǎn)程度的衡量指標(biāo):衡量親疏程度的指標(biāo)有兩種,即距離和相似系

數(shù)。o

變量之間的親疏程度則通常用相似系數(shù)來度量。相似系數(shù)越接近于1或-

1時,認(rèn)為變量之間的親疏程度越高;相似系數(shù)接近于0時,認(rèn)為變量之

間是無關(guān)的。比如夾角余弦、相關(guān)系數(shù):r

=

聚類分析原理:1.怎樣測量相似性?o

距離是將每個樣品看成m個數(shù)據(jù)對應(yīng)的m維空間中的一個點,然后在該

空間中所定義的距離越近,則親疏程度越高。o

如何定義數(shù)據(jù)間的距離呢?不同測度水平的數(shù)據(jù)間的距離定義是否不同?聚類分析原理:1.怎樣測量相似性?o

定距型個體間的距離:把每個個案數(shù)據(jù)看成是m維空間上的點,在點和點之間定義某種距離。一n平方歐氏距離(SEUCLID)n明可夫斯基距離(歐氏距離是其特例)般適用于定距數(shù)據(jù)。n歐氏距離(EUCLID)缺點:要求各指標(biāo)計量單位相同,而且同等看待各指標(biāo)的重要性。

聚類分析原理:怎樣測量相似性?

(

xi

-

yi

)

2n切比雪夫距離dij(∞)

=

mxEUCLID

(

x,y

)

=xik

-

xjkCaseEuclidean

Distance1:A商廈2:B商廈3:C商廈4:D商廈5:E商廈1:A商廈2:B商廈3:C商廈4:D商廈5:E商廈.0008.062

17.804

26.907

30.4148.062.000

25.456

34.655

38.21017.80425.456

.000

9.22012.80626.90734.655

9.220

.00030.41438.210

12.806

3.606

.000l定距型個體間的距離:連續(xù)型變量個體距離矩陣ProximityMatrix兩類:(AB)(C

D

E)

三類:(AB)

(C)

(D

E)聚類分析原理:怎樣測量相似性?This

isa

dissimilarity

matrix3.606姓名選修課門數(shù)

(期望頻數(shù))專業(yè)課門數(shù)

(期望頻數(shù))得優(yōu)門數(shù)

(期望頻數(shù))合計張三9(8.5)6(6)4(4.5)5(4.5)9198(8.5)171938

聚類分析原理:怎樣測量相似性?l

定距型個體間的距離:計數(shù)變量6(6)12李四合計選課特征姓名是否喜歡討論

式教學(xué)是否選擇方法

類課程是否喜歡年

輕教師授課小張111小李110小王001ll聚類分析原理:怎樣測量相似性?

類屬型個體間的距離

類屬型個體間的距離(1)簡單匹配(simple

matching)系數(shù):適用二值變量簡單匹配系數(shù)將同時擁有或同時不擁有某特征的情況看作匹配。應(yīng)

用簡單匹配系數(shù)時,取0和1的地位等價,編碼方案的變化不會引起系數(shù)的其中,a為個體i與個體j在相同變量上同時取1的個數(shù)

;d為同

時取0的個數(shù)。個體i與個體j之間的距離為:個體i10

聚類分析原理:怎樣測量相似性?個體j1

0變化。a

cb

d

類屬型個體間的距離—簡單匹配(simple

matching)系數(shù):適用二值變量。姓名是否喜歡討論課是否喜歡方法課是否喜歡年輕老師張三

111李四

11

0王五

0

01(張三,李四):a=2b=

1c=0d=0d(x,y)=1/(1+2)=1/3(張三,王五):a=1b=2c=0d=0d(x,y)=2/(1+2)=2/3張三距李四近聚類分析原理:怎樣測量相似性?發(fā)燒咳嗽檢查1

檢查2檢查3檢查41

0

1

0

0010

1

0

1

01

1

0

0

00o

類屬型個體間的距離口根據(jù)臨床表現(xiàn)研究病人是否有類似的病聚類分析原理:怎樣測量相似性?姓名張三李四王五……男

男性別(2)杰卡德(Jaccard)系數(shù):適用二值變量杰卡德系數(shù)排除同時不擁有某特征的情況。應(yīng)用杰卡德系數(shù)時,取1的狀

態(tài)比取0更有意義。同時,編碼方案會引起系數(shù)的變化。個體j個體i10其中,a為個體i與個體j在相同變量上同時取1的個數(shù);d

為同時取0的個數(shù)。個體i與個體j之間的距離為:J

(i

,

j

)

=

聚類分析原理:怎樣測量相似性?1

0acbdo

類屬型個體間的距離口

Jaccard系數(shù)舉例:根據(jù)臨床表現(xiàn)研究病人是否有類似的病。姓名性別

發(fā)燒咳嗽檢查1

檢查2

檢查3

檢查4張三

1

01

0

0

0李四女

1

0101

0王五

1

1

0

0

0

0結(jié)論:張三和李四最有可能得類似的病;李

四和王五不太有可能得類似的病。聚類分析原理:怎樣測量相似性?d

(張三

,

李四

)

=

=

0

.33d

(李四

,

王五

)

=

=

0

.75d

(張三

,

王五

)

=

=

0

.67……..

相似系數(shù)測量:

夾角余弦或相似系數(shù)

小結(jié):怎樣測量相似性?

選擇距離測量:

區(qū)分?jǐn)?shù)據(jù)類型

樣本聚類變量聚類o

注意:口聚類過程中如果數(shù)據(jù)在數(shù)量級上存在差異或單位不同時,應(yīng)進行標(biāo)準(zhǔn)

化處理。聚類分析概述

例如:l

說明:l聚類分析中的變量選擇問題:–

變量應(yīng)和聚類分析的目標(biāo)密切相關(guān)(如:學(xué)??蒲心芰Φ脑u價,可選

變量:科研經(jīng)費、項目數(shù)、獲獎等級及頻次、重點學(xué)科數(shù)、重點實驗

室或基地數(shù))。–

聚類結(jié)果僅是所選變量數(shù)據(jù)相似性的反映,未必符合事物真實的類

別屬性。–

變量之間不應(yīng)具有高度相關(guān)性,否則相當(dāng)于給這些變量進行了加權(quán)。l聚類分析包括:樣本(或個案)聚類和變量聚類兩種。l聚類方法包括:分層(或系統(tǒng))聚類和快速聚類兩種。聚類分析概述o

(一)基本原理:首先將所有的個體(樣品或變量)各自看成一類,然后根據(jù)個體之間

特征的親疏程度,將親疏程度最高的兩類進行合并,再計算合并后的新

類與其他類之間的親疏程度,并將親疏程度最高的兩類進行合并。重復(fù)

這一過程,直至所有個體都合并為一類。分層聚類(或稱系統(tǒng)聚類,Hierarchical

Cluster)

o

衡量親疏程度的指標(biāo)有兩種,即距離和相似系數(shù)。o

距離是將每個樣品看成m個數(shù)據(jù)對應(yīng)的m維空間中的一個點,然后在該

空間中所定義的距離越近,則親疏程度越高。o

變量之間的親疏程度則通常用相似系數(shù)來度量。相似系數(shù)越接近于1或-

1時,認(rèn)為變量之間的親疏程度越高;相似系數(shù)接近于0時,認(rèn)為變量

之間是無關(guān)的。分層聚類(或稱系統(tǒng)聚類,Hierarchical

Cluster)

以合并(凝聚)的方式聚類(SPSS采用):口

首先,每個個體自成一類???/p>

其次,將最“親密”的個體聚成一小類。口

然后,將最“親密”的小類或個體再聚成一類。口

重復(fù)上述過程,即:把所有的個體和小類聚集成越來越大的類,直到所有的個體都

到一起(一大類)為止??诳梢?隨著聚類的進行,類內(nèi)的“親密”性在逐漸減低。 分層聚類(或稱系統(tǒng)聚類,Hierarchical

Cluster)

o

(二)程序:o

以分解的方式聚類:口

首先,所有個體都屬于一類。口

其次,將大類中最“疏遠(yuǎn)”的小類或個體分離出去???/p>

然后,分別將小類中最“疏遠(yuǎn)”的小類或個體再分離出去???/p>

重復(fù)上述過程,即:把類分解成越來越小的小類,直到所有的個體自成一類為止??诳梢?隨著聚類的進行,類內(nèi)的親密性在逐漸增強。

分層(或系統(tǒng))聚類方法o

(三)類間距離的計算方法o

“親疏”程度的衡量對象:口個體間距離口個體和小類間、小類和小類間的距離分層(或系統(tǒng))聚類方法o

個體與類間、類和類間的距離計算方法口最短距離法(nearest

neighbor):n兩類間的距離定義為兩類中距離最近的兩個個案之間的距離。口最長距離法(furthest

neighbor):n兩類間的距離定義為兩類中距離最遠(yuǎn)的兩個個案之間的距離。口類平均法(Average

linkage)n兩類之間的距離定義為兩類個案之間距離的平均值。包括:n組間平均法(between-groups

linkage):只考慮兩類間的距離n組內(nèi)平均法(Within-groups

linage):考慮所有個案間的距離(三)分層聚類中類間距離的計算方法常用的系統(tǒng)聚類方法有8種。Wishart在1969年給出了8種聚類方法類與類之間距離的統(tǒng)一公式。設(shè)

Gp

Gq

Gr

=

{Gp

,Gq

},則

Gr

G

k

:D

r

=

α

p

D

+

α

q

D

q

+

βD

q

+Y

|

D-

D

q

|式中

α

p

,

α

q

,β,

Y

不同的

不同的

值,

給出了

8

法的

數(shù)

。k2kp2p2k2kp2k2常用的分層(或系統(tǒng))聚類方法Ward’s

Method

Average

Linkage

(SPSS中即betweengroupslinkage)o

(四)基本操作步驟1.基本操作A.菜單選項:analyze->classify->Hierarchical

clusterB.選擇參與聚類分析的變量入variables框C.選擇一個字符型變量作為個案的標(biāo)記變量(label

cases)D.選擇個案聚類還是變量聚類分層(或系統(tǒng))聚類方法o

(四)基本操作步驟2.選擇距離計算方法(method選項)o

cluster

method:計算類間距離的方法o

measure:計算樣本距離的方法o

transform

values:對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理口

by

variable:以變量為單位標(biāo)準(zhǔn)化,適用于個案聚類口

by

case:以個案為單位標(biāo)準(zhǔn)化,適用于變量聚類分層(或系統(tǒng))聚類方法

例15-2假設(shè)有學(xué)者認(rèn)為,可以從受教育權(quán)和入學(xué)機會公平、公共教育資源配置公平、教育質(zhì)量公平、群體間教育公平四個方面設(shè)計正規(guī)三級教育的教育公平的具體評價指標(biāo)。據(jù)此對全國31個省區(qū)、直轄市展開調(diào)查,獲得31個省區(qū)、直轄市的教育公平指標(biāo)數(shù)據(jù)。試將31個省區(qū)、直轄市按照教育公平狀況進行分類。

數(shù)據(jù)文件15-1.sav

入學(xué)機會公平、公共教育資源配置公平、教育質(zhì)量公平、群體間教育公平4個

指標(biāo)的變量名分別為x1

、x2

、x3

、x4

Analyze-Classify-HierachicalCluster

…分層(或系統(tǒng))聚類示例-樣本聚類o選擇Agglomeration

schedule(凝聚狀態(tài)表)和Proximitiy

matrix(樣本的距離矩陣)選項,輸出

結(jié)果將生成樣本的距離矩陣和凝聚狀態(tài)表,顯示

每一步合并的類以及類與類之間的距離等信息。o在Cluster

membership(類成員)欄下方選中Single

solution(聚成固定類數(shù)時各樣本的歸屬)復(fù)選項,

并在其右側(cè)的空白框內(nèi)輸入:3

。輸出結(jié)果中將會

顯示聚為3類時各個樣品所對應(yīng)的類別。類成員欄

其他選項none表示不輸出類成員,range

ofsolutions表示聚成m-n類時各樣本的歸屬(m<n<總

樣本數(shù))。o單擊Plots按鈕,展開其對話框。選擇Dendrogram(樹形圖)復(fù)選項。樹形圖顯示系統(tǒng)聚類步驟,

包括各步的成員合并情況和距離系數(shù)值,圖中用

相連的垂線表示相聯(lián)系的樣品,它將實際距離縮

放到0-25之間,保留聚類步驟之間距離的比例。o在Icicle(冰柱圖)下單欄中勾選默認(rèn)選項Allclusters選項,表示聚類的每一步均在冰柱圖中體

現(xiàn)。specified

range

of

clusters表示冰柱圖中呈現(xiàn)聚

類時從第m類開始到第n類結(jié)束,間隔p類的過程。

Orientation表示冰柱圖的方向,我們選擇默認(rèn)選項

vertical(縱向),horizontal表示橫向。o

計算類間距離的方法(ClusterMethod)包括組間平均法(between-groupslinkage)、組內(nèi)平均法(Within-groupslinage)、最短距離法(nearestneighbor)、最長距離法(furthestneighbor)、中間距離法(Medianclustering)、重心法(Centroidclustering)、離差平方和法(Wald’smethod)。我

們選擇默認(rèn)選項組間平均法。o

在計算樣本距離的方法(Measure)的下拉式列表框

中選擇默認(rèn)項歐氏距離的平方(SquaredEuclideandistance)。TransformValues部分為對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,本例中未勾選。Byvariable為以變量為單位的標(biāo)準(zhǔn)化,適用于樣本聚類;

Bycase為以個案為單

位標(biāo)準(zhǔn)化,適用于變量聚類。o

勾選Single

solution復(fù)選項,并在其

右側(cè)的空白框內(nèi)輸入:3

。在變量

界面會生成新的聚類變量CLUN_M,

其中N為聚類數(shù),M表示第幾次做

的聚類結(jié)果。o

range

of

solutions表示生成若干個

變量分別存放聚成n-m類時各樣本

的歸屬情況。右側(cè)為聚類分析的凝聚過程表。Stage列代表聚類的步驟順序。ClusterCombined(Cluster1

,Cluster2)是該步被合并的兩類中的觀測量號,合并生成的新類序號以類中最

小序號代之,如第一步12

、13類被合并成一新類,新類的

序號為12

。Coefficients列代表合并類之間的距離。隨著類數(shù)減少,類間距離逐漸增大。StageClusterFirst

Appears兩列代表對應(yīng)的被合并的類上一次是在哪一步形成的。Cluster1和Cluster2值均為0的表示是兩個觀測量合并;其中有一個為0的表示是觀測量與類合并;兩個值均為非0值的表示是兩個類合并。如第7步為第26個觀測量與第28個觀測量合并,而第26個觀測量已經(jīng)在第2步與第27個觀測量合并為一類了,因此此項值2表示與第2步形成的類歸并為一類。NextStage列則表示該步被合并的類又被合并成新類時的步驟序號。如第7步合并的類將在第12步被合并成新類。聚類結(jié)果

右側(cè)為聚類結(jié)果成員表,它表明各觀測

量分別隸屬哪一類別。北京、上海、天津為一類,浙江、廣東、江蘇、遼寧、福建為一類,

其他省份為一類。聚類結(jié)果

右側(cè)樹形圖顯示系統(tǒng)聚類的具

體步驟,包括各步的成員合并

情況和距離系數(shù)值。生成的新的聚類類別變量

CLU3

1。聚類結(jié)果

聚類結(jié)果

(五)SPSS選項說明:1.數(shù)據(jù)輸出(statistics選項)o

agglomeration

schedule:凝聚狀態(tài)表(默認(rèn))o

distance

matrix:樣本的距離矩陣o

cluster

membership:類成員口

none:不輸出類成員(默認(rèn))口single

solution:聚成n類時各樣本的歸屬口

range

of

solutions:聚成m~n類時各樣本的歸屬(m<n<總樣本數(shù))分層(或系統(tǒng))聚類方法2.

圖形輸出(plot選項)o

dendrogram:樹型圖o

icicle:冰柱圖口all

cluster:聚類的每一步均在冰柱圖中體現(xiàn)。口specified

range

of

clusters:將聚類的第n1類開始到第n2類結(jié)束,間隔n3類

的聚類分析過程在冰柱圖中體現(xiàn)。o

orientation:冰柱圖的方向口

vertical:縱向口

horizontal:橫向分層(或系統(tǒng))聚類方法3.結(jié)果保存(save選項)o

single

solution:生成一新變量存儲在聚成n類時各樣本屬于哪一類

(cluN_M:N為聚類數(shù),M為第幾次做的)。o

range

of

solutions:生成若干個變量分別存放聚成n~m類時各樣本的歸屬

情況。分層(或系統(tǒng))聚類方法例15-3本科生課程設(shè)置與其能力培養(yǎng)有著密切的聯(lián)系。某高校教育學(xué)部為本科生開設(shè)教育學(xué)原理、教學(xué)論、量化研究、質(zhì)性研究等10門課程,

現(xiàn)在需要對這10門課程進行分類,以便了解其對學(xué)生培養(yǎng)的能力模式。

數(shù)據(jù)文件15-2.sav為該教育學(xué)部30名本科生在校期間上述10門課程的成績

數(shù)據(jù)。Analyze-Classify-Hierachical

Cluster

…分層(或系統(tǒng))聚類方法示例2-變量聚類右側(cè)為聚類結(jié)果成員表,它表明各

變量分別隸屬哪一類別。教育史為一類,主要側(cè)重學(xué)生學(xué)科

史、學(xué)科發(fā)展脈絡(luò)知識的培養(yǎng);量化研究和質(zhì)性研究一類,主要側(cè)

重學(xué)生方法論知識的培養(yǎng);教育學(xué)原理、教育管理學(xué)基礎(chǔ)、學(xué)

期教育學(xué)基礎(chǔ)等課程為一類,主要

側(cè)重學(xué)生各方向基礎(chǔ)知識能力的培

養(yǎng)。聚類分析:3.形成多少類別最合適?

o

聚類數(shù)目的確定口聚類數(shù)目確定尚無統(tǒng)一標(biāo)準(zhǔn),一般原則:n

各類所包含的元素都不應(yīng)過多。n

分類數(shù)目應(yīng)符合分析的目的??诜謱泳垲愔锌梢詫㈩愰g距離作為確定分類數(shù)目的輔助工具n

SPSS聚類過程中(合并凝聚方式),類間距離隨著類數(shù)減少而呈增加趨勢。n

類間距離小,類的相似性大;距離大,相似性小。n

繪制碎石圖(X軸為類距離,Y軸為類數(shù))。o

確定分類數(shù)的問題是聚類分析迄今尚未解決的問題之一,主要障礙是對待分類的群體的類的真實結(jié)構(gòu)不清楚,從理論和實踐中都無法得到

關(guān)于類結(jié)構(gòu)的假設(shè)。因此,往往根據(jù)研究目的,從實用的角度出發(fā),

選擇合適的分類數(shù)。聚類分析:3.形成多少類別最合適?戴米爾曼(Demirmen,

1972)曾提出根據(jù)樹狀結(jié)構(gòu)圖來分類的準(zhǔn)則:o

任何類都必須在鄰近各類中是突出的,即各類重心之間的距離必須夠

大。o

各類所包含的元素都不要過分地多。o

分類數(shù)目應(yīng)該符合使用的目的。o

若采用幾種不同的聚類方法處理,則在各自的聚類圖上應(yīng)發(fā)現(xiàn)相同的

類。聚類分析:3.形成多少類別最合適?(一)基本原理:首先確定要聚成的類數(shù),然后按照一定的方法選取一批凝聚點,并讓參與聚類的樣品向最近的凝聚點凝聚,這樣由點凝聚成類,

得到初始分類。但是,初始分類不一定合理,需要按距離最小原則進行

修改不合理的分類,直到分類比較合理為止,這樣形成一個最終的分類

結(jié)果。K-means快速聚類快速聚類法使用的是歐氏距離平方作為距離測度,如果需要使用其他的距離測度,則必須使用系統(tǒng)聚類法進行??焖倬垲惖淖兞勘仨毷沁B續(xù)型變量,如果各變量的單位不同,應(yīng)該對聚類

變量使用Descriptives過程進行標(biāo)準(zhǔn)化后再進行聚類分析,否則會得出錯誤

的結(jié)論。如果參與聚類的變量是計數(shù)變量或二分變量,則只能考慮使用系

統(tǒng)聚類法進行聚類分析。K-means快速聚類(二)程序1.指定最后要聚成K類。2.用戶指定k個樣本作為初始類中心或系統(tǒng)自動確定k個樣本作為初始類中

心。3.系統(tǒng)按照距k個中心距離最近的原則把每個樣本分派到各中心所在的類

中去,形成一個新的k類,完成一次迭代。4.重新計算k個類的類中心(計算每類各變量的均值,

以均值點作為類中心)。

5.重復(fù)3步和4步,直到達到指定的迭代次數(shù)或達到終止迭代的條件。SPSS中兩個判斷聚類是否結(jié)束的條件,滿足其中一個即可結(jié)束聚類過程??谶_到指定迭代次數(shù)(maximum

iteration),默認(rèn)10次??谑諗繕?biāo)準(zhǔn)(convergence),默認(rèn)0.02

,即:本次迭代產(chǎn)生的任意新類,各中

心位置變化較小,其中最大的變化率小于2%。(三)SPSS操作步驟A.菜單選項:analyze->classify->k

means

clusterB.選定參加快速聚類分析的變量到variables框。C.確定快速聚類的類數(shù)(number

of

clusters)

,類數(shù)應(yīng)小于個案總數(shù)。D.選擇聚類方法(method):默認(rèn)iterate

and

classify

,即:在聚類的每一步

都重新計算新的類中心。E.確定聚類終止條件(如iterate次數(shù))。(四)SPSS可選項說明1.保存快速聚類的結(jié)果(save)口

cluster

membership:將各個案所屬類的類號保存到qcl_

1變量中。口

distance

from

cluster

center:將各樣本距所屬類中心的距離保存到qcl_2變量中。(四)SPSS可選項說明

2.輸出選項(option)口

initial

cluster

centers:輸出初始類中心點???/p>

ANOVA

table:輸出各類的方差分析表???/p>

cluster

information

for

each

case:輸出每個樣本的分類結(jié)果和距離。(四)SPSS可選項說明3.use

running

means項:口選中:表示每個樣本被分配到一類后立即計算新的類中心。聚類結(jié)果

與個案的先后次序有關(guān)??诓贿x中:表示完成了所有個案的依次分配后再計算類中心,省時。(四)SPSS可選項說明

4.用戶指定類中心(center)口

read

initial

from:若不指定則系統(tǒng)自動確定初始類中心。指定則從某.sav文件中讀入

初始類中心數(shù)據(jù)(應(yīng)設(shè)一個名為Cluster_的變量名)???/p>

Write

final

as:在分析的最后將各類中心寫入某.sav文件。o

例15-4某中學(xué)希望對某實驗班320名學(xué)生按照他們的語文、數(shù)學(xué)、英語、文科綜合和理科綜合成績進行分類,將學(xué)生分成優(yōu)秀、良好、中等、及格4類,以便提供針對性輔導(dǎo),數(shù)據(jù)文件15-3.sav包含這320名學(xué)生的

期末考試成績,試采用快速聚類法進行聚類分析。K-means快速聚類示例o在進行快速聚類分析之前,首先要生成各成績變量的標(biāo)準(zhǔn)化變量。o

Analyze-Descriptive

Statistics-Descriptives

…K-means快速聚類示例o

Analyze-Classify-K-Means

Cluster

…o在Method(聚類方法)欄下選擇默認(rèn)的Iterate

and

classify

,即選擇初始聚類中心,在迭代過程中使

用K-Means算法不斷更換類中心,在聚類的每一

步都重新計算新的類中心,把樣品分派到與之最

近的以類中心為標(biāo)志的類中去。另一選項Classify

only

,則只使用初始類中心對樣品進行聚類。o下方(Cluster

Centers)用戶指定類中心中readinitial表示若不指定則系統(tǒng)自動確定初始類中心,指定則從某.sav文件中讀入初始類中心數(shù)據(jù)(應(yīng)設(shè)

一個名為Cluster_的變量名);Write

final

表示在

分析的最后將各類中心寫入某.sav文件。K-means快速聚類示例o

單擊Iterate按鈕,進入確定聚類終止條件對話框,如圖可以設(shè)置iterate次數(shù),此處

保持默認(rèn)狀態(tài)。use

running

means項若選

中,表示每個樣本被分配到一類后立即計

算新的類中心。聚類結(jié)果與個案的先后次

序有關(guān)。若不選中,表示完成了所有個案

的依次分配后再計算類中心,這種方式比

較省時。K-means快速聚類示例o

單擊Save按鈕,展開Save

New

Variables保存新變量對話框,選中Clustermembership復(fù)選項,以建立一個新變量,

系統(tǒng)默認(rèn)該變量名為qc1

1

,其值表示

聚類結(jié)果,即各樣品被分配到哪一類中,

該變量將在原數(shù)據(jù)文件中出現(xiàn)。另一選

項distance

from

cluster

center表示將各樣

本距所屬類中心的距離保存到qcl

2變量

中。K-means快速聚類示例o

單擊Options(輸出選項),保持默認(rèn)狀態(tài)。選中initial

cluster

centers表示輸出初

始類中心點。ANOVA

table表示輸出各

類的方差分析表。cluster

information

foreach

case表示輸出每個樣本的分類結(jié)果

和距離。K-means快速聚類示例o

上面是初始類中心表,此表中作為類中心的樣品由系統(tǒng)所確定。輸出結(jié)果

o此表顯示的是各次迭代后類中心的變化距離。由于沒有指定迭代次數(shù)或收斂判據(jù),因此使用系統(tǒng)

默認(rèn)值:最大迭代次數(shù)為10

,收斂參數(shù)為0

。即

當(dāng)?shù)?0次時則停止迭代;或迭代使類中心變

化的距離近似為0時,則迭代停止。此例快速聚

類過程執(zhí)行4次迭代后,各類中心的變化距離均

為0

,因此,迭代就停止了。第一次迭代1—4類

的類中心與初始類中心之間的距離分別為1.423

1.298

、0.964

、1.550

。第二次迭代1—4類的類中

心與初始類中心之間的距離分別為0.443

、0.311

、

0.000

、0.000

。第三次迭代1—4類的類中心與初

始類中心之間的距離分別為0.030

、0.019

、0.000、

0.000。輸出結(jié)果

o

最終的類中心的各變量值。輸出結(jié)果

o

聚類總結(jié)表,顯示的是各類別中樣品的個數(shù)以及參與聚類分析的有效樣品數(shù)、缺失樣品數(shù)。輸出結(jié)果

輸出結(jié)果

o

系統(tǒng)聚類法(分層聚類法)只能單方向進行聚類,聚類結(jié)果受數(shù)據(jù)中

奇異值影響很大。o

快速聚類法(迭代聚類法)對初始分類非常敏感,通常也只能得到局

部最優(yōu)解。系統(tǒng)聚類法與快速聚類法的缺點

o

如何聚類?--選擇聚類類型:樣本聚類/變量聚類?

--選擇聚類方法:系統(tǒng)聚類/快速聚類?

--選擇類間距離測度、樣本距離測度2.如何聚類?--系統(tǒng)聚類法VS快速聚類法口選擇系統(tǒng)聚類和快速聚類的依據(jù)

系統(tǒng)聚類比較適用:①一個廣泛的可供選擇的聚類方法有待嘗試;②

樣本規(guī)模適中(一般樣本個數(shù)在300~400之內(nèi),至多不超過1000)

快速聚類比較適用:①聚類數(shù)目或者初始類中心比較明確;②離群值

(outlier)必須進入分析時,因為快速聚類對離群值不太敏感/受離群值的影響不大。-在系統(tǒng)聚類后同時使用快速聚類(兩種方法結(jié)合使用)的適用情況:n通過系統(tǒng)聚類可以獲得初始聚類數(shù)目,以及各聚類中心;n在系統(tǒng)聚類后,再進行快速聚類可以提供更加準(zhǔn)確的聚類關(guān)系。2.如何聚類?--系統(tǒng)聚類法VS快速聚類法o

如何聚類?o

趨勢:兩者結(jié)合使用o

首先使用系統(tǒng)聚類法確定分類數(shù),檢查是否有離群值,去除離群值后,

對剩下的樣本重新進行分類,把用系統(tǒng)聚類法得到的各個類的重心,作為迭代聚類法的初始分類中心,這樣就克服了系統(tǒng)聚類法單方向聚

類以及迭代聚類法對初始類中心敏感的缺點,對樣品點進行重新調(diào)整、

聚類。2.如何聚類?--系統(tǒng)聚類法VS快速聚類法如何評價聚類研究的質(zhì)量?

沒有任何一個公認(rèn)的客觀標(biāo)準(zhǔn)能夠完全判斷聚類的好壞;研究者可以根據(jù)下述標(biāo)

準(zhǔn)進行參考性判斷:

單一樣本(數(shù)量很少的樣本)成為一組往往不能被接受,這一組往往需要考慮刪

除【當(dāng)然,如果確實存在非常突出/糟糕表現(xiàn)的樣本也需要保留,引起重視/單

獨分析】。

各個聚類的樣本規(guī)模:最好每個聚類應(yīng)包含10%的樣本。以樣本規(guī)模為1000的樣本為

例,每一個類別最好應(yīng)包含100個樣本。這意味著我們最后得到的類別不能超過10類。

對于系統(tǒng)聚類,停止準(zhǔn)則主要依賴于隨著聚類類別數(shù)量的增減,類間距離是否

不再有較大幅度的增加。

聚類結(jié)果不是顯著地依賴于聚類變量的選擇。

對于聚類結(jié)果可以進行有實際意義的解釋。

交互分類有效性(cross-validation)

?

將樣本隨機分成2組或者多組:分組分別使用同樣的聚類方法進行分析,看看是

否具有穩(wěn)定性(比如同時使用系統(tǒng)聚類對兩組樣本--每組100個樣品--分別進行

聚類,看看聚類成2-10類時,兩組樣本中各類的樣本數(shù)是否基本相同,類中心

是否接近)。?

通常的做法是計算各類在各聚類變量上的均值,對均值進行比較,看看分組的意義是否合適(各類的均值差異是否較大)(可以利用多因變量方差分析考察

各組在聚類變量上的均值是否存在顯著性差異)。建立有效性標(biāo)準(zhǔn)(Establishing

Criterion

Validity)聚類結(jié)果的效度(Validity)

1.試比較系統(tǒng)聚類法和快速聚類法的優(yōu)缺點。2.隨機從某大學(xué)經(jīng)濟與工商管理學(xué)院抽取30名學(xué)生,他們的4科成績?nèi)缦?試?yán)脭?shù)據(jù)文件“exe15-1.sav”將這30名學(xué)生按其綜合成績的優(yōu)劣進行分類。作業(yè)o

3.試?yán)脭?shù)據(jù)文件“

15-1.sav”,采用快速聚類法對例15-1進行聚類分析,并將之與系統(tǒng)聚類法的聚類結(jié)果進行對比分析。作業(yè)教育統(tǒng)計學(xué)判別分析及其應(yīng)用北京師范大學(xué)教育學(xué)部胡詠梅學(xué)部本科科生課課程判別分析概述:概念及基本原理判別分析的假設(shè)條件及基本模型

判別分析的研究步驟幾種判別分析方法示例分析練習(xí)與思考contentso判別分析是利用已知類別的樣本模擬模型,為未知樣品判類的一種統(tǒng)計方

法。即根據(jù)已掌握的每個類別的若干樣本的數(shù)據(jù)信息,建立判別公式和判別準(zhǔn)

則;然后,當(dāng)遇到新的樣品時,只要根據(jù)判別公式和判別準(zhǔn)則,就能判別該樣

品所屬的類別。o

該方法(

Discriminant

Analysis

,簡稱DA),是由R.A.Fisher于1936

年提出來的。近年來,在醫(yī)學(xué)、管理學(xué)、心理學(xué)、教育學(xué)科中都有廣泛的應(yīng)用。

比如,識別新患者是否得了某種疾??;預(yù)測一個公司是否會違貸;預(yù)測某個學(xué)

生能否考上“985”高校;識別某所高校能否成為世界一流大學(xué);識別某個學(xué)生

是否有網(wǎng)癮,等等。一、概念及基本原理簡言之,判別分析是研究判別個體所屬類型的一種統(tǒng)計分析方法。設(shè)有k個總體,希望建立一個準(zhǔn)則,對給定的任意一個樣品,依據(jù)這

個準(zhǔn)則就能判斷它是來自哪個總體。當(dāng)然,我們應(yīng)當(dāng)要求這種準(zhǔn)則在某

種意義下是最優(yōu)的。例如,錯判概率最小,或錯判損失最小等等。一、概念及基本原理o判別分析是用于分析因變量為分類變量、自變量為可測變量(定距或定比變量)數(shù)

據(jù)的一種統(tǒng)計分析模型。o在判別分析中將分組變量稱為因變量;用以分組的其他特征變量稱為判別變量或自

變量。o例如,某高校學(xué)生管理部門希望對現(xiàn)在就讀的本科生進行分類,以便對肄業(yè)風(fēng)險高的學(xué)生進行提前干預(yù)。o分組變量(因變量):是否肄業(yè)o判別變量(自變量):專業(yè)課GPA、學(xué)位基礎(chǔ)課與學(xué)位專業(yè)課掛科門數(shù)、每周網(wǎng)絡(luò)聊天或游戲時長、實習(xí)或兼職

周工作天數(shù)……一、概念及基本原理判別分析的應(yīng)用和解釋非常類似于回歸分析:利用1個或者多個自變量的線性(非線性)組合,用于預(yù)測唯一的因變量。但回歸分析的因變

量是數(shù)值型變量,而判別分析要預(yù)判的是分類變量【也正因為如此,在

估計判定函數(shù)時可以采用logistic回歸模型】判別分析VS回歸分析

對于已有樣本并未給出明確的分組信息時,往往需要先利用聚類分析給出樣本的分組信息(分組數(shù)、分組類別、各組具體特征等)。之后,在此基礎(chǔ)上再進行新增樣本分組預(yù)測。聚類分析

樣本進行分組判別分析VS回歸分析

對新增樣本進行

分組預(yù)測

1.根據(jù)判別變量建立判別函數(shù);

2.要處理的是未知分組屬性的case

,以第一階段的分析結(jié)果所建立的

判別函數(shù)為依據(jù),將這些未知組別的cases進行判別分組。判別分析兩個階段的工作將中國各個省份按教育發(fā)展?fàn)顩r劃分為教育發(fā)達地區(qū)和落后地區(qū)兩種。用來分組的指標(biāo)包括人均受教育年限、生均經(jīng)費、各級教育的入學(xué)

率、財政性教育經(jīng)費占GNI的比重等。假定已經(jīng)有28個省份被歸類了,但是還有中部地區(qū)的河南省、湖南省以及西部的陜西省還未歸類。請用

判別分析過程進行歸類。一個假想的例子o

體溫、血壓、白血球感冒?肺炎?非典?o

人均GDP

、人均收入、人均壽命、人均住房面積等

小康了嗎?……其他例子

o

前提條件:

分組類型(group

,用g表示)在兩組以上;

在第一階段工作時候每組case必須至少在一個以上;

各判別變量的測度等級為定距變量或定比變量(才能方便計算均值和

方差);

已知類別Case

的個數(shù)要比判別變量的個數(shù)至少多兩個。二、判別分析的假設(shè)條件和基本模型不同組別的變量具有相同協(xié)方差

以便計算判別函數(shù)

和進行顯著性檢驗不存在多重共線

性:每一個判別

變量不能是其他

判別變量的線性各個判別變量的

聯(lián)合分布服從多

元以便精確計算統(tǒng)計

量的顯著性水平和

樣品分組歸屬的概

率。否則無法估計

判別函數(shù)判別分析的研究假設(shè)

通過判定得分對每個case進行分類:對于每個特定的群組,分別計算z分?jǐn)?shù)平均值,這一平

均數(shù)又被稱為各組的重心(centroid);如果有2個群組,則會得到2個重心,如果有3個組別

則有3個重心,依次類推。重心意味著該群組內(nèi)絕大多數(shù)的個案都會分布在該點周圍。

判別效果依賴于判定函數(shù)對不同組別重心之間距離的測量;如果分布的重疊很小,那么,

判定函數(shù)能夠?qū)山M樣本較好的區(qū)分開;反之,如果分布的重疊部分很大,那么,判定函

數(shù)則不能將兩組樣本較好的區(qū)分開。口以線性判別函數(shù)為例,闡述判別分析基本思想:zjk

=

a

+

W1x1k+

W2x

2k+…

+

Wnx

nk在上式中:Z分?jǐn)?shù)是第k個樣本在第j個判定函數(shù)中的得分;a是常數(shù)項;Wi是自變量Xi的判

定權(quán)重;x

ik是第k個case在自變量Xi的取值。

對于每個case的判定函數(shù)得分Z,實質(zhì)上是每個自變量通過判定權(quán)重W加權(quán)后的得分之和。判別分析的基本思想判別函數(shù):y=b0

+

b1x1

+

b2

x2

+…+

bk

xk

(1)其中y是判別函數(shù)值,xi

為判別變量,bi

為相應(yīng)的判別系數(shù)。

判別函數(shù)與回歸函數(shù)的

區(qū)別:[1]判別函數(shù)中的y不是代表實測的因變量

的估計,因為實測的因變量是定類變

量,而由該函數(shù)預(yù)測的

因變量是定距變量。[2]回歸分析中的方程只有

一個;判別分析中的函數(shù)往往不止一個。判別函數(shù)值y又簡稱為判別值,判別

系數(shù)表示各個判別變量對判別值的影響,

b0

是常數(shù)值。判別分析的基本模型

第一步:判別分析的研究設(shè)計第二步:判別分析的研究假設(shè)第三步:估計判別函數(shù)以及評估整體擬合度第四步:判別結(jié)果的解釋第五步:結(jié)果的驗證三、判別分析的研究步驟第一步

判別分析的研究設(shè)計

保留樣本選

擇變量的選擇樣本規(guī)模/容

量A的選擇樣本規(guī)模/容量因變量:分類變量,相互獨立、排斥(即每個樣本只能歸為其中的一類);分類結(jié)果可以使從現(xiàn)有信息

中直接獲得,也可以是通過聚類分析等手段生成。+盡可能地控制因變量的類型數(shù)量(因為隨著組別類型的增加,不同組別之間在自變量特征的重

合性上增加,會大大增加判定的難度、降低判定的準(zhǔn)確性)。+因變量最好是分類變量;對于順序型數(shù)值變量,我們可將其轉(zhuǎn)化成分類變量(例如:按照學(xué)生

成績排名,將樣本分為高、中、低)。自變量:

來自于已有研究/理論模型+

運用研究者知識、直覺第一步

判別分析的研究設(shè)計

保留樣本選

擇變量A樣本規(guī)

量模/容保留樣本選

擇最佳:+

樣本數(shù)÷自變量數(shù)≥20

+

樣本數(shù)÷組別數(shù)量≥20底線:+

樣本數(shù)÷自變量數(shù)≥5

+

樣本數(shù)÷組別數(shù)量≥5第一步

判別分析的研究設(shè)計

變量的選擇保留樣本選

擇分析組樣本:+

估計判定函數(shù)保留組樣本:+檢驗判斷函數(shù)樣本外的預(yù)測正確率選擇分析組和保留組的個體時,通常遵循等比例分

層抽樣,即兩組樣本中,各具體組別大小比例應(yīng)與

整個樣本基本保持一致。第一步

判別分析的研究設(shè)計

變量的選擇樣本規(guī)模/容量不存在多重

共線性不同組別的

變量具有相

同協(xié)方差矩陣

檢驗:相關(guān)系數(shù)檢驗

處理1:選擇代表性變量

處理2:使用因子分析方法提取公因子各個判別變

量的聯(lián)合分

布服從多元正態(tài)分布第二步

判別分析的研究假設(shè)不存在多重

共線性不同組別的

樣本具有相

同協(xié)方差矩陣各個判別變

量的聯(lián)合分

布服從多元正態(tài)分布Box’sM

test

隨著樣本量的增加,以及組別數(shù)量的增加,協(xié)方差

矩陣的要求可以放寬(比如,p>0.01即可)。

解決辦法:增加樣本量;使用二次判定函數(shù)。第二步

判別分析的研究假設(shè)不存在多重

共線性各個判別變

量的聯(lián)合分

布服從多元正態(tài)分布不同組別的

變量具有相

同協(xié)方差矩陣

對于顯著性檢驗可以適當(dāng)放寬,即將顯著性水平限制在0.01及以下。+更需要保證單變量服從一元正態(tài)分布,因此,可以通過取對數(shù)等手段

進行數(shù)據(jù)轉(zhuǎn)換。

如果確實拒絕多元正態(tài)分布的假設(shè),我們則可以采用logistic回歸估計

判定函數(shù),或者非參數(shù)的判定方法。第二步

判別分析的研究假設(shè)

計算判別Z得

分;檢驗組的差異;評價各組預(yù)測

的精度。聯(lián)立模型逐步模型第三步

估計判別函數(shù)以及評估整體擬合度

評估判別函數(shù)

的顯著性估計判別函數(shù)評估整體擬合統(tǒng)計顯著性聯(lián)立模型:

自變量同時全部進入判別函數(shù)模型,判別函數(shù)可能不止

一個,所以是聯(lián)立模型。逐步模型:

自變量逐步進入判別函數(shù)模型計算判別Z得分;檢驗組的差

異;評價各組預(yù)

測的精度。第三步

估計判別函數(shù)以及評估整體擬合度評估判別函

數(shù)的顯著性聯(lián)立模型

逐步模型估計判別函數(shù)評估整體擬合統(tǒng)計顯著性在我們估計完判別函數(shù)后,首先需要做的是判斷估計所得到判別函數(shù)的解釋效力:

整體顯著性判斷:Wilk’s

lamada;Hotelling

跡;Pillai準(zhǔn)則(實質(zhì)上為多因變量

方差分析整體顯著性的判斷)聯(lián)立模型;

逐步模型;計算判別Z得分;檢驗組的差異;評價各組預(yù)測

的精度。第三步

估計判別函數(shù)以及評估整體擬合度

評估判別函數(shù)

的顯著性估計判別函數(shù)評估整體擬合統(tǒng)計顯著性計算判別Z得分;

檢驗組的差異;

評價各組預(yù)測

的精度。聯(lián)立模型;

逐步模型;第三步

估計判別函數(shù)以及評估整體擬合度評估判別函數(shù)

的顯著性評估整體擬合度估計判別函數(shù)統(tǒng)計顯著性o評估整體擬合度(Assessing

overallmodel

fit)口

對每個觀測樣本估算Z分?jǐn)?shù)口

基于判別Z分?jǐn)?shù)評價組間差異性n計算組間Z分?jǐn)?shù)重心的差異性口

評價各組預(yù)測的精度n設(shè)定分類函數(shù)/分類準(zhǔn)則,估算臨界得分(cutting

score)。n通過每個樣本Z分?jǐn)?shù)與臨界得分的對比,將各個樣本歸入相應(yīng)的組別中。第三步

估計判別函數(shù)以及評估整體擬合度

判別載荷標(biāo)準(zhǔn)化判別權(quán)重第四步

判別結(jié)果的解釋觀察并分析判別函數(shù)賦予每個變量的標(biāo)準(zhǔn)化判別權(quán)重:+符號:正的貢獻or負(fù)的貢獻+大?。狠^大值代表那個變量對判別函數(shù)的判斷力貢獻較大;反之,則對判別函數(shù)的判別力貢

獻較小。

需要注意:較為嚴(yán)重的多重共線性會對判別權(quán)重的估算產(chǎn)生非常嚴(yán)重偏差。判別載荷標(biāo)準(zhǔn)化判別權(quán)重第四步

判別結(jié)果的解釋標(biāo)準(zhǔn)化判別權(quán)重

判別載荷判別載荷又被稱為結(jié)構(gòu)相關(guān)系數(shù):

各個解釋變量與判別函數(shù)得分的簡單相關(guān)系數(shù)+其反映的是每個解釋變量對判別函數(shù)的相對貢獻第四步

判別結(jié)果的解釋

任何判別準(zhǔn)則都可能產(chǎn)生錯判現(xiàn)象,總的平均錯判概率越小,判別準(zhǔn)則越好。

有些時候為了檢驗判別準(zhǔn)則的優(yōu)劣,需要將各母體中的對象按判別準(zhǔn)則進行

回判,觀察回判中的錯判比例。母體中的樣品,有時被稱為“訓(xùn)練樣本”。第五步

結(jié)果的驗證

(1)貌似誤判率方法在建立了判別準(zhǔn)則后,計算誤判的比例:

n12、n21分別是應(yīng)當(dāng)是第一類錯判為第二類的樣品數(shù)、應(yīng)當(dāng)是第二類而錯判為

第一類的樣品數(shù)。該比例一般情況下比實際的誤判概率要小,因為使用的是部分樣本。但在樣本

足夠大的情況下,可以近似地反映整體誤判情況??梢宰C明該結(jié)果是實際誤判概率的漸近無偏估計。第五步

結(jié)果的驗證(2)刀切法也稱為Lachenbruch刪除法或者交叉確認(rèn)法(Cross-Validation)。其基本思想是每次剔除訓(xùn)練樣本中的一個樣品,利用其余的樣品建立判別準(zhǔn)則,

然后對所剔除的樣品進行判別,記錄判別的效果。刀切法的計算量非常大,但stata軟件中提供了專門的處理程序。第五步

結(jié)果的驗證-判別法四、幾種判別分析方法te判別法四、幾種判別分析方法1

、總體樣本分布已知的馬氏距離計算2

、兩個總體的距離判別3

、多個總體的距離判別口距離判別最直觀的想法是計算樣品到第i類總體的平均距離,選擇距離最小的組作為歸類組別。口因此,距離函數(shù)判別的思想是通過構(gòu)建一個適當(dāng)?shù)木嚯x函數(shù),通過計算樣本與某類別之間距離的大小,判別其所屬類別。設(shè)

x

=

(x1,

x2,

…,

xm

)9和y

=

(y1,

y2,

…,

ym

)9

是從期望μ=

(μ1,

μ2,

…,

μm

)9和方差陣Σ=(σij

)m×m

>0

的總體G抽得的兩個觀測值

,

則稱d

2

(x,

y)=(x

-

y)9Σ-1

(x

-

y)為X與Y之間的Mahal

anobis距離。樣品X和Gi類之間的馬氏距離定義為X與Gi類重心間的距離:d

2

(x,

Gi

)=(x

-

μi

)9Σ-1

(x

-

μi

)

i

=1,2,

,

k1、總體樣本分布已知的馬氏距離計算馬氏距離有如下的特點:1

、馬氏距離不受計量單位的影響;2

、馬氏距離是標(biāo)準(zhǔn)化后的變量的歐式距離。1

、總體樣本分布已知的馬氏距離計算先考慮兩個總體的情況,設(shè)有兩個協(xié)差陣Σ相同的p維正態(tài)總體,對給定的樣品Y,判別一個樣品Y到底是來自哪一個總體,一個最直觀的想法是計算Y到兩個總體的距離。

故我們用馬氏距離來給定判別準(zhǔn)則,即:[y

G1

,

如d

2

(y

G1

)

<d

2

(y

,

G2

),{y

G2

,如d

2

(y

G2

)

<d

2

(y

,

G1

)l待判,如d

2

(y,

G1

)=d

2

(y,

G2

)2、兩個總體距離判別法1、協(xié)方差陣相同d2

(

y

,G

2

)

d2

(

y

,G

1

)=

(

y

μ2

)

’Σ

一1

(

y

μ2

)

(

y

μ1

)

’Σ

一1

(

y

μ1

)

=

2

y

’Σ

一1

(

μ1

μ2

)一

(

μ1

+

μ2

)

’Σ

一1

(

μ1

μ2

)

α=

Σ

一1

(

μ1

μ2

)

=

(a1,

a2,

,

ap

)’令

當(dāng)

μ1,

μ2

和Σ已知時,α

一1

(μ1

μ2

)

是一個已知的p維向量,

W(y)是y的線性函數(shù),稱為線性判別函數(shù)。用線性判別函數(shù)進行判別分析非常直觀,使用起來最方便,在實

際中的應(yīng)用也最廣泛。[y

G1

,如W(y)>0,{y

G2

,

如W(y)<

0。l待判,

如W

(Y)=0W(y)=(y一

μ)’α

=

α’(y一

μ)則前面的判別準(zhǔn)則可以轉(zhuǎn)換為μ1

)

+

…+

ap

(yp’

’=

α

y

αμ=a1

(y1一

μp

)一變量均值向量協(xié)方差矩陣優(yōu)秀一般資金利潤率13.55.468.3940.2421.41勞動生產(chǎn)率40.729.840.2454.5811.67產(chǎn)品凈值率10.76.221.4111.677.90例如,在企業(yè)績效考核中,可以根據(jù)企業(yè)的生產(chǎn)經(jīng)營情況把企業(yè)分為優(yōu)秀企業(yè)和一般企業(yè)??己似髽I(yè)經(jīng)營狀況的指標(biāo)有:現(xiàn)有二個企業(yè),觀測值分別為(7.8,39.1,9.6)和(8.1,34.2,6.9),問這兩個企業(yè)應(yīng)該屬于哪一類?資金利潤率=利潤總額/資金占用總額

勞動生產(chǎn)率=總產(chǎn)值/職工平均人數(shù)

產(chǎn)品凈值率=凈產(chǎn)值/總產(chǎn)值根據(jù)前面對線性判別函數(shù)的推導(dǎo),我們可以根據(jù)本例子中

的協(xié)方差矩陣以及兩組樣本的均值,給出以下判別函數(shù):y

=

0

.6

0

5

81x1

+

0

.2

5

3

6

2x2

+

1

.

8

3

6

7

9x3

18

.7

3

5

9’’

=

α

y

α

μ

對于觀測值為(7.8,39.1,9.6)的樣本點:y1

=

0

.6

0

5

81×7

.

8

+

0

.2

5

3

6

2

×3

9

.

1+

1

.

8

3

6

7

9×9

.6

18

.7

3

5

9

6=

4

.0

8

9

2

>

0

屬于第一組,即是優(yōu)秀類企業(yè)對于觀測值為(

8.1,34.2,6.9)的樣本點:y

2

=

0

.6

0

5

81×8

.

1+

0

.2

5

3

6

2

×3

4

.2

+1

.

8

3

6

7

6

.9

18

.7

3

5

9

6=

2

.2

9

5

6

<

0

屬于第二組,即是一般類企業(yè)[y

G1

如d

2

(y

,

G1

)

<d

2

(y

,

G2

),{y

G2

,如d

2

(y

,

G2

)

<d

2

(y

,

G1

)l待判,如d

2

(y,

G1

)=d

2

(y,

G2

)d

2

(y

,

G2

)一

d

2

(y

,

G1

)=(y一

μ2

)’Σ2

一1

(y一

μ2

)

(y一

μ1

)’Σ1一1

(y一

μ1

)2

、兩個總體距離判別法2

、當(dāng)協(xié)方差陣不同判別準(zhǔn)則為:判別函數(shù):設(shè)有K個總體,分別有均值向量μi(i=

1,2,

,k)和協(xié)方差陣Σi=Σ

,各總體出現(xiàn)的先驗概率相等。又設(shè)Y是一個待判樣品。則Y與第i個

總體的距離為(即判別函數(shù))d2

(

y,G

i

)

=

(

y

μi

)

,

Σ

一1

(

y

μi

)

上式中的第一項Y'Σ-1Y與i無關(guān),可忽略,舍去后得一個等價函數(shù):

g

i

(Y

)

=

一2

y

一1μi

+μi,Σ

一1μi,3

、多個總體距離判別法將上式中提-2,得

g

i

(Y

)

=

一2

(

y

一1μi

0

.5

μi,Σ

一1μi,)令

fi

(Y

)

=(

y

一1μi

0

.5

μi,Σ

一1μi,)則距離判別法的判別函數(shù)為:令

fi

(Y

)

=(

y

一1μi

0

.5

μi,Σ

一1μi,)

fl

(

y

)

=

k

f

i

(

x

)

,則

y

G

l

1mfi

(Y

)

=

(

y

一1μi

一0

.5

μi,Σ

一1μi,)最大d2

(y

,

Gi

)

=(y

μi

)

,Σ注:這與前面所提出的距離判別是等價的。判別準(zhǔn)則為:(y

μi

)最小一12

距離判別費雪性判別法四、幾種判別分析方法

費雪(Fisher)判別是借助于方差分析的思想,來導(dǎo)出判別函數(shù)和建立判別準(zhǔn)則。在現(xiàn)實中,通常使用線性判別函數(shù),因此也稱為費雪線性判別。費雪判別對于總體的分布不需要提出特定的假設(shè),因此適用性更廣。1

.基本思想構(gòu)造一個判別函數(shù),假定是線性函數(shù)y

=

C

1

X

1

+

C

2

X

2

+

+

C

n

X

n其中各系數(shù)的選擇,應(yīng)當(dāng)是使兩類間的區(qū)別最大,而使類內(nèi)

部的離差最小。對于一個新的樣品,將其代入判別函數(shù),然后與

判別臨界點進行比較。該統(tǒng)計量越大,判別效果越好。最佳的線性判別函數(shù)應(yīng)該是:兩個重心的距離越大越好,兩個組內(nèi)

的離差平方和越小越好。最優(yōu)的判別函數(shù)應(yīng)當(dāng)滿足y(1)

-y(2)最大,而組內(nèi)的

離差平方和(yi(1)

-y(1))和

(yi(2)

-y(2))

最小.21212

.求判別函數(shù)觀察兩組的判別函數(shù)的平均值:

y

=

c

1

x

1

+

c

2

x

2

+

+

ck

x

ky

=

c

1

x

1

+

c

2

x

2

+

+

ck

x

k

(

2

)

(

2

)

(

2

)

(

2

)

(1)

(1)

(1)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論