判別分析DiscriminantAnalysis課件_第1頁
判別分析DiscriminantAnalysis課件_第2頁
判別分析DiscriminantAnalysis課件_第3頁
判別分析DiscriminantAnalysis課件_第4頁
判別分析DiscriminantAnalysis課件_第5頁
已閱讀5頁,還剩34頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、判別分析Discriminant Analysis謝寶煖臺灣大學(xué)圖書資訊學(xué)系2006年6月3日量化研究與統(tǒng)計分析1Discriminant Analysis判別分析區(qū)別分析鑑別分析2判別分析是一種相依方法,其準(zhǔn)則變數(shù)為事先訂定的類別或組別。例如,銀行在貸款給顧客時,通常都會依顧客基本資料,如學(xué)歷、收入、借貸記錄等等.,將顧客區(qū)分為具信用之顧客與不具信用之顧客兩種,並且當(dāng)有新的顧客進(jìn)來時,也可比照同樣準(zhǔn)則將新顧客的資料與這些巳存在的資料做一比較,看是否應(yīng)借錢給這位新的顧客。3判別分析 vs. 集群分析判別分析法(discriminant analysis),是在已知的分類之下,一旦遇到有新的樣本

2、時,可以利用此法選定一判別標(biāo)準(zhǔn),以判定如何該將新樣本放置於那個族群中。集群分析法(cluster analysis),則是希望將一群具有相關(guān)性的資料加以有意義的分類。假設(shè)有數(shù)個群體,對每一群體中的一些個體取幾個變量(說明變量)組,作成適當(dāng)?shù)呐袆e標(biāo)準(zhǔn)時,即可辨別該群體的歸屬。在此處我們想要討論的情況,看起來與分群分析法類似,似乎都是要將觀察值分群分類,但是他們的使用前提及意義仍是不同的。104易投網(wǎng):市調(diào)專欄4用簡單的例子來說,如果我們已知有兩群人:一群是韓國人,另一群的日本人。現(xiàn)在新來了一位某甲,我們想問:某甲是韓國人呢,還是日本人?回答這樣的問題,算是判別分析。再如我們有一大群人混在一起,這

3、裡面包括了日本、韓國、泰國,馬來西亞、.,如果我們想將他們一一分辨出來,這就是集群分析法。5判別分析法之用途很多,如動植物分類,醫(yī)學(xué)疾病診斷,社區(qū)種類劃分,氣象區(qū)(或農(nóng)業(yè)氣象區(qū))之劃分,商品等級分類,職業(yè)依能力分類,以及人類考古學(xué)上之年代及人種分類等等均可利用。6線性判別函數(shù)(linear discriminant function, 簡稱LDF),是判別分析法中主要的工具。最早由 R.A. Fisher(1936)提出。Fisher 提出線形判別函數(shù),並應(yīng)用於花卉分類上。他將花卉之各種特徵 (character) (如花瓣長與寬、花萼長與寬等)利用線性組合(linear combinatio

4、n)方法,將這些基本上是多變量的數(shù)據(jù)(multivariate data),轉(zhuǎn)換成單變量 (univariate data)。再以這個化成單變量的線性組合數(shù)值來判別事物間的差別。78判別分析大意圖91011典型相關(guān)(canonical correlation) 判別函數(shù)的典型相關(guān)是組間平方和與總平方和比值的平方根。平方後,它就是由組間差異解釋的總變異量的比例。12注意事項:分組變數(shù)可以有兩個 (或以上) 的數(shù)值。但是,分組變數(shù)的代碼必須為整數(shù),而且必須指定其最小值和最大值。觀察值的數(shù)值如果超出這個範(fàn)圍,就不會分析它。13範(fàn)例一般而言,溫帶國家的人,每天消耗的卡路里會比熱帶的人多,而且溫帶地區(qū)中

5、,住在都市的人口比例也會比較高。研究人員想將這些資訊,併成一個函數(shù),以便判斷受訪者對這兩個國家的人民,能細(xì)分到什麼樣的程度。研究人員認(rèn)為,人口數(shù)量和經(jīng)濟(jì)資訊,應(yīng)該也相當(dāng)重要。因此,使用判別分析,能讓您估計線性判別函數(shù)的係數(shù),判別函數(shù)的運算式,看起來跟多重線性迴歸方程式的右側(cè)內(nèi)容很像。亦即是,它也使用 a、b、c 和 d 係數(shù),函數(shù)如下:D = a * 氣候 + b * 都市 + c * 人口 + d * 每人國民生產(chǎn)毛額14如果這些變數(shù),有助於判別兩種不同的氣候區(qū)域,那麼溫帶國家和熱帶國家的 D 值就會不同。如果您使用逐步的變數(shù)選取法,可能會發(fā)現(xiàn)此函數(shù)中,不需要包含四個變數(shù)。統(tǒng)計量。 對於每個

6、變數(shù)而言,則有:平均數(shù)、標(biāo)準(zhǔn)差、單變量 ANOVA。對於每種分析而言,則有:Box M、組內(nèi)相關(guān)矩陣、組內(nèi)共變異數(shù)矩陣、各組共變異數(shù)矩陣、總和的共變異數(shù)矩陣。對於每種典型判別函數(shù)而言,則有:特徵值、變異數(shù)百分比、典型相關(guān)、Wilks Lambda 值、卡方。對每個步驟而言:事前機(jī)率、Fisher 函數(shù)係數(shù)、未標(biāo)準(zhǔn)化函數(shù)係數(shù)、每個典型函數(shù)的 Wilks Lambda 值。15階層集群分析統(tǒng)計分析分類階層式集群.如果要將觀察值分成集群的話,請至少選取一個數(shù)值變數(shù)。如果要將變數(shù)分成集群的話,請至少選取三個數(shù)值變數(shù)?;蛘?,您可以選取識別變數(shù)做為觀察值的註解。16這個程序會根據(jù)您所選取的特性,試圖找出具

7、有相對同質(zhì)性的觀察值 (或變數(shù)) 組別。它所使用的演算法,會從個別集群中的每一個觀察值 (或變數(shù)) 開始,然後再與集群組合,直到只剩下一個為止。您可以分析原始資料,或從各種不同的標(biāo)準(zhǔn)化轉(zhuǎn)換中選擇。近似性程序會產(chǎn)生距離或相似性量數(shù)。每個階段都會顯示統(tǒng)計量,以協(xié)助您選出最適用的數(shù)值。17範(fàn)例以電視節(jié)目為例,您可以根據(jù)電視節(jié)目所吸引的觀眾群,將這些節(jié)目加以分組。您可以使用階層集群分析,把電視節(jié)目 (觀察值) 根據(jù)觀眾特性分成相似的集群。這種方式也可用於市場區(qū)隔。或者,您可以把城市分成相似的集群,以便選取類似的城市來測試各種不同的行銷策略。18統(tǒng)計量在統(tǒng)計方面群數(shù)凝聚過程距離 (或相似性) 矩陣單解(

8、或解的範(fàn)圍)的集群組員在圖形方面樹狀圖冰柱圖19判別分析用於判別樣本所屬類型的一種方法在社會、經(jīng)濟(jì)、管理等領(lǐng)域的研究中,經(jīng)常要對某一研究現(xiàn)象的歸屬作出判斷,例如在經(jīng)濟(jì)學(xué)中,根據(jù)國民平均年收入所得、企業(yè)生產(chǎn)總額、國民平均消費水準(zhǔn)等多種指標(biāo),來判定一個國家的經(jīng)濟(jì)發(fā)展程度所屬類型。在醫(yī)學(xué)上,根據(jù)病人的各項檢查指標(biāo)來判斷病情或病因等。與集群分析相同,都是將相似的事物歸為一類,不同處在於集群分析預(yù)先不知道分類,而判別分析是在研究對象分類已知的情況下,根據(jù)樣本資料推導(dǎo)出一個或一組判別函數(shù),同時指定一種判別規(guī)則,用以確定待判別樣本所屬的類型,使錯判率最小。20判別分析按判別組數(shù)分為:兩組判別和多組判別按數(shù)學(xué)

9、模型不同分為:線性判別和非線性判別按判別方法不同分為:逐步判別和序貫判別按判別準(zhǔn)則不同分為:距離判別、費雪(Fisher)判別、貝依斯(Bayes)判別21線性判別函數(shù)Linear Discriminant Function對k個母體, G1、G2、 G3 、 Gk,如果各個樣本相互獨立且符合多元常態(tài)分配,則可建立線性判別函數(shù),其形式如下:Yi=a0+a1x1+a2x2+a3x3+anxn(I=1,2,.k)K:判別組數(shù)Y:判別分?jǐn)?shù)或判別值(discriminant scores)X1 x2xn 是因變數(shù)或預(yù)測變數(shù)A1 a2an 是判別係數(shù)(coefficient)22典型判別函數(shù)Canoni

10、cal Discriminant Function典型函數(shù)是原始因變數(shù)的線性組合,透過建立少量的典型變數(shù),可以方便地描述各類之間的關(guān)係,用以計算判別分?jǐn)?shù)、畫散點圖和區(qū)域圖等SPSS針對K組研究對象,建立K1個典型判別函數(shù),顯示標(biāo)準(zhǔn)化的典型判別函數(shù)係數(shù)(standardized canonical discriminant function coefficient)和未標(biāo)準(zhǔn)化的典型判別函數(shù)係數(shù)23判別準(zhǔn)則Fisher判別準(zhǔn)則根據(jù)線性Fisher函數(shù)值進(jìn)行判別,通常用於兩組判別問題要求各組變數(shù)的平均值有顯著差異Bayes判別準(zhǔn)則 根據(jù)各母體的先驗機(jī)率(prior probabilities),使誤

11、判的平均損失最小進(jìn)行判別,通常用於多組判別要求滿足三個假設(shè)條件:多元常態(tài)分配、各組變異數(shù)矩陣相等、各組變數(shù)平均值有顯著差異24建立判別函數(shù)的方法全模型法(Enter independent together)將研究者指定的全部變數(shù)作為判別函數(shù)的因變數(shù),而不管該變數(shù)是否對研究對象顯著或?qū)ε袆e函數(shù)的貢獻(xiàn)大小是SPSS預(yù)設(shè)的方法,適合於對研究對象的各變數(shù)有全面認(rèn)識的時候使用,否則全部變數(shù)全部選用,可能用產(chǎn)生較大的偏差逐步選擇法(stepwise method)選擇最能各映各類間差異的變數(shù)子集,建立判別函數(shù)的方法。模型是從沒有任何變數(shù)開始,每一步都對模型進(jìn)行檢定,將模型外對模型的判別貢獻(xiàn)最大的變數(shù)加入

12、到模型中。同時檢查在模型中是否存在由於新變數(shù)的加入,而對判別貢獻(xiàn)不太顯著的變數(shù),若有則將其從模型中刪除,直到模型中的所有變數(shù)全部都符合引入模型的條件,而模型外的變數(shù)都不符合引入模型的條件為止。25SPSS提供5種逐步選擇變數(shù)的方法使Wilkss 統(tǒng)計量最小化法使最近兩組間的Mahalanbis的距離最大化法使任何兩組間的最小的F比值最大化法使末被解釋的共變數(shù)和最小化法使Roa V統(tǒng)計量最大化法輸出結(jié)果,通常可以用F值的大小作為變數(shù)進(jìn)入模型的標(biāo)準(zhǔn),即一個變數(shù)是否能進(jìn)入模型,取決於共變數(shù)分析的F檢定的顯著水準(zhǔn)26判別分析基本步驟分析(analyze)分類(classify)判別(discrimin

13、ant)選擇分組變數(shù)與自變數(shù)計算各組單變數(shù)敘述統(tǒng)計量,包括組內(nèi)平均值、組內(nèi)標(biāo)準(zhǔn)差、總平均值、總標(biāo)準(zhǔn)差、各組共變數(shù)矩陣、組間相關(guān)矩陣,並對組間平均值相等及共變數(shù)矩陣相等的假設(shè)進(jìn)行檢定推導(dǎo)判別係數(shù),進(jìn)行檢定建立Fisher線性判別模型進(jìn)行判別分組,根據(jù)Bayes規(guī)則或Fisher規(guī)則進(jìn)行判別分組進(jìn)行樣本判別分析,計算錯分率輸出結(jié)果27分組變數(shù) (grouping variable):只能指定一個。必須是數(shù)值型變數(shù),最少有2個水準(zhǔn)值。28293031汽車展示中14款新車,依造型、性能、價位三要素,可以區(qū)分為高效能、中效能、低效能三組,各有5、4、5輛車。32變異數(shù)分析:造型、性能、價位之平均數(shù)差異,

14、均未達(dá)顯著水準(zhǔn)(F值愈大,平均數(shù)的差異越大)33組共變數(shù)相等的假設(shè)檢定:Boxs M值14.942,轉(zhuǎn)換成F值為0.714,F(xiàn)檢定之P值為0.738,未達(dá)顯著水準(zhǔn),接受虛無假設(shè),三組母群體之共變數(shù)相等,符合判別分析的假定34特徵值(Eigenvalue)愈大,表示此函數(shù)愈有判別力典型相關(guān)係數(shù):區(qū)別分?jǐn)?shù)與組別間的關(guān)聯(lián)程度35兩個典型區(qū)別函數(shù)值的顯著性檢定,兩個典型區(qū)別函數(shù)均未達(dá)顯著水準(zhǔn)36以造型、性能、價位,三個變數(shù)作為判別分析,可以有效地判別各車的整體效能,而且判別率相當(dāng)高。*分類錯誤的觀察值37分派錯誤率(error rate of misclassification)如果兩組資料有重疊(o

15、verlap)部分,則分派未知個體時會有錯誤發(fā)生,其分派錯誤的機(jī)會視兩組資料重疊部份之大小而定,其計算分派錯誤率的方法有兩種。第一種自原來的樣本資料直接來看:各組判別之中,判別的錯誤比例是多少?另一種則是利用機(jī)率函數(shù)來做計算。當(dāng)然,在做第二種方法的時候,要假設(shè)X= 的分布為多元常態(tài)(multivariate normal)。38判別分析的例子 美國某商學(xué)院的註冊組(admission office),向來以GPA 及GMAT的分?jǐn)?shù)作為他們審核申請研究所學(xué)生的一個指標(biāo)。今以過去的一份資料來尋找判別的標(biāo)準(zhǔn),此份資料將申請者分為 A:接受 (admit),N:拒絕 (not admit) 及B:備取(borderl

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論