版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
分類預(yù)測(cè):判別分析判別分析的一般內(nèi)容判別分析是一種實(shí)現(xiàn)統(tǒng)計(jì)分類的分析方法例如:不同類型客戶的預(yù)測(cè)應(yīng)用特點(diǎn):數(shù)據(jù)中包含用于預(yù)測(cè)的判別變量(自變量),其類型可以為定距,也可以為定類數(shù)據(jù)中包含所屬類別的類別變量(因變量),為定類型判別分析可以根據(jù)已有數(shù)據(jù),確定分類與判別變量之間的數(shù)量關(guān)系,建立判別函數(shù),并可通過判別函數(shù)實(shí)現(xiàn)對(duì)未知數(shù)據(jù)類別的判定和預(yù)測(cè)判別分析的一般內(nèi)容判別分析與聚類分析的不同點(diǎn):聚類分析中的類別是未知的,完全通過數(shù)據(jù)來確定判別分析,通過對(duì)類別的“訓(xùn)練樣本〞的學(xué)習(xí),建立判別準(zhǔn)那么,具有“預(yù)測(cè)〞意義判別分析方法的劃分:根據(jù)類數(shù):兩組判別分析、多組判別分析根據(jù)數(shù)學(xué)模型:線性判別、非線性判別根據(jù)判別準(zhǔn)那么:距離判別法、Fisher判別法、Bayes判別法距離判別設(shè)有來自k2個(gè)總體的k組樣本,每組樣本有ni(i=1,2,..k)個(gè)關(guān)于X1,X2,…,Xp個(gè)輸入(判別)變量的觀察值(p>k)將n個(gè)樣本數(shù)據(jù)看成p維空間中的點(diǎn),計(jì)算出每個(gè)類別的中心(分類均值)分別計(jì)算任一樣本點(diǎn)到各個(gè)類別中心的馬氏距離根據(jù)距離最近的原那么,距離哪個(gè)中心近,那么屬于哪個(gè)類距離判別假設(shè)有兩個(gè)總體G1和G2,從第一個(gè)總體中抽取n個(gè)樣本,從第二個(gè)總體中抽取m個(gè)樣本,每個(gè)樣本有p個(gè)判別變量(1),(2),(1),(2)分別為G1和G2的均值向量和協(xié)差陣,那么點(diǎn)X到Gi的馬氏距離定義為:為什么用馬氏距離?距離判別根據(jù)D(X,G1)、D(X,G2)判斷:如果D(X,G1)<D(X,G2),那么:X∈G1如果D(X,G2)<D(X,G1),那么:X∈G2如果D(X,G1)=D(X,G2),那么待判判別函數(shù):W(X)=D(X,G2)-D(X,G1),判斷:如果W(X)>0,那么:X∈G1如果W(X)<0,那么:X∈G2如果W(X)=0,那么待判距離判別的目的:求D2(X,G2)=D2(X,G1),即判別函數(shù)等于0時(shí)X的解。解集形成的軌跡是一條分隔線或平面或超平面分隔線與兩類的中心連線垂直且垂足為連線的中點(diǎn)可見:只有當(dāng)兩個(gè)總體的均值存在顯著差異時(shí),判別分析才有意義距離判別距離判別計(jì)算時(shí):(i)未知時(shí),可用樣本估計(jì)如果各組協(xié)方差陣相等,采用(pooledwithin-groupscovariance),記為:那么判別函數(shù)(線性):距離判別計(jì)算時(shí):如果各組協(xié)方差陣不相等(separated-groupscovariance),那么判別函數(shù)(非線性):Fisher判別Fisher判別也稱典型判別根本思想是投影,即將原來p維空間的樣本點(diǎn)投影到低維y空間中,以簡(jiǎn)化問題和提高判別精度Fisher判別---根本模型Fisher判別的根本模型即是Fisher判別函數(shù),是判別變量的線性函數(shù)形式:系數(shù)ai稱為判別系數(shù),表示各判別變量對(duì)于判別函數(shù)的影響Y反映的是樣本在低維空間中某個(gè)維度上的坐標(biāo)判別函數(shù)通常為多個(gè),于是得到在低維空間中多個(gè)維度上的坐標(biāo),進(jìn)而決定了樣本點(diǎn)在低空間中的位置尋找最正確的投影方向:能夠?qū)⒖傮w盡可能分開的方向Fisher判別---根本計(jì)算假設(shè)有兩個(gè)總體G1和G2,從第一個(gè)總體中抽取n個(gè)樣本,從第二個(gè)總體中抽取m個(gè)樣本,每個(gè)樣本有p個(gè)判別變量假設(shè)所建立的判別函數(shù)為將屬于不同兩類的樣本觀測(cè)值代入判別函數(shù)中,那么:為使判別函數(shù)很好地區(qū)分來自兩個(gè)不同總體的樣本,希望:相差越大越好,且組內(nèi)的離差平方和越小越好Fisher判別---根本計(jì)算即下式越大越好。利用求極值原理,可以求出使I到達(dá)最大時(shí)的系數(shù)bFisher判別---根本計(jì)算首先,在判別變量的p維空間中,找到某個(gè)線性組合,使各類別的平均值差異最大,作為判別的第一維度,代表判別變量組間方差中的最大局部,得到第一判別函數(shù)然后,按照同樣規(guī)那么依次找到第二判別函數(shù)、第三判別函數(shù)等,這些判別函數(shù)之間完全獨(dú)立得到的每個(gè)函數(shù)都可以反映判別變量組間方差的一局部,各判別函數(shù)所代表的組間方差比例之和為100%。前面的判別函數(shù)相對(duì)重要,后面的判別函數(shù)只代表很少一局部方差,可以被忽略Fisher判別---根本思想點(diǎn)x在以a為法方向的投影為a’x,那么各組數(shù)據(jù)的投影為:將Gm組中數(shù)據(jù)投影的均值記為有:記k組數(shù)據(jù)投影的總均值為有:
Fisher判別---根本計(jì)算組間離差平方和為:組內(nèi)離差平方和為:Fisher判別---根本計(jì)算希望尋找a使得SSG盡可能大而SSE盡可能小,即記方程|B-lE|=0的全部特征根為l1≥…≥lr>0,相應(yīng)的特征向量為v1,…,vr.那么判別函數(shù)為:yi(x)=vi’x(=a’x)記pi為第I個(gè)判別函數(shù)的判別能力(效率),有:m個(gè)判別函數(shù)的判別能力為:最大的值為方程|B-lE|=0的最大特征根l1使Fisher判別---根本計(jì)算如果y空間是一維的,那么只需要計(jì)算判別閾值y0,并將新樣本的判別得分與閾值進(jìn)行比較即可得到判別結(jié)果通常y空間不是一維的,需要在y維空間中建立基于距離判別的判別函數(shù)對(duì)新樣本,求出它們離各個(gè)類別中心的距離,依據(jù)判別函數(shù),判別屬于哪個(gè)類別Bayes判別在先驗(yàn)概率的根底上,利用判別函數(shù)所提供的信息對(duì)先驗(yàn)概率進(jìn)行調(diào)整,最后得到某個(gè)樣本屬于哪個(gè)類別的概率估計(jì)首先,計(jì)算樣本點(diǎn)X屬于總體Gi〔i=1,2,…,k〕的概率然后,根據(jù)k個(gè)概率值的大小決策,樣本點(diǎn)X應(yīng)屬于概率最大的類別〔總體〕Bayes判別第一,計(jì)算先驗(yàn)概率,設(shè)k個(gè)總體G1,G2…,Gk的先驗(yàn)概率分別為q1,q2,…qk第二,計(jì)算樣本似然,即在總體Gi〔i=1,2,…,k〕中抽到樣本X的概率例如:輸入變量服從多元正態(tài)分布,且各總體協(xié)差陣相等,那么在總體G1中抽到樣本X的概率為Bayes判別第三,計(jì)算樣本屬于總體Gi〔i=1,2,…,k〕的概率判別分析的應(yīng)用例如采用一份某商學(xué)院招收MBA學(xué)生的數(shù)據(jù):大學(xué)平均學(xué)分績(jī)〔X1〕、管理才能得分〔X2〕以及錄取結(jié)果〔Y,1表示錄取,2不錄取,3待定〕判別分析的應(yīng)用例如--準(zhǔn)備工作均值檢驗(yàn)原假設(shè):某輸入變量各總體的均值無顯著差異操作:Means:輸出輸入變量的均值、方差等根本描述統(tǒng)計(jì)量;UnivariateANOVAS,進(jìn)行Wilks均值檢驗(yàn)判別分析的應(yīng)用例如--準(zhǔn)備工作方差齊性檢驗(yàn):直接觀測(cè)Matrix框下:Within-groupscorrelation;Within-groupscovariance;Separate-group
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 第三單元 文明與家園(解析版)-2023-2024學(xué)年九年級(jí)道德與法治上學(xué)期期中考點(diǎn)大串講(部編版)
- 2025年度時(shí)尚雜志模特專屬簽約合同樣本4篇
- 2025年度個(gè)人挖掘機(jī)械操作培訓(xùn)合同2篇
- 2025年智能家居與家居用品定制合同2篇
- 二零二五年度智慧城市基礎(chǔ)設(shè)施建設(shè)合同21篇
- 二零二五年度國(guó)際貿(mào)易廣告?zhèn)鞑ズ贤瑯颖?篇
- 2025年家庭網(wǎng)絡(luò)智能設(shè)備使用合同
- 二零二五年度房地產(chǎn)項(xiàng)目開發(fā)管理合同3篇
- 2025年商業(yè)稅收政管版終合同
- 2025年度豬圈建造與農(nóng)業(yè)產(chǎn)業(yè)鏈延伸合同4篇
- 《健康體檢知識(shí)》課件
- 2023年護(hù)理人員分層培訓(xùn)、考核計(jì)劃表
- 生產(chǎn)計(jì)劃主管述職報(bào)告
- GB/T 44769-2024能源互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái)技術(shù)規(guī)范
- 【經(jīng)典文獻(xiàn)】《矛盾論》全文
- 《子宮肉瘤》課件
- 《準(zhǔn)媽媽衣食住行》課件
- 大美陜西歡迎你-最全面的陜西省簡(jiǎn)介課件
- 給男友的道歉信10000字(十二篇)
- 客人在酒店受傷免責(zé)承諾書范本
- 練字本方格模板
評(píng)論
0/150
提交評(píng)論