版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 3 主成分分析及聚類分析主成分分析及聚類分析2 大規(guī)模復(fù)雜系統(tǒng)的變量都較多,這增加了分析大規(guī)模復(fù)雜系統(tǒng)的變量都較多,這增加了分析問題的難度與復(fù)雜性,很多情況下多個(gè)變量之間具問題的難度與復(fù)雜性,很多情況下多個(gè)變量之間具有一定的有一定的相關(guān)關(guān)系相關(guān)關(guān)系 能否在相關(guān)分析的基礎(chǔ)上,用較少的新變量能否在相關(guān)分析的基礎(chǔ)上,用較少的新變量代替原來較多的舊變量,而且使這些較少的新變量代替原來較多的舊變量,而且使這些較少的新變量盡可能多地保留原來變量所反映的信息盡可能多地保留原來變量所反映的信息 主成分分析方法就是綜合處理這種問題的一種主成分分析方法就是綜合處理這種問題的一種強(qiáng)有力的工具。主成分分析是把原來多
2、個(gè)變量劃為強(qiáng)有力的工具。主成分分析是把原來多個(gè)變量劃為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法3 主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)系進(jìn)行簡化分析的方法。系進(jìn)行簡化分析的方法。 主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則下,對(duì)多變量的數(shù)據(jù)進(jìn)行最佳綜合簡化,也就是則下,對(duì)多變量的數(shù)據(jù)進(jìn)行最佳綜合簡化,也就是說,對(duì)高維變量空間進(jìn)行降維處理。說,對(duì)高維變量空間進(jìn)行降維處理。4u一個(gè)簡單的例子一個(gè)簡單的例子成績的評(píng)估可以用下面的綜合成績來體現(xiàn):成績的評(píng)估可以用下面的綜合成績來體現(xiàn):a1數(shù)學(xué)
3、數(shù)學(xué)a2語文語文a3英語英語a4體育體育 確定權(quán)重系數(shù)的過程就可以看作是主成分分析的過確定權(quán)重系數(shù)的過程就可以看作是主成分分析的過程,得到的加權(quán)成績總和就相對(duì)于新的綜合變量程,得到的加權(quán)成績總和就相對(duì)于新的綜合變量主成分主成分當(dāng)某一問題需要同時(shí)考慮好幾個(gè)因素時(shí),我們并不當(dāng)某一問題需要同時(shí)考慮好幾個(gè)因素時(shí),我們并不對(duì)這些因素個(gè)別處理而是將它們綜合起來處理,對(duì)這些因素個(gè)別處理而是將它們綜合起來處理,這就是主成分分析這就是主成分分析5基本思想基本思想u如果用如果用x1, x2 , , xn表示表示n門課程,門課程, a1, a2 , an表表示各門課程的權(quán)重,且滿足示各門課程的權(quán)重,且滿足 ,那么加
4、權(quán)之和就是:,那么加權(quán)之和就是:u s= a1x1+ a2x2+ anxnu我們希望選擇適當(dāng)?shù)臋?quán)重能更好地區(qū)分學(xué)生的成我們希望選擇適當(dāng)?shù)臋?quán)重能更好地區(qū)分學(xué)生的成績,每個(gè)學(xué)生都對(duì)應(yīng)一個(gè)這樣的綜合成績。記為績,每個(gè)學(xué)生都對(duì)應(yīng)一個(gè)這樣的綜合成績。記為s1, s2 , , sm。 m為學(xué)生人數(shù)。如果這些值很分散為學(xué)生人數(shù)。如果這些值很分散,表明區(qū)分得好。,表明區(qū)分得好。u而方差反映了隨機(jī)變量取值的分散程度。因此,而方差反映了隨機(jī)變量取值的分散程度。因此,我們把方差最大那一組系數(shù)與課程成績的內(nèi)積所我們把方差最大那一組系數(shù)與課程成績的內(nèi)積所構(gòu)成的向量(形為構(gòu)成的向量(形為Z1=a1X)稱為)稱為第一主成分
5、第一主成分6222121iiinaaa基本思想基本思想u如果第一主成分所含信息不夠多,還不足以代如果第一主成分所含信息不夠多,還不足以代表原始的表原始的n n個(gè)變量,則需考慮再使用一個(gè)綜合個(gè)變量,則需考慮再使用一個(gè)綜合變量變量Z2=a2X, 且:且: 使使Z2方差達(dá)到最大。則,方差達(dá)到最大。則,Z2為第二主成分為第二主成分012ijCov ZZijijk( ,), , ,主成分分析的目的主成分分析的目的u主成分分析旨在利用降維的思想,把多指標(biāo)轉(zhuǎn)化為少數(shù)主成分分析旨在利用降維的思想,把多指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo)。幾個(gè)綜合指標(biāo)。在實(shí)證問題研究中,為了全面、系統(tǒng)地在實(shí)證問題研究中,為了全面、系統(tǒng)地
6、分析問題,我們必須考慮眾多影響因素。這些涉及的因分析問題,我們必須考慮眾多影響因素。這些涉及的因素一般稱為指標(biāo),在多元統(tǒng)計(jì)分析中也稱為變量。因?yàn)樗匾话惴Q為指標(biāo),在多元統(tǒng)計(jì)分析中也稱為變量。因?yàn)槊總€(gè)變量都在不同程度上反映了所研究問題的某些信息每個(gè)變量都在不同程度上反映了所研究問題的某些信息,并且指標(biāo)之間彼此有一定的相關(guān)性,因而所得的統(tǒng)計(jì),并且指標(biāo)之間彼此有一定的相關(guān)性,因而所得的統(tǒng)計(jì)數(shù)據(jù)反映的信息在一定程度上有重疊。在用統(tǒng)計(jì)方法數(shù)據(jù)反映的信息在一定程度上有重疊。在用統(tǒng)計(jì)方法研研究多變量問題時(shí),變量太多會(huì)增加計(jì)算量和增加分析問究多變量問題時(shí),變量太多會(huì)增加計(jì)算量和增加分析問題的復(fù)雜性,人們希望在進(jìn)
7、行定量分析的過程中,涉及題的復(fù)雜性,人們希望在進(jìn)行定量分析的過程中,涉及的變量較少,得到的信息量較多。的變量較少,得到的信息量較多。u主成分分析法通過研究指標(biāo)體系的主成分分析法通過研究指標(biāo)體系的內(nèi)在結(jié)構(gòu)關(guān)系內(nèi)在結(jié)構(gòu)關(guān)系,從而,從而將多個(gè)指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)相互獨(dú)立且包含原來指標(biāo)大將多個(gè)指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)相互獨(dú)立且包含原來指標(biāo)大部分信息(部分信息(80%80%或或85%85%以上)的綜合指標(biāo)。其優(yōu)點(diǎn)在于以上)的綜合指標(biāo)。其優(yōu)點(diǎn)在于它確定的它確定的權(quán)數(shù)權(quán)數(shù)是基于數(shù)據(jù)分析而得出的指標(biāo)之間的內(nèi)在是基于數(shù)據(jù)分析而得出的指標(biāo)之間的內(nèi)在結(jié)構(gòu)關(guān)系,不受主觀因素的影響,有較好的結(jié)構(gòu)關(guān)系,不受主觀因素的影響,有較好
8、的客觀性客觀性,而,而且得出的綜合指標(biāo)(主成分)之間相互獨(dú)立,減少信息且得出的綜合指標(biāo)(主成分)之間相互獨(dú)立,減少信息的交叉,這對(duì)分析評(píng)價(jià)極為有利。的交叉,這對(duì)分析評(píng)價(jià)極為有利。主成分分析步驟主成分分析步驟設(shè)設(shè)n個(gè)隨機(jī)變量取得的一組(個(gè)隨機(jī)變量取得的一組(m個(gè))樣本為個(gè))樣本為10(1)對(duì)樣本進(jìn)行標(biāo)準(zhǔn)化處理)對(duì)樣本進(jìn)行標(biāo)準(zhǔn)化處理11(2 2)計(jì)算樣本協(xié)方差矩陣(樣本相關(guān)系數(shù)矩陣)計(jì)算樣本協(xié)方差矩陣(樣本相關(guān)系數(shù)矩陣)協(xié)方差數(shù)據(jù)矩陣的每一列對(duì)應(yīng)一個(gè)變量的協(xié)方差數(shù)據(jù)矩陣的每一列對(duì)應(yīng)一個(gè)變量的m個(gè)量測(cè)個(gè)量測(cè)值,任意兩列之間可以計(jì)算兩變量間的協(xié)方差值,任意兩列之間可以計(jì)算兩變量間的協(xié)方差12 11(
9、,1,2, )1mijkikjn nkn nSsX Xi jnm當(dāng)分析中所選擇的變量具有不同的量綱,變量水平當(dāng)分析中所選擇的變量具有不同的量綱,變量水平差異很大,應(yīng)該計(jì)算樣本相關(guān)系數(shù)(選擇基于相關(guān)差異很大,應(yīng)該計(jì)算樣本相關(guān)系數(shù)(選擇基于相關(guān)系數(shù)矩陣的主成分分析)系數(shù)矩陣的主成分分析)13(3)計(jì)算特征值和特征向量)計(jì)算特征值和特征向量14(4)計(jì)算各主成分)計(jì)算各主成分利用所得單位化特征向量,構(gòu)造一個(gè)正交矩陣?yán)盟脝挝换卣飨蛄?,?gòu)造一個(gè)正交矩陣a15對(duì)于對(duì)于m個(gè)樣本中的第個(gè)樣本中的第k個(gè)樣本,由個(gè)樣本,由Zi=aiX,可得到,可得到n個(gè)主成分個(gè)主成分16u主成分選擇主成分選擇 1)貢獻(xiàn)率:
10、若)貢獻(xiàn)率:若i為協(xié)方差矩陣的第為協(xié)方差矩陣的第i個(gè)特征根,個(gè)特征根,則則 ,稱為第,稱為第i個(gè)主成分的貢獻(xiàn)率個(gè)主成分的貢獻(xiàn)率 ,反映了原來,反映了原來n個(gè)個(gè)指標(biāo)多大的信息,有多大的綜合能力指標(biāo)多大的信息,有多大的綜合能力 。1nijj 2)累積貢獻(xiàn)率:前)累積貢獻(xiàn)率:前k個(gè)主成分共有多大的綜合能力,個(gè)主成分共有多大的綜合能力,用用來描述,稱為第來描述,稱為第k個(gè)主成分的累積貢獻(xiàn)率。個(gè)主成分的累積貢獻(xiàn)率。11knijij18我們進(jìn)行主成分分析的目的之一是希望用盡可我們進(jìn)行主成分分析的目的之一是希望用盡可能少的主成分能少的主成分Z1,Z2,Zp(pn)代替原來)代替原來的的n個(gè)指標(biāo)。到底應(yīng)該選擇多少個(gè)主成分,在實(shí)個(gè)指標(biāo)。到底應(yīng)該選擇多少個(gè)主成分,在實(shí)際工作中,主成分個(gè)數(shù)的多少取決于能夠反映際工作中,主成分個(gè)數(shù)的多少取決于能夠反映原來變量原來變量80%以上的信息量為依據(jù),即當(dāng)累積以上的信息量為依據(jù),即當(dāng)累積貢獻(xiàn)率貢獻(xiàn)率80%
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 屋面防水課件教學(xué)課件
- 2024年度大數(shù)據(jù)中心建設(shè)與運(yùn)維合同
- 2024年度供應(yīng)鏈管理與融資合同
- 2024年度CRM系統(tǒng)升級(jí)合同:增強(qiáng)銷售合同管理功能
- 2024年度5G基站建設(shè)施工合同
- 2024年建筑工程環(huán)保分包合同
- 2024上海市室內(nèi)裝修合同協(xié)議書范本
- 2024年度企業(yè)合規(guī)性檢查與咨詢服務(wù)合同
- 2024年夫妻財(cái)產(chǎn)清算協(xié)議
- 2024天然氣管網(wǎng)運(yùn)營管理合同
- 文印競標(biāo)合同范本
- 2024年廣東省深圳市中考?xì)v史試題
- 2024至2030年全球及中國強(qiáng)光手電筒行業(yè)發(fā)展現(xiàn)狀調(diào)研及投資前景分析報(bào)告
- 2024年秋新教材北師大版一年級(jí)數(shù)學(xué)上冊(cè)全冊(cè)課件
- 加氣站質(zhì)量管理手冊(cè)樣本
- 2019版外研社高中英語必選擇性必修一-四單詞
- 古樹名木養(yǎng)護(hù)復(fù)壯技術(shù)規(guī)范
- 2025年日歷英文版縱向排版周一開始
- S7-1200PLC技術(shù)及應(yīng)用 課件 項(xiàng)目17 步進(jìn)電機(jī)控制
- 《生物技術(shù)制藥》課程介紹與教學(xué)大綱
- 《現(xiàn)代農(nóng)業(yè)技術(shù)推廣》課件-第七組 農(nóng)民問題專題調(diào)研
評(píng)論
0/150
提交評(píng)論