版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 3 主成分分析及聚類分析主成分分析及聚類分析2 大規(guī)模復(fù)雜系統(tǒng)的變量都較多,這增加了分析大規(guī)模復(fù)雜系統(tǒng)的變量都較多,這增加了分析問(wèn)題的難度與復(fù)雜性,很多情況下多個(gè)變量之間具問(wèn)題的難度與復(fù)雜性,很多情況下多個(gè)變量之間具有一定的有一定的相關(guān)關(guān)系相關(guān)關(guān)系 能否在相關(guān)分析的基礎(chǔ)上,用較少的新變量能否在相關(guān)分析的基礎(chǔ)上,用較少的新變量代替原來(lái)較多的舊變量,而且使這些較少的新變量代替原來(lái)較多的舊變量,而且使這些較少的新變量盡可能多地保留原來(lái)變量所反映的信息盡可能多地保留原來(lái)變量所反映的信息 主成分分析方法就是綜合處理這種問(wèn)題的一種主成分分析方法就是綜合處理這種問(wèn)題的一種強(qiáng)有力的工具。主成分分析是把原來(lái)多
2、個(gè)變量劃為強(qiáng)有力的工具。主成分分析是把原來(lái)多個(gè)變量劃為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法3 主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)系進(jìn)行簡(jiǎn)化分析的方法。系進(jìn)行簡(jiǎn)化分析的方法。 主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則下,對(duì)多變量的數(shù)據(jù)進(jìn)行最佳綜合簡(jiǎn)化,也就是則下,對(duì)多變量的數(shù)據(jù)進(jìn)行最佳綜合簡(jiǎn)化,也就是說(shuō),對(duì)高維變量空間進(jìn)行降維處理。說(shuō),對(duì)高維變量空間進(jìn)行降維處理。4u一個(gè)簡(jiǎn)單的例子一個(gè)簡(jiǎn)單的例子成績(jī)的評(píng)估可以用下面的綜合成績(jī)來(lái)體現(xiàn):成績(jī)的評(píng)估可以用下面的綜合成績(jī)來(lái)體現(xiàn):a1數(shù)學(xué)
3、數(shù)學(xué)a2語(yǔ)文語(yǔ)文a3英語(yǔ)英語(yǔ)a4體育體育 確定權(quán)重系數(shù)的過(guò)程就可以看作是主成分分析的過(guò)確定權(quán)重系數(shù)的過(guò)程就可以看作是主成分分析的過(guò)程,得到的加權(quán)成績(jī)總和就相對(duì)于新的綜合變量程,得到的加權(quán)成績(jī)總和就相對(duì)于新的綜合變量主成分主成分當(dāng)某一問(wèn)題需要同時(shí)考慮好幾個(gè)因素時(shí),我們并不當(dāng)某一問(wèn)題需要同時(shí)考慮好幾個(gè)因素時(shí),我們并不對(duì)這些因素個(gè)別處理而是將它們綜合起來(lái)處理,對(duì)這些因素個(gè)別處理而是將它們綜合起來(lái)處理,這就是主成分分析這就是主成分分析5基本思想基本思想u如果用如果用x1, x2 , , xn表示表示n門(mén)課程,門(mén)課程, a1, a2 , an表表示各門(mén)課程的權(quán)重,且滿足示各門(mén)課程的權(quán)重,且滿足 ,那么加
4、權(quán)之和就是:,那么加權(quán)之和就是:u s= a1x1+ a2x2+ anxnu我們希望選擇適當(dāng)?shù)臋?quán)重能更好地區(qū)分學(xué)生的成我們希望選擇適當(dāng)?shù)臋?quán)重能更好地區(qū)分學(xué)生的成績(jī),每個(gè)學(xué)生都對(duì)應(yīng)一個(gè)這樣的綜合成績(jī)。記為績(jī),每個(gè)學(xué)生都對(duì)應(yīng)一個(gè)這樣的綜合成績(jī)。記為s1, s2 , , sm。 m為學(xué)生人數(shù)。如果這些值很分散為學(xué)生人數(shù)。如果這些值很分散,表明區(qū)分得好。,表明區(qū)分得好。u而方差反映了隨機(jī)變量取值的分散程度。因此,而方差反映了隨機(jī)變量取值的分散程度。因此,我們把方差最大那一組系數(shù)與課程成績(jī)的內(nèi)積所我們把方差最大那一組系數(shù)與課程成績(jī)的內(nèi)積所構(gòu)成的向量(形為構(gòu)成的向量(形為Z1=a1X)稱為)稱為第一主成分
5、第一主成分6222121iiinaaa基本思想基本思想u如果第一主成分所含信息不夠多,還不足以代如果第一主成分所含信息不夠多,還不足以代表原始的表原始的n n個(gè)變量,則需考慮再使用一個(gè)綜合個(gè)變量,則需考慮再使用一個(gè)綜合變量變量Z2=a2X, 且:且: 使使Z2方差達(dá)到最大。則,方差達(dá)到最大。則,Z2為第二主成分為第二主成分012ijCov ZZijijk( ,), , ,主成分分析的目的主成分分析的目的u主成分分析旨在利用降維的思想,把多指標(biāo)轉(zhuǎn)化為少數(shù)主成分分析旨在利用降維的思想,把多指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo)。幾個(gè)綜合指標(biāo)。在實(shí)證問(wèn)題研究中,為了全面、系統(tǒng)地在實(shí)證問(wèn)題研究中,為了全面、系統(tǒng)地
6、分析問(wèn)題,我們必須考慮眾多影響因素。這些涉及的因分析問(wèn)題,我們必須考慮眾多影響因素。這些涉及的因素一般稱為指標(biāo),在多元統(tǒng)計(jì)分析中也稱為變量。因?yàn)樗匾话惴Q為指標(biāo),在多元統(tǒng)計(jì)分析中也稱為變量。因?yàn)槊總€(gè)變量都在不同程度上反映了所研究問(wèn)題的某些信息每個(gè)變量都在不同程度上反映了所研究問(wèn)題的某些信息,并且指標(biāo)之間彼此有一定的相關(guān)性,因而所得的統(tǒng)計(jì),并且指標(biāo)之間彼此有一定的相關(guān)性,因而所得的統(tǒng)計(jì)數(shù)據(jù)反映的信息在一定程度上有重疊。在用統(tǒng)計(jì)方法數(shù)據(jù)反映的信息在一定程度上有重疊。在用統(tǒng)計(jì)方法研研究多變量問(wèn)題時(shí),變量太多會(huì)增加計(jì)算量和增加分析問(wèn)究多變量問(wèn)題時(shí),變量太多會(huì)增加計(jì)算量和增加分析問(wèn)題的復(fù)雜性,人們希望在進(jìn)
7、行定量分析的過(guò)程中,涉及題的復(fù)雜性,人們希望在進(jìn)行定量分析的過(guò)程中,涉及的變量較少,得到的信息量較多。的變量較少,得到的信息量較多。u主成分分析法通過(guò)研究指標(biāo)體系的主成分分析法通過(guò)研究指標(biāo)體系的內(nèi)在結(jié)構(gòu)關(guān)系內(nèi)在結(jié)構(gòu)關(guān)系,從而,從而將多個(gè)指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)相互獨(dú)立且包含原來(lái)指標(biāo)大將多個(gè)指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)相互獨(dú)立且包含原來(lái)指標(biāo)大部分信息(部分信息(80%80%或或85%85%以上)的綜合指標(biāo)。其優(yōu)點(diǎn)在于以上)的綜合指標(biāo)。其優(yōu)點(diǎn)在于它確定的它確定的權(quán)數(shù)權(quán)數(shù)是基于數(shù)據(jù)分析而得出的指標(biāo)之間的內(nèi)在是基于數(shù)據(jù)分析而得出的指標(biāo)之間的內(nèi)在結(jié)構(gòu)關(guān)系,不受主觀因素的影響,有較好的結(jié)構(gòu)關(guān)系,不受主觀因素的影響,有較好
8、的客觀性客觀性,而,而且得出的綜合指標(biāo)(主成分)之間相互獨(dú)立,減少信息且得出的綜合指標(biāo)(主成分)之間相互獨(dú)立,減少信息的交叉,這對(duì)分析評(píng)價(jià)極為有利。的交叉,這對(duì)分析評(píng)價(jià)極為有利。主成分分析步驟主成分分析步驟設(shè)設(shè)n個(gè)隨機(jī)變量取得的一組(個(gè)隨機(jī)變量取得的一組(m個(gè))樣本為個(gè))樣本為10(1)對(duì)樣本進(jìn)行標(biāo)準(zhǔn)化處理)對(duì)樣本進(jìn)行標(biāo)準(zhǔn)化處理11(2 2)計(jì)算樣本協(xié)方差矩陣(樣本相關(guān)系數(shù)矩陣)計(jì)算樣本協(xié)方差矩陣(樣本相關(guān)系數(shù)矩陣)協(xié)方差數(shù)據(jù)矩陣的每一列對(duì)應(yīng)一個(gè)變量的協(xié)方差數(shù)據(jù)矩陣的每一列對(duì)應(yīng)一個(gè)變量的m個(gè)量測(cè)個(gè)量測(cè)值,任意兩列之間可以計(jì)算兩變量間的協(xié)方差值,任意兩列之間可以計(jì)算兩變量間的協(xié)方差12 11(
9、,1,2, )1mijkikjn nkn nSsX Xi jnm當(dāng)分析中所選擇的變量具有不同的量綱,變量水平當(dāng)分析中所選擇的變量具有不同的量綱,變量水平差異很大,應(yīng)該計(jì)算樣本相關(guān)系數(shù)(選擇基于相關(guān)差異很大,應(yīng)該計(jì)算樣本相關(guān)系數(shù)(選擇基于相關(guān)系數(shù)矩陣的主成分分析)系數(shù)矩陣的主成分分析)13(3)計(jì)算特征值和特征向量)計(jì)算特征值和特征向量14(4)計(jì)算各主成分)計(jì)算各主成分利用所得單位化特征向量,構(gòu)造一個(gè)正交矩陣?yán)盟脝挝换卣飨蛄?,?gòu)造一個(gè)正交矩陣a15對(duì)于對(duì)于m個(gè)樣本中的第個(gè)樣本中的第k個(gè)樣本,由個(gè)樣本,由Zi=aiX,可得到,可得到n個(gè)主成分個(gè)主成分16u主成分選擇主成分選擇 1)貢獻(xiàn)率:
10、若)貢獻(xiàn)率:若i為協(xié)方差矩陣的第為協(xié)方差矩陣的第i個(gè)特征根,個(gè)特征根,則則 ,稱為第,稱為第i個(gè)主成分的貢獻(xiàn)率個(gè)主成分的貢獻(xiàn)率 ,反映了原來(lái),反映了原來(lái)n個(gè)個(gè)指標(biāo)多大的信息,有多大的綜合能力指標(biāo)多大的信息,有多大的綜合能力 。1nijj 2)累積貢獻(xiàn)率:前)累積貢獻(xiàn)率:前k個(gè)主成分共有多大的綜合能力,個(gè)主成分共有多大的綜合能力,用用來(lái)描述,稱為第來(lái)描述,稱為第k個(gè)主成分的累積貢獻(xiàn)率。個(gè)主成分的累積貢獻(xiàn)率。11knijij18我們進(jìn)行主成分分析的目的之一是希望用盡可我們進(jìn)行主成分分析的目的之一是希望用盡可能少的主成分能少的主成分Z1,Z2,Zp(pn)代替原來(lái))代替原來(lái)的的n個(gè)指標(biāo)。到底應(yīng)該選擇多少個(gè)主成分,在實(shí)個(gè)指標(biāo)。到底應(yīng)該選擇多少個(gè)主成分,在實(shí)際工作中,主成分個(gè)數(shù)的多少取決于能夠反映際工作中,主成分個(gè)數(shù)的多少取決于能夠反映原來(lái)變量原來(lái)變量80%以上的信息量為依據(jù),即當(dāng)累積以上的信息量為依據(jù),即當(dāng)累積貢獻(xiàn)率貢獻(xiàn)率80%
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年《價(jià)值為綱》學(xué)習(xí)心得范例(3篇)
- 課題申報(bào)參考:接受美學(xué)視野下的卞之琳莎學(xué)研究
- 課題申報(bào)參考:教育強(qiáng)國(guó)進(jìn)程中高校繼續(xù)教育高質(zhì)量發(fā)展的保障機(jī)制和推進(jìn)路徑研究
- 2025版房地產(chǎn)銷售代理授權(quán)委托合同3篇
- 二零二五年度物流倉(cāng)儲(chǔ)中心臨時(shí)搬運(yùn)工勞動(dòng)合同書(shū)4篇
- 2025版學(xué)校游泳池配套設(shè)施租賃與管理承包合同示范2篇
- 二零二五版藝術(shù)品拍賣師傭金分成合同3篇
- 個(gè)性化離婚合同與起訴狀套裝2024版版B版
- 二零二五年度健康管理與養(yǎng)老服務(wù)業(yè)合作協(xié)議3篇
- 二零二五年度圖書(shū)封面及插圖設(shè)計(jì)合同4篇
- 山東鐵投集團(tuán)招聘筆試沖刺題2025
- 真需求-打開(kāi)商業(yè)世界的萬(wàn)能鑰匙
- 2025年天津市政集團(tuán)公司招聘筆試參考題庫(kù)含答案解析
- GB/T 44953-2024雷電災(zāi)害調(diào)查技術(shù)規(guī)范
- 2024-2025學(xué)年度第一學(xué)期三年級(jí)語(yǔ)文寒假作業(yè)第三天
- 2024年列車員技能競(jìng)賽理論考試題庫(kù)500題(含答案)
- 心律失常介入治療
- 6S精益實(shí)戰(zhàn)手冊(cè)
- 展會(huì)場(chǎng)館保潔管理服務(wù)方案
- 監(jiān)理從業(yè)水平培訓(xùn)課件
- 廣東省惠州市實(shí)驗(yàn)中學(xué)2025屆物理高二第一學(xué)期期末綜合測(cè)試試題含解析
評(píng)論
0/150
提交評(píng)論