主成分分析法_第1頁(yè)
主成分分析法_第2頁(yè)
主成分分析法_第3頁(yè)
主成分分析法_第4頁(yè)
主成分分析法_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

主成分分析法報(bào)告人:高麗、武金菊引例

Hotelling(1939)用兩個(gè)主成分反應(yīng)學(xué)生入學(xué)考試成績(jī):文科能力、數(shù)理能力在對(duì)科普產(chǎn)品開發(fā)和利用這一要素的評(píng)估中,涉及科普創(chuàng)作人數(shù)百萬(wàn)人、科普作品發(fā)行量百萬(wàn)人、科普產(chǎn)業(yè)化(科普示范基地?cái)?shù)百萬(wàn)人)等多項(xiàng)指標(biāo)。經(jīng)過主成分分析計(jì)算,最后確定個(gè)或個(gè)主成分作為綜合評(píng)價(jià)科普產(chǎn)品利用和開發(fā)的綜合指標(biāo),變量數(shù)減少,并達(dá)到一定的可信度,就容易進(jìn)行科普效果的評(píng)估。

主成分分析(PrincipalComponentAnalysis,PCA)也稱主分量分析或矩陣分析,是統(tǒng)計(jì)分析法中的一種重要方法,利用數(shù)理統(tǒng)計(jì)方法找出系統(tǒng)中的主要因素和個(gè)因素之間的相互關(guān)系。

主成分分析法是把原來多個(gè)變量劃為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法。從數(shù)學(xué)角度來看,這是一種降維處理技術(shù),因而可將多變量的高維空間問題化簡(jiǎn)成低維的綜合指標(biāo)問題,能反應(yīng)系統(tǒng)信息量最大的綜合指標(biāo)為第一主成分,其次為第二主成分。主成分之間是互不相關(guān)的。主成分分析法的原理預(yù)備知識(shí):方差為零的變量不能區(qū)分總體中的個(gè)體成員;可以用一個(gè)變量的方差來度量該變量所傳遞的信息量;設(shè)有n個(gè)樣本,每個(gè)樣本都可用兩個(gè)指標(biāo)表示,n個(gè)樣本是隨機(jī)分布的。為了消除幾個(gè)隨機(jī)變量不同量綱引起的不可比性,將原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。例如:第k個(gè)樣本的原始參數(shù)為和,經(jīng)過標(biāo)準(zhǔn)化處理后,其參數(shù)為:

其中

主成分分析法的原理標(biāo)準(zhǔn)化以后的參數(shù)有以下的性質(zhì):

即所有的變量均取其平均值的偏差,且使其方差為1。

主成分分析法的原理對(duì)于二維空間(i=1,2),n個(gè)標(biāo)準(zhǔn)化后的樣本在二維空間的分布大體為橢圓形,如圖1所示:

圖1樣本分布圖

預(yù)備知識(shí):向量

等方向都是同一個(gè)方向

主成分分析法的原理創(chuàng)建使得盡可能大,即尋找一個(gè)方向,使得所有點(diǎn)在此方向上的投影的方差盡可能的大主成分分析法的原理創(chuàng)建

使得與不相關(guān),盡可能大,

即尋找另一個(gè)方向垂直于,

所有點(diǎn)在上的投影的方差最大。主成分分析法的原理坐標(biāo)系旋轉(zhuǎn)一個(gè)角度,并取橢圓的長(zhǎng)軸方向?yàn)樾伦鴺?biāo)系的軸,短軸方向?yàn)樾伦鴺?biāo)系的軸,如圖2所示:

圖2坐標(biāo)系旋轉(zhuǎn)角即

其矩陣的表達(dá)形式為:式中

坐標(biāo)旋轉(zhuǎn)變換矩陣,它是正交變換矩陣。

主成分分析法的原理轉(zhuǎn)換后的坐標(biāo)系是正交的,n個(gè)點(diǎn)在軸上的方差較大,在軸上的方差較小。因此,二維空間的樣本點(diǎn)用軸表示,損失的信息較小??蓪⑤S作為第一主成分軸,正交,且方差較小,可作為第二主成分軸。如果軸上的方差為0,全部樣本均落在軸上,則只用軸就可完全反映所有樣本信息。主成分分析法的原理一般來說,每個(gè)樣本是

維的,略去樣本號(hào)k后,樣本可用

個(gè)變量表示

個(gè)指標(biāo)。為進(jìn)行主成分分析,將坐標(biāo)變換到個(gè)綜合變量,這個(gè)變量形成新的坐標(biāo)系,坐標(biāo)軸相互正交。所以,可得到以下變換關(guān)系式:

其矩陣表示形式為:(L為正交變換矩陣)主成分分析法的原理假定X為已標(biāo)準(zhǔn)化的樣本數(shù)據(jù)矩陣,對(duì)于n個(gè)樣本,X的矩陣可表示為主成分的導(dǎo)出樣本的相關(guān)矩陣R主成分的導(dǎo)出為原變量的相關(guān)系數(shù),,其計(jì)算公式為:主成分的導(dǎo)出主成分的導(dǎo)出

計(jì)算特征值與特征向量(1)解特征方程,求出p個(gè)特征值滿足以下關(guān)系:

式中,

為第j個(gè)主成分軸方向的方差。

由于最大,故由反映的綜合指標(biāo)為第一主成分。(2)求出每個(gè)特征值所對(duì)應(yīng)的特征向量

主成分的導(dǎo)出確定主成分的個(gè)數(shù)(1)粗略決定欲保留的方差百分。(2)若某個(gè)主成分的方差大于1,就保留它。

累積貢獻(xiàn)率:主成分的導(dǎo)出相關(guān)矩陣R的特征向量為一個(gè)正交矩陣L,即

其中對(duì)應(yīng)于的特征向量為,其余依次類推。經(jīng)過坐標(biāo)變換后得到的新變量(或主成分)的表達(dá)式為:主成分的導(dǎo)出

因子載荷量和累積貢獻(xiàn)率

定義主成分和原變量間的相關(guān)系數(shù)為,稱為因子負(fù)荷量,它表示第j個(gè)主成分對(duì)變量的貢獻(xiàn)程度,一般有正有負(fù)。如果取q個(gè)主成分,則變量的總貢獻(xiàn)率為各因子負(fù)荷量的平方和,即主成分分析法的計(jì)算步驟1、對(duì)數(shù)據(jù)樣本進(jìn)行標(biāo)準(zhǔn)化處理;2、計(jì)算樣本的相關(guān)矩陣;3、求相關(guān)矩陣的特征根和特征向量;4、確定主成分的個(gè)數(shù);5、確定主成分的線性方程式;6、計(jì)算因子負(fù)荷量和累計(jì)貢獻(xiàn)率(或總貢獻(xiàn)率);7、根據(jù)上述計(jì)算結(jié)果,對(duì)系統(tǒng)進(jìn)行分析。主成分分析法的應(yīng)用例:有1000名學(xué)生進(jìn)行課程考試,共有4門課,考試成績(jī)按概率分布,原始數(shù)據(jù)經(jīng)標(biāo)準(zhǔn)化處理后,求得的樣本相關(guān)矩陣R如表2所示。

表2相關(guān)矩陣R課程語(yǔ)文外語(yǔ)數(shù)學(xué)物理語(yǔ)文10.440.290.33外語(yǔ)0.4410.350.32數(shù)學(xué)0.290.3510.60物理0.330.320.601主成分分析法的應(yīng)用矩陣R的特征值為,如果要求主成分的方差累積貢獻(xiàn)率大于75%,從矩陣R的特征值可以看出,故只需取兩個(gè)主成分就夠了。對(duì)應(yīng)于和的特征向量如表3所示。

表3特征向量表y貢獻(xiàn)率0.4600.4760.5230.5370.5430.7020.594-0.582-0.5570.218主成分分析法的應(yīng)用由此可得主成分的線性方程式:用和表示學(xué)生的兩類智力水平,使問題簡(jiǎn)單明了。

主成分分析法的應(yīng)用因子負(fù)荷量和總貢獻(xiàn)率如表4所示:表4因子負(fù)荷量和總貢獻(xiàn)率x0.6780.7020.7700.7910.6550.554-0.543-0.520對(duì)的總貢獻(xiàn)率0.8890.7980.8880.896主成分分析法的應(yīng)用由表4可以看出,第一行對(duì)應(yīng)的因子負(fù)荷量均為正數(shù),表示各門課程成績(jī)提高都可以使增加,可以認(rèn)為主成分全面反映了學(xué)生智力的整體情況。對(duì)應(yīng)于的所有因子負(fù)荷量數(shù)值相近,而且最大,這表明不僅能反映學(xué)生的全面智能,而且物理課的成績(jī)?cè)谥悄茉u(píng)價(jià)中占有重要位置。第二主成分的因子負(fù)荷量有正有負(fù),語(yǔ)文和外語(yǔ)的為正,數(shù)學(xué)和物理的為負(fù),這樣變量被分為兩組。有表可以看出個(gè)變量間相互關(guān)系的強(qiáng)弱,語(yǔ)文和外語(yǔ)反映文科類課程水平,數(shù)學(xué)和物理反應(yīng)理工科類的課程水平。1.主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(m<p),而低維的Y空間代替高維的x空間所損失的信息很少。即:使只有一個(gè)主成分(即

m=1)時(shí),這個(gè)

仍是使用全部X變量(p個(gè))得到的。2.有時(shí)可通過因子負(fù)荷

的結(jié)論,弄清X變量間的某些關(guān)系。主成分分析法的作用3.多維數(shù)據(jù)的一種圖形表示方法。我們知道當(dāng)維數(shù)大于3時(shí)便不能畫出幾何圖形,多元統(tǒng)計(jì)研究的問題大都多于3個(gè)變量。要把研究的問題用圖形表示出來是不可能的。然而,經(jīng)過主成分分析后,我們可以選取前兩個(gè)主成分或其中某兩個(gè)主成分,根據(jù)主成分的得分,畫出n個(gè)樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位,進(jìn)而還可

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論