主成分分析簡介_第1頁
主成分分析簡介_第2頁
主成分分析簡介_第3頁
主成分分析簡介_第4頁
主成分分析簡介_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、主成分分析簡介Principal Component Analysis(PCA)什么是主成分分析? 我們來看一個例子:小學(xué)各科成績的評估可以用下面的綜合成績來體現(xiàn): a1語文a2數(shù)學(xué)a3自然a4社會科學(xué) 確定權(quán)重系數(shù)的過程就可以看作是主成分分析的過程,得到的加權(quán)成績總和就相對于新的綜合變量主成分什么是主成分分析? 推而廣之,當(dāng)某一問題需要同時考慮好幾個因素時,我們并不對這些因素個別處理而是將它們綜合起來處理,這就是PCA。 這樣綜合處理的原則是使新的綜合變量能夠解釋大部分原始數(shù)據(jù)方差。 由于變量較多,增加了分析問題的復(fù)雜性。但在實際問題中,變量之間可能存在一定的相關(guān)性,因此,多變量中可能存在信

2、息的重疊。人們自然希望通過克服相關(guān)性、重疊性,用較少的變量來代替原來較多的變量,而這種代替可以反映原來多個變量的大部分信息,這實際上是一種“降維”的思想。主成分分析也稱主分量分析,是由Hotelling于1933年首先提出的。由于多個變量之間往往存在著一定程度的相關(guān)性。人們自然希望通過線性組合的方式,從這些指標(biāo)中盡可能快地提取信息。當(dāng)?shù)谝粋€線性組合不能提取更多的信息時,再考慮用第二個線性組合繼續(xù)這個快速提取的過程,直到所提取的信息與原指標(biāo)相差不多時為止。這就是主成分分析的思想。一般說來,在主成分分析適用的場合,用較少的主成分就可以得到較多的信息量。以各個主成分為分量,就得到一個更低維的隨機(jī)向量

3、;因此,通過主成分既可以降低數(shù)據(jù)“維數(shù)”又保留了原數(shù)據(jù)的大部分信息4什么是主成分分析? 由于各種量測到數(shù)據(jù)通常是以矩陣的形式記錄、表達(dá)和存儲的,實際中的很多數(shù)據(jù)信息往往是重疊與冗余的。從線性代數(shù)的觀點來看,就是這些數(shù)據(jù)矩陣中存在相關(guān)的行或列。因此需要對其進(jìn)行處理和提煉,抽取出有意義、獨立的變量。 主成分分析(Principal Component Analysis, 簡稱PCA)是一種常用的基于變量協(xié)方差矩陣對信息進(jìn)行處理、壓縮和抽提的有效方法。為什么要根據(jù)方差確定主成分?情形II下總分的方差為0,顯然不能反映三個學(xué)生各科成績各有所長的實際情形,而紅色標(biāo)記的變量對應(yīng)的方差最大,可反映原始數(shù)據(jù)的

4、大部分信息對主成分的要求 上例可見,用總分有時可以反映原分?jǐn)?shù)表的情況,保留原有信息,有時則把信息丟盡,不能反映原理的情況和差異。根據(jù)總分所對應(yīng)的方差可以確定其代表了多大比例的原始數(shù)據(jù)(分?jǐn)?shù))信息。 一般來說,我們希望能用一個或少數(shù)幾個綜合指標(biāo)(分?jǐn)?shù))來代替原來分?jǐn)?shù)表做統(tǒng)計分析,而且希望新的綜合指標(biāo)能夠盡可能地保留原有信息,并具有最大的方差。 主成分分析的目的 壓縮變量個數(shù),用較少的變量去解釋原始數(shù)據(jù)中的大部分變量,剔除冗余信息。即將許多相關(guān)性很高的變量轉(zhuǎn)化成個數(shù)較少、能解釋大部分原始數(shù)據(jù)方差且彼此互相獨立的幾個新變量,也就是所謂的主成分。 這樣就可以消除原始變量間存在的共線性,克服由此造成的運

5、算不穩(wěn)定、矩陣病態(tài)等問題。為什么要進(jìn)行主成分分析? 消除原始變量間存在的共線性,克服由此造成的運算不穩(wěn)定、矩陣病態(tài)等問題 壓縮變量個數(shù),剔除冗余信息,使模型更好地反映真實情況。 PCA分析在很多領(lǐng)域有廣泛應(yīng)用(模式識別、化學(xué)組分的定量分析、多元物系的組分?jǐn)?shù)目確定、動力學(xué)反應(yīng)機(jī)理的確定等)為什么要進(jìn)行主成分分析? 對p個變量進(jìn)行n次觀測得到的觀測數(shù)據(jù)可用下面的矩陣表示 采用PCA(主成分分析)技術(shù)可以將上述矩陣的列數(shù)壓縮。 npnnppxxxxxxxxxX212222111211基本概念 協(xié)方差(covariance) 方差 標(biāo)準(zhǔn)差)(11),cov(1yyxxnyxiniiniixxxxnL1

6、2)(11xxxLS 基本概念 相關(guān)系數(shù)(correlation coefficient ) 協(xié)方差數(shù)據(jù)矩陣的每一列對應(yīng)一個變量的n個量測值,任意兩列之間可以計算兩變量間的協(xié)方差cov(i,j),i=j時,yxSSyxyxr),cov(),(2),cov(iSii協(xié)方差矩陣協(xié)方差矩陣2232221) 3 ,cov()2 ,cov() 1 ,cov(), 3cov()2 , 3cov() 1 , 3cov(), 2cov() 3 , 2cov() 1 , 2cov(), 1cov() 3 , 1cov()2 , 1cov(pSppppSpSpSZ 主成分的求解步驟:主成分的求解步驟: i)對原始

7、數(shù)據(jù)矩陣進(jìn)行標(biāo)準(zhǔn)化處理)對原始數(shù)據(jù)矩陣進(jìn)行標(biāo)準(zhǔn)化處理 相當(dāng)于對原始變量進(jìn)行坐標(biāo)平移與尺度伸縮:npnnpppnxxxxxxxxxX212222111211),;,( ,/ )(pjniSxxxjjijij2121 ii)求協(xié)方差矩陣Z iii)特征分解 相當(dāng)于將原來的坐標(biāo)軸進(jìn)行旋轉(zhuǎn)得到新的坐標(biāo) 軸U: Z的特征值組成的對角陣 UZ的特征向量按列組成的正交陣,它構(gòu)成 了新的矢量空間,作為新變量(主成分)的坐 標(biāo)軸,又稱為載荷軸。 tUUZ特征值表示新變量(主成分)方差的大小得到的特征矢量的方差比前一個特征矢量的更小,也就是依次遞減特征矢量相互正交,即不相關(guān) iv) 確定主成分個數(shù) (1)根據(jù)累積

8、貢獻(xiàn)率 當(dāng) 大于某個閾值時,可認(rèn)為主成分?jǐn)?shù)目為m。 (2)根據(jù)其它準(zhǔn)則* 特征值大于1.0的因子數(shù)定為主成分?jǐn)?shù)。* 利用特征值與因子數(shù)目的曲線,到某一因子數(shù)后,特征值減小幅度變化不大,此轉(zhuǎn)折點的因子數(shù)即為主成分?jǐn)?shù)m。* 保留那些與一個以上變量有重大關(guān)系的因子。)/(2121pmmm v) 求主成分得分新的變量值 F陣的每一行相當(dāng)于原數(shù)據(jù)矩陣的所有行(即原始變量構(gòu)成的向量)在主成分坐標(biāo)軸(載荷軸)上的投影,這些新的投影構(gòu)成的向量就是主成分得分向量。mppnmnUXF主成分分析原理 根據(jù)方差最大化原理,用一組新的、線性無關(guān)且相互正交的向量來表征原來數(shù)據(jù)矩陣的行(或列)。這組新向量(主成分)是原始數(shù)

9、據(jù)向量的線性組合。 通過對原始數(shù)據(jù)的平移、尺度伸縮(減均值除方差)和坐標(biāo)旋轉(zhuǎn)(特征分解),得到新的坐標(biāo)系(特征向量)后,用原始數(shù)據(jù)在新坐標(biāo)系下的投影(點積)來替代原始變量。主成分的特點 主成分是原變量的線性組合; 各個主成分之間互不相關(guān); 主成分按照方差從大到小依次排列,第一主 成分對應(yīng)最大的方差(特征值); 每個主成分的均值為0、其方差為協(xié)方差陣 對應(yīng)的特征值; 不同的主成分軸(載荷軸)之間相互正交。主成分的特點 如果原來有p個變量,則最多可以選取p個主成分,這p個主成分的變化可以完全反映原來全部p個變量的變化; 如果選取的主成分少于p個,則這些主成分的變化應(yīng)盡可能多地反映原來全部p個變量的

10、變化。PCA的優(yōu)點 它能找到表現(xiàn)原始數(shù)據(jù)陣最重要的變量的組合 通過表示最大的方差,能有效地直觀反映樣本之間的關(guān)系 能從最大的幾個主成分的得分來近似反映原始的數(shù)據(jù)陣的信息主成分分析的計算步驟(1)計算相關(guān)系數(shù)矩陣在公式(3)中,rij(i,j=1,2,p)為原來變量xi與xj的相關(guān)系數(shù),其計算公式為因為R是實對稱矩陣(即rij=rji),所以只需計算其上三角元素或下三角元素即可。 (2)計算特征值與特征向量 首先解特征方程IR=0求出特征值i(i=1,2,p),并使其按大小順序排列,即12,p0;然后分別求出對應(yīng)于特征值i的特征向量ei(i=1,2,p)。 (3)計算主成分貢獻(xiàn)率及累計貢獻(xiàn)率 一

11、般取累計貢獻(xiàn)率達(dá)8595的特征值1,2,m所對應(yīng)的第一,第二,第m(mp)個主成分。 (4)計算主成分載荷 由此可以進(jìn)一步計算主成分得分: 由此可以進(jìn)一步計算主成分得分: 例1:有3個變量X1, X2與X3(m=3),其16次(n=16)觀測值見下表: 相關(guān)矩陣為:相關(guān)陣R的特征值分別為2.077,0.919,0.004, 這說明第三個主成分所起作用非常小,可以只要兩個主成分 。 例2:8個樣品中苯和二甲苯的含量見下表:原始數(shù)據(jù)矩陣中含有8(n8)個樣品、兩個變量, 其協(xié)方差矩陣為:根據(jù)根據(jù)PC1求得的苯與二甲苯含量及殘差求得的苯與二甲苯含量及殘差主成分得分的平方和、特征值與方差(17.67)2+(10.58)2+(10.64)2+(4.96)2+(5.67)2+(10.61)2+(12.73)2+(14.84)2=1089(81) 155.59=1089主成分的平方和(n1) 對應(yīng)特征值由于主成分的均值為零,所以主成分的平方和(n1 ) 方差特征值反映的是相應(yīng)主成分的方差大小對于維數(shù)較大的數(shù)據(jù)矩陣,采用Jacobi法進(jìn)行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論