主成分分析法_第1頁
主成分分析法_第2頁
主成分分析法_第3頁
主成分分析法_第4頁
主成分分析法_第5頁
已閱讀5頁,還剩27頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

主成分分析法報告人:高麗、武金菊引例

Hotelling(1939)用兩個主成分反應學生入學考試成績:文科能力、數(shù)理能力在對科普產(chǎn)品開發(fā)和利用這一要素的評估中,涉及科普創(chuàng)作人數(shù)百萬人、科普作品發(fā)行量百萬人、科普產(chǎn)業(yè)化(科普示范基地數(shù)百萬人)等多項指標。經(jīng)過主成分分析計算,最后確定個或個主成分作為綜合評價科普產(chǎn)品利用和開發(fā)的綜合指標,變量數(shù)減少,并達到一定的可信度,就容易進行科普效果的評估。

主成分分析(PrincipalComponentAnalysis,PCA)也稱主分量分析或矩陣分析,是統(tǒng)計分析法中的一種重要方法,利用數(shù)理統(tǒng)計方法找出系統(tǒng)中的主要因素和個因素之間的相互關系。

主成分分析法是把原來多個變量劃為少數(shù)幾個綜合指標的一種統(tǒng)計分析方法。從數(shù)學角度來看,這是一種降維處理技術,因而可將多變量的高維空間問題化簡成低維的綜合指標問題,能反應系統(tǒng)信息量最大的綜合指標為第一主成分,其次為第二主成分。主成分之間是互不相關的。主成分分析法的原理預備知識:方差為零的變量不能區(qū)分總體中的個體成員;可以用一個變量的方差來度量該變量所傳遞的信息量;設有n個樣本,每個樣本都可用兩個指標表示,n個樣本是隨機分布的。為了消除幾個隨機變量不同量綱引起的不可比性,將原始數(shù)據(jù)進行標準化處理。例如:第k個樣本的原始參數(shù)為和,經(jīng)過標準化處理后,其參數(shù)為:

其中

主成分分析法的原理標準化以后的參數(shù)有以下的性質:

即所有的變量均取其平均值的偏差,且使其方差為1。

主成分分析法的原理對于二維空間(i=1,2),n個標準化后的樣本在二維空間的分布大體為橢圓形,如圖1所示:

圖1樣本分布圖

預備知識:向量

等方向都是同一個方向

主成分分析法的原理創(chuàng)建使得盡可能大,即尋找一個方向,使得所有點在此方向上的投影的方差盡可能的大主成分分析法的原理創(chuàng)建

使得與不相關,盡可能大,

即尋找另一個方向垂直于,

所有點在上的投影的方差最大。主成分分析法的原理坐標系旋轉一個角度,并取橢圓的長軸方向為新坐標系的軸,短軸方向為新坐標系的軸,如圖2所示:

圖2坐標系旋轉角即

其矩陣的表達形式為:式中

坐標旋轉變換矩陣,它是正交變換矩陣。

主成分分析法的原理轉換后的坐標系是正交的,n個點在軸上的方差較大,在軸上的方差較小。因此,二維空間的樣本點用軸表示,損失的信息較小??蓪⑤S作為第一主成分軸,正交,且方差較小,可作為第二主成分軸。如果軸上的方差為0,全部樣本均落在軸上,則只用軸就可完全反映所有樣本信息。主成分分析法的原理一般來說,每個樣本是

維的,略去樣本號k后,樣本可用

個變量表示

個指標。為進行主成分分析,將坐標變換到個綜合變量,這個變量形成新的坐標系,坐標軸相互正交。所以,可得到以下變換關系式:

其矩陣表示形式為:(L為正交變換矩陣)主成分分析法的原理假定X為已標準化的樣本數(shù)據(jù)矩陣,對于n個樣本,X的矩陣可表示為主成分的導出樣本的相關矩陣R主成分的導出為原變量的相關系數(shù),,其計算公式為:主成分的導出主成分的導出

計算特征值與特征向量(1)解特征方程,求出p個特征值滿足以下關系:

式中,

為第j個主成分軸方向的方差。

由于最大,故由反映的綜合指標為第一主成分。(2)求出每個特征值所對應的特征向量

主成分的導出確定主成分的個數(shù)(1)粗略決定欲保留的方差百分。(2)若某個主成分的方差大于1,就保留它。

累積貢獻率:主成分的導出相關矩陣R的特征向量為一個正交矩陣L,即

其中對應于的特征向量為,其余依次類推。經(jīng)過坐標變換后得到的新變量(或主成分)的表達式為:主成分的導出

因子載荷量和累積貢獻率

定義主成分和原變量間的相關系數(shù)為,稱為因子負荷量,它表示第j個主成分對變量的貢獻程度,一般有正有負。如果取q個主成分,則變量的總貢獻率為各因子負荷量的平方和,即主成分分析法的計算步驟1、對數(shù)據(jù)樣本進行標準化處理;2、計算樣本的相關矩陣;3、求相關矩陣的特征根和特征向量;4、確定主成分的個數(shù);5、確定主成分的線性方程式;6、計算因子負荷量和累計貢獻率(或總貢獻率);7、根據(jù)上述計算結果,對系統(tǒng)進行分析。主成分分析法的應用例:有1000名學生進行課程考試,共有4門課,考試成績按概率分布,原始數(shù)據(jù)經(jīng)標準化處理后,求得的樣本相關矩陣R如表2所示。

表2相關矩陣R課程語文外語數(shù)學物理語文10.440.290.33外語0.4410.350.32數(shù)學0.290.3510.60物理0.330.320.601主成分分析法的應用矩陣R的特征值為,如果要求主成分的方差累積貢獻率大于75%,從矩陣R的特征值可以看出,故只需取兩個主成分就夠了。對應于和的特征向量如表3所示。

表3特征向量表y貢獻率0.4600.4760.5230.5370.5430.7020.594-0.582-0.5570.218主成分分析法的應用由此可得主成分的線性方程式:用和表示學生的兩類智力水平,使問題簡單明了。

主成分分析法的應用因子負荷量和總貢獻率如表4所示:表4因子負荷量和總貢獻率x0.6780.7020.7700.7910.6550.554-0.543-0.520對的總貢獻率0.8890.7980.8880.896主成分分析法的應用由表4可以看出,第一行對應的因子負荷量均為正數(shù),表示各門課程成績提高都可以使增加,可以認為主成分全面反映了學生智力的整體情況。對應于的所有因子負荷量數(shù)值相近,而且最大,這表明不僅能反映學生的全面智能,而且物理課的成績在智能評價中占有重要位置。第二主成分的因子負荷量有正有負,語文和外語的為正,數(shù)學和物理的為負,這樣變量被分為兩組。有表可以看出個變量間相互關系的強弱,語文和外語反映文科類課程水平,數(shù)學和物理反應理工科類的課程水平。1.主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(m<p),而低維的Y空間代替高維的x空間所損失的信息很少。即:使只有一個主成分(即

m=1)時,這個

仍是使用全部X變量(p個)得到的。2.有時可通過因子負荷

的結論,弄清X變量間的某些關系。主成分分析法的作用3.多維數(shù)據(jù)的一種圖形表示方法。我們知道當維數(shù)大于3時便不能畫出幾何圖形,多元統(tǒng)計研究的問題大都多于3個變量。要把研究的問題用圖形表示出來是不可能的。然而,經(jīng)過主成分分析后,我們可以選取前兩個主成分或其中某兩個主成分,根據(jù)主成分的得分,畫出n個樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位,進而還可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論