第一講-主成分分析分析課件_第1頁
第一講-主成分分析分析課件_第2頁
第一講-主成分分析分析課件_第3頁
第一講-主成分分析分析課件_第4頁
第一講-主成分分析分析課件_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

羅樹生主成分分析x2c1x1x2C1x1x2x3主成分分析(PrincipalComponentAnalysis,PCA)是一種數(shù)據(jù)降維技術,將多個具有較強相關性的實測變量綜合成少量綜合變量。一個度量指標的好壞除了可靠、真實之外,還必須能充分反映個體間的變異。如果有一項指標,不同個體的取值都大同小異,那么該指標不能用來區(qū)分不同的個體。由這一點來看,一項指標在個體間的變異越大越好。因此我們把“變異大”作為“好”的標準來尋求綜合指標。在力求數(shù)據(jù)信息丟失最少的原則下,對高維的變量空間降維,即研究指標體系的少數(shù)幾個線性組合,并且這幾個線性組合所構成的綜合指標將盡可能多地保留原來指標變異方面的信息。這些綜合指標就稱為主成分。?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標軸如果我們將xl

軸和x2軸先平移,再同時按逆時針方向旋轉(zhuǎn)角度,得到新坐標軸Cl和C2。Cl和C2是兩個新變量。根據(jù)旋轉(zhuǎn)變換的公式:旋轉(zhuǎn)變換的目的是為了使得n個樣品點在Cl軸方向上的離散程度最大,即Cl的方差最大。變量Cl代表了原始數(shù)據(jù)的絕大部分信息,在研究某問題時,即使不考慮變量C2也無損大局。經(jīng)過上述旋轉(zhuǎn)變換原始數(shù)據(jù)的大部分信息集中到Cl軸上,對數(shù)據(jù)中包含的信息起到了濃縮作用。

Cl,C2除了可以對包含在Xl,X2中的信息起著濃縮作用之外,還具有不相關的性質(zhì),這就使得在研究復雜的問題時避免了信息重疊所帶來的虛假性。二維平面上的個點的方差大部分都歸結在Cl軸上,而C2軸上的方差很小。Cl和C2稱為原始變量x1和x2的綜合變量。C簡化了系統(tǒng)結構。主成分分析的數(shù)學模型通常情況下,所分析的多個變量具有不同量綱或均數(shù)/方差相差很大,不適于用協(xié)方差矩陣做主成分分析,而采用基于相關系數(shù)矩陣的主成分分析。首先將原變量標準化。設有n個樣本,x1,x2…xp為p個原指標變量,經(jīng)過標準化后得到標準化變量X1,X2…Xp:i=1,2,…p我們作如下定義:

(1)若C1=w11X1+w12X2+…+w1pXp,且使Var(C1)最大,則稱C1為第一主成分;但系數(shù)w若無限制可使Var(C1)無限大,故加約束條件:w112+w122+…+w1p2=1組合系數(shù)(w11,w12,…w1p)可看作一個向量,代表p維空間中的一個方向,相當于全部n個個體在該方向上的一個投影。要求Var(C1)最大就是要找一個最“好”的方向,使得所有個體在該方向上的投影最為分散。如果第一主成分不足以代表原所有p個變量,則考慮第二個主成分:

C2=w21X1+w22X2+…+w2pXp,要求使Var(C2)最大;約束條件:w212+w222+…+w2p2=1Cov(C1,C2)=0Cov(C1,C2)=0即第一、第二主成分的協(xié)方差(相關系數(shù))為零,目的是為了使C1中已有的信息不在C2中出現(xiàn)。結果是在與第一個向量垂直的所有方向中,找到一個使得所有個體在其上的投影與在其它方向上的投影相比最為分散。同樣的方法,可以繼續(xù)尋找第三、第四…主成分,至多有p個。(全)主成分模型主成分的性質(zhì):主成分C1,C2,…,Cp具有如下幾個性質(zhì):

(1)主成分間互不相關,即對任意i和j,Ci和Cj的相關系數(shù)Corr(Ci,Cj)=0ij

(2)組合系數(shù)(wi1,wi2,…,wip)構成的向量為單位向量,wi12+wi22+…+wip2=1(3)各主成分的方差是依次遞減的,即Var(C1)≥Var(C2)≥…≥Var(Cp)

(4)總方差不增不減,即Var(C1)+Var(C2)+…+Var(Cp)=Var(x1)+Var(x2)+…+Var(xp)=p這一性質(zhì)說明,主成分是原變量的線性組合,是對原變量信息的一種重組,主成分不增加總信息量,也不減少總信息量。(5)主成分和原變量的相關系數(shù)Corr(Ci,xj)=wij=wij(6)令X1,X2,…,Xp的相關矩陣為R,(wi1,wi2,…,wip)則是相關矩陣R的第i個特征向量(eigenvector)。而且,特征值i就是第i主成分的方差,即Var(Ci)=i

其中i為相關矩陣R的第i個特征值(eigenvalue)1≥2≥…≥p≥0(7)第i個主成分對所有原變量的貢獻為:(8)所有主成分對原變量xj的貢獻為:求主成分的步驟1.計算相關系數(shù)矩陣R2.解特征方程|R-λI|=0,求出相關陣R的特征根(eigenvalue)λi,且按從大到小順序排列:λ1≥λ2≥…≥λp

,3.求矩陣R關于λi的滿足正規(guī)條件的特征向量(eigenvector):Li=(li1,li2,…,lip)特征向量即為主成分系數(shù)。當變量較多時,特征根的計算較復雜,需借助計算機軟件實現(xiàn)。一個簡單例子例1.測得10名幼兒的身高,體重如下表,求主成分。對象號x1體重(kg)x2身高(cm)116.3108213.088318.3111415.095511.988614.495713.594812.188913.3931013.595均數(shù)14.1395.5標準差1.9658477.9895771.求相關系數(shù)矩陣Rr11=r22=1,r12=r21=0.95472.求R的特征根,解方程:即(1-λ)*(1-λ)-0.9547*0.9547=0得兩個根1.9547和0.0453,記為:λ1=1.9547,λ2=0.04533.求特征向量Liλ1=1.9547所對應的特征向量用下式解:l11+0.9547l12=1.9547l110.9547l11+l12=1.9547l12l112+l122=1得l11=0.7071,l12=0.7071,第一主成分為:C1=0.7071X1+0.7071X2同樣的方法,用λ2=0.0453可計算出第二主成分,此處略。主成分的數(shù)目的選取如前所述,p個隨機變量,便有p個主成分。由于總方差不增不減,C1,C2等前幾個綜合變量的方差較大,而Cp,Cp-1等后幾個綜合變量的方差較小。一般來說,只有前幾個綜合變量才稱得上主(要)成份,后幾個綜合變量實為“次”(要)成份。實踐中總是保留前幾個,忽略后幾個。

保留多少個主成分主要考慮保留部分的累積方差在方差總和中所占百分比(即累積貢獻率),它標志著前幾個主成分概括信息之多寡。實踐中,一般推薦達到80%的累積方差即可。常用的判斷方法有:1.特征值準則:取特征值>1的主成分。是SPSS軟件默認的方法。2.累積方差比例原則:一般推薦累積方差比例達到80%以上時,即可停止選擇主成分。3.利用碎石圖:將主成分按特征根從大到小排列,畫出特征根隨主成分個數(shù)變化的散點圖,根據(jù)圖的形狀來判斷保留主成分的個數(shù)。曲線開始變平的前一個點(拐點)認為是提取的最大主成分數(shù)。也就是根據(jù)特征根的變化速率來確定。例2:測得某地19-22歲年齡的部分城市男生身體形態(tài)指標:身高(x1,cm)、坐高(x2,cm)、體重(x3,kg)、胸圍(x4、cm)、肩寬(x5,cm)、骨盆寬(x6,cm)。試進行主成分分析。特征值、方差比例和累積貢獻率本例考慮保留3個主成分,累積貢獻率可達90%。主成分Ci表達式:SPSS軟件不能直接給出主成分系數(shù)wij,經(jīng)過FACTOR過程產(chǎn)生的是因子負荷系數(shù),但主成分分析模型需要的不是因子載荷量而是特征向量,所以還需將因子負荷系數(shù)輸入數(shù)據(jù)編輯窗口,利用“主成分相應特征根的平方根與特征向量乘積為因子負荷系數(shù)”的性質(zhì)用TRANSFORM——COMPUTE來計算特征向量,得到主成分的線性表達式。因子負荷系數(shù)轉(zhuǎn)換為主成分系數(shù)(特征向量)特征向量:

Prin1Prin2Prin3Prin4Prin5Prin6x10.522386-.195138-.190578-.2547110.2159430.735666x20.525457-.081135-.166475-.3889580.312044-.664032x30.511104-.181008-.1046390.336278-.756343-.099605x40.346489-.0463000.7410220.4563170.346929-.010197x50.1883790.656718-.4713550.4963100.2539520.015620x60.1850380.6993940.392082-.464976-.3147870.087106主成分的應用一、主成分綜合評價醫(yī)學研究中常常需要對患者的健康狀況等進行評價,而這類評價要求內(nèi)容全面,多個測量指標,最后產(chǎn)出綜合評價結果。將多個指標進行綜合總會面臨以下問題:1.各指標量綱不同,不能直接相加;2.各指標間存在相關,直接相加產(chǎn)生信息重疊;3.相加時需要考慮各指標的權重。主成分分析可方便解決以上問題。例3.為評價31個地區(qū)的生殖健康狀況,某研究者考察了此31個地區(qū)的4個有關生殖健康指標的得分,這4個指標的得分均是越高越好,它們各自反映了生殖健康的一個方面。對這31個地區(qū)進行綜合評價。特征向量:

Prin1Prin2Prin3Prin4x10.499296-.3807370.7759410.060475x20.518859-.132563-.338619-.773660x30.510915-.290727-.5197290.619940x40.4695260.8677240.1146010.116050第一主成分貢獻率達到82.66%,考慮只以第一主成分作為綜合評價指標。C1=0.4993X1+0.5189X2+0.5109X3+0.4695X4這里Xj為標準化值。根據(jù)上述主成分得分計算公式,可得出31個地區(qū)各自的主成分得分。根據(jù)得分的大小順序可將這些地區(qū)分組。如需分為4個組,則可取第25分位數(shù)、中位數(shù)、第75分位數(shù)為分界點。分值最高的25%為生殖健康較優(yōu)組。二、主成分回歸當自變量間存在明顯共線性時,回歸方程的結果可能出現(xiàn)重大問題,以致無法解釋。主成分之間相關性為零,可解決原變量的共線性問題。主成分回歸指用原變量的主成分代替原自變量作回歸分析。主成分回歸的步驟1.求自變量的主成分;2.舍去貢獻率近于0的主成分;3.將留下的主成分代替原變量,建立與應變量的回歸方程;4.將主成分的表達式代入回歸方程,得到原自變量與應變量的回歸方程。例4.有22例胎兒受精齡(Y,周)與胎兒外形測量指標:身高(X1,cm),頭圍(X2,cm),體重(X3,g)的數(shù)據(jù)。試求由X1,X2,X3推算Y的回歸方程。用原始資料建立回歸方程,得:y=11.0117+1.6927x1-2.1589x2+0.0075x3這里x2的系數(shù)為負,意為頭圍與胎兒周齡成負相關,與實際情況不符。原因是3個自變量之間相關性較強:最大條件指數(shù)=λ1/λ3=1184.7,說明x1-x3存在嚴重共線性。進行主成分分析,得到特征值和特征向量:λ1=2.9261,l1=(0.580570.581070.57034)λ2=0.0714,l2=(-0.41852-0.387890.82121)λ3=0.00247,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論