主成分分析原理_第1頁(yè)
主成分分析原理_第2頁(yè)
主成分分析原理_第3頁(yè)
主成分分析原理_第4頁(yè)
主成分分析原理_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第七章 主成分分析(一)教學(xué)目的通過(guò)本章的學(xué)習(xí), 對(duì)主成分分析從總體上有一個(gè)清晰地認(rèn)識(shí), 理解主成分分析的基本思 想和數(shù)學(xué)模型,掌握用主成分分析方法解決實(shí)際問(wèn)題的能力。(二)基本要求 了解主成分分析的基本思想,幾何解釋,理解主成分分析的數(shù)學(xué)模型,掌握主成分分析 方法的主要步驟。(三)教學(xué)要點(diǎn)1、主成分分析基本思想,數(shù)學(xué)模型,幾何解釋2、主成分分析的計(jì)算步驟及應(yīng)用(四)教學(xué)時(shí)數(shù)3 課時(shí)(五)教學(xué)內(nèi)容1、主成分分析的原理及模型2、主成分的導(dǎo)出及主成分分析步驟在實(shí)際問(wèn)題中, 我們經(jīng)常會(huì)遇到研究多個(gè)變量的問(wèn)題, 而且在多數(shù)情況下, 多個(gè)變量之 間常常存在一定的相關(guān)性。 由于變量個(gè)數(shù)較多再加上變量之間的

2、相關(guān)性, 勢(shì)必增加了分析問(wèn) 題的復(fù)雜性。 如何從多個(gè)變量中綜合為少數(shù)幾個(gè)代表性變量, 既能夠代表原始變量的絕大多 數(shù)信息,又互不相關(guān),并且在新的綜合變量基礎(chǔ)上,可以進(jìn)一步的統(tǒng)計(jì)分析,這時(shí)就需要進(jìn) 行主成分分析。第一節(jié) 主成分分析的原理及模型一、主成分分析的基本思想與數(shù)學(xué)模型(一)主成分分析的基本思想主成分分析是采取一種數(shù)學(xué)降維的方法, 找出幾個(gè)綜合變量來(lái)代替原來(lái)眾多的變量, 這些綜合變量能盡可能地代表原來(lái)變量的信息量, 而且彼此之間互不相關(guān)。 這種將把多個(gè)變 量化為少數(shù)幾個(gè)互相無(wú)關(guān)的綜合變量的統(tǒng)計(jì)分析方法就叫做主成分分析或主分量分析。主成分分析所要做的就是設(shè)法將原來(lái)眾多具有一定相關(guān)性的變量,

3、重新組合為一組新的 相互無(wú)關(guān)的綜合變量來(lái)代替原來(lái)變量。 通常, 數(shù)學(xué)上的處理方法就是將原來(lái)的變量做線性組 合,作為新的綜合變量,但是這種組合如果不加以限制,則可以有很多,應(yīng)該如何選擇呢如 果將選取的第一個(gè)線性組合即第一個(gè)綜合變量記為F1 ,自然希望它盡可能多地反映原來(lái)變量的信息,這里“信息”用方差來(lái)測(cè)量,即希望Var(Fi)越大,表示Fi包含的信息越多。因此在所有的線性組合中所選取的F1應(yīng)該是方差最大的,故稱 F1為第一主成分。如果第一主成分不足以代表原來(lái) p個(gè)變量的信息,再考慮選取 F2即第二個(gè)線性組合,為了有效地反 映原來(lái)信息,F(xiàn)i已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學(xué)語(yǔ)言表達(dá)就是要求p

4、 個(gè)主成分。Cov(Fi, F2)0,稱F?為第二主成分,依此類(lèi)推可以構(gòu)造出第三、四二)主成分分析的數(shù)學(xué)模型對(duì)于一個(gè)樣本資料,觀測(cè) p個(gè)變量x1,x2,xp , n 個(gè)樣品的數(shù)據(jù)資料陣為:xiixi2xi px2ix22x2 pXxi , x2, xpxnixn2xnpxi jx 2 j其中:xj J,ji,2, pxnjp個(gè)觀測(cè)變量綜合成為 p個(gè)新的變量(綜合變量)Fiaii xiai2 x 2ai p x pF2a2i xia 22 x2a 2 p x pFpa pi xiap 2 x2app x p主成分分析就是將,即簡(jiǎn)寫(xiě)為:Fjj1x1j2x2jp xpj 1,2, , p要求模型滿足

5、以下條件: Fj, Fj 互不相關(guān)(i j , i,j 1,2, p ) Fi的方差大于F2的方差大于F3的方差,依次類(lèi)推2 2 2 ak1ak 2akp1 k 1,2, p.于是,稱Fi為第一主成分,F(xiàn)2為第二主成分,依此類(lèi)推,有第p個(gè)主成分。主成分又叫主分量。這里aij我們稱為主成分系數(shù)。上述模型可用矩陣表示為:F AX ,其中FixiFF2Xx2Fpxpaiiai2ai paiAa2ia22a2 pa2a pi a p 2a ppa pA稱為主成分系數(shù)矩陣。、主成分分析的幾何解釋假設(shè)有 n 個(gè)樣品,每個(gè)樣品有二個(gè)變量,即在二維空間中討論主成分的幾何意義。設(shè)n個(gè)樣品在二維空間中的分布大致為

6、一個(gè)橢園,如下圖所示:將坐標(biāo)系進(jìn)行正交旋轉(zhuǎn)一個(gè)角度,使其橢圓長(zhǎng)軸方向取坐標(biāo)yi,在橢圓短軸方向取坐標(biāo)y,旋轉(zhuǎn)公式為y1jx1j cosx2j sin)x2j cosy2j 夠(sinj1,2n寫(xiě)成矩陣形式為: Yyi1yi2yiny2iy22y2ncossinXiiX12XmsincosX21X22X2n其中U為坐標(biāo)旋轉(zhuǎn)變換矩陣,它是正交矩陣,即有UU XU 1,UU I,即滿足sin2 cos21。經(jīng)過(guò)旋轉(zhuǎn)變換后,得到下圖的新坐標(biāo):圖主成分幾何解釋圖新坐標(biāo) y1 y2 有如下性質(zhì):(1) n個(gè)點(diǎn)的坐標(biāo)yi和目2的相關(guān)幾乎為零。(2) 二維平面上的n個(gè)點(diǎn)的方差大部分都?xì)w結(jié)為 y1軸上,而y2軸

7、上的方差較小。yi和 y稱為原始變量Xi和X2的綜合變量。由于 n個(gè)點(diǎn)在 力軸上的方差最大,因而將 二維空間的點(diǎn)用在 yi軸上的一維綜合變量來(lái)代替,所損失的信息量最小,由此稱yi軸為第一主成分,y2軸與yi軸正交,有較小的方差,稱它為第二主成分。三、主成分分析的應(yīng)用主成分概念首先是由 Karl parson 在 i90i 年引進(jìn),但當(dāng)時(shí)只對(duì)非隨機(jī)變量來(lái)討論的。i933 年 Hotelling 將這個(gè)概念推廣到隨機(jī)變量。特別是近年來(lái),隨著計(jì)算機(jī)軟件的應(yīng)用, 使得主成分分析的應(yīng)用也越來(lái)越廣泛。其中, 主成分分析可以用于系統(tǒng)評(píng)估。 系統(tǒng)評(píng)估是指對(duì)系統(tǒng)營(yíng)運(yùn)狀態(tài)做出評(píng)估, 而評(píng)估 一個(gè)系統(tǒng)的營(yíng)運(yùn)狀態(tài)往往

8、需要綜合考察許多營(yíng)運(yùn)變量,例如對(duì)某一類(lèi)企業(yè)的經(jīng)濟(jì)效益作評(píng) 估,影響經(jīng)濟(jì)效益的變量很多, 很難直接比較其優(yōu)劣, 所以解決評(píng)估問(wèn)題的焦點(diǎn)是希望客觀、 科學(xué)地將一個(gè)多變量問(wèn)題綜合成一個(gè)單變量形式, 也就是說(shuō)只有在一維空間中才能使排序評(píng) 估成為可能, 這正符合主成分分析的基本思想。 在經(jīng)濟(jì)統(tǒng)計(jì)研究中, 除了經(jīng)濟(jì)效益的綜合評(píng) 價(jià)研究外, 對(duì)不同地區(qū)經(jīng)濟(jì)發(fā)展水平的評(píng)價(jià)研究, 不同地區(qū)經(jīng)濟(jì)發(fā)展競(jìng)爭(zhēng)力的評(píng)價(jià)研究, 人 民生活水平、生活質(zhì)量的評(píng)價(jià)研究,等等都可以用主成分分析方法進(jìn)行研究。另外, 主成分分析除了用于系統(tǒng)評(píng)估研究領(lǐng)域外, 還可以與回歸分析結(jié)合, 進(jìn)行主成分 回歸分析,以及利用主成分分析進(jìn)行挑選變量,

9、選擇變量子集合的研究。第二節(jié) 主成分的導(dǎo)出及主成分分析的步驟一、主成分的導(dǎo)出根據(jù)主成分分析的數(shù)學(xué)模型的定義, 要進(jìn)行主成分分析, 就需要根據(jù)原始數(shù)據(jù), 以及模 型的三個(gè)條件的要求, 如何求出主成分系數(shù), 以便得到主成分模型。 這就是導(dǎo)出主成分所要 解決的問(wèn)題。i、根據(jù)主成分?jǐn)?shù)學(xué)模型的條件要求主成分之間互不相關(guān),為此主成分之間的協(xié)差陣應(yīng)該是一個(gè)對(duì)角陣。即,對(duì)于主成分,F(xiàn) AX其協(xié)差陣應(yīng)為,Var(F) Var ( AX ) (AX) (AX ) AXXA12p2、設(shè)原始數(shù)據(jù)的協(xié)方差陣為 V ,如果原始數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化處理后則協(xié)方差陣等于相關(guān)矩陣,即有,V R XX3、再由主成分?jǐn)?shù)學(xué)模型條件和正交

10、矩陣的性質(zhì),若能夠滿足條件最好要求A為正交矩陣,即滿足AA I于是,將原始數(shù)據(jù)的協(xié)方差代入主成分的協(xié)差陣公式得Var(F) AXX A ARAARARAA展開(kāi)上式得r11r12r1pa11a21ap1r 21r22r2pa12a22ap2r p1rp2rppa1pa2pappa11a21a p11a12a22ap22a1pa2pa ppp展開(kāi)等式兩邊,根據(jù)矩陣相等的性質(zhì),這里只根據(jù)第一列得出的方程為:00ripaipr2 pai p訕&11r p2ai2(rpp1 )a1 p為了得到該齊次方程的解,要求其系數(shù)矩陣行列式為0,即ri11ri2ri pr22rp2rpp顯然,1是相關(guān)系數(shù)矩陣的特征

11、值,ai根據(jù)第二列、第三列等可以得到類(lèi)似的方程,lIa11,a12ai p是相應(yīng)的特征向量。i是方程%1 ai1ri2ai2的p個(gè)根,i為特征方程的特征根,3j是其特征向量的分量。4、下面再證明主成分的方差是依次遞減設(shè)相關(guān)系數(shù)矩陣 R的p個(gè)特征根為1 2a12a22ap2p,相應(yīng)的特征向量為 aja11a21Aa p1a1 pa2pappaa2ap相對(duì)于F1的方差為Var(F1)a1XX a1a1 Ra11冋樣有:Var(Fi)i,即主成分的方差依次遞減。并且協(xié)方差為:Cov(ai X,ajX)ai Rajpai(a a )ajp(Qa )(a aj)0, i jr2iai1(221)a121

12、1綜上所述,根據(jù)證明有,主成分分析中的主成分協(xié)方差應(yīng)該是對(duì)角矩陣,其對(duì)角線上的元素恰好是原始數(shù)據(jù)相關(guān)矩陣的特征值,而主成分系數(shù)矩陣陣特征值相應(yīng)的特征向量。矩陣A是一個(gè)正交矩陣。A的元素則是原始數(shù)據(jù)相關(guān)矩于是,變量x1, x2,Xp經(jīng)過(guò)變換后得到新的綜合變量F1F2aX1a 21X1a12X2a?2 X2a1 p X p a2 pX pFpa p1 X1ap2X2app X p新的隨機(jī)變量彼此不相關(guān),且方差依次遞減。二、主成分分析的計(jì)算步驟樣本觀測(cè)數(shù)據(jù)矩陣為:X11X12X1pXX21X22X2pXn1Xn2Xnp第一步:對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。*Xj XjXij.(i.var(Xj),n;

13、j1,2,p)其中Xjvar(Xj)(Xij1xj)2(j,p)第二步:計(jì)算樣本相關(guān)系數(shù)矩陣。riirp2rpp為方便,假定原始數(shù)據(jù)標(biāo)準(zhǔn)化后仍用 X表示,則經(jīng)標(biāo)準(zhǔn)化處理后的數(shù)據(jù)的相關(guān)系數(shù)為1 nrijxti Xtjn 1 t 1(i,j 1,2, p)第三步:用雅克比方法求相關(guān)系數(shù)矩陣R的特征值(1, 2 p)和相應(yīng)的特征向量a i aii, ai 2 , aip , i 1,2第四步:選擇重要的主成分,并寫(xiě)出主成分表達(dá)式。主成分分析可以得到p個(gè)主成分,但是,由于各個(gè)主成分的方差是遞減的,包含的信息量也是遞減的,所以實(shí)際分析時(shí),一般不是選取p個(gè)主成分,而是根據(jù)各個(gè)主成分累計(jì)貢獻(xiàn)率的大小選取前

14、k個(gè)主成分,這里貢獻(xiàn)率就是指某個(gè)主成分的方差占全部方差的比重,實(shí)際也就是某個(gè)特征值占全部特征值合計(jì)的比重。即貢獻(xiàn)率=pii 1貢獻(xiàn)率越大,說(shuō)明該主成分所包含的原始變量的信息越強(qiáng)。主成分個(gè)數(shù)k的選取,主要根據(jù)主成分的累積貢獻(xiàn)率來(lái)決定,即一般要求累計(jì)貢獻(xiàn)率達(dá)到85%以上,這樣才能保證綜合變量能包括原始變量的絕大多數(shù)信息。另外,在實(shí)際應(yīng)用中,選擇了重要的主成分后,還要注意主成分實(shí)際含義解釋。主成分分析中一個(gè)很關(guān)鍵的問(wèn)題是如何給主成分賦予新的意義,給出合理的解釋。 一般而言,這個(gè)解釋是根據(jù)主成分表達(dá)式的系數(shù)結(jié)合定性分析來(lái)進(jìn)行的。主成分是原來(lái)變量的線性組合,在這個(gè)線性組合中個(gè)變量的系數(shù)有大有小,有正有負(fù),有的大小相當(dāng),因而不能簡(jiǎn)單地認(rèn)為這個(gè)主成分是某個(gè)原變量的屬性的作用,線性組合中各變量系數(shù)的絕對(duì)值大者表明該主成分主要綜合了絕對(duì)值大的變量, 有幾個(gè)變量系數(shù)大小相當(dāng)時(shí),應(yīng)認(rèn)為這一主成分是這幾個(gè)變量

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論