版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
主成分分析法(PCA)在實際問題中,我們經(jīng)常會遇到研究多個變量的問題,而且在多數(shù)情況下,多個變量之間常常存在一定的相關(guān)性。由于變量個數(shù)較多再加上變量之間的相關(guān)性,勢必增加了分析問題的復雜性。如何從多個變量中綜合為少數(shù)幾個代表性變量,既能夠代表原始變量的絕大多數(shù)信息,又互不相關(guān),并且在新的綜合變量基礎(chǔ)上,可以進一步的統(tǒng)計分析,這時就需要進行主成分分析。主成分分析法(PCA)模型主成分分析的基本思想主成分分析是采取一種數(shù)學降維的方法,找出幾個綜合變量來代替原來眾多的變量,使這些綜合變量能盡可能地代表原來變量的信息量,而且彼此之間互不相關(guān)。這種將把多個變量化為少數(shù)幾個互相無關(guān)的綜合變量的統(tǒng)計分析方法就叫做主成分分析或主分量分析。主成分分析所要做的就是設(shè)法將原來眾多具有一定相關(guān)性的變量,重新組合為一組新的相互無關(guān)的綜合變量來代替原來變量。通常,數(shù)學上的處理方法就是將原來的變量做線性組合,作為新的綜合變量,但是這種組合如果不加以限制,則可以有很多,應(yīng)該如何選擇呢?如果將選取的第一個線性組合即第一個綜合變量記為F1,自然希望它盡可能多地反映原來變量的信息,這里“信息”用方差來測量,即希望Var(F)越大,表示F包含的信息越多。11因此在所有的線性組合中所選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個變量的信息,再考慮選取F即第二個線性組合,為了有效地反2映原來信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學語言表達就是要求Cov(F,F)=0,稱F為第二主成分,依此類推可以構(gòu)造出第三、四……第p個主成分。TOC\o"1-5"\h\z122主成分分析的數(shù)學模型對于一個樣本資料,觀測P個變量X,X,…X,n個樣品的數(shù)據(jù)資料陣為:12pX1p]X2p(XX1112\o"CurrentDocument"XXX=2122IXX*n1n2
其中:j=1,2,…pX1p]X2p其中:主成分分析就是將p個觀測變量綜合成為p個新的變量(綜合變量),即TOC\o"1-5"\h\z\o"CurrentDocument"F=aX+ax-\Fax11111221pp\o"CurrentDocument"F=ax+ax++ax<22112222pp…F=ax+axaxpp11p22ppp簡寫為:F=ax+ax+…+axjj11j22jppj=1,2,…,p要求模型滿足以下條件:①F,Fj互不相關(guān)(i豐j,i,j=1,2,…,p)②F1的方差大于F2的方差大于七的方差,依次類推③a2+a2+a2=1k=1,2,…p.k1k2kp于是,稱F1為第一主成分,F(xiàn)2為第二主成分,依此類推,有第p個主成分。主成分又叫主分量。這里a我們稱為主成分系數(shù)。F=F=AX其中'X1'X2FVpJfaFVpJfa11a21a12a22a1p1七2pIXpJ
fa1'
a2ap2appJA稱為主成分系數(shù)矩陣。(三)主成分分析的幾何解釋假設(shè)有n個樣品,每個樣品有二個變量,即在二維空間中討論主成分的幾何意義。設(shè)n個樣品在二維空間中的分布大致為一個橢園,如下圖所示:圖1主成分幾何解釋圖將坐標系進行正交旋轉(zhuǎn)一個角度9,使其橢圓長軸方向取坐標V,在橢圓短軸方向取坐標V之,旋轉(zhuǎn)公式為圖1主成分幾何解釋圖將坐標系進行正交旋轉(zhuǎn)一個角度9,使其橢圓長軸方向取坐標V,在橢圓短軸方向取坐標V之,旋轉(zhuǎn)公式為VijV=X2j=xcos9+xsin9(-sin9)+xcos9ijj=1,2…n寫成矩陣形式為:Y=V11V12…七〃LV21V22…V2n」cos9
-sin9sin91「xxcos9?x11x122122x1n=U-Xx」2n其中U為坐標旋轉(zhuǎn)變換矩陣,它是正交矩陣,即有U'=U-1,UU'=I,即滿足sin29+cos29=1。經(jīng)過旋轉(zhuǎn)變換后,得到下圖的新坐標:圖2主成分幾何解釋圖新坐標*-y2有如下性質(zhì):n個點的坐標y1和y2的相關(guān)幾乎為零。二維平面上的n個點的方差大部分都歸結(jié)為y1軸上,而y2軸上的方差較小。y和y稱為原始變量尤和尤的綜合變量。由于n個點在y軸上的方差最大,因而將12121二維空間的點用在yi軸上的一維綜合變量來代替,所損失的信息量最小,由此稱yi軸為第一主成分,y2軸與yi軸正交,有較小的方差,稱它為第二主成分。主成分分析法(PCA)推導一、主成分的導出根據(jù)主成分分析的數(shù)學模型的定義,要進行主成分分析,就需要根據(jù)原始數(shù)據(jù),以及模型的三個條件的要求,如何求出主成分系數(shù),以便得到主成分模型。這就是導出主成分所要解決的問題。1、根據(jù)主成分數(shù)學模型的條件①要求主成分之間互不相關(guān),為此主成分之間的協(xié)差陣應(yīng)該是一個對角陣。即,對于主成分,F(xiàn)=AX其協(xié)差陣應(yīng)為,Var(F)=Var(AX)=(AX)-(AX)=AXXA入=A=2V2、設(shè)原始數(shù)據(jù)的協(xié)方差陣為V,如果原始數(shù)據(jù)進行了標準化處理后則協(xié)方差陣等于相關(guān)矩陣,即有,V=R=XX'3、再由主成分數(shù)學模型條件③和正交矩陣的性質(zhì),若能夠滿足條件③最好要求4為正交矩陣,即滿足AA'=I
于是,將原始數(shù)據(jù)的協(xié)方差代入主成分的協(xié)差陣公式得Var(F)=AXXA'=ARA'=A展開上式得ARAr=ARAf=A'A代展開上式得ARAr=ARAf=A'A代1r21r12r22rp1(a11a12rp2a21a22ap1ap2展開等式兩邊,根據(jù)矩陣相等的性質(zhì),這里只根據(jù)第一列得出的方程為:'?-咨1112121p'?-咨1112121p1pra+(r-X)aHHra=02111221122p1p+raH卜ra=0ra+ra++(r—X)a=0p111p212pp11p為了得到該齊次方程的解,要求其系數(shù)矩陣行列式為0,即r—Xr.??r111121prr—X???r212212p?,,,:?.?rr?r—X1pp2pp1|R—x"I=0=0顯然,x1是相關(guān)系數(shù)矩陣的特征值,J.,a12,…%)是相應(yīng)的特征向量。根據(jù)第二列、第三列等可以得到類似的方程,于是七是方程的p個根,七為特征方程的特征根,?是其特征向量的分量。4、下面再證明主成分的方差是依次遞減設(shè)相關(guān)系數(shù)矩陣R的p個特征根為X1>X2>…>Xp,相應(yīng)的特征向量為a.
A=(a11a21.a12...apa…a222p,,,...="a11a.2aa…aap1p2pp/1p>相對于F的方差為1Var(F1)=aXX'af=aRa'1111=人1同樣有:Var(F)二七,即主成分的方差依次遞減。并且協(xié)方差為:Cov(a:X',aX)=a'Ra=a'(Y人aa')aiaaaja=1=Y入(a:a)(a'a)=0,i豐ja=1綜上所述,根據(jù)證明有,主成分分析中的主成分協(xié)方差應(yīng)該是對角矩陣,其對角線上的元素恰好是原始數(shù)據(jù)相關(guān)矩陣的特征值,而主成分系數(shù)矩陣A的元素則是原始數(shù)據(jù)相關(guān)矩陣特征值相應(yīng)的特征向量。矩陣A是一個正交矩陣。于是,變量<,X,?-X)經(jīng)過變換后得到新的綜合變量TOC\o"1-5"\h\z12pF=ax+axHFax11111221ppF=ax+ax++ax<22112222pp…F=ax+ax++axpp11p22ppp新的隨機變量彼此不相關(guān),且方差依次遞減。二、主成分分析的計算步驟假設(shè)樣本觀測數(shù)據(jù)矩陣為:x1p)2pxJnp(xxTOC\o"1-5"\h\z1112xxX=2122..x1p)2pxJnp??Ixx*n1n2第一步:對原始數(shù)據(jù)進行標準化處理。
r11r??.r1pR=r2112r22:??.??.r2:priup1rp2??.rpp第二步:X*ij=—ijj-*:var(xj第二步:X*ij=—ijj-*:var(xj)其中var(x.)=計算樣本相關(guān)系數(shù)矩陣。(i=1,2,…,n;j=1,2,…,p)-1了x=_JXJni=1J1y\
"(X
n一1iji=1(j=1,2,…,p)為方便,假定原始數(shù)據(jù)標準化后仍用x表示,則經(jīng)標準化處理后的數(shù)據(jù)的相關(guān)系數(shù)為:rij_1》…rij一n-1titjt=1(i,j=1,2,…,p)第三步:用雅克比方法求相關(guān)系數(shù)矩陣R的特征值(%,氣…氣)和相應(yīng)的特征向量a=G,a,…a)i=1,2…p。ii1i2ip第四步:選擇重要的主成分,并寫出主成分表達式。主成分分析可以得到p個主成分,但是,由于各個主成分的方差是遞減的,包含的信息量也是遞減的,所以實際分析時,一般不是選取p個主成分,而是根據(jù)各個主成分累計貢獻率的大小選取前k個主成分,這里貢獻率就是指某個主成分的方差占全部方差的比重,實際也就是某個特征值占全部特征值合計的比重。即貢獻率二—i—Y人ii=1貢獻率越大,說明該主成分所包含的原始變量的信息越強。主成分個數(shù)k的選取,主要根據(jù)主成分的累積貢獻率來決定,即一般要求累計貢獻率達到85%以上,這樣才能保證綜合變量能包括原始變量的絕大多數(shù)信息。另外,在實際應(yīng)用中,選擇了重要的主成分后,還要注意主成分實際含義解釋。主成分
分析中一個很關(guān)鍵的問題是如何給主成分賦予新的意義,給出合理的解釋。一般而言,這個解釋是根據(jù)主成分表達式的系數(shù)結(jié)合定性分析來進行的。主成分是原來變量的線性組合,在這個線性組合中個變量的系數(shù)有大有小,有正有負,有的大小相當,因而不能簡單地認為這個主成分是某個原變量的屬性的作用,線性組合中各變量系數(shù)的絕對值大者表明該主成分主要綜合了絕對值大的變量,有幾個變量系數(shù)大小相當時,應(yīng)認為這一主成分是這幾個變量的總和,這幾個變量綜合在一起應(yīng)賦予怎樣的實際意義,這要結(jié)合具體實際問題和專業(yè),給出恰當?shù)慕忉?,進而才能達到深刻分析的目的。第五步:計算主成分得分。根據(jù)標準化的原始數(shù)據(jù),按照各個樣品,分別代入主成分表達式,就可以得到各主成分下的各個樣品的新數(shù)據(jù),即為主成分得分。具體形式可如下。pH七…"JFF…F21222k,??::::"FF…F)n1n2nk'第六步:依據(jù)主成分得分的數(shù)據(jù),則可以進行進一步的統(tǒng)計分析。其中,常見的應(yīng)用有主成份回歸,變量子集合的選擇,綜合評價等。主成分分析法(PCA)案例為了系統(tǒng)的分析某IT類企業(yè)的經(jīng)濟效益,選擇統(tǒng)計了8個不同的利潤指標,15家企業(yè)關(guān)于這8個指標的統(tǒng)計數(shù)據(jù)如下所示,試對此進行主成分分析,并進彳亍相關(guān)評價。企業(yè)序號1凈產(chǎn)值固定資總產(chǎn)值銷售收產(chǎn)品成物耗企業(yè)序號1凈產(chǎn)值固定資總產(chǎn)值銷售收產(chǎn)品成物耗人均利流動利潤率產(chǎn)利潤利潤率入利潤本利潤利潤潤率資金(%)率(%)(%)率(%)率(%)率(%)(千兀利潤XXXXXX/人)率(%)Z1121314i5i6Xi7Xi840.424.77.26.18.38.72.44220.025.012.711.211.012.920.23.5429.113.23.33.94.34.45.50.5783.622.36.75.63.76.07.40.1767.3變量23415家企業(yè)的利潤指標的統(tǒng)計數(shù)據(jù)7.18.08.91.72627.5534.311.87.1635.612.516.416.722.829.33.01726.6722.07.89.910.212.617.60.84710.6848.413.410.99.910.913.91.77217.8940.619.119.819.029.739.62.44935.81024.88.09.88.911.916.20.78913.71112.59.74.24.24.66.50.8743.9121.80.60.70.70.81.10.0561.01332.313.99.48.39.813.32.12617.11438.59.111.39.512.216.41.32711.61526.210.15.615.67.730.10.12625.9解:根據(jù)題目中的數(shù)據(jù),利用matlab軟件編程求解,對問題進行主成分分析。求解結(jié)果如下:1.標準化結(jié)果如下:v=1.00232.3473-0.3410-0.5714-0.3496-0.65740.90300.4483-0.22860.30720.47740.38960.28350.43091.9108-0.6218-1.1718-1.2909-1.0162-0.9244-0.8863-0.9603-0.8049-1.1617-0.4444-0.7129-0.6684-1.0421-0.6661-0.7805-1.1732-0.79850.51480.1541-0.3615-0.3752-0.3909-0.63850.24701.18460.61870.27321.54141.50751.64601.29221.42981.0963-0.4684-0.52590.21140.23270.24220.1849-0.5584-0.47451.64180.42620.41600.17390.0083-0.16530.28910.23231.01831.39522.23711.95862.59562.26700.90941.9995-0.2446-0.49190.1910-0.02220.14590.0524-0.6115-0.1702-1.2277-0.2029-0.9549-0.9440-0.8588-0.8656-0.5337-1.1323-2.0830-1.7500-1.6710-1.6304-1.3818-1.3767-1.2831-1.41700.35490.51120.1091-0.1399-0.1431-0.22210.61340.16360.8505-0.30490.49790.09540.18720.0713-0.1186-0.3763-0.1327-0.1349-0.66841.2918-0.43211.3679-1.21901.02762.相關(guān)系數(shù)矩陣:std=1.00000.76300.70170.58680.59590.48960.59730.73000.76301.00000.55040.46670.51580.41960.70460.67170.70170.55041.00000.84070.97600.81610.69410.68250.58680.46670.84071.00000.86670.98230.49260.79380.59590.51580.97600.86671.00000.86670.62600.71530.48960.41960.81610.98230.86671.00000.42160.75050.59730.70460.69410.49260.62600.42161.00000.46560.73000.67170.68250.79380.71530.75050.46561.0000特征向量(vec)及特征值(val):
vec=0.21820.1370-0.27810.22830.67270.31150.37880.3334-0.0745-0.1102-0.2276-0.5733-0.40460.18710.55620.3063-0.7186-0.05200.1186-0.22400.3874-0.3182-0.11480.39000.0386-0.6914-0.38080.2788-0.15470.0888-0.35080.37800.6385-0.06600.3451-0.41580.1518-0.2715-0.22540.3853-0.01230.6864-0.3738-0.0066-0.25540.0696-0.43370.36160.06750.10570.07160.5033-0.2816-0.61890.41470.3026-0.12860.04130.66920.2552-0.20550.5452-0.00310.3596val=0.0027000000000.0060000000000.1369000000000.1456000000000.2858000000000.5896000000001.0972000000005.7361特征根從大到小排序:5.736141.097230.5896340.2857910.145620.1368830.005986810.00271084根據(jù)累計貢獻率,假設(shè)閾值為90%,選出主成分,計算如下:貢獻率:newrate=0.71700.13720.07370.03570.01820.01710.00070.0003主成分數(shù):3主成分載荷:0.79850.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權(quán)】 ISO 20957-1:2024 EN Stationary training equipment - Part 1: General safety requirements and test methods
- 快餐攤位租賃合同
- 2024【辦公大樓的物業(yè)管理委托合同】對付物業(yè)最有效的辦法
- 技術(shù)轉(zhuǎn)讓合同注意事項
- 2024日用品采購合同范本
- 2024年戶外廣告牌設(shè)置與發(fā)布合同
- 交通事故私了協(xié)議書模板
- 期刊廣告投放區(qū)域協(xié)議
- 農(nóng)村調(diào)解協(xié)議書樣本
- 房產(chǎn)貸款合同匯編
- 業(yè)務(wù)招待費審批單
- 建筑工程項目管理咨詢招標(范本)
- 三位數(shù)除兩位數(shù)的除法練習題
- 慢性胃炎的中醫(yī)治療培訓課件
- Python程序設(shè)計課件第7章面向?qū)ο蟪绦蛟O(shè)計
- 主題班會課防盜
- 幼兒園課件《撓撓小怪物》
- 教師教案檢查八大評分標準教案的評分標準
- 政府會計基礎(chǔ)知識講義
- 幼兒園整合式主題活動設(shè)計案例《溫馨家園》
- 荒漠區(qū)生態(tài)治理(麥草沙障、植物固沙)施工方案
評論
0/150
提交評論