主成分分析法.ppt_第1頁
主成分分析法.ppt_第2頁
主成分分析法.ppt_第3頁
主成分分析法.ppt_第4頁
主成分分析法.ppt_第5頁
已閱讀5頁,還剩32頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、主成分分析法,4.1 主成分分析法的基本原理 主成分分析(Principal Components Analysis)是由Hotelling于1933年首先提出的,它是利用降維的思想,把多指標轉(zhuǎn)化為少數(shù)幾個綜合指標的多元統(tǒng)計分析方法。,4.1.1 基本思想 對原始變量相關(guān)矩陣結(jié)構(gòu)關(guān)系進行研究,找出影響某一經(jīng)濟過程的幾個綜合指標,使綜合指標變?yōu)樵瓉碜兞康木€性組合,從而不僅保留了原始變量的主要信息,彼此之間又不相關(guān),更有助于抓住主要矛盾。,借助于一個正交變換T,將其分量相關(guān)的原隨機向量x=(x1,x2,L,xp)T,轉(zhuǎn)化成其分向量不相關(guān)的新隨機向量u=(u1,u2,L,up)T ,這在代數(shù)上表現(xiàn)為

2、將x的協(xié)方差陣變換成對角形陣,在幾何上表現(xiàn)為將遠坐標系變換成新的正交坐標系,使之指向樣本點散布最開的p個正交方向,然后對多維變量系統(tǒng)進行降維處理,使之能以一個較高的精度轉(zhuǎn)換成低維度變量系統(tǒng),再通過構(gòu)造適當(dāng)?shù)膬r值函數(shù),進一步把低維系統(tǒng)轉(zhuǎn)化成一維系統(tǒng)。,定義: 稱為第k主成分分量的方差貢獻率, 稱為前k個主成分分量的累計方差貢獻率。,例:兒童身高和體重兩個變量之間的關(guān)系。下表表示兒童身高與體重數(shù)據(jù) :,使用散點圖表示兒童身高與體重,以該直線為一個坐標軸y1,以該軸的垂直線為另一個坐標軸y2。因為所有觀測點均在坐標軸y1周圍,而 y1 與 y2 是兩個相互垂直的坐標軸,因此彼此不相關(guān)。 上述也可以看

3、成是將h軸和w軸同時按逆時針方向旋轉(zhuǎn)角度,得到新的坐標軸y1和 y2 ,y1和 y2是兩個新的變量。,根據(jù)旋轉(zhuǎn)公式 y1=h cos+ w sin y2=-h sin+ w cos 我們看到新變量 y1和 y2 是原變量h和w的線性組合,它的矩陣表示形式為,y1 cos sin h = =Ux y2 一sin cos w 其中U為正交矩陣,即有U=U-1,U U-1=I,旋轉(zhuǎn)變換的目的是為了使得n個樣本點在 y1 軸方向上的離散程度最大,即 y1的方差最大。變量 y1 代表了原始數(shù)據(jù)的絕大部分信息,即把原始數(shù)據(jù)的信息集中到 y1軸上,對數(shù)據(jù)中包含的信息起到了濃縮作用。 y1和 y2 可稱為原始

4、變量h和w的綜合變量。由于n個點在 y1 軸上的方差最大,因而將二維空間的點的描述用 y1這個綜合變量來代替,所損失的信息最小,由此稱 y1 為第一主成分,y2為第二主成分。,4.1.2 主成分分析法與因子分析法 主成分分析通過線性組合將原變量綜合成幾個主成分,用較少的綜合指標來代替原來較多的指標(變量)。在多變量分析中,某些變量間往往存在相關(guān)性。是什么原因使變量間有關(guān)聯(lián)呢?是否存在不能直接觀測到的、但影響可觀測變量變化的公共因子? 因子分析法(Factor Analysis)就是尋找這些公共因子的模型分析方法,它是在主成分的基礎(chǔ)上構(gòu)筑若干意義較為明確的公因子,以它們?yōu)榭蚣芊纸庠兞浚源丝疾?/p>

5、原變量間的聯(lián)系與區(qū)別。,4.1.2 主成分分析法與因子分析法 例如,隨著年齡的增長,兒童的身高、體重會隨著變化,具有一定的相關(guān)性,身高和體重之間為何會有相關(guān)性呢?因為存在著一個同時支配或影響著身高與體重的生長因子。那么,我們能否通過對多個變量的相關(guān)系數(shù)矩陣的研究,找出同時影響或支配所有變量的共性因子呢?因子分析就是從大量的數(shù)據(jù)中“由表及里”、“去粗取精”,尋找影響或支配變量的多變量統(tǒng)計方法。 可以說,因子分析是主成分分析的推廣,也是一種把多個變量化為少數(shù)幾個綜合變量的多變量分析方法,其目的是用有限個不可觀測的隱變量來解釋原始變量之間的相關(guān)關(guān)系。 因子分析主要用于:1、減少分析變量個數(shù);2、通過

6、對變量間相關(guān)關(guān)系探測,將原始變量進行分類。即將相關(guān)性高的變量分為一組,用共性因子代替該組變量。,4.2 主成分分析的一般數(shù)學(xué)模型,推廣到一般情況,實測變量X1Xm,共測得n個樣品 :,原始數(shù)據(jù)矩陣為 :,X11 X12 X1m X21 X22 X2m Xn1 Xn2 Xnm,在原始變量的m維空間中,找到新的m個坐標軸,新變量與原始變量的關(guān)系可以表示為:,并且滿足uk12 + uk22 + + ukm2=1 k=1,2, ,m,系數(shù)uij由下列原則來確定: (1)yi與yj (i j, i, j=1,2, ,p)相互無關(guān)。 (2)y1是x1、x2、xp的一切線性組合中方差最大者; y2是與y1不

7、相關(guān)的x1、x2、xp的所有線性組合中方差最大者; yp是與y1、y2、yp-1都不相關(guān)的x1、x2、xp的所有線性組合中方差最大者。 如此決定的綜合變量y1、y2、yp分別稱為原始變量的第1、第2、第p個主成分。其中y1在總方差中占的比重最大,綜合變量y1、y2、yp的方差依次遞減,在具體分析時只挑選前幾個方差最大的主成分,從而達到簡化系統(tǒng)結(jié)構(gòu)的目的。,4.3 主成分分析法的算法 主成分分析法原理應(yīng)用于實際課題,必須解決兩個問題: 一是隨機向量x的協(xié)方差陣T 或相關(guān)系數(shù)陣R通常是未知的,需借助于隨機抽樣的途徑,對T或R作出極大似然估計; 二是隨機向量x的各個分量通常是不同的自然科學(xué)量或社會科

8、學(xué)量,需通過標準化變換的方法,以解決不可公度的問題。,步驟1:采集p維隨機向量x=(x1,x2,xp)T的n個樣品xi=(xi1,xi2,xip)T, i=1,2, ,n, np,構(gòu)造樣本陣X x1T x11 x12 x1p x2T x21 x22 x2p X= = xnT xn1 xn2 xnp,步驟2 對樣本陣X中的元進行如下變換 x ij , 對正指標 Y ij = - x ij, 對逆指標 得 Y= Y ij np,步驟3 對Y正中元進行如下標準化變換,其中,得標準化矩陣Z:,Z=,z1T z11 z12 z1p z2T = z21 z22 z2p znT zn1 zn2 znp,步驟

9、4 對標準化陣Z求樣本相關(guān)系數(shù)陣,其中,步驟5 解樣本相關(guān)系數(shù)陣R的特征方程,得p個特征值,步驟6 按,得單位特征向量:,使信息的利用率達到85%以上。,確定m值。,對每個,解方程組,步驟7 求出zi=(zi1,zi2,zip)T, i=1,2,n的m個主成分量 uij=ziTbj0 , j=1,2,m 得主成分決策陣 U=,其中ui為第i個樣品的主成分向量,i=1,2,n, 它的第j個分量uij是向量zi在單位特征向量bj0 上的投影,j=1,2,m。,步驟8 選擇適當(dāng)?shù)闹鞒煞謨r值函數(shù)模型,進一步把m維系統(tǒng)降成一維系統(tǒng)。一般評價函數(shù)模型為: Fi= , i=1,2,n。 其中 , j=1,2

10、,m。,4.4 實例分析:企業(yè)經(jīng)濟效益的主成分分析 企業(yè)經(jīng)濟效益是指企業(yè)在一定的計劃期內(nèi),以盡量少的資金占用、生產(chǎn)出盡量多的符合社會需求的產(chǎn)品。 對企業(yè)經(jīng)濟效益的考核、分析和評價,是國家發(fā)展經(jīng)濟、實施宏觀調(diào)控和科學(xué)管理所必須的,也是企業(yè)自我認識、自我發(fā)展、進行科學(xué)決策和科學(xué)管理的依據(jù)。,4.4.1 評價指標體系設(shè)計 (1)銷售利潤率 (2)總資產(chǎn)報酬率 (3)資本收益率 (4)資本保值增值率 (5)資產(chǎn)負債率 (6)速動比率 (7)應(yīng)收帳款周轉(zhuǎn)率 (8)存貨周轉(zhuǎn)率 (9)社會貢獻率 (10)社會積累率,4.4.2 建立數(shù)學(xué)模型 (1)根據(jù)調(diào)查研究,取n個樣本,每個樣本觀測p項指標, 從十個企業(yè)

11、的財務(wù)報表中計算出所需的十個評價指標,得出原始數(shù)據(jù)矩陣如表1 Book1.xls,(2)為了消除原來各指標的量綱,使各指標之間具有可比性,對原始數(shù)據(jù)作標準化處理,其計算公式為: (i=1,2,.n; j=1,2,p) 標準化原始數(shù)據(jù)矩陣所得結(jié)果如表2 Book1.xls,XIj* =,(3)計算相關(guān)系數(shù)矩陣: R= 其中, rij= (i=1,2,3,p; j=1,2,3,p) 根據(jù)標準化矩陣計算相關(guān)矩陣,結(jié)果如表3 Book1.xls,(5)根據(jù)特征根計算主成分的貢獻率和主成分的累計貢獻率,選擇m個主分量。當(dāng)其達到一定水平時,說明前r個主成分來描述原樣本所包含的信息量已經(jīng)達到要求。計算公式如

12、下: 第k個主主成分的貢獻率= , 前r個主成分的累計貢獻率= 計算結(jié)果如表4(Book1.xls),選擇的4個主分量的方差和占全部方差總和的比例為0.9070接近1, 即基本保留了原來的信息,而因子由10個減少為4個。故主成分為4個,根據(jù)Z=CX計算4個主成分的值z1,z2,z3,z4, 如下: 第一主成分: z1=0.0620 x1+0.4439x2+0.4501x3+0.3072x4- 0.0803x5-0.1923x6+0.3089x7- 0.1153x8+0.4061x9+0.4301x10,第二主成分: z2=0.5554x1+0.0170 x2+0.0148x3+0.2455x4-0.4081x5+0.3854x6+0.1437x7-0.4850 x8-0.2443x9+0.0117x10 第三主成分: z3=-0.0660 x1-0.0813x2+0.1591x3-0.4107x4- 0.6418x5+0.2796x6+0.2931x7-0.4270 x8-0.0570 x9+0.1832x10,第四主成分: z4=0.2372x1-0.0673x2-0.1638x3-0.1553x4-0.1369x5-0.5447x6+0.6281x7-0.2381x8-0.1733x9-0.3026x10 用這四個主成分來評價各企業(yè)的綜合經(jīng)濟效益,其計算公式如下: Y=

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論