模式識別主成分分析和變換_第1頁
模式識別主成分分析和變換_第2頁
模式識別主成分分析和變換_第3頁
模式識別主成分分析和變換_第4頁
模式識別主成分分析和變換_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

模式識別主成分分析和變換第一頁,共六十七頁,2022年,8月28日K-L坐標系的產(chǎn)生矩陣第二頁,共六十七頁,2022年,8月28日K-L變換特征提取思想用映射(或變換)的方法把原始特征變換為較少的新特征降維主成分分析(PCA)基本思想進行特征降維變換,不能完全地表示原有的對象,能量總會有損失。希望找到一種能量最為集中的的變換方法使損失最小第三頁,共六十七頁,2022年,8月28日K-L變換原始輸入:x變換后特征:y變換矩陣(線性變換):A則:

y=ATx第四頁,共六十七頁,2022年,8月28日K-L變換思考:希望特征之間關(guān)聯(lián)性盡可能小變換后的相關(guān)矩陣: Ry≡E[yyT] =E[ATxxTA] =ATRxA我們是不是希望Ry是個對角矩陣?如何選擇A?第五頁,共六十七頁,2022年,8月28日K-L變換考慮以Rx的特征向量作為A的列,則

Ry=ATRxA =[a1,a2……an]

TRx

[a1,a2……an] =[a1,a2……an]T[λ

1a1,λ2a2……λnan] =為對角矩陣,對角線元素為λ

1,λ2……λn達到變換后特征不相關(guān)的目的以上為K-L變換第六頁,共六十七頁,2022年,8月28日K-L變換思考K-L變換性質(zhì):如果降維,有什么結(jié)果原有N維,只保留m維,即

去掉ym+1……yN希望:和原來的表示方法差別最小 即:E[||x-x’||2]最小

x’表示[y1……ym]在原空間中對應(yīng)的表示方法第七頁,共六十七頁,2022年,8月28日K-L變換第八頁,共六十七頁,2022年,8月28日K-L變換結(jié)論如果對特征向量排序,舍棄最小的特征,則損失的能量最小第九頁,共六十七頁,2022年,8月28日K-L變換典型應(yīng)用1.降維與壓縮對一幅人臉圖象,如果它由M行與N到象素組成,則原始的特征空間維數(shù)就應(yīng)為M×N。而如果在K-L變換以及只用到30個基,那么維數(shù)就降至30,由此可見降維的效果是極其明顯的。譬如原訓(xùn)練樣本集的數(shù)量為V,而現(xiàn)采用30個基,數(shù)據(jù)量是大大降低第十頁,共六十七頁,2022年,8月28日K-L變換典型應(yīng)用3.人臉識別首先搜集要識別的人的人臉圖象,建立人臉圖象庫,然后利用K-L變換確定相應(yīng)的人臉基圖象,再反過來用這些基圖象對人臉圖象庫中的有人臉圖象進行K-L變換在識別時,先對一張所輸入的臉圖象進行必要的規(guī)范化,再進行K-L變換分析,得到其參數(shù)向量。第十一頁,共六十七頁,2022年,8月28日K-L變換典型應(yīng)用4.人臉圖象合成

第十二頁,共六十七頁,2022年,8月28日使用K-L變換進行特征提取第十三頁,共六十七頁,2022年,8月28日第十四頁,共六十七頁,2022年,8月28日題目:主成分分析PCA

路志宏P(guān)rincipalComponentAnalysis第十五頁,共六十七頁,2022年,8月28日內(nèi)容

一、前言二、問題的提出三、主成分分析1.二維數(shù)據(jù)的例子2.PCA的幾何意義3.均值和協(xié)方差、特征值和特征向量4.PCA的性質(zhì)四、主成分分析的算法五、具體實例實例2

六、結(jié)論七、練習(xí)第十六頁,共六十七頁,2022年,8月28日1.前言假定你是一個公司的財務(wù)經(jīng)理,掌握了公司的所有數(shù)據(jù),比如固定資產(chǎn)、流動資金、每一筆借貸的數(shù)額和期限、各種稅費、工資支出、原料消耗、產(chǎn)值、利潤、折舊、職工人數(shù)、職工的分工和教育程度等等。如果讓你介紹公司狀況,你能夠把這些指標和數(shù)字都原封不動地擺出去嗎?

當然不能。實例1

實例2你必須要把各個方面作出高度概括,用一兩個指標簡單明了地把情況說清楚。

匯報什么?第十七頁,共六十七頁,2022年,8月28日PCA多變量問題是經(jīng)常會遇到的。變量太多,無疑會增加分析問題的難度與復(fù)雜性.在許多實際問題中,多個變量之間是具有一定的相關(guān)關(guān)系的。因此,能否在各個變量之間相關(guān)關(guān)系研究的基礎(chǔ)上,用較少的新變量代替原來較多的變量,而且使這些較少的新變量盡可能多地保留原來較多的變量所反映的信息?事實上,這種想法是可以實現(xiàn)的.主成分分析原理:是把原來多個變量化為少數(shù)幾個綜合指標的一種統(tǒng)計分析方法,從數(shù)學(xué)角度來看,這是一種降維處理技術(shù)。主成分分析方法就是綜合處理這種問題的一種強有力的方法。第十八頁,共六十七頁,2022年,8月28日

(1)如何作主成分分析?

當分析中所選擇的變量具有不同的量綱,變量水平差異很大,應(yīng)該選擇基于相關(guān)系數(shù)矩陣的主成分分析。

在力求數(shù)據(jù)信息丟失最少的原則下,對高維的變量空間降維,即研究指標體系的少數(shù)幾個線性組合,并且這幾個線性組合所構(gòu)成的綜合指標將盡可能多地保留原來指標變異方面的信息。這些綜合指標就稱為主成分。要討論的問題是:2.問題的提出第十九頁,共六十七頁,2022年,8月28日各個變量之間差異很大第二十頁,共六十七頁,2022年,8月28日

(2)如何選擇幾個主成分。主成分分析的目的是簡化變量,一般情況下主成分的個數(shù)應(yīng)該小于原始變量的個數(shù)。關(guān)于保留幾個主成分,應(yīng)該權(quán)衡主成分個數(shù)和保留的信息。(3)如何解釋主成分所包含的幾何意義或經(jīng)濟意義或其它。第二十一頁,共六十七頁,2022年,8月28日

美國的統(tǒng)計學(xué)家斯通(Stone)在1947年關(guān)于國民經(jīng)濟的研究是一項十分著名的工作。他曾利用美國1929一1938年各年的數(shù)據(jù),得到了17個反映國民收入與支出的變量要素,例如雇主補貼、消費資料和生產(chǎn)資料、純公共支出、凈增庫存、股息、利息、外貿(mào)平衡等等。在進行主成分分析后,竟以97.4%的精度,用三個新變量就取代了原17個變量。實例1:經(jīng)濟分析第二十二頁,共六十七頁,2022年,8月28日

根據(jù)經(jīng)濟學(xué)知識,斯通給這三個新變量分別命名為總收入F1、總收入變化率F2和經(jīng)濟發(fā)展或衰退的趨勢F3。更有意思的是,這三個變量其實都是可以直接測量的。第二十三頁,共六十七頁,2022年,8月28日

主成分分析就是試圖在力保數(shù)據(jù)信息丟失最少的原則下,對這種多變量的數(shù)據(jù)表進行最佳綜合簡化,也就是說,對高維變量空間進行降維處理。很顯然,識辨系統(tǒng)在一個低維空間要比在一個高維空間容易得多。第二十四頁,共六十七頁,2022年,8月28日實例2:成績數(shù)據(jù)100個學(xué)生的數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語的成績?nèi)缦卤恚ú糠郑?。第二十五頁,共六十七頁?022年,8月28日從本例可能提出的問題目前的問題是,能不能把這個數(shù)據(jù)的6個變量用一兩個綜合變量來表示呢?這一兩個綜合變量包含有多少原來的信息呢?能不能利用找到的綜合變量來對學(xué)生排序呢?這一類數(shù)據(jù)所涉及的問題可以推廣到對企業(yè),對學(xué)校進行分析、排序、判別和分類等問題。第二十六頁,共六十七頁,2022年,8月28日例中的的數(shù)據(jù)點是六維的;也就是說,每個觀測值是6維空間中的一個點。我們希望把6維空間用低維空間表示。3.1PCA:二維數(shù)據(jù)分析第二十七頁,共六十七頁,2022年,8月28日平均成績73.769.861.372.577.272.36372.370單科平均成績74.1747066.473.663.3第二十八頁,共六十七頁,2022年,8月28日第二十九頁,共六十七頁,2022年,8月28日

先假定數(shù)據(jù)只有二維,即只有兩個變量,它們由橫坐標和縱坐標所代表;因此每個觀測值都有相應(yīng)于這兩個坐標軸的兩個坐標值;如果這些數(shù)據(jù)形成一個橢圓形狀的點陣(這在變量的二維正態(tài)的假定下是可能的).第三十頁,共六十七頁,2022年,8月28日?????????????????????????????????????3.2主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標軸第三十一頁,共六十七頁,2022年,8月28日?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標軸?第三十二頁,共六十七頁,2022年,8月28日????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標軸?第三十三頁,共六十七頁,2022年,8月28日?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標軸???????????????????????????????????????????????????????????????第三十四頁,共六十七頁,2022年,8月28日3.2.PCA:進一步解釋

橢圓有一個長軸和一個短軸。在短軸方向上,數(shù)據(jù)變化很少;在極端的情況,短軸如果退化成一點,那只有在長軸的方向才能夠解釋這些點的變化了;這樣,由二維到一維的降維就自然完成了。第三十五頁,共六十七頁,2022年,8月28日二維數(shù)據(jù)第三十六頁,共六十七頁,2022年,8月28日進一步解釋PCA當坐標軸和橢圓的長短軸平行,那么代表長軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。但是,坐標軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進行變換,使得新變量和橢圓的長短軸平行。如果長軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個變量(舍去次要的一維),降維就完成了。橢圓(球)的長短軸相差得越大,降維也越有道理。第三十七頁,共六十七頁,2022年,8月28日進一步解釋PCA(續(xù))對于多維變量的情況和二維類似,也有高維的橢球,只不過無法直觀地看見罷了。首先把高維橢球的主軸找出來,再用代表大多數(shù)數(shù)據(jù)信息的最長的幾個軸作為新變量;這樣,主成分分析就基本完成了。注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principalcomponent)。

第三十八頁,共六十七頁,2022年,8月28日正如二維橢圓有兩個主軸,三維橢球有三個主軸一樣,有幾個變量,就有幾個主成分。選擇越少的主成分,降維就越好。什么是標準呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻建議,所選的主軸總長度占所有主軸長度之和的大約85%即可,其實,這只是一個大體的說法;具體選幾個,要看實際情況而定。第三十九頁,共六十七頁,2022年,8月28日3.3.均值和協(xié)方差

特征值和特征向量

設(shè)有n個樣本,每個樣本觀測p個指標(變量):X1,X2,…,Xn,得到原始數(shù)據(jù)矩陣:第四十頁,共六十七頁,2022年,8月28日1.樣本均值顯然,樣本均值是數(shù)據(jù)散列圖的中心.于是p*n矩陣的列B具有零樣本均值,稱為平均偏差形式M第四十一頁,共六十七頁,2022年,8月28日2.樣本協(xié)方差

中心中心

協(xié)方差的大小在一定程度上反映了多變量之間的關(guān)系,但它還受變量自身度量單位的影響.注意:協(xié)方差是對稱矩陣且半正定第四十二頁,共六十七頁,2022年,8月28日3.3特征值與特征向量定義A為n階方陣,λ為數(shù),為n維非零向量,若則λ稱為A的特征值,稱為A的特征向量.注②并不一定唯一;③n階方陣A的特征值,就是使齊次線性方程組①特征向量,特征值問題只針對與方陣;有非零解的λ值,即滿足的λ都是方陣A的特征值.定義稱以λ為未知數(shù)的一元n次方程為A的特征方程.第四十三頁,共六十七頁,2022年,8月28日例1:

從一個總體中隨機抽取4個樣本作三次測量,每一個樣本的觀測向量為:

計算樣本均值M和協(xié)方差矩陣S以及S的特征值和特征向量.第四十四頁,共六十七頁,2022年,8月28日SyntaxC=cov(X)AlgorithmThealgorithmforcovis[n,p]=size(X);X=X-ones(n,1)*mean(X);Y=X'*X/(n-1);SeeAlsocorrcoef,mean,std,var第四十五頁,共六十七頁,2022年,8月28日?????????????????????????????????????平移、旋轉(zhuǎn)坐標軸?M第四十六頁,共六十七頁,2022年,8月28日

為了方便,我們在二維空間中討論主成分的幾何意義。設(shè)有n個樣本,每個樣本有兩個觀測變量xl和x2,在由變量xl和x2

所確定的二維平面中,n個樣本點所散布的情況如橢圓狀。由圖可以看出這n個樣本點無論是沿著xl

軸方向或x2軸方向都具有較大的離散性,其離散的程度可以分別用觀測變量xl

的方差和x2

的方差定量地表示。顯然,如果只考慮xl和x2

中的任何一個,那么包含在原始數(shù)據(jù)中的信息將會有較大的損失。

第四十七頁,共六十七頁,2022年,8月28日

如果我們將xl軸和x2軸先平移,再同時按逆時針方向旋轉(zhuǎn)角度,得到新坐標軸Fl和F2。Fl和F2是兩個新變量。第四十八頁,共六十七頁,2022年,8月28日

Fl,F(xiàn)2除了可以對包含在Xl,X2中的信息起著濃縮作用之外,還具有不相關(guān)的性質(zhì),這就使得在研究復(fù)雜的問題時避免了信息重疊所帶來的虛假性。二維平面上的個點的方差大部分都歸結(jié)在Fl軸上,而F2軸上的方差很小。Fl和F2稱為原始變量x1和x2的綜合變量。

F簡化了系統(tǒng)結(jié)構(gòu),抓住了主要矛盾。

第四十九頁,共六十七頁,2022年,8月28日稍事休息第五十頁,共六十七頁,2022年,8月28日§3.4PCA的性質(zhì)

一、兩個線性代數(shù)的結(jié)論

1、若A是p階實對稱陣,則一定可以找到正交陣U,使其中是A的特征根。第五十一頁,共六十七頁,2022年,8月28日2、若上述矩陣的特征根所對應(yīng)的單位特征向量為

則實對稱陣屬于不同特征根所對應(yīng)的特征向量是正交的,即有令第五十二頁,共六十七頁,2022年,8月28日§3.4PCA的性質(zhì)(續(xù))3、均值4、方差為所有特征根之和

說明主成分分析把P個隨機變量的總方差分解成為P個不相關(guān)的隨機變量的方差之和。

協(xié)方差矩陣的對角線上的元素之和等于特征根之和。第五十三頁,共六十七頁,2022年,8月28日3.4、精度分析1)貢獻率:第i個主成分的方差在全部方差中所占比重,稱為貢獻率,反映了原來P個指標多大的信息,有多大的綜合能力。2)累積貢獻率:前k個主成分共有多大的綜合能力,用這k個主成分的方差和在全部方差中所占比重來描述,稱為累積貢獻率。第五十四頁,共六十七頁,2022年,8月28日PCA常用統(tǒng)計量:1.特征根λi

2.各成分貢獻率3.前各成分累計貢獻率4.特征向量各成分表達式中標準化原始變量的系數(shù)向量,就是各成分的特征向量。第五十五頁,共六十七頁,2022年,8月28日

我們進行主成分分析的目的之一是希望用盡可能少的主成分F1,F(xiàn)2,…,F(xiàn)k(k≤p)代替原來的P個指標。到底應(yīng)該選擇多少個主成分,在實際工作中,主成分個數(shù)的多少取決于能夠反映原來變量80%以上的信息量為依據(jù),即當累積貢獻率≥80%時的主成分的個數(shù)就足夠了。最常見的情況是主成分為2到3個。第五十六頁,共六十七頁,2022年,8月28日

設(shè)的協(xié)方差矩陣為解得特征根為,,,,

第一個主成分的貢獻率為5.83/(5.83+2.00+0.17)=72.875%,盡管第一個主成分的貢獻率并不小,但應(yīng)該取兩個主成分。97.88%第五十七頁,共六十七頁,2022年,8月28日§4主成分分析的步驟

第一步:由X的協(xié)方差陣Σx,求出其特征根,即解方程,可得特征根。一、基于協(xié)方差矩陣第五十八頁,共六十七頁,2022年,8月28日

第二步:求出分別所對應(yīng)的特征向量U1,U2,…,Up,第三步:計算累積貢獻率,給出恰當?shù)闹鞒煞謧€數(shù)。第四步:計算所選出的k個主成分的得分。將原始數(shù)據(jù)的中心化值:

代入前k個主成分的表達式,分別計算出各單位k個主成分的得分,并按得分值的大小排隊。第五十九頁,共六十七頁,2022年,8月28日

應(yīng)收賬款是指企業(yè)因?qū)ν怃N售產(chǎn)品、材料、提供勞務(wù)及其它原因,應(yīng)向購貨單位或接受勞務(wù)的單位收取的款項,包括應(yīng)收銷貨款、其它應(yīng)收款和應(yīng)收票據(jù)等。出于擴大銷售的競爭需要,企業(yè)不得不以賒銷或其它優(yōu)惠的方式招攬顧客,由于銷售和收款的時間差,于是產(chǎn)生了應(yīng)收款項。應(yīng)收款賒銷的效果的好壞,不僅依賴于企業(yè)的信用政策,還依賴于顧客的信用程度。由此,評價顧客的信用等級,了解顧客的綜合信用程度,做到“知己知彼,百戰(zhàn)不殆”,對加強企業(yè)的應(yīng)收賬款管理大有幫助。某企業(yè)為了了解其客戶的信用程度,采用西方銀行信用評估常用的5C方法,5C的目的是說明顧客違約的可能性。

§5PCA的應(yīng)用

第六十頁,共六十七頁,2022年,8月28日1、品格(用X1表示),指顧客的信譽,履行償還義務(wù)的可能性。企業(yè)可以通過過去的付款記錄得到此項。2、能力(用X2表示),指顧客的償還能力。即其流動資產(chǎn)的數(shù)量和質(zhì)量以及流動負載的比率。顧客的流動資產(chǎn)越多,其轉(zhuǎn)化為現(xiàn)金支付款項的能力越強。同時,還應(yīng)注意顧客流動資產(chǎn)的質(zhì)量,看其是否會出現(xiàn)存貨過多過時質(zhì)量下降,影響其變現(xiàn)能力和支付能力。3、資本(用X3表示),指顧客的財務(wù)勢力和財務(wù)狀況,表明顧客可能償還債務(wù)的背景。4、附帶的擔(dān)保品(用X4表示),指借款人以容易出售的資產(chǎn)做抵押。5、環(huán)境條件(用X5表示),指企業(yè)的外部因素,即指非企業(yè)本身能控制或操縱的因素。

第六十一頁,共六十七頁,2022年,8月28日

首先并抽取了10家具有可比性的同類企業(yè)作為樣本,又請8位專家分別給10個企業(yè)的5個指標打分,然后分別計算企業(yè)5個指標的平均值,如表。

76.581.57675.871.78579.280.384.476.570.67367.668.178.5949487.589.59290.787.39181.58084.666.968.864.866.477.573.670.969.874.857.760.457.460.86585.668.57062.276.57069.271.764.968.9;第六十二頁,共六十七頁,2022年,8月28日EigenvaluesoftheCovarianceMatrixEigenvalueDifferenceProportionCumulativePRIN1410.506367.2420.8458540.84585PRIN243.26422.5940.0891460.93500PRIN320.67012.5990.0425910.97759PRIN48.0715.2660.0166300.99422PRIN52.8050.00.0057791.00000

EigenvectorsPRIN1PRIN2PRIN3PRIN4PRIN5X10.468814-.8306120.0214060.254654-.158081X20.4848760.3299160.014801-.287720-.757000X30.472744-.021174-.412719-.5885820.509213X40.4617470.430904-.2408450.7062830.210403X50.3292590.1229300.878054-.0842860.313677第六十三頁,共六十七頁,2022年,8月28日

第一主成份的貢獻率為84.6%,第一主成份Z1=0.469X1+0.485X2+0.473X3+0.462X4+0.329X5

的各項系數(shù)大致相等,且均為正數(shù),說明第一主成份是對所有指標的一個綜合測度,可以作為綜合的信用等級指標??梢杂脕砼判颉⒃紨?shù)據(jù)的值中心化后,代入第一主成份Z1的表示式,計算各企業(yè)的得分,并按分值大小排序:

在正確評估了顧客的信用等級后,就能正確制定出對其的信用期、收帳政策等,這對于加強應(yīng)收帳款的管理大有幫助。序號12345678910得分3.1613.6-9.0135.925.1-10.3-4.36-33.8-6.41-13.8排序43712851069第六十四頁,共六十七頁,2022年,8月28日例二基于相關(guān)系數(shù)矩陣的主成分分析。對美國紐約上市的有關(guān)化學(xué)產(chǎn)業(yè)的三個證券和石油產(chǎn)業(yè)的2個證券做了100周的收益率調(diào)查。下表是其相關(guān)系數(shù)矩陣。

1)利用相關(guān)系數(shù)矩陣做主成分分析。

2)決定要保留的主成分個數(shù),并解釋意義。10.5770.5090.00630.00370.57710.5990.3890.520.5090.59910.4360.4260.3870.3890.43610.5230.4620.3220.4260.5231第六十五頁,共六十七頁,2022年,8月28日EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulativePRIN12.85671

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論