版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 主元分析(pca)理論分析及應(yīng)用什么是pca?pca是principal component analysis的縮寫,中文翻譯為主元分析。它是一種對(duì)數(shù)據(jù)進(jìn)行分析的技術(shù),最重要的應(yīng)用是對(duì)原有數(shù)據(jù)進(jìn)行簡(jiǎn)化。正如它的名字:主元分析,這種方法可以有效的找出數(shù)據(jù)中最“主要”的元素和結(jié)構(gòu),去除噪音和冗余,將原有的復(fù)雜數(shù)據(jù)降維,揭示隱藏在復(fù)雜數(shù)據(jù)背后的簡(jiǎn)單結(jié)構(gòu)。它的優(yōu)點(diǎn)是簡(jiǎn)單,而且無參數(shù)限制,可以方便的應(yīng)用與各個(gè)場(chǎng)合。因此應(yīng)用極其廣泛,從神經(jīng)科學(xué)到計(jì)算機(jī)圖形學(xué)都有它的用武之地。被譽(yù)為應(yīng)用線形代數(shù)最價(jià)值的結(jié)果之一。在以下的章節(jié)中,不僅有對(duì)pca的比較直觀的解釋,同時(shí)也配有較為深入的分析。首先將從一個(gè)簡(jiǎn)單的例
2、子開始說明pca應(yīng)用的場(chǎng)合以及想法的由來,進(jìn)行一個(gè)比較直觀的解釋;然后加入數(shù)學(xué)的嚴(yán)格推導(dǎo),引入線形代數(shù),進(jìn)行問題的求解。隨后將揭示pca與svd(singular value decomposition)之間的聯(lián)系以及如何將之應(yīng)用于真實(shí)世界。最后將分析pca理論模型的假設(shè)條件以及針對(duì)這些條件可能進(jìn)行的改進(jìn)。一個(gè)簡(jiǎn)單的模型在實(shí)驗(yàn)科學(xué)中常遇到的情況是,使用大量的變量代表可能變化的因素,例如光譜、電壓、速度等等。但是由于實(shí)驗(yàn)環(huán)境和觀測(cè)手段的限制,實(shí)驗(yàn)數(shù)據(jù)往往變得極其的復(fù)雜、混亂和冗余的。如何對(duì)數(shù)據(jù)進(jìn)行分析,取得隱藏在數(shù)據(jù)背后的變量關(guān)系,是一個(gè)很困難的問題。在神經(jīng)科學(xué)、氣象學(xué)、海洋學(xué)等等學(xué)科實(shí)驗(yàn)中,假
3、設(shè)的變量個(gè)數(shù)可能非常之多,但是真正的影響因素以及它們之間的關(guān)系可能又是非常之簡(jiǎn)單的。下面的模型取自一個(gè)物理學(xué)中的實(shí)驗(yàn)。它看上去比較簡(jiǎn)單,但足以說明問題。如圖表1所示。這是一個(gè)理想彈簧運(yùn)動(dòng)規(guī)律的測(cè)定實(shí)驗(yàn)。假設(shè)球是連接在一個(gè)無質(zhì)量無摩擦的彈簧之上,從平衡位置沿軸拉開一定的距離然后釋放。圖表 1對(duì)于一個(gè)具有先驗(yàn)知識(shí)的實(shí)驗(yàn)者來說,這個(gè)實(shí)驗(yàn)是非常容易的。球的運(yùn)動(dòng)只是在x軸向上發(fā)生,只需要記錄下軸向上的運(yùn)動(dòng)序列并加以分析即可。但是,在真實(shí)世界中,對(duì)于第一次實(shí)驗(yàn)的探索者來說(這也是實(shí)驗(yàn)科學(xué)中最常遇到的一種情況),是不可能進(jìn)行這樣的假設(shè)的。那么,一般來說,必須記錄下球的三維位置。這一點(diǎn)可以通過在不同角度放置三
4、個(gè)攝像機(jī)實(shí)現(xiàn)(如圖所示),假設(shè)以的頻率拍攝畫面,就可以得到球在空間中的運(yùn)動(dòng)序列。但是,由于實(shí)驗(yàn)的限制,這三臺(tái)攝像機(jī)的角度可能比較任意,并不是正交的。事實(shí)上,在真實(shí)世界中也并沒有所謂的軸,每個(gè)攝像機(jī)記錄下的都是一幅二維的圖像,有其自己的空間坐標(biāo)系,球的空間位置是由一組二維坐標(biāo)記錄的:。經(jīng)過實(shí)驗(yàn),系統(tǒng)產(chǎn)生了幾分鐘內(nèi)球的位置序列。怎樣從這些數(shù)據(jù)中得到球是沿著某個(gè)軸運(yùn)動(dòng)的規(guī)律呢?怎樣將實(shí)驗(yàn)數(shù)據(jù)中的冗余變量剔除,化歸到這個(gè)潛在的軸上呢?這是一個(gè)真實(shí)的實(shí)驗(yàn)場(chǎng)景,數(shù)據(jù)的噪音是必須面對(duì)的因素。在這個(gè)實(shí)驗(yàn)中噪音可能來自空氣、摩擦、攝像機(jī)的誤差以及非理想化的彈簧等等。噪音使數(shù)據(jù)變得混亂,掩蓋了變量間的真實(shí)關(guān)系。如
5、何去除噪音是實(shí)驗(yàn)者每天所要面對(duì)的巨大考驗(yàn)。上面提出的兩個(gè)問題就是pca方法的目標(biāo)。pca主元分析方法是解決此類問題的一個(gè)有力的武器。下文將結(jié)合以上的例子提出解決方案,逐步敘述pca方法的思想和求解過程。線形代數(shù):基變換從線形代數(shù)的角度來看,pca的目標(biāo)就是使用另一組基去重新描述得到的數(shù)據(jù)空間。而新的基要能盡量揭示原有的數(shù)據(jù)間的關(guān)系。在這個(gè)例子中,沿著某軸上的運(yùn)動(dòng)是最重要的。這個(gè)維度即最重要的“主元”。pca的目標(biāo)就是找到這樣的“主元”,最大程度的去除冗余 和噪音的干擾。a. 標(biāo)準(zhǔn)正交基為了引入推導(dǎo),需要將上文的數(shù)據(jù)進(jìn)行明確的定義。在上面描述的實(shí)驗(yàn)過程中,在每一個(gè)采樣時(shí)間點(diǎn)上,每個(gè)攝像機(jī)記錄了一
6、組二維坐標(biāo),綜合三臺(tái)攝像機(jī)數(shù)據(jù),在每一個(gè)時(shí)間點(diǎn)上得到的位置數(shù)據(jù)對(duì)應(yīng)于一個(gè)六維列向量。如果以的頻率拍攝10分鐘,將得到個(gè)這樣的向量數(shù)據(jù)。 抽象一點(diǎn)來說,每一個(gè)采樣點(diǎn)數(shù)據(jù)都是在維向量空間(此例中)內(nèi)的一個(gè)向量,這里的是牽涉的變量個(gè)數(shù)。由線形代數(shù)我們知道,在維向量空間中的每一個(gè)向量都是一組正交基的線形組合。最普通的一組正交基是標(biāo)準(zhǔn)正交基,實(shí)驗(yàn)采樣的結(jié)果通常可以看作是在標(biāo)準(zhǔn)正交基下表示的。舉例來說,上例中每個(gè)攝像機(jī)記錄的數(shù)據(jù)坐標(biāo)為,這樣的基便是。那為什么不取或是其他任意的基呢?原因是,這樣的標(biāo)準(zhǔn)正交基反映了數(shù)據(jù)的采集方式。假設(shè)采集數(shù)據(jù)點(diǎn)是,一般并不會(huì)記錄(在基下),因?yàn)橐话愕挠^測(cè)者都是習(xí)慣于取攝像機(jī)的
7、屏幕坐標(biāo),即向上和向右的方向作為觀測(cè)的基準(zhǔn)。也就是說,標(biāo)準(zhǔn)正交基表現(xiàn)了數(shù)據(jù)觀測(cè)的一般方式。 在線形代數(shù)中,這組基表示為行列向量線形無關(guān)的單位矩陣。b. 基變換從更嚴(yán)格的數(shù)學(xué)定義上來說,pca回答的問題是:如何尋找到另一組正交基,它們是標(biāo)準(zhǔn)正交基的線性組合,而且能夠最好的表示數(shù)據(jù)集? 這里提出了pca方法的一個(gè)最關(guān)鍵的假設(shè):線性。這是一個(gè)非常強(qiáng)的假設(shè)條件。它使問題得到了很大程度的簡(jiǎn)化:1)數(shù)據(jù)被限制在一個(gè)向量空間中,能被一組基表示;2)隱含的假設(shè)了數(shù)據(jù)之間的連續(xù)性關(guān)系。 這樣一來數(shù)據(jù)就可以被表示為各種基的線性組合。令表示原數(shù)據(jù)集。是一個(gè)的矩陣,它的每一個(gè)列向量都表示一個(gè)時(shí)間采樣點(diǎn)上的數(shù)據(jù),在上面
8、的例子中,。表示轉(zhuǎn)換以后的新的數(shù)據(jù)集表示。是他們之間的線性轉(zhuǎn)換。(1)有如下定義:l 表示的行向量。l 表示的列向量(或者)。l 表示的列向量。公式(1)表示不同基之間的轉(zhuǎn)換,在線性代數(shù)中,它有如下的含義:Ø 是從到的轉(zhuǎn)換矩陣。(空間轉(zhuǎn)換)Ø 幾何上來說,對(duì)進(jìn)行旋轉(zhuǎn)和拉伸得到。Ø 的行向量,是一組新的基,而是原數(shù)據(jù)在這組新的基表示下得到的重新表示。下面是對(duì)最后一個(gè)含義的顯式說明:注意到的列向量:可見表示的是與中對(duì)應(yīng)列的點(diǎn)積,也就是相當(dāng)于是在對(duì)應(yīng)向量上的投影(點(diǎn)積就是投影)。所以,的行向量事實(shí)上就是一組新的基。它對(duì)原數(shù)據(jù)進(jìn)行重新表示。在一些文獻(xiàn)中,將數(shù)據(jù)成為“源”,
9、而將變換后的稱為“信號(hào)”。這是由于變換后的數(shù)據(jù)更能體現(xiàn)信號(hào)成分的原因。c. 問題在線性的假設(shè)條件下,問題轉(zhuǎn)化為尋找一組變換后的基,也就是的行向量,這些向量就是pca中所謂的“主元”。問題轉(zhuǎn)化為如下的形式:l 怎樣才能最好的表示原數(shù)據(jù)?l 的基怎樣選擇才是最好的?解決問題的關(guān)鍵是如何體現(xiàn)數(shù)據(jù)的特征。那么,什么是數(shù)據(jù)的特征,如何體現(xiàn)呢?方差和目標(biāo) “最好的表示”是什么意思呢?下面的章節(jié)將給出一個(gè)較為直觀的解釋,并增加一些額外的假設(shè)條件。在線性系統(tǒng)中,所謂的“混亂數(shù)據(jù)”通常包含以下的三種成分:噪音、旋轉(zhuǎn)以及冗余。下面將對(duì)這三種成分做出數(shù)學(xué)上的描述并針對(duì)目標(biāo)作出分析。a. 噪音和旋轉(zhuǎn)噪音對(duì)數(shù)據(jù)的影響是
10、巨大的,如果不能對(duì)噪音進(jìn)行區(qū)分,就不可能抽取數(shù)據(jù)中有用的信息。噪音的衡量有多種方式,最常見的定義是信噪比(signal-to-noise ratio),或是方差比:(2)比較大的信噪比表示數(shù)據(jù)的準(zhǔn)確度高,而信噪比低則說明數(shù)據(jù)中的噪音成分比較多。那么怎樣區(qū)分什么是信號(hào),什么是噪音呢?,變化較大的信息被認(rèn)為是信號(hào),變化較小的則是噪音。事實(shí)上,這個(gè)標(biāo)準(zhǔn)等價(jià)于一個(gè)低通的濾波器,是一種標(biāo)準(zhǔn)的去噪準(zhǔn)則。而變化的大小則是由方差來描述的。它表示了采樣點(diǎn)在平均值兩側(cè)的分布,對(duì)應(yīng)于圖表2(a)就是采樣點(diǎn)云的“胖瘦”。顯然的,方差較大,也就是較“寬”較“胖”的分布,表示了采樣點(diǎn)的主要分布趨勢(shì),是主信號(hào)或主要分量;而
11、方差較小的分布則被認(rèn)為是噪音或次要分量。圖表 2:(a)攝像機(jī)a的采集數(shù)據(jù)。圖中黑色垂直直線表示一組正交基的方向。是采樣點(diǎn)云在長(zhǎng)線方向上分布的方差,而是數(shù)據(jù)點(diǎn)在短線方向上分布的方差。(b)對(duì)的基向量進(jìn)行旋轉(zhuǎn)使snr和方差最大。假設(shè)攝像機(jī)a拍攝到的數(shù)據(jù)如圖表2(a)所示,圓圈代表采樣點(diǎn),因?yàn)檫\(yùn)動(dòng)理論上是只存在于一條直線上,所以偏離直線的分布都屬于噪音。此時(shí)描述的就是采樣點(diǎn)云在某對(duì)垂直方向上的概率分布的比值。那么,最大限度的揭示原數(shù)據(jù)的結(jié)構(gòu)和關(guān)系,找出某條潛在的,最優(yōu)的軸,事實(shí)上等價(jià)尋找一對(duì)空間內(nèi)的垂直直線(圖中黑線表示,也對(duì)應(yīng)于此空間的一組基),使得信噪比盡可能大的方向。容易看出,本例中潛在的軸
12、就是圖上的較長(zhǎng)黑線方向。那么怎樣尋找這樣一組方向呢?直接的想法是對(duì)基向量進(jìn)行旋轉(zhuǎn)。如圖表2(b)所示,隨著這對(duì)直線的轉(zhuǎn)動(dòng)以及方差的變化情況。應(yīng)于最大值的一組基,就是最優(yōu)的“主元”方向。在進(jìn)行數(shù)學(xué)中求取這組基的推導(dǎo)之前,先介紹另一個(gè)影響因素。b. 冗余有時(shí)在實(shí)驗(yàn)中引入了一些不必要的變量??赡軙?huì)兩種情況:1)該變量對(duì)結(jié)果沒有影響;2)該變量可以用其它變量表示,從而造成數(shù)據(jù)冗余。下面對(duì)這樣的冗余情況進(jìn)行分析和分類。圖表 3:可能冗余數(shù)據(jù)的頻譜圖表示。和分別是兩個(gè)不同的觀測(cè)變量。(比如例子中的,)。最佳擬合線用虛線表示。 如圖表3所示,它揭示了兩個(gè)觀測(cè)變量之間的關(guān)系。(a)圖所示的情況是低冗余的,從統(tǒng)
13、計(jì)學(xué)上說,這兩個(gè)觀測(cè)變量是相互獨(dú)立的,它們之間的信息沒有冗余。而相反的極端情況如(c),和高度相關(guān),完全可以用表示。一般來說,這種情況發(fā)生可能是因?yàn)閿z像機(jī)a和攝像機(jī)b放置的位置太近或是數(shù)據(jù)被重復(fù)記錄了,也可能是由于實(shí)驗(yàn)設(shè)計(jì)的不合理所造成的。那么對(duì)于觀測(cè)者而言,這個(gè)變量的觀測(cè)數(shù)據(jù)就是完全冗余的,應(yīng)當(dāng)去除,只用一個(gè)變量就可以表示了。這也就是pca中“降維”思想的本源。c. 協(xié)方差矩陣對(duì)于上面的簡(jiǎn)單情況,可以通過簡(jiǎn)單的線性擬合的方法來判斷各觀測(cè)變量之間是否出現(xiàn)冗余的情況,而對(duì)于復(fù)雜的情況,需要借助協(xié)方差來進(jìn)行衡量和判斷: ,分別表示不同的觀測(cè)變量所記錄的一組值,在統(tǒng)計(jì)學(xué)中,由協(xié)方差的性質(zhì)可以得到:(
14、六個(gè)觀測(cè)變量,每個(gè)觀測(cè)變量都對(duì)應(yīng)的有一組值的變化)l ,且當(dāng)且僅當(dāng)觀測(cè)變量,相互獨(dú)立。l ,當(dāng)。等價(jià)的,將,寫成行向量的形式:協(xié)方差可以表示為:(3)那么,對(duì)于一組具有個(gè)觀測(cè)變量,個(gè)采樣時(shí)間點(diǎn)的采樣數(shù)據(jù),將每個(gè)觀測(cè)變量的值寫為行向量,可以得到一個(gè)的矩陣:(4)接下來定義協(xié)方差矩陣如下:(5)容易發(fā)現(xiàn)協(xié)方差矩陣性質(zhì)如下:l 是一個(gè)的平方對(duì)稱矩陣。l 對(duì)角線上的元素是對(duì)應(yīng)的觀測(cè)變量的方差。l 非對(duì)角線上的元素是對(duì)應(yīng)的觀測(cè)變量之間的協(xié)方差。協(xié)方差矩陣包含了所有觀測(cè)變量之間的相關(guān)性度量。更重要的是,根據(jù)前兩節(jié)的說明,這些相關(guān)性度量反映了數(shù)據(jù)的噪音和冗余的程度。l 在對(duì)角線上的元素越大,表明信號(hào)越強(qiáng),變
15、量的重要性越高;元素越小則表明可能是存在的噪音或是次要變量。l 在非對(duì)角線上的元素大小則對(duì)應(yīng)于相關(guān)觀測(cè)變量對(duì)之間冗余程度的大小。一般情況下,初始數(shù)據(jù)的協(xié)方差矩陣總是不太好的,表現(xiàn)為信噪比不高且變量間相關(guān)度大。pca的目標(biāo)就是通過基變換對(duì)協(xié)方差矩陣進(jìn)行優(yōu)化,找到相關(guān)“主元”。那么,如何進(jìn)行優(yōu)化?矩陣的那些性質(zhì)是需要注意的呢?d. 協(xié)方差矩陣的對(duì)角化總結(jié)上面的章節(jié),主元分析以及協(xié)方差矩陣優(yōu)化的原則是:1)最小化變量冗余,對(duì)應(yīng)于協(xié)方差矩陣的非對(duì)角元素要盡量小;2)最大化信號(hào),對(duì)應(yīng)于要使協(xié)方差矩陣的對(duì)角線上的元素盡可能的大。因?yàn)閰f(xié)方差矩陣的每一項(xiàng)都是正值,最小值為0,所以優(yōu)化的目標(biāo)矩陣的非對(duì)角元素應(yīng)該
16、都是0,對(duì)應(yīng)于冗余最小。所以優(yōu)化的目標(biāo)矩陣應(yīng)該是一個(gè)對(duì)角陣。即只有對(duì)角線上的元素可能是非零值。同時(shí),pca假設(shè)所對(duì)應(yīng)的一組變換基必須是標(biāo)準(zhǔn)正交的,而優(yōu)化矩陣對(duì)角線上的元素越大,就說明信號(hào)的成分越大,換句話就是對(duì)應(yīng)于越重要的“主元”。對(duì)于協(xié)方差矩陣進(jìn)行對(duì)角化的方法很多。根據(jù)上面的分析,最簡(jiǎn)單最直接的算法就是在多維空間內(nèi)進(jìn)行搜索。和圖表2(a)的例子中旋轉(zhuǎn)的方法類似:1) 在維空間中進(jìn)行遍歷,找到一個(gè)方差最大的向量,令作。2) 在與垂直的向量空間中進(jìn)行遍歷,找出次大的方差對(duì)應(yīng)的向量,記作。3) 對(duì)以上過程循環(huán),直到找出全部的向量。它們生成的順序也就是“主元”的排序。這個(gè)理論上成立的算法說明了pca
17、的主要思想和過程。在這中間,牽涉到兩個(gè)重要的特性:a)轉(zhuǎn)換基是一組標(biāo)準(zhǔn)正交基。這給pca的求解帶來了很大的好處,它可以運(yùn)用線性代數(shù)的相關(guān)理論進(jìn)行快速有效的分解。這些方法將在后面提到。b)在pca的過程中,可以同時(shí)得到新的基向量所對(duì)應(yīng)的“主元排序”,利用這個(gè)重要性排序可以方便的對(duì)數(shù)據(jù)進(jìn)行光順、簡(jiǎn)化處理或是壓縮。a. pca的假設(shè)和局限pca的模型中存在諸多的假設(shè)條件,決定了它存在一定的限制,在有些場(chǎng)合可能會(huì)造成效果不好甚至失效。對(duì)于學(xué)習(xí)和掌握pca來說,理解這些內(nèi)容是非常重要的,同時(shí)也有利于理解基于改進(jìn)這些限制條件的pca的一些擴(kuò)展技術(shù)。pca的假設(shè)條件包括:1. 線形性假設(shè)。如同文章開始的例子
18、,pca的內(nèi)部模型是線性的。這也就決定了它能進(jìn)行的主元分析之間的關(guān)系也是線性的?,F(xiàn)在比較流行的kernel-pca的一類方法就是使用非線性的權(quán)值對(duì)原有pca技術(shù)的拓展。2. 使用中值和方差進(jìn)行充分統(tǒng)計(jì)。使用中值和方差進(jìn)行充分的概率分布描述的模型只限于指數(shù)型概率分布模型。(例如高斯分布),也就是說,如果我們考察的數(shù)據(jù)的概率分布并不滿足高斯分布或是指數(shù)型的概率分布,那么pca將會(huì)失效。在這種模型下,不能使用方差和協(xié)方差來很好的描述噪音和冗余,對(duì)教化之后的協(xié)方差矩陣并不能得到很合適的結(jié)果。 事實(shí)上,去除冗余的最基礎(chǔ)的方程是:其中代表概率分布的密度函數(shù)?;谶@個(gè)方程進(jìn)行冗余去除的方法被稱作獨(dú)立主元分析
19、(ica)方法(independent component analysis)。不過,所幸的是,根據(jù)中央極限定理,現(xiàn)實(shí)生活中所遇到的大部分采樣數(shù)據(jù)的概率分布都是遵從高斯分布的。所以pca仍然是一個(gè)使用于絕大部分領(lǐng)域的穩(wěn)定且有效的算法。3. 大方差向量具有較大重要性。pca方法隱含了這樣的假設(shè):數(shù)據(jù)本身具有較高的信噪比,所以具有最高方差的一維向量就可以被看作是主元,而方差較小的變化則被認(rèn)為是噪音。這是由于低通濾波器的選擇決定的。4. 主元正交。pca方法假設(shè)主元向量之間都是正交的,從而可以利用線形代數(shù)的一系列有效的數(shù)學(xué)工具進(jìn)行求解,大大提高了效率和應(yīng)用的范圍。pca求解:特征根分解 在線形代數(shù)中
20、,pca問題可以描述成以下形式:尋找一組正交基組成的矩陣,有,使得是對(duì)角陣。則的行向量(也就是一組正交基),就是數(shù)據(jù)的主元向量。 對(duì)進(jìn)行推導(dǎo): 定義,則是一個(gè)對(duì)稱陣。對(duì)進(jìn)行對(duì)角化求取特征向量得: 則是一個(gè)對(duì)角陣而則是對(duì)稱陣的特征向量排成的矩陣。這里要提出的一點(diǎn)是,是一個(gè)的矩陣,而它將有個(gè)特征向量。其中是矩陣的秩。如果,則即為退化陣。此時(shí)分解出的特征向量不能覆蓋整個(gè)空間。此時(shí)只需要在保證基的正交性的前提下,在剩余的空間中任意取得維正交向量填充的空格即可。它們將不對(duì)結(jié)果造成影響。因?yàn)榇藭r(shí)對(duì)應(yīng)于這些特征向量的特征值,也就是方差值為零。求出特征向量矩陣后我們?nèi)?,則,由線形代數(shù)可知矩陣有性質(zhì),從而進(jìn)行如
21、下計(jì)算: 可知此時(shí)的就是我們需要求得變換基。至此我們可以得到pca的結(jié)果:l 的主元即是的特征向量,也就是矩陣的行向量。l 矩陣對(duì)角線上第個(gè)元素是數(shù)據(jù)在方向的方差。我們可以得到pca求解的一般步驟:1)采集數(shù)據(jù)形成的矩陣。為觀測(cè)變量個(gè)數(shù),為采樣點(diǎn)個(gè)數(shù)。2)在每個(gè)觀測(cè)變量(矩陣行向量)上減去該觀測(cè)變量的平均值得到矩陣。3)對(duì)進(jìn)行特征分解,求取特征向量以及所對(duì)應(yīng)的特征根。總結(jié)和討論l pca技術(shù)的一大好處是對(duì)數(shù)據(jù)進(jìn)行降維的處理。我們可以對(duì)新求出的“主元”向量的重要性進(jìn)行排序,根據(jù)需要取前面最重要的部分,將后面的維數(shù)省去,可以達(dá)到降維從而簡(jiǎn)化模型或是對(duì)數(shù)據(jù)進(jìn)行壓縮的效果。同時(shí)最大程度的保持了原有數(shù)據(jù)
22、的信息。在前文的例子中,經(jīng)過pca處理后的數(shù)據(jù)只剩下了一維,也就是彈簧運(yùn)動(dòng)的那一維,從而去除了冗余的變量,揭示了實(shí)驗(yàn)數(shù)據(jù)背后的物理原理。l pca技術(shù)的一個(gè)很大的優(yōu)點(diǎn)是,它是完全無參數(shù)限制的。在pca的計(jì)算過程中完全不需要人為的設(shè)定參數(shù)或是根據(jù)任何經(jīng)驗(yàn)?zāi)P蛯?duì)計(jì)算進(jìn)行干預(yù),最后的結(jié)果只與數(shù)據(jù)相關(guān),與用戶是獨(dú)立的。但是,這一點(diǎn)同時(shí)也可以看作是缺點(diǎn)。如果用戶對(duì)觀測(cè)對(duì)象有一定的先驗(yàn)知識(shí),掌握了數(shù)據(jù)的一些特征,卻無法通過參數(shù)化等方法對(duì)處理過程進(jìn)行干預(yù),可能會(huì)得不到預(yù)期的效果,效率也不高。圖表 4:黑色點(diǎn)表示采樣數(shù)據(jù),排列成轉(zhuǎn)盤的形狀。該數(shù)據(jù)的主元是或是旋轉(zhuǎn)角。如圖表 4中的例子,pca找出的主元將是。但
23、是這顯然不是最優(yōu)和最簡(jiǎn)化的主元。之間存在著非線性的關(guān)系。根據(jù)先驗(yàn)的知識(shí)可知旋轉(zhuǎn)角是最優(yōu)的主元。則在這種情況下,pca就會(huì)失效。但是,如果加入先驗(yàn)的知識(shí),對(duì)數(shù)據(jù)進(jìn)行某種劃歸,就可以將數(shù)據(jù)轉(zhuǎn)化為以為線性的空間中。這類根據(jù)先驗(yàn)知識(shí)對(duì)數(shù)據(jù)預(yù)先進(jìn)行非線性轉(zhuǎn)換的方法就成為kernel-pca,它擴(kuò)展了pca能夠處理的問題的范圍,又可以結(jié)合一些先驗(yàn)約束,是比較流行的方法。l 有時(shí)數(shù)據(jù)的分布并不是滿足高斯分布。如圖表5所示,在非高斯分布的情況下,pca方法得出的主元可能并不是最優(yōu)的。在尋找主元時(shí)不能將方差作為衡量重要性的標(biāo)準(zhǔn)。要根據(jù)數(shù)據(jù)的分布情況選擇合適的描述完全分布的變量,然后根據(jù)概率分布式來計(jì)算兩個(gè)向量上
24、數(shù)據(jù)分布的相關(guān)性。等價(jià)的,保持主元間的正交假設(shè),尋找的主元同樣要使。這一類方法被稱為獨(dú)立主元分解(ica)。圖表 5:數(shù)據(jù)的分布并不滿足高斯分布,呈明顯的十字星狀。 這種情況下,方差最大的方向并不是最優(yōu)主元方向。l pca方法和線形代數(shù)中的奇異值分解(svd)方法有內(nèi)在的聯(lián)系,一定意義上來說,pca的解法是svd的一種變形和弱化。對(duì)于的矩陣,通過奇異值分解可以直接得到如下形式:其中是一個(gè)的矩陣,是一個(gè)的矩陣,而是的對(duì)角陣。形式如下:其中,是原矩陣的奇異值。由簡(jiǎn)單推導(dǎo)可知,如果對(duì)奇異值分解加以約束:的向量必須正交,則矩陣即為pca的特征值分解中的,則說明pca并不一定需要求取,也可以直接對(duì)原數(shù)據(jù)
25、矩陣進(jìn)行svd奇異值分解即可得到特征向量矩陣,也就是主元向量。 計(jì)算機(jī)視學(xué)領(lǐng)域的應(yīng)用pca方法是一個(gè)具有很高普適性的方法,被廣泛應(yīng)用于多個(gè)領(lǐng)域。這里要特別介紹的是它在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用,包括如何對(duì)圖像進(jìn)行處理以及在人臉識(shí)別方面的特別作用。a. 數(shù)據(jù)表示如果要將pca方法應(yīng)用于視覺領(lǐng)域,最基本的問題就是圖像的表達(dá)。如果是一幅大小的圖像,它的數(shù)據(jù)將被表達(dá)為一個(gè)維的向量:在這里圖像的結(jié)構(gòu)將被打亂,每一個(gè)像素點(diǎn)被看作是一維,最直接的方法就是將圖像的像素一行行的頭尾相接成一個(gè)一維向量。還必須要注意的是,每一維上的數(shù)據(jù)對(duì)應(yīng)于對(duì)應(yīng)像素的亮度、灰度或是色彩值,但是需要?jiǎng)潥w到同一緯度上。b. 模式識(shí)別假設(shè)數(shù)據(jù)
26、源是一系列的20幅圖像,每幅圖像都是大小,那么它們都可以表示為一個(gè)維的向量。將它們排成一個(gè)矩陣: 然后對(duì)它們進(jìn)行pca處理,找出主元。為什么這樣做呢?據(jù)人臉識(shí)別的例子來說,數(shù)據(jù)源是20幅不同的人臉圖像,pca方法的實(shí)質(zhì)是尋找這些圖像中的相似的維度,因?yàn)槿四樀慕Y(jié)構(gòu)有極大的相似性(特別是同一個(gè)人的人臉圖像),則使用pca方法就可以很容易的提取出人臉的內(nèi)在結(jié)構(gòu),也及時(shí)所謂“模式”,如果有新的圖像需要與原有圖像比較,就可以在變換后的主元維度上進(jìn)行比較,則可衡量新圖與原有數(shù)據(jù)集的相似度如何。對(duì)這樣的一組人臉圖像進(jìn)行處理,提取其中最重要的主元,即可大致描述人臉的結(jié)構(gòu)信息,稱作“特征臉”(eigenface
27、)。這就是人臉識(shí)別中的重要方法“特征臉方法”的理論根據(jù)。近些年來,基于對(duì)一般pca方法的改進(jìn),結(jié)合ica、kernel-pca等方法,在主元分析中加入關(guān)于人臉圖像的先驗(yàn)知識(shí),則能得到更好的效果。c. 圖像信息壓縮使用pca方法進(jìn)行圖像壓縮,又被稱為hotelling算法,或者karhunenand leove(kl)變換。這是視覺領(lǐng)域內(nèi)圖像處理的經(jīng)典算法之一。具體算法與上述過程相同,使用pca方法處理一個(gè)圖像序列,提取其中的主元。然后根據(jù)主元的排序去除其中次要的分量,然后變換回原空間,則圖像序列因?yàn)榫S數(shù)降低得到很大的壓縮。例如上例中取出次要的5個(gè)維度,則圖像就被壓縮了1/4。但是這種有損的壓縮
28、方法同時(shí)又保持了其中最“重要”的信息,是一種非常重要且有效的算法。 參考文獻(xiàn)1 lindsay i smith. (2002) “a tutorial on principal components analysis” http:/csnet.otago.ac.nz/cosc453/student_ tutorials/principal_components.pdf2 jonathon shlens. (2005) “a tutorial on principal component analysis”/shlens/pub/notes/pca.p
29、df3 will, todd (1999) “introduction to the singular value decomposition” davidson college. /academic/math/will/svd/index.html4 bell, anthony and sejnowski, terry. (1997) “the independent components of natural scenes are edgefilters.” vision research 37(23), 3327-3338.5 t.f. coo
30、tes and c.j.taylor (2004) “statistical models of appearance for computer vision” http:/www.isbe.man.ac.uk/bim/models/app_models.pdf6 張翠平 蘇光大 (2000)“人臉識(shí)別技術(shù)綜述”中國圖像圖形學(xué)報(bào)第五卷a版第11期7 何國輝 甘俊英 (2006)“pca類內(nèi)平均臉法在人臉識(shí)別中的應(yīng)用研究”計(jì)算機(jī)應(yīng)用研究2006年第三期8 牛麗平 付仲良 魏文利 (2006)“人臉識(shí)別技術(shù)研究”電腦開發(fā)與應(yīng)用2006年第五期9 wikipedia “principal compo
31、nents analysis”詞條解釋 from a 補(bǔ)充主成分分析(principal components analysis)-最大方差解釋 在這一篇之前的內(nèi)容是factor analysis,由于非常理論,打算學(xué)完整個(gè)課程后再寫。在寫這篇之前,我閱讀了pca、svd和lda。這幾個(gè)模型相近,卻都有自己的特點(diǎn)。本篇打算先介紹pca,至于他們之間的關(guān)系,只能是邊學(xué)邊體會(huì)了。pca以前也叫做principal factor analysis。1. 問題 真實(shí)的訓(xùn)練數(shù)據(jù)總是存在各種各樣的問題:1、比如
32、拿到一個(gè)汽車的樣本,里面既有以“千米/每小時(shí)”度量的最大速度特征,也有“英里/小時(shí)”的最大速度特征,顯然這兩個(gè)特征有一個(gè)多余。2、拿到一個(gè)數(shù)學(xué)系的本科生期末考試成績(jī)單,里面有三列,一列是對(duì)數(shù)學(xué)的興趣程度,一列是復(fù)習(xí)時(shí)間,還有一列是考試成績(jī)。我們知道要學(xué)好數(shù)學(xué),需要有濃厚的興趣,所以第二項(xiàng)與第一項(xiàng)強(qiáng)相關(guān),第三項(xiàng)和第二項(xiàng)也是強(qiáng)相關(guān)。那是不是可以合并第一項(xiàng)和第二項(xiàng)呢?3、拿到一個(gè)樣本,特征非常多,而樣例特別少,這樣用回歸去直接擬合非常困難,容易過度擬合。比如北京的房?jī)r(jià):假設(shè)房子的特征是(大小、位置、朝向、是否學(xué)區(qū)房、建造年代、是否二手、層數(shù)、所在層數(shù)),搞了這么多特征,結(jié)果只有不到十個(gè)房子的樣例。要
33、擬合房子特征->房?jī)r(jià)的這么多特征,就會(huì)造成過度擬合。4、這個(gè)與第二個(gè)有點(diǎn)類似,假設(shè)在ir中我們建立的文檔-詞項(xiàng)矩陣中,有兩個(gè)詞項(xiàng)為“l(fā)earn”和“study”,在傳統(tǒng)的向量空間模型中,認(rèn)為兩者獨(dú)立。然而從語義的角度來講,兩者是相似的,而且兩者出現(xiàn)頻率也類似,是不是可以合成為一個(gè)特征呢?5、 在信號(hào)傳輸過程中,由于信道不是理想的,信道另一端收到的信號(hào)會(huì)有噪音擾動(dòng),那么怎么濾去這些噪音呢? 回顧我們之前介紹的模型選擇和規(guī)則化,里面談到的特征選擇的問題。但在那篇中要剔除的特征主要是和類標(biāo)簽無關(guān)的特征。比如“學(xué)生的名字”就和他的“成績(jī)”無關(guān),使用
34、的是互信息的方法。 而這里的特征很多是和類標(biāo)簽有關(guān)的,但里面存在噪聲或者冗余。在這種情況下,需要一種特征降維的方法來減少特征數(shù),減少噪音和冗余,減少過度擬合的可能性。 下面探討一種稱作主成分分析(pca)的方法來解決部分上述問題。pca的思想是將n維特征映射到k維上(k<n),這k維是全新的正交特征。這k維特征稱為主元,是重新構(gòu)造出來的k維特征,而不是簡(jiǎn)單地從n維特征中去除其余n-k維特征。2. pca計(jì)算過程 首先介紹pca的計(jì)算過程:
35、0; 假設(shè)我們得到的2維數(shù)據(jù)如下: 行代表了樣例,列代表特征,這里有10個(gè)樣例,每個(gè)樣例兩個(gè)特征。可以這樣認(rèn)為,有10篇文檔,x是10篇文檔中“l(fā)earn”出現(xiàn)的tf-idf,y是10篇文檔中“study”出現(xiàn)的tf-idf。也可以認(rèn)為有10輛汽車,x是千米/小時(shí)的速度,y是英里/小時(shí)的速度,等等。 第一步分別求x和y的平均值,然后對(duì)于所有的樣例,都減去對(duì)應(yīng)的均值。這里x的均值是1.81,y的均
36、值是1.91,那么一個(gè)樣例減去均值后即為(0.69,0.49),得到 第二步,求特征協(xié)方差矩陣,如果數(shù)據(jù)是3維,那么協(xié)方差矩陣是 這里只有x和y,求解得 對(duì)角線上分別是x和y的方差,非對(duì)角線上是協(xié)方差。協(xié)方差大于0表示x和y若有一個(gè)增,另一個(gè)也增;小于0表示一個(gè)增,
37、一個(gè)減;協(xié)方差為0時(shí),兩者獨(dú)立。協(xié)方差絕對(duì)值越大,兩者對(duì)彼此的影響越大,反之越小。 第三步,求協(xié)方差的特征值和特征向量,得到 上面是兩個(gè)特征值,下面是對(duì)應(yīng)的特征向量,特征值0.0490833989對(duì)應(yīng)特征向量為,這里的特征向量都?xì)w一化為單位向量。 第四步,將特征值按照從大到小的順序排序,選擇其中最大的k個(gè),然后將其對(duì)應(yīng)的k個(gè)特征向量分別作為列向量組成特征向量矩陣。
38、; 這里特征值只有兩個(gè),我們選擇其中最大的那個(gè),這里是1.28402771,對(duì)應(yīng)的特征向量是。 第五步,將樣本點(diǎn)投影到選取的特征向量上。假設(shè)樣例數(shù)為m,特征數(shù)為n,減去均值后的樣本矩陣為dataadjust(m*n),協(xié)方差矩陣是n*n,選取的k個(gè)特征向量組成的矩陣為eigenvectors(n*k)。那么投影后的數(shù)據(jù)finaldata為 這里是 finald
39、ata(10*1) = dataadjust(10*2矩陣)×特征向量 得到結(jié)果是 這樣,就將原始樣例的n維特征變成了k維,這k維就是原始特征在k維上的投影。 上面的數(shù)據(jù)可以認(rèn)為是learn和study特征融合為一個(gè)新的特征叫做ls特征,該特征基本上代表了這兩個(gè)特征。 上述過程有個(gè)圖描述:
40、 正號(hào)表示預(yù)處理后的樣本點(diǎn),斜著的兩條線就分別是正交的特征向量(由于協(xié)方差矩陣是對(duì)稱的,因此其特征向量正交),最后一步的矩陣乘法就是將原始樣本點(diǎn)分別往特征向量對(duì)應(yīng)的軸上做投影。 如果取的k=2,那么結(jié)果是 這就是經(jīng)過pca處理后的樣本數(shù)據(jù),水平軸(上面舉例為ls特征)基本上可以代表全部樣本點(diǎn)。整個(gè)過程看起來就像將坐標(biāo)系做了旋轉(zhuǎn),當(dāng)然二維可以圖形化表示,高維就不行了。上面的如果k=1
41、,那么只會(huì)留下這里的水平軸,軸上是所有點(diǎn)在該軸的投影。 這樣pca的過程基本結(jié)束。在第一步減均值之后,其實(shí)應(yīng)該還有一步對(duì)特征做方差歸一化。比如一個(gè)特征是汽車速度(0到100),一個(gè)是汽車的座位數(shù)(2到6),顯然第二個(gè)的方差比第一個(gè)小。因此,如果樣本特征中存在這種情況,那么在第一步之后,求每個(gè)特征的標(biāo)準(zhǔn)差,然后對(duì)每個(gè)樣例在該特征下的數(shù)據(jù)除以。 歸納一下,使用我們之前熟悉的表示方法,在求協(xié)方差之前的步驟是: &
42、#160; 其中是樣例,共m個(gè),每個(gè)樣例n個(gè)特征,也就是說是n維向量。是第i個(gè)樣例的第j個(gè)特征。是樣例均值。是第j個(gè)特征的標(biāo)準(zhǔn)差。 整個(gè)pca過程貌似及其簡(jiǎn)單,就是求協(xié)方差的特征值和特征向量,然后做數(shù)據(jù)轉(zhuǎn)換。但是有沒有覺得很神奇,為什么求協(xié)方差的特征向量就是最理想的k維向量?其背后隱藏的意義是什么?整個(gè)pca的意義是什么?3. pca理論基礎(chǔ) 要解釋為什么協(xié)方差矩陣的特征向量就是k維理想特征,我看到的有三個(gè)理論:分別是最大方差理論、最小錯(cuò)誤理論和坐標(biāo)軸相關(guān)度理論。這里簡(jiǎn)單探討前兩種,最后一種在討論p
43、ca意義時(shí)簡(jiǎn)單概述。3.1 最大方差理論 在信號(hào)處理中認(rèn)為信號(hào)具有較大的方差,噪聲有較小的方差,信噪比就是信號(hào)與噪聲的方差比,越大越好。如前面的圖,樣本在橫軸上的投影方差較大,在縱軸上的投影方差較小,那么認(rèn)為縱軸上的投影是由噪聲引起的。因此我們認(rèn)為,最好的k維特征是將n維樣本點(diǎn)轉(zhuǎn)換為k維后,每一維上的樣本方差都很大。 比如下圖有5個(gè)樣本點(diǎn):(已經(jīng)做過預(yù)處理,均值為0,特征方差歸一) 下面將樣本
44、投影到某一維上,這里用一條過原點(diǎn)的直線表示(前處理的過程實(shí)質(zhì)是將原點(diǎn)移到樣本點(diǎn)的中心點(diǎn))。 假設(shè)我們選擇兩條不同的直線做投影,那么左右兩條中哪個(gè)好呢?根據(jù)我們之前的方差最大化理論,左邊的好,因?yàn)橥队昂蟮臉颖军c(diǎn)之間方差最大。 這里先解釋一下投影的概念: 紅色點(diǎn)表示樣例,藍(lán)色點(diǎn)表示在u上的投影,u是直線的斜率也是直線的方向向量,而且是單位
45、向量。藍(lán)色點(diǎn)是在u上的投影點(diǎn),離原點(diǎn)的距離是(即或者)由于這些樣本點(diǎn)(樣例)的每一維特征均值都為0,因此投影到u上的樣本點(diǎn)(只有一個(gè)到原點(diǎn)的距離值)的均值仍然是0。 回到上面左右圖中的左圖,我們要求的是最佳的u,使得投影后的樣本點(diǎn)方差最大。 由于投影后均值為0,因此方差為: 中間那部分很熟悉啊,不就是樣本特征的協(xié)方差矩陣么(的均值為0,一般協(xié)方差矩陣都除以m-1,這里用m)。
46、60; 用來表示,表示,那么上式寫作 由于u是單位向量,即,上式兩邊都左乘u得, 即 we got it!就是的特征值,u是特征向量。最佳的投影直線是特征值最大時(shí)對(duì)應(yīng)的特征向量,其次是第二大對(duì)應(yīng)的特征向量,依次類推。 因此,我們只需要對(duì)協(xié)方差矩陣進(jìn)行特征值分解,得到的前k大特征值對(duì)應(yīng)的特征向量就是最佳的k維新特
47、征,而且這k維新特征是正交的。得到前k個(gè)u以后,樣例通過以下變換可以得到新的樣本。 其中的第j維就是在上的投影。 通過選取最大的k個(gè)u,使得方差較小的特征(如噪聲)被丟棄。 這是其中一種對(duì)pca的解釋,第二種是錯(cuò)誤最小化,放在下一篇介紹。3.2 最小平方誤差理論 假設(shè)有這樣的二維樣本點(diǎn)(
48、紅色點(diǎn)),回顧我們前面探討的是求一條直線,使得樣本點(diǎn)投影到直線上的點(diǎn)的方差最大。本質(zhì)是求直線,那么度量直線求的好不好,不僅僅只有方差最大化的方法。再回想我們最開始學(xué)習(xí)的線性回歸等,目的也是求一個(gè)線性函數(shù)使得直線能夠最佳擬合樣本點(diǎn),那么我們能不能認(rèn)為最佳的直線就是回歸后的直線呢?回歸時(shí)我們的最小二乘法度量的是樣本點(diǎn)到直線的坐標(biāo)軸距離。比如這個(gè)問題中,特征是x,類標(biāo)簽是y?;貧w時(shí)最小二乘法度量的是距離d。如果使用回歸方法來度量最佳直線,那么就是直接在原始樣本上做回歸了,跟特征選擇就沒什么關(guān)系了。 因此,我們打算選用另外一種評(píng)價(jià)直線好壞的方法,使用點(diǎn)到
49、直線的距離d來度量。 現(xiàn)在有n個(gè)樣本點(diǎn),每個(gè)樣本點(diǎn)為m維(這節(jié)內(nèi)容中使用的符號(hào)與上面的不太一致,需要重新理解符號(hào)的意義)。將樣本點(diǎn)在直線上的投影記為,那么我們就是要最小化 這個(gè)公式稱作最小平方誤差(least squared error)。 而確定一條直線,一般只需要確定一個(gè)點(diǎn),并且確定方向即可。 第一步確定點(diǎn):
50、 假設(shè)要在空間中找一點(diǎn)來代表這n個(gè)樣本點(diǎn),“代表”這個(gè)詞不是量化的,因此要量化的話,我們就是要找一個(gè)m維的點(diǎn),使得 最小。其中是平方錯(cuò)誤評(píng)價(jià)函數(shù)(squared-error criterion function),假設(shè)m為n個(gè)樣本點(diǎn)的均值: 那么平方錯(cuò)誤可以寫作:
51、 后項(xiàng)與無關(guān),看做常量,而,因此最小化時(shí), 是樣本點(diǎn)均值。 第二步確定方向: 我們從拉出要求的直線(這條直線要過點(diǎn)m),假設(shè)直線的方向是單位向量e。那么直線上任意一點(diǎn),比如就可以用點(diǎn)m和e來表示 其中是到點(diǎn)m的距離。
52、160; 我們重新定義最小平方誤差: 這里的k只是相當(dāng)于i。就是最小平方誤差函數(shù),其中的未知參數(shù)是和e。 實(shí)際上是求的最小值。首先將上式展開: 我們首先固定e,將其看做是常量,然后對(duì)進(jìn)行求導(dǎo),得 這個(gè)結(jié)果
53、意思是說,如果知道了e,那么將與e做內(nèi)積,就可以知道了在e上的投影離m的長(zhǎng)度距離,不過這個(gè)結(jié)果不用求都知道。 然后是固定,對(duì)e求偏導(dǎo)數(shù),我們先將公式(8)代入,得 其中 與協(xié)方差矩陣類似,只是缺少個(gè)分母n-1,我們稱之為散列矩陣(scatter matrix)。 然后可以對(duì)e求偏導(dǎo)數(shù),但是e需要首先滿足,引入拉格朗日乘子,來使最大(最?。?,令
54、60; 求偏導(dǎo) 這里存在對(duì)向量求導(dǎo)數(shù)的技巧,方法這里不多做介紹??梢匀タ匆恍╆P(guān)于矩陣微積分的資料,這里求導(dǎo)時(shí)可以將看作是,將看做是。 導(dǎo)數(shù)等于0時(shí),得 兩邊除以n-1就變成了,對(duì)協(xié)方差矩陣求特征值向量了。 從不同的思
55、路出發(fā),最后得到同一個(gè)結(jié)果,對(duì)協(xié)方差矩陣求特征向量,求得后特征向量上就成為了新的坐標(biāo),如下圖: 這時(shí)候點(diǎn)都聚集在新的坐標(biāo)軸周圍,因?yàn)槲覀兪褂玫淖钚∑椒秸`差的意義就在此。4. pca理論意義 pca將n個(gè)特征降維到k個(gè),可以用來進(jìn)行數(shù)據(jù)壓縮,如果100維的向量最后可以用10維來表示,那么壓縮率為90%。同樣圖像處理領(lǐng)域的kl變換使用pca做圖像壓縮。但pca要保證降維后,還要保證數(shù)據(jù)的特性損失最小。再看回顧一下pca的效果。經(jīng)過pca處理后,
56、二維數(shù)據(jù)投影到一維上可以有以下幾種情況: 我們認(rèn)為左圖好,一方面是投影后方差最大,一方面是點(diǎn)到直線的距離平方和最小,而且直線過樣本點(diǎn)的中心點(diǎn)。為什么右邊的投影效果比較差?直覺是因?yàn)樽鴺?biāo)軸之間相關(guān),以至于去掉一個(gè)坐標(biāo)軸,就會(huì)使得坐標(biāo)點(diǎn)無法被單獨(dú)一個(gè)坐標(biāo)軸確定。 pca得到的k個(gè)坐標(biāo)軸實(shí)際上是k個(gè)特征向量,由于協(xié)方差矩陣對(duì)稱,因此k個(gè)特征向量正交??聪旅娴挠?jì)算過程。 假設(shè)我們還是用來表示樣例,m個(gè)
57、樣例,n個(gè)特征。特征向量為e,表示第i個(gè)特征向量的第1維。那么原始樣本特征方程可以用下面式子來表示: 前面兩個(gè)矩陣乘積就是協(xié)方差矩陣(除以m后),原始的樣本矩陣a是第二個(gè)矩陣m*n。 上式可以簡(jiǎn)寫為 我們最后得到的投影結(jié)果是,e是k個(gè)特征向量組成的矩陣,展開如下: 得到的新的樣例矩陣就是
58、m個(gè)樣例到k個(gè)特征向量的投影,也是這k個(gè)特征向量的線性組合。e之間是正交的。從矩陣乘法中可以看出,pca所做的變換是將原始樣本點(diǎn)(n維),投影到k個(gè)正交的坐標(biāo)系中去,丟棄其他維度的信息。舉個(gè)例子,假設(shè)宇宙是n維的(霍金說是13維的),我們得到銀河系中每個(gè)星星的坐標(biāo)(相對(duì)于銀河系中心的n維向量),然而我們想用二維坐標(biāo)去逼近這些樣本點(diǎn),假設(shè)算出來的協(xié)方差矩陣的特征向量分別是圖中的水平和豎直方向,那么我們建議以銀河系中心為原點(diǎn)的x和y坐標(biāo)軸,所有的星星都投影到x和y上,得到下面的圖片。然而我們丟棄了每個(gè)星星離我們的遠(yuǎn)近距離等信息。 5. 總結(jié)
59、與討論 這一部分來自 pca技術(shù)的一大好處是對(duì)數(shù)據(jù)進(jìn)行降維的處理。我們可以對(duì)新求出的“主元”向量的重要性進(jìn)行排序,根據(jù)需要取前面最重要的部分,將后面的維數(shù)省去,可以達(dá)到降維從而簡(jiǎn)化模型或是對(duì)數(shù)據(jù)進(jìn)行壓縮的效果。同時(shí)最大程度的保持了原有數(shù)據(jù)的信息。 pca技術(shù)的一個(gè)很大的優(yōu)點(diǎn)是,它是完全無參數(shù)限制的。在pca的計(jì)算過程中完全不需要人為的設(shè)定參數(shù)或是根據(jù)任何經(jīng)驗(yàn)?zāi)P蛯?duì)計(jì)算進(jìn)行干預(yù),最后的結(jié)果只與數(shù)據(jù)相關(guān),與用戶是獨(dú)立的。 但是,這一點(diǎn)同時(shí)也可以看
60、作是缺點(diǎn)。如果用戶對(duì)觀測(cè)對(duì)象有一定的先驗(yàn)知識(shí),掌握了數(shù)據(jù)的一些特征,卻無法通過參數(shù)化等方法對(duì)處理過程進(jìn)行干預(yù),可能會(huì)得不到預(yù)期的效果,效率也不高。 圖表 4:黑色點(diǎn)表示采樣數(shù)據(jù),排列成轉(zhuǎn)盤的形狀。 容易想象,該數(shù)據(jù)的主元是或是旋轉(zhuǎn)角。 如圖表 4中的例子,pca找出的主元將是。但是這顯然不是最優(yōu)和最簡(jiǎn)化的主元。之間存在著非線性的關(guān)系。根據(jù)先驗(yàn)的知識(shí)可知旋轉(zhuǎn)角是最
61、優(yōu)的主元(類比極坐標(biāo))。則在這種情況下,pca就會(huì)失效。但是,如果加入先驗(yàn)的知識(shí),對(duì)數(shù)據(jù)進(jìn)行某種劃歸,就可以將數(shù)據(jù)轉(zhuǎn)化為以為線性的空間中。這類根據(jù)先驗(yàn)知識(shí)對(duì)數(shù)據(jù)預(yù)先進(jìn)行非線性轉(zhuǎn)換的方法就成為kernel-pca,它擴(kuò)展了pca能夠處理的問題的范圍,又可以結(jié)合一些先驗(yàn)約束,是比較流行的方法。 有時(shí)數(shù)據(jù)的分布并不是滿足高斯分布。如圖表 5所示,在非高斯分布的情況下,pca方法得出的主元可能并不是最優(yōu)的。在尋找主元時(shí)不能將方差作為衡量重要性的標(biāo)準(zhǔn)。要根據(jù)數(shù)據(jù)的分布情況選擇合適的描述完全分布的變量,然后根據(jù)概率分布式 &
62、#160; 來計(jì)算兩個(gè)向量上數(shù)據(jù)分布的相關(guān)性。等價(jià)的,保持主元間的正交假設(shè),尋找的主元同樣要使。這一類方法被稱為獨(dú)立主元分解(ica)。 圖表 5:數(shù)據(jù)的分布并不滿足高斯分布,呈明顯的十字星狀。 這種情況下,方差最大的方向并不是最優(yōu)主元方向。 另外pca還可以用于預(yù)測(cè)矩陣中缺失的元素。獨(dú)立成分分析(in
63、dependent component analysis)1. 問題: 1、上節(jié)提到的pca是一種數(shù)據(jù)降維的方法,但是只對(duì)符合高斯分布的樣本點(diǎn)比較有效,那么對(duì)于其他分布的樣本,有沒有主元分解的方法呢? 2、經(jīng)典的雞尾酒宴會(huì)問題(cocktail party problem)。假設(shè)在party中有n個(gè)人,他們可以同時(shí)說話,我們也在房間中一些角落里共放置了n個(gè)聲音接收器(microphone)用來記錄聲音。宴會(huì)過后,我們從n個(gè)麥克風(fēng)中得到了一組數(shù)據(jù),i表示采樣的時(shí)間順序,也就是說共得到了m組采樣,每一組
64、采樣都是n維的。我們的目標(biāo)是單單從這m組采樣數(shù)據(jù)中分辨出每個(gè)人說話的信號(hào)。 將第二個(gè)問題細(xì)化一下,有n個(gè)信號(hào)源,每一維都是一個(gè)人的聲音信號(hào),每個(gè)人發(fā)出的聲音信號(hào)獨(dú)立。a是一個(gè)未知的混合矩陣(mixing matrix),用來組合疊加信號(hào)s,那么 x的意義在上文解釋過,這里的x不是一個(gè)向量,是一個(gè)矩陣。其中每個(gè)列向量是, 表示成圖就是 &
65、#160; 這張圖來自 的每個(gè)分量都由的分量線性表示。a和s都是未知的,x是已知的,我們要想辦法根據(jù)x來推出s。這個(gè)過程也稱作為盲信號(hào)分離。 令,那么 將w表示成 其中,其實(shí)就是將寫
66、成行向量形式。那么得到: 2. ica的不確定性(ica ambiguities) 由于w和s都不確定,那么在沒有先驗(yàn)知識(shí)的情況下,無法同時(shí)確定這兩個(gè)相關(guān)參數(shù)。比如上面的公式s=wx。當(dāng)w擴(kuò)大兩倍時(shí),s只需要同時(shí)擴(kuò)大兩倍即可,等式仍然滿足,因此無法得到唯一的s。同時(shí)如果將人的編號(hào)打亂,變成另外一個(gè)順序,如上圖的藍(lán)色節(jié)點(diǎn)的編號(hào)變?yōu)?,2,1,那么只需要調(diào)換a的列向量順序即可,因此也無法單獨(dú)確定s。這兩種情況稱為原信號(hào)不確定。 還有一種ica不適
67、用的情況,那就是信號(hào)不能是高斯分布的。假設(shè)只有兩個(gè)人發(fā)出的聲音信號(hào)符合多值正態(tài)分布,i是2*2的單位矩陣,s的概率密度函數(shù)就不用說了吧,以均值0為中心,投影面是橢圓的山峰狀(參見多值高斯分布)。因?yàn)?,因此,x也是高斯分布的,均值為0,協(xié)方差為。 令r是正交陣,。如果將a替換成a。那么。s分布沒變,因此x仍然是均值為0,協(xié)方差。 因此,不管混合矩陣是a還是a,x的分布情況是一樣的,那么就無法確定混合矩陣,也就無法確定原信號(hào)。3. 密度函數(shù)和線性變換 在討論ica具體算法之前,我們先來回顧一下概率和線性代數(shù)里的知識(shí)。 假設(shè)我們的隨機(jī)變量s有概率密度函數(shù)(連續(xù)值是概率密度函數(shù),離散值是概率)。為了簡(jiǎn)單,我們?cè)偌僭O(shè)s是實(shí)數(shù),還有一個(gè)隨機(jī)變量x=as,a和x都是實(shí)數(shù)。令是x的概率密度,那么怎么求? 令,首先將式子變換成,然后得到,求解完畢??上н@種方法是錯(cuò)誤的。比如s符合均勻分布的話(),那么s的概率密度是,現(xiàn)在令a=2,即x=
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度酒吧連鎖店加盟經(jīng)營(yíng)合同
- 二零二五年度網(wǎng)絡(luò)安全公司員工解除勞動(dòng)合同標(biāo)準(zhǔn)模板
- 二零二五年度私人房產(chǎn)買賣與房產(chǎn)交易全程顧問服務(wù)合同
- 2024藥店連鎖品牌店員勞動(dòng)合同范本3篇
- 2025版土地資源整合與開發(fā)合同協(xié)議書范本3篇
- 二零二五版民營(yíng)醫(yī)院科研合作與成果轉(zhuǎn)化合同4篇
- 2025版圖書批發(fā)市場(chǎng)加盟與銷售合作協(xié)議3篇
- 室內(nèi)設(shè)計(jì)公司2025年度技術(shù)轉(zhuǎn)讓合同2篇
- 二零二五年度二手房買賣居間服務(wù)與法律咨詢保障合同正本4篇
- 2025年度智能設(shè)備租賃合同范本6篇
- 2024年高考語文備考之常考作家作品(下):中國現(xiàn)當(dāng)代、外國
- 《裝配式蒸壓加氣混凝土外墻板保溫系統(tǒng)構(gòu)造》中
- T-CSTM 01124-2024 油氣管道工程用工廠預(yù)制袖管三通
- 2019版新人教版高中英語必修+選擇性必修共7冊(cè)詞匯表匯總(帶音標(biāo))
- 新譯林版高中英語必修二全冊(cè)短語匯總
- 基于自適應(yīng)神經(jīng)網(wǎng)絡(luò)模糊推理系統(tǒng)的游客規(guī)模預(yù)測(cè)研究
- 河道保潔服務(wù)投標(biāo)方案(完整技術(shù)標(biāo))
- 品管圈(QCC)案例-縮短接臺(tái)手術(shù)送手術(shù)時(shí)間
- 精神科病程記錄
- 閱讀理解特訓(xùn)卷-英語四年級(jí)上冊(cè)譯林版三起含答案
- 清華大學(xué)考博英語歷年真題詳解
評(píng)論
0/150
提交評(píng)論