![一篇深入PCA的好文_第1頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/18/3259bfd2-9174-4eb9-9862-7263792c5a50/3259bfd2-9174-4eb9-9862-7263792c5a501.gif)
![一篇深入PCA的好文_第2頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/18/3259bfd2-9174-4eb9-9862-7263792c5a50/3259bfd2-9174-4eb9-9862-7263792c5a502.gif)
![一篇深入PCA的好文_第3頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/18/3259bfd2-9174-4eb9-9862-7263792c5a50/3259bfd2-9174-4eb9-9862-7263792c5a503.gif)
![一篇深入PCA的好文_第4頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/18/3259bfd2-9174-4eb9-9862-7263792c5a50/3259bfd2-9174-4eb9-9862-7263792c5a504.gif)
![一篇深入PCA的好文_第5頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/18/3259bfd2-9174-4eb9-9862-7263792c5a50/3259bfd2-9174-4eb9-9862-7263792c5a505.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、看到JerryLead 寫的一篇講解PCA的博文,主成分分析(Principal components analysis)-最大方差解釋,真心覺得好。讓我對(duì)PCA有一個(gè)形象的理解。下面是原文:主成分分析(Principal components analysis)-最大方差解釋 在這一篇之前的內(nèi)容是Factor Analysis,由于非常理論,打算學(xué)完整個(gè)課程后再寫。在寫這篇之前,我閱讀了PCA、SVD和LDA。這幾個(gè)模型相近,卻都有自己的特點(diǎn)。本篇打算先介紹PCA,至于他們之間的關(guān)系,只能是邊學(xué)邊體會(huì)了。PCA以前也叫做Princip
2、al factor analysis。1. 問題 真實(shí)的訓(xùn)練數(shù)據(jù)總是存在各種各樣的問題:1、 比如拿到一個(gè)汽車的樣本,里面既有以“千米/每小時(shí)”度量的最大速度特征,也有“英里/小時(shí)”的最大速度特征,顯然這兩個(gè)特征有一個(gè)多余。2、 拿到一個(gè)數(shù)學(xué)系的本科生期末考試成績(jī)單,里面有三列,一列是對(duì)數(shù)學(xué)的興趣程度,一列是復(fù)習(xí)時(shí)間,還有一列是考試成績(jī)。我們知道要學(xué)好數(shù)學(xué),需要有濃厚的興趣,所以第二項(xiàng)與第一項(xiàng)強(qiáng)相關(guān),第三項(xiàng)和第二項(xiàng)也是強(qiáng)相關(guān)。那是不是可以合并第一項(xiàng)和第二項(xiàng)呢?3、 拿到一個(gè)樣本,特征非常多,而樣例特別少,這樣用回歸去直接擬合非常困難,容易過度擬合
3、。比如北京的房?jī)r(jià):假設(shè)房子的特征是(大小、位置、朝向、是否學(xué)區(qū)房、建造年代、是否二手、層數(shù)、所在層數(shù)),搞了這么多特征,結(jié)果只有不到十個(gè)房子的樣例。要擬合房子特征->房?jī)r(jià)的這么多特征,就會(huì)造成過度擬合。4、 這個(gè)與第二個(gè)有點(diǎn)類似,假設(shè)在IR中我們建立的文檔-詞項(xiàng)矩陣中,有兩個(gè)詞項(xiàng)為“l(fā)earn”和“study”,在傳統(tǒng)的向量空間模型中,認(rèn)為兩者獨(dú)立。然而從語義的角度來講,兩者是相似的,而且兩者出現(xiàn)頻率也類似,是不是可以合成為一個(gè)特征呢?5、 在信號(hào)傳輸過程中,由于信道不是理想的,信道另一端收到的信號(hào)會(huì)有噪音擾動(dòng),那么怎么濾去這些噪音呢? 回
4、顧我們之前介紹的模型選擇和規(guī)則化,里面談到的特征選擇的問題。但在那篇中要剔除的特征主要是和類標(biāo)簽無關(guān)的特征。比如“學(xué)生的名字”就和他的“成績(jī)”無關(guān),使用的是互信息的方法。 而這里的特征很多是和類標(biāo)簽有關(guān)的,但里面存在噪聲或者冗余。在這種情況下,需要一種特征降維的方法來減少特征數(shù),減少噪音和冗余,減少過度擬合的可能性。 下面探討一種稱作主成分分析(PCA)的方法來解決部分上述問題。PCA的思想是將n維特征映射到k維上(k<n),這k維是全新的正交特征。這k維特征稱為主元,是重新構(gòu)造出來的k維特征
5、,而不是簡(jiǎn)單地從n維特征中去除其余n-k維特征。2. PCA計(jì)算過程 首先介紹PCA的計(jì)算過程: 假設(shè)我們得到的2維數(shù)據(jù)如下: 行代表了樣例,列代表特征,這里有10個(gè)樣例,每個(gè)樣例兩個(gè)特征??梢赃@樣認(rèn)為,有10篇文檔,x是10篇文檔中“l(fā)earn”出現(xiàn)的TF-IDF,y是10篇文檔中“study”出現(xiàn)的TF-IDF。也可以認(rèn)為有10輛汽車,x是千米/小時(shí)的速度,y是英里/小時(shí)的速度,等等。
6、160; 第一步分別求x和y的平均值,然后對(duì)于所有的樣例,都減去對(duì)應(yīng)的均值。這里x的均值是1.81,y的均值是1.91,那么一個(gè)樣例減去均值后即為(0.69,0.49),得到 第二步,求特征協(xié)方差矩陣,如果數(shù)據(jù)是3維,那么協(xié)方差矩陣是 這里只有x和y,求解得
7、; 對(duì)角線上分別是x和y的方差,非對(duì)角線上是協(xié)方差。協(xié)方差大于0表示x和y若有一個(gè)增,另一個(gè)也增;小于0表示一個(gè)增,一個(gè)減;協(xié)方差為0時(shí),兩者獨(dú)立。協(xié)方差絕對(duì)值越大,兩者對(duì)彼此的影響越大,反之越小。 第三步,求協(xié)方差的特征值和特征向量,得到 上面是兩個(gè)特征值,下面是對(duì)應(yīng)的特征向量,特征值0.0490833989對(duì)應(yīng)特征向量為,這里的特征向量都?xì)w一化為單位向量。
8、 第四步,將特征值按照從大到小的順序排序,選擇其中最大的k個(gè),然后將其對(duì)應(yīng)的k個(gè)特征向量分別作為列向量組成特征向量矩陣。 這里特征值只有兩個(gè),我們選擇其中最大的那個(gè),這里是1.28402771,對(duì)應(yīng)的特征向量是。 第五步,將樣本點(diǎn)投影到選取的特征向量上。假設(shè)樣例數(shù)為m,特征數(shù)為n,減去均值后的樣本矩陣為DataAdjust(m*n),協(xié)方差矩陣是n*n,選取的k個(gè)特征向量組成的矩陣為EigenVectors(n*k)。那么投影后的數(shù)據(jù)FinalData為 &
9、#160; 這里是 FinalData(10*1) = DataAdjust(10*2矩陣)×特征向量 得到結(jié)果是 這樣,就將原始樣例的n維特征變成了k維,這k維就是原始特征在k維上的投影。 上面的數(shù)據(jù)可以認(rèn)為是learn和study特征融合為一個(gè)新的特征叫做LS特
10、征,該特征基本上代表了這兩個(gè)特征。 上述過程有個(gè)圖描述: 正號(hào)表示預(yù)處理后的樣本點(diǎn),斜著的兩條線就分別是正交的特征向量(由于協(xié)方差矩陣是對(duì)稱的,因此其特征向量正交),最后一步的矩陣乘法就是將原始樣本點(diǎn)分別往特征向量對(duì)應(yīng)的軸上做投影。 如果取的k=2,那么結(jié)果是 這就是經(jīng)過PCA處理后的樣
11、本數(shù)據(jù),水平軸(上面舉例為LS特征)基本上可以代表全部樣本點(diǎn)。整個(gè)過程看起來就像將坐標(biāo)系做了旋轉(zhuǎn),當(dāng)然二維可以圖形化表示,高維就不行了。上面的如果k=1,那么只會(huì)留下這里的水平軸,軸上是所有點(diǎn)在該軸的投影。 這樣PCA的過程基本結(jié)束。在第一步減均值之后,其實(shí)應(yīng)該還有一步對(duì)特征做方差歸一化。比如一個(gè)特征是汽車速度(0到100),一個(gè)是汽車的座位數(shù)(2到6),顯然第二個(gè)的方差比第一個(gè)小。因此,如果樣本特征中存在這種情況,那么在第一步之后,求每個(gè)特征的標(biāo)準(zhǔn)差,然后對(duì)每個(gè)樣例在該特征下的數(shù)據(jù)除以。 歸納一下
12、,使用我們之前熟悉的表示方法,在求協(xié)方差之前的步驟是: 其中是樣例,共m個(gè),每個(gè)樣例n個(gè)特征,也就是說是n維向量。是第i個(gè)樣例的第j個(gè)特征。是樣例均值。是第j個(gè)特征的標(biāo)準(zhǔn)差。 整個(gè)PCA過程貌似及其簡(jiǎn)單,就是求協(xié)方差的特征值和特征向量,然后做數(shù)據(jù)轉(zhuǎn)換。但是有沒有覺得很神奇,為什么求協(xié)方差的特征向量就是最理想的k維向量?其背后隱藏的意義是什么?整個(gè)PCA的意義是什么?3. PCA理論基礎(chǔ) 要解釋
13、為什么協(xié)方差矩陣的特征向量就是k維理想特征,我看到的有三個(gè)理論:分別是最大方差理論、最小錯(cuò)誤理論和坐標(biāo)軸相關(guān)度理論。這里簡(jiǎn)單探討前兩種,最后一種在討論P(yáng)CA意義時(shí)簡(jiǎn)單概述。3.1 最大方差理論 在信號(hào)處理中認(rèn)為信號(hào)具有較大的方差,噪聲有較小的方差,信噪比就是信號(hào)與噪聲的方差比,越大越好。如前面的圖,樣本在橫軸上的投影方差較大,在縱軸上的投影方差較小,那么認(rèn)為縱軸上的投影是由噪聲引起的。因此我們認(rèn)為,最好的k維特征是將n維樣本點(diǎn)轉(zhuǎn)換為k維后,每一維上的樣本方差都很大。 比如下圖有5個(gè)樣本點(diǎn):(已經(jīng)做過
14、預(yù)處理,均值為0,特征方差歸一) 下面將樣本投影到某一維上,這里用一條過原點(diǎn)的直線表示(前處理的過程實(shí)質(zhì)是將原點(diǎn)移到樣本點(diǎn)的中心點(diǎn))。 假設(shè)我們選擇兩條不同的直線做投影,那么左右兩條中哪個(gè)好呢?根據(jù)我們之前的方差最大化理論,左邊的好,因?yàn)橥队昂蟮臉颖军c(diǎn)之間方差最大。 這里先解釋一下投影的概念:
15、60; 紅色點(diǎn)表示樣例,藍(lán)色點(diǎn)表示在u上的投影,u是直線的斜率也是直線的方向向量,而且是單位向量。藍(lán)色點(diǎn)是在u上的投影點(diǎn),離原點(diǎn)的距離是(即或者)由于這些樣本點(diǎn)(樣例)的每一維特征均值都為0,因此投影到u上的樣本點(diǎn)(只有一個(gè)到原點(diǎn)的距離值)的均值仍然是0。 回到上面左右圖中的左圖,我們要求的是最佳的u,使得投影后的樣本點(diǎn)方差最大。 由于投影后均值為0,因此方差為:
16、60; 中間那部分很熟悉啊,不就是樣本特征的協(xié)方差矩陣么(的均值為0,一般協(xié)方差矩陣都除以m-1,這里用m)。 用來表示,表示,那么上式寫作 由于u是單位向量,即,上式兩邊都左乘u得, 即 We got it!就是的特征值,u是特征向量。最佳的投影直線是特征值最大時(shí)對(duì)應(yīng)的特征向量,其次是第二大對(duì)應(yīng)的特征向量,依
17、次類推。 因此,我們只需要對(duì)協(xié)方差矩陣進(jìn)行特征值分解,得到的前k大特征值對(duì)應(yīng)的特征向量就是最佳的k維新特征,而且這k維新特征是正交的。得到前k個(gè)u以后,樣例通過以下變換可以得到新的樣本。 其中的第j維就是在上的投影。 通過選取最大的k個(gè)u,使得方差較小的特征(如噪聲)被丟棄。 這是其中一種對(duì)PCA的解釋,第二種是錯(cuò)誤最小化,放在下一篇介紹。主成分
18、分析(Principal components analysis)-最小平方誤差解釋 接上篇3.2 最小平方誤差理論 假設(shè)有這樣的二維樣本點(diǎn)(紅色點(diǎn)),回顧我們前面探討的是求一條直線,使得樣本點(diǎn)投影到直線上的點(diǎn)的方差最大。本質(zhì)是求直線,那么度量直線求的好不好,不僅僅只有方差最大化的方法。再回想我們最開始學(xué)習(xí)的線性回歸等,目的也是求一個(gè)線性函數(shù)使得直線能夠最佳擬合樣本點(diǎn),那么我們能不能認(rèn)為最佳的直線就是回歸后的直線呢?回歸時(shí)我們的最小二乘法度量的是樣本點(diǎn)到直線的坐標(biāo)軸距離。比如這
19、個(gè)問題中,特征是x,類標(biāo)簽是y?;貧w時(shí)最小二乘法度量的是距離d。如果使用回歸方法來度量最佳直線,那么就是直接在原始樣本上做回歸了,跟特征選擇就沒什么關(guān)系了。 因此,我們打算選用另外一種評(píng)價(jià)直線好壞的方法,使用點(diǎn)到直線的距離d來度量。 現(xiàn)在有n個(gè)樣本點(diǎn),每個(gè)樣本點(diǎn)為m維(這節(jié)內(nèi)容中使用的符號(hào)與上面的不太一致,需要重新理解符號(hào)的意義)。將樣本點(diǎn)在直線上的投影記為,那么我們就是要最小化 這個(gè)公式稱作
20、最小平方誤差(Least Squared Error)。 而確定一條直線,一般只需要確定一個(gè)點(diǎn),并且確定方向即可。 第一步確定點(diǎn): 假設(shè)要在空間中找一點(diǎn)來代表這n個(gè)樣本點(diǎn),“代表”這個(gè)詞不是量化的,因此要量化的話,我們就是要找一個(gè)m維的點(diǎn),使得 最小。其中是平方錯(cuò)誤評(píng)價(jià)函數(shù)(squared-error criterion functio
21、n),假設(shè)m為n個(gè)樣本點(diǎn)的均值: 那么平方錯(cuò)誤可以寫作: 后項(xiàng)與無關(guān),看做常量,而,因此最小化時(shí), 是樣本點(diǎn)均值。 第二步確定方向: 我們從拉出要求
22、的直線(這條直線要過點(diǎn)m),假設(shè)直線的方向是單位向量e。那么直線上任意一點(diǎn),比如就可以用點(diǎn)m和e來表示 其中是到點(diǎn)m的距離。 我們重新定義最小平方誤差: 這里的k只是相當(dāng)于i。就是最小平方誤差函數(shù),其中的未知參數(shù)是和e。 實(shí)際上是求的最小值。首先將上式展開:
23、60; 我們首先固定e,將其看做是常量,然后對(duì)進(jìn)行求導(dǎo),得 這個(gè)結(jié)果意思是說,如果知道了e,那么將與e做內(nèi)積,就可以知道了在e上的投影離m的長度距離,不過這個(gè)結(jié)果不用求都知道。 然后是固定,對(duì)e求偏導(dǎo)數(shù),我們先將公式(8)代入,得 其中
24、160;與協(xié)方差矩陣類似,只是缺少個(gè)分母n-1,我們稱之為散列矩陣(scatter matrix)。 然后可以對(duì)e求偏導(dǎo)數(shù),但是e需要首先滿足,引入拉格朗日乘子,來使最大(最小),令 求偏導(dǎo) 這里存在對(duì)向量求導(dǎo)數(shù)的技巧,方法這里不多做介紹??梢匀タ匆恍╆P(guān)于矩陣微積分的資料,這里求導(dǎo)時(shí)可以將看作是,將看做是。
25、160; 導(dǎo)數(shù)等于0時(shí),得 兩邊除以n-1就變成了,對(duì)協(xié)方差矩陣求特征值向量了。 從不同的思路出發(fā),最后得到同一個(gè)結(jié)果,對(duì)協(xié)方差矩陣求特征向量,求得后特征向量上就成為了新的坐標(biāo),如下圖: 這時(shí)候點(diǎn)都聚集在新的坐標(biāo)軸周圍,因?yàn)槲覀兪褂玫淖钚∑椒秸`差的意義就在此。4. PCA理論意義
26、0; PCA將n個(gè)特征降維到k個(gè),可以用來進(jìn)行數(shù)據(jù)壓縮,如果100維的向量最后可以用10維來表示,那么壓縮率為90%。同樣圖像處理領(lǐng)域的KL變換使用PCA做圖像壓縮。但PCA要保證降維后,還要保證數(shù)據(jù)的特性損失最小。再看回顧一下PCA的效果。經(jīng)過PCA處理后,二維數(shù)據(jù)投影到一維上可以有以下幾種情況: 我們認(rèn)為左圖好,一方面是投影后方差最大,一方面是點(diǎn)到直線的距離平方和最小,而且直線過樣本點(diǎn)的中心點(diǎn)。為什么右邊的投影效果比較差?直覺是因?yàn)樽鴺?biāo)軸之間相關(guān),以至于去掉一個(gè)坐標(biāo)軸,就會(huì)使得坐標(biāo)點(diǎn)
27、無法被單獨(dú)一個(gè)坐標(biāo)軸確定。 PCA得到的k個(gè)坐標(biāo)軸實(shí)際上是k個(gè)特征向量,由于協(xié)方差矩陣對(duì)稱,因此k個(gè)特征向量正交。看下面的計(jì)算過程。 假設(shè)我們還是用來表示樣例,m個(gè)樣例,n個(gè)特征。特征向量為e,表示第i個(gè)特征向量的第1維。那么原始樣本特征方程可以用下面式子來表示: 前面兩個(gè)矩陣乘積就是協(xié)方差矩陣(除以m后),原始的樣本矩陣A是第二個(gè)矩陣m*n。
28、上式可以簡(jiǎn)寫為 我們最后得到的投影結(jié)果是,E是k個(gè)特征向量組成的矩陣,展開如下: 得到的新的樣例矩陣就是m個(gè)樣例到k個(gè)特征向量的投影,也是這k個(gè)特征向量的線性組合。e之間是正交的。從矩陣乘法中可以看出,PCA所做的變換是將原始樣本點(diǎn)(n維),投影到k個(gè)正交的坐標(biāo)系中去,丟棄其他維度的信息。舉個(gè)例子,假設(shè)宇宙是n維的(霍金說是11維的),我們得到銀河系中每個(gè)星星的坐標(biāo)(相對(duì)于銀河系中心的n維向量),然而我們想用二維坐標(biāo)去逼近這些樣本點(diǎn),假設(shè)算
29、出來的協(xié)方差矩陣的特征向量分別是圖中的水平和豎直方向,那么我們建議以銀河系中心為原點(diǎn)的x和y坐標(biāo)軸,所有的星星都投影到x和y上,得到下面的圖片。然而我們丟棄了每個(gè)星星離我們的遠(yuǎn)近距離等信息。 5. 總結(jié)與討論 這一部分來自 PCA技術(shù)的一大好處是對(duì)數(shù)據(jù)進(jìn)行降維的處理。我們可以對(duì)新求出的“主元”向量的重要性進(jìn)行排序,根據(jù)需要取前面最重要的部分,將后面的維數(shù)省去,可以達(dá)到降維從而簡(jiǎn)化模型或是對(duì)數(shù)據(jù)進(jìn)行壓縮的效果。同時(shí)最大程度的保持了原有數(shù)據(jù)的信息
30、。 PCA技術(shù)的一個(gè)很大的優(yōu)點(diǎn)是,它是完全無參數(shù)限制的。在PCA的計(jì)算過程中完全不需要人為的設(shè)定參數(shù)或是根據(jù)任何經(jīng)驗(yàn)?zāi)P蛯?duì)計(jì)算進(jìn)行干預(yù),最后的結(jié)果只與數(shù)據(jù)相關(guān),與用戶是獨(dú)立的。 但是,這一點(diǎn)同時(shí)也可以看作是缺點(diǎn)。如果用戶對(duì)觀測(cè)對(duì)象有一定的先驗(yàn)知識(shí),掌握了數(shù)據(jù)的一些特征,卻無法通過參數(shù)化等方法對(duì)處理過程進(jìn)行干預(yù),可能會(huì)得不到預(yù)期的效果,效率也不高。 圖表 4:黑色點(diǎn)表示采樣數(shù)據(jù),排列成轉(zhuǎn)盤的形狀。 容易想象,該數(shù)據(jù)的主元是或是旋轉(zhuǎn)角。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年銅材熱擠壓件項(xiàng)目投資可行性研究分析報(bào)告
- 金威啤酒公司的成本管理絕技
- 中國汽車HUD行業(yè)競(jìng)爭(zhēng)格局分析及投資規(guī)劃研究報(bào)告
- 2025年度共享工作人員社會(huì)保險(xiǎn)繳納合同
- 代理配股合同范例
- 勞動(dòng)合同范本養(yǎng)殖
- 伐木砍伐工程合同范例
- 農(nóng)村舊房拆遷合同范本
- 代養(yǎng)鵝合同范本
- 公司轉(zhuǎn)讓協(xié)議合同范本
- DL∕T 712-2010 發(fā)電廠凝汽器及輔機(jī)冷卻器管選材導(dǎo)則
- (2024年秋季版)2024年七年級(jí)道德與法治下冊(cè) 4.9.1 生活需要法律教案 新人教版
- 5G-A通感一體應(yīng)用場(chǎng)景研究 2024
- 無人機(jī)飛行原理與性能理論知識(shí)考試題庫及答案
- 旅游學(xué)概論(第五版)課件 第一章 旅游學(xué)概述
- 陜西少華山森林公園管軌式滑道項(xiàng)目 環(huán)境影響報(bào)告書
- 場(chǎng)地自行車講解材料
- 道路工程試驗(yàn)檢測(cè)培訓(xùn)課件
- 2024年青島酒店管理職業(yè)技術(shù)學(xué)院高職單招(英語/數(shù)學(xué)/語文)筆試歷年參考題庫含答案解析
- 預(yù)防食物過敏
- 16學(xué)時(shí)《中醫(yī)藥膳學(xué)》教學(xué)大綱(可編輯修改文本版)
評(píng)論
0/150
提交評(píng)論