主成分分析(Principalcomponentsanalysis)-最大方差解釋_第1頁
主成分分析(Principalcomponentsanalysis)-最大方差解釋_第2頁
主成分分析(Principalcomponentsanalysis)-最大方差解釋_第3頁
主成分分析(Principalcomponentsanalysis)-最大方差解釋_第4頁
主成分分析(Principalcomponentsanalysis)-最大方差解釋_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、主成分分析( Principal components analysis)- 最大方差解釋PCA 以前也叫做 Principal factor analysis。1. 問題真實的訓練數(shù)據(jù)總是存在各種各樣的問題:1、 比如拿到一個汽車的樣本,里面既有以 “千米/每小時 ”度量的最大速度特征, 也有“英里/小時”的最大速度特征,顯然這兩個特征有一個多余。2、拿到一個數(shù)學系的本科生期末考試成績單, 里面有三列, 一列是對數(shù)學的興 趣程度,一列是復習時間,還有一列是考試成績。我們知道要學好數(shù)學,需要有 濃厚的興趣, 所以第二項與第一項強相關, 第三項和第二項也是強相關。 那是不 是可以合并第一項和第二

2、項呢?3、拿到一個樣本,特征非常多,而樣例特別少,這樣用回歸去直接擬合非常困 難,容易過度擬合。比如北京的房價:假設房子的特征是(大小、位置、朝向、 是否學區(qū)房、建造年代、是否二手、層數(shù)、所在層數(shù)) ,搞了這么多特征,結果 只有不到十個房子的樣例。 要擬合房子特征 -房價的這么多特征, 就會造成過度 擬合。4、這個與第二個有點類似,假設在 IR 中我們建立的文檔 -詞項矩陣中,有兩個 詞項為“l(fā)ean和” “study,在傳統(tǒng)的向量空間模型中,認為兩者獨立。然而從語義 的角度來講, 兩者是相似的, 而且兩者出現(xiàn)頻率也類似, 是不是可以合成為一個 特征呢?5、在信號傳輸過程中, 由于信道不是理想

3、的, 信道另一端收到的信號會有噪音 擾動,那么怎么濾去這些噪音呢?回顧我們之前介紹的 模型選擇和規(guī)則化,里面談到的特征選擇的問題。 但 在那篇中要剔除的特征主要是和類標簽無關的特征。 比如“學生的名字 ”就和他的 “成績”無關,使用的是互信息的方法。而這里的特征很多是和類標簽有關的,但里面存在噪聲或者冗余。在這種情 況下,需要一種特征降維的方法來減少特征數(shù), 減少噪音和冗余, 減少過度擬合 的可能性。下面探討一種稱作主成分分析(PCA)的方法來解決部分上述問題。PCA的 思想是將 n 維特征映射到 k 維上( kn ),這 k 維是全新的正交特征。 這 k 維特征 稱為主元,是重新構造出來的

4、k 維特征,而不是簡單地從 n 維特征中去除其余 n-k 維特征。2. PCA計算過程首先介紹 PCA 的計算過程:假設我們得到的 2 維數(shù)據(jù)如下:Xy2.52.40.50.7 土2.9L92.2Data = 3.13.023? 7 i f21.611,11.51,61.10.9行代表了樣例,列代表特征,這里有10個樣例,每個樣例兩個特征。可以這 樣認為,有10篇文檔,x是10篇文檔中“l(fā)earn出現(xiàn)的TF-IDF , y是10篇文檔 中“study出現(xiàn)的TF-IDF。也可以認為有10輛汽車,x是千米/小時的速度,y是 英里/小時的速度,等等。第一步分別求x和y的平均值,然后對于所有的樣例,都

5、減去對應的均值。 這里x的均值是1.81, y的均值是1.91,那么一個樣例減去均值后即為(0.69,0.49), 得到.49-1.21.99.291.0959-.31-,81-31-L01X-L31.39.09DataAdjust =L29A9.19-,81-.31-.71第二步,求特征協(xié)方差矩陣,如果數(shù)據(jù)是3維,那么協(xié)方差矩陣是丫疋(icor( t/. j ) cor(i/. / j eor(z. .r) COV(Z, tf 這里只有x和y,求解得_ I .616555556 .615444 14 1 I (51511 I I 14.716555556對角線上分別是x和y的方差,非對角線上

6、是協(xié)方差。協(xié)方差大于 0表示x 和y若有一個增,另一個也增;小于0表示一個增,一個減;協(xié)方差為0時,兩 者獨立。協(xié)方差絕對值越大,兩者對彼此的影響越大,反之越小。第三步,求協(xié)方差的特征值和特征向量,得到J 屮 UHt -S =川小:匸如出! 1.28402771 )( 屮 Hi t S .677873399.735178656上面是兩個特征值,下面是對應的特征向量,特征值0.0490833989對應特征向量為 - -_,這里的特征向量都歸一化為單位向量。第四步,將特征值按照從大到小的順序排序,選擇其中最大的k個,然后將其對應的k個特征向量分別作為列向量組成特征向量矩陣。這里特征值只有兩個,我們

7、選擇其中最大的那個,這里是1.28402771,對應的特征向量是:::。第五步,將樣本點投影到選取的特征向量上。假設樣例數(shù)為 m,特征數(shù)為n, 減去均值后的樣本矩陣為 DataAdjust(m*n),協(xié)方差矩陣是n*n,選取的k個特征 向量組成的矩陣為EigenVectors(n*k)。那么投影后的數(shù)據(jù)FinalData為FinalDatafm* k) = DataAdjust(ni * n) X Eigenvectors(n* k)這里是FinalData(10*1)= DataAdjust(10*2 矩陣 )x 特 征向量(一 0.67787339 勺-0735口8砧時于得到結果是Tran

8、sfbnned Dam (Single eigen-ector)-.8279701861.77758033-.992197494-274210416-1.67580142-.912949103 .0991094375L14457216 .438046137 1.22382056這樣,就將原始樣例的n維特征變成了 k維,這k維就是原始特征在k維上 的投影。上面的數(shù)據(jù)可以認為是learn和study特征融合為一個新的特征叫做 LS特征,該特征基本上代表了這兩個特征 上述過程有個圖描述:Mean adjusted data with eigenvectors overlayed1!II!I1.5ri

9、PCAdataadiust.datrt + (-740682469/.671855252fx (-.67 !1855252/- 7406S246&fxJ0.5-1dr-1.5-2-2-1.5-1-0.500.51.52正號表示預處理后的樣本點,斜著的兩條線就分別是正交的特征向量(由于 協(xié)方差矩陣是對稱的,因此其特征向量正交),最后一步的矩陣乘法就是將原始 樣本點分別往特征向量對應的軸上做投影。如果取的k=2,那么結果是-.82797018(5-1751153071.77758033142857227-.992197494384374989-.274210416.130417207Transfo

10、rmed Data= -1.6758014220949841-.912949103.1752824440991094375-3498246981.144572160464172582.438046137.01776462971.22382056-J6267528711r11iiiii11iii4-ii i+ii 十1ii ii11iiiiiiiiiii1,510.500 5-+-1.5-2Daita tranEformed Mth 2 engenvectora-2-1.S*1-0.500.51 IS 2這就是經(jīng)過PCA處理后的樣本數(shù)據(jù),水平軸(上面舉例為 LS特征)基本上 可以代表全部樣本點。

11、整個過程看起來就像將坐標系做了旋轉, 當然二維可以圖 形化表示,高維就不行了。上面的如果 k=1,那么只會留下這里的水平軸,軸上 是所有點在該軸的投影。這樣PCA的過程基本結束。在第一步減均值之后,其實應該還有一步對特征 做方差歸一化。比如一個特征是汽車速度(0到100),一個是汽車的座位數(shù)(2 到6),顯然第二個的方差比第一個小。因此,如果樣本特征中存在這種情況, 那么在第一步之后,求每個特征的標準差,然后對每個樣例在該特征下的數(shù)據(jù) 除以。歸納一下,使用我們之前熟悉的表示方法,在求協(xié)方差之前的步驟是:1站腰:嚴2. Replace each 工 with _r“+3. Let ctJ =占匚

12、防)尸4. lieplace each ; with 工:、衍”其中是樣例,共m個,每個樣例n個特征,也就是說是n維向量?!渴?第i個樣例的第j個特征。是樣例均值。-是第j個特征的標準差。整個PCA過程貌似及其簡單,就是求協(xié)方差的特征值和特征向量, 然后做數(shù) 據(jù)轉換。但是有沒有覺得很神奇,為什么求協(xié)方差的特征向量就是最理想的k維向量?其背后隱藏的意義是什么?整個 PCA的意義是什么?3. PCA理論基礎要解釋為什么協(xié)方差矩陣的特征向量就是 k維理想特征,我看到的有三個理 論:分別是最大方差理論、最小錯誤理論和坐標軸相關度理論。這里簡單探討前 兩種,最后一種在討論PCA意義時簡單概述。3.1最大

13、方差理論在信號處理中認為信號具有較大的方差,噪聲有較小的方差,信噪比就是信 號與噪聲的方差比,越大越好。如前面的圖,樣本在橫軸上的投影方差較大,在 縱軸上的投影方差較小,那么認為縱軸上的投影是由噪聲引起的。因此我們認為,最好的k維特征是將n維樣本點轉換為k維后,每一維上的樣本 方差都很大。比如下圖有5個樣本點:(已經(jīng)做過預處理,均值為0,特征方差歸一)F面將樣本投影到某一維上,這里用一條過原點的直線表示(前處理的過程實質是將原點移到樣本點的中心點)0假設我們選擇兩條不同的直線做投影,那么左右兩條中哪個好呢?根據(jù)我們 之前的方差最大化理論,左邊的好,因為投影后的樣本點之間方差最大。這里先解釋一下

14、投影的概念:紅色點表示樣例,藍色點表示在u上的投影,u是直線的斜率也是直線 的方向向量,而且是單位向量。藍色點是在u上的投影點,離原點的距離是:(即,能5或者_)由于這些樣本點(樣例)的每一維特征均值都為0,因此投影到u上的樣本點(只有一個到原點的距離值)的均值仍然是 0?;氐缴厦孀笥覉D中的左圖,我們要求的是最佳的u,使得投影后的樣本點方差最大。由于投影后均值為0,因此方差為:1= 1 1=1中間那部分很熟悉啊,不就是樣本特征的協(xié)方差矩陣么(:-的均值為0, 般協(xié)方差矩陣都除以m-1,這里用m)。用來表示:躇腫磴,表示_, 那么上式寫作jL =由于u是單位向量,即,殳二I,上式兩邊都左乘u得, 山一:初廠即a;We got it !就

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論