改進主成分分柝(PCA)魯棒性的算法比較.doc_第1頁
改進主成分分柝(PCA)魯棒性的算法比較.doc_第2頁
改進主成分分柝(PCA)魯棒性的算法比較.doc_第3頁
改進主成分分柝(PCA)魯棒性的算法比較.doc_第4頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

改進主成分分柝(PCA)魯棒性的算法比較 葉明喜,黃鈺,蔣昊 (蘭州商學(xué)院,甘肅蘭州730101) 摘要:與傳統(tǒng)的PCA算法相比較,基于分布特征算法的主成分分析,由于量測的不精確使特性或參數(shù)的實際值會偏離它標(biāo)稱值,另一個是受環(huán)境因素影響而引起特性或參數(shù)的緩慢漂移,這樣得到的分析結(jié)果在很大程度上受到異常值的干擾.本文通過對比幾種算法,提出改善主成分分析(PCA)算法魯棒性的一種實現(xiàn)途徑,去除或者減少異常點影響,以提高PCA的精度. 關(guān)鍵詞:主成分分析;pca魯棒性;標(biāo)稱值;異常點;馬氏距離 :TP391:A:1673-260X(xx)07-0017-03 1PCA的原理和魯棒性 傳統(tǒng)PCA算法是一種基于空間坐標(biāo)的降維技術(shù),將高維數(shù)據(jù)按照線性投影的方式投影到低維空間,在保留過程變量間關(guān)系結(jié)構(gòu)的同時,去除了噪聲以及變量之間的相關(guān)性,但傳統(tǒng)主成分基于特征值分解的PCA方法存在嚴(yán)重魯棒性問題,這大大影響了PCA的運算精度.如PCA算法給出ai在隨機向量x的第i主方向,根據(jù)盡可能地靠近原始數(shù)據(jù)x,則所有的ai都應(yīng)該調(diào)整大道MSE,則有下列公式: 協(xié)方差矩陣: 矩陣A為構(gòu)造的正交陣,傳統(tǒng)PCA算法是對隨機向量x的協(xié)方差陣進行特征值分解來獲得x的協(xié)方差矩陣var(F),其為一對角矩陣,而對角元素恰好是原始數(shù)據(jù)集相關(guān)矩陣的特征值.其中樣本數(shù)據(jù)集協(xié)方差陣的估計值: 但現(xiàn)在從主成分分析數(shù)學(xué)模型需要滿足的條件出發(fā)(Fi,F(xiàn)j互不相關(guān)),為了改善PCA算法精度,對PCA魯棒性改善需要從兩個角度出發(fā):一是如何能夠達到輸出的各主成分之間互不相關(guān),上面的PCA算法獲得的各主成分互不相關(guān)當(dāng)且僅當(dāng)輸入x服從零均值、協(xié)方差為n維高斯分布,當(dāng)不服從此條件下高斯分布,相關(guān)文獻提出了獨立成分分析(ICA)來解決此問題1. 另外,傳統(tǒng)PCA算法基于協(xié)方差陣的二階方面考慮,因此得到的主成分只能做到互不相關(guān),而不能做到相互獨立.為提高PCA算法的魯棒性,必須去除或者減少異常點樣本污染對算法的影響.異常點的產(chǎn)生原因是多方面的,例如突發(fā)的隨機噪聲,測量或者記錄的偶爾出錯等等.很自然地要考慮如何找出樣本集中的異常點樣本,在求解協(xié)方差矩陣時將其排除在外.因此首先需要確定異常點樣本的判據(jù),下文的三種算法判別異常點樣本將作比較介紹. 算法二:是開始設(shè)定一個可能的參考異常值,初始化時將第一個點和第二點之間的馬氏距離作為標(biāo)稱值,將所有點計算出到均值點的馬氏距離,計算出樣本點中大于參考標(biāo)稱值點所占的比例,如果大于參考標(biāo)稱值的比例比初設(shè)異常值在樣本數(shù)據(jù)中比例大,則需要將標(biāo)稱值減少一個比例系數(shù),最終使得在一個事先設(shè)置的的精度范圍內(nèi).則讓程序?qū)^大數(shù)據(jù)點進行排序,剔除較大的數(shù)據(jù)點之后,同時重新計算協(xié)方差陣和新的樣本容量,使得留下的點都是非離群點,如果剔除的比例和自設(shè)的初識異常值比例近似相等,則中止該過程.然而,經(jīng)過模擬之后發(fā)現(xiàn)算法二比算法一改進很多,但仍不理想,表現(xiàn)出算法對于異常值樣本比較敏感. 算法三:是引入?yún)?shù)作為統(tǒng)計距離的測度,而該參數(shù)取自相關(guān)系數(shù)Rij,它度量變量之間的線性相關(guān)性.這樣通過對原始數(shù)據(jù)的標(biāo)準(zhǔn)化處理后,相關(guān)系數(shù)陣的變換使得在不同維度之間變量大小具有了可比性,經(jīng)過這樣一個過程處理,最終還原為原始的變量.算法三比起算法二在魯棒性上有改進. 2改進魯棒性PCA算法 2.1判別異常點樣本的理論基礎(chǔ) 基于誤差最小準(zhǔn)則是判別異常點樣本的理論基礎(chǔ),在剔除異常點樣本中應(yīng)用較為廣泛.故令e=x-u為誤差,定義誤差平和函數(shù)的估計表達式: 2.2魯棒PCA算法描述 期初給出W的估計值就是因為實際很難做到精確,以估計值來剔除異常點,從而達到精確W估計值,再剔除異常點,這樣循環(huán)下去. 根據(jù)上面得到的PCA變換矩陣,利用式(3)計算原始樣本集E中每個樣本xi在本步k的誤差,迭代步數(shù)k+1,設(shè)樣本集中異常點樣本數(shù)L(k+1)=L(k)+1,也就是從樣本集中刪除上一步重構(gòu)誤差最大的L(k+1)個樣本,并由剩下的樣本構(gòu)成新的待處理樣本集;判斷w(k+1)是否滿足收斂條件,若滿足則迭代結(jié)束,否則轉(zhuǎn)第2步.使得所有的樣本點馬氏距離都在給定的標(biāo)稱值?著范圍內(nèi),并且無論怎樣循環(huán)下去,現(xiàn)有的樣本點不再被剔除,則中止循環(huán). 3仿真實驗和結(jié)果分析 3.1仿真實驗 傳統(tǒng)PCA算法和修正后的魯棒PCA算法,對不含異常點和包含異常點的樣本集進行主成分分析.在這里考慮輸入為2維樣本,提取其最大主成分,即n=2,m=1.隨機均勻產(chǎn)生500個含有異常點的二維樣本集,記為樣本集x(如下圖所示);傳統(tǒng)的PCA算法對樣本集x分別進行統(tǒng)計主成分分析,得到的主方向為Fx=0.9020,0.4317T.可以看出傳統(tǒng)PCA對于無異常點的樣本集計算精度還是很高的,F(xiàn)x基本等于實際主方向.但是魯棒性很差,只要樣本集中存在少量的異常點樣本,主方向計算結(jié)果誤差非常大. 以下三個算法基于R軟件繪制如下,具體為算法一:是在我們會發(fā)現(xiàn),如果d太小,變換后的信息有所失,如果d太大,變換后的數(shù)據(jù)收到異常點改變其穩(wěn)定的與坐標(biāo)軸平行垂直橢圓形狀.旋轉(zhuǎn)角度后在57范圍內(nèi)較為穩(wěn)定(如圖1). 算法二:取異常值的比例為0.10.9變化后繪制其主成分變換后的圖像,發(fā)現(xiàn)不是一個與坐標(biāo)軸垂直平行的橢球體,因為使用的是數(shù)據(jù)集的協(xié)方差陣,沒有采用相關(guān)系數(shù)陣(如圖2). 算法三:剔除了較多的異常點數(shù)據(jù)點后,使得數(shù)據(jù)具有較強的魯棒性,具備改善PCA算法魯棒性和高效的數(shù)據(jù)壓縮特性,使得算法三在與以上兩種算法上比較上,采取相關(guān)系數(shù)構(gòu)造標(biāo)稱值,較為理想(如圖3). 3.2結(jié)論分析 理想的PCA算法,應(yīng)先計算相關(guān)系數(shù)矩陣,而不是協(xié)方差陣進行統(tǒng)計距離度量.單從數(shù)據(jù)的魯棒性角度出發(fā),可以采用相關(guān)系數(shù)矩陣進行統(tǒng)計距離度量作PCA,然而考慮到數(shù)據(jù)點異常點的去除,采用算法三的算法可以對原始數(shù)據(jù)的特征進行高效的轉(zhuǎn)換,且PCA魯棒性也比其他兩種算法較好,另外該算法對于初始的異常點比例的預(yù)測也無聯(lián)系.但PCA魯棒性改善不僅僅是單純從剔除數(shù)據(jù)異常點一種方式而得到改善,本文僅從算法上比較得出改善之舉,難免有不妥之處. 參考文獻: (1)ComonP.Independentponentanalysis,anewconcept?.SignalProcessing,1994,36(3):287-314.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論