紅外與近紅外光譜常用大數(shù)據(jù)處理算法_第1頁
紅外與近紅外光譜常用大數(shù)據(jù)處理算法_第2頁
紅外與近紅外光譜常用大數(shù)據(jù)處理算法_第3頁
紅外與近紅外光譜常用大數(shù)據(jù)處理算法_第4頁
紅外與近紅外光譜常用大數(shù)據(jù)處理算法_第5頁
已閱讀5頁,還剩24頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、一、 數(shù)據(jù)預(yù)處理(1)中心化變換(2)歸一化處理(3)正規(guī)化處理(4 )標準正態(tài)變量校正(標準化處理I Standard Normal Variate,SNV )(5 )數(shù)字平滑與濾波(Smooth )(6 )導數(shù)處理(Derivative )(7 )多元散射校正(Multiplicative Scatter Correction,MSC )(8 )正交信號校正(OSC )二、特征的提取與壓縮(1)主成分分析(PCA )(2)馬氏距離三、模式識別(定性分類)(1)基于fisher意義下的線性判別分析(LDA )(2 ) K-最鄰近法(KNN)(3 )模型分類方法(SIMCA )(4 )支持向量

2、機(SVM )(5 )自適應(yīng) boosting 方法(Adaboost)四、回歸分析(定量分析)(1)主成分回歸(PCR )(2 )偏最小二乘法回歸(PLS )(3 )支持向量機回歸(SVR )一、數(shù)據(jù)預(yù)處理(1)中心化變換中心化變換的目的是在于改變數(shù)據(jù)相對于坐標軸的位置。一般都是希望數(shù)據(jù)集的均值與坐標 軸的原點重合。若Xik表示第i個樣本的第k個測量數(shù)據(jù),很明顯這個數(shù)據(jù)處在數(shù)據(jù)矩陣中 的第i行第k歹山中心化變換就是從數(shù)據(jù)矩陣中的每一個元素中減去該元素所在元素所在列 的均值的運算:-無,其中冗是n個樣本的均值。(2)歸一化處理歸一化處理的目的是是集中各:向量具有相同的長度,一般為單位長度。其公

3、式為:歸一化處理能有效去除由于測量值大壞同所導致的數(shù)據(jù)集的方差,但是也可能會丟失重要 的方差。(3)正規(guī)化處理正規(guī)化處理是數(shù)據(jù)點布滿空間,常用的正規(guī)化處理為區(qū)間正規(guī)化處理。其處理方法是以原始數(shù)據(jù)集中的各元素減去所在列的最小值,再除以該列的極差。該方法可以將量綱不同,圍不同的各種變量表達為值均在0-1圍的數(shù)據(jù)。但這種方法對界外值很敏感,若存在界外值,則處理后的所有近乎相等。(4)標準化處理(SNV )也稱標準正態(tài)變量校正該處理能去除由單位不同所引起的不引人注意的權(quán)重,但這種方法對界外點不像區(qū)間正規(guī)化 那樣的敏感。標準化處理也稱方差歸一化。它是將原始數(shù)據(jù)集各個元素減去該元素所在列的元素的均值再除以

4、該列元素的標準差。(5)數(shù)字平滑與濾波數(shù)字平滑與濾波的目的在于消除隨機誤差與儀器的噪聲,它是一種最簡單的濾波方法。平滑 的實質(zhì)是略去數(shù)據(jù)中較小的偏離,而保留具有較大偏離的部分。設(shè)濾波值為y*一原始信號值為九,兩者間的關(guān)系如下:式中,k為原始數(shù)據(jù)點的序號,2m+l表示窗口(濾波帶競)的大小,m為調(diào)節(jié)濾波帶競的參數(shù)。隨著窗口的移動,即得到經(jīng)過濾波后的7一系列信號值。濾波使數(shù)據(jù)的噪聲減小,但在實際應(yīng)用過程中應(yīng)慎重選擇濾波帶競,否則會扭曲結(jié)構(gòu)。對分析信號的濾波可以采用多種方法,在這里主要介紹多項式平滑.在移動囹口均值濾波中,所有原始數(shù)據(jù)埼給以相同的權(quán)重,這樣的濾波往往使 數(shù)據(jù)扭曲,若給數(shù)據(jù)以不同的權(quán)重

5、,則可獲得更有效的數(shù)據(jù)平滑.Savi:Zky-Go- lay濾波就是這樣種方法,它是-,種基于鼠小二乘原理,能夠保留分析信號中的 有用信息,消除隨機噪聲的有效的數(shù)據(jù)平滑方法。它是利用高次多項式來進行數(shù)據(jù) 的平滑,其實質(zhì)是一種去卷積運算,設(shè)有=加十】各等間距(即各相鄰變量間的距陶相等)量測點力(,=一加, m +nt + 2,0, m 1 , rn),在這些實膾點處的測聚值可對應(yīng)寫作:yi(i= m.用+ 1, m + 2,,0 ,w-1, m) 9 這里,2加+ 1 稱為 濾波窗口的寬度.或漉波帶寬“ ”是濾波使用的痂始數(shù)據(jù)的數(shù)目。通常,從量測點 組成數(shù)據(jù)集中取一子集作為胸口,而不是用整個數(shù)據(jù)

6、點?,F(xiàn)考慮采用人一1次多項式迸行擬合,即,y = 0十4 i十心2 十十以 1戶- 1于是就有了力個這樣的方程,構(gòu)成4元線性方程組。要求解其中E個擬合參數(shù)與 G = o, 1, 2,2 D,選取的波波器寬度”應(yīng)大于或至少等于g 當h=4時,可用線性代數(shù)的方法求解其參數(shù),而當方時,則必須采用最小二乘法求解。因 此就布用矩陣表示為A的最小二乘解為V2”T I)/I=X(zw+i 八*4+1+ e.vi/ = (*X)】yY的模型預(yù)測或濾波值為P = * A = X (Xr X)- XT Y = e Y(10 1)這里.B僅與X祖於有關(guān)這樣只要給出濾波帶寬(2加+1)和多項式的次號 “一 1)就惟一

7、地確定了 X矩陣,b矩陣足一個(ZwH-D (2m+l)汾矩陣,其元 素稱作速波系數(shù),式(107)即為淺波公式,它體現(xiàn)了濾波值與原始數(shù)據(jù)V矩陣之 間的線性關(guān)系,包含廣(2加+1)個表達式,用于計算濾波窗口內(nèi)各點的濾波值。 確定漉波帶寬和多項式的最高次器U 1),由上述所述即得相應(yīng)波波公式。 如和A = 3得5點2次濾波模型,涉及的5個濾波公式如下-二親(31+ 9) 3% 5y 4 3y )=公(95._2十13?_1 +12以)+6x 一)5 J-?產(chǎn)裊-3, 2+ 23+17州+ 12y 33 )J J2NL泵(-5)2+63 1+12?。+ 13例+9%)力=焉(3丫 2 5) 3丫口十

8、9+31式)其中6.2, V-I *仇和仇為當前四口兩端的流波直.仇為窗口中心點的濾波值。同理,可以得到其它濾波模型的濾波參數(shù)。對于量測數(shù)據(jù)點數(shù)大于涯波帶寬的量測數(shù)據(jù)集,則先求出中心點和兩端的濾 波公式.然后將窗口向前移動,按中心點濾波公式求每個窗口中心點的帳波值,對 于處于原始數(shù)據(jù)集兩端的2加個數(shù)據(jù),則利用兩端的點濾波公式計算相應(yīng)的濾 波值,數(shù)值濾波的關(guān)鍵參數(shù)是波波帶寬。為了進行適當?shù)臑V波,須遵循下列準則。O濾波帶寬取決于港帶或諾峰的最人半寬度。太小的帶寬不能滿足平滑要求, 太大則會扭曲原始數(shù)據(jù)的結(jié)構(gòu)。濾波對峰高的扭曲較蜂面積更為嚴重。因此在進行以峰高為基準的定量分 析時,應(yīng)采用較小的濾波帶

9、窕。沌波帶寬對諧帶扭曲的影響可用相對油波帶寬來描述,即,_b_f s式中,力為濾波帶寬,M“為諧峰的最大半峰寬。若測定峰面積.只有在相對漉波帶寬大于1時才存在明顯誤差,當測定峰高 時,相對漉波帶寬應(yīng)小于0.于(6)導數(shù)處理若求得多項式濾波公式的擬合參數(shù)矢量后,就可利用窗口的2m + l個數(shù)據(jù)對 窗口中心點(?=()求信號的;)階導數(shù)。對平滑多項式求導有=旬+2%,+ 3公/+ (大一)4人ii7如僅在窗口的中心點處評估導數(shù),則求戶階導數(shù)A (。= 1 ,2,次一1)即在窗口中心求量測數(shù)據(jù)y的P階導致等于A矩陣的第p + 1個元素占p乘以 P的階乘.信號求導是非常有用的一種信號處理方法,它可以消

10、除信號的背景,確定譜峰 的位置.以及改善滑峰的分辨率(如更疊峰的分辨)。(7 )多元散射校正(msc)由于樣品的不均勻性(粒度分布)常導致所測的樣品光譜具有很大的差異性,不同批號的 同一樣品所測的光譜從表面看,也可能有很大的差異。在許多情況下,散射引起的光譜變化 可能要大于樣品成分引起光譜的變化。散射的程度與光的波長、顆粒度和樣品的折射指數(shù)等 有關(guān),因此在整個光譜圍,散I寸的強度是不同的,通常表現(xiàn)為基線的平移、旋轉(zhuǎn)、二次和高 次曲線。MSC是由Geladi等人提出的,目的是校正每個光譜的散射并獲得較理想的光譜。MSC法 假定與波長有關(guān)的散射對光譜的貢獻和成分的貢獻是不同的,理論上,通過光譜上許

11、多點的 數(shù)據(jù)分析,可以把這兩部分分開。MSC方法認為每一條光譜都應(yīng)該與理想光譜成線性 關(guān)系,而真正的“理想光譜無法得到,可以用校正集的平均光譜來近似。因此每個樣品的 任意波長點下反射吸光度值與其平均光譜的相應(yīng)吸光度的光譜是近似線性關(guān)系,直線的截距 和斜率可由光譜集線性回歸獲得,并用以校正每條光譜,截距(即附力映應(yīng))大小反映樣品 獨特反射作用,而斜率大小則反映樣品的均勻性。平均光譜;力=力/A1線性回歸,4二叱彳十2A -bMSC 校正?_L上述公式中,A是校正集的光譜矩陣,4為第1個樣品的光譜,?和舟是第 1個光譜4與平均光譜:的線性回歸的斜率與截距,都是列向量。通過調(diào)整7,和 c的不同,使得

12、在減少光譜差界的同時,盡量保留原有的與化學成分有關(guān)的信息。 通過校正,隨機變異得到最大可能的扣除。在光譜與濃度線性關(guān)系良好和化學 性質(zhì)相似的情況下,MSC校正的效果良好。二、特征的提取與壓縮(1)主成筋析(PCA ) 又稱抽象因子分析,主成分分析是把原來多個變量劃為少數(shù)幾個綜合指標的一種統(tǒng) 計分析方法,從數(shù)學角度來看,這是一種降維處理技術(shù)。思想:利用降維的思想,把多指標轉(zhuǎn)化為少數(shù)幾個綜合指標。在研究多變量問題 時,變量太多會增大計算量和增加分析問題的復(fù)雜性,人們自然希望在進行定量 分析的過程中涉及的變量較少,而得到的信息量又較多。主成分分析是解決這一 問題的理想工具。(主要分析眾多變量之間的相

13、關(guān)性)一、數(shù)據(jù)結(jié)構(gòu)適合用主成分分析的數(shù)據(jù)具有如下結(jié)構(gòu):指標維號XI X2 X3 X4 Xm123 nxax .j =Z-,t = 1,2,.,/ =主成分分析錄大的問題是臭量綱的影響,因 此,實際應(yīng)用中,需要對數(shù)據(jù)進行標準化。一般使 用體方差矩陣E或相關(guān)宗數(shù)矩陣R進行分析。二、主成分的基本恩慈在實際研究中,由于主成分的目的是為了降 維,減少變量的公數(shù),故一般選取少量的主成 分(不超過5或6個),只要它們能包含原變量 信息量的80%以上即可。三、主成分分析的具體實現(xiàn)設(shè)相關(guān)矩侔為Rpxp,求特征方程I R一入I | = 0, 其斛為特征根8將斛由小到大進行排序為:4 N 4 之2 4 01J (生

14、,5p)實際上是對應(yīng)于L的特征向量。若原 支量服從正態(tài)分布,則各主成分之間相互獨立;2)全部p個主成分所反映的n例樣本的總信息,等于 P個原變量的總、信息。信息量的多少,用變量的方差 來度量。3J各主成分的作用大4、是:Z Z2.Zp;4)第i個主成分的貢故率是 乙-* I 00%X% /-I5)前m個主成分的累計貢故率是:X 100% P I /-I在應(yīng)用時,一般取累計貢欷率為80%以上 比較好。四、MATLAB軟件實現(xiàn)pc, score, variance, t2=princomp(X)一般地,要求n po要求m v p。X =X1 X2XP輸入數(shù)據(jù)矩陣:輸出變量: pc主分量Zj的雜致(

15、q,.,Cip),也叫因子米數(shù);注 意:pd*pc=單值陣score是主分量下的得分彼;得分矩陣與數(shù)羽矩陣 X的階效是一致的;variance是score時應(yīng)列的方差向量,即和關(guān)系數(shù) 矩陣R的特征值;余易計算方差所占的百分比percent-v = 100Avariance/$um (variance);t2表示檢球的t2-疣討董(主要用于方差分析)總結(jié):關(guān)于主成分的實際定義要結(jié)合具體問題 和有關(guān)專業(yè)知識才能給出合理的解釋。雖然 利用主成分本身可對所研究的問題在一定程 度上作分析,但主成分分析本身往往并不是 最終目的,更重要的是利用主成分綜合原始 變量的信息,達到降維的目的,然后對數(shù)據(jù) 作進一步

16、的分析,如回歸分析、聚類分析、 判別分析等。主成分分析計算步驟計算相關(guān)系數(shù)矩陣(1)在(353 )式中,q (i/j=l/2/./為原變量的xi與夕.之間的相關(guān)系數(shù),其計算公式為X。%-兄)(%-虧)片)二(均一弓)2V A-I*-1( 2 )因為R是實對稱矩陣(即個喻,所以只需計算上三角元素或下三角元素即可。計算特征值與特征向量首先解特征方程W-可=0 ,通常用雅可比法(Jacobi )求出特征值 4& = 12,p),并使其按大小順序排列,即4之之之學乙之。;然后分別求 出對應(yīng)于特征值人的特征向量4(i = 12,)。這里要求悶=1,即”1 , 1其中與表示向量q的第/個分量。計算主成分貢

17、獻率及累計貢獻率主成分z,的貢獻率為白(,=12一,)Jt=l累計貢獻率為G = 12:p)A=1一般取累計貢獻率達8595%的特征值4,4,4所對應(yīng)的第一、第 二,第777 ( m就是要尋找的投影方向令w(Z)和灰Z)分 別為量Z的組內(nèi)和組間的離差G ,過,(2)= ZZ (Z6ZQGb9 - nx(Z-Z)可以證明,可以從下式求得。m2=r(xr:1 Tx2 )f=l,2 .冽r-l 其中、,叫十犯W(而|一毛”為C與無關(guān),對所求的僅起放大或縮小的作用。求得營后,則可計算兩組樣本在投影空間上的均值r/t&= Z “心 K=L 2-1及在直線上的分界點Z” =浮1 +*2 對于任意給定的樣本

18、,算出它們的判別函數(shù),即投影點ZG)m Z 371t1當ZQ) z,時,把樣本歸為第一類母體,反之則為第二類母體.一、相關(guān)知識已知N個維樣本數(shù)據(jù)集合% = 七,小其中,M個屬于助類,N2個屬于燈類。Fisher線性判別的基本原理是:把維空間的樣 本投影到一條直線上,形成一維空間。找到某個最好的、最易于分類的投影方向,使在這個 方向的直線上,樣本的投影能分開得最好。這就是Fishe法所要解決的基本問題。對乙的分量作線性組合y,t = H = T,2,,N(F2.1)從幾何意義上看,若MH = 1 ,則每個K就是相對應(yīng)的X”到方向為w的直線上的投影。 W的方向不同,將使樣本投影后的可分離程度不同,

19、從而直接影響識別效果。尋找最好投 影方向w* , Fishe準則函數(shù)為(F2.2 )式中,比為樣本類間離散度矩陣,S”為樣本總類離散度矩陣。使人)取極大值時的“ 即為4維空間到一維空間的最好投影方向:(F2.3 )式中,%i = l,2為在”維空間的兩類樣本的均值向量。 利用先驗知識選定分界閾值點兒,例如選擇(F2.4 ).而+疥2.N向 + N2m2 _ =itjN/N?病 i + 而ln(P3)/ P,)(F2.5 )(F2.6 )式中,鳳,i = 1,2為投影到一維空間的兩類樣本的均值,尸(3” =1,2為兩類樣本的先驗 概率。對于任意未知類別的樣本X,計算它的投影點y :(F2.7 )

20、y = wx決策規(guī)則為MATLAB 中有函數(shù) fisheiris、classify 可以調(diào)用(2 ) K-最鄰近法(KNN)MATLAB里面的函數(shù)knnclassify可以調(diào)用K最鄰近法在化學卜一應(yīng)用極為廣泛,它是直接以橫:式識別的基本假設(shè)即同類 樣本在模式空間相互靠近為依據(jù)的分類方法。這種算法極為直觀,即使圻研究的體 系線性不可分,這種方法仍卬應(yīng)用.KNN法對每一個待判別的未知樣本,逐一計算與各訓練樣本之間的距離,找 占其中最近的K個進行判決。如K = l,很自然未知樣本的心屬與這一個最近鄰樣 本相同.如K1,則未知樣本與這K個最近鄰樣本不一定屬于一類,這時要采用 “表決”的方法,對這K個近

21、鄰的情況按少數(shù)服從多數(shù)進行表決。一個近鄰相當于 一票、但考慮K個鄰近與未知樣本的距離有所判別,所以對各票進行加權(quán),距離 最近的近鄰的類屬.應(yīng)予以較重的權(quán)。KKV二率*=各含式中,以為近鄰的類屬取值。對兩類分類,i屬于第一類時取“十”,屬于第 二類時取“一 1”。D,為未知樣本與第,個近鄰的距離,K為最近鄰數(shù)。當V0 時,則未知樣本歸入為類I;否則歸于類2。這種方法因采用獲多數(shù)“票的方法確定未知樣本的也屬,所以K一般采丹 奇數(shù)。K值不同時,未知樣本的分類結(jié)果可能不同。KNN法結(jié)果的準確性與K值的關(guān)系較大。雖然現(xiàn)在K值的選擇尚無規(guī)律可 循但實際中K值的選擇一般可采用類重心法,即將訓練集中每類的重心

22、求Hl, 比較未知樣本與類重心的距離,并根據(jù)最小生翱來判別未知樣本的類別歸屬。此時 因判別未知樣本時僅需計算它與類重心的距.離,所以計算量可以大大減少。KN法無需要求對不同類的代表點線件可分,只要用每個未知點的近鄰類來 判別就可以.KNN法也不需要作訓練過程,KNN法的跳笈是它沒有對訓練點作 信息壓縮,因此每判別一個新的未知點都需要把它和所有已知代表點的距禽全部算 一遍,因此計算工作信大,對已知代表點太多的情況不甚合適.但正是因為沒有作 信息壓縮,而用全體已知點的原始信息作判據(jù),故有時可得到極好的預(yù)報準確率, 其效果一般優(yōu)于或等于其它模式識別方法。(3 ) 模型分類方法(Soft indepe

23、ndent modelling of class analogy , SIMCA )31MCA日叫(soft independent modeling of class analogy)法是模型分類方法, 即對每一類構(gòu)造一個主成分模型,在此基礎(chǔ)上進行樣本的分類。此法在1976年 由瑞典學者S.Wold提出。SIMCA方法的特點是按樣本類別分別處理樣本的數(shù)據(jù), 假定每一類樣本的分布有其特有的規(guī)律性,我們可以用一個統(tǒng)一的線性方程近似 地描述其分布,則可按SIMCA方法處理。假定有個樣本點分布在,維空間中,已知有0類,還包括未分類的樣本。芍 I r!2Xln為樣本數(shù);,為變量數(shù)(如波長數(shù)):q為類數(shù)

24、:%為類內(nèi)部的樣本數(shù), 對于類/其主成分回歸模型為:o=(3-4)式中。一主成分數(shù):,一主成分參量,對應(yīng)于變量A8一得分變量,對應(yīng)于樣本數(shù)4一各樣本的諸變量張開的模式空間的實際維數(shù); 一擬合誤差。步驟:.對X進行標準化.交互驗證法確定主成分數(shù)4(1)將訓練集中的某一類進行分組,分組應(yīng)考慮到樣本的代表性,即將劃分 的任何一組樣本從訓練集中除去后,應(yīng)不會影響到原訓練集的代表性。首先將該類的第一組樣本從訓練集中除去,以剩余樣本做訓練集,建立 主成分模型,進行擬合。 使用中建立的模型去擬合被除去的樣本,令。= 1,2,7-1或-1 (取 其中較小的),對應(yīng)于每個,值,計算這些樣本的光譜與其擬合的光譜間

25、的殘差, 求出對應(yīng)于。的殘差平方和4O(4)將這些樣本重新放回到訓練集中。(5)再從訓練集中除去該類的另外一組樣本,重復(fù)步驟(3),直到該類中的 每一組樣本恰好被除去1次為止。(6)將上述計算得到的各組的殘差平方和相加,得到殘差平方和根據(jù)下 式進行尸檢驗,從而確定最佳“值。(.3-5)尸二2 (,_0_ 1)(7)以同樣方式確定各類的最佳主成分數(shù)。即建立起各類的擬合模型。并計 算訓練集的殘差標準差: =心(疔啟-4-1麻-4日A=l 1=1/.未知樣本的分類在為訓練集的每一類q建立了模型后,得到了一套參量如和6。使用 校驗集樣本進行考察,用類的主成分模型對未知樣本做回歸擬合:。一年=2琮% +

26、琮(3-7)0=1其中/為回歸得到該樣本的得分向量,這時可考察它是否落在第7類的得分 范圍內(nèi)。同時,由各變量/(,個)的和自由度(,-4),計算殘差標準差:38)判別樣本是否屬于第4類,使用F檢驗:*/(%-下-1的)7 附(3-9)將計算得到的產(chǎn)值和仁兄比較,如果尸金兄,則樣本屬于q類;否則,樣 本將歸于其它類,再用訓練集中另一類的模型去做上述的重復(fù)擬合過程,直到確 定類屬為止。如果樣本不屬于訓練集中的任何一類,則將其歸類于訓練集外的一 新類。SIMCA法屬子類模型方法.即對每類構(gòu)法-個主成分的回歸模型,并在此基 礎(chǔ)上進行樣本的分類例如有如下的數(shù)據(jù)矩陣:變 ft擇本12k N1Xuyit y

27、u 3】、9V21依 .9Xx3Xu丁港 Jn.v4y;i加 J4.ViM】y* *.MVw?VmK*4類】莢Q未分云桂本訓練集利k集其中,N為樣本數(shù),M為變量,即維數(shù),Q為類數(shù).對于某一類樣本,主成分回歸模型為A% % + s山8at+J式中,。為變量,的均值;4為主成分數(shù)1H和6是為使偏差達到極小的 參數(shù)。對于多類樣本,則主成分回歸模型為:A丁然二中,+ X附心 +*a l I其中q表示類,SICMA方法的計算步驟如下。第1步:數(shù)據(jù)標準化。第2步:主成分數(shù)4的確定。第3步:主成分模型中產(chǎn)和。等參數(shù)的確定。這兩個參數(shù)可以由矩陣Z3,ZW 對角化求得。ZW矩陣為第q類訓練集中每一個變量減去平均

28、值后所形成的數(shù)據(jù) 陣,可由Z值減去公式中3和。和乘積項得到,則方差可由下式求得:S M卻=2(四產(chǎn)兀(叫一人一1)(乂一人)一旦每一類中匕述卷數(shù)求H;之后,即可運用主成分回歸模式去預(yù)測未知樣本。第4步:未知樣本預(yù)測 用主成分回歸模式去也合未知樣本,擬合方法與一般 多?;貧w相同。此時Z=y/-a,為因變量.(=1, 2, A)為自變量:= -可)=L/里4金“n 1式中,。為回歸系數(shù)。樣本的擬合程度可由下式表示:MS = (2)2./(M-Aq)i = 判別樣本。是否q類.可用尸顯著性檢驗,其公式為:f-OJ -Aq -1)/s/s將F值的計算值與臨界值自由度分別為M-AQ和心一人一 1)(“一

29、 A。)相比較,若FVF臨界,則樣本。歸入。類;否則格擬合干其它類,此時F 檢臉性公式為;f=st7s”,第5步:兩類間相似發(fā) 用類廠中的所有樣本去擬合類4主成分模型,則可以 得到類間的相似度測盤。類和類同的方差為:心 MM-AN將計算得到的方差與第3步中計算得到的方差相比較,可以得到兩類間相似度 的測量第6步,變量重要性的測量 變量在判別中的重要性可由殘余方差與原始數(shù)據(jù) 的方差相比校的得。若原始數(shù)據(jù)經(jīng)過標準化處理,則所有變量i的方差相同:S3 =自勞(月八-”25)-1 /1qS3 = Z(e 攵)2/,1“值越大,即殘余方差與原始數(shù)據(jù)方差的比值愈小.該變量在主成分模型中 的作用就越大。第7

30、步:樣本相關(guān)性測量與變量相同類,即將樣本的殘余方差計算式(第4 步中)與某-一類的整個方差計算式(第3步中)相比較(F檢驗),其殘余方差越(4)支持向量機(SVM)一、相關(guān)知識已知數(shù)據(jù)(孫弘),(電,,2),,(,果)七八1其中,X = x,i = 1,2, u京表示個維樣本集, = +i = 1,2,。,y=l或 -1標記兩類樣本。對于一個新的數(shù)據(jù)x ,判別x屬于哪一類,即判斷(x,),)中的y是+1還 是一1 O支撐向量機可表示為如下的二次規(guī)劃問題:(嗎 n(知七)一之%N /-I 7-1/-I二(F6.1)st 2必=。,0 a, (m)=Za;M(。,) , i=la;0/ / / 、

31、b = F。盤%2/(孫巧)+。萼2.。不同的核函數(shù)表現(xiàn)為不同的支撐向量機算法,常用的積函數(shù)有以下幾類:d階非齊次多項式核函數(shù)和d階齊次多項式核函數(shù)K(x,xJ= (x-xj + lrf 與 K(x,xJ = (xxf)( F6.3 )(2)高斯徑向基核函數(shù)K(x,xj = exp 5-( F6.4 )b-(3) S型核函數(shù)K(X,X,) = tanh v(x-x,)4-c( F6.5 )(4)指數(shù)型徑向基核函數(shù)U(F6.6 )(F6.7 )exp(5)線性核函數(shù)K(x,xJ = x-Xj線性核函數(shù)是核函數(shù)的一個特例。(5 )自適應(yīng) boosting 方法(Adaboost)四、回歸分析(定量

32、分析)多變鼠咬正(多元校正)方法是同時考慮多個測量系統(tǒng)(稱為響應(yīng)向母或矩陣 V)與多個組分含量(稱為濃度向量或矩陣X)之間的對應(yīng)關(guān)系,即Y = X5 + E, 通過一定的數(shù)學方法建立校正模型,并確定模型叁數(shù),多元校正并不是單變夙校正 的簡單推廣,它可以斛決很多單變量校正中被認為不盯能實現(xiàn)的問題.多變量校正 多種多樣,如多元線性回H、因子分析、主成分回歸法和偏最小二乘法等?;瘜W計 顯學主要就是解決多變星校正問題,即研究多組分不經(jīng)分離或掩蔽進行同時測定的 問題。計算機科學與技術(shù)的發(fā)展使人們能在瞬間獲得大量的富含信息的多維化學量 濯數(shù)據(jù),也使復(fù)雜的數(shù)學處理過程得以順利進力.使大批不論是否對數(shù)學知識梢

33、通 的技術(shù)人員都能夠應(yīng)用化學計量學的方法去解決復(fù)雜問題.進而促進了化學校正理 論的進步發(fā)展。(1)主成分回歸(PCR)主成分回歸是在因子分析的基礎(chǔ)上進行的最小二乘回歸分析,以實現(xiàn)多組合混 合體系同時測定時的多元校正,它可以很好地解決線性回歸所遇到的變量線性相 關(guān)、矩陣病態(tài)或變量過多所帶來的相關(guān)問題。設(shè)有化學量測模理:X = Xnx mJSntX / +p首先對X陣進行主成分分析:T=XPT陣的維數(shù)可以與*陣相同,如果使用整個丁陣參加回歸,這樣得到的結(jié)果 與多元線性回歸沒有多大的區(qū)別,而主成分回歸一般只有前面k個主成分參與回 歸,因為前面的a個主成分包含rx矩眸的絕大部分有用的信息,而后面的主成 分則往往與噪聲和干擾因素有關(guān),這樣參與主成分回歸的是少數(shù)主成分組成的矩 陣,在維數(shù)上要遠遠小于x陣。將降維后的t陣與丫陣進行多元線性問歸,Y=TB+Ettv對于未

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論