互信息誘導子空間集成偏最小二乘在近紅外光譜定量校正中的應(yīng)用_第1頁
互信息誘導子空間集成偏最小二乘在近紅外光譜定量校正中的應(yīng)用_第2頁
互信息誘導子空間集成偏最小二乘在近紅外光譜定量校正中的應(yīng)用_第3頁
互信息誘導子空間集成偏最小二乘在近紅外光譜定量校正中的應(yīng)用_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、互信息誘導子空間集成偏最小二乘在近紅外光譜定量校正中的應(yīng)用         11-04-22 15:34:00     作者:譚超 覃鑫 李夢龍    編輯:studa20【摘要】  在集成框架下,提出了一種聯(lián)合自助采樣和基于互信息變量選擇的子空間回歸集成偏最小二乘算法MISEPLS。此算法的核心是通過訓練集自助采樣和隨后計算互信息的方式來引入成員模型的差異性。由于互信息量小于一個特定閾值的變量被淘汰,每個成員模型在原始變量的

2、一個子空間得到訓練。模型融合考慮了簡單平均和加權(quán)平均兩種方式。通過兩個近紅外光譜定量校正實驗,與建立單模型的全譜偏最小二乘算法(PLS)和基于互信息變量選擇的偏最小二乘算法(MIPLS)進行了比較。結(jié)果表明,在不增加模型復雜度的情況下,MISEPLS能建立起更精確、更穩(wěn)健的校正模型。 【關(guān)鍵詞】  互信息,子空間,集成,校正,近紅外光譜1  引言    近年來, 近紅外光譜(NIR)技術(shù)以其簡便、快捷、低成本、無污染以及不破壞樣品等優(yōu)點,被越來越多地應(yīng)用于石油、化工、醫(yī)藥、食品等領(lǐng)域1。近紅外光譜對應(yīng)分子中含氫基團的振動倍頻與合頻,加之各種干擾

3、存在和物理因素影響,具有背景復雜、譜峰重疊、變動、信號弱的特點,其中的有效信息率非常低。因此,從復雜、重疊、變動的光譜信號中提取微弱的有用信息,并建立校正模型是應(yīng)用近紅外光譜技術(shù)的難點和關(guān)鍵,直接決定了其可用性?;瘜W計量學算法已成為近紅外光譜技術(shù)的核心技術(shù)之一。具有代表性的化學計量學算法包括偏最小二乘(PLS)、人工神經(jīng)網(wǎng)絡(luò)(ANN),、支持向量機(SVM)1等。    傳統(tǒng)的校正技術(shù)一般基于建立單一模型,在很多情況下,特別是當訓練集較小時,單一模型的預(yù)測能力與穩(wěn)健性難于達到要求1。起源于機器學習的集成或共識(Ensemble or consensus)策略為解決

4、該類任務(wù)提供了新思路1。所謂集成就是利用多個模型來解決同一個問題。對于模型設(shè)計者,不必試圖采用復雜算法建立單個復雜模型,而是利用多個簡單模型某種互補,可達到同樣的目標。通常,在集成框架下,需要通過某種擾動(如對樣本或變量重采樣)產(chǎn)生分散的訓練子集,并建立相應(yīng)的成員模型,再通過簡單平均或加權(quán)平均等方式將多個成員模型整個合起來,最終產(chǎn)生一個所謂的集成模型。集成最早應(yīng)用于模式識別,由于其呈現(xiàn)出的眾多優(yōu)勢,在化學計量學領(lǐng)域也已受到廣泛關(guān)注。文獻中報道了一些有效的集成算法,如BaggingPLS 1, Boosting KPLS 1, Subagging PLS 1, Consensus PLS1等。與

5、單模型算法相比,集成類算法能更充分地利用訓練樣本信息,因而能產(chǎn)生更精確和更穩(wěn)健的校正模型。    在集成框架下,本研究提出了一種聯(lián)合自助采樣和基于互信息變量選擇的子空間回歸集成算法MISEPLS。其主要特點是綜合訓練集自助采樣(Bootstrap) 1和互信息(Mutual information) 1變量選擇來引入成員模型的差異性。由于互信息量小于一個特定閾值的變量被淘汰,每個成員模型在原變量集的一個子空間訓練,因此可避免多元共線性帶來的諸多問題。同時,也比較了簡單平均和加權(quán)平均兩種模型整合(融合)方式。通過兩個近紅外光譜定量分析實例及與建立單模型的全譜偏最小二

6、乘算法(PLS)、基于互信息變量選擇的偏最小二乘算法(MIPLS)比較,驗證了其綜合性能:該算法能在不增加模型復雜度的前提下,顯著提升校正模型的預(yù)測精度和穩(wěn)健性。2  原理與算法    近紅外光譜定量分析需借助校正模型。構(gòu)建模型的過程即是校正,需根據(jù)校正集樣本求回歸系數(shù)b。不同的回歸系數(shù)代表了不同的模型,具有不同的性能。在集成框架下,設(shè)計一個算法需考慮3個基本問題19:(1)成員模型類型  “成員模型”即用于集成的單個模型,是與集成模型相比較而命名的。成員模型類型由基算法決定(基算法是訓練成員模型的算法),所以成員模型也被稱為基模型。本研究采用

7、偏最小二乘(PLS)為基算法; (2)生成多個不同的成員模型  本研究用自助(Bootstrap)重采樣結(jié)合基于互信息計算的變量篩選方法。互信息是信息論中的重要概念,它可作為兩個變量間相關(guān)性的量度,或一個變量包含另一個變量的信息量的量度。設(shè)有隨機變量x和y,它們的邊緣概率分布和聯(lián)合概率分布分別為Px(x), Py(x)和Pxy(x,y),這兩個變量間的互信息定義為:(x,y)=Px,y(x,y)Px(x)·Py(y)Px,y(x,y)(1)可見,計算MI需先估計概率密度。一般先將x和y的取值范圍細分為一定數(shù)量的小區(qū)間,并將XY平面劃分為若干個方塊,再通過統(tǒng)計直方圖來近似概率

8、分布。若x和y分別表示光譜某波長(波數(shù))處響應(yīng)和濃度,則MI(x,y)表示在獲知樣本在該波長變量的響應(yīng)后,濃度值的不確定性減少的量。與相關(guān)系數(shù)相比,互信息能兼顧變量間的線性和非線性,而光譜響應(yīng)與物質(zhì)濃度間的非線性是普遍存在的;自助采樣又使變量間的互信息有所變化,這恰是集成建模所需的分散性,因此將互信息用在光譜集成校正中是可行的; (3)多個成員模型的融合  本研究采用簡單平均與加權(quán)平均兩種方式。    提出的MISEPLS算法主要包括以下步驟:(1)在訓練樣集上采用交叉驗證的方式確定出最優(yōu)全譜PLS模型的潛變量數(shù)Lvs(所有成員模型的潛變量數(shù)將設(shè)為這個數(shù)

9、),并確定集成規(guī)模成員模型數(shù)(M)和候選成員模型總數(shù)。根據(jù)文獻2,集成超過25個成員模型并無必要。因此,本研究固定這兩個參數(shù)分別為30和100 ,即僅30%候選成員模型用于最后集成。 (2)用自法助對原訓練集重采樣(隨機有放回采樣),產(chǎn)生一個同樣大小的當前訓練集。 (3)在當前訓練集上,計算光譜變量和因變量(濃度)的互信息,產(chǎn)生互信息譜,并計算該譜的平均值(mean)和標準偏差(std.)。然后,定義閾值為:mean+1.5std.(根據(jù)前期實驗研究)。通過僅保留互信息大于該閾值的變量,原光譜空間被削減為一個子空間,訓練集光譜矩陣變?yōu)橐恍〉淖泳仃嚒?(4)在子空間內(nèi),建立一個成員PLS模型fm

10、(x),并用其預(yù)測原始訓練集樣本,得RMSEC值;(5)重復步驟(2)(4),直至候選成員模型數(shù)達到指定要求(100)。 (6)根據(jù)RMSEC值從小到大對候選成員PLS模型排序,并保留前30個PLS模型用于集成。 (7)用兩種方法融合PLS模型為集成模型:(A)簡單平均融合(SAF); (B)加權(quán)平均融合(WAF)。 對于后者,還需求加權(quán)系數(shù)m。若用F(x)表示集成模型,則這兩種融合方法可統(tǒng)一表示為:(x)=Mm=1mfm(x)(2)   假設(shè)有N個訓練樣本,并用fm(xi)表示第m個成員PLS模型對第i個樣本的預(yù)測值, yi 表示濃度的參考值,則通過求解線性方程

11、組:f1(x1)f2(x1)fM(x1)f1(x2)f2(x2)fM(x2)  f1(x)f2(x)fM(x)·  yy  yN(3)可得加權(quán)系數(shù)m。當m=1(m=1,2,M)時,即為簡單平均。可見,簡單平均是加權(quán)平均的特例。一旦獲得集成模型(系數(shù)向量),通過光譜與系數(shù)向量間的點積運算即可對未知樣品的濃度進行預(yù)測。兩種融合策略SAF、WAF產(chǎn)生了MISEPLS算法的兩個版本,分別用MISEPLS1和MISEPLS2表示。此外,基于互信息變量選擇的建立單個PLS模型的算法用MIPLS表示。3  實驗部分3.1  數(shù)據(jù)集 

12、60;  本研究使用兩個近紅外光譜定量分析數(shù)據(jù)集:(1)煙草數(shù)據(jù)Cigarette:包含148個某卷煙廠的煙絲樣本,掃描光譜范圍為8302500 nm(德國BRUKER公司MarixE儀器),每個光譜由691個數(shù)據(jù)點組成。每個樣品的總糖(TS)和尼古丁(NIC)由連續(xù)流動分析儀(荷蘭SKALAR公司San+儀器)給出,以質(zhì)量百分數(shù)表示。所有樣本均有TS參考值,僅81個樣本有NIC參考值。TS濃度范圍為20.93%26.98%,標準偏差為1.46%;NIC濃度范圍為1.59%2.76%,標準偏差為0.30%。對每一光譜均實施了變量標準化處理(SNV),以去除微粒尺寸和附加散射等物理效應(yīng)

13、的影響;(2)酒類數(shù)據(jù)Wine:該數(shù)據(jù)集來至文獻2,包含124個酒類樣本,掃描光譜范圍為4004000 cm1,每個光譜由256個數(shù)據(jù)點組成,并提供樣本酒精(Alcohol)含量。3.2  樣本分割    為構(gòu)建校正模型并對其進行有效評價,需實施訓練集和測試集分割。本研究采用樣本排序與交替重采樣相結(jié)合的方法來實現(xiàn)。排序采用Galvo等提出的SPXY算法22。該算法是在樣本距離定義中引入了化學值(濃度),是對經(jīng)典KS算法的擴展,特別適合于定量任務(wù)。在該分割方案中,先計算所有樣本間的歐氏(Euclidean)距離,并挑選出相距最遠的兩個樣本,再依次挑選出與已挑出樣本具有“最大最小距離”的樣本,直到所有的樣本被挑出。按被挑出的次序,樣本排列成一個序列;再用間隔采樣,以21的比例產(chǎn)生訓練集和測試集,結(jié)果如表1第3列所示。4  結(jié)果與討論4.1  算法性能比較    采用兩個基于均方誤差(RMSE)的指標評價和比較不同算法的性能,對訓練集和測試集,RMSE分別表示為RMSEC與RMSEP。表1總結(jié)了4種算法所產(chǎn)生

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論