




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、.光譜變換技術(shù)結(jié)合連續(xù)投影算法在模型簡(jiǎn)化中的應(yīng)用 專(zhuān)業(yè):測(cè)控技術(shù)與儀器 學(xué)號(hào):20070310110104 摘要小波變換(Wavelet Transformer,WT)技術(shù)結(jié)合連續(xù)投影算法(Successive Projection Algorithm,SPA)用于近紅外光譜(Near Infrared Spectroscopy,Vis/NIR)和拉曼光譜(Raman Spectroscopy,RS)有效建模波長(zhǎng)的選擇,并采用選擇后的變量建立偏最小二乘回歸(Partial least squares Regression,PLSR)模型。分別采用近紅外透射光譜和RS技術(shù)對(duì)葡萄酒酒精度和藥片活性
2、成分含量進(jìn)行定量分析。將107個(gè)葡萄酒樣品的近紅外光譜按照近似2:1的比例進(jìn)行校正集和預(yù)測(cè)集樣本的選擇,因此,71個(gè)樣本作為校正集,36個(gè)樣本作為預(yù)測(cè)集,將WT-SPA-PLSR方法用于葡萄酒酒精度分析,結(jié)果表明,采用WT-SPA-PLSR方法后,酒精度模型的預(yù)測(cè)均方根誤差(root mean square error of prediction,RMSEP)由12.594減小為12.548,預(yù)測(cè)相關(guān)系數(shù)(Correlation coefficient,R)沒(méi)有變化仍為0.951,AIC值由5040.199減小為152.694,建模變量由69個(gè)變?yōu)?7個(gè);將120個(gè)藥片的RS按照2:1的比例進(jìn)
3、行樣品集劃分,80個(gè)樣本作為校正集,40個(gè)樣本作為預(yù)測(cè)集,將WT-SPA-PLSR方法用于藥片活性成分含量分析,結(jié)果表明,采用WT-SPA-PLSR方法后,藥片活性成分含量的RMSEP由7.561變?yōu)?.689,R沒(méi)有變化仍為0.929,AIC值由7406.874減小為201.484,建模變量都是78個(gè)。因此,采用WT-SPA-PLSR方法不僅可以提高Vis/NIR分析模型的精度,而且可以有效簡(jiǎn)化模型;采用WT-SPA-PLSR方法雖然沒(méi)有提高RS分析模型的精度,但是誤差相差不大,更為重要的是,采用WT-SPA-PLSR方法可以有效簡(jiǎn)化RS分析模型。關(guān)鍵詞:小波變換;連續(xù)投影算法;近紅外光譜;
4、拉曼光譜;偏最小二乘法By using Spectrum change technology combined with Successive Projection Algorithm to simplified model Abstract Wavelet Transformer(WT) combined with Successive Projection Algorithm (SPA) were used to select effective wavelengths from Near Infrared Spectroscopy (Vis/NIR) and Raman Spectros
5、copy(RS).The selected effective wavelengths were as inputs of Partial least squares Regression (PLSR) model. Using Vis/NIR technique to analyze the alcohol content in wine, and using RM technique to analyze the active substance contents of pharmaceutical tables. Separate Vis/NIR of wine samples into
6、 71 samples for calibration and 36 samples for prediction according to the proportion of approximate two for one. Using the method of WT-SPA-PLSR to analyze the alcohol content in wine. Results show that after adopting the method of WT-SPA-PLSR, root mean square error of prediction (RMSEP) of the mo
7、del of wine is from 12.594 reduced to 12.548, Correlation coefficient(R) remain unchanged, is still 0.951,value of AIC is from 5040.199 reduced to 152.694,variables for building model are from 69 reduced to 67.Separate RM of pharmaceutical tables into 80 samples for calibration and 40 samples for pr
8、ediction according to the proportion of two for one. Using the method of WT-SPA-PLSR to analyze the active substance contents of pharmaceutical tables. Results show that after adopting the method of WT-SPA-PLSR, RMSEP of the active substance contents of pharmaceutical tables is by 7.561 into 7.689,R
9、 is still 0.929,value of AIC is from 7406.874 reduced to 201.484, variables for building model remain unchanged, are still 78. So, adopt the method of WT-SPA-PLSR can not only improve the precision of the analysis model of Vis/NIR, and can effectively simplified model. However, there is no improveme
10、nt in prediction accuracy of the analysis model of RS, there is not much difference between analysis model with and without adopting the method of WT-SPA-PLSR. Most important is the method of WT-SPA-PLSR can effectively simplified model. Keyword:Wavelet Transformer; Successive Projection Algorithm;
11、Near Infrared Spectroscopy;Raman Spectroscopy;Partial least squares Regression目錄摘要- 1 -Abstract- 2 -第一章 緒論- 4 -1.1 近紅外光譜介紹- 4 -1.2 拉曼光譜介紹- 4 -1.3 常用波長(zhǎng)選擇方法- 5 -1.4 常用預(yù)處理方法- 5 -第二章 材料和方法- 7 -2.1樣本采集- 7 -2.1.1葡萄酒近紅外光譜的采集- 7 -2.1.2藥片拉曼光譜采集- 7 -2.2小波變換原理- 7 -2.3連續(xù)投影算法的實(shí)現(xiàn)- 8 -2.4偏最小二乘回歸模型的建立- 9 -2.5 AIC信息
12、標(biāo)準(zhǔn)值- 13 -第三章 實(shí)驗(yàn)結(jié)果和分析- 13 -3.1近紅外光譜實(shí)驗(yàn)數(shù)據(jù)分析- 13 -3.2近紅外光譜實(shí)驗(yàn)結(jié)果和分析- 13 -3.2.1原始光譜建模- 13 -3.2.2應(yīng)用SPA選取有效波長(zhǎng)建模- 15 -3.2.3應(yīng)用WT-SPA選取有效波長(zhǎng)建模- 15 -3.3拉曼光譜實(shí)驗(yàn)數(shù)據(jù)分析- 16 -3.4藥片拉曼光譜的實(shí)驗(yàn)結(jié)果和分析- 17 -3.4.1原始光譜建模- 17 -3.4.2應(yīng)用SPA選取有效波長(zhǎng)建模- 18 -3.4.3應(yīng)用WT-SPA選取有效波長(zhǎng)建模- 18 -第四章 結(jié)論- 20 -參考文獻(xiàn)- 21 -第一章 緒論1.1 近紅外光譜介紹 酒精度是葡萄酒的一個(gè)重要理化指
13、標(biāo),如何對(duì)其進(jìn)行快速、簡(jiǎn)便、準(zhǔn)確地測(cè)定,對(duì)葡萄酒產(chǎn)品的品質(zhì)及其質(zhì)量監(jiān)控都具有重要的意義1 王豪,鄔蓓蕾,林振興,岑倩.傅里葉變換近紅外光譜法快速測(cè)定葡萄酒中的酒精度J.China Brewing,2008,184:72-73.1。測(cè)定葡萄酒中酒精度的國(guó)家標(biāo)準(zhǔn)(GB/T 5009.48)需將酒樣先蒸餾、定容,再用比重瓶或酒精計(jì)法測(cè)定,方法費(fèi)時(shí)、費(fèi)力,且測(cè)定結(jié)果只能保留一位小數(shù),儀器分析方法(如氣相色普法)分析酒中酒精度操作復(fù)雜,且儀器昂貴1。本文將采用近紅外光譜(Near Infrared Spectroscopy,Vis/NIR)分析技術(shù)進(jìn)行葡萄酒酒精含量測(cè)定的研究。近年來(lái),隨著計(jì)算技術(shù)的進(jìn)步
14、和測(cè)試技術(shù)的提升,現(xiàn)代Vis/NIR分析技術(shù)以其分析速度快、效率高、成本低和易于實(shí)現(xiàn)在線分析等特點(diǎn),在農(nóng)業(yè),醫(yī)藥、石化、煙草和食品等行業(yè)得到廣泛應(yīng)用2 高洪智,盧啟鵬,丁海泉,彭忠琦.連續(xù)投影算法的土壤總氮近紅外特征波長(zhǎng)的選取J.光譜學(xué)與光譜分析,2009,29(11):2951-2954。Vis/NIR的信息來(lái)源于有機(jī)物分子的C-H、N-H、O-H等含羥基團(tuán)發(fā)生的倍頻以及合頻對(duì)光能量的吸收,不同基團(tuán)產(chǎn)生的光譜在吸收峰位和強(qiáng)度上有所不同,并隨樣品組成的變化其光譜在特征也發(fā)生變化,這就為Vis/NIR的定性和定量分析奠定了理論基礎(chǔ)1。Vis/NIR譜峰較寬、信號(hào)較弱、吸收波段歸屬不明確且嚴(yán)重重疊
15、,其數(shù)據(jù)通常呈多變量、強(qiáng)相關(guān)性、與樣品組成含量成線性關(guān)系,利用全波段進(jìn)行建模分析時(shí),光譜中的大量冗余信息及噪聲等使模型的性能受到影響。針對(duì)于近紅外的這些特點(diǎn),在利用光譜建模前,通常需要對(duì)其預(yù)處理或波長(zhǎng)選擇,在紛繁復(fù)雜的光譜信息中提取有用的信息,提高模型校正的速度和建模的效率是本文研究的重點(diǎn)。1.2 拉曼光譜介紹拉曼光譜(Raman Spectroscopy,RS)又稱(chēng)為拉曼效應(yīng),是由其發(fā)現(xiàn)者印度人C.V.Raman命名的,RS是研究分子振動(dòng)、轉(zhuǎn)動(dòng)的一種光譜方法。RS產(chǎn)生的原理和機(jī)制都與紅外光譜不同,但它提供的結(jié)構(gòu)信息卻是類(lèi)似的,都是關(guān)于分子內(nèi)部各種簡(jiǎn)正振動(dòng)頻率及有關(guān)振動(dòng)能級(jí)的情況,從而可以用來(lái)
16、鑒定分子中的官能團(tuán)。分子偶極矩變化是紅外光譜產(chǎn)生的原因,而RS是分子極化率變化誘導(dǎo)產(chǎn)生的,它的譜線強(qiáng)度取決于相應(yīng)的簡(jiǎn)正振動(dòng)過(guò)程中極化率的變化的大小,在分子結(jié)構(gòu)分析中,RS與紅外光譜是相互補(bǔ)充的。因此,一些在紅外光譜儀無(wú)法檢測(cè)的信息在RS能很好地表現(xiàn)出來(lái)。拉曼效應(yīng)普遍存在于一切分子中,無(wú)論是氣態(tài),液態(tài)和固態(tài),拉曼散射光譜對(duì)于樣品制備沒(méi)有特殊要求;對(duì)于樣品數(shù)量要求比較少,可以使毫克甚至微克的數(shù)量級(jí)。拉曼散射最突出的優(yōu)點(diǎn)是采用光子探針,對(duì)于樣品是無(wú)損傷探測(cè),尤其適合對(duì)那些稀有或珍貴的樣品進(jìn)行分析,甚至可以用RS檢測(cè)活體中的生物物質(zhì)。RS的缺點(diǎn)之一是會(huì)產(chǎn)生熒光干擾,樣品一旦產(chǎn)生熒光,RS會(huì)被熒光所堙滅
17、檢測(cè)不到樣品的拉曼信號(hào)。為使檢測(cè)靈敏度低3 田國(guó)輝,陳亞杰,馮清茂.拉曼光譜的發(fā)展及應(yīng)用J.化學(xué)工程師,2008,148(1):34-36.。本文將利用葡萄酒Vis/NIR和藥片RS作為研究對(duì)象建模,因此,在利用光譜建立校正模型前,通常需要對(duì)其預(yù)處理或波長(zhǎng)選擇,即針對(duì)特定的樣品體系,通過(guò)對(duì)光譜的適當(dāng)選擇、處理和變換,削弱以至于消除各種非目標(biāo)因素對(duì)光譜的影響,提高物系性質(zhì)參數(shù)對(duì)光譜的分辨率和靈敏度4 成忠,張立慶,劉赫揚(yáng),諸愛(ài)士.連續(xù)投影算法及其在小麥近紅外光譜波長(zhǎng)選擇中的應(yīng)用J.光譜學(xué)與光譜分析,2010,30(4):949-9524。1.3 常用波長(zhǎng)選擇方法常用的波長(zhǎng)選擇方法,如相關(guān)系數(shù)法5
18、 Min M,Lee W S.Determination of significant wavelengths and prediction of nitrogen content for citrusJ.Trans.ASAE,2005,48(2):455-461.5、載荷值法6 Wu D,He Y,F(xiàn)eng S.Short-wave near-infrared spectroscopy analysis of major compounds in milk powder and wavelength assignmentJ.Anal.Chim.Acta,2008,610(2):232-242
19、.6、回歸系數(shù)法6等大多根據(jù)主觀經(jīng)驗(yàn)進(jìn)行閾值選擇,而退火算法7 Kalivas J H,Roberts N,Sutter J M.Global optimization by simulated annealing with wavelength selection for ultravioletvisible spectrophotometryJ.Anal.Chem.,1989,61(18):2024-2030.7和遺傳算法8JouanRimbaud D,Massart D L,Leardi R,et al.Genetic algorithms as a tool for wavelengt
20、h selection in multivariate calibrationJ.Anal.Chem.,1995,67(23):4295-4301.8的搜尋過(guò)程非常耗時(shí),且不穩(wěn)定。而連續(xù)投影算法(successive projections algorithm,SPA)是一種新的變量提取方法,利用向量的投影分析,選取含有最低冗余度和最小共線性的有效波長(zhǎng),對(duì)信號(hào)波長(zhǎng)進(jìn)行優(yōu)選,大大減少建模所需變量的個(gè)數(shù),提高建模的速度和效率9 吳迪,吳洪喜,蔡景波,黃振華,何勇.基于無(wú)信息變量消除法和連續(xù)投影算法的可見(jiàn)-近紅外光譜技術(shù)白蝦種分類(lèi)方法研究J.紅外與毫米波學(xué)報(bào),2009,28(6);423-427.9
21、。1.4 常用預(yù)處理方法常用的波長(zhǎng)預(yù)處理方法有Savitzky-Golay平滑(SG)、變量標(biāo)準(zhǔn)化(SNV)、多元散射校正(MSC)、一階及二階導(dǎo)數(shù)處理(1-Der and 2-Der)、去趨勢(shì)處理(De-trending)、直接正交信號(hào)校正(DOSC)處理及小波變換(Wavelet Transform, WT)等。上述預(yù)處理方法中,WT是近十幾年才發(fā)展并迅速應(yīng)用到圖像和語(yǔ)言分析等眾多領(lǐng)域的數(shù)學(xué)工具,是繼110多年前建立傅里葉(Joseph Fourier)分析之后的一個(gè)重大突破10 王培茂.離散余弦變換與小波變換的比較N.河北理工學(xué)院學(xué)報(bào),2005,27(3):53-56.10。利用WT將原
22、始的光譜信號(hào)分成不同的頻率組分,并對(duì)不同的頻率組分進(jìn)行重構(gòu),即保持了傅里葉變換的優(yōu)點(diǎn)又滿足了局部性要求,具有多分辨、方向選擇性和自動(dòng)調(diào)焦的特點(diǎn)11 高榮強(qiáng),范世福,嚴(yán)衍祿,趙麗麗.近紅外光譜的數(shù)據(jù)預(yù)處理研究J.光譜學(xué)與光譜分析,2004,24(12).1。通過(guò)WT預(yù)處理方法,可以很好的實(shí)現(xiàn)光譜數(shù)據(jù)平滑、降噪以及消除基線漂移。 本文將利用WT-SPA提取的有效波長(zhǎng)作為偏最小二乘回歸(Partial least squares Regression,PLSR)模型的輸入,建立WT-SPA-PLSR變量分析模型,應(yīng)用于葡萄酒樣品的酒精度分析和藥片活性成分的研究,預(yù)測(cè)其均方根誤差(root mean
23、square error of prediction,RMSEP)和相關(guān)系數(shù)(Correlation coefficient,R),并求得AIC信息標(biāo)準(zhǔn)值12 R.A.Viscarra Rossel,T.Behrens.Using data mining to model and interpret soil diffuse reflectance spectraJ.Geoderma,2010,158:46-54.2。并將此結(jié)果與分別采用原始光譜及僅應(yīng)用SPA得到的有效波長(zhǎng)作為PLSR模型輸入的結(jié)果進(jìn)行比較。AIC信息標(biāo)準(zhǔn)值用于比較模型的復(fù)雜程度,AIC值越小,模型的復(fù)雜程度越低。第二章 材料
24、和方法2.1樣本采集2.1.1葡萄酒近紅外光譜的采集(1)儀器MPA傅立葉變化近紅外光譜儀(帶有RT-Pbs檢測(cè)器、He、Ne激光器和石英樣品杯等配件及OPUS QUANT-2定量分析軟件):德國(guó)Bruker公司。(2)樣品與基礎(chǔ)數(shù)據(jù)來(lái)源收集來(lái)源于意大利、法國(guó)、澳大利亞、羅馬利亞、羅馬尼亞等國(guó)的107個(gè)葡萄酒樣品,包括紅葡萄酒、白葡萄酒、起泡葡萄酒等,根據(jù)GB/T 5009.48-2003標(biāo)準(zhǔn)對(duì)樣品的基礎(chǔ)酒精度數(shù)據(jù)進(jìn)行測(cè)定,樣品的酒精度為5.6%(v/v)14.5%(v/v)。(3)實(shí)驗(yàn)方法與光譜數(shù)據(jù)以蒸餾水為參比,將葡萄酒液體樣品注入直徑為2mm圓柱形品管中,在12000/cm4000/cm
25、譜區(qū)內(nèi),用動(dòng)鏡正反向移動(dòng)雙邊干涉采樣去掃描64次,分辨率為8/cm,采集樣品的透射光譜。每個(gè)樣品分別測(cè)試2次,取其平均光譜進(jìn)行Vis/NIR分析。2.1.2藥片拉曼光譜采集2.2小波變換原理小波變換的概念是由法國(guó)從事石油信號(hào)處理的工程師J.Morlet在1974年首先提出的,它的重要方面是圖象和信號(hào)處理。小波分析方法是一種窗口大?。创翱诿娣e)固定但其形狀可改變,時(shí)間窗和頻率窗都可改變的時(shí)域局部化分析方法,即在低頻部分具有較高的頻率分辨率和較低的時(shí)間分辨率,在高頻部分具有較高的時(shí)間分辨率和較低的頻率分辨率,正是這種特性,使小波變換具有對(duì)信號(hào)的自適應(yīng)性。其優(yōu)于傅里葉變換的地方是,它在時(shí)域和頻域同
26、時(shí)具有良好的局部化性質(zhì)。小波變換基本原理如下:設(shè)(表示平方可積的實(shí)數(shù)空間,即能量有限的信號(hào)空間),其傅里葉變換為。當(dāng)滿足允許條件(Admissible Condition): (1) (1)時(shí),其中為一個(gè)基本小波或母小波(Mother Wavelet)。將母函數(shù)經(jīng)伸縮和平移后,就可以得到一個(gè)小波序列。對(duì)于連續(xù)的情況,小波序列為 (2) (2)其中,為伸縮因子,為平移因子。 對(duì)于離散的情況,小波序列為 (3)對(duì)于任意的函數(shù)的連續(xù)小波變換為 (4) (4)其逆變換為 (5) 小波變換就是將任意信號(hào)表示為小波的疊加,信號(hào)的小波疊加表示將信號(hào)分解為不同的尺度級(jí)。在每一尺度級(jí),該信號(hào)又在這一尺度級(jí)對(duì)應(yīng)的
27、分辨率下被分解。尺度級(jí)對(duì)應(yīng)著頻率,頻率越高,對(duì)應(yīng)的分辨率越高,換句話說(shuō),我們將信號(hào)分解成了不同的頻率通道成份,并將每一頻率成份又按相位進(jìn)行了分解 頻率越高者,相位劃分越細(xì);反之則越疏。2.3連續(xù)投影算法的實(shí)現(xiàn)SPA是一種新興的波長(zhǎng)選取方法,能夠有效剔除眾多波長(zhǎng)變量之間的共線性影響,并使向量之間的共線性達(dá)到最小,降低模型的復(fù)雜度,提高建模的速度和效率,以其簡(jiǎn)便、快速的特點(diǎn)得到越來(lái)越多的應(yīng)用,在多種樣品波長(zhǎng)選取中得到了很好的效果。其算法原理如下2:定標(biāo)集的樣品數(shù)M和波長(zhǎng)數(shù)K組成一個(gè)Vis/NIR的吸收矩陣,分別記和為初始的迭代向量和需要提取的波長(zhǎng)個(gè)數(shù)。SPA是一種前向循環(huán)選擇方法,它從一個(gè)波長(zhǎng)開(kāi)始
28、,每次循環(huán),計(jì)算它在未選入的波長(zhǎng)上的投影,將投影向量最大的波長(zhǎng)引入到波長(zhǎng)組合,直到循環(huán)N次。每一次新選入的波長(zhǎng),都與前一個(gè)線性關(guān)系最小。SPA的步驟如下:(1) 初始化:(第一次迭代),在光譜矩陣中任選一列向量,記為(即);(2) 集合定義為:,即還沒(méi)有被選擇進(jìn)波長(zhǎng)鏈的列向量,分別計(jì)算對(duì)中向量的投影向量 (6) (6) (3) 記錄最大投影的序號(hào) (7) (4)將最大的投影作為下輪的投影向量 (8) (5),如果,回到(2)繼續(xù)投影。 這樣得到對(duì)波長(zhǎng)組合,對(duì)每一對(duì)和所決定的組合分別建立定標(biāo)模型,使用預(yù)測(cè)RMSEP來(lái)判斷所建模型的優(yōu)劣。選出最小的RMSEP,它所對(duì)應(yīng)的和即為最佳的波長(zhǎng)組合。2.4
29、偏最小二乘回歸模型的建立在實(shí)際問(wèn)題中,經(jīng)常遇到需要研究?jī)山M多重相關(guān)變量間的相互依賴(lài)關(guān)系,并研究用一組變量(常稱(chēng)為自變量或預(yù)測(cè)變量)去預(yù)測(cè)另一組變量(常稱(chēng)為因變量或響應(yīng)變量),PLSR方法是今年來(lái)發(fā)展起來(lái)的一種解決這一問(wèn)題的方法。PLSR提供一種多對(duì)多線性回歸建模的方法,特別當(dāng)兩組變量的個(gè)數(shù)很多,且都存在多重相關(guān)性,而觀測(cè)數(shù)據(jù)的數(shù)量(樣本量)又較少時(shí),用PLSR建立的模型具有傳統(tǒng)的經(jīng)典回歸分析等方法所沒(méi)有的優(yōu)點(diǎn)。PLSR分析在建模過(guò)程中集中了主成分分析,典型相關(guān)分析和線性回歸分析方法的特點(diǎn),因此在分析結(jié)果中,除了可以提供一個(gè)更為合理的回歸模型外,還可以同時(shí)完成一些類(lèi)似于主成分分析和典型相關(guān)分析的
30、研究?jī)?nèi)容,提供更豐富、深入的一些信息。以下介紹PLSR分析的建模方法??紤]個(gè)因變量與個(gè)自變量的建模問(wèn)題。PLSR的基本做法是首先在自變量集中提出第一成分(是的線性組合,且盡可能多地提取原自變量中的變異信息);同時(shí)在因變量集中也提取第一成分,并要求與相關(guān)程度達(dá)到最大。然后建立因變量與的回歸,如果回歸方程已達(dá)到滿意的精度,則算法中止。否則繼續(xù)對(duì)第二成分的提取,直到達(dá)到滿意的精度為止。若最終對(duì)自變量集提取個(gè)成分,PLSR將通過(guò)建立與的回歸式,然后再表示為與原自變量的回歸方程式。即PLSR方程式。為了方便起見(jiàn),不妨假定個(gè)因變量與個(gè)自變量均為標(biāo)準(zhǔn)化變量。因變量組合自變量組的次標(biāo)準(zhǔn)化觀測(cè)數(shù)據(jù)陣分別記為 (
31、9)PLSR分析建模的具體步驟如下:(1) 分別提取兩變量組的第一對(duì)成分,并使之相關(guān)性達(dá)到最大。設(shè)從兩組變量分別提出第一對(duì)成分為和,是自變量集的線性組合:,是因變量的線性組合:。為了回歸分析的需要,要求:和各自盡可能多地提取所在變量組的變異信息;和的相關(guān)程度達(dá)到最大。由兩組變量集的標(biāo)準(zhǔn)化觀測(cè)數(shù)據(jù)陣和,可以計(jì)算第一對(duì)成分的得分向量,記為和: (10)(11)第一對(duì)成分和的協(xié)方差Cov(,)可用第一對(duì)成分的得分向量和的內(nèi)積來(lái)計(jì)算。故而以上兩個(gè)要求可化為數(shù)學(xué)上的條件極值問(wèn)題: (12)采用Lagrange乘法,問(wèn)題化為求單位向量和,使最大。問(wèn)題的求解只須通過(guò)計(jì)算矩陣的特征值和特征向量,且的最大特征在
32、為,相應(yīng)的單位特征向量就是所求的解,而可由計(jì)算得到 (13)(2) 建立對(duì)的回歸及對(duì)的回歸。假定回歸模型為 (14) 其中分別是多對(duì)一的回歸模型中的參數(shù)向量,和是殘差陣?;貧w系數(shù)向量,的最小二乘估計(jì)為 (15) 稱(chēng),為模型效應(yīng)負(fù)荷量。(3) 用殘差陣和代替和重復(fù)以上步驟。記,則殘差陣,。如果殘差陣中元素的絕對(duì)值近似為0,則認(rèn)為用第一個(gè)成分建立的回歸式精度已滿足需要了,可以停止抽取成分。否則用殘差陣和代替和重復(fù)以上步驟即得: ,分別為第二隊(duì)成分的權(quán)數(shù)。而,為第二對(duì)成分的得分向量。 ,分別為,的第二對(duì)成分的負(fù)荷量。這時(shí)有 (16) (4)設(shè)數(shù)據(jù)陣的秩為,則存在個(gè)成分,使得 (17) 把,代入,即得
33、個(gè)因變量的PLSR方程式 (18) (5)交叉有效性檢驗(yàn)。 一般情況下,PLS并不需要選用存在的個(gè)成分來(lái)建立回歸式,而像主成分分析一樣,只選用前個(gè)成分,即可得到預(yù)測(cè)能力較好的回歸模型。對(duì)于建模所需提取的主成分個(gè)數(shù),可以通過(guò)交叉有效性檢驗(yàn)來(lái)確定。 每次舍去第個(gè)觀測(cè),用余下的個(gè)觀測(cè)值按PLSR方法建模,并考慮抽取個(gè)成分后擬合的回歸式,然后把舍去的第個(gè)觀測(cè)點(diǎn)代入所擬合的回歸方程式,得到在第個(gè)觀測(cè)點(diǎn)上的預(yù)測(cè)值。對(duì)重復(fù)以上的驗(yàn)證,即得抽取個(gè)成分時(shí)第個(gè)因變量的預(yù)測(cè)誤差平方和為(19)的預(yù)測(cè)誤差平方和為 (20) 另外,再采用所有的樣本點(diǎn),擬合含個(gè)成分的回歸方程。這時(shí),記第個(gè)樣本點(diǎn)的預(yù)測(cè)值為,則可以定義的誤
34、差平方和為(21) 定義的誤差平方和為(22) 當(dāng)達(dá)到最小值時(shí),對(duì)應(yīng)的即為所求的成分個(gè)數(shù)。通常,總有大于,而則小于。因此,在提取成分時(shí),總希望比值越小越好;一般可設(shè)定限制值為0.05,即當(dāng)(23)時(shí),增加成分有利于模型精度的提高?;蛘叻催^(guò)來(lái)說(shuō),當(dāng)(24) 時(shí),就認(rèn)為增加新的成分對(duì)減少方程的預(yù)測(cè)誤差無(wú)明顯的改善作用。 為此,定義交叉有效性為,這樣,在建模的每一步計(jì)算結(jié)束前,均進(jìn)行交叉有效性檢驗(yàn),如果在第步有,則模型達(dá)到精度要求,可停止提取成分;若,表示第步提取的成分的邊際貢獻(xiàn)顯著,應(yīng)繼續(xù)第步計(jì)算。2.5 AIC信息標(biāo)準(zhǔn)值 (25)為了比較得到最好的模型,采用AIC信息準(zhǔn)則在模型的準(zhǔn)確度和模型的簡(jiǎn)
35、單程度兩者之間折中分析,來(lái)確定最好的數(shù)據(jù)處理方法。AIC信息準(zhǔn)則算法如下:其中n是樣本個(gè)數(shù),p是預(yù)測(cè)集樣本個(gè)數(shù)。AIC的值越小,模型越精簡(jiǎn)。 本文將光譜數(shù)據(jù)作為PLSR模型的輸入標(biāo)量,模型的因子數(shù)采用交叉驗(yàn)證結(jié)合F檢驗(yàn)進(jìn)行選取。采用預(yù)測(cè)均方根誤差和相關(guān)系數(shù)以及AIC信息標(biāo)準(zhǔn)值對(duì)模型進(jìn)行評(píng)價(jià)。*;第三章 實(shí)驗(yàn)結(jié)果和分析3.1近紅外光譜實(shí)驗(yàn)數(shù)據(jù)分析實(shí)驗(yàn)采集了葡萄酒近紅外樣品107個(gè),將107個(gè)樣品按照近似2:1的比例進(jìn)行矯正集和預(yù)測(cè)集樣本的選擇,71個(gè)作為校正集,36個(gè)作為預(yù)測(cè)集。兩份樣本的信息如表1所示,從表中可以看出,校正集樣本的范圍包含了預(yù)測(cè)集樣本的范圍,這說(shuō)明了所選擇的校正集樣本在參與建模
36、中具有代表性。成分 單位/% 樣本數(shù) 范圍 平均值 標(biāo)準(zhǔn)偏差校正集 g/g 71 5.60014.500 12.568 1.693 預(yù)測(cè)集 g/g 36 11.50013.900 12.839 0.629表1 近紅外樣品統(tǒng)計(jì)信息表3.2近紅外光譜實(shí)驗(yàn)結(jié)果和分析3.2.1原始光譜建模將原始光譜進(jìn)行預(yù)處理,然后作為PLSR模型的輸入建立模型。經(jīng)過(guò)預(yù)處理后選擇的不同波長(zhǎng)數(shù)的RMSE分布如圖1所示,由圖1可以看出,當(dāng)選取9個(gè)波長(zhǎng)時(shí),RMSE有一個(gè)下降過(guò)程,當(dāng)選取12個(gè)波長(zhǎng)時(shí)又有一個(gè)下降過(guò)程,之后RMSE一直下降直至到選取69個(gè)波長(zhǎng)時(shí),RMSE趨近于零,因此確定從71個(gè)樣本中選用69個(gè)波長(zhǎng)作為PLSR模
37、型的輸入變量。選擇的波長(zhǎng)如圖2,其中的曲線代表原始光譜圖,方框代表選擇的69個(gè)波長(zhǎng),將69個(gè)波長(zhǎng)帶入模型中,結(jié)果如表2所示,利用原始光譜作為PLSR模型的輸入變量,RMSEP為12.594,R為0.951,AIC信息標(biāo)準(zhǔn)值為5040.199。圖1 原始可見(jiàn)Vis/NIR模型的預(yù)測(cè)均方誤差隨選擇變量數(shù)的變化關(guān)系圖2 原始光譜及選擇的變量分布圖表2 基于不同預(yù)處理和變量選擇方法的PLSR模型的三種Vis/NIR分析結(jié)果 參數(shù) RMSEP R AIC 變量個(gè)數(shù) None 12.594 0.951 5040.199 69 SPA / / 157.578 / WT-SPA 12.548 0.951 15
38、2.694 673.2.2應(yīng)用SPA選取有效波長(zhǎng)建模 鑒于采用原始光譜作為模型的輸入變量所得的AIC信息標(biāo)準(zhǔn)值很大,模型復(fù)雜度高,采用SPA對(duì)波長(zhǎng)進(jìn)行篩選,選取含有最低冗余度和最小共線性的有效波長(zhǎng)。將由SPA篩選得到的波長(zhǎng)作為PLSR模型的輸入變量,由此得到的結(jié)果如表2所示,AIC信息標(biāo)準(zhǔn)值為157.578。和原始光譜相比,模型的復(fù)雜度得到很大的降低。3.2.3應(yīng)用WT-SPA選取有效波長(zhǎng)建模做進(jìn)一步研究,采用小波變換結(jié)合連續(xù)投影算法對(duì)光譜進(jìn)行處理選擇波長(zhǎng)。對(duì)經(jīng)過(guò)預(yù)處理后的光譜進(jìn)行小波變換,將光譜劃分不同的尺度級(jí),再經(jīng)過(guò)SPA進(jìn)一步選取有效波長(zhǎng),所得到的不同波長(zhǎng)數(shù)的RMSE分布如圖3所示。由圖
39、3可以看出,當(dāng)選取4個(gè)波長(zhǎng)時(shí),RMSE有一個(gè)下降過(guò)程,之后RMSE一直下降直至到選取67個(gè)波長(zhǎng)時(shí),RMSE趨近于零,因此確定選擇67個(gè)波長(zhǎng)作為PLSR模型的輸入變量,由WT-SPA得到的波長(zhǎng)如圖4,其中的曲線代表原始光譜圖,方框代表選擇的67個(gè)波長(zhǎng),將圖4和圖2作比較,可以看出由WT-SPA選擇的波長(zhǎng)分布更為密集。將67個(gè)波長(zhǎng)帶入模型中,結(jié)果如表2所示,利用WT-SPA得到的波長(zhǎng)作為PLSR模型的輸入變量,RMSEP為12.5477,R為0.951,AIC信息標(biāo)準(zhǔn)值為152.694。從表2中可以看出,通過(guò)WT-SPA得帶的67個(gè)波長(zhǎng)建立的模型PLSR模型的校正集分析正確率高于采用原始光譜建模以
40、及僅僅利用SPA進(jìn)行有效波長(zhǎng)的選取建立的模型,且AIC信息標(biāo)準(zhǔn)值是三種方法中最小的,說(shuō)明由WT-SPA選取的波長(zhǎng)所建模型更準(zhǔn)確、更簡(jiǎn)單。結(jié)果表明WT-SPA對(duì)Vis/NIR進(jìn)行波長(zhǎng)有效選擇后建立的WT-SPA-PLSR模型進(jìn)行葡萄酒酒精度分析是可行的,并且有滿意的精簡(jiǎn)度。圖4 WT-SPA選擇的67個(gè)波長(zhǎng)圖3 WT-SPA選擇的不同變量數(shù)的RMSE分布圖 3.3拉曼光譜實(shí)驗(yàn)數(shù)據(jù)分析實(shí)驗(yàn)采集了葡萄酒近紅外樣品120個(gè),將120個(gè)樣品按照2:1的比例進(jìn)行矯正集和預(yù)測(cè)集樣本的選擇,80個(gè)作為校正集,40個(gè)作為預(yù)測(cè)集。兩份樣本的信息如表3所示,從表中可以看出,校正集樣本的范圍包含了預(yù)測(cè)集樣本的范圍,這說(shuō)明了所選擇的校正集樣本在參與建模中具有代表性。成分 單位/% 樣本數(shù) 范圍 平均值 標(biāo)準(zhǔn)偏差校正集 g/g 80 5.1238.464 7.
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年倉(cāng)儲(chǔ)設(shè)施設(shè)備維護(hù)保養(yǎng)承包合同范本
- 第10課 讀依依往事 解依依情思-《往事依依》教學(xué)設(shè)計(jì)七年級(jí)語(yǔ)文上冊(cè)同步高效課堂(統(tǒng)編版2024)
- 廣告展廳合同范本
- 2025房產(chǎn)合同范本:房地產(chǎn)開(kāi)發(fā)項(xiàng)目招標(biāo)代理合同范本
- 2025年度虛擬現(xiàn)實(shí)游戲開(kāi)發(fā)與運(yùn)營(yíng)合同-@-5
- 2024-2030年中國(guó)鎮(zhèn)靜催眠藥物行業(yè)市場(chǎng)全景評(píng)估及投資前景展望報(bào)告
- 2025年度在線教育平臺(tái)合作開(kāi)發(fā)合同-@-1
- 中國(guó)菠蘿甜酒項(xiàng)目投資可行性研究報(bào)告
- 2025年純鋁薄包裝行業(yè)深度研究分析報(bào)告
- 2025年度防水材料售后服務(wù)合同范本
- 證券公司裝修施工合同工程
- 人教版PEP三年級(jí)到六年級(jí)單詞以及重點(diǎn)句型
- 2024-2024年上海市高考英語(yǔ)試題及答案
- 中建總承包項(xiàng)目高支模專(zhuān)項(xiàng)施工方案含計(jì)算書(shū)
- 酒店住宿服務(wù)合同三篇
- 學(xué)校疫情防控學(xué)校傳染病疫情及突發(fā)公共衛(wèi)生事件報(bào)告制度
- 神經(jīng)重癥患者鎮(zhèn)痛鎮(zhèn)靜中國(guó)共識(shí)(2023版)
- 衛(wèi)生監(jiān)督協(xié)管員培訓(xùn)課件
- 四川省綿陽(yáng)市(2024年-2025年小學(xué)五年級(jí)語(yǔ)文)統(tǒng)編版期末考試(上學(xué)期)試卷及答案
- 《超級(jí)操盤(pán)手訓(xùn)練營(yíng)》課件
- IEC 62368-1標(biāo)準(zhǔn)解讀-中文
評(píng)論
0/150
提交評(píng)論