3-定量建模與分析_第1頁
3-定量建模與分析_第2頁
3-定量建模與分析_第3頁
3-定量建模與分析_第4頁
3-定量建模與分析_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

建立近紅外定量模型的一般方法

中國藥品生物制品檢定所建立模型主要介紹內(nèi)容

理論背景定量分析模型質(zhì)量理論背景近紅外譜區(qū)的吸收主要包括以下基團(tuán)基頻振動的合頻和倍頻振動吸收

C-H,N-H,O-H,S-H,C=O,C=C012345

9000

8000

7000

6000

5000

4000

3000

2000NIRMIRAbsorbanceWavenumbercm-1WaterSpectrum理論背景概述近紅外的合頻振動的吸收系數(shù)比中紅外基頻振動吸收弱1-5個數(shù)量級理論背景概述目的:

通過近紅外光譜,來預(yù)測樣品的組分含量或物理性質(zhì)。有效成分/賦形劑pH/酸度羥基值水分或濕度環(huán)氧值碘值酸價涂層厚度聚合物鏈長蛋白質(zhì)脂肪纖維淀粉粘度皂化值……光源dc檢測器I0ItransBeer定律:A=-logItrans/I0=-logT=cd

消光系數(shù)c

濃度d

光程理論背景概述定量分析的理論根據(jù)……透射采樣方式光源dc檢測器I0I散射比爾定律:A=-log

Iscatt/I0=-log

R=cd

適用于近紅外理論背景概述定量分析的理論根據(jù)……漫反射采樣方式

消光系數(shù)c

濃度d

光程近紅外光譜分析技術(shù)的特點:隨著基頻振動合頻和倍頻的增加,吸收峰重疊的越嚴(yán)重多組分復(fù)雜樣品的近紅外光譜不是各組分單獨光譜的疊加。消光系數(shù)弱,穿透樣品的能力強(qiáng)(最深可達(dá)5cm)需要“化學(xué)計量學(xué)”技術(shù)從復(fù)雜的光譜中提取信息(Y=a+bx1+cx2+dx3…)理論背景概述遵循Lambert-Beer定律A=-log(I/I0)A=-logT=log(l/r)A=ELCE-吸光系數(shù);L-厚度;C-濃度(mol/L,W/V,W/W)以多變量校正方法建立濃度與吸收強(qiáng)度之間的線性關(guān)系Y=b0+b1X1+b2X2+…+bnXn1.標(biāo)準(zhǔn)方法分析樣品2.采集光譜3.優(yōu)化、檢驗和建立模型1.測定未知樣品光譜2.調(diào)用模型3.預(yù)測結(jié)果建立模型分析樣品理論背景概述實驗設(shè)計代表性建模樣品建立模型測量光譜化學(xué)參考值光譜預(yù)處理譜區(qū)選擇理論背景概述光譜

含量值光譜數(shù)據(jù)矩陣M個波數(shù)N張光譜濃度數(shù)據(jù)矩陣N個樣品K個濃度值理論背景多變量建模由于近紅外光譜的復(fù)雜性和分析對象的多元性,決定了NIR分析技術(shù)必須使用多元信息處理技術(shù)。近紅外定量分析的常用方法有如下三種:1、多元線性回歸2、主成分回歸3、偏最小二乘法理論背景多變量建模多元線性回歸分析(MLR)是從對因變量有影響的許多變量中,選擇一些變量作為自變量建立“最優(yōu)”回歸方程,對因變量進(jìn)行預(yù)報和控制?!白顑?yōu)”回歸方程主要是指在回歸方程中包含所有對因變量影響顯著的自變量,而不包含對因變量影響不顯著的自變量的回歸方程。近紅外分析中,MLR的基本思想是經(jīng)過反復(fù)搜索,選擇出包含待測成分信息量最大的波長點以及能表征主要背景的波長點,用這些波長點的吸光度與樣品組分含量的線形函數(shù)組成的線形方程來預(yù)測未知樣品。理論背景多元線性回歸優(yōu)點:僅知一種組分的含量,也可進(jìn)行定量分析。只有待測組分的含量進(jìn)行參照方法的測定。缺點:參加回歸的變量數(shù)不能超過校正集的樣本數(shù),所使用的變量數(shù)受到限制。無法消除回歸中遇到的共線性問題。對儀器的信噪比要求很高,若使用的變量包含了噪聲,會影響模型的預(yù)測能力。理論背景多元線性回歸主成分分析包括主成分分析(PCA)和主成分回歸(PCR)兩步:先求出樣品集光譜矩陣的主成分矩陣,再建立樣品成分含量矩陣與主成分矩陣的線形關(guān)系,用所建立的線形函數(shù)來預(yù)測未知樣品。

PCA中,光譜數(shù)據(jù)是由主成分光譜和得分組成的,可以使用全譜數(shù)據(jù),保留了平均效應(yīng);但濃度C沒有起作用,因此單獨使用PCA

不能分析待測組分含量。PCR中,完成濃度矩陣C對得分矩陣T的回歸。理論背景主成分回歸優(yōu)點:

充分利用了光譜數(shù)據(jù)的信息,增加了模型抗干擾的能力解決了共線性問題適合于復(fù)雜分析體系,無需知道干擾組分的存在就可以預(yù)測被測組分缺點:在分解光譜矩陣時,沒有考慮光譜矩陣與樣品成分矩陣之間的內(nèi)在聯(lián)系,不能保證參與回歸的主成分一定與被測組分或性質(zhì)的相關(guān)理論背景主成分回歸偏最小二乘法在主成分回歸中,只對光譜矩陣作了分解,消除了光譜矩陣中的無用信息;同樣,濃度矩陣中也包含了無用信息,也應(yīng)作相應(yīng)處理。偏最小二乘法:分別求出樣品集光譜矩陣和樣品組分矩陣的主成分矩陣,將這兩個矩陣相關(guān)聯(lián),求其線形關(guān)系,用所建立的線形函數(shù)來預(yù)測未知樣品。理論背景偏最小二乘法第一步,矩陣分解,其模型為:

X=TP+E

Y=UQ+F第二步,將T和U作線性回歸

U=TB預(yù)測時,先求出未知樣品X矩陣的T未知,再按下式計算濃度

Y未知=T未知BQ優(yōu)點:

充分提取樣品光譜的有效信息消除了線性相關(guān)的問題考慮了光譜矩陣與樣品成分矩陣之間的內(nèi)在聯(lián)系,模型更穩(wěn)健適合于復(fù)雜分析體系。缺點:計算速度較慢,計算過程較繁瑣,需要多次迭代模型建立過程復(fù)雜,較抽象,較難理解理論背景偏最小二乘法世界上近紅外定量分析商品化軟件中最流行的算法建立模型建模樣品光譜建模樣品濃度+=建立定量模型光譜數(shù)據(jù)濃度數(shù)據(jù)建立模型建模原則建模樣品的選擇依據(jù)單組分體系至少20個樣品(最好30~40個以上);多組分體系要求大量的建模樣品所選建模樣品的含量范圍要大于以后分析的范圍,即要覆蓋待分析樣品的含量范圍。建模樣品在整個含量范圍應(yīng)是均勻的保證用于測得組分含量的參考方法能得到可靠的結(jié)果建立模型選擇建模樣品在Evaluate下拉菜單中選擇SetupQuant2Method,彈出一個多頁對話窗口建立模型調(diào)入方法顯示定量模型的常規(guī)信息如果已有模型,可以在此調(diào)入Components頁:定義待測組分的名稱、單位、以及定量分析報告的精確度建立模型組分信息Spectra頁:調(diào)入建模樣品的光譜及輸入對應(yīng)的化學(xué)值建立模型調(diào)入光譜標(biāo)示含量與近紅外含量值的關(guān)系近紅外光譜法使用的是重量百分比,而非標(biāo)示量百分含量。當(dāng)藥品為片劑或膠囊劑時:藥品標(biāo)示百分含量(%)=×100%當(dāng)藥品為粉針劑時:假設(shè)近紅外預(yù)測的主藥含量結(jié)果為a%,預(yù)測的水分含量結(jié)果為b%,則a%/(1-b%)即為預(yù)測的以無水物計的含量結(jié)果。因此,在建立某種粉針劑定量模型時,需要建立兩個模型,一個是該粉針劑的純度定量模型,另一個是其水分定量模型。對于上述兩種劑型,NIR定量分析結(jié)果的單位為:%(mg/mg)當(dāng)藥品為注射液時:近紅外建模和預(yù)測結(jié)果的單位為:mg/mlSpectra頁:Shift、Ctrl及Delete鍵用于選定、刪除樣本,可改變樣本的 鏈接路徑以及更改上下順序。DataSet列的下拉列表框可設(shè)置樣本為校正集、驗證集還是排除該樣本。建立模型調(diào)入光譜Spectra頁:設(shè)定同一樣品的光譜數(shù)量,如果使用的是平均光譜,此處應(yīng)為1。建立模型調(diào)入光譜Spectra頁:SetDataSet選項可設(shè)定樣本的數(shù)據(jù)集類型,按照一定的規(guī)則自動分配校正集和驗證集。建立模型調(diào)入光譜Spectra頁:SetDataSet選項可設(shè)定樣本的數(shù)據(jù)集類型,按照一定的規(guī)則自動分配校正集和驗證集。第1個樣本為驗證集驗證集樣本的連續(xù)個數(shù)為1個檢驗集樣本之后的校正集樣本的連續(xù)個數(shù)為1個建立模型調(diào)入光譜根據(jù)自動聚類結(jié)果選擇一定比例的樣本作為驗證集,建議采用這種方法。訓(xùn)練集樣本(Calibrationset)與驗證集樣本(Testset)的分配訓(xùn)練集樣本:用于建立模型的樣本,要求該樣本集能夠包含該品種藥品在化學(xué)和物理性質(zhì)上的變異;驗證集樣本:用于驗證模型的樣品,要求該樣本集必須獨立,且能夠代表未來待測樣品的性質(zhì)。建立模型譜區(qū)及預(yù)處理方法選擇參數(shù)頁:多種數(shù)據(jù)預(yù)處理方法可供選擇建立模型譜區(qū)及預(yù)處理方法選擇定量模型中的光譜預(yù)處理方法較多,但是常用的主要是:一階導(dǎo)數(shù)化+矢量歸一化FirstDerivative+VectorNormalization一階導(dǎo)數(shù)化+多元散射校正FirstDerivative+MSC一階導(dǎo)數(shù)化+減去一條直線FirstDerivative+StraightLineSubtraction譜段選擇方面,根據(jù)以往的建模經(jīng)驗:5600~6200和4200~4700左右主要反映CH的吸收信號,6200~6800和4700~5000左右反映NH的信號,6900~7500和5000~5600左右反映OH的信號,根據(jù)實際情況來選擇相關(guān)的譜段,并適當(dāng)?shù)倪M(jìn)行修改、優(yōu)化。建立模型檢驗?zāi)P蚔alidate頁:選好參數(shù)后點擊“Validate”,來檢驗選定的預(yù)處理方法和譜段能否計算得到一個較好的模型。有兩種驗證方式:外部驗證和內(nèi)部交叉驗證。評價模型的質(zhì)量(檢驗):基本模型+檢驗集預(yù)測誤差分析建立模型檢驗?zāi)P徒徊鏅z驗(內(nèi)部交叉驗證):對建模和檢驗使用相同的樣品系列檢驗集檢驗(外部驗證):使用兩個樣品集,分別用于建模和檢驗

檢驗集檢驗(外部檢驗)

測定兩個獨立的樣品集,且覆蓋整個系統(tǒng)的含量范圍。要求校正集和檢驗集樣本要相互獨立,且都具有代表性。檢驗集樣品驗證模型建立模型檢驗?zāi)P托U瘶悠方⒛P蛦栴}:只有一部分測試樣品用于基本模型的建立檢驗集樣品驗證基本模型適于處理大量樣品,計算速度快建立模型檢驗?zāi)P托U瘶悠方⒒灸P蜋z驗集樣品驗證基本模型

交叉檢驗

當(dāng)建模樣本較少時(少于40~50個),無法設(shè)置單獨的驗證集,此時的折衷方法是內(nèi)部交叉驗證。

首先從校正集中取出一個樣本,將剩余的樣本建立一個臨時模型,使用該模型來預(yù)測取出的這個樣本。校正集樣品建立基本模型建立模型檢驗?zāi)P腿〕鰴z驗集樣品校正集剩余的樣本建立臨時模型分析建立模型檢驗?zāi)P偷诙?,取出另一樣品作為檢驗集樣品,對剩余樣品建立的基本模型進(jìn)行驗證分析如此重復(fù)、循環(huán),直至每一個樣品都被檢驗分析,得到一組預(yù)測值和參考值的數(shù)據(jù),然后計算R2和RMSECV,來評價模型交叉檢驗的特點:每個樣品都被用于建模及檢驗適用于樣品量有限的系統(tǒng)建模運(yùn)算量增大,耗費(fèi)時間較長建立模型檢驗?zāi)P陀?xùn)練集樣品與驗證集樣品分配原則訓(xùn)練集樣品與驗證集樣品的分配主要取決于建模樣品的多少與建模的方法;訓(xùn)練集樣品與驗證集樣品的分配比例,兩組數(shù)據(jù)以1:1為宜,但當(dāng)樣品不夠充足時(60~100個)也可以設(shè)為2:1。當(dāng)建模樣品不足時(低于50個),常采用內(nèi)部交叉驗證的方法建模。建立模型檢驗?zāi)P皖A(yù)測值對真值(參考值)作圖Graph標(biāo)簽項:以圖示形式顯示模型驗證結(jié)果建立模型檢驗?zāi)P皖A(yù)測偏差對真值作圖評價模型最根本的就是看預(yù)測偏差能否接受,例如要求大部分在2%以內(nèi),最大不得超過5%建立模型檢驗?zāi)P蚏MSECV(預(yù)測均方根誤差)對Rank(主因子數(shù))作圖反映模型的穩(wěn)定性,應(yīng)呈大致的曲線下走,如下圖藍(lán)色表示推薦的Rank值R2(決定系數(shù))對Rank(主因子數(shù))作圖與RMSECV相輔相成,應(yīng)呈大致的曲線上走,如下圖決定系數(shù)均方差近紅外定量模型沒有最好,只有更好。我們要求模型穩(wěn)定、預(yù)測偏差能夠接受。對于同一個模型而言,通過優(yōu)化預(yù)處理方法和譜段,可以使R2更大,RMSECV更小。不同模型之間的R2和RMSECV/RMSEP不能進(jìn)行比較,尤其是單位和含量范圍不同的時候。模型質(zhì)量模型判定在內(nèi)部交叉驗證的時候,得到的預(yù)測均方根誤差是RMSECV;在外部驗證的時候是RMSEP,二者的計算公式相同,反映預(yù)測能力建立模型檢驗?zāi)P腿绻陬A(yù)測值對真值作圖中有紅色樣本,說明它是異常點。對于異常樣本,要檢查當(dāng)時測得的光譜和含量值有沒有問題,同時異常點的出現(xiàn)也與所選的譜段和預(yù)處理方法有關(guān)。如果確定該樣本的光譜或含量值有問題,則雙擊將其剔除,否則不應(yīng)剔除。Report標(biāo)簽項:以報告列表形式顯示模型驗證結(jié)果建立模型保存方法保存模型:模型名稱應(yīng)規(guī)范,后綴默認(rèn)為.Q2。注意:在保存模型的文件夾中可能會有一些其他的文件,都是在驗證模型過程中產(chǎn)生的臨時文件,可以刪除。建立模型保存方法注意:如果樣本量較大,分配了單獨的驗證集,建議對模型進(jìn)行檢驗的時候內(nèi)部交叉驗證(對校正集樣本)和外部驗證(對驗證集樣本)都做一下,要求都得到穩(wěn)定、可靠的結(jié)果,二者得到的推薦Rank值可能不同,在保存模型的時候視具體情況權(quán)衡而定。此外,因為模型其實是一個擬和方程,只有校正集樣本參與了這個解方程的過程,因此,在最終保存模型的時候,不論是在內(nèi)部交叉驗證狀態(tài)下,還是在外部驗證的狀態(tài)下,只要校正集樣本、預(yù)處理方法、譜段和Rank值相同,最終保存的模型都是完全一樣的。OPUS定量建模還提供了軟件自動優(yōu)化來幫助選擇譜段和預(yù)處理方法,在Settings頁設(shè)置要進(jìn)行優(yōu)化的預(yù)處理方法和譜段。到Optimize頁點擊“Optimize”后開始計算,最終將結(jié)果列出,我們選擇RMSECV較小、Rank一般大于4的結(jié)果,然后點擊UseParameters,再進(jìn)行驗證(Validate)。注意:模型優(yōu)化的速度和結(jié)果與Validate頁的驗證方式(交叉或外部驗證)有關(guān)。上述介紹

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論