基于毛細(xì)管電泳指紋圖譜的連錢草中有效成分含量預(yù)測(cè)_第1頁(yè)
基于毛細(xì)管電泳指紋圖譜的連錢草中有效成分含量預(yù)測(cè)_第2頁(yè)
基于毛細(xì)管電泳指紋圖譜的連錢草中有效成分含量預(yù)測(cè)_第3頁(yè)
基于毛細(xì)管電泳指紋圖譜的連錢草中有效成分含量預(yù)測(cè)_第4頁(yè)
基于毛細(xì)管電泳指紋圖譜的連錢草中有效成分含量預(yù)測(cè)_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于毛細(xì)管電泳指紋圖譜的連錢草中有效成分含量預(yù)測(cè)

連草是屬于嘴唇科的血毒癥(nakai)的干燥部位。具有潤(rùn)濕、解毒、祛瘀、消腫的功效。用于熱侵、石雨、濕熱黃疸、傷口、腫脹和其他損傷。人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)是一種對(duì)復(fù)雜非線性關(guān)系進(jìn)行預(yù)測(cè)的化學(xué)計(jì)量學(xué)方法,也是近年來(lái)中藥領(lǐng)域研究的熱點(diǎn),它對(duì)中藥指紋圖譜的確定性與模糊性具有很好的適應(yīng)能力,在復(fù)雜關(guān)系問(wèn)題的建模上尤顯其獨(dú)特的優(yōu)勢(shì)。ANN在中藥領(lǐng)域的應(yīng)用越來(lái)越多,如:喬延江等在蟾酥質(zhì)量的模式識(shí)別,劉紅梅在白芷超臨界萃取,以及宋小莉等在半夏瀉心湯配伍研究中均采用了ANN的手段并取得較好的效果。但以指紋圖譜作為神經(jīng)網(wǎng)絡(luò)輸入進(jìn)行特定組分含量預(yù)測(cè)的研究尚未見(jiàn)報(bào)道。本文以不同產(chǎn)地或批次連錢草的毛細(xì)管電泳(CapillaryElectrophoresis,CE)指紋圖譜數(shù)據(jù)及總黃酮和三萜酸類成分的含量為訓(xùn)練樣本集,構(gòu)建反向傳播神經(jīng)網(wǎng)絡(luò)(Back-PropagationNeuralNetwork,BPNN)、徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RadialBasisFunctionNeuralNetwork,RBFNN)和廣義回歸神經(jīng)網(wǎng)絡(luò)(GeneralizedRegressionNeuralNetwork,GRNN)三種ANN模型,用于預(yù)測(cè)未知連錢草樣本的總黃酮和三萜酸類成分的含量,為中藥化學(xué)成分的定量研究提供一種新方法。1樣本數(shù)據(jù)1.1相對(duì)峰面積歸一化連錢草來(lái)源于湖北省七個(gè)不同產(chǎn)地或批次,CE指紋圖譜見(jiàn)圖1。對(duì)CE指紋圖譜進(jìn)行如下數(shù)據(jù)化處理(方法與文獻(xiàn)不同):將遷移時(shí)間進(jìn)行多峰參比校正(即選擇譜圖中5個(gè)分散分布的共有峰,以其遷移時(shí)間之和為參比進(jìn)行校正),得到相對(duì)遷移時(shí)間并據(jù)此進(jìn)行共有峰確認(rèn),保留部分非共有峰(舍去指紋圖譜中相對(duì)峰面積小于0.3%的非共有峰),扣除加入的蘆丁內(nèi)標(biāo)峰,然后進(jìn)行峰面積歸一化,得到的相對(duì)峰面積即為ANN所需的輸入數(shù)據(jù)。為了給數(shù)據(jù)加入一定的隨機(jī)誤差,減少網(wǎng)絡(luò)中誤差的影響,對(duì)同一產(chǎn)地或批次的連錢草每重復(fù)測(cè)定一次指紋圖譜,即計(jì)為一個(gè)樣本,共得到17個(gè)樣本(見(jiàn)圖2注)。1.2各因子2的含量七個(gè)不同產(chǎn)地或批次連錢草的總黃酮和三萜酸類成分的含量都來(lái)源于文獻(xiàn),見(jiàn)表1。兩者的含量在數(shù)值上相差很大,為了減小對(duì)網(wǎng)絡(luò)的影響,將它們除以各自的平均值,使數(shù)據(jù)都更接近于1。這樣處理得到的數(shù)據(jù)即為ANN所需的目標(biāo)輸出數(shù)據(jù),對(duì)來(lái)源于相同產(chǎn)地或批次的連錢草樣本,目標(biāo)輸出數(shù)據(jù)相同。1.3聚類分析方法聚類分析是根據(jù)指標(biāo)間的相關(guān)性或樣品間的相似性對(duì)指標(biāo)或樣品進(jìn)行歸類的一種分析方法,是一種常用的對(duì)類似樣本進(jìn)行相關(guān)性比較的手段。本實(shí)驗(yàn)采用Matlab7.04軟件,按照歐氏距離分別計(jì)算輸入數(shù)據(jù)、輸出數(shù)據(jù)的距離,并分別以平均距離法和最短距離法將17個(gè)樣本進(jìn)行聚類,結(jié)果如圖2、圖3所示。除了進(jìn)行聚類分析外,還分別采用相關(guān)系數(shù)法和夾角余弦法對(duì)連錢草CE指紋圖譜進(jìn)行常規(guī)的相似度計(jì)算,兩種方法都以17個(gè)樣本的平均值作為參照對(duì)象,結(jié)果見(jiàn)表2。2la7.4編寫建立網(wǎng)絡(luò)模型所需的程序采用Matlab7.04編寫。調(diào)用該軟件神經(jīng)網(wǎng)絡(luò)工具箱中的相應(yīng)函數(shù)進(jìn)行編程,并以網(wǎng)絡(luò)預(yù)測(cè)誤差評(píng)價(jià)網(wǎng)絡(luò)模型的性能。2.1算法及算法優(yōu)化BPNN是具有多層結(jié)構(gòu)的誤差逆?zhèn)鞑ゾW(wǎng)絡(luò),它有一個(gè)輸入層,一個(gè)或多個(gè)隱藏層以及一個(gè)輸出層。網(wǎng)絡(luò)建立:網(wǎng)絡(luò)結(jié)構(gòu)為32-7-3-2,即含有32個(gè)神經(jīng)元的輸入層、兩個(gè)分別含有7個(gè)神經(jīng)元和3個(gè)神經(jīng)元的隱藏層以及含有2個(gè)神經(jīng)元的輸出層。輸入層32個(gè)神經(jīng)元對(duì)應(yīng)指紋圖譜上認(rèn)定的32個(gè)峰(輸入數(shù)據(jù)),輸出層2個(gè)神經(jīng)元對(duì)應(yīng)總黃酮和三萜酸類成分的含量(目標(biāo)輸出數(shù)據(jù))。隱藏層用的傳輸函數(shù)分別為logsig和tansig函數(shù),輸出層調(diào)用了purelin函數(shù)。網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)以及其中采用的傳輸函數(shù)直接關(guān)系到模型的性能,當(dāng)隱藏層只有一層時(shí),無(wú)論其傳輸函數(shù)為tansig還是logsig,通過(guò)改變其隱藏層神經(jīng)元個(gè)數(shù),所得到的誤差大都在30%以上;而采用兩個(gè)隱藏層,通過(guò)改變傳輸函數(shù)的組合(logsig-tansig)以及兩個(gè)隱藏層的神經(jīng)元個(gè)數(shù),可以得到一個(gè)最小的誤差點(diǎn)。訓(xùn)練方法:考察了動(dòng)量BP算法、學(xué)習(xí)率可變的BP算法、彈性BP算法、四種變梯度算法、兩種擬牛頓算法以及L-M優(yōu)化算法。綜合考慮訓(xùn)練速度、預(yù)測(cè)誤差以及預(yù)測(cè)的可重復(fù)性,彈性BP算法應(yīng)是最佳的選擇。彈性BP算法的一大優(yōu)點(diǎn)是能夠在網(wǎng)絡(luò)誤差的下降梯度小于預(yù)設(shè)值時(shí)停止訓(xùn)練,這使得網(wǎng)絡(luò)收斂迅速,又不至過(guò)度訓(xùn)練,從而保證了誤差的穩(wěn)定性。學(xué)習(xí)率和網(wǎng)絡(luò)訓(xùn)練目標(biāo)也是BP網(wǎng)訓(xùn)練的兩個(gè)關(guān)鍵性參數(shù),以預(yù)測(cè)誤差的平方和為優(yōu)化指標(biāo),考察不同學(xué)習(xí)率與網(wǎng)絡(luò)訓(xùn)練目標(biāo)的組合,得出最佳組合為:學(xué)習(xí)率0.008,網(wǎng)絡(luò)訓(xùn)練目標(biāo)10-3。2.2spwellgoal預(yù)測(cè)誤差的同步控制過(guò)程RBFNN與BPNN一樣,都是一種前饋反向傳播網(wǎng)絡(luò),它有兩個(gè)網(wǎng)絡(luò)層:隱藏層為徑向基層,輸出層為一線性層。網(wǎng)絡(luò)建立:輸入數(shù)據(jù)同BPNN,而目標(biāo)輸出數(shù)據(jù)不同于BPNN,它們?yōu)榭傸S酮和三萜酸類成分的含量除以各自的平均值,因?yàn)槿绻贿@樣處理,總黃酮含量的預(yù)測(cè)誤差和三萜酸類含量的預(yù)測(cè)誤差存在明顯的差別,而且兩者的預(yù)測(cè)誤差均偏大。在程序設(shè)計(jì)中,擴(kuò)展常數(shù)(spread)和訓(xùn)練精度(goal)這兩個(gè)關(guān)鍵參數(shù)將對(duì)網(wǎng)絡(luò)的擬合、泛化能力帶來(lái)極大的影響。對(duì)于spread,先在0.01~0.01×150范圍內(nèi)以0.01為梯度;對(duì)于goal,先在1~0.530范圍內(nèi)以0.5為梯度;將spread和goal進(jìn)行同步優(yōu)化,結(jié)果都是在區(qū)間邊緣出現(xiàn)最優(yōu)值。改變優(yōu)化區(qū)間,直到選擇spread在0.001~0.05區(qū)間內(nèi)按照0.001遞增,goal在100~100×0.518區(qū)間內(nèi)按照0.5倍遞減,才取得了合理的最優(yōu)化參數(shù)。此時(shí)spread為0.004或0.005,goal為0.0977,預(yù)測(cè)誤差可以取到最小值。2.3數(shù)據(jù)處理方法GRNN是RBFNN的一種變形,結(jié)構(gòu)與RBFNN接近,僅在輸出的線性層有一些不同,學(xué)習(xí)速度極快,是曲面擬合和預(yù)測(cè)的一種理想網(wǎng)絡(luò)。網(wǎng)絡(luò)建立:經(jīng)過(guò)比較,采用2.2中RBFNN的數(shù)據(jù)處理方法比采用2.1中BPNN的數(shù)據(jù)處理方法可以得到更好的預(yù)測(cè)精度。在GRNN的程序設(shè)計(jì)中,只需要設(shè)定spread一個(gè)參數(shù)。采取兩種梯度的優(yōu)化策略分別進(jìn)行,以保證優(yōu)化的準(zhǔn)確性,即將spread在區(qū)間0.01~0.01×100內(nèi)以0.01為梯度、以及在區(qū)間0.005~0.005×30內(nèi)以0.005為梯度進(jìn)行優(yōu)化。兩者的結(jié)果都表明:當(dāng)spread為0.07時(shí),具有最高的預(yù)測(cè)精度,而且都顯示出了比BPNN更加良好的穩(wěn)定性。3使用bnn的方法,預(yù)測(cè)結(jié)果更優(yōu)對(duì)于BPNN的預(yù)測(cè),采用兩種預(yù)測(cè)方法進(jìn)行。第一種是廣義的留一法(leave-one-out),即一個(gè)樣本作為預(yù)示集,其余所有不同來(lái)源的樣本作為訓(xùn)練集,在訓(xùn)練中除去同一來(lái)源的樣本數(shù)據(jù),僅用不同來(lái)源的數(shù)據(jù)預(yù)測(cè)未知樣本;第二種是常用的留一法,即以其它16個(gè)樣本數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),預(yù)測(cè)剩下的一個(gè)樣本。后者由于有相似數(shù)據(jù)的參與,使得預(yù)測(cè)與擬合相通,從而減小網(wǎng)絡(luò)誤差,有利于提高預(yù)測(cè)精度。為了使第二種方法的預(yù)測(cè)結(jié)果更優(yōu),又對(duì)網(wǎng)絡(luò)進(jìn)行了優(yōu)化,具體優(yōu)化方法為:大大擴(kuò)大網(wǎng)絡(luò)結(jié)構(gòu),使兩個(gè)隱藏層的神經(jīng)元個(gè)數(shù)分別達(dá)到了200和100;為了提高收斂速度,將傳輸函數(shù)全部采用tansig函數(shù);另外,增大學(xué)習(xí)率到0.009,增加訓(xùn)練次數(shù)到1000來(lái)縮小網(wǎng)絡(luò)誤差。RBFNN具有比BPNN更優(yōu)越的擬合特性,而且收斂迅速。將RBFNN進(jìn)行類似于BPNN的處理,對(duì)第二種預(yù)測(cè)方法,主要優(yōu)化了spread,在對(duì)goal的優(yōu)化中發(fā)現(xiàn)其在此時(shí)對(duì)預(yù)測(cè)精度的影響已經(jīng)相當(dāng)?shù)男?。?dāng)spread取值為0.1時(shí),已經(jīng)可以得到精度相當(dāng)高的預(yù)測(cè),故未按梯度逐個(gè)優(yōu)化。GRNN類似于RBFNN,通過(guò)對(duì)第二種預(yù)測(cè)方法的spread進(jìn)行優(yōu)化,可以在spread取0.02時(shí)得到10-5數(shù)量級(jí)的誤差,而當(dāng)spread取到0.01時(shí),預(yù)測(cè)誤差減小到10-16數(shù)量級(jí)。為了保證數(shù)據(jù)的合理性,spread取了0.02,既能保證高預(yù)測(cè)精度,又可以與其它網(wǎng)絡(luò)比較。網(wǎng)絡(luò)應(yīng)用結(jié)果見(jiàn)表3。4比較和誤差源分析4.1預(yù)測(cè)結(jié)果的比較4.1.1grnn算法正確預(yù)測(cè)法優(yōu)勢(shì)三種網(wǎng)絡(luò)預(yù)測(cè)誤差的平均值都是總黃酮大于三萜酸類。從誤差大小看,BPNN與RBFNN在總體表現(xiàn)上相似,在扣除最后一個(gè)樣本的情況下,兩者預(yù)測(cè)誤差的平方和在第一種預(yù)測(cè)方法中非常接近;GRNN則表現(xiàn)出了更優(yōu)越的性能,縱觀GRNN的68個(gè)預(yù)測(cè)誤差,僅有7個(gè)大于20%,絕大部分低于10%,特別是采用第二種預(yù)測(cè)方法時(shí),誤差降到了極低,甚至無(wú)誤差,這說(shuō)明GRNN有相當(dāng)?shù)念A(yù)測(cè)準(zhǔn)確性。從速度快慢看,GRNN不需要訓(xùn)練,速度極快,RBFNN次之,BPNN最慢。三種網(wǎng)絡(luò)的第一種預(yù)測(cè)方法所得到的結(jié)果比較相近,說(shuō)明網(wǎng)絡(luò)的優(yōu)化對(duì)誤差減小所能起到的作用是有限的,更主要的還是數(shù)據(jù)的相關(guān)程度。4.1.2bpnn的預(yù)測(cè)結(jié)果兩種方法最本質(zhì)的區(qū)別在于第二種方法的訓(xùn)練樣本中由于有與待預(yù)測(cè)樣本數(shù)據(jù)相似的樣本存在,使得網(wǎng)絡(luò)對(duì)待預(yù)測(cè)樣本的預(yù)測(cè)及對(duì)訓(xùn)練樣本的擬合存在很大的相關(guān)性,也就是說(shuō)網(wǎng)絡(luò)誤差的減小可直接帶來(lái)預(yù)測(cè)誤差的降低。從表3可見(jiàn),除了BPNN和RBFNN有少數(shù)樣本的預(yù)測(cè)誤差第二種大于第一種外,其它樣本都是第二種的預(yù)測(cè)誤差更小,而且有的小很多。BPNN的兩種預(yù)測(cè)結(jié)果差距較小,但扣除誤差特別大的最后一個(gè)樣本后,第二種的預(yù)測(cè)誤差比第一種要小一半以上。值得注意的是,最后一個(gè)樣本的預(yù)測(cè)誤差除了GRNN外,都是第二種方法誤差要大些,這是由于最后一個(gè)樣本沒(méi)有其它相似樣本,訓(xùn)練中網(wǎng)絡(luò)誤差的減小帶來(lái)了過(guò)度訓(xùn)練,從而使得預(yù)測(cè)誤差增大。而GRNN沒(méi)有網(wǎng)絡(luò)訓(xùn)練過(guò)程,也沒(méi)有訓(xùn)練目標(biāo)這個(gè)參數(shù),所以最后一個(gè)樣本第二種方法的預(yù)測(cè)誤差減小。鑒于此,可以推測(cè):當(dāng)樣本數(shù)大大增加時(shí),可以不再考慮樣本的具體來(lái)源或差異性大小,直接用部分樣本做訓(xùn)練,余下的作為未知樣本待預(yù)測(cè)(即第二種預(yù)測(cè)方法),通過(guò)GRNN可以獲得很高的精度。這是因?yàn)楦嗟臉颖緟⒓佑?xùn)練,不僅降低了擬合與預(yù)測(cè)之間的相關(guān)性,而且為CE指紋圖譜與總黃酮、三萜酸類成分含量之間提供了更多非線性的關(guān)聯(lián)依據(jù)。兩種預(yù)測(cè)方法還存在一個(gè)差別,即第一種方法的穩(wěn)定性和可重復(fù)性要遠(yuǎn)遠(yuǎn)強(qiáng)于第二種,如BPNN在對(duì)樣本11~16的預(yù)測(cè)上,第一種預(yù)測(cè)結(jié)果完全一致,而第二種預(yù)測(cè)誤差盡管都比較小,但相互之間相差很大,甚至達(dá)到100倍差距。4.2預(yù)測(cè)網(wǎng)絡(luò)誤差的影響連錢草指紋圖譜與總黃酮和三萜酸類成分含量之間的對(duì)映關(guān)系不是簡(jiǎn)單的線性關(guān)系,故對(duì)含量的預(yù)測(cè)難以達(dá)到很高的精度。ANN也是一種非線性的、模糊性的處理工具,對(duì)于擬合可以做到高精度,但對(duì)于未知數(shù)據(jù)的預(yù)測(cè)則相對(duì)困難,而且網(wǎng)絡(luò)的初始權(quán)值與閾值的不確定性、網(wǎng)絡(luò)訓(xùn)練的隨機(jī)性都給網(wǎng)絡(luò)性能帶來(lái)不確定性,所以誤差不可避免,只有通過(guò)優(yōu)化網(wǎng)絡(luò)和增加樣本數(shù)量來(lái)減小這一誤差。對(duì)于第一種預(yù)測(cè)方法,比較三種網(wǎng)絡(luò)對(duì)17個(gè)樣本的預(yù)測(cè),其誤差最大的是來(lái)源于荊州2的樣本17,其次是來(lái)源于丹江的樣本7、8。參照?qǐng)D3總黃酮和三萜酸類含量的聚類結(jié)果,可以看出樣本17與其它樣本相差太大,這使得其在可比擬性上與其他樣本分開(kāi),從而使誤差太大。對(duì)于來(lái)源于丹江的樣本7、8,從CE指紋圖譜數(shù)據(jù)的聚類結(jié)果(圖2)可以看出,它們是與其他樣本相隔最遠(yuǎn)的,所以在預(yù)測(cè)中表現(xiàn)出誤差較其它樣本明顯偏大;通過(guò)計(jì)算CE指紋圖譜數(shù)據(jù)的相似度,也得到

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論