版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、華東理工大學(xué)分析測(cè)試中心整理課件整理課件1主講人:杜一平整理課件整理課件2分析化學(xué)數(shù)據(jù)v 實(shí)驗(yàn)數(shù)據(jù) 化學(xué)分析:?jiǎn)吸c(diǎn)數(shù)據(jù) 儀器分析:多維數(shù)據(jù)v 數(shù)據(jù)維數(shù)增加v 0維-標(biāo)量;1維-向量;2維-矩陣;3維-張量;v 樣本數(shù)量增大v 數(shù)據(jù)量越來(lái)越大趨勢(shì),數(shù)據(jù)庫(kù),海量數(shù)據(jù),大數(shù)據(jù)(big data)v 大數(shù)據(jù)量顯然信息量大,但挖掘有用信息難度也大;數(shù)據(jù)處理方法研究越來(lái)越重要:化學(xué)計(jì)量學(xué)v 方法應(yīng)用不止局限于分析化學(xué)學(xué)科:相關(guān)學(xué)科整理課件整理課件3不同產(chǎn)地南豐蜜桔HPLC指紋圖譜v 收集江西(18個(gè))、福建(18個(gè))、湖南(18個(gè))和廣西(10個(gè))南豐蜜桔樣品,經(jīng)有機(jī)溶劑提取后進(jìn)行HPLC分析v X:46
2、463201000200030004000500060007000010002000300040005000600070008000Retention Time整理課件整理課件4對(duì)64個(gè)HPLC色譜圖進(jìn)行主成分分析:X = U S VT 特征值:前3個(gè)主成分特征值的所占比例,58.0%、11.2%、8.4%,剩余21.4% Scores散點(diǎn)圖:樣本點(diǎn)分類-0.4-0.20-0.4-0.3-0.2-0.100.10.20.3-0.4-0.3-0.2-0.100.10.20.3PC 1 (58.0%)PC 2 (11.2%)PC 3 (8.4%)-0.25-0.2-0.15-0.1-0.05-0.
3、4-0.3-0.2-0.100.10.20.3-0.4-0.3-0.2-0.100.10.20.3 PC2PC1 PC3江 西 省福 建 省湖 南 省廣 西 省整理課件整理課件5光譜數(shù)據(jù)和定量校正曲線 0.32 0.36 0.40 0.44 0.48 0.52 0.56 0.60 0.64 0.68Absorbance 5000 6000 7000 8000 9000 10000 Wavenumbers (cm-1)Region for WaterCombination Band02460246Reference Value (%)NIR Value (%)Corr. Coeff. = 0.9
4、999RMSEC = 0.070整理課件整理課件6光譜成像數(shù)據(jù)圖圖 三維成像光譜數(shù)據(jù)示意圖三維成像光譜數(shù)據(jù)示意圖整理課件整理課件7v 蛋白質(zhì)各級(jí)結(jié)構(gòu)v (a) Primary structure (b) Secondary structurev v Alu-Glu-Val-Thr-Asp-Pro-Gly-v v -Helixv -Sheetv (c) Tertiary structure (d) Quaternary structurev v 圖圖 肽鏈在空間卷曲特定的三維空間結(jié)構(gòu)肽鏈在空間卷曲特定的三維空間結(jié)構(gòu)整理課件整理課件8數(shù)據(jù)的表達(dá)-數(shù)字化v 0維-標(biāo)量:x=2;1維-向量:x=1 3
5、 5 7;v 2維-矩陣:X=;v 3維-張量:Z=X1 X2 X3 05001000150020002500300035004000-2000200400600800100012001400Xxxxmnm2m12n22211n1211m21xxxxxxxxx整理課件整理課件91971年,瑞典化學(xué)家Swante. Wold(Umea university)在申請(qǐng)一項(xiàng)基金時(shí),提出了化學(xué)計(jì)量學(xué)(Chemometrics)這個(gè)名詞。Chem-istry metrics ChemometricsEcono-mics metrics Econometrics化學(xué)計(jì)量學(xué)簡(jiǎn)介整理課件整理課件10Bruce
6、R. KowalskiUniversity of Washington他們被公認(rèn)為是化學(xué)計(jì)量學(xué)的他們被公認(rèn)為是化學(xué)計(jì)量學(xué)的創(chuàng)始人創(chuàng)始人。 美國(guó)美國(guó)Bruce. R. Kowalski 非常贊賞這一叫非常贊賞這一叫法。后來(lái)在法。后來(lái)在1974年與年與Swante. Wold合作合作成立了成立了國(guó)際化學(xué)計(jì)量學(xué)學(xué)會(huì)國(guó)際化學(xué)計(jì)量學(xué)學(xué)會(huì)?;瘜W(xué)計(jì)量學(xué)簡(jiǎn)介整理課件整理課件11 一門運(yùn)用數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)以及其他相關(guān)學(xué)科的理論與方法,優(yōu)化化學(xué)量測(cè)過(guò)程,并從化學(xué)量測(cè)數(shù)據(jù)中最大限度地獲取有用的化學(xué)信息的學(xué)科。 化學(xué)中的一門分支學(xué)科(分析化學(xué)) 多學(xué)科交叉的新學(xué)科化學(xué)計(jì)量學(xué)定義解決問(wèn)題策略:分析化學(xué)利用計(jì)算機(jī)
7、為手段,利用數(shù)學(xué)和統(tǒng)計(jì)學(xué)方法實(shí)現(xiàn)數(shù)據(jù)的解析。整理課件整理課件12v 早期的化學(xué)計(jì)量學(xué),數(shù)理統(tǒng)計(jì)方法。v 從七十年代開(kāi)始,統(tǒng)計(jì)學(xué)、數(shù)學(xué)、行為科學(xué)、經(jīng)濟(jì)計(jì)量學(xué)等領(lǐng)域研究,分析化學(xué)學(xué)科的一個(gè)獨(dú)特分支-化學(xué)計(jì)量學(xué)。v 二十世紀(jì)七十年代以后,分析儀器、聯(lián)用分析儀器的發(fā)展,數(shù)據(jù)容量迅速增加。大量的數(shù)據(jù)的有用信息,需要發(fā)掘方法。v 九十年代以后逐漸走向成熟,應(yīng)用日廣。計(jì)算機(jī)、分析儀器、其他學(xué)科發(fā)展;需求-生命科學(xué)、材料科學(xué)、能源等。化學(xué)計(jì)量學(xué)發(fā)展整理課件整理課件13化學(xué)計(jì)量學(xué)的典型應(yīng)用v 傳統(tǒng)定性定量分析:多元分辨、多元校正v 儀器量測(cè)信號(hào)處理:數(shù)據(jù)處理方法、最優(yōu)化方法v 模式識(shí)別:污染源識(shí)別、疾病診斷、中
8、藥識(shí)別、;v 試驗(yàn)設(shè)計(jì):v 分子設(shè)計(jì)和藥物設(shè)計(jì):新藥發(fā)現(xiàn)及結(jié)構(gòu)性能關(guān)系(QSAR)研究;v 過(guò)程分析:工業(yè)過(guò)程監(jiān)測(cè)和控制。整理課件整理課件14v化學(xué)計(jì)量學(xué)基本特點(diǎn)化學(xué)計(jì)量學(xué)基本特點(diǎn) 多維數(shù)據(jù):向量,矩陣,張量。 多變量 數(shù)據(jù)來(lái)自各種測(cè)量:典型的為儀器分析數(shù)據(jù)。 信息提取方法:利用各種手段 持續(xù)發(fā)展的科學(xué)充分利用量測(cè)信息充分利用量測(cè)信息整理課件整理課件15采樣采樣測(cè)定測(cè)定數(shù)據(jù)處理數(shù)據(jù)處理采樣理論采樣理論實(shí)驗(yàn)設(shè)計(jì)實(shí)驗(yàn)設(shè)計(jì)化學(xué)最優(yōu)化化學(xué)最優(yōu)化信號(hào)處理信號(hào)處理多元校正多元校正多元分辨多元分辨化學(xué)模式識(shí)別化學(xué)模式識(shí)別化學(xué)構(gòu)效關(guān)系化學(xué)構(gòu)效關(guān)系計(jì)算機(jī)模擬計(jì)算機(jī)模擬化學(xué)計(jì)量學(xué)研究?jī)?nèi)容整理課件整理課件16平滑求
9、導(dǎo)擬合主成分分析化學(xué)計(jì)量學(xué)方法:常用數(shù)化學(xué)計(jì)量學(xué)方法:常用數(shù)據(jù)處理方法據(jù)處理方法整理課件整理課件17平滑就是一種去除或減少噪聲以提高信噪比的數(shù)學(xué)方法。 平滑整理課件整理課件18wiw- ij=jnewxk1x窗口移動(dòng)平均法 整理課件整理課件19x = a0 + a1j + a2 j2 +.+ ap jp jj=i-2j=i-1j=ij=i+1j=i+2xx i-2x i-1xix i+1x i+2Savitzky-Golay平滑法-多項(xiàng)式擬合 整理課件整理課件202210222101221002210122102(2)a(2)aax(1)a(1)aax(0)a(0)aax1)(a1)(aax2
10、)(a2)(aax21012xxxxxx124111100111124210aaa124111100111124=ax = Ya 整理課件整理課件21=(YtY)-1Ytx a)3x9x3x5x(3x351x)9x13x12x6x5x(351x)3x12x17x12x3x(351x)5x6x12x13x(9x351x)3x5x3x9x(31x351x2101222101212101202101212101220 x21012x353x3512x3517x3512x353= x = a0 + a1j + a2 j2 +.+ ap jp 整理課件整理課件22窗口寬度2523211917151311
11、975-12-253 -11-138-42 -10-33-21-171 -962-2-76-136 -8147159-51-21 -7222308424-6-78 -628743149897-13-11 -53435420414418420-36 -438763249189278799-21 -34227028422434122164414-2 -244775309249391472169393-3-14627832426442162248454612046779329269431672589597171462783242644216224845461224477530924939147216
12、9393-334227028422434122164414-2 438763249189278799-21 53435420414418420-36 628743149897-13-11 7222308424-6-78 8147159-51-21 962-2-76-136 10-33-21-171 11-138-42 12-253 歸一化常數(shù)51758053059226132311051434292312135Savitzky-Golay平滑權(quán)重系數(shù)表 (多項(xiàng)式階次為2或3)整理課件整理課件23v 提高信號(hào)的分辨率,減少干擾。v 紫外-可見(jiàn)光譜分析中用到的導(dǎo)數(shù)分光光度分析;v 近紅外光譜分析中
13、,常用2階或1階導(dǎo)數(shù)光譜進(jìn)行定性定量分析;v 電化學(xué)分析中,有時(shí)利用對(duì)溶出伏安曲線求導(dǎo)來(lái)去除或減少其它組分的干擾,提高被測(cè)組分的信噪比。v 有很多種類的分析儀器已經(jīng)把求導(dǎo)作為一種固定的方法,加入到儀器的數(shù)據(jù)處理軟件中 。求導(dǎo) 整理課件整理課件241.差分法 i1ii1ixxyy2. Savitzky-Golay擬合法 x = a0 + a1j + a2 j2 +.+ ap jp一階導(dǎo)數(shù):dx/dj= a1 + 2a2 j+.+ pap jp-1當(dāng)j=0時(shí),dx/dj|j=0= a1二階導(dǎo)數(shù):d2x/dj2= 2a2+6a3j+.+(p-1) pap jp-2當(dāng)j=0時(shí),d2x/dj2|j=0=
14、 2a2當(dāng)j=0時(shí)(即對(duì)應(yīng)窗口的中心點(diǎn)),各階導(dǎo)數(shù)計(jì)算的通式dqx/djq|j=0= q! ap整理課件整理課件25窗口寬度k=9,p=4,3階導(dǎo)數(shù)表達(dá)式, d3x/dj3|j=0=1/198( -14x -4+ 7x -3+ 13x -2+ 9x -1-9 x1-13x2-7x3+ 14x4) 整理課件整理課件26擬合v 實(shí)驗(yàn)數(shù)據(jù) 理論解釋 研究變量之間關(guān)系:y=f(x)整理課件整理課件27多個(gè)變量v y=f(x1,x2,)05101520-0.500.5105101520-1-0.500.51051015201234505101520510152025整理課件整理課件28函數(shù)擬合基本思想v
15、 =f(a,x)v Ei= - yi = f(a,xi) -yiv 差方和E2最小。y y v 線性函數(shù)擬合 y=a+bx1+cx2y=f(a,x)+e整理課件整理課件29擬合計(jì)算工具v Excelv Matlab:b=fit(X,y,fittype)v 功能強(qiáng)大點(diǎn)中曲線,右鍵選擇添加趨勢(shì)圖整理課件整理課件30主成分分析v 主成分分析,Principal Component Analysis, PCAv 最基本的化學(xué)計(jì)量學(xué)方法之一v 是很多復(fù)雜化學(xué)計(jì)量學(xué)方法的基礎(chǔ)v 應(yīng)用廣泛整理課件整理課件31主成分分析序號(hào)化合物保留指數(shù)WienerMTI0p1p2p3p3c4p12,2,3,3,4-五甲基戊
16、烷953.41083908.57744.19345.12643.37642.3660.86622,2,3,3-四甲基丁烷728.695821473.254.52.252.5032,2,3,3-四甲基己烷928.81154168.41424.31074.88392.90532.2071142,2,3,3-四甲基戊烷855.13822987.70713.81074.48742.91422.20710.530352,2,3,4,4-五甲基戊烷921.71114028.57744.15475.45372.59812.87641.29962,2,3,4-四甲基戊烷822.07863127.65473.8
17、5414.39872.3661.866172,2,3,5-四甲基己烷873.31234468.36184.33724.89662.30341.97841.060782,2,3-三甲基-3-乙基戊烷965.71103968.41424.37134.51783.37131.97861.310792,2,3-三甲基丁烷641.46421566.07742.94343.52071.73211.65470102,2,3-三甲基庚烷914.41304728.19874.48144.40932.46911.57010.9433112,2,3-三甲基己烷823.18923347.49163.98144.055
18、72.20011.57010.866122,2,3-三甲基戊烷738.98632306.78453.48143.67532.09081.57010.6124132,2,4,4-四甲基己烷888.61194328.41424.26785.25521.9662.76781.5607142,2,4,4-四甲基戊烷774.77883227.70713.70715.29811.06073.12131.591yX1314-異丙基庚烷9251314727.98314.71873.58142.26170.51.55261325-甲基壬烷957.41495427.824.80813.38962.1010.288
19、71.24951335-甲基十二烷1252.433612369.94136.30814.45032.8510.28871.79331346-甲基十二烷1249.933412289.94136.30814.45032.8510.28871.8067整理課件整理課件32v 四個(gè)產(chǎn)地南豐蜜桔樣品HPLC分析v X:46463201000200030004000500060007000010002000300040005000600070008000Retention Time整理課件整理課件33對(duì)64個(gè)HPLC色譜圖進(jìn)行主成分分析:X = U S VT 特征值:前3個(gè)主成分特征值的所占比例,58.0
20、%、11.2%、8.4%,剩余21.4% Scores散點(diǎn)圖:樣本點(diǎn)分類-0.4-0.20-0.4-0.3-0.2-0.100.10.20.3-0.4-0.3-0.2-0.100.10.20.3PC 1 (58.0%)PC 2 (11.2%)PC 3 (8.4%)-0.25-0.2-0.15-0.1-0.05-0.4-0.3-0.2-0.100.10.20.3-0.4-0.3-0.2-0.100.10.20.3 PC2PC1 PC3江 西 省福 建 省湖 南 省廣 西 省整理課件整理課件34v 一種重要降維方法一種重要降維方法v 基本思想基本思想:對(duì)量測(cè)矩陣Y Y中的各個(gè)變量進(jìn)行線性組合,形成
21、新的變量,稱為主成分。主成分計(jì)算原則計(jì)算原則是得到主成分表達(dá)的方差最大,化學(xué)意義就是所含信息最多。v 計(jì)算方法計(jì)算方法:按方差最大,計(jì)算各個(gè)變量的線性組合,得到第一主成分;對(duì)剩余的矩陣,即量測(cè)矩陣Y Y減去第一主成分表達(dá)部分,再按方差最大原則,計(jì)算各個(gè)剩余變量的線性組合,得到第二主成分;依次計(jì)算第三、第四、 主成分。v 新變量之間相互正交。v 方差代表表達(dá)的信息量,按順序減少,可用來(lái)評(píng)估主成分解釋的信息百分率。v Matlab方法 U,S,V= svds(X,n) 主成分分析 整理課件整理課件35v 多個(gè)主成分,多個(gè)投影方向多個(gè)主成分,多個(gè)投影方向 多維主成分分解多維主成分分解(n) x=x1
22、 x2 . xn 將將x投影到投影到vi1 vi2 vint上得到新變量上得到新變量yi, vi1 vi2 vint就是系數(shù)就是系數(shù)向量,即投影方向。向量,即投影方向。 所有所有n個(gè)新變量組成矩陣個(gè)新變量組成矩陣Y yi=vi1x1+vi2x2+vinxn ,(i=1,2,n)XVXYnnn2n12n22211n1211vvvvvvvvvXvyn21mnm2m12n22211n1211m21vvvxxxxxxxxxyyy01000200030004000500060007000010002000300040005000600070008000Retention Time整理課件整理課件36例v
23、 高分子液晶材料在不同溫度下結(jié)晶情況Structure and the phase transition temperatures of FLC-1. OCOOCOO*Crystal*CSASISOC60_mC67_mC102000 整理課件整理課件37v Infrared transmission spectra of 11-layer LB films of FLC-1 measured at room and elevated temperatures. 3000180016001400120029332920146615091604172028562853285514671510160
24、5172014681510160617172850146715101606171617401510146816061719174028501100C1020C600C400C390C270CAbsorbanceWavenumber / cm-1整理課件整理課件38v Temperature dependences of the frequencies of the CH2 symmetric stretching band (a), C=O stretching band of the part near the chiral carbon atom (b) and the phenyl ri
25、ng stretching band (c) for the 11-layer LB films of FLC-1. 406080100120150815091510171617181720285028532856WavenumberTemperature/Ccphenyl ring st. 19abC=O st. (chiral)aCH2 sys. st.整理課件整理課件39v PC1 vs. temperature plot in both 40-80C (a) and 27-55C (c) temperature intervals and those in full measured
26、temperature range (b) at range of 1450-1745 cm1 for the 11-layer LB films of FLC-1. 406080100120PC1Temperature/Ccba整理課件整理課件40幾種化學(xué)計(jì)量學(xué)方法簡(jiǎn)介v 多元校正v 多元分辨v 模式識(shí)別v 定量構(gòu)效關(guān)系v 最優(yōu)化方法整理課件整理課件41v校正校正- -定量分析定量分析v經(jīng)典分析化學(xué)的校正方法經(jīng)典分析化學(xué)的校正方法- -校正曲線校正曲線 y=cx+e v多變量校正多變量校正vy=y=y1 y2 . ym =cx1 x2 . xm +e y=y=c1x x1+c2x x2+.+
27、cnx xn+e y=Xc+ey=Xc+e 多變量校正整理課件整理課件42多元線性回歸MLRv 多元線性回歸方法-最小二乘法:y=Xc+e e = y- Xc殘差平方和S= ete = (y- Xc)t(y- Xc)=yty-yt(Xc)-(Xc)ty +(Xc)t(Xc)=yty - ytXc - ctXy +ctXtXc=yty - 2ytXc +ctXtXc = -2Xty +2XtXc=0則,XtXc =Xty =(XtX)-1Xty Matlab:c=inv(X*X)X*y ccSmnm2m12n22211n1211xxxxxxxxxX整理課件整理課件43v 多元線性回歸解具有優(yōu)良的
28、統(tǒng)計(jì)學(xué)性質(zhì) v 多元線性回歸解的性能指標(biāo) =(XtX)-1Xty , =X相關(guān)系數(shù):R2= =1 -殘差平方和RMSv 多元線性回歸應(yīng)用建模與濃度計(jì)算y=Xc+e cy c2i2i)y(y/)yy (2i2ii)y(y/)yy (整理課件整理課件44常見(jiàn)多元校正方法v 多元線性回歸,MLR, y=Xc+e y=Xc+e v 主成分回歸法,PCR 通過(guò)PCA計(jì)算主成分,取前面若干主成分Z=Xv進(jìn)行MLR,y=Zc+e=Xvc+ey=Zc+e=Xvc+ev 偏最小二乘回歸,PLS 通過(guò)類似PCA方法計(jì)算主成分(稱為PLS因子),取前面若干因子Z=Xv進(jìn)行MLR,y=Zc+e=Xvc+ey=Zc+e
29、=Xvc+e 計(jì)算PLS因子時(shí)同時(shí)考慮X和y因素。v 支持向量機(jī),SVMv 人工神經(jīng)網(wǎng)絡(luò),ANN整理課件整理課件45四種不同液體表面活性劑Type 1bType 1aType 2aType 2b顯著的區(qū)別整理課件整理課件46羥值相關(guān)性酸值相關(guān)性NIR光譜PLS校正結(jié)果 (兩個(gè)組分校正)整理課件整理課件47v 分辨就是解決干擾問(wèn)題,即從混合組分復(fù)合量測(cè)信號(hào)中分辨、解析出被測(cè)組分“純”的分析信號(hào)。利用多個(gè)分析通道(如波長(zhǎng)、保留時(shí)間等)的信息進(jìn)行分辨就稱為多變量分辨,又稱多元分辨。多變量分辨 近些年來(lái),化學(xué)計(jì)量學(xué)中的多變量分辨方法研究和應(yīng)用非?;钴S,尤其是在解析色譜重疊峰上取得了很大成功。整理課件整
30、理課件48v多變量分辨算法很多 漸進(jìn)因子分析法 (Evolving Factor Analysis) 窗口因子分析法 (Window Factor Analysis) 直觀推導(dǎo)式演進(jìn)特征投影法 (Heuristic Evolving Latent Projections) 正交投影分辨法(Orthogonal Projection resolution) 子窗口因子分析法(Subwindow Factor Analysis) 整理課件整理課件49v 麥秸高溫高壓裂解氣相產(chǎn)物,GCMS分析v 經(jīng)HELP解析確定了整個(gè)保留時(shí)間內(nèi)共有組分45個(gè) 整理課件整理課件50v 模式識(shí)別(Pattern Re
31、cognition)就是研究對(duì)象的分類。20世紀(jì)60年代初開(kāi)始迅速發(fā)展,首先在信息科學(xué)和人工智能領(lǐng)域使用,比如圖像識(shí)別、語(yǔ)音識(shí)別。v 模式識(shí)別交叉學(xué)科:統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、人工智能和專家系統(tǒng)、控制論、應(yīng)用學(xué)科(如生物學(xué)、心理學(xué)、語(yǔ)言學(xué)、化學(xué)等)等。v 化學(xué)模式識(shí)別就是利用已有的模式識(shí)別技術(shù)和針對(duì)化學(xué)問(wèn)題的特點(diǎn)而發(fā)展的模式識(shí)別技術(shù),處理和分析化學(xué)數(shù)據(jù),研究和解決化學(xué)問(wèn)題,它是化學(xué)計(jì)量學(xué)的一個(gè)重要組成部分。v 化學(xué)模式識(shí)別方法已經(jīng)用于分析化學(xué)、物理化學(xué)、無(wú)機(jī)化學(xué)、藥物化學(xué)、食品化學(xué)、農(nóng)業(yè)化學(xué)、醫(yī)藥化學(xué)和環(huán)境化學(xué)等學(xué)科,取得了不少成果。 化學(xué)模式識(shí)別 整理課件整理課件51 有監(jiān)督的模式識(shí)別: 距離判
32、別分析法、Fisher判別分析法、Beayes判別分析法,逐步判別分析法、線性學(xué)習(xí)機(jī)、K鄰域判別法、勢(shì)函數(shù)判別法、人工神經(jīng)網(wǎng)絡(luò)判別法等 無(wú)監(jiān)督的模式識(shí)別:聚類分析 特征投影的降維顯示方法: 主成分分析的投影顯示法、SIMCA方法、基于偏最小二乘分解的特征投影法等 模式識(shí)別方法:整理課件整理課件52v定量結(jié)構(gòu)活性關(guān)系(Quantitative Structure Activity Relationship, QSAR),簡(jiǎn)稱定量構(gòu)效關(guān)系,就是研究化學(xué)結(jié)構(gòu)與化學(xué)物質(zhì)的生物活性之間的關(guān)系,研究如何從物質(zhì)的化學(xué)成分與結(jié)構(gòu)來(lái)定量預(yù)測(cè)其化學(xué)特性。v它是化學(xué)計(jì)量學(xué)的一個(gè)重要分支。 定量構(gòu)效關(guān)系 整理課件整理
33、課件53v 藥物設(shè)計(jì):是現(xiàn)代化新藥開(kāi)發(fā)工作非常重要的一個(gè)環(huán)節(jié),從20世紀(jì)60年代以來(lái),經(jīng)過(guò)40多年的不斷探索和努力,現(xiàn)代藥物設(shè)計(jì)的策略和方法已經(jīng)大為豐富。v 最基本的藥物設(shè)計(jì)方法就是從一組(例如幾十個(gè))小分子化合物的結(jié)構(gòu)和生物活性數(shù)據(jù)出發(fā),利用定量構(gòu)效關(guān)系方法,研究其結(jié)構(gòu)-活性關(guān)系的規(guī)律,在此基礎(chǔ)上預(yù)測(cè)新化合物的生物活性(藥效)和進(jìn)行高活性分子的結(jié)構(gòu)設(shè)計(jì)。v 分子設(shè)計(jì):材料分子設(shè)計(jì),熒光探針?lè)肿釉O(shè)計(jì)等。整理課件整理課件54v 定量構(gòu)效關(guān)系研究:定量構(gòu)效關(guān)系研究: 化學(xué)結(jié)構(gòu)描述符化學(xué)結(jié)構(gòu)描述符 :化學(xué)結(jié)構(gòu)數(shù)字化 定量構(gòu)效關(guān)系建模定量構(gòu)效關(guān)系建模 :建立模型整理課件整理課件55現(xiàn)代最優(yōu)化方法現(xiàn)代最
34、優(yōu)化方法 v 現(xiàn)代最優(yōu)化方法 - 搜索全局最優(yōu)解 模擬退火法遺傳算法人工神經(jīng)網(wǎng)絡(luò) 蟻群算法 粒子群算法整理課件整理課件56遺傳算法(Genetic Algorithm,GA) v達(dá)爾文進(jìn)化論思想,適者生存v模擬生物的自然進(jìn)化過(guò)程進(jìn)行最優(yōu)解搜索。v自然進(jìn)化的特征在20世紀(jì)60年代得到美國(guó)Michigan大學(xué)的John Holland極大興趣,他和他的學(xué)生們吸收了自然進(jìn)化的思想,提出機(jī)器學(xué)習(xí)的新算法,Holland將其取名為遺傳算法。v1975年,Holland出版了頗有影響的專著Adaptation in Natural and Artificial Systems, 之后,遺傳算法才逐漸被人們
35、所知。 整理課件整理課件57遺傳算法基本思想遺傳算法基本思想v 生物遺傳基本單元 個(gè)體 染色體(基因) 種群 繁殖過(guò)程 進(jìn)化規(guī)則:優(yōu)勝劣汰 遺傳算法基本思想遺傳算法基本思想 個(gè)體編碼:染色體個(gè)體編碼:染色體 - 群體生成群體生成 迭代運(yùn)算:迭代運(yùn)算:3種進(jìn)種進(jìn)化化 適應(yīng)性值評(píng)估適應(yīng)性值評(píng)估整理課件整理課件58v 遺傳算法由六個(gè)基本的操作組成:v 1)編碼:根據(jù)要解決問(wèn)題的特征,將問(wèn)題的解在其解空間中表示成遺傳空間的基因型串結(jié)構(gòu)數(shù)據(jù)(染色體)。v 2)初始群體的生成:隨機(jī)產(chǎn)生N個(gè)初始串結(jié)構(gòu)數(shù)據(jù),每個(gè)串結(jié)構(gòu)數(shù)據(jù)稱為一個(gè)個(gè)體,N個(gè)個(gè)體構(gòu)成了一個(gè)群體。v 3)適應(yīng)性值評(píng)估檢測(cè):適應(yīng)性函數(shù)表明個(gè)體或解的
36、優(yōu)劣性。v 4)選擇:目的是為了從當(dāng)前群體中選出優(yōu)良的個(gè)體,使它們有機(jī)會(huì)作為父代為下一代繁殖子孫。v 5)交叉:最主要的遺傳操作。通過(guò)交叉換操作可以得到新一代個(gè)體,新個(gè)體組合了其父輩個(gè)體的特性。交叉換體現(xiàn)了信息交換的思想。隨機(jī)產(chǎn)生交叉。v 6)變異:首先在群體中隨機(jī)選擇一個(gè)個(gè)體,對(duì)于選中的個(gè)體以一定的概率隨機(jī)地改變串結(jié)構(gòu)數(shù)據(jù)中某個(gè)串的值。隨機(jī)性:保證不陷入局部最優(yōu)隨機(jī)性:保證不陷入局部最優(yōu)整理課件整理課件59整理課件整理課件60遺傳算法實(shí)例v 151種血腦屏障穿透化合物,利用遺傳算法從154種分子結(jié)構(gòu)描述符中選擇有限數(shù)目的描述符,建立這些化合物結(jié)構(gòu)與血腦屏障穿透能力之間的關(guān)系,本項(xiàng)工作的關(guān)鍵就
37、是變量選擇(即描述符選擇)。 解題難點(diǎn)v變量?jī)?yōu)劣評(píng)價(jià)方法 151個(gè)樣本變量組與指標(biāo)建模,考察模型好壞。v變量選擇方案 窮舉:變量組合數(shù)目及其龐大, ,其中, 繼續(xù)計(jì)算out of memory。無(wú)法計(jì)算。 單因素輪換:?jiǎn)巫兞孔顑?yōu)-加入第二變量-最后,從中選擇最優(yōu)結(jié)果,154+153+1=11935,貪婪算法,局部最優(yōu)v遺傳算法思路 隨機(jī)安排初值 三種進(jìn)化機(jī)制優(yōu)化變量 進(jìn)化過(guò)程隨機(jī)性避免落入局部最優(yōu)15415421541154,.,CCC5969043154C整理課件整理課件62v 1)二進(jìn)制編碼:用154位的二進(jìn)制串來(lái)表示變量,即表示154個(gè)結(jié)構(gòu)描述符,如果串中某位為0表示對(duì)應(yīng)的變量沒(méi)有被選擇
38、,反之為1就是選擇了該變量。 整理課件整理課件63v 2)適應(yīng)性函數(shù)FIT :用選擇的變量代表化合物結(jié)構(gòu),用多元線性回歸方法MLR建立變量與血腦屏障穿透能力之間的構(gòu)效關(guān)系模型,利用去一交互檢驗(yàn)法LOO計(jì)算相關(guān)系數(shù)Q。v 式中的n是化合物數(shù)目,k為所選變量個(gè)數(shù)。 FIT越大越好。)Q)(1k(n1)k(nQFIT222q整理課件整理課件64v3)群體大小為500,進(jìn)化次數(shù),即迭代次數(shù)定為5000次。v4)遺傳算法計(jì)算- 隨機(jī)性 初始二進(jìn)制編碼為隨機(jī)產(chǎn)生 使用輪賭方式進(jìn)行選擇,交叉和變異發(fā)生的點(diǎn)位都隨機(jī)產(chǎn)生,交叉時(shí),將雙親二進(jìn)制串從隨機(jī)產(chǎn)生的交叉點(diǎn)向后的所有位進(jìn)行交叉,變異時(shí)每次只是對(duì)隨機(jī)產(chǎn)生的點(diǎn)進(jìn)行變異。交叉和變異對(duì)進(jìn)化過(guò)程影響非常大,所以對(duì)它們加以限制,即并非每次都發(fā)生交叉和變異,而是用概率來(lái)進(jìn)行控制,交叉概率為0.6,變異概率為0.2。整理課件整理課件65賭輪方式選擇(根據(jù)FIT數(shù)值計(jì)算概率) 選擇4個(gè)個(gè)體 根據(jù)FIT計(jì)算概率 繪制賭輪0-1(0%-100%) 隨機(jī)產(chǎn)生一個(gè)數(shù)(0
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版南京綠色建筑項(xiàng)目能源合同管理協(xié)議4篇
- 2025年度特色苗木種植與市場(chǎng)推廣服務(wù)合同4篇
- 2025年度鋁合金門窗企業(yè)戰(zhàn)略合作伙伴合同范本
- 2025年度時(shí)尚服飾區(qū)域分銷代理合同
- 2025年度高校教授職務(wù)評(píng)審及聘任合同4篇
- 二零二五年度土石方工程地質(zhì)災(zāi)害預(yù)警與應(yīng)急處理合同
- 二零二五年度冷鏈倉(cāng)儲(chǔ)與運(yùn)輸一體化服務(wù)合同4篇
- 二零二五年度棉花產(chǎn)業(yè)安全生產(chǎn)管理合同4篇
- 2025版美發(fā)師創(chuàng)業(yè)孵化項(xiàng)目聘用合同2篇
- 二零二五年度奢侈品銷售團(tuán)隊(duì)聘用合同范本
- 第1課 隋朝統(tǒng)一與滅亡 課件(26張)2024-2025學(xué)年部編版七年級(jí)歷史下冊(cè)
- 2025-2030年中國(guó)糖醇市場(chǎng)運(yùn)行狀況及投資前景趨勢(shì)分析報(bào)告
- 冬日暖陽(yáng)健康守護(hù)
- 水處理藥劑采購(gòu)項(xiàng)目技術(shù)方案(技術(shù)方案)
- 2024級(jí)高一上期期中測(cè)試數(shù)學(xué)試題含答案
- 盾構(gòu)標(biāo)準(zhǔn)化施工手冊(cè)
- 天然氣脫硫完整版本
- 山東省2024-2025學(xué)年高三上學(xué)期新高考聯(lián)合質(zhì)量測(cè)評(píng)10月聯(lián)考英語(yǔ)試題
- 不間斷電源UPS知識(shí)培訓(xùn)
- 三年級(jí)除法豎式300道題及答案
- 人教版八級(jí)物理下冊(cè)知識(shí)點(diǎn)結(jié)
評(píng)論
0/150
提交評(píng)論