化學(xué)計(jì)量學(xué)第五章.ppt_第1頁(yè)
化學(xué)計(jì)量學(xué)第五章.ppt_第2頁(yè)
化學(xué)計(jì)量學(xué)第五章.ppt_第3頁(yè)
化學(xué)計(jì)量學(xué)第五章.ppt_第4頁(yè)
化學(xué)計(jì)量學(xué)第五章.ppt_第5頁(yè)
已閱讀5頁(yè),還剩38頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第五章 定量構(gòu)效關(guān)系研究,目錄,5.1 概述 5.2 化學(xué)模式識(shí)別與QSAR的4個(gè)水平 5.3 SIMCA法水平2的化學(xué)模式識(shí)別與QSAR 5.4 SIMCA法水平3、4的化學(xué)模式識(shí)別與QSAR,5.1,化學(xué)工作者一直致力于研究化學(xué)結(jié)構(gòu)與化合物特性之間的關(guān)系,這種關(guān)系的定量描述,稱定量構(gòu)效關(guān)系(Quantitative Structure Activity Relationship, QSAR)。它是化學(xué)計(jì)量學(xué)的重要分支領(lǐng)域。 構(gòu)效關(guān)系研究可追溯到上個(gè)世紀(jì)。當(dāng)時(shí)化學(xué)工作者已認(rèn)識(shí)到,化合物的一些性質(zhì),諸如藥物的生理作用等是與其化學(xué)結(jié)構(gòu)相關(guān)的,并認(rèn)為二者之間的關(guān)系可借數(shù)學(xué)工具描述。Hammett在

2、其經(jīng)典著述中提出線性自由能關(guān)系(LFER),這可認(rèn)作是QSAR研究的起點(diǎn)。,5.1,到60年代,Hansch的研究已建立在定量的基礎(chǔ)之上,探討結(jié)構(gòu)變化與生化活性之間的關(guān)系。陳榮悌等發(fā)展了配位化學(xué)中的LFER研究。蔣明謙系統(tǒng)地論述了有機(jī)化合物的同系線性規(guī)律,徐光憲等探討了這類規(guī)律的量子化學(xué)基礎(chǔ)。在有關(guān)物理有機(jī)化學(xué)溶劑效應(yīng)研究中,劉有成等比較了有關(guān)溶劑極性經(jīng)驗(yàn)參數(shù)。,5.1,容易看到, QSAR問(wèn)題實(shí)際上是一個(gè)化學(xué)模式識(shí)別問(wèn)題。這里,研究的對(duì)象就是分子結(jié)構(gòu)與化合物活性之間的隱含關(guān)系。如上章所述,可以取分子結(jié)構(gòu)許多可量測(cè)的特征作為參量,用模式識(shí)別方法考察這些分子結(jié)構(gòu)特征與指定課題中感興趣的某種性質(zhì)之

3、間的關(guān)系。 在討論構(gòu)效關(guān)系時(shí),我們涉及化學(xué)學(xué)科一個(gè)根本性的問(wèn)題如何從物質(zhì)的化學(xué)成分與結(jié)構(gòu)定量預(yù)測(cè)其化學(xué)特性?在科學(xué)研究方法中,我們當(dāng)然希望建立一種全局的(global)“硬”模式,一些物理量涉及的正是這種模式,如質(zhì)量、電荷、能量、時(shí)間等。化學(xué)家試圖用配位場(chǎng)理論解釋無(wú)機(jī)配合物、金屬有機(jī)化合物結(jié)構(gòu)與性能的關(guān)系。在整個(gè)量子化學(xué)研究中試圖建立的正是化學(xué)結(jié)構(gòu)與性能之間關(guān)系的全局的 “硬”模式。,5.1,對(duì)于一個(gè)給定的分子,亦即一定數(shù)量的原子的集合,通過(guò)求解相應(yīng)Schroedinger方程,求出相應(yīng)特征值與特征矢量,可描繪能量與電子的分布,分子的性質(zhì)可從波函數(shù)與能量導(dǎo)出。目前,量子化學(xué)計(jì)算已取得十分矚目的

4、成就,但對(duì)過(guò)于復(fù)雜的分子進(jìn)行量子化學(xué)計(jì)算尚有一定困難。由于這一原因,大量的化學(xué)研究仍處于一種“定性”的水平。在無(wú)法建立全局的 “硬”模式的情況下,化學(xué)工作者常使用“相似”、“類比”的研究方法。例如,有機(jī)化學(xué)家研究醇的化學(xué),他不會(huì)預(yù)期新合成的一種醇與已知的其他醇有等同的性質(zhì),但可以預(yù)測(cè),新合成的醇與已知的其他醇會(huì)有類似的性質(zhì)。,5.1,有的物理化學(xué)性質(zhì),常是以類比的概念表述。例如溶解度問(wèn)題,化學(xué)家將客觀規(guī)律表述為“相似者互溶”。元素周期律所表述的周期相似性規(guī)律,則更是集中體現(xiàn)了化學(xué)研究中的類比方法?;瘜W(xué)研究的這種特征,其緣由是化學(xué)現(xiàn)象較之物理現(xiàn)象一般更復(fù)雜,受很多未知因素的制約?;瘜W(xué)世界是一個(gè)典

5、型的多元(多變量)世界,其復(fù)雜性隨變量的數(shù)目(例如化合物中原子種類數(shù)目)增加而增加的速度,超過(guò)指數(shù)遞增關(guān)系。,5.1,這樣一來(lái),理論模式本身由于引入近似造成的誤差,往往抵消了模式本身原有的“硬”度(嚴(yán)謹(jǐn)性,無(wú)限定假設(shè)),經(jīng)簡(jiǎn)化后的近似的化學(xué)體系,與實(shí)際化學(xué)世界之間也失去了緊密聯(lián)系。在尚不能建立完整的全局“硬”模式的情況下,如何在定量的基礎(chǔ)上對(duì)復(fù)雜的化學(xué)現(xiàn)象進(jìn)行研究探索?,5.1,QSAR研究涉及的正是這類課題。在暫無(wú)法建立全局“硬”模式的情況下,化學(xué)家試圖建立局部的“軟”模式,局部系相對(duì)于全局而言。在無(wú)法建立對(duì)所有化合物均適用的全局定量模式時(shí),是否有可能建立對(duì)一類化合物例如醇類通用的局部模式?

6、在無(wú)法建立完全基于量子化學(xué)計(jì)算的“硬”模式的情況下,則探索建立統(tǒng)計(jì)“軟”模式預(yù)測(cè)有關(guān)化學(xué)性質(zhì)。,5.1,局部“軟”模式與全局“硬”模式在化學(xué)科學(xué)中的關(guān)系,并不是相互對(duì)立的,而實(shí)際上是相輔相成的。對(duì)于能夠使用全局“硬”模式的情況,應(yīng)當(dāng)推薦選用這種模式。使用局部“軟”模式是為了適應(yīng)復(fù)雜體系無(wú)法建立全局“硬”模式的情況。從目前實(shí)際情況看,物理化學(xué)研究中在較多的情況下能考慮研究全局“硬”模式的建立,對(duì)于一些相對(duì)簡(jiǎn)單的例如無(wú)機(jī)化學(xué)中的不少體系,人們亦致力于盡量建立全局“硬”模式,而對(duì)于有機(jī)化學(xué)及生物化學(xué)領(lǐng)域,在不少情況下只能考慮局部“軟”模式。至于將分析化學(xué)中濃度信息轉(zhuǎn)化為其他有用的問(wèn)題,往往基本上只可

7、能依靠局部“軟”模式。,5.2 化學(xué)模式識(shí)別與QSAR的4個(gè)水平,前章我們討論了化學(xué)模式識(shí)別的基本原理與方法,主要著眼于模式的分類。在有監(jiān)督的分類中,典型的是將模式分為確定的二類或若干類,這種情況可定義為水平1的化學(xué)模式識(shí)別。與之對(duì)應(yīng),水平1的QSAR目標(biāo)也是根據(jù)某一化合物的結(jié)構(gòu),將其分類歸于具有某一確定活性的族類,這就要假定未知活性的化合物肯定應(yīng)是這些確定的族類的一員。總的說(shuō)來(lái),前章所述的有關(guān)方法,進(jìn)行的基本上是水平1的化學(xué)模式識(shí)別,相應(yīng)也能作水平1的QSAR研究。,5.2 化學(xué)模式識(shí)別與QSAR的4個(gè)水平,在化學(xué)模式識(shí)別中,特別是QSAR研究中,采用水平1模式識(shí)別或QSAR方法時(shí)往往會(huì)遇到

8、一個(gè)困難:待分類的樣本可能根本不屬于訓(xùn)練集中某一類。有時(shí)訓(xùn)練集分為兩類,一類是具有某一隱含特性的樣本,另一類是不具有這一隱含性質(zhì)的樣本。這種情況形式上是分為二類,實(shí)際上第二類并不是確定的類。如在前章提及的牛奶/羊奶一例含確定的二類,屬于水平1的化學(xué)模式識(shí)別。如區(qū)分的類是牛奶與非牛奶,則非牛奶可能是羊奶、馬奶,并非確定的類。在法醫(yī)鑒定中,判別某種罪證痕跡的歸屬,可將嫌疑對(duì)象作為分類的目標(biāo),看有關(guān)罪證屬于嫌疑對(duì)象中何人,但如真正的罪犯逃脫了初步偵緝范圍,未被列為嫌疑對(duì)象,則用水平1模式識(shí)別將不能奏效。,5.2 化學(xué)模式識(shí)別與QSAR的4個(gè)水平,水平1模式識(shí)別中常遇到的線性不可分的情況,不少即是定義

9、的類中有的類實(shí)際是不確定的。在QSAR研究中,如需要將化合物根據(jù)其結(jié)構(gòu)分類為具有某種生化活性的與不具有該種活性的兩類。不具有該種生化活性的化合物,實(shí)際上是具有其他生化活性及不具有任何生化活性化合物的集合。在模式空間中,得到的往往是線性不可分的情況,這種情況常稱為“不對(duì)稱”的。水平2的化學(xué)模式識(shí)別與QSAR研究考慮了這種不對(duì)稱情況。水平2的化學(xué)模式識(shí)別應(yīng)能辨識(shí)未預(yù)見(jiàn)到的族類的存在,即訓(xùn)練集以外的異常點(diǎn),也應(yīng)能辨識(shí)訓(xùn)練集中分類不正確的樣本,只有對(duì)每個(gè)類均能建立相應(yīng)模式的模式識(shí)別方法,才能用于這一水平的識(shí)別,本章將討論的SIMCA方法就是這種方法。,5.2 化學(xué)模式識(shí)別與QSAR的4個(gè)水平,KNN法

10、是一種按水平1設(shè)計(jì)的模式識(shí)別方法,對(duì)它作一些算法上的調(diào)整,即能適應(yīng)水平2模式識(shí)別的要求,從訓(xùn)練集中K個(gè)最近鄰的距離分布,有可能給出對(duì)給定的樣本與其最近鄰距離的臨界距離允許區(qū)間,遠(yuǎn)于這一臨界距離就可將該樣本認(rèn)作異常點(diǎn)。 水平3的化學(xué)模式識(shí)別與QSAR,不但要求將樣本分組到某一類別或根據(jù)其結(jié)構(gòu)預(yù)測(cè)某種活性,而且要求給出有關(guān)性質(zhì)的定量估計(jì)(例如生物活性有大小)。,5.2 化學(xué)模式識(shí)別與QSAR的4個(gè)水平,前章的討論中是把化學(xué)模式識(shí)別方法當(dāng)作一個(gè)廣義的定性分析手段處理的,這里將擴(kuò)充這一概念,不但要求作定性分析,而且要求給出定量結(jié)果。這種定量估計(jì)的意義是顯而易見(jiàn)的,例如臨床化學(xué)分析,人們不但希望知道病人

11、是否患有某種疾病,而且希望知道病情的的深度(輕度感染,疾病早期、中期或晚期),在化學(xué)反應(yīng)活性QSAR研究中,人們不但希望能確定某種化合物具有反應(yīng)活性或不具備反應(yīng)活性(水平1,2化學(xué)模式識(shí)別與QSAR ),還希望了解反應(yīng)活性的定量量度,是很強(qiáng)的活性或僅具有微弱活性,化學(xué)家的目標(biāo)是找到反應(yīng)活性最強(qiáng)的化合物。,5.2 化學(xué)模式識(shí)別與QSAR的4個(gè)水平,以催化劑為例,催化活性每高5%可能就等價(jià)于上萬(wàn)元的產(chǎn)值,因此從一些相近結(jié)構(gòu)的催化劑中預(yù)測(cè)其活性的微小差異很重要。水平1,2的化學(xué)模式識(shí)別與QSAR顯然不能滿足這一要求。研究生化活性的情況亦相似,在藥物設(shè)計(jì)中,用于疑難疾病防冶的藥物的活性的任何增長(zhǎng),均具

12、有重要意義,不少疾病并非完全無(wú)藥可用,因此, QSAR研究的主要目標(biāo),不應(yīng)是僅僅預(yù)測(cè)或找出一些有活性的,但藥效往往不及原有藥物的“新”藥,而是要努力找到活性更大的藥物。,5.2 化學(xué)模式識(shí)別與QSAR的4個(gè)水平,前面敘及的不能用于水平2化學(xué)模式識(shí)別與QSAR的方法,如線性學(xué)習(xí)機(jī)等,也不適用于更高水平的化學(xué)模式識(shí)別與QSAR。KNN法雖然原是按水平1化學(xué)模式識(shí)別設(shè)計(jì)的方法,不但如前述可擴(kuò)展用于水平2的化學(xué)模式識(shí)別與QSAR,亦有可能改造為水平3的化學(xué)模式識(shí)別方法或用于水平3的QSAR研究。例如,在KNN的訓(xùn)練集或充分的訓(xùn)練樣本子集中,如對(duì)每個(gè)樣本均不但已知其屬于哪一類,而且給出了相應(yīng)的活度標(biāo)度,

13、或其他定量指標(biāo)量度(例如病人病情嚴(yán)重程度的定量標(biāo)度),則在用KNN分類時(shí),根據(jù)K個(gè)最近鄰的活性值的加權(quán)平均(例如用距離的倒數(shù)作權(quán)重),可求得該未知樣本的活性的定量估計(jì)。,5.2 化學(xué)模式識(shí)別與QSAR的4個(gè)水平,水平3的QSAR也可簡(jiǎn)單理解為進(jìn)行水平2的化學(xué)模式識(shí)別之后,在找到的類別內(nèi)進(jìn)行傳統(tǒng)的QSAR定量關(guān)系研究,PCR、PLS算法可用于進(jìn)行這種定量關(guān)系的研究。只需將上述方法中相應(yīng)的響應(yīng)信號(hào)改為活性量度,而各組分濃度改為模式參量的取值,或QSAR中代表化合物結(jié)構(gòu)的各參量取值。,5.2 化學(xué)模式識(shí)別與QSAR的4個(gè)水平,水平3的化學(xué)模式識(shí)別與QSAR研究還可進(jìn)一步擴(kuò)充,在有關(guān)校正理論的討論中,

14、沒(méi)有限制每一個(gè)分析試樣只能有一個(gè)分析信號(hào),相反,化學(xué)計(jì)量學(xué)方法的特征就是多通道量測(cè),在QSAR研究中,為何每一個(gè)樣本不能有多種活性?如只涉及一種活性,由一個(gè)量度表示,即是前述的水平3的化學(xué)模式識(shí)別或QSAR;如每一個(gè)樣本有一個(gè)活性矢量,由一種以上活性量度表述,每種量度是活性矢量的一個(gè)元素,則稱為水平4的化學(xué)模式識(shí)別與QSAR??梢?jiàn), QSAR不但可用于研究多種結(jié)構(gòu)參量與活性之間的定量關(guān)系,還可以研究多種結(jié)構(gòu)參量與多種活性之間的復(fù)雜關(guān)系。,5.2 化學(xué)模式識(shí)別與QSAR的4個(gè)水平,4個(gè)水平的化學(xué)模式識(shí)別及相應(yīng)的QSAR方法,代表了模式識(shí)別這一通用的數(shù)學(xué)與計(jì)算機(jī)科學(xué)相結(jié)合的研究方法用于解決化學(xué)問(wèn)題

15、時(shí)獨(dú)有的特征,作為化學(xué)計(jì)量學(xué)的重要組成部分,它包含了化學(xué)工作者對(duì)相關(guān)數(shù)學(xué)與計(jì)算機(jī)科學(xué)方法作出的獨(dú)特貢獻(xiàn)。,5.2 化學(xué)模式識(shí)別與QSAR的4個(gè)水平,另一方面,水平3、4的化學(xué)模式識(shí)別與QSAR展示了化學(xué)計(jì)量學(xué)的幾個(gè)重要分支校正理論、化學(xué)模式識(shí)別、 QSAR的共同點(diǎn)與相互聯(lián)系。作為處理復(fù)雜的多變量化學(xué)世界的量測(cè)數(shù)據(jù)以提取有用信息的校正方法、化學(xué)模式識(shí)別或QSAR算法,是建立在相同的數(shù)學(xué)與統(tǒng)計(jì)學(xué)理論基礎(chǔ)之上的,有時(shí)幾乎是等同的方法,而PLS與SIMCA正是這類方法最典型的代表。,5.3 SIMCA法水平2的化學(xué)模式識(shí)別與QSAR,本節(jié)將介紹化學(xué)模式識(shí)別中一個(gè)較通用的方法SIMCA法,這一方法根據(jù)其

16、設(shè)計(jì)者定義的涵義是“統(tǒng)計(jì)勻線性多元分析”(Statistical Isolinear Multiple Component Analysis),或“族類的獨(dú)立軟模式”(Soft Independent Modeling of Class Analogy),意為各類樣本獨(dú)立地建立局部“軟”模式。,5.3 SIMCA法水平2的化學(xué)模式識(shí)別與QSAR,SIMCA算法的基本思路,是對(duì)訓(xùn)練集中同屬一類的樣本的量測(cè)數(shù)據(jù)矩陣進(jìn)行主成分分析,找出能表述這一類的局部軟模式。對(duì)于未知樣本,則分別試探將該樣本與各類擬合,以確定其屬于哪一類,或不屬于任何一類。SIMCA也適合于未知樣本同時(shí)屬于幾個(gè)類的情況,例如根據(jù)光

17、譜數(shù)據(jù)確定化合物含有何種基團(tuán),某種化合物可能既含有基團(tuán)A,又含有基團(tuán)B則該化合物將同時(shí)屬于兩類。,5.3 SIMCA法水平2的化學(xué)模式識(shí)別與QSAR,注意,這里已將原定義的簇的概念擴(kuò)充,在一般無(wú)監(jiān)督的分類中,通??偸羌僭O(shè)每個(gè)樣本僅屬于一個(gè)簇。 就QSAR而言,化合物可能同時(shí)具有抗癌活性與抗其他病毒功能;就根據(jù)臨床化學(xué)分析進(jìn)行醫(yī)療診斷而言,病人可能同時(shí)患有甲狀腺功能亢進(jìn)與門脈性肝硬化等等。,5.3 SIMCA法水平2的化學(xué)模式識(shí)別與QSAR,先討論訓(xùn)練集的樣本類別已知,但無(wú)定量活性數(shù)據(jù)的情況。訓(xùn)練集每個(gè)樣本K(共N個(gè)樣本)以參量i(共M個(gè)參量)描述之記為Xik?,F(xiàn)考察訓(xùn)練集中的一個(gè)類q,含Nq個(gè)

18、樣本,故可以MxNq矩陣X描述。如設(shè)想這Nq個(gè)樣本是完全等同的(不僅是相似),則對(duì)應(yīng)于該類中各樣本K的參量值可以極簡(jiǎn)單的模式表述: Xik=ai+ik (5-1),5.3 SIMCA法水平2的化學(xué)模式識(shí)別與QSAR,也就是說(shuō),同一類中諸樣本的參量值均為ai;其差異完全是隨機(jī)量測(cè)誤差ik引起的??陀^實(shí)際情況極少如此簡(jiǎn)單,一般可以下述模式表述: Xik=ai+iaak+ik (5-2) 注意,這個(gè)模式就是扣除Xik中同類各樣本的均值(ai)及量測(cè)誤差部分(ik)后,將代表各樣本之間真正差異的部分作主成分分析,A是主成分?jǐn)?shù),對(duì)于每一個(gè)主成分a(主因子), iaak中ia與參量i對(duì)應(yīng), ak與樣本k對(duì)

19、應(yīng)。A所代表的,即是各樣本的諸參量所張開(kāi)的模式空間的實(shí)際維數(shù)。,5.3 SIMCA法水平2的化學(xué)模式識(shí)別與QSAR,對(duì)于訓(xùn)練集中第q類的樣本(設(shè)共有Q類),將上式加類標(biāo)q寫成: Xik=ai+iaak+ik (52a) SIMCA方法用于水平2的化學(xué)模式識(shí)別或QSAR研究,是先采用NIPACS(非線性迭代偏最小二乘)算法求出屬于第q類的樣本的參量數(shù)據(jù)矩陣X(q)的特征值與特征矢量,從而計(jì)算與參量對(duì)應(yīng)的ia及與樣本對(duì)應(yīng)的ak,并用交互檢驗(yàn)法確定Aq(主成分?jǐn)?shù))值,為了組成參量數(shù)據(jù)陣X(q),至少應(yīng)有5個(gè)屬于q類的樣本(即Nq至少為5),最好樣本數(shù)為10或10個(gè)以上。,A,a=1,(q),(q),

20、(q),(q),(q),(q),(q),5.3 SIMCA法水平2的化學(xué)模式識(shí)別與QSAR,式(5-1)所表述的模式(Aq=0),q類所有樣本均是等同的,不存在使之出現(xiàn)真正差異的因子(即“主成分”),實(shí)際上是模式空間中的一個(gè)點(diǎn)。如下圖:,各點(diǎn)分散在半徑為q的超球內(nèi), q可稱為該類的極限殘余標(biāo)準(zhǔn)差。,5.3 SIMCA法水平2的化學(xué)模式識(shí)別與QSAR,如Aq=1,則每個(gè)類限制在一個(gè)半徑為q 的超圓柱體內(nèi)(如下圖)。而從式(5-2a)的ik可求出q 的估計(jì)S(0):,三個(gè)類各類樣本點(diǎn)位于直線兩側(cè)寬2q的帶內(nèi)(二維平面的表示)。,(q),q,5.3 SIMCA法水平2的化學(xué)模式識(shí)別與QSAR,對(duì)所有

21、各個(gè)類別的諸樣本,均進(jìn)行上述主成分分析,各類別的諸樣本的每個(gè)變量宜作預(yù)處理,使其均值為零,方差為1。如各個(gè)類求出的Aq不同,且相差1以上,各個(gè)類應(yīng)取其本身得出的最優(yōu)Aq值構(gòu)造模式;如各類之間Aq值只相差1,則取較大的Aq用于所有的類。這里需要注意的是,取偏低的主成分?jǐn)?shù),將丟失信息,這時(shí),誤差項(xiàng)ik將很大;取偏高的主成分?jǐn)?shù),ik變小,表面上有用信息似乎增加,實(shí)際上是將誤差的貢獻(xiàn)也當(dāng)成了有用信息,這時(shí)可能出現(xiàn)夸大了的分類假象。,(q),(q),5.3 SIMCA法水平2的化學(xué)模式識(shí)別與QSAR,在為訓(xùn)練集的每一個(gè)類q構(gòu)造了模式(52a)后,得到Aq、ai、ia、ak及q的估計(jì)。現(xiàn)試對(duì)校驗(yàn)集的樣本進(jìn)

22、行考察:記樣本號(hào)為P,則其對(duì)應(yīng)參量值為Xip,將其擬合入類q的模式計(jì)算: Zi=xip-ai (5-3) 以Zi作為因變量,ia(a=1,2,Aq)作為變量,用多元線性回歸方法處理: Zi=xip-ai=ia ap+eip (5-4),(q),(q),(q),(q),(q),(q),(q),(q),Aq,a=1,5.3 SIMCA法水平2的化學(xué)模式識(shí)別與QSAR,這時(shí)可考察回歸得到的ap值是否落在本類的ap的范圍內(nèi)。另一方面,由各變量i(共M個(gè))的eip,并考慮自由度為M-Aq可計(jì)算殘余標(biāo)準(zhǔn)差Sp: Sp=(eip)2/(M-Aq)1/2 (5-5) Sp實(shí)際上是樣本p與類q的“距離”的量度,

23、這一殘余標(biāo)準(zhǔn)差應(yīng)與q類的總體殘余標(biāo)準(zhǔn)差(So)比較: So=(ik)2/(Nq-Aq-1)(M-Aq)1/2 (5-4),M,(q),(q),(q),(q),k=1,(q),i=1,(q),i=1,M,Nq,(q),5.3 SIMCA法水平2的化學(xué)模式識(shí)別與QSAR,這里i按變量數(shù)M求和,k按q類中樣本數(shù)Nq求和,計(jì)算時(shí)考慮到了與主成分分解所取得Aq數(shù)有關(guān)的自由度。 如(Sp)2與(So)2比較,發(fā)現(xiàn)前者顯著大,則可判別p不屬于q類。 將樣本p再一一對(duì)訓(xùn)練集中其余各類進(jìn)行擬合,我們可能得到幾種不同結(jié)果: (1)樣本可唯一地歸于類q。借F檢驗(yàn)可證明這一點(diǎn)。這種情況下,P與其它類的距離,即使其中那

24、個(gè)距p最近者,按F檢驗(yàn)亦能明確否定P不屬該類。,(q),(q),5.3 SIMCA法水平2的化學(xué)模式識(shí)別與QSAR,(2)樣本P可判別屬于q1,q2,qn n類。這種情況可能表明P確實(shí)同時(shí)屬于這些類,例如某種化合物同時(shí)有幾種活性;但也可能是對(duì)于樣本P而言,訓(xùn)練集擁有的信息不足以區(qū)分這幾個(gè)類屬。 (3)樣本P不屬于訓(xùn)練集中任何一類,即該樣本是一個(gè)異常樣本,應(yīng)屬于某一個(gè)新類(這就是水平2的化學(xué)模式識(shí)別與QSAR區(qū)別于水平1之處)。這里需要指出,在訓(xùn)練集中本身可能存在異常樣本。迄今為止的討論,是以擁有已知樣本的歸類作為分類依據(jù)的,但SIMCA本身有能力檢驗(yàn)這些“已知”樣本的歸類是否萬(wàn)無(wú)一失。,5.3

25、 SIMCA法水平2的化學(xué)模式識(shí)別與QSAR,為此,對(duì)訓(xùn)練集中某一樣本P(情況與前述未知樣本P類似,不同處是這個(gè)樣本P是訓(xùn)練集中的)??砂词?53、4、5)進(jìn)行對(duì)q類的擬合,得到的Sp可按下式進(jìn)行F檢驗(yàn): F=(Sp)2. /(So)2 這里Sp是按式(5-5)得到的訓(xùn)練集中樣本P的殘余標(biāo)準(zhǔn)差,校正因子Nq/(Nq-Aq-1)考慮了樣本P本身參與了訓(xùn)練集樣本計(jì)算有關(guān)、參量的過(guò)程。,(q),(q),Nq,Nq-Aq-1,(q),(q),5.3 SIMCA法水平2的化學(xué)模式識(shí)別與QSAR,按上式計(jì)算得的F與臨界F值相應(yīng)自由度為(M-Aq)及(Nq-Aq-1)(M-Aq)比較。如結(jié)果表明超出了標(biāo)準(zhǔn)F

26、范圍,則要考慮訓(xùn)練集中這個(gè)樣本并不屬于q類,如也不屬于訓(xùn)練集中任何其他類,則說(shuō)明這個(gè)樣本應(yīng)從訓(xùn)練集中棄去。不過(guò),這種處理宜慎重,應(yīng)力求得到實(shí)驗(yàn)證實(shí)。例如,有時(shí)這種情況的發(fā)生是由于標(biāo)簽混淆。訓(xùn)練集中被刪除的樣本不應(yīng)超過(guò)10%,刪除后有關(guān)各類的模式及參量應(yīng)重新計(jì)算。,5.4 SIMCA法水平3、4的化學(xué)模式識(shí)別與QSAR,現(xiàn)進(jìn)一步討論除參量矩陣X外,還存在定量活度數(shù)據(jù)的情況。如每一個(gè)樣本只有單一的一種活度標(biāo)度,則是水平3的化學(xué)模式識(shí)別與QSAR,如每個(gè)樣本有一個(gè)以上的活度標(biāo)度,即每個(gè)樣本給出一個(gè)活度矢量,整個(gè)樣本集將有一個(gè)活度矩陣Y,這是水平4的化學(xué)模式識(shí)別與QSAR。,5.4 SIMCA法水平3

27、、4的化學(xué)模式識(shí)別與QSAR,水平3的化學(xué)模式識(shí)別與QSAR可按PCR(主成分回歸)方法處理。將每一類的X矩陣仍按前一節(jié)所述方法作主成分分析式(5-2),得到的每一維a與樣本K對(duì)應(yīng)的ak,均應(yīng)與各樣本的活性組成的矢量y中對(duì)應(yīng)于樣本k的元素yk相對(duì)應(yīng)。也就是說(shuō),可將ak與yk回歸,如有線性關(guān)系,作線性回歸;如無(wú)線性關(guān)系,作多項(xiàng)式擬合。在進(jìn)行了這一數(shù)據(jù)處理之后,未知試樣先按前節(jié)(5.3)的辦法,根據(jù)其x數(shù)據(jù)能擬合到訓(xùn)練集的哪一各類,確定其類別;再根據(jù)該樣本的ak值,從前述已為該類建立的ak與yk之間的函數(shù)關(guān)系,估計(jì)該未知樣本k的活性值yk。,5.4 SIMCA法水平3、4的化學(xué)模式識(shí)別與QSAR,在水平4,則將有一個(gè)Y矩陣,可按PLS方法將X陣與Y陣同時(shí)分解,對(duì)于同一個(gè)類別q的樣本(為簡(jiǎn)便起見(jiàn)略去(q)標(biāo)記),有: xik=xi+iaak+ik (52b) yik=yi+wiatak+jk (5-6) 這里,需將X與Y二個(gè)矩陣分解所得的與樣本(k)對(duì)應(yīng)的及t之間建立內(nèi)部關(guān)系,供預(yù)測(cè)未知樣本的活度用(由未知樣本的xik預(yù)測(cè)其yik)。這里采用在SIMCA計(jì)算中交換式(52b)、(5-6)中的及t變量,并建

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論