支持向量機(jī)算法和軟件ChemSVM介紹

上傳人：d*** IP屬地：天津上傳時(shí)間：2023-02-06 格式：DOCX 頁(yè)數(shù)：9 大?。?8.58KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩4頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

支持向量機(jī)算法和軟件ChemSVM介紹陸文聰1，陳念貽1，葉晨洲2,李國(guó)正2

（1.上海大學(xué)化學(xué)系計(jì)算機(jī)化學(xué)研究室，上海，200436）

（2.上海交通大學(xué)圖象及模式識(shí)別研究所，上海，200030）摘要VladimirN.Vapnik等提出的統(tǒng)計(jì)學(xué)習(xí)理論（statisticallearningtheory，簡(jiǎn)稱SLT）和支持向量機(jī)（supportvectormachine，簡(jiǎn)稱SVM）算法已取得令人鼓舞的研究成果。本文旨在對(duì)這一新理論和新算法的原理作一介紹，并展望這一計(jì)算機(jī)學(xué)界的新成果在化學(xué)化工領(lǐng)域的應(yīng)用前景?！癈hemSVM”軟件提供了通用的支持向量機(jī)算法，并將其與數(shù)據(jù)庫(kù)、知識(shí)庫(kù)、原子參數(shù)及其它數(shù)據(jù)挖掘方法有機(jī)地集成起來。關(guān)鍵詞模式識(shí)別；支持向量機(jī)；支持向量分類；支持向量回歸中圖分類號(hào)：O06-04IntroductiontotheAlgorithmofSupportVectorMachineandtheSoftwareChemSVMLUWen-cong1,CHENNian-yi1,YEChen-zhou2,LIGuo-zheng2（1.LaboratoryofChemicalDataMining,DepartmentofChemistry,ShanghaiUniversity,Shanghai,200436,China）

（2.InstituteofImageandPatternRecognition,JiaotongUniversity,Shanghai,200030,China）Abstracts:Thegreatachievementshavebeenapproachedinthedevelopmentofstatisticallearningtheory（STL）andsupportvectormachine（SVM）aswellaskerneltechniques.ThispaperaimedatintroducingtheprincipleofSLTandSVMalgorithmandprospectingtheirapplicationsinthefieldsofchemistryandchemicalindustry..KeyWords:Statisticallearningtheory,Supportvectormachine,Supportvectorclassification,Supportvectorregression眾所周知，統(tǒng)計(jì)模式識(shí)別、線性或非線性回歸以及人工神經(jīng)網(wǎng)絡(luò)等方法是數(shù)據(jù)挖掘的有效工具，已隨著計(jì)算機(jī)硬件和軟件技術(shù)的發(fā)展得到了廣泛的應(yīng)用［1-4］，我們亦曾將若干數(shù)據(jù)挖掘方法用于材料設(shè)計(jì)和藥物構(gòu)效關(guān)系的研究5-12］。但多年來我們也受制于一個(gè)難題：傳統(tǒng)的模式識(shí)別或人工神經(jīng)網(wǎng)絡(luò)方法都要求有較多的訓(xùn)練樣本，而許多實(shí)際課題中已知樣本較少。對(duì)于小樣本集，訓(xùn)練結(jié)果最好的模型不一定是預(yù)報(bào)能力最好的模型。因此，如何從小樣本集出發(fā)，得到預(yù)報(bào)（推廣）能力較好的模型，遂成為模式識(shí)別研究領(lǐng)域內(nèi)的一個(gè)難點(diǎn)，即所謂“小樣本難題”。最近我們注意到：數(shù)學(xué)家VladimirN.Vapnik等通過三十余年的嚴(yán)格的數(shù)學(xué)理論研究，提出來的統(tǒng)計(jì)學(xué)習(xí)理論statisticallearningtheory簡(jiǎn)稱SLT）［13］和支持向量機(jī)（supportvectormachine，簡(jiǎn)稱SVM）算法已得到國(guó)際數(shù)據(jù)挖掘?qū)W術(shù)界的重視，并在語(yǔ)音識(shí)別［14］、文字識(shí)別［15］、藥物設(shè)計(jì)［16］、組合化學(xué)［17］、時(shí)間序列預(yù)測(cè)［18］等研究領(lǐng)域得到成功應(yīng)用，該新方法從嚴(yán)格的數(shù)學(xué)理論出發(fā)，論證和實(shí)現(xiàn)了在小樣本情況下能最大限度地提高預(yù)報(bào)可靠性的方法，其研究成果令人鼓舞。張學(xué)工、楊杰等率先將有關(guān)研究成果引入國(guó)內(nèi)計(jì)算機(jī)學(xué)界，并開展了SVM算法及其應(yīng)用研究［19］，但國(guó)內(nèi)化學(xué)化工領(lǐng)域內(nèi)尚未見SVM的應(yīng)用報(bào)道。收稿日期：2002-06-10；修回日期：2002-09-10資金資助：國(guó)家自然科學(xué)基金委和美國(guó)福特公司聯(lián)合資助，批準(zhǔn)號(hào)：9716214作者簡(jiǎn)介：陸文聰（1964一），男，教授。研究方向：計(jì)算機(jī)化學(xué)。

本文是本論文系列的第一篇，主要介紹Vapnik等在SLT基礎(chǔ)上提出的SVM算法，包括支持向量分類(supportvectorclassification，簡(jiǎn)稱SVC)算法和支持向量回歸(supportvectorregression，簡(jiǎn)稱SVR)算法，并展望這一計(jì)算機(jī)學(xué)界的新成果在化學(xué)化工領(lǐng)域的應(yīng)用前景。1統(tǒng)計(jì)學(xué)習(xí)理論(SLT)簡(jiǎn)介[13]1.1背景現(xiàn)實(shí)世界中存在大量我們尚無法準(zhǔn)確認(rèn)識(shí)但卻可以進(jìn)行觀測(cè)的事物，如何從一些觀測(cè)數(shù)據(jù)(樣本)出發(fā)得出目前尚不能通過原理分析得到的規(guī)律，進(jìn)而利用這些規(guī)律預(yù)測(cè)未來的數(shù)據(jù)，這是統(tǒng)計(jì)模式識(shí)別(基于數(shù)據(jù)的機(jī)器學(xué)習(xí)的特例)需要解決的問題。統(tǒng)計(jì)是我們面對(duì)數(shù)據(jù)而又缺乏理論模型時(shí)最基本的(也是唯一的)分析手段。Vapnik等人早在20世紀(jì)60年代就開始研究有限樣本情況下的機(jī)器學(xué)習(xí)問題，但這些研究長(zhǎng)期沒有得到充分的重視。近十年來，有限樣本情況下的機(jī)器學(xué)習(xí)理論逐漸成熟起來，形成了一個(gè)較完善的SLT體系。而同時(shí)，神經(jīng)網(wǎng)絡(luò)等較新興的機(jī)器學(xué)習(xí)方法的研究則遇到一些重要的困難，比如如何確定網(wǎng)絡(luò)結(jié)構(gòu)的問題、過擬合與欠擬合問題、局部極小點(diǎn)問題等。在這種情況下，試圖從更本質(zhì)上研究機(jī)器學(xué)習(xí)的 SLT體系逐步得到重視。1992—1995年，Vapnik等在SLT的基礎(chǔ)上發(fā)展了SVM算法，在解決小樣本、非線性及高維模式識(shí)別問題中表現(xiàn)出許多特有的優(yōu)勢(shì)，并能夠推廣應(yīng)用到函數(shù)擬合等其它機(jī)器學(xué)習(xí)問題。很多學(xué)者認(rèn)為，它們正在成為繼模式識(shí)別和神經(jīng)網(wǎng)絡(luò)研究之后機(jī)器學(xué)習(xí)領(lǐng)域中新的研究熱點(diǎn)，并將推動(dòng)機(jī)器學(xué)習(xí)理論和技術(shù)有重大的發(fā)展。神經(jīng)網(wǎng)絡(luò)研究容易出現(xiàn)過擬合問題，是由于學(xué)習(xí)樣本不充分和學(xué)習(xí)機(jī)器設(shè)計(jì)不合理的原因造成的，由于此矛盾的存在，所以造成在有限樣本情況下：1)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小不一定意味著期望風(fēng)險(xiǎn)最小；2)學(xué)習(xí)機(jī)器的復(fù)雜性不但與所研究的系統(tǒng)有關(guān)，而且要和有限的學(xué)習(xí)樣本相適應(yīng)。SLT體系及其SVM算法在解決“小樣本難題”過程中所取得的核函數(shù)應(yīng)用等方面的突出進(jìn)展令人鼓舞，已被認(rèn)為是目前針對(duì)小樣本統(tǒng)計(jì)估計(jì)和預(yù)測(cè)學(xué)習(xí)的最佳理論。1.2原理Vapnik的SLT的核心內(nèi)容包括下列四個(gè)方面：1)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則下統(tǒng)計(jì)學(xué)習(xí)一致性的條件；2)在這些條件下關(guān)于統(tǒng)計(jì)學(xué)習(xí)方法推廣性的界的結(jié)論；3)在這些界的基礎(chǔ)上建立的小樣本歸納推理原則；4)實(shí)現(xiàn)這些新的原則的實(shí)際方法(算法)。設(shè)訓(xùn)練樣本集為(y,X),(y,X)XeRm,yeR，其擬合(建模)的數(shù)學(xué)實(shí)質(zhì)是從函數(shù)集中1 1 nn選出合適的函數(shù)f(x)，使風(fēng)險(xiǎn)函數(shù)：(1)更無法求其極小。傳統(tǒng)的統(tǒng)計(jì)(2)R[f]=j(y-f(X))2P(x,y)dxdy為最小。但因其中的幾率分布函數(shù)5P(x,y)為未知，上式無法計(jì)算，數(shù)學(xué)遂假定上述風(fēng)險(xiǎn)函數(shù)可用經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)R[(1)更無法求其極小。傳統(tǒng)的統(tǒng)計(jì)(2)Remp[f]=土"(y-f(I,))2

i=1根據(jù)大數(shù)定律，式(2)只有當(dāng)樣本數(shù)n趨于無窮大且函數(shù)集足夠小時(shí)才成立。這實(shí)際上是假定最小二乘意義的擬合誤差最小作為建模的最佳判據(jù)，結(jié)果導(dǎo)致擬合能力過強(qiáng)的算法的預(yù)報(bào)能力反而降低。為此，slt用結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)Rh[f]代替Rmp[f]，并證明了Rh[f]可用下列函數(shù)求極小而得：.[ h(ln2n/h+1)-ln(5/4)(3)min"emp[f]+V n (3)此處n為訓(xùn)練樣本數(shù)目，S.為VC維空間結(jié)構(gòu)，力為VC維數(shù)，即對(duì)函數(shù)集復(fù)雜性或者學(xué)習(xí)能力的度量。1-8為表征計(jì)算的可靠程度的參數(shù)。SLT要求在控制以VC維為標(biāo)志的擬合能力上界(以限制過擬合)的前提下追求擬合精度?？刂芕C維的方法有三大類：1)拉大兩類樣本點(diǎn)集在特征空間中的間隔；2)縮小兩類樣本點(diǎn)各自在特征空間中的分布范圍；3[降低特征空間維數(shù)。一般認(rèn)為特征空間維數(shù)是控制過擬合的唯一手段，而新理論強(qiáng)調(diào)靠前兩種手段可以保證在高維特征空間的運(yùn)算仍有低的VC維，從而保證限制過擬合。對(duì)于分類學(xué)習(xí)問題，傳統(tǒng)的模式識(shí)別方法強(qiáng)調(diào)降維，而SVM與此相反。對(duì)于特征空間中兩類點(diǎn)不能靠超平面分開的非線性問題，SVM采用映照方法將其映照到更高維的空間，并求得最佳區(qū)分二類樣本點(diǎn)的超平面方程，作為判別未知樣本的判據(jù)。這樣，空間維數(shù)雖較高，但VC維仍可壓低，從而限制了過擬合。即使已知樣本較少，仍能有效地作統(tǒng)計(jì)預(yù)報(bào)。對(duì)于回歸建模問題，傳統(tǒng)的化學(xué)計(jì)量學(xué)算法在擬合訓(xùn)練樣本時(shí)，將有限樣本數(shù)據(jù)中的誤差也擬合進(jìn)數(shù)學(xué)模型了。針對(duì)傳統(tǒng)方法這一缺點(diǎn)，SVR采用七不敏感函數(shù)”，即對(duì)于用f(x)擬合目標(biāo)值y時(shí)/G)=WTX+b，目標(biāo)值y,擬合在七-wTx-b<￡時(shí)，即認(rèn)為進(jìn)一步擬合是無意義的。這樣擬合得到的不是唯一解，而是一組無限多個(gè)解。SVR方法是在一定約束條件下，以||w||2取極小的標(biāo)準(zhǔn)來選取數(shù)學(xué)模型的唯一解。這一求解策略使過擬合受到限制，顯著提高了數(shù)學(xué)模型的預(yù)報(bào)能力。2支持向量分類(SVC)算法2.1線性可分情形SVM算法是從線性可分情況下的最優(yōu)分類面(OptimalHyperplane)提出的。所謂最優(yōu)分類面就是要求分類面不但能將兩類樣本點(diǎn)無錯(cuò)誤地分開，而且要使兩類的分類空隙最大。d維空間中線性判別函數(shù)的一般形式為g[)=WTX+b，分類面方程是wTx+b=0，我們將判別函數(shù)進(jìn)行歸一化，使兩類所有樣本都滿足gG)x，此時(shí)離分類面最近的樣本的gG)T，而要求分類面對(duì)所有樣本都能正確分類，就是要求它滿足y.("x.+b)-1>0,i=1,2,,n。 (4)式(4)中使等號(hào)成立的那些樣本叫做支持向量(SupportVectors)。兩類樣本的分類空隙(Margin)的間隔大小:Margin=2/網(wǎng) (5)因此，最優(yōu)分類面問題可以表示成如下的約束優(yōu)化問題，即在條件(4)的約束下，求函數(shù)2-2(wTw)(6)4(w)=22-2(wTw)(6)的最小值。為此，可以定義如下的Lagrange函數(shù)：L(w,b,以)=-2wtw-&■[yi(wtx+b)-1]i=1其中，ai>0為L(zhǎng)agrange系數(shù)，我們的問題是對(duì)w和b求Lagrange函數(shù)的最小值。把式(7)分別對(duì)w、b、ai求偏微分并令它們等于0，得：i=1-=0nEay=0-b iii=1-—=0n以.[y.(wtx+b)-1]=0i以上三式加上原約束條件可以把原問題轉(zhuǎn)化為如下凸二次規(guī)劃的對(duì)偶問題:[max乙-1EEaayyLJi2 ijijiji=1 i=1j=1TOC\o"1-5"\h\z<s.t a>0,i=1,…,n (8)Eay.=0

l i=1這是一個(gè)不等式約束下二次函數(shù)機(jī)制問題，存在唯一最優(yōu)解。若。*為最優(yōu)解，則iw*=Ea*yx (9)iiii=1a*不為零的樣本即為支持向量，因此，最優(yōu)分類面的權(quán)系數(shù)向量是支持向量的線性組合。b*可由約束條件ai[yi(WTX^+b)-1]=0求解，由此求得的最優(yōu)分類函數(shù)是：f(x)=sgn((w*)tx+b*)=sgn(Ea*yx*xb*) (10)" ，―廣ii+i=1sgn()為符號(hào)函數(shù)。2.2非線性可分情形當(dāng)用一個(gè)超平面不能把兩類點(diǎn)完全分開時(shí)(只有少數(shù)點(diǎn)被錯(cuò)分)，可以引入松弛變量，(，30,i=1,n)，使超平面wTx+b=0滿足：TOC\o"1-5"\h\zy(wtx+b)＞1-& (11)當(dāng)0＜。＜1時(shí)樣本點(diǎn)了.仍舊被正確分類，而當(dāng)。31時(shí)樣本點(diǎn)x被錯(cuò)分。為此，引入以下目標(biāo)函數(shù)：i i i iV(w,&)=—WTW+CE& (12)i=1其中C是一個(gè)正常數(shù)，稱為懲罰因子，此時(shí)SVM可以通過二次規(guī)劃(對(duì)偶規(guī)劃)來實(shí)現(xiàn)：[maxEa-1EEaayy(tx)i2ijijiji=1 i=1j=1<s.t 0<a<C,i=1,…,n (13)Eay.=0iil i=1

3支持向量機(jī)(SVM)的核函數(shù)若在原始空間中的簡(jiǎn)單超平面不能得到滿意的分類效果，則必須以復(fù)雜的超曲面作為分界面，SVM算法是如何求得這一復(fù)雜超曲面的呢？首先通過非線性變換①將輸入空間變換到一個(gè)高維空間，然后在這個(gè)新空間中求取最優(yōu)線性分類面，而這種非線性變換是通過定義適當(dāng)?shù)暮撕瘮?shù)(內(nèi)積函數(shù))實(shí)現(xiàn)的，令：K3,X.)=,：：①3.)?①3.)) (14)用核函數(shù)K(x,X)代替最優(yōu)分類平面中的點(diǎn)積xtx，就相當(dāng)于把原特征空間變換到了某一新.j ij的特征空間，此時(shí)優(yōu)化函數(shù)變?yōu)椋?15)Q^)二乙-1￡￡火yyK(x,x).2 ijijij(15)i=i i=1j=1而相應(yīng)的判別函數(shù)式則為：(16)f(x)=sgn[(w*)r4(x)+b*]=sgn(￡na*yK(x,x)+b*)(16)i=1其中X.為支持向量，X為未知向量，(16)式就是SVM，在分類函數(shù)形式上類似于一個(gè)神經(jīng)網(wǎng)絡(luò)，其輸出是若干中間層節(jié)點(diǎn)的線性組合，而每一個(gè)中間層節(jié)點(diǎn)對(duì)應(yīng)于輸入樣本與一個(gè)支持向量的內(nèi)積，因此也被叫做支持向量網(wǎng)絡(luò)，如圖1y=y=sgnS個(gè)支撐向量機(jī)的非線性變換圖1支持向量網(wǎng)絡(luò)預(yù)報(bào)未知樣本類別的示意圖Fig.1Thesketchmapofsupportvectornetworktopredictanunknownsample由于最終的判別函數(shù)中實(shí)際只包含未知向量與支持向量的內(nèi)積的線性組合，因此識(shí)別時(shí)的計(jì)算復(fù)雜度取決于支持向量的個(gè)數(shù)。目前常用的核函數(shù)形式主要有以下三類，它們fK與已有的算法有對(duì)應(yīng)關(guān)系。⑴多項(xiàng)式形式的核函數(shù)，即K(X,Xi)=ILxi)+J，對(duì)應(yīng)SVM是一個(gè)q階多項(xiàng)式分類器。(2)徑向基形式的核函數(shù)，即K(x,xt)=exp{-與巡"j，對(duì)應(yīng)SVM是一種徑向基函數(shù)分類器。⑶S形核函數(shù)，如K(x,xi)=tanh(v(xTx.)+c),則SVM實(shí)現(xiàn)的就是一個(gè)兩層的感知器神經(jīng)網(wǎng)絡(luò)，只是在這里不但網(wǎng)絡(luò)的權(quán)值、而且網(wǎng)絡(luò)的隱層節(jié)點(diǎn)數(shù)目也是由算法自動(dòng)確定的。

4支持向量回歸（SVR）方法SVR算法的基礎(chǔ)主要是￡不敏感函數(shù)（￡-insensitivefunction）和核函數(shù)算法。若將擬合的數(shù)學(xué)模型表達(dá)為多維空間的某一曲線，則根據(jù)￡不敏感函數(shù)所得的結(jié)果就是包絡(luò)該曲線和訓(xùn)練點(diǎn)的“￡管道”。在所有樣本點(diǎn)中，只有分布在“管壁”上的那一部分樣本點(diǎn)決定管道的位置。這一部分訓(xùn)練樣本稱為“支持向量”（supportvectors）。為適應(yīng)訓(xùn)練樣本集的非線性，傳統(tǒng)的擬合方法通常是在線性方程后面加高階項(xiàng)。此法誠(chéng)然有效，但由此增加的可調(diào)參數(shù)未免增加了過擬合的風(fēng)險(xiǎn)°SVR采用核函數(shù)解決這一矛盾。用核函數(shù)代替線性方程中的線性項(xiàng)可以使原來的線性算法“非線性化”，即能作非線性回歸。與此同時(shí)，引進(jìn)核函數(shù)達(dá)到了“升維”的目的，而增加的可調(diào)參數(shù)卻很少，于是過擬合仍能控制。4.1線性回歸情形TOC\o"1-5"\h\z設(shè)樣本集為：G,X）,G,x）xwRn，yeR，回歸函數(shù)用下列線性方程來表示，1 1 llfG）=wtx+b （17）最佳回歸函數(shù)通過求以下函數(shù)的最小極值得出，山叫"ILI（18）-u=i.=i .其中C是設(shè)定的懲罰因子值，&、&*為松弛變量的上限與下限。Vapnik提出運(yùn)用下列不敏感損耗函數(shù)：3）*：廣.（】9）|/\x\-y-￡I'Uicr^ise通過下面的優(yōu)化方程：] 云云W-。：血-叫熾-七）|〕舊5血.〔廠）=m：L頊-歸尸 L（20）TOC\o"1-5"\h\zH.a- 寸/ X4/ 、+ U十劇在下列約束條件下：III<(<. i=<Ct*<<\/=I I土奴-〔，;)=11,■=1求解：a,a*=argmin<1a,a*=argmin<11!Z<—a*X—a*)S)2 iijjijl=1j=1—￡a—a*)y+￡a+a*)i-'- - -iii iii（21）由此可得拉格朗日方程的待定系數(shù)a，.和a*,從而得回歸系數(shù)和常數(shù)項(xiàng):—a*(22)i(22)i_rib=-2wu+x」4.2非線性回歸情形類似于分類問題，一個(gè)非線性模型通常需要足夠的模型數(shù)據(jù)，與非線ftSVC方法相同，一個(gè)非線性映射可將數(shù)據(jù)映射到高維的特征空間中，在其中就可以進(jìn)行線性回歸。運(yùn)用核函數(shù)可以避免模式升維可能產(chǎn)生的”維數(shù)災(zāi)難”，即通過運(yùn)用一個(gè)非敏感性損耗函數(shù)，非線性SVR的解即可通過下面方程求出：(23(23)其約束條件為：(24)（25）(24)（25）SVM模塊的應(yīng)用軟件?<（.\ ,■=I..…/.d=l由此可得拉格朗日待定系數(shù)七和a;，回歸函數(shù)fXJ則為：SVs5ChemSVM應(yīng)用軟件介紹以解決化學(xué)化工上問題為目的，我們參照國(guó)際文獻(xiàn)自編了包含“ChemSVM”，其中SVM算法涉及到凸二次規(guī)劃的求解，采用了序貫極小優(yōu)化（SequentialMinimalOptimization）算法［20］。由于SVM算法在應(yīng)用上不夠方便的地方主要是核函數(shù)及其參數(shù)如何選取的問題，為此，“ChmSVM”針對(duì)該問題上作了一些改進(jìn)，即一方面在程序的操作界面上提供各種核函數(shù)及其參數(shù)，給用戶自由選擇和研究的方便；另一方面，程序可用單純形優(yōu)化方法自動(dòng)選出待選的核函數(shù)及其參數(shù)，并根據(jù)數(shù)據(jù)集留一法預(yù)報(bào)正確率最高的目標(biāo)來確定最終計(jì)算用核函數(shù)及其參數(shù)，從而建立推廣能力強(qiáng)的數(shù)學(xué)模型。以軟件使用上的方便性、算法上的先進(jìn)性和解決具體問題的有效性為目的，“ChemSVM”軟件將不斷地發(fā)展和完善。“ChemSVM”軟件提供了通用的支持向量機(jī)算法。在具體應(yīng)用問題上，還可以將其與數(shù)據(jù)庫(kù)（含分門別類的數(shù)據(jù)表）、知識(shí)庫(kù)（含數(shù)據(jù)挖掘規(guī)則等）、原子參數(shù)（由系統(tǒng)自動(dòng)采集）及其它數(shù)據(jù)挖掘方法有機(jī)地集成起來。比如，“ChemSVM”已與熔鹽相圖智能數(shù)據(jù)庫(kù)相融合，使SVM算法成為熔鹽相圖智能數(shù)據(jù)庫(kù)的有效的數(shù)據(jù)挖掘手段。這方面應(yīng)用成果已另文報(bào)導(dǎo)在本刊有關(guān)SVM應(yīng)用的系列論文中I21，22】。6應(yīng)用前景SLT和SVM算法之所以從20世紀(jì)90年代以來受到很大的重視，在于它們對(duì)有限樣本情況下模式識(shí)別中的一些根本性問題進(jìn)行了系統(tǒng)的理論研究，并且在此基礎(chǔ)上建立了一種較好的通用學(xué)習(xí)算法。以往困擾很多機(jī)器學(xué)習(xí)方法的問題，比如模型選擇與過擬合問題、非線性和維數(shù)災(zāi)難問題、局部極小點(diǎn)問題等，在這里都得到了很大程度上的解決。而且，很多傳統(tǒng)的機(jī)器學(xué)習(xí)方法都可以看作是SVM算法的一種實(shí)現(xiàn)，因而SLT和SVM被很多人視作研究機(jī)器學(xué)習(xí)問題的一個(gè)基本框架。一方面研究如何用這個(gè)新的理論框架解決過去遇到的很多問題；另一方面則重點(diǎn)研究以SVM為代表的新的學(xué)習(xí)方法，研究如何讓這些理論和方法在實(shí)際應(yīng)用中發(fā)揮作用。SLT有比較堅(jiān)實(shí)的理論基礎(chǔ)和嚴(yán)格的理論分析，但其中還有很多問題仍需人為決定。比如結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則中的函數(shù)子集結(jié)構(gòu)的設(shè)計(jì)、SVM中的內(nèi)積函數(shù)（包括參數(shù)）的選擇等。尚沒有明確的理論結(jié)果指導(dǎo)我們?nèi)绾芜M(jìn)行這些選擇。另外，除了在監(jiān)督模式識(shí)別中的應(yīng)用外，SLT在函數(shù)擬合、概率密度估計(jì)等機(jī)器學(xué)習(xí)問題以及在非監(jiān)督模式識(shí)別問題中的應(yīng)用也是一個(gè)重要研究方向。我們認(rèn)為，SLT和SVM算法（包括SVC和SVR）有可能在化學(xué)化工領(lǐng)域得到深入和廣泛的應(yīng)用，以往用人工神經(jīng)網(wǎng)絡(luò)、傳統(tǒng)統(tǒng)計(jì)模式識(shí)別和線性及非線性回歸等數(shù)據(jù)挖掘算法研究和處理的化學(xué)化工數(shù)據(jù)都可能在應(yīng)用SVM算法后得到更好的處理結(jié)果［23］特別是樣本少、維數(shù)多的“小樣本難題”，應(yīng)用SVM算法建模會(huì)特別有效?？梢灶A(yù)計(jì)，將來在分析化學(xué)的數(shù)據(jù)處理、化學(xué)數(shù)據(jù)庫(kù)的智能化、有機(jī)分子的構(gòu)效關(guān)系（QSAR,QSPR）、分子和材料設(shè)計(jì)、試驗(yàn)設(shè)計(jì)、化工生產(chǎn)優(yōu)化、以及環(huán)境化學(xué)、臨床化學(xué)、地質(zhì)探礦等多方面都有可能展開SLT和SVM算法的應(yīng)用研究，并取得良好效果。參考文獻(xiàn)DomineD.,DevillersJ.,ChastretteM.,KarcherW..Non-linearmappingforstructure-activityandstructure-propertymodeling.JournalofChemomatrics1993,7:227-242WangZiyi,Jenq-Hwang,KowalskiBruceR.,ChemNets:TheoryandApplication,AnalyticalChemistry,1995,67（9）:1497-1504RuffiniR.etal.,Usingneuralnetworkforspringbackminimizationinachannelformingprocess,SAETrans.J.Mater.Manufacture,1998,107,65FukunagaK..Introductiontostatisticalpatternrecognition.Academic.NewYork;1972ChenNianyi（陳念貽），QinPei（欽佩），ChenRuiliang（陳瑞亮），LuWencong（陸文聰），ApplicationofPatternRecognitioninChemistryandChemicalEngineering（模式識(shí)別在化學(xué)化工中的應(yīng)用），Peking（北京），SciencePublisher（科學(xué)出版社），2000ChenNianyi,LuWencong,ChemometricMethodsAppliedtoIndustrialOptimizationandMaterialsOptimalDesign,Chemometricsandintelligentlaboratorysystems,1999,45,329-333ChenNianyi,LuWencong,SoftwarePackage“MaterialsDesigner”anditsApplicationinMaterialsResearch,IPMM799,Hawaii,USA,July,1999LUWencong,YANLi-cheng,CHENNian-yi,PatternRecognitionandANNSAppliedtotheFormobilityofComplexIdide,JournalofMolecularScience,1995,11（1）:33LiuLiang（劉亮），BaoXinhua（包新華），F(xiàn)engJianxing（馮建星），LuWencong（陸文聰），ChenNianyi（陳念貽），MolecularSievingofPinacolone（or1-Arylethanone）Containing1H-1,2,4-TriazoleGroupandTheirReducedProducts（a-唑基-a-芳氧烷基頻哪酮（芳乙酮）及其醇式衍生物抗真菌活性的分子篩選）， ComputerandAppliedChemistry（計(jì)算機(jī)與應(yīng)用化學(xué)），2002，19（4）:465LuWencong（陸文聰），BaoXinhua（包新華），WuLan（吳蘭），KongJie（孔杰），YanLicheng（閻立誠(chéng)），ChenNianyi（陳念貽），StudiesonHierarchicalProjectionMethodAppliedtoRegularitiesofFormationofBinaryComplexCompoundinMBr-M’Br2System（二兀漠化物系（MBr-M’Br2）中間化合物形成規(guī)律的逐級(jí)投影法研究）， ComputerandAppliedChemistry（計(jì)算機(jī)與應(yīng)用化學(xué)），2002，19（4）:474LuWencong（陸文聰），F(xiàn)engJianxing（馮建星），ChenNianyi（陳念貽），TernaryIntermetallicCompoundsbetweentwoTransitionandoneNontransitionElements（二種過渡元素和一種非過渡元素間形成三元金屬間化合物的規(guī)律）， ComputerandAppliedChemistry（計(jì)算機(jī)與應(yīng)用化學(xué)），2000，17（1）:43LUWencong（陸文聰），YanLicheng（閻立誠(chéng)），ChenNianyi（陳念貽），ExpertSystemPVPECforOptimizedDesignofPTCandV-PTCMaterials （PVPEC-PTC和V-PTC材料優(yōu)化設(shè)計(jì)專家系統(tǒng)），ComputerandAppliedChemistry（計(jì)算機(jī)與應(yīng)用化學(xué)），1996,13（1）:39VapnikVladimirN.,TheNatureofStatisticalLearningTheory.Berlin,Springer,1995Wan,Vincent;Campbell,WilliamM.,Supportvectormachinesforspeakerverificationandidentification,NeuralNetworksforSignalProcessing-ProceedingsoftheIEEEWorkshop2,2000:775-784ThorstenJoachims,LearningtoClassifyTextUsingSupportVectorMachines.Dissertation,UniversitaetDortmund,February2001.BurbidgeR,TrotterM,BuxtonB,HoldenS,Drugdesignbymachinelearning:supportvectormachinesforpharmaceuticaldataanalysis,ComputerandChemistry,2001,26（1）:5-14TrotterM.W.B.,Buxton,B.F.,Holden,S.B.,Supportvectormachinesincombinatorialchemistry,MeasurementandContro

人人文庫(kù)> 全部分類> 圖紙下載 > 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

支持向量機(jī)算法和軟件ChemSVM介紹

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

支持向量機(jī)算法和軟件ChemSVM介紹

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔