基于多序列特征的細(xì)胞因子家族預(yù)測研究-計算機(jī)應(yīng)用技術(shù)專業(yè)畢業(yè)論文

上傳人：明*** IP屬地：廣東上傳時間：2022-12-30 格式：DOCX 頁數(shù)：64 大?。?.21MB 積分：22 舉報 版權(quán)申訴

基于多序列特征的細(xì)胞因子家族預(yù)測研究-計算機(jī)應(yīng)用技術(shù)專業(yè)畢業(yè)論文_第2頁

基于多序列特征的細(xì)胞因子家族預(yù)測研究-計算機(jī)應(yīng)用技術(shù)專業(yè)畢業(yè)論文_第3頁

基于多序列特征的細(xì)胞因子家族預(yù)測研究-計算機(jī)應(yīng)用技術(shù)專業(yè)畢業(yè)論文_第4頁

基于多序列特征的細(xì)胞因子家族預(yù)測研究-計算機(jī)應(yīng)用技術(shù)專業(yè)畢業(yè)論文_第5頁

已閱讀5頁，還剩59頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

優(yōu)秀畢業(yè)論文精品參考文獻(xiàn)資料何何題碩士學(xué)位論文答辯委員會成員名單名職稱單位備注慶教授華東師范大學(xué)席新偉副教授華東師范大學(xué)素霞副教授華東師范大學(xué)摘摘要蛋白質(zhì)家族識別與分類預(yù)測是后基因組時代重要任務(wù)之一細(xì)胞因子是一類由免疫細(xì)胞和其它相關(guān)細(xì)胞產(chǎn)生的能夠調(diào)節(jié)細(xì)胞功能的高活性多功能的低分子量蛋白質(zhì)它在人類許多重要生理活動中扮演著重要的角色對細(xì)胞因子家族特別是未知其功能的細(xì)胞因子進(jìn)行識別和分類預(yù)測不僅有助于直接闡明生命體在生理或病理條件下的變化機(jī)制而且對生物制藥疾病治療等應(yīng)用領(lǐng)域具有直接的指導(dǎo)作用，因而具有重要的研究意義然而面對漸增長的蛋白質(zhì)序列數(shù)據(jù)尋找一種快速而準(zhǔn)確的計算方法來預(yù)測蛋白質(zhì)家族并確定其功能一直以來是生物信息學(xué)研究巫待解決的難點和關(guān)鍵問題之一。本文在深入分析現(xiàn)有蛋白質(zhì)功能預(yù)測方法的理論基礎(chǔ)上以機(jī)器學(xué)習(xí)理論中的支持向量機(jī)方法為基本工具探討了氨基酸和二膚混合組成二膚組成和長度、偽氨基酸組成等多種特征提取方法并在此基礎(chǔ)上開發(fā)了細(xì)胞因子家族識別與分類預(yù)測軟件CoKy。對比測試結(jié)果表明，CoKy識別和分類細(xì)胞因子的精度較以前方法有顯著的提高尤其是二膚組成和長度特征方法優(yōu)于國際上最新發(fā)布的細(xì)胞因子預(yù)測軟件 CTPd。目前，CoKy 已提供了wb 服務(wù)(htP/medeomPutngeom)。關(guān)鍵詞:支持向量機(jī)，細(xì)胞因子，特征向量，分類預(yù)測A bA bstraetReeognionandeassfeaonofProenfamyae oneofthemostmPorantmssonsnPogenomeera.CyoknesaeakndofPoenhataePodueedbynnunoeyesorreaedeesoeguaefuneonsofeeranees.TheyPaymPorantroesnmanyPhysoogealaevesofhuman.ThePedeonofcyokne幾mesePeeayhoseeytoknesWhosefuneonsaeunknownnotonyhePsorvealhePahoogealorPhysoogealransformatonmeehansmofabodybutasomakesadreetgudeosuehapPeaonfedsasboogealPhanaeyanddseaseteamen.Thereforet5ofgreatmPoraneeodohsreseareh.HowevernfceofthenereasngdaaofProensequenees，t5awaysdfieutofndanefeeveeomPuaonalmehodoPedetProenfamesanddeermneherfuneonswheh5sloneofhemostehaengesforbonformaesresearch.ThsPaperfstanayzesheexsngPredconmehodofPronandusaesmuPefeaureexraeonmethodsneudngamnoaed& dPePdeeomPoson，dPePdeeomPoson& engh，andPseudoamnoacdusnghesuPPortveeormaehneoolnmaehnee抑ngheor.ThenaPedeonservereaedCytoKeyforeyoknefmyeassfcaonandeeognonaredeveoPednhssudy.AceodngoheesusofeomPasonesCytoKeyshowsasgnfeantmPovementnheaeeuracyofeyoknePredeonneonrastoformermehods.AndhedPePdeeomPoson&enghfeauremehod5muehbeerhanheaesteeasedeytoknePedetonsofwareCTKPred.CyoKey5avaabehroughenemetathtP/medeomPungeom.Keywords:suPPortvecormaehine，eyoknes，feaureveeor，eassfcaonPredeon勺目目錄第一章緒論…111課題的目的與意義…112國內(nèi)外研究現(xiàn)狀及分析313主要研究工作…6第二章相關(guān)理論基礎(chǔ)…821統(tǒng)計學(xué)習(xí)理論…822支持向量機(jī)理論823性能評價方法介紹…724本章小結(jié)…9第三章基于多種特征的細(xì)胞因子預(yù)測研究031數(shù)據(jù)集及各基本方法的選取…032多種特征編碼的實現(xiàn)…233研究結(jié)果分析…134本章小結(jié)…3第四章Wb服務(wù)系統(tǒng)發(fā)布…441系統(tǒng)開發(fā)目的…4442預(yù)測模型的構(gòu)建…4443系統(tǒng)結(jié)構(gòu)4544本章小結(jié)…51第五章總結(jié)與展望…5251論文工作總結(jié)…5252今后工作展望…2參考文獻(xiàn)…4致謝…59附錄攻讀學(xué)位期間發(fā)表的論文0第第一章緒論第一章緒論Ll課題的目的與意義111細(xì)胞因子概述眾所周知蛋白質(zhì)和核酸是生命體最根本的物質(zhì)幾乎所有的生命體都由這兩種物質(zhì)組成兩者缺一不可核酸中存儲著生命的信息蛋白質(zhì)則以各種不同的方式將信息合理地表達(dá)出來蛋質(zhì)是由眾多氨基酸相互脫水而組成的多膚鏈，經(jīng)過多重折疊后形成的大分子化合物，它肩負(fù)著包括組織構(gòu)造、新陳代謝、免疫反應(yīng)神經(jīng)傳導(dǎo)激素調(diào)控等等多種極其重要的使命蛋白質(zhì)的活動跟許多疾病的產(chǎn)生有著密切的關(guān)系因此對蛋白質(zhì)的研究是生命科學(xué)界中的重要研究課題之一]。有一類稱為細(xì)胞因子(Cons)的蛋白質(zhì)它是一種非特異性免疫效應(yīng)物質(zhì)，由免疫系統(tǒng)、造血系統(tǒng)和炎癥反應(yīng)中的免疫、非免疫活性細(xì)胞或間質(zhì)細(xì)胞，經(jīng)刺激而產(chǎn)生的一種具有高生物活性的多膚或糖蛋白細(xì)胞因子能溝通過旁分泌和分泌方式，介導(dǎo)和調(diào)節(jié)免疫應(yīng)答及炎癥反應(yīng)，從而發(fā)揮局部的生物學(xué)效應(yīng)。在人體中幾乎所有的細(xì)胞均能產(chǎn)生和分泌細(xì)胞因子細(xì)胞通過釋放這些細(xì)胞因子來保護(hù)機(jī)體免受有毒物質(zhì)和病毒的侵襲另外細(xì)胞因子也跟細(xì)胞的再生分化，及機(jī)體的傷口愈合密切相關(guān)，它們是蛋白質(zhì)家族中最重要的分類之一。圖11細(xì)胞因子間作用過程第第一章緒論每種細(xì)胞因子有其各自的功能但也具備共同特點它們的分子量相對較低，除趨化因子(Cemok)外，絕大多數(shù)細(xì)胞因子的同源性較小。它們具有重疊效應(yīng)，即多種細(xì)胞因子在作用于同一細(xì)胞時，能產(chǎn)生相同或相似的效果。同時，它們也有多效性即一種細(xì)胞因子在作用于多類細(xì)胞時能產(chǎn)生多種不同的效果。細(xì)胞因子通常以網(wǎng)絡(luò)的形式來發(fā)揮其生物學(xué)效應(yīng)多種細(xì)胞因子之間相互誘導(dǎo)或抑制，從而達(dá)到最合適的調(diào)節(jié)度，圖11粗略地展示了細(xì)胞因子間相互作用的過程細(xì)胞因子另一個顯著特征是具有高效性極其微量的少因子就可以產(chǎn)生明顯的生物學(xué)作用。可以有多種不同的方式對細(xì)胞因子進(jìn)行分類例如根抓產(chǎn)生因子的細(xì)胞種類來分，可以有淋巴因子、單核因子和巨噬因子等。目前，際上較為流行的分類，是按照其功能來對細(xì)胞因子的種類進(jìn)行劃分，大體上分為以下六個類，圖12分別是六類的蛋白質(zhì)三維結(jié)構(gòu)圖。()白細(xì)胞介素(in，L)。這類因子最初被發(fā)現(xiàn)于自細(xì)胞，后來又被人們發(fā)現(xiàn)于其他細(xì)胞中，但名字仍沿用至今。目前已發(fā)現(xiàn)j白細(xì)胞介素有0種(LL29)。圖中a為介素L8計算機(jī)模擬的空間:溝。)干擾素(n，F(xiàn)N)。這類因子以干擾病毒復(fù)制而得名，根據(jù)不用細(xì)胞類型的產(chǎn)生，又可分為Nlpa，F(xiàn)NBa，NGmma，其作用為抑制病毒復(fù)制增殖、抗腫瘤等。圖中b是干擾素lpha2的空間結(jié)構(gòu)。3)腫瘤壞死因子(umorneeoscorNF)又分為NFApha和NFBea兩種，有不同細(xì)胞分泌產(chǎn)生，生物學(xué)活性廣泛。顧名思義，它能致死腫瘤細(xì)胞壞死。圖中c是典型的TNF空間結(jié)構(gòu)。4)集落刺激因子(Coonymuangeor，CSF)。它能刺激造血干細(xì)胞增殖分化并形成一系列細(xì)胞集落。圖中d是由巨噬細(xì)胞產(chǎn)生的CSF。)生長因子(Gothr，GF)。它能刺激多種不同類型的細(xì)胞生長、分化。根據(jù)功能及所作用的細(xì)胞，可進(jìn)一步細(xì)分為:轉(zhuǎn)化生長囚子(rnomggothcoBeaTGFBea)、神經(jīng)生長因子(NevegheorNGF)、成纖維細(xì)胞生長因子(Fbobatgothor，F(xiàn)GF)、小板源生長因子(Pedevedotheor，PDGF)、表皮細(xì)胞長因子(EpdemalGothFaeorEoF)血管內(nèi)皮細(xì)胞生長因子(aeuaredohealeelgothcr，VEGF)等。圖中e是血管內(nèi)皮生長因子結(jié)構(gòu)圖。)趨化因子(Cemoke)是一類由十多種結(jié)構(gòu)上具有較大同源性的蛋白質(zhì)組成的家族。它對多種細(xì)胞具有明顯的趨化效應(yīng)。圖中f是大量趨化因子聚合在一起的情形。第第一章緒論圖12六種細(xì)胞因子結(jié)構(gòu)112 課題的目的與意義在生命體特別是人體的一切生命活動中我們都能見到細(xì)胞因子的蹤影它們在各個生物化學(xué)過程當(dāng)中起到了十分關(guān)鍵的作用無論是在含量還是在類別上的微小差異變化對整個人體的影響是巨大的。由此對細(xì)胞因子進(jìn)行研究顯得至關(guān)重要尤其是當(dāng)人們發(fā)現(xiàn)新的未知細(xì)胞因子時迫切需要知道那些新種類的功能，以進(jìn)行進(jìn)一步研究。于是對細(xì)胞因子做功能上的分類預(yù)測研究顯得尤為重要只有對細(xì)胞因子的種類做出高精度的識別和分類能為后續(xù)的研究提供扎實的基礎(chǔ)，以更好地去掌握和控制這類蛋白質(zhì)，使之造福于人類這一課題涵蓋了生物學(xué)、數(shù)學(xué)、計算機(jī)學(xué)、物理學(xué)、化學(xué)等多種學(xué)科的內(nèi)容和知識，涉及到生物信息學(xué)這門新興交叉學(xué)科的方方面面，是個具有重要研究意義的課題。12 國內(nèi)外研究現(xiàn)狀及分析21研究背景細(xì)胞引子對一切生物機(jī)體包括人類的作用巨大其在醫(yī)學(xué)生物學(xué)上的地位舉足輕重人們當(dāng)前已獲得大量有關(guān)于蛋自質(zhì)和核酸的原始數(shù)據(jù)這些數(shù)據(jù)中部分以序列的形式來表達(dá)細(xì)胞因子如基因數(shù)據(jù)每一條都是用腺嚓吟核背酸(腺酸AMP)、鳥g吟核營酸鳥酸GMP)、l呢核酸(胞汗酸CM)、第第一章緒論尿嗜睫核昔酸(尿營酸，UMP)、胸腺嗜咤核昔酸(胸腺昔酸，TM)這五種核營酸組成的序列;蛋白質(zhì)數(shù)據(jù)則是用二十種氨基酸組成的序列來表示面對這些數(shù)據(jù)人類迫切需要知道它們的具體結(jié)構(gòu)和相關(guān)功能特別是對于蛋白質(zhì)其不同的空間結(jié)構(gòu)決定著不同的生物功能而前在分子生物學(xué)水平上對于蛋白質(zhì)的分類絕大部分都是基于它們的結(jié)構(gòu)或者功能因此對這些數(shù)據(jù)的分類預(yù)測工作顯得必不可少作為蛋白質(zhì)中極為特殊重要一類的細(xì)胞因子必須通過對它們的原始序列做出高精度的識別和分類這一途徑才能準(zhǔn)確了解各種未知類型細(xì)胞因子的結(jié)構(gòu)和功能，從而使得人們能夠在分子水平上掌握各種相關(guān)疾病的本源，為生物學(xué)、醫(yī)學(xué)、病理學(xué)等相關(guān)學(xué)科提供巨大的幫助。20世紀(jì)0年代以來，隨著人類基因組計劃的順利進(jìn)行直至完成，隨著遺傳物質(zhì)研究工作的深入開展以及其它模式的生物信息的挖掘科學(xué)界己獲得了浩如煙海的基因DNA分子序列和蛋白質(zhì)分子的氨基酸序列，呈現(xiàn)在人們面前的是幾乎以十個月翻一番的速率飛速增長的原始數(shù)據(jù)]。為了進(jìn)一步的研究，人類迫切需要知道這些遺傳物質(zhì)的功能甚至是每一個片斷對生命特征的影響，以此從分子學(xué)水平的角度上尋找疾病發(fā)生的本質(zhì)為人類疾病的預(yù)防診斷和治療提供捷徑常用的基本方法就是通過生物學(xué)實驗的手工測定來獲取各序列結(jié)構(gòu)和功能，盡管有小規(guī)模的批量處理方法]，然而，當(dāng)數(shù)據(jù)大規(guī)模地急劇增長時，批量處理方式己遠(yuǎn)遠(yuǎn)不能跟上這就變成了一項相當(dāng)費時和昂貴的低效工作于是生物信息學(xué)(inomicS)應(yīng)運而生。生物信息學(xué)是一門從理論角度用計算機(jī)學(xué)統(tǒng)計學(xué)物理學(xué)細(xì)胞生物學(xué)、化學(xué)等各類學(xué)科交叉而成的觀點，來研究海量的生物遺傳數(shù)據(jù)的交叉學(xué)科。作為新興的邊緣學(xué)科，它以計算機(jī)為主要工具，對DNA或蛋白質(zhì)的序列、結(jié)構(gòu)進(jìn)行收集、整理、存儲檢索與分析，以幫助人們認(rèn)識生命的本質(zhì)達(dá)到揭示數(shù)據(jù)所蘊(yùn)涵的生物學(xué)意義的目的如今生物信息學(xué)已在國內(nèi)外成為實驗室常規(guī)技術(shù)之一，運用生物信息學(xué)方法來分析已知基因、蛋白質(zhì)序列數(shù)據(jù)，預(yù)測未知功能，從海量的生物數(shù)據(jù)中發(fā)現(xiàn)規(guī)律提取有用信息避免了很多不必要的步驟指導(dǎo)生物學(xué)實驗，極大地節(jié)省了人力、物力和財力，縮減了時間的耗費。22 國內(nèi)外研究現(xiàn)狀國內(nèi)外各大生物實驗室很早就開始通過運用人工實驗的方法對各類基因和蛋白質(zhì)的結(jié)構(gòu)功能進(jìn)行分類測定如前文所述隨著數(shù)據(jù)量的增大這類方法必不能勝任大批量規(guī)模的工作而上個世紀(jì)末興起的生物信息學(xué)方法的運用亦正逐步向成熟邁進(jìn)國際上在生物信息學(xué)這一領(lǐng)域中的研究較國內(nèi)稍早幾年對于蛋白質(zhì)包括細(xì)胞因子家族的識別分類，近0年以來涌現(xiàn)出各種不同的方法和工第第一章緒論具其發(fā)展至今提出并己被廣泛接受的基本方法有好幾種如立足于統(tǒng)計學(xué)習(xí)理論之機(jī)器學(xué)習(xí)方法的，如隱馬氏模型(HddenMkovMode，HMM)2]，人工神經(jīng)網(wǎng)絡(luò)(ArlNeualNewok，ANN)3]等，這類方法取得了一定的效果但由于其對于有限樣本的處理具有很大的局限性使得發(fā)展停滯不前。同時一些基于相似度的序列比對型數(shù)據(jù)庫搜索工具如基本局部相似性比對搜索工具(asLoelAgmetsechoo，BLAST)6和ASA工具7等也已紛紛應(yīng)用于實踐但此類方法只能局限于對具有同源性結(jié)構(gòu)的序列進(jìn)行識別和分類，而當(dāng)面對相似度小的序列之時其優(yōu)勢便蕩然無存還有一些其他方法如演化分析算法(Evouon娜劫ays)89]基因蛋白質(zhì)融合(Gee用oenFuon)1011]，保守序列識別(MosReo即on)2等，它們在理論上達(dá)到了一定的成熟度，但實踐應(yīng)用相對很少。Hung等人于2005年提出了基于支持向量機(jī)的細(xì)胞因子分類預(yù)測識別方法CTP[1，該方法提取二膚組成成分為特征，并同基于序列比對搜索方法的數(shù)據(jù)庫Pm作了比較，在細(xì)胞因子家族識別的層面上，其預(yù)測效果有一定的提升，但是，其未在細(xì)胞因子家族和亞家族分類的層面上同Pm作比較，所以無法知道家族和亞家族分類效果的好壞。2007年，Xu等人提出了基于支持向量機(jī)的細(xì)胞因子受體識別方法C0SVM]，該方法綜合使用了諸如氨基酸組成(AmnoAedeompoon)、疏水性 (Hyophobey)、標(biāo)準(zhǔn)范德華體積Nomazed瓏nderasome)、極性(Po而y)、極化率(Pozby)、電荷(eh雌e)、表面張力(srceenon)、二級結(jié)構(gòu)(Seeond娜Suere)、溶解性(seiAcosy)等多種特征提取方法，對細(xì)胞因子受體進(jìn)行識別預(yù)測但由于該系統(tǒng)同其他相關(guān)系統(tǒng)或文獻(xiàn)作比較所以其效果的優(yōu)劣亦無法得知。2008年初，LaS等人提出了基于PSBLAST方法的細(xì)胞因子分類預(yù)測方法Cord1]，該方法預(yù)測結(jié)果較好，但是對樣本的選取有較強(qiáng)的針對性，這體現(xiàn)在結(jié)果不是很穩(wěn)定即不同的樣本的可能會導(dǎo)致不同的結(jié)果所以該方法也存在一定的局限性。本文從氨基酸序列結(jié)構(gòu)氨基酸物理化學(xué)性質(zhì)等多角度出發(fā)對細(xì)胞因子采用多種不同的特征提取方法，來對其進(jìn)行識別和分類預(yù)測，并同Hag等人開發(fā)的CTKred系統(tǒng)作一定的比較，并取得了較好的效果。第第一章緒論13 主要研究工作131論文的主要內(nèi)容細(xì)胞因子的預(yù)測工作長期以來作為生命科學(xué)中基因和蛋白質(zhì)的預(yù)測研究中一個子課題其重要性是不言而喻的本文采用了機(jī)器學(xué)習(xí)理論中較為年輕的支持向量機(jī)方法從特征向量提取方式這一角度入手多方面地對細(xì)胞因子的識別和分類預(yù)測進(jìn)行研究其目的是為了尋找出一種或一些能夠很好地對細(xì)胞因子進(jìn)行預(yù)測的方法和過程，并搭建平臺工具，以推動細(xì)胞因子的后續(xù)相關(guān)研究進(jìn)程。論文的主要工作有以下幾個方面:)系統(tǒng)地描述了細(xì)胞因子這一類重要蛋白質(zhì)的基本概念和生物信息學(xué)的產(chǎn)生背景與發(fā)展歷史概括地介紹了國內(nèi)外的研究現(xiàn)狀著重闡述了近年來國內(nèi)外最新的研究進(jìn)展。)詳述了進(jìn)行識別和分類預(yù)測工作所需涉及的理論知識基礎(chǔ)包括機(jī)器學(xué)習(xí)方法和統(tǒng)計學(xué)習(xí)理論，并闡釋了支持向量機(jī)的基本原理及其工作過程，并選擇了一種解決支持向量機(jī)的多類分類問題方法。同時還介紹了序列特征選取的原理和意義，及評價預(yù)測效果的驗證方法。)分析了傳統(tǒng)的特征提取方法氨基酸組成成分，實現(xiàn)了二膚組成成分特征方法，總結(jié)了兩者的優(yōu)劣特性。并且，在此基礎(chǔ)之上提出了氨基酸和二膚混合組成、二膚組成和長度特征的方法，另外還提出了一種基于氨基酸疏水特性的偽氨基酸組成特征方法將這三種方法同參考文獻(xiàn)1]的CTPd系統(tǒng)作比較發(fā)現(xiàn)二膚組成和長度特征的提取方法比CTKPd能更為有效地對細(xì)胞因子進(jìn)行識別和分類預(yù)測。4)根據(jù)上述提出的三類特征提取方法，構(gòu)建了eb服務(wù)系統(tǒng)CoKy，以提供服務(wù)。132 論文結(jié)構(gòu)論文的內(nèi)容結(jié)構(gòu)安排如下:第一章緒論，主要介紹了本研究課題的目的和意義，闡述研究背景，并分析了國內(nèi)外研究現(xiàn)狀，最后介紹了論文的主要研究工作。第二章相關(guān)理論基礎(chǔ)，詳細(xì)介紹了論文中需使用到的基本理論知識，包括機(jī)器學(xué)習(xí)方法理論統(tǒng)計學(xué)習(xí)理論，以及支持向量機(jī)方法理論;討論了支持向量機(jī)對于多類分類問題的解決辦法介紹了特征向量提取方法的原理，以及實驗結(jié)果驗證方法和驗證指標(biāo)。第第一章緒論第三章基于多種特征的細(xì)胞因子預(yù)測研究，具體闡述多種特征提取方法的建模過程原理和相對應(yīng)的實驗結(jié)果并做出一定的分析討論其中涵蓋了氨基酸組成和二膚組成這兩種傳統(tǒng)的特征提取方法的分析及新提出的多膚混合組成、二膚組成和長度特征、偽氨基酸特征這三種特征提取方法的實驗方法、同CTPd系統(tǒng)的對比結(jié)果。第四章eb服務(wù)系統(tǒng)發(fā)布詳細(xì)地描述了eb服務(wù)系統(tǒng)CoKy的開發(fā)目的、模型構(gòu)建、系統(tǒng)結(jié)構(gòu)流程和輸入輸出的處理過程。第五章總結(jié)與展望，對論文進(jìn)行了系統(tǒng)的總結(jié)，分析了論文的創(chuàng)新之處和存在的不足之處;同時，還對進(jìn)一步要做的研究工作進(jìn)行了展望。第第二章相關(guān)理論基礎(chǔ)第二章相關(guān)理論基礎(chǔ)21統(tǒng)計學(xué)習(xí)理論機(jī)器學(xué)習(xí)(McheLemg)是計算機(jī)科學(xué)中人工智能領(lǐng)域的核心內(nèi)容，是智能技術(shù)的重中之重所謂的機(jī)器學(xué)習(xí)簡言之就是從一堆已知信息的有限的數(shù)據(jù)當(dāng)中尋找規(guī)律形成一個模型然后利用該模型對未知數(shù)據(jù)進(jìn)行識別和預(yù)測61。長期以來，對于機(jī)器學(xué)習(xí)方法沒有一個統(tǒng)一的數(shù)學(xué)理論，科學(xué)界存在著多種不同的機(jī)器學(xué)習(xí)方法如模式識別、貝耶斯網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)等等這些理論歸根到底都是基于傳統(tǒng)的統(tǒng)計學(xué)。我們知道，傳統(tǒng)的統(tǒng)計學(xué)是一門漸進(jìn)理論，它研究的是樣本數(shù)量趨于無窮大時候的情況，縱使現(xiàn)有不少的學(xué)習(xí)方法是基于此顯然在實際問題中樣本數(shù)量均為有限那些理論上很優(yōu)秀的方法終成紙上談兵尤其是面對一些小數(shù)樣本的情況傳統(tǒng)的統(tǒng)計學(xué)更是顯得手無縛雞之力。在物pnk等人的帶領(lǐng)研究下，統(tǒng)計學(xué)習(xí)理論(iialeanngThoy，ST)由此而誕生1]，該理論直接針對有限樣本特別是小樣本情況下的機(jī)器學(xué)習(xí)規(guī)律從此機(jī)器學(xué)習(xí)領(lǐng)域進(jìn)入了一個新的時代統(tǒng)計學(xué)習(xí)理論為機(jī)器學(xué)習(xí)方法構(gòu)建了一個完整的理論框架并且在不斷地完善和進(jìn)步之中對于原先遺留的一些疑難雜癥如神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇局部極小點等問題都將有望得到解決。同時物pnk一行提出了支持向量機(jī)(SuppoteeorMaehnesVM)這一新穎的機(jī)器學(xué)習(xí)方法83]更是對統(tǒng)計學(xué)習(xí)理論的錦上添花近年來支持向量機(jī)已在人工智能方面的模式識別領(lǐng)域，多用于仿真和對比試驗5]，如文本識別、人臉識別遙感圖像分析等等多個領(lǐng)域發(fā)揮越來越重要的作用極大地推動機(jī)器學(xué)習(xí)的發(fā)展16]。.2支持向量機(jī)理論支持向量機(jī)概括地說它是一種分類工具是一種建立在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)之上的機(jī)器學(xué)習(xí)方法通過用已知數(shù)據(jù)對其進(jìn)行訓(xùn)練它可以動尋找那些能最大程度區(qū)分樣本的數(shù)據(jù)，構(gòu)建出模型，再通過該模型來對未知數(shù)據(jù)做出分類1]。SVM具有良好的泛化能力，所謂的泛化能力，就是指一種機(jī)器學(xué)習(xí)方法，對具有同一規(guī)律的學(xué)習(xí)集(也叫訓(xùn)練集)以外的數(shù)據(jù)仍能進(jìn)行正確響應(yīng)的能力，也就是學(xué)到隱含在數(shù)據(jù)背后規(guī)律的能力也稱作推廣能力尤其是對于優(yōu)先樣本第第二章相關(guān)理論基礎(chǔ)或小樣本，SVM 具有較高的分類準(zhǔn)確率等特點。當(dāng)今時期，在模式識別、回歸分析、概率密度估計等相關(guān)領(lǐng)域，都少不了SVM這個重要工具，可以說，SVM已成為一種通用流行的機(jī)器學(xué)習(xí)方法。SVM集中了以下三大方面的優(yōu)點:()因為SVM特別針對了有限樣本情況下的訓(xùn)練學(xué)習(xí)，所以，同傳統(tǒng)的統(tǒng)計學(xué)中，樣本數(shù)量趨于無窮大時的理論最優(yōu)值相比，SVM能得到確實存在的最優(yōu)解，這并非一個可望而不可及的數(shù)值。)將數(shù)據(jù)通過非線性變換轉(zhuǎn)換到高維的特征空間數(shù)據(jù)的信息用特征空間中的向量來表示，低維空間中線性不可分的數(shù)據(jù)在高維空間中變得線性可分，然后構(gòu)造一個線性的判別函數(shù)便可分出樣本，大大降低了運算的復(fù)雜度。)SvM算法的根本是二次尋優(yōu)問題，巧妙地回避了神經(jīng)網(wǎng)絡(luò)中難以解決的局部極小值問題，從而得到全局最優(yōu)解。21機(jī)器學(xué)習(xí)基本問題為更好地理解SVM的原理和過程，首先介紹一下機(jī)器學(xué)習(xí)的基本問題。機(jī)器學(xué)習(xí)的目的是根據(jù)已知訓(xùn)練樣本做出估計使其能較好的描述某個系統(tǒng)輸入與輸出之間的依賴關(guān)系，從而盡可能準(zhǔn)確地對未知樣本做出預(yù)測。設(shè)有n個獨立同分布樣本，如式2)所示:必xn凡) 2)其中，每個樣本的變量x和y分別表示該樣本的輸入和輸出，通過在一組函數(shù)fx}中求一個最優(yōu)函數(shù)fx%}對x和y的依賴關(guān)系進(jìn)行估計，目的是使得期望風(fēng)險泛函(2)達(dá)到最小。fF) )這里，(x}稱為預(yù)測函數(shù)集它可以用任意函數(shù)集來表示，。是函數(shù)的廣義參數(shù)，(fx)是損失函數(shù)，它表示用預(yù)測函數(shù)fx)對輸出結(jié)果為y的樣本進(jìn)行預(yù)測而造成的損失，F(xiàn)x)是變量x和y的聯(lián)合分布函數(shù)預(yù)測函數(shù)是機(jī)器學(xué)習(xí)的核心，也稱作學(xué)習(xí)模型。機(jī)器學(xué)習(xí)基本問題可分為模式識別、函數(shù)逼近和概率密度估計這三類1]，本文所研究的細(xì)胞因子分類預(yù)測屬于模式識別領(lǐng)域在模式識別問題中樣本的輸出y是分類標(biāo)志，對于最基本的二類分類，y被定義為y=O}或y=l}，此時的預(yù)測函數(shù)又稱為判斷函數(shù)，損失函數(shù)可以定義為式(2):0y=fx)yfx) 23)第第二章相關(guān)理論基礎(chǔ)211經(jīng)驗風(fēng)險最小化人們發(fā)現(xiàn)，僅憑式(2)所含有的信息，無法使得式(2)的()達(dá)到最小。在傳統(tǒng)的解決辦法中，采用經(jīng)驗風(fēng)險最小化(Emcl形kMimin，E枷)原則]用樣本定義的經(jīng)驗風(fēng)險泛函娜勸來替換()作為對式(2)的估計。從式(2)可以看到，ERM實際上就是使損失即錯誤達(dá)到最小。1聲_P卜乙L戈ni f) 24)但是這種用ERM替代期望風(fēng)險最小化的方法并不合理，長期以來從未經(jīng)過充分的理論論證，隨著不斷地應(yīng)用，其弊端也日漸凸現(xiàn)。一方面，ERM 原則是在樣本容量趨于無窮大時對期望風(fēng)險的逼近才有相對較好的結(jié)果而絕大多數(shù)的統(tǒng)計學(xué)習(xí)理論實際問題，都是小樣本情況下的機(jī)器學(xué)習(xí)，即使有大容量樣本，也離無窮大數(shù)相去甚遠(yuǎn)。另一方面，是過學(xué)習(xí)”現(xiàn)象，即，當(dāng)使P動最小時卻并不總能獲得最好的分類效果有時候甚至?xí)剐Ч儾钊斯ど窠?jīng)網(wǎng)絡(luò)的在這方面的不成功便是一個典型的教訓(xùn)，因為)過小很可能會導(dǎo)致模型的推廣能力下降，也就是所謂的真實風(fēng)險”的增加。具體地說，用越復(fù)雜的模型去擬和一個有限容量的樣本能達(dá)到的擬和效果越好其極端情況就是記住了每一個樣本，此時，經(jīng)驗風(fēng)險能夠迅速收斂至最小;然而它對未知樣本的預(yù)測能力即推廣能力卻越不理想一個經(jīng)典的例子就是用函數(shù)fx喲=(o)(。是待定參數(shù))去擬和一組y取值在]上的實數(shù)樣本x對0]，這里，總能找到一個使cP動為零的。，但顯而易見該正弦函數(shù)并不能代表該樣本模型。另外，ERM 原則還受到噪聲的影響，如在有噪聲的情況下，將一組樣本x擴(kuò)}分別用一次函數(shù)和二次函數(shù)去擬和多次重復(fù)試驗結(jié)果卻顯示一次函數(shù)獲得的分類效果較好11。由于樣本模型的復(fù)雜性與推廣能力這一對矛盾的客觀存在，近幾年來ER1方法逐漸為人們所摒棄。2212結(jié)構(gòu)風(fēng)險最小化基于ERM統(tǒng)計理論學(xué)的專家學(xué)者們提出了結(jié)構(gòu)風(fēng)險最小化(urlIkMnmzon，sRM)原則15]。在此涉及到兩個概念:VC維和推廣性的界。對于ve維(物pnkehevoneksDmenon)，目前最流行的通用定義是模式識別中的直觀定義:一個判斷函數(shù)集中的函數(shù)，能把一個容量為n的樣本集按照所有n種形式分開的最大n值，稱為該函數(shù)集的vc維71]。可見，VC維代表了函數(shù)集所建立模型的復(fù)雜度模型的復(fù)雜度越大其學(xué)習(xí)能力也越強(qiáng)。前面的例第第二章相關(guān)理論基礎(chǔ)子中，函數(shù)fxa)(o)的VC維是無窮大。推廣性的界，簡言之，就是經(jīng)驗風(fēng)險和實際風(fēng)險之間的關(guān)系在分類問題最基本的兩類分類問題中統(tǒng)計學(xué)習(xí)理論得出了一個重要的結(jié)論:對判斷函數(shù)集內(nèi)的一切函數(shù)經(jīng)驗風(fēng)險和實際風(fēng)險至少以1粉的概率滿足式(25)]:hZn/h)+)/4)R))+ 25)n式中，(動是實際風(fēng)險，R，動是經(jīng)驗風(fēng)險，h是函數(shù)集的VC維，是樣本數(shù)，hnZn/h)+)/4)是置信范圍。該公式很好地解釋了產(chǎn)生過學(xué)n習(xí)現(xiàn)象的原因，在使經(jīng)驗風(fēng)險達(dá)到最小的過程中，學(xué)習(xí)模型的復(fù)雜度越高，即VC維越高時，置信范圍增大，實際風(fēng)險與經(jīng)驗風(fēng)險之間的差距在一定程度上就會越大。所以，機(jī)器學(xué)習(xí)過程需要同時降低經(jīng)驗風(fēng)險和縮小置信范圍。SRM原則就是充分考慮了以上兩方面因素的一個良好策略(圖21)。它將預(yù)測函數(shù)集重新構(gòu)造為一個按照各自VC維大小排列的函數(shù)子集序列在每個子集中求出最小的經(jīng)驗風(fēng)險值然后尋找出經(jīng)驗風(fēng)險和置信范圍之和最小的那個函數(shù)子集這樣得到的實際風(fēng)險必然最小理論上該方法完全可行，而事實上，由于當(dāng)函數(shù)集很龐大時求每個子集的最小經(jīng)驗風(fēng)險是一項較費事的工作所以科學(xué)界提出了另一種解決辦法在設(shè)計函數(shù)子集時使得每個子集都能取得相同的最小的經(jīng)驗風(fēng)險，如令其為零這樣只要選擇置信范圍最小的那個子集中、取得最小經(jīng)驗風(fēng)險值的函數(shù)作為最優(yōu)的判斷函數(shù)即可而這種方法的具體實現(xiàn)就是下面將要闡述的支持向量機(jī)。置信范圍瞿經(jīng)驗風(fēng)險VC維圖21結(jié)構(gòu)風(fēng)險最小化原理第第二章相關(guān)理論基礎(chǔ)222 支持向量機(jī)原理在最基本的二類樣本分類問題中，傳統(tǒng)的線性可分情況如圖2所示對于分別用黑圈和白圈表示的兩類樣本，H是最優(yōu)分類線，拭，從是平行于H且通過所在類中離H最近的樣本的直線。拭，叢之間的距離稱為分類間隔(Mgn)。H之所以被稱為最優(yōu)分類線，是因為它能將兩類正確分開，且使Mgn最大181。margn~2/}二I圖22線性可分情況設(shè)分類直線方程為:x口十b二0 26)要能正確分開兩類，將其進(jìn)行歸一化處理，使其滿足:毋)+b]10，i=一n 27)其中，i)，=n是線性可分樣本集。此時，Mgn為/。}，要使其最大等價于使。/2最小，即:Mn。/2 28)同時滿足(27)(2)兩式的分類直線就是最優(yōu)分類線另外通過私HZ的樣本點稱為支持向量它們是做出正確分類的關(guān)鍵樣本點換句話說即將樣本集中的所有其他樣本去掉以后僅憑這些支持向量仍能對樣本做出準(zhǔn)確的分類。以上是二維的分類情況，當(dāng)推廣至N維時，根據(jù)統(tǒng)計學(xué)習(xí)理論1]，設(shè)樣本分布于一個半徑為R的球體內(nèi)，滿足條件。A的平面構(gòu)成的判斷函數(shù)集fx)gn{必)}，其VC維須滿足式(2)，這是一個求最優(yōu)分類面的問題。mnAN)+1 29)于是使z2最小又等價于使vC維上界最小從而通過SRM 原則來第第二章相關(guān)理論基礎(chǔ)實現(xiàn)對函數(shù)模型復(fù)雜度的選擇利用拉格朗優(yōu)化方法將求最優(yōu)分類面問題轉(zhuǎn)化為對偶問題:r藝t)=1 ，代之0，i=一n210)lyiai式中是每個樣本對應(yīng)的拉格朗日因子由于這是一個不等式約束條件下的二次尋優(yōu)問題，所以必有唯一解，而且解中有少部分對應(yīng)樣本是支持向量的，它們值不為零。解得最優(yōu)判斷函數(shù)(也稱最優(yōu)分類函數(shù))如下:fn+n藝+} 211)由于前述的支持向量的特點SVM實際上是通過支持向量而做出正確分類的)所致，式(21)可以只對支持向量進(jìn)行求和，即*號所表示的都是支持向量的參數(shù)，其中*是閩值，可用支持向量由式2)取等號求出。當(dāng)樣本線性不可分時就需要考慮兩方面內(nèi)容一方面要使被錯誤分類的樣本數(shù)盡可能地少，另一方面又要使得分類間隔達(dá)到最大為使兩者達(dá)到平衡，引入一個松弛因子，將式(2)改進(jìn)為如下形式:)+b]l+或o，i=一n 22)氦O是松弛因子，于是，式2)變?yōu)?Mn02+C藝參 213)其中，C稱為懲罰因子它是一個大于零的常數(shù)含義為對樣本被錯誤分類而進(jìn)行懲罰的程度。在這樣的情形下，式(20)中的范圍變?yōu)閘。當(dāng)然，在現(xiàn)實生活中的大多數(shù)情況下，樣本的分布基本上呈現(xiàn)非線性規(guī)律，在傳統(tǒng)的處理方法顯得頗為棘手之時，SVM 方法便脫穎而出。基本思想是，通過某種變換將低維空間(歐式空間)中的非線性問題轉(zhuǎn)化為高維空間(希爾伯特空間)中的線性問題，這樣便可將問題歸結(jié)為傳統(tǒng)的線性情況來處理。然而，直接將樣本數(shù)據(jù)從低維空間轉(zhuǎn)向高維空間再作處理將是一個浩大的計算過程很可能會導(dǎo)致維數(shù)災(zāi)難”問題的發(fā)生。但天無絕人之路，通過觀察式(2)和(21)可知，從低維向高維轉(zhuǎn)換并在高維空間中尋找最優(yōu)超平面時，其核心只是針對樣本之間的內(nèi)積運算，即映射，戈)分叫)拭j)。根據(jù)相關(guān)的泛函理論只需找到滿足Mer條件的內(nèi)積函數(shù)Kj))武j，就能將其變換為高維空間中的內(nèi)積形式]。此時，式(21)變?yōu)?第第二章相關(guān)理論基礎(chǔ)” )式(24)就是高維空間中的判斷函數(shù)(分類函數(shù))，也即最優(yōu)分類面，是VM 的核心內(nèi)容。內(nèi)積函數(shù)K凡)也稱為核函數(shù)，它是使樣本空間能夠低維向高維轉(zhuǎn)換的關(guān)鍵?？梢钥吹?，實際上SVM是對樣本在低維空間中處理的結(jié)果(內(nèi)積)作了一個非線性變換，使得大量的計算工作在低維空間中得以完成，極大地降低了計算的復(fù)雜度，避免了潛在的維數(shù)災(zāi)難”問題的發(fā)生。圖3是SVM 的降維原理，這里，低維空間又稱為輸入空間，因為它是樣本的輸入口;而高維空間又被稱為特征空間，因為對樣本做出分類是基于樣本的特征信息的，這也是模式識別的根本原則。lpta心R公 c民S況公}IK(X、》~ 會》圖23通過內(nèi)積函數(shù)將樣本從輸入空間映射至特征空間在此通過一個簡單的例子來表明內(nèi)積核函數(shù)的作用過程假設(shè)通過式(2)定義的函數(shù)變換，實現(xiàn)二維空間至三維空間的轉(zhuǎn)換，即護(hù)崢護(hù)。不)湯) 215)LxZL2:夕L凡」[凡」 216)一 2于是，二維的非線性情形便轉(zhuǎn)化成三維的線性可分情形，如圖24。第第二章相關(guān)理論基礎(chǔ)戶x、了嗡加眾圖24二維到三維的過程在SVM中起到關(guān)鍵作用的是核函數(shù)，核函數(shù)不同，形成的SVM算法也不同前國際上流行的主要有三類核函數(shù)他們分別是徑向基核函數(shù)(RdlBssFneons)(217)多項式核函數(shù)(po”oma)(218)及感知器核函數(shù)(5腳od)(29)。其中徑向基核函數(shù)由于其具有普遍好的分類效果，使用頻度較其他核函數(shù)高。另外還有線性核函數(shù)(ier)，由于它的結(jié)構(gòu)較簡單而不常被使用。x川，Kx)exP(2r2 27)“ 218)Kxy)=Zxy)+c) 219).23 多類分類問題支持向量機(jī)能對樣本進(jìn)行二類分類而實際問題中大多數(shù)的情況是存在多類的樣本針對該問題人們提出了多種不同的解決辦法如一對一方法(1v)2]一對多方法(lvr)22]直接非循環(huán)圖法(DAGSvM)23等。目前，前兩種方法因其能獲得相對較好的效果，使用較為頻繁。假設(shè)一個樣本集中有k類樣本，且樣本數(shù)量為n，一對一”的方法是，為這k類樣本兩兩構(gòu)造出所有的SVM 分類器，即每個SVM 可以區(qū)分出特定兩類的樣本，這樣總共可以構(gòu)造kk2個SVM，然后采用一種稱為投票”的機(jī)制來對樣本的做出分類。如圖25所示，將每個樣本用kk)2個SVM逐一進(jìn)行分類，對分類結(jié)果做出投票。例如，對于第i類樣本，共有k1個SVM 能將其正確劃分在剩下的(k/2k)個SVM中能區(qū)分任何一個類別的SVM總數(shù)小于k1，也就是說，就算它們?nèi)繉颖緄錯分為某一非i類別，所得票數(shù)也是類別i最多，于是，根據(jù)投票的結(jié)果就總能將第i類樣本正確地劃歸為類別i。第第二章相關(guān)理論基礎(chǔ)個樣本第2個樣本第n個樣本SSMII SVMZZ SVMkk班別11 類別22 類別kk圖25v1方法的投票機(jī)制一對多”方法較一對一”方法使用得要早些，其原理是，對于k類樣本構(gòu)造k個SVM分類器，用來區(qū)分k類樣本中的每一類和剩下的那些類，實際上也可看作將樣本分為兩類，然后也是用投票機(jī)制得出結(jié)果。雖然1vr方法要比v1方法少構(gòu)造(k/2k個SvM，但是其存在嚴(yán)重的問題，因為該方法將樣本分為數(shù)量很不平衡的兩類，這是SVM的軟肋，會極大地影響分類效果，導(dǎo)致分類結(jié)果偏向于數(shù)量多的一類，而數(shù)量少的一類準(zhǔn)確率大大下降。同時，與vr方法相比v1方法盡管在SVM分類器數(shù)量上占劣勢但是每個SVM所承擔(dān)的樣本數(shù)量比vr方法少很多，省卻了大量的運算時間，所以總體消耗時間相差無幾，甚至比vr方法要少2]。本文用SVM對四類細(xì)胞因子家族及六類亞家族進(jìn)行的多類分類，采用的是一對一”的分類方法。24特征的選取人在辨別或是區(qū)分一件物體的時候依靠的是該物體的特征如顏色形狀、材質(zhì)用途等等一切可以用來表征該事物的特點那么如同人類區(qū)別物體的原理一樣假使要對樣本做出正確的分類關(guān)鍵在于要抓住樣本的特征該特征必須是在同類的樣本中普遍相同而在非同類的樣本之間存在較大差異于是就可通過每一類樣本之間不同的特征來達(dá)到識別或是分類預(yù)測的效果對于細(xì)胞因子人們通過基因組計劃已經(jīng)知道了大量的原始數(shù)據(jù)這些數(shù)據(jù)以氨基酸序列的形式呈現(xiàn)在我們面前我們唯一可以利用的就是這些氨基酸序列從序列的角度入手，從中提取出特征。當(dāng)然計算機(jī)是不能如人類一般直接接受宏觀抽象的定性信息的輸入計算機(jī)的必須是定量的數(shù)據(jù)所以還需要把提取出來的特征以數(shù)字化形式表示出第第二章相關(guān)理論基礎(chǔ)來為計算機(jī)所接受這個過程又稱為特征編碼簡言之特征編碼就是從氨基酸序列中選取某些相關(guān)信息，將其用數(shù)學(xué)的方法表達(dá)出來，這樣才能作為SVM的輸入數(shù)據(jù)特征提取的關(guān)鍵就是要使得所選用的信息能正確反映氨基酸序列同細(xì)胞因子之間的關(guān)系?，F(xiàn)今科學(xué)界廣為討論的蛋白質(zhì)信息提取方法主要有兩大類一類是傳統(tǒng)的方法它們僅僅將關(guān)注點停留在基本氨基酸序列的層面上將序列看作簡單的長字符串，從字符串角度來進(jìn)行特征的提取和編碼，包括氨基酸組成成分方法2]、二膚組成成分方法25]、多膚組成成分方法5]、嫡密度特征提取法2]等。另一類方法融入了生物學(xué)特性它們將氨基酸的物理化學(xué)性質(zhì)加入到特征提取的考慮范圍之中也就是并不將序列看作普通的字符串而是更多地考慮了具有特定理化性質(zhì)的氨基酸的位置或頻度特征如偽氨基酸特征提取法268、相關(guān)函數(shù)法0]、準(zhǔn)序列次序特征法川等。這些方法在基因和蛋白質(zhì)分類過程中皆被廣泛地使用著。本章介紹了氨基酸組成成分方法并實現(xiàn)了二膚組成成分方法同時提出并實現(xiàn)了氨基酸和二膚混合組成方法二膚組成和序列長度特征方法及基于氨基酸疏水特性的偽氨基酸特征方法。23 性能評價方法介紹31驗證指標(biāo)衡量一個系統(tǒng)或者說是一個方法的優(yōu)劣需要有各種參數(shù)指標(biāo)來表示這樣可以跟其他系統(tǒng)和方法作對比，使人對其性能、效率一目了然。目前，有多種指標(biāo)可以用來表示分類預(yù)測研究領(lǐng)域的實驗結(jié)果，最基本、最常用的有準(zhǔn)確率(Aeeuaey)(220)敏感度(Senvy)(221)特異性(speeey)(222)，馬修斯相關(guān)系數(shù)(MthewsCoeonCoeieen，MCC)(223)這四個指標(biāo)。tP+tnAccuracy二 220)P+戶+n+ntPSensv沙= 221)P+nt刀Pecc沙二n+戶 222)第第二章相關(guān)理論基礎(chǔ)CC Pxn戶xnP+nP+戶n+nn+戶) 223)其中PnPn分別表示真陽性(uepoe)真陰性(uenegve)，假陽性(epove)假陰性(enegve)準(zhǔn)確率即通常意義上的準(zhǔn)確度，就是被準(zhǔn)確判斷的樣本數(shù)量占所有樣本數(shù)量的比例;敏感度體現(xiàn)的是系統(tǒng)對正樣本的辨別能力;特異性體現(xiàn)的則是系統(tǒng)對負(fù)樣本的辨別能力;馬修斯相關(guān)系數(shù)則用來適應(yīng)不平衡數(shù)據(jù)集的情況這四個指標(biāo)參數(shù)已被公認(rèn)為能很好地衡量出一個機(jī)器學(xué)習(xí)方法的性能優(yōu)劣)。232 驗證方法對于實驗結(jié)果的驗證本文采用的是交叉驗證方法在機(jī)器學(xué)習(xí)領(lǐng)域，K折交叉驗證方法(KolCgadin)由于具有客觀和嚴(yán)謹(jǐn)?shù)奶匦?，因此在學(xué)術(shù)界常為人們所推崇。其原理是，指定參數(shù)K后，將樣本隨機(jī)分為K等份，依次用其中的一份作為測試集剩余的K1份作為訓(xùn)練集用訓(xùn)練集進(jìn)行訓(xùn)練，結(jié)合所得分類模型再對測試集進(jìn)行分類測試如此循環(huán)K次后使得每一等份都輪流做過訓(xùn)練集和測試集，由此便得到準(zhǔn)確率最高時SVM 中分類函數(shù)的最優(yōu)參數(shù)。有三種常用的交又驗證方法它們是Leveoneot(Loo)法ndependentDat法，和Seconcy法6]。下面分別作簡要介紹:)LOO法又稱為Jckke法。假設(shè)樣本集中含有M 個樣本，輪流將每一個樣本作為測試集，將剩下的M1個樣本作為訓(xùn)練集進(jìn)行反復(fù)的訓(xùn)練和測試，由此得到最優(yōu)參數(shù)下的準(zhǔn)確率?？梢园l(fā)現(xiàn)，LOO 法實際上是K折交叉驗證方法的極端情況，即它是折數(shù)為樣本數(shù)目M 的K折交叉驗證方法。2)neenetDst法。顧名思義，該方法是在構(gòu)建沒有交集的訓(xùn)練集和測試集的情況下，用訓(xùn)練集對系統(tǒng)進(jìn)行訓(xùn)練，再用測試集進(jìn)行分類測試。eenetDst法客觀有效，直接體現(xiàn)了系統(tǒng)對于未知數(shù)據(jù)的預(yù)測能力。3)e-ostny法。該方法采用一個數(shù)據(jù)集對系統(tǒng)進(jìn)行訓(xùn)練后，仍然用該數(shù)據(jù)集進(jìn)行分類預(yù)測。它考察一個系統(tǒng)所生成的模型是否會偏離訓(xùn)練集數(shù)據(jù)，能夠最大程度地體現(xiàn)出系統(tǒng)的穩(wěn)定性本文同時采用了這三種交叉驗證方法從多角度來檢驗不同特征下系統(tǒng)對細(xì)胞因子的預(yù)測能力。第第二章相關(guān)理論基礎(chǔ).4 本章小結(jié)本章詳細(xì)地介紹了進(jìn)行細(xì)胞因子識別和分類預(yù)測時所需要的相關(guān)基礎(chǔ)理論知識和實驗方法工具包括機(jī)器學(xué)習(xí)理論統(tǒng)計學(xué)習(xí)理論和支持向量機(jī)方法在面對有限樣本和小樣本時，統(tǒng)計學(xué)習(xí)理論的支持向量機(jī)方法體現(xiàn)出了卓越的優(yōu)勢，這是本文選擇了支持向量機(jī)作為細(xì)胞因子識別和分類預(yù)測工具的重要因素。同時本章也對構(gòu)建系統(tǒng)所將要涉及的問題及相關(guān)概念如多類分類的解決辦法特征向量交叉驗證等作了必要的闡述在傳統(tǒng)廣為流行的v1方法vr方法、DAGSVM方法中，經(jīng)多方面斟酌選擇了v1方法。下一章，將采用各種交叉驗證方法來對各種特征提取方法下的系統(tǒng)性能進(jìn)行測試和研究。第第三章基于多種特征的細(xì)胞因子預(yù)測研究第三章基于多種特征的細(xì)胞因子預(yù)測研究31數(shù)據(jù)集及各基本方法的選取311用于細(xì)胞因子識別的數(shù)據(jù)集細(xì)胞因子識別是指系統(tǒng)區(qū)分出該蛋白質(zhì)是否屬于細(xì)胞因子的過程實際上它也是一個分類的過程—將蛋白質(zhì)劃分為兩類:細(xì)胞因子和非細(xì)胞因子即正樣本和負(fù)樣本。本文用于訓(xùn)練和測試的數(shù)據(jù)集中所采用的細(xì)胞因子序列均從hpcoemd.ummocjp下載，使用與CTPd相同的樣本集，這樣便能夠與CTKPd系統(tǒng)作性能比較。在下載的數(shù)據(jù)集中隨機(jī)抽取110條序列作為細(xì)胞因子家族識別的數(shù)據(jù)集，它包括47條細(xì)胞因子序列組成的正樣本集和63條非細(xì)胞因子的蛋白質(zhì)序列組成的負(fù)樣本集。然后，按照通用的2比例1大致劃分出訓(xùn)練集和測試集，本文中正負(fù)樣本的訓(xùn)練集中包含0條細(xì)胞因子序列和20條非細(xì)胞因子序列，余下序列則劃歸為測試集。312 用于細(xì)胞因子分類的數(shù)據(jù)集本文中細(xì)胞因子的分類，包括家族和亞家族的分類。如圖31所示，47條細(xì)胞因子序列包含了FGF沮BGFL6MD/PTNLFOSMNGFTGFBea、TNF這七類，它們的樣本數(shù)分別是83、22、0、2、24、190、96。由于L6、MD幻PN、I/OSM、NGF這四類的樣本數(shù)特別少，對SVM 的分類效果會產(chǎn)生一定的影響，將該四類合并為一類，名為oidss，含有8條序列，縮短了其他類別在數(shù)量上的懸殊距離保持了樣本一定的平衡性。同時這樣做也是為了保持與CTKPd有相同數(shù)量的各類樣本集，形成可比性對于FG/HBGF、otcas、TGFBa和TNF這四類的練集劃分，同樣按照12的比例進(jìn)行，分別為0、5、5、5條，剩余的序列作為測試集。190條TGFBea亞家族序列可以劃歸為BMPGDFGDNFNHTGFbea、ter這樣六類，其中thr類也是對樣本集做平衡性處理，而將其他小數(shù)目類別的樣本劃歸為一類。TGFBa亞家族的測試集樣本數(shù)目分別為13、9、6、8、10、0，剩余序列作為測試集。第第三章基于多種特征的細(xì)胞因子預(yù)測研究〕I 一{I一 l 諭 }!漏 }廠護(hù)刁自蘭應(yīng)臼應(yīng)白應(yīng)西習(xí)圖31細(xì)胞因子家族分類層次關(guān)系，1，日匕土七下里+nr.曰右，J.1.J 二寸L月里刃曰匕于資匕已迄今為止已經(jīng)有不少科學(xué)家著手實現(xiàn)了各種不同版本的支持向量機(jī)包括使用CJvaPon等編程語言開發(fā)的各種工具包它們能在idowsinx等不同環(huán)境中運行。目前，國際上主流的SVM工具包主要是SVMhgt和LbsvM這兩種。其中，SvMgt由美國康奈爾大學(xué)honocms教授于98年開發(fā);而ibSVM由臺灣大學(xué)林智仁副教授開發(fā)，其版本經(jīng)歷了最初的于2001年研發(fā)的LbSVM232，到后來的LbSVM261LbSVM281直至最近今年十月發(fā)布的ibSVM28。發(fā)布相對較晚的ibSVM具有簡單易用、快速高效的特點，它綜合了SVMgt算法和由pt提出并經(jīng)Kehy修正后的序列最小優(yōu)化(SequenalMnmalopmzonSMo)算法;并且功能齊全涵蓋了分類]題(包括CsVC、nSVC)、回歸問題(包括eSVR、nSVR)以及分布估計(oeeaSVM);同時，它在很多地方比oahms的svMght算法要考慮得周到細(xì)致，如引入ikg機(jī)制等。雖然SVMgt由于實現(xiàn)地較早而比較粗糙，但是ocms首先提出了這些機(jī)制的思想，為后來SVM算法的發(fā)展奠定了重要的基礎(chǔ)?；趇bSVM的以上優(yōu)點，本文選用ibSVM21工具包作為細(xì)胞因子識別和分類預(yù)測研究課題的基本預(yù)測工具。ibSVM1的源碼可從p.eeueduw八n下載。314 參數(shù)及驗證方法的選取經(jīng)大量的前期預(yù)實驗研究發(fā)現(xiàn)當(dāng)SVM選用RBF核函數(shù)時對于細(xì)胞因子序列數(shù)據(jù)的分類效果最佳這也是同前學(xué)術(shù)界對于支持向量機(jī)核函數(shù)選擇的研究結(jié)果相符合的1]。同時還發(fā)現(xiàn)，在懲罰因子取值為00時，識別和分類預(yù)測的準(zhǔn)確率相對達(dá)到最高。因此在下文的多種特征提取方法的驗證研究中所有結(jié)果都以這兩個參數(shù)為前提條件同時本論文采用國際公認(rèn)的最為有效和客觀的LOO法ndependentDaaet法和seConeney法這三種交叉驗證方法，第第三章基于多種特征的細(xì)胞因子預(yù)測研究對細(xì)胞因子的分類結(jié)果進(jìn)行分析和討論。12多種特征編碼的實現(xiàn)基于支持向量機(jī)的細(xì)胞因子分類預(yù)測在不同的特征提取方法下即在采取不同的特征編碼時會產(chǎn)生不同的結(jié)果本節(jié)首先簡要介紹氨基酸組成成分和二膚組成成分這兩種基本特征編碼方法，然后將詳細(xì)介紹氨基酸和二膚混合組成、二膚組成加序列長度和偽氨基酸組成這三種特征編碼方法以及基于以上方法對細(xì)胞因子分識別和分類的預(yù)測驗證結(jié)果，并作一定的比較。321氨基酸組成成分特征蛋白質(zhì)的多級結(jié)構(gòu)折疊信息與組成蛋白質(zhì)的氨基酸殘基的排列方式有著明顯的關(guān)聯(lián)性不同的折疊方式形成不同的多級空間結(jié)構(gòu)決定了蛋白質(zhì)的不同功能。因此，以蛋白質(zhì)序列中氨基酸殘基的組成成分，或者稱為氨基酸組成成分(AmoAcdcomot)作為特征，對細(xì)胞因子進(jìn)行分類是具有一定的可行性的。這種特征提取方法曾被廣泛地用于蛋白質(zhì)的亞細(xì)胞定位研究521。設(shè)A=ARNDCoEGHILKMpFST砰YV}為20種基本氨基酸構(gòu)成的集合，集合中各字母是0種氨基酸的簡寫，特征向量表示為以下形式:)=AT，。Ai=N 3l)a表jV，示氨基酸a在該序列中出現(xiàn)的頻率，N表示數(shù)據(jù)集中細(xì)胞因子序列的數(shù)目T是矩陣轉(zhuǎn)置。由此可知，每一條序列可構(gòu)成一個0維的特征向量。將這些特征向量輸入SVM進(jìn)行訓(xùn)練，然后用產(chǎn)生的訓(xùn)練模型對待測細(xì)胞因子序列數(shù)據(jù)進(jìn)行分類，從而達(dá)到預(yù)測的效果。基于氨基酸組成成分的特征向量提取方法，其分類預(yù)測效果并不理想2]，這是因為該方法所采用的特征向量含有的信息量相當(dāng)?shù)厣?，只?0個分量，并且它只是簡單地獲取了每種氨基酸在一條細(xì)胞因子序列中的相對含量而沒有綜合考慮各種氨基酸在一條序列中的位置順序信息和其它一些相關(guān)的藕合信息。322二膚組成成分特征雖然基于氨基酸組成成分的特征提取方法其計算較為簡便但由于包含的第第三章基于多種特征的細(xì)胞因子預(yù)測研究信息量過少的緣故導(dǎo)致其分類效果不佳而以多膚組成成分為基礎(chǔ)的特征向量提取方法，充分地考慮了氨基酸之間的位置順序所帶來的信息2]。同氨基酸組成類似該方法也是將各不定長蛋白質(zhì)分子的氨基酸序列轉(zhuǎn)化為一個具有固定維數(shù)的特征向量。由生物學(xué)基本概念可知膚Ptd)是由兩個或兩個以上氨基酸相互脫水并以膚鍵相連而形成的一種蛋白質(zhì)序列片斷的統(tǒng)稱對于一個由n肚組成的膚鏈，第i個細(xì)胞因子序列的特征向量可表示如下形式:AAA) e一lAVV)仇 l外一 n)nl nl 3-勺VAA) V) 沙價任AA j=n =1…Nao一n其中aa價nn)二表示膚鏈l氣價nn在第Nn)i條細(xì)胞因子序列中出現(xiàn)的概率，由此可知，每條序列可構(gòu)成一個0x2維的特征向量。顯然，對高階膚組成成分的分析將非常復(fù)雜，隨著n的增大，數(shù)據(jù)的計算量將以冪級數(shù)增長;同時，由于越長的膚鏈在一條序列中出現(xiàn)的幾率越小，零值噪聲也急劇增大，甚至?xí)谏w了有用的信息2]。所以，通常取n為2的情況也即以二膚的組成成分(npepdeCompoon)為特征向量此時式(32)可表示為:e) AV)A) FF)0 33)仇 a氣)線2任AA，i …N這是一個40維的向量，二膚組成成分方法既包含了20種氨基酸的含量信息又包含了它們在細(xì)胞因子序列中的相互位置信息;同時該方法的計算量不大并且零值噪聲干擾極小經(jīng)多方面相關(guān)研究表明該方法確實是一種較有效的蛋白質(zhì)分類預(yù)測方法248]。二膚組成成分的含量計算方法由下式給出:na2)(oo)二藥氣任月 34)L一1其中a2是40種二膚組合中的任一組合Fla)表示二膚aoZ的百分第第三章基于多種特征的細(xì)胞因子預(yù)測研究含量(rco，表示aaZ在當(dāng)前這條細(xì)胞因子的氨基酸序列中的所含數(shù)量，L表示序列長度，也即氨基酸總數(shù)，L1表示該條序列中所有可能的二膚數(shù)目。3221實驗結(jié)果及分析較HungNi等人提出了以二膚組成成分為特征提取方法的細(xì)胞因子家族分類識別系統(tǒng)CTP[1)，其結(jié)果比使用隱馬爾可夫模型(HMM)方法的Pm要好。本研究中還原重現(xiàn)了Hungi等人提出的二膚組成分類方法，結(jié)果基本同其一致表313233分別為細(xì)胞因子家族識別細(xì)胞因子家族分類及TGFBa亞家族分類的交叉驗證結(jié)果(其中Ac，MCC，n，Sp分別表示sucy，Mee指標(biāo)，senvy，speeey)。為形成對比，各參數(shù)與文獻(xiàn)3]同，選用gmma值為00的徑向基核函數(shù)(BF)懲罰因子c取值00對因子家族的識別采用二折交叉驗證家族分類采用七折交叉驗證從表中可以看到兩者的實驗結(jié)果相差無幾同時也很好地說明了二膚組成成分這種特征分析方法已具備一定的成熟度和穩(wěn)定性。表31基于二膚的細(xì)胞因子家族識別的驗證結(jié)果。Aee MCC Sn SPCyoKey 9585% 091 9335% 9747%CTKPed 9530% 090 9250% 9720%表32基于二膚的細(xì)胞因子家族分類的驗證結(jié)果。CTKPreddFamy Aee MCC Sn SPP Aee MCC Sn SPPFGFHBF 9771% 092 8916% 9972%% 9750% 092 9270% 9860%%JJnteass 9702% 089 9412% 9755%% 9840% 094 9100% 9970%%TGFBea 9633% 093 9789% 9512%% 9580% 092 9740% 9470%%TNF 9748% 093 9158% 9912%% 9770% 094 9400% 9880%%表33基于二膚的細(xì)胞因子亞家族TGFBea分類的驗證結(jié)果。Ky } KdFamy ACC MCC Sn SP ACC MCC Sn SPBMP 9101% 07 9783% 8881% 8600% 00‘ 8750% 8550%GDF 9195% 7419% 9304% 9300% 8240% 9520%GDNF9665%9286%9884%9800%7500%10000%NH9894%3750%10000%9200%4670%10000%TGFBea 9942% 9667% 9477% 9900% 10000% 9890%Oher 8836% 5938% 9427% 8400% 6670% 8950%第第三章基于多種特征的細(xì)胞因子預(yù)測研究323氨基酸和二膚混合組成成分特征前文321和322兩小節(jié)分析討論了兩種經(jīng)典的特征方法本小節(jié)開始對本文新提出的特征方法進(jìn)行研究，同時將結(jié)果與Hung等人開發(fā)的CTPd預(yù)測系統(tǒng)作比較和分析。顧名思義所謂的混合組成成分，即混合使用氨基酸的多膚組成通過加大信息量的方法來促進(jìn)系統(tǒng)對序列數(shù)據(jù)的分類效果本小節(jié)混合使用氨基酸組成成分和二膚組成成分這兩種特征向量提取方法，在含有0維的氨基酸組成所形成的特征向量之后再添加一個含有40維的二膚組成所形成的特征向量于是，一條細(xì)胞因子序列可以轉(zhuǎn)化為一個具有420個分量的特征向量該方法涵蓋了一膚(氨基酸組成)和二膚的信息，而計算量同二膚組成方法相比只是增加了0個維度，基本沒有變化，所以不失為一種可行的預(yù)測方法。3231細(xì)胞因子的識別論文采用了Loo法、ndpndentDst法和SeConeney法這三種目前較為流行的測試途徑對該方法進(jìn)行了交叉驗證。圖32是用混合組成方式選取了不同g~a值的LOO法驗證結(jié)果，由于數(shù)據(jù)量較大這里選用較為有代表性的準(zhǔn)確率(Acrcy)來作為驗證標(biāo)準(zhǔn)圖33是該方法的不同g~a值的dPneiDst法驗證結(jié)果表35是一致性測試的驗證結(jié)果。圖32中可以看到gmma為0時準(zhǔn)確度最高接近于CTPd的53%;圖33沒有CTPed的值高這是因為ndependentDat法使用的是未經(jīng)過機(jī)器學(xué)習(xí)”的測試集，而CTKPd使用的交叉驗證是對已學(xué)習(xí)過的樣本集進(jìn)行預(yù)測，故準(zhǔn)確度相對要高。表34是gamma取值00時SeConeney法的驗證結(jié)果，結(jié)果表明，該方法能對已學(xué)習(xí)過的樣本集做出完全正確的識別，具有較好的穩(wěn)定性。第第三章基于多種特征的細(xì)胞因子預(yù)測研究呂字盡另 8 月字圖32基于混合組成的細(xì)胞因子識別，不同gamma值的LOo法驗證準(zhǔn)確率求心CoK盯民尋盡品 8 呂尋圖33基于混合組成的細(xì)胞因子識別，不同gamma值的nd叩endentDaaet法準(zhǔn)確率表34基于混合組成的細(xì)胞因子識別，sefConency法，gamma=ooFamy ACC MCCCyokne ]0000% 100 10000% 10000%3232細(xì)胞因子家族的分類同樣本文采用了上述的三種交叉驗證方法對采用混合特征提取方法下的細(xì)胞因子家族分類效果進(jìn)行了驗證。圖34是選取不同gmma值的四類細(xì)胞因子用LOO法進(jìn)行驗證的結(jié)果。從圖中可以看到，系統(tǒng)對FG/HBGF類(圖)和TNF類(圖)的分類準(zhǔn)確率要高于CTKPed，對TGFBea類(圖e)分類的準(zhǔn)確率略低于CTKPed的結(jié)果，其值相差了02個百分點左右但是iss的分類效果比CTKPd低了近15個百分點。也就是說，采用混合特征方法時對細(xì)胞因子家族除otdss這一類稍有偏差之外，基本上能達(dá)到較好的分類效果。圖35是選取不同gmma值的四類細(xì)胞因子用dPnetDst法進(jìn)行驗證的結(jié)果。由于CTKPd系統(tǒng)未采用該驗證方法進(jìn)行驗證，所以無法得知第第三章基于多種特征的細(xì)胞因子預(yù)測研究CTPed的ndependentnaet法驗證結(jié)果。由圖可知，d叩endentDset法驗證所得的準(zhǔn)確度要低于普通的交叉驗證方法。表35是g~ a取值10時e-Cnecy法的驗證結(jié)果。結(jié)果表明，該特征方法對細(xì)胞因子家族分類預(yù)測的穩(wěn)定性很好。980 985979山 980978977 97乃976975 970974 — \ %乃\ 一一/\ \973972 %0呂字 8 昌 8 目尋呂字 8 昌 8 呂導(dǎo)Gan1日 Cm.a) b)960 97名955 977﹄刃 976950 8﹄9759j97497397297.1: 970呂字 3 霓 8 呂導(dǎo) G山n曰 C曰e) d)圖34基于混合組成的細(xì)胞因子分類，不同gamma值的LOo法驗證準(zhǔn)確率0297 o“一 //一 \一 \ /~~一~~導(dǎo) 盡易 8 宕呈導(dǎo) 啟 8一 Ganlr日、 b)70 90盯 o曰工二引窩字盡呂 8 宕字窩字盡呂 8 呂字G田.Ue) d)圖35基于混合組成的細(xì)胞因子分類，不同gamma值的ndePendentDaaet法準(zhǔn)確率27第第三章基于多種特征的細(xì)胞因子預(yù)測研究表35基于混合組成的細(xì)胞因子分類，sereonseny法，gamma=ooFamy ACC h1CCFGF/HBGF 10000% .n 10000% 10000%JontC韶S 10000% 10000% 10000%TGFB 10000% 10000% 10000%TNF 10000% 10000% 10000%3233細(xì)胞因子TGFBa亞家族的分類對于TGFBa細(xì)胞因子亞家族，論文同樣采用了三種交叉驗證方法，對該混合成分特征方法進(jìn)行了驗證。圖36是亞家族的各類細(xì)胞因子在不同g~ a值下LOO法驗證結(jié)果其中，BMP類(圖a)，GDF類(圖b)NH類(圖d)和Oher(圖f)類的分類效果明顯地優(yōu)于CTKPed，只是TGFBea類(圖e)稍有偏差，而對GDNF(圖)的分類也不差，只同CTKPd相差05個百分點左右。圖37是TGFBea亞家族在不同gm a值下的ndpndtnat法結(jié)果，并同CTKPed的結(jié)果作了比較。表36是gm a取值100時的SeConeney法結(jié)果，結(jié)果表明，對細(xì)胞因子亞家族的識別同樣也具有較高的穩(wěn)定性。表36基于混合組成的亞家族分類，sefConeny法，gamma=0oFamly Ace MCC Sn SPBMP 10000% 100 10000% 10000%GOF 10000% 100 10000% 10000%GDNF 10000% 100 10000%

人人文庫> 全部分類> 應(yīng)用文書 > 工作計劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于多序列特征的細(xì)胞因子家族預(yù)測研究-計算機(jī)應(yīng)用技術(shù)專業(yè)畢業(yè)論文

文檔簡介

溫馨提示

最新文檔

評論

基于多序列特征的細(xì)胞因子家族預(yù)測研究-計算機(jī)應(yīng)用技術(shù)專業(yè)畢業(yè)論文

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔