版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
優(yōu)秀畢業(yè)論文精品參考文獻資料何 何 題 碩士學位論文答辯委員會成員名單名職稱單位備注慶教授華東師范大學席新偉副教授華東師范大學素霞 副教授 華東師范大學摘 摘 要蛋白質家族識別與分類預測是后基因組時代重要任務之一細胞因子是一類由免疫細胞和其它相關細胞產生的能夠調節(jié)細胞功能的高活性多功能的低分子量蛋白質它在人類許多重要生理活動中扮演著重要的角色對細胞因子家族特別是未知其功能的細胞因子進行識別和分類預測不僅有助于直接闡明生命體在生理或病理條件下的變化機制而且對生物制藥疾病治療等應用領域具有直接的指導作用,因而具有重要的研究意義然而面對漸增長的蛋白質序列數據尋找一種快速而準確的計算方法來預測蛋白質家族并確定其功能一直以來是生物信息學研究巫待解決的難點和關鍵問題之一。本文在深入分析現有蛋白質功能預測方法的理論基礎上以機器學習理論中的支持向量機方法為基本工具探討了氨基酸和二膚混合組成二膚組成和長度、偽氨基酸組成等多種特征提取方法并在此基礎上開發(fā)了細胞因子家族識別與分類預測軟件CoKy。對比測試結果表明,CoKy識別和分類細胞因子的精度較以前方法有顯著的提高尤其是二膚組成和長度特征方法優(yōu)于國際上最新發(fā)布的細胞因子預測軟件 CTPd。目前,CoKy 已提供了wb 服務(htP/medeomPutngeom)。關鍵詞:支持向量機,細胞因子,特征向量,分類預測A bA bstraetReeognionandeassfeaonofProenfamyae oneofthemostmPorantmssonsnPogenomeera.CyoknesaeakndofPoenhataePodueedbynnunoeyesorreaedeesoeguaefuneonsofeeranees.TheyPaymPorantroesnmanyPhysoogealaevesofhuman.ThePedeonofcyokne幾mesePeeayhoseeytoknesWhosefuneonsaeunknownnotonyhePsorvealhePahoogealorPhysoogealransformatonmeehansmofabodybutasomakesadreetgudeosuehapPeaonfedsasboogealPhanaeyanddseaseteamen.Thereforet5ofgreatmPoraneeodohsreseareh.HowevernfceofthenereasngdaaofProensequenees,t5awaysdfieutofndanefeeveeomPuaonalmehodoPedetProenfamesanddeermneherfuneonswheh5sloneofhemostehaengesforbonformaesresearch.ThsPaperfstanayzesheexsngPredconmehodofPronandusaesmuPefeaureexraeonmethodsneudngamnoaed& dPePdeeomPoson,dPePdeeomPoson& engh,andPseudoamnoacdusnghesuPPortveeormaehneoolnmaehnee抑ngheor.ThenaPedeonservereaedCytoKeyforeyoknefmyeassfcaonandeeognonaredeveoPednhssudy.AceodngoheesusofeomPasonesCytoKeyshowsasgnfeantmPovementnheaeeuracyofeyoknePredeonneonrastoformermehods.AndhedPePdeeomPoson&enghfeauremehod5muehbeerhanheaesteeasedeytoknePedetonsofwareCTKPred.CyoKey5avaabehroughenemetathtP/medeomPungeom.Keywords:suPPortvecormaehine,eyoknes,feaureveeor,eassfcaonPredeon勺目 目 錄第一章緒論…111課題的目的與意義…112國內外研究現狀及分析313主要研究工作…6第二章相關理論基礎…821統(tǒng)計學習理論…822支持向量機理論823性能評價方法介紹…724本章小結…9第三章基于多種特征的細胞因子預測研究031數據集及各基本方法的選取…032多種特征編碼的實現…233研究結果分析…134本章小結…3第四章Wb服務系統(tǒng)發(fā)布…441系統(tǒng)開發(fā)目的…4442預測模型的構建…4443系統(tǒng)結構4544本章小結…51第五章總結與展望…5251論文工作總結…5252今后工作展望…2參考文獻…4致 謝…59附錄攻讀學位期間發(fā)表的論文0第第一章緒論第一章 緒論Ll課題的目的與意義111細胞因子概述眾所周知蛋白質和核酸是生命體最根本的物質幾乎所有的生命體都由這兩種物質組成兩者缺一不可核酸中存儲著生命的信息蛋白質則以各種不同的方式將信息合理地表達出來蛋質是由眾多氨基酸相互脫水而組成的多膚鏈,經過多重折疊后形成的大分子化合物,它肩負著包括組織構造、新陳代謝、免疫反應神經傳導激素調控等等多種極其重要的使命蛋白質的活動跟許多疾病的產生有著密切的關系因此對蛋白質的研究是生命科學界中的重要研究課題之一]。有一類稱為細胞因子(Cons)的蛋白質它是一種非特異性免疫效應物質,由免疫系統(tǒng)、造血系統(tǒng)和炎癥反應中的免疫、非免疫活性細胞或間質細胞,經刺激而產生的一種具有高生物活性的多膚或糖蛋白細胞因子能溝通過旁分泌和分泌方式,介導和調節(jié)免疫應答及炎癥反應,從而發(fā)揮局部的生物學效應。在人體中幾乎所有的細胞均能產生和分泌細胞因子細胞通過釋放這些細胞因子來保護機體免受有毒物質和病毒的侵襲另外細胞因子也跟細胞的再生分化,及機體的傷口愈合密切相關,它們是蛋白質家族中最重要的分類之一。圖11細胞因子間作用過程第第一章緒論每種細胞因子有其各自的功能但也具備共同特點它們的分子量相對較低,除趨化因子(Cemok)外,絕大多數細胞因子的同源性較小。它們具有重疊效應,即多種細胞因子在作用于同一細胞時,能產生相同或相似的效果。同時,它們也有多效性即一種細胞因子在作用于多類細胞時能產生多種不同的效果。細胞因子通常以網絡的形式來發(fā)揮其生物學效應多種細胞因子之間相互誘導或抑制,從而達到最合適的調節(jié)度,圖11粗略地展示了細胞因子間相互作用的過程細胞因子另一個顯著特征是具有高效性極其微量的少因子就可以產生明顯的生物學作用??梢杂卸喾N不同的方式對細胞因子進行分類例如根抓產生因子的細胞種類來分,可以有淋巴因子、單核因子和巨噬因子等。目前,際上較為流行的分類,是按照其功能來對細胞因子的種類進行劃分,大體上分為以下六個類,圖12分別是六類的蛋白質三維結構圖。()白細胞介素(in,L)。這類因子最初被發(fā)現于自細胞,后來又被人們發(fā)現于其他細胞中,但名字仍沿用至今。目前已發(fā)現j白細胞介素有0種(LL29)。圖中a為介素L8計算機模擬的空間:溝。)干擾素(n,FN)。這類因子以干擾病毒復制而得名,根據不用細胞類型的產生,又可分為Nlpa,FNBa,NGmma,其作用為抑制病毒復制增殖、抗腫瘤等。圖中b是干擾素lpha2的空間結構。3)腫瘤壞死因子(umorneeoscorNF)又分為NFApha和NFBea兩種,有不同細胞分泌產生,生物學活性廣泛。顧名思義,它能致死腫瘤細胞壞死。圖中c是典型的TNF空間結構。4)集落刺激因子(Coonymuangeor,CSF)。它能刺激造血干細胞增殖分化并形成一系列細胞集落。圖中d是由巨噬細胞產生的CSF。)生長因子(Gothr,GF)。它能刺激多種不同類型的細胞生長、分化。根據功能及所作用的細胞,可進一步細分為:轉化生長囚子(rnomggothcoBeaTGFBea)、神經生長因子(NevegheorNGF)、成纖維細胞生長因子(Fbobatgothor,FGF)、小板源生長因子(Pedevedotheor,PDGF)、表皮細胞長因子(EpdemalGothFaeorEoF)血管內皮細胞生長因子(aeuaredohealeelgothcr,VEGF)等。圖中e是血管內皮生長因子結構圖。)趨化因子(Cemoke)是一類由十多種結構上具有較大同源性的蛋白質組成的家族。它對多種細胞具有明顯的趨化效應。圖中f是大量趨化因子聚合在一起的情形。第第一章緒論圖12六種細胞因子結構112 課題的目的與意義在生命體特別是人體的一切生命活動中我們都能見到細胞因子的蹤影它們在各個生物化學過程當中起到了十分關鍵的作用無論是在含量還是在類別上的微小差異變化對整個人體的影響是巨大的。由此對細胞因子進行研究顯得至關重要尤其是當人們發(fā)現新的未知細胞因子時迫切需要知道那些新種類的功能,以進行進一步研究。于是對細胞因子做功能上的分類預測研究顯得尤為重要只有對細胞因子的種類做出高精度的識別和分類能為后續(xù)的研究提供扎實的基礎,以更好地去掌握和控制這類蛋白質,使之造福于人類這一課題涵蓋了生物學、數學、計算機學、物理學、化學等多種學科的內容和知識,涉及到生物信息學這門新興交叉學科的方方面面,是個具有重要研究意義的課題。12 國內外研究現狀及分析21研究背景細胞引子對一切生物機體包括人類的作用巨大其在醫(yī)學生物學上的地位舉足輕重人們當前已獲得大量有關于蛋自質和核酸的原始數據這些數據中部分以序列的形式來表達細胞因子如基因數據每一條都是用腺嚓吟核背酸(腺酸AMP)、鳥g吟核營酸鳥酸GMP)、l呢核酸(胞汗酸CM)、第第一章緒論尿嗜睫核昔酸(尿營酸,UMP)、胸腺嗜咤核昔酸(胸腺昔酸,TM)這五種核營酸組成的序列;蛋白質數據則是用二十種氨基酸組成的序列來表示面對這些數據人類迫切需要知道它們的具體結構和相關功能特別是對于蛋白質其不同的空間結構決定著不同的生物功能而前在分子生物學水平上對于蛋白質的分類絕大部分都是基于它們的結構或者功能因此對這些數據的分類預測工作顯得必不可少作為蛋白質中極為特殊重要一類的細胞因子必須通過對它們的原始序列做出高精度的識別和分類這一途徑才能準確了解各種未知類型細胞因子的結構和功能,從而使得人們能夠在分子水平上掌握各種相關疾病的本源,為生物學、醫(yī)學、病理學等相關學科提供巨大的幫助。20世紀0年代以來,隨著人類基因組計劃的順利進行直至完成,隨著遺傳物質研究工作的深入開展以及其它模式的生物信息的挖掘科學界己獲得了浩如煙海的基因DNA分子序列和蛋白質分子的氨基酸序列,呈現在人們面前的是幾乎以十個月翻一番的速率飛速增長的原始數據]。為了進一步的研究,人類迫切需要知道這些遺傳物質的功能甚至是每一個片斷對生命特征的影響,以此從分子學水平的角度上尋找疾病發(fā)生的本質為人類疾病的預防診斷和治療提供捷徑常用的基本方法就是通過生物學實驗的手工測定來獲取各序列結構和功能,盡管有小規(guī)模的批量處理方法],然而,當數據大規(guī)模地急劇增長時,批量處理方式己遠遠不能跟上這就變成了一項相當費時和昂貴的低效工作于是生物信息學(inomicS)應運而生。生物信息學是一門從理論角度用計算機學統(tǒng)計學物理學細胞生物學、化學等各類學科交叉而成的觀點,來研究海量的生物遺傳數據的交叉學科。作為新興的邊緣學科,它以計算機為主要工具,對DNA或蛋白質的序列、結構進行收集、整理、存儲檢索與分析,以幫助人們認識生命的本質達到揭示數據所蘊涵的生物學意義的目的如今生物信息學已在國內外成為實驗室常規(guī)技術之一,運用生物信息學方法來分析已知基因、蛋白質序列數據,預測未知功能,從海量的生物數據中發(fā)現規(guī)律提取有用信息避免了很多不必要的步驟指導生物學實驗,極大地節(jié)省了人力、物力和財力,縮減了時間的耗費。22 國內外研究現狀國內外各大生物實驗室很早就開始通過運用人工實驗的方法對各類基因和蛋白質的結構功能進行分類測定如前文所述隨著數據量的增大這類方法必不能勝任大批量規(guī)模的工作而上個世紀末興起的生物信息學方法的運用亦正逐步向成熟邁進國際上在生物信息學這一領域中的研究較國內稍早幾年對于蛋白質包括細胞因子家族的識別分類,近0年以來涌現出各種不同的方法和工第第一章緒論具其發(fā)展至今提出并己被廣泛接受的基本方法有好幾種如立足于統(tǒng)計學習理論之機器學習方法的,如隱馬氏模型(HddenMkovMode,HMM)2],人工神經網絡(ArlNeualNewok,ANN)3]等,這類方法取得了一定的效果但由于其對于有限樣本的處理具有很大的局限性使得發(fā)展停滯不前。同時一些基于相似度的序列比對型數據庫搜索工具如基本局部相似性比對搜索工具(asLoelAgmetsechoo,BLAST)6和ASA工具7等也已紛紛應用于實踐但此類方法只能局限于對具有同源性結構的序列進行識別和分類,而當面對相似度小的序列之時其優(yōu)勢便蕩然無存還有一些其他方法如演化分析算法(Evouon娜劫ays)89]基因蛋白質融合(Gee用oenFuon)1011],保守序列識別(MosReo即on)2等,它們在理論上達到了一定的成熟度,但實踐應用相對很少。Hung等人于2005年提出了基于支持向量機的細胞因子分類預測識別方法CTP[1,該方法提取二膚組成成分為特征,并同基于序列比對搜索方法的數據庫Pm作了比較,在細胞因子家族識別的層面上,其預測效果有一定的提升,但是,其未在細胞因子家族和亞家族分類的層面上同Pm作比較,所以無法知道家族和亞家族分類效果的好壞。2007年,Xu等人提出了基于支持向量機的細胞因子受體識別方法C0SVM],該方法綜合使用了諸如氨基酸組成(AmnoAedeompoon)、疏水性 (Hyophobey)、標準范德華體積Nomazed瓏nderasome)、極性(Po而y)、極化率(Pozby)、電荷(eh雌e)、表面張力(srceenon)、二級結構(Seeond娜Suere)、溶解性(seiAcosy)等多種特征提取方法,對細胞因子受體進行識別預測但由于該系統(tǒng)同其他相關系統(tǒng)或文獻作比較所以其效果的優(yōu)劣亦無法得知。2008年初,LaS等人提出了基于PSBLAST方法的細胞因子分類預測方法Cord1],該方法預測結果較好,但是對樣本的選取有較強的針對性,這體現在結果不是很穩(wěn)定即不同的樣本的可能會導致不同的結果所以該方法也存在一定的局限性。本文從氨基酸序列結構氨基酸物理化學性質等多角度出發(fā)對細胞因子采用多種不同的特征提取方法,來對其進行識別和分類預測,并同Hag等人開發(fā)的CTKred系統(tǒng)作一定的比較,并取得了較好的效果。第第一章緒論13 主要研究工作131論文的主要內容細胞因子的預測工作長期以來作為生命科學中基因和蛋白質的預測研究中一個子課題其重要性是不言而喻的本文采用了機器學習理論中較為年輕的支持向量機方法從特征向量提取方式這一角度入手多方面地對細胞因子的識別和分類預測進行研究其目的是為了尋找出一種或一些能夠很好地對細胞因子進行預測的方法和過程,并搭建平臺工具,以推動細胞因子的后續(xù)相關研究進程。論文的主要工作有以下幾個方面:)系統(tǒng)地描述了細胞因子這一類重要蛋白質的基本概念和生物信息學的產生背景與發(fā)展歷史概括地介紹了國內外的研究現狀著重闡述了近年來國內外最新的研究進展。)詳述了進行識別和分類預測工作所需涉及的理論知識基礎包括機器學習方法和統(tǒng)計學習理論,并闡釋了支持向量機的基本原理及其工作過程,并選擇了一種解決支持向量機的多類分類問題方法。同時還介紹了序列特征選取的原理和意義,及評價預測效果的驗證方法。)分析了傳統(tǒng)的特征提取方法氨基酸組成成分,實現了二膚組成成分特征方法,總結了兩者的優(yōu)劣特性。并且,在此基礎之上提出了氨基酸和二膚混合組成、二膚組成和長度特征的方法,另外還提出了一種基于氨基酸疏水特性的偽氨基酸組成特征方法將這三種方法同參考文獻1]的CTPd系統(tǒng)作比較發(fā)現二膚組成和長度特征的提取方法比CTKPd能更為有效地對細胞因子進行識別和分類預測。4)根據上述提出的三類特征提取方法,構建了eb服務系統(tǒng)CoKy,以提供服務。132 論文結構論文的內容結構安排如下:第一章緒論,主要介紹了本研究課題的目的和意義,闡述研究背景,并分析了國內外研究現狀,最后介紹了論文的主要研究工作。第二章相關理論基礎,詳細介紹了論文中需使用到的基本理論知識,包括機器學習方法理論統(tǒng)計學習理論,以及支持向量機方法理論;討論了支持向量機對于多類分類問題的解決辦法介紹了特征向量提取方法的原理,以及實驗結果驗證方法和驗證指標。第第一章緒論第三章基于多種特征的細胞因子預測研究,具體闡述多種特征提取方法的建模過程原理和相對應的實驗結果并做出一定的分析討論其中涵蓋了氨基酸組成和二膚組成這兩種傳統(tǒng)的特征提取方法的分析及新提出的多膚混合組成、二膚組成和長度特征、偽氨基酸特征這三種特征提取方法的實驗方法、同CTPd系統(tǒng)的對比結果。第四章eb服務系統(tǒng)發(fā)布詳細地描述了eb服務系統(tǒng)CoKy的開發(fā)目的、模型構建、系統(tǒng)結構流程和輸入輸出的處理過程。第五章總結與展望,對論文進行了系統(tǒng)的總結,分析了論文的創(chuàng)新之處和存在的不足之處;同時,還對進一步要做的研究工作進行了展望。第第二章相關理論基礎第二章 相關理論基礎21統(tǒng)計學習理論機器學習(McheLemg)是計算機科學中人工智能領域的核心內容,是智能技術的重中之重所謂的機器學習簡言之就是從一堆已知信息的有限的數據當中尋找規(guī)律形成一個模型然后利用該模型對未知數據進行識別和預測61。長期以來,對于機器學習方法沒有一個統(tǒng)一的數學理論,科學界存在著多種不同的機器學習方法如模式識別、貝耶斯網絡人工神經網絡等等這些理論歸根到底都是基于傳統(tǒng)的統(tǒng)計學。我們知道,傳統(tǒng)的統(tǒng)計學是一門漸進理論,它研究的是樣本數量趨于無窮大時候的情況,縱使現有不少的學習方法是基于此顯然在實際問題中樣本數量均為有限那些理論上很優(yōu)秀的方法終成紙上談兵尤其是面對一些小數樣本的情況傳統(tǒng)的統(tǒng)計學更是顯得手無縛雞之力。在物pnk等人的帶領研究下,統(tǒng)計學習理論(iialeanngThoy,ST)由此而誕生1],該理論直接針對有限樣本特別是小樣本情況下的機器學習規(guī)律從此機器學習領域進入了一個新的時代統(tǒng)計學習理論為機器學習方法構建了一個完整的理論框架并且在不斷地完善和進步之中對于原先遺留的一些疑難雜癥如神經網絡結構選擇局部極小點等問題都將有望得到解決。同時物pnk一行提出了支持向量機(SuppoteeorMaehnesVM)這一新穎的機器學習方法83]更是對統(tǒng)計學習理論的錦上添花近年來支持向量機已在人工智能方面的模式識別領域,多用于仿真和對比試驗5],如文本識別、人臉識別遙感圖像分析等等多個領域發(fā)揮越來越重要的作用極大地推動機器學習的發(fā)展16]。.2支持向量機理論支持向量機概括地說它是一種分類工具是一種建立在統(tǒng)計學習理論基礎之上的機器學習方法通過用已知數據對其進行訓練它可以動尋找那些能最大程度區(qū)分樣本的數據,構建出模型,再通過該模型來對未知數據做出分類1]。SVM具有良好的泛化能力,所謂的泛化能力,就是指一種機器學習方法,對具有同一規(guī)律的學習集(也叫訓練集)以外的數據仍能進行正確響應的能力,也就是學到隱含在數據背后規(guī)律的能力也稱作推廣能力尤其是對于優(yōu)先樣本第第二章相關理論基礎或小樣本,SVM 具有較高的分類準確率等特點。當今時期,在模式識別、回歸分析、概率密度估計等相關領域,都少不了SVM這個重要工具,可以說,SVM已成為一種通用流行的機器學習方法。SVM集中了以下三大方面的優(yōu)點:()因為SVM特別針對了有限樣本情況下的訓練學習,所以,同傳統(tǒng)的統(tǒng)計學中,樣本數量趨于無窮大時的理論最優(yōu)值相比,SVM能得到確實存在的最優(yōu)解,這并非一個可望而不可及的數值。)將數據通過非線性變換轉換到高維的特征空間數據的信息用特征空間中的向量來表示,低維空間中線性不可分的數據在高維空間中變得線性可分,然后構造一個線性的判別函數便可分出樣本,大大降低了運算的復雜度。)SvM算法的根本是二次尋優(yōu)問題,巧妙地回避了神經網絡中難以解決的局部極小值問題,從而得到全局最優(yōu)解。21機器學習基本問題為更好地理解SVM的原理和過程,首先介紹一下機器學習的基本問題。機器學習的目的是根據已知訓練樣本做出估計使其能較好的描述某個系統(tǒng)輸入與輸出之間的依賴關系,從而盡可能準確地對未知樣本做出預測。設有n個獨立同分布樣本,如式2)所示:必xn凡) 2)其中,每個樣本的變量x和y分別表示該樣本的輸入和輸出,通過在一組函數fx}中求一個最優(yōu)函數fx%}對x和y的依賴關系進行估計,目的是使得期望風險泛函(2)達到最小。fF) )這里,(x}稱為預測函數集它可以用任意函數集來表示,。是函數的廣義參數,(fx)是損失函數,它表示用預測函數fx)對輸出結果為y的樣本進行預測而造成的損失,Fx)是變量x和y的聯(lián)合分布函數預測函數是機器學習的核心,也稱作學習模型。機器學習基本問題可分為模式識別、函數逼近和概率密度估計這三類1],本文所研究的細胞因子分類預測屬于模式識別領域在模式識別問題中樣本的輸出y是分類標志,對于最基本的二類分類,y被定義為y=O}或y=l},此時的預測函數又稱為判斷函數,損失函數可以定義為式(2):0y=fx)yfx) 23)第第二章相關理論基礎211經驗風險最小化人們發(fā)現,僅憑式(2)所含有的信息,無法使得式(2)的()達到最小。在傳統(tǒng)的解決辦法中,采用經驗風險最小化(Emcl形kMimin,E枷)原則]用樣本定義的經驗風險泛函娜勸來替換()作為對式(2)的估計。從式(2)可以看到,ERM實際上就是使損失即錯誤達到最小。1聲_P卜乙L戈ni f) 24)但是這種用ERM替代期望風險最小化的方法并不合理,長期以來從未經過充分的理論論證,隨著不斷地應用,其弊端也日漸凸現。一方面,ERM 原則是在樣本容量趨于無窮大時對期望風險的逼近才有相對較好的結果而絕大多數的統(tǒng)計學習理論實際問題,都是小樣本情況下的機器學習,即使有大容量樣本,也離無窮大數相去甚遠。另一方面,是過學習”現象,即,當使P動最小時卻并不總能獲得最好的分類效果有時候甚至會使效果變差人工神經網絡的在這方面的不成功便是一個典型的教訓,因為)過小很可能會導致模型的推廣能力下降,也就是所謂的真實風險”的增加。具體地說,用越復雜的模型去擬和一個有限容量的樣本能達到的擬和效果越好其極端情況就是記住了每一個樣本,此時,經驗風險能夠迅速收斂至最小;然而它對未知樣本的預測能力即推廣能力卻越不理想一個經典的例子就是用函數fx喲=(o)(。是待定參數)去擬和一組y取值在]上的實數樣本x對0],這里,總能找到一個使cP動為零的。,但顯而易見該正弦函數并不能代表該樣本模型。另外,ERM 原則還受到噪聲的影響,如在有噪聲的情況下,將一組樣本x擴}分別用一次函數和二次函數去擬和多次重復試驗結果卻顯示一次函數獲得的分類效果較好11。由于樣本模型的復雜性與推廣能力這一對矛盾的客觀存在,近幾年來ER1方法逐漸為人們所摒棄。2212結構風險最小化基于ERM統(tǒng)計理論學的專家學者們提出了結構風險最小化(urlIkMnmzon,sRM)原則15]。在此涉及到兩個概念:VC維和推廣性的界。對于ve維(物pnkehevoneksDmenon),目前最流行的通用定義是模式識別中的直觀定義:一個判斷函數集中的函數,能把一個容量為n的樣本集按照所有n種形式分開的最大n值,稱為該函數集的vc維71]??梢?,VC維代表了函數集所建立模型的復雜度模型的復雜度越大其學習能力也越強。前面的例第第二章相關理論基礎子中,函數fxa)(o)的VC維是無窮大。推廣性的界,簡言之,就是經驗風險和實際風險之間的關系在分類問題最基本的兩類分類問題中統(tǒng)計學習理論得出了一個重要的結論:對判斷函數集內的一切函數經驗風險和實際風險至少以1粉的概率滿足式(25)]:hZn/h)+)/4)R))+ 25)n式中,(動是實際風險,R,動是經驗風險,h是函數集的VC維,是樣本數,hnZn/h)+)/4)是置信范圍。該公式很好地解釋了產生過學n習現象的原因,在使經驗風險達到最小的過程中,學習模型的復雜度越高,即VC維越高時,置信范圍增大,實際風險與經驗風險之間的差距在一定程度上就會越大。所以,機器學習過程需要同時降低經驗風險和縮小置信范圍。SRM原則就是充分考慮了以上兩方面因素的一個良好策略(圖21)。它將預測函數集重新構造為一個按照各自VC維大小排列的函數子集序列在每個子集中求出最小的經驗風險值然后尋找出經驗風險和置信范圍之和最小的那個函數子集這樣得到的實際風險必然最小理論上該方法完全可行,而事實上,由于當函數集很龐大時求每個子集的最小經驗風險是一項較費事的工作所以科學界提出了另一種解決辦法在設計函數子集時使得每個子集都能取得相同的最小的經驗風險,如令其為零這樣只要選擇置信范圍最小的那個子集中、取得最小經驗風險值的函數作為最優(yōu)的判斷函數即可而這種方法的具體實現就是下面將要闡述的支持向量機。置信范圍瞿經驗風險VC維圖21結構風險最小化原理第第二章相關理論基礎222 支持向量機原理在最基本的二類樣本分類問題中,傳統(tǒng)的線性可分情況如圖2所示對于分別用黑圈和白圈表示的兩類樣本,H是最優(yōu)分類線,拭,從是平行于H且通過所在類中離H最近的樣本的直線。拭,叢之間的距離稱為分類間隔(Mgn)。H之所以被稱為最優(yōu)分類線,是因為它能將兩類正確分開,且使Mgn最大181。margn~2/}二I圖22線性可分情況設分類直線方程為:x口十b二0 26)要能正確分開兩類,將其進行歸一化處理,使其滿足:毋)+b]10,i=一n 27)其中,i),=n是線性可分樣本集。此時,Mgn為/。},要使其最大等價于使。/2最小,即:Mn。/2 28)同時滿足(27)(2)兩式的分類直線就是最優(yōu)分類線另外通過私HZ的樣本點稱為支持向量它們是做出正確分類的關鍵樣本點換句話說即將樣本集中的所有其他樣本去掉以后僅憑這些支持向量仍能對樣本做出準確的分類。以上是二維的分類情況,當推廣至N維時,根據統(tǒng)計學習理論1],設樣本分布于一個半徑為R的球體內,滿足條件。A的平面構成的判斷函數集fx)gn{必)},其VC維須滿足式(2),這是一個求最優(yōu)分類面的問題。mnAN)+1 29)于是使z2最小又等價于使vC維上界最小從而通過SRM 原則來第第二章相關理論基礎實現對函數模型復雜度的選擇利用拉格朗優(yōu)化方法將求最優(yōu)分類面問題轉化為對偶問題:r藝t)=1 ,代之0,i=一n210)lyiai式中是每個樣本對應的拉格朗日因子由于這是一個不等式約束條件下的二次尋優(yōu)問題,所以必有唯一解,而且解中有少部分對應樣本是支持向量的,它們值不為零。解得最優(yōu)判斷函數(也稱最優(yōu)分類函數)如下:fn+n藝+} 211)由于前述的支持向量的特點SVM實際上是通過支持向量而做出正確分類的)所致,式(21)可以只對支持向量進行求和,即*號所表示的都是支持向量的參數,其中*是閩值,可用支持向量由式2)取等號求出。當樣本線性不可分時就需要考慮兩方面內容一方面要使被錯誤分類的樣本數盡可能地少,另一方面又要使得分類間隔達到最大為使兩者達到平衡,引入一個松弛因子,將式(2)改進為如下形式:)+b]l+或o,i=一n 22)氦O是松弛因子,于是,式2)變?yōu)?Mn02+C藝參 213)其中,C稱為懲罰因子它是一個大于零的常數含義為對樣本被錯誤分類而進行懲罰的程度。在這樣的情形下,式(20)中的范圍變?yōu)閘。當然,在現實生活中的大多數情況下,樣本的分布基本上呈現非線性規(guī)律,在傳統(tǒng)的處理方法顯得頗為棘手之時,SVM 方法便脫穎而出。基本思想是,通過某種變換將低維空間(歐式空間)中的非線性問題轉化為高維空間(希爾伯特空間)中的線性問題,這樣便可將問題歸結為傳統(tǒng)的線性情況來處理。然而,直接將樣本數據從低維空間轉向高維空間再作處理將是一個浩大的計算過程很可能會導致維數災難”問題的發(fā)生。但天無絕人之路,通過觀察式(2)和(21)可知,從低維向高維轉換并在高維空間中尋找最優(yōu)超平面時,其核心只是針對樣本之間的內積運算,即映射,戈)分叫)拭j)。根據相關的泛函理論只需找到滿足Mer條件的內積函數Kj))武j,就能將其變換為高維空間中的內積形式]。此時,式(21)變?yōu)?第第二章相關理論基礎” )式(24)就是高維空間中的判斷函數(分類函數),也即最優(yōu)分類面,是VM 的核心內容。內積函數K凡)也稱為核函數,它是使樣本空間能夠低維向高維轉換的關鍵??梢钥吹剑瑢嶋H上SVM是對樣本在低維空間中處理的結果(內積)作了一個非線性變換,使得大量的計算工作在低維空間中得以完成,極大地降低了計算的復雜度,避免了潛在的維數災難”問題的發(fā)生。圖3是SVM 的降維原理,這里,低維空間又稱為輸入空間,因為它是樣本的輸入口;而高維空間又被稱為特征空間,因為對樣本做出分類是基于樣本的特征信息的,這也是模式識別的根本原則。lpta心R公 c民S況公}IK(X、》~ 會》圖23通過內積函數將樣本從輸入空間映射至特征空間在此通過一個簡單的例子來表明內積核函數的作用過程假設通過式(2)定義的函數變換,實現二維空間至三維空間的轉換,即護崢護。不)湯) 215)LxZL2:夕L凡 」[凡 」 216)一 2于是,二維的非線性情形便轉化成三維的線性可分情形,如圖24。第第二章相關理論基礎戶x、了嗡加 眾圖24二維到三維的過程在SVM中起到關鍵作用的是核函數,核函數不同,形成的SVM算法也不同前國際上流行的主要有三類核函數他們分別是徑向基核函數(RdlBssFneons)(217)多項式核函數(po”oma)(218)及感知器核函數(5腳od)(29)。其中徑向基核函數由于其具有普遍好的分類效果,使用頻度較其他核函數高。另外還有線性核函數(ier),由于它的結構較簡單而不常被使用。x川,Kx)exP(2r2 27)“ 218)Kxy)=Zxy)+c) 219).23 多類分類問題支持向量機能對樣本進行二類分類而實際問題中大多數的情況是存在多類的樣本針對該問題人們提出了多種不同的解決辦法如一對一方法(1v)2]一對多方法(lvr)22]直接非循環(huán)圖法(DAGSvM)23等。目前,前兩種方法因其能獲得相對較好的效果,使用較為頻繁。假設一個樣本集中有k類樣本,且樣本數量為n,一對一”的方法是,為這k類樣本兩兩構造出所有的SVM 分類器,即每個SVM 可以區(qū)分出特定兩類的樣本,這樣總共可以構造kk2個SVM,然后采用一種稱為投票”的機制來對樣本的做出分類。如圖25所示,將每個樣本用kk)2個SVM逐一進行分類,對分類結果做出投票。例如,對于第i類樣本,共有k1個SVM 能將其正確劃分在剩下的(k/2k)個SVM中能區(qū)分任何一個類別的SVM總數小于k1,也就是說,就算它們全部將樣本i錯分為某一非i類別,所得票數也是類別i最多,于是,根據投票的結果就總能將第i類樣本正確地劃歸為類別i。第第二章相關理論基礎個樣本 第2個樣本 第n個樣本SSMII SVMZZ SVMkk班別11 類別22 類別kk圖25v1方法的投票機制一對多”方法較一對一”方法使用得要早些,其原理是,對于k類樣本構造k個SVM分類器,用來區(qū)分k類樣本中的每一類和剩下的那些類,實際上也可看作將樣本分為兩類,然后也是用投票機制得出結果。雖然1vr方法要比v1方法少構造(k/2k個SvM,但是其存在嚴重的問題,因為該方法將樣本分為數量很不平衡的兩類,這是SVM的軟肋,會極大地影響分類效果,導致分類結果偏向于數量多的一類,而數量少的一類準確率大大下降。同時,與vr方法相比v1方法盡管在SVM分類器數量上占劣勢但是每個SVM所承擔的樣本數量比vr方法少很多,省卻了大量的運算時間,所以總體消耗時間相差無幾,甚至比vr方法要少2]。本文用SVM對四類細胞因子家族及六類亞家族進行的多類分類,采用的是一對一”的分類方法。24特征的選取人在辨別或是區(qū)分一件物體的時候依靠的是該物體的特征如顏色形狀、材質用途等等一切可以用來表征該事物的特點那么如同人類區(qū)別物體的原理一樣假使要對樣本做出正確的分類關鍵在于要抓住樣本的特征該特征必須是在同類的樣本中普遍相同而在非同類的樣本之間存在較大差異于是就可通過每一類樣本之間不同的特征來達到識別或是分類預測的效果對于細胞因子人們通過基因組計劃已經知道了大量的原始數據這些數據以氨基酸序列的形式呈現在我們面前我們唯一可以利用的就是這些氨基酸序列從序列的角度入手,從中提取出特征。當然計算機是不能如人類一般直接接受宏觀抽象的定性信息的輸入計算機的必須是定量的數據所以還需要把提取出來的特征以數字化形式表示出第第二章相關理論基礎來為計算機所接受這個過程又稱為特征編碼簡言之特征編碼就是從氨基酸序列中選取某些相關信息,將其用數學的方法表達出來,這樣才能作為SVM的輸入數據特征提取的關鍵就是要使得所選用的信息能正確反映氨基酸序列同細胞因子之間的關系。現今科學界廣為討論的蛋白質信息提取方法主要有兩大類一類是傳統(tǒng)的方法它們僅僅將關注點停留在基本氨基酸序列的層面上將序列看作簡單的長字符串,從字符串角度來進行特征的提取和編碼,包括氨基酸組成成分方法2]、二膚組成成分方法25]、多膚組成成分方法5]、嫡密度特征提取法2]等。另一類方法融入了生物學特性它們將氨基酸的物理化學性質加入到特征提取的考慮范圍之中也就是并不將序列看作普通的字符串而是更多地考慮了具有特定理化性質的氨基酸的位置或頻度特征如偽氨基酸特征提取法268、相關函數法0]、準序列次序特征法川等。這些方法在基因和蛋白質分類過程中皆被廣泛地使用著。本章介紹了氨基酸組成成分方法并實現了二膚組成成分方法同時提出并實現了氨基酸和二膚混合組成方法二膚組成和序列長度特征方法及基于氨基酸疏水特性的偽氨基酸特征方法。23 性能評價方法介紹31驗證指標衡量一個系統(tǒng)或者說是一個方法的優(yōu)劣需要有各種參數指標來表示這樣可以跟其他系統(tǒng)和方法作對比,使人對其性能、效率一目了然。目前,有多種指標可以用來表示分類預測研究領域的實驗結果,最基本、最常用的有準確率(Aeeuaey)(220)敏感度(Senvy)(221)特異性(speeey)(222),馬修斯相關系數(MthewsCoeonCoeieen,MCC)(223)這四個指標。tP+tnAccuracy二 220)P+戶+n+ntPSensv沙= 221)P+nt刀Pecc沙二n+戶 222)第第二章相關理論基礎CC Pxn戶xnP+nP+戶n+nn+戶) 223)其中PnPn分別表示真陽性(uepoe)真陰性(uenegve),假陽性(epove)假陰性(enegve)準確率即通常意義上的準確度,就是被準確判斷的樣本數量占所有樣本數量的比例;敏感度體現的是系統(tǒng)對正樣本的辨別能力;特異性體現的則是系統(tǒng)對負樣本的辨別能力;馬修斯相關系數則用來適應不平衡數據集的情況這四個指標參數已被公認為能很好地衡量出一個機器學習方法的性能優(yōu)劣)。232 驗證方法對于實驗結果的驗證本文采用的是交叉驗證方法在機器學習領域,K折交叉驗證方法(KolCgadin)由于具有客觀和嚴謹的特性,因此在學術界常為人們所推崇。其原理是,指定參數K后,將樣本隨機分為K等份,依次用其中的一份作為測試集剩余的K1份作為訓練集用訓練集進行訓練,結合所得分類模型再對測試集進行分類測試如此循環(huán)K次后使得每一等份都輪流做過訓練集和測試集,由此便得到準確率最高時SVM 中分類函數的最優(yōu)參數。有三種常用的交又驗證方法它們是Leveoneot(Loo)法ndependentDat法,和Seconcy法6]。下面分別作簡要介紹:)LOO法又稱為Jckke法。假設樣本集中含有M 個樣本,輪流將每一個樣本作為測試集,將剩下的M1個樣本作為訓練集進行反復的訓練和測試,由此得到最優(yōu)參數下的準確率。可以發(fā)現,LOO 法實際上是K折交叉驗證方法的極端情況,即它是折數為樣本數目M 的K折交叉驗證方法。2)neenetDst法。顧名思義,該方法是在構建沒有交集的訓練集和測試集的情況下,用訓練集對系統(tǒng)進行訓練,再用測試集進行分類測試。eenetDst法客觀有效,直接體現了系統(tǒng)對于未知數據的預測能力。3)e-ostny法。該方法采用一個數據集對系統(tǒng)進行訓練后,仍然用該數據集進行分類預測。它考察一個系統(tǒng)所生成的模型是否會偏離訓練集數據,能夠最大程度地體現出系統(tǒng)的穩(wěn)定性本文同時采用了這三種交叉驗證方法從多角度來檢驗不同特征下系統(tǒng)對細胞因子的預測能力。第第二章相關理論基礎.4 本章小結本章詳細地介紹了進行細胞因子識別和分類預測時所需要的相關基礎理論知識和實驗方法工具包括機器學習理論統(tǒng)計學習理論和支持向量機方法在面對有限樣本和小樣本時,統(tǒng)計學習理論的支持向量機方法體現出了卓越的優(yōu)勢,這是本文選擇了支持向量機作為細胞因子識別和分類預測工具的重要因素。同時本章也對構建系統(tǒng)所將要涉及的問題及相關概念如多類分類的解決辦法特征向量交叉驗證等作了必要的闡述在傳統(tǒng)廣為流行的v1方法vr方法、DAGSVM方法中,經多方面斟酌選擇了v1方法。下一章,將采用各種交叉驗證方法來對各種特征提取方法下的系統(tǒng)性能進行測試和研究。第第三章基于多種特征的細胞因子預測研究第三章 基于多種特征的細胞因子預測研究31數據集及各基本方法的選取311用于細胞因子識別的數據集細胞因子識別是指系統(tǒng)區(qū)分出該蛋白質是否屬于細胞因子的過程實際上它也是一個分類的過程—將蛋白質劃分為兩類:細胞因子和非細胞因子即正樣本和負樣本。本文用于訓練和測試的數據集中所采用的細胞因子序列均從hpcoemd.ummocjp下載,使用與CTPd相同的樣本集,這樣便能夠與CTKPd系統(tǒng)作性能比較。在下載的數據集中隨機抽取110條序列作為細胞因子家族識別的數據集,它包括47條細胞因子序列組成的正樣本集和63條非細胞因子的蛋白質序列組成的負樣本集。然后,按照通用的2比例1大致劃分出訓練集和測試集,本文中正負樣本的訓練集中包含0條細胞因子序列和20條非細胞因子序列,余下序列則劃歸為測試集。312 用于細胞因子分類的數據集本文中細胞因子的分類,包括家族和亞家族的分類。如圖31所示,47條細胞因子序列包含了FGF沮BGFL6MD/PTNLFOSMNGFTGFBea、TNF這七類,它們的樣本數分別是83、22、0、2、24、190、96。由于L6、MD幻PN、I/OSM、NGF這四類的樣本數特別少,對SVM 的分類效果會產生一定的影響,將該四類合并為一類,名為oidss,含有8條序列,縮短了其他類別在數量上的懸殊距離保持了樣本一定的平衡性。同時這樣做也是為了保持與CTKPd有相同數量的各類樣本集,形成可比性對于FG/HBGF、otcas、TGFBa和TNF這四類的練集劃分,同樣按照12的比例進行,分別為0、5、5、5條,剩余的序列作為測試集。190條TGFBea亞家族序列可以劃歸為BMPGDFGDNFNHTGFbea、ter這樣六類,其中thr類也是對樣本集做平衡性處理,而將其他小數目類別的樣本劃歸為一類。TGFBa亞家族的測試集樣本數目分別為13、9、6、8、10、0,剩余序列作為測試集。第第三章基于多種特征的細胞因子預測研究〕I 一{I一 l 諭 }!漏 }廠護刁自蘭應臼應白應西習圖31細胞因子家族分類層次關系,1, 日匕土七下里+nr.曰右,J.1.J 二寸L月里刃曰匕于資匕已迄今為止已經有不少科學家著手實現了各種不同版本的支持向量機包括使用CJvaPon等編程語言開發(fā)的各種工具包它們能在idowsinx等不同環(huán)境中運行。目前,國際上主流的SVM工具包主要是SVMhgt和LbsvM這兩種。其中,SvMgt由美國康奈爾大學honocms教授于98年開發(fā);而ibSVM由臺灣大學林智仁副教授開發(fā),其版本經歷了最初的于2001年研發(fā)的LbSVM232,到后來的LbSVM261LbSVM281直至最近今年十月發(fā)布的ibSVM28。發(fā)布相對較晚的ibSVM具有簡單易用、快速高效的特點,它綜合了SVMgt算法和由pt提出并經Kehy修正后的序列最小優(yōu)化(SequenalMnmalopmzonSMo)算法;并且功能齊全涵蓋了分類]題(包括CsVC、nSVC)、回歸問題(包括eSVR、nSVR)以及分布估計(oeeaSVM);同時,它在很多地方比oahms的svMght算法要考慮得周到細致,如引入ikg機制等。雖然SVMgt由于實現地較早而比較粗糙,但是ocms首先提出了這些機制的思想,為后來SVM算法的發(fā)展奠定了重要的基礎?;趇bSVM的以上優(yōu)點,本文選用ibSVM21工具包作為細胞因子識別和分類預測研究課題的基本預測工具。ibSVM1的源碼可從p.eeueduw八n下載。314 參數及驗證方法的選取經大量的前期預實驗研究發(fā)現當SVM選用RBF核函數時對于細胞因子序列數據的分類效果最佳這也是同前學術界對于支持向量機核函數選擇的研究結果相符合的1]。同時還發(fā)現,在懲罰因子取值為00時,識別和分類預測的準確率相對達到最高。因此在下文的多種特征提取方法的驗證研究中所有結果都以這兩個參數為前提條件同時本論文采用國際公認的最為有效和客觀的LOO法ndependentDaaet法和seConeney法這三種交叉驗證方法,第第三章基于多種特征的細胞因子預測研究對細胞因子的分類結果進行分析和討論。12多種特征編碼的實現基于支持向量機的細胞因子分類預測在不同的特征提取方法下即在采取不同的特征編碼時會產生不同的結果本節(jié)首先簡要介紹氨基酸組成成分和二膚組成成分這兩種基本特征編碼方法,然后將詳細介紹氨基酸和二膚混合組成、二膚組成加序列長度和偽氨基酸組成這三種特征編碼方法以及基于以上方法對細胞因子分識別和分類的預測驗證結果,并作一定的比較。321氨基酸組成成分特征蛋白質的多級結構折疊信息與組成蛋白質的氨基酸殘基的排列方式有著明顯的關聯(lián)性不同的折疊方式形成不同的多級空間結構決定了蛋白質的不同功能。因此,以蛋白質序列中氨基酸殘基的組成成分,或者稱為氨基酸組成成分(AmoAcdcomot)作為特征,對細胞因子進行分類是具有一定的可行性的。這種特征提取方法曾被廣泛地用于蛋白質的亞細胞定位研究521。設A=ARNDCoEGHILKMpFST砰YV}為20種基本氨基酸構成的集合,集合中各字母是0種氨基酸的簡寫,特征向量表示為以下形式:)=AT,。Ai=N 3l)a表jV,示氨基酸a在該序列中出現的頻率,N表示數據集中細胞因子序列的數目T是矩陣轉置。由此可知,每一條序列可構成一個0維的特征向量。將這些特征向量輸入SVM進行訓練,然后用產生的訓練模型對待測細胞因子序列數據進行分類,從而達到預測的效果?;诎被峤M成成分的特征向量提取方法,其分類預測效果并不理想2],這是因為該方法所采用的特征向量含有的信息量相當地少,只有20個分量,并且它只是簡單地獲取了每種氨基酸在一條細胞因子序列中的相對含量而沒有綜合考慮各種氨基酸在一條序列中的位置順序信息和其它一些相關的藕合信息。322二膚組成成分特征雖然基于氨基酸組成成分的特征提取方法其計算較為簡便但由于包含的第第三章基于多種特征的細胞因子預測研究信息量過少的緣故導致其分類效果不佳而以多膚組成成分為基礎的特征向量提取方法,充分地考慮了氨基酸之間的位置順序所帶來的信息2]。同氨基酸組成類似該方法也是將各不定長蛋白質分子的氨基酸序列轉化為一個具有固定維數的特征向量。由生物學基本概念可知膚Ptd)是由兩個或兩個以上氨基酸相互脫水并以膚鍵相連而形成的一種蛋白質序列片斷的統(tǒng)稱對于一個由n肚組成的膚鏈,第i個細胞因子序列的特征向量可表示如下形式:AAA) e一lAVV)仇 l外一 n)nl nl 3-勺VAA) V) 沙價任AA j=n =1…Nao一n其中aa價nn)二 表示膚鏈l氣價nn在第Nn)i條細胞因子序列中出現的概率,由此可知,每條序列可構成一個0x2維的特征向量。顯然,對高階膚組成成分的分析將非常復雜,隨著n的增大,數據的計算量將以冪級數增長;同時,由于越長的膚鏈在一條序列中出現的幾率越小,零值噪聲也急劇增大,甚至會掩蓋了有用的信息2]。所以,通常取n為2的情況也即以二膚的組成成分(npepdeCompoon)為特征向量此時式(32)可表示為:e) AV)A) FF)0 33)仇 a氣)線2任AA,i …N這是一個40維的向量,二膚組成成分方法既包含了20種氨基酸的含量信息又包含了它們在細胞因子序列中的相互位置信息;同時該方法的計算量不大并且零值噪聲干擾極小經多方面相關研究表明該方法確實是一種較有效的蛋白質分類預測方法248]。二膚組成成分的含量計算方法由下式給出:na2)(oo)二 藥氣任月 34)L一1其中a2是40種二膚組合中的任一組合Fla)表示二膚aoZ的百分第第三章基于多種特征的細胞因子預測研究含量(rco,表示aaZ在當前這條細胞因子的氨基酸序列中的所含數量,L表示序列長度,也即氨基酸總數,L1表示該條序列中所有可能的二膚數目。3221實驗結果及分析較HungNi等人提出了以二膚組成成分為特征提取方法的細胞因子家族分類識別系統(tǒng)CTP[1),其結果比使用隱馬爾可夫模型(HMM)方法的Pm要好。本研究中還原重現了Hungi等人提出的二膚組成分類方法,結果基本同其一致表313233分別為細胞因子家族識別細胞因子家族分類及TGFBa亞家族分類的交叉驗證結果(其中Ac,MCC,n,Sp分別表示sucy,Mee指標,senvy,speeey)。為形成對比,各參數與文獻3]同,選用gmma值為00的徑向基核函數(BF)懲罰因子c取值00對因子家族的識別采用二折交叉驗證家族分類采用七折交叉驗證從表中可以看到兩者的實驗結果相差無幾同時也很好地說明了二膚組成成分這種特征分析方法已具備一定的成熟度和穩(wěn)定性。表31基于二膚的細胞因子家族識別的驗證結果。Aee MCC Sn SPCyoKey 9585% 091 9335% 9747%CTKPed 9530% 090 9250% 9720%表32基于二膚的細胞因子家族分類的驗證結果。CTKPreddFamy Aee MCC Sn SPP Aee MCC Sn SPPFGFHBF 9771% 092 8916% 9972%% 9750% 092 9270% 9860%%JJnteass 9702% 089 9412% 9755%% 9840% 094 9100% 9970%%TGFBea 9633% 093 9789% 9512%% 9580% 092 9740% 9470%%TNF 9748% 093 9158% 9912%% 9770% 094 9400% 9880%%表33基于二膚的細胞因子亞家族TGFBea分類的驗證結果。Ky } KdFamy ACC MCC Sn SP ACC MCC Sn SPBMP 9101% 07 9783% 8881% 8600% 00‘ 8750% 8550%GDF 9195% 7419% 9304% 9300% 8240% 9520%GDNF9665%9286%9884%9800%7500%10000%NH9894%3750%10000%9200%4670%10000%TGFBea 9942% 9667% 9477% 9900% 10000% 9890%Oher 8836% 5938% 9427% 8400% 6670% 8950%第第三章基于多種特征的細胞因子預測研究323氨基酸和二膚混合組成成分特征前文321和322兩小節(jié)分析討論了兩種經典的特征方法本小節(jié)開始對本文新提出的特征方法進行研究,同時將結果與Hung等人開發(fā)的CTPd預測系統(tǒng)作比較和分析。顧名思義所謂的混合組成成分,即混合使用氨基酸的多膚組成通過加大信息量的方法來促進系統(tǒng)對序列數據的分類效果本小節(jié)混合使用氨基酸組成成分和二膚組成成分這兩種特征向量提取方法,在含有0維的氨基酸組成所形成的特征向量之后再添加一個含有40維的二膚組成所形成的特征向量于是,一條細胞因子序列可以轉化為一個具有420個分量的特征向量該方法涵蓋了一膚(氨基酸組成)和二膚的信息,而計算量同二膚組成方法相比只是增加了0個維度,基本沒有變化,所以不失為一種可行的預測方法。3231細胞因子的識別論文采用了Loo法、ndpndentDst法和SeConeney法這三種目前較為流行的測試途徑對該方法進行了交叉驗證。圖32是用混合組成方式選取了不同g~a值的LOO法驗證結果,由于數據量較大這里選用較為有代表性的準確率(Acrcy)來作為驗證標準圖33是該方法的不同g~a值的dPneiDst法驗證結果表35是一致性測試的驗證結果。圖32中可以看到gmma為0時準確度最高接近于CTPd的53%;圖33沒有CTPed的值高這是因為ndependentDat法使用的是未經過機器學習”的測試集,而CTKPd使用的交叉驗證是對已學習過的樣本集進行預測,故準確度相對要高。表34是gamma取值00時SeConeney法的驗證結果,結果表明,該方法能對已學習過的樣本集做出完全正確的識別,具有較好的穩(wěn)定性。第第三章基于多種特征的細胞因子預測研究呂 字 盡 另 8 月 字圖32基于混合組成的細胞因子識別,不同gamma值的LOo法驗證準確率求心CoK盯民 尋 盡 品 8 呂 尋圖33基于混合組成的細胞因子識別,不同gamma值的nd叩endentDaaet法準確率表34基于混合組成的細胞因子識別,sefConency法,gamma=ooFamy ACC MCCCyokne ]0000% 100 10000% 10000%3232細胞因子家族的分類同樣本文采用了上述的三種交叉驗證方法對采用混合特征提取方法下的細胞因子家族分類效果進行了驗證。圖34是選取不同gmma值的四類細胞因子用LOO法進行驗證的結果。從圖中可以看到,系統(tǒng)對FG/HBGF類(圖)和TNF類(圖)的分類準確率要高于CTKPed,對TGFBea類(圖e)分類的準確率略低于CTKPed的結果,其值相差了02個百分點左右但是iss的分類效果比CTKPd低了近15個百分點。也就是說,采用混合特征方法時對細胞因子家族除otdss這一類稍有偏差之外,基本上能達到較好的分類效果。圖35是選取不同gmma值的四類細胞因子用dPnetDst法進行驗證的結果。由于CTKPd系統(tǒng)未采用該驗證方法進行驗證,所以無法得知第第三章基于多種特征的細胞因子預測研究CTPed的ndependentnaet法驗證結果。由圖可知,d叩endentDset法驗證所得的準確度要低于普通的交叉驗證方法。表35是g~ a取值10時e-Cnecy法的驗證結果。結果表明,該特征方法對細胞因子家族分類預測的穩(wěn)定性很好。980 985979山 980978977 97乃976975 970974 — \ %乃\ 一一/\ \973972 %0呂 字 8 昌 8 目 尋 呂 字 8 昌 8 呂 導Gan1日 Cm.a) b)960 97名955 977﹄ 刃 976950 8﹄9759j97497397297.1: 970呂 字 3 霓 8 呂 導 G山n曰 C曰e) d)圖34基于混合組成的細胞因子分類,不同gamma值的LOo法驗證準確率0297 o“一 //一 \一 \ /~~一~~導 盡 易 8 宕 呈 導 啟 8一 Ganlr日、 b)70 90盯 o曰工二引窩 字 盡 呂 8 宕 字 窩 字 盡 呂 8 呂 字G田.Ue) d)圖35基于混合組成的細胞因子分類,不同gamma值的ndePendentDaaet法準確率27第第三章基于多種特征的細胞因子預測研究表35基于混合組成的細胞因子分類,sereonseny法,gamma=ooFamy ACC h1CCFGF/HBGF 10000% .n 10000% 10000%JontC韶S 10000% 10000% 10000%TGFB 10000% 10000% 10000%TNF 10000% 10000% 10000%3233細胞因子TGFBa亞家族的分類對于TGFBa細胞因子亞家族,論文同樣采用了三種交叉驗證方法,對該混合成分特征方法進行了驗證。圖36是亞家族的各類細胞因子在不同g~ a值下LOO法驗證結果其中,BMP類(圖a),GDF類(圖b)NH類(圖d)和Oher(圖f)類的分類效果明顯地優(yōu)于CTKPed,只是TGFBea類(圖e)稍有偏差,而對GDNF(圖)的分類也不差,只同CTKPd相差05個百分點左右。圖37是TGFBea亞家族在不同gm a值下的ndpndtnat法結果,并同CTKPed的結果作了比較。表36是gm a取值100時的SeConeney法結果,結果表明,對細胞因子亞家族的識別同樣也具有較高的穩(wěn)定性。表36基于混合組成的亞家族分類,sefConeny法,gamma=0oFamly Ace MCC Sn SPBMP 10000% 100 10000% 10000%GOF 10000% 100 10000% 10000%GDNF 10000% 100 10000%
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 物理-山東省淄博市2024-2025學年第一學期高三期末摸底質量檢測試題和答案
- 小學一年級20以內數學口算練習題大全
- 廈門第一中學初中英語八年級上冊-Unit-6基礎練習(培優(yōu)專題)
- 小學四年級數學乘除法豎式計算題
- 小學數學六年級上冊分數乘除法計算單元小測試卷
- 普通高等學校招生全國統(tǒng)一考試(湖北卷)語文
- 《工業(yè)的區(qū)位選擇sk》課件
- 廣東省潮州市2023-2024學年高三上學期期末教學質量檢測英語試題
- 環(huán)保企業(yè)保安工作內容詳解
- 印刷行業(yè)印刷技術培訓總結
- 光伏發(fā)電系統(tǒng)租賃合同范本
- 新教科版六年級上冊科學全冊知識點(期末總復習資料)
- 綠色建筑工程監(jiān)理實施細則
- 2024年安全員b證繼續(xù)教育考試
- 科研倫理與學術規(guī)范期末考試試題
- T-CPQS C010-2024 鑒賞收藏用潮流玩偶及類似用途產品
- 電商直播帶貨運營方案(電商直播運營部門職責說明與KPI指標 電商直播運營部門KPI績效考核指標)
- 110kV變電站專項電氣試驗及調試方案
- 地質勘探勞務分包合同
- 上海市徐匯區(qū)位育中學六年級上學期期末英語試題(含聽力)
- 2023中國光大銀行杭州分行招聘客戶經理筆試歷年典型考題及考點剖析附帶答案詳解
評論
0/150
提交評論