




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、MLEP:一種B細(xì)胞線性表位預(yù)測方法關(guān)鍵詞:生物信息論與生物控制論;B細(xì)胞;線性表位預(yù)測;長短期記憶網(wǎng)絡(luò);多群集;特征選擇中圖分類號:R392.9文獻(xiàn)標(biāo)志碼:AAbstract:InordertodeterminethelinearB-cellepitopefasterandmoreaccurately,anewpredictionmethodMLEPalgorithmisprovided.Firstly,allthepredictioncalculationsarebasedonthefivepropertiesscalesofaminoacids.Basedontheseresults,a
2、multi-clusterfeatureselectionalgorithmisstudiedforreducingthenumberofdimensions.Secondly,thenetworksistrainedusinglong-shorttermmemorynetworkalgorithmandwiththereduceddimensiondata.Finally,theperformanceofthemulti-clusterfeatureselectionalgorithmandtheMLEPalgorithmisevaluated.Theexperimentalevaluati
3、onofclassificationisperformedusingthenon-redundantLBtopedataset.Theresultsshowthatthemulti-clusterfeatureselectionalgorithmachievesthebestperformancewhenthedimensionisreducedto25,andtheperformanceofthemulti-clusterfeatureselectionalgorithmissignificantlybetterthanthemethodsbasedontheprincipalcompone
4、ntanalysis,andthemaximumaccuracyof94.81%canbeachievedusingtheMLEPalgorithm.ThismethodcaneffectivelypredictthelinearepitopeofBcells,whichprovidesreferenceforthestudyofepitopeprediction.Keywords:bioinformaticsandbiocybernetic;B-cell;linearepitopeprediction;long-shorttermmemory;multi-cluster;featuresel
5、ection表位是抗原與抗體產(chǎn)生反應(yīng)的區(qū)域,B細(xì)胞表位的準(zhǔn)確識別是表位疫苗設(shè)計(jì)、免疫診斷試劑盒開發(fā)的關(guān)鍵步驟之一。從結(jié)構(gòu)上看,B細(xì)胞表位分為線性表位和構(gòu)象性表位,線性表位由蛋白一級序列中連續(xù)的氨基酸序列片段構(gòu)成,構(gòu)象性表位由空間結(jié)構(gòu)相鄰而在蛋白一級序列中離散分布的氨基酸序列片段組成【1】。準(zhǔn)確識別B細(xì)胞表位的方法有基于質(zhì)譜的方法、基于結(jié)晶學(xué)的方法等,但這些方法存在實(shí)驗(yàn)復(fù)雜、設(shè)備昂貴、操作技術(shù)要求高等因素,是影響表位疫苗研發(fā)的重要因素。隨著表位數(shù)據(jù)庫的建立,基于機(jī)器學(xué)習(xí)的B細(xì)胞表位預(yù)測方法快速開展,已經(jīng)成為一種速度快、本錢低的有效方法2-4。對B細(xì)胞線性表位預(yù)測的研究主要包括2個(gè)方面,一方面是多
6、特征參數(shù)的復(fù)合及特征選擇,另一方面是設(shè)計(jì)性能更強(qiáng)的表位預(yù)測模型5-9。表位預(yù)測的特征參數(shù)除了常用的氨基酸理化性質(zhì)外,還有溶劑可及性、二級結(jié)構(gòu)、氨基酸對等結(jié)構(gòu)特點(diǎn)及統(tǒng)計(jì)學(xué)等。利用單一參數(shù)作為傾向標(biāo)度的預(yù)測方案被證實(shí)性能有限,多種參數(shù)復(fù)合特征開展預(yù)測的方案逐漸顯現(xiàn)出了優(yōu)勢,隨著特征維度的增長計(jì)算量和計(jì)算復(fù)雜度也大幅的增加。在機(jī)器學(xué)習(xí)中,高維數(shù)的特征往往訓(xùn)練不出更高分類性能的模型。因此,如何合理選擇特征是一個(gè)重要的問題。弓紅巖10在特征集合中選出最優(yōu)子集后獲得性能更好的表位預(yù)測模型。LIU等11通過主成分分析方法principalcomponentsanalysis,PCA去掉了特征集合中無用或冗余
7、的特征,獲得具有較好性能的表位預(yù)測模型。特征選擇的關(guān)鍵是在去掉無用、冗余特征的同時(shí)保存數(shù)據(jù)集的結(jié)構(gòu),更要保證特征集合具有更好的可區(qū)分性。多聚類特征選擇multi-clusterfeatureselection,MCFS用于無監(jiān)督特征選擇,可以更好地保存數(shù)據(jù)的多集群結(jié)構(gòu),是一種較好的特征選擇方法12?;跈C(jī)器學(xué)習(xí)的B細(xì)胞表位模型預(yù)測功能不斷得到提升。LI等13結(jié)合最大相關(guān)最小冗余度方法和增量特征選擇方法,采用物理化學(xué)和生物化學(xué)性質(zhì)、殘基無序排列、序列保守性、溶劑可及性、二級結(jié)構(gòu)、氨基酸在蛋白質(zhì)-蛋白質(zhì)界面和蛋白質(zhì)外表保守的傾向、側(cè)鏈碳原子數(shù)的偏差、進(jìn)化過程中氨基酸的獲得/損失等8種特征被用于編碼
8、肽,使用隨機(jī)森林算法在測試數(shù)據(jù)集上分別到達(dá)了最高63.53%的準(zhǔn)確率。LIAN等14利用多元線性回歸建立了一種新的線性B細(xì)胞表位預(yù)測模型,在大型非冗余數(shù)據(jù)集上進(jìn)行了10倍交叉驗(yàn)證測試,取得了64.1%的準(zhǔn)確度。SLLNER等15將氨基酸的理化性質(zhì)、鄰域矩陣以及各自的概率和似然值等作為特征,每種肽的特征維數(shù)到達(dá)1487個(gè)特征表示,通過結(jié)合特征選擇的最近鄰分類器,使用5倍交叉驗(yàn)證測試獲得了72%的準(zhǔn)確度。WANG等16比較和評價(jià)了6種不同的B細(xì)胞表位預(yù)測軟件的正確預(yù)測真表位的能力,發(fā)現(xiàn)Bepipred,AApred,BEST,LBtope這4種預(yù)測軟件表現(xiàn)優(yōu)于隨機(jī)組,最高的平均預(yù)測準(zhǔn)確率為79.7
9、1%。這些預(yù)測方案中都是在蛋白質(zhì)一級序列中進(jìn)行,卻很少考慮序列中元素的相關(guān)性。長短期記憶網(wǎng)絡(luò)long-shorttermmemory,LSTM是一種用于長序列訓(xùn)練的方法,具有記憶機(jī)制,可將序列間的一些關(guān)聯(lián)信息用于網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練中,有助于獲得更高的識別準(zhǔn)確率17-18。1方法1.1數(shù)據(jù)獲取線性B細(xì)胞表位數(shù)據(jù)主要這些數(shù)據(jù)被整理后收錄到IEDB數(shù)據(jù)庫:/中,該數(shù)據(jù)庫由美國過敏與感染性疾病研究院nationalinstituteofallergyandinfectiousdiseases,NIAID資助建設(shè)。在表位預(yù)測研究中,將IEDB數(shù)據(jù)庫中收錄的、已被標(biāo)記為表位的肽段序列作為表位樣
10、本,再從包含表位樣本的蛋白質(zhì)一級序列中抽取未經(jīng)標(biāo)記的肽段作為非表位樣本19。Uniport數(shù)據(jù)庫s://提供蛋白質(zhì)的一級序列、二級結(jié)構(gòu)等很多結(jié)構(gòu)信息。近年來,Abcpred,Bcpred,Chen,LBtope等4個(gè)數(shù)據(jù)集【5】常被用于研究。LBtope數(shù)據(jù)集從IEDB數(shù)據(jù)庫中整理出10000多條包含20個(gè)氨基酸的表位序列數(shù)據(jù),通過去掉冗余之后形成的非冗余LBtope數(shù)據(jù)集有7824個(gè)表位樣本和7853個(gè)非表位樣本。本研究在LBtope數(shù)據(jù)集中進(jìn)行訓(xùn)練、測試。1.2特征及選擇方法本研究以5種氨基酸理化性質(zhì)為特征標(biāo)度進(jìn)行參數(shù)復(fù)合,它們分別是抗原性、親水性、靈活性、疏水性、極
11、性20-21。親水性殘基位于蛋白質(zhì)外表,與抗原表位有密切的聯(lián)系。極性氨基酸更容易暴露在蛋白質(zhì)的外表,是判定抗原表位的一種特征依據(jù)??乖詤?shù)是20種氨基酸在抗原蛋白中出現(xiàn)頻率的統(tǒng)計(jì)結(jié)果,是研究表位的一種特征參數(shù)。同樣,疏水性和靈活性與表位形成相關(guān)也常用作特征參數(shù)。每個(gè)表位樣本共包含20個(gè)氨基酸,因此每個(gè)樣本的特征維數(shù)是100。MCFS特征選擇算法不同于其他特征選擇方法,只針對每個(gè)特征獨(dú)立計(jì)算的特定分?jǐn)?shù)中選擇排名最高的特征。MCFS特征選擇算法能保存不同特征間可能的相關(guān)性,從而產(chǎn)生最正確特征子集12。MCFS算法包括5個(gè)步驟,具體如下。2結(jié)果與討論本研究采用了五重驗(yàn)證機(jī)制,模型的性能指標(biāo)通過5個(gè)
12、子集的平均值計(jì)算獲得。本研究的每個(gè)樣本都包含20個(gè)氨基酸,采用5種氨基酸理化性質(zhì)作為特征標(biāo)度,每個(gè)特征向量的維數(shù)是100維。在特征集合中使用MCFS算法進(jìn)行特征選擇,可以獲得指定維數(shù)的特征為輸入。為了更好地驗(yàn)證MLEP算法的有效性,引入了支持向量機(jī)學(xué)習(xí)supportvectormachine,SVM算法、PCA方法進(jìn)行實(shí)驗(yàn)比照,共設(shè)計(jì)了2組實(shí)驗(yàn)。2.1MCFS特征選擇的有效性評價(jià)為驗(yàn)證MCFS特征選擇的有效性,將參數(shù)d分別設(shè)為15,25,35,45,計(jì)算后獲得的特征子集,這些集合的特征向量的維數(shù)分別是15,25,35,45。將特征子集作為輸入,利用LSTM網(wǎng)絡(luò)算法進(jìn)行訓(xùn)練和測試,其性能如表1所
13、示。通過表1的數(shù)據(jù),分析如下。1維數(shù)是25的模型準(zhǔn)確率最高,到達(dá)了9481%,相比其他維數(shù)高出10%左右。維數(shù)是25的模型的敏感性、特異性、陽性預(yù)測值3個(gè)指標(biāo)都在93%以上,數(shù)值相對較為均衡。這說明了MCFS算法能找到各類中相關(guān)性大的有用特征,將特征集合中結(jié)構(gòu)較好的保存下來。2維數(shù)是45的模型敏感性值較低,而特異性、陽性預(yù)測值偏高,這說明選擇這種情況下的特征對非表位樣本具有一定的偏好。3通過MCFS算法選出的特征,子集維數(shù)都小于50,訓(xùn)練出的模型性能較好,這與所選特征的數(shù)量小于50時(shí),MCFS算法具有好的性能表現(xiàn)預(yù)期一致??偟膩砜?,基于LSTM學(xué)習(xí)算法利用MCFS算法進(jìn)行特征選擇后取得的表位預(yù)
14、測模型有較高的性能。2.2MLEP算法的性能評價(jià)為了驗(yàn)證MLEP算法的有效性,從2個(gè)方面進(jìn)行實(shí)驗(yàn)比較。1評價(jià)MCFS方法是否比其他選擇方法更具優(yōu)勢,選擇了PCA方法與其比較。2評價(jià)MLEP算法是否具有更好的性能表現(xiàn),采用PCA+SVM,PCA+LSTM,MCFS+SVM和MLEPMCFS+LSTM4種方案進(jìn)行比較。在實(shí)驗(yàn)中PCA方法降維后的特征向量維數(shù)是30,MCFS方法選擇2.1中性能最好的降維結(jié)果,即特征向量維數(shù)是25。將降維后的特征子集作為輸入,采用上述4種方案分別進(jìn)行訓(xùn)練測試,實(shí)驗(yàn)都采用5重驗(yàn)證機(jī)制,獲得的平均結(jié)果如表2所示。通過表2的數(shù)據(jù),分析如下。1MLEP算法獲得的預(yù)測模型準(zhǔn)確率
15、最高為94.81%,從敏感性、特異性、陽性預(yù)測值等指標(biāo)上看,該模型對表位、非表位均能很好的識別。2MCFS算法選擇特征后訓(xùn)練出的預(yù)測模型性能更優(yōu)。使用SVM學(xué)習(xí)算法,PCA方法選擇特征下預(yù)測模型的準(zhǔn)確率是74.03%,而MCFS算法選擇特征下預(yù)測模型的準(zhǔn)確率是87.66%,準(zhǔn)確率相差13%,這說明基于SVM學(xué)習(xí)算法MCFS選擇特征下獲得的預(yù)測模型性能更優(yōu)。使用LSTM網(wǎng)絡(luò)學(xué)習(xí)算法,PCA方法選擇特征下預(yù)測模型的準(zhǔn)確率是86.37%,而MCFS算法選擇特征下預(yù)測模型的準(zhǔn)確率是94.81%,這說明基于LSTM網(wǎng)絡(luò)學(xué)習(xí)算法MCFS選擇特征下獲得的預(yù)測模型性能更優(yōu)。在兩種算法下,MCFS選擇特征下獲得
16、的預(yù)測模型性能都是最優(yōu)的。3LSTM網(wǎng)絡(luò)學(xué)習(xí)算法訓(xùn)練出的預(yù)測模型性能更優(yōu)。使用PCA方法選擇特征,LSTM網(wǎng)絡(luò)學(xué)習(xí)算法比SVM學(xué)習(xí)算法的模型準(zhǔn)確率高12%。使用MCFS算法選擇特征,LSTM網(wǎng)絡(luò)學(xué)習(xí)算法比SVM學(xué)習(xí)算法的模型準(zhǔn)確率高7%。這說明LSTM網(wǎng)絡(luò)學(xué)習(xí)算法在表位預(yù)測應(yīng)用中具有一定的優(yōu)勢。綜合以上分析,MCFS方法、LSTM網(wǎng)絡(luò)學(xué)習(xí)算法在表位預(yù)測中均有好的表現(xiàn),也充分說明MLEP算法是一個(gè)最正確的方法,2.3討論線性表位預(yù)測是基于機(jī)器學(xué)習(xí)的一個(gè)分類過程,隨著越來越多的特征用于學(xué)習(xí),高維度數(shù)據(jù)處理往往需要很長的計(jì)算時(shí)間和巨大的計(jì)算開銷,這也使得表位預(yù)測模型越來越難。解決這樣問題的可靠方案是
17、特征選擇技術(shù),就是在特征集合中找到相關(guān)的特征子集來降低維數(shù)。表位預(yù)測的特征提取沒有固定的方案,實(shí)際研究中存在很多種組合方案,這也為特征選擇帶來了一定的困難。在本研究中,嘗試使用MCFS方法進(jìn)行特征選擇,一方面因?yàn)镸CFS方法可以設(shè)定選擇特征數(shù)量,具有很好的靈活性,另一方面MCFS方法在維數(shù)小于50下,能很好的將集合中的相關(guān)特征選出來,從而獲得更好的預(yù)測性能。LSTM網(wǎng)絡(luò)在語音識別方面具有很好表現(xiàn),因?yàn)樗芑谏舷挛闹泄潭ù翱趦?nèi)容對后續(xù)詞進(jìn)行預(yù)測。線性表位預(yù)測是基于蛋白質(zhì)一級序列的,表位是序列中連續(xù)的子序列,它們之間也必然存在一定的關(guān)聯(lián)關(guān)系。LSTM網(wǎng)絡(luò)學(xué)習(xí)算法在學(xué)習(xí)中參加記憶機(jī)制,可通過序列間
18、的相關(guān)信息增強(qiáng)了學(xué)習(xí)的效果。本研究期待發(fā)揮LSTM網(wǎng)絡(luò)這一優(yōu)勢,捕捉序列間的上下文關(guān)系實(shí)現(xiàn)更好的分類。實(shí)驗(yàn)結(jié)果說明,基于LSTM網(wǎng)絡(luò)學(xué)習(xí)算法獲得使表位預(yù)測模型具有更高的準(zhǔn)確率,也明顯優(yōu)于其他的方法。特別地,基于MCFS方法和LSTM網(wǎng)絡(luò)的MLEP算法是一個(gè)優(yōu)秀的預(yù)測方法,這兩者的結(jié)合進(jìn)一步提高了表位的預(yù)測水平。3結(jié)語提出了一個(gè)新的、有效的B細(xì)胞線性表位預(yù)測方法MLEP算法,首先使用5種氨基酸理化性質(zhì)作為特征標(biāo)度,采用MCFS算法進(jìn)行特征選擇。然后,把降維后的數(shù)據(jù)作為輸入,使用LSTM網(wǎng)絡(luò)進(jìn)行訓(xùn)練,獲得性能優(yōu)異的表位預(yù)測模型。最后,對MCFS算法的特征選擇有效性、MLEP算法的性能進(jìn)行評價(jià)。在非
19、冗余LBtope數(shù)據(jù)集進(jìn)行分類實(shí)驗(yàn)結(jié)果說明,相比SVM,PCA等方法組成的方案,MLEP算法獲得最優(yōu)預(yù)測模型,預(yù)測準(zhǔn)確率到達(dá)94.81%。表位預(yù)測不僅需要對特征進(jìn)行有效的選擇,還需要更適宜的學(xué)習(xí)算法訓(xùn)練模型。下一步工作中,將在本文根底上采用更多的特征標(biāo)度,更多的特征選擇方法和學(xué)習(xí)算法來評價(jià)MLEP算法的性能,發(fā)現(xiàn)具有更強(qiáng)性能的預(yù)測模型。參考文獻(xiàn)/References:【1】程華,成彬,羊紅光.線性B細(xì)胞表位預(yù)測方法研究進(jìn)展.中國免疫學(xué)雜志,2021,339:1422-1429.【2】盧楊.基于蛋白質(zhì)側(cè)鏈信息的B細(xì)胞表位預(yù)測的機(jī)器學(xué)習(xí)方法D.長春:東北師范大學(xué),2021.LUYang.Machi
20、neLearningMethodforB-cellEpitopePredictionBasedonProteinSideChainInformationD.Changchun:NortheastNormalUniversity,2021.【3】ELMANZALAWYY,ONAVARV.RecentadvancesinB-cellepitopepredictionmethods.ImmunomeResearch,2021,6:S2.【4】AMADT,EWEIDAA,SEWEITAS.B-cellepitopemappingforthedesignofvaccinesandeffectivedia
21、gnostics.TrialsinVaccinology,2021,5:71-83.【5】ARINDERS,RAMANA,RAGAVAGPS.ImprovedmethodforlinearB-cellepitopepredictionusingantigensprimarysequence.PLoSOne,2021,85:e62216.【6】UY,LINSC,LINYL,etal.Ameta-learningapproachforB-cellconformationalepitopeprediction.BMCBioinformatics,2021,15:378.【7】RENing,LIUQi
22、an,ELLIS,etal.Positive-unlabeledlearningforthepredictionofconformationalB-cellepitopes.BMCBioinformatics,2021,16:S12.8MOGRAMB,NABILE,BADRA.Ab-initioconformationalepitopestructurepredictionusinggeneticalgorithmandSVMforvaccinedesign.ComputerMethodsandProgramsinBiomedicine,2021,153:161-170.9ZAOLiang,W
23、ONGL,LULanyuan,etal.B-cellepitopepredictionthroughagraphmodel.BMCBioinformatics,2021,13:S20.10弓紅巖.基于特征選擇的線性B細(xì)胞表位的預(yù)測D.大連:大連海事大學(xué),2021.GONGongyan.PredictionofLinearB-cellEpitopesBasedonFeatureSelectionD.Dalian:DalianMaritimeUniversity,2021.11LIULingyun,YANGongguang,CENGBin.PredictionoflinearB-cellEpito
24、peswithPCAMethodC/Proceedingsof20047thInternationalConferenceonBioinformaticsandComputationalBiology.NewYork:USAIEEEPress,2021:39-43.12CAIDeng,ZANGChiyuan,EXiaofei.Unsupervisedfeatureselectionformulti-clusterdataC/Proceedingsofthe16thACMSIGKDDConferenceonKnowledgeDiscoveryandDataMining.NewYork:USAAC
25、MPress,2021:333-342.13LIBiqing,ZENGLulu,F(xiàn)ENGKaiyan,etal.PredictionoflinearB-cellepitopeswithmRMRfeatureselectionandanalysis.CurrentBioinformatics,2021,111:22-31.14LIANYao,GEMeng,PANXianming.EPMLR:Sequence-basedlinearB-cellepitopepredictionmethodusingmultiplelinearregression.BMCBioinformatics,2021,15:414.15SLLNER,MAYERB.MachinelearningapproachesforpredictionoflinearB-cellepitopesonproteins.ournalofMolecularRecognition,2021,193:200-208.16WANGXiangyu,RENZhonglu,SUNQi,etal.EvaluationandcomparisonofnewlybuiltlinearB-cellepitopepredictionso
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)學(xué)課題 申報(bào)書
- 專項(xiàng)課題申報(bào)書
- 產(chǎn)科科研課題申報(bào)書
- 口腔教改課題申報(bào)書范文
- 益智課題申報(bào)書范文
- 和老外合同范例
- 課題申報(bào)書范例范文
- 代替舊合同新合同范例
- 教育范式 課題申報(bào)書
- 原液供貨合同范本
- 營銷部安全生產(chǎn)責(zé)任制
- 【講座】高三英語高效二輪備考講座課件
- 2022-2023學(xué)年遼寧省鞍山市普通高中高一年級下冊學(xué)期第一次月考數(shù)學(xué)(A卷)試題【含答案】
- 2022年安徽醫(yī)科大學(xué)第一附屬醫(yī)院臨床醫(yī)技、護(hù)理、管理崗位招聘187人筆試備考題庫及答案解析
- 弟子規(guī)42+用人物須明求+教案
- 微電網(wǎng)-儲能電池catl pet80ah電芯規(guī)格書
- GB/T 4209-2022工業(yè)硅酸鈉
- 2023年江蘇農(nóng)林職業(yè)技術(shù)學(xué)院高職單招(數(shù)學(xué))試題庫含答案解析
- GB/T 39242-2020無損檢測超聲檢測靈敏度和范圍設(shè)定
- GB/T 32271-2015電梯能量回饋裝置
- GB/T 18775-2009電梯、自動(dòng)扶梯和自動(dòng)人行道維修規(guī)范
評論
0/150
提交評論