植物mirna序列及其功能預(yù)測方法研究與實(shí)現(xiàn)_第1頁
植物mirna序列及其功能預(yù)測方法研究與實(shí)現(xiàn)_第2頁
植物mirna序列及其功能預(yù)測方法研究與實(shí)現(xiàn)_第3頁
植物mirna序列及其功能預(yù)測方法研究與實(shí)現(xiàn)_第4頁
植物mirna序列及其功能預(yù)測方法研究與實(shí)現(xiàn)_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

行分析和處理,使人們能夠從分子層面上了解的發(fā)病機(jī)制,從而更加準(zhǔn)確地進(jìn)行的診斷,引起了人們極大的。針對傳統(tǒng)排序聚合方法可能忽視單次排序中得分較高的以及所產(chǎn)生的基的前TopK個中選擇具有代表性的、互不關(guān)聯(lián)的用于表達(dá)數(shù)據(jù)分類。在7個常用的表達(dá)數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明本文方法在相同個數(shù)針對表達(dá)數(shù)據(jù)分析時通常選擇一個子集用于分類可能造成信息損失分組中采用隨機(jī)選擇的方式選擇一條生成子集重復(fù)多次得到多個基分類器最后采用多數(shù)投票進(jìn)行融合集成在7個表達(dá)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明方法分類誤差較低,分類性能穩(wěn)定,可擴(kuò)展性好。:表達(dá)數(shù)據(jù);特征選擇;近鄰聚類;集成學(xué)EnsembleLearningBasedGeneSelectionandSampleThegenechiptechnologyprovidesanewmethodfordiseasediagnosis,treatmentandthedevelopmentofnewdrugs.Meanwhile,lotsofdisease-associatedgeneexpressiondatasetsaregenerated.Itmakespeopleunderstandthepathogenesisofcancerfromthemolecularlevelyzingandprocessingthiskindofdatasets,andinspiredgreatEnsemblelearninghasbeenwidelyappliedtomanyareasofmachinelearning,includinggeneexpressiondata.Comparingwithsinglemodel,lotsofprocessorsareusedtosolveoneproblemintheensemblelearningmodel,anditprovidesmorerobustandaccurateclassification.Whenensemblelearningmethodsareusedtoyzethedisease-associatedgeneexpressiondatasets,thetestsampleswillbeaccurayclassified.Therefore,employingensemblelearningmethodtoyzecancer-associatedgeneexpressiondatasetsisthemaincontentsofourpaper.Rankingaggregationmethodcanprovidesmorerobustandaccurategenesubset,butitmayignoresomegeneswhichhavehighscoresinsinglerankandtheobtainedgenesubsetmaycontainanyredundantgenes.Tosolvetheseproblems,affinitypropagationclusteringisapplied,asitcanselectrepresentativeandunrelatedgenesfromtheprimariesgenesubsetwhichcontainsthegeneswithhighscoreinsinglerank.Experimentalresultsonsevengeneexpressiondatasetsshowthattheproposedmethodcanselectmorerobustgenesubsetwithstrongerdistinguishabilityforsamplesandbetterclassificationeffect.Asonlyonegenesubsetisselectedforclassificationingeneexpressiondataysis,itmayresultinlossofinformation.Drawtheideasofensemblefeatureselectionmethod,weproposedanewensemblelearningmethod,whichbasedonthegenesranking,selectionandgrou.Firstly,manygenesubsetsareproducedbyrandomlyselectingagenefromenchgenegroupandcombiningthem.Secondly,basicclassifiersaretrainedinfeaturesubspacecorrespondingtogenesubsets.Finally,theresultsoftestdatausingthesebasicclassifierscanbeintegratedbymajorityvote.Experimentalresultsonsevengeneexpressiondatasetsshowthattheproposedmethodhaslowclassificationerror,stableperformanceandexcellent

:EnsembleLearning;Classification;GeneMicroarray;Affinity 緒 研究背景與意 研究現(xiàn) 本文的研究內(nèi)容及結(jié) 相關(guān)生物學(xué)數(shù)據(jù)分析與處 miRNA及其和聚簇數(shù) miRNA靶預(yù)測工具的選 蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù) 蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù) 蛋白質(zhì)相互作用網(wǎng)絡(luò)權(quán)重計算方 GeneOntology相關(guān)數(shù) GeneOntology相關(guān)知 GeneOntology相關(guān)應(yīng) 本章小 基于PPIN和圖算法的miRNA功能相似性計 miRNA功能相似性計算的整體框 權(quán)重蛋白質(zhì)相互作用網(wǎng)絡(luò)的構(gòu) 蛋白質(zhì)相互作用網(wǎng)絡(luò)的集 蛋白質(zhì)相互作用網(wǎng)絡(luò)權(quán)重計 靶間功能相似性計 網(wǎng)絡(luò)最短路徑相關(guān)算 靶功能相似性計 miRNA功能相似性計 實(shí)驗(yàn)結(jié)果與分 本章小 基于功能相似網(wǎng)絡(luò)和直推式多分類算法的miRNA功能預(yù) miRNA功能預(yù)測的整體框 基于聚類系數(shù)的miRNA功能相似網(wǎng)絡(luò)構(gòu) 研究背景與意增殖機(jī)制失常而引起的疾病,于2011年超過心臟病,成為全球第一大原因,而且年新增病例每年都在增加。2014年2月發(fā)布的《WorldCancerReport病例還將增加50%,達(dá)到每年2160萬人。中國的新增病例前景堪憂。報告中2012年確診的新增病例有近一半出現(xiàn)在亞洲,其中大部分,而整個歐洲的新增病例才接近1/4,美洲約占1/5,非洲和中東則剛剛超過8%,如圖1.1所示。因此,對的診斷和治療進(jìn)行研究分析具有十分重要的現(xiàn)實(shí)意義。中中拉丁美大洋百分比50地圖 Fig. Thedistributionofworld’snewcancercasesin技術(shù)為診斷研究提供了高效客觀的研究方法[2]GeneChip)技術(shù),又稱DNA微陣列(DNAMicroarray)技術(shù),是20世紀(jì)90年物cDNA4種核苷進(jìn)而獲得待測樣本的表達(dá)信息。這使研究者們能夠同時獲得研究對象在任意條件、任意時間下成千上萬的表達(dá)模式,從分子層面上研究的產(chǎn)生與發(fā)展,為了解、預(yù)防、診斷以及遴選抗癌藥物等提供了更加快捷、準(zhǔn)確的方法。自1999年Golub[3]等在Science雜志上題為《MolecularClassificationofCancerClassDiscoveryandClassPredictionbyGeneExpressionMonitoring》的文章以來,采用技術(shù)研究診斷問題引起了研究者們的極大,并逐漸發(fā)展成為了生物信息學(xué)領(lǐng)域的研究熱點(diǎn)之一?;诩夹g(shù)的診斷研究可以看成是對相關(guān)的表達(dá)數(shù)據(jù)的分類NearestNeighbors,KNN)、支持向量機(jī)[5](SupportVectorMachine,SVM)、貝葉斯(Na?veBayesNB)、決策樹[7](DecisionTree,DT)Fisher線性判別分析[8](Linear更好的集成學(xué)習(xí)[9](EnsembleLearning)方法成為表達(dá)數(shù)據(jù)分類的重要研究內(nèi)容。20年來機(jī)器學(xué)習(xí)研究的熱點(diǎn)內(nèi)容,通過采用多個學(xué)習(xí)器對同一個問效的充要條件是學(xué)習(xí)器的精度高(所有學(xué)習(xí)器錯誤率都應(yīng)當(dāng)?shù)陀?.5)而且是個研究領(lǐng)域,尤其是表達(dá)數(shù)據(jù)分析領(lǐng)域。采用集成學(xué)習(xí)方法對相關(guān)的表達(dá)數(shù)據(jù)進(jìn)行研究具有以下意義提高診斷準(zhǔn)確性。在診斷研究中,如何對測試樣本給予一個精確的夠降低診斷模型受這些因素的影響,在的應(yīng)用當(dāng)中獲得穩(wěn)定的預(yù)測結(jié)果。降低高維度的對分類的影響。在表達(dá)數(shù)據(jù)分類時,高維度問題困擾了很多分類算法,在分類前通常需要進(jìn)行特征()選擇,而且其選擇的好壞也關(guān)系到分類效果的好壞。許多選擇方法通常選擇少量的、類標(biāo)記關(guān)聯(lián)緊密的、彼此之間互不冗余的組成子集用于分類,然而一個子集的分類能力是有限的,同時一個與類標(biāo)記有關(guān)聯(lián)的、與已選相互冗余的對分類也會產(chǎn)生行融合,避免選擇導(dǎo)致的分類信息損失帶來的影響,提高模型的預(yù)測性能。研究現(xiàn)(1)選擇方面。選擇少量的合適的能夠獲得較好的樣本分類效果。然而,對同一個數(shù)據(jù)集采用不同的選擇方法或采用同一個選擇方法對進(jìn)行小樣本”的表達(dá)數(shù)據(jù)中,顯得尤為突出。為了獲得一個穩(wěn)定的、準(zhǔn)確的子集用于后續(xù)分析,Saeys[13]等人采用集成學(xué)習(xí)的思想,通過執(zhí)行多次排序,并把多個排序結(jié)果按照某一方式融合起來從中選擇,得到一個更為穩(wěn)定的子集。BoulesteixSlawski[14]對這類方法進(jìn)行了歸納和總結(jié)。Wald[15]把這類方法稱(2)分類模型設(shè)計方面。集成學(xué)習(xí)方法在降低數(shù)據(jù)集“高維度、小樣本、類不平衡”對分類模型影響方面具有很強(qiáng)的優(yōu)勢,同時還能夠降低分類模型對訓(xùn)練數(shù)據(jù)“過擬合”現(xiàn)象的發(fā)生可能性,能夠提高樣本分類的準(zhǔn)確度,對診斷研究具有十分重要的意義。目前,圍繞表達(dá)數(shù)據(jù)集成分類模型設(shè)計,學(xué)者們提出了很多方法[16-29],主要集中在三個方面:①把經(jīng)典的集成學(xué)習(xí)方法(Bagging和Boosting方法)應(yīng)用到表達(dá)數(shù)據(jù)領(lǐng)域,Dettling[16,17]2003年成功將Boosting方法成功應(yīng)用到表示數(shù)據(jù)分析,此后2004年又將Bagging與Boosting相結(jié)合,將Bagging方法方法作為Boosting方法的一個模塊,提出了性能更優(yōu)的BagBoosting方法。②構(gòu)建基于特征選擇的集成學(xué)習(xí)。表達(dá)數(shù)據(jù)的高維度使得很多傳統(tǒng)的學(xué)習(xí)方法難以適應(yīng),在分類前通常需要進(jìn)行選擇,通常選擇一個較優(yōu)的子集用于分類,能夠有效提高分類模型的分類性能。然而在被剔除的中間,也存在與樣本分類相關(guān)的具有很強(qiáng)區(qū)分能力的,于是選擇方法就有可能造成分類信息的損失?;谔卣鬟x擇的集成學(xué)習(xí)方法通過生成多個存在差異的特征子集,在各自對應(yīng)的特征子空間中分別訓(xùn)練分類器構(gòu)建集成分類器,能夠有效避免選擇帶來的分類信息損失,提高分類模型的效能。rtoni等[18]將o[19]隨機(jī)子空間集成(RandomSubspaceMethod,RSM)法成功應(yīng)用于表達(dá)數(shù)據(jù)分類領(lǐng)域,并取得了比單分類器更好的識別效果;Hu等[20]選擇完全不同的來構(gòu)造多個C4.5分類器,增加了集成學(xué)習(xí)間的差異,但忽視了子集的樣本區(qū)分能力的不同,使獲得的訓(xùn)練基分類器,提出了一種源于隨機(jī)劃分的集成分類方法(ClassificationbyEnsemblesfromRandomPartitions,CERP)方法,適合高維數(shù)據(jù)分類,并用于。Liu[22]基于快速關(guān)聯(lián)過濾(FastCorrelated-BasedFilter,F(xiàn)CBF)提出了一種簡單、高性能、便于實(shí)現(xiàn)的分組集成選擇(EnsembleGeneSelectionbyGrou,EGSG)方法,該方法運(yùn)用近似MarkovBlanket進(jìn)行分組,使同組內(nèi)的相互關(guān)聯(lián),在此基礎(chǔ)上,從每個分組的前t個與類標(biāo)記關(guān)聯(lián)緊密的中運(yùn)用隨機(jī)方法選擇一條生成子集,在對應(yīng)的特征子空間中訓(xùn)練基分類器進(jìn)行集成,在表達(dá)數(shù)據(jù)分類中獲得了較高的③選擇集成方法研究。有研究表明[23-25]:選擇部分優(yōu)化后的基分類器子集進(jìn)行集成比使用所有基分類器集成效果要好。Png[23]采用mens聚類的方法將判別空間相似的分類器進(jìn)行分到一組,然后在從每個分組中挑選出一性的基分類器進(jìn)行集成,從而提高了用于集成的基分類器之間差異,獲得了較好的集成學(xué)習(xí)效果,同時減少了計算的開銷。文獻(xiàn)[24,25]均采用優(yōu)化算法(如遺傳算法[24]或粒子群算法[25])對產(chǎn)生大量的基分類器進(jìn)行優(yōu)選,從中選出最優(yōu)的組合來進(jìn)行集成,這類方法在提高集成效果的同時,增加了時間復(fù)雜度,而且容易產(chǎn)生過擬合問題。④類不平衡問題。類不平衡問題是近年來機(jī)器學(xué)習(xí)研究的熱點(diǎn)內(nèi)容,關(guān)注的是數(shù)據(jù)樣本類不平衡或未被充分表達(dá)情況下學(xué)習(xí)算法的性能,主要采取的是通過抽樣技術(shù)使訓(xùn)練數(shù)據(jù)集的類重新平衡,或引入代價敏感技術(shù)使得分類算法適應(yīng)類不平衡數(shù)據(jù)。集成學(xué)類不平衡數(shù)據(jù)分類中具有以下優(yōu)勢[26]:一方面基分類器的構(gòu)建與抽樣技術(shù)結(jié)合在一起,使得基分類器的訓(xùn)練數(shù)據(jù)類平衡,在不增加計算代價的基礎(chǔ)上有效應(yīng)對類不平衡問題;另一方面多個分類器集成能夠在一定程度上提高分類模型應(yīng)對各種的能力,避免過擬合問題。lagus和us[27-29]圍繞類不平衡的表達(dá)數(shù)據(jù)的分類,研究了選擇,分類算法、抽樣技術(shù)等對分類的影響,結(jié)果表明:高維度加劇了類不平衡數(shù)據(jù)分類的;STE方法在低維數(shù)據(jù)中表現(xiàn)良好,在高維數(shù)據(jù)分類中表現(xiàn)欠佳,結(jié)合選擇方法后相比結(jié)合之前在一定程度上能夠提高分類性能;A算法在類不平衡問題不太激烈時能夠勝過大多數(shù)分類算法獲得較好的分類性能;同時基于欠抽樣技術(shù)的集成方法,比單個欠抽樣方法和過抽樣方法更適合類不平衡數(shù)據(jù)分類。inhn[12]lagus和ua研究的基礎(chǔ)上,對不平衡比率(Imblanertio)、類分離與覆蓋(Smalldijunctsndovrlapomplxity)、數(shù)據(jù)缺與選擇(kofdtandftureletion)對表達(dá)數(shù)據(jù)分類的影響進(jìn)行了進(jìn)一步的總結(jié),研究發(fā)現(xiàn)影響類不平衡數(shù)據(jù)中少數(shù)類分類準(zhǔn)確性的主要因素是數(shù)據(jù)缺乏;當(dāng)數(shù)據(jù)集類不平衡狀況不太SM,基于決策閾值調(diào)整的S(SMthrholddjutmnt,ST)方法能夠獲得了較好的分類效果。本文的研究內(nèi)容及結(jié)本文首先介紹了表達(dá)數(shù)據(jù)分類的相關(guān)技術(shù),包括表達(dá)數(shù)據(jù)的表示、基因選擇和分類方法。針對選擇,介紹了幾種常用排序方法,詳細(xì)介紹了集SVM分類方法,同時還介紹了不平衡數(shù)據(jù)對傳統(tǒng)的基于數(shù)據(jù)擾動的排序聚合技術(shù)進(jìn)行了改進(jìn)針對獲得的子集中存在冗余以及最終選擇的子集可能忽視單次排序得分較高的部分的問題提出了基于融合聚類的改進(jìn)方法對所單次排序的合并后放入初選子集,然后以bicor系數(shù)為關(guān)聯(lián)衡量標(biāo)準(zhǔn),利用近鄰聚類算法進(jìn)行聚類,從中選擇具有代表性的互不關(guān)聯(lián)的作為最終的子集并通過實(shí)驗(yàn)驗(yàn)證了方法的有效性。在選擇的基礎(chǔ)上,針對冗余的、與樣本分類相關(guān)的也具有很強(qiáng)區(qū)分能力的問題,借鑒集成特征選擇方法的思想,在基于近鄰聚類的融合選擇的基礎(chǔ)上,從聚類獲得各個分組中隨機(jī)選擇一條,生成子集并用于訓(xùn)練分類器,重復(fù)的表達(dá)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了方法的正確性和良好分類性能。第二章介紹了表達(dá)數(shù)據(jù)的表示、分類流程,對當(dāng)前常用的選擇方法做了一衡數(shù)據(jù)分類的SVM改進(jìn)方法,最后還介紹了類不平衡數(shù)據(jù)分類的一些評價標(biāo)準(zhǔn)。第三章介紹了近鄰聚類算法的技術(shù)原理以及一種對噪聲不敏感的關(guān)聯(lián)度量標(biāo)準(zhǔn),對排序聚合技術(shù)所選子集存在冗余以及可能漏掉一些有用的問題采用近鄰聚類方法從所有單次排序的中選擇具有代表性的從而獲得更具區(qū)分能力的子集。選擇方法,然后借鑒分組集成選擇方法的思想,對第三章基于近鄰聚類子集的方式構(gòu)建集成特征選擇方法,實(shí)驗(yàn)驗(yàn)證的結(jié)果表明方法正確性和有效基于SVM的植物miRNA序列預(yù)植物miRNA預(yù)測模型的構(gòu)建框SVM的集成分類器,并且被命名為mirPlantPreMat。mirPlantPreMat不僅可以用來分類真假植物miRNA前首先,我們從miRNA數(shù)據(jù)庫miRBase(版本19)[]中全部植物miRNA前體序列,保留具有單一莖環(huán)結(jié)構(gòu)的前體序列,并且去除重復(fù)的前體序列,最終我們3126條非冗余且具有單一莖環(huán)結(jié)構(gòu)的植物前體miRNAmiRNAmiRNA體序列,這些植物miRNA前體序列作為負(fù)數(shù)據(jù)集。這個模型構(gòu)建過程分為如下幾部:(1)從正負(fù)數(shù)據(jù)集中分別隨機(jī)選取2000條數(shù)據(jù)用來訓(xùn)練mirPlantPreMatmiRNAmirPlantPre;(2)miRNA152(3B-SVM-RFE47個特征;(4)47個特征訓(xùn)練前體分類模型mirPlantPre;(5)3126條來自miRBase中的實(shí)驗(yàn)證實(shí)的植物miRNA3835條序列片段,即從miRNA成熟體序列的開始位置,一直擴(kuò)展到miRNA*序列的結(jié)束位置,既可能從5’端開始,也可能從3’端開始,將這些序列作為正數(shù)據(jù)集;(6)miRNA前體序列中抽39428條序列片段,這些序列不在上一步獲得的正數(shù)據(jù)集序列中,并且長度55nt和具有莖環(huán)結(jié)構(gòu),將這些序列作為負(fù)數(shù)據(jù)集;(7)1000條正集5000SMOTE算法[]對這些數(shù)據(jù)進(jìn)行預(yù)處理,保證正負(fù)數(shù)1:1訓(xùn)練該模型時使用通過B-SVM-RFE63維特征(8mirPlantPre和mirPlantMat結(jié)合在一起來構(gòu)建集成分類模型mirPlantPreMat。正負(fù)數(shù)據(jù)集選一個有效的植物miRNA前體和成熟體分類器應(yīng)該能夠?qū)⑻撉绑w和成熟體響分類的準(zhǔn)確率。我們所采用的正集是由已知的實(shí)驗(yàn)證實(shí)的植物前體和成熟體miRNA序列數(shù)據(jù),而負(fù)集是由虛番茄、大豆和擬南芥數(shù)據(jù)組成。,miRBase數(shù)據(jù)庫(19版本)6378miRNA成熟體Vienna[]工具包中的RNAfold預(yù)測出這些序列的二級結(jié)構(gòu)。在這些前體miRNA序列中3126條非冗余且具有單一莖環(huán)結(jié)構(gòu)的序列作為訓(xùn)練mirPlantPremiRNA序,53nt938ntmiRNA序列具有更加復(fù)雜的二級miRNA序列上成熟體miRNA和miRNA*的位置。在本研究中,真實(shí)的植物前體miRNA在其已公布的成熟體miRNA的位置處截斷,該位置既可能在5’端,也可能在3’端,截斷后的前體miRNA序列作為訓(xùn)練模型mirPlantMat的真實(shí)的數(shù)據(jù)樣本。進(jìn)而,體miRNA序列上除了真實(shí)成熟體miRNA的位置外的其他任何位置截斷所得的前體miRNA序列都可以作為虛數(shù)據(jù)樣miRNA序列將展現(xiàn)出較小的長度范圍,并且前體上每個區(qū)域的結(jié)構(gòu)幾乎所有被公布的miRNA的位置是分布在非轉(zhuǎn)錄區(qū)域或者是間隔區(qū)域。在組miRNA序列相似的莖環(huán)結(jié)構(gòu),但卻沒miRNA序列公布出來。因?yàn)橛?xùn)練出的分類模型是要用來正確區(qū)分相似的真假前體miRNAmiRNA上的CDSsmiRNA120nt左右,因此,我60nt150nt中選取滑動窗口,并用該滑動窗口在CDSs上掃描,進(jìn)而5種條件,即發(fā)卡結(jié)構(gòu)上的堿基對數(shù)目,%G+C,MFEImiRNA序列的互補(bǔ)堿基配對和涉及到MFE率的前體miRNAmiRNA序列來19個堿基對,%G+C0.2420.825,MFEI0.522,1.39miRNA序列與其互補(bǔ)序列中存在最多不37p-value0.01和37℃下計算所有前體序列的二級結(jié)構(gòu)。對于MFE的頻率分布和經(jīng)驗(yàn)分布,我們采用改進(jìn)的S型函數(shù)進(jìn)行建模。xMFElengthf(x)

blength代表前體miRNAa1.339e12b2.7783e13和c45.843f(xf(x)4.42。最終,我們獲得8494條虛前體miRNA序列作為負(fù)集數(shù)據(jù)。在訓(xùn)練分類模型mirPlantMatmiRNA序列上獲取不在成miRNAmiRNA*序列所在位置剪切的序列片段,然后將這些mirPlantMat的負(fù)集數(shù)據(jù)。這些序列片mirPlantMat的訓(xùn)練集中正集樣本,或是被正集樣本包含。在虛假前體miRNA的莖區(qū)序列上,一個堿基與其所在鏈的對立鏈上的另一個堿基配對,我們類不平衡問題及SMOTEmiRNA60nt150nt,而每一條前體序列只包含一個成熟體miRNA,因此,從一條前體序列上將能獲得遠(yuǎn)不止一個虛假的成熟體miRNAmirPlantPre時所采用的正負(fù)訓(xùn)練集比例應(yīng)用于訓(xùn)練mirPlantMat,勢必會導(dǎo)致大量的負(fù)集樣本缺失,進(jìn)而這些缺失的負(fù)樣本所攜1:5,即如果我們選擇一個正訓(xùn)練集樣本,那么同時要高的假負(fù)率出現(xiàn)。為了解決該不平衡分類問題,我們采用了SMOTE算法對正負(fù)訓(xùn)2002年,Chawla首次提t(yī)echniqueSMOTE算法屬于過抽樣方法,它的主要思想是通過在少數(shù)類樣本集中,向一些位樣本,因此在一定程度上可以解決分類器過擬合問題。SMOTE算法的實(shí)現(xiàn)步驟如Nx的k樣本,并在這個k個最緊鄰樣本中隨機(jī)選擇N個樣本,記作y1, yN;在少數(shù)xyi(i12,Nzirand(0,1表示(0,1特征提取及特征選擇植物miRNAmiRNA的序列及其二級結(jié)構(gòu)的許多特征對分類首先,我們引入了Triplet-SVM[]3232維的結(jié)構(gòu)特征定義為:”C(((“,”A(.(“,…,”U…”,其中左括號”(”表示體miRNA3‘端鏈上的相應(yīng)堿基使用右括號”)”表示。一個圓點(diǎn)”.”表示一個堿基不與其在相對鏈miPred[]29維的序列及其二級結(jié)構(gòu)相關(guān)特征。16個堿基對的出現(xiàn)頻率,即%XYX,YA,C,U,G。%XYXY(L1)100XYXYL關(guān)的特征是%GC,表示體miRNA序列中鳥嘌呤G與胞嘧啶C的含量之和%(GC)(GC)L100GC表示其在該序列中的出現(xiàn)次數(shù)。該分類器所采用的二級結(jié)構(gòu)相關(guān)特征是通過RNAfold計算得到的,其中p-value設(shè)為0.01,溫度為37℃,所得的最小自由能為MFE,最終獲得如下特征:(1)標(biāo)準(zhǔn)化的最小自由能dGMFEL[]。(2)最小自由MFEI1dG%(GC與MFEI2dGn_stems,其中n_stems表示在預(yù)測得到的前體miRNA二級結(jié)構(gòu)中莖的數(shù)目,包含三個連續(xù)堿基對的結(jié)構(gòu)稱為一個莖[]。(3)標(biāo)準(zhǔn)化的堿基對傾向dPtot_basesL,其中tot_bases是前體miRNA二級結(jié)構(gòu)中的所有P(SeE

ZZ

eERTSS(x)

ESR8.31451Jmol1K1T表示溫度310.15K(37℃)。堿基ijp

),如果堿基ij是一個堿基對,則1,否則0

dQ

。ijpijlog2(pij)。 (

p2dD

i

L

[]。(6)第二(菲爾德)特征值dF可以通過一個樹圖GRNA二級結(jié)構(gòu)SL(G是樹圖GL(G)的第二特征值dFdF[L(dF[L(G)]可以用作RNA二級結(jié)構(gòu)的相似性度量(6結(jié)構(gòu)特征dG,dP,dQ,和dFzGzPzQzDzFdX Z(dX)

;

(dXidX)RR其中dX和dX是特征dX的樣本均值和樣本方差,是基于來自原始序列隨機(jī)產(chǎn)生的RR103。microPred[]RNAfoldMFEI3dGn_loops和MFEI4MFEtot_bases,其中n_loops是二級結(jié)構(gòu)的數(shù)目;標(biāo)準(zhǔn)化集成自由能NEFEEFEL,其中EFERTln(Z[]Freqe(EFEMFE)RT[];機(jī)構(gòu)差異性(堿基i,對距離)Diversityi,

pij(1pij

MFE

LMfolddS,標(biāo)準(zhǔn)化的結(jié)構(gòu)熵dSL,結(jié)構(gòu)焓dH,標(biāo)準(zhǔn)化結(jié)構(gòu)焓dHL,結(jié)構(gòu)的熔化能Tm100dHdS,標(biāo)準(zhǔn)化的結(jié)構(gòu)熔化能TmL,以上這些熱力學(xué)相關(guān)特征都是由Mfold服務(wù)包中的UNAfold程序計算得到的[];新的堿A

L,G

LG

LX

XY%(A

第四組特征是PlantMiRNAPred[]MFEI5MFE%(GC_SMFEI6MFEstem_tot_bases%(GC_S莖中的堿基GC所占比例,stem_tot_bases是莖中堿基對的數(shù)目;每21nt長的序最后一組是我們在本研究中新引入的69個特征,包括最小自由能索引MFEI7MFE%(GC_Begin_n_21ntsMFEI8MFE%(GC_End_n_21nts和MFEI9MFEAvg_mis_num,其中%(GC)_Begin_n_21nts是前21個堿基堿基GC所占比例,%(GC)_End_n_21nts是后21個堿基中堿基GC所占比例;莖的前21個堿基中錯配數(shù)Mis_num_begin和后21個堿基中的錯配數(shù)Mis_num_end;從miRNA 前體序列的前和后分別提取的Triplet-SVM 中的特征G(((_begin_SA(.(_begin_S和C(((_end_SG(.._end_S。改進(jìn)的SVM-RFE該算法的流程描述如下:(1)輸入訓(xùn)練樣本集

0x1,x2

xT及其相應(yīng)的 nyy1y2 y;(2)s12,152和排列好的特征列表rnnTns為止;(3)s中的特征在訓(xùn)練樣本上計算相應(yīng)的特征值XX0sSVM分類器SVMtrainX,y;(4)數(shù)為length(swyx;(5)對于所有的i計算排列索引cw)2kk k

argmin(c,然后更新特征排列列表rsfrss(1:f1,f1length(s(8確定最終的分類器重計算。因?yàn)槊看螀⑴c訓(xùn)練的特征數(shù)目不同,進(jìn)而訓(xùn)練的SVM分類器也不同,最終導(dǎo)基于信息增益[]的有放回的SVM-RFE算法,即B-SVM-RFE算法。該算法相較于SVM-RFE算法的改進(jìn)在于,當(dāng)排列完所有屬性的權(quán)值并且更新了s和r后,如果在r中sr中具有最高信息增益的屬性s中,然后重新訓(xùn)練SVM分類器。如果這時的交叉驗(yàn)證錯誤率好于前一次ss中形成新的特征子集,否則,將該屬性從s中刪除重新放回r中。B-SVM-RFE算法的具體流程如圖所示。5折交叉檢驗(yàn)錯誤識別率(LooErrorRate)試錯誤識別率(TestErrorRate)5折交叉檢驗(yàn)分類器性能分SESP

TP FPAccGm

TPFPFNSESP其中,TP表示預(yù)測結(jié)果的真正率,即在預(yù)測為真的結(jié)果中確實(shí)為真的結(jié)果所占比例。TN表示預(yù)測結(jié)果的真負(fù)率,即在預(yù)測為結(jié)果中有多大比例的結(jié)果確實(shí)為假。FP表示預(yù)測結(jié)果的假正率,即在預(yù)測結(jié)果為真的樣本中預(yù)測錯誤的樣本所占比例。FN表示預(yù)測結(jié)果的假負(fù)率,即在預(yù)測為樣本中錯誤預(yù)測的樣本所占比例。為了體現(xiàn)我們mirPlantPreMat具有很好的推廣能力,mirPlantPre和mirPlantMat基于mirPlantPreMat的擬南芥miRNA預(yù)一些研究已經(jīng)表明,miRNAmiRNA在不同物種間體現(xiàn)出了保守的進(jìn)化關(guān)系[]miRNA,一個是我們可以通過序列和結(jié)構(gòu)相似性識別同源片段,另一個是可以使用已知的miRNA來識別未知的miRNA[]。到目前為止,miRBase(21版本)427條擬南芥成熟體miRNA,來自于47個。大量物種可能包含相同的miRNA,在本部分的研究中,我們采用已知的植物miRNA成熟體序列去識別未知的擬南芥成熟體miRNA。miRNAmiRBase(21版本)得到,總共包括8069條成熟體miRNA序列。為了找到擬南芥未知miRNA,需要通過已知的其他植物miRNA成熟體序列比對到擬南芥組序列上,發(fā)現(xiàn)具有相似性的序列,進(jìn)而預(yù)測擬南芥的miRNA,所以,我們還需要擬南芥的基因組數(shù)據(jù),這些數(shù)據(jù)我們從擬南芥數(shù)據(jù)庫TAIR[]。擬南芥成熟體miRNA基于其他植物的成熟體miRNA序列以及擬南芥組數(shù)據(jù),并通過我們預(yù)測模型預(yù)測擬南芥未知的miRNA序列,首先需要將其他植物的成熟體miRNA序列比對到擬南芥組的每條序列上,依據(jù)一些條件來選擇比對位點(diǎn),基于比對的結(jié)果在序列上截取待預(yù)測的擬南芥前體miRNA序列,最后,通過我們分類模型對這些前體miRNAmiRNA序列上的其他植物的成熟體miRNA就可能是擬南芥的未知成熟體miRNA,否則不是擬南芥的未知成熟體miRNA。是相似的,我們在實(shí)驗(yàn)中也遵循這個條件。在本研究中,基于SEED算法[]KMP算法,我們提出了一個新的序列比對算法。首先,已知的成熟體miRNA序列分為列片段。如果其中有一段是完全匹配的,則將其他段比對到組上,若是少于3個堿miRNARNAfold計算這些前體的二級結(jié)構(gòu)及最小自由能。最后,我們選擇那些滿足如下指標(biāo)的前體miRNA序列作為最終的待預(yù)測數(shù)據(jù)。這些指標(biāo)包括,在miRNA19個,G+C0.2420.825之間,最小37個堿基的錯配,并且沒有未知堿基“N”存在。最終4318個待預(yù)測的前體miRNA序列。將以上獲得的待預(yù)測前體miRNA序列輸入到我們的mirPlantPreMat預(yù)測模型中,744個潛在的擬南芥成熟體miRNA序列。本章小miRNA序列的預(yù)測。提出了一個新的基于SVM的分類器,可以很好的識別出真假前體miRNA及其成熟體miRNA152個序列結(jié)構(gòu)相關(guān)的特征集,并通過改進(jìn)的特征選擇算法B-SVM-RFE152個特征進(jìn)行選擇。最終,我們實(shí)現(xiàn)了一個集成的預(yù)測工具mirPlantPreMat,包含有兩個預(yù)測工具mirPlantPre和mirPlantMat,miRNAmiRNA序列預(yù)測問題。使用幾個植物物種的測試,我們分類模型能夠獲得大約90%的準(zhǔn)確率,同時也證明了我們的miRNA的預(yù)測中,744miRNA,證明了我們的分類器能夠很好的應(yīng)用于許多研究表明,miRNA在生物的生命進(jìn)程中起著至關(guān)重要的調(diào)控作用,并且很多miRNAmiRNA具有相同或相似的功能。我們已miRNA的序列和結(jié)構(gòu)相關(guān)特征,并通過這些特征成功的預(yù)測出了未知miRNAmiRNAmiRNA的功能,即它miRNA功能的研究主要是依靠生物實(shí)驗(yàn)的方法。這種方法能夠非常準(zhǔn)miRNAmiRNA的miRNA功能的發(fā)現(xiàn)。所以,我們想要找到一種計算方法來預(yù)測miRNA的功能。目前,已有一些關(guān)于計算預(yù)測miRNA功能的研究,miRNA與未知功能的miRNA之間的功能相似性,進(jìn)而預(yù)測出未知功能的miRNA的功能。本部分就是關(guān)于miRNA間功能相似性計算方法的研究,通過構(gòu)建一個權(quán)重蛋白質(zhì)相互作用網(wǎng)絡(luò)來計算miRNA間的功能相似性,并且實(shí)現(xiàn)了一個公共可用的計算工具PPImiRFS。miRNA功能相似性計算的整體由于miRNA的功能是通過調(diào)控其靶向的靶抑制或降現(xiàn)的。所以,我們通過計算出miRNA靶向的靶集間的功能相似性來計算miRNA間的功能相似性。該miRNA功能相似性計算方法的整體框架如圖所示。首先,將多個來自不同數(shù)據(jù)庫的蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行集成,通過計算蛋白質(zhì)間的本體輪(GeneOntology,GO)語義相似性為集成的相互作用網(wǎng)絡(luò),獲得一個帶有GO語義相似性權(quán)重的集通過兩個常用的植物靶預(yù)測工具(psRNATarget和Targetfinder,參數(shù)使用它們的默認(rèn)參數(shù))預(yù)測miRNA的靶,獲得每個miRNA的靶集。最后,基于構(gòu)建的權(quán)重蛋白質(zhì)相互作用網(wǎng)絡(luò)及改進(jìn)的廣度優(yōu)先搜索算法計算一對miRNA的靶集中任意兩個靶間的功能相似性得到一個功能相似性矩陣進(jìn)而通過平均最佳匹配方(theaveragebest-matched,ABM)及該功能相似性矩陣計算出兩個miRNA的靶集間的功能相似性,即這兩個miRNA間的功能相似性。權(quán)重蛋白質(zhì)相互作用網(wǎng)絡(luò)的目前,已有很多機(jī)構(gòu)和發(fā)布了蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù),但是,這些數(shù)據(jù)從規(guī)使最終的計算結(jié)果的問題,為了解決這個問題,很多研究人員都采用了將多個的問題。在本部分研究中,我們從5個廣泛被使用的數(shù)據(jù)庫中擬南芥蛋白質(zhì)相互作AtPI( 由于每個蛋白質(zhì)都具有與其功能相對應(yīng)的語義注釋,即GO注釋,所以,通過計算任意兩個蛋白質(zhì)間的GO注釋的語義相似性,就可以得到這兩個蛋白質(zhì)間的功能相似性。我們就是通過這個方法,對前一部分獲得的集成蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行。本體論,即GO,是為了跨所有物種統(tǒng)一化表示及產(chǎn)物屬性而元素活動;生物進(jìn)程(biologicalprocess,BP),即帶有特定開始和結(jié)束,與集成生命我們采用一款R語言工具包,GOSemSimGO19個物種,分別為擬南芥、人類、老鼠、酵母等。在本研究中,我們使用的是該軟件包中的geneSim程序,具體算法選擇其中的基于圖的語義相似性計算方法。實(shí)驗(yàn)中所使用的GO數(shù)據(jù)集是由GOSemSim2.14.0GOCC,MFBPGO語義相似性權(quán)重,最終,構(gòu)建集成的蛋白質(zhì)相互作用網(wǎng)絡(luò)。靶間功能相似性計在這個網(wǎng)絡(luò)上計算任意靶間的功能相似性。在這部分中,我們假設(shè)兩個靶在該迪杰斯特拉算法是由計算機(jī)科學(xué)家迪杰斯特拉于1956年,該算法目前存在廣度優(yōu)先搜索算法(Breadth-firstsearch,BFS)主要應(yīng)用在有向無權(quán)圖中尋找最短路徑問題,該算法是在1950年由E.F.摩爾,他采用這個算法找到了走出迷宮的弗洛伊德算法是一種尋找?guī)в姓蜇?fù)邊權(quán)值但沒有負(fù)環(huán)的圖中所有點(diǎn)對間的1962年提出了該算法該算法的思想是由圖的帶權(quán)鄰接矩陣開始通過一個狀態(tài)轉(zhuǎn)移n中任意兩點(diǎn)間的最短距離及路徑,但時間復(fù)雜度較高,不適合于大量數(shù)據(jù)的計算。但傳統(tǒng)的廣度優(yōu)先搜索算法只適合于無權(quán)網(wǎng)絡(luò)而我們的問題是針對網(wǎng)絡(luò)的所以,靶間功能相似性計為了計算miRNA間的功能相似性,我們首先需要計算出這兩個miRNA的靶

genei和genej,基于構(gòu)建好的蛋白質(zhì)相互作用網(wǎng)絡(luò)及改的廣度優(yōu)先搜索算法獲得genei和genej間的最短路徑,采用最佳平均累積權(quán)重方法 Fi,jmax

weight(e) 其中,函數(shù)max(x)表示,當(dāng)在蛋白質(zhì)相互作用網(wǎng)絡(luò)中g(shù)enei和genej間存在不只一條最短路徑時,F(xiàn)i,j是其中累積權(quán)重的最大值。如果genei和genej相等,即是同一個,F(xiàn)i,j1。miRNA功能相似性計給定兩個miRNA,miRNAi和miRNAj,它們的靶集分別包含m和n個,一個mn維的功能相似性矩陣。基于這個靶集間的功能相似性矩陣和改進(jìn)的ABM方法,計算出miRNAi和miRNAjABM方法如下所示, maxFx,y

maxFx,yFSTarSeti,

mm'nn其中,n’和m’是兩個靶集中不包括在蛋白質(zhì)相互作用網(wǎng)絡(luò)中的靶數(shù)目實(shí)驗(yàn)結(jié)果與分我們的實(shí)驗(yàn)是針對擬南芥進(jìn)行的,所以,需要擬南芥的成熟體miRNA序列及其mRNA序列。我們從miRBase(21版本)到全部擬南芥成熟體miRNA序列,包括427條序列,成員數(shù)不小于1的有47個,可以聚成30個簇(對于兩個miRNA基10kb,則這兩個miRNA被聚到一個簇中)。擬南芥mRNA自擬南芥數(shù)據(jù)庫TAIR,即其中的所有轉(zhuǎn)錄序列(版本10)。為了驗(yàn)證我們所提出方法的性能優(yōu)劣,需要已知功能相似的miRNA數(shù)據(jù),這里我們選擇那些對相同脅迫具有反應(yīng)的miRNA作為功能相似的miRNA。由于,目前沒有擬126個實(shí)驗(yàn)證實(shí)的擬南芥脅迫反應(yīng)相關(guān)數(shù)據(jù)其中包括了12種非生物脅迫和3中生物脅,屬于相同的成熟體miRNA普遍表現(xiàn)出序列相似性和完全一致的區(qū)域,該區(qū)域是miRNA靶識別時的區(qū)域。因此,相較于不同的miRNA,內(nèi)的miRNA可能具有更高的功能相似性,目前已有很多研究支持了這種觀點(diǎn)。為了評估由PPImiRFS計算所得功能相似性分?jǐn)?shù)的可靠性首先擬南芥成熟體miRNA分為三類:內(nèi)、間和隨機(jī)選擇的miRNA對,其中隨機(jī)選擇的miRNA對既不包括內(nèi)的,也不包括間的miRNA對。然后,用PPImiRFS分別針對這三類miRNA計算功能相似性得分,由于WPPINsGO的三個分支構(gòu)建的,所以,應(yīng)該分別在這三個WPPINsBP、CCMF三個分支計算得到的功能相似性得分如圖所示。我們進(jìn)一步研究三類miRNA對的功能相似性得分,發(fā)現(xiàn)他們之間間功能相似性得分顯著高于間和隨機(jī)選擇的miRNA組(威爾克森秩和檢驗(yàn),結(jié)果,許多成熟體miRNA在組上的位置是極為接近的,進(jìn)而形成一個聚簇。之前已有研究表明,處于相同聚簇內(nèi)的miRNA通常處于同一個多順反子和表現(xiàn)出相同的表達(dá)模式,這些可以進(jìn)一步表明,同一聚簇內(nèi)的miRNA的功能可能是一致的或是相似的。因此,我們也采用聚簇miRNA數(shù)據(jù)測試PPImiRFS的性能,實(shí)驗(yàn)方法與采用數(shù)據(jù)BP、CCMF三個分支上的結(jié)果如圖所示。統(tǒng)計分析的結(jié)果表明,miRNA間的功能相似性得分具有顯著差異(克魯斯卡爾-沃利上的和聚簇數(shù)據(jù),獲得的結(jié)果分別顯示在圖中,與我們的方法得到的結(jié)果相類似,結(jié)果的統(tǒng)計分析分別列在表中。最后,這兩個方法的結(jié)果很好的驗(yàn)證了PPImiRFS的真在本研究中,我們假設(shè)針對一致的生物或非生物脅迫產(chǎn)生反應(yīng)的miRNA,它們間324條成熟體miRNA,它們反應(yīng)于一致的生物或非生物脅迫;另一類是負(fù)測試數(shù)324條不反應(yīng)于一致的生物或非生物脅迫的成熟體miRNA。為了獲得更客觀50組負(fù)測試數(shù)據(jù),然后采用PPImiRFS計算這些數(shù)據(jù)中miRNA間設(shè),即參與一致生物或非生物脅迫反應(yīng)的miRNA具有更高的功能相似性得分。PPImiRFS為了評估PPImiRFS在計算miRNA功能相似性得分上的性能,我們采用已證實(shí)的miRNA脅迫反應(yīng)關(guān)系數(shù)據(jù)測試我們方法的計算性能。首先,從中整理好126個高質(zhì)量的實(shí)驗(yàn)證實(shí)的miRNA脅迫反應(yīng)關(guān)系數(shù)據(jù),其中參與同一脅迫反應(yīng)的不同miRNAmiRNA中任意兩個不同miRNA形成一對,共產(chǎn)生90951個miRNA對。在這些miRNA對中排除掉處于同一、同一聚簇和參與同一脅迫反應(yīng)的miRNA對,剩余的miRNA對作為負(fù)測試數(shù)據(jù)集。對于每一個正測99PPImiRFS計算這100個測試樣本的功能相似性得分。接下來,我們排列每一個正測試樣本與其負(fù)測試樣100個miRNA324324個排列列表,我們分別針對不同閾值計算真正率和假正率。真正率(也叫敏感性或是受試者工作特征曲線(ROC),并計算出曲線下方面積(AUC)。AUC值作為PPImiRFSAUC=100%AUC值越高,則表示PPImiRFSBP、CCMF三個分支構(gòu)建的WPPINs計算得到的AUC值分別為84.15%、79.49%和79.07%。評估結(jié)果表明,我們方法PPImiRFS能重新找回參與同一生物或非生物脅迫反應(yīng)的miRNA化miRNABP分支構(gòu)建的WPPIN上得到的PPImiRFS要比基于CCMF分支獲得更優(yōu)的性能?;谌齻€分支所獲得的ROC曲線顯示在圖,最近,已經(jīng)有一些計算miRNA功能相似性的方法提出,在這部分實(shí)驗(yàn)中,我們選(miRFunSimGOSemSim)PPImiRFSmiRFunSim是2013年由哈爾濱醫(yī)學(xué)一個研究小組,它主要依靠無權(quán)的蛋白質(zhì)相互作用網(wǎng)絡(luò)和靶在網(wǎng)絡(luò)中的最短路徑數(shù)計算miRNA間的功能相似性,該方法只是利用了PPI網(wǎng)絡(luò)的機(jī)構(gòu)特征。一項(xiàng)研究已經(jīng)發(fā)現(xiàn)蛋白質(zhì)相互作用網(wǎng)絡(luò)比無權(quán)的更加有效。所以,我們的方法選擇了的PPI網(wǎng)絡(luò)。因?yàn)镚O數(shù)據(jù)目前還不是很完整,導(dǎo)致GOSemSim在計算功能相似性時會產(chǎn)生很多空值,對計算結(jié)果的正確性產(chǎn)生一定的影響。而PPImiRFS不只考慮了PPIGO語義相似性權(quán)重結(jié)合進(jìn),我們通過分析ROCAUC值來對比三個方法的性能。miRFunSimGOSemSim的ROCAUC值的計算方法與上一部分PPImiRFS所用數(shù)據(jù)也是同樣的數(shù)據(jù),miRFunSimGOSemSimAUC81.23%和73.38%,都比PPImiRFS84.15%小,ROC曲線的對比結(jié)果如圖所示?;谏厦嫣岬降娜齻€方法計算得到的miRNA功能相似性得分,我們可以使用不同的聚類算法對427條成熟體miRNA序列進(jìn)行聚類并用47個作為標(biāo)準(zhǔn)聚簇對聚類PPImiRFSmiRFunSimGOSemSim427個miRNAs90951個miRNA對計算功能相似性得分。然后,基于得到的功能相似性得分構(gòu)建三個miRNA功能相似性網(wǎng)絡(luò)。通過對clusterMaker中的8個聚類算法(AffinityPropagationcluster,AutoSOMEnetworkclustering,ClusterFuzzifier,ConnectedComponentsCluster,FuzzyC-MeansCluster,MCLCluster,SCPSClusterandTransitivityClusteringClusterONE和ConnectedComponentscluster能獲得更好的結(jié)果,所以,最終選擇這兩個聚類算法對427個miRNAs聚類。ClusterONE的基本參數(shù)中,針對PPImiRFS和miRFunSim基于PPImiRFS、miRFunSimGOSemSim計算得到的功能相似性得分和ClusterONE,57、7775。針對PPImiRFS、miRFunSimGOSemSim三個方法,ConnectedComponentscluster0.4、0.550.9,所獲得50516評估,該評估矩陣由精度、率、F-measure、敏感性、陽性預(yù)測值和準(zhǔn)確率。對ClusterONE和ConnectedComponentscluster的評估結(jié)果顯示在圖中。圖顯示使用ClusterONE聚類下,PPImiRFS與其余兩個方法的比較結(jié)果,表明PPImiRFSConnectedComponentclusterGOSemSim構(gòu)建的網(wǎng)絡(luò)獲得了更高的精度和敏感性393個miRNAs的不正常高的敏感性;其他聚簇中的miRNAs大多出現(xiàn)在相同中,這就使得精度相對較高。GOSemSim計算得到的網(wǎng)絡(luò)不如PPImiRFS和miRFunSim得到的網(wǎng)在這一部分,我們采用PPImiRFS計算參與高鹽脅迫反應(yīng)(非生物性)和TMV-Cg脅迫反應(yīng)(生物性)的miRNAs間的功能相似性。首先,參與TMV-Cg脅迫反應(yīng)的miRNAs分為兩個部分:miRNAs和測試miRNAs。測試miRNAs與剩余的擬南芥miRNAs結(jié)合(排除參與TMV-Cg脅迫反應(yīng)后的miRNAs)作為最終的測試最后,我們根據(jù)得到的值將這些miRNA對進(jìn)行排序。當(dāng)閾值設(shè)為0.5時,我們重新找回了大多數(shù)的miRNAs(miR823以外)。我們也預(yù)測到了幾個新的,可能參與TMV-Cg脅迫反應(yīng)的miRNAsmiR165miR156miR418miR160和miR393。針對參與高鹽脅迫反應(yīng)的miRNAs0.5時,我們重新找回了所有的miRNAs,同時也預(yù)測到了一些可能的,參與高鹽脅迫反應(yīng)的miRNAmiR418、miR166、miR160、miR841和miR169。雖然還沒有關(guān)于這些miRNAs參與TMV-Cg和高鹽脅迫反應(yīng)的但是已有文章公布了它們中的一些參與本章小miRNA間功能相似性的計算參與一致生物或非生物脅迫反應(yīng)的miRNAs間的功能比參與不一致脅迫反應(yīng)的miRNAs更相似。通過計算內(nèi)、間和隨機(jī)選取的miRNAs,以及簇內(nèi)、簇間和隨機(jī)選取的miRNAs間的功能相似性值,我們發(fā)現(xiàn),在相同和聚簇中的miRNAs具有更高的功能相似性。這些結(jié)果也表明,我們的方法能夠正確識別不同miRNAs間的相似性和差異性。在于其他相似計算方法的對比中,我們的方法獲得了更加有效和可靠的性能。我們的方法,在量化miRNAs間的功能相似性是,是基于PPI網(wǎng)絡(luò)和預(yù)測的靶集。由于植物PPI網(wǎng)絡(luò)目前的覆蓋率較低,并且通常伴隨著較高的假正率和假負(fù)率同時預(yù)測得到的靶通常也具有較高的假正率因此,隨著PPI網(wǎng)絡(luò)質(zhì)量的不斷提高和性能更好的靶預(yù)測工具的出現(xiàn),我們的方法將能獲PPIGO數(shù)據(jù)可用,PPImiRFS也可以很好的應(yīng)用于miRNA功能的方法復(fù)雜耗時、通量低,以及目前miRNA功能預(yù)測方法不適用于植物等問題。所以,我們基于之前有關(guān)miRNAmiRNA功能miRNA功能預(yù)測的整體miRNA間的功能相似性,這部分采用我們之前的研究成果,即提出的miRNA功能相似性計算方法PPImiRFS;然后,通過基于聚類系數(shù)的閾值選擇方法構(gòu)建miRNA功能相似網(wǎng)絡(luò);最后,在該網(wǎng)絡(luò)上應(yīng)用直推式多分類算法預(yù)測miRNA功能?;诰垲愊禂?shù)的miRNA功能相似網(wǎng)絡(luò)構(gòu)在網(wǎng)絡(luò)中,節(jié)點(diǎn)i的聚類系數(shù)CiCi

kiki1ni表示節(jié)點(diǎn)i前ki個鄰居間邊的數(shù)目,如果ki1,則定義Ci0。最后,該網(wǎng)絡(luò)i,C1Ni,NNN0,定義C0miRNA功能相似網(wǎng)絡(luò)。miRNA功能相似網(wǎng)絡(luò)的構(gòu)建可以看作是通過逐步提高功能相似性閾值的方法,將針對每個閾值tmiRNA功能相似網(wǎng)絡(luò)。在系統(tǒng)生物學(xué)中,一個真實(shí)的生物學(xué)網(wǎng)絡(luò)應(yīng)該是無規(guī)模的和高模塊化的,因此,它的聚類系數(shù)ct應(yīng)該比隨機(jī)網(wǎng)絡(luò)的聚類系數(shù)crt明顯更高。定義ct和crt之間的差值為ctctcrt最大的t

ct0連續(xù)增加到t將這個過程視作離散優(yōu)化問題,即在閾值t01的過程中,臨界閾值應(yīng)該是第一個使得ct0.01ct0的那個閾值t。數(shù),所以,采用統(tǒng)計學(xué)方法計算隨機(jī)網(wǎng)絡(luò)的聚類系數(shù)。在使用閾值t構(gòu)建的網(wǎng)絡(luò)中,假NKi是節(jié)點(diǎn)i的度,那么隨機(jī)網(wǎng)絡(luò)的聚類系數(shù)crt能用以下公crt

k2k,kk

NN

和k2

NNk2。最終,利用得到的閾值Tt,構(gòu)建出1i1i功能相似性網(wǎng)絡(luò)。該網(wǎng)絡(luò)表示為GVE,W,T,其中,VmiR1miR2,miRN1i1i絡(luò)中包含的節(jié)點(diǎn)Eeij

|FSmiRmiRimiRjT表示功能相似性值大或等于閾值T的miRNA對之間的邊,其中,WFSmiRmiRimiRj表示相連兩基于直推式多分類算法的miRNA功能預(yù)直推式學(xué)習(xí)是由Vapnik在1998年直推式學(xué)習(xí)將所有無數(shù)據(jù)視為測試多分注釋等。本文所研究的miRNA功能預(yù)測也屬于多分類的范疇。直推式多分類算通過與其他多分類算法比較分析,最終采用在2011年直推式多標(biāo)簽分類算法預(yù)測miRNA功能。該算法基于全體樣本(包括有和無樣本)無樣本最優(yōu)組成的公式,如下所示。 niUj

iji

0,

jijjijijiL.其中,U表示無樣本的索引集,L表示有樣本的索引集,Ni表示樣本xi的個最近鄰的索引集,Wiz表示樣本xi和xz之間的相似性權(quán)重,并且保證zWiz i , ,T表示樣本 i

li在其組mm中所占比例,并且保證ij1。由于在 j組成,所以,假定被標(biāo)記的類擁有相同的權(quán)重,即ij,其定義如下所示,,

ifli

iL.,

其中Yi表示樣本xi的集。將公式(7)經(jīng)過一系列的簡化和推導(dǎo)變換,最終得到如 AjAj0. UL UU其中AIW,I為單位矩陣,W為樣本間相似矩陣,并且A ALU。由 UULjLj2數(shù)量。因此,與公式(7)類似,可以得到如下評估無樣本功能數(shù)量的公21,

iWizz s.t.iYiiL.AUUUAULL其中

L nT nTU實(shí)驗(yàn)結(jié)果與分實(shí)驗(yàn)中采用的擬南芥miRNA數(shù)據(jù)自miRNA數(shù)據(jù)庫miRBase(版本21,2014年6月發(fā)布)。該版本包含427條擬南芥成熟體miRNA序列。擬南芥mRNA數(shù)據(jù)自擬南芥數(shù)據(jù)庫TAIR(10),33602條擬南芥mRNA序列數(shù)據(jù)。擬南芥擬南芥mRNA的GO數(shù)據(jù)自擬南芥數(shù)據(jù)庫TAIR,總共包含28397條mRNA與5322條GO間的329133對mRNA-GO數(shù)據(jù),其中BP、CC和MF三個分支分別 和83468對mRNA-GO數(shù)據(jù)。將的擬南芥mRNA數(shù)據(jù)與集成的PPIN數(shù)據(jù)進(jìn)行對比,將PPIN中不存在的mRNAmiRNA功能相似矩陣和miRNA功能標(biāo)0的行和列去除,同時要保證兩個矩陣一致。RankingLossAveragePrecision和Coverage,假定測試集為,xn,,xn,

RankingLoss(排序損失)評估不相關(guān)類標(biāo)相比于相關(guān)類標(biāo)排序更高的平均比例,D1D1,Yi |{(y,y)Yi 其中Yii個樣本的

向量,Yi為Yi的補(bǔ)集,即第i個樣本沒有的GO量。RankingLoss0,1RankingLoss0,則性能AveragePrecision(平均精度)AvePrecf,Duy'1y' 1coverage(f) max p

其中rankf(,)來源于真實(shí)值函數(shù)f(,),即針對于任意的yYall,將函數(shù)f(xi,y)的輸出比對到1,2, ,Q上。例如,如果f(xi,y1)f(xi,y2),那么rankf(xi,y1)rankf(xi,y2)。這里Yall和Q分別是所有可能的GO的向量和數(shù)目。本文所研究的基于miRNAmiRNA功能的方法,本質(zhì)上就是基法,即直推式多分類(TRAM、有重啟的隨機(jī)(RandomWalker和多K最近鄰(MLKNNmiRNA功能相似網(wǎng)絡(luò)和miRNA-GO功能網(wǎng)絡(luò),通過對比三種方法的各項(xiàng)性能指標(biāo),最終選擇最適合miRNA功能預(yù)測的算法。有重啟的RandomWalker算法中存在一個表示粒子每步時的重啟概率,所0.050.950.05為步長連續(xù)取不同的值進(jìn)行實(shí)驗(yàn),最終選出性能最好的MLKNNs和最近鄰個數(shù)k,實(shí)驗(yàn)中分別對其賦值為s1和k10105折交叉驗(yàn)證進(jìn)行實(shí)驗(yàn)。由于在GO的三個分支上分別構(gòu)建了miRNA-GO功能矩陣,因此,分別在這三個矩陣上進(jìn)行實(shí)驗(yàn)。三種算法在三個miRNA-GO功能矩陣上的實(shí)驗(yàn)結(jié)234所示。表格中每個指標(biāo)后面的符號“↑”表示該指標(biāo)的值越大,算本章miRNAPPIN數(shù)據(jù)和相關(guān)圖算法計算miRNA間的功能相似性并采用基于聚類系數(shù)的閾值選擇算法構(gòu)建miRNA功能相似性網(wǎng)絡(luò),最后將直推式多分類算法應(yīng)用于該網(wǎng)絡(luò)上對miRNA的功能進(jìn)行預(yù)測。將該方法應(yīng)用于擬南芥數(shù)據(jù),獲得了十分滿意的性能。由于該方法中的miRNAPPIN數(shù)據(jù)構(gòu)建的,而目前植物中只有擬南芥有相對足夠的數(shù)據(jù),miRNA功能相似網(wǎng)絡(luò)。所以,該功能PPIN數(shù)據(jù)足夠時,也可以很好 用近鄰聚類方法解決集成學(xué)習(xí)方法在相關(guān)的表達(dá)數(shù)據(jù)分類中遇到的選擇和分類方法。針對選擇方法,介紹了幾種常用排序方法,詳細(xì)介紹了SVM分類方法,同時還介紹了不平然后對傳統(tǒng)的基于數(shù)據(jù)擾動的排序聚合技術(shù)進(jìn)行了改進(jìn)針對獲得的子集存在冗余以及最終選擇的子集可能忽視單次排序的部分的問題對所有單次排序的TopK個以bior系數(shù)為關(guān)聯(lián)衡量標(biāo)準(zhǔn)利用近鄰聚類算法進(jìn)行聚類分組從各組中選擇具有代表性的互不關(guān)聯(lián)的作為最終的子集,并通過實(shí)驗(yàn)驗(yàn)證了方法的有效性接著在選擇的基礎(chǔ)上針對單個自己分類性能有限冗余的與樣本分類相關(guān)的也具有很強(qiáng)區(qū)分能力的問題,借鑒分組集成選擇方法的思想在基于近鄰聚類的融合選擇的基礎(chǔ)上從聚類獲得的各個分組中采用隨機(jī)選擇的方式,構(gòu)建多個存在差異性的子集用于訓(xùn)練基分類器進(jìn)行集成在7個表達(dá)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明方法分類誤差較低分類性能穩(wěn)定,可擴(kuò)展性好。Top_K值是今后研究的一個方向;本文第四章集成特征選擇方法重點(diǎn)關(guān)注的是多樣性基分類器的生STEWARTBW,WILDCP.WorldCancerReport2014.WorldHealthOrganization,LUY,HANJ.Cancerclassificationusinggeneexpressiondata[J].InformationSystems,2003,28(4):243-268.GOLUBTR,SLONIMDK,TAMAYOP,etal.Molecularclassificationofcancer:classdiscoveryandclasspredictionbygeneexpressionmonitoring[J].science,1999,286(5439):531-537.PANF,WANGB,HUX,etal.Comprehensiveverticalsample-basedKNN/LSVM2004,37(4):240-248.KRS.MicroarrayDataClassificationUsingSupportVectorMachine[J].InternationalJournalofBiometricsandBioinformatics(IJBB),2011,5(1):10.KELEMENA,ZHOUH,LAWHEADP,etal.NaiveBayesianclassifierformicroarraydata[C]//NeuralNetworks,2003.ProceedingsoftheInternationalJointConferenceon.IEEE,2003,3:1769-1773.HORNGJT,WULC,LIUBJ,etal.Anexpertsystemtoclassifymicroarraygeneexpressiondatausinggeneselectionbydecisiontree[J].ExpertSystemswithApplications,2009,36(5):9072-9081.CHOJH,LEED,PARKJH,etal.Geneselectionandclassificationfrommicroarraydatausingkernelmachine[J].FEBSletters,2004,571(1):93-98.TANAC,GILBERTD.Ensemblemachinelearningongeneexpressiondataforcancerclassification[J].2003.DIETTERICHTG.Ensemblemethodsinmachinelearning[M]//Multipleclassifiersystems.SpringerBerlinHeidelberg,2000:1-15.OPITZDW.Featureselectionforensembles[C]//AAAI/IAAI.1999:379-LINWJ,CHENJJ.Class-imbalancedclassifiersforhigh-dimensionaldata[J].Briefingsinbioinformatics,2013,14(1):13-26.SAEYSY,ABEELT,VANdePeerY.Robustfeatureselectionusingensemblefeatureselectiontechniques[M]//Machinelearningandknowledgediscoveryindatabases.SpringerBerlinHeidelberg,2008:313-325.BOULESTEIXAL,SLAWSKIM.Stabilityandaggregationofrankedgenelists[J].Briefingsinbioinformatics,2009,10(5):556-568.WALDR,KHOSHGOFTAARTM,DITTMAND,etal.Anextensivecomparisonoffeaturerankingaggregationtechniquesinbioinformatics[C]//InformationReuseandIntegration(IRI),2012IEEE13thInternationalConferenceon.IEEE,2012:377-DETTLINGM,BüHLMANNP.Boostingfortumorclassificationwithgeneexpressiondata[J].Bioinformatics,2003,19(9):1061-1069.DETTLINGM.BagBoostingfortumorclassificationwithgeneexpressiondata[J].Bioinformatics,2004,20(18):3583-3593.BERTONIA,FOLGIERIR,VALENTINIG.Bio-molecularcancerpredictionwithrandomsubspaceensemblesofsupportvectormachines[J]. puting,2005,63:HOTK.Therandomsubspacemethodforconstructingdecisionforests[J].PatternysisandMachineInligence,IEEETransactionson,1998,20(8):832-844.HUH,LIJ,WANGH,etal.A formicroarraydataclassification[C]//Proceedingsofthe2006workshoponInligentsystemsforbioinformatics-Volume73.AustralianComputerSociety,Inc.,2006:35-38.AHNH,MOONH,FAZZARIMJ,etal.Classificationbyensemblesfromrandompartitionsofhigh-dimensionaldata[J].ComputationalStatistics&Dataysis,2007,51(12):6166-6179.LIUH,LIUL,ZHANGH.Ensemblegeneselectionbygrouformicroarraydataclassification[J].Journalofbiomedicalinformatics,2010,43(1):81-8

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論