基于多視角特征融合與隨機(jī)森林的蛋白質(zhì)結(jié)晶預(yù)測(cè)_第1頁(yè)
基于多視角特征融合與隨機(jī)森林的蛋白質(zhì)結(jié)晶預(yù)測(cè)_第2頁(yè)
基于多視角特征融合與隨機(jī)森林的蛋白質(zhì)結(jié)晶預(yù)測(cè)_第3頁(yè)
基于多視角特征融合與隨機(jī)森林的蛋白質(zhì)結(jié)晶預(yù)測(cè)_第4頁(yè)
基于多視角特征融合與隨機(jī)森林的蛋白質(zhì)結(jié)晶預(yù)測(cè)_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于多視角特征融合與隨機(jī)森林的蛋白質(zhì)結(jié)晶預(yù)測(cè)摘 要: X 射線晶體結(jié)構(gòu)分析是測(cè)定蛋白質(zhì)結(jié)構(gòu)的重 要方法之一,國(guó)際蛋白質(zhì)數(shù)據(jù)庫(kù)( PDB )中已知晶體結(jié)構(gòu)的 蛋白質(zhì)80%90%均是使用該方法得到的。然而,并不是所 有的蛋白質(zhì)都能良好結(jié)晶,使用晶體結(jié)構(gòu)分析方法對(duì)不能結(jié) 晶的蛋白質(zhì)進(jìn)行結(jié)構(gòu)測(cè)定將浪費(fèi)大量的資源。因此,研發(fā)準(zhǔn) 確高效的算法來(lái)對(duì)蛋白質(zhì)能否結(jié)晶進(jìn)行預(yù)測(cè)就具有重要意 義。在此提出了一種組合蛋白質(zhì)物理化學(xué)特性、序列信息與 進(jìn)化信息的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法。該方法從不同視角抽取分 別抽取蛋白質(zhì)的物理化學(xué)特征、偽氨基酸組成特征(PseAAC)和偽位置特異性得分矩陣特征(PsePSSM),使用隨機(jī)森林對(duì)

2、組合的特征進(jìn)行蛋白質(zhì)結(jié)晶預(yù)測(cè)。在標(biāo)準(zhǔn)數(shù)據(jù) 集上的獨(dú)立測(cè)試驗(yàn)證的結(jié)果表明,這里所述的蛋白質(zhì)結(jié)晶預(yù) 測(cè)方法具有良好的性能。關(guān)鍵詞: 蛋白質(zhì)結(jié)晶; 偽氨基酸組成; 位置特異性 得分矩陣; 隨機(jī)森林中圖分類號(hào): TN911?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X ( 2015) 08?0050?04Protein crystallization prediction based on fusion ofmulti?view featuresand random forestLI Qiang1 , ZHENG Yu?jie2( 1. School of Computer Science

3、and Engineering , NUST , Nanjing 210094 , China;2. The 28th Research Institute , China Electronics Technology Group Corporation , Nanjing 210007 , China )Abstract : The X?ray crystallography analysis is one of the important methods to measure protein structure , by which 80% 90% protein of the known

4、 crystalloid structures in the international protein data bank (PDB ) has been obtained. However, not all the proteins used for determining structures are crystallizable, which will lead to a low success rate of crystallization projects and a serious waste of resources to measure those non?crystalli

5、zable protein. Hence, it is important to develop an accurate and effective method for predicting whether a protein will crystallize. In this study , a new protein crystallization prediction method to combine the protein physicochemical characteristic , serial information and evolutionary information

6、 is proposed , which extracts the protein physicochemical properties , pseudo amino acids composition (PseAAC) and pseudo position specific scoring matrix (PsePSSM) at different visual angle respectively. The random forest is taken as classifier predict protein crystallization of the combined Proper

7、ties. Experimental results on benchmark dataset over cross?validation test and independent validation test show that the proposed method has perfect performance.Keywords : protein crystallization ; pseudo amino acids composition ; position specific scoring matrix ; random forest 蛋白質(zhì)的功能特性與它的三維結(jié)構(gòu)密切相關(guān)。

8、準(zhǔn)確獲取 蛋白質(zhì)的三維結(jié)構(gòu)信息對(duì)于理解蛋白質(zhì)的功能以及蛋白質(zhì) 與其他生物小分子的相互作用至關(guān)重要。 X 射線晶體結(jié)構(gòu)分 析、核磁共振光譜法( NMR )以及電子顯微鏡是測(cè)定蛋白質(zhì) 三維結(jié)構(gòu)的常用方法。然而,并不是所有的蛋白質(zhì)都能良好 結(jié)晶,使用 X 射線晶體結(jié)構(gòu)分析方法對(duì)不能結(jié)晶的蛋白質(zhì)進(jìn) 行結(jié)構(gòu)測(cè)定將浪費(fèi)大量的資源。因此,研發(fā)準(zhǔn)確高效的算法 來(lái)對(duì)蛋白質(zhì)能否結(jié)晶進(jìn)行預(yù)測(cè)就具有重要意義。目前,研究人員已經(jīng)研發(fā)出很多預(yù)測(cè)蛋白質(zhì)結(jié)晶的有效 方法,如: OB?score, CRYSTALP , XtalPred , ParCrys, MetaPPCP, CRYSTALP2 , MCSG?Z score

9、, PCCpred,以及 RFCRYS 等。分析這些方法可以發(fā)現(xiàn):( 1)氨基酸組成成分 ( Amino Acids Composition , AAC ) 以及偽氨基酸組成成分( Pseudo Amino Acids Composition , PseAAC)是常用的特征表示方法;此外,氨基酸的物理化 學(xué)屬性以及通過(guò)預(yù)測(cè)方法獲得的蛋白質(zhì)結(jié)構(gòu)屬性也往往被用于蛋白質(zhì)的特征表示;(2) 蛋白質(zhì)的進(jìn)化信息是一種有效的特征表示方法,并且已經(jīng)被廣泛地應(yīng)用于很多 蛋白質(zhì)屬性預(yù)測(cè),但是,蛋白質(zhì)結(jié)晶預(yù)測(cè)方法中沒(méi)有一個(gè)使 用蛋白質(zhì)的進(jìn)化信息來(lái)進(jìn)行特征表示;(3)雖然現(xiàn)有方法在蛋白質(zhì)結(jié)晶預(yù)測(cè)問(wèn)題上取得了重 要進(jìn)展

10、,但是預(yù)測(cè)性能還有進(jìn)一步提高的空間。基于上述分析,本文首先考察蛋白質(zhì)進(jìn)化信息能否用于 蛋白質(zhì)結(jié)晶預(yù)測(cè)問(wèn)題的特征表示。然后,將蛋白質(zhì)物理化學(xué) 信息、序列信息及進(jìn)化信息進(jìn)行組合用于蛋白質(zhì)結(jié)晶預(yù)測(cè), 以進(jìn)一步提高預(yù)測(cè)性能。在標(biāo)準(zhǔn)數(shù)據(jù)集上的交叉驗(yàn)證及獨(dú)立 測(cè)試驗(yàn)證的結(jié)果表明,本文所述的方法具有良好的性能,是 對(duì)現(xiàn)有蛋白質(zhì)結(jié)晶預(yù)測(cè)方法的有益補(bǔ)充。1 數(shù)據(jù)來(lái)源數(shù)據(jù)集 S 表示為:S=S+?S- ( 1)式中:S+表示正樣本集,其中包含的是能結(jié)晶的蛋白質(zhì) 序列;S-表示負(fù)樣本集,其中包含的是不能結(jié)晶的蛋白質(zhì)序 列;符號(hào) ?表示集合理論中的并集。本文中使用Kurgan 等構(gòu)建的數(shù)據(jù)集 1 ,該數(shù)據(jù)集包含一個(gè)訓(xùn)

11、練子集(Train1500 )和一個(gè)獨(dú)立測(cè)試子集(Test500)。Train1500中包含756個(gè)正 樣本和744個(gè)負(fù)樣本,Test500中包含244個(gè)正樣本和 256 個(gè)負(fù)樣本。為了進(jìn)一步驗(yàn)證本文所述方法的泛化能力,還使用了 Overton等人構(gòu)建的另外一個(gè)獨(dú)立測(cè)試集Test144,其中包含 72 個(gè)正樣本和 72 個(gè)負(fù)樣本 2 。在數(shù)據(jù)集的構(gòu)建過(guò)程, 已經(jīng)考慮了蛋白質(zhì)之間的同源冗余性消除,蛋白質(zhì)序列之間 的同源性 1 小于 25% 。2 多視角特征提取2.1 物理化學(xué)特征 蛋白質(zhì)的一些物理化學(xué)性質(zhì)對(duì)蛋白質(zhì)能否結(jié)晶有著重 要影響。因此,本文依據(jù)氨基酸屬性集 AAIndex1 ,篩選出 7

12、個(gè)物理化學(xué)性質(zhì): 疏水性指數(shù)、 平均極性、 正電荷、 負(fù)電荷、 凈電荷、等電位和分子質(zhì)量。每條蛋白質(zhì)的上述 7 個(gè)物理化 學(xué)性質(zhì)構(gòu)成一個(gè)維數(shù)為 7 的特征向量。2.2 偽氨基酸組成成分特征提取PseAAC是由Chou在經(jīng)典的 AAC特征基礎(chǔ)上提出來(lái)的, 分為I型和型。一個(gè)蛋白質(zhì)的口型 PseAAC特征向量可表 示為20+i入(其中i表示生成PseAAC時(shí)使用的氨基酸屬性 的數(shù)量,入表示序列相關(guān)因子)。PseAAC生成方法如下:4 實(shí)驗(yàn)結(jié)果和討論4.1 獨(dú)立測(cè)試驗(yàn)證結(jié)果表 1 和表 2分別列出了本文方法與其他蛋白質(zhì)結(jié)晶預(yù)測(cè)方法在獨(dú)立測(cè)試集 Test144及Test500上的性能對(duì)比3。圖1 給出

13、了本文方法在獨(dú)立測(cè)試集 Test144和Test500上的ROC 曲線。從表 1 可以看出,在 Test144 獨(dú)立測(cè)試上,本文所述方 法的亦獲得了較好的性能, Acc 以及 MCC 分別為 81.94% 和 0.64,取得了和 RFCRYS 相當(dāng)?shù)念A(yù)測(cè)性能。另一方面,雖然 OB?score 的 Sen 達(dá)到了 88.00%,但是其 Spe 僅僅為 47.00% , 表明 OB?score 方法的預(yù)測(cè)結(jié)果中存在大量的假陽(yáng)性(FP)。表2在Test500獨(dú)立測(cè)試集上的性能對(duì)比從表 2的結(jié)果來(lái)看,本文所述方法在獨(dú)立測(cè)試集 Test500 上再次取得了最好的性能。 Spe、Acc 以及 MCC 分別

14、為 83.98%,83.80%和 0.68,比 RFCRYS 分別高出了約 9%,2% 以及 7%。結(jié)合表 1及表 2的結(jié)果,可以看出本文所述的方 法較之于已有的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法有著更為良好的泛化 能力。這得益于使用了多種有效的蛋白質(zhì)特征以及強(qiáng)有力的 隨機(jī)森林分類算法。5 結(jié)語(yǔ) 本文提出一種組合蛋白質(zhì)物理化學(xué)特征、偽氨基酸組成 特征以及偽位置特異性得分矩陣特征的蛋白質(zhì)結(jié)晶預(yù)測(cè)方 法。該方法同時(shí)利用了蛋白質(zhì)的序列及進(jìn)化信息,因此所抽 取的特征更具有鑒別能力。在標(biāo)準(zhǔn)數(shù)據(jù)集上獨(dú)立測(cè)試驗(yàn)證結(jié) 果表明,本文所述的方法具有良好的性能,是對(duì)已有蛋白質(zhì) 結(jié)晶預(yù)測(cè)方法的有益補(bǔ)充。參考文獻(xiàn)1 KURGAN L

15、, RAZIB A A , AGHAKHANI S , et al.CRYSTALP2 : sequence?based protein crystallization propensity prediction J. BMC Structural Biology , 2009 , 9: 50?63.2 OVERTON I M , PADOVANI G , GIROLAMI M A , et al. ParCrys: a Parzen window density estimation approach to protein crystallization propensity prediction J. Bioinformatics , 2008, 24( 7): 901?907.3 JAHANDIDEH S , MAHDA VI A. RFCRYS : Sequence?based protein crystallization propensity prediction by means of random forest J. Journal of Theoretical Biology , 2012, 306: 115?11

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論