基于圖形表示的蛋白質(zhì)二級(jí)結(jié)構(gòu)序列的比較.docx_第1頁(yè)
基于圖形表示的蛋白質(zhì)二級(jí)結(jié)構(gòu)序列的比較.docx_第2頁(yè)
基于圖形表示的蛋白質(zhì)二級(jí)結(jié)構(gòu)序列的比較.docx_第3頁(yè)
基于圖形表示的蛋白質(zhì)二級(jí)結(jié)構(gòu)序列的比較.docx_第4頁(yè)
基于圖形表示的蛋白質(zhì)二級(jí)結(jié)構(gòu)序列的比較.docx_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于圖形表示的蛋白質(zhì)二級(jí)結(jié)構(gòu)的比較作者:?jiǎn)挝唬捍筮B交通大學(xué)摘要:蛋白質(zhì)結(jié)構(gòu)的比較已經(jīng)成為當(dāng)前生命科學(xué)研究的重要內(nèi)容。本文給出了蛋白質(zhì)二級(jí)結(jié)構(gòu)的一種新的2-D圖形表示,把蛋白質(zhì)二級(jí)結(jié)構(gòu)轉(zhuǎn)化成平面上的點(diǎn)列,根據(jù)點(diǎn)列的分布特點(diǎn)得到其擬合曲線,并利用a-螺旋、卩-折疊和無(wú)規(guī)則卷曲結(jié)構(gòu)的頻率構(gòu)造三維向量來(lái)描述蛋白質(zhì)二級(jí)結(jié)構(gòu)的屬性,對(duì)1ayd等12個(gè)蛋白質(zhì)二級(jí)結(jié)構(gòu)進(jìn)行相似性比較,得到了較好的結(jié)果。本方法簡(jiǎn)單快速,為蛋白質(zhì)二級(jí)結(jié)構(gòu)比較提供了新的手段。關(guān)鍵詞:蛋白質(zhì)二級(jí)結(jié)構(gòu);圖形表示;特征序列頻率;曲線擬合引言蛋白質(zhì)是生物體內(nèi)占有特殊地位的生物大分子,它是生物體的基本構(gòu)件,也是生命活動(dòng)的重要物質(zhì)基礎(chǔ),幾乎一切

2、生命現(xiàn)象都要通過(guò)蛋白質(zhì)的結(jié)構(gòu)和功能而體現(xiàn)出來(lái)。因此,在分子生物學(xué)中,深刻闡明蛋白質(zhì)的結(jié)構(gòu)和功能,是探索生命奧秘的最基本任務(wù)。具有相似結(jié)構(gòu)的兩個(gè)蛋白質(zhì),其氨基酸序列可能相差很大,甚至完全不同。原因在于,趨同進(jìn)化作用使得兩個(gè)不同進(jìn)化源點(diǎn)出發(fā)的蛋白質(zhì)可以折疊得到相似的空間結(jié)構(gòu)。所以,需要在結(jié)構(gòu)上對(duì)蛋白質(zhì)進(jìn)行比較以發(fā)現(xiàn)具有相似結(jié)構(gòu)的蛋白質(zhì)。蛋白質(zhì)結(jié)構(gòu)的比較已經(jīng)成為當(dāng)前生命科學(xué)研究的重要內(nèi)容。通過(guò)比較蛋白質(zhì)結(jié)構(gòu),可以發(fā)現(xiàn)蛋白質(zhì)的共性,發(fā)現(xiàn)屬于同一家族蛋白質(zhì)的保守結(jié)構(gòu),發(fā)現(xiàn)與蛋白質(zhì)功能密切相關(guān)的結(jié)構(gòu)域。目前為止,蛋白質(zhì)結(jié)構(gòu)的比較有多種方法:球體法(球殼法)(BALL)、三維網(wǎng)格法(GRID)、球面映射法(

3、SPH)和扇形法(SPH);蛋白質(zhì)結(jié)構(gòu)的拓?fù)浔容^可以較好地解決幾何比較方法中由于蛋白質(zhì)結(jié)構(gòu)內(nèi)部頻繁的原子動(dòng)態(tài)性而引起的問(wèn)題。Gilbert等采用模式匹配技術(shù)從TOPS圖獲得超二級(jí)結(jié)構(gòu)的模式,從而獲得結(jié)構(gòu)域信息3。在分析點(diǎn)集的空間分布時(shí),Voronoi圖起著重要的作用,PouponAnne利用Voronoi圖來(lái)分析蛋白質(zhì)結(jié)構(gòu)問(wèn)題4,5。張任給出了一種蛋白質(zhì)二級(jí)結(jié)構(gòu)序列的圖形表示6,該方法追蹤每一時(shí)刻之前的三種蛋白質(zhì)二級(jí)結(jié)構(gòu)單元的頻率,然后將這三個(gè)頻率按照一定的法則對(duì)應(yīng)到平面上的一個(gè)點(diǎn),再將這些點(diǎn)順次連接起來(lái),得到一個(gè)曲線,命名為S曲線。接著,他們利用S曲線來(lái)研究劃分蛋白質(zhì)結(jié)構(gòu)。以上這些方法往往計(jì)

4、算比較簡(jiǎn)單,空間占用大,雖然得到的比較結(jié)果不是很精確,但是有助于快速地剔除差異性較大的對(duì)象7。針對(duì)這些問(wèn)題,本文提出了蛋白質(zhì)二級(jí)結(jié)構(gòu)的一種新的2-D圖形表示,把蛋白質(zhì)二級(jí)結(jié)構(gòu)轉(zhuǎn)化成平面上的點(diǎn)列,根據(jù)點(diǎn)列的分布特點(diǎn)得到其擬合曲線,并利用a-螺旋、B-折疊和無(wú)規(guī)則卷曲結(jié)構(gòu)的頻率構(gòu)造三維向量來(lái)描述蛋白質(zhì)二級(jí)結(jié)構(gòu)的屬性,對(duì)layd等12個(gè)蛋白質(zhì)二級(jí)結(jié)構(gòu)進(jìn)行相似性比較。蛋白質(zhì)二級(jí)結(jié)構(gòu)序列的2-D圖形表示蛋白質(zhì)二級(jí)結(jié)構(gòu)的特征序列DSSP是一個(gè)二級(jí)結(jié)構(gòu)標(biāo)準(zhǔn)化定義系統(tǒng)。DSSP根據(jù)蛋白數(shù)據(jù)庫(kù)(PDB)中的原子坐標(biāo)定義蛋白質(zhì)二級(jí)結(jié)構(gòu)、幾何特征等,它將每一個(gè)氨基酸殘基的二級(jí)結(jié)構(gòu)定義為a-螺旋、B-折疊和無(wú)規(guī)則卷曲

5、等結(jié)構(gòu)。hlftRWFHPXITGVEAEbJLLLTIRC3口口5;FLARPSKSHPGDFTLSVRRN口AVTHItUQiHICliDVeiA丁心75暑。S52忙I55lAo圖1蛋白質(zhì)1ayd的二級(jí)結(jié)構(gòu)圖1給出了蛋白數(shù)據(jù)庫(kù)(PDB)代碼為1ayd的蛋白質(zhì)二級(jí)結(jié)構(gòu),該蛋白質(zhì)屬于a+p結(jié)構(gòu)類(lèi)。在這個(gè)圖中,波浪部分代表a-螺旋,粗箭頭部分代表B-折疊,分別用H和E來(lái)描述,其余的無(wú)規(guī)則卷曲部分用C來(lái)描述。這樣,一個(gè)蛋白質(zhì)二級(jí)結(jié)構(gòu)序列由3個(gè)抽象字符構(gòu)成。以蛋白質(zhì)1ayd為例說(shuō)明,位置處在84至93這段部分的子序列和子結(jié)構(gòu)如圖2所示。戢毘庠列HHCQI.KEKNGIIIIIIIIII二級(jí)纟吉枸CH

6、HHQEEQOG圖2蛋白質(zhì)1ayd的二級(jí)結(jié)構(gòu)特征序列由DSSP方法得到12個(gè)蛋白質(zhì)的二級(jí)結(jié)構(gòu)序列,見(jiàn)表17。表112個(gè)蛋白質(zhì)的二級(jí)結(jié)構(gòu)特征序列PDB代碼二級(jí)結(jié)構(gòu)序列1mbaCCCCHHHHHHHHHHHHHHHHCHHHHHHHHHHHHHHHCHHHHHHCCCCCCCCHHHHHCCCCHHHHHHHHHHHHHHHHHHCCCHHHHHHHHHHHHHHHHHCCCCHHHHHHHHHHHHHHHHCCCCCCCCHHHHHHHHHHHHHHHHHHCCC1rcbCCCCCHHHHHHHHHHHHHHCCCCCCCCEEECHHHCCCCCCHHHHHHHHHHHHHHHHHHHCCCC

7、CCCCCCHHHHHHHHHHHHHHHHHHHHHHHHHCCCCCCCCCCCEEEHHHHHHHHHHHHHHHHHHHHC2hmqaCCCCCCCCCCCHHHCCCCCCCCHHHHHHHHHHHHHHHHCCCHHHHHHHHHHHHHHHHHHHHHHHHCCCCCHHHHHHHHHHHHHHHHCCCCCHHHHHHHHHHHHHHCCHHHCCCC1plcCEEEECCCCCCCCEECCEEEECCCCEEEEEECCCCCCCCEECCCCCCCCCCHHHHCCCCCCCCCCCCCEEEEECCCCEEEEEECHHHCCCCCEEEEEEC4fgfCCEEEECC

8、CCEEEEECCCCCEEEECCCCCHHHCEEEEEEECCEEEEEECCCCEEEEECCCCCEEEECCCCHHHCEEEEECCCCCEEEEECCCCCCCCCCCCCCCCCCHHHCCCCCHHHCEEEEC1noaCCCEEEEECCCCCCCCCEEEEEEECCCCCCEEEEEEEEEEECCEEEECHHHCEEEECCCCCCEEEEEECCCEEEEECCCCCEEEEEECCCCCEEEEEECCCCCCCCCEECCCC1shaCCCCEEECCCHHHHHHHHCCCCCCCCCEEEEECCCCCCCEEEEEEEEECCCEEEEEEEEEEEC

9、CCCCEECCCCCEECCHHHHHHHHCCCCCCCCCCCCCCCCC1ubqCEEEEEECCCCEEEEECCCCCCHHHHHHHHHHHHCCCHHHEEEEECCEECCCCCCCHHHCCCCCCEEEEEECCCCC1aydCCCCCCCCCCHHHHHHHHHHHCCCCEEEEEECCCCCCCEEEEEEECCEEEEEEEEECCCCEECCCCCCCCCHHHHHHHHHHCHHHCEECCCEECCCCEECC1wsyaCHHHHHHHHHHCCCCCCEEEEEEECCCCCHHHHHHHHHHHHHCCCCCEEEECCCC2pgdICCCCEEEECC

10、CHHHHHHHHHHHHCCCCEEEECCCCHHHHHHHHCCCCCCCCEECCCHHHHHHHHCCCCCEEEECCCCCHHHHHHHHHHHHHCCCCCEEEECCCCCHHHHHHHHHHHHHCCCEEEEEEEECHHHHHHHCCEEEEEECCCCHHHHHHHHHHHCCCCCCCCCCCCCCCCCCCCCCCCEECCHHH2trxaCCCEEECCCCCHHHHCCCCCCEEEEEEECCCCHHHHHHHHHHHHHHHHCCCCEEEEEEECCCCCCHHHHCCCCCCCEEEEEECCEEEEEEECCCCHHHHHHHHHHHHC蛋白質(zhì)二級(jí)結(jié)

11、構(gòu)的2-D圖形表示設(shè)G=gi篤是蛋白質(zhì)二級(jí)結(jié)構(gòu)序列的特征序列,我們給出一種蛋白質(zhì)二級(jí)結(jié)構(gòu)序列的“正方形”圖形表示,首先定義一個(gè)映射o,將g映射為一個(gè)點(diǎn)列,e(G)二機(jī)g)機(jī)g)。12其中:1)業(yè)g,如果g2i(E+e(gj,如果g2i(l,)+e(g,1),如果gi這種映射方式我們稱(chēng)之為HCE正方形模式。例如,利用(1)式可得到蛋白質(zhì)layd二級(jí)結(jié)構(gòu)特征序列的子序列CHHHCEECCC對(duì)應(yīng)的點(diǎn)列:(0.5000,0.5000),(0.2500,0.7500),(0.1250,0.8750),(0.0625,0.9375),(0.5313,0.9688),(0.7656,0.4844),(0.8

12、828,0.2422),(0.9414,0.6211),(0.9707,0.8105),(0.9854,0.9053),及平面上的2-D圖,如圖3所示。圖3蛋白質(zhì)1ayd二級(jí)結(jié)構(gòu)特征序列的子序列CHHHCEECCC的2-D圖形表示(HCE正方形模式)利用(1)式得到表1中12個(gè)蛋白質(zhì)的二級(jí)結(jié)構(gòu)的2-D圖形表示,見(jiàn)圖4。t4*6g*0-o:5-暢d00P哼41S&込%-V-C-o*iI0kL亠0.52pgdl1JQ:沁&圖12個(gè)2-D圖形表示(H、C、E的全排列共有6種,所以可得到6種正方形模式,本文主要討論HCE正方形模式,其它模式類(lèi)似。從圖4中,可以知道H落在圖像的第一部分,C落在第二部分,

13、E落在第四部分,這些點(diǎn)不會(huì)落在正方形以外,這樣可以節(jié)省表示空間。2-D圖形表示的應(yīng)用3.1二次曲線擬合根據(jù)蛋白質(zhì)二級(jí)結(jié)構(gòu)特征序列的2-D表示,可得到表1中12個(gè)蛋白質(zhì)二級(jí)結(jié)構(gòu)特征序列的12個(gè)特征點(diǎn)列,利用y二ax2+bx+c對(duì)特征點(diǎn)列進(jìn)行二次曲線擬合,得到了二次曲線的系數(shù),見(jiàn)表2。表212條擬合曲線的系數(shù)PDB代碼abclmba0.1108-0.11951.0024lrcb-0.0417-0.09830.99512hmqa0.1259-0.13571.0029lplc-0.2925-0.08430.97864fgf0.0336-0.64241.1470lnoa0.1781-0.75361.05

14、40lsha-0.91660.54950.9566lubq-0.0969-0.38971.0311layd-0.66730.23970.9909lwsya-0.86890.46870.96632pgdI-1.18440.70730.96942trxa-0.66890.33630.98183.2蛋白質(zhì)特征序列的頻率描述蛋白質(zhì)特征序列中H、C、E出現(xiàn)頻率:p=f(2)in其中/為i在蛋白質(zhì)序列中出現(xiàn)的個(gè)數(shù),斤為序列的長(zhǎng)度,i=H,C,Ei通過(guò)(2)式,計(jì)算了12個(gè)蛋白質(zhì)二級(jí)結(jié)構(gòu)特征序列H、C、E出現(xiàn)頻率,見(jiàn)表3。表312個(gè)蛋白質(zhì)二級(jí)結(jié)構(gòu)特征序列H、C、E出現(xiàn)頻率PDB代碼PHPCPElmba0.7

15、5510.24490lrcb0.62790.32560.04652hmqa0.66670.33330lplc0.07070.57580.35354fgf0.09680.50810.3952lnoa0.02650.47790.4956lsha0.15530.53400.3107lubq0.23680.44740.3158layd0.23760.46530.2970lwsya0.41820.38180.20002pgdI0.33330.38890.27782trxa0.39270.42930.1780相似性分析利用特征序列中頻率ph,Pc,丘及擬合曲線特征a,b,c,構(gòu)造蛋白質(zhì)二級(jí)結(jié)構(gòu)的特征向量2

16、叫卩#嚴(yán),這樣每一個(gè)蛋白質(zhì)二級(jí)結(jié)構(gòu)都對(duì)應(yīng)一個(gè)特征向量V。要比較蛋白質(zhì)二級(jí)結(jié)構(gòu)之間的相似性,只要比較其對(duì)應(yīng)的特征向量之間相似性即可。為說(shuō)明此方法的適應(yīng)性,以表1中12個(gè)蛋白質(zhì)二級(jí)結(jié)構(gòu)為例,利用表2、表3可得到12個(gè)蛋白質(zhì)二級(jí)結(jié)構(gòu)對(duì)應(yīng)的特征向量。再通過(guò)計(jì)算特征向量之間的歐式距離來(lái)比較它們的相似性,即dCijHiHj+(pp)+CpCiCjEiEj+C一a)+C一b)+C?一cijijiji,j=1,2,3,12.。距離越小說(shuō)明蛋白質(zhì)二級(jí)結(jié)構(gòu)相似性越高,否則,相似性不高。表1中12個(gè)蛋白質(zhì)二級(jí)結(jié)構(gòu)的相似性見(jiàn)表4。表412個(gè)蛋白質(zhì)二級(jí)結(jié)構(gòu)的相似性表1mba1rcb2hmqa1plc4fgf1noa1s

17、ha1ubq1ayd1wsya2pgdI2trxa1mba00.22040.12700.93130.97931.11351.43010.72541.06731.21621.62421.00651rcb00.18240.72850.87281.03321.23420.57400.86041.03791.44900.81602hmqa00.84690.89301.03121.39890.64221.02961.20841.61870.98531plc00.67320.84070.89580.42400.53740.90561.23770.68884fgf00.24041.53990.35201.1

18、5111.49631.84951.27261noa01.72040.53481.33771.68752.03641.46551sha01.25450.41350.33680.38800.43861ubq00.85081.17791.55050.94881ayd00.37770.70840.22121wsya00.41210.24732pgdl00.64702trxa0由表4可知,1mba和2hmqa最相似,2hmqa和1rcb比較相似,1rcb和1mba比較相似,2trxa和1ayd比較相似,2trxa和1wsya比較相似性,1sha和1noa相似性不高,2pgdI和1mba相似性不高,2pg

19、dI和2hmqa相似性不高,2pgdI和4fgf相似性不高,1sha和1noa相似性不高,2pgdI和1noa相似性不高。這些結(jié)果與圖形表示一致,與文獻(xiàn)7得到的結(jié)果基本一致??偨Y(jié)本文把蛋白質(zhì)二級(jí)結(jié)構(gòu)轉(zhuǎn)化成平面上的點(diǎn)列,根據(jù)點(diǎn)列的分布特點(diǎn)得到其擬合曲線,并利用a-螺旋、B-折疊和無(wú)規(guī)則卷曲結(jié)構(gòu)的頻率構(gòu)造三維向量來(lái)描述蛋白質(zhì)二級(jí)結(jié)構(gòu)的屬性,對(duì)1ayd等12個(gè)蛋白質(zhì)二級(jí)結(jié)構(gòu)進(jìn)行相似性比較,得到了較好的結(jié)果。本方法較其他方法的優(yōu)點(diǎn)是充分利用空間,減少空間的浪費(fèi),簡(jiǎn)單快速,為蛋白質(zhì)二級(jí)結(jié)構(gòu)比較提供了新的手段。本文使用的方法只提取了部分特征量,丟失了一些信息,如,在圖形表示中沒(méi)有體現(xiàn)特征序列的順序。對(duì)蛋白質(zhì)結(jié)構(gòu)比較的理論研究中將全面考慮能夠表達(dá)其生物學(xué)意義的特征信息,將是我們以后繼續(xù)研究的內(nèi)容。參考文獻(xiàn)AkbarS,KungJ,WagnerR.ExploitingGeometricalPropertiesonProteinSimilaritySearchC.In:Proceedingsof17thInternationalConferenceonDatabaseandExpertSystemsApplications(DEXA06),20

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論