PALI一個(gè)關(guān)于同源蛋白質(zhì)結(jié)構(gòu)發(fā)展史和序列的數(shù)據(jù)庫(kù)_第1頁(yè)
PALI一個(gè)關(guān)于同源蛋白質(zhì)結(jié)構(gòu)發(fā)展史和序列的數(shù)據(jù)庫(kù)_第2頁(yè)
PALI一個(gè)關(guān)于同源蛋白質(zhì)結(jié)構(gòu)發(fā)展史和序列的數(shù)據(jù)庫(kù)_第3頁(yè)
PALI一個(gè)關(guān)于同源蛋白質(zhì)結(jié)構(gòu)發(fā)展史和序列的數(shù)據(jù)庫(kù)_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、PALI一個(gè)關(guān)于同源蛋白質(zhì)結(jié)構(gòu)發(fā)展史和序列的數(shù)據(jù)庫(kù)山東大學(xué)生命科學(xué)院生物技術(shù)系2002級(jí) 許凱 021402173S. Balaji, S. Sujatha1, S. Sai Chetan Kumar, and N. SrinivasanIndia and Department of Biotechnology, Indian Institute of Technology, Kharagpur 721 302, India第一版 2000年8月23日,修訂版 2000年10月25日。文摘:PALI (1.2版本) 由三維結(jié)構(gòu)依賴(lài)性序列和各種同源蛋白系統(tǒng)發(fā)生樹(shù)組成。結(jié)構(gòu)的數(shù)據(jù)可以參考 SCOP

2、 數(shù)據(jù)庫(kù) (1.50版本) 獲得,數(shù)據(jù)包含604個(gè)同源蛋白質(zhì)家族以及2739個(gè)蛋白質(zhì)成員,每個(gè)蛋白質(zhì)家族至少包含2個(gè)成員。 一個(gè)蛋白質(zhì)家族的每個(gè)成員已經(jīng)在結(jié)構(gòu)上與其它在同一個(gè)蛋白質(zhì)家族的成員進(jìn)行了對(duì)比(兩兩對(duì)比),同時(shí)也已與其它蛋白質(zhì)家族的成員進(jìn)行了對(duì)比 (多樣對(duì)比)。同源關(guān)系較近的蛋白質(zhì)的結(jié)構(gòu)主要是通過(guò)大量的自動(dòng)運(yùn)行校正,對(duì)于同源關(guān)系較遠(yuǎn)的蛋白質(zhì)則使用STAMP程序(4.2 版)進(jìn)行人工校正。每個(gè)蛋白質(zhì)和二個(gè)系統(tǒng)樹(shù)圖聯(lián)合, 計(jì)算使用 PHYLIP(3.5 版)。這些系統(tǒng)樹(shù)圖使蛋白質(zhì)序列和結(jié)構(gòu)能夠比較容易的建立一個(gè)同源蛋白質(zhì)組成員之間的關(guān)系。因此PALI數(shù)據(jù)庫(kù)是一個(gè)能夠幫助人們?cè)谥付ǖ姆秶鷥?nèi)分

3、析蛋白質(zhì)序列和結(jié)構(gòu)關(guān)系的十分實(shí)用的數(shù)據(jù)庫(kù)。PALI數(shù)據(jù)庫(kù)中還包括超過(guò)653個(gè)只包含一個(gè)成員的蛋白質(zhì)家族。這個(gè)擁有系統(tǒng)樹(shù)圖生成工具的網(wǎng)絡(luò)數(shù)據(jù)庫(kù)網(wǎng)址為 . 簡(jiǎn)介:蛋白質(zhì)的三維空間結(jié)構(gòu)是蛋白質(zhì)的生物學(xué)功能的分子基礎(chǔ)。沒(méi)有序列的相似性但有著共同的折疊方式的蛋白質(zhì)可能也不一定有相似的功能。然而,有著明顯相似序列的同源蛋白質(zhì)一定有著高度相似的三維空間結(jié)構(gòu),并且經(jīng)常在生物體中扮演著相似的生物學(xué)角色。一個(gè)同源蛋白質(zhì)家族中蛋白質(zhì)的氨基酸序列的多樣性受到蛋白質(zhì)自身結(jié)構(gòu)和功能的高度限制。 基于這一特征,一個(gè)蛋白質(zhì)的三維空間結(jié)構(gòu)可以在其已知結(jié)構(gòu)的同源蛋白質(zhì)的基礎(chǔ)上模擬出來(lái)。利用這一方法可以模擬出大量基因編碼的未知結(jié)構(gòu)

4、的蛋白質(zhì)的三維空間結(jié)構(gòu)。利用此方法模擬蛋白質(zhì)的三維空間結(jié)構(gòu)時(shí),如果未知結(jié)構(gòu)蛋白質(zhì)與已知結(jié)構(gòu)蛋白質(zhì)的序列相似性過(guò)低(低于30%),則模擬產(chǎn)生出正確的蛋白質(zhì)三維空間結(jié)構(gòu)的可能性就較低。因此,這種模擬的效用就受到了限制。 這是一個(gè)十分嚴(yán)重的難題,因?yàn)橥ǔ5那樾问且粋€(gè)要構(gòu)建三維空間結(jié)構(gòu)的新蛋白質(zhì)與已知結(jié)構(gòu)蛋白質(zhì)的序列相似性較低。模型的低準(zhǔn)確性產(chǎn)生的一些理由是: (i)待構(gòu)建模型的蛋白質(zhì)和基礎(chǔ)結(jié)構(gòu)之間的錯(cuò)誤校正。 (ii)模型校正時(shí)插入和刪除區(qū)域方面的困難。(iii) 親緣關(guān)系較遠(yuǎn)的蛋白質(zhì)的螺旋和ß折疊的長(zhǎng)度和螺旋幾何結(jié)構(gòu)的多樣性。(iv) 緣關(guān)系較遠(yuǎn)的蛋白質(zhì)的螺旋和ß折疊的相對(duì)方向

5、定位的多樣性。此外,從新的蛋白質(zhì)的序列締合之后到得到蛋白質(zhì)的三維空間結(jié)構(gòu),為待構(gòu)建結(jié)構(gòu)的蛋白質(zhì)選擇適當(dāng)?shù)哪0褰Y(jié)構(gòu)是相當(dāng)重要的。 另一方面,如果可以使用多個(gè)模板,就能最大限度的使待構(gòu)建結(jié)構(gòu)的蛋白質(zhì)在其同源蛋白質(zhì)的結(jié)構(gòu)上獲取更多有用的信息,因而有利于三維空間結(jié)構(gòu)構(gòu)建的準(zhǔn)確性。但是, 如果使用多個(gè)模板會(huì)降低結(jié)構(gòu)上保留區(qū)域的數(shù)量和長(zhǎng)度,因而在蛋白質(zhì)三維空間結(jié)構(gòu)構(gòu)建的過(guò)程中增加出錯(cuò)的幾率。在這些因素之間的選擇適當(dāng)?shù)钠胶恻c(diǎn)可以通過(guò)識(shí)別與待構(gòu)建結(jié)構(gòu)的蛋白質(zhì)關(guān)系最近的模板來(lái)達(dá)成。PALI數(shù)據(jù)庫(kù)是學(xué)習(xí)氨基酸序列和其同源結(jié)構(gòu)變化規(guī)律的一個(gè)步驟。結(jié)合這些規(guī)則有可能改善蛋白質(zhì)三維空間結(jié)構(gòu)構(gòu)建的精確性。 PALI數(shù)據(jù)庫(kù)

6、包含兩兩校正和多樣校正的同源蛋白質(zhì)結(jié)構(gòu)以及系統(tǒng)發(fā)生樹(shù)圖。因此,PALI具有蛋白質(zhì)的序列決定其三維空間結(jié)構(gòu)的原始數(shù)據(jù)。PALI還裝備了一個(gè)用戶容易使用的網(wǎng)絡(luò)界面,使用戶可以方便的找到一個(gè)蛋白質(zhì)所在的蛋白質(zhì)家族,并能自動(dòng)生成系統(tǒng)樹(shù)圖。這在最快的選擇相似的相關(guān)蛋白質(zhì)和提供已知的同源結(jié)構(gòu)方面給待構(gòu)建結(jié)構(gòu)的序列以援助。因此,PALI數(shù)據(jù)庫(kù)能在各種不同程度的序列或結(jié)構(gòu)的相似性在序列變化和結(jié)構(gòu)變化之間的關(guān)系方面的給與援助。 PALI數(shù)據(jù)庫(kù)的一般特色(i)蛋白質(zhì)三維空間結(jié)構(gòu)結(jié)構(gòu)的比較是在SCOP界定的領(lǐng)域水平上進(jìn)行的。結(jié)構(gòu)被分為螺旋為主, ß折疊為主, 螺旋/ß折疊, 螺旋+ß折

7、疊,小蛋白和復(fù)合結(jié)構(gòu)域系統(tǒng)。(ii)蛋白質(zhì)三維空間結(jié)構(gòu)的比較在各種不同的家族中是可行的。蛋白質(zhì)的結(jié)構(gòu)依賴(lài)序列的校正,序列的大量性和結(jié)構(gòu)的相似性, 而且上面的組合可以用于每個(gè)蛋白質(zhì)折疊。 (iii)基于結(jié)構(gòu)的相似性和結(jié)構(gòu)的依賴(lài)性,PALI數(shù)據(jù)庫(kù)中所有的蛋白質(zhì)三維空間結(jié)構(gòu)中序列相似性的系統(tǒng)樹(shù)圖至少有三個(gè)成員是可用的。 (iv)一個(gè)使用者可以方便使用的工具與數(shù)據(jù)庫(kù)整合,可以辨別蛋白質(zhì)在給定范圍的相同序列。(v) 一種以界定范圍的結(jié)構(gòu)相似性來(lái)識(shí)別蛋白質(zhì)對(duì)的搜尋工具也整合在數(shù)據(jù)庫(kù)中。(vi)只有一個(gè)成員結(jié)構(gòu)的同源蛋白質(zhì)家族對(duì)于新蛋白質(zhì)氨基酸序列也是可用的。(vii)系統(tǒng)樹(shù)圖生成工具使待構(gòu)建結(jié)構(gòu)的蛋白質(zhì)能

8、夠在PALI數(shù)據(jù)庫(kù)中和已知的結(jié)構(gòu)相聯(lián)合。如果聯(lián)合的結(jié)構(gòu)至少有兩個(gè)成員,那么一個(gè)系統(tǒng)樹(shù)圖將被自動(dòng)地根據(jù)待構(gòu)建結(jié)構(gòu)序列和其同源結(jié)構(gòu)生成。還有一些特色,例如能夠同時(shí)顯示兩兩對(duì)比和多樣對(duì)比,基于結(jié)構(gòu)相似性和序列相似性的系統(tǒng)樹(shù)圖和基于網(wǎng)絡(luò)的系統(tǒng)樹(shù)圖生成工具,可以看成是對(duì)其他同源蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)的補(bǔ)充。數(shù)據(jù)庫(kù)數(shù)據(jù)統(tǒng)計(jì)我們已經(jīng)從SCOP 數(shù)據(jù)庫(kù) (1.50版本)中得到同源蛋白質(zhì)的結(jié)構(gòu)和結(jié)構(gòu)的成員了。在PALI數(shù)據(jù)庫(kù)的最新版本中,至少含有兩個(gè)結(jié)構(gòu)成員的蛋白質(zhì)家族有604個(gè)。在這些蛋白質(zhì)家族中,成員總的數(shù)量是2739個(gè),因此每個(gè)結(jié)構(gòu)中平均有4到5個(gè)成員。僅含有兩個(gè)成員的結(jié)構(gòu)有230個(gè)。含有最多成員的蛋白質(zhì)家族是

9、球蛋白,有37個(gè)成員。 PALI數(shù)據(jù)庫(kù)在SCOP中得到的結(jié)構(gòu)主要有6種蛋白質(zhì)折疊形式:螺旋為主,折疊為主,螺旋/折疊,螺旋+折疊,小蛋白和復(fù)合結(jié)構(gòu)域蛋白(其他類(lèi)型如薄膜和細(xì)胞表面蛋白質(zhì)結(jié)構(gòu),低分解蛋白質(zhì)結(jié)構(gòu)和短肽并不包含在PALI數(shù)據(jù)庫(kù)中)。以上六種蛋白質(zhì)折疊結(jié)構(gòu)中的成員的數(shù)量分別是128,134,135,138,16和53。因此,螺旋為主,折疊為主,螺旋/折疊,螺旋+折疊中成員的數(shù)量基本相同。PALI數(shù)據(jù)庫(kù)中也含有只有一個(gè)成員的結(jié)構(gòu),其螺旋為主,折疊為主,螺旋/折疊,螺旋+折疊的數(shù)量分別是146,109,157,186,13,42,總共653個(gè)。在PALI數(shù)據(jù)庫(kù)的最新版本中有9510個(gè)基于結(jié)

10、構(gòu)的兩兩對(duì)比(同一蛋白質(zhì)家族中的兩個(gè)同源蛋白質(zhì)的對(duì)比)。很明顯,兩兩對(duì)比和多樣對(duì)比的區(qū)別在于兩個(gè)蛋白質(zhì)是否屬于同一個(gè)蛋白質(zhì)家族。數(shù)據(jù)庫(kù)中有374種結(jié)構(gòu)至少含有3個(gè)成員,多樣對(duì)比可以同時(shí)對(duì)比一個(gè)蛋白質(zhì)家族中的所有成員。對(duì)于至少有三個(gè)成員的蛋白質(zhì)家族來(lái)說(shuō),預(yù)先計(jì)算好的系統(tǒng)樹(shù)圖在多數(shù)情況下是適用的。兩種系統(tǒng)樹(shù)圖的類(lèi)型在最新的PALI數(shù)據(jù)庫(kù)版本中可形成748個(gè)系統(tǒng)樹(shù)圖。另一種系統(tǒng)樹(shù)圖則是利用兩兩對(duì)比得到的序列相似性來(lái)生成的。結(jié)構(gòu)隊(duì)列Russell和Barton開(kāi)發(fā)的STAMP程序最新版本(4.2)可以用來(lái)完成成對(duì)的和復(fù)合結(jié)構(gòu)的隊(duì)列任務(wù),在這里STAMP使用Rossmann 與 Argos程序。STAM

11、P將這些結(jié)構(gòu)排列起來(lái),同時(shí)產(chǎn)生一系列相應(yīng)的位置次序。盡管PALL中的大部分申請(qǐng)程序會(huì)自動(dòng)來(lái)匹配執(zhí)行,但是結(jié)果有時(shí)候還是需要人工來(lái)檢查,以確保沒(méi)有錯(cuò)誤產(chǎn)生。STAMP運(yùn)行的結(jié)果包括蛋白質(zhì)的并列迭生和其他的一些有關(guān)蛋白質(zhì)結(jié)構(gòu)相似性的特征參數(shù)。他們包括:(1)被比較的蛋白質(zhì)的殘基的數(shù)目;(2)蛋白質(zhì)中碳原子的數(shù)目;(3)側(cè)枝殘基中一定距離的相似結(jié)構(gòu)的碳原子的數(shù)目;(4)根均方差數(shù)(RMSD);(5)STAMP紀(jì)錄;(6)以結(jié)構(gòu)為基礎(chǔ)的列隊(duì)序列的統(tǒng)一性順序的百分?jǐn)?shù);(7)二級(jí)序列結(jié)構(gòu)同一性的百分比;(8)各個(gè)殘基位置的自我估計(jì)。以上這些參數(shù)都是可用的,而且可以在PALI中存儲(chǔ)。在PALI中,家族復(fù)合結(jié)

12、構(gòu)序列的典型代表與一種有著易溶解的,有二級(jí)結(jié)構(gòu)和氫鍵相連的結(jié)構(gòu)模型獲得序列相比較。事實(shí)上,PALI中分析的結(jié)果與那些除了家族序列相似性<25%的比較結(jié)果是相吻合的。在那些序列相似性低的情況中,僅在環(huán)的里面和周?chē)嬖谟胁煌男蛄?,這些是我們已經(jīng)知道的同源蛋白質(zhì)中的可變部分。每個(gè)成對(duì)隊(duì)列都與萃取后的包含了蛋白質(zhì)家族所有成員的復(fù)合結(jié)構(gòu)隊(duì)列相比較。在絕大多數(shù)的情況下,這兩種隊(duì)列是近乎相同的。幾對(duì)同源蛋白的同一性序列已經(jīng)可以通過(guò)下面的三種方法算出:(i)使用全部的排列位置;(ii)使用蛋白質(zhì)中碳原子間3Å定點(diǎn)距離殘基的定義的等同性;(iii)使用STAMP定義的殘基的等同性。從上邊的柱狀

13、圖中我們可以看到,PALI中的成對(duì)隊(duì)列每5時(shí)間間隔序列的同一性的分布情況。盡管PALI數(shù)據(jù)庫(kù)是由一些高度同一性序列(超過(guò)35)的同源蛋白質(zhì)組成的,但是在整體中表現(xiàn)出來(lái)的卻在0到100之間。事實(shí)上,最大值通常分布于1520%和2025%這些范圍內(nèi)。分析多種成對(duì)隊(duì)列蛋白結(jié)構(gòu)模型的變化,及他們的序列同一性范圍的不同,可以為比較模型的建立提供有用信息。蛋白質(zhì)家族的系統(tǒng)樹(shù)圖PALI數(shù)據(jù)庫(kù)中每個(gè)包含三個(gè)及三個(gè)以上成員的蛋白質(zhì)家族已經(jīng)建立了基于蛋白質(zhì)結(jié)構(gòu)和蛋白質(zhì)序列的系統(tǒng)樹(shù)圖。一個(gè)蛋白質(zhì)家族基于結(jié)構(gòu)的進(jìn)化是此蛋白質(zhì)家族中不同蛋白質(zhì)成員之間的一個(gè)對(duì)稱(chēng)的SDM點(diǎn)陣式。此點(diǎn)陣式已經(jīng)被用于產(chǎn)生基于結(jié)構(gòu)和序列的蛋白質(zhì)

14、進(jìn)化關(guān)系。制作系統(tǒng)樹(shù)圖可以用PHYLIP中的DRAWGRAM程序。PALI數(shù)據(jù)庫(kù)的進(jìn)入方法及界面工具PALI數(shù)據(jù)庫(kù)可以通過(guò)網(wǎng)址.進(jìn)入。而特殊的蛋白質(zhì)家族可以通過(guò)瀏覽或者關(guān)鍵詞搜索得到?;诘鞍踪|(zhì)結(jié)構(gòu)序列的兩兩校正可以在任何蛋白質(zhì)家族的兩個(gè)成員之間實(shí)現(xiàn)。而對(duì)于包含三個(gè)或三個(gè)以上成員的蛋白質(zhì)家族可以同時(shí)進(jìn)行結(jié)構(gòu)的兩兩校正和多樣校正。利用STAMP中輸出的數(shù)據(jù)可以對(duì)新蛋白質(zhì)在結(jié)構(gòu)水平進(jìn)行定位。PALI數(shù)據(jù)庫(kù)中可以對(duì)任意兩個(gè)蛋白質(zhì)在特定的序列和結(jié)構(gòu)相似性范圍內(nèi)進(jìn)行搜索。使用者可以對(duì)序列的相似性或者結(jié)構(gòu)相似性(SDM或RMSD)程度進(jìn)行選擇,這些對(duì)搜索得到適當(dāng)?shù)牡鞍踪|(zhì)家族是十分必要的。PSI_BLAST接口允許待構(gòu)建結(jié)構(gòu)的蛋白質(zhì)序列搜尋PALI數(shù)據(jù)庫(kù)中的所有蛋白質(zhì)(包括只包含一個(gè)成員的蛋白質(zhì)家族)。使用者也可以得到一個(gè)PALI數(shù)據(jù)庫(kù)中一個(gè)蛋白質(zhì)家族的成員和待構(gòu)建結(jié)構(gòu)序列的系統(tǒng)樹(shù)圖。為了更加準(zhǔn)確的達(dá)到這個(gè)目的,PSI_BLAST擁有可以辨別蛋白質(zhì)序列上0.0005個(gè)電荷差異的強(qiáng)大功能

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論