版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、多序列比對多序列比對 雙序列比對是序列分析的基礎(chǔ)。然而,對于構(gòu)成基因家族的成組的序列來說,我們要建立多個序列之間的關(guān)系,這樣才能揭示整個基因家族的特征。多序列比對在闡明一組相關(guān)序列的重要生物學(xué)模式方面起著相當(dāng)重要的作用。 多序列比對有時用來區(qū)分一組序列之間的差異,但其主要用于描述一組序列之間的相似性關(guān)系,以便對一個基因家族的特征有一個簡明扼要的了解。與雙序列比對一樣,多序列比對的方法建立在某個數(shù)學(xué)或生物學(xué)模型之上。 因此,正如我們不能對雙序列比對的結(jié)果得出“正確或錯誤”的簡單結(jié)論一樣,多序列比對的結(jié)果也沒有絕對正確和絕對錯誤之分,而只能認(rèn)為所使用的模型在多大程度上反映了序列之間的相似性關(guān)系以及
2、它們的生物學(xué)特征。 目前,構(gòu)建多序列比對模型的方法大體可以分為兩大類。 第一類是基于氨基酸殘基的相似性,如物化性質(zhì)、殘基之間的可突變性等。 另一類方法則主要利用蛋白質(zhì)分子的二級結(jié)構(gòu)和三級結(jié)構(gòu)信息,也就是說根據(jù)序列的高級結(jié)構(gòu)特征確定比對結(jié)果。 這兩種方法所得結(jié)果可能有很大差別。一般說來,很難斷定哪種方法所得結(jié)果一定正確,應(yīng)該說,它們從不同角度反映蛋白質(zhì)序列中所包含的生物學(xué)信息。 基于序列信息和基于結(jié)構(gòu)信息的比對都是非常重要的比對模型,但它們都有不可避免的局限性,因為這兩種方法都不能完全反映蛋白質(zhì)分子所攜帶的全部信息。 蛋白質(zhì)序列是經(jīng)過DNA序列轉(zhuǎn)錄翻譯得到的。從信息論的角度看,它應(yīng)該與DNA分子
3、所攜帶的信息更為“接近”。而蛋白質(zhì)結(jié)構(gòu)除了序列本身帶來的信息外,還包括經(jīng)過翻譯后加工修飾所增加的結(jié)構(gòu)信息,包括殘基的修飾,分子間的相互作用等,最終形成穩(wěn)定的天然蛋白質(zhì)結(jié)構(gòu)。因此,這也是對完全基于序列數(shù)據(jù)比對方法批評的主要原因。 如果能夠利用結(jié)構(gòu)數(shù)據(jù),對于序列比對無疑有很大幫助。不幸的是,與大量的序列數(shù)據(jù)相比,實驗測得的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)實在少得可憐。在大多數(shù)情況下,并沒有結(jié)構(gòu)數(shù)據(jù)可以利用,我們只能依靠序列的相似性和一些生物化學(xué)特性建立一個比較滿意的多序列比對模型。 多序列比對的定義多序列比對的定義 為了便于描述,對多序列比對過程給出下面的定義。把多序列比對看作一張二維表,表中每一行代表一個序列
4、,每一列代表一個殘基的位置。將序列依照下列規(guī)則填入表中:(a)一個序列所有殘基的相對位置保持不變;(b)將不同序列間相同或相似的殘基放入同一列,即盡可能將序列間相同或相似殘基上下對齊(表1)。 1 23456789 1 YDGGAV-EA L YDGG-EA L FEGGILVEA L FD-GILVQ A V YEGGAVVQ A L表1 多序列比對的定義 表示五個短序列(表示五個短序列(I-V)的比對結(jié)果。通過插入空位,使)的比對結(jié)果。通過插入空位,使5個序列中個序列中大多數(shù)相同或相似殘基放入同一列,并保持每個序列殘基順序不變大多數(shù)相同或相似殘基放入同一列,并保持每個序列殘基順序不變 我們
5、稱比對前序列中殘基的位置為絕對位置。如序列的第3位的殘基是甘氨酸G,則絕對位置3就是甘氨酸,而不能變成任何其它氨基酸。相應(yīng)地,我們稱比對后序列中殘基的位置為相對位置。顯然,同一列中所有殘基的相對位置相同,而每個殘基的絕對位置不同,因為它們來自不同的序列。 絕對位置是序列本身固有的屬性,或者說是比對前的位置,而相對位置則是經(jīng)過比對后的位置,也就比對過程賦予它的屬性。 算法復(fù)雜性算法復(fù)雜性 多序列比對的計算量相當(dāng)可觀,因此有必要分析以下技術(shù)的復(fù)雜性。雙序列比對所需要的計算時間和內(nèi)存空間與這兩個序列的長度有關(guān),或者說正比于這兩個序列長度的乘積,用O(m1m2)表示。其中m1、m2是指兩條序列的長度。
6、三序列比對則可以理解為將雙序列比對的兩維空間擴(kuò)展到三維,即在原有二維平面上增加一條坐標(biāo)軸。這樣算法復(fù)雜性就變成了O(m1m2m3),其中m3表示第三條序列的長度。 隨著序列數(shù)量的增加,算法復(fù)雜性也不斷增加。我們用O(m1m2m3mn)表示對n個序列進(jìn)行比對時的算法復(fù)雜性,其中mn是最后一條序列的長度。若序列長度相差不大,則可簡化成O(mn),其中n表示序列的數(shù)目,m表示序列的長度。顯然,隨著序列數(shù)量的增加,序列比對的算法復(fù)雜性按指數(shù)規(guī)律增長。 降低算法復(fù)雜性,是研究多序列比對的一個重要方面。為此,產(chǎn)生了不少很有實用意義的多序列比對算法。這些方法的特點是利用啟發(fā)式(heuristics)算法降低
7、算法復(fù)雜性,以獲得一個較為滿意但并不一定是最優(yōu)的比對結(jié)果,用來找出子序列、構(gòu)建進(jìn)化樹、查找保守序列或序列模板,以及進(jìn)行聚類(clustering)分析等。 有的算法將動態(tài)規(guī)劃和啟發(fā)性算法結(jié)合起來。例如,對所有的序列進(jìn)行兩兩比對,將所有的序列與某個特定的序列進(jìn)行比對,根據(jù)某種給定的親源樹進(jìn)行分組比對,等等。必須指出,上述方法求得的結(jié)果通常不是最優(yōu)解,至少需要經(jīng)過n-1次雙序列比對,其中n為參與比對的序列個數(shù)。 比對方法比對方法 1.手工比對方法手工比對方法 手工比對方法在文獻(xiàn)中經(jīng)常看到。因為難免加入一些主觀因素,手工比對通常被認(rèn)為有很大的隨意性。其實,即使用計算機(jī)程序進(jìn)行自動比對,所得結(jié)果中的片
8、面性也不能予以忽視。在運(yùn)行經(jīng)過測試并具有比較高的可信度的計算機(jī)程序基礎(chǔ)上,結(jié)合實驗結(jié)果或文獻(xiàn)資料,對多序列比對結(jié)果進(jìn)行手工修飾,應(yīng)該說是非常必要的 多序列比對的軟件已經(jīng)有許多,其中一些帶有編輯程序。最好的辦法是將自動比對程序和編輯器整合在一起。為了便于進(jìn)行交互式手工比對,通常使用不同顏色表示具有不同特性的殘基,以幫助判別序列之間的相似性。顏色的選擇十分重要,如果使用不當(dāng),看起來不很直觀,就會使比對結(jié)果中一些有用的信息丟失。相反,如果選擇得當(dāng),就能從序列比對結(jié)果中迅速找到某些重要的結(jié)構(gòu)模式和功能位點。 例如,如果用某種顏色表示一組高度保守的殘基,則某個序列的某一位點發(fā)生突變時,則由于顏色不同,就
9、可以很快找出。顏色的選擇可以根據(jù)主觀愿望和喜好,但最好和常規(guī)方法一致。用來構(gòu)筑三維模型的按時氨基酸殘基組件和三維分子圖形軟件所用的顏色分類方法,比較容易為大家接受(表2)。表2 氨基酸分組方法和代表性顏色 殘基種類 殘基特性 顏色 Asp (D), Glu (E) 酸性 紅色 His (H), Arg (R), Lys (K) 堿性 蘭色 Ser (S), Thr (T), Asn (N), Gln (Q) 極性 綠色 Ala (A), Val (V), Leu (L), Ile (I), Met (M) 疏水性,帶支鏈 白色 Phe (F), Tyr (Y), Trp (W) 疏水性,帶苯環(huán)
10、 紫色 Pro (P), Gly (G) 側(cè)鏈結(jié)構(gòu)特殊 棕色 Cys (C) 能形成二硫鍵 黃色 * 表中采用的分組方法和用來區(qū)分不同組別的顏色與表中采用的分組方法和用來區(qū)分不同組別的顏色與模型構(gòu)件和三維圖形軟件中所用方法一致模型構(gòu)件和三維圖形軟件中所用方法一致 多序列比對程序的另一個重要用途是定量估計序列間的關(guān)系,并由此推斷它們在進(jìn)化中的親緣關(guān)系??梢酝ㄟ^計算完全匹配的殘基數(shù)目或計算完全匹配殘基和相似殘基的數(shù)目得到這種定量關(guān)系。這一方法除了可以大略了解序列間的親緣關(guān)系外,也可用來評估比對質(zhì)量。如果序列的相似性值低于預(yù)料值,那么有可能是序列間親緣關(guān)系較遠(yuǎn),也可能是比對中有錯誤之處 2.同步法同
11、步法 同步法實質(zhì)是把給定的所有序列同時進(jìn)行比對,而不是兩兩比對或分組進(jìn)行比對。 其基本思想是將一個二維的動態(tài)規(guī)劃矩陣擴(kuò)展到三維或多維。矩陣的維數(shù)反映了參與比對的序列數(shù)。這類方法對于計算機(jī)的系統(tǒng)資源要求較高,通常是進(jìn)行少量的較短的序列的比對 這類方法中最常用的就是Clustal,它是由Feng和Doolittle于1987年提出的(Feng和Doolittle,1987)。由于對于實際的數(shù)據(jù)利用多維的動態(tài)規(guī)劃矩陣來進(jìn)行序列的比對不太現(xiàn)實,因此大多數(shù)實用的多序列比對程序采用啟發(fā)式算法,以降低運(yùn)算復(fù)雜度。 Clustal的基本思想是基于相似序列通常具有進(jìn)化相關(guān)性這一假設(shè)。比對過程中,先對所有的序列進(jìn)
12、行兩兩比對并計算它們的相似性分?jǐn)?shù)值,然后根據(jù)相似性分?jǐn)?shù)值將它們分成若干組,并在每組之間進(jìn)行比對,計算相似性分?jǐn)?shù)值。根據(jù)相似性分?jǐn)?shù)值繼續(xù)分組比對,直到得到最終比對結(jié)果。比對過程中,相似性程度較高的序列先進(jìn)行比對,而距離較遠(yuǎn)的序列添加在后面。作為程序的一部分,Clusal可以輸出用于構(gòu)建進(jìn)化樹的數(shù)據(jù)。3.步進(jìn)法步進(jìn)法 Clustal程序有許多版本,ClustalW(Thompson等,1994),根據(jù)對親緣關(guān)系較近的序列間空位情況,確定如何在親緣關(guān)系較遠(yuǎn)的序列之間插入空位。同樣,相似性較高的序列比對結(jié)果中的殘基突變信息,可用于改變某個特殊位置空位罰分值的大小,推測該位點的序列變異性。 Clusta
13、l是免費(fèi)軟件,很容易從互聯(lián)網(wǎng)上下載,和其它軟件一起,廣泛用于序列分析。Clustal所支持的數(shù)據(jù)格式包括EMBL/SWISSPROT、NBRF/PIR、Pearson/FastA、GCG/MSF,以及Clustal本身定義的格式。它的輸出格式可以是Clustal格式,也可以是可用于GDE、 Phylip、GCG等軟件的格式多序列比對的數(shù)據(jù)庫多序列比對的數(shù)據(jù)庫 多序列比對的意義在于它能夠把不同種屬的相關(guān)序列的比對結(jié)果按照特定的格式輸出,并且在一定程度上反映它們之間的相似性。多序列比對結(jié)果所提供的信息對于提高數(shù)據(jù)庫搜索靈敏度也具有很大幫助。因此,方便實用的多序列比對數(shù)據(jù)庫也就應(yīng)運(yùn)而生。 目前,互聯(lián)
14、網(wǎng)上可用的多序列比對數(shù)據(jù)庫已經(jīng)不少。其中一些利用計算機(jī)程序?qū)⒁淮螖?shù)據(jù)庫按家族分類;另外一些則是通過手工或自動方法根據(jù)基因家族構(gòu)建二次數(shù)據(jù)庫。 例如,Pfam是將一次庫通過自動比對來構(gòu)建的數(shù)據(jù)庫,它將大量具有結(jié)構(gòu)相似性的序列歸為一類,比如各種不同種類動物的轉(zhuǎn)鐵蛋白的基因序列具有一定的相似性,Pfam將這些序列歸為一類命名為TRANSFERRIN,我們可以在Pfam查找TRANSFERRIN來得到原始序列比對信息,開頭是一些注釋信息,然后給出了比對序列的名字,再下是比對結(jié)果,以“/”開始,并以“/”結(jié)束。對于一個未知的蛋白質(zhì)序列在該序列庫中查詢,該序列庫會給出匹配的類及得分供你參考。 可以看看PR
15、INTS數(shù)據(jù)庫關(guān)于TRANSFERRIN的比對信息, PRINTS數(shù)據(jù)庫在自動比對的基礎(chǔ)上進(jìn)行了手工編輯,查尋PRINTS數(shù)據(jù)庫中關(guān)于TRANSFERRIN這一類的比對信息,結(jié)果可以用模體(motif)形式顯示也可以用點擊鏈接調(diào)用JAVA APPLET進(jìn)行圖形顯示,下圖是關(guān)于TRANSFERRIN序列比對的局部圖形,可見PRINTS數(shù)據(jù)庫中TRANSFERRIN一類由更多的序列比對形成。 一般來說,對于具有較高相似性的一組序列之間的比對,自動比對方法是很有效的。一旦序列的親緣關(guān)系變得較遠(yuǎn),所得結(jié)果就不那么可信。若要得到比較可靠而又具有明確生物學(xué)意義的比對結(jié)果,比較有效的方法是對比對結(jié)果進(jìn)行手工
16、編輯和調(diào)整。這對于構(gòu)建二次數(shù)據(jù)庫是非常重要的信息。在選擇現(xiàn)有的序列模式或序列模體公開數(shù)據(jù)庫構(gòu)建自己的數(shù)據(jù)庫系統(tǒng)時,對這些現(xiàn)有數(shù)據(jù)庫的可靠性必須采取謹(jǐn)慎的態(tài)度 蛋白質(zhì)的結(jié)構(gòu)與功能預(yù)測蛋白質(zhì)的結(jié)構(gòu)與功能預(yù)測 蛋白質(zhì)結(jié)構(gòu)與功能的研究已有相當(dāng)長的歷史,由于其復(fù)雜性,對其結(jié)構(gòu)與功能的預(yù)測不論是方法論還是基礎(chǔ)理論方面均較復(fù)雜。統(tǒng)計學(xué)方法曾被成功地應(yīng)用于蛋白質(zhì)二級結(jié)構(gòu)預(yù)測中,如Chou和Fasman提出的經(jīng)驗參數(shù)法便是最突出的例子。該方法統(tǒng)計分析了各種氨基酸的二級結(jié)構(gòu)分布特征,得出相應(yīng)參數(shù)(P,P和Pt)并用于預(yù)測。下面簡要介紹蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測的生物信息學(xué)途徑下面簡要介紹蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測的生物信息學(xué)
17、途徑蛋白質(zhì)功能預(yù)測蛋白質(zhì)功能預(yù)測一、根據(jù)序列預(yù)測功能的一般過程一、根據(jù)序列預(yù)測功能的一般過程 如果序列重疊群(contig)包含有蛋白質(zhì)編碼區(qū),則接下來的分析任務(wù)是確定表達(dá)產(chǎn)物蛋白質(zhì)的功能。蛋白質(zhì)的許多特性可直接從序列上分析獲得,如疏水性,它可以用于預(yù)測序列是否跨膜螺旋(transmenbrane helix)或是前導(dǎo)序列(leader sequence)。但是,總的來說,我們根據(jù)序列預(yù)測蛋白質(zhì)功能的唯一方法是通過數(shù)據(jù)庫搜尋,比較該蛋白是否與已知功能的蛋白質(zhì)相似。有2條主要途徑可以進(jìn)行上述的比較分析:比較未知蛋白序列與已知蛋白質(zhì)序列的相似性;查找未知蛋白中是否包含與特定蛋白質(zhì)家族或功能域有關(guān)的
18、亞序列或保守區(qū)段。圖1 根據(jù)序列預(yù)測蛋白質(zhì)功能的技術(shù)路線二、通過比對數(shù)據(jù)庫相似序列確定功能二、通過比對數(shù)據(jù)庫相似序列確定功能 具有相似序列的蛋白質(zhì)具有相似的功能。因此,最可靠的確定蛋白質(zhì)功能的方法是進(jìn)行數(shù)據(jù)庫的相似性搜索。一個顯著的匹配應(yīng)至少有25%的相同序列和超過80個氨基酸的區(qū)段。 已有不少種類的數(shù)據(jù)庫搜索工具,它們或者搜索速度慢,但靈敏;或者快速,但不靈敏??焖偎阉鞴ぞ?如BLASTP)很容易發(fā)現(xiàn)匹配良好的序列,所以沒有必要再運(yùn)行更花時的工具(如FASTA、BLITZ);只有在諸如BLASTP不能發(fā)現(xiàn)顯著的匹配序列時,這些工具才被使用。 所以,一般的策略是首先進(jìn)行BLAST檢索,如果不能
19、提供相關(guān)結(jié)果,運(yùn)行FASTA;如果FASTA也不能得到有關(guān)蛋白質(zhì)功能的線索,最后可選用完全根據(jù)Smith-Waterman算法設(shè)計的搜索程序,例如BLITZ(www.ebi.ac.uk/searches/blitz.html)。 BLITZ不做近似估計不做近似估計(BLAST和和FASTA根據(jù)根據(jù)Smith-Waterman算法做近似估計算法做近似估計),所以很花時,但非常靈,所以很花時,但非常靈敏。通常諸如敏。通常諸如BLITZ的程序能夠發(fā)現(xiàn)超過幾百個殘基的程序能夠發(fā)現(xiàn)超過幾百個殘基但序列相同比率低于但序列相同比率低于2025%的匹配,這些匹配可能的匹配,這些匹配可能達(dá)到顯著,但會被那些應(yīng)用
20、近似估計的程序錯過達(dá)到顯著,但會被那些應(yīng)用近似估計的程序錯過 還應(yīng)注意計分矩陣(scoring matrix)的重要性。選用不同的計分矩陣有不少重要原因:首先,選用的矩陣必須與匹配水平相一致,例如,PAM250應(yīng)用于遠(yuǎn)距離匹配(25%相同比率),PAM40應(yīng)用于不很相近的蛋白質(zhì)序列,而BLOSUM62是一個通用矩陣;第二,使用不同矩陣,可以發(fā)現(xiàn)始終出現(xiàn)的匹配序列,這是一條減少誤差的辦法。 除了選用不同的計分矩陣,同樣可以考慮選用不同的數(shù)據(jù)庫。通??梢允褂玫臄?shù)據(jù)庫是無冗余蛋白序列數(shù)據(jù)庫SWISS-PROT和PDB。其它一些數(shù)據(jù)庫也可以試試,如可用BLASTP搜索復(fù)合蛋白質(zhì)序列庫OWL (www.
21、biochem.ucl.ac.uk/bsm/dbbrowser/OWL/owl_blast.html)三、序列特性:疏水性、跨膜螺旋等三、序列特性:疏水性、跨膜螺旋等 許多功能可直接從蛋白質(zhì)序列預(yù)測出來。例如,疏水性信息可被用于跨膜螺旋的預(yù)測。還有不少小的模序(motif)是細(xì)胞用于特定細(xì)胞區(qū)室(cell compartment)蛋白質(zhì)的定向。網(wǎng)上有大量數(shù)據(jù)資源幫助我們利用這些特性預(yù)測蛋白質(zhì)功能。 疏水性信息疏水性信息可用 ExPASy(http:/expasy.hcuge.ch/egibin/protscal.pl)的ProtScale程序創(chuàng)建并演示。這是一個很有用的工具,它能計算超過50種
22、蛋白質(zhì)的特性。程序的輸入即可通過輸入框?qū)⑿蛄姓迟N進(jìn)去,也可輸入SWISS-PROT的記錄號。僅一項需要額外設(shè)定的參數(shù)是輸入框的寬度,該參數(shù)將指示系統(tǒng)每次運(yùn)行計算和顯示的殘基數(shù),其缺省值為9。如果想考慮跨膜螺旋特性,該參數(shù)設(shè)置應(yīng)為20,因為一個跨膜螺旋通常有20個氨基酸長度 有多種方法可以預(yù)測序列的跨膜螺旋預(yù)測序列的跨膜螺旋。最簡單的方法是通過查找包含有20個疏水殘基的區(qū)段,一些更復(fù)雜、更準(zhǔn)確的算法不僅可以預(yù)測跨膜螺旋的位置,還能確定其在膜上的方向。這些方法都依賴于一系列已知跨膜螺旋特性的研究結(jié)果。TMbase是一個自然發(fā)生的跨膜螺旋數(shù)據(jù)庫(http:/ulrec3.unil.ch/tmbase
23、/TMBASE_doc.html)。相關(guān)的一些程序:TMPRED (http:/ulrec3.unil.ch/software/TMPRED-form.html)、PHDhtm (www.embl_heidelberg.de/services/sander/predictprotein/predictprotein.html)、TMAP (http:/www.embl-heidelberg.de/tmap/tmap/tmap_sin.html)和MEMSAT (ftp.biochem.ucl.ac.uk)。 這些程序?qū)⑹褂昧瞬煌慕y(tǒng)計模型,總體上,預(yù)測準(zhǔn)確率在這些程序?qū)⑹褂昧瞬煌慕y(tǒng)計模型,總
24、體上,預(yù)測準(zhǔn)確率在8095%左右。跨膜螺旋是可以根據(jù)序列數(shù)據(jù)比較準(zhǔn)確預(yù)測的蛋白質(zhì)特性之一左右??缒ぢ菪强梢愿鶕?jù)序列數(shù)據(jù)比較準(zhǔn)確預(yù)測的蛋白質(zhì)特性之一 預(yù)測前導(dǎo)序列或特殊區(qū)室靶蛋白信號的程序預(yù)測前導(dǎo)序列或特殊區(qū)室靶蛋白信號的程序:SignalP (http:/www.cbs.dtu.dk/services/SignalP)和PSORT (http:/psort.nibbac.jp/form.html)。另一個可從序列中確定的功能模序是卷曲(coil)螺旋。在這一結(jié)構(gòu)中,二個螺旋由于疏水作用而纏繞在一起形成非常穩(wěn)定的結(jié)構(gòu)。相關(guān)的2個程序:COILS (http:/ulrec3.unil.ch/so
25、ftware/COILS_form.html)和Paircoil (/cgi-bin/score)四、通過比對模序數(shù)據(jù)庫等確定功能 蛋白質(zhì)結(jié)構(gòu)預(yù)測蛋白質(zhì)結(jié)構(gòu)預(yù)測 一般情況下,蛋白質(zhì)的結(jié)構(gòu)分為4個層次: 初級結(jié)構(gòu)蛋白質(zhì)序列; 二級結(jié)構(gòu)螺旋和折疊片(-sheets)模式; 三級結(jié)構(gòu)殘基在空間的布局; 四級結(jié)構(gòu)蛋白質(zhì)之間的互作。 一、蛋白質(zhì)結(jié)構(gòu)及其數(shù)據(jù)庫一、蛋白質(zhì)結(jié)構(gòu)及其數(shù)據(jù)庫 近年來,另一個介于二級和三級結(jié)構(gòu)之間的蛋白質(zhì)結(jié)構(gòu)層次所謂蛋白質(zhì)折疊蛋白質(zhì)折疊(fold)已被證明非常有用?!癴old”描述的是二級結(jié)構(gòu)元素的混合組合方式。 根據(jù)序列或多序列列
26、線預(yù)測蛋白質(zhì)二級結(jié)構(gòu)的技術(shù)已相對比較成熟,但三級結(jié)構(gòu)的預(yù)測則相當(dāng)困難。往往對于三級結(jié)構(gòu)預(yù)測,只能通過與已知結(jié)構(gòu)蛋白序列同源性比對來完成。已有不少相關(guān)數(shù)據(jù)庫被建立起來用于蛋白質(zhì)結(jié)構(gòu)預(yù)測。這一方法已是目前進(jìn)行三級結(jié)構(gòu)預(yù)測的最準(zhǔn)確方法。但是這一方法并不總是奏效,因為大約有80%的已知蛋白質(zhì)序列找不到與之相似的已知結(jié)構(gòu)的蛋白質(zhì)序列。近年來,一些新方法被提出,這些方法可以不通過相似性比對來預(yù)測序列結(jié)構(gòu)。 二、二級結(jié)構(gòu)預(yù)測二、二級結(jié)構(gòu)預(yù)測 已有大量有關(guān)根據(jù)序列預(yù)測蛋白質(zhì)二級結(jié)構(gòu)的文獻(xiàn)資料,這些資料可大致分為二類:一是有關(guān)根據(jù)單一序列預(yù)測二級結(jié)構(gòu);二是有關(guān)根據(jù)多序列列線預(yù)測二級結(jié)構(gòu)。 直到最近為止,二級結(jié)構(gòu)
27、預(yù)測才不被認(rèn)為具有很高的隨機(jī)性。大多數(shù)預(yù)測算法均是依據(jù)單一序列。即使是最著名的一些算法(如Chou-Fasman算法和GOR算法)也只有約60%的預(yù)測準(zhǔn)確率,而對于一些特定的結(jié)構(gòu),如那些富含折疊片的結(jié)構(gòu),這些算法難以預(yù)測成功。 預(yù)測失敗的原因主要是單一序列所提供的信息只是殘基的順序而沒有其空間分布的信息。兩個方面的研究進(jìn)展改變了這一狀況:一一是認(rèn)識到多序列列線可被用于改進(jìn)預(yù)測能力是認(rèn)識到多序列列線可被用于改進(jìn)預(yù)測能力。多序列列線可被視為誘變遺傳學(xué)試驗中的自然突變狀況,其對序列上單一位點變異的分析的確提供了該位點在蛋白質(zhì)三級結(jié)構(gòu)中的信息;二是神經(jīng)網(wǎng)絡(luò)已二是神經(jīng)網(wǎng)絡(luò)已開始被用于根據(jù)序列預(yù)測結(jié)構(gòu)開始
28、被用于根據(jù)序列預(yù)測結(jié)構(gòu)。目前已有這樣一個共識,即在有大量、高質(zhì)量的多序列列線結(jié)果的情況下,蛋白質(zhì)二級結(jié)構(gòu)的預(yù)測將非常準(zhǔn)確通常準(zhǔn)確率比以單一序列預(yù)測提高10%。 一些文獻(xiàn)表明,一些程序(諸如PHD)預(yù)測的準(zhǔn)確率達(dá)到了目前最高水平。PHD(http:/www.embl-heidelberg.de/predictprotein/predictprotein.html)提供了從二級結(jié)構(gòu)預(yù)測到折疊(fold)識別等一系列功能。 三、三級結(jié)構(gòu)預(yù)測三、三級結(jié)構(gòu)預(yù)測 比對數(shù)據(jù)庫中已知結(jié)構(gòu)的序列是預(yù)測未知序列三級結(jié)構(gòu)的主要方法。多種途徑可進(jìn)行以上這種比對。最容易是使用BLASTP程序比對NRL3D或SCOP數(shù)據(jù)
29、庫中的序列。如果發(fā)現(xiàn)超過100個堿基長度且有遠(yuǎn)高于40%序列相同率的匹配序列,則未知序列蛋白與該匹配序列蛋白將有非常相似的結(jié)構(gòu)。在這種情況下,同源性建模(homology modeling)在預(yù)測該未知蛋白精細(xì)結(jié)構(gòu)方面會發(fā)揮非常大的作用。在序列相同率為25%40%時,兩條蛋白質(zhì)將具有相同的折疊,但這時同源性建模將變得更加困難和不準(zhǔn)確。 如果在比對NRL3D數(shù)據(jù)庫時沒有發(fā)現(xiàn)匹配序列,接下去可試試HSSP數(shù)據(jù)庫。這樣做的一條最方便捷徑是用BLAST或FASTA法搜索蛋白質(zhì)序列庫(如SWISS-PROT、TREMBL或PIR),然后利用諸如SRS等工具去檢索任何超過25%序列相同率的匹配序列,如果這些匹配序列在HSSP數(shù)據(jù)庫中存在,則在該序列的注釋(annotation)“DR”欄中將有說明(參見第三章)。如果未知蛋白質(zhì)序列與某一HSSP數(shù)據(jù)庫序列有明顯大于25%的序列相同率,則有把握地假定未知序列至少有與HSSP序列相同的蛋白質(zhì)折疊模式。 目前,NRL3D和HSSP數(shù)據(jù)庫的記錄數(shù)量可以保證20%的蛋白質(zhì)序
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 等級保護(hù)三級相關(guān)要求
- 股權(quán)轉(zhuǎn)讓協(xié)議書范本 格式 樣本 樣式 協(xié)議
- 住宅租賃合同撰寫指南
- 員工專業(yè)技能培訓(xùn)合同
- 2024年委托貸款協(xié)議合同
- 出口代理協(xié)議范本模板
- 個人融資協(xié)議書合同范本撰寫指南
- 2024年簡單店面租賃合同2
- 簡單版貨物運(yùn)輸合同范本
- 工程合同書2024新版本
- 山東省臨沂市(2024年-2025年小學(xué)四年級語文)人教版期中考試(上學(xué)期)試卷及答案
- 英大傳媒投資集團(tuán)限公司2024年應(yīng)屆畢業(yè)生招聘(第一批)高頻500題難、易錯點模擬試題附帶答案詳解
- 2024人教版道法七年級上冊第二單元:成長的時空大單元整體教學(xué)設(shè)計
- 鐵路交通安全主題班會課件
- 2024年專技人員公需科目考試答
- 數(shù)學(xué)蘇教版四年級(上冊)1、解決問題的策略 蘇教版(共13張)
- 2023-2024學(xué)年北京市某中學(xué)七年級上學(xué)期期中考試地理試卷(含詳解)
- 落實《中小學(xué)德育工作指南》制定的實施方案(pdf版)
- 調(diào)味品品牌授權(quán)銷售合作協(xié)議(2024年版)
- 中國軟件行業(yè)基準(zhǔn)數(shù)據(jù)報告(SSM-BK-202409)
- 2024新華社招考應(yīng)屆高校畢業(yè)生(高頻重點提升專題訓(xùn)練)共500題附帶答案詳解
評論
0/150
提交評論