序列比對與算法和軟件使用_第1頁
序列比對與算法和軟件使用_第2頁
序列比對與算法和軟件使用_第3頁
序列比對與算法和軟件使用_第4頁
序列比對與算法和軟件使用_第5頁
已閱讀5頁,還剩109頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、序列比對與算法和軟件使用2第一節(jié) 雙序列比對第二節(jié) 多序列比對第三節(jié) 常用序列比對軟件的使用第一節(jié) 雙序列比對41. 序列比對基本概念2. 空位罰分3. 雙序列比對方法點陣序列比較(Dot Matrix Sequence Comparison)動態(tài)規(guī)劃算法(Dynamic Programming Algorithm)4. 記分矩陣51. 什么是序列比對?序列比對(Sequence Alignment)是通過在序列中搜索一系列單個性狀或性狀模式來比較2個(雙序列比對)或更多(多重序列比對)序列的方法。按比對序列條數(shù)分類雙序列比對:兩條序列的比對多序列比對:三條或以上序列的比對61. 我們?yōu)槭裁搓P(guān)

2、注序列比對?相似的序列可能具有相似的功能與結(jié)構(gòu);發(fā)現(xiàn)一個基因或蛋白哪些區(qū)域容易發(fā)生突變,哪些位點突變后對功能沒有影響;發(fā)現(xiàn)生物進(jìn)化方面的信息。71. 序列比對兩種類型全局序列比對定義:在全局范圍內(nèi)對兩條序列進(jìn)行比對打分的方法。適合于非常相似且長度近似相等的序列。局部序列比對定義:一種尋找匹配子序列的序列比對方法。適合于一些片段相似而另一些片段相異的序列。81. 序列比對兩種類型92. 空位罰分(Gap Penalties)空位為了獲得兩個序列最佳比對,必須使用空位和空位罰分??瘴涣P分分類:空位開放罰分(Gap opening penalty)空位擴(kuò)展罰分(Gap extension penal

3、ty)最優(yōu)的序列比對通常具有以下兩下特征:盡可能多的匹配盡可能少的空位插入任意多的空位會產(chǎn)生較高的分?jǐn)?shù),但找到的并不一定是真正相似序列。101 GTGATAGACAC | 1 GTGCATAGACAC2. 空位罰分允許空位但不罰分不允許有空位 match = 5mismatch = -41 GTG-ATAGACAC | |1 GTGCATAGACAC1 GTG-ATAGACAC | |1 GTGC-ATAGACAC?Score: -21Score: 55112. 空位罰分公式 A T G T T A T A CT A T G T G C G T A T A Score=4參數(shù):匹配= 1非匹配

4、= 0g= 3r = 0.1x = 3score:Wx=g+r(x-1)Wx:空位總記分g:空位開放罰分r:空位擴(kuò)展罰分x:空位長度T A T G T G C G T A T A insertion / deletionA T G T - - - T A T A CWx123. 雙序列比對方法點陣序列比較 (Dot Matrix Sequence Comparison)動態(tài)規(guī)劃算法 (Dynamic Programming Algorithm)詞或K串方法 (Word or K-tuple Methods)133.1 點陣序列比較點陣(Dot Matrix)分析是一種簡單的圖形顯示序列相似性的

5、方法。沿X軸上序列1中的每一個單元(核苷酸或氨基酸)與沿Y軸的第二個序列中的每一個單元進(jìn)行比較,相同的區(qū)域在點陣圖中顯示為由點組成的對角線,對角線之外零散的點為背景噪音。IONIZATIONIONIZATION15點陣分析的應(yīng)用自身比對尋找序列中的正向或反向重復(fù)序列蛋白質(zhì)的重復(fù)結(jié)構(gòu)域(domain)相同殘基重復(fù)出現(xiàn)的低復(fù)雜區(qū)(Low Complexity)RNA二級結(jié)構(gòu)中的互補區(qū)域等對兩條序列的相似性作整體的估計點陣分析中的插入或刪除TACTGTCAT T A C T G T T C A TSequence 1Sequence 2T A C T G - T C A T| | | | | | |

6、 | |T A C T G T T C A T插入空位17點陣分析的應(yīng)用人類低脂受體(human low-density lipoprotein receptor)自身比對發(fā)現(xiàn)正向重復(fù)序列具有連續(xù)相似區(qū)域的兩條DNA序列的簡單點陣圖正向重復(fù)18點陣分析實例編碼噬菌體c(水平軸)和噬菌體P22 c2(垂直軸)的氨基酸序列間的點陣分析相同的點全部打印,很難找到有用的信息19使用滑動窗口技術(shù)降低噪聲T A C G G T A T G A C A G T A T CT A C G G T A T G A C A G T A T CT A C G G T A T G A C A G T A T CT A

7、 C G G T A T G A C A G T A T CC T A T G A C A TACGGTATGWindow=3 Word Size = 320ATACTACAAGACACGTACCGG C G A T G C A T T G A G T A T C A T AWindow size = 5Stringency = 3Match = 1 Mismatch = 021ATACTACAAGACACGTACCGG C G A T G C A T T G A G T A T C A T AWindow size = 5Stringency = 3Match = 1 Mismatch =

8、022ATACTACAAGACACGTACCGG C G A T G C A T T G A G T A T C A T AWindow size = 5Stringency = 3Match = 1 Mismatch = 023G C G A T G C A T T G A G T A T C A T AATACTACAAGACACGTACCGWindow size = 5Stringency = 3Match = 1 Mismatch = 024G C G A T G C A T T G A G T A T C A T AATACTACAAGACACGTACCG25G C G A T G

9、C A T T G A G T A T C A T AATACTACAAGACACGTACCG使用滑動窗口技術(shù)降低噪聲(a)對人類(Homo sapiens)與黑猩猩(Pongo pygmaeus)的球蛋白基因序列進(jìn)行比較的完整點陣圖(b)利用滑動窗口對以上的兩種球蛋白基因序列進(jìn)行比較的點陣圖,其中窗口大小為10個核苷酸, 相似度閾值為8,即10個核苷酸中有8個相同時就打一個點ab27點陣分析的優(yōu)缺點優(yōu)點直觀性,整體性;點陣分析不依賴空位(gap)參數(shù),可尋找兩序列間所有可能的殘基匹配;不依賴任何先決條件,是一種可用于初步分析的理想工具;點陣分析允許隨時動態(tài)地改變最高和最低界限值,可以用來摸索

10、區(qū)分信號和背景標(biāo)準(zhǔn)的嚴(yán)格程度。28點陣分析的優(yōu)缺點缺點不能很好地兼容打分矩陣;滑動窗口和域值的選擇過于經(jīng)驗化;信噪比低; 不適合進(jìn)行高通量的數(shù)據(jù)分析。29點陣分析程序DNA Strider (Macintosh) :/ Dotter (Unix/Linux, X-Windows)COMPARE, DOTPLOT (GCG軟件)PLALIGN (FASTA)Dotlet303.2 動態(tài)規(guī)劃算法動態(tài)規(guī)劃算法(Dynamic Programming Algorithm)是一種計算方法,它的主要思路是把一個問題分成若干個小問題來解決。在生物學(xué)中應(yīng)用的兩種動態(tài)規(guī)劃算法:Needleman-Wunsch算

11、法(全局比對)和Smith-Waterman算法(局部比對)。31序列比對中某一位點匹配的三種可能性Eg. 匹配=1,非匹配=0, 空位罰分=-1Sequence1: CACGASequence2: CGA第一個位點得分剩余序列CC+1ACGAGA-C-1CACGAGAC-1ACGACGA32動態(tài)規(guī)劃算法的數(shù)學(xué)形式Sij=maxSi-1,j-1,+s(aibj),maxx1 (Si-x,j-wx),maxy 1 (Si,j-y-wy)Sij=maxSi-1,j-1,+s(aibj),maxx1 (Si-1,j-wx),maxy 1 (Si,j-1-wy)公式一的簡化公式一公式二說明:Sij是序

12、列a在位置i和序列b在位置j的分值, s(aibj)是位置i 和j上比對分值,wx是在序列a 中長度為x的間隔罰分,wy是序列b中長度為y的間隔罰分33動態(tài)規(guī)劃算法實例ACTTCGACTAG匹配3錯配-1空位-234ACTTCG0ACTAG動態(tài)規(guī)劃算法實例匹配3錯配-1空位-235ACTTCG0-2ACTAG動態(tài)規(guī)劃算法實例匹配3錯配-1空位-236ACTTCG0-2-4-6-8-10-12ACTAG動態(tài)規(guī)劃算法實例匹配3錯配-1空位-237ACTTCG0-2-4-6-8-10-12A-2CTAG動態(tài)規(guī)劃算法實例匹配3錯配-1空位-238ACTTCG0-2-4-6-8-10-12A-2C-4T

13、-6A-8G-10動態(tài)規(guī)劃算法實例?S(2,2)-2+(-2)-2+(-2)0+3匹配3錯配-1空位-239ACTTCG0-2-4-6-8-10-12A-23C-4T-6A-8G-10動態(tài)規(guī)劃算法實例?S(2,3)-4+(-2) 3+(-2)-2+(-1)匹配3錯配-1空位-240動態(tài)規(guī)劃算法實例ACTTCG0-2-4-6-8-10-12A-231C-4T-6A-8G-10匹配3錯配-1空位-241動態(tài)規(guī)劃算法實例ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-14?A-8-3 2G-10-50S(4,4) 4+(-2) 4+(-2) 6+3匹配

14、3錯配-1空位-242動態(tài)規(guī)劃算法實例ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149A-8-3 2G-10-50匹配3錯配-1空位-2ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-3 27864G-10-505679GGT-CATTCCAA回 溯ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-3 27864G-10-505679GGT-CATTCCAAACTTCG0-2-4-6-8-10-12A-231

15、-1-3-5-7C-416420-2T-6-149753A-8-3 27864G-10-505679GGTAC-TTCCAA46比對結(jié)果1.ACTTCGAC-TAG2.ACTTCGACT-AG3.ACTTCGACTA-G哪一個是最優(yōu)比對(optimal alignment)呢?記分矩陣47記分矩陣與空位罰分DNA計分矩陣蛋白質(zhì)計分矩陣廣泛使用的兩種矩陣 PAM BLOSUM空位罰分48DNA計分矩陣actaccagttcatttgatacttctcaaataccattaccgtgttaactgaaaggacttaaagactSequence 1Sequence 2AGCTA1000G0100C

16、0010T0001匹配: 1錯配: 0分值:549轉(zhuǎn)換和顛換CTAG嘧啶嘌呤 表示轉(zhuǎn)換(transition),表示顛換(transversions)轉(zhuǎn)換比顛換更容易發(fā)生轉(zhuǎn)換和顛換AGTCA0.99G0.0060.99T0.0020.0020.99C0.0020.0020.0060.99轉(zhuǎn)換速率是顛換3倍時的模型蛋白質(zhì)計分矩陣PTHPLASKTQILPEDLASEDLTIPTHPLAGERAIGLARLAEEDFGMSequence 1Sequence 2記分矩陣T:G= -2 T:T = 5Score= 48 CSTPAGND.C 9S-1 4T-1 1 5P-3-1-1 7A 0 1 0-

17、1 4G-3 0-2-2 0 6N-3 1 0-2-2 0 5D-3 0-1-1-2-1 1 6 . CSTPAGND.C 9S-1 4T-1 1 5P-3-1-1 7A 0 1 0-1 4G-3 0-2-2 0 6N-3 1 0-2-2 0 5D-3 0-1-1-2-1 1 6 .52PAM( Percent Accepted Mutation)矩陣氨基酸容易被其它生化、物理特性相似的氨基酸替換。PAM1(1個PAM單位)被定義為每100個殘基出現(xiàn)一個被接受的點突變(氨基酸的置換不引起蛋白質(zhì)功能上的顯著變化)。PAMn是PAM1自乘n次。PAM250、PAM120、PAM80和PAM60矩陣

18、可用于相似性分別為20%、40%、50%和60%的序列比對。 A R N D C Q E G H I L K M F P S T W Y V B ZA 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2 N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4 C -

19、2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4 Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5 G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1 H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3 I -1 -2 -

20、2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4 P 1 0

21、0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4 Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -2 -2 -3 V 0 -2 -2

22、-2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0 B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5 Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6 PAM 250 模塊替換矩陣BLOSUM以序列片段為基礎(chǔ),它是 基于蛋白質(zhì)模塊(Block)數(shù)據(jù)庫而建立起來的 在模塊比對的每一列中,分別計算 兩兩氨基酸的變化情況,來自所有 模塊的數(shù)值被用來計算BLOSUM矩陣矩陣后面的數(shù)字表示構(gòu)建此矩陣所用的 序列的相似程度,如BLOSUM62表示由

23、相似度為62%的序列構(gòu)建AACECA - C = 0A - E = -1C - E = -4A - A = 4C - C = 9AACECBLOSUM矩陣 (Blocks Substitution Matrix)55BLOSUM62 56如何選擇合適的評分矩陣? 一般來說,在局部相似性搜索上, BLOSUM 矩陣較PAM要好當(dāng)比較距離相近的蛋白時,應(yīng)選擇低的PAM或高的BLOSUM矩陣;當(dāng)比較距離較遠(yuǎn)的蛋白時,應(yīng)選擇高的PAM或低的BLOSUM矩陣。 對于數(shù)據(jù)庫搜索來說一般選擇BLOSUM62矩陣PAM矩陣可用于尋找蛋白質(zhì)的進(jìn)化起源,BLOSUM矩陣用于發(fā)現(xiàn)蛋白質(zhì)的保守域574. 相似性與同源

24、性同源性(Homologous Genes) :序列來自共同的祖先,相似的序列往往具有同源性。相似性(Similarity):兩序列根據(jù)某種參數(shù)設(shè)定而表現(xiàn)出來的相近性。58相似性與同源性的區(qū)別相似的序列并不一定同源;相似性是可以被量化的“計分表”,它是匹配的數(shù)量除以比對的長度,通常以百分比%表示;同源性一定是指序列來自共同的祖先;同源性是一個定性的概念,不能使用序列間具有百分之多少同源性來定義。59同源性分類直系同源(Orthologs):具有共同祖先與相似功能的同源基因(無基因復(fù)制事件)。旁系同源(Paralogs):兩個物種A和B的同源基因,分別是共同祖先基因組中由復(fù)制事件而產(chǎn)生的不同拷貝

25、的后代。60So this means 第二節(jié) 多序列比對 (Multiple Alignments)尋找蛋白質(zhì)家族,識別多個序列的保守區(qū)域;相似的蛋白質(zhì)序列往往具有相似的結(jié)構(gòu)與功能;輔助預(yù)測新序列的二級或三級結(jié)構(gòu);可以直觀地看到基因的哪些區(qū)域?qū)ν蛔兠舾?;PCR引物設(shè)計;我們?yōu)槭裁醋龆嘈蛄斜葘?分析多個序列的一致序列;用于進(jìn)化分析,是用系統(tǒng)發(fā)育方法構(gòu)建進(jìn)化樹的初使步驟; 尋找個體之間單核苷酸多態(tài)性(SNPs);通過序列比對發(fā)現(xiàn)直系同源(Orthologs)與旁系同源(Paralogs)基因;尋找同源基因(相似的序列往往具有同源性)。我們?yōu)槭裁醋龆嘈蛄斜葘?多序列比對與進(jìn)化研究例子圖中NYLS為

26、樹根一個多序列比對例子VTISCTGSSSNIGAG-NHVKWY LPGVTISCTGTSSNIGS-ITVNWY LPGLRLSCSSSGFIFSS-YAMYWVRQAPGLSLTCTVSGTSFDD-YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG-ATLVCLISDFYPGA-VTVAWKADS-AALGCLVKDYFPEP-VTVSWNSG-VSLTCLVKGFYPSD-IAVEWWSNG-多序列比對方法全局序列比對動態(tài)規(guī)劃算法 (Dynamic Programming Algorithm)分而治之方法 (Divide and Conquer Methods)

27、SP方法 (Sum of Pairs Methods) 累進(jìn)方法 (Progressive Methods)迭代方法 (Iterative Methods)局部序列比對概形分析 (Pro)區(qū)塊分析 (Block Analysis)統(tǒng)計學(xué)方法 (Statistical Methods)在多序列比對前要考慮的問題比對的優(yōu)劣與序列條數(shù)正相關(guān)每個亞群應(yīng)分別先比對,然后再整體比對一、全局序列比對動態(tài)規(guī)劃算法 (Dynamic Programming Algorithm)分而治之方法 (Divide and Conquer Methods)SP方法 (Sum of Pairs Methods) 累進(jìn)方法

28、(Progressive Methods)迭代方法 (Iterative Methods)遺傳算法 (Genetic Algorithms)序列長度為 n 的雙序列比對n2 比對比對數(shù)目成指數(shù)增長例如:序列長度為n,序列數(shù)為N 的多序列比對數(shù)目是nN對于數(shù)目較少且較短的序列來說都不切實際1.動態(tài)規(guī)劃算法(Dynamic Programming)Sequence 1Sequence 2Sequence 3多維的動態(tài)規(guī)劃算法分而治之 (Divide and Conquer, DCA)方法將MSA(Measurement System Analysis)的空間復(fù)雜度減小DCA在線MSA2. 分而治之

29、方法So in effect Sequence 1Sequence 2Sequence 33. SP(Sum of Pairs)方法為了找到最佳比對,并解決動態(tài)規(guī)則算法的計算復(fù)雜問題,Carrillo & Lipman (1988)發(fā)明了SP (Sum of Pairs)方法SP方法通過對一個隨機數(shù)據(jù)矩陣中氨基酸對的所有可能組合的記分求和來獲得矩陣記分4. 累進(jìn)算法(Progressive Methods)針對基于動態(tài)規(guī)劃算法的MSA程序比對序列數(shù)目有限, Feng & Doolittle(1987)發(fā)明了累進(jìn)算法CLUSTAL 和 PILEUP 是目前常用的基于累進(jìn)算法的比對軟件CLUSTA

30、L 是免費軟件,目前應(yīng)用非常廣泛 1 對所有序列做雙序列比對,構(gòu)建距離矩陣計算相似性分?jǐn)?shù)值2 基于雙序列距離矩陣,構(gòu)建一個進(jìn)化樹 Scer Cele Dmel MouseHuman3 依據(jù)進(jìn)化樹進(jìn)行漸進(jìn)比對 依據(jù)進(jìn)化樹,開始對關(guān)系較 近的序列進(jìn)行兩兩比對 逐漸加入關(guān)系較遠(yuǎn)的序列進(jìn)行比對 構(gòu)建多序列比對Multiple alignmentScerevisiae 1累進(jìn)算法原理一般累進(jìn)比對方法132513131325254droot果仁糖累進(jìn)方法(Praline progressive strategy)13213131325254d4累進(jìn)算法的一些問題比對的準(zhǔn)確性高度依賴于開始選擇的雙序列比對序

31、列關(guān)系越遠(yuǎn)發(fā)生的錯誤可能越高選擇合適的打分矩陣和罰分準(zhǔn)則較困難ClLUSTALW/X簡介ClLUSTAL最初初由Higgins等于1988年創(chuàng)立并不斷完善 用來多序列比對、概形(Profile)分析和創(chuàng)建進(jìn)化樹ClLUSTAL分為ClLUSTALW和CLUSTALX兩種類型ClLUSTAL有用于WINDOWS和UNIX/LINUX的各種版本CLUSTAL方法進(jìn)行所有序列間的雙序列比對基于雙序列比對分?jǐn)?shù)產(chǎn)生一個相鄰連接進(jìn)化樹(neighbor-join tree)根據(jù)進(jìn)化樹提供的序列間關(guān)系按順序?qū)π蛄羞M(jìn)行比對比對可以用以下兩種方法:- slow/accurate - fast/approxima

32、te* CLUSTAL W (1.8) Multiple Sequence Alignments * 1.Sequence Input From Disc2. Multiple Alignments 3. Profile / Structure Alignments 4. Phylogenetic trees S. Execute a system command H. HELP X. EXIT (leave program) Your choice:1CLUSTAL WSequences should all be in 1 file. 7 formats accepted: NBRF/PI

33、R, EMBL/SwissProt, Pearson (Fasta), GDE, Clustal, GCG/MSF, RSF. Enter the name of the sequence file: anti.fasta Sequence format is Pearson Sequences assumed to be PROTEIN Sequence 1: ANP4_PSEAM85 aa Sequence 2: ANP_LIMFE97 aa Sequence 3: ANPA_PSEAM82 aa Sequence 4: ANPX_PSEAM91 aa Sequence 5: ANPY_P

34、SEAM91 aa CLUSTAL W* CLUSTAL W (1.8) Multiple Sequence Alignments * 1.Sequence Input From Disc 2. Multiple Alignments 3. Profile / Structure Alignments 4. Phylogenetic trees S. Execute a system command H. HELP X. EXIT (leave program) Your choice: 2 CLUSTAL WClustal W* * MULTIPLE ALIGNMENT MENU * * 1

35、. Do complete multiple alignment now (Slow/Accurate) 2. Produce guide tree 3. Do alignment using old guide tree file 4. Toggle Slow/Fast pairwise alignments = SLOW 5. Pairwise alignment parameters 6. Multiple alignment parameters 7. Reset gaps between alignments? = OFF 8. Toggle screen display = ON

36、9. Output format options S. Execute a system command H. HELP or press RETURN to go back to main menuYour choice: 1 Enter a name for the CLUSTAL output file anti.aln: Enter name for new GUIDE TREE file anti.dnd: Start of Pairwise alignments Aligning. Sequences (1:2) Aligned. Score: 62 Sequences (1:3)

37、 Aligned. Score: 59 Sequences (1:4) Aligned. Score: 84 Sequences (1:5) Aligned. Score: 83 Sequences (2:3) Aligned. Score: 68 Sequences (2:4) Aligned. Score: 80 Sequences (2:5) Aligned. Score: 79 Sequences (3:4) Aligned. Score: 81 Sequences (3:5) Aligned. Score: 80 Sequences (4:5) Aligned. Score: 98

38、Guide tree : anti.dnd Start of Multiple Alignment There are 4 groups Aligning. Group 1: Sequences: 2 Score:1476 Group 2: Sequences: 3 Score:1499 Group 3: Sequences: 4 Score:1190 Group 4: Sequences: 5 Score:1404 Alignment Score 3470 Consensus length = 102 CLUSTAL-Alignment anti.aln Mac Vector界面的Clust

39、al WClustal X介紹ClustalX介紹ClustalX介紹ClustalX介紹ClustalX介紹ExampleMultiple sequence alignment of 7 neuroglobins using clustalxPILEUPPILEUP是GCG(Genetics Computer Group)軟件包中的MSA分析工具;與CLUSTAL一樣使用累進(jìn)式整體比對方法(Progressive Global Alignment);PILEUP開始的雙序列比對使用Needleman-Wunsch動態(tài)規(guī)劃算法,所以是全局序列比對,善于比較相似度較高的序列。Output of

40、Pileup 401 OATNFA1 TTCAG. .ACACTCAGG TCATCTTCTC AAGC OATNFAR TTCAG. .ACACTCAGG TCATCTTCTC AAGC BSPTNFA TTCAA. .ACACTCAGG TCCTCTTCTC AAGC CEU14683 TTCAG. .ACCCTCAGG TCATCTTCTC AAGC HSTNFR CCCAG. .GCAGTCAGA TCATCTTCTC GAACSYNTNFTRP CCCAG. .GCAGTCAGA TCATCTTCTC GAAC CATTNFAA CCCAG. .ACACTCAGA TCATCTTCT

41、C GAAC CFTNFA TCCAG. .ACAGTCAAA TCATCTTCTC GAAC RABTNFM CCCAGATGGT CACCCTCAGA TCAGCTTCTC GGGC RNTNFAA CCCAGACCCT CACACTCAGA TCATCTTCTC AAAAOutput of PileupClUSTAL和PILEUP存在的問題最終的比對結(jié)果取決于最初的雙序列比對,起初的序列相似度越高比對越準(zhǔn)確;如果比對序列間長度差異較大則會生成異常的引導(dǎo)樹(guide trees)從而嚴(yán)重影響多序列比對;所選的記分與罰分標(biāo)準(zhǔn)并不一定適合一組序列中的所有序列。對累進(jìn)比對方法的改進(jìn)迭代方法策略

42、在比對過程中不斷重新比對各亞組序列把亞組序列再排成包括所有序列在內(nèi)的整體比對獲得最優(yōu)的總比對分?jǐn)?shù)(由成對比對分?jǐn)?shù)相加而成)5. 迭代方法 (Iterative Methods)二、局部序列比對局部比對(Local Alignment)方法能夠確定序列中高度保守的區(qū)域。概形分析 (Pro)區(qū)塊分析 (Block Analysis)1. 概形分析 (Pro)通過對一組序列進(jìn)行整體MSA分析,把其中高度保守的區(qū)域提出分成小的MSA。這些小的MSA根據(jù)其序列與結(jié)構(gòu)的比對得到一個記分矩陣。根據(jù)這個矩陣列出每個位置上的殘基分?jǐn)?shù),稱為位置特異記分表(Position Specific Scoring Tab

43、le)或概形(Profile)。概形(Profile)類似于一個小的MSA,包括匹配、錯配、插入和缺失。概形分析 (Pro)優(yōu)勢:用來尋找一個可能與之匹配的目標(biāo)序列;用來在一個數(shù)據(jù)庫中搜索一個可能的新的蛋白 (pfsearch);通過搜索一個profile數(shù)據(jù)庫來找到提交的序列屬于哪一家族(pfscan);比對兩個MSA(profile to profile)。缺點:所產(chǎn)生的概形僅僅代表MSA本身的序列族變異,如果MSA中的幾個序列相似,則衍生的概形將偏向于這些序列。 不同物種HSP70蛋白的profile圖左邊第一列為一致序列(consensus sequence),其余的行的數(shù)值表示一致序列中每一個氨基酸出現(xiàn)的頻率的對數(shù)與隨機頻率對數(shù)的比值,如出現(xiàn)空位,則必須減去空位行在相應(yīng)位置上的數(shù)值。如用其尋找一個長度為100aa的序列,則檢查的串為110,211,,最高記分區(qū)段將是概形最相似部分。圖中Z表示谷氨酸 or 谷氨酰胺 ; B表示天冬氨酸 or 丙氨酸 用CL

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論