-生物信息學序列比對-精品課件_第1頁
-生物信息學序列比對-精品課件_第2頁
-生物信息學序列比對-精品課件_第3頁
-生物信息學序列比對-精品課件_第4頁
-生物信息學序列比對-精品課件_第5頁
已閱讀5頁,還剩68頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、序列比對生物序列的同源性 指從一些數據中推斷出的兩個基因或蛋白質序列具而共同祖先的結論,屬于質的判斷。就是說A和B的關系上,只有是同源序列,或者非同源序列兩種關系。而說A和B的同源性為80都是不科學的。同 源 性同 源 性直系同源旁系同源?Beta-球蛋白alpha-球蛋白共同祖先-未知球蛋白The Concepts of Orthology and ParalogyOrthologs and Paralogs are two types of homologous sequences. Orthology describes genes in different species that d

2、erive from a common ancestor. Orthologous genes may or may not have the same function. Paralogy describes homologous genes within a single species that diverged by gene duplication. 相似性和同源性關系序列的相似性和序列的同源性有一定的關系,一般來說序列間的相似性越高的話,它們是同源序列的可能性就更高,所以經??梢酝ㄟ^序列的相似性來推測序列是否同源。正因為存在這樣的關系,很多時候對序列的相似性和同源性就沒有做很明顯的

3、區(qū)分,造成經常等價混用兩個名詞。所以有出現(xiàn)A序列和B序列的同源性為80一說。lipocalin RBP4Lipocalin和RBP4基因在序列上幾乎沒有相似性,卻在結構和功能上有非常高的相似性,被認為是同源基因?是否有問題?序列相似性的概念序列比對(aligment)是序列分析的基礎,其他一切都建立在序列排比的基礎上。ACGCTAGCGCTAGCTGCTAGCTAG ACGCTAGCGCTAGCTGCTAGCTAG ACGCTAGCGCAAGCTGCTAGCTAG _ _序列相似性的概念序列比對的目的序列排比是推導蛋白質二級結構的基礎是初步蛋白質功能推斷的基礎可用于蛋白質三級結構的推導可用于推

4、導進化樹和解釋種間親緣關系用于分析分子水平的選擇壓力探測序列之間的相互作用探測啟動子單元等在對一個新測定的蛋白序列進行分析時,比如分析的結果是:這個序列與某種細菌的ATPase相似。這是否意味著這個未知序列就是一個ATPase?答案是不能確定的。MSDTPSTGFSIIHPTSSEGQVPPPRHLSLTHPVVAKRISFYKSG-PRNGTIKIYENPARTFTRPYSAKNITIYKEND匹配率 (identity)兩個蛋白質有一定數量的氨基酸在排比的位點上是相同的,即如果38個氨基酸的蛋白質中15個位點相同,我們說它們39.4%相同(39.4%)相似性 (similarity)通常在

5、某些位點上有一些氨基酸被另外一些化學物理特性相近的氨基酸所代替,這種突變可稱為保守突變。將保守突變的因素考慮在內,就可以定義各種打分方案(scoring schemes)對兩序列的相似程度打分,所得分值即代表其相似的程度。同源性 (homology)只有當兩個蛋白質在進化關系上具有共同的祖先時,才可稱它們?yōu)橥吹?。Beta-球蛋白alpha-球蛋白共同祖先-未知球蛋白序列比較是如何進行的?要分析兩個序列是否相似,必須首先作比對分析(alignment)。如何作排比分析? 最基本的條件是對序列的相似性做定量分析,然后將序列進行排比,在排比中要用到gaps,insertions,substitut

6、ions。 對gaps和insertions打分可用較簡單的扣分方案,而substitutions的打分則比較復雜,必須先構建出一個計算機的算法矩陣(Matrix),再根據此方案對序列中氨基酸殘基之間的差異或相似進行打分。序列比較是如何進行的? 要對兩個序列進行排比,必須首先打出其相似性的定量分值,于是需要一個打分矩陣。打分矩陣(Scoring Matrices):給不同的氨基酸配對定義的一系列相似性分值。而一個突變打分方案(mutation data matrix)則是根據排比時序列中點突變的情況設計出的打分方案。對氨基酸配對相似性的尺度衡量,例如苯丙氨酸和異亮氨酸相似性的定量標準,可以以多

7、種方式來定義。序列比較是如何進行的?打分矩陣(Scoring Matrices) 對氨基酸配對相似性的尺度衡量,例如苯丙氨酸和異亮氨酸相似性的定量標準,可以以多種方式來定義。因此,設計一個打分矩陣,首先必須確定用什么算法模型。在序列排比分析中,打分矩陣只是某個算法模型的量化表現(xiàn),比對的結果只在該算法模型所劃定的范圍內有意義。生物信息學發(fā)展的3個主要階段萌芽期(60-70年代)形成期(80-90年代):高速發(fā)展期(2000-至今)以Dayhoff的替換矩陣和Neelleman-Wunsch算法為代表,它們實際組成了生物信息學的一個最基本的內容和思路:序列比較。它們的出現(xiàn),代表了生物信息學的誕生(

8、雖然“生物信息學”一詞很晚才出現(xiàn)),以后的發(fā)展基本是在這2項內容上不斷改善。以分子數據庫和BLAST等相似性搜索程序為代表。1982年三大分子數據庫的國際合作使數據共享成為可能,同時為了有效管理與日俱增的數據,以BLAST、FASTA等為代表工具軟件和相應的新算法大量被提出和研制,極大地改善了人類管理和利用分子數據的能力。在這一階段,生物信息學作為一個新興學科已經形成,并確立了自身學科的特征和地位以基因組測序與分析為代表?;蚪M計劃,特別是人類基因組計劃的實施,分子數據以億計;基因組水平上的分析使生物信息學的優(yōu)勢得以充分表現(xiàn),基因組信息學成為生物信息學中發(fā)展最快的學科前沿。Dayhoff矩陣N

9、eelleman-Wunsch算法Fasta算法blast算法基因組分析計算生物學生物信息學過渡時期生物信息學發(fā)展的3個主要階段萌芽期(60-70年代)過渡期(80-90年代)高速發(fā)展時期2000年-至今序列比對的過程建立評分矩陣執(zhí)行比對(動態(tài)規(guī)劃算法)確定最佳途徑Pam250blosum62fastablastDr. Margaret Oakley Dayhoff, credited as the founder of Bio-Informatics, ca. 1980 歷史尋蹤 最大的成績或許就是得分矩陣的出現(xiàn), Dayhoff被稱作生物信息學之父或許更合適。 簡單了解 Dayhoff 矩

10、陣PhD in Chemistry, Columbia University, 1947Watson Computing Laboratory Fellow 1947 - 48Atlas of Protein Sequence and Structure 1965 - 1978Protein Sequence DatabasePAM Score Matrix (1978)Log-odds matrix for PAM250PAM系列矩陣1. Margaret Dayhoff, 1978;2. Accepted point mutation (PAM): 可接受的點突變,氨基酸的改變不顯著影響蛋

11、白質的功能;3. 進化模型:中性進化,Kimura,1968;使用數據1. 34個蛋白質超家族;2. 72個蛋白質組;3. 1572個突變;4. 序列相似性 85%功能同源的蛋白質 - 通過中性進化,引入可接受的點突變;統(tǒng)計氨基酸的替代1. 對于同一個group內的蛋白質序列,統(tǒng)計氨基酸可能出現(xiàn)的頻率,以及替換的個數;2. 注意:不考慮空位;該例中:fFF = 13fFY = 6fFH = 1fYY = 6fYF = 9對20種氨基酸做相同統(tǒng)計注意:fab不一定等于fbaPAM1矩陣的構建1. 兩個蛋白質序列的1%氨基酸發(fā)生變化的時間;2. 定義進化時間以氨基酸的變異比例為準,而不是時間;因為

12、各個蛋白質家族進化的速度并不相等;3. PAM2 = PAM1*PAM1 PAM3 = (PAM1)3 PAM250= (PAM1)25020種氨基酸的相對突變能力Ala: 主觀的設定為100PAM1的數值氨基酸改變概率值PAM2矩陣1. 基本假設:每個氨基酸的突變的概率獨立于前次突變。因此,PAM2=PAM1*PAM1PAM250矩陣1. PAM250: 250%的期望的突變;2. 蛋白質序列仍然有15-30%左右的相似性,例如:F-F: 32%A-A: 13%PAM250矩陣,乘以100打分矩陣的使用1. PAM250: 15-30%的序列相似性;2. PAM120: 40%的序列相似性;

13、3. PAM80: 50%4. PAM60: 60%5. 如何選擇最合適的矩陣? 遍歷嘗試PAM矩陣的問題及改進1. PAM系列矩陣存在的問題:A. 氨基酸的打分矩陣,不關心核酸;B. 進化模型的構建需要系統(tǒng)發(fā)育樹的分析,因此,成為一個循環(huán)論證的問題:序列比對-矩陣構建-打分,進行新的序列比對;C. 數據集很小;2. 打分矩陣的改進 BLOSUM系列矩陣2. BLOSUM矩陣1. BLOCK: 蛋白質家族保守的一段氨基酸,無gap,一般幾個-上百個氨基酸;2. Prosite家族:至少有一個BLOCK存在于該家族的所有蛋白質序列中;3. 分析500個Prosite家族;4. BLOSUM62:

14、 序列的平均相似性為62%的BLOCK構建的打分矩陣;5. 最被廣泛使用的氨基酸打分矩陣 序列比較是如何進行的?-打分矩陣的原理(Principles of Scoring Matrices)Blosum矩陣(The Blosum matrices) Dayhoff模型假設,蛋白質序列各部位進化的速率是均等的。但事實很可能并非如此,因為保守區(qū)的進化速率顯然低于非保守區(qū)。Blosum矩陣(The Blosum matrices) (blocks substitution matrix) Henikoff & Henikoff用以下方法解決這一問題。他們采用不同種類蛋白質序列片段的區(qū)間(block

15、s )作排比研究,排比時不加入gaps。這些序列區(qū)間對應于高度保守的區(qū)域。氨基酸匹配率可通過簡單將各區(qū)間可能的匹配率加權。再將這些匹配率寫如匹配率表。其進化相關機率的計算方法與Dayhoff matrix相似。序列比較是如何進行的?-打分矩陣的原理(Principles of Scoring Matrices)Blosum矩陣(The Blosum matrices) 再以簇群方式將不同進化距離整合進方案內:當兩個序列排比的匹配率高于某個閾值時便歸為一個簇群。不斷將匹配率高于閾值的序列加入簇群內。然后將簇群內所有序列平均。通過簇群方式使得關系緊密的序列在匹配率表中的權重減少,而且隨著閾值的減小

16、而減小,從而也象PAM矩陣系列一樣產生一系列的矩陣。 這個矩陣稱為Blosum矩陣。用一個指數來指示簇群的閾值水平,即Blosum80指將序列區(qū)間歸為簇群時以80%匹配率為閾值。Blosum62最接近于PAM250。序列比較是如何進行的?-打分矩陣的原理(Principles of Scoring Matrices)Blosum矩陣(The Blosum matrices)矩陣的使用效果(Matrix Performance)通過一些測試顯示,Blosum矩陣用于在數據庫中查找同源性序列時,效果比PAM矩陣好。如上述,矩陣從1到250PAM兩極距離太遠,可能引起不準確;而Blosum直接從最同

17、源的序列的區(qū)間排比獲取匹配率,不考慮進化距離。Blosum矩陣的突變數據來源于未加gaps的序列區(qū)間排比,相當于蛋白序列的保守區(qū)。Relationship between scoring matrices. The BLOSUM62 has become a de facto standard scoring matrix for a wide range of alignment programs. It is the default matrix in BLAST PAM模型可用于尋找蛋白質的進化起源BLOSUM模型則用于發(fā)現(xiàn)蛋白質的保守域 打分矩陣1. Dayhoff: PAM系列矩陣;

18、2. Henikoff: BLOSUM系列矩陣;3. 常用氨基酸打分矩陣:BLOSUM62;!比對算法遞歸關系(recurrence relation)列表式運算(tabular computation)路徑回溯(traceback)動態(tài)規(guī)畫算法費氏數(Fibonacci number)費氏數(Fibonacci number)可用下列的遞歸關系(recurrence)來描述:F10F9F8F8F7F7F6F0F1F2F3F4F5F6F7F8F9F10011235813213455Global alignment Needleman-Wunsch algorithmLocal alignmen

19、t Smith-Waterman algorithm在1970年代,分子生物學家Needleman 及Wunsch 以動態(tài)程序設計技巧(dynamic programming)分析了氨基酸序列的相似程度;有趣的是,在同一時期,計算科學家Wagner及Fisher 也以極相似的方式來計算兩序列間的編輯距離(edit distance),而這兩個重要創(chuàng)作當初是在互不知情下獨立完成的。雖然分子生物學家看的是兩序列的相似程度,而計算器科學家看的是兩序列的差異,但這兩個問題已被證明是對偶問題(dual problem),它們的值是可藉由公式相互轉換的。全局比對The Needleman-Wunsch a

20、lgorithm Lets do a simple example, adapted from Needleman & Wunschs original paper. First, place the sequences on a matrix of cells. At each cell where the amino acids are identical, enter a value of 1. All the other cells are implicitly given a score of 0 (zero).Now, starting at the C-terminal ends

21、 of the sequences and working toward the origins, add to each cell the maximum value from among all the cells downstream from it (not including cells directly below or directly to the right. Lets do a few cycles of this and see how the matrix develops. Start with the last column and last row, adding

22、 in the zeros Continue with the next column and row. Note that, on the next-to-last row, the cells upstream from the PxP match each now get a value of 1; the cell with the DxD match gets a value of 1 + 1 = 2, since the sequences could be aligned beginning with D to give a D.P match (with a gap, of c

23、ourse). As we go along, the number in each cell will be the largest number of pair matches that can be found if that cell is the origin.Lets continue with the next row and column. All three of the RxR matches get incremented by 1 because you could now get a R.P alignment, starting at an RxR cell We

24、will work one more row & column. Now there are 5 cells containing the number 3. You could start at ANY of these 5 cells and, moving down & to the right, match up the sequence C.R.P! (Remember, as we go along, the number in each cell will be the largest number of pair matches that can be found if tha

25、t cell is the origin.) Ive filled in the rest of the table. You are welcome to do it by hand to check me and to be sure you understand the process In this simple example, there are two optimal paths through the matrix: Here are the two optimal alignments 局部比對The Smith-Waterman algorithm is a dynamic programming method for determining similarity between nucleotide or protein sequences. The algorithm was first proposed in 1981 by Smith and Waterma An exampleThe Smith-Waterman algorithm can be exemplified by the compar

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論