生物信息學(xué)-第三章_第1頁
生物信息學(xué)-第三章_第2頁
生物信息學(xué)-第三章_第3頁
生物信息學(xué)-第三章_第4頁
生物信息學(xué)-第三章_第5頁
已閱讀5頁,還剩48頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、杜 娟 2013.03.13,生物信息學(xué)-第三章,序列比對分析(一),主要內(nèi)容,基本概念 計(jì)分矩陣 空位罰分 文獻(xiàn)選讀,2,人與狗是否同源?,3,序列的相似性,相似性 (similarity) 是指一種很直接的數(shù)量關(guān)系。比如說,A序列和B序列的相似性是80,或者4/5。這是個(gè)量化的關(guān)系。,4,一 基本概念,序列的相似性,相似性 (similarity) 通常在某些位點(diǎn)上有一些氨基酸被另外一些化學(xué)物理特性相近的氨基酸所代替,這種突變可稱為保守突變。 將保守突變的因素考慮在內(nèi),就可以對兩序列的相似程度打分,所得分值即代表其相似的程度。,5,一致性 (identity): 兩個(gè)蛋白質(zhì)有一定數(shù)量的氨基

2、酸在排比的位點(diǎn)上是相同的,即如果38個(gè)氨基酸的蛋白質(zhì)中15個(gè)位點(diǎn)相同我們說它們一致性為39.4%. MSDTPSTGFSIIHPTSSEGQVPPPRHLSLTHPVVAKRISFYKSG -PRNGTIKIYENPARTFTRPYSAKNITIYKEND,6,所以, 相似性的數(shù)值一定比一致性的要( ) 大 or 相等 or 小,7,同源性 (homology): 指從一些數(shù)據(jù)中推斷出的兩個(gè)基因或蛋白質(zhì)序列具有共同祖先的結(jié)論,屬于質(zhì)的判斷。就是說A和B的關(guān)系上,只有是同源序列,或者非同源序列兩種關(guān)系。,生物序列的同源性,8,相似性和同源性關(guān)系,一般來說,序列間的相似性越高的話,它們是同源序列的

3、可能性就更高。 注意不要等價(jià)混用這兩個(gè)名詞。 A序列和B序列的同源性為80,記住這種說法是錯(cuò)誤的!,9,同源(Homology),同源是根據(jù)相似性得出的進(jìn)化關(guān)系結(jié)論。 同源或非同源(沒有度量程度的差別) 兩條序列同源意味著它們擁有共同的祖先。 同源的幾種類型: 直系同源(Orthology) 旁系同源(Paralogy) 異同源(Xenology),10,直系同源(Orthology),由最后共同祖先中的一個(gè)基因通過物種分化 (Speciation)而產(chǎn)生的同源基因,稱為直系同源基因(Ortholog)。 直系同源基因在不同物種中的功能通常相同 (但反過來不一定正確)。,11,旁系同源(Par

4、alogy),通過基因重復(fù)(Gene duplication)產(chǎn)生的基因稱為旁系同源基因(Paralog)。,12,13,例 子,異同源(Xenology),通過基因水平轉(zhuǎn)移(Horizontal Gene Transfer, HGT)而獲得的同源基因,稱為異同源基因(Xenolog)。,14,兩次物種分化事件:Sp1和Sp2 兩次基因復(fù)制事件:Dp1和Dp2 一次基因水平轉(zhuǎn)移(向左的紅箭頭),15,相似與同源之間的關(guān)系,相似可能是隨機(jī)產(chǎn)生的,或者通過趨同進(jìn)化(convergence evolution)形成相似的序列、結(jié)構(gòu)和功能。 相似也可由兩個(gè)來自共同祖先的序列通過趨異進(jìn)化(diverge

5、nt evolution)產(chǎn)生。通過這種方式產(chǎn)生的相似序列被稱為同源序列。,16,什么是序列比對?,序列比對(Sequence Alignment)是在兩條(雙序列比對)或多條(多序列比對)序列中尋找按照相同次序排布的一連串的單個(gè)字符或字符模塊的過程。 按比對序列條數(shù)分類 雙序列比對:兩條序列的比對 多序列比對:三條或以上序列的比對,17,HEAGAWGHEE,PAWHEAE,sequence 1:,sequence 2:,例 子,注: 短橫線”-”表示插入的空位,18,HEAGAWGHEE,PAWHEAE,sequence 1:,sequence 2:,例 子,sequence 3:,EAA

6、WGHAE,19,我們?yōu)槭裁搓P(guān)注序列比對?,相似的序列可能具有相似的功能與結(jié)構(gòu) 發(fā)現(xiàn)一個(gè)基因或蛋白哪些區(qū)域容易發(fā)生突變,哪些位點(diǎn)突變后對功能沒有影響 BLAST搜索的基礎(chǔ) 發(fā)現(xiàn)生物進(jìn)化方面的信息,20,序列比對兩種類型,全局序列比對 定義:在全局范圍內(nèi)對兩條序列進(jìn)行比對打分的方法 適合于非常相似且長度近似相等的序列 局部序列比對 定義:一種尋找匹配子序列的序列比對方法 適合于一些片段相似而另一些片段相異的序列,21,例 子,22,Sequence 1: HEAGAWGHEE Sequence 2: PAWHEAE,序列比對例子,23,例 子,HEAGAWGHE-E P-A-W-HEAE,One

7、 alignment,比對計(jì)分方法,最佳比對,比對得分值 = 匹配得分 - 錯(cuò)配得分 - 空位罰分 最佳比對:在所有可能的比對結(jié)果中,比對得分值最高的比對即為最佳比對。,26,二 記分矩陣,DNA計(jì)分矩陣 蛋白質(zhì)計(jì)分矩陣 廣泛使用的兩種矩陣 PAM BLOSUM,27,記分矩陣 (SCORING MATRICES),DNA Scoring Matrices Amino Acid Substitution Matrices PAM (Point Accepted Mutation) BLOSUM (Blocks Substitution Matrix),DNA計(jì)分矩陣,Sequence 1 Se

8、quence 2,AGCT A1000 G0100 C0010 T0001,匹配: 1 錯(cuò)配: 0 分值:5,29,轉(zhuǎn)換和顛換,表示轉(zhuǎn)換(transition),表示顛換(transversions) 轉(zhuǎn)換比顛換更容易發(fā)生,30,轉(zhuǎn)換和顛換,轉(zhuǎn)換速率是顛換3倍時(shí)的模型,31,蛋白質(zhì)計(jì)分矩陣,PTHPLASKTQILPEDLASEDLTI,PTHPLAGERAIGLARLAEEDFGM,Sequence 1 Sequence 2,記分矩陣,T:G= -2 T:T = 5 Score= 48,CSTPAGND. C 9 S-1 4 T-1 1 5 P-3-1-1 7 A 0 1 0-1 4 G-3

9、 0-2-2 0 6 N-3 1 0-2-2 0 5 D-3 0-1-1-2-1 1 6 . .,CSTPAGND. C 9 S-1 4 T-1 1 5 P-3-1-1 7 A 0 1 0-1 4 G-3 0-2-2 0 6 N-3 1 0-2-2 0 5 D-3 0-1-1-2-1 1 6 . .,32,第一個(gè)用于序列分析的記分矩陣是被Dayhoff 等人于1978年構(gòu)建的 矩陣是對組相似性達(dá)到以上緊密相關(guān)的蛋白質(zhì)家族中個(gè)突變進(jìn)行觀察構(gòu)建獲得的,33,PAM(Point Accepted Mutation Matrices)矩陣,氨基酸容易被其它生化、物理特性相似的氨基酸替換 PAM1(1個(gè)

10、PAM單位)被定義為每100個(gè)殘基出現(xiàn)一個(gè)被接受的點(diǎn)突變(氨基酸的置換不引起蛋白質(zhì)功能上的顯著變化) PAMn是PAM1自乘n次 PAM250、PAM120、PAM80和PAM60矩陣可用于相似性分別為20%、40%、50%和60%的序列比對,34,PAM250,各個(gè)氨基酸本身的替換頻率最大,正值表示氨基酸之間的替換頻率大,負(fù)值表示氨基酸之間的替換頻率小,氨基酸本身的替換頻率越高表示該氨基酸在自然界中比較少,35,36,64種密碼子以及它們所編碼的氨基酸,GAU (Asp/D) 天冬氨酸GAC (Asp/D) 天冬氨酸GAA (Glu/E) 谷氨酸GAG (Glu/E) 谷氨酸,模塊替換矩陣B

11、LOSUM以序列片段為基礎(chǔ),它是 基于蛋白質(zhì)模塊(Block)數(shù)據(jù)庫而建立起來的 在模塊比對的每一列中,分別計(jì)算 兩兩氨基酸的變化情況,來自所有 模塊的數(shù)值被用來計(jì)算BLOSUM矩陣 矩陣后面的數(shù)字表示構(gòu)建此矩陣所用的 序列的相似程度,如BLOSUM62表示由 相似度為62%的序列構(gòu)建,A A C E C,A - C = 0 A - E = -1 C - E = -4 A - A = 4 C - C = 9,A A C E C,BLOSUM矩陣 (Blocks Substitution Matrix),BLOSUM62,如何選擇合適的評分矩陣?,一般來說,在局部相似性搜索上, BLOSUM 矩

12、陣較PAM要好 當(dāng)比較距離相近的蛋白時(shí),應(yīng)選擇低的PAM或高的BLOSUM矩陣;當(dāng)比較距離較遠(yuǎn)的蛋白時(shí),應(yīng)選擇高的PAM或低的BLOSUM矩陣 對于數(shù)據(jù)庫搜索來說一般選擇BLOSUM62矩陣 PAM矩陣可用于尋找蛋白質(zhì)的進(jìn)化起源,BLOSUM矩陣用于發(fā)現(xiàn)蛋白質(zhì)的保守域,39,空位用來表示序列進(jìn)化過程中的插入或刪除 空位值為負(fù)值 空位罰分的方法 線性空位罰分 (Linear gap penalty ) 仿射空位罰分 (Affine gap penalty ) 最優(yōu)的序列比對通常具有以下兩下特征: 盡可能多的匹配 盡可能少的空位 插入任意多的空位會(huì)產(chǎn)生較高的分?jǐn)?shù),但找到的并不一定是真正相似序列,4

13、0,三 空位罰分 (Gap Penalties),線性空位罰分( linear gap penalty ) 計(jì)算公式如下:,wx = g x g 空位罰分值 x 空位長度,41,HEAGAWGHE-E P-A-W-HEAE,Alignment 1,if g = -11 Gap Penalty:-11 * 5 = -55,HEAGAWGHE-E P-A-W-H-EAE,Alignment 2,例 子,42,仿射空位罰分( affine gap penalty ) 計(jì)算公式定義如下:,wx = g + r(x - 1) g 引入第一個(gè)空位罰分 r 空位延伸罰分 x 空位的長度 |g|r|,44,4

14、5,序列比對: 仿射空位罰分: 引入第一個(gè)空位罰分: g=-3 空位延伸罰分: r=-1 打分矩陣: BLOSUM62 得分 =?,例 子,(-2)+(-3)+4+(-3)+2*(-1)+11+(-3)+8+5+(-3)+5=17,嚴(yán)緊的罰分很難本來很相似的序列對準(zhǔn) 松弛的罰分甚至可以使兩個(gè)無關(guān)的序列達(dá)到100%的相似性,問題: 如何選擇空位罰分值的大小?,四 文獻(xiàn)選讀,47,伴隨成人期神經(jīng)退行性變性的兒童期靜態(tài)腦病(Static encephalopathy of childhood with neurodegeneration in adulthood (SENDA) ) 腦鐵沉積 確診為SENDA的5名患者的基因進(jìn)行了分析。患者大腦萎縮并伴隨認(rèn)知障礙。,48,49,Xp11.23 WDR45,自噬作用,磷酸肌醇 FRRG基序,50,練 習(xí) 一,得分標(biāo)準(zhǔn):匹配 +5 錯(cuò)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論