【生物信息學(xué)第二版】序列比對_第1頁
【生物信息學(xué)第二版】序列比對_第2頁
【生物信息學(xué)第二版】序列比對_第3頁
【生物信息學(xué)第二版】序列比對_第4頁
【生物信息學(xué)第二版】序列比對_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

生物信息學(xué)第二章

序列比對南方醫(yī)科大學(xué)朱浩吉林大學(xué)李瑛生物信息學(xué)第一節(jié)引言

Section1Introduction2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》3(一)同源兩個序列享有一個共同的進化上的祖先,則這兩個序列是同源的。對于兩個序列,他們或者同源或者不同源,不能說他們70%或80%同源。、同源、相似與距離2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》4同源可分為垂直同源(ortholog)和水平同源(paralog)垂直同源與水平同源2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》5(二)相似性與距離相似性、距離:是兩個定量描述多個序列相似度的度量。相似性:被比對序列之間的相似程度。距離:被比對序列間的差異程度。相似性既可用于全局比對也可用于局部比對,而距離一般僅用于全局比對,因為它反映了把一個序列轉(zhuǎn)換成另一個序列所需字符替換的耗費。2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》6二、相似與距離的定量描述相似性可定量地定義為兩個序列的函數(shù),即它可有多個值,值的大小取決于兩個序列對應(yīng)位置上相同字符的個數(shù),值越大則表示兩個序列越相似。編輯距離(editdistance)也可定量地定義為兩個序列的函數(shù),其值取決于兩個序列對應(yīng)位置上差異字符的個數(shù),值越小則表示兩個序列越相似。2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》7對于一個比對,不論使用什么計分函數(shù)進行計分,相似性被定義為總等值于最大的計分:對于k個序列,如果用一個函數(shù)cost()對每一列的所有替換操作進行計分,則多個序列之間的距離等值于最小的計分:2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8對相似性的計分2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》9編輯距離(editdistance):一般用海明距離表示。2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》10三、算法實現(xiàn)的比對用計算機科學(xué)的術(shù)語來說,比對兩個序列就是找出兩個序列的最長公共子序列(longestcommonsubsequence,LCS),它反映了兩個序列的最高相似度。2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》11動態(tài)規(guī)劃法示意(A)使用動態(tài)規(guī)劃法尋找兩個序列的最長公共部分;(B)動態(tài)規(guī)劃表的填寫。2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》12四、序列比對的作用獲得共性序列序列測序突變分析種系分析保守區(qū)段分析基因和蛋白質(zhì)功能分析2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》13第二節(jié)

比對算法概要Section2AlignmentAlgorithms2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》14(一)通過點矩陣對序列比較進行計分A.兩條序列完全相同一、替換計分矩陣2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》15B.兩條序列有一個共同的子序列2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》16C.兩條序列反向匹配2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》17D.兩條序列存在不連續(xù)的兩條子序列2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》18(二)DNA序列比對的替換計分矩陣等價矩陣(unitarymatrix)轉(zhuǎn)換-顛換矩陣(transition-transversionmatrix)BLAST矩陣2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》19核苷酸轉(zhuǎn)換矩陣2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》20(三)蛋白質(zhì)序列比對的替換計分矩陣等價矩陣遺傳密碼矩陣(GCM)疏水性矩陣(hydrophobicmatrix)PAM矩陣BLOSUM矩陣2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》21PAM矩陣是從蛋白質(zhì)序列的全局比對結(jié)果推導(dǎo)出來的,而BLOSUM矩陣則是從蛋白質(zhì)序列塊(短序列)比對推導(dǎo)出來的。PAM/BLOSUM矩陣編號與序列親緣關(guān)系的比較2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》22二、雙序列全局比對動態(tài)規(guī)劃算法的思想⑴

a,b是使用某一字符集∑的序列(DNA或蛋白質(zhì)序列);⑵

m=a的長度;⑶

n=b的長度;⑷

S(i,j)是按照某替換計分矩陣得到的前綴a[1...i]與b[1...j]最大相似性得分;2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》23⑸

w(c,d)是字符c和d按照替換計分矩陣計算的得分??砂凑找?guī)則建立得分矩陣:S(i,0)=0,0≤i≤mS(0,j)=0,0≤j≤n

S(i-1,j-1)+w(ai,bj)

匹配或錯配S(i,j)=maxS(i-1,j)+w(ai,-)

插入S(i,j-1)

缺失不罰分2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》24例如,對于序列a=ACACACTA,序列b=AGCACACA,計分規(guī)則w(匹配)=+2;w(a,-)=w(-,b)=w(失配)=-12021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》25得分矩陣2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》26三、雙序列局部比對處理子序列與完整序列(或短序列與長序列)比對的一般過程是:設(shè)短序列a和長序列b,它們的長度分別為La和Lb,比對是在b序列中尋找La長度的a序列的過程。2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》27四、多序列全局比對多序列比對主要涉及四個要素:①選擇一組能進行比對的序列(要求是同源序列);②選擇一個實現(xiàn)比對與計分的算法與軟件;③確定軟件的參數(shù);④合理地解釋比對的結(jié)果;與雙序列比對一樣,多序列比對也有全局比對和局部比對。2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》28(一)動態(tài)規(guī)劃法進行多序列比對(A)計算三個序列間的一個比對單元(i,j,k)依賴于其7個前導(dǎo)項;(B)計算u=ATGTTAT,v=ATCGTAC,w=ATGC三序列比對的三維得分矩陣δ。計算三序列比對2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》29(二)漸進多序列比對三個序列的配對比對未必能組合成一個多序列比對2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》30對于接近或超過100個序列的多序列比對,漸進多序列比對具有較高效率。最流行的漸進多序列比對軟件是Clustal家族。2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》31ClustalW有以下特點:首先,在比對中對每個序列賦予一個特殊的權(quán)值以降低高度近似序列的影響和提高相距遙遠的序列的影響(如下圖)。ClustalW中對序列賦權(quán)的方法2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》32其次,根據(jù)序列間進化距離的離異度(divergence)在比對的不同階段使用不同的氨基酸替換矩陣;第三,采用了與特定氨基酸相關(guān)的空缺(gap)罰分函數(shù),對親水性氨基酸區(qū)域中的空缺予以較低的罰分;第四,對在早期配對比對中產(chǎn)生空缺的位置進行較少的罰分,對引入空缺和擴展空缺進行不同的罰分。2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》33迭代法基于一致性的方法遺傳算法其他多序列全局比對方法2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》34五、多序列局部比對全局比對,其共同特征是序列中所有對應(yīng)字符均假定可以匹配,所有字符具有同等的重要性,空格的插入是為了使整個序列得到比對,包括使兩端對齊。局部比對不假定整個序列可以匹配,重在考慮序列中能夠高度匹配的一個區(qū)段,可賦予該區(qū)段更大的計分權(quán)值,空格的插入是為了使高度匹配的區(qū)段得到更好的比對。2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》35對2個序列進行全局和局部比對可得到完全不同的結(jié)果2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》36

基于隱馬爾可夫模型的多序列比對方法隱馬爾可夫模型和3個蛋白質(zhì)序列PHSFTYVMT、PGSFTYW、RFTGFW的最小公共超圖2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》37六、比對的統(tǒng)計顯著性確定比對得分score是否偶然:1.將β球蛋白或肌球蛋白與大量非同源的蛋白質(zhì)做比對,然后將score與這些比對的得分進行比較。2.把一個序列與一組隨機產(chǎn)生的序列進行比對,然后同樣將score與這些比對的得分進行比較。3.隨機將兩個序列中的一個打亂重組,比如說重組100次,并與另一個序列比對,同樣得到一組比對的得分。2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》38第三節(jié)

數(shù)據(jù)庫搜索Section3DatabaseSearch2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》39一、經(jīng)典BLAST基本的BLAST算法本身很簡單,它的要點是片段對(segmentpair)的概念,它是指兩個給定序列中的一對子序列,它們的長度相等,且可以形成無空格的完全匹配。2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》40程序名查詢序列數(shù)據(jù)庫類型方法blastp蛋白質(zhì)蛋白質(zhì)用蛋白質(zhì)查詢序列搜索蛋白質(zhì)序列數(shù)據(jù)庫blastn核酸核酸用核酸查詢序列搜索核酸序列數(shù)據(jù)庫blastx核酸蛋白質(zhì)將核酸序列按6條鏈翻譯成蛋白質(zhì)序列后搜索蛋白質(zhì)序列數(shù)據(jù)庫tblastn蛋白質(zhì)核酸用蛋白質(zhì)查詢序列搜索核酸序列數(shù)據(jù)庫,核酸序列按6條鏈翻譯成蛋白質(zhì)tblastx核酸核酸將核酸序列按6條鏈翻譯成蛋白質(zhì)序列后搜索由核酸序列數(shù)據(jù)庫按6條鏈翻譯成的蛋白質(zhì)序列的數(shù)據(jù)庫BLAST的查詢序列和數(shù)據(jù)庫的類型2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》41BLAST算法圖示2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》42二、衍生BLAST(一)PSI-BLAST主要用于搜索與感興趣的蛋白質(zhì)關(guān)系較遠的蛋白質(zhì)。(二)PHI-BLAST用來幫助判斷這個蛋白質(zhì)屬于哪個家族。(三)BLASTZBLASTZ是在比對人和鼠的基因組中發(fā)展起來的,它適合于比對非常長的序列。2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》43三、BLATBLAT(TheBLAST-LikeAlignmentTool)與BLAST搜索原理相似,但發(fā)展了一些專門針對全基因組分析的技術(shù)。BLAT的優(yōu)點在于速度快,其比對速度要比BLAST快幾百倍,其根本原因在于:BLAST是將查詢序列索引化,而BLAT則是將搜索數(shù)據(jù)庫索引化,BLAT把相關(guān)的呈共線性的比對結(jié)果連接成為更大的比對結(jié)果。2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》44四、RNA序列搜索RNA序列比對/搜索算法可大致分成兩類:⑴查詢序列(query)的結(jié)構(gòu)未知,要找到數(shù)據(jù)庫中和其結(jié)構(gòu)相近的同源序列。2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》45⑵利用查詢序列的結(jié)構(gòu)信息,在結(jié)構(gòu)信息的使用上又可以細分為:通過構(gòu)建一個描述RNA序列共性結(jié)構(gòu)的概率模型進行數(shù)據(jù)庫檢索;

基于索引(index)或者模體(motif)描述的方法定義rna結(jié)構(gòu)或共性結(jié)構(gòu),并進行數(shù)據(jù)庫搜索。2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》46五、數(shù)據(jù)庫搜索的統(tǒng)計顯著性一個典型的BLAST搜索的輸出包括E值和得分,后者又分原始得分(rawscores)和比特得分(bitscores)。

P=1-e-EP值和E值是反映比對顯著性的兩種不同方式,大部分BLAST在線服務(wù)使用E值而非P值來定義搜索的統(tǒng)計學(xué)顯著性。2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》47第四節(jié)

比對軟件、參數(shù)與數(shù)據(jù)資源Section4AlignmentSoftware,ParameterandResource2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》48一、參數(shù)選擇的一般原則空格罰分涉及幾個問題:①空格罰分是否大于失配罰分;②不同大小空缺的罰分;③空格的引入與延伸是否予以不同罰分。2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》49如果一次數(shù)據(jù)庫搜索產(chǎn)生了太多的返回結(jié)果,可采取如下措施:⑴使用參考序列(帶“refseq”的)數(shù)據(jù)庫,這樣可減少許多冗余結(jié)果;⑵使查詢序列只包含一個結(jié)構(gòu)域,減少多結(jié)構(gòu)域帶來的多匹配;⑶根據(jù)查詢序列與數(shù)據(jù)庫序列的關(guān)系使用更合適的替換計分矩陣;⑷降低E值。2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》50如果一次數(shù)據(jù)庫搜索產(chǎn)生了太少的返回結(jié)果,可采取如下措施:⑴提高E值;⑵使用更大的PAM矩陣或更小的BLOSUM矩陣;⑶減小字長以及減小閾值。2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》51二、主要比對軟件2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》52三、EBI中的序列比對工具雙序列比對多序列比對特性工具工具GlobalalignmentNeedleClustalOmegaGlobalalignmentStretcherClustalW2LocalalignmentWaterDbClustalLocalalignmentLalignKalignLocalalignmentMatcherMAFFTGenomicalignmentPromoterWiseMUSCLEGenomicalignmentGeneWiseMViewGenomicalignmentWise2DBAPRANK2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》53四、UCSC中的BLAT比對工具BLAT在線工具輸入界面2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》54BLAT在線工具輸出結(jié)果2021/5/98年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》8年制及7年制臨床醫(yī)學(xué)等專業(yè)用《生物信息學(xué)》55第

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論