![【生物信息學二版】序列比對PPT課件_第1頁](http://file1.renrendoc.com/fileroot_temp2/2020-6/21/88cd45fd-e105-4fd8-970e-2ec40ba18d89/88cd45fd-e105-4fd8-970e-2ec40ba18d891.gif)
![【生物信息學二版】序列比對PPT課件_第2頁](http://file1.renrendoc.com/fileroot_temp2/2020-6/21/88cd45fd-e105-4fd8-970e-2ec40ba18d89/88cd45fd-e105-4fd8-970e-2ec40ba18d892.gif)
![【生物信息學二版】序列比對PPT課件_第3頁](http://file1.renrendoc.com/fileroot_temp2/2020-6/21/88cd45fd-e105-4fd8-970e-2ec40ba18d89/88cd45fd-e105-4fd8-970e-2ec40ba18d893.gif)
![【生物信息學二版】序列比對PPT課件_第4頁](http://file1.renrendoc.com/fileroot_temp2/2020-6/21/88cd45fd-e105-4fd8-970e-2ec40ba18d89/88cd45fd-e105-4fd8-970e-2ec40ba18d894.gif)
![【生物信息學二版】序列比對PPT課件_第5頁](http://file1.renrendoc.com/fileroot_temp2/2020-6/21/88cd45fd-e105-4fd8-970e-2ec40ba18d89/88cd45fd-e105-4fd8-970e-2ec40ba18d895.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、生物信息學,第二章序列比較,南方醫(yī)科大學珠海吉林大學李英,生物信息學,3,1節(jié)簡介,第1節(jié)introduction,4,(1)同源,兩個序列享有一種共同進化,對于這兩個序列,他們不能說動員或其他來源的70%或80%的動員。同源,相似性和距離,5、同源是垂直同源和水平同源,垂直同源和水平同源。6,(2)相似性和距離,相似性和距離可分為相似性:匹配序列之間的相似性。距離:對應(yīng)序列之間的差異程度。相似性可以用于全局匹配和局部匹配,但距離通常僅用于全局匹配。這是因為它反映了將一個序列轉(zhuǎn)換為另一個序列所需的字符替換成本。7,2,相似性和距離的定量描述,相似性可以量化為兩個序列的函數(shù)。也就是說,它可以有多
2、個值。值的大小取決于兩個序列中相應(yīng)位置的相同字符數(shù)。值越大,表示兩個序列越相似?!熬庉嬀嚯x”(edit distance)可以定量定義為兩個序列的函數(shù),其值取決于兩個序列中相應(yīng)位置的差異字符數(shù),或者值越小,表示兩個序列越相似。8,無論在匹配,分數(shù)上使用什么計分函數(shù),相似性都定義為總等效最大分數(shù)。對于k序列,如果對每列中的所有替換操作使用一個函數(shù)cost()進行計分,則多個序列之間的距離等于最小分數(shù)。9,11,3,算法實現(xiàn)比較,用計算機科學術(shù)語比較兩個序列是查找兩個序列的最長公共子序列(longest common subsequence,LCS),反映了兩個序列的最高相似性。12,動態(tài)規(guī)劃法示
3、意圖,(a)使用動態(tài)規(guī)劃法查找兩個序列最長的公共部分。(b)創(chuàng)建動態(tài)計劃表單。13,4,序列排序的作用,共同序列排序突變分析系統(tǒng)分析保守段分析基因和蛋白質(zhì)功能分析,14,2節(jié)比較算法摘要,第2節(jié)Alignment Algorithms,15,(16,b .兩個序列有一個公共子序列。17,c .兩個序列反向匹配,18,d。兩個序列有兩個不連續(xù)的子序列。19,(2) DNA序列匹配的替換分數(shù)矩陣,相應(yīng)的矩陣。20,核苷酸轉(zhuǎn)換矩陣,21,(3)蛋白質(zhì)序列匹配的替換分數(shù)矩陣,等效矩陣遺傳密碼矩陣(GCM)疏水矩陣(hydrophobic matrix) PAM矩陣BLOSUM矩陣,2,PAM/BLOS
4、UM矩陣數(shù)與序列親緣關(guān)系的比較,23、2、2、2、2、2、2、2、2、2、2、2、2、2、2、2、2、2、2、2、2 M=a.I和b1.j的最大相似度分數(shù)。24,w(c,D)是字母C和D根據(jù)替換分數(shù)矩陣計算的分數(shù)。您可以按照以下規(guī)則建立分數(shù)矩陣:S (I,0)=0,0i m s (0,j)=0,0j n,s (I-1,j-1) w (ai,bj)。W(a,-)=w(-,b)=w(不一致)=-1,26,分數(shù)矩陣、28、4、多序列全局比較、多序列匹配主要包含四個元素。選擇一組可匹配的序列(要求是源序列)。選擇實現(xiàn)比較和分數(shù)的算法和軟件。確定軟件的參數(shù)。合理解釋比較結(jié)果。與雙序列排序類似,多序列排序
5、也具有全局和局部匹配。29,(a)多序列匹配的動態(tài)編程方法,(a)計算三個序列之間的比較單位(I,j,k)取決于七個前置項。(b) u=atgtat,v=ATCGTAC,w=ATGC計算三階對應(yīng)三維分數(shù)矩陣。計算三個序列匹配,30,(2)漸進式多序列匹配,三個序列的匹配匹配不一定合并為一個多序列匹配.對于接近或超過31、100個序列的多序列匹配,增量多序列匹配更有效。最流行的漸進多序列比較軟件是Clustal家族。32、ClustalW具有以下特征:首先,在匹配中為每個序列指定特殊權(quán)重,以減少高近似序列的影響,并增加遠處序列的影響(參見下圖)。ClustalW如何將權(quán)限授予序列,33,二,根據(jù)
6、序列間進化距離的離婚,在徐璐不同階段徐璐使用不同的氨基酸替代矩陣。第三,使用與特定氨基酸相關(guān)的空缺(gap)罰分函數(shù),對親水氨基酸區(qū)域的空缺進行了低罰。第四,在早期配對比較中,對出現(xiàn)空缺的位置的處罰較少,對引入空缺和擴大空缺的懲罰也不同。34,迭代方法基于一致性的方法遺傳算法,其他多序列全局匹配方法,35,5,多序列局部匹配,全局匹配,公共特征假定序列中的所有相應(yīng)字符都可以匹配,所有字符都具有相同的重要性,插入空格以匹配整個序列,包括兩端對齊。局部匹配不假定整個序列可以匹配。關(guān)注考慮序列中可高度匹配的一個部分將賦予該部分較大的分數(shù)權(quán)重,插入空格以更好地匹配高度匹配的段。36、2個序列的全局和局
7、部比較可以得到完全不同的結(jié)果。37,基于隱藏Markov模型的多序列比較方法,隱藏Markov模型和3個蛋白質(zhì)序列PHSFTYVMT,PGSFTYW,RFTGFW的最小公共超圖,38;2.將序列與隨機生成的序列集進行比較,然后將比分與對應(yīng)的分數(shù)進行比較。3.隨機重組兩個序列中的任意一個。例如,重組100次,與其他序列相比,獲得一組對應(yīng)分數(shù)。39,3節(jié)數(shù)據(jù)庫搜索,3節(jié)數(shù)據(jù)庫搜索,40,1,經(jīng)典BLAST,基本BLAST算法本身很簡單。重點是“段對”(segment pair)。41、BLAST的查詢序列和數(shù)據(jù)庫類型,42,BLAST算法圖,43,2,衍生的BLAST,(1) PSI-BLAST主
8、要用來搜索感興趣的蛋白質(zhì)和較遠的蛋白質(zhì)。(b) PHI-BLAST有助于判斷這種蛋白質(zhì)屬于哪個家族。(c) BLASTZ BLASTZ是在人類和老鼠的基因組中開發(fā)的,適合比較非常長的序列。44,3,Blat,Blat(BLAST-Like Alignment Tool)與BLAST搜索原理類似,但開發(fā)了用于全基因組分析的技術(shù)。BLAT的優(yōu)點是速度快。比BLAST快幾百倍。根本原因是: BLAST索引查詢序列,而BLAT索引搜索數(shù)據(jù)庫。BLAT將相關(guān)的線性比較結(jié)果鏈接為較大的比較結(jié)果。45、4、RNA序列搜索、RNA序列匹配/搜索算法可分為兩大類:查詢序列(查詢序列)的結(jié)構(gòu)未知,需要查找與數(shù)據(jù)庫
9、結(jié)構(gòu)相似的同源序列。,46,利用查詢序列的結(jié)構(gòu)信息,建立描述RNA序列的公共結(jié)構(gòu)的概率模型,可以細分為數(shù)據(jù)庫搜索。根據(jù)索引(index)或motif(motif)中介紹的方法,定義RNA結(jié)構(gòu)或公共結(jié)構(gòu)并執(zhí)行數(shù)據(jù)庫搜索。47,5,數(shù)據(jù)庫搜索的統(tǒng)計重要性,典型BLAST搜索的輸出包括E值和分數(shù),分為原始分數(shù)和位分數(shù)。P=1-e-E,P和E值是使用E值而不是P值定義搜索的統(tǒng)計重要性的兩種不同方法。48、第iv節(jié)比較軟件、參數(shù)和數(shù)據(jù)資源、第4節(jié)alignment software、Parameter and Resource、49.49,1,參數(shù)選擇的一般原則,空白罰分存在一些問題,對于大小不同的空缺
10、,罰分空白的引入和擴大是否徐璐給予其他罰分。50,如果數(shù)據(jù)庫搜索產(chǎn)生太多返回結(jié)果,則可以采取以下措施:使用參照序列(帶有“refseq”)的數(shù)據(jù)庫可以減少大量重復(fù)結(jié)果。通過確保祖懷順序僅包含一個域,減少多域?qū)е碌亩鄠€匹配。根據(jù)查詢序列和數(shù)據(jù)庫序列之間的關(guān)系,使用更合適的替代分數(shù)矩陣。減小e值。51,如果數(shù)據(jù)庫搜索返回的結(jié)果太少,可以采取以下措施:增加e值。使用較大的PAM矩陣或較小的BLOSUM矩陣??s短字符長度,減小閾值。52,2,主要比較軟件,53,3,EBI的序列匹配工具,54、4、UCSC中的BLAT匹配工具、BLAT聯(lián)機工具輸入界面、55,Bl。57、1、glocal比較、兩個序列的本地、全局和glocal匹配路徑、58,2,全基因組比較,59,UCSC基因組瀏覽器中使用的多序列比較在很多方面有所改善。首先,使用“參照序列”(reference sequence),使用BLASTZ將每個序列與參照序列進行局部匹配,將參照序列的一個堿基與另一序列的多個堿基進行比較。其次,根據(jù)分數(shù)矩陣和兩個序列的系譜關(guān)系,匹配的結(jié)果被稱為“連接”和“網(wǎng)絡(luò)”。然后,U
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 職場溝通中的情緒管理技巧
- 食品企業(yè)安全生產(chǎn)事故綜合應(yīng)急預(yù)案
- 工業(yè)環(huán)境下的安全教育及應(yīng)急措施
- 兩人合作研發(fā)合同范本
- 事業(yè)單位臨時工勞動合同相關(guān)規(guī)定
- 二手車交易合同官方范本
- 個人業(yè)務(wù)合作合同版
- 二手房買賣合同模板全新版
- 專業(yè)育兒嫂勞動合同協(xié)議書范例
- 個人車輛抵押借款合同標準版
- 社會政策概論課件
- 玻璃反應(yīng)釜安全操作及保養(yǎng)規(guī)程
- 高中英語新課標詞匯表(附詞組)
- 2023年心理咨詢師之心理咨詢師基礎(chǔ)知識考試題庫附完整答案【有一套】
- 證券公司信用風險和操作風險管理理論和實踐中金公司
- 一級建造師繼續(xù)教育最全題庫及答案(新)
- 2022年高考湖南卷生物試題(含答案解析)
- GB/T 20909-2007鋼門窗
- GB/T 17854-1999埋弧焊用不銹鋼焊絲和焊劑
- GB/T 15593-2020輸血(液)器具用聚氯乙烯塑料
- 直線加速器專項施工方案
評論
0/150
提交評論