序列相似性的概念_第1頁
序列相似性的概念_第2頁
序列相似性的概念_第3頁
序列相似性的概念_第4頁
序列相似性的概念_第5頁
已閱讀5頁,還剩35頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

序列相似性的概念1第一頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

序列比較的問題(Theproblemwithsequencecomparison)序列比較:序列比較包括從兩個或多個序列中找出所有顯著相似的區(qū)域。最主要的問題是必須首先作出定義,對于生物序列來說何為顯著相似。在開始講程序之前,讓我們先了解一下它們做些什么和為什么那樣做。這一節(jié)主要是關(guān)于序列比較是如何進行的。2第二頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

序列比較的問題(Theproblemwithsequencecomparison)當(dāng)我們比較兩個序列時,總是會對顯著相似的區(qū)段比較感興趣,可是從生物學(xué)的角度如何定義何為“顯著相似”?為了更好的理解這一點,讓我們先看看幾個例子。首先從比較兩個簡單序列開始。

ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT

3第三頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

序列比較的問題(Theproblemwithsequencecomparison)在這里我們只是簡單的將兩個序列并排比較,對比兩個序列之間的堿基,將匹配的殘基用垂直線標(biāo)出,可見一個保守的區(qū)域。但是,是否還有更好的排比方式呢?顯然,如果將其中一個序列相對另一序列錯開兩個堿基位置,可以得到一個更好的排比結(jié)果(這里說更好是指得到更多相匹配的堿基)ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC||||||||||||||||||||||||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT4第四頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

序列比較的問題(Theproblemwithsequencecomparison)結(jié)論是,我們不能夠簡單的將兩個序列頭尾對應(yīng)的排比,而是對各種可能的排比方式都進行比較以找出最佳的排比結(jié)果??墒?,這還不行。生物體有許多變化的機制,簡單的從一個殘基變?yōu)榱硪粋€殘基只是其中之一,而插入和缺失也經(jīng)常發(fā)生,我們是否可以將插入和缺失考慮進去,以得到更好的排比結(jié)果呢?ATGCATGCATGCATGCATATATATATAT----ATATATGCATGCATGCATGCATGC||||||||||||||||||||||||||||||||||||||||CGATCGATCGATCGATATATATATATGCATATAT----ATGCATGCATGCATGCAT5第五頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

序列比較的問題(Theproblemwithsequencecomparison)這里我們用了連字號(--)來標(biāo)記插入/缺失的事件。僅僅觀察兩個序列是很難知道是否有插入或缺失的發(fā)生的,因此我們將它簡稱為一個“indel”。插入“indels”通常會大大增加匹配殘基的數(shù)目:在序列比較時必須考慮“gaps”的存在,采用“gaps”通??梢源蟠笤黾悠ヅ錃埢臄?shù)量。----AT--GCAT--GCATGC--ATGCATATATATATAT----ATATAT----GCATGCATGCATGCATGC|||||||||||||||||||||||||||||||||||||||||||CGATCG--ATCG--AT--CG--------ATATATATATATGCATATATATGCATGCATGCATGCAT6第六頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

序列比較的問題(Theproblemwithsequencecomparison)但是,在加入“gaps”后又會出現(xiàn)一個問題:這個排比是否還有意義呢?如上述例子,我們通過加入了許多“gaps”來增加相似度,僅僅為了得到多一些匹配殘基數(shù)就加入許多的“gaps”,這樣做是否值得呢?答案是:有時。(不很滿意,是嗎?)有時確實值得,而有時又不劃算。如果我們需要使序列變化太大,那很可能是不值得的。怎樣知道是否值得呢?通過大量的觀察研究表明,“indel”事件發(fā)生的機率遠(yuǎn)小于點突變。而常識又告訴我們,在上述例子中,單堿基的“indels”有可能破壞序列上原來的開放讀碼框,如果有的話。因此,“gaps”比單點突變代表了更大的生物學(xué)改變?!癷ndels(gaps)”在引入時必須格外小心。7第七頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

序列比較的問題(Theproblemwithsequencecomparison)如上述,將兩個序列相對位移(shift),根據(jù)突變的情況引入“gaps”可以得到更好的排比結(jié)果。但是,這樣做是否就已經(jīng)發(fā)掘了所有的顯著匹配?仔細(xì)再看看可以發(fā)現(xiàn),我們還忽略了一些重要的特征,讓我們用不同顏色標(biāo)出:ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGCCGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT8第八頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

序列比較的問題(Theproblemwithsequencecomparison)是的,有一個重復(fù)序列模體(motif)分布于序列中,從簡單的排比中是不可能使這種特異序列顯現(xiàn)出來的。因那樣只能使其中一序列上的模體與另一序列上的模體匹配,而不能使所有的模體在排比中互相匹配,我們需要更好的方式來比較序列的相似度,而不僅僅是簡單的排比。ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGCCGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT9第九頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

序列比較的問題(Theproblemwithsequencecomparison)可是,問題還不僅于此。讓我們仔細(xì)看看以下兩個序列,看是否能找出顯著相似的區(qū)段。它們似乎并無多少相似,是嗎?當(dāng)然,可以通過一些位移和gaps增加相似度,好象也不存在明顯的重復(fù)序列。然而,這兩個序列卻給人相似的印象,只是第一眼看去不明顯而已。只要把其中一個序列水平打轉(zhuǎn),讓其5‘端與3’端對調(diào)。ATGCGACATTATATGGACGCCGACAATATGCATGACTAGCATAGCATGCGAT|||||||||||TAGCGTACGAGACGTTCAGTAGGTATAACAGTCGCAGGTATCTTACAGCGTA10第十頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

序列比較的問題(Theproblemwithsequencecomparison)很吃驚,是吧。讓我們再看看下面的例子,找到相似的地方嗎?ATGCGACATTATATGGACGCCGACAATATGCATGACTAGCATAGCATGCGAT|||||||||||||||||||||||||||||||||||||||||||||||ATGCGACATTCTATGGACGCTGACAATATGGATGACTTGCAGAGCATGCGATATGCGATCAGATGATCAGATGACATGACATAGGCATACCCAATTGACATACG||||||||||||CGTATGTCAATTGGGTATGCCTATGTCATGTCATCTGATCATCTGATCGCAT11第十一頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

序列比較的問題(Theproblemwithsequencecomparison)是的,這一次序列已經(jīng)被反轉(zhuǎn)為互補的了。你看,除了簡單的將兩個序列放到一起比較以外,還是有很多可以做的,而且有時僅靠肉眼判斷還是非常難的。這就是為什么我們非得用計算機工具來幫助做這些工作的原因。ATGCGATCAGATGATCAGATGACATGACATAGGCATACCCAATTGACATACG||||||||||||CGTATGTCAATTGGGTATGCCTATGTCATGTCATCTGATCATCTGATCGCAT12第十二頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

利用計算機比較序列我們可以讓計算機以最佳的方式來作序列比較。開始時,可以先將兩個序列擺在一起,數(shù)一數(shù)匹配的殘基數(shù)。可是,這樣還沒有考慮生物序列的另一相關(guān)因子:殘基之間可以存在不同的相似度。例如,亮氨酸與異亮氨酸的相似度大于其與其它氨基酸如組氨酸等的相似度,盡管它們都屬于不同的氨基酸。13第十三頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

利用計算機比較序列因此,第一步首先制作一個表或距陣,用來標(biāo)明各不同氨基酸殘基之間的相似度。這樣一來,計算機就不會將亮氨酸變?yōu)楫惲涟彼崤c亮氨酸變?yōu)榻M氨酸等同對待。有好些這種氨基酸相似度表或距陣已被制作出來,如PAM、BLOSUM、BLOSUM32等,每個距陣都是根據(jù)不同的假設(shè)或?qū)嶒灁?shù)據(jù)制作出來。計算機就根據(jù)這些表來判定殘基之間的相似度。14第十四頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

利用計算機比較序列當(dāng)然,我們還希望計算機將兩個序列逐個堿基相對錯位,以免忽略耷掉任何相似的區(qū)段。如果我們把這一過程做成一個二維的圖表,可能比較容易看出這個工作是如何完成的。在圖表中,將其中一個序列的殘基與另一序列的所有殘基逐一比較。15第十五頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

利用計算機比較序列

C|XG|XATGCT|X||||A|XATGC+---------------ATGC16第十六頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析利用計算機比較序列上圖的對角線代表不作任何移位比較兩個序列時的匹配殘基。就象前面舉的第一個例子一樣。而一系列的位移比較可以用相鄰的對角線表示:17第十七頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

利用計算機比較序列

A|X.C|.XATGCAG|X.X||||T|.XGATGCA|.X+----------------------GATGC18第十八頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

利用計算機比較序列這里,我們將主對角線用點標(biāo)出以作參考??梢钥闯?,相似的區(qū)域表現(xiàn)為對角線。而相對的錯位則簡單的表現(xiàn)為移置的對角線。孤立的匹配標(biāo)記代表個別的匹配而不是區(qū)段的匹配,因此將其忽略不計。19第十九頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

利用計算機比較序列這一方法在查看反轉(zhuǎn)序列時也很有用,反轉(zhuǎn)的序列將簡單的表現(xiàn)為反對角線。

A|XT|XCGTAG|XC|XATGC+--------------------ATGC20第二十頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

利用計算機比較序列采用這一方法,不斷位移時從不同的殘基開始比較表現(xiàn)為不同的對角線。事實上我們將經(jīng)常用“對角線”這個詞作為相似性的同義詞。你可以想象為對角線是兩個序列在互相移位后向上轉(zhuǎn)45度所成。21第二十一頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

利用計算機比較序列對角線比擬法在查找前面見過的序列中隱藏特征時也很有用。例如,一個重復(fù)序列會表現(xiàn)為一系列平行的對角線,它們從不同的殘基發(fā)出而有同樣的長度。22第二十二頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

利用計算機比較序列23第二十三頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析利用計算機比較序列查找反轉(zhuǎn)的重復(fù)序列、stem-loops等,也可以通過檢查這個二維圖很容易找出:24第二十四頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

利用計算機比較序列一旦我們了每一個殘基相對位移比較完了序列之后,加gaps的工作就等于是在不斷的移位殘基比較中查找相似的區(qū)段,然后用適當(dāng)?shù)膅aps將它們連接起來。說起來簡單,實際上還是很難的。因為計算機可能會加入太多的gaps,而我們知道自然情況下gaps并非發(fā)生的很頻繁,而且它們通常會破壞序列的功能。我們需要建立一個方法來評定哪里需要加gaps。但一旦加了gaps之后,對于其它的限制,如引入新的鄰近gap,即延長gap的長度,則應(yīng)相對放松。25第二十五頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析利用計算機比較序列所以關(guān)鍵的問題是引入gaps,也就是產(chǎn)生一個“indel”事件。但一旦產(chǎn)生了,它是可以有不同大小的。Gaps越大時對功能產(chǎn)生的影響也越大。要解決這一問題,我們需要為計算機建立一套雙值打分系統(tǒng)。一個值判斷產(chǎn)生新的gaps,另一個值判斷gap的延伸。計算機有了這兩個值,就可以通過不同的對角線查找不重疊(non-overlapping)的相似區(qū)段并通過引入gaps試圖將之連接起來。26第二十六頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

利用計算機比較序列27第二十七頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

利用計算機比較序列可見,對角線的的思路引至了非常有效的序列比較分析方法。其實,這就是目前大多數(shù)計算機程序做序列比較分析時所采用的方法:它們首先嘗試象上述一樣的建立一個序列比較的距陣,然后尋找對角線,最后嘗試將盡可能多的對角線連接起來,成為一個最佳相似排比(記?。阂粋€對角線代表一個相似的序列區(qū)段)。28第二十八頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

利用計算機比較序列可是,這一方法還有兩個主要缺點:比較的量,它隨著序列大小的增加而增加,因為每一個殘基都要與另一序列的所有殘基比較;必須從距陣中尋找對角線,并尋找各種可能的組合,以找出最佳排比。29第二十九頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

利用計算機比較序列完成以上兩步在計算機的運算中是非常消耗資源的,因此,大多數(shù)計算機軟件都走捷徑來加快運算的速度,讓我們看一個稍微復(fù)雜的比較:30第三十頁,共四十頁,2022年,8月28日31第三十一頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

利用計算機比較序列這里所比較的也只不過是兩個小序列(約100堿基)??梢詮闹锌闯鲆恍蔷€,但是它們被大量孤立的點弄模糊了。這些孤立點代表隨機的匹配。由于點太多,要判斷哪些是有關(guān)的哪些是無關(guān)的,即使對計算機來說也是很艱難的工作。32第三十二頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

利用計算機比較序列這里所比較的也只不過是兩個小序列(約100堿基)??梢詮闹锌闯鲆恍蔷€,但是它們被大量孤立的點弄模糊了。這些孤立點代表隨機的匹配。由于點太多,要判斷哪些是有關(guān)的哪些是無關(guān)的,即使對計算機來說也是很艱難的工作。要加速這一序列比較進程的可能解決方法是用“詞”(word)來減少需要比較的數(shù)量。一個詞是一套連續(xù)的殘基,把它們當(dāng)作一個單位,計算機將一次過比較“詞”中的所有殘基,因此,減少了要進行的總比較數(shù)量。33第三十三頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

利用計算機比較序列任何情況下我們都是對一段連續(xù)的相似殘基感興趣,而對隨機匹配不感興趣,也就是對沿著對角線的匹配感興趣。我們可以設(shè)一個最小的對角線長度,比如說10個連續(xù)的殘基,這樣一來就可以消除隨機的點,這就叫一個“window”(窗口)。要求至少有這么長的相似區(qū)段才去考慮它,但這樣一來又會排除了一些低相似度或散布的相似區(qū)段。我們可以通過允許在“window”中有一些不匹配的殘基,從而得到更加精確的結(jié)果。因此在相似的地帶容納一些小的不匹配區(qū),這就是我們通常所稱的“嚴(yán)謹(jǐn)度”(stringency)。就象雜交實驗的洗滌一樣,嚴(yán)謹(jǐn)度越高,留在膜上的越是相似的序列。34第三十四頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析

利用計算機比較序列以下例子的window大小為21,嚴(yán)謹(jǐn)度為14。這就是說,被選出的相似區(qū)大小為21殘基,其相似的分值最小為14。嚴(yán)謹(jǐn)度通常以最小分值給出,即比較時window最少達到該相似度才被認(rèn)為是與分析相關(guān)的。需要支出的是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論