多重序列比對_第1頁
多重序列比對_第2頁
多重序列比對_第3頁
多重序列比對_第4頁
多重序列比對_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第三章 序列比較3.3序列多重比對與序列兩兩比對不一樣,序列多重比對(Multiple Alignment)的目標(biāo)是發(fā)現(xiàn)多條序列的共 性。如果說序列兩兩比對主要用于建立兩條序列的同源關(guān)系和推測它們的結(jié)構(gòu)、功能,那么,同 時比對一組序列對于研究分子結(jié)構(gòu)、功能及進(jìn)化關(guān)系更為有用。例如,某些在生物學(xué)上有重要意 義的相似性只能通過將多個序列對比排列起來才能識別。同樣,只有在多序列比對之后,才能發(fā) 現(xiàn)與結(jié)構(gòu)域或功能相關(guān)的保守序列片段。對于一系列同源蛋白質(zhì),人們希望研究隱含在蛋白質(zhì)序 列中的系統(tǒng)發(fā)育的關(guān)系,以便更好地理解這些蛋白質(zhì)的進(jìn)化。在實(shí)際研究中,生物學(xué)家并不是僅 僅分析單個蛋白質(zhì),而是更著重于研究蛋

2、白質(zhì)之間的關(guān)系,研究一個家族中的相關(guān)蛋白質(zhì),研究 相關(guān)蛋白質(zhì)序列中的保守區(qū)域,進(jìn)而分析蛋白質(zhì)的結(jié)構(gòu)和功能。序列兩兩比對往往不能滿足這樣 的需要,難以發(fā)現(xiàn)多個序列的共性,必須同時比對多條同源序列。圖3.14是從多條免疫球蛋白序列中提取的8個片段的多重比對。這8個片段的多重比對揭 示了保守的殘基(一個是來自于二硫橋的半胱氨酸,另一個是色氨酸)、保守區(qū)域(特別是前4 個片段末端的Q-PG)和其他更復(fù)雜的模式,如1位和3位的疏水殘基。實(shí)際上,多重序列比對 在蛋白質(zhì)結(jié)構(gòu)的預(yù)測中非常有用。yTISCTGSSSNIGAG-NHUKW Y(2i2LPG VTIStTGTSShllGSITVNW YflflLP

3、G LRLSCSSS6FIFSSYAMYWVRiSAPG LSLTCTVSGTSFDD一一 Y YS TW VR12PPG PEVTCYVYDYSHEDP12VKFNI1J YVDG ATLVCLISIFYPCAVTVAWKADSAALGCLVKDYFPEP一一UTUEWNSG VSLTCLVKGFYP3DIAVEWESNG圖3.14多重序列比對多重比對也能用來推測各個序列的進(jìn)化歷史。從圖3.14可以看出,前4條序列與后4條序 列可能是從兩個不同祖先演化而來,而這兩個祖先又是由一個最原始的祖先演化得到。實(shí)際上, 其中的4個片段是從免疫球蛋白的可變區(qū)域取出的,而另4個片段則從免疫球蛋白的恒定區(qū)域

4、取 出。當(dāng)然,如果要詳細(xì)研究進(jìn)化關(guān)系,還必須取更長的序列進(jìn)行比對分析。對于多重序列比對的定義,實(shí)際上是兩個序列的推廣。設(shè)有k個序列S, s2, . ,%,每個 序列由同一個字母表中的字符組成,k大于2;通過插入操作,使得各序列si,S2, . ,sk的長 度一樣,從而形成這些序列的多重比對。如果將各序列在垂直方向排列起來,則可以根據(jù)每一列 觀察各序列中字符的對應(yīng)關(guān)系,如圖3.14通過序列的多重比對,可以得到一個序列家族的序列特征。當(dāng)給定一個新序列時,根據(jù)序列 特征,可以判斷這個序列是否屬于該家族。對于多序列比對,現(xiàn)有的大多數(shù)算法都基于漸進(jìn)比對 的思想,在序列兩兩比對的基礎(chǔ)上逐步優(yōu)化多序列比對的

5、結(jié)果。進(jìn)行多序列比對后,可以對比對 結(jié)果進(jìn)行進(jìn)一步處理,例如構(gòu)建序列的特征模式,將序列聚類,構(gòu)建分子進(jìn)化樹等。3.3.1 SP 模型SP模型(Sum-of-Pairs,逐對加和)是一種多重序列比對的評價模型。在多重比對中, 首先要對所得到的比對進(jìn)行評價,以確定其優(yōu)劣。例如,對圖3.14中的8條序列進(jìn)行比對, 可以得到另外兩種結(jié)果,如圖3.15所示。那么,這樣的三個多重比對,哪一個更好呢?這 就需要有一種方法來評價一個多重比對。yTIECTGEEENIG-AGNHyKWY22LPGVTISCTGTSSNIGSI7VNWY22LPGLRLECSSSGFIFSSVAHVW7RdAPSLSkTCTUE

6、GTEFDD7VSTWyRt2PPCPEVTCVVVDVSHEDP12VKFNW YVDGATLVCLIEDFVPGAVT7AWKADSAALGCLUKOVEPEPUTSWNS-CSLTCLJKGFVPSDIAEWESNG(a)7TIECTGEEENIGAG-NHJKWY22LPGVTIECTGTSSNIGSI TVNW Yf22LPGLRLECE-ESGFIFSS-VAHVW7R2APGLSiLTCTyEGTEFDDV7STWyR(2PPGPEVTCVVVDVSHEDP12VKFNW YVDGATLVCLIEDFYPGAVTVAWKADSAALGCLyKDVFPEPUTUEWNSG7ELTC

7、LyKGFYPEDIAUEWESNG(b)圖3-15多重序列比對結(jié)果比較評價一個多重序列比對比評價序列兩兩比對結(jié)果更復(fù)雜。這里,我們假設(shè)得分(代價)函 數(shù)具有加和性,即多重比對的得分是各列得分總和。那么,我們首先考慮如何給比對的每一列打 分,然后將各列的和加起來,成為一個總得分。在處理每一列時,自然的處理方式是尋找一個具有k個變量的打分函數(shù)(k是參與多重比對 的序列的個數(shù)),而每一個變量或者是一個來自特定字母表中的字符,或者是一個空位。我們很 難得到這樣一種具有k個變量的表達(dá)式函數(shù)。另一方面,這種隱式函數(shù)不具有統(tǒng)一的形式,隨著 k的變化,函數(shù)的表現(xiàn)形式也發(fā)生變化,不利于計(jì)算機(jī)處理。可以考慮使用

8、顯式函數(shù),在具體實(shí) 現(xiàn)顯式函數(shù)時,用一個k維數(shù)組來表示該顯式函數(shù)(類似于打分矩陣),指定對應(yīng)于k個變量各 種組合的函數(shù)值。這帶來一個新問題,即所需的數(shù)組空間很大,而且隨著k的變化,數(shù)據(jù)結(jié)構(gòu)也 要隨之動態(tài)變化。我們所期望的函數(shù)在形式上應(yīng)該簡單,具有統(tǒng)一的形式,不隨序列的個數(shù)而發(fā)生形式變化。 根據(jù)得分函數(shù)的意義,函數(shù)值應(yīng)獨(dú)立于各參數(shù)的順序,即與待比較的序列先后次序無關(guān)。另外, 對相同的或相似字符的比對,獎勵的得分值高,而對于不相關(guān)的字符比對或空白,則進(jìn)行懲罰(得 分為負(fù)值)。滿足上述條件的一個函數(shù)就是常用的逐對加和SP函數(shù)。SP函數(shù)定義為一列中所有 字符對得分之和:Jt-L ftSF - scor

9、e (c1,c2k )二2穌勺)(3-34)其中,c1,c2,,ck是一列中的k個字符,p是關(guān)于一對字符相似性的打分函數(shù)。對于p可 采用不同的定義。下面一個是SP函數(shù)計(jì)算例子。總得分根據(jù)字符兩兩比較得分計(jì)算演化而來,即逐對計(jì)算p (1,2),p (1,3),.,p (1,8), p (2,3),p(2,4),.,p (2,8),.,p (7,8)的所有得分,再加和得到結(jié)果。在上述計(jì)算中, 我們假定:如果兩個對比的字符相同,則得分為0,否則,得分為-1。所以,上述一列的得分為: (-7-6-5-4-3-2-1) +2= -26。將一個多重比對所有列的得分全部加起來,其和即為該多重序列比對的得分。

10、注意:在進(jìn)行多重序列比對時,可能會出現(xiàn)兩個空位字符的比對,因此需要擴(kuò)充函數(shù)p的 定義域,即增加p(-,-)的定義。通常的定義是:p(- , -) =0(3-35)這似乎有點(diǎn)意外,因?yàn)橐话阒灰怯龅娇瘴蛔址?,其得分就?yīng)該是負(fù)的,所以兩個空位字 符的比對應(yīng)得到更多的負(fù)分。但是,這樣處理是有道理的。在序列多重比對中,我們往往在得到 整體比對的基礎(chǔ)上進(jìn)一步分析兩條序列的對應(yīng)關(guān)系。例如,根據(jù)圖3.14的比對結(jié)果,取出最后 兩條比對的序列,見圖3.16(a)。這里存在空位字符對比的列,相當(dāng)于這兩條序列都進(jìn)行了插 入操作。但是由于插入位置相同如圖3.16(a)箭頭所指位置,這兩條序列本身在此位置上是 完全相

11、同的,所以,此位置上的編輯代價為零,或者得分為0。因而在分析這兩條序列時,可以 去掉這些空位字符對比的列,得到由多重序列比對結(jié)果推演的序列兩兩比對,如圖3.16 (b)所 示。其結(jié)果又稱為多重序列比對在兩條特定序列上的投影(projection)。AALGCL7KD7FPEPUTUSliJNSGVSLTCLVKGFVPSDIAVEWESNGTT TT(aOAALGCLVKPVFPEPVTVSUNSG-JLTCL7KGFlrJPDIAJEIdEENG圖3多重比對的投慰若先處理每一個序列對,而在處理序列對時,逐個計(jì)算字符對,最后加和,則SP得分模型 的計(jì)算公式如下:(3-36)其中,a是一個多重比

12、對,aj,是由a推演出來的序列s 和,的兩兩比對。具體計(jì)算SP時,我們可以先對多重序列比對a的每一列進(jìn)行計(jì)算,然后將每一列的得分 值相加;也可以先計(jì)算每一對推演出來的兩兩序列比對的得分,然后再加和。但是注意,上述兩 種計(jì)算過程僅在p(- , -)=0這一條件成立下才等價。3.3.2多重比對的動態(tài)規(guī)劃算法多重序列比對的最終目標(biāo)是通過處理得到一個得分最高(或代價最小)的序列對比排列, 從而分析各序列之間的相似性和差異。如同處理序列兩兩比對一樣,依然可以用動態(tài)規(guī)劃算法?;叵肭耙还?jié)中穿越得分矩陣的路徑(見圖3.9)。得分矩陣相當(dāng)于二維平面,而對于三 條序列,每一種可能的比對可類似地用三維晶格中的一條路

13、徑表示,而每一維對應(yīng)于一條序列, 如圖3.17所示。路徑的起點(diǎn)為晶格的左下角,路徑的終點(diǎn)為晶格的右上后角。圖3.17中的路徑 記為(0,0,0), (1,0,0), (2,1,0), (3,2,0), (3,3,1), (4,3,2)。如果存在多條序列,則形成 的空間是超晶格(Hyperlattice)。假設(shè)在三維晶格的頂端、前面、后面各有一平行光源,這些光源將代表多重序列比對的 路徑投影到相對的側(cè)面,即投影到一對序列所在的平面(圖3.17僅畫出了右邊的光源)。將多 重比對投影到兩個序列所在的平面在加速優(yōu)化計(jì)算中將起著重要的作用。一個多重序列比對投影的結(jié)果可能比原來要短,例如,下面的多重序列比

14、對G-SNSGNSGNAVSNS如果在前兩條序列方向進(jìn)行投影,則投影結(jié)果為:G-SNSGN-S如果路徑的某一段沿投影方向進(jìn)行,那么該段路徑就不可能產(chǎn)生投影。圖3.17中的第一段 沿著第一條序列向前進(jìn),推進(jìn)方向垂直于其他兩條序列,則平行光源對這一段不產(chǎn)生直線投影, 而僅僅產(chǎn)生一個投影點(diǎn)。埸占圖3.17三條序列所對應(yīng)的三維晶格序列兩兩比對的動態(tài)規(guī)劃算法經(jīng)改進(jìn)后可直接用于序列的多重比對。就二重序列而言,將動 態(tài)規(guī)劃算法的計(jì)算過程看成是在二維平面上按一定順序訪問每一個節(jié)點(diǎn),訪問節(jié)點(diǎn)的先后順序取 決于節(jié)點(diǎn)之間的關(guān)系,如圖3.7所示。二維平面(或二維晶格)與前面所介紹的超晶格相似,上 一節(jié)得分矩陣中的位置

15、與每一個晶格節(jié)點(diǎn)相對應(yīng)。在計(jì)算過程中,對每個節(jié)點(diǎn)逐一計(jì)算其得分(或 代價)。每個節(jié)點(diǎn)的得分代表兩個序列前綴的最優(yōu)比對的得分,而晶格最后一個節(jié)點(diǎn)(右下角節(jié) 點(diǎn))的得分即為兩條完整序列的比對得分。在超晶格中,序列的放置與上一節(jié)有所不同,計(jì)算是從左下角進(jìn)行的,而不是得分矩陣中 的左上角。如圖3.18所示,計(jì)算過程從超晶格的坐標(biāo)點(diǎn)(0,0,“,0)開始,按節(jié)點(diǎn)之間的依賴 關(guān)系向右上后方推進(jìn),直到計(jì)算完最后一個節(jié)點(diǎn)。實(shí)際計(jì)算時,可以采用類似二維的計(jì)算方式, 即先低維后高維(對應(yīng)于先行后列)。在圖3.18中,當(dāng)前點(diǎn)的得分計(jì)算取決于與它相鄰的7條 邊,分別對應(yīng)于匹配、替換或引入空位等三種編輯操作。計(jì)算各操作

16、的得分(包括前趨節(jié)點(diǎn)的得 分),選擇一個得分最大的操作,并將得分和存放于該節(jié)點(diǎn)。在三維或超晶格中,計(jì)算公式與上 一節(jié)相似,但計(jì)算一個節(jié)點(diǎn)依賴于更多的前趨節(jié)點(diǎn)。在三維情況下要考慮7個前趨節(jié)點(diǎn),在k 維情況下要考慮2蚓1個前趨節(jié)點(diǎn)。當(dāng)前計(jì)算點(diǎn)圖3.18三維晶格節(jié)點(diǎn)計(jì)算詼賴關(guān)系假設(shè)以k維數(shù)組A存放超晶格,則計(jì)算過程如下: a 0, 0,,0 = 0 a i = max a i - b + SP-scoreColumn(s, i, b)這里i是一個向量,代表當(dāng)前點(diǎn),b是具有k個元素的非零二進(jìn)向量,代表i與前一個點(diǎn)的相 對位置差(例如,在二維的情況下,b =(1,1)、(1,0)或(0,1),s代表待比

17、對的序 列集合,而(3-37)(3-3S)Column= (u,)於 jtJ弓弓if耳f。JJ I -if bj =0其中,Sjij表示第j條序列在第ij位的字符,SP-score(Column(s, i, b)代表SP模型的得 分值。計(jì)算過程是一個遞推的過程,在計(jì)算每個晶格節(jié)點(diǎn)得分的時候,將其各前趨節(jié)點(diǎn)的值分別 加上從前趨節(jié)點(diǎn)到當(dāng)前點(diǎn)的SP得分,然后,取最大值作為當(dāng)前節(jié)點(diǎn)的值。隨著待比對的序列數(shù)目增加,計(jì)算量和所要求的計(jì)算空間猛增。 對于k條序列的比對, 動態(tài)規(guī)劃算法需要處理k維空間里的每一個節(jié)點(diǎn),計(jì)算量自然與晶格中的節(jié)點(diǎn)數(shù)成正比,而節(jié)點(diǎn) 數(shù)等于各序列長度的乘積。另外,計(jì)算每個節(jié)點(diǎn)依賴于其前

18、趨節(jié)點(diǎn)的個數(shù)。在二維情況下,前趨 節(jié)點(diǎn)個數(shù)等于3,三維等于7,四維等于15。對于k維超晶格,前趨節(jié)點(diǎn)的個數(shù)等于2k- 1。因 此,用動態(tài)規(guī)劃方法計(jì)算多重比對的時間復(fù)雜度為???k |sil)。這個計(jì)算量是巨大的,而 動態(tài)規(guī)劃算法對計(jì)算空間的要求也是很大的。稱一個問題在多項(xiàng)式時間內(nèi)可解,當(dāng)且僅當(dāng)存在一個時間復(fù)雜度為O(nc)的求解算法,其中 c是常數(shù),n是問題的輸入規(guī)模(如序列的長度、序列的個數(shù))。例如前面介紹的序列兩兩比較 動態(tài)規(guī)劃算法的時間復(fù)雜度為O(m)。假設(shè)有k個長度n的序列,則利用SP模型尋找最優(yōu)多重序 列比對算法的時間復(fù)雜度為O(2knk),這里k和n都是問題的規(guī)模??梢宰C明,利用S

19、P模型尋找最優(yōu)多重序列比對是一個NP-完全問題。1971年,Cook給出 NP-完全問題的定義。P類問題為多項(xiàng)式界的問題;而NP-完全問題是這樣一類問題,如果其中的 某個問題存在多項(xiàng)式界的算法,則NP類中的每一個問題都存在一個多項(xiàng)式界算法。NP-完全問題 通常被認(rèn)為是一些人們難以在有限的時間、空間內(nèi)對問題求出最佳解的問題,幾乎所有專家都認(rèn) 為不可能在多項(xiàng)式時間內(nèi)準(zhǔn)確求解NP-完全問題。到目前為止,已經(jīng)證明屬于NP-完全問題的達(dá) 兩千多個,這些問題同旅行售貨員問題、有向圖哈密頓回路等問題是一樣難的,換句話說,要么大家都有多項(xiàng)式時間算法,要么都沒有。目前,人們對NP-完全問題通常采用以下二種方法進(jìn)

20、行 求解:舍去尋找最優(yōu)解的要求,尋找對一般問題比較接近最優(yōu)解的近似解;利用非常規(guī)的求解技 術(shù)求解,例如,利用神經(jīng)網(wǎng)絡(luò)、遺傳算法等方法進(jìn)行問題求解。對于生物信息學(xué)的問題,有許多是NP-完全問題。在實(shí)際應(yīng)用中,有一些變通的方法可以用 來求解NP-完全問題。概括如下:(1)只求解規(guī)模比較小的問題;(2)利用動態(tài)規(guī)劃、分支約 束等技術(shù)減小搜索空間,提高求解問題的效率;(3)針對具體問題的特點(diǎn),根據(jù)實(shí)際輸入情況, 設(shè)計(jì)實(shí)用求解算法,這樣的算法雖然在最壞的情況下其時間復(fù)雜度是非多項(xiàng)式的,但是算法執(zhí)行 的平均效率和復(fù)雜度與多項(xiàng)式的算法相當(dāng);(4)采用近似算法或者啟發(fā)式方法,如局部搜索、 模擬退火、遺傳算法等

21、。對基于SP模型尋找最優(yōu)多重序列比對這樣一個問題,可以用近似的方法求解,其算法的時 間復(fù)雜度可用多項(xiàng)式表示。下面分別介紹幾種實(shí)用的多重序列比對算法。3.3.3優(yōu)化計(jì)算方法如果待比對的序列很多,多重序列比對所形成的超晶格空間將會非常大,算法不可能訪問 所有的節(jié)點(diǎn),而且也沒有必要這樣做。正如序列兩兩比對一樣,可以想象代表最優(yōu)的路徑處于主 對角線附近,至少不會在超晶格中的某個平面上。假設(shè)已知一個試探性的路徑與最優(yōu)的路徑靠近, 并且兩條路徑最多相距r個單位,則應(yīng)當(dāng)將動態(tài)規(guī)劃算法所要計(jì)算的節(jié)點(diǎn)限制在以試探性路徑為 中心、半徑為r的區(qū)域內(nèi),這樣做無疑可以提高算法的效率。我們不能盲目地搜索整個空間,應(yīng)該利用

22、人工智能空間搜索策略的剪枝技術(shù),根據(jù)問題本 身的特殊性將搜索空間限定在一個較小的區(qū)域范圍內(nèi)。若問題是搜索一條得分最高(或代價最?。?的路徑,那么,在搜索時,如果當(dāng)前路徑的得分低于某個下限(或累積代價已經(jīng)超過某個上限), 則對當(dāng)前路徑進(jìn)行剪枝,即不再搜索當(dāng)前路徑的后續(xù)空間。在序列兩兩比對中,F(xiàn)ickett和Ukkonen設(shè)計(jì)了一種稱為定界約束的方法來縮小搜索空間、 減少計(jì)算量,其中得分矩陣的上界和下界可以預(yù)先確定或動態(tài)變化。為了在多維空間上使用動態(tài) 規(guī)劃算法,Carrillo和Lipman將這種思想引入到多重序列比對,即先進(jìn)行初步的序列雙重比對, 以便限制進(jìn)一步作多重序列全面比對所需要的多維空間

23、,從而減少計(jì)算量。這樣可以克服多序列 的維數(shù)、空間以及運(yùn)算量之間的矛盾。序列5: g序列 t: 111 11 I 1111 I I . 11 11 I 11111 IJ這里介紹Carrillo-Lipman的優(yōu)化計(jì)算方法,該算法是基于下述關(guān)系的,即多重序列比對與向兩個序列投影之間的關(guān)系,也就是通過公式(3-36)將SP得分與序列兩兩比 對的得分聯(lián)系起來。設(shè)k條序列s, s, . ,s的長度分別為n, n, . , n,按照SP得分模型計(jì)算這些序 12k12k列的最優(yōu)比對。依然采用動態(tài)規(guī)劃方法,但并不計(jì)算超晶格空間中所有的節(jié)點(diǎn),而是僅處理“相 關(guān)”的節(jié)點(diǎn)。但是,哪些節(jié)點(diǎn)是相關(guān)的呢?這需要觀察節(jié)點(diǎn)

24、在兩條序列所在平面上的投影。假設(shè)a是關(guān)于k條序列ss2, . ,%的最優(yōu)多重比對。注意:這并不意味著a向某兩條 序列的投影是這兩條序列的最優(yōu)比對。我們可以按下述方法測試超晶格空間中的一個節(jié)點(diǎn)是否為 相關(guān)節(jié)點(diǎn):從某個節(jié)點(diǎn)向任何兩條序列所在的平面投影,如果該投影是這兩條序列兩兩最優(yōu)比對 的一部分(前面一部分),則該節(jié)點(diǎn)是相關(guān)節(jié)點(diǎn)。在說明具體的優(yōu)化計(jì)算方法之前,先介紹一種計(jì)算兩條序列經(jīng)過特定斷點(diǎn)的最優(yōu)比對算法。 設(shè)有兩條序列s、t,已知它們的兩個斷點(diǎn)分別是i、j (即s和t分別在i和j處一分為二), 則s、t對于經(jīng)過特定斷點(diǎn)(i、j)的最優(yōu)比對可分為兩個部分,一是對應(yīng)于兩條序列前綴s、 與:t:的最

25、優(yōu)比對,另一個是對應(yīng)于兩條序列后綴:s:與:t:的最優(yōu)比對,m、n分別為兩條 0 ji m j n序列的長度。實(shí)際上,經(jīng)過特定斷點(diǎn)的最優(yōu)比對是兩個比對。為了得到特定斷點(diǎn)的最優(yōu)比對,用 兩個矩陣A和B,其值為:. = sim(s:. , 0:t:.). = sim(:s: , .:t:)對于矩陣A的計(jì)算與標(biāo)準(zhǔn)算法一樣,而對于矩陣B的計(jì)算則是反方向的,即先對B的最后 一行和最后一列進(jìn)行初始化,然后反向推進(jìn)到(0, 0)。這樣,矩陣A與B的和(A+B=C)包含 了經(jīng)過任意特定斷點(diǎn)(i、j)的最優(yōu)比對得分。我們稱C矩陣為總得分矩陣,而A、B分別是前 綴和后綴的得分矩陣。根據(jù)矩陣C,我們可以迅速求出兩個

26、序列的最優(yōu)比對,而不需要像上一節(jié)那樣用反向跟蹤的方法求出最優(yōu)比對所對應(yīng)的路徑。圖3.19列出了根據(jù)某個打分模型計(jì)算得到的矩陣A和C???以看出,根據(jù)C的最大值,可非常容易地找出最優(yōu)比對所對應(yīng)的路徑。最優(yōu)路徑通過一系列斷點(diǎn), 經(jīng)過這一系列斷點(diǎn)的所有最優(yōu)比對得分值相同,實(shí)際上這個得分值就是兩條序列比對的得分。換 句話說,這些斷點(diǎn)都處于最優(yōu)路徑上。G AT T CGATT0-246-8-10?47-1217A-2-1-13-5 JA-7-40% -712T4-3-20-2-4T地7毛 %7T6-54-11-1T-13-1C7C-7 t.3-12C巾 -13-1056-10-75-3 DG-17-13

27、-13 -B4&-9-87-5-2G-22-17 巾 -117(疆-ATTCGG(b)GATTC-(C)圖(a)前綴矩陣;(b)總得分矩陣;(C)最優(yōu)比對雖然最優(yōu)多重比對的投影不一定是兩兩最優(yōu)比對,但是我們可以為投影的得分設(shè)立一個下限。設(shè)a是關(guān)于s1, s2, . ,sk的最優(yōu)比對,如果SP-score(a) L,則可以證明E8灣(畏)占A(3-39)其中scores”.)是a在s,和s,所在平面投影的得分,(3-40)這里,L實(shí)際上是最優(yōu)多重比對的一個下限,而Li.是序列s和序列s,比對得分的一個下限。 現(xiàn)在,需要判斷超晶格中的一個節(jié)點(diǎn)i = (i1, i2,,ik )是否在L的限制下與最優(yōu)

28、比對相關(guān)。簡單地說,如果一個節(jié)點(diǎn)滿足(3-39)式的條件,則該節(jié)點(diǎn)是相關(guān)的;若條件不滿足,即scored )小,則不可能是相關(guān)的,因此,i肯定不會處于最優(yōu)路徑上。當(dāng)然,上述條件只是一 1,J個必要條件,但不是充分條件。滿足條件只是說明i可能處于最優(yōu)路徑,但不一定處于最優(yōu)路徑。 條件的作用是限制搜索空間,提高算法的實(shí)施效率。將判斷條件進(jìn)一步具體化,則對于所有的1 X y Lx y(3-41)則i是相關(guān)的。這里,C是序列s和s的總得分矩陣,C i,i表示在點(diǎn)i,i處的值。 x, yxyx, y x yx y這個具體的條件是根據(jù)前面的敘述推演出來的。假設(shè)最優(yōu)比對a所對應(yīng)的路徑通過節(jié)點(diǎn)(i i,,i,

29、 ., i,,i ),則C i , i score(a ) L 。因此,如果 C i , i C YEX3T= DX2 LCLS irVr V r k- 1 J h mCjW jkow J JC Ahl1 “K仲部 SOM?nrLKAM soxicmeK W r ytas tMP】 LXCES SOM: S5 Ou ;IIDC. :MUV 1 EX F.T EX J-iOtrfil 0C g心 OM:_CMIGK SflC_XEt:L SODC_YCASTTKW.ETS BEWEGTIL FTQ DQHA-P TTvnQffI FG LXF-QDH PF tfV WALGPT7 N-keg t

30、lD-G5:J=aF it EVFGE-jrrws ctVOAVAVK GSAWSfiWXFEClASESEPT T;SYLhGEtSfASfear II HiFGEklUGCVtvdf FilfhlfEbUHAFfiPfrVllAaEiMaiTYBDiiinhTmiQflfLgaMaXVIMLYV Mfut” 件*yE 政Mf1* 甲tJuoiNXPD m icnc* 11 LtoAissi 1 dmv TKHP HFMPNSK XBGQPAOR EflfiVG2 LG: V jmGHCQVkH VS IBDHV B LfiSni IIQ K7NU. .r 1 1 -i x ;. . :;U

31、j-. :v . . r-.ji;,. *4J .;. mE.M?amPLfl-lkKEl 牌 PKMEPSHV CSLOllVUII|aitiWJLD VAI BDV I f LpQMC FTQ M1.V Q A Q AintPHKQIlCCPRCNLaiARV fiDLaMVTAKQOVM VII HRB VIS LTCPH1M,、nHi-,i 5H N-ir-:- k- - -, -r.i p-: ivr,or/ifT rg -p.j tr.t ;z, f 1 TK T_il T F.V-IV. . KTT-ET,V- rnSI ?1:5L M il .: ./r;?: V-.r i- ;

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論