




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第七章:序列比對(duì)和數(shù)據(jù)庫(kù)搜索Gregory D.SchulerNational Center for Biotechnology InformationNational Library of Medicine. National Institutes of Health Bethesda. Maryland引言在生物學(xué)的研究中,有一個(gè)常用的方法,就是通過(guò)比較分析獲取有用的信息和知識(shí)。達(dá)爾文正是研究比較了galapagos finches同其它一些物種的形態(tài)學(xué)特征,從而提出了自然選擇學(xué)說(shuō)。今天,我們對(duì)基因和蛋白質(zhì)序列進(jìn)行比較,從本質(zhì)上來(lái)講是同達(dá)爾文一樣,進(jìn)行同樣的分析,只不過(guò)更加精細(xì),更加詳盡。
2、在這個(gè)意義上,我們從核酸以及氨基酸的層次去分析序列的相同點(diǎn)和不同點(diǎn),以期能夠推測(cè)它們的結(jié)構(gòu)、功能以及進(jìn)化上的聯(lián)系。最常用的比較方法是序列比對(duì),它為兩個(gè)或更多個(gè)序列的殘基之間的相互關(guān)系提供了一個(gè)非常明確的圖譜。在這一章,我們只討論一下雙重比對(duì),即只比較兩個(gè)序列,至于較多的序列即多序列比對(duì),將在第八章介紹。七十年代以來(lái),DNA測(cè)序方法的飛速發(fā)展,極大地引發(fā)了序列信息量的擴(kuò)增,從而使可供比較的序列數(shù)量呈現(xiàn)爆炸式增長(zhǎng)。分子生物學(xué)家應(yīng)該意識(shí)到,將未知序列同整個(gè)數(shù)據(jù)庫(kù)中的已知序列進(jìn)行比較分析已經(jīng)成為他們手中一個(gè)強(qiáng)有力的研究手段。在過(guò)去的三十年里,即使不提及計(jì)算機(jī)的應(yīng)用,序列比較的各種算法也已經(jīng)發(fā)展得越來(lái)越
3、迅速,也越來(lái)越成熟,已經(jīng)能夠跟上序列數(shù)據(jù)庫(kù)增長(zhǎng)的步伐。今天,我們已經(jīng)擁有一些小的模式物種的基因組的全序列,還擁有人類基因序列的一些較大的樣品,我們已經(jīng)進(jìn)入比較基因組時(shí)代,也就是說(shuō),對(duì)兩個(gè)物種進(jìn)行全基因組序列比較已經(jīng)不再是一個(gè)夢(mèng)想。序列比對(duì)的進(jìn)化基礎(chǔ)進(jìn)行序列比對(duì)的目的之一是讓人們能夠判斷兩個(gè)序列之間是否具有足夠的相似性,從而判定二者之間是否具有同源性。值得注意的是,相似性和同源性雖然在某種程度上具有一致性,但它們是完全不同的兩個(gè)概念。相似性是指一種很直接的數(shù)量關(guān)系,比如部分相同或相似的百分比或其它一些合適的度量,而同源性是指從一些數(shù)據(jù)中推斷出的兩個(gè)基因在進(jìn)化上曾具有共同祖先的結(jié)論,它是質(zhì)的判斷。
4、基因之間要么同源,要么不同源,絕不象相似性那樣具有多或少的數(shù)量關(guān)系。如圖7.1所示,比較家鼠和小龍蝦的同源的胰蛋白酶序列,發(fā)現(xiàn)它們具有41%的相似性。由于受到研究進(jìn)化關(guān)系這一目的的影響,大多數(shù)比對(duì)方法很自然地都希望能夠在某種程度上建立起分子進(jìn)化的模型。我們通常都假定同源序列是從某一共同祖先不斷變化而來(lái),但事實(shí)上,我們無(wú)法得知這個(gè)祖先序列到底是什么樣子,除非能夠從化石中獲得它的DNA,我們所能夠做到的只是從現(xiàn)存物種中,探求真相。從祖先序列以來(lái)所發(fā)生的變化包括取代、插入以及缺失。在理想情況下,同源基因或蛋白質(zhì)序列在相互比較時(shí),殘基之間相互對(duì)應(yīng),從而使取代的情況很明顯地表現(xiàn)出來(lái)。在某些位置,一個(gè)序列
5、中擁有某些殘基而另一個(gè)序Bioinformatics: A Practical Guide to the Analysis of Genes and ProteinsEdited by A.D.Baxevanis and B.F.F.OuelletteISBN 0-471-19196-5.pages 145-171. Copyright© 1998 Wiley-Liss. Inc.列中缺少這種殘基,表明這些殘基是插入到前者或是從后者中丟失的。這些空位在序列比對(duì)時(shí)用連續(xù)的短線填補(bǔ)。如圖7.1,在序列比對(duì)中,發(fā)現(xiàn)了5個(gè)空位。|- S-S-*|Mouse IVGGYNCEENSVPYQVS
6、LNS-GYHFCGGSLINEQWVVSAGHCYK-SRIQVCrayfish IVGGTDAVLGEFPYQLSFQETFLGFSFHFCGASIYNENYAITAGHCVYGDDYENPSGLQI *Mouse RLGEHNIEVLEGNEQFINAAKIIRHPQYDRKTLNNDIMLIKLSSRAVINARVSTISLPTACrayfish VAGELDMSVNEGSEQTITVSKIILHENFDYDLLDNDISLLKLSGSLTFNNNVAPIALPAQ|- S-S-|Mouse PPATGTKCLISGWGNTASSGADYPDELQCLDAPVLSQAKCEASYPG-
7、KITSNMFCVGFLECrayfish GHTATGNVIVTGWG-TTSEGGNTPDVLQKVTVPLVSDAECRDDYGADEIFDSMICAGVPE *|-S-S-|Mouse GGKDSCQGDSGGPVVCNG-QLQGVVSWGDGCAQKNKPGVYTKVYNYVKWIKNTIAANCrayfish GGKDSCQGDSGGPLAASDTGSTYLAGIVSWGYGCARPGYPGVYTEVSYHVDWIKANAV-圖7.1、保守位點(diǎn)通常在功能上極為重要。對(duì)老鼠的胰蛋白酶(Swiss-Prot P07146)和小龍蝦的胰蛋白酶(Swiss-Prot P00765)作比對(duì)
8、,相同的殘基用下標(biāo)線標(biāo)出,在比對(duì)上方標(biāo)出的是三個(gè)二硫鍵(-S-S),這些二硫鍵中的半胱氨酸殘基極為保守,打星號(hào)的殘基的側(cè)鏈參與電荷傳遞系統(tǒng),打菱形符號(hào)的活性位點(diǎn)的殘基負(fù)責(zé)底物的特異性。在殘基-殘基比對(duì)中,很明顯,某些位置的氨基酸殘基相對(duì)于其它位置的殘基具有較高的保守性,這個(gè)信息揭示了某些殘基對(duì)于一個(gè)蛋白質(zhì)的結(jié)構(gòu)和功能是極為重要的。如圖7.1所示,處于活性位點(diǎn)的殘基都是極為保守的,比如形成二硫鍵的半胱氨酸,參與電子傳遞的氨基酸殘基以及決定底物特異性的氨基酸殘基。這些保守的殘基對(duì)于保持蛋白的結(jié)構(gòu)與功能非常重要,另一方面,由于歷史原因,某些保守位置對(duì)蛋白功能并無(wú)太大的重要性。當(dāng)我們處理非常相近的物種
9、時(shí)必須十分小心,因?yàn)橄嗨菩栽谀承┣闆r下更多地是歷史的反映而不是功能的反映,比如,mouse和rat的某些序列具有高度的相似性,可能僅僅是因?yàn)闆](méi)有足夠的時(shí)間進(jìn)行分化而已。盡管如此,系列比對(duì)仍然是從已知獲得未知的一個(gè)十分有用的方法,比如通過(guò)比較一個(gè)新的蛋白同其它已經(jīng)經(jīng)過(guò)深入研究的蛋白,可以推斷這個(gè)未知蛋白的結(jié)構(gòu)與功能的某些性質(zhì)。必須指出的是,不能夠僅僅是通過(guò)比較分析這一判據(jù)來(lái)斷定結(jié)論是否正確,結(jié)論還必須經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證。當(dāng)我們發(fā)現(xiàn)兩個(gè)基因或蛋白質(zhì)具有驚人的相似性時(shí),我們會(huì)認(rèn)為他們之間具有一段共同的進(jìn)化歷程,從而我們判斷他們會(huì)具有相似的生物學(xué)功能,但是,這個(gè)推斷在成為結(jié)論之前必須經(jīng)過(guò)實(shí)驗(yàn)的驗(yàn)證。例如,-
10、晶狀物是脊椎動(dòng)物眼睛里晶狀體基質(zhì)的組成部分,根據(jù)序列相似性的基礎(chǔ),它在E.coli中的同源物是代謝酶苯醌氧化還原酶(如圖7.2),不管二者的共同祖先如何,它們的功能在進(jìn)化中已經(jīng)改變了(Gonzalez et al.,1994)。這就好象火車變成了鐵路餐車,雖然對(duì)二者的外部結(jié)構(gòu)的觀察揭示了它們結(jié)構(gòu)的歷史,但是僅僅根據(jù)這一信息往往會(huì)得出有關(guān)其功能的錯(cuò)誤結(jié)論。當(dāng)一個(gè)基因適應(yīng)了一個(gè)新的功能時(shí),保守位置通常也會(huì)發(fā)生一些形式上的變化,比如,當(dāng)?shù)鞍拙哂写呋δ軙r(shí),活性為點(diǎn)的殘基相當(dāng)保守,而當(dāng)?shù)鞍坠δ芨淖儠r(shí),這些殘基將會(huì)發(fā)生漂移。Human-ZCr MATGQKLMRAVRVFEFGGPEVLKLRSDIAV
11、PIPKDHQVLIKVHACGVNPVETYIRSGTYSEcoli-QOR -MATRIEFHKHGGPEVLQA-VEFTPADPAENEIQVENKAIGINFIDTYIRSGLYP. . *. . . * . . . * *.* .* *Human-ZCr RKPLLPYTPGSDVAGVIEAVGDNASAFKKGDRVFTSSTISGGYAEYALAADHTVYKLPEKEcoli-QOR -PPSLPSGLGTEAAGIVSKVGSGVKHIKAGDRVVYAQSALGAYSSVHNIIADKAAILPAA* * *. *. * . * * . . * *. *Human-ZC
12、r LDFKQGAAIGIPYFTAYRALIHSACVKAGESVLVHGASGGVGLAACQIARAYGLKILGTAEcoli-QOR ISFEQAAASFLKGLTVYYLLRKTYEIKPDEQFLFHAAAGGVGLIACQWAKALGAKLIGTV. * * * . * * * . .* * * * *.* * *.* * *.*Human-ZCr GTEEGQKIVLQNGAHEVFNHREVNYIDKIKKYVGEKGIDIIIEMLANVNLSKDLSLLSHGEcoli-QOR GTAQKAQSALKAGAWQVINYREEDLVERLKEITGGKKVRVVYDSVG
13、RDTWERSLDCLQRR* . . *. * .* * * . * * * . . . . . . * * . Human-ZCr GRVIVVG-SRGTIEINPROTMAKES-SIIGVTLFSSTKEEFQQYAAALQAGMEIGWLEcoli-QOR GLMVSFGNSSGAVTGVNLGILNQKGSLYVTRPSLQGYITTREELTEASNELFSLIASGVI* . * * *. . . . . . .*.* . . * . . * .Human-ZCr KPVIGSQ-YPLEKVAEAHENIIHGSGATGKMILLLEcoli-QOR KVDVAEQQKYP
14、LKDAQRAHE-ILESRATQGSSLLIP* . * * * *. . * .*.圖7.2、最佳全局比對(duì):對(duì)人類-晶狀物(Swiss-Prot Q08257)和E.coli苯醌氧化還原酶(Swiss-Prot P28304)的氨基酸序列進(jìn)行比對(duì)。這是一個(gè)由CLUSTAL W程序(Higgins et al., 1996)得到的最佳全局比對(duì)結(jié)果。在比對(duì)下方,星號(hào)表示殘基相同,打點(diǎn)表示這個(gè)殘基是保守的。早期的序列比對(duì)方法只應(yīng)用于那些在全長(zhǎng)范圍內(nèi)具有簡(jiǎn)單相似性的一些序列。全序列比對(duì)就是對(duì)序列進(jìn)行全程掃描,進(jìn)行比較。以上討論的胰蛋白酶和-晶狀物之間的比較就屬于全序列比對(duì)。具有簡(jiǎn)單的球形結(jié)構(gòu)域的
15、蛋白一般可以使用全序列比對(duì)的策略,以為所有的同源序列尚未經(jīng)過(guò)實(shí)質(zhì)上的變化蛋白質(zhì)的模塊性質(zhì)許多蛋白質(zhì)在全程范圍內(nèi)并不具有相似性,但卻似乎是由眾多的模塊結(jié)構(gòu)域搭建而成。圖7.3描述了這樣的一個(gè)例子,如圖所示的是在血凝過(guò)程中的兩種蛋白的組成結(jié)構(gòu),它們是凝血因子X(jué)II(F12)和組織型血纖蛋白溶酶原活化因子(PLAT),除了具有絲氨酸蛋白酶活性的催化結(jié)構(gòu)域,這兩種蛋白還具有不同數(shù)量的其它結(jié)構(gòu)域單元,包括兩種纖連蛋白重復(fù),一個(gè)類似于上皮生長(zhǎng)因子的結(jié)構(gòu)域以及一個(gè)成為“kringle”域的單元。這些組分可以以不同順序反復(fù)出現(xiàn),組分形式的不同通常是由于整個(gè)外顯子交換引起的。由于全程比對(duì)建立時(shí),基因的外顯子/內(nèi)
16、含子結(jié)構(gòu)還沒(méi)有被發(fā)現(xiàn),因此全程比對(duì)并沒(méi)有顧及到上述現(xiàn)象的重要性,這是可以理解的。在大多數(shù)情況下,使用局部比對(duì)是較為合理的,這種比對(duì)方法可能會(huì)揭示一些匹配的序列段,而本來(lái)這些序列段是被一些完全不相關(guān)聯(lián)的殘基所淹沒(méi)的,因此,操作者應(yīng)該明白,如果不恰當(dāng)?shù)厥褂昧巳瘫葘?duì),很可能會(huì)掩埋一些局部的相似性。設(shè)計(jì)局部比對(duì)的另外一個(gè)很明顯的原因就是在比較一個(gè)拼接后的mRNA和它的基因序列時(shí),每個(gè)外顯子都應(yīng)該進(jìn)行局部比對(duì)。圖7.3、血凝過(guò)程中的兩中蛋白的模塊結(jié)構(gòu):人類組織血纖蛋白溶酶原活化因子以及凝血因子X(jué)II的模塊結(jié)構(gòu)的示意圖。標(biāo)記為Catalytic的模塊在若干種凝血蛋白中是常見(jiàn)的,F(xiàn)1和F2是較為常見(jiàn)的重復(fù)
17、模塊,首先在纖連蛋白中被發(fā)現(xiàn)。E模塊同表皮生長(zhǎng)因子極為類似。通常稱為”Kringle domain”的模塊被標(biāo)記為K。點(diǎn)陣描述方法之所以廣泛流行,其部分原因就在于它能夠揭示出擁有多個(gè)局部相似性的復(fù)雜關(guān)系,圖7.4就是應(yīng)用這種處理后的一個(gè)例子。圖中F12和PLAT蛋白質(zhì)序列使用DOTTER程序進(jìn)行比較(軟件可見(jiàn)本章結(jié)尾列表),其基本思路就是把兩個(gè)序列分別作為一個(gè)二維坐標(biāo)系中的兩個(gè)坐標(biāo)軸,在這個(gè)坐標(biāo)系區(qū)域內(nèi),如果某一點(diǎn)所對(duì)應(yīng)的橫軸坐標(biāo)和縱軸坐標(biāo)所對(duì)應(yīng)的兩條序列的殘基相同,則在這個(gè)位置上打上標(biāo)記點(diǎn),每個(gè)點(diǎn)通常都表示在一些小窗口中,序列相似性高于其它一些隔絕的區(qū)域(或者由DOTTER程序定義的隔絕區(qū)域
18、,由不同的灰色陰影標(biāo)記)。如果兩個(gè)序列在一段區(qū)域內(nèi)很相似,標(biāo)記點(diǎn)將會(huì)連成一條斜線段,將這些線段的位置同圖7.3中兩個(gè)蛋白的已知的組成結(jié)構(gòu)相比較是很有價(jià)值的,特別是要注意連續(xù)反復(fù)出現(xiàn)的結(jié)構(gòu)域的出現(xiàn)方式。從PLAT的kringle結(jié)構(gòu)域開(kāi)始水平掃描,可以發(fā)現(xiàn)兩條線段對(duì)應(yīng)于F12序列中的兩個(gè)kringle結(jié)構(gòu)域,雖然現(xiàn)在我們已經(jīng)擁有許多更復(fù)雜更精確的方法來(lái)尋求局部相似性(下面將會(huì)討論),點(diǎn)陣描述方法仍然是一個(gè)很流行很有效的描述方法。圖7.4、點(diǎn)陣序列比較:對(duì)人類凝血因子X(jué)II(F12:Swiss-Prot P00748)和組織血纖蛋白溶酶原活化因子(PLAT:Swiss-Prot P00750)的氨
19、基酸序列進(jìn)行打點(diǎn)比較。這個(gè)圖由DOTTER程序(Sonnhammer and durban,1996)產(chǎn)生。在點(diǎn)陣描述方法中,某些形式的點(diǎn)可能會(huì)勾勒出一定的路徑,但這需要操作者通過(guò)這些信息進(jìn)行推理,另外一個(gè)圖形描述方法即路徑圖提供了更直接明了的比較結(jié)果,圖7.5描述了和中與相似的結(jié)構(gòu)域之間進(jìn)行比較時(shí)的比對(duì)、點(diǎn)陣和路徑圖三種方法的關(guān)系。cPLAU 90 EPKKVKDHCSKHSPCQKGGTCVNMPSGPH-CLCPQHLTGNHCQKEK-CFE 137PLAT 23 ELHQVPSNCD-CLNGGTCVSNKYFSNIHWCNCPKKFGGQHCEIDKSKTCYE 72圖7.5、點(diǎn)陣
20、、路徑圖和比對(duì):所有這三種視圖都表示人類尿激酶血纖蛋白溶酶原活化因子(PLAU:Swiss-Prot P00749)和組織血纖蛋白溶酶原活化因子(PLAT:Swiss-Prot P00750)中同EGF相似的模塊的比對(duì)結(jié)果。a) .整個(gè)蛋白都由DOTTER程序進(jìn)行比較:這里只顯示了同EGF模塊相似的較小區(qū)域的放大圖;b)由BLASTP得到的比對(duì)的路徑圖;.c).用普通的字符形式顯示的BLASTP空位比對(duì)。 要理解路徑圖,先想象一個(gè)二維格子,頂點(diǎn)表示序列殘基之間的點(diǎn)(與點(diǎn)陣中表示殘基本身相反),沿線段上連接兩個(gè)頂點(diǎn)的邊緣對(duì)應(yīng)兩個(gè)序列上匹配的殘基,水平和豎直線段的邊緣對(duì)應(yīng)一個(gè)序列擁有而另一個(gè)序列上
21、沒(méi)有的殘基,換句話說(shuō),這些邊緣平臺(tái)組成了比對(duì)中的空位,全圖對(duì)應(yīng)了所有可能的比對(duì)中必須審視的搜索空間,這個(gè)空間中每條可能的路徑都對(duì)應(yīng)于一種比對(duì)。最佳比對(duì)方法除了某些很不重要的問(wèn)題,對(duì)于眾多問(wèn)題而言,比對(duì)方法多種多樣,很有必要從中挑選出最好的一個(gè)或幾個(gè)方法,這就是把一種比對(duì)描述成一個(gè)路徑的概念所指。許多計(jì)算機(jī)科學(xué)的問(wèn)題都可以簡(jiǎn)化為通過(guò)圖表尋求最優(yōu)路徑(比如尋找從紐約打電話到舊金山的最有效的途徑)。為了這一目的已經(jīng)確立了許多行之有效的算法,對(duì)每一種路徑都有必要對(duì)其進(jìn)行某種意義上的打分,通常是對(duì)沿這一途徑的每一步的增量進(jìn)行加和。更精密的打分程序?qū)⒃谙挛臄⑹?,在這里我們只假定相同殘基加正分,有插入或缺失
22、的殘基就加負(fù)分(扣分),根據(jù)這一定義,最合適的比對(duì)方法會(huì)得到最高分,也就是我們尋找的最佳路徑。今天我們所熟悉的Needleman-Wunsch算法就是針對(duì)尋求最佳序列比對(duì)這一問(wèn)題所設(shè)計(jì)的動(dòng)態(tài)規(guī)劃尋優(yōu)策略(Needleman and Wunsch,1970)。動(dòng)態(tài)規(guī)劃的思想是這樣的,如果一條路徑終止于最佳路徑上的一點(diǎn),那么這條路徑本身就是起點(diǎn)到這個(gè)中間點(diǎn)的最佳路徑,也就是說(shuō),任何一個(gè)終止于最佳路徑上的一點(diǎn)的次級(jí)路徑必然就是終止于這一點(diǎn)的最佳路徑本身。這樣,最佳路徑就可以通過(guò)把各個(gè)最佳的次級(jí)路徑連接而成。在基本的Needleman-Wunsch公式表達(dá)中,最佳比對(duì)必然對(duì)每個(gè)序列都由始至終,就是說(shuō)從
23、搜索空間的左上角直至右下角。換句話說(shuō),它搜索全程比對(duì)。然而,對(duì)這種基本策略稍作修改就可以實(shí)現(xiàn)最佳的局部比對(duì)。這種比對(duì)的路徑不需要到達(dá)搜索圖的盡頭,只需要在內(nèi)部開(kāi)始和終結(jié)。如果某種比對(duì)的打分值不會(huì)因?yàn)樵黾踊驕p少比對(duì)隊(duì)的數(shù)量而增加時(shí),這種比對(duì)就是最佳的。這個(gè)過(guò)程依賴于打分系統(tǒng)的性質(zhì),就是說(shuō)某種路徑的打分會(huì)在不匹配的序列段位置減少(以下敘述的打分系統(tǒng)合乎這個(gè)標(biāo)準(zhǔn))。當(dāng)分值降為零時(shí),路徑的延展將會(huì)終止,一個(gè)新的路徑就會(huì)應(yīng)運(yùn)而生。這樣,我們會(huì)得到許多獨(dú)立的路徑,它們以不匹配的序列段為界限而不是像在全程比對(duì)中以序列的結(jié)尾作為界限。在這些路徑中,擁有最高分的一個(gè)就是最佳的局部比對(duì)。應(yīng)該意識(shí)到,尋優(yōu)方法總是把
24、最佳的比對(duì)方法表達(dá)出來(lái),而不在意它是否具有生物學(xué)意義,另一方面,尋求局部比對(duì)時(shí)可能會(huì)發(fā)現(xiàn)若干個(gè)重要的比對(duì),因此,不能僅僅注意最佳的一個(gè)。改良的Smith-Waterman(Altschul and Erickson,1986;Waterman and Eggert,1987)算法把尋找K種最好的但不相互交叉的比對(duì)方式最為目標(biāo),這些思想后來(lái)都在SIM算法(Huang et al.,1990)的發(fā)展中得以體現(xiàn)。一個(gè)名叫LALIGN(在FASTA程序包中)的程序提供了有用的SIM工具(Pearson,1996)。對(duì)于比對(duì)多模塊的蛋白質(zhì)而言,尋找次優(yōu)比對(duì)尤為重要。正如圖7.6所示,LALIGN程序被用
25、來(lái)獲得三個(gè)最好的局部比對(duì)(比對(duì)人類凝血因子IX和因子X(jué)II)。一個(gè)標(biāo)準(zhǔn)的Smith-waterman算法只會(huì)報(bào)告出最好的一個(gè)比對(duì),改良的算法會(huì)報(bào)告出第二和第三的比對(duì)方式,從而顯示出功能結(jié)構(gòu)域。Comparison of:A. f9-human.aa >f9 gi|119772|sp|P00740|FA9_HUMAN COAGULATION FA -461 aa B. f12-hum.aa>f12 gi|119763|sp|P00748|FA12_HUMAN COAGULATION -615 aa using protein matrix 35.4% identity in 254
26、aa overlap; score: 358220 230 240 250 260 270 F9 QSFNDFTRVVGGEDAKPGQFPWQVVLNGKVDAFCGGSIVNEKWIVTAAHCVE-TGVKI.:.: : .:. :. .: .:.:. :.:. . .F12 KSLSSMTRVVGGLVALRGAHPYIAALY-WGHSFCAGSLIAPCWVLTAAHCLQDRPAPEDL370 380 390 400 410 420 280 290 300 310 320 330 F9 TVVAGEHNIEETEHTEQKRNVIRIIPHHNYNAAINKYNHDIALLELD
27、EPL-VLNSY: :. . . :. .: . :. .:.:.: :.: .:.: F12 TVVLGQERRNHSCEPCQTLAVRSYRLHEAFSPV-SYQHDLALLRLQEDADGSCALLSPY430 440 450 460 470 480 340 350 360 370 380 F9 VTPICIADKEYTNIFLKFGSGYVSGWGRVFHKGRS-ALVLQYLRVPLVDRATCLRSTKF-: :.:. . . :.:. :. . . : : .:. . : . F12 VQPVCLPSGAARPSETTLCQVAGWGHQFEGAEEYASFLQEAQVP
28、FLSLERCSAPDVHG490 500 510 520 530 390 400 410 420 430 440 F9 -TIYNNMFCAGFHEGGRDSCQGDSGGPHVTEVEGTS-FLTGIISWGEECAMKGKYGIY.: .:.: : :.: : : . : :.:. .: :.: F12 SSILPGMLCAGFLEGGTDACQGDSGGPLVCEDQAAERRLTLQGIISWGSGCGDRNKPGVY540 550 560 570 580 590 450 F9 TVVSRYVNWIKEKT:.:. :.:.:.:F12 TDVAYYLAWIREHT 600 610
29、 - 34.7% identity in 49 aa overlap; score: 120100 110 120 130 140 F9 VDGDQCESNPCLNGGSCKDDINSYECWCPFGFEGKNCELDVTCNIKNGR.: .:.:.: . . : : :.: :.:. . .:F12 LASQACRTNPCLHGGRCLEVEGHRLCHCPVGYTGPFCDVDTKASCYDGR180 190 200 210 220 - 33.3% identity in 36 aa overlap; score: 87100 110 120 F9 DQCESN-PCLNGGSCKDDI
30、NSYECWCPFGFECKNCE:.:. : .:.: . . .: : .:.:.F12 DHCSKHSPCQKGGTCVNMPSGPHCLCPQHLTGNHCQ100 110 120 130 -圖7.6、最佳和次佳的局部比對(duì):在使用LALIGN對(duì)人類凝血因子IX(F9;Swiss-Prot 900740)和凝血因子X(jué)II(F12;Swiss-Prot P00748)進(jìn)行比對(duì)時(shí)發(fā)現(xiàn)了三個(gè)最佳的比對(duì)結(jié)果。取代分和空位處罰剛才描述的打分系統(tǒng)僅僅使用于簡(jiǎn)單的匹配/不匹配的情況,但是在比較蛋白質(zhì)時(shí),我們可以用取代矩陣來(lái)增強(qiáng)弱勢(shì)比對(duì)的敏感性。很顯然,在相關(guān)蛋白質(zhì)之間,某些氨基酸可以很容易地相互取代而
31、不用改變它們的生理生化性質(zhì),這些保守取代的例子包括異亮氨酸(isoleucine)和頡氨酸(valin)(體積小,疏水),絲氨酸(serine)和蘇氨酸(threonin)(極性)。在計(jì)算比對(duì)分之時(shí),相同的氨基酸打分會(huì)高于取代的氨基酸,而保守的取代打分高于非保守變化,換句話說(shuō),設(shè)計(jì)了一系列的分值,而且,在比對(duì)非常相近的序列(mouse和rat的同源基因)以及差異極大的序列(mouse和 yeast的基因)時(shí)會(huì)設(shè)計(jì)出不同系統(tǒng)的分值,考慮到這些因素,使用取代矩陣會(huì)極為有利,在這個(gè)矩陣中,任何氨基酸配對(duì)的分值會(huì)一目了然。第一個(gè)廣泛使用的最優(yōu)矩陣建立在進(jìn)化的點(diǎn)突變模型上(PAM)(Dayhoff et
32、 al.,1978)。一個(gè)PAM就是一個(gè)進(jìn)化的變異單位即1%的氨基酸改變,這并不意味著經(jīng)過(guò)100次PAM后,每個(gè)氨基酸都發(fā)生變化,因?yàn)槠渲幸恍┪恢每赡軙?huì)經(jīng)過(guò)多次改變,甚至可能變回到原先的氨基酸,因此另外一些氨基酸可能不發(fā)生改變。如果這些變化是隨機(jī)的,那么每一種可能的取代頻率僅僅取決于不同氨基酸的出現(xiàn)的頻率(稱為背景頻率)。然而,在相關(guān)蛋白中,已經(jīng)發(fā)現(xiàn)的取代頻率(稱為目標(biāo)頻率)大大地傾向于那些不影響蛋白質(zhì)功能的取代,換句話說(shuō),這些點(diǎn)突變已經(jīng)被進(jìn)化所接受。Dayhoff同合作者們第一次使用了log-odd處理,在這種處理中,矩陣中的取代分值同目標(biāo)頻率于背景頻率的比值的自然對(duì)數(shù)成比例。為了評(píng)估目標(biāo)頻
33、率,人們用非常相近的序列(比對(duì)時(shí)不需要取代矩陣)來(lái)收集對(duì)應(yīng)于一個(gè)PAM的突變頻率,然后將數(shù)據(jù)外推至250個(gè)PAM,PAM250矩陣結(jié)果如圖7.7。雖然Dayhoff等人只發(fā)表了PAM250,但潛在的突變數(shù)據(jù)可以外推至其它PAM值,產(chǎn)生一組矩陣,在比較差異極大的序列時(shí),通常在較高的PAM值處得到最佳結(jié)果,比如在PAM200到250之間,較低值的PAM矩陣一般使用于高度相似的序列(Altschul,1991)。圖7.7、PAM250分值矩陣。用同樣方式建立了BLOSUM取代矩陣,但在評(píng)估目標(biāo)頻率時(shí),應(yīng)用了不同的策略,基本數(shù)據(jù)來(lái)源于BLOCKS數(shù)據(jù)庫(kù),其中包括了局部多重比對(duì)(包含較遠(yuǎn)的相關(guān)序列,同在
34、PAM中使用較近的相關(guān)序列相反)。雖然在這種情況下,沒(méi)有進(jìn)化模型,但它的優(yōu)點(diǎn)在于可以通過(guò)直接觀察獲得數(shù)據(jù)而不是通過(guò)外推獲得。同PAM模型一樣,也有許多編號(hào)的BLOSUM矩陣,這里的編號(hào)指的是序列可能相同的最高水平,并且同模型保持獨(dú)立性。舉例來(lái)說(shuō),如圖7.8所示的BLOSUM的矩陣,至少有62%的相同比例的序列被組合成一個(gè)序列,因此取代頻率更加受到那些比空位變化還大的序列的極大影響,取代矩陣在處理高度相似序列時(shí)使用高的閾值(直至BLOSUM90),處理差異大的序列時(shí)使用低的閾值(直至BLOSUM30)。圖7.8、BLOSUM62分值矩陣。為了補(bǔ)償那些插入或缺失,可以在比對(duì)中引入一些空位,但不能太
35、多,否則會(huì)使分子變得面目全非。每引入一個(gè)斷裂,比對(duì)的分值都會(huì)有所扣除,對(duì)于這些斷裂有許多罰分的規(guī)則。最常用的一個(gè)就是用一個(gè)附加的罰分比例去乘空位的長(zhǎng)度,其中有兩個(gè)參數(shù):G(有時(shí)稱為斷裂開(kāi)放懲罰)和L(斷裂延伸懲罰),對(duì)于一個(gè)長(zhǎng)度為n的空位,扣分總數(shù)為G+Ln,但在選擇空位參數(shù)時(shí),在很大程度上是唯經(jīng)驗(yàn)的,所選的分值很少會(huì)有理論上的支持。通常來(lái)說(shuō),對(duì)于G會(huì)選擇一個(gè)高分(在BLOSUM62中約為10-15),對(duì)于L會(huì)選擇一個(gè)相對(duì)的低分(大約1-2),選擇這個(gè)范圍是因?yàn)椴迦牒妥儺愂呛芎币?jiàn)的,但當(dāng)它們一旦發(fā)生,就會(huì)影響到一系列附近的殘基。比對(duì)的統(tǒng)計(jì)學(xué)顯著性對(duì)任何一個(gè)比隊(duì),我們都可以計(jì)算一個(gè)分值,但重要的
36、是需要判定這個(gè)分值是否足夠高,是否能夠提供進(jìn)化同源性的證據(jù)。在解決這一問(wèn)題時(shí),對(duì)于偶然出現(xiàn)的最高分,有些思想很有幫助,但是,沒(méi)有一個(gè)數(shù)學(xué)理論能夠描述全程比對(duì)的分值分布,其中一個(gè)能評(píng)估其重要性的方法就是將所得的比對(duì)分值和那些同樣長(zhǎng)度和組成的隨機(jī)序列進(jìn)行比較。但是,對(duì)于局部比對(duì)而言,情況要好得多。正如問(wèn)題總是從簡(jiǎn)單開(kāi)始,人們首先注意到那些沒(méi)有多少空位得局部比對(duì),這種比對(duì)被稱為高分片段配對(duì)(HSP)。HSP通常用改進(jìn)得Smith-waterman算法或簡(jiǎn)單地使用大的空位罰分方法獲得。Karlin-Altschul統(tǒng)計(jì)學(xué)為描述隨機(jī)的HSP分值的分布提供了數(shù)學(xué)理論,概率密度函數(shù)形式被稱為極值分布,這很值
37、得注意,因?yàn)椋毡楦话愕姆植嫉膽?yīng)用可能會(huì)夸大它的重要性,把一個(gè)已知得比對(duì)分值S同預(yù)期的分布相關(guān)聯(lián)可能會(huì)計(jì)算出P值,從而給出這個(gè)分值的比對(duì)顯著性的可能性。通常,P值越趨近于零,分值越有意義。相關(guān)的變量E表示分值不低于S得可能的比對(duì)數(shù)量,而極值分布由兩個(gè)參數(shù)表示,即K和,可以得到解析解,并且對(duì)于任何打分系統(tǒng)以及背景頻率都是固定的。比對(duì)的顯著性依賴于搜索空間的大?。ň拖裨诓荻阎姓裔樢蕾囉诓荻训拇笮。?。搜索空間的大小由序列長(zhǎng)度計(jì)算出來(lái),但由于統(tǒng)計(jì)的正確性,這個(gè)長(zhǎng)度必須由局部比對(duì)的預(yù)期長(zhǎng)度進(jìn)行校正,以免出現(xiàn)邊緣效應(yīng)(Altschul and Gish,1996),需要進(jìn)行這種校正還因?yàn)樵谒阉骺臻g邊緣
38、開(kāi)始的比對(duì)在達(dá)到一個(gè)有效分值之前就會(huì)超出序列的范圍。把比對(duì)局限于沒(méi)有空位的基礎(chǔ)之上,使問(wèn)題大大簡(jiǎn)化,但是卻脫離分子生物學(xué)的實(shí)際情況。實(shí)際上,要建立一個(gè)插入和缺失的精確模型需要空位,但如果空位相對(duì)較少,在這些空位之間仍然可以獲得高分值區(qū)域,有代表性的是可能會(huì)獲得緊密相鄰的HSP,在這種情況下,從總體上去評(píng)估它的顯著性是較為合理的,也許,每個(gè)片段并不顯得很重要,但是幾個(gè)片段同時(shí)出現(xiàn)就不太像是偶然事件了。Karlin-Altschul加和統(tǒng)計(jì)學(xué)可以計(jì)算N個(gè)HSP的統(tǒng)計(jì)值,這個(gè)方法的實(shí)質(zhì)是把N個(gè)最佳片段的分值進(jìn)行加總,從而計(jì)算事件偶然發(fā)生的可能性,其它一些論據(jù)也被用來(lái)確認(rèn)這些分值只是在片段與比對(duì)一致的
39、情況下進(jìn)行加總。雖然加總的分值分布與HSP分值最大值有差異,仍然可以得到解析解。最后,仍然有必要對(duì)局部排隊(duì)的顯著性進(jìn)行合理評(píng)估,其中包括了模型中的空位。正如同傳統(tǒng)的Smith-waterman比對(duì),雖然沒(méi)有先驗(yàn)的證據(jù),人們?nèi)匀徽J(rèn)為這些比對(duì)的分值也應(yīng)該遵循極值分布,但是,分布參數(shù)K和的值不能通過(guò)計(jì)算獲得,當(dāng)然,通過(guò)模型獲得這些值的方法已經(jīng)被大大地發(fā)展了。數(shù)據(jù)庫(kù)中的相似性搜索上述討論主要集中于那些較為特別的匹配的序列,但是對(duì)于一個(gè)新發(fā)現(xiàn)的序列,我們無(wú)法得知用什么序列同它進(jìn)行比對(duì),數(shù)據(jù)庫(kù)相似性搜索使我們能夠從數(shù)據(jù)庫(kù)中存在的數(shù)十萬(wàn)個(gè)序列中挑選出可能同感興趣的序列有關(guān)聯(lián)的序列,這個(gè)方法有時(shí)會(huì)導(dǎo)致意想不到
40、的收獲。用這種策略獲得成功的第一個(gè)例子是人們因此發(fā)現(xiàn)病毒腫瘤基因v-sis是細(xì)胞中編碼血小板派生生長(zhǎng)因子的基因的一個(gè)變體形式(Doolittle et al., 1983; Waterfield et al., 1983)。那個(gè)時(shí)候,序列數(shù)據(jù)庫(kù)還不大,因此這個(gè)發(fā)現(xiàn)足以另人感到萬(wàn)分驚奇。然而今天如果進(jìn)行數(shù)據(jù)庫(kù)搜索并且一無(wú)所獲的話,那就更另人感到費(fèi)解了。如同其它幾個(gè)小的物種基因組一樣,酵母saccharomyces cerevisiae的基因組全序列已經(jīng)被測(cè)定出來(lái)。在脊椎動(dòng)物中,大量的部分基因諸如人類和老鼠的基因都已經(jīng)被測(cè)定并存入基因庫(kù)(genebank)中,這也導(dǎo)致了表達(dá)序列標(biāo)簽(EST)工程。
41、EST片段的主要用途是在數(shù)據(jù)庫(kù)搜索中,用EST片段進(jìn)行cDNA克隆可以分離出感興趣的基因,包括其它模型生物中的同源基因。最近報(bào)導(dǎo)的多重內(nèi)分泌腺腫瘤(MENI)基因就和人與老鼠的多個(gè)EST片段相匹配,其中之一在MENI發(fā)表前一年就已經(jīng)入庫(kù)保存了(Chandrasekharappa et al., 1997)。在數(shù)據(jù)庫(kù)搜索中,基本操作就是將查詢序列和數(shù)據(jù)庫(kù)中的主題序列作比對(duì)。比對(duì)結(jié)果是排列好的hit list,后面是一系列的單獨(dú)的比對(duì)情況,以及不同的分值和統(tǒng)計(jì)值(如圖7.9)。下文將會(huì)詳細(xì)介紹選擇不同的搜索程序、序列數(shù)據(jù)庫(kù)和不同的參數(shù)都會(huì)對(duì)搜索產(chǎn)生影響,而且還有不同的界面,比如操作臺(tái)命令、WWW形
42、式和E-mail等。圖7.10給出了一個(gè)使用Web界面進(jìn)行數(shù)據(jù)庫(kù)搜索的例子。這種形式的一個(gè)優(yōu)點(diǎn)就是對(duì)任何一個(gè)感興趣的比對(duì),全部注解和文獻(xiàn)應(yīng)用都可以通過(guò)超文本簡(jiǎn)單方便地聯(lián)接至原始的序列條目和相關(guān)的在線文獻(xiàn)。a The best score are: initn initl opt z-sc E(59248)gi|1706794|sp|P49789|FHIT_HUMAN FRAGILE HISTIDINE 996 996 996 1350.4 0gi|1703339|sp|P49776|APH1_SCHPO BIS(5-NUCLEOSYL) 431 395 395 536.2 2.8e-23gi|
43、1723425|sp|P49775|YD15_YEAST HYPOTHETICAL 24.8 290 171 316 428.1 2.9e-17gi|1724021|sp|Q11066|YHIT_MYCTU HYPOTHETICAL 20.0 178 178 184 250.7 2.2e-07gi|417124|sp|Q04344|HIT_YEAST HIT1 PROTEIN (ORF U 159 104 157 216.2 1.8e-05gi|418447|sp|P32084|YHIT_SYNP7 HYPOTHETICAL 12.4 139 139 140 195.0 0.00028gi|1
44、351828|sp|P47378|YHIT_MYCGE HYPOTHETICAL 15.6 132 132 133 183.9 0.0012à gi|1169826|sp|P43424|GAL7_RAT GALACTOSE-1-PHOSPHA 97 97 128 169.7 0.0072gi|418446|sp|P32083|YHIT_MYCHR HYYPOTHETICAL 13.1 102 102 119 166.8 0.01gi|1708543|sp|P49773|IPK1_HUMAN PROTEIN KINASE C 87 87 118 164.5 0.0014gi|17240
45、20|sp|P49774|YHIT_MYCLE HYPOTHETICAL 17.0 131 82 117 161.5 0.02gi|1724019|sp|P53795|YHIT_CAEEL HYPOTHETICAL HIT- 98 98 116 161.5 0.02gi|1170581|sp|P16436|IPK1_BOVIN PROTEIN KINASE C 86 86 115 160.4 0.023 gi|1730188|sp|Q03249|GAL7_MOUSE GALACTOSE-1-PHOSP 87 87 120 159.3 0.027gi|1177047|sp|P42856|ZB14
46、_MAIZE 14 KD ZINC-BIODIN 132 79 112 156.3 0.04gi|1209081|sp|P07902|GAL7_HUMAN CALACTOSE-1-PHOSPH 78 78 117 154.8 0.048gi|1177046|sp|P42855|ZB14_BRAJU 14 KD ZINC-BINDIN 115 76 110 154.5 0.05gi|140775|sp|P26724|YHIT_AZOBR HYPOTHETICAL 13.2 115 65 109 152.6 0.064gi|1169852|sp|P31764|GAL7_HAEIN GALACTOS
47、E-1-PHOSP 62 62 104 137.9 0.42gi|113999|sp|P16550|APA1_YEAST 5,5-P-1,P-4-TE 108 66 103 137.1 0.47b>>gi|1169826|sp|P43424|GAL7_RAT GALACTOSE-1-PHOSPHATE UR (379 aa)initn: 97 init1: 97 opt: 128 z-score: 169.7 E(): 0.0072Smith-Waterman score: 128; 30.8% identity in 107 aa overlap10 20 30 FHIT MSF
48、RFG-QHLIKPSVVFLKTELSFALVNRKPV .: X.:. . : .: .: : GAL7 VWASNFLPDIAQREERSQQTYHNQHGKPLLLEYGHQELLRKERLVLTSEYWIVLVPFWAV190 200 210 220 230 240 40 50 60 70 80 FHIT VPGHVLVCPLRPVERFHDLRPDEVADLFQTTQRVGTVVEKHFHGTSLTFSMQDGP-: .:. : : :.:. .: : : : .: . : . X. :. .: . .:GAL7 WPFQTLLLPRRHVQRLPELTPAERDDLASTMKKL
49、LTKYDNLFE-TSFPYSMGWHGAPMGL250 260 270 280 290 300 90 100 110 120 130 140 FHIT EAGQTVKH-VHVHVLPRKAGDFHRNDSIYEELQKHDKEDFPASWRSEEEMAAEAAALRV.: : : .:.: :GAL7 KTGATCDHWQLHAHYYPPLLRSATVRKFMVGYEMLAQAQRDLTPEQAAERLRVLPEVHYC310 320 330 340 350 360 圖7.9:進(jìn)行FASTA搜索的輸出:(a)用人類組氨酸三聯(lián)體蛋白作為(Swiss-Prot P.49789)查詢序列,以S
50、wissprot數(shù)據(jù)庫(kù)為基礎(chǔ),進(jìn)行FASTA搜索所得到的命中結(jié)果,在這個(gè)操作中,參數(shù)ktup=1;(b).以數(shù)據(jù)庫(kù)中的一個(gè)條款(在命中列表中以箭頭標(biāo)出)為查詢序列(其中包含老鼠的1-磷酸-半乳糖尿苷酸轉(zhuǎn)移酶序列)所得到的最佳局部比對(duì)結(jié)果。雖然在這里,序列的相似性不太好,但是這些蛋白在結(jié)構(gòu)上都顯示了很好的相似性。7.10:在WWW上進(jìn)行數(shù)據(jù)庫(kù)相似性搜索:NCBI數(shù)據(jù)庫(kù)搜索的高級(jí)BLAST形式,在Web網(wǎng)頁(yè)上容易實(shí)現(xiàn)。查詢序列應(yīng)該由剪切板中粘貼到最大的文本框中,(在本圖中,框中顯示的是U43746序列)。搜索中另外一些基本的元素包括搜索程序的名字以及數(shù)據(jù)庫(kù)的名字,這兩個(gè)元素都可以通過(guò)下拉框選擇。如
51、果需要的話,可以設(shè)定附加的選項(xiàng)參數(shù)。這里還有一個(gè)基本的BLAST形式,當(dāng)然高級(jí)的選項(xiàng)參數(shù)被隱藏起來(lái)了。最后,簡(jiǎn)單地點(diǎn)擊一下“Submit”鍵,提交請(qǐng)求后就可以開(kāi)始搜索了。如今的序列數(shù)據(jù)庫(kù)非常之大,并且正以爆炸式的速度不斷增長(zhǎng),在這種條件下,利用動(dòng)態(tài)程序的方法直接進(jìn)行數(shù)據(jù)庫(kù)搜索已經(jīng)變得不切實(shí)際。一個(gè)解決方法就是使用大型計(jì)算機(jī)和相關(guān)的特殊硬件,但是我們要討論的目的是普通計(jì)算機(jī)能干些什么。當(dāng)最佳方法不可行時(shí),我們必須求助于那些啟發(fā)式方法,這些方法充分利用了近似值以加快序列比較,但同時(shí)會(huì)在錯(cuò)過(guò)正確比對(duì)這一方面冒一點(diǎn)險(xiǎn)。有一種啟發(fā)式方法建立在這樣的策略之上,它將序列分解成由連續(xù)字母組成的短串(稱為字串)
52、?;谧值姆椒?,在八十年代早期由Wilbur和Lipman提出,并且廣泛使用于今天的搜索程序之中。其基本思想是這樣的,一個(gè)能夠揭示出正確的序列關(guān)系的比對(duì)至少包含一個(gè)兩個(gè)序列都擁有的字串,把查詢序列中的所有字串編成索引,并且在數(shù)據(jù)庫(kù)掃描中查詢這些索引,這些擊中的字串就會(huì)很快被鑒定出來(lái)。FASTAFASTA程序是第一個(gè)廣泛使用的數(shù)據(jù)庫(kù)相似性搜索程序。為了達(dá)到較高的敏感程度,程序引用取代矩陣實(shí)行局部比對(duì)以獲得最佳搜索。但眾所周知,使用這種策略會(huì)非常耗費(fèi)工作時(shí),為了提高速度,在實(shí)施耗時(shí)的最佳搜索之前,程序使用已知的字串檢索出可能的匹配。在速度和敏感度之間權(quán)衡選擇依賴于ktup參數(shù),它決定了字串的大小。
53、增大ktup參數(shù)就會(huì)減少字串命中的數(shù)目,也就會(huì)減少所需要的最佳搜索的數(shù)目,提高搜索速度。缺省的ktup值在進(jìn)行蛋白比較時(shí)選擇2,但是在間距較大的情況下,將ktup值降為1較為理想。FASTA程序并不會(huì)研究每一個(gè)遇到的字串命中,但在一開(kāi)始會(huì)尋找包含若干個(gè)附近的命中的片段。使用啟發(fā)式方法,這些片段會(huì)被賦予分值,最好的一個(gè)在輸出時(shí)會(huì)顯示為init1分值,這若干個(gè)片段會(huì)被組合起來(lái),一個(gè)新的initn分值會(huì)從中計(jì)算出來(lái)。然后在最好的初始片段中局限于其對(duì)角線帶上,會(huì)進(jìn)行一次包含空位的局部比對(duì)以評(píng)估最可能的匹配。這個(gè)最佳比對(duì)的分值會(huì)在輸出時(shí)顯示為opt分值。對(duì)最后報(bào)導(dǎo)的比對(duì)來(lái)說(shuō),還要進(jìn)行一次全程的Smith
54、-Waterman比對(duì)。圖7.9b顯示了一個(gè)例子。對(duì)數(shù)據(jù)庫(kù)中的每一個(gè)序列都只會(huì)由一個(gè)最佳的比對(duì),但是,如果蛋白質(zhì)中包含若干個(gè)模塊,一些很有意義的比對(duì)就會(huì)被錯(cuò)過(guò),匹配序列還必須由LALIGN程序作進(jìn)一步分析。從2.0版本開(kāi)始,F(xiàn)ASTA對(duì)每一個(gè)檢索到的比對(duì)都提供一個(gè)統(tǒng)計(jì)學(xué)顯著性的評(píng)估。程序?yàn)殡S機(jī)分值假定了一個(gè)極值分布,但是改寫了概率密度函數(shù)的形式,其中預(yù)期的分值與數(shù)據(jù)庫(kù)中的序列長(zhǎng)度的自然對(duì)數(shù)呈線形關(guān)系,這樣,可以使用簡(jiǎn)單的線形回歸函數(shù)計(jì)算常規(guī)的比對(duì)的z值。最后,計(jì)算出預(yù)期的E值,從而給出那些z值不小于已知值的隨機(jī)比對(duì)的預(yù)期數(shù)目。BLASTBLAST程序?qū)?shù)據(jù)庫(kù)搜索進(jìn)行了大量的改良,提高了搜索速度
55、,同時(shí)把數(shù)據(jù)庫(kù)搜索建立在了嚴(yán)格的統(tǒng)計(jì)學(xué)基礎(chǔ)之上。但是,為了達(dá)到這一目的,仍然需要權(quán)衡選擇,也就是說(shuō),局部比對(duì)的限制條件可能不包括空位。這個(gè)限制條件對(duì)應(yīng)用Karlin-Altschul統(tǒng)計(jì)學(xué)極為有利,另一方面,既然空位沒(méi)有明確地放在模型中,結(jié)果就不會(huì)象人們期望的那樣接近于預(yù)期的比對(duì)。這并不是說(shuō)插入和確實(shí)會(huì)妨礙匹配,在大多數(shù)情況下,比對(duì)僅僅會(huì)被分解為若干個(gè)明顯的HSPs。無(wú)論如何,老版本的BLAST程序(1.4以前)的局限性在新版本中已經(jīng)被消除了,新版本在對(duì)待空位問(wèn)題上有著明確的作法(在下面討論)。對(duì)于一個(gè)即將被BLAST程序報(bào)告的比對(duì),其中必然包含一個(gè)HSP,其分值不小于終止值S。這個(gè)終止值因人
56、而異,但是使用時(shí)是很難知道其合適值的。因?yàn)槌绦蚧贙arlin-Altschul統(tǒng)計(jì)學(xué),人們可以指明一個(gè)預(yù)期的終止E值,然后軟件會(huì)在考慮搜索背景的性質(zhì)的基礎(chǔ)上(比如數(shù)據(jù)庫(kù)的大小,取代矩陣的性質(zhì))計(jì)算出正確的S值。BLAST的一項(xiàng)創(chuàng)新就是鄰近字串的思想。這個(gè)協(xié)定不需要字串確切地匹配,在引入取代矩陣的情況下,當(dāng)主題序列中的字串有一個(gè)最低分值T時(shí),BLAST就宣布找到了一個(gè)命中的字串。這個(gè)策略允許較長(zhǎng)字串長(zhǎng)度(W)(為了提高速度),而忽略了敏感度。于是,T值稱為制衡速度和敏感度的臨界參數(shù),而W是很少會(huì)變化的。如果T值增大,可能的命中字串的數(shù)目就會(huì)下降,程序執(zhí)行就會(huì)加快,減小T值會(huì)發(fā)現(xiàn)較遠(yuǎn)的關(guān)系。發(fā)生
57、一個(gè)字串命中后,程序會(huì)進(jìn)行沒(méi)有空位的局部尋優(yōu),比對(duì)的最低分值是S。將比對(duì)同時(shí)向左方和右方延伸并將分值加和就會(huì)得到結(jié)果。當(dāng)遭遇一系列的最低分值時(shí),加和的分值就會(huì)下降,這時(shí),分值就不再可能反彈回S值。這個(gè)發(fā)現(xiàn)為附加的啟發(fā)式知識(shí)提供了依據(jù),因此,當(dāng)分值的降低(與遭遇的最大值相比)超過(guò)分值下降閾值X時(shí),命中的延伸就會(huì)終止。于是,系統(tǒng)回減少毫無(wú)指望的命中延伸,繼續(xù)進(jìn)行其它操作。使用BLAST可以通過(guò)e-Mail、WWW或控制臺(tái)命令操作BLAST程序,無(wú)論如何,一次數(shù)據(jù)庫(kù)搜索包括四種基本元素:BLAST程序的名稱,數(shù)據(jù)庫(kù)名稱,查詢序列和大量的合適的參數(shù),很顯然,當(dāng)以上元素發(fā)生變化時(shí),搜索的細(xì)節(jié)就會(huì)隨之改變。為了避免混淆,我們把BLAST功能性描述為普通名詞,避免提及專有工具。讀者可能會(huì)要參考使用到的專有工具的有關(guān)內(nèi)容。要得到關(guān)于用e-Mail執(zhí)行BLAST搜索的介紹,給blastn
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 廊坊師范學(xué)院《古代漢語(yǔ)(下)》2023-2024學(xué)年第二學(xué)期期末試卷
- 石家莊幼兒師范高等??茖W(xué)?!痘A(chǔ)俄語(yǔ)Ⅰ》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024-2025學(xué)年福建省華安一中、長(zhǎng)泰一中等四校高三語(yǔ)文試題下學(xué)期一模預(yù)考試題含解析
- 上海音樂(lè)學(xué)院《社會(huì)保障概論》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖南食品藥品職業(yè)學(xué)院《現(xiàn)代表面工程技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 班會(huì)主題:禁毒教育
- 福州市重點(diǎn)中學(xué)2025屆中考英語(yǔ)試題模擬試題含答案
- 2025屆河北省師大附中高三年級(jí)第二學(xué)期期末生物試題試卷含解析
- 漳州輔警考試題庫(kù)2024
- 湖南網(wǎng)絡(luò)工程職業(yè)學(xué)院《中醫(yī)傷科學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025屆山西省高三一模地理試題(原卷版+解析版)
- 2024年電信銷售員工年終總結(jié)
- 2025年度執(zhí)業(yè)藥師職務(wù)聘用協(xié)議模板
- Unit3 Weather Part A(說(shuō)課稿)-2023-2024學(xué)年人教PEP版英語(yǔ)四年級(jí)下冊(cè)
- 2-山東工業(yè)技師學(xué)院申報(bào)國(guó)家級(jí)高技能人才培訓(xùn)基地項(xiàng)目申報(bào)書
- 常用消毒劑的分類、配制及使用課件演示幻燈片
- GB 45069-2024懸崖秋千安全技術(shù)要求
- 員工反恐怖協(xié)議
- 2025年高考政治一輪復(fù)習(xí)知識(shí)清單必修四《哲學(xué)與文化》重難點(diǎn)知識(shí)
- 2021年4月17日江蘇事業(yè)單位考試《綜合知識(shí)和能力素質(zhì)》(管理崗客觀題)
- 《臨床技術(shù)操作規(guī)范-放射醫(yī)學(xué)檢查技術(shù)分冊(cè)》
評(píng)論
0/150
提交評(píng)論