版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第四章數(shù)據(jù)庫相似性搜索王紅巖序言
序列兩兩比對的一個主要應(yīng)用就是在數(shù)據(jù)庫中基于相似性檢索生物序列。這個過程包括提交查詢序列和對查詢序列與數(shù)據(jù)庫中的每一序列進行兩兩比對。所以數(shù)據(jù)庫相似性搜索就是一個大規(guī)模的序列兩兩比對。這種類型的搜索是一種最有效的用來推導(dǎo)新測定序列功能的方法。然而,第三章講述的動態(tài)規(guī)劃算法速度太慢因此大多數(shù)時候是不實用的。為了提高序列比較的計算速度需要特殊的搜索方法。這章將要介紹數(shù)據(jù)庫搜索方法的理論和應(yīng)用。數(shù)據(jù)庫搜索的獨特要求
對序列數(shù)據(jù)庫進行搜索的算法有獨特的要求。第一個標準是敏感性,它是指找到盡可能多的相似序列的能力。它是用正確識別屬于同一家族的序列范圍來度量的。這些正確識別的序列在數(shù)據(jù)庫搜索中被認為是“真陽性“。第二個標準是選擇性,也叫特異性,它是指排除不正確序列的能力。這些不正確的序列是在數(shù)據(jù)庫搜索中被錯誤識別的無關(guān)序列,它們被稱為”假陽性“。第三個標準就是速度,它是指從數(shù)據(jù)庫搜索中得到結(jié)果所用的時間,這依賴于數(shù)據(jù)庫的大小,有時速度可能是最重要的因素。理想上,人們總是希望在數(shù)據(jù)庫搜索中得到最大的敏感性,特異性和速度。然而,同時滿足這三個要求在實際中是非常困難的。通常是提高了敏感性就降低了特異性。而降低特異性又可能會使結(jié)果包含許多假陽性。同樣的,提高速度經(jīng)常會付出敏感性和特異性下降的代價。我們經(jīng)常需要在這三個標準之間作出折衷。數(shù)據(jù)庫搜索的獨特要求
在數(shù)據(jù)庫搜索和許多其它生物信息學領(lǐng)域中有兩種基本類型的算法。一種是窮舉法,它用一種嚴格的算法通過考察所有的數(shù)學組合來找一個特定問題的最佳的或者精確的解。動態(tài)規(guī)劃算法是窮舉法的一個例子,它在計算上是非常精確的。另一種是啟發(fā)式方法,它是一種利用拇指規(guī)則(經(jīng)驗法則)來尋找經(jīng)驗上的或是近似最優(yōu)結(jié)果的計算策略。本質(zhì)上,這種類型的算法是一種根據(jù)一些標準縮小搜索空間的快捷方法。然而,這種快捷方法并不保證找到最佳或是最精確的結(jié)果。經(jīng)常用它是因為要在不顯著犧牲計算結(jié)果的正確性情況下和可以接受的時間內(nèi)獲得結(jié)果。啟發(fā)式數(shù)據(jù)庫搜索
用動態(tài)規(guī)劃算法,比如Smith-Waterman算法,搜索一個大型數(shù)據(jù)庫盡管是精確可靠的,但是速度太慢以至于在計算機資源有限的時候是不切實際的。十年前做的一個估計顯示,用當時的常規(guī)計算機系統(tǒng)以一個包含100個殘基的查詢序列搜索一個包含300000個殘基的數(shù)據(jù)庫需要2-3小時。因此搜索速度成為一個重要的問題。為了提高比較速度必須使用啟發(fā)式方法。啟發(fā)式算法之所以表現(xiàn)出更快的搜索速度是因為它只考察那些用動態(tài)規(guī)劃算法計算過的有可能匹配的序列。啟發(fā)式數(shù)據(jù)庫搜索
目前,主要有兩種用于數(shù)據(jù)庫搜索的算法:BLAST和FASTA。這些算法不保證能找到最理想的比對和真正同源的序列,但是比動態(tài)規(guī)劃算法快50-100倍。提高速度是通過適度地犧牲搜索的敏感性和特異性實現(xiàn)的,而這種犧牲很容易被分子生物學工作者接受。兩種算法都能通過識別相似序列片段來合理地預(yù)測序列的相似性。
啟發(fā)式數(shù)據(jù)庫搜索
BLAST和FASTA都是用基于單詞的啟發(fā)式方法來進行快速序列兩兩比對的算法。這是序列兩兩比對的第三種方法。它是通過尋找兩條序列中顯著的或是近似顯著的相似連續(xù)字母來實現(xiàn)的。這些短的字符串叫做單詞,它類似于點陣法中用到的窗口。一個基本的假設(shè)是兩條相關(guān)序列中至少包含一個共同單詞。在識別出匹配的單詞后,用一個比較長的算法來從單詞開始擴展相似區(qū)域。一但找到高得分的序列相似區(qū)域,就把這些高得分區(qū)域連接起來以得到一個全序列比對?;揪植勘葘λ阉鞴ぞ撸˙LAST)
BLAST程序是NCBI的StephenAltschul于1990年發(fā)明的,它目前已經(jīng)成為最流行的序列分析程序之一。BLAST使用啟式方發(fā)法比對查詢序列和數(shù)據(jù)庫中的所有序列。它的目標是找到相關(guān)序列間的高得分無空位片段。高于給定閾值的這種片段的存在說明序列相似不是隨機的,它能幫助人們從數(shù)據(jù)庫中不相關(guān)的序列中辨別相關(guān)的序列。BLAST通過下面的過程來完成序列比對。第一步是根據(jù)查詢序列建立一個單詞列表。一般地,每一個單詞對于蛋白質(zhì)序列來說包含3個殘基,對于DNA序列來說包含11個殘基。這個列表包含從查詢序列中提取的所有可能單詞。這個步驟也叫搜索種子。第二步是搜索出現(xiàn)這些單詞的數(shù)據(jù)庫中的序列。這步是識別包含匹配單詞的數(shù)據(jù)庫序列?;揪植勘葘λ阉鞴ぞ撸˙LAST)
第三步是用一個給定的得分矩陣給匹配的單詞打分。如果一個單詞的得分高于某個閾值就認為它是匹配的。第四步是通過用同樣的得分矩陣給比對打分來從兩個方向擴展單詞。擴展一直繼續(xù)直到比對得分由于失配降低到一個閾值之下為止(蛋白質(zhì)序列的下降閾值是22而DNA序列是20)。得到的結(jié)果是叫做高得分片段對(HSP)的無空位連續(xù)片段對。在BLAST的原始版本中,最高得分的高得分片段對就作為最后的結(jié)果了。它們也叫做最大得分對。在最近的BLAST的改進的程序中可以進行有空位比對。在有空位的BLAST中,用動態(tài)規(guī)劃算法從兩個方向擴展選擇的最高得分片段以引進空位。如果得分高于某個閾值擴展就繼續(xù);否則就終止。然而,總的得分允許臨時低于閾值最后再達到閾值之上。在得到最后比對結(jié)果之前需要對末端區(qū)域進行修整?;揪植勘葘λ阉鞴ぞ撸˙LAST)變形
BLAST是一個包含BLASTN,BLASTP,BLASTX,TBLASTN和TBLASTX的程序族。BLASTN用一個核酸序列查詢核酸數(shù)據(jù)庫。BLASTP用一個蛋白質(zhì)序列作為查詢序列來查詢蛋白質(zhì)序列數(shù)據(jù)庫。BLASTX用核酸序列作為查詢序列,它把查詢序列按照六種閱讀框翻譯成蛋白質(zhì)序列然后查詢蛋白質(zhì)序列數(shù)據(jù)庫。TBLASTN用蛋白質(zhì)序列作為查詢序列查詢核酸序列數(shù)據(jù)庫,查詢時把數(shù)據(jù)庫中的核酸序列按照六種閱讀框翻譯成蛋白質(zhì)序列。TBLASTX用核酸序列作為查詢序列去查詢核酸序列數(shù)據(jù)庫,查詢時查詢序列和數(shù)據(jù)庫中序列都被按照六種閱讀框翻譯成蛋白質(zhì)序列。
基本局部比對搜索工具(BLAST)變形
如果要在新測定的基因組序列中搜索編碼蛋白質(zhì)的序列就要用到TBLASTN,它會把數(shù)據(jù)庫中的核酸序列按六種閱讀框翻譯成蛋白質(zhì)序列。它可以幫助人們識別出還沒有注釋的編碼蛋白質(zhì)的基因。如果查詢序列是DNA序列,那么可以用TBLASTX進行蛋白質(zhì)水平的比較。然而兩個程序都是非常精細的所以搜索過程可能很慢?;揪植勘葘λ阉鞴ぞ撸˙LAST)變形
BLASTweb服務(wù)器(/BLAST/)已經(jīng)被設(shè)計出來了,它能簡化選擇程序的任務(wù)。程序是基于查詢序列的類型(蛋白質(zhì)序列,DNA序列還被翻譯的DNA序列)組織的。除此之外,特殊用途的程序被單獨編組。例如,bl2seq,免疫球蛋白BLAST和VecSceen,一個去除序列的載體污染的程序。被設(shè)計用來搜索基因組數(shù)據(jù)庫的程序也被單獨列出來?;揪植勘葘λ阉鞴ぞ撸˙LAST)統(tǒng)計顯著性
BLAST的輸出結(jié)果提供一系列按統(tǒng)計顯著性分級的匹配序列。顯著性分數(shù)幫助人們從不相關(guān)的序列中識別出有進化關(guān)系的序列。一般說來,只有分數(shù)高于某個閾值的相似序列才被顯示出來。這里的統(tǒng)計度量與單個序列兩兩比對稍微不同;數(shù)據(jù)庫越大存在的不相關(guān)序列比對就越多。這就需要一個新的參數(shù)來計算進行序列比對的總次數(shù),這個次數(shù)是同數(shù)據(jù)庫的規(guī)模成正比的。在BLAST搜索中這個統(tǒng)計量就是E值(期望值),這個值反映了從數(shù)據(jù)庫中搜索出的比對結(jié)果是隨機得到的可能性?;揪植勘葘λ阉鞴ぞ撸˙LAST)統(tǒng)計顯著性
E值同用來評估單序列兩兩比對的P值相關(guān)。BLAST比較查詢序列和數(shù)據(jù)庫中的所有序列,所以E值是用下面的公式得到的:E=m*n*P其中m是數(shù)據(jù)庫中總的殘基數(shù),n查詢序列的殘基數(shù),而P是指一個高得分片段對是由隨機得到的可能性?;揪植勘葘λ阉鞴ぞ撸˙LAST)統(tǒng)計顯著性
例如,用一個含有100個殘基的序列去查詢一個共包含1012個的殘基的數(shù)據(jù)庫,對于數(shù)據(jù)庫中每一個匹配序列的無空位高得分片段對的P值都是1×10-20。那么E值就是這三個值的乘積,其結(jié)果表示為100×1012×10-20,等于10-6。在BLAST的輸出結(jié)果中它被表示成le-6。它表示這個數(shù)據(jù)庫中序列的匹配是隨機發(fā)生的可能性是10-6。
基本副局部瘋比對左搜索她工具集(BL它AS援T)統(tǒng)計僑顯著昂性E值提叢供了虛一個炎給定攤的序決列純?nèi)捍馐琴r由于工隨機冤匹配門得到休的可隨能性粒。E值越耕低,估數(shù)據(jù)裙庫序麻列匹譽配是陶隨機驚發(fā)生置的可樸能性牽就越律小,尿因此強匹配您就越終顯著漂。對扛于E值的躲經(jīng)驗墳上的辨解釋到是這率樣的憲。如層果E值小吊于le康-5斑0,撓那么而數(shù)據(jù)叉庫的么匹配最序列比是同錫源關(guān)障系的牌可能轎性就姻極高次。梅如果E值在le扒-5夾0至0.冊01之間深,那疼么匹袖配序廢列可堆以被枕認為榨是同五源的層。如垂果E值在0.侮01至10之間剃,那側(cè)么匹街配就鬧是不雨顯著詳?shù)模〉€是可爐以暫扒時被血認為遭具有莫遠源彩關(guān)系花,攜如果闖有其啄它的迅證據(jù)霞就可顏以確撇認它煌們的慨同源湖關(guān)系森。如己果E值大穴于10,那稱么序擦列就拋被認來為不嫂相關(guān)獅的或怪者具拐有極迎遠的葛關(guān)系嬌以至禍于用煙現(xiàn)有換的方義法無溜法發(fā)賢現(xiàn)。基本招局部嚼比對仗搜索械工具影(BL鉤AS作T)統(tǒng)計裂顯著哪性因為E值很若可能貿(mào)受到稈數(shù)據(jù)蔑庫大菜小的且影響猴,敗一個音明顯蝦的問擊題是求隨著鴉數(shù)據(jù)述庫的圍增大傷,迎給定扶的匹總配序燈列的E值也出會增翼大。炒因為雀兩條俯序列砍的真類正的誤進化掙關(guān)系服是保濕守的拘,所盆以隨躲著數(shù)右據(jù)庫炒的增架長序隔列匹溫配的厲可信止度就解會降索低,攀也就肌是說國隨著匹數(shù)據(jù)舒庫的蓮增大朋可能破丟失窯先前辱已經(jīng)磨確定親的同學源關(guān)伶系。贈因此籍,需長要一益種替獲代E值的罷計算翠方法秧?;咎J局部戲比對節(jié)搜索燃工具鞠(BL摘AS娛T)統(tǒng)計薯顯著肺性bi能t分數(shù)夫是除探了E值之勉外在BL感AS艇T的輸么出中糧用到擔的另寸一個怎重要主的統(tǒng)擺計指打示量歷。bi佛t分數(shù)洞不依抄靠查每詢序井列的測長度貞和數(shù)蘇據(jù)庫扔的大俊小衡注量序葬列的止相似棍性,竄需要篇用嚴四格序瓜列兩蘇兩比煎對分暖數(shù)對雅它進孩行標機準化部。bi門t分數(shù)怕(S’)是創(chuàng)用下席面的吉公式殺得到她的。S’蓮=(λ×S偶-解l參nK蔥)/籠ln淘2其中λ是坎肝貝爾笑分布型常數(shù)性,S是嚴陳格序宏列比鮮對分旺數(shù),K是與糟使用形的得總分矩附陣有洲關(guān)的霉常數(shù)受。昆很明猜顯,bi與t分數(shù)栽與嚴返格比宅對分尤數(shù)是含線性領(lǐng)相關(guān)緊的。霸因此密,bi胞t分數(shù)詢越高拼匹配警的顯廈著性戒就越范高。遭不管娃是搜講索不室同大啟小的足不同付數(shù)據(jù)傾庫還騾是在作數(shù)據(jù)離庫增披長過圾程中方搜索救不同梢時間避的同新一個慨數(shù)據(jù)額庫,Bi鳥t分數(shù)惱都提投供了親一種香固定予的統(tǒng)肅計指帳示量夜?;驹植炕糜癖葘ΟB搜索詞工具唱(BL甜AS辛T)低復(fù)易雜性芹區(qū)域?qū)τ谌赖鞍缀速|(zhì)序?qū)伊泻虳N盛A序列灘都存森在包佳含高羊度重非復(fù)殘膀基的方區(qū)域營,比分如重設(shè)復(fù)的罷短片驢段,松或者映是由吐少數(shù)殖殘基德組成到的高救度重著復(fù)片出段。左這些興區(qū)域短被認琴為是竟低復(fù)糞雜性冒區(qū)域館(LC樓Rs)。手低復(fù)則雜性奴區(qū)域棒在數(shù)獎?chuàng)旖q序列箱中是扶非常罪普遍添的,塵估計步低復(fù)模雜性隊區(qū)域夢占公朵共數(shù)浙據(jù)庫禍中蛋材白質(zhì)放序列致的15粱%。昆查詢屬序列謀中的鐘這些熟成分督會引潮起假敏的數(shù)宰據(jù)庫迅匹配盛從而主人為微地提紡高了屈不相呼關(guān)序萍列比得對分菠數(shù)。基本團局部柜比對少搜索范工具凡(BL葛AS堂T)低復(fù)講雜性穴區(qū)域為了概避免訊由于廳低復(fù)賴雜性演區(qū)域?qū)挼钠タv配引沙起的祝高相木似得何分使歸真正徑相似容的序暖列不辱顯著惜的問導(dǎo)題,踢過濾次掉查材詢序反列和鋒數(shù)據(jù)戲庫中品序列感的問貞題區(qū)疾域以浮提高景信噪鬧比是雨非常咐重要村的。編常用母的過役程是趁掩蔽嗚。一指共有蟲兩種住類型加的掩算蔽:反硬掩家蔽和再軟掩捷蔽。貿(mào)硬掩盾蔽就勵是在BL街AS皺T程序襖中用思一個江意義筆不明嫁確的犬字符符,棒如核漏酸序稠列用眠的N或蛋惰白質(zhì)槐序列管用的X,來科取代勢問題慌區(qū)域座以避基免使桂用問顯題區(qū)負域比很對從蜂而避文免假您陽性潮。缺幼點是競由于室縮短加了比森對的膜長度盤可能餓使真汗正同服源的騰序列程得分箱降低拜。軟俘掩蔽壘保留描問題浙序列籌但是瞞減小霞它們寫的作傲用,繪就是灰在構(gòu)芝建單每詞表狗的時謀候忽烘略它尿們,槳但是保在單撕詞擴嗎展和擠最優(yōu)條化比充對時鑒使用淡它們狹。基本苦局部抱比對革搜索犬工具拍(BL女AS確T)低復(fù)俘雜性鵝區(qū)域SE煤G是一辭個能箱在執(zhí)文行數(shù)按據(jù)庫宅搜索嫁前識項別并感掩蔽盞重復(fù)務(wù)序列學的程籮序。壇它通店過比輪較某朵一區(qū)送域殘判基的蛋出現(xiàn)撲頻率婚和在圓數(shù)據(jù)鬼庫中上殘基會出現(xiàn)艘的平麥均頻尤率來睛識別瓦低復(fù)樓雜性已區(qū)域星。如畏果查商詢序雖列的鳴某一號區(qū)域減的殘塔基出卸現(xiàn)頻誼率明狗顯高耐于數(shù)隙據(jù)庫解中的緩平均奏頻率陡,則敢這個在區(qū)域身就被悉標記龜為低坐復(fù)雜冷性區(qū)威域。SE逢G已經(jīng)競被集仇成到舞基于we暑b的BL匠AS曲T程序道中。挪需要父一個懇低復(fù)鋤雜性訪過濾綿器選啄項面?zhèn)鍋黹]標記多低復(fù)司雜性歉區(qū)域軌。Re掏pe磨at助Ma俯sk宏er收(ht牙tp己:/憤/w吸oo捆dy油.e策mb測l-戚he閣id色el藏be崗rg叛.d幅e/話re芹pe扣at言ma道sk/)是一捧個用Sm頃it貪h-鑼Wa確te席rm這an算法刷通過辜比較五查詢顧序列回和包挪含重瞧復(fù)序央列的鋒固定才的庫勝來識武別重燥復(fù)序俘列的鑒獨立瘋的掩設(shè)蔽程粒序。違如果雅某一斤序列戰(zhàn)區(qū)域狂的比覆對得摔分高包于閾維值,拳這個監(jiān)區(qū)域夾就被善認為弊是一侮個低贈復(fù)雜奸性區(qū)欄域。歷對應(yīng)涼的堿收基被端掩蔽韻為N或X。基本哀局部督比對音搜索塑工具逆(BL栗AS凈T)BL魄AS駐T的輸購出格巨式BL娛AS僅T的輸互出包版括一吸個圖帆示,詞一個筍匹配慰列表平和一美個序毀列比假對的跑文本圓說明炮。圖姿示包那括帶擴顏色渡的橫時線,齒通過務(wù)它們黑可以創(chuàng)快速成識別捏出數(shù)欠據(jù)庫掩序列輩匹配鮮的數(shù)纖目和纏匹配闖的相況似性動得分芬。橫猾線的蠅顏色雞與匹靠配序畝列的公相似逮性一匯致(扒紅色框:最跪相關(guān)節(jié),綠蝕色和溫藍色汽:適氣度相燦關(guān),丙黑色紫:不匹相關(guān)芬)。歡橫線及的長恐度代吵表了遮匹配交序列光相對者于查衡詢序舉列的閥跨度鋼。每際一條營橫線肚都被筋鏈接照到與僻這條陳序列碼相關(guān)虛的文頭字說姻明部營分。辯圖示企的下踏面是羞一組后按E值遞慈增的連順序敏排列父的相惑匹配積序列啟。庫每一煎個序元列都走包含倉登錄混號,糊數(shù)據(jù)鎖庫記融錄的疤題目滴(通擠常是齡一部赴分)急,bi仰t分數(shù)竭和E值?;景艟植吭副葘谒阉鞴鸸ぞ唔暎˙L自AS得T)BL酷AS丟T的輸晉出格乳式匹配澇序列蝕列表盤下面砌就是章文本尋說明廊。它飄包括柱三個鍋部分行:頭腿部,嬸統(tǒng)計黎資料絡(luò)和比騰對。裳頭部安包括員基因黎索引站號或礙者是祝數(shù)據(jù)流庫序疊列的咬參考招文獻近號和箭一行掌的數(shù)尖據(jù)庫膊序列書描述傍。在垂它下暢面是饒搜索暴輸出裙的統(tǒng)講計資閃料,謠它包委括bi掙t分數(shù)畏,E值,沉一絞致性紗比例調(diào),相稻似性虛比例摟和空涼位。右在具妻體比頃對部女分,射查詢亡序列箏在一遮對序珠列的謀上部庸而搜勞索出賽來的裂數(shù)據(jù)膜庫序饑列在菠下部從并且緊被標茅號為Ob政je首ct。在喇兩條焰序列共之間圣,相例一致象的殘乒基被蛙寫在棕相應(yīng)瘋的位該置,介而不惠一致等但是掀相似鞏的殘燙基用坐“+”標記涂。查鏟詢序瓦列中所任何椅被標攔記為優(yōu)低復(fù)蠅雜性晶區(qū)域碌的殘卡基都治被標黨記為X或N所以派比對普不包翼含這頭些區(qū)悄域。FA摟ST盡AFA猴ST肯A(FA項ST垃A猶LL,ww頭w.狹eb岔i.陣ac餅.u老k/湊fa販st翻a3剝3)實際多上是隊第一朋個數(shù)遍據(jù)庫較相似辭性搜繪索工孝具,喚它拔出現(xiàn)礎(chǔ)在BL誼AS燈T之前點。FA襖ST架A用哈超希策脂略來昂查找鳳長度例為k的一止小段嬌連續(xù)吧的殘洽基之信間的尖匹配聽。這腔種殘碧基組扣成的膀字符震串叫共做k元組爬,它舒和BL甲AS碗T中的愛單詞柔是同脊義的睜,但閣是通齡常比飽單詞聞短。k元組頸的典糊型長腰度是她蛋白暮質(zhì)序憤列為帥兩個缸殘基瓜而DN戶A序列彈為六苦個殘絲式基。FA剪ST鮮A算法喉的第退一步易是用剝哈希秘策略塞識別伏兩條吵序列盈中的k元組船。蔑這種盛策略等是構(gòu)梯造顯晴示兩并條序泛列中患每一猾個k元組尿位置響的查燭找表狀。養(yǎng)兩條效序列川中的密每一笨個共肺同k元組程的位沸置差潔是通倘過用迷第一茫條序蛋列中許的位織置減朵去第塘二條腿序列殿中的慶位置去來得螺到的父,這吹個差滋被表泄示為膝位移嘆。院具有善相同啞位移陡值的k元組乞被連窄接起夸來表先示一賭段連揉續(xù)的喚一致夾性序符列區(qū)旋域,鏟它對獵應(yīng)于居二維個矩陣倍中的律一條頸連續(xù)梁的對蛇角線跡。FA果ST滴A第二向步是廟縮小予兩條牌序列翅之間裙的高饞相似部區(qū)域脖。通征常,職在哈仗希階仇段能鬼識別贏出兩灘條序剪列之做間的胳許多維對角社線。竊具有儀最密習集對媽角線磚的前士十個熊區(qū)域賭被識日別出挨來作吳為高飼相似缸區(qū)域埋。對拴這些退區(qū)域溝中的琴對角句線用趕一個躬得分社矩陣綁進行時打分饒。沿潑同一怕條對蹈角線忠的鄰之近的轉(zhuǎn)高相亮似區(qū)筒域被搞連接倍起來妖形成仍單一值序列樸比對窗。這錦個階慌段允菠許應(yīng)遺用空揮位罰梅分從險而在魄不同祝的對昆角線枯之間醉引進洽空位訪。引劇進空串位之濁后的聯(lián)得分控需要烏重新速計算踢出來拼。在鄉(xiāng)豐第三杠步中盒,用Sm爪it錢h-今Wa謎te悶rm淹an算法仆對引慌進空回位的魂比對圖進一蝴步提理煉以難得到隔最終虜?shù)谋雀皩?。梨最后相一步他是向BL顛AS滴T算法春一樣飼用E值對輕最終輪比對裙結(jié)果鞋進行樣統(tǒng)計殖評價公。FA耗ST洗A和BL陰AS病T相似麗,F(xiàn)A仰ST擺A也有守許多旁子程毀序?;瑲W洲汗生物朽信息員學協(xié)付會提德供基析于we牲b的FA副ST藝A程序惑允許警使用亮蛋白短質(zhì)或清核酸肺序列寨作為長查詢爪序列霸來搜蔬索蛋計白質(zhì)揭序列營或核欠酸序益列數(shù)仙據(jù)庫則??善蘅康幕I程序糧的變助形有FA冬ST陷X,它賺先把DN愚A序列甲翻譯斷成蛋日白質(zhì)歪序列先然后姻用這邀個蛋掌白質(zhì)房誠序列豎查詢庸蛋白西質(zhì)序穗列數(shù)女據(jù)庫鎖,還沿有TF爹AS飾TX,他變以蛋南白質(zhì)功序列慰作為梯查詢糞序列襪,用鞋它去準搜索油翻譯盤成蛋其白質(zhì)灣序列掙的DN凳A序列參數(shù)據(jù)桃?guī)?。FA博ST叫A統(tǒng)計中顯著腰性FA瀉ST另A也使嫩用E值和bi平t分數(shù)股。在FA顫ST葵A中估每計這牲兩個備參數(shù)娘本質(zhì)下上和BL沸AS故T相同碌。不御過,F(xiàn)A浸ST公A提供民了一果個更突具有曠統(tǒng)計靠意義把的參沈量就螺是Z分數(shù)狡。紀它描岔述在例數(shù)據(jù)蹤蝶庫搜文索中返與平多均分制數(shù)的盒標準御誤差徐。因蓄為大壇多數(shù)榮的與擁查詢款序列撫的比步對都廉是不姑相關(guān)谷序列泥比對邊,飲所以隊得到尊的匹枯配序薄列的Z分數(shù)貸越高和,比喚對得血分離講得分味分布還的平侍均值攝就越假遠,辟匹瓜配就商越顯咽著。社如果Z分數(shù)渡大于15就認輸為匹因配是烤極其犬顯著叮的,片它們悔當然本就是黃同源狐關(guān)系亮。如陪果Z分數(shù)役在5到15的范葵圍內(nèi)緊,序撤列對概被認悉為有優(yōu)很高出的同堪源可丑能性效。如箏果Z分數(shù)午小于5,它漠們的頓關(guān)系薪就非負常不后確定抹。FA性ST弱A與BL表AS感T的比木較BL寬AS底T和FA面ST拿A在常辦規(guī)數(shù)奴據(jù)庫泥搜索止中顯醒示了遣同樣賞好的默性能飼。下然而歸這兩祥種方犯法之裕間也謎存在掉一些則值得泡注意唯的不夸同點企。最帳主要點的不凡同是鄙在搜抽索種廳子階決段。BL秩AS思T是用尚替換畫矩陣替查找體匹配跟的單井詞,巾而FA盲ST勇A是用紫哈希竊過程識識別長顯著曲匹配凍單詞震。在宇默認靜情況涌下,F(xiàn)A旱ST魔A掃描悟更小鴿的窗霉口。摧所以外,它石給出辰比BL斧AS襪T更敏鬼感的而結(jié)果于。右在BL溜AS貌T中使選用低袍復(fù)雜勤性掩潮蔽技園術(shù),螺使它話得到曾的結(jié)腹果比FA州ST茂A具有纏更高絨的特剖異性林,因走為它動降低兼了潛誘在的螺假陽老性。BL陶AS疼T有時暑給出臨一條衫序列薪的多繞個最朗高得辦分比忘對,河而FA料ST團A只能兔給出郵一個孩最終泄比對蕩結(jié)果海。用Sm猾it鄉(xiāng)豐h-州Wa腹te燃rm要an算法規(guī)進行勤數(shù)據(jù)嗽庫搜吩索前面宮已經(jīng)幟提到塑,嚴絹格的傭動態(tài)妻規(guī)劃報算法必通常踢不能農(nóng)用來險進行瞇數(shù)據(jù)先庫搜躁索,秀因為畢它計帝算速唱度慢知而且岸花費規(guī)代價心大。喉啟發(fā)遲法如BL遷AS調(diào)T和FA控ST塊A提高付了計述算速匪度。菊然輪而,誼啟發(fā)稀式方端法在挽敏感先性方容面存成在局晶限而憂且不竭保證姓能找吵到最熱佳比捕對。季它們侵經(jīng)常深不能語找到荒數(shù)據(jù)困庫中趟的遠銀距離隸相關(guān)們序列壞。估身計指晝出對飼于一艇些蛋劑白質(zhì)志序列巨家族腦,BL葡AS桌T會丟駕失30療%的真憂正同嘆源序留列。贏目前撓計算鄙技術(shù)否的發(fā)飛展,悶如巨畏型計奔算機亦的并賞行處括理,搞使得塞動態(tài)文規(guī)劃清算法保成為渡能滿汪足性咳能要組求的對數(shù)據(jù)周庫搜賺索算泛法。用Sm魂it偷h-鼻Wa標te萄rm襖an算法今進行子數(shù)據(jù)河庫搜快索為了艇實現(xiàn)仍這個久目的階,Ne夾ed路le秤ma桃n-莊Wu氏ns翠ch和Sm瓜it套h忘-W勝at逗er床ma飽n算法碧的機較器代械碼必排須進叔行修凍改以給使它熄們能袍在并滑行處眨理環(huán)燈境中摘運行灘從而折使搜香索過橋程能搭在合毒理的使時限矩內(nèi)完率成。甩目前蛙,它掛的搜捎索速怒度仍喜然比廁流行熱的啟凳發(fā)式蚊算法至慢。企所以未,這蛛種方凈法還靜不能饅用在村日常犬工作臥中。欲不過罰,可桿以利葛用動架態(tài)規(guī)斷劃算忠法在愚序列尋的水考平上遠找到等具有泰最大朵敏感信性的醬同源呀序列葛。經(jīng)您驗上殖的測較試顯們示窮腰盡式雹算法父確實混能比慨啟發(fā)寶式算甩法得陪到更濕加優(yōu)紀秀的態(tài)結(jié)果豈。下門面是氧一些起基于悄動態(tài)己規(guī)劃等算法治的用覽于數(shù)乳據(jù)庫禽搜索京的we晨b程序革。用Sm宜it港h-鈴Wa聰te并rm嘆an算法報進行范數(shù)據(jù)貧庫搜棚索Sc哨an幟PS秋(S炮ca謀n艇Pr攻ot餃ei停nSe育qu敞en廚ce慢,w罰ww影.e玻bi書.a藍c.竟uk答/s臭ca潛np遙s/)是一貓個基怠于we伶b的適鼠用于誕并行酒處理喘的Sm約it晶h-音Wa比te拔rm斥an算法歷的改偽進版梯本的抵實現(xiàn)跨程序娘。兄它的向主要嬸特點置是可倚以像PS衰I-受BL餓AS雹T那樣型進行礙反復(fù)盈的搜拒索,PS洞I-除BL豬AS膽T通過捉第一響輪計賢算結(jié)高果建零立一考個數(shù)鞏據(jù)表雨,在扔第二越輪搜粒索中指會用尖到這嘆個表炎。為狡了增榜加敏茄感性找每一刺輪都
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年手機售后服務(wù)協(xié)議模板
- 成品油海上運輸服務(wù)協(xié)議2024年
- 2023-2024學年之江教育評價高三下階段測試(五)數(shù)學試題
- 2024年企業(yè)勞務(wù)服務(wù)協(xié)議模板
- 2024辦公電腦集中采購協(xié)議模板
- 2024年反擔保協(xié)議條款示例
- 2024年家居裝飾協(xié)議格式
- 2024年批量錨具采購商務(wù)協(xié)議條款
- 文書模板-旅游服務(wù)轉(zhuǎn)讓合同
- 2024年電商管理代運營協(xié)議模板
- NB_T 10339-2019《水電工程壩址工程地質(zhì)勘察規(guī)程》_(高清最新)
- 繁體校對《太上老君說常清靜經(jīng)》
- 關(guān)于統(tǒng)一規(guī)范人民防空標識使用管理的通知(1)
- 電纜振蕩波局部放電試驗報告
- 西門子RWD68說明書
- 針對建筑工程施工數(shù)字化管理分析
- 多品種共線生產(chǎn)質(zhì)量風險評價
- 【MBA教學案例】從“蝦國”到“國蝦”:國聯(lián)水產(chǎn)的戰(zhàn)略轉(zhuǎn)型
- Unit-1--College-Life
- 醫(yī)院車輛加油卡管理制度
- 平面四桿機構(gòu)急回特性說課課件
評論
0/150
提交評論