




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第四章數據庫相似性搜索王紅巖序言
序列兩兩比對的一個主要應用就是在數據庫中基于相似性檢索生物序列。這個過程包括提交查詢序列和對查詢序列與數據庫中的每一序列進行兩兩比對。所以數據庫相似性搜索就是一個大規(guī)模的序列兩兩比對。這種類型的搜索是一種最有效的用來推導新測定序列功能的方法。然而,第三章講述的動態(tài)規(guī)劃算法速度太慢因此大多數時候是不實用的。為了提高序列比較的計算速度需要特殊的搜索方法。這章將要介紹數據庫搜索方法的理論和應用。數據庫搜索的獨特要求
對序列數據庫進行搜索的算法有獨特的要求。第一個標準是敏感性,它是指找到盡可能多的相似序列的能力。它是用正確識別屬于同一家族的序列范圍來度量的。這些正確識別的序列在數據庫搜索中被認為是“真陽性“。第二個標準是選擇性,也叫特異性,它是指排除不正確序列的能力。這些不正確的序列是在數據庫搜索中被錯誤識別的無關序列,它們被稱為”假陽性“。第三個標準就是速度,它是指從數據庫搜索中得到結果所用的時間,這依賴于數據庫的大小,有時速度可能是最重要的因素。理想上,人們總是希望在數據庫搜索中得到最大的敏感性,特異性和速度。然而,同時滿足這三個要求在實際中是非常困難的。通常是提高了敏感性就降低了特異性。而降低特異性又可能會使結果包含許多假陽性。同樣的,提高速度經常會付出敏感性和特異性下降的代價。我們經常需要在這三個標準之間作出折衷。數據庫搜索的獨特要求
在數據庫搜索和許多其它生物信息學領域中有兩種基本類型的算法。一種是窮舉法,它用一種嚴格的算法通過考察所有的數學組合來找一個特定問題的最佳的或者精確的解。動態(tài)規(guī)劃算法是窮舉法的一個例子,它在計算上是非常精確的。另一種是啟發(fā)式方法,它是一種利用拇指規(guī)則(經驗法則)來尋找經驗上的或是近似最優(yōu)結果的計算策略。本質上,這種類型的算法是一種根據一些標準縮小搜索空間的快捷方法。然而,這種快捷方法并不保證找到最佳或是最精確的結果。經常用它是因為要在不顯著犧牲計算結果的正確性情況下和可以接受的時間內獲得結果。啟發(fā)式數據庫搜索
用動態(tài)規(guī)劃算法,比如Smith-Waterman算法,搜索一個大型數據庫盡管是精確可靠的,但是速度太慢以至于在計算機資源有限的時候是不切實際的。十年前做的一個估計顯示,用當時的常規(guī)計算機系統(tǒng)以一個包含100個殘基的查詢序列搜索一個包含300000個殘基的數據庫需要2-3小時。因此搜索速度成為一個重要的問題。為了提高比較速度必須使用啟發(fā)式方法。啟發(fā)式算法之所以表現(xiàn)出更快的搜索速度是因為它只考察那些用動態(tài)規(guī)劃算法計算過的有可能匹配的序列。啟發(fā)式數據庫搜索
目前,主要有兩種用于數據庫搜索的算法:BLAST和FASTA。這些算法不保證能找到最理想的比對和真正同源的序列,但是比動態(tài)規(guī)劃算法快50-100倍。提高速度是通過適度地犧牲搜索的敏感性和特異性實現(xiàn)的,而這種犧牲很容易被分子生物學工作者接受。兩種算法都能通過識別相似序列片段來合理地預測序列的相似性。
啟發(fā)式數據庫搜索
BLAST和FASTA都是用基于單詞的啟發(fā)式方法來進行快速序列兩兩比對的算法。這是序列兩兩比對的第三種方法。它是通過尋找兩條序列中顯著的或是近似顯著的相似連續(xù)字母來實現(xiàn)的。這些短的字符串叫做單詞,它類似于點陣法中用到的窗口。一個基本的假設是兩條相關序列中至少包含一個共同單詞。在識別出匹配的單詞后,用一個比較長的算法來從單詞開始擴展相似區(qū)域。一但找到高得分的序列相似區(qū)域,就把這些高得分區(qū)域連接起來以得到一個全序列比對?;揪植勘葘λ阉鞴ぞ撸˙LAST)
BLAST程序是NCBI的StephenAltschul于1990年發(fā)明的,它目前已經成為最流行的序列分析程序之一。BLAST使用啟式方發(fā)法比對查詢序列和數據庫中的所有序列。它的目標是找到相關序列間的高得分無空位片段。高于給定閾值的這種片段的存在說明序列相似不是隨機的,它能幫助人們從數據庫中不相關的序列中辨別相關的序列。BLAST通過下面的過程來完成序列比對。第一步是根據查詢序列建立一個單詞列表。一般地,每一個單詞對于蛋白質序列來說包含3個殘基,對于DNA序列來說包含11個殘基。這個列表包含從查詢序列中提取的所有可能單詞。這個步驟也叫搜索種子。第二步是搜索出現(xiàn)這些單詞的數據庫中的序列。這步是識別包含匹配單詞的數據庫序列?;揪植勘葘λ阉鞴ぞ撸˙LAST)
第三步是用一個給定的得分矩陣給匹配的單詞打分。如果一個單詞的得分高于某個閾值就認為它是匹配的。第四步是通過用同樣的得分矩陣給比對打分來從兩個方向擴展單詞。擴展一直繼續(xù)直到比對得分由于失配降低到一個閾值之下為止(蛋白質序列的下降閾值是22而DNA序列是20)。得到的結果是叫做高得分片段對(HSP)的無空位連續(xù)片段對。在BLAST的原始版本中,最高得分的高得分片段對就作為最后的結果了。它們也叫做最大得分對。在最近的BLAST的改進的程序中可以進行有空位比對。在有空位的BLAST中,用動態(tài)規(guī)劃算法從兩個方向擴展選擇的最高得分片段以引進空位。如果得分高于某個閾值擴展就繼續(xù);否則就終止。然而,總的得分允許臨時低于閾值最后再達到閾值之上。在得到最后比對結果之前需要對末端區(qū)域進行修整。基本局部比對搜索工具(BLAST)變形
BLAST是一個包含BLASTN,BLASTP,BLASTX,TBLASTN和TBLASTX的程序族。BLASTN用一個核酸序列查詢核酸數據庫。BLASTP用一個蛋白質序列作為查詢序列來查詢蛋白質序列數據庫。BLASTX用核酸序列作為查詢序列,它把查詢序列按照六種閱讀框翻譯成蛋白質序列然后查詢蛋白質序列數據庫。TBLASTN用蛋白質序列作為查詢序列查詢核酸序列數據庫,查詢時把數據庫中的核酸序列按照六種閱讀框翻譯成蛋白質序列。TBLASTX用核酸序列作為查詢序列去查詢核酸序列數據庫,查詢時查詢序列和數據庫中序列都被按照六種閱讀框翻譯成蛋白質序列。
基本局部比對搜索工具(BLAST)變形
如果要在新測定的基因組序列中搜索編碼蛋白質的序列就要用到TBLASTN,它會把數據庫中的核酸序列按六種閱讀框翻譯成蛋白質序列。它可以幫助人們識別出還沒有注釋的編碼蛋白質的基因。如果查詢序列是DNA序列,那么可以用TBLASTX進行蛋白質水平的比較。然而兩個程序都是非常精細的所以搜索過程可能很慢?;揪植勘葘λ阉鞴ぞ撸˙LAST)變形
BLASTweb服務器(/BLAST/)已經被設計出來了,它能簡化選擇程序的任務。程序是基于查詢序列的類型(蛋白質序列,DNA序列還被翻譯的DNA序列)組織的。除此之外,特殊用途的程序被單獨編組。例如,bl2seq,免疫球蛋白BLAST和VecSceen,一個去除序列的載體污染的程序。被設計用來搜索基因組數據庫的程序也被單獨列出來?;揪植勘葘λ阉鞴ぞ撸˙LAST)統(tǒng)計顯著性
BLAST的輸出結果提供一系列按統(tǒng)計顯著性分級的匹配序列。顯著性分數幫助人們從不相關的序列中識別出有進化關系的序列。一般說來,只有分數高于某個閾值的相似序列才被顯示出來。這里的統(tǒng)計度量與單個序列兩兩比對稍微不同;數據庫越大存在的不相關序列比對就越多。這就需要一個新的參數來計算進行序列比對的總次數,這個次數是同數據庫的規(guī)模成正比的。在BLAST搜索中這個統(tǒng)計量就是E值(期望值),這個值反映了從數據庫中搜索出的比對結果是隨機得到的可能性。基本局部比對搜索工具(BLAST)統(tǒng)計顯著性
E值同用來評估單序列兩兩比對的P值相關。BLAST比較查詢序列和數據庫中的所有序列,所以E值是用下面的公式得到的:E=m*n*P其中m是數據庫中總的殘基數,n查詢序列的殘基數,而P是指一個高得分片段對是由隨機得到的可能性?;揪植勘葘λ阉鞴ぞ撸˙LAST)統(tǒng)計顯著性
例如,用一個含有100個殘基的序列去查詢一個共包含1012個的殘基的數據庫,對于數據庫中每一個匹配序列的無空位高得分片段對的P值都是1×10-20。那么E值就是這三個值的乘積,其結果表示為100×1012×10-20,等于10-6。在BLAST的輸出結果中它被表示成le-6。它表示這個數據庫中序列的匹配是隨機發(fā)生的可能性是10-6。
基本副局部瘋比對左搜索她工具集(BL它AS援T)統(tǒng)計僑顯著昂性E值提叢供了虛一個炎給定攤的序決列純群粹是賠由于工隨機冤匹配門得到休的可隨能性粒。E值越耕低,估數據裙庫序麻列匹譽配是陶隨機驚發(fā)生置的可樸能性牽就越律小,尿因此強匹配您就越終顯著漂。對扛于E值的躲經驗墳上的辨解釋到是這率樣的憲。如層果E值小吊于le康-5斑0,撓那么而數據叉庫的么匹配最序列比是同錫源關障系的牌可能轎性就姻極高次。梅如果E值在le扒-5夾0至0.冊01之間深,那疼么匹袖配序廢列可堆以被枕認為榨是同五源的層。如垂果E值在0.侮01至10之間剃,那側么匹街配就鬧是不雨顯著詳的,健但還是可爐以暫扒時被血認為遭具有莫遠源彩關系花,攜如果闖有其啄它的迅證據霞就可顏以確撇認它煌們的慨同源湖關系森。如己果E值大穴于10,那稱么序擦列就拋被認來為不嫂相關獅的或怪者具拐有極迎遠的葛關系嬌以至禍于用煙現(xiàn)有換的方義法無溜法發(fā)賢現(xiàn)?;菊芯植拷辣葘φ趟阉餍倒ぞ哂埃˙L鉤AS作T)統(tǒng)計裂顯著哪性因為E值很若可能貿受到稈數據蔑庫大菜小的且影響猴,敗一個音明顯蝦的問擊題是求隨著鴉數據述庫的圍增大傷,迎給定扶的匹總配序燈列的E值也出會增翼大。炒因為雀兩條俯序列砍的真類正的誤進化掙關系服是保濕守的拘,所盆以隨躲著數右據庫炒的增架長序隔列匹溫配的厲可信止度就解會降索低,攀也就肌是說國隨著匹數據舒庫的蓮增大朋可能破丟失窯先前辱已經磨確定親的同學源關伶系。贈因此籍,需長要一益種替獲代E值的罷計算翠方法秧。基本蘆局部戲比對節(jié)搜索燃工具鞠(BL摘AS娛T)統(tǒng)計薯顯著肺性bi能t分數夫是除探了E值之勉外在BL感AS艇T的輸么出中糧用到擔的另寸一個怎重要主的統(tǒng)擺計指打示量歷。bi佛t分數洞不依抄靠查每詢序井列的測長度貞和數蘇據庫扔的大俊小衡注量序葬列的止相似棍性,竄需要篇用嚴四格序瓜列兩蘇兩比煎對分暖數對雅它進孩行標機準化部。bi門t分數怕(S’)是創(chuàng)用下席面的吉公式殺得到她的。S’蓮=(λ×S偶-解l參nK蔥)/籠ln淘2其中λ是坎肝貝爾笑分布型常數性,S是嚴陳格序宏列比鮮對分旺數,K是與糟使用形的得總分矩附陣有洲關的霉常數受。昆很明猜顯,bi與t分數栽與嚴返格比宅對分尤數是含線性領相關緊的。霸因此密,bi胞t分數詢越高拼匹配警的顯廈著性戒就越范高。遭不管娃是搜講索不室同大啟小的足不同付數據傾庫還騾是在作數據離庫增披長過圾程中方搜索救不同梢時間避的同新一個慨數據額庫,Bi鳥t分數惱都提投供了親一種香固定予的統(tǒng)肅計指帳示量夜?;驹植炕糜癖葘ΟB搜索詞工具唱(BL甜AS辛T)低復易雜性芹區(qū)域對于壤蛋白核質序屢列和DN盛A序列灘都存森在包佳含高羊度重非復殘膀基的方區(qū)域營,比分如重設復的罷短片驢段,松或者映是由吐少數殖殘基德組成到的高救度重著復片出段。左這些興區(qū)域短被認琴為是竟低復糞雜性冒區(qū)域館(LC樓Rs)。手低復則雜性奴區(qū)域棒在數獎?chuàng)旖q序列箱中是扶非常罪普遍添的,塵估計步低復模雜性隊區(qū)域夢占公朵共數浙據庫禍中蛋材白質放序列致的15粱%。昆查詢屬序列謀中的鐘這些熟成分督會引潮起假敏的數宰據庫迅匹配盛從而主人為微地提紡高了屈不相呼關序萍列比得對分菠數?;緢F局部柜比對少搜索范工具凡(BL葛AS堂T)低復講雜性穴區(qū)域為了概避免訊由于廳低復賴雜性演區(qū)域寬的匹縱配引沙起的祝高相木似得何分使歸真正徑相似容的序暖列不辱顯著惜的問導題,踢過濾次掉查材詢序反列和鋒數據戲庫中品序列感的問貞題區(qū)疾域以浮提高景信噪鬧比是雨非常咐重要村的。編常用母的過役程是趁掩蔽嗚。一指共有蟲兩種住類型加的掩算蔽:反硬掩家蔽和再軟掩捷蔽。貿硬掩盾蔽就勵是在BL街AS皺T程序襖中用思一個江意義筆不明嫁確的犬字符符,棒如核漏酸序稠列用眠的N或蛋惰白質槐序列管用的X,來科取代勢問題慌區(qū)域座以避基免使桂用問顯題區(qū)負域比很對從蜂而避文免假您陽性潮。缺幼點是競由于室縮短加了比森對的膜長度盤可能餓使真汗正同服源的騰序列程得分箱降低拜。軟俘掩蔽壘保留描問題浙序列籌但是瞞減小霞它們寫的作傲用,繪就是灰在構芝建單每詞表狗的時謀候忽烘略它尿們,槳但是保在單撕詞擴嗎展和擠最優(yōu)條化比充對時鑒使用淡它們狹?;究嗑植勘П葘Ω锼阉魅ぞ吲模˙L女AS確T)低復俘雜性鵝區(qū)域SE煤G是一辭個能箱在執(zhí)文行數按據庫宅搜索嫁前識項別并感掩蔽盞重復務序列學的程籮序。壇它通店過比輪較某朵一區(qū)送域殘判基的蛋出現(xiàn)撲頻率婚和在圓數據鬼庫中上殘基會出現(xiàn)艘的平麥均頻尤率來睛識別瓦低復樓雜性已區(qū)域星。如畏果查商詢序雖列的鳴某一號區(qū)域減的殘塔基出卸現(xiàn)頻誼率明狗顯高耐于數隙據庫解中的緩平均奏頻率陡,則敢這個在區(qū)域身就被悉標記龜為低坐復雜冷性區(qū)威域。SE逢G已經競被集仇成到舞基于we暑b的BL匠AS曲T程序道中。挪需要父一個懇低復鋤雜性訪過濾綿器選啄項面?zhèn)鍋黹]標記多低復司雜性歉區(qū)域軌。Re掏pe磨at助Ma俯sk宏er收(ht牙tp己:/憤/w吸oo捆dy油.e策mb測l-戚he閣id色el藏be崗rg叛.d幅e/話re芹pe扣at言ma道sk/)是一捧個用Sm頃it貪h-鑼Wa確te席rm這an算法刷通過辜比較五查詢顧序列回和包挪含重瞧復序央列的鋒固定才的庫勝來識武別重燥復序俘列的鑒獨立瘋的掩設蔽程粒序。違如果雅某一斤序列戰(zhàn)區(qū)域狂的比覆對得摔分高包于閾維值,拳這個監(jiān)區(qū)域夾就被善認為弊是一侮個低贈復雜奸性區(qū)欄域。歷對應涼的堿收基被端掩蔽韻為N或X?;景Ь植慷奖葘σ羲阉魉芄ぞ吣妫˙L栗AS凈T)BL魄AS駐T的輸購出格巨式BL娛AS僅T的輸互出包版括一吸個圖帆示,詞一個筍匹配慰列表平和一美個序毀列比假對的跑文本圓說明炮。圖姿示包那括帶擴顏色渡的橫時線,齒通過務它們黑可以創(chuàng)快速成識別捏出數欠據庫掩序列輩匹配鮮的數纖目和纏匹配闖的相況似性動得分芬。橫猾線的蠅顏色雞與匹靠配序畝列的公相似逮性一匯致(扒紅色框:最跪相關節(jié),綠蝕色和溫藍色汽:適氣度相燦關,丙黑色紫:不匹相關芬)。歡橫線及的長恐度代吵表了遮匹配交序列光相對者于查衡詢序舉列的閥跨度鋼。每際一條營橫線肚都被筋鏈接照到與僻這條陳序列碼相關虛的文頭字說姻明部營分。辯圖示企的下踏面是羞一組后按E值遞慈增的連順序敏排列父的相惑匹配積序列啟。庫每一煎個序元列都走包含倉登錄混號,糊數據鎖庫記融錄的疤題目滴(通擠常是齡一部赴分)急,bi仰t分數竭和E值?;景艟植吭副葘谒阉鞴鸸ぞ唔暎˙L自AS得T)BL酷AS丟T的輸晉出格乳式匹配澇序列蝕列表盤下面砌就是章文本尋說明廊。它飄包括柱三個鍋部分行:頭腿部,嬸統(tǒng)計黎資料絡和比騰對。裳頭部安包括員基因黎索引站號或礙者是祝數據流庫序疊列的咬參考招文獻近號和箭一行掌的數尖據庫膊序列書描述傍。在垂它下暢面是饒搜索暴輸出裙的統(tǒng)講計資閃料,謠它包委括bi掙t分數畏,E值,沉一絞致性紗比例調,相稻似性虛比例摟和空涼位。右在具妻體比頃對部女分,射查詢亡序列箏在一遮對序珠列的謀上部庸而搜勞索出賽來的裂數據膜庫序饑列在菠下部從并且緊被標茅號為Ob政je首ct。在喇兩條焰序列共之間圣,相例一致象的殘乒基被蛙寫在棕相應瘋的位該置,介而不惠一致等但是掀相似鞏的殘燙基用坐“+”標記涂。查鏟詢序瓦列中所任何椅被標攔記為優(yōu)低復蠅雜性晶區(qū)域碌的殘卡基都治被標黨記為X或N所以派比對普不包翼含這頭些區(qū)悄域。FA摟ST盡AFA猴ST肯A(FA項ST垃A猶LL,ww頭w.狹eb岔i.陣ac餅.u老k/湊fa販st翻a3剝3)實際多上是隊第一朋個數遍據庫較相似辭性搜繪索工孝具,喚它拔出現(xiàn)礎在BL誼AS燈T之前點。FA襖ST架A用哈超希策脂略來昂查找鳳長度例為k的一止小段嬌連續(xù)吧的殘洽基之信間的尖匹配聽。這腔種殘碧基組扣成的膀字符震串叫共做k元組爬,它舒和BL甲AS碗T中的愛單詞柔是同脊義的睜,但閣是通齡常比飽單詞聞短。k元組頸的典糊型長腰度是她蛋白暮質序憤列為帥兩個缸殘基瓜而DN戶A序列彈為六苦個殘絲式基。FA剪ST鮮A算法喉的第退一步易是用剝哈希秘策略塞識別伏兩條吵序列盈中的k元組船。蔑這種盛策略等是構梯造顯晴示兩并條序泛列中患每一猾個k元組尿位置響的查燭找表狀。養(yǎng)兩條效序列川中的密每一笨個共肺同k元組程的位沸置差潔是通倘過用迷第一茫條序蛋列中許的位織置減朵去第塘二條腿序列殿中的慶位置去來得螺到的父,這吹個差滋被表泄示為膝位移嘆。院具有善相同啞位移陡值的k元組乞被連窄接起夸來表先示一賭段連揉續(xù)的喚一致夾性序符列區(qū)旋域,鏟它對獵應于居二維個矩陣倍中的律一條頸連續(xù)梁的對蛇角線跡。FA果ST滴A第二向步是廟縮小予兩條牌序列翅之間裙的高饞相似部區(qū)域脖。通征常,職在哈仗希階仇段能鬼識別贏出兩灘條序剪列之做間的胳許多維對角社線。竊具有儀最密習集對媽角線磚的前士十個熊區(qū)域賭被識日別出挨來作吳為高飼相似缸區(qū)域埋。對拴這些退區(qū)域溝中的琴對角句線用趕一個躬得分社矩陣綁進行時打分饒。沿潑同一怕條對蹈角線忠的鄰之近的轉高相亮似區(qū)筒域被搞連接倍起來妖形成仍單一值序列樸比對窗。這錦個階慌段允菠許應遺用空揮位罰梅分從險而在魄不同祝的對昆角線枯之間醉引進洽空位訪。引劇進空串位之濁后的聯(lián)得分控需要烏重新速計算踢出來拼。在鄉(xiāng)豐第三杠步中盒,用Sm爪it錢h-今Wa謎te悶rm淹an算法仆對引慌進空回位的魂比對圖進一蝴步提理煉以難得到隔最終虜的比赴對。梨最后相一步他是向BL顛AS滴T算法春一樣飼用E值對輕最終輪比對裙結果鞋進行樣統(tǒng)計殖評價公。FA耗ST洗A和BL陰AS病T相似麗,F(xiàn)A仰ST擺A也有守許多旁子程毀序?;瑲W洲汗生物朽信息員學協(xié)付會提德供基析于we牲b的FA副ST藝A程序惑允許警使用亮蛋白短質或清核酸肺序列寨作為長查詢爪序列霸來搜蔬索蛋計白質揭序列營或核欠酸序益列數仙據庫則??善蘅康幕I程序糧的變助形有FA冬ST陷X,它賺先把DN愚A序列甲翻譯斷成蛋日白質歪序列先然后姻用這邀個蛋掌白質房誠序列豎查詢庸蛋白西質序穗列數女據庫鎖,還沿有TF爹AS飾TX,他變以蛋南白質功序列慰作為梯查詢糞序列襪,用鞋它去準搜索油翻譯盤成蛋其白質灣序列掙的DN凳A序列參數據桃?guī)?。FA博ST叫A統(tǒng)計中顯著腰性FA瀉ST另A也使嫩用E值和bi平t分數股。在FA顫ST葵A中估每計這牲兩個備參數娘本質下上和BL沸AS故T相同碌。不御過,F(xiàn)A浸ST公A提供民了一果個更突具有曠統(tǒng)計靠意義把的參沈量就螺是Z分數狡。紀它描岔述在例數據蹤蝶庫搜文索中返與平多均分制數的盒標準御誤差徐。因蓄為大壇多數榮的與擁查詢款序列撫的比步對都廉是不姑相關谷序列泥比對邊,飲所以隊得到尊的匹枯配序薄列的Z分數貸越高和,比喚對得血分離講得分味分布還的平侍均值攝就越假遠,辟匹瓜配就商越顯咽著。社如果Z分數渡大于15就認輸為匹因配是烤極其犬顯著叮的,片它們悔當然本就是黃同源狐關系亮。如陪果Z分數役在5到15的范葵圍內緊,序撤列對概被認悉為有優(yōu)很高出的同堪源可丑能性效。如箏果Z分數午小于5,它漠們的頓關系薪就非負常不后確定抹。FA性ST弱A與BL表AS感T的比木較BL寬AS底T和FA面ST拿A在常辦規(guī)數奴據庫泥搜索止中顯醒示了遣同樣賞好的默性能飼。下然而歸這兩祥種方犯法之裕間也謎存在掉一些則值得泡注意唯的不夸同點企。最帳主要點的不凡同是鄙在搜抽索種廳子階決段。BL秩AS思T是用尚替換畫矩陣替查找體匹配跟的單井詞,巾而FA盲ST勇A是用紫哈希竊過程識識別長顯著曲匹配凍單詞震。在宇默認靜情況涌下,F(xiàn)A旱ST魔A掃描悟更小鴿的窗霉口。摧所以外,它石給出辰比BL斧AS襪T更敏鬼感的而結果于。右在BL溜AS貌T中使選用低袍復雜勤性掩潮蔽技園術,螺使它話得到曾的結腹果比FA州ST茂A具有纏更高絨的特剖異性林,因走為它動降低兼了潛誘在的螺假陽老性。BL陶AS疼T有時暑給出臨一條衫序列薪的多繞個最朗高得辦分比忘對,河而FA料ST團A只能兔給出郵一個孩最終泄比對蕩結果海。用Sm猾it鄉(xiāng)豐h-州Wa腹te燃rm要an算法規(guī)進行勤數據嗽庫搜吩索前面宮已經幟提到塑,嚴絹格的傭動態(tài)妻規(guī)劃報算法必通常踢不能農用來險進行瞇數據先庫搜躁索,秀因為畢它計帝算速唱度慢知而且岸花費規(guī)代價心大。喉啟發(fā)遲法如BL遷AS調T和FA控ST塊A提高付了計述算速匪度。菊然輪而,誼啟發(fā)稀式方端法在挽敏感先性方容面存成在局晶限而憂且不竭保證姓能找吵到最熱佳比捕對。季它們侵經常深不能語找到荒數據困庫中趟的遠銀距離隸相關們序列壞。估身計指晝出對飼于一艇些蛋劑白質志序列巨家族腦,BL葡AS桌T會丟駕失30療%的真憂正同嘆源序留列。贏目前撓計算鄙技術否的發(fā)飛展,悶如巨畏型計奔算機亦的并賞行處括理,搞使得塞動態(tài)文規(guī)劃清算法保成為渡能滿汪足性咳能要組求的對數據周庫搜賺索算泛法。用Sm魂it偷h-鼻Wa標te萄rm襖an算法今進行子數據河庫搜快索為了艇實現(xiàn)仍這個久目的階,Ne夾ed路le秤ma桃n-莊Wu氏ns翠ch和Sm瓜it套h忘-W勝at逗er床ma飽n算法碧的機較器代械碼必排須進叔行修凍改以給使它熄們能袍在并滑行處眨理環(huán)燈境中摘運行灘從而折使搜香索過橋程能搭在合毒理的使時限矩內完率成。甩目前蛙,它掛的搜捎索速怒度仍喜然比廁流行熱的啟凳發(fā)式蚊算法至慢。企所以未,這蛛種方凈法還靜不能饅用在村日常犬工作臥中。欲不過罰,可桿以利葛用動架態(tài)規(guī)斷劃算忠法在愚序列尋的水考平上遠找到等具有泰最大朵敏感信性的醬同源呀序列葛。經您驗上殖的測較試顯們示窮腰盡式雹算法父確實混能比慨啟發(fā)寶式算甩法得陪到更濕加優(yōu)紀秀的態(tài)結果豈。下門面是氧一些起基于悄動態(tài)己規(guī)劃等算法治的用覽于數乳據庫禽搜索京的we晨b程序革。用Sm宜it港h-鈴Wa聰te并rm嘆an算法報進行范數據貧庫搜棚索Sc哨an幟PS秋(S炮ca謀n艇Pr攻ot餃ei停nSe育qu敞en廚ce慢,w罰ww影.e玻bi書.a藍c.竟uk答/s臭ca潛np遙s/)是一貓個基怠于we伶b的適鼠用于誕并行酒處理喘的Sm約it晶h-音Wa比te拔rm斥an算法歷的改偽進版梯本的抵實現(xiàn)跨程序娘。兄它的向主要嬸特點置是可倚以像PS衰I-受BL餓AS雹T那樣型進行礙反復盈的搜拒索,PS洞I-除BL豬AS膽T通過捉第一響輪計賢算結高果建零立一考個數鞏據表雨,在扔第二越輪搜粒索中指會用尖到這嘆個表炎。為狡了增榜加敏茄感性找每一刺輪都
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 五年級數學(小數四則混合運算)計算題專項練習及答案匯編
- 怎樣預防疾病繪本
- 2025年固體廢棄物處理項目建議書
- 2025年電池材料用化學品合作協(xié)議書
- 人教版PEP小學英語六年級下冊介詞和連詞期末復習知識+練習
- 金融專業(yè)碩士畢業(yè)論文
- 品牌推廣的傳媒選擇與投入
- 現(xiàn)場操作模擬講述
- 壓路機工況課件
- 工程部年終總結及明年計劃
- GB 18265-2019危險化學品經營企業(yè)安全技術基本要求
- 作業(yè)層隊伍建設重點業(yè)務課件
- DB31T 685-2019 養(yǎng)老機構設施與服務要求
- 二年級下冊美術教案-第5課 美麗的花園|嶺南版
- 人類進化史精品課件
- 魯濱遜漂流記讀后感PPT
- 總包單位向門窗單位移交門窗安裝工程工作面交接單
- 設備供貨安裝方案(通用版)
- 公開招聘社區(qū)居委專職工作人員考試筆試、面試題集及相關知識(11套試題含答案)
- 《植物生理學》課件第三章+植物的光合作用
- 中國藥膳理論與實踐-藥膳基本理論和技能
評論
0/150
提交評論