![《序列比對(duì)z》word版_第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-4/17/aa82ac67-e86a-4f32-a584-2454166747a9/aa82ac67-e86a-4f32-a584-2454166747a91.gif)
![《序列比對(duì)z》word版_第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-4/17/aa82ac67-e86a-4f32-a584-2454166747a9/aa82ac67-e86a-4f32-a584-2454166747a92.gif)
![《序列比對(duì)z》word版_第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-4/17/aa82ac67-e86a-4f32-a584-2454166747a9/aa82ac67-e86a-4f32-a584-2454166747a93.gif)
![《序列比對(duì)z》word版_第4頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-4/17/aa82ac67-e86a-4f32-a584-2454166747a9/aa82ac67-e86a-4f32-a584-2454166747a94.gif)
![《序列比對(duì)z》word版_第5頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-4/17/aa82ac67-e86a-4f32-a584-2454166747a9/aa82ac67-e86a-4f32-a584-2454166747a95.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、.序列比對(duì)z序列比對(duì)z Bioinformatics2020-10-2421:18:06閱讀0評(píng)論0字號(hào):大中小訂閱序列比對(duì)的根本思想,是找出檢測(cè)序列和目的序列的相似性。比對(duì)過(guò)程中需要在檢測(cè)序列或目的序列中引進(jìn)空位,以表示插進(jìn)或刪除。序列比對(duì)的終極實(shí)現(xiàn),必須依靠于某個(gè)數(shù)學(xué)模型。不同的模型,可以從不同角度反映序列的特性,如構(gòu)造、功能、進(jìn)化關(guān)系等。很難斷定,一個(gè)模型一定比另一個(gè)模型好,也不能說(shuō)某個(gè)比對(duì)結(jié)果一定正確或一定錯(cuò)誤,而只能說(shuō)它們從某個(gè)角度反映了序列的生物學(xué)特性。此外,模型參數(shù)的不同,也可能導(dǎo)致比對(duì)結(jié)果的不同。序列比對(duì)的數(shù)學(xué)模型大體可以分為兩類,一類從全長(zhǎng)序列出發(fā),考慮序列的整體相似性,即整
2、體比對(duì);第二類考慮序列部分區(qū)域的相似性,即部分比對(duì)。部分相似性比對(duì)的生物學(xué)根底是蛋白質(zhì)功能位點(diǎn)往往是由較短的序列片斷組成的,這些部位的序列具有相當(dāng)大的守舊性,盡管在序列的其它部位可能有插進(jìn)、刪除或突變。此時(shí),部分相似性比對(duì)往往比整體比對(duì)具有更高的靈敏度,其結(jié)果更具生物學(xué)意義。區(qū)分這兩類相似性和這兩種不同的比對(duì)方法,對(duì)于正確選擇比對(duì)方法是非常重要的。應(yīng)該指出,在實(shí)際應(yīng)用中,用整體比對(duì)方法企圖找出只有部分相似性的兩個(gè)序列之間的關(guān)系,顯然是徒勞的;而用部分比對(duì)得到的結(jié)果也不能說(shuō)明這兩個(gè)序列的三維構(gòu)造或折疊方式一定一樣。BLAST和Fasta等常用的數(shù)據(jù)庫(kù)搜索程序均采用部分相似性比對(duì)的方法,具有較快的
3、運(yùn)行速度,而基于整體相似性比對(duì)的數(shù)據(jù)庫(kù)搜索程序那么需要超級(jí)計(jì)算機(jī)或?qū)S糜?jì)算機(jī)才能實(shí)現(xiàn)。數(shù)據(jù)庫(kù)查詢,是指對(duì)序列、構(gòu)造以及各種二次數(shù)據(jù)庫(kù)中的注釋信息進(jìn)展關(guān)鍵詞匹配查找。例如,對(duì)蛋白質(zhì)序列數(shù)據(jù)庫(kù)SwissProt輸進(jìn)關(guān)鍵詞insulin胰島素,即可找出該數(shù)據(jù)庫(kù)所有胰島素或與胰島素有關(guān)的序列條目Entry。數(shù)據(jù)庫(kù)查詢有時(shí)也稱數(shù)據(jù)庫(kù)檢索,它和互聯(lián)網(wǎng)上通過(guò)搜索引擎Searchengine查找需要的信息是一個(gè)概念。數(shù)據(jù)庫(kù)搜索在分子生物信息學(xué)中有特定含義,它是指通過(guò)特定的序列相似性比對(duì)算法,找出核酸或蛋白質(zhì)序列數(shù)據(jù)庫(kù)中與檢測(cè)序列具有一定程度相似性的序列。例如,給定一個(gè)胰島素序列,通過(guò)數(shù)據(jù)庫(kù)搜索,可以在蛋白質(zhì)序
4、列數(shù)據(jù)庫(kù)SwissProt中找出與該檢測(cè)序列querysequence具有一定相似性的序列。因此,在生物信息學(xué)中,數(shù)據(jù)庫(kù)搜索是專門(mén)針對(duì)核酸和蛋白質(zhì)序列數(shù)據(jù)庫(kù)而言,其搜索的對(duì)象,不是數(shù)據(jù)庫(kù)的注釋信息,而是序列信息。多序列比對(duì)雙序列比對(duì)是序列分析的根底。然而,對(duì)于構(gòu)成基因家族的成組的序列來(lái)說(shuō),我們要建立多個(gè)序列之間的關(guān)系,這樣才能提醒整個(gè)基因家族的特征。由于可以進(jìn)步序列比對(duì)的信噪比,多序列比對(duì)在說(shuō)明一組相關(guān)序列的重要生物學(xué)形式方面起著相當(dāng)重要的作用。多序列比對(duì)有時(shí)用來(lái)區(qū)分一組序列之間的差異,但其主要用于描繪一組序列之間的相似性關(guān)系,以便對(duì)一個(gè)基因家族的特征有一個(gè)簡(jiǎn)明扼要的理解。與雙序列比對(duì)一樣,多
5、序列比對(duì)的方法建立在某個(gè)數(shù)學(xué)或生物學(xué)模型之上。因此,正如我們不能對(duì)雙序列比對(duì)的結(jié)果得出"正確或錯(cuò)誤"的簡(jiǎn)單結(jié)論一樣,多序列比對(duì)的結(jié)果也沒(méi)有盡對(duì)正確和盡對(duì)錯(cuò)誤之分,而只能以為所使用的模型在多大程度上反映了序列之間的相似性關(guān)系以及它們的生物學(xué)特征。目前,構(gòu)建多序列比對(duì)模型的方法大體可以分為兩大類。第一類是基于氨基酸殘基的相似性,如物化性質(zhì)、殘基之間的可突變性等。另一類方法那么主要利用蛋白質(zhì)分子的二級(jí)構(gòu)造和三級(jí)構(gòu)造信息,也就是說(shuō)根據(jù)序列的高級(jí)構(gòu)造特征確定比對(duì)結(jié)果。顯然,這兩種方法所得結(jié)果可能有很大差異。一般說(shuō)來(lái),很難斷定哪種方法所得結(jié)果一定正確,應(yīng)該說(shuō),它們從不同角度反映蛋白質(zhì)序
6、列中所包含的生物學(xué)信息?;谛蛄行畔⒑突跇?gòu)造信息的比對(duì)都是非常重要的比對(duì)模型,但它們都有不可防止的局限性,由于這兩種方法都不能完全反映蛋白質(zhì)分子所攜帶的全部信息。我們知道,蛋白質(zhì)序列是經(jīng)過(guò)DNA序列轉(zhuǎn)錄翻譯得到的。從信息論的角度看,它應(yīng)該與DNA分子所攜帶的信息更為"接近"。而蛋白質(zhì)構(gòu)造除了序列本身帶來(lái)的信息外,還包括經(jīng)過(guò)翻譯后加工修飾所增加的構(gòu)造信息,包括殘基的修飾,分子間的互相作用等,終極形成穩(wěn)定的自然蛋白質(zhì)構(gòu)造。因此,這也是對(duì)完全基于序列數(shù)據(jù)比對(duì)方法批評(píng)的主要原因。顯然,假設(shè)可以利用構(gòu)造數(shù)據(jù),對(duì)于序列比對(duì)無(wú)疑有很大幫助。不幸的是,與大量的序列數(shù)據(jù)相比,實(shí)驗(yàn)測(cè)得的蛋白
7、質(zhì)三維構(gòu)造數(shù)據(jù)實(shí)在少得可憐。在大多數(shù)情況下,并沒(méi)有構(gòu)造數(shù)據(jù)可以利用,我們只能依靠序列的相似性和一些生物化學(xué)特性建立一個(gè)比較滿足的多序列比對(duì)模型。多序列比對(duì)的定義為了便于描繪,我們對(duì)多序列比對(duì)過(guò)程給出下面的定義。把多序列比對(duì)看作一張二維表,表中每一行代表一個(gè)序列,每一列代表一個(gè)殘基的位置。將序列按照以下規(guī)那么填進(jìn)表中:a一個(gè)序列所有殘基的相對(duì)位置保持不變;b將不同序列間一樣或相似的殘基放進(jìn)同一列,即盡可能將序列間一樣或相似殘基上下對(duì)齊表4.1。我們稱比對(duì)前序列中殘基的位置為盡對(duì)位置。如序列的第3位的殘基是甘氨酸G,那么盡對(duì)位置3就是甘氨酸,而不能變成任何其它氨基酸。相應(yīng)地,我們稱比對(duì)后序列中殘基
8、的位置為相對(duì)位置。顯然,同一列中所有殘基的相對(duì)位置一樣,而每個(gè)殘基的盡對(duì)位置不同,由于它們來(lái)自不同的序列。需要說(shuō)明的是,盡對(duì)位置是序列本身固有的屬性,或者說(shuō)是比對(duì)前的位置,而相對(duì)位置那么是經(jīng)過(guò)比對(duì)后的位置,也就比對(duì)過(guò)程賦予它的屬性。算法復(fù)雜性多序列比對(duì)的計(jì)算量相當(dāng)可觀,因此有必要分析以下技術(shù)的復(fù)雜性。雙序列比對(duì)所需要的計(jì)算時(shí)間和內(nèi)存空間與這兩個(gè)序列的長(zhǎng)度有關(guān),或者說(shuō)正比于這兩個(gè)序列長(zhǎng)度的乘積,用Om1m2表示。其中m1、m2是指兩條序列的長(zhǎng)度。三序列比對(duì)那么可以理解為將雙序列比對(duì)的兩維空間擴(kuò)展到三維,即在原有二維平面上增加一條坐標(biāo)軸。這樣算法復(fù)雜性就變成了Om1m2m3,其中m3表示第三條序列
9、的長(zhǎng)度。隨著序列數(shù)目的增加,算法復(fù)雜性也不斷增加。我們用Om1m2m3mn表示對(duì)n個(gè)序列進(jìn)展比對(duì)時(shí)的算法復(fù)雜性,其中mn是最后一條序列的長(zhǎng)度。假設(shè)序列長(zhǎng)度相差不大,那么可簡(jiǎn)化成Omn,其中n表示序列的數(shù)目,m表示序列的長(zhǎng)度。顯然,隨著序列數(shù)目的增加,序列比對(duì)的算法復(fù)雜性按指數(shù)規(guī)律增長(zhǎng)。降低算法復(fù)雜性,是研究多序列比對(duì)的一個(gè)重要方面。為此,產(chǎn)生了不少很有實(shí)用意義的多序列比對(duì)算法。這些方法的特點(diǎn)是利用啟發(fā)式heuristics算法降低算法復(fù)雜性,以獲得一個(gè)較為滿足但并不一定是最優(yōu)的比對(duì)結(jié)果,用來(lái)找出子序列、構(gòu)建進(jìn)化樹(shù)、查找守舊序列或序列模板,以及進(jìn)展聚類clustering分析等。有的算法將動(dòng)態(tài)規(guī)
10、劃和啟發(fā)性算法結(jié)合起來(lái)。例如,對(duì)所有的序列進(jìn)展兩兩比對(duì),將所有的序列與某個(gè)特定的序列進(jìn)展比對(duì),根據(jù)某種給定的親源樹(shù)進(jìn)展分組比對(duì),等等。必須指出,上述方法求得的結(jié)果通常不是最優(yōu)解,至少需要經(jīng)過(guò)n-1次雙序列比對(duì),其中n為參與比對(duì)的序列個(gè)數(shù)。下面先容比對(duì)采用的幾種常用方法。手工比對(duì)方法手工比對(duì)方法在文獻(xiàn)中經(jīng)??吹?。由于難免加進(jìn)一些主觀因素,手工比對(duì)通常被以為有很大的隨意性。實(shí)在,即使用計(jì)算機(jī)程序進(jìn)展自動(dòng)比對(duì),所得結(jié)果中的片面性也不能予以無(wú)視。在運(yùn)行經(jīng)過(guò)測(cè)試并具有比較高的可信度的計(jì)算機(jī)程序根底上,結(jié)合實(shí)驗(yàn)結(jié)果或文獻(xiàn)資料,對(duì)多序列比對(duì)結(jié)果進(jìn)展手工修飾,應(yīng)該說(shuō)是非常必要的。多序列比對(duì)的軟件已經(jīng)有很多,其
11、中一些帶有編輯程序。最好的方法是將自動(dòng)比對(duì)程序和編輯器整合在一起。為了便于進(jìn)展交互式手工比對(duì),通常使用不同顏色表示具有不同特性的殘基,以幫助判別序列之間的相似性。顏色的選擇非常重要,假設(shè)使用不當(dāng),看起來(lái)不很直觀,就會(huì)使比對(duì)結(jié)果中一些有用的信息喪失。相反,假設(shè)選擇得當(dāng),就能從序列比對(duì)結(jié)果中迅速找到某些重要的構(gòu)造形式和功能位點(diǎn)。例如,假設(shè)用某種顏色表示一組高度守舊的殘基,那么某個(gè)序列的某一位點(diǎn)發(fā)生突變時(shí),那么由于顏色不同,就可以很快找出。顏色的選擇可以根據(jù)主觀愿看和愛(ài)好,但最好和常規(guī)方法一致。用來(lái)構(gòu)筑三維模型的按時(shí)氨基酸殘基組件和三維分子圖形軟件所用的顏色分類方法,比較輕易為大家承受。表4.2。表
12、4.2氨基酸分組方法和代表性顏色殘基種類殘基特性顏色AspD,GluE酸性紅色HisH,ArgR,LysK堿性蘭色SerS,ThrT,AsnN,GlnQ極性綠色AlaA,ValV,LeuL,IleI,MetM疏水性,帶支鏈白色PheF,TyrY,TrpW疏水性,帶苯環(huán)紫色ProP,GlyG側(cè)鏈構(gòu)造特殊棕色CysC能形成二硫鍵黃色*表中采用的分組方法和用來(lái)區(qū)分不同組別的顏色與模型構(gòu)件和三維圖形軟件中所用方法一致。多序列比對(duì)程序的另一個(gè)重要用處是定量估計(jì)序列間的關(guān)系,并由此推斷它們?cè)谶M(jìn)化中的親緣關(guān)系??梢酝ㄟ^(guò)計(jì)算完全匹配的殘基數(shù)目或計(jì)算完全匹配殘基和相似殘基的數(shù)目得到這種定量關(guān)系。這一方法除了可以
13、大概理解序列間的親緣關(guān)系外,也可用來(lái)評(píng)估比對(duì)質(zhì)量。假設(shè)序列的相似性值低于意料值,那么有可能是序列間親緣關(guān)系較遠(yuǎn),也可能是比對(duì)中有錯(cuò)誤之處?,F(xiàn)有的軟件包用的根本上是可用鼠標(biāo)點(diǎn)擊的窗口界面,其中序列編輯器位于窗口中心。這樣的軟件包將在以后章節(jié)中詳細(xì)先容。使用這些軟件我們將會(huì)看到,那些長(zhǎng)度相仿且相似性程度較高的序列,采用自動(dòng)比對(duì)方法將會(huì)得到相當(dāng)滿足的結(jié)果;而當(dāng)序列長(zhǎng)度相差較大而相似性程度較低時(shí),采用自動(dòng)方法得出的結(jié)果那么不很理想。此時(shí),手工序列編輯器就接顯得非常有用。通過(guò)手工調(diào)整,可使結(jié)果變得接近實(shí)際。此外,采用多種不同的方法進(jìn)展分析,再將結(jié)果綜合,是一種行之有效的方法。為更好地理解多序列比對(duì)的原理
14、和規(guī)那么,應(yīng)該盡可能學(xué)會(huì)手工比對(duì)的方法,并把比對(duì)結(jié)果與計(jì)算機(jī)自動(dòng)比對(duì)得到的結(jié)果加以比較。同步法同步法本質(zhì)是把給定的所有序列同時(shí)進(jìn)展比對(duì),而不是兩兩比對(duì)或分組進(jìn)展比對(duì)。其根本思想是將一個(gè)二維的動(dòng)態(tài)規(guī)劃矩陣擴(kuò)展到三維或多維。矩陣的維數(shù)反映了參與比對(duì)的序列數(shù)。這類方法對(duì)于計(jì)算機(jī)的系統(tǒng)資源要求較高,通常是進(jìn)展少量的較短的序列的比對(duì)。步進(jìn)法這類方法中最常用的就是Clustal,它是由Feng和Doolittle于1987年提出的Feng和Doolittle,1987。由于對(duì)于實(shí)際的數(shù)據(jù)利用多維的動(dòng)態(tài)規(guī)劃矩陣來(lái)進(jìn)展序列的比對(duì)不太現(xiàn)實(shí),因此大多數(shù)實(shí)用的多序列比對(duì)程序采用啟發(fā)式算法,以降低運(yùn)算復(fù)雜度。Clus
15、tal的根本思想是基于相似序列通常具有進(jìn)化相關(guān)性這一假設(shè)。比對(duì)過(guò)程中,先對(duì)所有的序列進(jìn)展兩兩比對(duì)并計(jì)算它們的相似性分?jǐn)?shù)值,然后根據(jù)相似性分?jǐn)?shù)值將它們分成假設(shè)干組,并在每組之間進(jìn)展比對(duì),計(jì)算相似性分?jǐn)?shù)值。根據(jù)相似性分?jǐn)?shù)值繼續(xù)分組比對(duì),直到得到終極比對(duì)結(jié)果。比對(duì)過(guò)程中,相似性程度較高的序列先進(jìn)展比對(duì),而間隔較遠(yuǎn)的序列添加在后面。作為程序的一部分,Clusal可以輸出用于構(gòu)建進(jìn)化樹(shù)的數(shù)據(jù)。Clustal程序有很多版本,ClustalWThompson等,1994,根據(jù)對(duì)親緣關(guān)系較近的序列間空位情況,確定如何在親緣關(guān)系較遠(yuǎn)的序列之間插進(jìn)空位。同樣,相似性較高的序列比對(duì)結(jié)果中的殘基突變信息,可用于改變某
16、個(gè)特殊位置空位罰分值的大小,推測(cè)該位點(diǎn)的序列變異性。Clustal是免費(fèi)軟件,很輕易從互聯(lián)網(wǎng)上下載,和其它軟件一起,廣泛用于序列分析。Clustal所支持的數(shù)據(jù)格式包括EMBL/SWISSPROT、NBRF/PIR、Pearson/FastA、GCG/MSF,以及Clustal本身定義的格式。它的輸出格式可以是Clustal格式,也可以是可用于GDE、Phylip、GCG等軟件的格式。多序列比對(duì)的數(shù)據(jù)庫(kù)多序列比對(duì)的意義在于它可以把不同種屬的相關(guān)序列的比對(duì)結(jié)果按照特定的格式輸出,并且在一定程度上反映它們之間的相似性。多序列比對(duì)結(jié)果所提供的信息對(duì)于進(jìn)步數(shù)據(jù)庫(kù)搜索靈敏度也具有很大幫助。因此,方便實(shí)用
17、的多序列比對(duì)數(shù)據(jù)庫(kù)也就應(yīng)運(yùn)而生。目前,互聯(lián)網(wǎng)上可用的多序列比對(duì)數(shù)據(jù)庫(kù)已經(jīng)不少。其中一些利用計(jì)算機(jī)程序?qū)⒁淮螖?shù)據(jù)庫(kù)按家族分類;另外一些那么是通過(guò)手工或自動(dòng)方法根據(jù)基因家族構(gòu)建二次數(shù)據(jù)庫(kù)。如今我們可以通過(guò)一些例子看看這些數(shù)據(jù)庫(kù)序列比對(duì)的情況,比方說(shuō),Pfam是將一次庫(kù)通過(guò)自動(dòng)比對(duì)來(lái)構(gòu)建的數(shù)據(jù)庫(kù),它將大量具有構(gòu)造相似性的序列回為一類,比方各種不同種類動(dòng)物的轉(zhuǎn)鐵蛋白的基因序列具有一定的相似性,Pfam將這些序列回為一類命名為T(mén)RANSFERRIN,我們可以在Pfam查找TRANSFERRIN來(lái)得到原始序列比對(duì)信息,開(kāi)頭是一些注釋信息,然后給出了比對(duì)序列的名字,再下是比對(duì)結(jié)果,以"/"
18、;開(kāi)場(chǎng),并以"/"完畢。對(duì)于一個(gè)未知的蛋白質(zhì)序列在該序列庫(kù)中查詢,該序列庫(kù)會(huì)給出匹配的類及得分供你參考。我們也可以看看PRINTS數(shù)據(jù)庫(kù)關(guān)于TRANSFERRIN的比對(duì)信息,PRINTS數(shù)據(jù)庫(kù)在自動(dòng)比對(duì)的根底上進(jìn)展了手工編輯,查尋PRINTS數(shù)據(jù)庫(kù)中關(guān)于TRANSFERRIN這一類的比對(duì)信息,結(jié)果可以用模體motif形式顯示也可以用點(diǎn)擊鏈接調(diào)用JAVAAPPLET進(jìn)展圖形顯示,以以下圖是關(guān)于TRANSFERRIN序列比對(duì)的部分圖形,可見(jiàn)PRINTS數(shù)據(jù)庫(kù)中TRANSFERRIN一類由更多的序列比對(duì)形成。一般來(lái)說(shuō),對(duì)于具有較高相似性的一組序列之間的比對(duì),自動(dòng)比對(duì)方法是很有效的
19、。一旦序列的親緣關(guān)系變得較遠(yuǎn),所得結(jié)果就不那么可信。假設(shè)要得到比較可靠而又具有明確生物學(xué)意義的比對(duì)結(jié)果,比較有效的方法是比照對(duì)結(jié)果進(jìn)展手工編輯和調(diào)整。這對(duì)于構(gòu)建二次數(shù)據(jù)庫(kù)是非常重要的信息。在選擇現(xiàn)有的序列形式或序列模體公然的數(shù)據(jù)庫(kù)構(gòu)建自己的數(shù)據(jù)庫(kù)系統(tǒng)時(shí),對(duì)這些現(xiàn)有數(shù)據(jù)庫(kù)的可靠性必須采取慎重的態(tài)度。二級(jí)數(shù)據(jù)庫(kù)搜索本章將在一次數(shù)據(jù)庫(kù)的搜索根底之上講述二次數(shù)據(jù)庫(kù)的搜索和結(jié)果分析。這些方法是構(gòu)建二次數(shù)據(jù)庫(kù)的理論根底和技術(shù)手段。前面,我們?cè)?jīng)對(duì)二次數(shù)據(jù)庫(kù)作了一般先容,側(cè)重其內(nèi)容和格式。本章將進(jìn)一步先容蛋白質(zhì)序列二次數(shù)據(jù)庫(kù)的主要信息類型,包括序列正那么表達(dá)式regularexpression、序列譜pro
20、files、序列指紋圖譜prints、序列模塊blocks和用隱馬爾可夫模型HiddenMarkovModel分析蛋白質(zhì)序列的方法。通過(guò)閱讀本章,??醋x者對(duì)各種蛋白質(zhì)二次數(shù)據(jù)庫(kù)的特點(diǎn)和構(gòu)建二次數(shù)據(jù)庫(kù)的方法有所理解,并用于識(shí)別蛋白質(zhì)家族和親緣關(guān)系,對(duì)序列比對(duì)和數(shù)據(jù)庫(kù)搜索結(jié)果作出客觀、正確的解釋。另外需要說(shuō)明的是,本章所討論的均為蛋白質(zhì)序列。二次數(shù)據(jù)庫(kù)搜索的意義眾所周知,一次數(shù)據(jù)庫(kù)的容量正以驚人的速率增長(zhǎng)。從浩如煙海的一次數(shù)據(jù)庫(kù)中找到未知序列和序列的相似關(guān)系,從而推斷未知序列的性質(zhì)和特征,是對(duì)生物信息學(xué)研究的挑戰(zhàn)。一次數(shù)據(jù)庫(kù)搜索可以有效確實(shí)定序列之間的相似性,但是對(duì)搜索結(jié)果的分析往往相當(dāng)困難,很難
21、解決更加深進(jìn)的題目,很難搞清搜索結(jié)果所代表的生物學(xué)意義。造成這種情況的原因很多。例如,1998年GenBank中存儲(chǔ)了超過(guò)一百萬(wàn)條序列,這些序列來(lái)自18,000種不同的生物,搜索結(jié)果必然異常復(fù)雜而且包含大量冗余信息。假設(shè)不使用一定的屏蔽手段,BLAST搜索結(jié)果會(huì)充滿大量重復(fù)序列的匹配。一些短的重復(fù)序列片斷和測(cè)序過(guò)程中常用的載體序列會(huì)給搜索結(jié)果的分析產(chǎn)生干擾。此外,對(duì)于多構(gòu)造域的蛋白質(zhì),搜索結(jié)果很難說(shuō)明是在單個(gè)構(gòu)造域上的匹配還是在多個(gè)構(gòu)造域上的匹配,或者是全局程度上的匹配。而且,BLAST搜索結(jié)果只注明目的序列的匹配部分,并不能提供該序列的全部信息,有時(shí)甚至得出模棱兩可的結(jié)果,對(duì)用戶產(chǎn)生誤導(dǎo)。由于一次數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 現(xiàn)代金融市場(chǎng)的信息披露與投資者保護(hù)研究
- 現(xiàn)代辦公用品展會(huì)的創(chuàng)新之處
- 現(xiàn)代物理學(xué)在辦公環(huán)境中的創(chuàng)新應(yīng)用
- 1《學(xué)會(huì)尊重》第一課時(shí)說(shuō)課稿-2023-2024學(xué)年道德與法治六年級(jí)下冊(cè)統(tǒng)編版
- 環(huán)保意識(shí)在商業(yè)街區(qū)園林景觀設(shè)計(jì)中的體現(xiàn)
- 現(xiàn)代物流產(chǎn)業(yè)與綠色可持續(xù)發(fā)展
- 游戲行業(yè)的互動(dòng)式網(wǎng)絡(luò)廣告設(shè)計(jì)探討
- 2023二年級(jí)數(shù)學(xué)下冊(cè) 二 時(shí)、分、秒第3課時(shí) 認(rèn)識(shí)秒說(shuō)課稿 蘇教版
- 現(xiàn)代小區(qū)火災(zāi)風(fēng)險(xiǎn)評(píng)估與應(yīng)急救援隊(duì)伍建設(shè)策略
- 物聯(lián)網(wǎng)背景下的大數(shù)據(jù)管理與安全保障
- 五級(jí)人工智能訓(xùn)練師(初級(jí))職業(yè)技能等級(jí)認(rèn)定考試題庫(kù)(含答案)
- 2022年內(nèi)蒙古呼和浩特市中考化學(xué)真題(解析版)
- 血栓性微血管病的診治
- 綜合客運(yùn)樞紐換乘區(qū)域設(shè)施設(shè)備配置要求JTT1066-2016
- 中國(guó)急性缺血性卒中診治指南(2023)解讀
- 2024PowerTitan系列運(yùn)維指導(dǎo)儲(chǔ)能系統(tǒng)運(yùn)維指導(dǎo)
- 沸石轉(zhuǎn)輪知識(shí)講解
- 固定資產(chǎn)盤(pán)點(diǎn)報(bào)告醫(yī)院版
- 中國(guó)內(nèi)部審計(jì)準(zhǔn)則及指南
- 2024年ISTQB認(rèn)證筆試歷年真題薈萃含答案
- tpu顆粒生產(chǎn)工藝
評(píng)論
0/150
提交評(píng)論