第六章-基因組測序及分析_第1頁
第六章-基因組測序及分析_第2頁
第六章-基因組測序及分析_第3頁
第六章-基因組測序及分析_第4頁
第六章-基因組測序及分析_第5頁
已閱讀5頁,還剩156頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第六章基因組測序及分析第一節(jié)DNA測序與序列片段的拼接第二節(jié)基因組注釋:基因區(qū)域的預測第三節(jié)基因組分析第四節(jié)基因組分析舉例:水稻基因組分析人類基因組和其它一些生物基因組的大規(guī)模測序?qū)⒊蔀榭茖W史上的一個里程碑?;蚪M測序帶動了一大批相關(guān)學科和技術(shù)的發(fā)展,一批新興學科脫穎而出,生物信息學、基因組學、蛋白質(zhì)組學等便是一批最前沿的新興學科??梢哉f,基因組測序及其序列分析使整個生命科學界的真正認識了生物信息學,生物信息學也真正成為了一門受到廣泛重視的獨立學科?;蚪M測序及其分析實際是人類的又一場“淘金”和“探險”運動。哥倫布等一大批探險家在幾百年前發(fā)現(xiàn)了美洲、澳洲等一大批新大陸,最終使人類認識了地球上的每一塊處女地。于是有人形象地把人類目前的基因組研究形象地比喻為“地球探險”,并把基因組研究稱為基因組地理(genomicgeography)。我們不妨想象一下,人類基因組的各條染色體就如同人類基因“地球”上的7大洲,尋找新基因和搞清楚基因組結(jié)構(gòu)與功能的過程恰如開墾地球上的每一塊處女地,而這些處女地上可能蘊藏著無窮的寶藏。目前人類全基因組序列已基本測定完成,另有一大批生物也已完成基因組測定或正在進行。世界上無數(shù)大型測序儀(最好的測序儀一次可以閱讀1000多個堿基)日夜不停地運轉(zhuǎn),每日獲得的序列數(shù)據(jù)以百萬和千萬計。同時,來自政府和企業(yè)的大量投資,使整個世界的測序能力與日俱增。面對基因組的天文數(shù)據(jù),分析方法舉足輕重,大量新的分析方法被提出和改進,大量重要基因被發(fā)現(xiàn);大量來自基因組水平上的分析比較結(jié)果被公布,這些結(jié)果正在改變?nèi)祟愐延械囊恍┯^念。第一節(jié)DNA測序與序列片段的拼接一、DNA測序的一般方法二、DNA片段測序策略三、基因組測序策略四、序列片段的拼接方法一、DNA測序的一般方法1、DNA測序的基本原理2、雙脫氧測序法(Sanger法)3、化學測序法(Maxam-Gilbert法)4、熒光自動測序儀1、DNA測序的基本原理DNA序列測定的工作基礎(chǔ)是在變性聚丙烯酰胺凝膠(測序膠)上進行的高分離度的電泳過程。這些所謂的測序膠能在長達500bp的單鏈寡核苷酸中分辨出一個脫氧核苷酸的差異。操作時,在相應的待測DNA區(qū)段產(chǎn)生一套標記的寡核苷酸單鏈,它們有固定的起點,但另一端是按模板序列連續(xù)終止于各不相同的核苷酸。確定每個脫氧核糖核苷酸的序列的關(guān)鍵,是在4個獨立的酶學或化學反應中產(chǎn)生終止于所有不同的A、T、G、C位點的寡核苷酸鏈,而這4個反應的寡核苷酸產(chǎn)物在測序膠的相鄰泳道中都能被一一分辨出來。由于在4個泳道中再現(xiàn)了所有的可能寡核苷酸鏈,DNA的序列能從圖4.1所示的4個寡核苷酸“階梯”中依次直接讀出。圖4.1DNA測序的一般策略。進行DNA序列測定時,在4個獨立的反應中,各產(chǎn)生一套放射性標記的單鏈寡核苷酸,它們有固定的起點,另一端終止于不同的A、T、G或C位點。每個反應的產(chǎn)物在高分離度的聚丙烯酰胺凝膠上電泳分級。經(jīng)放射自顯影,DNA序列可從凝膠上直接讀出(奧斯伯等,1998)。實際上,從一套測序反應中所能獲得的信息量受限于測序膠的分離度。雖然最新的測序技術(shù)經(jīng)??蓮囊惶诇y序反應中測到高達500核苷酸的信息,但獲得的可靠序列信息大約在300個核苷酸。因此,如果待測DNA的區(qū)段在300核苷酸以內(nèi),所需的工作只是簡單地將此片段克隆于合適的載體,以產(chǎn)生一個能方便地進行測序的重組DNA分子。對于大片段DNA的序列測定,往往需要將其切割成能單獨進行測定的小片段,這可通過隨機的或有序的方式進行。下一節(jié)將討論測定大片段DNA的策略。目前廣泛應用于DNA序列測定的方法有酶學的雙脫氧法和化學裂解法,在產(chǎn)生寡核苷酸“階梯”的技術(shù)上,兩者截然不同。酶學雙脫氧法是利用DNA聚合酶合成與模板互補的標記拷貝,化學裂解法是一套堿基專一的化學試劑作用于標記好的DNA鏈。這兩種方法下面將進一步描述。2、雙脫氧測序法(Sanger法)雙脫氧法或酶法利用DNA聚合酶合成單鏈DNA模板的互補拷貝,這一方法最先(1977)由F.Sanger及其合作者提出。DNA聚合酶不能起始DNA鏈的合成,而能在退火于“模板”DNA的引物3‘端上進行鏈的延伸(如圖4.2)。通過與模板堿基的特異性配對,脫氧核糖核苷酸(dNTP)被摻入到引物的生長鏈上。鏈的延伸是通過引物生長端的3‘羥基與被摻入脫氧核糖核苷酸的5‘磷酸基的反應形成磷酸二酯鍵,在總體上看,鏈是從5‘→3‘方向延伸的。雙脫氧測序法利用了DNA聚合酶能從雙脫氧核糖核苷酸(ddNTP)為底物的特性。當ddNTP被摻入到延伸著的引物的3‘端時,由于鏈上3‘羥基的缺如,鏈的延伸就終止于G、A、T或C。在4個測序反應中,每個反應只需各加入4種可能的ddNTP中的一種,就將產(chǎn)生如圖4.1所示的4個序列階梯。調(diào)整每個測反應中的ddNTP與dNTP的比例,使引物的延伸在對應于模板DNA上的每個可能摻入ddNTP的位置都有可能發(fā)生終止。以這種測序方式,每個延伸反應的產(chǎn)物是一系列長短不一的引物延伸鏈,它們都具有由退火引物決定的固定的5‘端以及終止于某一ddNTP的不定的3‘端。圖4.2中介紹了兩種雙脫氧測序的工作方案。最早期的雙脫氧法,本章稱之為Sanger法,是利用大腸桿菌DNA聚合酶I大片段(或稱Klenow片段,Klenow酶)發(fā)展起來的?!皹擞洠K止法”則利用了一種修飾的T7DNA聚合酶,在兩個獨立的反應中分別進行引物的標記和雙脫氧核苷酸的摻入終止。引物與模板退火后,標記反應發(fā)生在4種低濃度dNTP(其中1種是放射性標記)中,DNA的合成持續(xù)到一種或多種dNTP被耗竭為止,這樣可保證摻入全部的標記的脫氧核糖核苷酸。鏈終止反應在4個獨立的反應中進行,每個反應除了含有4種dNTP外,還各含4種ddNTP中的一種,而高濃度的dNTP保證DNA逐次合成至生長鏈因ddNTP的摻入而終止。圖4.2雙脫氧測序法。在圖示的每種方法中,單鏈DNA片段與引物退火后進行聚合反應(步驟1),在Sanger法中(右圖),加入Klenow酶和放射標記的dATP(步驟2),然后,分成4份進行反應(步驟3),分別加入其余的3種dNTP和加入ddATP、ddTTP、ddGTP和ddCTP其中的一種(步驟4)。DNA合的成進行至攝入ddNTP后被終止。追加dNTP(步驟5)使未被終止的鏈再延伸以產(chǎn)生更高分子量的DNA?!皹擞洠K止法”(左圖)說明略。在每種方法中,反應終止后,樣品加樣于測序膠的相鄰泳道上,進行電泳分離(奧斯伯等,1998)。Sanger法測序產(chǎn)物的平均鏈長取決于ddNTP:dNTP的比例,比例高時,得到較短的產(chǎn)物;“標記/終止法”測序產(chǎn)物的平均長度可通過標記反應中dNTP濃度(高濃度能得到長的產(chǎn)物)或終止反應的ddNTP:dNTP來調(diào)整。有多種商品化的用于序列測定的DNA聚合酶。熱穩(wěn)定的DNA聚合酶是用于測序的最新的一類酶,可在高的溫度進行測序反應。此時DNA模板的二級結(jié)構(gòu)不穩(wěn)定,因而排除了它們對延伸反應的干擾。3、化學測序法(Maxam-Gilbert法)在A.Maxam和W.Gilbert(1977)發(fā)展的DNA化學測序法中,與堿基發(fā)生專一性反應的化學試劑在一種或兩種特定核苷酸位置上隨機斷裂已純化的3‘端或5‘端標記DNA鏈,產(chǎn)生4套寡聚脫氧核糖核苷酸。在隨后的測序膠放射自顯影中,僅末端標記的片段顯跡,故可得到如圖4.3所示的4種DNA階梯。肼、硫酸二甲酯(DMS)或甲酸可以專一性地修飾DNA分子中的堿基,這構(gòu)成了化學測序法的基礎(chǔ),加入吡啶可催化DNA鏈在這些被修飾核苷酸處斷裂?;瘜W法的特異性基于第1步反應中肼、硫酸二甲酯,或甲酸僅與DNA鏈上小部分特定堿基的作用,而第2步的哌啶斷裂必須定量反應。第1步反應的化學機制如下:G反應:DMS使鳥嘌呤的7位氮原子甲基化,其后斷開第8位碳原子和第9位氮原子間的化學鍵,哌啶置換了被修飾鳥嘌呤與核糖的結(jié)合。G+A反應:甲酸使嘌呤環(huán)上的氮原子質(zhì)子化,削弱了腺嘌呤脫氧核糖核苷酸和鳥嘌呤脫氧核糖核苷酸中的糖苷鍵,然后哌啶置換了嘌呤。T+C反應:肼斷開了嘧啶環(huán),產(chǎn)生的堿基片段能被哌啶所置換。C反應:在NaCl存在時,只有C才能與肼發(fā)生反應,隨后被修飾的胞嘧啶被哌啶置換。圖4.3化學測序的策略。圖中表示四個化學裂解反應產(chǎn)物經(jīng)凝膠電泳分離后的寡核苷酸階梯?!?”表示DNA片段上32P標記的位置。本例是在片段的5‘端。凝膠右側(cè)的片段3‘端加陰影的堿基表示經(jīng)化學修飾后,在哌啶介導的鏈間切割中從核苷酸鏈上被取代的堿基(奧斯伯等,1998)。4、熒光自動測序儀自動化測序儀使凝膠電泳、DNA條帶檢測和分析過程全部自動化。目前,所有的商品化DAN自動化測序儀的設計都是以酶法(即Sanger法)測序反應產(chǎn)生熒光標記或放射性標記的測序產(chǎn)物為基礎(chǔ),它們都具有數(shù)據(jù)收集的能力,并含有進一步分析處理的程序。熒光標記物通過引物或ddNTP摻入到測序產(chǎn)物中。4種堿基產(chǎn)生4種顏色的熒光反應,所以以單泳道或毛細管電泳就可以分辨出相應的寡核苷酸產(chǎn)物。圖4.4全自動測序儀基本操作原理下面結(jié)合兩種型號的DNA自動測序儀介紹自動測序原理。ALF全自動激光熒光DNA測序系統(tǒng)(automatedlaserfluorescentDNAsequencer)是由德國海德堡(Heidelberg)歐洲分子生物學試驗室(EMBL)W.Ansorge和B.Sproat提出和設計的。與同位素測序系統(tǒng)相比,ALF不但在儀器硬件設計上,而且在驅(qū)控儀器的軟件功能上都作了很大改進。操作中能直接分析原始數(shù)據(jù),也可以及時處理收集過程中獲取的數(shù)據(jù)。最近推出的ALFexpressTM全自動激光熒光核酸測序儀,則是利用電泳原理把熒光標記的DNA片段通過測序膠電泳分離。該儀器本身設計獨特,提供快速可靠的核酸測序、片段分析、HLA序列定型及突變檢測等。在人類基因組大規(guī)模序列測定中,該設備起到了重要的初篩作用。ALFexpressTM系統(tǒng)采用非放射性的單一Gy5熒光素標記引物或dNTPs進行核酸測序和片段分析,沿用Sanger雙脫氧核酸末端終止測序法,使用Cy5熒光標記的引物與模板進行退火。測試時,把A、C、G、T四種反應物分別加到凝膠板上的樣品槽內(nèi),上樣程序與手工測序相同。另外,在儀器電泳單元的下方是由激光槍(lasersource)和探測器排列組成的探測系統(tǒng):每個樣品道后面都有一個探測器,激光能透過凝膠的每一條泳道,當DNA條帶遷移到探測區(qū)域并遇上激光時,DNA上的熒光標記立刻被激活,放出光信號;此熒光信號由泳道前的光探測器接收,并將信息輸送給電腦進行分析和保存(圖4.4)。電泳結(jié)束后,電腦將收集到的信號(原始數(shù)據(jù))進行處理,從而獲得最終序列。早在1987年P(guān)erkin

Elmer(PE)Applied

Biosystems公司就推出DNA自動測序儀,其專利是分別采用4種熒光染料進行標記且在同一個泳道測序,具有極大的優(yōu)越性。377型全自動DNA測序儀是PE公司近年推出的新型測序儀,它采用專利的四種熒光染料標記,并采用激光檢測方法,具有測序精確度高、每個樣品判讀序列長(700bp)、一次電泳可測定樣品數(shù)量多(64個)、不需要同位素測序,方法靈活多樣等特點,在人類基因組測序和cDNA文庫測序研究中應用極其廣泛。此外,該儀器在各種應用軟件的輔助下還可以進行DNA片段大小分析和定量分析,應用于基因突變分析SSCP、DNA指紋圖譜分析、基因連鎖圖譜表達水平的研究,有著極其廣泛的應用前景。其原理是采用四種熒光染料標記終止物ddNTP或引物,經(jīng)Sanger測序反應后,產(chǎn)物3′端(標記終止物ddNTP法)或5′端(標記引物法)帶有不同熒光標記,一個樣品的4個測序可以在一個泳道內(nèi)電泳,從而降低了測序泳道間遷移率差異對精確性的影響。由于增加了一個電泳樣品的數(shù)目,可一次測定64個或更多樣品。經(jīng)電泳后各個熒光譜帶分開,同時激光檢測器同步掃描,激發(fā)出的熒光經(jīng)光柵分光后打到CCD攝像機上同步成像。也就是代表不同堿基信息的不同顏色熒光經(jīng)光柵分光,經(jīng)CCD成像,因而一次掃描可檢測出多種熒光,傳入電腦。其測序速度高達200bp/h,比373型DNA測序儀速度大大提高。最后經(jīng)過軟件分析后輸出結(jié)果。自動化測序儀的發(fā)明促進了人類基因組的大規(guī)模測序行動。自動化測序效率高,而且測序的質(zhì)量也比手工操作好。由于DNA多聚酶和熒光底物的不斷更新,在很長一段時間內(nèi),熒光自動化測序?qū)幱谥鲗У匚弧6?、DNA片段測序策略1、鳥槍測序法(shotgunsequencing)2、引物步查法(primerwalking)3、限制性酶切-亞克隆法(restrictionendonucleasedigestionandsubcloning)1、鳥槍測序法(shotgunsequencing)大分子DNA被隨機地“敲碎”成許多小片段,收集這些隨機小片段并將它們?nèi)窟B接到合適的測序載體;小片段測序完成后,根據(jù)重疊區(qū)計算機將小片段整合出大分子DNA序列。這就是所謂的鳥槍測序法(見圖4.6)。鳥槍測序法可以迅速獲得90%左右的片段序列結(jié)果,但隨后測序效率明顯下降,這是因為隨后測定的隨機片段越來越多地是重復已測序完成的片段。因此,一般通過合成特定的寡核苷酸引物來測定剩余少量未知片段。有三種方法可用來將DNA大片段切割成小片段:限制性內(nèi)切酶、超聲波處理和DNA酶I降解(加Mn2+)。在這三種方法處理前,DNA的純化非常重要,要去除載體DNA或僅由載體DNA產(chǎn)生的片段。鳥槍測序法的優(yōu)點是成本低、快速、易于自動化操作,它的缺點是在測序后期,大量重復測序使測序效率變低。1995年第一個細胞有機體——流感嗜血(Haemophilus

influenzae)全基因組序列被完成,這是完全用鳥槍法策略直接完成的,說明鳥槍法用于微生物基因組測序是有效的。研究者直接將全基因組DNA打成1.6~2.0kb大小的片段分別克隆,共使用了19687個模板,進行了28443個測序反應,組建了140個片段重疊群,測序用時3~4個月,耗費100萬美金左右。2、引物步查法(primerwalking)引物步查法是一種漸進式測序策略,也是最簡單的一種測序策略。該方法適合于雙脫氧測序,并繞開了亞克隆小片段DNA的要求。最初的序列數(shù)據(jù)是通過利用載體上的引物獲得的,一旦新的序列被確認,與新獲得序列的3‘端雜交的寡核苷酸就能合成,并能以之為引物進行下一輪的雙脫氧測序反應。這樣,從兩頭向中間,序列被一步步測序(見圖4.7)引物步查法相對較慢,因為序列僅從兩頭測得。每一步均需要一個測序反應(凝膠電泳)、數(shù)據(jù)分析、新引物設計和合成。這些過程將至少需要幾天時間,如果引物供應不暢,可能時間還要更長。該方法適合于短cDNA片段,不適合于長cDNA片段,同時不宜自動化處理,因為每一反應需要一個不同的引物,這些引物將依據(jù)上一次反應結(jié)果而定。引物步查法成本相對較高,每一步都需要合成一個新引物,這制約了該技術(shù)的廣泛應用。但是,最近寡核苷酸合成的成本已顯著下降,所以成本問題有望解決。該技術(shù)的優(yōu)點在于它的簡單,不需要亞克隆或其它一些操作,實際操作時間不多,在其測序過程中,分析者有大量時間可以干其它一些事情。引物步查法將合成一套覆蓋整條序列的測序引物,如果序列需要重復測序,如測定序列突變等位位點,這套引物則成為很有用的資源。3、限制性酶切-亞克隆法(restrictionendonucleasedigestionandsubcloning)原理上講,序列的信息可以從其已知的限制性內(nèi)切酶位點中獲得。用限制性內(nèi)切酶酶切并亞克隆一個適當大小的片段,使酶切位點附近的未知片段與載體已知序列相鄰,這樣就可以用載體的引物去測定未知序列;可以很方便地利用2個或更多位點切除一個未知克隆片段并用DNA聚合酶再將酶切下來的克隆產(chǎn)物再接合上去。由于所選用的內(nèi)切酶不可能產(chǎn)生粘性末端,所以正常情況下,有必要用Klenow或T4DNA聚合酶把它們轉(zhuǎn)變?yōu)槠蕉恕T摲椒ㄊ疽鈭D見圖4.8.該方法的關(guān)鍵一步是需要一張準確的限制性內(nèi)切酶譜,而且這些酶切位點間最好都相隔幾百個堿基。對于一個熟練的研究者來說,制作一張酶切圖并不難,但是酶切位點的分布則是一個隨機問題,所以,不可能位點距離總是符合該方法的測序。利用該方法可以得到整條片段的大部分序列。由于該方法是基于酶切圖,所以對于尚有哪些缺口(gap),缺口有多大都很清楚,這有助于進一步的分析。該方法難以自動化分析,因為它依賴于一套特定的亞克隆過程,而這些過程在每次的測序計劃均是不同的??赡茏畛S玫姆椒ㄊ怯梦粗沃械纳倭棵盖形稽c,每個位點作為未知片段的一個新起點,然后用引物步查法在每個方向進行測序。這種混合方法較單用引物步查法可以顯著減少整個片段的測序時間。三、基因組測序策略1、逐步克?。╟lonebyclone):從遺傳圖譜、物理圖譜到基因組圖譜2、全基因組鳥槍法(whole-genomeshortgun)1、逐步克?。╟lonebyclone):從遺傳圖譜、物理圖譜到基因組圖譜基因組測序涉及DNA的大規(guī)模測序,它是一項如同“曼哈頓登月計劃”一樣的龐大工程,是人類在現(xiàn)有技術(shù)水平的重重障礙中科學技術(shù)的又一次進步。根據(jù)現(xiàn)有的技術(shù)水平,人類還無法對基因組這樣的復雜DNA大分子直接進行測序,而只能采取分而治之的測序基本策略,即將基因組DNA分割成一定大小的片段,然后分別對這些片段進行測序。這樣便產(chǎn)生了這樣一個問題:如何將這些片段準確地拼接起來?目前的測序方法(上節(jié))每次反應只能測定500bp左右長度的DNA片段,而一般一條染色體的長度對于400-500bp長度如同天文數(shù)字。所以,要進行諸如人類基因組測序,則必須在2個方面取得突破:一是將基因組DNA大分子分割并構(gòu)建適合于測序的DNA片段庫,而且?guī)熘械钠我采w整條序列;二是在整條線性序列上建立一定數(shù)量的“路標”,使切割下來的DAN片段能準確拼裝回去。遺傳圖譜和物理圖譜便是這樣的“路標”圖。人類遺傳和物理圖譜于1998年的建成使最終人類基因組測序成為可能?;蚪M上的DNA相當穩(wěn)定,因此可以構(gòu)建含有這些DNA片段的新生物體??寺〖夹g(shù)是把基因組上的片段插入不同生物載體,并轉(zhuǎn)染到一些生物體中使其生存和穩(wěn)定復制,由此可以分析由小片段DNA組成的基因組拷貝(克隆群)。目前選用插入的載體包括酵母、細菌、粘粒、噬菌體等。遺傳圖譜(geneticmap)又稱連鎖圖譜(linkagemap)或遺傳連鎖圖譜(geneticlinkagemap),是指基因組內(nèi)基因和專一的多態(tài)性DNA標記(marker)相對位置的圖譜,其研究經(jīng)歷了從經(jīng)典的基因連鎖圖譜到現(xiàn)代的DNA標記連鎖圖譜的過程。構(gòu)建遺傳圖譜的基本原理是真核生物遺傳過程中會發(fā)生堿數(shù)分裂,此過程中染色體要進行重組和交換,這種重組和交換的概率會隨著染色體上任意兩點間相對距離的遠近而發(fā)生相應的變化。根據(jù)概率大小,人們就可以推斷出同一條染色體上兩點間的相對距離和位置關(guān)系。正因為如此,我們得到的這張圖譜也就只能顯示標記之間的相對距離。我們稱這一距離(概率)為遺傳距離(cM),由此構(gòu)建的圖譜也稱為遺傳圖譜。遺傳圖譜的“路標”(遺傳標記)已經(jīng)歷了幾次從“粗”到“細”的大的演變,或者說,從第1代標記向第2代、第3代標記的過渡。經(jīng)典的遺傳標記(第1代標記)最初主要是利用蛋白質(zhì)或免疫學等的標記,70年代中后期建立起來的限制性片段長度多態(tài)性(RFLP)方法成為第1代的DNA標記,這類標記在整個基因組中確定的位點數(shù)目可達105以上。第2代標記為可變數(shù)量串聯(lián)重復序列(Variablenumbertandemrepeat,VNTR),包括微、小衛(wèi)星(microsatellite/minisatellite)或短串聯(lián)重復(shorttandemrepeat,STR或shortsequentlengthpolymorphysm,SSLP)標記等。第3代標記是一類稱作SNP(single

nuleotide

polymorphysm)的遺傳標記系統(tǒng),即單核苷酸多態(tài)性標記。遺傳圖譜上的各種DNA標記正如地圖上標明的河流、山川,基因組中的這些標記種類繁多,隨著人類基因組等計劃的進行,人們不斷發(fā)現(xiàn)一些新的標記,而且這些標記在地圖上的密度也越來越高,迄今已經(jīng)有好幾個版本的圖譜發(fā)表出來。在Internet網(wǎng)上的GDB(geneomedatabase)網(wǎng)頁上可以方便地查找到迄今已發(fā)表的各種遺傳標記(http://)。遺傳圖譜的構(gòu)建是人類基因組研究必不可少的一步,它對搞清基因的功能、定位及分離克隆新基因、排列DNA片段、研究染色體上基因的排列順序等起到不可估量的作用。遺傳圖譜在過去幾年的人類基因組研究中發(fā)揮了巨大的作用,以致同樣的策略也被應用于其它模式生物。物理圖譜是描述位于染色體上的基因和生物學界標獨特并有確定位置及實際距離的染色體結(jié)構(gòu)。任何圖譜都是一系列路標及客觀物(objects)按其固有的順序和可能的距離構(gòu)建出來的??陀^物的順序應不隨構(gòu)圖方法的不同而不同,但它們之間的距離則可能不一致。在遺傳圖譜中按重組率來估計實際距離會有很大的偏差。物理圖譜可以理解為用物理學方法而不是遺傳學方法定位的由客觀物組成的任何圖譜,而通常物理圖譜是指高分辨率(high-resolution)的物理圖譜,即基因組長片段限制性酶切圖譜和重疊克隆圖譜等,但整合物理圖譜還應包括只能粗略分辨路標位置但不能準確排位的染色體圖譜(chromosomemap)和遺傳連鎖圖譜。人類基因組測序的開展還得益于另一項突破:隨著脈沖場電泳技術(shù)(pulsed-fieldgelelectrophoresis,PFGE)、YAC克隆、BAC和PAC克隆的出現(xiàn),可以把切割基因組后產(chǎn)生的大片段DNA準確地分離和純化,并插入能轉(zhuǎn)入DNA大片段的載體,轉(zhuǎn)染酵母細胞形成YAC克隆庫或轉(zhuǎn)染大腸桿菌形成BAC克隆庫。這些載體可載入10Mb長度(相當于人類全基因組堿基長度的1/300)的DNA片段。全基因組的YAC克隆庫及BAC克隆庫保證了基因組分析的完整性和準確性??梢杂秒s交技術(shù)等來發(fā)現(xiàn)重疊克隆,以此進行克隆片段的排序。對于大片段DNA克隆進行再切割,并載入粘粒、細菌或噬菌體,即可構(gòu)建相應于特定YAC或BAC克隆的亞克隆(subcloning),供測序使用。這一系統(tǒng)過程的建立為大規(guī)模測序打下了堅實的基礎(chǔ)。構(gòu)建物理圖譜最終是要統(tǒng)一到基于STS的物理圖譜。STS(sequence-taggedsite,序列標簽位點)的概念首先由Olson于1989年提出,目的是建立一套人類基因組統(tǒng)一的生物學界標。STS本身是隨機地從人類基因組上選擇出來的長度在200~300bp左右的特異性短序列。STS路標的建立一般是從噬菌體M13上構(gòu)建特定染色體克隆開始,STS概念的提出是物理構(gòu)圖的一次革命,由于特定STS在一套基因組結(jié)構(gòu)中只出現(xiàn)一次,統(tǒng)一地把相應的克隆庫中的克隆進行排序變得更準確和更科學。如果兩個或兩個以上的克隆包含有相同的STS,則它們之間存在重疊?;赟TS的物理圖譜的重要性在于(1)它們可用來特異地定義YAC、粘粒或噬菌體克?。?2)STS可鑒定出與特定克隆存在重疊的克?。?3)在計算機數(shù)據(jù)庫中的各種物理圖譜可以用STS這種通用語言統(tǒng)一起來?;赟TS的物理圖譜不但可對染色體圖譜、限制性酶切位點為路標的限制性酶切圖、重疊探針雜交的YAC克隆片段重疊群(contig)圖譜及其亞克隆重疊排序,以及新近發(fā)展的其它新方法構(gòu)建的物理圖譜進行整合,也可對遺傳圖譜、基因圖譜等各類圖譜進行整合,最終完成系統(tǒng)、統(tǒng)一的基因組終極圖譜。最終完成的人類基因組核苷酸序列相當于STS密度最高的基因組物理圖譜。圖4.5人類基因組的各種圖譜。最粗糙的圖譜是遺傳圖譜,它根據(jù)相鄰標記(如基因和多態(tài)片段)間的重組率來測量相互間的距離;具有1-2Mb長度的限制性酶切片段可被分離和構(gòu)建物理圖譜;YAC等長度在40-400kb的插入片段排列構(gòu)建高分辨率物理圖譜;堿基序列為最高分辨率物理圖譜。綜上所述,廣義上各種基于路標位點構(gòu)建的物理圖譜方法從低分辨率到高分辨率可主要分為以下幾種:(1)對路標進行粗略定位的染色體圖譜即細胞遺傳圖譜(cytogeneticmap),通常使用原位雜交(ISH)或熒光原位雜交(FISH)技術(shù)確定含有路標DNA片段在染色體上的區(qū)帶位置和分布。DNA片段可被定在2~10Mb的范圍內(nèi)。

(2)cDNA圖譜是在細胞遺傳圖譜上顯示cDNA或ESTs(expressedsequencetags),即表達DNA(外因子)的區(qū)帶位置。部分cDNA序列可作為路標。(3)利用家系分離分析法(pedigreesegregateanalysis)可確定具有多態(tài)性的遺傳標記位點在遺傳連鎖圖譜上的位置,最新的人類基因組遺傳連鎖圖譜已把標記間的平均距離縮小到1cM以下,即粗略地對應于物理圖譜中的1Mb范圍內(nèi)。(4)輻射雜種圖譜是利用體細胞遺傳技術(shù)(somaticcellgeneticapproach)構(gòu)建高分辨率、長范圍連續(xù)的人類基因組圖譜。基本原理為,人為地用放射線打斷染色體,制備出含有特定人類染色體或片段的雜交細胞系,并利用類似于傳統(tǒng)的減數(shù)分裂構(gòu)圖原理確定路標間的距離和位置,最高的分辨率可達到50kp。(5)脈沖場電泳的長片段限制性位點(macrorestrietionalsite)圖譜,即限制性酶切位點指紋(restrictionenzymefingerpriting)圖譜是描述以稀有酶切位點為生物學界標的順序和距離,以及形成基因組或染色體區(qū)域上的酶切圖譜。由于些法是從大片段入手,常常又稱為“從上到下”(Top-down)構(gòu)圖法;此外,區(qū)域性DNA大片段有利于較精細制圖,如YAC克隆插入片段分析便于重疊圖譜的分析,此方法可把DNA片段定位在100kb到1Mb范圍內(nèi)。(6)由DNA片段重疊群(contig)形成的小組合,即相連組合圖譜,或稱重疊克隆群(overlappingsetsofcloning)圖譜描述存在于重疊的DNA片段克隆的順序和距離。通常通過粘粒重疊克隆把DNA片段定位在小于2Mb的范圍內(nèi),相對于長片段限制性酶切位點圖譜,這種構(gòu)圖法也被稱為“從下到上”(Bottom-up)法。(7)序列標簽位點(sequence-taggedsite,STS)構(gòu)成了STS基礎(chǔ)上整合圖。它是基因組上篩選特異序列,其最終密度至少達到平均每100kb左右一個,最終將把各種方法構(gòu)建的圖譜整合起來,完成準確完整的系統(tǒng)物理圖譜。(8)部分及全基因組測序是分辨率最高的物理圖譜,而目前要構(gòu)建的高分辨率(<100kb)物理圖譜上路標序列本身也是基因組序列信息的一部分。此外,一些構(gòu)建物理圖譜的方法還包括基因組序列抽樣(genomicsequencesampling,GSS)和可見圖譜(opticalmap)等。GSS是結(jié)合片段限制性酶切和STS的一種作圖法,分辨率可達到1~5kb;可見圖譜則是結(jié)合限制性酶切、電泳和FISH技術(shù)通過觀察單個DNA大分子在限制性酶切作用下的圖象來作圖。低分辨率物理圖譜在人類基因組計劃中本身是獨立的部分,但從染色體區(qū)帶-表達基因區(qū)域-遺傳學距離-物理學實際距離-堿基序列這一過程來看,低分辨率染色體分帶可看作粗略的物理圖譜,堿基序列則是最精密的物理圖譜。低分辨率圖譜上的一些路標常常被用在高分辨率圖譜的構(gòu)建中,結(jié)合其它路標形成高密度路標分布的圖譜,同時這些高密度路標可以重新在低分辯率圖譜進行驗證,形成高分辯率與低分辯率相結(jié)合的整合物理圖譜。每種圖譜都有各自的優(yōu)缺點,所以即使對同一基因組研究,不同的實驗室會采用不同的作圖方法,但最終各種圖譜的結(jié)果應能統(tǒng)一起來,相互補充和完善。表4.2中列舉的物理圖譜數(shù)據(jù)庫的數(shù)據(jù)主要來自人類基因組,但同時也包含了其它的一些生物體。構(gòu)成物理圖譜的4個基本要素之一可復制DNA片段(clonablefragment)(另3個要素是路標、單位、順序)主要包括輻射雜種細胞(RH)、YAC、BAC、PAC等。對于這些DNA大片段的測序一般需要將其再細分為能單獨進行序列分析的小片段,目前有三種常用方法:鳥槍測序法、引物步查法和限制性酶切—亞克隆法。2、全基因組鳥槍法(whole-genomeshortgun)在基因組水平上,全基因組鳥槍法和逐步克隆測定法是目前廣泛應用的兩個測序策略。小的單分子基因組,如細菌和小基因組(<10Mb)可直接用鳥槍法測序。雖然有人提出用鳥槍法直接測序人類基因組(Weber和Mayers,1997),但由于人類基因組中存在高比例的重復序列(尤其是LINE,2-7kb)、克隆文庫不可避免的間隙和基因的多態(tài)性等原因,鳥槍法的片段組裝幾乎是不可能的。受讀序長度的限制,一個反應無法跨過LINE。鳥槍法在小組因組(1-5Mb)測序方面已取得了非常好的效果,例如流感嗜血桿菌(H.influenzae,1.9Mb)、枝原體(M.genitalium,0.58Mb)和甲烷球菌(M.jannaschii)基因組均用此法完成測序。逐步克隆測定法則通過建立克隆文庫(YAC、BAC、PAC、Cosmid、Fosmicl、噬菌體、質(zhì)粒),然后用鳥槍法進行克隆片段的測序。所以,大規(guī)模測序的兩個前沿基本都是采用鳥槍法(圖4.9)。圖4.9鳥槍法測序策略?;蚪M的逐步克隆測序包括圖中的所有步驟:DNA單鏈→構(gòu)建BAC文庫→鳥槍法克隆測序→組裝;全基因組鳥槍法測序則省去中間的構(gòu)建BAC文庫步驟。四、序列片段的拼接方法無論是逐步克隆測序還是全基因組鳥槍法測序,都存在片段拼接組裝的難題。目前DNA自動測序儀每個反應只能測序500bp左右,如何將這些片段拼接成完整的DNA序列呢?Lander和Waterman(1988)提出利用“指紋”(fingerprinting)隨機克隆進行基因組作圖的算法,它為大量鳥槍法隨機測序的片段用計算機進行自動拼接提供了可能。這種技術(shù)不僅避免了傳統(tǒng)的亞克隆策略的大量繁瑣工作,還使測序具有一定的冗余性(即一定數(shù)量的重復),保證了測序中每個堿基的準確性。目前DNA序列拼接應用的主要軟件是由美國華盛頓大學PhilGreen實驗室開發(fā)的Phred-Phrap-Consed系統(tǒng)。Green也因研制該系統(tǒng)而在人類基因組研究歷史上占有一席之地(見Science2001年2月16日人類基因組??癆historyofHumanGenomeProject”一文)。Phred(測序器)是一種堿基識別系統(tǒng)(base-caller),它根據(jù)自動測序儀信號按順序識別堿基,估計測序錯誤率等。Phrap(組裝器)是根據(jù)Phred的結(jié)果從頭組裝由鳥槍法產(chǎn)生的不同的短序列。Consed(校對器)與Phrep組成一個有機整體,利用Phrap組裝的序列由Consed編輯、整合人工校對結(jié)果等。目前36個國家900多個實驗室都在使用上述系統(tǒng)。非贏利研究機構(gòu)或個人可申請免費利用該系統(tǒng)。圖4.11自動測序組裝系統(tǒng)Phred-Phrap-Consed主頁圖4.12Phrap程序中序列重疊群比對結(jié)果顯示窗口Phrap拼接鳥槍法序列的的方法也是通過列線(aligment)查找匹配序列。其列線算法采用的是Smith-Waterman算法和Needleman-Wunsch算法(可選擇),替換矩陣(缺省為BLOSUM50)、空位設置罰值和空位擴展罰值(缺省值分別為-12和-2)、E值(缺省值1.0)等都在列線比對中被應用。Phrap的算法中使用了一個新參數(shù)——Z值(Z-score)。當數(shù)據(jù)庫序列長度變化很大時(實際情況往往如此),理論分析和經(jīng)驗研究都表明列線值敏感性下降,即判別由隨機性產(chǎn)生匹配的能力下降。Z值的引入便是為了解決這一問題。Z值定義如下:其中s和n為原始列線值和數(shù)據(jù)庫序列長度,f(n)和g(n)分別是序列長度為n的序列列線值平均數(shù)和變異度。由此,Z值的平均數(shù)為零,標準差為1,與序列長度n無關(guān)。相對而言,Z值與數(shù)據(jù)庫大小無關(guān),這一特性與原始列線值s相似,但與E值不同,所以,Z值是比s值更合理的一個指標尺度。第二節(jié)基因組注釋:基因區(qū)域的預測一、從序列中尋找基因二、最長ORF法等:基因編碼區(qū)特性三、序列相似性比較法四、隱馬爾可夫模型(HMM)五、神經(jīng)網(wǎng)絡六、RNA二級結(jié)構(gòu)預測一、從序列中尋找基因1、基因及基因區(qū)域預測2、發(fā)現(xiàn)基因的一般過程3、解讀序列(makingsenseofthesequence)1、基因及基因區(qū)域預測在完成序列的拼接后,我們得到的是很長的DNA序列,甚至可能是整個基因組的序列。這些序列中包含有許多未知的基因,將基因從這些序列中找出來是生物信息學的一個研究熱點。基因一詞最早是由丹麥遺傳學家約翰遜(JohannsenW.)于1909年提出,而在這之前,遺傳學創(chuàng)始人孟德爾用“遺傳因子”表達了對基因的朦朧認識?;虻母拍铍S著遺傳學、分子生物學等的發(fā)展而不斷完善。從分子生物學角度看,基因是負載特定生物遺傳信息的DNA分子片段,在一定條件下能夠表達這種遺傳信息,產(chǎn)生特定的生理功能?;虬雌涔δ芸煞譃榻Y(jié)構(gòu)基因和調(diào)控基因:結(jié)構(gòu)基因可被轉(zhuǎn)錄形成mRNA,并進而轉(zhuǎn)譯成多肽鏈;調(diào)控基因是指某些可調(diào)節(jié)控制結(jié)構(gòu)基因表達的基因。在DNA鏈上,由蛋白質(zhì)合成的起始密碼開始,到終止密碼子為止的一個連續(xù)編碼序列稱為一個開放閱讀框(OpenReadingFrame,ORF)。結(jié)構(gòu)基因多含有插入序列,除了細菌和病毒的DNA中ORF是連續(xù)的,包括人類在內(nèi)的真核生物的大部分結(jié)構(gòu)基因為斷裂基因,即其編碼序列在DNA分子上是不連續(xù)的,或被插入序列隔開。斷裂基因被轉(zhuǎn)錄成前體mRNA,經(jīng)過剪切過程,切除其中非編碼序列(即內(nèi)含子),再將編碼序列(即外顯子)連接形成成熟mRNA,并翻譯成蛋白質(zhì)。假基因是與功能性基因密切相關(guān)的DNA序列,但由于缺失、插入和無義突變失去閱讀框而不能編碼蛋白質(zhì)產(chǎn)物。圖4.13一種典型的真核蛋白質(zhì)編碼基因的結(jié)構(gòu)示意圖。其編碼序列(外顯子)是不連續(xù)的,被非編碼區(qū)(內(nèi)含子)隔斷。所謂基因區(qū)域預測,一般是指預測DNA序列中編碼蛋白質(zhì)的部分,即外顯子部分。不過目前基因區(qū)域的預測已從單純外顯子預測發(fā)展到整個基因結(jié)構(gòu)的預測。這些預測綜合各種外顯子預測的算法和人們對基因結(jié)構(gòu)信號(如TATA盒等)的認識,預測出可能的完整基因。某一算法的優(yōu)劣可以通過一定的標準衡量:敏感性(sensitive)和特異性(specifity)。假設待測序列中有M條序列是基因序列,而剩余的為非基因序列。我們用某一程序(算法)對待測序列進行預測,共預測出N條基因序列,而這N條序列中有N1條確實為基因。則敏感性定義為N1/M,它表示程序預測的功能;特異性定義為N1/N,它表示程序預測結(jié)果的可靠程度。敏感性和特異性往往是一對矛盾?;騾^(qū)域的預測是一個活躍的研究領(lǐng)域,先后有一大批預測算法和相應程序被提出和應用,其中有的方法對編碼序列的預測準確率高達90%以上,而且在敏感性和特異性之間取得了很好的平衡。預測方法中,最早是通過序列核苷酸頻率、密碼子等特性進行預測(如最長ORF法等),隨著各類數(shù)據(jù)庫的建立和完善,通過相似性列線比對也可以預測可能的基因。同時,一批新方法也被提了出來,如隱馬爾可夫模型(HiddenMarkovModel,HMM)、動態(tài)規(guī)劃法(dynamicprogramming)、法則系統(tǒng)(ruled-basedsystem)、語言學(linguistic)方法、線性判別分析(LinearDiscriminant

Analysis,LDA)、決策樹(decisiontree)、拼接列線(splicedalingment)、博利葉分析(Fourieranalysis)等。表4.3列出了claverie(1997)對部分程序預測基因區(qū)域能力的比較結(jié)果,表中同時列出了相應算法和程序的網(wǎng)址。目前基因區(qū)域預測的各種算法均基于已知基因序列。如相似性列線比較算法是完全依賴于已知的序列,而象HMM之類的算法都需要對已知的基因結(jié)構(gòu)信號進行學習或訓練,由于訓練所用的序列畢竟是有限的,所以對那些與學習過的基因結(jié)構(gòu)不太相似的基因,這些算法的預測效果就要大打折扣了。要解決以上問題,需要對基因結(jié)構(gòu)進行更深入的研究,尋找隱藏在基因不同結(jié)構(gòu)中的內(nèi)在統(tǒng)計規(guī)律。表4.3部分程序預測基因區(qū)域能力的比較結(jié)果(claverie,1997)注釋:①LDA:線性判別分析;RB:法則系統(tǒng);DP:動態(tài)規(guī)劃法;HMM:隱馬爾可夫模型;DT:決策樹;②敏感性(%nucl):實際編碼序列被成功預測為編碼序列;特異性(%nucl):預測為編碼的序列實際確定為編碼序列;敏感性(%exactexon):實際的外顯子被準確預測(包括拼接位點);特異性(%exactexon):預測為外顯子的序列與實際外顯子準確符合;丟失的外顯子(%):未能預測出的實際外顯子;錯誤的外顯子(%):預測為外顯子的序列實際不是任何外顯子的片段。2、發(fā)現(xiàn)基因的一般過程從序列中發(fā)現(xiàn)基因可以理解為基因區(qū)域預測和基因功能預測2個層次。生物信息學在這2個層次上均形成具有自身學科特色的算法和手段,以下便簡單描述通過生物信息學手段發(fā)現(xiàn)基因的一般過程。有關(guān)基因功能的預測將在以后的章節(jié)中進一步論述,同時本小節(jié)描述的發(fā)現(xiàn)過程只是生物信息學手段的一種可選策略。以下主要根據(jù)GeneDiscovey(http://bioinformatics.weizmann.ac.il):第一步:獲取DNA目標序列①如果你已有目標序列,可直接進入第2步;②可通過PubMed查找你感興趣的資料;通過GenBank或EMBL等數(shù)據(jù)庫查找目標序列。第二步:查找ORF并將目標序列翻譯成蛋白質(zhì)序列利用相應工具,如ORFFinder、Genefeature(BaylorCollegeofMedicine)、GenLang(UniversityofPennsylvania)等,查找ORF并將DNA序列翻譯成蛋白質(zhì)序列。第三步:在數(shù)據(jù)庫中進行序列搜索可以利用BLAST進行ORF核苷酸序列和ORF翻譯的蛋白質(zhì)序列搜索。第四步:進行目標序列與搜索得到的相似序列的整體列線(globalalignment)雖然第三步已進行局部列線(localalignment)分析,但整體列線有助于進一步加深目標序列的認識。第五步:查找基因家族進行多序列列線(multiplesequencealignment)和獲得列線區(qū)段的可視信息??煞謩e在AMAS(OxfordUniversity)和BOXSHADE(ISREC,Switzerland)等服務器上進行。第六步:查找目標序列中的特定模序①分別在Procite、BLOCK、Motif數(shù)據(jù)庫進行profile、模塊(block)、模序(motif)檢索;②對蛋白質(zhì)序列進行統(tǒng)計分析和有關(guān)預測第七步:預測目標序列結(jié)構(gòu)可以利用PredictProtein(EMBL)、NNPREDICT(UniversityofCalifornia)等預測目標序列的蛋白質(zhì)二級結(jié)構(gòu)。第八步:獲取相關(guān)蛋白質(zhì)的功能信息為了了解目標序列的功能,收集與目標序列和結(jié)構(gòu)相似蛋白質(zhì)的功能信息非常必要??衫肞ubMed進行搜索。第九步:把目標序列輸入“提醒”服務器如果有與目標序列相似的新序列數(shù)據(jù)輸入數(shù)據(jù)庫,提醒(alert)服務會向你發(fā)出通知??蛇x用SequenceAlerting(EMBL)、Swiss-Shop(Switzerland)等服務器。3、解讀序列(makingsenseofthesequence)在2001年二月份的第二星期里(12日-18日),Science和Nature同時刊發(fā)了具有劃時代意義的人類基因組研究專刊。在Science的專刊中,有一篇題為“解讀序列”(makingsenseofthesequence)(GalasD.J.)的綜述文章。文章對序列,特別是人類基因組序列如何解讀進行了深入分析,比較全面地展示了人類目前對序列的理解能力和技術(shù)現(xiàn)狀。以下內(nèi)容摘譯自該篇文章。利用基因組序列解決生物學問題已經(jīng)具備了其自身(學科)特色,它被冠以“功能基因組學”。自從1996年酶母(Sacharomyces

cerevisiae)基因組序列被公布,我們已熟悉用全基因組序列來研究基因表達模式等等生物學問題。雖然我們還不知道約1/3酶母基因的功能,但是我們知道所有與細胞功能有關(guān)的可能的蛋白質(zhì)和RNA均由我們已知的序列編碼。根據(jù)目前對基因的分析結(jié)果,哺乳動物一個基因的轉(zhuǎn)錄產(chǎn)物平均有2~3種或者更多。從現(xiàn)有序列數(shù)據(jù)估計,人類的基因數(shù)約為3萬,這意味著人類基因組編碼了約有9萬或更多種蛋白質(zhì)。但是,以上由現(xiàn)有序列數(shù)據(jù)推測的結(jié)論有很多不確定因素。重疊序列群(contig)是由單個測序反應測得的序列(通常400~800堿基長度)拼裝而成的一條連續(xù)片段,重疊序列群的數(shù)量和長度分布是基因分析的兩個重要參數(shù)。正如美國NCBI2000年12月12日的報告所說,目前公共數(shù)據(jù)庫中最大的重疊序列群為28.5Mb,其中43個超過1Mb,566個在250Kb~1Mb之間,而1628個在100~250Kb。這意味著長度大于100Kb的重疊序列群總長度約600Mb——不足人類基因組全部序列的20%;而基因組的一半序列是由22Kb或更小的重疊序列群所涵蓋。由于基因的長度(一般估計為30000堿基對)大于或等于重疊序列群,這說明一定比例的人類基因不可能只在一個重疊群中;在一個重疊群中發(fā)現(xiàn)一個最長的基因,如肌聯(lián)蛋白(Titin)基因(約250Kb,內(nèi)含200多個外顯子),比發(fā)現(xiàn)一個短的簡單基因,如嗅感受蛋白基因(平均小于2Kb)的概率小得多。但要將序列缺口和重疊群擴大還要籍以時日。因此,在不久的將來,基因的合成將通過組配重疊群“鑲嵌物”(mosaic),或稱為“支架”(scaffold)來完成,這意味著重疊群間的拼接又將增加序列數(shù)據(jù)的不確定性。要想將所有的基因都落入拼裝而成的無缺口的支架片段中似乎還不可能,但是組裝成的基因的大致輪廓將變得很清楚。這就象一個被重新復原的古希臘花瓶,雖然花瓶的殘缺部分被用陶土填補,而整個花瓶的輪廓已很清晰。文特爾(Venter)等人進行基因拼裝和分析的方法中,一人重要的參數(shù)是支架的大小和分布。據(jù)報道,支架的平均長度超過1Mb,而10Mb以上的支架占整個基因組的25%,支架間的缺口平均只有2Kb。這些為基因分析者提供了高檔次的序列數(shù)據(jù)。從一給定序列片段中,通過相似性比較發(fā)現(xiàn)基因的效果決定于簡單的統(tǒng)計量和重疊群在基因組中的覆蓋率。當該覆蓋率達到90%以上,那就意味著幾乎所有的基因(或至少是基因片段)均可在序列數(shù)據(jù)中找到。因此,利用本周公布的數(shù)據(jù)(指Science和Nature的人類基因組???,通過相似性搜索來發(fā)現(xiàn)任何一個基因幾乎都是可能的。但是必須注意的是,這樣確定的基因可能還具有隨意性。這是因為某一生物,例如果蠅(Drosophila)的一條具有高度相似的受體基因序列可能來自幾個不同的同源基因,而這些基因可能具有相同或完全不同的功能,甚至可能是一些沒有功能的假基因(pseudoge)。也就是說,共同的功能域(domain)或模序(motif)可能在幾個基因同時存在。使用BLAST搜索工具可能還是目前發(fā)現(xiàn)相似序列的最佳途徑。NCBI網(wǎng)站簡明的介紹內(nèi)容有助理解不斷增多的BLAST系列工具的特性,有些小冊子介紹了BLAST近似算法的統(tǒng)計特色和局限。BLAST算法并不適合于所有目的的近似估計,但使用者應有這樣的認識,即任何一種算法都有可能錯過一些特殊相似性。例如,由于對一些相隔相似性(interruptedsimilarity)的忽略,使間隔越大,獲得相似性統(tǒng)計顯著的可能性越小。新的一些方法試圖利用編碼區(qū)的結(jié)構(gòu)因素來進行相似性比對,這突破了相似顯著性方法的局限。雖然在基因組序列基因的自動化識別方面已取得巨大進步,但根據(jù)序列構(gòu)建準確的基因模型(modelofgenes)還需要大量的人力,即“手工操作”(“hand-on”effort)。基因的最佳模型是其全長mRNA序列。RNA序列(以cDNA形式)可以將基因組序列基因的外顯子結(jié)構(gòu)串聯(lián)起來,而不必考慮這些片段身處何方——片段的連續(xù)性、順序和方向并不影響串聯(lián)過程。但是,假基因和高度相同的重復序列可能使這一策略失靈,這引起了對收集更多全長cDNA序列數(shù)據(jù)的爭論。大致有2條途徑可以發(fā)現(xiàn)基因:(1)基于同源性的方法,包括已知mRNA序列的應用;(2)基因家族和特殊序列間的比較。最初的方法包括利用各種計算機手段分析外顯子和其它序列信號,如酶切位點等。在每一個基因模型中,與調(diào)控相關(guān)的序列位置和結(jié)構(gòu)往往是最難完成的注釋(annotation)之一。在一些情況下,可以通過諸如模序(motif)(檢索)來尋找和鑒定這些重要序列區(qū)段,但是我們目前對調(diào)控區(qū)段的鑒定和預測能力還很有限和不可靠。特定基因組間的比較是獲得這些區(qū)段的一條途徑,它建立在可以通過比較找出保守區(qū)的假設基礎(chǔ)上。新的一些實驗方法,例如列陣技術(shù)可以定位基因組水平的轉(zhuǎn)錄位點,同樣可以有效地檢測出基因組順式調(diào)節(jié)(cis-regulatory)信號。目前已有很多工具可以用于自動注釋工作,對于這些工具的特點本文不做進一步論述。將統(tǒng)計學和啟發(fā)式機器學習方法(heuristicmethods)相結(jié)合來分析基因和基因特征是目前流行的趨勢(例如隱馬爾可夫模型、神經(jīng)網(wǎng)絡和貝葉斯網(wǎng)絡)。它們在發(fā)現(xiàn)基因方面最有效的方法并不是在準確建模方面,而是常與同源性方法配合使用。影響這些算法有效性的因素包括測序誤差和統(tǒng)計偏差,例如堿基組成。數(shù)據(jù)的噪音(noise)會極大降低這些方法的效果,所以以上基于誤差率較高的序列草圖的預測結(jié)果將明顯劣于基于完成序列的預測。GENSCAN(/GENSCAN.html)是被廣泛用于基因查尋和預測的軟件之一,但是一些新軟件,如Genie也不遜色。Genie(http://www_/inf/genie.html)是一種隱馬爾可夫模型(HMM)系統(tǒng),它可以整合不同來源的信息,如信號傳感器(酶切位點、起始密碼等)、內(nèi)含子和外顯子、mRNAEST的列線和肽序列等。其它軟件工具,如GENEBUILDER、GLIMMERM、FGENES、GRAIL等,最近也都被評價過。有一個簡單的辦法可以比較這些軟件的優(yōu)劣:利用果蠅基因組數(shù)據(jù)為例,GASPI項目(GenomeAnnotationAssessmentProject)(/GASPI)對真核生物基因組注釋的進展和存在的問題進行很好的比較分析。另外利用擬南芥(Arabidopsis)基因組也進行了相同的比較分析。Nature和Sciece上的兩篇人類基因組分析論文分別使用了各自的基因分析系統(tǒng)。由公共資金資助的人類基因組計劃(IHGSC)(論文發(fā)表在Nature上)使用的是一個稱為“Ensembl”的系統(tǒng),它使用GENSCAN進行初步預測,GENSCAN利用mRNA、EST和蛋白質(zhì)模序信息進行比對;然后使用GeneWise(www.sanger.ac.uk/software/Wise2/)進行蛋白質(zhì)匹配分析,GeneWise曾被用于果蠅基因組分析。以文達爾(Venter)為代表的私人公司(論文發(fā)表在Science上)使用的是一種稱為“otto”的專家注釋系統(tǒng)(rule-basedexpertsystemforannotation),該系統(tǒng)力圖將人的一些智能納入程序中。二、最長ORF法等:基因編碼區(qū)特性基因區(qū)域或蛋白質(zhì)編碼區(qū)的識別,特別是對高等真核生物基因組DNA序列中編碼區(qū)的識別仍未能實現(xiàn)完全自動化。將每條鏈按6個讀框全部翻譯出來,然后找出所有可能的不間斷開放閱讀框(ORF)往往有助于基因的發(fā)現(xiàn)。預測基因組的全部編碼區(qū)或稱為開放閱讀框的方法概括來說也可以分為三類:一類是基于編碼區(qū)所具有的獨特信號,如始起密碼子、終止密碼子等;二是基于編碼區(qū)的堿基組成不同于非編碼區(qū),這是由于蛋白質(zhì)中20種氨基酸出現(xiàn)的概率、每種氨基酸的密碼子兼并度和同一種氨基酸的兼并密碼子使用頻率不同等原因造成的;三是通過同源性比較搜尋蛋白質(zhì)庫或dbEST庫尋找編碼區(qū)。前二類方法主要是利用編碼區(qū)的特性來尋找,本小節(jié)對這二類方法做簡單描述。最長ORF法:在細菌基因組中,蛋白質(zhì)編碼基因從起始密碼ATG到終止密碼平均有100bp,而300bp長度以上的ORF平均每36Kb才出現(xiàn)一次,所以只要找出序列中最長的ORF(>300bp)就能相當準確地預測出基因。在真核生物中,全長cDNA的編碼區(qū)一般也可以用最長ORF法,如水稻的3萬多條的全長cDNA的編碼區(qū)預測(見KOMEDATABASE)。但是,要十分小心的是,這一預測有時也會出錯。例如:以下全長cDNA的編碼蛋白序列應為4-029B,而非最長的4-029A。>4_029ATCGGCCATTACGGCCGGGGACACAACAAACCAACAAACATCATAATTAACCTCTTCCTCCCAAGTAGTCATCTGCCAACATGAAAGCCCTCGCACTCTTCTTCGTACTTTCCCTCTATCTCCTCGCAACCCAGCTCATTCCAAGTTCAATCCCATCCGCCTCCGCCCCGCCCACGAAACGGCGTCGTCCGAAACTCCGGTGCTCGACATCAACGGCGACGAAGTCCGGGCCGGCGAAAATTACTACATTGTCTCGCCATATGGGGCGCCGGCGGAGGAGGCCTGAGACTCGTCCGATTGGATTCCTCCTCGAACGAATGCGCCAGCGACGTGATCGTATCCCGGAGCGACTTCGACAACGGCGACCCGATTACCATCACGCGGCGGACCCGGAATCCACCGTCGTCATGCCGTCGACGTTCCAGACCTTCAGATTCAACATTGCGACCAACAAACTCTGCGTAAACAACGTAAACTGGGGGATCAAGCACGACAGTGAATCCGGGCATATTTCGTGAAAGCCGGCGAGTTCGTCTCCGACAATAGCAACCAGTTCAAGATTGAGGTGGTCAACGACAACCTTAACGCTTACAAAATCAGTTATTGTCAGTTCGGCACCGAGAAATGCTTCAACGTGGCAGATACTACGACCCGTTGACCAGGGCTACGCGTTTGGCTCTCAGTAATACTCCCTTCGTGTTTGTGATCAAACCTACTGATATGTAATGAGCACCGGTGTTGAGGTTGCATGCATGTTATGGACTATGCTAAATAAGTAACGTTGCAACTTTGACAACGTTGTACGTGTAATAATAAGAATAAACATGCAATAAATCCGAGCTTGTTGTGTTGTGTAAATTTAACTATCTTAAATGAATAAGCATAATATATCTATGCGAAAAAGAAAAAATAATAAAAAAAATTCATGTTCCGCCGCCTCGGCCCAGTCAACTCTGAATCCAAGCAAGCTTATGCATGCGGCCCAAATTCAAGCTCAATTGGCCAATTCGCCTATAGGAGTCGTATTACATTCATGGCCGTCGTTTTACACGTCGGGACTGGGAAAACCCTGGGGTTACCCAACTTATCCCCTTGGGCCCATTCCTCC>4_029AORF:69..755Frame-2Mostlength687MQPQHRCSLHISRFDHKHEGSITESQTRSPGQRVVVSANVEAFLGAELTITDFVSVKVVVDHLNLELVAIVGDELAGFHEILPGFTVVLDPPVYVVYAEFVGRNVESEGLERRRHDDGGFRVRRRDGRVAVVEVAPGYDHVAGAFVRGGIQSDESQASSAGAPYGGDNVVIFAGPDFVAVDVEHRSFGRRRFVGGAEADGIELGMSWVGEEIEGKYEEECEGFHVGR>4_029BORF:81..731Frame+3secondlength651MKALALFFVLSLYLLANPAHSKFNPIRLRPAHETASSETPVLDINGDEVRAGENYYIVSAIWGAGGGGLRLVRLDSSSNECASDVIVSRSDFDNGDPITITPADPESTVVMPSTFQTFRFNIATNKLVNNVNWGIKHDSESGQYFVKAGEFVSDNSNQFKIEVVNDNLNAYKISYCQFGTEKCFNVGRYYDPLTRATRLALSNTPFVFVIKPTDM利用編碼區(qū)與非編碼區(qū)密碼子選用頻率的差異進行編碼區(qū)的統(tǒng)計學鑒別方法:由于內(nèi)含子的進化不受約束,而外顯子則受到選擇壓力,因此內(nèi)含子的序列要比外顯子更隨機。這是目前各種預測程序中被廣泛應用的一種方法,如GCG(GeneticComputerGroup研制,一種通用核酸、蛋白質(zhì)分析軟件包)的TestCode、美波士頓大學GeneID和BaylorMedcineCollege的BCMGeneFinder等程序均利用了這一方法。具體方法描述可參閱相關(guān)程序說明。CpG島:CpG島(CpGisland)一詞是用來描述哺乳動物基因組DNA中的一部分序列,其特點是胞嘧啶(C)與鳥嘌呤(G)的總和超過4種堿基總和的50%,即每10個核苷酸約出現(xiàn)一次雙核苷酸序列CG。具有這種特點的序列僅占基因組DNA總量的10%左右。從已知的DNA序列統(tǒng)計發(fā)現(xiàn),幾乎所有的管家基因(House-Keepinggene)及約占40%的組織特異性基因的5‘末端含有CpG島,其序列可能包括基因轉(zhuǎn)錄的啟動子及第一個外顯子。因此,在大規(guī)模DNA測序計劃中,每發(fā)現(xiàn)一個CpG島,則預示可能在此存在基因。另外,AT含量也可以作為編碼區(qū)的批示指標之一。三、序列相似性比較法近年來相似比較算法也被應用于預測可能存在的基因。這一方法之所以可以預測新基因,主要有以下幾個原因:

(1)大約已經(jīng)有50%的基因有了對應的EST,已知的蛋白質(zhì)序列也越來越多;(2)不少原核生物和酶母的全序列已經(jīng)測定。研究表明有將近一半的脊椎動物基因可以通過BLAST在酶母、細菌和線蟲的序列數(shù)據(jù)庫中找到相似性相當高的序列;

(3)大多數(shù)EST都采用每個克隆分別從5‘和3‘測序,克服了早期EST只代表3‘外顯子的缺點。許多基因預測的程序都已經(jīng)整合了同源比較算法。下面舉例說明如何通過人類EST數(shù)據(jù)庫搜索和拼接與已知基因高度同源的人類新基因:①以已知基因cDNA序列對EST數(shù)據(jù)庫進行BLAST分析,找出與已知基因cDNA序列高度相似的EST;②用Seqlab的FragmentAssembly軟件構(gòu)建重疊群,并找出重疊群的一致(consensus)序列;③比較各重疊群的一致序列與已知基因關(guān)系(圖4.14)。通常有兩種情況,一是EST足夠多,可形成一個覆蓋全長的重疊群,以此拼接基因全長序列;另一情況則是,EST形成幾個重疊群,所以可以拼接基因的幾段序列。④對編碼區(qū)蛋白質(zhì)序列進行比較,并與已知基因蛋白質(zhì)的功能域(domain)進行比較分析,推測新基因的功能。⑤用新基因序列或EST序列對STS數(shù)據(jù)庫進行BLAST分析,如果某一EST(非重復序列)與某一STS有重疊,那么,STS的位置即確定了新基因的定位。四、隱馬爾可夫模型(HMM)五、神經(jīng)網(wǎng)絡略六、RNA二級結(jié)構(gòu)預測盡管現(xiàn)有一些RNA折疊程序可以預測RNA二級結(jié)構(gòu),但這類分析仍然是一門藝術(shù)。RNA折疊有助于找出RNA分子中可能的穩(wěn)定莖區(qū),但對給定的RNA分子來說,這一結(jié)果的生物學意義究竟有多大,還是一個未知數(shù)。即使有此局限性,二級結(jié)構(gòu)的預測還是有助于找出mRNA控制區(qū)以及RNA分子中可能形成穩(wěn)定折疊結(jié)構(gòu)的區(qū)段。預測二級結(jié)構(gòu)的最大難題是對三級結(jié)構(gòu)中既有的相互作用進行模型處理,然后將此處理結(jié)果回歸成一級結(jié)構(gòu)要素,以用于折疊結(jié)構(gòu)的預測。誠然,現(xiàn)有的RNA折疊程序并未考慮核酸分子中可能的三級結(jié)構(gòu)。這些程序只能定出有限數(shù)目的二維結(jié)構(gòu)的能學參數(shù),由此推測的二維最穩(wěn)定結(jié)構(gòu),可能與三維最穩(wěn)定結(jié)構(gòu)相去甚遠,因為三維億個結(jié)構(gòu)里的環(huán)區(qū)可以與環(huán)區(qū)相互作用,螺旋區(qū)可以堆積,還會出現(xiàn)各種的非Watson-Crick堿基對結(jié)構(gòu)。目前已有一些比較有名的預測程序,例如MFOLD[M代表多(multi),從早期的RNAFold程序或GCG軟件包的FOLD程序擴充而成],由加拿大國家研究基金會的MichaelZuker設計。除對堿基配對的標準能學進行分析外,MFOLD還考慮到了堿基堆積的能量及單堿基統(tǒng)計的熵。這一程序的VMS、VNIX、DOS和Macintosh版本可以從許多軟件組合中找到。盡管MFOLD的輸出是文本形式的(圖4.17A),但有幾個程序可以將預測結(jié)構(gòu)轉(zhuǎn)化為圖示形成(例如由DonGillbert設計的LoopViewer,見圖4.17B)。圖4.17RNA二級結(jié)構(gòu)的文本輸出結(jié)果(A)和圖形顯示(B)。分別由GCG的FOLD和Squiggles程序生成。第三節(jié)基因組分析一、基因組分析:生物信息學發(fā)展的“史記”二、比較基因組學一、基因組分析:生物信息學發(fā)展的“史記”自從1995年第一個可以獨立生存的生物被基因組測序以來(Fleischmannetal.Whole-genomerandomsequencingandassemblyofHaemophilus

influenzae.Science.1995,269:496-512),每年在NATURE和SCIENCE雜志上都會發(fā)表一些重要生物基因組測序完成后的分析文章。這些大文章(Article)中對基因組的分析可謂登峰造極,往往包括了當時想得到的和可以做得到的序列分析手段,它們代表著當時生物信息學發(fā)展的最新高度??梢哉f,這些文章是生物信息學發(fā)展史的另類記錄。以下列出了一些重要基因組分析文章,感興趣的讀者不妨對他們的分析內(nèi)容或方法做些比較:1977Firstbiology:PhageφX174(5.386kb)SangerF,AirGM,BarrellBG,etal.NucleotidesequenceofbacteriophagephiX174DNA.Nature,1977,265:687-6951982Phagelambdagenome

SangerF,CoulsonAR,HongGF,HillDF,PetersenGB.NucleotidesequenceofbacteriophagelambdaDNA.JMolBiol.1982,Dec25;162(4):729-731983PhageT7genome(39.937kb)Dunn,J.J.andStudier,F.W.CompletenucleotidesequenceofbacteriophageT7DNAandthelocationsofT7geneticelements.J.Mol.Biol.1983,166(4),477-5351995Firstbacterialgenomes(1.8Mb)Fleischmannetal.Whole-genomerandomsequencing

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論