




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第二代測序技術(shù)的序列分析方法及在油菜基因組研究中的應(yīng)用摘要:從追溯DNA測序技術(shù)的產(chǎn)生開始,在簡單介紹測序技術(shù)發(fā)展歷程基礎(chǔ)上及測序原理的基礎(chǔ)上,總結(jié)了第二代測序技術(shù)的技術(shù)特點(diǎn)??偨Y(jié)了第二代測序技術(shù)序列分析的基本流程,重點(diǎn)介紹了序列拼接和序列定位這兩個(gè)在序列分析中占有重要地位的分析方法,并在此基礎(chǔ)上總結(jié)了第二代測序技術(shù)在植物基因組研究中基本應(yīng)用和結(jié)果展示方式和所用的軟件。隨后,總結(jié)了第二代測序技術(shù)在序列分析上可能遇到的挑戰(zhàn)和解決方法。結(jié)合油菜基因組結(jié)構(gòu)的特點(diǎn),初步分析了目前第二代測序技術(shù)在油菜基因組研究中的應(yīng)用情況。最后對(duì)測序技術(shù)的發(fā)展及應(yīng)用進(jìn)行了初步展望。關(guān)鍵詞:第二代測序技術(shù),基因組測序,轉(zhuǎn)
2、錄組測序、序列拼接、序列定位,甲基化分析、chip-seq,油菜基因組測序?qū)д?測序技術(shù)的產(chǎn)生1第二代測序技術(shù)的產(chǎn)生及主要測序平臺(tái)測序原理3第二代測技術(shù)的特點(diǎn)6第二代測序技術(shù)的基本分析流程6數(shù)據(jù)的獲取、格式的轉(zhuǎn)換和壓縮。8序列數(shù)據(jù)的去冗余12序列數(shù)據(jù)的分析和知識(shí)提?。旱诙鷾y序技術(shù)的應(yīng)用22結(jié)果的展示28第二代測序技術(shù)下序列分析技術(shù)面臨的挑戰(zhàn)29第二代測序技術(shù)在油菜基因組研究中的應(yīng)用30展望32參考文獻(xiàn)33導(dǎo)論生命的根本問題在于遺傳進(jìn)化和生長發(fā)育。生命體的遺傳信息,決定生物的種類和特征,與外在環(huán)境一起影響著生物個(gè)體的生長與發(fā)育;同時(shí)遺傳信息的世代傳遞,保證了物種的延續(xù)性,而遺傳信息的隨機(jī)改變,
3、則在環(huán)境的選擇下,促使了物種的進(jìn)化??梢?,生物的遺傳信息,決定著生命的延續(xù)和生物個(gè)體的生存。探索作為遺傳信息的載體物質(zhì)以及解碼遺傳物質(zhì)所攜帶的遺傳信息都是生物學(xué)的重要研究課題。測序技術(shù)的產(chǎn)生自從孟德爾通過豌豆的雜交實(shí)驗(yàn),提出遺傳因子以及1886年瑞士生物學(xué)家Johann Friedrich Miescher發(fā)現(xiàn)并獲得第一份純核酸以來,DNA作為遺傳信息載體的探索過程就已經(jīng)開始了。DNA作為遺傳物質(zhì)的最初推測來自于WS sutton,他在發(fā)現(xiàn)細(xì)胞分裂過程基因的遺傳模式與染色體的行為類似這一現(xiàn)象后推論出基因位于染色體上,隨后,在科學(xué)家的工作下形成了染色體理論。然而,到底是染色體中的DNA還是核蛋白
4、是遺傳物質(zhì)依然沒有定論。Frederick Griffith和Oswald Avery等科學(xué)家的轉(zhuǎn)化實(shí)驗(yàn)以及Alfred Hershey及Martha Chase等的轉(zhuǎn)導(dǎo)實(shí)驗(yàn)給出了DNA是遺傳物質(zhì)的確切證據(jù)。受Martha等人噬菌體轉(zhuǎn)導(dǎo)實(shí)驗(yàn)的影響,Click和Watson等科學(xué)家最終于從1953年從結(jié)構(gòu)上證實(shí)了DNA是遺傳信息載體這一事實(shí)。DNA的雙螺旋結(jié)構(gòu)的發(fā)現(xiàn)以及脫氧核糖核酸鏈攜帶和傳遞遺傳信息的方式的闡明為隨后在Click提出的“序列假說”和“中心法則”這一遺傳信息如何決定生物特性學(xué)說。marshall.Nirenberg和John.Matthaei等分子遺傳學(xué)家的努力下解開了DNA基于
5、三聯(lián)體密碼的蛋白質(zhì)編碼系統(tǒng)并證明了這個(gè)編碼系統(tǒng)在生物界的通用性以后,人們就一直在尋找解讀DNA序列的方法。生物體的基因組包括了其生長發(fā)育的所有遺傳信息。而快速并準(zhǔn)確的獲取生物體的遺傳信息在生命科學(xué)的研究中具有十分重要的意義,是研究生物進(jìn)化發(fā)育的基礎(chǔ),是人們充分利用各種生物技術(shù)改善人類健康、發(fā)展以生物技術(shù)為基礎(chǔ)的育種技術(shù)的前提。DNA測序技術(shù)是解析遺傳物質(zhì)DNA所攜帶的遺傳信息的一項(xiàng)技術(shù),其主要目的就是通過一定的方法和儀器設(shè)備解讀DNA大分子上4種脫氧核糖核酸的鏈接順序,是進(jìn)一步研究和改造目的基因的基礎(chǔ)。早在1954年,Whitfeld提出了利用磷酸單脂酶的脫磷酸作用和高碘鹽的氧化作用從核苷酸鏈
6、末端分離單核苷酸從而測定其種類的方法,但這個(gè)方法因其復(fù)雜的操作要求遠(yuǎn)遠(yuǎn)不能在科學(xué)工作中實(shí)用。在科學(xué)家的不懈努力下,來自英國的Sanger及其同事和Gibert及其同事最終在DNA測序技術(shù)上取得了突破性進(jìn)展,1977年分別發(fā)展出基于雙脫氧鏈末端終止法和基于化學(xué)降解法的具有非常實(shí)用價(jià)值的DNA測序技術(shù)。DNA測序的化學(xué)降解法主要原理是利用特定的不同的化學(xué)試劑處理DNA片段,并在開始測序以前加上放射性標(biāo)記,從而造成堿基的特異性切割,得到一組具有各種不同長度的DNA片段,最后經(jīng)過凝膠電泳分離利用放射性自顯影判讀出待測序樣品的DNA序列;利用雙脫氧核糖核酸因?yàn)樽陨砣狈?-OH而使下一個(gè)核糖核酸不能參與反
7、應(yīng)的特性, Sanger測序法的主要原理是利用一種DNA聚合酶來擴(kuò)增DNA模板,由于在DNA擴(kuò)增時(shí)在dNTP中加入了ddNTP(雙脫氧核苷三磷酸),所以DNA聚合酶在模板鏈中加入雙脫氧核苷酸以后就停止擴(kuò)增從而產(chǎn)生不同長度的片段,最后通過電泳分離這些長度差異片段判讀出待測樣品的DNA序列。早期,在基于手工的Sanger測序法中,使用的是放射性標(biāo)記的引物,為了區(qū)分出四中堿基類型的終止信號(hào),一套完整的DNA測序流程由4個(gè)單獨(dú)的擴(kuò)增反應(yīng)體系構(gòu)成,每個(gè)反應(yīng)體系由含有4種dNTP,并混入限量的某一種ddNTP。最DNA測序法發(fā)明的最初幾年,由于Sanger測序法的不成熟,比如在獲得DNA樣品后,還需要通過
8、克隆的方法獲得單鏈DNA,而化學(xué)測序法由于可以直接對(duì)獲得的DNA樣品進(jìn)行測序,化學(xué)測序法得到了科學(xué)家們的喜歡,很快流行起來。相對(duì)與化學(xué)測序法,Sanger測序法具有測序效率相對(duì)較高、化學(xué)試劑特別是有毒化學(xué)試劑和化學(xué)劑量用量相對(duì)較少、易于自動(dòng)化等的特點(diǎn),因此隨著分子生物學(xué)技術(shù)的成熟,基于Sanger測序的方法很快就流行起來,特別是基于Sanger測序方法的利用熒光引物代替放射性元素進(jìn)行產(chǎn)物檢測以后,基于Sanger的測序法實(shí)現(xiàn)了半自動(dòng)化,最終完全取代了化學(xué)測序法。為了一次性的解決生物基因組所攜帶的遺傳信息,人類基因組計(jì)劃(Human Genome Project,HGP)旨在通過測定人類基因組D
9、NA約3×109對(duì)核苷酸的序列,探尋所有人類基因并確定它們在染色體上的位置,明確所有基因的結(jié)構(gòu)和功能,解讀人類的全部遺傳信息,使得人類第一次在分子水平上全面認(rèn)識(shí)自我。整個(gè)計(jì)劃的預(yù)算是30億美元。與此同時(shí),經(jīng)過20多年的積累,人們已經(jīng)用第一代測序技術(shù)完成了幾十個(gè)物種的基因組測序。這些基因組測序計(jì)劃的投入動(dòng)輒上千萬美元。然而,隨著生物研究的進(jìn)一步發(fā)展,人們研究發(fā)現(xiàn),越來越多的諸如基因組結(jié)構(gòu)的變異、SNP與人類疾病和作物表型的關(guān)系,不同個(gè)體、組織細(xì)胞基因表達(dá)的時(shí)空差異,基因組甲基化對(duì)疾病和表型的影響等問題都需要對(duì)個(gè)體基因組和不同時(shí)期的轉(zhuǎn)錄譜進(jìn)行測序。雖然基于Sanger測序方法的測序技術(shù)自
10、發(fā)明到現(xiàn)在,測序的精度、成本和速度上有了很大的提高,但相對(duì)與生物體動(dòng)輒幾百萬、上千萬、甚至達(dá)幾十億堿基數(shù)目的基因組,在測序的速度和成本上依舊顯得難以滿足人們意義增長的測序需求。圖1:第一代和第二代測序技術(shù)的原理。左邊為傳統(tǒng)sanger測序技術(shù)的基本原理,右邊有第二代測序技術(shù)的基本原理第二代測序技術(shù)的產(chǎn)生及主要測序平臺(tái)測序原理很明顯,傳統(tǒng)的基于Sanger測序原理的測序方法已經(jīng)不能滿足這一需求。于此同時(shí),隨著人類基因組測序的完成和以序列分析為基礎(chǔ)以因人治療和藥物服用的個(gè)人醫(yī)療等概念的出現(xiàn),都極大的刺激了第二代測序技術(shù)的出現(xiàn)。而其他學(xué)科如顯微鏡技術(shù)、表面化學(xué)技術(shù)、生物酶技術(shù)、芯片設(shè)計(jì)和制造技術(shù)、納
11、米技術(shù)、計(jì)算機(jī)技術(shù)等的發(fā)展和融合為DNA測序技術(shù)提供了技術(shù)基礎(chǔ)。2005年,在國際頂級(jí)的學(xué)術(shù)期刊Nature上,來美國454生命科學(xué)公司的Margulies等人發(fā)表文章介紹了一種快速簡單的測序方法:結(jié)合了DNA擴(kuò)增的乳膠系統(tǒng)(emulsion system)和皮升大小焦磷酸(pyrophosphate)為基礎(chǔ)的測序方法焦磷酸測序(pyrosequencing)方法。發(fā)明者宣稱,這種測序方法比傳統(tǒng)的Sanger測序的方法快100倍,假如利用這種方法來進(jìn)行人類基因組的測序,那么在100多天內(nèi)就可以完成。在2005年年底,454公司的研究人員將這種嶄新的測序技術(shù)轉(zhuǎn)化成了商品化的儀器Genome Se
12、quencer 20 系統(tǒng),并由羅氏應(yīng)用科學(xué)部獨(dú)家負(fù)責(zé)在全球的銷售和技術(shù)服務(wù)等工作。Genome Sequencer 20 系統(tǒng)一經(jīng)推出,就受到了國際上基因組學(xué)專家的廣泛關(guān)注,并在世界各大測序?qū)嶒?yàn)室相繼成功落戶??梢哉f,隨著Genome Sequencer 20 系統(tǒng)的不斷推廣應(yīng)用和升級(jí),快速基因組測序的時(shí)代已經(jīng)來臨,并對(duì)整個(gè)基因組學(xué)的研究將產(chǎn)生巨大的推動(dòng)作用。目前市場上的主流測序平臺(tái)主要為羅氏公司的454 GS測序平臺(tái),Illumina公司的Solexa測序平臺(tái)和Life technology公司的Solid測序平臺(tái)和PGM(Personal Genome Machine),此外,還有Pac
13、ific biosciences公司的SMRTtm(single molecular real-timesequence)單分子測序平臺(tái)。羅氏公司的454 GS高通量測序技術(shù)是一種新的依靠生物發(fā)光進(jìn)行DNA序列分析的技術(shù),在DNA聚合酶、ATP硫酸化酶、熒光素酶和雙磷酸酶的協(xié)同作用下,將引物上每一個(gè)dNTP聚合與一次熒光信號(hào)釋放偶聯(lián)起來,通過檢測熒光的釋放和強(qiáng)度,達(dá)到實(shí)時(shí)測定DNA序列的目的,此技術(shù)不需要熒光標(biāo)記的引物或核酸探針,也不需要進(jìn)行電泳,具有分析結(jié)果快速、準(zhǔn)確、靈敏度高和自動(dòng)化的特點(diǎn)。其流程概括起來就是“一個(gè)片段 = 一個(gè)磁珠 = 一條讀長(One fragment = One be
14、ad = One read)”。目前454 GS測序平臺(tái)已經(jīng)升級(jí)到第三個(gè)版本,預(yù)計(jì)測序在同等測序錯(cuò)誤率的情況下,其讀長將達(dá)1kb,此外更新了雙末端測序的流程,簡化測序流程,提高。Illumina公司的第二代測序儀Genome Analyzer最早由Solexa公司研發(fā),利用其專利核心技術(shù)“DNA簇”和“可逆性末端終結(jié)(reversible terminator)”,實(shí)現(xiàn)自動(dòng)化樣本制備及基因組數(shù)百萬個(gè)堿基大規(guī)模平行測序。Illumina公司于2007年花費(fèi)6億美金的巨資收購了Solexa,就是為了促成Genome Analyzer的商品化。Solexa測序方法是基于單分子陣列的測序技術(shù) ,此種測
15、序法首先是將DNA從細(xì)胞中提取,然后將其打斷到約100200bp大小,再將接頭連接到片段上,經(jīng)PCR擴(kuò)增后制成Library 。隨后在含有接頭的芯片(flow cell)上將已加入接頭的 DNA 片段綁定在flow cell上,經(jīng)反應(yīng),將不同片段擴(kuò)增。在下一步反應(yīng)中,四種熒光標(biāo)記的染料應(yīng)用邊合成邊測序(Sequencing By Synthesis)的原理,在每個(gè)循環(huán)過程里,熒光標(biāo)記的核苷和聚合酶被加入到單分子陣列中?;パa(bǔ)的核苷和核苷酸片斷的第一個(gè)堿基配對(duì),通過酶加入到引物上。多余的核苷被移走。這樣每個(gè)單鏈DNA分子通過互補(bǔ)堿基的配對(duì)被延伸,利用生物發(fā)光蛋白,比如螢火蟲的熒光素酶,可通過堿基加
16、到引物后端時(shí)所釋放出的焦磷酸鹽來提供檢測信號(hào)。針對(duì)每種堿基的特定波長的激光激發(fā)結(jié)合上的核苷的標(biāo)記,這個(gè)標(biāo)記會(huì)釋放出熒光。熒光信號(hào)被CCD采集,CCD快速掃描整個(gè)陣列檢測特定的結(jié)合到每個(gè)片斷上的堿基。通過上述的結(jié)合,檢測可以重復(fù)幾十、上百個(gè)循環(huán),這樣就有可能決定核苷酸片斷中的堿基序列。目前Solexa測序平臺(tái)已經(jīng)也發(fā)展到了第三代,以Hiseq2000為代表,目前測序通量為200G/run,預(yù)計(jì)在今年將升級(jí)到500G/run,支持雙末端測序。為了占領(lǐng)中小實(shí)驗(yàn)室和醫(yī)院這個(gè)廣闊的市場,Illumina將于今年4月份推出Miseq,這個(gè)簡化版的Hiseq2000,其特點(diǎn)是,測序速度快,8小時(shí)/run,產(chǎn)
17、生約1G的,2 X 150bp的雙末端序列。羅氏公司的SOLiD測序平臺(tái)全稱為supported oligo ligation detetion,其獨(dú)特之處在于以四色熒光標(biāo)記寡核苷酸的連續(xù)連接合成為基礎(chǔ),取代了傳統(tǒng)的聚合酶連接反應(yīng),可對(duì)單拷貝DNA片段進(jìn)行大規(guī)模擴(kuò)增和高通量并行測序。SOLiD測序的主要技術(shù)特點(diǎn)是微乳液PCR、邊連接邊測序(Sequence By Ligation, SBL)和雙堿基編碼技術(shù)(two-base encoding)。與454測序一樣,將待測序片段兩端連上接頭,被綁定到磁珠上進(jìn)行乳液PCR,只不過SOLiD所用的磁珠更小,直徑只有1m(454的磁珠是28m)。和45
18、4不同的是,PCR擴(kuò)增后,小磁珠被富集起來固定到固態(tài)平板上,由DNA連接酶將一個(gè)被熒光標(biāo)記的8bp長的核酸探針片段按照堿基互補(bǔ)規(guī)則與單鏈DNA模板鏈配對(duì),每個(gè)堿基判讀兩遍,從而減少原始數(shù)據(jù)錯(cuò)誤,提供內(nèi)在的校對(duì)功能。目前SOLiD測序平臺(tái)已經(jīng)發(fā)展到了第五代,測序讀出為2 X 75bp,通量約為200300Gb/run,支持雙末端測序。羅氏公司的PGM測序平臺(tái)是在收購Ion Torrent公司的測序儀基礎(chǔ)上推出的第二代測序技術(shù)。該技術(shù)使用了一種高密度半導(dǎo)體芯片,芯片上布滿了小孔,這些小孔就是一個(gè)個(gè)的測序反應(yīng)池。當(dāng)DNA聚合酶在每一個(gè)單分子模板鏈上滑動(dòng),發(fā)生聚合反應(yīng)時(shí),每當(dāng)有一個(gè)核苷酸被摻入,就會(huì)有
19、一個(gè)系統(tǒng)記錄到這個(gè)事件,該系統(tǒng)會(huì)檢測到DNA鏈延長時(shí)釋放出的氫離子信號(hào)辨別出相應(yīng)的堿基。Pacific biosciences 公司發(fā)明的SMRTtm(single molecular real-timesequence)單分子實(shí)時(shí)DNA測序系列測序儀,第一次使得實(shí)時(shí)觀測DNA的合成過程成為可能,開創(chuàng)了第三代測序技術(shù)的新河。與其他第二代測序技術(shù)的最大區(qū)別在于序列的讀長更長可以達(dá)到幾個(gè)Kb甚至上百Kb、測序速度更快(每個(gè)read在1分鐘內(nèi)能完成13個(gè)堿基的測序)。作為第一個(gè)基于單分子的DNA測序儀,其所依賴的主要關(guān)鍵技術(shù)有三個(gè):一是納米微孔,這是能實(shí)時(shí)觀測DNA合成的過程的關(guān)鍵。在顯微鏡實(shí)時(shí)記錄
20、DNA鏈上的熒光的時(shí)候,DNA鏈周圍的眾多的熒光標(biāo)記的脫氧核苷酸形成了非常強(qiáng)大的熒光背景。這種強(qiáng)大的熒光背景使單分子的熒光探測成為不可能。Pacific Biosciences公司發(fā)明了一種直徑只有幾十納米的納米孔zero-mode waveguides (ZMWs),單分子的DNA聚合酶被固定在這個(gè)孔內(nèi)。在這么小的孔內(nèi),DNA鏈周圍的熒光標(biāo)記的脫氧核苷酸有限,而且由于A,T,C,G這四種熒光標(biāo)記的脫氧核苷酸非??焖俚貜耐饷孢M(jìn)入到孔內(nèi)又出去,它們形成了非常穩(wěn)定的背景熒光信號(hào)。而當(dāng)某一種熒光標(biāo)記的脫氧核苷酸被摻入到DNA鏈時(shí),這種特定顏色的熒光會(huì)持續(xù)一小段時(shí)間,直到新的化學(xué)鍵形成,熒光基團(tuán)被DN
21、A聚合酶切除為止。二是標(biāo)記于磷酸基團(tuán)上的核苷酸熒光標(biāo)記技術(shù),這是保證DNA合成得以持續(xù)進(jìn)行的關(guān)鍵。當(dāng)熒光標(biāo)記的脫氧核苷酸被摻入DNA鏈的時(shí)候,它的熒光就同時(shí)能在DNA鏈上探測到。當(dāng)它與DNA鏈形成化學(xué)鍵的時(shí)候,它的熒光基團(tuán)就被DNA聚合酶切除,熒光消失。這種熒光標(biāo)記的脫氧核苷酸不會(huì)影響DNA聚合酶的活性,并且在熒光被切除之后,合成的DNA鏈和天然的DNA鏈完全一樣。三是基于共聚焦顯微鏡的實(shí)時(shí)信號(hào)檢測平臺(tái)。評(píng)價(jià)測序儀的指標(biāo)通??梢苑譃閮刹糠?,一個(gè)是測序平臺(tái)的可用性,包括:(1)通量,也就是說一次測序反應(yīng)所能得到的序列的數(shù)目,目前通量最高的應(yīng)該是illumina的Hiseq2000,通量是200G
22、,有些實(shí)驗(yàn)室已經(jīng)可以做到350G的通量了,(2)最小測序單位成本,也就是一次反應(yīng)所需要的費(fèi)用,這決定了多大的項(xiàng)目才值得進(jìn)行這樣的測序,比如說,你只想測序幾個(gè)克隆,顯然是不能考慮用Hiseq2000的,因?yàn)樗淮螠y序反應(yīng)的費(fèi)用到10萬人民幣,即使只用一個(gè)lane進(jìn)行測序也要3萬人民幣左右,因此從費(fèi)用上來說是非常不合算的,通量也大大的超過了測序幾個(gè)克隆所需要的通量。但如果Hiseq2000一次測序反應(yīng)的費(fèi)用只要幾十人民幣,哪就可以考慮這個(gè)方法了。(3)單位成本,也就是測序單位堿基所需要的費(fèi)用,這是項(xiàng)目總成本的一個(gè)決定因素之一。(4)讀長,也就是說每條read的長度,這是一個(gè)非常重要的參數(shù),read
23、越長,說明其蘊(yùn)含的信息越多,在mapping和拼接的時(shí)候,所得到的定位結(jié)果和拼接結(jié)果也就越可靠,對(duì)拼接來說也就越容易,完成一個(gè)基因組測序所需要的覆蓋度也就越低,同時(shí)也就越有可能高精度的完成高復(fù)雜度的基因組的測序。(5)測序的速度,也就是說單位時(shí)間內(nèi)完成的堿基數(shù),如果完成1M個(gè)堿基的測序需要1年的時(shí)間,即使這樣的測序技術(shù)成本低到不要錢也是沒有適用價(jià)值的,(6)測序的精度,也就是說測序的錯(cuò)誤率,錯(cuò)誤率越低,完成一定序列分析任務(wù)所需的通量就越少。(7)所能提供的測序方式,mate-paired測序,tripe-meta-測序等,如果提供mate-paired測序,插入片段的長度可以達(dá)到多長,有多大的
24、可靠性等。(8)獲得測序數(shù)據(jù)的后續(xù)分析是否方便,配套的外圍設(shè)備的豐富程度、可用的軟件是否豐富等。(9)進(jìn)行DNA測序所需要的樣品量的濃度。另一個(gè)是擴(kuò)展性,指平臺(tái)的升級(jí)的可能性,這是指隨著測序技術(shù)的改進(jìn),包括(1)已有的測序平臺(tái)能否通過更換部件而得到升級(jí),(2)信號(hào)的讀取的類型,是指測序信號(hào)是通過照相來獲取還是直接通過電流來獲取,(3)反應(yīng)體系的類型,如通過聚合酶一邊合成一邊測序的反應(yīng)體系,不需要聚合酶的反應(yīng)體系等。第二代測技術(shù)的特點(diǎn)從上面所介紹的幾種非常有代表性的測序技術(shù)原理來看,他們都有些共同的特點(diǎn):既測序的高度并行化和DNA合成與序列測定的同時(shí)化。傳統(tǒng)的第二代測序技術(shù)通過縮小DNA合成所需
25、要的空間(通常每一個(gè)用于DNA測序的“孔“的直徑都不到1微米),從而達(dá)到測序反應(yīng)的高度并行話;通過使用高精度的光學(xué)儀器,檢測DNA合成過程中的熒光信號(hào)變化,讀取DNA序列。測序的高度并行化和反映空間的微小化,使得第二代測序技術(shù)有以下特點(diǎn):(1) 采用體外構(gòu)建DNA文庫及體外擴(kuò)增技術(shù),解決了傳統(tǒng)sanger測序技術(shù)中的幾個(gè)限制測序規(guī)模的瓶頸問題,如大腸桿菌轉(zhuǎn)換及陽性克隆挑選等問題。(2) 通量大,通常一此測序能產(chǎn)生幾十Gb甚至上百Gb的序列。(3) 伴隨通量大的優(yōu)點(diǎn)是,序列讀長比較短,通常只有100200bp左右。但隨著技術(shù)的發(fā)展,這一劣勢有望別突破,比如升級(jí)后的454 GS測序平臺(tái),序列讀長可
26、以將達(dá)到1kb(4) 因?yàn)镈NA測序的空間小,同時(shí)對(duì)成千萬上億個(gè)模板進(jìn)行測序反應(yīng),測序反應(yīng)的試劑通常只需要幾毫升甚至幾微升的量,從而極大的降低了測序費(fèi)用。通常每一此測序反應(yīng)的成本都在10萬到20萬之間。產(chǎn)生幾十G到幾百G的序列(5) 測序速度快,每一輪測序所需的時(shí)間通常在2周以內(nèi)。(6) 準(zhǔn)確率相對(duì)于sanger測序技術(shù)來說,比較低,而且不同測序技術(shù)有不同的錯(cuò)誤特點(diǎn)。比如454 GS測序平臺(tái)通常有漏讀發(fā)生;Solexa測序平臺(tái)在第一個(gè)堿基的質(zhì)量非常低,其堿基質(zhì)量通常由5-3逐步降低,3端序列的錯(cuò)誤率通常是5端錯(cuò)誤率的幾倍,甚至上十倍;所有測序平臺(tái)對(duì)GC含量都有偏愛新,對(duì)過高GC含量和過低GC含
27、量的序列測序量明顯比中等GC含量低。第二代測序技術(shù)的基本分析流程數(shù)據(jù)分析的過程,就是操作整理數(shù)據(jù)的過程。對(duì)于大規(guī)模數(shù)據(jù)和需要高計(jì)算量的分析過程來說,所有的數(shù)據(jù)操作和整理過程都需要軟件來支持。第二代測序技術(shù)的序列分析也不例外。目前,針對(duì)第二代測序技術(shù)已經(jīng)發(fā)展了各種各樣的分析工具,這些工具各有特點(diǎn),適用于不同方面。從軟件的作用來說,可以分成兩類:一類是對(duì)序列進(jìn)行排序操作的軟件,這類軟件的主要作用就是去冗余,把數(shù)據(jù)按照一定的規(guī)整和要求整合到一起,為后面的分析做準(zhǔn)備,主要的實(shí)現(xiàn)方法是序列拼接和定位;還有一類是通過各種數(shù)理方法,在遵循生物學(xué)基礎(chǔ)上進(jìn)行知識(shí)發(fā)現(xiàn)的軟件,包括基因組結(jié)構(gòu)變異分析、snp分析、可
28、變剪切分析、等位基因表達(dá)差異分析等。從信息處理和知識(shí)獲取的角度來說,序列分析主要包括四個(gè)方面的內(nèi)容:(1)序列數(shù)據(jù)的獲取、存儲(chǔ)和交換。任何信息處理的開始步驟都是數(shù)據(jù),因此數(shù)據(jù)的獲取是進(jìn)行數(shù)據(jù)處理和分析的基礎(chǔ)。第二代測序技術(shù)條件下的數(shù)據(jù)獲取過程,主要包括測序儀生產(chǎn)的原始數(shù)據(jù)(稱為測序),然后通過特定的軟件把原始數(shù)據(jù)蘊(yùn)含的序列信息提取出來并對(duì)提取序列的質(zhì)量進(jìn)行評(píng)估稱為base calling。數(shù)據(jù)的存儲(chǔ)與交換是指數(shù)據(jù)應(yīng)該以什么樣的格式存儲(chǔ),從而方便提取,分布在不同物理位置的不同研究人員共享,為不同分析軟件提供一種方便轉(zhuǎn)換的數(shù)據(jù)格式。數(shù)據(jù)的交換和整合,從來都是生物信息學(xué)的一個(gè)重要研究方向,隨著高通量
29、技術(shù)和方法的不停發(fā)展,數(shù)據(jù)的交換和整合除了數(shù)據(jù)存儲(chǔ)和交換的格式以外,如何通過有效的方法來減小數(shù)據(jù)的容量以有效的存儲(chǔ)和傳輸數(shù)據(jù)也日益成為生物信息學(xué)的一個(gè)重要研究方向。(2)序列的去冗余。數(shù)據(jù)的去冗余是指:如何把序列規(guī)整為統(tǒng)一的,更具有信息的形式,對(duì)DNA序列來說,主要是序列的拼接(assembly)和定位(mapping),通過拼接可以把短的序列變成更一致的長的序列,而通過定位方法,可以把很多分散的短序列歸一到參考序列的對(duì)應(yīng)位置上,從這點(diǎn)來看,序列的去冗余是DNA序列數(shù)據(jù)分析的基礎(chǔ),通過這一步把所有序列數(shù)據(jù)統(tǒng)一起來,從而實(shí)現(xiàn)不同序列數(shù)據(jù)的比較和分析,是隨后進(jìn)行更深入序列分析的基礎(chǔ)。(3)序列數(shù)據(jù)
30、的分析和知識(shí)提取,這也是描述第二代測序技術(shù)的應(yīng)用的主要方面。這一步的主要目的就是根據(jù)實(shí)驗(yàn)?zāi)康模谏飳W(xué)知識(shí)的指導(dǎo)下,使用各種的數(shù)理統(tǒng)計(jì)方法對(duì)去冗余的數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)數(shù)據(jù)的生物學(xué)意義。對(duì)第二代測序技術(shù)來說,主要包括覆蓋的的統(tǒng)計(jì)、表達(dá)差異,基因組結(jié)構(gòu)和SNP的分析等等。使用的主要數(shù)理方法將是基于泊松分布發(fā)展而來的各種分析工具和程序。(4)結(jié)果的展示。主要對(duì)得到的結(jié)果通過圖形圖像的方法展示出來為數(shù)據(jù)接收提供支持。圖2:第二代測序技術(shù)的的基本分析流程。主要包括序列的獲取、數(shù)據(jù)的去冗余、數(shù)據(jù)的分析和結(jié)果的解釋展現(xiàn)等四部份。每一部分都有相應(yīng)的分析工具支持。下面對(duì)第二代測序技術(shù)的四個(gè)處理流程所涉及到的軟件
31、及其原理分別進(jìn)行詳細(xì)的論述。數(shù)據(jù)的獲取、格式的轉(zhuǎn)換和壓縮。對(duì)測序來說,數(shù)據(jù)的獲取就是DNA測序儀序列產(chǎn)生DNA原始文件的過過程。目前第二代測序儀,除了life Technology公司的PGM基于電壓變化進(jìn)行序列讀取不產(chǎn)生圖像文件以外,其他商業(yè)測序平臺(tái)都是通過拍攝測序過程中,DNA序列合成釋放的光信號(hào)圖像來獲得DNA序列的最原始圖像數(shù)據(jù),產(chǎn)生的是圖像文件。對(duì)每一次完整的測序過程來說,其獲得的圖像數(shù)目非常多,每一幅圖像所占據(jù)的存儲(chǔ)空間也非常的大,最后導(dǎo)致總的圖像文件通常需要數(shù)千甚至數(shù)萬G的磁盤空間來存儲(chǔ),如Hiseq2000運(yùn)行一次產(chǎn)生的圖像數(shù)據(jù)高達(dá)32T(3,2000G),在數(shù)據(jù)交換和分析中直
32、接使用這些圖像數(shù)據(jù)是非常不切實(shí)際的。所以每一個(gè)測序平臺(tái)最后交付給用戶的序列格式都是通過轉(zhuǎn)換的、比原始圖像文件小很多的序列文件(上面32T的圖像文件,經(jīng)過轉(zhuǎn)換為fastq格式后,只有800G)。通常來說,每一個(gè)測序平臺(tái)產(chǎn)生的原始圖像文件,都必須通過隨機(jī)附帶的圖像處理軟件處理生成代表序列及其質(zhì)量的序列文件,因?yàn)檫@一步處理與測序儀的電氣理化性質(zhì)極其相關(guān),因此第三方通常不具備開發(fā)出同樣軟件的實(shí)力。雖然每種測序平臺(tái)都給出了代表其序列及其質(zhì)量的序列文件,然而不同平臺(tái)卻產(chǎn)生格式完全不同的原始序列文件,即使是同一個(gè)測序平臺(tái)下,不同測序儀版本產(chǎn)生的原始序列文件也存在差異。為了便于數(shù)據(jù)的后續(xù)處理,各種數(shù)據(jù)使用者和
33、分析者通常希望能有一個(gè)序列數(shù)據(jù)格式,以方便來自不同測序平臺(tái)序列數(shù)據(jù)的綜合處理,同時(shí)也能減少各種序列處理軟件的開發(fā)難度。目前,最為廣大生物學(xué)研究者熟悉和接受的序列數(shù)據(jù)格式是已經(jīng)被使用了近30年的由fasta格式衍生出來的Sanger fastq序列格式,是序列文件實(shí)際上的標(biāo)準(zhǔn)。目前基于這個(gè)數(shù)據(jù)格式,特別是其稱為phred Scores的堿基質(zhì)量評(píng)價(jià)方式,已經(jīng)發(fā)展出了很多算法和生物信息學(xué)分析工具。Solexa測序平臺(tái)給出的序列格式也稱為fastq格式,有三個(gè)不同版本,分別對(duì)應(yīng)三Solexa不同版本的測序儀,分別稱為Solexa/Illumina 1.0 Fastq,Illimina 1.3+ Fa
34、stq和Illimina 1.5+ Fastq序列格式。其中,Solexa/Illumina 1.0 Fastq和Sanger Fastq在對(duì)堿基質(zhì)量的評(píng)價(jià)所用的函數(shù)和對(duì)表述堿基質(zhì)量所用的編碼字母不同,Illimina 1.3+ Fastq和Illimina 1.5+ Fastq只在對(duì)表述堿基質(zhì)量所用的編碼不同,而在堿基質(zhì)量的評(píng)價(jià)函數(shù)上相同,Illumina 1.3+ Fastq和Illimina 1.5+ Fastq也只在對(duì)表述堿基質(zhì)量所用編碼的不同上,在Illimina 1.5+ Fastq格式里,對(duì)于那些質(zhì)量低于Q15的堿基,其質(zhì)量統(tǒng)統(tǒng)用Q3(字母B)表示,因此從字母“C”開始到字母“N
35、”結(jié)束的字母不存在Illimina 1.5+ Fastq格式里。此外,Solexa測序平臺(tái)還提供Qseq(與Fastq格式相似)、sline格式(把Fastq格式的信息包含在一行里)和SCARF格式的文件(把所有Fastq格式包含的信息,以及由Solexa pipeline所提供的所有信息)。來自羅氏454 GS-FLX測序儀產(chǎn)生的序列文件格式為SFF(Standard Flowgram Format),這是一種二進(jìn)制格式的文件,每一個(gè)文件包括一個(gè)文件頭和多個(gè)數(shù)據(jù)塊。其中文件頭包括了序列的基本信息,如機(jī)器和圖像處理文件的版本、文件所包含的序列數(shù)等;數(shù)據(jù)塊則是每一條具體序列的信息,包括描述了數(shù)據(jù)
36、塊里序列的長度、序列的命名、序列和序列質(zhì)量的起始位置以及相對(duì)偏移量等的數(shù)據(jù)塊頭和包含具體序列及序列質(zhì)量的數(shù)據(jù)。此外還提供Fna-Qual格式的序列文件,這種格式把序列和與序列對(duì)應(yīng)的堿基質(zhì)量分別放在以Fna和Qual為后綴的文件里,數(shù)據(jù)處理時(shí),如果用到質(zhì)量文件,則從Qual文件中讀入。目前雖然有很多序列分析軟件可以直接從SFF格式文件開始數(shù)據(jù)分析,但更多的軟件還是需要把SFF格式轉(zhuǎn)換為Fna-Qual格式才能進(jìn)行下一步的數(shù)據(jù)處理。Life Technology的SolidTM系列測序儀產(chǎn)生的數(shù)據(jù)格式為CSFASTA,其格式跟fasta格式一樣,但在對(duì)序列的編碼上使用顏色空間編碼(color-sp
37、ace):既一個(gè)前綴字符【A或者T或者C或者G】然后是0-4的四個(gè)數(shù)字,根據(jù)顏色空間中數(shù)字與堿基的對(duì)應(yīng)編碼可以讀出相應(yīng)的序列。如,經(jīng)過編碼翻譯后為GTGCACCGTGCACG。去年年底的時(shí)候,Life Technology還推出了PGM【Personal Genome Machine】測序儀,第一個(gè)半導(dǎo)體的測序儀,通過DNA合成反應(yīng)PH值的變化來直接判讀DNA的序列,其輸出格式為SFF和FastQ格式。圖3:fastq格式的定義說明。以一條fastq格式的序列包括4行。第一行以“”開頭,隨后為序列的名稱,隨后是空格,空格后是序列的其他相關(guān)信息;第二行為序列本身;第三行以“+”開頭,隨后或者是空
38、白或者為第一行除“”外的所有信息;第四行為對(duì)應(yīng)序列的堿基測序質(zhì)量值,一般用ASCII碼表示。圖4:Sanger fastq、Solexa fastq、Illumina 1.3+ fastq、Illumina 1.5+ fastq關(guān)系。左上為sanger fastq和solexa fastq的堿基質(zhì)量轉(zhuǎn)換圖,右上分別為sanger fastq和solexa fastq的堿基質(zhì)量評(píng)價(jià)函數(shù)和相互之間的轉(zhuǎn)換函數(shù)。左下為4個(gè)fastq格式所用的ASCII編碼及相互之間的對(duì)應(yīng)關(guān)系。(來自wiki)除了某些特別的分析軟件,為了充分利用原始序列文件的信息輔助分析外,其他的分析軟件一般都需要把文件轉(zhuǎn)換為Fast
39、q格式或Fna-Qual格式。除了Illumina公司外,其他測序儀平臺(tái)所附帶的軟件都提供轉(zhuǎn)換到Fastq或Fna-Qual格式的功能。此外,目前的一些序列分析軟件,比如MAQ也提供這樣的功能。在perl、python、java、C#等程序設(shè)計(jì)語言的生物信息學(xué)程序庫中,都能找到各種序列格式轉(zhuǎn)換的程序包,在數(shù)據(jù)處理時(shí),格式的轉(zhuǎn)換應(yīng)該不是一個(gè)很大的問題。對(duì)于那些沒有腳本編寫或者因?yàn)榉N種原因不能使用這些腳本庫的生物學(xué)家,可以考慮使用Arang Rhile 等開發(fā)的Pyrus軟件(隨著測序技術(shù)的快速發(fā)展,測序的通量越來越高,數(shù)據(jù)的存儲(chǔ)和交換也逐漸成為生物學(xué)家必須考慮的問題。目前的主流測序平臺(tái),產(chǎn)生的數(shù)
40、據(jù)都是以G計(jì)算,比如Hiseq2000,每一次完整的運(yùn)行只需要8天,而產(chǎn)生的序列就達(dá)到200G,加上各種質(zhì)量文件和其他信息,轉(zhuǎn)換成Fastq后的數(shù)據(jù)一般有800G,相當(dāng)于每天產(chǎn)生100G的數(shù)據(jù)。而且Hiseq2000目前已經(jīng)開始升級(jí),升級(jí)后的測序通量預(yù)計(jì)將達(dá)500G,在2011年底將升級(jí)到1T(1000G)的測序通量,同樣的如果把這些序列都轉(zhuǎn)換成Fastq格式,將分別達(dá)2T和4T,而NCBI的NR數(shù)據(jù)庫也只有50G左右的DNA序列數(shù)據(jù)??梢韵胂?,像BGI這樣光Hiseq2000就有128臺(tái)的測序中心,每年產(chǎn)生的數(shù)據(jù)將是一個(gè)天文數(shù)字,光是存儲(chǔ)這些數(shù)據(jù)就是一項(xiàng)艱巨無比的任務(wù)。此外,這樣龐大的數(shù)據(jù),
41、也是給第一代測序技術(shù)期間建立起來的數(shù)據(jù)分發(fā)和交換技術(shù)帶來了巨大的挑戰(zhàn),由于第一代測序技術(shù)說產(chǎn)生的數(shù)據(jù)量通常都以kb,多的時(shí)候也至多以Mb計(jì)算,因此,傳統(tǒng)的序列分發(fā)和交換大多是基于http和ftp服務(wù)進(jìn)行的,在數(shù)據(jù)量小的時(shí)候,這種方法能有效、快速的完成相應(yīng)的工作。但當(dāng)需要分發(fā)很交換的數(shù)據(jù)通常以幾十甚至幾千G的時(shí)候,這種方法的局限性就暴露出來了。首先,數(shù)據(jù)傳輸?shù)乃俣扔邢?,特別是在國與國之間的數(shù)據(jù)傳輸速度上。通常來說,在網(wǎng)絡(luò)發(fā)達(dá)的國家,如韓國、日本、美國等國家,其國內(nèi)網(wǎng)絡(luò)傳輸速度可以達(dá)到1030Mb/s,在這些國家間的傳輸速度也能在110Mb/s之間,在這一的速度下,在其國內(nèi)傳輸800G的數(shù)據(jù)需要約
42、12個(gè)小時(shí)的時(shí)間,而在國際間傳輸數(shù)據(jù)則需要2天左右。而在網(wǎng)絡(luò)不大發(fā)達(dá)的國家如中國,其國內(nèi)數(shù)據(jù)傳輸?shù)乃俣纫话阍?M一下,通常只有200300kb(特別是教育網(wǎng)、中國電信、中國聯(lián)通等不同網(wǎng)絡(luò)服務(wù)商的用戶之間的數(shù)據(jù)傳輸速度更是慢),國際的數(shù)據(jù)傳輸服務(wù)通常在100kb左右。這種情況下國內(nèi)傳輸800G的數(shù)據(jù)需要1030天的時(shí)間,如果在國際間傳輸這800G數(shù)據(jù)則需要92天的時(shí)間。其次,長時(shí)間的網(wǎng)絡(luò)傳輸速度,對(duì)網(wǎng)絡(luò)的穩(wěn)健性提出了更高的要求,在數(shù)據(jù)傳輸?shù)臅r(shí)候,網(wǎng)絡(luò)不能中斷,網(wǎng)絡(luò)中斷,有網(wǎng)絡(luò)方面的原因,也有客戶端電腦的原因,通常來說,要保證網(wǎng)絡(luò)能幾天甚至幾十天正常工作,是一件十分困難的任務(wù)。這樣,以前不存在問題
43、的數(shù)據(jù)存儲(chǔ)和分發(fā)交換,現(xiàn)在也逐步成為生物學(xué)數(shù)據(jù)分析所必需考慮的問題。對(duì)于海量數(shù)據(jù)的有效存儲(chǔ)、分發(fā)和交換,唯一有效的方法是對(duì)海量數(shù)據(jù)進(jìn)行壓縮。對(duì)數(shù)據(jù)壓縮技術(shù)的研究,從有計(jì)算機(jī)的時(shí)代就已經(jīng)開始進(jìn)行的,1948年有香濃開創(chuàng)的信息論為數(shù)據(jù)壓縮提供了理論基礎(chǔ),并提出了用于數(shù)據(jù)壓縮的香濃碼。從第一有使用意義的數(shù)據(jù)壓縮算法霍夫曼編碼開始,到現(xiàn)在已經(jīng)發(fā)展了幾十中數(shù)據(jù)壓縮算法,其中使用比較廣泛的有算術(shù)編碼算法、LZ系列算法等。對(duì)DNA序列的壓縮技術(shù)的研究,大致分為兩種方法,一個(gè)是基于傳統(tǒng)通用數(shù)據(jù)壓縮算法的數(shù)據(jù)壓縮技術(shù),一個(gè)是基于參考序列的數(shù)據(jù)壓縮技術(shù)。最開始,因?yàn)镈NA數(shù)據(jù)量比較小,采用經(jīng)典通用的數(shù)據(jù)算法,通常
44、可以把序列數(shù)據(jù)壓縮到可以承受的范圍之內(nèi)。比如gzip壓縮軟件,可以把FastQ格式的序列文件壓縮為原來的三分之一到五分之一。但隨著數(shù)據(jù)量的增大,這樣的壓縮效率顯然不能滿足生物信息學(xué)家對(duì)數(shù)據(jù)存儲(chǔ)和分發(fā)交換的要求。此外,在壓縮數(shù)據(jù)的同時(shí),為了滿足數(shù)據(jù)分析的需要,也需要能有一個(gè)有效的方法從壓縮的序列文件里快速的提取出需要的序列,基于這樣的想法。Waibhav Tembe等人結(jié)合Fastq序列文件格式的特點(diǎn),對(duì)基于霍夫曼編碼技術(shù)的數(shù)據(jù)壓縮算法進(jìn)行了改進(jìn),提出了G-SQZ Fastq數(shù)據(jù)壓縮算法。這種數(shù)據(jù)壓縮算法比gzip、bzip等通用壓縮軟件能更有效的壓縮Fastq格式的數(shù)據(jù),壓縮效率提高了幾個(gè)百分
45、點(diǎn),壓縮程度稍有提高。但G-SQZ的特點(diǎn)還是在于其實(shí)現(xiàn)了基于序列名稱檢索特定序列的功能。然而,雖然G-SQZ在Fastq格式的數(shù)據(jù)壓縮率上,比gzip和bzip等數(shù)據(jù)壓縮軟件有了更好的,但從根本上來說,其壓縮效率的提升幅度與數(shù)據(jù)產(chǎn)生的速度相對(duì)還是非常的限制。從理論上說,如果把Fastq格式的DNA序列當(dāng)作一般的文本文件,在此基礎(chǔ)上想對(duì)這些常規(guī)壓縮技術(shù)進(jìn)行改進(jìn)從而提升壓縮效率是非常困難的,因?yàn)?,gzip等軟件的壓縮效率已經(jīng)基本上逼近了信息理論所給出的信息熵。為了進(jìn)一步提高對(duì)序列數(shù)據(jù)的壓縮效率,生物信息學(xué)家們有提出了基于參考序列的數(shù)據(jù)壓縮技術(shù)。Shannon 的信息論告訴我們,對(duì)信息的先驗(yàn)知識(shí)越多
46、,我們就可以把信息壓縮得越小。換句話說,如果壓縮算法的設(shè)計(jì)目標(biāo)不是任意的數(shù)據(jù)源,而是基本屬性已知的特種數(shù)據(jù),壓縮的效果就會(huì)進(jìn)一步提高。這提醒我們,如果能對(duì)DNA序列特有的屬性進(jìn)行研究,然后把這些屬性應(yīng)用到DNA序列的壓縮算法中,一定可以及顯著的提高序列壓縮的效率?;趨⒖夹蛄械臄?shù)據(jù)壓縮技術(shù),就是充分利用特定物種的DNA序列在個(gè)體之間的差異很小的特點(diǎn)開發(fā)出來的數(shù)據(jù)壓縮算法。如果已經(jīng)有了某一物種的參考序列,那么可以預(yù)計(jì),對(duì)于這個(gè)物種的某一個(gè)體進(jìn)行基因組測序所獲得的所有序列,除了小部分以外,在允許錯(cuò)配和gap存在的條件下,都應(yīng)該可以重新定位回參考序列之上,因此在存在數(shù)據(jù)時(shí),我們只需要對(duì)序列的名稱、其
47、所在參考序列的位置以及與參考序列有差異的位點(diǎn),對(duì)DNA序列的壓縮應(yīng)該達(dá)到非常高的壓縮效率?;谶@樣的設(shè)想,Scott Christley等人開發(fā)了一種針對(duì)個(gè)體基因組拼接序列的數(shù)據(jù)壓縮算法和軟件,把達(dá)到3G的James Watson的基因組序列壓縮到只有4Mb大小,這樣的大小的數(shù)據(jù)可以隨時(shí)通過電子郵件的附件發(fā)送。Marty C. Brandon等人則進(jìn)一步發(fā)展了這種思想,開發(fā)了適用性更廣的軟件,對(duì)多種DNA序列片段序列的壓縮效率高達(dá)幾百倍。然而這些軟件對(duì)第二代測序技術(shù)序列的壓縮的支持依舊不夠。此后,Heng Li等人,根據(jù)序列定位的特點(diǎn),以擴(kuò)展的CIGAR(Compact Idiosyncrat
48、ic Gapped Alignment Report)為基礎(chǔ),提出了SAM/BAM這一序列比對(duì)/定位數(shù)據(jù)格式,并開發(fā)出了相應(yīng)的軟件samtools,其可以把Fastq格式的數(shù)據(jù)壓縮為原來的九分之一到十分之一左右。隨后,Markus Hsi-Yang Fritz和 Christos Kozanitts等人針對(duì)DNA測序序列分別開發(fā)出mzip和SlimGene序列壓縮軟件,對(duì)Fastq格式的序列數(shù)據(jù)的壓縮率達(dá)到10以上下,好的時(shí)候可以達(dá)到14。其中mzip通過序列拼接的方法把不能定位到參考序列的序列構(gòu)建成contigs,再把這些序列定位到這些contigs上,從而增加數(shù)據(jù)的壓縮效果。雖然基于參考序
49、列的數(shù)據(jù)壓縮算法能有效的壓縮序列數(shù)據(jù)。然而遺憾的是,對(duì)于絕大多數(shù)沒有參考序列的物種來說,序列數(shù)據(jù)依舊得不到有效的壓縮。從序列數(shù)據(jù)的壓縮方法的發(fā)展來看,沒有參考序列物種的測序序列依舊可以有效的利用基于參考序列算法的數(shù)據(jù)壓縮技術(shù),因?yàn)閰⒖夹蛄锌梢詮拇龎嚎s的序列數(shù)據(jù)通過拼接獲得,關(guān)鍵的問題是,如何根據(jù)數(shù)據(jù)壓縮的特點(diǎn)和要求,開發(fā)有效的拼接算法,對(duì)測序數(shù)據(jù)進(jìn)行有效的拼接。通常來說,開發(fā)一個(gè)能完美的拼接整個(gè)基因組的拼接軟件和算法是異常困難的。然而值得慶幸的是,開發(fā)滿足于數(shù)據(jù)壓縮要求序列拼接軟件算法要比拼接出整個(gè)基因組的算法要簡單的多,對(duì)于前者來說,其不需要考慮由于重復(fù)序列造成的錯(cuò)拼、漏拼等問題,同時(shí)對(duì)那些
50、與初步拼接好的contigs非常相似的序列也不需要保存在內(nèi)存中,只需在拼接完畢以后自己通過mapping的方法就可以有效的定位到參考序列上。這些特點(diǎn)都能大大減低序列拼接的復(fù)雜性。 圖5:基于參考序列的序列壓縮算法的基本原理。通過把序列定位到參考序列,然后以參考序列為基礎(chǔ)只存在序列的名稱和定位位置以及匹配信息的方法到到數(shù)據(jù)壓縮的目的。序列數(shù)據(jù)的去冗余序列數(shù)據(jù)去冗余就是數(shù)據(jù)的過濾和歸并,其中數(shù)據(jù)的歸并主要是序列的拼接(assembly)和定位(mapping),也包括。不管是什么樣的測序平臺(tái),都會(huì)因?yàn)楦鞣N系統(tǒng)的原因使測序產(chǎn)生各種錯(cuò)誤,或產(chǎn)生的序列達(dá)不到一定的分析要求,數(shù)據(jù)過濾的主要作用就是,對(duì)這些
51、產(chǎn)生的數(shù)據(jù)進(jìn)行質(zhì)量控制分析,然后根據(jù)一定的要求或者修正序列的錯(cuò)誤或者把含有錯(cuò)誤和低質(zhì)量的序列去除,以免影響給后續(xù)的數(shù)據(jù)分析帶來干擾。數(shù)據(jù)歸并是DNA序列分析的真正開始階段,從生物學(xué)的角度來說,拼接和定位有著完全不同的目標(biāo),拼接的主要目的就是通過相對(duì)較短的序列構(gòu)建出完整的染色體DNA序列;而定位的任務(wù)是把相對(duì)較短的序列定位到已經(jīng)構(gòu)建好的DNA序列上,這個(gè)構(gòu)建好的序列稱為參考序列(reference sequence),其主要目的是以參考序列為橋梁,把來自多個(gè)不同樣品的序列歸并到一起以便分析和比較。從計(jì)算機(jī)的角度來說,拼接就是一種有層次的數(shù)據(jù)結(jié)構(gòu),這種數(shù)據(jù)結(jié)構(gòu)能夠把測序獲得的序列定位(mappin
52、g)到已經(jīng)構(gòu)建好的目標(biāo)序列上。而定位,從計(jì)算機(jī)的角度來說,就是在一個(gè)長的字符串里找出子串,使字串與給定的字符串序列相當(dāng)。所以說, assembly有兩個(gè)主要的工作任務(wù),一個(gè)是構(gòu)建出目標(biāo)序列,另一個(gè)是把測序的序列定位到構(gòu)建好的目標(biāo)序列上,在實(shí)際的拼接算法中,這兩個(gè)任務(wù)不分彼此和先后,同屬于一個(gè)過程。從另一種意義上說,序列的拼接是序列的定位過程,是定位的一個(gè)特例。Mapping和assembly是第二代測序技術(shù)DNA分析的兩個(gè)基本手段和方法,是所有后續(xù)分析的基礎(chǔ)。序列的過濾任何序列數(shù)據(jù)處理都對(duì)待分析處理的數(shù)據(jù)有一定的要求,這些要求包括,獲取數(shù)據(jù)的方式,獲取的數(shù)據(jù)的質(zhì)量以及分析所需的最低數(shù)據(jù)量。測序
53、序列的分析也同樣如此。在序列分析領(lǐng)域里,不同的實(shí)驗(yàn)?zāi)康暮蛯?shí)驗(yàn)對(duì)象,對(duì)數(shù)據(jù)的量和質(zhì)量有不同的要求。但在數(shù)據(jù)的質(zhì)量要求上,各實(shí)驗(yàn)?zāi)康暮头椒ɑ疽恢?。序列質(zhì)量控制主要包括兩個(gè)部分的內(nèi)容:一是評(píng)估和去除序列中的污染序列、接頭序列等;二是評(píng)估序列的堿基質(zhì)量,包括沿著堿基方向的堿基質(zhì)量分布、堿基含量分布、Ns的百分比,序列的平均質(zhì)量分布、堿基含量分布,堿基的錯(cuò)誤等。序列過濾的主要目的就是在對(duì)序列的質(zhì)量分析基礎(chǔ)上,從待分析序列數(shù)據(jù)中去除或修正那些污染的、低質(zhì)量的序列,以提高序列分析的效率和準(zhǔn)確率。通常來說,對(duì)于那些整條序列都是污染序列的序列來說,不用過多擔(dān)憂,因?yàn)樵诤罄m(xù)的拼接和定位分析中,這些序列要么不能成
54、功拼接到contigs上或定位到參考序列上,要么單獨(dú)拼接成一個(gè)contigs,這對(duì)整體的序列分析沒有多大的影響。但那些只有一部分含有污染序列而另一部分為正常序列的序列,會(huì)給分析帶來麻煩:在拼接中會(huì)造成錯(cuò)拼,在序列定位中因?yàn)樘L的污染部分造成序列不能定位到參考序列上。對(duì)于后一種情況,目前還沒有通用的方法進(jìn)行這些污染部分的篩除,最有效的方法還是根據(jù)測序過程中用到的接頭序列等序列、以及相應(yīng)物種的線粒體和葉綠體序列做參考,通過序列比對(duì)的方法進(jìn)行過濾。然而遺憾的是,因?yàn)槟壳坝械诙鷾y序技術(shù)產(chǎn)生的數(shù)據(jù)大多很短,雖然sanger技術(shù)的污染序列去除程序不適用于第二代測序技術(shù)所產(chǎn)生的序列(主要是分析速度慢,不能
55、有效去除長度小于10bp的污染序列),但目前的污染序列的去除技術(shù)依舊依靠這些程序進(jìn)行污染序列的去除,如blast等程序。理論上可以考慮,通過分析序列中短的k-mer序列的頻率來判斷并去除污染序列,遺憾的是,目前依舊沒有這樣的程序。在序列定位分析中,一個(gè)常用但也受爭議的方法是:對(duì)這些不能定位到參考序列的序列,反復(fù)在序列的兩側(cè)去除一定長度的序列后在重新定位。相對(duì)來說,對(duì)低質(zhì)量序列的修正和過濾,似乎要容易的多。目前已經(jīng)有了很多用于評(píng)價(jià)由第二代測序技術(shù)產(chǎn)生的序列的質(zhì)量的方法和軟件。這些軟件可以分成兩類:一類以分析堿基的質(zhì)量和含量分布為基礎(chǔ);另一類通過k-mer或序列比對(duì)的方法來發(fā)現(xiàn)和糾正簽在的測序錯(cuò)誤
56、。第一類軟件的典型代表有SolexaQA、FastQC、PIQA和TileQC等軟件,這些軟件通常都基于這樣的假設(shè):如果待分析序列是符合要求的,那么低質(zhì)量的序列的數(shù)目占總序列的比例將非常低,A、T、C、G這4個(gè)堿基的比例在序列的所有位置應(yīng)該是一致的,低或高GC含量的序列的比例也非常的小。因此這些軟件通常通過分析質(zhì)量和堿基比例以及k-mer沿序列的分布情況,序列質(zhì)量和GC含量的分布情況來判斷。SolexaQA還能通過分析Fastq格式中的包含的Solexa測序信息給出Solexa測序過程中的一些信息,如那些tile是無效的,N在那一步測序中產(chǎn)生的等等。第二類軟件以Shrec、HiTEC、Quak
57、e和Coral等為代表,主要通過統(tǒng)計(jì)k-mer的分布頻率和多序列比對(duì)的方法來發(fā)現(xiàn)和修正測序錯(cuò)誤?;趉-mer頻率的主要思想是,在測序覆蓋覆蓋度一定的情況下,因?yàn)殄e(cuò)誤產(chǎn)生的k-mer其出現(xiàn)次數(shù)大大小于沒有錯(cuò)誤的k-mer,這樣在k-mer頻率的分布圖上就會(huì)形成兩個(gè)峰,一個(gè)是低頻率k-mer的,另一個(gè)是高沒有測序錯(cuò)誤產(chǎn)生的,然后通過把低頻率位置下的k-mer與沒有錯(cuò)誤的k-mer進(jìn)行比對(duì)分析,就能修正測序產(chǎn)生的錯(cuò)誤。這種分析和修正測序錯(cuò)誤的方法在現(xiàn)代的各種序列拼接軟件中大量存在,比如拼接軟件Euler就是以這種方法在正式拼接以前對(duì)序列進(jìn)行錯(cuò)誤估計(jì)和修正的?;诙嘈蛄斜葘?duì)方法的主要思想也是基于一定
58、測序覆蓋度的,通過多序列比對(duì)的方法,可以把那些相互重疊的區(qū)段比對(duì)到一起,然后分析每一個(gè)堿基位置各堿基出現(xiàn)的比率以及相應(yīng)的堿基質(zhì)量,然后通過多數(shù)原則來修正測序的錯(cuò)誤。圖6:基于堿基質(zhì)量分布和堿基含量分布的序列質(zhì)量評(píng)估方法。左邊為低質(zhì)量的測序數(shù)據(jù)的結(jié)果,右邊的高質(zhì)量測序數(shù)據(jù)的檢測結(jié)果。從上到下,分別為堿基質(zhì)量沿序列的分布、序列質(zhì)量的頻率分布、堿基含量和GC含量沿序列的分布已經(jīng)序列GC含量的頻率分布圖圖7:基于k-mer頻率判斷和修正序列測序錯(cuò)誤(左)和基于序列比對(duì)的方法判斷和修正序列測序錯(cuò)誤(右,其中黑色方框內(nèi)的堿基為測序錯(cuò)誤,因?yàn)楦采w度低、堿基質(zhì)量也低)通過上述的方法對(duì)序列進(jìn)行評(píng)價(jià)以后,就可以在一定的參數(shù)條件下,過濾那些質(zhì)量低的序列,如序列的平均質(zhì)量小于Q20的、含有Ns的個(gè)數(shù)超過2的等等,截去序列中序列質(zhì)量或錯(cuò)誤率高的末端序列等等。通常來說,序列的質(zhì)量評(píng)價(jià)和過濾,只能給出數(shù)據(jù)的質(zhì)量情況,是正確評(píng)價(jià)測序序列覆蓋度所必需的,但只能作為評(píng)價(jià)數(shù)據(jù)的分析結(jié)果提供一種參考。良好的數(shù)據(jù)質(zhì)量并不能從根本上解決后續(xù)數(shù)據(jù)分析遇到的各種問題,如基因組中的重復(fù)序列對(duì)序列拼接的影響等等。序列拼接算法及其軟件序列拼接是基因組測序的一項(xiàng)重要內(nèi)容。測序序列來源于待測序基因組的隨機(jī)性和測序序列之間存在的重疊是序
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年軍隊(duì)文職人員(漢語言文學(xué)類)考前必練題庫-附答案
- 《十二生肖》課件-1
- 《哈利路亞》課件
- 2025屆四川省會(huì)理縣第一中學(xué)高三下學(xué)期期中統(tǒng)一考試數(shù)學(xué)試題
- 物聯(lián)網(wǎng)應(yīng)用技術(shù)課程介紹
- 2025年安順b2貨運(yùn)資格證考試題庫
- 清明節(jié)傳統(tǒng)文化知識(shí)主題班會(huì)12
- 醫(yī)院醫(yī)學(xué)醫(yī)療護(hù)理報(bào)告模板70
- 腹腔鏡術(shù)后護(hù)理查房
- 商標(biāo)注冊合同范例
- 電信行業(yè)用戶欠費(fèi)催收策略與措施
- 銀行資格考試分析與策略試題及答案
- 多式聯(lián)運(yùn)風(fēng)險(xiǎn)管理與優(yōu)化-全面剖析
- 岳樓小學(xué)建立學(xué)校年級(jí)班級(jí)家長四級(jí)防控工作聯(lián)系網(wǎng)絡(luò)實(shí)施方案
- 病人走失應(yīng)急預(yù)案
- 2025年中國鐵塔考試試題及答案
- 2025年博士思政面試題及答案
- 廣東省深圳市深圳實(shí)驗(yàn)學(xué)校等校聯(lián)考2024-2025學(xué)年九年級(jí)下學(xué)期開學(xué)考試語文試題(含答案)
- 2025年浙江安防職業(yè)技術(shù)學(xué)院單招職業(yè)傾向性測試題庫1套
- 《園林景觀手繪技法表現(xiàn)》課件-項(xiàng)目2 景觀元素的表現(xiàn)技法
- 2024-2025學(xué)年人教版英語七年級(jí)下冊Unit 5 Here and now Section A Grammar教案
評(píng)論
0/150
提交評(píng)論