




已閱讀5頁,還剩43頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基因組序列組裝-理論與方法,北京大學(xué)生物信息中心科學(xué)院北京基因組研究所李松崗ls兩種測序策略,分級鳥槍法(BACTOBAC)基因組DNA切成大片段構(gòu)建BAC文庫挑選構(gòu)建小片段shotgun文庫測序組裝BAC序列組裝基因組序列全基因組鳥槍法基因組DNA構(gòu)建不同長度shotgun文庫測序組裝基因組序列,基因組測序與組裝示意圖,基于BAC方法的優(yōu)缺點(diǎn),優(yōu)點(diǎn):組裝被局限在BAC的范圍內(nèi),受重復(fù)序列影響小,對計(jì)算能力要求不高;缺點(diǎn):需要大量前期生物學(xué)研究工作,效率低,成本高。,全基因組鳥槍法優(yōu)缺點(diǎn),優(yōu)點(diǎn):不需要生物學(xué)前期準(zhǔn)備,速度快,成本低;缺點(diǎn):組裝是在全基因組范圍內(nèi)進(jìn)行,數(shù)據(jù)量大,易產(chǎn)生錯(cuò)拼;對計(jì)算機(jī)軟硬件要求均高。,對拼接軟件的要求,能充分利用正反向測序的配對信息,避免重復(fù)序列造成的錯(cuò)誤拼接能處理數(shù)以百萬甚至千萬計(jì)的數(shù)據(jù)程序并行化高效率比對,能夠采用全基因組鳥槍法的關(guān)鍵技術(shù)進(jìn)步:毛細(xì)管測序儀的普遍使用計(jì)算機(jī)能力的迅速提高,HierarchicalShotgun(HS),WholeGenomeShotgun(WGS),thesequencingofthehumangenomeislikelytobetheonlylargesequencingprojectcarriedtocompletionbythemethodsdescribedinthisissue.MaynardV.Olson,Themaps:Clonebyclonebyclone,Nature409,816-818(2001),Shotgun法序列拼接,Consensus,Mis-Assembly(Inverted),術(shù)語鳥槍法測序數(shù)據(jù)的組裝鳥槍法文庫:目標(biāo)基因組一定長度隨機(jī)片段克隆的集合。正反向測序?qū)Γ簭耐粋€(gè)克隆片段兩端分別測序所得到的一對序列。.插入片段長度:克隆載體中插入的外源DNA片段長度。片段連接群(contig):用識別互相重疊的方法對測序數(shù)據(jù)進(jìn)行拼接的結(jié)果。.Scaffold:用正反向測序?qū)B接的非重疊片段連接群。LW-洞:由于沒有測序數(shù)據(jù)覆蓋而在組裝結(jié)果中留下的洞。,重復(fù)序列分析覆蓋度:基因組被測序數(shù)據(jù)覆蓋的次數(shù)。重復(fù)數(shù):一段DNA序列在基因組中出現(xiàn)的次數(shù)。深度:一段DNA序列在鳥槍法測序數(shù)據(jù)集中出現(xiàn)次數(shù)。例如一個(gè)轉(zhuǎn)座子在基因組中出現(xiàn)N次,測序數(shù)據(jù)集的覆蓋度為C,則這個(gè)轉(zhuǎn)座子的平均深度為NC。20-mer重復(fù)序列:任何深度超過為該數(shù)據(jù)集確定的重復(fù)序列標(biāo)準(zhǔn)的20-bpDNA片段。是數(shù)學(xué)定義的重復(fù)序列。重復(fù)序列洞:由于屏蔽重復(fù)序列而在組裝結(jié)果中留下的洞。,組裝結(jié)果的評價(jià)標(biāo)準(zhǔn)N50大?。喊呀M裝出的contigs或scaffolds從大到小排列,當(dāng)其累計(jì)長度剛剛超過全部組裝序列總長度一半時(shí),最后一個(gè)contig或scaffold的大小。單堿基錯(cuò)誤率:與參考序列比較后發(fā)現(xiàn)的小尺度上的不同所占的比例。所謂小尺度,在這里通常指小于標(biāo)準(zhǔn)測序長度,即500bp。實(shí)際上常常只是幾個(gè)堿基。錯(cuò)誤組裝的Contig:測序數(shù)據(jù)組裝中出現(xiàn)的錯(cuò)誤。由定義,它涉及的片段一般大于500-bp。包括與參考序列相比,插入、刪除,以及在方向和次序上不同的片段。錯(cuò)誤組裝的Scaffold:把非重疊contig連接在一起時(shí)出現(xiàn)的錯(cuò)誤。包括嵌套,錯(cuò)誤的方向和順序等。,ShotgunSequencingAssemblerConcepts,RePS:全基因組鳥槍法測序數(shù)據(jù)組裝軟件包,特點(diǎn):通過屏蔽在鳥槍法測序數(shù)據(jù)中發(fā)現(xiàn)的重復(fù)序列來完成組裝。,RePS的流程圖,RePS2的新流程圖,識別重復(fù)序列的數(shù)學(xué)模型,重復(fù)序列識別:,若repeat有m個(gè)拷貝,且已知隨機(jī)序列覆蓋深度為0,1,2的概率:g0,g1,g2,則一次抽樣repeat覆蓋深度為0,1,2,的概率P0,P1,P2,為:,n次抽樣,其中i次以上深度在j以上的概率Pij,設(shè)一次抽樣深度在j以上和以下的概率分別為:Pj,Pj+;,n次抽樣,其中i次以上深度在j以上則認(rèn)為是repeat,此時(shí)犯兩類錯(cuò)誤的概率為:,設(shè)repeat在基因組中的比例為b,出現(xiàn)概率為P,非repeat出現(xiàn)概率為P*,則:,Tradeoffbetweencontigsizeandaccuracyofassembly,重復(fù)序列識別效率,MDR(數(shù)學(xué)定義的重復(fù)序列)與BDR(生物定義的重復(fù)序列),BDR(25%),BDR(50%?),MDR(42.2%),重復(fù)序列的檢測與處理,插入片段大小引起的錯(cuò)誤組裝,人與水稻基因組中重復(fù)序列分布的差別,Contigs:127,550(N50=6,688bp),Scaffolds:102,444(N50=11,764bp),Quality:546bpatQ20,插入片段長度的搭配,一般情況下,可采用如下設(shè)計(jì):,CAP3(1999),特點(diǎn):刪去read兩端低質(zhì)量部分;利用質(zhì)量數(shù)據(jù),識別重疊序列;進(jìn)行多序列比對,得到一致序列;利用正反向數(shù)據(jù)糾正組裝錯(cuò)誤,構(gòu)建scaffold。使用情況:僅使用數(shù)個(gè)BAC進(jìn)行了測試。,果蠅組裝軟件(2000),特點(diǎn):組裝前數(shù)據(jù)預(yù)處理;用數(shù)據(jù)庫屏蔽重復(fù)序列;采用類似BLAST的方法找出重疊部分;選擇不沖突的重疊構(gòu)建contigs,識別重復(fù)序列邊界;用正反向信息構(gòu)建scaffolds,填洞。使用情況:用于果蠅基因組組裝。,用于人類基因組組裝時(shí)的改進(jìn)(2001),構(gòu)建contigs后,利用一個(gè)統(tǒng)計(jì)模型識別低拷貝重復(fù)序列;采用兩種方式利用已公布的人類基因組計(jì)劃數(shù)據(jù),即1.把人類基因組計(jì)劃數(shù)據(jù)分解成“人工reads”,進(jìn)行組裝;2.利用人類基因組計(jì)劃數(shù)據(jù)的定位對shotgun數(shù)據(jù)進(jìn)行分組,然后組裝。,ARACHNE(2002),特點(diǎn):組裝前通過多序列比對糾正測序錯(cuò)誤;考慮質(zhì)量數(shù)據(jù),對每對重疊reads打分;通過分析reads重疊情況識別重復(fù)序列的邊界,組裝的contigs避免越過邊界;識別重復(fù)序列contigs;構(gòu)建scaffolds,填補(bǔ)空洞。使用情況:使用數(shù)個(gè)物種,包括人21、22染色體數(shù)據(jù)進(jìn)行了檢驗(yàn)。,ThePhusionAssembler(2003),特點(diǎn):輸入數(shù)據(jù)包括正反向信息,插入片段長度在2-200kb之間;組裝前先對數(shù)據(jù)進(jìn)行分組,然后并行處理;使用phrap進(jìn)行組裝,組裝過程中利用正反向信息對contig進(jìn)行延伸或打斷;根據(jù)重疊合并contigs;利用正反向信息構(gòu)建scaffolds。使用情況:用于小鼠基因組,7.5x,2.6Gb,479scaffolds,Table2.InsertSizes,NumberofReadsandEffectiveCloneCoveragefortheMouseWGSDataSet,歐拉圖方法(2001),特點(diǎn):放棄傳統(tǒng)方法,用圖論解決序列組裝問題;每個(gè)read作為一個(gè)頂點(diǎn),兩個(gè)reads之間有重疊則有邊連接。組裝問題就化為找一條僅通過每個(gè)頂點(diǎn)一次的通路Hamilton問題。把重復(fù)序列視為粘在一起的邊,可把上述圖簡化,問題變?yōu)檎覂H通過每條邊一次的通路Euler問題。,具體步驟,糾正測序錯(cuò)誤把read分為長為L的字。如果一個(gè)字屬于M個(gè)以上reads,稱為堅(jiān)固的;否則稱為弱的。糾正錯(cuò)誤的算法,就是要通過最少的改變,使弱的字變?yōu)閳?jiān)固的。通過這種方法,糾正了97.7%的測序錯(cuò)誤,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 面粉廠生產(chǎn)項(xiàng)目可行性研究報(bào)告
- 心態(tài)方面培訓(xùn)課件
- 2025旅游地產(chǎn)項(xiàng)目特色規(guī)劃與可持續(xù)發(fā)展研究報(bào)告
- 2025環(huán)保產(chǎn)業(yè)園產(chǎn)業(yè)集聚與產(chǎn)業(yè)升級協(xié)同發(fā)展研究報(bào)告
- 5G技術(shù)賦能2025年商業(yè)計(jì)劃書戰(zhàn)略布局分析報(bào)告
- 3D打印助力制造業(yè)升級:2025年大規(guī)模生產(chǎn)應(yīng)用案例研究深度報(bào)告
- 兒童高爾夫培訓(xùn)課件
- 2025年主題公園行業(yè)競爭格局與品牌競爭力評估報(bào)告
- 二零二三年中考數(shù)學(xué)試卷
- 蘭蔻培訓(xùn)課件
- 2024年荊州市江北地區(qū)檢察院招聘檢察輔助人員筆試真題
- 2025年四川省廣安市中考物理試題(原卷版)
- 2025年高考真題-語文(北京卷) 含答案
- 預(yù)防慢性病與健康生活指南
- 電解鋅車間管理制度
- 山西焦煤集團(tuán)筆試題
- 星期音樂會智慧樹知到期末考試答案章節(jié)答案2024年同濟(jì)大學(xué)
- 中關(guān)村東升科技園二期概念性規(guī)劃設(shè)計(jì)方案
- 倉庫盤點(diǎn)管理制度范文.doc
- 鋼筋工程分項(xiàng)施工設(shè)計(jì)(1)
評論
0/150
提交評論