高通量數(shù)據(jù)處理流程_第1頁(yè)
高通量數(shù)據(jù)處理流程_第2頁(yè)
高通量數(shù)據(jù)處理流程_第3頁(yè)
高通量數(shù)據(jù)處理流程_第4頁(yè)
高通量數(shù)據(jù)處理流程_第5頁(yè)
已閱讀5頁(yè),還剩31頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)處理流程計(jì)算機(jī)集群測(cè)序控制PC測(cè)序儀1.控制測(cè)序過程控制測(cè)序過程決定測(cè)序長(zhǎng)度、填加試劑、控制溫度、控制反應(yīng)時(shí)間、拍照2.圖像分析圖像分析對(duì)測(cè)序儀拍照的圖片進(jìn)行圖像分析,得到亮點(diǎn)的光強(qiáng)度和坐標(biāo)3.basecalling由光強(qiáng)度得到堿基序列4.數(shù)據(jù)傳輸數(shù)據(jù)傳輸將basecalling結(jié)果(二進(jìn)制文件bcl)傳輸?shù)接?jì)算機(jī)集群的存儲(chǔ)上5.數(shù)據(jù)處理數(shù)據(jù)處理將bcl文件轉(zhuǎn)化為后續(xù)信息分析所使用的文本文件(fastq,qseq)6.index拆分拆分7.數(shù)據(jù)質(zhì)量分析數(shù)據(jù)質(zhì)量分析8.數(shù)據(jù)備份數(shù)據(jù)備份9.后續(xù)信息分析后續(xù)信息分析.圖像分析及basecalling基本原理1234CCCCGGGTTAAACyc

2、le1 Cycle2 Cycle3 對(duì)A發(fā)出的光拍照對(duì)C發(fā)出的光拍照對(duì)G發(fā)出的光拍照對(duì)T發(fā)出的光拍照?qǐng)D像分析及basecalling基本原理1234TCCAATGCACGGCycle1 Cycle2 Cycle3 由4個(gè)cluster得到4條序列: ATA. CCT. GCG. GAC.圖像分析對(duì)每個(gè)圖片獨(dú)立的處理圖像銳化對(duì)圖片進(jìn)行快速傅里葉變換(FFT),在傅里葉空間乘以濾波函數(shù)后反變換識(shí)別cluster/亮點(diǎn)信噪比(亮度/背景值)大于閾值的亮點(diǎn)區(qū)域計(jì)算亮點(diǎn)光強(qiáng)度和位置坐標(biāo)在亮點(diǎn)區(qū)域,對(duì)光強(qiáng)度進(jìn)行二維插值,求出最大光強(qiáng)度,以及最大光強(qiáng)度對(duì)應(yīng)的位置坐標(biāo)將同一個(gè)tile的所有圖片中的亮點(diǎn)坐標(biāo)對(duì)齊

3、重疊不同圖片之間存在偏移/拉伸/壓縮(offset)系統(tǒng)、穩(wěn)定的:4種光折射率不同、濾波片不同、光路不同,所以造成成像的偏移/拉伸/壓縮,可利用crosstalk,計(jì)算出偏移/拉伸/壓縮的數(shù)值(offset參數(shù))偶然、隨機(jī)的:flowcell表面不平、自動(dòng)調(diào)整焦距、機(jī)械移動(dòng)不夠精確、隨機(jī)振動(dòng),可利用crosstalk解決CrosstalkAC光譜間有交疊,GT光譜間有交疊,所以:堿基A的圖片中包含C發(fā)出的光堿基C的圖片中包含A發(fā)出的光堿基T的圖片中包含G發(fā)出的光不利:不能直接比較光強(qiáng)度大小而得到堿基有利:利用圖片中共同的亮點(diǎn),將所有圖片對(duì)齊重疊,解決offset問題ACAC光譜光譜濾波片圖像分

4、析流程Template Generation利用AC之間的crosstalk、GT之間的crosstalk,將前 2個(gè)cycle的圖片,與第一個(gè)cycle的A的圖片對(duì)齊重疊,確定所有cluster的位置坐標(biāo)(x,y)Registration and Intensity Extraction對(duì)于每一個(gè)cycle:將4張圖片(ACGT)中的所有亮點(diǎn)與cluster坐標(biāo)(x,y)對(duì)應(yīng),計(jì)算每個(gè)cluster的4種光強(qiáng)度對(duì)每個(gè)圖片獨(dú)立的處理圖像銳化、識(shí)別cluster/亮點(diǎn)、計(jì)算亮點(diǎn)光強(qiáng)度和位置坐標(biāo)Template Generation利用AC之間的crosstalk、GT之間的crosstalk,將

5、前 2個(gè)cycle的圖片,與第一個(gè)cycle的A的圖片對(duì)齊重疊,確定所有cluster的位置坐標(biāo)(x,y)ACGTAGTCCycle1 Cycle21243ACycle1 A Cycle1 C Cycle1 ACCACCycle2 A Cycle2 C Cycle1 ACACAC123GTCycle2 G Cycle2 T Cycle1 ACGTACGTCycle1 G Cycle1 TGT12431243圖像分析結(jié)果Cluster坐標(biāo)坐標(biāo)Cycle1Cycle2Cycle3.(1053,1543)A 1000A 500A 23.C 800C 900C 26.G 20G -18G 500.T

6、24T -12T 300.(1923,1723)A -13A 1000A 33.C -12C 800C 24.G 40G 25G 500.T 700T 20T 300.(1032,1231)A 500A 50A 1000.C 900C 40C 800.G 26G 500G -20.T 32T 300T -20.Crosstalk固有發(fā)光能固有發(fā)光能力不同,力不同,需要?dú)w一化需要?dú)w一化BasecallingCrosstalk 校正4種光強(qiáng)度歸一化(用DNA樣品計(jì)算參數(shù))Phasing/Prephasing校正(用DNA樣品計(jì)算參數(shù))對(duì)于每個(gè)cluster:在每個(gè)cycle中,比較4種光強(qiáng)度,光強(qiáng)

7、度最大的就是當(dāng)前cycle測(cè)到的堿基,各cycle測(cè)到的堿基連起來組成這個(gè)cluster的堿基序列;計(jì)算每個(gè)堿基的質(zhì)量值4種光強(qiáng)度歸一化2種光強(qiáng)度分布2種光強(qiáng)度分布ACGTphasingSequencing primerprephasingBasecalling結(jié)果:qseq文件 每一行表示一條reads(一個(gè)cluster) 每行有11列,tab分隔:機(jī)器編號(hào)、run序號(hào)、Lane號(hào)、Tile號(hào)、X坐標(biāo)、Y坐標(biāo)、index標(biāo)志、read1/read2標(biāo)志、堿基序列、質(zhì)量序列、是否通過默認(rèn)的質(zhì)量篩選標(biāo)準(zhǔn) Single-end(SE)測(cè)序:1個(gè)qseq文件 Pair-end(PE)測(cè)序:2個(gè)qs

8、eq文件分別存放read1和read2的數(shù)據(jù);2個(gè)文件的同一行屬于同一個(gè)cluster 每條序列(reads)長(zhǎng)度=上機(jī)測(cè)序循環(huán)(cycle)數(shù)量; 測(cè)序cycle數(shù)量受測(cè)序試劑盒的試劑量限制, 對(duì)于GA有: 36SE、36+7/8SEindex、45PE、36+7+45PEindex、 76PE、74+7+76PEindex、73+8+76PEindex、 101PE、101+7/8+101PEindex 等 對(duì)于Hiseq: 91PE、91+8+91PEindex、 101PE、101+8+101PEindexBasecalling結(jié)果:qseq文件列列意義意義表示法表示法1機(jī)器編號(hào)2ru

9、n序號(hào)整數(shù)3Lane號(hào)整數(shù)1到84Tile號(hào)整數(shù)5X坐標(biāo)整數(shù)6Y坐標(biāo)整數(shù)7index標(biāo)志index序列或者“0”8read1/read2標(biāo)志1表示read1;2表示read29堿基序列大寫ACGT和.:ACCCAACTCATCTGAAACA10質(zhì)量序列每個(gè)堿基有一個(gè)質(zhì)量值,用字符表示:字符的ASCII碼值-64=質(zhì)量值bbbcbb_bb_aSaV11是否通過默認(rèn)的質(zhì)量篩選標(biāo)準(zhǔn)1表示通過;0表示不通過,質(zhì)量差fastq文件 每4行表示一條reads(一個(gè)cluster)第一行:序列ID,包含index序列及read1或read2標(biāo)志:第二行:堿基序列,大寫“ACGTN”第三行:“+”,省略了序列

10、ID第四行:質(zhì)量值序列:字符的ASCII碼值-64=質(zhì)量值 Single-end(SE)測(cè)序:1個(gè)fastq文件 Pair-end(PE)測(cè)序:2個(gè)fastq文件分別存放read1和read2的數(shù)據(jù);Read1的fastq文件 *1.fq中第一條reads:FC61FL8AAXX:1:17:1012:19200#GCCAAT/1CCACTGTCATGTGAACATCACAGAGACATTTCTTGA+bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa_Read2的fastq文件 *2.fq中第一條reads:FC61FL8AAXX:1:17:1012:19200#GCCAAT

11、/2AAAATTAGCCAGGCAATGGTGGTGCATGCCTTTAATCCCAGCTA+QVVVVYVYWWYPWYYTYYWUYYYVVWW 質(zhì)量值FC61FL8AAXX:1:17:1012:19200#GCCAAT/1CCACTGTCATGTGAACATCACAGAGACATTTCTTGA+bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa_表示方法 Illumina:字符的ASCII值 - 64 = 質(zhì)量值 (Sanger:字符的ASCII值 - 33 = 質(zhì)量值)范圍 GA Illumina1.3+(09年3月之后): 2,35 B,c GA Illumina1

12、.0 (09年3月之前): -5,40 ;,h Hiseq: 2:38 B,f質(zhì)量值與錯(cuò)誤率理論關(guān)系: Q =-10 log10(e)質(zhì)量值計(jì)算方法:根據(jù)光強(qiáng)信號(hào)信噪比、光強(qiáng)度衰減、GC含量等參數(shù),計(jì)算質(zhì)量值fastq文件fastq文件 每條序列(reads)長(zhǎng)度read1和read2分別去除了最后一個(gè)堿基,即:36 SE 有效長(zhǎng)度為 35101 PE 有效長(zhǎng)度為 100(read1)+100(read2)101+8+101 PEindex 有效長(zhǎng)度為 100(read1)+100(read2)Read1中所有reads長(zhǎng)度相同,Read2中所有reads長(zhǎng)度相同,但是Read1和Read2長(zhǎng)

13、度可以不相同,取決于上機(jī)測(cè)序循環(huán)(cycle)數(shù)量 質(zhì)量篩選(PF):Illumina標(biāo)準(zhǔn)流程輸出的fastq文件,去除了qseq文件中沒有通過默認(rèn)質(zhì)量篩選標(biāo)準(zhǔn)的低質(zhì)量序列(reads)GA正常PF比例:DNA 8090%,RNA 7085% 每個(gè)Lane的正常產(chǎn)量范圍:GA 2030M PF reads Read1和Read2各有2030MHiseq 6080M PF reads Read1和Read2各有6080M堿基總產(chǎn)量 = Read1的產(chǎn)量 + Read2的產(chǎn)量 = reads數(shù)量(Read1的長(zhǎng)度 + Read2的長(zhǎng)度)fastq文件產(chǎn)量(GA)樣品類型樣品類型上機(jī)測(cè)序上機(jī)測(cè)序類型

14、類型平均產(chǎn)量平均產(chǎn)量(Gbp/Lane)正常產(chǎn)量正常產(chǎn)量(Mreads/Lane)SmallRNA36SE0.70 20 (2個(gè)樣品混合上1個(gè)lane)表達(dá)譜36SE0.70 20 (4個(gè)樣品混合上1個(gè)lane)Chip-seq36SE0.88 25 MeDIP-seq45PE2.20 25 轉(zhuǎn)錄組76PE3.81 25 (2個(gè)樣品混合上1個(gè)lane)De novo101PE6.00 30 De novo76PE4.50 30 De novo45PE2.64 30 外顯子76PE4.5030重測(cè)序101PE6.00 30 重測(cè)序76PE4.50 30 重測(cè)序45PE2.64 30 Meta76

15、PE4.50 30 甲基化76PE3.75 25 甲基化45PE2.20 25 fastq文件產(chǎn)量(Hiseq vs GA)GAHiSeqFC面積面積 mm2/FC5101440tile面積面積mm2 /tile0.531255.625tile /Lane12032raw cluster(萬萬/tile)28 250 270 310 350 PF85%87%87%87%85%PF cluster(萬萬/tile)23.8 218 235 270 298 cluter K/mm2527 444 480 551 622 reads M/Lane28.6 69.6 75.2 86.3 95.2 10

16、1PE Gb/Lane5.7 13.9 15.0 17.3 19.0 91PE Gb/Lane12.5 13.5 15.5 17.1 文庫(kù)質(zhì)控問題1:Pair-end關(guān)系800bp及以下文庫(kù)5335PCR primer1反向互補(bǔ)(包含5adapter反向互補(bǔ))PCR primer1(包含5adapter)PCR primer2(包含3adapter反向互補(bǔ))PCR primer2反向互補(bǔ)(包含3adapter)Read1測(cè)序測(cè)序Read2測(cè)序測(cè)序5533 與參考序列比較或者:總之,Read1,Read2與參考序列比對(duì)結(jié)果:一正(F)一反(R),且F的位點(diǎn)坐標(biāo)小于R的位點(diǎn)坐標(biāo)Read1Read2

17、參考序列正向5533參考序列反向互補(bǔ)Read2Read1參考序列正向5533參考序列反向互補(bǔ)FR參考序列正向5533參考序列反向互補(bǔ) 總之,Read1,Read2于參考序列比對(duì)結(jié)果:一正(F)一反(R),且F的位點(diǎn)坐標(biāo)小于R的位點(diǎn)坐標(biāo) 文庫(kù)插入片段長(zhǎng)度FR參考序列正向5533參考序列反向互補(bǔ)Insert-sizeInsert-size5PCR primer1PCR primer2335文庫(kù)分子長(zhǎng)度2100檢測(cè)報(bào)告文庫(kù)長(zhǎng)度分布與參考序列比對(duì)得到insert-size分布正常insert-size分布基因組DNA外顯子PCR-free文庫(kù)異常insert-size分布2K及以上文庫(kù)文庫(kù)質(zhì)控問題1:

18、Pair-end關(guān)系 與參考序列比較或者:總之,Read1,Read2于參考序列比對(duì)結(jié)果:一正(F)一反(R),且F的位點(diǎn)坐標(biāo)大于R的位點(diǎn)坐標(biāo)Read1Read2參考序列正向5533參考序列反向互補(bǔ)Read2Read1參考序列正向5533參考序列反向互補(bǔ)FR參考序列正向5533參考序列反向互補(bǔ)正常insert-size分布2K56KPCR-free文庫(kù)10K異常insert-size分布文庫(kù)問題2:adapter污染 空載:adapter與adapter直接連接,中間沒有插入片段,導(dǎo)致read1測(cè)到3adapter,read2測(cè)到5adapter的反向互補(bǔ)reads尾部測(cè)到adapter 插入

19、片段過短插入片段長(zhǎng)度小于上機(jī)測(cè)序循環(huán)(cycle)數(shù),導(dǎo)致read1尾部測(cè)到3adapter,read2尾部測(cè)到5adapter的反向互補(bǔ)5335PCR primer1反向互補(bǔ)(包含5adapter反向互補(bǔ))PCR primer1(包含5adapter)PCR primer2(包含3adapter反向互補(bǔ))PCR primer2反向互補(bǔ)(包含3adapter)adapter空載較多導(dǎo)致堿基含量波動(dòng)客戶PCR引物污染導(dǎo)致堿基含量波動(dòng)文庫(kù)質(zhì)控問題3:文庫(kù)隨機(jī)性 GC含量偏差: 實(shí)驗(yàn)技術(shù)(打斷、PCR、測(cè)序)本身特點(diǎn),導(dǎo)致高GC和低GC區(qū)域測(cè)序覆蓋度偏低,甚至某些區(qū)域覆蓋不到; PCR-free建庫(kù)技術(shù)可減少PCR帶來的隨機(jī)性問題 duplication PCR擴(kuò)增出很多一模一樣的母版分子,測(cè)序結(jié)果中很多條reads是一樣的; 基因組自身重復(fù)序列含量高導(dǎo)致duplication偏高; 數(shù)據(jù)量越大,duplication比例越高文庫(kù)質(zhì)控問題4:其它物種、樣品污染測(cè)序質(zhì)控問題 raw Clust

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論