第二代測序數(shù)據(jù)分析原理

上傳人：1*** IP屬地：廣東上傳時間：2023-03-09 格式：PPT 頁數(shù)：66 大小：44.03MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩61頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第二代測序數(shù)據(jù)分析原理徐汪節(jié)當(dāng)前1頁，總共66頁。三代DNA測序技術(shù)之比較第一代測序技術(shù)：Sanger測序法第二代測序技術(shù)：454測序……

第三代測序技術(shù)：？直接測序法：？2023/3/82當(dāng)前2頁，總共66頁。第一代測序技術(shù)：

Sanger測序法

——簡便、快速2023/3/83當(dāng)前3頁，總共66頁。逐漸被遺忘的測序技術(shù)：

Maxam-Gilbert的DNA化學(xué)降解法

2023/3/84當(dāng)前4頁，總共66頁。Sanger測序的局限通過幾十年的改進(jìn)，第1代測序儀的讀長可以超過1000bp，原始數(shù)據(jù)的準(zhǔn)確率可以高達(dá)99.999%，測定每千堿基序列的成本是0.5美元,每天的數(shù)據(jù)通量可以達(dá)到60萬堿基。但是，不管怎么改進(jìn)，第1代測序技術(shù)在速度和成本方面都已達(dá)到了極限（因為對電泳分離技術(shù)的依賴,使其難以進(jìn)一步提升分析的速度和提高并行化程度，并且難以通過微型化降低測序成本）。在此種情況下，第二代測序技術(shù)（Next-generationsequencing)應(yīng)運而生。2023/3/85當(dāng)前5頁，總共66頁。概要主要的測序平臺基因組分析原理轉(zhuǎn)錄組分析原理分析策略的選擇當(dāng)前6頁，總共66頁。第二代測序技術(shù)454測序IlluminaSOLIDPolonatorCompleteGenomics……2023/3/87當(dāng)前7頁，總共66頁。4542023/3/88當(dāng)前8頁，總共66頁。SOLID2023/3/89當(dāng)前9頁，總共66頁。Illumina2023/3/810當(dāng)前10頁，總共66頁。其他PolonatorCompleteGenomics……2023/3/811當(dāng)前11頁，總共66頁。2023/3/812當(dāng)前12頁，總共66頁。第二代測序技術(shù)的共同點1將目標(biāo)DNA剪切為小片段2單個小片段DNA分子結(jié)合到固相表面3單分子獨立擴(kuò)增4每次只復(fù)制一個堿基（A,C,T,G）并檢測信號5高分辨率的成像系統(tǒng)。2023/3/813當(dāng)前13頁，總共66頁。第二代測序技術(shù)的局限與第一代測序儀相比，以合成測序為基礎(chǔ)的下一代測序平臺速度顯著提高，成本明顯降低。每臺設(shè)備每天產(chǎn)出千兆堿基的序列不足為奇。但是,除了羅氏的454平臺之外，讀長短成了下一代測序平臺的致命傷，這主要是由于DNA簇中存在的光學(xué)信號移相造成的。而應(yīng)運而生的單分子測序技術(shù)是解決這一問題的一種方法。2023/3/814當(dāng)前14頁，總共66頁。第三代測序技術(shù)：單分子測序HelicosBiosciencesVisiGenPacificBiosciencesMobiousNexusI……2023/3/815當(dāng)前15頁，總共66頁。2023/3/816當(dāng)前16頁，總共66頁。直接測序法在所有上述三代測序技術(shù)中，序列都是在熒光或者化學(xué)發(fā)光物質(zhì)的協(xié)助下，通過讀取DNA聚合酶或DNA連接酶將堿基連接到DNA鏈上過程中釋放出的光學(xué)信號而間接確定的。除了需要昂貴的光學(xué)監(jiān)測系統(tǒng)，還要記錄、存儲并分析大量的光學(xué)圖像，這都使儀器的復(fù)雜性和成本增加。依賴生物化學(xué)反應(yīng)讀取堿基序列更增加了試劑、耗材的使用，在目前測序成本中比例相當(dāng)大。直接讀取序列信息，不使用化學(xué)試劑，對于進(jìn)一步降低測序成本是非?？扇〉?。為了實現(xiàn)這樣的目標(biāo)，目前就有很多人在研究納米物理技術(shù)。在全球，許多公司和組織，如Agilent，DNAElectronics，IBM,NabSys，OxfordNanoporeTechnologies，Sequenom等都在進(jìn)行納米孔測序的開發(fā)，不同的只是采用的方法或策略。2023/3/817當(dāng)前17頁，總共66頁。2023/3/818當(dāng)前18頁，總共66頁。2023/3/819當(dāng)前19頁，總共66頁。SecondgenerationsequenceRoche454MetagenomicsDenovosequencingRNA-seqillumiaSolexaDenovosequencingRe-sequencingRNA-seq(ChromatinImmunoprecipitation，ChIP)Meth-seqABISOLiDRe-sequencingChIP-seq

RNA-seq當(dāng)前20頁，總共66頁。ExperimentsDNA-seq:denovo,resequencingRNA-seq:mRNA,ncRNA,smRNA...ChIP-seq:ChromatinImmunoPrecipitationMethyl-seq:methylatedDNA(epigenome)當(dāng)前21頁，總共66頁。主要的測序平臺基因組分析原理轉(zhuǎn)錄組分析原理分析策略的選擇當(dāng)前22頁，總共66頁。SequencingGlossaryReads.Acollectionofclonesthatover-samplethetargetgenome.Pair-endreads.Sequencereadsderivedfrombothendsofasequencing-libraryclone.Mate-pairreads.Sequencereadsderivedfrombothendsofamate-pairlibraryclonewhichinsertsizeisusually>1kb.Insertsize.Thesizeoftheclone-insertfromwhichaclone-endpairistaken.Contig.Theresultofjoininganoverlappingcollectionofsequencereads.Scaffold.Theresultofconnectiingnon-overlappingcontigesbyusingpir-endreads.N50size.Asappliedtocontigsorscaffolds,thatsizeabovewhich50%odtheassembled當(dāng)前23頁，總共66頁。當(dāng)前24頁，總共66頁。當(dāng)前25頁，總共66頁。當(dāng)前26頁，總共66頁。全基因組denove分析工具當(dāng)前27頁，總共66頁。分析所需工具BowtiesoftwareSAMtoolsTopHatsoftareCufflinkssoftwareCummeRbundsoftware當(dāng)前28頁，總共66頁。外顯子組分析工具當(dāng)前29頁，總共66頁。主要的測序平臺基因組分析原理轉(zhuǎn)錄組分析原理分析策略的選擇當(dāng)前30頁，總共66頁。常規(guī)分析TranscriptsquantificationSplicingsitesdiscoveryandquantificationGenediscoverySNP/INDELdetectionAllelespecificexpression當(dāng)前31頁，總共66頁。當(dāng)前32頁，總共66頁。當(dāng)前33頁，總共66頁。當(dāng)前34頁，總共66頁。UniGene拼接目的：將預(yù)處理后reads進(jìn)行拼接，得到拼接結(jié)果。

原理：應(yīng)用deBruijngraphpath算法對reads進(jìn)行denovo拼接；對上一步的拼接結(jié)果，再用HamiltonPath算法拼接。

結(jié)果：UniGene序列，UniGene統(tǒng)計信息，序列長度分布圖當(dāng)前35頁，總共66頁。當(dāng)前36頁，總共66頁。3.數(shù)據(jù)庫注釋目的：對拼接得到的UniGene進(jìn)行功能注釋

原理：通過blast+算法將拼接得到的UniGene序列與數(shù)據(jù)庫進(jìn)行比對

結(jié)果：比對結(jié)果表格，物種分布統(tǒng)計和Evalue分布統(tǒng)計

當(dāng)前37頁，總共66頁。當(dāng)前38頁，總共66頁。UniGene表達(dá)分析目的：UniGene定量分析。

原理：以UniGene為reference，分別將每個樣本的reads進(jìn)行referencemapping,從而得到每個樣本在每個UniGenes中的一個reads覆蓋度，然后應(yīng)用RPKM/FPKM標(biāo)準(zhǔn)化公式對富集片段的數(shù)量進(jìn)行歸一化。

RPKM：ReadsPerKilobaseofexonmodelperMillionmappedreads，公式下:當(dāng)前39頁，總共66頁。UniGene表達(dá)分布圖，1X，5X分別為FPKM=1，F(xiàn)PKM=5分界點，可以大體觀察到低表達(dá)，中表達(dá)以及高表達(dá)的比例關(guān)系當(dāng)前40頁，總共66頁。UniGene樣本間表達(dá)相關(guān)性散點圖當(dāng)前41頁，總共66頁。樣本間表達(dá)差異程度的MA圖，可以體現(xiàn)差異表達(dá)總體偏差當(dāng)前42頁，總共66頁。UniGene表達(dá)差異分析目的：對定量結(jié)果進(jìn)行統(tǒng)計檢驗分析，找出差異表達(dá)UniGene

原理：雙層過濾篩選差異基因

FC值篩選：采用Fold-change(FC)，表達(dá)差異倍數(shù)進(jìn)行第一層此的差異基因篩選

FDR檢驗：一般采用卡方檢驗中的fisher精確檢驗進(jìn)行p值檢驗，采用BenjaminiFDR(Falsediscoveryratio)校驗方法對p值進(jìn)行假陽性檢驗，即，通過FDR顯著性參數(shù)進(jìn)行第二層次的差異基因篩選。

當(dāng)前43頁，總共66頁。組間差異基因上調(diào)與下調(diào)個數(shù)統(tǒng)計，可以通過此圖觀察上調(diào)與下調(diào)的一個總體趨勢當(dāng)前44頁，總共66頁。差異基因火山圖，可以觀察到差異基因總體分布當(dāng)前45頁，總共66頁。GO功能分類

目的：利用數(shù)據(jù)庫注釋信息將UniGene進(jìn)行GO功能分類。

原理：利用數(shù)據(jù)庫的注釋結(jié)果，應(yīng)用blast2GO算法進(jìn)行GO功能分類，得到所有序列在GeneOntology的三大類：molecularfunction,cellularcomponent,biologicalprocess的各個層次所占數(shù)目，一般取到14層。

結(jié)果：MF，BP，CC三大分類結(jié)果文件以及UniGene2GO關(guān)系列表，三大類別中第二層次上的柱狀分布圖和餅圖，GO功能的層次分布圖。

當(dāng)前46頁，總共66頁。當(dāng)前47頁，總共66頁。當(dāng)前48頁，總共66頁。當(dāng)前49頁，總共66頁。當(dāng)前50頁，總共66頁。KEGG代謝通路分析目的：對拼接得到UniGene進(jìn)行KEGGpathway映射。

原理：應(yīng)用KEGGKAAS在線pathway比對分析工具對拼接得到的UniGene進(jìn)行KEGG映射分析。

結(jié)果：標(biāo)記的Pathway通路圖。當(dāng)前51頁，總共66頁。當(dāng)前52頁，總共66頁。IPApathwayanalysis

(/)當(dāng)前53頁，總共66頁。COG注釋目的：對拼接得到UniGene進(jìn)行COG功能分類。

原理：利用blast+算法將拼接得到的UniGene與CDD庫中的COG/KOG庫進(jìn)行比對，進(jìn)行COG功能分類預(yù)測，將其映射到COG分類中。

結(jié)果：COG分類分布情況圖。當(dāng)前54頁，總共66頁。當(dāng)前55頁，總共66頁。SSR重復(fù)序列注釋目的：對拼接得到UniGene進(jìn)行SSR簡單重復(fù)序列的查找。

原理：篩選標(biāo)準(zhǔn)：單核苷酸重復(fù)的次數(shù)在10次或10次以上，二核苷酸重復(fù)的次數(shù)在6次或6次以上，三至六核苷酸重復(fù)的次數(shù)在5次或5次以上。同時，也篩選中間被少數(shù)堿基(間隔小于100或等于100)打斷的不完全重復(fù)的SSR。

結(jié)果：重復(fù)序列的信息文件以及統(tǒng)計文件。

當(dāng)前56頁，總共66頁。LncRNA預(yù)測目的：對拼接得到的UniGene進(jìn)行LncRNA(LongnoncodingRNA)預(yù)測。

原理：通過以下過程對UniGene進(jìn)行過濾，最終得到候選LncRNA序列。

1)Unigenelength>200bp；

2)UnigeneORF(OpenReadingFrame)length<300；

3)將滿足長度條件的UniGene與多個近源物種進(jìn)行進(jìn)化分析，得到序列的保守性和進(jìn)化特性；

4)根據(jù)上述的特性和已知數(shù)據(jù)庫中coding、noncoding區(qū)域的特性建立編碼篩選模型；

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第二代測序數(shù)據(jù)分析原理

文檔簡介

溫馨提示

最新文檔

評論

第二代測序數(shù)據(jù)分析原理

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔