微生物多樣性研究中測(cè)序原始數(shù)據(jù)及其處理方式(精編版)_第1頁(yè)
微生物多樣性研究中測(cè)序原始數(shù)據(jù)及其處理方式(精編版)_第2頁(yè)
微生物多樣性研究中測(cè)序原始數(shù)據(jù)及其處理方式(精編版)_第3頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、微生物多樣性研究中測(cè)序原始數(shù)據(jù)及其處理方式展開(kāi)全文1. 原始 數(shù)據(jù)的解釋及相關(guān)概念原始數(shù)據(jù)的概念:a. 測(cè)序儀完成測(cè)序后生產(chǎn)的測(cè)序文件,經(jīng)過(guò)單樣品拆分后,獲得的單樣品測(cè)序文件。b.或者 測(cè)序儀測(cè)序完成后, 由測(cè)序儀直接拆分的單樣品測(cè)序 文件。 我們常常稱(chēng)之為 “ rawdata ”原始數(shù)據(jù)展示 (illumina 測(cè)序平臺(tái)、 fastq 格式文件 ):fastq 格式文件: 基于文本的, 保存生物序列 (通常是核酸序列) 和其質(zhì)量信息的標(biāo)準(zhǔn)格式, 其實(shí)質(zhì)是一種數(shù)據(jù)存儲(chǔ)格式,其序列以及質(zhì)量都是使用一個(gè) ascii 字符標(biāo)示,最初有sanger 公司開(kāi)發(fā), 目的是將 fasta 序列和質(zhì)量數(shù)據(jù)放在

2、一起, 目前已經(jīng)成為高通量測(cè)序結(jié)果的事實(shí)標(biāo)準(zhǔn)。對(duì)于 fastq 格式文件內(nèi)容相關(guān)解釋?zhuān)?)第一行以 “ ”開(kāi)頭, 由文件識(shí)別標(biāo)志和讀段名 (id)組成;2)第二行為堿基序列;3)第三行以 “ + ”開(kāi)頭,也是由文件識(shí)別標(biāo)志和讀段名( id)組成,其 id 可以省略,但 “ + 能省略;4)第四行是第二行中的序列內(nèi)容每個(gè)堿基所對(duì)應(yīng)的測(cè)序質(zhì)量值。2. 數(shù)據(jù)質(zhì)控高通量測(cè)序下機(jī)的原始數(shù)據(jù) raw reads 中存在一些低質(zhì)量數(shù) 據(jù)、接頭以及 barcode 序列等,為消除其對(duì)后續(xù)分析準(zhǔn)確性 產(chǎn)生的影響,在數(shù)據(jù)下機(jī)以后對(duì)原始數(shù)據(jù)進(jìn)行質(zhì)控處理就成了至關(guān)重要的環(huán)節(jié)。數(shù)據(jù)質(zhì)控的概念:將原始數(shù)據(jù)通過(guò)系列步驟(或

3、同時(shí)進(jìn)行)質(zhì)量控制篩選的過(guò)程。質(zhì)控篩選后的數(shù)據(jù),我們常常稱(chēng)之為 “cleandata,”也稱(chēng)之為 “可以進(jìn)行后續(xù)分析的序列 ”。因各服務(wù)商提供的質(zhì)控標(biāo)準(zhǔn)會(huì)略有不同,但大體包含(但不限于)如下幾方面:1)通過(guò) index 提取序列,并作測(cè)序質(zhì)量控制,質(zhì)量達(dá)不到設(shè)置要求的去除,將序列與樣本對(duì)應(yīng);2)通過(guò) overlap 完成拼接,去除 index 序列, overlap 長(zhǎng)度 和錯(cuò)配要達(dá)到設(shè)置的要求,拼接不上的舍棄;3)拼接完成且長(zhǎng)度達(dá)不到設(shè)定要求的舍棄。?問(wèn)題: cleandata (可用于分析的序列)跟最終參與分析的序列數(shù)量相等嗎?我們將在 otu 聚類(lèi)環(huán)節(jié)給出答案。3. 原始數(shù)據(jù)的重要性原始數(shù)據(jù)一切數(shù)據(jù)分析的根本。分析過(guò)程文件、結(jié)果文件可以丟失,原始數(shù)據(jù)在,分析結(jié)果可以重現(xiàn);原始數(shù)據(jù)一旦丟失,分析結(jié)果則不可重現(xiàn);原始數(shù)據(jù)應(yīng)及時(shí)索取或保存。獲取方式1 )服務(wù)商提供:硬盤(pán)、網(wǎng)盤(pán)、 u 盤(pán)、郵件等數(shù)據(jù)載體

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論