


下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、微生物多樣性研究中測(cè)序原始數(shù)據(jù)及其處理方式展開(kāi)全文1. 原始 數(shù)據(jù)的解釋及相關(guān)概念原始數(shù)據(jù)的概念:a. 測(cè)序儀完成測(cè)序后生產(chǎn)的測(cè)序文件,經(jīng)過(guò)單樣品拆分后,獲得的單樣品測(cè)序文件。b.或者 測(cè)序儀測(cè)序完成后, 由測(cè)序儀直接拆分的單樣品測(cè)序 文件。 我們常常稱(chēng)之為 “ rawdata ”原始數(shù)據(jù)展示 (illumina 測(cè)序平臺(tái)、 fastq 格式文件 ):fastq 格式文件: 基于文本的, 保存生物序列 (通常是核酸序列) 和其質(zhì)量信息的標(biāo)準(zhǔn)格式, 其實(shí)質(zhì)是一種數(shù)據(jù)存儲(chǔ)格式,其序列以及質(zhì)量都是使用一個(gè) ascii 字符標(biāo)示,最初有sanger 公司開(kāi)發(fā), 目的是將 fasta 序列和質(zhì)量數(shù)據(jù)放在
2、一起, 目前已經(jīng)成為高通量測(cè)序結(jié)果的事實(shí)標(biāo)準(zhǔn)。對(duì)于 fastq 格式文件內(nèi)容相關(guān)解釋?zhuān)?)第一行以 “ ”開(kāi)頭, 由文件識(shí)別標(biāo)志和讀段名 (id)組成;2)第二行為堿基序列;3)第三行以 “ + ”開(kāi)頭,也是由文件識(shí)別標(biāo)志和讀段名( id)組成,其 id 可以省略,但 “ + 能省略;4)第四行是第二行中的序列內(nèi)容每個(gè)堿基所對(duì)應(yīng)的測(cè)序質(zhì)量值。2. 數(shù)據(jù)質(zhì)控高通量測(cè)序下機(jī)的原始數(shù)據(jù) raw reads 中存在一些低質(zhì)量數(shù) 據(jù)、接頭以及 barcode 序列等,為消除其對(duì)后續(xù)分析準(zhǔn)確性 產(chǎn)生的影響,在數(shù)據(jù)下機(jī)以后對(duì)原始數(shù)據(jù)進(jìn)行質(zhì)控處理就成了至關(guān)重要的環(huán)節(jié)。數(shù)據(jù)質(zhì)控的概念:將原始數(shù)據(jù)通過(guò)系列步驟(或
3、同時(shí)進(jìn)行)質(zhì)量控制篩選的過(guò)程。質(zhì)控篩選后的數(shù)據(jù),我們常常稱(chēng)之為 “cleandata,”也稱(chēng)之為 “可以進(jìn)行后續(xù)分析的序列 ”。因各服務(wù)商提供的質(zhì)控標(biāo)準(zhǔn)會(huì)略有不同,但大體包含(但不限于)如下幾方面:1)通過(guò) index 提取序列,并作測(cè)序質(zhì)量控制,質(zhì)量達(dá)不到設(shè)置要求的去除,將序列與樣本對(duì)應(yīng);2)通過(guò) overlap 完成拼接,去除 index 序列, overlap 長(zhǎng)度 和錯(cuò)配要達(dá)到設(shè)置的要求,拼接不上的舍棄;3)拼接完成且長(zhǎng)度達(dá)不到設(shè)定要求的舍棄。?問(wèn)題: cleandata (可用于分析的序列)跟最終參與分析的序列數(shù)量相等嗎?我們將在 otu 聚類(lèi)環(huán)節(jié)給出答案。3. 原始數(shù)據(jù)的重要性原始數(shù)據(jù)一切數(shù)據(jù)分析的根本。分析過(guò)程文件、結(jié)果文件可以丟失,原始數(shù)據(jù)在,分析結(jié)果可以重現(xiàn);原始數(shù)據(jù)一旦丟失,分析結(jié)果則不可重現(xiàn);原始數(shù)據(jù)應(yīng)及時(shí)索取或保存。獲取方式1 )服務(wù)商提供:硬盤(pán)、網(wǎng)盤(pán)、 u 盤(pán)、郵件等數(shù)據(jù)載體
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030禮慶服裝市場(chǎng)發(fā)展分析及行業(yè)投資戰(zhàn)略研究報(bào)告
- 2025-2030碳化硅(SiC)纖維行業(yè)競(jìng)爭(zhēng)現(xiàn)狀及發(fā)展銷(xiāo)售預(yù)測(cè)分析研究報(bào)告
- 2025-2030皮膚病藥物行業(yè)風(fēng)險(xiǎn)投資發(fā)展分析及投資融資策略研究報(bào)告
- 2025技術(shù)合作合同模板(合作伙伴)
- 2025-2030電感線圈行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030電動(dòng)中控臺(tái)船行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030瓶裝水產(chǎn)品行業(yè)市場(chǎng)現(xiàn)狀供需分析及重點(diǎn)企業(yè)投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025屆新高考政治熱點(diǎn)沖刺復(fù)習(xí)經(jīng)濟(jì)全球化
- 2025-2030特色餐飲產(chǎn)業(yè)市場(chǎng)深度調(diào)研及發(fā)展趨勢(shì)與投資戰(zhàn)略研究報(bào)告
- 2025-2030物流配送產(chǎn)業(yè)市場(chǎng)深度調(diào)研及發(fā)展趨勢(shì)與投資戰(zhàn)略研究報(bào)告
- (完整版)《互聯(lián)網(wǎng)金融概論》第五章-眾籌融資
- T-SCBDIF 001-2024 AI 大模型應(yīng)用能力成熟度評(píng)價(jià)標(biāo)準(zhǔn)
- 2025山東省安全員B證考試題庫(kù)附答案
- 廣告印刷投標(biāo)方案(技術(shù)方案)
- 源網(wǎng)荷儲(chǔ)一體化試點(diǎn)項(xiàng)目可行性研究報(bào)告模板
- 2025-2030年中國(guó)松茸市場(chǎng)運(yùn)行現(xiàn)狀及發(fā)展前景預(yù)測(cè)報(bào)告
- 產(chǎn)品銷(xiāo)售雙方保密協(xié)議范本
- 2025版新冠肺炎護(hù)理:全方位護(hù)理要點(diǎn)解讀
- 超高齡患者ERCP的麻醉管理
- 《光電對(duì)抗原理與應(yīng)用》課件第6章
- 2024年浙江省中考社會(huì)(開(kāi)卷)真題卷及答案解析
評(píng)論
0/150
提交評(píng)論