




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、文檔來源為 :從網(wǎng)絡(luò)收集整理.word 版本可編輯.歡迎下載支持什么是高通量測(cè)序?高通量測(cè)序技術(shù)(High-throughput sequencing , HTS)是對(duì)傳統(tǒng) Sanger測(cè)序(稱為一代測(cè)序技術(shù))革命性的改變, 一次對(duì)幾十萬到幾百萬條核酸分子進(jìn)行序列測(cè)定, 因此在有些文獻(xiàn)中稱其為下一代測(cè)序技術(shù)(next generation sequencing , NGS )足見其劃時(shí)代的改變, 同時(shí)高通量測(cè)序使得對(duì)一個(gè)物種的轉(zhuǎn)錄組和基因組進(jìn)行細(xì)致全貌的分析成為可能, 所以又被稱為深度測(cè)序 (Deep sequencing)。什么是 Sanger 法測(cè)序(一代測(cè)序)Sanger法測(cè)序利用一種D
2、NA聚合酶來延伸結(jié)合在待定序列模板上的引物。直到摻入一種鏈終止核苷酸為止。 每一次序列測(cè)定由一套四個(gè)單獨(dú)的反應(yīng)構(gòu)成, 每個(gè)反應(yīng)含有所有四種脫氧核苷酸三磷酸(dNTP) ,并混入限量的一種不同的雙脫氧核苷三磷酸(ddNTP) 。由于 ddNTP缺乏延伸所需要的 3-OH 基團(tuán),使延長(zhǎng)的寡聚核苷酸選擇性地在G、 A 、 T 或 C 處終止。終止點(diǎn)由反應(yīng)中相應(yīng)的雙脫氧而定。每一種 dNTPs 和 ddNTPs 的相對(duì)濃度可以調(diào)整,使反應(yīng)得到一組長(zhǎng)幾百至幾千堿基的鏈終止產(chǎn)物。 它們具有共同的起始點(diǎn), 但終止在不同的的核苷酸上,可通過高分辨率變性凝膠電泳分離大小不同的片段,凝膠處理后可用 X- 光膠片放
3、射自顯影或非同位素標(biāo)記進(jìn)行檢測(cè)。什么是基因組重測(cè)序( GenomeRe-sequencing)全基因組重測(cè)序是對(duì)基因組序列已知的個(gè)體進(jìn)行基因組測(cè)序, 并在個(gè)體或群體水平上進(jìn)行差異性分析的方法。 隨著基因組測(cè)序成本的不斷降低, 人類疾病的致病突變研究由外顯子區(qū)域擴(kuò)大到全基因組范圍。 通過構(gòu)建不同長(zhǎng)度的插入片段文庫(kù)和短序列、 雙末端測(cè)序相結(jié)合的策略進(jìn)行高通量測(cè)序, 實(shí)現(xiàn)在全基因組水平上檢測(cè)疾病關(guān)聯(lián)的常見、 低頻、 甚至是罕見的突變位點(diǎn),以及結(jié)構(gòu)變異等,具有重大的科研和產(chǎn)業(yè)價(jià)值。什么是 de novo 測(cè)序de novo 測(cè)序也稱為從頭測(cè)序:其不需要任何現(xiàn)有的序列資料就可以對(duì)某個(gè)物種進(jìn)行測(cè)序,利用生
4、物信息學(xué)分析手段對(duì)序列進(jìn)行拼接, 組裝, 從而獲得該物種的基因組圖譜。 獲得一個(gè)物種的全基因組序列是加快對(duì)此物種了解的重要捷徑。 隨著新一代測(cè)序技術(shù)的飛速發(fā)展, 基因組測(cè)序所需的成本和時(shí)間較傳統(tǒng)技術(shù)都大大降低, 大規(guī)?;蚪M測(cè)序漸入佳境, 基因組學(xué)研究也迎來新的發(fā)展契機(jī)和革命性突破。 利用新一代高通量、 高效率測(cè)序技術(shù)以及強(qiáng)大的生物信息分析能力,可以高效、低成本地測(cè)定并分析所有生物的基因組序列。什么是外顯子測(cè)序(whole exonsequencing )外顯子組測(cè)序是指利用序列捕獲技術(shù)將全基因組外顯子區(qū)域DNA 捕捉并富集后進(jìn)行高通量測(cè)序的基因組分析方法。 外顯子測(cè)序相對(duì)于基因組重測(cè)序成本較
5、低,對(duì)研究已知基因的 SNP、Indel 等具有較大的優(yōu)勢(shì),但無法研究基因組結(jié)構(gòu)變異如染色體斷裂重組等。什么是 mRNA 測(cè)序 ( RNA-seq )轉(zhuǎn)錄組學(xué)( transcriptomics )是在基因組學(xué)后新興的一門學(xué)科,即研究特定細(xì)胞在某一功能狀態(tài)下所能轉(zhuǎn)錄出來的所有RNA (包括 mRNA 和非編碼 RNA )的類型與拷貝數(shù)。 Illumina提供的 mRNA 測(cè)序技術(shù)可在整個(gè)mRNA 領(lǐng)域進(jìn)行各種相關(guān)研究和新的發(fā)現(xiàn)。 mRNA 測(cè)序不對(duì)引物或探針進(jìn)行設(shè)計(jì), 可自由提供關(guān)于轉(zhuǎn)錄的客觀和權(quán)威信息。 研究人員僅需要一次試驗(yàn)即可快速生成完整的 poly-A 尾的 RNA 完整序列信息,并分析
6、基因表達(dá)、 cSNP 、全新的轉(zhuǎn)錄、全新異構(gòu)體、剪接位點(diǎn)、等位基因特異性表達(dá)和罕見轉(zhuǎn)錄等最全面的轉(zhuǎn)錄組信息。 簡(jiǎn)單的樣品制備和數(shù)據(jù)分析軟件支持在所有物種中的 mRNA 測(cè)序研究。什么是 small RNA 測(cè)序Small RNA ( microRNAs 、 siRNAs 和 pi RNAs )是生命活動(dòng)重要的調(diào)控因子,在基因表達(dá)調(diào)控、生物個(gè)體發(fā)育、代謝及疾病的發(fā)生等生理過程中起著重要的作用。 Illumina 能夠?qū)?xì)胞或者組織中的全部Small RNA 進(jìn)行深度測(cè)序及定量分析等研究。實(shí)驗(yàn)時(shí)首先將18-30 nt 范圍的 Small RNA 從總 RNA 中分離出來, 兩端分別加上特定接頭后體
7、外反轉(zhuǎn)錄做成cDNA 再做進(jìn)一步處理后,利用測(cè)序儀對(duì)DNA 片段進(jìn)行單向末端直接測(cè)序。通過 Illumina 對(duì) SmallRNA 大規(guī)模測(cè)序分析, 可以從中獲得物種全基因組水平的 miRNA 圖譜, 實(shí)現(xiàn)包括新miRNA分子的挖掘,其作用靶基因的預(yù)測(cè)和鑒定、樣品間差異表達(dá)分析、 miRNAs 聚類和表達(dá)譜分析等科學(xué)應(yīng)用。什么是 miRNA 測(cè)序成熟的 microRNA (miRNA )是 1724nt 的單鏈非編碼RNA 分子,通過與mRNA 相互作用影響目標(biāo) mRNA 的穩(wěn)定性及翻譯,最終誘導(dǎo)基因沉默,調(diào)控著基因表達(dá)、細(xì)胞生長(zhǎng)、發(fā)育等生物學(xué)過程。 基于第二代測(cè)序技術(shù)的 microRNA 測(cè)
8、序, 可以一次性獲得數(shù)百萬條microRNA序列,能夠快速鑒定出不同組織、不同發(fā)育階段、不同疾病狀態(tài)下已知和未知的 microRNA及其表達(dá)差異,為研究microRNA 對(duì)細(xì)胞進(jìn)程的作用及其生物學(xué)影響提供了有力工具。什么是 Chip-seq染色質(zhì)免疫共沉淀技術(shù)( ChromatinImmunoprecipitation , ChIP )也稱結(jié)合位點(diǎn)分析法,是研究體內(nèi)蛋白質(zhì)與DNA 相互作用的有力工具,通常用于轉(zhuǎn)錄因子結(jié)合位點(diǎn)或組蛋白特異性修飾位點(diǎn)的研究。 將 ChIP 與第二代測(cè)序技術(shù)相結(jié)合的 ChIP-Seq 技術(shù), 能夠高效地在全基因組范圍內(nèi)檢測(cè)與組蛋白、轉(zhuǎn)錄因子等互作的 DNA 區(qū)段。C
9、hIP-Seq 的原理是:首先通過染色質(zhì)免疫共沉淀技術(shù)( ChIP )特異性地富集目的蛋白結(jié)合的 DNA 片段, 并對(duì)其進(jìn)行純化與文庫(kù)構(gòu)建; 然后對(duì)富集得到的 DNA 片段進(jìn)行高通量測(cè)序。研究人員通過將獲得的數(shù)百萬條序列標(biāo)簽精確定位到基因組上, 從而獲得全基因組范圍內(nèi)與組蛋白、轉(zhuǎn)錄因子等互作的 DNA 區(qū)段信息。什么是 CHIRP-SeqCHIRP-Seq( Chromatin Isolationby RNA Purification ) 是一種檢測(cè)與 RNA 綁定的 DNA 和蛋白的高通量測(cè)序方法。方法是通過設(shè)計(jì)生物素或鏈霉親和素探針,把目標(biāo)RNA 拉下來以后,與其共同作用的 DNA 染色體
10、片段就會(huì)附在到磁珠上,最后把染色體片段做高通量測(cè)序,這樣會(huì)得到該RNA 能夠結(jié)合到在基因組的哪些區(qū)域,但由于蛋白測(cè)序技術(shù)不夠成熟,無法知道與該RNA 結(jié)合的蛋白。什么是RIP-seqRNA Immunoprecipitation 是研究細(xì)胞內(nèi) RNA 與蛋白結(jié)合情況的技術(shù),是了解轉(zhuǎn)錄后調(diào)控網(wǎng)絡(luò)動(dòng)態(tài)過程的有力工具,能幫助我們發(fā)現(xiàn)miRNA 的調(diào)節(jié)靶點(diǎn)。這種技術(shù)運(yùn)用針對(duì)目標(biāo)蛋白的抗體把相應(yīng)的 RNA-蛋白復(fù)合物沉淀下來,然后經(jīng)過分離純化就可以對(duì)結(jié)合在復(fù)合物上的RNA 進(jìn)行測(cè)序分析。RIP 可以看成是普遍使用的染色質(zhì)免疫沉淀ChIP 技術(shù)的類似應(yīng)用, 但由于研究對(duì)象是RNA-蛋白復(fù)合物而不是DNA-
11、 蛋白復(fù)合物, RIP 實(shí)驗(yàn)的優(yōu)化條件與ChIP 實(shí)驗(yàn)不太相同(如復(fù)合物不需要固定, RIP 反應(yīng)體系中的試劑和抗體絕對(duì)不能含有RNA 酶,抗體需經(jīng) RIP 實(shí)驗(yàn)驗(yàn)證等等) 。 RIP 技術(shù)下游結(jié)合microarray 技術(shù)被稱為 RIP-Chip ,幫助我們更高通量地了解癌癥以及其它疾病整體水平的 RNA 變化。什么是 CLIP-seqCLIP-seq, 又 稱 為 HITS-CLIP , 即 紫 外 交 聯(lián) 免 疫 沉 淀 結(jié) 合 高 通 量 測(cè) 序 (crosslinking-immunprecipitation and high-throughput sequencing), 是一項(xiàng)在
12、全基因組水平揭示 RNA 分子與 RNA 結(jié)合蛋白相互作用的革命性技術(shù)。 其主要原理是基于 RNA 分子與 RNA結(jié)合蛋白在紫外照射下發(fā)生耦聯(lián),以 RNA 結(jié)合蛋白的特異性抗體將RNA- 蛋白質(zhì)復(fù)合體沉淀之后,回收其中的 RNA 片段,經(jīng)添加接頭、 RT-PCR 等步驟,對(duì)這些分子進(jìn)行高通量測(cè)序,再經(jīng)生物信息學(xué)的分析和處理、總結(jié),挖掘出其特定規(guī)律,從而深入揭示RNA 結(jié)合蛋白與 RNA 分子的調(diào)控作用及其對(duì)生命的意義。什么是metagenomic (宏基因組):Magenomics 研究的對(duì)象是整個(gè)微生物群落。相對(duì)于傳統(tǒng)單個(gè)細(xì)菌研究來說,它具有眾多優(yōu)勢(shì),其中很重要的兩點(diǎn): (1) 微生物通常是
13、以群落方式共生于某一小生境中,它們的很多特性是基于整個(gè)群落環(huán)境及個(gè)體間的相互影響的,因此做Metagenomics 研究比做單個(gè)個(gè)體的研究更能發(fā)現(xiàn)其特性; (2)Metagenomics 研究無需分離單個(gè)細(xì)菌,可以研究那些不能被實(shí)驗(yàn)室分離培養(yǎng)的微生物。宏基因組是基因組學(xué)一個(gè)新興的科學(xué)研究方向。 宏基因組學(xué) (又稱元基因組學(xué), 環(huán)境基因組學(xué),生態(tài)基因組學(xué)等) ,是研究直接從環(huán)境樣本中提取的基因組遺傳物質(zhì)的學(xué)科。傳統(tǒng)的微生物研究依賴于實(shí)驗(yàn)室培養(yǎng), 元基因組的興起填補(bǔ)了無法在傳統(tǒng)實(shí)驗(yàn)室中培養(yǎng)的微生物研究的空白。過去幾年中, DNA 測(cè)序技術(shù)的進(jìn)步以及測(cè)序通量和分析方法的改進(jìn)使得人們得以一窺這一未知的
14、基因組科學(xué)領(lǐng)域。什么是 SNP、 SNV (單核苷酸位點(diǎn)變異)單核苷酸多態(tài)性singlenucleotide polymorphism , SNP 或單核苷酸位點(diǎn)變異SNV 。個(gè)體間基因組 DNA 序列同一位置單個(gè)核苷酸變異(替代、插入或缺失)所引起的多態(tài)性。不同物種、個(gè)體基因組 DNA 序列同一位置上的單個(gè)核苷酸存在差別的現(xiàn)象。有這種差別的基因座、DNA 序列等可作為基因組作圖的標(biāo)志。 人基因組上平均約每1000 個(gè)核苷酸即可能出現(xiàn)1 個(gè) 單核苷酸多態(tài)性的變化, 其中有些單核苷酸多態(tài)性可能與疾病有關(guān), 但可能大多數(shù)與疾病無 關(guān)。 單核苷酸多態(tài)性是研究人類家族和動(dòng)植物品系遺傳變異的重要依據(jù)。
15、在研究癌癥基因組變異時(shí), 相對(duì)于正常組織, 癌癥中特異的單核苷酸變異是一種體細(xì)胞突變( somatic mutation ) ,稱做 SNV 。什么是 INDEL ( 基因組小片段插入)基因組上小片段(50bp)的插入或缺失,形同 SNP/SNV。什么是 copy number variation ( CNV ) :基因組拷貝數(shù)變異基因組拷貝數(shù)變異是基因組變異的一種形式, 通常使基因組中大片段的 DNA 形成非正常的拷貝數(shù)量。例如人類正常染色體拷貝數(shù)是2 ,有些染色體區(qū)域拷貝數(shù)變成1 或 3 ,這樣,該區(qū)域發(fā)生拷貝數(shù)缺失或增加, 位于該區(qū)域內(nèi)的基因表達(dá)量也會(huì)受到影響。 如果把一條染色體分成 A
16、-B-C-D 四個(gè)區(qū)域, 則 A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D 分別發(fā)生了 C 區(qū)域A-B-C-C-D 也可以是在其他位置的擴(kuò)增,如A-C-B-C-D 。什么是 structure variation ( SV ) :基因組結(jié)構(gòu)變異染色體結(jié)構(gòu)變異是指在染色體上發(fā)生了大片段的變異。 主要包括染色體大片段的插入和缺失(引起 CNV 的變化) ,染色體內(nèi)部的某塊區(qū)域發(fā)生翻轉(zhuǎn)顛換,兩條染色體之間發(fā)生重組( inter-chromosometrans-location )等。一般 SV 的展示利用 Circos 軟件。什么是Segment duplication
17、一般稱為 SD 區(qū)域,串聯(lián)重復(fù)是由序列相近的一些DNA 片段串聯(lián)組成。串聯(lián)重復(fù)在人類基因多樣性的靈長(zhǎng)類基因中發(fā)揮重要作用。在人類染色體Y 和 22 號(hào)染色體上,有很大的 SD序列。什么是 genotype andphenotype既基因型與表型;一般指某些單核苷酸位點(diǎn)變異與表現(xiàn)形式間的關(guān)系。什么是Read?高通量測(cè)序平臺(tái)產(chǎn)生的序列標(biāo)簽就稱為 reads。什么是soft-clipped reads當(dāng)基因組發(fā)生某一段的缺失, 或轉(zhuǎn)錄組的剪接, 在測(cè)序過程中, 橫跨缺失位點(diǎn)及剪接位點(diǎn)的reads 回帖到基因組時(shí),一條reads 被切成兩段,匹配到不同的區(qū)域,這樣的 reads 叫做 soft-cli
18、pped reads,這些reads對(duì)于鑒定染色體結(jié)構(gòu)變異及外源序列整合具有重要作用。什么是 multi-hits reads由于大部分測(cè)序得到的 reads 較短,一個(gè)reads 能夠匹配到基因組多個(gè)位置,無法區(qū)分其真實(shí)來源的位置。一些工具根據(jù)統(tǒng)計(jì)模型,如將這類reads分配給reads較多的區(qū)域。什么是Contig?拼接軟件基于reads之間的overlap區(qū),拼接獲得的序列稱為Contig (重疊群)。什么是Scaffold?基因組de novo測(cè)序,通過reads拼接獲得Contigs后,往往還需要構(gòu)建454 Paired-end庫(kù)或Illumina Mate-pair 庫(kù),以獲得一定
19、大小片段(如 3Kb、 6Kb、 10Kb 、 20Kb )兩端的序列?;谶@些序列,可以確定一些Contig 之間的順序關(guān)系,這些先后順序已知的 Contigs 組成Scaffold 。什么是 Contig N50 ?Reads拼接后會(huì)獲得一些不同長(zhǎng)度的Contigs。將所有的Contig長(zhǎng)度相加,能獲得一個(gè)Contig總長(zhǎng)度。然后將所有的 Contigs 按照從長(zhǎng)到短進(jìn)行排序,如獲得Contig 1 , Contig 2 , Contig3Contig 25。將Contig按照這個(gè)順序依次相加,當(dāng)相加的長(zhǎng)度達(dá)到Contig總長(zhǎng)度的一半時(shí),最后一個(gè)加上的 Contig 長(zhǎng)度即為 Contig
20、 N50 。舉例:Contig 1+Contig 2+Contig3+Contig 4=Contig 總長(zhǎng)度 *1/2 時(shí), Contig 4 的長(zhǎng)度即為 Contig N50 。 Contig N50 可以作為基 因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)。什么是 Scaffold N50 ?Scaffold N50 與 Contig N50 的定義類似。 Contigs 拼接組裝獲得一些不同長(zhǎng)度的 Scaffolds 。將所有的 Scaffold 長(zhǎng)度相加, 能獲得一個(gè)Scaffold 總長(zhǎng)度。 然后將所有的 Scaffolds 按照從長(zhǎng)到短進(jìn)行排序,如獲得 Scaffold 1 , Scaffol
21、d 2, Scaffold 3. Scaffold 25。將 Scaffold 按照這個(gè)順序依次相加, 當(dāng)相加的長(zhǎng)度達(dá)到 Scaffold 總長(zhǎng)度的一半時(shí), 最后一個(gè)加上的 Scaffold 長(zhǎng)度即為 Scaffold N50 。舉例: Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold 總長(zhǎng)度 *1/2 時(shí), Scaffold 5 的長(zhǎng)度即為 Scaffold N50 。 Scaffold N50 可以作為基因 組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)。什么是測(cè)序深度和覆蓋度?測(cè)序深度是指測(cè)序得到的總堿基數(shù)與待測(cè)基因組大
22、小的比值。假設(shè)一個(gè)基因大小為 2M ,測(cè)序深度為10X ,那么獲得的總數(shù)據(jù)量為20M 。覆蓋度是指測(cè)序獲得的序列占整個(gè)基因組的比例。由于基因組中的高 GC 、重復(fù)序列等復(fù)雜結(jié)構(gòu)的存在,測(cè)序最終拼接組裝獲得的序列往往無法覆蓋有所的區(qū)域,這部分沒有獲得的區(qū)域就稱為Gap。例如一個(gè)細(xì)菌基因組測(cè)序,覆蓋度是 98%,那么還有2% 的序列區(qū)域是沒有通過測(cè)序獲得的。假設(shè) 對(duì)長(zhǎng)1000bp的目標(biāo)區(qū)域進(jìn)行捕獲測(cè)序,每個(gè) read長(zhǎng)10bp,總共得到3000個(gè)reads, 把所有的 reads 對(duì)比到目標(biāo)區(qū)域后, 1000bp 的目標(biāo)區(qū)域中有990bp 的位置至少有1 個(gè) read覆蓋到,換言之剩余的 10bp
23、 沒有 1 個(gè) read 覆蓋。深度(depth)3000*10/1000=30 也就是說測(cè)序深度為 30*覆蓋度(coverage) 990/1000*100%=99% 這次測(cè)序覆蓋度為 99%假設(shè) 對(duì)長(zhǎng)100bp的目標(biāo)區(qū)域進(jìn)行捕獲測(cè)序,每個(gè) read長(zhǎng)5bp,總共得到200個(gè)reads,把所 有的reads對(duì)比到目標(biāo)區(qū)域后,100bp的目標(biāo)區(qū)域中有 98bp的位置至少有1個(gè)read覆蓋到, 換言之剩余的 2bp 沒有 1 個(gè) read 覆蓋。深度(depth)200*5/1000=10 也就是說測(cè)序深度為 10*覆蓋度(coverage) 98/100*100%=98% 這次測(cè)序覆蓋度為
24、98%什么是 RPKM 、 FPKMRPKM,Reads Per Kilobase of exon model per Millionmapped reads, is defined in thiswayMortazavi etal., 2008:每1百萬個(gè)map上的reads中map到外顯子的每1K個(gè)堿基上的reads個(gè)數(shù)。假如有 1 百萬個(gè) reads 映射到了人的基因組上,那么具體到每個(gè)外顯子呢,有多少映射上了呢,而外顯子的長(zhǎng)度不一,那么每1K 個(gè)堿基上又有多少reads 映射上了呢,這大概就是這個(gè) RPKM 的直觀解釋。 昨天 12:30 上傳 下載附件 (12.31 KB) 如果對(duì)應(yīng)
25、特定基因的話,那么就是每1000000 mapped 到該基因上的 reads 中每 kb 有多少是mapped 到該基因上的 exon 的 readTotal exon reads:This is the number in the column with header Total exonreadsin the row for the gene. This is the number of reads that have beenmapped to aregion in which an exon is annotated for the gene or across theboundar
26、ies oftwo exons or an intron and an exon for an annotated transcript ofthe gene. Foreukaryotes, exons and their internal relationships are defined byannotations oftype mRNA. 映射到外顯子上總的 reads 個(gè)數(shù)。這個(gè)是映射到某個(gè)區(qū)域上的 reads 個(gè)數(shù),這個(gè)區(qū)域或者是已知注釋的基因或者跨兩個(gè)外顯子的邊界或者是某個(gè)基因已經(jīng) 注釋的轉(zhuǎn)錄本的內(nèi)含子、 外顯子。 對(duì)于真核生物來說, 外顯子和它們自己內(nèi)部的關(guān)系由某類 型的 mRN
27、A 來注釋。Exonlength: Thisis the number in the column with the header Exon length inthe row for the gene,divided by 1000. This is calculated as the sum of thelengths of all exonsannotated for the gene. Each exon is included only once inthis sum, even if itis present in more annotated transcripts for the
28、 gene.Partly overlapping exonswill count with their full length, even though theyshare the same region.外顯子的長(zhǎng)度。計(jì)算時(shí),計(jì)算所有某個(gè)基因已注釋的所有外顯子長(zhǎng)度的總和。 即使某個(gè)基因以多種注釋的轉(zhuǎn)錄本呈現(xiàn), 這個(gè)外顯子在求和時(shí)只被包含一次。 即使部分重疊 的外顯子共享相同的區(qū)域,重疊的外顯子以其總長(zhǎng)來計(jì)算。Mapped reads: The sum of all the numbers in the column with header Totalgenereads. The Total
29、gene reads for a gene is the total number ofreads that aftermapping have been mapped to the region of the gene. Thus thisincludes all thereads uniquely mapped to the region of the gene as well asthose of the readswhich match in more places (below the limit set in thedialog in figure 18.110) that hav
30、e been allocated tothis gene's region. Agene's region is that comprised of the flanking regions(if it was specified infigure 18.110), the exons, the introns andacross exon-exonboundaries of all transcripts annotated for the gene. Thus,the sum of the totalgene reads numbers is the number of m
31、apped reads for thesample (you can findthe number in the RNA-Seq report).map的reads總和。映射到某個(gè)基因上的所有reads總數(shù)。因此這包含所有的唯一映射到這個(gè)區(qū)域上的reads。舉例:比如對(duì)應(yīng)到該基因的 read 有 1000 個(gè),總 reads 個(gè)數(shù)有 100 萬,而該基因的外顯子總長(zhǎng)為5kb,那么它的 RPKM 為:10A9*1000(reads個(gè)數(shù))/10人6(總reads個(gè)數(shù))*5000(外顯子長(zhǎng) 度)二200或者:1000(reads個(gè)數(shù))/1(百萬)*5(K)=200這個(gè)值反映基因的表達(dá)水平。 FPKM
32、(fragments per kilobase of exon per millionfragments mapped). FPKM 與 RPKM 計(jì)算方法 基本一致。不同點(diǎn)就是FPKM 計(jì)算的是fragments ,而RPKM 計(jì)算的是reads。 Fragment 比read 的含義更廣,因此 FPKM 包含的意義也更廣,可以是pair-end 的一個(gè)fragment ,也可以是一個(gè) read。什么是轉(zhuǎn)錄本重構(gòu)用測(cè)序的數(shù)據(jù)組裝成轉(zhuǎn)錄本。有兩種組裝方式: 1, de-novo 構(gòu)建; 2 ,有參考基因組重構(gòu)。其中de-novo組裝是指在不依賴參考基因組的情況下,將有overlap的reads
33、連接成一個(gè)更長(zhǎng)的序列,經(jīng)過不斷的延伸,拼成一個(gè)個(gè)的contig 及 scaffold 。常用工具包括 velvet ,read 貼回到基因組上,然后在基因常用工具包括scripture 、 cufflinks 。形成新的基因, 稱作融合基因,trans-ABYSS , Trinity 等。有參考基因組重構(gòu),是指先將組通過reads覆蓋度,junction位點(diǎn)的信息等得到轉(zhuǎn)錄本, 什么是 genefusion將基因組位置不同的兩個(gè)基因中的一部分或全部整合到一起,或嵌合體基因。該基因有可能翻譯出融合或嵌合體蛋白。什么是表達(dá)譜基因表達(dá)譜(geneexpression profile) : 指通過構(gòu)建
34、處于某一特定狀態(tài)下的細(xì)胞或組織的非偏性cDNA 文庫(kù) ,大規(guī)模 cDNA 測(cè)序 ,收集 cDNA 序列片段、定性、定量分析其mRNA 群體組成 ,從而描繪該特定細(xì)胞或組織在特定狀態(tài)下的基因表達(dá)種類和豐度信息,這樣編制成的數(shù)據(jù)表就稱為基因表達(dá)譜什么是功能基因組學(xué)功能基因組學(xué)( Functuionalgenomics )又往往被稱為后基因組學(xué)( Postgenomics) ,它利用結(jié)構(gòu)基因組所提供的信息和產(chǎn)物, 發(fā)展和應(yīng)用新的實(shí)驗(yàn)手段, 通過在基因組或系統(tǒng)水平上全面分析基因的功能,使得生物學(xué)研究從對(duì)單一基因或蛋白質(zhì)得研究轉(zhuǎn)向多個(gè)基因或蛋白質(zhì)同時(shí)進(jìn)行系統(tǒng)的研究。這是在基因組靜態(tài)的堿基序列弄清楚之后轉(zhuǎn)
35、入對(duì)基因組動(dòng)態(tài)的生物學(xué)功能學(xué)研究。研究?jī)?nèi)容包括基因功能發(fā)現(xiàn)、基因表達(dá)分析及突變檢測(cè)。 基因的功能包括:生物學(xué)功能, 如作為蛋白質(zhì)激酶對(duì)特異蛋白質(zhì)進(jìn)行磷酸化修飾; 細(xì)胞學(xué)功能, 如參與細(xì)胞間和細(xì)胞內(nèi)信號(hào)傳遞途徑;發(fā)育上功能, 如參與形態(tài)建成等。采用的手段包括經(jīng)典的減法雜交, 差示篩選, cDNA 代表差異分析以及mRNA 差異顯示等,但這些技術(shù)不能對(duì)基因進(jìn)行全面系統(tǒng)的 分 析 , 新 的 技 術(shù) 應(yīng)運(yùn) 而生 , 包括 基 因 表 達(dá) 的 系 統(tǒng)分 析 ( serial analysis of gene expression,SAGE) , cDNA 微陣列( cDNA microarray )
36、, DNA 芯片( DNA chip )和序列標(biāo)志片段顯示(sequence taggedfragmentsdisplay。什么是比較基因組學(xué)比較基因組學(xué) (ComparativeGenomics) 是基于基因組圖譜和測(cè)序基礎(chǔ)上, 對(duì)已知的基因和基因組結(jié)構(gòu)進(jìn)行比較, 來了解基因的功能、 表達(dá)機(jī)理和物種進(jìn)化的學(xué)科。 利用模式生物基因組與人類基因組之間編碼順序上和結(jié)構(gòu)上的同源性, 克隆人類疾病基因, 揭示基因功能和疾病分子機(jī)制,闡明物種進(jìn)化關(guān)系,及基因組的內(nèi)在結(jié)構(gòu)。什么是表觀遺傳學(xué)表觀遺傳學(xué)是研究基因的核苷酸序列不發(fā)生改變的情況下, 基因表達(dá)了可遺傳的變化的一門遺傳學(xué)分支學(xué)科。表觀遺傳的現(xiàn)象很多,已知的有DNA 甲基化( DNAmethylation ) ,基因組印記( genomicimpriting ) ,母體效應(yīng)( maternaleffects ) ,基因沉默( genesilencing ) ,核仁顯性,休眠轉(zhuǎn)座子激活和R
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 個(gè)人借款協(xié)議財(cái)產(chǎn)抵押
- 城市亮化與景觀設(shè)計(jì)方案
- 智能語音設(shè)備銷售及服務(wù)合同
- 影視制作服務(wù)中版權(quán)糾紛與免責(zé)條款的協(xié)議
- 惠州學(xué)院教師進(jìn)修協(xié)議書
- 意向租賃合同年
- 網(wǎng)絡(luò)科技業(yè)物聯(lián)網(wǎng)技術(shù)應(yīng)用與發(fā)展規(guī)劃方案設(shè)計(jì)
- 喪葬禮儀服務(wù)契約合同書
- 農(nóng)業(yè)技術(shù)創(chuàng)新與研發(fā)方案
- 生物制藥研發(fā)項(xiàng)目投資合同
- 國(guó)藥現(xiàn)代筆試
- 部編版語文二年級(jí)下冊(cè)第三單元作業(yè)設(shè)計(jì)
- 醫(yī)療器械市場(chǎng)部年度規(guī)劃
- 《商務(wù)溝通-策略、方法與案例》課件 第七章 自我溝通
- 按鍵精靈腳本編寫方法
- 節(jié)約集約建設(shè)用地標(biāo)準(zhǔn) DG-TJ08-2422-2023
- 危險(xiǎn)化學(xué)品目錄(2024版)
- 竹簽購(gòu)銷合同范例
- 心臟驟停搶救應(yīng)急預(yù)案
- 2022年湖南省公務(wù)員錄用考試《申論》真題(縣鄉(xiāng)卷)及答案解析
- 國(guó)家安全教育課程教學(xué)大綱分享
評(píng)論
0/150
提交評(píng)論