轉(zhuǎn)錄組測序(RNA-Seq)--楊軍_第1頁
轉(zhuǎn)錄組測序(RNA-Seq)--楊軍_第2頁
轉(zhuǎn)錄組測序(RNA-Seq)--楊軍_第3頁
轉(zhuǎn)錄組測序(RNA-Seq)--楊軍_第4頁
轉(zhuǎn)錄組測序(RNA-Seq)--楊軍_第5頁
已閱讀5頁,還剩21頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、轉(zhuǎn)錄組測序轉(zhuǎn)錄組測序(RNA-Seq)Jun YangRNA-Seq 的技術(shù)背景的技術(shù)背景 RNA-Seq又稱又稱轉(zhuǎn)錄組高通量測序轉(zhuǎn)錄組高通量測序(transcriptome sequencing)或稱為或稱為全轉(zhuǎn)錄組鳥槍法測序全轉(zhuǎn)錄組鳥槍法測序(Whole Transcriptom Shotgun Sequencing WTSS) 2005年以來年以來, 以以Roche 公司的公司的454 技術(shù)、技術(shù)、Illumina 公司的公司的Solexa 技術(shù)和技術(shù)和ABI 公司的公司的SOLiD 技術(shù)為標(biāo)技術(shù)為標(biāo)志的新一代測序技術(shù)誕生志的新一代測序技術(shù)誕生, 之后之后HelicosBioscienc

2、es 公司又推出公司又推出單分子測序單分子測序(Single molecule sequencing, SMS)技術(shù)。新一代測序又稱作深度技術(shù)。新一代測序又稱作深度測序或高通量測序。測序或高通量測序。 轉(zhuǎn)錄組是特定組織或細(xì)胞在某一功能狀態(tài)下所能轉(zhuǎn)錄組是特定組織或細(xì)胞在某一功能狀態(tài)下所能轉(zhuǎn)錄出來的所有轉(zhuǎn)錄出來的所有RNA的總和,包括的總和,包括mRNA和非編和非編碼碼RNA。 轉(zhuǎn)錄組(轉(zhuǎn)錄組(transcriptome)廣義上指某一生理條件廣義上指某一生理條件下,細(xì)胞內(nèi)所有轉(zhuǎn)錄產(chǎn)物的集合,包括信使下,細(xì)胞內(nèi)所有轉(zhuǎn)錄產(chǎn)物的集合,包括信使RNA、核糖體核糖體RNA、轉(zhuǎn)運、轉(zhuǎn)運RNA及非編碼及非編碼R

3、NA;狹義上指;狹義上指所有所有mRNA的集合。蛋白質(zhì)是行使細(xì)胞功能的主的集合。蛋白質(zhì)是行使細(xì)胞功能的主要承擔(dān)者,蛋白質(zhì)組是細(xì)胞功能和狀態(tài)的最直接要承擔(dān)者,蛋白質(zhì)組是細(xì)胞功能和狀態(tài)的最直接描述,轉(zhuǎn)錄組成為研究基因表達(dá)的主要手段,轉(zhuǎn)描述,轉(zhuǎn)錄組成為研究基因表達(dá)的主要手段,轉(zhuǎn)錄組是連接基因組遺傳信息與生物功能的蛋白質(zhì)錄組是連接基因組遺傳信息與生物功能的蛋白質(zhì)組的必然紐帶,組的必然紐帶,轉(zhuǎn)錄水平的調(diào)控是目前研究最多轉(zhuǎn)錄水平的調(diào)控是目前研究最多的,也是生物體最重要的調(diào)控方式。的,也是生物體最重要的調(diào)控方式。 轉(zhuǎn)錄組?轉(zhuǎn)錄組?轉(zhuǎn)錄本轉(zhuǎn)錄本All transcripts All mRNAsTotal RN

4、A樣品檢測樣品檢測 OD260/280:1.82.2; RNA 28S:18S 1.0; RIN7 ; 樣品總量不低于樣品總量不低于15ug; 樣品濃度:樣品濃度:total RNA濃度不低于濃度不低于400ng/ul。 樣品樣品RNA準(zhǔn)備準(zhǔn)備2. 測序文庫構(gòu)建測序文庫構(gòu)建 使用使用oligo dT微珠純化微珠純化mRNA mRNA片段化處理片段化處理 反轉(zhuǎn)錄反應(yīng)合成合成雙鏈反轉(zhuǎn)錄反應(yīng)合成合成雙鏈cDNA 雙鏈雙鏈DNA末端修復(fù)及末端修復(fù)及3末端加末端加A 使用特定的測序接頭連接使用特定的測序接頭連接DNA片段兩片段兩端端 高保真聚合酶擴(kuò)增構(gòu)建成功的測序文高保真聚合酶擴(kuò)增構(gòu)建成功的測序文庫庫3

5、. DNA成簇(成簇(Cluster)擴(kuò)增)擴(kuò)增4. 高通量測序(高通量測序(Illumina Genome Analyzer IIx) 5. 數(shù)據(jù)分析數(shù)據(jù)分析 原始數(shù)據(jù)讀取原始數(shù)據(jù)讀取 與數(shù)據(jù)庫比對并進(jìn)行注釋與數(shù)據(jù)庫比對并進(jìn)行注釋 深層次數(shù)據(jù)分析深層次數(shù)據(jù)分析實驗流程標(biāo)準(zhǔn)信息分析流程標(biāo)準(zhǔn)信息分析流程生物信息分析生物信息分析基本信息分析基本信息分析 數(shù)據(jù)量產(chǎn)出:數(shù)據(jù)量產(chǎn)出:2Gb per sample 測序策略:測序策略:HiSeq2000, PE91 or 101 插入片段大?。翰迦肫未笮。?00 bps 測序質(zhì)量控制:測序質(zhì)量控制:Q20% 80相關(guān)概念相關(guān)概念 高通量測序中,每測一個堿

6、基會給出一個相應(yīng)的質(zhì)量值,高通量測序中,每測一個堿基會給出一個相應(yīng)的質(zhì)量值,這個質(zhì)量值是衡量測序準(zhǔn)確度的。這個質(zhì)量值是衡量測序準(zhǔn)確度的。Q20與與Q30則表示質(zhì)量則表示質(zhì)量值大于等于值大于等于20或或30的堿基所占百分比。的堿基所占百分比。 Q20值是指的測序過程堿基識別過程中,對所識別的堿基值是指的測序過程堿基識別過程中,對所識別的堿基給出的錯誤概率。給出的錯誤概率。 質(zhì)量值質(zhì)量值Q20,錯誤識別概率是錯誤識別概率是1%,即正確率是即正確率是99%;質(zhì)量值質(zhì)量值Q30,錯誤識別概率是錯誤識別概率是0.1%,即正確率是即正確率是99.9%;質(zhì)量值質(zhì)量值Q40,錯誤識別概率是錯誤識別概率是0.0

7、1%,即正確率即正確率99.99%;Q“N”0的質(zhì)量值,就是正確率有的質(zhì)量值,就是正確率有N個個9的百分比。的百分比。 N50 即覆蓋即覆蓋50%所有核苷酸的最大所有核苷酸的最大Unigene長度或覆蓋長度或覆蓋 50%所有核苷酸的最大序列重疊群長度。所有核苷酸的最大序列重疊群長度。相關(guān)概念相關(guān)概念 高通量測序時,在芯片上的每個反應(yīng),會讀出一條序列,高通量測序時,在芯片上的每個反應(yīng),會讀出一條序列,是比較短的,叫是比較短的,叫read,它們是原始數(shù)據(jù);有很多,它們是原始數(shù)據(jù);有很多reads通通過片段重疊,能夠組裝成一個更大的片段,稱為過片段重疊,能夠組裝成一個更大的片段,稱為contig;多

8、個多個contigs通過片段重疊,組成一個更長的通過片段重疊,組成一個更長的scaffold;一;一個個contig被組成出來之后,鑒定發(fā)現(xiàn)它是被組成出來之后,鑒定發(fā)現(xiàn)它是編碼蛋白質(zhì)編碼蛋白質(zhì)的基的基因,就叫因,就叫singleton;多個;多個contigs組裝成組裝成scaffold之后,鑒定之后,鑒定發(fā)現(xiàn)它編碼蛋白質(zhì)的基因,叫發(fā)現(xiàn)它編碼蛋白質(zhì)的基因,叫unigene。 Unigene是是UniqueGene的英文縮寫,意為廣泛通用的基因的英文縮寫,意為廣泛通用的基因數(shù)據(jù)庫,通過電腦對相同基因座數(shù)據(jù)庫,通過電腦對相同基因座(Locus)的收集整理集合的收集整理集合形成一個非冗余的基因數(shù)據(jù)庫

9、。形成一個非冗余的基因數(shù)據(jù)庫。 相關(guān)數(shù)據(jù)庫概念相關(guān)數(shù)據(jù)庫概念NR是是NCBI里的非冗余蛋白數(shù)據(jù)庫,即里的非冗余蛋白數(shù)據(jù)庫,即NCBI的的blastp程序中的程序中的NR數(shù)據(jù)庫數(shù)據(jù)庫 ,我們可,我們可以用自己的以用自己的query序列,序列,blast搜索這個數(shù)據(jù)庫,得到這些搜索這個數(shù)據(jù)庫,得到這些query序列的具有序列相似序列的具有序列相似性的蛋白序列。性的蛋白序列。NT:NCBI的的blast頁面,選擇頁面,選擇nucleotide blast,數(shù)據(jù)庫選,數(shù)據(jù)庫選others,也就是(,也就是(nr/nt). SWISS-PROT是經(jīng)過注釋的蛋白質(zhì)序列數(shù)據(jù)庫,由歐洲生物信息學(xué)研究所是經(jīng)過注

10、釋的蛋白質(zhì)序列數(shù)據(jù)庫,由歐洲生物信息學(xué)研究所(EBI)維維護(hù)。護(hù)。 KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因與基因組百科全書,京都基因與基因組百科全書)是是基因組破譯方面的數(shù)據(jù)庫。基因組破譯方面的數(shù)據(jù)庫。COG是是Cluster of Orthologous Groups of proteins(蛋白相鄰類的聚簇)的縮寫,(蛋白相鄰類的聚簇)的縮寫,即直系同源基因數(shù)據(jù)庫。即直系同源基因數(shù)據(jù)庫。 COG是對基因產(chǎn)物進(jìn)行直系同源分類的數(shù)據(jù)庫,每個是對基因產(chǎn)物進(jìn)行直系同源分類的數(shù)據(jù)庫,每個COG蛋白都被假定來自祖先蛋白,蛋白都被假定來自祖先蛋

11、白,COG數(shù)據(jù)庫是基于細(xì)菌、藻類、真核生物具有數(shù)據(jù)庫是基于細(xì)菌、藻類、真核生物具有完整基因組的編碼蛋白、系統(tǒng)進(jìn)化關(guān)系進(jìn)行構(gòu)建的,我們將完整基因組的編碼蛋白、系統(tǒng)進(jìn)化關(guān)系進(jìn)行構(gòu)建的,我們將Unigene和和COG數(shù)據(jù)庫數(shù)據(jù)庫進(jìn)行比對,預(yù)測進(jìn)行比對,預(yù)測Unigene可能的功能并對其做功能分類統(tǒng)計,從宏觀上認(rèn)識該物種可能的功能并對其做功能分類統(tǒng)計,從宏觀上認(rèn)識該物種的基因功能分布特征。的基因功能分布特征。GO(gene ontology)是基因本體聯(lián)合會是基因本體聯(lián)合會(Gene Onotology Consortium)所建立的數(shù)據(jù)庫,所建立的數(shù)據(jù)庫,旨在建立一個適用于各種物種的,堆積因和蛋白質(zhì)

12、功能進(jìn)行限定和描述的,并能隨旨在建立一個適用于各種物種的,堆積因和蛋白質(zhì)功能進(jìn)行限定和描述的,并能隨著研究不斷深入而更新的語言詞匯標(biāo)準(zhǔn)著研究不斷深入而更新的語言詞匯標(biāo)準(zhǔn) 相關(guān)概念相關(guān)概念 基因的編碼區(qū)基因的編碼區(qū)(Coding region),亦稱為),亦稱為“編碼序列編碼序列”(Coding sequence)或)或“CDS”(Coding DNA Sequence),是指),是指mRNA序列中編碼蛋白質(zhì)的那部分序列。序列中編碼蛋白質(zhì)的那部分序列。CDS也等同于也等同于ORF(open reading frame)是編碼蛋白質(zhì)的序列,以是編碼蛋白質(zhì)的序列,以ATG開始開始-終止密終止密碼子結(jié)

13、束。碼子結(jié)束。 環(huán)境轉(zhuǎn)錄組也可以這樣做環(huán)境轉(zhuǎn)錄組也可以這樣做使用使用RNA-seq手段對實驗樣本進(jìn)行轉(zhuǎn)錄組分析,關(guān)注個體或者組織器手段對實驗樣本進(jìn)行轉(zhuǎn)錄組分析,關(guān)注個體或者組織器官在官在不同環(huán)境條件下不同環(huán)境條件下基因表達(dá)的動態(tài)變化,挖掘生物對逆境適應(yīng)的分基因表達(dá)的動態(tài)變化,挖掘生物對逆境適應(yīng)的分子機(jī)制。子機(jī)制。方案設(shè)計思路建議:方案設(shè)計思路建議:(1)植物個體受到較多環(huán)境因素的影響,包括溫度、干旱、澇害、)植物個體受到較多環(huán)境因素的影響,包括溫度、干旱、澇害、光照、鹽堿、污染物、蟲害以及病原菌侵染等等光照、鹽堿、污染物、蟲害以及病原菌侵染等等,相應(yīng)采取的應(yīng)答策相應(yīng)采取的應(yīng)答策略也較為多樣,可

14、以通過激素信號分子和細(xì)胞表面受體調(diào)控相關(guān)基因略也較為多樣,可以通過激素信號分子和細(xì)胞表面受體調(diào)控相關(guān)基因的表達(dá)。的表達(dá)。建議設(shè)置多個關(guān)鍵處理時間點,建議設(shè)置多個關(guān)鍵處理時間點,研究植物個體短時間內(nèi)和長研究植物個體短時間內(nèi)和長時間內(nèi)轉(zhuǎn)錄組動態(tài)變化趨勢;揭示同一器官組織在不同環(huán)境脅迫下或時間內(nèi)轉(zhuǎn)錄組動態(tài)變化趨勢;揭示同一器官組織在不同環(huán)境脅迫下或不同器官組織在同一環(huán)境脅迫下基因的時空表達(dá)模式;不同器官組織在同一環(huán)境脅迫下基因的時空表達(dá)模式;(2)動物器官組織樣本主要來源畜牧動物、水產(chǎn)動物、昆蟲、人以)動物器官組織樣本主要來源畜牧動物、水產(chǎn)動物、昆蟲、人以及模式動物小鼠和線蟲,關(guān)注點為溫度處理、光照

15、處理、污染物處理、及模式動物小鼠和線蟲,關(guān)注點為溫度處理、光照處理、污染物處理、病原菌病原菌/蟲感染、用藥前后特異性表達(dá)基因,根據(jù)基因表達(dá)模式分析蟲感染、用藥前后特異性表達(dá)基因,根據(jù)基因表達(dá)模式分析揭示器官組織響應(yīng)環(huán)境脅迫過程的分子機(jī)制;揭示器官組織響應(yīng)環(huán)境脅迫過程的分子機(jī)制;(3)對于微生物樣本,主要通過環(huán)境轉(zhuǎn)錄組分析不同培養(yǎng)環(huán)境、次)對于微生物樣本,主要通過環(huán)境轉(zhuǎn)錄組分析不同培養(yǎng)環(huán)境、次生代謝產(chǎn)物積累以及毒素產(chǎn)生差異基因表達(dá),解析環(huán)境誘導(dǎo)活性物質(zhì)生代謝產(chǎn)物積累以及毒素產(chǎn)生差異基因表達(dá),解析環(huán)境誘導(dǎo)活性物質(zhì)生產(chǎn)的分子機(jī)理。生產(chǎn)的分子機(jī)理。環(huán)境轉(zhuǎn)錄組也可以這樣做環(huán)境轉(zhuǎn)錄組也可以這樣做有參考基因

16、組序列生物信息分析有參考基因組序列生物信息分析 基因結(jié)構(gòu)優(yōu)化基因結(jié)構(gòu)優(yōu)化 鑒定基因可變剪接鑒定基因可變剪接 預(yù)測新轉(zhuǎn)錄本預(yù)測新轉(zhuǎn)錄本 SNP 分析分析 基因融合鑒定基因融合鑒定有參考基因組序列信息分析流程有參考基因組序列信息分析流程無參考基因組生物信息分析無參考基因組生物信息分析 Unigene功能注釋功能注釋 Unigene的的GO分類分類 Unigene代謝通路分析代謝通路分析 預(yù)測編碼蛋白框(預(yù)測編碼蛋白框(CDS) Unigene表達(dá)差異分析表達(dá)差異分析 Unigene在樣品間的差異在樣品間的差異GO分類和分類和Pathway富集性分析富集性分析De novo reads組裝流程組裝流程Unigene GO 分類分類Unigene COG 功能分類功能分類基因表達(dá)差異分析基因表達(dá)差異分析N1:total tag Number in sample A N2:total tag Num

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論