版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
一、生物信息剖析流程獲取原始測序序列(SequencedReads)后,在有有關(guān)物種參照序列或參照基因組的狀況下,經(jīng)過以下賤程進(jìn)行生物信息剖析:二、項目結(jié)果說明原始序列數(shù)據(jù)高通量測序(如illuminaHiSeqTM2000/MiSeq等測序平臺)測序獲取的原始圖像數(shù)據(jù)文件經(jīng)堿基辨別(BaseCalling)剖析轉(zhuǎn)變?yōu)樵紲y序序列(SequencedReads),我們稱之為RawData或RawReads,結(jié)果以FASTQ(簡稱為fq)文件格式儲存,此中包含測序序列(reads)的序列信息以及其對應(yīng)的測序質(zhì)量信息。FASTQ格式文件中每個read由四行描繪,以下:@EAS139:136:FC706VJ:2:2104:15343:1973931:Y:18:ATCACGGCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT+@@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF此中第一行以“@”開頭,隨后為illumina測序表記符(SequenceIdentifiers)和描繪文字(選擇性部分);第二行是堿基序列;第三行以“+”開頭,隨后為illumina測序表記符(選擇性部分);第四行是對應(yīng)序列的測序質(zhì)量(Cocketal.)
。illumina
測序表記符詳盡信息以下:EAS139136FC706VJ22104153431973931Y18ATCACG
UniqueinstrumentnameRunIDFlowcellIDFlowcelllaneTilenumberwithintheflowcelllane'x'-coordinateoftheclusterwithinthetile'y'-coordinateoftheclusterwithinthetileMemberofapair,1or2(paired-endormate-pairreadsonly)Yifthereadfailsfilter(readisbad),Notherwise0whennoneofthecontrolbitsareon,otherwiseitisanevennumberIndexsequence第四行中每個字符對應(yīng)的ASCII值減去量值。假如測序錯誤率用e表示,illuminaQphred表示,則有以下關(guān)系:
33,即為對應(yīng)第二行堿基的測序質(zhì)HiSeqTM2000/MiSeq的堿基質(zhì)量值用公式一:
Qphred
=-10log
10(e)illuminaCasava版本測序錯誤率與測序質(zhì)量值簡潔對應(yīng)關(guān)系以下:測序錯誤率測序質(zhì)量值對應(yīng)字符5%13.1%205%30?%40I測序數(shù)據(jù)質(zhì)量評估測序錯誤率散布檢查每個堿基測序錯誤率是經(jīng)過測序Phred數(shù)值(Phredscore,Qphred)經(jīng)過公式1轉(zhuǎn)變獲取,而Phred數(shù)值是在堿基辨別(BaseCalling)過程中經(jīng)過一種展望堿基鑒別發(fā)生錯誤概率模型計算獲取的,對應(yīng)關(guān)系以下表所顯示:illuminaCasava版本堿基辨別與Phred分值之間的簡潔對應(yīng)關(guān)系Phred分值不正確的堿基辨別堿基正確辨別率Q-sorce101/1090%Q10201/10099%Q20301/1000%Q30401/10000%Q40測序錯誤率與堿基質(zhì)量有關(guān),受測序儀自己、測序試劑、樣品等多個要素共同影響。關(guān)于RNA-seq技術(shù),測序錯誤率散布擁有兩個特色:測序錯誤率會跟著測序序列(SequencedReads)的長度的增添而高升,這是因為測序過程中化學(xué)試劑的耗費而致使的,并且為illumina高通量測序平臺都擁有的特色(ErlichandMitra,2008;Jiangetal.)。前6個堿基的地點也會發(fā)生較高的測序錯誤率,而這個長度也正好等于在RNA-seq建庫過程中反轉(zhuǎn)錄所需要的隨機(jī)引物的長度。因此推測前6個堿基測序錯誤率較高的原由為隨機(jī)引物和RNA模版的不完整聯(lián)合(Jiangetal.)。測序錯誤率散布檢查用于檢測在測序長度范圍內(nèi),有無異樣的堿基地點存在高錯誤率,比方中間地點的堿基測序錯誤率明顯高于其余地點。一般狀況下,每個堿基地點的測序錯誤率都應(yīng)當(dāng)?shù)陀?。圖測序錯誤率散布圖橫坐標(biāo)為reads的堿基地點,縱坐標(biāo)為單堿基錯誤率GC含量散布檢查GC含量散布檢查用于檢測有無AT、GC分別現(xiàn)象,而這類現(xiàn)象可能是測序或許建庫所帶來的,并且會影響后續(xù)的定量剖析。在illumina測序平臺的轉(zhuǎn)錄組測序中,反轉(zhuǎn)錄成cDNA時所用的6bp的隨機(jī)引物會惹起前幾個地點的核苷酸構(gòu)成存在必定的偏好性。而這類偏好性與測序的物種和實驗室環(huán)境沒關(guān),但會影響轉(zhuǎn)錄組測序的均一化程度(Hansenetal.)。除此以外,理論上G和C堿基及A和T堿基含量每個測序循環(huán)上應(yīng)分別相等,且整個測序過程穩(wěn)固不變,呈水平線。關(guān)于DGE測序來說,因為隨機(jī)引物擴(kuò)增偏差等原由,經(jīng)常會致使在測序獲取的每個read前6-7個堿基有較大的顛簸,這類顛簸屬于正常狀況。圖GC含量散布圖橫坐標(biāo)為reads的堿基地點,縱坐標(biāo)為單堿基所占的比率;不同顏色代表不同的堿基種類測序數(shù)據(jù)過濾測序獲取的原始測序序列,里面含有帶接頭的、低質(zhì)量的reads,為了保證信息剖析質(zhì)量,一定對rawreads進(jìn)行過濾,獲取cleanreads,后續(xù)剖析都基于cleanreads。數(shù)據(jù)辦理的步驟以下:去除帶接頭(adapter)的reads;去除N(N表示沒法確立堿基信息)的比率大于10%的reads;去除低質(zhì)量reads。RNA-seq的接頭(Adapter,OligonucleotidesequencesforTruSeqandDNASamplePrepKits)信息:
TMRNARNA5’Adapter(RA5),part#
:5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’RNA3’Adapter(RA3),part#:5’-GATCGGAAGAGCACACGTCTGAACTCCAGTCAC(6位index)ATCTCGTATGCCGTCTTCTGCTTG3’-圖原始數(shù)據(jù)過濾結(jié)果測序數(shù)據(jù)質(zhì)量狀況匯總表數(shù)據(jù)產(chǎn)出質(zhì)量狀況一覽表SamplenameRawreadsCleanreadscleanbasesErrorrate(%)Q20(%)Q30(%)GCcontent(%)HS1_1HS1_2HS2_1數(shù)據(jù)質(zhì)量狀況詳盡內(nèi)容以下:Rawreads:統(tǒng)計原始序列數(shù)據(jù),以四行為一個單位,統(tǒng)計每個文件的測序序列的個數(shù)。Cleanreads:計算方法同RawReads,不過統(tǒng)計的文件為過濾后的測序數(shù)據(jù)。后續(xù)的生物信息剖析都是鑒于Cleanreads。(3)Cleanbases:測序序列的個數(shù)乘以測序序列的長度,并轉(zhuǎn)變?yōu)橐訥為單位。Errorrate:經(jīng)過公式1計算獲取。Q20、Q30:分別計算Phred數(shù)值大于20、30的堿基占整體堿基的百分比。GCcontent:計算堿基G和C的數(shù)目總和占總的堿基數(shù)目的百分比。參照序列比對剖析測序序列定位算法:依據(jù)不同的基因組的特色,我們選用相對適合的軟件(動植物用TopHat(Trapnelletal.,2009)、真菌或許基因密度較高的物種用Bowtie),適合的參數(shù)設(shè)置(如最大的內(nèi)含子長度,會依據(jù)已知的該物種的基因模型來進(jìn)行統(tǒng)計剖析),將過濾后的測序序列進(jìn)行基因組定位剖析。以下圖為TopHat的算法表示圖:Tophat的算法主要分為兩個部分:將測序序列整段比對到外顯子上。將測序序列分段比對到兩個外顯子上。我們統(tǒng)計了實驗所產(chǎn)生的測序序列的定位個數(shù)(TotalMappedReads)及其占cleanreads的百分比,此中包含多個定位的測序序列個數(shù)(MultipleMappedReads)及其占整體(cleanreads)的百分比,以及單個定位的測序序列個數(shù)(UniquelyMappedReads)及其占整體(cleanreads)的百分比。Reads與參照基因組比對狀況統(tǒng)計表Reads與參照基因組比對狀況一覽表SamplenameHS1HS2HT1HT2HW1HW2TotalreadsTotalmapped%)%)%)%)%)%)Multiplemapped606556%)633575%)714678%)450156%)389470%)335509%)Uniquelymapped%)%)%)%)%)%)Read-1%)%)%)%)(43%)%)Read-2%)%)%)%)%)%)Readsmapto'+'%)%)%)%)%)%)Readsmapto'-'%)%)%)%)%)%)Non-splicereads%)%)%)%)%)%)Splicereads%)%)%)%)%)9910559%)Readsmappedinproperpairs%)%)%)%)%)%)比對結(jié)果統(tǒng)計詳盡內(nèi)容以下:Totalreads:測序序列經(jīng)過測序數(shù)據(jù)過濾后的數(shù)目統(tǒng)計(Cleandata)。Totalmapped:能定位到基因組上的測序序列的數(shù)目的統(tǒng)計;一般狀況下,假如不存在污染并且參照基因組選擇適合的狀況下,這部分?jǐn)?shù)據(jù)的百分比大于70%。Multiplemapped:在參照序列上有多個比對地點的測序序列的數(shù)目統(tǒng)計;這部分?jǐn)?shù)據(jù)的百分比一般會小于10%。Uniquelymapped:在參照序列上有獨一比對地點的測序序列的數(shù)目統(tǒng)計。(5)Readsmapto'+',Readsmapto'-':測序序列比對到基因組上正鏈和負(fù)鏈的統(tǒng)計。(6)Splicereads:(2)中,分段比對到兩個外顯子上的測序序列(也稱為Junctionreads)的統(tǒng)計,Non-splicereads為整段比對到外顯子的將測序序列的統(tǒng)計,Splicereads的百分比取決于測序片段的長度。Reads在參照基因組不同地區(qū)的散布狀況對Totalmappedreads的比對到基因組上的各個部分的狀況進(jìn)行統(tǒng)計,定位地劃分為Exon(外顯子)、Intron(內(nèi)含子)和Intergenic(基因間隔地區(qū))。正常狀況下,Exon(外顯子)地區(qū)的測序序列定位的百分比含量應(yīng)當(dāng)最高,定位到Intron(內(nèi)含子)地區(qū)的測序序列可能是因為非成熟的mRNA的污染或許基因組說明不完整致使的,而定位到Intergenic(基因間隔地區(qū))的測序序列可能是因為基因組說明不完整以及背景噪音。圖Reads在參照基因組不同地區(qū)的散布狀況Reads在染色體上的密度散布狀況對Totalmappedreads的比對到基因組上的各個染色體(分正負(fù)鏈)的密度進(jìn)行統(tǒng)計,以以下圖所示,詳細(xì)作圖的方法為用滑動窗口(windowsize)為1K,計算窗口內(nèi)部比對到堿基地點上的reads的中位數(shù),并轉(zhuǎn)變成log2。正常狀況下,整個染色體長度越長,該染色體內(nèi)部定位的reads總數(shù)會越多(Marquezetal.)。從定位到染色體上的reads數(shù)與染色體長度的關(guān)系圖中,能夠更為直觀看出染色體長度和reads總數(shù)的關(guān)系。圖Reads在染色體上的密度散布圖上圖:橫坐標(biāo)為染色體的長度信息(以百萬堿基為單位),縱坐標(biāo)為log2(reads的密度的中位數(shù)),綠色為正鏈,紅色為負(fù)鏈以下圖:橫坐標(biāo)為染色體的長度信息(單位為Mb),縱坐標(biāo)為mapped到染色體上的reads數(shù)(單位為M)Reads比對結(jié)果可視化我們供給RNA-seqReads在基因組上比對結(jié)果的bam格式文件,部分物種還供給相應(yīng)的參照基因組和說明文件,并介紹使用IGV(IntegrativeGenomicsViewer)閱讀器對bam文件進(jìn)行可視化閱讀。IGV閱讀器擁有以下特色:(1)能在不同尺度下顯示單個或多個讀段在基因組上的地點,包含讀段在各個染色體上的散布狀況和在說明的外顯子、內(nèi)含子、剪接接合區(qū)、基因間區(qū)的散布狀況等;能在不同尺度下顯示不同地區(qū)的讀段豐度,以反應(yīng)不同地區(qū)的轉(zhuǎn)錄水平;(3)能顯示基因及其剪接異構(gòu)體的說明信息;(4)能顯示其余說明信息;(5)既能夠從遠(yuǎn)程服務(wù)器端下載各樣說明信息,又能夠從當(dāng)?shù)丶虞d說明信息。IGV閱讀器使用方法可參照我們供給的使用說明文檔(。圖IGV閱讀器界面可變剪切剖析用ASprofile軟件對Cufflinks(Trapnelletal.)展望出的基因模對每個樣品的可變剪切事件分別進(jìn)行分類和表達(dá)量統(tǒng)計。剖析流程及ASprofile中的可變剪切事件分類以以下圖所示:12類可變剪切事件定義以下:(1)TSS:Alternative5'firstexon(transcriptionstartsite)第一個外顯子可變剪切(2)TTS:Alternative3'lastexon(transcriptionterminalsite)最后一個外顯子可變剪切(3)SKIP:Skippedexon(SKIP_ON,SKIP_OFFpair)單外顯子跳躍(4)XSKIP:ApproximateSKIP(XSKIP_ON,XSKIP_OFFpair)單外顯子跳躍(模糊界限)(5)MSKIP:Multi-exonSKIP(MSKIP_ON,MSKIP_OFFpair)多外顯子跳躍(6)XMSKIP:ApproximateMSKIP(XMSKIP_ON,XMSKIP_OFFpair)多外顯子跳躍(模糊界限)(7)IR:Intronretention(IR_ON,IR_OFFpair)單內(nèi)含子滯留(8)XIR:ApproximateIR(XIR_ON,XIR_OFFpair)單內(nèi)含子滯留(模糊界限)(9)MIR:Multi-IR(MIR_ON,MIR_OFFpair)多內(nèi)含子滯留(10)XMIR:ApproximateMIR(XMIR_ON,XMIR_OFFpair)多內(nèi)含子滯留(模糊界限)(11)AE:Alternativeexonends(5',3',orboth)可變5'或3'端剪切XAE:ApproximateAE可變5'或3'端剪切(模糊界限)可變剪切事件分類和數(shù)目統(tǒng)計圖AS分類和數(shù)目統(tǒng)計縱軸為可變剪切事件的分類縮寫,橫軸為該種事件下可變剪切的數(shù)目,不相同品用不同子圖和顏色劃分可變剪切事件構(gòu)造和表達(dá)量統(tǒng)計表AS構(gòu)造和表達(dá)量統(tǒng)計event_ievent_typgene_ichroevent_starevent_enevent_patterstranfpkdedmtdndref_idm1000001TSS1343827734383303438330+ENSGALT000000102251000002TSS1345021834502533450253+ENSGALT00000010225ENSGALT000000102+25ENSGALT000000102+25(1)event_id:AS事件編號event_type:AS事件種類(TSS,TTS,SKIP_{ON,OFF},XSKIP_{ON,OFF},MSKIP_{ON,OFF},XMSKIP_{ON,OFF},IR_{ON,OFF},XIR_{ON,OFF},AE,XAE)(3)gene_id:cufflink組裝結(jié)果中的基因編號(4)chrom:染色體編號(5)event_start:AS事件開端地點event_end:AS事件結(jié)束地點event_signature:AS事件特色(forTSS,TTS-insideboundaryofalternativemarginalexon;for*SKIP_ON,thecoordinatesoftheskippedexon(s);for*SKIP_OFF,thecoordinatesoftheenclosingintrons;for*IR_ON,theendcoordinatesofthelong,intron-containingexon;for*IR_OFF,thelistingofcoordinatesofalltheexonsalongthepathcontainingtheretainedintron;for*AE,thecoordinatesoftheexonvariant)(8)strand:基因正負(fù)鏈信息fpkm:此AS種類該基因表達(dá)量ref_id:此基因在參照說明文件中的編號新轉(zhuǎn)錄本展望將全部測序reads數(shù)據(jù)的基因組定位結(jié)果放到一同,用Cufflinks進(jìn)行組裝,而后用Cuffcompare和已知的基因模型進(jìn)行比較,能夠:(1)發(fā)現(xiàn)新的未知基因(有關(guān)于原有基因說明文件);(2)發(fā)現(xiàn)已知基因新的外顯子地區(qū);(3)對已知基因的開端和停止地點進(jìn)行優(yōu)化。新基因和新外顯子地區(qū)展望結(jié)果為GTF格式的說明文件。GTF格式的詳盡說明可參照(表新轉(zhuǎn)錄本構(gòu)造說明結(jié)果seqnamesourcefeaturestartendscorestrandframeattributes1novelGeneexon1853119499.gene_id"Novel00001";transcript_id+."";exon_number"1";1novelGeneexon2081321813.gene_id"Novel00002";transcript_id+."";exon_number"1";1novelGeneexon2391724402.gene_id"Novel00003";transcript_id+."";exon_number"1";1novelGeneexon2518926100.gene_id"Novel00004";transcript_id+."";exon_number"1";seqname:染色體編號source:根源標(biāo)簽,這里的novelGene指新基因feature:地區(qū)種類,當(dāng)前我們展望外顯子地區(qū)start:開端坐標(biāo)end:停止坐標(biāo)score:不用關(guān)注strand:正負(fù)鏈信息frame:不用關(guān)注attributes:屬性,包含基因編號、轉(zhuǎn)錄本編號等信息表已知基因構(gòu)造優(yōu)化Gene_idChromosomeStrandOriginal_spanAssembled_spanENSGALG000000000031+~~ENSGALG00000000004Z-~~ENSGALG000000000116-~~ENSGALG0000000001322+2783575~27873372783575~2787453Gene_id:原說明文件中基因命名編號Chromosome:染色體編號Strand:正負(fù)鏈信息Original_span:原說明文件中基因開端地點~停止地點Assembled_span:轉(zhuǎn)錄組拼接結(jié)果中基因開端地點~停止地點6SNP和Indel剖析SNP全稱SingleNucleotidePolymorphisms,是指在基因組上由單個核苷酸變異形成的遺傳標(biāo)志,其數(shù)目好多,多態(tài)性豐富。從理論上來看每一個SNP位點都能夠有4種不同的變異形式,但實質(zhì)上發(fā)生的只有兩種,即變換和顛換,兩者之比為1:2。SNP在CG序列上出現(xiàn)最為屢次,并且多是C變換為T,原由是CG中的C常為甲基化的,自覺地脫氨后即成為胸腺嘧啶。一般而言,SNP是指變異頻次大于1%的單核苷酸變異。Indel(insertion-deletion)是指有關(guān)于參照基因組,樣本中發(fā)生的小片段的插入缺失,該插入缺失可能含一個或多個堿基。我們經(jīng)過samtools和picard-tools等工具對照對結(jié)果進(jìn)行染色體坐標(biāo)排序、去掉重復(fù)的reads等辦理,最后經(jīng)過變異檢測軟件GATK(McKennaetal.,2010)分別進(jìn)行SNPCalling和IndelCalling,并對原始結(jié)果進(jìn)行過濾,獲取以下表形式的剖析結(jié)果。此中Indel剖析結(jié)果每列的含義和SNP結(jié)果是一致的。表
6
SNP剖析結(jié)果#CHROM
POS
REF
ALT
HS1
HS2
HT1
HT2
HW1
HW21
502A
G
..
..
11..
00..1563CA....111100..11213AG....11......11316GA000001..0000#CHROM:SNP位點所在染色體POS:SNP位點坐標(biāo)REF:參照序列在該位點的基因型ALT:該位點的其余基因型othercoloums:每個個體該位點的基因型(0與REF一致;1與ALT一致;.缺乏數(shù)據(jù)支持)基因表達(dá)水平剖析一個基因表達(dá)水平的直接表現(xiàn)就是其轉(zhuǎn)錄本的豐度狀況,轉(zhuǎn)錄本豐度程度越高,則基因表達(dá)水平越高。在RNA-seq剖析中,我們能夠經(jīng)過定位到基因組地區(qū)或基因外顯子區(qū)的測序序列(reads)的計數(shù)來預(yù)計基因的表達(dá)水平。Reads計數(shù)除了與基因的真切表達(dá)水平成正比外,還與基因的長度和測序深度成正有關(guān)。為了使不同基因、不同實驗間預(yù)計的基因表達(dá)水平擁有可比性,人們引入了RPKM的觀點,RPKM(ReadsPerKilobasesperMillionreads)是每百萬reads中來自某一基因每千堿基長度的reads數(shù)目。RPKM同時考慮了測序深度和基因長度對reads計數(shù)的影響,是當(dāng)前最為常用的基因表達(dá)水平估量方法(Mortazavial.,2008)。
et結(jié)果文件分別統(tǒng)計了不同表達(dá)水平下基因的數(shù)目以及單個基因的表達(dá)水平。一般狀況下,RPKM數(shù)值或許1作為判斷基因能否表達(dá)的閾值,不同的文件所采納的閾值不同。表不同表達(dá)水平區(qū)間的基因數(shù)目統(tǒng)計表RPKMIntervalHS1HS2HT1HT2HW1HW20-111678%)11157%)11644%)11552%)11663%)11652%)1-33416%)3829%)3497%)3622%)3359%)3503%)3-156586%)6741%)6719%)6731%)6441%)6522%)15-603436%)3421%)3278%)3277%)3612%)3442%)>601055%)1023%)1033%)989%)1096%)1052%)表基因表達(dá)水平統(tǒng)計表geneID
HS1
HS2
HT1
HT2
HW1
HW2ENSGALG00000000003ENSGALG00000000004ENSGALG00000000011ENSGALG000000000138RNA-seq整體質(zhì)量評估表達(dá)水平的飽和曲線檢查定量飽和曲線檢查反應(yīng)了基因表達(dá)水平定量對數(shù)據(jù)量的要求。表達(dá)量越高的基因,就越簡單被正確立量;反之,表達(dá)量低的基因,需要較大的測序數(shù)據(jù)量才能被正確立量。表達(dá)水平的飽和曲線的詳細(xì)算法描繪以下:分別對10%、20%、30%90%的整體測序數(shù)據(jù)獨自進(jìn)行基因定量剖析,并把全部數(shù)據(jù)條件下獲取的基因的表達(dá)水平作為最后的數(shù)值。用每個百分比條件下求出的單個基因的RPKM數(shù)值和最后對應(yīng)基因的表達(dá)水平數(shù)值進(jìn)行比較,假如差別小于15%,則以為這個基因在這個條件下定量是正確的。圖定量飽和曲線檢查散布圖橫坐標(biāo)代表定位到基因組上的reads數(shù)占總reads數(shù)的百分比,縱坐標(biāo)代表定量偏差在15%之內(nèi)的基因的比率RNA-Seq有關(guān)性檢查生物學(xué)重復(fù)是任何生物學(xué)實驗所一定的,高通量測序技術(shù)也不例外(Hansenetal.)。生物學(xué)重復(fù)主要有兩個用途:一個是證明所波及的生物學(xué)實驗操作是能夠重復(fù)的且變異不大,另一個為后續(xù)的差別基因剖析所需要的。樣品間基因表達(dá)水平有關(guān)性是查驗實驗靠譜性和樣本選擇能否合理性的重要指標(biāo)。有關(guān)系數(shù)越靠近1,表示樣品之間表達(dá)模式的相像度越高。Encode計劃建議皮爾遜有關(guān)系數(shù)的平方(R2)大于(理想的取樣和實驗條件下)。詳細(xì)的項目操作中,我們要求R2起碼要大于,不然需要對樣品做出適合的解說,或許從頭進(jìn)行實驗。此部分,我們同時計算了spearman有關(guān)系數(shù)和kendall-tau有關(guān)系數(shù)作為參照,這兩個主假如針對次序變量的有關(guān)系數(shù),即秩有關(guān)。圖RNA-Seq有關(guān)性檢查R^2:pearson有關(guān)系數(shù)的平方;rho:spearman有關(guān)系數(shù);tau:kendall-tau有關(guān)系數(shù)均一性散布檢查理想條件下,關(guān)于RNA-seq技術(shù)來說,測序序列(reads)之間為獨立抽樣并且reads在全部表達(dá)的轉(zhuǎn)錄本上的散布應(yīng)當(dāng)表現(xiàn)均一化散布。但是好多研究表明,好多偏好型的要素都會影響這類均一化的散布(Dohmetal.,2008)。比如,在RNA-seq建庫過程中,片段破裂和RNA反轉(zhuǎn)錄的次序不相同會致使RNA-seq最后的數(shù)據(jù)表現(xiàn)嚴(yán)重的3’偏好性。其余要素還包含轉(zhuǎn)錄地區(qū)的GC含量不同、隨機(jī)引物等等,并且生物體內(nèi)從5’或許3’的降解過程相同會致使不均一性散布。圖不同表達(dá)水平的轉(zhuǎn)錄本的reads密度散布圖High:高表達(dá)量轉(zhuǎn)錄本;Medium:中度表達(dá)量轉(zhuǎn)錄本;Low:低表達(dá)量轉(zhuǎn)錄本;橫坐標(biāo)為距離轉(zhuǎn)錄本5’端的相對地點(以百分比表示),縱坐標(biāo)為覆蓋深度的均勻值基因差別表達(dá)剖析基因表達(dá)水平對照經(jīng)過全部基因的RPKM的散布圖以及盒形圖對不同實驗條件下的基因表達(dá)水平進(jìn)行比較。關(guān)于同一實驗條件下的重復(fù)樣品,最后的RPKM為全部重復(fù)數(shù)據(jù)的均勻值。圖不同實驗條件下基因表達(dá)水平比對圖RPKM散布圖(左圖)的橫坐標(biāo)為log10(RPKM),縱坐標(biāo)為基因的密度。RPKM盒形圖(右圖)的橫坐標(biāo)為樣品名稱,縱坐標(biāo)為log10(RPKM),每個地區(qū)的盒形圖對五個統(tǒng)計量(至上而下分別為最大值,上四分位數(shù),中值,下四分位數(shù)和最小值)差別表達(dá)基因列表基因差別表達(dá)的輸入數(shù)據(jù)為基因表達(dá)水平剖析中獲取的readcount數(shù)據(jù)。關(guān)于有生物學(xué)重復(fù)的樣品,剖析我們采納DESeq(Andersetal,2010)進(jìn)行剖析:該剖析方法鑒于的模型是負(fù)二項散布,第i個基因在第j個樣本中的readcount值為Kij,則有K~NB(μ,σij2)ijij關(guān)于無生物學(xué)重復(fù)的樣品,先采納TMM對re
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度國際建筑勞務(wù)輸出合同范本
- 2025年公交駕駛員崗位聘用及績效考核合同
- 2025年專利和專有技術(shù)使用許可合同模板(2篇)
- 2025年度婚戀公司婚姻法律援助服務(wù)合同
- 2025年度智慧城市建設(shè)綜合技術(shù)服務(wù)合同評估報告
- 2025年度智能機(jī)器人研發(fā)公司股權(quán)合資合同
- 2025年度智能機(jī)器人產(chǎn)業(yè)合伙研發(fā)合同
- 2025年度健康養(yǎng)老產(chǎn)業(yè)投資合同范本
- 2025年國際貿(mào)易實務(wù)第一章合同標(biāo)的國際貿(mào)易合同解除條件合同
- 2025年度供水企業(yè)融資合同及風(fēng)險控制管理協(xié)議
- 第八講 發(fā)展全過程人民民主PPT習(xí)概論2023優(yōu)化版教學(xué)課件
- 王崧舟:學(xué)習(xí)任務(wù)群與課堂教學(xué)變革 2022版新課程標(biāo)準(zhǔn)解讀解析資料 57
- 招投標(biāo)現(xiàn)場項目經(jīng)理答辯(完整版)資料
- 運動競賽學(xué)課件
- 重大事故隱患整改臺賬
- 2022年上海市初中畢業(yè)數(shù)學(xué)課程終結(jié)性評價指南
- 高考作文備考-議論文對比論證 課件14張
- 新華師大版七年級下冊初中數(shù)學(xué) 7.4 實踐與探索課時練(課后作業(yè)設(shè)計)
- 山東省萊陽市望嵐口礦區(qū)頁巖礦
- 《普通生物學(xué)教案》word版
- 安全生產(chǎn)應(yīng)知應(yīng)會培訓(xùn)課件
評論
0/150
提交評論