版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、【在國(guó)際上,R軟件的應(yīng)用是數(shù)據(jù)分析的主流發(fā)展趨勢(shì)之一,但我發(fā)現(xiàn)在國(guó)內(nèi)R軟件的使用遠(yuǎn)不如SPSS、SAS等軟件那么流行。為推廣R軟件的使用,本博客將陸續(xù)推出“R高級(jí)教程”系列專輯,希望對(duì)生命科學(xué)領(lǐng)域的科技工作者有少許幫助.】 通常來(lái)講,對(duì)于一般的統(tǒng)計(jì)分析,基于傻瓜式操作的SPSS(PASW)軟件已經(jīng)足夠,但在涉及個(gè)性化要求很高的復(fù)雜數(shù)據(jù)處理時(shí),SPSS就開(kāi)始顯得力不從心,這時(shí)必須依賴功能更為強(qiáng)大的SAS等軟件。以前在自己的科研過(guò)程中分析數(shù)據(jù)多用SPSS、SAS等。在統(tǒng)計(jì)遺傳和基因組學(xué)領(lǐng)域,SAS可以處理很多問(wèn)題,但與此同時(shí),SAS實(shí)現(xiàn)復(fù)雜問(wèn)題過(guò)于麻煩,很多問(wèn)題SAS也不是首選。后來(lái)開(kāi)始運(yùn)用R環(huán)境
2、中的各種免費(fèi)統(tǒng)計(jì)包,特別是Bioconductor的系列分析包,我發(fā)覺(jué)非常適合生命科學(xué)領(lǐng)域的研究者。R有很多優(yōu)點(diǎn):(1)免費(fèi),不需要去尋找破解版,不用擔(dān)心版權(quán)問(wèn)題,使用非常方便; (2)功能非常強(qiáng)大,單個(gè)包的功能比較有限,但多個(gè)包組合起來(lái)使用則功能無(wú)比強(qiáng)大,遠(yuǎn)勝于SPSS、SAS等; (3)源代碼開(kāi)放,稍作修改后就能滿足個(gè)性化的復(fù)雜統(tǒng)計(jì)分析,滿足個(gè)性化需求是R的最大特點(diǎn)之一; (4)程序閱讀容易,再加上參考學(xué)習(xí)資料很多,上手比較容易,提高也不是很難,根據(jù)個(gè)人經(jīng)驗(yàn),要比SAS高級(jí)階段的進(jìn)階容易許多; (5)國(guó)際同行高度認(rèn)同R,我發(fā)現(xiàn)很多專用軟件都開(kāi)發(fā)了軟件的R版,今后R將是數(shù)據(jù)分析的主流發(fā)展方向
3、。 R軟件的安裝、基本使用等初級(jí)教程就不談了,隨便在官方網(wǎng)站找個(gè)學(xué)習(xí)資料就搞定了?!癛系列”專輯擬推出中級(jí)、高級(jí)分析教程。今天推出基因表達(dá)譜芯片的聚類分析專題。 本專題示例芯片數(shù)據(jù)來(lái)自GEO數(shù)據(jù)庫(kù)中檢索號(hào)為GSE11787的Affymetrix芯片的CEL文件,共6個(gè)CEL文件,3個(gè)正常對(duì)照組,3個(gè)HPS刺激組,為免疫器官脾臟的表達(dá)數(shù)據(jù)。(一)原始數(shù)據(jù)的讀入、RNA降解評(píng)估和標(biāo)準(zhǔn)化pd rawAffyData summary(exprs(rawAffyData) deg plotAffyRNAdeg(deg, col=c(1,2,3,4,5,6) eset summary(exprs(eset
4、) op cols boxplot(rawAffyData,col=cols,names=1:6, main = unnormalized.data)boxplot(data.frame(exprs(eset) ,names=1:6, main = normalization.data, col=blue, border=brown)par(op)(二)聚類分析 原始數(shù)據(jù)讀入,經(jīng)AffyBatch目標(biāo)轉(zhuǎn)成ExpressionSet目標(biāo)后,為提高后續(xù)分析(如差異表達(dá)基因的檢測(cè))的統(tǒng)計(jì)功效,往往需要進(jìn)一步經(jīng)過(guò)Detection Call Filter和IQR filter等過(guò)濾(“基因芯片數(shù)據(jù)的特
5、異性過(guò)濾與非特異性過(guò)濾”將在另一專題里專門(mén)討論)。 需要說(shuō)明的是,常規(guī)做法是先篩選出差異表達(dá)基因,然后只用差異表達(dá)基因進(jìn)行聚類分析(本示例直接用了過(guò)濾后的數(shù)據(jù)集,聚類圖的效果稍差一點(diǎn))。(1)樣本聚類dd diag(dd) dd.row row.ord library(latticeExtra)legend lp plot(lp)(2)二維聚類source(/tgirke/Documents/R_BioCond/My_R_Scripts/my.colorFct.R)mydatamydatascale hr hc heatmap.2(mydata, Ro
6、wv=as.dendrogram(hr), Colv=as.dendrogram(hc), col=redgreen(75), scale=row, ColSideColors=heat.colors(length(hc$labels), RowSideColors=heat.colors(length(hr$labels), trace=none, key=T) 上述聚類圖一般和論文里的聚類圖有點(diǎn)不同,聚類的模式不太直觀,你也可以用下面的語(yǔ)句進(jìn)行更直觀的作圖:mycl mycolhc - sample(rainbow(256);mycolhc myc2 - cutree(hc, h=max(
7、hc$height)/1.5); mycolhr - sample(rainbow(256); mycolhr heatmap(mydatascale, Rowv=as.dendrogram(hr), Colv=as.dendrogram(hc), col=my.colorFct(), scale=row, ColSideColors=mycolhr, RowSideColors=mycolhc)(3)MantelCorrs聚類程序kmeans.result x=exprs(eset2)DistMatrices.result MantelCorrs.result permuted.pval C
8、lusterLists ClusterGenes h=hclust(dist(MantelCorrs.result)plot(h)【注:除Bioconductor圖標(biāo)外,所有圖片均為軟件實(shí)際運(yùn)行所得】應(yīng)學(xué)生及個(gè)別博友的要求,盡管專業(yè)博文點(diǎn)擊率和反應(yīng)均很差,但在去San Diego參加PAG會(huì)議之前,還是抽時(shí)間給出【R高級(jí)教程】的第二專題。專題一給出了聚類分析的示例,本專題主要談在表達(dá)譜芯片分析中如何利用Bioconductor鑒定差異表達(dá)基因。 鑒定差異表達(dá)基因是表達(dá)譜芯片分析pipeline中必須的分析步驟。差異表達(dá)基因分析是根據(jù)表型協(xié)變量(分類變量)鑒定組間差異表達(dá),它屬于監(jiān)督性分類的一種
9、。在鑒定差異表達(dá)基因以前,一般需要對(duì)表達(dá)值實(shí)施非特異性過(guò)濾(在機(jī)器學(xué)習(xí)框架下屬于非監(jiān)督性分類),因?yàn)檫m當(dāng)?shù)姆翘禺愋赃^(guò)濾可以提高差異表達(dá)基因的檢出率、甚至是功效。R分析差異表達(dá)基因的library有很多,但目前運(yùn)用最廣泛的Bioconductor包是limma。 本專題示例依然來(lái)自GEO數(shù)據(jù)庫(kù)中檢索號(hào)為GSE11787 的Affymetrix芯片的數(shù)據(jù),數(shù)據(jù)介紹參閱專題一。library(limma)design - model.matrix( -1+factor(c(1,1,1, 2,2,2) 這個(gè)是根據(jù)芯片試驗(yàn)設(shè)計(jì),對(duì)表型協(xié)變量的水平進(jìn)行design,比如本例中共有6張芯片,前3張為cont
10、rol對(duì)照組,后3張芯片為實(shí)驗(yàn)處理組,用1表示對(duì)照組,用2表示處理組。其他試驗(yàn)設(shè)計(jì)同理,比如2*2的因子設(shè)計(jì)試驗(yàn),如果每個(gè)水平技術(shù)重復(fù)3次,那么可以表示為:design colnames(design) fit contrast.matrix fit fit2 fit2 resultssummary(results)vennCounts(results)vennDiagram(results)比較遺憾的是,目前l(fā)imma自帶的venn作圖函數(shù)不能做超過(guò)3維的高維venn圖,只能畫(huà)出3個(gè)圓圈的venn圖,即只能同時(shí)對(duì)三個(gè)coef進(jìn)行venn作圖。上面的venn圖只有一個(gè)coef,太簡(jiǎn)單了。下面是
11、一個(gè)由本實(shí)驗(yàn)室芯片數(shù)據(jù)得出的三個(gè)coef的venn圖例:heatDiagram(results,fit2$coef) 紅色為control中(與LPS相比)的高表達(dá)基因,綠色為control中(與LPS相比)的低表達(dá)基因,x軸的數(shù)字表示差異表達(dá)基因在eset2中所處的位置。xwrite.table(x, file=limma.xls, s=F, sep=t) 將結(jié)果寫(xiě)入limma.xls文件中,內(nèi)容包括AveExpr值(比較組間絕對(duì)值的平均差異值)、logFC值(差異倍數(shù))、t值、P值、q值(即adj.P.Val值)和B值。一般logFC值、P值、q值和AveExpr值用來(lái)作為差異表達(dá)的判斷標(biāo)準(zhǔn),比如差異倍數(shù)在2倍以上、絕對(duì)差異表達(dá)在10以上、P值小于0.01等。在Excel文件中,根據(jù)各項(xiàng)判斷標(biāo)準(zhǔn)排序,可以很容易地得到差異表達(dá)基因列表,這個(gè)列表可以用來(lái)進(jìn)行后續(xù)的分析,如GO注釋、基因網(wǎng)絡(luò)繪制等。 專題一中提到實(shí)際研究中,一般只用差異表達(dá)基因進(jìn)行聚類分析,在R中,根據(jù)差異表達(dá)結(jié)果過(guò)濾表達(dá)值很簡(jiǎn)單(具體的值可以依據(jù)芯片數(shù)據(jù)的實(shí)際情況設(shè)定,比如P值可以設(shè)寬松點(diǎn)0.05、logFC的絕對(duì)值
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 教育行業(yè)中的特色商品售后服務(wù)解析
- 家具行業(yè)中的數(shù)字技術(shù)應(yīng)用與人才培養(yǎng)
- 2025年度生物醫(yī)學(xué)工程領(lǐng)域技術(shù)專家聘用合同
- 二零二五年度中小企業(yè)貸款擔(dān)保服務(wù)合同規(guī)范
- 2025年度汽車租賃合同電子版車輛保養(yǎng)協(xié)議
- 2025年度私人房子抵押借款合同(養(yǎng)老產(chǎn)業(yè)配套)
- 陽(yáng)臺(tái)空間優(yōu)化綠化設(shè)計(jì)的多元應(yīng)用
- 跨文化背景下的學(xué)生領(lǐng)導(dǎo)力與團(tuán)隊(duì)溝通
- 職場(chǎng)溝通中的創(chuàng)意寫(xiě)作與審美意識(shí)
- 綠色環(huán)保理念下的農(nóng)村兒童游樂(lè)設(shè)施與住宅設(shè)計(jì)
- 中醫(yī)病證診斷療效標(biāo)準(zhǔn)
- 南安市第三次全國(guó)文物普查不可移動(dòng)文物-各鄉(xiāng)鎮(zhèn)、街道分布情況登記清單(表五)
- ITSMS-D-038 問(wèn)題記錄表范本
- 第1課+古代亞非(教學(xué)設(shè)計(jì))【中職專用】《世界歷史》(高教版2023基礎(chǔ)模塊)
- 新教科版六年級(jí)下冊(cè)科學(xué)全冊(cè)教案
- 物業(yè)客服管家的培訓(xùn)課件
- 2024年房地產(chǎn)行業(yè)的樓市調(diào)控政策解讀培訓(xùn)
- 《統(tǒng)計(jì)學(xué)-基于Python》 課件全套 第1-11章 數(shù)據(jù)與Python語(yǔ)言-時(shí)間序列分析和預(yù)測(cè)
- 裝飾定額子目(河南省)
- 【高速鐵路乘務(wù)工作存在的問(wèn)題及對(duì)策研究9800字】
- 北師大版英語(yǔ)課文同步字帖三年級(jí)下冊(cè)課文對(duì)話原文及翻譯衡水體英語(yǔ)字帖三年級(jí)起點(diǎn)
評(píng)論
0/150
提交評(píng)論