【R高級(jí)教程】專題一：表達(dá)譜芯片的聚類分析

上傳人：7*** IP屬地：湖北上傳時(shí)間：2022-02-18 格式：DOC 頁(yè)數(shù)：8 大?。?72KB 積分：18 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩3頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、【在國(guó)際上，R軟件的應(yīng)用是數(shù)據(jù)分析的主流發(fā)展趨勢(shì)之一，但我發(fā)現(xiàn)在國(guó)內(nèi)R軟件的使用遠(yuǎn)不如SPSS、SAS等軟件那么流行。為推廣R軟件的使用，本博客將陸續(xù)推出“R高級(jí)教程”系列專輯，希望對(duì)生命科學(xué)領(lǐng)域的科技工作者有少許幫助.】通常來(lái)講，對(duì)于一般的統(tǒng)計(jì)分析，基于傻瓜式操作的SPSS（PASW）軟件已經(jīng)足夠，但在涉及個(gè)性化要求很高的復(fù)雜數(shù)據(jù)處理時(shí)，SPSS就開(kāi)始顯得力不從心，這時(shí)必須依賴功能更為強(qiáng)大的SAS等軟件。以前在自己的科研過(guò)程中分析數(shù)據(jù)多用SPSS、SAS等。在統(tǒng)計(jì)遺傳和基因組學(xué)領(lǐng)域，SAS可以處理很多問(wèn)題，但與此同時(shí)，SAS實(shí)現(xiàn)復(fù)雜問(wèn)題過(guò)于麻煩，很多問(wèn)題SAS也不是首選。后來(lái)開(kāi)始運(yùn)用R環(huán)境

2、中的各種免費(fèi)統(tǒng)計(jì)包，特別是Bioconductor的系列分析包，我發(fā)覺(jué)非常適合生命科學(xué)領(lǐng)域的研究者。R有很多優(yōu)點(diǎn)：（1）免費(fèi)，不需要去尋找破解版，不用擔(dān)心版權(quán)問(wèn)題，使用非常方便；（2）功能非常強(qiáng)大，單個(gè)包的功能比較有限，但多個(gè)包組合起來(lái)使用則功能無(wú)比強(qiáng)大，遠(yuǎn)勝于SPSS、SAS等；（3）源代碼開(kāi)放，稍作修改后就能滿足個(gè)性化的復(fù)雜統(tǒng)計(jì)分析，滿足個(gè)性化需求是R的最大特點(diǎn)之一；（4）程序閱讀容易，再加上參考學(xué)習(xí)資料很多，上手比較容易，提高也不是很難，根據(jù)個(gè)人經(jīng)驗(yàn)，要比SAS高級(jí)階段的進(jìn)階容易許多；（5）國(guó)際同行高度認(rèn)同R，我發(fā)現(xiàn)很多專用軟件都開(kāi)發(fā)了軟件的R版，今后R將是數(shù)據(jù)分析的主流發(fā)展方向

3、。 R軟件的安裝、基本使用等初級(jí)教程就不談了，隨便在官方網(wǎng)站找個(gè)學(xué)習(xí)資料就搞定了?！癛系列”專輯擬推出中級(jí)、高級(jí)分析教程。今天推出基因表達(dá)譜芯片的聚類分析專題。本專題示例芯片數(shù)據(jù)來(lái)自GEO數(shù)據(jù)庫(kù)中檢索號(hào)為GSE11787的Affymetrix芯片的CEL文件，共6個(gè)CEL文件，3個(gè)正常對(duì)照組，3個(gè)HPS刺激組，為免疫器官脾臟的表達(dá)數(shù)據(jù)。（一）原始數(shù)據(jù)的讀入、RNA降解評(píng)估和標(biāo)準(zhǔn)化pd rawAffyData summary(exprs(rawAffyData) deg plotAffyRNAdeg(deg, col=c(1,2,3,4,5,6) eset summary(exprs(eset

4、) op cols boxplot(rawAffyData,col=cols,names=1:6, main = unnormalized.data)boxplot(data.frame(exprs(eset) ,names=1:6, main = normalization.data, col=blue, border=brown)par(op)（二）聚類分析原始數(shù)據(jù)讀入，經(jīng)AffyBatch目標(biāo)轉(zhuǎn)成ExpressionSet目標(biāo)后，為提高后續(xù)分析（如差異表達(dá)基因的檢測(cè)）的統(tǒng)計(jì)功效，往往需要進(jìn)一步經(jīng)過(guò)Detection Call Filter和IQR filter等過(guò)濾（“基因芯片數(shù)據(jù)的特

5、異性過(guò)濾與非特異性過(guò)濾”將在另一專題里專門(mén)討論）。需要說(shuō)明的是，常規(guī)做法是先篩選出差異表達(dá)基因，然后只用差異表達(dá)基因進(jìn)行聚類分析（本示例直接用了過(guò)濾后的數(shù)據(jù)集，聚類圖的效果稍差一點(diǎn)）。（1）樣本聚類dd diag(dd) dd.row row.ord library(latticeExtra)legend lp plot(lp)（2）二維聚類source(/tgirke/Documents/R_BioCond/My_R_Scripts/my.colorFct.R)mydatamydatascale hr hc heatmap.2(mydata, Ro

6、wv=as.dendrogram(hr), Colv=as.dendrogram(hc), col=redgreen(75), scale=row, ColSideColors=heat.colors(length(hc$labels), RowSideColors=heat.colors(length(hr$labels), trace=none, key=T) 上述聚類圖一般和論文里的聚類圖有點(diǎn)不同，聚類的模式不太直觀，你也可以用下面的語(yǔ)句進(jìn)行更直觀的作圖：mycl mycolhc - sample(rainbow(256);mycolhc myc2 - cutree(hc, h=max(

7、hc$height)/1.5); mycolhr - sample(rainbow(256); mycolhr heatmap(mydatascale, Rowv=as.dendrogram(hr), Colv=as.dendrogram(hc), col=my.colorFct(), scale=row, ColSideColors=mycolhr, RowSideColors=mycolhc)（3）MantelCorrs聚類程序kmeans.result x=exprs(eset2)DistMatrices.result MantelCorrs.result permuted.pval C

8、lusterLists ClusterGenes h=hclust(dist(MantelCorrs.result)plot(h)【注：除Bioconductor圖標(biāo)外，所有圖片均為軟件實(shí)際運(yùn)行所得】應(yīng)學(xué)生及個(gè)別博友的要求，盡管專業(yè)博文點(diǎn)擊率和反應(yīng)均很差，但在去San Diego參加PAG會(huì)議之前，還是抽時(shí)間給出【R高級(jí)教程】的第二專題。專題一給出了聚類分析的示例，本專題主要談在表達(dá)譜芯片分析中如何利用Bioconductor鑒定差異表達(dá)基因。鑒定差異表達(dá)基因是表達(dá)譜芯片分析pipeline中必須的分析步驟。差異表達(dá)基因分析是根據(jù)表型協(xié)變量（分類變量）鑒定組間差異表達(dá)，它屬于監(jiān)督性分類的一種

9、。在鑒定差異表達(dá)基因以前，一般需要對(duì)表達(dá)值實(shí)施非特異性過(guò)濾（在機(jī)器學(xué)習(xí)框架下屬于非監(jiān)督性分類），因?yàn)檫m當(dāng)?shù)姆翘禺愋赃^(guò)濾可以提高差異表達(dá)基因的檢出率、甚至是功效。R分析差異表達(dá)基因的library有很多，但目前運(yùn)用最廣泛的Bioconductor包是limma。本專題示例依然來(lái)自GEO數(shù)據(jù)庫(kù)中檢索號(hào)為GSE11787 的Affymetrix芯片的數(shù)據(jù)，數(shù)據(jù)介紹參閱專題一。library(limma)design - model.matrix( -1+factor(c(1,1,1, 2,2,2) 這個(gè)是根據(jù)芯片試驗(yàn)設(shè)計(jì)，對(duì)表型協(xié)變量的水平進(jìn)行design，比如本例中共有6張芯片，前3張為cont

10、rol對(duì)照組，后3張芯片為實(shí)驗(yàn)處理組，用1表示對(duì)照組，用2表示處理組。其他試驗(yàn)設(shè)計(jì)同理，比如2*2的因子設(shè)計(jì)試驗(yàn)，如果每個(gè)水平技術(shù)重復(fù)3次，那么可以表示為：design colnames(design) fit contrast.matrix fit fit2 fit2 resultssummary(results)vennCounts(results)vennDiagram(results)比較遺憾的是，目前l(fā)imma自帶的venn作圖函數(shù)不能做超過(guò)3維的高維venn圖，只能畫(huà)出3個(gè)圓圈的venn圖，即只能同時(shí)對(duì)三個(gè)coef進(jìn)行venn作圖。上面的venn圖只有一個(gè)coef，太簡(jiǎn)單了。下面是

11、一個(gè)由本實(shí)驗(yàn)室芯片數(shù)據(jù)得出的三個(gè)coef的venn圖例：heatDiagram(results,fit2$coef) 紅色為control中（與LPS相比）的高表達(dá)基因，綠色為control中（與LPS相比）的低表達(dá)基因，x軸的數(shù)字表示差異表達(dá)基因在eset2中所處的位置。xwrite.table(x, file=limma.xls, s=F, sep=t) 將結(jié)果寫(xiě)入limma.xls文件中，內(nèi)容包括AveExpr值（比較組間絕對(duì)值的平均差異值）、logFC值（差異倍數(shù)）、t值、P值、q值（即adj.P.Val值）和B值。一般logFC值、P值、q值和AveExpr值用來(lái)作為差異表達(dá)的判斷標(biāo)準(zhǔn)，比如差異倍數(shù)在2倍以上、絕對(duì)差異表達(dá)在10以上、P值小于0.01等。在Excel文件中，根據(jù)各項(xiàng)判斷標(biāo)準(zhǔn)排序，可以很容易地得到差異表達(dá)基因列表，這個(gè)列表可以用來(lái)進(jìn)行后續(xù)的分析，如GO注釋、基因網(wǎng)絡(luò)繪制等。專題一中提到實(shí)際研究中，一般只用差異表達(dá)基因進(jìn)行聚類分析，在R中，根據(jù)差異表達(dá)結(jié)果過(guò)濾表達(dá)值很簡(jiǎn)單（具體的值可以依據(jù)芯片數(shù)據(jù)的實(shí)際情況設(shè)定，比如P值可以設(shè)寬松點(diǎn)0.05、logFC的絕對(duì)值

人人文庫(kù)> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

【R高級(jí)教程】專題一：表達(dá)譜芯片的聚類分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

【R高級(jí)教程】專題一：表達(dá)譜芯片的聚類分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔