醫(yī)學(xué)數(shù)據(jù)挖掘課件:差異和聚類分析_第1頁(yè)
醫(yī)學(xué)數(shù)據(jù)挖掘課件:差異和聚類分析_第2頁(yè)
醫(yī)學(xué)數(shù)據(jù)挖掘課件:差異和聚類分析_第3頁(yè)
醫(yī)學(xué)數(shù)據(jù)挖掘課件:差異和聚類分析_第4頁(yè)
醫(yī)學(xué)數(shù)據(jù)挖掘課件:差異和聚類分析_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基因表達(dá)數(shù)據(jù)的獲得與分析基因芯片數(shù)據(jù)的基礎(chǔ)分析思路預(yù)處理差異表達(dá)基因篩選聚類與分類功能注釋和富集分析差異表達(dá)基因篩選表達(dá)譜分析的主要目的之一就是挑出差異表達(dá)的基因。何謂顯著表達(dá)差異?它通常是指一個(gè)基因在兩個(gè)條件中表達(dá)水平的檢測(cè)值在排除實(shí)驗(yàn)、檢測(cè)等因素外,達(dá)到一定的差異,具有統(tǒng)計(jì)學(xué)意義,同時(shí)也具有生物學(xué)意義。

在兩個(gè)或多個(gè)條件下比較識(shí)別有顯著表達(dá)差異的基因,從中識(shí)別出與條件相關(guān)的特異性基因例如,識(shí)別可用于腫瘤分型的特異基因等。篩選差異表達(dá)基因的方法倍數(shù)法假設(shè)檢驗(yàn)法

--t檢驗(yàn)

--方差分析法(ANOVA)

--SAM(SignificanceAnalysisofMicroarrays)--信息熵倍數(shù)法(foldchange)最早應(yīng)用于基因芯片數(shù)據(jù)分析的方法,也是常用方法一般0.5-2.0范圍內(nèi)的基因不存在明顯的表達(dá)差異,該范圍之外則認(rèn)為基因的表達(dá)出現(xiàn)明顯改變.優(yōu)點(diǎn)是計(jì)算簡(jiǎn)單直觀,缺點(diǎn)是倍數(shù)閾值的選取是任意的,而且沒(méi)有考慮到差異表達(dá)的統(tǒng)計(jì)顯著性,忽視了變化小的基因?qū)嶒?yàn)樣本中的表達(dá)值對(duì)照樣本中的表達(dá)值t檢驗(yàn)

(t-test)判斷基因在兩種不同條件下的表達(dá)差異是否具有顯著性方差分析(ANOVA)其目的是推斷兩組或多組資料的總體均數(shù)是否相同,檢驗(yàn)兩類或多類樣本均數(shù)的差異是否有統(tǒng)計(jì)學(xué)意義它將基因在樣本之間的總變異分解為組間變異和組內(nèi)變異兩部分。通過(guò)方差分析的假設(shè)檢驗(yàn)判斷組間變異是否存在,如果存在則表明基因在不同條件下的表達(dá)有差異。SAM是通過(guò)FDR值矯正多重假設(shè)檢驗(yàn)中的假陽(yáng)性率SAM分析步驟計(jì)算統(tǒng)計(jì)量,是t統(tǒng)計(jì)量的修正擾動(dòng)實(shí)驗(yàn)條件,計(jì)算擾動(dòng)后的基因表達(dá)的相對(duì)差異統(tǒng)計(jì)量計(jì)算擾動(dòng)后的平均相對(duì)差異統(tǒng)計(jì)量估計(jì)FDR(falsediscoveryrate)SAM(significanceanalysisofmicroarrays)確定差異表達(dá)基因閾值:以最小的正值和最大的負(fù)值作為統(tǒng)計(jì)閾值,運(yùn)用該閾值,統(tǒng)計(jì)在值中超過(guò)該閾值的假陽(yáng)性基因個(gè)數(shù),估計(jì)假陽(yáng)性發(fā)現(xiàn)率FDR值。通過(guò)調(diào)整FDR值的大小得到差異表達(dá)基因。SAM(significanceanalysisofmicroarrays)實(shí)現(xiàn)程序data<-read.table("C:\\R實(shí)現(xiàn)\\miRNA_expression_all.txt",header=T);rownames(data)<-data[,1];data<-data[,-1];d<-data[,1:60];n<-data[,61:75];fold_change<-apply(d,1,mean)/apply(n,1,mean);#fold_change值

ttest<-matrix(0,nrow=dim(data)[1],ncol=2);for(iin1:dim(data)[1]){t<-t.test(n[i,],d[i,],var.equal=T);ttest[i,1]<-t$statistic;ttest[i,2]<-t$p.value;}#t檢驗(yàn)的P值和t統(tǒng)計(jì)量

fdr<-p.adjust(ttest[,2],"BH");#P值的BH校正上下調(diào)基因:foldchange>1.5且fdr_BH<0.1index1<-(fold_change<1/1.5)|(fold_change>1.5);index2<-fdr<0.1;index<-index1&index2;result<-cbind(rownames(data),fold_change,ttest,fdr);colnames(result)<-c("miRNA","Fold_change","TSores","PValues","fdr_BH");result<-result[index,];write.table(result,"C:\\R實(shí)現(xiàn)\\up_down_gene.txt",s=F,quote=F,sep="\t");差異表達(dá)基因結(jié)果15個(gè)表達(dá)下調(diào)miRNA20個(gè)表達(dá)上調(diào)miRNA結(jié)果基因芯片數(shù)據(jù)的基礎(chǔ)分析思路預(yù)處理差異表達(dá)基因篩選聚類與分類功能注釋和富集分析引言物以類聚,人以群分基于物體的相似性將物體分成不同的組基因表達(dá)譜數(shù)據(jù)的聚類對(duì)基因進(jìn)行聚類識(shí)別功能相關(guān)的基因識(shí)別基因共表達(dá)模式對(duì)樣本進(jìn)行聚類質(zhì)量控制檢查樣本是否按已知類別分組亞型識(shí)別距離尺度函數(shù)(相似性)幾何距離歐氏距離,切氏距離馬氏距離,明氏距離線性相關(guān)系數(shù)

皮爾森相關(guān)系數(shù)非線性相關(guān)系數(shù)斯皮爾曼秩相關(guān)其他明氏距離令表示樣品與的距離

設(shè)原始數(shù)據(jù)為特別地,當(dāng)k=1時(shí),即為絕對(duì)值距離當(dāng)k=2時(shí),即為歐氏距離當(dāng)k=∞時(shí),即為切比雪夫距離幾何距離123452018104471055325.236.328.911.517歐氏距離切比雪夫距離變量間相似系數(shù)變量和的相關(guān)系數(shù):

皮爾森相關(guān)系數(shù)斯皮爾曼秩相關(guān)系數(shù)又稱等級(jí)相關(guān)系數(shù),或順序相關(guān)系數(shù),是將兩要素的樣本值按數(shù)據(jù)的大小順序排列位次,以各要素樣本值的位次代替實(shí)際數(shù)據(jù)而求得的一種統(tǒng)計(jì)量。層次聚類層次聚類算法將研究對(duì)象按照它們的相似性關(guān)系用樹(shù)形圖進(jìn)行呈現(xiàn),進(jìn)行層次聚類時(shí)不需要預(yù)先設(shè)定類別個(gè)數(shù),樹(shù)狀的聚類結(jié)構(gòu)可以展示嵌套式的類別關(guān)系。層次聚類在對(duì)含非單獨(dú)對(duì)象的類進(jìn)行合并或分裂時(shí),常用的類間度量方法類p與q之間的距離pq歐氏距離+最小距離AD歐氏距離+最小距離并類距離并類距離歐氏距離+最小距離并類距離并類距離歐氏距離+最小距離并類距離決定類的個(gè)數(shù)與類

觀察此圖,我們可以把4個(gè)樣品分為2類、聚類法的基本步驟:1.

計(jì)算n個(gè)樣品兩兩間的距離,記作D=。2.

構(gòu)造n個(gè)類,每個(gè)類只包含一個(gè)樣品。3.

合并距離最近的兩類為一新類。4.

計(jì)算新類與各當(dāng)前類的距離。5.

重復(fù)步驟3、4,合并距離最近的兩類為新類,直到所有的類并為一類為止。6.

畫(huà)聚類譜系圖。7.

決定類的個(gè)數(shù)和類。準(zhǔn)則:同一個(gè)聚類中的對(duì)象盡可能的接近或相關(guān),不同聚類中的對(duì)象盡可能的原理或不同層次聚類確定類別個(gè)數(shù)?相似性閾值指定類別數(shù)層次聚類疾病的遺傳異質(zhì)性Geneticheterogeneityreferstomultipleoriginscausingthesamedisorderindifferentindividuals.層次聚類層次聚類層次聚類Coupledtwo-wayclustering(CTWC)采用嵌套式基因和疾病

兩個(gè)方向的循環(huán)搜索,

識(shí)別疾病亞類及導(dǎo)致

疾病亞類發(fā)生的對(duì)應(yīng)

基因簇程序index<-rownames(data)%in%result[,1];#聚miRNadiff_expr<-data[index,];hc<-hclust(dist(diff_expr),"ave");plot(hc,hang=-1);#聚樣本diff_expr2<-t(diff_expr);hc<-hclust(dist(diff_expr2),"ave");plot(hc,hang=-1,cex=0.5);K均值聚類基

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論