【生物信息學(xué)第二版】基因表達(dá)數(shù)據(jù)分析_第1頁(yè)
【生物信息學(xué)第二版】基因表達(dá)數(shù)據(jù)分析_第2頁(yè)
【生物信息學(xué)第二版】基因表達(dá)數(shù)據(jù)分析_第3頁(yè)
【生物信息學(xué)第二版】基因表達(dá)數(shù)據(jù)分析_第4頁(yè)
【生物信息學(xué)第二版】基因表達(dá)數(shù)據(jù)分析_第5頁(yè)
已閱讀5頁(yè),還剩107頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、生物信息學(xué),第五章 基因表達(dá)數(shù)據(jù)分析,蘇州大學(xué) 沈百榮 首都醫(yī)科大學(xué) 李冬果,生物信息學(xué),第一節(jié) 引言 Introduction,基因表達(dá)組學(xué)與基因組學(xué)相比較 表達(dá)組信息是動(dòng)態(tài)的; 表達(dá)組學(xué)的數(shù)據(jù),更多的是數(shù)值分析; 轉(zhuǎn)錄組學(xué)中除了模式識(shí)別外,系統(tǒng)建模也十分重要。,真核生物基因表達(dá)的基本方式,基因表達(dá)調(diào)控示意圖,基因表達(dá)的時(shí)空性,基因表達(dá)測(cè)定方法RT-qPCR,近20年來(lái)三種不同高通量基因表達(dá)測(cè)定技術(shù)的應(yīng)用趨勢(shì),高通量基因表達(dá)測(cè)定的應(yīng)用實(shí)例,1.測(cè)定組織特異性基因表達(dá) 2.基因功能分類 3.癌癥的分類和預(yù)測(cè) 4.臨床治療效果預(yù)測(cè) 5.基因與小分子藥物、疾病之間的關(guān)聯(lián) 6.干細(xì)胞的全能型、自我更

2、新和細(xì)胞命運(yùn)決定研究,7.動(dòng)植物的發(fā)育研究 8.環(huán)境對(duì)細(xì)胞基因表達(dá)的作用 9.環(huán)境監(jiān)測(cè) 10.物種的繁育,第二節(jié) 基因表達(dá)測(cè)定平臺(tái)與數(shù)據(jù)庫(kù),Microarray Platform and Databases,1.cDNA 芯片 2.Affymetrix芯片 3.下一代測(cè)序技術(shù)技術(shù)如:Roche-454, Illumina MiSeq,Ion Torrent PGM,一、基因表達(dá)測(cè)定平臺(tái)介紹,二、Microarray技術(shù)與RNA-Seq技術(shù)的比較,1.RNA-Seq技術(shù)對(duì)沒(méi)有已知參考基因組信息的非模式生物,也可測(cè)定轉(zhuǎn)錄信息; 2.RNA-Seq技術(shù)可以測(cè)定轉(zhuǎn)錄邊界的精度達(dá)到一個(gè)堿基,RNA-Se

3、q可以用來(lái)研究復(fù)雜的轉(zhuǎn)錄關(guān)系; 3.RNA-Seq可以同時(shí)測(cè)定序列的變異; 4.RNA-Seq背景信號(hào)很小,測(cè)定的動(dòng)態(tài)范圍很大。,RNA-Seq在基因表達(dá)的定量上準(zhǔn)確性很高; RNA-Seq在測(cè)定技術(shù)上和生物上重復(fù)性很高; RNA-Seq的測(cè)定需要很少的RNA樣本。 在應(yīng)用上RNA-Seq技術(shù)對(duì)ISOFORM的測(cè)定和等位基因的區(qū)分比芯片技術(shù)有很好的優(yōu)勢(shì)。,三、基因表達(dá)數(shù)據(jù)庫(kù),疾病相關(guān)基因表達(dá)數(shù)據(jù)庫(kù),第三節(jié)數(shù)據(jù)預(yù)處理與差異表達(dá)分析,Preprocessing of Microarray Data and Analysis of Differentially Expression Gene,一、基

4、因芯片數(shù)據(jù)預(yù)處理,(一)基因芯片數(shù)據(jù)的提取,cDNA微陣列芯片熒光信號(hào),定性信息提?。篜/A/M(Present/Absent/Marginal) 定量信息提取:基于探針集匯總后的基因水平的熒光信號(hào)強(qiáng)度值,原位合成芯片,(二)數(shù)據(jù)對(duì)數(shù)化轉(zhuǎn)換,對(duì)芯片數(shù)據(jù)做對(duì)數(shù)化轉(zhuǎn)換后,數(shù)據(jù)可近似正態(tài)分布,(三)數(shù)據(jù)過(guò)濾,數(shù)據(jù)過(guò)濾的目的是去除表達(dá)水平是負(fù)值或很小的數(shù)據(jù)或者明顯的噪聲數(shù)據(jù)。 過(guò)閃耀現(xiàn)象 物理因素導(dǎo)致的信號(hào)污染 雜交效能低 點(diǎn)樣問(wèn)題 其他,(四)補(bǔ)缺失值,1.數(shù)據(jù)缺失類型 非隨機(jī)缺失 基因表達(dá)豐度過(guò)高或過(guò)低。 隨機(jī)缺失 與基因表達(dá)豐度無(wú)關(guān),數(shù)據(jù)補(bǔ)缺主要針對(duì)隨機(jī)缺失情況。,高表達(dá)基因的數(shù)據(jù)缺失,2.數(shù)據(jù)

5、補(bǔ)缺方法,(1)簡(jiǎn)單補(bǔ)缺法,missing values = 0 expression missing values = 1 expression (arbitrary signal) missing values = row (gene)average missing values = column (array)average,(2)k近鄰法,選擇與具有缺失值基因的k個(gè)鄰居基因 用鄰居基因的加權(quán)平均估計(jì)缺失值 參數(shù) 鄰居個(gè)數(shù) 距離函數(shù),(3)回歸法,(五)數(shù)據(jù)標(biāo)準(zhǔn)化,1.為什么要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化:存在不同來(lái)源的系統(tǒng)誤差 染料物理特性差異(熱光敏感性,半衰期等) 染料的結(jié)合效率 點(diǎn)樣針差異 數(shù)

6、據(jù)收集過(guò)程中的掃描設(shè)施 不同芯片間的差異 實(shí)驗(yàn)條件差異,2.運(yùn)用哪些基因進(jìn)行標(biāo)準(zhǔn)化處理 芯片上大部分基因(假設(shè)芯片上大部分基因在不同條件下表達(dá)量相同) 不同條件間穩(wěn)定表達(dá)的基因(如持家基因) 控制序列(spiked control) 在不同條件下表達(dá)水平相同的合成DNA序列或外源的DNA序列。,3. cDNA芯片數(shù)據(jù)標(biāo)準(zhǔn)化處理,(1)片內(nèi)標(biāo)化(within-slide normalization)方法 全局標(biāo)化、熒光強(qiáng)度依賴的標(biāo)準(zhǔn)化、點(diǎn)樣針組內(nèi)標(biāo)準(zhǔn)化。,假設(shè): R=k*G 方法: c=log2k:中值或均值,全局標(biāo)化(global normalization),熒光強(qiáng)度依賴的標(biāo)化(intens

7、ity dependent normalization),為什么 方法: scatter-plot smoother lowess擬合 c(A)為M 對(duì)A 的擬合函數(shù) 標(biāo)化后的數(shù)據(jù),點(diǎn)樣針依賴的標(biāo)化(within-print-tip- group normalization),為什么 一張芯片的不同區(qū)域運(yùn)用不同的點(diǎn)樣針點(diǎn)樣,從而引入點(diǎn)樣針帶來(lái)的系統(tǒng)誤差。 method,(2)染色互換實(shí)驗(yàn)(dye-swap experiment)的標(biāo)化 實(shí)驗(yàn)組 對(duì)照組 芯片1 cy5(R) cy3(G) 芯片2 cy3(G) cy5(R) 前提假設(shè):cc 方法:,線性標(biāo)化法(linear scaling met

8、hods) 與芯片內(nèi)標(biāo)化的尺度調(diào)整(scale adjustment)方法類似。 非線性標(biāo)化法(non-linear methods) 分位數(shù)標(biāo)化法(quantile normalization) 兩張芯片的表達(dá)數(shù)據(jù)的分位數(shù)標(biāo)化至相同,即分布于對(duì)角線上。,(3)片間標(biāo)化(multiple-slide normalization),4. 芯片數(shù)據(jù)標(biāo)準(zhǔn)化,對(duì)每個(gè)探針對(duì)計(jì)算R R = (PM MM )/ (PM + MM ) 比較R與定義的閾值Tau(小的正值,默認(rèn)值為0.015 ) 單側(cè)的Wilcoxons Signed Rank test產(chǎn)生p值,根據(jù)p值定義定量信號(hào)值 Present call

9、 Marginal call Absent call,(1) 提取定性信號(hào),分析步驟 獲取探針?biāo)綌?shù)據(jù)背景值效正標(biāo)準(zhǔn)化處理探針特異背景值效正探針集信號(hào)的匯總,(2)提取定量信號(hào),1,分析方法,2,3,4,5,6,M = log2R - log2G A = (log2R + log2G)/2,7,8,9,前面提及的標(biāo)準(zhǔn)化方法僅效正了數(shù)據(jù)分布的中心,在不同的柵格間log-Ratios 的方差也不同。,二、差異表達(dá)分析基本原理與方法,(一)倍數(shù)法,實(shí)驗(yàn)條件下的表達(dá)值,對(duì)照條件下的表達(dá)值,通常以2倍差異為閾值,判斷基因是否差異表達(dá),(二)t 檢驗(yàn)法,運(yùn)用t 檢驗(yàn)法可以判斷基因在兩不同條件下的表達(dá)差異是

10、否具有顯著性,(三)方差分析,兩種或多種條件間下基因表達(dá)量的比較,用方差分析。它將基因在樣本之間的總變異分解為組間變異和組內(nèi)變異兩部分。通過(guò)方差分析的假設(shè)檢驗(yàn)判斷組間變異是否存在,如果存在則表明基因在不同條件下的表達(dá)有差異。,(四)SAM 法(significance analysis of microarrays),1. 多重假設(shè)檢驗(yàn)問(wèn)題 型錯(cuò)誤(假陽(yáng)性) 在假設(shè)檢驗(yàn)作推斷結(jié)論時(shí),拒絕了實(shí)際上正確的檢驗(yàn)假設(shè),即將無(wú)差異表達(dá)的基因判斷為差異表達(dá)。 型錯(cuò)誤(假陰性) 不拒絕實(shí)際上不正確的,即將有差異表達(dá)的基因判斷為無(wú)差異表達(dá)。,在進(jìn)行差異基因挑選時(shí),整個(gè)差異基因篩選過(guò)程需要做成千上萬(wàn)次假設(shè)檢驗(yàn),

11、導(dǎo)致假陽(yáng)性率的累積增大。對(duì)于這種多重假設(shè)檢驗(yàn)帶來(lái)的放大的假陽(yáng)性率,需要進(jìn)行糾正。常用的糾正策略有Bonferroni效正,控制FDR(false discovery rate)值等。,2. 分析步驟 計(jì)算統(tǒng)計(jì)量 擾動(dòng)實(shí)驗(yàn)條件,計(jì)算擾動(dòng)后的基因表達(dá)的相對(duì)差異統(tǒng)計(jì)量 計(jì)算擾動(dòng)后的平均相對(duì)差異統(tǒng)計(jì)量,確定差異表達(dá)基因閾值 以最小的正值和最大的負(fù)值作為統(tǒng)計(jì)閾 值,運(yùn)用該閾值,統(tǒng)計(jì)在值中超 過(guò)該閾值的假陽(yáng)性基因個(gè)數(shù),估計(jì)假陽(yáng)性發(fā)現(xiàn)率FDR值。 調(diào)整FDR值的大小得到差異表達(dá)基因。,(五)信息熵,運(yùn)用信息熵進(jìn)行差異基因挑選時(shí),不需要用到樣本的類別信息,所以運(yùn)用信息熵找到的差異基因是指在所有條件下表達(dá)波動(dòng)比

12、較大的基因。,三、差異表達(dá)分析應(yīng)用,以一套阿爾海茨默病相關(guān)的基因表達(dá)譜數(shù)據(jù)(GSE5281)為例,詳細(xì)介紹如何利用BRB-ArrayTools軟件進(jìn)行數(shù)據(jù)預(yù)處理,并對(duì)處理過(guò)的標(biāo)準(zhǔn)化的基因芯片數(shù)據(jù)利用SAM軟件進(jìn)行差異表達(dá)分析的過(guò)程。,GSE5281數(shù)據(jù)是利用Affymetrix公司的寡核苷酸芯片HG-U133 Plus 2.0 Array檢測(cè)阿爾海茨默病病人和正常老年人大腦中六個(gè)不同區(qū)域的基因表達(dá)情況,本例僅選擇其中一個(gè)區(qū)域內(nèi)側(cè)顳回(middle temporal gyrus,MTG)的數(shù)據(jù)進(jìn)行說(shuō)明 。,第一步:導(dǎo)入芯片數(shù)據(jù),使用“import data”下的“General Format I

13、mporter”導(dǎo)入基因芯片數(shù)據(jù),數(shù)據(jù)間用Tab鍵分隔(或使用Excell文件),也可使用“Data Import Wizard”進(jìn)行導(dǎo)入 。,導(dǎo)入芯片數(shù)據(jù),第二步:選擇文件類型,每張芯片用單獨(dú)的文件存儲(chǔ),多個(gè)文件保存在一個(gè)文件夾 “Array are saved in separate files stored in one folder” 若多張芯片數(shù)據(jù)組織成一個(gè)矩陣形式,存儲(chǔ)在一個(gè)文件中 “Array are saved in horizontally aligned file”,選擇記憶芯片數(shù)據(jù)文件類型,第三步:選擇芯片數(shù)據(jù)文件所存儲(chǔ)的路徑,注意路徑中不能包含中文,第四步:選擇基因芯片

14、平臺(tái),第五步:選擇文件格式,第六步:數(shù)據(jù)的過(guò)濾和標(biāo)準(zhǔn)化,第七步:基因注釋,由于基因芯片檢測(cè)的是探針的表達(dá)情況,而探針和基因之間往往不是一一對(duì)應(yīng),所以,在數(shù)據(jù)導(dǎo)入后軟件會(huì)詢問(wèn)是否需要進(jìn)行基因注釋,及是否需要將探針轉(zhuǎn)換成相應(yīng)的基因名(gene symbol)或Entrez ID,第八步:運(yùn)行SAM,FDR=0.01, delta=0.68,選出2209個(gè)在阿爾海茨默病病人和正常人腦組織中表達(dá)發(fā)生顯著性改變的基因。,SAM的參數(shù)設(shè)定,第九步:SAM Plot,SAM Plot,第四節(jié) 聚類分析與分類分析,Clustering Analysis and Classification,一、聚類目的,基于

15、物體的相似性將物體分成不同的組,二、基因表達(dá)譜數(shù)據(jù)的聚類,對(duì)基因進(jìn)行聚類 識(shí)別功能相關(guān)的基因 識(shí)別基因共表達(dá)模式 對(duì)樣本進(jìn)行聚類 質(zhì)量控制 檢查樣本是否按已知類別分組 發(fā)現(xiàn)亞型,樣本,基因,三、距離(相似性)尺度函數(shù),幾何距離 線性相關(guān)系數(shù) 非線性相關(guān)系數(shù) 互信息,四、聚類算法,層次聚類算法將研究對(duì)象按照它們的相似性關(guān)系用樹形圖進(jìn)行呈現(xiàn),進(jìn)行層次聚類時(shí)不需要預(yù)先設(shè)定類別個(gè)數(shù),樹狀的聚類結(jié)構(gòu)可以展示嵌套式的類別關(guān)系。,(一)層次聚類,在對(duì)含非單獨(dú)對(duì)象的類進(jìn)行合并或分裂時(shí),常用的類間度量方法。,類間相似性度量方法,2000年Alizadeh等運(yùn)用基因芯片數(shù)據(jù),基于層次聚類算法證實(shí)了DLBCL腫瘤病

16、人在mRNA層面確實(shí)存在兩種亞型,(二)k 均值聚類,基本思想,(三)自組織映射聚類,基本思想 在不斷的學(xué)習(xí)過(guò)程中,輸出層的神經(jīng)元根據(jù)輸入樣本的特點(diǎn)進(jìn)行權(quán)重調(diào)整,最后拓樸結(jié)構(gòu)發(fā)生了改變。,(四)雙向聚類,雙向聚類就是識(shí)別基因表達(dá)譜矩陣中同質(zhì)的子矩陣,運(yùn)用特定的基因子類識(shí)別樣本子類。,雙向聚類識(shí)別同質(zhì)的子結(jié)構(gòu),五、分類分析,(一)線性判別分類器,(二)k 近鄰分類法,(三)PAM方法 (prediction analysis for microarray),基本思想 每類樣本的質(zhì)心向所有樣本的質(zhì)心進(jìn)行收縮,即收縮每個(gè)基因的類均值,收縮的數(shù)量由值決定。當(dāng)收縮過(guò)程發(fā)生時(shí),某些基因在不同類中將會(huì)有相同

17、的類均值,這些基因就不具有類間的區(qū)別效能。,基因1,基因2,分析步驟,計(jì)算統(tǒng)計(jì)量 對(duì)公式經(jīng)過(guò)變換得到,收縮各類的均值,判斷新樣本類別,(四)決策樹,基本思想 決策樹又稱多級(jí)分類器,它可以把一個(gè)復(fù)雜的多類別分類問(wèn)題轉(zhuǎn)化為若干個(gè)簡(jiǎn)單的分類問(wèn)題來(lái)解決。 決策樹的結(jié)構(gòu):一個(gè)樹狀的結(jié)構(gòu),內(nèi)部節(jié)點(diǎn)上選用一個(gè)屬性進(jìn)行分割,每個(gè)分叉都是分割的一個(gè)部分,葉子節(jié)點(diǎn)表示一個(gè)分布。,決策樹應(yīng)用于腫瘤基因表達(dá)譜的分類分析,分析步驟:提取分類規(guī)則,進(jìn)行分類預(yù)測(cè) 在構(gòu)造決策樹的過(guò)程中最重要的一點(diǎn)是在每一個(gè)分割節(jié)點(diǎn)確定用哪個(gè)屬性來(lái)分類(或分裂) 這就涉及到關(guān)于使用什么準(zhǔn)則來(lái)衡量使用A屬性比使用B屬性更合理,衡量準(zhǔn)則 信息增益

18、information gain 基尼指數(shù)Gini index,決策樹的修剪 消除決策樹的過(guò)適應(yīng)問(wèn)題 消除訓(xùn)練集中的異常和噪聲,(五)分類效能評(píng)價(jià),1.構(gòu)建訓(xùn)練集和檢驗(yàn)集 n倍交叉驗(yàn)證(n-fold cross validation) Bagging(bootstrap aggregating) 無(wú)放回隨機(jī)抽樣 留一法交叉驗(yàn)證 (leave-one-out cross validation,LOOCV),2.分類效能 靈敏度(sensitivity,recall) 特異性(specificity) 陽(yáng)性預(yù)測(cè)率(positive predictive value,precision) 陰性預(yù)測(cè)率(negat

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論