




已閱讀5頁(yè),還剩107頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第五章基因表達(dá)數(shù)據(jù)分析 生物信息學(xué) 第一節(jié)引言Introduction 基因表達(dá)組學(xué)與基因組學(xué)相比較表達(dá)組信息是動(dòng)態(tài)的 表達(dá)組學(xué)的數(shù)據(jù) 更多的是數(shù)值分析 轉(zhuǎn)錄組學(xué)中除了模式識(shí)別外 系統(tǒng)建模也十分重要 真核生物基因表達(dá)的基本方式 基因表達(dá)調(diào)控示意圖 基因表達(dá)的時(shí)空性 基因表達(dá)測(cè)定方法RT qPCR 近20年來(lái)三種不同高通量基因表達(dá)測(cè)定技術(shù)的應(yīng)用趨勢(shì) 高通量基因表達(dá)測(cè)定的應(yīng)用實(shí)例 1 測(cè)定組織特異性基因表達(dá)2 基因功能分類3 癌癥的分類和預(yù)測(cè)4 臨床治療效果預(yù)測(cè)5 基因與小分子藥物 疾病之間的關(guān)聯(lián)6 干細(xì)胞的全能型 自我更新和細(xì)胞命運(yùn)決定研究 7 動(dòng)植物的發(fā)育研究8 環(huán)境對(duì)細(xì)胞基因表達(dá)的作用9 環(huán)境監(jiān)測(cè)10 物種的繁育 第二節(jié)基因表達(dá)測(cè)定平臺(tái)與數(shù)據(jù)庫(kù) MicroarrayPlatformandDatabases 1 cDNA芯片2 Affymetrix芯片3 下一代測(cè)序技術(shù)技術(shù)如 Roche 454 IlluminaMiSeq IonTorrentPGM 一 基因表達(dá)測(cè)定平臺(tái)介紹 二 Microarray技術(shù)與RNA Seq技術(shù)的比較 1 RNA Seq技術(shù)對(duì)沒(méi)有已知參考基因組信息的非模式生物 也可測(cè)定轉(zhuǎn)錄信息 2 RNA Seq技術(shù)可以測(cè)定轉(zhuǎn)錄邊界的精度達(dá)到一個(gè)堿基 RNA Seq可以用來(lái)研究復(fù)雜的轉(zhuǎn)錄關(guān)系 3 RNA Seq可以同時(shí)測(cè)定序列的變異 4 RNA Seq背景信號(hào)很小 測(cè)定的動(dòng)態(tài)范圍很大 RNA Seq在基因表達(dá)的定量上準(zhǔn)確性很高 RNA Seq在測(cè)定技術(shù)上和生物上重復(fù)性很高 RNA Seq的測(cè)定需要很少的RNA樣本 在應(yīng)用上RNA Seq技術(shù)對(duì)ISOFORM的測(cè)定和等位基因的區(qū)分比芯片技術(shù)有很好的優(yōu)勢(shì) 三 基因表達(dá)數(shù)據(jù)庫(kù) 疾病相關(guān)基因表達(dá)數(shù)據(jù)庫(kù) 第三節(jié)數(shù)據(jù)預(yù)處理與差異表達(dá)分析 PreprocessingofMicroarrayDataandAnalysisofDifferentiallyExpressionGene 一 基因芯片數(shù)據(jù)預(yù)處理 一 基因芯片數(shù)據(jù)的提取 cDNA微陣列芯片熒光信號(hào) 定性信息提取 P A M Present Absent Marginal 定量信息提取 基于探針集匯總后的基因水平的熒光信號(hào)強(qiáng)度值 原位合成芯片 二 數(shù)據(jù)對(duì)數(shù)化轉(zhuǎn)換 對(duì)芯片數(shù)據(jù)做對(duì)數(shù)化轉(zhuǎn)換后 數(shù)據(jù)可近似正態(tài)分布 三 數(shù)據(jù)過(guò)濾 數(shù)據(jù)過(guò)濾的目的是去除表達(dá)水平是負(fù)值或很小的數(shù)據(jù)或者明顯的噪聲數(shù)據(jù) 過(guò)閃耀現(xiàn)象物理因素導(dǎo)致的信號(hào)污染雜交效能低點(diǎn)樣問(wèn)題其他 四 補(bǔ)缺失值 1 數(shù)據(jù)缺失類型非隨機(jī)缺失基因表達(dá)豐度過(guò)高或過(guò)低 隨機(jī)缺失與基因表達(dá)豐度無(wú)關(guān) 數(shù)據(jù)補(bǔ)缺主要針對(duì)隨機(jī)缺失情況 高表達(dá)基因的數(shù)據(jù)缺失 2 數(shù)據(jù)補(bǔ)缺方法 1 簡(jiǎn)單補(bǔ)缺法 missingvalues 0expressionmissingvalues 1expression arbitrarysignal missingvalues row gene averagemissingvalues column array average 2 k近鄰法 選擇與具有缺失值基因的k個(gè)鄰居基因用鄰居基因的加權(quán)平均估計(jì)缺失值參數(shù)鄰居個(gè)數(shù)距離函數(shù) 3 回歸法 五 數(shù)據(jù)標(biāo)準(zhǔn)化 1 為什么要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化 存在不同來(lái)源的系統(tǒng)誤差染料物理特性差異 熱光敏感性 半衰期等 染料的結(jié)合效率點(diǎn)樣針差異數(shù)據(jù)收集過(guò)程中的掃描設(shè)施不同芯片間的差異實(shí)驗(yàn)條件差異 2 運(yùn)用哪些基因進(jìn)行標(biāo)準(zhǔn)化處理芯片上大部分基因 假設(shè)芯片上大部分基因在不同條件下表達(dá)量相同 不同條件間穩(wěn)定表達(dá)的基因 如持家基因 控制序列 spikedcontrol 在不同條件下表達(dá)水平相同的合成DNA序列或外源的DNA序列 3 cDNA芯片數(shù)據(jù)標(biāo)準(zhǔn)化處理 1 片內(nèi)標(biāo)化 within slidenormalization 方法全局標(biāo)化 熒光強(qiáng)度依賴的標(biāo)準(zhǔn)化 點(diǎn)樣針組內(nèi)標(biāo)準(zhǔn)化 假設(shè) R k G方法 c log2k 中值或均值 全局標(biāo)化 globalnormalization 熒光強(qiáng)度依賴的標(biāo)化 intensitydependentnormalization 為什么方法 scatter plotsmootherlowess擬合c A 為M對(duì)A的擬合函數(shù)標(biāo)化后的數(shù)據(jù) 點(diǎn)樣針依賴的標(biāo)化 within print tip groupnormalization 為什么一張芯片的不同區(qū)域運(yùn)用不同的點(diǎn)樣針點(diǎn)樣 從而引入點(diǎn)樣針帶來(lái)的系統(tǒng)誤差 method 2 染色互換實(shí)驗(yàn) dye swapexperiment 的標(biāo)化實(shí)驗(yàn)組對(duì)照組芯片1cy5 R cy3 G 芯片2cy3 G cy5 R 前提假設(shè) c c 方法 線性標(biāo)化法 linearscalingmethods 與芯片內(nèi)標(biāo)化的尺度調(diào)整 scaleadjustment 方法類似 非線性標(biāo)化法 non linearmethods 分位數(shù)標(biāo)化法 quantilenormalization 兩張芯片的表達(dá)數(shù)據(jù)的分位數(shù)標(biāo)化至相同 即分布于對(duì)角線上 3 片間標(biāo)化 multiple slidenormalization 4 芯片數(shù)據(jù)標(biāo)準(zhǔn)化 對(duì)每個(gè)探針對(duì)計(jì)算RR PM MM PM MM 比較R與定義的閾值Tau 小的正值 默認(rèn)值為0 015 單側(cè)的Wilcoxon sSignedRanktest產(chǎn)生p值 根據(jù)p值定義定量信號(hào)值PresentcallMarginalcallAbsentcall 1 提取定性信號(hào) 分析步驟獲取探針?biāo)綌?shù)據(jù) 背景值效正 標(biāo)準(zhǔn)化處理 探針特異背景值效正 探針集信號(hào)的匯總 2 提取定量信號(hào) 1 分析方法 2 3 4 5 6 M log2R log2GA log2R log2G 2 7 8 9 前面提及的標(biāo)準(zhǔn)化方法僅效正了數(shù)據(jù)分布的中心 在不同的柵格間log Ratios的方差也不同 二 差異表達(dá)分析基本原理與方法 一 倍數(shù)法 實(shí)驗(yàn)條件下的表達(dá)值 對(duì)照條件下的表達(dá)值 通常以2倍差異為閾值 判斷基因是否差異表達(dá) 二 t檢驗(yàn)法 運(yùn)用t檢驗(yàn)法可以判斷基因在兩不同條件下的表達(dá)差異是否具有顯著性 三 方差分析 兩種或多種條件間下基因表達(dá)量的比較 用方差分析 它將基因在樣本之間的總變異分解為組間變異和組內(nèi)變異兩部分 通過(guò)方差分析的假設(shè)檢驗(yàn)判斷組間變異是否存在 如果存在則表明基因在不同條件下的表達(dá)有差異 四 SAM法 significanceanalysisofmicroarrays 1 多重假設(shè)檢驗(yàn)問(wèn)題 型錯(cuò)誤 假陽(yáng)性 在假設(shè)檢驗(yàn)作推斷結(jié)論時(shí) 拒絕了實(shí)際上正確的檢驗(yàn)假設(shè) 即將無(wú)差異表達(dá)的基因判斷為差異表達(dá) 型錯(cuò)誤 假陰性 不拒絕實(shí)際上不正確的 即將有差異表達(dá)的基因判斷為無(wú)差異表達(dá) 在進(jìn)行差異基因挑選時(shí) 整個(gè)差異基因篩選過(guò)程需要做成千上萬(wàn)次假設(shè)檢驗(yàn) 導(dǎo)致假陽(yáng)性率的累積增大 對(duì)于這種多重假設(shè)檢驗(yàn)帶來(lái)的放大的假陽(yáng)性率 需要進(jìn)行糾正 常用的糾正策略有Bonferroni效正 控制FDR falsediscoveryrate 值等 2 分析步驟計(jì)算統(tǒng)計(jì)量擾動(dòng)實(shí)驗(yàn)條件 計(jì)算擾動(dòng)后的基因表達(dá)的相對(duì)差異統(tǒng)計(jì)量計(jì)算擾動(dòng)后的平均相對(duì)差異統(tǒng)計(jì)量 確定差異表達(dá)基因閾值以最小的正值和最大的負(fù)值作為統(tǒng)計(jì)閾值 運(yùn)用該閾值 統(tǒng)計(jì)在值中超過(guò)該閾值的假陽(yáng)性基因個(gè)數(shù) 估計(jì)假陽(yáng)性發(fā)現(xiàn)率FDR值 調(diào)整FDR值的大小得到差異表達(dá)基因 五 信息熵 運(yùn)用信息熵進(jìn)行差異基因挑選時(shí) 不需要用到樣本的類別信息 所以運(yùn)用信息熵找到的差異基因是指在所有條件下表達(dá)波動(dòng)比較大的基因 三 差異表達(dá)分析應(yīng)用 以一套阿爾海茨默病相關(guān)的基因表達(dá)譜數(shù)據(jù) GSE5281 為例 詳細(xì)介紹如何利用BRB ArrayTools軟件進(jìn)行數(shù)據(jù)預(yù)處理 并對(duì)處理過(guò)的標(biāo)準(zhǔn)化的基因芯片數(shù)據(jù)利用SAM軟件進(jìn)行差異表達(dá)分析的過(guò)程 GSE5281數(shù)據(jù)是利用Affymetrix公司的寡核苷酸芯片HG U133Plus2 0Array檢測(cè)阿爾海茨默病病人和正常老年人大腦中六個(gè)不同區(qū)域的基因表達(dá)情況 本例僅選擇其中一個(gè)區(qū)域 內(nèi)側(cè)顳回 middletemporalgyrus MTG 的數(shù)據(jù)進(jìn)行說(shuō)明 第一步 導(dǎo)入芯片數(shù)據(jù) 使用 importdata 下的 GeneralFormatImporter 導(dǎo)入基因芯片數(shù)據(jù) 數(shù)據(jù)間用Tab鍵分隔 或使用Excell文件 也可使用 DataImportWizard 進(jìn)行導(dǎo)入 導(dǎo)入芯片數(shù)據(jù) 第二步 選擇文件類型 每張芯片用單獨(dú)的文件存儲(chǔ) 多個(gè)文件保存在一個(gè)文件夾 Arrayaresavedinseparatefilesstoredinonefolder 若多張芯片數(shù)據(jù)組織成一個(gè)矩陣形式 存儲(chǔ)在一個(gè)文件中 Arrayaresavedinhorizontallyalignedfile 選擇記憶芯片數(shù)據(jù)文件類型 第三步 選擇芯片數(shù)據(jù)文件所存儲(chǔ)的路徑 注意路徑中不能包含中文 第四步 選擇基因芯片平臺(tái) 第五步 選擇文件格式 第六步 數(shù)據(jù)的過(guò)濾和標(biāo)準(zhǔn)化 第七步 基因注釋 由于基因芯片檢測(cè)的是探針的表達(dá)情況 而探針和基因之間往往不是一一對(duì)應(yīng) 所以 在數(shù)據(jù)導(dǎo)入后軟件會(huì)詢問(wèn)是否需要進(jìn)行基因注釋 及是否需要將探針轉(zhuǎn)換成相應(yīng)的基因名 genesymbol 或EntrezID 第八步 運(yùn)行SAM FDR 0 01 delta 0 68 選出2209個(gè)在阿爾海茨默病病人和正常人腦組織中表達(dá)發(fā)生顯著性改變的基因 SAM的參數(shù)設(shè)定 第九步 SAMPlot SAMPlot 第四節(jié)聚類分析與分類分析 ClusteringAnalysisandClassification 一 聚類目的 基于物體的相似性將物體分成不同的組 二 基因表達(dá)譜數(shù)據(jù)的聚類 對(duì)基因進(jìn)行聚類識(shí)別功能相關(guān)的基因識(shí)別基因共表達(dá)模式對(duì)樣本進(jìn)行聚類質(zhì)量控制檢查樣本是否按已知類別分組發(fā)現(xiàn)亞型 樣本 基因 三 距離 相似性 尺度函數(shù) 幾何距離線性相關(guān)系數(shù)非線性相關(guān)系數(shù)互信息 四 聚類算法 層次聚類算法將研究對(duì)象按照它們的相似性關(guān)系用樹(shù)形圖進(jìn)行呈現(xiàn) 進(jìn)行層次聚類時(shí)不需要預(yù)先設(shè)定類別個(gè)數(shù) 樹(shù)狀的聚類結(jié)構(gòu)可以展示嵌套式的類別關(guān)系 一 層次聚類 在對(duì)含非單獨(dú)對(duì)象的類進(jìn)行合并或分裂時(shí) 常用的類間度量方法 類間相似性度量方法 2000年Alizadeh等運(yùn)用基因芯片數(shù)據(jù) 基于層次聚類算法證實(shí)了DLBCL腫瘤病人在mRNA層面確實(shí)存在兩種亞型 二 k均值聚類 基本思想 三 自組織映射聚類 基本思想在不斷的學(xué)習(xí)過(guò)程中 輸出層的神經(jīng)元根據(jù)輸入樣本的特點(diǎn)進(jìn)行權(quán)重調(diào)整 最后拓樸結(jié)構(gòu)發(fā)生了改變 四 雙向聚類 雙向聚類就是識(shí)別基因表達(dá)譜矩陣中同質(zhì)的子矩陣 運(yùn)用特定的基因子類識(shí)別樣本子類 雙向聚類識(shí)別同質(zhì)的子結(jié)構(gòu) 五 分類分析 一 線性判別分類器 二 k近鄰分類法 三 PAM方法 predictionanalysisformicroarray 基本思想每類樣本的質(zhì)心向所有樣本的質(zhì)心進(jìn)行收縮 即收縮每個(gè)基因的類均值 收縮的數(shù)量由值決定 當(dāng)收縮過(guò)程發(fā)生時(shí) 某些基因在不同類中將會(huì)有相同的類均值 這些基因就不具有類間的區(qū)別效能 基因1 基因2 分析步驟 計(jì)算統(tǒng)計(jì)量對(duì)公式經(jīng)過(guò)變換得到 收縮各類的均值 判斷新樣本類別 四 決策樹(shù) 基本思想決策樹(shù)又稱多級(jí)分類器 它可以把一個(gè)復(fù)雜的多類別分類問(wèn)題轉(zhuǎn)化為若干個(gè)簡(jiǎn)單的分類問(wèn)題來(lái)解決 決策樹(shù)的結(jié)構(gòu) 一個(gè)樹(shù)狀的結(jié)構(gòu) 內(nèi)部節(jié)點(diǎn)上選用一個(gè)屬性進(jìn)行分割 每個(gè)分叉都是分割的一個(gè)部分 葉子節(jié)點(diǎn)表示一個(gè)分布 決策樹(shù)應(yīng)用于腫瘤基因表達(dá)譜的分類分析 分析步驟 提取分類規(guī)則 進(jìn)行分類預(yù)測(cè)在構(gòu)造決策樹(shù)的過(guò)程中最重要的一點(diǎn)是在每一個(gè)分割節(jié)點(diǎn)確定用哪個(gè)屬性來(lái)分類 或分裂 這就涉及到關(guān)于使用什么準(zhǔn)則來(lái)衡量使用A屬性比使用B屬性更合理 衡量準(zhǔn)則信息增益 informationgain基尼指數(shù) Giniindex 決策樹(shù)的修剪消除決策樹(shù)的過(guò)適應(yīng)問(wèn)題消除訓(xùn)練集中的異常和噪聲 五 分類效能評(píng)價(jià) 1 構(gòu)建訓(xùn)練集和檢驗(yàn)集n倍交叉驗(yàn)證 n foldcrossvalidation Bagging bootstrapaggregating 無(wú)放回隨機(jī)抽樣留一法交叉驗(yàn)證 leave one outcrossvalidation LOOCV 2 分類效能靈敏度 sensitivity recall 特異性 specificity 陽(yáng)性預(yù)測(cè)率 positivepredictivevalue precision 陰
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年杭州蕭山區(qū)衛(wèi)健系統(tǒng)招聘事業(yè)單位工作人員筆試真題
- 廣西公務(wù)員行測(cè)真題(B類)
- 2024年四川省核地質(zhì)調(diào)查研究所招聘筆試真題
- 2024年西藏自治區(qū)醫(yī)療保障局下屬事業(yè)單位真題
- 2024年廣西高校畢業(yè)生“三支一扶”計(jì)劃招募考試真題
- 校企協(xié)同育人模式-洞察及研究
- 生管工作流程SOP-企業(yè)管理
- 記賬實(shí)操-天麻種植業(yè)的賬務(wù)處理實(shí)例
- 水質(zhì)監(jiān)測(cè)技術(shù)-第1篇-洞察及研究
- 細(xì)胞生物相關(guān)的疾病治療講課件
- 杭州市拱墅區(qū)部分校教科版六年級(jí)下冊(cè)期末考試科學(xué)試卷(原卷版)
- 2025年甘肅農(nóng)墾集團(tuán)招聘筆試參考題庫(kù)含答案解析
- 華北理工選礦學(xué)課件03浮選-1浮選基本原理
- 冠寓運(yùn)營(yíng)管理手冊(cè)正式版
- 2022年珠海市金灣區(qū)體育教師招聘筆試試題及答案
- 畢業(yè)離校學(xué)生證遺失證明
- 智慧停車技術(shù)方案
- 土地整理質(zhì)量評(píng)定表
- 【告知牌】某公司全套重大危險(xiǎn)源告知牌(7頁(yè))
- 中考數(shù)學(xué)復(fù)習(xí)專題二方程與不等式
- 供應(yīng)商管理庫(kù)存VMI的實(shí)施
評(píng)論
0/150
提交評(píng)論