九章數(shù)據(jù)挖掘與基因表達調控信息分析2_第1頁
九章數(shù)據(jù)挖掘與基因表達調控信息分析2_第2頁
九章數(shù)據(jù)挖掘與基因表達調控信息分析2_第3頁
九章數(shù)據(jù)挖掘與基因表達調控信息分析2_第4頁
九章數(shù)據(jù)挖掘與基因表達調控信息分析2_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第九章數(shù)據(jù)挖掘與基因表達調控信息分析(2)主講人:孫嘯制作人:劉志華東南大學吳健雄實驗室第四節(jié)基因表達數(shù)據(jù)的聚類分析基因表達數(shù)據(jù)主要來自于兩個方面:一是基因芯片,這是最主要的表達數(shù)據(jù)來源,利用基因芯片技術可以大規(guī)模并行獲取基因轉錄結果mRNA的數(shù)據(jù)。表達系列分析SAGE和差異顯示、蛋白質芯片等是快速檢測蛋白質及其含量的另一類技術。聚類分析是模式識別中一種非常有吸引力的方法,特別適用于模式分類數(shù)不知道的情況。從機器學習的角度來看,有兩種基本的聚類分析:有教師聚類無教師聚類基因表達數(shù)據(jù)聚類分析一般包括以下幾個步驟:(1)確定基因表達的數(shù)據(jù)(2)計算相似性矩陣,各個矩陣元素代表兩個基因的表達是否相似(3)選擇算法進行聚類分析(4)顯示分析結果。對數(shù)據(jù)進行聚類分析之前,必須將包含在基因表達矩陣中的數(shù)據(jù)進行相似程度分析,并且對分析結果進行量化。通常情況下,相似往往被賦于一個較大的量化的值,而不相似則由一個較小的量化的值來表示。在實際計算中,往往以距離代替相似的概念,相似性度量被轉化為兩個基因表達模式之間的距離。距離越小,表達模式越相近,反之,則表達模式差異大。幾種常用的聚類方法1.簡單聚類2.層次式聚類3.K平均聚類4.自組織映射神經網(wǎng)絡5.模糊聚類分析方法6、聚類分析結果的樹圖表示1、簡單聚類假設有n個基因表達數(shù)據(jù)向量分別為X1,X2,…,XN

令任意一個基因的表達向量為第一個聚類的中心依次處理其它基因在處理第i個基因時,首先計算該基因的表達數(shù)據(jù)向量與現(xiàn)有各類中心的距離假設與第j類的距離Dij最小,并且Dij<T,則將基因i分配到第j類;否則生成一個新類,該類的中心為第i個基因的表達向量。2、層次式聚類

3、K平均聚類

任意選取K個基因表達向量作為初始聚類中心

Z1,Z2,…,Zk

反復迭代計算如果||X-Zj(l)||<||X-Zi(l)||(i=1,2,…,K,i

j),則將X所代表的基因歸于第j類。按照上述辦法處理所有的基因;經過上述處理,聚類可能發(fā)生變化,因此需要重新計算K個新聚類中心:

對于所有的聚類中心,如果Zj(l+1)=Zj(l)(j=1,2,…,K),則迭代結束,得到最后的聚類結果;否則繼續(xù)進行迭代計算。

4、自組織映射神經網(wǎng)絡

圖9.12SOM聚類結果示意5、模糊聚類分析方法主要過程:(1)建立模糊相似矩陣(2)生成模糊等價矩陣(3)構建動態(tài)聚類圖6、聚類結果顯示

圖9.15基因表達模式聚類結果圖示分類分析方法

有監(jiān)督學習

疾病診斷、細胞類型識別樣本分類:(例)急性淋巴細胞白血病(ALL)急性髓性白血病(AML)例:兩類劃分

問題:

基因的選擇?

分類的方法?

貝葉斯分類法支持向量機(SVM)k最近鄰法神經網(wǎng)絡方法決策樹方法

投票分類法(多分類器)

7、主成分分析PCA

圖9.13主元素對應特征值圖示分析基因表達數(shù)據(jù)發(fā)現(xiàn)與疾病直接相關的基因發(fā)現(xiàn)這些基因的活動規(guī)律第五節(jié)基因調控網(wǎng)絡分析一個基因網(wǎng)絡由一組生物分子(如基因、蛋白質)以及它們之間的相互作用構成,這些生物分子共同完成一些特定的細胞功能任務。在實際分析過程中,往往以圖這種數(shù)據(jù)結構表示基因網(wǎng)絡,圖中的節(jié)點代表基因或者蛋白質,而節(jié)點之間的連線代表基因、蛋白質之間的相互作用。基因網(wǎng)絡描述了特定細胞或組織中的功能路徑,如代謝、基因調控,信號傳導等。圖9.16基因表達在化學催化中的作用圖9.17代謝路徑示例:脯氨酸的生物合成基因表達實際上是細胞、組織、器官受遺傳和環(huán)境影響的結果。一個基因的轉錄和表達由細胞的生化狀態(tài)所決定,在一個基因的轉錄過程中,一組轉錄因子作用于該基因的啟動子區(qū)域,控制該基因轉錄,而這些轉錄因子本身又是其它基因的產物。當一個基因通過轉錄、翻譯形成功能基因產物后,它將改變細胞的生化狀態(tài),從而直接或間接地影響其它基因的表達,甚至影響自身的表達。多個基因的表達不斷變化,使得細胞的生化狀態(tài)不斷地變化。一個基因的表達受其它基因的影響,而這個基因又會影響其它基因的表達,這種相互影響、相互制約關系構成了復雜的基因表達調控網(wǎng)絡。基因表達數(shù)據(jù)之中隱含基因之間的相互作用關系,因而可以通過分析基因表達數(shù)據(jù),構建基因調控網(wǎng)絡。幾種基因調控網(wǎng)絡模型1、布爾網(wǎng)絡模型ABC

ABC 系統(tǒng)運行軌跡

循環(huán)ABC111021113011400150006000前一個狀態(tài)

后一個狀態(tài)

作用規(guī)則(1)A激活B(2)B激活A和C(3)C抑制A2、線性組合模型線性組合模型是一種連續(xù)網(wǎng)絡模型,在這種模型中,一個基因的表達值是若干個其它基因表達值的加權和?;颈硎拘问綖椋?、加權矩陣模型加權矩陣模型與線性組合模型相似,在該模型中,一個基因的表達值是其它基因表達值的函數(shù)。4、互信息關聯(lián)網(wǎng)絡可以用距離或相關系數(shù)作為基因表達模式之間的相似性度量,還可以用另外一種度量形式,即用熵和互信息描述基因與基因的關聯(lián)。一個基因表達模式的熵是該模式所含信息量的度量。設X是一個基因表達模式,用下式計算熵:5、基因調控網(wǎng)絡實例真核生物生理過程的調控網(wǎng)絡GeneNet

GeneNet展示了協(xié)調方式下基因的整體功能,良好的調控功能和對外界刺激的反應。該基因網(wǎng)具有以下基本功能:(a)描述執(zhí)行特定生物功能時所涉及到的整體基因交互作用(b)描述基因的蛋白質編碼(c)描述基因對外界刺激的傳感途徑(d)通過一組反饋自動地穩(wěn)定網(wǎng)絡參數(shù)或者使網(wǎng)絡轉換到新的功能狀態(tài)(e)利用外部信號、激素和代謝產物作為生理學參數(shù)激發(fā)基因網(wǎng)糾正其作用該基因網(wǎng)描述了四類實體:

(a)細胞(組織,器

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論