《五節(jié)基因識》PPT課件.ppt_第1頁
《五節(jié)基因識》PPT課件.ppt_第2頁
《五節(jié)基因識》PPT課件.ppt_第3頁
《五節(jié)基因識》PPT課件.ppt_第4頁
《五節(jié)基因識》PPT課件.ppt_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第五節(jié) 基因識別,主講人:孫 嘯 制作人:劉志華,東南大學 吳健雄實驗室,基因識別,基因識別是生物信息學領域里的一個重要研究內容 基因識別問題,在近幾年受到廣泛的重視 當人類基因組研究進入一個系統(tǒng)測序階段時,急需可靠自動的基因組序列翻譯解釋技術,以處理大量已測定的但未知功能或未經注釋的DNA序列,原核基因識別 重點在于識別編碼區(qū)域,非翻譯區(qū)域(untranslated regions, UTR) 編碼區(qū)域兩端的DNA,有一部分被轉錄,但是不被翻譯,這一部分稱為非翻譯區(qū)域 5UTR-基因上游區(qū)域的非翻譯區(qū)域 3UTR-基因下游區(qū)域的非翻譯區(qū)域,對于任何給定的核酸序列(單鏈DNA或mRNA),根據(jù)密碼子的起始位置,可以按照三種方式進行解釋。 例如,序列ATTCGATCGCAA 這三種閱讀順序稱為閱讀框(reading frames),CAA,A,ATT,CGA,TCG,A,TTC,GAT,CGC,AA,AT,TCG,ATC,GCA,(1),(3),(2),一個開放閱讀框(ORF,open reading frame)是一個沒有終止編碼的密碼子序列。 原核基因識別任務的重點是識別開放閱讀框,或者說識別長的編碼區(qū)域。,基于基因密碼子特性的識別方法 辨別編碼區(qū)域與非編碼區(qū)域的一種方法 是檢查終止密碼子的出現(xiàn)頻率 終止密碼子出現(xiàn)的期望次數(shù)為: 每21個( 64/3)密碼子出現(xiàn)一次終止密碼子,基本思想: 如果能夠找到一個比較長的序列,其相應的密碼子序列不含終止密碼子,則這段序列可能就是編碼區(qū)域。 基本算法: 掃描給定的DNA序列,在三個不同的閱讀框中尋找較長的ORF。遇到終止密碼子以后,回頭尋找起始密碼子。 這種算法過于簡單,不適合于處理短的ORF或者交疊的ORF。,識別編碼區(qū)域的另一種方法是分析各種密碼子出現(xiàn)的頻率,將一個隨機均勻分布的DNA序列翻譯成氨基酸 序列,則在氨基酸序列中上述3種氨基酸出現(xiàn)的 比例應該為6:4:1,例如,亮氨酸、丙氨酸、色氨酸分別有 6個、4個和1個密碼子,但是在真實的氨基酸序列中,上述比例并不正確,這說明DNA的編碼區(qū)域并非隨機,假設在一條DNA序列中已經找到所有的ORF,那么可以利用密碼子頻率進一步區(qū)分編碼ORF和非編碼ORF 馬爾柯夫鏈模型 利用這種方法,可以計算一個ORF成為編碼區(qū)域的可能性。,一個簡單的統(tǒng)計模型 假設相繼的密碼子是獨立的,不存在前后依賴關系。 令fabc代表密碼子abc在編碼區(qū)域出現(xiàn)的頻率 給定序列 a1,b1,c1, a2,b2,c2, an+1,bn+1 從密碼子a1b1c1開始的閱讀框,其n個密碼子的出現(xiàn)概率為,第二種和第三種閱讀框n個密碼子出現(xiàn)的概率分別為,第i個閱讀框成為編碼閱讀框的概率 計算: 算法: 在序列上移動長度為n的窗口,計算Pi 根據(jù)Pi的值識別編碼的閱讀框,基于編碼區(qū)域堿基組成特征的識別方法 編碼序列與非編碼序列在堿基組成上有區(qū)別 單個堿基的組成比例 多個堿基的組成 通過統(tǒng)計分析識別編碼序列,分析實例,2、真核基因識別問題,真核基因遠比原核基因復雜: 一方面,真核基因的編碼區(qū)域是非連續(xù)的,編碼區(qū)域被分割為若干個小片段。 另一方面,真核基因具有更加豐富的基因調控信息,這些信息主要分布在基因上游區(qū)域。,基因識別基本思路 找出基因兩端的功能區(qū)域: 轉錄啟動區(qū) 終止區(qū) 在啟動區(qū)下游位置尋找翻譯起始密碼子 識別轉錄剪切位點 剪切給體位點 剪切接受體位點,各種不同的方法有不同的適應面,而不同的方法有時可以結合起來以提高基因識別的準確率。 關鍵問題是如何提高一個識別算法的敏感性(sensitivity,Sn)和特異性(specificity,Sp)。,3、基因識別的主要方法,兩大類識別方法: 從頭算方法(或基于統(tǒng)計的方法) 根據(jù)蛋白質編碼基因的一般性質和特征進行識別,通過統(tǒng)計值區(qū)分外顯子、內含子及基因間區(qū)域 基于同源序列比較的方法 利用數(shù)據(jù)庫中現(xiàn)有與基因有關的信息(如EST序列、蛋白質序列),通過同源比較,幫助發(fā)現(xiàn)新基因。 最理想的方法是綜合兩大類方法的優(yōu)點,開發(fā)混合算法。,基因識別方法有 : (1)基于規(guī)則的系統(tǒng) (2) 語義學方法 (3) 線性辨別分析(LDA) (4) 決策樹 (5) 動態(tài)規(guī)劃 (6) 隱馬爾柯夫模型 (7) 剪切對比排列 (spliced alignment),4、編碼區(qū)域識別,兩類方法 : 基于特征信號的識別 內部外顯子 剪切位點 5端的外顯子一定在核心啟動子的下游 3端的外顯子的下游包含多聚信號和終止編碼 基于統(tǒng)計度量的方法 根據(jù)密碼子使用傾向 雙聯(lián)密碼統(tǒng)計度量等,在一個基因中,第i個(i=1,64)密碼子相對使用傾向RSCUi的定義如下: Obsi是該基因中第i個密碼子實際出現(xiàn)的次數(shù) Expi是對應密碼子期望的出現(xiàn)次數(shù) aai是統(tǒng)計的第i個密碼子出現(xiàn)的次數(shù) syni是所有與第i個密碼子同義密碼子出現(xiàn)的次數(shù) RSCU大于1表示相應密碼子出現(xiàn)的次數(shù)比期望次數(shù)高,而小于1則表示出現(xiàn)次數(shù)相對較少。,(5-66),(5-65),密碼子使用傾向,設一段DNA序列為S,從S的第i位到第j位的雙聯(lián)密碼統(tǒng)計度量IF6(i,j)定義為: fk是從第k位開始的雙聯(lián)密碼的頻率 Fk是該雙聯(lián)密碼隨機出現(xiàn)的頻率,(5-67),雙聯(lián)密碼統(tǒng)計度量,通過相似搜索發(fā)現(xiàn)編碼區(qū)域或者外顯子 EST(Expressed Sequence Tags) cDNA 蛋白質序列,目前大多數(shù)預測程序都將數(shù)據(jù)庫相似性搜索的信息結合進基因預測過程 同時考慮序列特征信號和統(tǒng)計度量 GRAIL 用人工神經網絡識別編碼區(qū)域,輸入是一系列反映功能位點信號特征和序列編碼統(tǒng)計特征的參數(shù) 輸出就是對一段DNA序列是否是編碼區(qū)域的判別結果 神經網絡具有非線性映射能力,能夠發(fā)現(xiàn)輸入和輸出之間的高階相關性,5、構建基因模型,基因識別最終任務是建立完整的基因結構模型 一個理想的基因識別程序應該能夠發(fā)現(xiàn)完整的基因結構 (,e1, i1, , in-1, en , ),ATG-外顯子1,內含子,外顯子,外顯子n-UAG,基因剪切位點 剪切給體(donor)位點- “gt” 接受體(acceptor)位點- “ag”,基因的可變剪切,gene A,基因可變剪切示意,構建基因模型方法 剪切位點形成外顯子和內含子的邊界 搜集候選外顯子 候選基因,候選基因是一條非相交的外顯子和內含子的鏈,表示為 (i0, e1, i1, , en, in) 其中ij代表內含子(0jn) el代表外顯子(1ln) i0和in并非真實的內含子,它們分別代表基因兩側的非編碼序列,候選基因位于給定的DNA序列,并滿足下列一致性條件: (1)所有外顯子加起來的長度是3的整數(shù)倍; (2)在各個外顯子內部(除最后一個外顯子的最后一個密碼子),沒有終止編碼; (3)第一個內含子-外顯子邊界(i0, e1)是翻譯起始編碼,而最后一個外顯子-內含子邊界(en, in)是終止編碼。,位點圖(分層標注剪切位點),另設兩個特殊的頂點,即起點(source)和終點(sink)。 從起點到終點的任何一條路徑代表一個可能的基因結構。,例如:,位點圖上的路徑,候選基因所對應的道路圖中的路徑,求最優(yōu)路徑 每一條弧附加一個權值 外顯子、內含子度量 每個節(jié)點附加權值 剪切位點度量 綜合評價,6、用于基因識別的HMM模型,隱馬爾柯夫模型HMM是一條狀態(tài)不可見的馬爾柯夫鏈,其當前狀態(tài)的輸出是可見的。 每個狀態(tài)按照一定的概率分布隨機地從字母表中取出字符并釋放。 擴展的隱藏馬爾柯夫模型(GHMMs ) 對HMM進一步抽象,產生更一般的馬爾柯夫模型,以分析復雜的脊椎動物基因 。,(1) 信號傳感器模型,將剪切位點、起始編碼區(qū)域或者終止編碼區(qū)域看成是DNA序列上的功能位點或者信號位點,用HMM來進行分析,內含子區(qū)域,外顯子區(qū)域,保守位點,根據(jù)對比排列,形成具有19狀態(tài)的HMM模型。,對前一節(jié)所介紹的HMM模型進行修改,可以處理雙聯(lián)核苷酸的問題,即將4種概率分布擴展為16種。 假設一段序列為ACTGTC,則 P(ACTGTC)=p1(A)p2(CA)p3(TC)p4(GT)p5(TG)p6(CT) 其中p1是狀態(tài)1對于4種核苷酸的概率,p2(xy)狀態(tài)2的條件概率。,(2) 編碼區(qū)模型,由于密碼子的長度為3,因此密碼子模型的最后一個狀態(tài)應該至少為2階。 對于2階的狀態(tài),具有64種概率分布,可根據(jù)已知編碼區(qū)域進行統(tǒng)計計算而得到64種分布。例如: p(ACA)=c(CAA)/c(CAA)+c(CAC)+c(CAG)+c(CAT) p(CCA)=c(CAC)/c(CAA)+c(CAC)+c(CAG)+c(CAT) p(GCA)=c(CAG)/c(CAA)+c(CAC)+c(CAG)+c(CAT) p(TCA)=c(CAT)/c(CAA)+c(CAC)+c(CAG)+c(CAT) 其中,c(xyz)是密碼子xyz的計數(shù)。 這樣的模型可以檢測無結束編碼的區(qū)域,因為對應于三個結束編碼TAA、TAG和TGA的p(ATA)、p(GTA)和p(ATG)自動為0。,(3) 組合模型,將上述模型擴展,使之可以識別具有多個外顯子的基因。 改進后的模型見下圖,、基于剪切比對的基因識別方法,基本思想是:利用數(shù)據(jù)庫中的同源信息進行基因識別,包括DNA、RNA和蛋白質數(shù)據(jù)庫。 其方法是: 首先通過分析所有可能的剪切接受體位點和剪切給體位點,構建一組候選的外顯子。 然后進一步分析候選外顯子,探查所有可能的外顯子組合,尋找一個與已知目標蛋白質或其他表達序列最匹配的組合,一種半自動的綜合方法識別基因過程: (1)選擇所有長度大于50bp并介于保守的剪切接受位點和給體位點之間的ORF,作為候選的外顯子; 預選 (2)對于候選的外顯子計算其6目編碼度量值,并從大到小將它們排列起來; 減小搜索范圍 (3)對照蛋白質序列數(shù)據(jù)庫進行搜索,尋找相似體。 搜索,篩選,、基因識別程序介紹,表5.7 基因識別程序及訪問地址 (HP主頁;ESE-mail服務器;WSweb服務器;CL客戶/服務器協(xié)議; EX有可執(zhí)行代碼;SC有源代碼),表5.8 各程序的性能比較(敏感性(1)被預測出的真實編碼核酸的%;

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論