基因識別專題知識講座_第1頁
基因識別專題知識講座_第2頁
基因識別專題知識講座_第3頁
基因識別專題知識講座_第4頁
基因識別專題知識講座_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基因識別專題知識講座基因識別專題知識講座第1頁基因識別基因識別是生物信息學(xué)領(lǐng)域里一個主要研究內(nèi)容基因識別問題,在近幾年受到廣泛重視當(dāng)人類基因組研究進入一個系統(tǒng)測序階段時,急需可靠自動基因組序列翻譯解釋技術(shù),以處理大量已測定但未知功效或未經(jīng)注釋DNA序列基因識別專題知識講座第2頁原核基因識別 重點在于識別編碼區(qū)域基因識別專題知識講座第3頁非翻譯區(qū)域(untranslatedregions,UTR)編碼區(qū)域兩端DNA,有一個別被轉(zhuǎn)錄,不過不被翻譯,這一個別稱為非翻譯區(qū)域

5’UTR---基因上游區(qū)域非翻譯區(qū)域3’UTR---基因下游區(qū)域非翻譯區(qū)域基因識別專題知識講座第4頁對于任何給定核酸序列(單鏈DNA或mRNA),依據(jù)密碼子起始位置,能夠按照三種方式進行解釋。比如,序列ATTCGATCGCAA這三種閱讀次序稱為閱讀框(readingframes)CAA

A

ATTCGATCGATTCGATCGCAAATTCGATCGCA(1)(3)(2)基因識別專題知識講座第5頁一個開放閱讀框(ORF,openreadingframe)是一個沒有終止編碼密碼子序列。原核基因識別任務(wù)重點是識別開放閱讀框,或者說識別長編碼區(qū)域。基因識別專題知識講座第6頁基于基因密碼子特征識別方法區(qū)分編碼區(qū)域與非編碼區(qū)域一個方法是檢驗終止密碼子出現(xiàn)頻率終止密碼子出現(xiàn)期望次數(shù)為:每21個(64/3)密碼子出現(xiàn)一次終止密碼子

基因識別專題知識講座第7頁基礎(chǔ)思想:假如能夠找到一個比較長序列,其對應(yīng)密碼子序列不含終止密碼子,則這段序列可能就是編碼區(qū)域。基礎(chǔ)算法:掃描給定DNA序列,在三個不一樣閱讀框中尋找較長ORF。碰到終止密碼子以后,回頭尋找起始密碼子。這種算法過于簡單,不適合于處理短ORF或者交疊ORF?;蜃R別專題知識講座第8頁識別編碼區(qū)域另一個方法是分析各種密碼子出現(xiàn)頻率

將一個隨機均勻分布DNA序列翻譯成氨基酸序列,則在氨基酸序列中上述3種氨基酸出現(xiàn)百分比應(yīng)該為6:4:1比如,亮氨酸、丙氨酸、色氨酸分別有6個、4個和1個密碼子不過在真實氨基酸序列中,上述百分比并不正確這說明DNA編碼區(qū)域并非隨機基因識別專題知識講座第9頁假設(shè)在一條DNA序列中已經(jīng)找到全部ORF,那么能夠利用密碼子頻率深入?yún)^(qū)分編碼ORF和非編碼ORF馬爾柯夫鏈模型利用這種方法,能夠計算一個ORF成為編碼區(qū)域可能性?;蜃R別專題知識講座第10頁一個簡單統(tǒng)計模型

假設(shè)相繼密碼子是獨立,不存在前后依賴關(guān)系。

令fabc代表密碼子abc在編碼區(qū)域出現(xiàn)頻率 給定序列

a1,b1,c1,a2,b2,c2,…,an+1,bn+1

從密碼子a1b1c1開始閱讀框,其n個密碼子出現(xiàn)概率為基因識別專題知識講座第11頁第二種和第三種閱讀框n個密碼子出現(xiàn)概率分別為基因識別專題知識講座第12頁第i個閱讀框成為編碼閱讀框概率 計算:算法: 在序列上移動長度為n窗口,計算Pi

依據(jù)Pi值識別編碼閱讀框基因識別專題知識講座第13頁基于編碼區(qū)域堿基組成特征識別方法編碼序列與非編碼序列在堿基組成上有區(qū)分單個堿基組成百分比多個堿基組成經(jīng)過統(tǒng)計分析識別編碼序列基因識別專題知識講座第14頁分析實例基因識別專題知識講座第15頁基因識別專題知識講座第16頁2、真核基因識別問題

真核基因遠比原核基因復(fù)雜:首先,真核基因編碼區(qū)域是非連續(xù),編碼區(qū)域被分割為若干個小片段。另首先,真核基因含有愈加豐富基因調(diào)控信息,這些信息主要分布在基因上游區(qū)域?;蜃R別專題知識講座第17頁基因識別專題知識講座第18頁基因識別專題知識講座第19頁基因識別基礎(chǔ)思緒

找出基因兩端功效區(qū)域:

轉(zhuǎn)錄開啟區(qū)終止區(qū)在開啟區(qū)下游位置尋找翻譯起始密碼子識別轉(zhuǎn)錄剪切位點剪切給體位點剪切接收體位點基因識別專題知識講座第20頁各種不一樣方法有不一樣適應(yīng)面,而不一樣方法有時能夠結(jié)合起來以提升基因識別準(zhǔn)確率。關(guān)鍵問題是怎樣提升一個識別算法敏感性(sensitivity,Sn)和特異性(specificity,Sp)。

基因識別專題知識講座第21頁3、基因識別主要方法兩大類識別方法:從頭算方法(或基于統(tǒng)計方法)依據(jù)蛋白質(zhì)編碼基因普通性質(zhì)和特征進行識別,經(jīng)過統(tǒng)計值區(qū)分外顯子、內(nèi)含子及基因間區(qū)域

基于同源序列比較方法利用數(shù)據(jù)庫中現(xiàn)有與基因相關(guān)信息(如EST序列、蛋白質(zhì)序列),經(jīng)過同源比較,幫助發(fā)覺新基因。最理想方法是綜合兩大類方法優(yōu)點,開發(fā)混合算法?;蜃R別專題知識講座第22頁基因識別方法有:(1)基于規(guī)則系統(tǒng)(2)語義學(xué)方法(3)線性區(qū)分分析(LDA)(4)決議樹

(5)動態(tài)規(guī)劃

(6)隱馬爾柯夫模型

(7)剪切對比排列(splicedalignment)基因識別專題知識講座第23頁4、編碼區(qū)域識別兩類方法:基于特征信號識別內(nèi)部外顯子 剪切位點5’端外顯子一定在關(guān)鍵開啟子下游3’端外顯子下游包含多聚A信號和終止編碼基于統(tǒng)計度量方法依據(jù)密碼子使用傾向雙聯(lián)密碼統(tǒng)計度量等基因識別專題知識講座第24頁

在一個基因中,第i個(i=1,64)密碼子相對使用傾向RSCUi定義以下:Obsi是該基因中第i個密碼子實際出現(xiàn)次數(shù)

Expi是對應(yīng)密碼子期望出現(xiàn)次數(shù)

aai是統(tǒng)計第i個密碼子出現(xiàn)次數(shù) syni是全部與第i個密碼子同義密碼子出現(xiàn)次數(shù)RSCU大于1表示對應(yīng)密碼子出現(xiàn)次數(shù)比期望次數(shù)高,而小于1則表示出現(xiàn)次數(shù)相對較少。(5-66)(5-65)

密碼子使用傾向基因識別專題知識講座第25頁設(shè)一段DNA序列為S,從S第i位到第j位雙聯(lián)密碼統(tǒng)計度量IF6(i,j)定義為:

fk是從第k位開始雙聯(lián)密碼頻率

Fk是該雙聯(lián)密碼隨機出現(xiàn)頻率(5-67)雙聯(lián)密碼統(tǒng)計度量基因識別專題知識講座第26頁經(jīng)過相同搜索發(fā)覺編碼區(qū)域或者外顯子EST(ExpressedSequenceTags)cDNA蛋白質(zhì)序列基因識別專題知識講座第27頁當(dāng)前大多數(shù)預(yù)測程序都將數(shù)據(jù)庫相同性搜索信息結(jié)合進基因預(yù)測過程同時考慮序列特征信號和統(tǒng)計度量

GRAIL

用人工神經(jīng)網(wǎng)絡(luò)識別編碼區(qū)域基因識別專題知識講座第28頁輸入是一系列反應(yīng)功效位點信號特征和序列編碼統(tǒng)計特征參數(shù)輸出就是對一段DNA序列是否是編碼區(qū)域判別結(jié)果神經(jīng)網(wǎng)絡(luò)含有非線性映射能力,能夠發(fā)覺輸入和輸出之間高階相關(guān)性基因識別專題知識講座第29頁5、構(gòu)建基因模型基因識別最終任務(wù)是建立完整基因結(jié)構(gòu)模型一個理想基因識別程序應(yīng)該能夠發(fā)覺完整基因結(jié)構(gòu) (…,e1,i1,…,in-1,en,

…)ATG-外顯子1內(nèi)含子外顯子外顯子n-UAG基因識別專題知識講座第30頁基因剪切位點剪切給體(donor)位點-“gt”

接收體(acceptor)位點-“ag”基因識別專題知識講座第31頁基因可變剪切基因識別專題知識講座第32頁geneA基因可變剪切示意基因識別專題知識講座第33頁構(gòu)建基因模型方法

剪切位點形成外顯子和內(nèi)含子邊界

搜集候選外顯子→候選基因基因識別專題知識講座第34頁基因識別專題知識講座第35頁候選基因是一條非相交外顯子和內(nèi)含子鏈,表示為(i0,e1,i1,…,en,in)

其中ij代表內(nèi)含子(0jn)

el代表外顯子(1ln)

i0和in并非真實內(nèi)含子,它們分別代表基因兩側(cè)非編碼序列基因識別專題知識講座第36頁候選基因位于給定DNA序列,并滿足以下一致性條件:(1)全部外顯子加起來長度是3整數(shù)倍;(2)在各個外顯子內(nèi)部(除最終一個外顯子最終一個密碼子),沒有終止編碼;(3)第一個內(nèi)含子-外顯子邊界(i0,e1)是翻譯起始編碼,而最終一個外顯子-內(nèi)含子邊界(en,in)是終止編碼。基因識別專題知識講座第37頁位點圖(分層標(biāo)注剪切位點)另設(shè)兩個特殊頂點,即起點(source)和終點(sink)。從起點到終點任何一條路徑代表一個可能基因結(jié)構(gòu)。基因識別專題知識講座第38頁比如:位點圖上路徑基因識別專題知識講座第39頁候選基因所對應(yīng)道路圖中路徑基因識別專題知識講座第40頁求最優(yōu)路徑每一條弧附加一個權(quán)值 外顯子、內(nèi)含子度量每個節(jié)點附加權(quán)值

剪切位點度量

綜合評價

基因識別專題知識講座第41頁6、用于基因識別HMM模型隱馬爾柯夫模型HMM是一條狀態(tài)不可見馬爾柯夫鏈,其當(dāng)前狀態(tài)輸出是可見。每個狀態(tài)按照一定概率分布隨機地從字母表中取出字符并釋放。擴展隱藏馬爾柯夫模型(GHMMs)對HMM深入抽象,產(chǎn)生更普通馬爾柯夫模型,以分析復(fù)雜脊椎動物基因。基因識別專題知識講座第42頁(1)信號傳感器模型將剪切位點、起始編碼區(qū)域或者終止編碼區(qū)域看成是DNA序列上功效位點或者信號位點,用HMM來進行分析

基因識別專題知識講座第43頁內(nèi)含子區(qū)域

外顯子區(qū)域

保守位點

依據(jù)對比排列,形成含有19狀態(tài)HMM模型。基因識別專題知識講座第44頁對前一節(jié)所介紹HMM模型進行修改,能夠處理雙聯(lián)核苷酸問題,即將4種概率分布擴展為16種。假設(shè)一段序列為ACTGTC…,則P(ACTGTC…)=p1(A)p2(CA)p3(TC)p4(GT)p5(TG)p6(CT)…

其中p1是狀態(tài)1對于4種核苷酸概率,p2(xy)狀態(tài)2條件概率?;蜃R別專題知識講座第45頁(2)編碼區(qū)模型基因識別專題知識講座第46頁因為密碼子長度為3,所以密碼子模型最終一個狀態(tài)應(yīng)該最少為2階。對于2階狀態(tài),含有64種概率分布,可依據(jù)已知編碼區(qū)域進行統(tǒng)計計算而得到64種分布。比如:

p(ACA)=c(CAA)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)]p(CCA)=c(CAC)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)]p(GCA)=c(CAG)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)]p(TCA)=c(CAT)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)]

其中,c(xyz)是密碼子xyz計數(shù)。這么模型能夠檢測無結(jié)束編碼區(qū)域,因為對應(yīng)于三個結(jié)束編碼TAA、TAG和TGAp(ATA)、p(GTA)和p(ATG)自動為0?;蜃R別專題知識講座第47頁(3)組合模型基因識別專題知識講座第48頁將上述模型擴展,使之能夠識別含有多個外顯子基因。改進后模型見下列圖基因識別專題知識講座第49頁基因識別專題知識講座第50頁7、基于剪切比正確基因識別方法基礎(chǔ)思想是:利用數(shù)據(jù)庫中同源信息進行基因識別,包含DNA、RNA和蛋白質(zhì)數(shù)據(jù)庫。其方法是:首先經(jīng)過分析全部可能剪切接收體位點和剪切給體位點,構(gòu)建一組候選外顯子。然后深入分析候選外顯子,探查全部可能外顯子組合,尋找一個與已知目標(biāo)蛋白質(zhì)或其它表示序列最匹配組合基因識別專題知識講座第51頁一個半自動綜合方法識別基因過程:(1)選擇全部長度大于50bp并介于保守剪切接收位點和給體位點之間ORF,作為候選外顯子;

預(yù)選(2)對于候選外顯子計算其6目編碼度量值,并從大到小將它們排列起來;

減小搜索范圍(3)對照蛋白質(zhì)序列數(shù)據(jù)庫進行搜索,尋找相同體。

搜索,篩選基因識別專題知識講座第52頁8、基因識別程序介紹表5.7基因識別程序及訪問地址(HP—主頁;ES—E-mail服務(wù)器;WS—web服務(wù)器;CL—客戶/服務(wù)器協(xié)議;EX—有可執(zhí)行代碼;SC—有源代碼)基因識別專題知識講座第53頁表5.8各程序性能比較(敏感性(1)—被預(yù)測出真實編碼核酸%;敏感性(2)—被正確識別出編碼外顯子%;

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論