版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
基因識別專題知識講座基因識別專題知識講座第1頁基因識別基因識別是生物信息學(xué)領(lǐng)域里一個主要研究內(nèi)容基因識別問題,在近幾年受到廣泛重視當(dāng)人類基因組研究進入一個系統(tǒng)測序階段時,急需可靠自動基因組序列翻譯解釋技術(shù),以處理大量已測定但未知功效或未經(jīng)注釋DNA序列基因識別專題知識講座第2頁原核基因識別 重點在于識別編碼區(qū)域基因識別專題知識講座第3頁非翻譯區(qū)域(untranslatedregions,UTR)編碼區(qū)域兩端DNA,有一個別被轉(zhuǎn)錄,不過不被翻譯,這一個別稱為非翻譯區(qū)域
5’UTR---基因上游區(qū)域非翻譯區(qū)域3’UTR---基因下游區(qū)域非翻譯區(qū)域基因識別專題知識講座第4頁對于任何給定核酸序列(單鏈DNA或mRNA),依據(jù)密碼子起始位置,能夠按照三種方式進行解釋。比如,序列ATTCGATCGCAA這三種閱讀次序稱為閱讀框(readingframes)CAA
A
ATTCGATCGATTCGATCGCAAATTCGATCGCA(1)(3)(2)基因識別專題知識講座第5頁一個開放閱讀框(ORF,openreadingframe)是一個沒有終止編碼密碼子序列。原核基因識別任務(wù)重點是識別開放閱讀框,或者說識別長編碼區(qū)域。基因識別專題知識講座第6頁基于基因密碼子特征識別方法區(qū)分編碼區(qū)域與非編碼區(qū)域一個方法是檢驗終止密碼子出現(xiàn)頻率終止密碼子出現(xiàn)期望次數(shù)為:每21個(64/3)密碼子出現(xiàn)一次終止密碼子
基因識別專題知識講座第7頁基礎(chǔ)思想:假如能夠找到一個比較長序列,其對應(yīng)密碼子序列不含終止密碼子,則這段序列可能就是編碼區(qū)域。基礎(chǔ)算法:掃描給定DNA序列,在三個不一樣閱讀框中尋找較長ORF。碰到終止密碼子以后,回頭尋找起始密碼子。這種算法過于簡單,不適合于處理短ORF或者交疊ORF?;蜃R別專題知識講座第8頁識別編碼區(qū)域另一個方法是分析各種密碼子出現(xiàn)頻率
將一個隨機均勻分布DNA序列翻譯成氨基酸序列,則在氨基酸序列中上述3種氨基酸出現(xiàn)百分比應(yīng)該為6:4:1比如,亮氨酸、丙氨酸、色氨酸分別有6個、4個和1個密碼子不過在真實氨基酸序列中,上述百分比并不正確這說明DNA編碼區(qū)域并非隨機基因識別專題知識講座第9頁假設(shè)在一條DNA序列中已經(jīng)找到全部ORF,那么能夠利用密碼子頻率深入?yún)^(qū)分編碼ORF和非編碼ORF馬爾柯夫鏈模型利用這種方法,能夠計算一個ORF成為編碼區(qū)域可能性?;蜃R別專題知識講座第10頁一個簡單統(tǒng)計模型
假設(shè)相繼密碼子是獨立,不存在前后依賴關(guān)系。
令fabc代表密碼子abc在編碼區(qū)域出現(xiàn)頻率 給定序列
a1,b1,c1,a2,b2,c2,…,an+1,bn+1
從密碼子a1b1c1開始閱讀框,其n個密碼子出現(xiàn)概率為基因識別專題知識講座第11頁第二種和第三種閱讀框n個密碼子出現(xiàn)概率分別為基因識別專題知識講座第12頁第i個閱讀框成為編碼閱讀框概率 計算:算法: 在序列上移動長度為n窗口,計算Pi
依據(jù)Pi值識別編碼閱讀框基因識別專題知識講座第13頁基于編碼區(qū)域堿基組成特征識別方法編碼序列與非編碼序列在堿基組成上有區(qū)分單個堿基組成百分比多個堿基組成經(jīng)過統(tǒng)計分析識別編碼序列基因識別專題知識講座第14頁分析實例基因識別專題知識講座第15頁基因識別專題知識講座第16頁2、真核基因識別問題
真核基因遠比原核基因復(fù)雜:首先,真核基因編碼區(qū)域是非連續(xù),編碼區(qū)域被分割為若干個小片段。另首先,真核基因含有愈加豐富基因調(diào)控信息,這些信息主要分布在基因上游區(qū)域?;蜃R別專題知識講座第17頁基因識別專題知識講座第18頁基因識別專題知識講座第19頁基因識別基礎(chǔ)思緒
找出基因兩端功效區(qū)域:
轉(zhuǎn)錄開啟區(qū)終止區(qū)在開啟區(qū)下游位置尋找翻譯起始密碼子識別轉(zhuǎn)錄剪切位點剪切給體位點剪切接收體位點基因識別專題知識講座第20頁各種不一樣方法有不一樣適應(yīng)面,而不一樣方法有時能夠結(jié)合起來以提升基因識別準(zhǔn)確率。關(guān)鍵問題是怎樣提升一個識別算法敏感性(sensitivity,Sn)和特異性(specificity,Sp)。
基因識別專題知識講座第21頁3、基因識別主要方法兩大類識別方法:從頭算方法(或基于統(tǒng)計方法)依據(jù)蛋白質(zhì)編碼基因普通性質(zhì)和特征進行識別,經(jīng)過統(tǒng)計值區(qū)分外顯子、內(nèi)含子及基因間區(qū)域
基于同源序列比較方法利用數(shù)據(jù)庫中現(xiàn)有與基因相關(guān)信息(如EST序列、蛋白質(zhì)序列),經(jīng)過同源比較,幫助發(fā)覺新基因。最理想方法是綜合兩大類方法優(yōu)點,開發(fā)混合算法?;蜃R別專題知識講座第22頁基因識別方法有:(1)基于規(guī)則系統(tǒng)(2)語義學(xué)方法(3)線性區(qū)分分析(LDA)(4)決議樹
(5)動態(tài)規(guī)劃
(6)隱馬爾柯夫模型
(7)剪切對比排列(splicedalignment)基因識別專題知識講座第23頁4、編碼區(qū)域識別兩類方法:基于特征信號識別內(nèi)部外顯子 剪切位點5’端外顯子一定在關(guān)鍵開啟子下游3’端外顯子下游包含多聚A信號和終止編碼基于統(tǒng)計度量方法依據(jù)密碼子使用傾向雙聯(lián)密碼統(tǒng)計度量等基因識別專題知識講座第24頁
在一個基因中,第i個(i=1,64)密碼子相對使用傾向RSCUi定義以下:Obsi是該基因中第i個密碼子實際出現(xiàn)次數(shù)
Expi是對應(yīng)密碼子期望出現(xiàn)次數(shù)
aai是統(tǒng)計第i個密碼子出現(xiàn)次數(shù) syni是全部與第i個密碼子同義密碼子出現(xiàn)次數(shù)RSCU大于1表示對應(yīng)密碼子出現(xiàn)次數(shù)比期望次數(shù)高,而小于1則表示出現(xiàn)次數(shù)相對較少。(5-66)(5-65)
密碼子使用傾向基因識別專題知識講座第25頁設(shè)一段DNA序列為S,從S第i位到第j位雙聯(lián)密碼統(tǒng)計度量IF6(i,j)定義為:
fk是從第k位開始雙聯(lián)密碼頻率
Fk是該雙聯(lián)密碼隨機出現(xiàn)頻率(5-67)雙聯(lián)密碼統(tǒng)計度量基因識別專題知識講座第26頁經(jīng)過相同搜索發(fā)覺編碼區(qū)域或者外顯子EST(ExpressedSequenceTags)cDNA蛋白質(zhì)序列基因識別專題知識講座第27頁當(dāng)前大多數(shù)預(yù)測程序都將數(shù)據(jù)庫相同性搜索信息結(jié)合進基因預(yù)測過程同時考慮序列特征信號和統(tǒng)計度量
GRAIL
用人工神經(jīng)網(wǎng)絡(luò)識別編碼區(qū)域基因識別專題知識講座第28頁輸入是一系列反應(yīng)功效位點信號特征和序列編碼統(tǒng)計特征參數(shù)輸出就是對一段DNA序列是否是編碼區(qū)域判別結(jié)果神經(jīng)網(wǎng)絡(luò)含有非線性映射能力,能夠發(fā)覺輸入和輸出之間高階相關(guān)性基因識別專題知識講座第29頁5、構(gòu)建基因模型基因識別最終任務(wù)是建立完整基因結(jié)構(gòu)模型一個理想基因識別程序應(yīng)該能夠發(fā)覺完整基因結(jié)構(gòu) (…,e1,i1,…,in-1,en,
…)ATG-外顯子1內(nèi)含子外顯子外顯子n-UAG基因識別專題知識講座第30頁基因剪切位點剪切給體(donor)位點-“gt”
接收體(acceptor)位點-“ag”基因識別專題知識講座第31頁基因可變剪切基因識別專題知識講座第32頁geneA基因可變剪切示意基因識別專題知識講座第33頁構(gòu)建基因模型方法
剪切位點形成外顯子和內(nèi)含子邊界
搜集候選外顯子→候選基因基因識別專題知識講座第34頁基因識別專題知識講座第35頁候選基因是一條非相交外顯子和內(nèi)含子鏈,表示為(i0,e1,i1,…,en,in)
其中ij代表內(nèi)含子(0jn)
el代表外顯子(1ln)
i0和in并非真實內(nèi)含子,它們分別代表基因兩側(cè)非編碼序列基因識別專題知識講座第36頁候選基因位于給定DNA序列,并滿足以下一致性條件:(1)全部外顯子加起來長度是3整數(shù)倍;(2)在各個外顯子內(nèi)部(除最終一個外顯子最終一個密碼子),沒有終止編碼;(3)第一個內(nèi)含子-外顯子邊界(i0,e1)是翻譯起始編碼,而最終一個外顯子-內(nèi)含子邊界(en,in)是終止編碼。基因識別專題知識講座第37頁位點圖(分層標(biāo)注剪切位點)另設(shè)兩個特殊頂點,即起點(source)和終點(sink)。從起點到終點任何一條路徑代表一個可能基因結(jié)構(gòu)。基因識別專題知識講座第38頁比如:位點圖上路徑基因識別專題知識講座第39頁候選基因所對應(yīng)道路圖中路徑基因識別專題知識講座第40頁求最優(yōu)路徑每一條弧附加一個權(quán)值 外顯子、內(nèi)含子度量每個節(jié)點附加權(quán)值
剪切位點度量
綜合評價
基因識別專題知識講座第41頁6、用于基因識別HMM模型隱馬爾柯夫模型HMM是一條狀態(tài)不可見馬爾柯夫鏈,其當(dāng)前狀態(tài)輸出是可見。每個狀態(tài)按照一定概率分布隨機地從字母表中取出字符并釋放。擴展隱藏馬爾柯夫模型(GHMMs)對HMM深入抽象,產(chǎn)生更普通馬爾柯夫模型,以分析復(fù)雜脊椎動物基因。基因識別專題知識講座第42頁(1)信號傳感器模型將剪切位點、起始編碼區(qū)域或者終止編碼區(qū)域看成是DNA序列上功效位點或者信號位點,用HMM來進行分析
基因識別專題知識講座第43頁內(nèi)含子區(qū)域
外顯子區(qū)域
保守位點
依據(jù)對比排列,形成含有19狀態(tài)HMM模型。基因識別專題知識講座第44頁對前一節(jié)所介紹HMM模型進行修改,能夠處理雙聯(lián)核苷酸問題,即將4種概率分布擴展為16種。假設(shè)一段序列為ACTGTC…,則P(ACTGTC…)=p1(A)p2(CA)p3(TC)p4(GT)p5(TG)p6(CT)…
其中p1是狀態(tài)1對于4種核苷酸概率,p2(xy)狀態(tài)2條件概率?;蜃R別專題知識講座第45頁(2)編碼區(qū)模型基因識別專題知識講座第46頁因為密碼子長度為3,所以密碼子模型最終一個狀態(tài)應(yīng)該最少為2階。對于2階狀態(tài),含有64種概率分布,可依據(jù)已知編碼區(qū)域進行統(tǒng)計計算而得到64種分布。比如:
p(ACA)=c(CAA)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)]p(CCA)=c(CAC)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)]p(GCA)=c(CAG)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)]p(TCA)=c(CAT)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)]
其中,c(xyz)是密碼子xyz計數(shù)。這么模型能夠檢測無結(jié)束編碼區(qū)域,因為對應(yīng)于三個結(jié)束編碼TAA、TAG和TGAp(ATA)、p(GTA)和p(ATG)自動為0?;蜃R別專題知識講座第47頁(3)組合模型基因識別專題知識講座第48頁將上述模型擴展,使之能夠識別含有多個外顯子基因。改進后模型見下列圖基因識別專題知識講座第49頁基因識別專題知識講座第50頁7、基于剪切比正確基因識別方法基礎(chǔ)思想是:利用數(shù)據(jù)庫中同源信息進行基因識別,包含DNA、RNA和蛋白質(zhì)數(shù)據(jù)庫。其方法是:首先經(jīng)過分析全部可能剪切接收體位點和剪切給體位點,構(gòu)建一組候選外顯子。然后深入分析候選外顯子,探查全部可能外顯子組合,尋找一個與已知目標(biāo)蛋白質(zhì)或其它表示序列最匹配組合基因識別專題知識講座第51頁一個半自動綜合方法識別基因過程:(1)選擇全部長度大于50bp并介于保守剪切接收位點和給體位點之間ORF,作為候選外顯子;
預(yù)選(2)對于候選外顯子計算其6目編碼度量值,并從大到小將它們排列起來;
減小搜索范圍(3)對照蛋白質(zhì)序列數(shù)據(jù)庫進行搜索,尋找相同體。
搜索,篩選基因識別專題知識講座第52頁8、基因識別程序介紹表5.7基因識別程序及訪問地址(HP—主頁;ES—E-mail服務(wù)器;WS—web服務(wù)器;CL—客戶/服務(wù)器協(xié)議;EX—有可執(zhí)行代碼;SC—有源代碼)基因識別專題知識講座第53頁表5.8各程序性能比較(敏感性(1)—被預(yù)測出真實編碼核酸%;敏感性(2)—被正確識別出編碼外顯子%;
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 支票作為借款抵押物的合同3篇
- 房屋買賣合同范本版3篇
- 方式購物合同格式3篇
- 改擴建工程施工合同的培訓(xùn)資料3篇
- 招標(biāo)方案范本3篇
- 安全騎行承諾電動車安全責(zé)任3篇
- 文化創(chuàng)意產(chǎn)業(yè)基地合作協(xié)議3篇
- 新版無擔(dān)保借款合同模板3篇
- 景觀設(shè)計測量員勞動合同
- 港口工程委托施工合同
- (完整版)公務(wù)員考試行測答題卡-高清A4標(biāo)準(zhǔn)打印版
- 醫(yī)療質(zhì)量安全管理體系建設(shè)方案
- MOOC 工程制圖-北京科技大學(xué) 中國大學(xué)慕課答案
- 《會展英語》課程教學(xué)大綱
- 礦山安全生產(chǎn)管理經(jīng)驗分享
- 醫(yī)美行業(yè)監(jiān)管政策與競爭環(huán)境
- 2022-2023學(xué)年北京市豐臺區(qū)八年級(上)期末歷史試題(含答案)
- 江蘇省南京市玄武區(qū)2023年數(shù)學(xué)七上期末統(tǒng)考試題含解析
- 生物安全教學(xué)課件
- 北京市西城區(qū)2022-2023學(xué)年七年級(上)期末數(shù)學(xué)試卷(人教版 含答案)
- 《精益生產(chǎn)豐田》課件
評論
0/150
提交評論