bioinf06bioinf06_第1頁
bioinf06bioinf06_第2頁
bioinf06bioinf06_第3頁
bioinf06bioinf06_第4頁
bioinf06bioinf06_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、生物信息軟件綜合實踐第六章基因預(yù)測和基因結(jié)構(gòu)分析Where are the Genes in the Genome?GAGAAAATCAATTGGTTTAGAAGGTTTGGACTCACTTGACAGGTTCAGTTGGAGACGATCATAGGTGGCT GCTGTGACAAAGGGAAATTGTGCTTTTCCAGCATGCTTACTGACCCTGATTTACCTCAGGAGTTTGAAAG GATGTCTTCCAAGCGACCAGCCTCTCCGTATGGGGAAGCAGATGGAGAGGTAGCCATGGTGACAAGCAGA CAGAAAGTGGAAGAAGAGGAGAGTGACGG

2、GCTCCCAGCCTTTCACCTTCCCTTGCATGTGAGTTTTCCCA ACAAGCCTCACTCTGAGGAATTTCAGCCAGTTTCTCTGCTGACGCAAGAGACTTGTGGCCATAGGACTCC CACTTCTCAGCACAATACAATGGAAGTTGATGGCAATAAAGTTATGTCTTCATTTGCCCCACACAACTCA TCTACCTCACCTCAGAAGGCAGAAGAAGGTGGGCGACAGAGTGGCGAGTCCTTGTCTAGTACAGCCCTGG GAACTCCTGAACGGCGCAAGGGCAGTTTAGCTGATGTTGTTGACA

3、CCTTGAAGCAGAGGAAAATGGAAGA GCTCATCAAAAACGAGCCGGAAGAAACCCCCAGTATTGAAAAACTACTCTCAAAGGACTGGAAAGACAAG CTTCTTGCAATGGGATCGGGGAACTTTGGCGAAATAAAAGGGACTCCCGAGAGCTTAGCTGAGAAAGAAA GGCAACTCATGGGTATGATCAACCAGCTGACCAGCCTCCGAGAGCAGCTGTTGGCTGCCCACGATGAGCA GAAGAAACTAGCTGCCTCTCAGATTGAGAAACAGCGTCAGCAAATGGAGCTGGCCAAGCAG

4、CAACAAGAA CAAATTGCAAGACAGCAGCAGCAGCTTCTACAGCAACAACACAAAATCAATTTGCTCCAGCAACAGATCC AGGTTCAAGGTCAGCTGCCGCCATTAATGATTCCCGTATTCCCTCCTGATCAACGGACACTGGCTGCAGC TGCCCAGCAAGGATTCCTCCTCCCTCCAGGCTTCAGCTATAAGGCTGGATGTAGTGACCCTTACCCTGTT CAGCTGATCCCAACTACCATGGCAGCTGCTGCCGCAGCAACACCAGGCTTAGGCCCACTCCAACTGCAGC AGTTAT

5、ATGCTGCCCAGCTAGCTGCAATGCAGGTATCTCCAGGAGGGAAGCTGCCAGGCATACCCCAAGG CAACCTTGGTGCTGCTGTATCTCCTACCAGCATTCACACAGACAAGAGCACAAACAGCCCACCACCCAAA AGCAAGGATGAAGTGGCACAGCCACTGAACCTATCAGCTAAACCCAAGACCTCTGATGGCAAATCACCCA CATCACCCACCTCTCCCCATATGCCAGCTCTGAGAATAAACAGTGGGGCAGGCCCCCTCAAAGCCTCTGT CCCAGCAGCGTTAGCTAGTCCT

6、TCAGCCAGAGTTAGCACAATAGGTTACTTAAATGACCATGATGCTGTC ACCAAGGCAATCCAAGAAGCTCGGCAAATGAAGGAGCAACTCCGACGGGAACAACAGGTGCTTGATGGGA AGGTGGCTGTTGTGAATAGTCTGGGTCTCAATAACTGCCGAACAGAAAAGGAAAAAACAACACTGGAGAG TCTGACTCAGCAACTGGCAGTTAAACAGAATGAAGAAGGAAAATTTAGCCATGCAATGATGGATTTCAAT CTGAGTGGAGATTCTGATGGAAGTGCTGGAGTCTCAGA

7、GTCAAGAATTTATAGGGAATCCCGAGGGCGTG GTAGCAATGAACCCCACATAAAGCGTCCAATGAATGCCTTCATGGTGTGGGCTAAAGATGAACGGAGAAA GATCCTTCAAGCCTTTCCTGACATGCACAACTCCAACATCAGCAAGATATTGGGATCTCGCTGGAAAGCT ATGACAAACCTAGAGAAACAGCCATATTATGAGGAGCAAGCCCGTCTCAGCAAGCAGCACCTGGAGAAGT ACCCTGACTATAAGTACAAGCCCAGGCCAAAGCGCACCTGCCTGGTGGATGGCA

8、AAAAGCTGCGCATTGG TGAATACAAGGCAATCATGCGCAACAGGCGGCAGGAAATGCGGCAGTACTTCAATGTTGGGCAACAAGCA CAGATCCCCATTGCCACTGCTGGTGTTGTGTACCCTGGAGCCATCGCCATGGCTGGGATGCCCTCCCCTC ACCTGCCCTCGGAGCACTCAAGCGTGTCTAGCAGCCCAGAGCCTGGGATGCCTGTTATCCAGAGCACTTA CGGTGTGAAAGGAGAGGAGCCACATATCAAAGAAGAGATACAGGCCGAGGACATCAATGGAGAAATTTAT

9、 GATGAGTACGACGAGGAAGAGGATGATCCAGATGTAGATTATGGGAGTGACAGTGAAAACCATATTGCAGGene a基因預(yù)測和基因結(jié)構(gòu)分析u 生物信息學(xué)中的重要內(nèi)容之一u 預(yù)測編碼蛋白質(zhì)的基因(Protein-coding gene)u 預(yù)測非編碼RNA基因(Non-coding RNA gene)(一) 基因預(yù)測的基本分析內(nèi)容u 排除重復(fù)序列(/)u 確定基因的結(jié)構(gòu)u 開放閱讀框(open reading frame, ORF)u 基因的調(diào)控區(qū)啟動子如果已知mRNA序列v 確定開放讀碼框(ORF)ORF

10、 finder/orffinder/輸入序列或注冊號,選擇 表顯示結(jié)果,進行選擇注意:本方法只適合于原核生物或mRNA序列(二) 基因預(yù)測的基本方法1. 序列相似性搜索(Extrinsic Approaches)基因組DNA序列A. 在6個閱讀框中進行翻譯并與蛋白質(zhì)數(shù)據(jù)庫中的序列進行比較分析(如Blastx)B. 對EST/TSA數(shù)據(jù)庫中同一生物的cDNA序列進行比較分析(如Blastn)確定基因數(shù)目和對應(yīng)的ORFSimilarity-based Gene Prediction: for sequences that encode a kn

11、own protein or a protein with a known homologu 分析舉例:水稻Xa21基因序列(U37133)v CDS:1-2677 bp處和3521-3921 bp處v Blastx分析結(jié)果(檢索蛋白質(zhì)數(shù)據(jù)庫):與水稻蛋白質(zhì)序列比較 有些蛋白質(zhì)序列是推測獲得的v Blastn分析結(jié)果(檢索est數(shù)據(jù)庫):與水稻cDNA序列比較 取決于數(shù)據(jù)庫中EST數(shù)據(jù)的數(shù)量和長度 通過“Distance tree of results ”查看與U37133序列同源的其它EST序列u 分析舉例:水稻Xa21基因序列(U37133)v CDS:1-2677 bp處和3521-39

12、21 bp處v 先通過Blastx獲得同源蛋白,再通過GeneWise(http:/www.ebi.ac.uk/Tools/psa/genewise/) 預(yù)測基因結(jié)構(gòu) 優(yōu)先選用最相似的蛋白(通過Total score排序,再看Query coverage、E- value) 使用其他物種的同源蛋白也可準確獲得基因結(jié)構(gòu)2. 根據(jù)模式序列預(yù)測基因(Ab initio Approaches)u 各種基因預(yù)測軟件u 取決于人們對已知基因結(jié)構(gòu)特征的認識u 采用統(tǒng)計學(xué)方法v 基于一個或多個已知序列模式對未知序列進行分類 啟動子結(jié)構(gòu) 外顯子、內(nèi)含子v子偏愛性v 對發(fā)現(xiàn)的模式進行統(tǒng)計檢驗u 原核生物(E.co

13、li)v 與RNA聚合酶互作位點(-10、-35區(qū))v LexA repressor的結(jié)合位點(啟動子區(qū)段)CTGNNNNNNNNNNCAGv 核糖體結(jié)合位點(轉(zhuǎn)錄起始位點后)GGAGGu 真核生物v 基因結(jié)構(gòu)復(fù)雜v 已知外顯子、內(nèi)含子外顯子邊界、啟動子序列特征根據(jù)模式序列預(yù)測基因u 目前還沒有一個基因預(yù)測工具可以完全正確地預(yù)測一個基因組中的所有基因(Mathe et al. 2002)u 不同的基因預(yù)測軟件分析結(jié)果有差異u 綜合多個基因預(yù)測軟件的分析結(jié)果人類基因數(shù)目1000005000025000根據(jù)模式序列預(yù)測基因u 分析工具需要能識別基因的不同結(jié)構(gòu)v exon, poly-A, prom

14、oterv 重復(fù)序列u 某些分析工具可選擇物種模式(matrix)作為參照比較對象u 某些分析工具可用不同的方式呈現(xiàn)分析結(jié)果(文字或圖形)分析結(jié)果(文字和圖像)分析舉例(1)Gene Findingu Softberry (/berry.phtml)的Gene Finding工具,分三大類v Gene Finding in Eukaryotav Operon and Gene Finding in Bacteriav Gene Finding in Virusesv 每一大類包括多個分析軟件在Softberry主頁選擇“Gene Findin

15、g in Eukaryota”類中的“FGENESH”在FGENESH網(wǎng)頁輸入D63710序列(fasta格式)、選擇物種(human)作為參照分析舉例(2)GenScanu GenScan(/GENSCAN.html )用三個物種模式作為參照評價v Vertebratev Arabidopsisv Maize在GenScan主頁輸入D63710序列、選擇物種(Vertebrate)作為參照分析結(jié)果(文字和圖像)分析舉例(2)GenScanA predicted exon is said to be exactly correct if it matche

16、s a true (annotated) exon precisely, i.e. both endpoints correct; partially correct if one endpoint is correct; overlapping if neither endpoint is correct, but it overlaps one or more true exons; and wrong if it does not overlap a true exon.分析舉例(3) AUGUSTUSu AUGUSTUS(http:/augustus.gobics.de/ )v 用于真

17、核基因的預(yù)測v 多種物種參照在AUGUSTUS的分析主頁選擇“web interface”輸入D63710的序列、選擇物種“H. sapiens” 分析結(jié)果分析舉例(4)GeneMarku GeneMark(/ )v 用于真核、原核和病毒等基因的預(yù)測v 多種物種參照在GeneMark的分析主頁選擇“Gene Prediction in Eukaryotes”在“Gene Prediction in Eukaryotes”網(wǎng)頁輸入D63710的序列、選擇物種“H. sapiens”,選擇輸出格式選項3. 利用比較基因組預(yù)測基因(Compa

18、rative Genomics Approaches)u 結(jié)合模式法和同源序列法u 親緣關(guān)系相近生物的基因序列具有保守性分析舉例N-S CAN/Twinscan (/nscan/)選擇N-SCAN在線分析(需免費注冊) 輸入待分析序列,選擇masking, clade, species和informantSoftBerry FGENESH+分析舉例 輸入待分析序列及同源序列,選擇對應(yīng)的物種分析結(jié)果 文字 圖形各種基因預(yù)測方法的比較/index.php/Results NGASP The nematode g

19、enome annotation assessment project Softwares AGENE, CRAIG, EUGENE, FGENESH, FGENESH+, G3A/mGene, GENEMARKHMM, SNAP, AUGUSTUS, ENSEMBL, EXONHUNTER, GENEID, GLIMMERHMM, MAKER, NSCAN, SGP2 Results基因預(yù)測存在主要問題v 假陽性(False Positive):多預(yù)測了假的編碼區(qū), 即在非編碼區(qū)預(yù)測出基因v 假(False Negative):漏掉了真實的編碼區(qū), 即將基因預(yù)測為非編碼區(qū)v 過界預(yù)測(Ove

20、r Prediction):由于基因邊界很難準確定位,預(yù)測經(jīng)常會超過實際邊界v 片段化(Fragmentation):內(nèi)含子太大的基因,在預(yù)測時容易斷裂成兩個或多個基因v 融合化(Fusion):距離過近的兩個或多個基因, 在預(yù)測時容易被融合成一個很大的基因(三)基因精細結(jié)構(gòu)分析NNPP分析轉(zhuǎn)錄起始位點/seq_tools/promoter.html分析結(jié)果:分析轉(zhuǎn)錄起始位點Promoter 2.0 Prediction Serverhttp:/www.cbs.dtu.dk/services/Promoter/Promoter2.0 predicts

21、 transcription start sites of vertebrate PolII promoters in DNA sequences.在“Promoter 2.0”網(wǎng)頁粘貼D63710序列 分析結(jié)果分析轉(zhuǎn)錄起始位點PromID: human promoter prediction by deep learning.sa/PromID/index.html分析轉(zhuǎn)錄因子結(jié)合位點Cis-acting element(順式元件)和trans- acting element(反式元件)的互作分析舉例JASPARhttp:/jaspar.gen

22、/選擇物種分類,在網(wǎng)頁左側(cè)選擇轉(zhuǎn)錄因子結(jié)合位點模型,右側(cè)粘貼序列(FASTA格式) 分析結(jié)果分析舉例PROSCAN/molbio/proscan/在Proscan網(wǎng)頁粘貼序列(FASTA格式) 分析結(jié)果 分析結(jié)果(四)非編碼RNA基因預(yù)測/wiki/List_of_RNA_structure_ prediction_softwarev 包括多種RNA結(jié)構(gòu)預(yù)測及基因鑒別軟件v 假陽性是最大的問題A practical guide to the art of RNA gene pred

23、ictionGene-finding software and resourcesSoftware Tutorials Books綜合多種方法且 醞 啦 utAssenihledScaffoldsTE MaskingMaskedGenon1-e勹G已1.e IPredictionSmall RNA Data & R比m NONCODEtRNA.江 a1l-5E RNAmmeBLASTP,Sign alP, 丘 getP, tmHMM,InterProSc.fil1魚Ps eu doch ro n1oso m encRNAsGene Models& Functional Ass電nnen tVi

24、sualizationTra 平 so nPSI 氐 嚴 兇 aska LTR壓 運&FindltrGene Finders: FgenesH GeneID Gensca!ll啦 n me rHMMuoP品P巳dVNH呂IOther Pro anlS BLAST suituoi:oeuyullG四GeneWise TopHat /Bio氏 ope cllfflinksEvidences EST.databasePiotein databaseRNA-seq data Rl.IA-PET data半. l.1AZ 十沁 NG 窟AGR ICU素L ru R A丈L u N I V學(xué)ERS ,六(

25、五)miRNA靶基因預(yù)測MethodType of MethodRefMethod AvailabilityData availabilityResourceStark et. alComplementary(Stark et. al., 2003) Online searchYeshttp:/www.russell.embl.de/miRNAsmiRandaComplementary(John et al., 2004)DownloadYesmiRanda MiRBaseComplementary(Enright et al., 2003) Onl

26、ine searchYeshttp:/microrna.sanger.ac.ukmiRWalk-Online searchYeshttp:/www.umm.uni- heidelberg.de/apps/zmf/mirwalk/index.htmlTarget Scan Seed Complementary (Lewis et al., 2005) Online searchYesDIANAmicroTThermodynamics(Kirakidou et al.,2004)DownloadYeshttp:/diana.cslab.ece.ntu

27、a.gr/PicTarThermodynamics(Krek et al., 2005)N/AYeshttp:/pictar.mdc-berlin.de/RNAHybridThermodynamics &Statistical model(Rehmsmeier et al., 2004)DownloadYeshttp:/bibiserv.techfak.uni-bielefeld.de/rnahybridmiRGen+Baynesian Inference(Huang et al.,2007b)Mathlab CodeYes/genmirMiT

28、argetSupport VectorMachineMiRtaget2Support VectorMachine(Kim et al. 2006)Online searchYeshttp:/cbit.snu.ac.kr/miTarget(Wang and El Naqa, Online searchYes 2008)TarBaseExperimentallyValidated Targets(Sethupathy et al., 2006)N/AYeshttp:/diana.cslab.ece.ntua.gr/tarbase/From https:/www.exi

29、/microrna-target-prediction(五)miRNA靶基因預(yù)測miRDB/miRDB/mining.htmlmiRecords/miRecords/v 主要預(yù)測動物miRNA靶基因TargetRNA2/btjaden/TargetRNA2/v 只能預(yù)測細菌sRNA靶基因WMD3/cgi-bin/webapp.cgiv 主要用于預(yù)測植物miRNA靶基因基因預(yù)測或基因結(jié)構(gòu)分析原則1. Similarity-based or Comparative BLAST - Do other organisms have similar sequence? (Is sequence similar to known gene or protein)2. Ab initio = “from the beginning” Predict without explicit comparison with cDNA or proteins via “rule-based” gene models - but rules a

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論