生物信息學(xué)講義第六章

上傳人：卓*** IP屬地：廣東上傳時間：2023-06-02 格式：PPT 頁數(shù)：112 大?。?.79MB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩107頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

生物信息學(xué)講義第六章第一頁，共一百一十二頁，編輯于2023年，星期日§6.1基因及基因組第二頁，共一百一十二頁，編輯于2023年，星期日基因的定義1、基因是一段與多肽鏈或功能RNA產(chǎn)生有關(guān)的DNA片段，包括編碼區(qū)前的引導(dǎo)序列、編碼區(qū)后的尾部序列、編碼區(qū)內(nèi)的插入序列和編碼區(qū)序列。2、基因是編碼一條多肽鏈或功能RNA(如rRNA、tRNA)所必需的全部核苷酸序列，是DNA分子鏈上特定區(qū)域。3、基因是遺傳信息的一種獨立單位?；虻母拍铍S著科學(xué)的發(fā)展而不斷發(fā)展，迄今為止，仍有各種說法。Todaywhenwespeakofageneforsomemalady,aregulatorygene,astructuralgene,oragenefrequency,itisentirelypossiblethatwearedeployingdifferentgeneconceptseventhoughweareusingthesameterm.——M.R.Dietrich，2000從分子生物學(xué)的角度而言，一般認(rèn)為基因是負(fù)載特定生物遺傳信息的DNA分子片段，基因在一定條件下能夠表達(dá)這種遺傳信息，產(chǎn)生特定的生命功能。第三頁，共一百一十二頁，編輯于2023年，星期日基因的種類結(jié)構(gòu)基因(structuralgene)、調(diào)控基因(regulatorygene)

二者都可以轉(zhuǎn)錄成mRNA，并可被翻譯成多肽鏈。調(diào)控基因的作用是調(diào)控其它基因的活性，轉(zhuǎn)錄成的mRNA翻譯成阻遏蛋白質(zhì)或激活蛋白質(zhì)。rRNA基因和tRNA基因

二者只轉(zhuǎn)錄產(chǎn)生相應(yīng)的RNA而不翻譯成多肽鏈。啟動子(promotor)和操縱基因(operator)

啟動子是轉(zhuǎn)錄時RNA聚合酶與DNA結(jié)合的部位；操縱基因是調(diào)控基因產(chǎn)物(如阻遏蛋白質(zhì)或激活蛋白質(zhì))與DNA結(jié)合的部位；嚴(yán)格地講，二者只是不轉(zhuǎn)錄的DNA片段，不能稱為基因。第四頁，共一百一十二頁，編輯于2023年，星期日什么是基因組(genome)?

基因組（genome）是指一個細(xì)胞或病毒包含的全部遺傳信息的總和。絕大部分基因組，包括所有的細(xì)胞生命形式的基因組，是由DNA組成；一些病毒具有RNA基因組;

真核生物：指一個物種的單倍體染色體所含有的一整套基因；

原核生物：一般只有一個環(huán)狀DNA分子，其上所有的基因為一個基因組；真核生物細(xì)胞中的細(xì)胞器(如葉綠體、線粒體等)中的DNA也為環(huán)狀，構(gòu)成葉綠體基因組、線粒體基因組?；蚪M的大小用堿基對(basepair，bp)的數(shù)量來表示：103為kb，106為Mb。第五頁，共一百一十二頁，編輯于2023年，星期日基因組大小與物種的關(guān)系基因組的大小大致上與物種進(jìn)化的復(fù)雜性相關(guān)；大多數(shù)真核生物的基因組都比原核生物的基因組大，比原核生物的基因組復(fù)雜；隨著動物或植物進(jìn)化程度的上升，每個單倍體的DNA含量一般趨于增加，但是存在例外（C值佯謬）；思考：為什么會出現(xiàn)“C值佯謬”？第六頁，共一百一十二頁，編輯于2023年，星期日基因組基因組大小(kb)型式病毒MS4單鏈RNASV405環(huán)狀雙鏈DNAX1745環(huán)狀單鏈DNASARS-CoV30單鏈RNA單純皰疹病毒152線性雙鏈DNAT2、T4、T6165天花267細(xì)菌支原體(M.hominis)760大腸桿菌(E.coli)4,600環(huán)狀雙鏈DNA真核生物單倍體染色體數(shù)目酵母(S.cerevisiae)13,00016線蟲(C.elegans)100,0006擬南芥(A.thaliana)100,0005果蠅(D.melanognater)165,0004人(H.sapiens)3,000,00023玉米(Z.mays)4,500,00010蠑螈(A.spp.)76,000,00014不同生物基因組大小的比較第七頁，共一百一十二頁，編輯于2023年，星期日基因數(shù)目與物種的關(guān)系基因數(shù)目的多少大致上與物種進(jìn)化的復(fù)雜性相關(guān)；在高等動植物中，巨大的基因組并不意味著有巨量的基因數(shù)目。人類究竟有多少個基因？理論上：根據(jù)基因組的大小，可具有106個基因“生物體的復(fù)雜性并不是簡單地與基因數(shù)量相關(guān)聯(lián)的?！?G.Rubin)5萬，6萬，7萬，8萬，14萬！……？

4萬，3萬，……？打賭！基因數(shù)目猜獎(GeneSweepstake)第八頁，共一百一十二頁，編輯于2023年，星期日生物學(xué)家們?yōu)槿祟惢虻臄?shù)目打賭生物學(xué)家們對基因組里到底有多少基因的猜測一直有極大的不同。2000年，在紐約冷泉港召開的一個會議上，他們設(shè)立了一美元一個（次）的基因數(shù)目賭注。勝者將于2003年揭曉，他除了可獲得全部賭金外，還可得到一本由J.Watson親筆簽名的皮革封面《雙螺旋》一書。如果基因組是生命的天書，那么基因就是寫成這本書的詞匯。生物學(xué)家們一直假設(shè)，微生物的故事較短，而人類的故事則是一部巨作，人類擁有8萬到10萬個基因。但是UCBerkly的果蠅基因組計劃的主任G.Rubin指出，果蠅的基因比我們所認(rèn)為的最簡單的線蟲少了5,000個。他警告說：“生物體的復(fù)雜性并不是簡單地與基因數(shù)量相關(guān)聯(lián)的?！?/p>

德國分子生物技術(shù)研究所的A.Rosenthal說，我們得出的結(jié)論是整個基因組有不多于4萬個基因。法國的分子遺傳學(xué)家H.R.Crollius通過比較現(xiàn)有的人類基因序列與淡水河豚基因序列，提出了更低的人類基因數(shù)估計：在27,700與34,300之間。華盛頓大學(xué)的基因?qū)W家P.Green提出人類基因數(shù)大約為35,000。美國國家人類基因組研究所主任F.Collins表示他同意Green的估計，將他1美元的賭金下在48,011個基因上。但Rockville的基因組研究所(TIGR)的J.

Quackenbush根據(jù)TIGR的人類基因指數(shù)的估計，將他的1美元賭在118,259個基因上。加州IncyteGenomics公司的S.LaBrie賭的基因數(shù)是153,478個，該公司在1999年9月曾宣布人類基因至少有14萬個。但是支持人類基因數(shù)目是一個較小數(shù)的科學(xué)家們也不灰心，他們爭論說生物體的復(fù)雜性來自于基因如何被管理或表達(dá)的，而不是基因數(shù)目本身。Rosenthal解釋說：“我們不需要那么多的基因成為高等動物，”他賭的是38,000個。你賭多少呢？第九頁，共一百一十二頁，編輯于2023年，星期日基因輪盤賭(GeneSweepstake)/Genesweep/

TheGeneSweepstakewillrunbetween2000and2003.Therulesare:Itcosts$1tomakeabetin2000,$5in2001and$20in2002.Betsareforonenumber.Closestnumberwins,andincaseofties,thepotissplit.Ageneisasetofconnectedtranscripts.Atranscriptisasetofexonsviatranscriptionfollowed(optionally)bypre-mRNAsplicing.Twotranscriptsareconnectediftheyshareatleastpartofoneexoninthegenomiccoordinates.Atleastonetranscriptmustbeexpressedoutsideofthenucleusandonetranscriptmustencodeaprotein.AssessmentofthemethodusedtodeterminethegenewilloccurbyvotingatColdSpringHarborGenomeMeeting2002.Researcherswillbeinvitedtosubmittheirmethodstothecommunityatthistime.Assessmentofthegenenumberwilloccuronthe2003CSHLGenomemeeting.Peoplebettingshouldwritetheirname,emailandnumberintheGeneSweepstakebook,heldatColdSpringHarbor.Onebetperperson,peryear.Yeardefinedasacalendaryear.Nopencilbets(ie,youcan'tchangeyournumber).Bets165Mean61,710Lowest27,462Highest153,478LastGenesweepVotesVotedistribution第十頁，共一百一十二頁，編輯于2023年，星期日WhoswepttheGeneSweepstake?Thewinnerwasannouncedatlastweek'sHomoSapiensgeneticsmeetingatColdSpringHarborLaboratory,NewYork.Thegenechamp,LeeRowen,whodirectsasequencingprojectattheInstituteforSystemsBiologyinSeattle,Washington-beat460otherhopefulstotakehomepartofthecashpot.Rowen'swagerat25,947isclosesttothecurrentreckoninginageneticdatabasecalledEnsembl,of24,847.Likeallgoodgamblers,hernumberwas"astab";onerunner-uppicked27,462becausethe27April,1962washisbirthday.Recognizinggenes-regionsofDNAthatcodeforproteins-hasprovedtougherthanexpected.Onereasonisthatpredictorprograms,whichtrawlthroughDNAforlandmarksequencescharacteristicofagene,arenotoriouslyunreliable.HumangenenumberwagerwonGeneticistsdrawsweepstakedespiteuncertaintyoverfinaltally

3June2003第十一頁，共一百一十二頁，編輯于2023年，星期日人類基因數(shù)目之謎目前已經(jīng)發(fā)現(xiàn)和定位了26,000多個功能基因，其中尚有42%的基因尚不知道功能。原先曾經(jīng)預(yù)測人類約有14萬個基因，Celera公司現(xiàn)將人類基因總數(shù)定在26,383到39,114個之間，只是線蟲或果蠅基因數(shù)量的兩倍，人有而鼠沒有的基因只有300個。根據(jù)Ensembl數(shù)據(jù)庫得到的計算結(jié)果，目前的最新估計數(shù)目是24,847。基因組的大小和基因的數(shù)量在生命進(jìn)化上可能不具有特別重大的意義；人類的基因較其他生物體更“有效”。人類的復(fù)雜性更主要的體現(xiàn)在蛋白質(zhì)的復(fù)雜網(wǎng)絡(luò)中，即蛋白質(zhì)就是構(gòu)成生命的基本構(gòu)件。Celera公司首席科學(xué)家Venter認(rèn)為：“大部分的生物學(xué)行為發(fā)生在蛋白質(zhì)水平，而不是基因水平?！钡谑摚惨话僖皇?，編輯于2023年，星期日§6.2高等真核生物基因結(jié)構(gòu)與基因預(yù)測簡介第十三頁，共一百一十二頁，編輯于2023年，星期日人類基因組的物理結(jié)構(gòu)

核基因組(nucleargenome)：由大約30億bp組成，分為24條線性DNA分子(55~250Mb)，分別包含在24條不同的染色體中(22條常染色體和2條性染色體X、Y)

線粒體基因組(mitochondriongenome)：長為16,569bp的環(huán)狀DNA分子，位于產(chǎn)生能量的細(xì)胞器——線粒體中§6.2.1真核生物的基因結(jié)構(gòu)第十四頁，共一百一十二頁，編輯于2023年，星期日第十五頁，共一百一十二頁，編輯于2023年，星期日基因家族、假基因多數(shù)真核生物基因表現(xiàn)為多拷貝(某些基因多次重復(fù))，稱為基因家族（genefamily）；真核生物的基因多拷貝為大量產(chǎn)生RNA、蛋白質(zhì)所需要；或者可以在不同組織、不同發(fā)育階段被表達(dá)；基因家族產(chǎn)生的推測：進(jìn)化過程中的基因加倍；由于突變導(dǎo)致失去功能的基因拷貝叫假基因（pseudogene）。假基因：與功能性基因密切相關(guān)的DNA系列，但由于缺失、插入和無義突變失去閱讀框架而不能編碼蛋白質(zhì)產(chǎn)物。有些人類假基因可以轉(zhuǎn)錄但不能翻譯成蛋白質(zhì)。假基因的兩種類型：（1）、由于一種基因的加倍而不能表達(dá)，但保留原來親本基因的外顯子及內(nèi)含子；（2）、僅含有親本基因的外顯子，源于mRNA并通過逆轉(zhuǎn)錄而重新整合進(jìn)基因組的。第十六頁，共一百一十二頁，編輯于2023年，星期日重復(fù)DNA序列高度重復(fù)DNA序列是多數(shù)真核生物基因組的主要成分超過90％為重復(fù)序列，不編碼mRNA前體或其它RNA。（個體間的重復(fù)序列有巨大差異

－－>DNA指紋）重復(fù)序列分為3類：高度重復(fù)序列、中等重復(fù)序列、低重復(fù)序列。目前的一些認(rèn)識：（1）、GC含量低，AT含量高。（AT的氫鍵弱）；（2）、3'端和5'端有直接重復(fù)序列的存在。有利于形成環(huán)狀結(jié)構(gòu)。第十七頁，共一百一十二頁，編輯于2023年，星期日真核生物的基因結(jié)構(gòu)內(nèi)含子(intron)和外顯子(exon)

真核生物的基因一般為斷裂基因(interruptedgene)，由內(nèi)含子和外顯子組成，編碼區(qū)被內(nèi)含子分隔成若干段；內(nèi)含子－外顯子結(jié)構(gòu)的意義：提供編碼區(qū)進(jìn)行重組的機(jī)會，產(chǎn)生新基因，有利于真核生物的進(jìn)化。IntergenicregionGeneExonIntron例子：人類第21號染色體的Contig3部分(長3,450,497bp)基因“TRPC7”的總長為62,668bp，其中編碼部分總長為3,345bp，由25個外顯子組成，長度范圍48~354bp。第十八頁，共一百一十二頁，編輯于2023年，星期日人類結(jié)構(gòu)基因的結(jié)構(gòu)示意圖第十九頁，共一百一十二頁，編輯于2023年，星期日人類結(jié)構(gòu)基因的結(jié)構(gòu)示意圖人類結(jié)構(gòu)基因的結(jié)構(gòu)包括4個區(qū)域：（1）、外顯子；（2）、內(nèi)含子；（3）、前導(dǎo)區(qū)（位于編碼區(qū)上游，相當(dāng)于mRNA5’端非編碼區(qū)（非翻譯區(qū)））；（4）、調(diào)節(jié)區(qū)（包括啟動子和增強(qiáng)子等基因編碼區(qū)的兩側(cè)，也稱為側(cè)翼序列）；第二十頁，共一百一十二頁，編輯于2023年，星期日真核生物基因結(jié)構(gòu)和轉(zhuǎn)錄過程第二十一頁，共一百一十二頁，編輯于2023年，星期日與轉(zhuǎn)錄有關(guān)的調(diào)控信號(1)、啟動子（promoter）(2)、增強(qiáng)子（enhancer）(3)、負(fù)性調(diào)節(jié)元件(4)、LCR（Locuscontrolregions）（基因座調(diào)控區(qū)）(5)、轉(zhuǎn)錄因子(6)、與轉(zhuǎn)錄終止有關(guān)的序列：(7)、mRNA的剪接第二十二頁，共一百一十二頁，編輯于2023年，星期日（1）、人類細(xì)胞核基因組中編碼序列不到2％，約含3萬左右不同的基因，且有近1/3為多拷貝；（2）、結(jié)構(gòu)基因大多含有插入序列。即大部分基因為斷裂基因（interruptedgene）；（3）、外顯子(exon)一般不長于800bp，內(nèi)含子(intron)則在30bp～數(shù)十kb不等；（4）、mRNA剪接位點（Splicesites）的識別信號：每個外顯子和內(nèi)含子接頭區(qū)都有一段高度保守序列（consensussequence），即內(nèi)含子5’端大多數(shù)是GT（稱為donorsite）開始，3’端大多數(shù)是AG（稱為acceptorsite）結(jié)束，稱為GT－AG法則；人類基因組結(jié)構(gòu)的特點第二十三頁，共一百一十二頁，編輯于2023年，星期日（5）、盡管擁有相同的一套基因組，不同的分化細(xì)胞中所表達(dá)的基因也不同，每個細(xì)胞只表達(dá)一部分基因（例如：人腦細(xì)胞的基因表達(dá)百分比最高，為22％）；（6）、轉(zhuǎn)錄在細(xì)胞核內(nèi)進(jìn)行，翻譯在細(xì)胞質(zhì)核糖體中進(jìn)行，二者在時間空間上是分開的。第二十四頁，共一百一十二頁，編輯于2023年，星期日內(nèi)含子－外顯子結(jié)構(gòu)的統(tǒng)計研究10種真核生物的外顯子和內(nèi)含子數(shù)目及長度的統(tǒng)計結(jié)果比較（Deutsch&Long，1999)（外顯子的長度單位是氨基酸，內(nèi)含子的長度單位是核苷酸）平均每個基因包含外顯子4.1個,內(nèi)含子3.1個；基因中每1kb長的編碼蛋白質(zhì)區(qū)域（也稱為CDS，CodingSequence）平均包含3.7個內(nèi)含子.第二十五頁，共一百一十二頁，編輯于2023年，星期日10種真核生物的外顯子和內(nèi)含子長度的統(tǒng)計分布（Deutsch&Long，1999）（外顯子長度的單位為氨基酸，內(nèi)含子長度的單位為核苷酸；圖中橫坐標(biāo)表示長度，縱坐標(biāo)表示頻率。）外顯子長度概率分布曲線的山峰處于30～40個氨基酸長度的地方，且山峰比較緊湊，而內(nèi)含子的長度則大多數(shù)為40～125個核苷酸，山峰相對平緩。第二十六頁，共一百一十二頁，編輯于2023年，星期日人（Homosapiens）的基因組：平均每個基因包含內(nèi)含子4.0個（最多的是116個），外顯子5.0個，每1kb的CDS平均含有5.3個內(nèi)含子，是這10種真核生物中內(nèi)含子數(shù)目最多、長度最大的。內(nèi)含子的平均長度為3413.1bp，其中大多數(shù)為75～150bp，已知最長的內(nèi)含子要大于100kb。每1kb的CDS所包含的內(nèi)含子長度為6825bp。同樣地，人類基因組外顯子長度的概率分布要比內(nèi)含子的概率分布要緊湊得多。第二十七頁，共一百一十二頁，編輯于2023年，星期日人類基因組的外顯子和內(nèi)含子數(shù)目及長度的統(tǒng)計結(jié)果比較（Deutsch&Long，1999）（外顯子的長度單位是氨基酸，內(nèi)含子的長度單位是核苷酸）第二十八頁，共一百一十二頁，編輯于2023年，星期日人類基因組外顯子和內(nèi)含子長度的統(tǒng)計分布圖（Deutsch&Long，1999）（外顯子長度的單位為氨基酸，內(nèi)含子長度的單位為核苷酸；圖中橫坐標(biāo)表示長度，縱坐標(biāo)表示頻率。）同樣地，人類基因組外顯子長度的概率分布要比內(nèi)含子的概率分布要緊湊得多。第二十九頁，共一百一十二頁，編輯于2023年，星期日基因預(yù)測：早期指預(yù)測DNA序列中編碼蛋白質(zhì)的部分，即外顯子部分；現(xiàn)在指整個基因結(jié)構(gòu)的預(yù)測，綜合各種外顯子預(yù)測的算法及對基因結(jié)構(gòu)信號的認(rèn)識，預(yù)測出可能的完整基因。基因預(yù)測（GenePrediction）基因識別（GeneIdentification）基因?qū)ふ遥℅eneFinding）基因注釋（GeneAnnotation）ComputationalGeneIdentification、ComputationalGenePrediction（基因注釋：描述基因組，并通過計算分析，輔以生物數(shù)據(jù)庫和生物學(xué)知識，將原始的基因組序列數(shù)據(jù)轉(zhuǎn)換成有用的生物學(xué)信息。）§6.2.2真核基因預(yù)測研究概況第三十頁，共一百一十二頁，編輯于2023年，星期日基因預(yù)測的主要目的抓住如下特征：（1）、編碼蛋白質(zhì)基因的區(qū)域信息；（2）、編碼蛋白質(zhì)基因的結(jié)構(gòu)信息（包括非翻譯區(qū)和調(diào)控元，以及所有與轉(zhuǎn)錄有關(guān)的外顯子、內(nèi)含子）；（3）、每一轉(zhuǎn)錄所對應(yīng)的所有可能翻譯成蛋白質(zhì)產(chǎn)物的翻譯；（4）、重復(fù)序列的區(qū)域及其特征；（5）、編碼非編碼RNA的基因的區(qū)域。第三十一頁，共一百一十二頁，編輯于2023年，星期日基因預(yù)測的主要內(nèi)容啟動子的識別翻譯起始位點的識別剪接位點的識別多腺苷化信號的識別蛋白編碼區(qū)的識別內(nèi)含子的識別第三十二頁，共一百一十二頁，編輯于2023年，星期日Burset和Guigo（1996）分三個層次來評估：編碼核苷酸、外顯子結(jié)構(gòu)、蛋白質(zhì)產(chǎn)物。（1）從編碼核苷酸的水平指對于每個單個的核苷酸，將預(yù)測的狀態(tài)與其真正的狀態(tài)相比較，進(jìn)而考察預(yù)測的效果。1、基因預(yù)測效果的評估第三十三頁，共一百一十二頁，編輯于2023年，星期日TP（truepositive）：實際編碼區(qū)的核酸中被成功預(yù)測的核酸數(shù)目；TN（truenegative）：實際非編碼區(qū)的核酸中被成功預(yù)測的核酸數(shù)目；FN（falsenegative）：實際編碼區(qū)的核酸中被誤測為非編碼的核酸數(shù)目；FP（falsepositive）：實際非編碼區(qū)的核酸中被誤測為編碼的核酸數(shù)目。TPTNFNFPREALITYcodingnoncodingcodingnoncodingPREDICTIONTP+FNFP+TNTP+FPFN+TN第三十四頁，共一百一十二頁，編輯于2023年，星期日基于TP、TN、FP、FN，主要引進(jìn)四個參數(shù)：Sn、Sp、CC、AC。敏感性（sensitivity，Sn）：特異性（specificity，Sp）：Sn：實際編碼區(qū)核酸序列中被成功預(yù)測的比例；Sp：預(yù)測為編碼核酸序列中被成功預(yù)測的比例。條件概率：x：某個核酸的狀態(tài)（即編碼或非編碼），F(xiàn)(x)：該核酸被預(yù)測的狀態(tài)，c：編碼狀態(tài)，n：非編碼狀態(tài)第三十五頁，共一百一十二頁，編輯于2023年，星期日相關(guān)系數(shù)CC（CorrelationCoefficient）：更全面地衡量基因預(yù)測的效果CC：取值范圍[-1,1]，不僅包含P(F(x)=c|x=c)和P(x=c|F(x)=c)的信息，而且也包含了P(F(x)=n|x=n)和P(x=n|F(x)=n)的信息。缺陷：不允許分母中TP+FN、TN+FP、TP+FP和TN+FN中任何一項為零。近似相關(guān)AC（ApproximationCorrelation）：來作為評估基因預(yù)測的效果AC：對P(F(x)=c|x=c)、P(x=c|F(x)=c)、P(F(x)=n|x=n)和P(x=n|F(x)=n)四種條件概率的等權(quán)平均，取值范圍[-1,1]。|AC|>=|CC|第三十六頁，共一百一十二頁，編輯于2023年，星期日（2）從外顯子結(jié)構(gòu)的水平沿著DNA序列鏈，對預(yù)測出的外顯子結(jié)構(gòu)與實際的外顯子結(jié)構(gòu)進(jìn)行比較。(比較的標(biāo)準(zhǔn)尚未統(tǒng)一，但目前用得較多的比較標(biāo)準(zhǔn)是：只有當(dāng)預(yù)測的外顯子結(jié)構(gòu)與實際的外顯子結(jié)構(gòu)完全吻合（包括剪接位點的信息），才認(rèn)為預(yù)測是成功的。)外顯子預(yù)測的評估同樣可以引進(jìn)敏感性（Sn）和特異性（Sp）兩個參數(shù)：Sn：DNA鏈上實際的外顯子中被成功預(yù)測到的比例；Sp：DNA鏈上被預(yù)測為外顯子中被成功預(yù)測到的比例。第三十七頁，共一百一十二頁，編輯于2023年，星期日引入ME（MissingExons）和WE（WrongExons）ME：實際的外顯子中完全沒有預(yù)測到（即二者沒有重疊的部分）的比例；WE：所預(yù)測的外顯子中完全沒有預(yù)測到的比例。第三十八頁，共一百一十二頁，編輯于2023年，星期日（3）從蛋白質(zhì)產(chǎn)物的水平將預(yù)測的基因所編碼的蛋白質(zhì)產(chǎn)物與實際的基因編碼的蛋白質(zhì)產(chǎn)物作比較。預(yù)測結(jié)果的評估目前尚無公認(rèn)的統(tǒng)一標(biāo)準(zhǔn)。有的標(biāo)準(zhǔn)是考察被準(zhǔn)確預(yù)測到的氨基酸序列的比例，以及被錯誤預(yù)測的氨基酸比例。第三十九頁，共一百一十二頁，編輯于2023年，星期日基于內(nèi)容檢測的方法（searchbycontent或contentsensors）基于信號檢測的方法（searchbysignal或signalsensors）基于相似性比較的方法（searchbysimilaritycomparison）2、基因預(yù)測方法簡介第四十頁，共一百一十二頁，編輯于2023年，星期日基于內(nèi)容檢測的方法原理：DNA序列中的編碼蛋白質(zhì)區(qū)域的字符的上下文特征與非編碼的區(qū)域是有區(qū)別的。由于蛋白質(zhì)產(chǎn)物對氨基酸和同義密碼子的選擇的偏倚性，因此也決定了編碼區(qū)序列的核苷酸組成的特性，如周期性（periodicities）、短程相關(guān)性（short-rangecorrelations）、寡核苷酸（oligonucleatide）使用的偏倚性等。第四十一頁，共一百一十二頁，編輯于2023年，星期日基于內(nèi)容檢測的方法信號檢測的方法就是根據(jù)人們目前對基因組結(jié)構(gòu)的一些相關(guān)的位點信號的認(rèn)識來識別基因。這些信號包括剪接信號、起始密碼子信號、終止密碼子信號、啟動子信號、轉(zhuǎn)錄終止信號、分支點（branchpoint）等。第四十二頁，共一百一十二頁，編輯于2023年，星期日對于真核生物的基因識別，目前應(yīng)用比較廣泛的軟件一般都是結(jié)合上述兩種方法來設(shè)計。除上述兩類方法外，還有的方法結(jié)合了序列相似性數(shù)據(jù)庫搜尋（sequencesimilaritysearches）技術(shù)，即對已知序列數(shù)據(jù)庫的相似性比較。第四十三頁，共一百一十二頁，編輯于2023年，星期日常用算法（1）詞匯統(tǒng)計算法

對核苷酸序列（NucleotideWords）中詞匯選用頻率的統(tǒng)計研究。由于序列中的編碼部分與非編碼部分在核苷酸、密碼子的選用、周期特性等存在差異性，因此可以用來區(qū)別編碼區(qū)和非編碼區(qū)；（Claverie&Bougueleret，1986；Bechmann，1986（2）同源比較算法將未知序列通過對已知EST（ExpressedSequenceTag，表達(dá)序列標(biāo)簽）數(shù)據(jù)庫的相似性比較，也可以比較有效地找到基因。許多有名的基因預(yù)測軟件（如GRAILⅡ）都已結(jié)合了同源比較算法；（Claverie，1993；Green，1993）第四十四頁，共一百一十二頁，編輯于2023年，星期日（4）HMM（HiddenMarkovModel）算法

將核苷酸序列看成一個隨機(jī)序列，DNA序列的編碼部分與非編碼部分在核苷酸的選用頻率上對應(yīng)著不同的Markov模型。由于這些Markov模型的統(tǒng)計規(guī)律是未知的，而HMM能夠自動尋找出它們隱藏的統(tǒng)計規(guī)律。對于高等生物這樣復(fù)雜的DNA序列，HMM必須學(xué)習(xí)不同的基因結(jié)構(gòu)的信號。典型的基于HMM的基因預(yù)測系統(tǒng)VEIL(JohnHopkinsUniversity)HMMgene(TechnicalUniversityofDenmark)GeneMark.hmm(GeorgiaInstituteofTech)Genie(UCSantaCruz&UCBerkeley)GENSCAN(Stanford)第四十五頁，共一百一十二頁，編輯于2023年，星期日GenScan的HMM模型第四十六頁，共一百一十二頁，編輯于2023年，星期日GENSCAN對某個基因的預(yù)測結(jié)果示意圖：第四十七頁，共一百一十二頁，編輯于2023年，星期日常見的HMM模型第四十八頁，共一百一十二頁，編輯于2023年，星期日（5）動態(tài)規(guī)劃算法（DynamicProgramming）

將預(yù)測出的各個可能的外顯子和內(nèi)含子進(jìn)行拼接，組成完整的基因。并對各種可能的拼接進(jìn)行計分，從而得出最可能的基因結(jié)構(gòu)；（Gelfang&Roytberg，1993）（6）法則系統(tǒng)（Rule-basedSystem）算法（Guigo，1992）（7）語言學(xué)方法（Linguistic）（Dong&Searls，1994）；（8）人工神經(jīng)網(wǎng)絡(luò)方法（ANN）（9）LDA方法（LinearDiscriminateAnalysis）（Fickett&Tung，1992）；（10）決策樹（DecisionTree）算法（Salzberg，1995）；（11）Fourier分析（Tiwari，1997）。第四十九頁，共一百一十二頁，編輯于2023年，星期日常用真核基因預(yù)測軟件（1）、FGENEH作者：Solovyev等，1995所用算法：LDA（LinearDiscriminantAnalysis）方法（2）、GeneID作者：Guigo等，1992所用算法：法則系統(tǒng)（Rule-basedSystem）算法（3）、GeneParser作者：Snyder和Stormo，1993所用算法：動態(tài)規(guī)劃算法（DynamicProgramming）（4）、Genie作者：Henderson等，1997所用算法：廣義隱Markov模型（GeneralizedHiddenMarkovModel）方法、動態(tài)規(guī)劃算法（5）、GenLang作者：Dong和Searls，1994所用算法：語言學(xué)方法（Linguistic）第五十頁，共一百一十二頁，編輯于2023年，星期日（6）、GENESCAN作者：Burge和Karlin，1997所用算法：隱Markov模型（HiddenMarkovModel）方法、動態(tài)規(guī)劃算法（7）、HEXON作者：Solovyev等，1994所用算法：LDA（LinearDiscriminantAnalysis）方法、動態(tài)規(guī)劃算法（8）、VEIL作者：Krogh等，1994所用算法：隱Markov模型（HiddenMarkovModel）方法、動態(tài)規(guī)劃算法

第五十一頁，共一百一十二頁，編輯于2023年，星期日目前常用軟件的基因預(yù)測結(jié)果評估（Claverie，1997）

第五十二頁，共一百一十二頁，編輯于2023年，星期日目前常用軟件的基因預(yù)測結(jié)果評估（Rogic等，2001）第五十三頁，共一百一十二頁，編輯于2023年，星期日目前的各種算法還存在許多缺陷需進(jìn)一步改進(jìn)，主要表現(xiàn)在以下兩點：（1）、這些算法對基因中的非編碼區(qū)（即內(nèi)含子）和基因間的序列不加任何區(qū)別，所以預(yù)測出的基因是不完全的，而對5’和3’非翻譯區(qū)（UTR）的預(yù)測基本上還是空白；（2）、這些算法的學(xué)習(xí)依賴性較強(qiáng)。如同源比較算法是完全依賴于已知的基因序列，而HMM之類的算法都需要對已知的基因結(jié)構(gòu)信號進(jìn)行學(xué)習(xí)或訓(xùn)練。第五十四頁，共一百一十二頁，編輯于2023年，星期日§6.3原核基因組研究及基因預(yù)測方法第五十五頁，共一百一十二頁，編輯于2023年，星期日原核生物基因組的研究意義1、揭示生命活動的基本規(guī)律——導(dǎo)致現(xiàn)代分子遺傳學(xué)的許多重大發(fā)現(xiàn)染色體、DNA雙螺旋、遺傳密碼、DNA復(fù)制、中心法則…第五十六頁，共一百一十二頁，編輯于2023年，星期日原核生物基因組的研究意義2、揭示生命起源與進(jìn)化的奧秘第五十七頁，共一百一十二頁，編輯于2023年，星期日3、進(jìn)行分子遺傳學(xué)的良好材料4、在農(nóng)業(yè)、工業(yè)和生物制藥工程上的應(yīng)用十分廣泛作為微生物基因工程的反應(yīng)器，直接運用于干擾素、人胰島素、生長激素、乙型肝炎疫苗等現(xiàn)代基因工程產(chǎn)品的生產(chǎn)。第五十八頁，共一百一十二頁，編輯于2023年，星期日原核生物基因組結(jié)構(gòu)的特點1、原核生物基因組一般比真核生物基因組小得多

E.coli的基因組(4.6Mb)約為酵母基因組(12.1Mb)的2/52、絕大部分原核生物基因組由一個單一的環(huán)狀DNA分子組成3、原核生物的基因通常比真核生物的少E.coli：4000多個基因，人：~30000個4、原核生物的基因絕大多數(shù)是連續(xù)基因，不含間隔的內(nèi)含子；基因組結(jié)構(gòu)緊密，重復(fù)序列遠(yuǎn)少于真核生物的基因組。例子：E.coliK-12

雙鏈環(huán)狀DNA分子，全基因組長為4,600kb；目前已經(jīng)定位的基因有4,289個；非編碼區(qū)占的比例約為11.4%。第五十九頁，共一百一十二頁，編輯于2023年，星期日長開放閱讀框（ORF，openreadingframe）若終止密碼子出現(xiàn)在非編碼核酸序列中，大約每21個密碼子出現(xiàn)一次（3/64）絕大部分原核生物蛋白質(zhì)的長度大于60個氨基酸；——（E.coli：蛋白質(zhì)編碼區(qū)域平均長度為316.8個密碼子，不到1.8%的基因的長度小于60個密碼子）長ORF表明該區(qū)域可能對應(yīng)于一個原核生物基因的編碼序列——從統(tǒng)計學(xué)角度來看，如果所有的密碼子在隨機(jī)的核酸序列中以相同的頻率出現(xiàn)，則不含終止密碼子且長度為N個密碼子的序列出現(xiàn)的概率為(61/64)N。長度為N的ORF的95%顯著性置信度等價于5%“隨機(jī)”命中的可能性，即(61/64)N=0.05，這里N等于60，表示典型長度的ORF中密碼子的數(shù)目。第六十頁，共一百一十二頁，編輯于2023年，星期日高基因密度原核生物基因組的許多信息都是為了維持細(xì)胞的基本功能，如構(gòu)造和復(fù)制DNA，產(chǎn)生新蛋白質(zhì)，以及獲得和存儲能量。完全測序的細(xì)菌和古細(xì)菌的基因組數(shù)據(jù)表明，其中85％到88％的核酸序列與基因的編碼直接相關(guān)。例如，在E.coli中總共有4,289個基因，平均編碼長度約為950bp，而基因之間的平均間隔長度只有~120bp。第六十一頁，共一百一十二頁，編輯于2023年，星期日連續(xù)的基因結(jié)構(gòu)與真核基因結(jié)構(gòu)相比較，原核基因的結(jié)構(gòu)相對簡單。原核基因為連續(xù)基因，其編碼區(qū)是一個完整的DNA片段。但原核基因的轉(zhuǎn)錄起始、翻譯起始的調(diào)控機(jī)制比較復(fù)雜。完整的基因結(jié)構(gòu)從基因的5’-端啟動子區(qū)域開始，到3’-端終止區(qū)結(jié)束。基因的轉(zhuǎn)錄開始位置由轉(zhuǎn)錄起始位點確定，轉(zhuǎn)錄過程直至遇到轉(zhuǎn)錄終止位點結(jié)束，轉(zhuǎn)錄的內(nèi)容包括5’UTR、開放閱讀框以及3’UTR?；蚍g的準(zhǔn)確起止位置由起始密碼子和終止密碼子決定，翻譯的對象即為介于這兩者之間的開放閱讀框。第六十二頁，共一百一十二頁，編輯于2023年，星期日第六十三頁，共一百一十二頁，編輯于2023年，星期日原核生物基因組的操縱子與基因群結(jié)構(gòu)第六十四頁，共一百一十二頁，編輯于2023年，星期日原核生物的基因結(jié)構(gòu)STOPATGATG…CCCTCGAAGC…ATGTranscriptionInitiationMotifCodingORFTranslationInitiationMotifUpstreamregion第六十五頁，共一百一十二頁，編輯于2023年，星期日Textsfromcoding/noncodingregionsinDNAsequenceGTGAGGGATCGTGGGCATATTTCACAAACTTACTTTTAAAACCATACAACGAAGAAGCGGCCATAATGAACGACTCTTTACAGAATACGGATCTCATTTCACACTTCTCACATCCATTTTAGTTGGAAACACATGAAAGTGAGACCATCAGTTAAACCAATCTGCGAAAAATGTAAAGTTATTTCGCAGAAAAGGAAAAGTAATGGTGATCTGTGAAAATCCAAAGCATAAACAAAAACAAGGATAAGGTTATATAAATGAAAAGATTTCTGATTGGCGCAGGCGTCGCAGCGGTGATTTTATCAGGTTTGGTTTATTGCGGACCATCAAACCCACTCACAGGAAATGAAAGTCGCTGAGAAAATGATTGGATAAGAGATTATTGATGAAAATCAGCCGGATTCTATTGGCAGCAGTGATTTTAAGTAGTGTATTTTTCAATAACTTATTTGCAAAGTGATCATAATACTGAAATTAAAGTTGCTGCAGATCGGGTAGGGGCATAGGTGAGTTTGTATGAAATTGAAGTCTAAACTATTACTCTCTTGTCTGGCTCTAAGCACTGTGGTTCGTGGCAACAACTATTGCAAATGCACCTACACACCAAATTGAAGTTGCACAACGAGGAATGATTTAAAGCCCTCTCGATGGAAAAGATCCCTTGCTTCGCGGAGGAATTGATTATAGGCCTCTCTATCCTGGGGCCGCAAATATTCAAAGTCGAAATGAATGTCACGGAAGCCATATCTTCTGGCATTCTCGACTAGCACGGGACATATGATGGCTTGCAGGTCTTTTAAAGAGACAGCGGCGGTTTGTGACAAGTCAATCAGAAATCCTTCACCCGAGCGCTGCCGGCTGTTCATTTTCCGAAATGCTTCTATGTCTTTTTCATTCTGACGCCTGAAATATGGTCCGCGTGAAGATGTGTATCAAATACGTGAGTAATCGTTGCACCCTTCCCCTTCGCAAAATCTATAAAGAAATTCACCATACGTGTCGCATCAATAATTGCTGCTTCACCATTTGAAAAGCCAAAAATGATCGACACAGCTATGAAATCGGAGAAGAAATCATGCTTCCGAGTGAAACACGCATGGGCAGAAGGGCCAGCTTTTTTGATTTTTTTAAACTGCGCCCTTTCAAAATGGGGATTTTGATATATGTAATATGTATGAATTCTTGATTGATGATCGTATCATCAGTTATTTCAATTGCCTCAACGTCAAACTCTTGTTGCAGCGCTTTGACAAACCTTTTTACATTTCCTGTTTTACTCTCATATGTAATTAACAATGTCCCTATGAAAATACTGCCCTCTGTCCCGATCACCTCCGCCCGGATGTCATGTCCGTATGGAGAGGTTCTGCTTGCCTCGACGTCCCCCGCTGCGCCCGAGTCAAATTCAATATACGTCAGCTGAStartcodonStopcodonATGGTGTTGTAATAGTGAProteincodinggenesNoncodingsequences第六十六頁，共一百一十二頁，編輯于2023年，星期日原核生物基因組研究的主要方法1、原核基因組的測序獲得所研究生物的全基因組DNA序列測序方法：鏈終止法。一次測序反映只能測幾百個堿基對。序列的拼接方法。2、原核基因組的序列解讀通過結(jié)合計算機(jī)分析、試驗驗證等手段，初步定位基因及其調(diào)控區(qū)并闡明基因的功能。發(fā)展原核基因組的基因及其功能識別算法是基因組的計算機(jī)分析的重要目標(biāo)。第六十七頁，共一百一十二頁，編輯于2023年，星期日當(dāng)前著名的原核基因預(yù)測軟件1、GeneMark系列軟件（包括最新版本GeneMarkS）

Borodovsky等，1993~2001——Besemer,J.,Lomsadze,A.andBorodovsky,M.(2001)GeneMarkS:aself-trainingmethodforpredictionofgenestartsinmicrobialgenomes.Implicationsforfindingsequencemotifsinregulatoryregions.NucleicAcidsRes.,29:2607-2618.2、Glimmer2.02（Salzberg等，1999）——Delcher,A.L.,Harmon,D.,Kasif,S.,White,O.,andSalzberg,S.L.(1999)ImprovedmicrobialgeneidentificationwithGLIMMER.NucleicAcidsRes.,27,4636-4641原核基因預(yù)測算法的研究現(xiàn)狀第六十八頁，共一百一十二頁，編輯于2023年，星期日3、ZCURVE1.0

張春霆等,1991-2003第六十九頁，共一百一十二頁，編輯于2023年，星期日4、MED系列佘振蘇、朱懷球等,2004-2007第七十頁，共一百一十二頁，編輯于2023年，星期日其它：如EasyGene(LarsenandKrogh,2003)ORPHUS(Frishmanetal.,1998)第七十一頁，共一百一十二頁，編輯于2023年，星期日基本方法1、Markov模型方法:用非均勻Markov模型刻畫DNA序列g(shù)iveanestimateoftheprobabilityforalocalsegment(suchasak-tuples)tobelongtotheclassofproteincodingsequences

如：GeneMark、Glimmer2、其它方法，如Z-curve方法、MED方法如：ZCURVE1.0、MED2.03、結(jié)合HMM方法與蛋白質(zhì)相似比較的方法如：EasyGene(LarsenandKrogh,2003)

原核基因預(yù)測軟件被廣泛應(yīng)用于原核基因組研究，提供了許多物種的基因組GenBank注釋——基因位點的計算預(yù)測。第七十二頁，共一百一十二頁，編輯于2023年，星期日當(dāng)前原核基因預(yù)測存在的主要問題1、GenBank數(shù)據(jù)庫提供的原核基因注釋信息（基因位點、功能等）只有部分經(jīng)過實驗確認(rèn)，其它部分只有計算預(yù)測或未實驗證實的注釋信息。2、GenBank數(shù)據(jù)庫的注釋信息存在系統(tǒng)性的錯誤，處于不斷的修正之中?！狿seudoshortgenes——Genestarts——功能信息的錯誤——注釋眾說紛紜（如H.inf,148amendmentsbydifferentauthors

）第七十三頁，共一百一十二頁，編輯于2023年，星期日3、基因翻譯起始位點的精確預(yù)測——原核基因轉(zhuǎn)錄和翻譯起始機(jī)制的認(rèn)識——多樣性、復(fù)雜性4、短基因的預(yù)測——短于100AA——統(tǒng)計模型對短基因刻畫的困難——短基因的生物學(xué)意義？（功能、進(jìn)化歷程）5、高GC、高AT含量基因組的基因預(yù)測——背景DNA噪聲——基因組組分與生物進(jìn)化的聯(lián)系6、原核基因結(jié)構(gòu)的數(shù)學(xué)模型——缺乏綜合的理解——缺乏良好的模型第七十四頁，共一百一十二頁，編輯于2023年，星期日評論1、與真核生物基因預(yù)測的研究相比，原核生物基因預(yù)測的研究走在更前面2、原核生物基因預(yù)測的方法和結(jié)果為人類基因組計劃和模式生物基因組計劃做出了很大的貢獻(xiàn)，但也帶來一定的后果3、原核基因的復(fù)雜結(jié)構(gòu)還沒有真正被了解4、原核基因的預(yù)測還有很多沒有解決的問題第七十五頁，共一百一十二頁，編輯于2023年，星期日§6.4原核基因結(jié)構(gòu)的統(tǒng)計模型及基因預(yù)測新方法(2004-2007)第七十六頁，共一百一十二頁，編輯于2023年，星期日基因預(yù)測研究的總體思路ModelPredictUnderstand對基因復(fù)雜結(jié)構(gòu)信息進(jìn)行統(tǒng)計分析，并建立合理的數(shù)學(xué)物理模型進(jìn)行刻畫(包括對模型的檢驗)。根據(jù)模型，對新測序的基因組序列，有效預(yù)測其基因結(jié)構(gòu)。為基因組實驗研究提供理論指導(dǎo)。綜合實驗和理論結(jié)果，探索模型揭示的生物學(xué)意義，深刻理解生物復(fù)雜系統(tǒng)。第七十七頁，共一百一十二頁，編輯于2023年，星期日第七十八頁，共一百一十二頁，編輯于2023年，星期日兩段取自E.coli(EscherichiacoliK-12MG1655)的DNA序列ATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA[190~255]gene=“thrL”(Aminoacidbiosynthesis:Threonine)ATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGCTTCTGAACTGGTTACCTGCCGTGAGTAA[30~98]non-codingORF§6.4.1原核基因結(jié)構(gòu)的EDP模型第七十九頁，共一百一十二頁，編輯于2023年，星期日取自E.coli的兩段ORF的假想氨基酸序列：Codingsequence(Gene“thrL”)

ATGAAACGCATTAGCACCACCATTACCACCACCATC

MKRISTTITTTI

ACCATTACCACAGGTAACGGTGCGGGCTGA

TITTGNGAGZNon-codingsequence

ATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATA

MSLCGLKKECLIGCAGCTTCTGAACTGGTTACCTGCCGTGAGTAA

AASELVTCREZ

DNA序列假想翻譯序列遺傳密碼表第八十頁，共一百一十二頁，編輯于2023年，星期日基于一段DNA序列的假想氨基酸序列，引入它的熵密度分布(EntropyDensityProfile,EDP){Si}：i:Indexof20aminoacidpi:FrequencyoftheithaminoacidShannonentropy:對于任一有限長的DNA序列，都可得到它的EDP{Si}，對應(yīng)于20維相空間上唯一的一點。EDP:asetofmultivariateparameters第八十一頁，共一百一十二頁，編輯于2023年，星期日DNA序列的EDP表現(xiàn)出編碼/非編碼的聚類性。第八十二頁，共一百一十二頁，編輯于2023年，星期日在EDP的相空間上定義歐氏距離來刻畫兩類DNA序列（編碼、非編碼）的編碼性：也可定義相對熵距離：第八十三頁，共一百一十二頁，編輯于2023年，星期日500條基因和500條非編碼ORF的EDP距離（取自E.coli）第八十四頁，共一百一十二頁，編輯于2023年，星期日基于EDP思想的基因識別算法

原核生物編碼ORF與非編碼ORF的平均EDP在相空間上的普適性構(gòu)造具有普適性的編碼、非編碼EDP中心；基于普適的編碼與非編碼EDP中心，得到該基因組的編碼與非編碼ORF中心；設(shè)計迭代算法，求得該基因組的編碼、非編碼“根”序列（rootORFs）；根據(jù)rootORFs，識別所有ORF的編碼性。第八十五頁，共一百一十二頁，編輯于2023年，星期日EDPgenefindingalgorithmRootcoding

ORFsEDPsRepresentativecoding-EDPs’EDPsRootnon-coding

ORFsRepresentativenon-coding-EDPs’ClusteringClusteringSearchforallORFsunknownsetofORFEDPD_cD_ncD_c<D_ncD_nc<D_cCodingORFNon-codingORF第八十六頁，共一百一十二頁，編輯于2023年，星期日EDP模型的評論

描述ORF序列的整體特性，是序列編碼性與相似性的統(tǒng)一難以實現(xiàn)對序列局部功能信號的刻畫作為基因預(yù)測算法，有局限性：基因起始位點的預(yù)測精度較差短基因的預(yù)測精度較差第八十七頁，共一百一十二頁，編輯于2023年，星期日當(dāng)前的原核基因預(yù)測算法對基因起始位點的預(yù)測精度要遠(yuǎn)遠(yuǎn)低于基因終止位點的預(yù)測精度—Detectageneasanopenreadingframe(ORF)justwithan‘open’start;—例子:對E.coli

的195條實驗確認(rèn)基因的預(yù)測水平：預(yù)測軟件終止位點預(yù)測精度起始、終止位點同時預(yù)測的精度ORPHEUS(1998)92.8%75.9%GLIMMER2.02(1999)100%74.9%MED1.0(2004)100%68.2%§6.4.2原核基因結(jié)構(gòu)的TIS模型第八十八頁，共一百一十二頁，編輯于2023年，星期日精確預(yù)測基因的重要性：

——有助于研究基因表達(dá)的產(chǎn)物（蛋白質(zhì)、功能RNA）——有助于認(rèn)識基因轉(zhuǎn)錄和翻譯的機(jī)制提高基因翻譯起始位點的預(yù)測精度是精確預(yù)測基因的關(guān)鍵第八十九頁，共一百一十二頁，編輯于2023年，星期日原核基因起始位點預(yù)測的困難——缺乏用于學(xué)習(xí)的數(shù)據(jù)集具有實驗確認(rèn)起始位點的基因數(shù)據(jù)遠(yuǎn)遠(yuǎn)不夠——與基因翻譯起始相關(guān)的序列特征并不強(qiáng)翻譯起始機(jī)制的多樣性、復(fù)雜性序列信號的模糊性第九十頁，共一百一十二頁，編輯于2023年，星期日基因起始位點（TIS）預(yù)測方法

RBSfinder

(Salzbergetal.,2001):—inputsanentiregenomicsequenceandfirst-passannotationtotrainaprobabilisticmodelthatscorescandidateRBSsurroundingpreviouslyannotatedstartcodons.第九十一頁，共一百一十二頁，編輯于2023年，星期日

GS-finder

(Zhangetal.,2004):—Introducedsixrecognitionvariablestodescribetheconsensussignals(e.g.,theSDsequences)inthevicinityofgenestarts,thecodingpotentialofDNAsequencesnearthestartcodon,thestartcodonitselfandthedistancefromtheleftmoststartcodontothecandidatestartcodon,respectively.—TheformerfourvariableswerederivedbasedontheZ-curvemethod,whilethelattertwovariableswer

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

生物信息學(xué)講義第六章

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔