真核生物5端外顯子和翻譯起始位點(diǎn)的預(yù)測(cè)分析研究生物技術(shù)專業(yè)

上傳人：文*** IP屬地：山西上傳時(shí)間：2024-05-16 格式：DOC 頁(yè)數(shù)：12 大小：323.99KB 積分：12 舉報(bào) 版權(quán)申訴

真核生物5端外顯子和翻譯起始位點(diǎn)的預(yù)測(cè)分析研究生物技術(shù)專業(yè)_第2頁(yè)

真核生物5端外顯子和翻譯起始位點(diǎn)的預(yù)測(cè)分析研究生物技術(shù)專業(yè)_第3頁(yè)

真核生物5端外顯子和翻譯起始位點(diǎn)的預(yù)測(cè)分析研究生物技術(shù)專業(yè)_第4頁(yè)

真核生物5端外顯子和翻譯起始位點(diǎn)的預(yù)測(cè)分析研究生物技術(shù)專業(yè)_第5頁(yè)

已閱讀5頁(yè)，還剩7頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

真核生物5’端外顯子和翻譯起始位點(diǎn)的預(yù)測(cè)PredictionofFirstExonsandTranslationInitiationSitesinEukaryoticGenomes摘要真核生物翻譯起始位點(diǎn)（TIS，translationinitiationsites）的正確預(yù)測(cè)對(duì)于基因的正確注釋有著重大的意義。本文試圖通過(guò)發(fā)展和結(jié)合一些現(xiàn)有的算法來(lái)較好地預(yù)測(cè)出真核生物翻譯起始位點(diǎn)。本文算法的得出主要基于三種方法自然結(jié)合。我們首先基于簡(jiǎn)單的權(quán)重矩陣方法（WMM，WeightMatrixMethod）【1】，發(fā)展了多狀態(tài)信號(hào)的熵距離判別分析方法,由此可以得到一些待定ATG信號(hào)，這些信號(hào)包含了大部分的翻譯起始位點(diǎn)。接下來(lái)，我們采用WMM找出與該ATG對(duì)應(yīng)的GT信號(hào)并將它們之間的序列提出（這里ATG信號(hào)以及GT信號(hào)的定義詳見(jiàn)正文）。通過(guò)引入模糊詞匯的概念，我們發(fā)現(xiàn)翻譯起始位點(diǎn)前存在某些模糊詞匯，這樣可以通過(guò)判斷ATG信號(hào)前是否含有某個(gè)“模糊詞匯”進(jìn)一步選出待定ATG信號(hào)。最終我們結(jié)合了佘振蘇教授提出的以統(tǒng)計(jì)語(yǔ)言學(xué)為特色的多元熵距離（multivariateentropydistance，MED）方法【2】對(duì)這些ATG信號(hào)對(duì)應(yīng)的閱讀框在20維空間中進(jìn)行多中心聚類形成了預(yù)測(cè)翻譯起始位點(diǎn)的完整算法并達(dá)到了較好的結(jié)果。 1引言 2001年2月，人類基因組計(jì)劃的相關(guān)組織和機(jī)構(gòu)公布了人類基因組測(cè)序草圖【3】，人類基因組計(jì)劃的提前完成，基因組的研究熱點(diǎn)已轉(zhuǎn)向揭示基因信息結(jié)構(gòu)的復(fù)雜性與遺傳語(yǔ)言的根本規(guī)律。其中，基因預(yù)測(cè)算法的研究也成為對(duì)基因組序列進(jìn)行統(tǒng)計(jì)分析的重要目標(biāo)。所謂基因預(yù)測(cè)，就是在對(duì)DNA序列編碼潛能（codingpotentials）提出某種模式（pattern）描述的基礎(chǔ)上，對(duì)一未知的DNA序列上完整的基因結(jié)構(gòu)進(jìn)行注釋。對(duì)于原核生物，由于其基因結(jié)構(gòu)較為簡(jiǎn)單，在基因組的DNA鏈上表現(xiàn)為一個(gè)編碼蛋白質(zhì)的基因?qū)?yīng)為一段連續(xù)的開(kāi)放閱讀框（openreadingframe，ORF），因此，基因預(yù)測(cè)的問(wèn)題也相對(duì)簡(jiǎn)單，本人所在的佘振蘇教授研究小組已經(jīng)在這方面取得了很好的結(jié)果【4】。但是對(duì)于真核生物，它們的基因結(jié)構(gòu)遠(yuǎn)比原核生物的復(fù)雜，許多基因是斷裂基因，間斷成外顯子（exon）和內(nèi)含子（intron），并且exon在序列中長(zhǎng)度比例極小【5】。生物體通過(guò)對(duì)剪接位點(diǎn)（SpliceSite）的剪接等過(guò)程最終構(gòu)成蛋白質(zhì)。現(xiàn)有很多真核生物基因結(jié)構(gòu)的預(yù)測(cè)算法就是針對(duì)SpliceSite的預(yù)測(cè)，即對(duì)外顯子的預(yù)測(cè)，著名的有Genescan，GeneMark等。本質(zhì)上可以將外顯子分為4類：包含起始編碼子（startcodon）和終止編碼子（terminationcodon）的singleexon，包含起始編碼子和供體位點(diǎn)（donorsite）的firstexon，包含受體位點(diǎn)（acceptorcite）和供體位點(diǎn)的internalexon，以及包含受體位點(diǎn)和終止編碼子的terminalexon【6】?，F(xiàn)有基因預(yù)測(cè)軟件中對(duì)于firstexon、terminalexon以及singleexon，它們的識(shí)別精度通常都大大低于internalexon的識(shí)別精度【7】。Firstexon的預(yù)測(cè)實(shí)際上包含了對(duì)翻譯起始位點(diǎn)的預(yù)測(cè)。本文重點(diǎn)在于翻譯起始位點(diǎn)的預(yù)測(cè)算法設(shè)計(jì)，同時(shí)也給出了5’端外顯子（即firstexon）的預(yù)測(cè)結(jié)果。一般認(rèn)為，對(duì)基因結(jié)構(gòu)預(yù)測(cè)所用到的信息有三部分組成：序列上的信號(hào)（signal），內(nèi)容（content）統(tǒng)計(jì)以及與已知基因的相似度（similarity）【8】。我們用到的信息只是包含了前兩部分，對(duì)ATG信號(hào)的多狀態(tài)熵距離判別分析以及找出模糊詞匯是屬于信號(hào)的范疇，而對(duì)閱讀框運(yùn)用MED方法實(shí)際上關(guān)系到了內(nèi)容統(tǒng)計(jì)。在預(yù)測(cè)時(shí)，我們采用的算法是簡(jiǎn)單的線性判別。2材料我們采用了Kulp&Reese（1995）、ALLSEQ【9】以及HMR195【7】三部分?jǐn)?shù)據(jù)集，其中前兩者的部分序列作為學(xué)習(xí)集，最后者的部分?jǐn)?shù)據(jù)作為測(cè)試集。如引言所提到，真核生物的基因按是否含有內(nèi)含子可以分為多外顯子基因以及單外顯子基因。實(shí)際上，前者在數(shù)目上占絕大多數(shù)，因而本文關(guān)心的是對(duì)多外顯子基因中的翻譯起始位點(diǎn)以及5’端外顯子的研究與預(yù)測(cè)。Kulp&Reese（1995）提供的數(shù)據(jù)集是通過(guò)運(yùn)用BLASTP【10】刪除一些相似和冗余的序列后得到的。數(shù)據(jù)庫(kù)包含了人類的單外顯子基因186個(gè)，多外顯子基因304個(gè)，其中多外顯子基因中共包含1798個(gè)外顯子。我們直接采用了其中的304個(gè)多外顯子基因作為學(xué)習(xí)集的一部分。ALLSEQ數(shù)據(jù)集經(jīng)過(guò)了一些嚴(yán)格的標(biāo)準(zhǔn)【11】篩選、整理出來(lái)的。它包含的是一些脊椎動(dòng)物的多外顯子基因，有570個(gè)，其中有外顯子數(shù)目為2649。我們采用ALLSEQ數(shù)據(jù)集構(gòu)成學(xué)習(xí)集的另一部分。HMR195數(shù)據(jù)集是Rogic等于2001年整理出的，其中包含了人、小鼠和大鼠共195條基因的注釋。數(shù)據(jù)集中人、小鼠、大鼠的比例為103：82：10，包含152個(gè)多外顯子基因和43個(gè)單外顯子基因。我們采用其中152個(gè)多外顯子基因作為測(cè)試集。這樣我們一共得到了874個(gè)基因作為學(xué)習(xí)集，152個(gè)基因作為測(cè)試集。 3方法3．1ATG信號(hào)的多狀態(tài)熵距離判別分析方法真核序列中，基因一般是由編碼甲硫氨酸（Met）的密碼子ATG開(kāi)始，我們把這樣的ATG稱為翻譯起始位點(diǎn)，而將DNA序列上出現(xiàn)的核苷酸三聯(lián)碼“ATG”稱為ATG信號(hào)。為了描述ATG信號(hào)，我們?nèi)〕鲇葾TG信號(hào)前mbp，后nbp組成的核苷酸序列L。用qij（j＝1,…,m+n，i=0,…,3分別表示核苷酸A、C、G、T）表示出現(xiàn)在該序列上第j個(gè)位置上的核苷酸i，qij是一個(gè)4×(m+n)的矩陣，其特征如圖1所示。圖1用矩陣q來(lái)反映序列的核苷酸的位置以及內(nèi)容我們可以簡(jiǎn)單地將ATG信號(hào)分為兩類，一類是翻譯起始位點(diǎn)，剩下的ATG信號(hào)歸為另一類。為了刻畫這兩類信號(hào)的區(qū)別，我們分別統(tǒng)計(jì)出他們對(duì)應(yīng)于L的權(quán)重矩陣、（它們都是4×（m＋n）的矩陣）,進(jìn)而依次定義出該序列的相對(duì)熵以及熵距離如下：，然而通過(guò)引入多狀態(tài)熵距離判別分析，我們將對(duì)ATG信號(hào)有更細(xì)致的描寫。為了描敘處于不同狀態(tài)的ATG信號(hào)（“狀態(tài)”這個(gè)詞將在下文闡明），我們要用到閱讀框這個(gè)概念：在同一DNA序列上，如果用、來(lái)分別表示翻譯起始位點(diǎn)以及某個(gè)ATG信號(hào)的位置，則可以定義出該ATG信號(hào)的閱讀框（表示對(duì)3的求模運(yùn)算），可以看出翻譯起始位點(diǎn)對(duì)應(yīng)ATG信號(hào)的閱讀框?yàn)?。閱讀框概念的引入是有生物學(xué)意義的，生物體通過(guò)對(duì)剪接位點(diǎn)剪接等操作形成mRNA，在mRNA的核苷酸序列中只有與翻譯起始位點(diǎn)有相同閱讀框的3個(gè)核苷酸才可能編碼氨基酸。在第一個(gè)供體位點(diǎn)前，ATG信號(hào)在DNA序列上出現(xiàn)的位置決定了該ATG可能具有的某個(gè)屬性：N：出現(xiàn)在翻譯起始位點(diǎn)之前，或出現(xiàn)在翻譯起始位點(diǎn)之后且閱讀框與翻譯起始位點(diǎn)對(duì)應(yīng)的閱讀框不同。S：出現(xiàn)在翻譯起始位點(diǎn)位點(diǎn)上。C：出現(xiàn)在翻譯起始位點(diǎn)之后且閱讀框與翻譯起始位點(diǎn)對(duì)應(yīng)的閱讀框相同。我們猜想，每一個(gè)ATG信號(hào)并不是獨(dú)立的，它與鄰近的其它ATG信號(hào)存在某些關(guān)聯(lián)，尤其對(duì)于具有同一閱讀框的ATG信號(hào)這種關(guān)聯(lián)將更為強(qiáng)烈。這樣的話，考察同一閱讀框的3個(gè)相鄰ATG信號(hào)之間的關(guān)聯(lián)性，可以歸納出中間那個(gè)ATG信號(hào)可能具有的6種狀態(tài)：1，當(dāng)ATG信號(hào)與翻譯起始位點(diǎn)有相同閱讀框時(shí)，有5種：NNN_0（NNN_0,表示這3個(gè)ATG的屬性依次為：N，N，N。后面的數(shù)字表示這3個(gè)ATG的閱讀框，后類推），NNS_0，NSC_0，SCC_0，CCC_0。2，當(dāng)ATG信號(hào)不與TIS同閱讀框時(shí)歸為第6種：NNN_1,2。為了刻畫具有NSC_0狀態(tài)的ATG信號(hào)與具有其它狀態(tài)信號(hào)之間的區(qū)別，我們?nèi)〕雠c其有相同閱讀框的前后各一個(gè)ATG信號(hào)，將這三個(gè)ATG信號(hào)各自對(duì)應(yīng)的取其前mt后nt核苷酸序列Lt（t=1,2,3）拼接起來(lái)構(gòu)成一條序列總長(zhǎng)為l＝的序列S（如圖2）。圖2將三條序列拼接起來(lái)，構(gòu)成一條新的序列S（這里假定（m，n）分別為（4，7）、（2，9）以及（5，6））在統(tǒng)計(jì)出不同狀態(tài)對(duì)應(yīng)于S權(quán)重矩陣后，類似于將ATG信號(hào)分為兩類時(shí)相對(duì)熵的定義，我們給出將ATG信號(hào)分為6個(gè)狀態(tài)時(shí)的相對(duì)熵的定義為了刻畫具有狀態(tài)NSC_0的ATG信號(hào)與其它狀態(tài)的ATG信號(hào)的差別，我們同樣可以引入熵距離的概念，不過(guò)這里的熵距離是一個(gè)5維向量：如果認(rèn)為非編碼區(qū)內(nèi)的核苷酸之間是相互獨(dú)立的以及結(jié)合生物學(xué)上每個(gè)氨基酸是由3個(gè)核苷酸編碼而成這個(gè)事實(shí)，我們可以認(rèn)為將序列Lt劃分為pt個(gè)片段Ltj（其中，如圖3），并將每個(gè)片段統(tǒng)計(jì)出的熵距離組成一個(gè)向量是有意義的。這樣S就被化為n＝個(gè)片斷，第m個(gè)片斷的相對(duì)熵、熵距離以及S的熵距離依次為：圖3將序列Lt劃分為各個(gè)片斷可以看出，每一ATG信號(hào)都可以在5×n維的熵距離空間中對(duì)應(yīng)一個(gè)向量。這樣對(duì)于給定的一個(gè)ATG信號(hào)，我們構(gòu)造出其，計(jì)算該與各種狀態(tài)ATG信號(hào)對(duì)應(yīng)中心的距離lk，取dk=σk*lk(k=1,2,…6,0<σk為參數(shù))，取最小值對(duì)應(yīng)的狀態(tài)為該ATG最可能的狀態(tài)，進(jìn)而判斷出該ATG的屬性。表1給出了在相同條件下，采用多狀態(tài)熵距離判別分析方法（各種參數(shù)如表2）與WMM【1】對(duì)測(cè)試集的ATG信號(hào)進(jìn)行分析的對(duì)照結(jié)果。從表中可以發(fā)現(xiàn)：對(duì)于在第一個(gè)內(nèi)含子前面的序列，在要求較高精度（>93%）地識(shí)別出TIS的條件下，采用多狀態(tài)熵距離判別分析方法總比WMM方法能減少不少假陽(yáng)性。多狀態(tài)熵距離判別分析方法從WMM方法中減少假陽(yáng)性ATG信號(hào)數(shù)目的能力(減數(shù)/WMM數(shù)目)是隨分析范圍的從5’端往后延伸而降低的。即與WMM相比，保守地估計(jì)多狀態(tài)熵距離判別分析方法只在分析第一個(gè)受體位點(diǎn)前的ATG信號(hào)占優(yōu)勢(shì)。而這對(duì)我們?cè)O(shè)計(jì)可以算法就已經(jīng)夠用了，如下文可以看出我們只需要學(xué)習(xí)第一個(gè)受體位點(diǎn)前信息。表1多狀態(tài)熵距離判別分析方法與WMM的對(duì)照結(jié)果（這里把判斷為TIS的不具有NSC_0狀態(tài)的ATG信號(hào)成為假陽(yáng)性的ATG信號(hào)）分析到第一個(gè)供體位點(diǎn)之前分析到第一個(gè)受體位點(diǎn)之前TIS=ATG信號(hào)假陽(yáng)性的ATG信號(hào)減少數(shù)目減數(shù)/WMM數(shù)目TIS=ATG信號(hào)假陽(yáng)性的ATG信號(hào)減少數(shù)目減數(shù)/WMM數(shù)目多狀態(tài)熵距離數(shù)目WMM數(shù)目多狀態(tài)熵距離數(shù)目WMM數(shù)目134832848160.01913414891403-86-0.0613810131040270.02613717681764-4-0.00143123513651300.09514221232157320.015145130014821820.122149307334323590.105151197322302570.115151347339204470.114 表2多狀態(tài)熵距離判別分析的各種基本參數(shù)3同閱讀框的ATG信號(hào)ATG信號(hào)前核苷酸數(shù)bpATG信號(hào)前片段數(shù)每片段含核苷酸數(shù)bpATG信號(hào)后核苷酸數(shù)bpATG信號(hào)后片段數(shù)每片段含核苷酸數(shù)bp1stATG60601606012ndATG30301903033rdATG30103301033.2GT信號(hào)的WMM方法在多外顯子基因中，外顯子后面往往出現(xiàn)“GT”兩個(gè)核苷酸，這樣的GT在DNA序列中位置稱為供體位點(diǎn)。GT信號(hào)是指出現(xiàn)在真核生物DNA序列上的2個(gè)相鄰核苷酸“GT”，這里還要用到STP信號(hào)：3個(gè)相鄰核苷酸“TGA”、“TAA”或“TAG”。我們將學(xué)習(xí)集中第一個(gè)供體位點(diǎn)上的GT信號(hào)歸到類D（donor）中。在學(xué)習(xí)序列5’端到第一個(gè)受體位點(diǎn)之間的范圍內(nèi)，我們用多狀態(tài)熵距離判別分析方法對(duì)序列中的ATG信號(hào)依次分析。當(dāng)有ATG對(duì)應(yīng)的狀態(tài)判為NSC_0時(shí)，找出與其同相位的第一個(gè)STP信號(hào)，將它倆之間非D類的GT信號(hào)歸到類ND（notdonor）中，然后對(duì)STP以后的ATG信號(hào)重復(fù)以上的操作。包含GT信號(hào)的核苷酸序列，相應(yīng)地可分為兩類：包含D類GT信號(hào)的序列，和包含ND類GT信號(hào)的序列。各類序列在其不同位置對(duì)核苷酸的偏好程度可以通過(guò)權(quán)重矩陣得到刻畫。對(duì)于給定的一個(gè)GT，我們?nèi)〕銎湎鄳?yīng)序列，將該序列中每一核苷酸在ND權(quán)重矩陣相應(yīng)位置上的數(shù)據(jù)相加得出其歸為ND類的概率p，同樣方法可得出其歸為D類的概率q，如果p>q則該GT信號(hào)成為受體位點(diǎn)的可能性大。程序中，GT信號(hào)對(duì)應(yīng)序列的參數(shù)選為GT信號(hào)前20bp后20bp。3.3選取模糊詞匯以及得出用于MED聚類的[ATG…]GT序列我們?cè)趯W(xué)習(xí)集的每一條序列第一個(gè)受體位點(diǎn)之前，先用多狀態(tài)熵距離判別分析方法找出狀態(tài)為NSC_0的ATG信號(hào)，再找出與該ATG信號(hào)有相同閱讀框的第一個(gè)STP信號(hào)，在它倆之間用WMM找出最大可能成為D類的GT信號(hào)，將ATG信號(hào)與該GT信號(hào)標(biāo)識(shí)的序列取出構(gòu)成[ATG…]GT序列，這樣將找出不包含TIS的[ATG…]GT序列共2297個(gè)，歸為類NIE（notinitialexon，這其間要求：如果[ATG…]GT序列中ATG的相位與其所在序列TIS的相位相同，則該序列與5’端外顯子相重疊的部分不超過(guò)序列總長(zhǎng)的1/3）。另外我們選取包含TIS的[ATG…]GT序列(即5’端外顯子)共874個(gè)，歸為類IE（initialexon）。然而我們發(fā)現(xiàn)，通過(guò)引入模糊詞匯的概念可以將NIE類的數(shù)目進(jìn)一步縮小。原核生物中，翻譯起始密碼子上游4~7個(gè)核苷酸之前有一段富含5’…AGGAGG…3’的短小序列，成為SD序列【12】。我們猜想在真核生物中是否也有類似的現(xiàn)象，這樣的短小序列不只一種形式，并且它們?cè)谶M(jìn)化的過(guò)程中可能會(huì)發(fā)生變異、插入以及缺失。這種的短小序列稱為模糊詞匯。這樣我們對(duì)長(zhǎng)度為6的46個(gè)信號(hào)在777個(gè)翻譯起始位點(diǎn)（要求對(duì)應(yīng)第一個(gè)外顯子的長(zhǎng)度大于30bp）前14bp范圍內(nèi)進(jìn)行枚舉得出最多允許2個(gè)核苷酸變異的模糊詞匯CCAGCC，CTCAGC以及GCCAGC，滿足IE類中有90%以及NIE類中有59%的[ATG…]GT序列前出現(xiàn)了其中的某個(gè)或多個(gè)詞匯。我們只保留將NIE類中出現(xiàn)某個(gè)模糊詞匯的[ATG…]GT序列共1353條以及IE類中長(zhǎng)度大于30bp的[ATG…]GT序列共777條。3.4[ATG…]GT序列的MED多中心聚類MED主要思想如下簡(jiǎn)述【16】。Shannon【13】在討論人工語(yǔ)言時(shí)指出,對(duì)一段文字或語(yǔ)言最好的刻畫是從其基本詞匯的出現(xiàn)頻率出發(fā).那么,對(duì)于[ATG…]GT序列如何選取這些基本詞匯呢?根據(jù)中心法則,具有編碼功能的DNA序列按照通用遺傳密碼被翻譯成具有生物學(xué)意義的氨基酸序列,氨基酸序列通過(guò)特定的空間折疊得到具有生物活性的蛋白質(zhì),在生命過(guò)程中發(fā)揮功能。因此，以20種氨基酸作為理解生物DNA序列的基本詞匯是一個(gè)很自然的選擇。我們認(rèn)為,具有生物學(xué)意義、能編碼蛋白質(zhì)的IE類[ATG…]GT序列的與非編碼的NIE類[ATG…]GT序列的編碼潛能有著一定的差別.為刻畫編碼潛能,我們引入多變量的參數(shù)——熵密度分布（entropydensityprofile,簡(jiǎn)稱EDP）。假定所給定[ATG…]GT序列長(zhǎng)度為L(zhǎng)（以氨基酸為單位）,第i種氨基酸（按照其字母簡(jiǎn)稱排序）的出現(xiàn)次數(shù)為L(zhǎng)i,則得到第i種氨基酸的使用頻率（或豐度）為.根據(jù)Shannon熵的定義可以構(gòu)造該[ATG…]GT序列的熵密度分布（EDP）:這樣,對(duì)于任意的[ATG…]GT序列,我們都可以構(gòu)造出它的多變量的參數(shù)EDP,即（i=1,…,20）,使之對(duì)應(yīng)于20維的相空間上的一點(diǎn).然后，我們用相空間中任意兩點(diǎn)和（分別對(duì)應(yīng)兩段DNA序列的EDP）的歐氏距離D來(lái)刻畫兩[ATG…]GT序列的差異：，通過(guò)計(jì)算一個(gè)未知[ATG…]GT序列的EDP與一系列已知EDP相點(diǎn)的距離,我們可以方便地將未知[ATG…]GT序列進(jìn)行歸類。我們認(rèn)為，在20維相空間中，對(duì)一個(gè)給定的[ATG…]GT序列，它的EDP在相空間中總是更傾向于分布在自己所屬一類的某個(gè)中心周圍。也就是說(shuō)，[ATG…]GT序列的EDP在相空間中表現(xiàn)出很明顯的聚類性。這里同時(shí)也指出每一類的聚類中心往往有不只一個(gè)，為了較好的刻畫這樣的聚類性，我們采用了多中心聚類方法。下面結(jié)合[ATG…]GT序列對(duì)多中心聚類方法作簡(jiǎn)要介紹【14】。在20維相空間上有兩類集合IE、NIE（以下分別用X，Y表示，分別有I，J個(gè)點(diǎn)）。我們要解決的問(wèn)題是，找出反映集合X、Y中樣品點(diǎn)分布性質(zhì)的兩類多中心、，這里的，是中心的序號(hào)，且，。在判別未知點(diǎn)時(shí)，計(jì)算其中是歐氏距離。通過(guò)比較距離和的大小，若，則；若，則。因此，關(guān)鍵問(wèn)題是如何得到兩類多中心和。下面以求的多中心（multi-centers）為例。首先在中隨機(jī)挑選一批有代表性的樣品點(diǎn)，稱之為聚點(diǎn)（clusteringpoint），要求它們滿足：（1）、兩兩之間的距離不小于（r為聚類半徑），即；（2）、構(gòu)造區(qū)域，是以為球心、為半徑的小球，若，有：然后，對(duì)以聚點(diǎn)為球心、為半徑的小球進(jìn)行平均，得到它的初始中心。以初始中心作為下一步的新樣品點(diǎn)集，仍然以半徑r為標(biāo)準(zhǔn)構(gòu)造新的聚點(diǎn)，并得到新的中心。重復(fù)計(jì)算下去，直到第m步中心滿足收斂標(biāo)準(zhǔn)，即。由此得到，迭代計(jì)算結(jié)束。理論上可以證明，當(dāng)m增大時(shí)，會(huì)趨于穩(wěn)定，即，n=1,…,N同樣可以得到點(diǎn)集的多中心。上述聚類算法的關(guān)鍵參數(shù)是聚類半徑r，r太小學(xué)習(xí)出的數(shù)據(jù)特異性太強(qiáng)，不具有一般性，r過(guò)大則又不能反映多中心的性質(zhì)。我們通過(guò)多次嘗試，可以大致估計(jì)IE和NIE的聚類半徑宜在0.2左右。我們對(duì)1353條NIE類[ATG…]GT序列以及777條IE類[ATG…]GT序列運(yùn)用多中心聚類，得出中心數(shù)目分別為213，90。同時(shí)可以分析出：IE類的EDP點(diǎn)在相空間上的分布要更“緊湊”，而NIE類的EDP點(diǎn)在相空間上要更“松散”一些。對(duì)于給定的一個(gè)[ATG…]GT序列，求出它與IE類多中心的最短距離DIE及與NIE類多中心的最短距離DNIE。取=*，=*（0<<1，0<<1為參數(shù)），如果<,則該[ATG…]GT序列屬于IE類，否則為NIE類。這樣我們就給出了5’端外顯子的預(yù)測(cè)。4結(jié)果與討論我們采用如下方法對(duì)測(cè)試集進(jìn)行測(cè)試：從每一測(cè)試序列的5’端開(kāi)始用多狀態(tài)信號(hào)的熵距離判別分析方法分析出狀態(tài)為NSC_0的ATG信號(hào)后，在該ATG信號(hào)之后找出與之同閱讀框的STP信號(hào)，再利用WMM在ATG與STP之間找出最大可能成為D類的GT信號(hào)，如果該ATG及GT組成的[ATG…]GT序列前出現(xiàn)了某個(gè)模糊詞匯則采用MED多中心聚類方法進(jìn)行判別，將判為類IE的[ATG…]GT序列對(duì)應(yīng)的ATG、GT信號(hào)存入結(jié)果，接下來(lái)多狀態(tài)熵距離判別分析方法對(duì)該STP信號(hào)以后的ATG信號(hào)進(jìn)行分析，重復(fù)以上過(guò)程,圖4給出了該算法的流程圖。圖4翻譯起始位點(diǎn)以及5’端外顯子預(yù)測(cè)算法流程圖為了預(yù)測(cè)出翻譯起始位點(diǎn)，DNA序列上的ATG信號(hào)、GT信號(hào)，模糊詞匯以及[ATG…]GT序列編碼潛能三個(gè)方面的信息被綜合考慮了。我們知道如果只采用算法中的某些步驟，也能構(gòu)成對(duì)翻譯起始位點(diǎn)的預(yù)測(cè)，比如只考慮ATG信號(hào)的特征。這表3給出了對(duì)于預(yù)測(cè)翻譯起始位點(diǎn)，如果只考慮ATG信號(hào)，只考慮ATG、GT信號(hào)，只考慮ATG信號(hào)、GT信號(hào)、模糊詞匯的算法以及最終采用的算法的對(duì)比結(jié)果。表3只采用算法中某些步驟與采用完整算法對(duì)比結(jié)果對(duì)TIS出現(xiàn)、未出現(xiàn)（假陽(yáng)性ATG）在T表位置K上的次數(shù)作統(tǒng)計(jì)T中元素的個(gè)數(shù)不超過(guò)K(T中包含元素可能多于3個(gè)，這里只給出不超過(guò)3的情況)T中元素的個(gè)數(shù)123TIS假陽(yáng)性的ATGTIS假陽(yáng)性的ATGTIS假陽(yáng)性的ATGTIS假陽(yáng)性的ATGATG信號(hào)103012214138151371101372ATG,GT信號(hào)855962212815128117889ATG,GT,模糊詞匯565851612315112104519最終采用算法37377611096082247每條序列可能測(cè)出多個(gè)“翻譯起始位點(diǎn)”，將它們按在DNA序列上出現(xiàn)的位置從小到大排列成一個(gè)隊(duì)T，如果翻譯起始位點(diǎn)出現(xiàn)在該隊(duì)中，則其出現(xiàn)在表中的位置記為K對(duì)翻譯起始位點(diǎn)的預(yù)測(cè)，就實(shí)際應(yīng)用而言，我們有兩種模式實(shí)際的含有一條基因的DNA序列，只有不多于一個(gè)翻譯起始位點(diǎn)。這樣在只需要得到一個(gè)翻譯起始位點(diǎn)或5’端外顯子情況下，由表3可知最終采用算法在這方面表現(xiàn)最好，它能預(yù)測(cè)對(duì)73個(gè)翻譯起始位點(diǎn)，居于首位。設(shè)計(jì)預(yù)測(cè)完整的基因的算法時(shí)，可能要用多個(gè)預(yù)測(cè)出的翻譯起始位點(diǎn)或5’端外顯子，作為預(yù)測(cè)其它信號(hào)如剪接位點(diǎn)的初值。在這種模式上，為了評(píng)估哪種方法最優(yōu)，我們要兼顧兩方面。一方面是判為狀態(tài)NSC_0的ATG信號(hào)數(shù)目不宜太少，否則我們最終滿足不了預(yù)測(cè)翻譯起始位點(diǎn)的精度要求。另一方面是假陽(yáng)性的ATG不宜太多，否則可能出現(xiàn)初值包含大量假陽(yáng)性的ATG信息以至于將TIS的信息湮沒(méi)掉的情況。為此，定義sn、sp，以sn＋sp的高低評(píng)判方法的優(yōu)劣。表4給出了表3中各種方法的sn、sp以及sn＋sp，可以看出只考慮ATG以及GT信號(hào)是最合理的。表4在模式2下，評(píng)價(jià)表3各種方法優(yōu)劣的參數(shù)方法Sn（％）Sp（％）sn＋sp（％）ATG信號(hào)72.47.479.8ATG,GT信號(hào)77.011.688.6ATG,GT,模糊詞匯68.416.785.1最終采用算法53.924.978.8在這種模式下,最終采用算法出人意料地被評(píng)為最差。從下面分析可以看出這可能是由于[ATG…]GT序列的長(zhǎng)度過(guò)短導(dǎo)致MED方法的一個(gè)缺點(diǎn)引起的。而在原核生物中，MED方法對(duì)于短ORF（長(zhǎng)度低于300bp）預(yù)測(cè)的精度低于對(duì)長(zhǎng)的ORF的預(yù)測(cè)精度不少【15】。在本文中ORF將對(duì)應(yīng)于[ATG…]GT序列。我們接下來(lái)看一下學(xué)習(xí)集中的以及測(cè)試出具有NSC_0狀態(tài)中ATG信號(hào)對(duì)應(yīng)的[ATG…]GT序列長(zhǎng)度分布，如圖5。可以看出在真核生物中5’端外顯子的長(zhǎng)度絕大多數(shù)低于300bp，同時(shí)我們構(gòu)造出的NIE類的[ATG…]GT序列也存在這樣的情況。實(shí)際上，5’端外顯子過(guò)短也是導(dǎo)致其很難準(zhǔn)確預(yù)測(cè)的重要原因，因?yàn)樗环矫姘男畔⒘可伲硪环矫嫣桃灾掠诤茈y從內(nèi)容度量（contentmeasure）上進(jìn)行判別【8】圖5[ATG…]GT序列的長(zhǎng)度分布圖（a）學(xué)習(xí)集中[ATG…]GT序列長(zhǎng)度分布（b）測(cè)試集中具有NSC_0狀態(tài)中ATG信號(hào)對(duì)應(yīng)[ATG…]GT序列長(zhǎng)度分布模式2為我們今后設(shè)計(jì)包含翻譯起始位點(diǎn)、剪接位點(diǎn)以及翻譯終止位點(diǎn)等的完整基因結(jié)構(gòu)算法奠定了基礎(chǔ)。文章的最后，我們?cè)诓捎媚Ｊ?的情況下，將最終算法在預(yù)測(cè)5’端外顯子的結(jié)果與國(guó)際相關(guān)知名基因識(shí)別軟件預(yù)測(cè)的結(jié)果進(jìn)行比較，如表5【7】。表5將預(yù)測(cè)5’端外顯子的結(jié)果與國(guó)際相關(guān)知名基因識(shí)別軟件預(yù)測(cè)的結(jié)果進(jìn)行比較%FGENESGeneMarkGenieGenscanHMMgeneMorgan我們的方法Sn64404957683548Sp55484571723548 可以看出，對(duì)5’端外顯子的預(yù)測(cè)，我們的精度以及和Genie不相上下。通過(guò)前文可以發(fā)現(xiàn)我們的算法與GeneScan采用到的HMM模型【16】相比較是極其簡(jiǎn)單的，也達(dá)到了令人滿意的結(jié)果，這也構(gòu)成了我們算法的一個(gè)優(yōu)點(diǎn)。參考文獻(xiàn)【1】Staden,R.(1984).Computermethodstolocatesignalsinnucleicsequences.NucleicAcidsRes.12:505-519【2】Huaiqiuzhu,ZhensuShe,andWangJ.(2002).AnEDPbasedDescriptionofDNAsequencesandItsApplicationofExonsinHumanGenome.The2ndChineseConferenceOnBioinformatics,23.【3】Consortium,I.H.G.S.(2001).Initialsequencingandanalysisofthehumangenome.Nature.409:860-921【4】SheZ.S.,OuyangZ.Q.,RenK.,SheZ.S.,OuyangZ.Q.,RenK.,andWangJ.(2002).MultivariateEntropyDensityofDNASequence.Submittedto“PhysicalReviewLetters”.【5】T.A.布朗著，袁建剛，周嚴(yán),強(qiáng)伯勤譯.(2002).基因組.科學(xué)出版社【6】R.Guigo,S.Knudsen,

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

真核生物5端外顯子和翻譯起始位點(diǎn)的預(yù)測(cè)分析研究生物技術(shù)專業(yè)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

真核生物5端外顯子和翻譯起始位點(diǎn)的預(yù)測(cè)分析研究 生物技術(shù)專業(yè)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

真核生物5端外顯子和翻譯起始位點(diǎn)的預(yù)測(cè)分析研究生物技術(shù)專業(yè)