真核生物5端外顯子和翻譯起始位點(diǎn)的預(yù)測(cè)分析研究 生物技術(shù)專業(yè)_第1頁(yè)
真核生物5端外顯子和翻譯起始位點(diǎn)的預(yù)測(cè)分析研究 生物技術(shù)專業(yè)_第2頁(yè)
真核生物5端外顯子和翻譯起始位點(diǎn)的預(yù)測(cè)分析研究 生物技術(shù)專業(yè)_第3頁(yè)
真核生物5端外顯子和翻譯起始位點(diǎn)的預(yù)測(cè)分析研究 生物技術(shù)專業(yè)_第4頁(yè)
真核生物5端外顯子和翻譯起始位點(diǎn)的預(yù)測(cè)分析研究 生物技術(shù)專業(yè)_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

真核生物5’端外顯子和翻譯起始位點(diǎn)的預(yù)測(cè)PredictionofFirstExonsandTranslationInitiationSitesinEukaryoticGenomes摘要真核生物翻譯起始位點(diǎn)(TIS,translationinitiationsites)的正確預(yù)測(cè)對(duì)于基因的正確注釋有著重大的意義。本文試圖通過(guò)發(fā)展和結(jié)合一些現(xiàn)有的算法來(lái)較好地預(yù)測(cè)出真核生物翻譯起始位點(diǎn)。本文算法的得出主要基于三種方法自然結(jié)合。我們首先基于簡(jiǎn)單的權(quán)重矩陣方法(WMM,WeightMatrixMethod)【1】,發(fā)展了多狀態(tài)信號(hào)的熵距離判別分析方法,由此可以得到一些待定ATG信號(hào),這些信號(hào)包含了大部分的翻譯起始位點(diǎn)。接下來(lái),我們采用WMM找出與該ATG對(duì)應(yīng)的GT信號(hào)并將它們之間的序列提出(這里ATG信號(hào)以及GT信號(hào)的定義詳見(jiàn)正文)。通過(guò)引入模糊詞匯的概念,我們發(fā)現(xiàn)翻譯起始位點(diǎn)前存在某些模糊詞匯,這樣可以通過(guò)判斷ATG信號(hào)前是否含有某個(gè)“模糊詞匯”進(jìn)一步選出待定ATG信號(hào)。最終我們結(jié)合了佘振蘇教授提出的以統(tǒng)計(jì)語(yǔ)言學(xué)為特色的多元熵距離(multivariateentropydistance,MED)方法【2】對(duì)這些ATG信號(hào)對(duì)應(yīng)的閱讀框在20維空間中進(jìn)行多中心聚類形成了預(yù)測(cè)翻譯起始位點(diǎn)的完整算法并達(dá)到了較好的結(jié)果。 1引言 2001年2月,人類基因組計(jì)劃的相關(guān)組織和機(jī)構(gòu)公布了人類基因組測(cè)序草圖【3】,人類基因組計(jì)劃的提前完成,基因組的研究熱點(diǎn)已轉(zhuǎn)向揭示基因信息結(jié)構(gòu)的復(fù)雜性與遺傳語(yǔ)言的根本規(guī)律。其中,基因預(yù)測(cè)算法的研究也成為對(duì)基因組序列進(jìn)行統(tǒng)計(jì)分析的重要目標(biāo)。所謂基因預(yù)測(cè),就是在對(duì)DNA序列編碼潛能(codingpotentials)提出某種模式(pattern)描述的基礎(chǔ)上,對(duì)一未知的DNA序列上完整的基因結(jié)構(gòu)進(jìn)行注釋。對(duì)于原核生物,由于其基因結(jié)構(gòu)較為簡(jiǎn)單,在基因組的DNA鏈上表現(xiàn)為一個(gè)編碼蛋白質(zhì)的基因?qū)?yīng)為一段連續(xù)的開(kāi)放閱讀框(openreadingframe,ORF),因此,基因預(yù)測(cè)的問(wèn)題也相對(duì)簡(jiǎn)單,本人所在的佘振蘇教授研究小組已經(jīng)在這方面取得了很好的結(jié)果【4】。但是對(duì)于真核生物,它們的基因結(jié)構(gòu)遠(yuǎn)比原核生物的復(fù)雜,許多基因是斷裂基因,間斷成外顯子(exon)和內(nèi)含子(intron),并且exon在序列中長(zhǎng)度比例極小【5】。生物體通過(guò)對(duì)剪接位點(diǎn)(SpliceSite)的剪接等過(guò)程最終構(gòu)成蛋白質(zhì)。現(xiàn)有很多真核生物基因結(jié)構(gòu)的預(yù)測(cè)算法就是針對(duì)SpliceSite的預(yù)測(cè),即對(duì)外顯子的預(yù)測(cè),著名的有Genescan,GeneMark等。本質(zhì)上可以將外顯子分為4類:包含起始編碼子(startcodon)和終止編碼子(terminationcodon)的singleexon,包含起始編碼子和供體位點(diǎn)(donorsite)的firstexon,包含受體位點(diǎn)(acceptorcite)和供體位點(diǎn)的internalexon,以及包含受體位點(diǎn)和終止編碼子的terminalexon【6】?,F(xiàn)有基因預(yù)測(cè)軟件中對(duì)于firstexon、terminalexon以及singleexon,它們的識(shí)別精度通常都大大低于internalexon的識(shí)別精度【7】。Firstexon的預(yù)測(cè)實(shí)際上包含了對(duì)翻譯起始位點(diǎn)的預(yù)測(cè)。本文重點(diǎn)在于翻譯起始位點(diǎn)的預(yù)測(cè)算法設(shè)計(jì),同時(shí)也給出了5’端外顯子(即firstexon)的預(yù)測(cè)結(jié)果。 一般認(rèn)為,對(duì)基因結(jié)構(gòu)預(yù)測(cè)所用到的信息有三部分組成:序列上的信號(hào)(signal),內(nèi)容(content)統(tǒng)計(jì)以及與已知基因的相似度(similarity)【8】。我們用到的信息只是包含了前兩部分,對(duì)ATG信號(hào)的多狀態(tài)熵距離判別分析以及找出模糊詞匯是屬于信號(hào)的范疇,而對(duì)閱讀框運(yùn)用MED方法實(shí)際上關(guān)系到了內(nèi)容統(tǒng)計(jì)。在預(yù)測(cè)時(shí),我們采用的算法是簡(jiǎn)單的線性判別。2材料我們采用了Kulp&Reese(1995)、ALLSEQ【9】以及HMR195【7】三部分?jǐn)?shù)據(jù)集,其中前兩者的部分序列作為學(xué)習(xí)集,最后者的部分?jǐn)?shù)據(jù)作為測(cè)試集。如引言所提到,真核生物的基因按是否含有內(nèi)含子可以分為多外顯子基因以及單外顯子基因。實(shí)際上,前者在數(shù)目上占絕大多數(shù),因而本文關(guān)心的是對(duì)多外顯子基因中的翻譯起始位點(diǎn)以及5’端外顯子的研究與預(yù)測(cè)。Kulp&Reese(1995)提供的數(shù)據(jù)集是通過(guò)運(yùn)用BLASTP【10】刪除一些相似和冗余的序列后得到的。數(shù)據(jù)庫(kù)包含了人類的單外顯子基因186個(gè),多外顯子基因304個(gè),其中多外顯子基因中共包含1798個(gè)外顯子。我們直接采用了其中的304個(gè)多外顯子基因作為學(xué)習(xí)集的一部分。ALLSEQ數(shù)據(jù)集經(jīng)過(guò)了一些嚴(yán)格的標(biāo)準(zhǔn)【11】篩選、整理出來(lái)的。它包含的是一些脊椎動(dòng)物的多外顯子基因,有570個(gè),其中有外顯子數(shù)目為2649。我們采用ALLSEQ數(shù)據(jù)集構(gòu)成學(xué)習(xí)集的另一部分。HMR195數(shù)據(jù)集是Rogic等于2001年整理出的,其中包含了人、小鼠和大鼠共195條基因的注釋。數(shù)據(jù)集中人、小鼠、大鼠的比例為103:82:10,包含152個(gè)多外顯子基因和43個(gè)單外顯子基因。我們采用其中152個(gè)多外顯子基因作為測(cè)試集。這樣我們一共得到了874個(gè)基因作為學(xué)習(xí)集,152個(gè)基因作為測(cè)試集。 3方法3.1ATG信號(hào)的多狀態(tài)熵距離判別分析方法 真核序列中,基因一般是由編碼甲硫氨酸(Met)的密碼子ATG開(kāi)始,我們把這樣的ATG稱為翻譯起始位點(diǎn),而將DNA序列上出現(xiàn)的核苷酸三聯(lián)碼“ATG”稱為ATG信號(hào)。 為了描述ATG信號(hào),我們?nèi)〕鲇葾TG信號(hào)前mbp,后nbp組成的核苷酸序列L。用qij(j=1,…,m+n,i=0,…,3分別表示核苷酸A、C、G、T)表示出現(xiàn)在該序列上第j個(gè)位置上的核苷酸i,qij是一個(gè)4×(m+n)的矩陣,其特征如圖1所示。圖1用矩陣q來(lái)反映序列的核苷酸的位置以及內(nèi)容我們可以簡(jiǎn)單地將ATG信號(hào)分為兩類,一類是翻譯起始位點(diǎn),剩下的ATG信號(hào)歸為另一類。為了刻畫這兩類信號(hào)的區(qū)別,我們分別統(tǒng)計(jì)出他們對(duì)應(yīng)于L的權(quán)重矩陣、(它們都是4×(m+n)的矩陣),進(jìn)而依次定義出該序列的相對(duì)熵以及熵距離如下:, 然而通過(guò)引入多狀態(tài)熵距離判別分析,我們將對(duì)ATG信號(hào)有更細(xì)致的描寫。為了描敘處于不同狀態(tài)的ATG信號(hào)(“狀態(tài)”這個(gè)詞將在下文闡明),我們要用到閱讀框這個(gè)概念:在同一DNA序列上,如果用、來(lái)分別表示翻譯起始位點(diǎn)以及某個(gè)ATG信號(hào)的位置,則可以定義出該ATG信號(hào)的閱讀框(表示對(duì)3的求模運(yùn)算),可以看出翻譯起始位點(diǎn)對(duì)應(yīng)ATG信號(hào)的閱讀框?yàn)?。閱讀框概念的引入是有生物學(xué)意義的,生物體通過(guò)對(duì)剪接位點(diǎn)剪接等操作形成mRNA,在mRNA的核苷酸序列中只有與翻譯起始位點(diǎn)有相同閱讀框的3個(gè)核苷酸才可能編碼氨基酸。在第一個(gè)供體位點(diǎn)前,ATG信號(hào)在DNA序列上出現(xiàn)的位置決定了該ATG可能具有的某個(gè)屬性:N:出現(xiàn)在翻譯起始位點(diǎn)之前,或出現(xiàn)在翻譯起始位點(diǎn)之后且閱讀框與翻譯起始位點(diǎn)對(duì)應(yīng)的閱讀框不同。S:出現(xiàn)在翻譯起始位點(diǎn)位點(diǎn)上。C:出現(xiàn)在翻譯起始位點(diǎn)之后且閱讀框與翻譯起始位點(diǎn)對(duì)應(yīng)的閱讀框相同。我們猜想,每一個(gè)ATG信號(hào)并不是獨(dú)立的,它與鄰近的其它ATG信號(hào)存在某些關(guān)聯(lián),尤其對(duì)于具有同一閱讀框的ATG信號(hào)這種關(guān)聯(lián)將更為強(qiáng)烈。這樣的話,考察同一閱讀框的3個(gè)相鄰ATG信號(hào)之間的關(guān)聯(lián)性,可以歸納出中間那個(gè)ATG信號(hào)可能具有的6種狀態(tài):1,當(dāng)ATG信號(hào)與翻譯起始位點(diǎn)有相同閱讀框時(shí),有5種:NNN_0(NNN_0,表示這3個(gè)ATG的屬性依次為:N,N,N。后面的數(shù)字表示這3個(gè)ATG的閱讀框,后類推),NNS_0,NSC_0,SCC_0,CCC_0。2,當(dāng)ATG信號(hào)不與TIS同閱讀框時(shí)歸為第6種:NNN_1,2。 為了刻畫具有NSC_0狀態(tài)的ATG信號(hào)與具有其它狀態(tài)信號(hào)之間的區(qū)別,我們?nèi)〕雠c其有相同閱讀框的前后各一個(gè)ATG信號(hào),將這三個(gè)ATG信號(hào)各自對(duì)應(yīng)的取其前mt后nt核苷酸序列Lt(t=1,2,3)拼接起來(lái)構(gòu)成一條序列總長(zhǎng)為l=的序列S(如圖2)。 圖2將三條序列拼接起來(lái),構(gòu)成一條新的序列S(這里假定(m,n)分別為(4,7)、(2,9)以及(5,6)) 在統(tǒng)計(jì)出不同狀態(tài)對(duì)應(yīng)于S權(quán)重矩陣后,類似于將ATG信號(hào)分為兩類時(shí)相對(duì)熵的定義,我們給出將ATG信號(hào)分為6個(gè)狀態(tài)時(shí)的相對(duì)熵的定義 為了刻畫具有狀態(tài)NSC_0的ATG信號(hào)與其它狀態(tài)的ATG信號(hào)的差別,我們同樣可以引入熵距離的概念,不過(guò)這里的熵距離是一個(gè)5維向量: 如果認(rèn)為非編碼區(qū)內(nèi)的核苷酸之間是相互獨(dú)立的以及結(jié)合生物學(xué)上每個(gè)氨基酸是由3個(gè)核苷酸編碼而成這個(gè)事實(shí),我們可以認(rèn)為將序列Lt劃分為pt個(gè)片段Ltj(其中,如圖3),并將每個(gè)片段統(tǒng)計(jì)出的熵距離組成一個(gè)向量是有意義的。這樣S就被化為n=個(gè)片斷,第m個(gè)片斷的相對(duì)熵、熵距離以及S的熵距離依次為: 圖3將序列Lt劃分為各個(gè)片斷 可以看出,每一ATG信號(hào)都可以在5×n維的熵距離空間中對(duì)應(yīng)一個(gè)向量。這樣對(duì)于給定的一個(gè)ATG信號(hào),我們構(gòu)造出其,計(jì)算該與各種狀態(tài)ATG信號(hào)對(duì)應(yīng)中心的距離lk,取dk=σk*lk(k=1,2,…6,0<σk為參數(shù)),取最小值對(duì)應(yīng)的狀態(tài)為該ATG最可能的狀態(tài),進(jìn)而判斷出該ATG的屬性。 表1給出了在相同條件下,采用多狀態(tài)熵距離判別分析方法(各種參數(shù)如表2)與WMM【1】對(duì)測(cè)試集的ATG信號(hào)進(jìn)行分析的對(duì)照結(jié)果。從表中可以發(fā)現(xiàn):對(duì)于在第一個(gè)內(nèi)含子前面的序列,在要求較高精度(>93%)地識(shí)別出TIS的條件下,采用多狀態(tài)熵距離判別分析方法總比WMM方法能減少不少假陽(yáng)性。多狀態(tài)熵距離判別分析方法從WMM方法中減少假陽(yáng)性ATG信號(hào)數(shù)目的能力(減數(shù)/WMM數(shù)目)是隨分析范圍的從5’端往后延伸而降低的。即與WMM相比,保守地估計(jì)多狀態(tài)熵距離判別分析方法只在分析第一個(gè)受體位點(diǎn)前的ATG信號(hào)占優(yōu)勢(shì)。而這對(duì)我們?cè)O(shè)計(jì)可以算法就已經(jīng)夠用了,如下文可以看出我們只需要學(xué)習(xí)第一個(gè)受體位點(diǎn)前信息。 表1多狀態(tài)熵距離判別分析方法與WMM的對(duì)照結(jié)果(這里把判斷為TIS的不具有NSC_0狀態(tài)的ATG信號(hào)成為假陽(yáng)性的ATG信號(hào))分析到第一個(gè)供體位點(diǎn)之前分析到第一個(gè)受體位點(diǎn)之前TIS=ATG信號(hào)假陽(yáng)性的ATG信號(hào)減少數(shù)目減數(shù)/WMM數(shù)目TIS=ATG信號(hào)假陽(yáng)性的ATG信號(hào)減少數(shù)目減數(shù)/WMM數(shù)目多狀態(tài)熵距離數(shù)目WMM數(shù)目多狀態(tài)熵距離數(shù)目WMM數(shù)目134832848160.01913414891403-86-0.0613810131040270.02613717681764-4-0.00143123513651300.09514221232157320.015145130014821820.122149307334323590.105151197322302570.115151347339204470.114 表2多狀態(tài)熵距離判別分析的各種基本參數(shù)3同閱讀框的ATG信號(hào)ATG信號(hào)前核苷酸數(shù)bpATG信號(hào)前片段數(shù)每片段含核苷酸數(shù)bpATG信號(hào)后核苷酸數(shù)bpATG信號(hào)后片段數(shù)每片段含核苷酸數(shù)bp1stATG60601606012ndATG30301903033rdATG30103301033.2GT信號(hào)的WMM方法 在多外顯子基因中,外顯子后面往往出現(xiàn)“GT”兩個(gè)核苷酸,這樣的GT在DNA序列中位置稱為供體位點(diǎn)。GT信號(hào)是指出現(xiàn)在真核生物DNA序列上的2個(gè)相鄰核苷酸“GT”,這里還要用到STP信號(hào):3個(gè)相鄰核苷酸“TGA”、“TAA”或“TAG”。 我們將學(xué)習(xí)集中第一個(gè)供體位點(diǎn)上的GT信號(hào)歸到類D(donor)中。在學(xué)習(xí)序列5’端到第一個(gè)受體位點(diǎn)之間的范圍內(nèi),我們用多狀態(tài)熵距離判別分析方法對(duì)序列中的ATG信號(hào)依次分析。當(dāng)有ATG對(duì)應(yīng)的狀態(tài)判為NSC_0時(shí),找出與其同相位的第一個(gè)STP信號(hào),將它倆之間非D類的GT信號(hào)歸到類ND(notdonor)中,然后對(duì)STP以后的ATG信號(hào)重復(fù)以上的操作。包含GT信號(hào)的核苷酸序列,相應(yīng)地可分為兩類:包含D類GT信號(hào)的序列,和包含ND類GT信號(hào)的序列。各類序列在其不同位置對(duì)核苷酸的偏好程度可以通過(guò)權(quán)重矩陣得到刻畫。對(duì)于給定的一個(gè)GT,我們?nèi)〕銎湎鄳?yīng)序列,將該序列中每一核苷酸在ND權(quán)重矩陣相應(yīng)位置上的數(shù)據(jù)相加得出其歸為ND類的概率p,同樣方法可得出其歸為D類的概率q,如果p>q則該GT信號(hào)成為受體位點(diǎn)的可能性大。程序中,GT信號(hào)對(duì)應(yīng)序列的參數(shù)選為GT信號(hào)前20bp后20bp。3.3選取模糊詞匯以及得出用于MED聚類的[ATG…]GT序列我們?cè)趯W(xué)習(xí)集的每一條序列第一個(gè)受體位點(diǎn)之前,先用多狀態(tài)熵距離判別分析方法找出狀態(tài)為NSC_0的ATG信號(hào),再找出與該ATG信號(hào)有相同閱讀框的第一個(gè)STP信號(hào),在它倆之間用WMM找出最大可能成為D類的GT信號(hào),將ATG信號(hào)與該GT信號(hào)標(biāo)識(shí)的序列取出構(gòu)成[ATG…]GT序列,這樣將找出不包含TIS的[ATG…]GT序列共2297個(gè),歸為類NIE(notinitialexon,這其間要求:如果[ATG…]GT序列中ATG的相位與其所在序列TIS的相位相同,則該序列與5’端外顯子相重疊的部分不超過(guò)序列總長(zhǎng)的1/3)。另外我們選取包含TIS的[ATG…]GT序列(即5’端外顯子)共874個(gè),歸為類IE(initialexon)。然而我們發(fā)現(xiàn),通過(guò)引入模糊詞匯的概念可以將NIE類的數(shù)目進(jìn)一步縮小。 原核生物中,翻譯起始密碼子上游4~7個(gè)核苷酸之前有一段富含5’…AGGAGG…3’的短小序列,成為SD序列【12】。我們猜想在真核生物中是否也有類似的現(xiàn)象,這樣的短小序列不只一種形式,并且它們?cè)谶M(jìn)化的過(guò)程中可能會(huì)發(fā)生變異、插入以及缺失。這種的短小序列稱為模糊詞匯。這樣我們對(duì)長(zhǎng)度為6的46個(gè)信號(hào)在777個(gè)翻譯起始位點(diǎn)(要求對(duì)應(yīng)第一個(gè)外顯子的長(zhǎng)度大于30bp)前14bp范圍內(nèi)進(jìn)行枚舉得出最多允許2個(gè)核苷酸變異的模糊詞匯CCAGCC,CTCAGC以及GCCAGC,滿足IE類中有90%以及NIE類中有59%的[ATG…]GT序列前出現(xiàn)了其中的某個(gè)或多個(gè)詞匯。我們只保留將NIE類中出現(xiàn)某個(gè)模糊詞匯的[ATG…]GT序列共1353條以及IE類中長(zhǎng)度大于30bp的[ATG…]GT序列共777條。3.4[ATG…]GT序列的MED多中心聚類MED主要思想如下簡(jiǎn)述【16】。Shannon【13】在討論人工語(yǔ)言時(shí)指出,對(duì)一段文字或語(yǔ)言最好的刻畫是從其基本詞匯的出現(xiàn)頻率出發(fā).那么,對(duì)于[ATG…]GT序列如何選取這些基本詞匯呢?根據(jù)中心法則,具有編碼功能的DNA序列按照通用遺傳密碼被翻譯成具有生物學(xué)意義的氨基酸序列,氨基酸序列通過(guò)特定的空間折疊得到具有生物活性的蛋白質(zhì),在生命過(guò)程中發(fā)揮功能。因此,以20種氨基酸作為理解生物DNA序列的基本詞匯是一個(gè)很自然的選擇。我們認(rèn)為,具有生物學(xué)意義、能編碼蛋白質(zhì)的IE類[ATG…]GT序列的與非編碼的NIE類[ATG…]GT序列的編碼潛能有著一定的差別.為刻畫編碼潛能,我們引入多變量的參數(shù)——熵密度分布(entropydensityprofile,簡(jiǎn)稱EDP)。假定所給定[ATG…]GT序列長(zhǎng)度為L(zhǎng)(以氨基酸為單位),第i種氨基酸(按照其字母簡(jiǎn)稱排序)的出現(xiàn)次數(shù)為L(zhǎng)i,則得到第i種氨基酸的使用頻率(或豐度)為.根據(jù)Shannon熵的定義可以構(gòu)造該[ATG…]GT序列的熵密度分布(EDP):這樣,對(duì)于任意的[ATG…]GT序列,我們都可以構(gòu)造出它的多變量的參數(shù)EDP,即(i=1,…,20),使之對(duì)應(yīng)于20維的相空間上的一點(diǎn).然后,我們用相空間中任意兩點(diǎn)和(分別對(duì)應(yīng)兩段DNA序列的EDP)的歐氏距離D來(lái)刻畫兩[ATG…]GT序列的差異:,通過(guò)計(jì)算一個(gè)未知[ATG…]GT序列的EDP與一系列已知EDP相點(diǎn)的距離,我們可以方便地將未知[ATG…]GT序列進(jìn)行歸類。我們認(rèn)為,在20維相空間中,對(duì)一個(gè)給定的[ATG…]GT序列,它的EDP在相空間中總是更傾向于分布在自己所屬一類的某個(gè)中心周圍。也就是說(shuō),[ATG…]GT序列的EDP在相空間中表現(xiàn)出很明顯的聚類性。這里同時(shí)也指出每一類的聚類中心往往有不只一個(gè),為了較好的刻畫這樣的聚類性,我們采用了多中心聚類方法。下面結(jié)合[ATG…]GT序列對(duì)多中心聚類方法作簡(jiǎn)要介紹【14】。在20維相空間上有兩類集合IE、NIE(以下分別用X,Y表示,分別有I,J個(gè)點(diǎn))。我們要解決的問(wèn)題是,找出反映集合X、Y中樣品點(diǎn)分布性質(zhì)的兩類多中心、,這里的,是中心的序號(hào),且,。在判別未知點(diǎn)時(shí),計(jì)算其中是歐氏距離。通過(guò)比較距離和的大小,若,則;若,則。因此,關(guān)鍵問(wèn)題是如何得到兩類多中心和。下面以求的多中心(multi-centers)為例。首先在中隨機(jī)挑選一批有代表性的樣品點(diǎn),稱之為聚點(diǎn)(clusteringpoint),要求它們滿足:(1)、兩兩之間的距離不小于(r為聚類半徑),即;(2)、構(gòu)造區(qū)域,是以為球心、為半徑的小球,若,有:然后,對(duì)以聚點(diǎn)為球心、為半徑的小球進(jìn)行平均,得到它的初始中心。以初始中心作為下一步的新樣品點(diǎn)集,仍然以半徑r為標(biāo)準(zhǔn)構(gòu)造新的聚點(diǎn),并得到新的中心。重復(fù)計(jì)算下去,直到第m步中心滿足收斂標(biāo)準(zhǔn),即。由此得到,迭代計(jì)算結(jié)束。理論上可以證明,當(dāng)m增大時(shí),會(huì)趨于穩(wěn)定,即,n=1,…,N同樣可以得到點(diǎn)集的多中心。上述聚類算法的關(guān)鍵參數(shù)是聚類半徑r,r太小學(xué)習(xí)出的數(shù)據(jù)特異性太強(qiáng),不具有一般性,r過(guò)大則又不能反映多中心的性質(zhì)。我們通過(guò)多次嘗試,可以大致估計(jì)IE和NIE的聚類半徑宜在0.2左右。我們對(duì)1353條NIE類[ATG…]GT序列以及777條IE類[ATG…]GT序列運(yùn)用多中心聚類,得出中心數(shù)目分別為213,90。同時(shí)可以分析出:IE類的EDP點(diǎn)在相空間上的分布要更“緊湊”,而NIE類的EDP點(diǎn)在相空間上要更“松散”一些。對(duì)于給定的一個(gè)[ATG…]GT序列,求出它與IE類多中心的最短距離DIE及與NIE類多中心的最短距離DNIE。取=*,=*(0<<1,0<<1為參數(shù)),如果<,則該[ATG…]GT序列屬于IE類,否則為NIE類。這樣我們就給出了5’端外顯子的預(yù)測(cè)。4結(jié)果與討論我們采用如下方法對(duì)測(cè)試集進(jìn)行測(cè)試:從每一測(cè)試序列的5’端開(kāi)始用多狀態(tài)信號(hào)的熵距離判別分析方法分析出狀態(tài)為NSC_0的ATG信號(hào)后,在該ATG信號(hào)之后找出與之同閱讀框的STP信號(hào),再利用WMM在ATG與STP之間找出最大可能成為D類的GT信號(hào),如果該ATG及GT組成的[ATG…]GT序列前出現(xiàn)了某個(gè)模糊詞匯則采用MED多中心聚類方法進(jìn)行判別,將判為類IE的[ATG…]GT序列對(duì)應(yīng)的ATG、GT信號(hào)存入結(jié)果,接下來(lái)多狀態(tài)熵距離判別分析方法對(duì)該STP信號(hào)以后的ATG信號(hào)進(jìn)行分析,重復(fù)以上過(guò)程,圖4給出了該算法的流程圖。圖4翻譯起始位點(diǎn)以及5’端外顯子預(yù)測(cè)算法流程圖為了預(yù)測(cè)出翻譯起始位點(diǎn),DNA序列上的ATG信號(hào)、GT信號(hào),模糊詞匯以及[ATG…]GT序列編碼潛能三個(gè)方面的信息被綜合考慮了。我們知道如果只采用算法中的某些步驟,也能構(gòu)成對(duì)翻譯起始位點(diǎn)的預(yù)測(cè),比如只考慮ATG信號(hào)的特征。這表3給出了對(duì)于預(yù)測(cè)翻譯起始位點(diǎn),如果只考慮ATG信號(hào),只考慮ATG、GT信號(hào),只考慮ATG信號(hào)、GT信號(hào)、模糊詞匯的算法以及最終采用的算法的對(duì)比結(jié)果。表3只采用算法中某些步驟與采用完整算法對(duì)比結(jié)果對(duì)TIS出現(xiàn)、未出現(xiàn)(假陽(yáng)性ATG)在T表位置K上的次數(shù)作統(tǒng)計(jì)T中元素的個(gè)數(shù)不超過(guò)K(T中包含元素可能多于3個(gè),這里只給出不超過(guò)3的情況)T中元素的個(gè)數(shù)123TIS假陽(yáng)性的ATGTIS假陽(yáng)性的ATGTIS假陽(yáng)性的ATGTIS假陽(yáng)性的ATGATG信號(hào)103012214138151371101372ATG,GT信號(hào)855962212815128117889ATG,GT,模糊詞匯565851612315112104519最終采用算法37377611096082247每條序列可能測(cè)出多個(gè)“翻譯起始位點(diǎn)”,將它們按在DNA序列上出現(xiàn)的位置從小到大排列成一個(gè)隊(duì)T,如果翻譯起始位點(diǎn)出現(xiàn)在該隊(duì)中,則其出現(xiàn)在表中的位置記為K對(duì)翻譯起始位點(diǎn)的預(yù)測(cè),就實(shí)際應(yīng)用而言,我們有兩種模式實(shí)際的含有一條基因的DNA序列,只有不多于一個(gè)翻譯起始位點(diǎn)。這樣在只需要得到一個(gè)翻譯起始位點(diǎn)或5’端外顯子情況下,由表3可知最終采用算法在這方面表現(xiàn)最好,它能預(yù)測(cè)對(duì)73個(gè)翻譯起始位點(diǎn),居于首位。設(shè)計(jì)預(yù)測(cè)完整的基因的算法時(shí),可能要用多個(gè)預(yù)測(cè)出的翻譯起始位點(diǎn)或5’端外顯子,作為預(yù)測(cè)其它信號(hào)如剪接位點(diǎn)的初值。在這種模式上,為了評(píng)估哪種方法最優(yōu),我們要兼顧兩方面。一方面是判為狀態(tài)NSC_0的ATG信號(hào)數(shù)目不宜太少,否則我們最終滿足不了預(yù)測(cè)翻譯起始位點(diǎn)的精度要求。另一方面是假陽(yáng)性的ATG不宜太多,否則可能出現(xiàn)初值包含大量假陽(yáng)性的ATG信息以至于將TIS的信息湮沒(méi)掉的情況。為此,定義sn、sp,以sn+sp的高低評(píng)判方法的優(yōu)劣。表4給出了表3中各種方法的sn、sp以及sn+sp,可以看出只考慮ATG以及GT信號(hào)是最合理的。表4在模式2下,評(píng)價(jià)表3各種方法優(yōu)劣的參數(shù)方法Sn(%)Sp(%)sn+sp(%)ATG信號(hào)72.47.479.8ATG,GT信號(hào)77.011.688.6ATG,GT,模糊詞匯68.416.785.1最終采用算法53.924.978.8在這種模式下,最終采用算法出人意料地被評(píng)為最差。從下面分析可以看出這可能是由于[ATG…]GT序列的長(zhǎng)度過(guò)短導(dǎo)致MED方法的一個(gè)缺點(diǎn)引起的。而在原核生物中,MED方法對(duì)于短ORF(長(zhǎng)度低于300bp)預(yù)測(cè)的精度低于對(duì)長(zhǎng)的ORF的預(yù)測(cè)精度不少【15】。在本文中ORF將對(duì)應(yīng)于[ATG…]GT序列。我們接下來(lái)看一下學(xué)習(xí)集中的以及測(cè)試出具有NSC_0狀態(tài)中ATG信號(hào)對(duì)應(yīng)的[ATG…]GT序列長(zhǎng)度分布,如圖5。可以看出在真核生物中5’端外顯子的長(zhǎng)度絕大多數(shù)低于300bp,同時(shí)我們構(gòu)造出的NIE類的[ATG…]GT序列也存在這樣的情況。實(shí)際上,5’端外顯子過(guò)短也是導(dǎo)致其很難準(zhǔn)確預(yù)測(cè)的重要原因,因?yàn)樗环矫姘男畔⒘可伲硪环矫嫣桃灾掠诤茈y從內(nèi)容度量(contentmeasure)上進(jìn)行判別【8】 圖5[ATG…]GT序列的長(zhǎng)度分布圖(a)學(xué)習(xí)集中[ATG…]GT序列長(zhǎng)度分布 (b)測(cè)試集中具有NSC_0狀態(tài)中ATG信號(hào)對(duì)應(yīng)[ATG…]GT序列長(zhǎng)度分布 模式2為我們今后設(shè)計(jì)包含翻譯起始位點(diǎn)、剪接位點(diǎn)以及翻譯終止位點(diǎn)等的完整基因結(jié)構(gòu)算法奠定了基礎(chǔ)。 文章的最后,我們?cè)诓捎媚J?的情況下,將最終算法在預(yù)測(cè)5’端外顯子的結(jié)果與國(guó)際相關(guān)知名基因識(shí)別軟件預(yù)測(cè)的結(jié)果進(jìn)行比較,如表5【7】。 表5將預(yù)測(cè)5’端外顯子的結(jié)果與國(guó)際相關(guān)知名基因識(shí)別軟件預(yù)測(cè)的結(jié)果進(jìn)行比較%FGENESGeneMarkGenieGenscanHMMgeneMorgan我們的方法Sn64404957683548Sp55484571723548 可以看出,對(duì)5’端外顯子的預(yù)測(cè),我們的精度以及和Genie不相上下。通過(guò)前文可以發(fā)現(xiàn)我們的算法與GeneScan采用到的HMM模型【16】相比較是極其簡(jiǎn)單的,也達(dá)到了令人滿意的結(jié)果,這也構(gòu)成了我們算法的一個(gè)優(yōu)點(diǎn)。 參考文獻(xiàn)【1】Staden,R.(1984).Computermethodstolocatesignalsinnucleicsequences.NucleicAcidsRes.12:505-519【2】Huaiqiuzhu,ZhensuShe,andWangJ.(2002).AnEDPbasedDescriptionofDNAsequencesandItsApplicationofExonsinHumanGenome.The2ndChineseConferenceOnBioinformatics,23.【3】Consortium,I.H.G.S.(2001).Initialsequencingandanalysisofthehumangenome.Nature.409:860-921【4】SheZ.S.,OuyangZ.Q.,RenK.,SheZ.S.,OuyangZ.Q.,RenK.,andWangJ.(2002).MultivariateEntropyDensityofDNASequence.Submittedto“PhysicalReviewLetters”.【5】T.A.布朗著,袁建剛,周嚴(yán),強(qiáng)伯勤譯.(2002).基因組.科學(xué)出版社【6】R.Guigo,S.Knudsen,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論