




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
啟動(dòng)子識(shí)別研究進(jìn)展
0按前識(shí)別法進(jìn)行識(shí)別隨著更多原始生物矩陣的建立,闡明遺傳因素之間的相互作用和關(guān)系變得可能。啟動(dòng)子作為RNA聚合酶結(jié)合的靶序列,對(duì)轉(zhuǎn)錄起始有調(diào)節(jié)和控制作用,決定著基因表達(dá)過(guò)程是否開始以及在什么條件下開始。因此啟動(dòng)子的識(shí)別與分析是表達(dá)調(diào)控研究的前提和基礎(chǔ)。而在當(dāng)前的原核基因組序列數(shù)據(jù)中,與啟動(dòng)子相關(guān)的可利用注釋信息還比較匱乏,迫切需要高精度的計(jì)算機(jī)識(shí)別方法作為傳統(tǒng)實(shí)驗(yàn)標(biāo)注方法的補(bǔ)充。相關(guān)研究表明,絕大多數(shù)的原核啟動(dòng)子位于轉(zhuǎn)錄起始位點(diǎn)(transcriptionstartsite,TSS)上游200bp至下游100bp的范圍內(nèi),其核心區(qū)域一般從TSS上游60bp處延伸到下游20bp處。啟動(dòng)子區(qū)域的共同特征是序列組成有較強(qiáng)的A/T偏好,并含有若干短的保守模式(motif)片段。原核RNA聚合酶利用σ因子識(shí)別啟動(dòng)子,因此可根據(jù)σ因子把啟動(dòng)子分成功能不同的若干類。例如在大腸桿菌中,σ70因子所識(shí)別的σ70啟動(dòng)子可指導(dǎo)生命活動(dòng)中絕大多數(shù)基因的轉(zhuǎn)錄,而其它的σ因子啟動(dòng)子只在特定條件下才會(huì)發(fā)揮作用。不同種類的啟動(dòng)子具有啟動(dòng)子的共同特征,只是保守模式的具體形式和間隔距離有所不同。對(duì)于σ70啟動(dòng)子,最典型的保守模式有:-10區(qū)模式(-10motif)、-35區(qū)模式(-35motif)和TSS。-10區(qū)模式和-35區(qū)模式以它們與TSS的相對(duì)位置而得名,對(duì)應(yīng)的一致序列分別為:TATAAT和TTGACA。而TSS通常是嘌呤堿基(A或G)。另外,-10區(qū)和-35區(qū)模式的間隔距離大多為16~18bp,這一距離使兩個(gè)模式保持在雙螺旋的同一側(cè),有利于與聚合酶分子相結(jié)合。上述具有代表性的特征使大腸桿菌σ70啟動(dòng)子成為原核啟動(dòng)子識(shí)別的主要研究對(duì)象。根據(jù)所利用的特征,已有的原核啟動(dòng)子識(shí)別方法可分成兩類:一類是基于組成(content)的方法,常見(jiàn)的有懲罰詞頻法(penalizedfrequencydistribution,PFD)、字典模型法等等。這類方法主要利用啟動(dòng)子序列的全局特征信息,例如堿基組成偏好等等,其優(yōu)點(diǎn)是可用于沒(méi)有啟動(dòng)子注釋信息的情況,適合對(duì)未知基因組序列進(jìn)行分析。但由于只利用了特征的平均分布,難以給出精確的預(yù)測(cè)位置,所以識(shí)別正確率比較低。另一類是基于信號(hào)(signal)的方法,通過(guò)發(fā)現(xiàn)啟動(dòng)子區(qū)域內(nèi)的保守模式片段等局部特征信號(hào)來(lái)進(jìn)行識(shí)別。模式內(nèi)允許一定程度的堿基錯(cuò)配,各模式的間距也可以變化,對(duì)它們進(jìn)行描述和定位的常用方法有位置權(quán)重矩陣(positionweightmatrix,PWM)、人工神經(jīng)網(wǎng)絡(luò)(artificialneuralnetwork,ANN)、隱馬爾可夫模型(hiddenMarkovmodel,HMM)、自動(dòng)模式發(fā)現(xiàn)(automaticmotifdiscovery)等等。由于單一的保守模式片段比較短,為了提高信號(hào)特異性,又出現(xiàn)了基于復(fù)合模式(compositemotif)發(fā)現(xiàn)的MITRA等方法。進(jìn)一步的考慮是將模式發(fā)現(xiàn)得到的特征信號(hào)作為下一層識(shí)別模型的輸入,通過(guò)整合所有特征來(lái)做出最終的識(shí)別。基于這種分層思想的方法有PWM與偏序覆蓋函數(shù)(partialordercoverfunction)結(jié)合、比對(duì)核(sequencealignmentkernel)與支持向量機(jī)(supportvectormachine,SVM)結(jié)合的方法等等。分層的方法綜合利用了各種特征,并尋求特定準(zhǔn)則下的最優(yōu)決策,在一定程度上提高了識(shí)別率。當(dāng)訓(xùn)練負(fù)集為編碼區(qū)序列時(shí),sequencealignmentkernel與SVM結(jié)合的方法識(shí)別正確率達(dá)到了81.4%,是已知方法中最高的。然而,現(xiàn)有方法的識(shí)別正確率依然偏低。除了特征本身所固有的微弱多變因素,對(duì)啟動(dòng)子的認(rèn)識(shí)不夠深入、特征信息利用得不夠充分是造成這種情況的主要原因之一。最近的實(shí)驗(yàn)發(fā)現(xiàn),大腸桿菌σ70啟動(dòng)子區(qū)域存在一些新的保守模式,如-10區(qū)延伸模式(extended-10motif)、UP元件(UPelement)等等。與典型特征相比,它們的保守性更弱一些。已有的識(shí)別模型還沒(méi)有利用這些特征。另外,在實(shí)際的轉(zhuǎn)錄起始過(guò)程中,啟動(dòng)子序列還需要形成一定的局部空間構(gòu)象,并在多種轉(zhuǎn)錄因子的輔助下,才能被RNA聚合酶準(zhǔn)確識(shí)別并與之相結(jié)合。它的雙鏈結(jié)合穩(wěn)定性也比較低,更容易被打開。這使得啟動(dòng)子序列與其它區(qū)域相比具有更高的局部彎曲度(curvature)和更低的雙鏈穩(wěn)定性(stability)。目前已有利用這些結(jié)構(gòu)特征進(jìn)行啟動(dòng)子識(shí)別的嘗試,但實(shí)際的效果不能令人滿意。由此可知,啟動(dòng)子序列的組成特征、信號(hào)特征、結(jié)構(gòu)特征在單獨(dú)使用時(shí)均不能提供啟動(dòng)子的全部信息,只有將這三類特征進(jìn)行合理融合,才能最大限度地表征啟動(dòng)子的本質(zhì)特性,為識(shí)別提供幫助。識(shí)別方法的合理選取與利用也是影響預(yù)測(cè)結(jié)果的一個(gè)重要方面。判別分析(discriminantanalysis)是一種經(jīng)典的多元統(tǒng)計(jì)分析方法,根據(jù)它的原理建立的分類器形式簡(jiǎn)單有效,并且具有良好的擴(kuò)展性。它可以通過(guò)特征篩選在備選特征中確定最優(yōu)特征集,以提高模型的準(zhǔn)確性和識(shí)別的正確率。另外,原核啟動(dòng)子一般位于轉(zhuǎn)錄單元(transcriptionunit)上游的非編碼區(qū)。但由于原核基因組中的非編碼區(qū)相對(duì)較短,下游轉(zhuǎn)錄單元的啟動(dòng)子有時(shí)會(huì)落入其緊鄰上游轉(zhuǎn)錄單元的最后一個(gè)基因的編碼區(qū)內(nèi)。對(duì)位于編碼區(qū)的啟動(dòng)子,現(xiàn)有的識(shí)別方法基本都是在選取數(shù)據(jù)集時(shí)直接將其剔除掉,有些甚至根本不加考慮。這顯然是不合理的。背景序列性質(zhì)的差異會(huì)對(duì)模型參數(shù)產(chǎn)生較大影響,因此在數(shù)據(jù)充足的前提下,應(yīng)該對(duì)兩類啟動(dòng)子分別進(jìn)行訓(xùn)練和識(shí)別?;谝陨戏治?,本文提出了一種新的原核啟動(dòng)子識(shí)別方法,對(duì)位于非編碼區(qū)和編碼區(qū)的啟動(dòng)子分別加以識(shí)別:將啟動(dòng)子的組成特征、信號(hào)特征以及結(jié)構(gòu)特征作為備選特征,為它們建立相應(yīng)的特征模型;再通過(guò)模型計(jì)算特征得分,根據(jù)得分對(duì)特征集進(jìn)行篩選和優(yōu)化;然后將篩選過(guò)的特征得分組合成特征向量,繼而在特征空間中利用判別分析進(jìn)行訓(xùn)練和判別。對(duì)大腸桿菌和枯草桿菌實(shí)際數(shù)據(jù)集的測(cè)試結(jié)果表明,我們提出的方法可以對(duì)多類原核啟動(dòng)子進(jìn)行有效的識(shí)別。1數(shù)據(jù)和方法1.1數(shù)據(jù)準(zhǔn)備1.1.1小鼠大腸桿菌全基因組序列的70啟動(dòng)子序列sdps針對(duì)大腸桿菌的PromEC、RegulonDB和針對(duì)枯草桿菌的DBTBS等數(shù)據(jù)庫(kù)收集了經(jīng)過(guò)實(shí)驗(yàn)證實(shí)的原核啟動(dòng)子序列數(shù)據(jù)。與PromEC相比,RegulonDB中可利用的大腸桿菌啟動(dòng)子序列數(shù)量更多,并且每條序列都標(biāo)明了對(duì)應(yīng)的σ因子。其中σ70啟動(dòng)子序列共有695條,每條長(zhǎng)81bp,覆蓋范圍為TSS上游60bp至下游20bp,序列第61bp處為TSS,格式為[TSS-60…TSS…TSS+20]。由于某些轉(zhuǎn)錄單元具有多個(gè)可能的TSS,每個(gè)TSS都對(duì)應(yīng)一條啟動(dòng)子序列,為減少數(shù)據(jù)集的冗余,當(dāng)相鄰TSS距離小于81bp時(shí),下游TSS對(duì)應(yīng)的啟動(dòng)子序列將被剔除。經(jīng)過(guò)處理之后余下的683條序列即作為正數(shù)據(jù)集。大腸桿菌全基因組序列可從GenBank中獲?。ㄐ蛄蠥C號(hào):U00096)。我們根據(jù)序列數(shù)據(jù)中提供的編碼區(qū)位置信息對(duì)正數(shù)據(jù)集進(jìn)行分類,整條序列全部落入某個(gè)編碼區(qū)的啟動(dòng)子將被當(dāng)作編碼區(qū)啟動(dòng)子。根據(jù)這一標(biāo)準(zhǔn),正數(shù)據(jù)集被劃分為非編碼區(qū)正集(612條)和編碼區(qū)正集(71條)兩部分。1.1.2在轉(zhuǎn)錄單元的降低負(fù)數(shù)據(jù)集應(yīng)該從大腸桿菌全基因組序列中不含啟動(dòng)子的區(qū)域提取,但實(shí)際上并沒(méi)有哪段區(qū)域被明確證明不含啟動(dòng)子。所以要根據(jù)轉(zhuǎn)錄單元的結(jié)構(gòu)和啟動(dòng)子的分布特征盡量避開極有可能出現(xiàn)啟動(dòng)子的區(qū)域。非編碼區(qū)按其兩側(cè)基因轉(zhuǎn)錄的方向可分成同向(tandem)、背離(divergent)與會(huì)聚(convergent)三類,如圖1所示。原核生物的轉(zhuǎn)錄單元可以包含一個(gè)或多個(gè)基因,只有轉(zhuǎn)錄單元第一個(gè)基因的上游非編碼區(qū)才可能含有啟動(dòng)子。顯然,背離區(qū)肯定位于轉(zhuǎn)錄單元的上游,極有可能含有啟動(dòng)子;會(huì)聚區(qū)則肯定位于轉(zhuǎn)錄單元的下游,含有啟動(dòng)子的可能性很小;而同向區(qū)則有可能含有啟動(dòng)子,也可能不含。因此,在會(huì)聚的非編碼區(qū)選取非編碼負(fù)集,能最大程度保證其不含啟動(dòng)子。大腸桿菌全基因組序列中長(zhǎng)度不短于81bp的非編碼序列片段共有1966條,其中屬于會(huì)聚區(qū)的有247條。我們從會(huì)聚區(qū)序列中隨機(jī)提取互不交迭的612條片段組成非編碼區(qū)負(fù)集,每條序列長(zhǎng)度為81bp。編碼區(qū)啟動(dòng)子啟動(dòng)的是其下游的基因,因此一般都位于所在編碼區(qū)的尾部。編碼區(qū)越長(zhǎng),它的中前部含有啟動(dòng)子的可能性就越小。大腸桿菌全基因組序列中與已知啟動(dòng)子區(qū)域沒(méi)有交迭,且長(zhǎng)度大于300bp(100個(gè)密碼子)的編碼區(qū)共有3845條。我們從這些序列的中部隨機(jī)提取71條長(zhǎng)度為81bp的片段組成編碼區(qū)負(fù)集。負(fù)數(shù)據(jù)集序列的數(shù)目和格式與正數(shù)據(jù)集相同,與之相對(duì)應(yīng),可認(rèn)為負(fù)集序列第61bp處為虛假的TSS(nonTSS),序列格式則為[nonTSS-60…nonTSS…nonTSS+20]。1.2待判別啟動(dòng)子序列將基因組序列視為一段由字母{A,C,G,T}組成的字符串S,已知S的某些特定位置上存在TSS。假設(shè)對(duì)任意一個(gè)位置p,字符串片段[Sp-U…Sp…Sp+D]包含足夠的信息來(lái)判別Sp是不是一個(gè)TSS,這樣的片段稱為待判別的啟動(dòng)子序列。給定一組訓(xùn)練數(shù)據(jù)集,包括正集(經(jīng)實(shí)驗(yàn)證實(shí)的啟動(dòng)子序列)和負(fù)集(不含啟動(dòng)子的背景序列),啟動(dòng)子識(shí)別就是通過(guò)訓(xùn)練,對(duì)任意給定的待判別啟動(dòng)子序列,判斷其是否屬于真正的啟動(dòng)子序列。1.3備份功能的計(jì)算我們從啟動(dòng)子的組成特征、信號(hào)特征以及結(jié)構(gòu)特征中選取備選特征,根據(jù)特征模型計(jì)算各個(gè)特征得分。1.3.1選擇正確的詞頻方案計(jì)算組成特征最常用的方法是詞頻分析。它將序列的k元組看作長(zhǎng)度為k的單詞,分析的步驟如下:1)對(duì)于DNA序列,詞長(zhǎng)為k的單詞共有4k種,由(1)式分別計(jì)算第i種單詞在正集和負(fù)集中出現(xiàn)的頻率fiP和fiN,其中ni為第i種單詞在對(duì)應(yīng)數(shù)據(jù)集中出現(xiàn)的次數(shù)。2)對(duì)于一條特定的序列w,根據(jù)(1)式中得到的頻率值,由(2)式計(jì)算k階詞頻得分swk,其中求和的范圍是對(duì)w中所有依次出現(xiàn)的單詞。1階詞頻反映了序列的堿基含量信息,高階詞頻則可反映相鄰堿基間的特定關(guān)系,階次越高信息越豐富。由于(1)式計(jì)算的頻率是詞頻的極大似然估計(jì),在保證估計(jì)值可靠性的前提下,增加階次則需要更多的訓(xùn)練數(shù)據(jù),所以k值的上限將受到數(shù)據(jù)集大小的限制。經(jīng)過(guò)估算,對(duì)非編碼區(qū)數(shù)據(jù)集,k的上限取6,即選取1~6階詞頻為備選特征;對(duì)編碼區(qū)數(shù)據(jù)集,k的上限取4,即選取1~4階詞頻為備選特征。1.3.2-10/-35區(qū)模式考慮到-10/-35區(qū)模式的間隔距離也是一個(gè)保守特征,我們將-10區(qū)模式、-35區(qū)模式以及它們之間的距離合并成一個(gè)復(fù)合模式(compositemotif),與TSS、-10區(qū)延伸模式和UP元件一起作為備選特征。圖2給出了這些保守模式在啟動(dòng)子區(qū)域的相對(duì)位置。描述保守模式的一種簡(jiǎn)單有效的模型是位置權(quán)重矩陣(PWM)。PWM可提供保守模式每個(gè)位置上四種堿基出現(xiàn)頻率的信息,(3)式給出了一種計(jì)算公式,其中M(α,i)為PWM第i列上堿基α(α∈{A,C,G,T})所對(duì)應(yīng)的矩陣元素,n(α,i)為訓(xùn)練集中PWM第i列上堿基α的出現(xiàn)次數(shù)。各個(gè)模式在正數(shù)據(jù)集中的PWM可根據(jù)相應(yīng)的統(tǒng)計(jì)位置由(3)式直接計(jì)算得到。而負(fù)數(shù)據(jù)集中均為背景序列,不具有正集序列中的各種保守模式。因此,所有模式的負(fù)集PWM中的每一列均可用負(fù)數(shù)據(jù)集中四種堿基的平均出現(xiàn)頻率來(lái)代替。得到PWM之后,根據(jù)(4)式計(jì)算模式的特征得分,其中j為模式在序列中的起始位置,A為PWM的長(zhǎng)度,αj+i表示序列第j+i位置處的堿基,MP(α,i)為正集PWM第i列上堿基α對(duì)應(yīng)的矩陣元素值,MN(α,i)為負(fù)集PWM第i列上堿基α對(duì)應(yīng)的元素值。復(fù)合模式主要包含-10/-35區(qū)模式的PWM以及模式間距的分布信息,其得分sc由-10區(qū)模式得分sp、-35區(qū)模式得分sx和模式間距得分sd相加得到。由于正數(shù)據(jù)集中沒(méi)有給出-10/-35區(qū)模式的起始位置,PWM和距離分布可通過(guò)一個(gè)基于期望最大(expectationmaximization,EM)思想的迭代尋優(yōu)過(guò)程得到,算法如下:輸入:訓(xùn)練集中的序列數(shù)目W,-10區(qū)模式起始位置j的變化區(qū)間[m,n],模式間距l(xiāng)的變化區(qū)間[p,q],迭代次數(shù)上限T,PWM長(zhǎng)度L,變化的下限σ。1)初始化:建立-10/-35區(qū)模式初始PWME0和G0,以及模式間距初始經(jīng)驗(yàn)分布函數(shù)F0(l)。2)循環(huán)1:對(duì)t=1,2,…,T,執(zhí)行循環(huán)2。(1)循環(huán)2:對(duì)k=1,2,…,W,執(zhí)行:(1)計(jì)算復(fù)合模式得分sct(k):其中:(2)記錄sct(k)中的-10區(qū)模式起始位置ykt和模式間距dt(k);(3)循環(huán)2結(jié)束。(2)對(duì)每條序列,提取從位置ykt起的L個(gè)堿基,重新構(gòu)造Et。(3)提取從位置ykt-dt(k)-L起的L個(gè)堿基,重新構(gòu)造Gt。(4)根據(jù)dt(k)重新估計(jì)Ft(l)。(5)如果‖Et-Et-1‖<σ且‖Gt-Gt-1‖<σ,循環(huán)1結(jié)束。(6)循環(huán)1結(jié)束。3)輸出Et、Gt和Ft(l)。E0的統(tǒng)計(jì)位置為[TSS-12,…,TSS-7],G0的統(tǒng)計(jì)位置為[TSS-35,…,TSS-30]。此時(shí)兩個(gè)模式的間距為17bp,-10區(qū)模式與TSS的間距為6bp,是它們?cè)讦?0啟動(dòng)子中最典型的位置。以此為初始點(diǎn)的目的是為了加速迭代過(guò)程的收斂,而F0(l)取均勻分布即可。-10區(qū)模式起始位置的變化區(qū)間和模式間距的變化區(qū)間共同構(gòu)成了最優(yōu)復(fù)合模式的搜索空間,它們的大小需要利用先驗(yàn)知識(shí)來(lái)確定,也可在迭代過(guò)程中不斷修正。對(duì)于特定序列,利用Et、Gt和Ft(l),由式(5)和(6)計(jì)算復(fù)合模式得分sc。-10區(qū)延伸模式緊鄰在-10區(qū)模式上游,根據(jù)最優(yōu)復(fù)合模式的信息,其統(tǒng)計(jì)位置為[ykt-5,…,ykt-1]。TSS和UP元件的統(tǒng)計(jì)位置是固定的,分別為[TSS-2,…,TSS+3]和[TSS-60,…,TSS-41]。位置確定之后,由(3)式計(jì)算PWM,然后再由(4)式分別計(jì)算-10區(qū)延伸模式得分se、TSS得分si和UP元件得分su。1.3.3可擴(kuò)張性整體偏角的預(yù)測(cè)模型序列局部彎曲度和雙鏈穩(wěn)定性是我們要利用的結(jié)構(gòu)備選特征。序列的局部彎曲度可通過(guò)雙螺旋結(jié)構(gòu)局部偏角的變化來(lái)描述。偏角變化越大,彎曲度越高。利用Goodsell等提出的預(yù)測(cè)模型,我們可以計(jì)算轉(zhuǎn)角(roll)、翹角(tilt)以及扭角(twist)這三種最主要偏角的變化值,將角度轉(zhuǎn)換為弧度,即可作為轉(zhuǎn)角得分sr、翹角得分sl和扭角得分st。雙鏈穩(wěn)定性可通過(guò)堿基結(jié)合的自由能來(lái)描述。自由能越高,穩(wěn)定性越低。由SantaLucia提出的預(yù)測(cè)模型可直接計(jì)算自由能得分sf。以上兩類預(yù)測(cè)模型均列出了二苷(dimer)片段對(duì)應(yīng)的參數(shù)表。因此實(shí)際的計(jì)算只需用長(zhǎng)度為2的窗口沿待計(jì)算序列滑動(dòng),每次前進(jìn)1個(gè)bp,將依次出現(xiàn)的二苷所對(duì)應(yīng)的參數(shù)值累加即可。1.3.4特征篩選ls特征選擇是否恰當(dāng),是判別效果優(yōu)劣的關(guān)鍵。對(duì)非編碼區(qū)啟動(dòng)子數(shù)據(jù),我們選取了14個(gè)備選特征(6個(gè)組成特征、4個(gè)信號(hào)特征、4個(gè)結(jié)構(gòu)特征);對(duì)編碼區(qū)啟動(dòng)子數(shù)據(jù),選取了12個(gè)備選特征(4個(gè)組成特征、4個(gè)信號(hào)特征、4個(gè)結(jié)構(gòu)特征)。選取較多的備選特征是為了能使特征集更全面地涵蓋啟動(dòng)子的信息。但這些特征對(duì)判別的貢獻(xiàn)是不一樣的,并不是每個(gè)特征都能提供顯著的信息,判別力不強(qiáng)的特征還會(huì)干擾和影響判別效果。因此需要根據(jù)對(duì)判別實(shí)際貢獻(xiàn)的大小對(duì)備選特征進(jìn)行篩選,選取“最優(yōu)”特征集。特征判別力的大小可通過(guò)計(jì)算類間Mahalonobis平方距離D2來(lái)估計(jì),D2越大,判別力也越大。設(shè)啟動(dòng)子為第1類,非啟動(dòng)子為第2類,mi為第i類的特征均值向量,ni為第i類的樣本數(shù)目,則k個(gè)特征的Dk2計(jì)算公式為:其中S為混合協(xié)方差矩陣。設(shè)Si為第i類的協(xié)方差矩陣,則S計(jì)算公式如下:我們選取的備選特征都有一定的生物和物理意義,沒(méi)有完全冗余的特征,因此(7)式中的求逆運(yùn)算總可進(jìn)行。如果存在完全冗余的特征,則必須先利用相關(guān)系數(shù)矩陣將其剔除。特征篩選可以提高計(jì)算效率,減小干擾,提高判別精度,在特征較多時(shí)尤為必要。我們采用逐步法進(jìn)行特征篩選,過(guò)程如下:1)計(jì)算單個(gè)備選特征的D12,按D12值從大到小的順序?qū)⑵渑判?,組成備選隊(duì)列;取D12值最大的特征作為特征集中的初始特征。2)特征增加:設(shè)特征集中已有p個(gè)特征,對(duì)待加入的備選特征,判斷加入后的D2p+1與原有的Dp2相比是否有顯著增長(zhǎng)。如果有,則說(shuō)明此特征能夠提供顯著的附加信息,將其加入特征集,進(jìn)入3);否則,對(duì)備選隊(duì)列的下一個(gè)特征,繼續(xù)執(zhí)行2)。3)特征刪除:加入新特征之后,對(duì)原有的p個(gè)特征,依次判斷刪除其中一個(gè)特征后的Dp2與現(xiàn)有的D2p+1相比是否有顯著減小。如果沒(méi)有,則說(shuō)明隨著新特征的加入,此特征提供的信息已經(jīng)不再顯著,可將其從特征集中刪除,放回到備選隊(duì)列的末尾。4)對(duì)備選隊(duì)列中的特征依次執(zhí)行2)、3),當(dāng)既不能加入新特征,又不能刪除已有特征時(shí)停止。此時(shí)的特征集即為“最優(yōu)”特征集。p個(gè)特征下的Dp2與q個(gè)特征下的Dq2是否有顯著差別可通過(guò)對(duì)統(tǒng)計(jì)量F的假設(shè)檢驗(yàn)(H0∶Dp2=Dq2)來(lái)判斷:其中F服從F(p-q,n1+n2-p-1)分布,ni為對(duì)應(yīng)的樣本數(shù)目。對(duì)位于非編碼區(qū)的啟動(dòng)子,經(jīng)過(guò)篩選后的特征集包含4階詞頻、6階詞頻、復(fù)合模式、TSS、-10區(qū)延伸模式、UP元件、局部轉(zhuǎn)角、結(jié)合自由能共8種特征,其對(duì)應(yīng)特征得分可組合成8維特征向量sn:對(duì)位于編碼區(qū)的啟動(dòng)子,經(jīng)過(guò)篩選后的特征集包含4階詞頻、復(fù)合模式、TSS、UP元件、局部轉(zhuǎn)角、局部扭角共6種特征,其對(duì)應(yīng)特征得分可組合成6維特征向量so:引入新特征給總體D2帶來(lái)的增量△可作為特征判別力的一種最終衡量。表1給出了篩選之后特征集中各個(gè)特征的△值。由表可知,高階詞頻和復(fù)合模式是原核啟動(dòng)子最顯著的特征。至此,數(shù)據(jù)集中的每條序列均可用特征空間的一個(gè)特征向量來(lái)表示,啟動(dòng)子識(shí)別問(wèn)題就轉(zhuǎn)換為特征空間中特征向量的判別問(wèn)題。1.4qda的判別函數(shù)啟動(dòng)子和非啟動(dòng)子對(duì)應(yīng)的組合特征向量的協(xié)方差互不相等,所以我們采用二次判別分析法(quadraticdiscriminantanalysis,QDA),計(jì)算總體平均損失最小準(zhǔn)則下的二次判別曲面。設(shè)啟動(dòng)子向量為第1類,非啟動(dòng)子向量為第2類,則QDA的判別函數(shù)(quadraticdiscriminantfunction,QDF)為:其中pi0為第i類的先驗(yàn)概率,Si為第i類的協(xié)方差矩陣,Si為Si的行列式,Di2為待判別向量與第i類的Mahalonobis平方距離,其計(jì)算公式如下:其中x為待判別向量,mi為第i類的特征均值向量。采用Mahalonobis平方距離的優(yōu)點(diǎn)是可以一定程度克服組合特征向量各分量之間的相關(guān)性干擾,并且消除因計(jì)算模型不同而引入的量綱影響。根據(jù)(12)式,對(duì)待判別向量x,如果QDF>0,則判別x為啟動(dòng)子向量;如果QDF≤0,則判別x為非啟動(dòng)子向量。2結(jié)果與討論2.1相關(guān)系數(shù)和平均正確率啟動(dòng)子識(shí)別常用的評(píng)價(jià)指標(biāo)有敏感性(sensitivity,Sn)、特異性(specificity,Sp)、相關(guān)系數(shù)(correlationcoefficient,CC)和平均正確率(averageaccuracy,AC)。定義TP為真實(shí)啟動(dòng)子被識(shí)別為真實(shí)啟動(dòng)子的數(shù)目,TN為虛假啟動(dòng)子被識(shí)別為虛假啟動(dòng)子的數(shù)目,F(xiàn)P為虛假啟動(dòng)子被識(shí)別為真實(shí)啟動(dòng)子的數(shù)目,F(xiàn)N為真實(shí)啟動(dòng)子被識(shí)別為虛假啟動(dòng)子的數(shù)目,則有:2.2數(shù)據(jù)集的生成利用1.1中準(zhǔn)備好的數(shù)據(jù)集,我們采用刀切法(jackknife)進(jìn)行測(cè)試,即按照每次提取一條數(shù)據(jù)作為測(cè)試集,其余的數(shù)據(jù)全部作為訓(xùn)練集的方式,依次對(duì)全部數(shù)據(jù)測(cè)試一遍,再對(duì)所有測(cè)試結(jié)果進(jìn)行統(tǒng)計(jì)作為此數(shù)據(jù)集的測(cè)試結(jié)果。由于負(fù)數(shù)據(jù)集是在備選數(shù)據(jù)中隨機(jī)提取的,為了體現(xiàn)方法的真實(shí)識(shí)別水平,減小偶然性,我們每次連續(xù)生成10組數(shù)據(jù)進(jìn)行測(cè)試,將各次測(cè)試的平均結(jié)果作為最終測(cè)試結(jié)果。非編碼區(qū)數(shù)據(jù)集(正集612條數(shù)據(jù),1組;負(fù)集612條數(shù)據(jù),10組)的測(cè)試結(jié)果見(jiàn)表2,編碼區(qū)數(shù)據(jù)集(正集71條數(shù)據(jù),1組;負(fù)集71條數(shù)據(jù),10組)的測(cè)試結(jié)果見(jiàn)表3。作為比較,表2和表3中均給出了利用篩選前和篩選后的特征集進(jìn)行識(shí)別的測(cè)試結(jié)果。很明顯,經(jīng)過(guò)特征篩選的算法計(jì)算量變小而識(shí)別準(zhǔn)確率卻有所提高:對(duì)位于非編碼區(qū)的啟動(dòng)子,其Sn和Sp均達(dá)到了0.86,AC為85.8%;而對(duì)位于編碼區(qū)的啟動(dòng)子,盡管數(shù)據(jù)較少,Sn和Sp也分別達(dá)到了0.81和0.82,AC為81.9%。測(cè)試結(jié)果充分驗(yàn)證了特征篩選過(guò)程的有效性。2.3非編碼區(qū)啟動(dòng)子識(shí)別結(jié)果PFD法和sequencealignmentkernel結(jié)合SVM法分別是基于組成和基于信號(hào)兩大類識(shí)別方法中的代表。它們主要識(shí)別位于非編碼區(qū)的啟動(dòng)子,數(shù)據(jù)集也從RegulonDB中獲得,與我們的非編碼區(qū)啟動(dòng)子數(shù)據(jù)集基本相同。因此對(duì)于非編碼區(qū)啟動(dòng)子,我們提出的方法與這兩種方法的識(shí)別結(jié)果具有一定的可比性,具體結(jié)果見(jiàn)表4。從表中可以看出,對(duì)位于非編碼區(qū)的啟動(dòng)子,我們的方法在各個(gè)評(píng)價(jià)指標(biāo)上均達(dá)到或超過(guò)了其它兩種具有代表性的方法,使識(shí)別的平均正確率有了較為明顯的提高。2.4啟動(dòng)子的識(shí)別大腸桿菌σ70啟動(dòng)子的各種特征在原核啟動(dòng)子中具有一定的代表性。其它的原核啟動(dòng)子有與其非常類似的組成特征和結(jié)構(gòu)特征,只是信號(hào)特征中各種保守模式片段的一致序列和分布位置可能有所不同。因此只要適當(dāng)調(diào)整信號(hào)特征模型的計(jì)算位置和范圍,我們的方法就應(yīng)該能用于這些啟動(dòng)子的識(shí)別。按照與大腸桿菌σ70啟動(dòng)子相同的處理與分析過(guò)程,我們從DBTBS和RegulonDB中分別提取了枯
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 北海市檢測(cè)合同范例
- 代建房屋租賃合同范本
- 企業(yè)消防合同范本
- 主體變更合同范本
- 個(gè)人建設(shè)工程合同范本
- 農(nóng)村房屋驗(yàn)收合同范本
- 辦證代理合同范本
- 代理土地合同范本
- 乳膠卷材供貨合同范本
- 加工輔料采購(gòu)合同范本
- 基于STM32的多路模擬量數(shù)據(jù)采集設(shè)計(jì)
- 統(tǒng)編版高中語(yǔ)文選擇性必修下冊(cè)教學(xué)計(jì)劃
- 跨文化溝通技巧課件
- 三位數(shù)乘一位數(shù)練習(xí)題(300道)
- 北師大版八年級(jí)下冊(cè)數(shù)學(xué)全冊(cè)教案完整版教學(xué)設(shè)計(jì)
- 長(zhǎng)白縣巡游出租汽車駕駛員從業(yè)資格-區(qū)域科目考試題庫(kù)(含答案)
- VB開發(fā)OPC客戶端程序的步驟與實(shí)現(xiàn)
- 2022人教版高二英語(yǔ)新教材選擇性必修全四冊(cè)課文原文及翻譯(英漢對(duì)照)
- 死因監(jiān)測(cè)(20141.3)課件
- 新聞采訪與寫作-馬工程-第三章
- 肢體、視力、聽(tīng)力、精神、智力、篩查表定稿陜西省殘疾人家庭醫(yī)生簽約服務(wù)檔案
評(píng)論
0/150
提交評(píng)論