啟動(dòng)子識(shí)別研究進(jìn)展

上傳人：1*** IP屬地：廣東上傳時(shí)間：2023-10-23 格式：DOCX 頁(yè)數(shù)：10 大小：46.39KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩5頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

啟動(dòng)子識(shí)別研究進(jìn)展

0按前識(shí)別法進(jìn)行識(shí)別隨著更多原始生物矩陣的建立，闡明遺傳因素之間的相互作用和關(guān)系變得可能。啟動(dòng)子作為RNA聚合酶結(jié)合的靶序列，對(duì)轉(zhuǎn)錄起始有調(diào)節(jié)和控制作用，決定著基因表達(dá)過(guò)程是否開始以及在什么條件下開始。因此啟動(dòng)子的識(shí)別與分析是表達(dá)調(diào)控研究的前提和基礎(chǔ)。而在當(dāng)前的原核基因組序列數(shù)據(jù)中，與啟動(dòng)子相關(guān)的可利用注釋信息還比較匱乏，迫切需要高精度的計(jì)算機(jī)識(shí)別方法作為傳統(tǒng)實(shí)驗(yàn)標(biāo)注方法的補(bǔ)充。相關(guān)研究表明，絕大多數(shù)的原核啟動(dòng)子位于轉(zhuǎn)錄起始位點(diǎn)（transcriptionstartsite,TSS）上游200bp至下游100bp的范圍內(nèi)，其核心區(qū)域一般從TSS上游60bp處延伸到下游20bp處。啟動(dòng)子區(qū)域的共同特征是序列組成有較強(qiáng)的A/T偏好，并含有若干短的保守模式（motif）片段。原核RNA聚合酶利用σ因子識(shí)別啟動(dòng)子，因此可根據(jù)σ因子把啟動(dòng)子分成功能不同的若干類。例如在大腸桿菌中，σ70因子所識(shí)別的σ70啟動(dòng)子可指導(dǎo)生命活動(dòng)中絕大多數(shù)基因的轉(zhuǎn)錄，而其它的σ因子啟動(dòng)子只在特定條件下才會(huì)發(fā)揮作用。不同種類的啟動(dòng)子具有啟動(dòng)子的共同特征，只是保守模式的具體形式和間隔距離有所不同。對(duì)于σ70啟動(dòng)子，最典型的保守模式有：-10區(qū)模式（-10motif）、-35區(qū)模式（-35motif）和TSS。-10區(qū)模式和-35區(qū)模式以它們與TSS的相對(duì)位置而得名，對(duì)應(yīng)的一致序列分別為：TATAAT和TTGACA。而TSS通常是嘌呤堿基（A或G）。另外，-10區(qū)和-35區(qū)模式的間隔距離大多為16～18bp，這一距離使兩個(gè)模式保持在雙螺旋的同一側(cè)，有利于與聚合酶分子相結(jié)合。上述具有代表性的特征使大腸桿菌σ70啟動(dòng)子成為原核啟動(dòng)子識(shí)別的主要研究對(duì)象。根據(jù)所利用的特征，已有的原核啟動(dòng)子識(shí)別方法可分成兩類：一類是基于組成（content）的方法，常見(jiàn)的有懲罰詞頻法（penalizedfrequencydistribution,PFD）、字典模型法等等。這類方法主要利用啟動(dòng)子序列的全局特征信息，例如堿基組成偏好等等，其優(yōu)點(diǎn)是可用于沒(méi)有啟動(dòng)子注釋信息的情況，適合對(duì)未知基因組序列進(jìn)行分析。但由于只利用了特征的平均分布，難以給出精確的預(yù)測(cè)位置，所以識(shí)別正確率比較低。另一類是基于信號(hào)（signal）的方法，通過(guò)發(fā)現(xiàn)啟動(dòng)子區(qū)域內(nèi)的保守模式片段等局部特征信號(hào)來(lái)進(jìn)行識(shí)別。模式內(nèi)允許一定程度的堿基錯(cuò)配，各模式的間距也可以變化，對(duì)它們進(jìn)行描述和定位的常用方法有位置權(quán)重矩陣（positionweightmatrix,PWM）、人工神經(jīng)網(wǎng)絡(luò)（artificialneuralnetwork,ANN）、隱馬爾可夫模型（hiddenMarkovmodel,HMM）、自動(dòng)模式發(fā)現(xiàn)（automaticmotifdiscovery）等等。由于單一的保守模式片段比較短，為了提高信號(hào)特異性，又出現(xiàn)了基于復(fù)合模式（compositemotif）發(fā)現(xiàn)的MITRA等方法。進(jìn)一步的考慮是將模式發(fā)現(xiàn)得到的特征信號(hào)作為下一層識(shí)別模型的輸入，通過(guò)整合所有特征來(lái)做出最終的識(shí)別。基于這種分層思想的方法有PWM與偏序覆蓋函數(shù)（partialordercoverfunction）結(jié)合、比對(duì)核（sequencealignmentkernel）與支持向量機(jī)（supportvectormachine,SVM）結(jié)合的方法等等。分層的方法綜合利用了各種特征，并尋求特定準(zhǔn)則下的最優(yōu)決策，在一定程度上提高了識(shí)別率。當(dāng)訓(xùn)練負(fù)集為編碼區(qū)序列時(shí)，sequencealignmentkernel與SVM結(jié)合的方法識(shí)別正確率達(dá)到了81.4%，是已知方法中最高的。然而，現(xiàn)有方法的識(shí)別正確率依然偏低。除了特征本身所固有的微弱多變因素，對(duì)啟動(dòng)子的認(rèn)識(shí)不夠深入、特征信息利用得不夠充分是造成這種情況的主要原因之一。最近的實(shí)驗(yàn)發(fā)現(xiàn)，大腸桿菌σ70啟動(dòng)子區(qū)域存在一些新的保守模式，如-10區(qū)延伸模式（extended-10motif）、UP元件（UPelement）等等。與典型特征相比，它們的保守性更弱一些。已有的識(shí)別模型還沒(méi)有利用這些特征。另外，在實(shí)際的轉(zhuǎn)錄起始過(guò)程中，啟動(dòng)子序列還需要形成一定的局部空間構(gòu)象，并在多種轉(zhuǎn)錄因子的輔助下，才能被RNA聚合酶準(zhǔn)確識(shí)別并與之相結(jié)合。它的雙鏈結(jié)合穩(wěn)定性也比較低，更容易被打開。這使得啟動(dòng)子序列與其它區(qū)域相比具有更高的局部彎曲度（curvature）和更低的雙鏈穩(wěn)定性（stability）。目前已有利用這些結(jié)構(gòu)特征進(jìn)行啟動(dòng)子識(shí)別的嘗試，但實(shí)際的效果不能令人滿意。由此可知，啟動(dòng)子序列的組成特征、信號(hào)特征、結(jié)構(gòu)特征在單獨(dú)使用時(shí)均不能提供啟動(dòng)子的全部信息，只有將這三類特征進(jìn)行合理融合，才能最大限度地表征啟動(dòng)子的本質(zhì)特性，為識(shí)別提供幫助。識(shí)別方法的合理選取與利用也是影響預(yù)測(cè)結(jié)果的一個(gè)重要方面。判別分析（discriminantanalysis）是一種經(jīng)典的多元統(tǒng)計(jì)分析方法，根據(jù)它的原理建立的分類器形式簡(jiǎn)單有效，并且具有良好的擴(kuò)展性。它可以通過(guò)特征篩選在備選特征中確定最優(yōu)特征集，以提高模型的準(zhǔn)確性和識(shí)別的正確率。另外，原核啟動(dòng)子一般位于轉(zhuǎn)錄單元（transcriptionunit）上游的非編碼區(qū)。但由于原核基因組中的非編碼區(qū)相對(duì)較短，下游轉(zhuǎn)錄單元的啟動(dòng)子有時(shí)會(huì)落入其緊鄰上游轉(zhuǎn)錄單元的最后一個(gè)基因的編碼區(qū)內(nèi)。對(duì)位于編碼區(qū)的啟動(dòng)子，現(xiàn)有的識(shí)別方法基本都是在選取數(shù)據(jù)集時(shí)直接將其剔除掉，有些甚至根本不加考慮。這顯然是不合理的。背景序列性質(zhì)的差異會(huì)對(duì)模型參數(shù)產(chǎn)生較大影響，因此在數(shù)據(jù)充足的前提下，應(yīng)該對(duì)兩類啟動(dòng)子分別進(jìn)行訓(xùn)練和識(shí)別?；谝陨戏治?，本文提出了一種新的原核啟動(dòng)子識(shí)別方法，對(duì)位于非編碼區(qū)和編碼區(qū)的啟動(dòng)子分別加以識(shí)別：將啟動(dòng)子的組成特征、信號(hào)特征以及結(jié)構(gòu)特征作為備選特征，為它們建立相應(yīng)的特征模型；再通過(guò)模型計(jì)算特征得分，根據(jù)得分對(duì)特征集進(jìn)行篩選和優(yōu)化；然后將篩選過(guò)的特征得分組合成特征向量，繼而在特征空間中利用判別分析進(jìn)行訓(xùn)練和判別。對(duì)大腸桿菌和枯草桿菌實(shí)際數(shù)據(jù)集的測(cè)試結(jié)果表明，我們提出的方法可以對(duì)多類原核啟動(dòng)子進(jìn)行有效的識(shí)別。1數(shù)據(jù)和方法1.1數(shù)據(jù)準(zhǔn)備1.1.1小鼠大腸桿菌全基因組序列的70啟動(dòng)子序列sdps針對(duì)大腸桿菌的PromEC、RegulonDB和針對(duì)枯草桿菌的DBTBS等數(shù)據(jù)庫(kù)收集了經(jīng)過(guò)實(shí)驗(yàn)證實(shí)的原核啟動(dòng)子序列數(shù)據(jù)。與PromEC相比，RegulonDB中可利用的大腸桿菌啟動(dòng)子序列數(shù)量更多，并且每條序列都標(biāo)明了對(duì)應(yīng)的σ因子。其中σ70啟動(dòng)子序列共有695條，每條長(zhǎng)81bp，覆蓋范圍為TSS上游60bp至下游20bp，序列第61bp處為TSS，格式為[TSS-60…TSS…TSS+20]。由于某些轉(zhuǎn)錄單元具有多個(gè)可能的TSS，每個(gè)TSS都對(duì)應(yīng)一條啟動(dòng)子序列，為減少數(shù)據(jù)集的冗余，當(dāng)相鄰TSS距離小于81bp時(shí)，下游TSS對(duì)應(yīng)的啟動(dòng)子序列將被剔除。經(jīng)過(guò)處理之后余下的683條序列即作為正數(shù)據(jù)集。大腸桿菌全基因組序列可從GenBank中獲?。ㄐ蛄蠥C號(hào)：U00096）。我們根據(jù)序列數(shù)據(jù)中提供的編碼區(qū)位置信息對(duì)正數(shù)據(jù)集進(jìn)行分類，整條序列全部落入某個(gè)編碼區(qū)的啟動(dòng)子將被當(dāng)作編碼區(qū)啟動(dòng)子。根據(jù)這一標(biāo)準(zhǔn)，正數(shù)據(jù)集被劃分為非編碼區(qū)正集（612條）和編碼區(qū)正集（71條）兩部分。1.1.2在轉(zhuǎn)錄單元的降低負(fù)數(shù)據(jù)集應(yīng)該從大腸桿菌全基因組序列中不含啟動(dòng)子的區(qū)域提取，但實(shí)際上并沒(méi)有哪段區(qū)域被明確證明不含啟動(dòng)子。所以要根據(jù)轉(zhuǎn)錄單元的結(jié)構(gòu)和啟動(dòng)子的分布特征盡量避開極有可能出現(xiàn)啟動(dòng)子的區(qū)域。非編碼區(qū)按其兩側(cè)基因轉(zhuǎn)錄的方向可分成同向（tandem）、背離（divergent）與會(huì)聚（convergent）三類，如圖1所示。原核生物的轉(zhuǎn)錄單元可以包含一個(gè)或多個(gè)基因，只有轉(zhuǎn)錄單元第一個(gè)基因的上游非編碼區(qū)才可能含有啟動(dòng)子。顯然，背離區(qū)肯定位于轉(zhuǎn)錄單元的上游，極有可能含有啟動(dòng)子；會(huì)聚區(qū)則肯定位于轉(zhuǎn)錄單元的下游，含有啟動(dòng)子的可能性很小；而同向區(qū)則有可能含有啟動(dòng)子，也可能不含。因此，在會(huì)聚的非編碼區(qū)選取非編碼負(fù)集，能最大程度保證其不含啟動(dòng)子。大腸桿菌全基因組序列中長(zhǎng)度不短于81bp的非編碼序列片段共有1966條，其中屬于會(huì)聚區(qū)的有247條。我們從會(huì)聚區(qū)序列中隨機(jī)提取互不交迭的612條片段組成非編碼區(qū)負(fù)集，每條序列長(zhǎng)度為81bp。編碼區(qū)啟動(dòng)子啟動(dòng)的是其下游的基因，因此一般都位于所在編碼區(qū)的尾部。編碼區(qū)越長(zhǎng)，它的中前部含有啟動(dòng)子的可能性就越小。大腸桿菌全基因組序列中與已知啟動(dòng)子區(qū)域沒(méi)有交迭，且長(zhǎng)度大于300bp(100個(gè)密碼子）的編碼區(qū)共有3845條。我們從這些序列的中部隨機(jī)提取71條長(zhǎng)度為81bp的片段組成編碼區(qū)負(fù)集。負(fù)數(shù)據(jù)集序列的數(shù)目和格式與正數(shù)據(jù)集相同，與之相對(duì)應(yīng)，可認(rèn)為負(fù)集序列第61bp處為虛假的TSS(nonTSS），序列格式則為[nonTSS-60…nonTSS…nonTSS+20]。1.2待判別啟動(dòng)子序列將基因組序列視為一段由字母{A,C,G,T}組成的字符串S，已知S的某些特定位置上存在TSS。假設(shè)對(duì)任意一個(gè)位置p，字符串片段[Sp-U…Sp…Sp+D]包含足夠的信息來(lái)判別Sp是不是一個(gè)TSS，這樣的片段稱為待判別的啟動(dòng)子序列。給定一組訓(xùn)練數(shù)據(jù)集，包括正集（經(jīng)實(shí)驗(yàn)證實(shí)的啟動(dòng)子序列）和負(fù)集（不含啟動(dòng)子的背景序列），啟動(dòng)子識(shí)別就是通過(guò)訓(xùn)練，對(duì)任意給定的待判別啟動(dòng)子序列，判斷其是否屬于真正的啟動(dòng)子序列。1.3備份功能的計(jì)算我們從啟動(dòng)子的組成特征、信號(hào)特征以及結(jié)構(gòu)特征中選取備選特征，根據(jù)特征模型計(jì)算各個(gè)特征得分。1.3.1選擇正確的詞頻方案計(jì)算組成特征最常用的方法是詞頻分析。它將序列的k元組看作長(zhǎng)度為k的單詞，分析的步驟如下：1)對(duì)于DNA序列，詞長(zhǎng)為k的單詞共有4k種，由(1)式分別計(jì)算第i種單詞在正集和負(fù)集中出現(xiàn)的頻率fiP和fiN，其中ni為第i種單詞在對(duì)應(yīng)數(shù)據(jù)集中出現(xiàn)的次數(shù)。2)對(duì)于一條特定的序列w，根據(jù)(1)式中得到的頻率值，由(2)式計(jì)算k階詞頻得分swk，其中求和的范圍是對(duì)w中所有依次出現(xiàn)的單詞。1階詞頻反映了序列的堿基含量信息，高階詞頻則可反映相鄰堿基間的特定關(guān)系，階次越高信息越豐富。由于(1)式計(jì)算的頻率是詞頻的極大似然估計(jì)，在保證估計(jì)值可靠性的前提下，增加階次則需要更多的訓(xùn)練數(shù)據(jù)，所以k值的上限將受到數(shù)據(jù)集大小的限制。經(jīng)過(guò)估算，對(duì)非編碼區(qū)數(shù)據(jù)集，k的上限取6，即選取1～6階詞頻為備選特征；對(duì)編碼區(qū)數(shù)據(jù)集，k的上限取4，即選取1～4階詞頻為備選特征。1.3.2-10/-35區(qū)模式考慮到-10/-35區(qū)模式的間隔距離也是一個(gè)保守特征，我們將-10區(qū)模式、-35區(qū)模式以及它們之間的距離合并成一個(gè)復(fù)合模式（compositemotif），與TSS、-10區(qū)延伸模式和UP元件一起作為備選特征。圖2給出了這些保守模式在啟動(dòng)子區(qū)域的相對(duì)位置。描述保守模式的一種簡(jiǎn)單有效的模型是位置權(quán)重矩陣（PWM）。PWM可提供保守模式每個(gè)位置上四種堿基出現(xiàn)頻率的信息，(3)式給出了一種計(jì)算公式，其中M(α,i)為PWM第i列上堿基α(α∈{A,C,G,T})所對(duì)應(yīng)的矩陣元素，n(α,i)為訓(xùn)練集中PWM第i列上堿基α的出現(xiàn)次數(shù)。各個(gè)模式在正數(shù)據(jù)集中的PWM可根據(jù)相應(yīng)的統(tǒng)計(jì)位置由(3)式直接計(jì)算得到。而負(fù)數(shù)據(jù)集中均為背景序列，不具有正集序列中的各種保守模式。因此，所有模式的負(fù)集PWM中的每一列均可用負(fù)數(shù)據(jù)集中四種堿基的平均出現(xiàn)頻率來(lái)代替。得到PWM之后，根據(jù)(4)式計(jì)算模式的特征得分，其中j為模式在序列中的起始位置，A為PWM的長(zhǎng)度，αj+i表示序列第j+i位置處的堿基，MP(α,i)為正集PWM第i列上堿基α對(duì)應(yīng)的矩陣元素值，MN(α,i)為負(fù)集PWM第i列上堿基α對(duì)應(yīng)的元素值。復(fù)合模式主要包含-10/-35區(qū)模式的PWM以及模式間距的分布信息，其得分sc由-10區(qū)模式得分sp、-35區(qū)模式得分sx和模式間距得分sd相加得到。由于正數(shù)據(jù)集中沒(méi)有給出-10/-35區(qū)模式的起始位置，PWM和距離分布可通過(guò)一個(gè)基于期望最大（expectationmaximization,EM）思想的迭代尋優(yōu)過(guò)程得到，算法如下：輸入：訓(xùn)練集中的序列數(shù)目W，-10區(qū)模式起始位置j的變化區(qū)間[m,n]，模式間距l(xiāng)的變化區(qū)間[p,q]，迭代次數(shù)上限T,PWM長(zhǎng)度L，變化的下限σ。1)初始化：建立-10/-35區(qū)模式初始PWME0和G0，以及模式間距初始經(jīng)驗(yàn)分布函數(shù)F0(l)。2)循環(huán)1：對(duì)t=1,2,…,T,執(zhí)行循環(huán)2。(1)循環(huán)2：對(duì)k=1,2,…,W，執(zhí)行：(1)計(jì)算復(fù)合模式得分sct(k)：其中：(2)記錄sct(k)中的-10區(qū)模式起始位置ykt和模式間距dt(k);(3)循環(huán)2結(jié)束。(2)對(duì)每條序列，提取從位置ykt起的L個(gè)堿基，重新構(gòu)造Et。(3)提取從位置ykt-dt(k)-L起的L個(gè)堿基，重新構(gòu)造Gt。(4)根據(jù)dt(k)重新估計(jì)Ft(l)。(5)如果‖Et-Et-1‖<σ且‖Gt-Gt-1‖<σ，循環(huán)1結(jié)束。(6)循環(huán)1結(jié)束。3)輸出Et、Gt和Ft(l)。E0的統(tǒng)計(jì)位置為[TSS-12,…,TSS-7]，G0的統(tǒng)計(jì)位置為[TSS-35,…,TSS-30]。此時(shí)兩個(gè)模式的間距為17bp，-10區(qū)模式與TSS的間距為6bp，是它們?cè)讦?0啟動(dòng)子中最典型的位置。以此為初始點(diǎn)的目的是為了加速迭代過(guò)程的收斂，而F0(l)取均勻分布即可。-10區(qū)模式起始位置的變化區(qū)間和模式間距的變化區(qū)間共同構(gòu)成了最優(yōu)復(fù)合模式的搜索空間，它們的大小需要利用先驗(yàn)知識(shí)來(lái)確定，也可在迭代過(guò)程中不斷修正。對(duì)于特定序列，利用Et、Gt和Ft(l)，由式(5)和(6)計(jì)算復(fù)合模式得分sc。-10區(qū)延伸模式緊鄰在-10區(qū)模式上游，根據(jù)最優(yōu)復(fù)合模式的信息，其統(tǒng)計(jì)位置為[ykt-5,…,ykt-1]。TSS和UP元件的統(tǒng)計(jì)位置是固定的，分別為[TSS-2,…,TSS+3]和[TSS-60,…,TSS-41]。位置確定之后，由(3)式計(jì)算PWM，然后再由(4)式分別計(jì)算-10區(qū)延伸模式得分se、TSS得分si和UP元件得分su。1.3.3可擴(kuò)張性整體偏角的預(yù)測(cè)模型序列局部彎曲度和雙鏈穩(wěn)定性是我們要利用的結(jié)構(gòu)備選特征。序列的局部彎曲度可通過(guò)雙螺旋結(jié)構(gòu)局部偏角的變化來(lái)描述。偏角變化越大，彎曲度越高。利用Goodsell等提出的預(yù)測(cè)模型，我們可以計(jì)算轉(zhuǎn)角（roll）、翹角（tilt）以及扭角（twist）這三種最主要偏角的變化值，將角度轉(zhuǎn)換為弧度，即可作為轉(zhuǎn)角得分sr、翹角得分sl和扭角得分st。雙鏈穩(wěn)定性可通過(guò)堿基結(jié)合的自由能來(lái)描述。自由能越高，穩(wěn)定性越低。由SantaLucia提出的預(yù)測(cè)模型可直接計(jì)算自由能得分sf。以上兩類預(yù)測(cè)模型均列出了二苷（dimer）片段對(duì)應(yīng)的參數(shù)表。因此實(shí)際的計(jì)算只需用長(zhǎng)度為2的窗口沿待計(jì)算序列滑動(dòng)，每次前進(jìn)1個(gè)bp，將依次出現(xiàn)的二苷所對(duì)應(yīng)的參數(shù)值累加即可。1.3.4特征篩選ls特征選擇是否恰當(dāng)，是判別效果優(yōu)劣的關(guān)鍵。對(duì)非編碼區(qū)啟動(dòng)子數(shù)據(jù)，我們選取了14個(gè)備選特征（6個(gè)組成特征、4個(gè)信號(hào)特征、4個(gè)結(jié)構(gòu)特征）；對(duì)編碼區(qū)啟動(dòng)子數(shù)據(jù)，選取了12個(gè)備選特征（4個(gè)組成特征、4個(gè)信號(hào)特征、4個(gè)結(jié)構(gòu)特征）。選取較多的備選特征是為了能使特征集更全面地涵蓋啟動(dòng)子的信息。但這些特征對(duì)判別的貢獻(xiàn)是不一樣的，并不是每個(gè)特征都能提供顯著的信息，判別力不強(qiáng)的特征還會(huì)干擾和影響判別效果。因此需要根據(jù)對(duì)判別實(shí)際貢獻(xiàn)的大小對(duì)備選特征進(jìn)行篩選，選取“最優(yōu)”特征集。特征判別力的大小可通過(guò)計(jì)算類間Mahalonobis平方距離D2來(lái)估計(jì)，D2越大，判別力也越大。設(shè)啟動(dòng)子為第1類，非啟動(dòng)子為第2類，mi為第i類的特征均值向量，ni為第i類的樣本數(shù)目，則k個(gè)特征的Dk2計(jì)算公式為：其中S為混合協(xié)方差矩陣。設(shè)Si為第i類的協(xié)方差矩陣，則S計(jì)算公式如下：我們選取的備選特征都有一定的生物和物理意義，沒(méi)有完全冗余的特征，因此(7)式中的求逆運(yùn)算總可進(jìn)行。如果存在完全冗余的特征，則必須先利用相關(guān)系數(shù)矩陣將其剔除。特征篩選可以提高計(jì)算效率，減小干擾，提高判別精度，在特征較多時(shí)尤為必要。我們采用逐步法進(jìn)行特征篩選，過(guò)程如下：1)計(jì)算單個(gè)備選特征的D12，按D12值從大到小的順序?qū)⑵渑判?，組成備選隊(duì)列；取D12值最大的特征作為特征集中的初始特征。2)特征增加：設(shè)特征集中已有p個(gè)特征，對(duì)待加入的備選特征，判斷加入后的D2p+1與原有的Dp2相比是否有顯著增長(zhǎng)。如果有，則說(shuō)明此特征能夠提供顯著的附加信息，將其加入特征集，進(jìn)入3)；否則，對(duì)備選隊(duì)列的下一個(gè)特征，繼續(xù)執(zhí)行2)。3)特征刪除：加入新特征之后，對(duì)原有的p個(gè)特征，依次判斷刪除其中一個(gè)特征后的Dp2與現(xiàn)有的D2p+1相比是否有顯著減小。如果沒(méi)有，則說(shuō)明隨著新特征的加入，此特征提供的信息已經(jīng)不再顯著，可將其從特征集中刪除，放回到備選隊(duì)列的末尾。4)對(duì)備選隊(duì)列中的特征依次執(zhí)行2)、3)，當(dāng)既不能加入新特征，又不能刪除已有特征時(shí)停止。此時(shí)的特征集即為“最優(yōu)”特征集。p個(gè)特征下的Dp2與q個(gè)特征下的Dq2是否有顯著差別可通過(guò)對(duì)統(tǒng)計(jì)量F的假設(shè)檢驗(yàn)（H0∶Dp2=Dq2）來(lái)判斷：其中F服從F(p-q,n1+n2-p-1)分布，ni為對(duì)應(yīng)的樣本數(shù)目。對(duì)位于非編碼區(qū)的啟動(dòng)子，經(jīng)過(guò)篩選后的特征集包含4階詞頻、6階詞頻、復(fù)合模式、TSS、-10區(qū)延伸模式、UP元件、局部轉(zhuǎn)角、結(jié)合自由能共8種特征，其對(duì)應(yīng)特征得分可組合成8維特征向量sn:對(duì)位于編碼區(qū)的啟動(dòng)子，經(jīng)過(guò)篩選后的特征集包含4階詞頻、復(fù)合模式、TSS、UP元件、局部轉(zhuǎn)角、局部扭角共6種特征，其對(duì)應(yīng)特征得分可組合成6維特征向量so:引入新特征給總體D2帶來(lái)的增量△可作為特征判別力的一種最終衡量。表1給出了篩選之后特征集中各個(gè)特征的△值。由表可知，高階詞頻和復(fù)合模式是原核啟動(dòng)子最顯著的特征。至此，數(shù)據(jù)集中的每條序列均可用特征空間的一個(gè)特征向量來(lái)表示，啟動(dòng)子識(shí)別問(wèn)題就轉(zhuǎn)換為特征空間中特征向量的判別問(wèn)題。1.4qda的判別函數(shù)啟動(dòng)子和非啟動(dòng)子對(duì)應(yīng)的組合特征向量的協(xié)方差互不相等，所以我們采用二次判別分析法（quadraticdiscriminantanalysis,QDA），計(jì)算總體平均損失最小準(zhǔn)則下的二次判別曲面。設(shè)啟動(dòng)子向量為第1類，非啟動(dòng)子向量為第2類，則QDA的判別函數(shù)（quadraticdiscriminantfunction,QDF）為：其中pi0為第i類的先驗(yàn)概率，Si為第i類的協(xié)方差矩陣，Si為Si的行列式，Di2為待判別向量與第i類的Mahalonobis平方距離，其計(jì)算公式如下：其中x為待判別向量，mi為第i類的特征均值向量。采用Mahalonobis平方距離的優(yōu)點(diǎn)是可以一定程度克服組合特征向量各分量之間的相關(guān)性干擾，并且消除因計(jì)算模型不同而引入的量綱影響。根據(jù)(12)式，對(duì)待判別向量x，如果QDF>0，則判別x為啟動(dòng)子向量；如果QDF≤0，則判別x為非啟動(dòng)子向量。2結(jié)果與討論2.1相關(guān)系數(shù)和平均正確率啟動(dòng)子識(shí)別常用的評(píng)價(jià)指標(biāo)有敏感性（sensitivity,Sn）、特異性（specificity,Sp）、相關(guān)系數(shù)（correlationcoefficient,CC）和平均正確率（averageaccuracy,AC）。定義TP為真實(shí)啟動(dòng)子被識(shí)別為真實(shí)啟動(dòng)子的數(shù)目，TN為虛假啟動(dòng)子被識(shí)別為虛假啟動(dòng)子的數(shù)目，F(xiàn)P為虛假啟動(dòng)子被識(shí)別為真實(shí)啟動(dòng)子的數(shù)目，F(xiàn)N為真實(shí)啟動(dòng)子被識(shí)別為虛假啟動(dòng)子的數(shù)目，則有：2.2數(shù)據(jù)集的生成利用1.1中準(zhǔn)備好的數(shù)據(jù)集，我們采用刀切法（jackknife）進(jìn)行測(cè)試，即按照每次提取一條數(shù)據(jù)作為測(cè)試集，其余的數(shù)據(jù)全部作為訓(xùn)練集的方式，依次對(duì)全部數(shù)據(jù)測(cè)試一遍，再對(duì)所有測(cè)試結(jié)果進(jìn)行統(tǒng)計(jì)作為此數(shù)據(jù)集的測(cè)試結(jié)果。由于負(fù)數(shù)據(jù)集是在備選數(shù)據(jù)中隨機(jī)提取的，為了體現(xiàn)方法的真實(shí)識(shí)別水平，減小偶然性，我們每次連續(xù)生成10組數(shù)據(jù)進(jìn)行測(cè)試，將各次測(cè)試的平均結(jié)果作為最終測(cè)試結(jié)果。非編碼區(qū)數(shù)據(jù)集（正集612條數(shù)據(jù)，1組；負(fù)集612條數(shù)據(jù)，10組）的測(cè)試結(jié)果見(jiàn)表2，編碼區(qū)數(shù)據(jù)集（正集71條數(shù)據(jù)，1組；負(fù)集71條數(shù)據(jù)，10組）的測(cè)試結(jié)果見(jiàn)表3。作為比較，表2和表3中均給出了利用篩選前和篩選后的特征集進(jìn)行識(shí)別的測(cè)試結(jié)果。很明顯，經(jīng)過(guò)特征篩選的算法計(jì)算量變小而識(shí)別準(zhǔn)確率卻有所提高：對(duì)位于非編碼區(qū)的啟動(dòng)子，其Sn和Sp均達(dá)到了0.86,AC為85.8%；而對(duì)位于編碼區(qū)的啟動(dòng)子，盡管數(shù)據(jù)較少，Sn和Sp也分別達(dá)到了0.81和0.82,AC為81.9%。測(cè)試結(jié)果充分驗(yàn)證了特征篩選過(guò)程的有效性。2.3非編碼區(qū)啟動(dòng)子識(shí)別結(jié)果PFD法和sequencealignmentkernel結(jié)合SVM法分別是基于組成和基于信號(hào)兩大類識(shí)別方法中的代表。它們主要識(shí)別位于非編碼區(qū)的啟動(dòng)子，數(shù)據(jù)集也從RegulonDB中獲得，與我們的非編碼區(qū)啟動(dòng)子數(shù)據(jù)集基本相同。因此對(duì)于非編碼區(qū)啟動(dòng)子，我們提出的方法與這兩種方法的識(shí)別結(jié)果具有一定的可比性，具體結(jié)果見(jiàn)表4。從表中可以看出，對(duì)位于非編碼區(qū)的啟動(dòng)子，我們的方法在各個(gè)評(píng)價(jià)指標(biāo)上均達(dá)到或超過(guò)了其它兩種具有代表性的方法，使識(shí)別的平均正確率有了較為明顯的提高。2.4啟動(dòng)子的識(shí)別大腸桿菌σ70啟動(dòng)子的各種特征在原核啟動(dòng)子中具有一定的代表性。其它的原核啟動(dòng)子有與其非常類似的組成特征和結(jié)構(gòu)特征，只是信號(hào)特征中各種保守模式片段的一致序列和分布位置可能有所不同。因此只要適當(dāng)調(diào)整信號(hào)特征模型的計(jì)算位置和范圍，我們的方法就應(yīng)該能用于這些啟動(dòng)子的識(shí)別。按照與大腸桿菌σ70啟動(dòng)子相同的處理與分析過(guò)程，我們從DBTBS和RegulonDB中分別提取了枯

人人文庫(kù)> 全部分類> 教育資料 > 作文作品

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

啟動(dòng)子識(shí)別研究進(jìn)展

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

啟動(dòng)子識(shí)別研究進(jìn)展

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔