第三章DNA序列分析-2008-10-9_第1頁
第三章DNA序列分析-2008-10-9_第2頁
第三章DNA序列分析-2008-10-9_第3頁
第三章DNA序列分析-2008-10-9_第4頁
第三章DNA序列分析-2008-10-9_第5頁
已閱讀5頁,還剩187頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三章DNA序列分析3.1概述3.1.1序列分析的意義(1)DNA序列自身編碼特征的分析是基因組信息學(xué)研究的基礎(chǔ),特別是隨著大規(guī)模測(cè)序的日益增加,它的每一個(gè)環(huán)節(jié)都與信息分析緊密相關(guān)。(2)基因組不僅是基因的簡(jiǎn)單排列,更重要的是它有其特有的組織結(jié)構(gòu)和信息結(jié)構(gòu),這種結(jié)構(gòu)是在長(zhǎng)期的演化過程中產(chǎn)生的,也是基因發(fā)揮其功能所必須的。(3)雖然對(duì)約占模式生物(包括人類)基因組90%的非編碼區(qū)的作用人們還不清楚,但從生物進(jìn)化的觀點(diǎn)看來,這部分序列必定具有重要的生物功能。普遍的認(rèn)識(shí)是,它們與基因在四維時(shí)空的表達(dá)調(diào)控有關(guān)。尋找這些區(qū)域的編碼特征,信息調(diào)節(jié)與表達(dá)規(guī)律是未來相當(dāng)長(zhǎng)時(shí)間內(nèi)的熱點(diǎn),是取得重要成果的源泉。(4)在不同物種、不同進(jìn)化水平的生物的相關(guān)基因之間進(jìn)行比較分析,是基因研究的重要手段。目前,模式生物全基因組序列數(shù)據(jù)越來越多,因此,基因的比較研究,也必須從基因的比較,上升到對(duì)不同進(jìn)化水平的生物在全基因組水平上的比較研究。這樣的研究將更有效地揭示基因在生命系統(tǒng)中的地位和作用,解釋整個(gè)生命系統(tǒng)的組成和作用方式。3.1.2序列分析的內(nèi)容(1)通過染色體定位分析、內(nèi)含子/外顯子分析、ORF分析、表達(dá)譜分析等,能夠闡明基因的基本信息。(2)通過啟動(dòng)子預(yù)測(cè)、CpG島分析和轉(zhuǎn)錄因子分析等,識(shí)別調(diào)控區(qū)的順式作用元件,可以為基因的調(diào)控研究提供基礎(chǔ)。(3)通過蛋白質(zhì)基本性質(zhì)分析,疏水性分析,跨膜區(qū)預(yù)測(cè),信號(hào)肽預(yù)測(cè),亞細(xì)胞定位預(yù)測(cè),抗原性位點(diǎn)預(yù)測(cè),可以對(duì)基因編碼蛋白的性質(zhì)作出初步判斷和預(yù)測(cè)。尤其通過疏水性分析和跨膜區(qū)預(yù)測(cè)可以預(yù)測(cè)基因是否為膜蛋白,這對(duì)確定實(shí)驗(yàn)研究方向有重要的參考意義。(4)通過相似性搜索、功能位點(diǎn)分析、結(jié)構(gòu)分析、查詢基因表達(dá)譜聚簇?cái)?shù)據(jù)庫(kù)、基因敲除數(shù)據(jù)庫(kù)、基因組上下游鄰居等,盡量挖掘網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中的信息,可以對(duì)基因功能作出推論。3.1.3DNA序列分析的目標(biāo)任務(wù)對(duì)于呈指數(shù)式增長(zhǎng)的序列數(shù)據(jù),通過序列分析,可以獲得如下幾個(gè)方面的信息:(1)序列及所代表的類群間的系統(tǒng)發(fā)育關(guān)系;(2)限制性酶切(位點(diǎn))圖譜;(3)籍內(nèi)含子/外顯子(intron/exon)預(yù)測(cè)所確定的遺傳結(jié)構(gòu);(4)籍開放閱讀框(ORF)分析所推導(dǎo)的蛋白質(zhì)編碼序列(codingsequence,CDS)。基因與基因組分析技術(shù)路線

可讀框預(yù)測(cè)和基因標(biāo)注序列拼接與組裝結(jié)果上傳到數(shù)據(jù)庫(kù)堿基讀取載體標(biāo)識(shí)與去除測(cè)序儀中原始數(shù)據(jù)的采樣與分析大規(guī)?;蛐蛄袦y(cè)定生物信息學(xué)的內(nèi)容基因預(yù)測(cè)DNA序列中編碼區(qū)的鑒定預(yù)測(cè)方法的依據(jù):

編碼統(tǒng)計(jì)學(xué):編碼區(qū)序列同非編碼區(qū)序列相比,有不同的特點(diǎn),存在一些非隨機(jī)的特點(diǎn)

GC含量密碼子偏倚性(CODONFREQUENCY)

第三個(gè)堿基組成

基因結(jié)構(gòu)/統(tǒng)計(jì)學(xué)方法

比較/同源性生物信息學(xué)的內(nèi)容蛋白質(zhì)結(jié)構(gòu)新蛋白的完整、精確和動(dòng)態(tài)的三維結(jié)構(gòu)計(jì)算機(jī)輔助結(jié)構(gòu)模擬理解蛋白質(zhì)的氨基酸序列和三維結(jié)構(gòu)之間的關(guān)系蛋白質(zhì)序列及特性分析蛋白質(zhì)組學(xué)蛋白質(zhì)與蛋白質(zhì)組分析生物信息學(xué)的內(nèi)容研究主要集中在核苷酸序列的存儲(chǔ)、分類、檢索和分析等方面新基因的發(fā)現(xiàn)非蛋白編碼區(qū)生物學(xué)意義的分析基因組整體功能及其調(diào)節(jié)網(wǎng)絡(luò)的系統(tǒng)把握基因組演化與物種演化基因組分析3.2基因的結(jié)構(gòu)什么是基因?基因是有遺傳效應(yīng)的DNA片斷,是決定生物性狀的基本單位。每個(gè)DNA分子上有很多個(gè)基因,每個(gè)基因可以含有成百上千個(gè)脫氧核苷酸。不同基因中脫氧核苷酸的排列順序不同,因此不同的基因含有不同的遺傳信息?;虻墓δ埽夯蚰軌騼?chǔ)存、傳遞和表達(dá)遺傳信息,也都可能發(fā)生突變,從而決定生物體的性狀。基因如何決定生物性狀?

通過轉(zhuǎn)錄、翻譯,控制合成具有一定氨基酸順序的蛋白質(zhì),從而控制生物的性狀。DNA→RNARNA→蛋白質(zhì)基因的表達(dá)原核細(xì)胞的基因結(jié)構(gòu)編碼區(qū)非編碼區(qū)非編碼區(qū)編碼區(qū)上游編碼區(qū)下游不能編碼蛋白質(zhì)可調(diào)控遺傳信息的表達(dá)(調(diào)控序列)編碼蛋白質(zhì)(編碼序列)原核基因識(shí)別 重點(diǎn)在于識(shí)別編碼區(qū)域非翻譯區(qū)域(untranslatedregions,UTR)編碼區(qū)域兩端的DNA,有一部分被轉(zhuǎn)錄,但是不被翻譯,這一部分稱為非翻譯區(qū)域5’UTR---基因上游區(qū)域的非翻譯區(qū)域3’UTR---基因下游區(qū)域的非翻譯區(qū)域一個(gè)開放閱讀框(ORF,openreadingframe)是一個(gè)沒有終止編碼的密碼子序列。原核基因識(shí)別任務(wù)的重點(diǎn)是識(shí)別開放閱讀框,或者說識(shí)別長(zhǎng)的編碼區(qū)域。原核細(xì)胞的基因結(jié)構(gòu)編碼區(qū)非編碼區(qū)非編碼區(qū)與RNA聚合酶結(jié)合位點(diǎn)

RNA聚合酶是由多個(gè)肽鏈構(gòu)成的蛋白質(zhì),能識(shí)別并與調(diào)控序列中的結(jié)合位點(diǎn)結(jié)合,催化轉(zhuǎn)錄形成RNA。RNA聚合酶AGGTCACGTCGTCCAGTGCAGCRNA聚合酶AGGUCACGUCGRNA聚合酶一個(gè)典型的原核細(xì)胞基因結(jié)構(gòu)示意圖非編碼區(qū)非編碼區(qū)編碼區(qū)TCCAGTAGGTCAAGATCTmRNA多肽鏈

科學(xué)工作者分離得到了某原核生物基因,并將其解離成兩條單鏈?,F(xiàn)讓其中一條鏈與由該基因轉(zhuǎn)錄而來的信使RNA雜交配對(duì),結(jié)果如圖所示。非編碼區(qū)非編碼區(qū)編碼區(qū)信使RNA基因的一條鏈ABC基于基因密碼子特性的識(shí)別方法辨別編碼區(qū)域與非編碼區(qū)域的一種方法是檢查終止密碼子的出現(xiàn)頻率終止密碼子出現(xiàn)的期望次數(shù)為:每21個(gè)(64/3)密碼子出現(xiàn)一次終止密碼子

基本思想:如果能夠找到一個(gè)比較長(zhǎng)的序列,其相應(yīng)的密碼子序列不含終止密碼子,則這段序列可能就是編碼區(qū)域。基本算法:掃描給定的DNA序列,在三個(gè)不同的閱讀框中尋找較長(zhǎng)的ORF。遇到終止密碼子以后,回頭尋找起始密碼子。這種算法過于簡(jiǎn)單,不適合于處理短的ORF或者交疊的ORF。識(shí)別編碼區(qū)域的另一種方法是分析各種密碼子出現(xiàn)的頻率

將一個(gè)隨機(jī)均勻分布的DNA序列翻譯成氨基酸序列,則在氨基酸序列中上述3種氨基酸出現(xiàn)的比例應(yīng)該為6:4:1例如,亮氨酸、丙氨酸、色氨酸分別有6個(gè)、4個(gè)和1個(gè)密碼子但是在真實(shí)的氨基酸序列中,上述比例并不正確這說明DNA的編碼區(qū)域并非隨機(jī)假設(shè)在一條DNA序列中已經(jīng)找到所有的ORF,那么可以利用密碼子頻率進(jìn)一步區(qū)分編碼ORF和非編碼ORF馬爾柯夫鏈模型利用這種方法,可以計(jì)算一個(gè)ORF成為編碼區(qū)域的可能性。真核細(xì)胞的基因結(jié)構(gòu)一個(gè)典型的真核細(xì)胞基因結(jié)構(gòu)示意圖編碼區(qū)含有能夠編碼蛋白質(zhì)的序列(外顯子,exon)不能編碼蛋白質(zhì)的插入序列(內(nèi)含子,intron)真核生物的結(jié)構(gòu)基因是斷裂基因非編碼區(qū)非編碼區(qū)編碼區(qū)與RNA聚合酶結(jié)合位點(diǎn)外顯子內(nèi)含子12345真核細(xì)胞的基因結(jié)構(gòu)編碼區(qū)非編碼區(qū)非編碼區(qū)編碼區(qū)下游調(diào)控遺傳信息的表達(dá)(調(diào)控序列)外顯子(能編碼蛋白質(zhì))內(nèi)含子(不能編碼蛋白質(zhì))非編碼區(qū)非編碼區(qū)編碼區(qū)與RNA聚合酶結(jié)合位點(diǎn)外顯子內(nèi)含子12345加工轉(zhuǎn)錄mRNA前體成熟mRNA加工一個(gè)典型的真核細(xì)胞基因結(jié)構(gòu)示意圖非編碼區(qū)非編碼區(qū)編碼區(qū)與RNA聚合酶結(jié)合位點(diǎn)外顯子內(nèi)含子12345原核細(xì)胞基因真核細(xì)胞基因相同點(diǎn)不同點(diǎn)原核細(xì)胞基因與真核細(xì)胞基因的比較都是由能夠編碼蛋白質(zhì)的編碼區(qū)和具有調(diào)控作用的非編碼區(qū)組成。編碼區(qū)是連續(xù)的編碼區(qū)是間隔的,是不連續(xù)的猜想:為什么成熟信使RNA比編碼區(qū)(單鏈)堿基數(shù)量要少?成熟信使RNA對(duì)應(yīng)基因的一條鏈編碼區(qū)真核生物基因的有關(guān)實(shí)驗(yàn)非編碼區(qū)非編碼區(qū)ABC哪些情況下,真核生物基因結(jié)構(gòu)改變(基因突變)可能不會(huì)導(dǎo)致性狀改變?(1)內(nèi)含子改變(2)非編碼區(qū)改變,mRNA遺傳密碼不變(3)外顯子改變,轉(zhuǎn)錄成不同密碼子決定同一種氨基酸(4)蛋白質(zhì)氨基酸序列不同,也可能完成相同功能(5)突變后,基因變?yōu)殡[性12345非編碼區(qū)非編碼區(qū)編碼區(qū)不同基因所含的外顯子和內(nèi)含子數(shù)量不同如人血紅蛋白的-珠蛋白基因有1700個(gè)堿基對(duì),含有3個(gè)外顯子和2個(gè)內(nèi)含子,編碼146個(gè)氨基酸。一種凝血因子基因有186000堿基對(duì),含有26個(gè)外顯子和25個(gè)內(nèi)含子,編碼2552個(gè)氨基酸。計(jì)算人的-珠蛋白和凝血因子基因中外顯子的堿基對(duì)在整個(gè)基因堿基對(duì)中所占的比例:(146×3)÷1700×100%=26%(2552×3)÷186000×100%=4%從這個(gè)比例中你能得出什么結(jié)論?在真核細(xì)胞中,不同基因的編碼序列,在各自基因中所占的比例是不同的。在真核細(xì)胞中,編碼序列在整個(gè)基因中所占的比例是較少的,而非編碼序列所占的比例則是較大的,從某種意義上體現(xiàn)了真核細(xì)胞基因結(jié)構(gòu)與功能的復(fù)雜性。3.3核酸序列的概念性翻譯3.4真核基因識(shí)別

真核基因遠(yuǎn)比原核基因復(fù)雜:一方面,真核基因的編碼區(qū)域是非連續(xù)的,編碼區(qū)域被分割為若干個(gè)小片段。另一方面,真核基因具有更加豐富的基因調(diào)控信息,這些信息主要分布在基因上游區(qū)域。3.4.1基因識(shí)別基本思路

找出基因兩端的功能區(qū)域:

轉(zhuǎn)錄啟動(dòng)區(qū)終止區(qū)在啟動(dòng)區(qū)下游位置尋找翻譯起始密碼子識(shí)別轉(zhuǎn)錄剪切位點(diǎn)剪切給體位點(diǎn)剪切接受體位點(diǎn)各種不同的方法有不同的適應(yīng)面,而不同的方法有時(shí)可以結(jié)合起來以提高基因識(shí)別的準(zhǔn)確率。關(guān)鍵問題是如何提高一個(gè)識(shí)別算法的敏感性(sensitivity,Sn)和特異性(specificity,Sp)。

3.4.2基因識(shí)別的主要方法兩大類識(shí)別方法:從頭算方法(或基于統(tǒng)計(jì)的方法)根據(jù)蛋白質(zhì)編碼基因的一般性質(zhì)和特征進(jìn)行識(shí)別,通過統(tǒng)計(jì)值區(qū)分外顯子、內(nèi)含子及基因間區(qū)域

基于同源序列比較的方法利用數(shù)據(jù)庫(kù)中現(xiàn)有與基因有關(guān)的信息(如EST序列、蛋白質(zhì)序列),通過同源比較,幫助發(fā)現(xiàn)新基因。最理想的方法是綜合兩大類方法的優(yōu)點(diǎn),開發(fā)混合算法?;蜃R(shí)別方法有:(1)基于規(guī)則的系統(tǒng)(2)語義學(xué)方法(3)線性辨別分析(LDA)(4)決策樹

(5)動(dòng)態(tài)規(guī)劃

(6)隱馬爾柯夫模型

(7)剪切對(duì)比排列(splicedalignment)3.4.3編碼區(qū)域識(shí)別兩類方法:基于特征信號(hào)的識(shí)別內(nèi)部外顯子 剪切位點(diǎn)5’端的外顯子一定在核心啟動(dòng)子的下游3’端的外顯子的下游包含多聚A信號(hào)和終止編碼基于統(tǒng)計(jì)度量的方法根據(jù)密碼子使用傾向雙聯(lián)密碼統(tǒng)計(jì)度量等

在一個(gè)基因中,第i個(gè)(i=1,64)密碼子相對(duì)使用傾向RSCUi的定義如下:Obsi是該基因中第i個(gè)密碼子實(shí)際出現(xiàn)的次數(shù)

Expi是對(duì)應(yīng)密碼子期望的出現(xiàn)次數(shù)

aai是統(tǒng)計(jì)的第i個(gè)密碼子出現(xiàn)的次數(shù) syni是所有與第i個(gè)密碼子同義密碼子出現(xiàn)的次數(shù)RSCU大于1表示相應(yīng)密碼子出現(xiàn)的次數(shù)比期望次數(shù)高,而小于1則表示出現(xiàn)次數(shù)相對(duì)較少。(5-66)(5-65)

密碼子使用傾向設(shè)一段DNA序列為S,從S的第i位到第j位的雙聯(lián)密碼統(tǒng)計(jì)度量IF6(i,j)定義為:

fk是從第k位開始的雙聯(lián)密碼的頻率

Fk是該雙聯(lián)密碼隨機(jī)出現(xiàn)的頻率(5-67)雙聯(lián)密碼統(tǒng)計(jì)度量通過相似搜索發(fā)現(xiàn)編碼區(qū)域或者外顯子EST(ExpressedSequenceTags)cDNA

蛋白質(zhì)序列目前大多數(shù)預(yù)測(cè)程序都將數(shù)據(jù)庫(kù)相似性搜索的信息結(jié)合進(jìn)基因預(yù)測(cè)過程同時(shí)考慮序列特征信號(hào)和統(tǒng)計(jì)度量

GRAIL

用人工神經(jīng)網(wǎng)絡(luò)識(shí)別編碼區(qū)域輸入是一系列反映功能位點(diǎn)信號(hào)特征和序列編碼統(tǒng)計(jì)特征的參數(shù)輸出就是對(duì)一段DNA序列是否是編碼區(qū)域的判別結(jié)果神經(jīng)網(wǎng)絡(luò)具有非線性映射能力,能夠發(fā)現(xiàn)輸入和輸出之間的高階相關(guān)性3.4.4ORFFinder(OpenReadingFramefinder)

Entrez

中提供的生物分子數(shù)據(jù)分析工具,是一個(gè)圖形化的分析工具,它能夠在用戶給定的核酸序列或者數(shù)據(jù)庫(kù)中的核酸序列中尋找可能的開放閱讀框,并推導(dǎo)出相應(yīng)的氨基酸序列。http:///gorf/gorf.html堿基組成

DNA序列一個(gè)顯而易見的特征是四種堿基類型的分布。盡管四種堿基的頻率相等時(shí)對(duì)數(shù)學(xué)模型的建立可能是方便的,但幾乎所有的研究都證明堿基是以不同頻率分布的。表1包含了9個(gè)完整DNA分子序列的資料,表2的數(shù)據(jù)來自兩個(gè)胎兒球蛋白基因(Gr和Ar),每個(gè)基因具有三個(gè)外顯子和兩個(gè)內(nèi)含子(shen等1981)。這兩個(gè)例子說明序列內(nèi)和序列間堿基具有不同的頻率。在基因每一側(cè)的500個(gè)任意堿基區(qū)域被稱為“側(cè)翼”,基因間區(qū)域是指兩個(gè)基因間的其余序列。表1九種完整DNA序列的堿基組成表2人類胎兒球蛋白基因不同區(qū)段的堿基組成

堿基相鄰頻率

分析DNA序列的主要困難之一是堿基相鄰的頻率不是獨(dú)立的。堿基相鄰的頻率一般不等于單個(gè)堿基頻率的乘積例:雞血紅蛋白β鏈的mRNA編碼區(qū)的438個(gè)堿基圖1雞β球蛋白基因編碼區(qū)的DNA序列(GenBank:CHKHBBM,記錄號(hào)J00860)表3圖1雞β球蛋白基因序列的相鄰堿基分布

在編碼區(qū),存在某種約束來限制DNA序列編碼氨基酸。在密碼子水平上,這一約束與堿基相鄰頻率有關(guān)。表4列出了遺傳密碼和圖1序列中各密碼子數(shù)量。盡管數(shù)目很小,難以作出有力的統(tǒng)計(jì)結(jié)論,但編碼同一氨基酸的不同密碼子(同義密碼子)好像不是等同存在的。這種密碼子偏倚必定與兩堿基相鄰頻率水平有關(guān)。表4還清楚地表明,由于密碼子第3位置上堿基的改變常常不會(huì)改變氨基酸的類型,因而對(duì)第3位置上堿基的約束要比第2位堿基小得多。表464種可能的堿基三聯(lián)體密碼子及相應(yīng)的氨基酸數(shù)(據(jù)圖1序列)相鄰堿基之間的關(guān)聯(lián)將導(dǎo)致更遠(yuǎn)堿基之間的關(guān)聯(lián),這些關(guān)聯(lián)延伸距離的估計(jì)可以從馬爾科夫鏈(Markovchain)理論得到(Javare和Giddings,1989)三.同向重復(fù)序列分析除了分析整個(gè)序列堿基關(guān)聯(lián)程度的特征外,我們常對(duì)尋找同向重復(fù)序列(directrepeats)之類的問題感興趣。Karlin等(1983)給出了完成這一分析的有效算法。該法采用由特定的幾組堿基字母組成的不同亞序列或稱為字碼(word)。只需要對(duì)整個(gè)序列搜索一次。給一堿基賦以值α,例如A、C、G、T的值為0、1、2、3。由X1、X2、…、Xk

共k個(gè)字母組成的每一種不同的字碼按:計(jì)算字碼值。這些值的取值范圍為1到4k

例如:5字碼TGACC的值為1+3×44+2×43+0×42+1×41+1×40=459??上葟牡蚹值的字碼開始搜索。記錄序列中每一個(gè)位置k字碼的字碼值。只有在發(fā)現(xiàn)k字碼長(zhǎng)度重復(fù)的那些位置考慮進(jìn)行長(zhǎng)度大于k的字碼搜索。序列TGGAAATAAAACGTAAGTAG中所有堿基2字碼(k=2)的初始位置和字碼值。對(duì)于完全重復(fù)、長(zhǎng)度大于2的同向重復(fù)或亞序列的搜索可只限于2字碼重復(fù)的初始位置。在本例中只有4個(gè)重復(fù)的2堿基重復(fù)序列。例如,在位置4、5、8、9、10和15均發(fā)現(xiàn)了字碼值為1的堿基重復(fù)序列。從有重復(fù)的2堿基為起點(diǎn)的3字碼值中發(fā)現(xiàn)字碼值為1、45和49的序列有重復(fù);以每一重復(fù)的3堿基為起點(diǎn)的4字碼搜索未能發(fā)現(xiàn)更長(zhǎng)的重復(fù)序列。表5序列TGGAAATAAAACGTAAGTAG的3字碼值和位置(Karlin,1983)四、RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)

盡管現(xiàn)有一些RNA折疊程序可以預(yù)測(cè)RNA二級(jí)結(jié)構(gòu),但這類分析仍然是一門藝術(shù)。RNA折疊有助于找出RNA分子中可能的穩(wěn)定莖區(qū),但對(duì)給定的RNA分子來說,這一結(jié)果的生物學(xué)意義究竟有多大,還是一個(gè)未知數(shù)。即使有此局限性,二級(jí)結(jié)構(gòu)的預(yù)測(cè)還是有助于找出mRNA控制區(qū)以及RNA分子中可能形成穩(wěn)定折疊結(jié)構(gòu)的區(qū)段。3.4.5從序列中尋找基因

1.基因及基因區(qū)域預(yù)測(cè)

基因按其功能可分為結(jié)構(gòu)基因和調(diào)控基因:結(jié)構(gòu)基因可被轉(zhuǎn)錄形成mRNA,并進(jìn)而轉(zhuǎn)譯成多肽鏈;調(diào)控基因是指某些可調(diào)節(jié)控制結(jié)構(gòu)基因表達(dá)的基因。在DNA鏈上,由蛋白質(zhì)合成的起始密碼開始,到終止密碼子為止的一個(gè)連續(xù)編碼序列稱為一個(gè)開放閱讀框(OpenReadingFrame,ORF)。結(jié)構(gòu)基因多含有插入序列,除了細(xì)菌和病毒的DNA中ORF是連續(xù)的,包括人類在內(nèi)的真核生物的大部分結(jié)構(gòu)基因?yàn)閿嗔鸦?,即其編碼序列在DNA分子上是不連續(xù)的,或被插入序列隔開。斷裂基因被轉(zhuǎn)錄成前體mRNA,經(jīng)過剪切過程,切除其中非編碼序列(即內(nèi)含子),再將編碼序列(即外顯子)連接形成成熟mRNA,并翻譯成蛋白質(zhì)。假基因是與功能性基因密切相關(guān)的DNA序列,但由于缺失、插入和無義突變失去閱讀框而不能編碼蛋白質(zhì)產(chǎn)物。

一種典型的真核蛋白質(zhì)編碼基因的結(jié)構(gòu)示意圖。其編碼序列(外顯子)是不連續(xù)的,被非編碼區(qū)(內(nèi)含子)隔斷。

所謂基因區(qū)域預(yù)測(cè),一般是指預(yù)測(cè)DNA序列中編碼蛋白質(zhì)的部分,即外顯子部分。不過目前基因區(qū)域的預(yù)測(cè)已從單純外顯子預(yù)測(cè)發(fā)展到整個(gè)基因結(jié)構(gòu)的預(yù)測(cè)。這些預(yù)測(cè)綜合各種外顯子預(yù)測(cè)的算法和人們對(duì)基因結(jié)構(gòu)信號(hào)(如TATA盒等)的認(rèn)識(shí),預(yù)測(cè)出可能的完整基因。

基因區(qū)域的預(yù)測(cè)是一個(gè)活躍的研究領(lǐng)域,先后有一大批預(yù)測(cè)算法和相應(yīng)程序被提出和應(yīng)用,其中有的方法對(duì)編碼序列的預(yù)測(cè)準(zhǔn)確率高達(dá)90%以上,而且在敏感性和特異性之間取得了很好的平衡。預(yù)測(cè)方法中,最早是通過序列核苷酸頻率、密碼子等特性進(jìn)行預(yù)測(cè)(如最長(zhǎng)ORF法等),隨著各類數(shù)據(jù)庫(kù)的建立和完善,通過相似性列線比對(duì)也可以預(yù)測(cè)可能的基因。同時(shí),一批新方法也被提了出來,如隱馬爾可夫模型(HiddenMarkovModel,HMM)、動(dòng)態(tài)規(guī)劃法(dynamicprogramming)、法則系統(tǒng)(ruled-basedsystem)、語言學(xué)(linguistic)方法、線性判別分析(LinearDiscriminant

Analysis,LDA)、決策樹(decisiontree)、拼接列線(splicedalingment)、博利葉分析(Fourieranalysis)等。下表列出了claverie(1997)對(duì)部分程序預(yù)測(cè)基因區(qū)域能力的比較結(jié)果,表中同時(shí)列出了相應(yīng)算法和程序的網(wǎng)址。目前基因區(qū)域預(yù)測(cè)的各種算法均存在以下2個(gè)問題(1)目前算法對(duì)基因中的非編碼區(qū)和基因間序列不加任何區(qū)別,所以預(yù)測(cè)出的基因仍然是不完全的,對(duì)5‘和3‘非編譯區(qū)(UTR,untranslatedregion)的預(yù)測(cè)基本上還是空白;(2)目前大多數(shù)算法都是基于已知基因序列。如相似性列線比較算法是完全依賴于已知的序列,而象HMM之類的算法都需要對(duì)已知的基因結(jié)構(gòu)信號(hào)進(jìn)行學(xué)習(xí)或訓(xùn)練,由于訓(xùn)練所用的序列畢竟是有限的,所以對(duì)那些與學(xué)習(xí)過的基因結(jié)構(gòu)不太相似的基因,這些算法的預(yù)測(cè)效果就要大打折扣了要解決以上兩個(gè)問題,需要對(duì)基因結(jié)構(gòu)進(jìn)行更深入的研究,尋找隱藏在基因不同結(jié)構(gòu)中的內(nèi)在統(tǒng)計(jì)規(guī)律。

2.發(fā)現(xiàn)基因的一般過程

從序列中發(fā)現(xiàn)基因可以理解為基因區(qū)域預(yù)測(cè)和基因功能預(yù)測(cè)2個(gè)層次第一步:獲取DNA目標(biāo)序列①如果你已有目標(biāo)序列,可直接進(jìn)入第2步;②可通過PubMed查找你感興趣的資料;通過GenBank或EMBL等數(shù)據(jù)庫(kù)查找目標(biāo)序列第二步:查找ORF并將目標(biāo)序列翻譯成蛋白質(zhì)序列

利用相應(yīng)工具,如ORFFinder、Genefeature(BaylorCollegeofMedicine)、GenLang(UniversityofPennsylvania)等,查找ORF并將DNA序列翻譯成蛋白質(zhì)序列第三步:在數(shù)據(jù)庫(kù)中進(jìn)行序列搜索可以利用BLAST進(jìn)行ORF核苷酸序列和ORF翻譯的蛋白質(zhì)序列搜索。第四步:進(jìn)行目標(biāo)序列與搜索得到的相似序列的整體序列比對(duì)(globalalignment)

雖然第三步已進(jìn)行局部比對(duì)(localalignment)分析,但整體列線有助于進(jìn)一步加深目標(biāo)序列的認(rèn)識(shí)。第五步:查找基因家族進(jìn)行多序列比對(duì)(multiplesequencealignment)和獲得比對(duì)區(qū)段的可視信息??煞謩e在AMAS(OxfordUniversity)和BOXSHADE(ISREC,Switzerland)等服務(wù)器上進(jìn)行。第六步:查找目標(biāo)序列中的特定模序①分別在Procite、BLOCK、Motif數(shù)據(jù)庫(kù)進(jìn)行profile、模塊(block)、模序(motif)檢索;②對(duì)蛋白質(zhì)序列進(jìn)行統(tǒng)計(jì)分析和有關(guān)預(yù)測(cè)第七步:預(yù)測(cè)目標(biāo)序列結(jié)構(gòu)可以利用PredictProtein(EMBL)、NNPREDICT(UniversityofCalifornia)等預(yù)測(cè)目標(biāo)序列的蛋白質(zhì)二級(jí)結(jié)構(gòu)。第八步:獲取相關(guān)蛋白質(zhì)的功能信息為了了解目標(biāo)序列的功能,收集與目標(biāo)序列和結(jié)構(gòu)相似蛋白質(zhì)的功能信息非常必要??衫肞ubMed進(jìn)行搜索。第九步:把目標(biāo)序列輸入“提醒”服務(wù)器如果有與目標(biāo)序列相似的新序列數(shù)據(jù)輸入數(shù)據(jù)庫(kù),提醒(alert)服務(wù)會(huì)向你發(fā)出通知??蛇x用SequenceAlerting(EMBL)、Swiss-Shop(Switzerland)等服務(wù)器。3.解讀序列(makingsenseofthesequence)大致有2條途徑可以發(fā)現(xiàn)基因:(1)基于同源性的方法,包括已知mRNA序列的應(yīng)用;(2)基因家族和特殊序列間的比較。最初的方法包括利用各種計(jì)算機(jī)手段分析外顯子和其它序列信號(hào),如酶切位點(diǎn)。六、基于編碼區(qū)特性:最長(zhǎng)ORF法基因區(qū)域或蛋白質(zhì)編碼區(qū)的識(shí)別,特別是對(duì)高等真核生物基因組DNA序列中編碼區(qū)的識(shí)別仍未能實(shí)現(xiàn)完全自動(dòng)化。將每條鏈按6個(gè)讀框全部翻譯出來,然后找出所有可能的不間斷開放閱讀框(ORF)往往有助于基因的發(fā)現(xiàn)。預(yù)測(cè)基因組的全部編碼區(qū)或稱為開放閱讀框的方法概括來說也可以分為三類:一類是基于編碼區(qū)所具有的獨(dú)特信號(hào),如始起密碼子、終止密碼子等;二是基于編碼區(qū)的堿基組成不同于非編碼區(qū),這是由于蛋白質(zhì)中20種氨基酸出現(xiàn)的概率、每種氨基酸的密碼子兼并度和同一種氨基酸的兼并密碼子使用頻率不同等原因造成的;三是通過同源性比較搜尋蛋白質(zhì)庫(kù)或dbEST庫(kù)尋找編碼區(qū)。前二類方法主要是利用編碼區(qū)的特性來尋找,下面對(duì)這二類方法做簡(jiǎn)單描述。最長(zhǎng)ORF法:在細(xì)菌基因組中,蛋白質(zhì)編碼基因從起始密碼ATG到終止密碼平均有100bp,而300bp長(zhǎng)度以上的ORF平均每36Kb才出現(xiàn)一次,所以只要找出序列中最長(zhǎng)的ORF(>300bp)就能相當(dāng)準(zhǔn)確地預(yù)測(cè)出基因。

利用編碼區(qū)與非編碼區(qū)密碼子選用頻率的差異進(jìn)行編碼區(qū)的統(tǒng)計(jì)學(xué)鑒別方法:由于內(nèi)含子的進(jìn)化不受約束,而外顯子則受到選擇壓力,因此內(nèi)含子的序列要比外顯子更隨機(jī)。這是目前各種預(yù)測(cè)程序中被廣泛應(yīng)用的一種方法,如GCG(GeneticComputerGroup研制,一種通用核酸、蛋白質(zhì)分析軟件包)的TestCode、美波士頓大學(xué)GeneID和BaylorMedcineCollege的BCMGeneFinder等程序均利用了這一方法。CpG島(CpGisland)

CpG島是指DNA上一個(gè)區(qū)域,此區(qū)域含有大量相聯(lián)的胞嘧啶(C)、鳥嘌呤(G),以及使兩者相連的磷酸酯鍵(p)。哺乳類基因中的啟動(dòng)子上,含有約40%的CpG島(人類約70%)。一般CpG島的長(zhǎng)度約300到3000個(gè)bp。通常的含義是指一個(gè)至少含有200bp的區(qū)域,其中GC所占比例超過50%,且CpG的觀察值/預(yù)測(cè)值比例必須高于0.6。此霸部份的CpG島與基因相連,可用來作為限制酶的辨識(shí)位置。

哺乳動(dòng)物基因組DNA中CpG島的特點(diǎn)是胞嘧啶(C)與鳥嘌呤(G)的總和超過4種堿基總和的50%,即每10個(gè)核苷酸約出現(xiàn)一次雙核苷酸序列CG。具有這種特點(diǎn)的序列僅占基因組DNA總量的10%左右。從已知的DNA序列統(tǒng)計(jì)發(fā)現(xiàn),幾乎所有的管家基因(House-Keepinggene)及約占40%的組織特異性基因的5’末端含有CpG島,其序列可能包括基因轉(zhuǎn)錄的啟動(dòng)子及第一個(gè)外顯子。因此,在大規(guī)模DNA測(cè)序計(jì)劃中,每發(fā)現(xiàn)一個(gè)CpG島,則預(yù)示可能在此存在基因。另外,AT含量也可以作為編碼區(qū)的批示指標(biāo)之一。

CpG島在人類基因組中的分布很不均一,而在基因組的某些區(qū)段,CpG島主要位于基因的啟動(dòng)子和第一外顯子區(qū)域,約有60%以上基因的啟動(dòng)子含有CpG島。

CpG甲基化的研究在腫瘤的研究中有著非常主要的地位。通過基因啟動(dòng)子區(qū)及附近區(qū)域CpG島胞嘧啶的甲基化可以在轉(zhuǎn)錄水平調(diào)節(jié)基因的表達(dá),從而引起相應(yīng)基因沉默,去甲基化又可恢復(fù)其表達(dá)。CpG島搜索軟件(在線)/sms/index.html判別結(jié)果山溪鯢beta-microseminoproteinDNA序列CpG島判別3.5表達(dá)序列標(biāo)簽(ESTs)分析主要內(nèi)容cDNA文庫(kù)的概念什么是表達(dá)序列標(biāo)簽(ESTs)EST的應(yīng)用

EST序列測(cè)定及分析過程實(shí)例:家豬腦組織EST分析3.5.1cDNA文庫(kù)的概念

cDNA(complementaryDNA)是指與mRNA序列互補(bǔ)的DNA,它是從生物組織中提取mRNA后,通過反轉(zhuǎn)錄得到的單鏈DNA產(chǎn)物。

cDNA文庫(kù):由于在制作cDNA時(shí)通常是將特定組織中的所有mRNA都進(jìn)行了反轉(zhuǎn)錄,生成的cDNA有多條,因此將特定組織來源的多條cDNA組成的集合稱作cDNA文庫(kù)。3.5.2表達(dá)序列標(biāo)簽(ESTs)的概念及功能1.ESTs的來源

上世紀(jì)80年代,對(duì)cDNA序列進(jìn)行大規(guī)模測(cè)序的想法就曾提出,但對(duì)此一直存在爭(zhēng)論,有人認(rèn)為這種方法能發(fā)現(xiàn)成千上萬的新基因;而反對(duì)者則認(rèn)為cDNA序列缺少重要的基因調(diào)控區(qū)域的信息。90年代初GraigVenter

提出了EST的概念,并測(cè)定了609條人腦組織的EST,宣布了cDNA大規(guī)模測(cè)序的時(shí)代的開始(Adamsetal.,1991)。●

93年前ESTs數(shù)據(jù)收錄于GenBank,EBI和DDBJ?!?/p>

1993年NCBI(NationalCenterofBiotechnologyInformation)建立了一個(gè)專門的EST數(shù)據(jù)庫(kù)dbEST來保存和收集所有的EST數(shù)據(jù)。2.表達(dá)序列標(biāo)簽(ESTs)的概念表達(dá)序列標(biāo)簽(expressedsequencetags,ESTs)是從cDNA文庫(kù)中生成的一些很短的序列(60-500bp),它們代表在特定組織或發(fā)育階段表達(dá)的基因,有時(shí)可代表特定的cDNA。EST可能是編碼的,也可能不是。5’3’ESTCDSUTREST與cDNA的關(guān)系圖從已建好的cDNA庫(kù)中隨機(jī)取出一個(gè)克隆,從5’末端或3’末端對(duì)插入的cDNA片段進(jìn)行一輪單向自動(dòng)測(cè)序,所獲得的約60-500bp的一段cDNA序列。構(gòu)建cDNA文庫(kù)↓DNA測(cè)序↓信息處理和管理↓①②③去除載體序列、宿主序列和

聚類分析、拼接

數(shù)據(jù)庫(kù)查詢重復(fù)序列↓

生物信息學(xué)分析3.EST分析的實(shí)驗(yàn)流程

4.ESTs與基因識(shí)別

ESTs已經(jīng)被廣泛的應(yīng)用于基因識(shí)別,因?yàn)镋STs的數(shù)目比GenBank中其它的核苷酸序列多,研究人員更容易在EST庫(kù)中搜尋到新的基因(Boguskietal.,1994).●在同一物種中搜尋基因家族的新成員(paralogs)。●

在不同物種間搜尋功能相同的基因(orthologs)。●

已知基因的不同剪切模式的搜尋。【注:不過很難確定一個(gè)新的序列是由于交替剪切產(chǎn)生的或是由于cDNA文庫(kù)中污染了基因組DNA序列(Wolfsbergetal.,1997)】5.ESTs與基因圖譜的繪制

EST可以借助于序列標(biāo)簽位點(diǎn)(sequence-taggedsites)用于基因圖譜的構(gòu)建。STS本身是從人類基因組中隨機(jī)選擇出來的長(zhǎng)度在200-300bp左右的經(jīng)PCR檢測(cè)的基因組中唯一的一段序列。來自mRNA的3’非翻譯區(qū)的ESTs更適合做為STSs,用于基因圖譜的繪制。其優(yōu)點(diǎn)主要包括:●由于沒有內(nèi)含子的存在,因此在cDNA及基因組模板中其PCR產(chǎn)物的大小相同;●與編碼區(qū)具有很強(qiáng)的保守性不同,3’UTRs序列的保守性較差,因此很容易將單個(gè)基因與編碼序列關(guān)系非常緊密的相似基因家族成員分開。(JamesSikela等,1991年)GeneMap96‘定位了16,000個(gè)基于基因的STS(Schuleretal.,1996);GeneMap98’定位了30,000個(gè)基于基因的STS(Deloukasetal.,1998),而且基因圖譜隨著STS的定位正在不斷的更新中。6.ESTs與基因預(yù)測(cè)

由于EST來源于cDNA,因此每一條EST均代表了文庫(kù)建立時(shí)所采樣品特定發(fā)育時(shí)期和生理狀態(tài)下的一個(gè)基因的部分序列。使用合適的比對(duì)參數(shù),大于90%的已經(jīng)注釋的基因都能在EST庫(kù)中檢測(cè)到(Baileyetal.,1998)。ESTs可以做為其它基因預(yù)測(cè)算法的補(bǔ)充,因?yàn)樗鼈儗?duì)預(yù)測(cè)基因的交替剪切和3‘非翻譯區(qū)很有效。7.ESTs與SNPs(單核苷酸多態(tài)性)

來自不同個(gè)體的冗余的ESTs可用于發(fā)現(xiàn)基因組中轉(zhuǎn)錄區(qū)域存在的SNPs。最近的許多研究都證明對(duì)ESTs數(shù)據(jù)的分析可以發(fā)現(xiàn)基因相關(guān)的SNPs(Buetowetal.,1999;Gargetal.,1999;Marthetal.,1999;Picoult-Newbergetal.,1999)。應(yīng)注意區(qū)別真正的SNPs和由于測(cè)序錯(cuò)誤(ESTs為單向測(cè)序得來,錯(cuò)誤率可達(dá)2%)而引起的本身不存在的SNPs。解決這一問題可以通過:●提高ESTs分析的準(zhǔn)確性?!駥?duì)所發(fā)現(xiàn)的SNPs進(jìn)行實(shí)驗(yàn)驗(yàn)證。8.利用ESTs大規(guī)模分析基因表達(dá)水平

因?yàn)镋ST序列是從某以特定的組織的cDNA文庫(kù)中隨機(jī)測(cè)序而得到,所以可以用利用未經(jīng)標(biāo)準(zhǔn)化和差減雜交的cDNA文庫(kù)EST分析特定組織的基因表達(dá)譜。標(biāo)準(zhǔn)化的cDNA文庫(kù)和經(jīng)過差減雜交的cDNA文庫(kù)則不能反應(yīng)基因表達(dá)的水平?!?/p>

CGAP

為研究癌癥的分子機(jī)理,美國(guó)國(guó)家癌癥研究所NCI的癌癥基因組解析計(jì)劃(CancerGenomeAnatomyProject,CGAP)構(gòu)建了很多正常的或是癌癥前期的和癌癥后期的組織的cDNA文庫(kù),并進(jìn)行了大規(guī)模的EST測(cè)序,其中大部分的文庫(kù)未經(jīng)標(biāo)準(zhǔn)化或差減雜交處理。CGAP網(wǎng)站提供了多種工具用以分析不同文庫(kù)間基因表達(dá)的差異,如:●

DigitalGeneExpressionDisplayer

(DGED)●cDNA

xProfiler◆基因表達(dá)系列分析(SerialAnalysisofGeneExpression,SAGE)

基因表達(dá)系列分析是一種用于定量,高通量基因表達(dá)分析的實(shí)驗(yàn)方法(Velculescuetal.,1995)。SAGE的原理就是分離每個(gè)轉(zhuǎn)錄本的特定位置的較短的單一的序列標(biāo)簽(約9-14個(gè)堿基對(duì)),這些短的序列被連接、克隆和測(cè)序,特定的序列標(biāo)簽的出現(xiàn)次數(shù)就反應(yīng)了對(duì)應(yīng)的基因的表達(dá)豐度?!?/p>

DNA微陣列或基因芯片的研究高密度寡核苷酸cDNA

芯片或cDNA微陣列是一種新的大規(guī)模檢測(cè)基因表達(dá)的技術(shù),具有高通量分析的優(yōu)點(diǎn)。在許多情況下,cDNA芯片的探針來源于3'EST(Dugganetal.,1999),所以EST序列的分析有助于芯片探針的設(shè)計(jì)。Serialanalysisofgeneexpression(SAGE)技術(shù)流程反轉(zhuǎn)錄酶切連接測(cè)序單條測(cè)序==對(duì)30-40條EST測(cè)序分析由于采樣量大大提高,可對(duì)低表達(dá)基因進(jìn)行分析:基因表達(dá)量分析、尋找新基因等等實(shí)驗(yàn)步驟較長(zhǎng)、要求較高基因芯片或微陣列技術(shù)流程….….Clone反轉(zhuǎn)錄(可選)讀取光密度聚類分析(非同源功能注釋)標(biāo)記雜交反轉(zhuǎn)錄EST分析………….………….………….GeneChip0.10.060.050.04…000.070.01…表達(dá)量矩陣G1,G3,G5G2,G4G6,G9…利用EST,SAGE分析結(jié)果制作芯片(研究已發(fā)現(xiàn)的基因)連接,轉(zhuǎn)化

Ricegenome-wideDNAchip(60,000+預(yù)測(cè)基因)

果蠅基因芯片…原位合成

幾種大規(guī)模分析基因表達(dá)水平的方法的比較◆

ESTs很短,沒有給出完整的表達(dá)序列;◆低豐度表達(dá)基因不易獲得?!粲捎谥皇且惠啘y(cè)序結(jié)果,出錯(cuò)率達(dá)2%-5%;◆有時(shí)有載體序列和核外mRNA來源的cDNA污染或是基因組DNA的污染;◆有時(shí)出現(xiàn)鑲嵌克?。弧粜蛄械娜哂?,導(dǎo)致所需要處理的數(shù)據(jù)量很大。9.ESTs數(shù)據(jù)的不足3.5.3EST技術(shù)流程體內(nèi):翻譯體外研究:反轉(zhuǎn)錄連接,轉(zhuǎn)化轉(zhuǎn)化效率問題(基因芯片)文庫(kù)構(gòu)建技術(shù)已經(jīng)成熟測(cè)序采樣問題(SAGE)測(cè)序成本已經(jīng)大大降低大數(shù)據(jù)量分析理念已經(jīng)形成一、cDNA文庫(kù)構(gòu)建◆

非標(biāo)準(zhǔn)化的cDNA文庫(kù)的構(gòu)建。(可用于基因表達(dá)量的分析)◆

經(jīng)標(biāo)準(zhǔn)化或扣除雜交處理的cDNA文庫(kù)。(富集表達(dá)豐度較低的基因)◆

OligoT

cDNA文庫(kù)?!綦S機(jī)引物cDNA文庫(kù)。cDNA文庫(kù)的構(gòu)建及其均一化扣除雜交處理ForsubtractionofcDNAlibrariestheprocedureissimilartonormalization,exceptthatthePCRproductsarisefromadifferentlibrary(whosegenesaretobesubtractedfromtheoriginallibrary)Reference:

Bonaldo,M.F.,et.al,1996.Normalizationandsubtraction:Twoapproachestofacilitategenediscovery.GenomeRes.6:791-806.扣除雜交技術(shù)的發(fā)展◆扣除雜交技術(shù)最早應(yīng)用是在20世紀(jì)80年代初,當(dāng)時(shí)的目的是為了構(gòu)建

非洲爪蟾的胚囊cDNA文庫(kù)【Science(WashDC)222,135–139】和制備差異表達(dá)基因的特異探針【PNAS.81,2194–2198】。差異表達(dá)的基因通過檢測(cè)樣本cDNA(tester)和過量的對(duì)照樣本mRNA(driver)的相互雜交而得到。在檢測(cè)樣本cDNA(tester)和對(duì)照樣本mRNA(driver)同時(shí)表達(dá)的基因會(huì)形成mRNA/cDNA

雜交分子,而檢測(cè)樣本特異表達(dá)的基因則保持單鏈狀態(tài)。單鏈分子和雙鏈分子通過羥磷灰石層析而分離,分離得到的單鏈分子是檢測(cè)樣本特異表達(dá)的基因。差異表達(dá)的cDNA可以直接被克隆或通過cDNA文庫(kù)篩選而得到?!暨@個(gè)方法后來又得到改進(jìn),包括用生物素標(biāo)記【Nucl.Acids14,10027–10044】和oligo(dT)30-latex標(biāo)記cDNA,以增加單雙鏈分子的分離效率。后來,通過PCR選擇性cDNA擴(kuò)增技術(shù)被應(yīng)用到扣除雜交中,以克服以往扣除雜交中需要大量起始mRNA的缺點(diǎn),并可以同時(shí)提高基因克隆地效率【Nucl.AcidsRes.19,7097-7104】

。◆扣除技術(shù)的進(jìn)一步成熟是在1996年,Gurskaya

等(1996)和Diatchenko

等(1996)同時(shí)發(fā)表了關(guān)于扣除雜交的改進(jìn)方法,其主要的技術(shù)方法類似,這個(gè)技術(shù)叫抑制性扣除雜交技術(shù)(SuppressionSubtractiveHybridization,SSH)【Anal.Biochem.240,90–97;PNAS.93,6025-6230】

。SSH的原理與基本過程原理:SSH的基本原理是以抑制PCR為基礎(chǔ)的DNA扣除雜交方法。所謂抑制PCR,是利用鏈內(nèi)退火優(yōu)于鏈間退火,比鏈間退火更穩(wěn)定,從而使非目的系列片段兩端反向重復(fù)系列在退火時(shí)產(chǎn)生類似于“鍋柄”的結(jié)構(gòu),無法與引物配對(duì),選擇性地抑制了非目的基因片段的擴(kuò)增。同時(shí),該方法運(yùn)用了雜交二級(jí)動(dòng)力學(xué)原理,即豐度高的單鏈cDNA在退火時(shí)產(chǎn)生同源雜交的速度要快于豐度低的單鏈cDNA,從而使原來在豐度上有差別的單鏈cDNA相對(duì)含量達(dá)到基本一致?;具^程:分別抽提代測(cè)樣本(tester)和對(duì)照樣本(driver)的mRNA,反轉(zhuǎn)錄成cDNA,用RsaI或HaeIII酶切,以產(chǎn)生大小適當(dāng)?shù)钠筋^末端cDNA片段,將testercDNA分成均等的兩份,各自接上兩種接頭,與過量的drivercDNA變性后退火雜交,第一次雜交后有4種產(chǎn)物:a是單鏈testercDNA,b是自身退火的testercDNA雙鏈,c是tester和diver的異源雙鏈,d是drivercDNA。第一次雜交的目的是實(shí)現(xiàn)tester單鏈cDNA均一化(normalization),即使原來有豐度差別的單鏈cDNA的相對(duì)含量達(dá)到基本一致,由于testercDNA中與drivercDNA序列相似的片段大都和driver形成異源雙鏈分子c,使testercDNA中的差異表達(dá)基因的目標(biāo)cDNA得到大量富集,第一次雜交后,合并兩份雜交產(chǎn)物,再加上新的變性driver單鏈,再次退火雜交,此時(shí),只有第一次雜交后經(jīng)均等化和扣除的單鏈testercDNA和drivercDNA一起形成各種雙鏈分子,這次雜交進(jìn)一步富集了差異表達(dá)基因的cDNA,產(chǎn)生了一種新的雙鏈分子e,它的兩個(gè)5’端有兩個(gè)不同的接頭,正由于這兩上不同的接頭,使其在以后的PCR中被有效地?cái)U(kuò)增。抑制性差減雜交技術(shù)(SSH)原理圖(Diatchenko等,1996)

二、序列測(cè)定及數(shù)據(jù)分析隨機(jī)挑取克隆進(jìn)行5’或3’端測(cè)序序列前處理聚類和拼接基因注釋及功能分類后續(xù)分析測(cè)序方向的選擇根據(jù)不同的實(shí)驗(yàn)?zāi)康倪x擇不同的測(cè)序方向:◆5’端

5’上游非翻譯區(qū)較短且含有較多的調(diào)控信息。一般在尋找新基因或研究基因差異表達(dá)時(shí)用5’端EST較好,大部分EST計(jì)劃都是選用5’端進(jìn)行測(cè)序的,而且從5’端測(cè)序有利于將EST拼接成較長(zhǎng)的基因序列?!?’端

3’端mRNA有一20-200bp的plyA結(jié)構(gòu),同時(shí)靠近plyA又有特異性的非編碼區(qū),所以從3’端測(cè)得EST含有編碼的信息較少.但研究也表明,10%的mRNA3’端有重復(fù)序列,這可以作為SSR標(biāo)記;非編碼區(qū)有品種的特異性,可以作為STS標(biāo)記.◆兩端測(cè)序獲得更全面的信息。1.

去除低質(zhì)量的序列(Phred)2.

應(yīng)用BLAST、RepeatMasker或Crossmatch遮蔽數(shù)據(jù)組中不屬于表達(dá)的基因的贗象序列(artifactualsequences)?!褫d體序列(ftp:///repository/vector)

●重復(fù)序列(RepBase,http://)●污染序列

(如核糖體RNA、細(xì)菌或其它物種的基因組DNA等)3.

去除其中的鑲嵌克隆。4.

最后去除長(zhǎng)度小于100bp的序列。序列前處理(pre-processing)鑲嵌克隆的識(shí)別?Back-to-backpoly(A)+tails.?Linker-to-linkerinmiddleofthesequence.?

Blastn/Blastxsearch.ESTs的聚類和拼接

聚類的目的就是將來自同一個(gè)基因或同一個(gè)轉(zhuǎn)錄本的具有重疊部分(over-lapping)的ESTs整合至單一的簇(cluster)中。聚類作用:產(chǎn)生較長(zhǎng)的一致性序列(consensussequence),用于注釋。降低數(shù)據(jù)的冗余,糾正錯(cuò)誤數(shù)據(jù)??梢杂糜跈z測(cè)選擇性剪切。序列聚類分析工具序列聚類分析工具是對(duì)序列分類的一種軟件。如果不同序列之間有一段重疊序列,并且超過了規(guī)定的最小長(zhǎng)度,這兩段序列就應(yīng)該能拼接到一起。對(duì)未加工的大量序列進(jìn)行聚類分析,就是將大量序列通過比對(duì)或其他注釋信息分成各個(gè)集合,或稱各個(gè)“類”。一個(gè)可信并且有效的EST聚類機(jī)制能夠大大減少數(shù)據(jù)庫(kù)中的冗余信息,節(jié)省數(shù)據(jù)搜索的時(shí)間和分析結(jié)果的工作量。尤其當(dāng)拿到大量EST之后,要找出這套序列包含多少個(gè)不同基因時(shí),聚類工具就顯得更為有價(jià)值了。ESTs聚類的數(shù)據(jù)庫(kù)主要有三個(gè):

UniGene(http:///UniGene)TIGRGeneIndices(http:///tdb/tgi/)STACK(http://www.sanbi.ac.za/Dbases.html)不嚴(yán)格的和嚴(yán)格的聚類(looseandstringentclustering)◆looseclustering●產(chǎn)生的一致性序列比較長(zhǎng)●表達(dá)基因ESTs數(shù)據(jù)的覆蓋率高●含有同一基因不同的轉(zhuǎn)錄形式,如各種選擇性剪接體●每一類中可能包含旁系同源基因(paralogousexpressedgene)的轉(zhuǎn)錄本●序列的保真度低◆stringentclustering●產(chǎn)生的一致性序列比較短●表達(dá)基因ESTs數(shù)據(jù)的覆蓋率低●因此所含有的同一基因的不同轉(zhuǎn)錄形式少●序列保真度高(ESTclusteringtutorial,httP://www.sanbi.ac.za)(ESTclusteringtutorial,httP://www.sanbi.ac.za)有參照的和無參照的聚類(Supervisedandunsupervisedclustering)◆Supervisedclustering

根據(jù)已知的參考序列(如全長(zhǎng)mRNA、已拼接好的一致性序列)聚類?!?/p>

Unsupervisedclustering

沒有根據(jù)參考序列進(jìn)行分類。聚類的算法◆基于BLAST和FASTA的腳本(BLASTNandFASTA—basedscripts)

BLASTN和FASTA算法的本身目的在于尋找序列間的局部相似性或同源性,這與聚類的目的不同,即通過兩個(gè)序列是否具有一致性的重疊或連續(xù)的比對(duì)來判斷二者是否能歸成一類。結(jié)合BLAST和FASTA查找的結(jié)果,采用解釋性語言(如Perl)編寫的腳本,具備了3方面的功能,即運(yùn)行查找過程、解析(Parsing)查找的結(jié)果和按照用戶定義的標(biāo)準(zhǔn)判斷兩個(gè)序列是否為一類?!艋谧值木垲?Word—basedclustering)

基于字的聚類省略了所有的比對(duì)過程,其核心在于識(shí)別并計(jì)算序列間有多少長(zhǎng)度為n的字(word)能夠匹配,而且并未采用有關(guān)克隆的來源及注釋信息,代表性的算法是d2_cluster。該算法為一種凝聚性(agglomerative)的聚類算法(即每一類從單一的序列開始,通過一系列的合并形成最后的類),它可以被描述為最小聯(lián)接聚類(minimallinkageclustering)。即,假設(shè)兩條序列A和B,如果二者存在一定水平的相似,那么將A、B歸于一類;即便二者并沒有任何相似性,若存在序列C,而且C同時(shí)與A、B都有足夠的相似性,那么也將A、B歸于一類。類和類之間的聯(lián)接標(biāo)準(zhǔn)是識(shí)別兩個(gè)序列在一定大小窗口中相同的堿基數(shù)。序列拼接工具當(dāng)搜索中發(fā)現(xiàn)有幾個(gè)EST與一個(gè)檢測(cè)序列匹配時(shí),通常這些EST序列之間存在著重疊區(qū)域,這就以為著找到了一段一致序列。一般說來,一致序列還要作進(jìn)一步的搜索以找到更多的EST,以增加其準(zhǔn)確性。這種反復(fù)的序列比較拼接就是序列拼接方法?,F(xiàn)在已經(jīng)有許多懷念好的拼接工具,如Staden軟件包,TIGR軟件包,Phrap等。常用的拼接軟件◆Phrap

(http:///UWGC/analysistools/Phrap.cfm)◆CAP3(XiaoqiuHuang

,huang@)◆

TIGRassembler(http://nbc11.biologie.uni-kl.de/framed/left/menu/auto/right/tigr_assembler/)◆

zEST

assembler(/zEST/)◆d2_cluster(http://www.sanbi.ac.za/)PHRAP(phragmentassemblyprogram):http:///index.html)

PHRAP是一個(gè)拼接鳥槍法產(chǎn)生的序列片斷的程序。有如下特點(diǎn):

?允許使用所判讀的完整序列而不僅僅是經(jīng)剪切的高質(zhì)量部分;

?在重復(fù)序列出現(xiàn)時(shí)可以結(jié)合使用者提供的或內(nèi)部計(jì)算的數(shù)據(jù)質(zhì)量來提高拼接的正確性;

?構(gòu)建一個(gè)由高質(zhì)量部分鑲嵌的拼接程序而不是所謂的一致序列;

?可提供廣泛的包括質(zhì)量值在內(nèi)的關(guān)于拼接的信息,可控制非常大的數(shù)據(jù)集,但它單獨(dú)不能提供編輯或?yàn)g覽的功能;

?最佳搭配是PHREP+PHRAP+CONSED,該套系統(tǒng)就可以高效、規(guī)?;剡M(jìn)行EST序列的拼接延伸;

?缺點(diǎn)是如果以可變剪切的基因來試驗(yàn),Phrap可正確地拼接出它所產(chǎn)生的一個(gè)蛋白,但是不能發(fā)現(xiàn)其它可變剪切的結(jié)果,如AMP2基因。CAP3:在線服務(wù):http:///aat/sas.html

該軟件是CAP(contigassemblyprogramme)的改進(jìn)版本,可在線進(jìn)行。該軟件適用于EST拼接,可快速去除不能拼接在一起的序列,運(yùn)用動(dòng)態(tài)規(guī)劃算法可容忍序列的部分錯(cuò)誤,可剪切掉所判斷序列中5`和3`端堿基質(zhì)量不高的區(qū)域。它在計(jì)算重疊時(shí)使用堿基質(zhì)量值加以控制,建立多重比對(duì),產(chǎn)生一致序列。并且它可使用正反向約束修正拼接錯(cuò)誤和連接片段重疊群。

PHRAP可以產(chǎn)生較長(zhǎng)的重疊群,而CAP3拼接起來的一致性錯(cuò)誤比較少,同時(shí)它運(yùn)用正反向約束機(jī)制來處理低質(zhì)量序列時(shí)更容易得到結(jié)構(gòu)框架。但是它同樣不能發(fā)現(xiàn)AMP2基因的可變剪切變體。TIGRassembler

與PHRAP一樣是針對(duì)基因組序列拼接的。采用的是貪婪算法,我們同樣地拿它檢驗(yàn)AMP2,可以拼接出它的蛋白,而且可以找到由兩個(gè)EST構(gòu)成的變體,但是沒有任何證據(jù)和實(shí)驗(yàn)?zāi)軌蜃C明它的真實(shí)性。

zESTassembler

zESTassembler是專門為EST設(shè)計(jì)的拼接軟件。它由兩個(gè)步驟組成:EST聚類;拼接EST。運(yùn)用zESTassembler優(yōu)勢(shì)在于可以發(fā)現(xiàn)不同變體和多態(tài)性。zESTassembler不同于其它程序,采用的是自組織算法,通過EST與已有的一致序列相比獲得新的一致序列,從而得到新的變體。

Cluster的連接利用cDNA克隆的信息和5’,3’端Reads的信息,不同的Cluster可以連接在一起。UniGene◆

Unigene

結(jié)合有指導(dǎo)的和無指導(dǎo)的方法,而且在聚類過程中使用了不同水平的嚴(yán)格度,聚類的算法為megablast,數(shù)據(jù)庫(kù)不產(chǎn)生一致性序列。TIGRGeneIndex◆

TIGRGeneIndex用的是有嚴(yán)格的和有指導(dǎo)的聚類方法,聚類的算法為類似于BLAST和FASTA的FLAST,

該法得到的一致性序列較短,交替剪切得到的不同的基因?qū)儆诓煌乃饕?。STACK◆

STACK用不嚴(yán)格的和無指導(dǎo)的聚類方法,聚類的算法為d2_cluster,產(chǎn)生較長(zhǎng)的一致性序列,同一索引中含有不同的剪切方法得到的基因。CleanShortandTight

TIGR-THCUniGeneSTACKLongandLoose

基因注釋及功能分類注釋:◆序列聯(lián)配

Blastn,Blastx◆蛋白質(zhì)功能域搜索(二結(jié)構(gòu)比對(duì))

Pfam

Interpro基因功能分類◆手工分類大部分以Adams95年的文章中的采用分類體系為標(biāo)準(zhǔn)?!続dams.MD,etal.Initialassessmentofhumangenediversityandexpressionpatternsbasedupon83millionnucleotidesofcDNAsequence.Nature.1995377(6547Suppl):3-174】◆計(jì)算機(jī)批量處理利用標(biāo)準(zhǔn)基因詞匯體系GeneOntology,進(jìn)行近似的分類。(http:///)GO的組織結(jié)構(gòu):定向無環(huán)圖(directedacyclicgraphs[DAGs])各大數(shù)據(jù)庫(kù)中基因或基因產(chǎn)物與GO術(shù)語的對(duì)照其它分類系統(tǒng)與GO的對(duì)照表后續(xù)分析◆比較基因組學(xué)分析◆基因表達(dá)譜分析◆新基因研究◆基因可變剪切分析◆實(shí)驗(yàn)驗(yàn)證

?

MicroArray

?

GeneChip

?RTPCR

?

Northen

bloting實(shí)例介紹家豬腦組織EST分析文庫(kù)信息LibrarynamecbeecefceeccfccebsfbsTissue

Cerebellum(小腦)cerebrumCortex(皮層)

Brainstem(腦干)Develop-mentalphaseadultFoetus50dFoetus100dFoetus50dEarlyborn107dFoetus50dNewborn115d文庫(kù)與序列質(zhì)量檢驗(yàn)聚類和重疊群分析ORF的尋找功能分類和注釋表達(dá)譜分析交替剪接分析分析過程序列長(zhǎng)度和質(zhì)量處理序列長(zhǎng)度:無統(tǒng)一標(biāo)準(zhǔn),一般認(rèn)為100bp以上的EST即可代表足夠表達(dá)基因信息序列質(zhì)量處理——污染序列去除,包括載體序列、細(xì)菌基因組序列(Crossmatch)——重復(fù)序列的屏蔽(RepeatMasker)——低質(zhì)量區(qū)去除(Q20)——扔掉100bp以下的序列序列長(zhǎng)度和質(zhì)量分布聚類和重疊群(Contig)分析

High-qualityESTs46011,Avg.fulllength:388.5,Avg.quality:35.9perbase拼接軟件高質(zhì)量序列contigssingletsPhrap

46011574010763Cap346011517613459BasedonphrapassemblyContig

大小分布BLASTsearchresult(basedonphrapassembly,e=1e-10)BLASTSearchagainsthumangenomesequence(e=1e-5)功能分類和注釋按照GeneOntology(基因分類標(biāo)準(zhǔn)詞匯體系)的三個(gè)標(biāo)準(zhǔn)——分子功能、生物學(xué)過程和細(xì)胞組分對(duì)序列注釋表達(dá)量比較實(shí)例Apoptosisinhibitorprotein(TCTPabundancecomparison)3.6電子克隆cDNA全長(zhǎng)序列3.6.1概述電子克隆法是近年來基于表達(dá)序列標(biāo)簽(expressedsequencetag,EST)和基因組數(shù)據(jù)庫(kù)發(fā)展起來的基因克隆新型技術(shù),其利用生物信息學(xué)知識(shí)和計(jì)算機(jī)技術(shù)對(duì)EST或基因組數(shù)據(jù)庫(kù)中進(jìn)行同源性比較分析、整理拼接出新基因的編碼序列,確認(rèn)完整后根據(jù)序列設(shè)計(jì)引物進(jìn)行RT-PCR驗(yàn)證獲得全長(zhǎng)基因。具有效率高、成本低、對(duì)實(shí)驗(yàn)條件要求低等特點(diǎn)?,F(xiàn)以新基因全長(zhǎng)cDNA

電子克隆與分析的步驟為順序,就生物信息學(xué)在其間的應(yīng)用作一簡(jiǎn)單介紹。電子克隆流程圖3.6.2基于EST數(shù)據(jù)庫(kù)的電子克隆

EST是從cDNA

克隆中隨機(jī)挑選出來進(jìn)行一次性測(cè)序的結(jié)果,一般長(zhǎng)約200bp~500bp,通常作為基因的標(biāo)志。近年來EST數(shù)據(jù)庫(kù)容量擴(kuò)增迅速,基于EST數(shù)據(jù)庫(kù)由一個(gè)已知的基因利用生物信息學(xué)的方法進(jìn)行功能基因的電子克隆已經(jīng)成為目前最常用的基因克隆手段,許多新基因就是通過EST序列的拼接發(fā)現(xiàn)的。1.基于EST數(shù)據(jù)庫(kù)的電子克隆步驟基于EST數(shù)據(jù)庫(kù)的電子克隆大致步驟如下:

第一步,

選擇其他物種尤其是親緣關(guān)系較近的物種某基因全長(zhǎng)cDNA

序列或EST序列為查詢探針或者以該物種某基因EST為查詢探針,搜索EST數(shù)據(jù)庫(kù)進(jìn)行Blast比對(duì),得到許多EST序列,從中尋找感興趣的EST(標(biāo)準(zhǔn)的選擇與可預(yù)計(jì)的同源基因的同源程度有關(guān)。通常為:同源長(zhǎng)度≥100bp,同源性50%以上,85%以下。第二步,

把感興趣的EST基于GenBank

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論