版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第五章基因組序列注釋完成基因組測序僅僅是基因組計(jì)劃的第一步,更大的挑戰(zhàn)在于弄清:基因組序列中所包含的全部遺傳信息是什么;基因組作為一個整體如何行使其功能。這兩項(xiàng)任務(wù)都必須依賴于對基因組序列的正確注釋(annotation)?;蚪M注釋方法:①自動注釋:依據(jù)某些規(guī)則進(jìn)行數(shù)據(jù)分析得出是否為基因的結(jié)論。②人工注釋:人為檢測評價(jià)自動注釋的結(jié)果并根據(jù)其他數(shù)據(jù)進(jìn)行分析與校正。③實(shí)驗(yàn)注釋:根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行檢測,如EST或全長cDNA。自動注釋的內(nèi)容:依據(jù)基因結(jié)構(gòu)的特點(diǎn)采用軟件預(yù)測,不依賴已有的表達(dá)序列;同源性比較,在同一物種或不同物種中查找已有的基因序列;功能域(domain)或基序(motif)分析?;蛐蛄凶⑨尰蚬δ茏⑨?’非翻譯區(qū)3’非翻譯區(qū)5.1搜尋基因
5.1.1根據(jù)基因結(jié)構(gòu)特征搜尋基因基因(gene)Ⅰ.開放讀碼框在DNA鏈上,由蛋白質(zhì)合成的起始密碼子開始,到終止密碼子為止的一個連續(xù)編碼序列稱為一個開放讀碼框(openreadingframe,ORF)。讀碼框(readingframe)任意一段DNA序列都有6種可能的讀碼框。終止密碼子:TAA,TAG,TGAGC%=50%,終止密碼子每64bp出現(xiàn)一次;
GC%>50%,終止密碼子每100~200bp出現(xiàn)一次;由于多數(shù)基因ORF均多于50個密碼子,因此最可能的選擇應(yīng)該是ORF
不少于100
個密碼子。
ORF的長度:最長ORF法在細(xì)菌基因組中,蛋白質(zhì)編碼基因從起始密碼子ATG到終止密碼子平均有100bp,而300bp長度以上的ORF平均每36Kb才出現(xiàn)一次,所以只要找出序列中最長的ORF(>300bp)就能相當(dāng)準(zhǔn)確地預(yù)測出基因。在真核生物中,存在大量非編碼序列和內(nèi)含子,ORF閱讀比較復(fù)雜。全長cDNA的編碼區(qū)一般也可以用最長ORF法,如水稻的3萬多條的全長cDNA的編碼區(qū)預(yù)測,有時(shí)例外。全長cDNA的編碼蛋白序列應(yīng)為4-029B,而非最長的4-029A。Ⅱ起始密碼子ATG第一個ATG的確定依據(jù)Kozak規(guī)則。Kozak是一個女科學(xué)家,她研究過起始密碼子ATG周邊堿基定點(diǎn)突變后對轉(zhuǎn)錄和翻譯所造成的影響,并總結(jié)出在真核生物中,起始密碼子兩端序列為:——G/N-C/N-C/N-ANNATGG——,如GCCACCATGG、GCCATGATGG時(shí),轉(zhuǎn)錄和翻譯效率最高,特別是-3位的A對翻譯效率非常重要。該序列被后人稱為Kozak序列,并被應(yīng)用于表達(dá)載體的構(gòu)建中。
若將第一個ATG中的堿基A、T、G分別標(biāo)為1、2、3位,則Kozak規(guī)則可描述如下:(1)第4位的偏好堿基為G;(2)ATG的5’端約15bp范圍的側(cè)翼序列內(nèi)不含堿基T;(3)在-3,-6和-9位置,G是偏好堿基;(4)除-3,-6和-9位,在整個側(cè)翼序列區(qū),C是偏好堿基。Kozak規(guī)則是基于已知數(shù)據(jù)的統(tǒng)計(jì)結(jié)果,不見得必須全部滿足,一般來說,滿足前兩項(xiàng)即可。
Kozak規(guī)則的內(nèi)容:Ⅲ密碼子偏愛性(codonbias)編碼同一氨基酸的不同密碼子稱為同義密碼,其差別僅在密碼子的第3位堿基不同。不同種屬間使用同義密碼的頻率有很大差異:如人類基因中,丙氨酸(Ale)密碼子多為GCA、GCC或GCT,而GCG很少使用。幾乎所有基因(或操縱子)都有上游調(diào)控序列,它們可與DNA結(jié)合蛋白作用,控制基因表達(dá),如啟動子序列。生物的基因組特有組成也可作為判別依據(jù),如幾乎所有的管家基因(House-Keepinggene)及約占40%的組織特異性基因的5’末端含有CpG島。在大規(guī)模DNA測序計(jì)劃中,每發(fā)現(xiàn)一個CpG島,則預(yù)示可能在此存在基因。Ⅳ上游控制順序Chambon等發(fā)現(xiàn)內(nèi)含子特點(diǎn):(1)內(nèi)含子連接點(diǎn)具有很短的保守序列,稱為邊界順序。其規(guī)律稱為GT-AG法則(GT-AGrule)或Chambon法則。。Ⅴ外顯子與內(nèi)含子邊界
左(5')位點(diǎn)
右(3')位點(diǎn)
外顯子A64G73G100T100A62AG8G84T63…12PyNC65A100G100
N外顯子內(nèi)含子
內(nèi)含子和外顯子的交界順序GT-AG法則(仿B.Lewin:《GENES》Ⅵ,1997,F(xiàn)ig30.3)
P314OH
GAG外顯子1外顯子2OH
外顯子1UGO
AG外顯子1外顯子2核RNA的剪接反應(yīng)(仿B.Lewin:《GENES》Ⅵ,1997,F(xiàn)ig30.5)(2)分枝點(diǎn)順序:為Py80NPy87Pu75APy95,其中A為百分之百的保守,且具有2’-OH。(3)內(nèi)含子5’端有一保守序列可以和U1snRNA的5’端的保守順序互補(bǔ)。3’端的確認(rèn)主要根據(jù)Poly(A)尾序列,若測試序列不含Poly(A),則根據(jù)加尾信號序列“AATAAA”和BLAST同源性比較結(jié)果共同判斷。Ⅵ3’端的確認(rèn)
轉(zhuǎn)錄起始
延伸
5’帽子
AAUAAA
剪切
Poly(A)聚合酶
5’帽子
AAUAAAAn
mRNA3’端加Poly(A)尾巴
由于內(nèi)含子的進(jìn)化沒有外顯子受到的選擇壓力大,內(nèi)含子的序列比外顯子的序列更隨機(jī)。這是目前各種預(yù)測程序中被廣泛應(yīng)用的一種方法,如GCG的TestCode、美國波士頓大學(xué)GeneID和BaylorMedcineCollege的BCMGeneFinder等程序。Ⅶ編碼區(qū)與非編碼區(qū)5.1.2同源基因查詢物種之間存在著廣泛的同源基因,包括編碼和非編碼序列。生物基因組相似性%資料來源人類99.9HumanGenomeProject100孿生子黑猩猩98.4AmericansforMedicalProgress98.7CeleraGenomics大猩猩98.38AmJHumGenet2001,682:444~456.小鼠98AmericansforMedicalProgress85NHGRI狗95JonEntine,intheSanFranciscoExaminer線蟲74JonEntine,intheSanFranciscoExaminer注:以人類基因組DNA序列為基準(zhǔn),與其他生物基因組DNA序列對比。Ⅰ同源查詢(homologysearch)利用已存入數(shù)據(jù)庫中的基因序列與待查的基因組序列進(jìn)行比較,從中查找可與之匹配的堿基序列或蛋白質(zhì)序列及其比例,這種識別基因的方法稱為~。同源查詢相似性的表現(xiàn):存在某些完全相同的序列;ORF的排列類似,如等長的外顯子;ORF的氨基酸序列相同;模擬的多肽高級結(jié)構(gòu)相似。以上標(biāo)準(zhǔn)可單獨(dú)使用,亦可綜合考察;一般認(rèn)為氨基酸的一致性或相似性在25%以上可視為同源基因。Ⅱ區(qū)分概念:
同源性、一致性和相似性同源性(homology):起源于同一祖先但序列已經(jīng)發(fā)生變異的序列之間的關(guān)聯(lián)性。
同源性只有“是”和“非”的區(qū)別,無所謂百分比。一致性(identity):同源DNA序列的同一堿基位置上相同的堿基成員,或者蛋白質(zhì)中同一氨基酸位置上相同的氨基酸成員的比例。相似性(similarity):同源蛋白質(zhì)的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。
一致性和相似性可用百分比表示,相似性往往高于一致性。同源基因有關(guān)概念:直向同源基因(orthologousgene):指分布在不同物種之間的同源基因,它們來自物種分隔之前的同一祖先。共生同源基因(paralogousgene):指同一物種因基因倍增產(chǎn)生的同源基因。(旁系同源基因)倍增基因(ohnologousgene):因全基因組加倍產(chǎn)生的同源基因稱~。異向同源基因(xenologousgene):不同物種之間因水平轉(zhuǎn)移產(chǎn)生的同源基因稱~。物種種化(speciationevent)而產(chǎn)生了直系同源(orthology)的基因序列,基因重復(fù)(duplicationevent)而產(chǎn)生了旁系同源(paralogy)的基因序列。globin
基因的直系同源、旁系同源關(guān)系圖
在基因分類時(shí),缺少同源序列的ORF被稱為孤獨(dú)基因(orphangene)。當(dāng)某一序列從數(shù)據(jù)庫中無法找到同源序列,又無法排除其是不是基因的可能性時(shí),必須依靠實(shí)驗(yàn)來進(jìn)一步確認(rèn)。兩點(diǎn)說明:在DNA水平上區(qū)分同源基因的難度要大于氨基酸水平。
原因:密碼子的搖擺性,相似氨基酸的取代。確定兩個基因是否同源,氨基酸序列的比較以及蛋白質(zhì)高級結(jié)構(gòu)的模擬給出的結(jié)果更為可靠。
原因:同源基因功能相似,關(guān)鍵位置氨基酸相同。Ⅲ基因注釋軟件信號指令(signalterm):如起始密碼、終止密碼、內(nèi)含子分支點(diǎn)保守序列等;內(nèi)容指令(contentterm):如密碼子使用偏好等。Ⅳ基因注釋水平的分類已知基因(knowngene):與已知cDNA和蛋白質(zhì)序列同源的基因。新基因(novelgene):與其他物種cDNA或蛋白質(zhì)序列同源的基因。新轉(zhuǎn)錄物(noveltranscript):與新基因相似,但缺少明確的ORF??赡艿幕颍╬utativegene):有同源EST支持,但缺少cDNA或ORF。預(yù)測基因(predictedgene):數(shù)據(jù)庫中至少有一個外顯子支持,但缺少cDNA或明確的ORF。假基因(pseudogene):與已知蛋白質(zhì)有50%的一致性,但cDNA殘缺,在其他位點(diǎn)存在正常的同源基因的序列。(DunhamI等,2001)5.1.3實(shí)驗(yàn)確認(rèn)基因依據(jù):任何基因都可轉(zhuǎn)錄為RNA拷貝。分子雜交可確定DNA片段是否含表達(dá)序列——Northern印跡(Northernboltting)。由EST和cDNA指認(rèn)基因——搜集盡可能多的EST和cDNA成員是基因組注釋最簡單最可靠的方法。5.2基因功能預(yù)測根據(jù)基因結(jié)構(gòu)、功能與進(jìn)化的內(nèi)在聯(lián)系,采用生物信息學(xué)方法進(jìn)行基因功能的預(yù)測已成為基因功能前期研究的主流內(nèi)容。5.2.1計(jì)算機(jī)預(yù)測基因功能采用軟件分析方法,根據(jù)已有的基因功能推測基因組中具有相似結(jié)構(gòu)的基因的功能。依據(jù):同源性比較
直向同源基因,共生同源基因蛋白質(zhì)結(jié)構(gòu)預(yù)測5.2.2蛋白質(zhì)結(jié)構(gòu)域在功能預(yù)測中的意義結(jié)構(gòu)域(domain)(功能域):蛋白質(zhì)高級結(jié)構(gòu)中具有相對獨(dú)立的亞結(jié)構(gòu)區(qū),通常它們含有數(shù)個二級結(jié)構(gòu)基序(motif),具有相對獨(dú)立的功能。真核生物中大約80%的蛋白質(zhì),原核生物中大約66%的蛋白質(zhì)均含有多個結(jié)構(gòu)域(ApicG等,2001)。蛋白質(zhì)的域結(jié)構(gòu)
(domainarchitecture)又稱為蛋白質(zhì)指紋(proteinfingerprint):用來特指蛋白質(zhì)中結(jié)構(gòu)域的組合形式及其排列次序。蛋白質(zhì)的整體功能是通過各個結(jié)構(gòu)域之間的協(xié)同作用實(shí)現(xiàn)的,結(jié)構(gòu)域的組成提供了蛋白質(zhì)功能解讀的關(guān)鍵信息。舉例:細(xì)胞跨膜信號傳導(dǎo)蛋白的結(jié)構(gòu)域接受外界信號的受體功能域;傳達(dá)信號的胞內(nèi)激酶域;蛋白質(zhì)定位在細(xì)胞膜上的跨膜域。蛋白質(zhì)結(jié)構(gòu)域在基因的功能預(yù)測中起著極其重要的作用,是預(yù)測基因功能的主要依據(jù)之一。同一物種或不同物種中具有相同結(jié)構(gòu)域的蛋白質(zhì)可將其劃歸在同一蛋白質(zhì)家族(proteinfamily),當(dāng)其他物種相關(guān)蛋白質(zhì)家族成員的功能已知時(shí),根據(jù)同源性可以推知另一物種相同結(jié)構(gòu)域蛋白質(zhì)的功能。有時(shí)2個無明顯親緣關(guān)系的蛋白質(zhì)含有個別相同的結(jié)構(gòu)域:分析:可能具有相似的生物學(xué)功能,相似的結(jié)構(gòu)域是蛋白質(zhì)功能的核心區(qū)域?;虮旧頍o共同的祖先,但其結(jié)構(gòu)域卻有共同的起源。舉例:涉及mRNA加工的蛋白質(zhì)共有結(jié)構(gòu)域:RNA結(jié)合域承擔(dān)功能:mRNA的轉(zhuǎn)運(yùn);mRNA前體的剪接加工;mRNA的翻譯;mRNA的編輯等。轉(zhuǎn)錄因子的共同特點(diǎn)是可與DNA結(jié)合,即具有DNA結(jié)合域。TIRG生物技術(shù)公司利用Pfam和InterPro蛋白質(zhì)域軟件包搜尋與注釋水稻基因組序列,鑒別出2462個轉(zhuǎn)錄因子基因。5.2.3根據(jù)協(xié)同進(jìn)化(co-evolved)注釋基因功能為了加快基因功能的注釋與分類,根據(jù)相關(guān)功能基因具有協(xié)同進(jìn)化的特點(diǎn),ZhengL等(2002)提出了一種協(xié)同進(jìn)化基因功能注釋策略,用以解決部分沒
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年審計(jì)工作計(jì)劃表模版(三篇)
- 2024年小學(xué)六年級畢業(yè)班班主任工作計(jì)劃范文(三篇)
- 2024年市場營銷專員工作職責(zé)歸納范本(三篇)
- 2024年學(xué)校傳染病防控工作管理制度模版(三篇)
- 2024年發(fā)電機(jī)租賃合同參考樣本(三篇)
- 2024年圖書出版合同參考樣本(四篇)
- 2024年工藝技術(shù)員職責(zé)范本(二篇)
- 2024年城市房屋租賃合同格式范本(二篇)
- 2024年小學(xué)班主任學(xué)期工作總結(jié)常用版(二篇)
- 【《智慧城市公共服務(wù)績效評價(jià)探究的國內(nèi)外文獻(xiàn)綜述》2500字】
- 主題班會:拍賣會ppt課件
- 技能大師工作室建設(shè)PPT幻燈片課件(PPT 66頁)
- 新版新幼兒園成長檔案模板
- JIS G3507-1-2021 冷鐓用碳素鋼.第1部分:線材
- 封裝工藝介紹優(yōu)秀課件
- 建設(shè)工程竣工消防驗(yàn)收記錄表(DOC36頁)
- 學(xué)生學(xué)習(xí)過程評價(jià)量表
- 高中數(shù)學(xué)必修2立體幾何教材分析和教學(xué)建議
- 運(yùn)動的描述-主題單元設(shè)計(jì)
- 幼兒園報(bào)名登記表
- 蘇教版二年級數(shù)學(xué)上冊重難點(diǎn)易錯題積累
評論
0/150
提交評論