人類基因組概況_第1頁(yè)
人類基因組概況_第2頁(yè)
人類基因組概況_第3頁(yè)
人類基因組概況_第4頁(yè)
人類基因組概況_第5頁(yè)
已閱讀5頁(yè),還剩42頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

DepartmentofMicrobiology

FuquanHoo

人類基因組概要

OutlineofHumanGenome

有科學(xué)史以來的過去幾百年中,人們對(duì)于人類基因組的認(rèn)識(shí)大多限于染色體和個(gè)別基因的認(rèn)識(shí)。真正對(duì)于人類基因組有“整體序列水平”的認(rèn)識(shí)是在人類基因組計(jì)劃完成之后。因此,我們要討論人類基因組就不得不先談一談“人類基因組計(jì)劃”(HumanGenomeProject,HGP)1.什么是人類基因組計(jì)劃?HGP是研究人類基因組(及相關(guān)的大腸桿菌、酵母、線蟲、果蠅及擬南芥基因組)的、宏大的跨國(guó)科研計(jì)劃,它可與阿波羅計(jì)劃媲美。HGP在20世紀(jì)80年代中期提出,自1990年正式開始,計(jì)劃用15年時(shí)間,耗資30億美元,完成人類基因組的測(cè)序和基本注釋,完成4套圖譜:遺傳圖譜、物理圖譜、序列圖譜及基因圖譜。一.人類基因組計(jì)劃

美國(guó)馬薩諸塞州的Cambridge基因組研究中心的

WhiteheadInstitute英國(guó)劍橋的SangerCenter美國(guó)密蘇里的WashingtonUniversity美國(guó)加州的DOE聯(lián)合基因組研究所美國(guó)得州的BaylorCollegeOfMedicine美國(guó)的一些其它單位中國(guó)、德國(guó)、法國(guó)、日本2.哪些國(guó)家和單位參加了HGP?3.誰(shuí)的DNA被用來測(cè)序?

在構(gòu)建文庫(kù)實(shí)驗(yàn)室附近刊登了為HGP捐獻(xiàn)DNA的廣告,選擇了不同人種的健康捐獻(xiàn)者。采集樣品經(jīng)匿名處理:取樣實(shí)驗(yàn)室撕去所有樣品標(biāo)記,記以隨機(jī)號(hào)碼,交樣品處理室。樣品處理室再撕去原標(biāo)記并重新標(biāo)記。最終使用的每一樣品大約收集了5~10個(gè)樣本。捐獻(xiàn)者與DNA樣品之間不再有任何聯(lián)系,所以捐獻(xiàn)者的身份是不被知道的。而Celera的測(cè)序樣本來自5個(gè)人:分別屬于西班牙裔、亞洲裔、非洲裔、美洲裔和高加索裔(2男3女),是從21個(gè)志愿者樣本中挑選的。

最后公布的序列圖譜中還標(biāo)記了140萬(wàn)個(gè)SNP位點(diǎn),因此,它不是某一個(gè)確定人物的圖譜,而是“人類”的圖譜。4.HGP的目標(biāo)

determinethesequencesofthe3billionchemicalbasepairsthatmakeuphumanDNA,identifyallthegenesinhumanDNA,storethisinformationindatabases,improvetoolsfordataanalysis,transferrelatedtechnologiestotheworldpublicaddresstheethical,legal,andsocialissues(ELSI)thatmayarisefromtheproject.兩個(gè)“人類基因組計(jì)劃”

前面提到的由多個(gè)國(guó)家合作進(jìn)行的計(jì)劃,稱為“國(guó)際合作”計(jì)劃。這個(gè)計(jì)劃是由國(guó)家撥款資助,自1990年開始,轟轟烈烈干了整8年,做了大量艱苦、細(xì)致的工作,也使得測(cè)序方法得到相當(dāng)?shù)耐晟疲笠?guī)模自動(dòng)化測(cè)序儀已經(jīng)出現(xiàn),不用做遺傳圖和物理圖的“鳥槍法測(cè)序”技術(shù)于1995年在流感嗜血桿菌中獲得成功.1998年有一個(gè)私人公司Celera突然宣布,要用3年時(shí)間搶在“國(guó)際合作組織”之前完成人類基因組測(cè)序計(jì)劃,并將人類基因?qū)@?cè)。

私人公司的介入,引入了競(jìng)爭(zhēng)機(jī)制,迫使“公共合作組織”不得不加大投資、加快速度。結(jié)果兩個(gè)計(jì)劃都在2001年完成了“草圖”。TheHGPconsortiumpublisheditsworkingdraftinNature409(15February).CelerapublishesitsworkingdraftinScience(16February).“草圖”(DraftGenomeSequence)意味著什么?“草圖”還不是完成圖,還有1000多個(gè)“缺口”,缺口主要集中在異染色質(zhì)區(qū)域。目前,沒有一個(gè)真核生物的基因組被測(cè)序到100%。有一些區(qū)域-通常是高度重復(fù)區(qū)域-用當(dāng)今的技術(shù)很難或根本不可能被克隆或測(cè)序。但是,公布的草圖中,90%~93%常染色質(zhì)區(qū)域(富含基因區(qū))已經(jīng)被測(cè)序。

2003年,人類基因組計(jì)劃完成它的“完成圖”,98%以上的基因編碼區(qū)已被測(cè)序,精度達(dá)99.99%,至此,人類基因組計(jì)劃宣告它的完成。這一年,正值JamesWatsonandFrancisCrick發(fā)表DNA雙螺旋結(jié)構(gòu)50周年。人類基因組計(jì)劃的完成為50周年慶典送了一份大禮!Nature和Science分別發(fā)表了專文,介紹了人類基因組計(jì)劃在2001~2003這兩年中又取得的進(jìn)展及人類基因組學(xué)今后的發(fā)展方向。

基因組的完成圖1.BarbaraR.JasnyandLeslieRoberts:

Introduction,ScienceApr112003:277。2.FrancisS.Collins,MichaelMorgan,AristidesPatrinos:TheHumanGenomeProject:LessonsfromLarge-ScaleBiology。ScienceApr112003:286。3.MarvinE.Frazier,GaryM.Johnson,DavidG.Thomassen,CarlE.Oliver,AristidesPatrinos:RealizingthePotentialoftheGenomeRevolution:TheGenomestoLifeProgram。ScienceApr112003:290。4.FrancisS.Collins,EricD.Green,AlanE.Guttmacher,MarkS.Guyer

:AVisionfortheFutureofGenomicsResearch.Ablueprintforthegenomicera.NatureApr242003:835.5.SeanB.Carroll:GeneticsandtheMakingofHomosapiens.NatureApr242003:849.

6.JonathanArnold,NelsonHilton:GenomeSequencing:RevelationsfromaBreadMould.NatureApr242003:821.

Itisessentiallyimmoralnottogetit(thehumangenomesequence)doneasfastaspossible.

JamesWatson

人類基因組計(jì)劃的完成,使得我們今天有可能來探討基因組的概,但我們?nèi)匀粺o法來談?wù)摷?xì)節(jié)?;谖覀?nèi)祟惤裉熘R(shí)的局限性,目前我們還無法完全讀懂這本天書基于我們個(gè)人的知識(shí)局限性,沒有任何一個(gè)人能完全讀懂這本天書既使是集人類集體之智慧,我們也無法將目前人類能夠認(rèn)識(shí)到的有關(guān)基因組的全部知識(shí)集中到一篇論文中來。因此,今天只能討論有關(guān)基因組的概況。二.人類基因組概況(對(duì)草圖的統(tǒng)計(jì))基因組大小2.91GbpA+T含量54%G+C含量38%不能確定的堿基9%重復(fù)序列(不含異染色質(zhì))35%編碼序列(基因)數(shù)目26588功能未知基因比例42%外顯子最多的基因Titin(234)SNP數(shù)量約300萬(wàn)個(gè)SNP密度1/12500bp最長(zhǎng)的染色體2(240Mbp)最短的染色體Y(19Mbp)基因最多的染色體1(2453)基因最少的染色體Y(104)基因密度最大的染色體19(23/Mb)基因密度最小的染色體13,Y(5/Mb)重復(fù)序列含量最高的染色體19(57%)重復(fù)序列含量最低的染色體2,8,10,13,18(36%)編碼外顯子序列的比例1.1~1.4%基因的平均長(zhǎng)度27Kb女平均男染色體上距著絲粒越遠(yuǎn),重組率越高

在遺傳作圖中,各遺傳標(biāo)記之間的距離是用重組率來表示的,將遺傳標(biāo)記距著絲粒的實(shí)際距離對(duì)重組率作圖,不難看出下述關(guān)系:

著絲粒附近的重組受到抑制,距著絲粒序列距離越遠(yuǎn),重組率越高染色體長(zhǎng)臂的平均重組率為1cM/Mb染色體短臂的平均重組率為2cM/Mb女性染色體重組率比男性高三.人類基因組GC含量與CpG島人類基因組的GC含量圍繞平均含量41%長(zhǎng)距離波動(dòng)。存在GC富含區(qū)及GC貧乏區(qū)。GC富含區(qū)及GC貧乏區(qū)具有不同的生物學(xué)意義。

GC富含區(qū)與基因密度程正相關(guān)

GC貧乏區(qū)存在大量重復(fù)序列染色體深色G帶對(duì)應(yīng)的是低GC含量區(qū)染色體淺色G帶對(duì)應(yīng)的是高GC含量區(qū)

GC含量的“板塊”變化是由于基因組進(jìn)化過程中轉(zhuǎn)座事件導(dǎo)致的“區(qū)域鑲嵌”。GC含量與基因密度呈正相關(guān)

基因組序列GC含量直方圖(20Kb窗口)基因組中的CpG島人類基因組中的CpG島出現(xiàn)率很低。預(yù)計(jì)值:胞嘧啶與嘌呤的比列的乘積,約4%

實(shí)際值:約0.8%這是因?yàn)?基因組中大多數(shù)二核苷酸CpG中的胞嘧啶是甲基化的,被脫氨基成為胸腺嘧啶T,即CpGTpGCpG多出現(xiàn)于基因的5‘端,故對(duì)于預(yù)測(cè)基因很有意義。基因組內(nèi)有CpG島50267個(gè)重復(fù)序列內(nèi)的CpG島21377個(gè),一般不具功能非重復(fù)序列內(nèi)的CpG島28890個(gè)

CpG島的分布密度與染色體上的基因密度高度相關(guān)染色體上的CpG島數(shù)量與基因數(shù)程正比四.人類基因組中的重復(fù)序列生物學(xué)中的一個(gè)困惑現(xiàn)象是基因組的大小與物種復(fù)雜性的不一致,如人基因組比Amoebadubia小200倍。其中一個(gè)解釋是基因組中含有大量重復(fù)序列。重復(fù)序列是指基因組中不編碼蛋白質(zhì)且有多個(gè)拷貝的序列,是人類基因中的主要成分,占據(jù)全基因組的大部分區(qū)域。重復(fù)序列的生物學(xué)意義有待闡明重復(fù)序列是一種重要的分子標(biāo)記。散在插入重復(fù)序列:多由轉(zhuǎn)座子插入引起的重復(fù)大片段復(fù)制性重復(fù):約10~300Kb,基因組不同區(qū)域間重復(fù)串聯(lián)重復(fù):高度重復(fù)的串聯(lián)重復(fù),也稱衛(wèi)星DNA,多存在于著絲粒、端粒、近著絲粒短臂等位置。人類基因組中的散布重復(fù)序列類型家族單位長(zhǎng)度拷貝數(shù)總長(zhǎng)度比例SINEAlu0.13kb1百萬(wàn)288Mb9.9MIR40萬(wàn)66Mb2.3LINELINE10.8kb35萬(wàn)466Mb16.1LINE20.25kb27萬(wàn)LTRHERV1.3kb5萬(wàn)155Mb5.3RTLV,LTR0.5kb20萬(wàn)DNATnMER,THE等0.25kb20萬(wàn)50Mb1.7總記1025Mb35.3SINE:shortinterspersednuclearelements.LINE:longinterspersednuclearelements.Alu:含AGCT.MIR:mammalian-wideinterspersedrepeats.LTR:longterminalrepeat.HERV:humanendogenousretroviruses.RTLV:retrovirus-likeelements.MER:mediumreiterationfrequencysequence.THE:transposablehumanelement.轉(zhuǎn)座子來源的重復(fù)序列人類的大多數(shù)重復(fù)序列(包括LINE,SINE,LTR)都是來源于轉(zhuǎn)座單元,在進(jìn)化歷程中,基因組的45%都來源于轉(zhuǎn)座。人類DNA轉(zhuǎn)座子類似細(xì)菌轉(zhuǎn)座子,含有末端反向重復(fù),編碼一個(gè)轉(zhuǎn)座酶,該酶在可以在反向重復(fù)處通過剪切和粘貼實(shí)現(xiàn)轉(zhuǎn)座。轉(zhuǎn)座子不僅在基因組內(nèi)部轉(zhuǎn)移,還常常橫向轉(zhuǎn)移到新的基因組。反向重復(fù)G1轉(zhuǎn)座酶G2G3反向重復(fù)

這是指非同源染色體之間的片段復(fù)制性重復(fù),大小約1Kb~200Kb。這種現(xiàn)象在非同源染色體之間是廣泛存在的現(xiàn)象。

可以發(fā)生在染色體之間:如Xq28位置上的一個(gè)9.5Kb片段被復(fù)制重復(fù)到2,10,16和22號(hào)染色著絲粒的附近區(qū)域。

也可發(fā)生在染色體之內(nèi):如17號(hào)染色體上有一個(gè)200Kb的片段被復(fù)制三次(中間間隔5Mb),另一個(gè)24Kb片段被復(fù)制兩次(中間間隔1.5Mb)著絲粒周邊和端粒附近是片段復(fù)制性重復(fù)存在的區(qū)域,可占據(jù)該區(qū)域中90%的序列。“片段復(fù)制性重復(fù)”(segmentalduplication).染色體內(nèi)外重復(fù)序列比例染色體染色體內(nèi)(%)染色體間(%)全部(%)簡(jiǎn)單重復(fù)序列(singlesequencerepeat,SSR)簡(jiǎn)單重復(fù)序列是基因組重復(fù)序列中的特殊類型。也稱為衛(wèi)星DNA,進(jìn)一步分為:

微衛(wèi)星DNA:

重復(fù)單位較短(n=1~13)

小衛(wèi)星DNA:重復(fù)單位較長(zhǎng)(n=14~500)二核苷酸重復(fù)有:AC(50%),AT(35%),AG(15%),GC(0.1)三核苷酸重復(fù)有:AAT(33%),AAC(21%),ACC(4%),AGC(2.2)多聚A可是通過逆轉(zhuǎn)錄進(jìn)入染色體中的其他各種SSR是復(fù)制過程中的滑動(dòng)造成的約437個(gè)/Mb.重復(fù)序列較之于編碼序列,由于不經(jīng)受功能選擇的壓力,故較編碼序列更穩(wěn)定。在不同物種基因組中,可以出現(xiàn)同一重復(fù)序列,但可能個(gè)別或某些堿基發(fā)生了替換(突變)。根據(jù)堿基替換率和替換堿基的數(shù)目,可以計(jì)算出該重復(fù)序列的進(jìn)化年代。因此,重復(fù)序列提供了進(jìn)化歷程中的“化石記錄”。五.人類基因組中的基因人類基因組中到底有多少基因?根據(jù)脊椎動(dòng)物組織mRNA的復(fù)雜度,估計(jì)有10000~20000個(gè)基因,故推算人類應(yīng)當(dāng)有40000個(gè)基因20世紀(jì)80年代,Gilbert根據(jù)典型基因長(zhǎng)度為30Kb,基因組約30億bp,故估計(jì)人類有100000個(gè)基因,雖缺乏直接證據(jù),但它是一個(gè)令人滿意和被接受的數(shù)字。HGP揭示:人類基因組約有24500個(gè)基因,42%功能未知。擬南芥:28000個(gè)基因線蟲:18500個(gè)基因果蠅:13500個(gè)基因國(guó)際合作組織的初步推定了大約32000條基因,其中大約15000個(gè)是已知基因,17000個(gè)是預(yù)測(cè)基因(predicatedgene),預(yù)測(cè)的敏感性約60%,還有6800條(17000的40%)可能不是基因或者是“假基因”,因此,人類基因約24500左右(32000-6800)。非編碼RNA(noncodingRNA,ncRNA)非編碼RNA是指它們不編碼蛋白質(zhì),但同樣是基因,包括:tRNA:適配器,轉(zhuǎn)運(yùn)氨基酸rRNA:

構(gòu)成核糖體,蛋白譯制中心,最近X-線晶體衍射研究顯示肽鍵的形成有rRNA催化完成,而非蛋白質(zhì)。snoRNA(smallnucleolarRNA):小核仁RNA,擔(dān)負(fù)核仁中RNA加工與堿基修飾。snRNA(smallnuclearRNA):小核RNA,剪接體,參與把mRNA前體中的內(nèi)含子剪切掉。VaultRNA:

以核糖核蛋白形式存在,質(zhì)量是核糖體的3倍,功能未知。關(guān)于tRNA基因:在人類基因組中找到497個(gè)tRNA基因,還有324個(gè)tRNA來源的假基因。過去估計(jì)人類tRNA基因有1310個(gè),這個(gè)數(shù)據(jù)高估了。一是把假基因估計(jì)在內(nèi)了,二是早前對(duì)基因組的大小高估了。1號(hào)和6號(hào)染色體上含有超過半數(shù)(280)的tRNA基因。其余tRNA基因分布于其他各染色體。但22和Y染色體上沒有tRNA基因。已知基因的特性許多基因長(zhǎng)度超過100Kb,最常的基因(肌營(yíng)養(yǎng)不良蛋白基因,DMD)長(zhǎng)2.4Mb肌連蛋白基因(Titingene)含有最大編碼序列80780bp,外顯子數(shù)量最多(178),最長(zhǎng)單外顯子(17106bp)人體基因外顯子平均長(zhǎng)度145bp.分析了53295個(gè)內(nèi)含子,98.12%的內(nèi)含子的剪切位點(diǎn)是GC-AT模式人類許多基因存在選擇性剪接:22號(hào)染色體:642個(gè)轉(zhuǎn)錄子(in245gene),2.6個(gè)轉(zhuǎn)錄子/基因19號(hào)染色體:1859個(gè)轉(zhuǎn)錄子(in544gene)3.2個(gè)轉(zhuǎn)錄子/基因人類基因組編碼序列的功能六.人類基因組的單核苷酸多態(tài)性

(singlenucleotidepolymorphisms,SNP)

什么是SNP?

將來自兩個(gè)不同個(gè)體的兩條DNA序列進(jìn)行“對(duì)位比較”(alignmentpositionbyposition),在大面積相同的背景下,出現(xiàn)了單個(gè)核苷酸的差異,這種差異以一定的頻率出現(xiàn)在群體中,這就是SNP.物種SNP反映的是進(jìn)化歷史上點(diǎn)突變帶來的遺傳進(jìn)化標(biāo)志,對(duì)于研究人種進(jìn)化非常有用。許多基因變異造成的人類表型變化可以追述到SNP的變異。個(gè)體特性、疾病易感性以及對(duì)特定藥物的敏感性等特質(zhì)都與SNP相關(guān)。SNP數(shù)量巨大

SNP的出現(xiàn)頻率約1/1000~1/2000,也就是說在32億堿基對(duì)中存在約3.2M個(gè)SNP。這還僅僅是兩套基因組之間的比較,多套基因組進(jìn)行比較,SNP位點(diǎn)肯定要大得多。目前估計(jì)人類基因組中的SNP會(huì)超過7百萬(wàn)。如果兩、三萬(wàn)個(gè)基因不足以解釋人類個(gè)體的多樣性,那么巨大數(shù)量的SNP的存在是足以解

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論