




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基因組分析與進(jìn)化基因組學(xué)
DOE(1984–1986)
1984年,White和Mendelsonhn
受美國能源部(DOE)委托在Utah州主持召開一個(gè)小型專業(yè)會(huì)議,討論測(cè)定人類整個(gè)基因組的DNA序列的意義和前景
1985年,Sinsheimer在加州主持DOE會(huì)議,提出測(cè)定人類基因組全序列的動(dòng)議,形成了DOE的“人類基因組計(jì)劃(HGP)”草案
1986年,DOE在新墨西哥州討論了HGP的可行性,隨后宣布實(shí)施這一計(jì)劃
1986年,諾貝爾獎(jiǎng)獲得者RenatoDulbecco(1975年度生理學(xué)醫(yī)學(xué)獎(jiǎng))在Science發(fā)表短文《腫瘤研究的轉(zhuǎn)折點(diǎn):人類基因組測(cè)序》:如果我們想更多地了解腫瘤,我們從現(xiàn)在起就必須關(guān)注細(xì)胞的基因組。……從哪個(gè)物種著手努力?如果我們想理解人類腫瘤,就應(yīng)該從人類開始。……人類腫瘤研究將因?qū)NA的了解而得到巨大推動(dòng)。NIH(1987–1990)1987年,美國DOE和國立衛(wèi)生研究院(NIH)為HGP下?lián)芰藛?dòng)經(jīng)費(fèi)1.66億美元
1988年,美國在NIH成立了“國家人類基因組研究中心”,由Watson出任第一任主任
1990年10月,經(jīng)國會(huì)批準(zhǔn),美國HGP正式啟動(dòng),總體計(jì)劃在15年內(nèi)投入至少30億美元進(jìn)行人類全基因組分析“孤膽英雄”CraigVenter
1998年,世界上最大的測(cè)序儀生產(chǎn)商美國PEBiosystems公司,以其剛研制成功的300臺(tái)最新毛細(xì)管自動(dòng)測(cè)序儀ABI3700和3億美元資金,成立了CeleraGenomics公司,宣稱要在3年內(nèi)以“人類全基因組霰彈法測(cè)序策略”測(cè)定人類基因組,并聲稱要專利200~400個(gè)重要基因,并將所有序列信息保密3個(gè)月。Celera公司已有雇員300多人,購買了號(hào)稱“全球第三”的超大型計(jì)算機(jī),號(hào)稱擁有了超過全球所有序列組裝解讀力量總和的實(shí)力。就在六國共同宣布HGP工作框架圖構(gòu)建完成的同一天,Celera公司宣稱已組裝出了完整的人類遺傳密碼。Celera公司此舉是對(duì)公益性HGP的競(jìng)爭(zhēng)與挑戰(zhàn)社區(qū)大學(xué)生,沖浪高手……
越戰(zhàn)救護(hù)兵
UCSD生物學(xué)博士
NIH研究員與ClaireFraser和HamiltonSmith合作測(cè)定了流感嗜血桿菌基因組(<2M)
與JohnWhite合作建立Celera公司2000年6月26日人類基因組工作草圖完成
Science2001/2/16Nature2001/2/15合成生物學(xué)基因組一個(gè)基因組(genome)是指一種生物體中的整套遺傳信息,一般為一個(gè)受精卵或一個(gè)體細(xì)胞的細(xì)胞核中所有DNA分子的總和。如植物有核基因組、線粒體基因組和葉綠體基因組?;蚪M學(xué)研究通常包括:基因組作圖,基因組測(cè)序,基因組注釋,基因功能鑒定等功能基因組學(xué)(functionalgenomics)
利用結(jié)構(gòu)基因組學(xué)研究所得的各種來源的信息,建立與發(fā)展各種技術(shù)和實(shí)驗(yàn)?zāi)P蛠頊y(cè)定基因及基因組非編碼序列的生物學(xué)功能比較基因組學(xué)(comparativegenomics)
通過模式生物基因組之間或模式生物基因組與人類基因組之間的比較與鑒別,為研究生物進(jìn)化和分離人類遺傳病的候選基因以及預(yù)測(cè)新的基因功能提供依據(jù)。其中,著重研究生物進(jìn)化的領(lǐng)域亦稱為進(jìn)化基因組學(xué)(evolutionarygenomics)1998/12/11ScienceSCIENCE291(5507)2001/2/1626383條人類基因分子功能的分布SCIENCE291(5507)2001/2/16人類基因組與小鼠染色體組間的關(guān)系基因和基因組基因組大小(bp)1.4X1071X1081X1083X109基因數(shù)量6,00012,00019,00035,000人和若干模式生物的基因組大小生物 估計(jì)基因組大小(bp) 估計(jì)基因數(shù)目 平均基因密度(bp)
人(Homosapiens) 3×109 ~30000105
小鼠(Mus
musculus) 3×109>80000 <4×104
黑腹果蠅(Drosphila
melanogaster) 1.8×108 13601 1378 擬南芥(Arabidopsisthaliana) 1×108 ~250004000 秀麗隱桿線蟲(Caenorhabditis
elegans)9.7×107 19099 5079 釀酒酵母(Saccharomyces
cerevisiae)1.2×107 6034 2005 大腸桿菌(Escherichiacoli) 4.67×106 4288 1090 流感嗜血桿菌(Haemophilus
influenzae)1.8×106 1749 1030 (A)EstimatesofthecompositeparameterNeu
foraphylogeneticallydiverseassemblageofspecies.(B)TherelationshipbetweenestimatedNeu,totalgenenumber,andgenomesize.Dataforprokaryotesareplottedinblue.
Thelog-logregressionof
Neu
versusgenomesizeishighlysignificant,withaninterceptof–1.30±0.40,aslopeof–0.55±0.07,andr2=0.659,df=28.Thenumberofspeciesplotteddiffersbetweengraphsbecausegenomestructureinformationisnotavailableforallspecieswith
Neu
estimates.TheOriginsofGenomeComplexityScience302:1401-1404.11/21/2003兩種測(cè)序策略基于BAC的方法先把基因組打碎成200-300kb的片段并制成BAC文庫,再選擇一些BAC進(jìn)一步打碎成3kb左右的小片段,測(cè)序并拼接。全基因組鳥槍法把基因組直接打碎成3kb左右的小片段,測(cè)序并拼接。對(duì)拼接軟件的需求能充分利用正反向測(cè)序的配對(duì)信息,避免重復(fù)序列造成的錯(cuò)誤拼接能處理數(shù)以百萬甚至千萬計(jì)的數(shù)據(jù)
1)程序并行化
2)高效率比對(duì)
3)能逐步拼接基因組注釋SequenceGENESCANORFFinderGENEMARKGenePrediction…BlastnFastaHomologySearchTranscriptionRegulatoryRegionDomainIdentify(HMMER,BLIMPS)Transmembrane(TMAP,TMHMM)LocalizationSites(Psort)Physical&ChemicalPara(PI/MW,EXTCOEF)Post-translationalmodifications(NetNGlyc…)ProteinAnnotation…GeneOntologyPathwayPredictedGeneOrGene開放閱讀框ORF
(OpenReadingFrame)一段序列從起始密碼子(startcodon)開始,到終止密碼子(stopcodon)結(jié)束,而且其中不包含其它終止密碼子。微生物基因發(fā)現(xiàn)微生物基因組中80%-90%的序列參與編碼主要問題:如果有兩個(gè)或更多重疊的閱讀框,哪一個(gè)是基因(假定只可能有一個(gè))最可靠的方法–同源搜索(使用BLAST或FASTA等)主要困難:在無已知同源性信息的情況下尋找基因預(yù)測(cè)軟件GetORFWebAccess
http://bioweb.pasteur.fr/seqanal/interfaces/getorf.htmlApplication(DownloadEmboss)
GETORF:AdvancedOptions
i.Codetouse:選擇不同的codonusagetable,包含有:
(1)Standard
(2)Standard(withalternativeinitiationcodons)
(3)VertebrateMitochondrial
(4)YeastMitochondrial
(5)Mold,Protozoan,CoelenterateMitochondrialandMycoplasma/Spiroplasma
(6)InvertebrateMitochondrial
(7)CiliateMacronuclearandDasycladacean
(8)EchinodermMitochondrial
(9)EuplotidNuclear
(10)Bacterial
(11)AlternativeYeastNuclear
(12)AscidianMitochondrial
(13)FlatwormMitochondrial
(14)BlepharismaMacronuclear
(15)ChlorophyceanMitochondrial
(16)TrematodeMitochondrial
(17)Scenedesmusobliquus
(18)ThraustochytriumMitochondrialii.最小的開放閱讀框由多少個(gè)核甘酸組成,預(yù)設(shè)值為30,也就是10個(gè)氨基酸。iii.Typeofoutput:可選擇不同的輸入結(jié)果,包含有:
(1)TranslationofregionsbetweenSTOPcodons
(2)TranslationofregionsbetweenSTARTandSTOPcodons
(3)NucleicsequencesbetweenSTOPcodons
(4)NucleicsequencesbetweenSTARTandSTOPcodons
(5)NucleotidesflankingSTARTcodons
(6)NucleotidesflankinginitialSTOPcodons
(7)NucleotidesflankingendingSTOPcodonsMetagenomics
(CommunityGenomics,EnvironmentalGenomics)Whoisthere?–diversity&abundanceWhattheyaredoing?–Metabolic&interactionWhytheyarethere?–EcologicalrelationsSpeciescomplexityAcidminedrainage1 100 1000 10000SeawaterHumangutSoilThecultivation-independentanalysisofthecollectivegenomesofmicrobialpopulationsobtaineddirectlyfromtheenvironmentTheComplexityofMetagenomicsAABCDA’Isolatedgenome–singlesourceofDNAMetagenome–multiplesourceofDNAXGenomeAnnotation,Metagenomics?readsassembliesgenesannotationTraditionalgenomicsreadsassembliesORFsannotationMetagenomics???
HugeMultipleorganismsFragmental
HugePartialORFsWrongORFsQ:Solution?
A:Clustering.ProteinfamiliesNovelfamiliesORFvalidation
HugeMultipleorganismsUnevencoverage真核生物的基因的完整結(jié)構(gòu)
及它的表達(dá)過程transcriptionRNAsplicingproteintranslationexon1DNAexon2exon3intron1intron2promotergtgtagagupstreamdownstream5’UTR3’UTRgtgtagagPrimaryRNAtranscript3`5’MatureRNAUTSuga,uaa,uag3`aaa…5’基因識(shí)別找出在一段DNA序列中,是否存在ORF或“基因”判明基因的結(jié)構(gòu),包括起止位置,外顯子/內(nèi)含子邊界,啟動(dòng)子,polyA區(qū)域,非轉(zhuǎn)譯區(qū)(UTR)等預(yù)測(cè)真基因和“假基因”(pseudogene)及可能的剪切位點(diǎn)基于同源性的基因預(yù)測(cè)法“從頭開始”預(yù)測(cè)法綜合使用以上兩種方法:如TwinScan其它方法:如數(shù)字信號(hào)處理,Z曲線,等基因預(yù)測(cè)方法分類基于序列相似性的基因預(yù)測(cè)
將基因組序列與EST(expressedsequencetag,表達(dá)序列標(biāo)記)或cDNA等相比較(用Sim4等方法),從而找出與mRNA相對(duì)應(yīng)的區(qū)域。將基因組序列與蛋白質(zhì)數(shù)據(jù)庫相比較(用BLASTX等方法),從而找出可能的編碼區(qū)。將預(yù)測(cè)得到的多肽與蛋白質(zhì)數(shù)據(jù)庫相比較將基因組序列與同源性相近物種的基因組相比較,找出保守區(qū)域。GENEPredictionGENESCANhttp:///GENSCAN.htmlGENEMARK
http:///GeneMark/eukhmm.cgiFGENESH
/berry.phtml?topic=fgenesh&group=programs&subgroup=gfind
GeneScanGeneMarkFGENESH基因組整合分析平臺(tái)Expglimmer(>90)ReferenceGetCDSsPredictedGeneCollectionGeneCollectionGeneDBFormatdbGeneDBFormatdbGeneBBHClustWProCalDs/DnClassificationGOclassificationKeggPathway……新技術(shù)平臺(tái)的比較SequencerReadlengthHigh-throughputRunningtimeCost454GS-20100bp20Mb/run200kreads/run5.5h5000-7000USD/run0.00025USD/bp454GS-FLX200-250bp100Mb/run500kreads/run7-8h-10—30%Solexa25-35bp1000Mb/run28mreads/run2-3d3000USD/runSolid25-50bp100Mb2-4mreads/run1d?ABI3730Xl700bp70kb/run96reads/run2h150USD/run0.0025USD/bp深度測(cè)序數(shù)據(jù)分析流程基因組分析與生物信息學(xué)基因組信息學(xué):存儲(chǔ)、獲取、處理、分配、分析和注釋有關(guān)基因組的信息基因組分析的難度:基因組分析的信息量比單基因要高幾個(gè)數(shù)量級(jí)一些基因組的數(shù)據(jù)尚不完備,質(zhì)量也有待提高基因組分析的方法學(xué)研究還處于起步階段生物信息學(xué)與基因組學(xué)的發(fā)展基因組進(jìn)化基因組排列(genomearrangement):是指基因序列的變化(序列插入,轉(zhuǎn)座等)基因組含量(genomecontent):
基因的獲得(序列的趨異、復(fù)制、重組、水平轉(zhuǎn)移)和基因丟失直系同源和并系同源基因原始血紅蛋白基因基因復(fù)制α鏈β鏈
FrogChickmousemousechickfrog直系同源直系同源并系同源
genomeAgeneX
genomeBlysintransporterYgeneZ50%70%geneZ
geneY:orthologsgeneX
geneY:homologsgeneX
geneZ:paralogs直系/并系
直系同源體簇(COG)
直系同源基因(orthologousgene)是指在不同物種之間同源相似的基因,而并系同源基因(paralogousgene)是指一個(gè)物種內(nèi)的同源基因。一個(gè)生物物種的基因組中,兩個(gè)基因或開放讀碼在各自全長(zhǎng)的60%以上范圍內(nèi),同一性不少于30%時(shí),稱為同源體。研究直系同源基因之間或并系同源基因之間的功能關(guān)系,可以為基因組分析提供很大的幫助。例如,比較8個(gè)已完成測(cè)序的整個(gè)基因組所編碼的蛋白質(zhì)序列,可以發(fā)現(xiàn)代表不同系統(tǒng)發(fā)育關(guān)系并反映了不同物種的直系同源體簇(clusteroforthologousgroups,COG)。NCBICOG網(wǎng)頁(http:///COG/)真核生物中一個(gè)信號(hào)肽酶家族的COG(登錄ID0681)COG的系統(tǒng)發(fā)育式樣基于基因含量的基因組系統(tǒng)發(fā)育分析計(jì)數(shù)基因組共享直系同源基因的數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 酒店治安安全培訓(xùn)
- 2024年圖書館政策與管理試題及答案
- 2025年建筑聲學(xué)材料項(xiàng)目可行性研究報(bào)告
- 2025年家用保險(xiǎn)箱項(xiàng)目可行性研究報(bào)告
- 鍋爐制圖培訓(xùn)課件
- 25年公司管理人員安全培訓(xùn)考試試題及答案(基礎(chǔ)+提升)
- 25年班組三級(jí)安全培訓(xùn)考試試題【有一套】
- 廣州地鐵歷年試題及答案
- 問卷星的使用培訓(xùn)
- 臨床執(zhí)業(yè)醫(yī)師考試知識(shí)分享試題及答案
- 消防設(shè)施維保服務(wù)投標(biāo)方案(技術(shù)方案)
- 《陸上風(fēng)電場(chǎng)工程施工安裝技術(shù)規(guī)程》(NB/T 10087-2018 )
- 大班科學(xué)五彩的燈課件
- 2024圖解數(shù)據(jù)分類分級(jí)規(guī)則
- 對(duì)公賬戶注銷委托書
- 新能源汽車維修完全自學(xué)手冊(cè)
- 初中英語名詞匯總
- 高中語文選擇性必修中冊(cè)《11.1過秦論》理解性默寫與填空練習(xí)
- 大數(shù)據(jù)商務(wù)智能與可視化分析:解鎖商業(yè)精準(zhǔn)決策之路
- 刑事案件及分析報(bào)告
- 滴灌技術(shù)知識(shí)講座
評(píng)論
0/150
提交評(píng)論