生物信息學(xué)資源檢索與利用-2015-CDC-v3課件_第1頁
生物信息學(xué)資源檢索與利用-2015-CDC-v3課件_第2頁
生物信息學(xué)資源檢索與利用-2015-CDC-v3課件_第3頁
生物信息學(xué)資源檢索與利用-2015-CDC-v3課件_第4頁
生物信息學(xué)資源檢索與利用-2015-CDC-v3課件_第5頁
已閱讀5頁,還剩68頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、生物信息學(xué)資源檢索與利用李姣 li.jiao 中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所2015年4月內(nèi) 容1、生物信息學(xué)內(nèi)涵2、生物信息學(xué)資源核酸序列數(shù)據(jù)庫單核苷酸多態(tài)性數(shù)據(jù)庫基因表達數(shù)據(jù)庫蛋白質(zhì)數(shù)據(jù)庫生物分子網(wǎng)絡(luò)數(shù)據(jù)庫3、生物信息學(xué)在疾病研究中的應(yīng)用什么是生物信息學(xué)?生物信息學(xué)(Bioinformatics)定義:生物信息學(xué)是一門交叉學(xué)科,它包含了生物信息的獲取、加工、存儲、分配、分析、解釋等在內(nèi)的所有方面,它綜合運用數(shù)學(xué)、計算機科學(xué)和生物學(xué)的各種工具來闡明和理解大量數(shù)據(jù)所包含的生物學(xué)意義。 人類基因組計劃總結(jié)報告,1995年 33 days16 genomes, one technician, $1,

2、000HiSeq X Ten4$1,000Adapted from /5781/display/TCGA/The+Cancer+Genome+AtlasTCGA 數(shù)據(jù)的收集、共享與利用實施過程10精準醫(yī)學(xué)是根據(jù)病人的基因組,環(huán)境和生活習(xí)慣來選擇最佳的個體化治療方案,精準醫(yī)學(xué)是個體化醫(yī)學(xué)的發(fā)展和延伸。奧巴馬在2015年國情詢文中將精準醫(yī)學(xué)作為美國優(yōu)先支持的幾個目標之一,并將投入2.15億美金。精準醫(yī)學(xué)的目標是癌癥,長期的目標是拓展到心血管疾病,老年性疾病等領(lǐng)域。“Tonight, Im launching a new Precision Medicine Initiative to bring

3、us closer to curing diseases like cancer and diabetes and to give all of us access to the personalized information we need to keep ourselves and our families healthier.” President Barack Obama, State of the Union Address, January 20, 2015Nature Reviews Drug DiscoveryVolume:14,Page:155Year published:

4、(2015)DOI:doi:10.1038/nrd4569Nature Reviews Drug DiscoveryVolume:14,Page:155Year published:(2015)DOI:doi:10.1038/nrd4569Nature Reviews Drug DiscoveryVolume:14,Page:155Year published:(2015)DOI:doi:10.1038/nrd4569The precision medicine initiative by NIHN Engl J Med. 2015 Feb 26;372(9):793-511/precisio

5、nmedicine/infographic-printable.pdfpdf 12生物信息學(xué)的研究研究內(nèi)容:以DNA、RNA、蛋白質(zhì)等生物分子數(shù)據(jù)庫為主要研究對象以數(shù)學(xué)、信息學(xué)、計算機科學(xué)為主要研究手段以計算機硬件、軟件和計算機網(wǎng)絡(luò)為主要研究工具對海量原始數(shù)據(jù)進行存儲、管理、注釋、加工,使之成為具有明確生物意義的生物信息查詢、搜集、比較、分析生物信息,獲取基因編碼、基因調(diào)控、核酸和蛋白質(zhì)結(jié)構(gòu)功能及其相互關(guān)系等理性知識基于大量數(shù)據(jù)和信息,探索生命起源、生物進化,探索細胞、器官和個體的發(fā)生、發(fā)育、病變、衰亡等生命科學(xué)現(xiàn)象及其基本規(guī)律和時空聯(lián)系14生物信息學(xué)資源包括核苷酸序列、基因變異、基因表達譜、

6、微小RNA、蛋白質(zhì)序列、蛋白質(zhì)三維空間結(jié)構(gòu)等生物信息學(xué)資源的分類根據(jù)訪問權(quán)限開放獲取數(shù)據(jù)庫(open accessible database)訂閱數(shù)據(jù)庫(subscription database)根據(jù)收錄內(nèi)容特定內(nèi)容數(shù)據(jù)庫(specific database)整合數(shù)據(jù)庫(integrated database)根據(jù)數(shù)據(jù)加工程度原始數(shù)據(jù)庫(raw database)加工整理數(shù)據(jù)庫(curated database)151、核酸序列數(shù)據(jù)庫世界三大核酸序列數(shù)據(jù)庫美國的GenBank歐洲的ENA(European Nucleotide Archive)日本的DDBJ(DNA Data Bank of

7、 Japan)共同構(gòu)成國際核酸序列數(shù)據(jù)庫聯(lián)盟(International Nucleotide Sequence Database Collaboration,INSDC)每日同步更新、數(shù)據(jù)共享INSDC的數(shù)據(jù)規(guī)模17GenBank美國國立生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)創(chuàng)建并維護創(chuàng)建于1982年每日更新,每兩個月發(fā)布一個新版本數(shù)據(jù)可公開訪問,不受注冊和IP限制數(shù)據(jù)獲取方式:Entrez檢索系統(tǒng)輸入關(guān)鍵詞、限定檢索字段查詢集成檢索BLAST序列相似性檢索輸入一段序列查詢FTP批量下載Benson, D.A.

8、, Clark. K., Karsch-Mizrachi. I., Lipman, D.J., Ostell, J., Sayers, E.W., GenBank . Nucleic Acids Res. 2014. 42(Database issue):p.D32-37.18ENA歐洲生物信息學(xué)研究所(European Bioinformatics Institute,EBI)創(chuàng)建并維護創(chuàng)建于1982年基于一套獨立的核酸序列數(shù)據(jù)格式根據(jù)序列數(shù)據(jù)層級、數(shù)據(jù)類型、數(shù)據(jù)種類進行分類,定義相應(yīng)的數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)獲取方式:關(guān)鍵詞檢索序列數(shù)據(jù)序列相似性檢索批量獲取 (advanced research)編寫

9、程序(REST URLs和CRAM)FTPPakseresht, N., et al., Assembly information services in the European Nucleotide Archive. Nucleic Acids Res, 2014. 42(Database issue): p. D38-43.19DDBJ日本國家遺傳學(xué)研究所(National Institute of Genetics,NIG)創(chuàng)建并維護創(chuàng)建于1987年99%日本研究者的測序數(shù)據(jù)提交至DDBJ基于DDBJ核酸序列文件格式(DDBJ flat file format)數(shù)據(jù)獲取方式:利用唯一標

10、識符檢索利用關(guān)鍵詞檢索針對物種(Taxonomy)檢索BLAST序列相似性檢索FTPKosuge, T., Mashima, J., Kodama, Y., et al., DDBJ progress report: a new submission system for leading to a correct annotation. Nucleic Acids Res, 2011. 42(Database issue): p. D44-49.20RefSeq數(shù)據(jù)庫(一)同一序列片段可能被不同實驗室測定并提交為去除冗余序列數(shù)據(jù),構(gòu)建參照序列數(shù)據(jù)庫(RefSeq)創(chuàng)建于2003年存儲經(jīng)過NCB

11、I人工審閱和標注,面向物種的DNA、RNA、蛋白質(zhì)參照序列(reference sequence)每兩個月發(fā)布一個新版本數(shù)據(jù)獲取方式:Entrez檢索系統(tǒng)BLAST序列相似性查詢FTPPruitt, K.D., Brown, G.R., et al., RefSeq: an update on mammalian reference sequences. Nucleic Acids Res, 2014. 42(Database issue): p. D756-763.21RefSeq數(shù)據(jù)庫(二)原始提交序列數(shù)據(jù)庫(GenBank/ENA/DDBJ)參照序列數(shù)據(jù)庫(RefSeq)數(shù)據(jù)來源序列提交

12、者提供原始數(shù)據(jù)(類似于作者提交原創(chuàng)性科學(xué)文獻)對原始數(shù)據(jù)的持續(xù)審閱、標注和重新組織(類似于科研人員對多個原創(chuàng)性科學(xué)文獻進行綜述)數(shù)據(jù)修改序列提交者對數(shù)據(jù)修改NCBI科研人員在原始提交的基礎(chǔ)上創(chuàng)建的一個新數(shù)據(jù)庫,NCBI定期對數(shù)據(jù)更新和修改序列特點一個序列位點可對應(yīng)多條記錄,記錄間可能存在不一致一個物種的一個序列片段對應(yīng)一條經(jīng)過審編的記錄物種選取無限制模式生物(model organisms)數(shù)據(jù)交換國際核酸序列數(shù)據(jù)庫聯(lián)盟的三個數(shù)據(jù)中心GenBank/ENA/DDBJ每天進行數(shù)據(jù)交換和同步更新NCBI獨有的數(shù)據(jù)庫數(shù)據(jù)關(guān)聯(lián)與蛋白質(zhì)數(shù)據(jù)相關(guān)聯(lián)與基因、基因變異、轉(zhuǎn)錄、蛋白質(zhì)數(shù)據(jù)相關(guān)聯(lián)數(shù)據(jù)獲取通過NCB

13、I Entrez檢索系統(tǒng)查詢;通過BLAST檢索相似序列;通過FTP批量下載通過NCBI Entrez檢索系統(tǒng)查詢;通過BLAST檢索相似序列;通過FTP批量下載原始提交核酸序列數(shù)據(jù)庫與參照序列數(shù)據(jù)庫的比較222、單核苷酸多態(tài)性數(shù)據(jù)庫(一)兩個不相關(guān)個體的DNA序列有99.8%一致0.2% 遺傳差異導(dǎo)致個體間生理表型、患病風(fēng)險和藥物反應(yīng)等的差異單核苷酸多態(tài)性(single nucleotide polymorphisms, SNPs)不同個體DNA序列上的單個堿基的差異基因型一對同源染色體上的兩個等位的組合示例三種基因型:CC、CT和TT242、單核苷酸多態(tài)性數(shù)據(jù)庫(二)1、千人基因組計劃(1

14、000 Genome Project)2008年啟動旨在測定人類染色體上的SNP位點和其他結(jié)構(gòu)變異發(fā)布的項目數(shù)據(jù)存儲于NCBI和EBI的數(shù)據(jù)服務(wù)上,可FTP下載2、dbSNP(Single Nucleotide Polymorphism database)NCBI創(chuàng)建并維護創(chuàng)建于1998年包括大規(guī)模人類基因組計劃測得的SNP數(shù)據(jù)、不同物種在不同實驗條件下的基因變異信息數(shù)據(jù)獲取方式限定SNP所屬物種、所在染色體、所在染色體位置范圍、功能分類、標注信息,批量查詢通過關(guān)鍵詞或SNP唯一標識符查詢FTP下載Genomes Project, C., Abecasis, G.R., Auton, A.,

15、et al., An integrated map of genetic variation from 1,092 human genomes. Nature, 2012. 491(7422): p. 56-65.252、單核苷酸多態(tài)性數(shù)據(jù)庫(四)dbSNP提供SNP在基因上分布的可視化包括該SNP所參照的基因序列,所在基因序列的位置及其鄰近SNPs,所產(chǎn)生mRNA堿基變化和蛋白質(zhì)殘基變化提供從該SNP記錄到NCBI其它數(shù)據(jù)庫的鏈接Bhagwat, M., Searching NCBIs dbSNP database. Curr Protoc Bioinformatics, 2010. Cha

16、pter 1: p. Unit 1 19.Clinvar是NCBI在2013年4月正式啟動的數(shù)據(jù)庫,整合了基因變異與疾病表型信息273、基因表達數(shù)據(jù)庫(一)基因表達數(shù)據(jù)借助基因芯片(gene chip)技術(shù)也稱微陣列(microarray)技術(shù)近年常用的高通量檢測基因表達的生物技術(shù)反映生物個體在特定組織、器官、生理狀態(tài)或發(fā)育階段的分子水平差異為疾病標志物(marker)的發(fā)現(xiàn)、藥物靶標(drug target)的篩選、復(fù)雜疾病的病理研究等提供了全基因組水平視角推動了疾病的分子診斷、預(yù)后和個性化醫(yī)療Gohlmann, H. and Talloen, W., Gene Expression Stu

17、dies Using Affymetrix Microarray. 2009: CRC Press.283、基因表達數(shù)據(jù)庫(二)基因表達數(shù)據(jù)庫GEO(Gene Expression Omnibus)NCBI創(chuàng)建并維護創(chuàng)建于2000年數(shù)據(jù)組成:原始提交數(shù)據(jù)記錄基因表達數(shù)據(jù)測定平臺(platform)單個樣本的基因表達信息(sample)單次提交的全部樣本信息(serial)人工審編(curated)的數(shù)據(jù)記錄基因表達數(shù)據(jù)集(dataset)提供數(shù)據(jù)集的基因表達譜二維聚類分析、單基因表達譜的可視化展示等功能Barrett, T., Wilhite, S.E., Ledoux, P., et al.

18、, NCBI GEO: archive for functional genomics data sets-update. Nucleic Acids Res, 2013. 41(Database issue): p. D991-995.293、基因表達數(shù)據(jù)庫(三)數(shù)據(jù)獲取方式:利用關(guān)鍵詞或以GDS、GSE、GSM、GPL等標識符直接檢索利用GEO DataSets和GEO Profiles檢索服務(wù)利用BLAST序列比對,查詢序列對應(yīng)的基因表達圖譜利用GEO瀏覽器,瀏覽、訪問、批量導(dǎo)出程序批量下載FTP批量下載304、蛋白質(zhì)數(shù)據(jù)庫后基因組時代,開始以蛋白質(zhì)組(proteome)為研究對象隨著高

19、通量蛋白質(zhì)質(zhì)譜技術(shù)的發(fā)展從蛋白質(zhì)序列、結(jié)構(gòu)、功能、蛋白質(zhì)相互作用等方面關(guān)注蛋白質(zhì)在生物體的生長發(fā)育和新陳代謝中的作用蛋白質(zhì)數(shù)據(jù)庫包括:蛋白質(zhì)序列數(shù)據(jù)庫蛋白質(zhì)家族數(shù)據(jù)庫蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫蛋白質(zhì)相互作用數(shù)據(jù)庫整合式蛋白質(zhì)數(shù)據(jù)庫 常用蛋白質(zhì)數(shù)據(jù)庫UniProtPDBAltelaar, A.F., Munoz, J., and Heck, A.J., Next-generation proteomics: towards an integrative view of proteome dynamics. Nat Rev Genet, 2013. 14(1): p. 35-48.31UniProt(Uni

20、versal Protein Resource)整合式蛋白質(zhì)序列知識庫國際UniProt聯(lián)盟(UniProt Consortium)創(chuàng)建并維護聯(lián)盟包括EBI、SIB(瑞士生物信息學(xué)研究所)、PIR(蛋白質(zhì)信息資源數(shù)據(jù)庫)創(chuàng)建于2002年數(shù)據(jù)組成:蛋白質(zhì)知識庫UniProKB蛋白質(zhì)的氨基酸序列信息蛋白質(zhì)所屬物種蛋白質(zhì)名字和基因名字蛋白質(zhì)功能描述蛋白質(zhì)分類生物本體標注與其它數(shù)據(jù)庫的交叉鏈接蛋白質(zhì)參照序列簇UniRef對蛋白質(zhì)氨基酸序列在不同壓縮算法下的聚類簇宏觀基因組和特定環(huán)境下蛋白質(zhì)序列UniMES蛋白質(zhì)集中倉儲UniParcUniProt, C., Activities at the Univ

21、ersal Protein Resource (UniProt). Nucleic Acids Res, 2014. 42(Database issue): p. D191-198.32UniProt(二)數(shù)據(jù)每4周更新一次數(shù)據(jù)獲取方式:通過查詢詞在特定的數(shù)據(jù)庫(如:UniProtKB,UniRef)檢索通過一組UniProt的標識符,批量檢索蛋白質(zhì)信息檢索返回結(jié)果支持多種格式下載(如,XML、RDF、TXT等)BLAST序列比對檢索蛋白質(zhì)信息程序批量下載FTP批量下載33PDB( Protein Data Bank )存儲生物大分子三維結(jié)構(gòu)的數(shù)據(jù)庫1971年創(chuàng)建,由美國Brookhaven國

22、家實驗室(Brookhaven National Laboratory)負責(zé)運維1998年,美國結(jié)構(gòu)生物信息合作研究組織RCSB (Research Collaboratory for Structural Bioinformatics)成立,負責(zé)PDB的開發(fā)和管理2003年,wwPDB( Worldwide Protein Data Bank )成立,負責(zé)運維成員組織:美國的RCSB PDB、歐洲的PDBe、日本的PDBj、美國的BMRB成員之間同步更新、共享數(shù)據(jù)Berman, H., Henrick, K., and Nakamura, H., Announcing the worldwi

23、de Protein Data Bank. Nat Struct Biol, 2003. 10(12): p. 980.PDB數(shù)據(jù)每周更新一次Berman, H.M., Kleywegt, G.J., Nakamura, H., et al., The Protein Data Bank at 40: reflecting on the past to prepare for the future. Structure, 2012. 20(3): p. 391-396.34PDB(二)PDB數(shù)據(jù)記錄包括:生物大分子所屬物種、名稱、測量結(jié)構(gòu)的實驗手段、原子坐標、分辨率、結(jié)構(gòu)因子、溫度系數(shù)、蛋白質(zhì)

24、主鏈數(shù)目、配體分子式、金屬離子、二級結(jié)構(gòu)等信息數(shù)據(jù)免費對外開放35PDB(三)wwPDB的成員機構(gòu)分別開發(fā)蛋白質(zhì)三維結(jié)構(gòu)信息檢索、分析和可視化工具以RCSB PDB為例,提供的數(shù)據(jù)服務(wù):通過關(guān)鍵字、或PDB唯一標識符查詢通過序列比對查詢通過配體(ligand)化學(xué)名或化學(xué)式查詢限定查詢蛋白質(zhì)的物種、獲取蛋白質(zhì)結(jié)構(gòu)的實驗手段、蛋白質(zhì)結(jié)構(gòu)分類SCOP(Structure Classification of Protein)等篩選和過濾Andreeva, A., Howorth, D., Chandonia, J.M., et al., Data growth and its impact on t

25、he SCOP database: new developments. Nucleic Acids Res, 2008. 36(Database issue): p. D419-425.通過蛋白質(zhì)的標注信息分類瀏覽Ashburner, M., Ball, C.A., Blake, J.A., et al., Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet, 2000. 25(1): p. 25-29.Sillitoe, I., Cuff, A.L., Dess

26、ailly, B.H., et al., New functional families (FunFams) in CATH to improve the mapping of conserved functional sites to 3D structures. Nuclec Acids Res, 2013. 41(Database issue): p. D490-498.比較分析蛋白質(zhì)的三維結(jié)構(gòu)通過一組PDB數(shù)據(jù)庫標識符批量下載追蹤研究人員在結(jié)構(gòu)生物學(xué)方面的研究成果提供移動客戶端Rose, P.W., Bi, C., Bluhm, W.F., et al., The RCSB Prote

27、in Data Bank: new resources for research and education. Nucleic Acids Res, 2013. 41(Database issue): p. D475-482.36PDB(四)追蹤研究人員發(fā)現(xiàn)的蛋白質(zhì)在移動通訊設(shè)備中展示蛋白質(zhì)結(jié)構(gòu)375、生物分子網(wǎng)絡(luò)數(shù)據(jù)庫生物分子網(wǎng)絡(luò)數(shù)據(jù)分子生物學(xué)實驗方法和測定技術(shù)的快速發(fā)展可獲取樣本(疾病/健康)的全基因組(genome-wide)和全蛋白質(zhì)組(proteome-wide)的分子間關(guān)系數(shù)據(jù)形成生物分子網(wǎng)絡(luò)如信號傳導(dǎo)網(wǎng)絡(luò)、轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)、代謝網(wǎng)絡(luò)、蛋白質(zhì)相互作用網(wǎng)絡(luò)等可從系統(tǒng)角度揭示疾病的產(chǎn)生和發(fā)

28、展規(guī)律常用生物分子網(wǎng)絡(luò)數(shù)據(jù)庫Pathway Commons KEGG38Pathway Commons(一)整合式生物分子網(wǎng)絡(luò)/通路數(shù)據(jù)庫美國Memorial Sloan Kettering 癌癥研究中心(MSKCC,Memorial Sloan-Kettering Cancer Center)和加拿大的多倫多大學(xué)的研究人員共同創(chuàng)建和維護整合了6個生物分子網(wǎng)絡(luò)數(shù)據(jù)資源數(shù)據(jù)資源名稱數(shù)據(jù)規(guī)模資源網(wǎng)站Reactome1 1407 pathways;5350 interactions;24758 entities/ PID22074 pathways;28596 interactions;26201

29、entities/ PhosphoSitePlus 322939 interactions;12890 entities HumanCyc4244 pathways;5508 interactions;4633 entities/ HPRD 540618 interactions;9871 entities/ PANTHER6297 pathways;5299 interactions;8640 entities/ Cerami, E.G., Gross, B.E., Demir, E., et al., Pathway Commons, a web resource for biologic

30、al pathway data. Nucleic Acids Res, 2011. 39(Database issue): p. D685-690.39Pathway Commons(二)數(shù)據(jù)服務(wù):通過關(guān)鍵詞查詢生物分子網(wǎng)絡(luò)實現(xiàn)對生物分子網(wǎng)絡(luò)的可視化,展示生物分子的基本信息和分子間相互作用類型將從不同資源收集的生物分子網(wǎng)絡(luò)數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一格式BioPax ( Biological Pathway Exchange)和SIF(Simple Interaction Format)40KEGG(一)KEGG(Kyoto Encyclopedia of Gene and Genomes)由日本京都大學(xué)的

31、生物信息學(xué)中心(Bioinformatics Center, Kyoto University)和東京大學(xué)的人類基因組中心(Human Genome Center, University of Tokyo)共同創(chuàng)建和維護創(chuàng)建于1995年整合了基因組、化學(xué)和系統(tǒng)功能信息的數(shù)據(jù)庫收錄并手工審編了細胞內(nèi)的代謝通路和信號傳導(dǎo)通路,化學(xué)分子和酶分子所參與的催化反應(yīng),疾病/藥物相關(guān)的通路等數(shù)據(jù)每周更新一次Kanehisa, M., Goto, S., Sato, Y., et al., Data, information, knowledge and principle: back to metaboli

32、sm in KEGG. Nucleic Acids Res, 2014. 42(Database issue): p. D199-205.41KEGG(二)KEGG19個子數(shù)據(jù)庫資源概況(一)KEGG 子數(shù)據(jù)庫名稱數(shù)據(jù)規(guī)模收錄數(shù)據(jù)簡要描述PATHWAY338,799人工繪制的通路,用可視化的手段展示代謝過程、膜轉(zhuǎn)運、遺傳信號傳遞中生物分子之間的相互作用和反應(yīng)。BRITE119,158用于描述生物體功能的層級結(jié)構(gòu)本體。MODULES273,753人工定義的功能單元,包括:通路單元(pathway module),結(jié)構(gòu)復(fù)合體(structural complexes),功能集(functional

33、 set),特征單元(signature module)。DISEASE1,402記錄疾病的遺傳因素、環(huán)境因素、疾病診斷標志物和治療疾病的藥物等信息,疾病相關(guān)通路。DRUG10,118記錄在日本、美國、歐洲認證的藥品,及藥品的結(jié)構(gòu)、成分、靶標、代謝酶、分子相互作用等信息。ENIVRON849記錄在天然藥物、香油精等健康相關(guān)天然產(chǎn)物。ORTHOLOGY18,314蛋白質(zhì)和功能RNA同源(ortholog)組,是KEGG通路中生物實體最小單元(即,通路圖中的點)GEOME3,509基因組所屬物種GENES15,297,061從公開基因信息資源收集的全基因信息,其中一個主要信息源是NCBI RefS

34、eq數(shù)據(jù)庫。SSDB85,102,849,274基因相似序列對數(shù)據(jù)庫 (Sequence Similarity Database)。KEGG Database as of 2014/12/1242KEGG(三)KEGG19個子數(shù)據(jù)庫資源概況(二)KEGG 子數(shù)據(jù)庫名稱數(shù)據(jù)規(guī)模收錄數(shù)據(jù)簡要描述DGENES654,883自動標注的原始基因組(draft genome)DGROUP1,638藥物分類( Drug groups)MGENES131,900,984自動標注的元基因組(metagenomes)COMPOUND17,340化學(xué)小分子(chemical substances),生物聚合物(bi

35、opolymers)GLYCAN10,987多聚糖(glycan)REACTION9,775在代謝通上的生化反應(yīng)(reactions)RPAIR14,849基質(zhì)與產(chǎn)物的反應(yīng)對(reactant pairs)RCLASS2,945反應(yīng)類型 (reaction classifications)ENZYME6,415酶(enzyme)43KEGG(四)數(shù)據(jù)獲取方式:通過關(guān)鍵詞,在19個子數(shù)據(jù)庫中分別查詢在返回檢索結(jié)果中,三維呈現(xiàn)生物分子網(wǎng)絡(luò),提供單個通路KGML(KEGG Markup Language)格式數(shù)據(jù)下載通過程序,批量查詢和分析生物分子網(wǎng)絡(luò)數(shù)據(jù)通過訂閱,批量下載KEGG中的三維生物網(wǎng)絡(luò)4

36、4生物信息學(xué)資源的應(yīng)用生物信息學(xué)將越來越重要尤其在臨床環(huán)境下生物醫(yī)學(xué)諸多領(lǐng)域需要生物信息學(xué)資源和分析工具的支持建立基因/蛋白質(zhì)與疾病之間的關(guān)聯(lián)關(guān)系疾病的分子診斷個體化醫(yī)療 以阿爾茲海默癥(Alzheimers Disease)為例示例:疾病基因信息搜集基因、RNA和蛋白質(zhì)序列信息搜集蛋白質(zhì)結(jié)構(gòu)可視化生物分子網(wǎng)絡(luò)信息搜集45Virus Variation/genome/viruses/variation/ more than 260,000 individual sequences The resource is expanding and new viruses will be added i

37、n response to sequencing efforts and public health demand. 46Brister J.R., Bao Y., Zhdanov S.A., et al., Virus Variation Resource-recent updates and future directions. Nucleic Acids Res, 2014. 42(Database issue): D660-5.The NCBI handbook 2nd edition. /books/NBK143949/47484950疾病基因信息搜集(一)利用OMIM(Online

38、 Mendelian Inheritance in Man)關(guān)于人類基因和表現(xiàn)型的在線知識庫內(nèi)容源于Victor A. McKusick博士于1966年編寫發(fā)行發(fā)表的Mendelian Inheritance in Man一書基因的系統(tǒng)綜述在數(shù)據(jù)庫的編號以“*”開始表現(xiàn)型系統(tǒng)綜述的編號以“#”開始基因和表現(xiàn)型綜合描述的編號以“+”開始未知分子機制的表現(xiàn)型或者位點描述的編號以“%”開始Amberger, J., Bocchini, C.A., Scott, A.F., et al., McKusicks Online Mendelian Inheritance in Man (OMIM). Nu

39、cleic Acids Res, 2009. 37(Database issue): p. D793-796.51疾病基因信息搜集(二)1、查詢阿爾茲海默癥相關(guān)的基因輸入疾病名稱52疾病基因信息搜集(三)2、OMIM數(shù)據(jù)庫中關(guān)于阿爾茲海默癥的記錄(以“#”開始的表現(xiàn)型記錄)疾病相關(guān)基因列表疾病名稱的臨床編碼內(nèi)容導(dǎo)航涵蓋臨床特點、生化特點、病理、遺傳、診斷、分子遺傳學(xué)、人口遺傳學(xué)、動物模型等角度提供了疾病的標準分類編碼ICD(International Classification of Diseases)和SNOMED CT(Systematized Nomenclature of Medic

40、ine Clinical Terms)53基因、RNA和蛋白質(zhì)序列信息搜集(一)方法1:關(guān)鍵詞檢索核酸序列數(shù)據(jù)庫訪問NCBI的基因數(shù)據(jù)庫輸入基因名字并限定物種 “APP AND Homo sapiensporgn”查詢得到人類APP基因方法2:借助數(shù)據(jù)庫之間的互相鏈接,獲取基因序列信息在OMIM基因的頁面右側(cè),點擊Gene Info導(dǎo)航條,展開一組基因數(shù)據(jù)庫選擇其中的NCBI Gene直接鏈接到人類APP基因頁面54基因、RNA和蛋白質(zhì)序列信息搜集(二)阿爾茲海默癥相關(guān)人類APP基因信息頁面(NCBI, Gene ID:351)基因基本信息包括名字、所屬物種、基因功能描述等內(nèi)容55基因、RNA

41、和蛋白質(zhì)序列信息搜集(三)通過與RefSeq數(shù)據(jù)庫的鏈接,提供了基因轉(zhuǎn)錄過程中mRNA的序列信息、蛋白質(zhì)產(chǎn)物的氨基酸序列信息RefSeq的mRNARefSeq蛋白質(zhì)56基因、RNA和蛋白質(zhì)序列信息搜集(四)通過與dbSNP數(shù)據(jù)庫的鏈接,提供了APP基因片段上的SNP信息、及其與臨床疾病之間的關(guān)系點擊臨床途徑(Clinical Channel)上的紫色小方框,查看與臨床相關(guān)的SNP信息點擊SNP的標識符(以rs開始的編碼),訪問該SNP在dbSNP數(shù)據(jù)庫中的詳細信息鏈接到dbSNP57蛋白質(zhì)結(jié)構(gòu)可視化(一)方法1:關(guān)鍵詞檢索蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫訪問RCSB PDB 蛋白質(zhì)數(shù)據(jù)庫輸入蛋白質(zhì)的名字“Am

42、yloid beta A4 protein”并限定物種為人類“Homo sapiens”查詢返回與此蛋白質(zhì)相關(guān)的結(jié)構(gòu)信息方法2:借助數(shù)據(jù)庫之間的互相鏈接,獲取蛋白質(zhì)結(jié)構(gòu)信息在OMIM基因的頁面右側(cè),點擊Protein導(dǎo)航條選擇其中的UniProt數(shù)據(jù)庫直接鏈接到人類APP基因的蛋白質(zhì)產(chǎn)物頁面58蛋白質(zhì)結(jié)構(gòu)可視化(二)阿爾茲海默癥相關(guān)人類蛋白質(zhì)Amyloid beta A4 protein(UniProtKB AC:P05067)蛋白質(zhì)信息狀態(tài)功能描述不同格式蛋白質(zhì)數(shù)據(jù)的展現(xiàn)59蛋白質(zhì)結(jié)構(gòu)可視化(三)可通過UniProt與PDB數(shù)據(jù)庫的鏈接,獲取蛋白質(zhì)的三維結(jié)構(gòu)信息鏈接到蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫60蛋白質(zhì)結(jié)構(gòu)可視化(四)RCSB PDB數(shù)據(jù)庫中通過X射線衍射技術(shù)測得人類蛋白質(zhì)Amyloid beta A4 protein

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論