




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、常用數(shù)據(jù)庫簡介常用數(shù)據(jù)庫簡介數(shù)據(jù)庫(數(shù)據(jù)庫(Database) 用于收集、整理、儲(chǔ)存、加工、發(fā)布和檢索數(shù)據(jù)的用于收集、整理、儲(chǔ)存、加工、發(fā)布和檢索數(shù)據(jù)的系統(tǒng)。系統(tǒng)。u 生物類的數(shù)據(jù)庫種類很多生物類的數(shù)據(jù)庫種類很多u 投稿文章首先要將核苷酸序列或蛋白質(zhì)序列提交到投稿文章首先要將核苷酸序列或蛋白質(zhì)序列提交到相應(yīng)的數(shù)據(jù)庫中相應(yīng)的數(shù)據(jù)庫中u 數(shù)據(jù)庫記錄通常包括兩部分?jǐn)?shù)據(jù)庫記錄通常包括兩部分v 原始數(shù)據(jù)原始數(shù)據(jù)v 對(duì)這些數(shù)據(jù)進(jìn)行的生物學(xué)意義的注釋對(duì)這些數(shù)據(jù)進(jìn)行的生物學(xué)意義的注釋u 一個(gè)數(shù)據(jù)庫通常鏈接了多個(gè)相關(guān)數(shù)據(jù)庫一個(gè)數(shù)據(jù)庫通常鏈接了多個(gè)相關(guān)數(shù)據(jù)庫 核苷酸數(shù)據(jù)庫水稻抗病相關(guān)基因核苷酸數(shù)據(jù)庫水稻抗病相關(guān)基
2、因OsDR8 DQ176424Taxonomy 數(shù)據(jù)庫數(shù)據(jù)庫Pubmed 數(shù)據(jù)庫數(shù)據(jù)庫NCBI-Protein 數(shù)據(jù)庫數(shù)據(jù)庫(一)數(shù)據(jù)庫工具(一)數(shù)據(jù)庫工具u 建立純文本數(shù)據(jù)庫建立純文本數(shù)據(jù)庫v GenBank 數(shù)據(jù)庫、數(shù)據(jù)庫、EMBL 核苷酸數(shù)據(jù)庫核苷酸數(shù)據(jù)庫 u MySQL 數(shù)據(jù)庫工具數(shù)據(jù)庫工具v SQL(結(jié)構(gòu)化查詢語言)是世界上流行的和(結(jié)構(gòu)化查詢語言)是世界上流行的和標(biāo)準(zhǔn)化的數(shù)據(jù)庫語言標(biāo)準(zhǔn)化的數(shù)據(jù)庫語言v 能夠快速靈活存儲(chǔ)記錄文件和圖像能夠快速靈活存儲(chǔ)記錄文件和圖像v 下載網(wǎng)址下載網(wǎng)址 http:/ AceDB 數(shù)據(jù)庫工具數(shù)據(jù)庫工具v AceDB:A C. elegans DataBa
3、se(線蟲(線蟲數(shù)據(jù)庫)數(shù)據(jù)庫)v 被廣泛應(yīng)用的管理和提供基因組數(shù)據(jù)被廣泛應(yīng)用的管理和提供基因組數(shù)據(jù)的工具的工具v 數(shù)據(jù)形式豐富數(shù)據(jù)形式豐富 遺傳圖譜遺傳圖譜 物理圖譜物理圖譜 新陳代謝途徑新陳代謝途徑 序列等序列等G1810.420.84RM2240.21R15060.21Xa26S128861.470.000.63 L1044NBS119RM144Y6855RA0.00111 gggctccacc actagtaccc ctcactacag gtagccataa aaaaaatcga tcaccaaaac 61 ccattattag gttgtgtact gatacagaaa gttggg
4、aacc aatctcccag cacagaaaac 121 ggtacggttc attagcgcgt gattaattaa atatttacta ttttttaaaa aaaatagatc 181 aatatgattt ttaagcaact ttcgtataaa tactttttca aaaaaacaca ccgttttcta 241 gtttgaaaag cgtacacgcg tgaaatgagg gagaaaggtt ggaaacgtgg gattgcaaac (二)各種生物數(shù)據(jù)庫(二)各種生物數(shù)據(jù)庫1、核苷酸數(shù)據(jù)庫、核苷酸數(shù)據(jù)庫u DNA、mRNA、tRNA、rRNA序列序列u RN
5、A序列以序列以cDNA序列的形式收集序列的形式收集u 核苷酸序列直接來源于實(shí)驗(yàn)數(shù)據(jù)核苷酸序列直接來源于實(shí)驗(yàn)數(shù)據(jù)u 大量氨基酸序列大量氨基酸序列v 主要是非實(shí)驗(yàn)來源數(shù)據(jù)主要是非實(shí)驗(yàn)來源數(shù)據(jù)v coding sequence (CDS)u 數(shù)據(jù)庫種類很多數(shù)據(jù)庫種類很多v GenBank、EMBL核苷酸數(shù)據(jù)庫、核苷酸數(shù)據(jù)庫、DDBJ v 信息資源共享:以天為基礎(chǔ)進(jìn)行數(shù)據(jù)庫之間的序列數(shù)信息資源共享:以天為基礎(chǔ)進(jìn)行數(shù)據(jù)庫之間的序列數(shù)據(jù)交換據(jù)交換v 收集了專利的核苷酸序列收集了專利的核苷酸序列 United States Patent and Trademark Office (USPTO) Europe
6、an Patent Office (EPO) Japan Patent Office (JPO)u 三大核苷酸數(shù)據(jù)庫三大核苷酸數(shù)據(jù)庫u 國際核苷酸序列數(shù)據(jù)庫合作協(xié)議國際核苷酸序列數(shù)據(jù)庫合作協(xié)議(International Nucleotide Sequence Database Collaboration)收集的核苷酸來源收集的核苷酸來源(1)GenBank /genbank/u 美國美國NCBI的數(shù)據(jù)庫,有部分蛋白質(zhì)序列的數(shù)據(jù)庫,有部分蛋白質(zhì)序列u 數(shù)據(jù)每天更新,每年發(fā)行(數(shù)據(jù)每天更新,每年發(fā)行(release)六版)六版u Release
7、 185(2011.8.15)v 142284608 sequencesv 130671233801 basesv 142284608 loci 下載全部序列大概需要下載全部序列大概需要511 GBu 來源于來源于500,000多個(gè)物種多個(gè)物種u 大約大約12.2來源于來源于Homo sapiens在在GenBank數(shù)據(jù)庫中序列最多的數(shù)據(jù)庫中序列最多的20個(gè)物種個(gè)物種Growth of GenBank (1982-2009)Base pairs/1,000,000,000Entries/1,000,000v Locus name(位點(diǎn)名)(位點(diǎn)名)v Accession number (注冊(cè)號(hào)
8、或登陸號(hào))(注冊(cè)號(hào)或登陸號(hào))v GI(GenInfo identifier)NID(Nucleotide ID)u 每個(gè)序列有一個(gè)每個(gè)序列有一個(gè)flatfileu 每條序列有三個(gè)專有的編號(hào)或標(biāo)識(shí)(每條序列有三個(gè)專有的編號(hào)或標(biāo)識(shí)(identifier)u LOCUS line分支縮寫分支縮寫分支全稱分支全稱 PRI靈長類序列靈長類序列 (primate sequences)ROD嚙齒類序列嚙齒類序列 (rodent sequences)MAM其它哺乳類序列其它哺乳類序列 (other mammalian sequences)VRT其它脊椎動(dòng)物序列其它脊椎動(dòng)物序列 (other vertebrat
9、e sequences)INV無脊椎動(dòng)物序列無脊椎動(dòng)物序列 (invertebrate sequences)PLN植物、真菌和海藻類序列植物、真菌和海藻類序列 (plant, fungal, and algal sequences)BCT細(xì)菌序列細(xì)菌序列 (bacterial sequences)VRL病毒序列病毒序列 (viral sequences)PHG噬菌體序列噬菌體序列 (bacteriophage sequences)The divisions(分支)(分支)of GenBank分支縮寫分支縮寫分支全稱分支全稱SYN合成序列合成序列 (synthetic sequences)UNA
10、未注釋的序列未注釋的序列 (unannotated sequences)EST表達(dá)序列標(biāo)簽表達(dá)序列標(biāo)簽 (expressed sequence tags)PAT已專利的序列已專利的序列 (patent sequences)STS序列標(biāo)簽位點(diǎn)序列標(biāo)簽位點(diǎn) (sequence tagged sites)GSS基因組序列基因組序列 (genome survey sequences)HTG高通量基因組序列高通量基因組序列 (high throughput genomic sequences)HTC高通量高通量cDNA序列序列 (high throughput cDNA sequences)The di
11、visions(分支)(分支)of GenBank(2)dbEST (Database of Expressed Sequence Tags) /dbEST/index.htmlu GenBank的二級(jí)數(shù)據(jù)庫的二級(jí)數(shù)據(jù)庫uEST cDNA 序列的一個(gè)片斷(序列的一個(gè)片斷(5端、端、3端、端、CDS)u 300400 bpSingle-pass sequenceu GenBank 中中64以上的序列是以上的序列是 EST(3)UniGene 數(shù)據(jù)庫數(shù)據(jù)庫 /UniGene/u NCBI 的另一
12、個(gè)核苷酸數(shù)據(jù)庫的另一個(gè)核苷酸數(shù)據(jù)庫u 來源于同一基因的非重復(fù)來源于同一基因的非重復(fù) EST 組成基因序列群組成基因序列群v 人、大鼠、小鼠、斑馬魚、牛、蛙等人、大鼠、小鼠、斑馬魚、牛、蛙等v 擬南芥、水稻、小麥、大麥、玉米等擬南芥、水稻、小麥、大麥、玉米等v 共計(jì)共計(jì)97個(gè)物種個(gè)物種u UniGene主頁輸入關(guān)鍵詞主頁輸入關(guān)鍵詞檢索檢索(4)dbSTS (Database of Sequence Tagged Sites) /dbSTS/index.htmlu GenBank的二級(jí)數(shù)據(jù)庫的二級(jí)數(shù)據(jù)庫u 短序列(短序列(200-500 bp)u
13、 已定位于染色體上的、序列已知的單拷貝已定位于染色體上的、序列已知的單拷貝DNA短片段短片段u 檢索:檢索:GenBank主頁主頁選擇選擇UniSTS后輸入關(guān)鍵詞后輸入關(guān)鍵詞檢索到的條目檢索到的條目每一條目詳細(xì)內(nèi)容每一條目詳細(xì)內(nèi)容點(diǎn)擊點(diǎn)擊“mv”查看染色體定位查看染色體定位(5)dbGSS (Database of Genome Survey Sequences) /dbGSS/index.htmlcosmid / BAC / YACG1810.420.84RM2240.21R15060.21Xa26S128861.470.000.63 L1
14、044NBS119RM144Y6855RA0.0011 The GSS division of GenBank is similar to the EST division, with the exception that most of the sequences are genomic in origin, rather than cDNA (mRNA).Genome Survey Sequences are typically generated and submitted to NCBI by labs performing genome sequencing and are used
15、, amongst other things, as a framework for the mapping and sequencing of genome size pieces included in the standard GenBank divisions.u GenBank的二級(jí)數(shù)據(jù)庫的二級(jí)數(shù)據(jù)庫The GSS division contains (but is not limited to) the following types of data: random single pass read genome survey sequences. cosmid/BAC/YAC e
16、nd sequences exon trapped genomic sequences Alu PCR sequences transposon-tagged sequences (6)HTG (High-Throughput Genomic Sequences) /HTGS/u GenBank 的二級(jí)數(shù)據(jù)庫的二級(jí)數(shù)據(jù)庫u 尚未完成測(cè)序的重疊群(尚未完成測(cè)序的重疊群( 2 kb)的序列)的序列u 新序列的增加速度很快新序列的增加速度很快cosmid / BAC / YACA typical HTG record might consist o
17、f all the first pass sequence data generated from a single cosmid, BAC, YAC, or P1 clone which together make up more than 2 kb and contain one or more gaps.abcabcdPhase 0Phase 1Phase 2Phase 3未知序列未知序列ecosmid / BAC / YAC(7)基因組數(shù)據(jù)庫)基因組數(shù)據(jù)庫 /entrez/query.fcgi?db=Genomeu NCBI 的另一個(gè)
18、數(shù)據(jù)庫的另一個(gè)數(shù)據(jù)庫u 測(cè)序完成和正在測(cè)序物種基因組序列、遺傳圖、物理圖測(cè)序完成和正在測(cè)序物種基因組序列、遺傳圖、物理圖等等u 序列收集在序列收集在GenBanku 數(shù)據(jù)形式豐富數(shù)據(jù)形式豐富u 已經(jīng)完成測(cè)序的基因組已經(jīng)完成測(cè)序的基因組Taxonomic coverage(8)dbSNP (Database of Single Nucleotide Polymorphisms) /SNP/u NCBI的數(shù)據(jù)庫,創(chuàng)建于的數(shù)據(jù)庫,創(chuàng)建于1998.9u 約每約每100300 bp 有一個(gè)有一個(gè)SNPu 數(shù)據(jù)種類數(shù)據(jù)種類Single nucleotid
19、e polymorphism(SNP)Short deletion-Insertion polymorphismInsertion/deletion (Indel)Deletion/insertion/substitution (DIS)u dbSNP主頁輸入關(guān)鍵詞主頁輸入關(guān)鍵詞檢索到的條目檢索到的條目每一條目詳細(xì)內(nèi)容每一條目詳細(xì)內(nèi)容代碼代碼堿基堿基互補(bǔ)代碼互補(bǔ)代碼MA或或CKRA或或GYWA或或TWSC或或GSYC或或TRKG或或TMVA、C或或GBHA、C或或TDDA、G或或THBC、G或或TVNG、A、T或或CN標(biāo)準(zhǔn)堿基多意代碼標(biāo)準(zhǔn)堿基多意代碼tyrosine kinase酪氨酸激酶(9
20、)EMBL (European Molecular Biology Laboratory) Nucleotide Sequence Databasev EBI (European Bioinformatics Institute) 管理管理v 主要是歐洲國家產(chǎn)生的主要是歐洲國家產(chǎn)生的 DNA 和和 RNA 序列序列v 序列數(shù)據(jù)序列數(shù)據(jù)文檔文檔格式與格式與 GenBank 不同不同數(shù)據(jù)庫主頁數(shù)據(jù)庫主頁http:/www.ebi.ac.uk/embl/Access/index.html輸入關(guān)鍵輸入關(guān)鍵詞詞檢索到的檢索到的條目條目每一條目每一條目詳細(xì)內(nèi)容詳細(xì)內(nèi)容(10)DDBJ (DNA Data
21、Bank of Japan)u 主要是日本產(chǎn)生的主要是日本產(chǎn)生的 DNA 和和 RNA 序列序列數(shù)據(jù)庫主頁數(shù)據(jù)庫主頁http:/www.ddbj.nig.ac.jp/Welcome-e.html輸入關(guān)鍵詞輸入關(guān)鍵詞檢索到的檢索到的條目條目每一條目每一條目詳細(xì)內(nèi)容詳細(xì)內(nèi)容u 發(fā)表文章要提供發(fā)表文章要提供 Accession number(11)EPD (Eukaryotic Promoter Database) http:/www.genome.ad.jp/dbget/dbget2.htmlu 由由Weizmann Institute of Science in Rehovot (Israel)
22、 開創(chuàng)開創(chuàng)u 4806條真核生物啟動(dòng)子序列(條真核生物啟動(dòng)子序列(2010.11,release 105)u 人類基因組中的啟動(dòng)子大約人類基因組中的啟動(dòng)子大約19萬個(gè)萬個(gè)u 同一個(gè)基因具有多個(gè)啟動(dòng)子同一個(gè)基因具有多個(gè)啟動(dòng)子2、蛋白質(zhì)數(shù)據(jù)庫、蛋白質(zhì)數(shù)據(jù)庫(1)SWISS-PROTu 由由 EBI 和瑞士創(chuàng)辦和瑞士創(chuàng)辦u 有詳細(xì)注釋的序列,數(shù)據(jù)來源于實(shí)驗(yàn)有詳細(xì)注釋的序列,數(shù)據(jù)來源于實(shí)驗(yàn)u 與與44個(gè)數(shù)據(jù)庫相互參照(個(gè)數(shù)據(jù)庫相互參照(cross-reference)數(shù)據(jù)庫主頁數(shù)據(jù)庫主頁http:/www.ebi.ac.uk/swissprot/點(diǎn)擊點(diǎn)擊Access在在Database Access網(wǎng)
23、頁網(wǎng)頁選擇數(shù)據(jù)庫選擇數(shù)據(jù)庫、輸入關(guān)鍵詞、輸入關(guān)鍵詞檢索到的檢索到的條目條目(2)TrEMBL (Translation of EMBL) http:/www.ebi.ac.uk/swissprot/ u EBI 的數(shù)據(jù)庫的數(shù)據(jù)庫u 提交到提交到 EMBL 核苷酸數(shù)據(jù)庫中所有核苷酸數(shù)據(jù)庫中所有CDS 的氨基的氨基酸序列酸序列u UniProt (Universal Protein Resource)v 合并了合并了SWISS-PROT 和和 TrEMBL數(shù)據(jù)庫數(shù)據(jù)庫v 檢索方法與檢索檢索方法與檢索SWISS-PROT相同相同v 數(shù)據(jù)格式數(shù)據(jù)格式(3)PIR (Protein Informatio
24、n Resource) u 由由National Biomedical Research Foundation 創(chuàng)辦創(chuàng)辦u 可將蛋白質(zhì)序列分類可將蛋白質(zhì)序列分類u 結(jié)構(gòu)域結(jié)構(gòu)域(4)PRF (Protein Research Foundation) http:/www.prf.or.jp/u 由日本的由日本的 Protein Research Foundation 創(chuàng)辦創(chuàng)辦u 已發(fā)表在雜志上的蛋白質(zhì)序列已發(fā)表在雜志上的蛋白質(zhì)序列u 修飾位點(diǎn)、修飾位點(diǎn)、SS鍵等鍵等u 兩月更新一次兩月更新一次(5)PDBSTR (Re-Organized Prot
25、ein Data Bank)http:/www.genome.ad.jpu 蛋白質(zhì)序列和二級(jí)結(jié)構(gòu)蛋白質(zhì)序列和二級(jí)結(jié)構(gòu)u 螺旋結(jié)構(gòu)螺旋結(jié)構(gòu)(6)Prosite /prositeu 蛋白質(zhì)家族蛋白質(zhì)家族u 結(jié)構(gòu)域結(jié)構(gòu)域3、結(jié)構(gòu)數(shù)據(jù)庫、結(jié)構(gòu)數(shù)據(jù)庫(1)PDB (Protein Data Bank) u 由由 Brookhaven National Laboratories 創(chuàng)辦創(chuàng)辦v 蛋白質(zhì)蛋白質(zhì)v 核酸(核酸(DNA、RNA)v 其它(蛋白其它(蛋白-核酸復(fù)合物)核酸復(fù)合物)u 71516 個(gè)結(jié)構(gòu)圖(個(gè)結(jié)構(gòu)圖(2011.3
26、.1)u 可通過可通過 BLAST 系統(tǒng)檢索系統(tǒng)檢索u X 射線衍射圖、射線衍射圖、 核磁共振(核磁共振(NMR) 光譜圖和電鏡光譜圖和電鏡圖(圖(文字文字和和三維三維結(jié)構(gòu)結(jié)構(gòu)圖圖)TotalYearlyPDB Content Growth(2)NDB(Nucleic Acid Database) / 核酸的結(jié)構(gòu)核酸的結(jié)構(gòu)(3)DNA-Binding Protein Database /DNA 結(jié)合蛋白質(zhì)的結(jié)合蛋白質(zhì)的 X 射線衍射結(jié)構(gòu)圖射線衍射結(jié)構(gòu)圖(4)SWISS-3D IMAGE
27、http:/www.expasy.ch/sw3d/蛋白質(zhì)的平面和立體圖蛋白質(zhì)的平面和立體圖u 來源于實(shí)驗(yàn)結(jié)果來源于實(shí)驗(yàn)結(jié)果u 理論模型理論模型4、酶和代謝數(shù)據(jù)庫、酶和代謝數(shù)據(jù)庫(1)KEGG (Kyoto Encyclopedia of Genes and Genomes)u 各種代謝、遺傳等路徑圖各種代謝、遺傳等路徑圖u 可檢索參于各種路徑的基因可檢索參于各種路徑的基因KEGG主頁主頁http:/www.genome.ad.jp/kegg/點(diǎn)點(diǎn)擊擊“PATHWAY”“PATHWAY”網(wǎng)頁點(diǎn)擊任何代謝路徑,如糖酵解網(wǎng)頁點(diǎn)擊任何代謝路徑,如糖酵解/糖原糖原異生途徑(異生途徑(Glycolysis
28、/Gluconeogenesis)u 檢索檢索Genetic Information ProcessingKEGG主頁點(diǎn)擊主頁點(diǎn)擊“PATHWAY”“PATHWAY”網(wǎng)頁點(diǎn)擊任何遺傳信息路徑,如網(wǎng)頁點(diǎn)擊任何遺傳信息路徑,如 Protein export 路徑路徑可以查看參加這一路徑蛋白質(zhì)的信息可以查看參加這一路徑蛋白質(zhì)的信息u 檢索檢索Environmental Information ProcessingKEGG主頁點(diǎn)擊主頁點(diǎn)擊“PATHWAY”“PATHWAY”網(wǎng)頁點(diǎn)擊任何網(wǎng)頁點(diǎn)擊任何Environmental Information Processing 路徑,如路徑,如 MAPK si
29、gnaling pathway 路徑路徑可以查看與這一路徑相連的可以查看與這一路徑相連的其它信號(hào)路徑其它信號(hào)路徑或參加這一路徑的或參加這一路徑的蛋白質(zhì)信息蛋白質(zhì)信息u 檢索檢索Celluar ProcessesKEGG主頁點(diǎn)擊主頁點(diǎn)擊“PATHWAY”“PATHWAY”網(wǎng)頁點(diǎn)擊任何網(wǎng)頁點(diǎn)擊任何Cellular Processes 路路徑,如徑,如 Cell cycle 路徑路徑可以查看與這一路徑相連的其它信號(hào)路徑可以查看與這一路徑相連的其它信號(hào)路徑或參加這一路徑的蛋白質(zhì)信息或參加這一路徑的蛋白質(zhì)信息(2)PKR (Protein Kinase Resource) http:/www.kinas
30、/pkr/Welcome.do多種檢索內(nèi)容多種檢索內(nèi)容u 已知蛋白激酶的序列比較已知蛋白激酶的序列比較u 蛋白激酶分類蛋白激酶分類u 蛋白激酶的三維結(jié)構(gòu)蛋白激酶的三維結(jié)構(gòu)u 與疾病相關(guān)的蛋白激酶與疾病相關(guān)的蛋白激酶u 其它內(nèi)容其它內(nèi)容5、物種分類數(shù)據(jù)庫、物種分類數(shù)據(jù)庫u 物種分類物種分類界(界(Kingdom) 門(門(Phylum)綱(綱(Class) 目(目(Order) 科(科(Family) 屬(屬(Genus) 種(種(Species) 每一分類等級(jí)下可加設(shè)亞級(jí)(每一分類等級(jí)下可加設(shè)亞級(jí)(Sub-),如亞門、亞綱、),如亞門、亞綱、亞科等。亞科等。 每一分類等級(jí)上可加
31、設(shè)總級(jí)(每一分類等級(jí)上可加設(shè)總級(jí)(Super-),如總綱、總目),如總綱、總目、總科等。、總科等。動(dòng)物界(動(dòng)物界(Animal)脊索動(dòng)物門(脊索動(dòng)物門(Chordata) 脊椎動(dòng)物亞門(脊椎動(dòng)物亞門(Vertebrata)哺乳綱(哺乳綱(Mammalia)嚙齒目(嚙齒目(Rodentia) 鼠科(鼠科(Muridae) 小家鼠屬(小家鼠屬(Mus)小家鼠種(小家鼠種(musculus) 舉例:舉例:Mouse:Mus musculusHuman:Homo sapiensArabidopsis:Arabidopsis thaliana Poplars: Populus trichocarpa (
32、JGI)Pine(火炬忪火炬忪): Pinus taeda The Pine Genome Initiative(/)Eucalyptus(桉樹桉樹): Eucalyptus globulus (blue gum)The International Eucalyptus Genome Network (http:/www.fabinet.up.ac.za/eucagen)幾個(gè)林木基因組幾個(gè)林木基因組Papaya(番木瓜番木瓜) :Carica papaya /papaya/Tax
33、onomy /Taxonomy/taxonomyhome.htmlu 擬南芥擬南芥系譜(系譜(lineage)u 各個(gè)物種的系譜樹各個(gè)物種的系譜樹在在NCBI Entrez Taxonomy Homepage網(wǎng)頁點(diǎn)網(wǎng)頁點(diǎn)擊擊“tree”在在“tree”網(wǎng)頁點(diǎn)擊任一物種名,如網(wǎng)頁點(diǎn)擊任一物種名,如“Eukaryota”真核生物的真核生物的系譜樹系譜樹6、文獻(xiàn)數(shù)據(jù)庫、文獻(xiàn)數(shù)據(jù)庫u 各種雜志、書刊上發(fā)表的文章各種雜志、書刊上發(fā)表的文章u 大多數(shù)有摘要大多數(shù)有摘要(1)PubMed /PubMed/
34、u 美國國家醫(yī)學(xué)圖書館的數(shù)據(jù)庫美國國家醫(yī)學(xué)圖書館的數(shù)據(jù)庫u 醫(yī)學(xué)醫(yī)學(xué)u 分子生物學(xué)分子生物學(xué)u 基礎(chǔ)生物學(xué)基礎(chǔ)生物學(xué)u 4800 多種刊物,來源于多種刊物,來源于70多個(gè)國家多個(gè)國家u 刊物年限:刊物年限:60年代中期至今年代中期至今(2)OMIM (Online Mendelian Inheritance in Man)u NCBI 的數(shù)據(jù)庫的數(shù)據(jù)庫u 人類基因人類基因u 遺傳疾病遺傳疾病u 每天更新數(shù)據(jù)每天更新數(shù)據(jù)/Omim/檢索網(wǎng)頁檢索網(wǎng)頁(3)Agricola /u 美國農(nóng)部農(nóng)業(yè)圖
35、書館的數(shù)據(jù)庫美國農(nóng)部農(nóng)業(yè)圖書館的數(shù)據(jù)庫u 農(nóng)業(yè)類刊物農(nóng)業(yè)類刊物7、向數(shù)據(jù)庫提交和修改核苷酸和蛋白質(zhì)序列、向數(shù)據(jù)庫提交和修改核苷酸和蛋白質(zhì)序列提交:提交:Submission修改:修改:Update數(shù)據(jù)庫中的數(shù)據(jù)由大家無償提供,共同享用數(shù)據(jù)庫中的數(shù)據(jù)由大家無償提供,共同享用(1)向)向 GenBank提交或修改核苷酸序列提交或修改核苷酸序列u 用用 BankIt 功能功能提交提交序列序列v 網(wǎng)上直接提交,簡單方便網(wǎng)上直接提交,簡單方便v 提交后立刻得到臨時(shí)編號(hào)提交后立刻得到臨時(shí)編號(hào)v 一周內(nèi)得到一周內(nèi)得到 Accession numberu 用用Update 功能功能修改修改 GenBank 中
36、的序列和相關(guān)信息中的序列和相關(guān)信息v 修改一次,修改一次,version 的編號(hào)就進(jìn)一位的編號(hào)就進(jìn)一位u 用用 Sequin 方法提交序列方法提交序列v 可下載的電子表格可下載的電子表格v 自動(dòng)確定自動(dòng)確定 CDS、ORF 和查找重復(fù)序列和查找重復(fù)序列(2)向)向 SWISS-PROT 提交或修改蛋白質(zhì)序列提交或修改蛋白質(zhì)序列u 網(wǎng)上直接操作網(wǎng)上直接操作u 只接收用蛋白質(zhì)直接測(cè)序的序列只接收用蛋白質(zhì)直接測(cè)序的序列u 由核苷酸序列翻譯得到的蛋白質(zhì)序列由核苷酸序列翻譯得到的蛋白質(zhì)序列 將進(jìn)入將進(jìn)入TrEMBLJGIanimalsEnsembl數(shù)據(jù)庫檢索數(shù)據(jù)庫檢索檢索數(shù)據(jù)庫的方法檢索數(shù)據(jù)庫的方法 u
37、 用關(guān)鍵詞或詞組進(jìn)行數(shù)據(jù)庫檢索用關(guān)鍵詞或詞組進(jìn)行數(shù)據(jù)庫檢索 (Text-based database searching)u 用核苷酸或蛋白質(zhì)序列進(jìn)行數(shù)據(jù)庫檢索用核苷酸或蛋白質(zhì)序列進(jìn)行數(shù)據(jù)庫檢索 (Sequence-based database searching)關(guān)鍵詞或詞組為基礎(chǔ)的數(shù)據(jù)庫檢索關(guān)鍵詞關(guān)鍵詞名詞、描述性詞、詞組名詞、描述性詞、詞組序列注冊(cè)號(hào)序列注冊(cè)號(hào) (Accession number)檢索體系檢索體系EntrezSequence Retrieval System (SRS)Integrated database retrieval system (DBGET)檢索須知(檢索須
38、知(1)u 連接詞連接詞 AND, OR, NOT rice AND enzyme rice AND enzyme NOT kinase retrotransposon OR retroelementu 用引號(hào)將兩個(gè)單詞組成一個(gè)詞組用引號(hào)將兩個(gè)單詞組成一個(gè)詞組 “disease resistance” disease resistance = disease AND resistance檢索須知(檢索須知(2)u wild card“*”放在單詞后使檢索范圍擴(kuò)大,放在單詞后使檢索范圍擴(kuò)大, 但專一性降低但專一性降低u Wan* = 所有以所有以 Wan 開頭的單詞開頭的單詞u enzyme*
39、= enzyme + enzymes1. Entrez/Entrez/NCBI 的檢索體系的檢索體系優(yōu)點(diǎn):三種檢索體系中最容易操作的體系優(yōu)點(diǎn):三種檢索體系中最容易操作的體系缺點(diǎn):檢索范圍有限缺點(diǎn):檢索范圍有限8大類大類35個(gè)與個(gè)與 Entreze 體系相連的數(shù)據(jù)庫體系相連的數(shù)據(jù)庫u Nucleotide Sequence Databases (8) CoreNucleotide, EST, GSS, SNP, Gene, HomoloGene, UniSTS, PopSet u Protein Sequence Databses (2) Pr
40、otein, Protein Clustersu Structure Databases (4) Structure, PubChem Compound, 3D Domains, CDD u Taxonomy Databases (1) Taxonomyu Genome Databases (2) Genomes, Genome Projectu Expression Databases (4) UniGene, GEO Profiles, GEO DataSets, GENSATu Literature Databases (9) PubMed, PubMed Central, Site S
41、earch, Books, OMIM, OMIA, Journals, NLM Catalog, MeSHu Other Databases (5)Probe, dbGaP, PubChem Substance, Cancer Chromosomes, PubChem BioAssayEntrez主頁主頁/Entrez/Entrez系統(tǒng)中部分系統(tǒng)中部分?jǐn)?shù)據(jù)庫之間的連接數(shù)據(jù)庫之間的連接u 檢索方法(檢索方法(1):數(shù)據(jù)庫之間檢索):數(shù)據(jù)庫之間檢索NCBI主頁主頁選擇選擇“Entrez Home”或或Entrez主頁,輸主頁,輸入關(guān)鍵詞入關(guān)鍵詞各
42、個(gè)數(shù)據(jù)庫中檢索到的各個(gè)數(shù)據(jù)庫中檢索到的信息數(shù)量信息數(shù)量點(diǎn)擊相應(yīng)數(shù)據(jù)庫點(diǎn)擊相應(yīng)數(shù)據(jù)庫查看信息目錄查看信息目錄,每一條信息與其它數(shù)據(jù)庫的,每一條信息與其它數(shù)據(jù)庫的相關(guān)信息鏈接相關(guān)信息鏈接u 檢索方法(檢索方法(2):選擇數(shù)據(jù)庫檢索):選擇數(shù)據(jù)庫檢索NCBI主頁主頁選擇數(shù)據(jù)庫,輸入關(guān)鍵詞選擇數(shù)據(jù)庫,輸入關(guān)鍵詞檢索到的檢索到的信息目錄信息目錄,每一條信息,每一條信息與其它數(shù)據(jù)庫的相關(guān)信息鏈接與其它數(shù)據(jù)庫的相關(guān)信息鏈接查看查看信息內(nèi)容信息內(nèi)容u 選擇數(shù)據(jù)庫后,可選擇在這一數(shù)據(jù)庫中的檢索選擇數(shù)據(jù)庫后,可選擇在這一數(shù)據(jù)庫中的檢索內(nèi)容、時(shí)間范圍、分子類型、基因位點(diǎn)等內(nèi)容、時(shí)間范圍、分子類型、基因位點(diǎn)等檢索到的
43、檢索到的信息目錄信息目錄點(diǎn)擊點(diǎn)擊“Limits”修改檢索時(shí)間范圍修改檢索時(shí)間范圍點(diǎn)擊點(diǎn)擊“Go”檢索檢索選擇時(shí)間范圍內(nèi)選擇時(shí)間范圍內(nèi)的數(shù)據(jù)的數(shù)據(jù)u 分子量檢索分子量檢索v 檢索一個(gè)分子量為檢索一個(gè)分子量為2002的蛋白質(zhì),輸入的蛋白質(zhì),輸入“2002MOLWT”,結(jié)果,結(jié)果目錄目錄,詳細(xì),詳細(xì)內(nèi)容內(nèi)容v 與其他檢索詞相結(jié)合,如檢索人類分子量為與其他檢索詞相結(jié)合,如檢索人類分子量為2002的蛋白質(zhì),輸入的蛋白質(zhì),輸入“2002MOLWT AND humanORGN”u 其他專一檢索其他專一檢索v 關(guān)鍵詞關(guān)鍵詞欄目縮寫或全名欄目縮寫或全名,如,如“2002MOLWT或或2002molecular
44、weightv 檢索在檢索在“Keywords”欄目中出現(xiàn)欄目中出現(xiàn)“kinase”的蛋的蛋白質(zhì)數(shù)據(jù),輸入白質(zhì)數(shù)據(jù),輸入“kinaseKeyword”,結(jié)果,結(jié)果目目錄錄u 范圍檢索范圍檢索v 檢索分子量在檢索分子量在20022009之間的蛋白質(zhì),輸入之間的蛋白質(zhì),輸入“2002:2009 Molecular Weight ”,結(jié)果的詳,結(jié)果的詳細(xì)細(xì)內(nèi)容內(nèi)容v 檢索核苷酸長短在檢索核苷酸長短在30004000之間的之間的DNA,輸,輸入入“3000:4000SLEN”,結(jié)果,結(jié)果目錄目錄v 檢索注冊(cè)號(hào)在檢索注冊(cè)號(hào)在AF123456AF123478之間的核之間的核苷酸數(shù)據(jù),輸入苷酸數(shù)據(jù),輸入AF
45、123456:AF123478Accession number,結(jié),結(jié)果果目錄目錄2. SRS (Sequence Reterieval System)SRS(http:/srs.ebi.ac.uk/)是一個(gè)開放的數(shù)據(jù))是一個(gè)開放的數(shù)據(jù)庫查詢系統(tǒng),不同的庫查詢系統(tǒng),不同的SRS系統(tǒng)(版本)可以根系統(tǒng)(版本)可以根據(jù)需要安裝不同的數(shù)據(jù)庫據(jù)需要安裝不同的數(shù)據(jù)庫European Bioinformatics Institute (EBI) 的檢的檢索體系索體系優(yōu)點(diǎn):檢索面寬優(yōu)點(diǎn):檢索面寬缺點(diǎn):操作復(fù)雜缺點(diǎn):操作復(fù)雜17大類大類194個(gè)數(shù)據(jù)庫與個(gè)數(shù)據(jù)庫與 SRS 體系相連體系相連u Literatur
46、e, Bibliography and Reference databasesu Nucleotide sequence databasesu Uniprot Universal Protein Resourceu Other protein sequence databasesu Deprecated Protein Databasesu Nucleotide related databasesu Protein function databasesu Protein structure databasesu Enzymes, reactions and metabolic pathway
47、databases 17大類大類194個(gè)數(shù)據(jù)庫與個(gè)數(shù)據(jù)庫與 SRS 體系相連(續(xù))體系相連(續(xù))u Mutation and SNP databasesu Gene ontology resourcesu Biological Resources Cataloguesu Mapping databasesu Other databasesu User owned databasesu Application result databasesu EMBOSS result databasesSRS基本檢索規(guī)則基本檢索規(guī)則u 與常用檢索規(guī)則不同的檢索規(guī)則與常用檢索規(guī)則不同的檢索規(guī)則v 用用“|”代
48、表代表“OR”,用,用“&”代表代表“AND”,用,用“!”代表代表“NOT”u 數(shù)字和日期檢索數(shù)字和日期檢索v 片段長度檢索時(shí)用片段長度檢索時(shí)用“:”代表代表 或或,用,用“!”代代表表 ;如;如“12:”表示表示 12,“:12”表示表示 12,“!12:”表示表示12,“:!12”表示表示12,12:15表示表示 12而而 15v 可以識(shí)別兩種日期格式:可以識(shí)別兩種日期格式:YYYYMMDD或或DD-MMM-YYYY;如;如20020619或或19-Jun-2002u 索引檢索(索引檢索(index search)v 由數(shù)據(jù)庫名、域名和檢索詞三部分組成,數(shù)據(jù)庫和域名由數(shù)據(jù)庫名、域
49、名和檢索詞三部分組成,數(shù)據(jù)庫和域名之間用之間用“-”連接,域名與檢索詞之間用連接,域名與檢索詞之間用“:”(字符串檢(字符串檢索)或索)或“#”(范圍檢索)分開,如:(范圍檢索)分開,如: pir-des:elastase表示在蛋白質(zhì)數(shù)據(jù)庫表示在蛋白質(zhì)數(shù)據(jù)庫PIR的的des(description)域搜索關(guān)鍵詞)域搜索關(guān)鍵詞“elastase” swissprot-date#20010415:200220414表示在蛋白質(zhì)數(shù)表示在蛋白質(zhì)數(shù)據(jù)庫據(jù)庫SWISS-PROT中檢索從中檢索從2001年年4月月15日到日到2002年年4月月14日的所有記錄日的所有記錄 swissprot swissnew
50、 sptrembl-des:kinase表示在表示在SWISS-PROT、SWISSNEW和和SPtrEMBL三個(gè)數(shù)據(jù)庫三個(gè)數(shù)據(jù)庫中的中的des域搜索關(guān)鍵詞域搜索關(guān)鍵詞“kinase”u 檢索方法(檢索方法(1):快速檢索):快速檢索v 操作簡單,檢索數(shù)據(jù)庫有限操作簡單,檢索數(shù)據(jù)庫有限v 適用于目標(biāo)明確的檢索適用于目標(biāo)明確的檢索在在SRS主頁主頁選擇數(shù)據(jù)庫種類,輸入關(guān)鍵詞選擇數(shù)據(jù)庫種類,輸入關(guān)鍵詞檢索到的檢索到的信息目錄信息目錄,每一條信息,每一條信息與其它數(shù)據(jù)庫的相關(guān)信息鏈接與其它數(shù)據(jù)庫的相關(guān)信息鏈接查看查看信息內(nèi)容信息內(nèi)容u 檢索方法(檢索方法(2):深入檢索):深入檢索v 操作稍微復(fù)雜,
51、可以檢索所有數(shù)據(jù)庫操作稍微復(fù)雜,可以檢索所有數(shù)據(jù)庫v 適用于范圍廣泛的檢索適用于范圍廣泛的檢索在在SRS主頁主頁點(diǎn)擊點(diǎn)擊“Library Page”在在“Library Page”網(wǎng)頁網(wǎng)頁選擇數(shù)據(jù)庫選擇數(shù)據(jù)庫,然后點(diǎn)擊,然后點(diǎn)擊“Query Form”在在“Query Form”網(wǎng)頁網(wǎng)頁輸入關(guān)鍵詞檢索輸入關(guān)鍵詞檢索檢索到的檢索到的信息目錄信息目錄,每一條信息,每一條信息與其它數(shù)據(jù)庫的相關(guān)信息鏈接與其它數(shù)據(jù)庫的相關(guān)信息鏈接3. DBGET (Integrated database retrieval system)http:/www.genome.ad.jp/dbget/日本的檢索體系日本的檢索體系優(yōu)點(diǎn):與優(yōu)點(diǎn):與 Kyoto Encyclopedia of Genes and Genomes (KEGG) database 相連相連 操作簡單操作簡單缺點(diǎn):檢索面較缺點(diǎn):檢索面較 SRS 和和 Entrez 窄窄DBGET與與41個(gè)數(shù)據(jù)庫相連個(gè)數(shù)據(jù)庫相連u 檢
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 環(huán)評(píng)工程師環(huán)境影響評(píng)價(jià)報(bào)告編制與審核流程
- 2025年度車輛掛靠與二手車交易市場(chǎng)合作協(xié)議
- 人教版七年級(jí)歷史與社會(huì)上冊(cè)2.1大洋與大洲 教學(xué)設(shè)計(jì)
- 2025年度商業(yè)物業(yè)租賃合同(含租戶經(jīng)營風(fēng)險(xiǎn)分擔(dān))4篇
- 2025年度物聯(lián)網(wǎng)技術(shù)應(yīng)用合伙協(xié)議書范本
- 2025年度液化氣智能調(diào)度與優(yōu)化運(yùn)營合同
- 2025年度智能化樁基材料采購合同范本
- 2025年度醫(yī)師多點(diǎn)執(zhí)業(yè)醫(yī)療資源共享合作協(xié)議范本
- 2025年度押一付三租賃合同(含租賃合同續(xù)簽條款)
- 2025年度海關(guān)協(xié)管員聘用合同規(guī)范文本
- 2023合同香港勞工合同
- 材料化學(xué)課件
- 智能傳感器芯片
- -《多軸數(shù)控加工及工藝》(第二版)教案
- 智能交通概論全套教學(xué)課件
- 生物醫(yī)學(xué)工程倫理 課件全套 第1-10章 生物醫(yī)學(xué)工程與倫理-醫(yī)學(xué)技術(shù)選擇與應(yīng)用的倫理問題
- 燒結(jié)機(jī)安裝使用說明書
- 新戰(zhàn)略營銷課件
- (完整版)部編一年級(jí)下冊(cè)語文《春夏秋冬》ppt
- 新華書店業(yè)務(wù)崗位職責(zé)共3篇
- 統(tǒng)編版五年級(jí)下冊(cè)第五單元 習(xí)作:形形色色的人 課件 (共16張PPT)
評(píng)論
0/150
提交評(píng)論