關(guān)鍵詞或詞組為基礎(chǔ)的數(shù)據(jù)庫檢索(I)課件_第1頁
關(guān)鍵詞或詞組為基礎(chǔ)的數(shù)據(jù)庫檢索(I)課件_第2頁
關(guān)鍵詞或詞組為基礎(chǔ)的數(shù)據(jù)庫檢索(I)課件_第3頁
關(guān)鍵詞或詞組為基礎(chǔ)的數(shù)據(jù)庫檢索(I)課件_第4頁
關(guān)鍵詞或詞組為基礎(chǔ)的數(shù)據(jù)庫檢索(I)課件_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第三章 關(guān)鍵詞或詞組為基礎(chǔ)的數(shù)據(jù)庫檢索(I)生物信息學(xué)第三章 生物信息學(xué)檢索數(shù)據(jù)庫的方法 用關(guān)鍵詞或詞組進(jìn)行數(shù)據(jù)庫檢索 (Text-based database searching) 用核苷酸或蛋白質(zhì)序列進(jìn)行數(shù)據(jù)庫檢索 (Sequence-based database searching)Gene nameAuthorAccession numberDatabase檢索數(shù)據(jù)庫的方法 用關(guān)鍵詞或詞組進(jìn)行數(shù)據(jù)庫檢索 用核苷酸或關(guān)鍵詞或詞組為基礎(chǔ)的數(shù)據(jù)庫檢索關(guān)鍵詞名詞、描述性詞、詞組序列注冊號 (Accession number)檢索體系NCBI EntrezSequence Retrieval S

2、ystem (SRS)Integrated database retrieval system (DBGET)Trends in Biotechnology 1998, 16 (supplement 1):3-5.最準(zhǔn)確可靠關(guān)鍵詞或詞組為基礎(chǔ)的數(shù)據(jù)庫檢索關(guān)鍵詞名詞、描述性詞、詞組檢索檢索須知(1) 連接詞 AND, OR, NOT(Boolean operators)rice AND enzyme (AND為缺省值,可略去)rice AND enzyme NOT kinaseretrotransposon OR retroelement注意事項:1、AND, OR, NOT must be e

3、ntered in UPPERCASE2、Boolean operators are processed in a left-to-right sequencerice AND (microarray OR expression profile)rice AND microarray OR expression profile3、The order can be changed by enclosing individual concepts in parentheses (processed first)PubMed27000 records 504 records 檢索須知(1) 連接詞

4、AND, OR, NOT(Boo用引號將兩個單詞組成一個詞組16S rRNA = 16S AND rRNA“16S rRNA”pseudopod* =pseudopod OR pseudopodia OR pseudopodium 檢索須知(2)Nucleotide 16S rRNA “16S rRNA”380000 sequences 3300000 sequences exact match wild card, *, 放在單詞后使檢索范圍擴大,但專一性降低 表示范圍, :, 連接前后關(guān)鍵詞,限定范圍110:500Sequence Length 2009/3/1:2009/9/30Publ

5、ication Date 用引號將兩個單詞組成一個詞組16S rRNA = 16S A1. Entrez/gquery/NCBI 的檢索體系優(yōu)點:三種檢索體系中最容易操作的體系,幫助文檔完備Entrez Help1. Entrezhttp:/www.ncbi.nlm.Entrez可對6大類40個數(shù)據(jù)庫進(jìn)行檢索Nucleic Acids Research 2013, 41:D8-D20Entrez可對6大類40個數(shù)據(jù)庫進(jìn)行檢索Nucleic AEntrez可對6大類40個數(shù)據(jù)庫進(jìn)行檢索針對基因組已測序完成的物種針對GenBank中具有大于7萬條EST的物種Prokaryotic, chlorop

6、last, mitochondrial, virus, protist, plant針對17個廣泛研究的模式生物Entrez可對6大類40個數(shù)據(jù)庫進(jìn)行檢索針對基因組已測序完Entrez系統(tǒng)中數(shù)據(jù)庫之間的連接NCBI主頁選擇“All Databases”或Entrez主頁,輸入關(guān)鍵詞各個數(shù)據(jù)庫中檢索到的信息數(shù)量點擊相應(yīng)數(shù)據(jù)庫查看信息目錄,每一條信息與其它數(shù)據(jù)庫的相關(guān)信息鏈接檢索方法(1):跨庫檢索 (cross-database search)Entrez系統(tǒng)中數(shù)據(jù)庫之間的連接NCBI主頁選擇“All 檢索方法(2):選擇數(shù)據(jù)庫檢索NCBI主頁選擇數(shù)據(jù)庫,輸入關(guān)鍵詞檢索到的信息目錄,每一條信息與

7、其它數(shù)據(jù)庫的相關(guān)信息鏈接查看信息內(nèi)容檢索方法(2):選擇數(shù)據(jù)庫檢索NCBI主頁選擇數(shù)據(jù)庫,輸入關(guān)序列數(shù)據(jù)庫的搜索精簡搜索結(jié)果查詢insulin基因的序列不是想要的結(jié)果!如何精簡?序列數(shù)據(jù)庫的搜索精簡搜索結(jié)果查詢insulin基因的序列精簡搜索結(jié)果的方法1:使用Limits精簡搜索結(jié)果的方法1:使用Limits查詢?nèi)耍╤uman)的insulin基因的序列關(guān)鍵詞 查詢范圍: insulin title human organism 精簡搜索結(jié)果的方法2:使用Advanced search查詢?nèi)耍╤uman)的insulin基因的序列關(guān)鍵詞 查詢?nèi)绾味x查詢范圍?LOCUS DQ176424 19

8、80 bp DNA linear PLN 12-MAR-2006DEFINITION Oryza sativa (indica cultivar-group) pathogen-induced defense-responsive protein 8 (DR8) gene, complete cds.ACCESSION DQ176424VERSION DQ176424.1 GI:73918052KEYWORDS HTG.SOURCE Oryza sativa Indica Group ORGANISM Oryza sativa Indica Group Eukaryota; Viridipla

9、ntae; Streptophyta; Embryophyta;Tracheophyta; Spermatophyta; Magnoliophyta; Liliopsida; Poales; Poaceae; BEP clade; Ehrhartoideae; Oryzeae; Oryza.REFERENCE 1 (bases 1 to 1980) AUTHORS Wang,G., Ding,X., Yuan,M., Qiu,D., Li,X., Xu,C. and Wang,S. TITLE Dual function of rice OsDR8 gene in disease resist

10、ance and thiamine accumulation JOURNAL Plant Mol. Biol. 60 (3), 437-449 (2006) PUBMED 16514565gbdiv_plnPropertiesTitleModification Date1000:2000Sequence LengthAccessionGI任意搜索范圍:Xa21All Fieldsbiomol_genomicProperties biomol_mrna: mRNAbiomol crna: cRNAPublication Date:記錄公開日期Keyword: EST GSS HTG HTC TP

11、A TSAOrganismAuthorJournal注意:關(guān)鍵詞和字段名(field)均不區(qū)分大小寫如何定義查詢范圍?LOCUS DQ176424 ORIGIN 1 ggtacattat atattctgtt tggaatatga tcaggcctag tgggaactgc tttaagttta 61 cttattcgag ctgagttagg acaacctggg gccctattag gggatgatca attatataat 121 gttattgtta cagcacacgc ttttgtaata atttttttct tagttatacc tataatgatcFEATURES Loca

12、tion/Qualifiers source 1.646 /organism=Dicathais orbita /organelle=mitochondrion /mol_type=mRNA /db_xref=taxon:69583 /clone=20006E09 /note=mitochondrial and ribosomal sequences produced by suppressive subtractive hybridization CDS 646 /gene=COXI /codon_start=1 /transl_table=5 /product=cytochrome oxi

13、dase subunit I /protein_id=ACT34372.1 /db_xref=GI:253740054 /translation=GTLYILFGMWSGLVGTALSLLIRAELGQPGALLGDDQLYNVIVT AHAFVMIFFLVMPMMIGGFGNWLVPLMLGAPDMAFPRLNNMSFWLLPPALLLLLSSAA 第四章講述使用序列進(jìn)行檢索Feature Key: promoter, mRNA, CDS, exon, intron, polyA_signalCOXIGene Namegene_in_mitochondrionProperties如何定義查詢

14、范圍?ORIGIN FEATURES humanORGN AND 50SLEN:60SLEN AND 1999MDAT 精簡搜索結(jié)果Aim: Find all human nucleotide sequences with the poly(A) signal. 不同數(shù)據(jù)庫的Search fields不同,詳見Limits/Advanced選項!j mol evolJOUR AND drosophilaORGN polyA_signal“FKEY AND humanORGN Aim: Find all human protein sequences with lengths between 5

15、0 and 60 amino acids that were entered into the database during 1999. Aim: Find Drosophila population studies published in the Journal of Molecular EvolutionSearch Field Descriptions for Sequence DatabasehumanORGN AND 50SLEN:60SL查詢?nèi)薸nsulin基因的RefSeq序列精簡搜索結(jié)果的方法3:直接輸入搜索字段自動將俗名轉(zhuǎn)換為學(xué)名查詢?nèi)薸nsulin基因的RefSeq序列

16、精簡搜索結(jié)果的方法查詢?nèi)薸nsulin基因的RefSeq序列精簡搜索結(jié)果的方法4:組合多次搜索結(jié)果查詢?nèi)薸nsulin基因的RefSeq序列精簡搜索結(jié)果的方法使用Clipboard臨時收集多條序列永久保存收集的序列需要注冊,然后Send to Collections使用Clipboard臨時收集多條序列永久保存收集的序列需要第三章 關(guān)鍵詞或詞組為基礎(chǔ)的數(shù)據(jù)庫檢索(II)生物信息學(xué)第三章 生物信息學(xué)文獻(xiàn)數(shù)據(jù)庫Pubmed的搜索 /PubMed/美國國家醫(yī)學(xué)圖書館的數(shù)據(jù)庫數(shù)據(jù)來源MEDLINE:已經(jīng)規(guī)范處理的數(shù)據(jù),已標(biāo)注MeSH Terms,記錄標(biāo)有pubmed-indexed for medli

17、neIn Process Citations:尚未經(jīng)規(guī)范處理的數(shù)據(jù),記錄標(biāo)有pubmed-in processPublisher-Supplied Citations:由出版商提供的電子文獻(xiàn),記錄標(biāo)有PubMed-as supplied by Publisher搜索結(jié)果舉例文獻(xiàn)數(shù)據(jù)庫Pubmed的搜索 http:/Pubmed自動將檢索詞翻譯為MeSH詞匯使用MeSH詞匯能獲得更加全面、準(zhǔn)確的結(jié)果Pubmed自動將檢索詞翻譯為MeSH詞匯使用MeSH詞匯能精簡PubMed搜索結(jié)果的方法:使用AdvancedPubMed數(shù)據(jù)庫的搜索12huazhong agricultural universi

18、tyAffiliation精簡PubMed搜索結(jié)果的方法:使用AdvancedPubMPubMed數(shù)據(jù)庫的字段:Affiliation ADArticle Identifier AIDAll Fields ALLAuthor AUBook bookComment CorrectionsCorporate Author CNCreate Date CRDTCompletion Date DCOMEC/RN Number RNEditor EDEntrez Date EDATFilter FILTERFirst Author Name 1AUFull Author Name FAUFull Inv

19、estigator Name FIRGrant Number GRInvestigator IRISBN ISBNIssue IPJournal TALanguage LALast Author LASTAULocation ID LIDMeSH Date MHDAMeSH Major Topic MAJRMeSH Subheadings SHMeSH Terms MHModification Date LRNLM Unique ID JIDOther Term OTOwnerPagination PGPersonal Name as Subject PSPharmacological Act

20、ion PAPlace of Publication PLPMID PMIDPublisher PUBNPublication Date DPPublication Type PTSecondary Source ID SISubset SBSupplementary ConceptNMText Words TWTitle TITitle/Abstract TIABTransliterated Title TTUID PMIDVersionVolume VIWatson J author 1953 publication date nature journalWatson J AU 1953

21、DP nature TASearch Field Descriptions and Tags for Pubmed精簡PubMed搜索結(jié)果的方法:組合多個搜索字段PubMed數(shù)據(jù)庫的字段:Affiliation AD小技巧:通過添加“&report=imagesdocsum”能搜索圖片/pmc/?term=rice+root&report=imagesdocsumPubMed Discovery Tools小技巧:通過添加“&report=imagesdocsum”如果已知文獻(xiàn)部分信息:單篇文獻(xiàn)匹配器(Single Citation Matcher): /pubmed/citmatch多篇文獻(xiàn)

22、匹配器(Batch Citation Matcher): /pubmed/batchcitmatch如果已知文獻(xiàn)部分信息:單篇文獻(xiàn)匹配器(Single Cita如何自動獲得最近更新的結(jié)果?如何自動獲得最近更新的結(jié)果?Google學(xué)術(shù)搜索/schhp?hl=zh-CNGoogle學(xué)術(shù)搜索http:/scholar.googl檢索、管理和引用文獻(xiàn)的工具 檢索、管理和引用文獻(xiàn)的工具 http:/www.endno2. SRS (Sequence Reterieval System)http:/srs.ebi.ac.uk/HelpEuropean Bioinformatics Institute (E

23、BI) 的傳統(tǒng)檢索體系優(yōu)點:檢索面寬缺點:操作復(fù)雜注意:目前EBI提供的SRS功能正在逐步廢除,但世界上仍有很多鏡像站點可以使用:德國http:/www.dkfz.de/srs/意大利http:/bioinfo.ceinge.unina.it/srs7131/EBI新版的檢索體系:EBI search2. SRS (Sequence Reterieval S17大類194個數(shù)據(jù)庫與 SRS 體系相連Literature, Bibliography and Reference databasesNucleotide sequence databasesUniprot Universal Prot

24、ein ResourceOther protein sequence databasesDeprecated Protein DatabasesNucleotide related databasesProtein function databasesProtein structure databasesEnzymes, reactions and metabolic pathway databases Mutation and SNP databasesGene ontology resourcesBiological Resources CataloguesMapping database

25、sOther databasesUser owned databasesApplication result databasesEMBOSS result databases17大類194個數(shù)據(jù)庫與 SRS 體系相連Literatur檢索方法(1):快速檢索(Quick search)操作簡單,檢索數(shù)據(jù)庫有限適用于目標(biāo)明確的檢索在SRS主頁選擇檢索類別,輸入關(guān)鍵詞檢索到的信息目錄,每一條信息與其它數(shù)據(jù)庫的相關(guān)信息鏈接查看信息內(nèi)容檢索方法(1):快速檢索(Quick search)操作簡單檢索方法(2):高級檢索(advanced search)操作稍微復(fù)雜,可以檢索所有數(shù)據(jù)庫適用于范圍廣泛的檢

26、索在SRS主頁點擊“Library Page”在“Library Page”網(wǎng)頁選擇數(shù)據(jù)庫,然后點擊“Query Form”在“Query Form”網(wǎng)頁輸入關(guān)鍵詞檢索檢索到的信息目錄,每一條信息與其它數(shù)據(jù)庫的相關(guān)信息鏈接檢索方法(2):高級檢索(advanced search)操3. DBGET (Integrated database retrieval system)http:/www.genome.jp/dbget/日本GenomeNet的檢索體系優(yōu)點:與 Kyoto Encyclopedia of Genes and Genomes (KEGG) database 相連 操作較SRS

27、簡單缺點:檢索面較 SRS 窄DBGET與40多個數(shù)據(jù)庫相連DBGET檢索體系中數(shù)據(jù)庫之間的連接3. DBGET (Integrated database檢索方法(1):單庫檢索(basic search)在DBGET主頁選擇一個數(shù)據(jù)庫輸入關(guān)鍵詞檢索查看檢索到的信息目錄查看信息詳細(xì)內(nèi)容檢索方法(1):單庫檢索(basic search)在DBG檢索方法(2):跨庫檢索 (LinkDB)在DBGET主頁點擊“LinkDB”在查詢網(wǎng)頁選擇數(shù)據(jù)庫輸入關(guān)鍵詞檢索(數(shù)據(jù)庫:編號)結(jié)果檢索方法(2):跨庫檢索 (LinkDB)在DBGET主頁點檢索時如果所得信息與預(yù)期不符,需仔細(xì)檢查:數(shù)據(jù)庫不同的數(shù)據(jù)庫包含不同的內(nèi)容,檢索前需弄清數(shù)據(jù)庫所包含數(shù)據(jù)的內(nèi)容和范圍關(guān)鍵詞關(guān)鍵詞的拼寫是否正確關(guān)鍵詞的使用是否合乎主流 retrotransposonretro-transposon是否使用了過多的關(guān)鍵詞,以至于檢索范圍太窄。通常先使用最主要的關(guān)鍵詞搜索,如果結(jié)果過多再逐步縮小范圍最后的提醒:檢索時如果所得信息與預(yù)期不符,需仔細(xì)檢查:數(shù)據(jù)庫最后的提醒:生物信息學(xué)第三章 關(guān)鍵詞或詞組為基礎(chǔ)的數(shù)據(jù)庫檢索(上機操作)生物信息學(xué)第三章 4、自習(xí)資源DBGET Search4、自習(xí)資源DBGET Search5、上

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論