生物信息學NCBI數(shù)據(jù)庫課件_第1頁
生物信息學NCBI數(shù)據(jù)庫課件_第2頁
生物信息學NCBI數(shù)據(jù)庫課件_第3頁
生物信息學NCBI數(shù)據(jù)庫課件_第4頁
生物信息學NCBI數(shù)據(jù)庫課件_第5頁
已閱讀5頁,還剩137頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

生物信息學NCBI數(shù)據(jù)庫課件生物信息學課件吳曉龍生物信息學課件吳曉龍講述內容

一、生物信息學和我的實驗室

二、NCBI數(shù)據(jù)庫講述內容一、生物信息學和我的實驗室一、生物信息學和我的實驗室一、生物信息學和我的實驗室生物信息學(Bioinformatics)是在生命科學的研究中,以計算機為工具對生物信息進行儲存、檢索和分析的科學。它是當今生命科學和自然科學的重大前沿領域之一,同時也將是21世紀自然科學的核心領域之一。其研究重點主要體現(xiàn)在基因組學(Genomics)和蛋白質組學(Proteomics)兩方面,具體說就是從核酸和蛋白質序列出發(fā),分析序列中表達的結構功能的生物信息。1、生物信息學介紹生物信息學(Bioinformatics)是在生命科學的研究具體而言,生物信息學作為一門新的學科領域,它是把基因組DNA序列信息分析作為源頭,在獲得蛋白質編碼區(qū)的信息后進行蛋白質空間結構模擬和預測,然后依據(jù)特定蛋白質的功能進行必要的藥物設計?;蚪M信息學,蛋白質空間結構模擬以及藥物設計構成了生物信息學的3個重要組成部分。生物信息學NCBI數(shù)據(jù)庫課件主要研究方向1、序列比對2、蛋白質結構比對和預測3、基因識別非編碼區(qū)分析研究4、分子進化和比較基因組學6、遺傳密碼的起源7、基于結構的藥物設計8、生物系統(tǒng)的建模和仿真……主要研究方向1、序列比對簡單重復序列

簡單重復序列(SimpleSequenceRepeats,SSRs)也稱微衛(wèi)星序列(Microsatellites)或短串聯(lián)重復序列(ShortTandemRepeats,STRs),是由1-6個堿基對組成的串聯(lián)重復DNA片段。SSRs在真核和原核生物的基因組中分布廣泛、數(shù)量豐富,并具有較高的突變頻率。

如:(A)n、(ACG)n、(ATCG)、(ACCCTT)n

2、我的實驗室簡單重復序列2、我的實驗室簡單重復序列與人類疾病

簡單重復序列是廣泛分布在人類基因組中的,盡管其中很多功能都不太清楚,但是既然存在總有它存在的意義。下面總結了一些人類基因組中由于SSR擴增或變異所引起的相關疾病簡單重復序列與人類疾病

生物信息學NCBI數(shù)據(jù)庫課件我們實驗是近幾年發(fā)的文章我們實驗是近幾年發(fā)的文章生物信息學NCBI數(shù)據(jù)庫課件生物信息學NCBI數(shù)據(jù)庫課件生物信息學NCBI數(shù)據(jù)庫課件NCBI數(shù)據(jù)庫1、國外的重要生物信息中心

2、NCBI介紹NCBI數(shù)據(jù)庫1、國外的重要生物信息中心1、國外重要生物信息中心1、國外重要生物信息中心17NCBI美國國家生物技術信息中心(NationalCenterforBiotechnologyInformation)前身是NIH所屬的一個研究所的計算生物學研究室,1988年獨立為NCBI,形式上屬于國家醫(yī)學圖書館(NationalLibraryofMedicine/NLM)管理著許多著名數(shù)據(jù)庫,如GenBank、Medline、dbSNP、COG、OMIM等提供Entrez、BLAST等服務

17NCBI美國國家生物技術信息中心(NationalCeNCBIhomepageNCBIhomepage19EBI歐洲生物信息學研究所(EuropeanBioinformaticsInstitute)1994年建于英國劍橋,前身是德國海德堡的歐洲分子生物學實驗室的信息服務部門EBI接收了原來EMBL數(shù)據(jù)庫的管理和維護是歐洲分子生物學網(wǎng)(EMBnet)的一個特別節(jié)點http://www.ebi.ac.uk/(主頁)http://www2.ebi.ac.uk/(工具)http://www3.ebi.ac.uk/(服務)19EBI歐洲生物信息學研究所(EuropeanBioin20EMBLhomepage20EMBLhomepage21NIG日本國立遺傳學研究所(NationalInstituteofGenetics)創(chuàng)立于1949年7月1日,屬文部省管轄信息服務始于1984年維護管理著DDBJ1987年1月發(fā)行DDBJ第一版http://www.nig.ac.jp21NIG日本國立遺傳學研究所(NationalInsti22DDBJhomepage22DDBJhomepage23國際核苷酸序列數(shù)據(jù)庫聯(lián)盟InternationalNucleotideSequenceDatabaseCollaboration(INSDC)包括GenBank [美]/GenbankEMBL [歐]http://www.ebi.ac.uk/embl/

DDBJ [日]http://www.ddbj.nig.ac.jp/

每天這三個數(shù)據(jù)庫作數(shù)據(jù)同步操作在任何一個數(shù)據(jù)庫操作(查找、投遞數(shù)據(jù)等)是等效的23國際核苷酸序列數(shù)據(jù)庫聯(lián)盟InternationalNu24TIGR基因組研究所(TheInstituteforGenomicResearch)是重要的測序中心1992年建立1995年參與完成首次全基因組測序(流感嗜血桿菌)擁有世界最大的cDNA數(shù)據(jù)庫之一/24TIGR基因組研究所(TheInstitutefor25基因圖譜數(shù)據(jù)庫

RHdb(輻射雜交;人、鼠),GDB(人類),GeneMap(人類;NCBI)生物醫(yī)學文獻數(shù)據(jù)庫

MEDLINE3800多種生物醫(yī)學期刊(通過PubMed查詢)

SCIISI提供的文獻引用檢索(收費)人類基因組相關數(shù)據(jù)庫

GDB(人類基因組),

OMIM(遺傳,變異),HGVbase[瑞典](變異,雙等位序列)其他模式生物的基因組數(shù)據(jù)庫DOGS(

DatabaseofGenomeSizes[丹麥]綜合)線蟲ACeDB,Sanger果蠅FlyBase,Berkeley小鼠MGD,Japan

酵母Stanford,MIPS

大腸桿菌WISCDNA結構數(shù)據(jù)庫CUTG(CodonUsageTabulatedfromGenBank,密碼子使用頻度表)[日]EPD(EukaryoticPromotorDatabase,真核生物啟動子數(shù)據(jù)庫)[歐]TRANSFAC(真核生物基因表達調控因子的數(shù)據(jù)庫)[德]

RepBase(重復序列),MicroSatellite(微衛(wèi)星),COMPEL(復合元件),MPDB(分子探針),NDB(晶體),VectorDB(載體),EID(外顯內含子)25基因圖譜數(shù)據(jù)庫26BioSino是中國自主開發(fā)的核酸序列公共數(shù)據(jù)庫發(fā)表我國學者提供的核酸序列,并接受注冊登記有CDNAP和DDIB兩個產品//DIDWeb/index.html26BioSNCBI介紹

NCBI介紹NCBI美國國家生物技術信息中心(NationalCenterforBiotechnologyInformation)前身是NIH所屬的一個研究所的計算生物學研究室,1988年獨立為NCBI,形式上屬于國家醫(yī)學圖書館(NationalLibraryofMedicine/NLM)管理著許多著名數(shù)據(jù)庫,如GenBank、Medline、dbSNP、OMIM等提供Entrez、BLAST等服務

NCBI美國國家生物技術信息中心(NationalCenNCBI美國國家生物技術信息中心(NationalCenterforBiotechnologyInformation)前身是NIH所屬的一個研究所的計算生物學研究室,1988年獨立為NCBI,形式上屬于國家醫(yī)學圖書館(NationalLibraryofMedicine/NLM)管理著許多著名數(shù)據(jù)庫,如GenBank、Medline、dbSNP、OMIM等提供Entrez、BLAST等服務

NCBI美國國家生物技術信息中心(NationalCen它的使命包括四項任務:1.建立關于分子生物學,生物化學,和遺傳學知識的存儲和分析的自動系統(tǒng)。2.實行關于用于分析生物學重要分子和復合物的結構和功能的基于計算機的信息處理的,先進方法的研究。3.加速生物技術研究者和醫(yī)藥治療人員對數(shù)據(jù)庫和軟件的使用。4.全世界范圍內的生物技術信息收集的合作努力。它的使命包括四項任務:1.建立關于分子生物學,生物化學,和遺NCBI數(shù)據(jù)庫介紹

Nucleotide

美國國立衛(wèi)生研究院GenBank。Genome

即基因組數(shù)據(jù)庫,提供了多種基因組、完全染色體、

Contiged序列圖譜以及一體化基因物理圖譜。Pubmed

文獻數(shù)據(jù)庫。Structures

即結構數(shù)據(jù)庫或稱分子模型數(shù)據(jù)庫(MMDB),包含來自

X線晶體學和三維結構的實驗數(shù)據(jù)。MMDB的數(shù)據(jù)從

PDB(ProteinDataBank)獲得。Taxonomy

即生物學門類數(shù)據(jù)庫,可以按生物學門類進行檢索或瀏覽其核苷酸序列、蛋白質序列、結構等。

……

NCBI數(shù)據(jù)庫介紹32Nucleotideandgenome

32Nucleotideandgenome

Nucleotide該數(shù)據(jù)庫由國際核苷酸序列數(shù)據(jù)庫成員美國國立衛(wèi)生研究院GenBank、日本DNA數(shù)據(jù)庫(DDBJ)和英國HinxtonHall的歐洲分子生物學實驗室數(shù)據(jù)庫(EMBL)三部分數(shù)據(jù)組成。

這三個組織聯(lián)合組成國際核苷酸序列數(shù)據(jù)庫協(xié)作體,每天交換各自數(shù)據(jù)庫中的新增序列記錄實現(xiàn)數(shù)據(jù)共享。其中的核酸序列數(shù)據(jù)也通過與基因組序列數(shù)據(jù)庫(GSDB)合作獲取。Nucleotide選擇數(shù)據(jù)庫輸入關鍵字NCBI主頁進入Entrez檢索選擇數(shù)據(jù)庫輸入關鍵字NCBI主頁進入Entrez檢索Entrez簡介Entrez是個全局的生物醫(yī)學搜索引擎,他可以檢索的數(shù)據(jù)庫主要包括三類:(1)文獻數(shù)據(jù)庫:PubMed,PubMedCentral,Journals,Books,OMIM,OMIA。(2)序列數(shù)據(jù)庫:Nucleotide,Protein,Genome,Strcture,SNP。(3)其他數(shù)據(jù)庫:Taxonomy,Gene,Probe,PopSet等Entrez簡介Entrez是個全局的無對應結果相關的結果Entrez檢索的結果Entrez功能強大,在于它的大多數(shù)記錄可相互鏈接,既可在同一數(shù)據(jù)庫內鏈接,也可在數(shù)據(jù)庫之間進行鏈接。Entrezbrowser來查詢各種數(shù)據(jù)(集成搜索工具)無對應結果相關的結果Entrez檢索的結果Entr基因組的相關的信息查看詳細結果基因組的相關的信息查看詳細結果生物信息學NCBI數(shù)據(jù)庫課件詳細結果序列部分注釋部分下載格式選擇詳細結果序列部分注釋部分下載格式選擇注釋部分基因位點(Locus)、基因定義(Definition)、基因存取號(Accession)、關鍵詞(Keywords)、來源(Source)、組織分類(Organism)、參考文獻(Reference)、著者(Author)、題目(Title)、期刊(Journal)、序列特征(Features)、基因(Gene)、蛋白質編碼序列CDS(cDNA)

、5’非翻譯區(qū)(5’UTR)、3’非翻譯區(qū)3’UTR)、mRNA的polyA位置(polyA_site)、信使RNA(mRNA)、外顯子(exon)、內含子(intron)、原序列(Origin)。注釋部分基因位點(Locus)、基因定義(Definitio常用序列格式:FASTA格式

1.定義:在生物信息學中,F(xiàn)ASTA格式(又稱為Pearson格式),是一種基于文本用于表示核苷酸序列或氨基酸序列的格式。在這種格式中堿基對或氨基酸用單個字母來編碼,且允許序列前添加序列名及注釋。通常核苷酸符號大小寫均可,而氨基酸常用大寫字母。

2.特點:簡單使用最多例子(單序列):>gi|9629267|ref|NC_001798.1|Humanherpesvirus2,completegenomeAGTCCCCGTCCTGCCGCGCGGGGGCGGGCGCGGGAAAAAAGCCGCGCGGGGGCGCCCGCGGGAAGGCAGCCCCGCGGCGCGCGGGGGGAGGGGCGGCGCCCGCGGGGGAGCGGCCGGCTCCGGGGGAGGGACGGGGAAGG……….常用序列格式:FASTA格式1.定義:在生物多序列FASTA>sequence1,E.colictgcgagNcgcgcgatgatagMMM-NNNngnnatgancgcggcgagcatgtagcatgctagctgtcgcgagcactUgaURRRrrrtrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVagvcgtaggcagccgcc>sequence2,B.subtilisctgcgagNcgcgcgatgatagctgactNntnatganncgcggcgagcatgtagcatgctagctgtcgcgagcactUctURRRrrrcrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVcgvcgtaggcagccgcc>sequence3,B.nattoctgcgagNcgcgcgatgatagMcgatcccnatgannncgcggcgagcatgtagcatgctagctgtcgcgagcactUggURRRrrrggrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVaavcgtaggcagccgcc多序列FASTA>sequence1,E.coli43FASTA序列格式中的核苷酸表示法A腺嘌呤(adenosine)MA或C(amino)C胞嘧啶(cytidine)SG或C(strong)G鳥嘌呤(guanine)WA或T(weak)T胸腺嘧啶(thymidine)BG或T或CU尿嘧啶(uridine)DG或A或TRG或A(purine)HA或C或TYT或C(pyrimidine)VG或C或AKG或T(keto)NA或G或C或T(any)–不確定長度間隔43FASTA序列格式中的核苷酸表示法A腺嘌呤(adenos44FASTA序列格式中的氨基酸表示法A丙(alanine)P脯(proline)BD或NQ谷氨酰胺(glutamine)C半胱(cystine)R精(arginine)D天冬(asparticacid)S絲(serine)E谷(glutamicacid)T蘇(threonine)F苯丙(phenylalanine)U硒代半胱(selenocysteine)G甘(glycine)V纈(valine)H組(histidine)W色(tryptophan)I異亮(isoleucine)Y酪

(tyrosine)K賴(lysine)ZE或QL亮(leucine)X任何氨基(any)M甲硫(methionine)*翻譯終止(translationstop)N天冬酰胺(asparagine)–不確定長度間隔44FASTA序列格式中的氨基酸表示法A丙(alanine45GenBank查詢已知收錄號(accessionnumber)的情況選數(shù)據(jù)庫輸入收錄號查詢結果摘要點擊查看詳細結果45GenBank查詢已知收錄號(accessionnum46向GenBank投遞序列GenBank提供多種工具投遞序列,如BankIt(網(wǎng)上投遞)

適于少量的、注釋簡單的序列投遞Sequin(本地投遞;軟件)

適于大量的、復雜的序列投遞 可投遞變異、種系發(fā)生、群體數(shù)據(jù)集 圖形界面操作 選項多、功能強 可向GenBank,EMBL,DDBJ中的任一數(shù)據(jù)庫投遞46向GenBank投遞序列GenBank提供多種工具投遞序PubMedPubMedPubMed查找文獻選擇PubMed文獻數(shù)據(jù)庫PubMed查找文獻選擇PubMed文獻數(shù)據(jù)庫PubMed主頁輸入關鍵詞PubMed主頁輸入關鍵詞PubMed查詢結果所有結果查看摘要免費文章增加篩選條件PubMed查詢結果所有結果查看摘要免費文章增加篩選條件顯示單篇文章摘要鏈接到原雜志顯示單篇文章摘要鏈接到原雜志原文章所在雜志PDF格式下載原文章所在雜志PDF格式下載下載頁面保存下載頁面保存54關鍵詞的選擇不是特殊情況,盡量使用名詞原形,不使用復數(shù)、所有格等盡量使用專業(yè)用語,不使用the,of,and,research等常用詞作為關鍵詞為了減少遺漏,使用盡可能少而精的關鍵詞54關鍵詞的選擇不是特殊情況,盡量使用名詞原形,不使用復數(shù)、BlastBlast序列比對序列比對(sequencealignment)也稱聯(lián)配、隊排,是生物信息學中最常用和最經(jīng)典的手段。通過序列比對,可以推測基因和蛋白質的進化演變規(guī)律,或者推測基因和蛋白質的結構和功能。對于兩個序列之間的比對,稱之為雙序列比對或成對比對。對于多序列之間的比對,稱之為多序列比對。主要有BLAST和ClustalX兩種工具。序列比對序列比對(sequencealignment)也稱Blast比對BLAST比對是BasicLocalAlignmentSearchTool(基本局部比對搜索工具)的英文簡稱,是一種序列類似性檢索工具。NCBI提供了網(wǎng)絡版BIAST搜索線服務。還提供了BLAST搜索程序和下載鏈接。有5個子程序。Blast比對BLAST比對是BasicLocalAli主要的blast程序程序名查詢序列數(shù)據(jù)庫搜索方法Blastn核酸核酸核酸序列搜索逐一核酸數(shù)據(jù)庫中的序列Blastp蛋白質蛋白質蛋白質序列搜索逐一蛋白質數(shù)據(jù)庫中的序列Blastx核酸蛋白質核酸序列6框翻譯成蛋白質序列后和蛋白質數(shù)據(jù)庫中的序列逐一搜索。Tblastn蛋白質核酸蛋白質序列和核酸數(shù)據(jù)庫中的核酸序列6框翻譯后的蛋白質序列逐一比對。TBlastx核酸核酸核酸序列6框翻譯成蛋白質序列,再和核酸數(shù)據(jù)庫中的核酸序列6框翻譯成的蛋白質序列逐一進行比對。主要的blast程序程序名查詢序列數(shù)據(jù)庫搜索方法BlastnBlast結果給出的信息Blast結果會列出跟查詢序列相似性比較高,符合限定要求的序列結果,根據(jù)這些結果可以獲取以下一些信息。1.查詢序列可能具有某種功能2.查詢序列可能是來源于某個物種3.查詢序列可能是某種功能基因的同源基因…這些信息都可以應用到后續(xù)分析中。Blast結果給出的信息Blast結果會列出跟查詢序列相似性從主頁進入blast點此進入blast主頁從主頁進入blast點此進入blast主頁Blast主頁核酸序列比對Blast主頁核酸序列比對參數(shù)設置輸入需要比對的序列數(shù)據(jù)庫選擇程序選擇比對或選擇fasta格式的文件在此輸入序列或序列登錄號(AC)參數(shù)設置輸入需要比對的序列數(shù)據(jù)庫選擇程序選擇比對或選擇fa結果解讀結果有三部分組成:

1.結果總覽

2.序列比對結果的描述3.各序列比對的詳情結果解讀結果有三部分組成:1.結果總覽紅、粉、綠、藍、黑五種顏色,紅色同源性最高,排在最上面,其他依次降低,黑色最低。每一條線代表搜索匹配的一條序列;1.結果總覽紅、粉、綠、藍、黑五種顏色,紅色同源性最高,排在2.比對結果描述與目標序列同源性最高的結果在最上面,E值最低,score最大,點擊序列號可以查看詳細信息。點擊score可以打開對應的比對詳細信息。轉錄產物序列基因序列匹配序列表帶有genbank的鏈接,點擊可以進入相應的genbank序列目標序列描述部分匹配情況,分值,e值2.比對結果描述與目標序列同源性最高的結果在最上面,E值最低Blast程序評價序列相似性的兩個數(shù)據(jù)

Score:使用打分矩陣對匹配的片段進行打分,這是對各對氨基酸殘基(或堿基)打分求和的結果,一般來說,匹配片段越長、相似性越高則Score值越大。Evalue:在相同長度的情況下,兩個氨基酸殘基(或堿基)隨機排列的序列進行打分,得到上述Score值的概率的大小。E值越小表示隨機情況下得到該Score值的可能性越低。Blast程序評價序列相似性的兩個數(shù)據(jù)

Score:使用打分3、各序列比對詳情因申請者提交的要求不同,行列輸出有不同的形式,系統(tǒng)默認的是配對行列輸出,即查詢序列與數(shù)據(jù)庫中匹配的序列垂直對應??瘴徊糠执聿樵冃蛄信c檢索匹配序列不一致。3、各序列比對詳情因申請者提交的要求不同,行列輸出有不同的形雙序列比對Blast比對后,當在數(shù)據(jù)庫中搜索到多個顯著相似的序列時,目的序列是否與數(shù)據(jù)庫中檢索到的序列真正有關聯(lián),這時就需要進行雙序列比對(pairwisealignment)。通過雙序列比對分析,可以找出兩序列之間的最大相似性匹配,進而判斷兩者是否具有同源性。雙序列比對Blast比對后,當在數(shù)據(jù)庫中Blast主頁雙序列比對Blast主頁雙序列比對ThankyouandquestionsThankyouandquestions調課通知第11周周五5、6節(jié)

調到13周周五7、8節(jié)6舍411第12周周三1、2節(jié)

調到13周周三3、4節(jié)6舍411調課通知第11周周五5、6節(jié)生物信息學NCBI數(shù)據(jù)庫課件生物信息學課件吳曉龍生物信息學課件吳曉龍講述內容

一、生物信息學和我的實驗室

二、NCBI數(shù)據(jù)庫講述內容一、生物信息學和我的實驗室一、生物信息學和我的實驗室一、生物信息學和我的實驗室生物信息學(Bioinformatics)是在生命科學的研究中,以計算機為工具對生物信息進行儲存、檢索和分析的科學。它是當今生命科學和自然科學的重大前沿領域之一,同時也將是21世紀自然科學的核心領域之一。其研究重點主要體現(xiàn)在基因組學(Genomics)和蛋白質組學(Proteomics)兩方面,具體說就是從核酸和蛋白質序列出發(fā),分析序列中表達的結構功能的生物信息。1、生物信息學介紹生物信息學(Bioinformatics)是在生命科學的研究具體而言,生物信息學作為一門新的學科領域,它是把基因組DNA序列信息分析作為源頭,在獲得蛋白質編碼區(qū)的信息后進行蛋白質空間結構模擬和預測,然后依據(jù)特定蛋白質的功能進行必要的藥物設計?;蚪M信息學,蛋白質空間結構模擬以及藥物設計構成了生物信息學的3個重要組成部分。生物信息學NCBI數(shù)據(jù)庫課件主要研究方向1、序列比對2、蛋白質結構比對和預測3、基因識別非編碼區(qū)分析研究4、分子進化和比較基因組學6、遺傳密碼的起源7、基于結構的藥物設計8、生物系統(tǒng)的建模和仿真……主要研究方向1、序列比對簡單重復序列

簡單重復序列(SimpleSequenceRepeats,SSRs)也稱微衛(wèi)星序列(Microsatellites)或短串聯(lián)重復序列(ShortTandemRepeats,STRs),是由1-6個堿基對組成的串聯(lián)重復DNA片段。SSRs在真核和原核生物的基因組中分布廣泛、數(shù)量豐富,并具有較高的突變頻率。

如:(A)n、(ACG)n、(ATCG)、(ACCCTT)n

2、我的實驗室簡單重復序列2、我的實驗室簡單重復序列與人類疾病

簡單重復序列是廣泛分布在人類基因組中的,盡管其中很多功能都不太清楚,但是既然存在總有它存在的意義。下面總結了一些人類基因組中由于SSR擴增或變異所引起的相關疾病簡單重復序列與人類疾病

生物信息學NCBI數(shù)據(jù)庫課件我們實驗是近幾年發(fā)的文章我們實驗是近幾年發(fā)的文章生物信息學NCBI數(shù)據(jù)庫課件生物信息學NCBI數(shù)據(jù)庫課件生物信息學NCBI數(shù)據(jù)庫課件NCBI數(shù)據(jù)庫1、國外的重要生物信息中心

2、NCBI介紹NCBI數(shù)據(jù)庫1、國外的重要生物信息中心1、國外重要生物信息中心1、國外重要生物信息中心88NCBI美國國家生物技術信息中心(NationalCenterforBiotechnologyInformation)前身是NIH所屬的一個研究所的計算生物學研究室,1988年獨立為NCBI,形式上屬于國家醫(yī)學圖書館(NationalLibraryofMedicine/NLM)管理著許多著名數(shù)據(jù)庫,如GenBank、Medline、dbSNP、COG、OMIM等提供Entrez、BLAST等服務

17NCBI美國國家生物技術信息中心(NationalCeNCBIhomepageNCBIhomepage90EBI歐洲生物信息學研究所(EuropeanBioinformaticsInstitute)1994年建于英國劍橋,前身是德國海德堡的歐洲分子生物學實驗室的信息服務部門EBI接收了原來EMBL數(shù)據(jù)庫的管理和維護是歐洲分子生物學網(wǎng)(EMBnet)的一個特別節(jié)點http://www.ebi.ac.uk/(主頁)http://www2.ebi.ac.uk/(工具)http://www3.ebi.ac.uk/(服務)19EBI歐洲生物信息學研究所(EuropeanBioin91EMBLhomepage20EMBLhomepage92NIG日本國立遺傳學研究所(NationalInstituteofGenetics)創(chuàng)立于1949年7月1日,屬文部省管轄信息服務始于1984年維護管理著DDBJ1987年1月發(fā)行DDBJ第一版http://www.nig.ac.jp21NIG日本國立遺傳學研究所(NationalInsti93DDBJhomepage22DDBJhomepage94國際核苷酸序列數(shù)據(jù)庫聯(lián)盟InternationalNucleotideSequenceDatabaseCollaboration(INSDC)包括GenBank [美]/GenbankEMBL [歐]http://www.ebi.ac.uk/embl/

DDBJ [日]http://www.ddbj.nig.ac.jp/

每天這三個數(shù)據(jù)庫作數(shù)據(jù)同步操作在任何一個數(shù)據(jù)庫操作(查找、投遞數(shù)據(jù)等)是等效的23國際核苷酸序列數(shù)據(jù)庫聯(lián)盟InternationalNu95TIGR基因組研究所(TheInstituteforGenomicResearch)是重要的測序中心1992年建立1995年參與完成首次全基因組測序(流感嗜血桿菌)擁有世界最大的cDNA數(shù)據(jù)庫之一/24TIGR基因組研究所(TheInstitutefor96基因圖譜數(shù)據(jù)庫

RHdb(輻射雜交;人、鼠),GDB(人類),GeneMap(人類;NCBI)生物醫(yī)學文獻數(shù)據(jù)庫

MEDLINE3800多種生物醫(yī)學期刊(通過PubMed查詢)

SCIISI提供的文獻引用檢索(收費)人類基因組相關數(shù)據(jù)庫

GDB(人類基因組),

OMIM(遺傳,變異),HGVbase[瑞典](變異,雙等位序列)其他模式生物的基因組數(shù)據(jù)庫DOGS(

DatabaseofGenomeSizes[丹麥]綜合)線蟲ACeDB,Sanger果蠅FlyBase,Berkeley小鼠MGD,Japan

酵母Stanford,MIPS

大腸桿菌WISCDNA結構數(shù)據(jù)庫CUTG(CodonUsageTabulatedfromGenBank,密碼子使用頻度表)[日]EPD(EukaryoticPromotorDatabase,真核生物啟動子數(shù)據(jù)庫)[歐]TRANSFAC(真核生物基因表達調控因子的數(shù)據(jù)庫)[德]

RepBase(重復序列),MicroSatellite(微衛(wèi)星),COMPEL(復合元件),MPDB(分子探針),NDB(晶體),VectorDB(載體),EID(外顯內含子)25基因圖譜數(shù)據(jù)庫97BioSino是中國自主開發(fā)的核酸序列公共數(shù)據(jù)庫發(fā)表我國學者提供的核酸序列,并接受注冊登記有CDNAP和DDIB兩個產品//DIDWeb/index.html26BioSNCBI介紹

NCBI介紹NCBI美國國家生物技術信息中心(NationalCenterforBiotechnologyInformation)前身是NIH所屬的一個研究所的計算生物學研究室,1988年獨立為NCBI,形式上屬于國家醫(yī)學圖書館(NationalLibraryofMedicine/NLM)管理著許多著名數(shù)據(jù)庫,如GenBank、Medline、dbSNP、OMIM等提供Entrez、BLAST等服務

NCBI美國國家生物技術信息中心(NationalCenNCBI美國國家生物技術信息中心(NationalCenterforBiotechnologyInformation)前身是NIH所屬的一個研究所的計算生物學研究室,1988年獨立為NCBI,形式上屬于國家醫(yī)學圖書館(NationalLibraryofMedicine/NLM)管理著許多著名數(shù)據(jù)庫,如GenBank、Medline、dbSNP、OMIM等提供Entrez、BLAST等服務

NCBI美國國家生物技術信息中心(NationalCen它的使命包括四項任務:1.建立關于分子生物學,生物化學,和遺傳學知識的存儲和分析的自動系統(tǒng)。2.實行關于用于分析生物學重要分子和復合物的結構和功能的基于計算機的信息處理的,先進方法的研究。3.加速生物技術研究者和醫(yī)藥治療人員對數(shù)據(jù)庫和軟件的使用。4.全世界范圍內的生物技術信息收集的合作努力。它的使命包括四項任務:1.建立關于分子生物學,生物化學,和遺NCBI數(shù)據(jù)庫介紹

Nucleotide

美國國立衛(wèi)生研究院GenBank。Genome

即基因組數(shù)據(jù)庫,提供了多種基因組、完全染色體、

Contiged序列圖譜以及一體化基因物理圖譜。Pubmed

文獻數(shù)據(jù)庫。Structures

即結構數(shù)據(jù)庫或稱分子模型數(shù)據(jù)庫(MMDB),包含來自

X線晶體學和三維結構的實驗數(shù)據(jù)。MMDB的數(shù)據(jù)從

PDB(ProteinDataBank)獲得。Taxonomy

即生物學門類數(shù)據(jù)庫,可以按生物學門類進行檢索或瀏覽其核苷酸序列、蛋白質序列、結構等。

……

NCBI數(shù)據(jù)庫介紹103Nucleotideandgenome

32Nucleotideandgenome

Nucleotide該數(shù)據(jù)庫由國際核苷酸序列數(shù)據(jù)庫成員美國國立衛(wèi)生研究院GenBank、日本DNA數(shù)據(jù)庫(DDBJ)和英國HinxtonHall的歐洲分子生物學實驗室數(shù)據(jù)庫(EMBL)三部分數(shù)據(jù)組成。

這三個組織聯(lián)合組成國際核苷酸序列數(shù)據(jù)庫協(xié)作體,每天交換各自數(shù)據(jù)庫中的新增序列記錄實現(xiàn)數(shù)據(jù)共享。其中的核酸序列數(shù)據(jù)也通過與基因組序列數(shù)據(jù)庫(GSDB)合作獲取。Nucleotide選擇數(shù)據(jù)庫輸入關鍵字NCBI主頁進入Entrez檢索選擇數(shù)據(jù)庫輸入關鍵字NCBI主頁進入Entrez檢索Entrez簡介Entrez是個全局的生物醫(yī)學搜索引擎,他可以檢索的數(shù)據(jù)庫主要包括三類:(1)文獻數(shù)據(jù)庫:PubMed,PubMedCentral,Journals,Books,OMIM,OMIA。(2)序列數(shù)據(jù)庫:Nucleotide,Protein,Genome,Strcture,SNP。(3)其他數(shù)據(jù)庫:Taxonomy,Gene,Probe,PopSet等Entrez簡介Entrez是個全局的無對應結果相關的結果Entrez檢索的結果Entrez功能強大,在于它的大多數(shù)記錄可相互鏈接,既可在同一數(shù)據(jù)庫內鏈接,也可在數(shù)據(jù)庫之間進行鏈接。Entrezbrowser來查詢各種數(shù)據(jù)(集成搜索工具)無對應結果相關的結果Entrez檢索的結果Entr基因組的相關的信息查看詳細結果基因組的相關的信息查看詳細結果生物信息學NCBI數(shù)據(jù)庫課件詳細結果序列部分注釋部分下載格式選擇詳細結果序列部分注釋部分下載格式選擇注釋部分基因位點(Locus)、基因定義(Definition)、基因存取號(Accession)、關鍵詞(Keywords)、來源(Source)、組織分類(Organism)、參考文獻(Reference)、著者(Author)、題目(Title)、期刊(Journal)、序列特征(Features)、基因(Gene)、蛋白質編碼序列CDS(cDNA)

、5’非翻譯區(qū)(5’UTR)、3’非翻譯區(qū)3’UTR)、mRNA的polyA位置(polyA_site)、信使RNA(mRNA)、外顯子(exon)、內含子(intron)、原序列(Origin)。注釋部分基因位點(Locus)、基因定義(Definitio常用序列格式:FASTA格式

1.定義:在生物信息學中,F(xiàn)ASTA格式(又稱為Pearson格式),是一種基于文本用于表示核苷酸序列或氨基酸序列的格式。在這種格式中堿基對或氨基酸用單個字母來編碼,且允許序列前添加序列名及注釋。通常核苷酸符號大小寫均可,而氨基酸常用大寫字母。

2.特點:簡單使用最多例子(單序列):>gi|9629267|ref|NC_001798.1|Humanherpesvirus2,completegenomeAGTCCCCGTCCTGCCGCGCGGGGGCGGGCGCGGGAAAAAAGCCGCGCGGGGGCGCCCGCGGGAAGGCAGCCCCGCGGCGCGCGGGGGGAGGGGCGGCGCCCGCGGGGGAGCGGCCGGCTCCGGGGGAGGGACGGGGAAGG……….常用序列格式:FASTA格式1.定義:在生物多序列FASTA>sequence1,E.colictgcgagNcgcgcgatgatagMMM-NNNngnnatgancgcggcgagcatgtagcatgctagctgtcgcgagcactUgaURRRrrrtrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVagvcgtaggcagccgcc>sequence2,B.subtilisctgcgagNcgcgcgatgatagctgactNntnatganncgcggcgagcatgtagcatgctagctgtcgcgagcactUctURRRrrrcrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVcgvcgtaggcagccgcc>sequence3,B.nattoctgcgagNcgcgcgatgatagMcgatcccnatgannncgcggcgagcatgtagcatgctagctgtcgcgagcactUggURRRrrrggrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVaavcgtaggcagccgcc多序列FASTA>sequence1,E.coli114FASTA序列格式中的核苷酸表示法A腺嘌呤(adenosine)MA或C(amino)C胞嘧啶(cytidine)SG或C(strong)G鳥嘌呤(guanine)WA或T(weak)T胸腺嘧啶(thymidine)BG或T或CU尿嘧啶(uridine)DG或A或TRG或A(purine)HA或C或TYT或C(pyrimidine)VG或C或AKG或T(keto)NA或G或C或T(any)–不確定長度間隔43FASTA序列格式中的核苷酸表示法A腺嘌呤(adenos115FASTA序列格式中的氨基酸表示法A丙(alanine)P脯(proline)BD或NQ谷氨酰胺(glutamine)C半胱(cystine)R精(arginine)D天冬(asparticacid)S絲(serine)E谷(glutamicacid)T蘇(threonine)F苯丙(phenylalanine)U硒代半胱(selenocysteine)G甘(glycine)V纈(valine)H組(histidine)W色(tryptophan)I異亮(isoleucine)Y酪

(tyrosine)K賴(lysine)ZE或QL亮(leucine)X任何氨基(any)M甲硫(methionine)*翻譯終止(translationstop)N天冬酰胺(asparagine)–不確定長度間隔44FASTA序列格式中的氨基酸表示法A丙(alanine116GenBank查詢已知收錄號(accessionnumber)的情況選數(shù)據(jù)庫輸入收錄號查詢結果摘要點擊查看詳細結果45GenBank查詢已知收錄號(accessionnum117向GenBank投遞序列GenBank提供多種工具投遞序列,如BankIt(網(wǎng)上投遞)

適于少量的、注釋簡單的序列投遞Sequin(本地投遞;軟件)

適于大量的、復雜的序列投遞 可投遞變異、種系發(fā)生、群體數(shù)據(jù)集 圖形界面操作 選項多、功能強 可向GenBank,EMBL,DDBJ中的任一數(shù)據(jù)庫投遞46向GenBank投遞序列GenBank提供多種工具投遞序PubMedPubMedPubMed查找文獻選擇PubMed文獻數(shù)據(jù)庫PubMed查找文獻選擇PubMed文獻數(shù)據(jù)庫PubMed主頁輸入關鍵詞PubMed主頁輸入關鍵詞PubMed查詢結果所有結果查看摘要免費文章增加篩選條件PubMed查詢結果所有結果查看摘要免費文章增加篩選條件顯示單篇文章摘要鏈接到原雜志顯示單篇文章摘要鏈接到原雜志原文章所在雜志PDF格式下載原文章所在雜志PDF格式下載下載頁面保存下載頁面保存125關鍵詞的選擇不是特殊情況,盡量使用名詞原形,不使用復數(shù)、所有格等盡量使用專業(yè)用語,不使用the,of,and,research等常用詞作為關鍵詞為了減少遺漏,使用盡可能少而精的關鍵詞54關鍵詞的選擇不是特殊情況,盡量使用名詞原形,不使用復數(shù)、BlastBlast序列比對序列比對(sequencealignment)也稱聯(lián)配、隊排,是生物信息學中最常用和最經(jīng)典

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論