生物信息學(xué)市公開(kāi)課獲獎(jiǎng)?wù)n件_第1頁(yè)
生物信息學(xué)市公開(kāi)課獲獎(jiǎng)?wù)n件_第2頁(yè)
生物信息學(xué)市公開(kāi)課獲獎(jiǎng)?wù)n件_第3頁(yè)
生物信息學(xué)市公開(kāi)課獲獎(jiǎng)?wù)n件_第4頁(yè)
生物信息學(xué)市公開(kāi)課獲獎(jiǎng)?wù)n件_第5頁(yè)
已閱讀5頁(yè),還剩57頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、生物信息學(xué)第二章:序列采集和存儲(chǔ)第1頁(yè)第1頁(yè)中心法則DNA:Deoxyribonucleic acid,脫氧核糖核酸;RNA:RiboNucleic Acid,核糖核酸;第2頁(yè)第2頁(yè)堿基第3頁(yè)第3頁(yè)核苷酸,Ribonucleotide 第4頁(yè)第4頁(yè)脫氧核苷酸Deoxyribonucleotide第5頁(yè)第5頁(yè)雙脫氧核糖核苷酸Dideoxyribonucleotide第6頁(yè)第6頁(yè)DNA結(jié)構(gòu)第7頁(yè)第7頁(yè)RNA結(jié)構(gòu)第8頁(yè)第8頁(yè)氨基酸結(jié)構(gòu)第9頁(yè)第9頁(yè)氨基酸性質(zhì)及分類(lèi)第10頁(yè)第10頁(yè)氨基酸周期表第11頁(yè)第11頁(yè)原則密碼子第12頁(yè)第12頁(yè)本章內(nèi)容提綱1. DNA測(cè)序2. 序列數(shù)據(jù)存儲(chǔ)核酸序列數(shù)據(jù)庫(kù)蛋白質(zhì)序列

2、數(shù)據(jù)庫(kù)基因組數(shù)據(jù)庫(kù)3. 序列數(shù)據(jù)文獻(xiàn)格式第13頁(yè)第13頁(yè)1. DNA測(cè)序DNA一次連續(xù)測(cè)序長(zhǎng)度約為500bp;EST (Expressed sequence tag) 測(cè)序:細(xì)胞中mRNA反轉(zhuǎn)錄成cDNA,方向不定測(cè)序;GSS (Genome Survey Sequences,基因組勘測(cè)序列):類(lèi)似于ESTs,起源基因組;HTG (High-throughput genome sequences,高通量基因組序列):高通量、尚未竣工DNA序列;第14頁(yè)第14頁(yè)DNA 測(cè)序試驗(yàn)辦法(末端終止法)CATddGTPddTTPddATP(D)第15頁(yè)第15頁(yè)第16頁(yè)第16頁(yè)第17頁(yè)第17頁(yè)使用寡核苷酸

3、引物連續(xù)測(cè)序第18頁(yè)第18頁(yè)基因組測(cè)序:兩種方案策略1. 基因圖譜法:DNA片段在染色體上位置、方向已知。首先染色體被打斷成150200kbp左右大片段,然后克隆到BACs (Bacterial Artificial Chromosome)中,再進(jìn)一步隨機(jī)打斷,克隆,測(cè)序,依托計(jì)算機(jī)組裝成長(zhǎng)序列(contig) 。2. “鳥(niǎo)槍法”(shotgun):DNA片段在染色體上位置和方向未知。全基因組隨機(jī)打斷成小片段,克隆,雙向測(cè)序,計(jì)算機(jī)組裝成長(zhǎng)序列。第19頁(yè)第19頁(yè)人類(lèi)基因組計(jì)劃 基因組圖譜:遺傳圖譜,物理圖譜 遺傳圖譜(genetic map):連鎖圖譜,顯示所知基因和/或遺傳標(biāo)識(shí)相對(duì)距離位置與

4、順序。物理圖譜(physical map):表示一些基因和/或遺傳標(biāo)識(shí)之間在基因組上準(zhǔn)確位置和距離(如間隔bp數(shù)目)圖譜。第20頁(yè)第20頁(yè)第21頁(yè)第21頁(yè)大規(guī)模測(cè)序辦法第22頁(yè)第22頁(yè)2. 序列數(shù)據(jù)存儲(chǔ)核酸序列數(shù)據(jù)庫(kù)國(guó)際三大核酸序列數(shù)據(jù)庫(kù):GenBank, EBML, DDBJRefSeq: The Reference Sequence DatabasedbEST: Expressed Sequences Tags數(shù)據(jù)庫(kù)UniGene等蛋白質(zhì)序列數(shù)據(jù)庫(kù)UniProtSwiss-prot & TrEMBL, PIR基因組數(shù)據(jù)庫(kù): Ensembl第23頁(yè)第23頁(yè)核酸數(shù)據(jù)庫(kù)數(shù)據(jù)增長(zhǎng)第24頁(yè)第24頁(yè)G

5、enBank由美國(guó)國(guó)立衛(wèi)生研究院NIH下屬?lài)?guó)立生物技術(shù)信息中心NCBI建立。匯集并注釋了所有公開(kāi)核酸以及蛋白質(zhì)序列。每個(gè)統(tǒng)計(jì)代表了一個(gè)單獨(dú)、連續(xù)、帶有注釋DNA或RNA片段。第25頁(yè)第25頁(yè)GenBank中測(cè)序最多20個(gè)物種161.0版,第26頁(yè)第26頁(yè)EMBL核酸序列數(shù)據(jù)庫(kù)EMBL-EBI (European Bioinformatics Institute)維護(hù);http:/www.ebi.ac.uk/embl/第27頁(yè)第27頁(yè)NIG (National Institute of Genetics)CIB (Center for Information Biology)http:/www.

6、ddbj.nig.ac.jp/index-e.htmlDDBJ第28頁(yè)第28頁(yè)INSDC1998年,GenBank、EMBL和DDBJ共同成立了國(guó)際核酸序列數(shù)據(jù)庫(kù)協(xié)會(huì) (International Nucleotide Sequence Database Collaboration,INSDC)三大核酸數(shù)據(jù)庫(kù)之間天天將新測(cè)定或更新數(shù)據(jù)進(jìn)行互換共享,確保數(shù)據(jù)信息完整與同時(shí),每?jī)蓚€(gè)月更新一次版本。/第29頁(yè)第29頁(yè)第30頁(yè)第30頁(yè)三大數(shù)據(jù)庫(kù)之間聯(lián)系第31頁(yè)第31頁(yè)RefSeq數(shù)據(jù)庫(kù)1. 提供非冗余,高質(zhì)量,經(jīng)檢查校正序列信息;2. 包括染色體、基因組(細(xì)胞器、病毒、質(zhì)粒)、蛋白質(zhì)、RNA等; 序列

7、文獻(xiàn)標(biāo)識(shí)符:mRNA序列:NM_123456非編碼RNA:NR_123456蛋白質(zhì)序列: NP_123456 /RefSeq第32頁(yè)第32頁(yè)第33頁(yè)第33頁(yè)RefSeq統(tǒng)計(jì)特性截然不同Accession號(hào)區(qū)分于其它GenBank命名格式序列,前綴是兩個(gè)字母加下劃線(xiàn) _;在Comment區(qū)域顯示起源;使用正式命名;包含dbxrefs特性;蛋白序列在DBSOURCE區(qū)域標(biāo)示 REFSEQ第34頁(yè)第34頁(yè)GenBank VS. RefSeq第35頁(yè)第35頁(yè)dbEST: 表示序列標(biāo)簽數(shù)據(jù)庫(kù)最多20個(gè)物種:.08,總序列45,660,524條/dbEST/第36頁(yè)第36頁(yè)UniGene: An Orga

8、nized View of the Transcriptome為每一個(gè)基因創(chuàng)造一個(gè)唯一條目,搜集這個(gè)基因所有ESTs/unigene第37頁(yè)第37頁(yè)Swiss-Prot & TrEMBL 最早廣泛使用蛋白數(shù)據(jù)庫(kù);歐洲最主要蛋白序列數(shù)據(jù)庫(kù);http:/www.expasy.ch/sprot/SIB(Swiss Institute of Bioinformatics)可由ExPASy(Expert Protein Analysis System)系統(tǒng)訪(fǎng)問(wèn);所有序列條目均通過(guò)有經(jīng)驗(yàn)分子生物學(xué)家和蛋白質(zhì)化學(xué)家審核,因此又稱(chēng)為蛋白質(zhì)專(zhuān)家?guī)?。?8頁(yè)第38頁(yè)TrEMBL vs. GenPeptTrEMBL

9、 (Translation of EMBL):計(jì)算機(jī)注釋Swiss-Prot分支數(shù)據(jù)庫(kù),從EMBL庫(kù)中cDNA序列翻譯得到氨基酸序列數(shù)據(jù)庫(kù)。GenPept:由GenBank翻譯得到蛋白質(zhì)序列,與TrEMBL類(lèi)似,這兩個(gè)數(shù)據(jù)庫(kù)中序列錯(cuò)誤率較大,都有較大冗余度。第39頁(yè)第39頁(yè)P(yáng)IR1984年,美國(guó)國(guó)家醫(yī)學(xué)研究基金會(huì)(NREF)正式啟動(dòng)蛋白質(zhì)信息資源(Protein Information Resource, PIR)計(jì)劃;美國(guó)最主要蛋白序列數(shù)據(jù)庫(kù);非冗余、高質(zhì)量注釋、全面分類(lèi);PIR數(shù)據(jù)庫(kù)按照數(shù)據(jù)性質(zhì)和注釋層次分為PIR1、PIR2、PIR3和PIR4。PIR1中序列已經(jīng)驗(yàn)證,注釋最為詳盡。/第

10、40頁(yè)第40頁(yè)UniProtUniversal Protein Resource: Swiss-prot(TrEMBL), PIR兩大蛋白數(shù)據(jù)庫(kù)整合體;收錄蛋白質(zhì)序列目錄最廣泛、功效注釋最全面數(shù)據(jù)庫(kù);包括三個(gè)子庫(kù):UniProtKB(UniProt Knowledgebase)UniRef(UniProt Reference Clusters)UniParc(Uniprot Archive)第41頁(yè)第41頁(yè)第42頁(yè)第42頁(yè)UniProtKBUniProt Knowledgebase: Release 15.4 , 16-Jun- ,包括:Swiss-Prot Release 57.4 : 49

11、7293 entries TrEMBL Release 40.4 : 9145906 entries 包括蛋白質(zhì)序列全面信息,提供準(zhǔn)確、豐富序列與功效注釋。統(tǒng)計(jì)以6位字母和數(shù)字構(gòu)成,例:Q5K8D3 第43頁(yè)第43頁(yè)第44頁(yè)第44頁(yè)Swiss-Prot Release 57.7第45頁(yè)第45頁(yè)第46頁(yè)第46頁(yè)TrEMBL Release 40.4第47頁(yè)第47頁(yè)較早基因組數(shù)據(jù)庫(kù)- GDB為人類(lèi)基因組計(jì)劃(HGP)保留和處理基因組圖譜數(shù)據(jù)。GDB目的是構(gòu)建關(guān)于人類(lèi)基因組百科全書(shū),除了構(gòu)建基因組圖譜之外,還開(kāi)發(fā)了描述序列水平基因組內(nèi)容辦法,包括序列變異和其它對(duì)功效和表型描述。第48頁(yè)第48頁(yè)基因組

12、數(shù)據(jù)庫(kù)搜集一些生物整個(gè)基因組序列數(shù)據(jù)庫(kù);基因組計(jì)劃Human Genome Projecthttp:/www.sanger.ac.uk/HGP/Sequencing Genomics Projectshttp:/www.sanger.ac.uk/Projects/ 從GenBank中選擇同一物種核酸信息構(gòu)成二級(jí)庫(kù);第49頁(yè)第49頁(yè)The Ensembl project produces genome databases for vertebrates and other eukaryotic species, and makes this information freely availabl

13、e online.EMBL-EBI和Sanger研究所共同開(kāi)發(fā)。/基因組數(shù)據(jù)庫(kù)-Ensembl第50頁(yè)第50頁(yè)3. 序列數(shù)據(jù)文獻(xiàn)格式DNA/RNA/氨基酸代碼標(biāo)識(shí)GenBank數(shù)據(jù)格式EMBL & UniProt數(shù)據(jù)格式FASTA 數(shù)據(jù)格式第51頁(yè)第51頁(yè)DNA代碼氨基酸代碼第52頁(yè)第52頁(yè)GenBank數(shù)據(jù)文獻(xiàn)格式第53頁(yè)第53頁(yè)GenBank數(shù)據(jù)文獻(xiàn)格式第54頁(yè)第54頁(yè)GenBank數(shù)據(jù)文獻(xiàn)格式子庫(kù)Locus名字定義 (標(biāo)題)修改日期序列類(lèi)型mRNA (= cDNA)rRNAsnRNADNA序列長(zhǎng)度檢索號(hào)Genbank號(hào)序列形狀第55頁(yè)第55頁(yè)GenBank數(shù)據(jù)類(lèi)型第56頁(yè)第56頁(yè)GenBank數(shù)據(jù)文獻(xiàn)格式第57頁(yè)第57頁(yè)GenBank數(shù)據(jù)文獻(xiàn)格式第58頁(yè)第58頁(yè)EMBL(UniProt)數(shù)據(jù)格式第59頁(yè)第59頁(yè)EMBL和GenBank數(shù)據(jù)格式對(duì)比第60頁(yè)第60頁(yè)FASTA格式第61頁(yè)第61頁(yè)FASTA格式1I60:A|PDBID|CHAIN|SEQUENCEMKLCFNEATTLENSNLKLDLELCEKHGYDYIEIRTMDKLPEYLKDHSLDDLAEYFQTHHIKPLALNALVF

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論