生物信息學(xué)教學(xué):第1章課件_第1頁
生物信息學(xué)教學(xué):第1章課件_第2頁
生物信息學(xué)教學(xué):第1章課件_第3頁
生物信息學(xué)教學(xué):第1章課件_第4頁
生物信息學(xué)教學(xué):第1章課件_第5頁
已閱讀5頁,還剩67頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第一章 DNA、RNA和蛋白質(zhì)序列信息資源DNA、RNA And Protein Sequence Information Resources生物信息學(xué)數(shù)據(jù)庫生物信息學(xué)中的各類數(shù)據(jù)庫幾乎覆蓋了生命科學(xué)的各個(gè)領(lǐng)域,如核酸序列數(shù)據(jù)庫,蛋白質(zhì)序列數(shù)據(jù)庫,蛋白質(zhì)、核酸、多糖的三維結(jié)構(gòu)數(shù)據(jù)庫,基因組數(shù)據(jù)庫,文獻(xiàn)數(shù)據(jù)庫和其他種類數(shù)據(jù)庫。 生物信息學(xué)數(shù)據(jù)庫分類 生物信息數(shù)據(jù)庫種類繁多,就目前來看, 大體可以分為四個(gè)大類: 1.基因組數(shù)據(jù)庫; 2.核酸和蛋白質(zhì)一級(jí)結(jié)構(gòu)序列數(shù)庫; 3.生物大分子(主要是蛋白質(zhì))三維空間結(jié)構(gòu)數(shù)據(jù)庫; 4.根據(jù)以上三類數(shù)據(jù)庫和文獻(xiàn)資料為 基礎(chǔ)構(gòu)建的二次數(shù)據(jù)庫。也稱專門數(shù)據(jù)庫、專業(yè)數(shù)

2、據(jù)庫或?qū)S脭?shù)據(jù)庫。 一級(jí)數(shù)據(jù)庫第二節(jié) 核酸序列數(shù)據(jù)庫Section 2 Nucleic Acid sequence Databases自20世紀(jì)80年代第一個(gè)核酸數(shù)據(jù)庫建立以來,核酸數(shù)據(jù)庫迅速發(fā)展。在互聯(lián)網(wǎng)上不僅有核酸序列數(shù)據(jù)庫,還出現(xiàn)了基因組相關(guān)數(shù)據(jù)庫、核酸三維結(jié)構(gòu)數(shù)據(jù)庫、基因表達(dá)數(shù)據(jù)庫、人類基因突變及疾病相關(guān)數(shù)據(jù)庫、進(jìn)化相關(guān)數(shù)據(jù)庫及其他與核酸有關(guān)的數(shù)據(jù)庫。 三大核酸序列數(shù)據(jù)庫 GenBankEMBLDDBJ 特殊類型核酸序列數(shù)據(jù)庫:非編碼RNA數(shù)據(jù)庫(ncRNA);表達(dá)序列標(biāo)簽數(shù)據(jù)庫(dbEST);序列標(biāo)簽位點(diǎn)數(shù)據(jù)庫(dbSTS);miRBase ;tRNAdb等。 基因組相關(guān)數(shù)據(jù)庫:人類

3、基因組數(shù)據(jù)庫(HGD);基因組序列數(shù)據(jù)庫(GSDB);基因組在線數(shù)據(jù)庫(GOLD)等。核酸三維結(jié)構(gòu)數(shù)據(jù)庫:核苷酸三維結(jié)構(gòu)數(shù)據(jù)庫(NDB);普納大學(xué)核酸結(jié)構(gòu)數(shù)據(jù)庫(BNASDB)等?;虮磉_(dá)數(shù)據(jù)庫:基因表達(dá)庫(GEO);斯坦福微陣列數(shù)據(jù)庫(SMD);ArrayExpress;CGED;GXD;BodyMap 等。人類基因突變及疾病相關(guān)數(shù)庫:人類基因變異數(shù)據(jù)庫(HMGD)、人類遺傳雙等位基因序列數(shù)據(jù)庫(HGBASE)、人類孟德爾遺傳在線(OMIM)、國際單體型計(jì)劃(HapMap)、人類單核苷酸多態(tài)性數(shù)據(jù)庫(dbSNP)、腫瘤基因數(shù)據(jù)庫(TGDB)、疾病關(guān)聯(lián)數(shù)據(jù)庫(GAD)、癌癥基因數(shù)據(jù)庫(CGAP

4、)、人類表觀遺傳數(shù)據(jù)庫(HEP)、人類DNA甲基化與癌癥數(shù)據(jù)庫(MethylCancer)等。一、GenBank數(shù)據(jù)庫 GenBank(http:/genbank/)是一個(gè)綜合數(shù)據(jù)庫,該數(shù)據(jù)庫中包含了已經(jīng)公開的30萬余種不同物種生物的核酸序列,這些數(shù)據(jù)主要來源于全世界不同實(shí)驗(yàn)室和大規(guī)模測(cè)序計(jì)劃項(xiàng)目。 GenBank是具有目錄和生物學(xué)注釋的核酸序列綜合數(shù)據(jù)庫,由美國國家醫(yī)學(xué)圖書館的國家生物技術(shù)信息中心構(gòu)建、維護(hù)和管理。該中心位于美國馬里蘭國家健康研究所(NIH)。GenBank數(shù)據(jù)庫的序列數(shù)據(jù)來源于序列發(fā)現(xiàn)者提交的序列、批量提交的表達(dá)序列標(biāo)簽(expressed sequence tag, ES

5、T)、基因組測(cè)序序列(genome survey sequence, GSS)和其他測(cè)序中心提供的高通量數(shù)據(jù),還包括美國專利商標(biāo)局提供的已發(fā)表專利的序列數(shù)據(jù)。 GenBank數(shù)據(jù)庫每天與歐洲分子生物學(xué)實(shí)驗(yàn)室的核酸序列數(shù)據(jù)庫(European Molecular Biology Laboratory Nucleotide Sequence Database,EMBL)和日本的DNA數(shù)據(jù)庫(DNA Data Bank of Japan DDBJ)進(jìn)行數(shù)據(jù)交換,以保證數(shù)據(jù)庫內(nèi)容在全世界范圍的同步性。 在NCBI(http:/)的主頁上提供了進(jìn)入GenBank的路徑、相關(guān)檢索和分析服務(wù)。通過NCBI的

6、檢索系統(tǒng)(Entrez)可以進(jìn)入GenBank。Entrez檢索程序整合了主要的DNA和蛋白序列數(shù)據(jù)的分類學(xué)、基因組、圖譜、蛋白結(jié)構(gòu)和結(jié)構(gòu)(功能)域信息,還包括相關(guān)的PubMed的生物醫(yī)學(xué)文獻(xiàn)信息。BLAST程序提供GenBank和其他序列數(shù)據(jù)庫中序列相似性搜索服務(wù)。 (一)GenBank數(shù)據(jù)庫結(jié)構(gòu) 1. 依據(jù)序列的物種來源分類 2. Genbank記錄和分類 2.1 表達(dá)序列標(biāo)簽(EST) 2.2 序列標(biāo)簽位點(diǎn)(STS)、基因組勘測(cè)序列(GSS)和環(huán)境樣品序列(ENV) 2.3 高通量基因組(HTG)和高通量cDNA(HTC)序列 2.4 全基因組鳥槍測(cè)序序列(WGS) 2.5 轉(zhuǎn)錄組鳥槍組

7、合序列 (一)GenBank數(shù)據(jù)庫結(jié)構(gòu)3. 特殊記錄類型3.1 第三方注釋(TPA) 3.2 GenBank CON記錄 較小記錄組合記錄 (二)構(gòu)建數(shù)據(jù)庫1直接電子提交 1.1 使用BankIt提交 1.2 使用Sequin和tbl2asn提交 1.3 條形碼序列提交 2. 序列標(biāo)識(shí)符和記錄號(hào) (三)檢索GenBank數(shù)據(jù)1. Entrez系統(tǒng) (http:/sites/gquery) 2. 與測(cè)序計(jì)劃檢索相關(guān)的序列記錄 (http:/genomeprj) 3. BLAST 序列相似性搜索 (http:/Blast.cgi) 4. 用FTP獲取GenBank (http:/genbank)

8、二、EMBL數(shù)據(jù)庫EMBL建立于1980年,EMBL核苷序列數(shù)據(jù)庫(http:/ www.edi.ac.uk/embl/)是歐洲主要的核苷序列收集單位,歐洲生物信息中心EBI(即EMBL在德國海德堡的站點(diǎn))維護(hù)這個(gè)數(shù)據(jù)庫。核苷數(shù)據(jù)來自基因組測(cè)序中心、世界各地的科學(xué)家、歐洲專利局、以及與合作伙伴DDBJ (Japan)和GenBank (USA)交換的數(shù)據(jù)。 三、DDBJ數(shù)據(jù)庫 日本DNA數(shù)據(jù)庫(DDBJ)是在亞洲唯一的核酸序列數(shù)據(jù)庫,是搜集研究者公認(rèn)的測(cè)定核酸序列的數(shù)據(jù)庫,并且發(fā)放給數(shù)據(jù)提交者國際認(rèn)證的核酸序列編號(hào)。由于DDBJ每天將搜集的數(shù)據(jù)與EMBL-Bank/EBI和GenBank/NC

9、BI進(jìn)行交換,使得三個(gè)核酸數(shù)據(jù)庫幾乎在任何時(shí)候都享有相同數(shù)據(jù)。DDBJ主要收集來自日本研究者獲得的序列數(shù)據(jù),但也收集數(shù)據(jù)和發(fā)放編號(hào)給任何其他國家的研究者。 四、其他重要的核酸序列數(shù)據(jù)庫dbEST:dbEST是GenBank中的一個(gè)子數(shù)據(jù)庫,包含來源于不同物種的表達(dá)序列數(shù)據(jù)和表達(dá)序列標(biāo)簽序列的其他信息。 ncRNAdb:非編碼RNA(non-coding RNA ncRNA)數(shù)據(jù)庫旨在提供非編碼RNA的序列和功能信息。 miRBase:miRBase序列數(shù)據(jù)庫主要存放已發(fā)表的微小RNA(microRNA miRNA)序列和注釋的數(shù)據(jù)庫。 第三節(jié) 蛋白質(zhì)序列數(shù)據(jù)庫Section 3 Protein

10、 Sequence Database 隨著分子生物學(xué)的發(fā)展,人們獲得了越來越多關(guān)于蛋白質(zhì)序列、結(jié)構(gòu)和功能的信息。世界各國的生物學(xué)家和計(jì)算機(jī)科學(xué)家合作利用這些信息構(gòu)建了蛋白質(zhì)序列數(shù)據(jù)庫、蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫、蛋白質(zhì)組數(shù)據(jù)庫(二維凝膠電泳數(shù)據(jù)庫)、信號(hào)傳導(dǎo)及蛋白質(zhì)-蛋白質(zhì)相互作用相關(guān)數(shù)據(jù)庫、DNA和蛋白質(zhì)相互作用數(shù)據(jù)庫等蛋白質(zhì)相關(guān)數(shù)據(jù)庫。 常用的蛋白質(zhì)序列數(shù)據(jù)庫: PIRMIPSSwiss-Prot 蛋白質(zhì)功能、結(jié)構(gòu)域和蛋白質(zhì)家族有關(guān)的數(shù)據(jù)庫: PROSITEInterProPfamProDomSMART 等 蛋白質(zhì)三維結(jié)構(gòu)相關(guān)數(shù)據(jù)庫: PDBBioMagResBankSWISS-MODEL Re

11、positoryModBaseCATHSCOPReLiBaseTOPSSWISS-3DIMAGEBioImage等 蛋白質(zhì)二維凝膠電泳數(shù)據(jù)庫: WORLD-2DPAGEPhoretix links 信號(hào)傳導(dǎo)及蛋白質(zhì)-蛋白質(zhì)相互作用相關(guān)數(shù)據(jù)庫:DIPINTERACTProNetKEGGCANSITESPADCSNDB等DNA和蛋白質(zhì)相互作用數(shù)據(jù)庫:DPInteract蛋白質(zhì)翻譯后修飾相關(guān)數(shù)據(jù)庫:O-GlycBase、PhosphoBase、RES蛋白質(zhì)等蛋白質(zhì)一、PIR數(shù)據(jù)庫蛋白質(zhì)信息庫(PIR)(http:/pirwww/)是一個(gè)支持基因組學(xué)、蛋白質(zhì)組學(xué)和系統(tǒng)生物學(xué)檢索和科學(xué)研究的綜合公共生物

12、信息學(xué)資源。PIR是由美國國家生物醫(yī)學(xué)基金會(huì)(NBRF)于1984年建立,幫助研究者確認(rèn)和解釋蛋白序列信息的數(shù)據(jù)庫。 PIR免費(fèi)為科學(xué)界提供包括蛋白序列數(shù)據(jù)庫(PSD)在內(nèi)的蛋白數(shù)據(jù)庫和分析工具。 PIR信息庫資源 二、MIPS數(shù)據(jù)庫慕尼黑蛋白質(zhì)序列信息中心(MIPS)(http:/www.helmholtz-muenchen.de/en/mips),它的重點(diǎn)工作是基因組生物信息學(xué),特別注重基因組信息系統(tǒng)分析,包括應(yīng)用生物信息學(xué)方法注釋基因組、表達(dá)分析和蛋白質(zhì)組學(xué)方面研究。MIPS支持和維護(hù)一系列基因組數(shù)據(jù)庫以及系統(tǒng),可以提供細(xì)菌、真菌和植物基因組比較分析服務(wù)。在該站點(diǎn)提供基因組分析工具、數(shù)據(jù)

13、庫檢索系統(tǒng)、表達(dá)分析、蛋白相互作用等網(wǎng)絡(luò)服務(wù)。 三、其他重要的蛋白質(zhì)序列數(shù)據(jù)庫:PRINTSPfam第四節(jié) NCBI與EBISection 4 NCBI and EBI一、NCBI的簡(jiǎn)介二、EBI簡(jiǎn)介一、NCBI的簡(jiǎn)介作為一個(gè)國家分子生物學(xué)信息資源,NCBI的使命是開發(fā)新的信息技術(shù),幫助理解控制健康和疾病的基本分子和遺傳過程。特別是,NCBI肩負(fù)建立存儲(chǔ)和分析分子生物學(xué)、生物化學(xué)和遺傳學(xué)知識(shí)的自動(dòng)系統(tǒng);提供研究和醫(yī)學(xué)界使用方便的數(shù)據(jù)庫和軟件;努力協(xié)調(diào)搜集國內(nèi)外生物技術(shù)信息;執(zhí)行分析生物學(xué)重要分子結(jié)構(gòu)和功能的先進(jìn)研究方法。二、EBI簡(jiǎn)介歐洲生物信息學(xué)研究所(EMBL-EBI),是歐洲分子生物學(xué)實(shí)

14、驗(yàn)室(EMBL)的一部分,EMBL-EBI維護(hù)世界上最廣泛的分子數(shù)據(jù)庫。EMBL-EBI是在全球范圍內(nèi),努力協(xié)調(diào)搜集和傳播生物學(xué)數(shù)據(jù)的歐洲節(jié)點(diǎn),EMBL-EBI的許多數(shù)據(jù)庫是生物學(xué)家們熟知的,包括:EMBL-Bank(DNA和RNA序列)、Ensemble(基因組)、ArrayExpress(基于微陣列的基因表達(dá)數(shù)據(jù))、UniProt(蛋白質(zhì)序列)、InterPro(蛋白家族、域和基序)、Reactome(傳導(dǎo)通路)和ChEBI(小分子),新的資源幫助研究者不僅了解構(gòu)成生物體的分子部件,還了解這些部件是如何組合構(gòu)成系統(tǒng)的。 三、通過Entrez Gene從NCBI獲取序列信息Entrez主要是

15、用于NCBI數(shù)據(jù)庫綜合的、基于文本的搜索和檢索系統(tǒng)。Entrez綜合了科學(xué)文獻(xiàn)、DNA和蛋白序列數(shù)據(jù)、3D蛋白質(zhì)結(jié)構(gòu)和蛋白質(zhì)域數(shù)據(jù)、種群研究數(shù)據(jù)集、表達(dá)數(shù)據(jù)、完整基因組組裝和分類學(xué)信息,形成一個(gè)緊密鏈接的系統(tǒng)。它用于搜索NCBI鏈接數(shù)據(jù)庫的檢索系統(tǒng)。 Entrez檢索系統(tǒng)子數(shù)據(jù)庫 (一)Entrez Gene 檢索 Entrez Gene檢索到的記錄提供關(guān)鍵鏈接,將圖譜、序列、表達(dá)、結(jié)構(gòu)、功能、索引文獻(xiàn)和同源數(shù)據(jù)鏈接在一起構(gòu)成關(guān)鍵鏈接。用定義序列、已知的圖譜定位和從表型信息推測(cè)的基因,為基因分配特有標(biāo)識(shí)符。這些標(biāo)識(shí)符在NCBI的數(shù)據(jù)庫中通用,可以用于注釋更新跟蹤和相關(guān)信息跟蹤。Entrez G

16、ene用NCBI參考序列(RefSeqs)覆蓋了基因組,還被整合到NCBI的Entrez和E-Utilities系統(tǒng)的索引、查詢和檢索中。 NCBI檢索首頁檢索窗口的數(shù)據(jù)庫選項(xiàng)下拉菜單 檢索欄(for)輸入“IL-2 human” (二)Entrez Gene記錄顯示格式 當(dāng)進(jìn)行檢索時(shí),檢索結(jié)果以摘要(summary)格式顯示,每頁可顯示多條記錄,摘要顯示的每條記錄前有一個(gè)選擇框,可以選擇哪些記錄需要顯示。顯示內(nèi)容還包括首選名稱標(biāo)志、完整全名、雙單詞的物種名稱(在方括號(hào)中)、基因組定位和基因編號(hào)。如果基因在已命名的質(zhì)粒上,那么作為基因定位將給出質(zhì)粒名稱。右側(cè)的Links可以關(guān)聯(lián)到顯示相關(guān)的En

17、trez記錄,核對(duì)希望顯示的記錄,選擇灰色查詢條目中的顯示選項(xiàng),可以顯示希望顯示的相關(guān)記錄。Entrez Gene檢索結(jié)果摘要格式顯示頁面 Entrez Gene全文報(bào)告頁面 (前部分)Entrez Gene全文報(bào)告頁面 (后部分) IL2 mRNA 的Nucleotide數(shù)據(jù)庫記錄檢索結(jié)果顯示界面 (三)Nucleotide數(shù)據(jù)庫記錄顯示格式 Nucleotide數(shù)據(jù)庫記錄的顯示結(jié)果,可以GenBank、FASTA、Graphics和ASN.1格式顯示,序列信息通常用FASTA和GenBank兩種格式顯示,F(xiàn)ASTA格式僅包括該序列的簡(jiǎn)要特征,并以G、A、T、C四種堿基列出核苷酸序列,簡(jiǎn)單明

18、了。而GenBank格式可顯示較完整的基因序列記錄,反映核苷酸序列的詳細(xì)信息。 四、通過SRS從EBI中獲取蛋白質(zhì)序列信息 SRS(http:/srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?+quickSearch+-id+76e2D1aC0Ri)是世界上主要的生物信息學(xué)、基因組和相關(guān)數(shù)據(jù)整合、分析和顯示工具。SRS檢索系統(tǒng)是個(gè)開放的系統(tǒng),可以根據(jù)不同的需要安裝不同的數(shù)據(jù)庫,現(xiàn)在,安裝在EBI的數(shù)據(jù)庫有300多個(gè)。SRS有三種檢索方式:快速檢索、標(biāo)準(zhǔn)檢索和批量檢索。gi|224514618|ref|NT_077402.2| Homo sapiens chromosome

19、 1 genomic contig, GRCh37.p2 reference primary assemblyTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACC

20、CTAAACCCTAAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCAACCCCAACCCCAACCCCAACCCCAACCCCAACCCTAACCCCTAACCCTAACCCTAACCCTACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTCGCGGTACCCTCAGCCGGCCCGCCCGCCCGGGTCTGACCTGAGGAGAACTGTGCTCCGCCTTCAGAGTACCACCGAA

21、ATCTGTGCAGAGGACAACGCAGCTCCGCCCTCGCGGTGCTCTCCGGGTCTGTGCTGAGGAGAACGCAACTCCGCCGTTGCAAAGGCGCGCCGCGCCGGCGCAGGCGCAGAGAGGCGCGCCGCGCCGGCGCAGGCGCAGAGAGGCGCGCCGCGCCGGCGCAGGCGCAGAGAGGCGCGCCGCGCCGGCGCAGGCGCAGAGAGGCGCGCCGCGCCGGCGCAGGCGCAGAGAGGCGCGCCGCGCCGGCGCAGGCGCAGACACATGCTAGCGCGTCGGGGTGGAGGCGTGGCGCAGGCGCAGAGA

22、GGCGCGCCGCGCCGGCGCAGGCGCAGAGACACATGCTACCGCGTCCAGGGGTGGAGGCGTGGCGCAGGCGCAGAGAGGCGCACCGCGCCGGCGCAGGCGCAGAGACACATGCTAGCGCGTCCAGGGGTGGAGGCGTGGCGCAGGCGCAGAGACGCAAGCCTACGGGCGGGGGTTGGGGGGGCGTGTGTTGCAGGAGCAAAGTCGCACGGCGCCGGGCTGGGGCGGGGGGAGGGTGGCGCCGTGCAtax_idGeneIDEnsembl_gene_identifierRNA_nucleotide_accession.versionEnsembl_rna_identifierprotein_accession.versionEnsembl_protein_identifier7227 30970 FBgn0040373 NM_130477.2 FBtr0070108 NP_56983

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論