生物分子信息數(shù)據(jù)庫_第1頁
生物分子信息數(shù)據(jù)庫_第2頁
生物分子信息數(shù)據(jù)庫_第3頁
生物分子信息數(shù)據(jù)庫_第4頁
生物分子信息數(shù)據(jù)庫_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第4章 生物分子數(shù)據(jù)庫國際上已建立起許多公共生物分子數(shù)據(jù)庫,包括基因組圖譜數(shù)據(jù)庫、核酸序列數(shù)據(jù)庫、蛋白質(zhì)序列數(shù)據(jù)庫、生物大分子結(jié)構(gòu)數(shù)據(jù)庫等。這些數(shù)據(jù)庫由專門的機(jī)構(gòu)建立和維護(hù),他們負(fù)責(zé)收集、組織、管理和發(fā)布生物分子數(shù)據(jù),并提供數(shù)據(jù)檢索和分析工具,向生物學(xué)研究人員提供大量有用的信息,最大限度地滿足他們研究和應(yīng)用的需要,為他們的研究服務(wù)。4.1 引言建立生物分子數(shù)據(jù)庫的動因是由于生物分子數(shù)據(jù)的高速增長,而另一方面也是為了滿足分子生物學(xué)及相關(guān)領(lǐng)域研究人員迅速獲得最新實驗數(shù)據(jù)的要求。生物分子信息分析已經(jīng)成為分子生物學(xué)研究必備的一種方法。如果說理論分析和算法模擬是生物信息學(xué)實驗方法的話,那么來自于具體實驗

2、的原始數(shù)據(jù)和來自于數(shù)據(jù)庫的數(shù)據(jù)則是生物信息學(xué)的實驗材料。數(shù)據(jù)庫及其相關(guān)的分析軟件是生物信息學(xué)研究和應(yīng)用的重要基礎(chǔ),也是分子生物學(xué)研究必備的工具。從數(shù)據(jù)庫使用的角度來看,公共生物分子數(shù)據(jù)庫應(yīng)滿足以下5個方面的主要需求:(1) 時間性 對于新發(fā)表的數(shù)據(jù),應(yīng)該能夠在很短的時間內(nèi)(幾個小時至幾天)通過國際互連網(wǎng)訪問。(2) 注釋 對于每一個基本數(shù)據(jù)(如序列),應(yīng)附加一致的、深層次的輔助說明信息。(3) 支撐數(shù)據(jù) 在有些情況下,數(shù)據(jù)庫使用者需要得到原始的實驗數(shù)據(jù),因而要提供訪問原始數(shù)據(jù)的方法。數(shù)據(jù)庫中應(yīng)包含原始數(shù)據(jù),或者能夠通過交叉索引訪問實驗數(shù)據(jù)庫中的原始數(shù)據(jù)。(4) 數(shù)據(jù)質(zhì)量 必須保證數(shù)據(jù)庫中數(shù)據(jù)的

3、質(zhì)量,數(shù)據(jù)庫管理機(jī)構(gòu)應(yīng)對數(shù)據(jù)來源進(jìn)行檢查,并且關(guān)注數(shù)據(jù)庫用戶和專家提出的意見。(5) 集成性 三種基本生物分子數(shù)據(jù)庫(核酸序列、蛋白質(zhì)序列、蛋白質(zhì)結(jié)構(gòu))的集成對于用戶來說是非常重要的。對于數(shù)據(jù)庫中的每一個數(shù)據(jù)對象,必須與其它數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)聯(lián)系起來,這樣可以從某些分子數(shù)據(jù)出發(fā)得到一系列的相關(guān)信息。例如,從某個核酸序列出發(fā),通過交叉索引,可進(jìn)一步得到對應(yīng)的基因、蛋白質(zhì)序列、蛋白質(zhì)結(jié)構(gòu),甚至得到蛋白質(zhì)功能的信息。分子生物學(xué)研究領(lǐng)域雖各有重點(diǎn),但是研究對象之間存在著密切的聯(lián)系,比如DNA序列與蛋白質(zhì)序列之間的聯(lián)系,基因調(diào)控信息與基因表達(dá)數(shù)據(jù)之間的聯(lián)系。因而實驗數(shù)據(jù)之間就必然存在著關(guān)聯(lián),一個方面的相

4、關(guān)數(shù)據(jù)可能會影響或促進(jìn)另一個方面的研究工作?,F(xiàn)有的各類數(shù)據(jù)庫已經(jīng)成為分子生物學(xué)各方面交叉研究的橋梁。生物分子數(shù)據(jù)庫目前的發(fā)展?fàn)顩r有幾個明顯的特征:(1) 生物分子數(shù)據(jù)庫最突出的特征就是數(shù)據(jù)庫的更新速度不斷加快,數(shù)據(jù)量呈指數(shù)增長趨勢。例如,核酸序列數(shù)據(jù)的年增長幅度為100%。(2) 數(shù)據(jù)庫使用頻率增長更快。人們越來越感到生物分子數(shù)據(jù)的重要性,也認(rèn)識到它們的價值,因此各種數(shù)據(jù)庫的使用人員在不斷增加。 據(jù)統(tǒng)計,數(shù)據(jù)庫的平均使用頻率每年增長幅度接近于500%。(3) 數(shù)據(jù)庫的復(fù)雜程度不斷增加。數(shù)據(jù)庫中除了基本數(shù)據(jù)之外,還包括大量的注釋、鏈接、參考文獻(xiàn)等信息,例如,在SWISS-PROT數(shù)據(jù)庫中,注釋項

5、涉及蛋白質(zhì)的功能、結(jié)構(gòu)域和活性位點(diǎn)、二級結(jié)構(gòu)、四級結(jié)構(gòu)、翻譯后修飾、與其他蛋白質(zhì)的相似性、與該蛋白質(zhì)關(guān)聯(lián)的疾病、序列變化等。(4) 數(shù)據(jù)庫網(wǎng)絡(luò)化。幾乎所有的數(shù)據(jù)庫都可以在國際互聯(lián)網(wǎng)上訪問,并且公共數(shù)據(jù)庫之間相互鏈接,使用戶可以迅速得到大量的相關(guān)生物分子信息。有的系統(tǒng)則將多個生物分子數(shù)據(jù)庫整合在一起,形成集成的數(shù)據(jù)庫系統(tǒng)。(5) 面向應(yīng)用。首先,各個數(shù)據(jù)庫服務(wù)器除了提供數(shù)據(jù)之外,還提供許多分析工具,如核酸數(shù)據(jù)庫提供的序列搜索、基因識別程序等,生物大分子結(jié)構(gòu)數(shù)據(jù)庫提供的結(jié)構(gòu)比較程序、結(jié)構(gòu)模擬程序等。此外,還在原始數(shù)據(jù)庫的基礎(chǔ)上開發(fā)了許多面向特殊應(yīng)用的二級數(shù)據(jù)庫,如蛋白質(zhì)分類數(shù)據(jù)庫、蛋白質(zhì)二級結(jié)構(gòu)數(shù)

6、據(jù)庫等。(6) 先進(jìn)的軟硬件配置。從計算機(jī)硬件方面來看,許多數(shù)據(jù)庫服務(wù)器已從工作站升級到大型服務(wù)器,使數(shù)據(jù)庫能夠高效地管理數(shù)據(jù)和為用戶服務(wù),并在專門的硬件(如并行機(jī))上運(yùn)行服務(wù)程序。而在系統(tǒng)軟件方面,使用大型數(shù)據(jù)庫管理系統(tǒng),面向?qū)ο蟮臄?shù)據(jù)庫管理方法正在逐步取代舊的模式,數(shù)據(jù)庫服務(wù)廣泛采用服務(wù)器客戶式結(jié)構(gòu)。一般而言,生物分子數(shù)據(jù)庫可以分為一級數(shù)據(jù)庫和二級數(shù)據(jù)庫。一級數(shù)據(jù)庫中的數(shù)據(jù)直接來源于實驗獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類整理和注釋;二級數(shù)據(jù)庫是對原始生物分子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果,是在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎(chǔ)上針對特定的應(yīng)用目標(biāo)而建立的。與蛋白質(zhì)相關(guān)的二級數(shù)據(jù)庫比較多。4.2

7、核酸序列數(shù)據(jù)庫DNA測序技術(shù)迅速發(fā)展,使得人類已知的DNA核酸序列不斷增長。本節(jié)著重介紹與核酸相關(guān)的序列數(shù)據(jù)庫。4.2.1 GenBank / EMBL-Bank / DDBJ核酸序列是了解生物體結(jié)構(gòu)、功能、發(fā)育和進(jìn)化的出發(fā)點(diǎn)。國際上權(quán)威的核酸序列數(shù)據(jù)庫有三個,分別是美國生物技術(shù)信息中心(NCBI)的GenBank (),歐洲分子生物學(xué)實驗室的EMBL-Bank(簡稱EMBL,),日本遺傳研究所的DDBJ ()。三個組織相互合作,各數(shù)據(jù)庫中的數(shù)據(jù)基本一致,僅在數(shù)據(jù)格式上有所差別,對于特定的查詢,三個數(shù)據(jù)庫的響應(yīng)結(jié)果一樣。這三個數(shù)據(jù)庫是綜合性的DNA和RNA序列數(shù)據(jù)庫,其數(shù)據(jù)來源于眾多的研究機(jī)構(gòu)

8、和核酸測序小組,來源于科學(xué)文獻(xiàn)。用戶可以通過各種方式將核酸序列數(shù)據(jù)提交給這三個數(shù)據(jù)庫系統(tǒng)。數(shù)據(jù)庫中的每條記錄代表一個單獨(dú)、連續(xù)、附有注釋的DNA或RNA片段。由于DNA測序能力的極大提高,DNA序列增長的速度也非常快,圖4.1是GenBank數(shù)據(jù)庫中近幾年數(shù)據(jù)量的統(tǒng)計,這張圖反映出DNA序列數(shù)據(jù)迅速增長的趨勢。堿基數(shù)(單位:百萬)序列數(shù)(單位:百萬)圖4.1 核酸序列數(shù)據(jù)的增長趨勢(取自)下面著重介紹EMBL數(shù)據(jù)庫。EMBL是最早的DNA序列數(shù)據(jù)庫,于1982年建立。目前EMBL數(shù)據(jù)庫中的數(shù)據(jù)按照每年約60%的速率增長。截止2000年3月底,EMBL數(shù)據(jù)庫中的核酸序列總長度達(dá)70億個堿基,覆蓋

9、2/3的人類基因組序列。對于每個序列,相關(guān)數(shù)據(jù)包括序列名稱、序列、位點(diǎn)、關(guān)鍵字、來源、生物種、參考文獻(xiàn)、注釋、序列中具有重要生物學(xué)意義的位點(diǎn)等。而到2004年2月,數(shù)據(jù)庫中的核酸序列數(shù)超過3000萬條,總的數(shù)據(jù)量近400億bp。隨著分子生物學(xué)技術(shù)的不斷發(fā)展,數(shù)據(jù)的增長速度將會不斷地提高。EMBL的數(shù)據(jù)來源主要有兩條途徑。一是由序列發(fā)現(xiàn)者直接提交。幾乎所有的國際權(quán)威生物學(xué)刊物都要求作者在文章發(fā)表之前將所測定的序列提交給EMBL、GenBank或DDBJ,得到數(shù)據(jù)庫管理系統(tǒng)所簽發(fā)的登錄注冊號。二是從生物醫(yī)學(xué)期刊上收錄已經(jīng)發(fā)表的序列資料。EMBL核酸數(shù)據(jù)庫由關(guān)系數(shù)據(jù)庫管理系統(tǒng)ORACLE來維護(hù),在D

10、EC alpha VMS系統(tǒng)下運(yùn)行,數(shù)據(jù)庫中的每一個序列數(shù)據(jù)被賦予一個登錄號,它是一個永久性的唯一標(biāo)識。EMBL的序列數(shù)據(jù)用外在的ASCII文本文件來表示(見圖4.2),而每一個文件分都為文件頭和文件體兩大部分。文件頭由一系列的信息描述行所組成,描述信息有序列的標(biāo)識符、序列的功能、種屬、參考文獻(xiàn)等。每一行的起始位置有一個標(biāo)志,該標(biāo)志由兩個字母組成,標(biāo)志后面是相關(guān)的正文信息?!癐D”為序列的標(biāo)識符行,包括登錄號、類型、分子的長度;“AC”為登錄號行,如圖4.2所表示的序列登錄號為AB000888;“SV”為序列版本行,其數(shù)據(jù)的形式為“登錄號.版本號”,例如,AB000888.1表示序列的登錄號為

11、AB000888,并且該序列數(shù)據(jù)是第一版本 ;“XX”為分隔符號行;“DT”為創(chuàng)建和更新日期行;“DE”為序列描述行;“KW”為關(guān)鍵字行;“OG”行描述非核序列的亞細(xì)胞定位,表明該序列來自于線粒體、葉綠體等;“OS”行描述生物體種屬;“OC”行描述生物體分類信息;“RN”、“RP”、“RA”、“RT”、“RL”、“RC”分別描述參考文獻(xiàn)的編號、頁碼、作者、題目、參考文獻(xiàn)出處和注解;“RX”行是到其他文獻(xiàn)數(shù)據(jù)庫的鏈接,如“MEDLINE;97450990”表示對應(yīng)參考文獻(xiàn)在MEDLINE數(shù)據(jù)庫的標(biāo)示號為97450990;“DR”行是到其他生物信息數(shù)據(jù)庫的鏈接,如到基因組數(shù)據(jù)庫、蛋白質(zhì)序列數(shù)據(jù)庫、

12、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫的鏈接,通過這些鏈接可以找到更多與本序列相關(guān)的數(shù)據(jù);“FH” 為特征表開始符號;“FT”為特征表行。FT行具體的信息有:序列的長度,序列來自于何種生物體、何種組織,在染色體上的定位,蛋白質(zhì)編碼序列片段在整個序列中的位置,外顯子和內(nèi)含子的位置,與基因?qū)?yīng)的蛋白質(zhì)序列等。FT行主要有三項:(1)Feature Key,它是描述特征的關(guān)鍵字,如“source”、“CDS”等;(2)Location,指明特征在序列中的特定位置;(3)Qualifiers,描述關(guān)于一個特征的輔助信息。文件頭實際上對應(yīng)于一個序列的注釋(annotation)。文件體由序列本身所組成,由“SQ”標(biāo)志的行開始

13、。序列結(jié)束的標(biāo)記是“/”??蒲泄ぷ髡呖梢詫⑿掳l(fā)現(xiàn)的核酸序列數(shù)據(jù)提交給EMBL。但是,為保證每一條序列數(shù)據(jù)都有較高的質(zhì)量,在提交數(shù)據(jù)之間必須利用EMBL 提供的工具進(jìn)行檢查與核實。如果必要,數(shù)據(jù)庫管理人員可以直接與序列的提交者討論,澄清有關(guān)問題。早期提交數(shù)據(jù)的方式是編輯電子表格,用任何正文編輯工具編輯固定格式的提交表格。編輯任務(wù)比較復(fù)雜,也容易出錯,特別是對于沒有經(jīng)驗的用戶。另外,由于沒有實時的數(shù)據(jù)校驗,用戶當(dāng)時不能得到錯誤信息的反饋。后來利用Authorin程序提交數(shù)據(jù)。Authorin是歐洲生物信息學(xué)研究所(EBI)提供的一個交互的序列輸入程序,用以幫助用戶填寫提交表格,該程序可在Macin

14、tosh和IBM兼容機(jī)上運(yùn)行。Authorin與用戶交互,并進(jìn)行數(shù)據(jù)有效性的檢查。它最后根據(jù)用戶的輸入形成一個特定格式的文本文件,作為結(jié)果提交給EMBL。目前主要利用基于WWW網(wǎng)絡(luò)環(huán)境的序列提交系統(tǒng)WEBIN,這是一種基于Internet網(wǎng)3W服務(wù)器的序列數(shù)據(jù)提交系統(tǒng),它使用戶提交序列數(shù)據(jù)的過程更直接、容易、簡便。該系統(tǒng)具有序列檢查、更新和恢復(fù)等功能。對于用戶端的要求是安裝3W瀏覽器。這個系統(tǒng)具有很大的優(yōu)點(diǎn)。首先,與單機(jī)輸入程序相比,用戶不必每次從EBI取回高版本的程序,用戶總是使用服務(wù)器上最新版本的序列輸入程序。第二,如果用戶機(jī)器上已經(jīng)安裝了標(biāo)準(zhǔn)的3W客戶端程序,則用戶不必再花時間、精力和磁

15、盤空間去安裝單機(jī)輸入程序。第三,由于直接和數(shù)據(jù)庫所在的服務(wù)器相連,用戶可以直接使用數(shù)據(jù)庫資源,如查看數(shù)據(jù)庫中已有的序列,查看期刊、作者等信息,以避免重復(fù)工作。ID AB000888 standard; mRNA; HUM; 937 BP.XXAC AB000888;XXSV AB000888.1XXDT 07-OCT-1997 (Rel. 52, Created)DT 07-OCT-1997 (Rel. 52, Last updated, Version 1)XXDE Homo sapiens mRNA for phosphatidic acid phosphatase 2a, complet

16、e cds.XXKW phosphatidic acid phosphatase 2a.XXOS Homo sapiens (human)OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;OC Eutheria; Primates; Catarrhini; Hominidae; Homo.XXRN 1RP 1-937RA Kai M.;RT ;RL Submitted (05-FEB-1997) to the EMBL/GenBank/DDBJ databases.RL Masahiro

17、Kai, Sapporo Medical University, Department of Biochemistry;RL South-1, West-17, Chuo-ku, Sapporo 060, Japan (E-mail:kaisapmed.ac.jp,RL Tel:011-611-2111)XXRN 2RX MEDLINE; 97450990.RX PUBMED; 9305923.RA Kai M., Wada I., Imai S., Sakane F., Kanoh H.;RT "Cloning and characterization of two human i

18、sozymes of Mg2+ independentRT phosphatidic acid phosphatases"RL J. Biol. Chem. 272(39):24572-24578(1997).XXDR GDB; GDB:9956025.DR GOA; O14494.DR TrEMBL; O14494; O14494.XXFH Key Location/QualifiersFHFT source 1.937FT /db_xref="taxon:9606"FT /mol_type="mRNA"FT /organism="

19、Homo sapiens"FT /cell_line="HepG2"FT CDS 48.902FT /codon_start=1FT /db_xref="GOA:O14494"FT /db_xref="TrEMBL:O14494"FT /note="similar to DDBJ Accession Number D84376 : mouseFT PAP-2"FT /transl_table=1FT /product="phosphatidic acid phosphatase 2a"

20、FT /protein_id="BAA22593.1"FT /translation="MFDKTRLPYVALDVLCVLLAGLPFAILTSRHTPFQRGVFCNDESIFT KYPYKEDTIPYALLGGIIIPFSIIVIILGETLSVYCNLLHSNSFIRNNYIATIYKAIGTFT FLFGAAASQSLTDIAKYSIGRLRPHFLDVCDPDWSKINCSDGYIEYYICRGNAERVKEGFT RLSFYSGHSSFSMYCMLFVALYLQARMKGDWARLLRPTLQFGLVAVSIYVGLSRVSDYKFT HHWSDVL

21、TGLIQGALVAILVAVYVSDFFKERTSFKERKEEDSHTTLHETPTTGNHYPSNFT HQP"XXSQ Sequence 937 BP; 240 A; 218 C; 209 G; 270 T; 0 other; accgcagctc agtccatcgc ccttgccggg cagcccgggc agagaccatg ttcgacaaga 60 cgcggctgcc gtacgtggcc ctcgatgtgc tctgcgtgtt gctggctgga ttgccttttg 120 caattcttac ttcaaggcat acccccttcc aacga

22、ggagt attctgtaat gatgagtcca 180 tcaagtaccc ttacaaagaa gacaccatac cttatgcgtt attaggtgga ataatcattc 240 cattcagtat tatcgttatt attcttggag aaaccctgtc tgtttactgt aaccttttgc 300 actcaaattc ctttatcagg aataactaca tagccactat ttacaaagcc attggaacct 360 ttttatttgg tgcagctgct agtcagtccc tgactgacat tgccaagtat tca

23、ataggca 420 gactgcggcc tcacttcttg gatgtttgtg atccagattg gtcaaaaatc aactgcagcg 480 atggttacat tgaatactac atatgtcgag ggaatgcaga aagagttaag gaaggcaggt 540 tgtccttcta ttcaggccac tcttcgtttt ccatgtactg catgctgttt gtggcacttt 600 atcttcaagc caggatgaag ggagactggg caagactctt acgccccaca ctgcaatttg 660 gtcttgtt

24、gc cgtatccatt tatgtgggcc tttctcgagt ttctgattat aaacaccact 720 ggagcgatgt gttgactgga ctcattcagg gagctctggt tgcaatatta gttgctgtat 780 atgtatcgga tttcttcaaa gaaagaactt cttttaaaga aagaaaagag gaggactctc 840 atacaactct gcatgaaaca ccaacaactg ggaatcacta tccgagcaat caccagcctt 900 gaaaggcagc agggtgccca ggtgaa

25、gctg gcctgtt 937/圖4.2 EMBL核酸數(shù)據(jù)庫每個條目的文件格式早期用戶主要通過發(fā)行的CD-ROM使用EMBL。EMBL數(shù)據(jù)庫隨時更新,但CD-ROM每隔三個月發(fā)布一個最新的版本。CD-ROM上包含了所有的數(shù)據(jù),包括序列數(shù)據(jù)、相關(guān)的索引文件以及信息檢索程序。后來用戶可以通過ftp服務(wù)器訪問EMBL,下載相關(guān)的數(shù)據(jù)及各種程序。隨著Internet的不斷發(fā)展,現(xiàn)在用戶主要通過互聯(lián)網(wǎng)訪問EMBL,直接利用本地計算機(jī)上的3W瀏覽器查詢EMBL的有關(guān)數(shù)據(jù),并將所需要的數(shù)據(jù)取回。查詢時,用戶根據(jù)自己的要求,按照服務(wù)程序的提示填寫查詢條件,并將查詢條件通過Internet發(fā)送給EMBL的服務(wù)

26、器。服務(wù)程序根據(jù)用戶的查詢條件搜索數(shù)據(jù)庫,然后將滿足查詢條件的有關(guān)核酸序列數(shù)據(jù)傳送給用戶。EMBL數(shù)據(jù)庫服務(wù)器提供序列查詢和序列搜索服務(wù)。最簡單的查詢就是通過序列的登錄號(如X58929)或序列名稱(如SCARGC)直接查詢。雖然這種方式需要用戶事先知道登錄項的標(biāo)識,但這確實是從數(shù)據(jù)庫取得序列的最快方式。當(dāng)然,也可以通過其它渠道查詢,如通過物種、序列功能等進(jìn)行查詢。 如果找到所查詢的序列,則服務(wù)器將查詢結(jié)果以HTML文件返回給用戶。如果數(shù)據(jù)庫中該序列有到MEDLINE的交叉索引,則系統(tǒng)同時返回與包含參考文獻(xiàn)摘要等信息的MEDLINE鏈接。如果該序列有到其它數(shù)據(jù)庫的交叉索引,也返回相應(yīng)的鏈接。例

27、如,登錄號為J00231的核酸序列具有這樣一個交叉索引行:DRSWISS-PROT:P01860;GC3_HUMAN表示該核酸序列有一個到數(shù)據(jù)庫SWISS-PROT的交叉索引,鏈接到其P01860文件。這時,用戶只要點(diǎn)擊返回的超文本鏈接,就可以進(jìn)一步訪問SWISS-PROT數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)。EMBL 服務(wù)器支持用戶使用程序FastA或BLAST 進(jìn)行核酸序列搜索,它們根據(jù)給定的目標(biāo)序列在數(shù)據(jù)庫中搜索其同源序列。目前EMBL主要通過SRS服務(wù)器提供核酸序列查詢服務(wù),詳見4.7.2。GenBank是國際上最著名的核酸數(shù)據(jù)庫。GenBank數(shù)據(jù)庫140.0版(2004年2月)含有3000多萬條序列

28、,總長度接近400億對堿基。其序列數(shù)據(jù)組織方式采用ASCII文本文件,主要存放核酸序列數(shù)據(jù),同時還有一些輔助文件,存放于序列相關(guān)的輔助信息,如作者名、基因名、關(guān)鍵字、參考文獻(xiàn)、其他數(shù)據(jù)庫鏈接等。4.2.2 基因組數(shù)據(jù)庫隨著核酸測序技術(shù)的迅速發(fā)展,人類已經(jīng)得到一部分生物的全基因組數(shù)據(jù),如人、小鼠、大鼠等。這些數(shù)據(jù)對于我們認(rèn)識基因組信息組織的奧秘、了解生物體的生長發(fā)育的規(guī)律是非常重要的。國際上有專門的組織收集和管理這些數(shù)據(jù)。NCBI基因組數(shù)據(jù)庫Entrez Gonomes ()所收集的基因組數(shù)據(jù)量非常大,至2004年,該數(shù)據(jù)庫包括1000多個病毒基因組、100多個微生物基因組以及部分真核生物基因組

29、。該數(shù)據(jù)庫還提供了一個基因組數(shù)據(jù)瀏覽工具M(jìn)ap Viewer,利用這個工具,用戶可以很方便地得到所需要的數(shù)據(jù)。例如,通過Map Viewer瀏覽人基因組的24條染色體和線粒體,下載基因組序列,查看染色體或線粒體上的基因。GDB()是一個比出現(xiàn)比較早的基因組數(shù)據(jù)庫。GDB于1990年建立于美國Johns Hopkins 大學(xué),該數(shù)據(jù)庫中的內(nèi)容主要是人類基因組計劃所得到的圖譜數(shù)據(jù)。建立GDB數(shù)據(jù)庫的目的是為科學(xué)家提供一部關(guān)于人類基因組的百科全書。GDB包含對下述三種對象的描述:(1)人類基因組區(qū)域,包括基因、克隆、PCR標(biāo)記物、斷點(diǎn)、細(xì)胞遺傳學(xué)標(biāo)記、易碎位點(diǎn)、EST、綜合區(qū)域、contigs、重復(fù)

30、等;(2)人類基因組圖譜,包含細(xì)胞遺傳學(xué)圖譜、連接圖譜、輻射混合圖譜、contig 圖譜、集成圖譜,所有這些圖譜都可以被直觀地顯示出來;(3)人類基因組中的變化,包括基因突變和基因多態(tài)性,加上等位基因頻率數(shù)據(jù)。目前國際上有一些專門的模式生物基因組數(shù)據(jù)庫,這些數(shù)據(jù)庫側(cè)重于收集某種生物基因組的相關(guān)數(shù)據(jù)。如酵母基因組數(shù)據(jù)庫SGD()、小鼠基因組信息學(xué)數(shù)據(jù)庫MGI()、果蠅基因組數(shù)據(jù)庫FlyBase()、線蟲基因組數(shù)據(jù)庫WormBase() 等。Ensembl ()是一個綜合基因組數(shù)據(jù)庫,它是由EMBL-EBI和Sanger研究所共同開發(fā)的一個系統(tǒng)。Ensembl產(chǎn)生并維護(hù)關(guān)于各種后生動物基因組的自動

31、注釋,如人類基因組、小鼠基因組、大鼠基因組、黑猩猩基因組等。Ensembl試圖跟蹤這些基因組的序列片段,并將序列片段組裝成單個長序列,進(jìn)而分析這些經(jīng)過組裝的DNA序列,搜索其中的基因,發(fā)現(xiàn)生物學(xué)家或醫(yī)學(xué)工作者感興趣的特征。Ensembl包括所有公開的基因組DNA序列,通過注釋形成的關(guān)于序列的特征?;蚓褪且环N特征,基因或者是通過實驗發(fā)現(xiàn)的,或者是通過Ensembl的程序預(yù)測的。Ensembl所用的基因預(yù)測程序為GenScan。其他的特征包括單核苷酸多態(tài)性(SNP)、重復(fù)序列與其它序列高度相似(或同源)的序列。此外,Ensembl 數(shù)據(jù)庫還提供疾病、細(xì)胞等方面的信息,并且提供數(shù)據(jù)搜索、數(shù)據(jù)下載、

32、統(tǒng)計分析等服務(wù),詳見圖4.3。Ensembl提供多種查詢方式,如用BLAST進(jìn)行相似序列的搜索,通過序列號進(jìn)行查詢,通過基因名稱查詢,以及通過遺傳疾病查詢。另一種更直觀的方式是顯示各染色體,用戶可以在染色體水平上選擇感興趣的位點(diǎn),然后逐層放大,從而瀏覽整個基因組,分析DNA序列,分析基因。圖4.3 Ensembl 數(shù)據(jù)庫結(jié)構(gòu)圖4.2.3 表達(dá)序列標(biāo)記數(shù)據(jù)庫dbESTEST(Expressed Sequence Tags)方法已被證明是識別轉(zhuǎn)錄序列的最有效方法。在1990以前,關(guān)于人類基因序列的數(shù)據(jù)主要來自于對單個基因的研究,EST數(shù)據(jù)的出現(xiàn)是生物信息學(xué)發(fā)展歷史上的一塊里程碑。EST序列大約覆蓋

33、了人類基因的90%。EST序列中含有大量的基因信息,利用這些信息可以發(fā)現(xiàn)新的基因,闡明基因的功能。dbEST ()是GenBank的一個部分,該數(shù)據(jù)庫包括不同生物的EST序列數(shù)據(jù)及其它相關(guān)信息,主要是從大量不同組織和器官得到的短mRNA片段。截止2004年4月,該數(shù)據(jù)庫含有2000萬個登錄項,其中人的EST序列超過500萬條,小鼠的EST序列400萬條,大鼠的EST序列也超過50萬條。通過WEB頁面或者通過email可以查詢有關(guān)EST的數(shù)據(jù)和相關(guān)報道,也可以通過FTP下載dbEST數(shù)據(jù)庫。EST數(shù)據(jù)庫的主要作用是通過搜索比較,給實驗新得到的一條cDNA序列或基因組序列賦予公認(rèn)的功能。通過對ES

34、T數(shù)據(jù)庫的逆向分析,能識別與疾病相聯(lián)系的基因。4.2.4 序列標(biāo)記位點(diǎn)數(shù)據(jù)庫dbSTSSTS(Sequence Tagged Sites)是序列標(biāo)記位點(diǎn)。dbSTS()是NCBI的一個數(shù)據(jù)源,也是GenBank的一個部分,包含基因組短標(biāo)記序列(STS)的組成和定位信息。可以通過BLAST搜索STS序列,或者直接通過FTP 下載序列。4.2.5 面向基因聚類數(shù)據(jù)庫UniGeneUniGene( )數(shù)據(jù)庫將GenBank中的序列進(jìn)行自動分類,形成面向基因群的非冗余集合。每個UniGene群包含代表一個唯一基因的多個序列,附有該基因相關(guān)的信息,如基因表達(dá)的組織類型、定位圖譜。除了基因的序列之外,還包

35、括大量的EST序列。UniGene既可以作為發(fā)現(xiàn)新基因的數(shù)據(jù)源,也可以作為生物學(xué)研究人員進(jìn)行大規(guī)模表達(dá)分析的輔助工具。需要指出的是,自動分類的過程還有待于進(jìn)一步發(fā)展和完善。目前,UniGene中包括人類、大鼠、小鼠、牛等生物的相關(guān)數(shù)據(jù),因為這些生物有大量的EST數(shù)據(jù)。4.3 蛋白質(zhì)序列數(shù)據(jù)庫我們可以根據(jù)基因組序列預(yù)測新基因,預(yù)測編碼區(qū)域,并推測其產(chǎn)物(即蛋白質(zhì))的序列。因此,隨著基因組序列的不斷增長,蛋白質(zhì)序列也在不斷增加。本節(jié)著重介紹與蛋白質(zhì)序列相關(guān)的序列數(shù)據(jù)庫。4.3.1 PIR歷史上,蛋白質(zhì)數(shù)據(jù)庫的出現(xiàn)先于核酸數(shù)據(jù)庫。在1960年左右,Dayhoff和其同事們搜集了當(dāng)時所有已知的氨基酸序

36、列,編著了蛋白質(zhì)序列與結(jié)構(gòu)圖冊。從這本圖冊中的數(shù)據(jù),演化為后來的蛋白質(zhì)信息資源數(shù)據(jù)庫PIR(Protein Information Resource)。PIR()是由美國生物醫(yī)學(xué)基金會NBRF(National Biomedical Research Foundation)于1984年建立的,其目的是幫助研究者鑒別和解釋蛋白質(zhì)序列信息,研究分子進(jìn)化、功能基因組,進(jìn)行生物信息學(xué)分析。它是一個全面的、經(jīng)過注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫。所有序列數(shù)據(jù)都經(jīng)過整理,超過99%的序列已按蛋白質(zhì)家族分類,一半以上還按蛋白質(zhì)超家族進(jìn)行了分類。PIR提供一個蛋白質(zhì)序列數(shù)據(jù)庫、相關(guān)數(shù)據(jù)庫和輔助工具的集成系統(tǒng),用

37、戶可以迅速查找、比較蛋白質(zhì)序列,得到與蛋白質(zhì)相關(guān)的眾多信息。目前,PIR已經(jīng)成為一個集成的生物信息數(shù)據(jù)源,支持基因組研究和蛋白質(zhì)組研究。至2004年,PIR 有近30萬個蛋白質(zhì)的登錄數(shù)據(jù)項,包括來自不同生物體的蛋白質(zhì)序列。除了蛋白質(zhì)序列數(shù)據(jù)之外,PIR還包含以下信息:(1) 蛋白質(zhì)名稱、蛋白質(zhì)的分類、蛋白質(zhì)的來源;(2) 關(guān)于原始數(shù)據(jù)的參考文獻(xiàn);(3) 蛋白質(zhì)功能和蛋白質(zhì)的一般特征,包括基因表達(dá)、翻譯后處理、活化等;(4) 序列中相關(guān)的位點(diǎn)、功能區(qū)域。對于數(shù)據(jù)庫中的每一個登錄項,有與其它數(shù)據(jù)庫的交叉索引,包括到GenBank、EMBL、DDBJ、GDB、MELINE等數(shù)據(jù)庫的索引。PIR中一個

38、具體的登錄項如圖4.4所示。PIR提供三種類型的檢索服務(wù)。一是基于文本的交互式查詢,用戶通過關(guān)鍵字進(jìn)行數(shù)據(jù)查詢。二是標(biāo)準(zhǔn)的序列相似性搜索,包括BLAST、FastA等。三是結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級搜索,包括按注釋分類的相似性搜索、結(jié)構(gòu)域搜索等。目前,PIR包括三個子數(shù)據(jù)庫,分別是蛋白質(zhì)序列數(shù)據(jù)庫PIR-PSD、蛋白質(zhì)分類數(shù)據(jù)庫iProClass以及非冗余的蛋白質(zhì)參考資料數(shù)據(jù)庫PIR-NREF。4.3.2 SWISS-PROTSWISS-PROT ()是由Geneva大學(xué)和歐洲生物信息學(xué)研究所(EBI)于1986年聯(lián)合建立的,它是目前國際上權(quán)威的蛋白質(zhì)序列數(shù)據(jù)庫。SWISS

39、-PROT 中的蛋白質(zhì)序列是經(jīng)過注釋的。SWISS-PROT中的數(shù)據(jù)來源于不同源地:(1)從核酸數(shù)據(jù)庫經(jīng)過翻譯推導(dǎo)而來;(2)從蛋白質(zhì)數(shù)據(jù)庫PIR挑選出合適的數(shù)據(jù);(3)從科學(xué)文獻(xiàn)中摘錄;(4)研究人員直接提交的蛋白質(zhì)序列數(shù)據(jù)。2004年3月的SWISS-PROT 43.0 版本有146720序列登錄項,包含摘自113719篇參考文獻(xiàn)的54093154個氨基酸。與其它蛋白質(zhì)序列數(shù)據(jù)庫相比較,SWISS-PROT有三個明顯的特點(diǎn):(1) 注釋ENTRY G00016 #type fragmentTITLE FGF-receptor - common marmoset (fragment)ORGA

40、NISM #formal_name Callithrix jacchus #common_name common marmosetDATE 13-Mar-1997 #sequence_revision 13-Mar-1997 #text_change 18-Jul-1997ACCESSIONS G00016REFERENCE H00018 #authors Einspanier, R. #submission submitted to the EMBL Data Library, December 1995 #accession G00016 #status preliminary; tran

41、slated from GB/EMBL/DDBJ #molecule_type mRNA #residues 1-157 #label EIN #cross-references EMBL:Z68149; NID:g1279349CLASSIFICATION #superfamily basic fibroblast growth factor receptor 1; immunoglobulin homology; protein kinase homologyFEATURES 1-157 #domain protein kinase homology (fragment) #label K

42、INSUMMARY #length 157SEQUENCE 5 10 15 20 25 30 1/E M E V M K M I G K H K N I I N L L G A C T Q D G P L Y V I 31 V E Y A S K G N L R E Y L R A R R P P G M E Y S Y D I N R V 61 P E E Q M T F K D L V S C T Y Q L A R A M E Y L A S Q K C I 91 H R D L A A R N V L V T E N N V M K I A D F G L A R D I N N 12

43、1 I D Y Y K K T T N G R L P V K W M A P E A L F D R V Y T H Q 151 S D V W S F G/Associated Alignments:DA0934 protein kinase homologyDA1564 immunoglobulin homology - C2 typeDA1565 immunoglobulin homology - V-type, Ig V regionsFA1349 basic fibroblast growth factor receptor 1 - 555.0 1.0M06341 basic fi

44、broblast growth factor receptor 1 - 524.0 1.0Related Links (Superfamily classification and Alignment):Protein Classification for Entry=G00016 at MIPS, Germany.ProClass for Entry=G00016 at Univ. of Texas, USA.圖4.4 PIR文件實例在SWISS-PROT中,數(shù)據(jù)分為核心數(shù)據(jù)和注釋兩大類。對于數(shù)據(jù)庫中的每一個序列登錄項,核心數(shù)據(jù)包括:序列數(shù)據(jù)、參考文獻(xiàn)、分類信息(蛋白質(zhì)生物來源的描述)等,而

45、注釋包括:蛋白質(zhì)的功能描述; 翻譯后修飾; 域和功能位點(diǎn),如鈣結(jié)合區(qū)域、ATP結(jié)合位點(diǎn)等; 蛋白質(zhì)的二級結(jié)構(gòu); 蛋白質(zhì)的四級結(jié)構(gòu),如同構(gòu)二聚體、異構(gòu)三聚體等; 與其它蛋白質(zhì)的相似性; 由于缺乏該蛋白質(zhì)而引起的疾??; 序列的矛盾、變化等。(2)最小冗余對于給定的蛋白質(zhì),許多數(shù)據(jù)庫根據(jù)不同的文獻(xiàn)報道設(shè)置分立的登錄項,而在SWISS-PROT中,盡量將相關(guān)的數(shù)據(jù)歸并,降低數(shù)據(jù)庫的冗余程度。如果不同來源的原始數(shù)據(jù)有矛盾,則在相應(yīng)序列特征表中加以注釋。(3)與其它數(shù)據(jù)庫的連接SWISS-PROT目前已經(jīng)建立了與其它30多個相關(guān)數(shù)據(jù)庫的交叉索引,即對于每一個SWISS-PROT的登錄項,有許多指向其它數(shù)據(jù)

46、庫相關(guān)數(shù)據(jù)的指針,這便于用戶迅速得到相關(guān)的信息。例如,根據(jù)到蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫的索引,用戶不僅可以得到某個蛋白質(zhì)的序列,還可以進(jìn)一步得到其結(jié)構(gòu)?,F(xiàn)有的交叉索引有:到EMBL核酸序列數(shù)據(jù)庫的索引,到PROSITE模式數(shù)據(jù)庫的索引,到生物大分子結(jié)構(gòu)數(shù)據(jù)庫PDB的索引等。與前面介紹的核酸序列數(shù)據(jù)庫EMBL類似,每一個SWISS-PROT的條目用外在的ASCII文件表示,兩者主要差別在于特征表的不同。該數(shù)據(jù)庫用UNIX系統(tǒng)維護(hù),今后將可能移植到關(guān)系數(shù)據(jù)庫管理系統(tǒng)的環(huán)境下。用戶可以通過網(wǎng)絡(luò)將蛋白質(zhì)序列數(shù)據(jù)提交給SWISS-PROT,或者對蛋白質(zhì)數(shù)據(jù)進(jìn)行修改。SWISS-PROT提供序列序列查詢及相似蛋白質(zhì)

47、序列搜索工具4.3.3 TrEMBL大多數(shù)蛋白質(zhì)序列不是直接由實驗得到,而是通過DNA序列映射而得到的。TrEMBL ()是一個計算機(jī)注釋的蛋白質(zhì)數(shù)據(jù)庫,作為SWISS-PROT數(shù)據(jù)庫的補(bǔ)充。該數(shù)據(jù)庫主要包含從EMBL/ Genbank/DDBJ核酸數(shù)據(jù)庫中根據(jù)編碼序列(CDS)翻譯而得到的蛋白質(zhì)序列,并且,這些序列尚未集成到SWISS-PROT數(shù)據(jù)庫中。TrEMBL有兩個部分,分別是SP-TrEMBL (SWISS-PROT TrEMBL)和REM-TrEMBL (REMaining TrEMBL)。SP-TrEMBL包含最終將要集成到SWISS-PROT的數(shù)據(jù),所有的SP-TrEMBL序列

48、都已被賦予SWISS-PROT的 登錄號。這部分?jǐn)?shù)據(jù)可以看成是SWISS-PROT數(shù)據(jù)庫的預(yù)備隊。REM-TrEMBL包括所有不準(zhǔn)備放入SWISS-PROT的數(shù)據(jù),因此這部分?jǐn)?shù)據(jù)都沒有登錄號。如人工合成的蛋白質(zhì)序列、申請專利的序列、偽基因?qū)?yīng)的蛋白質(zhì)序列等。TrEMBL(16.0版,2001年3月)根據(jù)EMBL的核酸數(shù)據(jù)庫(65.0版)建立,共有489620條序列,包括141347364個氨基酸。為了減少冗余,若根據(jù)核酸編碼序列翻譯的蛋白質(zhì)序列已經(jīng)出現(xiàn)在SWISS-PROT,則將對應(yīng)的序列刪除。TrEMBL數(shù)據(jù)庫的26.0版(2004年3月)擁有1069649條蛋白質(zhì)序列,總氨基酸長度達(dá)到33

49、5331748。目前,歐洲生物信息學(xué)研究所EBI 將上述3個蛋白質(zhì)數(shù)據(jù)庫(即PIR 、SWISS-PROT和TrEMBL)統(tǒng)一起來,建立了一個蛋白質(zhì)數(shù)據(jù)倉庫UniProt(Universal Protein Resource, )。 UniProt包含3個部分:(1)UniProt Knowledgebase(UniProt),這是蛋白質(zhì)序列、功能、分類、交叉引用等信息存取中心;(2)UniProt Non-redundant Reference(UniRef)數(shù)據(jù)庫,該數(shù)據(jù)庫將密切相關(guān)的蛋白質(zhì)序列組合到一條記錄中,以便提高搜索速度;目前,根據(jù)序列相似程度形成3個子庫,即UniRef100、U

50、niRef90和UniRef50;(3)UniProt Archive(UniParc),是一個資源庫,記錄所有蛋白質(zhì)序列的歷史。用戶可以通過文本查詢數(shù)據(jù)庫,可以利用BLAST程序搜索數(shù)據(jù)庫,也可以直接通過FTP 下載數(shù)據(jù)。 4.4 生物大分子結(jié)構(gòu)數(shù)據(jù)庫在生物學(xué)研究中,分子的結(jié)構(gòu)是最重要的數(shù)據(jù),它提供很多信息,包括生物分子的功能、作用機(jī)制、進(jìn)化歷史等。目前,國際上最主要的生物大分子結(jié)構(gòu)數(shù)據(jù)庫是PDB。4.4.1 PDB目前,國際上著名的生物大分子結(jié)構(gòu)數(shù)據(jù)庫是美國Brookhaven實驗室的大分子結(jié)構(gòu)數(shù)據(jù)庫PDB(Protein Data Bank, )。PDB中含有通過實驗(X射線晶體衍射,核

51、磁共振NMR)測定的生物大分子的三維結(jié)構(gòu),其中主要是蛋白質(zhì)的三維結(jié)構(gòu),還包括核酸、糖類、蛋白質(zhì)與核酸復(fù)合物的三維結(jié)構(gòu)。截止2004年5月,PDB數(shù)據(jù)庫已含有約25000個結(jié)構(gòu),其中90%是蛋白質(zhì)的結(jié)構(gòu)。對于每一個結(jié)構(gòu),包含名稱、參考文獻(xiàn)、序列、一級結(jié)構(gòu)、二級結(jié)構(gòu)和原子坐標(biāo)等信息。PDB中的每條記錄有兩種序列信息,一種是顯式序列信息(explicit sequence),一種是隱式序列信息(implicit sequence)。在PDB文件中,以關(guān)鍵字SEQRES作為顯式序列標(biāo)記,以該關(guān)鍵字打頭的每一行都是關(guān)于序列的信息。對于氨基酸殘基,采用三字符的表示方式,這一點(diǎn)與其它序列數(shù)據(jù)庫不一樣。PDB的隱式序列即為立體化學(xué)數(shù)據(jù),包括每個原子的名稱和原子的三維坐標(biāo)。在實際應(yīng)用中,PDB數(shù)據(jù)庫應(yīng)與結(jié)構(gòu)模型顯示軟件結(jié)合起來。因為PDB的主要信息是三維結(jié)構(gòu),如果直接將三維結(jié)構(gòu)信息以文本的形式返回給用戶,用戶將難以分析這些結(jié)構(gòu)信息,實用的方法是,通過分子模型化軟件,以圖形方式顯示三維結(jié)構(gòu)。這樣的軟件在Internet網(wǎng)上有許多,如RasMol、ChemView等,這些軟件能夠以各種各樣的模型顯示生物大分子的三維結(jié)構(gòu),如結(jié)構(gòu)骨架模型

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論