生物分子信息數(shù)據(jù)庫(kù)

上傳人：s*** IP屬地：上海上傳時(shí)間：2022-04-25 格式：DOCX 頁(yè)數(shù)：29 大?。?36.06KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩24頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第4章生物分子數(shù)據(jù)庫(kù)國(guó)際上已建立起許多公共生物分子數(shù)據(jù)庫(kù)，包括基因組圖譜數(shù)據(jù)庫(kù)、核酸序列數(shù)據(jù)庫(kù)、蛋白質(zhì)序列數(shù)據(jù)庫(kù)、生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)等。這些數(shù)據(jù)庫(kù)由專門的機(jī)構(gòu)建立和維護(hù)，他們負(fù)責(zé)收集、組織、管理和發(fā)布生物分子數(shù)據(jù)，并提供數(shù)據(jù)檢索和分析工具，向生物學(xué)研究人員提供大量有用的信息，最大限度地滿足他們研究和應(yīng)用的需要，為他們的研究服務(wù)。4.1 引言建立生物分子數(shù)據(jù)庫(kù)的動(dòng)因是由于生物分子數(shù)據(jù)的高速增長(zhǎng)，而另一方面也是為了滿足分子生物學(xué)及相關(guān)領(lǐng)域研究人員迅速獲得最新實(shí)驗(yàn)數(shù)據(jù)的要求。生物分子信息分析已經(jīng)成為分子生物學(xué)研究必備的一種方法。如果說(shuō)理論分析和算法模擬是生物信息學(xué)實(shí)驗(yàn)方法的話，那么來(lái)自于具體實(shí)驗(yàn)

2、的原始數(shù)據(jù)和來(lái)自于數(shù)據(jù)庫(kù)的數(shù)據(jù)則是生物信息學(xué)的實(shí)驗(yàn)材料。數(shù)據(jù)庫(kù)及其相關(guān)的分析軟件是生物信息學(xué)研究和應(yīng)用的重要基礎(chǔ)，也是分子生物學(xué)研究必備的工具。從數(shù)據(jù)庫(kù)使用的角度來(lái)看，公共生物分子數(shù)據(jù)庫(kù)應(yīng)滿足以下5個(gè)方面的主要需求：（1）時(shí)間性對(duì)于新發(fā)表的數(shù)據(jù)，應(yīng)該能夠在很短的時(shí)間內(nèi)（幾個(gè)小時(shí)至幾天）通過(guò)國(guó)際互連網(wǎng)訪問(wèn)。（2）注釋對(duì)于每一個(gè)基本數(shù)據(jù)（如序列），應(yīng)附加一致的、深層次的輔助說(shuō)明信息。（3）支撐數(shù)據(jù) 在有些情況下，數(shù)據(jù)庫(kù)使用者需要得到原始的實(shí)驗(yàn)數(shù)據(jù)，因而要提供訪問(wèn)原始數(shù)據(jù)的方法。數(shù)據(jù)庫(kù)中應(yīng)包含原始數(shù)據(jù)，或者能夠通過(guò)交叉索引訪問(wèn)實(shí)驗(yàn)數(shù)據(jù)庫(kù)中的原始數(shù)據(jù)。（4）數(shù)據(jù)質(zhì)量必須保證數(shù)據(jù)庫(kù)中數(shù)據(jù)的

3、質(zhì)量，數(shù)據(jù)庫(kù)管理機(jī)構(gòu)應(yīng)對(duì)數(shù)據(jù)來(lái)源進(jìn)行檢查，并且關(guān)注數(shù)據(jù)庫(kù)用戶和專家提出的意見。（5）集成性三種基本生物分子數(shù)據(jù)庫(kù)（核酸序列、蛋白質(zhì)序列、蛋白質(zhì)結(jié)構(gòu)）的集成對(duì)于用戶來(lái)說(shuō)是非常重要的。對(duì)于數(shù)據(jù)庫(kù)中的每一個(gè)數(shù)據(jù)對(duì)象，必須與其它數(shù)據(jù)庫(kù)中的相關(guān)數(shù)據(jù)聯(lián)系起來(lái)，這樣可以從某些分子數(shù)據(jù)出發(fā)得到一系列的相關(guān)信息。例如，從某個(gè)核酸序列出發(fā)，通過(guò)交叉索引，可進(jìn)一步得到對(duì)應(yīng)的基因、蛋白質(zhì)序列、蛋白質(zhì)結(jié)構(gòu)，甚至得到蛋白質(zhì)功能的信息。分子生物學(xué)研究領(lǐng)域雖各有重點(diǎn)，但是研究對(duì)象之間存在著密切的聯(lián)系，比如DNA序列與蛋白質(zhì)序列之間的聯(lián)系，基因調(diào)控信息與基因表達(dá)數(shù)據(jù)之間的聯(lián)系。因而實(shí)驗(yàn)數(shù)據(jù)之間就必然存在著關(guān)聯(lián)，一個(gè)方面的相

4、關(guān)數(shù)據(jù)可能會(huì)影響或促進(jìn)另一個(gè)方面的研究工作?，F(xiàn)有的各類數(shù)據(jù)庫(kù)已經(jīng)成為分子生物學(xué)各方面交叉研究的橋梁。生物分子數(shù)據(jù)庫(kù)目前的發(fā)展?fàn)顩r有幾個(gè)明顯的特征：（1）生物分子數(shù)據(jù)庫(kù)最突出的特征就是數(shù)據(jù)庫(kù)的更新速度不斷加快，數(shù)據(jù)量呈指數(shù)增長(zhǎng)趨勢(shì)。例如，核酸序列數(shù)據(jù)的年增長(zhǎng)幅度為100%。（2）數(shù)據(jù)庫(kù)使用頻率增長(zhǎng)更快。人們?cè)絹?lái)越感到生物分子數(shù)據(jù)的重要性，也認(rèn)識(shí)到它們的價(jià)值，因此各種數(shù)據(jù)庫(kù)的使用人員在不斷增加。據(jù)統(tǒng)計(jì)，數(shù)據(jù)庫(kù)的平均使用頻率每年增長(zhǎng)幅度接近于500%。（3）數(shù)據(jù)庫(kù)的復(fù)雜程度不斷增加。數(shù)據(jù)庫(kù)中除了基本數(shù)據(jù)之外，還包括大量的注釋、鏈接、參考文獻(xiàn)等信息，例如，在SWISS-PROT數(shù)據(jù)庫(kù)中，注釋項(xiàng)

5、涉及蛋白質(zhì)的功能、結(jié)構(gòu)域和活性位點(diǎn)、二級(jí)結(jié)構(gòu)、四級(jí)結(jié)構(gòu)、翻譯后修飾、與其他蛋白質(zhì)的相似性、與該蛋白質(zhì)關(guān)聯(lián)的疾病、序列變化等。（4）數(shù)據(jù)庫(kù)網(wǎng)絡(luò)化。幾乎所有的數(shù)據(jù)庫(kù)都可以在國(guó)際互聯(lián)網(wǎng)上訪問(wèn)，并且公共數(shù)據(jù)庫(kù)之間相互鏈接，使用戶可以迅速得到大量的相關(guān)生物分子信息。有的系統(tǒng)則將多個(gè)生物分子數(shù)據(jù)庫(kù)整合在一起，形成集成的數(shù)據(jù)庫(kù)系統(tǒng)。（5）面向應(yīng)用。首先，各個(gè)數(shù)據(jù)庫(kù)服務(wù)器除了提供數(shù)據(jù)之外，還提供許多分析工具，如核酸數(shù)據(jù)庫(kù)提供的序列搜索、基因識(shí)別程序等，生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)提供的結(jié)構(gòu)比較程序、結(jié)構(gòu)模擬程序等。此外，還在原始數(shù)據(jù)庫(kù)的基礎(chǔ)上開發(fā)了許多面向特殊應(yīng)用的二級(jí)數(shù)據(jù)庫(kù)，如蛋白質(zhì)分類數(shù)據(jù)庫(kù)、蛋白質(zhì)二級(jí)結(jié)構(gòu)數(shù)

6、據(jù)庫(kù)等。（6）先進(jìn)的軟硬件配置。從計(jì)算機(jī)硬件方面來(lái)看，許多數(shù)據(jù)庫(kù)服務(wù)器已從工作站升級(jí)到大型服務(wù)器，使數(shù)據(jù)庫(kù)能夠高效地管理數(shù)據(jù)和為用戶服務(wù)，并在專門的硬件（如并行機(jī)）上運(yùn)行服務(wù)程序。而在系統(tǒng)軟件方面，使用大型數(shù)據(jù)庫(kù)管理系統(tǒng)，面向?qū)ο蟮臄?shù)據(jù)庫(kù)管理方法正在逐步取代舊的模式，數(shù)據(jù)庫(kù)服務(wù)廣泛采用服務(wù)器客戶式結(jié)構(gòu)。一般而言，生物分子數(shù)據(jù)庫(kù)可以分為一級(jí)數(shù)據(jù)庫(kù)和二級(jí)數(shù)據(jù)庫(kù)。一級(jí)數(shù)據(jù)庫(kù)中的數(shù)據(jù)直接來(lái)源于實(shí)驗(yàn)獲得的原始數(shù)據(jù)，只經(jīng)過(guò)簡(jiǎn)單的歸類整理和注釋；二級(jí)數(shù)據(jù)庫(kù)是對(duì)原始生物分子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果，是在一級(jí)數(shù)據(jù)庫(kù)、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定的應(yīng)用目標(biāo)而建立的。與蛋白質(zhì)相關(guān)的二級(jí)數(shù)據(jù)庫(kù)比較多。4.2

7、核酸序列數(shù)據(jù)庫(kù)DNA測(cè)序技術(shù)迅速發(fā)展，使得人類已知的DNA核酸序列不斷增長(zhǎng)。本節(jié)著重介紹與核酸相關(guān)的序列數(shù)據(jù)庫(kù)。4.2.1 GenBank / EMBL-Bank / DDBJ核酸序列是了解生物體結(jié)構(gòu)、功能、發(fā)育和進(jìn)化的出發(fā)點(diǎn)。國(guó)際上權(quán)威的核酸序列數(shù)據(jù)庫(kù)有三個(gè)，分別是美國(guó)生物技術(shù)信息中心（NCBI）的GenBank ()，歐洲分子生物學(xué)實(shí)驗(yàn)室的EMBL-Bank（簡(jiǎn)稱EMBL，)，日本遺傳研究所的DDBJ (）。三個(gè)組織相互合作，各數(shù)據(jù)庫(kù)中的數(shù)據(jù)基本一致，僅在數(shù)據(jù)格式上有所差別，對(duì)于特定的查詢，三個(gè)數(shù)據(jù)庫(kù)的響應(yīng)結(jié)果一樣。這三個(gè)數(shù)據(jù)庫(kù)是綜合性的DNA和RNA序列數(shù)據(jù)庫(kù)，其數(shù)據(jù)來(lái)源于眾多的研究機(jī)構(gòu)

8、和核酸測(cè)序小組，來(lái)源于科學(xué)文獻(xiàn)。用戶可以通過(guò)各種方式將核酸序列數(shù)據(jù)提交給這三個(gè)數(shù)據(jù)庫(kù)系統(tǒng)。數(shù)據(jù)庫(kù)中的每條記錄代表一個(gè)單獨(dú)、連續(xù)、附有注釋的DNA或RNA片段。由于DNA測(cè)序能力的極大提高，DNA序列增長(zhǎng)的速度也非常快，圖4.1是GenBank數(shù)據(jù)庫(kù)中近幾年數(shù)據(jù)量的統(tǒng)計(jì)，這張圖反映出DNA序列數(shù)據(jù)迅速增長(zhǎng)的趨勢(shì)。堿基數(shù)（單位：百萬(wàn)）序列數(shù)（單位：百萬(wàn)）圖4.1 核酸序列數(shù)據(jù)的增長(zhǎng)趨勢(shì)（取自）下面著重介紹EMBL數(shù)據(jù)庫(kù)。EMBL是最早的DNA序列數(shù)據(jù)庫(kù)，于1982年建立。目前EMBL數(shù)據(jù)庫(kù)中的數(shù)據(jù)按照每年約60%的速率增長(zhǎng)。截止2000年3月底，EMBL數(shù)據(jù)庫(kù)中的核酸序列總長(zhǎng)度達(dá)70億個(gè)堿基，覆蓋

9、2/3的人類基因組序列。對(duì)于每個(gè)序列，相關(guān)數(shù)據(jù)包括序列名稱、序列、位點(diǎn)、關(guān)鍵字、來(lái)源、生物種、參考文獻(xiàn)、注釋、序列中具有重要生物學(xué)意義的位點(diǎn)等。而到2004年2月，數(shù)據(jù)庫(kù)中的核酸序列數(shù)超過(guò)3000萬(wàn)條，總的數(shù)據(jù)量近400億bp。隨著分子生物學(xué)技術(shù)的不斷發(fā)展，數(shù)據(jù)的增長(zhǎng)速度將會(huì)不斷地提高。EMBL的數(shù)據(jù)來(lái)源主要有兩條途徑。一是由序列發(fā)現(xiàn)者直接提交。幾乎所有的國(guó)際權(quán)威生物學(xué)刊物都要求作者在文章發(fā)表之前將所測(cè)定的序列提交給EMBL、GenBank或DDBJ，得到數(shù)據(jù)庫(kù)管理系統(tǒng)所簽發(fā)的登錄注冊(cè)號(hào)。二是從生物醫(yī)學(xué)期刊上收錄已經(jīng)發(fā)表的序列資料。EMBL核酸數(shù)據(jù)庫(kù)由關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)ORACLE來(lái)維護(hù)，在D

10、EC alpha VMS系統(tǒng)下運(yùn)行，數(shù)據(jù)庫(kù)中的每一個(gè)序列數(shù)據(jù)被賦予一個(gè)登錄號(hào)，它是一個(gè)永久性的唯一標(biāo)識(shí)。EMBL的序列數(shù)據(jù)用外在的ASCII文本文件來(lái)表示（見圖4.2），而每一個(gè)文件分都為文件頭和文件體兩大部分。文件頭由一系列的信息描述行所組成，描述信息有序列的標(biāo)識(shí)符、序列的功能、種屬、參考文獻(xiàn)等。每一行的起始位置有一個(gè)標(biāo)志，該標(biāo)志由兩個(gè)字母組成，標(biāo)志后面是相關(guān)的正文信息。“ID”為序列的標(biāo)識(shí)符行，包括登錄號(hào)、類型、分子的長(zhǎng)度；“AC”為登錄號(hào)行，如圖4.2所表示的序列登錄號(hào)為AB000888；“SV”為序列版本行，其數(shù)據(jù)的形式為“登錄號(hào).版本號(hào)”，例如，AB000888.1表示序列的登錄號(hào)為

11、AB000888，并且該序列數(shù)據(jù)是第一版本；“XX”為分隔符號(hào)行；“DT”為創(chuàng)建和更新日期行；“DE”為序列描述行；“KW”為關(guān)鍵字行；“OG”行描述非核序列的亞細(xì)胞定位，表明該序列來(lái)自于線粒體、葉綠體等；“OS”行描述生物體種屬；“OC”行描述生物體分類信息；“RN”、“RP”、“RA”、“RT”、“RL”、“RC”分別描述參考文獻(xiàn)的編號(hào)、頁(yè)碼、作者、題目、參考文獻(xiàn)出處和注解；“RX”行是到其他文獻(xiàn)數(shù)據(jù)庫(kù)的鏈接，如“MEDLINE；97450990”表示對(duì)應(yīng)參考文獻(xiàn)在MEDLINE數(shù)據(jù)庫(kù)的標(biāo)示號(hào)為97450990；“DR”行是到其他生物信息數(shù)據(jù)庫(kù)的鏈接，如到基因組數(shù)據(jù)庫(kù)、蛋白質(zhì)序列數(shù)據(jù)庫(kù)、

12、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)的鏈接，通過(guò)這些鏈接可以找到更多與本序列相關(guān)的數(shù)據(jù)；“FH” 為特征表開始符號(hào)；“FT”為特征表行。FT行具體的信息有：序列的長(zhǎng)度，序列來(lái)自于何種生物體、何種組織，在染色體上的定位，蛋白質(zhì)編碼序列片段在整個(gè)序列中的位置，外顯子和內(nèi)含子的位置，與基因?qū)?yīng)的蛋白質(zhì)序列等。FT行主要有三項(xiàng)：（1）Feature Key，它是描述特征的關(guān)鍵字，如“source”、“CDS”等；（2）Location，指明特征在序列中的特定位置；（3）Qualifiers，描述關(guān)于一個(gè)特征的輔助信息。文件頭實(shí)際上對(duì)應(yīng)于一個(gè)序列的注釋（annotation）。文件體由序列本身所組成，由“SQ”標(biāo)志的行開始

13、。序列結(jié)束的標(biāo)記是“/”?？蒲泄ぷ髡呖梢詫⑿掳l(fā)現(xiàn)的核酸序列數(shù)據(jù)提交給EMBL。但是，為保證每一條序列數(shù)據(jù)都有較高的質(zhì)量，在提交數(shù)據(jù)之間必須利用EMBL 提供的工具進(jìn)行檢查與核實(shí)。如果必要，數(shù)據(jù)庫(kù)管理人員可以直接與序列的提交者討論，澄清有關(guān)問(wèn)題。早期提交數(shù)據(jù)的方式是編輯電子表格，用任何正文編輯工具編輯固定格式的提交表格。編輯任務(wù)比較復(fù)雜，也容易出錯(cuò)，特別是對(duì)于沒有經(jīng)驗(yàn)的用戶。另外，由于沒有實(shí)時(shí)的數(shù)據(jù)校驗(yàn)，用戶當(dāng)時(shí)不能得到錯(cuò)誤信息的反饋。后來(lái)利用Authorin程序提交數(shù)據(jù)。Authorin是歐洲生物信息學(xué)研究所（EBI）提供的一個(gè)交互的序列輸入程序，用以幫助用戶填寫提交表格，該程序可在Macin

14、tosh和IBM兼容機(jī)上運(yùn)行。Authorin與用戶交互，并進(jìn)行數(shù)據(jù)有效性的檢查。它最后根據(jù)用戶的輸入形成一個(gè)特定格式的文本文件，作為結(jié)果提交給EMBL。目前主要利用基于WWW網(wǎng)絡(luò)環(huán)境的序列提交系統(tǒng)WEBIN，這是一種基于Internet網(wǎng)3W服務(wù)器的序列數(shù)據(jù)提交系統(tǒng)，它使用戶提交序列數(shù)據(jù)的過(guò)程更直接、容易、簡(jiǎn)便。該系統(tǒng)具有序列檢查、更新和恢復(fù)等功能。對(duì)于用戶端的要求是安裝3W瀏覽器。這個(gè)系統(tǒng)具有很大的優(yōu)點(diǎn)。首先，與單機(jī)輸入程序相比，用戶不必每次從EBI取回高版本的程序，用戶總是使用服務(wù)器上最新版本的序列輸入程序。第二，如果用戶機(jī)器上已經(jīng)安裝了標(biāo)準(zhǔn)的3W客戶端程序，則用戶不必再花時(shí)間、精力和磁

15、盤空間去安裝單機(jī)輸入程序。第三，由于直接和數(shù)據(jù)庫(kù)所在的服務(wù)器相連，用戶可以直接使用數(shù)據(jù)庫(kù)資源，如查看數(shù)據(jù)庫(kù)中已有的序列，查看期刊、作者等信息，以避免重復(fù)工作。ID AB000888 standard; mRNA; HUM; 937 BP.XXAC AB000888;XXSV AB000888.1XXDT 07-OCT-1997 (Rel. 52, Created)DT 07-OCT-1997 (Rel. 52, Last updated, Version 1)XXDE Homo sapiens mRNA for phosphatidic acid phosphatase 2a, complet

16、e cds.XXKW phosphatidic acid phosphatase 2a.XXOS Homo sapiens (human)OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;OC Eutheria; Primates; Catarrhini; Hominidae; Homo.XXRN 1RP 1-937RA Kai M.;RT ;RL Submitted (05-FEB-1997) to the EMBL/GenBank/DDBJ databases.RL Masahiro

17、Kai, Sapporo Medical University, Department of Biochemistry;RL South-1, West-17, Chuo-ku, Sapporo 060, Japan (E-mail:kaisapmed.ac.jp,RL Tel:011-611-2111)XXRN 2RX MEDLINE; 97450990.RX PUBMED; 9305923.RA Kai M., Wada I., Imai S., Sakane F., Kanoh H.;RT "Cloning and characterization of two human i

18、sozymes of Mg2+ independentRT phosphatidic acid phosphatases"RL J. Biol. Chem. 272(39):24572-24578(1997).XXDR GDB; GDB:9956025.DR GOA; O14494.DR TrEMBL; O14494; O14494.XXFH Key Location/QualifiersFHFT source 1.937FT /db_xref="taxon:9606"FT /mol_type="mRNA"FT /organism="

19、Homo sapiens"FT /cell_line="HepG2"FT CDS 48.902FT /codon_start=1FT /db_xref="GOA:O14494"FT /db_xref="TrEMBL:O14494"FT /note="similar to DDBJ Accession Number D84376 : mouseFT PAP-2"FT /transl_table=1FT /product="phosphatidic acid phosphatase 2a"

20、FT /protein_id="BAA22593.1"FT /translation="MFDKTRLPYVALDVLCVLLAGLPFAILTSRHTPFQRGVFCNDESIFT KYPYKEDTIPYALLGGIIIPFSIIVIILGETLSVYCNLLHSNSFIRNNYIATIYKAIGTFT FLFGAAASQSLTDIAKYSIGRLRPHFLDVCDPDWSKINCSDGYIEYYICRGNAERVKEGFT RLSFYSGHSSFSMYCMLFVALYLQARMKGDWARLLRPTLQFGLVAVSIYVGLSRVSDYKFT HHWSDVL

21、TGLIQGALVAILVAVYVSDFFKERTSFKERKEEDSHTTLHETPTTGNHYPSNFT HQP"XXSQ Sequence 937 BP; 240 A; 218 C; 209 G; 270 T; 0 other; accgcagctc agtccatcgc ccttgccggg cagcccgggc agagaccatg ttcgacaaga 60 cgcggctgcc gtacgtggcc ctcgatgtgc tctgcgtgtt gctggctgga ttgccttttg 120 caattcttac ttcaaggcat acccccttcc aacga

22、ggagt attctgtaat gatgagtcca 180 tcaagtaccc ttacaaagaa gacaccatac cttatgcgtt attaggtgga ataatcattc 240 cattcagtat tatcgttatt attcttggag aaaccctgtc tgtttactgt aaccttttgc 300 actcaaattc ctttatcagg aataactaca tagccactat ttacaaagcc attggaacct 360 ttttatttgg tgcagctgct agtcagtccc tgactgacat tgccaagtat tca

23、ataggca 420 gactgcggcc tcacttcttg gatgtttgtg atccagattg gtcaaaaatc aactgcagcg 480 atggttacat tgaatactac atatgtcgag ggaatgcaga aagagttaag gaaggcaggt 540 tgtccttcta ttcaggccac tcttcgtttt ccatgtactg catgctgttt gtggcacttt 600 atcttcaagc caggatgaag ggagactggg caagactctt acgccccaca ctgcaatttg 660 gtcttgtt

24、gc cgtatccatt tatgtgggcc tttctcgagt ttctgattat aaacaccact 720 ggagcgatgt gttgactgga ctcattcagg gagctctggt tgcaatatta gttgctgtat 780 atgtatcgga tttcttcaaa gaaagaactt cttttaaaga aagaaaagag gaggactctc 840 atacaactct gcatgaaaca ccaacaactg ggaatcacta tccgagcaat caccagcctt 900 gaaaggcagc agggtgccca ggtgaa

25、gctg gcctgtt 937/圖4.2 EMBL核酸數(shù)據(jù)庫(kù)每個(gè)條目的文件格式早期用戶主要通過(guò)發(fā)行的CD-ROM使用EMBL。EMBL數(shù)據(jù)庫(kù)隨時(shí)更新，但CD-ROM每隔三個(gè)月發(fā)布一個(gè)最新的版本。CD-ROM上包含了所有的數(shù)據(jù)，包括序列數(shù)據(jù)、相關(guān)的索引文件以及信息檢索程序。后來(lái)用戶可以通過(guò)ftp服務(wù)器訪問(wèn)EMBL，下載相關(guān)的數(shù)據(jù)及各種程序。隨著Internet的不斷發(fā)展，現(xiàn)在用戶主要通過(guò)互聯(lián)網(wǎng)訪問(wèn)EMBL，直接利用本地計(jì)算機(jī)上的3W瀏覽器查詢EMBL的有關(guān)數(shù)據(jù)，并將所需要的數(shù)據(jù)取回。查詢時(shí)，用戶根據(jù)自己的要求，按照服務(wù)程序的提示填寫查詢條件，并將查詢條件通過(guò)Internet發(fā)送給EMBL的服務(wù)

26、器。服務(wù)程序根據(jù)用戶的查詢條件搜索數(shù)據(jù)庫(kù)，然后將滿足查詢條件的有關(guān)核酸序列數(shù)據(jù)傳送給用戶。EMBL數(shù)據(jù)庫(kù)服務(wù)器提供序列查詢和序列搜索服務(wù)。最簡(jiǎn)單的查詢就是通過(guò)序列的登錄號(hào)（如X58929）或序列名稱（如SCARGC）直接查詢。雖然這種方式需要用戶事先知道登錄項(xiàng)的標(biāo)識(shí)，但這確實(shí)是從數(shù)據(jù)庫(kù)取得序列的最快方式。當(dāng)然，也可以通過(guò)其它渠道查詢，如通過(guò)物種、序列功能等進(jìn)行查詢。如果找到所查詢的序列，則服務(wù)器將查詢結(jié)果以HTML文件返回給用戶。如果數(shù)據(jù)庫(kù)中該序列有到MEDLINE的交叉索引，則系統(tǒng)同時(shí)返回與包含參考文獻(xiàn)摘要等信息的MEDLINE鏈接。如果該序列有到其它數(shù)據(jù)庫(kù)的交叉索引，也返回相應(yīng)的鏈接。例

27、如，登錄號(hào)為J00231的核酸序列具有這樣一個(gè)交叉索引行：DRSWISS-PROT：P01860；GC3_HUMAN表示該核酸序列有一個(gè)到數(shù)據(jù)庫(kù)SWISS-PROT的交叉索引，鏈接到其P01860文件。這時(shí)，用戶只要點(diǎn)擊返回的超文本鏈接，就可以進(jìn)一步訪問(wèn)SWISS-PROT數(shù)據(jù)庫(kù)中的相關(guān)數(shù)據(jù)。EMBL 服務(wù)器支持用戶使用程序FastA或BLAST 進(jìn)行核酸序列搜索，它們根據(jù)給定的目標(biāo)序列在數(shù)據(jù)庫(kù)中搜索其同源序列。目前EMBL主要通過(guò)SRS服務(wù)器提供核酸序列查詢服務(wù)，詳見4.7.2。GenBank是國(guó)際上最著名的核酸數(shù)據(jù)庫(kù)。GenBank數(shù)據(jù)庫(kù)140.0版（2004年2月）含有3000多萬(wàn)條序列

28、，總長(zhǎng)度接近400億對(duì)堿基。其序列數(shù)據(jù)組織方式采用ASCII文本文件，主要存放核酸序列數(shù)據(jù)，同時(shí)還有一些輔助文件，存放于序列相關(guān)的輔助信息，如作者名、基因名、關(guān)鍵字、參考文獻(xiàn)、其他數(shù)據(jù)庫(kù)鏈接等。4.2.2 基因組數(shù)據(jù)庫(kù)隨著核酸測(cè)序技術(shù)的迅速發(fā)展，人類已經(jīng)得到一部分生物的全基因組數(shù)據(jù)，如人、小鼠、大鼠等。這些數(shù)據(jù)對(duì)于我們認(rèn)識(shí)基因組信息組織的奧秘、了解生物體的生長(zhǎng)發(fā)育的規(guī)律是非常重要的。國(guó)際上有專門的組織收集和管理這些數(shù)據(jù)。NCBI基因組數(shù)據(jù)庫(kù)Entrez Gonomes （）所收集的基因組數(shù)據(jù)量非常大，至2004年，該數(shù)據(jù)庫(kù)包括1000多個(gè)病毒基因組、100多個(gè)微生物基因組以及部分真核生物基因組

29、。該數(shù)據(jù)庫(kù)還提供了一個(gè)基因組數(shù)據(jù)瀏覽工具M(jìn)ap Viewer，利用這個(gè)工具，用戶可以很方便地得到所需要的數(shù)據(jù)。例如，通過(guò)Map Viewer瀏覽人基因組的24條染色體和線粒體，下載基因組序列，查看染色體或線粒體上的基因。GDB(）是一個(gè)比出現(xiàn)比較早的基因組數(shù)據(jù)庫(kù)。GDB于1990年建立于美國(guó)Johns Hopkins 大學(xué)，該數(shù)據(jù)庫(kù)中的內(nèi)容主要是人類基因組計(jì)劃所得到的圖譜數(shù)據(jù)。建立GDB數(shù)據(jù)庫(kù)的目的是為科學(xué)家提供一部關(guān)于人類基因組的百科全書。GDB包含對(duì)下述三種對(duì)象的描述：（1）人類基因組區(qū)域，包括基因、克隆、PCR標(biāo)記物、斷點(diǎn)、細(xì)胞遺傳學(xué)標(biāo)記、易碎位點(diǎn)、EST、綜合區(qū)域、contigs、重復(fù)

30、等；（2）人類基因組圖譜，包含細(xì)胞遺傳學(xué)圖譜、連接圖譜、輻射混合圖譜、contig 圖譜、集成圖譜，所有這些圖譜都可以被直觀地顯示出來(lái)；（3）人類基因組中的變化，包括基因突變和基因多態(tài)性，加上等位基因頻率數(shù)據(jù)。目前國(guó)際上有一些專門的模式生物基因組數(shù)據(jù)庫(kù)，這些數(shù)據(jù)庫(kù)側(cè)重于收集某種生物基因組的相關(guān)數(shù)據(jù)。如酵母基因組數(shù)據(jù)庫(kù)SGD（）、小鼠基因組信息學(xué)數(shù)據(jù)庫(kù)MGI（）、果蠅基因組數(shù)據(jù)庫(kù)FlyBase（）、線蟲基因組數(shù)據(jù)庫(kù)WormBase（）等。Ensembl (）是一個(gè)綜合基因組數(shù)據(jù)庫(kù)，它是由EMBL-EBI和Sanger研究所共同開發(fā)的一個(gè)系統(tǒng)。Ensembl產(chǎn)生并維護(hù)關(guān)于各種后生動(dòng)物基因組的自動(dòng)

31、注釋，如人類基因組、小鼠基因組、大鼠基因組、黑猩猩基因組等。Ensembl試圖跟蹤這些基因組的序列片段，并將序列片段組裝成單個(gè)長(zhǎng)序列，進(jìn)而分析這些經(jīng)過(guò)組裝的DNA序列，搜索其中的基因，發(fā)現(xiàn)生物學(xué)家或醫(yī)學(xué)工作者感興趣的特征。Ensembl包括所有公開的基因組DNA序列，通過(guò)注釋形成的關(guān)于序列的特征。基因就是一種特征，基因或者是通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)的，或者是通過(guò)Ensembl的程序預(yù)測(cè)的。Ensembl所用的基因預(yù)測(cè)程序?yàn)镚enScan。其他的特征包括單核苷酸多態(tài)性（SNP）、重復(fù)序列與其它序列高度相似（或同源）的序列。此外，Ensembl 數(shù)據(jù)庫(kù)還提供疾病、細(xì)胞等方面的信息，并且提供數(shù)據(jù)搜索、數(shù)據(jù)下載、

32、統(tǒng)計(jì)分析等服務(wù)，詳見圖4.3。Ensembl提供多種查詢方式，如用BLAST進(jìn)行相似序列的搜索，通過(guò)序列號(hào)進(jìn)行查詢，通過(guò)基因名稱查詢，以及通過(guò)遺傳疾病查詢。另一種更直觀的方式是顯示各染色體，用戶可以在染色體水平上選擇感興趣的位點(diǎn)，然后逐層放大，從而瀏覽整個(gè)基因組，分析DNA序列，分析基因。圖4.3 Ensembl 數(shù)據(jù)庫(kù)結(jié)構(gòu)圖4.2.3 表達(dá)序列標(biāo)記數(shù)據(jù)庫(kù)dbESTEST（Expressed Sequence Tags）方法已被證明是識(shí)別轉(zhuǎn)錄序列的最有效方法。在1990以前，關(guān)于人類基因序列的數(shù)據(jù)主要來(lái)自于對(duì)單個(gè)基因的研究，EST數(shù)據(jù)的出現(xiàn)是生物信息學(xué)發(fā)展歷史上的一塊里程碑。EST序列大約覆蓋

33、了人類基因的90%。EST序列中含有大量的基因信息，利用這些信息可以發(fā)現(xiàn)新的基因，闡明基因的功能。dbEST (）是GenBank的一個(gè)部分，該數(shù)據(jù)庫(kù)包括不同生物的EST序列數(shù)據(jù)及其它相關(guān)信息，主要是從大量不同組織和器官得到的短mRNA片段。截止2004年4月，該數(shù)據(jù)庫(kù)含有2000萬(wàn)個(gè)登錄項(xiàng)，其中人的EST序列超過(guò)500萬(wàn)條，小鼠的EST序列400萬(wàn)條，大鼠的EST序列也超過(guò)50萬(wàn)條。通過(guò)WEB頁(yè)面或者通過(guò)email可以查詢有關(guān)EST的數(shù)據(jù)和相關(guān)報(bào)道，也可以通過(guò)FTP下載dbEST數(shù)據(jù)庫(kù)。EST數(shù)據(jù)庫(kù)的主要作用是通過(guò)搜索比較，給實(shí)驗(yàn)新得到的一條cDNA序列或基因組序列賦予公認(rèn)的功能。通過(guò)對(duì)ES

34、T數(shù)據(jù)庫(kù)的逆向分析，能識(shí)別與疾病相聯(lián)系的基因。4.2.4 序列標(biāo)記位點(diǎn)數(shù)據(jù)庫(kù)dbSTSSTS（Sequence Tagged Sites）是序列標(biāo)記位點(diǎn)。dbSTS（）是NCBI的一個(gè)數(shù)據(jù)源，也是GenBank的一個(gè)部分，包含基因組短標(biāo)記序列（STS）的組成和定位信息。可以通過(guò)BLAST搜索STS序列，或者直接通過(guò)FTP 下載序列。4.2.5 面向基因聚類數(shù)據(jù)庫(kù)UniGeneUniGene( )數(shù)據(jù)庫(kù)將GenBank中的序列進(jìn)行自動(dòng)分類，形成面向基因群的非冗余集合。每個(gè)UniGene群包含代表一個(gè)唯一基因的多個(gè)序列，附有該基因相關(guān)的信息，如基因表達(dá)的組織類型、定位圖譜。除了基因的序列之外，還包

35、括大量的EST序列。UniGene既可以作為發(fā)現(xiàn)新基因的數(shù)據(jù)源，也可以作為生物學(xué)研究人員進(jìn)行大規(guī)模表達(dá)分析的輔助工具。需要指出的是，自動(dòng)分類的過(guò)程還有待于進(jìn)一步發(fā)展和完善。目前，UniGene中包括人類、大鼠、小鼠、牛等生物的相關(guān)數(shù)據(jù)，因?yàn)檫@些生物有大量的EST數(shù)據(jù)。4.3 蛋白質(zhì)序列數(shù)據(jù)庫(kù)我們可以根據(jù)基因組序列預(yù)測(cè)新基因，預(yù)測(cè)編碼區(qū)域，并推測(cè)其產(chǎn)物（即蛋白質(zhì)）的序列。因此，隨著基因組序列的不斷增長(zhǎng)，蛋白質(zhì)序列也在不斷增加。本節(jié)著重介紹與蛋白質(zhì)序列相關(guān)的序列數(shù)據(jù)庫(kù)。4.3.1 PIR歷史上，蛋白質(zhì)數(shù)據(jù)庫(kù)的出現(xiàn)先于核酸數(shù)據(jù)庫(kù)。在1960年左右，Dayhoff和其同事們搜集了當(dāng)時(shí)所有已知的氨基酸序

36、列，編著了蛋白質(zhì)序列與結(jié)構(gòu)圖冊(cè)。從這本圖冊(cè)中的數(shù)據(jù)，演化為后來(lái)的蛋白質(zhì)信息資源數(shù)據(jù)庫(kù)PIR（Protein Information Resource）。PIR(）是由美國(guó)生物醫(yī)學(xué)基金會(huì)NBRF（National Biomedical Research Foundation）于1984年建立的，其目的是幫助研究者鑒別和解釋蛋白質(zhì)序列信息，研究分子進(jìn)化、功能基因組，進(jìn)行生物信息學(xué)分析。它是一個(gè)全面的、經(jīng)過(guò)注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫(kù)。所有序列數(shù)據(jù)都經(jīng)過(guò)整理，超過(guò)99%的序列已按蛋白質(zhì)家族分類，一半以上還按蛋白質(zhì)超家族進(jìn)行了分類。PIR提供一個(gè)蛋白質(zhì)序列數(shù)據(jù)庫(kù)、相關(guān)數(shù)據(jù)庫(kù)和輔助工具的集成系統(tǒng)，用

37、戶可以迅速查找、比較蛋白質(zhì)序列，得到與蛋白質(zhì)相關(guān)的眾多信息。目前，PIR已經(jīng)成為一個(gè)集成的生物信息數(shù)據(jù)源，支持基因組研究和蛋白質(zhì)組研究。至2004年，PIR 有近30萬(wàn)個(gè)蛋白質(zhì)的登錄數(shù)據(jù)項(xiàng)，包括來(lái)自不同生物體的蛋白質(zhì)序列。除了蛋白質(zhì)序列數(shù)據(jù)之外，PIR還包含以下信息：（1）蛋白質(zhì)名稱、蛋白質(zhì)的分類、蛋白質(zhì)的來(lái)源；（2）關(guān)于原始數(shù)據(jù)的參考文獻(xiàn)；（3）蛋白質(zhì)功能和蛋白質(zhì)的一般特征，包括基因表達(dá)、翻譯后處理、活化等；（4）序列中相關(guān)的位點(diǎn)、功能區(qū)域。對(duì)于數(shù)據(jù)庫(kù)中的每一個(gè)登錄項(xiàng)，有與其它數(shù)據(jù)庫(kù)的交叉索引，包括到GenBank、EMBL、DDBJ、GDB、MELINE等數(shù)據(jù)庫(kù)的索引。PIR中一個(gè)

38、具體的登錄項(xiàng)如圖4.4所示。PIR提供三種類型的檢索服務(wù)。一是基于文本的交互式查詢，用戶通過(guò)關(guān)鍵字進(jìn)行數(shù)據(jù)查詢。二是標(biāo)準(zhǔn)的序列相似性搜索，包括BLAST、FastA等。三是結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級(jí)搜索，包括按注釋分類的相似性搜索、結(jié)構(gòu)域搜索等。目前，PIR包括三個(gè)子數(shù)據(jù)庫(kù)，分別是蛋白質(zhì)序列數(shù)據(jù)庫(kù)PIR-PSD、蛋白質(zhì)分類數(shù)據(jù)庫(kù)iProClass以及非冗余的蛋白質(zhì)參考資料數(shù)據(jù)庫(kù)PIR-NREF。4.3.2 SWISS-PROTSWISS-PROT (）是由Geneva大學(xué)和歐洲生物信息學(xué)研究所（EBI）于1986年聯(lián)合建立的，它是目前國(guó)際上權(quán)威的蛋白質(zhì)序列數(shù)據(jù)庫(kù)。SWISS

39、-PROT 中的蛋白質(zhì)序列是經(jīng)過(guò)注釋的。SWISS-PROT中的數(shù)據(jù)來(lái)源于不同源地：（1）從核酸數(shù)據(jù)庫(kù)經(jīng)過(guò)翻譯推導(dǎo)而來(lái)；（2）從蛋白質(zhì)數(shù)據(jù)庫(kù)PIR挑選出合適的數(shù)據(jù)；（3）從科學(xué)文獻(xiàn)中摘錄；（4）研究人員直接提交的蛋白質(zhì)序列數(shù)據(jù)。2004年3月的SWISS-PROT 43.0 版本有146720序列登錄項(xiàng)，包含摘自113719篇參考文獻(xiàn)的54093154個(gè)氨基酸。與其它蛋白質(zhì)序列數(shù)據(jù)庫(kù)相比較，SWISS-PROT有三個(gè)明顯的特點(diǎn)：（1）注釋ENTRY G00016 #type fragmentTITLE FGF-receptor - common marmoset (fragment)ORGA

40、NISM #formal_name Callithrix jacchus #common_name common marmosetDATE 13-Mar-1997 #sequence_revision 13-Mar-1997 #text_change 18-Jul-1997ACCESSIONS G00016REFERENCE H00018 #authors Einspanier, R. #submission submitted to the EMBL Data Library, December 1995 #accession G00016 #status preliminary; tran

41、slated from GB/EMBL/DDBJ #molecule_type mRNA #residues 1-157 #label EIN #cross-references EMBL:Z68149; NID:g1279349CLASSIFICATION #superfamily basic fibroblast growth factor receptor 1; immunoglobulin homology; protein kinase homologyFEATURES 1-157 #domain protein kinase homology (fragment) #label K

42、INSUMMARY #length 157SEQUENCE 5 10 15 20 25 30 1/E M E V M K M I G K H K N I I N L L G A C T Q D G P L Y V I 31 V E Y A S K G N L R E Y L R A R R P P G M E Y S Y D I N R V 61 P E E Q M T F K D L V S C T Y Q L A R A M E Y L A S Q K C I 91 H R D L A A R N V L V T E N N V M K I A D F G L A R D I N N 12

43、1 I D Y Y K K T T N G R L P V K W M A P E A L F D R V Y T H Q 151 S D V W S F G/Associated Alignments:DA0934 protein kinase homologyDA1564 immunoglobulin homology - C2 typeDA1565 immunoglobulin homology - V-type, Ig V regionsFA1349 basic fibroblast growth factor receptor 1 - 555.0 1.0M06341 basic fi

44、broblast growth factor receptor 1 - 524.0 1.0Related Links (Superfamily classification and Alignment):Protein Classification for Entry=G00016 at MIPS, Germany.ProClass for Entry=G00016 at Univ. of Texas, USA.圖4.4 PIR文件實(shí)例在SWISS-PROT中，數(shù)據(jù)分為核心數(shù)據(jù)和注釋兩大類。對(duì)于數(shù)據(jù)庫(kù)中的每一個(gè)序列登錄項(xiàng)，核心數(shù)據(jù)包括：序列數(shù)據(jù)、參考文獻(xiàn)、分類信息（蛋白質(zhì)生物來(lái)源的描述）等，而

45、注釋包括：蛋白質(zhì)的功能描述；翻譯后修飾；域和功能位點(diǎn)，如鈣結(jié)合區(qū)域、ATP結(jié)合位點(diǎn)等；蛋白質(zhì)的二級(jí)結(jié)構(gòu)；蛋白質(zhì)的四級(jí)結(jié)構(gòu)，如同構(gòu)二聚體、異構(gòu)三聚體等；與其它蛋白質(zhì)的相似性；由于缺乏該蛋白質(zhì)而引起的疾病；序列的矛盾、變化等。（2）最小冗余對(duì)于給定的蛋白質(zhì)，許多數(shù)據(jù)庫(kù)根據(jù)不同的文獻(xiàn)報(bào)道設(shè)置分立的登錄項(xiàng)，而在SWISS-PROT中，盡量將相關(guān)的數(shù)據(jù)歸并，降低數(shù)據(jù)庫(kù)的冗余程度。如果不同來(lái)源的原始數(shù)據(jù)有矛盾，則在相應(yīng)序列特征表中加以注釋。（3）與其它數(shù)據(jù)庫(kù)的連接SWISS-PROT目前已經(jīng)建立了與其它30多個(gè)相關(guān)數(shù)據(jù)庫(kù)的交叉索引，即對(duì)于每一個(gè)SWISS-PROT的登錄項(xiàng)，有許多指向其它數(shù)據(jù)

46、庫(kù)相關(guān)數(shù)據(jù)的指針，這便于用戶迅速得到相關(guān)的信息。例如，根據(jù)到蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)的索引，用戶不僅可以得到某個(gè)蛋白質(zhì)的序列，還可以進(jìn)一步得到其結(jié)構(gòu)?，F(xiàn)有的交叉索引有：到EMBL核酸序列數(shù)據(jù)庫(kù)的索引，到PROSITE模式數(shù)據(jù)庫(kù)的索引，到生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB的索引等。與前面介紹的核酸序列數(shù)據(jù)庫(kù)EMBL類似，每一個(gè)SWISS-PROT的條目用外在的ASCII文件表示，兩者主要差別在于特征表的不同。該數(shù)據(jù)庫(kù)用UNIX系統(tǒng)維護(hù)，今后將可能移植到關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)的環(huán)境下。用戶可以通過(guò)網(wǎng)絡(luò)將蛋白質(zhì)序列數(shù)據(jù)提交給SWISS-PROT，或者對(duì)蛋白質(zhì)數(shù)據(jù)進(jìn)行修改。SWISS-PROT提供序列序列查詢及相似蛋白質(zhì)

47、序列搜索工具4.3.3 TrEMBL大多數(shù)蛋白質(zhì)序列不是直接由實(shí)驗(yàn)得到，而是通過(guò)DNA序列映射而得到的。TrEMBL ()是一個(gè)計(jì)算機(jī)注釋的蛋白質(zhì)數(shù)據(jù)庫(kù)，作為SWISS-PROT數(shù)據(jù)庫(kù)的補(bǔ)充。該數(shù)據(jù)庫(kù)主要包含從EMBL/ Genbank/DDBJ核酸數(shù)據(jù)庫(kù)中根據(jù)編碼序列(CDS)翻譯而得到的蛋白質(zhì)序列，并且，這些序列尚未集成到SWISS-PROT數(shù)據(jù)庫(kù)中。TrEMBL有兩個(gè)部分，分別是SP-TrEMBL (SWISS-PROT TrEMBL)和REM-TrEMBL (REMaining TrEMBL)。SP-TrEMBL包含最終將要集成到SWISS-PROT的數(shù)據(jù)，所有的SP-TrEMBL序列

48、都已被賦予SWISS-PROT的登錄號(hào)。這部分?jǐn)?shù)據(jù)可以看成是SWISS-PROT數(shù)據(jù)庫(kù)的預(yù)備隊(duì)。REM-TrEMBL包括所有不準(zhǔn)備放入SWISS-PROT的數(shù)據(jù)，因此這部分?jǐn)?shù)據(jù)都沒有登錄號(hào)。如人工合成的蛋白質(zhì)序列、申請(qǐng)專利的序列、偽基因?qū)?yīng)的蛋白質(zhì)序列等。TrEMBL（16.0版，2001年3月)根據(jù)EMBL的核酸數(shù)據(jù)庫(kù)（65.0版）建立，共有489620條序列，包括141347364個(gè)氨基酸。為了減少冗余，若根據(jù)核酸編碼序列翻譯的蛋白質(zhì)序列已經(jīng)出現(xiàn)在SWISS-PROT，則將對(duì)應(yīng)的序列刪除。TrEMBL數(shù)據(jù)庫(kù)的26.0版（2004年3月）擁有1069649條蛋白質(zhì)序列，總氨基酸長(zhǎng)度達(dá)到33

49、5331748。目前，歐洲生物信息學(xué)研究所EBI 將上述3個(gè)蛋白質(zhì)數(shù)據(jù)庫(kù)（即PIR 、SWISS-PROT和TrEMBL）統(tǒng)一起來(lái)，建立了一個(gè)蛋白質(zhì)數(shù)據(jù)倉(cāng)庫(kù)UniProt（Universal Protein Resource，）。 UniProt包含3個(gè)部分：（1）UniProt Knowledgebase（UniProt），這是蛋白質(zhì)序列、功能、分類、交叉引用等信息存取中心；（2）UniProt Non-redundant Reference（UniRef）數(shù)據(jù)庫(kù)，該數(shù)據(jù)庫(kù)將密切相關(guān)的蛋白質(zhì)序列組合到一條記錄中，以便提高搜索速度；目前，根據(jù)序列相似程度形成3個(gè)子庫(kù)，即UniRef100、U

50、niRef90和UniRef50；（3）UniProt Archive（UniParc），是一個(gè)資源庫(kù)，記錄所有蛋白質(zhì)序列的歷史。用戶可以通過(guò)文本查詢數(shù)據(jù)庫(kù)，可以利用BLAST程序搜索數(shù)據(jù)庫(kù)，也可以直接通過(guò)FTP 下載數(shù)據(jù)。 4.4 生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)在生物學(xué)研究中，分子的結(jié)構(gòu)是最重要的數(shù)據(jù)，它提供很多信息，包括生物分子的功能、作用機(jī)制、進(jìn)化歷史等。目前，國(guó)際上最主要的生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)是PDB。4.4.1 PDB目前，國(guó)際上著名的生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)是美國(guó)Brookhaven實(shí)驗(yàn)室的大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB(Protein Data Bank, ）。PDB中含有通過(guò)實(shí)驗(yàn)（X射線晶體衍射，核

51、磁共振NMR）測(cè)定的生物大分子的三維結(jié)構(gòu)，其中主要是蛋白質(zhì)的三維結(jié)構(gòu)，還包括核酸、糖類、蛋白質(zhì)與核酸復(fù)合物的三維結(jié)構(gòu)。截止2004年5月，PDB數(shù)據(jù)庫(kù)已含有約25000個(gè)結(jié)構(gòu)，其中90%是蛋白質(zhì)的結(jié)構(gòu)。對(duì)于每一個(gè)結(jié)構(gòu)，包含名稱、參考文獻(xiàn)、序列、一級(jí)結(jié)構(gòu)、二級(jí)結(jié)構(gòu)和原子坐標(biāo)等信息。PDB中的每條記錄有兩種序列信息，一種是顯式序列信息（explicit sequence），一種是隱式序列信息(implicit sequence)。在PDB文件中，以關(guān)鍵字SEQRES作為顯式序列標(biāo)記，以該關(guān)鍵字打頭的每一行都是關(guān)于序列的信息。對(duì)于氨基酸殘基，采用三字符的表示方式，這一點(diǎn)與其它序列數(shù)據(jù)庫(kù)不一樣。PDB的隱式序列即為立體化學(xué)數(shù)據(jù)，包括每個(gè)原子的名稱和原子的三維坐標(biāo)。在實(shí)際應(yīng)用中，PDB數(shù)據(jù)庫(kù)應(yīng)與結(jié)構(gòu)模型顯示軟件結(jié)合起來(lái)。因?yàn)镻DB的主要信息是三維結(jié)構(gòu)，如果直接將三維結(jié)構(gòu)信息以文本的形式返回給用戶，用戶將難以分析這些結(jié)構(gòu)信息，實(shí)用的方法是，通過(guò)分子模型化軟件，以圖形方式顯示三維結(jié)構(gòu)。這樣的軟件在Internet網(wǎng)上有許多，如RasMol、ChemView等，這些軟件能夠以各種各樣的模型顯示生物大分子的三維結(jié)構(gòu)，如結(jié)構(gòu)骨架模型

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

生物分子信息數(shù)據(jù)庫(kù)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

生物分子信息數(shù)據(jù)庫(kù)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔