生物信息學(xué)中基因數(shù)據(jù)庫的發(fā)展

上傳人：6*** IP屬地：湖北上傳時(shí)間：2023-02-04 格式：PPTX 頁數(shù)：60 大小：4.59MB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩55頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

生物信息學(xué)中基因數(shù)據(jù)庫的發(fā)展生物體系和過程中信息的存貯、傳遞和表達(dá)細(xì)胞、組織、器官的生理、病理、藥理過程的中各種生物信息信息科學(xué)生命科學(xué)中的信息科學(xué)

Definition廣義分子生物信息學(xué)MolecularBioinformatics狹義(Molecular)bio–informatics:bioinformaticsisconceptualisingbiologyintermsofmolecules(inthesenseofPhysicalchemistry)andapplying“informaticstechniques”(derivedfromdisciplinessuchasappliedmaths,computerscienceandstatistics)tounderstandandorganisetheinformationassociatedwiththesemolecules,onalargescale.Inshort,bioinformaticsisamanagementinformation

systemformolecularbiologyandhasmanypracticalapplications生物信息學(xué)發(fā)展概要Compbiobioinformatiquebio-informaticsbioinformatics20世紀(jì)50年代，生物信息學(xué)開始孕育20世紀(jì)60年代，生物分子信息在概念上將計(jì)算生物學(xué)和計(jì)算機(jī)科學(xué)聯(lián)系起來20世紀(jì)70年代，生物信息學(xué)的真正開端20世紀(jì)70年代到80年代初期，出現(xiàn)了一系列著名的序列比較方法和生物信息分析方法20世紀(jì)80年代以后，出現(xiàn)一批生物信息服務(wù)機(jī)構(gòu)和生物信息數(shù)據(jù)庫20世紀(jì)90年代后，HGP促進(jìn)生物信息學(xué)的迅速發(fā)展前基因組時(shí)代基因組時(shí)代

1977年，最早獲得的生物基因組全序列是噬菌體(53kb)1995年，第一個(gè)自由生物體流感嗜血菌(H.inf)被完全測(cè)序1996年，Affymetrix生產(chǎn)出第一塊基因芯片1998年，亞太生物信息學(xué)網(wǎng)絡(luò)成立1999年，果蠅的基因組被完全測(cè)序

2001年2月12日，六國(guó)科學(xué)家和美國(guó)塞萊拉遺傳公司聯(lián)合公布人類基因組圖譜及初步分析結(jié)果后基因組時(shí)代功能基因組蛋白質(zhì)組生物信息學(xué)發(fā)展概要基因數(shù)據(jù)庫英文名稱：genedatabank，定義：含基因和基因組資料的DNA數(shù)據(jù)庫。其主要任務(wù)是收集和保藏各種生物來源與人工構(gòu)建的基因、基因元件、載體、基因組DNA、宿主細(xì)胞和工程細(xì)胞株等，目前已有保存物282株，并提供相關(guān)檢索.生物分子數(shù)據(jù)

計(jì)算機(jī)技術(shù)

++基因數(shù)據(jù)庫

DNA核酸序列蛋白質(zhì)氨基酸序列蛋白質(zhì)結(jié)構(gòu)蛋白質(zhì)功能最基本的生物信息維持生命活動(dòng)的機(jī)器第一部遺傳密碼第二部遺傳密碼？生命體系千姿百態(tài)的變化生物分子數(shù)據(jù)及其關(guān)系基因數(shù)據(jù)庫：易于共享，冗余度小，數(shù)據(jù)間聯(lián)系緊密核酸數(shù)據(jù)庫數(shù)據(jù)《NucleicAcidsResearch》雜志每年的第一期中詳細(xì)介紹最新版本的各種數(shù)據(jù)庫。在2000年1月1日出版的28卷第一期115種通用和專用數(shù)據(jù)庫。至2007年，生物信息學(xué)數(shù)據(jù)庫總數(shù)已達(dá)968個(gè)。比2006年增加110個(gè)。The2008updateincludes1078databases,110morethanthepreviousone.

生物信息數(shù)據(jù)庫基因數(shù)據(jù)庫的發(fā)展歷史從歷史上來看，蛋白質(zhì)數(shù)據(jù)庫是先于核苷酸數(shù)據(jù)庫出現(xiàn)的。早在60年代初，Dayhoff和他的同事們收集了所有當(dāng)時(shí)已知的氨基酸序列，這就是“蛋白質(zhì)序列與結(jié)構(gòu)圖冊(cè)”（Dayhoffetal.,1965）。這一蛋白質(zhì)數(shù)據(jù)庫后來成為PIR（Georgeetal.,1997）。這個(gè)在1965年可以很容易地存放在一張軟盤上的數(shù)據(jù)集,是一小群人多年的工作成果。今天，任何一個(gè)DNA或蛋白質(zhì)數(shù)據(jù)庫每天增加的數(shù)據(jù)量都數(shù)倍于此?；蚪M數(shù)據(jù)庫的發(fā)展歷史DNA序列數(shù)據(jù)庫最早于1982年在歐洲分子生物學(xué)實(shí)驗(yàn)室誕生，隨即就開始了一個(gè)數(shù)據(jù)庫爆炸的時(shí)代。此后不久因一項(xiàng)NIH與洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室的合同而誕生了GenBank。日本的DNA數(shù)據(jù)庫（DDBJ），在幾年后加入了數(shù)據(jù)收集的合作。1988年“國(guó)際DNA序列數(shù)據(jù)庫合作計(jì)劃”之后三大數(shù)據(jù)庫達(dá)成了一項(xiàng)協(xié)議，對(duì)數(shù)據(jù)庫的記錄采用共同的格式?，F(xiàn)在三個(gè)中心都收集直接提交的數(shù)據(jù)，并在三者之間發(fā)布。GenBank數(shù)據(jù)庫的發(fā)展歷史建立GenBank的主要目標(biāo)是收集世界范圍內(nèi)已發(fā)表和自行投送的核甘酸序列以從相關(guān)的文獻(xiàn)資料，建立檔案，以長(zhǎng)期保存。1988一1989年：NCBI處于草創(chuàng)時(shí)期，隸屬于NIH的國(guó)家醫(yī)學(xué)圖書館。1990年：開始應(yīng)用BLAST。BLAST是——種快速檢索相似性序列的工具。1991年：開始應(yīng)用Entrez。Entrez是一個(gè)整合的數(shù)據(jù)查詢系統(tǒng)。1992年：GenBank正式移到NCBI；表達(dá)序列標(biāo)簽(expressedsequencetag，EST)技術(shù)開始應(yīng)用，NCBI-dbEST數(shù)據(jù)庫系統(tǒng)建立。1993年：開始應(yīng)用Internet和3-DEntrez。GenBank由CD-ROM轉(zhuǎn)換為網(wǎng)絡(luò)系。1994年：NCBI-GenBank網(wǎng)頁建立。1995年：開始應(yīng)用Banklt。Banklt是基于互聯(lián)網(wǎng)的DNA序列投送軟件；將物種、系統(tǒng)發(fā)育信息與Entrez結(jié)合使用。1996年：開始應(yīng)用UniGene數(shù)據(jù)庫和GeneMap‘96系統(tǒng)，整合STS圖譜、序列和UniGene簇?cái)?shù)據(jù)，1997年：PubMed界面實(shí)現(xiàn)了Entrez軟件系統(tǒng)與MEDLINE數(shù)據(jù)庫的結(jié)合；EntrezStructures數(shù)據(jù)庫、VAST(vectoralignmentsearcht001)算法和Cn3D結(jié)構(gòu)瀏覽器開始用于蛋白質(zhì)分析；GappedBLAST和PSI-BLAST開始用于快速序列相似性檢索；COG(clus·tersoforthologousgroup)方法和系統(tǒng)開始用于基因組分析1998年：建立HTGS(高通量基因組序列)組，以適應(yīng)人類基因組計(jì)劃的進(jìn)程；已經(jīng)貯存兩千億以上的堿基對(duì)，其中超過一半來自人類基因組計(jì)劃。1999年：隨著人類基因組計(jì)劃接近完成，NCBI將重點(diǎn)轉(zhuǎn)移到人類基因組分析基因組數(shù)據(jù)庫

蛋白質(zhì)序列數(shù)據(jù)庫

蛋白質(zhì)結(jié)構(gòu)&互作（功能）數(shù)據(jù)庫

DDBJEMBLUniProtPDBPIR生物信息數(shù)據(jù)庫的分類KEGGGenBankEntrzeSRS1.數(shù)據(jù)庫之間鏈接2.數(shù)據(jù)庫和應(yīng)用程序結(jié)合3.特殊數(shù)據(jù)模型1.統(tǒng)一的用戶界面2.高效的查詢功能3.靈活的指針鏈接4.方便的程序接口5.開放的管理模式NCBI’sGenbank

(1982-)EBI’sEMBL(1982-)NIG’sDDBJ(1987-)數(shù)據(jù)格式GenBankEMBLDDBJGenBank格式EMBL格式DDBJ格式FASTA基因數(shù)據(jù)庫的格式193條核酸序列4249條ESTs認(rèn)識(shí)GenBank文件格式（頭部）頭部包含關(guān)于整個(gè)記錄的信息（描述符）LOCUSRATOBESE539bpss-mRNAROD23-SEP-1995

LOCUS行中的日期是數(shù)據(jù)最后被公開的日期這一行中的第一項(xiàng)是LOCUS名稱。歷史上曾用這個(gè)名稱來表示本記錄描述的基因座，提交者和數(shù)據(jù)庫工作人員花費(fèi)了無數(shù)的時(shí)間來設(shè)計(jì)這一名稱。這一成分開始于一個(gè)英文字母，總長(zhǎng)度不能超過10個(gè)字符。第二個(gè)字符以后可以是數(shù)字或字母，所有字符均要大寫。LOCUS名稱在以前是最為有用的，那時(shí)大多數(shù)DNA序列記錄只表示一個(gè)基因座，這樣在GenBank中尋找一個(gè)可以用少數(shù)幾個(gè)字母和數(shù)字來代表生物體的獨(dú)特的名字是很容易的事。經(jīng)典的例子包括HUMHBB：人β-珠蛋白基因座，或SV40：猿猴病毒（拷貝之一，因?yàn)榇嬖谠S多拷貝）。為了可用起見，LOCUS名稱在數(shù)據(jù)庫中必須是獨(dú)一的。因?yàn)閹缀跛杏幸饬x的命名符都被使用過了，所以今天LOCUS名稱已不再是一個(gè)有用的成分。但仍有許多軟件包依賴于一個(gè)獨(dú)一無二的LOCUS名稱，所以數(shù)據(jù)庫還不能將其徹底去掉?？尚械霓k法是代之以一個(gè)獨(dú)一無二的詞，最簡(jiǎn)單的是用一個(gè)保證不會(huì)重復(fù)的檢索號(hào)碼。序列長(zhǎng)度，GenBank一般不接受50bp以下的記錄生物分子的類型，這里是單鏈的mRNAGenBank分類碼，由三個(gè)字母組成，這或者具有物種分類意義，或者出于其他分類目的。這一代碼的存在也是由于歷史的原因。認(rèn)識(shí)GenBank文件格式（特性表）FEATURESLocation/Qualifierssource1..539/organism="Rattusnorvegicus"/strain="OLETF,LETOandZucker"/dev_stage="differentiated"/sequenced_mol="cDNAtomRNA"/tissue_type="adipose"CDS30..533/partial/note="NCBIgi:995615"/codon_start=1/product="obese"/translation="MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQLDLSPEC"來源（source）是唯一一個(gè)必須在所有GenBank記錄中出現(xiàn)的特性包含屬和種的科學(xué)名稱存在的或者潛在的編碼區(qū)編碼序列的翻譯產(chǎn)物編碼序列的gi號(hào)認(rèn)識(shí)GenBank文件格式（序列）BASECOUNT121a167c133g118tORIGIN1ccaagaagaagaagaccccagcgaggaaaatgtgctggagacccctgtgccggttcctgt61ggctttggtcctatctgtcctatgttcaagctgtgcctatccacaaagtccaggatgaca121ccaaaaccctcatcaagaccattgtcaccaggatcaatgacatttcacacacgcagtcgg181tatccgccaggcagagggtcaccggtttggacttcattcccgggcttcaccccattctga241gtttgtccaagatggaccagaccctggcagtctatcaacagatcctcaccagcttgcctt301cccaaaacgtgctgcagatagctcatgacctggagaacctgcgagacctcctccatctgc361tggccttctccaagagctgctccctgccgcagacccgtggcctgcagaagccagagagcc421tggatggcgtcctggaagcctcgctctactccacagaggtggtggctctgagcaggctgc481agggctctctgcaggacattcttcaacagttggaccttagccctgaatgctgaggtttc//結(jié)束符號(hào)堿基統(tǒng)計(jì)信息序列開始序列主體選擇fasta格式三大基因數(shù)據(jù)庫Genbank

Genbank庫包含了所有已知的核酸序列和蛋白質(zhì)序列，以及與它們相關(guān)的文獻(xiàn)著作和生物學(xué)注釋。它是由美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)建立和維護(hù)的。

NCBI的網(wǎng)址是：。EMBL核酸序列數(shù)據(jù)庫

由歐洲生物信息學(xué)研究所(EBI)維護(hù)的核酸序列數(shù)據(jù)構(gòu)成，查詢檢索可以通過通過因特網(wǎng)上的序列提取系統(tǒng)(SRS)服務(wù)完成。

數(shù)據(jù)庫網(wǎng)址是：http://www.ebi.ac.uk/embl/。

DDBJ數(shù)據(jù)庫

日本DNA數(shù)據(jù)倉(cāng)庫(DDBJ)也是一個(gè)全面的核酸序列數(shù)據(jù)庫，與Genbank和EMBL核酸庫合作交換數(shù)據(jù)。使用其主頁上提供的SRS工具進(jìn)行數(shù)據(jù)檢索和序列分析。

DDBJ的網(wǎng)址是：http://www.ddbj.nig.ac.jp/。主要的數(shù)據(jù)庫資源數(shù)據(jù)庫是生物信息學(xué)的主要內(nèi)容，各種數(shù)據(jù)庫幾乎覆蓋了生命科學(xué)的各個(gè)領(lǐng)域。核酸序列數(shù)據(jù)庫主要有GenBank,EMBL,DDBJ等.蛋白質(zhì)序列數(shù)據(jù)庫有SWISS-PROT,PIR,OWL,NRL3D,TrEMBL等，蛋白質(zhì)片段數(shù)據(jù)庫有PROSITE,BLOCKS,PRINTS等，三維結(jié)構(gòu)數(shù)據(jù)庫有PDB,NDB,BioMagResBank,CCSD等，蛋白質(zhì)結(jié)構(gòu)有關(guān)的數(shù)據(jù)庫還有SCOP,CATH,FSSP,3D-ALI,DSSP等，與基因組有關(guān)的數(shù)據(jù)庫還有ESTdb,OMIM,GDB,GSDB等，文獻(xiàn)數(shù)據(jù)庫有Medline,Uncover等。1.2NCBI上常用的生物學(xué)資源常用的生物學(xué)資源主要有以下幾種：1.2.1GeneBank數(shù)據(jù)庫

GeneBank數(shù)據(jù)庫由17個(gè)子庫組成，存有超過105000個(gè)不同的生物體的核苦酸序列，每條GeneBank數(shù)據(jù)記錄包含了對(duì)序列的簡(jiǎn)要描述，它的科學(xué)命名，物種分類名稱，參考文獻(xiàn)，序列特征表，以及序列本身的堿基組成。1.2.2EST數(shù)據(jù)庫對(duì)cDNA文庫克隆的隨機(jī)測(cè)序所得到的兩端各200-400bp左右的序列被稱為表達(dá)序列標(biāo)記(EST)。在GeneBank等的EST數(shù)據(jù)庫中有存有包括人、鼠、牛、豬、狗、線蟲、水稻、果蠅等的大量的EST序列。1、NCBI數(shù)據(jù)庫(NationalCenterforBiotechnologyinformation)

美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)有一系列的生物信息學(xué)數(shù)據(jù)庫．其集成系統(tǒng)Entrez包括：序列報(bào)告數(shù)據(jù)庫Nucleotide

蛋白質(zhì)信息數(shù)據(jù)庫Protien

結(jié)構(gòu)數(shù)據(jù)庫Structure

基因組數(shù)據(jù)庫Genoma

遺傳信息知識(shí)庫OMIM等

Entrez由美國(guó)NCBI開發(fā)，用于對(duì)文獻(xiàn)摘要、序列、結(jié)構(gòu)和基因組等數(shù)據(jù)庫進(jìn)行關(guān)鍵詞查詢，找出相關(guān)的一個(gè)或幾個(gè)數(shù)據(jù)庫條目。該系統(tǒng)目前主要包括核酸序列數(shù)據(jù)庫、蛋白質(zhì)序列數(shù)據(jù)庫、基因組數(shù)據(jù)庫、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫、生物醫(yī)學(xué)文獻(xiàn)摘要數(shù)據(jù)庫、系統(tǒng)分類數(shù)據(jù)庫、人類遺傳疾病和遺傳缺失在線數(shù)據(jù)庫，以及基因信息數(shù)據(jù)庫、種群親緣關(guān)系核酸序列比對(duì)數(shù)據(jù)庫、表達(dá)序列標(biāo)簽數(shù)據(jù)庫等。Entrez系統(tǒng)

Entrez

是由NCBI主持的一個(gè)數(shù)據(jù)庫檢索系統(tǒng)，它包括核酸，蛋白以及Medline文摘數(shù)據(jù)庫，在這三個(gè)數(shù)據(jù)庫中建立了非常完善的聯(lián)系。因此，可以從一個(gè)DNA序列查詢到蛋白產(chǎn)物以及相關(guān)文獻(xiàn)，而且，每個(gè)條目均有一個(gè)類鄰(neighboring)信息，給出與查詢條目接近的信息。Entrez系統(tǒng)

Entrez中核酸數(shù)據(jù)庫為：GenBank,EMBL,DDBJ蛋白質(zhì)數(shù)據(jù)庫為：Swiss-Prot,PIR,PFR,PDB

PubMed基因組和染色體圖譜資料Entrez中的數(shù)據(jù)庫包括：Entrez系統(tǒng)檢索領(lǐng)域：(SearchFields)在WWWEntrez檢索系統(tǒng)中，檢索內(nèi)容被分為許多小的領(lǐng)域，每一個(gè)檢索領(lǐng)域包含以下信息：進(jìn)入(Accession):

包含進(jìn)入號(hào)相關(guān)性(Affiliation):

包括該檢索領(lǐng)域建立時(shí)的相關(guān)信息，原作者地址，有時(shí)亦有其他作者地址作者姓名(AuthorName):

包含文章作者清單E.C號(hào)(E.C.Number):

是酶學(xué)委員會(huì)命名的酶的編號(hào)特征詞(FeatureKey):

描述DNA特征的關(guān)鍵詞基因符號(hào)(GeneSymbol):

基因的標(biāo)準(zhǔn)名稱雜志名(JournalTitle):為檢索條目第一次發(fā)表時(shí)的雜志名，該雜志名是以縮寫形式儲(chǔ)存于數(shù)據(jù)庫中，如果不清楚雜志是如何縮寫的可采用ListTerms來查看關(guān)鍵詞(Keywords)：可以使用較特定的索引條目來檢索以上數(shù)據(jù)庫。類似于醫(yī)學(xué)光盤檢索MedlineUID:

是Medline對(duì)每一個(gè)條目給出的唯一識(shí)別標(biāo)記MeSH主題詞(MeSHTerms):

包括MeSH的主題詞，下級(jí)主題詞MeSH主要關(guān)鍵詞(MeSHMajorTopic)：為檢索條目十分重要的MeSH詞目Entrez系統(tǒng)修改日期（ModificationDate):

包含該條目進(jìn)入Entrez的日期,與出版日期一樣，以年/月/日形式出現(xiàn)頁數(shù)(PageNumber):

該文章所在雜志的頁碼特性(Property):

一個(gè)或幾個(gè)關(guān)鍵詞，用來描述該序列的類型出版日期(PublicationDate):包含文章出版日期以及序列錄入GenBank的日期PubMedID:PubMed對(duì)每一個(gè)條目給出的識(shí)別標(biāo)記物種(Organism):

包含與該蛋白或核酸序列相關(guān)物種的學(xué)名和俗名蛋白質(zhì)名稱(Proteinname):SeqId:

與FASTA識(shí)別標(biāo)記類似，為序列的一種識(shí)別標(biāo)記物質(zhì)(Substance):

與該條目相關(guān)的化學(xué)物質(zhì)名稱Entrez系統(tǒng)文字檢索詞(TextWords):包含文章中的所有詞，其中：Medline詞目：標(biāo)題和文摘蛋白質(zhì)詞目：定義，評(píng)論，蛋白名稱，蛋白描述核酸條目：定義，評(píng)論，基因名稱，基因名稱標(biāo)題檢索詞(TitleWords):

在標(biāo)題中出現(xiàn)的詞，或在描述該條目時(shí)出現(xiàn)的詞卷(Volume):

刊登該文章雜志所在卷使用MedlineUID,PubMedID和SeqID進(jìn)行檢索時(shí)，在欄目框中要輸入數(shù)字。如要輸入多個(gè)數(shù)字，中間要用空格或逗號(hào)隔開。并選擇相對(duì)應(yīng)的檢索領(lǐng)域Entrez系統(tǒng)wwwEntrez可以采用幾種不同途徑的檢索方式：

名詞列表格式(listterm)：當(dāng)輸入一檢索詞后，Entrez將列出與此相關(guān)的該領(lǐng)域中所有標(biāo)準(zhǔn)的檢索詞名稱,此時(shí)，可選擇一或多個(gè)標(biāo)準(zhǔn)名詞去檢索。

自動(dòng)格式（automatic）：當(dāng)輸入一個(gè)檢索詞后，即自動(dòng)檢索，如果輸入的檢索詞超過一個(gè)，則Entrez會(huì)自動(dòng)將之組合起來,如果無結(jié)果，則可嘗試將這多個(gè)檢索詞用“”括起來。Entrez系統(tǒng)檢索模式(SearchModes)

每一個(gè)文件都可以有數(shù)種閱讀方式，目的各不相同。一般來說，“引文格式(citation)”最適合于閱讀Medline形式的文件；“GenPept”格式適用于閱讀蛋白質(zhì)文件;“GenBank”格式用來閱讀核酸文件。Entrez系統(tǒng)閱讀文獻(xiàn)(ViewingDocument)文字檢索詞(TextWords):包含文章中的所有詞，其中：Medline詞目：標(biāo)題和文摘蛋白質(zhì)詞目：定義，評(píng)論，蛋白名稱，蛋白描述核酸條目：定義，評(píng)論，基因名稱，基因名稱標(biāo)題檢索詞(TitleWords):

在標(biāo)題中出現(xiàn)的詞，或在描述該條目時(shí)出現(xiàn)的詞卷(Volume):

刊登該文章雜志所在卷使用MedlineUID,PubMedID和SeqID進(jìn)行檢索時(shí)，在欄目框中要輸入數(shù)字。如要輸入多個(gè)數(shù)字，中間要用空格或逗號(hào)隔開。并選擇相對(duì)應(yīng)的檢索領(lǐng)域Entrez系統(tǒng)

BLAST是目前最常用的DNA和蛋白質(zhì)序列數(shù)據(jù)庫搜索算法。BLASTP：比較一個(gè)查詢蛋白序列和一個(gè)蛋白序列數(shù)據(jù)庫BPASTN：比較一個(gè)核酸查詢序列和一個(gè)核酸序列數(shù)據(jù)庫BLASTX：比較一個(gè)查詢核酸序列和一個(gè)蛋白序列數(shù)據(jù)庫，能用此方法發(fā)現(xiàn)一個(gè)未知核酸序列的潛在翻譯產(chǎn)物TBLASTN：比較一個(gè)查詢蛋白序列和一個(gè)核酸序列數(shù)據(jù)庫TBLASTX：將DNA查詢序列和核酸序列庫中的序列全部翻譯成蛋白質(zhì)序列，然后進(jìn)行蛋白質(zhì)序列比較4、數(shù)據(jù)庫技術(shù)及數(shù)據(jù)挖掘數(shù)據(jù)庫技術(shù)數(shù)據(jù)倉(cāng)庫虛擬數(shù)據(jù)庫技術(shù)（VirtualDatabase，簡(jiǎn)稱VDB）數(shù)據(jù)挖掘（datamining）又稱作數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase)，它是從數(shù)據(jù)庫或數(shù)據(jù)倉(cāng)庫中發(fā)現(xiàn)并提取隱藏在其中的信息的一種新技術(shù)，它能自動(dòng)分析數(shù)據(jù)，對(duì)它們進(jìn)行歸納性推理和聯(lián)想，尋找數(shù)據(jù)間內(nèi)在的某些關(guān)聯(lián)，從中發(fā)掘出潛在的、對(duì)信息預(yù)測(cè)和決策行為起著十分重要作用的模式數(shù)據(jù)挖掘過程一般分為4個(gè)基本步驟：數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘和結(jié)果分析Entrez是面向生物學(xué)家的數(shù)據(jù)庫查詢系統(tǒng)，其特點(diǎn)之一是使用十分方便。它把序列、結(jié)構(gòu)、文獻(xiàn)、基因組、系統(tǒng)分類等不同類型的數(shù)據(jù)庫有機(jī)的結(jié)合在一起，通過超文本鏈接，用戶可以從一個(gè)數(shù)據(jù)庫直接轉(zhuǎn)入另外一個(gè)數(shù)據(jù)庫Entrez的另一個(gè)特點(diǎn)是把數(shù)據(jù)庫和應(yīng)用程序結(jié)合在一起。例如，通過“Relatedsequence”工具，可以直接找到與查詢所得蛋白質(zhì)序列同源的其它蛋白質(zhì)。查詢得到的蛋白質(zhì)三維結(jié)構(gòu)，可以通過在用戶計(jì)算機(jī)上安裝的Cn3D軟件直接顯示分子圖形。Entrez系統(tǒng)的開發(fā)基于特殊的數(shù)據(jù)模型NCBIANS.1(AbstractSyntaxNotation)，在對(duì)于文獻(xiàn)摘要中的關(guān)鍵字查詢時(shí)，不僅考慮了查詢對(duì)象和數(shù)據(jù)庫中單詞的實(shí)際匹配，而且考慮了意義相近的匹配。在查詢文獻(xiàn)數(shù)據(jù)庫摘要得到結(jié)果后，可以通過點(diǎn)擊“RelatedArticles”繼續(xù)查找相關(guān)文獻(xiàn)?，F(xiàn)狀及問題1.我國(guó)已有強(qiáng)大的DNA測(cè)序中心:

華大,北方,南方,..但我們需要運(yùn)算速度遠(yuǎn)比現(xiàn)在計(jì)算速度快的機(jī)器或方法.

2.生物信息學(xué)處理系統(tǒng)處于初級(jí)規(guī)模.有一些Genbank,EMBL,GCG的鏡象.

(1).沒有自己的完善的系統(tǒng)(2).沒有大量新算法的開發(fā)

3.后基因組：科研單位及制藥工業(yè)并未完全吸收利用生物信息學(xué)的工具.基因組測(cè)序計(jì)劃海量DNA序列數(shù)據(jù)DNA序列是生命的真諦，生命的源代碼。人類基因組計(jì)劃（HGP）1990年啟動(dòng)目標(biāo)：測(cè)定人類基因組的全部DNA序列,了解基因及其功能國(guó)際大合作：美國(guó)、英國(guó)、日國(guó)、法國(guó)、德國(guó)、中國(guó)投入：30億美元結(jié)果：2003年完成精細(xì)圖，長(zhǎng)度約為30億個(gè)堿基人類基因組的組成

核基因組(nucleargenome)：由大約30億bp組成，分為24條線性DNA分子(55~250Mb)，分別包含在24條不同的染色體中(22條常染色體和2條性染色體X、Y)

線粒體基因組(mitochondriongenome)：長(zhǎng)為16,569bp的環(huán)狀DNA分子，位于產(chǎn)生能量的細(xì)胞器——線粒體中基因組測(cè)序完成生物及基因數(shù)目預(yù)測(cè)

生物基因組大小完成時(shí)間預(yù)計(jì)基因數(shù)目酵母12.1Mb19966,034線蟲97Mb199819,099果蠅180Mb200013,061擬南芥125Mb200025,498人類3000Mb200126,000-38,000水稻460Mb200144,000-65,000150多個(gè)物種的基因組測(cè)序完成/正在進(jìn)行中humanArabidopsis擬南芥ThermotogamaritimaEscherichiacoli大腸桿菌Buchnerasp.APSRickettsiaprowazekiiUreaplasmaurealyticumBacillussubtilisDrosophilamelanogasterThermoplasmaacidophilumPlasmodiumfalciparumHelicobacterpylori

mouseCaenorhabitiselegansratBorreliaburgorferiBorreliaburgorferiAquifexaeolicusNeisseriameningitidisZ2491Mycobacteriumtuberculosis模式生物基因組數(shù)據(jù)庫GeneCard：人類基因的綜合數(shù)據(jù)庫GeneCards是人類基因的綜合數(shù)據(jù)庫，包括基因組，蛋白質(zhì)組和轉(zhuǎn)錄組的信息，以及相關(guān)疾病，單核苷酸多態(tài)性，基因表達(dá)，基因功能等信息。UCSC’sHumanGenomeBrowser果蠅（常用模式生物）數(shù)據(jù)庫

AceDB：線蟲基因組數(shù)據(jù)庫MajorApplicationI:DesigningDrugsUnderstandingHowStructuresBindOtherMolecules(Function)DesigningInhibitorsDocking,StructureModelingMajorApplicationII:FindingHomologsMajor

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

生物信息學(xué)中基因數(shù)據(jù)庫的發(fā)展

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔