![生物信息學(xué)中基因數(shù)據(jù)庫的發(fā)展_第1頁](http://file4.renrendoc.com/view/4661b0be4789f9fedc2cfd1537d8121c/4661b0be4789f9fedc2cfd1537d8121c1.gif)
![生物信息學(xué)中基因數(shù)據(jù)庫的發(fā)展_第2頁](http://file4.renrendoc.com/view/4661b0be4789f9fedc2cfd1537d8121c/4661b0be4789f9fedc2cfd1537d8121c2.gif)
![生物信息學(xué)中基因數(shù)據(jù)庫的發(fā)展_第3頁](http://file4.renrendoc.com/view/4661b0be4789f9fedc2cfd1537d8121c/4661b0be4789f9fedc2cfd1537d8121c3.gif)
![生物信息學(xué)中基因數(shù)據(jù)庫的發(fā)展_第4頁](http://file4.renrendoc.com/view/4661b0be4789f9fedc2cfd1537d8121c/4661b0be4789f9fedc2cfd1537d8121c4.gif)
![生物信息學(xué)中基因數(shù)據(jù)庫的發(fā)展_第5頁](http://file4.renrendoc.com/view/4661b0be4789f9fedc2cfd1537d8121c/4661b0be4789f9fedc2cfd1537d8121c5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
生物信息學(xué)中基因數(shù)據(jù)庫的發(fā)展生物體系和過程中信息的存貯、傳遞和表達(dá)細(xì)胞、組織、器官的生理、病理、藥理過程的中各種生物信息信息科學(xué)生命科學(xué)中的信息科學(xué)
Definition廣義分子生物信息學(xué)MolecularBioinformatics狹義(Molecular)bio–informatics:bioinformaticsisconceptualisingbiologyintermsofmolecules(inthesenseofPhysicalchemistry)andapplying“informaticstechniques”(derivedfromdisciplinessuchasappliedmaths,computerscienceandstatistics)tounderstandandorganisetheinformationassociatedwiththesemolecules,onalargescale.Inshort,bioinformaticsisamanagementinformation
systemformolecularbiologyandhasmanypracticalapplications生物信息學(xué)發(fā)展概要Compbiobioinformatiquebio-informaticsbioinformatics20世紀(jì)50年代,生物信息學(xué)開始孕育20世紀(jì)60年代,生物分子信息在概念上將計(jì)算生物學(xué)和計(jì)算機(jī)科學(xué)聯(lián)系起來20世紀(jì)70年代,生物信息學(xué)的真正開端20世紀(jì)70年代到80年代初期,出現(xiàn)了一系列著名的序列比較方法和生物信息分析方法20世紀(jì)80年代以后,出現(xiàn)一批生物信息服務(wù)機(jī)構(gòu)和生物信息數(shù)據(jù)庫20世紀(jì)90年代后,HGP促進(jìn)生物信息學(xué)的迅速發(fā)展前基因組時(shí)代基因組時(shí)代
1977年,最早獲得的生物基因組全序列是噬菌體(53kb)1995年,第一個(gè)自由生物體流感嗜血菌(H.inf)被完全測(cè)序1996年,Affymetrix生產(chǎn)出第一塊基因芯片1998年,亞太生物信息學(xué)網(wǎng)絡(luò)成立1999年,果蠅的基因組被完全測(cè)序
2001年2月12日,六國(guó)科學(xué)家和美國(guó)塞萊拉遺傳公司聯(lián)合公布人類基因組圖譜及初步分析結(jié)果后基因組時(shí)代功能基因組蛋白質(zhì)組生物信息學(xué)發(fā)展概要基因數(shù)據(jù)庫英文名稱:genedatabank,定義:含基因和基因組資料的DNA數(shù)據(jù)庫。其主要任務(wù)是收集和保藏各種生物來源與人工構(gòu)建的基因、基因元件、載體、基因組DNA、宿主細(xì)胞和工程細(xì)胞株等,目前已有保存物282株,并提供相關(guān)檢索.生物分子數(shù)據(jù)
計(jì)算機(jī)技術(shù)
++基因數(shù)據(jù)庫
DNA核酸序列蛋白質(zhì)氨基酸序列蛋白質(zhì)結(jié)構(gòu)蛋白質(zhì)功能最基本的生物信息維持生命活動(dòng)的機(jī)器第一部遺傳密碼第二部遺傳密碼?生命體系千姿百態(tài)的變化生物分子數(shù)據(jù)及其關(guān)系基因數(shù)據(jù)庫:易于共享,冗余度小,數(shù)據(jù)間聯(lián)系緊密核酸數(shù)據(jù)庫數(shù)據(jù)《NucleicAcidsResearch》雜志每年的第一期中詳細(xì)介紹最新版本的各種數(shù)據(jù)庫。在2000年1月1日出版的28卷第一期115種通用和專用數(shù)據(jù)庫。至2007年,生物信息學(xué)數(shù)據(jù)庫總數(shù)已達(dá)968個(gè)。比2006年增加110個(gè)。The2008updateincludes1078databases,110morethanthepreviousone.
生物信息數(shù)據(jù)庫基因數(shù)據(jù)庫的發(fā)展歷史從歷史上來看,蛋白質(zhì)數(shù)據(jù)庫是先于核苷酸數(shù)據(jù)庫出現(xiàn)的。早在60年代初,Dayhoff和他的同事們收集了所有當(dāng)時(shí)已知的氨基酸序列,這就是“蛋白質(zhì)序列與結(jié)構(gòu)圖冊(cè)”(Dayhoffetal.,1965)。這一蛋白質(zhì)數(shù)據(jù)庫后來成為PIR(Georgeetal.,1997)。這個(gè)在1965年可以很容易地存放在一張軟盤上的數(shù)據(jù)集,是一小群人多年的工作成果。今天,任何一個(gè)DNA或蛋白質(zhì)數(shù)據(jù)庫每天增加的數(shù)據(jù)量都數(shù)倍于此?;蚪M數(shù)據(jù)庫的發(fā)展歷史DNA序列數(shù)據(jù)庫最早于1982年在歐洲分子生物學(xué)實(shí)驗(yàn)室誕生,隨即就開始了一個(gè)數(shù)據(jù)庫爆炸的時(shí)代。此后不久因一項(xiàng)NIH與洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室的合同而誕生了GenBank。日本的DNA數(shù)據(jù)庫(DDBJ),在幾年后加入了數(shù)據(jù)收集的合作。1988年“國(guó)際DNA序列數(shù)據(jù)庫合作計(jì)劃”之后三大數(shù)據(jù)庫達(dá)成了一項(xiàng)協(xié)議,對(duì)數(shù)據(jù)庫的記錄采用共同的格式?,F(xiàn)在三個(gè)中心都收集直接提交的數(shù)據(jù),并在三者之間發(fā)布。GenBank數(shù)據(jù)庫的發(fā)展歷史建立GenBank的主要目標(biāo)是收集世界范圍內(nèi)已發(fā)表和自行投送的核甘酸序列以從相關(guān)的文獻(xiàn)資料,建立檔案,以長(zhǎng)期保存。1988一1989年:NCBI處于草創(chuàng)時(shí)期,隸屬于NIH的國(guó)家醫(yī)學(xué)圖書館。1990年:開始應(yīng)用BLAST。BLAST是——種快速檢索相似性序列的工具。1991年:開始應(yīng)用Entrez。Entrez是一個(gè)整合的數(shù)據(jù)查詢系統(tǒng)。1992年:GenBank正式移到NCBI;表達(dá)序列標(biāo)簽(expressedsequencetag,EST)技術(shù)開始應(yīng)用,NCBI-dbEST數(shù)據(jù)庫系統(tǒng)建立。1993年:開始應(yīng)用Internet和3-DEntrez。GenBank由CD-ROM轉(zhuǎn)換為網(wǎng)絡(luò)系。1994年:NCBI-GenBank網(wǎng)頁建立。1995年:開始應(yīng)用Banklt。Banklt是基于互聯(lián)網(wǎng)的DNA序列投送軟件;將物種、系統(tǒng)發(fā)育信息與Entrez結(jié)合使用。1996年:開始應(yīng)用UniGene數(shù)據(jù)庫和GeneMap‘96系統(tǒng),整合STS圖譜、序列和UniGene簇?cái)?shù)據(jù),1997年:PubMed界面實(shí)現(xiàn)了Entrez軟件系統(tǒng)與MEDLINE數(shù)據(jù)庫的結(jié)合;EntrezStructures數(shù)據(jù)庫、VAST(vectoralignmentsearcht001)算法和Cn3D結(jié)構(gòu)瀏覽器開始用于蛋白質(zhì)分析;GappedBLAST和PSI-BLAST開始用于快速序列相似性檢索;COG(clus·tersoforthologousgroup)方法和系統(tǒng)開始用于基因組分析1998年:建立HTGS(高通量基因組序列)組,以適應(yīng)人類基因組計(jì)劃的進(jìn)程;已經(jīng)貯存兩千億以上的堿基對(duì),其中超過一半來自人類基因組計(jì)劃。1999年:隨著人類基因組計(jì)劃接近完成,NCBI將重點(diǎn)轉(zhuǎn)移到人類基因組分析基因組數(shù)據(jù)庫
蛋白質(zhì)序列數(shù)據(jù)庫
蛋白質(zhì)結(jié)構(gòu)&互作(功能)數(shù)據(jù)庫
DDBJEMBLUniProtPDBPIR生物信息數(shù)據(jù)庫的分類KEGGGenBankEntrzeSRS1.數(shù)據(jù)庫之間鏈接2.數(shù)據(jù)庫和應(yīng)用程序結(jié)合3.特殊數(shù)據(jù)模型1.統(tǒng)一的用戶界面2.高效的查詢功能3.靈活的指針鏈接4.方便的程序接口5.開放的管理模式NCBI’sGenbank
(1982-)EBI’sEMBL(1982-)NIG’sDDBJ(1987-)數(shù)據(jù)格式GenBankEMBLDDBJGenBank格式EMBL格式DDBJ格式FASTA基因數(shù)據(jù)庫的格式193條核酸序列4249條ESTs認(rèn)識(shí)GenBank文件格式(頭部)頭部包含關(guān)于整個(gè)記錄的信息(描述符)LOCUSRATOBESE539bpss-mRNAROD23-SEP-1995
LOCUS行中的日期是數(shù)據(jù)最后被公開的日期這一行中的第一項(xiàng)是LOCUS名稱。歷史上曾用這個(gè)名稱來表示本記錄描述的基因座,提交者和數(shù)據(jù)庫工作人員花費(fèi)了無數(shù)的時(shí)間來設(shè)計(jì)這一名稱。這一成分開始于一個(gè)英文字母,總長(zhǎng)度不能超過10個(gè)字符。第二個(gè)字符以后可以是數(shù)字或字母,所有字符均要大寫。LOCUS名稱在以前是最為有用的,那時(shí)大多數(shù)DNA序列記錄只表示一個(gè)基因座,這樣在GenBank中尋找一個(gè)可以用少數(shù)幾個(gè)字母和數(shù)字來代表生物體的獨(dú)特的名字是很容易的事。經(jīng)典的例子包括HUMHBB:人β-珠蛋白基因座,或SV40:猿猴病毒(拷貝之一,因?yàn)榇嬖谠S多拷貝)。為了可用起見,LOCUS名稱在數(shù)據(jù)庫中必須是獨(dú)一的。因?yàn)閹缀跛杏幸饬x的命名符都被使用過了,所以今天LOCUS名稱已不再是一個(gè)有用的成分。但仍有許多軟件包依賴于一個(gè)獨(dú)一無二的LOCUS名稱,所以數(shù)據(jù)庫還不能將其徹底去掉??尚械霓k法是代之以一個(gè)獨(dú)一無二的詞,最簡(jiǎn)單的是用一個(gè)保證不會(huì)重復(fù)的檢索號(hào)碼。序列長(zhǎng)度,GenBank一般不接受50bp以下的記錄生物分子的類型,這里是單鏈的mRNAGenBank分類碼,由三個(gè)字母組成,這或者具有物種分類意義,或者出于其他分類目的。這一代碼的存在也是由于歷史的原因。認(rèn)識(shí)GenBank文件格式(特性表)FEATURESLocation/Qualifierssource1..539/organism="Rattusnorvegicus"/strain="OLETF,LETOandZucker"/dev_stage="differentiated"/sequenced_mol="cDNAtomRNA"/tissue_type="adipose"CDS30..533/partial/note="NCBIgi:995615"/codon_start=1/product="obese"/translation="MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQLDLSPEC"來源(source)是唯一一個(gè)必須在所有GenBank記錄中出現(xiàn)的特性包含屬和種的科學(xué)名稱存在的或者潛在的編碼區(qū)編碼序列的翻譯產(chǎn)物編碼序列的gi號(hào)認(rèn)識(shí)GenBank文件格式(序列)BASECOUNT121a167c133g118tORIGIN1ccaagaagaagaagaccccagcgaggaaaatgtgctggagacccctgtgccggttcctgt61ggctttggtcctatctgtcctatgttcaagctgtgcctatccacaaagtccaggatgaca121ccaaaaccctcatcaagaccattgtcaccaggatcaatgacatttcacacacgcagtcgg181tatccgccaggcagagggtcaccggtttggacttcattcccgggcttcaccccattctga241gtttgtccaagatggaccagaccctggcagtctatcaacagatcctcaccagcttgcctt301cccaaaacgtgctgcagatagctcatgacctggagaacctgcgagacctcctccatctgc361tggccttctccaagagctgctccctgccgcagacccgtggcctgcagaagccagagagcc421tggatggcgtcctggaagcctcgctctactccacagaggtggtggctctgagcaggctgc481agggctctctgcaggacattcttcaacagttggaccttagccctgaatgctgaggtttc//結(jié)束符號(hào)堿基統(tǒng)計(jì)信息序列開始序列主體選擇fasta格式三大基因數(shù)據(jù)庫Genbank
Genbank庫包含了所有已知的核酸序列和蛋白質(zhì)序列,以及與它們相關(guān)的文獻(xiàn)著作和生物學(xué)注釋。它是由美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)建立和維護(hù)的。
NCBI的網(wǎng)址是:。EMBL核酸序列數(shù)據(jù)庫
由歐洲生物信息學(xué)研究所(EBI)維護(hù)的核酸序列數(shù)據(jù)構(gòu)成,查詢檢索可以通過通過因特網(wǎng)上的序列提取系統(tǒng)(SRS)服務(wù)完成。
數(shù)據(jù)庫網(wǎng)址是:http://www.ebi.ac.uk/embl/。
DDBJ數(shù)據(jù)庫
日本DNA數(shù)據(jù)倉(cāng)庫(DDBJ)也是一個(gè)全面的核酸序列數(shù)據(jù)庫,與Genbank和EMBL核酸庫合作交換數(shù)據(jù)。使用其主頁上提供的SRS工具進(jìn)行數(shù)據(jù)檢索和序列分析。
DDBJ的網(wǎng)址是:http://www.ddbj.nig.ac.jp/。主要的數(shù)據(jù)庫資源數(shù)據(jù)庫是生物信息學(xué)的主要內(nèi)容,各種數(shù)據(jù)庫幾乎覆蓋了生命科學(xué)的各個(gè)領(lǐng)域。核酸序列數(shù)據(jù)庫主要有GenBank,EMBL,DDBJ等.蛋白質(zhì)序列數(shù)據(jù)庫有SWISS-PROT,PIR,OWL,NRL3D,TrEMBL等,蛋白質(zhì)片段數(shù)據(jù)庫有PROSITE,BLOCKS,PRINTS等,三維結(jié)構(gòu)數(shù)據(jù)庫有PDB,NDB,BioMagResBank,CCSD等,蛋白質(zhì)結(jié)構(gòu)有關(guān)的數(shù)據(jù)庫還有SCOP,CATH,FSSP,3D-ALI,DSSP等,與基因組有關(guān)的數(shù)據(jù)庫還有ESTdb,OMIM,GDB,GSDB等,文獻(xiàn)數(shù)據(jù)庫有Medline,Uncover等。1.2NCBI上常用的生物學(xué)資源常用的生物學(xué)資源主要有以下幾種:1.2.1GeneBank數(shù)據(jù)庫
GeneBank數(shù)據(jù)庫由17個(gè)子庫組成,存有超過105000個(gè)不同的生物體的核苦酸序列,每條GeneBank數(shù)據(jù)記錄包含了對(duì)序列的簡(jiǎn)要描述,它的科學(xué)命名,物種分類名稱,參考文獻(xiàn),序列特征表,以及序列本身的堿基組成。1.2.2EST數(shù)據(jù)庫對(duì)cDNA文庫克隆的隨機(jī)測(cè)序所得到的兩端各200-400bp左右的序列被稱為表達(dá)序列標(biāo)記(EST)。在GeneBank等的EST數(shù)據(jù)庫中有存有包括人、鼠、牛、豬、狗、線蟲、水稻、果蠅等的大量的EST序列。1、NCBI數(shù)據(jù)庫(NationalCenterforBiotechnologyinformation)
美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)有一系列的生物信息學(xué)數(shù)據(jù)庫.其集成系統(tǒng)Entrez包括:序列報(bào)告數(shù)據(jù)庫Nucleotide
蛋白質(zhì)信息數(shù)據(jù)庫Protien
結(jié)構(gòu)數(shù)據(jù)庫Structure
基因組數(shù)據(jù)庫Genoma
遺傳信息知識(shí)庫OMIM等
Entrez由美國(guó)NCBI開發(fā),用于對(duì)文獻(xiàn)摘要、序列、結(jié)構(gòu)和基因組等數(shù)據(jù)庫進(jìn)行關(guān)鍵詞查詢,找出相關(guān)的一個(gè)或幾個(gè)數(shù)據(jù)庫條目。該系統(tǒng)目前主要包括核酸序列數(shù)據(jù)庫、蛋白質(zhì)序列數(shù)據(jù)庫、基因組數(shù)據(jù)庫、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫、生物醫(yī)學(xué)文獻(xiàn)摘要數(shù)據(jù)庫、系統(tǒng)分類數(shù)據(jù)庫、人類遺傳疾病和遺傳缺失在線數(shù)據(jù)庫,以及基因信息數(shù)據(jù)庫、種群親緣關(guān)系核酸序列比對(duì)數(shù)據(jù)庫、表達(dá)序列標(biāo)簽數(shù)據(jù)庫等。Entrez系統(tǒng)
Entrez
是由NCBI主持的一個(gè)數(shù)據(jù)庫檢索系統(tǒng),它包括核酸,蛋白以及Medline文摘數(shù)據(jù)庫,在這三個(gè)數(shù)據(jù)庫中建立了非常完善的聯(lián)系。因此,可以從一個(gè)DNA序列查詢到蛋白產(chǎn)物以及相關(guān)文獻(xiàn),而且,每個(gè)條目均有一個(gè)類鄰(neighboring)信息,給出與查詢條目接近的信息。Entrez系統(tǒng)
Entrez中核酸數(shù)據(jù)庫為:GenBank,EMBL,DDBJ蛋白質(zhì)數(shù)據(jù)庫為:Swiss-Prot,PIR,PFR,PDB
PubMed基因組和染色體圖譜資料Entrez中的數(shù)據(jù)庫包括:Entrez系統(tǒng)檢索領(lǐng)域:(SearchFields)在WWWEntrez檢索系統(tǒng)中,檢索內(nèi)容被分為許多小的領(lǐng)域,每一個(gè)檢索領(lǐng)域包含以下信息:進(jìn)入(Accession):
包含進(jìn)入號(hào)相關(guān)性(Affiliation):
包括該檢索領(lǐng)域建立時(shí)的相關(guān)信息,原作者地址,有時(shí)亦有其他作者地址作者姓名(AuthorName):
包含文章作者清單E.C號(hào)(E.C.Number):
是酶學(xué)委員會(huì)命名的酶的編號(hào)特征詞(FeatureKey):
描述DNA特征的關(guān)鍵詞基因符號(hào)(GeneSymbol):
基因的標(biāo)準(zhǔn)名稱雜志名(JournalTitle):為檢索條目第一次發(fā)表時(shí)的雜志名,該雜志名是以縮寫形式儲(chǔ)存于數(shù)據(jù)庫中,如果不清楚雜志是如何縮寫的可采用ListTerms來查看關(guān)鍵詞(Keywords):可以使用較特定的索引條目來檢索以上數(shù)據(jù)庫。類似于醫(yī)學(xué)光盤檢索MedlineUID:
是Medline對(duì)每一個(gè)條目給出的唯一識(shí)別標(biāo)記MeSH主題詞(MeSHTerms):
包括MeSH的主題詞,下級(jí)主題詞MeSH主要關(guān)鍵詞(MeSHMajorTopic):為檢索條目十分重要的MeSH詞目Entrez系統(tǒng)修改日期(ModificationDate):
包含該條目進(jìn)入Entrez的日期,與出版日期一樣,以年/月/日形式出現(xiàn)頁數(shù)(PageNumber):
該文章所在雜志的頁碼特性(Property):
一個(gè)或幾個(gè)關(guān)鍵詞,用來描述該序列的類型出版日期(PublicationDate):包含文章出版日期以及序列錄入GenBank的日期PubMedID:PubMed對(duì)每一個(gè)條目給出的識(shí)別標(biāo)記物種(Organism):
包含與該蛋白或核酸序列相關(guān)物種的學(xué)名和俗名蛋白質(zhì)名稱(Proteinname):SeqId:
與FASTA識(shí)別標(biāo)記類似,為序列的一種識(shí)別標(biāo)記物質(zhì)(Substance):
與該條目相關(guān)的化學(xué)物質(zhì)名稱Entrez系統(tǒng)文字檢索詞(TextWords):包含文章中的所有詞,其中:Medline詞目:標(biāo)題和文摘蛋白質(zhì)詞目:定義,評(píng)論,蛋白名稱,蛋白描述核酸條目:定義,評(píng)論,基因名稱,基因名稱標(biāo)題檢索詞(TitleWords):
在標(biāo)題中出現(xiàn)的詞,或在描述該條目時(shí)出現(xiàn)的詞卷(Volume):
刊登該文章雜志所在卷使用MedlineUID,PubMedID和SeqID進(jìn)行檢索時(shí),在欄目框中要輸入數(shù)字。如要輸入多個(gè)數(shù)字,中間要用空格或逗號(hào)隔開。并選擇相對(duì)應(yīng)的檢索領(lǐng)域Entrez系統(tǒng)wwwEntrez可以采用幾種不同途徑的檢索方式:
名詞列表格式(listterm):當(dāng)輸入一檢索詞后,Entrez將列出與此相關(guān)的該領(lǐng)域中所有標(biāo)準(zhǔn)的檢索詞名稱,此時(shí),可選擇一或多個(gè)標(biāo)準(zhǔn)名詞去檢索。
自動(dòng)格式(automatic):當(dāng)輸入一個(gè)檢索詞后,即自動(dòng)檢索,如果輸入的檢索詞超過一個(gè),則Entrez會(huì)自動(dòng)將之組合起來,如果無結(jié)果,則可嘗試將這多個(gè)檢索詞用“”括起來。Entrez系統(tǒng)檢索模式(SearchModes)
每一個(gè)文件都可以有數(shù)種閱讀方式,目的各不相同。一般來說,“引文格式(citation)”最適合于閱讀Medline形式的文件;“GenPept”格式適用于閱讀蛋白質(zhì)文件;“GenBank”格式用來閱讀核酸文件。Entrez系統(tǒng)閱讀文獻(xiàn)(ViewingDocument)文字檢索詞(TextWords):包含文章中的所有詞,其中:Medline詞目:標(biāo)題和文摘蛋白質(zhì)詞目:定義,評(píng)論,蛋白名稱,蛋白描述核酸條目:定義,評(píng)論,基因名稱,基因名稱標(biāo)題檢索詞(TitleWords):
在標(biāo)題中出現(xiàn)的詞,或在描述該條目時(shí)出現(xiàn)的詞卷(Volume):
刊登該文章雜志所在卷使用MedlineUID,PubMedID和SeqID進(jìn)行檢索時(shí),在欄目框中要輸入數(shù)字。如要輸入多個(gè)數(shù)字,中間要用空格或逗號(hào)隔開。并選擇相對(duì)應(yīng)的檢索領(lǐng)域Entrez系統(tǒng)
每一個(gè)文件都可以有數(shù)種閱讀方式,目的各不相同。一般來說,“引文格式(citation)”最適合于閱讀Medline形式的文件;“GenPept”格式適用于閱讀蛋白質(zhì)文件;“GenBank”格式用來閱讀核酸文件。Entrez系統(tǒng)閱讀文獻(xiàn)(ViewingDocument)1.2NCBI上常用的生物學(xué)資源BLAST家族
BLAST是目前最常用的DNA和蛋白質(zhì)序列數(shù)據(jù)庫搜索算法。BLASTP:比較一個(gè)查詢蛋白序列和一個(gè)蛋白序列數(shù)據(jù)庫BPASTN:比較一個(gè)核酸查詢序列和一個(gè)核酸序列數(shù)據(jù)庫BLASTX:比較一個(gè)查詢核酸序列和一個(gè)蛋白序列數(shù)據(jù)庫,能用此方法發(fā)現(xiàn)一個(gè)未知核酸序列的潛在翻譯產(chǎn)物TBLASTN:比較一個(gè)查詢蛋白序列和一個(gè)核酸序列數(shù)據(jù)庫TBLASTX:將DNA查詢序列和核酸序列庫中的序列全部翻譯成蛋白質(zhì)序列,然后進(jìn)行蛋白質(zhì)序列比較4、數(shù)據(jù)庫技術(shù)及數(shù)據(jù)挖掘數(shù)據(jù)庫技術(shù)數(shù)據(jù)倉(cāng)庫虛擬數(shù)據(jù)庫技術(shù)(VirtualDatabase,簡(jiǎn)稱VDB)數(shù)據(jù)挖掘(datamining)又稱作數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase),它是從數(shù)據(jù)庫或數(shù)據(jù)倉(cāng)庫中發(fā)現(xiàn)并提取隱藏在其中的信息的一種新技術(shù),它能自動(dòng)分析數(shù)據(jù),對(duì)它們進(jìn)行歸納性推理和聯(lián)想,尋找數(shù)據(jù)間內(nèi)在的某些關(guān)聯(lián),從中發(fā)掘出潛在的、對(duì)信息預(yù)測(cè)和決策行為起著十分重要作用的模式數(shù)據(jù)挖掘過程一般分為4個(gè)基本步驟:數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘和結(jié)果分析Entrez是面向生物學(xué)家的數(shù)據(jù)庫查詢系統(tǒng),其特點(diǎn)之一是使用十分方便。它把序列、結(jié)構(gòu)、文獻(xiàn)、基因組、系統(tǒng)分類等不同類型的數(shù)據(jù)庫有機(jī)的結(jié)合在一起,通過超文本鏈接,用戶可以從一個(gè)數(shù)據(jù)庫直接轉(zhuǎn)入另外一個(gè)數(shù)據(jù)庫Entrez的另一個(gè)特點(diǎn)是把數(shù)據(jù)庫和應(yīng)用程序結(jié)合在一起。例如,通過“Relatedsequence”工具,可以直接找到與查詢所得蛋白質(zhì)序列同源的其它蛋白質(zhì)。查詢得到的蛋白質(zhì)三維結(jié)構(gòu),可以通過在用戶計(jì)算機(jī)上安裝的Cn3D軟件直接顯示分子圖形。Entrez系統(tǒng)的開發(fā)基于特殊的數(shù)據(jù)模型NCBIANS.1(AbstractSyntaxNotation),在對(duì)于文獻(xiàn)摘要中的關(guān)鍵字查詢時(shí),不僅考慮了查詢對(duì)象和數(shù)據(jù)庫中單詞的實(shí)際匹配,而且考慮了意義相近的匹配。在查詢文獻(xiàn)數(shù)據(jù)庫摘要得到結(jié)果后,可以通過點(diǎn)擊“RelatedArticles”繼續(xù)查找相關(guān)文獻(xiàn)?,F(xiàn)狀及問題1.我國(guó)已有強(qiáng)大的DNA測(cè)序中心:
華大,北方,南方,..但我們需要運(yùn)算速度遠(yuǎn)比現(xiàn)在計(jì)算速度快的機(jī)器或方法.
2.生物信息學(xué)處理系統(tǒng)處于初級(jí)規(guī)模.有一些Genbank,EMBL,GCG的鏡象.
(1).沒有自己的完善的系統(tǒng)(2).沒有大量新算法的開發(fā)
3.后基因組:科研單位及制藥工業(yè)并未完全吸收利用生物信息學(xué)的工具.基因組測(cè)序計(jì)劃海量DNA序列數(shù)據(jù)DNA序列是生命的真諦,生命的源代碼。人類基因組計(jì)劃(HGP)1990年啟動(dòng)目標(biāo):測(cè)定人類基因組的全部DNA序列,了解基因及其功能國(guó)際大合作:美國(guó)、英國(guó)、日國(guó)、法國(guó)、德國(guó)、中國(guó)投入:30億美元結(jié)果:2003年完成精細(xì)圖,長(zhǎng)度約為30億個(gè)堿基人類基因組的組成
核基因組(nucleargenome):由大約30億bp組成,分為24條線性DNA分子(55~250Mb),分別包含在24條不同的染色體中(22條常染色體和2條性染色體X、Y)
線粒體基因組(mitochondriongenome):長(zhǎng)為16,569bp的環(huán)狀DNA分子,位于產(chǎn)生能量的細(xì)胞器——線粒體中基因組測(cè)序完成生物及基因數(shù)目預(yù)測(cè)
生物基因組大小完成時(shí)間預(yù)計(jì)基因數(shù)目酵母12.1Mb19966,034線蟲97Mb199819,099果蠅180Mb200013,061擬南芥125Mb200025,498人類3000Mb200126,000-38,000水稻460Mb200144,000-65,000150多個(gè)物種的基因組測(cè)序完成/正在進(jìn)行中humanArabidopsis擬南芥ThermotogamaritimaEscherichiacoli大腸桿菌Buchnerasp.APSRickettsiaprowazekiiUreaplasmaurealyticumBacillussubtilisDrosophilamelanogasterThermoplasmaacidophilumPlasmodiumfalciparumHelicobacterpylori
mouseCaenorhabitiselegansratBorreliaburgorferiBorreliaburgorferiAquifexaeolicusNeisseriameningitidisZ2491Mycobacteriumtuberculosis模式生物基因組數(shù)據(jù)庫GeneCard:人類基因的綜合數(shù)據(jù)庫GeneCards是人類基因的綜合數(shù)據(jù)庫,包括基因組,蛋白質(zhì)組和轉(zhuǎn)錄組的信息,以及相關(guān)疾病,單核苷酸多態(tài)性,基因表達(dá),基因功能等信息。UCSC’sHumanGenomeBrowser果蠅(常用模式生物)數(shù)據(jù)庫
/
AceDB:線蟲基因組數(shù)據(jù)庫MajorApplicationI:DesigningDrugsUnderstandingHowStructuresBindOtherMolecules(Function)DesigningInhibitorsDocking,StructureModelingMajorApplicationII:FindingHomologsMajor
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 冀教版七年級(jí)數(shù)學(xué)上冊(cè) 1.6 有理數(shù)的減法 聽評(píng)課記錄
- 北師大版道德與法治七年級(jí)下冊(cè)10.2《積極面對(duì)競(jìng)爭(zhēng)》聽課評(píng)課記錄
- 粵人版地理七年級(jí)下冊(cè)《第一節(jié) 非洲概述》聽課評(píng)課記錄
- 2025年天文測(cè)量?jī)x器合作協(xié)議書
- 加盟合作框架協(xié)議書范本
- 臨時(shí)棄土場(chǎng)土地租用協(xié)議書范本
- 2025年度網(wǎng)紅蛋糕店品牌授權(quán)轉(zhuǎn)讓合同
- 二零二五年度離婚協(xié)議書涉及子女醫(yī)療費(fèi)用承擔(dān)合同
- 2025年度農(nóng)業(yè)旅游租賃田地合同
- 2025年度期刊訂閱用戶信息保護(hù)合同
- 前牙即刻種植的臨床應(yīng)用
- 2024-2025學(xué)年初中七年級(jí)上學(xué)期數(shù)學(xué)期末綜合卷(人教版)含答案
- 體育活動(dòng)策劃與組織課件
- 公司違規(guī)違紀(jì)連帶處罰制度模版(2篇)
- 2025屆高考物理二輪總復(fù)習(xí)第一編專題2能量與動(dòng)量第1講動(dòng)能定理機(jī)械能守恒定律功能關(guān)系的應(yīng)用課件
- T型引流管常見并發(fā)癥的預(yù)防及處理
- 2024-2025學(xué)年人教新版九年級(jí)(上)化學(xué)寒假作業(yè)(九)
- 內(nèi)業(yè)資料承包合同個(gè)人與公司的承包合同
- 【履職清單】2024版安全生產(chǎn)責(zé)任體系重點(diǎn)崗位履職清單
- 2022年全國(guó)醫(yī)學(xué)博士英語統(tǒng)一考試試題
- 《工業(yè)自動(dòng)化技術(shù)》課件
評(píng)論
0/150
提交評(píng)論