第2章 生物數(shù)據(jù)庫介紹_第1頁
第2章 生物數(shù)據(jù)庫介紹_第2頁
第2章 生物數(shù)據(jù)庫介紹_第3頁
第2章 生物數(shù)據(jù)庫介紹_第4頁
第2章 生物數(shù)據(jù)庫介紹_第5頁
已閱讀5頁,還剩89頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第二章生物數(shù)據(jù)庫引見生物分子數(shù)據(jù)高速增長分子生物學(xué)及相關(guān)領(lǐng)域研討人員迅速獲得最新實(shí)驗(yàn)數(shù)據(jù)建立生物分子數(shù)據(jù)庫本章目的:引見儲存這些數(shù)據(jù)的數(shù)據(jù)庫,以及從這些數(shù)據(jù)庫中獲取需求的信息的方法。數(shù)據(jù)庫〔database〕是存儲在某種存儲介質(zhì)上的相關(guān)數(shù)據(jù)的有組織的集合。存儲生物大分子信息數(shù)據(jù)的數(shù)據(jù)庫稱為分子生物學(xué)數(shù)據(jù)庫〔molecularbiologydatabase〕,也稱生物信息學(xué)數(shù)據(jù)庫〔bioinformaticsdatabase〕。數(shù)據(jù)庫,特別是分子生物學(xué)數(shù)據(jù)庫,具有三個(gè)特征:〔1〕數(shù)據(jù)庫是可以檢索的,即具有檢索〔index〕功能;〔2〕數(shù)據(jù)庫應(yīng)該是定時(shí)更新的,即不斷有新版內(nèi)容發(fā)布〔release〕;〔3〕數(shù)據(jù)庫是交叉援用的〔cross-referenced〕,特別是在互聯(lián)網(wǎng)時(shí)代,數(shù)據(jù)庫應(yīng)該經(jīng)過超鏈接〔hyperlinks〕與其他數(shù)據(jù)庫相連。生物信息學(xué)數(shù)據(jù)庫的分類:生物信息學(xué)數(shù)據(jù)庫一級數(shù)據(jù)庫二級數(shù)據(jù)庫一級數(shù)據(jù)庫直接來源于實(shí)驗(yàn)獲得的原始數(shù)據(jù)〔DNA序列、蛋白質(zhì)序列、蛋白質(zhì)構(gòu)造等〕,只經(jīng)過簡單的歸類、整理和注釋。一級核酸數(shù)據(jù)庫〔3〕:GenBank數(shù)據(jù)庫、EMBL數(shù)據(jù)庫、DDBJ數(shù)據(jù)庫一級蛋白質(zhì)序列數(shù)據(jù)庫〔2〕:SWISS-PROT庫、PIR蛋白信息數(shù)據(jù)庫一級蛋白質(zhì)構(gòu)造數(shù)據(jù)庫〔1〕:PDB數(shù)據(jù)庫二級數(shù)據(jù)庫在一級數(shù)據(jù)庫、實(shí)驗(yàn)數(shù)據(jù)和實(shí)際分析的根底上,針對不同的研討內(nèi)容和需求,對生物學(xué)知識和信息的進(jìn)一步整理得到的數(shù)據(jù)庫,旨在使根本數(shù)據(jù)庫更加便于運(yùn)用。人類基因組圖譜庫GDB、轉(zhuǎn)錄因子和結(jié)合位點(diǎn)庫TRANSFAC、蛋白質(zhì)序列功能位點(diǎn)數(shù)據(jù)庫Prosite等。生物信息學(xué)數(shù)據(jù)庫一級數(shù)據(jù)庫DNA數(shù)據(jù)庫二級數(shù)據(jù)庫基因組數(shù)據(jù)庫蛋白質(zhì)序列數(shù)據(jù)庫蛋白質(zhì)構(gòu)造數(shù)據(jù)庫建立分子生物信息數(shù)據(jù)庫的流程圖contents2.1序列數(shù)據(jù)庫2.2基因組數(shù)據(jù)庫2.3構(gòu)造數(shù)據(jù)庫2.4功能數(shù)據(jù)庫2.5根本序列數(shù)據(jù)庫注釋及序列格式2.1序列數(shù)據(jù)庫2.1.1三大核酸序列數(shù)據(jù)庫GenBank〔美國NCBI〕EMBL(歐洲EBI)DDBJ(日本NIG)2.1.2兩大蛋白序列數(shù)據(jù)庫SWISS-PROT庫PIR庫2.1.1三大核酸序列數(shù)據(jù)庫1982年4月:由以下三個(gè)機(jī)構(gòu)結(jié)合建立GenBank數(shù)據(jù)庫最初設(shè)在美國洛斯阿拉莫斯國家實(shí)驗(yàn)室〔LANL〕,現(xiàn)由位于美國馬里蘭州Bethesda的國家生物技術(shù)研討中心〔NCBI〕維護(hù)管理。數(shù)據(jù)庫每日更新,每年發(fā)行六版。其中所搜集的序列包括:基因組DNA序列、cDNA序列、EST序列、STS序列、載體序列、人工合成序列及HTG序列等。NIH(NationalInstituteofHealth,美國國立衛(wèi)生研討院)NCBI(NationalCenterforBiotechnologyInformation,美國國家生物技術(shù)信息中心〔做日常維護(hù)〕)NLM(NationalLibraryofMedicine,美國國立醫(yī)學(xué)圖書館)GenBank〔美國國家生物技術(shù)信息中心,NCBI〕NCBI主頁:下拉菜單檢索關(guān)鍵詞主頁的導(dǎo)航條有七大類:PubMed:上千萬條文獻(xiàn)記錄及許多在線期刊id銜接;AllDatabases:NCBI中的各種數(shù)據(jù)庫集合;BLAST:部分比對的序列類似性搜索工具;OMM:在線人類孟德爾遺傳性狀數(shù)據(jù)庫,人類基因和遺傳異常的索引;Books:在線的參考書籍,包含于PubMEd的鏈接;Taxonomy:囊括主要生物類別的分類信息閱讀器;Structure:分子建模數(shù)據(jù)庫,記錄了大分子的三維構(gòu)造/Genbank/genbankstatsGenBank收錄的物種/Taxonomy/txstat.cgiGenBank中20種測序最多的物種〔09年8月15日發(fā)布的第173.0版〕/genbank/gbrel.txtTypeofRecordSampleAccessionFormatGenBank/EMBL/DDBJNucleotideSequenceRecordsOneletterfollowedbyfivedigits,e.g.:U12345Twolettersfollowedbysixdigits,e.g.:

AY123456,AF123456GenPeptSequenceRecords(whichcontaintheaminoacidtranslationsfromGenBank/EMBL/DDBJrecordsthathaveacodingregionfeatureannotatedonthem)Threelettersandfivedigits,e.g.:

AAA12345ProteinSequenceRecordsfromSWISS-PROTandPIRAllaresixcharacters:

Character/Format

1[O,P,Q]

2[0-9]

3[A-Z,0-9]

4[A-Z,0-9]

5[A-Z,0-9]

6[0-9]

e.g.:

P12345andQ9JJS7各種登錄號〔索引號〕的類型TypeofRecordSampleAccessionFormatProteinSequenceRecordsfromPRFAseriesofdigits(oftensixorseven)

followedbyaletter,e.g.:1901178ARefSeqNucleotideSequenceRecordsTwoletters,anunderscorebar,andsixdigits,e.g.:mRNArecords(NM_*):NM_000492genomicDNAcontigs(NT_*):NT_000347completegenomeorchromosome(NC_*):NT_000907genomicregion(NG_*):NG000019RefSeqProteinSequenceRecordsTwoletters(NP),anunderscorebar,andsixdigits,e.g.:NP_000483RefSeqModel(predicted)SequenceRecordsfromtheHumanGenomeannotationprocessTwoletters(XM,XP,orXR),anunderscorebar,andsixdigits,e.g.:XM_000483ProteinStructureRecordsPDBaccessionsgenerallycontainonedigitfollowedbythreeletters,e.g.:1TUP

MMDBIDnumbersgenerallycontainfourdigits,e.g.:3973.各種登錄號〔索引號〕的類型〔續(xù)〕/bookshelf/br.fcgi?book=helpentrez&part=EntrezHelpWhatisanaccessionnumber?Anaccessionnumberislabelthatusedtoidentifyasequence.Itisastringoflettersand/ornumbersthatcorrespondstoamolecularsequence.Examples(allforretinol-bindingprotein,RBP4):X02775GenBankgenomicDNAsequenceNT_030059GenomiccontigRs7079946dbSNP(singlenucleotidepolymorphism)N91759.1Anexpressedsequencetag(1of170)NM_006744RefSeqDNAsequence(fromatranscript)NP_007635RefSeqproteinAAC02945GenBankproteinQ28369SwissProtprotein1KT7ProteinDataBankstructurerecordDNARNAproteinGenBankGenBank網(wǎng)址/Genbank/下拉菜單檢索內(nèi)容EMBL(歐洲分子生物學(xué)實(shí)驗(yàn)室,EMBL)EMBL數(shù)據(jù)庫是建立最早的核酸數(shù)據(jù)庫,由德國海德堡的歐洲分子生物學(xué)實(shí)驗(yàn)室〔EMBL〕1982年3月創(chuàng)建,現(xiàn)由英國Hinxton的歐洲生物信息學(xué)研討所〔EBI〕維護(hù)管理。數(shù)據(jù)庫每日更新,每年發(fā)行四版。子庫包括:表達(dá)序列標(biāo)簽〔ESTs〕、病毒〔Viruses〕、噬菌體〔Bacteriophage〕、原核生物〔Prokaryotes〕、真菌〔Fungi〕、植物〔Plants〕、無脊椎動(dòng)物〔Invertebrates〕、脊椎動(dòng)物〔Vertebrates〕、嚙齒動(dòng)物〔Rodents〕、哺乳動(dòng)物〔Mammals〕、人類〔Human〕、細(xì)胞器〔Organelles〕、高通量基因組序列〔HTG〕等。EBIEBI網(wǎng)址主頁ebi.ac.uk下拉菜單檢索內(nèi)容EMBLEMBL網(wǎng)址ebi.ac.uk/embl下拉菜單檢索內(nèi)容DDBJ(日本國家遺傳學(xué)研討所,NIG)1986年:日本國立遺傳學(xué)研討所(NationalInstituteofGenetics,NIG)建立了日本DNA數(shù)據(jù)庫(DNADataBankofJapan,DDBJ),后來也參與GenBank和EMBL的國際協(xié)作,互通有無,同步更新,每年發(fā)行四版。DDBJDDBJ網(wǎng)址:ddbj.nig.ac.jp這三大數(shù)據(jù)庫雖然各自有不同的數(shù)據(jù)記錄格式,但對核酸序列均采用一樣的記錄規(guī)范,同時(shí)每天交換數(shù)據(jù)以到達(dá)數(shù)據(jù)更新和一致。從地域角度看,EMBL主要擔(dān)任搜集歐洲的數(shù)據(jù),GenBank擔(dān)任美洲,DDBJ擔(dān)任亞洲。由于國際互聯(lián)網(wǎng)的開展,用戶可以恣意的向其中恣意一個(gè)數(shù)據(jù)庫提交序列,所提交的序列也將從公布之日起同時(shí)在三大數(shù)據(jù)庫中出現(xiàn)。例如LOCUSNC_01261815494bpDNAcircularINV11-MAY-2021DEFINITIONPhascolosomaesculentamitochondrion,completegenome.ACCESSIONNC_012618VERSIONNC_012618.1GI:228015390DBLINKProject:37801KEYWORDS.SOURCEmitochondrionPhascolosomaesculenta(peanutworm)ORGANISMPhascolosomaesculentaEukaryota;Metazoa;Sipuncula;Phascolosomatidea;Phascolosomatiformes;Phascolosomatidae;Phascolosoma.REFERENCE1(bases1to15494)AUTHORSShen,X.,Ma,X.,Ren,J.andZhao,F.TITLEAclosephylogeneticrelationshipbetweenSipunculaandAnnelidaevidencedfromthecompletemitochondrialgenomesequenceofPhascolosomaesculentaJOURNALBMCGenomics10,(2021)PUBMED19327168三大數(shù)據(jù)庫之間的聯(lián)絡(luò)國際核酸序列數(shù)據(jù)庫協(xié)會(huì)1998年,Genbank、EMBL、DDBJ共同成立了國際核酸序列數(shù)據(jù)庫協(xié)會(huì)〔InternationalNucleotideSequenceDatabaseCollection,簡稱INSDC,/〕,建立了協(xié)作關(guān)系。協(xié)作的目的是搜集全球范圍內(nèi)的核酸序列,對其進(jìn)展分析及注釋。并經(jīng)過互聯(lián)網(wǎng)每天將新測定的和更新的數(shù)據(jù)進(jìn)展交換共享,保證數(shù)據(jù)庫信息的完好與同步。INSDC向全世界用戶免費(fèi)開放,不設(shè)定訪問次數(shù);但要求生命科學(xué)中心期刊在文章發(fā)表時(shí)序列必需提交到國際核酸序列數(shù)據(jù)庫中。/

BioSino數(shù)據(jù)庫是中國自主開發(fā)的核酸序列公共數(shù)據(jù)庫,發(fā)表我國各基因研討中心提供的核酸序列,并接受我國核酸序列的注冊登記,由中國科學(xué)院上海生命科學(xué)研討院生物信息中心維護(hù),提供的內(nèi)容及效力相對于上述的三大國際核酸數(shù)據(jù)庫來說較簡單,無論在國內(nèi)還是國外都較難引起足夠的注重和關(guān)注。/pages/database.htmBioSino數(shù)據(jù)庫BioSino網(wǎng)頁核酸公共數(shù)據(jù)庫DatabaseofDomainInteractionsandBindings2.1.2兩大蛋白質(zhì)數(shù)據(jù)庫1986年歐洲瑞士日內(nèi)瓦大學(xué)的AmosBairoch設(shè)計(jì)了一個(gè)蛋白質(zhì)序列分析工具〔COMPSEQ-PC/Gene〕并建立了第一個(gè)全新的蛋白質(zhì)序列數(shù)據(jù)庫SwissProt,該數(shù)據(jù)庫的一切條目都經(jīng)過有閱歷的分子生物學(xué)家和蛋白質(zhì)化學(xué)家經(jīng)過計(jì)算機(jī)工具并查閱有關(guān)文獻(xiàn)資料仔細(xì)核實(shí),因此又稱蛋白質(zhì)專家?guī)?ExPASy)??蓮闹兴阉鳎@得各種蛋白質(zhì)的氨基酸序列,及其各種配基結(jié)合位點(diǎn)、酶活位點(diǎn)等。SWISS-PROT蛋白質(zhì)數(shù)據(jù)庫SwissProt蛋白質(zhì)序列數(shù)據(jù)庫在國際上比較權(quán)威,普通任何蛋白質(zhì)序列數(shù)據(jù)搜索和比較都應(yīng)從SwissProt開場。SwissProt涉及知蛋白質(zhì)的功能、序列〔包括一些蛋白質(zhì)片斷序列〕、構(gòu)造域〔如跨膜區(qū)等〕構(gòu)造、翻譯后修飾〔如磷酸化與去磷酸化等〕及其位點(diǎn)、突變體等。SwissProt還與其他一些數(shù)據(jù)庫如Prosite、Swiss-2DPAGE、Swiss-3DIMAGE、Enzyme、SwissModel、NCBI等相鏈接?!?〕從核酸數(shù)據(jù)庫經(jīng)過翻譯推導(dǎo)而來;〔2〕從蛋白質(zhì)數(shù)據(jù)庫PIR挑選出適宜的數(shù)據(jù);〔3〕從科學(xué)文獻(xiàn)中摘錄;〔4〕研討人員直接提交的蛋白質(zhì)序列數(shù)據(jù)。SwissProt中的數(shù)據(jù)來源包括以下四個(gè)部分:SWISS-PROTSWISS-PROT的下拉菜單檢索內(nèi)容PIR蛋白質(zhì)數(shù)據(jù)庫PIR主要目的是提供按同源性和分類學(xué)組織的綜合性、非冗余數(shù)據(jù)庫,由位于美國華盛頓的國家醫(yī)學(xué)研討基金會(huì)〔NationalBiomedicalResearchFoundation,NBRF〕、德國馬普學(xué)會(huì)的慕尼黑蛋白質(zhì)序列信息中心〔MIPS〕和日本國際蛋白質(zhì)序列數(shù)據(jù)庫(JIPID)共同維護(hù).網(wǎng)址為:/PIRPIR/UniProt數(shù)據(jù)庫2002年為了整合全球的蛋白質(zhì)序列資源,使信息共享,美國的蛋白質(zhì)信息資源數(shù)據(jù)庫PIR與歐洲生物信息學(xué)研討所EBI、瑞士生物信息學(xué)研討所SIB在國立衛(wèi)生研討院NIH的資助下,決議建立全球范圍內(nèi)一致的蛋白質(zhì)序列和功能數(shù)據(jù)庫UniProt〔通用蛋白質(zhì)資源,UniversalProteinResource〕。合并了分屬不同研討所下的PIR-PSD、SwissProt和TrEMBL數(shù)據(jù)庫。合并后的蛋白質(zhì)數(shù)據(jù)庫Uniprot具有全世界最全面的蛋白質(zhì)分類信息,是蛋白質(zhì)序列與功能主要的知識庫。UniProt數(shù)據(jù)庫主頁搜索2.2基因組數(shù)據(jù)庫基因組數(shù)據(jù)庫的主體是方式生物基因組數(shù)據(jù)庫,是一個(gè)比較專注的數(shù)據(jù)庫,只收錄單一的物種序列、構(gòu)造、發(fā)育等相關(guān)數(shù)據(jù)信息,因此也僅對所對應(yīng)的研討領(lǐng)域及相關(guān)研討領(lǐng)域有價(jià)值。來源于人類基因組方案及各種方式生物基因組方案人類、線蟲、擬南芥、家蠶、水稻、家雞、……NCBI中集成的Genome數(shù)據(jù)/Genomes/

提供了許多物種的基因組數(shù)據(jù)資源人類基因組數(shù)據(jù)庫GDB的國內(nèi)鏡像/gdbGDB〔美國、加拿大〕1990年,JohnHopkins大學(xué)建立,后由加拿大兒童醫(yī)院生物信息中心管理,2003年起,GDB-relatedsoftwareandpublicdataweretransferredtoRTIInternational.數(shù)據(jù)內(nèi)容:1、人類基因組,包括基因、克隆、斷裂點(diǎn)、細(xì)胞遺傳標(biāo)志物、易斷位點(diǎn)、反復(fù)片段等。

2、人類基因組表示圖,包括細(xì)胞遺傳圖,關(guān)聯(lián)圖,輻射雜交圖、綜合圖等。

3、人類基因組內(nèi)的變異,包括基因突變和基因多態(tài)性,還有等位基因發(fā)生頻次等數(shù)據(jù)資料。GDB網(wǎng)址/既是一個(gè)數(shù)據(jù)庫,又是一個(gè)數(shù)據(jù)庫管理系統(tǒng)。提供很好的圖形界面,用戶可以從大到整個(gè)基因組小到序列的各個(gè)層次察看和分析基因組數(shù)據(jù)。

數(shù)據(jù)內(nèi)容:限制性圖譜,基因構(gòu)造信息,質(zhì)粒圖譜,序列數(shù)據(jù),參考文獻(xiàn)…AceDB〔線蟲基因組數(shù)據(jù)庫〕AceDB網(wǎng)址擬南芥基因組數(shù)據(jù)庫擬南芥〔Arabidopsisthaliana〕屬十字花科,擬南芥屬,是一種分布很廣的植物,其本身毫無經(jīng)濟(jì)價(jià)值,但其基因組較簡單,染色體n=5,核基因組DNA含量=1.0×108堿基對,生命周期短,一代時(shí)間為3-5周,種子產(chǎn)量大,每個(gè)植株可產(chǎn)生無數(shù)粒細(xì)小的種子。有人將之稱為植物中的“果蠅〞,是方式植物。/家蠶基因組數(shù)據(jù)庫家蠶〔Bombyxmori〕屬鱗翅目,蠶蛾科。家蠶既是支撐蠶絲產(chǎn)業(yè)的生物根底,又是鱗翅目昆蟲研討的典型方式種類,同時(shí)也是開發(fā)新一代生物反響器和新型昆蟲產(chǎn)業(yè)的資料。2003年我國科學(xué)家在國際上率先完成了家蠶基因組框架圖。2021年與日本協(xié)作曾經(jīng)完成精細(xì)圖。/水稻基因組數(shù)據(jù)庫水稻基因組是第一個(gè)完成測序的禾本科植物基因組。水稻基因組數(shù)據(jù)庫包括水稻基因序列數(shù)據(jù)庫,水稻基因cDNA表達(dá)序列標(biāo)簽〔EST〕數(shù)據(jù)庫,水稻基因組注釋、分析數(shù)據(jù)庫等三個(gè)主要字庫,包括了水稻基因組的核酸序列,表達(dá)序列兩個(gè)一級數(shù)據(jù)庫和由此進(jìn)展數(shù)據(jù)加工得到的水稻基因組注釋、分析數(shù)據(jù)庫等二級數(shù)據(jù)庫,是進(jìn)展水稻及植物相關(guān)生物學(xué)研討的重要數(shù)據(jù)來源。/家雞基因組數(shù)據(jù)庫中國是雞的主要來源國之一,家養(yǎng)雞在中國已有5000-8000年的歷史。雞肉和雞蛋是國民飲食中主要?jiǎng)游锏鞍讈碓?,?shù)量僅次于豬肉。開展雞基因組和遺傳多態(tài)性研討,從本質(zhì)上找到控制雞的質(zhì)量性狀相關(guān)基因,將為繼續(xù)、有效、平安地改良肉雞和蛋雞的質(zhì)量開辟新的技術(shù)途徑。雞含有數(shù)量眾多的微型染色體;其體外孵化的特點(diǎn)使其成為研討胚胎發(fā)育最重要的資料;雞也是研討免疫與病毒和癌癥的主要方式之一;雞在遺傳和生理等方面所具有特異性,使得雞成為科學(xué)研討方面的重要方式之一。

果蠅基因組數(shù)據(jù)庫黑腹果蠅〔Drosophilamelanogaster〕在分類學(xué)上屬于昆蟲綱雙翅目,是一種經(jīng)典的方式生物,為人類探求生命的本質(zhì)做出了艱苦奉獻(xiàn)。昆蟲學(xué)上的許多研討都是跟蹤果蠅進(jìn)展的。果蠅基因組數(shù)據(jù)庫FlyBase是一個(gè)關(guān)于果蠅的基因和分子生物學(xué)信息的數(shù)據(jù)庫,包含了來自果蠅基因組測序的基因信息和相關(guān)文獻(xiàn)信息。/線蟲基因組數(shù)據(jù)庫秀麗隱桿線蟲(Caenorhabditiselegans)是現(xiàn)代發(fā)育生物學(xué)、遺傳學(xué)和基因組學(xué)研討的重要方式資料。其成體長僅1mm,全身透明,以細(xì)菌為食,整個(gè)的生命周期僅3天。野生型線蟲胚胎發(fā)育中細(xì)胞分裂和細(xì)胞系的構(gòu)成具有高度的程序性,一個(gè)成體僅由959個(gè)細(xì)胞組成。由一個(gè)受精卵發(fā)育成為成熟的成體只需二天多一點(diǎn)〔25℃時(shí)需52小時(shí)〕。/玉米基因組數(shù)據(jù)庫玉米基因組測序工程始于2005年,美國全國科學(xué)基金會(huì)、農(nóng)業(yè)部、能源部為這個(gè)工程提供了2950萬美圓的經(jīng)費(fèi)。美國科學(xué)家2021年2月28日在華盛頓宣布完成玉米基因組的草圖,這是人類勝利測序的第二種農(nóng)作物基因組。玉米基因組以代號為B73的高產(chǎn)玉米種類為研討對象,完成了約95%的基因組測序任務(wù)。結(jié)果顯示,玉米基因組的基因數(shù)量為5萬至6萬個(gè),堿基對數(shù)量大約為20億個(gè)。玉米基因組數(shù)據(jù)庫MaizeGDB收錄了關(guān)于玉米基因組測序的基因和分子生物學(xué)信息,目前由密蘇里·哥倫比亞大學(xué)擔(dān)任管理和維護(hù)。/部分生物基因組方案網(wǎng)址老鼠(Mouse)/mgd.html小鼠(Rat) ratmap.gen.gu.se 狗(Dog) /dog.html 牛(Cow) locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl豬(Pig)ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html羊(Sheep) dirk.invermay.cri.nz 雞(Chicken)斑馬魚(Zebrafish) 線蟲(C.elegans)ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html果蠅(Drosophila) 蚊子(Mosquito) 擬南芥(Arabidopsis)/Arabidopsis棉花(Cotton) 玉米(Maize) ;/水稻(Rice) staff.or.jp 大豆(Soya) :8000/main.html2.3構(gòu)造數(shù)據(jù)庫PDB由美國自然科學(xué)基金會(huì)、能源部和國立衛(wèi)生研討院共同投資建立,主要由X射線晶體衍射和核磁共振〔NMR〕測得的生物大分子三維構(gòu)造所組成,用戶可直接查詢、調(diào)用和察看庫中所收錄的任何大分子三維構(gòu)造。網(wǎng)址為:/pdb/在序列分析中,PDB數(shù)據(jù)庫主要可運(yùn)用于蛋白質(zhì)構(gòu)造預(yù)測和構(gòu)造同源性比較。其中NRL-3D數(shù)據(jù)庫那么是PDB數(shù)據(jù)庫中一切知構(gòu)造蛋白質(zhì)數(shù)據(jù)庫。2.3.1PDB〔proteindatabank〕PDBPDB/pdb(美國)檢索內(nèi)容2.3.2PROSITE(蛋白質(zhì)序列功能位點(diǎn)數(shù)據(jù)庫)PROSITE數(shù)據(jù)庫是ExPASy下面的子數(shù)據(jù)庫搜集了生物學(xué)有顯著意義的蛋白質(zhì)位點(diǎn)和序列方式,并能根據(jù)這些位點(diǎn)和方式快速和可靠地鑒別一個(gè)未知功能的蛋白質(zhì)序列應(yīng)該屬于哪一個(gè)蛋白質(zhì)家族。PROSITE中涉及的序列方式包括酶的催化位點(diǎn)、配體結(jié)合位點(diǎn)、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質(zhì)結(jié)合的區(qū)域等;除了序列方式之外,PROSITE還包括由多序列比對構(gòu)建的profile,能更敏感地發(fā)現(xiàn)序列與profile的類似性。PROSITE的主頁上提供各種相關(guān)檢索效力。expasy.ch/prosite/PROSITE輸入氨基酸序列,提交后,即可。2.3.3SCOP英國醫(yī)學(xué)研討委員會(huì)分子生物學(xué)實(shí)驗(yàn)室和蛋白質(zhì)工程中心開發(fā)的基于web的蛋白質(zhì)構(gòu)造數(shù)據(jù)庫分類、檢索和分析系統(tǒng);詳細(xì)描畫了知的蛋白質(zhì)構(gòu)造之間的關(guān)系。scop.mrc-lmb.cam.ac.uk/scop/SCOP主頁主頁上的各種在線分析軟件2.3.4COGNCBI的子數(shù)據(jù)庫蛋白質(zhì)直系同源簇(COGs)數(shù)據(jù)庫是對細(xì)菌、藻類和真核生物的21個(gè)完好基因組的編碼蛋白,根據(jù)系統(tǒng)進(jìn)化關(guān)系分類構(gòu)建而成。COG庫對于預(yù)測單個(gè)蛋白質(zhì)的功能和整個(gè)新基因組中蛋白質(zhì)的功能都很有用。利用COGNITOR程序,可以把某個(gè)蛋白質(zhì)與一切COGs中的蛋白質(zhì)進(jìn)展比對,并把它歸入適當(dāng)?shù)腃OG簇。COG庫提供了對COG分類數(shù)據(jù)的檢索和查詢,基于Web的COGNITOR效力,系統(tǒng)進(jìn)化方式的查詢效力等。/COGCOG2.3.5河北大學(xué)蛋白質(zhì)數(shù)據(jù)庫HPDB2.4功能數(shù)據(jù)庫京都基因和基因組百科全書〔KEGG〕相互作用的蛋白質(zhì)數(shù)據(jù)庫〔DIP〕可變剪接數(shù)據(jù)庫〔ASDB〕轉(zhuǎn)錄調(diào)控區(qū)數(shù)據(jù)庫〔TRRD〕…………2.4.1京都基因和基因組百科全書(KEGG)是系統(tǒng)分析基因功能,聯(lián)絡(luò)基因組信息和功能信息的知識庫?;蚪M信息存儲在GENES數(shù)據(jù)庫里,包括完好和部分測序的基因組序列;更高級的功能信息存儲在PATHWAY數(shù)據(jù)庫里,包括圖解的細(xì)胞生化過程如代謝、膜轉(zhuǎn)運(yùn)、信號傳送、細(xì)胞周期,還包括同系保守的子通路等信息;KEGG的另一個(gè)數(shù)據(jù)庫是LIGAND,包含關(guān)于化學(xué)物質(zhì)、酶分子、酶反響等信息。KEGG提供了Java的圖形工具來訪問基因組圖譜,比較基因組圖譜和操作表達(dá)圖譜,以及其它序列比較、圖形比較和通路計(jì)算的工具,可以免費(fèi)獲取。KEGGgenome.jp/kegg/

相互作用的蛋白質(zhì)數(shù)據(jù)庫(DIP)搜集了由實(shí)驗(yàn)驗(yàn)證的蛋白質(zhì)-蛋白質(zhì)相互作用。數(shù)據(jù)庫包括蛋白質(zhì)的信息、相互作用的信息和檢測相互作用的實(shí)驗(yàn)技術(shù)三個(gè)部分。用戶可以根據(jù)蛋白質(zhì)、生物物種、蛋白質(zhì)超家族、關(guān)鍵詞、實(shí)驗(yàn)技術(shù)或援用文獻(xiàn)來查詢DIP數(shù)據(jù)庫。2.4.2DIPDIP/dip/Main.cgi2.4.3ASDB可變剪接數(shù)據(jù)庫(ASDB〕包括蛋白質(zhì)庫和核酸庫兩部分。ASDB(蛋白質(zhì))部分:來源于SWISS-PROT蛋白質(zhì)序列庫,經(jīng)過選取有可變剪接注釋的序列,搜索相關(guān)可變剪接的序列,經(jīng)過序列比對、挑選和分類構(gòu)建而成。ASDB(核酸)部分:來自Genbank中提及和注釋的可變剪接的完好基因構(gòu)成。數(shù)據(jù)庫提供了方便的搜索效力。/asdb2.4.4TRRD轉(zhuǎn)錄調(diào)控區(qū)數(shù)據(jù)庫(TRRD)的每一個(gè)條目里包含特定基因各種構(gòu)造-功能特性:轉(zhuǎn)錄因子結(jié)合位點(diǎn)、啟動(dòng)子、加強(qiáng)子、靜默子、以及基因表達(dá)調(diào)控方式等。TRRD包括五個(gè)相關(guān)的數(shù)據(jù)表:TRRDGENES(包含一切TRRD庫基因的根本信息和調(diào)控單元信息);TRRDSITES(包括調(diào)控因子結(jié)合位點(diǎn)的詳細(xì)信息);TRRDFACTORS(包括TRRD中與各個(gè)位點(diǎn)結(jié)合的調(diào)控因子的詳細(xì)信息);TRRDEXP(包括對基因表達(dá)方式的詳細(xì)描畫);TRRDBIB(包括一切注釋涉及的參考文獻(xiàn))。TRRD主頁提供了對這幾個(gè)數(shù)據(jù)表的檢索效力。TRRDwwwmgs.bionet.nsc.ru/mgs/gnw/trrd/2.4.5TRANSFACTRANSFAC數(shù)據(jù)庫是關(guān)于轉(zhuǎn)錄因子、它們在基因組上的結(jié)合位點(diǎn)和與DNA結(jié)合的profiles的數(shù)據(jù)庫。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等數(shù)據(jù)表構(gòu)成。此外,還有幾個(gè)與TRANSFAC親密相關(guān)的擴(kuò)展庫:PATHODB庫搜集了能夠?qū)е虏B(tài)的突變的轉(zhuǎn)錄因子和結(jié)合位點(diǎn);S/MARTDB搜集了與染色體構(gòu)造變化相關(guān)的蛋白因子和位點(diǎn)的信息;TRANSPATH庫用于描畫與轉(zhuǎn)錄因子調(diào)控相關(guān)的信號傳送的網(wǎng)絡(luò);CYTOMER庫表現(xiàn)了人類轉(zhuǎn)錄因子在各個(gè)器官、細(xì)胞類型、生理系統(tǒng)和發(fā)育時(shí)期的表達(dá)情況。transfac.gbf.de/TRANSFAC/從1994年開場,<核酸研討>〔NucleicAcidResearch〕雜志每年第一期為生物學(xué)數(shù)據(jù)庫專集,引見各種生物學(xué)數(shù)據(jù)庫,這一期是免費(fèi)的。/常用數(shù)據(jù)庫匯總Volume37,WebServerissue,1July2021

Volume37,Databaseissue,January2021

2.5根本序列數(shù)據(jù)庫注釋及序列格式歷史緣由:沒有完全一致的數(shù)據(jù)庫格式,但不同的數(shù)據(jù)庫研討組所采用的注釋信息內(nèi)容根本一致,但格式不盡一樣。涉及特定序列數(shù)據(jù)的信息被盡能夠地錄入數(shù)據(jù)庫,并在不同字段中得以表達(dá)。普通由兩部分組成:文字注釋和內(nèi)容〔序列,……)三大核酸數(shù)據(jù)庫商定了一致的描畫格式,詳細(xì)描畫可見httpebi.ac.uk/embl/Documentation/FT_definitions/feature_table.htmlEMBL標(biāo)識字GenBank標(biāo)識字含義IDLOCUS序列名稱DEDEFINITION序列簡單說明ACACCESSION唯一的序列編號SVVERSION序列版本號KWKEYWORDS與序列相關(guān)的關(guān)鍵詞OSSOURCE序列來源的物種名OCORGANISM序列來源的物種學(xué)名和分類學(xué)位置DT建立日期RNREFERENCE相關(guān)文獻(xiàn)編號或提交注冊信息RAAUTHORS相關(guān)文獻(xiàn)作者或提交序列作者RTTITLE相關(guān)文獻(xiàn)題目RLJOURNAL相關(guān)文獻(xiàn)刊物名或作者單位RXMEDLINE相關(guān)文獻(xiàn)Medline引文代碼RCREMARK相關(guān)文獻(xiàn)注釋RP相關(guān)文獻(xiàn)其它注釋CCCOMMENT關(guān)于序列的注釋信息DR相關(guān)數(shù)據(jù)庫交叉引用號FHFEATURES序列特征表起始FT序列特征表子項(xiàng)SQBASECONTENT序列長度、堿基數(shù)目統(tǒng)計(jì)數(shù)空格ORIGIN序列////序列結(jié)束標(biāo)志、空行EMBL和GenBank數(shù)據(jù)庫的行識別標(biāo)志比較例如LOCUSNC_01261815494bpDNAcircularINV11-MAY-2021DEFINITIONPhascolosomaesculentamitochondrion,completegenome.ACCESSIONNC_012618VERSIONNC_012618.1GI:228015390DBLINKProject:37801KEYWORDS.SOURCEmitochondrionPhascolosomaesculenta(peanutworm)ORGANISMPhascolosomaesculentaEukaryota;Metazoa;Sipuncula;Phascolosomatidea;Phascolosomatiformes;Phascolosomatidae;Phascolosoma.REFERENCE1(bases1to15494)AUTHORSShen,X.,Ma,X.,Ren,J.andZhao,F.TITLEAclosephylogeneticrelationshipbetweenSipunculaandAnnelidaevidencedfromthecompletemitochondrialgenomesequenceofPhascolosomaesculentaJOURNALBMCGenomics10,(2021)PUBMED19327168以GenBank中的一個(gè)水母綠色熒光蛋白基由于例?以GenBank中的一個(gè)水母綠色熒光蛋白基由于例〔續(xù)〕

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論