版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第二章核酸序列分析
Nucleic
Acid
sequence
Analysis12/4/2024§2.1
生物信息學數(shù)據(jù)庫
Bioinformaticsdatabase12/4/2024生物信息學最重要的任務是從海量數(shù)據(jù)中提取新知識12/4/2024生物信息學數(shù)據(jù)存在的問題信息源分布在世界各地不同的站點上涉及多個數(shù)據(jù)源的全局問題無法立刻得到答案PainfullycollectingunstructuredinformationaroundthesitesManuallyputtingpiecestogetherHopefullygettingtherightpicture...總之,信息源的特點是:自治的(autonomous)分布式的(distributed)異構的(heterogeneous)數(shù)據(jù)集成DataIntegration12/4/2024一、生物信息學數(shù)據(jù)庫生物信息學數(shù)據(jù)庫的種類分子生物信息數(shù)據(jù)庫種類繁多。歸納起來,大體可以分為4個大類:基因組數(shù)據(jù)庫核酸和蛋白質(zhì)一級結構數(shù)據(jù)庫生物大分子(主要是蛋白質(zhì))三維空間結構數(shù)據(jù)庫由上述3類數(shù)據(jù)庫和文獻資料為基礎構建的二級數(shù)據(jù)庫12/4/2024生物信息數(shù)據(jù)庫的分類一級數(shù)據(jù)庫數(shù)據(jù)庫中的數(shù)據(jù)直接來源于實驗獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類整理和注釋一級核酸數(shù)據(jù)庫:EMBLdatabase,GenBankdatabase,DDBJdatabase一級蛋白質(zhì)序列數(shù)據(jù)庫:SWISS-PORTdatabase,
PIRdatabase
一級蛋白質(zhì)結構數(shù)據(jù)庫:
PDBdatabase二級數(shù)據(jù)庫對原始生物分子數(shù)據(jù)進行整理、分類的結果,是在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎上針對特定的應用目標而建立人類基因組圖譜庫GDB蛋白質(zhì)結構分類數(shù)據(jù)庫SCOP,CATH
蛋白質(zhì)序列功能位點數(shù)據(jù)庫Prosite12/4/2024《核酸研究》雜志——《NucleicAcidsResearch》(http:///)自1993年起,每年都會在第一期推出生物數(shù)據(jù)庫特刊,介紹上一年度的數(shù)據(jù)庫增加和更新情況。至2010年,生物信息學數(shù)據(jù)庫總數(shù)已達1230個。12/4/202412/4/2024核酸序列數(shù)據(jù)庫12/4/202412/4/2024相關數(shù)據(jù)庫及其主要分類1
核酸序列數(shù)據(jù)庫2.RNA序列數(shù)據(jù)庫3.蛋白質(zhì)序列數(shù)據(jù)庫4.結構數(shù)據(jù)庫5.基因組數(shù)據(jù)庫(非脊椎動物)6.代謝酶相關產(chǎn)物7.人類和其他脊椎動物基因組8.人類基因和疾病9.其他數(shù)據(jù)和其他基因表達數(shù)據(jù)庫10.蛋白組資源11.其他分子生物學數(shù)據(jù)庫12.細胞器官數(shù)據(jù)庫13.植物數(shù)據(jù)庫14.免疫學數(shù)據(jù)庫12/4/2024二、核酸數(shù)據(jù)庫1、國際三大核酸數(shù)據(jù)庫數(shù)據(jù)庫(Database)網(wǎng)址(Address)GenBank/genbankEMBLwww.ebi.ac.uk/emblDDBJwww.ddbj.nig.ac.jp/index-e.html12/4/2024GenBank:由美國國家生物技術信息中心(NationalCenterforBiotechnologyInformation,NCBI)建立。該中心隸屬于美國國家醫(yī)學圖書館,位于美國國家衛(wèi)生研究院(NIH)內(nèi)。EMBL:歐洲分子生物學實驗室(EuropeanMolecularBiologyLaboratory,其下有EuropeanBioinformaticsCentre),主要位于英國劍橋Cambridge和德國漢堡Hamburg。DDBJ:日本DNA數(shù)據(jù)庫(DNADataBankofJapan),由theNationalInstituteofGenetics,NIG主管。12/4/2024這3個大型數(shù)據(jù)庫于1988年達成協(xié)議,組成合作聯(lián)合體。它們每天交換信息,并對數(shù)據(jù)庫DNA序列記錄的統(tǒng)一標準達成一致。每個機構負責收集來自不同地理分布的數(shù)據(jù)(EMBL負責歐洲,GenBank負責美洲,DDBJ負責亞洲等),然后來自各地的所有信息匯總在一起,3個數(shù)據(jù)庫的數(shù)據(jù)共享并向世界開放,故這3個數(shù)據(jù)庫又被稱為公共序列數(shù)據(jù)庫(PublicSequenceDatabase)。所以從理論上說,這3個數(shù)據(jù)庫所擁有的DNA序列數(shù)據(jù)是完全相同的。你可以從中選擇一個你喜歡的數(shù)據(jù)庫;但是如果你的研究需要實時(24小時以內(nèi))的,則要注意這些數(shù)據(jù)庫間的記錄是會有差異的。12/4/2024北京大學生物信息學中心(CentreofBioinformatics,PekingUniversity):北京華大基因研究中心(中國科學院北京基因組研究所):/bgi_new/index.htm清華大學生物系生物信息研究室:中國科學院上海生命科學研究院生物信息中心:2、我國主要生物信息學機構12/4/2024三、基因組數(shù)據(jù)庫如:大腸桿菌基因組ECDC、酵母菌基因組CYGD、線蟲基因組AceDB、果蠅基因組FlyBase、老鼠基因組MGD、人類基因組GDB、擬南芥TAIR(AtDB)數(shù)據(jù)庫和水稻基因組RGP等。部分生物基因組計劃網(wǎng)址如下:12/4/2024大腸桿菌EColi——ECDC數(shù)據(jù)庫http://www.uni-giessen.de/~gx1052/ECDC/ecdc.htm酵母菌Yeast——CYGD數(shù)據(jù)庫
http://mips.gsf.de/genre/proj/yeast/index.jsp線蟲Caenorhabditiselegans
——AceDB數(shù)據(jù)庫/genome.shtml果蠅Drosophila
——FlyBase數(shù)據(jù)庫/
老鼠Mouse——MGD數(shù)據(jù)庫/genome/guide/mouse12/4/2024目前完成全基因組測序工作的物種有很多,并在隨時更新(update).可以進入ncbi的基因組計劃二次數(shù)據(jù)庫查看,其網(wǎng)址:/Genomes12/4/2024四、數(shù)據(jù)庫格式
歷史原因:沒有完全統(tǒng)一的數(shù)據(jù)庫格式了解所用數(shù)據(jù)庫格式的重要性一般由兩部分組成:
文字注釋序列12/4/2024FASTA序列格式包括三個部分:(1)在注釋行的第一行用字符“>”標識,后面是序列的名字和來源(2)標準的單字符表示序列(3)可選的“*”表示序列的結束,它可能出現(xiàn)也可能不出現(xiàn),但它是許多序列分析程序正確讀取序列所必須的。FASTA格式是序列分析軟件最常用的格式。這種格式提供了從一個窗口到另一個窗口非常方便的拷貝途徑,因為序列中沒有數(shù)字或其他非字符。FASTA序列格式和蛋白質(zhì)信息資源NBRF格式很相似。1、FASTA序列格式(Person格式)12/4/2024說明3點:序列文件的第一行是由大于符號(>)打頭的任意文字說明,主要為標記序列用。從第二行開始是序列本身,標準核苷酸符號或氨基酸單字母符號。通常核苷酸符號大小寫均可,而氨基酸一般用大寫字母。文件中和每一行都不要超過80個字符(通常60個字符)。12/4/2024核酸序列氨基酸序列12/4/2024組成序列信息字符串的符號必須為標準的國際生物化學聯(lián)合會
(IUB)/國際純粹與應用化學聯(lián)合會(IUPAC)氨基酸或核苷酸的符號符號的大小寫同義,單個“連字符”表示一個空位不清楚的核苷酸殘基用N表示,不確定的氨基酸殘基用X表示標題行的名稱是用戶自定義的,可以是漢字,也可以是英文注意12/4/20242.序列詳細注釋的GenBank格式GBFF(GenBank
flatfile,GenBank
平面文件)格式GenBank數(shù)據(jù)庫的基本信息單位,是最為廣泛使用的生物信息學序列格式之一。12/4/2024GenBank格式GenBank格式:
每個條目都是一份純文本文件。每行左端或為空格或為識別字,識別字均為完整英文字,不用縮寫。
GenBank條目,使用一大批與EMBL和DDBJ數(shù)據(jù)庫統(tǒng)一的關鍵字。格式可以分成3個部分:1)頭部包含關于整個序列的信息(描述字符),從LOCUS行到ORIGIN行;2)注釋這一序列的特性(FeatureTable),為注釋的核心部分;3)序列本身(Sequence)。
注:所有的核苷酸數(shù)據(jù)庫記錄(EMBL/GenBank/DDBJ)都在最后一行以//結尾。12/4/2024一個簡單的GenBank記錄LOCUSAF0620693808bpmRNAINV02-MAR-2000DEFINITIONLimuluspolyphemusmyosinIIImRNA,completecds.ACCESSIONAF062069VERSIONAF062069.2GI:7144484KEYWORDS.SOURCEAtlantichorseshoecrab.ORGANISMLimuluspolyphemus
Eukaryota;Metazoa;Arthropoda;Chelicerata;Merostomata;
Xiphosura;Limulidae;Limulus.REFERENCE1(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,
Greenberg,R.M.andSmith,W.C.TITLEAmyosinIIIfromLimuluseyesisaclock-regulatedphosphoproteinJOURNALJ.Neurosci.(1998)InpressREFERENCE2(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,
Greenberg,R.M.andSmith,W.C.TITLEDirectSubmissionJOURNALSubmitted(29-APR-1998)WhitneyLaboratory,UniversityofFlorida,9505OceanShoreBlvd.,St.Augustine,FL32086,USAREFERENCE3(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,
Greenberg,R.M.andSmith,W.C.TITLEDirectSubmissionJOURNALSubmitted(02-MAR-2000)WhitneyLaboratory,UniversityofFlorida,9505OceanShoreBlvd.,St.Augustine,FL32086,USAREMARKSequenceupdatebysubmitterCOMMENTOnMar2,2000thissequenceversionreplacedgi:3132700.12/4/2024FEATURESLocation/Qualifierssource1..3808/organism="Limuluspolyphemus"/db_xref="taxon:6850"/tissue_type="lateraleye"CDS258..3302/note="N-terminalproteinkinasedomain;C-terminalmyosinheavychainhead;substrateforPKA"/codon_start=1/product="myosinIII"/protein_id="AAC16332.2"/db_xref="GI:7144485"/translation="MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKQA NKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWLGI EFLEEGTAADLLATHRRFGIHLKEDLIALIIKEVVRAVQYLHENSIIHRDIRAANIMF SKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNYTCDVWSIG ITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYR PCIQEIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQ
BASECOUNT1201a689c782g1136tORIGIN1tcgacatctg
tggtcgcttt
ttttagtaat
aaaaaattgt
attatgacgt
cctatctgtt
3781aagatacagt
aactagggaa
aaaaaaaa//GenBank記錄(cont.)12/4/2024LOCUSAF0620693808bpmRNAINV02-MAR-2000序列和數(shù)據(jù)庫標識位置,提取號,版本DEFINITIONLimuluspolyphemusmyosinIIImRNA,completecds.GBDivisionLocus名字簡單描述(標題)修改日期序列類型mRNA(=cDNA)rRNAsnRNADNA序列長度VERSIONAF062069.2GI:7144484ACCESSIONAF062069提取號Accession.versionginumber12/4/2024關鍵字,生物體來源KEYWORDS.SOURCEAtlantichorseshoecrab.ORGANISMLimuluspolyphemus
Eukaryota;Metazoa;Arthropoda;Chelicerata;
Merostomata;Xiphosura;Limulidae;Limulus.序列來源的物種名序列來源的物種學名和分類學位置可更新的序列版本號12/4/2024REFERENCE1(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,
Greenberg,R.M.andSmith,W.C.TITLEAmyosinIIIfromLimuluseyesisaclock-regulatedphosphoproteinJOURNALJ.Neurosci.(1998)InpressREFERENCE2(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,
Greenberg,R.M.andSmith,W.C.TITLEDirectSubmissionJOURNALSubmitted(29-APR-1998)WhitneyLaboratory,UniversityofFlorida,9505OceanShoreBlvd.,St.Augustine,FL32086,USAREFERENCE3(bases1to3808)AUTHORSBattelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,
Greenberg,R.M.andSmith,W.C.TITLEDirectSubmissionJOURNALSubmitted(02-MAR-2000)WhitneyLaboratory,UniversityofFlorida,9505OceanShoreBlvd.,St.Augustine,FL32086,USAREMARKSequenceupdatebysubmitterCOMMENTOnMar2,2000thissequenceversionreplacedgi:3132700.引用以前版本號相關文獻編號,或遞交序列的注冊信息相關文獻作者,或遞交序列的作者相關文獻題目引文出處相關文獻刊物雜志名,或遞交序列的作者單位相關文獻注釋評注12/4/2024FEATURESLocation/Qualifierssource1..3808/organism="Limuluspolyphemus"/db_xref="taxon:6850"/tissue_type="lateraleye"CDS258..3302/note="N-terminalproteinkinasedomain;C-terminalmyosinheavychainhead;substrateforPKA"/codon_start=1/product="myosinIII"/protein_id="AAC16332.2"/db_xref="GI:7144485"/translation="MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKNKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWL"特性表編碼序列Biosource閱讀框GenPeptProteinIdentifiers12/4/2024BASECOUNT1201a689c782g1136tORIGIN
1tcgacatctg
tggtcgcttt
ttttagtaat
aaaaaattgt
attatgacgt
cctatctgtt<sequenceomitted>
3721accaatgtta
taatatgaaa
tgaaataaag
cagtcatggt
agcagtggct
gtttgaaata3781aagatacagt
aactagggaa
aaaaaaaa//Sequence記錄結束標記指示序列數(shù)據(jù)的起始GenBank堿基數(shù)目12/4/20243.序列詳細注釋的EMBL格式除了GenBank對序列的信息詳細標注外,EMBL數(shù)據(jù)庫對序列的信息標注與GenBank類似,只是字符的標識符是兩個字母的簡寫。12/4/2024數(shù)據(jù)庫記錄注釋代碼和內(nèi)容說明
EMBL識別標志
GenBank識別字
意義IDLOCUS序列名稱DEDEFINITION序列簡單說明ACACCESSION唯一的提取號OSSOURCE序列來源的物種名OCORGANISM序列來源的物種學名和分類學位置DT建立日期
KWKEYWORDS與序列相關的關鍵詞RNREFERENCE相關文獻編號,或遞交序列的注冊信息RAAUTHORS相關文獻作者,或遞交序列的作者RTTITLE相關文獻題目RLJOURNAL引文出處相關文獻刊物雜志名,或遞交序列的作者單位RXMEDLINE相關文獻Medline引文代碼RP相關文獻其它注釋12/4/2024數(shù)據(jù)庫記錄注釋代碼和內(nèi)容說明(cont.)EMBL識別標志
GenBank識別字
意義RCREMARK相關文獻注釋DR相關數(shù)據(jù)庫交叉引用號XX為閱讀清晰而加的空行
CCCOMMENT評注
NIVERSION可更新的序列版本號
FHFEATURES序列特征表起始FTFEATURES特性表
SQEMBL序列開始標志,后隨長度、字母數(shù)
BASECOUNTGenBank堿基數(shù)目
ORIGINGenBank序列開始標志,該行空
////序列結束標志,空行
12/4/2024§2.2序列數(shù)據(jù)庫檢索12/4/2024一二級數(shù)據(jù)庫數(shù)量的增加,按不同需求組織信息的各類數(shù)據(jù)庫的出現(xiàn)不同數(shù)據(jù)庫的信息整合、檢索查詢系統(tǒng)(baidu,Google)EntrezSRS12/4/2024Entrez用途檢索大分子生物學數(shù)據(jù)獲取GenBank,EMBL等數(shù)據(jù)庫的核酸序列;獲取Swiss-port,PIR,PRF,PDB等蛋白質(zhì)序列;從核酸序列翻譯到蛋白質(zhì)的序列;獲取基因和染色體圖譜;蛋白質(zhì)三維結構數(shù)據(jù)及大分子模式(MMDB)等其他生物信息數(shù)據(jù)庫檢索。PubMed書目文獻數(shù)據(jù)。12/4/2024NCBI:
http://12/4/2024
GenBank數(shù)據(jù)庫是由美國國立生物技術信息中心(NCBI)維護的一級核酸序列數(shù)據(jù)庫。GenBank數(shù)據(jù)庫的數(shù)據(jù)來源有三種:1、直接來源于測序工作者提交的序列;2、與其它數(shù)據(jù)機構協(xié)作交換的數(shù)據(jù);3、美國專利局提供的專利數(shù)據(jù)。簡介12/4/2024檢索界面簡介1、基本檢索界面12/4/202412/4/2024檢索界面簡介1、基本檢索界面2、跨庫檢索界面12/4/202412/4/202412/4/2024簡介檢索界面基本檢索功能(一)字段限制檢索、強制短語檢索(二)特殊標志符檢索(四)范圍檢索(三)序列長度檢索12/4/2024簡介檢索界面基本檢索功能(一)字段限制檢索、強制短語檢索12/4/202412/4/2024
ras12/4/202412/4/2024ras[GENE]12/4/202412/4/202412/4/2024檢索限定詞:1、基因名稱的檢索限定詞:[GENE]or[GENENAME]2、生物體名稱的檢索限定詞:[ORGN]or[ORGANISM]3、作者姓名的檢索限定詞:[AUTH]or[AUTHOR]12/4/2024簡介檢索界面基本檢索功能(二)特殊標志符檢索(一)字段限制檢索、強制短語檢索12/4/2024特殊標志符的格式(核酸序列)
:1、序列辨認號(GI):一串阿拉伯數(shù)字
e.g.:1944073312/4/202412/4/2024特殊標志符的格式(核酸序列)
:2、GenBank/EMBL/DDBJ序列接受號:
(1)1個字母+5個阿拉伯數(shù)字
e.g.:U12345
(2)2個字母+6個阿拉伯數(shù)字
e.g.:AY123456,Af1234561、序列辨認號(GI):一串阿拉伯數(shù)字
e.g.:1944073312/4/202412/4/2024(1)mRNA記錄(NM_*):
e.g.:NM_000492(2)基因組的DNA重疊群(NT_*):
e.g.:NT_000347(3)完整的基因組或染色體(NC_*):
e.g.:NC_0
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年物業(yè)綠化管理外包合同
- 起床了小班主題教案
- 廣告招商合同范本
- 寄宿制工作計劃3篇
- 世說新語讀書筆記范文800字左右
- 勵志題目演講稿300字10篇
- 創(chuàng)新網(wǎng)站建設方案5篇
- 《冬天》中班教案
- 2024年度工作總結
- 2025年系列活性精脫硫劑合作協(xié)議書
- 語言學綱要(學習指導修訂版)
- (2024年)常見傳染病診斷國家標準培訓(完整版)
- 2023老年大學教師職責及選聘管理辦法
- 標準普爾家庭資產(chǎn)象限圖講解(四大賬戶)通用課件
- 干部基本信息審核認定表
- 民間文學概論課件
- 響應面分析軟件DesignExpert使用教程
- 2023-2024學年廣東省深圳市重點中學高考適應性考試歷史試卷含解析
- 麻醉藥品管理培訓課件
- 中建履約過程風險發(fā)函時點提示及函件指引(2023年)
- 不銹鋼管理制度
評論
0/150
提交評論