




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第二章:序列的采集和存儲(chǔ)第二章:序列的采集和存儲(chǔ)DNA:Deoxyribonucleic acid,脫氧核糖核酸;,脫氧核糖核酸;RNA:RiboNucleic Acid,核糖核酸;,核糖核酸;r1. DNA測(cè)序測(cè)序r2. 序列數(shù)據(jù)的存儲(chǔ)序列數(shù)據(jù)的存儲(chǔ)核酸序列數(shù)據(jù)庫(kù)核酸序列數(shù)據(jù)庫(kù)蛋白質(zhì)序列數(shù)據(jù)庫(kù)蛋白質(zhì)序列數(shù)據(jù)庫(kù)基因組數(shù)據(jù)庫(kù)基因組數(shù)據(jù)庫(kù)r3. 序列數(shù)據(jù)的文件格式序列數(shù)據(jù)的文件格式rDNA一次連續(xù)測(cè)序的長(zhǎng)度約為一次連續(xù)測(cè)序的長(zhǎng)度約為500bp;rEST (Expressed sequence tag) 測(cè)序:細(xì)測(cè)序:細(xì)胞中胞中mRNA反轉(zhuǎn)錄成反轉(zhuǎn)錄成cDNA,方向不定測(cè)序,方向不定測(cè)序;rGSS
2、(Genome Survey Sequences,基因,基因組勘測(cè)序列組勘測(cè)序列):類(lèi)似于:類(lèi)似于ESTs,來(lái)源基因組,來(lái)源基因組;rHTG (High-throughput genome sequences,高通量基因組序列,高通量基因組序列):高通量、:高通量、尚未完工的尚未完工的DNA序列序列;CATddGTPddTTPddATP(D)r1. 基因圖譜法:基因圖譜法:DNA片段在染色體上的位片段在染色體上的位置、方向已知。首先染色體被打斷成置、方向已知。首先染色體被打斷成150200kbp左右的大片段,然后克隆到左右的大片段,然后克隆到BACs (Bacterial Artificial
3、 Chromosome)中,再進(jìn)一步隨機(jī)打斷,克隆,測(cè)序,依中,再進(jìn)一步隨機(jī)打斷,克隆,測(cè)序,依靠計(jì)算機(jī)組裝成長(zhǎng)的序列靠計(jì)算機(jī)組裝成長(zhǎng)的序列(contig) 。r2. “鳥(niǎo)槍法鳥(niǎo)槍法”(shotgun):):DNA片段在染片段在染色體上的位置和方向未知。全基因組隨機(jī)色體上的位置和方向未知。全基因組隨機(jī)打斷成小片段,克隆,雙向測(cè)序,計(jì)算機(jī)打斷成小片段,克隆,雙向測(cè)序,計(jì)算機(jī)組裝成長(zhǎng)的序列。組裝成長(zhǎng)的序列。r 基因組圖譜:遺傳圖譜,物理圖譜基因組圖譜:遺傳圖譜,物理圖譜r 遺傳圖譜遺傳圖譜(genetic map):連鎖圖譜,顯示:連鎖圖譜,顯示所知的基因和所知的基因和/或遺傳標(biāo)記的相對(duì)距離位置或
4、遺傳標(biāo)記的相對(duì)距離位置與次序。與次序。r物理圖譜物理圖譜(physical map):表示某些基因和表示某些基因和/或遺傳標(biāo)記之間在基因組上的精確位置和距或遺傳標(biāo)記之間在基因組上的精確位置和距離(如間隔的離(如間隔的bp數(shù)目)的圖譜。數(shù)目)的圖譜。r核酸序列數(shù)據(jù)庫(kù)核酸序列數(shù)據(jù)庫(kù)國(guó)際三大核酸序列數(shù)據(jù)庫(kù):國(guó)際三大核酸序列數(shù)據(jù)庫(kù):GenBank, EBML, DDBJRefSeq: The Reference Sequence DatabasedbEST: Expressed Sequences Tags數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)UniGene等等r蛋白質(zhì)序列數(shù)據(jù)庫(kù)蛋白質(zhì)序列數(shù)據(jù)庫(kù)UniProtSwiss-pro
5、t & TrEMBL, PIRr基因組數(shù)據(jù)庫(kù)基因組數(shù)據(jù)庫(kù): Ensemblr由美國(guó)國(guó)立衛(wèi)生研究院由美國(guó)國(guó)立衛(wèi)生研究院NIH下屬?lài)?guó)立生物技下屬?lài)?guó)立生物技術(shù)信息中心術(shù)信息中心NCBI建立。建立。r匯集并注釋了所有公開(kāi)的核酸以及蛋白質(zhì)序匯集并注釋了所有公開(kāi)的核酸以及蛋白質(zhì)序列。每個(gè)記錄代表了一個(gè)單獨(dú)的、連續(xù)的、列。每個(gè)記錄代表了一個(gè)單獨(dú)的、連續(xù)的、帶有注釋的帶有注釋的DNA或或RNA片段。片段。161.0版,2007r EMBL-EBI (European Bioinformatics Institute)維護(hù)維護(hù);r http:/www.ebi.ac.uk/embl/r NIG (Nati
6、onal Institute of Genetics)r CIB (Center for Information Biology)r http:/www.ddbj.nig.ac.jp/index-e.htmlr1998年,年,GenBank、EMBL和和DDBJ共同成共同成立了國(guó)際核酸序列數(shù)據(jù)庫(kù)協(xié)會(huì)立了國(guó)際核酸序列數(shù)據(jù)庫(kù)協(xié)會(huì) (International Nucleotide Sequence Database Collaboration,INSDC)r三大核酸數(shù)據(jù)庫(kù)之間每天將新測(cè)定或更新的三大核酸數(shù)據(jù)庫(kù)之間每天將新測(cè)定或更新的數(shù)據(jù)進(jìn)行交換共享,保證數(shù)據(jù)信息的完整與數(shù)據(jù)進(jìn)行交換共享,保證數(shù)據(jù)信
7、息的完整與同步,每?jī)蓚€(gè)月更新一次版本。同步,每?jī)蓚€(gè)月更新一次版本。r/r1. 提供非冗余的,高質(zhì)量的,經(jīng)檢驗(yàn)校正的提供非冗余的,高質(zhì)量的,經(jīng)檢驗(yàn)校正的序列信息;序列信息;r2. 包括染色體、基因組(細(xì)胞器、病毒、質(zhì)包括染色體、基因組(細(xì)胞器、病毒、質(zhì)粒)、蛋白質(zhì)、粒)、蛋白質(zhì)、RNA等;等;r 序列文件的標(biāo)識(shí)符:序列文件的標(biāo)識(shí)符:mRNA序列:序列:NM_123456非編碼非編碼RNA:NR_123456蛋白質(zhì)序列:蛋白質(zhì)序列: NP_123456r /RefSeqr截然不同的截然不同的Accession
8、號(hào)區(qū)別于其它號(hào)區(qū)別于其它GenBank命名格式命名格式的序列,前綴是兩個(gè)字的序列,前綴是兩個(gè)字母加下劃線母加下劃線 _;r在在Comment區(qū)域顯示來(lái)源區(qū)域顯示來(lái)源;r使用正式命名使用正式命名;r包括包括dbxrefs的特征的特征;r蛋白序列在蛋白序列在DBSOURCE區(qū)域標(biāo)示區(qū)域標(biāo)示 REFSEQ最多的最多的20個(gè)物種:個(gè)物種:2007.08,總序列45,660,524條/dbEST/為每一個(gè)基因創(chuàng)造一個(gè)唯一的條目,收集這個(gè)基因所有的為每一個(gè)基因創(chuàng)造一個(gè)唯一的條目,收集這個(gè)基因所有的ESTshttp:/www.ncbi.nlm.nih.go
9、v/unigener最早廣泛使用的蛋白數(shù)據(jù)庫(kù);歐洲最主要最早廣泛使用的蛋白數(shù)據(jù)庫(kù);歐洲最主要的蛋白序列數(shù)據(jù)庫(kù);的蛋白序列數(shù)據(jù)庫(kù);http:/www.expasy.ch/sprot/rSIB(Swiss Institute of Bioinformatics)r可由可由ExPASy(Expert Protein Analysis System)系統(tǒng)訪問(wèn);)系統(tǒng)訪問(wèn);r所有序列條目均經(jīng)過(guò)有經(jīng)驗(yàn)的分子生物學(xué)所有序列條目均經(jīng)過(guò)有經(jīng)驗(yàn)的分子生物學(xué)家和蛋白質(zhì)化學(xué)家審核,因此又稱(chēng)為蛋白家和蛋白質(zhì)化學(xué)家審核,因此又稱(chēng)為蛋白質(zhì)專(zhuān)家?guī)?。質(zhì)專(zhuān)家?guī)?。rTrEMBL (Translation of EMBL):計(jì)算機(jī):
10、計(jì)算機(jī)注釋的注釋的Swiss-Prot分支數(shù)據(jù)庫(kù),從分支數(shù)據(jù)庫(kù),從EMBL庫(kù)中的庫(kù)中的cDNA序列翻譯得到的氨基酸序列序列翻譯得到的氨基酸序列數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)。rGenPept:由:由GenBank翻譯得到的蛋白質(zhì)翻譯得到的蛋白質(zhì)序列,與序列,與TrEMBL類(lèi)似,這兩個(gè)數(shù)據(jù)庫(kù)中類(lèi)似,這兩個(gè)數(shù)據(jù)庫(kù)中的序列錯(cuò)誤率較大,均有較大的冗余度。的序列錯(cuò)誤率較大,均有較大的冗余度。r1984年,美國(guó)國(guó)家醫(yī)學(xué)研究基金會(huì)(年,美國(guó)國(guó)家醫(yī)學(xué)研究基金會(huì)(NREF)正式啟動(dòng)蛋白質(zhì)信息資源(正式啟動(dòng)蛋白質(zhì)信息資源(Protein Information Resource, PIR)計(jì)劃;)計(jì)劃;r美國(guó)最主要的蛋白序列數(shù)據(jù)
11、庫(kù)美國(guó)最主要的蛋白序列數(shù)據(jù)庫(kù);r非冗余、高質(zhì)量注釋、全面分類(lèi)非冗余、高質(zhì)量注釋、全面分類(lèi);rPIR數(shù)據(jù)庫(kù)按照數(shù)據(jù)的性質(zhì)和注釋層次分為數(shù)據(jù)庫(kù)按照數(shù)據(jù)的性質(zhì)和注釋層次分為PIR1、PIR2、PIR3和和PIR4。PIR1中的序列中的序列已經(jīng)驗(yàn)證,注釋最為詳盡。已經(jīng)驗(yàn)證,注釋最為詳盡。r/rUniversal Protein Resource: Swiss-prot(TrEMBL), PIR兩大蛋白數(shù)據(jù)庫(kù)兩大蛋白數(shù)據(jù)庫(kù)的整合體;的整合體;r收錄蛋白質(zhì)序列目錄最廣泛、功能注釋最全收錄蛋白質(zhì)序列目錄最廣泛、功能注釋最全面的數(shù)據(jù)庫(kù);面的數(shù)據(jù)庫(kù);r包含三個(gè)子庫(kù)
12、:包含三個(gè)子庫(kù):UniProtKB(UniProt Knowledgebase)UniRef(UniProt Reference Clusters)UniParc(Uniprot Archive)rrUniProt Knowledgebase: Release 15.4 , 16-Jun-2009 ,包括:,包括:Swiss-Prot Release 57.4 : 497293 entries TrEMBL Release 40.4 : 9145906 entries r包含蛋白質(zhì)序列全面的信息,提供準(zhǔn)確、豐包含蛋白質(zhì)序列全面的信息,提供準(zhǔn)確、豐富的序
13、列與功能注釋。富的序列與功能注釋。r記錄以記錄以6位字母和數(shù)字組成,例:位字母和數(shù)字組成,例:Q5K8D3 r為人類(lèi)基因組計(jì)劃為人類(lèi)基因組計(jì)劃(HGP)保存和處理基因組保存和處理基因組圖譜數(shù)據(jù)。圖譜數(shù)據(jù)。rGDB的目標(biāo)是構(gòu)建關(guān)于人類(lèi)基因組的百科的目標(biāo)是構(gòu)建關(guān)于人類(lèi)基因組的百科全書(shū),除了構(gòu)建基因組圖譜之外,還開(kāi)發(fā)了全書(shū),除了構(gòu)建基因組圖譜之外,還開(kāi)發(fā)了描述序列水平的基因組內(nèi)容的方法,包括序描述序列水平的基因組內(nèi)容的方法,包括序列變異和其它對(duì)功能和表型的描述。列變異和其它對(duì)功能和表型的描述。r收集某些生物整個(gè)基因組序列的數(shù)據(jù)庫(kù)收集某些生物整個(gè)基因組序列的數(shù)據(jù)庫(kù);r基因組計(jì)劃基因組計(jì)劃Human G
14、enome Projecthttp:/www.sanger.ac.uk/HGP/Sequencing Genomics Projectshttp:/www.sanger.ac.uk/Projects/ r從從GenBank中選擇同一物種的核酸信息組中選擇同一物種的核酸信息組成的二級(jí)庫(kù)成的二級(jí)庫(kù);The Ensembl project produces genome databases for vertebrates and other eukaryotic species, and makes this information freely available online.EMBL-EBI和和Sanger研究所共同開(kāi)發(fā)。研究所共同開(kāi)發(fā)。/ rDNA/RNA/氨基酸代碼的標(biāo)識(shí)氨基酸代碼的標(biāo)識(shí)rGenBank數(shù)據(jù)格式數(shù)據(jù)格式rEMBL & UniProt數(shù)據(jù)格式數(shù)據(jù)格式rFASTA 數(shù)據(jù)格式數(shù)據(jù)格式子庫(kù)子庫(kù)Locus名字名字定義定義 (標(biāo)題標(biāo)題)修改日期修改日期序列類(lèi)型序列類(lèi)型mRNA (= cDNA)rRNAsnRNADNA序列長(zhǎng)度序列長(zhǎng)度檢索號(hào)檢索號(hào)Genbank號(hào)號(hào)序列形狀序列形狀1I60:A|PDBID|CHAIN|SEQUENCEMKLCFNEATTLENSNLKLDLELCEKHGYDYIEIRTMDKLPEY
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 保健品市場(chǎng)品牌定位考核試卷
- 機(jī)車(chē)車(chē)輛維護(hù)與檢修技術(shù)考核試卷
- 數(shù)字出版物的版權(quán)合作模式考核試卷
- 染整工藝對(duì)麻紡織品抗菌性能的提升考核試卷
- 第1章 美麗家鄉(xiāng)-網(wǎng)站設(shè)計(jì)與制作 第1節(jié) 網(wǎng)站的創(chuàng)建 教學(xué)設(shè)計(jì) 2023-2024學(xué)年河大版(2023)初中信息技術(shù)第二冊(cè)
- 森林防火信息化管理平臺(tái)考核試卷
- 智能農(nóng)業(yè)中的農(nóng)業(yè)區(qū)塊鏈技術(shù)的安全與合規(guī)性考核試卷
- 強(qiáng)化信息反饋機(jī)制的實(shí)施方案計(jì)劃
- 挖掘品牌內(nèi)在價(jià)值的方式計(jì)劃
- 個(gè)人發(fā)展作品集的規(guī)劃計(jì)劃
- 2025年安徽衛(wèi)生健康職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)及參考答案1套
- 《澳大利亞》導(dǎo)學(xué)案
- 2025四川省安全員A證考試題庫(kù)附答案
- 2025年高考語(yǔ)文備考訓(xùn)練之社會(huì)現(xiàn)象:“數(shù)字囤積癥”
- 2025年湖南高速鐵路職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)帶答案
- 蘇教版三年級(jí)科學(xué)下冊(cè)第一單元第3課《植物開(kāi)花了》課件
- 休閑海島開(kāi)發(fā)策劃方案
- DB36-T 2097-2024 固定資產(chǎn)投資項(xiàng)目節(jié)能報(bào)告編制規(guī)范
- 健康與保健課件
- 《運(yùn)營(yíng)管理 第7版》課件全套 馬風(fēng)才 第01-15章 運(yùn)營(yíng)管理概論- 互聯(lián)網(wǎng)運(yùn)營(yíng)
- 課件-DeepSeek從入門(mén)到精通
評(píng)論
0/150
提交評(píng)論