版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
核酸、蛋白質(zhì)在線數(shù)據(jù)庫資源俞海
Chapter
1Introduction
of
Database生物信息學(xué)自誕生之日起,計(jì)算機(jī)似乎就注定要成為其核心工具。飛速發(fā)展的電子計(jì)算機(jī)技術(shù)仍然趕不上生物學(xué)科海量信息的快速積累的腳步,光計(jì)算機(jī),量子計(jì)算機(jī)和生物計(jì)算機(jī)學(xué)科成為計(jì)算機(jī)技術(shù)新的發(fā)展方向。互聯(lián)網(wǎng)匯總著人類的文明,并成為人們生活的主題。計(jì)算機(jī)幾乎應(yīng)用在所有學(xué)科上,尤其是研究生物大分子的分子生物學(xué)和以量化生物為目的的生物信息學(xué)。計(jì)算機(jī)硬件計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)環(huán)境數(shù)據(jù)庫技術(shù)計(jì)算機(jī)語言生物信息學(xué)中的計(jì)算機(jī)知識CPU:體系架構(gòu)、主頻、摩爾定律、多線程、多核心…內(nèi)存:容量、運(yùn)行頻率、多通道…顯卡:運(yùn)行頻率、位寬、架構(gòu)、功率…內(nèi)置存儲(硬盤):介質(zhì)、容量、接口…外置存儲:軟盤、光盤、優(yōu)盤、藍(lán)光光盤計(jì)算機(jī)硬件的發(fā)展國際互聯(lián)網(wǎng)域名系統(tǒng)(gov,edu,org,com…)TCP/IP協(xié)議HTTP、FTP、Pop3、SMTP、IMAP和BitTorrentTelnet和SSH計(jì)算機(jī)網(wǎng)絡(luò)大型機(jī),中型機(jī),小型機(jī)和微機(jī)。Server,Workstation,PC,Laptop,mobileUNIX操作系統(tǒng)以其穩(wěn)定的計(jì)算環(huán)境和良好的多用戶支持成為企業(yè)內(nèi)部和研究所采用的平臺;MacOS/iOS:早期的Macintosh機(jī)由于具有優(yōu)良的圖像支持能力的圖形界面環(huán)境而廣泛應(yīng)用于圖形計(jì)算等領(lǐng)域;Windows95/98/NT/2000/XP/Vista/7/8:Microsoft的Windows操作系統(tǒng)成為PC上的主流操作系統(tǒng);Linux:源代碼開放的完全免費(fèi)的UNIX兼容系統(tǒng),在生物信息學(xué)分析已經(jīng)顯示出巨大的生命力,并成為發(fā)展的趨勢。從事生物信息學(xué)分析的用戶一般會(huì)同時(shí)安裝Linux和Windows系統(tǒng)以滿足更深入的分析任務(wù),Linux具有很好的兼容性。Android:基于Linux深度開發(fā)的操作系統(tǒng)(Google),最初目的用于支持手機(jī)等移動(dòng)設(shè)備,逐漸擴(kuò)展到平板電腦、電視、數(shù)碼相機(jī)和游戲機(jī)等設(shè)備。2012年占據(jù)了全球智能手機(jī)操作系統(tǒng)市場76%的份額。平臺開發(fā)的開放性是Android的首要優(yōu)勢,開發(fā)者和用戶迅速增加。計(jì)算機(jī)系統(tǒng)環(huán)境數(shù)據(jù)庫技術(shù)數(shù)據(jù)庫(DataBase,DB)是一個(gè)按數(shù)據(jù)結(jié)構(gòu)來存儲和管理數(shù)據(jù)的計(jì)算機(jī)軟件系統(tǒng)。數(shù)據(jù)庫方法與文件方法相比,具有以下兩個(gè)特征。1)數(shù)據(jù)庫中的數(shù)據(jù)具有數(shù)據(jù)整體性。2)數(shù)據(jù)庫中的數(shù)據(jù)具有數(shù)據(jù)共享性。①不同的用戶可以按各自的用法使用數(shù)據(jù)庫中的數(shù)據(jù)。②多個(gè)用戶可以同時(shí)共享數(shù)據(jù)庫中的數(shù)據(jù)資源。一個(gè)數(shù)據(jù)庫系統(tǒng)應(yīng)由計(jì)算機(jī)硬件、數(shù)據(jù)庫、數(shù)據(jù)庫管理系統(tǒng)、數(shù)據(jù)庫應(yīng)用系統(tǒng)和數(shù)據(jù)庫管理員五部分構(gòu)成。數(shù)據(jù)庫的發(fā)展:第一代的網(wǎng)狀、層次數(shù)據(jù)庫系統(tǒng);第二代的關(guān)系數(shù)據(jù)庫系統(tǒng);第三代的以面向?qū)ο竽P蜑橹饕卣鞯臄?shù)據(jù)庫系統(tǒng)。第三代數(shù)據(jù)庫支持多種數(shù)據(jù)模型(比如關(guān)系模型和面向?qū)ο蟮哪P停?,并和諸多新技術(shù)相結(jié)合(比如分布處理技術(shù)、并行計(jì)算技術(shù)、人工智能技術(shù)、多媒體技術(shù)、模糊技術(shù)),廣泛應(yīng)用于多個(gè)領(lǐng)域(商業(yè)管理、GIS、計(jì)劃統(tǒng)計(jì)等),由此也衍生出多種新的數(shù)據(jù)庫技術(shù)。e.g.學(xué)籍信息、庫房管理、電子商務(wù)…數(shù)據(jù)庫的基本概念-SQL簡介SQL是關(guān)系數(shù)據(jù)庫的標(biāo)準(zhǔn)語言,對關(guān)系模型的發(fā)展和商用DBMS的研制起著重要的作用。SQL語言是介乎于關(guān)系代數(shù)和元組演算之間的一種語言。SQL語言:即結(jié)構(gòu)化查詢語言,是基于關(guān)系代數(shù)運(yùn)算的一種關(guān)系數(shù)據(jù)查詢語言。(SELECT*FROMSequenceTableWHEREvirustype=‘HBV’)SQL語言的特點(diǎn):⑴SQL是一種通用的、功能較強(qiáng)的數(shù)據(jù)庫語言;⑵面向集合的操作方式;⑶SQL具有兩種使用方式,一種是自含語言,另一種是宿主語言;⑷SQL語言簡潔、易學(xué)。計(jì)算機(jī)語言機(jī)器語言匯編語言高級語言C,C++,C#,VB.Net,Pascal,JAVAPython,PerlObject-C…Composition
ofBiological
Database數(shù)據(jù)庫記錄通常包括兩部分:原始數(shù)據(jù)對這些數(shù)據(jù)進(jìn)行的生物學(xué)意義的注釋通常情況下,一個(gè)數(shù)據(jù)庫常關(guān)聯(lián)許多數(shù)據(jù)庫。Database一級數(shù)據(jù)庫數(shù)據(jù)庫中的數(shù)據(jù)直接來源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類整理和注釋。二級數(shù)據(jù)庫對原始生物分子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果,是在一級數(shù)據(jù)庫、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對特定的應(yīng)用目標(biāo)而建立的。Chapter2BiologicalDatabases
The
NAR
online
Molecular
Biology
Database
Collection,
hasbeen
updated
and
currently
lists
1512
online
databases.Biological
Databases生物信息數(shù)據(jù)庫種類繁多,歸納起來大體可以分為4個(gè)大類一.核酸序列數(shù)據(jù)庫二.蛋白質(zhì)序列數(shù)據(jù)庫三.結(jié)構(gòu)數(shù)據(jù)庫四.基因組數(shù)據(jù)庫其他分類一.核酸序列數(shù)據(jù)庫GenBank
(美國國家生物技術(shù)信息中心NCBI)/Genbank/ENA
(歐洲分子生物學(xué)實(shí)驗(yàn)室EMBL
)http://www.ebi.ac.uk/ena/homeDDBJ
(日本國立遺傳研究所)http://www.ddbj.nig.ac.jp/searches-e.html這三個(gè)大型數(shù)據(jù)庫于1982年達(dá)成協(xié)議,組成合作聯(lián)合體。每天交換信息
Accession
number,序列數(shù)據(jù)和注解相同NationalCenterforBiotechnologyInformationNCBI是美國國立衛(wèi)生研究院(NIH)的美國國立醫(yī)學(xué)圖書館(NLM)的一個(gè)分支。1988年國立生物技術(shù)信息中心(NCBI)成立。What
does
NCBI
do?conductsresearchincomputationalbiology,developssoftwaretoolsforanalyzinggenomedata,anddisseminatesbiomedicalinformation-allforthebetterunderstandingofmolecularprocessesaffectinghumanhealthanddisease.NCBI
綜合檢索平臺(Entrez)GenBankGenBank數(shù)據(jù)庫中有部分蛋白質(zhì)序列數(shù)據(jù)每天更新,每年發(fā)行release)六版GenBank的數(shù)據(jù)來源于約380,000多個(gè)物種,包含了所有已知的核酸序列和蛋白質(zhì)序列,以及與它們相關(guān)的文獻(xiàn)著作和生物學(xué)注釋。GenBank的數(shù)據(jù)完全公開,也接受世界各國實(shí)驗(yàn)室送交的核酸序列數(shù)據(jù)要大批下載GenBank的數(shù)據(jù),可用匿名FTP的方式進(jìn)入:
;要獲取少量數(shù)據(jù),可進(jìn)入NCBI網(wǎng)站,使用EntrezGenBank數(shù)據(jù)來源GenBank數(shù)據(jù)庫的數(shù)據(jù)來源有三種:1、直接來源于測序工作者提交的序列;2、與其它數(shù)據(jù)機(jī)構(gòu)協(xié)作交換的數(shù)據(jù);3、美國專利局提供的專利數(shù)據(jù)。特殊標(biāo)志符的格式
(核酸序列)
Accession
number
(GenBank/EMBL/DDBJ序列接受號)1個(gè)字母+5個(gè)阿拉伯?dāng)?shù)字2個(gè)字母+6個(gè)阿拉伯?dāng)?shù)字其他格式
GI(GenInfo
identifier)一串阿拉伯?dāng)?shù)字
RefSeq(Reference
Sequence)序列接受號:mRNA記錄(NM_*):NM_000492基因組DNA重疊群(NT_*):
NT_000347完整的基因組或染色體(NC_*):
NC_000907基因組的局部區(qū)域(NG_*):
NG_000019從人類基因組序列注釋、加工得到的序列模型記錄(XM,XP,orXR_*):XM_000483
AF392820Case
Study若檢索與細(xì)胞凋亡有關(guān)的自噬基因“autophagy”的核酸序列進(jìn)入NCBI主頁Search“autophagy”for“Nucleotide”
點(diǎn)擊“go”開始查詢Search
results:輔助功能
各種輔助功能:包括限定查詢范圍(Limits)、保存查詢結(jié)果(Save
search)、高級查詢(Advanced
search)和幫助(Help)等,以提高查詢效率。
點(diǎn)擊”Limits”按鈕,可以將輸入的關(guān)鍵詞的查詢范圍限制在某個(gè)范圍內(nèi),如分子類型、數(shù)據(jù)庫來源、提交日期等。
Limited
to:Gene
Location搜索結(jié)果減少為8912GenBank
FlatfileGenBank
flatfile(GBFF):GenBank數(shù)據(jù)庫的基本信息單位,也是最廣泛地用以表示生物序列的格式之一。GBFF可以分成三個(gè)部分:?頭部包含關(guān)于整個(gè)記錄的信息(描述符)?第二部分包含了注釋這一記錄的特性?第三部分是核苷酸序列自身。所有的核苷酸數(shù)據(jù)庫記錄(DDBJ/EMBL/GenBank)都在最后一行以//結(jié)尾。NM_001142673字段含義解釋LOCUSIdentifier序列名稱、性質(zhì)描述ACCESSIONAccessionnumber序列接受號DEFINITIONDescription序列定義KEYWORDSKeywords關(guān)鍵詞SOURCEOrganism(species)來源種屬ORGANISMOrganism(classification)來源分類REFERENCEReferencenumber參文條目AUTHORSReferenceauthors參文作者TITLEReferencetitle參文題目JOURNALReferencelocation參文出處COMMENTSDatabasecross-reference交叉索引MEDLINEMedlinenumberMEDLINE號FEATURESFeaturetableheaderdata序列性質(zhì)表頭數(shù)據(jù)BASECOUNT堿基數(shù)目ORIGIN序列開始標(biāo)志//Terminationline序列終止標(biāo)志GenBank的主要字段及其含義常見的序列文件格式-Staden一個(gè)Staden格式的序列文件僅僅含有序列本身,用單字母表示核苷酸或氨基酸,每行60個(gè)字母。大多數(shù)程序都識別這個(gè)基本的格式。但是Staden格式的文件中不包含任何與序列有關(guān)的信息,信息必須通過一個(gè)鏈接保留在另外一個(gè)獨(dú)立的文件在中。常見的序列文件格式-GCGGCG格式中序列有關(guān)的信息放在序列正文前,用兩個(gè)點(diǎn)表示序列正文的開始。GCG文件格式中有一個(gè)被稱為checksum(checknumber)的數(shù)值(按一定的算法計(jì)算)。該值由序列的組成和長度計(jì)算而來,以用來檢測GCG文件是否受損。因?yàn)楫?dāng)GCG序列被送入程序前,程序重新計(jì)算這個(gè)數(shù)值,并與文件中的check值比較,如果不符,序列被認(rèn)為受損,程序?qū)⒕芙^執(zhí)行。因此編輯序列時(shí),應(yīng)該用相關(guān)的序列編輯軟件,因?yàn)樗梢员WC序列的完整性。常見的序列文件格式-FASTA標(biāo)準(zhǔn)的FASTA文件格式,是以“>”開頭的一行注釋行,第二行起為序列行,每序列行含核苷酸殘基數(shù)(nt)為50或60個(gè)。而FASTA文件(*.fas)基本上是各個(gè)生物信息學(xué)軟件均認(rèn)可的通用格式,包括向GenBank數(shù)據(jù)庫注冊序列。無特殊說明,本文所述的“文件”均指核酸序列文件。>Protein1MRPRPILLLLLMFLPMLPAPPPGQPSGRRRGRRSGGSGGGFWGDRADSQPFAIPYIHPTNEHVIPSERLHYRNQGWRSVETSGVAEEEATSGLVMLCIHGSLVNSYTNTPYTGALGLLDF常見的序列文件格式-PRI/NBRF該文件格式有兩行注釋,第一行仍然以“>”開頭。序列正文結(jié)束時(shí)以“*”結(jié)尾。常見的序列文件格式-GenBank除GCG和Staden文件格式外,F(xiàn)asta、PIR、GenBank格式可以在一個(gè)文件中保留多個(gè)序列。常見的序列文件格式-DNAStarCreated:2004年6月9日21:31^^ATGATAGCGCTTACCCTGTTTAACCTTGCTGACACCCTGCTAGGCGGTCTACCCACAGAATTGATTTCGTCGGAGGTGGACAGCTGTTCTACTCTCGTCCCGTTGTCTCGGCCAATGGCGAGCCGACTGTTAAGCTTTATACA2.
EMBL(European
Molecular
Biology
Laboratory)EBI
(European
Bioinformatics
Institute)管理主要是歐洲國家產(chǎn)生的DNA和RNA序列序列數(shù)據(jù)文檔格式與GenBank不同3.
DDBJ(DNA
Data
Bank
of
Japan)主要是日本產(chǎn)生的DNA和RNA序列發(fā)表文章要提供Accession
number上機(jī)操作登錄NCBI網(wǎng)站登錄EMBL網(wǎng)站登錄DDBJ網(wǎng)站按ID查找:AF111847按關(guān)鍵字查找:hepatitisbvirus打開GenBank格式的核酸(蛋白)數(shù)據(jù)頁面打開EMBL格式的核酸(蛋白)數(shù)據(jù)頁面下載FASTA格式的序列文件上機(jī)操作篩選:查找人的表皮生長因子的全長序列高級查詢:查找今年以來新報(bào)道的HBV(乙肝病毒)全基因組序列(((("2013/1/1"[PublicationDate]:"3000"[PublicationDate]))ANDhepatitisbvirus[Title])ANDcompletegenome[Title])Search(((
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年首期款全付房產(chǎn)買賣合同書3篇
- 二零二五版?zhèn)€人信用重建借款委托擔(dān)保合同3篇
- 二零二五版包裝行業(yè)綠色認(rèn)證與推廣合同3篇
- 二零二五年陵園墓地購置與家族紀(jì)念館建設(shè)合同3篇
- 二零二五版知識產(chǎn)權(quán)保護(hù)技術(shù)服務(wù)合同泄密責(zé)任細(xì)則3篇
- 二零二五年度餐飲企業(yè)食品安全追溯平臺建設(shè)合同3篇
- 二零二五年度食品供應(yīng)與餐飲服務(wù)合同2篇
- 二零二五年防火門制造與施工安裝一體化合同模板3篇
- 2025年度影視基地場地租賃及拍攝制作合同范本3篇
- 2025年復(fù)合材料堆放場地租賃及環(huán)保處理合同3篇
- 建筑材料供應(yīng)鏈管理服務(wù)合同
- 孩子改名字父母一方委托書
- 2024-2025學(xué)年人教版初中物理九年級全一冊《電與磁》單元測試卷(原卷版)
- 江蘇單招英語考綱詞匯
- 礦山隱蔽致災(zāi)普查治理報(bào)告
- 2024年事業(yè)單位財(cái)務(wù)工作計(jì)劃例文(6篇)
- 2024年工程咨詢服務(wù)承諾書
- 青桔單車保險(xiǎn)合同條例
- 車輛使用不過戶免責(zé)協(xié)議書范文范本
- 《獅子王》電影賞析
- 2023-2024學(xué)年天津市部分區(qū)九年級(上)期末物理試卷
評論
0/150
提交評論