生物信息學(xué)引論P(yáng)PT幻燈片_第1頁
生物信息學(xué)引論P(yáng)PT幻燈片_第2頁
生物信息學(xué)引論P(yáng)PT幻燈片_第3頁
生物信息學(xué)引論P(yáng)PT幻燈片_第4頁
生物信息學(xué)引論P(yáng)PT幻燈片_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

相關(guān)信息關(guān)于教材

關(guān)于教學(xué)“雖然生物信息學(xué)已經(jīng)在國(guó)外得到蓬勃的發(fā)展,但是國(guó)內(nèi)相關(guān)書籍的水平還十分參差不齊,至今仍沒有一本非常翔實(shí)的中文教材?!薄渡镄畔W(xué)與功能基因組學(xué)》中文譯者,2006年本教材(《生物信息學(xué)應(yīng)用技術(shù)》王祿山主編)僅作為教學(xué)參考用書。本課程的教學(xué)參考了“BioinformaticsandFunctionalGenomics”(Wiley,2ndedition2009)及其網(wǎng)絡(luò)教程:Whatyouneedbeforethecourse?AdesktopPCorlaptophookedtotheInternetGoodbackgroundofmolecularbiology

Abilitytoread

andwriteinEnglishAtleastanother6hourstostickontheInternetdoinghomeworkofthecourse

—AppliedBioinformaticsCourse,CBI

授課教師:劉紅美授課時(shí)間:2016年9月緒論:什么是生物信息學(xué)?生物信息學(xué)緒論:什么是生物信息學(xué)?生物信息學(xué)產(chǎn)生的背景生物信息學(xué)的定義生物信息學(xué)研究的主要內(nèi)容緒論:什么是生物信息學(xué)?生物信息學(xué)產(chǎn)生的背景生物信息學(xué)的定義生物信息學(xué)研究的主要內(nèi)容一、生物信息學(xué)產(chǎn)生的背景

大自然這部書是用數(shù)學(xué)文字寫成的(伽利略)數(shù)——科學(xué)的語言

一門成功的科學(xué)對(duì)現(xiàn)象必須有定量的認(rèn)識(shí)近代科學(xué)從根本上是對(duì)自然的數(shù)學(xué)化認(rèn)識(shí)為什么科學(xué)需要數(shù)學(xué)或數(shù)學(xué)化?數(shù)學(xué)是精確的,即數(shù)學(xué)是明確無歧義的,數(shù)學(xué)是描述量的通用語言。

近二十年來生物信息學(xué)的成長(zhǎng)基于一個(gè)簡(jiǎn)單的原因:數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)一、生物信息學(xué)產(chǎn)生的背景

DNARNAphenotypeprotein分子生物學(xué)數(shù)據(jù):主要指核酸和蛋白質(zhì)的序列數(shù)據(jù)以及蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)DNAsequencesarethemothersofallsequences!一、生物信息學(xué)產(chǎn)生的背景隨著人類基因組計(jì)劃的實(shí)施,通過基因組測(cè)序產(chǎn)生了大量的分子生物學(xué)數(shù)據(jù),需要利用計(jì)算機(jī)技術(shù)對(duì)這些原始數(shù)據(jù)進(jìn)行收集、整理、儲(chǔ)存、管理以便于檢索使用。而為了解釋和理解這些數(shù)據(jù),還需要對(duì)數(shù)據(jù)進(jìn)行比較、分析,建立數(shù)學(xué)模型,進(jìn)行仿真、預(yù)測(cè)與驗(yàn)證。生物信息學(xué)應(yīng)運(yùn)而生。一、生物信息學(xué)產(chǎn)生的背景《Science

》雜志在2001年2月16日人類基因組專刊上配發(fā)了一篇題為“生物信息學(xué):努力在數(shù)據(jù)的海洋里暢游”的文章。文章寫道:“我們身處急速上漲的數(shù)據(jù)海洋中……,我們?nèi)绾伪苊馍镄畔⒌臎]頂之災(zāi)呢?”一葉輕舟或許可以救命!生物信息學(xué)便是我們找到的這樣一條“輕舟”。一、生物信息學(xué)產(chǎn)生的背景

截止2009年8月,NCBI的GenBank數(shù)據(jù)庫已收錄了20萬種以上的物種,1億多條序列,總長(zhǎng)度超過1000億個(gè)堿基。以2007年12月到2008年12月的數(shù)據(jù)為例,GenBank數(shù)據(jù)庫平均每天大約增加4200萬個(gè)堿基。信息時(shí)代、網(wǎng)絡(luò)時(shí)代、生物技術(shù)時(shí)代GrowthofGenBankYearBasepairsofDNA(millions)Sequences(millions)198219861990199419982002Mega-(百萬)>360億bps36G硬盤,2002年GrowthofGenBank+WholeGenomeShotgun(1982—November2008)NumberofsequencesinGenBank(millions)BasepairsofDNAinGenBank(billions)BasepairsinGenBank+WGS(billions)0204060801001201401601802001982199220022008Giga-(十億)>1800億bps180G硬盤,2008年Arrivalofnext-generationsequencing:approaching100terabases(100,000gigabases)in2009Tera-(萬億)100萬億bps100T硬盤,2009年GENBANKANDWGSSTATISTICSGenBankWGSReleaseDateBasesSequencesBases3Dec198268033860614Nov19832274029242720May19843002088366524Sep19843323270413525Oct19843368765417526Nov19843689752439332May19854211931495436Sep19855204420570040Feb19865925429664242May19866765476741644Aug19868442357882346Nov19869615371997848Feb1987109613801091350May1987130484731253452Aug1987148551451402053Sep1987155147761458454Dec1987167528721546555Mar1988191560021704756Jun1988207952791822657Sep1988220196981904457.1Oct1988238000002057958Dec1988246908762124859Mar19892638249122479/genbank/statistics180Oct201011855164108612576438417533905912959397637181Dec201012208281271912990227617738529715659608311182Feb201112427781831013201505419003446279762349795183Apr201112655150114113544092419140139318862715288184Jun201112917829295814048226820048707818463735078185Aug201113067123380114228460820831583113264997137186Oct201113206741337214445864821866636805668330215187Dec201113511773137514641379823986830960973729553188Feb201213738488978314981924626137051267578656704189Apr201213926648139815182442127269335154880905298190Jun201214134324075515413021028757736711682076779191Aug201214308176523315642403330819641190584020064192Oct201214543096126215788973733388184645186480509193Dec201214839086390416114032535600292283892767765194Feb2013150141354858162886727390900990416103101291195Apr2013151178979155164136731418026593606110509314196Jun2013152599230112165740164453829752320112488036197Aug2013154192921011167295840500420412665124812020198Oct2013155176494699168335396535842167741130203205199Dec2013156230531562169331407556764321498133818570200Feb2014157943793171171123749591378698544139725795201Apr2014159813411760171744486621015432437143446790202Jun2014161822845643173353076719581958743175779064203Aug2014165722980375174108750774052098731189080419生物信息學(xué)基本思想產(chǎn)生

生物信息學(xué)迅速發(fā)展二十世紀(jì)50-60年代二十世紀(jì)80-90年代生物科學(xué)和技術(shù)的發(fā)展人類基因組計(jì)劃的推動(dòng)一、生物信息學(xué)產(chǎn)生的背景

ProteinDNAF.Sanger(19581980)HGP生物數(shù)據(jù)的激增生物學(xué)家數(shù)學(xué)家計(jì)算機(jī)科學(xué)家生物信息學(xué)誕生一、生物信息學(xué)產(chǎn)生的背景

一、生物信息學(xué)產(chǎn)生的背景諾貝爾獎(jiǎng)獲得者W.Gilbert在1991年曾經(jīng)指出“傳統(tǒng)生物學(xué)解決問題的方式是實(shí)驗(yàn)的,現(xiàn)在基于全部基因都將知曉,并以電子可操作的方式駐留在數(shù)據(jù)庫中,新的生物學(xué)研究模式的出發(fā)點(diǎn)應(yīng)是理論的,一個(gè)科學(xué)家將從理論推測(cè)出發(fā),然后再回到實(shí)驗(yàn)中去,追蹤或驗(yàn)證這些理論假設(shè)。”生物信息學(xué)將傳統(tǒng)生命科學(xué)的“二元研究”分化為“三足鼎立”狀態(tài)理論實(shí)驗(yàn)理論傳統(tǒng)實(shí)驗(yàn)計(jì)算機(jī)實(shí)驗(yàn)invivo

invitro

insilico緒論:什么是生物信息學(xué)?生物信息學(xué)產(chǎn)生的背景生物信息學(xué)的定義生物信息學(xué)研究的主要內(nèi)容二、生物信息學(xué)的定義生物信息學(xué)(bioinformatics)指生命科學(xué)與數(shù)學(xué)、計(jì)算機(jī)科學(xué)以及信息學(xué)等交融在一起形成的一門交叉學(xué)科。它應(yīng)用先進(jìn)的數(shù)據(jù)管理技術(shù)、數(shù)學(xué)分析模型和計(jì)算機(jī)軟件對(duì)各種生物信息(特別是分子生物學(xué)信息)進(jìn)行儲(chǔ)存、提取、處理和分析,旨在掌握復(fù)雜生命現(xiàn)象的形成模式和演化規(guī)律。二、生物信息學(xué)的定義以核酸、蛋白質(zhì)等生物大分子為主要研究對(duì)象以信息學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)為主要研究手段以計(jì)算機(jī)網(wǎng)絡(luò)為主要研究環(huán)境以計(jì)算機(jī)軟件為主要研究工具對(duì)序列數(shù)據(jù)進(jìn)行存儲(chǔ)、管理、注釋、加工對(duì)各種數(shù)據(jù)庫進(jìn)行查詢、搜索、比較、分析構(gòu)建各種類型的專用數(shù)據(jù)庫信息系統(tǒng)研究開發(fā)面向生物學(xué)家的新一代計(jì)算機(jī)軟件緒論:什么是生物信息學(xué)?生物信息學(xué)產(chǎn)生的背景生物信息學(xué)的定義生物信息學(xué)研究的主要內(nèi)容三、生物信息學(xué)研究的主要內(nèi)容序列重疊群(Contigs)裝配序列比對(duì)和結(jié)構(gòu)比對(duì)計(jì)算機(jī)輔助基因識(shí)別基因組非編碼區(qū)分析及DNA語言研究分子進(jìn)化和比較基因組學(xué)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)基于結(jié)構(gòu)的藥物設(shè)計(jì)三、生物信息學(xué)研究的主要內(nèi)容序列重疊群(Contigs)裝配序列比對(duì)和結(jié)構(gòu)比對(duì)計(jì)算機(jī)輔助基因識(shí)別基因組非編碼區(qū)分析及DNA語言研究分子進(jìn)化和比較基因組學(xué)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)基于結(jié)構(gòu)的藥物設(shè)計(jì)三、生物信息學(xué)研究的主要內(nèi)容1、序列重疊群(contigs)裝配根據(jù)現(xiàn)有的DNA測(cè)序技術(shù),每次反應(yīng)最多只能測(cè)出1000bp的序列,這就要求把大量的短序列構(gòu)成重疊群,再逐步把它們拼接起來形成骨架

(scaffolds),直至得到完整的序列。由深圳華大基因研究院發(fā)起,中國(guó)科學(xué)院昆明動(dòng)物研究所等參與的合作研究成果《Thesequenceanddenovoassemblyofthegiantpandagenome》于2010年1月21日以封面故事發(fā)表于《nature》雜志。本研究是全球第一個(gè)完全使用新一代合成法測(cè)序技術(shù)完成的基因組序列圖,該成果證明了短序列也能組裝成完整基因組,并將成為基因組繪圖的國(guó)際標(biāo)準(zhǔn)。SOAP基因組序列分析軟件包可以高效地處理第二代測(cè)序技術(shù)產(chǎn)出的巨大數(shù)量的短序列,并完成其參考序列的定位上,短序列的組裝以及序列差異分析等。三、生物信息學(xué)研究的主要內(nèi)容序列重疊群(Contigs)裝配序列比對(duì)和結(jié)構(gòu)比對(duì)計(jì)算機(jī)輔助基因識(shí)別基因組非編碼區(qū)分析及DNA語言研究分子進(jìn)化和比較基因組學(xué)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)基于結(jié)構(gòu)的藥物設(shè)計(jì)三、生物信息學(xué)研究的主要內(nèi)容2、序列比對(duì)和結(jié)構(gòu)比對(duì)在生物信息學(xué)研究中,比對(duì)是最常用和最經(jīng)典的研究手段。最常見的比對(duì)是蛋白質(zhì)或核酸序列之間的兩兩比對(duì)或多重比對(duì),通過比較兩個(gè)或多個(gè)序列之間的相似區(qū)域,尋找它們共同的保守結(jié)構(gòu)域和可能的分子進(jìn)化關(guān)系。算法和軟件(如:Blast)序列比對(duì)要考慮的問題之一

如何排列比較?(尋求序列之間最大相似性匹配!)

我們不能夠簡(jiǎn)單的將兩個(gè)序列頭尾對(duì)應(yīng)的排比,而是對(duì)各種可能的排比方式都進(jìn)行比較以找出最佳的比對(duì)結(jié)果。ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC||||||||||||||||||||||||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT

ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT

10條氨基酸序列的多重比對(duì)肌紅蛋白β球蛋白β球蛋白與肌紅蛋白重疊三、生物信息學(xué)研究的主要內(nèi)容序列重疊群(Contigs)裝配序列比對(duì)和結(jié)構(gòu)比對(duì)計(jì)算機(jī)輔助基因識(shí)別基因組非編碼區(qū)分析及DNA語言研究分子進(jìn)化和比較基因組學(xué)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)基于結(jié)構(gòu)的藥物設(shè)計(jì)三、生物信息學(xué)研究的主要內(nèi)容3、計(jì)算機(jī)輔助基因識(shí)別由于人類已經(jīng)獲得了巨大數(shù)量的基因組信息,依靠較慢的傳統(tǒng)生物學(xué)實(shí)驗(yàn)分析已不能滿足基因識(shí)別的需要,而基于計(jì)算機(jī)算法的基因識(shí)別得到了長(zhǎng)足的發(fā)展,成為了基因識(shí)別的主要手段。算法和軟件(如:ORFFinder)使用NCBI的ORFFinder發(fā)現(xiàn)一條DNA序列有3個(gè)可能的蛋白編碼區(qū)三、生物信息學(xué)研究的主要內(nèi)容序列重疊群(Contigs)裝配序列比對(duì)和結(jié)構(gòu)比對(duì)計(jì)算機(jī)輔助基因識(shí)別基因組非編碼區(qū)分析及DNA語言研究分子進(jìn)化和比較基因組學(xué)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)基于結(jié)構(gòu)的藥物設(shè)計(jì)三、生物信息學(xué)研究的主要內(nèi)容4、基因組非編碼區(qū)分析及DNA語言研究在人類基因組中,基因僅占總序列的3~5%,其它通常稱為“垃圾”DNA,其實(shí)一點(diǎn)也不是垃圾,只是我們暫時(shí)還不知道其功能。分析非編碼區(qū)DNA序列需要大膽的想象和嶄新的研究思路和方法。DNA序列作為一種遺傳語言,不僅體現(xiàn)在編碼序列之中,而且也隱含在非編碼序列之中。三、生物信息學(xué)研究的主要內(nèi)容序列重疊群(Contigs)裝配序列比對(duì)和結(jié)構(gòu)比對(duì)計(jì)算機(jī)輔助基因識(shí)別基因組非編碼區(qū)分析及DNA語言研究分子進(jìn)化和比較基因組學(xué)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)基于結(jié)構(gòu)的藥物設(shè)計(jì)三、生物信息學(xué)研究的主要內(nèi)容5、分子進(jìn)化和比較基因組學(xué)利用不同物種中同一種基因序列的異同來研究生物的進(jìn)化,構(gòu)建進(jìn)化樹。近年來由于較多模式生物基因組測(cè)序任務(wù)的完成,為從整個(gè)基因組的角度來研究分子進(jìn)化提供了條件??梢栽O(shè)想,比較兩個(gè)或多個(gè)完整基因組這一工作需要新的思路和方法,這方面可做的工作很多。Pace(2001)describedatreeoflifebasedonsmallsubunitrRNAsequences.該分子進(jìn)化樹提示:與細(xì)菌相比,古細(xì)菌在進(jìn)化關(guān)系上與真核生物更為接近。細(xì)菌古細(xì)菌真核生物人類1號(hào)染色體與小鼠1-19、X和Y染色體之間約44000個(gè)同線性關(guān)系桔黃色連線突出顯示小鼠4號(hào)染色體與人類1號(hào)染色體上的所有同線性關(guān)系三、生物信息學(xué)研究的主要內(nèi)容序列重疊群(Contigs)裝配序列比對(duì)和結(jié)構(gòu)比對(duì)計(jì)算機(jī)輔助基因識(shí)別基因組非編碼區(qū)分析及DNA語言研究分子進(jìn)化和比較基因組學(xué)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)基于結(jié)構(gòu)的藥物設(shè)計(jì)三、生物信息學(xué)研究的主要內(nèi)容6、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)要想了解蛋白質(zhì)的功能,只有氨基酸序列是遠(yuǎn)遠(yuǎn)不夠的,因?yàn)榈鞍踪|(zhì)的功能是通過其高級(jí)結(jié)構(gòu)來執(zhí)行的。目前除了通過諸如X射線晶體衍射、核磁共振等物理方法得到蛋白質(zhì)三維結(jié)構(gòu)之外,另外一種廣泛使用的方法就是通過計(jì)算機(jī)輔助預(yù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論