版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第九講
生物信息學(xué)將給生命科學(xué)帶來(lái)變革性的變化!Biologyisshiftingfrombeinganobservationalsciencetobeingaquantitativemolecularscience第九講
生物信息學(xué)將給生命科學(xué)帶來(lái)變革性的變化!1學(xué)習(xí)目的1、了解生物信息學(xué)的發(fā)展背景、定義2、理解生物信息學(xué)在生命科學(xué)研究中的作用3、理解數(shù)學(xué)、計(jì)算機(jī)科學(xué)如何在生物信息中的地位和作用4、了解基因芯片的檢測(cè)原理和制備方法學(xué)習(xí)目的1、了解生物信息學(xué)的發(fā)展背景、定義2第一節(jié)生物信息學(xué)
(Bioinformatics)一、生物學(xué)基礎(chǔ)(復(fù)習(xí))二、發(fā)展背景與定義三、研究?jī)?nèi)容四、研究現(xiàn)狀五、發(fā)展前景第一節(jié)生物信息學(xué)
(Bioinformatics)一、生物3一、生物學(xué)基礎(chǔ)表型與基因型(phenotypevs.genotype)遺傳信息的流動(dòng)基因的表達(dá)與調(diào)控分子進(jìn)化DNA序列分析:基因識(shí)別、調(diào)控元件識(shí)別、進(jìn)化分析mRNA:剪切位點(diǎn)識(shí)別、基因表達(dá)分析蛋白質(zhì):結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)間相互作用、亞細(xì)胞定位基因組:基因預(yù)測(cè)、進(jìn)化分析染色體:結(jié)構(gòu)分析網(wǎng)絡(luò):pathway建模細(xì)胞:系統(tǒng):一、生物學(xué)基礎(chǔ)表型與基因型(phenotypevs.ge4生物信息學(xué)全課件5二、發(fā)展背景和定義二、發(fā)展背景和定義6生物信息——廣義的概念生命現(xiàn)象是不同層次上的物質(zhì)、能量與信息的交換,不同層次是指核酸、蛋白質(zhì)、細(xì)胞、器官、系統(tǒng)、整體等研究生物體系和生物過(guò)程中信息的內(nèi)涵和信息的傳遞
生物電磁學(xué)與電磁生物學(xué)、視覺(jué)系統(tǒng)與光信息處理、腦和神經(jīng)系統(tǒng)與信息、生物體結(jié)構(gòu)與微光機(jī)電系統(tǒng)生物信息——廣義的概念生命現(xiàn)象是不同層次上的物質(zhì)、能量與信息7發(fā)展背景BiocomputingComputationalBiologyBioinformatics1986年,在EMBLHeidelberg成立Biocomputing部門(mén),命名為BIOinformatis.如果我們不能回答生物學(xué)問(wèn)題,作為計(jì)算生物學(xué)家是失敗的。1997年底創(chuàng)立了CABIOS(ComputerApplicationsintheBiosciences).weassert:computationalplanningandanalysisisanintegralpartofthebiologicaldiscoveryprocess.在完整基因組序列和高通量技術(shù)時(shí)代不要僅僅談?wù)摲治龊A繑?shù)據(jù)的挑戰(zhàn),相反,要談?wù)摷膊‘a(chǎn)生的風(fēng)險(xiǎn),關(guān)于人類(lèi)遺傳差異、基因型改變的進(jìn)化如何導(dǎo)致功能的改變,如何使用數(shù)據(jù)來(lái)回答這些問(wèn)題。發(fā)展背景Biocomputing8Background
背景19651970197519801985199019952000100,00010,0001,0001001010.10.010.001×1,000MedlineRecordsTransistors/ChipDNASequences3DStructuresCumulativeGrowthofBiologicalInformationandComputerPowerMarkBogulski(1998)Bioinformatics:ANewEraBackground9生物醫(yī)藥工業(yè)提供大量基因序列分析的工具,在以下方面加快新藥開(kāi)發(fā)的進(jìn)程:
資料的獲取、包括從數(shù)據(jù)庫(kù)中尋找新藥開(kāi)發(fā)者感興趣的基因序列和相關(guān)資料文獻(xiàn)基因功能的預(yù)測(cè)和基因生理作用的預(yù)測(cè)需要大量信息處理的藥物篩選和加工過(guò)程(WeinsteinJNetal.,1997)
生物醫(yī)藥工業(yè)提供大量基因序列分析的工具,在以下方面10DefinitionofBioinformatics(1)Bioinformaticsisdefinedasascientificdisciplinethatencompassesallaspectsofbiologicalinformationacquisition,processing,storage,distribution,analysisandinterpretation,thatcombinesthetoolsandtechniquesofmathematics,computerscienceandbiologywiththeaimofunderstandingthebiologicalsignificanceofavarietyofdata.生物信息學(xué)是一門(mén)交叉學(xué)科。它包含了生物信息的獲取、處理、存儲(chǔ)、分發(fā)、分析和解釋等在內(nèi)的所有方面,它綜合運(yùn)用數(shù)學(xué)、計(jì)算機(jī)科學(xué)和生物學(xué)的各種工具,來(lái)闡明和理解大量數(shù)據(jù)所包含的生物學(xué)意義。UnderstandingOurGeneticInheritance.TheUSHumanGenomeProject:TheFirstFiveYears1991-1995.NIHPublibcationNo.901590,April,1995DefinitionofBioinformatics(11DefinitionofBioinformatics(2)Bioinformaticsisconceptualisingbiologyintermsofmolecules(inthesenseofPhysicalchemistry)andapplying“informaticstechniques”(derivedfromdisciplinessuchasappliedmaths,computerscienceandstatistics)tounderstandandorganisetheinformationassociatedwiththesemolecules,onalargescale.OxfordEnglishDictionaryDefinitionofBioinformatics(12ComputationInformaticsBiologyBioinformaticsComputationInformaticsBiologyB13算法統(tǒng)計(jì)學(xué)信息理論圖形學(xué)科學(xué)可視化圖像識(shí)別人工智能密碼學(xué)非線(xiàn)性動(dòng)力學(xué)計(jì)算機(jī)模擬語(yǔ)言學(xué)機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)軟件工程計(jì)算機(jī)網(wǎng)絡(luò)分布式系統(tǒng)數(shù)據(jù)獲取數(shù)據(jù)解釋基因組圖譜三維結(jié)構(gòu)預(yù)測(cè)分子建模藥物設(shè)計(jì)同源比較分子進(jìn)化數(shù)據(jù)庫(kù)檢索基因預(yù)測(cè)儀器設(shè)計(jì)數(shù)據(jù)庫(kù)構(gòu)建基因調(diào)控基因診斷及治療生物信息學(xué)計(jì)算機(jī)科學(xué)和數(shù)學(xué)分子生物學(xué)
算法數(shù)據(jù)獲取生物信息學(xué)計(jì)算機(jī)科學(xué)和數(shù)學(xué)分子生物學(xué)
14生物信息學(xué)研究意義利用數(shù)理統(tǒng)計(jì)、模式識(shí)別、動(dòng)態(tài)規(guī)劃、密碼解讀、語(yǔ)意解析、信令傳遞、神經(jīng)網(wǎng)絡(luò)、遺傳算法以及隱馬氏模型等各種方法對(duì)序列、結(jié)構(gòu)數(shù)據(jù)進(jìn)行定性和定量分析,從中獲取基因編碼、基因調(diào)控、序列-結(jié)構(gòu)-功能關(guān)系等理性知識(shí)闡明細(xì)胞、器官和個(gè)體的發(fā)生、發(fā)育、病變、衰亡的基本規(guī)律和時(shí)空聯(lián)系探索生命起源、生物進(jìn)化、生命本質(zhì)等重大理論問(wèn)題,最終建立“生物學(xué)周期表”指導(dǎo)分子生物學(xué)實(shí)驗(yàn)生物信息學(xué)研究意義利用數(shù)理統(tǒng)計(jì)、模式識(shí)別、動(dòng)態(tài)規(guī)劃、密碼解讀15生物信息學(xué)全課件16生物信息學(xué)–研究方向基因組序列裝配基因識(shí)別基因功能預(yù)報(bào)基因多態(tài)性分析基因進(jìn)化mRNA結(jié)構(gòu)預(yù)測(cè)基因芯片設(shè)計(jì)基因芯片數(shù)據(jù)分析疾病相關(guān)基因分析蛋白質(zhì)序列分析蛋白質(zhì)家族分類(lèi)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)蛋白質(zhì)折疊研究代謝途徑分析轉(zhuǎn)錄調(diào)控機(jī)制蛋白質(zhì)芯片設(shè)計(jì)蛋白質(zhì)芯片數(shù)據(jù)分析藥物設(shè)計(jì)生物信息學(xué)–研究方向基因組序列裝配蛋白質(zhì)序列分析17三、生物信息學(xué)的研究?jī)?nèi)容數(shù)學(xué)、計(jì)算機(jī)科學(xué)、生物學(xué)1、與HGP相關(guān)的研究?jī)?nèi)容2、功能基因組研究相關(guān)內(nèi)容3、蛋白組學(xué)相關(guān)4、基因芯片信息學(xué)研究三、生物信息學(xué)的研究?jī)?nèi)容數(shù)學(xué)、計(jì)算機(jī)科學(xué)、生物學(xué)18Statistics統(tǒng)計(jì)學(xué)ProbabilityTheory概率論(特別是隨機(jī)過(guò)程理論)OperationalResearch運(yùn)籌學(xué)OptimizationTheory&Method最優(yōu)化理論與方法Topology拓?fù)鋵W(xué)(主要是幾何拓?fù)洌〧unctionTheory函數(shù)論InformationTheory信息論ComputationalMathematics計(jì)算數(shù)學(xué)GroupTheory群論數(shù)學(xué)(Maths)Statistics統(tǒng)計(jì)學(xué)ProbabilityTheo19幾個(gè)常用數(shù)學(xué)模型概念與方法Bayes公式、Bayes統(tǒng)計(jì)馬氏鏈(Markovchains)隱馬氏鏈(HiddenMarkovchains)Poisson過(guò)程與連續(xù)時(shí)間馬氏鏈熵、相對(duì)熵與信息增益神經(jīng)網(wǎng)絡(luò)(neuralnetworks(NN)):Multi-layerfeed-forwardNN,self-organizedlearningNN,recurrentNN(HopfieldNN,Bolztmannmachine)幾個(gè)常用數(shù)學(xué)模型概念與方法Bayes公式、Bayes統(tǒng)20網(wǎng)絡(luò)技術(shù)數(shù)據(jù)庫(kù)(特別是關(guān)系型數(shù)據(jù)庫(kù))數(shù)據(jù)整合和可視化數(shù)據(jù)挖掘基于Unix操作系統(tǒng)的各種軟件包一些重要的算法的復(fù)雜性研究計(jì)算機(jī)科學(xué)(ComputerScience)計(jì)算機(jī)硬件網(wǎng)絡(luò)技術(shù)數(shù)據(jù)庫(kù)(特別是關(guān)系型數(shù)據(jù)庫(kù))數(shù)據(jù)整合和可視化數(shù)據(jù)挖21生物信息學(xué)研究?jī)?nèi)容Alignment
(序列比對(duì))[包括:全序列、局部和多重比對(duì);Fasta,Blast,PSI-Blast]ProteinStructurePrediction
(蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè))Computer-AidedGeneRecognitions
(計(jì)算機(jī)輔助基因識(shí)別)[算法紛紜,較著名的為GeneScan,GeneFinder,等;尚存在許多問(wèn)題]DNALanguage
(DNA語(yǔ)言)MolecularEvolution&ComparedGenomics
(分子進(jìn)化和比較基因組學(xué))ContigAssembly
(序列重疊群裝配)OriginofGeneticCodes
(遺傳密碼的起源)AnalysisofMetabolizeNetwork
(代謝網(wǎng)絡(luò)分析)GeneChipDesign
(基因芯片設(shè)計(jì))生物信息學(xué)研究?jī)?nèi)容Alignment(序列比對(duì))[包22與HGP相關(guān)的生物信息學(xué)研究1、高度自動(dòng)化的實(shí)驗(yàn)數(shù)據(jù)的獲得、加工和整理各種自動(dòng)化分子生物學(xué)儀器應(yīng)用上,如DNA測(cè)序儀,PCR儀等實(shí)驗(yàn)過(guò)程高度自動(dòng)化甚至工廠(chǎng)化,產(chǎn)生的海量數(shù)據(jù)(gigabyte),專(zhuān)門(mén)的實(shí)驗(yàn)室數(shù)據(jù)管理系統(tǒng)自動(dòng)完成包括實(shí)驗(yàn)進(jìn)程和實(shí)驗(yàn)數(shù)據(jù)的紀(jì)錄,常規(guī)數(shù)據(jù)分析,數(shù)據(jù)質(zhì)量檢測(cè)和問(wèn)題的自動(dòng)查找,常規(guī)的數(shù)據(jù)說(shuō)明和數(shù)據(jù)輸入數(shù)據(jù)庫(kù)。目前還沒(méi)有成熟的通用的分子生物學(xué)數(shù)據(jù)管理系統(tǒng)。與HGP相關(guān)的生物信息學(xué)研究1、高度自動(dòng)化的實(shí)驗(yàn)數(shù)據(jù)的獲得232、序列片段的拼接目前DNA自動(dòng)測(cè)序儀每個(gè)反應(yīng)只能測(cè)序500bp左右,傳統(tǒng)測(cè)序方法是將克隆進(jìn)行亞克隆并對(duì)亞克隆進(jìn)行排序。自動(dòng)而高速拼接序列的算法,Lander-Waterman模型(LanderESandWatermanMS,1998)利用鳥(niǎo)槍法進(jìn)行測(cè)序,再將大量隨機(jī)測(cè)序的片段用計(jì)算機(jī)進(jìn)行自動(dòng)拼接。1.9MbHaemophilusinfluenzae(流感嗜血桿菌)(FleischmannRDetal.,1995)0.58MbMycoplasmugenitalium(枝原體)(FraserCMetal.,1995)0.58Mbjannaschii(甲烷桿菌)(BultCJetal.,1996)有待改進(jìn):將已知的基因組知識(shí)應(yīng)用于拼接算法,進(jìn)一步提高拼接真核基因組的有效性;自動(dòng)處理自動(dòng)測(cè)序造成的差錯(cuò)2、序列片段的拼接目前DNA自動(dòng)測(cè)序儀每個(gè)反應(yīng)只能測(cè)序50024生物信息學(xué)全課件25AlignmentAlignment
(序列比對(duì)、聯(lián)配、對(duì)齊等)
包括:全序列、局部多重比對(duì);Fasta,Blast,PSI-BlastAGCGGTGCAGGTTACTGCGCGTAGTAC…|||ACGGTGCGGTTACTGCGGCGTAGTAC…AGCGGTGCAGGTTACTGCGCGTAGTAC…||||||||||||||||||A_CGGTGCGGTTACTGCGGCGTAGTAC…AGCGGTGCAGGTTACTGCGCGTAGTAC…|||||||||||||||||A_CGGTGC_GGTTACTGCGGCGTAGTAC…AGCGGTGCAGGTTACTGC_GCGTAGTAC…|||||||||||||||||||||||||A_CGGTGC_GGTTACTGCGGCGTAGTAC…序列一序列二AlignmentAlignmentAGCGGT26RawDNAsequenceGeneBank:11.5Millonsequence12.5billionbasesSeparatingcodingandnon-codingIdentificationofintronsandexonsGeneproductpredictionForensicanalysisRawDNAsequenceGeneBank:27基因識(shí)別識(shí)別基因組編碼區(qū),識(shí)別基因結(jié)構(gòu)1、同源比較(DNA序列、EST)2、基因預(yù)測(cè)(不是用同源搜索的方法來(lái)識(shí)別基因) 從頭開(kāi)始基因預(yù)測(cè) 基于知識(shí)的基因預(yù)測(cè)(密碼子使用,堿基組成,剪切位點(diǎn)特征,PolyA信號(hào),2、3、6核苷酸頻率,轉(zhuǎn)錄信號(hào),轉(zhuǎn)譯信號(hào),尺寸分布)基因識(shí)別識(shí)別基因組編碼區(qū),識(shí)別基因結(jié)構(gòu)28基因預(yù)測(cè)的步驟:1、識(shí)別可能的外顯子2、辨別起始/內(nèi)部/終止外顯子3、把起始、一些內(nèi)部的和終止外顯子的連起來(lái),形成可能的基因4、確保該可能的基因沒(méi)有內(nèi)部的移位或終止密碼子5、leftovers:shadowexons算法:Rule-basedsystem,linguisticsystem,lineardiscriminantanalysis,decisiontree,splicedalignment,fourieranalysis基因預(yù)測(cè)的步驟:29生物信息學(xué)全課件30生物信息學(xué)全課件31EvaluatingGenePrediction敏感性(Sensitivity)敏感性=預(yù)測(cè)基因中確為基因的數(shù)目/待測(cè)序列中的基因數(shù)目;Howmanyexonswerecorrectlypredicted?特異性(Specifity)特異性=預(yù)測(cè)基因中確為基因的數(shù)目/預(yù)測(cè)基因數(shù)目Howmanyexonpredictionsaretrue?EvaluatingGenePrediction敏感性(32生物學(xué)家們?yōu)槿祟?lèi)基因的數(shù)目打賭雖然人類(lèi)基因組的草圖很快就要完成,但生物學(xué)家們對(duì)基因組里到底有多少基因的猜測(cè)仍有極大的不同。最近在美國(guó)紐約冷泉港召開(kāi)的一個(gè)會(huì)議上,他們?cè)O(shè)立了一美元一個(gè)(次)的基因數(shù)目賭注。勝者將于2003年揭曉,他除了可獲得全部賭金外,還可得到一本由DNA結(jié)構(gòu)的發(fā)現(xiàn)者JamesWatson親筆簽名的皮革封面《雙螺旋》一書(shū)。如果基因組是生命的天書(shū),那么基因就是寫(xiě)成這本書(shū)的詞匯。生物學(xué)家們一直假設(shè),微生物的故事較短,而人類(lèi)的故事則是一部巨作,人類(lèi)擁有8萬(wàn)到10萬(wàn)個(gè)基因。但是美國(guó)加州大學(xué)伯克利分校的果蠅基因組計(jì)劃的主任GeraldRubin指出,果蠅的基因比我們所認(rèn)為的最簡(jiǎn)單的線(xiàn)蟲(chóng)少了5000個(gè)。他警告說(shuō):“生物體的復(fù)雜性并不是簡(jiǎn)單地與基因數(shù)量相關(guān)聯(lián)的?!贝_實(shí),根據(jù)目前已測(cè)序完成的人類(lèi)基因組第21對(duì)、22對(duì)染色體的經(jīng)驗(yàn),德國(guó)分子生物技術(shù)研究所的AndreRosenthal說(shuō),我們得出的結(jié)論是整個(gè)基因組有不多于4萬(wàn)個(gè)基因。法國(guó)的分子遺傳學(xué)家HuguesRoestCrollius通過(guò)比較現(xiàn)有的人類(lèi)基因序列與淡水河豚基因序列,提出了更低的人類(lèi)基因數(shù)估計(jì):在27700與34300之間。美國(guó)西雅圖華盛頓大學(xué)的基因?qū)W家PhilGreen是常用的組合基因序列數(shù)據(jù)的程序PHRED和PHRAP的發(fā)明人,他提出人類(lèi)基因數(shù)大約為35000。Green說(shuō):“我們使用了3種獨(dú)立的計(jì)算方法得出了這些較低的基因數(shù)估計(jì),我確信基因數(shù)目就在這個(gè)范圍內(nèi)。”美國(guó)國(guó)家人類(lèi)基因組研究所主任FrancisCollins表示他同意Green的估計(jì),將他1美元的賭金下在48011個(gè)基因上。但馬里蘭Rockville的基因組研究所(TIGR)的JohnQuackenbush根據(jù)TIGR的人類(lèi)基因指數(shù)的估計(jì),將他的1美元賭在118259個(gè)基因上。加州IncyteGenomics公司的SamLaBrie賭的基因數(shù)是153478個(gè),該公司在1999年9月曾宣布人類(lèi)基因至少有14萬(wàn)個(gè)。但是支持人類(lèi)基因數(shù)目是一個(gè)較小數(shù)的科學(xué)家們也不灰心,他們爭(zhēng)論說(shuō)生物體的復(fù)雜性來(lái)自于基因如何被管理或表達(dá)的,而不是基因數(shù)目本身。Rosenthal解釋說(shuō):“我們不需要那么多的基因成為高等動(dòng)物,”他賭的是38000個(gè)。你賭多少呢?生物學(xué)家們?yōu)槿祟?lèi)基因的數(shù)目打賭33基因功能預(yù)測(cè)(1)序列同源比較如果基因A與基因B有相當(dāng)?shù)耐葱?,那么基因A可能具有類(lèi)似基因B的功能。公共數(shù)據(jù)庫(kù):GenBank,EMBL,DDBJ功能數(shù)據(jù)庫(kù):dbEST,dbSTS,dbGSS(GenomeSurveySequence,類(lèi)似EST,不同的是它是基因組的片段而非cDNA的片段,來(lái)自隨機(jī)的對(duì)基因組片段進(jìn)行一輪測(cè)序,以及外顯子捕捉和AluPCR等方法),dbHTG(highthroughputGenomicSequence,未完成整理的序列數(shù)據(jù))蛋白質(zhì)序列庫(kù):PIR(proteininformationresource),Swiss-Prot蛋白質(zhì)高級(jí)結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB(proteindatabank):生物大分子三級(jí)結(jié)構(gòu)的數(shù)據(jù)庫(kù),包括原子標(biāo)記、文獻(xiàn)引用、一級(jí)和二級(jí)結(jié)構(gòu)信息,以及晶體結(jié)構(gòu)和核磁共振的數(shù)據(jù)。同源比較算法:分為整體對(duì)齊(Globalalignment)和局部對(duì)齊(localalignment)局部對(duì)齊的算法有Smith-Watermann算法;FASTA算法;BLAST算法基因功能預(yù)測(cè)(1)序列同源比較34ProteinSequence400,000sequences(SWISS-PROT)300aaSequencecomparisonalgorithmsMultiplesequencealignmentsalgorithmsIdentificationofconservedsequencemotifsProteinSequence400,000sequen35蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)
可以通過(guò)計(jì)算(如分子力學(xué)、分子動(dòng)力學(xué)等)來(lái)進(jìn)行結(jié)構(gòu)預(yù)測(cè)(1)對(duì)于自然的蛋白質(zhì)結(jié)構(gòu)和未折疊的蛋白質(zhì)結(jié)構(gòu),兩者之間的能量差非常?。?kcal/mol數(shù)量級(jí))(2)研究蛋白質(zhì)結(jié)構(gòu)的計(jì)算量非常大蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)可以通過(guò)計(jì)算(如分子力學(xué)、分子動(dòng)力學(xué)等)來(lái)進(jìn)36Anfinsen,1960esX-射線(xiàn)衍射和核磁共振蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的實(shí)驗(yàn)基礎(chǔ)天然核糖核酸酶變性還原核糖核酸酶Anfinsen,1960es蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的實(shí)驗(yàn)基礎(chǔ)天37生物信息學(xué)全課件38蛋白質(zhì)的二級(jí)結(jié)構(gòu)二面角定義NCACNOCACywfORR蛋白質(zhì)分子的主鏈二面角a-螺旋(f,y)~(-60,-40)b-折疊(f,y)~(-120,140)環(huán)區(qū)蛋白質(zhì)的二級(jí)結(jié)構(gòu)二面角定義NCACNOCACywfORR蛋白39蛋白質(zhì)分子的三級(jí)結(jié)構(gòu)典型的蛋白質(zhì)結(jié)構(gòu)類(lèi)型
a、b、a/b、a+bPDBSUM http://www.biochem.ucl.ac.uk/bsm/pdbsumSCOP /scop蛋白質(zhì)分子的三級(jí)結(jié)構(gòu)典型的蛋白質(zhì)結(jié)構(gòu)類(lèi)型40其它結(jié)構(gòu)層次超二級(jí)結(jié)構(gòu)四級(jí)結(jié)構(gòu)分子聚合體其它結(jié)構(gòu)層次超二級(jí)結(jié)構(gòu)41影響蛋白質(zhì)結(jié)構(gòu)的理化因素立體作用(范式作用) Lennard-Jones式,空間堆積靜電作用 庫(kù)侖定律氫鍵疏水作用影響蛋白質(zhì)結(jié)構(gòu)的理化因素立體作用(范式作用)42同源模型方法如果具有25-30%的等同序列,可以假設(shè)這兩個(gè)蛋白質(zhì)折疊成相似的空間結(jié)構(gòu)借助于數(shù)據(jù)庫(kù)搜索和序列的比對(duì)排列而進(jìn)行利用同源模型化方法可以預(yù)測(cè)所有10-30%蛋白質(zhì)的結(jié)構(gòu)同源模型方法如果具有25-30%的等同序列,可以假設(shè)這兩個(gè)蛋43流行的序列分析工具CLUSTAL:已知同源的序列間的配比FASTA:全基因數(shù)據(jù)庫(kù)的快速搜索PSI-BLAST:非??焖俚娜珨?shù)據(jù)庫(kù)搜索HMM:特定蛋白家族的序列模式識(shí)別PHYLIPS:基因進(jìn)化樹(shù)充分利用Internet流行的序列分析工具CLUSTAL:已知同源的序列間的配比44二級(jí)結(jié)構(gòu)預(yù)測(cè)用處估計(jì)蛋白的結(jié)構(gòu)類(lèi)型提高同源模建的準(zhǔn)確性三級(jí)結(jié)構(gòu)預(yù)測(cè)的起點(diǎn)遠(yuǎn)緣蛋白的Threading方法Chou-FasmanGarnier神經(jīng)網(wǎng)絡(luò)組合算法二級(jí)結(jié)構(gòu)預(yù)測(cè)用處45蛋白質(zhì)三級(jí)結(jié)構(gòu)預(yù)測(cè)(1)
同源模型化方法(2)
遠(yuǎn)程同源模型化方法(3)
結(jié)構(gòu)的從頭預(yù)測(cè)方法距離幾何分子動(dòng)力學(xué)蛋白質(zhì)三級(jí)結(jié)構(gòu)預(yù)測(cè)(1)
同源模型化方法46一級(jí)序列數(shù)據(jù)庫(kù)搜索同源結(jié)構(gòu)序列和結(jié)構(gòu)配比挑選模板蛋白模建保守區(qū)域模建環(huán)區(qū)模建側(cè)鏈優(yōu)化和評(píng)估一級(jí)序列數(shù)據(jù)庫(kù)搜索同源結(jié)構(gòu)序列和結(jié)構(gòu)配比挑選模板蛋白模建保守47MacromolecularstructureSecondary,tertiarystructureprediction3DstructuralalignmentalgorithmsProteingeometrymeasurementsSurfaceandvolumeshapecalculationIntermolecularinteractionsMolecularsimulationsForce-fieldcalculationsMolecularmovementsDockingpredictions15,000structures(PDB)~1000atomiccoordinateseachMacromolecularstructureSecond48Genomes300completegenomes11.6millionsequencesCharacterizationofrepeatsStructuralassignmentstogenesPhylogeneticanalysisGenomicscalecensuses(characterizationofproteincontent,metabolicpathways)LinkageanalysisrelatingspecificgenestodiseasesGenomes300completegenomes1149比較基因組學(xué)研究研究生命是從哪里起源的?生命是如何進(jìn)化的?遺傳密碼是如何起源的?估計(jì)最小獨(dú)立生活的生物至少需要多少基因,這些基因是如何使它們活起來(lái)的?比如,鼠和人的基因組大小相似,都含有約三十億堿基對(duì),基因的數(shù)目也類(lèi)似??墒鞘蠛腿瞬町惔_如此之大,這是為什么?同樣,有的科學(xué)家估計(jì)不同人種間基因組的差別僅為0.1%;人猿間差別約為1%。但他們表型間的差異十分顯著。這又為什么?
完整基因組序列的比較研究是解決這些問(wèn)題的重要途徑。比較基因組學(xué)研究研究生命是從哪里起源的?生命是如何進(jìn)化的?遺50基于完整基因組數(shù)據(jù)的生物進(jìn)化研究1、序列相似性比較。就是將待研究序列與DNA或蛋白質(zhì)序列庫(kù)進(jìn)行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包有BLAST、FASTA等;2、序列同源性分析。是將待研究序列加入到一組與之同源,但來(lái)自不同物種的序列中進(jìn)行多序列同時(shí)比較,以確定該序列與其它序列間的同源性大小。這是理論分析方法中最關(guān)鍵的一步。完成這一工作必須使用多序列比較算法。常用的程序包有CLUSTAL等;3、構(gòu)建系統(tǒng)進(jìn)化樹(shù)。根據(jù)序列同源性分析的結(jié)果,重建反映物種間進(jìn)化關(guān)系的進(jìn)化樹(shù)。為完成這一工作已發(fā)展了多種軟件包,象PYLIP、MEGA等;4、穩(wěn)定性檢驗(yàn)。為了檢驗(yàn)構(gòu)建好的進(jìn)化樹(shù)的可靠性,需要進(jìn)行統(tǒng)計(jì)可靠性檢驗(yàn),通常構(gòu)建過(guò)程要隨機(jī)地進(jìn)行成百上千次,只有以大概率(70%以上)出現(xiàn)的分支點(diǎn)才是可靠的。通用的方法使用Bootstrap算法,相應(yīng)的軟件已包括在構(gòu)建系統(tǒng)進(jìn)化樹(shù)所用的軟件包當(dāng)中。為便于使用者查找表三給出了進(jìn)化分析相關(guān)軟件的因特網(wǎng)地址。基于完整基因組數(shù)據(jù)的生物進(jìn)化研究1、序列相似性比較。就是將待51Phylogenyof23completelysequencedBacteriaandArchaeaspeciesonthebasisof16srRNA.Phylogenyof23completelyseq52GeneexpressionCorrelatingexpressionpatternsMappingexpressiondatatosequence,structuralandbiochemicaldataGeneexpressionCorrelatingexp53基因表達(dá)分析和調(diào)控網(wǎng)絡(luò)研究高通量基因轉(zhuǎn)錄實(shí)驗(yàn)技術(shù)1、mRNAcDNAmicroarrayOligonucleotidechipRT-PCRSAGE2、protein2D基因表達(dá)分析和調(diào)控網(wǎng)絡(luò)研究高通量基因轉(zhuǎn)錄實(shí)驗(yàn)技術(shù)2、prot54HierarchicalClusteringHierarchicalClustering55PrincipalComponentAnalysis1234-4-3-2-11234-4-3-2-1PrincipalComponentAnalysis1256MetabolicpathwaysPathwaysimulationsMetabolicpathwaysRegulatorynetworkSignalcascadeProtein-proteininteractionMetabolicpathwaysPathwaysimu57生物信息學(xué)全課件58Literature11millioncitationsDigitallibrariesforautomatedbibliographicalserachesKnowledgedatabasesofdatafromliteratureLiterature11millioncitations59其他郝柏林院士:DNA序列中的分形模式,計(jì)算高頻片斷張春霆院士:z-curve陳潤(rùn)生拼接方法基因表達(dá)數(shù)據(jù)分析和調(diào)控網(wǎng)絡(luò)研究其他郝柏林院士:DNA序列中的分形模式,計(jì)算高頻片斷60基因芯片設(shè)計(jì)及信息處理探針設(shè)計(jì)解決雜交條件一致性問(wèn)題芯片優(yōu)化提高芯片制備效率公共數(shù)據(jù)庫(kù)專(zhuān)用數(shù)據(jù)庫(kù)確定目標(biāo)自動(dòng)設(shè)計(jì)目標(biāo)序列數(shù)據(jù)分析分析雜交檢測(cè)結(jié)果及可靠性基因芯片數(shù)據(jù)庫(kù)圖像處理數(shù)據(jù)庫(kù)查詢(xún)序列分析生物信息學(xué)數(shù)據(jù)挖掘雜交檢測(cè)圖像基因芯片設(shè)計(jì)及信息處理探針設(shè)計(jì)芯片優(yōu)化公共數(shù)據(jù)庫(kù)61四、生物信息學(xué)研究現(xiàn)狀1、研究機(jī)構(gòu)2、數(shù)據(jù)庫(kù)3、軟件及應(yīng)用4、重大成果四、生物信息學(xué)研究現(xiàn)狀1、研究機(jī)構(gòu)62國(guó)際著名的生物信息中心NCBI NationalCenterforBiotechnologyInformation(US)
EBI EuropeanBioinformaticsInstitute(EU)
HGMP HumanGenomeMappingProjectResourceCentre(UK)ExPASyExpertofProteinAnalysisSystem(Switzerland)CMBI CentreofMolecularandBiomolecule(TheNetherlands)ANGIS NationalGenomeInformationService(Australia)NIG NationalInstituteofGenetics(Japan)BIC NationalBioinformaticsCentre(Singapore)國(guó)際著名的生物信息中心NCBI NationalCen63國(guó)內(nèi)部分生物信息學(xué)和生物醫(yī)學(xué)信息服務(wù)器北京大學(xué)生物信息中心中國(guó)生物信息/北京大學(xué)物理化學(xué)研究所北京醫(yī)科大學(xué)生物醫(yī)學(xué)信息中國(guó)科學(xué)院微生物研究所天津大學(xué)生物信息中心中科院計(jì)算所智能信息處理重點(diǎn)實(shí)驗(yàn)室生物信息學(xué)研究組 /中國(guó)科學(xué)院基因組信息學(xué)中心/國(guó)內(nèi)部分生物信息學(xué)和生物醫(yī)學(xué)信息服務(wù)器北京大學(xué)生物信息中心64北京大學(xué)生物信息中心安裝了70多個(gè)數(shù)據(jù)庫(kù),提供200多種軟件下載建立了14個(gè)國(guó)外著名生物信息中心鏡象提供了數(shù)據(jù)庫(kù)和文獻(xiàn)查詢(xún)、搜索構(gòu)建了中華民族基因多樣性等專(zhuān)用數(shù)據(jù)庫(kù)集成和開(kāi)發(fā)了基于Web的生物信息軟件工具開(kāi)展了分子模擬、序列分析等應(yīng)用研究舉辦了國(guó)際國(guó)內(nèi)培訓(xùn)班、講習(xí)班、討論會(huì)開(kāi)設(shè)了生物信息學(xué)概論研究生課程北京大學(xué)生物信息中心安裝了70多個(gè)數(shù)據(jù)庫(kù),提供200多種軟件65構(gòu)建二次數(shù)據(jù)庫(kù)中華民族基因多樣性數(shù)據(jù)庫(kù)轉(zhuǎn)錄因子細(xì)胞特異性數(shù)據(jù)庫(kù)Cytomer蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫(kù)Domain蛋白質(zhì)回環(huán)數(shù)據(jù)庫(kù)Loop水稻矮縮病毒數(shù)據(jù)庫(kù)RDV二硫鍵信息數(shù)據(jù)庫(kù)Bridge構(gòu)建二次數(shù)據(jù)庫(kù)中華民族基因多樣性數(shù)據(jù)庫(kù)66其他數(shù)據(jù)庫(kù)EMBLhttp://www.embl-heidelberg.de/
http://www.ebi.ac.uk/embl/
GenBank/Web/Genbank/
DDBJhttp://www.ddbj.nig.ac.jp/
Ensembl/
Medline/medline/query-form.html
BioMedNethttp://www.BioMedN/Staden:/tools/staden/(biologicalpackage)RCSB(結(jié)構(gòu)生物信息學(xué)研究聯(lián)合實(shí)驗(yàn)室)
PRESAGE(Collaborativeresourceforstructuralgenomics
結(jié)構(gòu)基因組學(xué)聯(lián)合資源)/
ExPASyhttp://www.expasy.ch/
SRShttp://srs.ebi.ac.uk:5000/
Entrez/Entrez/
GCG:/about/gcg.html
其他數(shù)據(jù)庫(kù)EMBLhttp://www.embl-heid67DictyDb(DictyosteliumdiscoideumgenomedatabaseDictyosteliumdiscoideum基因組數(shù)據(jù)庫(kù))/others/dsmith/dictydb.htmlEcoCyc(EncyclopediaofE.coligenesandmetabolism
大腸桿菌基因和代謝百科全書(shū))
EcoGene(EscherichiacoliK12genomedatabase
EscherichiacoliK12基因組數(shù)據(jù)庫(kù))/EcoGene/EcoWeb/
FlyBase(Drosophilagenomedatabase
果蠅基因組數(shù)據(jù)庫(kù))/
http://gin.ebi.ac.uk:7081/
HIV(HIVsequencedatabase
HIV序列數(shù)據(jù)庫(kù))/
MaizeDB(Maizegenomedatabase
玉米基因組數(shù)據(jù)庫(kù))/
IMGT(ImMunoGeneTicsdb
免疫基因標(biāo)記數(shù)據(jù)庫(kù))usc.fr:8104/
MAIZE-2DPAGE(Maizegenome2DElectrophoresisdatabase
玉米基因組雙向電泳數(shù)據(jù)庫(kù))http://moulon.moulon.inra.fr/imgd/
Mendel(Mendel-GFDb(Plantgenesfamiliesdatabase)
孟德?tīng)栔参锘蚣易鍞?shù)據(jù)庫(kù))http://www.mendel.ac.uk
MGD(Mousegenomedatabase
小鼠基因組數(shù)據(jù)庫(kù))/
.au/mgd/
http://bioinformatics.weizmann.ac.il/mgd/
http://mgd.hgmp.mrc.ac.uk/
http://mgd.niai.affrc.go.jp/
DictyDb(Dictyosteliumdiscoide68MIM(OnlineMendelianInheritanceinMan(OMIM)
人類(lèi)孟德?tīng)栠z傳網(wǎng)上數(shù)據(jù)庫(kù))/omim/
NRSUB(Non-redundantB.subtilisdatabase
無(wú)冗余枯草桿菌數(shù)據(jù)庫(kù))http://pbil.univ-lyon1.fr/nrsub/nrsub.html
SGD(SaccharomycesGenomeDatabase
酵母基因組數(shù)據(jù)庫(kù))/Saccharomyces/
SubtiList(Bacillussubtilis168genomedatabase
枯草桿菌168基因組數(shù)據(jù)庫(kù))http://www.pasteur.fr/Bio/SubtiList/
TIGR(Thebacterialdatabase(s)of'TheInstituteofGenomeResearch'
基因組研究所的細(xì)菌數(shù)據(jù)庫(kù))/tdb/
TubercuList(MycobacteriumtuberculosisH37Rvgenomedatabase分支結(jié)核桿菌H37Rv基因組數(shù)據(jù)庫(kù))http://www.pasteur.fr/Bio/TubercuList/
GeneCards(GeneCards:humangenes,proteinanddiseases
基因卡:人基因、蛋白和疾?。﹉ttp://bioinformatics.weizmann.ac.il/cards/
ZFIN(ZebrafishInformationNetworkgenomedatabase
斑馬魚(yú)信息網(wǎng)基因組數(shù)據(jù)庫(kù))/ZFIN/酵母功能庫(kù)http://www.mips.biochem.mpg.de/proj/yeast/pathways/index.html
MIM(OnlineMendelianInheritan69ExPASy(swissinstituteofBioinfomativcs)http://www.isb-sib.ch/(proteomics,proteinprediction)SWISS-PROThttp://www.expasy.ch/sprot-top.html
PIR(ProteinsequencedatabaseoftheProteinInformationResource
蛋白質(zhì)信息資源數(shù)據(jù)庫(kù))/
/pir/
GDB/
PDB(ProteinDataBank
蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù))/pdb/
http://www2.ebi.ac.uk/pdb/
.au/pdb/
http://pdb.weizmann.ac.il/
/npdb/
SCOP/scop/
/scop/
http://scop.mrc-lmb.cam.ac.uk/scop/
BLOCKS(BLOCKS蛋白質(zhì)模塊數(shù)據(jù)庫(kù))/
DOMO(ProteinDomaindatabase
蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫(kù))biogen.fr/~gracy/domo
ECO2DBASE(Escherichiacoligene-proteindatabase(2Dgelspots)
大腸桿菌基因-蛋白數(shù)據(jù)庫(kù))/eco2dbase/
ENZYME(Enzymesnomenclaturedatabase
酶命名數(shù)據(jù)庫(kù))http://www.expasy.ch/enzyme/
GCRDb(Gprotein-coupledreceptordatabase
G蛋白耦聯(lián)受體數(shù)據(jù)庫(kù))/
ExPASy(swissinstituteofBio70HSSP(Homology-derivedsecondarystructureofproteinsdatabase蛋白質(zhì)同源二級(jí)結(jié)構(gòu)數(shù)據(jù)庫(kù))http://www.sander.ebi.ac.uk/hssp/Pfam(Pfamproteindomaindatabase
蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫(kù))/Pfam/
http://www.sanger.ac.uk/Pfam/
PRINTS(ProteinMotiffingerprintdatabase
蛋白質(zhì)模式數(shù)據(jù)庫(kù))http://bioinf.man.ac.uk/bsm/dbbrowser/PRINTS/
ProDom(ProDomProteindomaindatabase
蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫(kù))http://protein.toulouse.inra.fr/prodom.html
PROSITE(PROSITE:proteindomainsandfamiliesdatabase
蛋白質(zhì)結(jié)構(gòu)域和家族數(shù)據(jù)庫(kù))http://www.expasy.ch/prosite/
REBASE(Restrictionenzymesandmethylasesdatabase
限制性酶和甲基化酶數(shù)據(jù)庫(kù))/
TrEMBLNRL-3DNRDBPDBsumMMDB/Structure/MMDB/mmdb.shtml
dbSNP/SNP/
二級(jí)結(jié)構(gòu)推導(dǎo)數(shù)據(jù)庫(kù)DSSPhttp://www.sander.embl-heidelberg.de/dssp/蛋白質(zhì)結(jié)構(gòu)(PSdb)
/~geigel/PSdb/PSdb.html
HSSP(Homology-derivedsecondar71EBIFSSPdatabase,foldclassificationbasedonstructure-structurealignmentofproteinshttp://www2.ebi.ac.uk/dali/fssp/
TRANSFAC(Transcriptionfactordatabase
轉(zhuǎn)錄因子數(shù)據(jù)庫(kù))http://transfac.gbf.de/TRANSFAC/
WormPep(Caenorhabditiselegansgenomesequencingprojectproteindatabase線(xiàn)蟲(chóng)基因組測(cè)序計(jì)劃蛋白數(shù)據(jù)庫(kù))http://www.sanger.ac.uk/Projects/C_elegans/wormpep/
YPD(Yeastproteindatabase
酵母蛋白質(zhì)數(shù)據(jù)庫(kù))/databases/YPD/
EPD真核基因啟動(dòng)子數(shù)據(jù)庫(kù)BODYMAP人和老鼠基因表達(dá)信息的數(shù)據(jù)庫(kù)http://bodymap.ims.u-tokyo.ac.jp/
DbEST/dbEST/DbSTS/dbSTS/
UniGene/UniGene/
SCPD:/jian/酵母細(xì)胞周期表達(dá)數(shù)據(jù)庫(kù):2/yeast_cell_cycle/cellcycle.html
微陣列基因表達(dá)數(shù)據(jù)庫(kù):/HomeoboxGenesDataBasehttp://www.iephb.nw.ru/labs/lab38/spirov/hox_pro/summary.html
EBIFSSPdatabase,foldclassi72分子生物學(xué)軟件1.分析和處理實(shí)驗(yàn)數(shù)據(jù)和公共數(shù)據(jù),加快研究進(jìn)度,縮短科研時(shí)間2.提示、指導(dǎo)、替代實(shí)驗(yàn)操作,利用對(duì)實(shí)驗(yàn)數(shù)據(jù)的分析所得的結(jié)論設(shè)計(jì)下一階段的實(shí)驗(yàn)3.用計(jì)算機(jī)管理實(shí)驗(yàn)室數(shù)據(jù)及文獻(xiàn)資料4.用計(jì)算機(jī)預(yù)測(cè)新基因及其結(jié)構(gòu)和功能5.蛋白高級(jí)結(jié)構(gòu)預(yù)測(cè)分子生物學(xué)軟件1.分析和處理實(shí)驗(yàn)數(shù)據(jù)和公共數(shù)據(jù),加快研究進(jìn)731.分析和處理實(shí)驗(yàn)數(shù)據(jù)和公共數(shù)據(jù),加快研究進(jìn)度,縮短科研時(shí)間蛋白:序列同源性比較,結(jié)構(gòu)信息分析(包括Motif,限制酶切點(diǎn),內(nèi)部重復(fù)序列的查找,氨基酸殘基組成及其親水性及疏水性分析),等電點(diǎn)及二級(jí)結(jié)構(gòu)預(yù)測(cè)等等核酸:序列同源性比較,分子進(jìn)化樹(shù)構(gòu)建,結(jié)構(gòu)信息分析,包括基元(Motif)、酶切點(diǎn)、重復(fù)片斷、堿基組成和分布、開(kāi)放閱讀框(ORF),蛋白編碼區(qū)(CDS)及外顯子預(yù)測(cè)、RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)、DNA片段的拼接本地序列與公共序列的聯(lián)接,成果擴(kuò)大1.分析和處理實(shí)驗(yàn)數(shù)據(jù)和公共數(shù)據(jù),加快研究進(jìn)度,縮短科74五、展望與建議五、展望與建議75基因組超大量的序列和結(jié)構(gòu)數(shù)據(jù)
?重大的發(fā)現(xiàn)第四次科學(xué)浪潮?基因組超大量的序列和結(jié)構(gòu)數(shù)據(jù)?重大的發(fā)現(xiàn)第四次科學(xué)浪潮76進(jìn)一步學(xué)習(xí)1、http://www.molbiol.ox.ac.uk/tutorials/year2_theory.html2、http://www3.oup.co.uk/nar/Volume_27/Issue_01/3、http://telomere.nrc.ca/html/dans_list.htm進(jìn)一步學(xué)習(xí)1、http://www.molbiol.ox.a77第九講
生物信息學(xué)將給生命科學(xué)帶來(lái)變革性的變化!Biologyisshiftingfrombeinganobservationalsciencetobeingaquantitativemolecularscience第九講
生物信息學(xué)將給生命科學(xué)帶來(lái)變革性的變化!78學(xué)習(xí)目的1、了解生物信息學(xué)的發(fā)展背景、定義2、理解生物信息學(xué)在生命科學(xué)研究中的作用3、理解數(shù)學(xué)、計(jì)算機(jī)科學(xué)如何在生物信息中的地位和作用4、了解基因芯片的檢測(cè)原理和制備方法學(xué)習(xí)目的1、了解生物信息學(xué)的發(fā)展背景、定義79第一節(jié)生物信息學(xué)
(Bioinformatics)一、生物學(xué)基礎(chǔ)(復(fù)習(xí))二、發(fā)展背景與定義三、研究?jī)?nèi)容四、研究現(xiàn)狀五、發(fā)展前景第一節(jié)生物信息學(xué)
(Bioinformatics)一、生物80一、生物學(xué)基礎(chǔ)表型與基因型(phenotypevs.genotype)遺傳信息的流動(dòng)基因的表達(dá)與調(diào)控分子進(jìn)化DNA序列分析:基因識(shí)別、調(diào)控元件識(shí)別、進(jìn)化分析mRNA:剪切位點(diǎn)識(shí)別、基因表達(dá)分析蛋白質(zhì):結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)間相互作用、亞細(xì)胞定位基因組:基因預(yù)測(cè)、進(jìn)化分析染色體:結(jié)構(gòu)分析網(wǎng)絡(luò):pathway建模細(xì)胞:系統(tǒng):一、生物學(xué)基礎(chǔ)表型與基因型(phenotypevs.ge81生物信息學(xué)全課件82二、發(fā)展背景和定義二、發(fā)展背景和定義83生物信息——廣義的概念生命現(xiàn)象是不同層次上的物質(zhì)、能量與信息的交換,不同層次是指核酸、蛋白質(zhì)、細(xì)胞、器官、系統(tǒng)、整體等研究生物體系和生物過(guò)程中信息的內(nèi)涵和信息的傳遞
生物電磁學(xué)與電磁生物學(xué)、視覺(jué)系統(tǒng)與光信息處理、腦和神經(jīng)系統(tǒng)與信息、生物體結(jié)構(gòu)與微光機(jī)電系統(tǒng)生物信息——廣義的概念生命現(xiàn)象是不同層次上的物質(zhì)、能量與信息84發(fā)展背景BiocomputingComputationalBiologyBioinformatics1986年,在EMBLHeidelberg成立Biocomputing部門(mén),命名為BIOinformatis.如果我們不能回答生物學(xué)問(wèn)題,作為計(jì)算生物學(xué)家是失敗的。1997年底創(chuàng)立了CABIOS(ComputerApplicationsintheBiosciences).weassert:computationalplanningandanalysisisanintegralpartofthebiologicaldiscoveryprocess.在完整基因組序列和高通量技術(shù)時(shí)代不要僅僅談?wù)摲治龊A繑?shù)據(jù)的挑戰(zhàn),相反,要談?wù)摷膊‘a(chǎn)生的風(fēng)險(xiǎn),關(guān)于人類(lèi)遺傳差異、基因型改變的進(jìn)化如何導(dǎo)致功能的改變,如何使用數(shù)據(jù)來(lái)回答這些問(wèn)題。發(fā)展背景Biocomputing85Background
背景19651970197519801985199019952000100,00010,0001,0001001010.10.010.001×1,000MedlineRecordsTransistors/ChipDNASequences3DStructuresCumulativeGrowthofBiologicalInformationandComputerPowerMarkBogulski(1998)Bioinformatics:ANewEraBackground86生物醫(yī)藥工業(yè)提供大量基因序列分析的工具,在以下方面加快新藥開(kāi)發(fā)的進(jìn)程:
資料的獲取、包括從數(shù)據(jù)庫(kù)中尋找新藥開(kāi)發(fā)者感興趣的基因序列和相關(guān)資料文獻(xiàn)基因功能的預(yù)測(cè)和基因生理作用的預(yù)測(cè)需要大量信息處理的藥物篩選和加工過(guò)程(WeinsteinJNetal.,1997)
生物醫(yī)藥工業(yè)提供大量基因序列分析的工具,在以下方面87DefinitionofBioinformatics(1)Bioinformaticsisdefinedasascientificdisciplinethatencompassesallaspectsofbiologicalinformationacquisition,processing,storage,distribution,analysisandinterpretation,thatcombinesthetoolsandtechniquesofmathematics,computerscienceandbiologywiththeaimofunderstandingthebiologicalsignificanceofavarietyofdata.生物信息學(xué)是一門(mén)交叉學(xué)科。它包含了生物信息的獲取、處理、存儲(chǔ)、分發(fā)、分析和解釋等在內(nèi)的所有方面,它綜合運(yùn)用數(shù)學(xué)、計(jì)算機(jī)科學(xué)和生物學(xué)的各種工具,來(lái)闡明和理解大量數(shù)據(jù)所包含的生物學(xué)意義。UnderstandingOurGeneticInheritance.TheUSHumanGenomeProject:TheFirstFiveYears1991-1995.NIHPublibcationNo.901590,April,1995DefinitionofBioinformatics(88DefinitionofBioinformatics(2)Bioinformaticsisconceptualisingbiologyintermsofmolecules(inthesenseofPhysicalchemistry)andapplying“informaticstechniques”(derivedfromdisciplinessuchasappliedmaths,computerscienceandstatistics)tounderstandandorganisetheinformationassociatedwiththesemolecules,onalargescale.OxfordEnglishDictionaryDefinitionofBioinformatics(89ComputationInformaticsBiologyBioinformaticsComputationInformaticsBiologyB90算法統(tǒng)計(jì)學(xué)信息理論圖形學(xué)科學(xué)可視化圖像識(shí)別人工智能密碼學(xué)非線(xiàn)性動(dòng)力學(xué)計(jì)算機(jī)模擬語(yǔ)言學(xué)機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)軟件工程計(jì)算機(jī)網(wǎng)絡(luò)分布式系統(tǒng)數(shù)據(jù)獲取數(shù)據(jù)解釋基因組圖譜三維結(jié)構(gòu)預(yù)測(cè)分子建模藥物設(shè)計(jì)同源比較分子進(jìn)化數(shù)據(jù)庫(kù)檢索基因預(yù)測(cè)儀器設(shè)計(jì)數(shù)據(jù)庫(kù)構(gòu)建基因調(diào)控基因診斷及治療生物信息學(xué)計(jì)算機(jī)科學(xué)和數(shù)學(xué)分子生物學(xué)
算法數(shù)據(jù)獲取生物信息學(xué)計(jì)算機(jī)科學(xué)和數(shù)學(xué)分子生物學(xué)
91生物信息學(xué)研究意義利用數(shù)理統(tǒng)計(jì)、模式識(shí)別、動(dòng)態(tài)規(guī)劃、密碼解讀、語(yǔ)意解析、信令傳遞、神經(jīng)網(wǎng)絡(luò)、遺傳算法以及隱馬氏模型等各種方法對(duì)序列、結(jié)構(gòu)數(shù)據(jù)進(jìn)行定性和定量分析,從中獲取基因編碼、基因調(diào)控、序列-結(jié)構(gòu)-功能關(guān)系等理性知識(shí)闡明細(xì)胞、器官和個(gè)體的發(fā)生、發(fā)育、病變、衰亡的基本規(guī)律和時(shí)空聯(lián)系探索生命起源、生物進(jìn)化、生命本質(zhì)等重大理論問(wèn)題,最終建立“生物學(xué)周期表”指導(dǎo)分子生物學(xué)實(shí)驗(yàn)生物信息學(xué)研究意義利用數(shù)理統(tǒng)計(jì)、模式識(shí)別、動(dòng)態(tài)規(guī)劃、密碼解讀92生物信息學(xué)全課件93生物信息學(xué)–研究方向基因組序列裝配基因識(shí)別基因功能預(yù)報(bào)基因多態(tài)性分析基因進(jìn)化mRNA結(jié)構(gòu)預(yù)測(cè)基因芯片設(shè)計(jì)基因芯片數(shù)據(jù)分析疾病相關(guān)基因分析蛋白質(zhì)序列分析蛋白質(zhì)家族分類(lèi)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)蛋白質(zhì)折疊研究代謝途徑分析轉(zhuǎn)錄調(diào)控機(jī)制蛋白質(zhì)芯片設(shè)計(jì)蛋白質(zhì)芯片數(shù)據(jù)分析藥物設(shè)計(jì)生物信息學(xué)–研究方向基因組序列裝配蛋白質(zhì)序列分析94三、生物信息學(xué)的研究?jī)?nèi)容數(shù)學(xué)、計(jì)算機(jī)科學(xué)、生物學(xué)1、與HGP相關(guān)的研究?jī)?nèi)容2、功能基因組研究相關(guān)內(nèi)容3、蛋白組學(xué)相關(guān)4、基因芯片信息學(xué)研究三、生物信息學(xué)的研究?jī)?nèi)容數(shù)學(xué)、計(jì)算機(jī)科學(xué)、生物學(xué)95Statistics統(tǒng)計(jì)學(xué)ProbabilityTheory概率論(特別是隨機(jī)過(guò)程理論)OperationalResearch運(yùn)籌學(xué)OptimizationTheory&Method最優(yōu)化理論與方法Topology拓?fù)鋵W(xué)(主要是幾何拓?fù)洌〧unctionTheory函數(shù)論InformationTheory信息論ComputationalMathematics計(jì)算數(shù)學(xué)GroupTheory群論數(shù)學(xué)(Maths)Statistics統(tǒng)計(jì)學(xué)ProbabilityTheo96幾個(gè)常用數(shù)學(xué)模型概念與方法Bayes公式、Bayes統(tǒng)計(jì)馬氏鏈(Markovchains)隱馬氏鏈(HiddenMarkovchains)Poisson過(guò)程與連續(xù)時(shí)間馬氏鏈熵、相對(duì)熵與信息增益神經(jīng)網(wǎng)絡(luò)(neuralnetworks(NN)):Multi-layerfeed-forwardNN,self-organizedlearningNN,recurrentNN(HopfieldNN,Bolztmannmachine)幾個(gè)常用數(shù)學(xué)模型概念與方法Bayes公式、Bayes統(tǒng)97網(wǎng)絡(luò)技術(shù)數(shù)據(jù)庫(kù)(特別是關(guān)系型數(shù)據(jù)庫(kù))數(shù)據(jù)整合和可視化數(shù)據(jù)挖掘基于Unix操作系統(tǒng)的各種軟件包一些重要的算法的復(fù)雜性研究計(jì)算機(jī)科學(xué)(ComputerScience)計(jì)算機(jī)硬件網(wǎng)絡(luò)技術(shù)數(shù)據(jù)庫(kù)(特別是關(guān)系型數(shù)據(jù)庫(kù))數(shù)據(jù)整合和可視化數(shù)據(jù)挖98生物信息學(xué)研究?jī)?nèi)容Alignment
(序列比對(duì))[包括:全序列、局部和多重比對(duì);Fasta,Blast,PSI-Blast]ProteinStructurePrediction
(蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè))Computer-AidedGeneRecognitions
(計(jì)算機(jī)輔助基因識(shí)別)[算法紛紜,較著名的為GeneScan,GeneFinder,等;尚存在許多問(wèn)題]DNALanguage
(DNA語(yǔ)言)MolecularEvolution&ComparedGenomics
(分子進(jìn)化和比較基因組學(xué))ContigAssembly
(序列重疊群裝配)OriginofGeneticCodes
(遺傳密碼的起源)AnalysisofMetabolizeNetwork
(代謝網(wǎng)絡(luò)分析)GeneChipDesign
(基因芯片設(shè)計(jì))生物信息學(xué)研究?jī)?nèi)容Alignment(序列比對(duì))[包99與HGP相關(guān)的生物信息學(xué)研究1、高度自動(dòng)化的實(shí)驗(yàn)數(shù)據(jù)的獲得、加工和整理各種自動(dòng)化分子生物學(xué)儀器應(yīng)用上,如DNA測(cè)序儀,PCR儀等實(shí)驗(yàn)過(guò)程高度自動(dòng)化甚至工廠(chǎng)化,產(chǎn)生的海量數(shù)據(jù)(gigabyte),專(zhuān)門(mén)的實(shí)驗(yàn)室數(shù)據(jù)管理系統(tǒng)自動(dòng)完成包括實(shí)驗(yàn)進(jìn)程和實(shí)驗(yàn)數(shù)據(jù)的紀(jì)錄,常規(guī)數(shù)據(jù)分析,數(shù)據(jù)質(zhì)量檢測(cè)和問(wèn)題的自動(dòng)查找,常規(guī)的數(shù)據(jù)說(shuō)明和數(shù)據(jù)輸入數(shù)據(jù)庫(kù)。目前還沒(méi)有成熟的通用的分子生物學(xué)數(shù)據(jù)管理系統(tǒng)。與HGP相關(guān)的生物信息學(xué)研究1、高度自動(dòng)化的實(shí)驗(yàn)數(shù)據(jù)的獲得1002、序列片段的拼接目前DNA自動(dòng)測(cè)序儀每個(gè)反應(yīng)只能測(cè)序500bp左右,傳統(tǒng)測(cè)序方法是將克隆進(jìn)行亞克隆并對(duì)亞克隆進(jìn)行排序。自動(dòng)而高速拼接序列的算法,Lander-Waterman模型(LanderESandWatermanMS,1998)利用鳥(niǎo)槍法進(jìn)行測(cè)序,再將大量隨機(jī)測(cè)序的片段用計(jì)算機(jī)進(jìn)行自動(dòng)拼接。1.9MbHaemophilusinfluenzae(流感嗜血桿菌)(FleischmannRDetal.,1995)0.58MbMycoplasmugenitalium(枝原體)(FraserCMetal.,1995)0.58Mbjannaschii(甲烷桿菌)(BultCJetal.,1996)有待改進(jìn):將已知的基因組知識(shí)應(yīng)用于拼接算法,進(jìn)一步提高拼接真核基因組的有效性;自動(dòng)處理自動(dòng)測(cè)序造成的差錯(cuò)2、序列片段的拼接目前DNA自動(dòng)測(cè)序儀每個(gè)反應(yīng)只能測(cè)序500101生物信息學(xué)全課件102AlignmentAlignment
(序列比對(duì)、聯(lián)配、對(duì)齊等)
包括:全序列、局部多重比對(duì);Fasta,Blast,PSI-BlastAGCGGTGCAGGTTACTGCGCGTAGTAC…|||ACGGTGCGGTTACTGCGGCGTAGTAC…AGCGGTGCAGGTTACTGCGCGTAGTAC…||||||||||||||||||A_CGGTGCGGTTACTGCGGCGTAGTAC…AGCGGTGCAGGTTACTGCGCGTAGTAC…|||||||||||||||||A_CGGTGC_GGTTACTGCGGCGTAGTAC…AGCGGTGCAGGTTACTGC_GCGTAGTAC…|||||||||||||||||||||||||A_CGGTGC_GGTTACTGCGGCGTAGTAC…序列一序列二AlignmentAlignmentAGCGGT103RawDNAsequenceGeneBank:11.5Millonsequence12.5billionbasesSeparatingcodingandnon-codingIdentificationofintronsandexonsGeneproductpredictionForensicanalysisRawDNAsequenceGeneBank:104基因識(shí)別識(shí)別基因組編碼區(qū),識(shí)別基因結(jié)構(gòu)1、同源比較(DNA序列、EST)2、基因預(yù)測(cè)(不是用同源搜索的方法來(lái)識(shí)別基因) 從頭開(kāi)始基因預(yù)測(cè) 基于知識(shí)的基因預(yù)測(cè)(密碼子使用,堿基組成,剪切位點(diǎn)特征,PolyA信號(hào),2、3、6核苷酸頻率,轉(zhuǎn)錄信號(hào),轉(zhuǎn)譯信號(hào),尺寸分布)基因識(shí)別識(shí)別基因組編碼區(qū),識(shí)別基因結(jié)構(gòu)105基因預(yù)測(cè)的步驟:1、識(shí)別可能的外顯子2、辨別起始/內(nèi)部/終止外顯子3、把起始、一些內(nèi)部的和終止外顯子的連起來(lái),形成可能的基因4、確保該可能的基因沒(méi)有內(nèi)部的移位或終止密碼子5、leftovers:shadowexons算法:Rule-basedsystem,linguisticsystem,lineardiscriminantanalysis,decisiontree,splicedalignment,fourieranalysis基因預(yù)測(cè)的步驟:106生物信息學(xué)全課件107生物信息學(xué)全課件108EvaluatingGenePrediction敏感性(Sensitivity)敏感性=預(yù)測(cè)基因中確為基因的數(shù)目/待測(cè)序列中的基因數(shù)目;Howmanyexonswerecorrectlypredicted?特異性(Specifity)特異性=預(yù)測(cè)基因中確為基因的數(shù)目/預(yù)測(cè)基因數(shù)目Howmanyexonpredictionsaretrue?EvaluatingGenePrediction敏感性(109生物學(xué)家們?yōu)槿祟?lèi)基因的數(shù)目打賭雖然人類(lèi)基因組的草圖很快就要完成,但生物學(xué)家們對(duì)基因組里到底有多少基因的猜測(cè)仍有極大的不同。最近在美國(guó)紐約冷泉港召開(kāi)的一個(gè)會(huì)議上,他們?cè)O(shè)立了一美元一個(gè)(次)的基因數(shù)目賭注。勝者將于2003年揭曉,他除了可獲得全部賭金外,還可得到一本由DNA結(jié)構(gòu)的發(fā)現(xiàn)者JamesWatson親筆簽名的皮革封面《雙螺旋》一書(shū)。如果基因組是生命的天書(shū),那么基因就是寫(xiě)成這本書(shū)的詞匯。生物學(xué)家們一直假設(shè),微生物的故事較短,而人類(lèi)的故事則是一部巨作,人類(lèi)擁有8萬(wàn)到10萬(wàn)個(gè)基因。但是美國(guó)加州大學(xué)伯克利分校的果蠅基因組計(jì)劃的主任GeraldRubin指出,果蠅的基因比我們所認(rèn)為的最簡(jiǎn)單的線(xiàn)蟲(chóng)少了5000個(gè)。他警告說(shuō):“生物體的復(fù)雜性并不是簡(jiǎn)單地與基因數(shù)量相關(guān)聯(lián)的?!贝_實(shí),根據(jù)目前已測(cè)序完成的人類(lèi)基因組第21對(duì)、22對(duì)染色體的經(jīng)驗(yàn),德國(guó)分子生物技術(shù)研究所的AndreRosenthal說(shuō),我們得出的結(jié)論是整個(gè)基因組有不多于4萬(wàn)個(gè)基因。法國(guó)的分子遺傳學(xué)家HuguesRoestCrollius通過(guò)比較現(xiàn)有的人類(lèi)基因序列與淡水河豚基因序列,提出了更低的人類(lèi)基因數(shù)估計(jì):在27700與34300之間。美國(guó)西雅圖華盛頓大學(xué)的基因?qū)W家PhilGreen是常用的組合基因序列數(shù)據(jù)的程序PHRED和PHRAP的發(fā)明人,他提出人類(lèi)基因數(shù)大約為35000。Green說(shuō):“我們使用了3種獨(dú)立的計(jì)算方法得出了這些較低的基因數(shù)估計(jì),我確信基因數(shù)目就在這個(gè)范圍內(nèi)。”美國(guó)國(guó)家人類(lèi)基因組研究所主任FrancisCollins表示他同意Green的估計(jì),將他1美元的賭金下在48011個(gè)基因上。但馬里蘭Rockville的基因組研究所(TIGR)的JohnQuackenbush根據(jù)TIGR的人類(lèi)基因指數(shù)的估計(jì),將他的1美元賭在118259個(gè)基因上。加州IncyteGenomics公司的SamLaBrie賭的基因數(shù)是153478個(gè),該公司在1999年9月曾宣布人類(lèi)基因至少有14萬(wàn)個(gè)。但是支持人類(lèi)基因數(shù)目是一個(gè)較小數(shù)的科學(xué)家們也不灰心,他們爭(zhēng)論說(shuō)生物體的復(fù)雜性來(lái)自于基因如何被管理或表達(dá)的,而不是基因數(shù)目本身。Rosenthal解釋說(shuō):“我們不需要那么多的基因成為高等動(dòng)物,”他賭的是38000個(gè)。你賭多少呢?生物學(xué)家們?yōu)槿祟?lèi)基因的數(shù)目打賭110基因功能預(yù)測(cè)(1)序列同源比較如果基因A與基因B有相當(dāng)?shù)耐葱?,那么基因A可能具有類(lèi)似基因B的功能。公共數(shù)據(jù)庫(kù):GenBank,EMBL,DDBJ功能數(shù)據(jù)庫(kù):dbEST,dbSTS,dbGSS(
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024 年松江區(qū)旅游企業(yè)服務(wù)質(zhì)量顧客滿(mǎn)意度調(diào)研報(bào)告
- 5年中考3年模擬試卷初中生物八年級(jí)下冊(cè)第四節(jié)人的性別遺傳
- 學(xué)校校園及周邊治安安全隱患排查情況登記表
- 高中語(yǔ)文《記念劉和珍君》隨堂練習(xí)(含答案)
- 花城版六年級(jí)下冊(cè)音樂(lè)全冊(cè)教案
- 公共場(chǎng)所衛(wèi)生指標(biāo)及限值要求
- DB11-T 2058-2022 建設(shè)項(xiàng)目環(huán)境影響評(píng)價(jià)技術(shù)指南 汽車(chē)維修
- 5G通信辦公大樓翻新招標(biāo)
- 書(shū)法教室內(nèi)部設(shè)計(jì)合同模板
- 乳制品冷鏈年運(yùn)輸合同
- 幼教數(shù)字化轉(zhuǎn)型模板
- 【人教版】《勞動(dòng)教育》五上 勞動(dòng)項(xiàng)目三《制作扇子》 課件
- 父母贈(zèng)予孩子現(xiàn)金的贈(zèng)予合同(2篇)
- 小學(xué)語(yǔ)文一年級(jí)上冊(cè)《秋天》評(píng)課稿
- 第三單元(單元測(cè)試)-2024-2025學(xué)年四年級(jí)上冊(cè)數(shù)學(xué)人教版
- 護(hù)理示教室管理制度
- 廣東省廣州市2024-2025學(xué)年上學(xué)期八年級(jí)數(shù)學(xué)期中復(fù)習(xí)試卷
- 第三單元 文明與家園 大單元教學(xué)設(shè)計(jì)-2023-2024學(xué)年部編版道德與法治九年級(jí)上冊(cè)
- 義務(wù)教育書(shū)法課程標(biāo)準(zhǔn)2023版
- 第四章-國(guó)防動(dòng)員
- GA/T 383-2014法庭科學(xué)DNA實(shí)驗(yàn)室檢驗(yàn)規(guī)范
評(píng)論
0/150
提交評(píng)論