普通生物學(xué) -生命科學(xué)通論_第1頁(yè)
普通生物學(xué) -生命科學(xué)通論_第2頁(yè)
普通生物學(xué) -生命科學(xué)通論_第3頁(yè)
普通生物學(xué) -生命科學(xué)通論_第4頁(yè)
普通生物學(xué) -生命科學(xué)通論_第5頁(yè)
已閱讀5頁(yè),還剩72頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、生物信息學(xué)將給生命科學(xué)帶來(lái)變革性的變化!Biology is shifting from being an observational science to being a quantitative molecular science學(xué)習(xí)目的1、了解生物信息學(xué)的發(fā)展背景、定義2、理解生物信息學(xué)在生命科學(xué)研究中的作用3、理解數(shù)學(xué)、計(jì)算機(jī)科學(xué)如何在生物信息中的地位和作用4、了解基因芯片的檢測(cè)原理和制備方法第一節(jié) 生物信息學(xué)(Bioinformatics)一、生物學(xué)基礎(chǔ)(復(fù)習(xí))二、發(fā)展背景與定義三、研究?jī)?nèi)容四、研究現(xiàn)狀五、發(fā)展前景一、生物學(xué)基礎(chǔ)表型與基因型(phenotype vs. genotyp

2、e)遺傳信息的流動(dòng)基因的表達(dá)與調(diào)控分子進(jìn)化DNA序列分析:基因識(shí)別、調(diào)控元件識(shí)別、進(jìn)化分析mRNA:剪切位點(diǎn)識(shí)別、基因表達(dá)分析蛋白質(zhì):結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)間相互作用、亞細(xì)胞定位基因組:基因預(yù)測(cè)、進(jìn)化分析染色體:結(jié)構(gòu)分析網(wǎng)絡(luò):pathway建模細(xì)胞: 系統(tǒng):二、發(fā)展背景和定義生物信息廣義的概念生命現(xiàn)象是不同層次上的物質(zhì)、能量與信息的交換,不同層次是指核酸、蛋白質(zhì)、細(xì)胞、器官、系統(tǒng)、整體等研究生物體系和生物過(guò)程中信息的內(nèi)涵和信息的傳遞 生物電磁學(xué)與電磁生物學(xué)、視覺(jué)系統(tǒng)與光信息處理、腦和神經(jīng)系統(tǒng)與信息、生物體結(jié)構(gòu)與微光機(jī)電系統(tǒng)發(fā)展背景BiocomputingComputational BiologyBi

3、oinformatics1986年,在EMBL Heidelberg成立Biocomputing部門(mén),命名為BIOinformatis.如果我們不能回答生物學(xué)問(wèn)題,作為計(jì)算生物學(xué)家是失敗的。1997年底創(chuàng)立了CABIOS(Computer Applications in the Biosciences).we assert:computational planning and analysis is an integral part of the biological discovery process.在完整基因組序列和高通量技術(shù)時(shí)代不要僅僅談?wù)摲治龊A繑?shù)據(jù)的挑戰(zhàn),相反,要談?wù)摷膊‘a(chǎn)生的風(fēng)險(xiǎn)

4、,關(guān)于人類遺傳差異、基因型改變的進(jìn)化如何導(dǎo)致功能的改變,如何使用數(shù)據(jù)來(lái)回答這些問(wèn)題。Background 背景1965 1970 1975 1980 1985 1990 1995 2000100,00010,0001,0001001010.10.010.0011,000Medline RecordsTransistors/ChipDNA Sequences3D StructuresCumulative Growth of Biological Information and Computer PowerMark Bogulski (1998) Bioinformatics: A New Era

5、生物醫(yī)藥工業(yè) 提供大量基因序列分析的工具,在以下方面加快新藥開(kāi)發(fā)的進(jìn)程:資料的獲取、包括從數(shù)據(jù)庫(kù)中尋找新藥開(kāi)發(fā)者感興趣的基因序列和相關(guān)資料文獻(xiàn)基因功能的預(yù)測(cè)和基因生理作用的預(yù)測(cè)需要大量信息處理的藥物篩選和加工過(guò)程(Weinstein JN et al. ,1997) Definition of Bioinformatics (1)Bioinformatics is defined as a scientific discipline that encompasses all aspects of biological information acquisition, processing, s

6、torage, distribution, analysis and interpretation, that combines the tools and techniques of mathematics, computer science and biology with the aim of understanding the biological significance of a variety of data.生物信息學(xué)是一門(mén)交叉學(xué)科。它包含了生物信息的獲取、處理、存儲(chǔ)、分發(fā)、分析和解釋等在內(nèi)的所有方面,它綜合運(yùn)用數(shù)學(xué)、計(jì)算機(jī)科學(xué)和生物學(xué)的各種工具,來(lái)闡明和理解大量數(shù)據(jù)所包含的生

7、物學(xué)意義。Understanding Our Genetic Inheritance. The US Human Genome Project: The First Five Years 1991-1995. NIH Publibcation No. 901590, April, 1995Definition of Bioinformatics (2)Bioinformatics is conceptualising biology in terms of molecules(in the sense of Physical chemistry) and applying “informati

8、cs techniques” (derived from disciplines such as applied maths, computer science and statistics) to understand and organise the information associated with these molecules, on a large scale.Oxford English DictionaryComputationInformaticsBiologyBioinformatics算法統(tǒng)計(jì)學(xué)信息理論圖形學(xué)科學(xué)可視化圖像識(shí)別人工智能密碼學(xué)非線性動(dòng)力學(xué)計(jì)算機(jī)模擬語(yǔ)言學(xué)

9、機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)軟件工程計(jì)算機(jī)網(wǎng)絡(luò)分布式系統(tǒng)數(shù)據(jù)獲取數(shù)據(jù)解釋基因組圖譜三維結(jié)構(gòu)預(yù)測(cè)分子建模藥物設(shè)計(jì)同源比較分子進(jìn)化數(shù)據(jù)庫(kù)檢索基因預(yù)測(cè)儀器設(shè)計(jì)數(shù)據(jù)庫(kù)構(gòu)建基因調(diào)控基因診斷及治療生物信息學(xué)計(jì)算機(jī)科學(xué)和數(shù)學(xué)分子生物學(xué)生物信息學(xué)研究意義利用數(shù)理統(tǒng)計(jì)、模式識(shí)別、動(dòng)態(tài)規(guī)劃、密碼解讀、語(yǔ)意解析、信令傳遞、神經(jīng)網(wǎng)絡(luò)、遺傳算法以及隱馬氏模型等各種方法對(duì)序列、結(jié)構(gòu)數(shù)據(jù)進(jìn)行定性和定量分析,從中獲取基因編碼、基因調(diào)控、序列-結(jié)構(gòu)-功能關(guān)系等理性知識(shí)闡明細(xì)胞、器官和個(gè)體的發(fā)生、發(fā)育、病變、衰亡的基本規(guī)律和時(shí)空聯(lián)系探索生命起源、生物進(jìn)化、生命本質(zhì)等重大理論問(wèn)題,最終建立“生物學(xué)周期表”指導(dǎo)分子生物學(xué)實(shí)驗(yàn)生物信息學(xué) 研究方向基

10、因組序列裝配基因識(shí)別基因功能預(yù)報(bào)基因多態(tài)性分析基因進(jìn)化mRNA結(jié)構(gòu)預(yù)測(cè)基因芯片設(shè)計(jì)基因芯片數(shù)據(jù)分析疾病相關(guān)基因分析蛋白質(zhì)序列分析蛋白質(zhì)家族分類蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)蛋白質(zhì)折疊研究代謝途徑分析轉(zhuǎn)錄調(diào)控機(jī)制蛋白質(zhì)芯片設(shè)計(jì)蛋白質(zhì)芯片數(shù)據(jù)分析藥物設(shè)計(jì)三、生物信息學(xué)的研究?jī)?nèi)容數(shù)學(xué)、計(jì)算機(jī)科學(xué)、生物學(xué)1、與HGP相關(guān)的研究?jī)?nèi)容2、功能基因組研究相關(guān)內(nèi)容3、蛋白組學(xué)相關(guān)4、基因芯片信息學(xué)研究Statistics 統(tǒng)計(jì)學(xué)Probability Theory 概率論 (特別是隨機(jī)過(guò)程理論)Operational Research 運(yùn)籌學(xué)Optimization Theory & Method 最優(yōu)化理論與方法Topol

11、ogy 拓?fù)鋵W(xué) (主要是幾何拓?fù)洌〧unction Theory 函數(shù)論Information Theory 信息論Computational Mathematics 計(jì)算數(shù)學(xué)Group Theory 群論數(shù)學(xué)(Maths)幾個(gè)常用 數(shù)學(xué)模型概念與方法Bayes 公式、 Bayes統(tǒng)計(jì)馬氏鏈 (Markov chains)隱馬氏鏈 (Hidden Markov chains)Poisson 過(guò)程與連續(xù)時(shí)間馬氏鏈熵、相對(duì)熵與信息增益神經(jīng)網(wǎng)絡(luò) (neural networks (NN): Multi-layer feed-forward NN, self-organized learning NN

12、, recurrent NN(Hopfield NN, Bolztmann machine )網(wǎng)絡(luò)技術(shù)數(shù)據(jù)庫(kù) (特別是關(guān)系型數(shù)據(jù)庫(kù))數(shù)據(jù)整合和可視化數(shù)據(jù)挖掘基于Unix操作系統(tǒng)的各種軟件包一些重要的算法的復(fù)雜性研究計(jì)算機(jī)科學(xué)(Computer Science)計(jì)算機(jī)硬件生物信息學(xué)研究?jī)?nèi)容 Alignment (序列比對(duì)) 包括:全序列、局部和多重比對(duì);Fasta, Blast, PSI-Blast Protein Structure Prediction (蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)) Computer-Aided Gene Recognitions (計(jì)算機(jī)輔助基因識(shí)別) 算法紛紜,較著名的為GeneS

13、can, GeneFinder, 等;尚存在許多問(wèn)題 DNA Language (DNA語(yǔ)言) Molecular Evolution & Compared Genomics (分子進(jìn)化和比較基因組學(xué)) Contig Assembly (序列重疊群裝配) Origin of Genetic Codes (遺傳密碼的起源) Analysis of Metabolize Network (代謝網(wǎng)絡(luò)分析) GeneChip Design (基因芯片設(shè)計(jì))與HGP相關(guān)的生物信息學(xué)研究 1、高度自動(dòng)化的實(shí)驗(yàn)數(shù)據(jù)的獲得、加工和整理各種自動(dòng)化分子生物學(xué)儀器應(yīng)用上,如DNA測(cè)序儀,PCR儀等實(shí)驗(yàn)過(guò)程高度自動(dòng)化

14、甚至工廠化,產(chǎn)生的海量數(shù)據(jù)(gigabyte),專門(mén)的實(shí)驗(yàn)室數(shù)據(jù)管理系統(tǒng)自動(dòng)完成包括實(shí)驗(yàn)進(jìn)程和實(shí)驗(yàn)數(shù)據(jù)的紀(jì)錄,常規(guī)數(shù)據(jù)分析,數(shù)據(jù)質(zhì)量檢測(cè)和問(wèn)題的自動(dòng)查找,常規(guī)的數(shù)據(jù)說(shuō)明和數(shù)據(jù)輸入數(shù)據(jù)庫(kù)。目前還沒(méi)有成熟的通用的分子生物學(xué)數(shù)據(jù)管理系統(tǒng)。 2、序列片段的拼接目前DNA自動(dòng)測(cè)序儀每個(gè)反應(yīng)只能測(cè)序500bp左右,傳統(tǒng)測(cè)序方法是將克隆進(jìn)行亞克隆并對(duì)亞克隆進(jìn)行排序。自動(dòng)而高速拼接序列的算法,Lander-Waterman模型(Lander ES and Waterman MS,1998)利用鳥(niǎo)槍法進(jìn)行測(cè)序,再將大量隨機(jī)測(cè)序的片段用計(jì)算機(jī)進(jìn)行自動(dòng)拼接。1.9Mb Haemophilus influenzae(

15、流感嗜血桿菌)(Fleischmann RD et al. ,1995)0.58Mb Mycoplasmu genitalium(枝原體)(Fraser CM et al. ,1995) 0.58Mb jannaschii(甲烷桿菌) (Bult CJ et al. ,1996)有待改進(jìn):將已知的基因組知識(shí)應(yīng)用于拼接算法,進(jìn)一步提高拼接真核基因組的有效性;自動(dòng)處理自動(dòng)測(cè)序造成的差錯(cuò)Alignment Alignment (序列比對(duì)、聯(lián)配、 對(duì)齊等) 包括:全序列、局部 多重比對(duì); Fasta, Blast, PSI-BlastAGCGGTGCAGGTTACTGCGCGTAGTAC| | | A

16、CGGTGCGGTTACTGCGGCGTAGTACAGCGGTGCAGGTTACTGCGCGTAGTAC| | | | | A_CGGTGCGGTTACTGCGGCGTAGTACAGCGGTGCAGGTTACTGCGCGTAGTAC| | | A_CGGTGC_GGTTACTGCGGCGTAGTACAGCGGTGCAGGTTACTGC_GCGTAGTAC| | | |A_CGGTGC_GGTTACTGCGGCGTAGTAC序列一序列二Raw DNA sequenceGeneBank: 11.5Millon sequence 12.5billion basesSeparating coding

17、and non-coding Identification of introns and exonsGene product predictionForensic analysis基因識(shí)別識(shí)別基因組編碼區(qū),識(shí)別基因結(jié)構(gòu)1、同源比較(DNA序列、EST)2、基因預(yù)測(cè)(不是用同源搜索的方法來(lái)識(shí)別基因)從頭開(kāi)始基因預(yù)測(cè)基于知識(shí)的基因預(yù)測(cè)(密碼子使用,堿基組成,剪切位點(diǎn)特征,PolyA信號(hào),2、3、6核苷酸頻率,轉(zhuǎn)錄信號(hào),轉(zhuǎn)譯信號(hào),尺寸分布)基因預(yù)測(cè)的步驟:1、識(shí)別可能的外顯子2、辨別起始/內(nèi)部/終止外顯子3、把起始、一些內(nèi)部的和終止外顯子的連起來(lái),形成可能的基因4、確保該可能的基因沒(méi)有內(nèi)部的移位或終

18、止密碼子5、leftovers:shadow exons算法: Rule-based system, linguistic system, linear discriminant analysis, decision tree, spliced alignment, fourier analysisEvaluating Gene Prediction敏感性(Sensitivity)敏感性=預(yù)測(cè)基因中確為基因的數(shù)目/待測(cè)序列中的基因數(shù)目;How many exons were correctly predicted?特異性(Specifity)特異性=預(yù)測(cè)基因中確為基因的數(shù)目/預(yù)測(cè)基因數(shù)目How

19、 many exon predictions are true?生物學(xué)家們?yōu)槿祟惢虻臄?shù)目打賭 雖然人類基因組的草圖很快就要完成,但生物學(xué)家們對(duì)基因組里到底有多少基因的猜測(cè)仍有極大的不同。最近在美國(guó)紐約冷泉港召開(kāi)的一個(gè)會(huì)議上,他們?cè)O(shè)立了一美元一個(gè)(次)的基因數(shù)目賭注。勝者將于2003年揭曉,他除了可獲得全部賭金外,還可得到一本由DNA結(jié)構(gòu)的發(fā)現(xiàn)者James Watson親筆簽名的皮革封面雙螺旋一書(shū)。 如果基因組是生命的天書(shū),那么基因就是寫(xiě)成這本書(shū)的詞匯。生物學(xué)家們一直假設(shè),微生物的故事較短,而人類的故事則是一部巨作,人類擁有8萬(wàn)到10萬(wàn)個(gè)基因。但是美國(guó)加州大學(xué)伯克利分校的果蠅基因組計(jì)劃的主任G

20、erald Rubin指出,果蠅的基因比我們所認(rèn)為的最簡(jiǎn)單的線蟲(chóng)少了5000個(gè)。他警告說(shuō):“生物體的復(fù)雜性并不是簡(jiǎn)單地與基因數(shù)量相關(guān)聯(lián)的。” 確實(shí),根據(jù)目前已測(cè)序完成的人類基因組第21對(duì)、22對(duì)染色體的經(jīng)驗(yàn),德國(guó)分子生物技術(shù)研究所的 Andre Rosenthal 說(shuō),我們得出的結(jié)論是整個(gè)基因組有不多于4萬(wàn)個(gè)基因。法國(guó)的分子遺傳學(xué)家Hugues Roest Crollius通過(guò)比較現(xiàn)有的人類基因序列與淡水河豚基因序列,提出了更低的人類基因數(shù)估計(jì):在27700與34300之間。美國(guó)西雅圖華盛頓大學(xué)的基因?qū)W家Phil Green是常用的組合基因序列數(shù)據(jù)的程序PHRED和PHRAP的發(fā)明人,他提出人

21、類基因數(shù)大約為35000。 Green說(shuō):“我們使用了3種獨(dú)立的計(jì)算方法得出了這些較低的基因數(shù)估計(jì),我確信基因數(shù)目就在這個(gè)范圍內(nèi)?!泵绹?guó)國(guó)家人類基因組研究所主任Francis Collins表示他同意Green的估計(jì),將他1美元的賭金下在48011個(gè)基因上。但馬里蘭Rockville的基因組研究所(TIGR)的John Quackenbush根據(jù)TIGR的人類基因指數(shù)的估計(jì),將他的1美元賭在118259個(gè)基因上。加州Incyte Genomics公司的Sam LaBrie賭的基因數(shù)是153478個(gè),該公司在1999年9月曾宣布人類基因至少有14萬(wàn)個(gè)。 但是支持人類基因數(shù)目是一個(gè)較小數(shù)的科學(xué)家們

22、也不灰心,他們爭(zhēng)論說(shuō)生物體的復(fù)雜性來(lái)自于基因如何被管理或表達(dá)的,而不是基因數(shù)目本身。Rosenthal解釋說(shuō):“我們不需要那么多的基因成為高等動(dòng)物,”他賭的是38000個(gè)。你賭多少呢?基因功能預(yù)測(cè) (1)序列同源比較如果基因A與基因 B有相當(dāng)?shù)耐葱裕敲椿駻可能具有類似基因B的功能。公共數(shù)據(jù)庫(kù):GenBank,EMBL,DDBJ功能數(shù)據(jù)庫(kù):dbEST, dbSTS, dbGSS(Genome Survey Sequence,類似EST,不同的是它是基因組的片段而非cDNA的片段,來(lái)自隨機(jī)的對(duì)基因組片段進(jìn)行一輪測(cè)序,以及外顯子捕捉和Alu PCR等方法),dbHTG(high through

23、put Genomic Sequence,未完成整理的序列數(shù)據(jù))蛋白質(zhì)序列庫(kù):PIR(protein information resource), Swiss-Prot 蛋白質(zhì)高級(jí)結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB(protein data bank):生物大分子三級(jí)結(jié)構(gòu)的數(shù)據(jù)庫(kù),包括原子標(biāo)記、文獻(xiàn)引用、一級(jí)和二級(jí)結(jié)構(gòu)信息,以及晶體結(jié)構(gòu)和核磁共振的數(shù)據(jù)。同源比較算法:分為整體對(duì)齊(Global alignment)和局部對(duì)齊(local alignment)局部對(duì)齊的算法有Smith-Watermann 算法;FASTA算法;BLAST算法Protein Sequence400,000 sequences(SW

24、ISS-PROT) 300aaSequence comparison algorithmsMultiple sequence alignments algorithmsIdentification of conserved sequence motifs蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè) 可以通過(guò)計(jì)算(如分子力學(xué)、分子動(dòng)力學(xué)等)來(lái)進(jìn)行結(jié)構(gòu)預(yù)測(cè)(1)對(duì)于自然的蛋白質(zhì)結(jié)構(gòu)和未折疊的蛋白質(zhì)結(jié)構(gòu),兩者之間的能量差非常小(1kcal/mol 數(shù)量級(jí))(2)研究蛋白質(zhì)結(jié)構(gòu)的計(jì)算量非常大 Anfinsen, 1960esX-射線衍射和核磁共振蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的實(shí)驗(yàn)基礎(chǔ)天然核糖核酸酶變性還原核糖核酸酶蛋白質(zhì)的二級(jí)結(jié)構(gòu)二面角定義NC

25、ACNOCACywfORR蛋白質(zhì)分子的主鏈二面角a螺旋(f,y) (-60,-40)b折疊(f,y) (-120,140)環(huán)區(qū)蛋白質(zhì)分子的三級(jí)結(jié)構(gòu)典型的蛋白質(zhì)結(jié)構(gòu)類型 a、b、 a / b 、 a bPDBSUMhttp:/www.biochem.ucl.ac.uk/bsm/pdbsumSCOP/scop其它結(jié)構(gòu)層次超二級(jí)結(jié)構(gòu)四級(jí)結(jié)構(gòu)分子聚合體影響蛋白質(zhì)結(jié)構(gòu)的理化因素立體作用(范式作用)Lennard-Jones式,空間堆積靜電作用庫(kù)侖定律氫鍵疏水作用同源模型方法如果具有25-30%的等同序列,可以假設(shè)這兩個(gè)蛋白質(zhì)折疊成相似的空間結(jié)構(gòu)借助于數(shù)據(jù)庫(kù)搜索和序列的比對(duì)排列而進(jìn)行利用同源模型化方法可以

26、預(yù)測(cè)所有10-30%蛋白質(zhì)的結(jié)構(gòu)流行的序列分析工具CLUSTAL: 已知同源的序列間的配比FASTA:全基因數(shù)據(jù)庫(kù)的快速搜索PSI-BLAST:非??焖俚娜珨?shù)據(jù)庫(kù)搜索HMM:特定蛋白家族的序列模式識(shí)別PHYLIPS:基因進(jìn)化樹(shù)充分利用Internet二級(jí)結(jié)構(gòu)預(yù)測(cè) 用處估計(jì)蛋白的結(jié)構(gòu)類型提高同源模建的準(zhǔn)確性三級(jí)結(jié)構(gòu)預(yù)測(cè)的起點(diǎn)遠(yuǎn)緣蛋白的Threading方法Chou-FasmanGarnier神經(jīng)網(wǎng)絡(luò)組合算法蛋白質(zhì)三級(jí)結(jié)構(gòu)預(yù)測(cè) (1) 同源模型化方法(2) 遠(yuǎn)程同源模型化方法(3) 結(jié)構(gòu)的從頭預(yù)測(cè)方法距離幾何分子動(dòng)力學(xué) 一級(jí)序列數(shù)據(jù)庫(kù)搜索同源結(jié)構(gòu)序列和結(jié)構(gòu)配比挑選模板蛋白模建保守區(qū)域模建環(huán)區(qū)模建側(cè)

27、鏈優(yōu)化和評(píng)估Macromolecular structureSecondary,tertiary structure prediction3D structural alignment algorithmsProtein geometry measurementsSurface and volume shape calculationIntermolecular interactions Molecular simulationsForce-field calculationsMolecular movementsDocking predictions15,000 structures(PDB

28、) 1000 atomic coordinates eachGenomes300 complete genomes 11.6 million sequencesCharacterization of repeatsStructural assignments to genesPhylogenetic analysisGenomic scale censuses(characterization of protein content, metabolic pathways)Linkage analysis relating specific genes to diseases比較基因組學(xué)研究研究

29、生命是從哪里起源的?生命是如何進(jìn)化的?遺傳密碼是如何起源的?估計(jì)最小獨(dú)立生活的生物至少需要多少基因,這些基因是如何使它們活起來(lái)的?比如,鼠和人的基因組大小相似,都含有約三十億堿基對(duì),基因的數(shù)目也類似??墒鞘蠛腿瞬町惔_如此之大,這是為什么?同樣,有的科學(xué)家估計(jì)不同人種間基因組的差別僅為 0.1%;人猿間差別約為1%。但他們表型間的差異十分顯著。 這又為什么?完整基因組序列的比較研究是解決這些問(wèn)題的重要途徑?;谕暾蚪M數(shù)據(jù)的生物進(jìn)化研究1、序列相似性比較。就是將待研究序列與DNA或蛋白質(zhì)序列庫(kù)進(jìn)行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩

30、序列比較算法。常用的程序包有BLAST、FASTA等;2、序列同源性分析。是將待研究序列加入到一組與之同源,但來(lái)自不同物種的序列中進(jìn)行多序列同時(shí)比較,以確定該序列與其它序列間的同源性大小。這是理論分析方法中最關(guān)鍵的一步。完成這一工作必須使用多序列比較算法。常用的程序包有CLUSTAL等;3、構(gòu)建系統(tǒng)進(jìn)化樹(shù)。根據(jù)序列同源性分析的結(jié)果,重建反映物種間進(jìn)化關(guān)系的進(jìn)化樹(shù)。為完成這一工作已發(fā)展了多種軟件包,象PYLIP、MEGA等;4、穩(wěn)定性檢驗(yàn)。為了檢驗(yàn)構(gòu)建好的進(jìn)化樹(shù)的可靠性,需要進(jìn)行統(tǒng)計(jì)可靠性檢驗(yàn),通常構(gòu)建過(guò)程要隨機(jī)地進(jìn)行成百上千次,只有以大概率(70以上)出現(xiàn)的分支點(diǎn)才是可靠的。通用的方法使用 B

31、ootstrap算法,相應(yīng)的軟件已包括在構(gòu)建系統(tǒng)進(jìn)化樹(shù)所用的軟件包當(dāng)中。為便于使用者查找表三給出了進(jìn)化分析相關(guān)軟件的因特網(wǎng)地址。Phylogeny of 23 completely sequenced Bacteria and Archaea species on the basis of 16s rRNA.Gene expressionCorrelating expression patternsMapping expression data to sequence, structural and biochemical data基因表達(dá)分析和調(diào)控網(wǎng)絡(luò)研究高通量基因轉(zhuǎn)錄實(shí)驗(yàn)技術(shù)1、mRNAc

32、DNA microarrayOligonucleotide chipRT-PCRSAGE2、protein2DHierarchical ClusteringPrincipal Component Analysis1234-4-3-2-11234-4-3-2-1Metabolic pathwaysPathway simulationsMetabolic pathwaysRegulatory networkSignal cascadeProtein-protein interactionLiterature11 million citations Digital libraries for aut

33、omated bibliographical serachesKnowledge databases of data from literature其他郝柏林院士:DNA序列中的分形模式,計(jì)算高頻片斷張春霆院士:z-curve陳潤(rùn)生 拼接方法基因表達(dá)數(shù)據(jù)分析和調(diào)控網(wǎng)絡(luò)研究基因芯片設(shè)計(jì)及信息處理探針設(shè)計(jì)解決雜交條件一致性問(wèn)題芯片優(yōu)化提高芯片制備效率公共 數(shù)據(jù)庫(kù)專用 數(shù)據(jù)庫(kù)確定目標(biāo)自動(dòng)設(shè)計(jì)目標(biāo)序列數(shù)據(jù)分析分析雜交檢測(cè)結(jié)果及可靠性基因芯片 數(shù)據(jù)庫(kù)圖像處理數(shù) 據(jù) 庫(kù) 查 詢 序 列 分 析生 物 信 息 學(xué) 數(shù) 據(jù) 挖 掘雜交檢測(cè)圖像四、生物信息學(xué)研究現(xiàn)狀1、研究機(jī)構(gòu)2、數(shù)據(jù)庫(kù)3、軟件及應(yīng)用4、重大成

34、果國(guó)際著名的生物信息中心NCBI National Center for Biotechnology Information (US) EBI European Bioinformatics Institute (EU) HGMP Human Genome Mapping Project Resource Centre (UK )ExPASy Expert of Protein Analysis System (Switzerland )CMBI Centre of Molecular and Biomolecule (The Netherlands)ANGIS National Genome

35、 Information Service (Australia) NIG National Institute of Genetics (Japan)BIC National Bioinformatics Centre (Singapore)國(guó)內(nèi)部分生物信息學(xué)和生物醫(yī)學(xué)信息服務(wù)器北京大學(xué)生物信息中心 中國(guó)生物信息/北京大學(xué)物理化學(xué)研究所 北京醫(yī)科大學(xué)生物醫(yī)學(xué)信息 中國(guó)科學(xué)院微生物研究所 天津大學(xué)生物信息中心 中科院計(jì)算所智能信息處理重點(diǎn)實(shí)驗(yàn)室生物信息學(xué)研究組/中國(guó)科學(xué)院基因組信息學(xué)中心 /北京大學(xué)生物信息中心安裝了70多個(gè)數(shù)據(jù)庫(kù),提供200多種軟件下載

36、建立了14個(gè)國(guó)外著名生物信息中心鏡象提供了數(shù)據(jù)庫(kù)和文獻(xiàn)查詢、搜索構(gòu)建了中華民族基因多樣性等專用數(shù)據(jù)庫(kù)集成和開(kāi)發(fā)了基于Web的生物信息軟件工具開(kāi)展了分子模擬、序列分析等應(yīng)用研究舉辦了國(guó)際國(guó)內(nèi)培訓(xùn)班、講習(xí)班、討論會(huì)開(kāi)設(shè)了生物信息學(xué)概論研究生課程構(gòu)建二次數(shù)據(jù)庫(kù)中華民族基因多樣性數(shù)據(jù)庫(kù)轉(zhuǎn)錄因子細(xì)胞特異性數(shù)據(jù)庫(kù)Cytomer蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫(kù)Domain蛋白質(zhì)回環(huán)數(shù)據(jù)庫(kù)Loop水稻矮縮病毒數(shù)據(jù)庫(kù)RDV二硫鍵信息數(shù)據(jù)庫(kù)Bridge其他數(shù)據(jù)庫(kù)EMBL http:/www.embl-heidelberg.de/ http:/www.ebi.ac.uk/embl/GenBank /Web/Genbank/ DD

37、BJ http:/www.ddbj.nig.ac.jp/ Ensembl / Medline /medline/queryform.html BioMedNet http:/www.BioMedN /tools/staden/ (biological package)RCSB(結(jié)構(gòu)生物信息學(xué)研究聯(lián)合實(shí)驗(yàn)室) PRESAGE(Collaborative resource for structural genomics 結(jié)構(gòu)基因組學(xué)聯(lián)合資源)/ExPASy http:/www.expasy.ch/ SRS http:/srs.ebi

38、.ac.uk:5000/ Entrez /Entrez/ GCG: /about/gcg.html DictyDb(Dictyostelium discoideum genome database Dictyostelium discoideum基因組數(shù)據(jù)庫(kù))/others/dsmith/dictydb.htmlEcoCyc(Encyclopedia of E.coli genes and metabolism 大腸桿菌基因和代謝百科全書(shū))http:/EcoGene(Escherichia coli K12 genome database Escherichia coli K12基因組數(shù)據(jù)庫(kù))

39、/EcoGene/EcoWeb/FlyBase(Drosophila genome database 果蠅基因組數(shù)據(jù)庫(kù))/ http:/gin.ebi.ac.uk:7081/HIV(HIV sequence database HIV序列數(shù)據(jù)庫(kù))/MaizeDB(Maize genome database 玉米基因組數(shù)據(jù)庫(kù))/IMGT(ImMunoGeneTics db 免疫基因標(biāo)記數(shù)據(jù)庫(kù))usc.fr:8104/MAIZE-2DPAGE(Maize genome 2D Electrophoresis database 玉米基因組雙向電泳數(shù)據(jù)庫(kù))http:/moulon.moulon.inra.

40、fr/imgd/Mendel(Mendel-GFDb (Plant genes families database) 孟德?tīng)栔参锘蚣易鍞?shù)據(jù)庫(kù))http:/www.mendel.ac.ukMGD(Mouse genome database 小鼠基因組數(shù)據(jù)庫(kù))/ .au/mgd/ http:/bioinformatics.weizmann.ac.il/mgd/ http:/mgd.hgmp.mrc.ac.uk/ http:/mgd.niai.affrc.go.jp/ MIM(Online Mendelian Inheritance in Man (OMIM) 人類孟德?tīng)栠z傳網(wǎng)上數(shù)據(jù)庫(kù))/omim

41、/NRSUB(Non-redundant B.subtilis database 無(wú)冗余枯草桿菌數(shù)據(jù)庫(kù))http:/pbil.univ-lyon1.fr/nrsub/nrsub.htmlSGD(Saccharomyces Genome Database 酵母基因組數(shù)據(jù)庫(kù))/Saccharomyces/SubtiList(Bacillus subtilis 168 genome database 枯草桿菌168基因組數(shù)據(jù)庫(kù))http:/www.pasteur.fr/Bio/SubtiList/TIGR(The bacterial database(s) of The Institute of G

42、enome Research 基因組研究所的細(xì)菌數(shù)據(jù)庫(kù))/tdb/TubercuList(Mycobacterium tuberculosis H37Rv genome database分支結(jié)核桿菌H37Rv基因組數(shù)據(jù)庫(kù))http:/www.pasteur.fr/Bio/TubercuList/GeneCards(GeneCards: human genes, protein and diseases 基因卡:人基因、蛋白和疾?。﹉ttp:/bioinformatics.weizmann.ac.il/cards/ZFIN(Zebrafish Information Network genome

43、 database 斑馬魚(yú)信息網(wǎng)基因組數(shù)據(jù)庫(kù))/ZFIN/酵母功能庫(kù)http:/www.mips.biochem.mpg.de/proj/yeast/pathways/index.html ExPASy (swiss institute of Bioinfomativcs)http:/www.isb-sib.ch/ (proteomics, protein prediction)SWISS-PROT http:/www.expasy.ch/sprot-top.html PIR(Protein sequence database of the Protein Information Resour

44、ce 蛋白質(zhì)信息資源數(shù)據(jù)庫(kù))/ /pir/ GDB / PDB(Protein Data Bank 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù))/pdb/ http:/www2.ebi.ac.uk/pdb/ .au/pdb/ http:/pdb.weizmann.ac.il/ /npdb/ SCOP /scop/ /scop/ http:/scop.mrc-lmb.cam.ac.uk/scop/ BLOCKS(BLOCKS 蛋白質(zhì)模塊數(shù)據(jù)庫(kù))/DOMO(Protein Domain database 蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫(kù))biog

45、en.fr/gracy/domoECO2DBASE(Escherichia coli gene-protein database (2D gel spots) 大腸桿菌基因-蛋白數(shù)據(jù)庫(kù))/eco2dbase/ENZYME(Enzymes nomenclature database 酶命名數(shù)據(jù)庫(kù))http:/www.expasy.ch/enzyme/GCRDb(G protein-coupled receptor database G蛋白耦聯(lián)受體數(shù)據(jù)庫(kù))/HSSP(Homology-derived secondary structure of proteins database 蛋白質(zhì)同源二級(jí)結(jié)構(gòu)數(shù)據(jù)庫(kù))http:/www.sander.ebi.ac.uk/hssp/Pfam(Pfam protein domain database 蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫(kù))/Pfam/ http:/www.sanger.ac.uk/Pfam/ PRINTS(Protein Motif fingerprint database 蛋白質(zhì)模式數(shù)據(jù)庫(kù))http:/bioinf.man.ac.uk/bsm/dbbrowser/PRINTS/ProDom(ProDom Protein domain database 蛋白質(zhì)結(jié)構(gòu)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論