版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、生物信息學(xué)主講教師: 高雪峰E-mail:gaoxf吉林大學(xué)生命科學(xué)學(xué)院10/10/1第1頁課程安排1、時間:每七天一下午58節(jié) 教室:第三教學(xué)樓第二階梯教室 課時:每七天4課時(總計44=16課時)2、學(xué)分:2學(xué)分3、成績考評方式(筆試)4、E-mail: gaoxf (辦公室地址:理三341室)10/10/2第2頁參考文件1、生物信息學(xué)概論 羅靜初 北京大學(xué) 北京大學(xué)出版社2、生物信息學(xué) D.R. Westhead 科學(xué)出版社3、生物信息學(xué)基因和蛋白質(zhì)分析使用指南 李衍達 清華大學(xué) 清華大學(xué)出版社4、生物信息學(xué)中計算機技術(shù) 孫超 中國電力出版社5、生物信息學(xué)手冊 郝柏林 中科院物理所 上海
2、科學(xué)技術(shù)出版社6、簡明生物信息學(xué) 鐘揚 復(fù)旦大學(xué) 高等教育出版社10/10/3第3頁第一章生物信息學(xué)引論10/10/4第4頁介紹 引言 生物信息學(xué)發(fā)展歷史 人類基因組計劃和基因組信息學(xué) 蛋白質(zhì)結(jié)構(gòu)與功效關(guān)系研究當(dāng)前生物信息學(xué)主要研究內(nèi)容 生物信息學(xué)所用方法和技術(shù)10/10/5第5頁 第一節(jié) 引言生命信息組織、傳遞、表示物理化學(xué)分子生物學(xué)遺傳學(xué)信息技術(shù)10/10/6第6頁1、 生物信息學(xué)概念 HGP生物數(shù)據(jù)激增(每15個月翻一番)生物學(xué)家數(shù)學(xué)家計算機科學(xué)家生物信息學(xué)(bioinfomatics)誕生10/10/7第7頁概念(廣義)生物體系和過程中信息存貯、傳遞和表示細胞、組織、器官生理、病理、藥
3、理過程中各種生物信息信息科學(xué)生命科學(xué)中信息科 學(xué) 10/10/8第8頁概念(狹義)深層次生物學(xué)知識分子生物信息學(xué) Molecular Bioinformatics挖掘獲取生物分子信息獲取、存貯、分析和利用生物分子數(shù)據(jù)10/10/9第9頁Bioinformatics生物分子數(shù) 據(jù) 計算機計 算 + 10/10/10第10頁 高性能計算服務(wù)器,圖形工作站10/10/11第11頁 高端計算集群10/10/12第12頁高度靈活可擴展計算集群10/10/13第13頁10/10/14第14頁2、生物分子信息 細胞分子存貯、復(fù)制、傳遞和表示遺傳信息系統(tǒng)生物信息載體10/10/15第15頁生物信息學(xué)主要研究兩
4、種信息載體DNA分子蛋白質(zhì)分子10/10/16第16頁10/10/17第17頁Protein Machines 10/10/18第18頁From the Cell to Protein Machines 10/10/19第19頁生物分子最少攜帶著三種信息遺傳信息與功效相關(guān)結(jié)構(gòu)信息進化信息10/10/20第20頁(1)遺傳信息載體DNA 遺傳信息載體主要是DNA 控制生物體性狀基因是一系列DNA片段 生物體生長發(fā)育本質(zhì)就是遺傳信息傳遞和表示 10/10/21第21頁DNA經(jīng)過自我復(fù)制,在生物體繁衍過程中傳遞遺傳信息 基因經(jīng)過轉(zhuǎn)錄和翻譯,使遺傳信息在生物個體中得以表示,并使后代表現(xiàn)出與親代相同生物
5、性狀。 基因控制著蛋白質(zhì)合成 DNARNA蛋白質(zhì)轉(zhuǎn)錄翻譯10/10/22第22頁基因DNA序列DNA前體RNAmRNA多肽鏈蛋白質(zhì)序列對應(yīng)關(guān)系遺傳密碼10/10/23第23頁(2)蛋白質(zhì)結(jié)構(gòu)決定其功效蛋白質(zhì)功效取決于蛋白質(zhì)空間結(jié)構(gòu) 蛋白質(zhì)結(jié)構(gòu)決定于蛋白質(zhì)序列(這是當(dāng)前基本共認假設(shè)),蛋白質(zhì)結(jié)構(gòu)信息隱含在蛋白質(zhì)序列之中。10/10/24第24頁(3) DNA分子和蛋白質(zhì)分子都含有進化信息經(jīng)過比較相同蛋白質(zhì)序列,如肌紅蛋白和血紅蛋白,能夠發(fā)覺因為基因復(fù)制而產(chǎn)生分子進化證據(jù)。經(jīng)過比較來自于不一樣種屬同源蛋白質(zhì),即直系同源蛋白質(zhì),能夠分析蛋白質(zhì)甚至種屬之間系統(tǒng)發(fā)生關(guān)系,推測它們共同祖先蛋白質(zhì)。10/1
6、0/25第25頁生物分子信息DNA序列數(shù)據(jù) 蛋白質(zhì)序列數(shù)據(jù) 生物分子結(jié)構(gòu)數(shù)據(jù) 生物分子功效數(shù)據(jù) 最基本直觀復(fù)雜生物分子數(shù)據(jù)類型10/10/26第26頁 DNA核酸序列蛋白質(zhì)氨基酸序列蛋白質(zhì)結(jié)構(gòu)蛋白質(zhì)功效最基本生物信息維持生命活動機器遺傳密碼生命體系千姿百態(tài)改變生物分子數(shù)據(jù)及其關(guān)系10/10/27第27頁第一部遺傳密碼已被破譯,但對密碼轉(zhuǎn)錄過程還不清楚,對大多數(shù)DNA非編碼區(qū)域功效還知之甚少 對于第二部密碼,當(dāng)前則只能用統(tǒng)計學(xué)方法進行分析不論是第一部遺傳密碼,還是第二部遺傳密碼,都隱藏在大量生物分子數(shù)據(jù)之中。生物分子數(shù)據(jù)是寶藏,生物信息數(shù)據(jù)庫是金礦,等候我們?nèi)ネ诰蚝屠谩?0/10/28第28頁
7、生物分子信息特征生物分子信息數(shù)據(jù)量大 生物分子信息復(fù)雜 生物分子信息之間存在著親密聯(lián)絡(luò)10/10/29第29頁3、生物信息學(xué)目標(biāo)和任務(wù) 搜集和管理生物分子數(shù)據(jù)數(shù)據(jù)分析和挖掘開發(fā)分析工具和實用軟件生物分子序列比較工具基因識別工具生物分子結(jié)構(gòu)預(yù)測工具基因表示數(shù)據(jù)分析工具 10/10/30第30頁 試驗 數(shù)據(jù) 信息 知識 搜集 表示 分析 建模 刻畫特征 比較 推理 應(yīng) 用基因工程蛋白質(zhì)設(shè)計疾病診療疾病治療開發(fā)新藥生物分子信息處理流程10/10/31第31頁分子生物學(xué)三大關(guān)鍵數(shù)據(jù)庫 GenBank核酸序列數(shù)據(jù)庫 SWISS-PROT蛋白質(zhì)序列數(shù)據(jù)庫 PDB生物大分子結(jié)構(gòu)數(shù)據(jù)庫 10/10/32第32
8、頁數(shù)據(jù)源數(shù)據(jù)量生物信息學(xué)任務(wù)DNA序列11.5百萬條序列125.0 億個堿基 分離編碼與非編碼區(qū)域識別內(nèi)含子與外顯子基因產(chǎn)物預(yù)測基因功效注釋基因調(diào)控信息分析 蛋白質(zhì)序列40.0萬條序列(每條序列平都有300氨基酸 )序列比較多重序列比對識別保守序列模式進化分析 大分子結(jié)構(gòu)1.5 萬個結(jié)構(gòu)(每個結(jié)構(gòu)平均1000個原子坐標(biāo)) 二級結(jié)構(gòu)、空間結(jié)構(gòu)預(yù)測三維結(jié)構(gòu)比對蛋白質(zhì)幾何學(xué)度量表面和形態(tài)計算分子間相互作用分析分子模擬 基因組300個基因組 標(biāo)重視復(fù)序列基因結(jié)構(gòu)分析系統(tǒng)發(fā)生分析基因與疾病連鎖分析基因組比較遺傳語言分析 基因表示酵母6000個基因在約20時間點表示值 達模式相關(guān)分析基因表基因調(diào)控網(wǎng)絡(luò)分析
9、表示調(diào)控信息分析 表1.1 至初已經(jīng)得到各類數(shù)據(jù)及基本數(shù)據(jù)處理任務(wù)10/10/33第33頁生物信息學(xué)研究意義認識生物本質(zhì)了解生物分子信息組織和結(jié)構(gòu),破譯基因組信息,說明生物信息之間關(guān)系。改變生物學(xué)研究方式 改變傳統(tǒng)研究方式,引進當(dāng)代信息學(xué)方法在醫(yī)學(xué)上主要意義為疾病診療和治療提供依據(jù)為設(shè)計新藥提供依據(jù)生物信息學(xué)將是二十一世紀(jì)生物學(xué)核心 10/10/34第34頁主要研究內(nèi)容 破譯遺傳語言、識別基因 預(yù)測蛋白質(zhì)結(jié)構(gòu)和功效 認識生物界信息存貯和傳遞本質(zhì) 研究藥品作用機制和開發(fā)新藥10/10/35第35頁第二節(jié) 生物信息學(xué)發(fā)展歷史生物信息學(xué)基本思想產(chǎn)生 生物信息學(xué) 快速發(fā)展二十世紀(jì)50年代二十世紀(jì)80-
10、90年代生物科學(xué)和技術(shù)發(fā)展人類基因組計劃推進 10/10/36第36頁20世紀(jì)50年代,生物信息學(xué)開始孕育20世紀(jì)60年代,生物分子信息在概念上將計算 生物學(xué)和計算機科學(xué)聯(lián)絡(luò)起來20世紀(jì)70年代,生物信息學(xué)真正開端20世紀(jì)70年代到80年代早期 ,出現(xiàn)了一系列著 名序列比較方法和生物信息分析方法 20世紀(jì)80年代以后,出現(xiàn)一批生物信息服務(wù)機 構(gòu)和生物信息數(shù)據(jù)庫20世紀(jì)90年代后 ,HGP促進生物信息學(xué)快速 發(fā)展10/10/37第37頁關(guān)于生物信息學(xué)發(fā)展歷程中主要大事,請參見下面兩個網(wǎng)站介紹:/Education/BLASTinfo/milestones.html、/bioinformatics
11、/。10/10/38第38頁生物信息學(xué)發(fā)展現(xiàn)實狀況PubMed中與生物信息學(xué)相關(guān)論文統(tǒng)計 90002%10/10/39第39頁第三節(jié) 人類基因組計劃和基因組信息學(xué) 1、人類基因組計劃介紹 人類基因組計劃準(zhǔn)備用時間,投入30億美元,完成人類全部24條染色體3109脫氧核苷酸對(bp)序列測定,主要任務(wù)包含作圖(遺傳圖譜、物理圖譜建立及轉(zhuǎn)錄圖譜繪制)、測序和基因識別。其中還包含模型生物(如大腸桿菌、酵母、線蟲、小鼠等)基因組作圖和測序,以及信息系統(tǒng)建立。作圖和測序是基本任務(wù),在此基礎(chǔ)上解讀和破譯生物體生老病死以及和疾病相關(guān)遺傳信息10/10/40第40頁模式生物酵母大腸桿菌果蠅線蟲老鼠10/10/
12、41第41頁曼哈頓原子彈計劃(1942-46)阿波羅登月計劃(1961-69)人類基因組計劃(1990-)20世紀(jì)三大科學(xué)計劃10/10/42第42頁1961年,美國總統(tǒng)Kennedy提出兩個科學(xué)計劃:登月計劃攻克腫瘤計劃 人類遺傳信息復(fù)雜性人類基因組計劃(HGP,Human Genome Project)目標(biāo):整體上破解人類遺傳信息奧秘“我們選擇登月”(1962年Kennedy在Rice大學(xué)演講)為何提出HGP?10/10/43第43頁生命活動三要素:物質(zhì)、能量、信息 DNA: 遺傳物質(zhì)(遺傳信息載體) 雙螺旋結(jié)構(gòu) A, C, G, T四種基本字符復(fù)雜文本 基因(Gene):含有遺傳效應(yīng)DN
13、A分子片段DNA、基因、基因組10/10/44第44頁 基因組(Genome):包含細胞或生物體全套遺傳信息全 部遺傳物質(zhì) 原核生物(細菌、病毒等) 真核生物(真菌、植物、動物等)人類基因組: 含有約3萬個 基因10/10/45第45頁1984.12 猶他州阿爾塔組織會議,初步研討測定人類整個基 因組DNA序列意義1986.3 杜爾貝科(Dulbecco )在Science撰文 “腫瘤研 究轉(zhuǎn)折點:人類基因組測序” 美國能源部(DOE)提出“人類基因組計劃”草案1987 美國能源部和國家衛(wèi)生研究院(NIH)聯(lián)合為“人類 基因組計劃”下?lián)荛_啟經(jīng)費約550萬美元1989 美國成立“國家人類基因組研
14、究中心”,Watson擔(dān)任 第一任主任1990.10 經(jīng)美國國會同意,人類基因組計劃正式開啟James WatsonWalter GilbertHGP歷史回顧10/10/46第46頁盡管比之于人類登月,HGP投入資金要少得多,但HGP對人類生活影響要更為深遠。因為伴隨這個計劃完成,DNA分子中編碼遺傳信息將對人類存在化學(xué)基礎(chǔ)作出最終回答。這將不但幫助我們了解我們是怎樣作為健康人發(fā)揮正常功效,而且也將在化學(xué)水平上解釋遺傳因子在各種疾病,如癌癥、早老癡呆癥、精神分裂癥等一些嚴(yán)重危害人類健康疾病中作用。畢竟對人類本身更深入了解是人類活動中最主要一個部分。Watson ,1990,Science10/
15、10/47第47頁HGP最初目標(biāo)經(jīng)過國際合作,用時間(19902005)最少投入30億美元,構(gòu)建詳細人類基因組遺傳圖和物理圖,確定人類DNA全部核苷酸序列,定位約10萬基因,并對其它生物進行類似研究。4張圖:遺傳圖 物理圖 序列圖 基因圖HGP終極目標(biāo)說明人類基因組全部DNA序列;識別基因;建立儲存這些信息數(shù)據(jù)庫;開發(fā)數(shù)據(jù)分析工具;研究HGP實施所帶來倫理、法律和社會問題。 10/10/48第48頁1995 第一個自由生物體流感嗜血菌(H. inf)全基因組測序完成1996 完成人類基因組計劃遺傳作圖 開啟模型生物基因組計劃H.Inf 全基因組Saccharomyces cerevisiae釀
16、酒酵母Caenorhabditis elegans秀麗線蟲10/10/49第49頁1997 大腸桿菌(E. coli)全基因組測序完成1998 完成人類基因組計劃物理作圖 開始人類基因組大規(guī)模測序 賽立拉(Celera)企業(yè)加入,與公共領(lǐng)域競爭 開啟水稻基因組計劃1999.7 第5屆國際公共領(lǐng)域人類基因組測序會議,加緊測序速度大腸桿菌及其全基因組水稻基因組計劃10/10/50第50頁 Celera企業(yè)宣告完結(jié)果蠅基因組測序 國際公共領(lǐng)域宣告完成第一個植物基因組擬南芥全基 因組測序工作.6.26 公共領(lǐng)域和Celera企業(yè)同時宣告完成人類基因組工作草圖.2.15 Nature刊文發(fā)表國際公共領(lǐng)域
17、結(jié)果.2.16 Science刊文發(fā)表Celera企業(yè)及其合作者結(jié)果Drosophila melanogaster果蠅Arabidopsis thaliana擬南芥10/10/51第51頁2月15日Nature封面2月16日Science封面10/10/52第52頁At the White House on June 26, Francis Collins (r), Director of the National Human Genome Research Institute, President Clinton, and J. Craig Venter, President of Cela
18、ra Genomics, lauded the thousands of scientists who contributed to the genome sequence.10/10/53第53頁10/10/54第54頁8月26日 人類基因組“中國卷”繪制工作宣告完成。年 水稻、小鼠、瘧原蟲等基因組測序完成204月14日 中、美、日、德、法、英等6國科學(xué)家宣告人類基因組序列圖繪制成功,人類基因組計劃全部目標(biāo)全部實現(xiàn)。 2010月人類基因組完成圖公布。 10/10/55第55頁10/10/56第56頁10/10/57第57頁種類數(shù)目備注古細菌(Archaea)35真細菌(Bacteria)42
19、1其中有測定了2個以上菌株真核生物(Eukaryo)47包含酵母、線蟲、果蠅、蚊子、擬南芥、人等病毒(Virus)1,275包含不一樣亞類或不一樣株系類病毒(Viroid)39包含不一樣亞類或不一樣株系噬菌體(Phage)347包含不一樣亞類或不一樣株系細胞器(Organelle)1,097包含線粒體和葉綠體質(zhì)粒(Plasmid)480(http:/www.ebi.ac.uk/genomes/,2月)已完成測序3,000多個基因組10/10/58第58頁1、大協(xié)作研究: 以學(xué)科為中心, 以問題為中心,多學(xué)科合作2、研究計劃性和有序性: 各方共同參加,制訂更科學(xué)、更全方面研究計劃4、政府與國家作
20、用: 美:領(lǐng)導(dǎo)與推進 英:始于1989年2月,貢獻為1/3左右 法:始于1990年6月,貢獻為3左右 日:始于1990年,貢獻為7左右 德:始于1995年,貢獻為7左右 中:始于1999年9月,貢獻為1左右3、商業(yè)競爭促進基礎(chǔ)研究: 1998年Celera企業(yè)加入HGP研究特色10/10/59第59頁5、可連續(xù)性:太空觀察和基因組計劃都是科學(xué)上出眾計劃,每一個都是科學(xué)上邁出一大步。不過二者之間存在著一個刺眼差異:開支方面有四十倍差異。開支差異是至關(guān)主要,因為這意味著可連續(xù)性。當(dāng)一個計劃足夠廉價到成為一條能夠無限向未來延伸系列第一個時,它是可連續(xù)。而當(dāng)一個計劃太昂貴,以至不經(jīng)過重大政治斗爭就無法
21、重復(fù)時,它就是不可連續(xù)??蛇B續(xù)計劃帶來新計劃開始,不可連續(xù)計劃則標(biāo)志著老時代結(jié)束。The Sun, the Genome, and the InternetTools of Scientific RevolutionFreeman Dyson 10/10/60第60頁各學(xué)科參加、協(xié)作:生命科學(xué)、數(shù)學(xué)、物理學(xué)、化學(xué)、計算機科學(xué)、材料科學(xué)以及倫理、法律等社會科學(xué)HGP帶來科學(xué)挑戰(zhàn)HGP:Pandoras Box 10/10/61第61頁 首要科學(xué)問題 怎樣找到記載在基因組DNA一維結(jié)構(gòu)上控制生命時間、空間調(diào)控信息編碼方式和調(diào)整規(guī)律。 應(yīng)用數(shù)學(xué)、復(fù)雜系統(tǒng)理論、信息論、非線性科學(xué) 催生生物信息學(xué)、計算
22、生物學(xué)、系統(tǒng)生物學(xué) DNA芯片技術(shù) 交叉性技術(shù)領(lǐng)域:物理學(xué)、微電子信息技術(shù)、生化技術(shù)、信息技術(shù) 結(jié)構(gòu)生物學(xué) 前沿領(lǐng)域之一:生物物理學(xué)、生物化學(xué)、晶體學(xué)、波譜學(xué)、光譜學(xué)以及X射線晶體衍射技術(shù)、核磁共振技術(shù)10/10/62第62頁人類基因組計劃詳細任務(wù)能夠概括為建立四張圖譜 遺傳圖譜物理圖譜 序列圖譜轉(zhuǎn)錄圖譜10/10/63第63頁遺傳圖譜(genetic map)又稱連鎖圖譜(linkage map),它是以含有遺傳多態(tài)性(在一個遺傳位點上含有一個以上等位基因,在群體中出現(xiàn)頻率皆高于1%)遺傳標(biāo)識為“路標(biāo)”,以遺傳學(xué)距離(在減數(shù)分裂事件中兩個位點之間進行交換、重組百分率,1%重組率稱為1cM)為
23、圖距基因組圖。遺傳圖譜建立為基因識別和完成基因定位創(chuàng)造了條件。遺傳圖譜 10/10/64第64頁遺傳連鎖圖:經(jīng)過計算連鎖遺傳標(biāo)志之間重組頻率,確定它們相對距離,普通用厘摩(cM,即每次減數(shù)分裂重組頻率為1%)表示。10/10/65第65頁物理圖譜物理圖譜(physical map)是指相關(guān)組成基因組全部基因排列和間距信息,它是經(jīng)過對組成基因組DNA分子進行測定而繪制。繪制物理圖譜目標(biāo)是把相關(guān)基因遺傳信息及其在每條染色體上相對位置線性而系統(tǒng)地排列出來。10/10/66第66頁1998 年完成了含有52,000個序列標(biāo)簽位點(STS),并覆蓋人類基因組大部分區(qū)域連續(xù)克隆系物理圖譜。敲碎基因組,分析
24、研究內(nèi)容所處染色體位置細菌人工染色體(80300 kb)酵母人工染色體(數(shù)百 kb)中心粒一對緊密相鄰標(biāo)志一對相鄰較遠標(biāo)志染色體圖10/10/67第67頁序列圖譜伴隨遺傳圖譜和物理圖譜完成,測序就成為重中之重工作。DNA序列分析技術(shù)是一個包含制備DNA片段化及堿基分析、DNA信息翻譯多階段過程。經(jīng)過測序得到基因組序列圖譜 10/10/68第68頁大規(guī)?;蚪M測序 Megabace 測序儀3700 測序儀10/10/69第69頁大規(guī)模測序基本策略逐一克隆法:對連續(xù)克隆系中排定BAC克隆逐一進行亞克隆測序并進行組裝(國際合作測序計劃)全基因組鳥槍法:在一定作圖信息基礎(chǔ)上,繞過大片段連續(xù)克隆系構(gòu)建而
25、直接將基因組分解成小片段隨機測序,利用超級計算機進行組裝(美國Celera企業(yè))10/10/70第70頁利用計算機軟件進行序列拼接10/10/71第71頁轉(zhuǎn)錄圖譜 轉(zhuǎn)錄圖譜是在識別基因組所包含蛋白質(zhì)編碼序列基礎(chǔ)上繪制結(jié)合相關(guān)基因序列、位置及表示模式等信息圖譜。 10/10/72第72頁10/10/73第73頁基因識別 基因識別(gene identification)是HGP主要內(nèi)容之一,其目標(biāo)是識別全部人類基因?;蜃R別包含:識別基因組編碼區(qū)識別基因結(jié)構(gòu)基因識別當(dāng)前常采取有二種方法:從基因組序列中識別那些轉(zhuǎn)錄表示DNA片段從cDNA文庫中挑取并克隆。 10/10/74第74頁人類基因組計劃實
26、現(xiàn)對醫(yī)學(xué)事 業(yè)影響 對致病基因克隆也是人類基因組計劃內(nèi)容。疾病與基因直接或間接相關(guān),經(jīng)過生物學(xué)、醫(yī)學(xué)等技術(shù)對相關(guān)基因進行抑制或調(diào)控,即可到達治療某一疾病效果。假如掌握了與某種疾病相關(guān)基因及突變,則能夠?qū)υ摷膊∵M行預(yù)測、診療,甚至治療。 10/10/75第75頁基因變異與疾病10/10/76第76頁10/10/77第77頁人類基因組計劃實施意義 人類基因組計劃為我們碩士物信息組織、結(jié)構(gòu)、遺傳、表示帶來了極大方便,使人類對本身有一個根本了解。人類是最高級、最復(fù)雜、最主要生物,假如搞清楚人類基因組,那么再研究其它生物就輕易得多。研究各種模式生物基因組將有利于研究地球生物進化史。10/10/78第78
27、頁5、我國對人類基因組計劃貢獻10/10/79第79頁又一次成功! 水稻基因研究10/10/80第80頁2、人類基因組計劃給生物信息學(xué)提出挑戰(zhàn)伴隨試驗數(shù)據(jù)和可利用信息急劇增加,信息管理和分析成為HGP一項主要工作 發(fā)覺生物學(xué)規(guī)律解讀生物遺傳密碼認識生命本質(zhì)研究基因組數(shù)據(jù)之間關(guān)系分析現(xiàn)有基因組數(shù)據(jù)利用數(shù)學(xué)模型和人工智能技術(shù)10/10/81第81頁10/10/82第82頁功效基因組學(xué) HGP完成后,我們將進入“后基因組學(xué)”(post-genomics)時代基因組學(xué)研究重心已開始從揭示生命全部遺傳信息轉(zhuǎn)移到在分子整體水平對功效研究上,即功效基因組學(xué)(functional genomics)功效基因組
28、學(xué)任務(wù)是進行基因組功效注釋(Genome annotation)認識基因與疾病關(guān)系掌握基因產(chǎn)物及其在生命活動中作用10/10/83第83頁功效基因組學(xué)研究內(nèi)容深入識別基因,識別基因轉(zhuǎn)錄調(diào)控信息,分析遺傳語言。注釋全部基因產(chǎn)物功效,這是當(dāng)前基因組功效注釋主要層次。研究基因表示調(diào)控機制,研究基因在生物體代謝路徑中地位,分析基因、基因產(chǎn)物之間相互作用關(guān)系,繪制基因調(diào)控網(wǎng)絡(luò)圖。比較基因組學(xué)研究,在基因組水平對各個生物進行對照比較,能夠揭示生命起源和進化、發(fā)覺蛋白質(zhì)功效。10/10/84第84頁人類基因組與其它生物基因組比較10/10/85第85頁例:人與鼠染色體差異10/10/86第86頁生物信息學(xué)與
29、新藥研制未來藥品研究過程將是基于生物信息知識挖掘過程數(shù)據(jù)處理和關(guān)聯(lián)分析發(fā)覺藥品作用對象確定靶目標(biāo)分子針對靶目標(biāo)進行合理藥品設(shè)計10/10/87第87頁生物信息學(xué)與疾病檢測基因組計劃產(chǎn)生基因及基因多態(tài)性數(shù)據(jù)與臨床醫(yī)學(xué)檢驗結(jié)果之間關(guān)系需要利用生物信息學(xué)方法去分析、去揭示依據(jù)這么分析結(jié)果,科學(xué)家能夠更準(zhǔn)確地了解疾病產(chǎn)生根本原因,更準(zhǔn)確地預(yù)測某個人患癌癥、糖尿病或者心臟病可能性,從而徹底改變我們診療、治療和預(yù)防疾病方式 10/10/88第88頁第四節(jié) 蛋白質(zhì)結(jié)構(gòu)與功效關(guān)系研究 蛋白質(zhì)結(jié)構(gòu) 蛋白質(zhì)序列 蛋白質(zhì)功效關(guān)系 10/10/89第89頁基因組計劃不停推進,其結(jié)果不但造成DNA序列數(shù)據(jù)快速增加,也造
30、成蛋白質(zhì)序列數(shù)據(jù)快速增加。生物信息學(xué)在蛋白組學(xué)研究中主要任務(wù)是產(chǎn)生和分析蛋白質(zhì)結(jié)構(gòu),并將結(jié)構(gòu)知識應(yīng)用于生物學(xué)、醫(yī)學(xué)、藥學(xué)等生命科學(xué)領(lǐng)域。蛋白質(zhì)空間結(jié)構(gòu)預(yù)測。蛋白質(zhì)結(jié)構(gòu)是合理藥品分子設(shè)計基礎(chǔ)。蛋白質(zhì)結(jié)構(gòu)是蛋白質(zhì)工程基礎(chǔ)。10/10/90第90頁基于生物信息學(xué)新藥設(shè)計10/10/91第91頁第五節(jié) 當(dāng)前生物信息學(xué)主要研究內(nèi)容1、 生物分子數(shù)據(jù)搜集與管理2、 數(shù)據(jù)庫搜索及序列比較 3、 基因組序列分析 4、基因表示數(shù)據(jù)分析與處理 5、蛋白質(zhì)結(jié)構(gòu)預(yù)測 10/10/92第92頁基因組數(shù)據(jù)庫 蛋白質(zhì)序列數(shù)據(jù)庫 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫 DDBJEMBLGenBankSWISS-PROT PDBPIR1、 生物分子
31、數(shù)據(jù)搜集與管理10/10/93第93頁2、 數(shù)據(jù)庫搜索及序列比較 搜索同源序列在一定程度上就是經(jīng)過序列比較尋找相同序列 序列比較一個基本操作就是比對(Alignment),即將兩個序列各個字符(代表核苷酸或者氨基酸殘基)按照對應(yīng)等同或者置換關(guān)系進行對比排列,其結(jié)果是兩個序列共有排列次序,這是序列相同程度一個定性描述多重序列比對研究是多個序列共性。序列多重比對可用來搜索基因組序列功效區(qū)域,也可用于研究一組蛋白質(zhì)之間進化關(guān)系。 10/10/94第94頁發(fā)覺同源分子10/10/95第95頁3、 基因組序列分析 遺傳語言分析基因組結(jié)構(gòu)分析基因識別基因功效注釋基因調(diào)控信息分析基因組比較10/10/96第
32、96頁4、基因表示數(shù)據(jù)分析與處理基因表示數(shù)據(jù)分析是當(dāng)前生物信息學(xué)研究熱 點和重點 當(dāng)前對基因表示數(shù)據(jù)處理主要是進行聚類分 析,將表示模式相同基因聚為一類,在此基 礎(chǔ)上尋找相關(guān)基因,分析基因功效。 所用方法主要有:相關(guān)分析方法模式識別技術(shù)中層次式聚類方法人工智能中自組織映射神經(jīng)網(wǎng)絡(luò)主元分析方法 10/10/97第97頁基因芯片10/10/98第98頁10/10/99第99頁10/10/100第100頁5、蛋白質(zhì)結(jié)構(gòu)預(yù)測 蛋白質(zhì)生物功效由蛋白質(zhì)結(jié)構(gòu)所決定 ,蛋白質(zhì)結(jié)構(gòu)預(yù)測成為了解蛋白質(zhì)功效主要路徑。蛋白質(zhì)結(jié)構(gòu)預(yù)測分為:二級結(jié)構(gòu)預(yù)測空間結(jié)構(gòu)預(yù)測 蛋白質(zhì)折疊10/10/101第101頁二級結(jié)構(gòu)預(yù)測在一
33、定程度上二級結(jié)構(gòu)預(yù)測能夠歸結(jié)為模式識別問題 在二級結(jié)構(gòu)預(yù)測方面主要方法有:立體化學(xué)方法圖論方法統(tǒng)計方法最鄰近決議方法基于規(guī)則教授系統(tǒng)方法分子動力學(xué)方法人工神經(jīng)網(wǎng)絡(luò)方法 預(yù)測準(zhǔn)確率超出70%第一個軟件是基于神經(jīng)網(wǎng)絡(luò)PHD系統(tǒng)10/10/102第102頁空間結(jié)構(gòu)預(yù)測在空間結(jié)構(gòu)預(yù)測方面,比較成功理論方法是同源模型法 該方法依據(jù)是:相同序列蛋白質(zhì)傾向于折疊成相同三維空間結(jié)構(gòu) 利用同源模型方法能夠完成全部蛋白質(zhì)10-30%空間結(jié)構(gòu)預(yù)測工作 10/10/103第103頁第六節(jié) 生物信息學(xué)所用方法和技術(shù) 1、數(shù)學(xué)統(tǒng)計方法 2、動態(tài)規(guī)劃方法 3、機器學(xué)習(xí)與模式識別技術(shù) 4、數(shù)據(jù)庫技術(shù)及數(shù)據(jù)挖掘 5、人工神經(jīng)網(wǎng)
34、絡(luò)技術(shù)6、教授系統(tǒng) 7、分子模型化技術(shù)8、量子力學(xué)和分子力學(xué)計算 9、生物分子計算機模擬10、因特網(wǎng)(Internet)技術(shù) 10/10/104第104頁1、數(shù)學(xué)統(tǒng)計方法生物活動經(jīng)常以大量、重復(fù)形式出現(xiàn),既受到內(nèi)在原因制約,又受到外界環(huán)境隨機干擾。所以概率論和數(shù)學(xué)統(tǒng)計是當(dāng)代生物學(xué)研究中一個慣用分析方法 數(shù)據(jù)統(tǒng)計、原因分析、多元回歸分析是生物學(xué)研究必備工具隱馬爾科夫模型(Hidden Markov Models)在序列分析方面有著主要應(yīng)用。與隱馬爾科夫模型相關(guān)技術(shù)是馬爾科夫鏈(Markov Chain) 10/10/105第105頁2、動態(tài)規(guī)劃方法動態(tài)規(guī)劃(Dynamic Programming
35、)是一個處理多階段決議過程最優(yōu)化方法或復(fù)雜空間優(yōu)化搜索方法 動態(tài)規(guī)劃處理問題基本過程是:將一個問題全局解分解為局部解,逆序遞推求出局部最優(yōu)解,伴隨執(zhí)行過程推進,“局部”逐步靠近“全局”,最終取得全局最優(yōu)解 10/10/106第106頁3、機器學(xué)習(xí)與模式識別技術(shù)機器學(xué)習(xí)機器學(xué)習(xí)是模擬人類學(xué)習(xí)過程,以計算機為工具獲取知識、積累經(jīng)驗 1、遺傳算法采取隨機搜索方法,含有自適應(yīng)能力和便于并行計算 2、神經(jīng)網(wǎng)絡(luò)理論是基于人腦結(jié)構(gòu),其目標(biāo)是揭示一個系統(tǒng)是怎樣向環(huán)境學(xué)習(xí),這一個方法被稱為聯(lián)接主義。 模式識別模式識別是機器學(xué)習(xí)一個主要任務(wù)。模式是對感興趣客體定量或者結(jié)構(gòu)描述,而模式識別就是利用計算機對客體進行判別,將相同或者相同客體歸入同種類別中模式識別主要有兩種方法:依據(jù)對象統(tǒng)計特征進行識別,依據(jù)對象結(jié)構(gòu)特征進行識別 10/10/107第107頁環(huán)境學(xué)習(xí)知識庫執(zhí)行機器學(xué)習(xí)系統(tǒng)基本結(jié)構(gòu) 反 饋10/10/108第108頁4、數(shù)據(jù)庫技術(shù)及數(shù)據(jù)挖掘數(shù)據(jù)庫技術(shù) 數(shù)據(jù)倉庫 虛擬數(shù)據(jù)庫技術(shù)(Virtual Database,簡稱 VDB) 數(shù)據(jù)挖掘(data mining) 又稱作數(shù)據(jù)庫中知識發(fā)覺 (Knowledge Discovery in Database),它是從數(shù)據(jù)庫或數(shù)據(jù)倉庫中發(fā)覺并提取隱
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度勞動合同終止及員工安置補償協(xié)議2篇
- 二零二五年度戶外廣告牌安裝與城市形象宣傳合同3篇
- 二零二五年度個人商鋪買賣合同協(xié)議
- 二零二五年度國際貿(mào)易政策分析與市場進入咨詢合同
- 2025年度個人房屋裝修貸款合同7篇
- 2025年度內(nèi)控制度咨詢與內(nèi)部控制流程再造合同
- 二零二五年度協(xié)議離婚財產(chǎn)清算與分配專業(yè)合同3篇
- 2025年度農(nóng)業(yè)生態(tài)環(huán)境保護與補償合同3篇
- 2025年度摩托車租賃與賽事運營管理合同3篇
- 二零二五版鎳礦市場準(zhǔn)入與資質(zhì)認證合同4篇
- 2024版義務(wù)教育小學(xué)數(shù)學(xué)課程標(biāo)準(zhǔn)
- 智能護理:人工智能助力的醫(yī)療創(chuàng)新
- 國家中小學(xué)智慧教育平臺培訓(xùn)專題講座
- 5G+教育5G技術(shù)在智慧校園教育專網(wǎng)系統(tǒng)的應(yīng)用
- 服務(wù)人員隊伍穩(wěn)定措施
- VI設(shè)計輔助圖形設(shè)計
- 淺談小學(xué)勞動教育的開展與探究 論文
- 2023年全國4月高等教育自學(xué)考試管理學(xué)原理00054試題及答案新編
- 河北省大學(xué)生調(diào)研河北社會調(diào)查活動項目申請書
- JJG 921-2021環(huán)境振動分析儀
- 兩段焙燒除砷技術(shù)簡介 - 文字版(1)(2)課件
評論
0/150
提交評論