![生物數(shù)據(jù)整合與挖掘?yàn)閺?fù)旦大學(xué)出版社出版發(fā)行_第1頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/3/c9be0baf-ac1c-4e3b-8725-33a85c924864/c9be0baf-ac1c-4e3b-8725-33a85c9248641.gif)
![生物數(shù)據(jù)整合與挖掘?yàn)閺?fù)旦大學(xué)出版社出版發(fā)行_第2頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/3/c9be0baf-ac1c-4e3b-8725-33a85c924864/c9be0baf-ac1c-4e3b-8725-33a85c9248642.gif)
![生物數(shù)據(jù)整合與挖掘?yàn)閺?fù)旦大學(xué)出版社出版發(fā)行_第3頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/3/c9be0baf-ac1c-4e3b-8725-33a85c924864/c9be0baf-ac1c-4e3b-8725-33a85c9248643.gif)
![生物數(shù)據(jù)整合與挖掘?yàn)閺?fù)旦大學(xué)出版社出版發(fā)行_第4頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/3/c9be0baf-ac1c-4e3b-8725-33a85c924864/c9be0baf-ac1c-4e3b-8725-33a85c9248644.gif)
![生物數(shù)據(jù)整合與挖掘?yàn)閺?fù)旦大學(xué)出版社出版發(fā)行_第5頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/3/c9be0baf-ac1c-4e3b-8725-33a85c924864/c9be0baf-ac1c-4e3b-8725-33a85c9248645.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、生物數(shù)據(jù)整合與挖掘?yàn)閺?fù)旦大學(xué)出版社出版發(fā)行。生物數(shù)據(jù)整合與挖掘內(nèi)容簡介 :生物信息學(xué)應(yīng)用計(jì)算機(jī)技術(shù)對各種生物數(shù)據(jù)進(jìn)行管理和分析,以期發(fā)現(xiàn)生物數(shù)據(jù)所反映的生物規(guī)律,促進(jìn)生命科學(xué)的發(fā)展。一方面,生命科學(xué)實(shí)驗(yàn)產(chǎn)生的巨量的生物數(shù)據(jù)保存在世界各地的相關(guān)研究機(jī)構(gòu)中,或隱含在浩瀚的科學(xué)文獻(xiàn)里。這些數(shù)據(jù)反映了生命科學(xué)研究的整體進(jìn)展和成果,有重疊更相互補(bǔ)充,這就需要將這些生物數(shù)據(jù)整合在一起。另一方面,生物信息學(xué)也希望采用數(shù)據(jù)挖掘技術(shù)對生物數(shù)據(jù)進(jìn)行分析,以期發(fā)現(xiàn)生物規(guī)律,因此根據(jù)生命科學(xué)的需要和領(lǐng)域知識(shí),設(shè)計(jì)出有效的生物數(shù)據(jù)挖掘算法和軟件工具是一個(gè)重要的研究內(nèi)容。本書較為系統(tǒng)地介紹了生物數(shù)據(jù)整合與挖掘的技術(shù)框架,
2、主要介紹了作者在這方面的研究成果,包括:生物數(shù)據(jù)抽取技術(shù)、生物數(shù)據(jù)整合技術(shù)、生物序列數(shù)據(jù)挖掘、基因表達(dá)譜芯片數(shù)據(jù)挖掘、轉(zhuǎn)錄因子及順式調(diào)控元件挖掘、生物數(shù)據(jù)模型和數(shù)據(jù)庫管理系統(tǒng)等內(nèi)容,還介紹了一個(gè)生物數(shù)據(jù)整合系統(tǒng)、一個(gè)基因表達(dá)譜芯片數(shù)據(jù)庫和數(shù)據(jù)挖掘系統(tǒng)、一個(gè)轉(zhuǎn)錄因子及順式調(diào)控元件的挖掘分析平臺(tái)等等的設(shè)計(jì)與實(shí)現(xiàn)。本書的讀者對象為從事生物信息學(xué)研究的科學(xué)工作者。本書也可以作為生物信息學(xué)專業(yè)研究生的教學(xué)參考書和生物軟件工程技術(shù)人員的參考書。生物數(shù)據(jù)整合與挖掘作者簡介 :朱揚(yáng)勇,1963年生,浙江武義人。1994年于復(fù)旦大學(xué)獲計(jì)算機(jī)軟件專業(yè)理學(xué)博士學(xué)位。現(xiàn)為復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授;上海市政府信息
3、化專家;上海生物信息技術(shù)研究中心學(xué)術(shù)委員會(huì)委員;上海市計(jì)算機(jī)學(xué)會(huì)理事;上海市生物信息學(xué)會(huì)理事等。長期從事數(shù)據(jù)庫、數(shù)據(jù)挖掘、生物信息等方面的研究,已發(fā)表論文100余篇,出版數(shù)據(jù)庫系統(tǒng)設(shè)計(jì)與開發(fā)等教材5本。作為項(xiàng)目負(fù)責(zé)人,主持國家自然科學(xué)基金、“863計(jì)劃”、上海市科委重點(diǎn)發(fā)展基金等10多項(xiàng)課題的研究工作。目前主要從事數(shù)據(jù)科學(xué)的研究,是該領(lǐng)域的主要倡導(dǎo)者。目錄 :第1章 背景知識(shí)1.1 生物信息學(xué)1.1.1 基本概念1.1.2 研究內(nèi)容1.1.3 研究方法1.1.4 研究機(jī)構(gòu)1.2 數(shù)據(jù)整合1.2.1 數(shù)據(jù)資源1.2.2 數(shù)據(jù)整合的動(dòng)因1.2.3 數(shù)據(jù)整合的概念1.2.4 數(shù)據(jù)整合的內(nèi)容1.3 數(shù)
4、據(jù)挖掘1.3.1 數(shù)據(jù)挖掘的定義1.3.2 數(shù)據(jù)挖掘的任務(wù)1.3.3 數(shù)據(jù)挖掘的類型1.3.4 相關(guān)技術(shù)的差異第2章 數(shù)據(jù)整合與數(shù)據(jù)挖掘方法2.1 數(shù)據(jù)整合的方法2.1.1 數(shù)據(jù)整合的方式2.1.2 數(shù)據(jù)整合的步驟2.2 數(shù)據(jù)挖掘的方法2.2.1 數(shù)據(jù)挖掘過程示例2.2.2 數(shù)據(jù)挖掘過程模型2.2.3 數(shù)據(jù)挖掘應(yīng)用方式2.3 數(shù)據(jù)清潔技術(shù)2.3.1 數(shù)據(jù)的質(zhì)量問題2.3.2 數(shù)據(jù)清潔的主要工作2.4 數(shù)據(jù)倉庫技術(shù)2.4.1 數(shù)據(jù)倉庫的概念2.4.2 數(shù)據(jù)組織2.4.3 主題設(shè)計(jì)2.4.4 數(shù)據(jù)加載2.4.5 數(shù)據(jù)規(guī)約2.5 小結(jié)第3章 生物數(shù)據(jù)源3.1 生物數(shù)據(jù)3.1.1 生物序列數(shù)據(jù)3.1.
5、2 生物分子結(jié)構(gòu)數(shù)據(jù)3.1.3 芯片及基因表達(dá)數(shù)據(jù)3.1.4 生物網(wǎng)絡(luò)數(shù)據(jù)3.2 生物數(shù)據(jù)組織3.2.1 生物數(shù)據(jù)的數(shù)據(jù)庫組織形式3.2.2 生物數(shù)據(jù)的互聯(lián)網(wǎng)組織形式3.3 生物數(shù)據(jù)庫3.3.1 生物序列數(shù)據(jù)庫3.3.2 基因組數(shù)據(jù)庫3.3.3 結(jié)構(gòu)數(shù)據(jù)庫3.3.4 芯片和基因表達(dá)數(shù)據(jù)庫3.3.5 生物文獻(xiàn)數(shù)據(jù)庫3.4 生物數(shù)據(jù)源的特征3.5 小結(jié)第4章 復(fù)雜生物數(shù)據(jù)源的數(shù)據(jù)抽取4.1 生物數(shù)據(jù)抽取4.1.1 生物數(shù)據(jù)抽取面臨的問題4.1.2 包裝器的要素4.1.3 抽取算法4.1.4 元數(shù)據(jù)生成與包裝器生成工具4.2 包裝器的設(shè)計(jì)4.2.1 基于實(shí)例切分的抽取算法4.2.2 基于定位器多結(jié)點(diǎn)
6、共享的數(shù)據(jù)抽取模型4.2.3 數(shù)據(jù)抽取模型描述4.2.4 元數(shù)據(jù)的生成和維護(hù)4.2.5 數(shù)據(jù)抽取模型表達(dá)能力4.3 包裝器解決方案4.3.1 面向無噪聲復(fù)雜數(shù)據(jù)源的解決方案4.3.2 面向含噪聲復(fù)雜數(shù)據(jù)源的解決方案4.3.3 rede和l-樹包裝器生成工具的架構(gòu)4.3.4 rede和l-樹包裝器生成工具的實(shí)現(xiàn)技術(shù)4.4 l-樹匹配:面向復(fù)雜數(shù)據(jù)源的數(shù)據(jù)抽取算法4.4.1 l-樹上的數(shù)據(jù)映射機(jī)制4.4.2 l-樹匹配算法的相關(guān)概念4.4.3 l-樹匹配算法4.4.4 l-樹匹配算法舉例4.5 基于l-樹的包裝器生成工具4.5.1 將ere擴(kuò)充成數(shù)據(jù)抽取腳本語言4.5.2 可視化編輯調(diào)試環(huán)境4.5
7、.3 ere的可視化構(gòu)建4.5.4 ere的邏輯檢查4.5.5 抽取結(jié)果的可視化評價(jià)4.5.6 以xml格式輸出抽取結(jié)果4.6 小結(jié)第5章 生物數(shù)據(jù)整合案例5.1 生物數(shù)據(jù)整合系統(tǒng)的設(shè)計(jì)5.1.1 生物數(shù)據(jù)整合的關(guān)鍵問題分析5.1.2 生物數(shù)據(jù)整合目標(biāo)的確立5.1.3 生物數(shù)據(jù)整合方式和技術(shù)的設(shè)計(jì)5.2 基于go的數(shù)據(jù)整合5.2.1 go簡介5.2.2 db2go表5.2.3 語義相似數(shù)據(jù)庫表5.2.4 以go統(tǒng)一數(shù)據(jù)的邏輯和語義5.3 數(shù)據(jù)抽取和增量更新5.3.1 數(shù)據(jù)抽取5.3.2 數(shù)據(jù)的增量更新5.4 基于go的查詢技術(shù)5.4.1 異構(gòu)生物數(shù)據(jù)庫的語義查詢5.4.2 biodw中語義查詢
8、的體系結(jié)構(gòu)5.4.3 go語義相似性度量方法5.4.4 語義相似性查詢5.5 biodw系統(tǒng)5.5.1 biodw的系統(tǒng)結(jié)構(gòu)5.5.2 biodw的系統(tǒng)的數(shù)據(jù)規(guī)模5.5.3 biodw的數(shù)據(jù)查詢5.6 小結(jié)第6章 生物序列數(shù)據(jù)挖掘進(jìn)展6.1 生物序列數(shù)據(jù)挖掘的基本概念和內(nèi)容6.1.1 生物序列相似性6.1.2 生物序列模式挖掘6.1.3 生物序列聚類分析6.1.4 生物序列分類分析6.1.5 生物序列關(guān)聯(lián)分析6.1.6 生物序列異常分析6.2 生物序列數(shù)據(jù)挖掘的研究階段6.2.1 基于統(tǒng)計(jì)技術(shù)的數(shù)據(jù)挖掘方法的應(yīng)用階段6.2.2 一般化數(shù)據(jù)挖掘方法的應(yīng)用階段6.2.3 專門數(shù)據(jù)挖掘技術(shù)的設(shè)計(jì)階段
9、6.3 生物序列數(shù)據(jù)挖掘研究與應(yīng)用現(xiàn)狀6.3.1 生物序列模式挖掘方面6.3.2 生物序列聚類分析方面6.3.3 生物序列分類分析方面6.3.4 生物序列關(guān)聯(lián)分析方面6.3.5 生物序列異常分析方面6.4 生物序列數(shù)據(jù)挖掘研究趨勢6.5 小結(jié)第7章 生物序列數(shù)據(jù)挖掘技術(shù)7.1 序列數(shù)據(jù)源7.2 生物序列模式挖掘7.2.1 生物序列模式挖掘問題7.2.2 基于多支持度的生物序列模式挖掘框架7.2.3 基于多支持度的生物序列模式挖掘算法7.3 生物序列聚類分析7.3.1 生物序列聚類問題分析7.3.2 蛋白質(zhì)序列聚類7.3.3 基因序列聚類7.4 生物序列分類分析7.4.1 生物序列分類問題分析7
10、.4.2 轉(zhuǎn)錄因子分類7.4.3 基于支持向量機(jī)的轉(zhuǎn)錄因子分類算法7.5 小結(jié)第8章 基因芯片數(shù)據(jù)挖掘8.1 基因表達(dá)譜芯片數(shù)據(jù)挖掘8.1.1 基因表達(dá)譜數(shù)據(jù)分析8.1.2 基因表達(dá)相似性分析8.1.3 基因表達(dá)共發(fā)生分析8.1.4 基因表達(dá)路徑分析8.1.5 特殊表達(dá)基因分析8.2 基因表達(dá)譜數(shù)據(jù)庫建設(shè)8.2.1 基因表達(dá)譜芯片數(shù)據(jù)的標(biāo)準(zhǔn)8.2.2 基因表達(dá)譜數(shù)據(jù)庫建設(shè)的難點(diǎn)8.2.3 數(shù)據(jù)庫結(jié)構(gòu)設(shè)計(jì)8.2.4 數(shù)據(jù)加載與數(shù)據(jù)管理8.2.5 自動(dòng)導(dǎo)入數(shù)據(jù)8.3 基因表達(dá)譜數(shù)據(jù)挖掘系統(tǒng)8.3.1 數(shù)據(jù)挖掘框架8.3.2 bdmapa架構(gòu)擴(kuò)展8.3.3 基因表達(dá)譜芯片數(shù)據(jù)挖掘系統(tǒng)8.4 小結(jié)第9
11、章 轉(zhuǎn)錄因子、順式調(diào)控元件挖掘系統(tǒng)9.1 轉(zhuǎn)錄因子、順式調(diào)控元件挖掘原理9.1.1 轉(zhuǎn)錄因子、順式調(diào)控元件挖掘原理9.1.2 順式調(diào)控元件文本挖掘原理9.2 轉(zhuǎn)錄因子、順式調(diào)控元件挖掘系統(tǒng)設(shè)計(jì)9.2.1 數(shù)據(jù)挖掘軟件9.2.2 數(shù)據(jù)分析服務(wù)9.2.3 綜合的轉(zhuǎn)錄因子、順式調(diào)控元件數(shù)據(jù)庫9.3 小結(jié)第10章 生物序列數(shù)據(jù)庫管理系統(tǒng)10.1 生物數(shù)據(jù)處理面臨的問題10.1.1 生物數(shù)據(jù)存儲(chǔ)方式10.1.2 生物序列數(shù)據(jù)庫的查詢需求10.2 生物序列數(shù)據(jù)模型bioseg10.2.1 數(shù)據(jù)結(jié)構(gòu)10.2.2 代數(shù)操作10.2.3 open builtin函數(shù)10.2.4 等價(jià)規(guī)則10.2.5 biose
12、g模型的特點(diǎn)10.3 生物序列數(shù)據(jù)庫管理系統(tǒng)的設(shè)計(jì)10.3.1 代數(shù)查詢實(shí)例10.3.2 查詢語言10.3.3 體系結(jié)構(gòu)10.4 小結(jié)參考文獻(xiàn)致謝書摘插圖 :第1章背景知識(shí)諾貝爾獎(jiǎng)獲得者dulbecc0于1986年在science雜志上發(fā)表的一篇短文中率先提出了人類基因組計(jì)劃。該計(jì)劃在探討生命奧秘的過程中,使得自動(dòng)化的dna測序技術(shù)、生物數(shù)據(jù)挖掘分析技術(shù)、基因組數(shù)據(jù)庫和分析軟件、基因芯片技術(shù)的一些工具性技術(shù)獲得了快速發(fā)展,并使生物信息學(xué)作為一個(gè)學(xué)科領(lǐng)域獲得了公認(rèn)。本章介紹生物信息學(xué)、數(shù)據(jù)整合與數(shù)據(jù)挖掘方面的背景知識(shí)和基本概念。 1.1 生物信息學(xué)生命科學(xué)實(shí)驗(yàn)產(chǎn)生了大量生物數(shù)據(jù),如何在數(shù)學(xué)、計(jì)算
13、機(jī)科學(xué)等的支持下充分利用這些生物數(shù)據(jù)更有效地開展生命的探討是一個(gè)很有意義的問題。于是,生物數(shù)據(jù)處理技術(shù)獲得了發(fā)展,并最終產(chǎn)生了生物信息學(xué)。1.1.1 基本概念生物信息學(xué)(bioinformatics)是指生命科學(xué)與數(shù)學(xué)科學(xué)、計(jì)算機(jī)科學(xué)和信息科學(xué)等交匯融合所形成的一門交叉學(xué)科。它應(yīng)用先進(jìn)的數(shù)據(jù)管理技術(shù)、數(shù)學(xué)分析模型和計(jì)算機(jī)軟件對各種生物數(shù)據(jù)進(jìn)行提取、存儲(chǔ)、處理和分析,旨在掌握復(fù)雜生命現(xiàn)象的形成模式與演化規(guī)律。該定義是rashidi等人于2000年給出的。由于生命科學(xué)研究者各自從事的具體領(lǐng)域不同,對其存在不同的理解,因此至今仍沒有一個(gè)關(guān)于生物信息學(xué)的統(tǒng)一定義。但其基本的研究內(nèi)容和研究方法還是比較統(tǒng)
14、一的,就是通過研究生物數(shù)據(jù)來促進(jìn)生命科學(xué)的研究。隨著生命科學(xué)研究的深入,生物信息學(xué)也受到廣泛關(guān)注。事實(shí)上,生物信息學(xué)起源要早很多。1953年4月25日,waston和crick提出dna(deoxyribo nucleic acid)雙螺旋結(jié)構(gòu)和自我復(fù)制機(jī)制,揭開了分子生物學(xué)研究的新篇章。1956年,在美國田納西州蓋特林堡召開首次“生物學(xué)中的信息理論研討會(huì)”,萌生了生物信息學(xué)概念。20世紀(jì)60年代,研究者開始搜集生物信息,并應(yīng)用計(jì)算方法對其進(jìn)行分析,發(fā)現(xiàn)其中反映生命現(xiàn)象的重要規(guī)律。隨后,生物學(xué)的研究手段發(fā)生了革命性的變化,由單純的觀察和實(shí)驗(yàn)研究轉(zhuǎn)向與生物數(shù)據(jù)分析相結(jié)合。70年代到80年代初,數(shù)
15、學(xué)統(tǒng)計(jì)方法和計(jì)算機(jī)技術(shù)得到了較快發(fā)展,研究者開始應(yīng)用計(jì)算機(jī)技術(shù)解決生物學(xué)問題,生物信息學(xué)初步形成。1986年,美國科學(xué)家首次提出“人類基因組計(jì)劃”(human genome project,hgp),促進(jìn)了生物信息學(xué)的迅速發(fā)展。1987年,hwa a.lim博士首次將這一學(xué)科命名為“bioinformatics”(生物信息學(xué))。正如dulbecco 1986年所說:“人類的dna序列是人類的真諦,這個(gè)世界上發(fā)生的一切事情,都與這一序列息息相關(guān)。”但這些由數(shù)以億計(jì)acgt符號(hào)組成的dna序列中包含著什么信息?基因組中的這些信息怎樣控制有機(jī)體的發(fā)育?基因組本身又是怎樣進(jìn)化的?要完全破譯這一序列以及
16、相關(guān)的內(nèi)容,人類還有相當(dāng)長的路要走。生物信息學(xué)成為可能揭開謎底的重要方法之一。1.1.2研究內(nèi)容生物信息學(xué)的目標(biāo)是指導(dǎo)生命科學(xué)研究,以揭示生物數(shù)據(jù)中蘊(yùn)含的生物學(xué)知識(shí)和規(guī)律,讀懂基因組的遺傳信息。其研究內(nèi)容主要包括以下兩大方面。1.生物數(shù)據(jù)的存儲(chǔ)、管理和整合生物數(shù)據(jù)主要有生物序列數(shù)據(jù)(如dna序列、蛋白質(zhì)序列等)、生物分子結(jié)構(gòu)數(shù)據(jù)、芯片及基因表達(dá)數(shù)據(jù)、生物網(wǎng)絡(luò)數(shù)據(jù)(如蛋白質(zhì)相互作用網(wǎng)絡(luò)、調(diào)控網(wǎng)絡(luò)、代謝網(wǎng)絡(luò)等)、生物文獻(xiàn)數(shù)據(jù)等。目前在國際上總共約有1 000多個(gè)生物數(shù)據(jù)庫,存放數(shù)百tb(tera byte)的生物數(shù)據(jù)。由于大多數(shù)生物數(shù)據(jù)的含義目前還不為人們所知,因此大量的生物學(xué)研究將基于生物數(shù)據(jù)進(jìn)
17、行。生物學(xué)研究手段由單純的觀察和實(shí)驗(yàn)轉(zhuǎn)向現(xiàn)代信息學(xué)方法,即將生物的實(shí)驗(yàn)變成了數(shù)據(jù)的計(jì)算。生物數(shù)據(jù)是一種非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)量巨大、種類繁多、數(shù)據(jù)操作類型復(fù)雜等是其主要的特征。其表達(dá)和存儲(chǔ)方式是生物數(shù)據(jù)訪問和處理的關(guān)鍵。目前,生物數(shù)據(jù)的存儲(chǔ)方式有兩種:一種是采用文本文件方式存儲(chǔ);另一種是采用關(guān)系數(shù)據(jù)庫、xml(extensible markup language)數(shù)據(jù)庫或者面向?qū)ο髷?shù)據(jù)庫等存儲(chǔ)方式,但是由于沒有合適的數(shù)據(jù)模型或數(shù)據(jù)類型,生物數(shù)據(jù)在這種存儲(chǔ)方式中也只是用數(shù)據(jù)庫管理系統(tǒng)(database management system,dbms)中提供的文本字段來存儲(chǔ)。就是說,兩者本質(zhì)上是一樣的,
18、都是文本方式。文本方式對復(fù)雜的生物數(shù)據(jù)操作(如:生物序列相似性查詢、motif查詢等)而言,處理效率是難以令人滿意的,也即目前的數(shù)據(jù)庫技術(shù)(包括xml數(shù)據(jù)庫技術(shù))都不適合生物數(shù)據(jù)的存儲(chǔ)、管理和處理,這直接影響了生物信息學(xué)軟件的有效性和實(shí)用性,進(jìn)而影響了生命科學(xué)和生物技術(shù)的發(fā)展。另外,文本方式的存儲(chǔ)在生物數(shù)據(jù)的處理能力和處理性能上也都不能滿足要求。因此,如何有效地管理和處理生物數(shù)據(jù)是一個(gè)亟待解決的問題。針對生物數(shù)據(jù)的特點(diǎn),建立生物數(shù)據(jù)庫管理系統(tǒng)是一個(gè)關(guān)系生命科學(xué)與技術(shù)發(fā)展的重要課題。由于生物數(shù)據(jù)產(chǎn)生于世界各地的研究機(jī)構(gòu),存儲(chǔ)在各種生物數(shù)據(jù)庫中,因此為完成一項(xiàng)研究工作,需要整合這些分散在各研究機(jī)構(gòu)
19、中的生物數(shù)據(jù)。但因?yàn)樯飻?shù)據(jù)庫數(shù)量眾多且規(guī)模龐大,所以生物數(shù)據(jù)整合是一項(xiàng)艱巨的計(jì)算機(jī)工程任務(wù)。2.生物數(shù)據(jù)挖掘和分析生物信息學(xué)領(lǐng)域的核心內(nèi)容是研究如何通過對生物數(shù)據(jù)的分析,以期發(fā)現(xiàn)生物數(shù)據(jù)中的規(guī)律(如dna序列、結(jié)構(gòu)及其與生物功能之間的關(guān)系等),并對分析結(jié)果進(jìn)行解釋和可視化,其研究范圍涉及基因組學(xué)、蛋白質(zhì)組學(xué)、系統(tǒng)生物學(xué)、比較基因組學(xué)等,挖掘和分析的內(nèi)容包括生物序列數(shù)據(jù)的分析和挖掘、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)的分析和挖掘、生物網(wǎng)絡(luò)系統(tǒng)的分析和挖掘、芯片和基因表達(dá)數(shù)據(jù)分析等內(nèi)容。(1)生物序列數(shù)據(jù)的分析和挖掘序列比對:序列相似性研究是生物序列數(shù)據(jù)分析和挖掘研究的核心內(nèi)容,其中一個(gè)主要的應(yīng)用問題是給定一條生物
20、序列,在序列數(shù)據(jù)庫中查詢與其相似程度大于一定閾值的序列(比較兩個(gè)或兩個(gè)以上的序列的相似性),即生物序列相似性查詢。序列比對是最基本、最重要的方法之一,它根據(jù)給定的相似矩陣(pam250,blosum62等),同時(shí)考慮可能的插入、刪除和突變,找出序列間的最優(yōu)聯(lián)配。序列比對主要有全局比對和局部比對兩種策略:全局比對是對序列的全長進(jìn)行比對,適用于全局水平上相似性程度較高的序列;典型的算法有needleman-wunsch算法等;局部比對是尋找序列間相似性最大的子序列,典型的算法有基于動(dòng)態(tài)規(guī)劃思想的smith-waterman算法以及啟發(fā)式的兩序列比對數(shù)據(jù)庫相似性搜索算法fasta和blast(bas
21、ic local alignment search t001)等。多序列比對是將一組序列同時(shí)進(jìn)行比對,發(fā)現(xiàn)序列間的相似程度,大多采用啟發(fā)式算法,具有代表性的主要是漸進(jìn)比對方法和迭代比對方法。功能元件分析:基因識(shí)別是識(shí)別dna序列上的具有生物學(xué)特征的片段,識(shí)別對象包括蛋白質(zhì)編碼(即基因的范圍和在序列中的位置),也包括其他具有一定生物學(xué)功能的功能元件,如轉(zhuǎn)錄因子、順式調(diào)控元件等。功能元件能夠表征序列的功能特征。序列上的功能元件主要包括編碼序列元功能片段和非編碼序列元功能片段等。其中,編碼序列可被轉(zhuǎn)錄并執(zhí)行一定的生物學(xué)功能;調(diào)控序列控制編碼序列的動(dòng)態(tài)行為,如轉(zhuǎn)錄調(diào)控序列控制編碼序列的表達(dá)速率等。目前,“dna元件百科全書”(encyclopedia of dna elements,encode)計(jì)劃已開展人類基因組中功能元件的分析工作,但該計(jì)劃正處于初期,積累的數(shù)據(jù)仍然較少。(2)蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)的分析和挖掘人類基因工程的目的之一是要了解人體內(nèi)蛋白質(zhì)的結(jié)構(gòu)、功能、相互作用以及與各種人類疾病之間的關(guān)系。雖然蛋白質(zhì)由氨基酸的線性序列組成,但是只有折疊成特定的空間構(gòu)象才能具有相應(yīng)的生物學(xué)功能。由于蛋白質(zhì)的三維結(jié)構(gòu)比其一級結(jié)構(gòu)在進(jìn)化中更穩(wěn)定,同時(shí)也包含了較氨基酸序列(一級結(jié)構(gòu))更多的信息,因此,蛋白質(zhì)結(jié)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高強(qiáng)環(huán)保門行業(yè)深度研究報(bào)告
- 中國雕塑金屬工藝品項(xiàng)目投資可行性研究報(bào)告
- 白銀市場的前景預(yù)測與投資策略研究
- 圖書館志愿者申請書
- 養(yǎng)老護(hù)理員復(fù)習(xí)題與參考答案
- 海關(guān)在防止假冒偽劣產(chǎn)品中的作用
- 臺(tái)州職業(yè)技術(shù)學(xué)院《照明技術(shù)與運(yùn)用》2023-2024學(xué)年第二學(xué)期期末試卷
- 中國科學(xué)院大學(xué)《學(xué)術(shù)寫作與研究方法》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年中國在線旅游行業(yè)市場深度調(diào)查評估及投資方向研究報(bào)告
- 電工材料的發(fā)展對商業(yè)領(lǐng)域的推動(dòng)
- Q∕SY 03026-2019 石腦油-行業(yè)標(biāo)準(zhǔn)
- 浙江共同富裕哪些值得關(guān)注
- 2020 ACLS-PC-SA課前自我測試試題及答案
- 元宵節(jié)猜燈謎PPT
- 錦州市主要環(huán)境問題論文
- 東風(fēng)4型內(nèi)燃機(jī)車檢修規(guī)程
- 空間幾何向量法之點(diǎn)到平面的距離
- 藥品經(jīng)營企業(yè)GSP計(jì)算機(jī)系統(tǒng)培訓(xùn)PPT課件
- 建筑工程冬期施工規(guī)程JGJT1042011
- 變頻器變頻altivar71說明書
- 反激式變壓器計(jì)算表格
評論
0/150
提交評論