人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究_第1頁
人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究_第2頁
人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究_第3頁
人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究_第4頁
人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究_第5頁
已閱讀5頁,還剩55頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究5/9/20241人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究內(nèi)容生物信息學(xué)概述生物知識DNA介紹蛋白質(zhì)介紹人工智能和自然語言處理技術(shù)在生物信息學(xué)中的應(yīng)用蛋白質(zhì)序列和自然語言的相似性蛋白質(zhì)相互作用位點預(yù)測遠程同源性和折疊檢測資源數(shù)據(jù)庫工具5/9/20242人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究定義Bioinformatics由來生物信息學(xué)之父HwaA.Lim博士CompBiobioinformatiquebio-informatics(bio/informatics)bioinformatics5/9/20243人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究意義蛋白質(zhì)序列蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)指數(shù)級增長增長的不平衡性5/9/20244人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究研究方向DNA序列分析基因識別系統(tǒng)發(fā)生行為分析(進化樹)蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測基因芯片數(shù)據(jù)挖掘和基因表達調(diào)控信息分析基因組功能預(yù)測支撐蛋白質(zhì)組學(xué)和各種“組學(xué)”研究利用生物分子的結(jié)構(gòu)信息參與創(chuàng)新藥物的設(shè)計生物學(xué)虛擬實驗?zāi)P偷臉?gòu)件5/9/20245人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究數(shù)據(jù)源數(shù)據(jù)量生物信息學(xué)任務(wù)DNA序列3000萬條序列400.0億個堿基分離編碼與非編碼區(qū)域識別內(nèi)含子與外顯子基因產(chǎn)物預(yù)測基因功能注釋基因調(diào)控信息分析蛋白質(zhì)序列100萬條序列序列比較多重序列比對識別保守的序列模式進化分析大分子結(jié)構(gòu)2.5萬個結(jié)構(gòu)二級結(jié)構(gòu)、空間結(jié)構(gòu)預(yù)測三維結(jié)構(gòu)比對蛋白質(zhì)幾何學(xué)度量表面和形態(tài)計算分子間相互作用分析分子模擬基因組1300個基因組(其中大量是病毒和微生物基因組)標注重復(fù)序列基因結(jié)構(gòu)分析系統(tǒng)發(fā)生分析基因與疾病的連鎖分析基因組比較遺傳語言分析基因表達海量基因表達模式相關(guān)分析基因調(diào)控網(wǎng)絡(luò)分析表達調(diào)控信息分析5/9/20246人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究DNA介紹5/9/20247人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究堿基5/9/20248人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究DNARNA堿基腺嘌呤(adennine,A)鳥嘌呤(guanine,G)胞嘧啶(cytosine,C)胸腺嘧啶(thymine,T)腺嘌呤鳥嘌呤胞嘧啶尿嘧啶(Uracil,U)戊糖脫氧核糖核糖磷酸磷酸磷酸5/9/20249人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究堿基配對5/9/202410人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究DNA的空間結(jié)構(gòu)5/9/202411人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究蛋白質(zhì)介紹5/9/202412人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究20種標準氨基酸的英文簡寫氨基酸名稱英文縮寫簡寫氨基酸名稱英文縮寫簡寫甘氨酸GlyG絲氨酸SerS丙氨酸AlaA蘇氨酸ThrT纈氨酸ValV天冬酰胺AsnN異亮氨酸IleI谷酰胺GlnQ亮氨酸LeuL酪氨酸TyrY苯丙氨酸PheF組氨酸HisH脯氨酸ProP天冬氨酸AspD甲硫氨酸MetM谷氨酸GluE色氨酸TrpW賴氨酸LysK半胱氨酸CysC精氨酸ArgR5/9/202413人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究肽鍵5/9/202414人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究5/9/202415人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究5/9/202416人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究本實驗室的人工智能技術(shù)和自然語言處理技術(shù)在生物信息學(xué)中的應(yīng)用采用Ngram尋找蛋白白質(zhì)序列和自然語言的相似性采用條件隨即域(CRF)解決蛋白質(zhì)相互作用位點預(yù)測問題。采用N-gram,binaryproprofile模型結(jié)合支持向量(SVM)機解決蛋白質(zhì)遠程同源性和折疊識別的問題。采用潛在語義分析(LSA)提高遠程同源性檢測效果。5/9/202417人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究蛋白質(zhì)序列和自然語言的相似性5/9/202418人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究蛋白質(zhì)序列和自然語言的相似性Dongetal.N-gramStatisticsandLinguisticFeatruesAnalysisofWholeGenomeProteinSequences.JournalofHarbinInstituteofTechnology.2004在此論文中,探索了蛋白質(zhì)和自然語言之間的關(guān)系。5/9/202419人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究N-gram例子:SVYDA其中包含的3-gram為:SVYVYDYDA5/9/202420人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究N-gram比較分析(人)5/9/202421人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究N-gram比較分析(褐家鼠)5/9/202422人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究蛋白質(zhì)組的Zipf定律分析Zipf定律:對數(shù)形式的Zipf定律為:5/9/202423人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究Zipf定律分析(人)5/9/202424人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究蛋白質(zhì)序列和自然語言的關(guān)系5/9/202425人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究蛋白質(zhì)相互作用位點預(yù)測5/9/202426人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究基于CRF的蛋白質(zhì)相互作用位點預(yù)測

蛋白質(zhì)相互作用位點預(yù)測研究內(nèi)容蛋白質(zhì)相互作用位點預(yù)測的意義為什么采用CRF進行相互作用位點預(yù)測CRF模型實驗結(jié)果分析5/9/202427人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究蛋白質(zhì)相互作用位點預(yù)測研究內(nèi)容

5/9/202428人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究相互作用位點預(yù)測的任務(wù)ARNDCQEGHILKMFPST

WYV...01001000000100000000…5/9/202429人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究蛋白質(zhì)相互作用位點預(yù)測的意義識別相互作用的位點可以幫助構(gòu)建蛋白質(zhì)復(fù)合體的分子結(jié)構(gòu)模型。與此同時,蛋白質(zhì)相互作用位點的研究對理解生物體活動機制、蛋白質(zhì)功能研究、疾病診斷和藥物研究有重要意義。5/9/202430人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究為什么采用CRF進行相互作用位點預(yù)測蛋白質(zhì)一級結(jié)構(gòu)是一個序列傳統(tǒng)的相互作用位點預(yù)測方法都是基于分類的方法,忽略了序列相鄰的或者空間相鄰的殘基對于形成相互作用的接口具有相似的傾向。為了引入相鄰殘基間的相互影響的信息,采用了基于序列標記的方法(CRF)。5/9/202431人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究CRF模型yi-1yiyi+1X(x1,x2,…,xi-1,xi,xi+1,…xn)鏈狀條件隨機域模型

轉(zhuǎn)移特征

狀態(tài)特征

5/9/202432人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究特征定義

轉(zhuǎn)移特征序列譜狀態(tài)特征殘基的溶劑可接 觸面積狀態(tài)特征殘基的保守性狀 態(tài)特征5/9/202433人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究實驗結(jié)果分析:預(yù)測示例SMC1HD:SCC1-C復(fù)合體CRF預(yù)測結(jié)果支持向量機預(yù)測結(jié)果正確位點5/9/202434人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究實驗結(jié)果分析:預(yù)測示例Ribosomalsubunit30S復(fù)合體CRF預(yù)測結(jié)果支持向量機預(yù)測結(jié)果正確位點5/9/202435人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究實驗結(jié)果分析:預(yù)測示例SreptococcalpyrogenicenterotoxinC(SpeC)復(fù)合體CRF預(yù)測結(jié)果支持向量機預(yù)測結(jié)果正確位點5/9/202436人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究遠程同源性和折疊檢測5/9/202437人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究遠程同源性和折疊檢測研究內(nèi)容蛋白質(zhì)可按其結(jié)構(gòu)和進化關(guān)系進行分類。目前廣泛使用SCOP數(shù)據(jù)庫定義的分類體系,包含三個主要層次:家族(family)、超家族(superfamily)和折疊(fold)。依靠蛋白質(zhì)一級結(jié)構(gòu)將其按照結(jié)構(gòu)和進化關(guān)系進行分類。5/9/202438人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究意義在比較建模和折疊識別中,都需要識別和待測序列具有同源性的蛋白質(zhì)作為模板。因此根據(jù)序列來探測蛋白質(zhì)的同源性是蛋白質(zhì)結(jié)構(gòu)預(yù)測中的重要步驟。5/9/202439人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究蛋白質(zhì)同源性檢測方法示意圖5/9/202440人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究蛋白質(zhì)向量化方法N-gramsBinaryprofilesN-naryprofiles5/9/202441人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究Binaryprofiles5/9/202442人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究N-naryprofiles5/9/202443人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究統(tǒng)計方法統(tǒng)計方法可衡量特征t和類別c之間的相關(guān)性。特征t相對于類別c的值定義如下5/9/202444人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究潛在語義分析(LSA)用于自動實現(xiàn)知識提取和表示的理論和方法,通過對大量的文本集進行統(tǒng)計分析,從中提取出詞語的上下文使用含義。5/9/202445人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究采用LSA的可能性5/9/202446人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究實驗結(jié)果分析(遠程同源性檢測結(jié)果)5/9/202447人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究實驗結(jié)果分析(折疊檢測結(jié)果)5/9/202448人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究遠程同源性檢測結(jié)果(roc50分布)5/9/202449人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究折疊檢測結(jié)果(roc50分布)5/9/202450人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究核酸序列數(shù)據(jù)庫(cont.)國際上權(quán)威的核酸序列數(shù)據(jù)庫(1)歐洲分子生物學(xué)實驗室的EMBL(2)美國生物技術(shù)信息中心的GenBank(3)日本遺傳研究所的DDBJ人類基因組數(shù)據(jù)庫GDBEnsembl其他模式生物基因組數(shù)據(jù)庫鼠基因組數(shù)據(jù)庫MGD酵母基因組數(shù)據(jù)庫SGD表達序列標記數(shù)據(jù)庫dbEST序列標記位點數(shù)據(jù)庫dbSTS面向基因聚類數(shù)據(jù)庫UniGene5/9/202451人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究蛋白質(zhì)序列數(shù)據(jù)庫PIR

SWISS-PROT

TrEMBL

UniProtIncludesPIR,SWISS-PROT,TrEMBL

5/9/202452人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究生物大分子結(jié)構(gòu)數(shù)據(jù)庫PDB

MMDB

5/9/202453人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究PDB5/9/202454人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究其他生物分子數(shù)據(jù)庫單堿基多態(tài)性數(shù)據(jù)庫dbSNP蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫SCOP蛋白質(zhì)二級結(jié)構(gòu)數(shù)據(jù)庫DSSP蛋白質(zhì)同源序列比對數(shù)據(jù)庫HSSP人類遺傳數(shù)據(jù)庫OMIM蛋白質(zhì)指紋數(shù)據(jù)庫PRINTS基因啟動子數(shù)據(jù)庫EPD轉(zhuǎn)錄調(diào)控區(qū)域數(shù)據(jù)庫TRRD轉(zhuǎn)錄因子數(shù)據(jù)庫TRANSFAC基因本體數(shù)據(jù)庫GO生物、醫(yī)學(xué)文獻數(shù)據(jù)庫PubMed人、鼠基因表達數(shù)據(jù)庫BODYMAP序列模式數(shù)據(jù)庫PROSITE目錄數(shù)據(jù)庫DBCat5/9/202455人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究其他資源北京大學(xué)生物信息中心(歐洲分子生物學(xué)網(wǎng)絡(luò)EMBNet的中國節(jié)點和亞太生物信息學(xué)網(wǎng)絡(luò)(APBioNet)中國節(jié)點)http://

TheCanadianBioinformaticsResourcehttp:///HumanGenomeWorkingDrafthttp:///TIGR(TheInstituteforGenomicsResearch)http:///Celerahttp:///(Model)Organismspecificinformation:Yeast:/Arabidopis:http:///Mouse:http:///Fruitfly:http:///Nematode:http:///NucleicAcidsResearchDatabaseIssuehttp:///(Firstissueeveryyear)5/9/202456人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究常用軟件DatabaseinterfacesGenbank/EMBL/DDBJ,Medline,SwissProt,PDB,…SequencealignmentBLAST,FASTAMultiplesequencealignmentClustal,MultAlin,DiAlign,PSI-BlastGenefindingGenscan,GenomeScan,GeneMark,GRAILProteinDomainanalysisandidentificationpfam,BLOCKS,ProDom,PatternIdentification/CharacterizationGibbsSampler,AlignACE,MEMEProteinFoldingpredictionPredictProtein,SwissModeler5/9/202457人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究研究中的一些體會發(fā)現(xiàn)問題緊緊圍繞實驗室的技術(shù)在試驗中發(fā)現(xiàn)問題,解決問題。Sun說過“沒有失敗的試驗,只有放棄的試驗”。5/9/202458人工智能技術(shù)在生物信息學(xué)中的應(yīng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論