版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究劉濱人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究1內(nèi)容生物信息學(xué)概述生物知識(shí)DNA介紹蛋白質(zhì)介紹人工智能和自然語(yǔ)言處理技術(shù)在生物信息學(xué)中的應(yīng)用蛋白質(zhì)序列和自然語(yǔ)言的相似性蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)遠(yuǎn)程同源性和折疊檢測(cè)資源數(shù)據(jù)庫(kù)工具內(nèi)容生物信息學(xué)概述2定義Bioinformatics由來(lái)生物信息學(xué)之父HwaA.Lim博士CompBiobioinformatiquebio-informatics(bio/informatics)bioinformatics定義3意義蛋白質(zhì)序列蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)指數(shù)級(jí)增長(zhǎng)增長(zhǎng)的不平衡性意義蛋白質(zhì)序列蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)指數(shù)級(jí)增長(zhǎng)4研究方向DNA序列分析基因識(shí)別系統(tǒng)發(fā)生行為分析(進(jìn)化樹)蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測(cè)基因芯片數(shù)據(jù)挖掘和基因表達(dá)調(diào)控信息分析基因組功能預(yù)測(cè)支撐蛋白質(zhì)組學(xué)和各種“組學(xué)”研究利用生物分子的結(jié)構(gòu)信息參與創(chuàng)新藥物的設(shè)計(jì)生物學(xué)虛擬實(shí)驗(yàn)?zāi)P偷臉?gòu)件研究方向DNA序列分析5數(shù)據(jù)源數(shù)據(jù)量生物信息學(xué)任務(wù)DNA序列3000萬(wàn)條序列400.0億個(gè)堿基分離編碼與非編碼區(qū)域識(shí)別內(nèi)含子與外顯子基因產(chǎn)物預(yù)測(cè)基因功能注釋基因調(diào)控信息分析蛋白質(zhì)序列100萬(wàn)條序列序列比較多重序列比對(duì)識(shí)別保守的序列模式進(jìn)化分析大分子結(jié)構(gòu)2.5萬(wàn)個(gè)結(jié)構(gòu)二級(jí)結(jié)構(gòu)、空間結(jié)構(gòu)預(yù)測(cè)三維結(jié)構(gòu)比對(duì)蛋白質(zhì)幾何學(xué)度量表面和形態(tài)計(jì)算分子間相互作用分析分子模擬基因組1300個(gè)基因組(其中大量是病毒和微生物基因組)標(biāo)注重復(fù)序列基因結(jié)構(gòu)分析系統(tǒng)發(fā)生分析基因與疾病的連鎖分析基因組比較遺傳語(yǔ)言分析基因表達(dá)海量基因表達(dá)模式相關(guān)分析基因調(diào)控網(wǎng)絡(luò)分析表達(dá)調(diào)控信息分析數(shù)據(jù)源數(shù)據(jù)量生物信息學(xué)任務(wù)DNA序列3000萬(wàn)條序列分離編6DNA介紹DNA介紹7堿基堿基8DNARNA堿基腺嘌呤(adennine,A)鳥嘌呤(guanine,G)胞嘧啶(cytosine,C)胸腺嘧啶(thymine,T)腺嘌呤鳥嘌呤胞嘧啶尿嘧啶(Uracil,U)戊糖脫氧核糖核糖磷酸磷酸磷酸DNARNA堿基腺嘌呤(adennine,A)腺嘌呤戊糖脫氧9堿基配對(duì)堿基配對(duì)10DNA的空間結(jié)構(gòu)DNA的空間結(jié)構(gòu)11蛋白質(zhì)介紹蛋白質(zhì)介紹1220種標(biāo)準(zhǔn)氨基酸的英文簡(jiǎn)寫氨基酸名稱英文縮寫簡(jiǎn)寫氨基酸名稱英文縮寫簡(jiǎn)寫甘氨酸GlyG絲氨酸SerS丙氨酸AlaA蘇氨酸ThrT纈氨酸ValV天冬酰胺AsnN異亮氨酸IleI谷酰胺GlnQ亮氨酸LeuL酪氨酸TyrY苯丙氨酸PheF組氨酸HisH脯氨酸ProP天冬氨酸AspD甲硫氨酸MetM谷氨酸GluE色氨酸TrpW賴氨酸LysK半胱氨酸CysC精氨酸ArgR20種標(biāo)準(zhǔn)氨基酸的英文簡(jiǎn)寫氨基酸名稱英文縮寫簡(jiǎn)寫氨基酸名稱13肽鍵肽鍵14人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究課件15人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究課件16本實(shí)驗(yàn)室的人工智能技術(shù)和自然語(yǔ)言處理技術(shù)在生物信息學(xué)中的應(yīng)用采用Ngram尋找蛋白白質(zhì)序列和自然語(yǔ)言的相似性采用條件隨即域(CRF)解決蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)問(wèn)題。采用N-gram,binaryprofile和N-naryprofile模型結(jié)合支持向量(SVM)機(jī)解決蛋白質(zhì)遠(yuǎn)程同源性和折疊識(shí)別的問(wèn)題。采用潛在語(yǔ)義分析(LSA)提高遠(yuǎn)程同源性檢測(cè)效果。本實(shí)驗(yàn)室的人工智能技術(shù)和自然語(yǔ)言處理技術(shù)在生物信息學(xué)中的應(yīng)用17蛋白質(zhì)序列和自然語(yǔ)言的相似性蛋白質(zhì)序列和自然語(yǔ)言的相似性18蛋白質(zhì)序列和自然語(yǔ)言的相似性Dongetal.N-gramStatisticsandLinguisticFeatruesAnalysisofWholeGenomeProteinSequences.JournalofHarbinInstituteofTechnology.2004在此論文中,探索了蛋白質(zhì)和自然語(yǔ)言之間的關(guān)系。蛋白質(zhì)序列和自然語(yǔ)言的相似性Dongetal.N-gr19N-gram例子:SVYDA其中包含的3-gram為:SVYVYDYDAN-gram例子:SVYDA20N-gram比較分析(人)N-gram比較分析(人)21N-gram比較分析(褐家鼠)N-gram比較分析(褐家鼠)22蛋白質(zhì)組的Zipf定律分析Zipf定律:對(duì)數(shù)形式的Zipf定律為:蛋白質(zhì)組的Zipf定律分析Zipf定律:23Zipf定律分析(人)Zipf定律分析(人)24蛋白質(zhì)序列和自然語(yǔ)言的關(guān)系蛋白質(zhì)序列和自然語(yǔ)言的關(guān)系25蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)26基于CRF的蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)
蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)研究?jī)?nèi)容蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)的意義為什么采用CRF進(jìn)行相互作用位點(diǎn)預(yù)測(cè)CRF模型實(shí)驗(yàn)結(jié)果分析基于CRF的蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)
蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)研27蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)研究?jī)?nèi)容
蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)研究?jī)?nèi)容
28相互作用位點(diǎn)預(yù)測(cè)的任務(wù)ARNDCQEGHILKMFPST
WYV...01001000000100000000…相互作用位點(diǎn)預(yù)測(cè)的任務(wù)ARNDCQEGHI29蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)的意義識(shí)別相互作用的位點(diǎn)可以幫助構(gòu)建蛋白質(zhì)復(fù)合體的分子結(jié)構(gòu)模型。與此同時(shí),蛋白質(zhì)相互作用位點(diǎn)的研究對(duì)理解生物體活動(dòng)機(jī)制、蛋白質(zhì)功能研究、疾病診斷和藥物研究有重要意義。蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)的意義識(shí)別相互作用的位點(diǎn)可以幫助構(gòu)建蛋30為什么采用CRF進(jìn)行相互作用位點(diǎn)預(yù)測(cè)蛋白質(zhì)一級(jí)結(jié)構(gòu)是一個(gè)序列傳統(tǒng)的相互作用位點(diǎn)預(yù)測(cè)方法都是基于分類的方法,忽略了序列相鄰的或者空間相鄰的殘基對(duì)于形成相互作用的接口具有相似的傾向。為了引入相鄰殘基間的相互影響的信息,采用了基于序列標(biāo)記的方法(CRF)。為什么采用CRF進(jìn)行相互作用位點(diǎn)預(yù)測(cè)蛋白質(zhì)一級(jí)結(jié)構(gòu)是一個(gè)序列31CRF模型yi-1yiyi+1X(x1,x2,…,xi-1,xi,xi+1,…xn)鏈狀條件隨機(jī)域模型
轉(zhuǎn)移特征
狀態(tài)特征
CRF模型yi-1yiyi+1X鏈狀條件隨機(jī)域模型轉(zhuǎn)移特征32特征定義
轉(zhuǎn)移特征序列譜狀態(tài)特征殘基的溶劑可接 觸面積狀態(tài)特征殘基的保守性狀 態(tài)特征特征定義
33實(shí)驗(yàn)結(jié)果分析:預(yù)測(cè)示例SMC1HD:SCC1-C復(fù)合體CRF預(yù)測(cè)結(jié)果支持向量機(jī)預(yù)測(cè)結(jié)果正確位點(diǎn)實(shí)驗(yàn)結(jié)果分析:預(yù)測(cè)示例SMC1HD:SCC1-C復(fù)合體CR34實(shí)驗(yàn)結(jié)果分析:預(yù)測(cè)示例Ribosomalsubunit30S復(fù)合體CRF預(yù)測(cè)結(jié)果支持向量機(jī)預(yù)測(cè)結(jié)果正確位點(diǎn)實(shí)驗(yàn)結(jié)果分析:預(yù)測(cè)示例Ribosomalsubunit335實(shí)驗(yàn)結(jié)果分析:預(yù)測(cè)示例SreptococcalpyrogenicenterotoxinC(SpeC)復(fù)合體CRF預(yù)測(cè)結(jié)果支持向量機(jī)預(yù)測(cè)結(jié)果正確位點(diǎn)實(shí)驗(yàn)結(jié)果分析:預(yù)測(cè)示例Sreptococcalpyroge36遠(yuǎn)程同源性和折疊檢測(cè)遠(yuǎn)程同源性和折疊檢測(cè)37遠(yuǎn)程同源性和折疊檢測(cè)研究?jī)?nèi)容蛋白質(zhì)可按其結(jié)構(gòu)和進(jìn)化關(guān)系進(jìn)行分類。目前廣泛使用SCOP數(shù)據(jù)庫(kù)定義的分類體系,包含三個(gè)主要層次:家族(family)、超家族(superfamily)和折疊(fold)。依靠蛋白質(zhì)一級(jí)結(jié)構(gòu)將其按照結(jié)構(gòu)和進(jìn)化關(guān)系進(jìn)行分類。遠(yuǎn)程同源性和折疊檢測(cè)研究?jī)?nèi)容蛋白質(zhì)可按其結(jié)構(gòu)和進(jìn)化關(guān)系進(jìn)行分38意義在比較建模和折疊識(shí)別中,都需要識(shí)別和待測(cè)序列具有同源性的蛋白質(zhì)作為模板。因此根據(jù)序列來(lái)探測(cè)蛋白質(zhì)的同源性是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中的重要步驟。意義在比較建模和折疊識(shí)別中,都需要識(shí)別和待測(cè)序列具有同源性的39蛋白質(zhì)同源性檢測(cè)方法示意圖蛋白質(zhì)同源性檢測(cè)方法示意圖40蛋白質(zhì)向量化方法N-gramsBinaryprofilesN-naryprofiles蛋白質(zhì)向量化方法41BinaryprofilesBinaryprofiles42N-naryprofilesN-naryprofiles43統(tǒng)計(jì)方法統(tǒng)計(jì)方法可衡量特征t和類別c之間的相關(guān)性。特征t相對(duì)于類別c的值定義如下統(tǒng)計(jì)方法統(tǒng)計(jì)方法可衡量特征t和類別c之間44潛在語(yǔ)義分析(LSA)用于自動(dòng)實(shí)現(xiàn)知識(shí)提取和表示的理論和方法,通過(guò)對(duì)大量的文本集進(jìn)行統(tǒng)計(jì)分析,從中提取出詞語(yǔ)的上下文使用含義。潛在語(yǔ)義分析(LSA)用于自動(dòng)實(shí)現(xiàn)知識(shí)提取和表示的理論和方法45采用LSA的可能性采用LSA的可能性46實(shí)驗(yàn)結(jié)果分析(遠(yuǎn)程同源性檢測(cè)結(jié)果)實(shí)驗(yàn)結(jié)果分析(遠(yuǎn)程同源性檢測(cè)結(jié)果)47實(shí)驗(yàn)結(jié)果分析(折疊檢測(cè)結(jié)果)實(shí)驗(yàn)結(jié)果分析(折疊檢測(cè)結(jié)果)48遠(yuǎn)程同源性檢測(cè)結(jié)果(roc50分布)遠(yuǎn)程同源性檢測(cè)結(jié)果(roc50分布)49折疊檢測(cè)結(jié)果(roc50分布)折疊檢測(cè)結(jié)果(roc50分布)50核酸序列數(shù)據(jù)庫(kù)(cont.)國(guó)際上權(quán)威的核酸序列數(shù)據(jù)庫(kù)(1)歐洲分子生物學(xué)實(shí)驗(yàn)室的EMBLhttp://www.embl-heidelberg.de
(2)美國(guó)生物技術(shù)信息中心的GenBank/Web/Genbank/index.html
(3)日本遺傳研究所的DDBJhttp://www.ddbj.nig.ac.jp/人類基因組數(shù)據(jù)庫(kù)GDB/
Ensembl/
其他模式生物基因組數(shù)據(jù)庫(kù)鼠基因組數(shù)據(jù)庫(kù)MGD/
酵母基因組數(shù)據(jù)庫(kù)SGD/Saccharomyces/表達(dá)序列標(biāo)記數(shù)據(jù)庫(kù)dbEST/dbEST/序列標(biāo)記位點(diǎn)數(shù)據(jù)庫(kù)dbSTS/dbSTS/面向基因聚類數(shù)據(jù)庫(kù)UniGene/UniGene/
核酸序列數(shù)據(jù)庫(kù)(cont.)國(guó)際上權(quán)威的核酸序列數(shù)據(jù)庫(kù)51蛋白質(zhì)序列數(shù)據(jù)庫(kù)PIR/
SWISS-PROThttp://www.expasy.ch/sprot/sprot-top.html
TrEMBLhttp://www.ebi.ac.uk/trembl/
UniProtIncludesPIR,SWISS-PROT,TrEMBL/
蛋白質(zhì)序列數(shù)據(jù)庫(kù)PIR52生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB/pdb/home/home.do
MMDB10/Structure/MMDB/mmdb.shtml
生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB53PDB
54其他生物分子數(shù)據(jù)庫(kù)單堿基多態(tài)性數(shù)據(jù)庫(kù)dbSNP/SNP/蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫(kù)SCOPhttp://scop.mrc-lmb.cam.ac.uk/scop/蛋白質(zhì)二級(jí)結(jié)構(gòu)數(shù)據(jù)庫(kù)DSSPhttp://www.sander.embl-heidelberg.de/dssp/
蛋白質(zhì)同源序列比對(duì)數(shù)據(jù)庫(kù)HSSPhttp://www.sander.embl-heidelberg.de/hssp/人類遺傳數(shù)據(jù)庫(kù)OMIM:80/entrez/query.fcgi?db=OMIM
蛋白質(zhì)指紋數(shù)據(jù)庫(kù)PRINTShttp://www.bioinf.man.ac.uk/dbbrowser/PRINTS/基因啟動(dòng)子數(shù)據(jù)庫(kù)EPDhttp://www.epd.isb-sib.ch/轉(zhuǎn)錄調(diào)控區(qū)域數(shù)據(jù)庫(kù)TRRDhttp://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/
轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)TRANSFAChttp://transfac.gbf.de/基因本體數(shù)據(jù)庫(kù)GO/
生物、醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)PubMed/人、鼠基因表達(dá)數(shù)據(jù)庫(kù)BODYMAPhttp://bodymap.ims.u-tokyo.ac.jp/序列模式數(shù)據(jù)庫(kù)PROSITEhttp://www.expasy.ch/prosite/目錄數(shù)據(jù)庫(kù)DBCatbiogen.fr/services/dbcat/其他生物分子數(shù)據(jù)庫(kù)單堿基多態(tài)性數(shù)據(jù)庫(kù)dbSNPhttp:/55其他資源北京大學(xué)生物信息中心(歐洲分子生物學(xué)網(wǎng)絡(luò)EMBNet的中國(guó)節(jié)點(diǎn)和亞太生物信息學(xué)網(wǎng)絡(luò)(APBioNet)中國(guó)節(jié)點(diǎn))/chinese/mirrors.html
TheCanadianBioinformaticsResourcehttp://www.cbr.nrc.ca/HumanGenomeWorkingDraft/TIGR(TheInstituteforGenomicsResearch)/Celera/(Model)Organismspecificinformation:Yeast:/Saccharomyces/Arabidopis:/Mouse:/Fruitfly:/Nematode:/NucleicAcidsResearchDatabaseIssue/(Firstissueeveryyear)其他資源北京大學(xué)生物信息中心(歐洲分子生物學(xué)網(wǎng)絡(luò)EMBNe56常用軟件DatabaseinterfacesGenbank/EMBL/DDBJ,Medline,SwissProt,PDB,…SequencealignmentBLAST,FASTAMultiplesequencealignmentClustal,MultAlin,DiAlign,PSI-BlastGenefindingGenscan,GenomeScan,GeneMark,GRAILProteinDomainanalysisandidentificationpfam,BLOCKS,ProDom,PatternIdentification/CharacterizationGibbsSampler,AlignACE,MEMEProteinFoldingpredictionPredictProtein,SwissModeler常用軟件Databaseinterfaces57研究中的一些體會(huì)發(fā)現(xiàn)問(wèn)題緊緊圍繞實(shí)驗(yàn)室的技術(shù)在試驗(yàn)中發(fā)現(xiàn)問(wèn)題,解決問(wèn)題。Sun說(shuō)過(guò)“沒(méi)有失敗的試驗(yàn),只有放棄的試驗(yàn)”。研究中的一些體會(huì)發(fā)現(xiàn)問(wèn)題58相關(guān)文章DongQiwen,WangXiaolong,LinLei.N-gramStatisticsandLinguisticFeaturesAnalysisofWholeGenomeProteinSequences.JournalofHarbinInstituteofTechnology.2004.LiMH,LinL,WangXL,LiuT:Protein-proteininteractionsitepredictionbasedonconditionalrandomfields.Bioinformatics(2007).DongQW.,WangXL.andLinL.:ApplicationofLatentSemanticAnalysistoProteinRemoteHomologyDetection.Bioinformatics.22,285-290(2006).LiuB,LinL,WangXL,DongQW,WangX:AdiscriminativemethodforproteinremotehomologydetectionbasedonN-naryprofiles.BIRD08(2008).孫之榮譯,后基因組信息學(xué),清華大學(xué)出版社.相關(guān)文章DongQiwen,WangXiaolong,59謝謝!歡迎您的批評(píng)指正謝謝!歡迎您的批評(píng)指正60人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究劉濱人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究61內(nèi)容生物信息學(xué)概述生物知識(shí)DNA介紹蛋白質(zhì)介紹人工智能和自然語(yǔ)言處理技術(shù)在生物信息學(xué)中的應(yīng)用蛋白質(zhì)序列和自然語(yǔ)言的相似性蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)遠(yuǎn)程同源性和折疊檢測(cè)資源數(shù)據(jù)庫(kù)工具內(nèi)容生物信息學(xué)概述62定義Bioinformatics由來(lái)生物信息學(xué)之父HwaA.Lim博士CompBiobioinformatiquebio-informatics(bio/informatics)bioinformatics定義63意義蛋白質(zhì)序列蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)指數(shù)級(jí)增長(zhǎng)增長(zhǎng)的不平衡性意義蛋白質(zhì)序列蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)指數(shù)級(jí)增長(zhǎng)64研究方向DNA序列分析基因識(shí)別系統(tǒng)發(fā)生行為分析(進(jìn)化樹)蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測(cè)基因芯片數(shù)據(jù)挖掘和基因表達(dá)調(diào)控信息分析基因組功能預(yù)測(cè)支撐蛋白質(zhì)組學(xué)和各種“組學(xué)”研究利用生物分子的結(jié)構(gòu)信息參與創(chuàng)新藥物的設(shè)計(jì)生物學(xué)虛擬實(shí)驗(yàn)?zāi)P偷臉?gòu)件研究方向DNA序列分析65數(shù)據(jù)源數(shù)據(jù)量生物信息學(xué)任務(wù)DNA序列3000萬(wàn)條序列400.0億個(gè)堿基分離編碼與非編碼區(qū)域識(shí)別內(nèi)含子與外顯子基因產(chǎn)物預(yù)測(cè)基因功能注釋基因調(diào)控信息分析蛋白質(zhì)序列100萬(wàn)條序列序列比較多重序列比對(duì)識(shí)別保守的序列模式進(jìn)化分析大分子結(jié)構(gòu)2.5萬(wàn)個(gè)結(jié)構(gòu)二級(jí)結(jié)構(gòu)、空間結(jié)構(gòu)預(yù)測(cè)三維結(jié)構(gòu)比對(duì)蛋白質(zhì)幾何學(xué)度量表面和形態(tài)計(jì)算分子間相互作用分析分子模擬基因組1300個(gè)基因組(其中大量是病毒和微生物基因組)標(biāo)注重復(fù)序列基因結(jié)構(gòu)分析系統(tǒng)發(fā)生分析基因與疾病的連鎖分析基因組比較遺傳語(yǔ)言分析基因表達(dá)海量基因表達(dá)模式相關(guān)分析基因調(diào)控網(wǎng)絡(luò)分析表達(dá)調(diào)控信息分析數(shù)據(jù)源數(shù)據(jù)量生物信息學(xué)任務(wù)DNA序列3000萬(wàn)條序列分離編66DNA介紹DNA介紹67堿基堿基68DNARNA堿基腺嘌呤(adennine,A)鳥嘌呤(guanine,G)胞嘧啶(cytosine,C)胸腺嘧啶(thymine,T)腺嘌呤鳥嘌呤胞嘧啶尿嘧啶(Uracil,U)戊糖脫氧核糖核糖磷酸磷酸磷酸DNARNA堿基腺嘌呤(adennine,A)腺嘌呤戊糖脫氧69堿基配對(duì)堿基配對(duì)70DNA的空間結(jié)構(gòu)DNA的空間結(jié)構(gòu)71蛋白質(zhì)介紹蛋白質(zhì)介紹7220種標(biāo)準(zhǔn)氨基酸的英文簡(jiǎn)寫氨基酸名稱英文縮寫簡(jiǎn)寫氨基酸名稱英文縮寫簡(jiǎn)寫甘氨酸GlyG絲氨酸SerS丙氨酸AlaA蘇氨酸ThrT纈氨酸ValV天冬酰胺AsnN異亮氨酸IleI谷酰胺GlnQ亮氨酸LeuL酪氨酸TyrY苯丙氨酸PheF組氨酸HisH脯氨酸ProP天冬氨酸AspD甲硫氨酸MetM谷氨酸GluE色氨酸TrpW賴氨酸LysK半胱氨酸CysC精氨酸ArgR20種標(biāo)準(zhǔn)氨基酸的英文簡(jiǎn)寫氨基酸名稱英文縮寫簡(jiǎn)寫氨基酸名稱73肽鍵肽鍵74人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究課件75人工智能技術(shù)在生物信息學(xué)中的應(yīng)用研究課件76本實(shí)驗(yàn)室的人工智能技術(shù)和自然語(yǔ)言處理技術(shù)在生物信息學(xué)中的應(yīng)用采用Ngram尋找蛋白白質(zhì)序列和自然語(yǔ)言的相似性采用條件隨即域(CRF)解決蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)問(wèn)題。采用N-gram,binaryprofile和N-naryprofile模型結(jié)合支持向量(SVM)機(jī)解決蛋白質(zhì)遠(yuǎn)程同源性和折疊識(shí)別的問(wèn)題。采用潛在語(yǔ)義分析(LSA)提高遠(yuǎn)程同源性檢測(cè)效果。本實(shí)驗(yàn)室的人工智能技術(shù)和自然語(yǔ)言處理技術(shù)在生物信息學(xué)中的應(yīng)用77蛋白質(zhì)序列和自然語(yǔ)言的相似性蛋白質(zhì)序列和自然語(yǔ)言的相似性78蛋白質(zhì)序列和自然語(yǔ)言的相似性Dongetal.N-gramStatisticsandLinguisticFeatruesAnalysisofWholeGenomeProteinSequences.JournalofHarbinInstituteofTechnology.2004在此論文中,探索了蛋白質(zhì)和自然語(yǔ)言之間的關(guān)系。蛋白質(zhì)序列和自然語(yǔ)言的相似性Dongetal.N-gr79N-gram例子:SVYDA其中包含的3-gram為:SVYVYDYDAN-gram例子:SVYDA80N-gram比較分析(人)N-gram比較分析(人)81N-gram比較分析(褐家鼠)N-gram比較分析(褐家鼠)82蛋白質(zhì)組的Zipf定律分析Zipf定律:對(duì)數(shù)形式的Zipf定律為:蛋白質(zhì)組的Zipf定律分析Zipf定律:83Zipf定律分析(人)Zipf定律分析(人)84蛋白質(zhì)序列和自然語(yǔ)言的關(guān)系蛋白質(zhì)序列和自然語(yǔ)言的關(guān)系85蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)86基于CRF的蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)
蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)研究?jī)?nèi)容蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)的意義為什么采用CRF進(jìn)行相互作用位點(diǎn)預(yù)測(cè)CRF模型實(shí)驗(yàn)結(jié)果分析基于CRF的蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)
蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)研87蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)研究?jī)?nèi)容
蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)研究?jī)?nèi)容
88相互作用位點(diǎn)預(yù)測(cè)的任務(wù)ARNDCQEGHILKMFPST
WYV...01001000000100000000…相互作用位點(diǎn)預(yù)測(cè)的任務(wù)ARNDCQEGHI89蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)的意義識(shí)別相互作用的位點(diǎn)可以幫助構(gòu)建蛋白質(zhì)復(fù)合體的分子結(jié)構(gòu)模型。與此同時(shí),蛋白質(zhì)相互作用位點(diǎn)的研究對(duì)理解生物體活動(dòng)機(jī)制、蛋白質(zhì)功能研究、疾病診斷和藥物研究有重要意義。蛋白質(zhì)相互作用位點(diǎn)預(yù)測(cè)的意義識(shí)別相互作用的位點(diǎn)可以幫助構(gòu)建蛋90為什么采用CRF進(jìn)行相互作用位點(diǎn)預(yù)測(cè)蛋白質(zhì)一級(jí)結(jié)構(gòu)是一個(gè)序列傳統(tǒng)的相互作用位點(diǎn)預(yù)測(cè)方法都是基于分類的方法,忽略了序列相鄰的或者空間相鄰的殘基對(duì)于形成相互作用的接口具有相似的傾向。為了引入相鄰殘基間的相互影響的信息,采用了基于序列標(biāo)記的方法(CRF)。為什么采用CRF進(jìn)行相互作用位點(diǎn)預(yù)測(cè)蛋白質(zhì)一級(jí)結(jié)構(gòu)是一個(gè)序列91CRF模型yi-1yiyi+1X(x1,x2,…,xi-1,xi,xi+1,…xn)鏈狀條件隨機(jī)域模型
轉(zhuǎn)移特征
狀態(tài)特征
CRF模型yi-1yiyi+1X鏈狀條件隨機(jī)域模型轉(zhuǎn)移特征92特征定義
轉(zhuǎn)移特征序列譜狀態(tài)特征殘基的溶劑可接 觸面積狀態(tài)特征殘基的保守性狀 態(tài)特征特征定義
93實(shí)驗(yàn)結(jié)果分析:預(yù)測(cè)示例SMC1HD:SCC1-C復(fù)合體CRF預(yù)測(cè)結(jié)果支持向量機(jī)預(yù)測(cè)結(jié)果正確位點(diǎn)實(shí)驗(yàn)結(jié)果分析:預(yù)測(cè)示例SMC1HD:SCC1-C復(fù)合體CR94實(shí)驗(yàn)結(jié)果分析:預(yù)測(cè)示例Ribosomalsubunit30S復(fù)合體CRF預(yù)測(cè)結(jié)果支持向量機(jī)預(yù)測(cè)結(jié)果正確位點(diǎn)實(shí)驗(yàn)結(jié)果分析:預(yù)測(cè)示例Ribosomalsubunit395實(shí)驗(yàn)結(jié)果分析:預(yù)測(cè)示例SreptococcalpyrogenicenterotoxinC(SpeC)復(fù)合體CRF預(yù)測(cè)結(jié)果支持向量機(jī)預(yù)測(cè)結(jié)果正確位點(diǎn)實(shí)驗(yàn)結(jié)果分析:預(yù)測(cè)示例Sreptococcalpyroge96遠(yuǎn)程同源性和折疊檢測(cè)遠(yuǎn)程同源性和折疊檢測(cè)97遠(yuǎn)程同源性和折疊檢測(cè)研究?jī)?nèi)容蛋白質(zhì)可按其結(jié)構(gòu)和進(jìn)化關(guān)系進(jìn)行分類。目前廣泛使用SCOP數(shù)據(jù)庫(kù)定義的分類體系,包含三個(gè)主要層次:家族(family)、超家族(superfamily)和折疊(fold)。依靠蛋白質(zhì)一級(jí)結(jié)構(gòu)將其按照結(jié)構(gòu)和進(jìn)化關(guān)系進(jìn)行分類。遠(yuǎn)程同源性和折疊檢測(cè)研究?jī)?nèi)容蛋白質(zhì)可按其結(jié)構(gòu)和進(jìn)化關(guān)系進(jìn)行分98意義在比較建模和折疊識(shí)別中,都需要識(shí)別和待測(cè)序列具有同源性的蛋白質(zhì)作為模板。因此根據(jù)序列來(lái)探測(cè)蛋白質(zhì)的同源性是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中的重要步驟。意義在比較建模和折疊識(shí)別中,都需要識(shí)別和待測(cè)序列具有同源性的99蛋白質(zhì)同源性檢測(cè)方法示意圖蛋白質(zhì)同源性檢測(cè)方法示意圖100蛋白質(zhì)向量化方法N-gramsBinaryprofilesN-naryprofiles蛋白質(zhì)向量化方法101BinaryprofilesBinaryprofiles102N-naryprofilesN-naryprofiles103統(tǒng)計(jì)方法統(tǒng)計(jì)方法可衡量特征t和類別c之間的相關(guān)性。特征t相對(duì)于類別c的值定義如下統(tǒng)計(jì)方法統(tǒng)計(jì)方法可衡量特征t和類別c之間104潛在語(yǔ)義分析(LSA)用于自動(dòng)實(shí)現(xiàn)知識(shí)提取和表示的理論和方法,通過(guò)對(duì)大量的文本集進(jìn)行統(tǒng)計(jì)分析,從中提取出詞語(yǔ)的上下文使用含義。潛在語(yǔ)義分析(LSA)用于自動(dòng)實(shí)現(xiàn)知識(shí)提取和表示的理論和方法105采用LSA的可能性采用LSA的可能性106實(shí)驗(yàn)結(jié)果分析(遠(yuǎn)程同源性檢測(cè)結(jié)果)實(shí)驗(yàn)結(jié)果分析(遠(yuǎn)程同源性檢測(cè)結(jié)果)107實(shí)驗(yàn)結(jié)果分析(折疊檢測(cè)結(jié)果)實(shí)驗(yàn)結(jié)果分析(折疊檢測(cè)結(jié)果)108遠(yuǎn)程同源性檢測(cè)結(jié)果(roc50分布)遠(yuǎn)程同源性檢測(cè)結(jié)果(roc50分布)109折疊檢測(cè)結(jié)果(roc50分布)折疊檢測(cè)結(jié)果(roc50分布)110核酸序列數(shù)據(jù)庫(kù)(cont.)國(guó)際上權(quán)威的核酸序列數(shù)據(jù)庫(kù)(1)歐洲分子生物學(xué)實(shí)驗(yàn)室的EMBLhttp://www.embl-heidelberg.de
(2)美國(guó)生物技術(shù)信息中心的GenBank/Web/Genbank/index.html
(3)日本遺傳研究所的DDBJhttp://www.ddbj.nig.ac.jp/人類基因組數(shù)據(jù)庫(kù)GDB/
Ensembl/
其他模式生物基因組數(shù)據(jù)庫(kù)鼠基因組數(shù)據(jù)庫(kù)MGD/
酵母基因組數(shù)據(jù)庫(kù)SGD/Saccharomyces/表達(dá)序列標(biāo)記數(shù)據(jù)庫(kù)dbEST/dbEST/序列標(biāo)記位點(diǎn)數(shù)據(jù)庫(kù)dbSTS/dbSTS/面向基因聚類數(shù)據(jù)庫(kù)UniGene/UniGene/
核酸序列數(shù)據(jù)庫(kù)(cont.)國(guó)際上權(quán)威的核酸序列數(shù)據(jù)庫(kù)111蛋白質(zhì)序列數(shù)據(jù)庫(kù)PIR/
SWISS-PROThttp://www.expasy.ch/sprot/sprot-top.html
TrEMBLhttp://www.ebi.ac.uk/trembl/
UniProtIncludesPIR,SWISS-PROT,TrEMBL/
蛋白質(zhì)序列數(shù)據(jù)庫(kù)PIR112生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB/pdb/home/home.do
MMDB10/Structure/MMDB/mmdb.shtml
生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB113PDB
114其他生物分子數(shù)據(jù)庫(kù)單堿基多態(tài)性數(shù)據(jù)庫(kù)dbSNP/SNP/蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫(kù)SCOPhttp://scop.mrc-lmb.cam.ac.uk/scop/蛋白質(zhì)二級(jí)結(jié)構(gòu)數(shù)據(jù)庫(kù)DSSPhttp://www.sander.embl-heidelberg.de/dssp/
蛋白質(zhì)同源序列比對(duì)數(shù)據(jù)庫(kù)HSSPhttp://www.sander.embl-heidelberg.de/hssp/人類遺傳數(shù)據(jù)庫(kù)OMIM:80/entrez/query.fcgi?db=OMIM
蛋白質(zhì)指紋數(shù)據(jù)庫(kù)PRINTShttp://www.bioinf.man.ac.uk/dbbrowser/PRINTS/基因啟動(dòng)子數(shù)據(jù)庫(kù)EPDhttp://www.epd.isb-sib.ch/轉(zhuǎn)錄調(diào)控區(qū)域數(shù)據(jù)庫(kù)TRRDhttp://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/
轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)TRANSFAChttp://transfac.gbf.de/基因本體數(shù)據(jù)庫(kù)GO/
生物、醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)PubMed/人、鼠基因表達(dá)數(shù)據(jù)庫(kù)BODYMAPhttp://bodymap.ims.u-tokyo.ac.jp/序列模式數(shù)據(jù)庫(kù)PROSITEhttp://www.expasy.ch/prosite/目錄數(shù)據(jù)庫(kù)DBCatbiogen.fr/services/dbcat/其他生物分子數(shù)據(jù)庫(kù)單堿基多態(tài)性數(shù)據(jù)庫(kù)dbSNPhttp:/115其他資源北京大學(xué)生物信息中心(歐洲分子生物學(xué)網(wǎng)絡(luò)EMBNet的中國(guó)節(jié)點(diǎn)和亞太生物信息學(xué)網(wǎng)絡(luò)(APBioNet)中國(guó)節(jié)點(diǎn))/chinese/mirrors.html
TheCanadianBioinformaticsResourcehttp://www.cbr.nrc.ca/HumanGenomeWorkingDraft/TIGR(TheInstituteforGenomicsResearch)/C
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 共振音叉課件教學(xué)課件
- 電商物流解決方案
- 糖尿病的自我監(jiān)測(cè)與管理
- 無(wú)人駕駛汽車的發(fā)展前景
- 食管癌晚期治療進(jìn)展
- 糖尿病治療儀使用
- 初中化學(xué)常見(jiàn)氣體的制取專題教案
- 角膜病病人的護(hù)理
- 海上日出說(shuō)課稿第課時(shí)
- 第三屆全國(guó)大學(xué)生未來(lái)農(nóng)業(yè)律師大賽試題
- 2024年居家養(yǎng)老服務(wù)協(xié)議
- 2024年份IDC數(shù)據(jù)中心租賃協(xié)議
- 2023年國(guó)考稅務(wù)系統(tǒng)招聘考試真題
- 2024年反腐倡廉廉政法規(guī)知識(shí)競(jìng)賽題庫(kù)及答案(130題)
- 2024-2025學(xué)年廣東省珠海市香洲區(qū)九洲中學(xué)教育集團(tuán)七年級(jí)(上)期中數(shù)學(xué)試卷(含答案)
- 資本經(jīng)營(yíng)-終結(jié)性考試-國(guó)開(SC)-參考資料
- 商務(wù)禮儀課件教學(xué)課件
- 【天潤(rùn)乳業(yè)資本結(jié)構(gòu)問(wèn)題及優(yōu)化對(duì)策分析案例10000字】
- 住院醫(yī)師規(guī)范化培訓(xùn)責(zé)任導(dǎo)師制管理制度
- 2024-2025學(xué)年高中物理必修 第三冊(cè)人教版(2019)教學(xué)設(shè)計(jì)合集
評(píng)論
0/150
提交評(píng)論