《生物信息學(xué)》(研究生)全冊(cè)配套完整課件_第1頁(yè)
《生物信息學(xué)》(研究生)全冊(cè)配套完整課件_第2頁(yè)
《生物信息學(xué)》(研究生)全冊(cè)配套完整課件_第3頁(yè)
《生物信息學(xué)》(研究生)全冊(cè)配套完整課件_第4頁(yè)
《生物信息學(xué)》(研究生)全冊(cè)配套完整課件_第5頁(yè)
已閱讀5頁(yè),還剩562頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《生物信息學(xué)》(研究生)全冊(cè)配套完整課件生物信息學(xué)課程內(nèi)容1.

引言/

分子生物學(xué)數(shù)據(jù)庫(kù)2.

BLAST工具3.

EST拼接和電子克隆4.

序列對(duì)位排列5.

分子進(jìn)化基礎(chǔ)6.

分子系統(tǒng)發(fā)育分析方法7.

基因組分析8.

專題講座(6次)助教:徐凌麗(10210700137@)

吳佳齊(10210700106@)什么是生物信息學(xué)?

80年代末隨著人類基因組計(jì)劃啟動(dòng)而興起的一門(mén)新興交叉學(xué)科生命科學(xué)中的信息科學(xué)基因組相關(guān)信息的快速增長(zhǎng)(方法與技術(shù)需求)新藥開(kāi)發(fā)等(企業(yè)需求)生物信息學(xué)

(Bioinformatics)

與計(jì)算生物學(xué)

(ComputationalBiology)Luscombe,N.M.etal.,2001.Whatisbioinformatics?MethodsofInformationinMedicine40:346-358.數(shù)據(jù)挖掘(DataMining)

關(guān)聯(lián)Associating

分類Classifying

建模與模擬Modeling&Simulating

預(yù)測(cè)與檢驗(yàn)Predicting&Testing發(fā)生在Wal*Mart的真實(shí)故事理念:相關(guān)聯(lián)的貨物最好擺在一起問(wèn)題:啤酒和什么貨物關(guān)聯(lián)?可能的答案:花生米?紅腸?……從上百萬(wàn)張收銀單獲得的答案:尿布!數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)和數(shù)據(jù)挖掘(DataMining)

數(shù)據(jù)倉(cāng)庫(kù)的定義(W.H.Inmon):

面向主題的、集成的、穩(wěn)定的、歷史的數(shù)據(jù)集合,用于支持戰(zhàn)略決策制訂(而傳統(tǒng)的操作型數(shù)據(jù)庫(kù)是面向應(yīng)用的、細(xì)節(jié)的、可更新的、瞬時(shí)的)1)面向主題的:每個(gè)主題對(duì)應(yīng)于一個(gè)宏觀分析領(lǐng)域2)集成的:入庫(kù)之前,要進(jìn)行加工集成(轉(zhuǎn)成面向主題的)3)穩(wěn)定的:幾乎不更新(覆蓋)4)歷史的:一般要用到過(guò)去5-10年的數(shù)據(jù)

數(shù)據(jù)挖掘的定義:一種決策支持過(guò)程,主要基于人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化地分析原始數(shù)據(jù),做出正確的決策數(shù)據(jù)挖掘

從大量的、不完整的、有噪聲的、模糊的、隨機(jī)的……數(shù)據(jù)中,提取隱含其中的、人們事先不知道的、潛在有用的……信息和知識(shí)的過(guò)程、技術(shù)……流感的預(yù)測(cè)(網(wǎng)上數(shù)據(jù)挖掘)具體方法

AutomatedqueryselectionprocessComputationandpre-filteringConstructingtheILI-relatedqueryfractionFittingandvalidatingafinalmodelState-levelmodelvalidationBioinformatics(CABIOS)OxfordUniversityPressMPSS/MPSS/index.jsp.DomainInformation界面分子生物學(xué)數(shù)據(jù)庫(kù)分子生物學(xué)數(shù)據(jù)庫(kù)(門(mén)戶網(wǎng)站)

NCBI(TheNationalCenterforBiotechnologyInformation)EMBnet(TheEuropeanMolecularBiologyNetwork)

北京大學(xué)生物信息學(xué)服務(wù)器中國(guó)科學(xué)院上海生命科學(xué)研究院(BioSino)

上海生物信息技術(shù)研究中心NCBINationalCenterforBiotechnologyInformation/全球最大的生物信息資源中心DNA序列、蛋白質(zhì)序列、出版物、數(shù)據(jù)挖掘工具等NCBI主頁(yè)EMBnet北京大學(xué)生物信息學(xué)服務(wù)器BioSino上海生物信息技術(shù)研究中心基因組信息資源

GenBank(/)DDBJ(http://www.ddbj.nig.ac.jp/)EMBL(http://www.embl-heidelberg.de/)DDBJEMBL(Germany)EMBL-EBI(UK)蛋白質(zhì)信息資源

PDB(/pdb/)PIR(/)SWISS-PROT(http://www.expasy.ch/sprot/)TrEMBL(http://www.expasy.ch/sprot/)NRL-3D(/pdb/)密蘇里植物園主頁(yè)P(yáng)DB密蘇里植物園主頁(yè)P(yáng)IR密蘇里植物園主頁(yè)Swiss-Prot&TrEMBL密蘇里植物園主頁(yè)NRL-3DNARNucleicAcidsResearch(分子數(shù)據(jù)庫(kù)專集)NucleicAcidsResearch(服務(wù)器專集)Transposons:MobileGeneticElementsBarbaraMcClintockchromosomeTransposonGene基

因TransposonTransposonMutantGeneTaggedInsertionalMutagenesisTransgenesisTransposonEfficientTranspositionofpiggyBac(PB)TransposoninMiceAct-PBase+MammalianPBsystem(Dingetal.Cell2005)PB[RFP]PBaseMothpiggyBac(Caryetal.Virology1989)MorphologyMutantsWTMutantWT“Sandy”/PBmice,/PBmice/.INSERT界面

MP-PBmice

(insertionalmutationsmappingsystemofPBmice)ExperimentalProcedureFlowproductionAccess-controlTableExperimentalStageTableConstantTableStatusTableviewDetaildetailedinformationpagecommentboxInformationonrelationsbetweenmoleculesGenomesGenesPathwayOrthologsExpressionSequencesimilarityChemicalsandtheirreactionsKEGG數(shù)據(jù)庫(kù)組織框架KEGG光合作用代謝通路rbcL基因及一個(gè)光合作用通路蛋白質(zhì)相互作用數(shù)據(jù)庫(kù)(1)蛋白質(zhì)相互作用數(shù)據(jù)庫(kù)(2)蛋白質(zhì)相互作用數(shù)據(jù)庫(kù)(3)蛋白質(zhì)相互作用數(shù)據(jù)庫(kù)(4)蛋白質(zhì)相互作用數(shù)據(jù)庫(kù)(5)其他數(shù)據(jù)庫(kù)RatGenomeDatabase/大鼠基因組相關(guān)數(shù)據(jù)專用工具(如VCMap–可視化比較作圖軟件)其他數(shù)據(jù)庫(kù)UTRdb(非翻譯區(qū)數(shù)據(jù)庫(kù))r.it/BIG/UTRHome/有關(guān)3’和5’UTR信息主要的序列數(shù)據(jù)格式FASTAGenBankSwissProtASN.1XMLFASTA格式用于各種FASTA工具簡(jiǎn)要說(shuō)明之后就是序列沒(méi)有注釋信息,只有序列例:>gi|1040960|gb|U35641.1|MMU35641MusmusculusBrca1mRNA,completecdsGGCACGAGGATCCAGCACCTCTCTTGGGGCTTCTCCGTCCTCGGCGCTTGGAAGTACGGATCTTTTTTCTCGGAGAAAAGTTCACTGGAACTGGAAGAAATGGATTTATCTGCCGTCCAAATTCAAGAAGTACAAAATGTCCTTCATGCTATGCAGAAAATCTTAGAGTGTCCGATCTGTTTGGAACTGATCAAAGAACCTGTTTCCACAAAGTGTGACCACATATTTTGCAAATTTTGTATGCTGAAACTTCTTAACCAGAAGAAAGGGCCTTCACAATGTCCTTTGTGTAAGAATGAGATAACCAAAAGGAGCCTACAGGGAAGCACAAGGTTTAGTCAGCTTGCTGAAGAGCTGCTGAGAATAATGGCTGCTTTTGAGCTTGACACGGGAATGCAGCTTACAAATGGTTTTAGTTTTTCAAAAAAGAGAAATAATTCTTGTGAGCGTTTGAATGAGGAGGCGTCGATCATCCAGAGCGTGGGCTACCGGAACCGTGTCAGAAGGCTTCCCCAGGTCGAACCTGGAAATGCCACCTTGAAGGACAGCCTAGGTGTCCAGCTGTCTAACCTTGGAATCGTGAGATCAGTGAAGAAAAACAGGCAGACCCAACCTCGAAAGAAATCTGTCTACATTGAACTAGACTCTGATTCTTCTGAAGAGACAGTAACTAAGCCAGGTGATTGCAGTGTGAGAGACC…

GenBank格式GenBank用純文本文件注釋、作者、版本等信息例:LOCUSMMU356415538bpmRNAlinearROD18-OCT-1996DEFINITIONMusmusculusBrca1mRNA,completecds.ACCESSIONU35641VERSIONU35641.1GI:1040960KEYWORDS.SOURCEhousemousestrain=C57Bl/6.ORGANISMMusmusculusEukaryota;Metazoa;Chordata;Craniata;Vertebrata;Euteleostomi;Mammalia;Eutheria;Rodentia;Sciurognathi;Muridae;Murinae;Mus.REFERENCE1(bases1to5538)AUTHORSSharan,S.K.,Wims,M.andBradley,A.TITLEMurineBrca1:sequenceandsignificanceforhumanmissensemutationsJOURNALHum.Mol.Genet.4(12),2275-2278(1995)MEDLINE96177660PUBMED8634698SWISS-PROT格式用于SWISS-PROT數(shù)據(jù)庫(kù)包括注釋信息例:IDBRC1_MOUSESTANDARD;PRT;1812AA.ACP48754;Q60957;Q60983;DT01-FEB-1996(Rel.33,Created)DT01-NOV-1997(Rel.35,Lastsequenceupdate)DT16-OCT-2001(Rel.40,Lastannotationupdate)DEBreastcancertype1susceptibilityproteinhomolog.GNBRCA1.OSMusmusculus(Mouse).OCEukaryota;Metazoa;Chordata;Craniata;Vertebrata;Euteleostomi;OCMammalia;Eutheria;Rodentia;Sciurognathi;Muridae;Murinae;Mus.OXNCBI_TaxID=10090;RN[1]RPSEQUENCEFROMN.A.RCSTRAIN=C57BL/6;TISSUE=Embryo;RXMEDLINE=96177659;PubMed=8634697;RAAbelK.J.,XyJ.,YinG.Y.,LyonsR.H.,MeislerM.H.,WeberB.L.;RT"MouseBrca1:localizationsequenceanalysisandidentificationofRTevolutionarilyconserveddomains.";RLHum.Mol.Genet.4:2265-2273(1995).…XML格式eXtensibleMarkupLanguage類似HTML國(guó)際標(biāo)準(zhǔn)半結(jié)構(gòu)化例:<?xmlversion="1.0"?><!DOCTYPEGBSeqPUBLIC"-//NCBI//NCBIGBSeq/EN"“/dtd/NCBI_GBSeq.dtd"><GBSet><GBSeq><GBSeq_locus>MMU35641</GBSeq_locus><GBSeq_length>5538</GBSeq_length><GBSeq_strandednessvalue="not-set">0</GBSeq_strandedness><GBSeq_moltypevalue="mrna">5</GBSeq_moltype><GBSeq_topologyvalue="linear">1</GBSeq_topology><GBSeq_division>ROD</GBSeq_division><GBSeq_update-date>18-OCT-1996</GBSeq_update-date><GBSeq_create-date>25-OCT-1995</GBSeq_create-date><GBSeq_definition>MusmusculusBrca1mRNA,completecds</GBSeq_definition><GBSeq_primary-accession>U35641</GBSeq_primary-accession><GBSeq_accession-version>U35641.1</GBSeq_accession-version>ASN.1格式國(guó)際標(biāo)準(zhǔn)半結(jié)構(gòu)化格式用于NCBI數(shù)據(jù)例:Seq-entry::=set{level1,classnuc-prot,descr{title"MusmusculusBrca1mRNA,andtranslatedproducts",source{org{taxname"Musmusculus",db{{db"taxon",tagid10090}},orgname{namebinomial{genus"Mus",species"musculus"},…ASN.1FASTAGraphicalGenPeptGenBankMMDBUniProtEMBLXMLBIND數(shù)據(jù)格式間的關(guān)系格式轉(zhuǎn)換通常一種工具采用一種格式,可用(在線)軟件進(jìn)行格式轉(zhuǎn)換ReadSeq/seq-util/Options/readseq.htmlSEQIO/~gusfield/seqio.html數(shù)據(jù)下載查詢并選擇數(shù)據(jù)庫(kù)數(shù)據(jù)從網(wǎng)頁(yè)直接下載數(shù)據(jù)用腳本下載數(shù)據(jù)Perl/BioPerl用FTP批量下載數(shù)據(jù)如在一個(gè)項(xiàng)目中同時(shí)采用上述多種方法ATTGACTATTGACACGTGAATTGACTATATAGCCGACGTGCACGTGCACGTGCTTGACATTGACATTGACACGTGACGTGACGTGAATTGACTAATTGACTAATTGACTAATTGACTATATAGCCGTATAGCCGTATAGCCGTATAGCCGDatabaseTATAGCCGTATAGCCGTATAGCCGTATAGCCGATGACATTGAGAATTATTCCGAGAATTCCGAGAATTCGAGAATTCGAGAATTCCGAGAATTCCUniGeneRefSeqGenomeAssembly實(shí)驗(yàn)室管理不同的算法TATAGCCGAGCTCCGATACCGATGACAA

BLAST

BasicLocalAlignmentSearchTool

BLAST流程QLNFSAGWQLLNNFFSSAAGGWQL=11,QM=9,HL=8,ZL=9LN=9,LB=8NF=12,AF=8,NY=8,DF=10,………......wTBLAST可搜索庫(kù)統(tǒng)計(jì)計(jì)算NeighbourhoodWordHitextension(擊中延伸)根據(jù)閾值決定終止點(diǎn)生成輸出文件序列庫(kù)W為字長(zhǎng)e.g.,2T為閾值(score)e.g.,8/BLASTBLAST系列程序選擇流程蛋白質(zhì)序列?是蛋白質(zhì)數(shù)據(jù)庫(kù)?是blastp否蛋白質(zhì)數(shù)據(jù)庫(kù)?tblastn否否blastn是否tblastxblastx是數(shù)據(jù)庫(kù)翻譯?查詢序列BLASTpBLASTIDBLAST結(jié)果(1-5)12345BLAST結(jié)果(1)BLAST

結(jié)果(2)BLAST結(jié)果(3)BLAST結(jié)果(4)BLAST結(jié)果(5)分值和E值BLASTP2.2.14[May-07-2006]Reference:Altschul,StephenF.,ThomasL.Madden,AlejandroA.Sch?ffer,JinghuiZhang,ZhengZhang,WebbMiller,andDavidJ.Lipman(1997),"GappedBLASTandPSI-BLAST:anewgenerationofproteindatabasesearchprograms",NucleicAcidsRes.25:3389-3402.RID:1157436303-6611-9612772342.BLASTQ4Database:Allnon-redundantGenBankCDStranslations+PDB+SwissProt+PIR+PRFexcludingenvironmentalsamples3,946,334sequences;1,357,962,904totallettersQuery=Length=137Distancetreeofresults

ScoreESequencesproducingsignificantalignments:(Bits)Valuegi|16129916|ref|NP_416479.1|hypotheticalproteinb1970[Esch...2784e-74gi|110805940|ref|YP_689460.1|hypotheticalproteinSFV_2015[...2753e-73gi|15802403|ref|NP_288429.1|hypotheticalproteinZ3062[Esch...2749e-73gi|82776345|ref|YP_402694.1|hypotheticalproteinSDY_1038[S...2049e-52gi|16419612|gb|AAL20029.1|putativeperiplasmicorexportedp...2016e-51<以下內(nèi)容已刪除>分值是衡量查詢序列同命中序列(hit)間相似性的測(cè)度。分值越高,命中序列與查詢序列越相似E值是隨機(jī)獲得一個(gè)比所得分值高的(排列)序列的概率,即分值可靠性的測(cè)度。E值越小,所命中序列越可靠E值計(jì)算公式:E=K·m·n·e-λSK,一個(gè)與目標(biāo)序列相關(guān)的經(jīng)驗(yàn)常數(shù)λ,與計(jì)分(分值)系統(tǒng)相關(guān)的經(jīng)驗(yàn)常數(shù)m,查詢序列大小n,所查詢數(shù)據(jù)庫(kù)大小S,分值BLAST的新功能BLASTP2.2.14[May-07-2006]Reference:Altschul,StephenF.,ThomasL.Madden,AlejandroA.Sch?ffer,JinghuiZhang,ZhengZhang,WebbMiller,andDavidJ.Lipman(1997),"GappedBLASTandPSI-BLAST:anewgenerationofproteindatabasesearchprograms",NucleicAcidsRes.25:3389-3402.RID:1157436303-6611-9612772342.BLASTQ4Database:Allnon-redundantGenBankCDStranslations+PDB+SwissProt+PIR+PRFexcludingenvironmentalsamples3,946,334sequences;1,357,962,904totallettersQuery=Length=137Distancetreeofresults

ScoreESequencesproducingsignificantalignments:(Bits)Valuegi|16129916|ref|NP_416479.1|hypotheticalproteinb1970[Esch...2784e-74gi|110805940|ref|YP_689460.1|hypotheticalproteinSFV_2015[...2753e-73gi|15802403|ref|NP_288429.1|hypotheticalproteinZ3062[Esch...2749e-73gi|82776345|ref|YP_402694.1|hypotheticalproteinSDY_1038[S...2049e-52gi|16419612|gb|AAL20029.1|putativeperiplasmicorexportedp...2016e-51<以下內(nèi)容已刪除>Blast命中序列的系統(tǒng)樹(shù)Mega-Blast可用于搜索近似完全的匹配,可以處理一批核苷酸查詢,比標(biāo)準(zhǔn)BLAST查詢速度快

NCBI進(jìn)行基因組BLAST查詢時(shí)的默認(rèn)程序

/BLASTPSI-BLAST位置特定的迭代BLAST

(PositionSpecificIteratedBLAST)搜索數(shù)據(jù)庫(kù)以找出與查詢序列同一蛋白質(zhì)家族的成員揭示親緣關(guān)系較遠(yuǎn)的蛋白質(zhì)間的關(guān)系在全序列數(shù)據(jù)庫(kù)中搜索相似序列PSI-BLASTMGLLTREIF--ILQQFGLGRT-I-T-YMTN-GLVRT-ILGLEFGLLRT-IYMTQMGLLTREIF--ILQQ起始序列A029001100003200C000070000000000..Y002000080202000構(gòu)建一個(gè)概型并以數(shù)字描述每一個(gè)位點(diǎn)的保守性概型比單一序列包含有更多的信息:利用概型來(lái)獲取更多的信息進(jìn)行多序列對(duì)位排列FGLLRT-I-T-YMTN-RLTRD-ILGLYFGLLRT-IFMTS新的序列被用于對(duì)位排列構(gòu)建新的概型A027005101003200C000070000000000..Y202000060202000經(jīng)過(guò)數(shù)次迭代后得到:注釋的序列信息;多重序列對(duì)位排列;由PSI-BLAST所產(chǎn)生的概形(Profile);確定相似性的域值(對(duì)位排列統(tǒng)計(jì)結(jié)果)A029001100003200C000070000000000..Y002000080202000利用概形兩個(gè)序列間的查詢比較兩個(gè)序列的相似性,不需要傳統(tǒng)BLAST的數(shù)據(jù)庫(kù)查詢BLAST2局部對(duì)位排列,獲得結(jié)構(gòu)域或序列內(nèi)重復(fù)信息建議不超過(guò)150kbBLAST2/BLAST基因組搜索河豚基因組河豚基因組微生物基因組微生物基因組提供

BLAST的若干網(wǎng)站NCBIBLAST/BLAST/DDBJhttp://www.blast.genome.ad.jp/EMBL-EBIhttp://www.ebi.ac.uk/blastall/PKU/本地BLAST查詢序列網(wǎng)絡(luò)服務(wù)器BLAST輸出結(jié)果本地計(jì)算機(jī)BLAST顯示結(jié)果E.coliK12GeneAE.coliO157GeneBBlast,Evaluecutoff=1e-20A.B為候選直系同源基因雙向BLAST(基因組)獲得直系同源序列實(shí)例一:恐龍蛋DNA研究中的一場(chǎng)爭(zhēng)論恐龍蛋化石中的18srDNA

ActaSc.Nat.Univ.Pekinesis.31:140-7.1995BLAST結(jié)果U41317>gi|20377928|gb|AF372708.1|UnculturedbasidiomycetecloneBAQA52smallsubunitribosomalRNAgene,partialsequence

(2004結(jié)果)U41318>gi|2735774|gb|AF008955.1|AF008955

Corallocarpusbainesii18SribosomalRNAgene,completesequence(2004結(jié)果)U41317>EU4463601UnculturedmarineeukaryotecloneUI14F08smallsubunitribosomalRNAgene,partialsequence(2008結(jié)果)U41318>DQ068110BrassicanapusisolatemutantCr3529cloneBncr2unknownmRNA(2008結(jié)果)18sDNA系統(tǒng)樹(shù)結(jié)論DA18s1類似于真菌DA18s7類似于被子植物DA18s1、DA18s7與鴨、人、鱷魚(yú)和其他動(dòng)物的序列差異很大鳥(niǎo)類與爬行類是恐龍現(xiàn)存的最近的物種;DA18s1/7都不是真正的恐龍DNAMol.Biol.Evol.14(5):589-91.1997實(shí)例二:用BLAST檢索蚯蚓血紅蛋白氨基酸序列wdesfrtfysilddehktlfngifhlaiddnadnlgelrrctgkhflneqalmqasqyqfydehkkahedfihkldgwkgdvkyakswlvnhiktidfkyrgkl實(shí)例三:麻黃堿類化合物的起源假說(shuō)Dopamine能神經(jīng)元結(jié)構(gòu)與功能

CallierS.,2003,BiologyoftheCell運(yùn)動(dòng)學(xué)習(xí)記憶藥物成癮TyrosineHydroxylaseTyrosineL-DopaL-DopamineAromaticaminoacidDecarboxylaseDopamineb-HydroxylaseNoradrenalineN-methyltransferaseAdrenalineTryptophanTryptophanHydroxylase5-Hydroxy-L-tryptophanAromaticaminoacidDecarboxylaseSerotoninMethamphetamine(甲基苯丙胺)Dopamine(多巴胺)Amphetamine(苯丙胺)

Ephedrine(麻黃堿)Serotonin(血清胺)麻黃堿在人體內(nèi)的結(jié)合蛋白

腎上腺素受體(AdrenergicRecptor)多巴胺轉(zhuǎn)運(yùn)蛋白(DopamineTransporter,DAT)AdrenergicRecptorBlastagainstFungiDopamineTransporterBlastagainstFungi鐮孢菌中的FG07634蛋白與DAT相似麻黃堿制毒的進(jìn)化學(xué)解釋麻黃堿是麻黃的一種防御物質(zhì),其作用之一是抵抗鐮孢菌的侵染麻黃堿對(duì)鐮孢菌的防御與麻黃堿和鐮孢菌中的FG07634蛋白結(jié)合有關(guān)FG07634蛋白與人體神經(jīng)系統(tǒng)中主管獎(jiǎng)勵(lì)機(jī)制的一種蛋白Dopaminetransporter(DAT)具有同源性(由于這種同源性,使麻黃堿類化合物能夠干擾人體“獎(jiǎng)勵(lì)系統(tǒng)”的正常運(yùn)轉(zhuǎn),從而發(fā)生毒品效應(yīng))。麻黃堿可能是防御物質(zhì)的證據(jù)Phenylalamine、Tyramine、Tryptophan代謝通路是植物防御系統(tǒng)的一部分苯丙醇代謝途徑、酚類木質(zhì)素水稻TryptophanDecarboxylase與MonoamineOxidase的激活與對(duì)Magnaporthegrisea的抗性有關(guān)(ThePlantJournal,2003)Kojicacid、picolinicacid、Fusaricacid對(duì)植物的毒性作用至少有一部分是因?yàn)橐种浦参镏械腜olyphenoloxidase(多酚氧化酶)(Nat.Toxins,1999;TheAppliedMycologyofFusarium(pp95–105),AcademicPress,NewYork)推測(cè)FG07634蛋白的功能

因同源同功,推測(cè)其為“轉(zhuǎn)運(yùn)蛋白”推測(cè)被FG07634蛋白轉(zhuǎn)運(yùn)的物質(zhì)

與Dopamine、Serotonin、Adrenaline、GABA、Proline等神經(jīng)介質(zhì)的功能及結(jié)構(gòu)相似

可能與鐮孢菌對(duì)植物的侵害有關(guān)FusaricAcid—可能被FG07634轉(zhuǎn)運(yùn)的物質(zhì)FusaricAcid與Dopamine的相似性FusaricAcidDopamineFusaricAcid能抑制DopamineI

型受體活性(中國(guó)抗生素雜志,2001)FusaricAcid能抑制植物Dopamine代謝途徑中的TyrosineHydroxylase,人Dopamine代謝途徑中的Dopamineb-Hydroxylase

FusaricAcid是鐮孢菌分泌的一種非特異性的毒素,在對(duì)植物侵染過(guò)程中與其他毒素有協(xié)同作用;同時(shí)在鐮孢菌的不同生長(zhǎng)時(shí)期也有不同的生理作用植物Dopamine代謝途徑:人類Dopamine代謝途徑:TyrosineTyramineDopamineDecarboxylaseTyrosineHydroxylaseNoradrenalineTyrosineL-DopaDopamineTyrosineHydroxylaseDecarboxylaseb-Hydroxylase相關(guān)問(wèn)題探索麻黃堿類成分(從卡西酮到麻黃堿)在植物中的分布大陸間(新舊世界)麻黃堿的起源與演化(“l(fā)ossvs.gain”test)相關(guān)基因克隆與調(diào)控網(wǎng)絡(luò)分析對(duì)提高麻黃堿產(chǎn)量與質(zhì)量的指導(dǎo)意義電子克隆

(insilicocloning)

利用公共數(shù)據(jù)庫(kù)信息,借助計(jì)算機(jī)軟件分析,推測(cè)目的基因的編碼區(qū)序列并輔助全長(zhǎng)cDNA克隆的方法

基因轉(zhuǎn)錄產(chǎn)物mRNA反轉(zhuǎn)錄產(chǎn)生的互補(bǔ)DNA(cDNA)代表基因中編碼蛋白質(zhì)的序列

EST是從cDNA文庫(kù)中隨機(jī)挑選不同的克隆測(cè)序所產(chǎn)生的序列,也可由mRNA差別顯示(DDRT-PCR)、代表性差示分析(RDA-PCR)和抑制差減雜交(SSH)等方法獲得1)作為cDNA片段,EST一般長(zhǎng)200-400bp2)一個(gè)全長(zhǎng)cDNA可以有許多EST,但特定的EST有時(shí)可代表某個(gè)特定的cDNA分子3)兩端有重疊的共有序列的EST可以組裝成一個(gè)疊連群(contig),再裝配成全長(zhǎng)的cDNA序列4)將EST定位于基因組,也可作為基因組作圖時(shí)的一種標(biāo)記序列表達(dá)序列標(biāo)簽

(ExpressedSequenceTag,EST)5’3’ESTSearchinESTdatabaseSearchinESTdatabaseSearchinESTdatabaseSearchinESTdatabase5’3’CompletecDNASeedEST(startEST)AU184451RICR2584A99AS825D004D07C25822RICS1291AAAAAAAD004D07AAAAAA99AS825AU184451RICR2584AC25822RICS1291AATGTAA一個(gè)ESTwalking的示例蘋(píng)果酸脫氫酶同功酶基因ESTwalking的優(yōu)點(diǎn)和局限優(yōu)點(diǎn):快速,無(wú)須實(shí)驗(yàn)操作局限:許多EST庫(kù)不均一;一些EST庫(kù)測(cè)序精度不高EST庫(kù)中可能有不完全剪切產(chǎn)物EST,partialcdsSearchingenomic

sequencedatabaseGenomicsequenceofestGene

annotationHomologsearchbasedona.asequenceSearchinestdatabaseCorrectannotatedgenebyestandhomologPredictedgeneDesign5’-,3’-primersbasedonpredictedsequnceRT-PCRforcDNAcloningandsequencing電子克隆的優(yōu)缺點(diǎn)缺點(diǎn)和局限:1.必須經(jīng)實(shí)驗(yàn)驗(yàn)證2.不適用以下種類的基因預(yù)測(cè)

1)種間保守性差的基因

2)外顯子數(shù)目多而且每個(gè)外顯子短的基因優(yōu)點(diǎn):1.充分利用現(xiàn)有的信息資源

A.基因組測(cè)序結(jié)果

B.其他物種的est,cDNA信息2.特別適用于低豐度基因克隆3.高效,快速,工作量小WEBSITEFORGENEPREDICTIONhttp://www.ebi.ac.uk/genemark/

//genome/exons.html水稻emf2基因的注釋和校讀示例常用水稻EST及基因組數(shù)據(jù)庫(kù)的網(wǎng)址常用植物基因結(jié)構(gòu)分析程序密蘇里植物園主頁(yè)序列對(duì)位排列SequenceAlignment

通過(guò)插入空位/間隔(gap)的方法使不同長(zhǎng)度的序列對(duì)齊(長(zhǎng)度一致)優(yōu)化的序列排列應(yīng)使空位/間隔的數(shù)目達(dá)到最小,同時(shí)使相似性區(qū)域的長(zhǎng)度達(dá)到最大

對(duì)序列X=CGATCAG(長(zhǎng)度為7)和序列Y=CGTCAG(長(zhǎng)度為6),只需插入一個(gè)空位/間隔即可排列后的兩個(gè)序列為:

X=CGATCAGY=CG-TCAG序列對(duì)位排列(比對(duì))

對(duì)上面兩個(gè)序列X和Y,增加一個(gè)序列:Z=CGGATCAG(長(zhǎng)度為8)排列后的三個(gè)序列為:

X=CG-ATCAGY=CG--TCAGZ=CGGATCAG對(duì)位排列類別在序列中搜索一系列單個(gè)性狀或性狀模式可以比較兩個(gè)(成對(duì)對(duì)位排列)或更多(多重對(duì)位排列)序列全局和局部對(duì)位排列AB(a)AB(b)子序列與對(duì)位排列局部對(duì)位排列結(jié)構(gòu)域A結(jié)構(gòu)域B結(jié)構(gòu)域B結(jié)構(gòu)域A局部和全局排列(Localandglobalalignment)

全局對(duì)位排列:對(duì)全長(zhǎng)序列進(jìn)行對(duì)位排列如Needleman-Wunsch算法主要優(yōu)點(diǎn)是適合較短序列或結(jié)構(gòu)預(yù)測(cè)

局部對(duì)位排列:對(duì)序列的局部區(qū)域進(jìn)行對(duì)位排列如Smith-Waterman算法主要優(yōu)點(diǎn)是適合數(shù)據(jù)庫(kù)查詢或?qū)ふ医Y(jié)構(gòu)域序列對(duì)位排列方法點(diǎn)陣分析法動(dòng)態(tài)規(guī)劃法詞或K串方法點(diǎn)陣方法點(diǎn)陣方法提供了一種快速的序列對(duì)位排列的可視化方法AGCTGTCCGAATTAAGCCCTEGTAGCTAGGTATCGGATGAGCTGTCCGAAT

TAAGCCCTEGTAGCTAGGTATCGGATGAGCTXGTXCCGAATX

TAAGCCCTEGTAGCTAGGTATCGGATGAGCTXGTXCCGAATXTAAGCCCTEGTAGCTAGGTATCGGATGAXGCTXGTXCCGAXAXTXTAAGCCCTAGTAGCTAGGTATCGGATGAXXXXXXXGXXXXXXXXCXXXXXTXXXXXXXGXXXXXXXXTXXXXXXXCXXXXXCXXXXXGXXXXXXXXAXXXXXXXAXXXXXXXTXXXXXXXTAAGCCCTAGTAGCTAGGTATCGGATG簡(jiǎn)單情形:兩條序列間匹配的堿基標(biāo)記一個(gè)X號(hào)即使是對(duì)核苷酸序列,該方法所產(chǎn)生的點(diǎn)陣圖也很雜亂窗口法:使用一個(gè)短鏈的序列窗AGCTGTCCGAATTAAGCCCTAGTAGCTAGGTATCGGATGAGCTGTCCGAAT

TAAGCCCTAGTAGCTAGGTATCGGATGAGCTGTCCGAAXT

TAAGCCCTAGTAGCTAGGTATCGGATGAGCTGTCCGAAXT

TAAGCCCTAGTAGCTAGGTATCGGATG使用3個(gè)堿基的窗,并要求至少2個(gè)核苷酸匹配AGCTGTCCGAA

XT

TAAGCCCTAGTAGCTAGGTATCGGATGAGCTGTCCGAA

XT

TAAGCCCTAGTAGCTAGGTATCGGATGAGCTGTCCGAA

XT

TAAGCCCTAGTAGCTAGGTATCGGATGAXGXCXXXXTXXXXGXXXTXXXXCXXCXXXGXXXXXAXXXXXAXXXXXTXXXXXTAAGCCCTAGTAGCTAGGTATCGGATGAXGXCXXXXTXXXXGXXXTXXXXCXXCXXXGXXXXXAXXXXXAXXXXXTXXXXXTAAGCCCTAGTAGCTAGGTATCGGATG點(diǎn)陣中的相似性區(qū)域是類似于對(duì)角線的區(qū)域點(diǎn)陣圖特征對(duì)角線Breaks

兩條序列相似區(qū)域出現(xiàn)對(duì)角線當(dāng)一條序列相對(duì)于另一條序列存在插入或缺失時(shí)點(diǎn)陣圖中出現(xiàn)break(斷裂)序列1 acgtggttcatcaggaccccggacatatcaggaccc ||||||||||||||||||||||||||||||||||序列2 acgtggttcatcaggacccgggccatatcaggaccc設(shè)N為對(duì)位排列的長(zhǎng)度,δ為計(jì)分函數(shù)S(A)=

δ(S[i],T[i])對(duì)位排列計(jì)分i=1N

簡(jiǎn)單計(jì)分系統(tǒng)ACGTA1000C0100G0010T0001核苷酸氨基酸氨基酸置換矩陣用序列相似的一組蛋白質(zhì)的對(duì)位排列來(lái)確定單步氨基酸變化,以此預(yù)測(cè)進(jìn)化過(guò)程中大部分可能的氨基酸變化。該方法由M.Dayhoff(1978)建立較為成熟的有:Dayhoff和Blosum計(jì)分矩陣Dayhoff突變數(shù)據(jù)矩陣分析一組關(guān)系很近的蛋白質(zhì),其中的氨基酸置換不引起蛋白質(zhì)功能上的顯著變化,稱為“可接受突變”一個(gè)PAM的進(jìn)化距離定義為每100個(gè)氨基酸中一個(gè)點(diǎn)突變可被接受的概率DayhoffPAM250BLOSUM矩陣BLOSUM矩陣可以使用關(guān)系較遠(yuǎn)的序列來(lái)獲得矩陣元素以大于或等于80%同一性的聚合序列構(gòu)建BLOSUM80矩陣,而大于或等于62%的聚合序列則用于構(gòu)建BLOSUM62矩陣BLOSUM62Sequence1:MILVKP–VVLKGDFGSequence2:MILLKPAIIIRAEY-PositionScore:544157-53322023-5Totalalignmentscore=(sumofpositionscores)-(gappenalty)=41-10=31HenikoffandHenikoff。PNAS.1992,89(22):10915-9

空位/間隔罰分(Gappenalty)為了獲得兩個(gè)序列間最可能的排列,必須使用空位/間隔和空位/間隔罰分空位/間隔罰分太高,空位/間隔就不會(huì)出現(xiàn)在匹配序列中空位/間隔罰分太小,空位/間隔就可能出現(xiàn)在排列序列的任一地方其他計(jì)分矩陣其他氨基酸計(jì)分矩陣遺傳密碼計(jì)分和化學(xué)相似性計(jì)分如Jones為跨膜蛋白建立的計(jì)分矩陣核苷酸PAM計(jì)分矩陣不同計(jì)分方式比較

根據(jù)序列一致性計(jì)分

匹配為1,非匹配為0

優(yōu)點(diǎn):簡(jiǎn)單直觀,適用于高度相似性序列

缺點(diǎn):忽略非匹配位點(diǎn)不等價(jià)

根據(jù)化學(xué)相似性計(jì)分

根據(jù)化學(xué)結(jié)構(gòu)加權(quán)

優(yōu)點(diǎn):與蛋白質(zhì)結(jié)構(gòu)相聯(lián)系

缺點(diǎn):復(fù)雜、蛋白質(zhì)進(jìn)化機(jī)制未明根據(jù)遺傳編碼計(jì)分

考慮蛋白質(zhì)序列置換中的最小堿基數(shù)

優(yōu)點(diǎn):基于分子生物學(xué)原理

缺點(diǎn):蛋白質(zhì)進(jìn)化機(jī)制未明氨基酸物理化學(xué)性質(zhì)編碼蛋白質(zhì)序列的基因通常進(jìn)化較慢,因?yàn)樗鼈冃枰S持蛋白質(zhì)結(jié)構(gòu)與功能,而當(dāng)?shù)鞍踪|(zhì)序列發(fā)生變化時(shí),它們傾向于在化學(xué)性質(zhì)較近的氨基酸間進(jìn)行置換多重序列對(duì)位排列(MSA)序列對(duì)位排列的主要用途用于分子進(jìn)化分析(課程后續(xù)內(nèi)容)結(jié)構(gòu)預(yù)測(cè)序列基序鑒定功能預(yù)測(cè)數(shù)據(jù)庫(kù)搜索2、結(jié)構(gòu)預(yù)測(cè)acetylglucosamin結(jié)合蛋白的序列對(duì)位排列和三級(jí)結(jié)構(gòu)對(duì)位排列中黃色區(qū)域是最可能建立同樣三級(jí)結(jié)構(gòu)的區(qū)域。圖中顯示了4個(gè)二硫鍵hevein3、基序(motif)鑒定CCCH鋅指基序NatureStructural&MolecularBiology.2004,11(3):2574、數(shù)據(jù)庫(kù)搜索BLAST(BasicLocalAlignmentSearchTool)CLUSTAL軟件的使用CLUSTAL是一個(gè)多序列對(duì)位排列的免費(fèi)軟件包,由EuropeanBioinformaticsInstitute的DesHiggins等編制。該軟件可在DOS、UNIX、WINDOW、VAX和Macintosh操作系統(tǒng)下運(yùn)行。輸入序列:可以是NBCF/PIR,EMBL/SwissProt和FASTA等格式中的任意一種輸出矩陣:可以選擇CLUSTAL,NBRF/PIR,GCG或PHYLIP格式中的任意一種ClustalW軟件原理

漸進(jìn)方法:用成對(duì)對(duì)位獲得相似矩陣從矩陣得到導(dǎo)引樹(shù)根據(jù)導(dǎo)引樹(shù)進(jìn)行漸進(jìn)排列(1)成對(duì)對(duì)位排列

將序列兩兩對(duì)位排列,并計(jì)算出相似性矩陣相似性=相同位點(diǎn)數(shù)/總長(zhǎng)度(2)導(dǎo)引樹(shù)

使用距離法從相似矩陣得到導(dǎo)引樹(shù),近似反映序列間的進(jìn)化關(guān)系(3)漸進(jìn)排列先將最近的兩條序列重新對(duì)位再按照導(dǎo)引樹(shù),往上逐步添加最接近的序列,得到優(yōu)化的多重序列對(duì)位排列手工校正手工對(duì)位排列費(fèi)時(shí)費(fèi)力,基本被軟件代替軟件自動(dòng)排列會(huì)出現(xiàn)偏差,特別是某些序列涉及復(fù)雜的生物學(xué)背景,需要手工校正作為補(bǔ)充途徑蛋白質(zhì)二級(jí)結(jié)構(gòu)對(duì)位排列

二級(jí)結(jié)構(gòu)類型

螺旋(Helices)折疊(

Sheets)環(huán)區(qū)(Loops)無(wú)規(guī)則卷曲或卷曲(RandomcoilsorCoil)Alpha-helixBeta-sheetLoopandTurnTurnorcoil蛋白質(zhì)二級(jí)結(jié)構(gòu)對(duì)位排列(在線分析平臺(tái))SSEA記分規(guī)則每一條序列中的二級(jí)結(jié)構(gòu)區(qū)域用一個(gè)字符(H,E,C)及其長(zhǎng)度表示完全匹配(H->H,E->E,C->C)記分錯(cuò)配不計(jì)分(H->E,E->H)與卷曲匹配記分({H,E}->C)對(duì)位排列時(shí)不拆解二級(jí)結(jié)構(gòu)區(qū)域分值標(biāo)準(zhǔn)化(0-100的分值)SSEA記分舉例SeqA=CCCCCHHHHHHHHCCCCHHHHHHHHHHCCCCCCC表示為C5,H8,C4,H10,C7SeqB=CCEEECCCHHHHHHCCCCHHHHHHHHCCCEEECCCC表示為C2,E3,C3,H6,C4,H8,C3,E3,C4SSEAglobalalignment:CCCCCHHHHHHHHCCCCHHHHHHHHHHCCCCCCCCCEEECCC--HHHHHH--CCCCHHHHHHHH--CCCEEECCCC

score=3+6+4+8+4=25normalizedscore=25/((34+36)/2)*100=71.4286M.Waterman,美國(guó)科學(xué)院院士,南加州大學(xué)數(shù)學(xué)系、計(jì)算機(jī)科學(xué)系和生物學(xué)系教授,序列對(duì)位排列方法的先驅(qū)分子進(jìn)化基礎(chǔ)CharlesDarwin(1809–1882)達(dá)爾文筆記與物種起源加拉帕格斯群島地雀的鳥(niǎo)喙變異觀察分析結(jié)論:結(jié)婚,結(jié)婚,結(jié)婚!

CambridgeUniversityLibrary結(jié)婚的好處與壞處

不結(jié)婚的好處與壞處觀察與分析并不一定能保證產(chǎn)生科學(xué)理論!達(dá)爾文觀察豆科植物6個(gè)屬達(dá)30年之久孟德?tīng)栍^察豌豆的7個(gè)特征達(dá)爾文進(jìn)化論的邏輯架構(gòu)恩斯特·邁爾(1904–2005)物種可變理論共同祖先理論漸變理論物種增殖理論

自然選擇理論加拿大北部埃爾斯米爾島上3億7千5百萬(wàn)年前的沉積巖預(yù)測(cè)“大淡水魚(yú)”棘螈

潘氏魚(yú)

特立尼達(dá)島阿立波河中虹鳉魚(yú)的微進(jìn)化

長(zhǎng)期的進(jìn)化過(guò)程導(dǎo)致上游溪流中的虹鳉魚(yú)個(gè)體較大,下游河流中的虹鳉魚(yú)個(gè)體較小。自然選擇實(shí)驗(yàn)20代后,發(fā)生了逆轉(zhuǎn)實(shí)驗(yàn)中性進(jìn)化學(xué)說(shuō)創(chuàng)立者木村資生(1924-1994)Nature1968,217:624-626蛋白質(zhì)“分子鐘”“Asfarasisknown,synonymousmutationsaretrulyneutralwithrespecttonaturalselection.”King&Jukes,1969.

Science,164:788

-

798有害的(性狀)有益的有害的中性的Kimura(1968)Nature217624-626大多數(shù)的置換是中性的,或者說(shuō)很小一部分變化是由于達(dá)爾文進(jìn)化引起的中性突變(等位基因)與野生型具有相同的適合度中性進(jìn)化理論下基因的“命運(yùn)”在分子水平,大多數(shù)進(jìn)化變化和同一物種中的大多數(shù)變異不是由于自然選擇造成的,而是由與自然選擇等價(jià)的基因隨機(jī)漂變?cè)斐傻腉raur&Li.FundamentalsofMolecularEvolutionDNA序列突變用分子信息研究進(jìn)化問(wèn)題DNA僅由四個(gè)堿基組成DNA進(jìn)化的規(guī)律性基因組信息速率和時(shí)間估計(jì)祖先基因XYt+1t時(shí)間X’Y’DNA序列的進(jìn)化AAGACTTTGGACTTAAGGCCT-3百萬(wàn)年-2百萬(wàn)年-1百萬(wàn)年今天AGGGCATTAGCCCTAGCACTTAAGGCCTTGGACTTTAGCCCATAGACTTAGCGCTTAGCACAAAGGGCATAGGGCATTAGCCCTAGCACTTAAGACTTTGGACTTAAGGCCTAGGGCATTAGCCCTAGCACTTAAGGCCTTGGACTTAGCGCTTAGCACAATAGACTTTAGCCCAAGGGCAT坎特伯雷故事集的“進(jìn)化分析”(Nature,1998)??藸柕摹吧畼?shù)”核糖體DNA的“分子生命樹(shù)”WilliHennig(1913-1976)系統(tǒng)發(fā)育系統(tǒng)學(xué)(分支學(xué))創(chuàng)始人單系類群(a)、并系類群(b)、復(fù)系類群(c)有根樹(shù)、無(wú)根樹(shù)內(nèi)類群、外類群、姐妹群標(biāo)度樹(shù)(進(jìn)化單位或時(shí)間)樹(shù)的數(shù)量#sequences #unrootedtrees #rootedtrees

2 1 13 1 34 3 155 15 1056 105 9457 945 10,3958 10,395 135,1359 135,135 2,027,02510 2,027,025 34,459,425基因復(fù)制與喪失DuplicationeventLineagegoesextinct(geneloss)genelossgenelossCBA123直系同源與并系同源原始血紅蛋白基因基因復(fù)制α鏈β鏈

FrogChickmousemousechickfrog直系同源直系同源并系同源兩個(gè)分子系統(tǒng)發(fā)育分析實(shí)例1.“走出非洲”(人類起源〕假說(shuō)

mtDNA序列分析

Cannetal.,1987,Nature.2.佛羅里達(dá)牙醫(yī)事件

HIV相關(guān)基因序列分析

Ouetal.,1992,Science.LosAlamosHIVSequenceDB(/)AllanWilson東亞人非洲起源的Y染色體證據(jù)DNA序列間的平均置換數(shù)對(duì)于兩條長(zhǎng)度為n的序列,統(tǒng)計(jì)差異數(shù)目

nd;

p=nd/n為兩條序列之間的距離(差異)在序列的同一個(gè)位點(diǎn)可能發(fā)生不止一次的變化。如在一條序列的第10個(gè)位置觀測(cè)到A,而在另一條序列為T(mén),有多種可能ATACT…DNA置換模型的必要性必須準(zhǔn)確和無(wú)偏見(jiàn)地估計(jì)分歧度和速率數(shù)學(xué)模型可以考慮回復(fù)和平行突變等情況,尤其是在p值較大時(shí)核苷酸置換模型

Jukes–Cantor單參數(shù)模型Kimura雙參數(shù)模型Equal-input模型Tamura模型HKY模型…...Jukes-Cantor單參數(shù)模型最簡(jiǎn)單的DNA序列進(jìn)化模型假設(shè)任一位點(diǎn)的核苷酸置換概率相同,僅有一個(gè)參數(shù),即一個(gè)核苷酸變?yōu)榱硪粋€(gè)核苷酸的概率為

;一個(gè)核苷酸變?yōu)槠渌魏我粋€(gè)核苷酸的概率為3ACGT嘌呤嘧啶

一個(gè)單位時(shí)間后:A演變?yōu)?種其他任何一種核苷酸的概率為γ=3

A保持不變的概率為A=1-3

Kimura雙參數(shù)模型兩類核苷酸嘌呤:A,G嘧啶:C,T轉(zhuǎn)換(Transitions):相似置換顛換(Transversions):嘌呤被嘧啶置換,反之亦然在實(shí)際數(shù)據(jù)中,轉(zhuǎn)換置換的速率常高于顛換的速率ACGT嘌呤嘧啶

轉(zhuǎn)換=

顛換=

JC模型K-2模型核苷酸置換模型

Jukes–Cantor單參數(shù)模型Kimura雙參數(shù)模型Equal-input模型Tamura模型HKY模型…...MEGA考慮序列間隔的情況在序列的同源區(qū)對(duì)位排列時(shí),常常插入間隔(-表示)來(lái)表示插入或缺失(indel)。這些間隔增加了距離估計(jì)的復(fù)雜度。當(dāng)然,也可能是由于實(shí)驗(yàn)的原因,出現(xiàn)喪失信息的位點(diǎn)(?表示)。在距離估計(jì)中,一般忽略這類位點(diǎn),可用兩種不同的方法處理完全刪除成對(duì)刪除320seq1A-AC-GGAT-AGGA-ATAAAseq2AT-CC?GATAA?GAAAAC-Aseq3ATTCC-GA?TACGATA-AGA

3101.ACGAAGAAAA2.ACGAAGAACA3.ACGAAGAAAA1 02 0.1 03 0 0.1 0距離完全刪除320seq1A-AC-GGAT-AGGA-ATAAAseq2AT-CC?GATAA?GAAAAC-Aseq3ATTCC-GA?TACGATA-AGA

212seq1ACGATAGAATAAseq2ACGATAGAAACA成對(duì)刪除213seq1AACGAAGGAAAAAseq3ATCGAACGAAAGA

214seq2ATCCGAAAGAAACAseq3ATCCGATAGATAAA

1 02 2/12 03 3/13 3/14 0距離序列分歧較小時(shí),兩個(gè)模型的結(jié)果基本相同序列分歧較大時(shí),雙參數(shù)模型更為準(zhǔn)確(尤其是當(dāng)轉(zhuǎn)換概率明顯高于顛換概率時(shí))單參數(shù)和雙參數(shù)模型的比較ModelTest軟件網(wǎng)站常見(jiàn)模型的局限性所有位點(diǎn)的替代速率并不是一致的一些位點(diǎn)的進(jìn)化并不是獨(dú)立的,如相互作用位點(diǎn)可能需要互補(bǔ)突變(例:發(fā)卡結(jié)構(gòu))氨基酸序列與同義/非同義核苷酸置換

為什么研究氨基酸分子進(jìn)化的一些重要原理(如基因重復(fù)和分子鐘)都是通過(guò)研究氨基酸序列發(fā)現(xiàn)的蛋白質(zhì)序列較為保守,能為研究基因和物種的長(zhǎng)期進(jìn)化提供有用信息對(duì)蛋白質(zhì)編碼基因的DNA序列對(duì)位排列時(shí)可能需要氨基酸序列校正氨基酸置換模型比核苷酸置換模型簡(jiǎn)單P距離血紅蛋白140個(gè)aa的前60個(gè)進(jìn)化距離(時(shí)間)越長(zhǎng),p值越大PC距離運(yùn)用泊松分布更精確地估計(jì)置換數(shù)目假定一個(gè)給定位點(diǎn)氨基酸置換數(shù)k(0,1,2,…)的發(fā)生頻率符合泊松分布泊松校正距離(PC距離)氨基酸置換速率在位點(diǎn)間有變異,可能不是泊松模型中所假設(shè)的一致速率在不太重要的位點(diǎn)速率通常比較高(而在酶的活性位點(diǎn)置換率較低)每個(gè)位點(diǎn)的氨基酸置換數(shù)k(0,1,2,…)的方差大于泊松分布方差,近似遵循負(fù)二項(xiàng)式分布Г距離Г分布非常柔性,有多種形狀,由形狀參數(shù)a決定a=∞時(shí),所有位點(diǎn)上的置換率都是相同的(泊松分布)a=1,置換率遵循指數(shù)分布,可描述不同位點(diǎn)的速率變異a<1,分布將更為偏斜,有相當(dāng)比例位點(diǎn)上的速率值趨近0,實(shí)際上它們幾乎是不變的位點(diǎn)在不同伽馬參數(shù)下位點(diǎn)間置換率的伽馬分布和距離氨基酸置換氨基酸的置換大多發(fā)生在生化特性相似的氨基酸之間不同的置換速率影響了PC距離置換不是隨機(jī)的,相似氨基酸間的回復(fù)突變和平行突變也經(jīng)常發(fā)生某些氨基酸如半胱氨酸(Cys)、甘氨酸(Gly)和色氨酸(Trp)很少變化氨基酸置換矩陣用序列相似的一組蛋白質(zhì)的對(duì)位排列來(lái)確定單步氨基酸變化,以此來(lái)預(yù)測(cè)進(jìn)化過(guò)程中大部分可能的氨基酸變化。該方法由Dayhoff(1978)建立較為成熟的有:Dayoff和Blosum計(jì)分矩陣同義置換與非同義置換同義: Sequence1:UUUCAUCGUSequence2:UUUCACCGUCodedAminoAcids:PheHisArg

非同義:Sequence1:UUUCAUCGUSequence2:UUUCAGCGUCodedAminoAcids:PheHisArg

Gln

KA:nonsynonymoussubstitution(非同義置換)KS:synonymoussubstitution(同義置換)>1 Positiveselection(正選擇)KA/KS =1 Neutralevolution(中性進(jìn)化) <1 Negativeselection(負(fù)選擇)適應(yīng)性/選擇性檢測(cè)Ka/Ks檢驗(yàn)的兩類方法基于MaximumParsimony

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論