版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
關(guān)于分子進(jìn)化與系統(tǒng)發(fā)育分析本章內(nèi)容提要第一節(jié)關(guān)于分子進(jìn)化簡(jiǎn)介第二節(jié)密碼子偏好及分析第三節(jié)氨基酸序列的進(jìn)化演變第四節(jié)分子系統(tǒng)發(fā)育分析第五節(jié)分子系統(tǒng)發(fā)育分析軟件介紹第2頁(yè),共115頁(yè),2024年2月25日,星期天TreeofLife
重建所有生物的進(jìn)化歷史并以系統(tǒng)樹的形式加以描述第一節(jié)關(guān)于分子進(jìn)化簡(jiǎn)介第3頁(yè),共115頁(yè),2024年2月25日,星期天生物進(jìn)化理論達(dá)爾文進(jìn)化論:進(jìn)化:變異的遺傳自然選擇:解釋為何演變發(fā)生的機(jī)制種群中個(gè)體變異的遺傳學(xué)基礎(chǔ):孟德爾遺傳孟德爾豌豆實(shí)驗(yàn):雜交的表現(xiàn)特征是基因表達(dá)的結(jié)果,而不是基因雜交遺傳中性進(jìn)化論:并非所有種群中保留下來(lái)的突變都由自然選擇所形成;大多數(shù)突變是中性或接近中性,不妨礙種群的生存與繁衍。第4頁(yè),共115頁(yè),2024年2月25日,星期天研究生物進(jìn)化歷史的途徑1.最確鑿證據(jù)是:生物化石!——零散、不完整2.比較形態(tài)學(xué)、比較解剖學(xué)和生理學(xué)等:確定大致的進(jìn)化框架——細(xì)節(jié)存很多的爭(zhēng)議第5頁(yè),共115頁(yè),2024年2月25日,星期天分子進(jìn)化1964年,LinusPauling提出分子進(jìn)化理論;從物種的一些分子特性出發(fā),從而了解物種之間的生物系統(tǒng)發(fā)生的關(guān)系。
發(fā)生在分子層面的進(jìn)化過(guò)程:DNA,RNA和蛋白質(zhì)分子
基本假設(shè):核苷酸和氨基酸序列中含有生物進(jìn)化歷史的全部信息。第6頁(yè),共115頁(yè),2024年2月25日,星期天分子進(jìn)化的模式DNA突變的模式:替代,插入,缺失,倒位;
核苷酸替代:轉(zhuǎn)換(Transition)&顛換(Transversion)
基因復(fù)制:多基因家族的產(chǎn)生以及偽基因的產(chǎn)生A.單個(gè)基因復(fù)制–重組或者逆轉(zhuǎn)錄B.染色體片斷復(fù)制C.基因組復(fù)制第7頁(yè),共115頁(yè),2024年2月25日,星期天DNA突變的模式替代插入缺失倒位第8頁(yè),共115頁(yè),2024年2月25日,星期天核苷酸替代:轉(zhuǎn)換&顛換
轉(zhuǎn)換:嘌呤被嘌呤替代,或者嘧啶被嘧啶替代
顛換:嘌呤被嘧啶替代,或者嘧啶被嘌呤替代第9頁(yè),共115頁(yè),2024年2月25日,星期天基因復(fù)制:?jiǎn)蝹€(gè)基因復(fù)制重組逆轉(zhuǎn)錄第10頁(yè),共115頁(yè),2024年2月25日,星期天基因復(fù)制:基因組復(fù)制釀酒酵母克魯雄酵母研究結(jié)果:克魯雄酵母中的同源基因數(shù)量與釀酒酵母相比為1:2第11頁(yè),共115頁(yè),2024年2月25日,星期天物種分類及關(guān)系:從物種的一些分子特性出發(fā),構(gòu)建系統(tǒng)發(fā)育樹,進(jìn)而了解物種之間的生物系統(tǒng)發(fā)生的關(guān)系——treeoflife
大分子功能與結(jié)構(gòu)的分析:同一家族的大分子,具有相似的三級(jí)結(jié)構(gòu)及生化功能,通過(guò)序列同源性分析,構(gòu)建系統(tǒng)發(fā)育樹,進(jìn)行相關(guān)分析;功能預(yù)測(cè)
進(jìn)化速率分析:例如,HIV的高突變性;哪些位點(diǎn)易發(fā)生突變?分子進(jìn)化研究的目的第12頁(yè),共115頁(yè),2024年2月25日,星期天第13頁(yè),共115頁(yè),2024年2月25日,星期天基于16S/18S核糖體RNA序列比對(duì)得到的古細(xì)菌系統(tǒng)發(fā)育樹生命三界:細(xì)菌(Eubacteria)古細(xì)菌(Archaebacteria)真核(Eukaryotes)第14頁(yè),共115頁(yè),2024年2月25日,星期天TreeofLife:16SrRNA第15頁(yè),共115頁(yè),2024年2月25日,星期天OutofAfrica53個(gè)人的線粒體基因組(16,587bp)人類遷移的路線第16頁(yè),共115頁(yè),2024年2月25日,星期天同源性與相似性相似性(Similarity)序列比對(duì)過(guò)程中用來(lái)描述檢測(cè)序列和目標(biāo)序列之間相似DNA堿基或氨基酸殘基序列所占比例;定量描述;同源性(Homology)兩個(gè)基因或蛋白質(zhì)序列具有共同祖先的結(jié)論;定性判斷;相似不一定同源,同源不一定相似。氨基酸序列相似性超過(guò)30%,很可能同源。第17頁(yè),共115頁(yè),2024年2月25日,星期天兩種同源物:即垂直方向的(orthology)與水平
方向的(paralogy)。直系同源(orthology)是比較基因組學(xué)中最重要的定義。直系同源的定義是:(1)在進(jìn)化上起源于一個(gè)始祖基因并垂直傳遞(verticaldescent)的同源基因;(2)分布于兩種或兩種以上物種的基因組;(3)功能高度保守乃至于近乎相同,甚至于其在近緣物種可以相互替換;(4)結(jié)構(gòu)相似;(5)組織特異性與亞細(xì)胞分布相似。第18頁(yè),共115頁(yè),2024年2月25日,星期天鑒定直系同源的實(shí)際操作標(biāo)準(zhǔn)(practicalcriteria)為:
如基因組Ⅰ中的A基因與基因組Ⅱ中的A‘基因被認(rèn)是直系同源,則要求:(1)A‘的產(chǎn)物比任何在基因組Ⅱ中所發(fā)現(xiàn)的其它基因產(chǎn)物都更相似于A產(chǎn)物;(2)A‘與A的相似程度比在任何一個(gè)親緣關(guān)系較遠(yuǎn)的基因組中的任一基因都要高;(3)A編碼的蛋白與A‘編碼的蛋白要從頭到尾都能并排比較,即含有相似以至于相同的模序(motif)第19頁(yè),共115頁(yè),2024年2月25日,星期天旁系同源
(paralogy)基因是指同一基因組(或同系物種的基因組)中,由于始祖基因的加倍而橫向(horizontal)產(chǎn)生的幾個(gè)同源基因。
即兩個(gè)基因在同一物種中,通過(guò)至少一次基因復(fù)制的事件而產(chǎn)生。常常具有不同功能。第20頁(yè),共115頁(yè),2024年2月25日,星期天paralogsorthologs直系同源物vs.旁系同源物第21頁(yè),共115頁(yè),2024年2月25日,星期天Orthologs&Paralogs
(直系同源與旁系同源)WormFlyHuman1Human2Yeast1Yeast2OrthologsParalogsGeneduplicationeventsSpeciationeventsParalogs第22頁(yè),共115頁(yè),2024年2月25日,星期天第23頁(yè),共115頁(yè),2024年2月25日,星期天直系與旁系的共性是同源,都源于各自的始祖基因。其區(qū)別在于:在進(jìn)化起源上,直系同源是強(qiáng)調(diào)在不同基因組中的垂直傳遞,旁系同源則是在同一基因組中的橫向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定義上對(duì)功能上沒(méi)有嚴(yán)格要求,可能相似,但也可能并不相似(盡管結(jié)構(gòu)上具一定程度的相似),甚至于沒(méi)有功能(如基因家族中的假基因)。旁系同源的功能變異可能是橫向加倍后的重排變異或進(jìn)化上獲得了另一功能。第24頁(yè),共115頁(yè),2024年2月25日,星期天同源物種類Ortholog(直系同源物):兩個(gè)基因通過(guò)物種形成的事件而產(chǎn)生,或源于不同物種的最近的共同祖先的兩個(gè)基因,或者兩個(gè)物種中的同一基因,一般具有相同的功能。Paralog(旁系同源物):兩個(gè)基因在同一物種中,通過(guò)至少一次基因復(fù)制的事件而產(chǎn)生。常常具有不同功能。Xenolog(異系同源物):由某一個(gè)基因水平轉(zhuǎn)移事件而得到的同源序列。水平轉(zhuǎn)移的基因功能主要根據(jù)在前后宿主中變化而確定,然而功能卻常常相似。第25頁(yè),共115頁(yè),2024年2月25日,星期天異源基因或水平轉(zhuǎn)移基因xenologousorhorizontallytransferredgenes第26頁(yè),共115頁(yè),2024年2月25日,星期天序列同源性模型中的進(jìn)化假設(shè)所有的生物都起源于同一個(gè)祖先;序列不是隨機(jī)產(chǎn)生,而是在進(jìn)化上,不斷發(fā)生著演變;基本假設(shè):序列保守性結(jié)構(gòu)保守性注意:反之未必序列保守性結(jié)構(gòu)保守性第27頁(yè),共115頁(yè),2024年2月25日,星期天第二節(jié)密碼子偏好及分析
密碼子(codon):在隨機(jī)或者無(wú)自然選擇的情況下,各個(gè)密碼子出現(xiàn)頻率將大致相等;
密碼子偏好:各個(gè)物種中,編碼同一氨基酸的不同同義密碼子的頻率非常不一致;
可能的原因:密碼子對(duì)應(yīng)的同功tRNA豐度的不同-Anticodon第28頁(yè),共115頁(yè),2024年2月25日,星期天標(biāo)準(zhǔn)密碼子第29頁(yè),共115頁(yè),2024年2月25日,星期天大腸桿菌RNA聚合酶第30頁(yè),共115頁(yè),2024年2月25日,星期天大腸桿菌RNA聚合酶(2)
密碼子偏好非常明顯;例如
同為編碼Leu的同義密碼子CUA和CUG,二者出現(xiàn)的次數(shù)顯著不等,CUA(1次),CUG(141次);
再如:編碼Arg的四個(gè)密碼子CGU,CGC,CGA,CGG,出現(xiàn)次數(shù)分別為:89,46,1,0.
提示:對(duì)應(yīng)CGG的同功tRNA可能不存在!第31頁(yè),共115頁(yè),2024年2月25日,星期天tRNA&Anticodon
每一個(gè)密碼子,對(duì)應(yīng)一個(gè)tRNA;tRNA通過(guò)Anticodon來(lái)識(shí)別codon,聯(lián)系mRNA和氨基酸序列的合成;
密碼子的使用偏好:由密碼子對(duì)應(yīng)的tRNA的進(jìn)化及豐度來(lái)決定。第32頁(yè),共115頁(yè),2024年2月25日,星期天堿基出現(xiàn)的頻率1.假如:每個(gè)核苷酸位點(diǎn)上的替代是隨機(jī)發(fā)生的,則A,T,C,G出現(xiàn)的頻率應(yīng)該大致相等。2.實(shí)際情況:DNA受到自然選擇的壓力,各個(gè)位點(diǎn)的堿基出現(xiàn)頻率并不相等。3.需要解決的問(wèn)題:A.每個(gè)位點(diǎn)上受到什么樣的選擇壓力?B.各個(gè)位點(diǎn)的堿基頻率反映了什么樣的規(guī)律?4.表征/統(tǒng)計(jì)的方法:計(jì)算G+C的含量,并進(jìn)行比較第33頁(yè),共115頁(yè),2024年2月25日,星期天同義替代vs.非同義替代64個(gè)密碼子,編碼20個(gè)氨基酸GTTGTCGTAGTGCGTCGC脯氨酸P組氨酸H四倍簡(jiǎn)并二倍簡(jiǎn)并TGGTGC色氨酸W半胱氨酸C同義替代非同義替代第34頁(yè),共115頁(yè),2024年2月25日,星期天DNA序列突變對(duì)氨基酸序列的影響
同義(沉默)替代(synonymous/silentsubstitution)仍然為同義密碼子的核苷酸替代如:TATTAC
TyrTyr
非同義替代(nonsynonymoussubstitution)導(dǎo)致產(chǎn)生非同義密碼子的核苷酸替代如:TATAAT
TyrAsn
無(wú)義突變(nonsensemutation)導(dǎo)致產(chǎn)生終止密碼子的核苷酸突變?nèi)纾篢ATTAA
TyrSTP問(wèn)題:假設(shè)所有密碼子以同一概率出現(xiàn),上述三種突變的比例?
25%,71%,4%第35頁(yè),共115頁(yè),2024年2月25日,星期天分子進(jìn)化的理論自然選擇理論:陽(yáng)性選擇:促進(jìn)有益突變;定向選擇:固定有益的等位基因;平衡選擇:保持多態(tài)性;陰性選擇(凈化選擇):清除有害突變;中性理論:陽(yáng)性選擇:少有;陰性選擇:普遍存在;中性進(jìn)化:普遍存在;第36頁(yè),共115頁(yè),2024年2月25日,星期天分子進(jìn)化的理論1.陽(yáng)性選擇,適應(yīng)性進(jìn)化,達(dá)爾文進(jìn)化:DNA分子顯著出現(xiàn)非同義替代,改變編碼蛋白質(zhì)的氨基酸組成,并產(chǎn)生新的功能;2.陰性選擇,凈化選擇:DNA分子的同義替代顯著,較少改變蛋白質(zhì)的氨基酸組成,其原來(lái)的功能高度保守;3.中性進(jìn)化:同義替代與非同義替代比例相當(dāng),突變不好不壞,不改變或輕微改變蛋白質(zhì)的功能。第37頁(yè),共115頁(yè),2024年2月25日,星期天基因的編碼區(qū)和非編碼區(qū)基因的DNA由編碼區(qū)(Codingregion)和非編碼區(qū)(Non-codingregion)構(gòu)成;編碼區(qū)可以轉(zhuǎn)錄信使RNA,進(jìn)而調(diào)控蛋白質(zhì)的合成;非編碼區(qū)不能轉(zhuǎn)錄成信使RNA,但是它可以調(diào)控遺傳信息的表達(dá);原核基因:編碼區(qū)全部編碼蛋白質(zhì);
真核基因:編碼區(qū)分為外顯子和內(nèi)含子,只有外顯子能編碼蛋白質(zhì);第38頁(yè),共115頁(yè),2024年2月25日,星期天分子進(jìn)化選擇壓力
進(jìn)化選擇壓力:A.編碼區(qū):陽(yáng)性選擇1%(決定物種形成、新功能的產(chǎn)生);陰性選擇19%(較少改變蛋白質(zhì)的氨基酸組成,其原來(lái)的功能高度保守);中性進(jìn)化80%(突變不好不壞)。B.非編碼區(qū):~100%的中性進(jìn)化第39頁(yè),共115頁(yè),2024年2月25日,星期天編碼區(qū):密碼子1.對(duì)于同義的密碼子,第一位少部分可以允許不同,例如,編碼Ser的六個(gè)密碼子:TCT,TCC,TCA,TCG,AGT,AGC2.第二位必須相同3.第三位絕大多數(shù)可以不同
近似隨機(jī);4.因此:A.第一位:陰性進(jìn)化占大部分,中性進(jìn)化占小部分B.第二位:陰性進(jìn)化C.第三位:陰性進(jìn)化占小部分,中性進(jìn)化占大部分第40頁(yè),共115頁(yè),2024年2月25日,星期天密碼子偏好的應(yīng)用及計(jì)算
基本假設(shè):在高表達(dá)的基因中,密碼子的選擇,更傾向于使用“優(yōu)化”的同義密碼子
推論1:給定一個(gè)物種的一些高表達(dá)的基因,我們可以估算優(yōu)化的同義密碼子的分布
推論2:接著,我們可以對(duì)給定的一個(gè)未知基因的序列進(jìn)行密碼子分布的分析,預(yù)測(cè)該基因的表達(dá)量!
推論3:對(duì)于一個(gè)表達(dá)量很低的基因,我們是否能夠通過(guò)將少量的密碼子改變成優(yōu)化密碼子,從而顯著提高基因的表達(dá)量?第41頁(yè),共115頁(yè),2024年2月25日,星期天RSCU相對(duì)同義密碼子使用度(relativesynonymouscodonusage,RSCU)
定義:觀測(cè)到的某一同一密碼子的使用次數(shù),除以“期望”的該密碼子出現(xiàn)次數(shù)編碼第i個(gè)氨基酸的第j個(gè)密碼子的出現(xiàn)次數(shù)編碼第i氨基酸的同義密碼子的數(shù)目編碼第i個(gè)氨基酸的第j個(gè)密碼子的RSCU值第42頁(yè),共115頁(yè),2024年2月25日,星期天密碼子相對(duì)適應(yīng)度
Therelativeadaptivenessofacodon
編碼第i個(gè)氨基酸的第j個(gè)同義密碼子的“相對(duì)適應(yīng)性”:
即該同義密碼子的觀察值,除以編碼該氨基酸的同義密碼子的最大值第43頁(yè),共115頁(yè),2024年2月25日,星期天大腸桿菌&酵母第44頁(yè),共115頁(yè),2024年2月25日,星期天CAI:密碼子適應(yīng)指數(shù)
CodonAdaptationIndexL為基因中所使用的密碼子數(shù)CAI值介于0~1之間,該值越大表示偏性越強(qiáng);CAI值一般用來(lái)預(yù)測(cè)種內(nèi)基因的表達(dá)水平,以及預(yù)測(cè)外源基因的表達(dá)水平。不同物種CAI的計(jì)算依賴于各自的參考數(shù)據(jù)集。第45頁(yè),共115頁(yè),2024年2月25日,星期天大腸桿菌和酵母:部分基因的CAI第46頁(yè),共115頁(yè),2024年2月25日,星期天異源基因:在其他物種中的CAI第47頁(yè),共115頁(yè),2024年2月25日,星期天第三節(jié)氨基酸序列的進(jìn)化演變
分子進(jìn)化的分析:基于氨基酸序列的分析早于DNA序列
優(yōu)勢(shì):氨基酸序列更為保守,對(duì)年代跨度大的進(jìn)化分析有幫助;數(shù)學(xué)模型較DNA遠(yuǎn)為簡(jiǎn)單p距離:p-distance
泊松校正,d距離第48頁(yè),共115頁(yè),2024年2月25日,星期天P-distance:利用DNA序列數(shù)據(jù)計(jì)算遺傳距離
兩條蛋白質(zhì)序列之間的氨基酸差異數(shù)為nd,序列的氨基酸數(shù)目均為n,則P距離:不同物種的血紅蛋白α鏈中差異氨基酸的數(shù)目及比例:(長(zhǎng)度:140aa)所有的插入/缺失均刪除第49頁(yè),共115頁(yè),2024年2月25日,星期天PC:泊松校正
序列差異的百分比(p)與分歧時(shí)間t的關(guān)系:t較短的時(shí)候,回復(fù)突變較少,兩者大致成線性關(guān)系;當(dāng)t較大時(shí),回復(fù)突變?cè)龆啵叱煞蔷€性關(guān)系基本假設(shè):令r為某一位點(diǎn)每年的氨基酸替代率,并假設(shè)所有位點(diǎn)的r都相同
在時(shí)間t年之后,每個(gè)位點(diǎn)替代的平均數(shù)為:rt
給定一個(gè)位點(diǎn),氨基酸替代數(shù)k(k=0,1,2,3,…)的可能性遵循泊松分布,即
因此,某一位點(diǎn)氨基酸不變的概率為第50頁(yè),共115頁(yè),2024年2月25日,星期天泊松距離
祖先序列未知:不知道當(dāng)前的序列從何演化而來(lái)
解決方案:對(duì)兩條已經(jīng)有t年分化的序列,一條序列某位點(diǎn)無(wú)替代的概率為:,兩條序列同源位點(diǎn)均無(wú)替代概率為:
此概率可用1-p估計(jì):q=1-p;兩個(gè)序列間每個(gè)位點(diǎn)氨基酸替代總數(shù)(d=2rt):d=-ln(1-p),即泊松距離第51頁(yè),共115頁(yè),2024年2月25日,星期天P-距離vs.泊松距離p距離和泊松校正(PC)距離隨分歧時(shí)間變化的關(guān)系第52頁(yè),共115頁(yè),2024年2月25日,星期天第四節(jié)分子系統(tǒng)發(fā)育分析1.系統(tǒng)發(fā)育樹:分子進(jìn)化樹/分子進(jìn)化分析2.通過(guò)進(jìn)化樹的構(gòu)建,分析分子之間的起源關(guān)系,預(yù)測(cè)分子的功能。3.建樹方法:A.最大簡(jiǎn)約法(MaximumParsimony)B.距離法(distance-basedmethods)C.最大似然性法(MaximumLikelihood)D.貝葉斯(Bayesian)推斷
第53頁(yè),共115頁(yè),2024年2月25日,星期天祖先節(jié)點(diǎn)/樹根內(nèi)部節(jié)點(diǎn)/分歧點(diǎn),該分支可能的祖先結(jié)點(diǎn)分支/世系末端節(jié)點(diǎn)
ABCDE代表最終分類,可以是物種,群體,或者蛋白質(zhì)、DNA、RNA分子等系統(tǒng)發(fā)育樹:術(shù)語(yǔ)第54頁(yè),共115頁(yè),2024年2月25日,星期天TaxonATaxonBTaxonCTaxonD116遺傳變化TaxonATaxonBTaxonCTaxonD時(shí)間TaxonATaxonBTaxonCTaxonD無(wú)意義分支圖
進(jìn)化樹
時(shí)間度量樹以上三種類型的系統(tǒng)發(fā)育樹表示相同的分支狀況,相同的進(jìn)化關(guān)系系統(tǒng)發(fā)育樹:三種類型遺傳變化無(wú)意義時(shí)間遺傳變化無(wú)意義以上三種類型的系統(tǒng)發(fā)育樹表示相同的分支狀況,相同的進(jìn)化關(guān)系時(shí)間遺傳變化無(wú)意義以上三種類型的系統(tǒng)發(fā)育樹表示相同的分支狀況,相同的進(jìn)化關(guān)系時(shí)間遺傳變化無(wú)意義分支圖
進(jìn)化樹
時(shí)間度量樹第55頁(yè),共115頁(yè),2024年2月25日,星期天樹只代表分支的拓?fù)浣Y(jié)構(gòu)ABCDEFGFGCDEAB第56頁(yè),共115頁(yè),2024年2月25日,星期天通過(guò)外類群來(lái)確定樹根根bacteriaoutgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea有根樹外類群無(wú)根樹,有根樹,外類群通過(guò)外類群來(lái)確定樹根有根樹外類群通過(guò)外類群來(lái)確定樹根有根樹外類群通過(guò)外類群來(lái)確定樹根有根樹eukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea無(wú)根樹第57頁(yè),共115頁(yè),2024年2月25日,星期天無(wú)根樹和有根樹:潛在的數(shù)目#Taxa無(wú)根樹有根樹31343155151056105945794510,395…30~3.58X1036~2.04X1038Taxa增多,計(jì)算量急劇增加,因此,目前算法都為優(yōu)化算法,不能保證最優(yōu)解第58頁(yè),共115頁(yè),2024年2月25日,星期天多序列比對(duì)(自動(dòng)比對(duì),手工校正)選擇建樹方法以及替代模型建立進(jìn)化樹進(jìn)化樹評(píng)估系統(tǒng)發(fā)育樹重建分析步驟第59頁(yè),共115頁(yè),2024年2月25日,星期天1.最大簡(jiǎn)約法(maximumparsimony,MP)適用序列有很高相似性時(shí)2.距離法(distance)適用序列有較高相似性時(shí)3.最大似然法(maximumlikelihood,ML)可用于任何相關(guān)序列集合計(jì)算速度:距離法>最大簡(jiǎn)約法>最大似然法系統(tǒng)發(fā)育樹重建的基本方法第60頁(yè),共115頁(yè),2024年2月25日,星期天1.最大簡(jiǎn)約法(MP)
根據(jù)信息位點(diǎn)提供的各序列間的替換情況,在所有可能的樹中篩選含最小替換數(shù)的樹的方法。理論基礎(chǔ)為奧卡姆剃刀(Ockham)原則:計(jì)算所需替換數(shù)最小的那個(gè)拓?fù)浣Y(jié)構(gòu),作為最優(yōu)樹。
在分析的序列位點(diǎn)上沒(méi)有回復(fù)突變或平行突變,且被檢驗(yàn)的序列位點(diǎn)數(shù)很大的時(shí)候,最大簡(jiǎn)約法能夠推導(dǎo)獲得一個(gè)很好的進(jìn)化樹。
優(yōu)點(diǎn):不需要在處理核苷酸或者氨基酸替代的時(shí)候引入假設(shè)(替代模型)
缺點(diǎn):分析序列上存在較多的回復(fù)突變或平行突變,而被檢驗(yàn)的序列位點(diǎn)數(shù)又比較少的時(shí)候,可能會(huì)給出一個(gè)不合理的或者錯(cuò)誤的進(jìn)化樹推導(dǎo)結(jié)果。第61頁(yè),共115頁(yè),2024年2月25日,星期天信息位點(diǎn):能將所有可能的樹區(qū)別出來(lái)的位點(diǎn)。
信息位點(diǎn)是指那些至少存在2個(gè)不同堿基/氨基酸且每個(gè)不同堿基/氨基酸至少出現(xiàn)兩次的位點(diǎn)。信息位點(diǎn)
(Sitesareinformative)第62頁(yè),共115頁(yè),2024年2月25日,星期天第63頁(yè),共115頁(yè),2024年2月25日,星期天上例Position5,7,9為信息位點(diǎn);
基于position5的三個(gè)MP樹:Tree1長(zhǎng)度為1,Tree2&3長(zhǎng)度為2Tree1最為簡(jiǎn)約:總長(zhǎng)=4
Tree2長(zhǎng)5;Tree3長(zhǎng)6
計(jì)算結(jié)果:MPtree的最優(yōu)結(jié)果為tree1第64頁(yè),共115頁(yè),2024年2月25日,星期天2.距離法又稱距離矩陣法,首先通過(guò)各個(gè)物種之間的比較,根據(jù)一定的假設(shè)(進(jìn)化距離模型)推導(dǎo)得出分類群之間的進(jìn)化距離,構(gòu)建一個(gè)進(jìn)化距離矩陣。再依據(jù)進(jìn)化距離,分別依次將序列合并聚類,構(gòu)建進(jìn)化樹。第65頁(yè),共115頁(yè),2024年2月25日,星期天簡(jiǎn)單的距離矩陣第66頁(yè),共115頁(yè),2024年2月25日,星期天由進(jìn)化距離構(gòu)建進(jìn)化樹的方法有很多,常見(jiàn)有:(1)Fitch-MargoliashMethod(FM法):對(duì)短支長(zhǎng)非常有效(2)Neighbor-JoiningMethod(NJ法/鄰接法):求最短支長(zhǎng),最通用的距離方法(3)NeighborsRelatonMethod(鄰居關(guān)系法)(4)UnweightedPairGroupMethodwithArithmeticMean(UPGMA,非加權(quán)組平均法)通過(guò)距離矩陣建樹的方法第67頁(yè),共115頁(yè),2024年2月25日,星期天(1)Fitch-Margoliash方法(FM法)=>D和E最接近!DEABCedm示例第68頁(yè),共115頁(yè),2024年2月25日,星期天分成三組:D,E,以及ABC(1)FM法示例第69頁(yè),共115頁(yè),2024年2月25日,星期天DE距離=d+e=10(1)D到ABC間的平均距離=d+m=32.7(2)E到ABC間的平均距離=e+m=34.7(3)(2)-(3)+(1)d=4,e=6DEABCedm第70頁(yè),共115頁(yè),2024年2月25日,星期天分成三組:C,DE,以及AB=>C最接近DE!第71頁(yè),共115頁(yè),2024年2月25日,星期天c+g+(e+d)/2=19(1)c+f+(a+b)/2=40(2)(e+d)/2+(a+b)/2+f+g=41(2)(1)+(2)-(3)=>
c=9=>g=5第72頁(yè),共115頁(yè),2024年2月25日,星期天由:(a+b)/2+f+g+(d+e)/2=41得:f=20由:a+f+c=39得:a=10,則b=12第73頁(yè),共115頁(yè),2024年2月25日,星期天(2)N-J/鄰接法
與FM方法非常類似保證總的支長(zhǎng)最短總支長(zhǎng):a+b+c+d+e=314/4=78.5第74頁(yè),共115頁(yè),2024年2月25日,星期天找到距離最近的兩個(gè)點(diǎn)1.任意兩個(gè)節(jié)點(diǎn)選為相鄰序列的總支長(zhǎng)計(jì)算公式:2.計(jì)算SAB,SBC,SCD,SDE…等數(shù)值3.該例中,SAB最小第75頁(yè),共115頁(yè),2024年2月25日,星期天把A、B看成一個(gè)新的復(fù)合序列,構(gòu)建一個(gè)新的距離表,重復(fù)以上過(guò)程計(jì)算A,B的分支長(zhǎng)度第76頁(yè),共115頁(yè),2024年2月25日,星期天d=e=10/2=5UPGMA法第77頁(yè),共115頁(yè),2024年2月25日,星期天c=19/2=9.5g=c-d=9.5-5=4.5第78頁(yè),共115頁(yè),2024年2月25日,星期天a=b=22/2=11AB(CDE)A-2239.5B--41.5(CDE)---第79頁(yè),共115頁(yè),2024年2月25日,星期天(AB)(CDE)(AB)-40.5(CDE)--f1+a=f2+c=40.5/2=20.25f1=9.25,f2=11.75第80頁(yè),共115頁(yè),2024年2月25日,星期天最大似然法(ML)最大似然法(maximumlikelihood,ML):最早應(yīng)用于對(duì)基因頻率數(shù)據(jù)的分析上
選取一個(gè)特定的替代模型來(lái)分析給定的一組序列數(shù)據(jù),使得獲得的每一個(gè)拓?fù)浣Y(jié)構(gòu)的似然率都為最大值,然后再挑出其中似然率最大的拓?fù)浣Y(jié)構(gòu)作為最優(yōu)樹;
在最大似然法的分析中,所考慮的參數(shù)并不是拓?fù)浣Y(jié)構(gòu)而是每個(gè)拓?fù)浣Y(jié)構(gòu)的枝長(zhǎng),并對(duì)似然率求最大值來(lái)估計(jì)枝長(zhǎng);
缺點(diǎn):費(fèi)時(shí),每個(gè)步驟都要考慮內(nèi)部節(jié)點(diǎn)的所有可能性
改進(jìn):?jiǎn)l(fā)式算法,分枝交換搜索等第81頁(yè),共115頁(yè),2024年2月25日,星期天構(gòu)建進(jìn)化樹的一般原則第82頁(yè),共115頁(yè),2024年2月25日,星期天1.可靠的待分析數(shù)據(jù)2.準(zhǔn)確的多序列比對(duì)3.選擇合適的建樹方法:A.序列相似程度高,MP首先B.序列相似程度較低,ML首先C.序列相似程度太低,無(wú)意義4.一般采用兩種及以上方法構(gòu)建進(jìn)化樹,無(wú)顯著區(qū)別可接受構(gòu)建進(jìn)化樹的一般原則(2)第83頁(yè),共115頁(yè),2024年2月25日,星期天
選擇一個(gè)或多個(gè)已知與分析序列關(guān)系較遠(yuǎn)的序列作為外類群;
外類群可以輔助定位樹根;
外類群序列必須與剩余序列關(guān)系較近,但外類群序列與其他序列間的差異必須比其他序列之間的差異更顯著。外類群(Outgroup)bacteriaoutgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea外類群第84頁(yè),共115頁(yè),2024年2月25日,星期天進(jìn)化樹的可靠性分析單純由預(yù)先獲得的多序列比對(duì)結(jié)果數(shù)據(jù)所推導(dǎo)出的進(jìn)化樹有時(shí)并不一定可靠。改進(jìn)辦法:引進(jìn)一些統(tǒng)計(jì)分析來(lái)尋找更優(yōu)的進(jìn)化樹,檢驗(yàn)結(jié)果的可靠性。最常見(jiàn)的就是bootstrap評(píng)估。第85頁(yè),共115頁(yè),2024年2月25日,星期天從排列的多序列中隨機(jī)有放回的抽取某一列,構(gòu)成相同長(zhǎng)度的新的排列序列;
重復(fù)上面的過(guò)程,得到多組新的序列;
對(duì)這些新的序列進(jìn)行建樹,再觀察這些樹與原始樹是否有差異,以此評(píng)價(jià)建樹的可靠性。一般Bootstrap的值>70,則認(rèn)為構(gòu)建的進(jìn)化樹較為可靠。自展法-進(jìn)化樹的可靠性分析BootstrapMethod第86頁(yè),共115頁(yè),2024年2月25日,星期天原始排列AlphaAACAACBetaAACCCCGammaACCAACDeltaCCACCAEpsilonCCAAAC
Bootstrap1AlphaACAAACBetaACCCCCGammaACAAACDeltaCACCCAEpsilonCAAAACBootstrap2AlphaAAAACCBetaAACCCCGammaCCAACCDeltaCCCCAAEpsilonCCAACCBootstrap3AlphaACAAACBetaACCCCCGammaCCAAACDeltaCACCCAEpsilonCAAAAC第87頁(yè),共115頁(yè),2024年2月25日,星期天第五節(jié)系統(tǒng)發(fā)育分析軟件介紹軟件說(shuō)明PHYLIP免費(fèi)的、集成的進(jìn)化分析工具/phylip.htmlMEGA圖形化、集成的進(jìn)化分析工具,不包括ML/
PAUP商業(yè)軟件,集成的進(jìn)化分析工具
/PHYML最快的ML建樹工具h(yuǎn)ttp://atgc.lirmm.fr/phyml/MrBayes基于貝葉斯方法的建樹工具/MAC5基于貝葉斯方法的建樹工具/software/mac5/第88頁(yè),共115頁(yè),2024年2月25日,星期天相關(guān)軟件軟件說(shuō)明ClustalX圖形化的多序列比對(duì)工具;構(gòu)建N-J系統(tǒng)樹http://bips.u-strasbg.fr/fr/Documentation/ClustalX//GeneDoc多序列比對(duì)結(jié)果的美化工具(可以導(dǎo)入fasta格式的文件,作圖可用于發(fā)表)/biomed/genedoc/
BioEdit序列分析的綜合工具
/BioEdit/bioedit.html
TreeView進(jìn)化樹顯示工具h(yuǎn)ttp://taxonomy.zoology.gla.ac.uk/rod/treeview.html
第89頁(yè),共115頁(yè),2024年2月25日,星期天Phylip軟件包介紹由華盛頓大學(xué)遺傳學(xué)系開發(fā),免費(fèi)的系統(tǒng)發(fā)育分析軟件包。目前最廣泛使用的系統(tǒng)發(fā)生分析程序,主要包括以下幾個(gè)程序組:分子序列組,距離矩陣組,基因頻率組,離散字符組,進(jìn)化樹繪制組。訪問(wèn)及免費(fèi)下載地址:/phylip.html第90頁(yè),共115頁(yè),2024年2月25日,星期天Phylip軟件包介紹
Phylip包含了35個(gè)獨(dú)立的程序,這些獨(dú)立的程序都實(shí)現(xiàn)特定的功能,這些程序基本上包括了系統(tǒng)發(fā)生分析的所有方面。多種不同平臺(tái)的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。
Phylip軟件包的文檔是非常詳細(xì)的,對(duì)于每個(gè)獨(dú)立的程序,都有一個(gè)獨(dú)立的文檔,詳細(xì)的介紹了該程序的使用及其說(shuō)明。第91頁(yè),共115頁(yè),2024年2月25日,星期天Phylip軟件包的應(yīng)用1,根據(jù)你的分析數(shù)據(jù),選擇適當(dāng)?shù)某绦蛉?,你分析的是DNA數(shù)據(jù),就在核酸序列分析類中選擇程序(dnapenny,dnapars,dnamove,dnaml,dnamlk,dnainvar,dnadist,dnacomp
)2.選擇適當(dāng)?shù)姆治龇椒?如你分析的是DNA數(shù)據(jù),可以選擇簡(jiǎn)約法(DNAPARS),似然法(DNAML,DNAMLK),距離法等(DNADIST)。3.進(jìn)行分析選擇好程序后,執(zhí)行,讀入分析數(shù)據(jù),選擇適當(dāng)?shù)膮?shù),進(jìn)行分析,結(jié)果自動(dòng)保存為outfile,outtree。第92頁(yè),共115頁(yè),2024年2月25日,星期天
outfile是一個(gè)記錄文件,記錄了分析的過(guò)程和結(jié)果,可以直接用文本編輯器(如寫字板)打開。
outtree是分析結(jié)果的樹文件,可以用phylip提供的繪樹程序打開查看,也可以用其他的程序來(lái)打開,如treeview等。Phylip軟件包的應(yīng)用第93頁(yè),共115頁(yè),2024年2月25日,星期天現(xiàn)有8段protein序列:>P1MPRFAANLSMMFTEVPFIERFAAARKAGFDAVEFLFPYNYSTLQIQKQLE>P2MPRFEANLSMMFTEVPFAERFADARKAGFDAVEFLFPYCYSDLQIQCQLE>P3WPRFEANLSMMFTEVPFAERFADARKIGFDAEEFLFPYCYSDLQIQCQLE>P4MPCFAANLSMMFTEVPFIERFAAARKAGFDAVEFLFPYNYSTLQIQKQLE>P5MPRFEANLSMEFTAVPFIERFADARKAGFDAVEFLFPYCYSTLQIQKQLE>P6MPRFEANLSMMFTEVPFAERFADARKAGFDAEEFLFPYCYSDLQIQCQLE>P7MPRFEANLSMEFTEVPFIERFADARKAGFDAVEFLFPYCYSTLQIQKQLE>P8WPRFEANLSMMFTEVPFAERFADARKAGFDAEEFLFPYCYSDLQIQCQLE示例:Phylip軟件包構(gòu)建進(jìn)化樹第94頁(yè),共115頁(yè),2024年2月25日,星期天
第一步:使用CLUSTALX多序列比對(duì),輸出格式為*.PHY
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版舊車買賣合同包含車輛過(guò)戶手續(xù)辦理3篇
- 2025版智能小區(qū)監(jiān)控平臺(tái)建設(shè)與運(yùn)營(yíng)維護(hù)合同3篇
- 2025年度船舶港口清潔與消毒服務(wù)合同3篇
- 2025年度居民用水行業(yè)發(fā)展規(guī)劃合同示范3篇
- 2024全新電力系統(tǒng)保護(hù)用機(jī)電產(chǎn)品買賣協(xié)議3篇
- 2024年版權(quán)許可使用合同中的權(quán)利義務(wù)規(guī)定
- 2025版鋼筋混凝土排水管系統(tǒng)集成與智能化升級(jí)合同3篇
- 2024年牧場(chǎng)草地修復(fù)與購(gòu)買合同
- 2025版駕校經(jīng)營(yíng)權(quán)創(chuàng)新發(fā)展承包合同
- 2025版城市公交客車租賃協(xié)議書3篇
- 初二年級(jí)勞動(dòng)課教案6篇
- 箱變遷移工程施工方案
- 北師大版九年級(jí)數(shù)學(xué)下冊(cè)《圓的對(duì)稱性》評(píng)課稿
- 住宅室內(nèi)裝飾裝修管理辦法課件
- 呼吸系統(tǒng)疾病診療規(guī)范
- 《遙感原理與應(yīng)用》期末考試試卷附答案
- 2023年全國(guó)乙卷筆試部分講解課件 【高效課堂+精研精講】 高考英語(yǔ)復(fù)習(xí)
- GB/T 9452-2023熱處理爐有效加熱區(qū)測(cè)定方法
- 肺炎支原體肺炎診治專家共識(shí)
- 酒店業(yè)輕資產(chǎn)運(yùn)營(yíng)模式案例研究
- 建筑師《建筑工程經(jīng)濟(jì)》習(xí)題(E)
評(píng)論
0/150
提交評(píng)論