9-分子進化與系統(tǒng)發(fā)育_第1頁
9-分子進化與系統(tǒng)發(fā)育_第2頁
9-分子進化與系統(tǒng)發(fā)育_第3頁
9-分子進化與系統(tǒng)發(fā)育_第4頁
9-分子進化與系統(tǒng)發(fā)育_第5頁
已閱讀5頁,還剩104頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第9章分子進化與系統(tǒng)發(fā)育講授:舒坤賢2013.11WhereDoWeComeFrom?WhatAreWe?WhereAreWeGoing?(MuseumofFineArts,Boston)“一個半世紀以前,CharlesDarwin可能沒有意識到他所給予科學的是一件從未有過的強大武器,即他的進化理論??茖W家用這把堅利之劍斬斷了無知、迷信和傲慢,這些束縛人類對億萬年來的生命的了解的鐐銬。”——《美國自然博物館成立125周年紀念??非把訡harlesDarwin(1809-1882)Whoarecloser?OutofAfrica53個人的線粒體基因組(16,587bp)人類遷移的路線TreeofLife:重建所有生物的進化歷史并以系統(tǒng)樹的形式加以描述。Wehaveadream…第一節(jié)分子進化與系統(tǒng)發(fā)育Darwin,Charles(1809-1882)

《TheOriginofSpecies》(1859)化石證據(jù)(最理想的方法:化石!——

然而…零散、不完整)

(Fossil)比較形態(tài)學證據(jù)

(Comparativemorphology)比較生理學證據(jù)

(Comparativephysiology)系統(tǒng)學(Systematics)分類學(Taxonomy)經(jīng)典的進化研究方法比較形態(tài)學和比較生理學:確定大致的進化框架。——

然而,細節(jié)存在巨多的爭議一、分子水平的進化分子水平的進化主要是指在生物進化過程中,構(gòu)成生物體的大分子物質(zhì),如蛋白質(zhì)、核酸的演變過程。分子系統(tǒng)發(fā)育學MolecularPhylogenetics分子系統(tǒng)學MolecularSystematicsWhatcanwedoformolecularevolution?序列比較:源于同一祖先DNA/氨基酸序列的兩條DNA/氨基酸序列,考察二者的差異。序列差異:進化過程中分子突變的痕跡。分子進化:以累計在DNA/氨基酸分子上的歷史信息為基礎(chǔ),研究分子水平的生物進化過程和機制。分子系統(tǒng)學為生物分類問題提供了許多嶄新的見解。基因突變1、核苷酸替代、插入/缺失、重組2、基因轉(zhuǎn)換固定在生物個體以及物種內(nèi)遺傳漂變自然選擇傳遞給后代產(chǎn)生新的形態(tài)、性狀分子系統(tǒng)學是研究進化機制的一個重要工具。生物進化的分子機制性狀改變DNA分子的改變核苷酸替代substitution核苷酸缺失deletion核苷酸插入insertion核苷酸倒位invertionDNA序列的突變

Thr

Tyr

LeuLeuACCTATTTGCTGACCTCTTTGCTGThrSerLeuLeu替代

ThrTyrLeuLeuACCTATTTGCTGACCTACTTTGCTGThrTyrPheAla插入

ThrTyr

LeuLeuACCTATTTGCTGACCTATTGCTG-ThrTyr

Cys-缺失

Thr

TyrLeu

LeuACCTATTTGCTGACCTTT

ATGCTG

Thr

PheMet

Leu倒位核苷酸替代的幾種分類轉(zhuǎn)換

(transition)嘌呤嘌呤嘧啶嘧啶顛換

(transvertion)嘌呤嘧啶嘧啶嘌呤ATCG胞嘧啶腺嘌呤胸腺嘧啶鳥嘌呤

在大多數(shù)DNA片段中,轉(zhuǎn)換出現(xiàn)的概率高于顛換出現(xiàn)的概率。DNA序列突變對氨基酸序列的影響

同義(沉默)替代(synonymous/silentsubstitution)仍然為同義密碼子的核苷酸替代如:TATTAC

TyrTyr

非同義替代(nonsynonymoussubstitution)導致產(chǎn)生非同義密碼子的核苷酸替代如:TATAAT

TyrAsn

無義突變(nonsensemutation)導致產(chǎn)生終止密碼子的核苷酸突變?nèi)纾篢ATTAA

TyrSTP問題:假設(shè)所有密碼子以同一概率出現(xiàn),上述三種突變的比例25%,71%,4%1、分子進化的特點1)生物大分子進化速率相對恒定Sandwalk:TheModernMolecularClock-1244×1000-按圖片搜索網(wǎng)頁制作者:LaurenceA.Moran-...interestedinmolecularclocks(BrohamandPenny,2003;Kumar,2005).也可嘗試查看以下圖片:

圖片可能受版權(quán)保護。-發(fā)送反饋分子進化速率

生物大分子隨時間的改變主要表現(xiàn)為核苷酸、蛋白質(zhì)的一級結(jié)構(gòu)的改變,即分子序列中核苷酸、氨基酸的替換不同物種同源大分子的分子進化速率大體相同

例子:比較不同物種血紅蛋白氨基酸序列差異人、馬——0.8

10-9/AA.a

人、鯉魚——0.6

10-9/AA.a分子進化速率遠遠比表型進化速率穩(wěn)定原因?

序列的核苷酸或氨基酸替換是否隨機過程?…1965,ZuckerkandlandPauling,MolecularClock,分子鐘根據(jù)分子系統(tǒng)學研究與古生物學資料相結(jié)合,建立推論生物進化事件發(fā)生的時間表。

假定分子進化速率r恒定,則分子進化改變量(替代數(shù)目或替代率)與進化時間成正比。以兩條序列為例:d=2rt其中,t是進化時間,d是這兩條序列每個位點的替代數(shù)目。分子鐘成立的先決條件:分子進化速率恒定。分子鐘成立的證據(jù):A至少某些生物大分子(如珠蛋白)的進化速率在相當長的地質(zhì)時間內(nèi)的相對穩(wěn)定、均勻;B許多不同物種的多種同源大分子在相當長時間內(nèi)的平均進化速率近似恒定。建立分子鐘的大致步驟a、選擇所要比較的生物大分子種類根據(jù)具體研究目標和已掌握的資料,選擇進化速率相對恒定、速率大小合適、分布范圍能涵蓋各待比較物種的生物大分子。b、選擇所要比較的物種,確定各比較組合及其所代表的進化事件c、獲得生物大分子一級結(jié)構(gòu)的資料d、獲得有關(guān)的代表性進化事件發(fā)生的地質(zhì)時間數(shù)據(jù)e、通過比較大分子一級結(jié)構(gòu),選擇合適的數(shù)學模型,計算得到進化產(chǎn)生的分子差異d,通過回歸分析等統(tǒng)計方法得到大分子的進化速率r(t)f、由此可以推斷未知進化事件的發(fā)生時間關(guān)于分子鐘的討論和爭議a、對長期進化而言,不存在以恒定速率替換的生物大分子一級結(jié)構(gòu);(基因功能的改變、基因數(shù)目的增加)b、不存在通用的分子鐘;c、爭議:分子鐘的準確性中性理論(分子鐘成立的基礎(chǔ))2)生物大分子進化的保守性保守性

功能上重要的大分子或大分子的局部在進化速率上明顯低于那些在功能上不重要的大分子或者大分子局部。(引起表型發(fā)生顯著改變的突變發(fā)生的頻率要低于無明顯表型發(fā)生顯著改變得突變發(fā)生的頻率。)氨基酸

例:血紅蛋白分子的外區(qū)的功能要次于內(nèi)區(qū)的功能,外區(qū)的進化速率是內(nèi)區(qū)進化速率的10倍。核苷酸

例:DNA密碼子的同義替代頻率高于非同義替代頻率;內(nèi)含子上的核苷酸替代頻率較高。生物大分子進化并非完全隨機

存在某種制約因素,存在某種機制……?從物種的一些分子特性出發(fā),構(gòu)建系統(tǒng)發(fā)育樹,進而了解物種之間的生物系統(tǒng)發(fā)生的關(guān)系——treeoflife;物種分類。TreeofLife:16SrRNA進化理論圍繞的三個主題A進化的動力是什么?B進化是否有一定的方向?C進化的速度是否恒定?是漸近的還是跳躍的?分子進化理論同樣必須回答上述三個問題。2、分子進化的中性學說Darwinian進化理論告訴了什么?(1)、遺傳和變異

一切生物都能發(fā)生變異,至少有一部分變異能夠遺傳給后代(2)、自然選擇

繁殖過剩:任何生物產(chǎn)生的生殖細胞或后代數(shù)目要遠遠多于可能存活的個體數(shù)目;而在所產(chǎn)生的后代中,那些最具有適應(yīng)環(huán)境條件的有利變異的個體有較大的生存機會,并繁殖后代,從而使有利變異可以世代積累,不利變異被淘汰。“選擇”不是超自然的上帝的作用。(3)、性狀分歧;種的形成、絕滅;系統(tǒng)樹

性狀分歧原理——在同一個種內(nèi),個體之間在結(jié)構(gòu)、習性上越是歧異,則在適應(yīng)不同環(huán)境方面愈是有利,因而將會繁育更多的個體,分布到更廣的范圍。由此一個種會逐漸演變?yōu)槿舾勺兎N、亞種乃至新種。新種的形成、種間的競爭、種的絕滅、外界環(huán)境的作用系統(tǒng)樹——由于性狀分歧和中間類型的絕滅,新種不斷產(chǎn)生、舊種不斷絕滅,種間差異不斷擴大,形成時間、空間上的物種系統(tǒng)樹。Darwinian進化理論的三次修正第一次:“新Darwinian主義”

1900s,Weismann等,消除Lamarck的“獲得性遺傳”學說、Buffon的“環(huán)境直接作用”學說,強調(diào)“自然選擇”為進化的主要因素;第二次:“現(xiàn)代綜合論(Modernsynthesis)”1930-40s,遺傳學、生物系統(tǒng)學、古生物學的重大貢獻:對“自然選擇”、“物種變異”等概念的新認識。適應(yīng):繁殖的相對優(yōu)勢適應(yīng)度:個體或基因型對后代或后代基因庫的相對貢獻適應(yīng)和選擇:繁殖或基因傳遞的相對差異

……

消除社會達爾文主義的科學基礎(chǔ)第三次:NOW…

原因:現(xiàn)代分子生物學、古生物學的發(fā)展。宏觀(對生物進化實際過程的了解):古生物學揭示生命進化的規(guī)律、進化速度、進化趨勢、物種的形成和絕滅微觀:現(xiàn)代分子生物學揭示生物大分子的進化規(guī)律和攜帶遺傳信息的物質(zhì)基礎(chǔ)及其復雜結(jié)構(gòu)新的認識:(1)、生物進化過程并非“勻速”、“漸變”的,而是“快速進化”與“進化停滯”相間;(2)、生物進化與分子進化都顯示出相當大的隨機性,自然選擇并非總是進化的主要因素;(3)、遺傳系統(tǒng)本身具有某種進化功能,進化過程中可能存在內(nèi)因的“驅(qū)動”和“導向”。

Continuing…Neutraltheoryofmolecularevolution(Kimura&Ohta,1968,1971)(King&Jukes,1969)提出分子層次上的“non-Darwinianevolution”“在生物分子層次上的進化改變不是由自然選擇作用于有利突變而引起的,而是在連續(xù)的突變壓之下由選擇中性或非常接近中性的突變的隨機固定造成的。中性突變是指對當前適應(yīng)度無影響的突變。”中性突變、連續(xù)突變壓、隨機固定否認自然選擇在分子進化中的作用,認為生物大分子的進化主要因素是機會和突變壓力。分子進化中性論的若干依據(jù)分子層次上的大多數(shù)變異是選擇中性的

蛋白質(zhì)和核苷酸分子的進化速率高且相對恒定

突變壓在分子進化中的作用得到研究證實按照群體遺傳學的數(shù)學模型,自然選擇的代價太高

分子進化中性論的討論1)、中性論是解釋分子層次的進化現(xiàn)象

自然選擇只作用于表型,并不直接作用于分子。衡量尺度的區(qū)別:分子的顯著性改變并不意味著表型的顯著性改變。中性論只涉及生物大分子一級結(jié)構(gòu)單元的替換,并不包含和解釋分子層次的全部改變(如蛋白質(zhì)三級結(jié)構(gòu)、功能的改變)2)、分子進化的保守性表明選擇仍然起作用

可能之一——負選擇的存在:任何發(fā)生在重要功能的大分子或大分子保守區(qū)的突變,由于造成適應(yīng)度的下降而被選擇淘汰。(隨機作用)可能之二——存在某種機制阻止功能重要的大分子或大分子保守區(qū)的突變產(chǎn)生。(非隨機作用)3)、選擇中性突變的復雜調(diào)控系統(tǒng)

中性突變的可能原因:復雜的調(diào)控機制?;虮磉_受到內(nèi)外因素的制約。決定中性突變的調(diào)控系統(tǒng)受到自然選擇的影響。

4)、選擇在分子的適應(yīng)進化中起作用

在分子層次上可能存在兩種進化形式:中性進化(導致分子多樣性)適應(yīng)進化(通過選擇實現(xiàn),導致分子適應(yīng))能否打倒的Darwinian進化論?3、基因組計劃與分子進化基因組計劃為許多生物進化關(guān)鍵問題的研究提供了基礎(chǔ)1)、基因組計劃產(chǎn)生的大量數(shù)據(jù)為分子進化研究提供了新的素材人類基因組計劃、模式生物基因組計劃2)、可以從生物大分子層次研究進化的機制進化機制:基因重復、拷貝?(低等生物->高等生物)多基因家族的一致進化?提供有關(guān)重復基因、DNA缺失插入、基因易位、轉(zhuǎn)座子插入等信息,為分子系統(tǒng)學研究提供更多的研究對象。4、研究分子進化的意義生命起源諸多生命現(xiàn)象的解釋分子系統(tǒng)發(fā)育樹構(gòu)建二、系統(tǒng)發(fā)育分析的基本概念基于16S/18S核糖體RNA序列比對得到的古細菌系統(tǒng)發(fā)育樹(Ettema等,2005)1、分子系統(tǒng)發(fā)育樹的基本概念一般來說,系統(tǒng)發(fā)生樹是一種二叉樹。所謂樹,實際上是一個無向非循環(huán)圖。系統(tǒng)發(fā)生樹由一系列節(jié)點(nodes)和分支(branches)組成,其中每個節(jié)點代表一個分類單元(物種或序列),而節(jié)點之間的連線代表物種之間的進化關(guān)系。樹的節(jié)點又分為外部節(jié)點(terminalnode)和內(nèi)部節(jié)點(internalnode)。在一般情況下,外部節(jié)點代表實際觀察到的分類單元,而內(nèi)部節(jié)點又稱為分支點,它代表了進化事件發(fā)生的位置,或代表分類單元進化歷程中的祖先。分類單元是一種由研究者選定的基本單位,在同一項研究中,分類單元一般應(yīng)當一致。abcdabcd拓撲結(jié)構(gòu):有根樹:反映時間順序無根樹:反映距離

理論上,一個DNA序列在物種形成或基因復制時,分裂成兩個子序列,因此系統(tǒng)發(fā)育樹一般是二歧的。一般考慮二歧的樹結(jié)構(gòu):二歧樹分支:內(nèi)部分支外部分支節(jié)點:內(nèi)部節(jié)點外部節(jié)點2、有根樹和無根樹系統(tǒng)發(fā)育樹:術(shù)語祖先節(jié)點/樹根內(nèi)部節(jié)點/分歧點,該分支可能的祖先結(jié)點分支/世系末端節(jié)點

ABCDE代表最終分類,可以是物種,群體,或者蛋白質(zhì)、DNA、RNA分子等

物種樹:

代表一個物種或群體進化歷史的系統(tǒng)發(fā)育樹兩個物種分歧的時間:兩個物種發(fā)生生殖隔離的時間

基因樹:

由來自各個物種的一個基因構(gòu)建的系統(tǒng)發(fā)育樹(不完全等同于物種樹),表示基因分離的時間。abcdef基因分裂基因分裂基因分裂物種分裂3、基因樹與物種樹期望樹:

一個用無限長的序列或每一分支的期望替代數(shù)構(gòu)建的樹理論上:假設(shè)所研究的序列無限長,從中隨機抽樣進行統(tǒng)計分析。實際情況:所研究的序列是短序列,統(tǒng)計得到的替代數(shù)目存在大量隨機誤差?,F(xiàn)實樹:

建立在實際替代數(shù)基礎(chǔ)上的樹重建樹構(gòu)樹方法系統(tǒng)發(fā)育樹的種類:期望樹、現(xiàn)實樹和重建樹

系統(tǒng)發(fā)生樹性質(zhì):

(1)如果是一棵有根樹,則樹根代表在進化歷史上是最早的、并且與其它所有分類單元都有聯(lián)系的分類單元;(2)如果找不到可以作為樹根的單元,則系統(tǒng)發(fā)生樹是無根樹;(3)從根節(jié)點出發(fā)到任何一個節(jié)點的路徑指明進化時間或者進化距離。對于給定的分類單元數(shù),有很多棵可能的系統(tǒng)發(fā)生樹,但是只有一棵樹是正確的。

系統(tǒng)發(fā)生分析的目標

——尋找這棵正確的樹第二節(jié)

分子系統(tǒng)發(fā)生樹的構(gòu)建方法建立系統(tǒng)發(fā)生樹的基本任務(wù):在給定的條件下(包括分類單元、分類單元的特征值或者序列),構(gòu)造一棵最優(yōu)的系統(tǒng)發(fā)生樹。這里重點討論針對DNA序列或者蛋白質(zhì)序列構(gòu)建系統(tǒng)發(fā)生樹。1、特征數(shù)據(jù)(characterdata):表示分子所具有的特征,提供了基因、個體、群體或物種的信息特征數(shù)據(jù)可分為:

二態(tài)特征——例如:DNA序列上的某個位置如果是剪切位點多態(tài)特征——例如:某一位置可能的堿基有A、T、G或C2、距離數(shù)據(jù)(distancedata)或相似性數(shù)據(jù)(similaritydata):常用距離矩陣描述,表示兩個數(shù)據(jù)集之間所有兩兩差異,涉及的則是成對基因、個體、群體或物種的信息。

構(gòu)建系統(tǒng)發(fā)生樹的分子數(shù)據(jù)

計算序列之間距離令S(i,j)是序列i和序列j比對位置得分的加權(quán)和

歸一化的距離:其中Sr(i,j)是序列i和j隨機化之后的比對得分的加權(quán)和,Smax(i,j)是可能的最大值令Sr(i,j)=0

為了適合于處理相似性較小的序列,可以進一步修改距離計算公式

分子系統(tǒng)發(fā)生分析過程

多序列比對(自動比對,手工校正)選擇建樹方法以及替代模型建立進化樹進化樹評估系統(tǒng)發(fā)生樹的構(gòu)建方法分為兩大類:基于距離的構(gòu)建方法

最小二乘法

連鎖聚類方法及非加權(quán)組平均法 距離變換法

鄰近歸并法 基于離散特征的構(gòu)建方法最大簡約法最大似然法根據(jù)建樹算法在執(zhí)行過程中采用的搜索方式,系統(tǒng)發(fā)生樹的構(gòu)建方法也可以分為以下3類。(1)窮盡搜索方法

即產(chǎn)生所有可能的樹,然后根據(jù)評價標準選擇一棵最優(yōu)的樹。

(2)分支約束方法

即根據(jù)一定的約束條件將搜索空間限制在一定范圍內(nèi),產(chǎn)生可能的樹,然后擇優(yōu)。(3)啟發(fā)式或經(jīng)驗性方法

根據(jù)先驗知識或一定的指導性規(guī)則壓縮搜索空間,提高計算速度。

需要注意的是,系統(tǒng)發(fā)生樹可能的個數(shù)隨序列的個數(shù)急劇增加。假設(shè)要為n個分類單元建立系統(tǒng)發(fā)生樹,則可能的有根樹個數(shù)(NR)和無根系統(tǒng)發(fā)生樹個數(shù)(NU)可用下面的算式計算得到:分支數(shù)目:有根樹無根樹內(nèi)部分支數(shù)目:有根樹無根樹內(nèi)部節(jié)點數(shù)目:有根樹無根樹abcdabcdabcdadbcbacdcabddabcacbdbcadcbaddbacadbcbaaccdabdcab考慮4個分類群時,共有15種可能的有根樹abcdacbdadbc考慮4個分類群時,共有3種可能的無根樹表6.1對不同的n,可能的有根樹和無根樹數(shù)目數(shù)據(jù)數(shù)目

有根樹數(shù)目

無根樹數(shù)目

21133141535105151034,459,4252,207,02515213,458,046,767,8757,905,853,580,625208,200,794,532,637,891,559,375221,643,095,476,699,771,875從計算量來看,窮盡搜索方法只能處理很少的分類單元。當分類單元個數(shù)n大于一定值(如15),幾乎不可能采用窮盡搜索的方式來求取最優(yōu)樹。因此,目前算法都為優(yōu)化算法,不能保證最優(yōu)解。

構(gòu)建進化樹的一般原則http://www.genome.jp/tools/clustalw/一、基于距離的系統(tǒng)發(fā)生樹構(gòu)建方法基本思路:給定一種序列之間距離的測度,在該距離測度下構(gòu)建一棵系統(tǒng)發(fā)生樹,使得該樹能夠最好地反映已知序列之間的距離。10條核酸序列的距離矩陣

采用兩兩距離,建立一個距離矩陣,如下表所示,根據(jù)距離矩陣構(gòu)造系統(tǒng)發(fā)生樹。如何建立分類群之間的進化距離的數(shù)學模型如何根據(jù)不同的概率統(tǒng)計模型,由兩條序列的差異值構(gòu)建它們的進化距離?進一步閱讀:《分子進化與系統(tǒng)發(fā)育》(MolecularEvolutionandPhylogentics)MasatoshiNei&SudhirKumar,OxfordUniversityPress,Inc.2000中文譯本:呂寶忠、鐘揚、高莉萍等譯,高等教育出版社,2002第二~四章(pp15-63)《氨基酸序列的進化演變》《DNA序列的進化演變》《同義與非同義的核苷酸替代》1、最小二乘法目標是構(gòu)造一棵樹T,該樹的葉節(jié)點代表物種,用該樹預測物種之間的距離。通過優(yōu)化,使下式最小化:

這里,Dij為物種i和j的實際觀察距離(或序列之間的計算距離),dij是物種i和j在系統(tǒng)發(fā)生樹T中的距離,Wij是與物種i和j相關(guān)的權(quán)值。SSQ(T)是樹T所有預測值與實際觀察值偏差的累加和。權(quán)值Wij一般為1,或

Wij=1/Dij2

例,如果有三個分類單元,其兩兩距離如下:dab=0.5;dac=0.9;dbc=0.9假設(shè)分類單元a和分類單元b的分歧起始時間是相同的,根據(jù)分子時鐘假說,dau

和dbu

的值應(yīng)該是相等的,進一步假設(shè)節(jié)點u到其它節(jié)點的距離相同,則通過求解方程,得到如圖6.2所示的一棵樹。

但是,在實際應(yīng)用中,所要處理的分類單元可能很多,因而,需要求解的線性方程也很多,難以求解,或者方程組的求解過程存在著不確定性。因此,需要采用數(shù)學逼近的方法。連鎖聚類屬于一般的聚類分析方法,當用來構(gòu)建系統(tǒng)發(fā)生樹時,其假定的前提條件是:在進化過程中,核苷酸或氨基酸的替換速率是均等且恒定的,在每一次分歧發(fā)生后,從共同祖節(jié)點到兩個分類單元間的分支長度一樣。在構(gòu)建系統(tǒng)發(fā)生樹時,首先用n個葉節(jié)點表示n個分類單元(序列),每個分類單元自成一類,然后通過反復的聚類使所有的分類單元都聚為一類,并將進化過程中的祖先賦予樹的內(nèi)部節(jié)點,最終得到一個完整的系統(tǒng)發(fā)生樹。假設(shè)若干條序列是從一個共同的祖先進化而來,則系統(tǒng)發(fā)生樹將是一個有根樹,并且從根節(jié)點出發(fā)到所有葉節(jié)點路徑的長度相同。2、連鎖聚類方法及非加權(quán)分組平均法

選擇距離最小的一對序列將這兩個序列合二為一,形成一個新的對象(代表這兩個序列的祖先)重新計算這個新的對象與其它序列的距離。單連鎖聚類:d(x,u)=min(d(y,u),d(z,u)) 最大連鎖聚類:d(x,u)=max(d(y,u),d(z,u))平均連鎖聚類:d(x,u)=1/2(d(y,u)+d(z,u))

其中x代表y和z的合并,u代表任意其它對象。基本思路非加權(quán)分組平均法

(UnweightedPairGroupMethodwithArithmeticmean,UPGMA)

在平均連鎖聚類過程中,一個新類到其它類之間的距離就是簡單的原距離平均值。

如果類中分類單元個數(shù)不一樣,原距離矩陣中各個距離值對新距離計算的貢獻就不一樣,或者說是經(jīng)過“加權(quán)”的,稱這樣的聚類為加權(quán)分組平均。在非加權(quán)分組平均法中,在計算新分類到其它分類之間的平均距離時按照各分類中分類單元的數(shù)目進行加權(quán)處理。

UPGMA算法的執(zhí)行過程如下:(1)初始化:使每個物種自成一類,如果有n個物種,則開始時共有n個類,每個類的大小為1,分別用n個葉節(jié)點代表每個類;

(2)執(zhí)行下列循環(huán):l

尋找具有最小距離Dij的兩個類i、j;建立一個新的聚類(ij)l

連接i和j形成新節(jié)點(ij),生長兩個新的分支,將i和j連接到(ij),分支的長度為Dij/2;l

計算新分類到其它類的距離

其中ni、nj、(ni+nj)分別為i類、j類、(ij)類的元素個數(shù);l

在距離矩陣中刪除與類i和類j相應(yīng)的行和列,為類(ij)加入新的行和列;

重復循環(huán),直到僅剩一個類為止。

討論1)、在基因替代速率恒定假設(shè)成立時,UPGMA方法比較適用;2)、UPGMA方法適用于具有較小變異系數(shù)的距離測度;3)、UPGMA是一種既構(gòu)建拓撲結(jié)構(gòu)又計算分支長度的方法;4)、UPGMA方法既可以得到有根樹,也可以得到無根樹。3、距離變換法

連鎖聚類和UPGMA算法的一個缺陷是假定所有家系的進化速率是相同的,但是,實際情況并不總是這樣。進化速率的變化容易導致連鎖聚類和UPGMA算法產(chǎn)生錯誤拓撲結(jié)構(gòu)的樹。表6.3四個分類單元的距離矩陣

ABCB9

C811

D121510假設(shè)有4個分類單元A、B、C和D,其系統(tǒng)發(fā)生關(guān)系及各個分類單元之間的距離如圖6.5所示,距離矩陣見表6.3。如果利用UPGMA進行分析,則首先合并A和C,(AC)到B的距離等于9/2+11/2=10,(AC)到D的距離等于12/2+10/2=11;進一步合并(AC)和B,((AC)B)到D的距離等于2×11/3+1×15/3=37/3;最終得到圖6.6所示的系統(tǒng)發(fā)生樹,但是,該樹顯然與真實樹有出入。距離變換法(TransformedDistanceMethod)。這種方法充分利用了外群或外部參考物種(outgroup),即先于其它所有被考慮的物種(稱為內(nèi)群或內(nèi)部物種,ingroup)從它們的共同祖先中分化出來的那些物種。假設(shè)有4個物種A、B、C和D,其中D是物種A、B和C的外部參考物種,并且已知關(guān)于這四個物種的距離矩陣。D可作為變換其它物種之間的距離的外部參考,變換式如下:其中d’ij是物種i和j之間的變換后距離,

是外部參考物種與全體內(nèi)部物種之間的平均距離,此例中

=(dAD+dBD+dCD)/3

。鄰近歸并法(NeighborJoining)是另一種快速的聚類方法,該方法是Saitou和Nei于1987年首次提出的。在構(gòu)建系統(tǒng)發(fā)生樹時,該方法取消了非加權(quán)分組平均法所作的假定,不需要關(guān)于分子鐘的假設(shè),在進化分支上,發(fā)生趨異的次數(shù)可以不同。與非加權(quán)分組平均法相比,鄰近歸并法在算法上相對較復雜,它跟蹤的是樹上的節(jié)點而不是分類單元。4、鄰接法(NeighborJoiningMethod)基本思想是:進行類的合并時,不僅要求待合并的類是相近的,同時,還要求待合并的類遠離其它的類。在聚類過程中,根據(jù)原始距離矩陣,根據(jù)所有節(jié)點間的平均趨異程度,對每兩個節(jié)點間的距離進行調(diào)整,即將每個分類單元的趨異程度標準化,從而形成一個新的距離矩陣。重建時,將距離最小的兩個葉節(jié)點連接起來,合并這兩個葉節(jié)點所代表的分類,形成一個新的分類。在樹中增加一個父節(jié)點,并在距離矩陣中加入新的分類,同時刪除原來的兩個分類。隨后,新增加的父節(jié)點被看成為葉節(jié)點,重復上一次循環(huán)。在每一次循環(huán)過程中,都有兩個葉節(jié)點被一個新的父節(jié)點所取代,兩個類被合成為一個新類。整個循環(huán)直到只剩一個類為止。從所得到的系統(tǒng)發(fā)生樹來看,對于兩個聚在一起的分類單元,其所在的葉節(jié)點到父節(jié)點的距離并不一定相同。定義:鄰居(neighbors)無根樹中,一個節(jié)點所連接的兩個分類群互為鄰居

(1,2);(5,6);(1-2,3);(1-2-3,4)……其中X為連接互為鄰居的類群i,j的內(nèi)部節(jié)點,LiX為類群i到X的分支長度。ACDB123456(1)(2)(3)(4)(1)(2)(2)(6)(7)S:所有分支長度總和在每一次循環(huán)中,都要在樹中尋找兩個分類單元的直接祖先。對于節(jié)點x,到其它節(jié)點的距離dx按下式進行估算:這里dxy是分類x和分類y之間的距離,是動態(tài)更新的距離矩陣D中的元素。為了使所有分支長度的和最?。ɑ蚍Q為最小進化原則),選擇dxy-dx-dy最小的一對節(jié)點x和節(jié)點y進行歸并。算法如下:

(1)初始化(與連鎖聚類算法一樣)(2)循環(huán)對于所有的分類單元x,按公式(6-13)計算dx;選擇一對分類單元x和y,使dxy-dx-dy最??;將x和y歸并為新的類(xy),在樹中添加一個新的節(jié)點,將它與節(jié)點x和y連接,新節(jié)點代表新生成的分類,計算從x和y到新節(jié)點(xy)的分支長度;dx,(xy)

=1/2dx,y+1/2(dx-dy),dy,(xy)

=1/2dx,y+1/2(dy-dx)計算新類(xy)與其它類u的距離;d(xy),u=1/2(dx,u+dy,u-dx,y)刪除聚類x和y,添加新類(xy),更新距離矩陣;如果有兩個以上的分類存在,則繼續(xù)執(zhí)行循環(huán),否則合并剩余的兩個類,并且連接這兩個類。例子已知距離矩陣:

表6.46個分類單元的距離矩陣

ABCDEB5

C47

D7107

E6965

F811898首先分別用6個葉節(jié)點代表分類單元,計算每個節(jié)點到其它節(jié)點的距離:dA=5+4+7+6+8=30/4=7.5;dB=5+7+10+9+11=42/4=10.5;dC

=4+7+7+6+8=32/4=8;dD

=7+10+7+5+9=36/4=9.5;dE

=6+9+6+5+8=34/4=8.5;dF

=8+11+8+9+8=44/4=11第一次歸并時,選擇使Dxy-dx-dy最小的一對分類單元x=A和y=B,將這兩個鄰近的單元歸并,以一個新節(jié)點(xy)代表,同時計算(xy)到x和y所在節(jié)點的距離:

dx,(xy)=Dx,(xy)/2+(dx-dy)/2=5/2+(7.5-10.5)/2=1dy,(xy)=Dx,(xy)/2+(dy-dx)/2=5/2+(10.5-7.5)/2=4進一步計算新類與其它類的距離,更新距離矩陣,重復循環(huán)。最終結(jié)果見圖6.8。

CommentsNJ法本質(zhì)上是一種尋找最優(yōu)拓撲結(jié)構(gòu)的譜系聚類算法。同時給出系統(tǒng)發(fā)育樹的拓撲結(jié)構(gòu)以及分支的長度。優(yōu)點:1)、可以較快地構(gòu)建系統(tǒng)樹;2)、適用于分析較大的數(shù)據(jù)集;3)、能夠較方便地進行自展(Bootstrap)檢驗。一般問題:給定n個物種

m個用以描述物種的特征每個物種所對應(yīng)的特征值

構(gòu)建一棵系統(tǒng)發(fā)生樹,使得某個目標函數(shù)最大。二、基于特征的系統(tǒng)發(fā)生樹構(gòu)建方法輸入一般為n×m的特征矩陣M在構(gòu)建系統(tǒng)發(fā)生樹假設(shè)特征是相互獨立的,即一個特征的變化不影響另一個特征。另外,還假設(shè)在進化過程中,兩個物種分叉后獨立進化,互不影響。1、最大簡約法

(MaximumParsimonyMethod)目標:構(gòu)造一棵反映分類單元之間最小變化的系統(tǒng)發(fā)生樹。所謂簡約就是使代價最小。對于系統(tǒng)發(fā)生樹最直觀的代價計算就是沿著各個分支累加特征變化的數(shù)目。

甲乙丙丁戊

節(jié)點1

節(jié)點3

節(jié)點2

根節(jié)點最大簡約法的處理過程:(1)針對待比較的物種,選擇核酸或蛋白質(zhì)序列。有些分子比其它分子變化慢,適合于進行距離分析,例如哺乳類的線粒體DNA、管家蛋白質(zhì)等;(2)比較各個序列,產(chǎn)生序列的多重比對,確定各個序列符號的相對位置;(3)根據(jù)每個序列比對的位置(即多重對比排列的每一列),確定相應(yīng)的系統(tǒng)發(fā)生樹,該樹用最少的進化動作產(chǎn)生序列的差異,最終生成完整的樹。

對于一棵系統(tǒng)發(fā)生樹T

假設(shè)樹中的節(jié)點用V(T)表示, 樹的邊用E(T),以uj、vj分別表示節(jié)點u和v的第j個特征,則樹T的代價為:單特征Fitch算法(Fitch,1971;Hartigan,1973):首先對于每個待分析的物種,分配一個葉節(jié)點v,其值vc取對應(yīng)物種的特征值。然后執(zhí)行下面兩步:(1)給每個節(jié)點v賦予一個集合Sv:如果v是葉節(jié)點,則Sv={vc};如果v是內(nèi)部節(jié)點,并且u、w是其子節(jié)點,如果Su

Sw

,則Sv=Su

Sw;否則S(v)=Su

Sw

。這個過程是從葉節(jié)點開始,直至處理到根節(jié)點。如果用遞歸算法,則應(yīng)該按后序遍歷方式處理每個節(jié)點。(2)給定集合Sv,為每個內(nèi)部節(jié)點v的特征c賦予值vc。如果v有一個父節(jié)點u滿足uc

Sv,則將uc賦予vc,否則任取一個t

Sv賦予vc。這個過程的執(zhí)行方向剛好與上一個過程相反,即從樹根出發(fā),直至葉節(jié)點為止,最后得到完全標定的樹。應(yīng)按前序遍歷方式依次處理每個節(jié)點。

MP法評述MP法適用的問題(1)位點不存在回復突變、平行突變;(2)被分析的序列較長,核苷酸或氨基酸數(shù)目很大;(3)序列的相似度較高;(4)核苷酸或氨基酸替代速率較穩(wěn)定。詳細內(nèi)容請參考《分子進化與系統(tǒng)發(fā)育》(高等教育出版社)ML算法基本思想(Felsenstein,1981;Kishino,1990)以一個特定的替代模型分析一組給定的核苷酸(或氨基酸)序列數(shù)據(jù),使獲得的每一個拓撲結(jié)構(gòu)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論