一步一步教你如何做系統(tǒng)進(jìn)化樹(shù).DOC_第1頁(yè)
一步一步教你如何做系統(tǒng)進(jìn)化樹(shù).DOC_第2頁(yè)
一步一步教你如何做系統(tǒng)進(jìn)化樹(shù).DOC_第3頁(yè)
一步一步教你如何做系統(tǒng)進(jìn)化樹(shù).DOC_第4頁(yè)
一步一步教你如何做系統(tǒng)進(jìn)化樹(shù).DOC_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大家好:我在此介紹幾個(gè)進(jìn)化樹(shù)分析及其相關(guān)軟件的使用和應(yīng)用范圍。這幾個(gè)軟件分別是PHYLIP、PUZZLE、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN(LINUX)。在介紹軟件之前,我先簡(jiǎn)要地?cái)⑹鲆幌掠嘘P(guān)進(jìn)化樹(shù)分析的一些方法學(xué)問(wèn)題。進(jìn)化樹(shù)也稱種系樹(shù),英文名叫“Phyligenetic tree”。對(duì)于一個(gè)完整的進(jìn)化樹(shù)分析需要以下幾個(gè)步驟: 要對(duì)所分析的多序列目標(biāo)進(jìn)行排列(To align sequences)。做ALIGNMENT的軟件很多,最經(jīng)常使用的有CLUSTALX和CLUSTALW,前者是在WINDOW下的而后者是在DOS下的。 要構(gòu)建一個(gè)進(jìn)化樹(shù)(To reconstrut phyligenetic tree)。構(gòu)建進(jìn)化樹(shù)的算法主要分為兩類:獨(dú)立元素法(discrete character methods)和距離依靠法(distance methods)。所謂獨(dú)立元素法是指進(jìn)化樹(shù)的拓?fù)湫螤钍怯尚蛄猩系拿總€(gè)堿基/氨基酸的狀態(tài)決定的(例如:一個(gè)序列上可能包含很多的酶切位點(diǎn),而每個(gè)酶切位點(diǎn)的存在與否是由幾個(gè)堿基的狀態(tài)決定的,也就是說(shuō)一個(gè)序列堿基的狀態(tài)決定著它的酶切位點(diǎn)狀態(tài),當(dāng)多個(gè)序列進(jìn)行進(jìn)化樹(shù)分析時(shí),進(jìn)化樹(shù)的拓?fù)湫螤钜簿陀蛇@些堿基的狀態(tài)決定了)。而距離依靠法是指進(jìn)化樹(shù)的拓?fù)湫螤钣蓛蓛尚蛄械倪M(jìn)化距離決定的。進(jìn)化樹(shù)枝條的長(zhǎng)度代表著進(jìn)化距離。獨(dú)立元素法包括最大簡(jiǎn)約性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距離依靠法包括除權(quán)配對(duì)法(UPGMAM)和鄰位相連法(Neighbor-joining)。 對(duì)進(jìn)化樹(shù)進(jìn)行評(píng)估。主要采用Bootstraping法。進(jìn)化樹(shù)的構(gòu)建是一個(gè)統(tǒng)計(jì)學(xué)問(wèn)題。我們所構(gòu)建出來(lái)的進(jìn)化樹(shù)只是對(duì)真實(shí)的進(jìn)化關(guān)系的評(píng)估或者模擬。如果我們采用了一個(gè)適當(dāng)?shù)姆椒?,那么所?gòu)建的進(jìn)化樹(shù)就會(huì)接近真實(shí)的“進(jìn)化樹(shù)”。模擬的進(jìn)化樹(shù)需要一種數(shù)學(xué)方法來(lái)對(duì)其進(jìn)行評(píng)估。不同的算法有不同的適用目標(biāo)。一般來(lái)說(shuō),最大簡(jiǎn)約性法適用于符合以下條件的多序列:i 所要比較的序列的堿基差別小,ii 對(duì)于序列上的每一個(gè)堿基有近似相等的變異率,iii 沒(méi)有過(guò)多的顛換/轉(zhuǎn)換的傾向,iv 所檢驗(yàn)的序列的堿基數(shù)目較多(大于幾千個(gè)堿基);用最大可能性法分析序列則不需以上的諸多條件,但是此種方法計(jì)算極其耗時(shí)。如果分析的序列較多,有可能要花上幾天的時(shí)間才能計(jì)算完畢。UPGMAM(Unweighted pair group method with arithmetic mean)假設(shè)在進(jìn)化過(guò)程中所有核苷酸/氨基酸都有相同的變異率,也就是存在著一個(gè)分子鐘。這種算法得到的進(jìn)化樹(shù)相對(duì)來(lái)說(shuō)不是很準(zhǔn)確,現(xiàn)在已經(jīng)很少使用。鄰位相連法是一個(gè)經(jīng)常被使用的算法,它構(gòu)建的進(jìn)化樹(shù)相對(duì)準(zhǔn)確,而且計(jì)算快捷。其缺點(diǎn)是序列上的所有位點(diǎn)都被同等對(duì)待,而且,所分析的序列的進(jìn)化距離不能太大。另外,需要特別指出的是對(duì)于一些特定多序列對(duì)象來(lái)說(shuō)可能沒(méi)有任何一個(gè)現(xiàn)存算法非常適合它。最好是我們來(lái)發(fā)展一個(gè)更好的算法來(lái)解決它。但無(wú)疑這是非常難的。我想如果有人能建立這樣一個(gè)算法的話,那他(她)完全可以在Proc.Natl.Acad.Sci.USA.上發(fā)一篇高質(zhì)量的文章。 下面介紹幾個(gè)軟件的使用。首先是PHYLIP。其是多個(gè)軟件的壓縮包,下載后雙擊則自動(dòng)解壓。當(dāng)你解壓后就揮發(fā)現(xiàn)PHYLIP的功能極其強(qiáng)大,主要包括五個(gè)方面的功能軟件:i,DNA和蛋白質(zhì)序列數(shù)據(jù)的分析軟件。ii,序列數(shù)據(jù)轉(zhuǎn)變成距離數(shù)據(jù)后,對(duì)距離數(shù)據(jù)分析的軟件。 iii,對(duì)基因頻率和連續(xù)的元素分析的軟件。iv,把序列的每個(gè)堿基/氨基酸獨(dú)立看待(堿基/氨基酸只有0和1的狀態(tài))時(shí),對(duì)序列進(jìn)行分析的軟件。v,按照DOLLO簡(jiǎn)約性算法對(duì)序列進(jìn)行分析的軟件。vi,繪制和修改進(jìn)化樹(shù)的軟件。在此,我主要對(duì)前兩種功能軟件進(jìn)行說(shuō)明。 我們現(xiàn)在有幾個(gè)序列如下:Mo3 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGCACGGTACCATMo5 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATMo6 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATMo7 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCATMo8 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCATMo9 ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATMo12 ATGTATTTCGTACATTACTG CCAGCCACCATGAATATTGTACGGTACCATMo13 ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT要對(duì)這8個(gè)序列進(jìn)行進(jìn)化樹(shù)分析,按照上面的步驟,首先用CLUSTALX排列序列,輸出格式為 *.PHY。用記事本打開(kāi)如下圖:圖中的8和50分別表示8個(gè)序列和每個(gè)序列有50個(gè)堿基。然后,打開(kāi)軟件SEQBOOT,如下圖:按路徑輸入剛才生成的 *.PHY文件,并在Random number seed (must be odd) ?的下面輸入一個(gè)4N+1的數(shù)字后,屏幕顯示如下:圖中的D、J、R、I、O、1、2代表可選擇的選項(xiàng),鍵入這些字母,程序的條件就會(huì)發(fā)生改變。D選項(xiàng)無(wú)須改變。J選項(xiàng)有三種條件可以選擇,分別是Bootstrap、Jackknife和Permute。文章上面提到用Bootstraping法對(duì)進(jìn)化樹(shù)進(jìn)行評(píng)估,所謂Bootstraping法就是從整個(gè)序列的堿基(氨基酸)中任意選取一半,剩下的一半序列隨機(jī)補(bǔ)齊組成一個(gè)新的序列。這樣,一個(gè)序列就可以變成了許多序列。一個(gè)多序列組也就可以變成許多個(gè)多序列組。根據(jù)某種算法(最大簡(jiǎn)約性法、最大可能性法、除權(quán)配對(duì)法或鄰位相連法)每個(gè)多序列組都可以生成一個(gè)進(jìn)化樹(shù)。將生成的許多進(jìn)化樹(shù)進(jìn)行比較,按照多數(shù)規(guī)則(majority-rule)我們就會(huì)得到一個(gè)最“逼真”的進(jìn)化樹(shù)。Jackknife則是另外一種隨機(jī)選取序列的方法。它與Bootstrap法的區(qū)別是不將剩下的一半序列補(bǔ)齊,只生成一個(gè)縮短了一半的新序列。Permute是另外一種取樣方法,其目的與Bootstrap和Jackknife法不同,這里不再介紹。R選項(xiàng)讓使用者輸入republicate的數(shù)目。所謂republicate就是用Bootstrap法生成的一個(gè)多序列組。根據(jù)多序列中所含的序列的數(shù)目的不同可以選取不同的republicate。當(dāng)我們?cè)O(shè)置好條件后,鍵入Y按回車。得到一個(gè)文件outfile Outfile用記事本打開(kāi)如下:這個(gè)文件包括了100個(gè)republicate。打開(kāi)DNAPARS(最大簡(jiǎn)約性法)或DNAML(最大可能性法)軟件。將剛才生成的outfile文件更名后輸入。如下圖:選項(xiàng)O是讓使用者設(shè)定一個(gè)序列作為outgroup。一般選擇一個(gè)親緣關(guān)系與所分析序列組很接近的序列作為outgroup(本例子不選outgroup),outgroup選擇的好壞將直接影響到最后的進(jìn)化樹(shù)的好壞。選項(xiàng)M是輸入剛才設(shè)置的republicate的數(shù)目。設(shè)置好條件后,鍵入Y按回車。生成兩個(gè)文件outfile和treefile。Outfile打開(kāi)如下圖:該文件包括了227個(gè)進(jìn)化樹(shù)。Treefile可以用TREEVIEW軟件打開(kāi)同樣包含了這227個(gè)進(jìn)化樹(shù)。打開(kāi)CONSENSE軟件,將剛才生成的treefile文件更名后輸入。如下圖:鍵入Y按回車。生成兩個(gè)文件outfile和treefile。Treefile用TREEVIEW打開(kāi),如下圖:Outfile打開(kāi)如下圖:我們看出兩個(gè)樹(shù)是同樣的。但在outfile的樹(shù)上的數(shù)字表示該枝條的Bootstrap支持率(除以100.6)。到現(xiàn)在,8個(gè)序列的進(jìn)化樹(shù)分析(最大簡(jiǎn)約法)已經(jīng)完成。 如果要用鄰位相連法對(duì)這8個(gè)序列進(jìn)行分析的話,也首先執(zhí)行SEQBOOT軟件將這8個(gè)序列變成100個(gè)republicate。然后,打開(kāi)DNADIST軟件,把SEQBOOT生成的文件輸入,如下圖:選項(xiàng)D有四種距離模式可以選擇,分別是Kimura 2-parameter、Jin/Nei、Maximum-likelihood和Jukes-Cantor。選項(xiàng)T一般鍵入一個(gè)15-30之間的數(shù)字。選項(xiàng)M鍵入100。運(yùn)行后生成文件如下圖:這個(gè)文件包含了與輸入文件相同的100個(gè)republicate,只不過(guò)每個(gè)republicate是以兩兩序列的進(jìn)化距離來(lái)表示。文件中的每個(gè)republicate都省略了第一排的Mo3 Mo5 Mo6 Mo7 Mo8 Mo9 Mo12 Mo13。以這個(gè)輸出文件為輸入文件,執(zhí)行NEIGHBOR軟件。如下圖:選項(xiàng)M鍵入100。生成兩個(gè)文件outfile和treefile用記事本和TREEVIEW打開(kāi)后,發(fā)現(xiàn)這兩個(gè)文件都含有100個(gè)進(jìn)化樹(shù)。再將treefile文件更名后輸入CONSENSE軟件,又得到兩個(gè)文件outfile和treefile,這就是最后的結(jié)果。以上是對(duì)DNA序列的分析,如果要對(duì)蛋白質(zhì)序列進(jìn)行分析,PROTDIST、PROTPARS等軟件。其他軟件的用法可以參照PHYLIP的documents。下面介紹PUZZLE軟件。它是用最大可能性的方法來(lái)構(gòu)建進(jìn)化樹(shù)的一個(gè)軟件,并且對(duì)樹(shù)進(jìn)行bootstrap評(píng)估。該軟件搜尋進(jìn)化樹(shù)時(shí)用的算法是quartet puzzling,這個(gè)算法相對(duì)較快,但如要分析的序列較多時(shí),也相當(dāng)耗時(shí)。另有LINUX版,運(yùn)行起來(lái)相對(duì)較快。PUZZLE的輸入格式為PHYLIP INTERLEAVED

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論