系統(tǒng)進(jìn)化樹(shù)的構(gòu)建方法與軟件應(yīng)用.ppt_第1頁(yè)
系統(tǒng)進(jìn)化樹(shù)的構(gòu)建方法與軟件應(yīng)用.ppt_第2頁(yè)
系統(tǒng)進(jìn)化樹(shù)的構(gòu)建方法與軟件應(yīng)用.ppt_第3頁(yè)
系統(tǒng)進(jìn)化樹(shù)的構(gòu)建方法與軟件應(yīng)用.ppt_第4頁(yè)
系統(tǒng)進(jìn)化樹(shù)的構(gòu)建方法與軟件應(yīng)用.ppt_第5頁(yè)
已閱讀5頁(yè),還剩31頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

系統(tǒng)進(jìn)化樹(shù)的構(gòu)建方法與軟件應(yīng)用,姓名:張鏡懸 E-mail:J.,什么是系統(tǒng)進(jìn)化樹(shù),系統(tǒng)進(jìn)化樹(shù)又稱為演化樹(shù),是表明被認(rèn)為具有共同祖先的各物種間演化關(guān)系的樹(shù).在樹(shù)中每個(gè)節(jié)點(diǎn)代表其各個(gè)分支的最近共同祖先,而節(jié)點(diǎn)的線段長(zhǎng)度對(duì)應(yīng)了其演化的距離。 (/wiki/Phylogenetic_tree),直系同源和旁系同源,直系同源:同源的基因是由共同的祖先基因進(jìn)化而產(chǎn)生的。 旁系同源:同源的基因是由于基因復(fù)制產(chǎn)生的。 這也就告訴我們用于分子進(jìn)化分析中的序列必須是直系同源的才可以真實(shí)的反映其進(jìn)化的過(guò)程。,系統(tǒng)進(jìn)化樹(shù)的分類,根據(jù)樹(shù)是否有根,進(jìn)化樹(shù)可以分為有根樹(shù)和無(wú)根樹(shù)兩類。,有根樹(shù)和無(wú)根樹(shù)的進(jìn)化層面上的意義,有根樹(shù)反應(yīng)了樹(shù)上物種或者基因進(jìn)化的時(shí)間順序,通過(guò)分析有根樹(shù)的長(zhǎng)度,可以了解不同的物種或者基因以什么方式和速率進(jìn)化。 無(wú)根樹(shù)只反映分類單元之間的距離,而不涉及誰(shuí)是誰(shuí)的祖先問(wèn)題 做有根樹(shù)需要指定outgroup。所謂out group , 就是你所分析的東西之外的一個(gè)group。比如你分析人類的不同人種,就選個(gè)chimpanzee,你要分析哺乳動(dòng)物,就選個(gè)鱷魚(yú)烏龜之類,總之保證它在 你要分析的group之外,但又不太遠(yuǎn)就行了。將你選定的東西指定為outgroup,做出來(lái)的樹(shù)就是有根樹(shù)。out group可以不只一個(gè),它是一個(gè)group。,系統(tǒng)進(jìn)化樹(shù)的結(jié)構(gòu),node,branch,進(jìn)化樹(shù)的結(jié)構(gòu)主要分為三部分: 樹(shù)葉 樹(shù)枝 節(jié)點(diǎn) 其中我們把從同一個(gè)節(jié)點(diǎn)上分出的兩個(gè)分支叫做sister group. Sister group 從結(jié)構(gòu)上可以理解為從進(jìn)化史上看兩者非常接近,其次兩者擁有唯一的共同的祖先。,系統(tǒng)進(jìn)化樹(shù)的結(jié)構(gòu),c,d,b,a,d,c,b,a,d,b,c,a,從結(jié)構(gòu)上看,我們認(rèn)為這三個(gè)樹(shù)是等價(jià)的,構(gòu)建系統(tǒng)進(jìn)化樹(shù)的理論方法,最大簡(jiǎn)約法(maximum parsimony,MP)最早源于形態(tài)性狀研究,現(xiàn)在已經(jīng)推廣到分子序列的進(jìn)化分析中。最大簡(jiǎn)約法的理論基礎(chǔ)是奧卡姆哲學(xué)原則,這個(gè)原則認(rèn)為:解釋一個(gè)過(guò)程的最好理論是所需假設(shè)數(shù)目最少的那一個(gè)。對(duì)所有可能的拓?fù)浣Y(jié)構(gòu)進(jìn)行計(jì)算,并計(jì)算出所需替代數(shù)最小的那個(gè)拓?fù)浣Y(jié)構(gòu),作為最優(yōu)樹(shù)。 優(yōu)點(diǎn):最大簡(jiǎn)約法對(duì)于分析某些特殊的分子數(shù)據(jù)如插入、缺失等序列有用。在分析的序列位點(diǎn)上沒(méi)有回復(fù)突變或平行突變,且被檢驗(yàn)的序列位點(diǎn)數(shù)很大的時(shí)候,最大簡(jiǎn)約法能夠推導(dǎo)獲得一個(gè)很好的進(jìn)化樹(shù)。 缺點(diǎn):在分析序列上存在較多 的回復(fù)突變或平行突變,而被檢驗(yàn)的序列位點(diǎn)數(shù)又比較少的時(shí)候,最大簡(jiǎn)約法可能會(huì)給出一個(gè)不合理的或者錯(cuò)誤的進(jìn)化樹(shù)推導(dǎo)結(jié)果。,構(gòu)建系統(tǒng)進(jìn)化樹(shù)的理論方法,最大似然法(maximum likelihood,ML) 最早應(yīng)用于系統(tǒng)發(fā)育分析是在對(duì)基因頻率數(shù)據(jù)的分析上,后來(lái)基于分子序列的分析中也已經(jīng)引入了最大似然法的分析方法。當(dāng)樣本量很大的時(shí)候,似然法可以獲得參數(shù)統(tǒng)計(jì)的最小方差。 最大似然法分析中,選取一個(gè)特定的替代模型來(lái)分析給定的一組序列數(shù)據(jù),使得獲得的每一個(gè)拓?fù)浣Y(jié)構(gòu)的似然率都為最大值,然后再挑出其中似然率最大的拓?fù)浣Y(jié)構(gòu) 作為最優(yōu)樹(shù)。 最大似然進(jìn)化模型 簡(jiǎn)單假設(shè)所有核苷酸(或者氨基酸)之間相互轉(zhuǎn)變的概率是一樣的 程序會(huì)把所有可能的核苷酸輪流置于進(jìn)化樹(shù)的內(nèi)部節(jié)點(diǎn)上,并且計(jì)算每個(gè)這樣的序列產(chǎn)生實(shí)際數(shù)據(jù)的可能性。 所有可能再現(xiàn)的幾率被加總,產(chǎn)生一個(gè)特定點(diǎn)的似然值,然后這個(gè)數(shù)據(jù)集的所有比對(duì)位點(diǎn)的似然值的加和就是整個(gè)進(jìn)化樹(shù)的似然值。,構(gòu)建系統(tǒng)進(jìn)化樹(shù)的理論方法,鄰近法(Neighbor-Joining Method,NJ ) 該方法通過(guò)確定距離最近(或相鄰)的成對(duì)分類單位來(lái)使系統(tǒng)樹(shù)的總距離達(dá)到最小。相鄰是指兩個(gè)分類單位在某一無(wú)根分叉樹(shù)中僅通過(guò)一個(gè)節(jié)點(diǎn)(node)相連。通過(guò)循序地將相鄰點(diǎn)合并成新的點(diǎn),就可以建立一個(gè)相應(yīng)的拓?fù)錁?shù)。,構(gòu)建系統(tǒng)進(jìn)化樹(shù)的所涉及的工具,PHYLIP MEGA R Matlab BioEdit TreeView PHYML ClustalX,構(gòu)建系統(tǒng)進(jìn)化樹(shù)的所涉及的工具,構(gòu)建系統(tǒng)進(jìn)化樹(shù)的所涉及的工具,構(gòu)建樹(shù),可以用PHYLIP或者M(jìn)EGA 構(gòu)建MP樹(shù),可以使用PHYLIP或者M(jìn)EGA 構(gòu)建ML樹(shù)可以使用PHYML,速度快,同時(shí)構(gòu)建ML樹(shù)還可以用PHYLIP,或者可以使用BioEdit 貝葉斯的算法以MrBayes為代表,不過(guò)速度比較慢 關(guān)于系統(tǒng)發(fā)育分析的更多知識(shí)請(qǐng)參閱: /biology/bioinfo2/78842.shtml,軟件的選擇,構(gòu)建系統(tǒng)進(jìn)化樹(shù)的主要步驟,大體來(lái)說(shuō)構(gòu)建系統(tǒng)進(jìn)化樹(shù)的步驟有三步: 序列比對(duì) (ClustalX2),構(gòu)建系統(tǒng)進(jìn)化樹(shù)的主要步驟,2. 掐頭去尾 選取所需序列 轉(zhuǎn)換格式(BioEdit or ClustalX2),Example:,3. 利用相關(guān)軟件繪制系統(tǒng)進(jìn)化樹(shù)(BioEdit,MEGA),實(shí)例講解,下面的內(nèi)容將教大家如何來(lái)構(gòu)建自己的系統(tǒng)進(jìn)化樹(shù)。 首先我們需要弄清楚一個(gè)很重要的問(wèn)題,什么是Fasta 格式?,在生物信息學(xué)中,F(xiàn)ASTA格式(又稱為Pearson格式),是一種基于文本用于表示核苷酸序列或氨基酸序列的格式。在這種格式中堿基對(duì)或氨基酸用單個(gè)字母來(lái)編碼,且允許在序列前添加序列名及注釋。序列文件的第一行是由大于號(hào)“”或分號(hào)“;”打頭的任意文字說(shuō)明(習(xí)慣常用“”作為起始),用于序列標(biāo)記。從第二行開(kāi)始為序列本身,只允許使用既定的核苷酸或氨基酸編碼符號(hào)。,構(gòu)建我們自己的Fasta 文件,很多情況下,F(xiàn)asta文件是直接可以從數(shù)據(jù)庫(kù)中下載得到的,但是根據(jù)實(shí)際要求的不同,有時(shí)候我們需要自己構(gòu)建Fasta文件,如果您已近有了想用來(lái)構(gòu)建進(jìn)化樹(shù)的序列,您可以如右圖所示構(gòu)建自己的文件,文件的保存格式是: 文件名.txt,實(shí)例講解,下面我們以禽流感病毒為例,構(gòu)建系統(tǒng)進(jìn)化樹(shù)。 首先我們要下載我們所需的序列。 /genomes/FLU/Database/nph-select.cgi?go=genomeset,實(shí)例講解,請(qǐng)?jiān)贒efine search set: 中選擇我們想要的禽流感病毒的Type, Host, Country/Region, Subtype.,這里我們選在了A型禽流感病毒,當(dāng)然在這次練習(xí)中您喜歡的任意類型。,實(shí)例講解,請(qǐng)?jiān)贒efine search set: 中選擇我們想要的禽流感病毒的Type, Host, Country/Region, Subtype.,這里我們選在了A型禽流感病毒,當(dāng)然在這次練習(xí)中您喜歡的任意類型。當(dāng)您確定之后請(qǐng)點(diǎn)擊 Show results,實(shí)例講解,當(dāng)您點(diǎn)擊完 Show results 之后你要做的就是選在我們所需的序列了,實(shí)例講解,因?yàn)榍萘鞲胁《静幌駝e的很多別的病毒只有核苷酸序列,它擁有八個(gè)或者七個(gè)Negative -sense RNA。,實(shí)例講解,這里我們只要選中其中一種就可以了,比如說(shuō),我們可以選擇個(gè)樣本來(lái)構(gòu)建系統(tǒng)進(jìn)化樹(shù)。樣本選擇完之后請(qǐng)點(diǎn)擊Download, 文件類型選擇Nucleotide (Fasta),并把文件保存在計(jì)算機(jī)您熟悉的地方。(當(dāng)然根據(jù)需求的不同您也可以選在蛋白序列),實(shí)例講解,文件下載完之后,下載的Fasta 文件直接用 ClustalX 2.0.12打開(kāi),實(shí)例講解,在進(jìn)行多序列比對(duì)之前我們需要對(duì)軟件進(jìn)行一些設(shè)置,1.選擇Alignment標(biāo)簽 2.選擇Output format options,請(qǐng)將Clustalw sequences numbers選項(xiàng)設(shè)置為 On 之后點(diǎn)擊 Ok ,在返回主界面之后請(qǐng)點(diǎn)擊Alignment 標(biāo)簽選擇 Do Complete Alignment選項(xiàng),選擇保存路徑之后點(diǎn)擊ok,剩下的時(shí)間可以去喝點(diǎn)咖啡休息一下。,實(shí)例講解,從圖中我們可以發(fā)現(xiàn)起始序列最短的是從位置22開(kāi)始的,而尾端序列最短的是在位置1738,通過(guò)設(shè)置我們可以保存這樣一批已經(jīng)經(jīng)過(guò)掐頭去尾后的序列,保存格式為:文件名.aln。當(dāng)然我們也可以直接保存為Fasta format, 如果選擇前者我們需要用BioEdit轉(zhuǎn)換格式,如果是后者我們可以直接進(jìn)入建樹(shù)階段。,點(diǎn)擊主界面中的 File標(biāo)簽選擇 Save as選項(xiàng),并按照例子設(shè)置參數(shù),實(shí)例講解,經(jīng)過(guò)ClustalX2掐頭去尾后的序列可以用BioEdit軟件打開(kāi),選擇FileSave as保存類型為:文件名.fasta. 當(dāng)我們查詢結(jié)果的時(shí)候可以發(fā)現(xiàn)這和用ClustalX2保存的fasta文件是一致的。,實(shí)例講解,下一步我們將介紹如何用MEGA構(gòu)建我們的進(jìn)化樹(shù),首先請(qǐng)大家用MEGA軟件將我們之前保留的Fasta文件打開(kāi)。,實(shí)例講解,下一步我們將介紹如何用MEGA構(gòu)建我們的進(jìn)化樹(shù),首先請(qǐng)大家用MEGA軟件將我們之前保留的Fasta文件打開(kāi)這時(shí)候會(huì)有兩個(gè)窗口,選擇File標(biāo)簽Convert file format to Mega.,實(shí)例講解,選擇File標(biāo)簽Convert file format to Mega.,當(dāng)給出相應(yīng)的文件路徑之后點(diǎn)擊ok ,然后制定輸出文件格式:文件名.meg,實(shí)例講解,雙擊剛才保存的meg文件.,選擇數(shù)據(jù)類型,在本次測(cè)試中我們用的是核苷酸序列,對(duì)于右邊的參數(shù)信息請(qǐng)點(diǎn)擊help按鈕。,更具實(shí)際的情況我們這里選擇No選項(xiàng),實(shí)例講解,下一步進(jìn)入建樹(shù)的最后階段,在Plylogeny中選擇建樹(shù)方法,這里我們選擇NJ法。,參數(shù)設(shè)置好之后點(diǎn)擊compute.,蛋白質(zhì)序列一般選擇Poisson Correction(泊松校正),對(duì)于核苷酸序列一般采用Kimura-2模型,實(shí)例講解,根據(jù)Mega的計(jì)算最終我們得到了序列中的進(jìn)化關(guān)系。,Mega軟件還可以自動(dòng)提供一份簡(jiǎn)要的分析報(bào)告,你只需要點(diǎn)擊Caption按鈕報(bào)告便可以自動(dòng)生成。,如果Bootstrap Value 70我們認(rèn)為這個(gè)分支是可靠的,進(jìn)化樹(shù)評(píng)估優(yōu)化方法簡(jiǎn)介:常用的兩種方法就是Bootstrap和Jackknife。 所謂Bootstraping法 就是從整個(gè)序列的堿基(氨基酸)中任意選取一半,剩下的一半序列隨機(jī)補(bǔ)齊組成一個(gè)新的序列。這樣,一個(gè)序列就可以變成了許多序列,一個(gè)多序列組也就可以變 成許多個(gè)多序列組。根據(jù)某種算法(最大簡(jiǎn)約性法、最大可能性法、鄰位相連法)每個(gè)多序列組都可以生成一個(gè)進(jìn)化樹(shù)。將生成的許多進(jìn)化樹(shù)進(jìn)行比 較,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論