




已閱讀5頁(yè),還剩58頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
20 04 2020 1 第五章 序列的同源比較及分子系統(tǒng)學(xué)和分子進(jìn)化分析 第一節(jié) 簡(jiǎn)介第二節(jié) 相似序列的獲得第三節(jié) 多序列比對(duì)第四節(jié) 系統(tǒng)發(fā)育分析第五節(jié) 其他分子標(biāo)記在生物系統(tǒng)學(xué)中的應(yīng)用 20 04 2020 2 第一節(jié) 簡(jiǎn)介 生物學(xué)研究中常用的方法之一是通過(guò)比較分析獲得有用的信息 過(guò)去進(jìn)化學(xué)家和分類(lèi)學(xué)家為衡量物種間親緣關(guān)系的密切程度 花大量的精力把形態(tài)學(xué)特征數(shù)量化 希望以量化的形態(tài)學(xué)差異來(lái)表示物種間進(jìn)化距離 但工作量大 標(biāo)準(zhǔn)不統(tǒng)一 導(dǎo)致進(jìn)展緩慢 現(xiàn)如今 以大量公開(kāi)的核酸和蛋白質(zhì)數(shù)據(jù)為基礎(chǔ) 利用序列分析的計(jì)算機(jī)軟件構(gòu)建生物進(jìn)化樹(shù)來(lái)研究各物種間的進(jìn)化關(guān)系 20 04 2020 3 在本章里研究進(jìn)化關(guān)系所用的軟件 我們?cè)趹?yīng)用這些軟件時(shí)會(huì)遇到很多專(zhuān)業(yè)術(shù)語(yǔ)和應(yīng)用的計(jì)算機(jī)程序 這些陌生的術(shù)語(yǔ)對(duì)于初學(xué)者的我們沒(méi)必要搞清 只要會(huì)用就可以了 但要做出非常專(zhuān)業(yè)的進(jìn)化分析則必須搞清每個(gè)專(zhuān)業(yè)術(shù)語(yǔ)的含義 構(gòu)建系統(tǒng)樹(shù)有很多的方法和步驟 我們會(huì)逐步學(xué)習(xí) 但不管采用什么樣的方法 都有一些值得注意的問(wèn)題 20 04 2020 4 第二節(jié) 相似序列的獲得 對(duì)一段序列進(jìn)行進(jìn)化分析的基礎(chǔ)是獲得此序列大量的同源序列 包括同一物種和不同物種之間 當(dāng)序列有足夠的相似性性 我們才能推斷序列之間是否具有同源性 同源性的判斷是質(zhì)的判斷 進(jìn)化分析是量的結(jié)果 兩者之間如何進(jìn)行統(tǒng)一 就是要有假設(shè) 當(dāng)序列之間相似性超過(guò)一個(gè)值時(shí) 認(rèn)為其是同源的 序列相似的原因有兩個(gè) 一是來(lái)自于同一祖先 然后發(fā)生分歧 二是兩個(gè)序列來(lái)自于不同的祖先 在相似的選擇壓力下發(fā)生趨同進(jìn)化 形成相似序列 20 04 2020 5 三 VASTVAST是NCBI的相似結(jié)構(gòu)搜索工具 它將一個(gè)新的蛋白質(zhì)三維結(jié)構(gòu)與PDB或MMDB數(shù)據(jù)庫(kù)中的結(jié)構(gòu)進(jìn)行比較 通過(guò)結(jié)構(gòu)比較 可以發(fā)現(xiàn)通過(guò)序列比較而無(wú)法發(fā)現(xiàn)的遠(yuǎn)程同源蛋白質(zhì) VAST算法是基于統(tǒng)計(jì)以下的結(jié)構(gòu)相似性比較算法 VAST在評(píng)價(jià)結(jié)構(gòu)相似顯著性時(shí) 不過(guò)多的考慮微小子結(jié)構(gòu)因偶然因素而形成的相似關(guān)系 而是著重考慮結(jié)構(gòu)域的相似性 http www ncbi nlm nih gov structure VAST 20 04 2020 6 VAST的比較有三個(gè)步驟 首先 在數(shù)據(jù)坐標(biāo)的基礎(chǔ)上 標(biāo)出所有構(gòu)成蛋白質(zhì)核心部分的 螺旋和 片層 然后根據(jù)這些二級(jí)結(jié)構(gòu)單位的位置計(jì)算向量 使用這些向量進(jìn)行結(jié)構(gòu)比對(duì)而不是整個(gè)一套坐標(biāo) 然后算法試圖最佳地匹配這些向量 尋找類(lèi)型和相對(duì)方向相同的成對(duì)結(jié)構(gòu)單位 并且在這些單位之間還要有同樣的連接方式 最后 在每個(gè)殘基位置上使用蒙特卡洛方法對(duì)結(jié)構(gòu)的比對(duì)進(jìn)行優(yōu)化 1LFL 20 04 2020 7 第三節(jié) 多序列比對(duì) 用于多序列比對(duì)的程序開(kāi)發(fā)是一個(gè)很活躍的領(lǐng)域 目前 絕大多數(shù)的方法均是基于漸進(jìn)比對(duì)的概念 漸進(jìn)比對(duì)的方法假設(shè)了參與比對(duì)的序列存在親緣關(guān)系 在算法上下功夫 以尋求計(jì)算速度與獲得最佳比對(duì)之間的平衡 一 CLUSTAL W 20 04 2020 8 CLUSTAL是一個(gè)單機(jī)版的基于漸進(jìn)比對(duì)的多序列比對(duì)工具 由HigginsD G 等開(kāi)發(fā) 有應(yīng)用于多種操作系統(tǒng)平臺(tái)的版本 包括linux版 DOS版的clustlw clustalx等 CLUSTAL是一種漸進(jìn)的比對(duì)方法 先將多個(gè)序列兩兩比對(duì)構(gòu)建距離矩陣 反應(yīng)序列之間兩兩關(guān)系 然后根據(jù)距離矩陣計(jì)算產(chǎn)生系統(tǒng)進(jìn)化指導(dǎo)樹(shù) 對(duì)關(guān)系密切的序列進(jìn)行加權(quán) 然后從最緊密的兩條序列開(kāi)始 逐步引入臨近的序列并不斷重新構(gòu)建比對(duì) 直到所有序列都被加入為止 20 04 2020 9 CLUSTAL W工作原理 Clustal輸入多個(gè)序列 快速的序列兩兩比對(duì) 計(jì)算序列間的距離 獲得一個(gè)距離矩陣 鄰接法 NJ 構(gòu)建一個(gè)樹(shù) 引導(dǎo)樹(shù) 根據(jù)引導(dǎo)樹(shù) 漸進(jìn)比對(duì)多個(gè)序列 20 04 2020 10 CLUSTAL W應(yīng)用 1 輸入輸出格式 輸入序列的格式比較靈活 可以是前面介紹過(guò)的FASTA格式 還可以是PIR SWISS PROT GDE Clustal GCG MSF RSF等格式 輸出格式也可以選擇 有ALN GCG PHYLIP和NEXUS等 用戶可以根據(jù)自己的需要選擇合適的輸出格式 20 04 2020 11 2 兩種工作模式 a 多序列比對(duì)模式 b 剖面 profile 比對(duì)模式 3 一個(gè)實(shí)際的例子 CLUSTAL W的應(yīng)用 20 04 2020 12 多序列比對(duì)實(shí)例步驟 輸入文件的格式 fasta KCC2 YEASTNYIFGRTLGAGSFGVVRQARKLSTN DMK HUMANDFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK KPRO MAIZETRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN DAF1 CAEELQIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD 1CSNHYKVGRRIGEGSFGVIFEGTNLLNN 20 04 2020 13 第一步 輸入序列文件 20 04 2020 14 第二步 設(shè)定比對(duì)的一些參數(shù) 20 04 2020 15 第三步 開(kāi)始序列比對(duì) 第三步 開(kāi)始序列比對(duì) 20 04 2020 16 第四步 比對(duì)完成 選擇保存結(jié)果文件的格式 第四步 比對(duì)完成 選擇保存結(jié)果文件的格式 20 04 2020 17 二 BioEditBioEdit程序非常適合序列比對(duì) 編輯和分析 是基于Windows平臺(tái)的一種比對(duì)程序 目前應(yīng)用最多 可免費(fèi)下載 BioEdit具體用法見(jiàn)三 MultAlinMultAlin從一系列的兩聯(lián)比對(duì)開(kāi)始 得到分值 然后根據(jù)這個(gè)分值進(jìn)行分層次的聚類(lèi) http multalin toulouse inra fr multalin multalin html四 GCG數(shù)據(jù)庫(kù)GCG軟件是一套蛋白質(zhì) 核酸序列分析軟件 20 04 2020 18 GCG支持五種數(shù)據(jù)庫(kù)供Wisconsin軟件包使用 其中包括兩種核酸數(shù)據(jù)庫(kù) GenBank數(shù)據(jù)庫(kù) 由GenBank中沒(méi)有的序列組成的簡(jiǎn)化版的EMBL核酸序列數(shù)據(jù)庫(kù) 和三種蛋白質(zhì)數(shù)據(jù)庫(kù) PIR Swiss Prot SP TrEMBL數(shù)據(jù)庫(kù) GCG支持的數(shù)據(jù)庫(kù)兩個(gè)月更新一次 20 04 2020 19 第四節(jié) 系統(tǒng)發(fā)育分析課本104頁(yè) 系統(tǒng)發(fā)育分析是根據(jù)同源性狀的分歧來(lái)評(píng)估物種或分子之間的進(jìn)化關(guān)系 這種進(jìn)化關(guān)系通常用分支圖 系統(tǒng)樹(shù) 來(lái)描述 對(duì)序列的系統(tǒng)發(fā)育分析又稱為分子系統(tǒng)學(xué)或分子系統(tǒng)發(fā)育研究 比起其他實(shí)驗(yàn)性學(xué)科 分子系統(tǒng)學(xué)與其他進(jìn)化研究一樣有其局限 即系統(tǒng)發(fā)育的發(fā)生過(guò)程都是已經(jīng)完成的歷史 不能再現(xiàn) 如何從序列中得到有用的信息 如何用計(jì)算的辦法得到可信的進(jìn)化樹(shù) 如何從有限的數(shù)據(jù)得到進(jìn)化模式已成為這個(gè)領(lǐng)域的研究熱點(diǎn) 系統(tǒng)發(fā)育樹(shù)是什么 對(duì)一組實(shí)際對(duì)象的世系關(guān)系的描述 如基因 物種等 20 04 2020 20 一個(gè)系統(tǒng)發(fā)育樹(shù) 末端 物種 頂端 中間節(jié)點(diǎn) 中間枝條 根 末端分支 葉子 節(jié)點(diǎn) 20 04 2020 21 A B C D E F G 樹(shù)只代表分支的拓?fù)浣Y(jié)構(gòu) F G C D E A B 20 04 2020 22 一般來(lái)說(shuō) 系統(tǒng)樹(shù)是一種兩叉樹(shù) 由一系列節(jié)點(diǎn)和分支組成 每個(gè)節(jié)點(diǎn)代表一個(gè)分類(lèi)單元 物種或序列 而節(jié)點(diǎn)之間的連線代表物種間的進(jìn)化關(guān)系 樹(shù)的節(jié)點(diǎn)又分為外部節(jié)點(diǎn)和內(nèi)部節(jié)點(diǎn) 系統(tǒng)發(fā)生樹(shù)有多種形式 可能是有根樹(shù) rootedtree 也可能是無(wú)根樹(shù) unrootedtree 可能是一般的樹(shù) 也可能是二叉樹(shù) 可能是有權(quán)值的樹(shù) 或標(biāo)度樹(shù) 樹(shù)中標(biāo)明分支長(zhǎng)度 也可能是無(wú)權(quán)值樹(shù) 非標(biāo)度樹(shù) 在有根樹(shù)中 有一個(gè)唯一的根節(jié)點(diǎn) 代表所有其他根節(jié)點(diǎn)的共同祖先 這樣的樹(shù)能夠反映進(jìn)化層次 從根節(jié)點(diǎn)歷經(jīng)進(jìn)化到任何其他節(jié)點(diǎn)只有唯一的路徑 20 04 2020 23 Rootedbyoutgroup archaea archaea archaea bacteriaoutgroup root eukaryote eukaryote eukaryote eukaryote 無(wú)根樹(shù) archaea archaea archaea Monophyleticgroup 單源群 Monophyleticgroup 有根樹(shù) 無(wú)根樹(shù) 外圍群 有根樹(shù) 外圍群 20 04 2020 24 分子進(jìn)化研究的基礎(chǔ) 假設(shè) 核苷酸和氨基酸序列中含有生物進(jìn)化歷史的全部信息 分子進(jìn)化研究的基礎(chǔ) 理論 在各種不同的發(fā)育譜系及足夠大的進(jìn)化時(shí)間尺度中 許多序列的進(jìn)化速率幾乎是恒定不變的 分子鐘理論 1965 分子進(jìn)化研究的基礎(chǔ) 實(shí)際 雖然很多時(shí)候仍然存在爭(zhēng)議 但是分子進(jìn)化確實(shí)能闡述一些生物系統(tǒng)發(fā)生的內(nèi)在規(guī)律 20 04 2020 25 從一個(gè)分歧數(shù)據(jù)可以推測(cè)其他 序列分歧度 分歧時(shí)間 x 分子鐘理論 20 04 2020 26 一 系統(tǒng)樹(shù)的構(gòu)建方法系統(tǒng)樹(shù)的構(gòu)建主要有三種方法 距離法 最簡(jiǎn)約法 最大似然法 1 距離法距離法又稱距離矩陣法 首先通過(guò)各個(gè)物種之間的比較 根據(jù)一定的假設(shè) 進(jìn)化距離模型 推導(dǎo)得出分類(lèi)群之間的進(jìn)化距離 構(gòu)建一個(gè)進(jìn)化距離矩陣 進(jìn)化樹(shù)的構(gòu)建則是基于這個(gè)矩陣中的進(jìn)化距離關(guān)系 計(jì)算序列的距離 建立距離矩陣 通過(guò)距離矩陣建進(jìn)化樹(shù) 20 04 2020 27 一種簡(jiǎn)單的距離矩陣 20 04 2020 28 由進(jìn)化距離構(gòu)建進(jìn)化樹(shù)的方法有很多 常見(jiàn)有 1 Fitch MargoliashMethod FM法 2 Neighbor JoiningMethod NJ法 鄰接法 3 NeighborsRelatonMethod 鄰居關(guān)系法 4 UnweightedPairGroupMethod UPGMA法 通過(guò)矩陣建樹(shù)的方法 20 04 2020 29 Fitch Margoliash方法 FM法 20 04 2020 30 1 找出關(guān)系最近的序列對(duì) 如A和B2 將剩余的序列作為一個(gè)簡(jiǎn)單復(fù)合序列 分別計(jì)算A B到所有其他序列的距離的平均值3 用這些值來(lái)計(jì)算A和B間的距離4 將A B作為一個(gè)單一的復(fù)合序列AB 計(jì)算與每一個(gè)其他序列的距離 生成新的距離矩陣5 確定下一對(duì)關(guān)系最近的序列 重復(fù)前面的步聚計(jì)算枝長(zhǎng)7 從每個(gè)序列對(duì)開(kāi)始 重復(fù)整個(gè)過(guò)程8 對(duì)每個(gè)樹(shù)計(jì)算每對(duì)序列間的預(yù)測(cè)距離 發(fā)現(xiàn)與原始數(shù)據(jù)最符合的樹(shù) Fitch Margoliash方法 FM法 小結(jié) 20 04 2020 31 NJ 鄰接法 任意兩個(gè)節(jié)點(diǎn)選為相鄰序列的總支長(zhǎng)計(jì)算公式 20 04 2020 32 把A B看成一個(gè)新的復(fù)合序列 構(gòu)建一個(gè)新的距離表 重復(fù)以上過(guò)程 20 04 2020 33 鄰居關(guān)系法 AB組合出現(xiàn)3次 DE組合出現(xiàn)3次 CD AC BC組合各一次 則AB和DE各為兩對(duì)關(guān)系最近的鄰居 關(guān)系最近的鄰居作為鄰居的次數(shù)最多 將鄰居看成一個(gè)新的復(fù)合序列 重復(fù)這個(gè)過(guò)程 20 04 2020 34 UPGMA法 d e 10 2 5 20 04 2020 35 c 19 2 9 5g c d 9 5 5 4 5 20 04 2020 36 a b 22 2 11 20 04 2020 37 f1 a f2 c 40 5 2 20 25f1 9 25 f2 11 75 20 04 2020 38 2 最大簡(jiǎn)約法簡(jiǎn)約法是分子系統(tǒng)學(xué)中應(yīng)用最廣的一種方法 該方法的原則是在所有可能的物種中 最能反映進(jìn)化歷史的樹(shù)具有最短的樹(shù)長(zhǎng) 即進(jìn)化步數(shù)最少 形狀在系統(tǒng)樹(shù)種改變的次數(shù) 樹(shù)長(zhǎng)是所有形狀在所有分支上發(fā)生的狀態(tài)改變的總和 20 04 2020 39 最大簡(jiǎn)約法 maximumparsimony MP 最早源于形態(tài)性狀研究 現(xiàn)在已經(jīng)推廣到分子序列的進(jìn)化分析中 最大簡(jiǎn)約法的理論基礎(chǔ)是奧卡姆 Ockham 哲學(xué)原則 這個(gè)原則認(rèn)為 解釋一個(gè)過(guò)程的最好理論是所需假設(shè)數(shù)目最少的那一個(gè) 對(duì)所有可能的拓?fù)浣Y(jié)構(gòu)進(jìn)行計(jì)算 并計(jì)算出所需替代數(shù)最小的那個(gè)拓?fù)浣Y(jié)構(gòu) 作為最優(yōu)樹(shù) 優(yōu)點(diǎn) 最大簡(jiǎn)約法不需要在處理核苷酸或者氨基酸替代的時(shí)候引入假設(shè) 替代模型 此外 最大簡(jiǎn)約法對(duì)于分析某些特殊的分子數(shù)據(jù)如插入 缺失等序列有用 20 04 2020 40 缺點(diǎn) 在分析的序列位點(diǎn)上沒(méi)有回復(fù)突變或平行突變 且被檢驗(yàn)的序列位點(diǎn)數(shù)很大的時(shí)候 最大簡(jiǎn)約法能夠推導(dǎo)獲得一個(gè)很好的進(jìn)化樹(shù) 然而在分析序列上存在較多的回復(fù)突變或平行突變 而被檢驗(yàn)的序列位點(diǎn)數(shù)又比較少的時(shí)候 最大簡(jiǎn)約法可能會(huì)給出一個(gè)不合理的或者錯(cuò)誤的進(jìn)化樹(shù)推導(dǎo)結(jié)果 20 04 2020 41 3 最大似然法用于構(gòu)建基于基因頻率的系統(tǒng)樹(shù) 這種方法是首先選定一個(gè)進(jìn)化模型 計(jì)算該模型下 各種分支樹(shù)產(chǎn)生現(xiàn)有數(shù)據(jù)的可能性 具有最大可能性的系統(tǒng)樹(shù)為最優(yōu) 一個(gè)樹(shù)的似然性等于每一個(gè)形狀的似然性之和或每一個(gè)性狀的似然性對(duì)數(shù)和 20 04 2020 42 最大似然法分析中 選取一個(gè)特定的替代模型來(lái)分析給定的一組序列數(shù)據(jù) 使得獲得的每一個(gè)拓?fù)浣Y(jié)構(gòu)的似然率都為最大值 然后再挑出其中似然率最大的拓?fù)浣Y(jié)構(gòu)作為最優(yōu)樹(shù) 在最大似然法的分析中 所考慮的參數(shù)并不是拓?fù)浣Y(jié)構(gòu)而是每個(gè)拓?fù)浣Y(jié)構(gòu)的枝長(zhǎng) 并對(duì)似然率球最大值來(lái)估計(jì)枝長(zhǎng) 最大似然法的建樹(shù)過(guò)程是個(gè)很費(fèi)時(shí)的過(guò)程 因?yàn)樵诜治鲞^(guò)程中有很大的計(jì)算量 每個(gè)步驟都要考慮內(nèi)部節(jié)點(diǎn)的所有可能性 最大似然法是一個(gè)比較成熟的參數(shù)估計(jì)的統(tǒng)計(jì)學(xué)方法 具有很好的統(tǒng)計(jì)學(xué)理論基礎(chǔ) 在當(dāng)樣本量很大的時(shí)候 似然法可以獲得參數(shù)統(tǒng)計(jì)的最小方差 只要使用了一個(gè)合理的 正確的替代模型 最大似然法可以推導(dǎo)出一個(gè)很好的進(jìn)化樹(shù)結(jié)果 20 04 2020 43 由于最大似然法的分析過(guò)程需要耗費(fèi)較多的時(shí)間 針對(duì)這種情況 發(fā)展出了許多優(yōu)化的可以加快最大似然法尋找最優(yōu)樹(shù)的搜索方法 如啟發(fā)式搜索 分枝交換搜索等 最大似然法具有堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)理論基礎(chǔ) 充分的使用了分析序列中的信息資源 只要采用了合理的替代模型 可以得出很好的進(jìn)化樹(shù)分析結(jié)果 20 04 2020 44 4 對(duì)三種構(gòu)建方法的評(píng)價(jià) 1 距離法是一種純數(shù)學(xué)計(jì)算過(guò)程 其算法本身就決定了最優(yōu)樹(shù)的選擇標(biāo)準(zhǔn) 2 當(dāng)DNA的進(jìn)化速率在不同分支上相差很大或親緣關(guān)系太遠(yuǎn)時(shí) 簡(jiǎn)約法低估了實(shí)際發(fā)生的堿基替換數(shù)而造成數(shù)據(jù)越多越支持錯(cuò)誤的系統(tǒng)樹(shù) 3 在計(jì)算時(shí)間上 距離法最快 最大似然法最慢 因此 當(dāng)數(shù)據(jù)矩陣過(guò)大時(shí) 距離法非常有用 4 距離法和最大似然法都可以估計(jì)枝長(zhǎng) 而簡(jiǎn)約法不能 20 04 2020 45 5 系統(tǒng)樹(shù)的統(tǒng)計(jì)分析 1 在分子系統(tǒng)學(xué)研究中 用重復(fù)取樣來(lái)檢驗(yàn)系統(tǒng)樹(shù)的可靠性 主要有兩種方法即自展法和折刀法 自展法是原有數(shù)據(jù)中的性狀進(jìn)行復(fù)置重復(fù)取樣 即隨機(jī)抽取一個(gè)性狀后 再將該性狀放回原數(shù)據(jù) 繼續(xù)隨機(jī)抽樣 直到新產(chǎn)生的一組數(shù)據(jù)大小與原有數(shù)據(jù)相同為止 20 04 2020 46 2 對(duì)整個(gè)系統(tǒng)樹(shù)的評(píng)價(jià)廣泛用于評(píng)價(jià)一個(gè)系統(tǒng)樹(shù)可靠性的指標(biāo)是一致性系數(shù) CI 和保持性指數(shù) RI Ic R LR 所有性狀的范圍的總和 即性狀可能變化的最小值L 給定系統(tǒng)樹(shù)的最小進(jìn)化步數(shù) 20 04 2020 47 二 常用的系統(tǒng)樹(shù)構(gòu)建程序1 PHYLIPPHYLIP是包含35個(gè)獨(dú)立程序的軟件包 基本上包括了系統(tǒng)發(fā)育分析的所有方面 可在很多平臺(tái)上運(yùn)行 包括windows Macintosh DOS Linux Unix和OpenVMX http evolution genetics washington edu phylip html可以免費(fèi)下載軟件及手冊(cè) PHYLIP是目前使用較為廣泛的系統(tǒng)發(fā)育程序 主要包括一下幾個(gè)程序組 分子序列組 距離矩陣組 基因頻率組 離散字符組 進(jìn)化樹(shù)繪制組 PHYLIP現(xiàn)版本為3 69 20 04 2020 48 PHYLIP軟件包分組介紹 分子序列組 1 蛋白質(zhì)序列 protpars proml promlk protdist2 核酸序列 dnapenny dnapars dnamove dnaml dnamlk dnainvar dnadist dnacomp距離矩陣組 Fitch kitsch neighbor基因頻率組 Gendist contml 20 04 2020 49 離散字符組 Pars mix move penny dollop dolmove dolpenny clique factor進(jìn)化樹(shù)繪制組 drawtree drawgram其他 restdist restml seqboot contrasttreedist consense retree 20 04 2020 50 PHYLIP軟件包的文檔是非常詳細(xì)的 對(duì)于每個(gè)獨(dú)立的程序 都有一個(gè)獨(dú)立的文檔 詳細(xì)的介紹了該程序的使用及其說(shuō)明 此外 PHYLIP軟件包還包括程序的源代碼 c語(yǔ)言 PHYLIP軟件包的文檔 20 04 2020 51 軟件包的應(yīng)用 1 根據(jù)你的分析數(shù)據(jù) 選擇適當(dāng)?shù)某绦蛉?你分析的是DNA數(shù)據(jù) 就在核酸序列分析類(lèi)中選擇程序 dnapenny dnapars dnamove dnaml dnamlk dnainvar dnadist dnacomp 如果分析的是離散數(shù)據(jù) 如突變位點(diǎn)數(shù)據(jù) 就在離散字符組里面選擇程序 2 選擇適當(dāng)?shù)姆治龇椒ㄈ缒惴治龅氖荄NA數(shù)據(jù) 可以選擇簡(jiǎn)約 DNAPARS 似然法 DNAML DNAMLK 距離法等 DNADIST 20 04 2020 52 3 進(jìn)行分析選擇好程序后 執(zhí)行 讀入分析數(shù)據(jù) 選擇適當(dāng)?shù)膮?shù) 進(jìn)行分析 結(jié)果自動(dòng)保存為outfile outtree Outfield是一個(gè)記錄文件 記錄了分析的過(guò)程和結(jié)果 可以直接用文本編輯器 如寫(xiě)字板 打開(kāi) Outtree是分析結(jié)果的樹(shù)文件 可以用phylip提供的繪樹(shù)程序打開(kāi)查看 也可以用其他的程序來(lái)打開(kāi) 如treeview 20 04 2020 53 加入統(tǒng)計(jì)分析 我們剛剛獲得的進(jìn)化樹(shù)是純粹的根據(jù)先前獲得的排列數(shù)據(jù)所推導(dǎo)出來(lái)的 有很多可能使得這個(gè)樹(shù)并不一定可靠 1 測(cè)序的出錯(cuò) 2 多序列比對(duì)算法本身的問(wèn)題 3 其他的問(wèn)題 我們可以引進(jìn)一些統(tǒng)計(jì)分析來(lái)尋找更優(yōu)的進(jìn)化樹(shù)最常見(jiàn)的就是bootstrap分析 20 04 2020 54 分析 Phylip軟件包中有兩個(gè)用于執(zhí)行bootstrap分析的程序 seqboot exe consence exe 分析過(guò)程 1 Seqboot產(chǎn)生大量的數(shù)據(jù)組2 應(yīng)用選擇的算法對(duì)產(chǎn)生的數(shù)據(jù)組進(jìn)行分析 3 由consence獲得最優(yōu)樹(shù) 20 04 2020 55 2 PAUPPAUP是著名的系統(tǒng)發(fā)育分析商業(yè)軟件 具有簡(jiǎn)單并帶有菜單的頁(yè)面 目前 PAUP中構(gòu)建系統(tǒng)樹(shù)的方法包括MP 最簡(jiǎn)約法 如果針對(duì)核苷酸數(shù)據(jù) 還有距離法和最大似然法 現(xiàn)今有mac win linux等多種版本 該軟件不是免費(fèi)軟件 使用者需要向開(kāi)發(fā)者購(gòu)買(mǎi) 20 04 2020 56 3 PAMLPAML是免費(fèi)軟件包 PAML能夠進(jìn)行ML模型的建立和系統(tǒng)樹(shù)的構(gòu)建與評(píng)估 4 其他程序 1 FastDNAml是一個(gè)獨(dú)立的最大似然法建樹(shù)程序 2 MACCLEADE是一個(gè)交互式的Macintosh程序 能夠?qū)ο到y(tǒng)樹(shù)和數(shù)據(jù)進(jìn)行操作 研究特性狀態(tài)下的系統(tǒng)發(fā)育行為 3 MEGAplusMETREE 4 MOLPHY是共享軟件包 可進(jìn)行ML分析及核苷酸序列或氨基酸序列的統(tǒng)計(jì) 20 04 2020 57 三 一些需要注意的問(wèn)題 1 到目前為止 在進(jìn)行系統(tǒng)的發(fā)育分析中 最重要的不是進(jìn)行發(fā)育分析采用的方法 而是輸入數(shù)據(jù)的質(zhì)量 即選擇數(shù)據(jù)永遠(yuǎn)比比對(duì)過(guò)程重要 即使是最復(fù)雜的發(fā)育推斷方法都不能矯正數(shù)據(jù)的錯(cuò)誤 2 從盡可能多的角度觀察數(shù)據(jù) 可以分別從距離法 最大簡(jiǎn)約法和最大似然法分別觀察數(shù)據(jù) 然后比較其所建立的進(jìn)化樹(shù)的一致性 盡管不同的方法得到的結(jié)果一致 也不能必然意味著結(jié)果就是統(tǒng)計(jì)顯著的 因?yàn)檫_(dá)到一致性的因素很多 20 04 2020 58 3 選擇合適的外群對(duì)分析相當(dāng)重要 尤其是當(dāng)外群同一個(gè)或幾個(gè)內(nèi)在的分類(lèi)群擁有一個(gè)不同尋常的屬性時(shí) 問(wèn)題就會(huì)復(fù)雜化 4 序列的輸入順序不同 程序也會(huì)給出不同的系統(tǒng)樹(shù) 如建樹(shù)軟件PHYLIP和PAUP提供了一個(gè)隨機(jī)選項(xiàng) 可以按照隨機(jī)的順序輸入程序進(jìn)行運(yùn)算 20 04 2020 59 系統(tǒng)樹(shù)構(gòu)建案例分析 1 病毒基因組分析病毒受自身突變和自然選擇的影響 但病毒基因組的進(jìn)化速度遠(yuǎn)遠(yuǎn)超過(guò)其他細(xì)胞的基因組 2 運(yùn)用生物信息學(xué)方法研究SARS由一個(gè)典型的冠狀病毒結(jié)構(gòu) 按照一定的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年對(duì)外漢語(yǔ)教師資格證考試漢語(yǔ)教學(xué)評(píng)價(jià)方法研究研究研究試題
- 2025年會(huì)計(jì)職稱考試《初級(jí)會(huì)計(jì)實(shí)務(wù)》高頻考點(diǎn)串聯(lián)精準(zhǔn)解析試卷
- 2025年公務(wù)員錄用考試證監(jiān)會(huì)計(jì)類(lèi)專(zhuān)業(yè)試卷(財(cái)務(wù)報(bào)表分析)
- 2025年膠槍熱熔膠項(xiàng)目立項(xiàng)申請(qǐng)報(bào)告
- 2025年安全評(píng)價(jià)師(初級(jí))職業(yè)技能鑒定安全法規(guī)試題
- 我最喜歡的老師肖像描寫(xiě)9篇
- 2025年澳門(mén)特別行政區(qū)事業(yè)單位招聘考試綜合類(lèi)專(zhuān)業(yè)能力測(cè)試試卷(法律類(lèi))案例分析
- 2025年春季煙花爆竹安全作業(yè)特種操作證考試試卷詳解與模擬試題集解析
- 2025年一建《機(jī)電工程管理與實(shí)務(wù)》考試易錯(cuò)知識(shí)點(diǎn)梳理與解題策略試卷
- 2025年電梯安裝維修工(中級(jí))操作技能試題
- 2024年天津市南開(kāi)區(qū)初中學(xué)業(yè)考查模擬地理試卷
- 第四屆福建省水產(chǎn)技術(shù)推廣職業(yè)技能競(jìng)賽-水生物病害防治員備賽題庫(kù)(含答案)
- 數(shù)字供應(yīng)鏈對(duì)營(yíng)運(yùn)資金周轉(zhuǎn)效率的影響分析
- 輕型卒中臨床診療中國(guó)專(zhuān)家共識(shí)要點(diǎn)(2024年)解讀課件
- 2022聯(lián)合國(guó)電子政務(wù)調(diào)查報(bào)告(中文版)
- 國(guó)家開(kāi)放大學(xué)《管理英語(yǔ)4》期末機(jī)考題庫(kù)
- DeepSeek在銀行業(yè)務(wù)場(chǎng)景的應(yīng)用
- 居家適老化改造指導(dǎo)手冊(cè)(2025年版)
- 炊事員培訓(xùn)試題及答案
- 2024年山西杏花村汾酒集團(tuán)有限責(zé)任公司招聘真題
- 模板包清工合同協(xié)議
評(píng)論
0/150
提交評(píng)論