




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、多序列聯(lián)配及多序列聯(lián)配及系統(tǒng)進(jìn)化樹構(gòu)建系統(tǒng)進(jìn)化樹構(gòu)建序列同源性分析序列同源性分析 當(dāng)我們?cè)谘芯恳粋€(gè)蛋白質(zhì)或基因時(shí),經(jīng)常會(huì)考慮這樣一個(gè)很基本當(dāng)我們?cè)谘芯恳粋€(gè)蛋白質(zhì)或基因時(shí),經(jīng)常會(huì)考慮這樣一個(gè)很基本的問題:的問題:它與其他蛋白質(zhì)的同源性關(guān)系如何?它與其他蛋白質(zhì)的同源性關(guān)系如何?序列同源性分析序列同源性分析: 是將待研究序列加入到一組與之同源,但來自不同物種的序列中是將待研究序列加入到一組與之同源,但來自不同物種的序列中進(jìn)行多序列同時(shí)比較,以確定該序列與其它序列間的同源性大小。這進(jìn)行多序列同時(shí)比較,以確定該序列與其它序列間的同源性大小。這是理論分析方法中最關(guān)鍵的一步。是理論分析方法中最關(guān)鍵的一步。
2、由于由于同源序列通常保持了相似的結(jié)構(gòu)和功能同源序列通常保持了相似的結(jié)構(gòu)和功能,因而多序列比對(duì)就,因而多序列比對(duì)就顯得很有意義。顯得很有意義。 盡管可以對(duì)蛋白質(zhì)、盡管可以對(duì)蛋白質(zhì)、DNA序列進(jìn)行多重比對(duì),但是很多數(shù)據(jù)庫序列進(jìn)行多重比對(duì),但是很多數(shù)據(jù)庫的比對(duì)的比對(duì)只針對(duì)蛋白質(zhì)家族只針對(duì)蛋白質(zhì)家族。實(shí)際應(yīng)用中常進(jìn)行氨基酸序列的多序列比對(duì),然后轉(zhuǎn)化成相應(yīng)的實(shí)際應(yīng)用中常進(jìn)行氨基酸序列的多序列比對(duì),然后轉(zhuǎn)化成相應(yīng)的DNA比對(duì)比對(duì)多序列比對(duì)的定義多序列比對(duì)的定義 蛋白家族的特征是用存在一組同源序列的多重比對(duì)來定義的。蛋白家族的特征是用存在一組同源序列的多重比對(duì)來定義的。一個(gè)多重比對(duì)就是一組可以部分或整體對(duì)齊
3、的蛋白質(zhì)或核苷酸一個(gè)多重比對(duì)就是一組可以部分或整體對(duì)齊的蛋白質(zhì)或核苷酸序列序列(3個(gè)或個(gè)或3個(gè)以上個(gè)以上)。 相同或相似的氨基酸殘基排在同一列上,這些對(duì)齊的殘基在相同或相似的氨基酸殘基排在同一列上,這些對(duì)齊的殘基在進(jìn)化意義上是同源的:來自共同的祖先。進(jìn)化意義上是同源的:來自共同的祖先。并且還可假定從結(jié)構(gòu)并且還可假定從結(jié)構(gòu)角度看,這些殘基也是同源的:角度看,這些殘基也是同源的:在三維結(jié)構(gòu)中,對(duì)齊的殘基也在三維結(jié)構(gòu)中,對(duì)齊的殘基也傾向于占據(jù)對(duì)應(yīng)的位置傾向于占據(jù)對(duì)應(yīng)的位置。 對(duì)于關(guān)系很近的一組序列,很容易產(chǎn)生多序列比對(duì),甚至可對(duì)于關(guān)系很近的一組序列,很容易產(chǎn)生多序列比對(duì),甚至可以直接觀察得到。但當(dāng)序
4、列間出現(xiàn)一些分歧時(shí),多序列比對(duì)過以直接觀察得到。但當(dāng)序列間出現(xiàn)一些分歧時(shí),多序列比對(duì)過程中出現(xiàn)的問題就很難解決了,如程中出現(xiàn)的問題就很難解決了,如gap數(shù)量和位置的估計(jì)就比數(shù)量和位置的估計(jì)就比較困難。較困難。 那么如何確定某些氨基酸殘基是否對(duì)齊了呢?那么如何確定某些氨基酸殘基是否對(duì)齊了呢? 可根據(jù)下面可根據(jù)下面4個(gè)特征來判斷相應(yīng)氨基酸殘基是否已經(jīng)對(duì)齊:個(gè)特征來判斷相應(yīng)氨基酸殘基是否已經(jīng)對(duì)齊: (1)一些高度保守的殘基一些高度保守的殘基(如參與形成二硫鍵的半胱氨酸如參與形成二硫鍵的半胱氨酸); (2)形成保守基序或結(jié)構(gòu)域,如跨膜結(jié)構(gòu)域和免疫球蛋白結(jié)構(gòu)域形成保守基序或結(jié)構(gòu)域,如跨膜結(jié)構(gòu)域和免疫球蛋
5、白結(jié)構(gòu)域等。等。 (3)蛋白質(zhì)二級(jí)結(jié)構(gòu)的保守特征蛋白質(zhì)二級(jí)結(jié)構(gòu)的保守特征,如參與形成,如參與形成-螺旋、螺旋、-折疊和折疊和可變區(qū)的殘基;可變區(qū)的殘基; (4)顯示出一致插入或缺失模式的區(qū)域顯示出一致插入或缺失模式的區(qū)域。多序列比對(duì)的定義多序列比對(duì)的定義多序列比對(duì)的意義多序列比對(duì)的意義u 用于分析同一基因或蛋白質(zhì)在不同物種中用于分析同一基因或蛋白質(zhì)在不同物種中的進(jìn)化的進(jìn)化u 通過分析多個(gè)基因或蛋白質(zhì)序列之間的同通過分析多個(gè)基因或蛋白質(zhì)序列之間的同源性確定它們?cè)谶M(jìn)化上的關(guān)系源性確定它們?cè)谶M(jìn)化上的關(guān)系u 分析基因或蛋白質(zhì)的功能分析基因或蛋白質(zhì)的功能70 Mya200 MyaWGD 14 and 4
6、2 Mya67.7 MyaPhylogenetic analysisEo, 棕櫚棕櫚; Ma, 香蕉香蕉; Zo, 姜姜; Cl, 姜黃姜黃72 Mya多序列比對(duì)的典型應(yīng)用和實(shí)際策略多序列比對(duì)的典型應(yīng)用和實(shí)際策略 什么時(shí)候使用和為什么使用多重比對(duì)什么時(shí)候使用和為什么使用多重比對(duì)若所研究的蛋白質(zhì)或基因與另一組蛋白質(zhì)有聯(lián)系,那么這若所研究的蛋白質(zhì)或基因與另一組蛋白質(zhì)有聯(lián)系,那么這些蛋白質(zhì)可以提供可能的功能、結(jié)構(gòu)、進(jìn)化方面的信息;些蛋白質(zhì)可以提供可能的功能、結(jié)構(gòu)、進(jìn)化方面的信息;大多數(shù)蛋白質(zhì)家族中有遠(yuǎn)緣的成員。與兩兩比對(duì)相比,多大多數(shù)蛋白質(zhì)家族中有遠(yuǎn)緣的成員。與兩兩比對(duì)相比,多序列比對(duì)能夠更敏感地發(fā)
7、現(xiàn)同源關(guān)系;序列比對(duì)能夠更敏感地發(fā)現(xiàn)同源關(guān)系;在檢查某次數(shù)據(jù)庫搜索結(jié)果時(shí),多重比對(duì)形式的結(jié)果能更在檢查某次數(shù)據(jù)庫搜索結(jié)果時(shí),多重比對(duì)形式的結(jié)果能更容易顯示保守殘基與基序;容易顯示保守殘基與基序;如果研究如果研究cDNA克隆,按照慣例我們會(huì)對(duì)相應(yīng)序列進(jìn)行測序??寺?,按照慣例我們會(huì)對(duì)相應(yīng)序列進(jìn)行測序。多序列比對(duì)可以顯示結(jié)果中是否有矛盾之處;多序列比對(duì)可以顯示結(jié)果中是否有矛盾之處;分析物種數(shù)據(jù)可以揭示很多生物學(xué)問題(如進(jìn)化、結(jié)構(gòu)和分析物種數(shù)據(jù)可以揭示很多生物學(xué)問題(如進(jìn)化、結(jié)構(gòu)和功能等方面)。功能等方面)。Entrez的的PopSet部分包含了核酸和蛋白質(zhì)部分包含了核酸和蛋白質(zhì)的物種數(shù)據(jù)集,可以多重
8、比對(duì)的形式顯示。的物種數(shù)據(jù)集,可以多重比對(duì)的形式顯示。多序列比對(duì)的典型應(yīng)用和實(shí)際策略多序列比對(duì)的典型應(yīng)用和實(shí)際策略 什么時(shí)候使用和為什么使用多重比對(duì)什么時(shí)候使用和為什么使用多重比對(duì)6. 當(dāng)一個(gè)物種的基因組被完整測序,數(shù)據(jù)分析的一個(gè)主要部分當(dāng)一個(gè)物種的基因組被完整測序,數(shù)據(jù)分析的一個(gè)主要部分是定義所有基于產(chǎn)物所歸屬的蛋白家族。是定義所有基于產(chǎn)物所歸屬的蛋白家族。數(shù)據(jù)庫搜索進(jìn)行高效數(shù)據(jù)庫搜索進(jìn)行高效的多重比對(duì),將每一個(gè)新蛋白或基因與其他所有家族的蛋白質(zhì)的多重比對(duì),將每一個(gè)新蛋白或基因與其他所有家族的蛋白質(zhì)進(jìn)行比較。進(jìn)行比較。7. 利用多序列比對(duì)數(shù)據(jù)構(gòu)建系統(tǒng)發(fā)生樹。建樹的一個(gè)最關(guān)鍵的利用多序列比對(duì)數(shù)
9、據(jù)構(gòu)建系統(tǒng)發(fā)生樹。建樹的一個(gè)最關(guān)鍵的步驟就是產(chǎn)生最佳的多序列比對(duì)。步驟就是產(chǎn)生最佳的多序列比對(duì)。8. 很多基因的調(diào)節(jié)區(qū)含有轉(zhuǎn)錄因子結(jié)合的共有序列。很多基因的調(diào)節(jié)區(qū)含有轉(zhuǎn)錄因子結(jié)合的共有序列。9. 功能分歧分析、分子進(jìn)化分析等。功能分歧分析、分子進(jìn)化分析等。10.其他應(yīng)用,如構(gòu)建其他應(yīng)用,如構(gòu)建profile,打分矩陣等。,打分矩陣等。HMMER就是利用就是利用已知同源序列的多序列比對(duì)結(jié)果構(gòu)建已知同源序列的多序列比對(duì)結(jié)果構(gòu)建profile,然后再利用該,然后再利用該profile去搜索蛋白數(shù)據(jù)庫查找相應(yīng)蛋白的同源序列。去搜索蛋白數(shù)據(jù)庫查找相應(yīng)蛋白的同源序列。 同源性分析中常常要通過多序列比對(duì)來找
10、出序列之間的相互關(guān)系,和blast的局部匹配搜索不同,多序列比對(duì)大多都是采用全局比對(duì)的算法。這樣對(duì)于采用計(jì)算機(jī)程序的自動(dòng)多序列比對(duì)是一個(gè)非常復(fù)雜且耗時(shí)的過程,特別是序列數(shù)目多,且序列長的情況下。多序列比對(duì)的方法多序列比對(duì)的方法多序列比對(duì)的方法多序列比對(duì)的方法2. 計(jì)算機(jī)程序自動(dòng)比對(duì)計(jì)算機(jī)程序自動(dòng)比對(duì) 通過特定的算法(如同步法,漸進(jìn)法等),由計(jì)算機(jī)程序自動(dòng)搜索最佳的多序列比對(duì)狀態(tài)?;旧隙嘈蛄斜葘?duì)可以分為基本上多序列比對(duì)可以分為:1. 手工比對(duì)手工比對(duì)(輔助編輯軟件如(輔助編輯軟件如 bioedit,seaview,Genedoc等)等) 通過輔助軟件的不同顏色顯示不同殘基,靠分析者的觀察來改變
11、比對(duì)的狀態(tài)。Se-Al自動(dòng)多序列比對(duì)的算法自動(dòng)多序列比對(duì)的算法1. 同步法同步法 將序列兩兩比對(duì)時(shí)的二維動(dòng)態(tài)規(guī)劃矩陣擴(kuò)展到三維矩陣。即用矩陣的維數(shù)來反映比對(duì)的序列數(shù)目。這種方法的計(jì)算量很大,對(duì)于計(jì)算機(jī)系統(tǒng)的資源要求比較高,一般只有在進(jìn)行少數(shù)的較短的序列的比對(duì)的時(shí)候才會(huì)用到這個(gè)方法。2. 步進(jìn)法步進(jìn)法 最常見的就是clustal所采用的方法。 其基本思想就是基于相似序列通常具有進(jìn)化相關(guān)性相似序列通常具有進(jìn)化相關(guān)性的這一假設(shè)。 Clustal的漸進(jìn)比對(duì)過程的漸進(jìn)比對(duì)過程 在比對(duì)過程中,先對(duì)所有的序列進(jìn)行兩兩比對(duì)并計(jì)算它們相似性分值,然后根據(jù)相似性分值將它們分成若干組,并在每組之間進(jìn)行比對(duì),計(jì)算相似
12、性分值。根據(jù)相似性分值繼續(xù)分組比對(duì),直到得到最終比對(duì)結(jié)果。在比對(duì)過程中,相似性程度較高的序列先進(jìn)行比對(duì)而距離較遠(yuǎn)的序列添加在后面。多序列比對(duì)常用軟件多序列比對(duì)常用軟件1. Clustal W/ Clustal X2. MUSCLE3. MAFFT4. T-Coffee5. ProbCons6. POA7. DIALIGN性能比較 1. ClustalW/X: 最經(jīng)典、最被廣泛接受的工具 2. MUSCLE: 目前最流行的多序列比對(duì)工具 3. DIALIGN: 序列相似性低時(shí)最準(zhǔn)確 4. POA:性能接近T-Coffee和DIALIGN,速度最快(As sequences varied cons
13、iderably in length, POA (Lee et al. 2002), which treats long indels very accurately, was the alignment program of choice.) 5. ProbCons:目前綜合性能比較好 6. T-Coffee:序列相似性高時(shí)最準(zhǔn)確 7. MAFFT:綜合性能比較好Clustal工具工具 Clustal是一個(gè)單機(jī)版的基于漸進(jìn)比對(duì)的多序列比對(duì)工具,由Higgins D.G. 等開發(fā)。有應(yīng)用于多種操作系統(tǒng)平臺(tái)的版本,包括linux版,DOS版的clustalw,clustalx等。 CLUSTAL
14、是一種漸進(jìn)的比對(duì)方法,先將多個(gè)序列兩兩比對(duì)構(gòu)建距離矩陣,反映序列之間兩兩關(guān)系;然后根據(jù)距離矩陣計(jì)算產(chǎn)生系統(tǒng)進(jìn)化指導(dǎo)樹,對(duì)關(guān)系密切的序列進(jìn)行加權(quán);然后從最緊密的兩條序列開始,逐步引入臨近的序列并不斷重新構(gòu)建比對(duì),直到所有序列都被加入為止。Clustal的工作原理Clustal輸入多個(gè)序列輸入多個(gè)序列快速的序列兩兩比對(duì),計(jì)算序列間的距離,快速的序列兩兩比對(duì),計(jì)算序列間的距離,獲得一個(gè)距離矩陣。獲得一個(gè)距離矩陣。鄰接法鄰接法(NJ)構(gòu)建一個(gè)樹(引導(dǎo)樹)構(gòu)建一個(gè)樹(引導(dǎo)樹)根據(jù)引導(dǎo)樹,漸進(jìn)比對(duì)多個(gè)序列。根據(jù)引導(dǎo)樹,漸進(jìn)比對(duì)多個(gè)序列。Clustal的比對(duì)模式多序列比對(duì)模式多序列比對(duì)模式Profile比對(duì)
15、模式比對(duì)模式:先對(duì)不同的亞家族成員進(jìn)行多序:先對(duì)不同的亞家族成員進(jìn)行多序列比對(duì),然后將兩個(gè)多序列比對(duì)進(jìn)行整合。列比對(duì),然后將兩個(gè)多序列比對(duì)進(jìn)行整合。Clustalx的工作界面(多序列比對(duì)模式多序列比對(duì)模式)Clustalx的工作界面(profile比對(duì)模式比對(duì)模式)Clustal X的應(yīng)用1. 輸入輸出格式輸入輸出格式 輸入序列的格式比較靈活,可以是前面介紹過的FASTA格式,還可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。 輸出格式也可以選擇,有ALN、GCG、PHYLIP和NEXUS等,用戶可以根據(jù)自己的需要選擇合適的輸出格式。2. 兩種工作模式
16、兩種工作模式a. 多序列比對(duì)模式b. profile比對(duì)模式多序列比對(duì)實(shí)例輸入文件的格式(fasta): HvNIP2-1MASNSRSNSRATFSSEIHDIGTVQNSTTPSMVYYTERSIADYFPPHLLKKVVSEVVSTFLLVFVTCGAAAISAHDVTRISQLGQSVAGGLIVVVMIYAVGHISGAHMNPAVTLAFAIFRHFPWIQVPFYWAAQFTGAICASFVLKAVLHPITVIGTTEPVGPHWHALVIEVVVTFNMMFVTLAVATDTRAVGELAGLAVGSSVCITSIFAGAVSGGSMNPARTLGPALASNRYPGLWLY
17、FLGPVLGTLSGAWTYTYIRFEDPPKDAPQKLSSFKLRRLQSQSVAADDDELDHIPVHvNIP2-2MSVTSNTPTRANSRVNYSNEIHDLSTVQDGAPSLAPSMYYQEKSFADFFPPHLLKKVISELVATFLLVFVTCGAASIYGADVTRVSQLGQSVVGGLIVTVMIYATGHISGAHMNPAVTLSFACFRHFPWIQVPFYWAAQFTGAMCAAFVLRAVLHPITVLGTTTPTGPHWHALVIEIIVTFNMMFITCAVATDSRAVGELAGLAVGSAVCITSIFAGPVSGGSMNPARTLAPAVAS
18、GVYTGLWIYFLGPVIGTLSGAWVYTYIRFEEEPSVKDGPQKLSSFKLRRLQSQRSMAVDEFDHVOsNIP2-1MASNNSRTNSRANYSNEIHDLSTVQNGTMPTMYYGEKAIADFFPPHLLKKVVSEVVATFLLVFMTCGAAGISGSDLSRISQLGQSIAGGLIVTVMIYAVGHISGAHMNPAVTLAFAVFRHFPWIQVPFYWAAQFTGAICASFVLKAVIHPVDVIGTTTPVGPHWHSLVVEVIVTFNMMFVTLAVATDTRAVGELAGLAVGSAVCITSIFAGAISGGSMNPARTLGPAL
19、ASNKFDGLWIYFLGPVMGTLSGAWTYTFIRFEDTPKEGSSQKLSSFKLRRLRSQQSIAADDVDEMENIQVOsNIP2-2MASTTAPSRTNSRVNYSNEIHDLSTVQSVSAVPSVYYPEKSFADIFPPNLLKKVISEVVATFLLVFVTCGAASIYGEDMKRISQLGQSVVGGLIVTVMIYATGHISGAHMNPAVTLSFAFFRHFPWIQVPFYWAAQFTGAMCAAFVLRAVLYPIEVLGTTTPTGPHWHALVIEIVVTFNMMFVTCAVATDSRAVGELAGLAVGSAVCITSIFAGPVSGGSMN
20、PARTLAPAVASNVYTGLWIYFLGPVVGTLSGAWVYTYIRFEEAPAAAGGAAPQKLSSFKLRRLQSQSMAADEFDNV讀入序列數(shù)據(jù)讀入序列數(shù)據(jù)設(shè)置多序列設(shè)置多序列比對(duì)參數(shù)比對(duì)參數(shù)Profile多序列比對(duì)多序列比對(duì)步驟步驟1:先讀入文件:先讀入文件1,并對(duì)文件,并對(duì)文件1中的序列進(jìn)行中的序列進(jìn)行比對(duì),將比對(duì)結(jié)果進(jìn)行保存;比對(duì),將比對(duì)結(jié)果進(jìn)行保存;然后讀入文件然后讀入文件2,并對(duì)文件,并對(duì)文件2中的序列進(jìn)行多序列比對(duì),將比對(duì)結(jié)果中的序列進(jìn)行多序列比對(duì),將比對(duì)結(jié)果進(jìn)行保存。進(jìn)行保存。Profile多序列比對(duì)多序列比對(duì)步驟步驟2:分別讀入文件:分別讀入文件1多序列比對(duì)
21、結(jié)果多序列比對(duì)結(jié)果(profile1)及文件)及文件2多序列比對(duì)結(jié)果(多序列比對(duì)結(jié)果(profile2) 。Profile多序列比對(duì)多序列比對(duì)步驟步驟3:將文件:將文件1多序列比對(duì)結(jié)果及文件多序列比對(duì)結(jié)果及文件2多序列多序列比對(duì)結(jié)果進(jìn)行比對(duì)。比對(duì)結(jié)果進(jìn)行比對(duì)。Clustal WClustalW is a general purpose multiple sequence alignment program for DNA or proteins. It produces biologically meaningful multiple sequence alignments of diverg
22、ent sequences. It calculates the best match for the selected sequences, and lines them up so that the identities, similarities and differences can be seen. Evolutionary relationships can be seen via viewing Cladograms or Phylograms. 原理同原理同Clustal X軟件。軟件。Clustal X是是Clustal W的圖形界面版本,的圖形界面版本,在開發(fā)了在開發(fā)了Cl
23、ustal W之后,之后,Thompson等又再等又再Clustal W基礎(chǔ)上增加基礎(chǔ)上增加了圖形界面便有了了圖形界面便有了Clustal X,它的操作更加直觀簡單。它的操作更加直觀簡單。可下載到可下載到PC機(jī),使用方法同機(jī),使用方法同Clustal X輸出輸出格式格式設(shè)定參數(shù)設(shè)定參數(shù)其他多其他多序列比序列比對(duì)工具對(duì)工具的鏈接的鏈接粘貼序列粘貼序列或以文件的格式上傳或以文件的格式上傳部分參數(shù)定義部分參數(shù)定義Gap opening penalty:增大數(shù)值使:增大數(shù)值使 gap 數(shù)目減少數(shù)目減少Gap extention penalty:增大數(shù)值使:增大數(shù)值使 gap 長度變短長度變短Weigh
24、t transition:AG 轉(zhuǎn)換或轉(zhuǎn)換或 CT 轉(zhuǎn)換轉(zhuǎn)換(multiple DNA sequence alignment)Hydrophilic gap:選擇:選擇“on” 將增加形成將增加形成 gap 的機(jī)會(huì)的機(jī)會(huì)(multiple protein sequence alignment)Residue-specific gap penalties:選擇:選擇“ on” 將增加在某些氨將增加在某些氨基酸殘基處形成基酸殘基處形成 gap 的機(jī)會(huì),而減少在另一些氨基酸殘基處形的機(jī)會(huì),而減少在另一些氨基酸殘基處形成成 gap 的機(jī)會(huì)的機(jī)會(huì)(multiple protein sequence al
25、ignment)此比對(duì)結(jié)此比對(duì)結(jié)果文件可果文件可下載下載Phylip輸出格輸出格式,可用于進(jìn)式,可用于進(jìn)化樹構(gòu)建化樹構(gòu)建可將輸出結(jié)果可將輸出結(jié)果重新進(jìn)行排序重新進(jìn)行排序以彩以彩色形色形式顯式顯示示Clustal W產(chǎn)生的進(jìn)化樹。由產(chǎn)生的進(jìn)化樹。由鄰接法獲得,多沒有經(jīng)過可鄰接法獲得,多沒有經(jīng)過可靠性檢驗(yàn),不建議直接使用靠性檢驗(yàn),不建議直接使用MUSCLE MUSCLE stands for MUltiple Sequence Comparison by Log-Expectation. MUSCLE is claimed to achieve both better average accura
26、cy and better speed than ClustalW2 or T-Coffee (在速度和精在速度和精確性上優(yōu)于確性上優(yōu)于clustalw和和T-Coffee), depending on the chosen options.http:/www.ebi.ac.uk/Tools/muscle/以圖形形式顯示聯(lián)配結(jié)果以圖形形式顯示聯(lián)配結(jié)果MAFFT個(gè)人比較喜歡的軟件個(gè)人比較喜歡的軟件可改變序列的輸出順序可改變序列的輸出順序選擇多序列比對(duì)策略(自動(dòng)選擇多序列比對(duì)策略(自動(dòng)的或人工的)的或人工的)若不選擇,則若不選擇,則MAFFT程序可根據(jù)輸入的序列情況自動(dòng)選擇比較合適的策略程序可根據(jù)
27、輸入的序列情況自動(dòng)選擇比較合適的策略調(diào)整比對(duì)參數(shù)調(diào)整比對(duì)參數(shù)可通過可通過blast查詢查詢swissprot數(shù)據(jù)數(shù)據(jù)庫搜索同源序列庫搜索同源序列改變序列改變序列格式格式構(gòu)建的系統(tǒng)樹構(gòu)建的系統(tǒng)樹圖形化顯示圖形化顯示表示相應(yīng)表示相應(yīng)位置上氨位置上氨基酸的?;岬谋J爻潭仁爻潭茸灾鬟x擇合適自主選擇合適的比對(duì)策略的比對(duì)策略作多序列比對(duì)時(shí)應(yīng)注意的問題作多序列比對(duì)時(shí)應(yīng)注意的問題 多序列比對(duì)結(jié)果直接影響到接下來的分析結(jié)果的準(zhǔn)確性,因此,多序列比對(duì)結(jié)果直接影響到接下來的分析結(jié)果的準(zhǔn)確性,因此,作多序列比對(duì)時(shí)應(yīng)注意:作多序列比對(duì)時(shí)應(yīng)注意: 1、根據(jù)序列間同源性的高低有針對(duì)性的選擇多序列比對(duì)工具。、根據(jù)序列間同源
28、性的高低有針對(duì)性的選擇多序列比對(duì)工具。比如比如DIALIGN在序列相似性低時(shí)最準(zhǔn)確,而在序列相似性低時(shí)最準(zhǔn)確,而T-Coffee在序列相似在序列相似性高時(shí)最準(zhǔn)確。性高時(shí)最準(zhǔn)確。 2、對(duì)于同一組序列,應(yīng)通過不斷調(diào)整選擇參數(shù),比如打分矩陣、對(duì)于同一組序列,應(yīng)通過不斷調(diào)整選擇參數(shù),比如打分矩陣和和gap opening penalty等,得到多個(gè)比對(duì)結(jié)果,結(jié)合等,得到多個(gè)比對(duì)結(jié)果,結(jié)合motif和和domain等信息從中選擇準(zhǔn)確度最高的比對(duì)。等信息從中選擇準(zhǔn)確度最高的比對(duì)。 3、對(duì)比對(duì)結(jié)果應(yīng)根據(jù)目標(biāo)蛋白的二級(jí)結(jié)構(gòu)、三級(jí)結(jié)構(gòu)及保守的、對(duì)比對(duì)結(jié)果應(yīng)根據(jù)目標(biāo)蛋白的二級(jí)結(jié)構(gòu)、三級(jí)結(jié)構(gòu)及保守的氨基酸殘基、氨基
29、酸殘基、domain等信息進(jìn)行適當(dāng)?shù)娜斯ふ{(diào)整。等信息進(jìn)行適當(dāng)?shù)娜斯ふ{(diào)整。比如利用比如利用Se-Al工具工具(http:/tree.bio.ed.ac.uk/software/seal/)。 Se-Al is an application for creating multiple sequence alignments from nucleotide and amino acid sequences. At the moment it does not do any automatic alignments but is intended for the production of hand
30、alignments and for preparing input for alignment programs such as CLUSTAL and phylogeny reconstruction programs such as PHYLIP and PAUP. It is particularly useful for manipulating protein coding DNA/RNA sequences.若認(rèn)為有必要對(duì)產(chǎn)生的多序列比對(duì)若認(rèn)為有必要對(duì)產(chǎn)生的多序列比對(duì)結(jié)果進(jìn)行人工調(diào)整,此軟件非常有結(jié)果進(jìn)行人工調(diào)整,此軟件非常有用,但目前只有針對(duì)蘋果的版本。用,但目前只有針對(duì)蘋果的
31、版本。將氨基酸多序列比對(duì)轉(zhuǎn)換成相應(yīng)的核苷酸比對(duì)將氨基酸多序列比對(duì)轉(zhuǎn)換成相應(yīng)的核苷酸比對(duì)設(shè)定參數(shù)設(shè)定參數(shù)download多序列比對(duì)結(jié)果的顯示與編輯多序列比對(duì)結(jié)果的顯示與編輯BioEdit 可將比對(duì)結(jié)果保存為不同類型的格式可將比對(duì)結(jié)果保存為不同類型的格式;以不同顏色或圖形進(jìn)行顯示;以不同顏色或圖形進(jìn)行顯示;可對(duì)整行整列進(jìn)行操作;亦可對(duì)其中的氨基酸或核苷酸或可對(duì)整行整列進(jìn)行操作;亦可對(duì)其中的氨基酸或核苷酸或gap等進(jìn)行編輯等進(jìn)行編輯和操作;可計(jì)算同源序列間的一致性等等。和操作;可計(jì)算同源序列間的一致性等等。GeneDoc打開打開msf文件文件導(dǎo)入其他格式文件導(dǎo)入其他格式文件參數(shù)設(shè)置參數(shù)設(shè)置改變字改變
32、字號(hào)號(hào)Gap的的顯示方顯示方式式是否去掉一致序列是否去掉一致序列等等以不同方式顯示比對(duì)結(jié)果以不同方式顯示比對(duì)結(jié)果調(diào)整相應(yīng)參數(shù)后,調(diào)整相應(yīng)參數(shù)后,以以dashed alignment form顯顯示示將多序列比對(duì)結(jié)果保存為圖片將多序列比對(duì)結(jié)果保存為圖片此圖可直接放到文章中使用(植物此圖可直接放到文章中使用(植物NIP2基因的多序列比對(duì)結(jié)果)基因的多序列比對(duì)結(jié)果)系統(tǒng)進(jìn)化樹的構(gòu)建系統(tǒng)進(jìn)化樹的構(gòu)建從物種的一些分子特性出發(fā),從而了解物種之間從物種的一些分子特性出發(fā),從而了解物種之間的的生物系統(tǒng)發(fā)生生物系統(tǒng)發(fā)生的關(guān)系。的關(guān)系。 蛋白和核酸序列通過序列同源性的比較進(jìn)而了解基因的進(jìn)化以及生物系統(tǒng)發(fā)生的內(nèi)在規(guī)
33、律。分子進(jìn)化研究的目的分子進(jìn)化研究的目的從分子水平上研究生物的進(jìn)化具有以下優(yōu)點(diǎn):從分子水平上研究生物的進(jìn)化具有以下優(yōu)點(diǎn):(1)對(duì)分子進(jìn)化的分析可以數(shù)量化,因此根據(jù)生物所具有)對(duì)分子進(jìn)化的分析可以數(shù)量化,因此根據(jù)生物所具有的核酸和蛋白質(zhì)在結(jié)構(gòu)上的差異程度,比其他方法更精確地的核酸和蛋白質(zhì)在結(jié)構(gòu)上的差異程度,比其他方法更精確地估測生物種類的進(jìn)化時(shí)期和速度;估測生物種類的進(jìn)化時(shí)期和速度;(2)它是研究微生物進(jìn)化的有效方法;)它是研究微生物進(jìn)化的有效方法;(3)它可以比較親緣關(guān)系疏遠(yuǎn)的類型之間的進(jìn)化信息,這)它可以比較親緣關(guān)系疏遠(yuǎn)的類型之間的進(jìn)化信息,這是其他方法難以做到的。是其他方法難以做到的。 系
34、統(tǒng)發(fā)生與系統(tǒng)發(fā)生學(xué)系統(tǒng)發(fā)生與系統(tǒng)發(fā)生學(xué) 系統(tǒng)發(fā)生(phylogeny) 是指生物形成或進(jìn)化的歷史 系統(tǒng)發(fā)生學(xué)(phylogenetics) 研究物種之間的進(jìn)化關(guān)系 系統(tǒng)發(fā)育樹是什么? 對(duì)一組實(shí)際對(duì)象的世系關(guān)系的描述(如基因,物種等)。末端物種頂端中間節(jié)點(diǎn)中間枝條根末端分支葉子節(jié)點(diǎn)AB CDEFG樹只代表分支的拓?fù)浣Y(jié)構(gòu)FGCDEAB分子進(jìn)化研究的基礎(chǔ) 核苷酸和氨基酸序列中含有生物進(jìn)化歷史的全部信息。 在各種不同的發(fā)育譜系及足夠大的進(jìn)化時(shí)間尺度中,許多序列的進(jìn)化速率幾乎是恒定不變的。(分子鐘理論, 1965 ) 雖然很多時(shí)候仍然存在爭議,但是分子進(jìn)化確實(shí)能闡述一些生物系統(tǒng)發(fā)生的內(nèi)在規(guī)律。 直系同源
35、(orthologs): 同源的基因是由于共同的祖先基因進(jìn)化而產(chǎn)生的. 旁系同源(paralogs): 同源的基因是由于基因復(fù)制產(chǎn)生的. (以上定義源自Fitch, W.M. (1970) Distinguishing homologous from analogous proteins. Syst. Zool. 19, 99113) 直系同源與旁系同源paralogsorthologsparalogsorthologsErik L.L. Sonnhammer Orthology,paralogy and proposed classification for paralog subtypes
36、 TRENDS in Genetics Vol.18 No.12 December 2002 以上兩個(gè)概念代表了兩個(gè)不同的進(jìn)化事件。 用于分子進(jìn)化分析中的序列必須是直系同源必須是直系同源的,才能真實(shí)反映進(jìn)化過程。Bacterium 1Bacterium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukaryote 2Bacterium 1Bacterium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukaryote 2Phylograms show branch order and branch
37、lengths進(jìn)化樹,有分支和支長信息2.進(jìn)化分支圖,進(jìn)化樹進(jìn)化分支圖,進(jìn)化樹Cladograms show branching order - branch lengths are meaningless進(jìn)化分支圖,只用分支信息,無支長信息。3.有根樹,無根樹,外圍群有根樹,無根樹,外圍群 (1)如果是一棵有根樹,則樹根代表在進(jìn)化歷史上是最早的、并且與其它所有分類單元都有聯(lián)系的分類單元; (2)如果找不到可以作為樹根的單元,則系統(tǒng)發(fā)生樹是無根樹。所謂無根,是指樹系中代表時(shí)間上最早的部位(最早的共同祖先)不能確定,只反映分類單元之間的距離而不涉及誰是祖先問題。 (3)從根節(jié)點(diǎn)出發(fā)到任何一個(gè)節(jié)點(diǎn)
38、的路徑指明進(jìn)化時(shí)間或者進(jìn)化距離。Rooted by outgrouparchaeaarchaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryotebacteria outgrouprooteukaryoteeukaryoteeukaryoteeukaryote無根樹無根樹archaeaarchaeaarchaeaMonophyletic group(單源群單源群)Monophyleticgroup3.有根樹,無根樹,外圍群有根樹,無根樹,外圍群有根樹有根樹外圍群外圍群 4.基因樹,物種樹基因樹,物種樹We often assume that gene tre
39、es give us species treesabcABCGene treeSpecies treeWe Know the “Species Tree”ratmousehumanFor exampleTherfore We Can Infer Gene Losses, Deletions, (or lack of detection)ratmousehumanratmousehumanratmousehuman基因基因丟失丟失兩種老鼠間的親緣兩種老鼠間的親緣關(guān)系相對(duì)比較近關(guān)系相對(duì)比較近系統(tǒng)發(fā)育樹重建分析步驟多序列比對(duì)(自動(dòng)比對(duì),手工比對(duì))建立取代模型(建樹方法)建立進(jìn)化樹進(jìn)化樹評(píng)估系統(tǒng)發(fā)育樹
40、重建的基本方法 最大簡約法(maximum parsimony,MP) 距離法(distance) 最大似然法(maximum likelihood,ML)最大簡約法(MP)最大簡約法(maximum parsimony,MP)最早源于形態(tài)性狀研究,現(xiàn)在已經(jīng)推廣到分子序列的進(jìn)化分析中。最大簡約法的理論基礎(chǔ)是奧卡姆(Ockham)哲學(xué)原則,這個(gè)原則認(rèn)為:解釋一個(gè)過程的最好理論是所需假設(shè)數(shù)目最少的那一個(gè)。對(duì)所有可能的拓?fù)浣Y(jié)構(gòu)進(jìn)行計(jì)算,對(duì)所有可能的拓?fù)浣Y(jié)構(gòu)進(jìn)行計(jì)算,并計(jì)算出所需替代數(shù)最小的那個(gè)拓?fù)浣Y(jié)構(gòu),作并計(jì)算出所需替代數(shù)最小的那個(gè)拓?fù)浣Y(jié)構(gòu),作為最優(yōu)樹。為最優(yōu)樹。 優(yōu)點(diǎn):最大簡約法不需要在處理核苷酸
41、或者氨基酸替代的時(shí)不需要在處理核苷酸或者氨基酸替代的時(shí)候引入假設(shè)(替代模型)。候引入假設(shè)(替代模型)。此外,最大簡約法對(duì)于分析某些特殊的分子數(shù)據(jù)如插入、缺失等序列有用。最大簡約法(MP)缺點(diǎn):在分析的序列位點(diǎn)上沒有回復(fù)突變或平行突變,且被檢驗(yàn)的序列位點(diǎn)數(shù)很大的時(shí)候,最大簡約法能夠推導(dǎo)獲得一個(gè)很好的進(jìn)化樹。然而在分析序列上存在較多的回復(fù)突變或平行突變,而被檢驗(yàn)的序列位點(diǎn)數(shù)又比較少的時(shí)候,最大簡約法可能會(huì)給出一個(gè)不合理的或者錯(cuò)誤的進(jìn)化樹推導(dǎo)結(jié)果。最大簡約法適用于以下條件下的系統(tǒng)樹構(gòu)建: 所要比較的序列的堿基差別小,所要比較的序列的堿基差別小,即同源性高即同源性高; 對(duì)于序列上的每一個(gè)堿基有近似相等
42、的變異率;對(duì)于序列上的每一個(gè)堿基有近似相等的變異率; 沒有過多的顛換和轉(zhuǎn)換的傾向;沒有過多的顛換和轉(zhuǎn)換的傾向; 所檢驗(yàn)的序列的堿基數(shù)目較多(大于幾千個(gè)堿基)。所檢驗(yàn)的序列的堿基數(shù)目較多(大于幾千個(gè)堿基)。 總之,最大簡約法適合構(gòu)建比對(duì)序列較長,分類群的進(jìn)總之,最大簡約法適合構(gòu)建比對(duì)序列較長,分類群的進(jìn)化位置靠近的系統(tǒng)樹?;恢每拷南到y(tǒng)樹。距離法距離法又稱距離矩陣法,首先通過各個(gè)物種之間的比較,根根據(jù)一定的假設(shè)(進(jìn)化距離模型)推導(dǎo)得出分類群之間的進(jìn)化距離,據(jù)一定的假設(shè)(進(jìn)化距離模型)推導(dǎo)得出分類群之間的進(jìn)化距離,構(gòu)建一個(gè)進(jìn)化距離矩陣。構(gòu)建一個(gè)進(jìn)化距離矩陣。進(jìn)化樹的構(gòu)建則是基于這個(gè)矩陣中的進(jìn)化距
43、離關(guān)系 。計(jì)算序列的距離,建立距離矩陣通過距離矩陣建進(jìn)化樹由進(jìn)化距離構(gòu)建進(jìn)化樹的方法有很多,常見有:1.Fitch-Margoliash Method(FM法)2. Neighbor-Joining Method (NJ法/鄰接法)3. Neighbors Relaton Method(鄰居關(guān)系法)4.Unweighted Pair Group Method (UPGMA法)通過矩陣建樹的方法最大似然法(ML)最大似然法(maximum likelihood,ML)最早應(yīng)用于系統(tǒng)發(fā)育分析是在對(duì)基因頻率數(shù)據(jù)的分析上,后來基于分子序列的分析中也已經(jīng)引入了最大似然法的分析方法。最大似然法分析中,選取
44、一個(gè)特定的替代模型來分析給選取一個(gè)特定的替代模型來分析給定的一組序列數(shù)據(jù),使得獲得的每一個(gè)拓?fù)浣Y(jié)構(gòu)的似然率定的一組序列數(shù)據(jù),使得獲得的每一個(gè)拓?fù)浣Y(jié)構(gòu)的似然率都為最大值,然后再挑出其中似然率最大的拓?fù)浣Y(jié)構(gòu)作為都為最大值,然后再挑出其中似然率最大的拓?fù)浣Y(jié)構(gòu)作為最優(yōu)樹最優(yōu)樹。在最大似然法的分析中,所考慮的參數(shù)并不是拓?fù)浣Y(jié)構(gòu)而是每個(gè)拓?fù)浣Y(jié)構(gòu)的枝長,并對(duì)似然率求最大值來估計(jì)枝長 。最大似然法的建樹過程是個(gè)很費(fèi)時(shí)的過程,因?yàn)樵诜治鲞^程中有很大的計(jì)算量,每個(gè)步驟都要考慮內(nèi)部節(jié)點(diǎn)的所有可能性。最大似然法是一個(gè)比較成熟的參數(shù)估計(jì)的統(tǒng)計(jì)學(xué)方法,具有很好的統(tǒng)計(jì)學(xué)理論基礎(chǔ),在當(dāng)樣本量很大的時(shí)候,似然法可以獲得參數(shù)統(tǒng)計(jì)
45、的最小方差。只要使用了一個(gè)合理的、正確的替代模型,最大似然法可以推導(dǎo)出一個(gè)很好的進(jìn)化樹結(jié)果。 最大似然法(ML)所以在構(gòu)建進(jìn)化樹之前,首先要對(duì)目標(biāo)多序列聯(lián)配進(jìn)行分析,所以在構(gòu)建進(jìn)化樹之前,首先要對(duì)目標(biāo)多序列聯(lián)配進(jìn)行分析,以選擇最佳的建樹模型以選擇最佳的建樹模型由于最大似然法的分析過程需要耗費(fèi)較多的時(shí)間,針對(duì)這種情況,發(fā)展出了許多優(yōu)化的可以加快最大似然法尋找最優(yōu)樹的搜索方法,如啟發(fā)式搜索,分枝交換搜索等。最大似然法具有堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)理論基礎(chǔ),充分的使用了分析序列中的信息資源,只要采用了合理的替代模型,可以得出很好的進(jìn)化樹分析結(jié)果。最大似然法(ML)important構(gòu)建進(jìn)化樹的一般原則 1. 可靠
46、的待分析數(shù)據(jù)(核苷酸或蛋白質(zhì)序列) 2. 準(zhǔn)確的多序列比對(duì) 3. 選擇合適的建樹方法: A. 序列相似程度高,MP首先 B. 序列相似程度較低,ML首先 C. 序列相似程度太低,無意義 4. 一般采用兩種及以上方法構(gòu)建進(jìn)化樹,無顯著區(qū)別可接受構(gòu)建進(jìn)化樹的一般原則 (2)選擇外類群(Outgroup)選擇一個(gè)或多個(gè)已知與分析序列關(guān)系較遠(yuǎn)的序列作為外類群外類群可以輔助定位樹根外類群序列必須與剩余序列關(guān)系較近,但外類群序列與其他序列間的差異必須比其他序列之間的差異更顯著。bacteria outgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarcha
47、eaarchaea外圍群外圍群進(jìn)化樹的可靠性分析進(jìn)化樹的可靠性分析(一)自舉法(Bootstrap Method)從排列的多序列中隨機(jī)又放回的抽取某一列,構(gòu)成相同長度的新的排列序列重復(fù)上面的過程,得到多組新的序列對(duì)這些新的序列進(jìn)行建樹,再觀察這些樹與原始樹是否有差異,以此評(píng)價(jià)建樹的可靠性 自舉檢驗(yàn)自舉檢驗(yàn)因其具有較嚴(yán)格的統(tǒng)計(jì)學(xué)背景,加之計(jì)算機(jī)因其具有較嚴(yán)格的統(tǒng)計(jì)學(xué)背景,加之計(jì)算機(jī)模擬技術(shù)的迅速發(fā)展,該方法模擬技術(shù)的迅速發(fā)展,該方法已經(jīng)成為系統(tǒng)發(fā)生分析中很已經(jīng)成為系統(tǒng)發(fā)生分析中很受歡迎的算法受歡迎的算法,并在分子進(jìn)化與系統(tǒng)發(fā)育分析研究中發(fā)揮,并在分子進(jìn)化與系統(tǒng)發(fā)育分析研究中發(fā)揮愈來愈重要的作用。
48、愈來愈重要的作用。但自舉檢驗(yàn)也有幾點(diǎn)不足之處:但自舉檢驗(yàn)也有幾點(diǎn)不足之處: 非常耗時(shí);非常耗時(shí); 次數(shù)太少時(shí)重復(fù)產(chǎn)生的結(jié)果常常不可靠;次數(shù)太少時(shí)重復(fù)產(chǎn)生的結(jié)果常常不可靠;具有低估置信度的傾向。具有低估置信度的傾向。(二)參數(shù)檢驗(yàn)(二)參數(shù)檢驗(yàn)(parameter test) 參數(shù)檢驗(yàn)是簡約分析法構(gòu)建的系統(tǒng)樹的常用檢驗(yàn)方法參數(shù)檢驗(yàn)是簡約分析法構(gòu)建的系統(tǒng)樹的常用檢驗(yàn)方法。該檢。該檢驗(yàn)方法假設(shè)比對(duì)中的各個(gè)信息位點(diǎn)彼此獨(dú)立而且等價(jià),并用兩驗(yàn)方法假設(shè)比對(duì)中的各個(gè)信息位點(diǎn)彼此獨(dú)立而且等價(jià),并用兩棵系統(tǒng)樹的最小替換數(shù)之差棵系統(tǒng)樹的最小替換數(shù)之差D作為檢驗(yàn)統(tǒng)計(jì)量,分別考慮每個(gè)信作為檢驗(yàn)統(tǒng)計(jì)量,分別考慮每個(gè)信息
49、位點(diǎn),按下式計(jì)算反映息位點(diǎn),按下式計(jì)算反映D變化程度的變化程度的V值:值:V=n/(n-1)Di -(1/n)(Dk)2 其中其中n是信息位點(diǎn)的數(shù)目。是信息位點(diǎn)的數(shù)目。n-1個(gè)自由度的個(gè)自由度的t檢驗(yàn),可以用來檢驗(yàn)空假設(shè),檢驗(yàn),可以用來檢驗(yàn)空假設(shè),即兩棵系統(tǒng)樹的替換數(shù)相等的情況:即兩棵系統(tǒng)樹的替換數(shù)相等的情況:t=(D/n)/(v) 1/2n1/2常見的分子進(jìn)化分析程序1. Phylip 由華盛頓大學(xué)遺傳學(xué)系開發(fā),是一個(gè)免費(fèi)的系統(tǒng)發(fā)育分析軟件包,可以通過以下地址下載。/phylip.html2. PAUP* 最早是在
50、蘋果機(jī)上開發(fā)的具有菜單界面的進(jìn)化分析軟件,早先版本只有MP法,后續(xù)版本已經(jīng)包括距離法和ML法,現(xiàn)今有mac,win,linux等多種版本,該軟件不是免費(fèi)軟件,使用者需要向開發(fā)者購買。MP法可適用于蛋白序列,其它法需用核苷酸序列。3. MEGA4. Phyml (最大似然法建樹最大似然法建樹)5. Tree puzzle6. Mrbayes (貝葉斯法建樹貝葉斯法建樹) 。Phylip軟件包介紹軟件包介紹 Phylip是一個(gè)免費(fèi)的系統(tǒng)發(fā)生(phylogenetics)分析軟件包。以下鏈接可以下載: http:/evolution.genetics,/phylip.ht
51、ml 由華盛頓大學(xué)遺傳學(xué)系開發(fā),1980年首次公布,目前的版本是3.6(2000年6月)。 Phylip包含了35個(gè)獨(dú)立的程序,這些獨(dú)立的程序都實(shí)現(xiàn)特定的功能,這些程序基本上包括了系統(tǒng)發(fā)生分析的所有方面。 Phylip有多種不同平臺(tái)的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。 Phylip是目前最廣泛使用的系統(tǒng)發(fā)生分析程序,主要包括一下幾個(gè)程序組:分子序列組,距離矩陣組,基因頻率組,離散字符組,進(jìn)化樹繪制組。分子序列組: 1.蛋白質(zhì)序列:protpars,proml,promlk, protdist 2.核酸序列:dnapenny,dnapa
52、rs, dnamove,dnaml,dnamlk, dnainvar,dnadist,dnacompPhylip軟件包分組介紹距離矩陣組:Fitch,kitsch,neighbor基因頻率組:Gendist,contml離散字符組Pars,mix,move,penny,dollop,dolmove,dolpenny,clique,factorPhylip軟件包分組介紹進(jìn)化樹繪制組:drawtree,drawgram其他:restdist,restml,seqboot,contrast treedist,consense,retree Phylip軟件包的文檔是非常詳細(xì)的,對(duì)于每個(gè)獨(dú)立的程序,都
53、有一個(gè)獨(dú)立的文檔,詳細(xì)的介紹了該程序的使用及其說明。 此外,Phylip軟件包還包括程序的源代碼(c語言)。Phylip軟件包的文檔Phylip軟件包的應(yīng)用1、根據(jù)你的分析數(shù)據(jù),選擇適當(dāng)?shù)某绦?如,你分析的是DNA數(shù)據(jù),就在核酸序列分析類中選擇程序(dnapenny,dnapars, dnamove,dnaml,dnamlk, dnainvar,dnadist,dnacomp ); 如果分析的是離散數(shù)據(jù),如突變位點(diǎn)數(shù)據(jù),就在離散字符組里面選擇程序。2、選擇適當(dāng)?shù)姆治龇椒?如你分析的是DNA數(shù)據(jù),可以選擇簡約法(DNAPARS),似然法(DNAML, DNAMLK),距離法等(DNADIST)。
54、Phylip軟件包的應(yīng)用3、進(jìn)行分析 選擇好程序后,執(zhí)行,讀入分析數(shù)據(jù),選擇適當(dāng)?shù)膮?shù),進(jìn)行分析,結(jié)果自動(dòng)保存為outfile,outtree。 Outfile是一個(gè)記錄文件,記錄了分析的過程和結(jié)果,可以直接用文本編輯器(如寫字板)打開。outtree是分析結(jié)果的樹文件,可以用phylip提供的繪樹程序打開查看,也可以用其他的程序來打開,如treeview,MEGAPhylip軟件包的應(yīng)用實(shí)例實(shí)例利用距離法構(gòu)建進(jìn)化樹利用距離法構(gòu)建進(jìn)化樹具體步驟:具體步驟:Seqboot.exeProtdist.exe (dnadist)Neighbor.exeConsensus.exe步驟一步驟一 用用PHY
55、LIP構(gòu)建系統(tǒng)發(fā)育樹構(gòu)建系統(tǒng)發(fā)育樹 首先使用SEQBOOT.EXE工具輸入多序列比對(duì)文檔lesson7.phySeqboot 工具工具輸入輸入lesson7.phy 在Random number seed (must be odd) ?提示下輸入任何4N+1的數(shù)字, 如101 其他選項(xiàng)設(shè)置默認(rèn),輸入Y,回車 運(yùn)算并生成outfile文件隨機(jī)種子數(shù)隨機(jī)種子數(shù)輸入輸入4N+1的數(shù)字的數(shù)字統(tǒng)計(jì)檢驗(yàn)的方法統(tǒng)計(jì)檢驗(yàn)的方法重復(fù)抽樣的次數(shù)重復(fù)抽樣的次數(shù)10010000接受默認(rèn)設(shè)置接受默認(rèn)設(shè)置輸入輸入Y 將outfile更名results1后,雙擊打開PROTDIST.EXE工具把把outfile更名為更名為
56、results1打開打開PROTDIST工具工具 輸入results1 選擇修改M選項(xiàng),輸入100 其他設(shè)置默認(rèn),輸入Y,回車 計(jì)算生成新的outfile文件輸入輸入results1距離模型距離模型是否處理多樣本數(shù)是否處理多樣本數(shù)據(jù)集,默認(rèn)為否據(jù)集,默認(rèn)為否選擇選擇M,要處理多樣本數(shù)據(jù)集,要處理多樣本數(shù)據(jù)集輸入多樣本數(shù)據(jù)集的樣本集數(shù)輸入多樣本數(shù)據(jù)集的樣本集數(shù)目,與目,與Seqboot中的設(shè)置要一致中的設(shè)置要一致M選項(xiàng)以發(fā)生改變選項(xiàng)以發(fā)生改變其他設(shè)置默認(rèn),輸入其他設(shè)置默認(rèn),輸入Y 將outfile更名results2后,雙擊打開NEIGHBOR.EXE工具把把outfile更名為更名為resul
57、ts2打開打開NEIGHBOR工具工具 輸入results2 修改O選項(xiàng),輸入23 選擇修改M選項(xiàng),輸入100 其他設(shè)置默認(rèn),輸入Y,回車 計(jì)算生成outfile和treefile文件輸入輸入results2選用的距離法選用的距離法選擇外類群選擇外類群是否處理多樣本數(shù)據(jù)集,默認(rèn)為否是否處理多樣本數(shù)據(jù)集,默認(rèn)為否輸入輸入O,要設(shè)置外類群,要設(shè)置外類群輸入輸入23,表示是第,表示是第23條序列作為外類群條序列作為外類群選擇選擇M,要處理多樣本數(shù)據(jù)集,要處理多樣本數(shù)據(jù)集,輸入多樣本數(shù)據(jù)集的樣本集數(shù)目,輸入多樣本數(shù)據(jù)集的樣本集數(shù)目,與前面步驟中的設(shè)置要一致與前面步驟中的設(shè)置要一致其他設(shè)置默認(rèn),輸入其他
58、設(shè)置默認(rèn),輸入Youtfiletreefile構(gòu)建的系統(tǒng)構(gòu)建的系統(tǒng)發(fā)育樹,每發(fā)育樹,每個(gè)樣本對(duì)應(yīng)個(gè)樣本對(duì)應(yīng)一個(gè)系統(tǒng)樹一個(gè)系統(tǒng)樹 將treefile更名results3后,雙擊打開CONSENSE.EXE工具把把treefile更名為更名為results3打開打開CONSENSE工具工具 輸入results3 修改O選項(xiàng),輸入23 默認(rèn)R選項(xiàng),構(gòu)建無根樹 其他設(shè)置默認(rèn),輸入Y,回車 計(jì)算生成outfile和treefile文件輸入輸入O,設(shè)置外類群,設(shè)置外類群,輸入輸入23,表示是第,表示是第23條序列作為外類群條序列作為外類群輸入輸入results3選擇外類群選擇外類群構(gòu)建無根樹構(gòu)建無根樹其他
59、設(shè)置默認(rèn),輸其他設(shè)置默認(rèn),輸入入Y 使用TreeView打開treefileTreeView http:/taxonomy.zoology.gla.ac.uk/rod/treeview/1.6.6/treev32.zip外類群外類群AtGLRClade IIAtGLRClade IAtGLRClade III哺乳動(dòng)物哺乳動(dòng)物Bootstrap value利用利用MEGA建樹建樹先將多序列比對(duì)轉(zhuǎn)換成先將多序列比對(duì)轉(zhuǎn)換成MEGA格式格式轉(zhuǎn)換成轉(zhuǎn)換成MEGA格式格式后,將文件保存到后,將文件保存到PC機(jī)上機(jī)上正確選擇輸正確選擇輸入文件類型入文件類型根據(jù)多序列比對(duì)根據(jù)多序列比對(duì)文件里序列的類文件里序列的類型型(蛋白質(zhì)或核苷蛋白質(zhì)或核苷酸酸)進(jìn)行選擇進(jìn)行選擇打開打開.meg文件文件.meg文件文件已打開已打開選擇建樹方法選擇建樹方法這里選擇了這里選擇了NJ法法建樹,同時(shí)用建樹,同時(shí)用bootstrap法進(jìn)行法進(jìn)行可靠性檢測可靠性檢測參數(shù)設(shè)置:參數(shù)設(shè)置:Gaps/Missing Data: pairwise deletionModel: 通常情況下選通常情況下選poisson correction,若序列間同,若序列間同源性較低,則選擇源性較低,則選擇p-distance生成系統(tǒng)進(jìn)化樹,生成系統(tǒng)進(jìn)化樹,這里是無根樹,這里是無根樹,若設(shè)置外圍群若設(shè)置外圍群(outgroup)即
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度工傷人員傷殘?jiān)u定及賠償協(xié)議
- 2025年度集體合同協(xié)商中的勞動(dòng)爭議處理
- 2025年度幼兒園保安聘用合同標(biāo)準(zhǔn)范本
- 二零二五年度專業(yè)護(hù)工針對(duì)心血管疾病病人護(hù)理合同
- 2025年度中小企業(yè)發(fā)展基金借款連帶擔(dān)保人合同
- 2025年度單位食堂承包及員工滿意度提升協(xié)議
- 2025年度知識(shí)產(chǎn)權(quán)股份代持許可使用協(xié)議
- 2025年度國際文化交流項(xiàng)目合作誠意金協(xié)議
- 2025年度工程監(jiān)理個(gè)人勞動(dòng)合同(工程質(zhì)量安全管理)
- 2025年度航空航天器復(fù)合材料維修合同
- 編紙條 市賽獲獎(jiǎng) 完整版課件
- 玩具公司職位說明書匯編
- 平面設(shè)計(jì)創(chuàng)意與制作課件
- 化學(xué)專業(yè)英語元素周期表
- 新湘版小學(xué)科學(xué)四年級(jí)下冊(cè)教案(全冊(cè))
- Q∕SY 06349-2019 油氣輸送管道線路工程施工技術(shù)規(guī)范
- 腎內(nèi)科臨床診療規(guī)范(南方醫(yī)院)
- 實(shí)驗(yàn)心理學(xué)課件(周愛保博士版)
- 04 第三章 環(huán)境污染物的生物轉(zhuǎn)運(yùn)和生物轉(zhuǎn)化 -毒物動(dòng)力學(xué)
- 珍愛生命 安全第一 中小學(xué)主題教育班會(huì)
- 殺蟲雙(單)合成反應(yīng)的研究及其工藝條件的優(yōu)化
評(píng)論
0/150
提交評(píng)論