生物信息處理-總復(fù)習

上傳人：0*** IP屬地：湖北上傳時間：2023-02-03 格式：PPT 頁數(shù)：132 大小：6.28MB 積分：28 舉報 版權(quán)申訴

已閱讀5頁，還剩127頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

生物信息處理

總復(fù)習研究對象基因：具有遺傳效應(yīng)的DNA片段蛋白質(zhì)：調(diào)控和實現(xiàn)幾乎所有生物功能的分子機器研究對象教學(xué)內(nèi)容

第一章分子生物學(xué)和生物化學(xué)第二章數(shù)據(jù)庫搜索與兩兩比對第三章替換模式第四章基于距離的系統(tǒng)發(fā)生分析第五章基于特征的系統(tǒng)發(fā)生分析第六章基因組學(xué)與基因識別第七章蛋白質(zhì)和RNA結(jié)構(gòu)預(yù)測第八章蛋白質(zhì)組學(xué)基因蛋白質(zhì)第一章分子生物學(xué)和生物化學(xué)第一節(jié)遺傳物質(zhì)DNA（脫氧核糖核酸）是遺傳物質(zhì)，存儲在DNA中的信息，使無活力的分子組織成為有功能的活細胞，進而構(gòu)成能夠進行新陳代謝、生長繁殖的生物體基因（Genes）是具有遺傳效應(yīng)的DNA片段是DNA的載體——染色體（chromosome）、葉綠體、線粒體核苷酸是構(gòu)成核酸分子（DNA和RNA）的基本單位

磷酸基團核苷酸核糖

戊糖脫氧核糖

堿基（A、G、T、C）

1.1核苷酸（nucleotide）

腺嘌呤鳥嘌呤胸腺嘧啶胞嘧啶DNA的連接及取向取向——核苷酸只能結(jié)合在生長中的DNA或RNA分子的3’上，

5’端的序列為上游，3’端的序列為下游連接——兩個核苷酸之間通常是通過3’,5’-磷酸二酯鍵連接的有機化學(xué)家用數(shù)字1’～5’標明脫氧核糖的5個碳原子54321堿基配對

DNA分子的兩條鏈是反向互補的互補配對：G—CA—TG與C，A與T的配對是特異的、穩(wěn)定的DNARNA新生肽DNACDNA蛋白質(zhì)轉(zhuǎn)錄翻譯RNA聚合酶核糖體復(fù)制逆轉(zhuǎn)錄折疊生物學(xué)中心法則：信息從基因的核苷酸序列中被提取出，以用來指導(dǎo)蛋白質(zhì)合成的過程，這個過程對地球上所有生物都是相同的A、G、T、CA、G、U、C氨基酸鏈互補DNA中心法則原核生物中，基因的轉(zhuǎn)錄和翻譯同時進行；真核生物中，基因表達的兩個步驟被核膜在空間上隔開.中心法則基因（Gene）是產(chǎn)生一條多肽鏈或功能RNA所必需的全部核苷酸序列。它是一種DNA序列，在有些病毒中則是一種RNA序列?；虮磉_（Geneexpression）利用存儲在DNA中的信息合成RNA分子，然后再合成相應(yīng)蛋白質(zhì)的過程所有細胞將調(diào)控的重點放在基因表達的最開始，必須具有兩種辨別能力：必須正確區(qū)別生物體基因組中與基因起點相關(guān)的部分和不相關(guān)的部分必須能確定那些基因編碼在特定的時空下所必需的蛋白質(zhì)RNA聚合酶在基因表達起始階段負責合成基因的RNA拷貝，因此由它們負責以上兩個辨別任務(wù)基因及基因表達由調(diào)控基因編碼的蛋白質(zhì)結(jié)合在DNA上靠近其所控制的基因的啟動子區(qū)域附近，由此來控制這些基因在一定條件下的表達。這些調(diào)控蛋白感知細胞的化學(xué)環(huán)境，并決定是否結(jié)合在特定的核苷酸序列上，正是這種能力使生物體能恰當?shù)貙ν饨绛h(huán)境做出反應(yīng)若這些調(diào)控蛋白的結(jié)合使RNA聚合酶更容易啟動轉(zhuǎn)錄，則發(fā)生正調(diào)控若這些調(diào)控蛋白的結(jié)合阻礙RNA聚合酶啟動轉(zhuǎn)錄，則發(fā)生負調(diào)控基因調(diào)控原核生物的RNA聚合酶掃描整個DNA，尋找標記基因起點的約為13個核苷酸長度的特定核苷酸序列。這些核苷酸作為一個整體，稱為啟動子序列。相應(yīng)的，真核生物的RNA聚合酶要識別更為復(fù)雜和更長的啟動子序列基因結(jié)構(gòu)——啟動子序列

翻譯從mRNA的翻譯起始位點開始，遇到終止密碼子(stopcodon)結(jié)束開放閱讀框：一長串未被終止密碼子打斷的密碼子串，它是許多原核生物和真核生物的明顯特征核糖體只有在正確的相位或閱讀框中閱讀才能準確的翻譯，而閱讀框是由起始密碼子決定的，基因閱讀框的變化會產(chǎn)生提前的終止密碼子基因結(jié)構(gòu)——開放閱讀框真核生物轉(zhuǎn)錄的mRNA在接觸到核糖體之前需要被修飾最重要的修飾作用——剪接剪接：將mRNA中內(nèi)含子的內(nèi)部序列精確剪切掉并將其兩側(cè)的外顯子重新連接基因結(jié)構(gòu)——剪切、內(nèi)含子、外顯子不正確的剪切內(nèi)含子將導(dǎo)致移碼突變或提前產(chǎn)生終止密碼子，翻譯出無用的蛋白質(zhì)可變剪接(alternativesplicing)：不同類型的細胞中，剪切結(jié)果有所不同。由識別內(nèi)含子/外顯子邊界的剪接體及附屬蛋白的精巧機制實現(xiàn)的。它大大增強了真核生物體蛋白質(zhì)的多樣性?；蚪Y(jié)構(gòu)——剪切、內(nèi)含子、外顯子蛋白質(zhì)在改變細胞化學(xué)環(huán)境方面起主要的作用，而氨基酸是構(gòu)成蛋白質(zhì)的基本單位。蛋白質(zhì)的功能取決于翻譯過程中核糖體裝配的氨基酸序列，而該序列取決于翻譯RNA聚合酶轉(zhuǎn)錄成RNA分子中的編碼指令只有4種不同的核苷酸構(gòu)成RNA和DNA分子，而蛋白質(zhì)構(gòu)造中卻有20種不同的氨基酸mRNA上每三個連續(xù)核苷酸對應(yīng)一個氨基酸，這三個核苷酸就稱為一個密碼子，或三聯(lián)體密碼（tripletcode）核糖體利用三聯(lián)密碼將DNA和RNA的信息翻譯成蛋白質(zhì)中的氨基酸序列遺傳密碼1．連續(xù)性。mRNA的讀碼方向從5‘端至3’端方向，兩個密碼子之間無任何核苷酸隔開。2．簡并性。指一個氨基酸具有兩個或兩個以上的密碼子。密碼子的第三位堿基改變往往不影響氨基酸翻譯。3．通用性。蛋白質(zhì)生物合成的整套密碼，從原核生物到人類都通用。但已發(fā)現(xiàn)少數(shù)例外，如動物細胞的線粒體、植物細胞的葉綠體。遺傳密碼的特點蛋白質(zhì)(protein)是信息轉(zhuǎn)化成生物結(jié)構(gòu)和功能的表達者，是調(diào)控和實現(xiàn)所有生物功能的分子機器。人體的所有組織器官都會有蛋白質(zhì)，蛋白質(zhì)是生命的物質(zhì)基礎(chǔ)。一般說，蛋白質(zhì)約占人體全部質(zhì)量的18％，最重要的還是其與生命現(xiàn)象有關(guān)。蛋白質(zhì)和核酸是生命存在的主要形式。蛋白質(zhì)的功能蛋白質(zhì)是線性的氨基酸合成的結(jié)果，但在生物體內(nèi)會迅速折疊成一個緊密的球狀結(jié)構(gòu)。大多數(shù)蛋白質(zhì)只有在折疊成天然球狀結(jié)構(gòu)的時候才能具有完全的生物活性。去折疊（變性）蛋白質(zhì)在允許重新折疊的實驗條件下可以折疊到原來的結(jié)構(gòu)。

氨基羧基側(cè)鏈蛋白質(zhì)組成——氨基酸20種標準氨基酸具有相似的化學(xué)結(jié)構(gòu),其特征為：氨基酸分子中的α碳（分子中第2個碳）結(jié)合著一個堿性的氨基和一個酸性的羧基，此外Cα還結(jié)合著一個H原子和一個側(cè)鏈基團（用R表示）。每一種氨基酸的R都是不同的，側(cè)鏈上的碳依次是第3、4、5和6位碳。每個氨基酸都相同的區(qū)域叫做骨架，而可變的R基團叫做側(cè)鏈氨基酸幾個氨基酸組成的氨基酸鏈稱作肽，一條較長的氨基酸鏈通常稱為多肽（>10個）或者蛋白質(zhì)(>50個）。當兩個氨基酸實現(xiàn)共價結(jié)合的時候，一個氨基酸的氨基丟失一個氫，同時另一個氨基酸丟失一個氧和一個氫，脫水生成肽鍵。

多肽

一級結(jié)構(gòu)(primarystructure)不同氨基酸裝配形成蛋白質(zhì)的次序稱為蛋白質(zhì)的序列，也叫蛋白質(zhì)的一級結(jié)構(gòu)多肽鏈中氨基酸殘基的排列序列，開始于氨基端(aminoterminus)，結(jié)束于羧基端(carboxyterminus)。氨基酸的順序很大程度上決定了蛋白質(zhì)的折疊方式。蛋白質(zhì)骨架的化學(xué)特性使骨架的大多數(shù)保持平面狀態(tài)。蛋白質(zhì)骨架中唯一可轉(zhuǎn)動的部位是α碳與氮原子之間的鍵α碳與羰基碳（與氧原子以雙鍵相連的碳）之間的鍵蛋白質(zhì)——一級結(jié)構(gòu)仔細觀察結(jié)構(gòu)已知的蛋白質(zhì)，可以發(fā)現(xiàn)在局部結(jié)構(gòu)中只有很少的幾種共同模式，這種由規(guī)則的分子內(nèi)氫鍵形成的結(jié)構(gòu)，幾乎在已知的蛋白質(zhì)中都可以發(fā)現(xiàn)。這些規(guī)則結(jié)構(gòu)的位置和方向形成蛋白質(zhì)的二級結(jié)構(gòu)兩種最常見種類為α-螺旋和β-折疊

α-螺旋：肽鏈主鏈骨架圍繞中心軸盤旋成螺旋狀的結(jié)構(gòu)。

β-折疊：在多肽鏈之間或一條肽鏈的肽段之間靠氫鍵聯(lián)結(jié)而成的鋸齒狀片層結(jié)構(gòu)。包括平行折疊和反

平行折疊蛋白質(zhì)——二級結(jié)構(gòu)

三級結(jié)構(gòu)(tertiarystructure)

蛋白質(zhì)二級結(jié)構(gòu)聚集在一起并與蛋白質(zhì)骨架中別的非規(guī)則結(jié)構(gòu)區(qū)域結(jié)合形成整體的三維形狀（球狀結(jié)構(gòu)）四級結(jié)構(gòu)（quaternarystructure）

活性酶通常是由2個或更多個蛋白質(zhì)鏈組合在一起而形成的一種復(fù)合體，這種由相互作用的蛋白質(zhì)形成的整體結(jié)構(gòu)被稱為酶的四級結(jié)構(gòu)兩條以上多肽鏈聚集化學(xué)鍵本質(zhì)原子結(jié)構(gòu)電子排布化合價電負性極性非極性親水性疏水性氫鍵原子最外層軌道中未成對電子的數(shù)目，稱做該原子的化合價原子的化學(xué)性質(zhì)依賴于其最外層電子。由于原子內(nèi)部大部分空間是空的，在正常的化學(xué)反應(yīng)中原子核永遠不會相遇。質(zhì)子數(shù)是不變的，但電子的位置（有時甚至是數(shù)量）會有所改變雖然保持電荷平衡在自然界具有最高優(yōu)先權(quán)，但也存在著一種要保持原子最外層軌道全滿或全空的強烈趨勢。這些潛在的對立趨勢可以通過允許電子軌道相互重疊而得到解決。由于電子軌道重疊而導(dǎo)致共用電子的出現(xiàn)，是使兩個原子長期結(jié)合的典型情況，也是形成共價鍵的基礎(chǔ)化合價與共價鍵元素原子核在分子中對成鍵電子的吸引能力，稱為電負性；不同原子核對電子的親和力不同原子相對電負性是指為了填滿或清空最外層軌道所需要或提供的電子數(shù)目鍵的極性與元素的電負性有關(guān)，通過元素的相對

電負性,可以大致判斷兩種原子生成化合物分子時,

形成的電子對的偏移程度。電負性極性電負性值較大的元素在形成化合物時，由于對成鍵電子吸引較強，往往帶有負電；而電負性值較小者帶有正電。在形成共價鍵時，共用電子對偏移向電負性較強的原子而使鍵帶有極性。例如：H和C最外層電子都是半充滿的，電負性本

質(zhì)上相同；而O必須獲得2個電子或失去6個電子，

電負性相對較高。因而CH4和H2O原子鍵的極性不

同氫鍵（hydrogenbonding）極性共價鍵導(dǎo)致電荷的輕微分離有助于形成一種重要的分子間相互作用，即氫鍵。由于水分子中氫原子輕微的正電荷與相鄰水分子中氧原子輕微的負電荷的相互吸引作用，使每一個水分子都處于水分子網(wǎng)絡(luò)中并與別的水分子以較弱的力相聯(lián)系。氫鍵的鍵能一般在42kJ·mol-1以下，比共價鍵的鍵能（一般在200kJ·mol-1以上）小得多，而與分子間力更為接近些，但這是維持蛋白質(zhì)二級結(jié)構(gòu)重要的化學(xué)鍵。打破氫鍵所需要的能量比打破共價鍵要低得多，這是因為氫鍵中沒有共用電子化學(xué)家發(fā)現(xiàn)，多數(shù)化學(xué)物質(zhì)可以輕易地分成兩類：極性分子：具有極性鍵的分子，表

面具有能與水形成氫鍵的帶電荷區(qū)

域，因而具有親水性（hydrophilic）非極性分子：原子間僅以非極性共價

鍵相連的分子，妨礙水分子間相互

作用且阻礙它們抵消部分電荷，因而具有疏水性（hydrophobic）疏水作用及疏水和親水的平衡在蛋白質(zhì)結(jié)構(gòu)與功能的方方面面都起著重要的作用。乙醇甲烷親水性與疏水性分子生物學(xué)家通過利用很少幾種常用工具產(chǎn)生所要分析的原始數(shù)據(jù)，一套大約6種不同的實驗室技術(shù)組合代表了分子生物學(xué)目前的全部內(nèi)容。限制性酶消化凝膠電泳印跡和雜交克隆聚合酶鏈式反應(yīng)DNA測序分子生物學(xué)工具作用方法20世紀60年代末，在大腸桿菌中首先發(fā)現(xiàn)了一種酶(EcoRⅠ)，它能準確識別外來的DNA，并且在遇到特定核苷酸片段時，就將其打斷。EcoRⅠ

是應(yīng)用最廣泛的限制性內(nèi)切酶，酶切位點和切割位點如下：

限制性內(nèi)切酶DNA序列分析，將龐大的DNA分子切割成小片段便于序列分析；DNA重組；建立DNA的物理圖譜等。酶切分析應(yīng)用對于幾百萬個堿基對（如大腸桿菌基因組）甚至幾十億個堿基對（如人類基因組）的基因組，即使用特定的限制酶完全消化，也將產(chǎn)生成千上萬條DNA片段。通常采用分子生物學(xué)的另一種工具——凝膠電泳方法來將這些片段分開

凝膠電泳凝膠電泳通常用于分離不同物理性質(zhì)（如大小、形狀、等電點等）的分子，既可用做分析用途，但也可以作為制備技術(shù)。原理：遷移速率與分子量對數(shù)、凝膠濃度成反比，分子越大則所受阻力越大，也越難于在凝膠孔隙中蠕行，因而遷移得越慢。操作：DNA（或RNA、蛋白質(zhì)）片段被加到多孔凝膠一端的加樣孔中，多孔凝膠通常由瓊脂糖或丙酰胺制成。當在凝膠加上電場時，帶電荷分子自然向電場兩極之一移動。小分子比大分子更容易通過凝膠，因而可以根據(jù)分子大小而分離分子。凝膠電泳目的：在成百上千個DNA片段中尋找含有某一特定基因的片段無異于大海撈針，即使這些DNA片段已按大小分開。分子生物學(xué)家通常運用另一種技術(shù)——印跡和雜交來尋找他們所要研究的目的片段印跡：將多核苷酸從脆弱的分離膠中轉(zhuǎn)移到更為結(jié)實的支持物（如硝酸纖維素膜或尼龍膜）上。印跡的機制很簡單，先使膜與膠接觸，然后通過毛細作用將膠上的的DNA牽拉到膜上，并保持電泳過程中所形成的相對位置不變。再用紫外光照射或簡單火烤，就可永久地將DNA片段結(jié)合在膜上。印記與雜交雜交：經(jīng)過標記的單鏈DNA片段稱為探針（probe），當探針與轉(zhuǎn)移到膜上的核苷酸配對時，雜交開始。探針長度通常為20多個核苷酸，它們是能與膜上的目的DNA片段唯一互補的序列。探針可以通過化學(xué)合成而得到，或者來自別的實驗中分離出的DNA片段，甚至來自不同生物體的相關(guān)基因。許多方法可用來標記探針，從放射性標記到熒光標記，甚至催化特定反應(yīng)的酶都可用來標記探針可以包括鹽、pH緩沖液和去污劑的探針溶液在膜上沖洗（經(jīng)常是幾個小時甚至過夜）?？梢酝ㄟ^控制反應(yīng)條件尤其是鹽濃度來控制雜交最后再沖洗去未結(jié)合的探針，檢測膜上哪些序列與探針形成了結(jié)合印記與雜交目的：細胞是按次序從單個DNA分子中提取并處理信息。而分子生物學(xué)家通常需要大量的裸眼可見的研究材料（幾百萬個分子）。DNA測序反應(yīng)，需要比來自與基因組DNA的限制酶消化和凝膠電泳更高純度的和更大量的DNA片段解決此類問題的簡單方法是通過細胞的幫助產(chǎn)生足夠數(shù)量和質(zhì)量的特定DNA分子。本質(zhì)上，克隆涉及將特定DNA片段插入類似于染色體的載體（vector）中，載體使它們能在活細胞內(nèi)進行復(fù)制（并分離出）。由于所有片段的拷貝都是相同的，所以也叫分子克隆。分子克隆三要素：目的基因、載體（vector）、宿主細胞一旦用以上方法產(chǎn)生包含目的序列的限制性片段，其粘性末端可用于連接到用限制性內(nèi)切酶切割后具有互補粘性末端的載體載體的共同特征允許自身在活細胞內(nèi)復(fù)制有利于證明它們存在在宿主細胞的特征序列有益于將它們從宿主細胞的DNA分子分離出來的明顯物理特征分子克隆目的基因獲得基因文庫：所有克隆到載體上的基因集合形成基因文庫。一個理想的基因文庫應(yīng)包括一個生物體DNA中每個片段的拷貝。cDNA文庫：是建立基因組文庫的另一個選擇。對基因組最感興趣的部分往往是與蛋白質(zhì)編碼區(qū)相關(guān)的部分。所有蛋白質(zhì)編碼區(qū)共有的特征是它們被核糖體翻譯之前全轉(zhuǎn)化為mRNA。逆轉(zhuǎn)錄酶可將這些mRNA與細胞內(nèi)其他多核苷酸分開，并將它們轉(zhuǎn)化為互補DNA（cDNA），然后克隆成為文庫的一部分cDNA文庫優(yōu)點在于抓住了基因組的關(guān)鍵部分cDNA文庫缺點是忽視了重要的調(diào)控序列和內(nèi)含子，而它們是與基因密切相關(guān)的

分子克隆1985年由K.Mullis創(chuàng)建，代替克隆的一種方法。該方法依賴于DNA聚合酶的兩種特性，方向性：所有DNA聚合酶在DNA合成時都將新的核苷酸加到DNA的3’端互補性：DNA聚合酶的工作是利用單鏈DNA分子的固有信息合成雙鏈DNA分子，并且DNA聚合酶只能通過將核苷酸添加到已存在的DNA鏈末端來開始DNA合成要素：少量DNA模板、引物、DNA聚合酶理論上經(jīng)n次循環(huán)后，DNA鏈可達2n聚合酶鏈式反應(yīng)PCR步驟由于擴增開始時加到反應(yīng)混合物中特定引物只結(jié)合到特定位點，所以DNA的合成只發(fā)生在基因組特定片段如同雜交試驗中的探針，PCR引物的長度通常為20或更多個核苷酸，以保證每一條引物都能唯一與基因組的目標序列結(jié)合最初合成引物的特定序列通常來自對親緣關(guān)系較近生物體的相似區(qū)域的DNA分析，有時需要經(jīng)過克隆和篩選這樣繁瑣的過程雖然擴增與克隆的用途相似，但是，擴增產(chǎn)生DNA分子的速度和效率比克隆方法更快、更有效。PCR擴增的一個突出優(yōu)點是只需要使用少量的樣品就可以開始擴增，而克隆需要更多的樣品量聚合酶鏈式反應(yīng)所有DNA測序策略都包括相同的3步：產(chǎn)生一整套相應(yīng)于待研究區(qū)域只相差一個核苷酸的小片段用4種不同的標簽標記每一個片段，標簽取決于片段末端的核苷酸利用片段間的大小差別分離那些片段（凝膠電泳），通過檢測不同標簽出現(xiàn)的順序讀出核苷酸的排列順序DNA測序F.Sanger末端終止法模板鏈引物雙脫氧核苷酸放射自顯影凝膠電泳互補鏈序列基因組

(Genome):一個生物體、細胞器或病毒的整套基因；如何在獲得其核苷酸序列之前就能對基因組信息的數(shù)量和復(fù)雜度有所了解？C值悖論復(fù)性動力學(xué)

基因組信息一個生物體的任何一個細胞中的DNA數(shù)量相同，這種細胞DNA總數(shù)量的量度稱為C值C值悖論：物種的C值與其進化復(fù)雜性之間無嚴格對應(yīng)關(guān)系相似物種間DNA總含量的差別經(jīng)常高達100倍或更多，這清楚的表明，在某些生物體中大部分DNA是可以忽略的，它們對生物體的復(fù)雜度并不起重要作用在比較簡單的生物中，C值大體與物種在形態(tài)學(xué)上的復(fù)雜度相一致在更為復(fù)雜的生物中，C值相差很大。例如：人類的C值為3.3×109bp，而最大的兩棲動物C值達1011bp。難道兩棲動物的結(jié)構(gòu)和功能會比哺乳動物更為復(fù)雜？C值悖論在一定意義上說，生物類群中C值變化范圍寬就意味著在某些生物中有些DNA是冗余的，對生物體的復(fù)雜度不起重要作用。DNA總量變化范圍的產(chǎn)生至少有一個原因，即在染色體上存在著不同數(shù)目的重復(fù)序列，這些重復(fù)序列是不表達的。

C值悖論變性——雙鏈DNA的互補鏈經(jīng)過加熱或堿處理而分開（變性），復(fù)性——當條件適宜（恢復(fù)到細胞內(nèi)的條件）時，分開的雙鏈很容易重新締合（復(fù)性，也叫退火）通過檢測變性DNA的復(fù)性過程可獲得很多關(guān)于基因組結(jié)構(gòu)的信息。簡而言之，基因組中的序列越特異，每一條鏈找到它的互補鏈的時間就越長，因此與其互補鏈雜交所需的時間也越長復(fù)性動力學(xué)第二章數(shù)據(jù)搜索與兩兩比對點陣圖評估兩條序列相似度最簡單的方法之一是利用點陣圖。第一條被比較的序列排列在點陣圖空間的橫軸，第二條序列則排列在縱軸。點陣空間中兩條序列中的殘基相同時，在對應(yīng)的位點上畫上圓點，兩條序列間連續(xù)相同的區(qū)域在圖中會形成由圓點組成的上斜線。AGTCCTGACTGAAGTC相同區(qū)域點陣圖滑動窗口技術(shù)當對長且相似的序列進行比較時，這樣的點陣圖很快就會變得非常復(fù)雜和擁擠。使用滑動窗口代替一次一個位點的比較是解決這個問題的有效方法。假設(shè)窗口大小為10，相似度閾值為8，則每次比較取10個連續(xù)的字符，如相同的字符超過8個，則標記為圓點基于滑動窗口的點矩陣方法可以明顯地降低點陣圖的噪聲，并且明確無誤的指示出了兩條序列間具有顯著相似性的區(qū)域。簡單比對比對就是兩條序列字符間簡單的兩兩匹配。比對可以反映出兩條或多條同源序列間的進化關(guān)系。兩條序列的相似度可以用一個數(shù)值來衡量序列給定位置可能發(fā)生的3種變異：插入刪除替換由于在被比較的序列中沒有與被插入或刪除核苷酸序列同源的序列，因此通常在比對時加入空位來反映此類變化最簡單的情況下即不考慮空位，當兩條序列對比時，要做的僅是為較短的序列選擇比對的起始點。不考慮空位的簡單比對，它的打分函數(shù)是由對比獎勵和罰分的和來決定匹配得分：1失配得分：0簡單比對——不考慮空位簡單比對——簡單空位罰分對含有空位的比對打分時，空位罰分就必須包含到打分函數(shù)中，空位比對的簡單打分公式如下：例如：假設(shè)匹配得分為1，失配得分為0，空位罰分為-1使用簡單空位罰分對兩條序列進行比對時，經(jīng)常能找到若干同是最優(yōu)的比對。進一步區(qū)分這些比對的方法是找出哪些比對包含較多的不連續(xù)空位，哪些包含數(shù)量較少而長度較長的空位片段?？紤]到競爭假說，那些不可能事件出現(xiàn)較少的比對就最可能是正確的比對?？瘴涣P分（由兩部分相加組成）起始罰分：由序列中產(chǎn)生的新空位串引起長度罰分：根據(jù)缺少的字符數(shù)而定的。預(yù)設(shè)長度罰分小于起始罰分，以此建立的打分函數(shù)便能獎勵空位連在一起的比對。簡單比對——起始罰分、長度罰分打分矩陣正如空位罰分可以獎勵與進化相關(guān)的的比對，失配罰分也可以用來進一步區(qū)分相似比對。統(tǒng)計結(jié)果表明，兩條同源的序列比對時，某些替換比其他替換常見的多。核苷酸打分矩陣a.單位矩陣b.BLAST矩陣c.轉(zhuǎn)換-顛換矩陣（transition，transversion）（嘌呤：腺嘌呤A，鳥嘌呤G；嘧啶：胞嘧啶C，胸腺嘧啶T）ATCGA1000T0100C0010G0001ATCGA5-4-4-4T-45-4-4C-4-45-4G-4-4-45ATCGA1-5-5-1T-51-1-5C-5-11-5G-1-5-51單位矩陣轉(zhuǎn)換-顛換矩陣BLAST矩陣為了得到打分矩陣，更常用的方法是統(tǒng)計自然界各種氨基酸參加的相互替換率。如果兩者特定的氨基酸間替換發(fā)生的比較頻繁，那么對這兩種殘基比對位點的打分會比較優(yōu)待；反之就要被罰分了常用氨基酸打分矩陣點接受突變（PAM）矩陣：（PointAcceptedMutation）一種基于統(tǒng)計替換率的常用打分矩陣BLOSUM矩陣：通過統(tǒng)計聚類技術(shù)來對相關(guān)蛋白質(zhì)的無空位比對進行分類常用打分矩陣PAM矩陣：針對不同的進化距離選擇PAM矩陣序列相似度=40%50%60%

|||打分矩陣=PAM120PAM80PAM60BLOSUM矩陣另一種常用打分矩陣，通過統(tǒng)計聚類技術(shù)來對相關(guān)蛋白質(zhì)的無空位比對進行分類與PAM矩陣類似，可以根據(jù)親緣關(guān)系的不同來選擇不同的BLOSUM矩陣進行序列比較。然而，BLOSUM矩陣的意義與PAM矩陣正好相反：低階BLOSUM矩陣更多是用來比較親緣較遠的序列。動態(tài)規(guī)劃:Needleman和Wunsch算法一旦選定了序列比對打分的方法，就可以為尋找最佳比對設(shè)計算法了。最顯而易見的方法就是對每個可能的比對進行窮舉搜索，但這一般是不可行的。比對的目的：在給定打分矩陣的情況下，僅僅獲取最佳比對值僅僅獲取與最佳比對值相對應(yīng)的序列我們可以用動態(tài)規(guī)劃解決這個問題，即把一個問題分解成計算量合理的子問題，并使用這些子問題的結(jié)果來計算最終答案。動態(tài)規(guī)劃步驟：初始化填充表格計算路徑0-1-2-3-4-5-1-2-3-4-5-6-7ACTCGACAGTAG用空位罰分的倍數(shù)對表格第一行與第一列進行初始化每一個格子保存子序列最優(yōu)比對值準全部比對在若干種兩序列比對中，我們需要的是區(qū)別對待末端空位與序列內(nèi)部空位，這種比對稱為準全局比對(semiglobalalignment)(1)通過初始化部分打分表，表格第一行與第一列為零；(2)允許表格最后一行與一列橫向與縱向的移動不被罰分；Needleman和Wunsch算法的改進（準全局比對）局部比對——Smith-Waterman算法局部比對1981年，由F.Smith和M.Waterman首次提出；動態(tài)規(guī)劃方法通過較少的改動便可以用來識別匹配的子序列，并且忽略匹配區(qū)域之前或之后的失配和空位;局部比對時，表中小于零的位置用零代替;得到的局部比對代表了被比兩條序列間的最佳的匹配子序列；局部比對方法可以識別子序列的匹配，而這是全局與準全局比對不可能做到的。

AACCTATAGCT數(shù)據(jù)庫搜索盡管序列比對是比較兩條已知序列的極為重要的工具，然而序列比對的更為常見的用途是用來搜索大量序列的數(shù)據(jù)庫，以找到與特定序列相似的那些序列。在數(shù)據(jù)庫搜索過程中，由于被搜索序列很長，而且數(shù)量巨大，用簡單而直接的方法將數(shù)據(jù)庫中的每條序列與查詢序列進行比對并返回得分最高的序列難以奏效。作為替代方法，各種索引方法與啟發(fā)方式被用來加快搜索的過程，雖然不能保證與查詢序列比對的最好的，但是能返回大部分與查詢序列比對較好的，而且這些方法的效率很高。BLAST及其家族序列數(shù)據(jù)庫搜索最著名且常用的工具之一是BLAST算法，原始的BLAST算法是通過搜索序列數(shù)據(jù)庫來找出最優(yōu)的無空位局部比對。BLASTP是BLAST算法的一種變種為了有效地搜索大型數(shù)據(jù)庫，BLASTP首先將查詢序列打碎成一個個單詞，通過查詢序列上滑動與單詞等長的窗口，來獲取查詢序列中所有可能的單詞。那些由最常見氨基酸組成的單詞會被棄之一邊，然后從數(shù)據(jù)庫中搜索余下單詞出現(xiàn)的情況每當從數(shù)據(jù)庫中找到一個單詞的匹配，就從單詞兩端延伸該匹配，直到比對得分低于給定的閾值為止BLAST算法例子FASTA及其相關(guān)算法FASTA算法及家族成員能夠進行序列間含空位的局部比對。FASTA搜索非常細致，需要時間也長的多。FASTA搜索也是將搜索序列打碎成單詞。對于基因組序列，單詞一般只4至6個核苷酸，而對于多肽，單詞長度一般為1至2個殘基。下一步為查詢序列建立一個表格，表格中記錄了各個單詞在序列中出現(xiàn)的位置對于氨基酸序列FAMLGFIKYLPGCM，假設(shè)單詞長度為1，那么：為了與目標序列比較，我們建立了第二個表格，該表格用來比較目標序列與查詢序列中氨基酸的相對位置目標序列TGFIKYLPGACT，那么123456789101112TGFIKYLPGACT3-2333-33-4-8210333單詞ACDEFGHIKLMNPQRSTVWY位置2131578431196121014對照表格發(fā)現(xiàn)，甘氨酸（G）在第一個表中位置為5、12，在第二個表中為-4、3，再觀察其它出現(xiàn)了很多距離為3的情況，這一現(xiàn)象暗示了一個可能的合理比對。通過兩條序列的偏移表，即可發(fā)現(xiàn)相同的區(qū)域。然后利用Smith-Waterman算法對它們進行比對。因為這是對相似序列的已知區(qū)域進行比對，所以比起完全使用動態(tài)規(guī)劃算法來進行查詢序列與所有可能目標序列直接的比對，F(xiàn)ASTA要快很多123456789101112TGFIKYLPGACT3-2333-33-4-8210333數(shù)據(jù)庫搜索的比對得分與統(tǒng)計顯著性數(shù)據(jù)庫搜索總會產(chǎn)生一個結(jié)果的，如果沒有更多的信息，被找出的序列不能認為與搜索序列有關(guān)假設(shè)某個數(shù)據(jù)庫搜索結(jié)果的比對得分為S，那么可以問這樣一個合理的問題：“假如有一組與查詢序列不相關(guān)的序列（甚至是隨機序列），那么在這些序列中隨機找到一個得分同為S的比對的概率有大的？”為了回答這個問題，數(shù)據(jù)庫搜索引擎一般都為每個搜索結(jié)果提供P得分和E得分E得分指的就是隨機找出的序列的期望數(shù)目，這些序列與查詢序列比對得分能大于等于SP得分指的是對于隨機找出的一條或多條序列，其比對得分大于等于S的可能性P與E的值比較低說明該結(jié)果與查詢序列具有進化上的關(guān)系第三章替換模式已經(jīng)發(fā)生的替換數(shù)目和性質(zhì)基因突變基因突變：一種核苷酸替換成另一種，以及插入/刪除事件有利的中性的不利的有利的變化實際上只占少數(shù)核苷酸序列的某些變化對一個生物體的影響比其他因素更大

突變：是指DNA的復(fù)制和修復(fù)過程中出現(xiàn)錯誤而導(dǎo)致的核苷酸序列的改變

替換：是指了某個層次上經(jīng)過自然選擇過濾后的突變突變率r=K/(2T)r：替換速率（突變率）K:來源于同一祖先的兩個序列之間的替換數(shù)量T：分叉時間K1K2TK=K1+K2功能約束自然選擇能夠杜絕導(dǎo)致生物體生存和繁衍能力下降的基因變化那些能夠引起蛋白質(zhì)催化性能及結(jié)構(gòu)特征變化的基因變化，會更加受制于自然選擇。十分重要的基因部分被認為受功能約束控制，它們在進化過程中趨向于非常緩慢的變化另外一些不會對氨基酸序列或表達方式造成影響的基因變化，很少受到自然選擇的糾正，因此這種類型的變化速度相對較快大量分析證實，基因不同部分的變化速度確實千差萬別，而這些速度正反映了不同部分受功能約束的程度同義和異義替換

同義替換：改變核苷酸編碼序列，但不影響蛋白質(zhì)的氨基酸序列的替換甘氨酸（GGG，GGA，GGU，GGC）

異義替換：改變核苷酸編碼序列，同時影響蛋白質(zhì)的氨基酸序列的替換甘氨酸（GGG）->丙氨酸（GCG）經(jīng)過詳細分析可以發(fā)現(xiàn)，基因的編碼序列發(fā)生同義替換的概率幾乎是異義替換的3倍

非簡并位點：該位點的變異都是導(dǎo)致替換

雙重簡并位點：該位點有兩種不同的核苷酸翻譯成同一種氨基酸，另外兩種不同的核苷酸則翻譯成不同的氨基酸

四重簡并位點：這一位點上無論是什么，都不會影響該密碼子的翻譯如果自然選擇在出現(xiàn)改變蛋白質(zhì)功能的變異的時候就起作用，那么很顯然，處于四重簡并位點的核苷酸替換的積累最為迅速，而處于非簡并位點的替換積累最為緩慢例：分類例子非簡并位點苯丙氨酸（UUU）

亮氨酸（CUU）

異亮氨酸（AUU）

纈氨酸（GUU）雙重簡并位點天冬氨酸（GAU，GAC）

谷氨酸（GAA，GAG）四重簡并位點甘氨酸（GGG，GGA，GGU，GGC）插入刪除和偽基因

在有轉(zhuǎn)錄活性的基因中，插入刪除很難發(fā)生。原因在于插入刪除會改變閱讀框。DNA和修復(fù)酶經(jīng)過億萬年的進化，已形成合理的機制，一般會使插入刪除比簡單的堿基替換發(fā)生的概率小10倍偽基因：更多時候復(fù)制出來的基因會成為偽基因，因為變異使得這樣的基因喪失了功能，失去了轉(zhuǎn)錄的活性。這些基因序列的替換積累速率相當高，略高于同一物種的基因的3’端側(cè)翼序列等位基因及固定絕大多數(shù)自然界現(xiàn)存的生物種群包含著大量的基因變異。舉個例子，人平均每200個堿基對中就有一個不同于其他人。一個物種某個基因的不同版本被稱之為等位基因。等位基因的差異變化很廣，從不會產(chǎn)生影響到產(chǎn)生嚴重后果。各種等位基因相對頻率的改變就是進化的基礎(chǔ)新的等位基因以非常低的頻率出現(xiàn)：q=1/2N

N是這個種群中具有繁殖活性的二倍體的數(shù)量

危及生物體生存和繁殖的突變，會在自然選擇中，從基因庫里掃地出門，這種突變頻率最終降為0

如果等位基因優(yōu)勢突出，其頻率就漸漸接近于1，即該等位基因被固定

個體之間發(fā)現(xiàn)的許多變異的優(yōu)勢或劣勢都不明顯，在本質(zhì)上是選擇中性的。

基因任何中性變異被固定的概率是q

這里q為該等位基因的相對頻率基因任何中性變異最終從種群中消失的可能性為1-q，盡管基因新變異的固定概率可能很小，中性突變卻能在種群中維持很長的時間，固定新的中性突變的平均時間實際上相當于繁衍4N代所經(jīng)歷的時間估算替換數(shù)目一般來講，從兩個序列的比對中觀察到的替換數(shù)目（K）是任何分子進化分析中最重要的一個變量。如果一種最優(yōu)的比對表明兩個序列之間只有相對較少的替換，那么只有簡單地數(shù)一下替換個數(shù)就可以確定K值。然而，在核苷酸序列被用來做分析研究之前，T.Jukes和C.Cantor就認識到如果序列之間的差異很大，那么用序列比對，就可能會嚴重地低估序列在最近的共同祖先之后發(fā)生的替換數(shù)目K1K2TK=K1+K2K>>ppJukes-Cantor模型估計替換數(shù)目的公式為:K=-3/4ln[1-(4/3(p))]Kimura的雙參數(shù)模型該模型考慮了轉(zhuǎn)換和顛換的不同速率。轉(zhuǎn)換：嘌呤嘌呤或嘧啶嘧啶顛換：嘌呤嘧啶或嘧啶嘌呤估計替換數(shù)目的公式為:K=1/2ln[1/(1-2P-Q)]+1/4ln[1/(1-2Q)]基因間進化率的變化基因內(nèi)不同部分的進化率有著很明顯的差異，同樣，我們發(fā)現(xiàn)基因間的進化率也是各不相同的。如果排除統(tǒng)計因素，進化率的差別應(yīng)歸咎于兩個因素突變頻率的差異自然選擇對位置的影響程度同義替換率的差異遠遠不及異義替換率的差異盡管基因內(nèi)某些部位比其他區(qū)域更容易發(fā)生偶然的突變，但同義替換率的差別很少超過兩倍，而異義替換率卻有將近200倍的差異。和基因內(nèi)替換率的差別類似，基因間替換率的差別也主要由自然選擇在不同的位置的差異產(chǎn)生分子時鐘在長期的進化過程中，有著相似的功能約束的位點的分子進化速率幾乎完全一致。20世紀60年代最早由EmileZuckerkandl和LinusPauling所做的蛋白質(zhì)序列比較研究表明，蛋白質(zhì)同系物的替換率就算過了千百萬年也能保持恒定，因此他們將氨基酸的變異積累比作分子鐘的滴答聲分子時鐘在不同的蛋白質(zhì)中運行的速率是不同的，但是兩個蛋白質(zhì)同系物的差異始終和它們獨立分化的時間成正比兩序列穩(wěn)定的變異速率，不僅有助于確定物種間系統(tǒng)發(fā)生關(guān)系，而且能夠像利用放射性衰變考察地質(zhì)年代那樣，準確測定序列分化發(fā)展的時間存在爭議：經(jīng)典進化學(xué)家們認為形態(tài)的進化不夠穩(wěn)定，這與分子以穩(wěn)定的速度變異不一致；關(guān)于分化時間也有不同意見，這些意見對這個假說的核心（即進化率是穩(wěn)定的）表示質(zhì)疑細胞器的進化研究對象哺乳動物線粒體DNA（mtDNA）：平均長度16000bp植物葉綠體DNA（cpDNA）：平均長度120000～220000bp形態(tài)較小和異常的遺傳模式（哺乳動物中，線粒體是由母親提供）令人們對它如何積累替換這一問題產(chǎn)生了興趣線粒體生物的新陳代謝使得線粒體中出現(xiàn)的高濃度誘變劑（尤其是自由氧基），它能使mtDNA發(fā)生突變的速度比在細胞核中的DNA高出10倍。因此，對mtDNA的比較研究常用來探索緊密關(guān)聯(lián)的生物體種群間的關(guān)系（但對于那些分化已有千萬年之久的物種，由于每個位點都有可能發(fā)生多重替換，此方法用處不大）葉綠體葉綠體的替換速率遠小于mtDNA，它的Ks和Ka只有同物種細胞核基因的1/4到1/5第四章基于距離的系統(tǒng)發(fā)生分析系統(tǒng)發(fā)生學(xué)系統(tǒng)發(fā)生學(xué)是研究物種之間的進化關(guān)系的，是進化生物學(xué)的一個重要研究領(lǐng)域，系統(tǒng)發(fā)生分析在達爾文時代就已經(jīng)開始。從那時起，科學(xué)家們就開始尋找物種的源頭，分析物種之間的進化關(guān)系，給各個物種分門別類。表型分析的局限性趨同進化——有時候關(guān)系很遠的生物體也能進化出相似的表型例如，如果一個生物學(xué)家按照生物體是否有眼睛來構(gòu)建進化樹，那么他可能將人類、兩翼昆蟲和軟體動物放在同一個進化組中許多生物沒有可用來進行比較的易于研究的表型特征例如，研究細菌之間的關(guān)系總是困難重重。即使用顯微鏡檢查，細菌幾乎沒有明顯特征當比較關(guān)系較遠的生物的時候，第三個問題出現(xiàn)了，即什么樣的表型特征能用來比較呢？基于DNA和蛋白質(zhì)序列的分析一般不會存在這樣的問題，因為很多同源分子對所有生物都是很基本的分子系統(tǒng)發(fā)生分析優(yōu)點概念

系統(tǒng)發(fā)生樹：三個或者更多基因或生物體之間進化關(guān)系的典型圖示；

大部分系統(tǒng)發(fā)生研究都是圍繞系統(tǒng)發(fā)生樹的概念進行的，它表示了數(shù)據(jù)之間的關(guān)系分歧時間共同祖先的特征

系統(tǒng)發(fā)生樹系統(tǒng)發(fā)生樹有時也稱為系統(tǒng)樹圖，它是由一系列的節(jié)點和分支組成的，其中每個節(jié)點代表一個分類單元。分支末端的節(jié)點（外部節(jié)點）對應(yīng)一個基因或生物體；內(nèi)部節(jié)點代表一個推斷的共同祖先，它在過去的某個時候分歧出兩個獨立的分支。ABCDⅠⅡⅢⅣⅤ外部節(jié)點內(nèi)部節(jié)點根節(jié)點Newick格式Newick格式——系統(tǒng)發(fā)生樹結(jié)構(gòu)的基本信息在計算機程序中常用一組嵌套的圓括號表示，稱為Newick格式，用該格式來表示上圖中的樹，可寫成(((Ⅰ,Ⅱ)

,(Ⅲ,Ⅳ)),Ⅴ)ABCDⅠⅡⅢⅣⅤ一棵系統(tǒng)發(fā)生樹的分支模式能表達關(guān)于進化事件發(fā)生順序的信息；一棵系統(tǒng)發(fā)生樹的分支長度有時用來表示不同數(shù)據(jù)集分歧的程度。標度樹：是指分支長度與相鄰節(jié)點對的差異程度成正比的樹。在最好的情況下，標度樹是可加的，即連接兩個節(jié)點的分支的長度準確地表示了它們之間的差異非標度樹：只是將所有外部節(jié)點排成行，表示他們之間的親緣有根樹，單一的節(jié)點指派為共同的祖先，從祖先節(jié)點只有唯一的路徑進化到達其他任何節(jié)點。無根樹只表明了節(jié)點之間的關(guān)系，而沒有關(guān)于進化發(fā)生方向的信息；但是通過引入外群或外部參考物種，可以在無根樹中指派根節(jié)點基因樹為基于單個同源基因差異構(gòu)建的系統(tǒng)發(fā)生樹；物種樹一般從多個基因數(shù)據(jù)中分析得出。只考慮一個基因的時候，個體有可能表現(xiàn)出與其他物種的成員關(guān)系更近的情況。（下圖）基因分化的發(fā)生通常先于產(chǎn)生新物種的種群分離基因分化事件常常在物種形成前或后都有發(fā)生。特征和距離數(shù)據(jù)用于構(gòu)建系統(tǒng)發(fā)生樹的分子數(shù)據(jù)分成兩類:(1)

距離(distances)數(shù)據(jù)，常用距離矩陣描述，表示兩個數(shù)據(jù)集之間所有兩兩差異；(2)

特征(characters)數(shù)據(jù)，存在有限不同狀態(tài)的特征。

DNA和蛋白質(zhì)序列數(shù)據(jù)描述離散的特征；其他特征數(shù)據(jù)集的例子包括基于解剖學(xué)或行為學(xué)的分類法中較常見的特征，如生物體顏色、生物體對某種刺激的反應(yīng)時間等。一旦建立了確定所有可能狀態(tài)之間相似性的標準，特征數(shù)據(jù)就很容易轉(zhuǎn)化成距離數(shù)據(jù)；例如，來自兩個物種的兩個基因之間的距離值（D）可以簡單地用序列的最優(yōu)比對來確定，計算匹配的核苷酸數(shù)目（m），將它除以總的位點數(shù)目（t）：D=m/t許多生物學(xué)家用“每100個核苷酸改變數(shù)”來歸一化距離值。非加權(quán)組平均法（UPGMA）4.4.1非加權(quán)組平均法（UPGMA）

非加權(quán)組平均法

(UPGMA)一般來說，UPGMA方法需要建立一個距離矩陣。步驟：構(gòu)建距離矩陣聚類——選擇最小距離更新距離矩陣再聚類如此反復(fù) 數(shù)目ABCBdABCdACdBCDdADdBDdCD距離變換法除UPGMA法外，其他的一些基于距離矩陣的方法考慮了不同的家系有不同的進化速率，其中最簡單的最早的算法是距離變換法。這種方法充分利用了外群或外部參考物種——先于其他所有被考慮的物種[內(nèi)群或內(nèi)部物種]

從它們的共同祖先中分化出來的那些物種。UPGMA距離矩陣系統(tǒng)發(fā)生樹外部種群距離變換距離變換假定D為外部參考物種，變換式如下：d’ij=（dij-diD-djD）/2+dDd’ij是物種i和j之間變換后的距離，dD是外部參考物種與全體內(nèi)部物種之間的平均距離。dD=ΣdiD/(n-1)距離變化法的優(yōu)勢體現(xiàn)在那些很簡單卻容易被忽略的方面內(nèi)部物種只是在分化發(fā)生后進化分離出來的，所以它們積累的替換數(shù)目一定是從那以后才有了差異外部參考物種為比較它們替換速率提供了客觀參考的框架－－－1近鄰關(guān)系法近鄰關(guān)系法是由UPGMA法演變出的另一種常用的方法，強調(diào)配對物種，由此構(gòu)造一棵分支長度總和最小的樹（針對4個物種，無根樹）。近鄰：任意一棵無根樹中，僅被一個內(nèi)部節(jié)點分隔的一對物種稱為近鄰。DABCabcde四個物種(A,B,C,D)之間進化關(guān)系的通用系統(tǒng)發(fā)生樹上圖中的系統(tǒng)發(fā)生樹的拓撲結(jié)構(gòu)給出了一些近鄰間有用的代數(shù)關(guān)系，由于樹是正確的且可加和，則下面的等式成立：

dAC+dBD=

dAD+dBC=

a+b+c+d+2e=dAB+

dCD+

2e下面的不等式也是成立的（四點條件）：

a+b+c+d=dAB+

dCD

＜

dAC+dBD

a+b+c+d+2ea+b+c+d=dAB+

dCD

＜

dAD+dBC

=a+b+c+d+2e考慮4個物種間所有可能物種對的排列（3對），然后確定哪一個滿足四點不等式。四點不等式的一個重要假設(shè)是，系統(tǒng)發(fā)生樹的分支長度是可加的。由于它對不符合假設(shè)的情況不敏感，所以不可加的數(shù)據(jù)集會導(dǎo)致這種算法產(chǎn)生錯誤拓撲結(jié)構(gòu)的樹鄰近歸并法鄰近歸并法是對上面的方法做了一些改動。這類算法首先是由一棵星狀樹開始，不管數(shù)目多少，所有的物種都從一個中心節(jié)點出發(fā)，然后通過最小化樹的分支長度和，相繼找到近鄰。計算分支長度和公式：

1987年N.Saitou和M.Nei提出

樹的1和2的位置可以使其中任何一對物種， N是距離矩陣中物種的數(shù)目

k是引入外部參考物種， dij是物種i和j之間的距離；

最大似然法最大似然法是另外一類完全基于統(tǒng)計的系統(tǒng)發(fā)生樹重建方法的代表。該法在每組序列比對中考慮了每個核苷酸替換的概率。例如，在第3章中我們已經(jīng)知道，轉(zhuǎn)換出現(xiàn)的概率大約是顛換的3倍。在一個三序列的比對中，發(fā)現(xiàn)其中有一列為一個C、一個T和一個G，有理由認為，C和T所在的序列之間的關(guān)系有可能更接近。多重序列比對由于相似序列比對比較容易，而且置信度較大，在進行多重序列比對的時候應(yīng)考慮被研究序列的分化順序。如果序列的系統(tǒng)發(fā)生關(guān)系在比對之前是已知的，那么多重序列比對時將序列逐條加入，關(guān)系近的序列先加入。例如：一些流行的多重序列比對算法的常用策略是：⑴對于被研究的序列，產(chǎn)生所有可能的兩兩序列比對的距離矩陣；⑵用一種基于統(tǒng)計的方法，如UPGMA，構(gòu)造一棵初始的樹；⑶依據(jù)推斷出的樹，按照序列之間的關(guān)系重新比對；⑷從新的多重序列比對得到的兩兩距離構(gòu)造新的樹；⑸如果新的樹和前面的不一樣，則重復(fù)上過程。比對系統(tǒng)發(fā)生樹相同的樹？初始比對初始系統(tǒng)發(fā)生樹N結(jié)束第五章基于特征的系統(tǒng)發(fā)生分析分子系統(tǒng)發(fā)生分析主要分成三個步驟：（1）分子序列或特征數(shù)據(jù)的分析；（2）系統(tǒng)發(fā)生樹的構(gòu)造；（3）結(jié)果的檢驗。其中，第一步的作用是通過分析，產(chǎn)生距離或特征數(shù)據(jù)，為建立系統(tǒng)發(fā)生樹提供依據(jù)。

數(shù)據(jù)系統(tǒng)發(fā)生樹檢驗生物體信息位點簡約法樹的置信度簡約法簡約法的概念是所有基于特征的系統(tǒng)發(fā)生樹重建方法的核心在生物學(xué)中，描述按照進化途徑中突變事件最少的標準來優(yōu)先選擇一個進化途徑的過程。兩個簡單假設(shè)：（1）突變是罕見事件；（2）一個模型引發(fā)了越不合理的事件，這個模型就越不可能是正確的。

因此，突變最少的進化關(guān)系就越有可能是物種之間真實的進化關(guān)系。信息位點和非信息位點根據(jù)信息的信息內(nèi)容可以兩類：信息位點

(informative):含有信息的位點信息位點就是指能由位點產(chǎn)生的突變數(shù)目把一棵樹與其它樹區(qū)分開來的位點;非信息位點

(uninformative):不含有信息的位點不變位點

(invariant):屬于非信息位點，比較的所有序列都有同樣的核苷酸。即每一棵描述所有序列間進化關(guān)系的樹都有相同的突變數(shù)目(0)。信息位點的共同特征——識別：

(1)至少有兩種不同的核苷酸，并且 (2)這些核苷酸至少出現(xiàn)兩次。無權(quán)簡約法最簡約樹：考慮每個信息位點所有可能的樹，分別給每棵樹進行打分，統(tǒng)計每個位點的核苷酸最小替換數(shù)目。所有簡約信息位點最小核苷酸替換數(shù)的總和最小的樹記為最簡約樹。信息位點1信息位點2信息位點3信息位點4信息位點5信息位點6…信息位點N總和樹15158346…1099樹2932687…5134…………………………樹N1266928…81874條序列比對的例子可能是最簡單的例子：在只包含4條序列的分析中，每個信息位點只能支持

3棵可能的樹中的1棵，含有最多信息位點的樹就是最簡約樹。信息位點1信息位點2信息位點3信息位點4信息位點5信息位點6…信息位點N總和樹1√XXXXX…X99樹2X√XX√X…√34樹3XX√XX√…X87最小替換數(shù)推斷（祖先序列推斷）T512346789GGAAGA(GA)(GAT)(a)A123456789GGTAGA(GT)

(GTA)(b)123456789GTGAAGGA(GA)(c)計算祖先核苷酸位置的算法：如果一個內(nèi)部節(jié)點的兩個直接后代節(jié)點上的核苷酸的交集非空，那么這個節(jié)點的最可能的候選核苷酸集就是這個交集；否則為它的兩個后代節(jié)點上的核苷酸集的并集。加權(quán)簡約法賦值的必要性：“突變是罕見事件”將所有突變看成是等價的，但之前的學(xué)習已經(jīng)告訴我們

插入和刪除比替換可能性??；

長插入和長刪除比短插入和短刪除少見；

轉(zhuǎn)換概率大于顛換；

功能相關(guān)的突變比無關(guān)的突變發(fā)生的概率小 ……因此，我們給各種突變賦予相對概率值，在簡約算法中可將這些值轉(zhuǎn)化為權(quán)值。推斷出的祖先序列簡約法最值得注意的副產(chǎn)品是分析過程中產(chǎn)生的推斷出的祖先序列，即使這些祖先可能在數(shù)億年前就已經(jīng)滅絕。哪怕圖5.1中序列1和序列2的共同祖先可能在數(shù)億年以前就已經(jīng)滅絕，簡約法也能夠相當準確地推斷出其序列第5個位置上的核苷酸是‘G’對于單個核苷酸，這可能是微不足道的，但是對于整個基因或基因組來說，它對了解進化過程的作用是不可替代的推斷出的樹中的內(nèi)部分支的信息位點稱作共源性狀（synapomorphies,幾個物種共有的遺傳狀態(tài)）。其他信息位點稱作同形性狀（homoplasies,），它是通過趨同進化、平行進化和逆轉(zhuǎn)進化，由物種獨立發(fā)展出來的特征，而不是從共同祖先遺傳得到的?？焖偎阉鞑呗约词剐畔⑽稽c的數(shù)目較少，用未改進的簡約法對較多序列的比對進行手工計算也是不現(xiàn)實。分析10條序列需要考慮200萬棵樹。由于數(shù)據(jù)集十分龐大，計算困難，因此研究出一些改進的算法，不用考慮所有可能的樹就能夠方便可靠地確定最簡約樹。分支約束法啟發(fā)式搜索分支約束法分支約束法（BranchandBoundMethod）Hardy和Penny于1982年提出。Branch——分支Bound——邊界、約束步驟：⑴為最簡約樹的長度確定一個上限

L。

L的值可以是隨機選擇的任何一棵描述被研究物種之間關(guān)系的樹的長度。但是如果用近似最簡約的樹（例如UPGMA產(chǎn)生的樹）來建立上限更有效。⑵樹的生長過程，即在描述部分序列之間關(guān)系的樹中每次增加一個分支。這個方法的原理是：由數(shù)據(jù)子集得到的任何一棵樹，如果它的替換數(shù)大于L，那么當剩下的序列加入后，總的分支長度必定變得更大，那么原先的長度為L的樹為最簡約樹。換而言之，最簡約樹不可能是包含上述特定分支模式的樹如果在分析過程中，如果發(fā)現(xiàn)比初始建立的上限為L的樹替換數(shù)更少的樹，那么L的值將隨之修正，這樣余下的數(shù)據(jù)集的分析將更為有效。啟發(fā)式搜索對大于20條序列的多序列進行比對必須采用近似的更為有效的算法。它并不一定總能找到最簡約的樹。啟發(fā)式(heuristic)方法的假設(shè)：各個可能的樹并不總是相互獨立的。最簡約數(shù)和次簡約數(shù)拓撲結(jié)構(gòu)相似，因此首先構(gòu)建一棵初始樹，從它開始尋找更短的樹。因此啟發(fā)式搜索通過子樹分支交換，把它們嫁接到該步分析中找到的最好的那棵樹的其他位置上，從而產(chǎn)生一棵拓撲結(jié)構(gòu)和初始樹相似的樹。同分支約束法一樣，如果初始樹很接近于最簡約樹（例如UPGMA產(chǎn)生的樹），啟發(fā)式搜索會更有效。大量序列比對的可能的無根樹的數(shù)目是一個天文數(shù)字，這種比對深度對計算造成了很大困難，把多個序列比對分成幾個較少序列的比對可以較好的解決這一問題。例如：同源哺乳動物序列靈長類序列嚙齒類序列部分偶蹄、兔類、靈長、嚙齒探知樹中靈長類所在樹干的末段之間的關(guān)系確定樹中嚙齒類所在樹干的末段之間的關(guān)系檢驗更早的分支、更具體的靈長類樹干和嚙齒類樹干的最后位置一致樹簡約法產(chǎn)生多棵等價的簡約數(shù)是很常見的。此時最簡單的方法是用一個一致樹(consensustree)作為代表來概括所有等價的簡約樹。方法如下：（1）在所有樹中都一致的分支點在一致樹中表示成二叉分支點。（2）不一致的分支

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

生物信息處理-總復(fù)習

文檔簡介

溫馨提示

最新文檔

評論

生物信息處理-總復(fù)習

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔