山西師大郜剛生物信息學-05-2-NCBI-COG_第1頁
山西師大郜剛生物信息學-05-2-NCBI-COG_第2頁
山西師大郜剛生物信息學-05-2-NCBI-COG_第3頁
山西師大郜剛生物信息學-05-2-NCBI-COG_第4頁
山西師大郜剛生物信息學-05-2-NCBI-COG_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

生物信息學課件

郜剛

EST對應基因產(chǎn)物的系統(tǒng)分析—COG分析觀點祖先序列在漫長的進化過程中,可能產(chǎn)生直系同源和旁系同源兩類蛋白質(zhì)。直系同源:簡而言之,由不同物種的垂直家系進化而來的蛋白質(zhì),具有祖先蛋白質(zhì)類似的功能旁系同源:從相關物種基因組中復制的蛋白質(zhì),可能會產(chǎn)生新的功能種系發(fā)生學中的同源(Homology)

傳統(tǒng)的種系發(fā)生學是研究生物的形態(tài)結構為主的,所以認為如果兩個或多個結構具有相同的祖先,則稱它們同源(Homology)。這里相同的祖先既可以指進化論意義上的祖先,即兩個結構由一個共同的祖先進化而來(翅膀與手臂是同源的),強調(diào)了結構的相似性,不強調(diào)功能的相似性也可以指發(fā)育意義上的祖先,即兩個結構由胚胎時期的同一組織發(fā)育而來(乳房與睪丸同源)。人類鳥類蛙類蜥蜴蝙蝠貓科鯨類肱骨橈骨腕骨尺骨脊椎動物除了魚類之外,是兩棲類、爬蟲類、哺乳類及鳥類在演化是具有系統(tǒng)性的,其同源器官(homologousorgans)即使功能不同但在結構上仍保有原本的原始架構。其外觀上的差異仍是建立于原始架構之上。進化上強調(diào)了結構的相似性種系發(fā)生學,進化,強調(diào)結構的相似性,不強調(diào)功能的相似性同源這一概念需與相似區(qū)分開來。比如說,昆蟲的翅膀、蝙蝠的翅膀和鳥類的翅膀是功能相似的,但卻不同源,這種現(xiàn)象被稱為非同源相似(或同形質(zhì),英文:Homoplasy)。這些相似的結構由不同的渠道演化而來,這種演化過程叫做趨同演化。遺傳學中的同源

在經(jīng)典遺傳學中,同源這一概念既不強調(diào)結構相似性,也不強調(diào)功能相似性,只是強調(diào)親子關系的有無或者親緣關系的遠近。比如同源染色體,異卵雙生、同卵雙生的雙胞胎等。只有當遺傳學中涉及到DNA水平的序列時,才逐漸強調(diào)了DNA結構的相似性。生物信息學中的同源生物信息學中,尤其是比較基因組學中,涉及到蛋白質(zhì)和DNA的同源性時,常常通過它們序列結構的相似性來判定,并且強調(diào)結構相似、功能相似、進化上來源的祖先的相似??紤]的比較多,比較麻煩,homolog因此就有了Ortholog和Paralog之分。所以我們要澄清的有幾個方面:相似性(similarity)和同源性(homology)是兩個完全不同的概念數(shù)據(jù)庫搜索的基礎是序列的相似性比對,而尋找同源序列則是數(shù)據(jù)庫搜索的主要目的之一。我們經(jīng)常用相似性描述同源性,但是,相似性(similarity)和同源性(homology)是兩個完全不同的概念。同源與相似的區(qū)別相似性是指序列比對過程中用來描述序列之間相同DNA堿基或氨基酸殘基順序所占比例的高低。相似性不要求與進化起源是否同一,不要求與親緣關系的遠近,不要求與結構、功能有什么聯(lián)系。而同源就恰好相反,它要強調(diào)這些。同源或者同源序列,是指從某一共同祖先經(jīng)趨異進化而形成的不同序列。同源性可以用來描述染色體—“同源染色體”、基因—“同源基因”和基因組的一個片斷—“同源片斷”同源與相似的聯(lián)系同源性是要用相似性來描述的。當相似程度高于50%時,比較容易推測檢測序列和目標序列可能是同源序列;而當相似性程度低于20%時,就難以確定或者根本無法確定其是否具有同源性。但是類似于“具有xx%同源性”,或“這些序列高度同源”等說法,都是不確切的,應該避免使用。要么同源,要么不同源,沒有高度低度之分。生物信息學中的同源有兩類Ortholog

Homolog

Paralog同源直系同源旁系同源垂直方向的水平方向的Orthology通常譯作直系同源、直向同源、垂直同源;Paralogy通常譯作旁系同源、并系同源、橫向同源。直系同源(orthology)是比較基因組學中最重要的定義。直系同源的定義是:在進化上,同一個始祖基因垂直傳遞(verticaldescent)的到兩種或兩種以上物種的基因組,結構上高度相似,功能上高度保守乃至相同,甚至在近緣物種可以相互替換;而且在發(fā)育上具有組織特異性與亞細胞分布相似。旁系同源(paralogy)是指同一基因組(或同系物種的基因組)中,由于某個始祖基因的加倍(復制)而橫向(horizontal)產(chǎn)生的幾個同源基因。有平行的意思直系同源旁系同源直系同源同源直系與旁系的最大的共同點是同源,都源于各自的始祖基因。其區(qū)別在于:在進化起源上,直系同源是強調(diào)在不同基因組中的垂直傳遞,旁系同源則是在同一基因組中的橫向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定義上對功能上沒有嚴格要求,可能相似,但也可能并不相似(盡管結構上具一定程度的相似),甚至于沒有功能(如基因家族中的假基因)。旁系同源的功能變異可能是橫向加倍后的重排變異或進化上獲得了另一功能,其功能相似也許只是機械式的相關(mechanisticallyrelated),或非直系同源基因取代新產(chǎn)生的非親緣或遠緣蛋白在不同物種具有相似的功能。9、鑒定直系同源的實際操作標準(practicalcriteria)如基因組Ⅰ中的A基因與基因組Ⅱ中的A‘基因被認為是直系同源,則要求:(1)A‘的產(chǎn)物比任何在基因組Ⅱ中所發(fā)現(xiàn)的其它基因產(chǎn)物都更相似于A產(chǎn)物;(2)A‘與A的相似程度比在任何一個親緣關系較遠的基因組中的任一基因都要高;(3)A編碼的蛋白與A‘編碼的蛋白要從頭到尾都能并排比較,即含有相似以至于相同的模序(motif)關于“同源”的解釋earlyglobingeneA-chaingene B-chaingenefrogAchickAmouseAmouse

BchickBfrogBparalogsorthologsorthologsgeneduplicationhomologsIntroductiontoCOGsGeneralTopicsWhatareCOGs?HowareCOGscreated?WherecanIgetmoreinformation?UsingCOGsWhatkindofinformationcanbeobtainedusingtheCOGdatabase?HowdoIfindaparticularproteinintheCOGdatabase?SelectingCOGsHowcanaparticularsetofCOGsbeselected?AretherewaystocombinecriteriatoselectasubsetofCOGs?COGnamesWhatshouldIknowaboutCOGnames?WhatdothevariousabbreviationsinCOGnamesstandfor?ProteinnamesWhatshouldIknowaboutproteinnames?Whatisthesignificanceofanunderscoreandanumberappendedtoaproteinname?Howweregenesnamedwithrespecttothespeciesoforigin?Terminology/GlossaryWhatterminologywillIneedtoknowtousethesepageseffectively?什么是COG?

“COG”是ClusterofOrthologousGroupsofproteins(蛋白相鄰類的聚簇,蛋白質(zhì)直系同源簇)的縮寫。COG蛋白質(zhì)直系同源簇(COGs)數(shù)據(jù)庫是對細菌、藻類和真核生物的66個(截止到2009年9月9日)完整基因組的編碼蛋白,根據(jù)系統(tǒng)進化關系分類構建而成。COG庫對于預測單個蛋白質(zhì)的功能和整個新基因組中蛋白質(zhì)的功能都很有用。利用COGNITOR程序,可以把某個蛋白質(zhì)與所有COGs中的蛋白質(zhì)進行比對,并把它歸入適當?shù)腃OG簇。COG庫提供了對COG分類數(shù)據(jù)的檢索和查詢,基于Web的COGNITOR服務,系統(tǒng)進化模式的查詢服務等。COGClustersofOrthologousGroupsofproteins(COGs)weredelineatedbycomparingproteinsequencesencodedincompletegenomes,representingmajorphylogeneticlineages.EachCOGconsistsofindividualproteinsorgroupsofparalogsfromatleast3lineagesandthuscorrespondstoanancientconserveddomain.實質(zhì)

Phylogeneticclassificationofproteinsencodedincompletegenomes緣起/COG

大范圍重視是從NCBI建立蛋白質(zhì)直系同源簇數(shù)據(jù)庫的時候。最初,蛋白質(zhì)直系同源簇(COGs)數(shù)據(jù)庫是對細菌、藻類和真核生物的21個完整基因組的編碼蛋白,根據(jù)系統(tǒng)進化關系分類構建而成。COG數(shù)據(jù)

構成每個COG的蛋白都是被假定為來自于一個祖先蛋白,并且因此或者是orthologs或者是paralogs。Orthologs是指來自于不同物種的由垂直家系(物種形成)進化而來的蛋白,并且典型的保留與原始蛋白有相同的功能。Paralogs是那些在一定物種中的來源于基因復制的蛋白,可能會進化出新的與原來有關的功能。請參考文獻獲得更多的信息。都是homeologCOG的建立及特點?建立:COG是通過把所有完整測序的基因組的編碼蛋白一個一個的互相比較確定的。因此需要用完整的基因組來定義COG,這正是它的限制性特點:在考慮來自某一個特定基因組的某一個特定蛋白時,COG通過同源比較,就能夠找到其他基因組中與之最相似的蛋白每一個COG必須包含來自于3個種系發(fā)生上有關系的基因組的同一個蛋白。因此,完全測序的全基因組的物種越多,COG才越有價值瀏覽NCBI-COG網(wǎng)站基本上是原核生物的真核生物的原核生物的COG真核生物的COGClustersoforthologousgroupsforeukaryoticcompletegenomes擬南芥ath線蟲cel果蠅dme人hsa面包酵母sce裂殖酵母spo微孢子蟲ecu視網(wǎng)膜母細胞瘤蛋白LIN-9/chromatin-associated染色質(zhì)相關通路蛋白EST對應蛋白質(zhì)產(chǎn)物的COG分析登錄COG網(wǎng)站/COG/選擇初始版本initialversion(在這里可以把EST對應的蛋白質(zhì)進行COG蛋白同源簇分析)在COGnitor中輸入EST所對應的基因產(chǎn)物的氨基酸序列在COGnitor中輸入氨基酸序列,然后點擊comparetoCOGsSaccharomycescerevisiae

Alcoholdehydrogenasemssvtgfyippisffgegaleetadyiknkdykkalivtdpgiaaiglsgrvqkmleerdlnvaiydktqpnpnianvtaglkvlkeqnseivvsigggsahdnakaiallatnggeigdyegvnqskkaalplfainttagtasemtrftiisneekkikmaiidnn

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論