KEGG使用說明_第1頁
KEGG使用說明_第2頁
KEGG使用說明_第3頁
KEGG使用說明_第4頁
KEGG使用說明_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、KEGG使用說明(來自生物統(tǒng)計家園論壇)KEGG勺數(shù)據KEGG中白p pathway是根據相關知識手繪的,這里的手繪的意思可能是指人工以特定的語言格式來確定通路各組件的聯(lián)系;基因組信息主要是從NCBI等數(shù)據庫中得到的,除了有完整的基因序列外,還有沒完成的草圖;另外KEGG中有一個“專有名詞” KO( KEGGOrthology ),它是蛋白質(酶)的一個分類體系,序列高度相似,并且在同一條通路上有 相似功能的蛋白質被歸為一組,然后打上K0 (或 K)標簽。下面就首先來講一下KEGG Orthology。任找一個代謝通路圖,在上方有pathway meue | payhway entry | S

2、how(Hide)description | 這3個選項,點擊 pathway entry,出現(xiàn)了一個頁面,這個隨時被連接出來的頁面相信大家一定再熟悉不過了。在這個頁面中的pathway map項中點擊按鈕狀的鏈接 Ortholog table 。就進入了 Ortholog table如下的頁面:在這個表中,行與物種對應,3個字母都是相應物中的英文單詞縮寫,比如has表示Homo sapiens , mcc 表示 Macaca mulatta ;列就表示相應的 Ortholog 分類,比如 K00844 就表示生物體內的己糖激酶hexokinase這一類序列和功能相似的蛋白質類(酶類)。如上圖

3、has后有3101 , 3098, 3099這3個條目,它表示在人類細胞中中存在3中不同的己糖激酶,它們分別由以上這3組數(shù)字代表的基因所編碼,這3組數(shù)字應該是這 3個基因的登錄號??瞻讋t表布在該物種中不存在這種酶。點擊K00844則這一 KO分類信息及成員列表都可顯示出來;點擊 has則鏈接到物種(人類)基因組去了;點擊 P,則顯示相應的代謝通路。下面我們點擊 3101,如下:如上圖,就是我們常見的一個頁面,3101是KEGG中的基因 ID (登錄號),H.sapiens表示物種,然后是基因的名稱,表達的酶,屬于哪個KO分類以及參與哪些代謝途徑;下面還有結構、序列信息等等。所以從Ortholo

4、g table中可以很容易地知道一張代謝通路上有哪些KO分類(酶類),并且這些酶類的成員在各物種中分配存在的情況以及特定的名稱。怎么看KEG曲代謝通路圖比如以上這個圖,方框一般就是酶,方框里面的 不是IP而是EC編號;小圓圈代表代謝物,你把鼠標放上去,(別放我這上面,放KEGG中去)會出現(xiàn) C00668的東西,C代表compound, 00668是這種化合物在 KEGG中的編號,一般在 KEGG43數(shù)據條目都是這 樣的,前面一個標志,后面一個五位數(shù)編號;大的圓方塊,就表示是另一個代謝圖了,所 以就不展開了。但是:為什么這個圖上有的小框框是綠色呢?(這是綠色吧?我藍綠不分的,下同)

5、因為這是一張?zhí)囟ㄎ锓N(S. cere.釀酒酵母)的代謝圖,藍色的框框表示專屬于這個物種。在 KEGG有兩種代謝圖,一種是參考代謝通路圖reference pathway ,是根據已有的知識繪制的概括的、詳盡的具有一般參考意義的代謝圖,這種圖上就不會有綠色的小 框,而都是無色的,所有的框都可以點擊查看更詳細的信息;另一種就是像上面這樣的屬 于特定物種的代謝圖species-specific pathway ,會用綠色來標出這個物種特有的基因或酶,只有這些綠色的框點擊以后才會給出更詳細的信息。這兩種圖很好區(qū)分,referencepathway在KEGG中的名字是以 map開頭的,比如 map000

6、1O,就是糖酵解途徑的參考圖, 而特定物種的代謝通路圖開頭三個字符不是map而是種屬英文單詞的縮寫(應該就是一個屬的首字母+2個種的首字母)比如酵母的糖酵解通路圖,就是 sce00010,大腸桿菌的糖酵 解通路圖就應該是 eco00010吧。那么:怎么找這兩種圖呢?(1)有下拉列表的時候,在列表選擇reference 或者是特定物種即可。(2)在 pathway 檢索的頁面 http:/www.genome.jp/kegg/pathway.html ,如下圖:默認的就是 map,參考圖,你想要什么物中的代謝圖寫上它的名稱就好了(種屬縮 寫),如果不知道是哪3個字母,點擊 organism 選擇

7、即可。(不過你點進去也是一片空白,你要提示兩個字母才會給出下拉條目)順便問一下:怎么找基因呢?還是上面這張圖,看到了嗎,除了 PATHWAY外是不是還有 BRITE、DISEASE.以及 GENE等等,點擊基因 GENES就可以查找基因了,如下圖:不過這里要按一定的格式(org:gene )輸入要查找的目的基因,比如它給出的示例:syn表示物中,ssr3451表示基因ID,查找出來的基因名稱是psbE。其實我試了一下,若直接檢索基因名稱(而不是KEG陰的基因ID) syn:psbE也是一樣的。因為我不知道KEGG中基因ID如何編制的,但是,我同時也不知道基因的名稱是如何定義的。比如果糖1, 6

8、-二磷酸酶Fructose 1,6-biphosphatase 的基因就叫fbp,我放進去能檢索,但是我把有名 的gal填上去就不能檢索,當然這可能與基因后面的亂七八糟的序號后綴有關,比如填上syn中沒找到 gall 在gall就能檢索了,所以我真不知道基因到底怎么命名的?當然我在 sce中檢索到了,這也說明了基因果然不是亂長的。依舊是上面這個圖,看到KEGG2T嗎?點擊。也會出現(xiàn)檢索框,這是一個總體性地檢索框,在這里面輸入關鍵詞,代謝通路也好,glycolysis 也好,gal也好,化合物也好,沒那么多限制,KEGG中的相關東西都會檢索出來,在這里瀏覽一下,再進行后續(xù)檢索,也 是一個不錯的方

9、法。當然,代謝通路圖,還有其他的查看形式(比如以KO查看),以及圖上可以點擊,鏈接到這鏈接到那,點來點去總能點出奇怪的頁面來,熟悉一下也就熟悉了,這些東西會 很有用,所以我就不說了。下面講一下KEG弼自動注釋功能。KEGG勺自動注釋KEGG Automatic Annotation Server , KEGG勺自動注釋服務簡稱KAAS 在線網址為http:/www.genome.jp/tools/kaas/ 。就是你提交一段蛋白質序列或者基因序列(必須是fasta 格式),它自動在內部進行相似性比對,找到最相似的基因,并確定檢索基因的KO分類,然后給出這些基因所在的代謝通路并以以不同的顏色標示

10、這些基因。如下 圖:我在help中隨便復制了它的兩條示例氨基酸序列,然后粘貼到檢索框中,進行了檢索。檢索框默認的蛋白質序列,如果不是的話要改選。然后填上一個郵箱地址,點擊又下角的compute即可。不出意外的話,你在接下來的頁面中應該看不到任何結果,甚至連提示都沒有,原來它把結果發(fā)到你郵箱去了。我也不明白就一個網頁鏈接為什么還硬要發(fā)送到郵箱。 首先發(fā)你一封信說已經接受,并給你一個期待結果顯示的網址,一段時間后,會發(fā)你另外一封郵件,說已經完成。打開它給的網址,就能看到結果了,如下:看來從1: 20開始計算到1: 50才結束,兩條氨基酸鏈計算了30分鐘(不過我感覺沒這么長呀)。人家說了,計算時間是

11、與要和檢索序列對比的目標序列成正比,因此在檢 索的時候最好限制一下檢索范圍。點擊html有兩條代謝通量圖的條目,點開他們就可以直觀地看出我們檢索的未知序 列在代謝通路中的位置和作用了。Text給出的是兩個KO分類。好像北京大學的生命科學學院也搞了一個KOBA也是基于KEGG中的KO進行注釋的一個服務,應該和這個差不多吧。代謝通路的著色怎么在 KEGG檢索出來的代謝通路中給特定的一些化合物或者基因(酶)著色以 高亮顯示呢?進入網頁 http:/www.genome.jp/kegg/tool/color pathway.html,或者由 pathway主頁的 Color objects in KE

12、GG pathways 進入,看圖:如上圖,search against下拉出你可供選擇的代謝通量圖,總所周知的一個很煩人的問題就是,在這些下拉列表中,條目排序竟然是亂七八糟的很難索引。還好我發(fā)現(xiàn)把焦 點定在這個下拉列表的最頂端的文本框上(即文本框變成選中的藍色),然后在鍵盤上拼 寫你要的那個物中的英文單詞,只需要拼兩三個字符相應的代謝通量圖就出現(xiàn)在頂端了。 比如我要找酵母的代謝通量圖,只需要在文本框變藍的時候拼寫“ sacc”這幾個字符 “Saccharomyces cerevisiae(budding yeast) ”就自動被置于上面了?;蛘卟话呀裹c集中 在文本框中也行,但是你要很快地拼寫

13、sacc,否者的話焦點會在以這幾個字符開頭的條目之間切換。如上圖,右邊有示例,這個貌似不要太簡單。想給誰著色就把它寫出來后面跟上顏色 就好了,一個一行。比如寫上C00118 blue就表示在代謝通路圖中把C00118這種代謝物(3-磷酸甘油醛,GAP給著上藍色。但是大家也看出來了,著色可以自定義背景色,也可 以同時定義前景色。我曾一度琢磨前景色是干嘛的,琢磨半天發(fā)現(xiàn)沒用。背景色就是把方 框或者圓圈涂成選定的顏色,這自然是要的;而前景色是誰的顏色,就是方框里面的 這幾個數(shù)字的顏色,或者是小圓圈圓周的顏色,這有必要定義嗎,所以后面直接 跟一種顏色就行了。然后就可以了。我隨便弄個ga

14、l1想去著色,KEG跌然說在酵母中找不到 gal1 ,怎么可能找不到呢?我前面還在GENES中搜過呢,分明是酵母,分明是 gal1,分明搜的到,我當時還大為興嘆,唉,看來基因果然不能亂長啊,怎么可能一頓飯就說找不到了呢?我又 回去搜里一下,確實搜的到,我再回來著色還說找不到。發(fā)現(xiàn)沒有哪里不對呀,難道在這 里KEGGT色只能輸入基因ID而不能輸入名稱?不是,輸入基因ID能給著色,基因名稱也應該能給,哈哈,我突然大笑起來,一定是KEGGK分大小寫了!果然,我把搜到的GAL1輸進去,好了!用 gal1又不行了。我突然覺得好玩起來,就一次次地改大小寫,一次次地 看它給出的錯誤報告,一次次得意地嗤笑它的

15、弱智。既然區(qū)分大小寫,那red能著紅色,Reck REDW定就不認識了,果然改寫一個大小寫的red就沒反應了, c00118也不認識了。前面那么多檢索一直都不區(qū)分大小寫的,在這里怎么區(qū)分大小寫呢?KEGG顯然把這點疏忽了。著色結果如下:(紅色的就是GAL1的酶,右上角的就是 C00118)代謝物還好,如果要著色酶,沒必要去找基因,還免得像我那樣麻煩,直接在輸入框 中輸入相應的酶就好了,比如ec: red(ec要小寫)跟GAL1 red 是一樣的?;蛘咧苯訉?red也是一樣的。這種著色功能還可用于對比(或尋找)兩個不同物種的一些基因,或者根據芯片數(shù)據, 直觀地示意一些

16、基因的表達調控。著色內容也可以預先按以上規(guī)定的格式寫在文本文件中, 然后直接瀏覽導入也行?;蛐酒瑪?shù)據的分析我對基因芯片數(shù)據(表達譜)的分析也是蠻感興趣的。利用基因芯片的表達數(shù)據,分 析不同實驗條件下的一些上調或下調基因,并與生物通路結合起來,用不同的顏色來直觀 地反映代謝通路中各基因表達的變化情況,可以為更好地研究代謝網絡提供了很大的幫助。 以前出去聽人家講課,只知道 GenMapp不錯,可以把基因芯片數(shù)據和通路結合起來,沒想 到在KEG曲也可以實現(xiàn)這一功能。進入網頁http:/www.genome.jp/kegg/expression/ 。網頁左邊是 KEGG自身擁有的 一些基因表達數(shù)據集

17、 KEGG EXPRESSION Database網頁的右邊 KegArray 就是要進行芯片 分析的工具了。在 KEGG EXPRESSIONS 面,點擊 “l(fā)istof experimental dataavailable : 就打開了 KEG曲的基因芯片數(shù)據,見下圖:這是芯片數(shù)據的一個目錄層次,箭頭向右和向下分別表示收起和展開數(shù)據。我們以上 圖中的第一條數(shù)據為例,即 Suzuki et al. 做的關于 Synechocystis PCC6803 冷激響應的 一條數(shù)據 ex0000012,點擊這個數(shù)據,在打開的頁面下面有個option 列表,點擊LaunchKegArray,加載這個應用

18、程序來分析這條數(shù)據。出現(xiàn)如下對話框:問你是打開還是保存,打開就相當于臨時用一下,網頁關掉就沒了;保存就是把這個 軟件下載到自己的電腦上,以后還可以用。你先打開試試吧,這個不是關鍵,關鍵的是你 可能打不開這個文件。大家都知道,生物信息學的一些軟件往往要求安裝JAVA才能運行,我JAVA早就安裝了,但是仍然告訴我打不開這個文件,我看了一下文件格式,是什么 JNLP格式的沒見過,看看屬性,又從網上搜搜,說需要 java web start 才能打開和運行, 我安裝了 JAVA,java web start在哪里找到和啟動,查了半天也沒個頭緒,忽然一想,java web start 肯定在JAVA安裝

19、文件夾里,取首字母縮寫,很有可能是javaws.exe,我一搜還真在安裝文件夾里搜到這個執(zhí)行程序了,用作JNLP的默認打開方式,立馬就呼呼地啟動了。出現(xiàn)了如下的界面:圖中的File Name、Organism還都對,下面的參數(shù)一般都是默認的,不需要改。右邊 還有一個統(tǒng)計圖,用以顯示上調、下調和不調的基因數(shù)目比例。綠色表示下調,紅色上調, 黃色無明顯差異(之前有文獻說紅色是下調,搞的我迷糊了好大一陣子?。?。那怎么在生物學通路中看這些基因的調整情況呢?看到最下面的 Mapping to 了嗎,選擇 pathway(默認的也是 pathway),GO 一下,就 OK了。然后它就會把這個芯片數(shù)據涉及到

20、的基因所在的通路圖列出來,并在通路中用不同 的顏色標明基因表達差異。如下圖(選取的是喋吟代謝通路的一部分)綠色表示基因下調,黃色表示沒明顯變化,灰色是什么,這個可能species-specific基因,與芯片無關的吧。那怎么沒紅色?(1)通路中本就沒有基因上調(2)雖然綠色表示下調,紅色上調,但是在他們之間有過渡的顏色,比如某個基因 只是稍微上調,因此不能大紅大紫,只能呈現(xiàn)過渡的暗黃色。如果你一定有見紅情結的話, 那你可以在help菜單中選擇preferences,把顏色梯度改成 1,即下調就是綠色,上調就 是紅色,沒中間余地。此時一旦有所上調不論多少都是大紅。(呵呵)除此之外,看到了嗎,Ke

21、gArray還有一個做聚類 Clustering的命令,你可以點擊GenomeNe隊KEG陰選擇芯片數(shù)據進行聚類,不過貌似做得很簡單,也沒有紅綠顏色。當然,你可以選擇KEGG其他芯片數(shù)據進行類似分析,可可以從本地導入其他的芯片數(shù)據。也可以把 KegArray保存在本地運行,但是不管怎樣,不管你選在KEGGf選了那條數(shù)據,需要指出的一點是,當你再運行KegArray時,加載的數(shù)據總是你第一次使用的數(shù)據。比如我即使在 KEGG43選擇ex000013而不是ex000012,然后launch KegArray,啟動后出現(xiàn)的數(shù)據依舊是我第一次分析的數(shù)據ex000012而不是ex000013,只有打開以后,點擊GenemoNet重新選擇芯片數(shù)據。而KegArray本身又找不到可以設置這些東西的地方,真不知道KEGG1要干嘛!KGMLf通路編輯這個我不打算多講,因為我自己也在躊躇著要不要學習呢。KGML即KEGG Markup Language的簡稱,我自己的理解就是它包含代謝通路中各組 件以及各組件之間的相互聯(lián)系,因此是代謝通路構建的指令。在KEG"可以以xml的格式進行下載:ftp:/ftp.genome.jp/pub/kegg/xml/。據說這種 KGML文件,打開時,能以另一種方式查看代謝通路,即酶和化合物之間的 各種交叉聯(lián)系,我很

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論