(計(jì)算機(jī)軟件與理論專業(yè)論文)蛋白質(zhì)磷酸化位點(diǎn)預(yù)測與規(guī)則抽取方法研究.pdf_第1頁
(計(jì)算機(jī)軟件與理論專業(yè)論文)蛋白質(zhì)磷酸化位點(diǎn)預(yù)測與規(guī)則抽取方法研究.pdf_第2頁
(計(jì)算機(jī)軟件與理論專業(yè)論文)蛋白質(zhì)磷酸化位點(diǎn)預(yù)測與規(guī)則抽取方法研究.pdf_第3頁
(計(jì)算機(jī)軟件與理論專業(yè)論文)蛋白質(zhì)磷酸化位點(diǎn)預(yù)測與規(guī)則抽取方法研究.pdf_第4頁
(計(jì)算機(jī)軟件與理論專業(yè)論文)蛋白質(zhì)磷酸化位點(diǎn)預(yù)測與規(guī)則抽取方法研究.pdf_第5頁
已閱讀5頁,還剩72頁未讀, 繼續(xù)免費(fèi)閱讀

(計(jì)算機(jī)軟件與理論專業(yè)論文)蛋白質(zhì)磷酸化位點(diǎn)預(yù)測與規(guī)則抽取方法研究.pdf.pdf 免費(fèi)下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

籃 j 硪磷艘化位占廳刪 j 胤則抽取方法 d f 究 摘宦 摘要 磷酸化足最重要的蛋白質(zhì)翻譯后修飾之一 蚩白質(zhì)磷酸化和去磷酸化為真核 細(xì)胞提供了調(diào)節(jié)機(jī)制 隨著高通量鑒定磷酸化蛋白質(zhì)技術(shù)的發(fā)展 尤其足質(zhì)譜技 術(shù)在蛋白質(zhì)組學(xué)中的應(yīng)用 磷酸化修飾數(shù)掘不斷積累 從現(xiàn)有數(shù)掘中挖掘規(guī)律從 面對未知蛋f 1 質(zhì)進(jìn)行磷酸化修飾位點(diǎn)預(yù)測的條件只益成熟 將計(jì)算方法引入磷酸 化蛋白質(zhì)組學(xué)的研究中 將有利f 發(fā)現(xiàn)新的磷酸化修飾規(guī)律并為生物學(xué)實(shí)驗(yàn)提供 驗(yàn)證信息 從而推動(dòng)磷酸化蛋白質(zhì)組學(xué)的發(fā)展 計(jì)算智能領(lǐng)域的方法可以很好地應(yīng)用于位點(diǎn)預(yù)測問題 但對f 生物信息學(xué)來 說 除了給出較為準(zhǔn)確的預(yù)測結(jié)果外 還需要給出對判斷結(jié)果易f 理解的解釋才 能夠增加預(yù)測方法的町信度 規(guī)則抽取不但可以提供合理的解釋來指導(dǎo)生物學(xué)實(shí) 驗(yàn) 而且可以從現(xiàn)有數(shù)掘中發(fā)現(xiàn)新的具有生物學(xué)意義的磷酸化修飾規(guī)律為磷酸化 蛋白質(zhì)的進(jìn)一步研究提供有價(jià)值的參考信息 本文深入分析了磷酸化修飾位點(diǎn)數(shù)據(jù)的特點(diǎn) 采用支持向黽機(jī)分類方法試驗(yàn) 和比較了多種特征構(gòu)造提取 特征選擇和分類方法的有效性 提出用a d a b o o s t 方法對篩選后的氨基酸性質(zhì)和鄰近序列位置進(jìn)行特征選擇并進(jìn)行分類器訓(xùn)練 形 成了新的磷酸化位點(diǎn)預(yù)測算法a p r o p h o s 該算法在特異性高f 已有預(yù)測算法 約 2 個(gè)百分點(diǎn) 的基礎(chǔ)上 大大提高了預(yù)測的靈敏度 約1 0 個(gè)百分點(diǎn) 同時(shí)設(shè) 計(jì)了一種新的基于a d a b o o s t 方法的規(guī)則抽取方法 可以給出可理解的修飾位點(diǎn) 鄰近序列上氨基酸性質(zhì)分1 1 規(guī)律 并對分類結(jié)果進(jìn)行解釋 a p r o p h o s 及其規(guī)則 抽取算法擴(kuò)展了磷酸化位點(diǎn)預(yù)測方法在實(shí)際中的應(yīng)用范圍 既可以用 提供充分 信息的位點(diǎn)預(yù)測 又可以用束提高磷酸化蛋白質(zhì)質(zhì)譜鑒定效率 最后本文提出了一種利用串聯(lián)質(zhì)譜同位素信息進(jìn)行分子式預(yù)測的算法和系 統(tǒng)f f p f r a g r n e n ti o nf o r m u l ap r e d i c t i o n 無論從計(jì)算效率上還是預(yù)測精度上較以 前的方法都有了很大的提高 使分子式預(yù)測可以廣泛用f 質(zhì)譜的預(yù)處理和蛋白質(zhì) 包括磷酸化蛋白質(zhì) 的鑒定 提高鑒定效率 關(guān)鍵詞 磷酸化 位點(diǎn)預(yù)測 艦則抽取 s v m a d a b o o s t 蚯f i 頃磷晚化位占艋刪l j 州剛抽虬療征研亢 a b s t r a c t r e s e a r c ho np r o t e i np h o s p h o r y l a t i o ns i t e sp r e d i c t i o na n dr u l e se x t r a c t i o n c a ij i n j i n c o m p u t e rs o f t w a r ea n dt h e o r y s u p e r v i s e db yp r o f z h a oj i e y u p r o t e i np h o s p h o r y l a t i o ni so n eo ft h em o s ti m p o r t a n tr e v e r s i b l ep o s t t r a n s l a t i o n a l m o d i f i c a t i o n s p t m s p h o s p h o r y l a t i o na n dd e p h o s p h o r y l a t i o np r o v i d e sar e g u l a t o r y m e c h a n i s mi ne u k a r y o t i cc e l l s h i g h t h r o u g h p u tm e t h o d sf o rt h ei d e n t i f i c a t i o no f p t m sa r eb e i n gd e v e l o p e d i np a r t i c u l a rt h ea p p l i c a t i o no fm a s ss p e c t r o m e t r yt ot h e f i e l d so fp r o t e o m i c s w i t ht h er e c e n ti n c r e a s ei n p r o t e i np h o s p h o r y l a t e ds i t e s i d e n t i f i e db ym a s ss p e c t r o m e t r y i ns i l i c op r e d i c t i o no f p o t e n t i a lp h o s p h o r y l a t i o ns i t e s m a yf a c i l i t a t et h ei d e n t i f i c a t i o no fp h o s p h o r y l a t e dp r o t e i n i ti si n d e e da d v a n t a g e o u s t o p r o v i d ev a l i d a t i o n f o r b i o l o g i c a le x p e r i m e n t sa n d d i s c o v e rn e wr u l e so f p h o s p h o r y l a t i o nb yi n t e g r a t i n gc o m p u t a t i o n a la p p r o a c h e s i n t o p h o s p h o r y l a t e d p r o t e i n sr e s e a r c h c o m p u t a t i o n a li n t e l l i g e n c ei sag o o dc h o i c ef o rh i g hp e r f o r m a n c ep h o s p h o r y l a t e d s i t e sp r e d i c t i o n f u r t h e r m o r e e x p l a i n i n gh o wap r e d i c t i o ni sm a d ei st h ek e yt oi t s c r e d i b i l i t y e s p e c i a l l yf o ra p p l i c a t i o n st ob i o i n f o r m a t i c s n o to n l ya r et h ee x t r a c t e d r u l e sr e a s o n a b l ei n t e r p r e t a t i o n st h a ta r eu s e f u lt og u i d et h eb i o l o g i c a le x p e r i m e n t s b u ta l s oa r eh e l p f u lt oi n t e g r a t ec o m p u t a t i o n a lt e c h n o l o g yf o ra d v a n c e dd e d u c t i o n i nt h i st h e s i s a f t e rc o m p r e h e n s i v ec o m p a r i s o n sa m o n gt h ed i f f e r e n tf e a t u r e so f p h o s p h o r y l a t e ds i t e s w es e l e c tp h y s i c o c h e m i c a la n db i o l o g i c a lp r o p e r t i e so fa m i n o a c i d sa r o u n dt h es i t e s t h r o u g ht h ep r i m a r ys t r u c t u r eo fp r o t e i nf o rt h ef e a t u r e e x t r a c t i o n w ed e s i g nan e wp h o s p h o r y l a t e ds i t e sp r e d i c t i o nm e t h o dn a m e d a p r o p h o sw i t ha d a b o o s ta sf e a t u r es e l e c t i o na n dc l a s s i f i c a t i o n d i f f e r e n tf r o mo t h e r p r e d i c t i o nm e t h o d sw i t hl o w e rs e n s i t i v i t y o u rm e t h o ds h o w sa b o u t1 0 h i g h e r s e n s i t i v i t ya sw e l la sa b o u t2 h i g h e rs p e c i f i c i t y i no r d e rt op r o v i d et h e u n d e r s t a n d a b l ee x p l a n a t i o no ft h ep r e d i c t i o n w ed e s i g nan o v e la p p r o a c ht oe x t r a c t r u l e sf r o ma d a b o o s tc l a s s i f i c a t i o n a p r o p h o sa n dt h er u l e se x t r a c t i o nm e t h o de x p a n d t h ea p p l i c a t i o nf i e l do ft h ep h o s p h o r y l a t e ds i t e sp r e d i c t i o n t h e yc a ng i v et h e d i s t r i b u t i o nf o r m u l a so fa m i n oa c i d sp r o p e r t i e sa r o u n dt h es i t e sa tt h es a m et i m e p e r f o r mt h eg o o dp r e d i c t i o n a sw e l la sc a ne n h a n c e t h ee f f i c i e n c yo f p h o s p h o r y l a t e d p r o t e i ni d e n t i f i c a t i o nw i t ht a n d e mm a s ss p e c t r a i n t h i st h e s i s w ea l s od e v e l o pan e wm e t h o df f p f r a g m e n ti o nf o r m u l a p r e d i c t i o n w h i c hc a np r e d i c tt h eb e s tf o r m u l a so ff r a g m e n ti o n sm o r ea c c u r a t e l y t h r o u g ht h em i n i m i z a t i o no ft h ed i s t a n c eb e t w e e nt h e o r e t i c a la n do b s e r v e di s o t o p e p a t t e r n sw i t h i nl e s st i m e i tc a nh e l pt op r e p r o c e s st h em a s ss p e c t r u md a t aa n d i m p r o v et h er e l i a b i l i t yo ft h ei d e n t i f i c a t i o no fp r o t e i n i n c l u d i n gp h o s p h o r y l a t e d p r o t e i n s w i t ht a n d e m m a s ss p e c t r a k e y w o r d s p h o s p h o r y l a t i o n p r e d i c t i o n r u l e se x t r a c t i o n s v m a d a b o o s t i i l 盤 j 贗域幢化位盧預(yù)刪b 胤則抽取方征 l j f 充 酗h 錄 圖目錄 圖1 1 磷酸化修飾位點(diǎn)預(yù)測及規(guī)則抽取研究設(shè)計(jì)流程 圖2 1a a i n d e x l 的數(shù)掘格式 圖2 2 樣本集合不作處理及處理后分和散點(diǎn)圖 4 1 5 1 9 圖2 3 氨基酸性質(zhì)相關(guān)性對分類的影響 2 0 圖2 4 朱磷酸化位點(diǎn)與磷酸化位點(diǎn)鄰近序列氨基酸分白比較 2 l 圖2 5 不同激酶家族作用下磷酸化位點(diǎn)鄰近序列的l o g o s 2 2 圖2 6 磷酸化位點(diǎn)和未磷酸化位點(diǎn)鄰近序列位西 氨藎酸分白差異 2 3 圖4 1p r e d p h o s p h o a p r o s v m a p r o p h o s 性能比較 4 0 圖4 2a p r o p h o s 在五種激酶家族樣本集合上分類性能的r o c 曲線 4 1 圖4 3a p r o p h o s 與k i n a s e p h o s 性能比較 4 3 圖6 1 多肽v l d a l d s i k 的實(shí)驗(yàn)質(zhì)譜剛位素分御的近景圖 5 6 圖6 2f f p 分子式預(yù)測系統(tǒng)啟動(dòng)界面 6 l 圖6 3f f p 分子式預(yù)測系統(tǒng)有效峰及j 可位索峰簇挑取 6 1 圖6 4f f p 分子式預(yù)測系統(tǒng)分子式預(yù)測結(jié)果 6 2 v j j 盤 j 顧磷憾化位占婿刪 j 段州抽恥方法研究 表廿采 表目錄 表1 1 模式序列挖掘方法 表1 2 現(xiàn)有預(yù)測磷酸化位點(diǎn)系統(tǒng)所采用的方法 1 0 衷2 1p h o s p h o b a s e 磷酸化修飾蛋白質(zhì)數(shù)據(jù)庫格式 袁2 2 按激酶g r o u p 劃分樣本集合修飾位點(diǎn)個(gè)數(shù) 1 6 表2 3 按激酶f a m i l y 劃分樣本集合修飾位點(diǎn)個(gè)數(shù) 1 7 表2 4 去除未i t 釋修飾樣本與正例相似部分的流程 1 8 表2 5 樣本集合去冗余流程 1 8 表3 1p s s m 矩陣計(jì)算方法 衷3 2 采用不同特征的s v m 磷酸化位點(diǎn)預(yù)測算法性能 3 0 衷3 3 利用線性s v m 判別函數(shù)特征權(quán)重進(jìn)行特征選擇流程 3 2 衷3 4 信息增益t e 方法與線性s v m 判別函數(shù)特征權(quán)重方法比較 3 3 表4 1b o o s t i n g 方法 衷4 2 經(jīng)典a d a b o o s t 算法 3 5 6 謄4 3a d a b o o s t 算法選擇特征 3 8 表4 4a d a b o o s t 算法選擇最佳迭代次數(shù)方法 3 9 表4 5a p r o p h o s 方法在去掉的反例樣本上的測試結(jié)果 4 1 表5 1 一層分類樹弱分類器訓(xùn)練流程 表5 2a d a b o o s t 規(guī)則抽取遞l 門算法 4 6 4 7 表5 3c d k 和p k a 激酶家族抽取的部分規(guī)則示例 5 0 衷5 4 抽取的規(guī)則和a p r o p h o s 分類器分類性能比較 5 l 表5 5p k a 家族規(guī)則抽取正確性驗(yàn)證 5 2 表6 1 在5 0 個(gè)質(zhì)譜上f f p m s e n u m e r a t e 和a c 的預(yù)測準(zhǔn)確性 6 0 i x 聲明 我聲明本論文足我本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取行的 研究成果 盡我所知 除了文中特別加以標(biāo)注和致謝的地方外 本論 文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果 與我一間工作的同 志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示了 謝意 作者簽名 缸葷 葷日期 加啤g 國 日 論文版權(quán)使用授權(quán)書 本人授權(quán)中國科學(xué)院計(jì)算技術(shù)研究所可以保留并向國家有關(guān)部 門或機(jī)構(gòu)送交本論文的復(fù)印件和電子文檔 允許本論文被查閱和借 閱 可以將本論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索 可以 采用影印 縮印或掃描等復(fù)制手段保存 匯編本論文 保密論文在解密后適用本授權(quán)書 作者簽名 赫 年導(dǎo)師簽名當(dāng)生曲期 抽 手 丹石臼 籀一爭鍺論 第一章緒論 隨營人炎基因組計(jì)劃的基本完成和人類蛋白質(zhì)組計(jì)劃的啟動(dòng) 生物學(xué)研究過 程產(chǎn)生了海邕的實(shí)驗(yàn)數(shù)據(jù)嘔待利用信息技術(shù)進(jìn)行分析和挖掘 磷酸化蛋白質(zhì)組學(xué) 在蛋f j 質(zhì)組研究中處f 重要地位 發(fā)現(xiàn)磷酸化修飾規(guī)律一直以末就足生物學(xué)家關(guān) 注的重點(diǎn)之一 由于質(zhì)譜技術(shù)在蛋白質(zhì)鑒定領(lǐng)域的快速發(fā)展 蛋白質(zhì)磷酸化修飾 相關(guān)數(shù)掘也不斷積累 迫切需要對已有的數(shù)掘進(jìn)行分析和知識(shí)挖掘 達(dá)到對未知 蛋f 1 質(zhì)磷酸化修飾進(jìn)行預(yù)測 挖掘新的磷酸化修飾 物學(xué)規(guī)律的目的 從而i r 以 給生物學(xué)家提供蛋自質(zhì)功能研究方面的驗(yàn)證和指導(dǎo)信息 本文旨在采用計(jì)算智能領(lǐng)域的方法束研究磷酸化蛋白質(zhì)組學(xué)的修飾位點(diǎn)預(yù) 測及規(guī)則抽取問題 提高預(yù)測精度 給出磷酸化修飾位點(diǎn)周圍氨基酸性質(zhì)分向規(guī) 律 擴(kuò)展磷酸化修飾位點(diǎn)預(yù)測在實(shí)際中的應(yīng)用范圍 最終形成生物學(xué)實(shí)驗(yàn) 數(shù) 據(jù)分析 知識(shí)挖掘與推測 生物學(xué)實(shí)驗(yàn)這樣的生物信息學(xué)中信息技術(shù)與 l 三 物技術(shù)相符相承 互相促進(jìn)的循環(huán) 1 1 選題意義 本節(jié)首先介紹了蛋白質(zhì)磷酸化方面的生物學(xué)背景知識(shí)和概念 然后闡述了蛋 白質(zhì)磷酸化方面的生物信息學(xué)問題 最后在問題提出的基礎(chǔ)上概括了本文的研究 內(nèi)容和研究目的 1 1 1 蛋白質(zhì)組學(xué)與磷酸化蛋白質(zhì)組學(xué) 隨著基因組計(jì)劃基本完成 生命科學(xué)研究已進(jìn)入后基困時(shí)代 上要研究對象 足功能罄岡組學(xué) 包括結(jié)構(gòu)基岡組研究和蛋白質(zhì)組研究等 蛋白質(zhì)組研究的開展 不僅足生命科學(xué)研究進(jìn)入后基因組時(shí)代的黽程碑 也是生命科學(xué)研究的孩心內(nèi) 容 傳統(tǒng)的蛋白質(zhì)研究注重研究單一蛋白質(zhì) 而蛋白質(zhì)組學(xué)江苣研究參與特定生 理或病理狀念的所有的蛋白質(zhì)種類及其與周圍環(huán)境 分子 的關(guān)系 它的研究內(nèi)容 包括 1 蛋白質(zhì)鑒定 2 蛋白質(zhì)翻譯后修飾的研究 3 蛋白質(zhì)結(jié)構(gòu)研究 4 蛋白 質(zhì)細(xì)胞內(nèi)定位及功能確定 5 發(fā)現(xiàn)藥物靶分子及制藥等 早期蛋白質(zhì)組學(xué)的研究范圍上要足指蛋白質(zhì)的表達(dá)模式 隨著學(xué)科的發(fā)展 蛋臼質(zhì)組學(xué)的研究范圍也在不斷完驀和擴(kuò)充 蛋f l 質(zhì)翻譯后修飾研究已成為蛋白 質(zhì)組研究中的重要部分和巨大挑戰(zhàn) 所謂蛋白質(zhì)翻譯后修飾指的足蛋白質(zhì)折疊過 程中和折疊過程后在多肽鏈上 發(fā)塵的共價(jià)反應(yīng) 使蛋白質(zhì)質(zhì)黽發(fā) 改變并且賦f 蛋白質(zhì)各種功能 中 蝴f i 翠院 6 ii 乍伸論史 盤fj 所磷哺化世 倚刪1 州 j 抽取力 上川充 磷酸化足最t 垂受的蛋e j 質(zhì)翻譯后修飾之一 這種修飾使氳璀酸刪鏈1 通過其 價(jià)鍵連接一個(gè)磷酸基團(tuán) 通常發(fā)生住縫氮酸s 蘇氯酸t(yī) 和酪鈕酸y 上 稱為 住點(diǎn) 磷駿化足一個(gè) t 逆的修飾過程 激酶催化修飾的發(fā) f 向磷酸 晦則起糾 占磷酸化的作用 蛋f l 質(zhì)磷酸化和占磷酸化幾乎調(diào)節(jié)蕾7 命活動(dòng)的所有過程 包 括細(xì)胞的增埴 分化和發(fā)育 神經(jīng)活動(dòng) 肌肉收縮 新陳代謝 腫瘤發(fā)生等 尤 其在細(xì)胞應(yīng)答外界刺激時(shí) 蛋白質(zhì)磷酸化足f i 前所知道的最上耍的信弓傳遞方 式 掘統(tǒng)計(jì)哺乳動(dòng)物細(xì)l 色 內(nèi)有三分之一以上的蛋f j 月s 可以被磷酸化 而脊推動(dòng)物 毖岡組中仃5 的基岡編碼蛋e j 激酶或磷酸酯酶 黃0 3 磷酸化蛋自質(zhì)組學(xué)就足對 物體參與生命過程中某種活動(dòng)的所有磷酸化蛋 自質(zhì)進(jìn)行研究的學(xué) 它在蛋f j 質(zhì)組學(xué)研究中占行重要地位 蛋白質(zhì)磷酸化研究 何三個(gè)上耍目的 第一 對位f 某一特定狀叁下細(xì)胞內(nèi)磷酸化蛋f j 質(zhì)的序列及磷酸化氯墻酸錢 基定位 第二 鑒定與磷酸化過程有關(guān)的激酶 第三 分析所觀察到的磷酸化現(xiàn) 象對功能的影響 黃0 3 1 其中 第一個(gè)e l 的足磷酸化研究的上耍任務(wù)和基礎(chǔ) 翻譯后修飾的研究 尤其足磷酸化蛋白質(zhì)組學(xué)的研究 不儀仃助丁二理解翻譯 后修飾在生命過程中的重耍意義 還對未束的藥物丌發(fā)提供了極大的保證 找到 e 正常細(xì)胞中變異的分子靶點(diǎn) 有利于研究蛋白質(zhì)的相互作用是如何被翻譯后修 飾過程控制 理解調(diào)控翻譯后修飾過程因素 仃利f 在分子水平上揭示細(xì)胞過程 和蛋白質(zhì)網(wǎng)絡(luò)的功能 最終指導(dǎo)針對分子的更準(zhǔn)確的藥物控制 百r 以預(yù)見 蛋白 質(zhì)翻譯后修飾的模擬物在蛋自療法中將足新的熱點(diǎn) 所有這些研究都要建茳在磷 酸化蛋自質(zhì)鑒定的基礎(chǔ)之上 磷酸化蛋白質(zhì) e 物信息技術(shù)方面的研究工作將會(huì)給 磷酸化蛋白質(zhì)組研究提供秀要的指導(dǎo)信息 成為推動(dòng)其大規(guī)模丌展的f i 力武器 1 1 2 蛋白質(zhì)磷酸化修飾位點(diǎn)的生物信息學(xué)問題 蛋自質(zhì)翻譯后修飾足與蛋白質(zhì)的功能密切相關(guān)的 尤其足磷酸化修飾 在分 f 生物學(xué)早期 通常蛋自質(zhì)功能在得知蛋f j 質(zhì)序列之前破研究出束 為了研究蛋 自質(zhì)如何發(fā)揮功能 要考慮蛋白質(zhì)的二維結(jié)構(gòu)表面哪個(gè)位霞足活躍的 容易與某 種催化劑反應(yīng)與其他蛋白質(zhì)相結(jié)合 從 面產(chǎn) 相旺作用 發(fā)揮功能 而蚩自質(zhì)的 一級(jí)結(jié)構(gòu)也就足序列直接影響和決定了蛋白質(zhì)的二級(jí)結(jié)構(gòu)和三維結(jié)構(gòu) 隨著罄岡 測序技術(shù)與基舊編碼蛋f 1 質(zhì)領(lǐng)域研究的出現(xiàn) j 成熟 我們已經(jīng)i 哥到了丈量蛋e j 質(zhì) 的氯坫脧序列 出現(xiàn)了囊括迄今為止已知的蚩f 質(zhì)序列的數(shù)據(jù)庫 由r 蟹e l 質(zhì)的 功能足蟹f l 質(zhì)組學(xué)研究的巨要領(lǐng)域 所以對籃f j 質(zhì)序列的研究已經(jīng)成為生物信息 學(xué)中的一個(gè)蓖要組成部分 b p g 0 4 對磷酸化蛋f j 質(zhì)序列及其修飾 z 點(diǎn)的簽定和研究 樣足磷酸化蛋f l 質(zhì)組學(xué) 第一爭鋪論 研究的審點(diǎn) 時(shí)此對磷酸化修飾位點(diǎn)及規(guī)律的預(yù) 憚j 發(fā)現(xiàn)也成為塵物信息學(xué) u j 題 的焦點(diǎn)之一 磷酸化修飾與多種復(fù)雜因系相天 數(shù)量龐大分卸廣泛 雖然它通常 發(fā)生在氨基酸s t y 上 但并不足蛋f 1 質(zhì)中出現(xiàn)的所有s t y 部會(huì)發(fā) l 修飾 加之磷酸化過程本身是動(dòng)態(tài) 逆的 導(dǎo)致磷酸化蛋白質(zhì)鑒定困難重重 早期鑒定方法卜分繁瑣和昂貴 比如e d a m n 降解 通過化學(xué)反應(yīng)將氨摹酸 殘堆從多肽序列上一個(gè)個(gè)切下來分別分析 以確定序列和修飾 每切一個(gè)殘基需 要相當(dāng)長的試驗(yàn)時(shí)問 1 0 個(gè)多肽大約需要1 2 個(gè)小時(shí) 大大限制了磷酸化蛋白 質(zhì)鑒定的效 摹 而利用尸 同位索進(jìn)行標(biāo)記的方法 雖然快速有效 f e l 是成本十 分高晶o m j 0 3 質(zhì)譜 m s m a s ss p e c t r u m e t r y 蛋白質(zhì)序列測定技術(shù)的出現(xiàn)和發(fā) 展為翻譯后修飾的研究開辟了新的途徑 它以快速 高父敏度和高精度等特點(diǎn)成 為當(dāng)自口蛋白質(zhì)鑒定乃至翻譯后修飾鑒定的霞要方法 z k 0 4 1 k m 9 8 分析各種質(zhì)譜數(shù)掘的軟件如s e q u e s t m a s c o t 等在未修飾蛋白質(zhì)鑒定上能 夠較好的滿足實(shí)用需求 并且具備一定鑒定翻譯后修飾的能力 但因?yàn)殍b定時(shí)需 要考慮多種修飾位點(diǎn)組合方式作為候選 所以存在著組合爆炸的隱憂 然而有大 壁修飾位點(diǎn)組合方式在實(shí)際中足不存在的 在鑒定中其實(shí)無需考慮 并且磷酸化 蛋白質(zhì)質(zhì)譜數(shù)掘鑒定出的序列和修飾位點(diǎn)結(jié)果存在很多假陽性 需要利用磷酸化 修飾方面的先驗(yàn)知識(shí)來進(jìn)行驗(yàn)證和篩選 目阿磷酸化蛋白質(zhì)組學(xué)研究已經(jīng)確定了上f 個(gè)磷酸化蛋白質(zhì)及其修飾位點(diǎn) 并且形成了數(shù)據(jù)庫 于是利用大量已知磷酸化蛋白質(zhì)數(shù)據(jù) 我們可以通過各種生 物信息學(xué)手段 研究鄰近修飾位點(diǎn)的蛋白質(zhì)一級(jí) 二級(jí)和三級(jí)結(jié)構(gòu) 結(jié)合這些結(jié) 構(gòu)上氨基酸的各種相關(guān)性質(zhì)如分子量 等電點(diǎn) 疏水性等信息 挖掘先驗(yàn)知i 和 規(guī)律 對朱知修飾的蛋白質(zhì)進(jìn)行修飾位點(diǎn)預(yù)測 從而達(dá)到如下兩個(gè)目的 第一 可以輔助磷酸化蛋白質(zhì)質(zhì)譜數(shù)掘的鑒定 包括減少修飾組合方式的候選和對鑒定 結(jié)果的驗(yàn)證 第二 為塵物學(xué)家提供有關(guān)磷酸化修飾的規(guī)律和先驗(yàn)知識(shí) 預(yù)測新 蛋自質(zhì)的磷酸化位點(diǎn) 指導(dǎo)實(shí)驗(yàn)和研究 1 1 3 本文研究內(nèi)容和目標(biāo) 通過上文對蛋e 1 質(zhì)磷酸化修飾的背景知i 及生物信息學(xué)問題的討論 本文的 研究內(nèi)容e 要集中在以下兩部分 第一 觀察磷酸化位點(diǎn)樣本的分白 尋找合理的特征提取和選擇方法以及合 適的分類算法 對磷酸化修飾位點(diǎn)鄰近序列氰鍵酸的性質(zhì)進(jìn)行全面的分折 達(dá)到 更商的預(yù)測精度 使之i r 以輔助磷酸化蛋f j 質(zhì)質(zhì)譜數(shù)據(jù)的鑒定 第二 對影響磷酸化修飾位點(diǎn)的氰基酸性質(zhì)作全面研究 找對每種激酶作 中田f i 軍 6 i 學(xué)f 論迂 蚯cj 贗磷婚化位占攤馴 胤州抽取力 上研丸 用的底物影響最大的氰軾酸性質(zhì) 并挖掘修飾位點(diǎn)鄰近序列氰軾脧性質(zhì)的分卻規(guī) 律 在島精度預(yù)測的f d 時(shí)給出氰馨酸性質(zhì)方向的規(guī)則宋解釋預(yù)測結(jié)果 筮n 頃 虎 日k 嚴(yán)州 磷搠化位 豫捌v i 琺 圈1 1 磷酸化修飾位點(diǎn)預(yù)測及規(guī)則抽取研究設(shè)計(jì)流程 磷酸化修飾位點(diǎn)鄰近序列的規(guī)則挖掘目前集中f 模式序列的挖掘上 沒有考 慮其他相關(guān)因素 使用模式序列這種規(guī)則對磷酸化修飾位點(diǎn)進(jìn)行預(yù)測的精度有 限 模式序列僅僅足修飾位點(diǎn)鄰近序列氨基酸種類分南的一種規(guī)律 而影響位點(diǎn) 修飾的本質(zhì)應(yīng)該足氨基酸的各種理化性質(zhì)及生物學(xué)性質(zhì) 經(jīng)常存在幾種不剛的氨 藎酸有相剛性質(zhì)的情況 比如a h 和r 的疏水性就 常相似 所以在疏水性 意義上束說 這三種氨基酸其實(shí)足一樣的 此時(shí)采用氨堆酸種類為特征束挖掘模 式序列會(huì)將模型復(fù)雜化 如果采用機(jī)器學(xué)習(xí)的方法進(jìn)行位點(diǎn)預(yù)測 可以建立復(fù)雜的非線性分類器 研 究和采用很多種特征 使得預(yù)測準(zhǔn)確度大大提高 但由f 分類器往往 常復(fù)雜 所以通常不會(huì)對分類結(jié)果用規(guī)則進(jìn)行解釋 也不容易依掘分炎器束挖掘規(guī)則 罄f 上面兩點(diǎn)考慮 本文的研究內(nèi)容將達(dá)到以下兩個(gè)目的 第一 用合適的 分類方法訓(xùn)練分炎2 達(dá)到令人滿意的預(yù)測準(zhǔn)確度 第二 采用規(guī)則抽取技術(shù) 從分類器中抽取人i r 理解的規(guī)則 既u 以對顱測結(jié)果進(jìn)行解釋 又可以挖掘和分 類器預(yù)測準(zhǔn)確度接近的判斷磷酸化修飾位點(diǎn)的規(guī)則 磷酸化修飾位點(diǎn)預(yù)測及規(guī)則 抽取研究內(nèi)容框架見圖i 1 本文的最后一部分研究內(nèi)容足關(guān) 如何利用串聯(lián)質(zhì)譜數(shù)掘束進(jìn)行多肽砰片 離j 二分子式預(yù)測 勺磷酸化位點(diǎn)預(yù) i 9 沒有a 接笑系 但最終部有提島蛋白質(zhì)鑒定 效 的作用 此方法叮以通過分析生f j 質(zhì)質(zhì)講數(shù)掘 準(zhǔn)確預(yù)測碎片離j 二分子式 4 第一帚緒論 對蛋白質(zhì)序列和修飾位點(diǎn)鑒定育很大幫助 1 2 蛋白質(zhì)磷酸化修飾位點(diǎn)規(guī)則挖掘與預(yù)測現(xiàn)狀 從第一個(gè)d n a 序列發(fā)現(xiàn)起 科學(xué)家們一直在尋找 上物學(xué)方面的序列特征模 式 希望能掘此對一些分子塵物學(xué)方面的現(xiàn)象做出解釋和預(yù)測 于是生物學(xué)家和 計(jì)算學(xué)家從朱停止過根掘已知的蛋白質(zhì)序列及結(jié)構(gòu)信息結(jié)合實(shí)驗(yàn)獲得的磷酸化 蛋白質(zhì)數(shù)掘?qū)っ缸饔糜虻哪J竭M(jìn)行探索 以期能夠?qū)ξ粗牧姿峄揎椢浑M(jìn) 行預(yù)測 從而揭示蛋白質(zhì)功能 相互作用方式及信號(hào)傳導(dǎo)路徑等眶要生命活動(dòng) 1 2 1c o n s e n s u ss e q u e n c e 規(guī)則挖掘 早期磷酸化修飾位點(diǎn)的研究主要集中在c o n s e n s u ss e q u e n c e 模式序列的發(fā) 現(xiàn)上 從蛋白質(zhì)結(jié)構(gòu)的角度 豇r 以把蛋白質(zhì)序列分為兩類展本組分 一種是結(jié)構(gòu) 域 基本特征足具有較為完整的二級(jí)結(jié)構(gòu) 自身具有功能 另一種就是模式序列 c o n s e n s u ss e q u e n c e k k 9 1 1 長度比結(jié)構(gòu)域短 一般在l o 個(gè)氨罄酸左右 模式序列町以結(jié)合特定的結(jié)構(gòu)域發(fā)塵修飾從 面調(diào)節(jié)蛋白質(zhì)分子的定位或 和 活性 唐0 4 m g j 0 1 磷酸化修飾位點(diǎn)鄰近氨基酸組成模式就是一種饃式 序列 激酶能夠識(shí)別它使得這個(gè)位點(diǎn)被磷酸化 如縫 蘇氨酸激酶a k t p k b 作用 下發(fā)生修飾的位點(diǎn)鄰近序列必須含有r x r x x s t x k k 9 1 這段模式序列中 的s 廠r 為a k t 的磷酸化位點(diǎn) 其 3 和 5 位的r 必須保守 近年來 不斷出現(xiàn)各 種模 弋序列挖掘的方法 b r a z m a e t a l b j e 9 8 對這類方法進(jìn)行了詳細(xì)的綜述 這樣的模式序列通常采用統(tǒng)計(jì)學(xué)方法從大肇已知磷酸化修飾位點(diǎn)鄰近氨基 酸序列中提取模式序列 e i 前有五種較有代表性的方法 分別足 t e i r e s i a s r f 9 8 p r a t t j c h 9 5 g i b b sm o t i f s a m p l e r t r l 0 3 e m o t i f n w b 9 8 1 i t e r a t i v es t a t i s t i c a la p p r o a c h s g 0 5 t e i r e s i a s 算法分為s c a n n i n g 和c o n v o l u t i o n 兩個(gè)階段 s c a n n i n g 階段窮舉 搜索找出滿足最小支持度的所有基本模式 只含兩個(gè)氨基酸 形成集合 在 c o n v o l u t i o n 階段利用這個(gè)集合和支持度將基本模式結(jié)合起束形成更長的模式 p r a t t 方法在序列空間中用加入修剪過程的深度優(yōu)先搜索來尋找商醬適性的 模式 然后根據(jù)用戶參數(shù)再進(jìn)行精簡提煉 該方法需要設(shè)定的參數(shù)很多 所以參 數(shù)稍有不同 結(jié)果差異就會(huì)很大 g i b b sm o t i f s a m p l e r 方法是一個(gè)迭代的蒙特專羅過程 生成一個(gè)序列位胃杈 苣矩陣柬表示一個(gè)模式 e m o t i f 力 法采用的足育修剪過程的窮舉搜索算法0 找島特異性島覆蓋度 c 和圜f l 院幀i 學(xué)位論文 血fj 所磷髓化位占托刪 j 段 j 抽4 五 上川究 的模式序列 但只能用 事先進(jìn)行多序 0 比對后相似的序列集合 i t e r a t i v es t a t i s t i c a la p p r o a c h 足最新的一個(gè)爭門用r 磷酸化修飾位點(diǎn)的模式 h 列挖掘方法 它首先用發(fā) e 修飾的氯甚酸s 廠r 的鄰近氮毖酸 列排列成行為 一個(gè)鄰近序列 列為鄰近序列位胃的矩陣稱為磷酸化序列矩陣記為p m a t r i x 計(jì) 算p m a t r i x 中某個(gè)氨藎酸x 在鄰近序列位胃 上出現(xiàn)的 既率p j p 然后使用朱發(fā) t 修飾的氮藎酸s 廠r 的鄰近氨藎酸序列也排成一個(gè)矩陣稱為背景序列矩陣記 為b m a t r i x 計(jì)算b m a t r i x 中某個(gè)氨基酸x 在鄰近序列位置 上出現(xiàn)的概率記做 背景概率6 p 然后在模式序列挖掘階段 采用貪心的方法 找p j p 最高但6 j d 最低的 保留p m a t r i x 和b m a t r i x 中符合此 的序列形成新的p m a t r i x 和b m a t r i x 再汁算概二簪 如此迭代直到 沒有概率意義上顯苫的c 氨藎酸鄰近序列位置 時(shí)停止 得到一條模式序列 將 符合此模式序列的鄰近序列從仞始的p m a t r i x 和b m a t r i x 中去除 再執(zhí)行上述步 驟 直到p m a t r i x 和b m a t r i x 找不到符合要求的 時(shí)停止 這樣就可以得到所有的模式序列了 表1 1 模式序列挖掘方法 名稱方法 t e i i e s l a s 窮學(xué)搜索方法 p r a t t 含修剪過f l 的深度優(yōu)尢搜索方法 g l b b sm o t l f s a m p l e 迭代的蒙特e 羅過櫸 有修剪過群的窮畢搜索 只j h 丁序 都 e m o t i f 相似的序列集合 i t e r a u v es t a t l s n c a la p p r o a c h迭代統(tǒng)計(jì)和貪心控索力r 法 p r o s i t e h t t p w w w e x p a s y o r g p r o s i t e s c h 0 2 h s s 0 4 收求了到目前為 止發(fā)現(xiàn)的與修飾和功能相關(guān)的c o n s e n s u ss e q u e n c e 包括備種激酶作用產(chǎn) 的磷 酸化修飾 它用途廣泛 使用了比較 格的模型束刻刪激酶作用底物的特征 可 以用f 識(shí)別細(xì)胞調(diào)節(jié)過程中一系列激酶和磷酸麟晦作用的底物蛋白 也町以指導(dǎo) 底物蛋f j 的人工合成 模式序列叮以用f 預(yù)測修飾位點(diǎn) 只要待判定修飾位點(diǎn)的鄰近氯雛酸序列 j 模式序列符合 就認(rèn)為此位點(diǎn)i 叮以發(fā) l 修飾 反之則小會(huì)發(fā)生修飾 f h 預(yù)測準(zhǔn)確 度較低 e 要足由模式序列挖掘方法的假設(shè)前提 斂的 這二個(gè)假設(shè)為 k k 9 1 1 c o n s e n s u ss e q u e n c e 對r 底物蛋f j 質(zhì)破某種激酶識(shí)別并發(fā) l 修飾足充分必要條 件 2 磷酸化位點(diǎn)的特異性特征只包含任化點(diǎn)鄰近的瓴毖酸j 列中 與其他多膚 第 爭鍺論 上的氨藎酸無笑 3 磷酸化位點(diǎn)附近的序列位胃對識(shí)別域特征的確定貞獻(xiàn)的權(quán)亳 足 樣的 無論它離位點(diǎn)行多近 這些假設(shè)使模式序列在修飾位點(diǎn)預(yù)測的使用上存在很多局限性 第一條假設(shè) 使饃式序列過f 格 有很強(qiáng)的特異性 但足戈敏性大大降低 出于磷酸化修飾 的發(fā)生還與位點(diǎn)處于蛋白質(zhì)三維結(jié)構(gòu)的位置有很大關(guān)系 所以在三維結(jié)構(gòu)上鄰近 位點(diǎn)的氨基酸也肓b r 能影響修飾 第二條假設(shè)用在磷酸化修飾的研究上有一定局 限 磷酸化位點(diǎn)鄰近序列位置上的氰壤酸對位點(diǎn)修飾的影響大小足不同的 所以 第三條假設(shè)足模式序列考慮的因素過j 二簡單 1 2 2 磷酸化修飾位點(diǎn)預(yù)測方法 上述三個(gè)假?zèng)] 使摸式序列足夠簡單易f 使用和理解 但列時(shí)由于模型的簡 化 限制了模式序列在磷酸化位點(diǎn)預(yù)測方面的應(yīng)用 模式序列有很強(qiáng)的特異性 靈敏性很低 發(fā)生氰基酸替代和突變時(shí)就無法正確預(yù)測磷酸化修飾位點(diǎn) 為了使模式序列更好的應(yīng)用在磷酸化位點(diǎn)預(yù)測上 隨后出現(xiàn)了多種權(quán)重矩陣 的方法 將未知修飾位點(diǎn)鄰近序列與符合模式序列的氨基酸序列集合進(jìn)行序列比 對 按照朱知修飾位點(diǎn)鄰近序列上每個(gè)氨基酸所在序列位置在模式序列集合中出 現(xiàn)的頻率進(jìn)行打分 這種方法對序列的突變有一定的容忍度 并且可對待判定位 點(diǎn)發(fā)生修飾的機(jī)率進(jìn)行打分 最育代表性的權(quán)重矩陣方法預(yù)測系統(tǒng)是p h o s p h o r y l a t i o ns c a n s i t e o c y 0 3 h t t p s c a n s i t e m i t e d u s c a n s i t e 包括三種功能 模式序列搜索 m o t i f s c a n 數(shù)據(jù)庫搜索 d a t a b a s es c a n 年l 序列匹配 s e q u e n c em a t c h 模式序列搜索是s c m l s i t 最主要的功能 可用于磷酸化位點(diǎn)預(yù)測 s c a n s i t e 2 0 版本使用了6 2 種模式序列 這些模式序列都是用經(jīng)過生物試驗(yàn)驗(yàn)證過的磷酸化 修飾位點(diǎn)鄰近序列集合構(gòu)造出柬的 用p s s m p o s i t i o n s p e c i f i cs c o r i n g m a t r i x 下 面季節(jié)詳細(xì)介紹p s s m 矩陣構(gòu)造 矩陣束表示這些模式序列 待判定的位點(diǎn)利 用此矩陣進(jìn)行打分判定 此程序建立的前提是所有的s t 都認(rèn)為足絲 蘇氮酸激 酶可能的底物位點(diǎn) 底物就足可在激酶作用下發(fā)生修飾的蛋白質(zhì) 所有酪氨酸 部認(rèn)為是s h 2 或p t b 結(jié)構(gòu)域的口r 能的結(jié)合位點(diǎn) 每個(gè)位點(diǎn)根掘其前后各7 個(gè)氨 基酸組成的氨基酸的序列與算法設(shè)定的最佳模式序列匹配的程度進(jìn)行打分 計(jì)算 最終所得的分值 以i 珥個(gè)參數(shù)作為 1 三耍街鼉標(biāo)準(zhǔn) 分值 s c o r e 和百分率 p e r c e n t i l e o c y 0 3 百分j 蕃足界定搜索嚴(yán)謹(jǐn)度的參數(shù) 當(dāng)小于o 2 時(shí)為低 9 謹(jǐn)度搜索 在1 一5 之 口j 時(shí)為中 謹(jǐn)度搜索 當(dāng)其大f5 時(shí)為高嚴(yán)洋度搜 索 o c y 0 3 嚴(yán)謹(jǐn)度越高預(yù)測修飾位點(diǎn)的假陽性 簪越低 假陰性 棼會(huì)增高 雖然權(quán)蕾矩陣較模式序列有所改進(jìn) 但模式序列的局限使權(quán)重矩陣方法的預(yù) 7 中舊 1 院劬i 乍伸論殳 生fj 顧鏘脯化位 了綺州 j 觀則舶取方琺研程 洲精度還足無法達(dá)到令人滿意的程度 它考慮的鄰近序列k 度仃限 無法處理復(fù) 雜的序列位胃相關(guān)性 僅僅利用了序列信息 并沒有考慮磷酸化位點(diǎn)鄰近氦藎酸 的 阽質(zhì)時(shí)修飾的影響 從根本上束講氨毖酸名稱僅僅足個(gè)竹弓而已 面氰硅酸的 各種性質(zhì)爿 足影響修飾位點(diǎn)鄰近的蛋f 1 質(zhì)二級(jí)結(jié)構(gòu)三維結(jié)構(gòu)及各種理化性質(zhì)環(huán) 境并決定修飾位點(diǎn)足螽會(huì)與其他物質(zhì)結(jié)合發(fā)塵反應(yīng)從而發(fā)生修飾的恨本原岡 隨著 物實(shí)驗(yàn)確定的磷酸化位點(diǎn)不斷增多 出現(xiàn)了各種磷酸化修飾位點(diǎn)及相 笑f l l 息數(shù)據(jù)庫 k b b 9 9 w k k 0 4 如p h o s p h o b a s e k b b 9 9 其中包含了1 3 7 2 個(gè) 酪氨酸 3 1 7 5 個(gè)絲氨酸和7 6 7 個(gè)蘇氨酸磷酸化位點(diǎn)數(shù)據(jù) 數(shù)據(jù)庫的建立和樣本 暈的增多使得近年束機(jī)2 學(xué)習(xí)方法在這個(gè)問題上的應(yīng)用卜分活躍 這些方法叮以 很好引入各種磷酸化相關(guān)特征 提高了預(yù)測的準(zhǔn)確度 給生物學(xué)家提供了更多有 價(jià)值的信息 磷酸化修飾位點(diǎn)預(yù)測j u 題本質(zhì)上足個(gè)分類問題 就足將待劃定位點(diǎn) 分到町發(fā) 修飾炎還足不會(huì)發(fā)生修飾類 因?yàn)橐呀?jīng)有了大醢確定的修飾位點(diǎn) 就 可以構(gòu)建洲練集合 用機(jī)器學(xué)習(xí)的方法訓(xùn)練分炎器 然后對未知修飾位點(diǎn)進(jìn)行分 類 達(dá)到預(yù)測的目的 n i k o l a jb l o me ta l b p g 0 4 對磷酸化修飾位點(diǎn)預(yù)測問題的提出和特點(diǎn)作了詳 盡的綜述 e m i l y a b e r r ye ta l 對磷酸化修飾位點(diǎn)預(yù)測問題的三種機(jī)器學(xué)習(xí)方法 r e d u c e db i ob a s i sf u n c t i o nn e u r a ln e t w o r k b b f n n b a c kp r o p a g a t i o nn e u r a l n e t w o r k s b p n n c 4 5d e c i s i o nt r e ep r o g r a m 的性能作了實(shí)驗(yàn)比較 b d y 0 4 目 前網(wǎng)上發(fā)布的運(yùn)用機(jī)器學(xué)習(xí)方法的磷酸化位點(diǎn)預(yù)測系統(tǒng)有 n e t p h o s k b p g 0 4 h s r 0 4 b g b 9 9 h t t p l l w w w c b s d t u d k s e r v i c e s n e t p h o s k p r e d p h o s p h o k l 0 0 4 h t t p w w w n g r i r e k r p r o t e o p r e d p h o s p h o h t m d i s p h o s i r b 0 4 h t t p l w w w i s t t e m p l e e d u d i s p h o s g p s z x c 0 4 h t t p 9 7 3 一p r o t e i n w e b u s t c e d u c n g p s g p s w e b k i n a s e p h o s h l t 0 5 m t t p k i n a s e p h o s m b c n c t u e d u t w 磷酸化位點(diǎn)預(yù)測系統(tǒng)設(shè)計(jì)一般涉及到以下幾個(gè)方面 樣本集的確定 特征提 取與選擇 學(xué)2 j 算法和性能評(píng)估 一 樣本集的確定 吲為影響位點(diǎn)發(fā)生磷酸化的因素e 要柬自f 位點(diǎn)鄰近的序列 所以通常樣本 就足位點(diǎn)后面m 個(gè)氨甚酸殘堆和位點(diǎn)自口面n 個(gè)氨基酸殘甚組成的序列 將杯 t 修飾的化點(diǎn)鄰近序列作為j f 例樣本 朱杯 t 的傲為反例樣本 構(gòu)建樣本集合存在 這樣幾個(gè)困難 第一 沒有確定的反例樣本 未卡 j 江修飾的 江點(diǎn)也許足潛在的修 飾位點(diǎn) 第二 樣本存在 c 余 反例樣本遠(yuǎn)多f f 例樣本 第三 不 的激酶會(huì) 產(chǎn)7 相吒矛曬的磷酸化位點(diǎn) 比如一個(gè)化點(diǎn)侄某個(gè)激酶作用卜 町以磷酸化 而任 另一個(gè)激酶作用f 就不叮能發(fā)生 這樣樣本集中會(huì)仃強(qiáng)烈的噪盧 第一爭鍺論 通常的解決方法為 第一 從生物學(xué)角度束說序列相似的蛋白質(zhì)其性質(zhì)和功 能也比較相似 所以可以利用b l o s u m 系列矩陣 i 子見2 2 節(jié) 將每個(gè)未杯注的 位點(diǎn)鄰近序列與i f 例樣本進(jìn)行相似性比較 去除所有與 f 例樣本最相似的 達(dá)到 去除噪爵的目的 第二 去除冗余 嚴(yán)衡j f 反例樣本數(shù)目 防止在對分類算法進(jìn) 行交叉驗(yàn)證時(shí)會(huì)導(dǎo)致過商估汁算法性能 利用b l o s u m 矩陣將樣本按序列相似 度聚類 每類選取一個(gè)作為代表 在不改變樣本分抽的前提下達(dá)到去冗余的目的 第三 針對每種激酶或激酶家族及每種位點(diǎn)氮基酸殘基類型 s t 或y 分別 建立i f 例集合與反例集合來訓(xùn)練分類器 上述血種位點(diǎn)預(yù)測系統(tǒng)部將樣本按激酶 類型進(jìn)行了劃分 二 特征提取與選擇 影響磷酸化發(fā)生的因素是多方面的 其中上要有 修飾位點(diǎn)附近的氨基酸殘 基種類 殘基的物理化學(xué)性質(zhì) 蛋白質(zhì)二級(jí)結(jié)構(gòu)及三級(jí)結(jié)構(gòu)等等 n e t p h o s k p r e d p h o s p h o 只采用了二進(jìn)制編碼表示的氨基酸殘基種類作為特 征 其中n i k o l a jb l o m 等人在n e t p h o s k 方法的基礎(chǔ)上又研究了三維結(jié)構(gòu)上鄰近 修飾位點(diǎn)的特征對修飾位點(diǎn)預(yù)測的作用 只用三維結(jié)構(gòu)鄰近修飾位點(diǎn)的氨基酸特 征來預(yù)測磷酸化修飾位點(diǎn)效果并不好 但發(fā)現(xiàn)使用三維結(jié)構(gòu)鄰近氨基酸特征時(shí)可 以減少一些在使用一級(jí)結(jié)構(gòu)鄰近氨基酸特征時(shí)得到的假陽性結(jié)果 g p s 使用的 特征足兩兩序列之間比對的b l o s u m 相似度打分結(jié)果 d i s p h o s 除了使用編 碼特征之外 還使用了五種預(yù)測蛋白質(zhì)d i s o r d e r 結(jié)構(gòu) 一種蛋白質(zhì)三維結(jié)構(gòu) 算 法的預(yù)測結(jié)果 三種二級(jí)結(jié)構(gòu)預(yù)測軟件的預(yù)測結(jié)果 7 種氨基酸理化性質(zhì)特征 n e t p h o s k p r e d p h o s p h o 兩種方法依據(jù)分類的性能選擇了修飾位點(diǎn)莊側(cè)和右 側(cè)鄰近序列的最佳長度 d i s p h o s 采用p c a 變換和f i s h e r sp e r m u t a t i o nt e s t 方 法作特征提取和選擇 三 學(xué)習(xí)算法 此預(yù)測問題特點(diǎn)足樣本數(shù)量少 i f 例樣本少f 反例樣本 需要采取適用于小 樣本的方法 所以n e t p h o s k 采用的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論