




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、生物信息基礎Basics in Bioinformatics第7章 蛋白質結構分析與預測生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室2內容提要引言 蛋白質蛋白質結構預測蛋白質二級結構預測蛋白質三維空間結構預測/blog/article/AlphaFol d-Using-AI-for-scientific-discovery生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室3回顧: 兩種信息載體DNA分子蛋白質分子生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室4蛋白質
2、的構成蛋白質是由氨基酸用肽鍵相連接起來的線性聚合 物蛋白質是平均長度為200個左右的氨基酸大的蛋白質可以達到上千個氨基酸生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室5蛋白質的重要性蛋白質決定的細胞的形狀與結構細胞中蛋白質的重量占細胞干重的一半以上蛋白質是分子識別及催化作用的主要主體,執(zhí)行生物體內 各種重要工作生物反應的催化營養(yǎng)物質的運輸生長和分化的控制生物信號的識別與傳遞序列決定結構,結構決定功能生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室6蛋白質的空間結構構成蛋白質的氨基酸序列 的長度不同、排列不同和
3、 空間結構不同一級結構蛋白質中相鄰的氨基酸通過 肽鍵形成一條伸展的鏈二級結構肽鏈上的氨基酸殘基形成局 部的二級結構比如螺旋是氨基酸的單鏈 螺旋,而片層則由序列片 段“織”形成平面片狀結構空間結構各種二級結構組合形成完整 的折疊結構生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室7內容提要引言 蛋白質蛋白質結構預測蛋白質二級結構預測蛋白質三維空間結構預測生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室8生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室9為什么研究蛋白質的結
4、構?基因是生命的藍圖;蛋白質是生命的機器, 執(zhí)行生 物體內各種重要工作基因序列決定蛋白質的氨基酸序列氨基酸序列的特定空間結構賦予蛋白質相應的活 性和相應的生物學功能了解蛋白質的空間結構,有助于認識蛋白質的功能, 有助于認識蛋白質如何執(zhí)行其功能從氨基酸序列到蛋白質空間結構的對應關系,稱為“第二遺傳密碼”,也叫做折疊密碼破解折疊密碼是21世紀的生物信息學的重要課題生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室10蛋白質結構的測定實驗方法X-射線晶體衍射核磁共振電鏡技術解析一個蛋白質結構在20世紀60年代可以獲得諾貝爾獎;在70年代可以成為轟動世界的新聞;
5、在80年代可以申請到教授職位;在90年代可以獲得博士學位;在21世紀可以發(fā)表C/N/S論文;COVID-2019蛋白質結構預測問題序列 結構 功能“第二遺傳密碼”,也叫做折疊密碼基本觀點:蛋白質的結構由氨基酸序列所決定蛋白質的空間結構決定蛋白質的生物學功能.-Gly-Ala-Glu-Phe-Ala-Glu-Phe-Gly-Ala-Glu.分子的性質和功能生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室12蛋白質結構預測問題的可行性自然界中實際存在的蛋白質種類是有限的,可能 的結構類型并不多結構的數(shù)目并未隨蛋白質氨基殘基的個數(shù)呈現(xiàn)指數(shù)增長存在大量同源序列
6、,序列到結構的關系有一定規(guī) 律可循相似的序列具有相似的結構.-Gly-Ala-Glu-Phe-Ala- Glu-Phe-Glu-Phe-.(.)生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室13蛋白質結構預測問題的數(shù)學本質尋找一種從蛋白質的氨基酸線性序列到蛋白質所 有原子三維坐標的一種映射.-Gly-Ala-Glu-Phe-Ala-Glu-Phe-Glu-Phe-. 生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室14生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室1
7、5結構預測的基本方法統(tǒng)計分析方法對已知結構的蛋白質進行統(tǒng)計分析,建立氨基酸序列 到蛋白質結構的映射模型,進而對未知結構的氨基酸 序列根據(jù)映射模型直接從序列預測結構經(jīng)驗參數(shù)法相似片斷法同源方法理論分析方法假設蛋白質分子取能量最低的空間結構,根據(jù)物理化 學原理,通過理論計算(如分子力學/分子動力學)進行 對氨基酸序列結構預測從頭計算法生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室16內容提要引言 蛋白質蛋白質結構預測蛋白質二級結構預測蛋白質三維空間結構預測蛋白質二級結構的預測問題舉例: 氨基酸序列:QLMGERIRARRKKLK2級結構:CTHHHHHH
8、HHHHHHTH代表螺旋, T代表轉角,C代表無規(guī)卷曲生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室17生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室18二級結構預測基本依據(jù):每一段相鄰氨基酸殘基具有形成一定二級結構的傾向問題的本質是模式分類問題蛋白質二級結構的構成具有比較強的統(tǒng)計規(guī)律所有蛋白質中約85%的氨基酸殘基處于三種基本二級 結構狀態(tài)之一螺旋、折疊和 t轉角二級結構預測的目標:判斷每一段中心的殘基是否處于二級結構的三態(tài)之一三態(tài):螺旋、折疊、t 轉角(或其它狀態(tài))二級結構預測的基本思路相似序列對應著相
9、似的結構QLMGERIRARRKKLKQLMGAERIRARRKKLK結構?生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室19螺旋訓 練 樣 本模 型 學 習預測.-Gly-Ala-Glu-Phe-.二級結構預測的基本過程生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室20生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室21二級結構的基本統(tǒng)計觀察蛋白質二級結構的組成的統(tǒng)計規(guī)律三種基本二級結構平均占氨基酸殘基的85%各種二級結構不均勻地分布在蛋白質中血紅蛋白和肌紅蛋白含
10、有大量的螺旋鐵氧蛋白則不含或者僅含很少的螺旋免疫球蛋白二級結構以折疊為主生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室22氨基酸在二級結構出現(xiàn)的規(guī)律每種氨基酸出現(xiàn)在各種二級結構中傾向或 頻率是不同的比如: Glu主要出現(xiàn)在螺旋中, Asp和Gly主要 分布在轉角中, Pro也常出現(xiàn)在轉角中,但是絕 不會出現(xiàn)在螺旋中可根據(jù)每種氨基酸殘基形成二級結構的傾向性 或者統(tǒng)計規(guī)律進行二級結構預測生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室23二級結構預測可利用的信息單個氨基酸殘基統(tǒng)計分析從數(shù)據(jù)集中提取各種殘基形成特定
11、二級結構的傾向, 以此作為預測依據(jù)基于氨基酸片斷的統(tǒng)計分析統(tǒng)計對象氨基酸片斷,片斷體現(xiàn)了中心殘基所處的環(huán) 境以殘基在特定環(huán)境中形成的特定二級結構的傾向作為 預測依據(jù)蛋白質序列的長程信息和進化信息二級結構的形成一定程度上受到長程殘基的影響蛋白質家族具有特異的殘基替換模式存在進化保守區(qū)域,該區(qū)域變化則會導致蛋白質結構 的改變生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室241. 經(jīng)驗參數(shù)法根據(jù)不同氨基酸形成特定二級結構的傾向 進行結構預測 通過對已知結構的蛋白質(如蛋白質結構數(shù)據(jù)庫PDB、蛋白質二級結構數(shù)據(jù)庫DSSP中的蛋白 質)進行統(tǒng)計分析,可發(fā)現(xiàn)各種
12、氨基酸形成不同二級結構的傾向,從而形成一系列關于二級結 構預測的規(guī)則生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室25基于單個氨基酸殘基統(tǒng)計分析舉例:Glu主要出現(xiàn)在螺旋中,Asp和Gly主要出現(xiàn)在轉角中,Pro不 會出現(xiàn)在螺旋中肽鏈 Ala-Glu-Leu-Met:形成螺旋肽鏈Pro-Gly-Tye-Asp-Ser不會形成螺旋Pi : 1 即該殘基傾向于構成結構i, 1即傾向于構成其它結構基本原理:每種氨基酸殘基出現(xiàn)在各種二級結構中的傾向或頻率 不同,通過統(tǒng)計分析可以獲得每個殘基出現(xiàn)于特定二 級結構中的傾向性因子,利用這些傾向性因子預測二 級結構
13、傾向性因子: Pi Ai /Ti , i , ,t,c.Ai : 殘基A中出現(xiàn)在結構態(tài)i的比例Ti : 所有被統(tǒng)計的殘基位于二級結構態(tài)i的比例26常見氨基酸的二級結構傾向性因子生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室預測二級結構的經(jīng)驗規(guī)則基本思想:在序列中尋找符合某規(guī)則的二級結構的成核位 點和終止位點基本步驟: 掃描輸入的氨基酸序列,利用一組規(guī)則發(fā)現(xiàn)可 能成為特定二級結構成核區(qū)域的短序列,然后 對于成核區(qū)域進行擴展,不斷擴大成核區(qū)域, 直到傾向性因子小于1.0為止螺旋規(guī)則折疊規(guī)則轉角規(guī)則重疊規(guī)則延伸成核區(qū)延伸生物信息基礎 - Basics in
14、 Bioinformatics模式識別與智能系統(tǒng)實驗室27螺旋的預測規(guī)則基本步驟: 沿著蛋白質序列尋找-螺旋核在相鄰6個殘基中,如果至少有4個殘基傾向于 形成螺旋, 即有4個殘基的;則認為是- 螺旋核從螺旋核向兩端延伸,直至四肽片段的螺旋傾向 性因子的平均值P1.03,則預測為螺旋延伸成核區(qū)延伸生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室28折疊的預測規(guī)則基本步驟: 沿著蛋白質序列尋找折疊核在相鄰6個殘基中,如果至少有4個殘基傾向于 形成折疊;即有4個殘基的 , 則認為是 折疊核延伸成核區(qū)延伸生物信息基礎 - Basics in Bioinform
15、atics模式識別與智能系統(tǒng)實驗室29生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室30t轉角的預測規(guī)則t 轉角的模型為四肽5f j1 f j2 f j3 f j4 7.510f j1, f j2 , f j3 , f j4 :轉角參數(shù),表示每種殘基出現(xiàn)在轉角第1、2、3、4位的頻率 4肽片段Pt的平均值大于1,并且Pt的均值同時大于P的均值以及P 的均值,則可以預測這樣連續(xù)的4個殘 基形成轉角生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室31重疊區(qū)域的預測規(guī)則對于螺旋和折疊的重疊區(qū)域,按Pa和P 的相對大
16、小進行預測若Pa大于P,則預測為螺旋;反之,預測為折疊2. 相似片斷法基本原理: 最近鄰方法相似序列具有相似的結構,將相似序列或序列的片 斷所對應的二級結構作為預測結果;在預測中心殘 基的二級結構時,以殘基在特定環(huán)境形成特定二級 結構的傾向作為預測依據(jù)基本統(tǒng)計信息: 基于氨基酸片段的統(tǒng)計分析統(tǒng)計的對象是氨基酸片段,片段體現(xiàn)了中心殘基所 處的上下文環(huán)境片段的長度通常為1121氨基酸片斷生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室32相似片斷法的實現(xiàn)步驟基本步驟: 訓練階段通過窗口掃描已知結構的訓練序列,形成大量短片 斷,即訓練片斷記錄這些片斷中心氨基
17、酸殘基的二級結構預測階段利用同樣大小的窗口掃描待測序列u,在每個窗口位 置下的序列片斷與上述訓練片斷比較,找出最相似 的k個訓練片斷 比如 k=20,50取出現(xiàn)頻率最高的訓練片斷的二級結構作為待測片 斷二級結構的預測氨基酸片斷生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室33生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室343. 同源分析法基本思路:將待預測的片段與數(shù)據(jù)庫中已知二級結構的片段進行 相似性比較利用打分矩陣計算出相似性得分根據(jù)相似性得分以及數(shù)據(jù)庫中的構象態(tài),構建出待預 測片段的二級結構適用情況:
18、該方法對數(shù)據(jù)庫中同源序列的存在非常敏感若數(shù)據(jù)庫中有相似性大于30%的序列,則預測準確率 可大幅上升生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室35假設已知二級結構的氨基 酸片段T=STNGIYWT的二級結構為CHHHHHTH代表螺旋,T代表轉角,C代表無規(guī)卷曲待預測二級結構的氨基酸 片段U=ATSGVFL序列比對:T = S T N G I Y W U = A T S G V F L直接將T的構象態(tài)賦予U生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室36利用進化信息預測二級結構蛋白質家族具有特異的殘基替換
19、模式蛋白質序列中存在進化保守區(qū)域,該區(qū)域變化 則會導致蛋白質結構的改變基本步驟:1. 形成同源序列的多重對比排列2. 將得到的多重比對的統(tǒng)計結果送到一個神經(jīng) 網(wǎng)絡中計算例 1:蛋白質二級結構預測基于序列特征 + 神經(jīng)網(wǎng)絡生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室37例2:蛋白質二級結構預測基于序列特征+譜(profile)特征卷積+遞歸神經(jīng)網(wǎng)絡生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室38生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室39經(jīng)驗參數(shù)法 和 相
20、似片斷法: 只利用了局部信息對三態(tài)預測的準確率都小于70%對折疊預測的準確率僅為2848%同源法運用長程信息和蛋白質序列的進化信息準確度有比較大的提高二級結構預測方法的比較生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室40內容提要引言蛋白質蛋白質結構預測蛋白質二級結構預測蛋白質三維空間結構預測 同源模型法 (60%, 30%) 線索化方法 (25%)從頭預測法生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室411. 同源模型法基本思想:通過同源序列分析預測蛋白質的空間結構或空間結構 單元基本原理:具有相似序列
21、的蛋白質傾向于折疊成相似的空間結構每一個自然蛋白質具有一個特定的結構,不同的序列會采用同 一個基本折疊一對自然進化的蛋白質,如果它們的序列具有2530%的等同 部分或更多,則可以假設這兩個蛋白質折疊成相似的空間結構如果一個未知結構的蛋白質序列與一個已知結構的蛋白質序列 具有足夠的序列相似性,那么可以根據(jù)相似性原理給未知結構 的蛋白質構造一個近似的三維模型如果目標蛋白質序列的某一部分與已知結構的蛋白質的某一結 構域區(qū)域相似,則可以認為目標蛋白質具有相同的結構域或者 功能區(qū)域同源模型法的基本步驟基本過程: 對于一個未知結構的蛋白質序列U,找到一個已知結構 的同源蛋白質,以該蛋白質的結構為模板,為未
22、知結 構的蛋白質建立結構模型設待預測三維結構的目標蛋白質序列為U,同源 模型化方法建立結構模型分6個步驟: 1. 搜索結構模型的模板(T)2. 序列比對3. 建立骨架4. 構建目標蛋白質的側鏈5. 構建目標蛋白質的環(huán)區(qū)6. 優(yōu)化模型U T生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室42生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室43三維空間結構預測結果若有60%等同的序列,則所建立的三維模型非 常準確若序列的等同部分超過60%,則預測結果將接 近于實驗得到的測試結果如果序列的等同部分大于30%,則可以期
23、望得 到比較好的預測結果同源模型法生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室442. 線索化方法提出動機:很多蛋白質具有相似的空間結構,但其序列等同部分 小于25%,即遠程同源;對于這類蛋白質,難以通過 序列比對找出它們之間的關系,需要設計新方法線索化(Threading)方法, 也叫折疊識別(Fold Recognition)技術線索化是建立序列-結構比對(Sequence-Structure Alignment)過程:為目標序列U尋找合適的序列模板,這些模板蛋白質序 列與目標序列U是遠程同源序列,未必具有顯著的序列 相似性基本思想和步驟主要思
24、想:利用氨基酸的結構傾向(比如形成二級結構的傾向/疏水 性/極性等)評價一個序列所對應的結構是否能夠適配到 一個給定的結構環(huán)境中線索化方法有5個步驟:1. 建立核心折疊數(shù)據(jù)庫2. 確定適合序列-結構比對的三維折疊信息表示方法3. 定義序列-結構匹配函數(shù),對匹配程度打分4. 建立序列-結構比對策略5. 給出評價序列-結構比對顯著性的方法生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室45生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室463. 從頭預測法提出動機: 如果沒有已知結構的同源蛋白質、也沒有已知結構的
25、遠程同源蛋白質,則同源模型化方法和線索化方法均 不再適用需要一種僅僅根據(jù)氨基酸序列本身來預測其結構的方 法從頭預測法(Ab initio method)基本原理: 假設蛋白質分子取能量最低的空間結構根據(jù)物理/化學原理,通過基于分子力學/分子動力學的 理論計算所完成的蛋白質結構預測考慮疏水作用/氫鍵/二硫橋/靜電作用/范德華力/溶劑作用等生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室47從頭預測法基本步驟: 1. 確定蛋白質幾何結構的表示方法2. 定義一個可能空間結構的能量函數(shù)3. 設計有效的結構空間搜索方法能量函數(shù)的定義和結構空間搜索方法是從 頭預測
26、方法的關鍵生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室48三種方法的比較同源模型法需要得到一個好的序列比對目標蛋白質序列與模板等同部分超過60%, 則完全可 以找到正確的比對;如果相似程度只有20%-25%,則 很難找到正確的比對;如果相似度低于20%,無法應 用同源模型化方法同源模型法是預測結果最可靠的方法線索化方法需要找到遠程同源蛋白如果能夠找到同一家族的遠程同源蛋白質,則可以獲 得比較好的預測結果;如果找到的模板屬于不同的家 族,則預測準確性難以保證從頭預測方法需要準確的能量函數(shù)和快速搜索策略通常難以產(chǎn)生準確的預測結構生物信息基礎 - Basics in Bioinformatics模式識別與智能系統(tǒng)實驗室49預測結果的評價基本方法:取結構已知的蛋白質,對這些蛋白質進行模擬 結構預測,將預測結構與真實結構進行比較, 分析兩者之間的差距建立公共
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國農(nóng)業(yè)大學《亞健康學概論》2023-2024學年第二學期期末試卷
- 重慶建筑工程職業(yè)學院《合唱排練(一)》2023-2024學年第二學期期末試卷
- 武漢外語外事職業(yè)學院《工程計價學》2023-2024學年第一學期期末試卷
- 信陽師范大學《生物學綜合實驗》2023-2024學年第二學期期末試卷
- 濰坊工程職業(yè)學院《分組項目》2023-2024學年第二學期期末試卷
- 長春金融高等??茖W?!段湫g文化與養(yǎng)生》2023-2024學年第一學期期末試卷
- 浙江郵電職業(yè)技術學院《系統(tǒng)建模與仿真》2023-2024學年第二學期期末試卷
- 陜西省咸陽市陜科大重點達標名校2025屆初三下學期期末質量檢查生物試題理試題含解析
- 長江工程職業(yè)技術學院《寫意人物2》2023-2024學年第二學期期末試卷
- 重慶市涪陵區(qū)涪陵高中2025年高三年第二學期期中英語試題試卷含解析
- 化工行業(yè)不合格品處理流程
- 自提點合作協(xié)議
- (高清版)DB36∕T 1350-2020 網(wǎng)上中介服務超市系統(tǒng)對接技術規(guī)范
- 2025年四川三新供電服務公司招聘筆試參考題庫含答案解析
- 二零二五年度農(nóng)村電網(wǎng)改造升級供電協(xié)議合同范本3篇
- 醫(yī)院醫(yī)用耗材采購管理方案
- 2025年八省聯(lián)考高考語文試卷評析及復習備考指導課件
- 天然氣液化技術發(fā)展-洞察分析
- 《化妝品包裝材料相容性試驗評估指南》
- 浙江省J12共同體聯(lián)盟校2024-2025學年八年級上學期期中語文試題
- 高校實驗室耗材管理制度
評論
0/150
提交評論