蛋白質(zhì)性質(zhì)和結(jié)構(gòu)預測_第1頁
蛋白質(zhì)性質(zhì)和結(jié)構(gòu)預測_第2頁
蛋白質(zhì)性質(zhì)和結(jié)構(gòu)預測_第3頁
蛋白質(zhì)性質(zhì)和結(jié)構(gòu)預測_第4頁
蛋白質(zhì)性質(zhì)和結(jié)構(gòu)預測_第5頁
已閱讀5頁,還剩80頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 Initial exon:初始外顯子 Internal exon:內(nèi)部外顯子 Terminal exon:終端外顯子 Single-exon gene:單外顯子基因 Promoter:啟動子 Poly-A signal: Poly-A點 DNA的負鏈,能編碼蛋白質(zhì),合成RNA的模板 DNA的正鏈就是與mRNA序列相同的那一個DNA 單鏈,只不過U代替了T。 DNA的正、負鏈是互補的。 蛋白質(zhì)序列分析 蛋白質(zhì)序列分析與結(jié)構(gòu)預測 主要內(nèi)容 一、蛋白質(zhì)性質(zhì)預測 二、蛋白質(zhì)結(jié)構(gòu)預測 三、蛋白質(zhì)結(jié)構(gòu)3D視圖觀察 一、蛋白質(zhì)性質(zhì)預測 在蛋白質(zhì)的研究領(lǐng)域,蛋白質(zhì)性質(zhì)的研究是必要的,而且是非?;A(chǔ) 的。 以

2、往都需要針對未知蛋白質(zhì)進行一系列的實驗摸索,比如pI,Mw等 的測定,然后才有可能得到比較精確的結(jié)果,這樣的摸索往往費時耗 資。 pI:等電位點,Mw:分子量 現(xiàn)在人們已經(jīng)充分地了解了組成蛋白質(zhì)的20個氨基酸的物理化學性質(zhì) ,并由此產(chǎn)生許多基于序列以及結(jié)構(gòu)的預測工具來預測未知蛋白質(zhì)的 性質(zhì)以及通過已知性質(zhì)來預測蛋白質(zhì)。 1,Compute pI/Mw http:/ Compute pI/Mw is a tool which allows the computation of the theoretical pI (isoelectric point) and Mw (molecular wei

3、ght) for a list of UniProt Knowledgebase (Swiss-Prot or TrEMBL) entries or for user entered sequences 。 序列 gi|4506183|ref|NP_002779.1| proteasome alpha 3 subunit isoform 1 Homo sapiens MSSIGTGYDLSASTFSPDGRVFQVEYAMKAVENSSTAIGIRCKDGV VFGVEKLVLSKLYEEGSNKRLFNVDRHVGMAVAGLLADARSLADIA REEASNFRSNFGYNIPLKHLA

4、DRVAMYVHAYTLYSAVRPFGCSFM LGSYSVNDGAQLYMIDPSGVSYGYWGCAIGKARQAAKTEIEKLQM KEMTCRDIVKEVAKIIYIVHDEVKDKAFELELSWVGELTNGRHEIVP KDIREEAEKYAKESLKEEDESDDDNM 結(jié)果 2,ProtParam tool ProtParam computes various physico-chemical properties that can be deduced from a protein sequence. No additional information is requi

5、red about the protein under consideration。 理化性質(zhì)預測軟件 可預測參數(shù) ProtParam is a tool which allows the computation of various physical and chemical parameters for a given protein stored in Swiss-Prot or TrEMBL or for a user entered sequence. The computed parameters include the molecular weight, theoretical

6、pI, amino acid composition, atomic composition, extinction coefficient, estimated half-life, instability index, aliphatic index and grand average of hydropathicity (GRAVY) 。 分子量、等電位點、氨基酸組成、原子組成、消光系數(shù)、估計半衰期分子量、等電位點、氨基酸組成、原子組成、消光系數(shù)、估計半衰期 、不穩(wěn)定指數(shù)、脂肪指數(shù)、總平均親水性、不穩(wěn)定指數(shù)、脂肪指數(shù)、總平均親水性 輸入序列:NP_002779 結(jié)果 結(jié)果結(jié)果 蛋白質(zhì)的鑒

7、定 在對未知蛋白質(zhì)進行理化性質(zhì)分析之后,一般就可以對它進行一般性 的鑒定,這樣可以從性質(zhì)上對蛋白質(zhì)屬于什么蛋白質(zhì)作出一個判斷。 相應的工具軟件通過輸入未知蛋白質(zhì)的氨基酸組成測量值與數(shù)據(jù)庫中 蛋白質(zhì)的氨基酸組成的理論值相比較預測蛋白質(zhì)。通過比較每個蛋白 質(zhì)會得到一個分值,這個分值表示未知蛋白質(zhì)與已知蛋白質(zhì)之間的差 異程度。 同時鑒定中還可以摻入pI、相對分子質(zhì)量、物種以及關(guān)鍵詞等因素以 獲得更好的結(jié)果。 3,AACompIdent tool http:/ 蛋白質(zhì)鑒 定軟件 About AACompIdent is a tool which allows the identification of

8、 a protein from its amino acid composition . It searches the Swiss-Prot and / or TrEMBL databases for proteins, whose amino acid compositions are closest to the amino acid composition given. AACompIdent是一種工具,它可以從蛋白質(zhì)的氨基酸組成 來鑒定蛋白質(zhì) 。它搜索Swiss-Prot 和/或 TrEMBL,找到 與給定蛋白質(zhì)具有最接近氨基酸組成的蛋白質(zhì)。 AAComIdent是通過氨基酸組成來鑒

9、定未知蛋白質(zhì)的工具。 這個程序是通過將未知蛋白質(zhì)的氨基酸組成測量值與數(shù)據(jù)庫中蛋白質(zhì) 的氨基酸組成的理論值相比較預測蛋白質(zhì)。 通過比較每個蛋白質(zhì)會得到一個分值,這個分值表示未知蛋白質(zhì)與已 知蛋白質(zhì)之間的差異程度。 然后擊中的蛋白質(zhì)通過分數(shù)的高低進行排列顯示,同時鑒定中還可以 摻入pI、相對分子量、物種以及關(guān)鍵詞等因素以獲得更好的結(jié)果。 輸入的數(shù)據(jù) 1,Amino acid composition of the protein to identify. 2,A name for this protein, so that you can recognize it later in the resu

10、lts. 3,The pI and Mw of that protein, if known, as well as error ranges that reflect the accuracy of these estimates. 4,The species or group of species for which you would like to perform the search (example: HOMO SAPIENS or MAMMALIA). This will produce the list of proteins from this species, as wel

11、l as a list of proteins independently of species. You may also just specify ALL for all Swiss-Prot / TrEMBL entries; If in doubt about the search term to use, consult the Swiss-Prot list of species. 5,F(xiàn)or scan in Swiss-Prot only: the keyword for which you would like to perform the search (example: Z

12、INC-FINGER). This will produce the list of proteins matching this keyword. You may also just specify ALL for all Swiss-Prot entries; If in doubt about the exact keyword to use, consult the list of keywords used in Swiss-Prot. 6,Amino acid composition of a known protein, obtained in the same run as t

13、he amino acid composition of the unknown protein. This is for calibration; if you do not have a calibration protein, leave NULL. 7,The Swiss-Prot identifier (ID) of the calibration protein (example: ALBU_HUMAN). 8,Your e-mail address. The search results will be mailed back to you automatically (this

14、 should take about 15 minutes). AACompIdent tool 輸入界面 結(jié)果 4,信號肽預測工具 線粒體蛋白質(zhì)的定向轉(zhuǎn)運 引自Molecular Biology of the Cell. 4th ed. 2002 信號肽(signal peptide),是引導新合成肽鏈轉(zhuǎn)移到內(nèi)質(zhì)網(wǎng)上的一段多肽, 位于新合成肽鏈的N端,一般1630個氨基酸殘基,含有6-15個帶正電荷的非 極性氨基酸,由于信號肽又是引導肽鏈進入內(nèi)質(zhì)網(wǎng)腔的一段序列,又稱開始 轉(zhuǎn)移序列(start transfer sequence)。 真核生物基因的一般結(jié)構(gòu)示意圖 SignalP信號肽預測工具

15、http:/ 序列數(shù)據(jù) Q9BS26|TXND4_HUMAN Thioredoxin domain-containing protein 4 - Homo sapiens (Human). MHPAVFLSLPDLRCSLLLLVTWV 圖形顯示 data 序列NP_002779 gi|4506183|ref|NP_002779.1| proteasome alpha 3 subunit isoform 1 Homo sapiens MSSIGTGYDLSASTFSPDGRVFQVEYAMKAVENSSTAIGIRCKDGVVFGVE KLVLSKLYEEGSNKRLFNVDRHVGMAVAG

16、LLADARSLADIAREEASNFRSN FGYNIPLKHLADRVAMYVHAYTLYSAVRPFGCSFMLGSYSVNDGAQLYMID PSGVSYGYWGCAIGKARQAAKTEIEKLQMKEMTCRDIVKEVAKIIYIVHDEV KDKAFELELSWVGELTNGRHEIVPKDIREEAEKYAKESLKEEDESDDDNM 無信號肽 5,跨模結(jié)構(gòu)分析 跨膜結(jié)構(gòu)一般在蛋白質(zhì) 結(jié)構(gòu)中序列的相似性不 大,但結(jié)構(gòu)卻極其相似, 因此在序列搜索中可能 沒有很顯著的結(jié)果,所 以常用的BLAST之類的 相似性或者同源性搜索 就無效。 G蛋白耦聯(lián)型受體為蛋白耦聯(lián)型受體為7次跨膜蛋

17、白次跨膜蛋白 TMpred http:/ 算法簡介 The TMpred program makes a prediction of membrane- spanning regions and their orientation. The algorithm is based on the statistical analysis of TMbase, a database of naturally occuring transmembrane proteins. The prediction is made using a combination of several weight-mat

18、rices for scoring 。 TMpred程序預測跨膜區(qū)和它們的方向。該算法是基于對 TMbase的統(tǒng)計分析, TMbase是一個自然發(fā)生的跨膜蛋 白數(shù)據(jù)庫。作出的預測是通過幾個權(quán)重計分矩陣的結(jié)合得 到的。 序列 gi|4506183|ref|NP_002779.1| proteasome alpha 3 subunit isoform 1 Homo sapiens MSSIGTGYDLSASTFSPDGRVFQVEYAMKAVENSSTAIGIRCKDGVVF GVEKLVLSKLYEEGSNKRLFNV DRHVGMAVAGLLADARSLADIAREEASNFRSNFGYNIP

19、LKHLADRVA MYVHAYTLYSAVRPFGCSFMLGS YSVNDGAQLYMIDPSGVSYGYWGCAIGKARQAAKTEIEKLQMKEM TCRDIVKEVAKIIYIVHDEVKDKAF ELELSWVGELTNGRHEIVPKDIREEAEKYAKESLKEEDESDDDNM 結(jié)果 6,卷曲螺旋預測 卷曲螺旋是控制蛋白質(zhì)寡聚化的元件 這種結(jié)構(gòu)中的兩個螺旋通過其疏水性界面相互 纏繞在一起形成一個十分穩(wěn)定的結(jié)構(gòu) 7,糖基化位點預測 The NetNglyc server predicts N- Glycosylation sites in human proteins u

20、sing artificial neural networks that examine the sequence context of Asn-Xaa-Ser/Thr sequons. 二、蛋白質(zhì)結(jié)構(gòu)預測 蛋白質(zhì)結(jié)構(gòu)預測問題 序列結(jié)構(gòu)功能 .-Gly-Ala-Glu-Phe-. FUNCTION 結(jié)構(gòu)預測問題 .-Gly-Ala-Glu-Phe-. FUNCTION ? 解決方法 .-Gly-Ala-Glu-Phe-. FUNCTION ! 尋找一種從蛋白質(zhì)的氨基酸線性序列到 蛋白質(zhì)所有原子三維坐標的一種映射 蛋白質(zhì)序列: 二級結(jié)構(gòu) 二級結(jié)構(gòu)預測 二級結(jié)構(gòu)預測 1)二級結(jié)構(gòu)預測概述 2)蛋白

21、質(zhì)二級結(jié)構(gòu)預測方法 (1)經(jīng)驗參數(shù)法 (2) GOR方法 (3) Lim方法 (4) 同源分析法 (5) 人工神經(jīng)網(wǎng)絡方法 3)利用進化信息預測蛋白質(zhì)的二級結(jié)構(gòu) 1)二級結(jié)構(gòu)預測概述 蛋白質(zhì) 序列:二級結(jié)構(gòu): QLMGERIRARRKKLK STHHHHHHHHHHHHT 1)蛋白質(zhì)的二級結(jié)構(gòu)預測的基本依據(jù)是:每一段相鄰的氨基酸殘基 具有形成一定二級結(jié)構(gòu)的傾向。 2)二級結(jié)構(gòu)預測問題是模式分類問題模式分類問題。 3)二級結(jié)構(gòu)預測的目標:判斷每一段中心的殘基是否處于螺旋、折 疊、轉(zhuǎn)角(或其它狀態(tài))之一的二級結(jié)構(gòu)態(tài),即三態(tài)。 預測方法 預測主要有兩大類方法: (1)理論分析方法 通過理論計算(如分

22、子力學、分子動力學計算)進行結(jié)構(gòu)預測。 (2)統(tǒng)計的方法(模式識別模式識別或模式分類模式分類) 對已知結(jié)構(gòu)的蛋白質(zhì)進行統(tǒng)計分析,建立序列到結(jié)構(gòu)的映射模型, 進而對未知結(jié)構(gòu)的蛋白質(zhì)根據(jù)映射模型直接從氨基酸序列預測結(jié)構(gòu) 。 預測方法發(fā)展 二級結(jié)構(gòu)預測的方法大體分為三代: 第一代是基于單個氨基酸殘基統(tǒng)計分析:從有限的數(shù)據(jù)集中提取各 種殘基形成特定二級結(jié)構(gòu)的傾向,以此作為二級結(jié)構(gòu)預測的依據(jù)。 第二代預測方法是基于氨基酸片段的統(tǒng)計分析:統(tǒng)計的對象是氨基 酸片段;片段的長度通常為11-21;片段體現(xiàn)了中心殘基所處的環(huán) 境;在預測中心殘基的二級結(jié)構(gòu)時,以殘基在特定環(huán)境形成特定二 級結(jié)構(gòu)的傾向作為預測依據(jù) 。

23、 預測方法發(fā)展 第一代和第二代預測方法對三態(tài)預測的準確率都小于70% ,而對折疊預測的準確率僅為2848%,主要原因是只利 用了局部信息。 第三代方法(考慮多條序列):運用長程信息和蛋白質(zhì)序 列的進化信息;準確度有了比較大的提高。 2)蛋白質(zhì)二級結(jié)構(gòu)預測方法 (1)經(jīng)驗參數(shù)法 蛋白質(zhì)二級結(jié)構(gòu)的組成規(guī)律性比較強 三種基本二級結(jié)構(gòu)平均占氨基酸殘基的85% 各種二級結(jié)構(gòu)非均勻地分布在蛋白質(zhì)中 可供參考的一些原則 有些蛋白質(zhì)中含有大量的螺旋: 如血紅蛋白和肌紅蛋白 而一些蛋白質(zhì)中則不含或者僅含很少的螺旋: 如鐵氧蛋白 有些蛋白質(zhì)的二級結(jié)構(gòu)以折疊為主: 如免疫球蛋白 可供參考的一些原則 每種氨基酸出現(xiàn)在

24、各種二級結(jié)構(gòu)中傾向或者頻率是不同的 ,例如: Glu主要出現(xiàn)在螺旋中 Asp和Gly主要分布在轉(zhuǎn)角中 Pro也常出現(xiàn)在轉(zhuǎn)角中,但是絕不會出現(xiàn)在螺旋中。 可以根據(jù)每種氨基酸殘基形成二級結(jié)構(gòu)的傾向性或者統(tǒng)計 規(guī)律進行二級結(jié)構(gòu)預測。 ChouFasman方法 介紹一種Chou 和Fasman在70年代提出來一種基于單個 氨基酸殘基統(tǒng)計的經(jīng)驗預測方法。 通過統(tǒng)計分析,獲得每個殘基出現(xiàn)于特定二級結(jié)構(gòu)構(gòu)象的 傾向性因子,進而利用這些傾向性因子預測蛋白質(zhì)的二級 結(jié)構(gòu)。 公式 一個氨基酸殘基的構(gòu)象傾向性因子定義為 Pi = Ai / Ti (i= ,c, t) 式中下標i表示構(gòu)象態(tài):如螺旋、折疊、無規(guī)卷曲、轉(zhuǎn)

25、角等; Ti是所有被統(tǒng)計殘基處于構(gòu)象態(tài)i的比例; Ai是A殘基處于構(gòu)象態(tài)i 的比例; Pi大于1.0表示該殘基傾向于形成二級結(jié)構(gòu)構(gòu)象i,小于1.0則表示傾向于 形成其它構(gòu)象。 例 數(shù)據(jù)庫1000個殘基,300個處于,其中殘基A 有100個,這100個殘基中處于的有75個,則 A對的傾向性因子 5 . 2 1000 300 100 75 p 課堂練習 假定數(shù)據(jù)庫中有1830個殘基, 780個處于螺旋態(tài), 1050個處于非螺旋態(tài),庫中共有390個丙氨酸 (A),有240個A處于螺旋態(tài),其余150個 A 處 于非螺旋態(tài)。計算丙氨酸的的P值。 1.44 8301 780 390 240 p 傾向性因子

26、乘 以100。 發(fā)現(xiàn)關(guān)于二級結(jié)構(gòu)的經(jīng)驗規(guī)則 延伸 成核區(qū) 延伸 基本思想是在序列中尋找規(guī)則二級結(jié)構(gòu)的成核位點和終止位點。 掃描輸入的氨基酸序列,利用一組規(guī)則發(fā)現(xiàn)可能成為特定二級結(jié)構(gòu)成 核區(qū)域的短序列,然后對于成核區(qū)域進行擴展,不斷擴大成核區(qū)域, 直到傾向性因子小于1.0為止。 (i)螺旋規(guī)則 延伸 螺旋核 延伸 p p 1,沿蛋白質(zhì)序列尋找螺旋核。 相鄰的6個殘基中如果有至少4個殘基傾向于形成螺旋,則認為是螺 旋核。 2,從螺旋核向兩端延伸 直至四肽片段的螺旋傾向性因子的平均值 1.03,則預測為螺旋。 (ii)折疊規(guī)則 相鄰6個殘基中若有4個傾向于形成折疊,則認為是折疊 核。折疊核向兩端延伸

27、直至4個殘基的平均折疊傾向性因 子P1.05,則預測為折 疊。 延伸 折疊核 延伸 (iii iii)轉(zhuǎn)角規(guī)則。)轉(zhuǎn)角規(guī)則。 (2) GOR方法 是一種基于信息論和貝葉斯統(tǒng)計學的方法 GOR將蛋白質(zhì)序列當作一連串的信息值來處理 GOR方法不僅考慮被預測位置本身氨基酸殘基 種類的影響,而且考慮相鄰殘基種類對該位置 構(gòu)象的影響 序列窗口序列窗口 中心殘基中心殘基 窗口中各個殘基對中心殘基二級結(jié)構(gòu)的支持程度 (3)Lim方法立體化學方法 氨基酸的理化性質(zhì)對二級結(jié)構(gòu)影響較大 在進行結(jié)構(gòu)預測時考慮氨基酸殘基的物理化學性質(zhì),如疏水性、極性 、側(cè)鏈基團的大小等, 可根據(jù)殘基各方面的性質(zhì)及殘基之間的組合預測可

28、能形成的二級結(jié)構(gòu) “疏水性”是氨基酸的一種重要性質(zhì),疏水性的氨基酸傾向于遠離周 圍水分子,將自己包埋進蛋白質(zhì)的內(nèi)部。 螺旋的形成規(guī)律 在一段序列中發(fā)現(xiàn)第i、i+3、i+4位(如1、4、5)是疏水 殘基時,這一片段就被預測為螺旋。 當發(fā)現(xiàn)第i、i+1、i+4位(如7,8,11)為疏水殘基時,這 一片段也被預測為螺旋。 對于折疊的形成規(guī)律: 對于折疊,也存在著一些特征的親疏水殘基間隔模式, 埋藏的折疊通常由連續(xù)的疏水殘基組成,一側(cè)暴露的折 疊則通常具有親水-疏水的兩殘基重復模式。 原則上,通過在序列中搜尋特殊的親疏水殘基間隔模式親疏水殘基間隔模式, 就可以預測螺旋和折疊。 (4) 同源分析法 將待

29、預測的片段與數(shù)據(jù)庫中已知二級結(jié)構(gòu)的片段進行相似性比較,利 用打分矩陣計算出相似性得分,根據(jù)相似性得分以及數(shù)據(jù)庫中的構(gòu)象 態(tài),構(gòu)建出待預測片段的二級結(jié)構(gòu)。 該方法對數(shù)據(jù)庫中同源序列的存在非常敏感,若數(shù)據(jù)庫中有相似性大 于30%的序列,則預測準確率可大大上升。 將待預測二級結(jié)構(gòu)的蛋白質(zhì)U與多個同源序列進行多重比對,對于U 的每個殘基位置,其構(gòu)象態(tài)由多個同源序列對應位置的構(gòu)象態(tài)決定, 或取出現(xiàn)次數(shù)最多的構(gòu)象態(tài),或?qū)Ω鞣N可能的構(gòu)象態(tài)給出得分值。 (5) 人工神經(jīng)網(wǎng)絡方法 (6) 綜合方法 綜合方法不僅包括各種預測方法的綜合,而且也包括結(jié)構(gòu)實驗結(jié) 果、序列對比結(jié)果、蛋白質(zhì)結(jié)構(gòu)分類預測結(jié)果等信息的綜合。 多個程序同時預測,綜合評判得出一致結(jié)果 序列比對與二級結(jié)構(gòu)預測 雙

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論