結構生物信息學6三級結構預測_第1頁
結構生物信息學6三級結構預測_第2頁
結構生物信息學6三級結構預測_第3頁
結構生物信息學6三級結構預測_第4頁
結構生物信息學6三級結構預測_第5頁
已閱讀5頁,還剩71頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

結構生物信息學蛋白質三級結構預測張法中國科學院計算技術研究所2013-3-31Outline背景簡介蛋白質結構預測算法常用軟件介紹蛋白質三級結構序列結構功能蛋白質結構的意義:蛋白質所具有的功能取決于蛋白質的空間結構。蛋白質分子的生物學功能是蛋白質的天然構象具有的屬性或所表現的性質,因此研究蛋白質分子的空間結構和生物學功能的關系在分子生物學中占據突出的地位蛋白質結構的應用:背景簡介1.預測蛋白質的功能3.蛋白質-蛋白質的相互作用5.結構域邊界2.底物結合位點4.藥物設計6.指導定點突變

確定蛋白質結構的方法確定蛋白質結構的方法核磁共振X射線晶體衍射結構預測冷凍電鏡小分子量蛋白蛋白質復合體小分子量蛋白膜蛋白和超大分子復合體背景簡介X-射線晶體衍射技術背景簡介測定衍射斑點位置和強度衍射相角分子的構象電子密度圖X-射線晶體衍射技術優(yōu)點:測定結果可靠;速度快;不受樣品大小限制,無論多大的蛋白,或者復合體,(蛋白質、RNA、DNA、小分子等等),只要能夠結晶就能夠得到其原子結構。缺點:必須進行結晶;很多蛋白質很難(甚至無法)結晶;晶體中的蛋白質分子構象是靜態(tài)的,無法測定不穩(wěn)定的過渡態(tài)的構象。背景簡介核磁共振技術測定蛋白質結構預測背景簡介核磁共振技術測定蛋白質結構背景簡介優(yōu)點:能研究溶液中的蛋白質結構;能提供大量有關動態(tài)的信息;測定結果與X射線技術非常接近。缺點:只能測定較小的蛋白質結構;很難獲得蛋白質分子完整的三維結構。蛋白質結構預測的意義問題:尋找從氨基酸序列到蛋白質所有原子三維坐標的一種映射理論方面:蛋白質折疊的機制應用方面:了解蛋白質分子的結構實驗測定方法的局限性蛋白質結構測定和序列測定嚴重脫節(jié)蛋白質序列與PDB中已測定的結構數量相差2個數量級蛋白質結構的試驗測定費時費力,成功率非常有限大量的蛋白質結構不能通過實驗方法測得背景簡介蛋白質結構預測的依據實驗結果證明:蛋白質的結構由蛋白質序列所決定。背景簡介自然界實際存在的蛋白質是有限的,并且存在著大量的同源序列,可能的結構類型也不多,序列到結構的關系有一定的規(guī)律可循。結構保守性>>序列保守性PDB中結構數量在增加,但是蛋白質的結構類型(Fold)的數量幾乎沒有增加。(~1200)Anfinsen原理:蛋白質鏈會以自由能最低的方式形成三維結構。(1972年諾貝爾化學獎)蛋白質三維結構的表示法歐式空間原子坐標Coordinates(x,y,z)Cα

坐標確定后backbone的自由度很小側鏈排放有一定的自由度距離矩陣坐標距離矩陣,距離矩陣坐標鏡像問題,丟失了手性相鄰的Cα

距離為3.8A左右(特例:cis-proline2.8A)k*L個Cα-Cα距離便可恢復出L個Cα的坐標背景簡介1234103.86.08.123.803.85.936.03.803.848.15.93.8012346.08.15.93.83.83.83.8蛋白質三維結構的表示法角空間扭轉角(Torsionangle)phi-angle(φ):N-Cαbondpsi-angle(ψ):Cα-Cbond鍵長背景簡介1234103.86.08.123.803.85.936.03.803.848.15.93.8012346.08.15.93.83.83.83.8歐式空間的表示法可以與角空間的表示法互相轉換蛋白質的折疊過程背景簡介朝自由能E最低的構造折疊,形成穩(wěn)定的氫鍵,靜電以及范德華相互作用,產生二級結構螺旋平行/反平行蛋白質結構分類數據庫SequenceDB:NRUniprotpFam分類序列相似性Sequencealignment背景簡介蛋白質結構分類背景簡介數據庫SequenceDB:NRUniprotpFam分類序列相似性SequencealignmentStructureDBScopPDBProteinDataBankCATH人工人工+自動全自動分類幾何信息進化信息層次聚類結構相似性structurealignment2/3的結構分類是重合的FSSP蛋白質結構分類背景簡介數據庫SequenceDB:NRUniprotpFam分類序列相似性SequencealignmentStructureDBScopPDBProteinDataBankCATH人工人工+自動全自動分類幾何信息進化信息層次聚類結構相似性structurealignment2/3的結構分類是重合的FSSPSeq-StrualignmentStructureprediction蛋白質結構分類背景簡介數據庫:PDB/Class/Fold/Architecture/Domain/Motif/Superfamily/Family分類:Class:二級結構分類(all,all,+,/,etc)Fold(architecture):二級結構的形狀走向(barrel,sandwich,etc)

domain:結構中有功能的部分比如binding,cleaving,spanningsitesmotif:小的或者特定的二級結構比如一個--loopFamily:考慮拓撲結構+實驗的或者生物特性Superfamily:在family基礎上,還考慮進化關系Allα

Allβ

α+β

α/βPDBID:2FOXCLASS:/FOLD:Flavodoxin-likesandwichSuperfamily:FlavoproteinsFAMILY:Flavodoxin-relatedSandwichTIMbarrelProteinDataBankOutline背景簡介蛋白質結構預測算法常用軟件介紹蛋白質結構預測的主要方法理論分析方法預測算法該類方法假設蛋白質分子天然構象處于熱力學最穩(wěn)定,能量最低狀態(tài)。從原則上來說,我們可以根據物理、化學原理,通過計算來進行結構預測。考慮蛋白質分子中所有原子間的相互作用以及蛋白質分子與溶劑之間的相互作用,通過理論計算(如分子力學、分子動力學)蛋白質分子的能量最小狀態(tài)。實際不可行:自然的蛋白質結構和未折疊的蛋白質結構,兩者之間的能量差非常小蛋白質可能的構象空間龐大,針對蛋白質折疊的計算量非常大計算模型中力場參數的不準確性也是一個問題蛋白質結構預測的主要方法統(tǒng)計分析方法對已知結構的蛋白質進行統(tǒng)計分析,建立序列到結構的映射模型,進而對未知結構的蛋白質根據映射模型直接從氨基酸序列預測結構。經驗性方法:根據一定序列形成一定結構的傾向進行結構預測結構規(guī)律提取方法從蛋白質結構數據庫中提取關于蛋白質結構形成的一般性規(guī)則,指導建立未知結構的蛋白質的模型。

同源模型化方法通過同源序列分析或者模式匹配預測蛋白質的空間結構或者結構單元(如鋅指結構、螺旋-轉角-螺旋結構、DNA結合區(qū)域等)。預測算法Template-free從頭計算Ab

Initio,Denovo

在Ramachandranplot指導下旋轉,,搜索自由能最低如果兩個蛋白質的序列比較相似,則其結構也有很大可能比較相似。如果序列相似性>75%,則可以得到較高精度的預測結構。缺點是只能處理和模板庫中蛋白質序列相似性較高的情況。蛋白質結構預測的主要方法預測算法Template-based同源建模Homology

Modeling

序列足夠相似,屬同源蛋白,則整體結構會很相似折疊識別FoldRecognitionThreading識別與目標序列有關的結構片段組合片段,搜索自由能最低Template-freeTemplate-based同源建模Homology

Modeling

序列足夠相似,屬同源蛋白,則整體結構會很相似折疊識別FoldRecognitionThreading識別與目標序列有關的結構片段組合片段,搜索自由能最低從頭計算Ab

Initio,Denovo

在Ramachandranplot指導下旋轉,,搜索自由能最低從蛋白質結構數據庫中挑選蛋白質結構建立折疊子數據庫,以折疊子數據庫中的折疊結構作為模板;將未知序列與模板進行匹配,通過計算打分函數值判斷匹配程度,其中打分最高的被認為是最可能采取的折疊結構。蛋白質結構預測的主要方法預測算法Template-free從頭計算Ab

Initio,Denovo

在Ramachandranplot指導下旋轉,,搜索自由能最低依據是熱力學理論,即求蛋白質三維結構穩(wěn)定的狀態(tài),也就是能量最小的狀態(tài);由于巨大的計算量,這種方法并不實用。蛋白質結構預測的主要方法預測算法Template-based同源建模Homology

Modeling

序列足夠相似,屬同源蛋白,則整體結構會很相似折疊識別FoldRecognitionThreading識別與目標序列有關的結構片段組合片段,搜索自由能最低蛋白質結構預測流程預測算法蛋白質同源模建算法主要思想:預測算法對于一個未知結構的蛋白質,找到一個已知結構的同源蛋白質,以該蛋白質的結構為模板,為未知結構的蛋白質建立結構模型基本依據:任何一對蛋白質,如果序列等同部分超過30%,則它們具有相似的三維結構,即兩個蛋白質的基本折疊相同,只是在非螺旋和非折疊區(qū)域的一些細節(jié)部分有所不同。若序列的等同部分超過60%,則預測結果將接近于實驗得到的測試結果。一般如果序列的等同部分大于30%,則可以期望得到比較好的預測結果。蛋白質同源模建算法同源建模(Homologymodeling):預測算法又稱比較建模(comparativemodeling);基本假設是蛋白質分子結構具有某種規(guī)則性,其可能三維結構的基本形態(tài)種類有限,各個形態(tài)是由幾種特定的氨基酸序列所構成;利用已知的蛋白質三維結構(可能由NMR或X-ray確定的結構)為模板,模擬出未知結構蛋白質序列的空間結構;一般來說,當未知結構蛋白質序列(targetprotein)和模板(template)間的相似性越高,所仿真出來的結構正確性、可信度也就越高。蛋白質同源模建算法的步驟同源建模方法6個步驟:預測算法搜索結構模板:選擇參考的蛋白質分子(Template,T)序列比對:將目標分子(Target)和參考分子的氨基酸序列比對,尋找序列相同區(qū)域建立骨架:建立目標分子核心部份的分子骨架構建目標蛋白質的側鏈:產生各結構守恒區(qū)域之間松散分子鏈的結構目標分子結構修正微調:構建目標蛋白質的環(huán)區(qū)結果驗證:三維分子結構的檢驗和證實UT蛋白質同源模建算法的步驟預測算法同源模建(1):結構模板的選擇第一步:結構模板的選擇預測算法選擇和目標蛋白質分子相關的參考蛋白質分子目標分子和參考分子間序列相似的程度參考蛋白質分子已知結構的準確性

預測結果準確率:預測算法對于具有60%等同的序列,用上述方法所建立的三維模型非常準確。若序列的等同部分超過60%,則預測結果將接近于實驗得到的測試結果。若有一個以上的參考蛋白分子有已知結構,并且和參考分子的序列相似程度>25%時,一般而言可用同源性仿真方法得到目標分子的合理模型。若沒有精確結構的蛋白質分子供參考,或序列相似程度<25%時,該方法建立蛋白質分子模型成功的機會就不高,此時需利用其它實驗數據的協(xié)助。同源模建(1):結構模板的選擇蛋白質同源模建算法預測算法蛋白質同源模建算法預測算法同源模建(1):結構模板的選擇第一步:結構模板的選擇預測算法一未知結構的蛋白(U),如果找到一個已知結構的遠程同源蛋白(T),可以根據T的結構模板通過遠程同源模型化方法建立U的三維結構模型。一個遠程同源模型化方法要解決三個問題:檢測遠程同源蛋白質(T);U和T的序列必須被正確地對比排列;修改一般的同源模型化過程,以應用于相似度非常低的情況,即處理更多的環(huán)區(qū),建立合理的三維結構模型。同源模建(2):蛋白質序列比對第二步:目標-模板蛋白質序列比對預測算法同源建模程序中最關鍵的步驟;對齊兩蛋白質序列,即決定目標蛋白序列中對應于模板蛋白骨干及松散分子鏈的各個段落,對產生正確三維結構有關鍵性的影響;相似性>50%時,很容易將兩序列對齊;相似性<50%時,需額外的數據才能得到可靠的對齊,困難之處在于確認序列中適當的基準點基準點必須存在于蛋白質序列之中,并在結構和功能都具有重要性,這些基準點提供兩蛋白質分子正確的結構對應關系同源模建(2):蛋白質序列比對第二步:目標-模板蛋白質序列比對預測算法尋找基準點的方法:多序列比對,將目標蛋白與模板及同一系統(tǒng)內其它蛋白質序列進行多序列,以各分子序列對應相同序列段落做為基準點同源模建(2):蛋白質序列比對第二步:目標-模板蛋白質序列比對預測算法尋找基準點的方法:多重模板,使用Cα的距離矩陣,完成與參考蛋白質的結構重疊只有在turn及l(fā)oop的區(qū)域內才可進行插入、刪除和更換疏水性的氨基酸應限制在蛋白質分子核心部份的分子骨干上同源模建(3):構建骨架第三步:目標蛋白結構骨干的確定預測算法利用模板蛋白核心部份分子骨干的結構為基礎,將氨基酸換成目標分子對應位置的氨基酸。剛體裝配法:選取與目標蛋白質序列相似度最高的片段作為目標結構;加權平均法:即采用一種合適的加權方案,用構成基架的同源結構族的平均結構作為目標結構修改后可再利用能量函數來調整各堿基的位置。同源模建(4):構建側鏈第四步:目標蛋白側鏈結構的生成預測算法基于構象庫的方法:在結構數據庫中搜尋具有相同氨基酸序列的片段,直接借用其坐標數據;確定目標蛋白的保守區(qū)域同源模建(4):構建側鏈第四步:目標蛋白側鏈結構的生成預測算法基于構象庫的方法:在結構數據庫中搜尋具有相同氨基酸序列的片段,直接借用其坐標數據;搜尋相似的loop區(qū)域同源模建(4):構建側鏈第四步:目標蛋白側鏈結構的生成預測算法能量計算方法:計算全局能量最低時的原子坐標第一階段,先忽略氨基酸的側鏈部份,在分子骨架的構形空間內做能量最小化計算,找到合理的分子骨架構型;第二階段中將側鏈部份結構考慮進來,以能量最小化的方式計算各支鏈部分的分子構形。同源模建(5):結構修正第五步:目標蛋白結構的修正預測算法Loop區(qū)域的構建,可能得到數個合理的分子構形,需要考慮各分子構形的組合,再進行整體的結構調整和修正;如果loop區(qū)域的結構來自數據庫,需要利用分子運動學方法來修改分子結構,確定能量最低的分子構形同源模建(6):結果驗證第六步:目標蛋白質分子結構的驗證預測算法同該蛋白質已知的實驗數據做一致性的比較來評估,例如溶劑分子的可接觸性,氨基酸堆積密度、厭水性或帶電荷或極性氨基酸的位置,分子靜電位場分布和溶解自由能等等實驗測量值。另外用分子運動學方法來探測是否所得到的分子構形是停留在穩(wěn)定的能量最小的區(qū)域或是停留在很淺的局部能量最小區(qū)域。同源模建(6):結果驗證預測算法優(yōu)化模型–利用能量優(yōu)化方法Discover同源模建(6):結果驗證預測算法利用Profiles3D-檢驗蛋白質結構的合理性

綠色的是合理的結構;紅色的是不合理的結構蛋白質同源模建算法的步驟預測算法同源模建算法的缺陷可供作模板的蛋白質結構有限目標-模板蛋白序列比對精度的限制,特別是同源性很低時側鏈部分預測的錯誤沒有模板區(qū)域的預測還行進一步完善能量函數還需進一步完善,并提高計算效率蛋白質理化性質(如溶劑效應等)方面仍有待努力預測算法同源模建算法的改進預測算法蛋白質折疊識別算法主要思想:預測算法把一個蛋白質序列以“最優(yōu)”的方式放置到一個蛋白質結構模板上;衡量這個模板的合適程度?;疽罁弘m然蛋白質數量在急劇增加,但是蛋白質的結構的折疊類型(Fold)的數量幾乎沒有增加。蛋白質的結構比序列更加保守,通過比較蛋白質的空間結構,可以發(fā)現蛋白質的結構共性,發(fā)現屬于同一家族蛋白質的保守結構;蛋白質結構相似并不意味著蛋白質序列一定相似;具有相似空間結構的蛋白質序列相似程度可能小于25%蛋白質折疊識別算法預測算法1ecd1mdb實例:結構相似,但是序列不相似蛋白質折疊識別算法從蛋白質結構數據庫中挑選蛋白質結構建立折疊子數據庫,以折疊子數據庫中的折疊結構作為模板;將未知序列與模板進行匹配,通過計算打分函數值判斷匹配程度,其中打分最高的被認為是最可能采取的折疊結構。預測算法穿線法(Threading)穿線結構分析是試圖把未知的氨基酸序列和各種已存在的三維結構相匹配,并評估序列折疊成那種結構的合適度。穿線法最適用于折疊(fold)的識別,而不是模型的建立。用未知序列的氨基酸側鏈替換已知序列中的氨基酸位置。蛋白質折疊識別算法-threadingThreading算法的基本步驟:預測算法已知三維折疊結構的數據庫;一種適合于進行序列-結構比對的三維折疊信息的表示方法;一個序列-結構匹配函數,對匹配程度進行打分;用平均勢函數(MeanForceField),選擇最佳的匹配方式建立最優(yōu)線索的策略,或者是進行序列-結構比對的策略;一種評價序列-結構比對顯著性的方法。U序列與數據庫核心折疊比對取最佳核心折疊U結構模型蛋白質折疊識別算法-threadingThreading算法的基本步驟:預測算法蛋白質折疊識別算法-threadingThreading算法的基本步驟:預測算法GLIMAYKLILAMNGKLLGEA結構模板:一次threading結果:MTYKLIL

NGKTKGEGLIMAYKLILAMNGKLLGEAMTYKLILNGKTKGE查詢序列:模板集:YKLILNG……KTKGETTTLNGKTK……GETTTEANGKTKGE……TTTEAVDAVDAATA……EKVFQYA蛋白質結構從頭計算法在既沒有已知結構的同源蛋白質、也沒有已知結構的遠程同源蛋白質的情況下,只能采用從頭預測方法,即(直接)僅僅根據序列本身來預測其結構。大致由如下3部分構成:蛋白質幾何的表示方法由于表示和處理所有原子和溶劑環(huán)境的計算開銷非常大,因此需要對蛋白質和溶劑的表示形式作近似處理。勢函數方法通過對已知結構的蛋白質進行統(tǒng)計分析確定勢函數中的各個參數構象空間搜索技術預測算法Outline背景簡介蛋白質結構預測算法常用軟件介紹蛋白質同源建模--Modeller預測算法由RockefellerUniversity的Dr.AndrejSali開發(fā)需要一個或多個已知結構的同源蛋白作為參考蛋白/modeller/蛋白質同源建模--Modeller預測算法蛋白質同源建模--Modeller預測算法Modeller的步驟:SearchingforstructuresrelatedtoQuerySelectingatemplateAligningQuerywiththetemplateModelbuildingModelevaluation蛋白質同源建模--Modeller預測算法Modeller的步驟:SearchingforstructuresrelatedtoQuery蛋白質同源建模--Modeller預測算法Modeller的步驟:SearchingforstructuresrelatedtoQuerybuild_profile.py蛋白質同源建模--Modeller預測算法Modeller的步驟:SearchingforstructuresrelatedtoQuery mod9.11build_profile.py產生三個文件 build_profile.ali build_profile.log build_profile.prf蛋白質同源建模--Modeller預測算法build_profile.prf蛋白質同源建模--Modeller預測算法build_profile.prf蛋白質同源建模--Modeller預測算法Modeller的步驟:2.Selectingatemplatecompare.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論