版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
計算機在生物學(xué)中的應(yīng)用第一頁,共一百八十三頁,編輯于2023年,星期五計算機在生命科學(xué)和生物技術(shù)中的應(yīng)用計算機是生物研究的工具。為了了解計算機工具在生物研究中的應(yīng)用,首先需要了解生物研究的現(xiàn)狀?;驔Q定論由于DNA雙螺旋結(jié)構(gòu)的發(fā)現(xiàn),基因決定論成為主要觀點。人們嘗試尋找決定生物功能的基因,但是受到挫折。第二頁,共一百八十三頁,編輯于2023年,星期五一是由于美國能源部用30多年研究“核輻射對人類基因突變作用”,未取得實質(zhì)性突破進展,受害者已表現(xiàn)出明顯的突變性狀,但檢測不出其基因突變與對照組存在顯著性差異。二是美國于1975年巨額投資啟動的“腫瘤十年計劃”基本以失敗告終。
R.Dulbecco于1986在science上發(fā)表《癌癥研究的轉(zhuǎn)折點:測序人類基因組》,認為要徹底闡明癌癥的發(fā)生、演進、侵襲和轉(zhuǎn)移的機制,必須對人體細胞的基因組進行全測序。美國政府與1990年正式啟動HGP。第三頁,共一百八十三頁,編輯于2023年,星期五基因組學(xué)由于基因組是物種所有遺傳信息的儲藏庫,從根本上決定著物種個體的發(fā)育和生理,因此,在研究遺傳、發(fā)育、進化、功能調(diào)控等基本生物學(xué)問題方面,基因組學(xué)關(guān)注的是基因組整體的作用,而不是個別基因。功能基因組學(xué)(后基因組學(xué))的中心任務(wù)是通過了解基因組表達與環(huán)境的關(guān)系,以及其在基本生物學(xué)方面和人類健康和疾病相關(guān)的生物醫(yī)學(xué)問題方面的意義。后基因組學(xué)轉(zhuǎn)錄組學(xué):關(guān)注mRNA的組成和細胞功能的關(guān)系。第四頁,共一百八十三頁,編輯于2023年,星期五蛋白質(zhì)組學(xué):其中心任務(wù)是通過比較不同時間或不同細胞的蛋白質(zhì)組成,以揭示蛋白質(zhì)變化的生物學(xué)意義。結(jié)構(gòu)基因組學(xué):了解蛋白質(zhì)三維結(jié)構(gòu)與蛋白質(zhì)功能的關(guān)系。蛋白質(zhì)相互作用網(wǎng)絡(luò):了解蛋白質(zhì)相互作用。代謝組學(xué):其中心任務(wù)是通過比較不同時間或不同細胞的小分子組成,揭示生物學(xué)意義。系統(tǒng)生物學(xué):以一個理論模式為基礎(chǔ),與基因組學(xué)和蛋白質(zhì)組學(xué)的表現(xiàn)進行比較,判斷生物在分子水平上復(fù)雜的相互作用。第五頁,共一百八十三頁,編輯于2023年,星期五生物學(xué)發(fā)展的展望—W.Gilbert(80年諾貝爾化學(xué)獎)91年專門在“nature”撰文討論生物學(xué)研究形式的變化:正在興起的新的范式在于,所有的‘基因’將被知曉(在可用電子方式從數(shù)據(jù)庫里讀取的意義上),今后生物學(xué)研究項目的起點將是理論的。一位科學(xué)家將從理論猜測開始,然后才轉(zhuǎn)向?qū)嶒炄ダ^續(xù)或檢驗該假設(shè)。新的范式:從機理出發(fā),推論在一定條件下細胞的表現(xiàn),再用實驗去驗證。現(xiàn)代,生物學(xué)已分為兩個部分:第六頁,共一百八十三頁,編輯于2023年,星期五試驗生物學(xué):傳統(tǒng)的、依靠實踐發(fā)現(xiàn)事物的性質(zhì)和活動規(guī)律的學(xué)科。研究對象是組成生物體的元件。研究手段是物質(zhì)分離和檢測技術(shù)。當前主要在于建立高通量檢測技術(shù)。理論生物學(xué):根據(jù)事物已知性質(zhì)和活動規(guī)律推導(dǎo)其可能性質(zhì)和活動規(guī)律的學(xué)科。研究對象是生物體整體。研究手段是邏輯分析和推導(dǎo)。計算機作為生物研究的工具,在前期生物學(xué)研究工作中作為計算和存儲工具起輔助作用。在當前生物學(xué)研究工作中作為數(shù)據(jù)處理工具。數(shù)據(jù)處理是高通量檢測技術(shù)和理論生物學(xué)研究的主要方法。產(chǎn)生生物信息學(xué)。第七頁,共一百八十三頁,編輯于2023年,星期五一Excel的功能:表格處理;圖表功能;數(shù)據(jù)庫管理功能。1圖表制作建立圖表,激活和修改圖表項。2計算引用:相對引用(=(a1-b1)/c1*d1)絕對引用($a$1-$b$1)/$c$1*$d$1)函數(shù):chitest(檢驗相關(guān)性);slope(斜率);intercept(截距)。二化學(xué)做圖:
ISISDRAW2的應(yīng)用下載軟件:/計算機輔助工具的運用第八頁,共一百八十三頁,編輯于2023年,星期五生物信息學(xué)背景:1數(shù)據(jù)分析技術(shù)的發(fā)展:1962年Zuckerkandl和Pauling將序列變異分析與其演化關(guān)系聯(lián)系起來,開辟了分子演化的研究領(lǐng)域;1964年Davies開創(chuàng)了蛋白質(zhì)結(jié)構(gòu)預(yù)測研究;1970年Needoeman和Wunsch發(fā)表了兩序列比較算法;1974年Ratner運用理論方法對分子遺傳調(diào)控系統(tǒng)進行分析;1975年P(guān)ipas和McMahon用計算機技術(shù)預(yù)測二級結(jié)構(gòu)。1976年后生物學(xué)數(shù)據(jù)分析技術(shù)大量涌現(xiàn)。2人類基因組計劃產(chǎn)生了大量基因信息(圖0)第九頁,共一百八十三頁,編輯于2023年,星期五生物信息學(xué)(bioinformatics):利用計算機技術(shù)并參照現(xiàn)代信息技術(shù),對生物信息進行儲存、檢索和綜合分析。及一是對海量數(shù)據(jù)的收集、整理與服務(wù)。二是使用數(shù)據(jù)。生物信息學(xué)是把DNA序列分析作為源頭,找到基因組序列中代表蛋白質(zhì)和mRNA的編碼區(qū);同時,闡明基因組中大量存在的非編碼區(qū)的信息實質(zhì),破譯隱藏在DNA序列中的遺傳語言規(guī)律;在此基礎(chǔ)上,歸納、整理與基因組遺傳信息釋放及其調(diào)控相關(guān)的轉(zhuǎn)錄譜和蛋白質(zhì)譜的數(shù)據(jù),從而認識代謝、發(fā)育、分化、進化的規(guī)律。第十頁,共一百八十三頁,編輯于2023年,星期五生物信息學(xué)基本方法:1數(shù)據(jù)庫信息檢索;2用序列比對(alignment,對位排列)方法進行數(shù)據(jù)庫序列檢索;3網(wǎng)絡(luò)分析,計算機模擬。問題:你對生物信息學(xué)的認識第十一頁,共一百八十三頁,編輯于2023年,星期五第一章生物信息數(shù)據(jù)庫
生物信息數(shù)據(jù)庫分類保存各種生物信息,為大家提供計算機分析的基本材料。例文獻數(shù)據(jù)庫、序列數(shù)據(jù)庫。一信息中心:維護和提供數(shù)據(jù)庫服務(wù)。主要工作:在分子水平上應(yīng)用數(shù)學(xué)和計算科學(xué)的方法研究基礎(chǔ)生物、醫(yī)學(xué)問題;為科學(xué)和醫(yī)學(xué)界開發(fā)、維護和分享一系列的生物信息學(xué)數(shù)據(jù)庫;開發(fā)和促進生物信息學(xué)數(shù)據(jù)庫、數(shù)據(jù)存儲、交換以及生物學(xué)命名規(guī)則的標準化。第十二頁,共一百八十三頁,編輯于2023年,星期五重要的生物信息中心:1美國國家生物技術(shù)信息中心(NCBI)/
(管理著包括GenBank在內(nèi)的一批數(shù)據(jù)庫)2歐洲生物信息學(xué)研究所(EBI)
www.ebi.ac.uk/(主網(wǎng)頁,可鏈接到其他項目)
www2.ebi.ac.uk(各種數(shù)據(jù)庫和分析工具)
www3.ebi.ac.uk(公眾服務(wù)網(wǎng)頁)第十三頁,共一百八十三頁,編輯于2023年,星期五3日本核酸數(shù)據(jù)庫(DDBJ):www.ddbj.nig.ac.jp
4北京大學(xué)生物信息中心(CBI或PKUCBI,是EMBnet的中國節(jié)點,也是APBionet的中國節(jié)點)第十四頁,共一百八十三頁,編輯于2023年,星期五二序列數(shù)據(jù)庫1一級數(shù)據(jù)庫:記錄實驗結(jié)果和初步的解釋2二級數(shù)據(jù)庫:從一級數(shù)據(jù)庫提取的信息構(gòu)建的數(shù)據(jù)庫一級核酸序列數(shù)據(jù)庫:(A)GenBank:
/genband/
(B)EMBL(歐洲分子生物學(xué)實驗室的DNA和RNA數(shù)據(jù)庫):www.ebi.ac.uk
第十五頁,共一百八十三頁,編輯于2023年,星期五(C)DDBJ(日本核酸數(shù)據(jù)庫):
www.ddbj.nig.ac.jp/
翻譯編碼的DNA序列(根據(jù)ORF,數(shù)據(jù)庫中搜索)(D)GeneBuilder:125.r.it/~webgene/genebuilder.html(E)上海生命科學(xué)中心:/
一級蛋白質(zhì)序列數(shù)據(jù)庫:(A)PIR-PSD:序列來自于GenBank/EMBL/DDBJ的編碼序列的翻譯、文獻中的和用戶第十六頁,共一百八十三頁,編輯于2023年,星期五直接提交的序列。目前最大的公共蛋白質(zhì)序列數(shù)據(jù)庫。衍生出iProClass(描述蛋白質(zhì)家族的關(guān)系及結(jié)構(gòu)/功能特征),還有PIR-NREF,PIR-ASDB,IESA,PIR-NRL3D,RESID,PIR-ALN等其他輔助數(shù)據(jù)庫。
/pirwww/(B)SWISS-PROT/TrEMBL:經(jīng)注釋的蛋白質(zhì)數(shù)據(jù)庫。每個條目包括蛋白質(zhì)序列、引用文獻、分類學(xué)信息、注釋等。注釋包括蛋白質(zhì)功能、轉(zhuǎn)錄后修飾位點、特殊位點和區(qū)域、二級結(jié)構(gòu)、四級結(jié)構(gòu)、與其他序列的形式性、序列殘缺與疾病的關(guān)系、序列變異體等信息。
/swissprot/第十七頁,共一百八十三頁,編輯于2023年,星期五二級核酸序列數(shù)據(jù)庫CUTG:密碼子使用頻度表
www.dna.affrc.go.jp/~nakamura/CUTG.html
EPD:真核生物啟動子數(shù)據(jù)庫
www.epd.isb-sib.ch/OOTFD:轉(zhuǎn)錄因子和基因表達數(shù)據(jù)庫
/
RepBase:真核生物DNA中重復(fù)序列數(shù)據(jù)庫
www.firinst.orf/~server/repbase.html
MPDB:外顯子和內(nèi)含子數(shù)據(jù)庫
www.biotech.ist.unige.it/interlab/mpdb.html
第十八頁,共一百八十三頁,編輯于2023年,星期五三專門研究的數(shù)據(jù)庫HGMD(可用于預(yù)測基因疾病):www.uwcm.ac.uk/medical_genetics/research/hgmd/
PDD(人類體液中蛋白質(zhì)與疾病關(guān)系):
/pdd/HIV(愛滋病分子免疫學(xué)):
/immunology/immuno-main.html
WIT(重構(gòu)代謝):/wit2/
CSNDB(細胞信號網(wǎng)絡(luò)):geo.nihs.go.jp/csndb/
第十九頁,共一百八十三頁,編輯于2023年,星期五AgDB(農(nóng)業(yè)數(shù)據(jù)庫和信息資源總清單):/agdb/
PharmGKB(藥物遺傳學(xué)和藥物基因組學(xué)):
GBIF(全球生物多樣性信息機構(gòu)):/linkfram.htm
四模式生物數(shù)據(jù)庫模式生物:第二十頁,共一百八十三頁,編輯于2023年,星期五人(Homosapiens);小鼠(Musmusculus);大腸桿菌(Escherichiacoli);釀酒酵母(Saccharomycescerevisiae);果蠅(Drosophilamelanogaster):遺傳;秀麗線蟲(Caenorhabitediselegans):只有約千個細胞的動物,研究RNAi的模式生物;海膽(Strongylocentrotuspurpuratus):研究發(fā)育和基因調(diào)控的模式生物;擬南芥(Arabidopsisthaliana):生活周期6周的十字花科植物,研究植物的模式生物。第二十一頁,共一百八十三頁,編輯于2023年,星期五1各種生物信息中心2大腸桿菌K12完全基因組序列:
/pub/3MYGD(酵母基因組\蛋白質(zhì)和同源關(guān)系數(shù)據(jù)庫)
www.mips.biochem.mpg.de/proj/teast/4BDGP(果蠅基因組中心):第二十二頁,共一百八十三頁,編輯于2023年,星期五五其他數(shù)據(jù)庫1PubMed:生物醫(yī)學(xué)文獻數(shù)據(jù)庫2OMIM(OnlineMendelianinheritanceinMan):保存所有已知的人類生物學(xué)和疾病信息的數(shù)據(jù)庫3GeneCard:/
保存注釋過(定性)基因的數(shù)據(jù)庫4LocusLink:同3第二十三頁,共一百八十三頁,編輯于2023年,星期五六數(shù)據(jù)庫目錄1核酸研究(每年第一期是數(shù)據(jù)庫專集):2NAR(核酸研究數(shù)據(jù)庫總匯):www3.oup.co.uk/nar/databse/3DBcat(法國生物信息中心):biogen.fr/services/dbcat/4nature(介紹基因組測序進展的新聞):
www.nature/genomics問題:生物信息數(shù)據(jù)庫的作用第二十四頁,共一百八十三頁,編輯于2023年,星期五第二章數(shù)據(jù)庫檢索一序列數(shù)據(jù)庫檢索1序列檢索工具:Entrez:BatchEntrez(批處理),NCBI提供的集成檢索工具??梢酝ㄟ^一次檢索而查詢到多個子系統(tǒng)中的所有信息。主頁面有兩個窗口1)下拉式菜單:選擇14個數(shù)據(jù)庫2)搜索:關(guān)鍵詞、作者、雜志、名、物種、檢索號等。3)查詢結(jié)果右上角的link表示與其他數(shù)據(jù)庫的超級連接。第二十五頁,共一百八十三頁,編輯于2023年,星期五SRS:SequenceRetrievalSystem,EBI的檢索工具。有三種查詢方式:1)QuickSequence:快速查詢。選擇數(shù)據(jù)庫查關(guān)鍵詞。2)Standard:標準查詢。由用戶限定查詢條件。3)Extended:擴展查詢??梢詫⑤斎腙P(guān)鍵詞的查尋范圍限定在物種、說明、作者、文獻等范圍內(nèi),也可以先定日期和序列長度。第二十六頁,共一百八十三頁,編輯于2023年,星期五二序列文件的格式1GBFF格式(GenBankflatfile,GenBank平面文件)。(圖1,圖2,圖3)BACs(bacterialartificialchromosomes)細菌人工染色體:攜帶人類基因DNA片段的細菌載體YACs(yeastartificialchromosomes)酵母人工染色體:攜帶人類基因DNA片段的酵母載體STS(sequencetaggedsite)序列標簽位點:染色體上獨特的DNA序列短片段ESTs(expressedsequencetags)表達序列標簽:cDNA5’端的短片段第二十七頁,共一百八十三頁,編輯于2023年,星期五2FASTA格式:第一行:>打頭的文字說明,主要為標記序列用。
第二行開始是序列,每行不超過80個字母(核酸大小寫均可,氨基酸一般大寫)。
由于FASTA沒有特殊的結(jié)束標志,建議最后留一空行。>gi|1293613|gb|U49845|SCU49845SaccharomycescerevisiaeTCP-betagene,partialcds;andAxl2p(AXL2)andRev7p(REV7)genes,completecdsgatcct…第二十八頁,共一百八十三頁,編輯于2023年,星期五3EPD格式和PDB數(shù)據(jù)格式:(圖4)問題:自己設(shè)計一個檢索路徑。第二十九頁,共一百八十三頁,編輯于2023年,星期五第三章序列比對
用戶提交一個核酸或蛋白質(zhì)序列,同指定數(shù)據(jù)庫的全部序列做比較,尋找一個得分最高(或代價最?。┑谋葘?。通過相似序列的種類和功能,確定其種類和功能。序列比對的基本思想基于一條分子生物學(xué)規(guī)則:當兩個分子享有相似的序列時,由于進化關(guān)系和物理化學(xué)限制,它們將很有可能具有相似的三維結(jié)構(gòu)和生物學(xué)功能。第三十頁,共一百八十三頁,編輯于2023年,星期五一序列比對策略:分兩種(圖5)1最簡單的操作:提交一個核酸或蛋白質(zhì)序列,同一級數(shù)據(jù)庫的序列做比較,人工判斷同源性。基本原則:尋找一個最佳對齊方式。2基于知識的預(yù)測:將已知樣本抽象成代表序列-結(jié)構(gòu)或序列-功能相關(guān)性的經(jīng)驗規(guī)則,由其判斷同源性(如motif庫)。此方法的首要任務(wù)是找出可以擴展到結(jié)構(gòu)和功能性質(zhì)的序列特征。第三十一頁,共一百八十三頁,編輯于2023年,星期五兩條序列相似程度的量化表示:相似度(表示相似程度的函數(shù));距離(表示不相似程度的函數(shù),有海明距離和編輯距離)代價(cost)或權(quán)重(weight):
w(a,a)=0w(a,b)=1(a≠w(a,-)=w(-,b)=1得分(score):p(a,a)=1p(a,b)=0(a≠b)
p(a,-)=w(-,b)=-1第三十二頁,共一百八十三頁,編輯于2023年,星期五例1:兩條字符串AIMS和AMOS的最佳對齊方式
AIM–SA–MOS例2:兩個氨基酸序列ARRSG和ARKTVG。
ARRS–GARKTVG第三十三頁,共一百八十三頁,編輯于2023年,星期五二算法:1點陣分析:用兩條序列為X和Y軸構(gòu)建二維矩陣,用點表現(xiàn)兩條序列的相似部分。點所包含的片段長度叫窗口,匹配長度叫相似度閾值。2動態(tài)規(guī)劃算法:最優(yōu)對位排列方法對兩個序列a=a1a2…an和b=b1b2…bn,當S=S(a1a2…ai,b1b2…bi)時有:
Sij=max{Si-1,j-1+s(ai,
bj)},max(Si-x,j+Wx),max(Si,j-y+Wy)Sij:ij位置的分值;s(ai,
bj):
Sij的打分分值;
Wx
:長度為x的空位(間隔)罰分。第三十四頁,共一百八十三頁,編輯于2023年,星期五蛋白質(zhì)打分矩陣:
PAM1矩陣:根據(jù)71組相似性在85%以上的蛋白質(zhì)序列中的1572種變化來估計氨基酸在蛋白質(zhì)進化中被替換的預(yù)期頻率。設(shè)為表現(xiàn)每108年一個突變的替換頻率(假定每一個特定位點的每一個變化都是獨立的)。不同的PAM矩陣可應(yīng)用于不同相似性水平序列比對。例:PAM250、PAM120、PAM80和PAM60分別用于14~27%、40%、50%、和60%相似性的序列比對。PAM250由PAM1自乘250次產(chǎn)生,代表25億年中250%的預(yù)期變化水平。(PAM250的矩陣,圖7)打分矩陣:第三十五頁,共一百八十三頁,編輯于2023年,星期五
BLOSUM矩陣:在有500個蛋白質(zhì)家族的數(shù)據(jù)庫(PROSITE)中針對2000個保守氨基酸模式進行替換頻率鑒定。具有60%同一性的模式聚在一起構(gòu)造一個矩陣就是BLOSUM60,依此類推。
PAM模型可用于尋找蛋白質(zhì)的進化起源,BLOSUM模型可用于發(fā)現(xiàn)蛋白質(zhì)的保守域。核酸打分矩陣:PAM矩陣單位矩陣:相同堿基為1,不同為0。轉(zhuǎn)換-顛換矩陣:相同堿基為正1分,轉(zhuǎn)換為-1分,顛換為-5分。第三十六頁,共一百八十三頁,編輯于2023年,星期五
在不知道序列間的相似性大小時,需用H(相對平均信息量)判斷選擇合適的矩陣。一般來說,若其他因素相同,H值高的合適。
20iH=∑∑qij*Siji=1j=1q:每個氨基酸對出現(xiàn)的頻率,S:每個氨基酸對的分值(以log2為單位,稱比特bit)??瘴涣P分:wx=g+rx或wx=g+r(
x
–1)。
g:空位窗,單個空位的罰分;r:空位擴展罰分,多個空位的追加罰分;x:空位長度。
第三十七頁,共一百八十三頁,編輯于2023年,星期五A
全局比對:全局比對是兩條序列從頭到尾的比對,有Needleman-Wunsch算法。第一步:用兩條序列為X和Y軸構(gòu)建二維矩陣,矩陣中只有元素S0,0=0,從S0,0開始,對每一個位點賦值。賦值由出發(fā)點的分值+打分(罰分)組成。在所有路徑中選分最高的。第二步:當矩陣中所有位點的賦值完成后,從最高分值位點回溯,找出的分值最高的路徑就是最優(yōu)化的序列對位排列方式。(圖6)第三十八頁,共一百八十三頁,編輯于2023年,星期五B局部比對:是一條序列的片斷與一條完整序列之間的比對,有Smith-Waterman算法。對于矩陣中所有j,令D0,j=0,對于矩陣中所有i,令D0,i=0,就可能實現(xiàn)兩條序列的局部比對。這對于在由多個區(qū)域組成的序列中發(fā)現(xiàn)多個匹配有用。C高分值片段對(HSP)判斷:
P(S>x)=1-exp(-Kmne-λx);X:片段長度。
P(S>x)是最大片段的分大于X的概率。顯著性評價:E(S)=[log(Kmn)]/λE:期望分值(序列最長匹配的期望值);K:錯配數(shù);m和n:序列長度;λ=loge(1/p)。第三十九頁,共一百八十三頁,編輯于2023年,星期五3散列算法:不是比較兩個序列中單個的殘基,而是搜索匹配序列模式或k-串。在該方法中,需要為每個序列建立一個查詢表來標明每個長度為k的單詞(k-串)的位置。每個單詞在兩個序列中的相對位置可用第二個序列中的位置減去第一個得到。k-串長度由用戶指定。例:在二個序列中查找長度為3的k-串位置1234567891011序列1ncspta???序列2???acsprk第四十頁,共一百八十三頁,編輯于2023年,星期五
Positioninoffset
序列1序列2序列2-序列1a660c275k-11n1-p495r-10s385t5-快速發(fā)現(xiàn)一個可能的對位排列序列1ncspta序列2acspta第四十一頁,共一百八十三頁,編輯于2023年,星期五三序列搜尋工具及其應(yīng)用:1BLAST(BasicLocalAlignmentSearchTool):基本局域聯(lián)配搜尋工具,將所查詢的序列打斷成為許多小序列片段(叫做字“W”),然后用小序列片段逐步與數(shù)據(jù)庫序列進行無空隙比對。挑出分值大于閾值T的所有相似片段。對目標序列和挑出的數(shù)據(jù)庫序列進行無空隙局部比對。從字開始向兩邊延伸。用統(tǒng)計置信度檢驗找到HSP的組合。
E-value(expectvalue):E=mn2-Sm:目標序列的有效長度
n:數(shù)據(jù)庫的有效長度(總堿基數(shù))
S
:標準比值(bitscore)。第四十二頁,共一百八十三頁,編輯于2023年,星期五:前期加工分值
λR-mnK
S=
ln2
λ和K是正規(guī)化參數(shù)
R:前期加工分值(rawscore)
R=aI+bX+cO+dGa:對每個完全匹配的加分,I:完全匹配的個數(shù)b:對每個錯配的加分,X:錯配的核苷酸數(shù)c:每開發(fā)一個gap的罰分,O:gap的數(shù)目d:gap中每個“-”的罰分,G:總的“-”的數(shù)目第四十三頁,共一百八十三頁,編輯于2023年,星期五2FASTA:對角線方法,原理基于散列算法3比對步驟:比對基因:選擇megaBLAST、數(shù)據(jù)庫,選擇濾過程序,如濾過低復(fù)雜度區(qū)域(lowcomplexityregion,LCR)即重復(fù)元件;選擇相似度/字長(SCORES/ALIGN)、空位設(shè)置(GAPOPEN)、空位擴展(GAPTEXT)。設(shè)定E的閾值(S,缺省值為10)。比對蛋白質(zhì):選擇BLASTp、數(shù)據(jù)庫,選擇濾過程序,設(shè)定E的閾值(缺省值為10)。通常先用BLAST,結(jié)果不理想時再用FASTA。應(yīng)先做蛋白質(zhì),再做核酸的序列比較。第四十四頁,共一百八十三頁,編輯于2023年,星期五序列比對結(jié)果:最佳匹配序列描述
所使用程序的描述、版本及相關(guān)信息,所要檢索的序列長度,所要檢索的數(shù)據(jù)庫信息,包括序列記錄數(shù)和字符數(shù)圖形化的檢索結(jié)果
ScoreESequencesproducingsignificantalignments:(bits)Valuegi|576838|gb|L37747.1|HUMLAM11Homo…9000.0gi|18854963|AC093532.2|Homosapiens…862e-167………Query:616gag…gaannnnnnngtaata675|||||||
|
|
|
|
|Subjct:616gag…gaatttttttgtaata675第四十五頁,共一百八十三頁,編輯于2023年,星期五例:假肥大性肌營養(yǎng)不良癥(DMD)基因分析
DMD是一種隱性遺傳疾?。ǜ秷D10.2)。前期實驗工作證明該疾病是X和6號染色體重組所至。在重組部位找到引起DMD的基因/蛋白質(zhì)dystrophin。Dystrophin在連接細胞骨架與外骨架上起著重要作用。通過BLAST2搜索,發(fā)現(xiàn)另一種蛋白utrophin,其與dystrophin有一個高度保守的序列DVQKKTFTKW,該序列參與形成α螺旋。通過免疫定位,顯示utrophin位于骨骼肌中,并且聚集在神經(jīng)-肌肉接點處。到目前為止,還沒有發(fā)現(xiàn)任何一種由utrophin引起的疾病,使引入utrophin作為治療DMD的手段被考慮。(付圖10.3-10.8)第四十六頁,共一百八十三頁,編輯于2023年,星期五多序列比對的目標是發(fā)現(xiàn)多條序列的共性。應(yīng)用于:(1)基因組測序;(2)提供相似區(qū)域的信息;(3)揭示結(jié)構(gòu)和功能的關(guān)系;(4)預(yù)測相同或不同有機體的相似家族或同一類群的其他成員。四多序列比對第四十七頁,共一百八十三頁,編輯于2023年,星期五1全局比對(1)逐對加和(sum-of-pairs,SP)方法三條序列A、B、C,分別進行A-B、A-C、B-C比對,產(chǎn)生三個二維距陣,尋找其中的最優(yōu)排列。計算SP函數(shù)(一列中所有字符對得分之和)
k-1kSP-score(c1,c2,…,ck)=∑∑p(ci,cj)i=1j=i+1
(c是列中的字符;k是序列個數(shù);p是相似性打分函數(shù)。)加和所有列的得分。該方法比對的序列不能太多。程序:MSA()第四十八頁,共一百八十三頁,編輯于2023年,星期五(2)動態(tài)規(guī)劃算法首先使用動態(tài)規(guī)劃法獲得多重排列,從最相關(guān)序列開始,逐步疊加相關(guān)性小的序列。程序:CLUSTALW(圖)主要步驟:
A對所有序列進行比對;
B生成系統(tǒng)發(fā)生樹;
C通過加權(quán),依次排列序列。(3)其他方法:聚類方法;構(gòu)樹方法。第四十九頁,共一百八十三頁,編輯于2023年,星期五2序列中的局部比對:(1)可以鑒定排列中高度保守的部分并產(chǎn)生一類稱為概型(profile)的記分矩陣。概型由更像小的多重比對的列構(gòu)成,包括匹配、錯配、插入和缺失。可用于尋找一個可能與之匹配的目標序列。程序:GCG軟件包中的PILEUP(2)區(qū)塊分析:區(qū)塊(block)也是在多重比對中代表一個保守區(qū)域。與概形不同之處在于序列中缺乏插入和缺失的位置。(BLOCKS)(3)基序搜索:(EMOTIF)第五十頁,共一百八十三頁,編輯于2023年,星期五第四章在系統(tǒng)發(fā)生分析中的應(yīng)用進化樹:有一系列節(jié)點和分支組成。每個節(jié)點代表一個分類單元(物種或序列)。一般情況下,外部節(jié)點代表實際觀察到的分類單元,內(nèi)部節(jié)點為分支點,他代表了進化事件發(fā)生的位置,或代表分類單元進化歷程中的祖先。進化樹類型:二元樹,無根樹,有根樹。直系同源:不同物種之間擁有共同的功能的基因。旁系同源:在同一生命體中,因復(fù)制過程中發(fā)生歧異而產(chǎn)生的功能不同的基因。蛋白質(zhì)超家族:具有某種共同結(jié)構(gòu)域的所有分子組成的分子集合。
第五十一頁,共一百八十三頁,編輯于2023年,星期五分子進化論:20世紀60年代,Zucherkandl等發(fā)現(xiàn)某一在不同物種間的氨基酸取代數(shù)與所研究物種間的分歧時間接近正線性關(guān)系,進而將分子水平的這種恒速變異稱為“分子鐘”。支持分子鐘存在的證據(jù)來自免疫學(xué)的定量比較。但分子序列證據(jù)與化石證據(jù)在人類起源時間上存在差異。分子進化原則:
1)每個位點進化速率恒定;
2)進化速率=突變替換數(shù)/每位點/每年;
3)破壞小的比破壞大的突變進化頻繁;
4)基因復(fù)制在基因獲得新功能前發(fā)生。第五十二頁,共一百八十三頁,編輯于2023年,星期五建樹步驟(1)分子序列或特征數(shù)據(jù)的分析;(2)進化樹構(gòu)造;(3)結(jié)果檢驗。建樹算法應(yīng)用的分子數(shù)據(jù)分兩類:(1)距離數(shù)據(jù)。由相似度打分的比對,需轉(zhuǎn)化為距離:
d(i,j)=1-(S(i,j)-Sr(i,j))/(Smax(i,j)-Sr(i,j))第五十三頁,共一百八十三頁,編輯于2023年,星期五S
(i,j):序列i和j各個比對位置得分的加權(quán)和;Sr(i,j):序列i和j隨機化后的比對得分的加權(quán)和;Smax(i,j):序列i和j所有可能比對的最大值。
兩個序列歸一化距離的值處于0和1之間,當兩個序列完全一致時,距離為0;當兩個序列差異很大時,距離接近于1。(2)離散特征數(shù)據(jù):能夠表現(xiàn)序列特征的數(shù)據(jù)。分為:二態(tài)特征:即具有和不具有,常用0和1表示;多態(tài)特征:具有兩種以上可能的狀態(tài)。第五十四頁,共一百八十三頁,編輯于2023年,星期五1基于距離的方法:用距離矩陣描述。常用距離方法:(1)連鎖聚類方法和非加權(quán)分組平均方法(除權(quán)配對法,UPGMA):從最近的兩個樹葉開始,定義一個新節(jié)點。不斷重復(fù),最終產(chǎn)生樹根。前提是替換速度均等且一致。例:序列AACGCGTTGGGCGATGGCAACBACGCGTTGGGCGACGGTAATCACGCATTGAATGATGATAATEACACATTGAGTGATAATAAT找出一個序列變成另一個序列所需的步驟數(shù)nAB=3,nAC=7,nAD=8,nBC=6,nBD=7,nCD=3第五十五頁,共一百八十三頁,編輯于2023年,星期五構(gòu)建距離表ABCDA-378B--67C---3D----根據(jù)序列之間的距離構(gòu)建樹
連鎖聚類法:(A)初始化:分別用n個葉節(jié)點代表每個類(分類單元的集合);(B)執(zhí)行下列循環(huán):尋找具有最小距離dxy的兩個類x,y;建立一個新的聚類z,以z為一個新的內(nèi)部節(jié)點,z到x和y的分支的長度為d(x,y)/2;第五十六頁,共一百八十三頁,編輯于2023年,星期五按d(z,u)=(d(x,u)+d(y,u))/2計算新的分類到其他類的距離;從距離矩陣中刪除與x和y相應(yīng)的行和列,加入與z相應(yīng)的行和列。從頭循環(huán),直到僅剩一個類為止。
UPGMA:一個新類到其他類(u)之間的距離就是簡單的原距離平均值;計算:
d(x,y),u=(nx/(nx+ny))dx,u+(ny/(nx+ny))dy,un是每個類的元素個數(shù)。
21
A4CBD12第五十七頁,共一百八十三頁,編輯于2023年,星期五(2)距離變換法:考慮了不同家族的不同進化速率,利用外部參考種幫助確定正確的樹。設(shè)D為外部參考種,其就作為變換其他物種之間距離的參考:
dij’=(dij-diD-djD)/2+dD(i,j=A,B,C)dij’是i和j之間的變換后距離,dD是利用外部參考種與全體內(nèi)部物種之間的平均距離。在此,dD=(dAD-dBD-dCD)/3。(3)鄰位相連法(NJ):在進行類的合并時,不僅要求待合并的類是相近的,同時,還要求待合并的類遠離其他的類。第五十八頁,共一百八十三頁,編輯于2023年,星期五(1)簡約法(MP)例:根據(jù)4個已排列序列尋找正確的無根樹序列位點和性狀Taxa1234567891AAGAGTGCA2AGCCGTGCG3AGATATCCA4AGAGATCCG尋找信息位點(每個特征必須在至少兩個分類群中相同的位點),為5,7,9。2
基于特征數(shù)據(jù)的方法第五十九頁,共一百八十三頁,編輯于2023年,星期五構(gòu)建信息位點可能的樹位點5的樹1樹2樹3分類群1分類群3分類群1分類群2分類群1分類群2GAGGGGG*A*AA**AA*GAAAAA分類群2分類群4分類群3分類群4分類群4分類群3樹1中群1
和群2有共同祖先,群3和群4有共同祖先,變化數(shù)為1;樹2和樹3變化數(shù)為2。將每個樹每個信息位點的變化數(shù)相加,挑出變化數(shù)最小的樹為最優(yōu)樹。第六十頁,共一百八十三頁,編輯于2023年,星期五(2)最大似然法(ML):對每個可能的進化位點分配一個概率,然后找出概率最大的進化樹。建樹策略(圖10)。確定樹根(根據(jù)外組或中點)。進化樹的可靠性檢驗(1)使用不同的建樹方法(2)自舉(自展)檢驗:替換或重組序列。(3)參數(shù)檢驗:對兩棵樹進行乘數(shù)比較。第六十一頁,共一百八十三頁,編輯于2023年,星期五第五章信息生物學(xué)在基因組構(gòu)建中的應(yīng)用人類基因組工作已完成序列圖譜測定,進一步需要確定遺傳圖譜和基因圖譜。遺傳圖譜:表現(xiàn)基因組的遺傳特點?;蚪M內(nèi)基因及其專一的多態(tài)性DNA標記相對位置的圖譜。第一代標記:限制性片段長度多態(tài)性(RFLP);第二代標記:微衛(wèi)星DNA(MS,同時也是物理圖譜的標志);第三代標記:單核苷酸多態(tài)性(SPN)?;驁D譜:表現(xiàn)核酸序列中的基因、調(diào)節(jié)元件、重復(fù)序列以及各種重排結(jié)構(gòu)。第六十二頁,共一百八十三頁,編輯于2023年,星期五1從基因組序列中尋找編碼蛋白質(zhì)的基因(1)通過EST尋找新基因:即通過合成mRNA3’端片段的cDNA尋找EST,通過構(gòu)建包含這些EST區(qū)的重疊群,再進行ORF的判定以及相關(guān)蛋白質(zhì)結(jié)構(gòu)域和模體的識別。另外還可以尋找與這個EST重疊群對應(yīng)的基因組DNA(gDNA)序列,從而明確這個cDNA的基因結(jié)構(gòu),包括外顯子和內(nèi)含子的電子定位。(2)相似序列的數(shù)據(jù)庫搜索:對于一個未知功能的序列,一個匹配的基因可以給出功能的線索;一個已知功能的序列也可以用于搜索具有同樣功能的基因。一人類基因克隆計劃和基因的識別和鑒定第六十三頁,共一百八十三頁,編輯于2023年,星期五原核生物的基因預(yù)測方法在一個片段中尋找一個基因:尋找較高保守性的序列(代表啟動子區(qū)域,在一段未知序列上具有相同的順序和間隔。圖9-2),對其后序列進行ORF分析。對一個片段的全面預(yù)測:建立一個大腸桿菌的隱馬爾可夫模型,然后擴展到包括多基因以及基因間的序列。這一模型能檢查一個未知基因組成的序列并尋找基因,即一組標明氨基酸的密碼子,兩側(cè)是起始和終止密碼子。模型的可靠性依賴于基因起始和終止信息的準確性。第六十四頁,共一百八十三頁,編輯于2023年,星期五真核生物的基因預(yù)測方法
1)簡單方法:用所有可能的閱讀框?qū)π蛄羞M行翻譯,并應(yīng)用BLASTX或FASTX程序比較翻譯序列與蛋白質(zhì)數(shù)據(jù)庫。
ORF預(yù)測的可靠性檢驗:(1)密碼子偏好性:同一ORF中同義密碼子的第3個堿基傾向相同,既同一生物有在同義密碼子中選擇某些密碼子的特性。
ORF的偏好性表(CUSP),bioweb.pasteir.fr/seqanal/interfaces/cusp.html
第六十五頁,共一百八十三頁,編輯于2023年,星期五偏好性分析(SYCO),圖12-5
bioweb.pasteir.fr/seqanal/interfaces/syco.html
(2)同源比對:將ORF翻譯成氨基酸序列,然后進行數(shù)據(jù)庫比較,如果發(fā)現(xiàn)一個或多個顯著相似的序列,ORF的可信度高。(3)尋找剪切位點:NetGene2,
www.cbs.dtu.dk/services/NetGene2/
SpliceView,125.r.it/~webgene/wwwspliceview.html
(4)尋找轉(zhuǎn)錄終止信號:Hcpolya,
125.r.it/~webgene/www.HC_polya.html
(5)確定核小體位點第六十六頁,共一百八十三頁,編輯于2023年,星期五
2)其他方法:
(1)尋找CpG島:通常出現(xiàn)在持家基因或頻繁表達的基因啟動子周圍。其中80%的人類基因的轉(zhuǎn)錄起始位點前存在CpG島。工具1:EMBL的CpGPlot/CpGReport/Isochore
www.ebi.ac.uk/emboss/cpgplot/
CpGPlot:以圖示(圖9-3)形式顯示分析結(jié)果;Obs/Exp、GC百分含量、CpG島位置
CpGReport:以報表形式顯示分析結(jié)果;包含CpG島的位置、大小、C+G總量和CG百分含量(圖9-4)
Isochore:以圖形方式標出不同的等線體的CG含量第六十七頁,共一百八十三頁,編輯于2023年,星期五工具2:GpCIslandGrapher:
tiamat.kaist.ac.kr/util/cgi-web/(2)尋找啟動子與轉(zhuǎn)錄因子結(jié)合位點:圖12-1TRES,.sg/tres/
神經(jīng)網(wǎng)絡(luò)啟動子預(yù)測,
/seq_tools/promoter.html
(3)尋找其他順式元件:Cister,
/~mfrith/cister.shtml
3)基因組裝:將預(yù)測出來的外顯子組裝成為一致的基因模型。剪切給體(donnor)位點:內(nèi)含子的5’端gt
剪切受體(acceptor)位點:內(nèi)含子的3’端ag第六十八頁,共一百八十三頁,編輯于2023年,星期五基于動態(tài)規(guī)劃的組裝方法組裝形成的候選基因需滿足下列條件:(1)所有外顯子加起來的長度是3的整倍數(shù);(2)在各個外顯子內(nèi)部(除最后一個外顯子的最后一個密碼)沒有終止密碼;(3)第一個內(nèi)含子-外顯子邊界(i0,e1)是翻譯起始密碼,而最后一個外顯子-內(nèi)含子邊界(en,in)是終止密碼。包含完整基因的序列滿足條件(1)~(3),包含不完整基因的序列不滿足條件(1)或(3)。完整基因的組裝:把標明候選外顯子和內(nèi)含子的序列構(gòu)造成位點圖。然后通過打分處理,尋找最優(yōu)路徑(圖10-3)。第六十九頁,共一百八十三頁,編輯于2023年,星期五基于剪切比對的組裝方法
首先通過分析所有可能的剪切受體位點和供體位點,構(gòu)建一組候選的外顯子;然后,進一步分析候選外顯子,探查所有可能的外顯子組合,尋找一個與已知序列(如mRNA、蛋白質(zhì))最匹配的組合。圖10-4第七十頁,共一百八十三頁,編輯于2023年,星期五2從一個提交的未知序列中預(yù)測基因:
1)判定載體污染污染:被檢測序列含有外源序列,主要有載體、接頭和引物、轉(zhuǎn)座子和提取純度。主要方法:在載體數(shù)據(jù)庫中做相似性搜索,限制性酶切位點搜索。工具:
VecScreen,
www.ebi.ac.uk/blastall/vectors.html
2)屏蔽重復(fù)序列:新序列自身的單位距陣比對,用于找出互補、轉(zhuǎn)座、重復(fù)等結(jié)構(gòu)。第七十一頁,共一百八十三頁,編輯于2023年,星期五
RepeatMasker:
/cgi-bin/RepeatMaskerXBLAST:
bioweb.pasteur.fr/seqanal/interfaces/
xblast.html#_data
3)尋找外顯子或ORF
識別規(guī)律:核糖體結(jié)合位點可用于確定編碼區(qū)的起始位點(圖9-1,2)。當ORF的長度達到一定程度時,可以認定其為編碼序列。
4)將編碼蛋白質(zhì)的DNA翻譯成蛋白質(zhì),進行蛋白質(zhì)數(shù)據(jù)庫搜索。這是一個重要原則,因為蛋白質(zhì)的復(fù)雜性是DNA的5倍。第七十二頁,共一百八十三頁,編輯于2023年,星期五二RNA二級結(jié)構(gòu)判斷(1)預(yù)測分子中最可能產(chǎn)生堿基配對區(qū)域的方法A條件:最可能的結(jié)構(gòu)類似能量最穩(wěn)定的結(jié)構(gòu);雙鏈區(qū)中堿基對的能量只受前面堿基對影響,與較遠和結(jié)構(gòu)中其他堿基對無關(guān);無結(jié)。B最簡單的方法:利用RNA序列自補區(qū)的點陣比較。將序列列于橫軸,互補鏈列于縱軸,方向5’-3’。點表示相同核苷酸片斷。C最小自由能法:計算雙鏈區(qū)中每一對堿基的堆疊能量和不穩(wěn)定區(qū)域的估計能量之和。(2)考慮堿基配對保守模式的方法。協(xié)同變異(3)二級結(jié)構(gòu)的模建:隨機上下文無關(guān)文法。第七十三頁,共一百八十三頁,編輯于2023年,星期五1判斷蛋白質(zhì)的功能和結(jié)構(gòu)域。(1)模體搜索:基序(motif)是通過對一個蛋白質(zhì)家族進行多序列比對檢測出來的一種高度保守元件,通常對應(yīng)于一些功能域和結(jié)構(gòu)域。模體搜索的對象是序列中一些關(guān)鍵的保守氨基酸,忽略了其他位置的氨基酸多態(tài)性。PROSITE:一個蛋白質(zhì)家族和結(jié)構(gòu)域數(shù)據(jù)庫。包括重要的位點、序列模式和序列表譜。
www.expasy.ch/prosite/
/tools/scanprosite/三蛋白質(zhì)功能的預(yù)測和鑒定第七十四頁,共一百八十三頁,編輯于2023年,星期五PRINTSfingerprintDatabase:指紋圖譜是用來描述蛋白質(zhì)家族特征的一組保守模體組合。ioinf.man.ac.uk/dbbrowser/PRINTS/printsman.html/BLOCKS:通過一些高度保守的蛋白質(zhì)區(qū)域比對出來的無空位的片斷。
/Pfam:www.sanger.ac.uk/Software/Pfam/index.shtmlProdom:Prodes.toulouse.inra.fr/dom.htmlSMART:www.ebi.ac.uk/interpro/第七十五頁,共一百八十三頁,編輯于2023年,星期五(2)通過蛋白質(zhì)結(jié)構(gòu)性質(zhì)比較,判斷蛋白質(zhì)的功能性質(zhì)(圖11)2其他功能序列分析信號肽:通過神經(jīng)網(wǎng)絡(luò)法進行預(yù)測(圖12-2,3)SignalP,www.cbs.dtu.dk/services/SignalP
C:原始剪切位點的分值;S:信號肽分值;Y:綜合的剪切位點分值??缒そY(jié)構(gòu):根據(jù)跨膜蛋白質(zhì)數(shù)據(jù)庫Tmbase進行預(yù)測(圖12-4),Tmpred,/software/TMPRED-form.html
第七十六頁,共一百八十三頁,編輯于2023年,星期五卷曲螺旋:算出相似性得分,與卷曲螺旋得分分布比較,得出概率。COILS,/software/COILS-form.html
糖基化位點:(圖12-7),
www.cbs.dtu.dk/services/ProtParam,
www.expasy.ch/tools/protararm.html
第七十七頁,共一百八十三頁,編輯于2023年,星期五氨基酸序列通常被認為攜帶有蛋白質(zhì)分子折疊成天然三維結(jié)構(gòu)的所有必需信息,即蛋白質(zhì)結(jié)構(gòu)的形成是由熱力學(xué)決定的。所以對給定的氨基酸序列,通過計算方法搜索其穩(wěn)定結(jié)構(gòu)從而預(yù)測其三維結(jié)構(gòu)就成為可能。即根據(jù)熱力學(xué)第一定律,建立從頭預(yù)測的方法。但是,在生物學(xué)中,鮮有熱力學(xué)第一定律的明確表述,所以基于知識的預(yù)測成為大多數(shù)核酸和蛋白質(zhì)結(jié)構(gòu)預(yù)測的主要方法。四蛋白質(zhì)結(jié)構(gòu)預(yù)測第七十八頁,共一百八十三頁,編輯于2023年,星期五1基于一級結(jié)構(gòu)的蛋白質(zhì)性質(zhì)預(yù)測:(1)預(yù)測分子量,理論pI,氨基酸組成,原子組成,消光系數(shù),半衰期,不穩(wěn)定系數(shù)和總平均親水性。
AAComldent:
www.expasy.ch/tools/aacomp/
(2)模擬處理提交的蛋白質(zhì)序列,并對結(jié)果進行分析。
PeptideMass:
www.expasy.ch/tools/peptide-mass.html
提供的主要服務(wù)有:鑒定從2-D凝膠電泳中分離的蛋白質(zhì)以及相關(guān)分析,為層析及沉降等實驗提供參考數(shù)據(jù)。第七十九頁,共一百八十三頁,編輯于2023年,星期五(3)蛋白質(zhì)疏水性分析:是二級和三級結(jié)構(gòu)預(yù)測的一個必要的過程。一方面為二級結(jié)構(gòu)預(yù)測提供參考,還可以為結(jié)構(gòu)域及功能域劃分提供依據(jù)。
ProtScale,www.expasy.ch/tools/pscale2二級結(jié)構(gòu)的預(yù)測基于統(tǒng)計的方法:第一代是基于單個氨基酸殘基統(tǒng)計分析;第二代是基于氨基酸片段的統(tǒng)計分析;第三代是應(yīng)用蛋白質(zhì)序列的長程信息和蛋白質(zhì)序列的進化信息進行的分析。第八十頁,共一百八十三頁,編輯于2023年,星期五(1)Chou-Fasman法:基于單個殘基統(tǒng)計
殘基傾向性因子Pi=Ai/Ti,(i=α,β,t,c)Ti:所有被統(tǒng)計殘基處于第i種構(gòu)象態(tài)的分數(shù),Ai:第A種殘基的對應(yīng)分數(shù)。Pi>1,該殘基傾向于形成第i種構(gòu)象態(tài);Pi<1,該殘基傾向于形成其他構(gòu)象態(tài)。
轉(zhuǎn)角參數(shù):f(i),f(i+1),f(i+2),f(i+3)表現(xiàn)殘基出現(xiàn)在轉(zhuǎn)角第一、第二、第三和第四位的頻率。
α螺旋規(guī)則:相鄰的6個殘基中如果至少有4個的Pα>1,則認為是螺旋核。從螺旋核向兩端延伸,直至4肽片段Pα的平均值小于1為止。按此方式找到的片斷長度大于5,并且Pα的平均值大于Pβ的平均值時,此片段為α螺旋。第八十一頁,共一百八十三頁,編輯于2023年,星期五
β折疊規(guī)則:相鄰的6個殘基中如果至少有4個的Pβ
>1,則認為是折疊核。折疊核向兩端延伸,直至4肽片段Pβ的平均值小于1為止。若延伸后片段的Pβ的平均值大于1.05,并且Pβ的平均值大于Pα的平均值,則該片段為β折疊。轉(zhuǎn)角規(guī)則:如果f(i)×f(i+1)×f(i+2)×f(i+3)大于7.5×10-5,四肽片段的平均值大于1,并且Pt的平均值大于Pα和Pβ的平均值,則該四肽片段為轉(zhuǎn)角。重疊規(guī)則:假如預(yù)測出的螺旋區(qū)域和折疊區(qū)域存在重疊,而Pα的均值大于Pβ的均值,則預(yù)測為α螺旋,反之為β折疊。第八十二頁,共一百八十三頁,編輯于2023年,星期五(2)GOR法:認為中心殘基左右各8個氨基酸的側(cè)鏈都會影響二級結(jié)構(gòu),針對長度為17的殘基窗進行二級結(jié)構(gòu)預(yù)測。該方法的數(shù)學(xué)基礎(chǔ)為條件概率。(3)最小臨近法:從已知結(jié)構(gòu)但不一定同源的蛋白質(zhì)中,設(shè)定一定長度的滑動窗口搜索一些最相似的片段,用它們預(yù)測片段中心殘基的二級結(jié)構(gòu)。其他還有:基于氨基酸疏水性的預(yù)測方法;隱馬爾可夫模型;人工神經(jīng)網(wǎng)絡(luò)法。
基于理論的方法:Lim法,Cohen法。
第八十三頁,共一百八十三頁,編輯于2023年,星期五人工神經(jīng)網(wǎng)絡(luò)法模擬神經(jīng)傳導(dǎo)方式建立的信息科學(xué)理論。三層式前傳人工神經(jīng)網(wǎng)絡(luò)示意圖 輸入矢量Inp
偏置點隱含層 輸出值Out第八十四頁,共一百八十三頁,編輯于2023年,星期五(1)前傳計算:節(jié)點對輸入值或激活值進行處理得到輸出值根據(jù)輸入值計算每個隱節(jié)點的激活值 激活值=∑(Inpiωij)-ω0i:輸入單元;j:隱節(jié)點單元;ωij:權(quán)重因子(反映第i個輸入對第j個節(jié)點的影響);ω0:內(nèi)部閾值(偏置點的值)。對激活值取函數(shù)Sigmoid函數(shù)具有特殊優(yōu)點,其極限為0(當x→-∞)和1(當x→+∞)。 f(x)=1/(1+e-x)第八十五頁,共一百八十三頁,編輯于2023年,星期五隱節(jié)點函數(shù) yj=f(∑(Inpiωij)+ωme0
ωme0:隱含層偏置點權(quán)重。計算輸出函數(shù) Outk=f(∑(yjωki)+ωout0 =f{ωki[f(∑(Inpiωij+ωme0))+ωout0}(2)反向調(diào)節(jié):訓(xùn)練。反向傳播網(wǎng)絡(luò)算法(back-propagationnetwork,BP),一般采用最小二乘法為目標函數(shù) E=1/2[∑(Outk-Expk)2]第八十六頁,共一百八十三頁,編輯于2023年,星期五梯度下降法: 對某個處理單元,如果網(wǎng)絡(luò)有K個訓(xùn)練樣本Xk,對應(yīng)的理想輸出為Tk,網(wǎng)絡(luò)的權(quán)值為W,該處理單元的均方誤差為ε,則
ε=1/K∑(WXk-Tk)2 然后可以通過梯度下降法來修改權(quán)值 ?W=W-η▽ε
η:步長,控制了權(quán)重的修改幅度,▽ε:ε對W所求的梯度。 梯度下降法最大的問題是不能保證收斂到全局最優(yōu)。第八十七頁,共一百八十三頁,編輯于2023年,星期五3三級結(jié)構(gòu)的預(yù)測(1)同源模建方法:對蛋白質(zhì)數(shù)據(jù)庫PDB的分析可以得到這樣的結(jié)論:任何一對蛋白質(zhì)序列的等同部分超過30%(序列比對長度大于80)時,它們具有相似的三維結(jié)構(gòu),只在非螺旋和非折疊區(qū)域的細節(jié)部分有所不同。如果兩個蛋白質(zhì)的氨基酸序列有50%相同,那么約有90%的α碳原子的位置偏差不超過3?。通過比較未知和已知三級結(jié)構(gòu)的蛋白質(zhì)?;具^程:目標序列與模板序列匹配,目標蛋白質(zhì)結(jié)構(gòu)保守區(qū)的主鏈模建,側(cè)鏈的安裝和優(yōu)化,變異區(qū)的主鏈模建,對模建結(jié)構(gòu)進行優(yōu)化和評估。第八十八頁,共一百八十三頁,編輯于2023年,星期五(2)折疊識別方法(線索化):序列的等同部分小于25%,但有同源空間結(jié)構(gòu)的蛋白質(zhì)屬于遠程同源。折疊識別方法的目標是為目標蛋白質(zhì)(U)尋找合適的遠程同源模板(T);將U的序列與T的結(jié)構(gòu)進行比對(建立線索);在此基礎(chǔ)上利用模板結(jié)構(gòu)為U建立結(jié)構(gòu)模型。(3)從頭預(yù)測方法:根據(jù)天然構(gòu)象對應(yīng)自由能最低的假設(shè)預(yù)測。有:基于原子勢能,基于平均勢能,基于多重序列比對,分子動力學(xué)模擬,蒙特卡洛模擬,遺傳算法。例:A蛋白質(zhì)折疊的網(wǎng)絡(luò)模型:H-P模型第八十九頁,共一百八十三頁,編輯于2023年,星期五基于3種簡化:蛋白質(zhì)中各個氨基酸殘基的α碳原子都位于二維或三維網(wǎng)格的格點上,疏水作用是蛋白質(zhì)折疊中唯一的重要因素,通過計算疏水殘基接觸數(shù)目代替構(gòu)象的能量計算。每個H和H接觸對能量的貢獻都設(shè)為-1分(一級結(jié)構(gòu)的接觸除外)。最優(yōu)的構(gòu)象就是所有可能的構(gòu)象中具有最多H和H接觸的那個構(gòu)象。位置表現(xiàn):絕對方向表示法,二維模型以上、下、左、右(U、D、L、R),三維模型以上、下、左、右、前、后(U、D、L、R、F、B)表現(xiàn)。相對方向表示法,二維模型以左、右和前(L、R、F),三維模型以上、下、左、右、前(U、D、L、R、F)表現(xiàn)。第九十頁,共一百八十三頁,編輯于2023年,星期五B能量函數(shù)和優(yōu)化:通過理論方法,針對范德華力、氫鍵、溶劑、靜電和其他力對一個折疊蛋白質(zhì)總體穩(wěn)定性的相對作用來建立能量函數(shù)。目標是得到一個近似的能量函數(shù)或力場。能量的優(yōu)化方法很多,常用的是梯度下降法。預(yù)測方法評價:一種方法是取已知結(jié)構(gòu)的蛋白質(zhì),進行模擬結(jié)構(gòu)預(yù)測,并將預(yù)測結(jié)構(gòu)與真實結(jié)構(gòu)比較。權(quán)威評判機構(gòu):CASP
hppt:///casp4/第九十一頁,共一百八十三頁,編輯于2023年,星期五4蛋白質(zhì)家族分析:分類模型(1)按結(jié)構(gòu)簇:全α,全β
,α+β,α/β(2)CATH:不考慮二級結(jié)構(gòu),僅根據(jù)結(jié)構(gòu)域形態(tài)。分:構(gòu)件,拓撲結(jié)構(gòu)或折疊子,同源超家族,序列家族。(3)SCOP:在簇分類后,再進行折疊子(結(jié)構(gòu)相似)、超家族(可能相同的進化起源)和家族(相同的進化起源)。(4)FSSP:通過優(yōu)化拓撲循環(huán)定義的抽象折疊空間。分:折疊空間歸順區(qū),折疊類型,功能家族,序列家族www.ebi.ac.uk/dali/index.html
第九十二頁,共一百八十三頁,編輯于2023年,星期五蛋白質(zhì)家族分析方法:空間結(jié)構(gòu)比對。比較蛋白質(zhì)結(jié)構(gòu)實際上是比較兩個蛋白質(zhì)中各個原子的空間位置?;镜姆椒ㄊ鞘紫柔槍Φ鞍踪|(zhì)中各個二級結(jié)構(gòu),檢查它們出現(xiàn)的次數(shù)、類型及相對位置是否相似,然后再詳細檢查Cα原子之間的距離,分析這兩個結(jié)構(gòu)能以多大程度重疊在一起。結(jié)構(gòu)比對工具:VAST:NCBI提供。DALI:FSSP提供。SSAP:CATH提供。第九十三頁,共一百八十三頁,編輯于2023年,星期五大分子結(jié)構(gòu)數(shù)據(jù)庫PDB:主要的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫。
/pdb/CATH:www.biochem.ucl.ac.uj/bsm/cathnew/dndex.htmlSCOP:scop.mrclmb.cam.ac.uk/scop/dndex.htmlFSSP:二級結(jié)構(gòu)數(shù)據(jù)庫
www.ebi.ac.uk/dali/fssp/3D-PSSM:www.sbg.bio.ic.ac.uk/~3dpssm/
分析工具:nnpredict:/~nomi/nnpredict.html第九十四頁,共一百八十三頁,編輯于2023年,星期五PredictProtein:www.embl-heidelberg.de/
fredictprotein/predictproteim.htmSWISS-Model
/swissmod/SWISS-Model.html
用具有蛋白質(zhì)相似性的已知結(jié)構(gòu)蛋白質(zhì)來建立
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度電力行業(yè)運維人員派遣合同樣本2篇
- 二零二五年度導(dǎo)購員服務(wù)質(zhì)量監(jiān)控與提升合同3篇
- 2025年度知識產(chǎn)權(quán)質(zhì)押合同標的與質(zhì)押物描述3篇
- 2025年度藥品銷售工作總結(jié)(2篇)
- 幼兒園后勤園長崗位職責模版(2篇)
- 蛙泳動作插畫課程設(shè)計
- 中學(xué)督導(dǎo)自評制度模版(2篇)
- 研學(xué)旅行行前課程設(shè)計
- 系統(tǒng)uml課程設(shè)計
- 2025年企業(yè)環(huán)保年度工作小結(jié)(2篇)
- 軟科職教:2024年度中國高職院校升本分析報告
- 稱量與天平培訓(xùn)試題及答案
- 塊單項活動教學(xué)材料教案丹霞地貌
- 超全的超濾與納濾概述、基本理論和應(yīng)用
- 青年人應(yīng)該如何樹立正確的人生觀
- 開封辦公樓頂發(fā)光字制作預(yù)算單
- 安全生產(chǎn)標準化管理工作流程圖
- 德龍自卸車合格證掃描件(原圖)
- 藥店-醫(yī)療器械組織機構(gòu)和部門設(shè)置說明-醫(yī)療器械經(jīng)營組織機構(gòu)圖--醫(yī)療器械組織機構(gòu)圖
- 自薦書(彩色封面)
- [國家公務(wù)員考試密押題庫]申論模擬925
評論
0/150
提交評論