2023生物信息學簡明教程_第1頁
2023生物信息學簡明教程_第2頁
2023生物信息學簡明教程_第3頁
2023生物信息學簡明教程_第4頁
2023生物信息學簡明教程_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

生物信息學簡明教程PAGEPAGE10第一章概論 3第二章生物信息數(shù)據(jù)庫與查詢 5基因和基因組數(shù)據(jù)庫 5Genbank 5EMBL核酸序列數(shù)據(jù)庫 7DDBJ數(shù)據(jù)庫 7GDB 7蛋白質數(shù)據(jù)庫 8PIR和PSD 8SWISS-PROT 8PROSITE 9PDB 9SCOP 9COG 9功能數(shù)據(jù)庫 10KEGG 10DIP 10ASDB 10TRRD 11TRANSFAC 11其它數(shù)據(jù)庫資源 11DBCat 11PubMed 12第三章序列比對和數(shù)據(jù)庫搜索 12序列兩兩比對 12多序列比對 17第四章核酸與蛋白質結構和功能的預測分析 18針對核酸序列的預測方法 18重復序列分析 18數(shù)據(jù)庫搜索 19編碼區(qū)統(tǒng)計特性分析 19啟動子分析 19內含子/外顯子剪接位點 20翻譯起始位點 20翻譯終止信號 20其它綜合基因預測工具 20tRNA基因識別 21針對蛋白質的預測方法 21從氨基酸組成辨識蛋白質 21預測蛋白質的物理性質 22蛋白質二級結構預測 22其它特殊局部結構 23蛋白質的三維結構 24第五章分子進化 24分子進化鐘與中性理論 24進化樹 27結構進化樹 30剛體結構疊合比較 30多特征結構比較 31相關軟件 31第六章基因組序列信息分析 32基因組序列分析工具 32Wisconsin軟件包(GCG) 32ACEDB 36其它工具 36人類和鼠類公共物理圖譜數(shù)據(jù)庫的使用 36物理圖譜的類型 36大型公用數(shù)據(jù)庫中的基因組圖譜 38鼠類圖譜來源 46全基因組比較 48SNP的發(fā)現(xiàn) 48第七章功能基因組相關信息分析 48大規(guī)?;虮磉_譜分析 49實驗室信息管理系統(tǒng) 49基因表達公共數(shù)據(jù)庫 51大規(guī)?;虮磉_譜數(shù)據(jù)分析方法 53基因組水平蛋白質功能綜合預測 55第一章 概論當前人類基因組研究已進入一個重要時期,2000年將獲得人類基因組的全部序列,這是基因組研究的轉折點和關鍵時刻,意味著人類基因組的研究將全面進入信息提取和數(shù)據(jù)分析階段,即生物信息學發(fā)揮重要作用的階段。到1999年12月15日發(fā)布的第115版為止,GenBank中的DNA堿基數(shù)目已達46億5千萬,DNA序列數(shù)目達到535萬;其中EST序列超過339萬條;UniGene的數(shù)目已達到7萬個;已有25個模式生物的完整基因組被測序完成,另外的70個模式生物基因組正在測序當中;到2000年1月28日為止,人類基因組已有16%的序列完成測定,另外37.7%的序列已經(jīng)初步完成;同時功能基因組和蛋白質組的大量數(shù)據(jù)已開始涌現(xiàn)。如何分析這些數(shù)據(jù),從中獲得生物結構、功能的相關信息是基因組研究取得成果的決定性步驟。生物信息學是在此背景下發(fā)展起來的綜合運用生物學、數(shù)學、物理學、信息科學以及計算機科學等諸多學科的理論方法的嶄新交叉學科。生物信息學是內涵非常豐富的學科,其核心是基因組信息學,包括基因組信息的獲取、處理、存儲、分配和解釋?;蚪M信息學的關鍵是“讀懂”基因組的核苷酸順序,即全部基因在染色體上的確切位置以及各DNA片段的功能;同時在發(fā)現(xiàn)了新基因信息之后進行蛋白質空間結構模擬和預測,然后依據(jù)特定蛋白質的功能進行藥物設計。了解基因表達的調控機理也是生物信息學的重要內容,根據(jù)生物分子在基因調控中的作用,描述人類疾病的診斷、治療內在規(guī)律。它的研究目標是揭示"基因組信息結構的復雜性及遺傳語言的根本規(guī)律",解釋生命的遺傳語言。生物信息學已成為整個生命科學發(fā)展的重要組成部分,成為生命科學研究的前沿。近來的研究表明,基因組不僅是基因的簡單排列,它有其特有的組織結構和信息結構,這種結構是在長期的演化過程中產(chǎn)生的,也是基因發(fā)揮其功能所必須的。弄清楚生物體基因組特有的組織結構和信息結構,解譯生命的遺傳語言的關鍵。目前在數(shù)據(jù)庫中已經(jīng)有越來越多的模式生物全基因組序列,第一個人類染色體全序列--第22號染色體的測序工作已經(jīng)在1999年12月完成,整個人類基因組計劃工作草圖將在最近完成。這無疑給基因組組織結構和信息結構的研究工作提供了大量的第一手材料,同時也為基因組研究取得突破性進展提供了可能。人類對基因的認識,將從以往的對單個基因的了解,上升到在整個基因組水平上考察基因的組織結構和信息結構,考察基因之間在位置、結構和功能上的相互關系。從目前生物信息學的研究情況來看,國際上公認的生物信息學的研究內容,大致包括以下幾個方面:基因組序列信息的提取和分析。包括基因的發(fā)現(xiàn)與鑒定,如利用國際EST數(shù)據(jù)庫(dbEST)和各自實驗室測定的相應數(shù)據(jù),經(jīng)過大規(guī)模并行計算發(fā)現(xiàn)新基因和新SNPs以及各種功能位點;基因組中非編碼區(qū)的信息結構分析,演化、基因組空間結構與DNA折疊的關系以及基因組信息與生物進化關系等生物學的重大問題。生物大分子結構模擬和藥物設計。包括RNA(核糖核酸)的結構模擬和反義RNA的分子設計;蛋白質空間結構模擬和分子設計;具有不同功能域的復設計;基于DNA結構的藥物設計等。應用密碼學方法以及其他算法和分析技術,用于解釋基因組的信息,探索DNA序列及其空間結構信息的新表征;發(fā)展研究基因組完整信息結構和信利用生物信息學方法進行結構功能預測要注意的是同一問題采用不同算法,可能產(chǎn)生相同或不同的結果。因此,必要弄清楚某種方法的基本原理,而不是僅把算法當作一個“黑箱”。因為一種方法可能對特定實例很合適,而對另一個則完全不對。因此,本章采用原理和實用方法并重的原則進行介紹。因生物信息學覆蓋面廣,限于篇幅,本章并未將生物信息學的全部內容詳細加以講述,僅針對與目前分子生物學實驗數(shù)據(jù)分析密切相關的生物信息學策略及實用工具進行扼要介紹,文中涉及問題的更詳細信息可參考相關網(wǎng)站。生物信息學是新興發(fā)展中的學科,該領域的研究日新月異,書中的描述可能滯后于生物信息學的最新發(fā)展為在所難免,作者期望本章的介紹對讀者的研究工作有所助益。第二章生物信息數(shù)據(jù)庫與查詢近年來大量生物學實驗的數(shù)據(jù)積累,形成了當前數(shù)以百計的生物信息數(shù)據(jù)庫。它們各自按一定的目標收集和整理生物學實驗數(shù)據(jù),并提供相關的數(shù)據(jù)查詢、數(shù)據(jù)處理的服務。隨著因特網(wǎng)的普及,這些數(shù)據(jù)庫大多可以通過網(wǎng)絡來訪問,或者通過網(wǎng)絡下載。一般而言,這些生物信息數(shù)據(jù)庫可以分為一級數(shù)據(jù)庫和二級數(shù)據(jù)庫。一級數(shù)據(jù)庫的數(shù)據(jù)都直接來源于實驗獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類整理和注釋;二級數(shù)據(jù)庫是在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎上針對特定目標衍生而來,是對生物學知識和信息的進一步整理。國際上著名的一級核酸數(shù)據(jù)庫有Genbank數(shù)據(jù)庫、EMBL核酸庫和DDBJ庫等;蛋白質序列數(shù)據(jù)庫有SWISS-PROT、PIR等;蛋白質結構庫有PDB等。國際上二級生物學數(shù)據(jù)庫非常多,它們因針對不同的研究內容和需要而各具特色,如人類基因組圖譜庫GDB、轉錄因子和結合位點庫TRANSFAC、蛋白質結構家族分類庫SCOP等等。下面將順序簡要介紹一些著名和有特色的生物信息數(shù)據(jù)庫?;蚝突蚪M數(shù)據(jù)庫GenbankGenbank庫包含了所有已知的核酸序列和蛋白質序列,以及與它們相關的文獻著作和生物學注釋。它是由美國國立生物技術信息中心(NCBI)建立和維護的。它的數(shù)據(jù)直接來源于測序工作者提交的序列;由測序中心提交的大量EST序列和其它測序數(shù)據(jù);以及與其它數(shù)據(jù)機構協(xié)作交換數(shù)據(jù)而來。Genbank每天都會與歐洲分子生物學實驗室(EMBL)的數(shù)據(jù)庫,和日本的DNA數(shù)據(jù)庫(DDBJ)交換數(shù)據(jù),使這三個數(shù)據(jù)庫的數(shù)據(jù)同步。到1999年8月,Genbank中收集的序列數(shù)量達到460萬條,34億個堿基,而且數(shù)據(jù)增長的速度還在不斷加快。Genbank的數(shù)據(jù)可以從NCBI的FTP服務器上免費下載完整的庫,或下載積累的新數(shù)據(jù)。NCBI還提供廣泛的數(shù)據(jù)查詢、序列相似性搜索以及其它分析服務,用戶可以從NCBI的主頁上找到這些服務。Genbank庫里的數(shù)據(jù)按來源于約55,000個物種,其中56%是人類的基因組序列(所有序列中的34%是人類的EST序列)。每條Genbank數(shù)據(jù)記錄包含了對序列的簡要描述,它的科學命名,物種分類名稱,參考文獻,序列特征表,以及序列本身。序列特征表里包含對序列生物學特征注釋如:編碼區(qū)、轉錄單元、重復區(qū)域、突變位點或修飾位點等。所有數(shù)據(jù)記錄被劃分在若干個文件里,如細菌類、病毒類、靈長類、嚙齒類,以及EST數(shù)據(jù)、基因組測序數(shù)據(jù)、大規(guī)?;蚪M序列數(shù)據(jù)等16類,其中EST數(shù)據(jù)等又被各自分成若干個文件。Genbank數(shù)據(jù)檢索NCBI的數(shù)據(jù)庫檢索查詢系統(tǒng)是Entrez。Entrez是基于Web界面的綜合生物信息數(shù)據(jù)庫檢索系統(tǒng)。利用Entrez系統(tǒng),用戶不僅可以方便地檢索Genbank的核酸數(shù)據(jù),還可以檢索來自Genbank和其它數(shù)據(jù)庫的蛋白質序列數(shù)據(jù)、基因組圖譜數(shù)據(jù)、來自分子模型數(shù)據(jù)庫(MMDB)的蛋白質三維結構數(shù)據(jù)、種群序列數(shù)據(jù)集、以及由PubMed獲得Medline的文獻數(shù)據(jù)。Entrez提供了方便實用的檢索服務,所有操作都可以在網(wǎng)絡瀏覽器上完成。用戶可以利用Entrez界面上提供的限制條件(Limits)、索引(Index)、檢索歷史(History)和剪貼板(Clipboard)等功能來實現(xiàn)復雜的檢索查詢工作。對于檢索獲得的記錄,用戶Entrez使用說明可以在該主頁上獲得。Genbank提交序列數(shù)據(jù)測序工作者可以把自己工作中獲得的新序列提交給NCBI,添加到Genbank數(shù)據(jù)庫。這個任務可以由基于Web界面的BankIt或獨立程序Sequin來完成。BankIt是一系列表單,包括聯(lián)絡信息、發(fā)布要求、引用參考信息、序列來源信息、以及序列本身的信息等。用戶提交序列后,會從電子郵件收到自動生成的數(shù)據(jù)條目,Genbank的新序列編號,以及完成注釋后的完整的數(shù)據(jù)記錄。用戶還可以在BankIt頁面下修改已經(jīng)發(fā)布序列的信息。BankIt適合于獨立測序工作者提交少量序列,而不適合大量序列的提交,也不適合提交很長的序列,EST序列和GSS序列也不應用BankIt提交。BankIt使用說明和對序列的要求可詳見其主頁面。大量的序列提交可以由Sequin程序完成。Sequin程序能方便的編輯和處理復雜注釋,并包含一系列內建的檢查函數(shù)來提高序列的質量保證。它還被設計用于提交來自系統(tǒng)進化、種群和突變研究的序列,可以加入比對的數(shù)據(jù)。Sequin除了用于編輯和修改序列數(shù)據(jù)記錄,還可以用于序列的分析,任何以FASTA或ASN.1格式序列為輸入數(shù)據(jù)的序列分析程序都可以整合到Sequin程序下。在不同操作系統(tǒng)下運行的Sequin程序都可以在/sequin/下找到,Sequin的使用說明可詳見其網(wǎng)頁。NCBI的網(wǎng)址是:。Entrez的網(wǎng)址是:/entrez/。BankIt的網(wǎng)址是:/BankIt。Sequin的相關網(wǎng)址是:/Sequin/。EMBL核酸序列數(shù)據(jù)庫EMBL核酸序列數(shù)據(jù)庫由歐洲生物信息學研究所(EBI)維護的核酸序列數(shù)據(jù)構成,由于與Genbank和DDBJ的數(shù)據(jù)合作交換,它也是一個全面的核酸序列數(shù)據(jù)庫。該數(shù)據(jù)庫由Oracal數(shù)據(jù)庫系統(tǒng)管理維護,查詢檢索可以通過通過因特網(wǎng)上的序列提取系統(tǒng)(SRS)服務完成。向EMBL核酸序列數(shù)據(jù)庫提交序列可以通過基于Web的WEBIN工具,也可以用Sequin軟件來完成。數(shù)據(jù)庫網(wǎng)址是:http://www.ebi.ac.uk/embl/。SRS的網(wǎng)址是:http://srs.ebi.ac.uk/。WEBIN的網(wǎng)址是:http://www.ebi.ac.uk/embl/Submission/webin.html。DDBJ數(shù)據(jù)庫日本DNA數(shù)據(jù)倉庫(DDBJ)也是一個全面的核酸序列數(shù)據(jù)庫,與Genbank和EMBL核酸庫合作交換數(shù)據(jù)??梢允褂闷渲黜撋咸峁┑腟RS工具進行數(shù)據(jù)檢索和序列分析??梢杂肧equin軟件向該數(shù)據(jù)庫提交序列。DDBJ的網(wǎng)址是:http://www.ddbj.nig.ac.jp/。GDB基因組數(shù)據(jù)庫(GDB)為人類基因組計劃(HGP)保存和處理基因組圖譜數(shù)據(jù)。GDB的目標是構建關于人類基因組的百科全書,除了構建基因組圖譜之外,還開發(fā)了描述序列水平的基因組內容的方法,包括序列變異和其它對功能和表型的描述。目前GDB中有:人類基因組區(qū)域(包括基因、克隆、amplimersPCR標記、斷點breakpoints、細胞遺傳標記cytogeneticmarkers、易碎位點fragilesites、EST序列、綜合區(qū)域syndromicregions、contigs和重復序列);人類基因組圖譜(包括細胞遺傳圖譜、連接圖譜、放射性雜交圖譜、contentcontig圖譜和綜合圖譜等);人類基因組內的變異(包括突變和多態(tài)性,加上等位基因頻率數(shù)據(jù))。GDB數(shù)據(jù)庫以對象模型來保存數(shù)據(jù),提供基于Web的數(shù)據(jù)對象檢索服務,用戶可以搜索各種類型的對象,并以圖形方式觀看基因組圖譜。GDB的網(wǎng)址是:。GDB的國內鏡像是:/gdb/。蛋白質數(shù)據(jù)庫PIRPSDPIR國際蛋白質序列數(shù)據(jù)庫(PSD)是由蛋白質信息資源(PIR)、慕尼黑蛋白質序列信息中心(MIPS)和日本國際蛋白質序列數(shù)據(jù)庫(JIPID)共同維護的國際上最大的公共蛋白質序列數(shù)據(jù)庫。這是一個全面的、經(jīng)過注釋的、非冗余的蛋白質序列數(shù)據(jù)庫,包含超過142,000條蛋白質序列(至99年9月),其中包括來自幾十個完整基因組的蛋白質序列。所有序列數(shù)據(jù)都經(jīng)過整理,超過99%的序列已按蛋白質家族分類,一半以上還按蛋白質超家族進行了分類。PSD的注釋中還包括對許多序列、結構、基因組和文獻數(shù)據(jù)庫的交叉索引,以及數(shù)據(jù)庫內部條目之間的索引,這些內部索引幫助用戶在包括復合物、酶-底物相互作用、活化和調控級聯(lián)和具有共同特征的條目之間方便的檢索。每季度都發(fā)行一次完整的數(shù)據(jù)庫,每周可以得到更新部分。PSD數(shù)據(jù)庫有幾個輔助數(shù)據(jù)庫,如基于超家族的非冗余庫等。PIR提供三類序列搜索服務:基于文本的交互式檢索;標準的序列相似性搜索,包括BLAST、FASTA等;結合序列相似性、注釋信息和蛋白質家族信息的高級搜索,包括按注釋分類的相似性搜索、結構域搜索GeneFIND等。PIR和PSD的網(wǎng)址是:/。數(shù)據(jù)庫下載地址是:/pir/。SWISS-PROTSWISS-PROT是經(jīng)過注釋的蛋白質序列數(shù)據(jù)庫,由歐洲生物信息學研究所(EBI)維中盡可能減少了冗余序列,并與其它30多個數(shù)據(jù)建立了交叉引用,其中包括核酸序列庫、蛋白質序列庫和蛋白質結構庫等。利用序列提取系統(tǒng)(SRS)可以方便地檢索SWISS-PROT和其它EBI的數(shù)據(jù)庫。SWISS-PROT只接受直接測序獲得的蛋白質序列,序列提交可以在其Web頁面上完成。SWISS-PROT的網(wǎng)址是:http://www.ebi.ac.uk/swissprot/。PROSITEPROSITE數(shù)據(jù)庫收集了生物學有顯著意義的蛋白質位點和序列模式,并能根據(jù)這的搜索找到隱含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式與小分子或其它蛋白質結合的區(qū)域等;除了序列模式之外,PROSITE還包括由多序列比對構建的profile,能更敏感地發(fā)現(xiàn)序列與profile的相似性。PROSITE的主頁上提供各種相關檢索服務。PROSITE的網(wǎng)址是:http://www.expasy.ch/prosite/。PDB蛋白質數(shù)據(jù)倉庫(PDB)是國際上唯一的生物大分子結構數(shù)據(jù)檔案庫,由美國Brookhaven國家實驗室建立。PDB收集的數(shù)據(jù)來源于X光晶體衍射和核磁共振(NMR)的數(shù)據(jù),經(jīng)過整理和確認后存檔而成。目前PDB數(shù)據(jù)庫的維護由結構生物信息學研究合作組織(RCSB)負責。RCSB的主服務器和世界各地的鏡像服務器提供數(shù)據(jù)庫的檢索和下載服務,以及關于PDB數(shù)據(jù)文件格式和其它文檔的說明,PDB數(shù)據(jù)還可以從發(fā)行的光盤獲得。使用Rasmol等軟件可以在計算機上按PDB文件顯示生物大分子的三維結構。RCSB的PDB數(shù)據(jù)庫網(wǎng)址是:/pdb/。SCOP蛋白質結構分類(SCOP)數(shù)據(jù)庫詳細描述了已知的蛋白質結構之間的關系。分類基于若干層次:家族,描述相近的進化關系;超家族,描述遠源的進化關系;折疊子(fold),描述空間幾何結構的關系;折疊類,所有折疊子被歸于全α、全β、α/β、α+β和多結構域等幾個大類。SCOP還提供一個非冗余的ASTRAIL序列庫,這個庫通常被用來評估各種序列比對算法。此外,SCOP還提供一個PDB-ISL中介序列庫,通過與這個庫中序列的兩兩比對,可以找到與未知結構序列遠緣的已知結構序列。SCOP的網(wǎng)址是:http://scop.mrc-lmb.cam.ac.uk/scop/。COG蛋白質直系同源簇(COGs)數(shù)據(jù)庫是對細菌、藻類和真核生物的21個完整基因組的編碼蛋白,根據(jù)系統(tǒng)進化關系分類構建而成。COG庫對于預測單個蛋白質的功能和整個新基因組中蛋白質的功能都很有用。利用COGNITOR程序,可以把某個蛋白質與所有COGs中的蛋白質進行比對,并把它歸入適當?shù)腃OG簇。COG庫提供了對COG分類數(shù)據(jù)的檢索和查詢,基于Web的COGNITOR服務,系統(tǒng)進化模式的查詢服務等。COG庫的網(wǎng)址是:/COG。下載COG庫和COGNITOR程序在:/pub/COG。功能數(shù)據(jù)庫KEGG京都基因和基因組百科全書(KEGG)是系統(tǒng)分析基因功能,聯(lián)系基因組信息和功能信息的知識庫?;蚪M信息存儲在GENES數(shù)據(jù)庫里,包括完整和部分測序的基因組序列;更高級的功能信息存儲在PATHWAY數(shù)據(jù)庫里,包括圖解的細胞生化過程如代謝、膜轉運、信號傳遞、細胞周期,還包括同系保守的子通路等信息;KEGG的另一個數(shù)據(jù)庫是LIGAND,包含關于化學物質、酶分子、酶反應等信息。KEGG提供了Java的圖形工具來訪問基因組圖譜,比較基因組圖譜和操作表達圖譜,以及其它序列比較、圖形比較和通路計算的工具,可以免費獲取。KEGG的網(wǎng)址是:http://www.genome.ad.jp/kegg/。DIP相互作用的蛋白質數(shù)據(jù)庫(DIP)收集了由實驗驗證的蛋白質-蛋白質相互作用。數(shù)詢DIP數(shù)據(jù)庫。DIP的網(wǎng)址是:/。ASDB可變剪接數(shù)據(jù)庫(ASDB)包括蛋白質庫和核酸庫兩部分。ASDB(蛋白質)部分來源于SWISS-PROT蛋白質序列庫,通過選取有可變剪接注釋的序列,搜索相關可變剪接的序列,經(jīng)過序列比對、篩選和分類構建而成。ASDB(核酸)部分來自Genbank中提及和注釋的可變剪接的完整基因構成。數(shù)據(jù)庫提供了方便的搜索服務。ASDB的網(wǎng)址是:/asdb。TRRD轉錄調控區(qū)數(shù)據(jù)庫(TRRD)是在不斷積累的真核生物基因調控區(qū)結構-功能特性信息基礎上構建的。每一個TRRD的條目里包含特定基因各種結構-功能特性:轉錄因子結合位點、啟動子、增強子、靜默子、以及基因表達調控模式等。TRRD包括五個相關的數(shù)據(jù)表:TRRDGENES(包含所有TRRD庫基因的基本信息和調控單元信息);TRRDSITES(包括調控因子結合位點的具體信息);TRRDFACTORS(包括TRRD中與各個位點結合的調控因子的具體信息);TRRDEXP(包括對基因表達模式的具體描述);TRRDBIB(包括所有注釋涉及的參考文獻)。TRRD主頁提供了對這幾個數(shù)據(jù)表的檢索服務。TRRD的網(wǎng)址是:http://wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/。TRANSFACTRANSFAC數(shù)據(jù)庫是關于轉錄因子、它們在基因組上的結合位點和與DNA結合的profiles的數(shù)據(jù)庫。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等數(shù)據(jù)表構成。此外,還有幾個與TRANSFAC密切相關的擴展庫:PATHODB庫收集了可能導致病態(tài)的突變的轉錄因子和結合位點;S/MARTDB收集了與染色體結構變化相關的蛋白因子和位點的信息;TRANSPATH庫用于描述與轉錄因子調控相關的信號傳遞的網(wǎng)絡;CYTOMER庫表現(xiàn)了人類轉錄因子在各個器官、細胞類型、生理系統(tǒng)和發(fā)育時期的表達狀況。TRANSFAC及其相關數(shù)據(jù)庫可以免費下載,也可以通過Web進行檢索和查詢。TRANSFAC的網(wǎng)址是:http://transfac.gbf.de/TRANSFAC/。其它數(shù)據(jù)庫資源DBCatDBCat是生物信息數(shù)據(jù)庫的目錄數(shù)據(jù)庫,它收集了500多個生物信息學數(shù)據(jù)庫的信息,并根據(jù)它們的應用領域進行了分類。包括DNA、RNA、蛋白質、基因組、圖譜、蛋白質結構、文獻著作等基本類型。數(shù)據(jù)庫可以免費下載或在網(wǎng)絡上檢索查詢。DBCat的網(wǎng)址是:biogen.fr/services/dbcat/。下載DBCat在:biogen.fr/pub/db/dbcat。PubMedPubMed是NCBI維護的文獻引用數(shù)據(jù)庫,提供對MEDLINE、Pre-MEDLINE等文獻數(shù)據(jù)庫的引用查詢和對大量網(wǎng)絡科學類電子期刊的鏈接。利用Entrez系統(tǒng)可以對PubMed進行方便的查詢檢索。PubMed的網(wǎng)址是:/。除了以上提及的數(shù)據(jù)之外,還有許許多多的專門生物信息數(shù)據(jù)庫,涉及了目前生物學研究的各個層面和領域,由于篇幅所限無法一一詳述。國內也有一些大數(shù)據(jù)庫的鏡像站點和自己開發(fā)的有特色的數(shù)據(jù)庫,如歐洲分子生物學網(wǎng)絡組織EMBNet中國節(jié)點北京大學分子生物信息鏡像系統(tǒng),上海博容基因公司與上海嘉瑞軟件公司合作開發(fā)的國產(chǎn)漢化基因數(shù)據(jù)庫及分析管理系統(tǒng),同時國家級的生物信息學中心也在籌建之中。我們期待國內能有更多高質量和使用便利的數(shù)據(jù)庫資源,推動我國生物信息學和整個生命科學的發(fā)展。清華大學生物信息學研究所網(wǎng)址:北京大學生物信息鏡像系統(tǒng)網(wǎng)址:第三章 序列比對和數(shù)據(jù)庫搜索比較是科學研究中最常見的方法,通過將研究對象相互比較來尋找對象可能具備的特性。在生物信息學研究中,比對是最常用和最經(jīng)典的研究手段。最常見的比對是蛋白質序列之間或核酸序列之間的兩兩比對,通過比較兩個序列之間的相似區(qū)域和保守性位點,尋找二者可能的分子進化關系。進一步的比對是將多個蛋白質或核酸同時進行比較,尋找這些有進化關系的序列之間共同的保守區(qū)域、位點和profile,從而探索導致它們產(chǎn)生共同功能的序列模式。此外,還可以把蛋白質序列與核酸序列相比來探索核酸序列可能的表達框架;把蛋白質序列與具有三維結構信息的蛋白質相比,從而獲得蛋白質折疊類型的信息。比對還是數(shù)據(jù)庫搜索算法的基礎,將查詢序列與整個數(shù)據(jù)庫]的所有序列進行比對,從數(shù)據(jù)庫中獲得與其最相似序列的已有的數(shù)據(jù),能最快速的獲得有關查詢序列的大量有價值的參考信息,對于進一步分析其結構和功能都會有很大的幫助。近年來隨著生物信息學數(shù)據(jù)大量積累和生物學知識的整理,通過比對方法可以有效地分析和預測一些新發(fā)現(xiàn)基因的功能。序列兩兩比對序列比對的理論基礎是進化學說,如果兩個序列之間具有足夠的相似性,就推測二者可能有共同的進化祖先,經(jīng)過序列內殘基的替換、殘基或序列片段的缺失、以及序列重組等遺傳變異過程分別演化而來。序列相似和序列同源是不同的概念,序列之間的相似程度是可以量化的參數(shù),而序列是否同源需要有進化事實的驗證。在殘基-殘基比對中,可以明顯看到序列中某些氨基酸殘基比其它位置上的殘基更保守,這些信息揭示了這些保守位點上的殘基對蛋白質的結構和功能是至關重要的,例如它們可能是酶的活性位點殘基,形成二硫鍵的半胱氨酸殘基,與配體結合部位的殘基,與金屬離子結合的殘基,形成特定結構motif的殘基等等。但并不是所有保守的殘基都一定是結構功能重要的,可能它們只是由于歷史的原因被保留下來,而不是由于進化壓力而保留下來。因此,如果兩個序列有顯著的保守性,要確定二者具有共同的進化歷史,進而認為二者有近似的結構和功能還需要更多實驗和信息的支持。通過大量實驗和序列比對的分析,一般認為蛋白質的結構和功能比序列具有更大的保守性,因此粗略的說,如果序列之間的相似性超過30%,它們就很可能是同源的。早期的序列比對是全局的序列比較,但由于蛋白質具有的模塊性質,可能由于外顯子的交換而產(chǎn)生新蛋白質,因此局部比對會更加合理。通常用打分矩陣描述序列兩兩比對,兩條序列分別作為矩陣的兩維,矩陣點是兩維上對應兩個殘基的相似性分數(shù),分數(shù)越高則說明兩個殘基越相似。因此,序列比對問題變成在矩陣里尋找最佳比對路徑,目前最有效的方法是Needleman-Wunsch動態(tài)規(guī)劃算法,在此基礎上又改良產(chǎn)生了Smith-Waterman算法和SIM算法。在FASTA程序包中可以找到用動態(tài)規(guī)劃算法進行序列比對的工具LALIGN,它能給出多個不相互交叉的最佳比對結果。在進行序列兩兩比對時,有兩方面問題直接影響相似性分值:取代矩陣和空位罰分。粗糙的比對方法僅僅用相同/不同來描述兩個殘基的關系,顯然這種方法無法和對象應該構建適宜的取代矩陣,但國際上常用的取代矩陣有PAM和BLOSUM等,它們來源于不同的構建方法和不同的參數(shù)選擇,包括PAM250、BLOSUM62、BLOSUM90、BLOSUM30等。對于不同的對象可以采用不同的取代矩陣以獲得更多信息,例如對同源性較高的序列可以采用BLOSUM90矩陣,而對BLOSUM30矩陣。空位罰分是為了補償插入和缺失對序列相似性的影響,由于沒有什么合適的理論模型能很好地描述空位問題,因此空位罰分缺乏理論依據(jù)而更多的帶有主觀特色。一般的處理方法是用兩個罰分值,一個對插入的第一個空位罰分,如10-15;另一個對空位的延伸罰分,如1-2。對于具體的比對問題,采用不同的罰分方法會取得不同的效果。對于比對計算產(chǎn)生的分值,到底多大才能說明兩個序列是同源的,對此有統(tǒng)計學方法加以說明,主要的思想是把具有相同長度的隨機序列進行比對,把分值與最初的比對分值相比,看看比對結果是否具有顯著性。相關的參數(shù)E代表隨機比對分值不低于實際比對分值的概率。對于嚴格的比對,必須E值低于一定閾值才能說明比對的結果具有足夠的統(tǒng)計學顯著性,這樣就排除了由于偶然的因素產(chǎn)生高比對得分的可能。Genbank、SWISS-PROT等序列數(shù)據(jù)庫提供的序列搜索服務都是以序列兩兩比對為基礎的。不同之處在于為了提高搜索的速度和效率,通常的序列搜索算法都進行了一定程度的優(yōu)化,如最常見的FASTA工具和BLAST工具。FASTA是第一個被廣泛應用的序列比對和搜索工具包,包含若干個獨立的程序。FASTA為了提供序列搜索的速度,會先建立序列片段的“字典”,查詢序列先會在字典里搜索可能的匹配序列,字典中的序列長度由ktup參數(shù)控制,缺省的ktup=2。FASTA的結果報告中會給出每個搜索到的序列與查詢序列的最佳比對結果,以及這個比對的統(tǒng)計學顯著性評估E值。FASTA工具包可以在大多提供下載服務的生物信息學站點上找到。BLAST是現(xiàn)在應用最廣泛的序列相似性搜索工具,相比FASTA有更多改進,速度更快,并建立在嚴格的統(tǒng)計學基礎之上。NCBI提供了基于Web的BLAST服務,用戶可以把序列填入網(wǎng)頁上的表單里,選擇相應的參數(shù)后提交到數(shù)據(jù)服務器上進行搜索,從電子郵件中獲得序列搜索的結果。BLAST包含五個程序和若干個相應的數(shù)據(jù)庫,分別針對不同的查詢序列和要搜索的數(shù)據(jù)庫類型。其中翻譯的核酸庫指搜索比對時會把核酸數(shù)據(jù)按密碼子按所有可能的閱讀框架轉換成蛋白質序列。表1.BLAST程序:程序數(shù)據(jù)庫查詢簡述blastpblastnblastxtblastntblastx蛋白質核酸蛋白質核苷酸(翻譯)核酸(翻譯)核酸(翻譯蛋白質核酸(翻譯)可能找到具有遠源進化關系的匹配序列DNA序列和EST序列的分析適合分析EST序列表2.BLAST的蛋白質數(shù)據(jù)庫:簡述簡述數(shù)據(jù)庫nrmonth匯集了SWISS-PROT,PIR,PRF以及從GenBank序列編碼區(qū)中得到的swissprot蛋白質和PDB中擁有原子坐標的蛋白質,并去除了冗余的序列pdbnr中過去30天內的最新序列yeastSWISS-PROT數(shù)據(jù)庫E.coliPDB結構數(shù)據(jù)庫中的蛋白質序列Kabat酵母基因組中編碼的全部蛋白質alu大腸桿菌基因組中編碼的全部蛋白質Kabat的免疫學相關蛋白質序列由REPBASE中的Alu重復序列翻譯而來,用來遮蔽查詢序列中的重復片段表3.BLAST的核酸數(shù)據(jù)庫:數(shù)據(jù)庫簡述nr非冗余的GenBank+EMBL+DDBJ+PDB序列,除了EST、STS、GSS和0,1,2階段的HTGS序列nr中過去30天的最新序列非冗余的Genbank+EMBL+DDBJ+PDB的EST部分非冗余的Genbank+EMBL+DDBJ+PDB的STS部分0,1,2階段的高產(chǎn)量基因組序列(3階段完成的HTG序列在nr庫里)monthdbestdbstshtgsyeastE.coli酵母的全基因組序列酵母的全基因組序列大腸桿菌的全基因組序列由三維結構庫來的核酸序列Kabat的免疫學相關序列庫Genbank的載體子集線粒體核酸序列REPBASE中Alu重復序列翻譯而來,用來遮蔽查詢序列中的重復片段基因組勘測序列(GenomeSurveySequence)pdbkabatvectormitoalugssBLAST對序列格式的要求是常見的FASTA格式。FASTA格式第一行是描述行,第一個字符必須是“>”字符;隨后的行是序列本身,一般每行序列不要超過80個字符,回車符不會影響程序對序列連續(xù)性的看法。序列由標準的IUB/IUPAC氨基酸和核酸代碼代表;小寫字符會全部轉換成大寫;單個“-”號代表不明長度的空位;在氨基酸序列里允許出現(xiàn)“U”和“*”號;任何數(shù)字都應該被去掉或換成字母(如,不明核酸用“N”,不明氨基酸用“X”)。此外,對于核酸序列,除了A、C、G、T、U分別代表各種核酸之外,R代表G或A(嘌呤);Y代表T或C(嘧啶);K代表G或T(帶酮基);M代表A或C(帶氨基);S代表G或C(強);W代表A或T(弱);B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、G、C、T中任意一種。對于氨基酸序列,除了20種常見氨基酸的標準單字符標識之外,B代表Asp或Asn;U代表硒代半胱氨酸;Z代表Glu或Gln;X代表任意氨基酸;“*”代表翻譯結束標志。BLAST的當前版本是2.0,它的新發(fā)展是位點特異性反復BLAST(PSI-BLAST)。PSI-BLAST的特色是每次用profile搜索數(shù)據(jù)庫后再利用搜索的結果重新構建profile,然后用新的profile再次搜索數(shù)據(jù)庫,如此反復直至沒有新的結果產(chǎn)生為止。PSI-BLAST先用帶空位的BLAST搜索數(shù)據(jù)庫,將獲得的序列通過多序列比對來構建第一個profile。PSI-BLAST自然地拓展了BLAST方法,能尋找蛋白質序列中的隱含模式,有研究表明這種方法可以有效的找到很多序列差異較大而結構功能相似的相關蛋白,甚至可以與一些結構比對方法,如threading相媲美。PSI-BLAST服務可以在NCBI的BLAST主頁上找到,還可以從NCBI的FTP服務器上下載PSI-BLAST的獨立程序。NCBI的BLUST網(wǎng)址是:/BLAST/。下載BLUST的網(wǎng)址是:/blast/。下載FASTA的網(wǎng)址是:/pub/fasta/。多序列比對顧名思義,多序列比對就是把兩條以上可能有系統(tǒng)進化關系的序列進行比對的方法。目前對多序列比對的研究還在不斷前進中,現(xiàn)有的大多數(shù)算法都基于漸進的比對的思想,在序列兩兩比對的基礎上逐步優(yōu)化多序列比對的結果。進行多序列比對后可以對比對結果進行進一步處理,例如構建序列模式的profile,將序列聚類構建分子進化樹等等。目前使用最廣泛的多序列比對程序是CLUSTALW(它的PC版本是CLUSTALX)。CLUSTALW是一種漸進的比對方法,先將多個序列兩兩比對構建距離矩陣,反應序列之間兩兩關系;然后根據(jù)距離矩陣計算產(chǎn)生系統(tǒng)進化指導樹,對關系密切的序列進行加權;然后從最緊密的兩條序列開始,逐步引入臨近的序列并不斷重新構建比對,直到所有序列都被加入為止。CLUSTALW的程序可以自由使用,在NCBI的FTP服務器上可以找到下載的軟件包。CLUSTALW程序用選項單逐步指導用戶進行操作,用戶可根據(jù)需要選擇打分矩陣、設置空位罰分等。EBI的主頁還提供了基于Web的CLUSTALW服務,用戶可以把序列和各種要求通過表單提交到服務器上,服務器把計算的結果用Email返回用戶。CLUSTALW對輸入序列的格式比較靈活,可以是前面介紹過的FASTA格式,還可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。輸出格式也可以選擇,有ALN、GCG、PHYLIP和GDE等,用戶可以根據(jù)自己的需要選擇合適的輸出格式。用CLUSTALW得到的多序列比對結果中,所有序列排列在一起,并以特定的符號代表各個位點上殘基的保守性,“*”號表示保守性極高的殘基位點;“.”號代表保守性略低的殘基位點。EBI的CLUSTALW網(wǎng)址是:http://www.ebi.ac.uk/clustalw/。下載CLUSTALW的網(wǎng)址是:ftp://ftp.ebi.ac.uk/pub/software/。第四章核酸與蛋白質結構和功能的預測分析人們獲得各種核酸和蛋白質序列的目的是了解這個序列在生物體中充當了怎樣的角色。例如,DNA序列中重復片段、編碼區(qū)、啟動子、內含子/外顯子、轉錄調控因子結合位點等信息;蛋白質的分子量、等電點、二級結構、三級結構、四級結構、膜蛋白的跨膜區(qū)段、酶的活性位點、以及蛋白質之間相互作用等結構和功能信息。雖然用實驗的方法是多年以來解決這類問題的主要途徑,但新的思路是利用已有的對生物大分子結構和功能特性的認識,用生物信息學的方法通過計算機模擬和計算來“預測”出這些信息或提供與之相關的輔助信息。由于生物信息學的特點,可以用較低的成本和較快的時間就能獲得可靠的結果。近10年來生物學序列信息的爆炸性增長大大促進了各種序列分析和預測技術的發(fā)展,目前已經(jīng)可以用理論預測的方法獲得大量的結構和功能信息。要注意的是,盡管各種預測方法都基于現(xiàn)有的生物學數(shù)據(jù)和已有的生物學知識,但在不同模型或算法基礎上建立的不同分析程序有其一定的適用范圍和相應的限制條件,因此最好對同一個生物學問題盡量多用幾種分析程序,綜合分析各種方法得到的結果和結果的可靠性。此外,生物信息學的分析只是為生物學研究提供參考,這些信息能提高研究的效率或提供研究的思路,但很多問題還需要通過實驗的方法得到驗證。針對核酸序列的預測方法針對核酸序列的預測就是在核酸序列中尋找基因,找出基因的位置和功能位點的位置,以及標記已知的序列模式等過程。在此過程中,確認一段DNA序列是一個基因需要有多個證據(jù)的支持。一般而言,在重復片段頻繁出現(xiàn)的區(qū)域里,基因編碼區(qū)和調控區(qū)不太可能出現(xiàn);如果某段DNA片段的假想產(chǎn)物與某個已知的蛋白質或其它基因的產(chǎn)物具有較高序列相似性的話,那么這個DNA片段就非??赡軐儆谕怙@子片段;在一段DNA序列上出現(xiàn)統(tǒng)計上的規(guī)律性,即所謂的“密碼子偏好性”,也是說明這段DNA是蛋白質編碼區(qū)的有力證據(jù);其它的證據(jù)包括與“模板”序列的模式相匹配、簡單序列模式如TATABox等相匹配等。一般而言,確定基因的位置和結構需要多個方法綜合運用,而且需要遵循一定的規(guī)則:對于真核生物序列,在進行預測之前先要進行重復序列分析,把重復序列標記出來并除去;選用預測程序時要注意程序的物種特異性;要弄清程序適用的是基因組序列還是cDNA序列;很多程序對序列長度也有要求,有的程序只適用于長序列,而對EST這類殘缺的序列則不適用。重復序列分析是涉及數(shù)據(jù)庫搜索的程序。常見的重復序列分析程序有CENSOR和RepeatMasker等,可以在Web界面上使用這些程序,或者用Email來進行。如果有大量序列需要處理,可以使用XBLAST程序,它可以從Internet上下載得到。XBLAST中以及包含了由程序作者收集整理的一些重復序列,此外還可以從Repbase中找到更多的重復序列。還可以把克隆載體也加入重復序列中,這樣就可以在處理重復序列時順便把克隆載體也一同除去。經(jīng)處理的序列中重復序列所在位置會一律由“X”代替。CENSOR和Repbase的網(wǎng)址是:/。CENSOR的Email服務地址是:censor@。RepeatMasker的網(wǎng)址是:/cgi-bin/RepeatMasker。下載XBLAST的網(wǎng)址是:/pub/jmc。下載Repbase的網(wǎng)址是:ftp://ncbi//repository/repbase/REF。數(shù)據(jù)庫搜索把未知核酸序列作為查詢序列,在數(shù)據(jù)庫里搜索與之相似的已有序列是序列分析預測的有效手段,在上一節(jié)中已經(jīng)專門介紹了序列比對和搜索的原理和技術。但值得注意的是,由相似性分析作出的結論可能導致錯誤的流傳;有一定比例的序列很難在數(shù)據(jù)庫里找到合適的同源伙伴。對于EST序列而言,序列搜索將是非常有效的預測手段。編碼區(qū)統(tǒng)計特性分析統(tǒng)計獲得的經(jīng)驗說明,DNA中密碼子的使用頻率不是平均分布的,某些密碼子會以較高的頻率使用而另一些則較少出現(xiàn)。這樣就使得編碼區(qū)的序列呈現(xiàn)出可察覺的統(tǒng)計特異性,即所謂的“密碼子偏好性”。利用這一特性對未知序列進行統(tǒng)計學分析可以發(fā)現(xiàn)編碼區(qū)的粗略位置。這一類技術包括:雙密碼子計數(shù)(統(tǒng)計連續(xù)兩個密碼子的出現(xiàn)頻率);核苷酸周期性分析(分析同一個核苷酸在3,6,9,...位置上周期性出現(xiàn)的規(guī)律);均一/復雜性分析(長同聚物的統(tǒng)計計數(shù));開放可讀框架分析等。合判別。著名的程序有GRAIL和GenMark等,GRAIL提供了基于Web的服務。GRAIL的網(wǎng)址是:/Grail-1.3/。啟動子分析啟動子是基因表達所必需的重要序列信號,識別出啟動子對于基因辨識十分重要。有一些程序根據(jù)實驗獲得的轉錄因子結合特性來描述啟動子的序列特征,并依次作為啟動子預測的依據(jù),但實際的效果并不十分理想,遺漏和假陽性都比較嚴重??偟膩碚f,啟動子仍是值得繼續(xù)研究探索的難題。內含子/外顯子剪接位點剪接位點一般具有較明顯的序列特征,但是要注意可變剪接的問題。由于可變剪接在數(shù)據(jù)庫里的注釋非常不完整,因此很難評估剪接位點識別程序預測剪接位點的敏感性和精度。如果把剪接位點和兩側的編碼特性結合起來分析則有助于提供剪接位點的識別效果。常見的基因識別工具很多都包含了剪接位點識別功能,獨立的剪接位點識別工具有NetGene等。NetGene服務的Email地址是:netgene@cbs.dtu.dk。翻譯起始位點對于真核生物,如果已知轉錄起始點,并且沒有內含子打斷5'非翻譯區(qū)的話,“Kozak規(guī)則”可以在大多數(shù)情況下定位起始密碼子。原核生物一般沒有剪接過程,但在開放閱讀框中找正確的起始密碼子仍很困難。這時由于多順反操縱子的存在,啟動子定位不象在真核生物中起關鍵作用。對于原核生物,關鍵是核糖體結合點的定位,可以由多個程序提供解決方案,可以參考下面的綜述。Gelfand,M.S.(1995).PredictionoffunctioninDNAsequenceanalyis.J.Comput.Biol.2,87-115.翻譯終止信號PolyA和翻譯終止信號不象起始信號那么重要,但也可以輔助劃分基因的范圍。其它綜合基因預測工具除了上面提到的程序之外,還有許多用于基因預測的工具,它們大多把各個方面的分析綜合起來,對基因進行整體的分析和預測。多種信息的綜合分析有助于提高預測的可靠性,但也有一些局限:物種適用范圍的局限;對多基因或部分基因,有的預測出的基因結構不可靠;預測的精度對許多新發(fā)現(xiàn)基因比較低;對序列中的錯誤很敏感;對可變剪接、重疊基因和啟動子等復雜基因語法效果不佳。相對不錯的工具有GENSCAN,可以通過Web頁面或Email獲得GENSCAN服務。GENSCAN的網(wǎng)址是:/GENSCAN.html。tRNA基因識別tRNA基因識別比編碼蛋白質的基因識別簡單,目前基本已經(jīng)解決了用理論方法預測tRNA基因的問題。tRNAscan-SE工具中綜合了多個識別和分析程序,通過分析啟動子元件的保守序列模式、tRNA二級結構的分析、轉錄控制元件分析和除去絕大多數(shù)假陽性的篩選過程,據(jù)稱能識別99%的真tRNA基因??梢栽赪eb上使用這個工具,也可以下載這個程序。tRNAscan-SE的網(wǎng)址是:/eddy/tRNAscan-SE/。針對蛋白質的預測方法傳統(tǒng)的生物學認為,蛋白質的序列決定了它的三維結構,也就決定了它的功能。由于用X光晶體衍射和NMR核磁共振技術測定蛋白質的三維結構,以及用生化方法研究蛋白質的功能效率不高,無法適應蛋白質序列數(shù)量飛速增長的需要,因此近幾十年來許多科學家致力于研究用理論計算的方法預測蛋白質的三維結構和功能,經(jīng)過多年努力取得了一定的成果。從氨基酸組成辨識蛋白質根據(jù)組成蛋白質的20種氨基酸的物理和化學性質可以分析電泳等實驗中的未知蛋白質,也可以分析已知蛋白質的物化性質。ExPASy工具包中提供了一系列相應程序:AACompIdent:根據(jù)氨基酸組成辨識蛋白質。這個程序需要的信息包括:氨基酸組成、蛋白質的名稱(在結果中有用)、pI和Mw(如果已知)以及它們的估算誤差、所屬物種或物種種類或“全部(ALL)”、標準蛋白的氨基酸組成、標準蛋白的SWISS-PROT編號、用戶的Email地址等,其中一些信息可以沒有。這個程序在SWISS-PROT和(或)TrEMBL數(shù)據(jù)庫中搜索組成相似蛋白。AACompSim:與前者類似,但比較在SWISS-PROT條目之間進行。這個程序可以用于發(fā)現(xiàn)蛋白質之間較弱的相似關系。除了ExPASy中的工具外,PROPSEARCH也提供基于氨基酸組成的蛋白質辨識功能。程序作者用144種不同的物化性質來分析蛋白質,包括分子量、巨大殘基的含量、平均疏水性、平均電荷等,把查詢序列的這些屬性構成的查詢向量”與SWISS-PROT和PIR中預先計算好的各個已知蛋白質的屬性向量進行比較。這個工具能有效的發(fā)現(xiàn)同一蛋白質家族的成員??梢酝ㄟ^Web使用這個工具,用戶只需輸入查詢序列本身。ExPASy的網(wǎng)址是:http://www.expasy.ch/tools/。PROSEARCH的網(wǎng)址是:http://www.embl-heidelberg.de/prs.html。預測蛋白質的物理性質從蛋白質序列出發(fā),可以預測出蛋白質的許多物理性質,包括等電點、分子量、酶切特性、疏水性、電荷分布等。相關工具有:ComputepI/MW:是ExPASy工具包中的程序,計算蛋白質的等電點和分子量。對于堿性蛋白質,計算出的等電點可能不準確。PeptideMass:是ExPASy工具包中的程序,分析蛋白質在各種蛋白酶和化學試劑處理后的內切產(chǎn)物。蛋白酶和化學試劑包括胰蛋白酶、糜蛋白酶、LysC、溴化氰、ArgC、AspN和GluC等。TGREASE:是FASTA工具包中的程序,分析蛋白質序列的疏水性。這個程序延序列計算每個殘基位點的移動平均疏水性,并給出疏水性-序列曲線,用這個程序可以發(fā)現(xiàn)膜蛋白的跨膜區(qū)和高疏水性區(qū)的明顯相關性。SAPS:蛋白質序列統(tǒng)計分析,對提交的序列給出大量全面的分析數(shù)據(jù),包括氨基酸組成統(tǒng)計、電荷分布分析、電荷聚集區(qū)域、高度疏水區(qū)域、跨膜區(qū)段等等。ExPASy的網(wǎng)址是:http://www.expasy.ch/tools/。下載FASTA的網(wǎng)址是:/pub/fasta/。SAPS的網(wǎng)址是:http://www.isrec.isb-sib.ch/software/SAPS_form.html。蛋白質二級結構預測二級結構是指α螺旋和β折疊等規(guī)則的蛋白質局部結構元件。不同的氨基酸殘基對于形成不同的二級結構元件具有不同的傾向性。按蛋白質中二級結構的成分可以把球形蛋白分為全α蛋白、全β蛋白、α+β蛋白和α/β蛋白等四個折疊類型。預測蛋白質二級結構的算法大多以已知三維結構和二級結構的蛋白質為依據(jù),用過人工神經(jīng)網(wǎng)絡、遺傳算法等技術構建預測方法。還有將多種預測方法結合起來,獲得“一致序列”??偟膩碚f,二級結構預測仍是未能完全解決的問題,一般對于α螺旋預測精度較好,對β折疊差些,而對除α螺旋和β折疊等之外的無規(guī)則二級結構則效果很差。nnPredict:用神經(jīng)網(wǎng)絡方法預測二級結構,蛋白質結構類型分為全α蛋白、全β蛋白和α/β蛋白,輸出結果包括“H”(螺旋)、“E”(折疊)和“-”(轉角)。這個方法對全α79%的準確率。PredictProtein:提供了序列搜索和結構預測服務。它先在SWISS-PROT中搜索相似序列,用MaxHom算法構建多序列比對的profile,再在數(shù)據(jù)庫中搜索相似的profile,然后用一套PHD程序來預測相應的結構特征,包括二級結構。返回的結果包含大量預測過程中產(chǎn)生的信息,還包含每個殘基位點的預測可信度。這個方法的平均預測準確率達到72%。SOPMA:帶比對的自優(yōu)化預測方法,將幾種獨立二級結構預測方法匯集成“一致預測結果”,采用的二級結構預測方法包括GOR方法、Levin同源預測方法、雙重預測方法、PHD方法和SOPMA方法。多種方法的綜合應用平均效果比單個方法更好。nnPredict的網(wǎng)址是:/~nomi/nnpredict.html。PredictProtein的網(wǎng)址是:/predictprotein/。PredictProtein的國內鏡像在:/predictprotein/。SOPMA的網(wǎng)址是:http://pbil.ibcp.fr/。其它特殊局部結構其它特殊局部結構包括膜蛋白的跨膜螺旋、信號肽、卷曲螺旋(CoiledCoils)等,具有明顯的序列特征和結構特征,也可以用計算方法加以預測。COILS:卷曲螺旋預測方法,將序列與已知的平行雙鏈卷曲螺旋數(shù)據(jù)庫進行比較,得到相似性得分,并據(jù)此算出序列形成卷曲螺旋的概率。TMpred:預測蛋白質的跨膜區(qū)段和在膜上的取向,它根據(jù)來自SWISS-PROT的跨膜蛋白數(shù)據(jù)庫Tmbase,利用跨膜結構區(qū)段的數(shù)量、位置以及側翼信息,通過加權打分進行預測。SignalP:預測蛋白質序列中信號肽的剪切位點。COILS的網(wǎng)址是:/software/COILS_form.html。TMpred的網(wǎng)址是:/software/TMPRED_form.html。SignalP的網(wǎng)址是:http://www.cbs.dtu.dk/services/SignalP/。蛋白質的三維結構蛋白質三維結構預測時最復雜和最困難的預測技術。研究發(fā)現(xiàn),序列差異較大的蛋白質序列也可能折疊成類似的三維構象,自然界里的蛋白質結構骨架的多樣性遠少于蛋白質序列的多樣性。由于蛋白質的折疊過程仍然不十分明了,從理論上解決蛋白質折疊的問題還有待進一步的科學發(fā)展,但也有了一些有一定作用的三維結構預測方法。最常見的是“同源模建”和“Threading”方法。前者先在蛋白質結構數(shù)據(jù)庫中尋找未知結構蛋白的同源伙伴,再利用一定計算方法把同源蛋白的結構優(yōu)化構建出預測的結果。后者將序列“穿”入已知的各種蛋白質的折疊子骨架內,計算出未知結構序列折疊成各種已知折疊子的可能性,由此為預測序列分配最合適的折疊子結構。除了“Threading”方法之外,用PSI-BLAST方法也可以把查詢序列分配到合適的蛋白質折疊家族,實際應用中發(fā)現(xiàn)這個方法的效果也不錯。SWISS-MODEL:自動蛋白質同源模建服務器,有兩個工作模式:第一步模式(FirstApproachmode)和優(yōu)化模式(Optimisemode)。程序先把提交的序列在ExPdb晶體圖像數(shù)據(jù)庫中搜索相似性足夠高的同源序列,建立最初的原子模型,再對這個模型進行優(yōu)化產(chǎn)生預測的結構模型。CPHmodels:也是利用神經(jīng)網(wǎng)絡進行同源模建預測蛋白質結構的方法。SWISS-MODEL的網(wǎng)址是:http://www.expasy.ch/swissmod/SWISS-MODEL.html。CPHmodels的網(wǎng)址是:http://www.cbs.dtu.dk/services/CPHmodels/。第五章 分子進化分子進化鐘的發(fā)現(xiàn)與中性理論的提出,極大地推動了進化尤其是分子進化研究,填補了人們對分子進化即微觀進化認識上的空白,推動進化論的研究進入分子水平,并建立了一套依賴于核酸、蛋白質序列信息的理論方法。分子進化研究有助于進一步闡明物種進化的分子基礎,探索基因起源機制,從基因進化的角度研究基因序列與功能的關系。分子進化鐘與中性理論60年代早期“分子進化鐘”的發(fā)現(xiàn)與60年代末期“中性理論”的提出是本世紀進化學的重大事件,是古老的進化學與新生的分子生物學兩者“雜交”的產(chǎn)物。它們的相繼問世極大地推動了進化尤其是分子進化研究,填補了人們對分子進化即微觀進化認識上的空白,并在生物醫(yī)學等領域產(chǎn)生了廣泛影響。隨著不同生物來源的大量蛋白質序列的確定,Zucherkandl等發(fā)現(xiàn):某一蛋白在不同物種間的取代數(shù)與所研究物種間的分歧時間接近正線性關系,進而將分子水平的這種恒速變異稱為“分子鐘”。支持進化鐘存在的證據(jù)來自哺乳動物與其它脊椎動物諸如血清白蛋與轉鐵蛋白等的免疫學(如微量補體固定)定量比較。人們發(fā)現(xiàn)多肽間的免疫距離(如抗原性)與其氨基酸取代百分數(shù)成良好的線性相關,如鳥溶菌酶、哺乳動物RNase、細胞色素C與白蛋白、大腸桿菌色氨酸合成酶等。雖然這種相關性的分子基礎尚不清楚,但這種客觀存在經(jīng)過反復驗證后是不容置疑的。免抗血清由此成為初步估算球形單體蛋白間序列差異的有效工具,但其適用范圍0-30%的氨基酸差異。自從進化鐘假設提出之后,存在許多反駁它的相反事實與異議。這些異議主要針對序列進化的恒速。分子進化鐘的最明顯的例外之一是分子序列證據(jù)與化石證據(jù)在人類起源時間上的差異。60年代中期,許多人類學家認為人類在3000年前與我們最近的親屬--非洲猿分歧。根據(jù)分子鐘假設,分歧3000萬年的物種氨基酸序列差異的應達4-5%、非重復序列DNA差異應約為8%,但實測值分別為0.8%與1.1%。對這種6倍左右的差別有兩種解釋。許多人類學家傾向于懷疑鐘的存在,并認為在高等靈長類中分子進化速率下降。總之,雖然大部分分子進化學家同意序列進化與分歧時間密相關,但進化是以年限還是以代限為刻度則仍有分歧與爭議;而且因為縱多因素的影響,與進化鐘相左的數(shù)據(jù),無論是用氨基酸、核苷酸序列差異、免疫學距離,還是用DNA雜交復性等參數(shù),均不斷有所報道,其論爭預計將繼續(xù)下去。.自從60年代初發(fā)現(xiàn)分子進化鐘--“分子進化速率在不同種系中恒定”以來,人們又陸續(xù)發(fā)現(xiàn)蛋白質中氨基酸的置換是隨機而非模式性的;DNA在哺乳動物種系的總變異速率遠遠高于形態(tài)上的變異速率并遠遠超出人們的預期的大于0.5核苷酸/基因組/年;蛋白質電泳表明物種內存在大量的變異即廣泛的種內多態(tài)性,且這些多面對上述問題,日本群體遺傳學家木村資生(MotooKimura)提出:(1)進化過程中的核苷酸置換其絕大部分是中性或近似中性的突變隨機固定的結果而不是正向達爾文選擇的結果:(2)許多蛋白質多態(tài)性必須在選擇上為中性或近中性,并在群體中由突變引入與隨機滅絕間兩者的平衡維持。上述論著問世遭遇到經(jīng)典進化學家的強烈批判。他們認為新的分子生物學數(shù)據(jù)完全可以用新達爾文主義的原理來解釋。直至現(xiàn)在,選擇論者與中性論者的議爭仍在繼續(xù)。這兩大學派的本質區(qū)別可通過它們各自對突變基因如何在物種內置換老基因這一進化過程的不同解釋來洞悉。每一置換剛出現(xiàn)時在群體內均為稀有的突變等位基因,隨后擴散至個群體并被固定,即頻率達100%。選擇論者認為:一個突變的等位基因在物種內擴散,就必需具有某些選擇上的優(yōu)勢,如在選擇上為中性,就必需與一選擇上具優(yōu)勢的基因緊密連鎖,通過“搭車”而達到較高頻率。與此相反,中性突變體在選擇上等同于已存在的等位基因,其命運將取決于機會-隨機,其頻率存(如百萬年)一直延(它近似等于每)。中性理論并非認為中性基自Zuckerkandl與Pauling的早期工作以來,已經(jīng)知道在蛋白質進化中結構和化學性質上相似的氨基酸間的替換比不相似間的替換更為頻繁。他們認為,這種“保守的”的替換看來只造成分子功能的微小改變,因而更容易“被自然選擇接受”。同時他們指出,關于氨基酸殘基的最重要性質是什么,“化學家和生物學家間顯然沒有同樣的見解”。從中性學說的立場看,保守替換的性質,只需注意到兩種氨基酸間的差異越小,它們等于選擇等價而不是突變有害的概率就越大,就很容易加以解釋。因此,選擇上呈中性的替換在得類似的氨基酸間則概率越高,而這類氨基酸的進化替換由于隨機遺傳漂變則出現(xiàn)得更為頻繁。在闡明分子進化中突變型替換的保守性的同時,有越來越多的證據(jù)表明,功能上較不重要的分子或某一分子較不重要的部分,其進化(以突變型替換表示)比那些較重要的要快些。中性論和選擇論間的差別,在它們對快速進化的分子(如血纖蛋白肽)或分子的某部分(如胰島素原的C肽)進行解釋時,可以最清楚地看出,按中性學說解釋,它們在功能上不重要,因而大多數(shù)突變是中性的,突變通過隨機漂變而迅速積累。另一方,選擇論的解釋是,快速進化的分子或分子的某部分或許有某些尚不知道的功能,并且通過積累許多由正達爾文選擇產(chǎn)生的較微有利的突變,而經(jīng)歷了迅速的適應性方面的改善。這兩種解釋那一種更為恰當還有待積累更多數(shù)據(jù)以后才能判定。為了加深我們對分子進化機制的理解,很有必要研究突變型替換的模式與分子的三級結構和功能的相互關系。綜上,中性學說(或者更確切地說是中性突變-隨機漂變假說)是分子生物學與群體遺傳學交融的產(chǎn)物。它不象傳統(tǒng)的綜合理論(或新達爾文派的觀點),它明確主張:進化中大多數(shù)突變型的置換,不是由于正達爾文選擇,而是由選擇上呈中性或近中性的突變型的隨機固定所致。它還斷言,分子水平上大多數(shù)種內遺傳多態(tài)性,象以蛋白質多態(tài)性形式展現(xiàn)出來的那樣,是選擇上呈中性或近中性的,并靠著突變輸入和等位基因的隨機清除或固定這兩者之間的平衡而在物種中維持。應該說,這一理論對于人們所認識的分子進化眾多現(xiàn)象與規(guī)律的闡釋比新達爾文更為科學,且提出的多項預測被隨后的實驗研究所證實。問題是,它作為一種更基本層次-分子水平的進化理論未能給更高層次的進化提供理性闡釋與描寫。中性論者過多地注目于與功能無關的分子進化,而忽視了與功能相關的分子進化現(xiàn)象與規(guī)律的探索,這恐怕是中性理論之所以能問世,但同時又先天性地帶上無視宏觀進化,對宏觀進化束手無策這一天然缺陷的癥結所在。進化樹分子鐘的發(fā)現(xiàn)對于進化研究具有十分重要的意義。它不僅能用于粗略估計不同類群生物間的進化時間,亦可用于構建進化樹。實際上,分子鐘發(fā)現(xiàn)不久,蛋白質序列分析即被廣泛用于生物的長時進化研究。根據(jù)蛋白質的序列或結構差異關系可構建分子進化樹(evolutionarytree)或種系發(fā)生樹(phylogenetictree)。進化樹給出分支層次或拓撲圖形,它是產(chǎn)生新的基因復制或享有共同祖先的生物體的歧異點的一種反映,樹枝的長度反映當這些事件發(fā)生時就存在的蛋白質與現(xiàn)在的蛋白質之間的進化距離。根據(jù)進化樹不僅可以研究從單細胞有機體到多細胞有機體的生物進化過程,而且可以粗略估計現(xiàn)存的各類種屬生物的分歧時間。通過蛋白質的分子進化樹分析,為從分子水平研究物種進化提供了新的手段,可以比較精確的確定某物種的進化地位。對于物種分類問題,蛋白質的分子進化樹亦可作為一個重要的依據(jù)。構建進化樹的方法包括兩種:一類是序列類似性比較,主要是基于氨基酸相對突變率矩陣(常用PAM250)計算不同序列差異性積分作為它們的差異性量度(序列進化樹);另一類在難以通過序列比較構建序列進化樹的情況下,通過蛋白質結構比較包括剛體結構疊合和多結構特征比較等方法建立結構進化樹。序列進化樹構建序列進化樹的主要步驟是比對,建立取代模型,建立進化樹以及進化樹評估。建立數(shù)據(jù)模型(比對)建立一個比對模型的基本步驟包括:選擇合適的比對程序;然后從比對結果中提取系統(tǒng)發(fā)育的數(shù)據(jù)集,至于如何提取有效數(shù)據(jù),取決于所選擇的建樹程序如何處理容易引起歧義的比對區(qū)域和插入/刪除序列(即所謂的indel狀態(tài)或者空位狀態(tài))。一個典型的比對過程包括:首先應用CLUSTALW程序,然后進行手工比對,最后提交給一個建樹程序。這個過程有如下特征選項:(1)部分依賴于計算機(也就是說,需要手工調整);(2)需要一個先驗的系統(tǒng)發(fā)育標準(即需要一個前導樹);(3)使用先驗評估方法和動態(tài)評估方法(推薦)對比對參數(shù)進行評估;(4)對基本結構(序列)進行比對(對于親水氨基酸,推薦引入部分二級結構特征);(5)應用非統(tǒng)計數(shù)學優(yōu)化。這些特征選項的取舍依賴于系統(tǒng)發(fā)育分析方法。決定取代模型取代模型既影響比對,也影響建樹;因此需要采用遞歸方法。對于核酸數(shù)據(jù)而言,可以通過取代模型中的兩個要素進行計算機評估,但是對于氨基酸和密碼子數(shù)據(jù)而言,沒有什么評估方案。其中一個要素是堿基之間相互取代的模型;另外一個要素是序列中不同位點的所有取代的相對速率。還沒有一種簡單的計算機程序可以對較復雜的變量(比如,位點特異性或者系統(tǒng)特異性取代模型)進行評估,同樣,現(xiàn)有的建樹軟件也不可能理解這些復雜變量。建樹方法三種主要的建樹方法分別是距離、最大節(jié)約(maximumparsimony,MP)和最大似然(maximumlikelihood,ML)。最大似然方法考察數(shù)據(jù)組中序列的多重比對結果,優(yōu)化出擁有一定拓撲結構和樹枝長度的進化樹,這個進化樹能夠以最大的概率導致考察的多重比對結果。距離樹考察數(shù)據(jù)組中所有序列的兩兩比對結果,通過序列兩兩之間的差異決定進化樹的拓撲結構和樹枝長度。最大節(jié)約方法考察數(shù)據(jù)組中序列的多重比對結果,優(yōu)化出的進化樹能夠利用最少的離散步驟去解釋多重比對中的堿基差異。距離方陣方法簡單的計算兩個序列的差異數(shù)量。這個數(shù)量被看作進化距離,而其準確大小依賴于進化模型的選擇。然后運行一個聚類算法,從最相似(也就是說,兩者之間的距離最短)的序列開始,通過距離值方陣計算出實際的進化樹,或者通過將總的樹枝長度最小化而優(yōu)化出進化樹。用最大節(jié)約方法搜索進化樹的原理是要求用最小的改變來解釋所要研究的分類群之間的觀察到的差異。最大似然方法評估所選定的進化模型能夠產(chǎn)生實際觀察到的數(shù)據(jù)的可能性。進化模型可能只是簡單地假定所有核苷酸(或者氨基酸)之間相互轉變的概率一樣。程序會把所有可能的核苷酸輪流置于進化樹的內部節(jié)點上,并且計算每一個這樣的序列產(chǎn)生實際數(shù)據(jù)的可能性(如果兩個姐妹分類群都有核苷酸“A”,那么,如果假定原先的核苷酸是“C”,得到現(xiàn)在的“A”的可能性比起假定原先就是“A”的可能性要小得多)。所有可能的再現(xiàn)(不僅僅是比較可能的再現(xiàn))的幾率被加總,產(chǎn)生一個特定位點的似然值,然后這個數(shù)據(jù)集的所有比對位點的似然值的加和就是整個進化樹的似然值。進化樹搜索單一的進化樹的數(shù)量會隨著分類群數(shù)量的增長而呈指數(shù)增長,從而變?yōu)橐粋€天文數(shù)字。由于計算能力的限制,現(xiàn)在一般只允許對很小一部分的可能的進化樹進行搜索。具體的數(shù)目主要依賴于分類群的數(shù)量、優(yōu)化標準、參數(shù)設定、數(shù)據(jù)結構、計算機硬件以及計算機軟件。有兩種搜索方法保證可以找到最優(yōu)化的進化樹:窮舉法和樹枝�跳躍法(BB)。對于一個很大的數(shù)據(jù)集,這兩種方法都很不實用。對分類群數(shù)量的限制主要取決于數(shù)據(jù)結構和計算機速度,但是對于超過20個分類群的數(shù)據(jù)集,BB方法很少會得到應用。窮舉法要根據(jù)優(yōu)化標準,對每一個可能的進化樹進行評估。BB方法提供一個邏輯方法,以確定那些進化樹值得評估,而另一些進化樹可被簡單屏蔽。因此BB方法通常要比窮舉法快得多。絕大多數(shù)分析方法都使用“啟發(fā)式”的搜索。啟發(fā)式現(xiàn)搜索出相近的次優(yōu)化的進化樹家族(“島嶼”),然后從中得到優(yōu)化解(“山頂”)。不同的算法用不同程度的精確性搜索這些島嶼和山頂。最徹底也是最慢的程序(TBR,treebisection-reconnection,進化樹對分重接)先把進化樹在每一個內部樹枝處劈開,然后以任意方式將劈開的碎片重新組合起來。最快的算法只是檢查一下相鄰終端的不太重要的重新組合,因此傾向于找到最近的島嶼的山頂。降低搜索代價的最好方法是對數(shù)據(jù)集進行剪除。影響優(yōu)化搜索策略選擇的因素(數(shù)據(jù)量,數(shù)據(jù)結構,時間量,硬件,分析目的)太復雜,無法推薦一個簡單可行的處方。因此進行搜索的用戶必須對數(shù)據(jù)非常熟悉且有明確的目標,了解各種各樣的搜索程序及自己硬件設備和軟件的能力。除上述當前應用最廣的方法外,還有大量的建立和搜索進化樹的其它方法。這些方法包括Wagner距離方法和親近方法(距離轉化方法);Lake的不變式方法(一個基于特征符的方法,它選擇的拓撲結構包含一個意義重大的正數(shù)以支持顛換);Hadamard結合方法(一個精細的代數(shù)方陣方法,對距離數(shù)據(jù)或者觀察到的特征符進行修正);裂解方法(這個方法決定在數(shù)據(jù)中應該支持哪一個基于距離的可選的拓撲結構);四重奏迷惑(Quartetpuzzling)方法可以為ML建樹方法所應用,這個算法相對而言是個較快的進化樹搜索算法。確定樹根上述的建樹方法所產(chǎn)生的都是無根樹(進化樹沒有進化的極性)。為了評估進化假說,通常必須要確定進化樹的樹根。確定系統(tǒng)發(fā)育進化樹的樹根并不簡單問題。一種確定樹根的好方法就是分析時加入一個復制的基因。如果來自絕大多數(shù)物種或者所有物種的所有的平行基因在分析時都被包含進去,那么從邏輯上我們就可以把進化樹的樹根定位于平行基因進化樹的交匯處,當然要假定在所有進化樹中都沒有長樹枝問題。評估進化樹和數(shù)據(jù)現(xiàn)在已經(jīng)有一些程序可以用來評估數(shù)據(jù)中的系統(tǒng)發(fā)育信號和進化樹的健壯性。對于前者,最流行的方法是用數(shù)據(jù)信號和隨機數(shù)據(jù)作對比實驗(偏斜和排列實驗);對于后者,可以對觀察到的數(shù)據(jù)重新取樣,進行進化樹的支持實驗(非參數(shù)自引導和對折方法)。似然比例實驗可以對取代模型和進化樹都進行評估。結構進化樹隨著X-ray、NMR等實驗技術的的進步,蛋白質結構數(shù)據(jù)的數(shù)量日益增多,結構精度也越來越高,使得結構比較更為可行。目前已經(jīng)發(fā)現(xiàn)許多蛋白的一級序列差異很大,難以通過序列比對進行分子進化的研究,但它們的空間拓撲結構仍然很相似,可以進行結構疊合比較、分析它們之間的進化關系,這表明結構比較可以比序列比較獲得更多更精確的結構信息。研究發(fā)現(xiàn)蛋白質結構比序列的保守性更強,進化過程中蛋白質序列可能發(fā)生變化,但它的折疊模式更為保守,即使是70%的序列發(fā)生變化,它的折疊模式也不會有很大的改變[1]。蛋白質分子的結構比較與蛋白質一級序列比較法相比,具有更高的優(yōu)越性。目前有關蛋白質結構比較的研究方法很多,主要有剛體結構疊合比較、多特征的結構比較等方法。前者用比較后確定的拓撲等價位點的個數(shù)或等價位點Cα原子距離的均方根值作為不同結構間差異性的量度(結構進化樹);后者用蛋白質結構的多項特征如殘基的物理特性、殘基的空間傾向性、主側鏈的方向、主鏈的二面角、二級結構類型和主側鏈的可接近性等綜合指標作為結構的差異性量度,有時稱此類方法構建的結構進化樹為“類結構”進化樹

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論