分子生物學(xué)檢驗:第7章 生物信息學(xué)_第1頁
分子生物學(xué)檢驗:第7章 生物信息學(xué)_第2頁
分子生物學(xué)檢驗:第7章 生物信息學(xué)_第3頁
分子生物學(xué)檢驗:第7章 生物信息學(xué)_第4頁
分子生物學(xué)檢驗:第7章 生物信息學(xué)_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、生物信息學(xué)技術(shù) Technology of Bioinformatics概要數(shù)據(jù)庫及其查詢序列比對引物設(shè)計預(yù)測啟動子和轉(zhuǎn)錄因子預(yù)測開放閱讀框蛋白質(zhì)數(shù)據(jù)分析生物信息學(xué)是一門綜合運(yùn)用生物學(xué)、計算機(jī)科學(xué)和數(shù)學(xué)等多方面知識與方法,獲取、管理、分析、解釋和應(yīng)用生物信息的學(xué)科。1. 什么是生物信息學(xué)生物信息(biological imformation)生物信息2. 生物信息學(xué)的發(fā)展史20世紀(jì)60年代 最早的蛋白質(zhì)數(shù)據(jù)庫Margaret Dayhoff“蛋白質(zhì)信息資源”(Protein Information Resource, PIR)R. DulbeccoA turning point in canc

2、er research: sequencing the human genome Science 1986.Mar 7;231(4742): 1055-6 “要徹底闡明癌癥的發(fā)生、演進(jìn)、侵襲和轉(zhuǎn)移的機(jī)制, 必須對人體細(xì)胞的基因組進(jìn)行全測序.”1990年10月, 美國政府正式啟動一項耗資30億美元的15年計劃-人類基因組計劃 (Human Genome Project, HGP). 20世紀(jì)80年代 人類基因組計劃“今天,我們知道了上帝用以創(chuàng)造生命的語言。”堆積如山的數(shù)據(jù)“對于上帝帶來的這份神圣禮物中所展現(xiàn)的復(fù)雜、精致和奇妙,我們懷有更多的敬畏之情?!?. 生物學(xué)數(shù)據(jù)庫1.序列數(shù)據(jù)庫2.結(jié)構(gòu)數(shù)據(jù)

3、庫3.文獻(xiàn)數(shù)據(jù)庫1.一級數(shù)據(jù)庫2.二級數(shù)據(jù)庫核酸序列數(shù)據(jù)庫GenBankEMBLDDBJ 蛋白質(zhì)序列數(shù)據(jù)庫PIRSWISS-PROT蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB重要的一級數(shù)據(jù)庫國際核酸序列數(shù)據(jù)庫聯(lián)合中心 (International Nucleotide Sequence Database Collaboration) GenBankLos Alamos National Laboratory (LANL) /Los Alamos Sequence Database/ Walter Goad(1979) GenBank(1982)美國國家生物技術(shù)信息中心(National Center for Bi

4、otechnology Information)Walter Goad美國國家醫(yī)學(xué)圖書館(National Library Medicine)美國國立衛(wèi)生研究院(National Institutes of Health)年份堿基對序列19826803386061983227402924271984336876541751985520442057001986961537199781987155147761458419882380000020579198934762585287911990491792853953319917194742655627199210100848678608199315

5、7152442143492199421710246221527319953849394855556941996651972984102121119971160300687176584719982008761784283789719996841163011486457020001110106628810106023200115849921438149763102002285079901662231888320033655336848530968418200444575745176406043192013150141354858 162886727子數(shù)據(jù)庫名稱收錄內(nèi)容分類數(shù)據(jù)庫BCT細(xì)菌序列數(shù)據(jù)庫

6、INV無脊椎動物序列數(shù)據(jù)庫MAM其它哺乳動物序列數(shù)據(jù)庫PHG噬菌體序列數(shù)據(jù)庫PLN植物、真菌、藻類序列數(shù)據(jù)庫PRI人類、靈長類動物序列數(shù)據(jù)庫RNA結(jié)構(gòu)RNA序列數(shù)據(jù)庫ROD嚙齒類動物序列數(shù)據(jù)庫SYN人工合成序列數(shù)據(jù)庫VRL病毒序列數(shù)據(jù)庫VRT其它脊椎動物序列數(shù)據(jù)庫UNA未分類機(jī)未注明來源的序列數(shù)據(jù)庫功能數(shù)據(jù)庫CON部分染色體序列的信息EST表達(dá)序列標(biāo)簽序列數(shù)據(jù)庫GSS基因組普查序列數(shù)據(jù)庫HTG高通量基因組序列Patent專利序列STS序列示蹤位點(diǎn)序列數(shù)據(jù)庫GenBank的子數(shù)據(jù)庫構(gòu)成GenBank中的一些比較重要的子庫dbGSS(基因組測序序列)dbEST(表達(dá)序列標(biāo)簽)dbSTS(基因組測序

7、序列序列標(biāo)簽位點(diǎn))unigene(基因組測序序列)GenBank flatfileLocus nameSequence lengthMolecular typeGenBank divisionGenBank flatfileModification Datecoding sequence/collab/FT/The DDBJ/EMBL/GenBank Feature Table: Definition /db_xref=交叉引用其他數(shù)據(jù)庫的信息 Medline 美國國立醫(yī)學(xué)圖書館(NLM)6. 文獻(xiàn)檢索目前規(guī)模最大、權(quán)威性最高的文獻(xiàn)數(shù)據(jù)庫收錄了自1966年至今來自70多個國家和地區(qū)共5千多種生

8、物醫(yī)學(xué)期刊,超過1100萬篇參考文獻(xiàn)每一篇文獻(xiàn)都提供了詳盡的出處及相關(guān)文章的連接,部分文獻(xiàn)提供免費(fèi)的全文內(nèi)容涉及醫(yī)學(xué)、動物學(xué)、微生物、食品等多個領(lǐng)域PubMed: 提供MEDLINE檢索服務(wù)的服務(wù)器7. 集成檢索Entrez系統(tǒng) Entrez所包含的部分?jǐn)?shù)據(jù)庫PubMed生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫Nucleotide核酸序列數(shù)據(jù)庫Protein蛋白質(zhì)序列數(shù)據(jù)庫Structure結(jié)構(gòu)數(shù)據(jù)庫Genome基因組數(shù)據(jù)庫Popset種群、種系發(fā)生或突變序列數(shù)據(jù)庫OMIM人類孟德爾遺傳數(shù)據(jù)庫Taxonomy物種分類學(xué)數(shù)據(jù)庫ProbeSet基因表達(dá)和排序數(shù)據(jù)庫3D Domains分子三維結(jié)構(gòu)數(shù)據(jù)庫UniSTS標(biāo)簽和

9、作圖數(shù)據(jù)庫SNP單核苷酸多態(tài)性數(shù)據(jù)庫 在生物信息學(xué)研究中, 對比是最常用和最經(jīng)典的研究手段. 序列對比(Alignment)又叫序列聯(lián)配, 其意義在于從核酸、氨基酸的層次分析序列的相似性, 推測其結(jié)構(gòu)功能及進(jìn)化上的聯(lián)系. 序列對比的理論基礎(chǔ)是進(jìn)化學(xué)說.8. 序列對比兩個序列之間具有足夠的相似性兩個序列具有同源關(guān)系兩個序列具有相似的結(jié)構(gòu)與功能 通過已知的相似序列預(yù)測新序列的結(jié)構(gòu)和功能結(jié)構(gòu)和功能未知基因組測序新的序列基因復(fù)制的進(jìn)化機(jī)制同時擁有多份基因拷貝沒有功能的假基因不同功能的同源基因新的序列結(jié)構(gòu)和功能已知相似序列序列對比序列數(shù)據(jù)庫推導(dǎo)并不一定正確 序列對比是從已知推導(dǎo)未知的一個十分有用的方法.

10、 但不能僅僅通過計算分析來斷定結(jié)論是否正確. 所得結(jié)論必須通過實驗驗證. -晶狀體(脊椎動物眼睛里晶狀體基質(zhì)的組成部分)苯醌氧化還原酶(大腸桿菌的代謝酶) 序列對比 蛋白質(zhì)序列比核酸序列具有更大的保守性,能揭示更疏遠(yuǎn)的進(jìn)化關(guān)系.一般認(rèn)為核酸序列之間的相似性超過30%,它們就很可能是同源的。 如何進(jìn)行序列對比DNA(蛋白質(zhì))序列由4(20)種堿基組成對相似性進(jìn)行量化、評分任意兩條DNA序列間必然存在一定的相似性真正擁有進(jìn)化意義的相似性偶然的相似性 序列比對的基本算法 BLASTAATTGATTGCGCATTTAAAGGGAACTGACGCATTTAAAGGGAACTGA-CGCATTTAAAGG

11、G尋找序列的最佳聯(lián)配動態(tài)規(guī)劃算法局部(Smith-Waterman)全局(Needleman-Wunsch)Basic Local Alignment Search Tool (基本局部相似性對比搜索工具) 聯(lián)配分值與空位罰分AATTGATTGCGCATTTAAAGGGAACTGA-CGCATTTAAAGGG空位罰分仿射法按比例罰分常數(shù)罰分ABLA+BL空位開放罰分空位擴(kuò)展罰分匹配:+1 不匹配:0 插入空位:-1ACGTA1000C0100G0010T0001 相同聯(lián)配殘基比例AATTGATTGCGCATTTAAAGGGAACTGA-CGCATTTAAAGGG(16/22)x100=73%

12、排除了聯(lián)配序列的長度影響,給不同長度的聯(lián)配提供了可比性。 在長的聯(lián)配結(jié)果中找到的高比例一致性,才可能反應(yīng)真正的生物學(xué)或進(jìn)化關(guān)系。 蛋白質(zhì)序列的比對 氨基酸物理化學(xué)性質(zhì)間的關(guān)系 氨基酸序列的替代記分矩陣PAM250替代記分矩陣 序列比對的基本算法 BLASTAATTGATTGCGCATTTAAAGGGAACTGACGCATTTAAAGGGAACTGA-CGCATTTAAAGGG尋找序列的最佳聯(lián)配動態(tài)規(guī)劃算法局部(Smith-Waterman)全局(Needleman-Wunsch)Basic Local Alignment Search Tool (基本局部相似性對比搜索工具)匹配:+1; 不匹

13、配:-0.3;插入空位:-1.3;smith-Waterman算法的快速、啟發(fā)式版本:BLASTBasic Local Alignment Search Tool (基本局部相似性對比搜索工具)程序數(shù)據(jù)庫查詢搜索方法nucleotide blast核苷酸核苷酸將待查詢的核酸序列及其互補(bǔ)序列與核酸序列數(shù)據(jù)庫中的序列逐一進(jìn)行對比protein blast蛋白質(zhì)蛋白質(zhì)用于鑒定蛋白質(zhì)的氨基酸序列和在數(shù)據(jù)庫中尋找相似序列blastx蛋白質(zhì)核苷酸(翻譯)把需要查詢的核苷酸序列翻譯成氨基酸序列,再在蛋白質(zhì)數(shù)據(jù)庫中查找相似序列tblastn核苷酸(翻譯)蛋白質(zhì)將核苷酸序列按6種讀碼框即時翻譯后再與待檢蛋白質(zhì)序

14、列進(jìn)行比對tblastx核苷酸(翻譯)核苷酸(翻譯)將待檢核酸序列與數(shù)據(jù)庫中的核酸序列都按6種讀碼框翻譯成氨基酸序列后再進(jìn)行比較smith-Waterman算法的快速、啟發(fā)式版本:BLASTBasic Local Alignment Search Tool (基本局部相似性對比搜索工具)Megablast:檢索敏感度較低。尋找相似性較高的核酸序列。適用于查找與查詢序列完全相同的序列。blastn:檢索敏感度較megablast高??捎糜趯ふ移渌锓N中與查詢序列相似或相關(guān)的序列。Discontiguouse-megablast:檢索敏感度較blastn高。可用于尋找相似度更低、親緣關(guān)系較遠(yuǎn)的序列

15、。Nucleotide BLAST 的三種計算方式: 核酸序列與核酸序列間的對比只適合于尋找相似性較高的匹配序列,而不適合于遠(yuǎn)緣關(guān)系序列的檢索。blastp:最簡單的一種蛋白序列與蛋白序列間的對比算法。目的在于尋找不同蛋白序列間的相似區(qū)域。PSI-blast: 通過尋找蛋白家族保守序列來提高查詢敏感性的對比方法。對查詢數(shù)據(jù)庫進(jìn)行多輪循環(huán)檢索,以每一輪結(jié)構(gòu)中相似性最高的序列來重新構(gòu)建位點(diǎn)特異性打分矩陣(PSSM),以此矩陣進(jìn)行下一輪檢索。是在眾多blast 程序中敏感性最高的一種,對于發(fā)現(xiàn)遠(yuǎn)緣物種的相似蛋白或蛋白家族新成員非常有效。PHI-blast:針對查詢序列中包含某種特殊氨基酸排列模式的序

16、列對比方法。DELTA-blast:與PSI-blast類似,敏感度較高的蛋白質(zhì)序列對比方法。首輪查詢的是蛋白質(zhì)保守序列數(shù)據(jù)庫(CDD)。Protein BLAST 的四種計算方式:輸入需對比序列要對比的序列范圍選擇要對比的蛋白質(zhì)數(shù)據(jù)庫選擇要對比的物種最大檢索結(jié)果輸出量當(dāng)查詢序列較短時,程序會自動調(diào)整查詢系數(shù)E值的最高值限定替代計分矩陣空位罰分:空位開放罰分(A),空位擴(kuò)展罰分(B)BLAST resultSummaryGraphical overviewDescriptions tableAlignment sectionSummaryGraphical overviewDescriptions table相似性分?jǐn)?shù)值(score)和比特分?jǐn)?shù)堿基/氨基酸配對得分及空位罰分的總和,匹配序列越長、相同堿基越多,分?jǐn)?shù)越高。期望值(expect)表示目標(biāo)片段與數(shù)據(jù)庫中片段隨機(jī)配對可能性的數(shù)值。由于概率而造成的相似性幾率。Alignment section多序列比對Feng和Doolittle的漸進(jìn)比對方法隱馬模型Feng和Doolittle的漸進(jìn)比對方法Feng和Doolittle的漸進(jìn)比對方法引物設(shè)計Primer3web version 4.0.0 Pick primers from a DNA sequence. 啟動子預(yù)測FirstEF(Fir

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論