![數(shù)據(jù)庫的搜索_第1頁](http://file4.renrendoc.com/view/2fb521f79e70f574b9fee0bfc248efe8/2fb521f79e70f574b9fee0bfc248efe81.gif)
![數(shù)據(jù)庫的搜索_第2頁](http://file4.renrendoc.com/view/2fb521f79e70f574b9fee0bfc248efe8/2fb521f79e70f574b9fee0bfc248efe82.gif)
![數(shù)據(jù)庫的搜索_第3頁](http://file4.renrendoc.com/view/2fb521f79e70f574b9fee0bfc248efe8/2fb521f79e70f574b9fee0bfc248efe83.gif)
![數(shù)據(jù)庫的搜索_第4頁](http://file4.renrendoc.com/view/2fb521f79e70f574b9fee0bfc248efe8/2fb521f79e70f574b9fee0bfc248efe84.gif)
![數(shù)據(jù)庫的搜索_第5頁](http://file4.renrendoc.com/view/2fb521f79e70f574b9fee0bfc248efe8/2fb521f79e70f574b9fee0bfc248efe85.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)庫的搜索第1頁/共125頁生物序列的同源性同源性(homology):指從一些數(shù)據(jù)中推斷出的兩個(gè)基因或蛋白質(zhì)序列具而共同祖先的結(jié)論,屬于質(zhì)的判斷。就是說A和B的關(guān)系上,只有是同源序列,或者非同源序列兩種關(guān)系。而說A和B的同源性為80%都是不科學(xué)的。第2頁/共125頁序列的相似性和序列的同源性有一定的關(guān)系,一般來說序列間的相似性越高的話,它們是同源序列的可能性就更高,所以經(jīng)??梢酝ㄟ^序列的相似性來推測序列是否同源。正因?yàn)榇嬖谶@樣的關(guān)系,很多時(shí)候?qū)π蛄械南嗨菩院屯葱跃蜎]有做很明顯的區(qū)分,造成經(jīng)常等價(jià)混用兩個(gè)名詞。所以有出現(xiàn)A序列和B序列的同源性為80%一說。相似性和同源性關(guān)系第3頁/共125頁序列相似性比較和序列同源性分析序列相似性比較:就是將待研究序列與DNA或蛋白質(zhì)序列庫進(jìn)行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么。需要使用兩兩序列比較算法。常用的程序包有BLAST、FASTA等;序列同源性分析:是將待研究序列加入到一組與之同源,但來自不同物種的序列中進(jìn)行多序列同時(shí)比較,以確定該序列與其它序列間的同源性大小。這是理論分析方法中最關(guān)鍵的一步。完成這一工作必須使用多序列比較算法。常用的程序包有CLUSTAL等;第4頁/共125頁序列對位排列(sequencealignment)將兩條或多條序列對位排列,突出相似的結(jié)構(gòu)區(qū)域序列1序列2
用核苷酸或蛋白質(zhì)序列進(jìn)行數(shù)據(jù)庫檢索
(Sequence-baseddatabasesearching)第5頁/共125頁兩條DNA序列對位排列分析第6頁/共125頁兩條蛋白質(zhì)序列對位排列分析第7頁/共125頁分析功能分析物種進(jìn)化檢測突變、插入或缺失序列延長序列定位基因表達(dá)譜分析用途第8頁/共125頁序列對位排列分析的種類序列對庫對位排列分析從數(shù)據(jù)庫中尋找同源序列主要涉及核苷酸數(shù)據(jù)庫和蛋白質(zhì)數(shù)據(jù)庫兩序列對位排列分析多序列對位排列分析最流行的序列數(shù)據(jù)庫快速搜索程序BLASTFastA第9頁/共125頁何為BLAST?——What為何BLAST?——Why何處BLAST?——Where如何BLAST?——How何時(shí)BLAST?——WhenBLAST第10頁/共125頁何為BLAST?原文:BasicLocalAlignmentSearchTool直譯:基本局部排比搜索工具意譯:基于局部序列排比的常用數(shù)據(jù)庫搜索工具含義:蛋白質(zhì)和核酸序列數(shù)據(jù)庫搜索軟件系統(tǒng)及相關(guān)數(shù)據(jù)庫用法:以一個(gè)或幾個(gè)蛋白質(zhì)或核酸序列為檢測序列,搜索蛋白質(zhì)或核酸序列數(shù)據(jù)庫,尋找與檢測序列中一個(gè)或多個(gè)片段具有較高相似性的一組序列,第11頁/共125頁為何BLAST??使用方便、功能齊全速度快、結(jié)果可信NCBI精心維護(hù)、持續(xù)開發(fā)配套數(shù)據(jù)庫不斷更新免費(fèi)服務(wù)(NCBI、EBI、TIGR)免費(fèi)下載,本地安裝第12頁/共125頁何處BLASTNCBI-NationalCenterforBiotechnologyInformation(US)EBI-EuropeanBioinfromaticsInstitute(EU)TIGR-TheGenomeInstitute(US)Sanger-SangerInstitute(UK)UK-CropNet-TheUKCropPlantBioinformaticsNetwork(UK)WU-BLAST-WashingtonUniversity(US)第13頁/共125頁第14頁/共125頁第15頁/共125頁第16頁/共125頁第17頁/共125頁BLAST的搜索策略意譯:基于局部序列排比的常用數(shù)據(jù)庫搜索工具用法:以一個(gè)或幾個(gè)蛋白質(zhì)或核酸序列為檢測序列,搜索蛋白質(zhì)或核酸序列數(shù)據(jù)庫,尋找與檢測序列中一個(gè)或多個(gè)片段具有較高相似性的一組序列,復(fù)習(xí):二進(jìn)位制與十進(jìn)位制的轉(zhuǎn)換(101.101)2=1×22+0×21+1×20+1×2-1+0×2-2+1×2-30.第18頁/共125頁第19頁/共125頁第20頁/共125頁第21頁/共125頁第22頁/共125頁第23頁/共125頁第24頁/共125頁第25頁/共125頁第26頁/共125頁第27頁/共125頁第28頁/共125頁第29頁/共125頁第30頁/共125頁第31頁/共125頁第32頁/共125頁第33頁/共125頁BLAST的操作流程——How(1)Choosethesequence(query)(2)SelecttheBLASTprogram(3)Choosethedatabasetosearch(4)ChooseoptionalparametersThenclick“BLAST”第34頁/共125頁第35頁/共125頁第36頁/共125頁NP_006735第37頁/共125頁第38頁/共125頁Step1:Chooseyoursequence三種主要的輸入方式:
剪切然后粘貼DNA或蛋白質(zhì)序列使用FASTA格式的序列簡單地使用索引號碼(如一個(gè)RefSeq或GenBank(GI)的序號)。SequencecanbeinputinFASTAformatorasaccessionnumber第39頁/共125頁ExampleoftheFASTAformatforaBLASTquery一個(gè)FASTA格式的序列以一個(gè)單行的說明開始,接下來是若干個(gè)行的序列數(shù)據(jù)。在一個(gè)BLAST搜索中輸入accessionnumber通常要容易些。BLAST程序可以識別和忽略出現(xiàn)在你的輸入序列字母中間的數(shù)字。第40頁/共125頁Step2:ChoosetheBLASTprogram第41頁/共125頁Step2:ChoosetheBLASTprogramblastn(nucleotideBLAST)blastp(proteinBLAST)tblastn(translatedBLAST)blastx(translatedBLAST)tblastx(translatedBLAST)第42頁/共125頁第43頁/共125頁Step2:ChoosetheBLASTprogramblastn(nucleotideBLAST):將一個(gè)核酸的查詢序列與一個(gè)核酸序列數(shù)據(jù)庫相比較。blastp(proteinBLAST):將一個(gè)氨基酸的查詢序列與一個(gè)蛋白質(zhì)序列數(shù)據(jù)庫相比較。這類搜索有專門與蛋白質(zhì)搜索相關(guān)的可選參數(shù),如對各種PAM和BLOSUM打分矩陣的選擇。tblastn(translatedBLAST):將一個(gè)蛋白質(zhì)查詢序列與一個(gè)以所有閱讀框動態(tài)翻譯成蛋白質(zhì)的核酸序列數(shù)據(jù)庫進(jìn)行比較??梢杂么顺绦騺砼袛嘁粋€(gè)DNA數(shù)據(jù)庫是否編碼所感興趣的查詢蛋白。用RBP查詢是否可以在某個(gè)已測序的DNA數(shù)據(jù)庫中找到匹配項(xiàng)呢?第44頁/共125頁Step2:ChoosetheBLASTprogramblastx(translatedBLAST):將一個(gè)核酸的查詢序列按所有可能的閱讀框翻譯后的序列與一個(gè)蛋白質(zhì)序列數(shù)據(jù)庫進(jìn)行比較。如若有一個(gè)DNA序列,想知道它編碼什么蛋白質(zhì),用此程序進(jìn)行搜索。它會自動將DNA翻譯成6種可能的蛋白質(zhì)。然后此程序就會將翻譯的6個(gè)蛋白質(zhì)序列逐一與蛋白質(zhì)序列數(shù)據(jù)庫中的各個(gè)成員進(jìn)行比較。tblastx(translatedBLAST):將一個(gè)核酸查詢序列的6種框架的翻譯結(jié)果與一個(gè)核酸序列數(shù)據(jù)庫的6種框架翻譯產(chǎn)物進(jìn)行比較。該程序不能使用BLAST網(wǎng)頁上提供的主要的去冗余(nr)數(shù)據(jù)庫,因這一操作很消耗計(jì)算機(jī)資源。第45頁/共125頁ChoosetheBLASTprogramProgram
Input
Database 1blastn
DNA
DNA 1blastp
protein
protein 6blastx
DNA
protein 6tblastn
protein
DNA 36tblastx
DNA
DNA第46頁/共125頁DNApotentiallyencodessixproteins5’CATCAA5’ATCAAC5’TCAACT5’GTGGGT5’TGGGTA5’GGGTAG5’CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC3’3’GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG5’第47頁/共125頁Step3:choosethedatabaseBLAST搜索可使用的數(shù)據(jù)庫會列在每一個(gè)BLAST頁面上,對于蛋白質(zhì)數(shù)據(jù)庫搜索(blastp和blastx),兩個(gè)主要的選擇即nr數(shù)據(jù)庫和SwissProt。nr=non-redundant(mostgeneraldatabase)dbest=databaseofexpressedsequencetagsdbsts=databaseofsequencetagsitesgss=genomicsurveysequenceshtgs=highthroughputgenomicsequence第48頁/共125頁Step3:choosethedatabasenr數(shù)據(jù)庫是合并了若干個(gè)主要的蛋白質(zhì)或DNA數(shù)據(jù)庫得到的。這些數(shù)據(jù)庫中經(jīng)常包含有相同的序列,但nr數(shù)據(jù)庫只收錄其中的一個(gè)序列(即使在nr數(shù)據(jù)庫中出現(xiàn)看上去一樣的序列,實(shí)際上還是具有一些細(xì)節(jié)上的區(qū)別)。nr數(shù)據(jù)庫是在要搜索現(xiàn)有的絕大多數(shù)序列時(shí)典型和常用的數(shù)據(jù)庫。第49頁/共125頁去冗余GenBank編碼序列PDB+SwissProt+PIR+PRF第50頁/共125頁第51頁/共125頁當(dāng)確定了要輸入的序列和要搜索的數(shù)據(jù)庫之后,還有10個(gè)其他的可選參數(shù)要確定。①LimitbyEntrezQuery:任何NCBIBLAST搜索的范圍都可以用在Entrez搜索中使用的任何一種范圍限定詞來限定。Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters第52頁/共125頁Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters第53頁/共125頁Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters第54頁/共125頁②Maxtargetsequences:比對之后顯示的最大的比對序列的數(shù)目。Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters第55頁/共125頁Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters第56頁/共125頁③期望expect:期望值E是得分大于或等于某個(gè)分值S的不同的比對的數(shù)目在隨機(jī)的數(shù)據(jù)庫搜索中發(fā)生的可能性。這個(gè)數(shù)值表示你僅僅因?yàn)殡S機(jī)性造成獲得這一聯(lián)配結(jié)果的可能次數(shù)。對于blastn、blastp、blastxt和blastn期望值的默認(rèn)設(shè)置是10。在這個(gè)E值下,隨機(jī)出現(xiàn)得分等于或高于比對得分S的期望數(shù)為10個(gè)(這里是假設(shè)用與實(shí)際的查詢序列長度相等的隨機(jī)的查詢序列搜索數(shù)據(jù)庫)。當(dāng)將期望選項(xiàng)值調(diào)小時(shí),返回的數(shù)據(jù)庫搜索結(jié)果將變少,匹配被搜索到的概率也會變小。增大E值將返回更多的結(jié)果。Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters第57頁/共125頁Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters第58頁/共125頁Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters④字段長度wordsize:BLAST程序是通過比對未知序列與數(shù)據(jù)庫序列中的短序列來發(fā)現(xiàn)最佳匹配序列的。最初進(jìn)行“掃描”(scanning)就是確定匹配片段。序列的匹配程序由短序列(定義為“word”,即字)的聯(lián)配得分總和來決定。聯(lián)配時(shí),“字”的每個(gè)堿基均被計(jì)分:如果堿基對完全相同(如A與A),得某一正值;如果堿基對不很匹配(W與A或T),則得某一略小的正值;如果兩個(gè)堿基不匹配,則得一負(fù)值。總的合計(jì)得分便決定了序列間的相似程度。第59頁/共125頁對于蛋白質(zhì)搜索,窗口大小可以被設(shè)定為3(默認(rèn)值)或者2。當(dāng)用一個(gè)查詢序列來進(jìn)行數(shù)據(jù)庫搜索時(shí),BLAST算法首先將查詢序列分割成一系列具有特定長度(字段長度)的小的序列段(字段)。對于blastp,更大的字段長度將得到更高的搜索精度。對于任意的字段長度,每個(gè)字段的匹配結(jié)果將被延伸以得到BLAST的輸出結(jié)果。實(shí)際應(yīng)用中對于蛋白質(zhì)搜索很少需要改變字段的長度。第60頁/共125頁對于核酸序列,默認(rèn)的字段長度是11,BLAST的字長缺省值為11,即BLASTN將掃描數(shù)據(jù)庫,直到發(fā)現(xiàn)那些與未知序列的11個(gè)連續(xù)堿基完全匹配的11個(gè)連續(xù)堿基長度片段為止。然后這些片段(即字)被擴(kuò)展。11個(gè)堿基的字長已能有效地排除中等分叉的同源性和幾乎所有隨機(jī)產(chǎn)生的顯著聯(lián)配。它可以被增大(15)或減小(7)。降低字段長度將會使搜索變得更準(zhǔn)確同時(shí)也會變得更慢。第61頁/共125頁Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters第62頁/共125頁⑤
矩陣matrix:對于blastp的蛋白質(zhì)-蛋白質(zhì)搜索有5種氨基酸替代矩陣:PAM30,PAM70,BLOSUM45,BLOSUM62(默認(rèn)值)以及BLOSUM80.一些其他的BLAST服務(wù)器還提供了很多其他的替代矩陣,如PAM250。通常情況下明智的選擇是在一次BLAST搜索中使用幾種不同的打分矩陣。
Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters第63頁/共125頁P(yáng)AM1矩陣:Dayhoff和同事利用可接受點(diǎn)突變的數(shù)據(jù)和每個(gè)氨基酸的發(fā)現(xiàn)頻率產(chǎn)生突變概率矩陣M。矩陣元素Mij表示在一給定進(jìn)化時(shí)期內(nèi)氨基酸j(列)替換成氨基酸i(行)的概率。進(jìn)化時(shí)期為一個(gè)PAM(PAM定義為進(jìn)化趨異的單位,表示兩個(gè)蛋白1%氨基酸發(fā)生變化的時(shí)間)。PAM1矩陣基于緊密相關(guān)蛋白質(zhì)的比對,這些蛋白質(zhì)家族內(nèi)的序列一致程度至少有85%。除PAM1矩陣外的其他PAM矩陣是如何得來的?Dayhoff等用PAM1矩陣乘以自身數(shù)百次,得到其他PAM矩陣。如PAM250矩陣就是PAM1矩陣乘以自身250次產(chǎn)生,是BLAST搜索數(shù)據(jù)庫的常用矩陣之一。Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters第64頁/共125頁Dayhoff’sPAM1mutationprobabilitymatrix原始氨基酸Eachelementofthematrixshowstheprobabilitythatanoriginalaminoacid(top)willbereplacedbyanotheraminoacid(side)替代氨基酸第65頁/共125頁P(yáng)AM250mutationprobabilitymatrixTop:originalaminoacidSide:replacementaminoacid第66頁/共125頁⑤PAM0矩陣:矩陣將成為單位矩陣,因沒有氨基酸發(fā)生變化。PAM∝矩陣:PAM相當(dāng)大(如PAM>2000或矩陣和自己相乘無數(shù)次)。每種氨基酸等概率出現(xiàn),每行的所有值都接近于一個(gè)數(shù)值,這個(gè)數(shù)值就是氨基酸的出現(xiàn)頻率。Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters第67頁/共125頁Dayhoff’sPAM0mutationprobabilitymatrix:therulesforextremelyslowlyevolvingproteinsTop:originalaminoacidSide:replacementaminoacid第68頁/共125頁Dayhoff’sPAM2000mutationprobabilitymatrix:therulesforverydistantlyrelatedproteinsPAMAAlaRArgNAsnDAspCCysQGlnEGluGGlyA8.7%8.7%8.7%8.7%8.7%8.7%8.7%8.7%R4.1%4.1%4.1%4.1%4.1%4.1%4.1%4.1%N4.0%4.0%4.0%4.0%4.0%4.0%4.0%4.0%D4.7%4.7%4.7%4.7%4.7%4.7%4.7%4.7%C3.3%3.3%3.3%3.3%3.3%3.3%3.3%3.3%Q3.8%3.8%3.8%3.8%3.8%3.8%3.8%3.8%E5.0%5.0%5.0%5.0%5.0%5.0%5.0%5.0%G8.9%8.9%8.9%8.9%8.9%8.9%8.9%8.9%Top:originalaminoacidSide:replacementaminoacid第69頁/共125頁Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters第70頁/共125頁Step4a:Selectoptionalsearchparameters第71頁/共125頁第72頁/共125頁Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters第73頁/共125頁⑥Compositionaladjustments:這個(gè)選項(xiàng)是默認(rèn)選擇的,一般來說可改善E值的統(tǒng)計(jì)計(jì)算和提高靈敏度(減少返回的假陽性結(jié)果的數(shù)目)。Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters第74頁/共125頁第75頁/共125頁⑦選擇過濾條件Filter:過濾器將鎖定諸如組成低復(fù)雜(lowcompositionalcomplexity)序列區(qū)(如Alu序列),用一系列N(NNNNNN)替代這些程序。N代表任意堿基(IUB-code)。只有未知待檢序列被過濾替代,而數(shù)據(jù)庫的序列將不被過濾。過濾對絕大多數(shù)序列都是有益的,“Filter”項(xiàng)的缺省選項(xiàng)為ON。例如,多A堿基的尾部和脯氨酸富積的序列,會得到人為的高聯(lián)配得分而誤導(dǎo)分析。這是因?yàn)檫@類序列數(shù)量極大,遍布整個(gè)基因組,直至整個(gè)數(shù)據(jù)庫。Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters第76頁/共125頁⑦選擇過濾條件Filter:過濾選項(xiàng)的調(diào)整對于BLAST搜索的結(jié)果將會產(chǎn)生顯著的影響。當(dāng)使用blastpnr來查詢一個(gè)人類富含脯氨酸的蛋白質(zhì)(NP_036522)時(shí),會得到8個(gè)數(shù)據(jù)庫中的匹配項(xiàng),而其中兩個(gè)具有統(tǒng)計(jì)顯著性。而當(dāng)關(guān)掉過濾選項(xiàng)后,就會得到包含其他一些富含脯氨酸的蛋白質(zhì)在內(nèi)的23個(gè)匹配。一般來講,過濾可以幫助避免那些假的數(shù)據(jù)庫匹配,但在某些情況下一些可信的匹配也可能會被過濾掉。Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters第77頁/共125頁第78頁/共125頁filtering第79頁/共125頁以一種富含脯氨酸的人類唾液蛋白NP_036522作為查詢項(xiàng)使用blasstpnr進(jìn)行搜索的結(jié)果。該蛋白質(zhì)的大部分沒有在數(shù)據(jù)庫中的匹配,這是由于該蛋白的中間區(qū)域被默認(rèn)的過濾功能給過濾掉了第80頁/共125頁關(guān)掉過濾選項(xiàng)后搜索的結(jié)果。這次得到了更多的與在蛋白質(zhì)的全序列范圍內(nèi)相匹配的數(shù)據(jù)庫返回結(jié)果。第一個(gè)比對顯示了該蛋白極度富含脯氨酸的特點(diǎn)第81頁/共125頁NCBIblastnowoffersmaskingaslowercase/colored第82頁/共125頁Entrez!FilterScoringmatrixWordsizeExpectStep4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters第83頁/共125頁BLAST:optionalparametersYoucan...?choosetheorganismtosearch?turnfilteringon/off?changethesubstitutionmatrix?changetheexpect(e)value?changethewordsize?changetheoutputformat第84頁/共125頁Step4b:選擇可選格式參數(shù)optionalformattingparametersBLAST搜索有很多控制輸出格式的參數(shù):
Alignmentview
Descriptions
Alignments第85頁/共125頁Step4b:選擇可選格式參數(shù)optionalformattingparametersBLAST搜索結(jié)果的頂部
頂部提供關(guān)于該搜索的詳細(xì)信息:BLAST搜索的類型、關(guān)于查詢內(nèi)容和所搜索的數(shù)據(jù)庫的描述以及一個(gè)分類連接可以將結(jié)果按照物種進(jìn)行分類。第86頁/共125頁databaseprogramquerytaxonomy結(jié)果網(wǎng)頁第87頁/共125頁taxonomy第88頁/共125頁Step4b:選擇可選格式參數(shù)optionalformattingparametersBLAST搜索結(jié)果的中間部分顯示的是數(shù)據(jù)庫中序列與查詢序列相匹配的項(xiàng)的列表。簡明圖形提供了用不同顏色表示的搜索結(jié)果的概況。圖下面的每一個(gè)條帶表示數(shù)據(jù)庫中的一個(gè)與查詢序列相匹配的蛋白質(zhì)或核酸序列,被標(biāo)以不同顏色表示親緣關(guān)系的遠(yuǎn)近(根據(jù)比對的分),最接近匹配用紅色表示。每條線的長度對應(yīng)于該序列與查詢序列比對上的區(qū)域大小。所有比對用一個(gè)被稱為“描述”的單行小結(jié)列表描述。按照E值增加的順序排列。顯著性最強(qiáng)的匹配將位于頂端。第89頁/共125頁結(jié)果的圖示輸出數(shù)據(jù)庫序列的列表Highscoreslowevalues第90頁/共125頁Step4b:選擇可選格式參數(shù)optionalformattingparametersBLAST搜索結(jié)果的靠下面部分顯示的是一系列的兩兩序列比對可檢查查詢序列(輸入序列)與對象序列(如和查詢序列比對的的特定的數(shù)據(jù)庫匹配)之間的比對情況。
4種衡量的分?jǐn)?shù):比特分?jǐn)?shù)、期望分?jǐn)?shù)、一致性百分比、正性(相似性百分比)第91頁/共125頁第92頁/共125頁Step4b:選擇可選格式參數(shù)optionalformattingparameters可以不用整體地進(jìn)行BLAST搜索而僅通過改變格式選項(xiàng)來提供一些不同的輸出結(jié)果一些選項(xiàng)可以把比對序列顯示成多序列比對的形式,這對于確定一個(gè)蛋白質(zhì)或DNA家族中的保守的或趨異的氨基酸殘基非常有用。第93頁/共125頁第94頁/共125頁BLASTformatoptions第95頁/共125頁BLASTformatoptions第96頁/共125頁第97頁/共125頁第98頁/共125頁thresholdscore=11EVDparametersBLOSUMmatrixEffectivesearchspace=mn=lengthofqueryxdblength10.0istheEvaluegappenaltiescut-offparameters第99頁/共125頁如何評價(jià)搜索結(jié)果的顯著性如何處理過多的結(jié)果如何處理過少的結(jié)果多結(jié)構(gòu)域蛋白HIV-1pol的BLAST檢索BLAST檢索脂質(zhì)運(yùn)載蛋白lipocalins:改變打分矩陣的作用BLAST搜索的一些策略第100頁/共125頁BLAST搜索策略總圖.視黃醇結(jié)合蛋白第101頁/共125頁如何評價(jià)搜索結(jié)果的顯著性同源性是基于由搜索結(jié)果的統(tǒng)計(jì)評估支持的序列相似性推出的。指認(rèn)基因或蛋白質(zhì)之間的相似性的問題不能單靠序列分析解決,還需要使用生物學(xué)上的標(biāo)準(zhǔn)來支持同源性的推導(dǎo)??捎脤τ诘鞍椎慕Y(jié)構(gòu)和功能的評估來補(bǔ)充BLAST的結(jié)果。真正有親緣關(guān)系的蛋白質(zhì)的序列可以有很大的差別,即使是那些有相近三維結(jié)構(gòu)的蛋白質(zhì)。因此,認(rèn)為數(shù)據(jù)庫搜索和蛋白質(zhì)比對可能會得出一定數(shù)量的假陰性匹配。如脂質(zhì)運(yùn)載蛋白家族很多成員如RBP4和氣味分子結(jié)合蛋白OBP只有非常有限的序列一致性,但它們的三維結(jié)構(gòu)關(guān)系非常近,而且它們作為疏水性配體的載體的功能也被認(rèn)為是相同的。BLAST搜索的一些策略第102頁/共125頁SometimesarealmatchhasanEvalue>1第103頁/共125頁SometimesasimilarEvalueoccursforashortexactmatchandlonglessexactmatch第104頁/共125頁決定兩個(gè)蛋白質(zhì)或DNA序列是否同源,可問下面的問題:期望值究竟是不是顯著?兩個(gè)蛋白質(zhì)是不是具有近似的大???實(shí)際上同源蛋白質(zhì)不要求具有相同的大小,兩個(gè)蛋白質(zhì)可能只共享有限的一個(gè)相同的結(jié)構(gòu)域。但是,產(chǎn)生一個(gè)對兩個(gè)蛋白質(zhì)同源的可能性的生物學(xué)上的直覺是非常重要的。比如一個(gè)1000個(gè)氨基酸具有跨膜結(jié)構(gòu)域的蛋白質(zhì)不太可能與RBP蛋白同源,因絕大多數(shù)脂質(zhì)運(yùn)載蛋白長度都近似200aa(20-25kD)。如何評價(jià)搜索結(jié)果的顯著性第105頁/共125頁決定兩個(gè)蛋白質(zhì)或DNA序列是否同源,可以問下面的問題:這兩個(gè)蛋白是否有共同的基序或信號序列?是。孕激素相關(guān)子宮內(nèi)膜蛋白和RBP4蛋白都含有一個(gè)GXW載脂蛋白標(biāo)簽。這兩個(gè)蛋白質(zhì)是不是一個(gè)合理的多序列比對的一部分?這兩個(gè)蛋白質(zhì)是否共有一個(gè)相似的生物學(xué)功能?就像所有的載脂蛋白一樣,這兩個(gè)蛋白都是小的、親水性的含量豐富的分泌分子。這兩個(gè)蛋白質(zhì)是否具有相似的三維結(jié)構(gòu)?雖然載脂蛋白序列多種多樣,它們卻共享一個(gè)顯著的非常保守的結(jié)構(gòu)。這個(gè)結(jié)構(gòu)(一個(gè)杯狀的盂)可使它們將疏水性配體運(yùn)輸通過一個(gè)水環(huán)境區(qū)間。載脂蛋白如何評價(jià)搜索結(jié)果的顯著性第106頁/共125頁決定兩個(gè)蛋白質(zhì)或DNA序列是否同源,可以問下面的問題:如果BLAST搜索得到一個(gè)對另一個(gè)蛋白質(zhì)的邊緣匹配,以這個(gè)具有較遠(yuǎn)親緣關(guān)系的蛋白質(zhì)作為查詢項(xiàng)再進(jìn)行一次新的搜索。如用孕激素相關(guān)子宮內(nèi)膜蛋白進(jìn)行blastpnr搜索可得到一些在RBP4蛋白的搜索中也檢測到的蛋白。這個(gè)發(fā)現(xiàn)增加了認(rèn)為這兩個(gè)蛋白實(shí)際上是一個(gè)蛋白超家族中的同源成員的信心。載脂蛋白如何評價(jià)搜索結(jié)果的顯著性第107頁/共125頁AssessingwhetherproteinsarehomologousRBP4andPAEP:Lowbitscore,Evalue0.49,24%identity(“twilightzone”).Buttheyareindeedhomologous.TryaBLASTsearchwithPAEPasaquery,andfindmanyotherlipocalins.第108頁/共125頁Theuniverseoflipocalins(eachdotisaprotein)retinol-bindingproteinodorant-bindingproteinapolipoproteinD第109頁/共125頁BLASTsearchwithPAEPasaqueryfindsmanyotherlipocalins第110頁/共125頁如何處理過多的結(jié)果在“l(fā)imitEntrezquery”窗口輸入“refseq”,這樣所有返回結(jié)果都帶有一個(gè)refseq號,可去掉冗余的數(shù)據(jù)庫匹配結(jié)果。利用生物體的種類對數(shù)據(jù)庫返回結(jié)果作出限制。利用序列的一部分進(jìn)行搜索。如利用獨(dú)立的結(jié)構(gòu)域序列就可進(jìn)行多結(jié)構(gòu)域蛋白的檢索。調(diào)整打分矩陣使其更恰當(dāng)?shù)伢w現(xiàn)你的query
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 現(xiàn)代交通樞紐的鐵路貨運(yùn)效率優(yōu)化
- 深度解讀如何用云計(jì)算構(gòu)建高效智能制造平臺
- 國慶節(jié)巡航摩旅活動方案
- 小學(xué)趣味運(yùn)動會活動方案策劃
- 2024年春七年級地理下冊 第九章 第二節(jié) 巴西說課稿 (新版)新人教版
- 23 梅蘭芳蓄須說課稿-2024-2025學(xué)年四年級上冊語文統(tǒng)編版001
- 8 千年夢圓在今朝(說課稿)2023-2024學(xué)年部編版語文四年級下冊
- 5 協(xié)商決定班級事務(wù) 說課稿-2024-2025學(xué)年道德與法治五年級上冊統(tǒng)編版
- 2023八年級英語上冊 Module 9 Population Unit 3 Language in use說課稿(新版)外研版
- 《10天然材料和人造材料》說課稿-2023-2024學(xué)年科學(xué)三年級下冊青島版
- SHT+3413-2019+石油化工石油氣管道阻火器選用檢驗(yàn)及驗(yàn)收標(biāo)準(zhǔn)
- 2024年云南省中考數(shù)學(xué)真題試卷及答案解析
- 人教版PEP英語單詞表三年級到六年級
- 新疆烏魯木齊市2024年中考英語模擬試題(含答案)
- (正式版)JBT 14932-2024 機(jī)械式停車設(shè)備 停放客車通-用技術(shù)規(guī)范
- 2024年度-脛腓骨骨折
- 應(yīng)用密碼學(xué)課件
- 礦井通風(fēng)安全培訓(xùn)課件
- 2024年中國國際投資促進(jìn)中心限責(zé)任公司招聘高頻考題難、易錯(cuò)點(diǎn)模擬試題(共500題)附帶答案詳解
- 苯胺合成靛紅工藝
- 質(zhì)量保證發(fā)展史和國外相關(guān)標(biāo)準(zhǔn)簡介
評論
0/150
提交評論