第三章-BLAST原理及方法-課件_第1頁
第三章-BLAST原理及方法-課件_第2頁
第三章-BLAST原理及方法-課件_第3頁
第三章-BLAST原理及方法-課件_第4頁
第三章-BLAST原理及方法-課件_第5頁
已閱讀5頁,還剩87頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第三章BLAST:BasiclocalalignmentsearchtoolBLAST!2020/10/281Outline

SummaryofkeypointsaboutpairwisealignmentIntroductiontoBLAST:practicalguidetodatabasesearchingTheBLASTalgorithmBLASTsearchstrategies2020/10/282精品資料3Pairwisealignment:keypoints

Pairwisealignmentsallowustodescribethepercentidentitytwosequencesshare,aswellasthepercentsimilarityThescoreofapairwisealignmentincludespositivevaluesforexactmatches,andotherscoresformismatchesandgapsPAMandBLOSUMmatricesprovideasetofrulesforassigningscores.PAM10andBLOSUM80areexamplesofmatricesappropriateforthecomparisonofcloselyrelatedsequences.PAM250andBLOSUM30areexamplesofmatricesusedtoscoredistantlyrelatedproteins.Globalandlocalalignmentscanbemade.2020/10/284BLASTBLAST(BasicLocalAlignmentSearchTool)allowsrapidsequencecomparisonofaquerysequenceagainstadatabase.TheBLASTalgorithmisfast,accurate,andweb-accessible.2020/10/285WhyuseBLAST?BLAST是NCBI中用來將一個(gè)蛋白質(zhì)或DNA序列和各種數(shù)據(jù)庫中的其他序列進(jìn)行比對(duì)的主要工具。BLAST搜索是研究一個(gè)蛋白質(zhì)和基因的最基本的方法之一。2020/10/286WhyuseBLAST?BLAST具有非常廣泛的應(yīng)用:

確定特定的蛋白質(zhì)或核酸序列有哪些已知的直系同源或旁系同源序列。除了RBP外,還有哪些其他的脂質(zhì)運(yùn)載蛋白是我們所知道的?當(dāng)一個(gè)新的細(xì)菌的基因組被測序后,幾千種蛋白質(zhì)被確定,其中有多少蛋白質(zhì)是同源的?從這里面測出的基因中有多少是在GenBank中找不到顯著性同源物的?

確定哪些蛋白質(zhì)和基因在特定的物種中出現(xiàn)。植物中是否也存在像RBP這樣的脂質(zhì)運(yùn)載蛋白?魚類中是否有反轉(zhuǎn)錄酶基因(HIV-1pol

基因)?2020/10/287WhyuseBLAST?BLAST具有非常廣泛的應(yīng)用:

確定一個(gè)DNA或蛋白質(zhì)序列身份。如可能通過一個(gè)負(fù)雜交實(shí)驗(yàn)或芯片實(shí)驗(yàn)發(fā)現(xiàn)一個(gè)特殊的DNA序列中你所使用的實(shí)驗(yàn)條件下是被顯著調(diào)控的,那么就可以通過將這個(gè)DNA序列在一個(gè)蛋白質(zhì)數(shù)據(jù)庫中進(jìn)行搜索,來尋找哪些蛋白質(zhì)是與你的DNA序列所編碼的蛋白質(zhì)相關(guān)性最高的。

發(fā)現(xiàn)新基因。如一個(gè)對(duì)于全基因組DNA的BLAST搜索可能會(huì)發(fā)現(xiàn)一個(gè)DNA所編碼的蛋白質(zhì)是以前所沒有報(bào)道過的

確定一個(gè)特定基因或蛋白質(zhì)有哪些已經(jīng)發(fā)現(xiàn)了的變種。例如,很多病毒都具有極強(qiáng)的突變能力;HIV-1pol有哪些已知的變異體?2020/10/288WhyuseBLAST?BLAST具有非常廣泛的應(yīng)用:

研究可能存在多種剪切方式的表達(dá)序列標(biāo)簽。有專門用于BLAST搜索的EST數(shù)據(jù)庫。實(shí)際上有許多用來進(jìn)行搜索專門的數(shù)據(jù)庫,如專門的包含同一個(gè)特定的物種、一種組織、一個(gè)染色體、一種DNA或一個(gè)蛋白質(zhì)功能類的序列數(shù)據(jù)庫。

尋找對(duì)于一個(gè)蛋白質(zhì)的功能和/或結(jié)構(gòu)起關(guān)鍵作用的氨基酸殘基。一次BLAST搜索的結(jié)果可以放在一起比對(duì),這時(shí)候,就會(huì)發(fā)現(xiàn)其中像半胱氨酸殘基這樣可能具有重要生物學(xué)功能的保守殘基。2020/10/289FourcomponentstoaBLASTsearch(1)Choosethesequence(query)(2)SelecttheBLASTprogram(3)Choosethedatabasetosearch(4)ChooseoptionalparametersThenclick“BLAST”2020/10/28102020/10/2811NP_0067352020/10/28122020/10/2813Step1:Chooseyoursequence三種主要的輸入方式:

剪切然后粘貼DNA或蛋白質(zhì)序列使用FASTA格式的序列簡單地使用索引號(hào)碼(如一個(gè)RefSeq或GenBank(GI)的序號(hào))。SequencecanbeinputinFASTAformatorasaccessionnumber2020/10/2814ExampleoftheFASTAformatforaBLASTquery一個(gè)FASTA格式的序列以一個(gè)單行的說明開始,接下來是若干個(gè)行的序列數(shù)據(jù)。在一個(gè)BLAST搜索中輸入accessionnumber通常要容易些。BLAST程序可以識(shí)別和忽略出現(xiàn)在你的輸入序列字母中間的數(shù)字。2020/10/2815Step2:ChoosetheBLASTprogram2020/10/2816Step2:ChoosetheBLASTprogramblastn(nucleotideBLAST)blastp(proteinBLAST)tblastn(translatedBLAST)blastx(translatedBLAST)tblastx(translatedBLAST)2020/10/28172020/10/2818Step2:ChoosetheBLASTprogramblastn(nucleotideBLAST):將一個(gè)核酸的查詢序列與一個(gè)核酸序列數(shù)據(jù)庫相比較。blastp(proteinBLAST):將一個(gè)氨基酸的查詢序列與一個(gè)蛋白質(zhì)序列數(shù)據(jù)庫相比較。這類搜索有專門與蛋白質(zhì)搜索相關(guān)的可選參數(shù),如對(duì)各種PAM和BLOSUM打分矩陣的選擇。tblastn(translatedBLAST):將一個(gè)蛋白質(zhì)查詢序列與一個(gè)以所有閱讀框動(dòng)態(tài)翻譯成蛋白質(zhì)的核酸序列數(shù)據(jù)庫進(jìn)行比較??梢杂么顺绦騺砼袛嘁粋€(gè)DNA數(shù)據(jù)庫是否編碼所感興趣的查詢蛋白。用RBP查詢是否可以在某個(gè)已測序的DNA數(shù)據(jù)庫中找到匹配項(xiàng)呢?2020/10/2819Step2:ChoosetheBLASTprogramblastx(translatedBLAST):將一個(gè)核酸的查詢序列按所有可能的閱讀框翻譯后的序列與一個(gè)蛋白質(zhì)序列數(shù)據(jù)庫進(jìn)行比較。如若有一個(gè)DNA序列,想知道它編碼什么蛋白質(zhì),用此程序進(jìn)行搜索。它會(huì)自動(dòng)將DNA翻譯成6種可能的蛋白質(zhì)。然后此程序就會(huì)將翻譯的6個(gè)蛋白質(zhì)序列逐一與蛋白質(zhì)序列數(shù)據(jù)庫中的各個(gè)成員進(jìn)行比較。tblastx(translatedBLAST):將一個(gè)核酸查詢序列的6種框架的翻譯結(jié)果與一個(gè)核酸序列數(shù)據(jù)庫的6種框架翻譯產(chǎn)物進(jìn)行比較。該程序不能使用BLAST網(wǎng)頁上提供的主要的去冗余(nr)數(shù)據(jù)庫,因這一操作很消耗計(jì)算機(jī)資源。2020/10/2820ChoosetheBLASTprogramProgram

Input

Database

1blastn

DNA

DNA

1blastp

protein

protein

6blastx

DNA

protein

6tblastn

protein

DNA

36tblastx

DNA

DNA2020/10/2821DNApotentiallyencodessixproteins5’CATCAA5’ATCAAC5’TCAACT5’GTGGGT5’TGGGTA5’GGGTAG5’CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC3’3’GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG5’2020/10/2822Step3:choosethedatabaseBLAST搜索可使用的數(shù)據(jù)庫會(huì)列在每一個(gè)BLAST頁面上,對(duì)于蛋白質(zhì)數(shù)據(jù)庫搜索(blastp和blastx),兩個(gè)主要的選擇即nr數(shù)據(jù)庫和SwissProt。nr=non-redundant(mostgeneraldatabase)dbest=databaseofexpressedsequencetagsdbsts=databaseofsequencetagsitesgss=genomicsurveysequenceshtgs=highthroughputgenomicsequence2020/10/2823Step3:choosethedatabasenr數(shù)據(jù)庫是合并了若干個(gè)主要的蛋白質(zhì)或DNA數(shù)據(jù)庫得到的。這些數(shù)據(jù)庫中經(jīng)常包含有相同的序列,但nr數(shù)據(jù)庫只收錄其中的一個(gè)序列(即使在nr數(shù)據(jù)庫中出現(xiàn)看上去一樣的序列,實(shí)際上還是具有一些細(xì)節(jié)上的區(qū)別)。nr數(shù)據(jù)庫是在要搜索現(xiàn)有的絕大多數(shù)序列時(shí)典型和常用的數(shù)據(jù)庫。2020/10/2824去冗余GenBank編碼序列PDB+SwissProt+PIR+PRF2020/10/28252020/10/2826當(dāng)確定了要輸入的序列和要搜索的數(shù)據(jù)庫之后,還有10個(gè)其他的可選參數(shù)要確定。①LimitbyEntrezQuery:任何NCBIBLAST搜索的范圍都可以用在Entrez搜索中使用的任何一種范圍限定詞來限定。Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters2020/10/2827Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters2020/10/2828Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters2020/10/2829②Maxtargetsequences:比對(duì)之后顯示的最大的比對(duì)序列的數(shù)目。Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters2020/10/2830Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters2020/10/2831③期望expect:期望值E是得分大于或等于某個(gè)分值S的不同的比對(duì)的數(shù)目在隨機(jī)的數(shù)據(jù)庫搜索中發(fā)生的可能性。這個(gè)數(shù)值表示你僅僅因?yàn)殡S機(jī)性造成獲得這一聯(lián)配結(jié)果的可能次數(shù)。對(duì)于blastn、blastp、blastxt和blastn期望值的默認(rèn)設(shè)置是10。在這個(gè)E值下,隨機(jī)出現(xiàn)得分等于或高于比對(duì)得分S的期望數(shù)為10個(gè)(這里是假設(shè)用與實(shí)際的查詢序列長度相等的隨機(jī)的查詢序列搜索數(shù)據(jù)庫)。當(dāng)將期望選項(xiàng)值調(diào)小時(shí),返回的數(shù)據(jù)庫搜索結(jié)果將變少,匹配被搜索到的概率也會(huì)變小。增大E值將返回更多的結(jié)果。Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters2020/10/2832Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters2020/10/2833Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters④字段長度wordsize:BLAST程序是通過比對(duì)未知序列與數(shù)據(jù)庫序列中的短序列來發(fā)現(xiàn)最佳匹配序列的。最初進(jìn)行“掃描”(scanning)就是確定匹配片段。序列的匹配程序由短序列(定義為“word”,即字)的聯(lián)配得分總和來決定。聯(lián)配時(shí),“字”的每個(gè)堿基均被計(jì)分:如果堿基對(duì)完全相同(如A與A),得某一正值;如果堿基對(duì)不很匹配(W與A或T),則得某一略小的正值;如果兩個(gè)堿基不匹配,則得一負(fù)值??偟暮嫌?jì)得分便決定了序列間的相似程度。對(duì)于蛋白質(zhì)搜索,窗口大小可以被設(shè)定為3(默認(rèn)值)或者2。當(dāng)用一個(gè)查詢序列來進(jìn)行數(shù)據(jù)庫搜索時(shí),BLAST算法首先將查詢序列分割成一系列具有特定長度(字段長度)的小的序列段(字段)。對(duì)于blastp,更大的字段長度將得到更高的搜索精度。對(duì)于任意的字段長度,每個(gè)字段的匹配結(jié)果將被延伸以得到BLAST的輸出結(jié)果。實(shí)際應(yīng)用中對(duì)于蛋白質(zhì)搜索很少需要改變字段的長度。

對(duì)于核酸序列,默認(rèn)的字段長度是11,BLAST的字長缺省值為11,即BLASTN將掃描數(shù)據(jù)庫,直到發(fā)現(xiàn)那些與未知序列的11個(gè)連續(xù)堿基完全匹配的11個(gè)連續(xù)堿基長度片段為止。然后這些片段(即字)被擴(kuò)展。11個(gè)堿基的字長已能有效地排除中等分叉的同源性和幾乎所有隨機(jī)產(chǎn)生的顯著聯(lián)配。它可以被增大(15)或減小(7)。降低字段長度將會(huì)使搜索變得更準(zhǔn)確同時(shí)也會(huì)變得更慢。2020/10/2834Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters2020/10/2835⑤

矩陣matrix:對(duì)于blastp的蛋白質(zhì)-蛋白質(zhì)搜索有5種氨基酸替代矩陣:PAM30,PAM70,BLOSUM45,BLOSUM62(默認(rèn)值)以及BLOSUM80.一些其他的BLAST服務(wù)器還提供了很多其他的替代矩陣,如PAM250。通常情況下明智的選擇是在一次BLAST搜索中使用幾種不同的打分矩陣。

Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters2020/10/2836PAM1矩陣:Dayhoff和同事利用可接受點(diǎn)突變的數(shù)據(jù)和每個(gè)氨基酸的發(fā)現(xiàn)頻率產(chǎn)生突變概率矩陣M。矩陣元素Mij表示在一給定進(jìn)化時(shí)期內(nèi)氨基酸j(列)替換成氨基酸i(行)的概率。進(jìn)化時(shí)期為一個(gè)PAM(PAM定義為進(jìn)化趨異的單位,表示兩個(gè)蛋白1%氨基酸發(fā)生變化的時(shí)間)。PAM1矩陣基于緊密相關(guān)蛋白質(zhì)的比對(duì),這些蛋白質(zhì)家族內(nèi)的序列一致程度至少有85%。除PAM1矩陣外的其他PAM矩陣是如何得來的?Dayhoff等用PAM1矩陣乘以自身數(shù)百次,得到其他PAM矩陣。如PAM250矩陣就是PAM1矩陣乘以自身250次產(chǎn)生,是BLAST搜索數(shù)據(jù)庫的常用矩陣之一。Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters2020/10/2837Dayhoff’sPAM1mutationprobabilitymatrix原始氨基酸Eachelementofthematrixshowstheprobabilitythatanoriginalaminoacid(top)willbereplacedbyanotheraminoacid(side)替代氨基酸2020/10/2838PAM250mutationprobabilitymatrixTop:originalaminoacidSide:replacementaminoacid2020/10/2839⑤PAM0矩陣:矩陣將成為單位矩陣,因沒有氨基酸發(fā)生變化。PAM∝矩陣:PAM相當(dāng)大(如PAM>2000或矩陣和自己相乘無數(shù)次)。每種氨基酸等概率出現(xiàn),每行的所有值都接近于一個(gè)數(shù)值,這個(gè)數(shù)值就是氨基酸的出現(xiàn)頻率。Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters2020/10/2840Dayhoff’sPAM0mutationprobabilitymatrix:therulesforextremelyslowlyevolvingproteinsTop:originalaminoacidSide:replacementaminoacid2020/10/2841Dayhoff’sPAM2000mutationprobabilitymatrix:therulesforverydistantlyrelatedproteinsPAMAAlaRArgNAsnDAspCCysQGlnEGluGGlyA8.7%8.7%8.7%8.7%8.7%8.7%8.7%8.7%R4.1%4.1%4.1%4.1%4.1%4.1%4.1%4.1%N4.0%4.0%4.0%4.0%4.0%4.0%4.0%4.0%D4.7%4.7%4.7%4.7%4.7%4.7%4.7%4.7%C3.3%3.3%3.3%3.3%3.3%3.3%3.3%3.3%Q3.8%3.8%3.8%3.8%3.8%3.8%3.8%3.8%E5.0%5.0%5.0%5.0%5.0%5.0%5.0%5.0%G8.9%8.9%8.9%8.9%8.9%8.9%8.9%8.9%Top:originalaminoacidSide:replacementaminoacid2020/10/2842Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters2020/10/2843Step4a:Selectoptionalsearchparameters2020/10/28442020/10/2845Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters2020/10/2846⑥Compositionaladjustments:這個(gè)選項(xiàng)是默認(rèn)選擇的,一般來說可改善E值的統(tǒng)計(jì)計(jì)算和提高靈敏度(減少返回的假陽性結(jié)果的數(shù)目)。Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters2020/10/28472020/10/2848⑦選擇過濾條件Filter:過濾器將鎖定諸如組成低復(fù)雜(lowcompositionalcomplexity)序列區(qū)(如Alu序列),用一系列N(NNNNNN)替代這些程序。N代表任意堿基(IUB-code)。只有未知待檢序列被過濾替代,而數(shù)據(jù)庫的序列將不被過濾。過濾對(duì)絕大多數(shù)序列都是有益的,“Filter”項(xiàng)的缺省選項(xiàng)為ON。例如,多A堿基的尾部和脯氨酸富積的序列,會(huì)得到人為的高聯(lián)配得分而誤導(dǎo)分析。這是因?yàn)檫@類序列數(shù)量極大,遍布整個(gè)基因組,直至整個(gè)數(shù)據(jù)庫。Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters2020/10/2849⑦選擇過濾條件Filter:

過濾選項(xiàng)的調(diào)整對(duì)于BLAST搜索的結(jié)果將會(huì)產(chǎn)生顯著的影響。當(dāng)使用blastpnr來查詢一個(gè)人類富含脯氨酸的蛋白質(zhì)(NP_036522)時(shí),會(huì)得到8個(gè)數(shù)據(jù)庫中的匹配項(xiàng),而其中兩個(gè)具有統(tǒng)計(jì)顯著性。而當(dāng)關(guān)掉過濾選項(xiàng)后,就會(huì)得到包含其他一些富含脯氨酸的蛋白質(zhì)在內(nèi)的23個(gè)匹配。一般來講,過濾可以幫助避免那些假的數(shù)據(jù)庫匹配,但在某些情況下一些可信的匹配也可能會(huì)被過濾掉。Step4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters2020/10/28502020/10/2851filtering2020/10/2852以一種富含脯氨酸的人類唾液蛋白NP_036522作為查詢項(xiàng)使用blasstpnr進(jìn)行搜索的結(jié)果。該蛋白質(zhì)的大部分沒有在數(shù)據(jù)庫中的匹配,這是由于該蛋白的中間區(qū)域被默認(rèn)的過濾功能給過濾掉了2020/10/2853關(guān)掉過濾選項(xiàng)后搜索的結(jié)果。這次得到了更多的與在蛋白質(zhì)的全序列范圍內(nèi)相匹配的數(shù)據(jù)庫返回結(jié)果。第一個(gè)比對(duì)顯示了該蛋白極度富含脯氨酸的特點(diǎn)2020/10/2854NCBIblastnowoffersmaskingaslowercase/colored2020/10/2855Entrez!FilterScoringmatrixWordsizeExpectStep4a:選擇可選的搜索參數(shù)Selectoptionalsearchparameters2020/10/2856BLAST:optionalparametersYoucan...?choosetheorganismtosearch?turnfilteringon/off?changethesubstitutionmatrix?changetheexpect(e)value?changethewordsize?changetheoutputformat2020/10/2857Step4b:選擇可選格式參數(shù)optionalformattingparametersBLAST搜索有很多控制輸出格式的參數(shù):

Alignmentview

Descriptions

Alignments2020/10/2858Step4b:選擇可選格式參數(shù)optionalformattingparametersBLAST搜索結(jié)果的頂部

頂部提供關(guān)于該搜索的詳細(xì)信息:BLAST搜索的類型、關(guān)于查詢內(nèi)容和所搜索的數(shù)據(jù)庫的描述以及一個(gè)分類連接可以將結(jié)果按照物種進(jìn)行分類。2020/10/2859databaseprogramquerytaxonomy結(jié)果網(wǎng)頁2020/10/2860taxonomy2020/10/2861Step4b:選擇可選格式參數(shù)optionalformattingparametersBLAST搜索結(jié)果的中間部分顯示的是數(shù)據(jù)庫中序列與查詢序列相匹配的項(xiàng)的列表。簡明圖形提供了用不同顏色表示的搜索結(jié)果的概況。圖下面的每一個(gè)條帶表示數(shù)據(jù)庫中的一個(gè)與查詢序列相匹配的蛋白質(zhì)或核酸序列,被標(biāo)以不同顏色表示親緣關(guān)系的遠(yuǎn)近(根據(jù)比對(duì)的分),最接近匹配用紅色表示。每條線的長度對(duì)應(yīng)于該序列與查詢序列比對(duì)上的區(qū)域大小。所有比對(duì)用一個(gè)被稱為“描述”的單行小結(jié)列表描述。按照E值增加的順序排列。顯著性最強(qiáng)的匹配將位于頂端。2020/10/2862結(jié)果的圖示輸出數(shù)據(jù)庫序列的列表Highscoreslowevalues2020/10/2863Step4b:選擇可選格式參數(shù)optionalformattingparametersBLAST搜索結(jié)果的靠下面部分顯示的是一系列的兩兩序列比對(duì)可檢查查詢序列(輸入序列)與對(duì)象序列(如和查詢序列比對(duì)的的特定的數(shù)據(jù)庫匹配)之間的比對(duì)情況。

4種衡量的分?jǐn)?shù):比特分?jǐn)?shù)、期望分?jǐn)?shù)、一致性百分比、正性(相似性百分比)2020/10/28642020/10/2865Step4b:選擇可選格式參數(shù)optionalformattingparameters可以不用整體地進(jìn)行BLAST搜索而僅通過改變格式選項(xiàng)來提供一些不同的輸出結(jié)果一些選項(xiàng)可以把比對(duì)序列顯示成多序列比對(duì)的形式,這對(duì)于確定一個(gè)蛋白質(zhì)或DNA家族中的保守的或趨異的氨基酸殘基非常有用。

2020/10/28662020/10/2867BLASTformatoptions2020/10/2868BLASTformatoptions2020/10/28692020/10/28702020/10/2871thresholdscore=11EVDparametersBLOSUMmatrixEffectivesearchspace=mn=lengthofqueryxdblength10.0istheEvaluegappenaltiescut-offparameters2020/10/2872如何評(píng)價(jià)搜索結(jié)果的顯著性如何處理過多的結(jié)果如何處理過少的結(jié)果多結(jié)構(gòu)域蛋白HIV-1pol的BLAST檢索BLAST檢索脂質(zhì)運(yùn)載蛋白

lipocalins

:改變打分矩陣的作用BLAST搜索的一些策略2020/10/2873BLAST搜索策略總圖.2020/10/2874如何評(píng)價(jià)搜索結(jié)果的顯著性同源性是基于由搜索結(jié)果的統(tǒng)計(jì)評(píng)估支持的序列相似性推出的。指認(rèn)基因或蛋白質(zhì)之間的相似性的問題不能單靠序列分析解決,還需要使用生物學(xué)上的標(biāo)準(zhǔn)來支持同源性的推導(dǎo)。可以用對(duì)于蛋白質(zhì)的結(jié)構(gòu)和功能的評(píng)估來補(bǔ)充BLAST的結(jié)果。真正有親緣關(guān)系的蛋白質(zhì)的序列可以有很大的差別,即使是那些有相近三維結(jié)構(gòu)的蛋白質(zhì)。因此,認(rèn)為數(shù)據(jù)庫搜索和蛋白質(zhì)比對(duì)可能會(huì)得出一定數(shù)量的假陰性匹配。如脂質(zhì)運(yùn)載蛋白家族很多成員如RBP4和氣味分子結(jié)合蛋白OBP只有非常有限的序列一致性,但它們的三維結(jié)構(gòu)關(guān)系非常近,而且它們作為疏水性配體的載體的功能也被認(rèn)為是相同的。BLAST搜索的一些策略2020/10/2875SometimesarealmatchhasanEvalue>12020/10/2876SometimesasimilarEvalueoccursforashortexactmatchandlonglessexactmatch2020/10/2877決定兩個(gè)蛋白質(zhì)或DNA序列是否同源,可以問下面的問題:期望值究竟是不是顯著?兩個(gè)蛋白質(zhì)是不是具有近似的大?。繉?shí)際上同源蛋白質(zhì)不要求具有相同的大小,兩個(gè)蛋白質(zhì)可能只共享有限的一個(gè)相同的結(jié)構(gòu)域。但是,產(chǎn)生一個(gè)對(duì)兩個(gè)蛋白質(zhì)同源的可能性的生物學(xué)上的直覺是非常重要的。比如一個(gè)1000個(gè)氨基酸具有跨膜結(jié)構(gòu)域的蛋白質(zhì)不太可能與RBP蛋白同源,因絕大多數(shù)脂質(zhì)運(yùn)載蛋白長度都近似200aa(20-25kD)。如何評(píng)價(jià)搜索結(jié)果的顯著性2020/10/2878決定兩個(gè)蛋白質(zhì)或DNA序列是否同源,可以問下面的問題:這兩個(gè)蛋白是否有共同的基序或信號(hào)序列?是。孕激素相關(guān)子宮內(nèi)膜蛋白和RBP4蛋白都含有一個(gè)GXW載脂蛋白標(biāo)簽。這兩個(gè)蛋白質(zhì)是不是一個(gè)合理的多序列比對(duì)的一部分?這兩個(gè)蛋白質(zhì)是否共有一個(gè)相似的生物學(xué)功能?就像所有的載脂蛋白一樣,這兩個(gè)蛋白都是小的、親水性的含量豐富的分泌分子。這兩個(gè)蛋白質(zhì)是否具有相似的三維結(jié)構(gòu)?雖然載脂蛋白序列多種多樣,它們卻共享一個(gè)顯著的非常保守的結(jié)構(gòu)。這個(gè)結(jié)構(gòu)(一個(gè)杯狀的盂)可使它們將疏水性配體運(yùn)輸通過一個(gè)水環(huán)境區(qū)間。載脂蛋白如何評(píng)價(jià)搜索結(jié)果的顯著性2020/10/2879決定兩個(gè)蛋白質(zhì)或DNA序列是否同源,可以問下面的問題:如果BLAST搜索得到一個(gè)對(duì)另一個(gè)蛋白質(zhì)的邊緣匹配,以這個(gè)具有較遠(yuǎn)親緣關(guān)系的蛋白質(zhì)作為查詢項(xiàng)再進(jìn)行一次新的搜索。如用孕激素相關(guān)子宮內(nèi)膜蛋白進(jìn)行blastpnr搜索可得到一些在RBP4蛋白的搜索中也檢測到的蛋白。這個(gè)發(fā)現(xiàn)增加了認(rèn)為這兩個(gè)蛋白實(shí)際上是一個(gè)蛋白超家族中的同源成員的信心。載脂蛋白如何評(píng)價(jià)搜索結(jié)果的顯著性2020/10/2880AssessingwhetherproteinsarehomologousRBP4andPAEP:Lowbitscore,Evalue0.49,24%identity(“twilightzone”).Buttheyareindeedhomologous.TryaBLASTsearchwithPAEPasaquery,andfindmanyotherlipocalins.2020/10/2881Theuniverseoflipocalins(eachdotisaprotein)retinol-bindingproteinodorant-bindingproteinapolipoproteinD2020/10/2882BLASTsearchwithPAEPasaqueryfindsmany

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論