blast簡介及其應(yīng)用.ppt_第1頁
blast簡介及其應(yīng)用.ppt_第2頁
blast簡介及其應(yīng)用.ppt_第3頁
blast簡介及其應(yīng)用.ppt_第4頁
blast簡介及其應(yīng)用.ppt_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

BLAST簡介及其應(yīng)用,Basic Local Alignment Search Tool,2,實(shí)驗(yàn)?zāi)康?1、了解 Blast資源和功能 2、了解blast的應(yīng)用 3、掌握使用blast進(jìn)行序列搜索,3,生物序列的相似性,相似性(similarity): 是指一種很直接的數(shù)量關(guān)系,比如部分相同或相似的百分比或其它一些合適的度量。比如說,A序列和B序列的相似性是80,或者4/5。這是個量化的關(guān)系。當(dāng)然可進(jìn)行自身局部比較。,4,同源性(homology): 指從一些數(shù)據(jù)中推斷出的兩個基因或蛋白質(zhì)序列具有共同祖先的結(jié)論,屬于質(zhì)的判斷。就是說A和B的關(guān)系上,只有是同源序列,或者非同源序列兩種關(guān)系。而說A和B的同源性為80都是不科學(xué)的。,生物序列的同源性,5,相似性和同源性關(guān)系,序列的相似性和序列的同源性有一定的關(guān)系,一般來說序列間的相似性越高的話,它們是同源序列的可能性就更高,所以經(jīng)??梢酝ㄟ^序列的相似性來推測序列是否同源。 正因?yàn)榇嬖谶@樣的關(guān)系,很多時候?qū)π蛄械南嗨菩院屯葱跃蜎]有做很明顯的區(qū)分,造成經(jīng)常等價混用兩個名詞。所以有出現(xiàn)A序列和B序列的同源性為80一說。,6,Blast程序評價序列相似性的兩個數(shù)據(jù),Score:使用打分矩陣對匹配的片段進(jìn)行打分,這是對各對氨基酸殘基(或堿基)打分求和的結(jié)果,一般來說,匹配片段越長、 相似性越高則Score值越大。 E value:在相同長度的情況下,兩個氨基酸殘基(或堿基)隨機(jī)排列的序列進(jìn)行打分,得到上述Score值的概率的大小。E值越小表示隨機(jī)情況下得到該Score值的可能性越低。 我們在獲得一個Blast結(jié)果時需要看這兩個指標(biāo)。 如果Blast獲得的目標(biāo)序列的Score值越高并且E-value越低表明結(jié)果越可信,反之越不可信.,7,BLAST簡介,BLAST既是一種算法也是一種基于該算法設(shè)計出的搜索工具,是由美國國家生物信息中心(NCBI)研發(fā)的一個生物信息數(shù)據(jù)庫搜索工具系統(tǒng),該系統(tǒng)對于生物基因序列數(shù)據(jù)在計算機(jī)中的表達(dá)和處理作了許多的研究,提供了一個快速的基于堿基數(shù)據(jù)的搜索引擎。 BLAST是基于匹配短序列片段,用一種強(qiáng)有力的統(tǒng)計模型來確定未知序列與數(shù)據(jù)庫序列的最佳局部聯(lián)配,可在序列數(shù)據(jù)庫中對查詢序列進(jìn)行相似性比對工作。,8,BLAST簡介,BLAST搜索的六大優(yōu)點(diǎn): 使用方便,功能齊全 速度快,結(jié)果可信 NCBI精心維護(hù),持續(xù)開發(fā) 配套數(shù)據(jù)庫不斷更新 免費(fèi)服務(wù)(NCBI、EBI、TIGR) 免費(fèi)下載,本地安裝,9,主要的BLAST程序(功能),10,兩種版本的BLAST比較(一),網(wǎng)絡(luò)版本 包括NCBI在內(nèi)的很多網(wǎng)站都提供了在線的BLAST服務(wù),這也是我們最經(jīng)常用到的BLAST服務(wù)。網(wǎng)絡(luò)版本的BLAST服務(wù)就有方便,容易操作,數(shù)據(jù)庫同步更新等優(yōu)點(diǎn)。但是缺點(diǎn)是不利于操作大批量的數(shù)據(jù),同時也不能自己定義搜索的數(shù)據(jù)庫。,11,單機(jī)版 單機(jī)版的BLAST可以通過NCBI的ftp站點(diǎn)獲得,有適合不同平臺的版本(包括linux,dos等)。獲得程序的同時必須獲取相應(yīng)的數(shù)據(jù)庫才能在本地進(jìn)行BLAST分析。單機(jī)版的優(yōu)點(diǎn)是可以處理大批的數(shù)據(jù),可以自己定義數(shù)據(jù)庫,但是需要耗費(fèi)本地機(jī)的大量資源,此外操作也沒有網(wǎng)絡(luò)版直觀、方便,需要一定的計算機(jī)操作水平。,兩種版本的BLAST比較(二),Why use BLAST?,BLAST 是NCBI中用來將一個蛋白質(zhì)或DNA序列和各種數(shù)據(jù)庫中的其他序列進(jìn)行比對的主要工具。 BLAST搜索是研究一個蛋白質(zhì)和基因的最基本的方法之一。,BLAST的使用,BLAST 具有非常廣泛的應(yīng)用: 研究可能存在多種剪切方式的表達(dá)序列標(biāo)簽。 尋找對于一個蛋白質(zhì)的功能和/或結(jié)構(gòu)起關(guān)鍵作用的氨基酸殘基。 確定特定的蛋白質(zhì)或核酸序列有哪些已知的直系同源或旁系同源序列。 確定哪些蛋白質(zhì)和基因在特定的物種中出現(xiàn)。 確定一個DNA或蛋白質(zhì)序列身份。 發(fā)現(xiàn)新基因 確定一個特定基因或蛋白質(zhì)有哪些已經(jīng)發(fā)現(xiàn)了的變種。,Blast的使用,首先在NCBI的基因數(shù)據(jù)庫中找到一段基因核苷酸序列(或者是通過測序得到的核苷酸序列)。 將該序列用FASTA格式存入記事本。 進(jìn)入Blast界面選擇一種自己所需的功能進(jìn)行搜索比對。 將需要查詢序列鍵入框中選擇數(shù)據(jù)庫和確定比對參數(shù)。 Blast(比對),網(wǎng)頁版 具體步驟,1.登陸blast主頁 /BLAST/ 2.根據(jù)數(shù)據(jù)類型,選擇合適的程序 3.填寫表單信息 4.提交任務(wù) 5.查看和分析結(jié)果,1.登陸blast主頁/BLAST/,組裝的基因組序列庫,基本blast,特定的BLAST,所有的 BLAST基 因數(shù)據(jù)庫,18,19,20,核酸數(shù)據(jù)庫中 比對核酸序列,蛋白質(zhì)數(shù)據(jù)庫中 比對蛋白質(zhì)序列,BLASTN,BLASTP,蛋白質(zhì)數(shù)據(jù)庫中 比對核酸序列,蛋白質(zhì)數(shù)據(jù)庫中 比對核酸序列,核酸數(shù)據(jù)庫中 比對蛋白質(zhì)序列,21,標(biāo)準(zhǔn)蛋白質(zhì)數(shù)據(jù)庫,組裝的基因序列庫,快速搜索,基本操作,特定的BLAST,所有的 BLAST基 因數(shù)據(jù)庫,23,特定的BLAST,24,2.根據(jù)數(shù)據(jù)類型,選擇合適的程序,2.根據(jù)數(shù)據(jù)類型,選擇合適的程序,blastn (nucleotide BLAST):將一個核酸的查詢序列與一個核酸序列數(shù)據(jù)庫相比較。 blastp (protein BLAST):將一個氨基酸的查詢序列與一個蛋白質(zhì)序列數(shù)據(jù)庫相比較。這類搜索有專門與蛋白質(zhì)搜索相關(guān)的可選參數(shù),如對各種PAM和BLOSUM打分矩陣的選擇。,2.根據(jù)數(shù)據(jù)類型,選擇合適的程序,blastx (translated BLAST):將一個核酸的查詢序列按所有可能的閱讀框翻譯后的序列與一個蛋白質(zhì)序列數(shù)據(jù)庫進(jìn)行比較。如若有一個DNA序列,想知道它編碼什么蛋白質(zhì),用此程序進(jìn)行搜索。它會自動將DNA翻譯成6種可能的蛋白質(zhì)。然后此程序就會將翻譯的6個蛋白質(zhì)序列逐一與蛋白質(zhì)序列數(shù)據(jù)庫中的各個成員進(jìn)行比較。,2.根據(jù)數(shù)據(jù)類型,選擇合適的程序,tblastx (translated BLAST):將一個核酸查詢序列的6種框架的翻譯結(jié)果與一個核酸序列數(shù)據(jù)庫的6種框架翻譯產(chǎn)物進(jìn)行比較。該程序不能使用BLAST網(wǎng)頁上提供的主要的去冗余(nr)數(shù)據(jù)庫,因這一操作很消耗計算機(jī)資源。,28,3.填寫表單信息,29,1.序列信息部分,填入查詢(query)的序列,序列范圍 (默認(rèn)全部),選擇搜索數(shù)據(jù)庫,如果接受其他參數(shù)默認(rèn)設(shè)置,點(diǎn)擊開始搜索,30,去冗余GenBank編碼序列PDB + SwissProt + PIR + PRF,31,常用的檢索數(shù)據(jù)庫,32,nr數(shù)據(jù)庫是合并了若干個主要的蛋白質(zhì)或DNA數(shù)據(jù)庫得到的。這些數(shù)據(jù)庫中經(jīng)常包含有相同的序列,但nr數(shù)據(jù)庫只收錄其中的一個序列(即使在nr數(shù)據(jù)庫中出現(xiàn)看上去一樣的序列,實(shí)際上還是具有一些細(xì)節(jié)上的區(qū)別)。 nr數(shù)據(jù)庫是在要搜索現(xiàn)有的絕大多數(shù)序列時典型和常用的數(shù)據(jù)庫。,33,34,1.序列信息部分,填入查詢(query)的序列,序列范圍 (默認(rèn)全部),選擇搜索數(shù)據(jù)庫,如果接受其他參數(shù)默認(rèn)設(shè)置,點(diǎn)擊開始搜索,4.提交任務(wù) 5.查看和分析結(jié)果,35,36,具體例子,以下列蛋白序列為例,進(jìn)行BLAST搜素: MSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADSTQA,37,1.登陸NCBI的BLAST主頁 /BLAST/ 界面如圖所示:,分析過程,38,登陸B(tài)LAST主頁,39,2.根據(jù)序列的類型,選擇合適的比對分析界面程序。本例中分析的是蛋白質(zhì)序列,所以單擊選擇Basic BLASTProtein Blast項(xiàng),進(jìn)入蛋白質(zhì)比對分析界面。如下圖:,分析過程,40,41,3.填寫表單信息 在網(wǎng)頁的Enter accession number.gi.or FASTA sequence對話框中輸入待查詢序列,下面Choose search setdatabase項(xiàng)中選Swissprot庫(nr:NCBI所有翻譯庫,Refseq:專家參照庫,Swissprot:歐洲蛋白質(zhì)專家?guī)?,pat:專利庫,pdb:蛋白質(zhì)三維結(jié)構(gòu)庫),單擊BLAST運(yùn)行程序。,分析過程,43,如不單擊BLAST,而單擊BLAST下面的Algorithm Parameters,可以進(jìn)行BLAST的高級設(shè)置選項(xiàng)。,分析過程,45,46,4.BLAST程序啟動后,進(jìn)入Formatting Blast界面,如圖:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論