BLAST專業(yè)技術文檔_第1頁
BLAST專業(yè)技術文檔_第2頁
BLAST專業(yè)技術文檔_第3頁
BLAST專業(yè)技術文檔_第4頁
BLAST專業(yè)技術文檔_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、BLAST+的分析流程摘要本文簡單的介紹了一下序列比對工具BLAST+。這個工具主要分三個部分搜索,數(shù)據(jù)庫,序列篩 選。有多個應用,本文主要針對blastn和blastp還有makeblastdb常用功能進行簡要介紹。因為 BLAST+雖然機制是BLAST,但卻是從頭寫的,可被C和C+直接調(diào)用,效率更高,性能更好。本 文用了酵母細胞色素c基因作為query,酵母基因組數(shù)據(jù)庫作為database,進行簡要功能的測試, 常用參數(shù)及結果文件的解釋。個別program及參數(shù)的使用方式請參見-help。目錄摘要1目錄11. 文檔目的12. 適用范圍23. 概述23.1BLAST 簡介 23.2BLAST

2、+ 應用 24. 業(yè)務流程及細節(jié)34.1數(shù)據(jù)34.2使用的方法或解決辦法44.2.1方法的簡單介紹4 4.2.2方法的常見參數(shù)以及默認值54.2.3備注94.3結果解釋105. 實例126. 參考內(nèi)容121文檔目的BLAST是NCBI基本局部比對工具,發(fā)現(xiàn)序列之間的局部相似性,這個程序將核酸或者蛋白序 列與序列數(shù)據(jù)庫進行比較,汁算匹配的統(tǒng)計值。BLAST用于功能推斷和序列間進化關系以及幫助鑒別基因家族成員。BLAST+與BLAST相比,有很多改進和提髙.NCBI強烈推薦放棄BLAST,使用BLAST+,本文主要 學習和介紹BLAST+的用法。本文主要討論本地化的BLAST+:適用系統(tǒng):Wind

3、ows, MacOSX Linux/Unixo輸入的數(shù)據(jù)格式有很多種:以 makeblastdb 為例有,String, asnlbin,、asnl_txt: blastdb: fasta1, 具體程序輸入文件類型可參照如:blasn -help的方式查看。該軟件適用系統(tǒng):Windows, Mac OS X, Linux, and Solaris。3.1BLAST 簡介BLAST (Basic Local Alignment Search Tool)是一套在蛋白質(zhì)數(shù)據(jù)庫或DNA數(shù)據(jù)庫中進行相似性比較 的分析工具。BLAST程序能迅速與公開數(shù)據(jù)庫進行相似性序列比較。BLAST結果中的得分是對一

4、種對相似性的統(tǒng)計說明。BLAST采用一種局部的算法獲得兩個序列中具有相似性的序列。/Class/BLAST/blast_course.short.html3.2BLAST+ 應用BLAST+package有三個分類1)search tools搜索工具*blastn:核酸核酸比對(queryDB)*blastp:蛋白蛋白比對(queryDB)*blastx:核酸蛋白比對(query-DB)*tblastx:核酸-核酸比對(query-DB)核酸序列到核酸庫中的一種查詢。此種查詢將庫 中的核酸序列和所查的核酸序列都翻譯成蛋白(每條核酸序列會產(chǎn)生6

5、條可能的蛋白 序列),這樣每次比對會產(chǎn)生36種比對陣列。*tblastn:蛋白核酸比對(query-DB)*psiblast:敏感度更高的蛋白序列與蛋白序列之間的比對*rpsblast*rpsblast n2) BLAST database tools數(shù)據(jù)庫工具*makeblastdb:根據(jù)fasta文件建立數(shù)據(jù)庫*blastdb_aliastool: 生成GI列表的二進制文件,可以傳遞給blast+的gilist參數(shù),用來 限定比對到db中的序列。*makeprofiledb*blastdbcmd:相當于以前的fastacmd,用來從格式化好的blast數(shù)據(jù)庫中取序列(blastdbcmd

6、-db refseqna -entry 224071016 )3) sequence filtering tools-序列篩選工具4.業(yè)務流程及細節(jié)41數(shù)據(jù)常用為NCBI規(guī)范的fasta格式的序列文件,以、開頭為一條序列:如下所示:gi| 330443743:447439-448368 Saccharomyces cerevisiae S288c chromosome XV, complete sequeneeATGTTTTCAAATCTATCTAAACGTTGGGCTCAAAGGACCCTCTCGAAAAGTTTCTACTCTACCGCAACAGGTGCTG CTAGTAAATCTGGCAA

7、GCTTACTCAAAAGCTCGTTACAGCGGGTGTTGCTGCCGCCGGTATCACCGCATCGACTT TACTCTATGCAGACTCCTTAACTGCCGAAGCTATGACCGCAGCTGAACACGGATTGCACGCCCCAGCATATGCTTG GTCCCACAATGGGCCTTTTGAAACATTTGATCATGCATCCATTAGAAGAGGTTACCAGGTTTACCGTGAAGTTTGT GCCGCCTGCCATTCTCTTGACAGAGTTGCTTGGAGAACTTTGGTTGGTGTTTCTCATACCAACGAAGAGGTTCGT AATATGGCCG

8、AAGAATTTGAATACGATGACGAACCTGATGAACAAGGTAACCCTAAAAAGAGACCAGGTAAGTTGTCCGATTACATCCCTGGCCCA7ACCCAAACGAACAGGCTGCAAGAGCTGCCAATCAAGGTGCCTTGCCACCTGA TCTATCTTTGATCGTGAAAGCTAGACACGGTGGTTGTGACTACATTTTCTCTTTGTTGACCGGTTATCCTGATGAAC CTCCTGCTGGTGTGGCTTTACCACCAGGTTCTAATTATAACCCTTACTTCCCAGGTGGTTCCATTGCAATGGCAAG AGTCT

9、TGTTTGATGACATGGTTGAGTACGAAGATGGTACCCCCGCAACGACATCTCAAATGGCAAAGGACGTTAC CACCTTTTTAAACTGGTGTGCCGAACCTGAACATGACGAAAGAAAGAGATTGGGTTTGAAAACGGTGATAATCTT ATCATCTTTGTATTTGCTATCTATCTGGGTGAAGAAGTTCAAATGGGCCGGTATCAAAACCAGAAAATTCGTTTTCA ATCCACCAAAACCAAGAAAGTAG4.2使用的方法或解決辦法4.2.1方法的簡單介紹1、安裝 BLAST+Windows:卜載如:ncbi

10、-blast-2.2.18+.exe雙擊。RedHat Linux:下載合適的*.rpm,然后就可以安裝或更新Install:rpm -ivh ncbi-blast-2.2.18-l.x86_64.rpmUpgrade:rpm -Uvh ncbi-blast-2.2.18-l.x86_64.rpOther Unix platforms:下載tarball并解壓到指立目錄。2、下載 BLAST database(1) 卜載多個數(shù)據(jù)庫 tar files: (htgs.OO.tar.gz, : htgs.N.tar.gz)/update_blastdb.pl htgs(2) ftp 卜載 ftp:

11、//blast/db/ 這些數(shù)據(jù)庫是已經(jīng)預先進行過 makeblastdb 命 令的,下載后可以直接使用。大的數(shù)據(jù)庫通常分為多個壓縮包,例如nr庫有M個壓縮包。所有的相關壓縮包 都要下載,解壓。解壓縮會生成對應的庫文件,同時生成一個nr.pal文件。檢索nr庫 時輸入d nr即可。有些數(shù)據(jù)庫是大數(shù)據(jù)庫的子集,使用這些子集數(shù)拯庫時,必須同時下載其(相同日期 的)大數(shù)據(jù)庫。有些BLAST數(shù)據(jù)庫沒有提供預先建庫的文件,這些數(shù)據(jù)庫可以從FASTA文件夾里下載* 卜載基因組 BLAST 數(shù)據(jù)庫 /genomes/blast/db/

12、目錄下部分內(nèi)容說明:數(shù)據(jù)庫名稱數(shù)據(jù)庫內(nèi)容+File Name ContentDescription+/FASTAenv_nr *tar gzenv_nt *tar gzI存放FASTA格式序列的子文件夾I環(huán)境蛋白序列I環(huán)境核昔酸序列est *tar gz est_human. tar gz gss *tar gz htgs *tar gz1 EST數(shù)據(jù)庫alias and mask files for human subset of the est1 GSS數(shù)據(jù)庫1 htgs數(shù)據(jù)庫human_genomic. *tar. gz ,人類染色體的RefSeq參考序列nr. *tar gznt. *

13、 tar gz1非冗余的蛋tl數(shù)據(jù)庫nr1核昔酸數(shù)據(jù)庫ntother_genomic. *tar. gz人類以外的其他生物染色體的RefSeq參考序列pataa *tar gz patnt *tar gz pdbaa *tar gz pdbnt *tar gz1專利蛋tl數(shù)據(jù)庫1專利核昔酸數(shù)據(jù)庫1源pdb蛋白結構數(shù)據(jù)庫的蛋白序列,其根數(shù)據(jù)庫“1源pdb核昔酸結構數(shù)據(jù)庫的核昔酸序列,根數(shù)據(jù)庫ntrefseq_genomic. *tar. gz | 基因組參考序列 refseqprotein. *tar. gz | 蛋白參考序列refseq_rna *tar gz sts *tar gz swis

14、sprot tar gz taxdb tar gz wgs *tar gz1轉錄本參考序列1 STS數(shù)據(jù)庫1蛋tl數(shù)據(jù)庫子集,其根數(shù)據(jù)庫為m;1分類學信息Wgs數(shù)據(jù)庫+-3、BLAST SEARCHProgramTask NameDescriptionblastpblastp蛋白query和蛋白數(shù)據(jù)庫的比對blastp-short優(yōu)化査詢:短于30個殘基blastnblastn完全匹配的傳統(tǒng)blastnblastn-short優(yōu)化查詢:短于50個堿基megablast查找十分相似的序列(如物種內(nèi)部或相關的物種間)dc-megablast查找距離比較遠的序列(如物種間)4.2.2方法的常見參數(shù)以

15、及默認值1、格式化數(shù)據(jù)庫命令:makeblastdb -in db.fasta -dbtype prot parse_seqids -out dbname 參數(shù):-in:待格式化的序列文件-dbtype:數(shù)據(jù)庫類型,prot或nuclparse_seqids:自動解讀 seqid-out:數(shù)據(jù)庫名Option:* Input optionsin vFile_ln Default =-input_type Default = fasta* Configuration options-title 數(shù)據(jù)庫標題 Default=輸入文件名parse_seqids自動解讀 seqid-hashjndex

16、創(chuàng)建序列hash值* Sequence masking options-mask_data 以逗號分割的包含掩碼數(shù)據(jù)的輸入文件(eg dustmasker, segmasker,windowmasker)-gi_mask 創(chuàng)建 Gl 為 index 的掩碼文件未 Requires: parse_seqids-gi_mask_name 以逗號分割的掩碼輸出文件* Requires: mask_data, gi_mask* Output options-out 創(chuàng)建的數(shù)據(jù)庫名稱Default =輸入文件統(tǒng)max_file-sz 創(chuàng)建的數(shù)據(jù)庫文件最大容量Default = 1GB* Taxonomy

17、 options-taxid vlntegec =0分類號 * Incompatible with: taxid_map-taxid_map 將文件序列 IDs map 到 taxonomy IDs.Format: vnewline不兼容:taxidlogfile 日志文件2、蛋白序列比對蛋白數(shù)據(jù)庫命令:blastp -query seq.fasta -out seq.blast db dbname -outfmt 6 evalue le-5 um_dGScriptions 10num_threads 8參數(shù):-query:輸入文件路徑及文件名-out:輸出文件路徑及文件名-db:格式化了的數(shù)

18、據(jù)庫路徑及數(shù)據(jù)庫名-outfmt:輸出文件格式,總共有12種格式,6是tabular格式對應BLAST的m8格式-evalue:設置輸出結果的e-value值-num_descriptions: tabular格式輸出結果的條數(shù)num_threads:線程數(shù)Blast結果m8格式意義進行Blast比對,用參數(shù)8可以以列表的方式輸出結果,結果中從左到右每一列的02 % identity06 q. start10 e-value03 alignment length07 q. end11 bit score意義分別是:00 Query id04 mismatches08 s. start01 Su

19、bject id 05 gap openings09 s. endOptions by program type:-task task_name:指定要執(zhí)行的任務 blastp. blastp-short, deltablast -comp_based_stats compo:選擇適合的組合統(tǒng)計模型(只用于 blastp 和 tblastn )D or d: default (equivalent to 2 )0 or F or f: No composition-based statistics1: Composition-based statistics as in NAR 29:2994

20、-3005, 20012 or T or t : Composition-based score adjustment as in Bioinformatics21:902-911/2005/ conditioned on sequenee properties3: Composition-based score adjustme nt as in Bioinformatics 21:902-911,2005, unconditionally-use_sw_tback:是否使用局部最優(yōu)算法-SmithWaterman算法3、核酸序列比對核酸數(shù)據(jù)庫命令:blastn query seq.fast

21、a -out seq.blast db dbname -outfmt 6 evalue le-5 num_descriptions 10num_threads 8參數(shù):-query:輸入文件路徑及文件名-out:輸岀文件路徑及文件名-db:格式化了的數(shù)據(jù)庫路徑及數(shù)據(jù)庫名-outfmt:輸出文件格式,總共有12種格式,6是tabular格式對應BLAST的m8格式-evalue:設置輸出結果的e-value值-num_descriptions: tabular格式輸出結果的條數(shù)num_threads:線程數(shù)Options by program type:-task task_name:指定要執(zhí)行

22、的任務 blastn, blastn-short, megablastt dc-megablast rmblastn-penalty penalty:罰分,一個核酸不匹配時的罰分Integer, -reward reward):獎分,核酸匹配的得分=0-usejndex boolean:使用 megablast 數(shù)據(jù)庫索引-index_name string:megablast 數(shù)據(jù)庫索引名稱-perc_identity float_value:Minimum percent identity of matches to report -dust DUST_options:DUST 過濾算法,

23、用no來禁用 -filtering_db filtering_database:l含過濾元素的數(shù)據(jù)庫的名稱-window_masker_taxid window_masker_taxid:experimental-window_masker_db window_masker_db:experimental-no _greedy):使用非貪婪動態(tài)編程擴展卜min_raw_gapped_score int_value:MzJx gap 得分vlnteger-template_type type:不連接的 megablast 模板類型templatejength:不連接的 megablast 模板長

24、度-off_diagonal_range int_value:Maxinium number of diagonals separating two hits used to initiatean extension. Increasing values of this parameter lead to a longer run time, but more sensitiveresults .If this parameter is set, a value of five is suggested. Only discontiguous megablast usestwo hits by

25、 defaultc 如果設置該參數(shù),設為 5。=04、核酸序列比對蛋白數(shù)據(jù)庫命令:blastx -query seq.fasta -out seq.blast db dbname -outfmt 6 evalue le-5 num_descriptions 10 num_threads 8參數(shù):-query:輸入文件路徑及文件名vdefault=_-out:輸出文件路徑及文件名-db:格式化了的數(shù)據(jù)庫路徑及數(shù)據(jù)庫名-outfmt:輸出文件格式,總共有12種格式,6是tabular格式對應BLAST的m8格式-evalue:設置輸出結果的e-value值-num_descriptions: ta

26、bular格式輸出結果的條數(shù)num_threads:線程數(shù)Options by program type:-query_gencode int_value):用遺傳密碼來翻譯 vdefault=l-maxJntronJength length):允許的最大的 intron 長度 Common options for 2&3&4* Input query options-query 輸入文件 Default =queryjoc 在序列上的位置(Format: start-stop)* General search optionsdb -out 輸出文件Default =-evalue E 值 D

27、efault = 101-word_size =2 wordfinder 算法字節(jié)大小gapopen vlntegerCost to open a gapgapextend vlnteger Cost to extend a gap-matrix 打分矩陣的名字(normally BLOSUM62)-threshold =0使得word能添加到BLAST查找表的最低分數(shù)* Formatting optionsoutfmt alignment view options:0 = pairwise,1 = query-anchored showing identities,2 = query-anc

28、hored no identities,3 = flat query-anchored, show iden廿ties,4 = flat query-anchored, no identities,5 = XML Blast output,6 = tabular;7 = tabular with comment linesz8 = Text ASN.l,9 = Binary ASN.l,10 = Comma-separated values,11 = BLAST archive format (ASN.l)Default = O-show_gis 是否顯示 NCBI Gls-num_descr

29、iptions =0顯示描述的數(shù)目,不適用于4Default = 500* 不兼容: max_targGt_seqs-num_alignments =0 顯示匹配的序列數(shù)Default = 2501穴不 兼容: max_target_seqs-html 是否生成 HTML output?4.2.3備注BLAST與BLAST+之間的差異:BLAST+使用了 BLAST的核心算法,延續(xù)了 BLAST的優(yōu)勢功能,發(fā)展并增強了如BLAST的 fastacmd 程序,新增 了 如 update_blastdb.pl 等程序一模塊化:三個過程:setup, scanning trace-back-ISO

30、C99標準,可被c或C+使用-Database mask:之前的版本需要第三方軟件如RepeatMasker來mask數(shù)據(jù)庫,c現(xiàn)在內(nèi) 置了 WindowMasker和DUST來進行重復序列過濾。-(吏 用 Query split, Partial subject sequence retrieval 以及 Retrieving subject sequences from an arbitrary source等策略來提高長序列(如染色體序列)的比對效率,有效的降低了CPU時間,充分使用了一、二級緩存。-全新的命令行參數(shù)使用方式,添加了長字符串作為參數(shù)的支持,如-out,而不是以前的-。 分

31、離blastn, blastp, blastx等作為獨立的程序以替代之前的biastali -p blastn模式。-makeblastdb/ blastdb_aliastool, blastdbcmd三個程序都和數(shù)據(jù)庫有關,增強了數(shù)據(jù)庫方而 的處理。添加Best-Hit算法,只報告最優(yōu)的Hit。-添加了保存search strategy的功能,所謂search strategy也就是程序運行時的參數(shù)等信息。4.3結果解這里通過一個小例子來介紹一下BLAST結果的含義:命令:blastn -query NC_001147_6.FASTA -db yeast -dust no -parse_de

32、flines resultl.log-header:BLASTN 2.2.28+Referenee: Zheng Zhang, Scott Schwartz, Lukas Wagner, and WebbMiller (2000), A greedy algorithm for aligning DNA sequences1, JComput Biol 2000o 7(1-2):203-14Database: yeast.fasta17 sequenceso 12,155,026 total letters一Query:Query information:對一個query序列的基本信息描述Se

33、quences producing significant alignments:對所有 subjects 的簡要 list Subjects:每個subjects是query序列在數(shù)據(jù)庫中比對上的一條序列。Query二 QuerySaccharomyces cerevisiae S288c chromosome Xref|NC_001147.11 Saccharomyces cerevisiae chromosome XV, complete chromosome sequence (序列名稱) Length=1091283(subject 長度)Score = 1718 bits (930

34、), Expect = 0.0Identities = 93030 (100%), Gaps = 0/930 (0%)Strand=Plus/Plus(Score Expect. Identities. Gaps, Strand)(Query start)(Query end)Query 1ATGTTTTCAAATCTATCTAAACGnGGGCTCAAAGGACCCTCTCGAAAAGTTTCTACTCT 60llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllSbjct 447440 ATGTTTTCAAATCTATCTA

35、AACGTTGGGCTCAAAGGACCCTCTCGAAAAGTTTCTACTCT 447499 (Subjet start)(Subject end)Query 61 ACCGCAACAGGTGCTGCTAGTAAATCTGGCAAGCTTACTCAAAAGCTCGTTACAGCGGGT 120llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllSbjct 447500 ACCGCAACAGGTGCTGCTAGTAAATCTGGCAAGCTTACTCAAAAGCTCGTTACAGCGGGT 447559LambdaKH1.330.6211.12GappedLambdaKH1.280.4600.850Effective search space used: 11012083908Database: y

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論