研究生序列對比和數(shù)據(jù)庫搜索_第1頁
研究生序列對比和數(shù)據(jù)庫搜索_第2頁
研究生序列對比和數(shù)據(jù)庫搜索_第3頁
研究生序列對比和數(shù)據(jù)庫搜索_第4頁
研究生序列對比和數(shù)據(jù)庫搜索_第5頁
已閱讀5頁,還剩131頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、ll第一節(jié)第一節(jié)概述概述 l在生物學(xué)的研究中,有一個(gè)最常用和最經(jīng)典的研究手段,就是通過比較分析獲取有用的信息和知識。通過將研究對象相互比較來尋找對象可能具備的特性。我們從核酸以及氨基酸的一級結(jié)構(gòu)層次分析序列的相同點(diǎn)和不同點(diǎn),以期能夠推測它們的結(jié)構(gòu)、功能以及進(jìn)化上的聯(lián)系。最常用的比較方法是序列對比,它為兩個(gè)或更多個(gè)序列的殘基之間的相互關(guān)系提供了一個(gè)非常明確的圖譜。通過比較兩個(gè)序列之間的相似區(qū)域和保守性位點(diǎn),尋找二者可能的分子進(jìn)化關(guān)系。 l進(jìn)一步的對比是將多個(gè)蛋白質(zhì)或核酸同時(shí)進(jìn)行比較,尋找這些有進(jìn)化關(guān)系的序列之間共同的保守區(qū)域、位點(diǎn)和圖譜,分析產(chǎn)生共同功能的序列模式。此外,還可以把蛋白質(zhì)序列與核酸

2、序列相比來探索核酸序列可能的表達(dá)框架;把蛋白質(zhì)序列與具有三維結(jié)構(gòu)信息的蛋白質(zhì)相比,從而獲得蛋白質(zhì)空間結(jié)構(gòu)的信息。 第二節(jié)第二節(jié)序列對比和數(shù)據(jù)庫搜索序列對比和數(shù)據(jù)庫搜索ll我們都很清楚,生物物種之間存在進(jìn)化關(guān)系,我們對基因和蛋白質(zhì)序列進(jìn)行比較,從本質(zhì)上來講是同達(dá)爾文一樣,進(jìn)行同樣的比較分析,只不過更加精細(xì),更加詳盡,如果兩個(gè)序列之間具有足夠的相似性,就推測二者可能有共同的進(jìn)化祖先,經(jīng)過序列內(nèi)殘基的替換、殘基或序列片段的缺失以及序列重組等遺傳變異過程分別演化而來。值得注意的是序列相似和序列同源是不同的概念,序列之間的相似程度是可以量化的參數(shù),而序列是否同源需要有進(jìn)化事實(shí)的驗(yàn)證。 gb|AAA419

3、76.1|gb|AAA41976.1| (M27883) pancreatic secretory trypsin (M27883) pancreatic secretory trypsin inhibitor type II inhibitor type II precursorprecursor Rattus norvegicus Rattus norvegicus Length = 79 Length = 79 Score = 109 bits (272), Expect = 6e-24 Score = 109 bits (272), Expect = 6e-24 Identities

4、= 53/79 (67%), Positives = 61/79 (77%) Identities = 53/79 (67%), Positives = 61/79 (77%) Query: 1 MKVTGIFLLSALALLSLSGNTGADSLGREAKCYNELNGCTKIYDPVCGTDGNTYPNECVL 60Query: 1 MKVTGIFLLSALALLSLSGNTGADSLGREAKCYNELNGCTKIYDPVCGTDGNTYPNECVL 60 MKV IFLLSALALL+L+GNT A +G+A C N L GC + YDPVCGTDG TY NEC+L MKV IFLL

5、SALALL+L+GNT A +G+A C N L GC + YDPVCGTDG TY NEC+LSbjctSbjct: 1 MKVAIIFLLSALALLNLAGNTTAKVIGKKANCPNTLIGCPRDYDPVCGTDGKTYANECIL 60: 1 MKVAIIFLLSALALLNLAGNTTAKVIGKKANCPNTLIGCPRDYDPVCGTDGKTYANECIL 60Query: 61 CFENRKRQTSILIQKSGPC 79Query: 61 CFENRKRQTSILIQKSGPC 79 CFENRK TSI IQ+ G C CFENRK TSI IQ+ G CSbjct

6、Sbjct: 61 CFENRKFGTSIRIQRRGLC 79: 61 CFENRKFGTSIRIQRRGLC 79圖3.1 對人和褐家鼠pancreatic secretory trypsin inhibitor蛋白序列作對比,能形成二硫鍵的半胱氨酸殘基極為保守。 l在殘基-殘基對比中,很明顯,某些位置的氨基酸殘基相對于其它位置的殘基具有較高的保守性,這個(gè)信息揭示了某些殘基對于一個(gè)蛋白質(zhì)的結(jié)構(gòu)和功能是極為重要的。如圖3.1所示,處于活性位點(diǎn)的殘基都是極為保守的,比如形成二硫鍵的半胱氨酸,參與電子傳遞的氨基酸殘基以及決定底物特異性的氨基酸殘基。這些保守的殘基對于保持蛋白的結(jié)構(gòu)與功能非常重要,

7、另一方面,由于歷史原因,某些保守位置對蛋白功能并無太大的重要性。 l當(dāng)我們處理非常相近的物種時(shí)必須十分小心,因?yàn)橄嗨菩栽谀承┣闆r下更多地是歷史的反映而不是功能的反映,比如,mouse和rat的某些序列具有高度的相似性,可能僅僅是因?yàn)闆]有足夠的時(shí)間進(jìn)行分化而已。盡管如此,系列對比仍然是從已知獲得未知的一個(gè)十分有用的方法,比如通過比較一個(gè)新的蛋白同其它已經(jīng)經(jīng)過深入研究的蛋白,可以推斷這個(gè)未知蛋白的結(jié)構(gòu)與功能的某些性質(zhì)。 l例如它們可能是酶的活性位點(diǎn)殘基,形成二硫鍵的半胱氨酸殘基,與配體結(jié)合部位的殘基,與金屬離子結(jié)合的殘基,形成特定結(jié)構(gòu)motif的殘基等等。但并不是所有保守的殘基都一定是結(jié)構(gòu)功能重要

8、的,可能它們只是由于歷史的原因被保留下來,而不是由于進(jìn)化壓力而保留下來。因此,如果兩個(gè)序列有顯著的保守性,要確定二者具有共同的進(jìn)化歷史,進(jìn)而認(rèn)為二者有近似的結(jié)構(gòu)和功能還需要更多實(shí)驗(yàn)和信息的支持。 l通過大量實(shí)驗(yàn)和序列對比的分析,一般認(rèn)為蛋白質(zhì)的結(jié)構(gòu)和功能比序列具有更大的保守性,因此粗略的說,如果序列之間的相似性超過30%,它們就很可能是同源的。必須指出的是,理論分析只提供了序列進(jìn)化的可能性,不能夠僅僅是通過比較分析這一判據(jù)來斷定結(jié)論是否正確,結(jié)論還必須經(jīng)過實(shí)驗(yàn)驗(yàn)證。 l早期的序列對比是全局的序列比較,但早期的序列對比是全局的序列比較,但由于蛋白質(zhì)具有的模塊性質(zhì),可能由于由于蛋白質(zhì)具有的模塊性質(zhì)

9、,可能由于外顯子的交換而產(chǎn)生新蛋白質(zhì),因此局外顯子的交換而產(chǎn)生新蛋白質(zhì),因此局部對比會更加合理。通常用打分矩陣描部對比會更加合理。通常用打分矩陣描述序列兩兩對比,兩條序列分別作為矩述序列兩兩對比,兩條序列分別作為矩陣的兩維,矩陣點(diǎn)是兩維上對應(yīng)兩個(gè)殘陣的兩維,矩陣點(diǎn)是兩維上對應(yīng)兩個(gè)殘基的相似性分?jǐn)?shù),分?jǐn)?shù)越高則說明兩個(gè)基的相似性分?jǐn)?shù),分?jǐn)?shù)越高則說明兩個(gè)殘基越相似。殘基越相似。l序列對比問題變成在矩陣?yán)飳ふ易罴褜Ρ嚷窂?,目前最有效的方法是Needleman-Wunsch動(dòng)態(tài)規(guī)劃算法,在此基礎(chǔ)上又改良產(chǎn)生了Smith-Waterman算法和SIM算法。在FASTA程序包中可以找到用動(dòng)態(tài)規(guī)劃算法進(jìn)行序列

10、對比的工具LALIGN,它能給出多個(gè)不相互交叉的最佳對比結(jié)果。 l在進(jìn)行序列兩兩對比時(shí),有兩方面問題直接影響相似性分值:取代矩陣和空位罰分。粗糙的對比方法僅僅用相同/不同來描述兩個(gè)殘基的關(guān)系,顯然這種方法無法描述殘基取代對結(jié)構(gòu)和功能的不同影響效果,纈氨酸對異亮氨酸的取代與谷氨酸對異亮氨酸的取代應(yīng)該給予不同的打分。 l因此如果用一個(gè)取代矩陣來描述氨基酸殘基兩兩取代的分值會大大提高對比的敏感性和生物學(xué)意義。雖然針對不同的研究目標(biāo)和對象應(yīng)該構(gòu)建適宜的取代矩陣,但國際上常用的取代矩陣有PAM和BLOSUM等,它們來源于不同的構(gòu)建方法和不同的參數(shù)選擇,包括PAM250、BLOSUM62、BLOSUM90

11、、BLOSUM30等。對于不同的對象可以采用不同的取代矩陣以獲得更多信息,例如對同源性較高的序列可以采用BLOSUM90矩陣,而對同源性較低的序列可采用BLOSUM30矩陣。 l空位罰分是為了補(bǔ)償插入和缺失對序列相似性的影響,由于沒有什么合適的理論模型能很好地描述空位問題,因此空位罰分缺乏理論依據(jù)而更多的帶有主觀特色。一般的處理方法是用兩個(gè)罰分值,一個(gè)對插入的第一個(gè)空位罰分,如1015;另一個(gè)對空位的延伸罰分,如12。對于具體的對比問題,采用不同的罰分方法會取得不同的效果。 l對于對比計(jì)算產(chǎn)生的分值,到底多大才能說明兩個(gè)序列是同源的,對此有統(tǒng)計(jì)學(xué)方法加以說明,主要的思想是把具有相同長度的隨機(jī)序

12、列進(jìn)行對比,把分值與最初的對比分值相比,看看對比結(jié)果是否具有顯著性。相關(guān)的參數(shù)E代表隨機(jī)對比分值不低于實(shí)際對比分值的概率。對于嚴(yán)格的對比,E值必須低于一定閾值才能說明對比的結(jié)果具有足夠的統(tǒng)計(jì)學(xué)顯著性,這樣就排除了由于偶然的因素產(chǎn)生高對比得分的可能。 lGenbank、SWISS-PROT等序列數(shù)據(jù)庫提供的序列搜索服務(wù)都是以序列兩兩對比為基礎(chǔ)的。不同之處在于為了提高搜索的速度和效率,通常的序列搜索算法都進(jìn)行了一定程度的優(yōu)化,如最常見的FASTA工具和BLAST工具。 lFASTA是第一個(gè)被廣泛應(yīng)用的序列對比和搜索工具包,包含若干個(gè)獨(dú)立的程序。FASTA為了提高序列搜索的速度,會先建立序列片段的“

13、字典”,查詢序列先會在字典里搜索可能的匹配序列,字典中的序列長度由ktup參數(shù)控制,缺省的ktup=2。FASTA的結(jié)果報(bào)告中會給出每個(gè)搜索到的序列與查詢序列的最佳對比結(jié)果,以及這個(gè)對比的統(tǒng)計(jì)學(xué)顯著性評估E值。FASTA工具包可以在大多提供下載服務(wù)的生物信息學(xué)站點(diǎn)上找到。 lBLAST是現(xiàn)在應(yīng)用最廣泛的序列相似性搜索工具,相比FASTA有更多改進(jìn),速度更快,并建立在嚴(yán)格的統(tǒng)計(jì)學(xué)基礎(chǔ)之上。用戶輸入網(wǎng)址:/blast就可以進(jìn)入BLAST網(wǎng)頁。 l一、BLAST搜索主界面l如圖3.2;3.3,最新版本為BLAST 2.2.18 ,其子集BLASTP

14、可達(dá)2.2.1。今年作了較大的更新,具體功能包括: l組合基因組檢索;l分為標(biāo)準(zhǔn)的核酸與核酸數(shù)據(jù)庫搜索;lMEGABLAST提供大量長序列的比較;l完全匹配的短序列搜索;l特殊搜索。 l分為標(biāo)準(zhǔn)的蛋白與蛋白數(shù)據(jù)庫搜索;PSI-and PHI-BLAST,其中PSI用于搜索證實(shí)遠(yuǎn)源進(jìn)化關(guān)系的存在與否和進(jìn)一步獲取這個(gè)蛋白家族中的功能信息,而PHI用于搜索蛋白基序;同樣包括蛋白的完全匹配的短序列搜索。 l包括blastx,tblastn,tblastx 程序程序數(shù)據(jù)庫數(shù)據(jù)庫查查詢詢簡簡述述blastp蛋白質(zhì)蛋白質(zhì)氨基酸序列氨基酸序列可能找到具有遠(yuǎn)源進(jìn)化關(guān)系的匹配序可能找到具有遠(yuǎn)源進(jìn)化關(guān)系的匹配序列列

15、blastn核苷酸核苷酸核苷酸序列核苷酸序列適合尋找分值較高的匹配,不適合遠(yuǎn)適合尋找分值較高的匹配,不適合遠(yuǎn)源關(guān)系源關(guān)系blastx蛋白質(zhì)蛋白質(zhì)核苷酸序列所有核苷酸序列所有閱讀框架的翻譯閱讀框架的翻譯產(chǎn)物產(chǎn)物適合新適合新DNA序列和序列和EST序列的分析,序列的分析,能夠發(fā)現(xiàn)未知核酸序列潛在的翻譯產(chǎn)能夠發(fā)現(xiàn)未知核酸序列潛在的翻譯產(chǎn)物物tblastn所有閱讀框架所有閱讀框架動(dòng)態(tài)翻譯的核動(dòng)態(tài)翻譯的核苷酸序列苷酸序列蛋白質(zhì)序列蛋白質(zhì)序列適合尋找數(shù)據(jù)庫中尚未標(biāo)注的編碼區(qū)適合尋找數(shù)據(jù)庫中尚未標(biāo)注的編碼區(qū)tblastx核苷酸序列核苷酸序列6個(gè)閱讀框架的個(gè)閱讀框架的翻譯產(chǎn)物翻譯產(chǎn)物核苷酸序列核苷酸序列6個(gè)個(gè)

16、閱讀框架的翻譯閱讀框架的翻譯產(chǎn)物產(chǎn)物適合分析適合分析EST序列,序列,l4、保守區(qū)域的搜索:主要使用RPS-BLAST程序完成。l5、配對序列的兩兩比較:用于核酸和蛋白的兩兩比較分析。l6、針對特定數(shù)據(jù)庫的搜索:比如人類基因組、微生物基因組等。Table 3.1 Program Selection for Nucleotide QueriesLength DatabasePurposeProgramExplanation20 bp or longer28 bp or above for megablastNucleotideIdentify the query sequencedisconti

17、guous megablast,megablast, orblastnLearn more .Find sequences similar to query sequencediscontiguous megablast or blastnLearn more .Find similar sequence from the Trace archiveTrace megablast, or Trace discontiguous megablastLearn more .Find similar proteins to translated query in a translated datab

18、aseTranslated BLAST (tblastx)Learn more .PeptideFind similar proteins to translated query in a protein databaseTranslated BLAST (blastx)Learn more .7 - 20 bpNucleotideFind primer binding sites or map short contiguous motifsSearch for short, nearly exact matchesLearn more .Table 2.1 Content of Protei

19、n Sequence DatabasesDatabaseContent DescriptionnrNon-redundant GenBank CDS translations + PDB + SwissProt + PIR + PRF, excluding those in env_nr. Protein sequences from NCBI reference sequence project.swissprotLast major release of the SWISS-PROT protein sequence database (no incremental updates).pa

20、tProteins from the Patent division of GenBank.monthAll new or revised GenBank CDS translations + PDB + SwissProt + PIR + PRF released in the last 30 days.pdbSequences derived from the 3-dimensional structure records from the Protein Data Bank. Non-redundant CDS translations from env_nt entries.Table

21、 2.2 Nucleotide Databases for BLASTDatabaseContent DescriptionnrAll GenBank + EMBL + DDBJ + PDB sequences (but no EST, STS, GSS, or phase 0, 1 or 2 HTGS sequences). No longer non-redundant due to computational cost.refseq_mrna mRNA sequences from NCBI Reference Sequence Project.refseq_genomic Genomi

22、c sequences from NCBI Reference Sequence Project.estDatabase of GenBank + EMBL + DDBJ sequences from EST division.est_humanHuman subset of est.est_mouseMouse subset of est.est_othersSubset of est other than human or mouse.gssGenome Survey Sequence, includes single-pass genomic data, exon-trapped seq

23、uences, and Alu PCR sequences.htgsUnfinished High Throughput Genomic Sequences: phases 0, 1 and 2. Finished, phase 3 HTG sequences are in nr.patNucleotides from the Patent division of GenBank.pdbSequences derived from the 3-dimensional structure records from Protein Data Bank. They are NOT the codin

24、g sequences for the coresponding proteins found in the same PDB record.monthAll new or revised GenBank+EMBL+DDBJ+PDB sequences released in the last 30 days.alu_repeatsSelect Alu repeats from REPBASE, suitable for masking Alu repeats from query sequences. See Alu alert by Claverie and Makalowski, Nat

25、ure 371: 752 (1994).dbstsDatabase of Sequence Tag Site entries from the STS division of GenBank + EMBL + DDBJ.chromosomeComplete genomes and complete chromosomes from the NCBI Reference Sequence project. It overlaps with refseq_genomic.wgsAssemblies of Whole Genome Shotgun sequences.env_nt Sequences

26、 from environmental samples, such as uncultured bacterial samples isolated from soil or marine samples. The largest single source is Sagarsso Sea project. This does overlap with nucleotide nr.l三、 BLAST搜索格式:lBLAST搜索框中允許三種輸入格式l(一)FASTA格式: FASTA格式第一行是描述行,第一個(gè)字符必須是”字符;隨后的行是序列本身,一般每行序列不要超過80個(gè)字符,各行之間不允許有空行

27、,回車符不會影響程序?qū)π蛄羞B續(xù)性的看法。序列由標(biāo)準(zhǔn)的IUB/IUPAC氨基酸和核酸代碼代表;小寫字符會全部轉(zhuǎn)換成大寫,序列可由基因庫中調(diào)出,亦可自行輸入。 lgi|129295|sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED) QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS VLMALGMTDLFIPS

28、ANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPES l1核酸輸入代碼如下: lA - adenosine(腺嘌呤) M - A C (amino) 氨基的lC - cytidine (胞嘧啶) S - G C (strong) 強(qiáng)的lG - guanine (鳥嘌呤) W - A T (weak) 弱的 lT - thymidine(胸腺嘧啶) B - G T C lU - uridine (尿嘧啶) D - G A TlR - G A (purine)嘌呤 H - A C TlY - T C (pyrimidine)嘧啶 V - G C Al K

29、 - G T (keto) 酮基的 N - A G C T (any)其中任 何一個(gè)gap of indeterminate length 不明長度的空位 l2氨基酸輸入代碼如下(BLASTP、TBLASTN接受的):lA alanine (丙氨酸) P proline(脯氨酸)lB aspartate or asparagine (天門冬氨酸) Q glutamine (谷氨酰胺)lC cystine (胱氨酸) R arginine(精氨酸)lD aspartate(天冬氨酸) S serine(絲氨酸)lE glutamate(谷氨酸鹽) T threonine(蘇氨酸)lF pheny

30、lalanine(苯丙氨酸) U selenocysteine(硒代半胱氨酸)lG glycine(甘氨酸) V valine(纈氨酸)lH histidine(組氨酸) W tryptophan(色氨酸 )lI isoleucine(異亮氨酸) Y tyrosine(酪氨酸)lK lysine (賴氨酸) Z glutamate or glutaminelL leucine (亮氨酸) X any(任何一種氨基酸)lM methionine(蛋氨酸) * translation stop(翻譯終止符)lN asparagine(天冬酰胺) - gap of indeterminate len

31、gthl(二)單純序列數(shù)據(jù)輸入格式:該格式無FASTA描述定義行亦可,是GenBank/GenPept中的單純文本格式。如下: QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTSVLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP 1 qikdllvsss tdldttlvlv n

32、aiyfkgmwk tafnaedtre mpfhvtkqes kpvqmmcmnn 61 sfnvatlpae kmkilelpfa sgdlsmlvll pdevsdleri ektinfeklt ewtnpntmek121 rrvkvylpqm kieekynlts vlmalgmtdl fipsanltgi ssaeslkisq avhgafmels 181 edgiemagst gviedikhsp eseqfradhp flflikhnpt ntivyfgryw spl(三)標(biāo)識符格式:(三)標(biāo)識符格式:l通常只輸入NCBI存取號、存取號版號或基因庫中的標(biāo)識符號,如p01013,

33、AAA68881.1, 129295。亦可有NCBI中帶有分隔豎線的序列標(biāo)識符, l注意注意:l用以上三種輸入格式輸入信息時(shí),蛋白質(zhì)必須對應(yīng)搜索蛋白質(zhì)的程序,核酸必須對應(yīng)搜索核酸的程序,否則提交不能成功。 l第三節(jié)第三節(jié)同源性分析同源性分析 待檢核酸序列與整個(gè)核酸序列庫中的序列進(jìn)行類比以檢索E-cadherin部分序列為例。 l在“search”框中可輸入基因的標(biāo)識符或單純序列格式或FASTA格式,并可限制序列的起點(diǎn)和終點(diǎn),根據(jù)需要選擇數(shù)據(jù)類型(本例選nr),在高級選項(xiàng)中可進(jìn)一步限定條件,設(shè)定好后點(diǎn)擊BLAST按紐提交。 l圖3.6 BLAST兩兩比較提交界面l在BLAST主頁中選Pairwi

34、se BLAST中的BLAST 2 Sequences,進(jìn)入兩兩比較界面如圖3.6,在程序中選blastn,分別輸入兩個(gè)基因的標(biāo)識符或FASTA格式的序列,堿基數(shù)不要超過150Kb,可進(jìn)一步限定條件,然后點(diǎn)擊Align按紐即可提交,等待結(jié)果。l三、蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫或蛋白質(zhì)兩兩比較l1蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫比較:l選Protein BLAST中的Standard Protein-Protein BLASTblastp與蛋白質(zhì)數(shù)據(jù)庫比較,輸入方法基本與核酸比較相同,存取號或序列內(nèi)容必須是蛋白質(zhì)庫中的。 l2蛋白質(zhì)的兩兩比較:在Pairwise BLAST中的BLAST 2 Sequences程序

35、中進(jìn)行,在程序中選blastp,序列輸入格式同上。其輸出搜索結(jié)果見圖3.7,進(jìn)一步點(diǎn)擊Format button可看詳細(xì)結(jié)果。圖圖3.7蛋白質(zhì)的兩兩比較輸出搜索結(jié)果蛋白質(zhì)的兩兩比較輸出搜索結(jié)果l1結(jié)果總覽圖:通用于蛋白質(zhì)和核酸的結(jié)果表示。圖中列了紅、粉、綠、藍(lán)、黑五種顏色,紅色同源性最高,排在最上面,其它各種顏色同源性逐漸降低; l各種顏色同源性逐漸降低;每條圖代表搜索蛋白質(zhì)匹配的序列;如果出現(xiàn)陰影區(qū),其對應(yīng)的是二個(gè)或多個(gè)搜索數(shù)據(jù)庫相似序列中的非相似區(qū);鼠標(biāo)指在哪條圖上,圖上面的框中會顯示匹配蛋白質(zhì)或核酸的名字;同一條圖內(nèi)的分離部分對應(yīng)于無關(guān)的采樣數(shù)。 l2顯著性序列列表:如圖3.10所示,最

36、有顯著性(同源性最高)的行排在最上面,其E值最低,排列行按E值增加排序;每行四部分描述內(nèi)容:數(shù)據(jù)序列標(biāo)識符,對該序列的簡單描述,在每個(gè)數(shù)據(jù)庫中搜索得到的分?jǐn)?shù)E值;點(diǎn)擊序列標(biāo)識符可以連接到GenBank;點(diǎn)擊分?jǐn)?shù)可連接到對應(yīng)的相互比較的序列行。 l3行列比較:因申請者提交的要求行列可有不同的輸出形式,系統(tǒng)默認(rèn)的是配對行列輸出格式,即查詢序列與數(shù)據(jù)庫中匹配的序列垂直對應(yīng)。針對蛋白質(zhì)查詢而言,相同的殘基排在二序列之間,用“+”表示保守性殘基;針對DNA而言,垂直線連接相同的堿基??瘴徊糠执聿樵冃蛄信c檢索匹配序列不一致。由于過濾作用,在低復(fù)雜區(qū)氨基酸查詢序列可以包含Xs(核苷酸包含Ns)。HPSs中

37、可列出每個(gè)檢索數(shù)據(jù)庫中的多個(gè)行列。 l相關(guān)的參數(shù)E值代表隨機(jī)比較分值不低于實(shí)際比較分值的概率。對于嚴(yán)格的比較,必須E值低于一定閾值才能說明比較的結(jié)果具有足夠的統(tǒng)計(jì)學(xué)顯著性,這樣就排除了由于偶然的因素產(chǎn)生高比較得分的可能。具體界定值在搜索設(shè)置中界定,系統(tǒng)默認(rèn)為10,搜索的嚴(yán)謹(jǐn)度越高,E值越小。若要比較短序列,獲得更多的信息,則可增加E值到1000或更高;或降低字符大?。╓),經(jīng)驗(yàn)之法是查詢序列至少是W的二倍;或禁止過濾功能的使用;或改變矩陣以優(yōu)化搜索序列。 l l第四節(jié)第四節(jié)PSI-BLAST程序簡介程序簡介llBLAST的當(dāng)前版本是2.2.10,它的新發(fā)展是位點(diǎn)特異性反復(fù)BLAST(PSI-B

38、LAST)。PSI-BLAST的特色是每次用profile搜索數(shù)據(jù)庫后再利用搜索的結(jié)果重新構(gòu)建profile,然后用新的profile再次搜索數(shù)據(jù)庫,如此反復(fù)直至沒有新的結(jié)果產(chǎn)生為止。PSI-BLAST先用帶空位的BLAST搜索數(shù)據(jù)庫,將獲得的序列通過多序列比較來構(gòu)建第一個(gè)profile。PSI-BLAST自然地拓展了BLAST方法,能尋找蛋白質(zhì)序列中的隱含模式,有研究表明這種方法可以有效的找到很多序列差異較大而結(jié)構(gòu)功能相似的相關(guān)蛋白,甚至可以與一些結(jié)構(gòu)比較方法,如threading相媲美。PSI-BLAST服務(wù)可以在NCBI的BLAST主頁上找到,還可以從NCBI的FTP服務(wù)器上下載PSI-

39、BLAST的獨(dú)立程序。 PSI-BLAST程序程序第五節(jié)第五節(jié)多序列比較多序列比較ll顧名思義,多序列比較就是把兩條以上可能有系統(tǒng)進(jìn)化關(guān)系的序列進(jìn)行比較的方法。目前對多序列比較的研究還在不斷前進(jìn)中,現(xiàn)有的大多數(shù)算法都基于漸進(jìn)的比較的思想,在序列兩兩比較的基礎(chǔ)上逐步優(yōu)化多序列比較的結(jié)果。進(jìn)行多序列比較后可以對比較結(jié)果進(jìn)行進(jìn)一步處理,例如構(gòu)建序列模式的profile,將序列聚類構(gòu)建分子進(jìn)化樹等等。 l目前使用最廣泛的多序列比較程序是CLUSTALW(它的PC版本是CLUSTALX)。CLUSTALW是一種漸進(jìn)的比較方法,先將多個(gè)序列兩兩比較構(gòu)建距離矩陣,反映序列之間兩兩關(guān)系;然后根據(jù)距離矩陣計(jì)算產(chǎn)

40、生系統(tǒng)進(jìn)化指導(dǎo)樹,對關(guān)系密切的序列進(jìn)行加權(quán);然后從最緊密的兩條序列開始,逐步引入臨近的序列并不斷重新構(gòu)建比較,直到所有序列都被加入為止。 lCLUSTALW的程序可以自由使用,在NCBI的FTP服務(wù)器上可以找到下載的軟件包。CLUSTALW程序用選項(xiàng)單逐步指導(dǎo)用戶進(jìn)行操作,用戶可根據(jù)需要選擇打分矩陣、設(shè)置空位罰分等。EBI的主頁還提供了基于Web的CLUSTALW服務(wù),用戶可以把序列和各種要求通過表單提交到服務(wù)器上,服務(wù)器把計(jì)算的結(jié)果用Email返回用戶。 lCLUSTALW對輸入序列的格式比較靈活,可以是前面介紹過的FASTA格式,還可以是PIR、SWISS-PROT、GDE、Clustal

41、、GCG/MSF、RSF等格式。輸出格式也可以選擇,有ALN、GCG、PHYLIP和GDE等,用戶可以根據(jù)自己的需要選擇合適的輸出格式。 l在CLUSTALW得到的多序列比較結(jié)果中,所有序列排列在一起,并以特定的符號代表各個(gè)位點(diǎn)上殘基的保守性,”*”號表示保守性極高的殘基位點(diǎn);”.”號代表保守性略低的殘基位點(diǎn)。 lE B I 的 C L U S T A L W 網(wǎng) 址 是 :http:/www.ebi.ac.uk/clustalw/。 l下載CLUSTALW的網(wǎng)址是:ftp:/ftp.ebi.ac.uk/pub/software/。 l關(guān)于序列比較,對比方法多種多樣,很有必要從中挑選出最好的一

42、個(gè)或幾個(gè)方法,這就是把一種對比描述成一個(gè)路徑。許多計(jì)算機(jī)科學(xué)的問題都可以簡化為通過圖表尋求最優(yōu)路徑。為了這一目的已經(jīng)確立了許多行之有效的算法,對每一種路徑都有必要對其進(jìn)行某種意義上的打分,通常是對沿這一途徑的每一步的增量進(jìn)行加和。假定相同殘基加正分,有插入或缺失的殘基就加負(fù)分(扣分),根據(jù)這一定義,最合適的對比方法會得到最高分,也就是我們尋找的最佳路徑。 l應(yīng)該注意,尋優(yōu)方法總是把最佳的對比方法表達(dá)出來,而不在意它是否具有生物學(xué)意義,另一方面,尋求局部對比時(shí)可能會發(fā)現(xiàn)若干個(gè)重要的對比,因此,不能僅僅注意最佳的一個(gè)。 l不管是蛋白還是核酸都包含一些特殊的區(qū)域,在進(jìn)行序列數(shù)據(jù)庫搜索時(shí)這些區(qū)域可能會導(dǎo)致一些令人迷惑的結(jié)果。這些低復(fù)雜度區(qū)域(LCRs)在從明顯的同性聚合順串和短周期重復(fù)到更精細(xì)的情況(如其中某些或一些殘基過多表現(xiàn))的范圍內(nèi)變化。LCRs的進(jìn)化、功能和結(jié)構(gòu)性質(zhì)并沒有被很好地了解。 l在DNA中,有許多種簡單的重復(fù),其中一些已經(jīng)知道是高度多態(tài)性的,并且在作基因圖譜時(shí)經(jīng)常使用的。它們產(chǎn)生的機(jī)制可能是聚合酶滑動(dòng)、偏頗核苷酸取代或者不等交換。LCRs更偏好于在結(jié)構(gòu)上以非球形區(qū)域的形式存在,那些在物理化

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論