研究生第三章序列對比和數據庫搜索

上傳人：2*** IP屬地：湖北上傳時間：2023-02-05 格式：PPT 頁數：136 大?。?.96MB 積分：30 舉報 版權申訴

已閱讀5頁，還剩131頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

第三章序列對比和數據庫搜索

第一節(jié)概述

在生物學的研究中,有一個最常用和最經典的研究手段,就是通過比較分析獲取有用的信息和知識。通過將研究對象相互比較來尋找對象可能具備的特性。我們從核酸以及氨基酸的一級結構層次分析序列的相同點和不同點，以期能夠推測它們的結構、功能以及進化上的聯(lián)系。最常用的比較方法是序列對比，它為兩個或更多個序列的殘基之間的相互關系提供了一個非常明確的圖譜。通過比較兩個序列之間的相似區(qū)域和保守性位點，尋找二者可能的分子進化關系。進一步的對比是將多個蛋白質或核酸同時進行比較，尋找這些有進化關系的序列之間共同的保守區(qū)域、位點和圖譜，分析產生共同功能的序列模式。此外，還可以把蛋白質序列與核酸序列相比來探索核酸序列可能的表達框架；把蛋白質序列與具有三維結構信息的蛋白質相比，從而獲得蛋白質空間結構的信息。第二節(jié)

序列對比和數據庫搜索

我們都很清楚，生物物種之間存在進化關系，我們對基因和蛋白質序列進行比較，從本質上來講是同達爾文一樣，進行同樣的比較分析，只不過更加精細，更加詳盡，如果兩個序列之間具有足夠的相似性，就推測二者可能有共同的進化祖先，經過序列內殘基的替換、殘基或序列片段的缺失以及序列重組等遺傳變異過程分別演化而來。值得注意的是序列相似和序列同源是不同的概念，序列之間的相似程度是可以量化的參數，而序列是否同源需要有進化事實的驗證。>gb|AAA41976.1|(M27883)pancreaticsecretory

trypsininhibitortypeIIprecursor[Rattus

norvegicus]Length=79Score=109bits(272),Expect=6e-24Identities=53/79(67%),Positives=61/79(77%)

Query:1MKVTGIFLLSALALLSLSGNTGADSLGREAKCYNELNGCTKIYDPVCGTDGNTYPNECVL60MKVIFLLSALALL+L+GNTA+G++ACNLGC+YDPVCGTDGTYNEC+LSbjct:1MKVAIIFLLSALALLNLAGNTTAKVIGKKANCPNTLIGCPRDYDPVCGTDGKTYANECIL60Query:61CFENRKRQTSILIQKSGPC79CFENRKTSIIQ+GCSbjct:61CFENRKFGTSIRIQRRGLC79圖3.1對人和褐家鼠pancreaticsecretory

trypsininhibitor蛋白序列作對比，能形成二硫鍵的半胱氨酸殘基極為保守。在殘基-殘基對比中，很明顯，某些位置的氨基酸殘基相對于其它位置的殘基具有較高的保守性，這個信息揭示了某些殘基對于一個蛋白質的結構和功能是極為重要的。如圖3.1所示，處于活性位點的殘基都是極為保守的，比如形成二硫鍵的半胱氨酸，參與電子傳遞的氨基酸殘基以及決定底物特異性的氨基酸殘基。這些保守的殘基對于保持蛋白的結構與功能非常重要，另一方面，由于歷史原因，某些保守位置對蛋白功能并無太大的重要性。當我們處理非常相近的物種時必須十分小心，因為相似性在某些情況下更多地是歷史的反映而不是功能的反映，比如，mouse和rat的某些序列具有高度的相似性，可能僅僅是因為沒有足夠的時間進行分化而已。盡管如此，系列對比仍然是從已知獲得未知的一個十分有用的方法，比如通過比較一個新的蛋白同其它已經經過深入研究的蛋白，可以推斷這個未知蛋白的結構與功能的某些性質。例如它們可能是酶的活性位點殘基，形成二硫鍵的半胱氨酸殘基，與配體結合部位的殘基，與金屬離子結合的殘基，形成特定結構motif的殘基等等。但并不是所有保守的殘基都一定是結構功能重要的，可能它們只是由于歷史的原因被保留下來，而不是由于進化壓力而保留下來。因此，如果兩個序列有顯著的保守性，要確定二者具有共同的進化歷史，進而認為二者有近似的結構和功能還需要更多實驗和信息的支持。通過大量實驗和序列對比的分析，一般認為蛋白質的結構和功能比序列具有更大的保守性，因此粗略的說，如果序列之間的相似性超過30%，它們就很可能是同源的。必須指出的是，理論分析只提供了序列進化的可能性，不能夠僅僅是通過比較分析這一判據來斷定結論是否正確，結論還必須經過實驗驗證。早期的序列對比是全局的序列比較，但由于蛋白質具有的模塊性質，可能由于外顯子的交換而產生新蛋白質，因此局部對比會更加合理。通常用打分矩陣描述序列兩兩對比，兩條序列分別作為矩陣的兩維，矩陣點是兩維上對應兩個殘基的相似性分數，分數越高則說明兩個殘基越相似。序列對比問題變成在矩陣里尋找最佳對比路徑，目前最有效的方法是Needleman-Wunsch動態(tài)規(guī)劃算法，在此基礎上又改良產生了Smith-Waterman算法和SIM算法。在FASTA程序包中可以找到用動態(tài)規(guī)劃算法進行序列對比的工具LALIGN，它能給出多個不相互交叉的最佳對比結果。在進行序列兩兩對比時，有兩方面問題直接影響相似性分值：取代矩陣和空位罰分。粗糙的對比方法僅僅用相同/不同來描述兩個殘基的關系，顯然這種方法無法描述殘基取代對結構和功能的不同影響效果，纈氨酸對異亮氨酸的取代與谷氨酸對異亮氨酸的取代應該給予不同的打分。因此如果用一個取代矩陣來描述氨基酸殘基兩兩取代的分值會大大提高對比的敏感性和生物學意義。雖然針對不同的研究目標和對象應該構建適宜的取代矩陣，但國際上常用的取代矩陣有PAM和BLOSUM等，它們來源于不同的構建方法和不同的參數選擇，包括PAM250、BLOSUM62、BLOSUM90、BLOSUM30等。對于不同的對象可以采用不同的取代矩陣以獲得更多信息，例如對同源性較高的序列可以采用BLOSUM90矩陣，而對同源性較低的序列可采用BLOSUM30矩陣?？瘴涣P分是為了補償插入和缺失對序列相似性的影響，由于沒有什么合適的理論模型能很好地描述空位問題，因此空位罰分缺乏理論依據而更多的帶有主觀特色。一般的處理方法是用兩個罰分值，一個對插入的第一個空位罰分，如10－15；另一個對空位的延伸罰分，如1－2。對于具體的對比問題，采用不同的罰分方法會取得不同的效果。對于對比計算產生的分值，到底多大才能說明兩個序列是同源的，對此有統(tǒng)計學方法加以說明，主要的思想是把具有相同長度的隨機序列進行對比，把分值與最初的對比分值相比，看看對比結果是否具有顯著性。相關的參數E代表隨機對比分值不低于實際對比分值的概率。對于嚴格的對比，E值必須低于一定閾值才能說明對比的結果具有足夠的統(tǒng)計學顯著性，這樣就排除了由于偶然的因素產生高對比得分的可能。Genbank、SWISS-PROT等序列數據庫提供的序列搜索服務都是以序列兩兩對比為基礎的。不同之處在于為了提高搜索的速度和效率，通常的序列搜索算法都進行了一定程度的優(yōu)化，如最常見的FASTA工具和BLAST工具。FASTA是第一個被廣泛應用的序列對比和搜索工具包，包含若干個獨立的程序。FASTA為了提高序列搜索的速度，會先建立序列片段的“字典”，查詢序列先會在字典里搜索可能的匹配序列，字典中的序列長度由ktup參數控制，缺省的ktup=2。FASTA的結果報告中會給出每個搜索到的序列與查詢序列的最佳對比結果，以及這個對比的統(tǒng)計學顯著性評估E值。FASTA工具包可以在大多提供下載服務的生物信息學站點上找到。第三節(jié)BLAST程序簡介

BLAST是現在應用最廣泛的序列相似性搜索工具，相比FASTA有更多改進，速度更快，并建立在嚴格的統(tǒng)計學基礎之上。用戶輸入網址：http:///blast就可以進入BLAST網頁。一、BLAST搜索主界面如圖3.2;3.3,最新版本為BLAST2.2.18，其子集BLASTP可達2.2.1。今年作了較大的更新，具體功能包括：1、核酸數據庫搜索組合基因組檢索；分為標準的核酸與核酸數據庫搜索；MEGABLAST提供大量長序列的比較；完全匹配的短序列搜索；特殊搜索。2、蛋白數據庫搜索分為標準的蛋白與蛋白數據庫搜索；PSI-andPHI-BLAST，其中PSI用于搜索證實遠源進化關系的存在與否和進一步獲取這個蛋白家族中的功能信息，而PHI用于搜索蛋白基序；同樣包括蛋白的完全匹配的短序列搜索。3、已翻譯蛋白的BLAST搜索包括[blastx],[tblastn],[tblastx]程序數據庫查詢簡述blastp蛋白質氨基酸序列可能找到具有遠源進化關系的匹配序列blastn核苷酸核苷酸序列適合尋找分值較高的匹配，不適合遠源關系blastx蛋白質核苷酸序列所有閱讀框架的翻譯產物適合新DNA序列和EST序列的分析，能夠發(fā)現未知核酸序列潛在的翻譯產物tblastn所有閱讀框架動態(tài)翻譯的核苷酸序列蛋白質序列適合尋找數據庫中尚未標注的編碼區(qū)tblastx核苷酸序列6個閱讀框架的翻譯產物核苷酸序列6個閱讀框架的翻譯產物適合分析EST序列，4、保守區(qū)域的搜索：主要使用RPS-BLAST程序完成。5、配對序列的兩兩比較：用于核酸和蛋白的兩兩比較分析。6、針對特定數據庫的搜索：比如人類基因組、微生物基因組等。Table3.1ProgramSelectionforNucleotideQueriesLength1DatabasePurposeProgramExplanation20bporlonger

28bporaboveformegablastNucleotideIdentifythequerysequencediscontiguous

megablast,

megablast,or

blastnLearnmore...Findsequencessimilartoquerysequencediscontiguous

megablastorblastnLearnmore...FindsimilarsequencefromtheTracearchiveTracemegablast,orTracediscontiguous

megablastLearnmore...FindsimilarproteinstotranslatedqueryinatranslateddatabaseTranslatedBLAST(tblastx)Learnmore...PeptideFindsimilarproteinstotranslatedqueryinaproteindatabaseTranslatedBLAST(blastx)Learnmore...7-20bpNucleotideFindprimerbindingsitesormapshortcontiguousmotifsSearchforshort,nearlyexactmatchesLearnmore...Table2.1ContentofProteinSequenceDatabasesDatabaseContentDescriptionnrNon-redundantGenBankCDStranslations+PDB+SwissProt+PIR+PRF,excludingthoseinenv_nr.

ProteinsequencesfromNCBIreferencesequenceproject.swissprotLastmajorreleaseoftheSWISS-PROTproteinsequencedatabase(noincrementalupdates).patProteinsfromthePatentdivisionofGenBank.monthAllneworrevisedGenBankCDStranslations+PDB+SwissProt+PIR+PRFreleasedinthelast30days.pdbSequencesderivedfromthe3-dimensionalstructurerecordsfromtheProteinDataBank.

Non-redundantCDStranslationsfromenv_ntentries.Table2.2NucleotideDatabasesforBLASTDatabaseContentDescriptionnrAllGenBank+EMBL+DDBJ+PDBsequences(butnoEST,STS,GSS,orphase0,1or2HTGSsequences).Nolonger"non-redundant"duetocomputationalcost.refseq_mrna

mRNAsequencesfromNCBIReferenceSequenceProject.refseq_genomic

GenomicsequencesfromNCBIReferenceSequenceProject.estDatabaseofGenBank+EMBL+DDBJsequencesfromESTdivision.est_humanHumansubsetofest.est_mouseMousesubsetofest.est_othersSubsetofestotherthanhumanormouse.gssGenomeSurveySequence,includessingle-passgenomicdata,exon-trappedsequences,andAluPCRsequences.htgsUnfinishedHighThroughputGenomicSequences:phases0,1and2.Finished,phase3HTGsequencesareinnr.patNucleotidesfromthePatentdivisionofGenBank.pdbSequencesderivedfromthe3-dimensionalstructurerecordsfromProteinDataBank.TheyareNOTthecodingsequencesforthecorespondingproteinsfoundinthesamePDBrecord.monthAllneworrevisedGenBank+EMBL+DDBJ+PDBsequencesreleasedinthelast30days.alu_repeatsSelectAlurepeatsfromREPBASE,suitableformaskingAlurepeatsfromquerysequences.See"Alualert"byClaverieandMakalowski,Nature371:752(1994).dbstsDatabaseofSequenceTagSiteentriesfromtheSTSdivisionofGenBank+EMBL+DDBJ.chromosomeCompletegenomesandcompletechromosomesfromtheNCBIReferenceSequenceproject.Itoverlapswithrefseq_genomic.wgsAssembliesofWholeGenomeShotgunsequences.env_nt

Sequencesfromenvironmentalsamples,suchasunculturedbacterialsamplesisolatedfromsoilormarinesamples.ThelargestsinglesourceisSagarssoSeaproject.Thisdoesoverlapwithnucleotidenr.三、BLAST搜索格式：BLAST搜索框中允許三種輸入格式（一）FASTA格式：FASTA格式第一行是描述行，第一個字符必須是”>”字符；隨后的行是序列本身，一般每行序列不要超過80個字符，各行之間不允許有空行，回車符不會影響程序對序列連續(xù)性的看法。序列由標準的IUB/IUPAC氨基酸和核酸代碼代表；小寫字符會全部轉換成大寫，序列可由基因庫中調出，亦可自行輸入。>gi|129295|sp|P01013|OVAX_CHICKGENEXPROTEIN(OVALBUMIN-RELATED)QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTSVLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPES1．核酸輸入代碼如下:A-->adenosine（腺嘌呤）M-->AC(amino)氨基的C-->cytidine

（胞嘧啶）S-->GC(strong)強的G-->guanine（鳥嘌呤）W-->AT(weak)弱的T-->thymidine（胸腺嘧啶）B-->GTCU-->uridine

（尿嘧啶）D-->GATR-->GA(purine)嘌呤H-->ACTY-->TC(pyrimidine)嘧啶V-->GCAK-->GT(keto)酮基的N-->AGCT(any)其中任何一個gapofindeterminatelength不明長度的空位2．氨基酸輸入代碼如下（BLASTP、TBLASTN接受的）： Aalanine

（丙氨酸）Pproline（脯氨酸）Baspartateorasparagine

（天門冬氨酸）Qglutamine（谷氨酰胺）Ccystine

（胱氨酸）Rarginine（精氨酸）Daspartate（天冬氨酸）Sserine（絲氨酸）Eglutamate（谷氨酸鹽）Tthreonine（蘇氨酸）Fphenylalanine（苯丙氨酸）Uselenocysteine（硒代半胱氨酸）Gglycine（甘氨酸）Vvaline（纈氨酸）Hhistidine（組氨酸）Wtryptophan（色氨酸）Iisoleucine（異亮氨酸）Ytyrosine（酪氨酸）Klysine（賴氨酸）ZglutamateorglutamineLleucine

（亮氨酸）Xany（任何一種氨基酸）Mmethionine（蛋氨酸）*translationstop（翻譯終止符）Nasparagine（天冬酰胺）-gapofindeterminatelength（二）單純序列數據輸入格式：該格式無FASTA描述定義行亦可，是GenBank/GenPept中的單純文本格式。如下：QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTSVLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP

1qikdllvsss

tdldttlvlv

naiyfkgmwk

tafnaedtre

mpfhvtkqes

kpvqmmcmnn

61sfnvatlpae

kmkilelpfa

sgdlsmlvll

pdevsdleri

ektinfeklt

ewtnpntmek121rrvkvylpqm

kieekynlts

vlmalgmtdl

fipsanltgi

ssaeslkisq

avhgafmels

181edgiemagst

gviedikhsp

eseqfradhp

flflikhnpt

ntivyfgrywsp（三）標識符格式：通常只輸入NCBI存取號、存取號版號或基因庫中的標識符號，如p01013,AAA68881.1,129295。亦可有NCBI中帶有分隔豎線的序列標識符，注意：用以上三種輸入格式輸入信息時，蛋白質必須對應搜索蛋白質的程序，核酸必須對應搜索核酸的程序，否則提交不能成功。第三節(jié)同源性分析

待檢核酸序列與整個核酸序列庫中的序列進行類比以檢索E-cadherin部分序列為例。在“search”框中可輸入基因的標識符或單純序列格式或FASTA格式，并可限制序列的起點和終點，根據需要選擇數據類型（本例選nr），在高級選項中可進一步限定條件，設定好后點擊BLAST按紐提交。二、核酸序列的兩兩比較圖3.6BLAST兩兩比較提交界面在BLAST主頁中選PairwiseBLAST中的BLAST2Sequences，進入兩兩比較界面如圖3.6，在程序中選blastn，分別輸入兩個基因的標識符或FASTA格式的序列，堿基數不要超過150Kb，可進一步限定條件，然后點擊Align按紐即可提交，等待結果。三、蛋白質與蛋白質數據庫或蛋白質兩兩比較1．蛋白質與蛋白質數據庫比較：選ProteinBLAST中的StandardProtein-ProteinBLAST[blastp]與蛋白質數據庫比較，輸入方法基本與核酸比較相同，存取號或序列內容必須是蛋白質庫中的。2．蛋白質的兩兩比較：在PairwiseBLAST中的BLAST2Sequences程序中進行，在程序中選blastp，序列輸入格式同上。其輸出搜索結果見圖3.7，進一步點擊Formatbutton可看詳細結果。圖3.7蛋白質的兩兩比較輸出搜索結果四、輸出結果的解釋：1．結果總覽圖：通用于蛋白質和核酸的結果表示。圖中列了紅、粉、綠、藍、黑五種顏色，紅色同源性最高，排在最上面，其它各種顏色同源性逐漸降低；各種顏色同源性逐漸降低；每條圖代表搜索蛋白質匹配的序列；如果出現陰影區(qū)，其對應的是二個或多個搜索數據庫相似序列中的非相似區(qū)；鼠標指在哪條圖上，圖上面的框中會顯示匹配蛋白質或核酸的名字；同一條圖內的分離部分對應于無關的采樣數。2．顯著性序列列表：如圖3.10所示，最有顯著性（同源性最高）的行排在最上面，其E值最低，排列行按E值增加排序；每行四部分描述內容：①數據序列標識符，②對該序列的簡單描述，③在每個數據庫中搜索得到的分數④E值；點擊序列標識符可以連接到GenBank；點擊分數可連接到對應的相互比較的序列行。3．行列比較：因申請者提交的要求行列可有不同的輸出形式，系統(tǒng)默認的是配對行列輸出格式，即查詢序列與數據庫中匹配的序列垂直對應。針對蛋白質查詢而言，相同的殘基排在二序列之間，用“+”表示保守性殘基；針對DNA而言，垂直線連接相同的堿基?？瘴徊糠执聿樵冃蛄信c檢索匹配序列不一致。由于過濾作用，在低復雜區(qū)氨基酸查詢序列可以包含Xs（核苷酸包含Ns）。HPSs中可列出每個檢索數據庫中的多個行列。相關的參數E值代表隨機比較分值不低于實際比較分值的概率。對于嚴格的比較，必須E值低于一定閾值才能說明比較的結果具有足夠的統(tǒng)計學顯著性，這樣就排除了由于偶然的因素產生高比較得分的可能。具體界定值在搜索設置中界定，系統(tǒng)默認為10，搜索的嚴謹度越高，E值越小。若要比較短序列，獲得更多的信息，則可增加E值到1000或更高；或降低字符大小（W），經驗之法是查詢序列至少是W的二倍；或禁止過濾功能的使用；或改變矩陣以優(yōu)化搜索序列。

第四節(jié)

PSI-BLAST程序簡介

BLAST的當前版本是2.2.10，它的新發(fā)展是位點特異性反復BLAST(PSI-BLAST)。PSI-BLAST的特色是每次用profile搜索數據庫后再利用搜索的結果重新構建profile，然后用新的profile再次搜索數據庫，如此反復直至沒有新的結果產生為止。PSI-BLAST先用帶空位的BLAST搜索數據庫，將獲得的序列通過多序列比較來構建第一個profile。PSI-BLAST自然地拓展了BLAST方法，能尋找蛋白質序列中的隱含模式，有研究表明這種方法可以有效的找到很多序列差異較大而結構功能相似的相關蛋白，甚至可以與一些結構比較方法，如threading相媲美。PSI-BLAST服務可以在NCBI的BLAST主頁上找到，還可以從NCBI的FTP服務器上下載PSI-BLAST的獨立程序。PSI-BLAST程序第五節(jié)

多序列比較

顧名思義，多序列比較就是把兩條以上可能有系統(tǒng)進化關系的序列進行比較的方法。目前對多序列比較的研究還在不斷前進中，現有的大多數算法都基于漸進的比較的思想，在序列兩兩比較的基礎上逐步優(yōu)化多序列比較的結果。進行多序列比較后可以對比較結果進行進一步處理，例如構建序列模式的profile，將序列聚類構建分子進化樹等等。目前使用最廣泛的多序列比較程序是CLUSTALW(它的PC版本是CLUSTALX)。CLUSTALW是一種漸進的比較方法，先將多個序列兩兩比較構建距離矩陣，反映序列之間兩兩關系；然后根據距離矩陣計算產生系統(tǒng)進化指導樹，對關系密切的序列進行加權；然后從最緊密的兩條序列開始，逐步引入臨近的序列并不斷重新構建比較，直到所有序列都被加入為止。CLUSTALW的程序可以自由使用，在NCBI的FTP服務器上可以找到下載的軟件包。CLUSTALW程序用選項單逐步指導用戶進行操作，用戶可根據需要選擇打分矩陣、設置空位罰分等。EBI的主頁還提供了基于Web的CLUSTALW服務，用戶可以把序列和各種要求通過表單提交到服務器上，服務器把計算的結果用Email返回用戶。CLUSTALW對輸入序列的格式比較靈活，可以是前面介紹過的FASTA格式，還可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。輸出格式也可以選擇，有ALN、GCG、PHYLIP和GDE等，用戶可以根據自己的需要選擇合適的輸出格式。在CLUSTALW得到的多序列比較結果中，所有序列排列在一起，并以特定的符號代表各個位點上殘基的保守性，”*”號表示保守性極高的殘基位點；”.”號代表保守性略低的殘基位點。EBI的CLUSTALW網址是：http://www.ebi.ac.uk/clustalw/。下載CLUSTALW的網址是：ftp://ftp.ebi.ac.uk/pub/software/。關于序列比較，對比方法多種多樣，很有必要從中挑選出最好的一個或幾個方法，這就是把一種對比描述成一個路徑。許多計算機科學的問題都可以簡化為通過圖表尋求最優(yōu)路徑。為了這一目的已經確立了許多行之有效的算法，對每一種路徑都有必要對其進行某種意義上的打分，通常是對沿這一途徑的每一步的增量進行加和。假定相同殘基加正分，有插入或缺失的殘基就加負分（扣分），根據這一定義，最合適的對比方法會得到最高分，也就是我們尋找的最佳路徑。應該注意，尋優(yōu)方法總是把最佳的對比方法表達出來，而不在意它是否具有生物學意義，另一方面，尋求局部對比時可能會發(fā)現若干個重要的對比，因此，不能僅僅注意最佳的一個。

第六節(jié)

低復雜度區(qū)域

不管是蛋白還是核酸都包含一些特殊的區(qū)域，在進行序列數據庫搜索時這些區(qū)域可能會導致一些令人迷惑的結果。這些低復雜度區(qū)域（LCRs）在從明顯的同性聚合順串和短周期重復到更精細的情況（如其中某些或一些殘基過多表現）的范圍內變化。LCRs的進化、功能和結構性質并沒有被很好地了解。在DNA中，有許多種簡單的重復，其中一些已經知道是高度多態(tài)性的，并且在作基因圖譜時經常使用的。它們產生的機制可能是聚合酶滑動、偏頗核苷酸取代或者不等交換。LCRs更偏好于在結構上以非球形區(qū)域的形式存在，那些在物理化學上已經被定義為非球形的區(qū)域通?？梢栽谑褂肧EG程

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

研究生第三章序列對比和數據庫搜索

文檔簡介

溫馨提示

最新文檔

評論

研究生第三章序列對比和數據庫搜索

文檔簡介

溫馨提示

最新文檔

評論

相關文檔