版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第五章核酸序列分析核酸序列分析是生物信息學(xué)一個(gè)重要應(yīng)用方面,所有從事分子生物學(xué)研究實(shí)驗(yàn)室都要對(duì)獲得的核酸序列進(jìn)行生物信息學(xué)分析,這已經(jīng)成為進(jìn)行下一步實(shí)驗(yàn)之前的一個(gè)標(biāo)準(zhǔn)操作。很多時(shí)候通過(guò)簡(jiǎn)單序列相似性比較就可對(duì)未知序列進(jìn)行初步功能預(yù)測(cè),確定后續(xù)實(shí)驗(yàn)方向及策略。AnalysismethodsDatagenerationplatformsComputingpowerDNA序列分析可大體分為兩類:(1)測(cè)序DNA序列分析(2)特定DNA序列分析。包括:DNA堿基組成、密碼子偏向性、內(nèi)部重復(fù)序列、酶切位點(diǎn)、編碼區(qū)分析、二級(jí)結(jié)構(gòu)預(yù)測(cè)等,但不局限于這些內(nèi)容。進(jìn)行序列分析也需要一些工具,這些工具包括在線工具和本地化工具。在線工具資源可以通過(guò)看資料、讀相關(guān)文章獲得(如前面提到的“核酸研究”上的在線服務(wù)專輯),也可以利用搜索工具(google等)到網(wǎng)上搜尋或到論壇詢問(wèn)。本地化工具有免費(fèi)的也有收費(fèi)的,免費(fèi)的一般可以從網(wǎng)上下載。其中,收錄、介紹了大量生物軟件及生物軟件的使用方法,同時(shí)還有一些在線分析工具。contents1.核酸序列檢索2.分子質(zhì)量、堿基組成、堿基分布、序列轉(zhuǎn)換、核酸序列基本分析3.限制性酶切分析4.克隆測(cè)序分析5.測(cè)序中載體序列的識(shí)別與去除6.核酸序列拼接7.核酸序列的電子延伸8.開(kāi)放閱讀框(ORF)分析9.基因組序列編碼區(qū)/內(nèi)含子結(jié)構(gòu)分析10.CpG島分析11.cDNA和GenomicDNA比對(duì)12.基因啟動(dòng)子分析?設(shè)計(jì)一個(gè)實(shí)驗(yàn),研究在不同濃度NaCl鹽脅迫下玉米根中SOD2(SuperoxideDismutase2)基因的表達(dá)情況,說(shuō)出具體的實(shí)施方案。(玉米SOD2基因序列已知,手頭有玉米的種子)1.克隆測(cè)序分析克隆測(cè)序分析是分子生物學(xué)實(shí)驗(yàn)日常操作之一,一般情況下單次測(cè)序?qū)a(chǎn)生300-500bp的序列,或800-900bp的序列。將測(cè)序峰圖識(shí)別為序列的過(guò)程稱為堿基讀出(basecalling)。送交專業(yè)公司進(jìn)行測(cè)序的結(jié)果返回后需要對(duì)所測(cè)序列進(jìn)行一系列后續(xù)分析,如測(cè)序峰圖的查看和載體序列的去除及序列裝配等過(guò)程。當(dāng)然,服務(wù)較好的測(cè)序公司后續(xù)工作做的也較好。一般地,單次測(cè)序的正確率在500bp左右。測(cè)序峰圖查看為了核實(shí)測(cè)序的準(zhǔn)確性,往往需要對(duì)測(cè)序峰文件進(jìn)行直接分析。Windows環(huán)境下最簡(jiǎn)單的峰圖查看程序是澳大利亞的Chromas.exe程序,這是一個(gè)專業(yè)程序,運(yùn)行快、操作簡(jiǎn)單。其它的軟件還有BioEdit和DNAMAN等也都具有該功能。Chromas.exe查看測(cè)序峰圖打開(kāi).ab1文件。開(kāi)始一段序列的信號(hào)很雜亂,幾乎難以辨別,主要是因?yàn)闅埓娴娜玖蠁误w造成的干擾峰所致。該干擾峰和正常序列峰重疊在一起;另外,測(cè)序電泳開(kāi)始階段電壓有一個(gè)穩(wěn)定期,所以經(jīng)常有20-50bp
的緊接著引物的片段讀不清楚,有時(shí)甚至更長(zhǎng)??奢敵鰹?txt的文本格式文件。DNAMAN查看測(cè)序峰圖調(diào)節(jié)按鈕導(dǎo)出序列測(cè)序峰圖導(dǎo)出的文本再“載入序列”→“選定項(xiàng)目”后就可以直接載入軟件中分析!Bioedit查看測(cè)序峰圖調(diào)節(jié)按鈕選擇“copyFastaformatted”,相當(dāng)于將文件中的序列以Fasta格式復(fù)制,可黏貼到記事本中。2.測(cè)序中載體序列的識(shí)別與去除許多數(shù)據(jù)庫(kù)中收集了常用的測(cè)序載體序列,使用Blast程序?qū)Υ祟悢?shù)據(jù)庫(kù)進(jìn)行相似性分析即可得知目的序列中是否含有載體序列。如果是,在對(duì)測(cè)序數(shù)據(jù)進(jìn)行進(jìn)一步分析之前必須將載體序列去除。此過(guò)程雖然很簡(jiǎn)單,在核酸序列數(shù)據(jù)庫(kù)中仍然有一些序列含有載體序列污染。
NCBI的載體識(shí)別程序/VecScreen/VecScreen.html
EMBL的載體識(shí)別程序http://www.ebi.ac.uk/blastall/vectors.htmlNCBI中載體分析服務(wù)網(wǎng)頁(yè)截圖輸入序列發(fā)現(xiàn)載體序列EMBL中載體分析服務(wù)網(wǎng)頁(yè)截圖結(jié)果3.核酸序列拼接通過(guò)2個(gè)及2個(gè)以上測(cè)序反應(yīng)獲得的序列都要拼接成一個(gè)完整的序列,實(shí)驗(yàn)室小規(guī)模測(cè)序獲得的各序列可以通過(guò)常規(guī)分子生物學(xué)軟件非常容易地拼接到一起,形成一條完整的序列,也即形成一條contig。這類軟件包括:DNAMAN、DNASTAR、Genetool等。以DNAMAN軟件為例:序列拼接待拼接序列顯示區(qū)某次測(cè)序的結(jié)果有兩個(gè)序列,將其拼成一條。拼接結(jié)果導(dǎo)出的是拼接后的序列序列拼接在線服務(wù)核酸在線拼接軟件:CAP3(contigassemblyprogram)http://pbil.univ-lyon1.fr/cap3.php可以自己以關(guān)鍵詞搜索,還有其他軟件。序列拼接在線服務(wù)粘貼序列結(jié)果鏈接結(jié)果核酸序列的分子質(zhì)量、堿基組成、堿基分布等分析可以通過(guò)一些常用軟件如:DNAMAN、Genetool、DNAStar等進(jìn)行。下面我們以小鼠SOD1基因?yàn)槔?,利用DNAMAN軟件進(jìn)行上述分析。4.分子質(zhì)量、堿基組成、堿基分布、序列轉(zhuǎn)換酸序列基本分析以DNAMAN軟件為例打開(kāi)序列展示序列:Sequence---DisplaySequence進(jìn)行序列分析時(shí),經(jīng)常需要對(duì)DNA序列進(jìn)行各種變換,如反向序列、互補(bǔ)序列、互補(bǔ)反向序列、顯示DNA雙鏈、轉(zhuǎn)換為RNA序列等。得到的結(jié)果序列基本信息具體序列顯示轉(zhuǎn)換后的不同序列?設(shè)計(jì)一個(gè)實(shí)驗(yàn),通過(guò)什么樣的方法獲得家蠶性信息素結(jié)合蛋白(CSP1)在家蠶不同組織(頭、胸、腹、觸角、翅、足)中的表達(dá)譜,說(shuō)出具體的實(shí)施方案。(家蠶CSP1基因可以查到,手頭上有家蠶的個(gè)體)5.限制性酶切分析限制型酶切分析是分子生物學(xué)實(shí)驗(yàn)中日常工作之一。限制酶數(shù)據(jù)庫(kù)提供了較全面的限制酶相關(guān)信息地址為:/rebase/rebase.html大多數(shù)分子生物學(xué)軟件都具有限制性酶切分析功能,完全可以輕松地實(shí)現(xiàn)限制性酶切分析功能,這方面的軟件如:DNAMAN、Bioedit、DNAStar軟件包等。限制酶數(shù)據(jù)庫(kù)網(wǎng)頁(yè)截圖輸入內(nèi)切酶的名稱,可查詢其識(shí)別序列及酶切位點(diǎn)以DNAMAN為例載入序列目標(biāo)DNA默認(rèn)為線狀,若選擇“環(huán)狀”,則出現(xiàn)的酶切圖譜為環(huán)狀。在“酶文件”、“全選”、“長(zhǎng)度”及“末端”等選項(xiàng)的選擇都完成后→“完成”??蛇x“DNase”或“DNA內(nèi)切酶”選擇酶甲基化情況分析結(jié)果以線狀圖示酶切位點(diǎn)以環(huán)狀圖示酶切位點(diǎn)每種酶的單酶切電泳模擬圖2.以BioEdit軟件為例堿基組成序列轉(zhuǎn)換ORF的查找翻譯成相對(duì)應(yīng)的蛋白質(zhì)內(nèi)切酶的識(shí)別參數(shù)選擇區(qū)顯示序列中的酶切位點(diǎn)顯示內(nèi)切酶識(shí)別的位置顯示序列中不存在的內(nèi)切酶?對(duì)于基因組未進(jìn)行測(cè)序的物種,只知道某一基因的partialCDS區(qū),如何獲得其全長(zhǎng)cDNA序列?隨著各基因組計(jì)劃的順利進(jìn)行,很多實(shí)驗(yàn)室采用cDNA文庫(kù)大規(guī)模測(cè)序策略獲得了大量表達(dá)序列標(biāo)簽(ExpressedSequenceTag,EST)和較長(zhǎng)的cDNA序列。但在大多數(shù)情況下,全長(zhǎng)cDNA的獲得嚴(yán)重制約著新基因發(fā)現(xiàn)。同時(shí)很多實(shí)驗(yàn)室采用差異顯示PCR(differentdisplayPCR,DD-PCR)、代表性差異分析(representationaldifferenceanalysis,RDA)等技術(shù)發(fā)現(xiàn)了大量具有潛在應(yīng)用價(jià)值的新基因片斷,但同樣面臨全長(zhǎng)cDNA序列難以獲得的問(wèn)題。6.核酸序列的電子延伸通過(guò)RACE實(shí)驗(yàn)?zāi)苡行Ы鉀Q全長(zhǎng)cDNA問(wèn)題,但此實(shí)驗(yàn)操作要求高,具有耗時(shí)、耗財(cái)、耗力等缺點(diǎn)。生物信息學(xué)領(lǐng)域的電子延伸、電子克隆技術(shù)為解決全長(zhǎng)cDNA問(wèn)題在理論上提供了捷徑!電子克隆也稱為虛擬克?。╲irtualcloning)原理:根據(jù)大量EST具有相互重疊的性質(zhì),通過(guò)計(jì)算機(jī)算法獲得cDNA全長(zhǎng)序列。電子克隆以部分cDNA為起始,和GenBank的EST數(shù)據(jù)庫(kù)進(jìn)行BLAST搜索,得到與5’或3’端相似序列的EST,然后以該EST為模板,進(jìn)一步搜索EST數(shù)據(jù)庫(kù),一直往前延伸,直到找到終止密碼子,得到全長(zhǎng)cDNA。電子克隆在公共數(shù)據(jù)庫(kù)(如GenBank/EMBL)中存在大量的序列表達(dá)標(biāo)簽。http:///dbEST,這些EST序列很有可能和研究者感興趣基因序列相重疊,可能代表同一條cDNA序列。因而從生物信息學(xué)原理出發(fā),基于公共數(shù)據(jù)庫(kù)中的EST序列或者較長(zhǎng)cDNA序列對(duì)新獲得的EST序列進(jìn)行電子延伸,就有可能獲得全長(zhǎng)cDNA。電子克隆的原理來(lái)源于大片段測(cè)序拼裝,主要依據(jù)片斷末端的重疊?;具^(guò)程將待分析核酸序列(或蛋白序列,稱為種子序列)用blast軟件搜索GenBank的EST數(shù)據(jù)庫(kù),選擇與之具有較高一致性的EST序列(稱匹配序列)。將匹配序列與種子序列裝配產(chǎn)生新生序列,此過(guò)程稱為片斷重疊群分析(ContigAnalysis)。(如果種子序列不是核酸,則不必拼裝新序列)以新生序列作為種子序列重復(fù)上述過(guò)程,直至沒(méi)有新的匹配序列入選,從而生成最后的新生序列,作為對(duì)種子序列的延伸產(chǎn)物。對(duì)延伸產(chǎn)物進(jìn)行ORF分析,確定cDNA的完整性。需要注意的是,核酸序列電子延伸獲得的序列只具有參考作用,可為后繼的實(shí)驗(yàn)研究提供線索,真正的cDNA序列需要通過(guò)實(shí)驗(yàn)獲得和驗(yàn)證。核酸序列電子延伸示意圖EST序列種子序列EST數(shù)據(jù)庫(kù)中Blast分析開(kāi)始獲得匹配序列種子序列與匹配序列組裝無(wú)匹配時(shí)結(jié)束,進(jìn)行ORF分析例:以擬南芥(Arabidopsisthaliana)Cu-ZnSOD的蛋白質(zhì)序列(P24704)為種子序列,電子克隆水稻(rice)的Cu-ZnSOD基因的過(guò)程。(1)采用tblastn程序,用P24704對(duì)水稻ESTdb進(jìn)行比對(duì),獲得匹配的EST序列數(shù)據(jù)庫(kù)參數(shù):應(yīng)選擇non-human,non-mouseESTs(estothers)物種名參數(shù):寫(xiě)rice或水稻拉丁文得到一致性最高的匹配序列(EST序列)(2)因?yàn)槠ヅ湫蛄袨镋ST序列,因此此時(shí)選擇的程序?yàn)椋篵lastn。再次對(duì)水稻ESTdb進(jìn)行比對(duì)。數(shù)據(jù)庫(kù)參數(shù):選擇others;物種名參數(shù):寫(xiě)rice或水稻拉丁文匹配的EST序列(3)將所得序列以Fasta格式保存后,用序列拼接程序拼出一條contig。CAP:contigassemblyprogram提交后的結(jié)果點(diǎn)擊“contigs”,獲得拼裝后的序列。如下圖。(4)以新生的contig序列作為種子序列重復(fù)上述過(guò)程,直至沒(méi)有新的匹配序列入選,從而生成最后的新生序列,作為對(duì)種子序列的延伸產(chǎn)物。接下來(lái)要對(duì)延伸產(chǎn)物進(jìn)行ORF分析,確定cDNA的完整性。如果提交的序列超過(guò)50kb,則無(wú)法拼裝,需減少序列7.開(kāi)放閱讀框(ORF)分析mRNA序列需要翻譯為蛋白質(zhì)才能發(fā)揮其生物學(xué)作用,因此核酸序列的可讀框架(OpenReadingFrame,ORF)分析也是核酸序列分析一個(gè)重要方面。對(duì)真核生物而言,一條全長(zhǎng)cDNA序列將只含有單一的開(kāi)放閱讀框。非全長(zhǎng)cDNA序列如ESTs,通過(guò)所有位相搜索也可很快獲得結(jié)果。GenBank的ORFFinder是一個(gè)較好的ORF分析網(wǎng)絡(luò)資源。地址:/gorf/gorf.html可以在NCBI首頁(yè)的右邊一欄中直接點(diǎn)擊ORFFinder鏈接進(jìn)入ORF分析頁(yè)面。(1)NCBIORFFinder在線確定ORF粘貼序列序列ID號(hào)或接受號(hào)分析范圍遺傳密碼查看結(jié)果可點(diǎn)擊詳細(xì)查看單擊,詳細(xì)查看一個(gè)ORF。進(jìn)一步確定ORF是否正確需要借助Kozak規(guī)則??芍苯硬榭此贠RF對(duì)應(yīng)的蛋白質(zhì)的對(duì)數(shù)據(jù)庫(kù)的比對(duì)Kozak規(guī)則所謂Kozak規(guī)則,即第一個(gè)ATG側(cè)翼序列的堿基分布所滿足的統(tǒng)計(jì)規(guī)律。若將第一個(gè)ATG中的堿基A,T,G分別標(biāo)為1,2,3位,則Kozak規(guī)則可描述如下:(1)第4位的偏好堿基為G;(2)ATG的5’端約15bp范圍的側(cè)翼序列內(nèi)不含堿基T;(3)在-3,-6和-9位置,G是偏好堿基;(4)除-3,-6和-9位,在整個(gè)側(cè)翼序列區(qū),C是偏好堿基。Kozak規(guī)則是基于已知數(shù)據(jù)的統(tǒng)計(jì)結(jié)果,不見(jiàn)得必須全部滿足,一般來(lái)說(shuō),滿足前兩項(xiàng)即可。Kozak規(guī)則可以幫助確定ORF的起始密碼子。加尾信號(hào)須自行搜索。接著查看其他ORF(2)本地化軟件進(jìn)行ORF分析前提是已經(jīng)loadsequenceORF的查找要求ORF的查找結(jié)果,需要認(rèn)真判斷要那個(gè)ORF序列上載后,也可以在這里進(jìn)行分析圖示ORF分析結(jié)果設(shè)置ORF分析參數(shù)雙擊圖示中的ORF則顯示該ORF的詳細(xì)信息該ORF的詳細(xì)信息8.基因組序列編碼區(qū)/內(nèi)含子結(jié)構(gòu)分析真核生物的基因組中內(nèi)含子的分析:真核生物基因組的分析比較麻煩,難于準(zhǔn)確判斷內(nèi)含子和外顯子區(qū)域,也即難于準(zhǔn)確地對(duì)編碼區(qū)域進(jìn)行預(yù)測(cè)。進(jìn)行基因組序列編碼器/內(nèi)含子結(jié)果分析的軟件,如GENSCAN(http:///GENSCAN.html)等。tRNA內(nèi)含子的分析:可以用tRNAscan-SE分析(http:///tRNAscan-SE/)GENSCAN:現(xiàn)有的服務(wù)器設(shè)在MIT,主要應(yīng)用于完整基因的預(yù)測(cè),包括基因組序列中的外顯子、內(nèi)含子、啟動(dòng)子、多聚腺苷酸信號(hào)位點(diǎn)、供體與受體剪切位點(diǎn)的預(yù)測(cè)。適用于脊椎動(dòng)物、玉米、擬南芥等不同物種的基因預(yù)測(cè)。適用于脊椎動(dòng)物的版本在被用于果蠅DNA序列的基因預(yù)測(cè)也取得很好的結(jié)果。
GENSCAN是進(jìn)行基因預(yù)測(cè)的首選工具,但存在過(guò)分估算基因數(shù)目問(wèn)題。GENSCAN粘貼序列tRNAscan-SE粘貼序列物種選項(xiàng)9.CpG島分析CpG島:是一些富含GC的小區(qū)域,大小范圍為0.5~5kb,基因中平均每100kb即可出現(xiàn)。因這些區(qū)域未發(fā)生甲基化,故富含CpG(60~70%),目前認(rèn)為,基因表達(dá)與CpG島甲基化程度呈負(fù)相關(guān)。CpG島經(jīng)常在脊椎動(dòng)物基因的5’區(qū)域發(fā)現(xiàn),其中80%的人類基因的轉(zhuǎn)錄起始位點(diǎn)前存在CpG島。因此相對(duì)于尋找結(jié)構(gòu)復(fù)雜的轉(zhuǎn)錄起始位點(diǎn)和基因的5’端,CpG島是發(fā)現(xiàn)基因的重要線索,特別是通過(guò)cDNA法難以實(shí)現(xiàn)時(shí)更是如此。http://www.ebi.ac.uk/emboss/cpgplot粘貼序列
10.cDNA和GenomicDNA比對(duì)對(duì)于已知的cDNA序列及其對(duì)應(yīng)的基因組序列,可以將這兩條序列對(duì)齊以直觀顯示cDNA所編碼基因的結(jié)構(gòu)。Sim4程序即可完成該項(xiàng)工作,分析的結(jié)果可以保存下來(lái)用Lalnview程序在電腦上直觀地顯示。Sim4網(wǎng)址:核酸:http://pbil.univ-lyon1.fr/sim4.php蛋白:http://www.expasy.ch/tools/sim-prot.htmlLalnview下載地址:http://pbil.univ-lyon1.fr/softwar
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度消防工程勞務(wù)及消防設(shè)備租賃合同3篇
- 2024年心理咨詢師題庫(kù)及完整答案【名師系列】
- 資源勘查課課程設(shè)計(jì)
- 2025年度照明燈具代加工合同協(xié)議書(shū)4篇
- 造價(jià)概算課程設(shè)計(jì)
- 2024石英砂高性能材料研發(fā)與應(yīng)用銷售合同3篇
- 二零二五版美甲店美容護(hù)膚產(chǎn)品銷售代理合同模板4篇
- 2025年度高速公路橋梁加固與養(yǎng)護(hù)施工合同3篇
- 2024版銷售會(huì)議合同
- 2024智能交通工具研發(fā)與生產(chǎn)合作協(xié)議
- 氧氣霧化吸入法
- 6月大學(xué)英語(yǔ)四級(jí)真題(CET4)及答案解析
- 氣排球競(jìng)賽規(guī)則
- 電梯維修保養(yǎng)報(bào)價(jià)書(shū)模板
- 危險(xiǎn)化學(xué)品目錄2023
- FZ/T 81024-2022機(jī)織披風(fēng)
- GB/T 33141-2016鎂鋰合金鑄錠
- 2023譯林版新教材高中英語(yǔ)必修二全冊(cè)重點(diǎn)短語(yǔ)歸納小結(jié)
- JJF 1069-2012 法定計(jì)量檢定機(jī)構(gòu)考核規(guī)范(培訓(xùn)講稿)
- 綜合管廊工程施工技術(shù)概述課件
- 公積金提取單身聲明
評(píng)論
0/150
提交評(píng)論