生物信息學實驗指導_第1頁
生物信息學實驗指導_第2頁
生物信息學實驗指導_第3頁
生物信息學實驗指導_第4頁
生物信息學實驗指導_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、生物信息學實驗指導廣東藥學院生命科學與生物制藥學院二一一年三月目 錄實驗1. 生物信息學數據庫與軟件搜索1實驗2. 核酸序列的檢索2實驗3. 核酸序列分析3實驗4. 多重序列比對及系統(tǒng)發(fā)生樹的構建5實驗5. PCR 引物設計及評價7實驗6. 蛋白質序列分析和結構預測9實驗一生物信息學數據庫和軟件的搜索【實驗目的】熟練掌握上網搜索生物信息學數據庫和軟件的方法及技能。【實驗內容】1、搜索生物信息學數據庫或者軟件數據庫是生物信息學的主要內容,各種數據庫幾乎覆蓋了生命科學的各個領域。核酸序列數據庫有GenBank, EMBL, DDB等,蛋白質序列數據庫有SWISS-PROT, PIR, OWL, N

2、RL3D, TrEMBL等,蛋白質片段數據庫有PROSITE, BLOCKS, PRINTS等,三維結構數據庫有PDB, NDB, BioMagResBank, CCSD等,與蛋白質結構有關的數據庫還有SCOP, CATH, FSSP, 3D-ALI, DSSP等,與基因組有關的數據庫還有ESTdb, OMIM, GDB, GSDB等,文獻數據庫有Medline, Uncover等。另外一些公司還開發(fā)了商業(yè)數據庫,如MDL等。生物信息學數據庫覆蓋面廣,分布分散且格式不統(tǒng)一, 因此一些生物計算中心將多個數據庫整合在一起提供綜合服務,如EBI的SRS(Sequence Retrieval Syst

3、em)包含了核酸序列庫、蛋白質序列庫,三維結構庫等30多個數據庫及CLUSTALW、PROSITESEARCH等強有力的搜索工具,用戶可以進行多個數據庫的多種查詢。2、搜索生物信息學軟件生物信息學軟件的主要功能有:分析和處理實驗數據和公共數據,加快研究進度,縮短科研時間;提示、指導、替代實驗操作,利用對實驗數據的分析所得的結論設計下一階段的實驗;尋找、預測新基因及預測其結構、功能;蛋白高級結構預測。如:核酸序列分析軟件BioEdit、DNAClub等;序列相似性搜索BLAST;多重系列比對軟件Clustalx;系統(tǒng)進化樹的構建軟件Phylip、MEGA等;PCR 引物設計軟件Primer pr

4、emier6.0、oligo6.0等;蛋白質二級、三級結構預測及三維分子瀏覽工具等等?!咀鳂I(yè)】1、搜索生物信息學數據庫或者軟件。搜索出的數據庫包括網址、該數據庫的介紹、數據庫網頁截屏。如果搜索的是軟件則包括該軟件的用途、使用方法、軟件圖標。(以上搜索的數據庫或軟件至少完成8個以上)2、對生物信息學這門課的建議或感想。注:實驗報告要求以電子版的形式完成以上作業(yè),注明專業(yè)、學號、姓名后發(fā)送到郵箱。實驗二 核酸序列的檢索【實驗目的】1、掌握核酸序列檢索的操作方法;2、熟悉GenBank數據庫序列格式及其主要字段的含義;3、了解EMBL數據庫序列格式及其主要字段的含義;4、熟悉GenBank數據庫序列

5、格式的FASTA序列格式顯示與保存;【實驗內容】1、使用Entrez信息查詢系統(tǒng)檢索核酸序列BC和NM_,連接提取該序列內容,閱讀序列格式的解釋,理解其含義;2、GenBank數據庫序列格式的FASTA序列格式顯示與保存;3、使用SRS信息查詢系統(tǒng)檢索核酸序列BC,連接提取該序列內容,閱讀序列格式的解釋,理解其含義;【作業(yè)】1、 在GenBank數據庫中查詢核酸序列NM_、下載(以兩種格式保存:GenBank與Fasta)、寫出GenBank格式主要字段含義。2、在EMBL數據庫中查詢核酸序列BC、下載(以兩種格式保存:complete entries與Fasta)、寫出complete en

6、tries格式主要字段含義。實驗三 核酸序列分析【實驗目的】1、 掌握已知或未知序列接受號的核酸序列檢索的基本步驟;2、 掌握使用BioEdit軟件進行核酸序列的基本分析;2、 熟悉基于核酸序列比對分析的真核基因結構分析(內含子/外顯子分析);3、 了解基因的電子表達譜分析。【實驗原理】針對核酸序列的分析就是在核酸序列中尋找基因,找出基因的位置和功能位點的位置,以及標記已知的序列模式等過程。在此過程中,確認一段DNA序列是一個基因需要有多個證據的支持。一般而言,在重復片段頻繁出現的區(qū)域里,基因編碼區(qū)和調控區(qū)不太可能出現;如果某段DNA片段的假想產物與某個已知的蛋白質或其它基因的產物具有較高序列

7、相似性的話,那么這個DNA片段就非常可能屬于外顯子片段;在一段DNA序列上出現統(tǒng)計上的規(guī)律性,即所謂的“密碼子偏好性”,也是說明這段DNA是蛋白質編碼區(qū)的有力證據;其它的證據包括與“模板”序列的模式相匹配、簡單序列模式如TATA Box等相匹配等。一般而言,確定基因的位置和結構需要多個方法綜合運用,而且需要遵循一定的規(guī)則:對于真核生物序列,在進行預測之前先要進行重復序列分析,把重復序列標記出來并除去;選用預測程序時要注意程序的物種特異性;要弄清程序適用的是基因組序列還是cDNA序列;很多程序對序列長度也有要求,有的程序只適用于長序列,而對EST這類殘缺的序列則不適用。1. 重復序列分析 對于真

8、核生物的核酸序列而言,在進行基因辨識之前都應該把簡單的大量的重復序列標記出來并除去,因為很多情況下重復序列會對預測程序產生很大的擾亂,尤其是涉及數據庫搜索的程序。 2. 數據庫搜索 把未知核酸序列作為查詢序列,在數據庫里搜索與之相似的已有序列是序列分析預測的有效手段。在理論課中已經專門介紹了序列比對和搜索的原理和技術。但值得注意的是,由相似性分析作出的結論可能導致錯誤的流傳;有一定比例的序列很難在數據庫里找到合適的同源伙伴。對于EST序列而言,序列搜索將是非常有效的預測手段。 3. 編碼區(qū)統(tǒng)計特性分析 統(tǒng)計獲得的經驗說明,DNA中密碼子的使用頻率不是平均分布的,某些密碼子會以較高的頻率使用而另

9、一些則較少出現。這樣就使得編碼區(qū)的序列呈現出可察覺的統(tǒng)計特異性,即所謂的“密碼子偏好性”。利用這一特性對未知序列進行統(tǒng)計學分析可以發(fā)現編碼區(qū)的粗略位置。這一類技術包括:雙密碼子計數(統(tǒng)計連續(xù)兩個密碼子的出現頻率);核苷酸周期性分析(分析同一個核苷酸在3,6,9,.位置上周期性出現的規(guī)律);均一/復雜性分析(長同聚物的統(tǒng)計計數);開放可讀框架分析等。 4. 啟動子分析 啟動子是基因表達所必需的重要序列信號,識別出啟動子對于基因辨識十分重要。有一些程序根據實驗獲得的轉錄因子結合特性來描述啟動子的序列特征,并依次作為啟動子預測的依據,但實際的效果并不十分理想,遺漏和假陽性都比較嚴重??偟膩碚f,啟動子

10、仍是值得繼續(xù)研究探索的難題。 5. 內含子 / 外顯子剪接位點 剪接位點一般具有較明顯的序列特征,但是要注意可變剪接的問題。由于可變剪接在數據庫里的注釋非常不完整,因此很難評估剪接位點識別程序預測剪接位點的敏感性和精度。如果把剪接位點和兩側的編碼特性結合起來分析則有助于提供剪接位點的識別效果。 6. 翻譯起始位點 對于真核生物,如果已知轉錄起始點,并且沒有內含子打斷5非翻譯區(qū)的話,“Kozak規(guī)則”可以在大多數情況下定位起始密碼子。原核生物一般沒有剪接過程,但在開放閱讀框中找正確的起始密碼子仍很困難。這時由于多順反操縱子的存在,啟動子定位不象在真核生物中起關鍵作用。對于原核生物,關鍵是核糖體結

11、合點的定位,可以由多個程序提供解決方案。 7. 翻譯終止信號 PolyA和翻譯終止信號不象起始信號那么重要,但也可以輔助劃分基因的范圍。 8. 其它綜合基因預測工具 除了上面提到的程序之外,還有許多用于基因預測的工具,它們大多把各個方面的分析綜合起來,對基因進行整體的分析和預測。多種信息的綜合分析有助于提高預測的可靠性,但也有一些局限:物種適用范圍的局限;對多基因或部分基因,有的預測出的基因結構不可靠;預測的精度對許多新發(fā)現基因比較低;對序列中的錯誤很敏感;對可變剪接、重疊基因和啟動子等復雜基因語法效果不佳。 9. tRNA 基因識別 tRNA基因識別比編碼蛋白質的基因識別簡單,目前基本已經解

12、決了用理論方法預測tRNA基因的問題。tRNAscan-SE工具中綜合了多個識別和分析程序,通過分析啟動子元件的保守序列模式、tRNA二級結構的分析、轉錄控制元件分析和除去絕大多數假陽性的篩選過程,據稱能識別99%的真tRNA基因。 【實驗內容】1、使用Entrez或SRS信息查詢系統(tǒng)檢索人瘦素 (leptin) 的mRNA、基因組DNA、外顯子和5調控區(qū) (promoter) 等核酸序列,連接提取該序列內容,閱讀序列格式的解釋,理解其含義;2、使用BioEdit軟件對上述核酸序列進行堿基組成、堿基分布、序列變換以及限制性酶切分析等基本分析,并從BioEdit軟件的“help”欄了解該軟件的其

13、它功能;3、使用BioEdit軟件對人瘦素 (leptin) 的mRNA序列進行可讀框架分析;4、使用NCBI查詢系統(tǒng)進行人瘦素 (leptin) 的基因組序列分析和基因的電子表達譜分析;5、使用Blast2進行人瘦素 (leptin) mRNA序列與其外顯子或基因組序列的比對分析?!緦嶒灧椒ā?、進入NCBI主頁:,或者直接在地址欄輸入Entrez網址:rez;2、在輸入欄輸入homo sapiens leptin;3、在選擇欄中選擇nucleotide進行搜索;4、在顯示序列結果中查找人Homo sapiens leptin (LEP), mRNA序列(提示:NM_),點擊序列接受號后顯示

14、序列詳細信息; 5、將序列轉為FASTA格式保存。(sequence1)6、根據從NM_了解的基因定位信息查找人瘦素的基因組DNA (Contig) 的序列識別號,點擊序列識別號顯示序列詳細信息;(提示:在NM_序列信息中查找geneID,點擊3952進入leptin的基因信息頁面)7、查詢人瘦素 (leptin) 基因組的序列分析和5調控區(qū)序列信息;(提示:在NM_序列信息中查找HGNC,點擊6553,進入HUGO Gene Nomenclature Committee (HGNC)頁面,點擊GENATLASLEP可顯示leptin基因信息及物理圖譜。進一步點擊10 Kb 5 upstrea

15、m gene genomic sequence study可獲得5調控區(qū)序列)8、查詢人瘦素 (leptin) 基因的電子表達譜分析;(提示:在UniGene中查詢NM_)9、查找人瘦素外顯子序列(exon),將序列轉為FASTA格式保存。(sequence2)10、按上述步驟用SRS信息查詢系統(tǒng)檢索人瘦素 (leptin) 的mRNA、基因組DNA、外顯子和5調控區(qū)等核酸序列;11、人瘦素 (leptin) mRNA序列與其外顯子或基因組序列的比對分析:回到NCBI主頁點擊右邊欄目BLAST 打開BLAST頁面后點擊Align將人瘦素 (leptin) mRNA和外顯子的FASTA格式序列分

16、別輸入sequence2和sequence1分析框或將人瘦素 (leptin) mRNA和基因組序列的版本號或GI號輸入sequence2和sequence1的分析框點擊BLAST后顯示兩序列比對的詳細信息查找mRNA序列上各外顯子的位置。12、將上述核酸序列輸入BioEdit軟件進行序列基本分析;打開BioEdit軟件,點擊“help”欄,閱讀“contents”;將人瘦素 (leptin) 的mRNA序列載入BioEdit軟件進行合算序列分析:打開BioEdit軟件將人瘦素 (leptin) mRNA的FASTA格式序列輸入分析框點擊選中左側序列說明框中的序列號點擊sequence欄選擇n

17、ucleic acid點擊需要分析的項目【如Nucleotide Composition(核苷酸組成)、Complement(互補)、Translate(翻譯)、Find Next ORF(尋找下一個開放讀碼框架ORF)、Restriction Map(限制性內切酶圖譜)等】【作業(yè)】1、歸納對人瘦素 (leptin) 的核酸序列分析的結果,列出主要的分析結果;2、總結核酸序列分析的基本步驟,相互對比結果,指出應注意的事項。實驗四 多重序列比對及系統(tǒng)發(fā)生樹的構建【實驗目的】1、熟悉構建分子系統(tǒng)發(fā)生樹的基本過程,獲得使用不同建樹方法、建樹材料和建樹參數對建樹結果影響的正確認識;2、掌握使用Clus

18、talx進行序列多重比對的操作方法;3、掌握使用Phylip軟件構建系統(tǒng)發(fā)生樹的操作方法。【實驗原理】在現代分子進化研究中,根據現有生物基因或物種多樣性來重建生物的進化史是一個非常重要的問題。一個可靠的系統(tǒng)發(fā)生的推斷,將揭示出有關生物進化過程的順序,有助于我們了解生物進化的歷史和進化機制。對于一個完整的進化樹分析需要以下幾個步驟: 要對所分析的多序列目標進行比對(alignment)。 要構建一個進化樹(phyligenetic tree)。構建進化樹的算法主要分為兩類:獨立元素法(discrete character methods)和距離依靠法(distance methods)。所謂獨立

19、元素法是指進化樹的拓撲形狀是由序列上的每個堿基/氨基酸的狀態(tài)決定的(例如:一個序列上可能包含很多的酶切位點,而每個酶切位點的存在與否是由幾個堿基的狀態(tài)決定的,也就是說一個序列堿基的狀態(tài)決定著它的酶切位點狀態(tài),當多個序列進行進化樹分析時,進化樹的拓撲形狀也就由這些堿基的狀態(tài)決定了)。而距離依靠法是指進化樹的拓撲形狀由兩兩序列的進化距離決定的。進化樹枝條的長度代表著進化距離。獨立元素法包括最大簡約性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距離依靠法包括除權配對法(UPGMAM)和鄰位相連法(Neighbor-j

20、oining)。 對進化樹進行評估,主要采用Bootstraping法。進化樹的構建是一個統(tǒng)計學問題,我們所構建出來的進化樹只是對真實的進化關系的評估或者模擬。如果我們采用了一個適當的方法,那么所構建的進化樹就會接近真實的“進化樹”。模擬的進化樹需要一種數學方法來對其進行評估。不同的算法有不同的適用目標。一般來說,最大簡約性法適用于符合以下條件的多序列:i 所要比較的序列的堿基差別小,ii 對于序列上的每一個堿基有近似相等的變異率,iii 沒有過多的顛換/轉換的傾向,iv 所檢驗的序列的堿基數目較多(大于幾千個堿基);用最大可能性法分析序列則不需以上的諸多條件,但是此種方法計算極其耗時。如果分

21、析的序列較多,有可能要花上幾天的時間才能計算完畢。UPGMAM(Unweighted pair group method with arithmetic mean)假設在進化過程中所有核苷酸/氨基酸都有相同的變異率,也就是存在著一個分子鐘。這種算法得到的進化樹相對來說不是很準確,現在已經很少使用。鄰位相連法是一個經常被使用的算法,它構建的進化樹相對準確,而且計算快捷。其缺點是序列上的所有位點都被同等對待,而且,所分析的序列的進化距離不能太大。另外,需要特別指出的是對于一些特定多序列對象來說可能沒有任何一個現存算法非常適合它。CLUSTALX和PHYLIP軟件能夠實現上述的建樹步驟。CLUSTA

22、LX是Windows界面下的多重序列比對軟件。PHYLIP是多個軟件的壓縮包,功能極其強大,主要包括五個方面的功能軟件:i,DNA和蛋白質序列數據的分析軟件。ii,序列數據轉變成距離數據后,對距離數據分析的軟件。 iii,對基因頻率和連續(xù)的元素分析的軟件。iv,把序列的每個堿基/氨基酸獨立看待(堿基/氨基酸只有0和1的狀態(tài))時,對序列進行分析的軟件。v,按照DOLLO簡約性算法對序列進行分析的軟件。vi,繪制和修改進化樹的軟件?!緦嶒瀮热荨?、使用CLUSTALX軟件對已知八條DNA序列(如下)進行多重序列比對;M._mulatta AAGCTTTTCT GGCGCAACCA TCCTCATG

23、AT TGCTCACGGA CTCACCTCTT M._fascicu AAGCTTCTCC GGCGCAACCA CCCTTATAAT CGCCCACGGG CTCACCTCTT M._sylvanu AAGCTTCTCC GGTGCAACTA TCCTTATAGT TGCCCATGGA CTCACCTCTT Homo_sapie AAGCTTCACC GGCGCAGTCA TTCTCATAAT CGCCCACGGG CTTACATCCT Gorilla AAGCTTCACC GGCGCAGTTG TTCTTATAAT TGCCCACGGA CTTACATCAT Pongo AAGCTTCA

24、CC GGCGCAACCA CCCTCATGAT TGCCCATGGA CTCACATCCT Saimiri_sc AAGCTTCACC GGCGCAATGA TCCTAATAAT CGCTCACGGG TTTACTTCGT Lemur_catt AAGCTTCATA GGAGCAACCA TTCTAATAAT CGCACATGGC CTTACATCAT2、使用PHYLIP 軟件包構建上述DNA分子系統(tǒng)發(fā)生樹?!緦嶒灧椒ā恳?、用CLUSTALX軟件對已知DNA序列做多序列比對。操作步驟:1、以FASTA格式準備8個DNA序列test.seq(或txt)文件。2、雙擊進入CLUSTALX程序,點

25、FILE進入LOAD SEQUENCE,打開test.seq(或txt)文件。3、點ALIGNMENT,在默認alignment parameters下,點擊Do complete Alignment 。在新出現的窗口中點擊ALIGN進行比對,這時輸出兩個文件(默認輸出文件格式為Clustal格式):比對文件test.aln和向導樹文件test.dnd。4、點FILE進入Save sequence as,在format 框中選PHYLIP,文件在PHYLIP軟件目錄下以test.phy存在,點擊OK。5、將PHYLIP軟件目錄下的test.phy文件拷貝到EXE文件夾中。用計事本方式打開的te

26、st.phy文件的部分序列如下:圖中的8和50分別表示8個序列和每個序列有50個堿基。二、用PHYLIP軟件推導進化樹。1、進入EXE文件夾,點擊SEQBOOT程序輸入test.phy文件名,回車。圖中的D、J、R、I、O、1、2代表可選擇的選項,鍵入這些字母,程序的條件就會發(fā)生改變。D選項無須改變。J選項有三種條件可以選擇,分別是Bootstrap、Jackknife和Permute。文章上面提到用Bootstraping法對進化樹進行評估,所謂Bootstraping法就是從整個序列的堿基(氨基酸)中任意選取一半,剩下的一半序列隨機補齊組成一個新的序列。這樣,一個序列就可以變成了許多序列。

27、一個多序列組也就可以變成許多個多序列組。根據某種算法(最大簡約性法、最大可能性法、除權配對法或鄰位相連法)每個多序列組都可以生成一個進化樹。將生成的許多進化樹進行比較,按照多數規(guī)則(majority-rule)我們就會得到一個最“逼真”的進化樹。Jackknife則是另外一種隨機選取序列的方法。它與Bootstrap法的區(qū)別是不將剩下的一半序列補齊,只生成一個縮短了一半的新序列。Permute是另外一種取樣方法,其目的與Bootstrap和Jackknife法不同,這里不再介紹。R選項讓使用者輸入replicate的數目。所謂replicate就是用Bootstrap法生成的一個多序列組。根據

28、多序列中所含的序列的數目的不同可以選取不同的replicate,此處選200,輸入Y確認參數并在Random number seed (must be odd) ?的下面輸入一個奇數(比如3)。當我們設置好條件后按回車,程序開始運行,并在EXE文件夾中產生一個文件outfile,Outfile用記事本打開如下:這個文件包括了200個replicate。2、文件outfile改為infile。點擊DNADIST程序。選項M是輸入剛才設置的replicate的數目,輸入D選擇data sets,輸入200。設置好條件后,輸入Y確認參數。程序開始運行,并在EXE文件夾中產生outfile,部分內容如

29、下:將outfile文件名改為infile,為避免與原先infile文件重復,將 原先文件名改為infile1。3、EXE文件夾中選擇通過距離矩陣推測進化樹的算法,點擊NEIGHBOR程序。輸入M更改參數,輸入D選擇data sets。輸入200。輸入奇數種子3。輸Y確認參數。程序開始運行,并在EXE文件夾中產生outfile和outtree兩個結果輸出。outtree文件是一個樹文件,可以用treeview等軟件打開。outfile是一個分析結果的輸出報告,包括了樹和其他一些分析報告,可以用記事本直接打開。部分內容如下:4、將EXE文件夾中原有的outfile改為其他名,新生成的的outfi

30、le和outtree文件名改為infile、intree。點擊CONSENSE程序。輸入Y確認設置。EXE文件夾中新生成outfile和outtree。Outfile文件用記事本打開,內容如下:5、將EXE文件夾中原有的outfile和outtree改為其他名,新生成的outfile和outtree改為infile和intree。點擊DRAWTREE程序,輸入font1文件名,作為參數。輸Y確認參數。程序開始運行,并出現Tree Preview圖。6、點擊DRAWGRAM程序,輸入font1文件名,作為參數。輸Y確認參數。程序開始運行,并出現Tree Preview圖?!咀鳂I(yè)】1、采用以上例子

31、給出的DNA序列進行系統(tǒng)發(fā)育樹的構建結果。(包括序列比對結果及最終生成的樹)2、以下給出的是蛋白質序列,使用以上方法構建系統(tǒng)發(fā)育樹。(包括序列比對結果及最終生成的樹)RATMEPKRIREGYLVKKGSVFNTWKPMWVVLLEDGIEFYKKKSDNNPKGMIPLKGSTLTSPCQDFGKRMFVLKITTTKQQDHFFQAAYLEERDAWVRDIKKAIKCIEGGQKFARKSTRRSIRLPETIDLGALYLSMKDPEKGIHUMAN MEPKRIREGYLVKKGSVFNTWKPMWVVLLEDGIEFYKKKSDNSPKGMIPLKGSTLTSPCQDFGKRMFV

32、FKITTTKQQDHFFQAAFLEERDAWVRDIKKAIKCIEGGQKFARKSTRRSIRLPETIDLGALYLSMKDTEKGICANFA MEPKRIREGYLVKRGSVFNTWKPMWVVLLEDGIEFYKKKSDNSPKGMIPLKGSTLTSPCQDFGKRMFVFKITTTKQQDHFFQAAFLEERDSWVRDTKKAIKCIEGGQKFARKSTRRSIRLPETVDLGALYLSMKDIEKGIMOUSE MEPKRIREGYLVKKGSVFNTWKPMWVVLLEDGIEFYKKKSDNSPKGMIPLKGSTLTSPCQDFGKRMFVLKITTTKQ

33、QDHFFQAAFLEERDAWVRDIKKAIKCIEGGQKFARKSTRRSIRLPETIDLGALYLSMKDPEKGICanis MEPKRIREGYLVKRGSVFNTWKPMWVVLLEDGIEFYKKKSDNSPKGMIPLKGSTLTSPCQDFGKRMFVFKITTTKQQDHFFQAAFLEERDSWVRDTKKAIKCIEGGQKFARKSTRRSIRLPETVDLGALYLSMKDIEKGIGallus gallusMEREPMRIREGYLVKKGSMFNTWKPMWVVLLEDGIEFYKRKSDNSPKGMIPLKGSTINSPCQDFGKRMFVFKLTAAK

34、QQDHFFQASYLEERDAWVRDIKKAIQCIDGGQRFARKSTRKSIRLPETINLSALYLSMKDPEKDanio rerioMEPTTIREGYLVKKGTVLNSWKAVWVVLKDDAIEFFKKKTDRNAKGMIPLKGATLTSPCQDFSKRALVFKVSTAKNQDHYFQATHLEEREHWVKDIRRAITCLQGGKKFARKSTRRSIRLPESVNLSELYVCMKDPDRGVchimpanzeeMEPKRIREGYLVKRGSVFNTWKPMWVVLLEDGIEFYKKKSDNSPKGMIPLKGSTLTSPCQDFGKRMFVFKITTTKQ

35、QDHFFQAAFLEERDAWVRDMKKAIKCIEGGQKFARKSTRRSIRLPETIDLGALYLSMKDTEKGI3、以上構建系統(tǒng)進化樹的方法為N-J法,請總結采用蛋白質序列構建系統(tǒng)進化樹與采用DNA序列構建系統(tǒng)進化樹所選用的程序的區(qū)別。實驗五 PCR引物設計及評價【實驗目的】1、掌握引物設計的基本要求,并熟悉使用Primer premier5.0軟件進行引物搜索。2、掌握使用軟件oligo6.0對設計的引物進行評價分析?!緦嶒炘怼恳弧⒁镌O計原則聚合梅鏈式反應(polymerase chain reaction)即PCR技術,是一種在體外快速擴增特定基因或DNA 序列的方法,

36、故又稱基因的體外擴增法。PCR技術已成為分子生物學研究中使用最多,最廣泛的手段之一,而引物設計是PCR技術中至關重要的一環(huán),使用不合適的PCR引物容易導致實驗失?。罕憩F為擴增出目的帶之外的多條帶(如形成引物二聚體帶),不出帶或出帶很弱,等等?,F在PCR引物設計大都通過計算機軟件進行,可以直接提交模板序列到特定網頁,得到設計好的引物,也可以在本地計算機上運行引物設計專業(yè)軟件。引物設計原則如下:1、引物應在序列的保守區(qū)域設計并具有特異性。引物序列應位于基因組DNA的高度保守區(qū),且與非擴增區(qū)無同源序列。這樣可以減少引物與基因組的非特異結合,提高反應的特異性;2、引物的長度一般為15-30 bp。常用

37、的是18-27 bp,但不應大于38,因為過長會導致其延伸溫度大于74,不適于Taq DNA聚合酶進行反應;3、引物不應形成二級結構。引物二聚體及發(fā)夾結構的能值過高(超過4.5kcal/mol)易導致產生引物二聚體帶,并且降低引物有效濃度而使PCR反應不能正常進行;4、引物序列的GC含量一般為40-60%。過高或過低都不利于引發(fā)反應。上下游引物的GC含量不能相差太大;5、引物所對應模板位置序列的Tm值在72左右可使復性條件最佳。Tm值的計算有多種方法,如按公式Tm=4(G+C)+2(A+T);6、引物5端序列對PCR影響不太大,因此常用來引進修飾位點或標記物??筛鶕乱徊綄嶒炛幸迦隤CR產物

38、的載體的相應序列而確定。7、引物3端不可修飾。引物3端的末位堿基對Taq酶的DNA合成效率有較大的影響。不同的末位堿基在錯配位置導致不同的擴增效率,末位堿基為A的錯配效率明顯高于其他3個堿基,因此應當避免在引物的3端使用堿基A。8、引物序列自身或者引物之間不能在出現3個以上的連續(xù)堿基,如GGG或CCC,也會使錯誤引發(fā)機率增加;9、G值是指DNA雙鏈形成所需的自由能,該值反映了雙鏈結構內部堿基對的相對穩(wěn)定性。應當選用3端 G值較低(絕對值不超過9),而5端和中間 G值相對較高的引物。引物的3端的 G值過高,容易在錯配位點形成雙鏈結構并引發(fā)DNA聚合反應;值得一提的是,各種模板的引物設計難度不一。

39、有的模板本身條件比較困難,例如GC含量偏高或偏低,導致找不到各種指標都十分合適的引物;在用作克隆目的的PCR因為產物序列相對固定,引物設計的選擇自由度較低,在這種情況只能退而求其次,盡量去滿足條件。二、引物設計軟件Primer premier5.0及oligo6.0“Premier”的主要功能分四大塊,其中有三種功能比較常用,即引物設計、限制性內切酶位點分析和DNA 基元(motif)查找?!癙remier”還具有同源性分析功能,但并非其特長,在此略過。此外,該軟件還有一些特殊功能,其中最重要的是設計簡并引物,另外還有序列“朗讀”、DNA 與蛋白序列的互換、語音提示鍵盤輸入等等。有時需要根據一

40、段氨基酸序列反推到DNA 來設計引物,由于大多數氨基酸(20 種常見結構氨基酸中的18 種)的遺傳密碼不只一種,因此,由氨基酸序列反推DNA 序列時,會遇到部分堿基的不確定性。這樣設計并合成的引物實際上是多個序列的混和物,它們的序列組成大部分相同,但在某些位點有所變化,稱之為簡并引物。遺傳密碼規(guī)則因物種或細胞亞結構的不同而異,比如在線粒體內的遺傳密碼與細胞核是不一樣的?!癙remier”可以針對模板DNA 的來源以相應的遺傳密碼規(guī)則轉換DNA 和氨基酸序列。軟件共給出八種生物亞結構的不同遺傳密碼規(guī)則供用戶選擇,有纖毛蟲大核(Ciliate Macronuclear)、無脊椎動物線粒體(Inve

41、rtebrate Mitochondrion)、支原體(Mycoplasma)、植物線粒體(Plant Mitochondrion)、原生動物線粒體(Protozoan Mitochondrion)、一般標準(Standard)、脊椎動物線粒體(Vertebrate Mito-chondrion)和酵母線粒體(Yeast Mitochondrion)。 對引物進行分析評價的的軟件中,“oligo” 是最著名的。它的使用并不十分復雜,Oligo 6.0的界面是三個圖,Tm圖、G圖和Frq圖?!癘ligo”的功能比“Premier”還要單一,就是引物設計。但它的引物分析功能如此強大以至于能風靡全世

42、界。所以引物設計的最佳搭配是“Premier”進行引物搜索“Oligo” 對引物分析評價?!緦嶒瀮热荨?、使用Primer premier5.0軟件進行人瘦素 (leptin) mRNA引物的設計。2、使用oligo6.0對引物進行評價分析。?【實驗方法】一、引物搜索1、打開Primer premier5.0軟件,調入人瘦素 (leptin) 基因序列:點擊“file” “open” “ DNA sequence”;或者直接點擊 “file” “new” “DNA sequence”,彈出一對話框如下圖,然后將序列人瘦素 (leptin) 基因復制在空白框。2、序列文件顯示如圖,點擊“Prim

43、er”;3、進一步點擊“search” 按鈕,出現“search criteria”窗口,有多種參數可以調整。搜索目的(Seach For)有三種選項,PCR引物(PCR Primers),測序引物(Sequencing Primers),雜交探針(Hybridization Probes)。搜索類型(Search Type)可選擇分別或同時查找上、下游引物(Sense/Anti-sense Primer,或Both),或者成對查找(Pairs),或者分別以適合上、下游引物為主(Compatible with Sense/Anti-sense Primer)。另外還可改變選擇區(qū)域(Search

44、 Ranges),引物長度(Primer Length),選擇方式(Search Mode),參數選擇(Search Parameters)等等。使用者可根據自己的需要設定各項參數。我們將Product Size設置300350,其他參數使用默認值。然后點擊“OK” ,隨之出現的Search Progress窗口中顯示Search Completed時,再點擊“OK”。 4、這時搜索結果以表格的形式出現,有三種顯示方式,上游引物(Sense),下游引物(Anti-sense),成對顯示(Pairs)。默認顯示為成對方式,并按優(yōu)劣次序(Rating)排列,滿分為100,即各指標基本都能達標(如下

45、圖)。5、按照搜尋結果顯示,在主窗口中檢查該引物對的二級結構情況,逐條分析,依次篩選。下面進行序列篩選:點擊其中一對引物,如第21#引物,在“Peimer Premier”主窗口,如圖所示:該圖分三部分,最上面是圖示PCR模板及產物位置,中間是所選的上下游引物的一些性質,最下面是四種重要指標的分析,包括發(fā)夾結構(Hairpin),二聚體(Dimer),錯誤引發(fā)情況(False Priming),及上下游引物之間二聚體形成情況(Cross Dimer)。當所分析的引物有這四種結構的形成可能時,按鈕由“None” 變成“Found” ,點擊該按鈕,在左下角的窗口中就會出現該結構的形成情況。一對理想

46、的引物應當不存在任何一種上述結構,因此最好的情況是最下面的分析欄沒有“Found”,只有“None” 。值得注意的是中間一欄的末尾給出該引物的最佳退火溫度,可參考應用。 二、引物分析1、打開oligo的頁面如下: 2、單擊file菜單再點open或點擊“打開”快捷圖標或者用快捷鍵“CTrlO”可彈出一對話框,然后選擇序列人瘦素 (leptin) 基因。出現以下窗口。3、點擊“window”再點擊“Tile”,出現以下窗口,圖中顯示的三個指標分別為Tm、G和Frq,因為分析要涉及多個指標,起動窗口的cascade排列方式不太方便,可從windows菜單改為tile方式。如果覺得太擁擠,可去掉一個

47、指標。?G值反映了序列與模板的結合強度,最好引物的?G值在5端和中間值比較高,而在3端相對低(如圖:)Tm值曲線以選取72附近為佳,5到3的下降形狀也有利于引物引發(fā)聚合反應。Frq曲線為“Oligo 6”新引進的一個指標,揭示了序列片段存在的重復機率大小。選取引物時,宜選用3端Frq值相對較低的片段。4、在設計時,可依據圖上三種指標的信息選取序列,如果覺得合適,可點擊Tm圖塊上左下角的Upper按鈕 ,選好上游引物,此時該按鈕變成紅色,表示上游引物已選取好。下游引物的選取步驟基本同上,只是按鈕變成Lower。5、當上下游引物全選好以后,需要對引物進行評價??梢杂谩癆nalyse”菜單分析你的引

48、物:比如有無引物二聚體、發(fā)卡結構等等。首先檢查引物二聚體尤其是3端二聚體形成的可能性。需要注意的是,引物二聚體有可能是上游或下游引物自身形成,也有可能是在上下游引物之間形成(cross dimer)。二聚體形成的能值越高,越不符合要求。一般的檢測(非克?。┬訮CR,對引物位置、產物大小要求較低,因而應盡可能選取不形成二聚體或其能值較低的引物。第二項檢查是發(fā)夾結構(hairpin);與二聚體相同,發(fā)夾結構的能值越低越好。一般來說,這兩項結構的能值以不超過4.5為好。當然,在設計克隆目的的PCR引物時,引物兩端一般都添加酶切位點,必然存在發(fā)夾結構,而且能值不會太低。這種PCR需要通過靈活調控退火溫

49、度以達到最好效果,對引物的發(fā)夾結構的檢測就不應要求太高。第三項檢查為GC含量,以45-55為宜。有一些模板本身的GC含量偏低或偏高,導致引物的GC含量不能被控制在上述范圍內,這時應盡量使上下游引物的GC含量以及Tm值保持接近,以有利于退火溫度的選擇。當我們結束以上三項檢測,按Alt+P鍵彈出PCR窗口,其中總結性地顯示該引物的位置、產物大小、Tm值等參數,最有用的是還給出了推薦的最佳退火溫度和簡單的評價。 【作業(yè)】1、提交使用Primer premier5.0及oligo6.0軟件進行人瘦素 (leptin) mRNA引物的設計結果;(1)使用引物設計軟件Primer premier5.0進行人瘦素 (leptin) mRNA引物搜索結果截圖。(包括S鏈和A鏈截圖)(2)oligo6.0分析此對引物的結果。(包括Duplex formation、Hairpin formation、False Priming Sites截圖)(3)綜合Primer premier5.0與oligo6的引物設計結果為:sense : 5- XXXXXXXXXXXXXXXXXXX -3 (?bp) antisense: 5

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論