版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基因組數(shù)據(jù)注釋和功能分析 通過(guò)序列比對(duì)工具BLAST學(xué)習(xí),了解蛋白編碼基因的功能注釋原理介紹多序列聯(lián)配工具ClustalX分子進(jìn)化分析軟件MEGA4的基本知識(shí),掌握系統(tǒng)發(fā)生樹(shù)繪制的基本方法序列比對(duì)的進(jìn)化基礎(chǔ)序列比對(duì)的目的:從核酸以及氨基酸的層次去分析序列的相同點(diǎn)和不同點(diǎn),以推測(cè)他們的結(jié)構(gòu)、功能以及進(jìn)化上的聯(lián)系通過(guò)判斷兩個(gè)序列之間的相似性來(lái)判定兩者是否具有同源性相似性:直接的數(shù)量關(guān)系,如:序列之間相似部分的百分比同源性:質(zhì)的判斷,兩個(gè)基因在進(jìn)化上是否曾有共同祖先的推斷BLAST基本局部比對(duì)搜索工具 (Basic Local Alignment Search Tool)NCBI 上 BLAST 服
2、務(wù)的網(wǎng)址:/blast/NCBI 的 BLAST 程序及數(shù)據(jù)庫(kù)下載網(wǎng)址: ftp:/blast選擇物種選擇blast程序Query SequenceAmino acid SequenceDNA SequencetBLASTxBLASTxBLASTntBLASTnBLASTpNucleotideDatabaseProteinDatabaseNucleotideDatabaseNucleotideDatabaseProteinDatabaseTranslatedTranslated程序名搜索序列數(shù)據(jù)庫(kù)內(nèi)容備注blastpProteinProtein比較氨基酸序列與蛋白質(zhì)數(shù)據(jù)庫(kù)使用取代矩陣尋找較遠(yuǎn)的
3、關(guān)系,進(jìn)行SEG過(guò)濾blastnNucleotideNucleotide比較核酸序列與核酸數(shù)據(jù)庫(kù)尋找較高分值的匹配,對(duì)較遠(yuǎn)的關(guān)系不太適用blastxNucleotideProtein比較核酸序列理論上的六框架的所有轉(zhuǎn)換結(jié)果和蛋白質(zhì)數(shù)據(jù)庫(kù)用于新的DNA序列和ESTs的分析,可轉(zhuǎn)譯搜索序列tblastnProteinNucleotide比較蛋白質(zhì)序列和核酸序列數(shù)據(jù)庫(kù),動(dòng)態(tài)轉(zhuǎn)換為六框架結(jié)果用于尋找數(shù)據(jù)庫(kù)中沒(méi)有標(biāo)注的編碼區(qū),可轉(zhuǎn)譯數(shù)據(jù)庫(kù)序列tblastxNucleotideNucleotide比較核酸序列和核酸序列數(shù)據(jù)庫(kù),經(jīng)過(guò)兩次動(dòng)態(tài)轉(zhuǎn)換為六框架結(jié)果轉(zhuǎn)譯搜索序列與數(shù)據(jù)庫(kù)序列與核酸相關(guān)的數(shù)據(jù)庫(kù)與蛋白質(zhì)相
4、關(guān)的數(shù)據(jù)庫(kù)選擇數(shù)據(jù)庫(kù)序列或目標(biāo)序列的GI號(hào)以文件格式上傳配對(duì)與錯(cuò)配空位罰分PSI-BLAST:位點(diǎn)特異迭代 打分矩陣:PAM 30PAM 70BLOSUM80BLOSUM62BLOSUM45選擇打分矩陣(scoring matrix)The PAM family Based on global alignments The PAM1 is the matrix calculated from comparisons of sequences with no more than 1% divergence. Other PAM matrices are extrapolated from PAM
5、1.The BLOSUM family Based on local alignments. BLOSUM 62 is a matrix calculated from comparisons of sequences with no less than 62% divergence. All BLOSUM matrices are based on observed alignments; they are not extrapolated from comparisons of closely related proteins. 進(jìn)行比對(duì)的數(shù)據(jù)庫(kù)圖形化結(jié)果The Expect value
6、(E) is a parameter that describes the number of hits one can expect to see just by chance when searching a database of a particular size.上機(jī)實(shí)習(xí)1:網(wǎng)上運(yùn)行blastx和blastn(NCBI blast網(wǎng)址:http:/BLAST/)lesson.seq.screen.Contig34 TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGC
7、CACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAGGGAGGTGCACTGGGGTGGTTCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGATCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTC
8、CAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTGGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAGACGATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTTGCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACAC
9、TCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGCCTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGG
10、GTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTCGCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC對(duì)contig34進(jìn)行網(wǎng)上blastn(演示),blastx(自行操作)比對(duì)本地運(yùn)行BLAST下載 (http:/blast/download.shtml )安裝(安裝到C:)數(shù)據(jù)庫(kù)的格式化(formatdb)程序運(yùn)行 (blastall) 雙擊安裝到D盤(pán)產(chǎn)生三個(gè)文件夾bindatadoc將 db,in復(fù)制到Blast/bin文件夾下bin含可執(zhí)行程序(將數(shù)據(jù)庫(kù)及需要比對(duì)操作的數(shù)據(jù)放
11、入該文件);data文件夾含打分矩陣及演示例子的序列數(shù)據(jù)信息;doc文件夾含關(guān)于各子程序的說(shuō)明文檔。 數(shù)據(jù)庫(kù)的格式化formatdb命令用于數(shù)據(jù)庫(kù)的格式化: formatdb option1option2option3 formatdb常用參數(shù) -i database_name 需要格式化的數(shù)據(jù)庫(kù)名稱 -p TF 待格式化數(shù)據(jù)庫(kù)的序列類型 (核苷酸選F;蛋白質(zhì)選T;默認(rèn)值為T) 例:formatdb -i db -p T 對(duì)蛋白質(zhì)數(shù)據(jù)庫(kù)“db”進(jìn)行格式化 程序運(yùn)行blastall命令用于運(yùn)行五個(gè)blast子程序: blastall option1option2option3 blastall常
12、用參數(shù) 四個(gè)必需參數(shù) -p program_name, 程序名,根據(jù)數(shù)據(jù)庫(kù)及搜索文件序列性質(zhì)進(jìn)行選擇; -d database_name,數(shù)據(jù)庫(kù)名稱, 比對(duì)完成格式化的數(shù)據(jù)庫(kù); -i input_file, 搜索文件名稱; -o output_file, BLAST結(jié)果文件名稱; 2個(gè)常用參數(shù) -e expectation,期待值,默認(rèn)值為10.0,可采用科學(xué)計(jì)數(shù)法來(lái)表示,如2e-5; -F filter? 過(guò)濾低復(fù)雜性序列,默認(rèn)為T,默認(rèn)低復(fù)雜性序列不參加比對(duì);例: blastall -p blastx -d db -F F -i in -o out -e 2e-5 blast部分參數(shù):上機(jī)
13、實(shí)習(xí)2:本地運(yùn)行blastx進(jìn)入DOS命令行提示符狀態(tài) (“運(yùn)行” cmd)進(jìn)入C盤(pán) “cd ”進(jìn)入包含序列數(shù)據(jù)的bin目錄下 “cd Blastbin”察看目錄下內(nèi)容 “dir” 格式化數(shù)據(jù)庫(kù)db “formatdb i db p T”運(yùn)行blastx“blastall p blastx i in d db o out”察看結(jié)果 more out.txt輸入數(shù)據(jù)庫(kù)類型:F/TBlast程序 序列輸入 數(shù)據(jù)庫(kù) 結(jié)果輸出輸入“cd ”-回車回到安裝目錄 C盤(pán)輸入“cd blastbin”-回車到達(dá)blast程序下bin文件夾輸入“dir”-回車察看bin文件夾下內(nèi)容bin文件夾下包含以.exe為
14、后綴的程序文件以及這次實(shí)習(xí)需要用到的數(shù)據(jù)可文件“bd”和目標(biāo)序列文件“in”輸入“more db”-回車 察看db文件內(nèi)容空格鍵翻頁(yè)輸入“q”跳出輸入“formatdb i db p T ” -回車對(duì)db數(shù)據(jù)庫(kù)進(jìn)行格式化輸入“dir ” -回車察看bin文件夾下內(nèi)容格式化以后產(chǎn)生的文件輸入“blastall p blastx i in d db o out ” -回車運(yùn)行blastx程序產(chǎn)生的結(jié)果文件 “out”用”more out”察看結(jié)果文件EST數(shù)據(jù)注釋小結(jié):一、注釋評(píng)價(jià)相同物種中有高度相似的序列其它物種有高度相似的序列其它物種有中度相似的序列其它物種相似度低的序列含有某些結(jié)構(gòu)域或者基序
15、(motif)二、程序選擇 序列信息BLASTFASTA(http:/www.ebi.ac.uk/fasta/)較高敏感度,但速度較慢(可通過(guò)ktup值調(diào)節(jié))BLITZ(http:/www.ebi.ac.uk/searches/blitz.html)更為靈敏,所需時(shí)間更長(zhǎng)三、低復(fù)雜度區(qū)域(LCRs)低復(fù)雜度區(qū)域過(guò)濾將該類區(qū)域轉(zhuǎn)化為不明確字符(蛋白質(zhì)用X,核酸用N)多序列比對(duì)的目的從物種的一些分子特性出發(fā),從而了解物種之間的生物系統(tǒng)發(fā)生的關(guān)系。通過(guò)序列同源性的比較進(jìn)而了解基因的進(jìn)化以及生物系統(tǒng)發(fā)生的內(nèi)在規(guī)律。分子鐘不同生物系統(tǒng)的同一血紅蛋白分子的氨基酸隨著時(shí)間的推移而以幾乎一定的比例相互量換著
16、(Zuckerkandl&Pauling,1962 )蛋白質(zhì),基因序列在單位時(shí)間以大致恒定的速度進(jìn)行置換 直系同源(orthologs): 同源的基因是由于共同的祖先基因進(jìn)化而產(chǎn)生的.旁系同源(paralogs): 同源的基因是由于基因復(fù)制產(chǎn)生的.用于分子進(jìn)化分析中的序列必須是直系同源的,才能真實(shí)反映進(jìn)化過(guò)程。paralogsorthologs多序列比對(duì)的應(yīng)用:系統(tǒng)發(fā)育分析(phylogenetic analysis)結(jié)構(gòu)預(yù)測(cè)(structure prediction)序列基序鑒定(sequence motif identification)功能預(yù)測(cè)(function prediction)C
17、lustalW/ClustalX:一種全局的多序列比對(duì)程序,可以用來(lái)繪制親緣樹(shù),分析進(jìn)化關(guān)系。 MEGA4 ClustalW的運(yùn)行 本地運(yùn)行命令行操作的ClustalX(linux) 窗口化操作的ClustalX(windows)下載頁(yè)面:(http:/www.ebi.ac.uk/clustalw)網(wǎng)上運(yùn)行 (http:/www.ebi.ac.uk/clustalw) 目標(biāo)序列各種參數(shù)設(shè)定下載ClustalXJalview結(jié)果下載上機(jī)實(shí)習(xí)2:本地運(yùn)行ClastalX17-RNASE1.fasta多序列比對(duì) (Multiple Alignment)構(gòu)建進(jìn)化樹(shù) (Bootstrap N-J)在C:
18、zcnishiyan1clustalx1.83文件夾下,找到clustalx.exe雙擊打開(kāi)Clustalx窗口點(diǎn)擊File下拉菜單中Load sequences選項(xiàng),打開(kāi)序列文件17-RNASE1.fasta.txt打開(kāi)后的界面可在Alignment下拉菜單中的Alignment Parameters中設(shè)定各個(gè)參數(shù)點(diǎn)擊Alignment下拉菜單中的Do Complete Alignment 進(jìn)行比對(duì)比對(duì)結(jié)果 * : 和空格依次代表改為點(diǎn)的序列一致性由高到低 選擇Trees下拉菜單中的Draw N-J Tree構(gòu)建進(jìn)化樹(shù),并且保存在C:zcnishiyan1clustalx1.83文件夾下,找
19、到njplotWIN95.exe雙擊打開(kāi)用于打開(kāi)進(jìn)化樹(shù)文件在njplotWIN95中打開(kāi)剛才構(gòu)建的進(jìn)化樹(shù)(文件后綴為.ph)在ClustalX中采用Bootstrap檢驗(yàn)進(jìn)化樹(shù)Bootstrap重復(fù)值至少為100(默認(rèn)設(shè)置為1000)在njplotWIN95中打開(kāi)進(jìn)化樹(shù)(文件后綴為.phb)點(diǎn)擊Bootstrap Value前的方框在各節(jié)點(diǎn)前顯示該點(diǎn)所通過(guò)Bootstrap檢驗(yàn)的次數(shù)MEGA4一個(gè)關(guān)于序列分析及比較統(tǒng)計(jì)的工具包包含距離建樹(shù),MP等建樹(shù)法自動(dòng)或手動(dòng)進(jìn)行序列比對(duì);推斷進(jìn)化樹(shù);估算分子進(jìn)化率,進(jìn)行進(jìn)化假設(shè)測(cè)驗(yàn);聯(lián)機(jī)進(jìn)行數(shù)據(jù)庫(kù)搜索;聯(lián)機(jī)BLAST輸入序列號(hào):NM_198232 選擇數(shù)據(jù)
20、庫(kù)(Nucleotide collection) 選擇符合要求的序列:19386966932095761938696819386946提取所選序列以genbank格式顯示點(diǎn)擊Add to Alignment自動(dòng)跳出序列窗口進(jìn)行ClustalW比對(duì)DataExport AlignmentMEGA format命名為17RNASE.meg,保存到目錄C:zcnishixi1更改參數(shù)設(shè)定為:差異位點(diǎn)百分?jǐn)?shù)(p-distance) 顯示兩兩序列間距離 進(jìn)行分子鐘檢驗(yàn)(Molecular Clock Test) 選擇外類群(Outgroup):H. sapiens RNASE1A和B序列M. mulat
21、ta RNASE1P. nemaeus RNASE1采用默認(rèn)設(shè)置 MEGA4可以識(shí)別fasta格式文件將17-RNASE1.fasta.txt重命名為17-RNASE1.fasta編輯 標(biāo)注保守區(qū)域 標(biāo)注不匹配的區(qū)域選擇打開(kāi)方式為MEGA4,打開(kāi)17-RNASE1.fasta,自動(dòng)跳出序列窗口在MEGA4主窗口構(gòu)建進(jìn)化樹(shù)選擇Bootstrap重復(fù)次數(shù),至少為100次進(jìn)化樹(shù)的可靠性分析Bootstrap Method從排列的多序列中隨機(jī)有放回的抽取某一列,構(gòu)成相同長(zhǎng)度的新的排列序列重復(fù)上面的過(guò)程,得到多組新的序列對(duì)這些新的序列進(jìn)行建樹(shù),再觀察這些樹(shù)與原始樹(shù)是否有差異,以此評(píng)價(jià)建樹(shù)的可靠性至少進(jìn)行
22、100次重復(fù)取樣原始數(shù)據(jù)多序列比對(duì)結(jié)果對(duì)序列中每個(gè)位置重復(fù)抽樣,基于原比對(duì)結(jié)果生成多個(gè)樣本Oringinal treeBootstrap consensus tree節(jié)點(diǎn)上的值為通過(guò) Bootstrap檢驗(yàn)的次數(shù)選擇模型為P-distance不同樹(shù)型Tree:樹(shù)型選擇Branch:分支信息修改Label:分支名稱修改Scale:標(biāo)尺設(shè)定Cutoff:cut off 值 軟件網(wǎng)址說(shuō)明ClustalXhttp:/bips.u-strasbg.fr/fr/Documentation/ClustalX/圖形化的多序列比對(duì)工具ClustalWhttp:/www.cf.ac.uk/biosi/research/biosoft/Downloads/clustalw.html命令行格式的多序列比對(duì)工具GeneDochttp:/biomed/genedoc/多序列比對(duì)結(jié)果的美化工具BioEdithttp:/BioEdit/bioedit.html序列分析的綜合工具M(jìn)EGAhttp:/圖形化、集成的進(jìn)化分析工具,不包括MLPAUPhttp:/商業(yè)軟件,集成的進(jìn)化分析工具PHYLIPhttp:/phyli
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 個(gè)人與企業(yè)間知識(shí)產(chǎn)權(quán)許可協(xié)議(2024版)5篇
- 2025年度智能硬件產(chǎn)品獨(dú)家代理銷售合同協(xié)議4篇
- 2025年廠區(qū)突發(fā)事件應(yīng)急預(yù)案服務(wù)合同范本4篇
- 臨時(shí)工作人員雇傭協(xié)議示例(2024年度)版B版
- 個(gè)人循環(huán)貸款最高限額合同書(shū)2024年版一
- 2025年度國(guó)際貿(mào)易代理產(chǎn)品認(rèn)證合同范本4篇
- 2024年05月上海/北京中國(guó)工商銀行數(shù)據(jù)中心星令營(yíng)暑期實(shí)習(xí)項(xiàng)目筆試歷年參考題庫(kù)附帶答案詳解
- 《合成抗菌材料》課件
- 2025年度區(qū)塊鏈技術(shù)應(yīng)用與維護(hù)服務(wù)合同3篇
- 專用配件銷售協(xié)議(2024年度)版A版
- 春節(jié)文化常識(shí)單選題100道及答案
- 12123交管學(xué)法減分考試題及答案
- 2024年杭州師范大學(xué)附屬醫(yī)院招聘高層次緊缺專業(yè)人才筆試真題
- 制造業(yè)BCM業(yè)務(wù)連續(xù)性管理培訓(xùn)
- 24年追覓在線測(cè)評(píng)28題及答案
- TGDNAS 043-2024 成人靜脈中等長(zhǎng)度導(dǎo)管置管技術(shù)
- 《陸上風(fēng)電場(chǎng)工程概算定額》NBT 31010-2019
- 招投標(biāo)法考試試題及答案
- 皮帶輸送機(jī)工程施工電氣安裝措施要點(diǎn)
- 藥房(冰柜)溫濕度表
- QJ903.9A-1995航天產(chǎn)品工藝文件管理制度管理用工藝文件編制規(guī)則
評(píng)論
0/150
提交評(píng)論