



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、實習三:相似序列的數(shù)據(jù)庫搜索學號 姓名 專業(yè)年級實驗時間 提交報告時間實驗目的:學會使用BLAST在數(shù)據(jù)庫中搜索相似序列學會本地運行 BLAST(local blast)學會分析數(shù)據(jù)庫搜索結果實驗內容:依據(jù)實驗教材學會網(wǎng)頁式BLAST的使用,能夠使用不同的算法得到與查詢蛋白 和核酸相似的序列;學會使用本地化BLAST批處理比對大量序列;及通過迭代 搜索的方式分析結果,尋找同源序列。作業(yè):Search DNA topoisomerase 1 of yeast on the BLAST server. Choose the BLASTN program, answer the following
2、questions:檢索號:NM_001183260Is there a sequence identical as your query in the result? What is the bit score and the raw score?包含原始序列,raw score 為 4620,bit score 為 4167What is the score for match, mismatchand gap penalty?匹配2,錯配-3,空位引入罰分5,延伸罰分2What values of K and 入 were used for calculating the expect
3、values (E)? Where do these values come from?在搜索結果中的點擊“Search Summary”顯示:Lambda 0.625; K 0.41;K和入的估計:一些數(shù)據(jù)庫搜索程序,例如FASTA或其它基于Smith-Waterman算法的程序,在進行序列搜 索時,會對數(shù)據(jù)庫中的每條序列進行聯(lián)配并給出聯(lián)配值,這些值大部分與未知序列無關,但 它們被用于了 K和入?yún)?shù)的估計。這一方法避免了隨機序列模型因使用真實序列 (real sequence)造成的隨意性,但同時產(chǎn)生了使用相關序列估計參數(shù)的難題。BLAST僅通過部分 而不是全部無關序列計算最適聯(lián)配值,這贏得
4、了搜索速度。因此,對于某一選定的替換矩陣 和空位罰值,必須進行K和入?yún)?shù)的預先估計,估計中使用真實序列,而非通過隨機序列 模型產(chǎn)生的模擬序列。這一估計的結果看來非常準確。lambda即入,是BLAST程序的一個統(tǒng)計參數(shù),可以用來進行raw score (S)與bit score (S)的 轉換;來源,根據(jù)可觀測點突變資料得到的氨基酸相對突變力(mi)和頻率fl,氨基酸aj發(fā)生 變化的概率為1- M jj,這必須與突變力相一致,即1- M jj 8 mj或按下式定義常數(shù)入:Mjj = 1-入mj同樣 Mjj 8 mj Aij由于 Mjj 和E Mkj 之和必為1,Mjj=A mj Aij /Z
5、Akj又因1PAM為100氨基酸中預期發(fā)生一次替換,則另外99個氨基酸不發(fā)生變化,有99= 100Z fi Mii入=1/Z 100 mifiHow many database sequences were searched?彈出頁面顯示出127條序列What classes of organisms do the matched sequences originate from?通過在搜索結果頁面中點擊Taxonomy Report中查看分布;第一行顯示root共71種,這包括:37 種 Saccharomycetales23 種 Pezizomycotina3 種 Taphrinomyco
6、tina7 種 Endopterygota1 種 synthetic constructSearch the PDB database for 1jfm and save the chain A of this sequence in fasta format for BLASTP search. Run the BLASTP and answer the following questions:在搜索時將數(shù)據(jù)庫限定為PDB時,如上的各種設置在查找結果中可以發(fā)現(xiàn)顯著地差異:Change “Expect threshold “ from 10 to 0.0001, is there any di
7、fference in the search result, why?當算法中的“Expect threshold”設置為10時,搜索結果為20條;當算法中的“Expect threshold”為0.0001搜索結果僅為為3條;由此可以看到,Expect Threshold (E-value值)設置得越小,搜索到的相似序列數(shù)目越少,反之 則越大。因為這個數(shù)值表示僅僅因隨機性造成獲得這一聯(lián)配結果的可能次數(shù)。這一數(shù)值越接 近零,發(fā)生這一事件的可能性越小。從搜索的角度看,E值越小,聯(lián)配結果越顯著。Change “Matrix” from BLOSUM62 to “PAM30”,is there an
8、y difference in the result why? 打分矩陣設為“BLOSUM62 ”時算法中的空位罰分一欄為“引入罰分11延伸罰分1”查找 的序列結果為20條;而矩陣選擇“PAM30”時空位罰分自動變?yōu)椤耙肓P分9延伸罰分1”,查找的結果僅有3 條;這可能是空位罰分系統(tǒng)的改變影響的,此外PAM基于進化的點突變模型,如果兩種氨基酸 替換頻繁,說明自然界接受這種替換,那么這對氨基酸替換得分就高。而BLOSUM基于蛋白 的保守性構建的。因此,BLOSUM62與PAM30適用于不同的方向,BLOSUM更傾向于尋找保 守區(qū)域,而PAM更適合于尋找進化關系,表現(xiàn)在空位罰分上也就不同。Chan
9、ge “Gap costs” from “11, 1” to “7, 2,is there any difference in the result, why?當“Gap costs”設為11, 1時,查找結果有20條;當“Gap costs”設為7, 2,結果變?yōu)?9條;條件2與1相比,當空位的引入罰分降低時,查找更傾向于引入更多的起始空位,使更多的 結果獲得高分;而延伸空位降低時,空位的過多延伸會明顯的降低得分,使結果更少。綜合 考慮,結果2與結果1的搜索差異不大;Pick a protein sequence of your interest to run PSI-blast, do i
10、teration several times until convergence (very few new sequences found). Briefly describe the new sequences found in each iteration, are these sequences homologous to your query sequence?首先于PDB中尋找avian flu(禽流感)彈出的結果中選擇條目 “Crystal Structure of a H5N1 influenza virus hemagglutinin (禽流感血 球凝集素結晶)Influen
11、za A virus (A/Viet Nam/12032004(H5N1)選擇FASTA格式序列保存,2FK0 a鏈;進入blastp網(wǎng)頁,上傳剛保存的選擇其FASTA格式的序列;選擇PSI-BLAST算法,點擊“blast”進行第一次的查找;再經(jīng)第二次迭代查找后,新出現(xiàn)很 多黃色標注的結果,其中之一如:hemagglutinin Influenza A virus (A/tiger/Thailand/CU-T604(H5N1) 72272298% 0.099% AAX83397.1(scored below threshold on previous iteration)此條目描述為 hem
12、agglutinin Influenza A virus (A/chicken/Thailand/ICRC-V1432007(H5N1)即甲型流感病毒H5N1的血凝素,其相似度高達99%,又由于禽流感是甲型流感的一種,故 認為該兩條序列間存在同源關系,又因為其來源均為H5N1,而在不同物種(越南與泰國禽) 故判斷其為直系同源,經(jīng)第三次迭代,未出現(xiàn)新結果,可以判斷同源序列基本已找齊。4. Search the protein database for “nitrogenase” sequences, limit the database to RefSeq and the organism to
13、 Rhizobiaceae (根瘤菌屬).Then save the result as fasta format. Construct the database file with formatdb command. Search the protein database for alpha chain nifD from Rhizobium etli as the query(500aa). Construct the database then run local blast search with the query sequence, explain your procedure a
14、nd interpret the result. (Explain the relationship (ortholog, paralog, xenolog) between your query sequence and some hits)1、數(shù)據(jù)庫與查詢序列的保存登入refseq輸入nitrogenase并進行高級設置,添加“organism”選項卡,并填寫Rhizobiaceae得到的結果中選擇Rhizobium etli CIAT 652 plasmid pB, complete sequence保存為 FASTA格式,更改文件名及拓 展名為 bio3_database.seq;用同
15、樣的方法在refseq中尋找“alpha chain nifD”,“organism”選項卡填寫Rhizobium etli” 并保存FASTA格式,更名為bio3_query.seq;2、本地BLAST比對、在D盤下創(chuàng)建一個名為blast的新文件夾,運行blast-2226-ia32-win32.exe自解壓;、將上述得到的數(shù)據(jù)庫序列文件bio3_database.seq和查詢序列文件bio3_query.seq復制到 D:blastbindatabase 下;、打開 cmd,切換至 d:blastbin,輸入命令 formatdb.exe -i databasebio3_database.
16、seq -p F,運行建庫程序formatdb建蛋白庫;、比對與輸出:運行比對程序 blastall,輸入命令blastall.exe -p blastn -i databasebio3_query.seq -d databasebio3_database.seq -o. output.txt ,即可以得到輸出結果 outpt.txt;3、結果分析:打開outpt.txt,查看結果:首先可以發(fā)現(xiàn)“BLASTN”標識出現(xiàn)了九次,這說明查詢的序列文件bio3_query.seq中含有九 條序列,比對進行了九次;以第一條序列和數(shù)據(jù)庫中第二條比對結果為例分析Query= gi|190893983|re
17、f|NC_010996.1| Rhizobium etli CIAT 652 plasmid pB, complete sequence (429,111 letters)/查詢序列的標識gi|89255298|ref|NC_004041.2| Rhizobium etli CFN 42 symbiotic plasmidp42d, complete sequenceLength = 371254/比對序列的詳細信息Score = 7.052e+004 bits (35572), Expect = 0.0Identities = 3590436019 (99%), Gaps = 2736019
18、 (0%)Strand = Plus / Plus/在這么長的序列中,得分非常高,由此得到了 99%的相似性,顯然為同源關系,由于均來 源Rhizobium etli而由于基因復制導致相似的序列的蛋白產(chǎn)生了不同的功能,故認為其為旁 系同源。結果的末尾包含了 Database: databasebio3_database.seq/數(shù)據(jù)庫信息Posted date: Jun 8, 2013 3:41 PMNumber of letters in database: 60,540,652Number of sequences in database: 98Lambda K H 統(tǒng)計參數(shù)1.370.7111.31GappedLambda K H1.370.7111.31Matrix: blastn matrix:1 -3Gap Penalties: Existence: 5, Extension: 2/罰分方法Number of Sequences: 98Number of Hits to DB: 69,408,227 比對結果的統(tǒng)計信息Nu
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江西制造職業(yè)技術學院《無機及分析化學實驗實驗》2023-2024學年第二學期期末試卷
- 湖北黃岡應急管理職業(yè)技術學院《數(shù)字影像設計基礎》2023-2024學年第二學期期末試卷
- 閩南師范大學《心理學論文寫作方法》2023-2024學年第二學期期末試卷
- 哈爾濱科學技術職業(yè)學院《Python應用程序設計》2023-2024學年第二學期期末試卷
- 西南林業(yè)大學《薄膜太陽能電池技術》2023-2024學年第二學期期末試卷
- 南充科技職業(yè)學院《編程及應用》2023-2024學年第二學期期末試卷
- 消防安全合同管理規(guī)定
- 船舶制造材料供應合同
- 新建住宅買賣合同備案流程
- 股權轉讓合同及相關權益轉讓協(xié)議
- 《水利工程質量檢測管理規(guī)定》知識培訓
- 2025年02月貴州省司法廳所屬事業(yè)單位公開招聘2人筆試歷年典型考題(歷年真題考點)解題思路附帶答案詳解
- 2025年校長春季開學思政第一課講話稿1720字例文【供參考】
- 2025至2030年中國單板電磁制動器數(shù)據(jù)監(jiān)測研究報告
- 2024年07月國新國證期貨有限責任公司(海南)2024年招考2名工作人員筆試歷年參考題庫附帶答案詳解
- 人教版數(shù)學八年級下冊 第17章 勾股定理 單元測試(含答案)
- 國網(wǎng)標書制作流程
- 六年級語文教學學情分析提高六語文質量的措施
- 中醫(yī)藥臨床適宜技術
- 銀發(fā)經(jīng)濟的發(fā)展路徑
- 工業(yè)廠房水電安裝施工方案
評論
0/150
提交評論