




已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
實驗四 基于Matlab的序列比對分析實驗目的1 了解MATLAB7.x生物信息工具箱中的序列比對方法;2 熟悉從數據庫獲取序列信息, 查找序列的開放閱讀框, 將核普酸序列轉換為氨基酸序列, 繪制比較兩氨基酸序列的散點圖, 用Needleman-wunsch算法和Smith-Waterman算法進行比對, 以及計算兩序列的同一性的方法;3 熟悉與序列比對相關的生物信息學函數。所需軟件MATLAB 7.0或MATLAB 7.0以上的版本實驗內容序列比對是生物信息學的重要基礎。進行序列比對的目的之一是判斷兩個序列之間是否具有足夠的相似性,從而判定二者之間是否具有同源性。序列比對的基本算法主要有兩個,一個是用于全局比對的Needleman-Wunsch算法,另一個是主要用于局部比對的Smith-Waterman算法,而后者又是在前者的基礎上發(fā)展起來的。在MATLAB生物信息工具箱中,序列比對主要用這兩種算法。確定兩個序列的相似性是生物信息學的基礎工作,通過序列比對(又稱序列聯(lián)配),可以確定兩個序列是否具有同源性。 1. 查找序列信息 Tay-Sachs癥是一種由于缺乏-氨基已糖苷酶A(Hex A)而導致的常染色體隱性遺傳疾病。這種酶能分解大腦和神經細胞中的神經節(jié)苷脂(GM2)?;騂EXA編碼該酶的亞基,而第三個基因GM2A編碼活化劑蛋白質GM2。1.1 查找目的基因Tay-Sachs在NCBI()上查找信息,在Search列表中選擇Nucleotide,在for框中輸入Tay-Sachs, 點擊Go。1.2 讀入序列數據查找結果返回編碼酶HexA的和亞基的基因和編碼活化劑酶的相關頁面。NCBI中人類基因HEXA的登錄號是NM_000520。用fastaread或genbankread函數可將基因信息被以結構列表的形式導入MATLAB工作區(qū)。方式1:HumanHEXA = fastaread(NM_000520.fasta);humanHEXA=getfield(HumanHEXA,Sequence);方式2:HumanHEXA = genbankread(NM_000520.gb);humanHEXA=getfield(HumanHEXA,Sequence)1.3 讀入另一序列的信息mouseHEXA許多基因的序列和功能通過同源基因在進化過程中被保留下來。同源基因就是有共同祖先或是相似序列的基因。查找公共數據庫的目的之一就是找出相似的基因。如果用戶能在數據庫中定位一個未知的基因,那么這個未知基因和已知基因的功能和特征很可能是相同的。用fastaread或genbankread函數可將鼠類HEXA基因信息被以結構列表的形式導入MATLAB工作區(qū)(NCBI中鼠類基因HEXA的序列號是AK080777)。方式1: MouseHEXA = fastaread(AK080777.fasta);mouseHEXA=getfield(MouseHEXA, Sequence)方式2: MouseHEXA = genbankread(AK080777.gb);mouseHEXA=getfield(MouseHEXA, Sequence)2 確定蛋白質編碼序列 一個核苷酸序列在蛋白質編碼段的前后都包含了調控序列。通過分析這個序列,可以確定在編碼最終蛋白質中亞氨基酸的核苷酸。2.1 查找人類HEXA的ORF使用seqshoworfs函數輸出人類HEXA的所有閱讀框中ORF中起始和終止密碼子的位置。humanORFs = seqshoworfs(humanHEXA)結果顯示了三個閱讀框的ORF, 分別以藍色、紅色和綠色標記, 其中最長的ORF在第1個閱讀框。閱讀框部分省略閱讀框部分省略閱讀框部分省略2.2確定鼠類HEXA的ORF使用seqshoworfs函數輸出人類HEXA的所有閱讀框中ORF中起始和終止密碼子的位置。mouseORFs = seqshoworfs(mouseHEXA)結果得到三個閱讀框的ORF, 分別以藍色、紅色和綠色標記, 其中最長的ORF在第一個閱讀框。 Frame 1 閱讀框部分省略閱讀框部分省略閱讀框部分省略3. 比較氨基酸序列 在確定核苷酸序列中的ORF之后,就可以將核苷酸序列的蛋白質編碼段轉換為相應的氨基酸序列。并使用比對功能來確定兩序列的相似性。3.1 將ORF轉換為氨基酸序列mouseProtein = nt2aa(mouseHEXA);由于人類的ORF在第一個閱讀框, 所以需要指出其位置humanProtein = nt2aa(humanHEXA,Frame,1);3.2 繪制散點圖比較人類和鼠類的氨基酸序列。seqdotplot(humanProtein,mouseProtein,4,1)ylabel(Human hexosaminidase A);xlabel(Mouse hexosaminidase A);散點圖是確定兩序列相似性最簡單的方法之一。圖中對角線平直連續(xù), 表示這兩個序列相似性較好。3.3 比對這兩個氨基酸序列下面nwalign函數有目的地比對兩序列。采用的是Needleman-wunsch算法, 可返回全局比對的計算統(tǒng)計量。globalscore, globalAlignment = nwalign(humanProtein,mouseProtein)showalignment(globalAlignment);Identities = 486/753 (65%), Positives = 570/753 (76%) 3.4 截短序列尋找終點:humanStops = find(humanProtein = *)mouseStops = find(mouseProtein = *)下面將序列截短至只含第一個甲硫氨酸至第一個停止符,進行局部比對。截短序列至只包含蛋白質的氨基酸序列和停止符。humanSeq = humanProtein(70:humanStops(2);humanSeqFormatted = seqdisp(humanSeq)mouseSeq = mouseProtein(11:mouseStops(1);mouseSeqFormatted = seqdisp(mouseSeq)3.5 比對被截短的氨基酸序列globalscore, globalalignment = nwalign(humanSeq,mouseSeq);showalignment(globalalignment);Identities = 450/540 (83%), Positives = 507/540 (94%)3.6 局部比對兩氨基酸序列下面swalign函數有目的地比對兩序列。采用的是Smith-Waterman算法, 可返回局部比對的計算統(tǒng)計量。localscore, localAlignment = swalign(humanProtein,mouseProtein);showalignment(localAlignment);Identities = 454/547 (83%), Positives = 514/547 (94%) 作業(yè)1進入NCBI任意搜索兩條細菌條斑病
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人防工程制式銷售合同范本
- 分散采購服務合同范本
- 農村燃氣安裝合同范例
- 協(xié)助寵物國際托運合同范本
- 農田租賃合同范本
- 專利轉讓入股合同范本
- 養(yǎng)魚合作轉讓合同范本
- 公版采購合同范本
- 單位解聘教師合同范本
- 買賣中介公司合同范本
- 人教版小學數學一年級下冊教案
- 《住院患者身體約束的護理》團體標準解讀課件
- 新版人音版小學音樂一年級下冊全冊教案
- 2024年黑龍江建筑職業(yè)技術學院單招職業(yè)適應性測試題庫全面
- MOOC 跨文化交際通識通論-揚州大學 中國大學慕課答案
- 常用液壓元件型號對照表230
- 項目章程模板范文
- 泰山產業(yè)領軍人才工程系統(tǒng)
- 輪扣架支模體系材料量計算
- 主題班會教案《讀書好讀好書好讀書》班會方案
- 食物鏈和食物網課件(共18張PPT)
評論
0/150
提交評論