北郵生物信息基礎(chǔ)大作業(yè)_第1頁(yè)
北郵生物信息基礎(chǔ)大作業(yè)_第2頁(yè)
北郵生物信息基礎(chǔ)大作業(yè)_第3頁(yè)
北郵生物信息基礎(chǔ)大作業(yè)_第4頁(yè)
北郵生物信息基礎(chǔ)大作業(yè)_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

北京郵電大學(xué)信息與通信工程學(xué)院《生物信息基礎(chǔ)北京郵電大學(xué)信息與通信工程學(xué)院《生物信息基礎(chǔ)(?014)》課程大作業(yè)北京郵電大學(xué)信息與通信工程學(xué)院《生物信息基礎(chǔ)北京郵電大學(xué)信息與通信工程學(xué)院《生物信息基礎(chǔ)(2014)》課程大作業(yè)#gi|30962102|emb|AJ3146021|CCTGAGAGAGCCAGTCAAGAAGCCAT.ACACGJ3AGGC^AGCAT3ATGA1059gi|610977S9|dbj|AB1902901|CCTGAAAGAGCCAGTGAAAAAGCCGGACACrGAGGC?CAGCATGATOA1006gi|2346635Sfcb|AF349413.3|CX:TGAGAGAGCCGGTGAAAAAGCCA^ACACTGAGGC-IAGCATGATGA1063gi|321S6925fcb|AY305027.1|CCTCATGGAGGAGCAGAAGAAGCCTT?TIACCGAGGC?CAGCATGATGA1174gi|2073112|dbj|AB003356.1|CCTCATGAAGGAGCTGAAGAAGCCCrTCACCGAGGA?CAGCATGATGA1268gi|14530S317feb|EF5305921|CCTGAAAGAGCAGGTGCAGAAGCCGGACACrGAGGC?CAGCATGATOA457gi|89037528|ief|NW_925528.1|TTTCAGACAGTTTC匚…?ACCTGTATCACCCAAGGTGCAGTTTGATGT1056通過(guò)以上多序列的比對(duì)結(jié)果,我們可以輕松地發(fā)現(xiàn)多條序列中,發(fā)生了變異的部分。由于序列已經(jīng)對(duì)齊,發(fā)生了變異的部分必然是空位、插入或者替換中的一種。我們?cè)O(shè)計(jì)算法,遍歷一遍對(duì)齊后的各條序列,即可輕松的找到變異位點(diǎn)。三、基因編碼區(qū)域識(shí)別1、1、問(wèn)題建模由于已經(jīng)給出了基因編碼區(qū)域和基因非編碼區(qū)域的片段(訓(xùn)練樣本),我考慮使用一階馬氏鏈來(lái)判別兩個(gè)目標(biāo)序列的區(qū)域,其中,一階馬氏鏈?zhǔn)歉鶕?jù)堿基的排列順序做轉(zhuǎn)移的。選擇一階馬氏鏈堿基排序的原因有二:一是實(shí)驗(yàn)的樣本太少,我考慮了對(duì)于氨基酸密碼子做轉(zhuǎn)移概率矩陣,但是計(jì)算得到的矩陣很多都是0元素,這對(duì)最終的計(jì)算結(jié)果影響很人,我也嘗試了二階和更高階次的馬氏鏈,同樣由于訓(xùn)練樣本太少,轉(zhuǎn)移概率中概率為0的點(diǎn)太多,故不采納高階方案;二是在題目中,明確給出了該病毒RNA具有特定的排列順序的條件,所以不對(duì)密碼子做轉(zhuǎn)移概率計(jì)算。參數(shù)估計(jì)與計(jì)算過(guò)程參數(shù)估計(jì)與計(jì)算過(guò)程首先,根據(jù)給出的基因編碼區(qū)域和基因非編碼區(qū)域的片段,可以算出兩個(gè)區(qū)域片段的各個(gè)堿基對(duì)分布概率*這里利用大數(shù)定理,使用頻率逼近概率。然后,最后,計(jì)算相鄰兩個(gè)堿基對(duì)出現(xiàn)的頻率,并以此作為一階馬氏鏈的轉(zhuǎn)移概率由兩個(gè)目標(biāo)序列的排列,我們可以利用公式:np(s)=p(sJ》p(Si+i|Si)i=l來(lái)計(jì)算序列S出現(xiàn)的概率,

3、實(shí)驗(yàn)結(jié)果在編碼區(qū)中,四個(gè)堿基的分布概率:符號(hào)AUGC概率0.3846015380.30770.1538在非編碼區(qū)中,四個(gè)堿基的分布概率:符號(hào)AUGC概率0.15380.3077007690.4615在編碼區(qū)中,各個(gè)堿基的轉(zhuǎn)移概率矩陣:AUGCA0.39130.30430.30430U0.444400.55560G0.21050.10530.15790.5263C0.555600.44440在非編碼區(qū)中,各個(gè)堿基的轉(zhuǎn)移概率矩陣:AUGCA0001.0000U000.06250.9375G01.000000C0.34480.51720.10340.0345計(jì)算得,S1序列在編碼區(qū)出現(xiàn)的概率為16332e-06.在非編碼區(qū)出現(xiàn)的概率為0,S2序列在編碼區(qū)出現(xiàn)的概率為0,在非編碼區(qū)出現(xiàn)的概率為6.4733—04。所以,我們認(rèn)為S1序列屬于編碼區(qū)’S2序列屬于非編碼區(qū)。在判定過(guò)程中,我們發(fā)現(xiàn)了兩個(gè)概率為0的現(xiàn)彖,一個(gè)是S1在非編碼區(qū)的概率,另一個(gè)是S2在編碼區(qū)的概率。出現(xiàn)這兩個(gè)0概率的原因?yàn)?,由于?xùn)練集過(guò)小,無(wú)法保證所有的堿基組合都出現(xiàn)過(guò),這樣就有部分轉(zhuǎn)移概率為0。注:本部分計(jì)算所用的matlab源程序已在附錄中給出。在大三上半學(xué)期,我有幸選修了《生物信息基礎(chǔ)》這門專業(yè)選修課。選修這門課的原因主要有二,一是我希望未來(lái)可以在模式識(shí)別領(lǐng)域繼續(xù)深造,希望可以考取我校模式識(shí)別實(shí)驗(yàn)室的研究生,所以希望通過(guò)這門選修課,讓我對(duì)模式識(shí)別的基本理論和基本算法有所了解:二是去年四月,我參加了2014深圳杯大學(xué)生數(shù)學(xué)建模夏令營(yíng).競(jìng)賽題目中有一道關(guān)于基因組測(cè)序的題目(B題),引起了我很大的興趣。通過(guò)這學(xué)期《生物信息基礎(chǔ)》課程的學(xué)習(xí),我對(duì)于生物信息處理有了很深的理解。我們的課程從生命的演化與中心法則講起,包含生物信息數(shù)據(jù)庫(kù)、序列分析、基因組學(xué)與基因識(shí)別和隱式馬爾科夫模型,讓我對(duì)當(dāng)今科技的前沿——生物信息處理這門學(xué)科,有了較為深刻的了解。在這其中,我最感興趣的部分是:序列分析中的多序列比對(duì)部分。這一部分面向?qū)嵺`,涉及到了之前講述的許多知識(shí)。通過(guò)這一部分的學(xué)習(xí),我對(duì)之前講到的兩條序列的比對(duì)有了更深的認(rèn)識(shí)。而多序列比對(duì)可以推測(cè)各個(gè)序列的進(jìn)化歷史,這讓我覺(jué)得很神奇。在本次人作業(yè)中,我運(yùn)用了ClustaIW2網(wǎng)站的在線多序列比對(duì),更加認(rèn)識(shí)到了這種方法的用武之地。關(guān)于這門課程的學(xué)習(xí),我有一個(gè)小小的建議:目前,我們這門課程中理論知識(shí)較多,主要面向的是各個(gè)算法的思想核心。這些思想核心是支撐算法的關(guān)鍵,但是對(duì)于我們未入門的本科生來(lái)說(shuō),可能有些枯燥乏味。對(duì)此,我建議老師可以加入適當(dāng)?shù)恼n堂演示/小實(shí)驗(yàn)環(huán)節(jié)?比如需要人家到生物信息數(shù)據(jù)庫(kù)查詢某種生物的DNA序列:或者給出兩條真正生物體的DNA序列,讓人家使用開源軟件對(duì)其進(jìn)行相似度分析;或者給出兩條DNA序列,讓大家設(shè)計(jì)MATLAB程序鑒別DNA序列的編碼區(qū)。這樣,課程會(huì)變得更加生動(dòng)。最后,感謝李老師在這半年中持之以恒的諄諄教導(dǎo),這讓我收獲良多!參考文獻(xiàn):生物信息學(xué)概論.清華大學(xué)出版社.DanE.Krane&MichaelL.Rajrmer生物信息學(xué)分析實(shí)踐.科學(xué)出版社.吳組建模式識(shí)別(第三版).清華大學(xué)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論