版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
生物信息學(xué)
常用算法簡介北京大學(xué)生物信息中心北京基因組研究所李松崗lsg@pku.eud.c用算法1:
動態(tài)規(guī)劃
動態(tài)規(guī)劃算法是一種優(yōu)化算法,它本質(zhì)上是一種有效的窮舉法。它的基本想法是最優(yōu)路徑上的每一段都應(yīng)該是局部的最優(yōu)路徑。動態(tài)規(guī)劃算法的典型應(yīng)用:序列比對。序列比對應(yīng)用舉例序列組裝進(jìn)化分析保守區(qū)發(fā)現(xiàn)蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測cDNA的基因組定位基因結(jié)構(gòu)與功能分析序列比對模型類型:全局比對與局部比對需考慮的因素:替換,插入,刪除例:AGCTA–CGTACATACCAGCTAGCGTA––TAGC打分系統(tǒng):替換矩陣。記為:σ(a,b)其中a,b為我們考慮的字符集中的元素。比對算法的目標(biāo),就是找到在給定打分系統(tǒng)下,得分最高的比對方式。動態(tài)規(guī)劃算法(全局比對)兩序列:A=a1a2a3……am
B=b1b2b3……bn
用Ai,Bj分別表示上述序列的前i個(gè)和前j個(gè)堿基。矩陣元素S(i,j)表示Ai,Bj所有可能比對中的最高得分。則有遞推公式:S(i,j)=max{S(i-1,j-1)+σ(ai,bj),S(i,j-1)+σ(–,b),S(i-1,j)+σ(a,–)}局部動態(tài)規(guī)劃遞推公式改為:S(i,j)=max{0,S(i-1,j-1)+σ(ai,bj),S(i,j-1)+σ(–,b),S(i-1,j)+σ(a,–)}局部動態(tài)規(guī)劃圖示動態(tài)規(guī)劃算法的改進(jìn)用動態(tài)規(guī)劃方法進(jìn)行序列比對,需要nm到nm2的計(jì)算時(shí)間和nm的存儲空間。當(dāng)序列很長時(shí),常常無法計(jì)算。因此人們陸續(xù)提出了許多改進(jìn)算法,能節(jié)省空間和時(shí)間。有興趣的同學(xué)可參考相關(guān)文獻(xiàn)。其他DNA打分矩陣
及其對比對結(jié)果的影響例如:若得分大于罰分,則可得到長的,有較多插入刪除的結(jié)果;反之,則得到短的,局部的比對結(jié)果。蛋白質(zhì)序列比對的打分矩陣PAM矩陣(PersentAcceptedMutation):基于進(jìn)化模型的打分矩陣。當(dāng)進(jìn)化過程中一條序列1%的氨基酸發(fā)生了突變,定義該序列在進(jìn)化的歷史上走過了1個(gè)PAM單位。此時(shí)定義的轉(zhuǎn)移矩陣稱為1-PAM的突變矩陣。Dayhoff等(1978)從71個(gè)蛋白家族中的1300條近相關(guān)(closelyrelated)序列出發(fā)(其中任何兩對序列之間氨基酸殘基差異不大于15%),通過構(gòu)造進(jìn)化樹對序列進(jìn)行聯(lián)配,得到氨基酸對之間的聯(lián)合概率分布。在此基礎(chǔ)上得到了1-PAM的突變矩陣。
ARNDCQEGHILKMFPSTWYVA989055612911125256921029141217R4990752216438123020355432N349888182856131110112138131D4221990507285600500375010C31109946001111011031112Q411751985618214131461455112E85630028989027111530475113G1149724399523013102102211H14731931989511322122191I21202210298782222671152242L542038213359919348224345519K533135022152822988351469122M3110241021012298595023114F10103100451009992301110283P62220531212301994365012S23517899786127418986232242T115116485276297273398791212W01001100101013000995640Y12213110131212221211099242V1521083412511431252314149884
1-PAMmutationmatrix(allvaluesmultipliedby10000)
表中各列滿足
若fi(i=1~20)表示20種氨基酸在自然界中的分布,該矩陣還滿足
由于fi是自然界中氨基酸經(jīng)過長期進(jìn)化后形成的一種穩(wěn)定分布,因此滿足關(guān)系
也就是說,可以通過對1-PAM突變矩陣外推得到n-PAM的突變矩陣,用來表示相距n–PAM進(jìn)化單位的蛋白質(zhì)之間氨基酸殘基的突變概率。即
ARNDCQEGHILKMFPSTWYVA13506777337338847487818846476495977146714618341006899342468803R4601583568493323751589424616304320995361253429512507366351337N4254851092747299534563496601239228552275225366558507197326271D50149688115932606661007549591221213604268188453597536164284273C2121141249126601079411913814513410015315793193166149169187Q359530442468215705558300496243261538303208359390379201253264E58064572210952938631334483635315305768370237525614572215312376G8275838017524665856083387530264264567332224512799569291292346H194271310259173309256170946143153267175231182225221194387149I4803303042394463753142083531460109435410277263203795103814891185L71756647337467365349233961217792390576179815015615757077939421443K53510977136623118407744546673583591240425276510600605264360394M195154138114185183144103170403435165608326130166198181217330F23919320214334022416512439951064919158320411712132469371312419P4843673663852254344103183532512713962591912614495467144222299S774580741671619625636657578394368616439315656997844285393475T7075876876165446216054785805424626355353726328621101274397622W579057401037048521088611059104301416258339833672Y19521523517329322017513053927632720031110541602132118431955253V7084374133526894864463264401415106046410047124545456983825351501250-PAMmutationmatrix(allvaluesmultipliedby10000)
對25附0-段PA滔M突變閉矩陣殼,有漲:即經(jīng)裳過25乏0個(gè)PA杰M單位映進(jìn)化荒后的擠蛋白緣瑞質(zhì)分訪子,健與它哪的祖原先相柴比較孤,大寨約只童有20爹%左右暈的氨扔基酸扣殘基鋸保持懶不變占。當(dāng)我逼們通燥過動瘋態(tài)規(guī)關(guān)劃對康兩個(gè)損序列展進(jìn)行紀(jì)聯(lián)配撇時(shí),勸用到PA布M突變饞矩陣停的另摔一種嗓形式嚴(yán),PA犬M打分涼矩陣竿,其機(jī)中PA粱M-痕1打分污矩陣矛定義廁為:PA踐M-屑25果0打分鏟矩陣叛定義年為:C脊17S嫌-尾19替1烘2T尸-燒22結(jié)-1墨3膽12P訓(xùn)-牲33礎(chǔ)-1疊9–20檔1券3A蠻-格18徐-1萄4盒-弦18蓋-1阿9冷11G堅(jiān)-柴25門-1街9掀-諸25厚-2慢5贊-忠18森1吵1N構(gòu)-皇24野-1余6前-恥18徐-2襲4于-斬22希-1瓶9插13D波-午32毛-1前9膝-稠20枕-2絞3嚼-提21套-2既1升-柜14炮1骨3E稻-數(shù)35雅-1羊9蔬-撿21乘-2胳2帶-支19囑-2篩4頌-證20賠-1遙3誘12Q愉-挺29駛-1英8狼-兆19粥-2遮0及-候19野-2對3厘-琴17承-1灣9呢-厘13聽1惰4H盼-移22穩(wěn)-2堡0右-眾20嬸-2趁3溝-贈22農(nóng)-2石4紛-械15根-1乞9素-克19挨-1哄4保16R算-稅24盼-2終0陡-秧21縮慧-2綠3莊-掌22笑-2彈2議-揉20尖-2需4堂-算21路-1拘5園-寶18獻(xiàn)1演3K澆-瓜33何-2晴0亂-焰18摘-2噴2儲-爐21撥-2追4塞-助17煉-2患0棋-桂16掠-1聯(lián)4寨-云19–13個(gè)1胞2M俱-印22拼-2慘2哈-外19黎-3火1傲-穩(wěn)19蜜-2蓮8附-局25搜-3貌3智-座24肝-1乓8五-狀21效-2魄4–21這1被6I釋-細(xì)26笑-2烘6廁-兄20孔-2做8班-槳25販-3窮5缸-挎26添-3儉4撒-說27棄-2注6城-啦25惱-2英7爺-博24–13渡1淘2L資-覆25食-2侄6圾-頃24慘-2陪4鳳-桑22煩-3構(gòu)1顆-團(tuán)28順-3濟(jì)5抄-衫27遺-2姐1殊-稼24遵-2惱4擇-亦24稱-1陪3役-善14斥1坦0V損-輪19殃-2莊4煌-菠17少-2杠5鞋-妻17峽-3反0樹-翠27董-3古4址-立23視-2感4澤-重27工-2袋5耗-哪24餅-1英8獄-潑11踢-1膠7哪12F梯-崖22腸-2紫8朋-典25樸-3吸0吐-使25掠-3慈2倉-嗽27您-3濫3馳-微33累-2甩6縱-瓣20園-3碼1右-借30來-1呆7澇-別19苦-1初6–22僅1禍4Y恨-牛21吧-2濫2帆-楊25相-2漂7合-巴26捷-3場0紐奉-拳22乏-2翻6丙-鋪27害-2乓4透-巾14硬-2忘3狐-沒25唉-2扇3裙-未24畏-2院2活-羅23博-1艱2您15W耕-青22低-2鑒5閉-撤29勵(lì)-3妄2驚-漏29篩-2周7房誠-傾28插-3圣8–30音-2繼4現(xiàn)-告23濁-2燦2詠-贊31旗-2帥3桐-惱25企-2嬌3米-莊29湖-1惹6持-滑15藝19C貍S統(tǒng)T幅P治A那G毯N鬧D詠E靈Q階H爬R關(guān)K樣M共I戒L檔V后F扔Y湊WPA碌M-司1側(cè)sc登or縫in鄙g旋ma佩tr鴿ix(經(jīng)過徐四舍莖五入闖)PA晨M-蠶25士0重sc蜜or寬in咸g助ma末tr犁ix(經(jīng)過膏四舍溝五入費(fèi))C蜓12S任0港2T泄-2直1假3P紡-3稱1坊0咱6A燒-2羅1蓬1薄1跑2G勺-3瓶1俗0深-用1散1份5N辭-4譜1裹0貞-癢1園0緣瑞0若2D迅-5鈔0幕0星-馳1雖0鞋1倆2扒4E增-5典0櫻0箭-嬸1乞0爺0舉1屠3翼4Q畝-5孫-電1共-1錢0虧0劃-發(fā)1涉1介2舌2皆4H蕉-3罵-最1摟-1絨0控-1逐-莖2隙2鑼1款1茶3白6R該-4截0抹-1發(fā)0忌-2斜-剝3賞0輩-付1述-1細(xì)1松2鄭6K散-5特0薪0舒-先1智-1針-霉2各1氧0暗0叮1全0梁3還5M甘-5觀-逆2辜-1有-趙2已-1溉-蜂3廁-2駛-堵3標(biāo)-2凱-佩1挺-2倚0風(fēng)0艷6I百-2趣-墨1遼0沒-騎2議-1鑰-刷3查-2倒-獸2削-2雙-兵2龍-2墓-拴2塑-2居2例5L停-6笛-瓦3托-2吳-痛3釋-2齡-袍4血-3話-舊4幻玉-3照-垃2伐-2際-等3墊-3妥4槽2羨6V敵-2冒-遙1唇0緒-奮1炒0狡-貨1妥-2下-削2車-2祖-芝2女-2漁-錢2禿-2銹2研4沙2蔽4F坡-4壘-口3厲-3聲-另5眉-4糾-究5此-4耀-碰6促-5般-讀5欠-2隨-筋4險(xiǎn)-5紀(jì)0繁1驗(yàn)2吊-1察9Y未0著-脅3景-3駱-脆5猾-3鍵-魚5誦-2羅-切4續(xù)-4失-窩4吩0瘦-朱4狼-4凱-度2耀-1皮-胳1滴-2紫7胳10W臟-8忍-戀2嘆-5龜-字6筍-6可-矛7窄-4譽(yù)-暖7搜-7政-飽5惑-3艦2固-3墓-速4廢-5屢-攏2醋-6窄0桌0普1燭7C冰S圓T啄P彎A衡G耽N府D那E療Q池H窄R風(fēng)K方M只I針L星V約F牽Y革WBL監(jiān)OS肌UM打分潮矩陣BL瓜OS但UM矩陣鉤建立膊在BL必OC溫KS數(shù)據(jù)夢庫的反基礎(chǔ)幸上。麥這個(gè)扶數(shù)據(jù)停庫由畢很多書序列縣塊(bl好oc長k)組成冶,一售個(gè)bl吩oc認(rèn)k包含跪了對SW晚IS癥SP駝RO塞T庫中辨蛋白芒序列踢進(jìn)行活多序籌列聯(lián)切配(mu發(fā)lt輝ip鏈le橋a尾li為gn妙me頸nt)得到倍的一賽組氨結(jié)基酸鑰序列善片段朗。這鋸些序膀列具諒有很賊高的兩相似陶性,捧把它右們截涉斷為援長度菠相同做,中棵間沒葬有插戚入或拒刪除課空位甩的一爹組,坐就稱礙為一憑個(gè)bl獅oc盞k。通過漸對這業(yè)個(gè)數(shù)繭據(jù)庫目中聯(lián)標(biāo)配氨記基酸忙殘基餓出現(xiàn)語頻率圍的統(tǒng)偶計(jì),種生成賺了BL嫩OS代UM矩陣犧。下表固為BL羊OC詞KS拳v欺.9數(shù)據(jù)蛙庫中敗某一懸個(gè)塊疫的數(shù)院據(jù)結(jié)咱構(gòu)片粱段,屈其中別包括性三個(gè)標(biāo)類(cl絹us舞te豪r)。類中矮的每論一條同序列驗(yàn)都能此在同慣一類列中至脹少找山到另地一條皆序列還,兩禮條序病列之婚間80謊%以上胃的氨晉基酸徑殘基陜是相巾同的暢。FA節(jié)9_山BO尾VI晚N喜(故6)眾L法EE脊FV現(xiàn)RG慰NL眾ER刺EC憤KE猶EK掃CS狠FE嶼EA簽RE武VF瞇EN棚TE軟KT俗TE灰FW值KQ拉Y自2岸9FA耍9_愈CA裙NF處A鞭(妖4貧5)化L梁EE鎖FV裙RG反NL煙ER尤EC凡IE女EK輕CS漆FE輕EA煩RE值VF刺EN諸TE趨KT劫TE撞FW著KQ偵Y谷2截9FA根9_移HU冤MA蜜N撿(圾5毅2)姥L守EE醉FV戰(zhàn)QG太NL泰ER亂EC冷ME析EK重CS襪FE閑EA命RE于VF陰EN芹TE蜘RT橡TE言FW將KQ暗Y橫3端0MG寧P_姿BO竭VI卻N蛋(命5繭6)愈E便RI化RE帳LN拔KP劣QY森EL自NR慨EA紋CD瓦DF州KL遵CE棍RY臂AM營VY簽GY晚NA日AY鉤DR龍Y采7猶0MG漂P_棕HU醫(yī)MA關(guān)N星(傅5屈6)昌E五RI乞RE捧RS故KP役VH短EL絨NR逆EA耐CD俱DY義RL填CE猶RY放AM與VY怠GY揚(yáng)NA傅A(chǔ)Y摟NR填Y潑7虛3MG施P_鄉(xiāng)豐MO氣US各E季(滔5餃6)監(jiān)K篇RV偷QE肆RN安KP麥AY灘EI梨NR好EA右CD昌DY鉆KL救CE棵RY秀AM闊VY垂GY硬NA晃AY采NR筐Y蟻6奸5MG手P_康RA網(wǎng)T數(shù)(薦5另6)竄E掛RV督RE任LN頂KP綿AQ符EI檔NR國EA姓CD戲DY雞KL指CE采RY仰AL鐘IY輝GY洋NA著AY疼NR撇Y釋7為1OS莖TC合_B忘OV哄IN推(渡57輝)辦LG符AP券AP落YP辟DP顛LE暖PK站RE掙VC寸EL見NP遭DC炭DE慨LA掙DH太I(xiàn)G諷FQ戒EA暴YR飯RF脖33OS靈TC達(dá)_F謊EL腿CA但(棵6藍(lán))饒LG縮慧AP頭AP罩YP葬DP灰LE消PK伸RE路IC健EL磨NP卵DC銜DE層LA釋DH覽IG洗FQ令DA助YR鹽RF蛾34OS江TC尾_H承UM治AN拼(怒57蒸)缸LG染AP散VP遙YP民DP龜LE獵PR繳RE醫(yī)VC匠EL睬NP翠DC是DE嚴(yán)LA睜DH亡IG善FQ款EA吃YR主RF稻34OS觀TC膀_M幕AC皮FA各(浴6司)武LG煩AP飼AP胸YP吩DP攔LE愧PK單RE悼VC鉛EL曲NP菠DC墊DE蒜LA摔DH母IG絮FQ列EA養(yǎng)YR螺RF爬33OS乏TC賭_R甚AB烏IT遵(壩6桿)俊QG撈AP昨AP打YP廚DP挪LE榴PK慎RE駱VC李EL匠NP唯DC警DE居LA住DQ蛾VG顆LQ泉DA俱YQ姜RF卷45OS攔TC削_R鐮AT止(界55月)炮LG勤AP的AP欣YP眾DP胖LE廚PH少RE工VC針EL細(xì)NP其NC譽(yù)DE藝LA剖DH廢IG盾FQ宴DA饑YK追RI繁46一個(gè)猛類被翅作為妹一條榆序列裹處理臨,因融此如蜂果一委個(gè)類館中包樓含n條序爛列,銷那么麗其中隔每一陰個(gè)氨治基酸馳殘基云出現(xiàn)逝的頻抓率被像乘以趨權(quán)重粗因子1/時(shí)n。對BL秘OC順KS數(shù)據(jù)習(xí)庫進(jìn)夕行統(tǒng)襯計(jì),嬸得到野氨基愈酸對襖之間疊的聯(lián)禮合概染率分諷布P(i,闊j),BL災(zāi)OS拍UM矩陣店定義持為其中C為常恰數(shù),塵在不鋤同的BL撐OS陜UM矩陣鍛(BL宵OS源UM勢62,BL切OS摔UM陸80等)邀中,C取不查同的粱值(1/趙2,1/歪3)。按照62齡%的標(biāo)填準(zhǔn)對BL咐OC去KS數(shù)據(jù)垃庫進(jìn)晉行聚畜類(循即類喝中的鍵每一網(wǎng)條序許列都沾能在貓同一釣類中配至少億找到貿(mào)另一蟻條序向列,診兩條煮序列沖之間62續(xù)%以上艙的氨筑基酸偉殘基曠是相弦同的孤),危得到BL蔽OS狐UM校62矩陣靠,按圈照70影%的標(biāo)另準(zhǔn)對BL籌OC晶KS數(shù)據(jù)甩庫進(jìn)煉行聚灑類,濱得到BL兆OS屢UM貨70矩陣沒。兩種壞打分弊矩陣茫的比倚較PA溪M矩陣艷基于謀進(jìn)化鏟的突貧變模我型,級且是趨從進(jìn)找化距燙離近片的數(shù)高據(jù)外故推到凈遠(yuǎn)的擱。BL渡OS為UM矩陣匙基于逗蛋白怠家族伍中的雀保守兆區(qū)段箱,不斃考慮的進(jìn)化付距離賊遠(yuǎn)近欠。PA蠢M矩陣宴計(jì)算旦了相近關(guān)序億列中皺的所狗有位何點(diǎn),殃而BL分OS約UM矩陣讀只計(jì)偏算了吉一些狂保守哪區(qū)段樹中的慣位點(diǎn)腐。比對筆得分暖的統(tǒng)難計(jì)檢耀驗(yàn)這種郊統(tǒng)計(jì)聞檢驗(yàn)憤主要那用于拆局部紅比對朋,因皆為在羊局部桃比對電中我夠們需鍋要判荷斷哪邊些結(jié)從果是構(gòu)真正碗有意格義的占。在局制部比欲對中腎,通柄常能勤比上煮的只仁占參然加比址對序白列總牢數(shù)的算一小烏部分茅。因媽此從蜘整體息上說且,可痛把比腥對過區(qū)程視鋒為反致復(fù)進(jìn)哲行大境量小棚片段泡間的夸比對果。由歷于隨堵機(jī)序吐列之壓間的株比對趁結(jié)果私服從純正態(tài)土分布悲,故形可用燒極值伸分布云來對燭某一土具體淹結(jié)果連進(jìn)行陽檢驗(yàn)元。極值珍分布:分布昆函數(shù):故有輔:常用蔬比對吧軟件晚介紹FA脾ST胃A計(jì)算晴步驟波:1.查找溉查詢旗序列指和數(shù)扣據(jù)庫論序列魂之間況長度侍大于k(氨基援酸1-易3,核撕酸1-勒6)的馳精確跨匹配典片段羅;2.把順妨序相只同,迎互相照間距煩離小延于給健定值孕的匹網(wǎng)配片下段連峰成沒鋒有洞撿(ga痛p)的區(qū)金間;3.用打議分矩劑陣對穩(wěn)其中附匹配蓮數(shù)和語匹配貍密度期最高確的區(qū)慮間重蝴新打鵲分,必選出紋其中予得分校最高滔的區(qū)頃間;4.通過貴“ga抱p”把得分視最高噸的區(qū)豈間連粉接起影來,捕加上樸它們棋的匹誘配分妨數(shù),名并減閉去加乞入“ga屬p”帶來戀的罰旗分,乳記錄菌下分換值最飛高的解連接柱;5.用動隆態(tài)規(guī)藥劃重侄新處商理上扯述有膚“ga同p”的聯(lián)長配格。BL系A(chǔ)S宜T計(jì)算戶步驟夾:1.屏蔽非序列妨中低康復(fù)雜帖性區(qū)擔(dān)域;2.對“憶字”摘(氨穴基酸今:3-菠tu傍p,核酸噸:11驅(qū)-tu袖p)在數(shù)衡據(jù)庫琴中每之一條節(jié)目的糊位置淋建立唐索引基表;3.對查赤詢序砍列建能立字過集,惕對其乎中每證一個(gè)杯字建狼立它價(jià)的鄰槐域(釘即雖隊(duì)然不鉛同,洞但比宴對分丈值大燥于給恢定閾薦值的役字,勵(lì)蛋白連的每撞個(gè)字死大約譽(yù)有50個(gè)近咐鄰)德;4.在數(shù)愈據(jù)庫咱中搜辰索與冠查詢供序列孩字集惜鄰域秤中相哨同的禁字;5.以找影到的良字為階種子篩,向烈兩端查延伸守,直貢到累怒計(jì)得譽(yù)分開膨始下繪降。夏這樣滔就得百到了桶匹配歪片段度;6.對找浴到的功匹配碗片段劑進(jìn)行軌統(tǒng)計(jì)嗽檢驗(yàn)錯(cuò);7.對檢私驗(yàn)顯癢著的醒片段訴重做降動態(tài)店規(guī)劃道的局找部比貫對。8.在BL宇A(yù)S呈T2中,遵不是甜對每半個(gè)匹似配片傳段做點(diǎn)動態(tài)挪規(guī)劃俗比對啦,而膀是把慮數(shù)據(jù)您庫每昌條序漫列中霧的匹貓配片征段連帆起來確做有g(shù)a寄p的局水部比令對。云這樣鍬有可挑能得箱到更跳長的憑匹配臥片段蔑。動態(tài)忌規(guī)劃油算法侮的其編它應(yīng)怎用例1.核酸疑序列叼的字稠典模輝型已知禮觀測彼序列S=(s1s2..誓..喬..sn),si∈(驗(yàn)A,車C,碼G,蛾T),給定范模型其中wi稱為基單詞貞,觀共測序由列是夕由這貍些單批詞生鎖成的裙,pwi是單視詞出臉現(xiàn)的桌概率層,滿穩(wěn)足求P(S|M)解:因?yàn)榧辞鬁\序列S在模偽型M下的臘概率喜,需愚要窮訴舉S在模土型M下的截所有富可能布劃分參方式靈。定肉義變駕量Z(1煩,i),它表堡示觀蜘測序舊列S中從1到i的片龜段s1s2..橡..賤..si在模溜型M下的滔概率取,則享得到匪遞歸診關(guān)系其中δ(i,犯l)表示跑序列S中從i-糾l+1到i,長度豎為l的子轟字串卡。如導(dǎo)果δ(i,孫l)為模團(tuán)型中慈的單團(tuán)詞,復(fù)則pδ(i,結(jié)l)等于糧該單墾詞的城概率pw,否則懸為0。例2.模笨體的清權(quán)重冰矩陣駝描述志模型已知艱觀測臉序列S=(s1s2..新..偉..sn),si∈(胞A,罩C,覽G,烘T),給定魔模型其中q0為噪逢聲出鏡現(xiàn)的耗概率回,qi,i遍=1送,2虛,.厘..帖,6為六贈個(gè)模緒體出隆現(xiàn)的凍概率強(qiáng),滿贏足p(bk|0井),bk∈(班A,之C,暫G,戲T)是bk作為忘噪聲枯時(shí)出副現(xiàn)的豆概率貓,滿綁足p(bk|i,孝j),bk∈(露A,殼C,賠G,澇T)是bk在模材體i中位銅置j出現(xiàn)追的概煮率,傍滿足求P(S|M)。解:同樣桿定義男變量Z(1直,i),在權(quán)耽重矩市陣模疾型下用,遞忌歸關(guān)貌系關(guān)勁系為常用管算法2:僵隱馬規(guī)模型基本裕概念隨機(jī)膠過程障:一鍛族無窮窮多涂個(gè)、汪相互育有關(guān)拆聯(lián)的逐隨機(jī)坦變量進(jìn)。記熄為:由于咐參數(shù)t經(jīng)常鹽代表詳時(shí)間謊,故壇稱為析隨機(jī)扁過程港。T常為廳自然和數(shù),塘整數(shù)當(dāng)或區(qū)攀間。哪當(dāng)參便數(shù)取幣值為宏整數(shù)麥時(shí),相也稱淋為隨呆機(jī)序貓列。馬爾黃可夫梯過程拘:取藍(lán)值為來整數(shù)絕的隨趴機(jī)過溉程,掏若t皮=套i時(shí)刻鳥的取提值只冒與時(shí)殊刻i-組1取值小有關(guān)蛛,則榮稱為煮馬爾賊可夫撫過程坐。隱馬巷氏模往型(HM港M)模型認(rèn)的數(shù)使學(xué)描癢述:存在射一個(gè)世隱序肢列H,它是抽不可幫觀測護(hù)的,迅且由口以下姐參數(shù)裹生成玩:其中πα為初吐始狀廳態(tài)出儀現(xiàn)概掠率;Tαβ為轉(zhuǎn)蜓移概講率,送即tαβ=傻P(卷hi=β深|苦hi-殊1=硬α);α,β屬于{σ};{σ}為字抽符集仔,即聯(lián)隱序拋列由工哪些蜂字符蛇組成索。觀測帖的結(jié)訴果稱宿為明麗序列O,它由骨隱序南列按魄照生皆成概危率eαa生成妥。其辜中eαa=P喝(a侄|閥α皮);{a妨}為明牲序列菜字符億集。隱馬當(dāng)模型衡的典增型應(yīng)膀用:乎基因宅識別基因些結(jié)構(gòu)戴及重年要信饑號基因恐識別勸模型問題羽:從航基因休組序?qū)幜谐鲚叞l(fā),警識別喇其中普的基盈因(肉基因元組注泄釋)貴。輸入造:基鏟因組篇序列輸出慮:各工種基務(wù)因元船件(畜包括鍬啟動番子,遲外顯獄子,腦內(nèi)含隙子等猴)在狐基因巖組上立的位慚置。陸如果仰需要撲,也倒可輸艷出翻落譯的搶蛋白旺質(zhì)序情列,汗預(yù)測秀結(jié)果觸的可反靠程柳度等揮。例:蠅基因秒組編帝碼區(qū)普的隱肉馬模取型設(shè)基因放組由飄兩種方功能洲區(qū)域貴組成韻,即謎編碼骨區(qū)和嫁非編以碼區(qū)籠。分追別由袖字母c,n代表逝。轉(zhuǎn)證移矩驕陣為贈同種溫字母權(quán)延伸喝或變廣為另罩一種額字母讀的概煙率。學(xué)初始腫狀態(tài)境概率糊為第槍一個(gè)脅字母葛出現(xiàn)c或n的概綿率。達(dá)明序撕列由A,C,G,T四個(gè)倍字母爆組成艙,生織成概殊率分四別為奮編碼軌區(qū)和霧非編當(dāng)碼區(qū)腥四個(gè)庫字母謙出現(xiàn)棗的概蝦率。隱馬階氏模鄰型的答三種憑典型含問題可能亡性問森題:懶給定景模型吳參數(shù)萬,當(dāng)邀觀察航到一亂個(gè)明釋序列鏈時(shí),編這一矛明序搬列確松實(shí)由瓣給定辮模型柄生成鞏的概炭率有竿多大矩?解碼頸問題籃:給閥定模穿型參才數(shù),廈當(dāng)觀多察到捏一個(gè)就明序吊列時(shí)倚,這瓜一明劑序列戰(zhàn)所對闊應(yīng)的群最可衛(wèi)能的蔥隱序瘋列是錫什么寄?學(xué)習(xí)凡問題蛾:觀醉察到吩足夠盞多明餃序列啦時(shí),月如何臥估計(jì)厚轉(zhuǎn)移堡概率圈和生鳴成概柳率?基本優(yōu)算法可能絹性問相題:鮮已知侍參數(shù)幟為w的隱董馬模習(xí)型和利長為T的序剩列O={o1o2…ot…oT};求在勺給定擱模型掙下觀嗽測到擇序列O的概聞率。解:面對于替任意壺一條吸隱序票列H,有:其中α為隱軍序列H第i-碧1位置賤的狀軍態(tài),β為i位置筍的狀奇態(tài)。扒當(dāng)i=1時(shí),tαβ應(yīng)由πβ代替斃。因此返,所肉求概瞇率為穴:其中H為一厲切可抹能的觸隱序心列。由于H的數(shù)趕量隨T的增存加以川指數(shù)請?jiān)鲩L密,這繡種算素法實(shí)求際并裁不可室行。前向企算法定義庸在模潑型w下,環(huán)隱序擁列第i位置付狀態(tài)竊為α,明序研列為o1…oi時(shí)的搖概率昌為:則有凝遞推柄公式叼:初值機(jī)為:則有層:后向段算法定義妥在模閥型w,隱序蘇列第i位置掃狀態(tài)公為α條件住下,明序苦列為oi+1…oT時(shí)的戀概率析為:則有汗遞推健公式迅:初值準(zhǔn)為:則有墻:使用唱前向被或后叫向算無法,松計(jì)算P(白O|顛w)的復(fù)議雜度量約為O(侮N2)級。聯(lián)合岸應(yīng)用榆前向聽和后橡向算脹法,焰可以閱容易裁地計(jì)葬算隱瞇序列溝位置i處于撲狀態(tài)α的概寇率:通過嫌計(jì)算靈上述萍概率乘的極美大值庭,可嫩以得甩到位陪置i處隱惑序列威最可胡能的塑狀態(tài)畜。但在溪解碼乏問題傻中,臣我們漸更關(guān)陽心的灑是最淡可能井的隱結(jié)序列愈。它胖是一授個(gè)整身體,柴不能雞分解走開一輪位一豈位算亮。解勾決這禍個(gè)問施題,左需要鼠使用Vi同te叛rb傅i算法哈。Vi識te車rb博i算法定義其中Hi為一子切長控為i、以α結(jié)束神的隱啟序列傾。顯怎然δi(α)對應(yīng)谷的隱蹄序列日就是爭最可幟能生狠成前i個(gè)字楊母明泛序列棄的隱今序列劍。遞眨推公散式為?。猴@然就是粒解碼液問題觸的解揀。學(xué)習(xí)錄算法HM筒M的學(xué)想習(xí)算腐法有逃許多足種,仗包括EM(期望但最大勺化)東算法蓬,不說同形工式的錘梯度扒下降戰(zhàn)法,特模擬隱退火咽算法壯等。濃下面翼我們棚主要靜介紹EM算法約。常用足算法3:EM算法EM算法級的用呼途EM算法介(Th菠e墾ex秩pe勝ct踏at解io飛n鞏ma董xi喬mi丹za咬ti鼠on蓄a浪lg廉or否it輛hm)是擁根據(jù)脅不完蠢整數(shù)閃據(jù)作孟最大究似然狀估計(jì)服的一床般方櫻法。盟這種券不完敏整可凡以是不缺失爽了某倒些數(shù)牲據(jù),濕也可魔以是賊存在患某些店無法總觀測浴的隱勾藏變四量。似然憶函數(shù)尸的概淡念我們材從某呢個(gè)未貧知分皆布得絡(luò)到了扛一組搶觀察膚值X=憶{x1,x2,…xn}。此未蹲知分循布是因由一原組參衡數(shù)Θ=飼{θ1,θ2,…θm}決定者。定若義似侮然函元數(shù)為吼:由于竊對數(shù)鈴函數(shù)貪是單源調(diào)遞瘡增的待,因歡此不添會改舅變極令值點(diǎn)爛的位粒置;班而且脾它可汁以把魂連乘喜變成苗連加尿,從狀而大趟大簡升化計(jì)栽算。伶因此穴實(shí)際皺工作牢中常越使用壺的是筑對數(shù)福似然博函數(shù)桂。即押:最大弱似然里估計(jì)目標(biāo)褲:根筑據(jù)已餓知觀印測數(shù)驅(qū)據(jù)估秘計(jì)總秤體參塊數(shù)。似然劇函數(shù)衣可視齒為以大未知秘參數(shù)牙為自怪變量照的函浪數(shù),僑它的市統(tǒng)計(jì)距意義秀又是顯在未秧知參勇數(shù)下瘋觀測膝到該霜組數(shù)補(bǔ)據(jù)的暈概率畝,因稿此我潛們很袍自然唇地取覽使似灰然函烈數(shù)達(dá)本到最界大值膏的未柳知參堂數(shù)為衰估計(jì)春值。你這就墳是最乎大似芬然估撇計(jì)。子即:為簡古化計(jì)讀算,留實(shí)際毫工作井中常夫使用恭的是掙對數(shù)色似然鞋估計(jì)牌。即鍛:具體衫計(jì)算幅公式用為:如果慎參數(shù)且不止啄一個(gè)將,相化應(yīng)令您偏導(dǎo)亭數(shù)為0即可業(yè)。例題1正態(tài)脅分布御的最訪大似密然估舌計(jì)設(shè)x1,x2,…xn是取晝自正訓(xùn)態(tài)總煉體N(μ,纏σ2)的簡注單隨輩機(jī)子鴉樣,μ與σ2是未叔知參巡壽數(shù),竿求μ和σ的極隔大似伐然估很計(jì)。解:歸由于故有無似然診函數(shù)取對悔數(shù),矮有:∴似然覽方程俱為:由(1)解瞇得:代入濕(2),鐮得:即:μ和σ2的極薪大似居然估脅計(jì)分哪別為映和仰。例題2二項(xiàng)尤分布哥的最辮大似常然估僻計(jì)取n粒種衡子作牢發(fā)芽比試驗(yàn)藏,其尚中有m粒發(fā)伙芽,趁求發(fā)沉芽率p的最漲大似稀然估撥計(jì)。解:耐每粒狹種子蘆發(fā)芽器與否撫可視才為兩武點(diǎn)分轉(zhuǎn)布:發(fā)芽榆,圣則X=對1,其概粱率為p不發(fā)蘋芽,數(shù)則X=院0,其概買率為1-纏p由似香然函陷數(shù)的消構(gòu)造幼,有罷:L(懷p)炒=P豎(X寧=x1|p籍)·滴P(冬X=蟲x2|p壯)…寒P(路X=xn|p)由于遭共有m粒發(fā)貍芽,(n躬-m評)粒不涼發(fā)芽第,∴L(渠p)高=pm(1劫-p捐)n-稱m令上慶式等欲于0,由演于盛,訂有:即:星發(fā)芽君率p的極饒大似禽然估脂計(jì)為EM算法福的一句般概淋念X:觀測杠得到采的數(shù)偵據(jù),恥它是版不完足全的描;Z=毯(X炭,Y炊),是完購全的熱;其借中Y是缺失吧的或健隱藏頸的。柿它的忽聯(lián)合森分布臟為:對于會這個(gè)退聯(lián)合那分布酒函數(shù)囑,我灶們可緣瑞以定利義它被的似狡然函拜數(shù):稱為鼓完整棉數(shù)據(jù)剛的似殊然函纏數(shù)。收而X的似鉛然函召數(shù)稱為取非完賭整數(shù)伴據(jù)的決似然延函數(shù)沫。注意莊完整手?jǐn)?shù)據(jù)壩似然偷函數(shù)抖的自懶變量奪中,X和θ為常年數(shù),搭而Y是隨醬機(jī)變親量,擊且服揭從于蠶某種賓由X和θ所決私定的扁分布脹。參缸數(shù)X是觀躍測數(shù)喚據(jù),盒是完撕全確惡定的即;參撇數(shù)θ則是休我們扯需要夾估計(jì)素的,忠在計(jì)賀算過蛛程中猴它會偶不斷跳調(diào)整圾。設(shè)θ(i妻-1蘿)為當(dāng)奇前我按們使核用的θ估計(jì)抵值,園則我午們可北以定鐘義完整腦數(shù)據(jù)對數(shù)集似然藍(lán)的期射望:函數(shù)Q(θ,喇θ(i痛-1奸))就是EM算法迅中,E步驟師所要鋤計(jì)算猴的值幸。在躺上述果函數(shù)弄中,θ(i閉-1廟)是上一轟步計(jì)挺算的爆結(jié)果死,是拔確定頑的值賽。而θ是接著合的M步驟惠中要宅調(diào)整梨的參駁數(shù),似調(diào)整宮它以倘便使陵似然況函數(shù)載的值械增加尸。即拾:在EM算法參中,報(bào)上述E步驟說和M步驟啦不斷灰重復(fù)巖,每另一次斗重復(fù)非似然赴值都緒會增鴿加,飼直到專收斂詳?shù)剿扑肴缓饠?shù)的禿局部呆極大勉值。隱馬喬模型掠的參刻數(shù)估忍計(jì)利用EM算法查進(jìn)行夢隱馬支模型曬的參帝數(shù)估攔計(jì),爐又稱折為Ba嗽um賣-W賢el糠ch算法哭。它單要解瓦決的矮主要粉問題劑,是覽求隱馬弱模型缺復(fù)習(xí)隱馬踏模型潤:存在藥隱序報(bào)列H,由下斜列參緩數(shù)生凈成:觀測櫻序列O稱為良明序悼列,撞由下卡列參逆數(shù)生好成:直接丙估計(jì)安隱馬開模型斥參數(shù)并的算煙法定義王后驗(yàn)新轉(zhuǎn)移炭概率岡:注意奮利用屋上述最表達(dá)簽式可鼻以方私便地攀計(jì)算挽一些世重要童的后制驗(yàn)期萍望值框:隱序禮列中耗狀態(tài)帥出現(xiàn)他的期疼望數(shù)看:隱序劣列中邁狀態(tài)殘轉(zhuǎn)移摸為惜的澆期望末次數(shù)奔:按EM算法孤,我秤們更殲關(guān)心躲如何蹤蝶根據(jù)廟觀測標(biāo)數(shù)據(jù)訪和現(xiàn)音有參隔數(shù)估誤計(jì)新蜘的參祖數(shù)。果直觀牢上,批可以乘簡單賣地利披用上獄述期嶼望值鎮(zhèn)計(jì)算跑:其中利用Q函數(shù)薦的估轉(zhuǎn)計(jì)公忌式改用說隱馬己模型莊的有高關(guān)參鄭數(shù),剛有關(guān)暴公式飾可寫蔬為:非完歪整數(shù)緩據(jù)的孤似然錘函數(shù)雨:完整勒數(shù)據(jù)撞的似泄然函猾數(shù):Q函數(shù)村:其中抹為長揮度為T的所哥有隱濫序列籍的集憐合。在已知演模型垮參數(shù)亮且針副對特牧定隱懼序列椅的條阻件下循,計(jì)總算觀牌察到鴉明序敗列的僵概率匙是簡市單的蹈:代入Q函數(shù)鏈表達(dá)齊式,類得:由于才我們蟲要優(yōu)纖化的墓參數(shù)愁分成扎了相途互獨(dú)存立的疤三部國分,支故我勾們可那以分劉別對夕它們糧進(jìn)行針優(yōu)化劈燕。對上滴述表部達(dá)式熔中的起第一您部分猛,有網(wǎng):由于得要在德約束紛下逆對上居式進(jìn)蒸行優(yōu)死化,誦引入La毀gr砌an爬ge乘子如,得尋:化簡炮,得機(jī):由約前束條丑件,蒙得:即:對Q函數(shù)預(yù)表達(dá)屑式第心二部產(chǎn)分,常類似必地有壤:同樣陸引入La的gr領(lǐng)an破ge乘子沒,在漂約束下,游可得臭:對Q函數(shù)嫂表達(dá)且式第叛三部徐分,墾類似釋地有魯:同樣公引入La謙gr信an咳ge乘子雪,在根約束下,標(biāo)可得琴:其中比較保可知挑,用Q函數(shù)壩方法掛求得廈的疊雞代公持式與夕直觀蔬方法惱得到桐的是沙完全競一樣驅(qū)的。隱馬頂模型惠例題1例1.模體的字宅典模濤型已知貓觀測柴序列S=(s1s2..剖..離..sn),si∈(踢A,環(huán)C,穴G,再T),給定良模型其中wi稱為躬單詞專,觀分測序錘列是程由這看些單孝詞生捏成的幅,pwi是單笨詞出箭現(xiàn)的萬概率秋,滿娃足(1倒)求P(S|M)(2嗓)求路溝徑π*,使得解(1茄):因?yàn)榧辞筇栊蛄蠸在模帝型M下的棕概率僅,需回要窮辱舉S在模穩(wěn)型M下的常所有贈可能茅劃分撇方式今。采論用動專態(tài)規(guī)站劃。塵定義盤變量Z(1高,i),它表競示觀業(yè)測序泛列S中從1到i的片包段s1s2..藥..辛..si在模貞型M下的粘概率木,則先得到緞遞歸耀關(guān)系其中δ(i,憑l)表示例序列S中從i-耳
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒園安保人員職責(zé)合同
- 大數(shù)據(jù)模板施工合同
- 公共交通電力施工合同樣本
- 旅游度假村建筑合同
- 漁業(yè)公司銷售總監(jiān)招聘協(xié)議
- 員工培訓(xùn)合同范本設(shè)計(jì)模板
- 風(fēng)力發(fā)電硅芯管鋪設(shè)協(xié)議
- 餐飲中心消防樓梯安裝協(xié)議
- 污水處理廠建設(shè)項(xiàng)目合同成本臺賬
- 控股股東表決權(quán)委托合同三篇
- 大學(xué)美育知到章節(jié)答案智慧樹2023年延邊大學(xué)
- 數(shù)控銑床工作臺三維運(yùn)動伺服進(jìn)給系統(tǒng)設(shè)計(jì)-課程設(shè)計(jì)
- 全國碩士研究生入學(xué)統(tǒng)一考試《思想政治理論》試題答題卡模板
- 外貿(mào)函電-報(bào)盤及外貿(mào)函電模板大全
- 施工總平面布置圖及說明及施工現(xiàn)場平面布置圖
- 商鋪交接清單
- 攤鋪機(jī)使用說明rp953e-903e操作手冊
- 編寫童話故事三年級400字
- 呼吸科拍背排痰流程圖
- PEP英語四年級上冊Unit 4 My home 教學(xué)反思
- 首都博物館參觀匯報(bào)參考課件
評論
0/150
提交評論