![基因組信息分析_第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/16/6819d832-1317-49cf-9f60-611ed56cb2c7/6819d832-1317-49cf-9f60-611ed56cb2c71.gif)
![基因組信息分析_第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/16/6819d832-1317-49cf-9f60-611ed56cb2c7/6819d832-1317-49cf-9f60-611ed56cb2c72.gif)
![基因組信息分析_第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/16/6819d832-1317-49cf-9f60-611ed56cb2c7/6819d832-1317-49cf-9f60-611ed56cb2c73.gif)
![基因組信息分析_第4頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/16/6819d832-1317-49cf-9f60-611ed56cb2c7/6819d832-1317-49cf-9f60-611ed56cb2c74.gif)
![基因組信息分析_第5頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/16/6819d832-1317-49cf-9f60-611ed56cb2c7/6819d832-1317-49cf-9f60-611ed56cb2c75.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第5章基因組信息分析5.1 關(guān)于遺傳語(yǔ)言5.2 原核基因組特點(diǎn)5.3 真核基因組特點(diǎn)5.4 基因組序列分析5.5 基因識(shí)別方法5.6 非編碼區(qū)與分析和調(diào)控 元件建模第一部分:搜索遺傳語(yǔ)言;原核、真核基因組特點(diǎn)1、基因組、基因組DNA的奧秘的奧秘 遺傳信息存貯在遺傳信息存貯在4種字符組成的核酸序列中種字符組成的核酸序列中 “天書天書”用遺傳語(yǔ)言書寫的人類遺傳藍(lán)本用遺傳語(yǔ)言書寫的人類遺傳藍(lán)本包含的信息量巨大包含的信息量巨大更重要的是目前人類對(duì)它了解甚少更重要的是目前人類對(duì)它了解甚少天書中只有天書中只有4個(gè)字符(堿基個(gè)字符(堿基A、T、G、C)既沒有段落,也沒有標(biāo)點(diǎn)符號(hào)既沒有段落,也沒有標(biāo)點(diǎn)符號(hào)是一
2、個(gè)長(zhǎng)度為是一個(gè)長(zhǎng)度為3109的一維序列。的一維序列。 科學(xué)家對(duì)這本天書了解最多的部分就是遺傳密碼科學(xué)家對(duì)這本天書了解最多的部分就是遺傳密碼或者說(shuō)掌握了或者說(shuō)掌握了DNA對(duì)蛋白質(zhì)編碼的規(guī)律對(duì)蛋白質(zhì)編碼的規(guī)律 關(guān)于密碼子關(guān)于密碼子(1)密碼子的使用是非隨機(jī)的)密碼子的使用是非隨機(jī)的 如果密碼子的第一、第二位堿基是如果密碼子的第一、第二位堿基是A、U, 那么第三位將盡可能使用那么第三位將盡可能使用G、C;反之亦然。;反之亦然。 如果三位都用如果三位都用G、C,則配對(duì)容易,分解難;,則配對(duì)容易,分解難; 三位都用三位都用A、U,則相反。,則相反。 一般地說(shuō),高表達(dá)的基因,要求翻譯速度快,一般地說(shuō),高表
3、達(dá)的基因,要求翻譯速度快, 要求密碼子和反密碼子配對(duì)快、分手也快。要求密碼子和反密碼子配對(duì)快、分手也快。 (2)密碼子的使用有一定的統(tǒng)計(jì)規(guī)律)密碼子的使用有一定的統(tǒng)計(jì)規(guī)律 對(duì)同義密碼子的使用存在著偏愛對(duì)同義密碼子的使用存在著偏愛不同種屬偏愛的密碼子不同不同種屬偏愛的密碼子不同 人類基因組:人類基因組:密碼子第三位取密碼子第三位取A、U的情況占的情況占90%而第三位取而第三位取G、C僅占僅占10%密碼子的使用偏性與基因功能、蛋白密碼子的使用偏性與基因功能、蛋白質(zhì)結(jié)構(gòu)相關(guān)質(zhì)結(jié)構(gòu)相關(guān) (3)密碼子中的密碼密碼子中的密碼 三個(gè)堿基的位置與所編碼的氨基酸性質(zhì)存在著聯(lián)系三個(gè)堿基的位置與所編碼的氨基酸性質(zhì)存
4、在著聯(lián)系例如:例如:芳香族氨基酸芳香族氨基酸以以U作為第一位堿基作為第一位堿基中間位置堿基的性質(zhì)與氨基酸是親疏水性相關(guān)中間位置堿基的性質(zhì)與氨基酸是親疏水性相關(guān)疏水氨基酸的密碼子,其第二位堿基是疏水氨基酸的密碼子,其第二位堿基是U親水氨基酸的密碼子,其第二位堿基是親水氨基酸的密碼子,其第二位堿基是A第二位堿基是第二位堿基是G、C的密碼子所編碼的氨基酸的密碼子所編碼的氨基酸親水性、疏水性居中。親水性、疏水性居中。 基因組信息基因組信息人類基因組:人類基因組: 編碼區(qū)域只占編碼區(qū)域只占1%-3%對(duì)于非編碼序列,尚不清楚其含義或功能對(duì)于非編碼序列,尚不清楚其含義或功能非編碼區(qū)域?qū)τ谏顒?dòng)具有重要的意
5、義非編碼區(qū)域?qū)τ谏顒?dòng)具有重要的意義 包括包括內(nèi)含子內(nèi)含子、簡(jiǎn)單重復(fù)序列、移動(dòng)元件、偽基因、簡(jiǎn)單重復(fù)序列、移動(dòng)元件、偽基因 重復(fù)序列重復(fù)序列: 衛(wèi)星(衛(wèi)星(satellite)DNA小衛(wèi)星(小衛(wèi)星(mini-satellite)DNA微衛(wèi)星(微衛(wèi)星(micro-satellite) 順式調(diào)控元件順式調(diào)控元件:啟動(dòng)子、增強(qiáng)子、沉默子啟動(dòng)子、增強(qiáng)子、沉默子2、探索遺傳語(yǔ)言、探索遺傳語(yǔ)言 用語(yǔ)言學(xué)的方法進(jìn)行研究用語(yǔ)言學(xué)的方法進(jìn)行研究自然語(yǔ)言自然語(yǔ)言計(jì)算機(jī)程序設(shè)計(jì)語(yǔ)言計(jì)算機(jī)程序設(shè)計(jì)語(yǔ)言遺傳語(yǔ)言遺傳語(yǔ)言二進(jìn)制序列二進(jìn)制序列0、1的長(zhǎng)程關(guān)聯(lián)性分析結(jié)果:的長(zhǎng)程關(guān)聯(lián)性分析結(jié)果:編碼區(qū)域編碼區(qū)域 自然語(yǔ)言自然
6、語(yǔ)言非編碼區(qū)域非編碼區(qū)域 程序設(shè)計(jì)語(yǔ)言程序設(shè)計(jì)語(yǔ)言蛋白質(zhì)編碼區(qū)域所包含的信息相當(dāng)于待加工的蛋白質(zhì)編碼區(qū)域所包含的信息相當(dāng)于待加工的“數(shù)據(jù)數(shù)據(jù)”數(shù)據(jù)經(jīng)過(guò)加工處理以后產(chǎn)生對(duì)應(yīng)的蛋白質(zhì);數(shù)據(jù)經(jīng)過(guò)加工處理以后產(chǎn)生對(duì)應(yīng)的蛋白質(zhì);而非編碼區(qū)域則相當(dāng)于而非編碼區(qū)域則相當(dāng)于“程序程序”或或“指令指令”,確定如何在時(shí)間和空間方,確定如何在時(shí)間和空間方面控制基因的表達(dá)和蛋白質(zhì)的合成面控制基因的表達(dá)和蛋白質(zhì)的合成 用密碼學(xué)方法進(jìn)行研究用密碼學(xué)方法進(jìn)行研究是否存在其它密碼?是否存在其它密碼?調(diào)控信息密碼?調(diào)控信息密碼?蛋白質(zhì)結(jié)構(gòu)的密碼?蛋白質(zhì)結(jié)構(gòu)的密碼? 編碼在編碼在DNA上的一維程序如何在四維時(shí)空上的一維程序如何在
7、四維時(shí)空中控制生命體的生長(zhǎng)發(fā)育中控制生命體的生長(zhǎng)發(fā)育3、關(guān)于生物復(fù)雜性、關(guān)于生物復(fù)雜性生物的復(fù)雜性不僅僅是基因的數(shù)目生物的復(fù)雜性不僅僅是基因的數(shù)目人類基因約為人類基因約為30000個(gè)個(gè)線蟲有線蟲有20000個(gè)基因個(gè)基因230000/220000=210000 103000 4、基因組計(jì)劃帶來(lái)的希望、基因組計(jì)劃帶來(lái)的希望 實(shí)驗(yàn)數(shù)據(jù)的積累速度在迅速地增加實(shí)驗(yàn)數(shù)據(jù)的積累速度在迅速地增加 計(jì)算機(jī)科學(xué)和技術(shù)也在不斷地發(fā)展計(jì)算機(jī)科學(xué)和技術(shù)也在不斷地發(fā)展 單個(gè)基因組分析單個(gè)基因組分析基因序列基因序列基因功能基因功能基因的表達(dá)調(diào)控基因的表達(dá)調(diào)控基因產(chǎn)物基因產(chǎn)物基因多態(tài)性基因多態(tài)性比較基因組分析比較基因組分析物
8、種關(guān)系物種關(guān)系物種進(jìn)化物種進(jìn)化物種起源物種起源人、鼠基因組比較人、鼠基因組比較 人基因組人基因組 鼠基因組鼠基因組 鼠染色體上的顏色和數(shù)字代表在人染色體上對(duì)應(yīng)的片段.老鼠約老鼠約75%的基因的基因與人類相同。與人類相同。SARS 基因組基因組(Severe Acute Respiratory Syndrome)全基因組核酸搜索結(jié)果全基因組核酸搜索結(jié)果 分段核酸搜索結(jié)果分段核酸搜索結(jié)果 全基因組蛋白質(zhì)搜索結(jié)果全基因組蛋白質(zhì)搜索結(jié)果 原核基因組特點(diǎn)v 原核生物的遺傳物質(zhì)大都是環(huán)狀DNA,它們基因組存在固有的特點(diǎn),可以利用這些特點(diǎn)分辨物種,識(shí)別基因。長(zhǎng)開放閱讀框長(zhǎng)開放閱讀框 v 開放閱讀框開放閱讀框
9、(open reading frame) :結(jié)構(gòu)基:結(jié)構(gòu)基因內(nèi)從起始密碼子開始到終止密碼子的一段因內(nèi)從起始密碼子開始到終止密碼子的一段核苷酸區(qū)域,其間不存在任何終止密碼,可核苷酸區(qū)域,其間不存在任何終止密碼,可編碼完整的多肽鏈,這一區(qū)域被稱為編碼完整的多肽鏈,這一區(qū)域被稱為開放閱開放閱讀框讀框。vORF表明該區(qū)域可能對(duì)應(yīng)于一個(gè)原核生物基表明該區(qū)域可能對(duì)應(yīng)于一個(gè)原核生物基因的編碼序列。因的編碼序列。 長(zhǎng)開放閱讀框v絕大部分原核生物蛋白質(zhì)的長(zhǎng)度大于60個(gè)氨基酸v在大腸桿菌E.coli中,蛋白質(zhì)編碼區(qū)域平均長(zhǎng)度為316.8個(gè)密碼子,不到1.8%的基因的長(zhǎng)度小于60個(gè)密碼子 原核基因分析的簡(jiǎn)單原則v若
10、終止密碼子出現(xiàn)在非編碼核酸序列中,大約每21個(gè)密碼子出現(xiàn)一次(3/64).v如果所有的密碼子在隨機(jī)的核酸序列中以相同的頻率出現(xiàn),則不含終止密碼子且長(zhǎng)度為N個(gè)密碼子的序列出現(xiàn)的幾率為(61/64)N .v長(zhǎng)度為N的ORF的95%顯著性置信度等價(jià)于5%“隨機(jī)”命中的可能性,即(61/64)N=0.05,這里N等于60,表示典型長(zhǎng)度的ORF中密碼子的數(shù)目。 高基因密度高基因密度 v原核基因組中的基因密度非常高 v完全測(cè)序的細(xì)菌和古細(xì)菌的基因組數(shù)據(jù)表明,其中85到88的核酸序列與基因的編碼直接相關(guān)。 在大腸桿菌(E.coli)中總共有4,288個(gè)基因,平均編碼長(zhǎng)度為950bp,而基因之間的平均間隔長(zhǎng)度
11、只有118bp。 簡(jiǎn)單的基因結(jié)構(gòu)簡(jiǎn)單的基因結(jié)構(gòu) 原核基因?yàn)檫B續(xù)基因,其編碼區(qū)是一個(gè)完整的DNA 片段。 GC含量含量 v堿基G、C相對(duì)于A、T的豐度很早就被看作是區(qū)分細(xì)菌基因組的特征之一 .v不同的原核生物中,GC含量(GC content)從25%到75%,變化非常大。 v大部分細(xì)菌是通過(guò)從其它生物體大規(guī)模獲得基因(長(zhǎng)度為幾萬(wàn)甚至幾十萬(wàn)個(gè)核苷酸)而進(jìn)化的(水平轉(zhuǎn)移).v簡(jiǎn)而言之,許多細(xì)菌基因組表現(xiàn)為具有不同GC含量的區(qū)域的組合物,這些區(qū)域反映了細(xì)菌的進(jìn)化歷史。 真核基因組特點(diǎn)真核基因組特點(diǎn)v基因組規(guī)模大基因組規(guī)模大v非編碼序列大非編碼序列大v基因結(jié)構(gòu)復(fù)雜基因結(jié)構(gòu)復(fù)雜v基因轉(zhuǎn)錄調(diào)控方式復(fù)雜基因
12、轉(zhuǎn)錄調(diào)控方式復(fù)雜v可變剪接可變剪接vCpG島島 v等值區(qū)等值區(qū) v密碼子使用偏性密碼子使用偏性 基因組規(guī)?;蚪M規(guī)模 v真核細(xì)胞的細(xì)胞核中一般有多條線性染色體,而且通常包含每條染色體的雙拷貝。 v人的基因組總長(zhǎng)度超過(guò)30億對(duì)堿基,而大腸桿菌的基因組只有500多萬(wàn)個(gè)堿基。 非編碼序列非編碼序列巨大v真核生物具有復(fù)雜的基因組結(jié)構(gòu)。v編碼區(qū)域在人類基因組所占的比例不超過(guò)3%。v其余97%是非編碼序列,而在非編碼序列中,各種重復(fù)序列占了很大一部分。 基因結(jié)構(gòu)復(fù)雜基因結(jié)構(gòu)復(fù)雜基因轉(zhuǎn)錄調(diào)控方式復(fù)雜基因轉(zhuǎn)錄調(diào)控方式復(fù)雜 v真核基因的表達(dá)涉及多種RNA聚合酶。v與原核生物只使用一種由多個(gè)蛋白聚合而成的RNA聚
13、合酶不同,真核生物至少使用由8到12個(gè)蛋白組成的三種不同類型的RNA聚合酶。vRNA 聚合酶I和III負(fù)責(zé)轉(zhuǎn)錄生成RNA分子,這些分子本身執(zhí)行重要的功能,在所有的真核細(xì)胞中需要始終保持相當(dāng)恒定的水平。vRNA聚合酶II專門負(fù)責(zé)轉(zhuǎn)錄編碼蛋白質(zhì)的基因。 vRNA聚合酶II識(shí)別的啟動(dòng)子序列的多樣性反映了區(qū)別基因的復(fù)雜程度,即在特定類型的細(xì)胞中和在特定的時(shí)間,區(qū)別哪些基因該表達(dá)而哪些基因不該表達(dá)。 可變剪接可變剪接 v估計(jì)有20%或更多的人類基因因?yàn)榭勺兗艚樱╝lternative splicing)而產(chǎn)生兩種或多種不同的mRNA序列 .v有一個(gè)人類的基因已經(jīng)被證明,相同的原始轉(zhuǎn)錄物可以產(chǎn)生64種不同
14、的mRNA CpG島島 v真核生物基因組的GC含量的差別沒有在原核生物間觀察到的那么明顯,但是CG兩聯(lián)核苷酸(常稱作CpG,以表明連接兩個(gè)核苷酸的磷酸二脂鍵)的出現(xiàn)頻率僅為其隨機(jī)出現(xiàn)的頻率的20%,而沒有發(fā)現(xiàn)其它核苷酸對(duì)有異常的出現(xiàn)頻率。 CpG島v許多人類基因5-端的12kb片段中發(fā)現(xiàn)CpG島(CpG island),此處CpG的密度達(dá)到隨機(jī)預(yù)測(cè)的水平。 v人類基因組全長(zhǎng)序列的分析結(jié)果表明,大約有45,000這樣的島,并且有一半左右與已知的管家基因(housekeeping gene,指在所有組織和在發(fā)育的所有階段都高水平表達(dá)的基因)是有關(guān)聯(lián)的,其余的CpG島有許多似乎是和組織特異性基因的啟
15、動(dòng)子相關(guān)聯(lián)的。CpG島很少出現(xiàn)在不含基因的區(qū)域和那些發(fā)生多次突變的基因中。 等值區(qū)等值區(qū) v定義:具有一致堿基組成的長(zhǎng)區(qū)域 v特征 :等值區(qū)基因組序列的長(zhǎng)度超過(guò)1,000,000對(duì)堿基雖然不同的等值區(qū)其GC含量差別顯著,但同一等值區(qū)的GC含量始終相對(duì)均衡 v人類基因組大約可以劃分為五個(gè)不同類型的等值區(qū):a) L1和L2,平均GC含量分別為39%和42%(欠GC) b) H1、H2和H3,GC含量平均值分別為46%、49%和54% (豐GC)密碼子使用偏性密碼子使用偏性 v每個(gè)氨基酸至少對(duì)應(yīng)1種密碼子,最多有6種對(duì)應(yīng)的密碼子 v不同物種、不同生物體的基因密碼子使用存在著很大的差異(酵母精氨酸偏好
16、AGA,果蠅偏好CGC)v從生物學(xué)基礎(chǔ)來(lái)看,不同的密碼子使用模式的形成可能與基因的GC含量有關(guān)。 DNA序列分析基因序列基因表達(dá)調(diào)控信息 尋找基因牽涉到兩個(gè)方面的工作尋找基因牽涉到兩個(gè)方面的工作 :識(shí)別與基因相關(guān)的特殊序列信號(hào)預(yù)測(cè)基因的編碼區(qū)域結(jié)合兩個(gè)方面的結(jié)果確定基因的位置和結(jié)構(gòu) 基因表達(dá)調(diào)控信息隱藏在基因的上游區(qū)域,在組成上具有基因表達(dá)調(diào)控信息隱藏在基因的上游區(qū)域,在組成上具有一定的特征,可以通過(guò)序列分析識(shí)別這些特征。一定的特征,可以通過(guò)序列分析識(shí)別這些特征。 v在DNA序列中,除了基因之外,還包含許多其它信息,這些信息大部分與核酸的結(jié)構(gòu)特征相關(guān)聯(lián),通常決定了DNA與蛋白質(zhì)或者DNA與RN
17、A的相互作用。v存放這些信息的DNA片段稱為功能位點(diǎn)如啟動(dòng)子(Promoter)、基因終止序列(Terminator sequence)、剪切位點(diǎn)(Splice site)等。發(fā)現(xiàn)重復(fù)元素?cái)?shù)據(jù)庫(kù)搜索分析功能位點(diǎn)序列組成統(tǒng)計(jì)分析綜合分析一個(gè)基本的DNA序列分析方案v功能序列分析的準(zhǔn)確性來(lái)自于對(duì)“功能序列”和“非功能序列”的辨別能力。v兩個(gè)集合: 訓(xùn)練集(training set)v用于建立完成識(shí)別任務(wù)的數(shù)學(xué)模型。測(cè)試集或控制集(control set)v用于檢驗(yàn)所建模型的正確性。v用訓(xùn)練集中實(shí)例對(duì)預(yù)測(cè)模型進(jìn)行訓(xùn)練,使之通過(guò)學(xué)習(xí)后具有正確處理和辨別能力。然后,用模型對(duì)測(cè)試集中的實(shí)例進(jìn)行“功能”與“
18、非功能”的判斷,根據(jù)判斷結(jié)果計(jì)算模識(shí)別的準(zhǔn)確性。收集已知的功能序列和非功能序列實(shí)例收集已知的功能序列和非功能序列實(shí)例(這些序列之間是非相關(guān)的(這些序列之間是非相關(guān)的 )訓(xùn)練集訓(xùn)練集(training set)測(cè)試集或控制集測(cè)試集或控制集(control set)建立完成識(shí)別任務(wù)的模型建立完成識(shí)別任務(wù)的模型檢驗(yàn)所建模型的正確性檢驗(yàn)所建模型的正確性對(duì)預(yù)測(cè)模型進(jìn)行訓(xùn)練,對(duì)預(yù)測(cè)模型進(jìn)行訓(xùn)練,使之通過(guò)學(xué)習(xí)后具有使之通過(guò)學(xué)習(xí)后具有正確處理和辨別能力。正確處理和辨別能力。進(jìn)行進(jìn)行“功能功能”與與“非功能非功能”的的判斷,根據(jù)判斷結(jié)果計(jì)算判斷,根據(jù)判斷結(jié)果計(jì)算模識(shí)別的準(zhǔn)確性。模識(shí)別的準(zhǔn)確性。識(shí)別識(shí)別“功能序列
19、功能序列”和和“非功能序列非功能序列”的過(guò)程的過(guò)程 vSn 敏感性敏感性vSp特異性特異性vTp是正確識(shí)別的功能序列數(shù),vTn為正確識(shí)別的非功能序列數(shù),vFn是被錯(cuò)誤識(shí)別為非功能序列的功能序列數(shù),vFp是被錯(cuò)誤識(shí)別為功能序列的非功能序列數(shù)。pnnpnppnFTTSFTTS敏感性和特異性的權(quán)衡v對(duì)于一個(gè)實(shí)用程序,既要求有較高的敏感性,也要求有較高的特異性。v如果敏感性很高,但特異性比較低,則在實(shí)際應(yīng)用中會(huì)產(chǎn)生高比率的假陽(yáng)性;v相反,如果特異性很高,而敏感性比較低,則會(huì)產(chǎn)生高比率的假陰性。v對(duì)于敏感性和特異性需要進(jìn)行權(quán)衡,給出綜合評(píng)價(jià)指標(biāo)。 v對(duì)于一個(gè)識(shí)別程序準(zhǔn)確性可按下式進(jìn)行綜合評(píng)價(jià):v另一個(gè)綜
20、合評(píng)介指標(biāo)為相關(guān)系數(shù),其計(jì)算計(jì)算公式為:2pnSSAC)()()()(nnpppnnppnnpFTFTFTFTFFTTCCv選擇訓(xùn)練集和測(cè)試集在檢測(cè)算法的可行性時(shí),需要從已知的數(shù)據(jù)中按照不同的方式選擇訓(xùn)練集和測(cè)試集 v測(cè)試集的構(gòu)成非常關(guān)鍵在不同的測(cè)試集上進(jìn)行測(cè)試可能會(huì)得到不同的準(zhǔn)確性結(jié)果,甚至準(zhǔn)確性相差很大。 v建立標(biāo)準(zhǔn)的功能序列測(cè)試集合。如基因轉(zhuǎn)錄剪切位點(diǎn)的測(cè)試集合、編碼區(qū)域的測(cè)試集合等。 5.4.2 核苷酸關(guān)聯(lián)分析核苷酸關(guān)聯(lián)分析v對(duì)于一個(gè)給定的基因組,最簡(jiǎn)單的計(jì)算就是統(tǒng)計(jì)DNA序列中各類核苷酸出現(xiàn)的頻率。v對(duì)于隨機(jī)分布的DNA序列,每種核苷酸的出現(xiàn)是均勻分布的出現(xiàn)頻率各為0.25。v而真實(shí)
21、基因組的核苷酸分布則是非均勻的核苷酸核苷酸 頻率頻率 A0.3248693727808 C0.1751306272192 G0.1751306272192 T0.3248693727808 酵母基因組核苷酸出現(xiàn)頻率酵母基因組核苷酸出現(xiàn)頻率v在統(tǒng)計(jì)過(guò)程中,如果同時(shí)計(jì)算DNA的正反兩條鏈,則根據(jù)堿基配對(duì)原則,A和T、C和G的出現(xiàn)頻率相同。v如果僅統(tǒng)計(jì)一條鏈,則雖然A和T、C和G的出現(xiàn)頻率不同,但是非常接近。核苷酸核苷酸 頻率頻率 A0.344C0.155G0.157T0.343 M.jannaschii單鏈核苷酸出現(xiàn)頻率單鏈核苷酸出現(xiàn)頻率基因和其它功能區(qū)域在正反兩條鏈上出現(xiàn)的可能性通常一樣 核苷酸
22、出現(xiàn)頻率也不應(yīng)該有偏差 正反兩條鏈在信息的組織結(jié)構(gòu)方面不應(yīng)該有差別 單鏈上A和T、C和G的出現(xiàn)頻率相近。正反兩條鏈堿基互補(bǔ)的原則 單鏈上A和T、C和G的出現(xiàn)頻率相近的解釋兩聯(lián)核苷酸頻率 v不同基因組中兩個(gè)連續(xù)核苷酸出現(xiàn)的頻率也是不相同的v4種核苷酸可以組合成16種兩聯(lián)核苷酸酵母基因組兩聯(lián)核苷酸頻率表酵母基因組兩聯(lián)核苷酸頻率表對(duì)酵母基因組對(duì)酵母基因組兩聯(lián)核苷酸的兩聯(lián)核苷酸的統(tǒng)計(jì)結(jié)果統(tǒng)計(jì)結(jié)果其中核苷酸對(duì)其中核苷酸對(duì)出現(xiàn)頻率最高出現(xiàn)頻率最高的達(dá)到的達(dá)到0.119而出現(xiàn)頻率最而出現(xiàn)頻率最低的只有低的只有0.028令: Pij 代表兩聯(lián)核苷酸(i,j)的出現(xiàn)頻率 Pi 代表核苷酸i的出現(xiàn)頻率 則 : P
23、ij= Pij/(PiPj) 的值反應(yīng)核苷酸i和j的關(guān)聯(lián)關(guān)系 如果Pij=1,則在兩個(gè)連續(xù)的位置上,核苷酸i和j的出現(xiàn)是相對(duì)獨(dú)立的。關(guān)聯(lián)性分析關(guān)聯(lián)性分析 v對(duì)于酵母基因組 PA=0.3248 PAA=0.1193 PAA =0.1193/(0.3248*0.3248) =1.131 1 表明在兩個(gè)連續(xù)位置上“A”的出現(xiàn)不是獨(dú)立的,而是相關(guān)的。關(guān)聯(lián)性分析關(guān)聯(lián)性分析 v同樣,對(duì)于相隔一定距離k(k代表核苷酸個(gè)數(shù))的兩個(gè)核苷酸,也可能具有一定的相關(guān)性。v假設(shè)Pij(k)代表核苷酸j出現(xiàn)在核苷酸i之后第k個(gè)位置的頻率,則可定義一個(gè)反應(yīng)統(tǒng)計(jì)相關(guān)性的互信息I(k) vI(k)值得大小實(shí)際上反應(yīng)了距離為k的
24、兩個(gè)核苷酸之間的相關(guān)性的程度41,2)(log)()(jijiijijppkpkpkI三聯(lián)核苷酸基因密碼子 v在進(jìn)行編碼區(qū)域識(shí)別時(shí),常常需要對(duì)三聯(lián)核苷酸進(jìn)行統(tǒng)計(jì)分析,這實(shí)際上是分析密碼子的使用偏性。由于密碼子的簡(jiǎn)并性(degeneracy),每個(gè)氨基酸至少對(duì)應(yīng)1種密碼子,最多有6種對(duì)應(yīng)的密碼子。在基因中,同義密碼子的使用并不是完全一致的。不同物種、不同生物體的基因密碼子使用存在著很大的差異v基因密碼子的使用與基因編碼的蛋白的結(jié)構(gòu)和功能有關(guān),與基因表達(dá)的生理功能有著密切的聯(lián)系 v蛋白的三級(jí)結(jié)構(gòu)與密碼子使用概率有密切的關(guān)系通過(guò)對(duì)密碼子的聚類分析,可以很清晰地將具有不同三級(jí)結(jié)構(gòu)蛋白質(zhì)的編碼基因分成不
25、同的類,而具有相似三級(jí)結(jié)構(gòu)蛋白的編碼基因則大致聚在同一類中,從而證明基因密碼子的使用偏性與蛋白質(zhì)三級(jí)結(jié)構(gòu)具有密切的相關(guān)性。 v在不同物種中,類型相同的基因具有相近的同義密碼子使用偏性對(duì)于同一類型的基因由物種引起的同義密碼子使用偏性的差異較小 針對(duì)酵母第一染色體的分析結(jié)果針對(duì)酵母第一染色體的分析結(jié)果第二部分v基因識(shí)別基因識(shí)別基因識(shí)別v基因識(shí)別是生物信息學(xué)領(lǐng)域里的一個(gè)重基因識(shí)別是生物信息學(xué)領(lǐng)域里的一個(gè)重要研究?jī)?nèi)容要研究?jī)?nèi)容 v基因識(shí)別問(wèn)題,在近幾年受到廣泛的重基因識(shí)別問(wèn)題,在近幾年受到廣泛的重視視 當(dāng)人類基因組研究進(jìn)入一個(gè)系統(tǒng)測(cè)序階段當(dāng)人類基因組研究進(jìn)入一個(gè)系統(tǒng)測(cè)序階段時(shí),急需可靠自動(dòng)的基因組序列
26、翻譯解釋時(shí),急需可靠自動(dòng)的基因組序列翻譯解釋技術(shù),以處理大量已測(cè)定的但未知功能或技術(shù),以處理大量已測(cè)定的但未知功能或未經(jīng)注釋的未經(jīng)注釋的DNA序列序列 v原核基因識(shí)別原核基因識(shí)別重點(diǎn)在于識(shí)別編碼區(qū)域重點(diǎn)在于識(shí)別編碼區(qū)域v非翻譯區(qū)域(非翻譯區(qū)域(untranslated regions, UTR) 編碼區(qū)域兩端的編碼區(qū)域兩端的DNA,有一部分被轉(zhuǎn)錄,有一部分被轉(zhuǎn)錄,但是不被翻譯,這一部分稱為非翻譯區(qū)域但是不被翻譯,這一部分稱為非翻譯區(qū)域 v5UTR-基因上游區(qū)域的非翻譯區(qū)域基因上游區(qū)域的非翻譯區(qū)域 v3UTR-基因下游區(qū)域的非翻譯區(qū)域基因下游區(qū)域的非翻譯區(qū)域v對(duì)于任何給定的核酸序列(單鏈DNA或
27、mRNA),根據(jù)密碼子的起始位置,可以按照三種方式進(jìn)行解釋。v例如,序列ATTCGATCGCAAv這三種閱讀順序稱為閱讀框(reading frames)CAA A ATTCGATCGATTCGATCGCAAATTCGATCGCA(1)(3)(2)一個(gè)開放閱讀框(一個(gè)開放閱讀框(ORF,open reading frame)是一個(gè)沒有終止編碼的密碼子序)是一個(gè)沒有終止編碼的密碼子序列。列。原核基因識(shí)別任務(wù)的重點(diǎn)是識(shí)別開放閱讀原核基因識(shí)別任務(wù)的重點(diǎn)是識(shí)別開放閱讀框,或者說(shuō)識(shí)別長(zhǎng)的編碼區(qū)域。框,或者說(shuō)識(shí)別長(zhǎng)的編碼區(qū)域?;诨蛎艽a子特性的識(shí)別方法基于基因密碼子特性的識(shí)別方法v辨別編碼區(qū)域與非編碼區(qū)
28、域的一種方法辨別編碼區(qū)域與非編碼區(qū)域的一種方法是檢查終止密碼子的出現(xiàn)頻率是檢查終止密碼子的出現(xiàn)頻率 終止密碼子出現(xiàn)的期望次數(shù)為:終止密碼子出現(xiàn)的期望次數(shù)為: 每每21個(gè)(個(gè)( 64/3)密碼子出現(xiàn)一次終止密)密碼子出現(xiàn)一次終止密碼子碼子 基本思想:基本思想:如果能夠找到一個(gè)比較長(zhǎng)的序列,其相應(yīng)如果能夠找到一個(gè)比較長(zhǎng)的序列,其相應(yīng)的密碼子序列不含終止密碼子,則這段序的密碼子序列不含終止密碼子,則這段序列可能就是編碼區(qū)域。列可能就是編碼區(qū)域。v基本算法:基本算法:掃描給定的掃描給定的DNA序列,在三個(gè)不同的閱讀序列,在三個(gè)不同的閱讀框中尋找較長(zhǎng)的框中尋找較長(zhǎng)的ORF。遇到終止密碼子以。遇到終止密碼
29、子以后,回頭尋找起始密碼子。后,回頭尋找起始密碼子。這種算法過(guò)于簡(jiǎn)單,不適合于處理短的這種算法過(guò)于簡(jiǎn)單,不適合于處理短的ORF或者交疊的或者交疊的ORF。v識(shí)別編碼區(qū)域的另一種方法是分析各種識(shí)別編碼區(qū)域的另一種方法是分析各種密碼子出現(xiàn)的頻率密碼子出現(xiàn)的頻率 將一個(gè)隨機(jī)均勻分布的將一個(gè)隨機(jī)均勻分布的DNA序列翻譯成氨基酸序列翻譯成氨基酸序列,則在氨基酸序列中上述序列,則在氨基酸序列中上述3種氨基酸出現(xiàn)的種氨基酸出現(xiàn)的比例應(yīng)該為比例應(yīng)該為6:4:1例如,亮氨酸、丙氨酸、色氨酸分別有例如,亮氨酸、丙氨酸、色氨酸分別有6個(gè)、個(gè)、4個(gè)和個(gè)和1個(gè)密碼子個(gè)密碼子但是在真實(shí)的氨基酸序列中,上述比例并不但是在真
30、實(shí)的氨基酸序列中,上述比例并不正確正確這說(shuō)明這說(shuō)明DNA的編碼區(qū)域并非隨機(jī)序列的編碼區(qū)域并非隨機(jī)序列v假設(shè)在一條假設(shè)在一條DNA序列中已經(jīng)找到所有的序列中已經(jīng)找到所有的ORF,那么可以利用密碼子頻率進(jìn)一步,那么可以利用密碼子頻率進(jìn)一步區(qū)分編碼區(qū)分編碼ORF和非編碼和非編碼ORFv馬爾柯夫鏈模型馬爾柯夫鏈模型v利用這種方法,可以計(jì)算一個(gè)利用這種方法,可以計(jì)算一個(gè)ORF成為成為編碼區(qū)域的可能性。編碼區(qū)域的可能性。v一個(gè)簡(jiǎn)單的統(tǒng)計(jì)模型一個(gè)簡(jiǎn)單的統(tǒng)計(jì)模型假設(shè)相繼的密碼子是獨(dú)立的,不存在前后依假設(shè)相繼的密碼子是獨(dú)立的,不存在前后依賴關(guān)系。賴關(guān)系。 令令fabc代表密碼子代表密碼子abc在編碼區(qū)域出現(xiàn)的頻
31、率在編碼區(qū)域出現(xiàn)的頻率給定序列給定序列a1,b1,c1, a2,b2,c2, an+1,bn+1從密碼子從密碼子a1b1c1開始的閱讀框,其開始的閱讀框,其n個(gè)密碼子個(gè)密碼子的出現(xiàn)概率為的出現(xiàn)概率為nnncbacbacbafffp.2211111v第二種和第三種閱讀框第二種和第三種閱讀框n個(gè)密碼子出現(xiàn)的概個(gè)密碼子出現(xiàn)的概率分別為率分別為1322211.2nnnacbacbacbfffp11332221.3nnnbacbacbacfffpv第第i個(gè)閱讀框成為編碼閱讀框的概率個(gè)閱讀框成為編碼閱讀框的概率計(jì)算:計(jì)算:v算法:算法:在序列上移動(dòng)長(zhǎng)度為在序列上移動(dòng)長(zhǎng)度為n的窗口,計(jì)算的窗口,計(jì)算Pi根據(jù)
32、根據(jù)Pi的值識(shí)別編碼的閱讀框的值識(shí)別編碼的閱讀框321ppppPii基于編碼區(qū)域堿基組成特征的識(shí)別方法基于編碼區(qū)域堿基組成特征的識(shí)別方法v編碼序列與非編碼序列在堿基組成上編碼序列與非編碼序列在堿基組成上有區(qū)別有區(qū)別單個(gè)堿基的組成比例單個(gè)堿基的組成比例多個(gè)堿基的組成多個(gè)堿基的組成v通過(guò)統(tǒng)計(jì)分析識(shí)別編碼序列通過(guò)統(tǒng)計(jì)分析識(shí)別編碼序列分析實(shí)例分析實(shí)例2、真核基因識(shí)別問(wèn)題、真核基因識(shí)別問(wèn)題 真核基因遠(yuǎn)比原核基因復(fù)雜:真核基因遠(yuǎn)比原核基因復(fù)雜:v一方面,真核基因的編碼區(qū)域是非連續(xù)一方面,真核基因的編碼區(qū)域是非連續(xù)的,編碼區(qū)域被分割為若干個(gè)小片段。的,編碼區(qū)域被分割為若干個(gè)小片段。v另一方面,真核基因具有更
33、加豐富的基另一方面,真核基因具有更加豐富的基因調(diào)控信息,這些信息主要分布在基因因調(diào)控信息,這些信息主要分布在基因上游區(qū)域。上游區(qū)域。 基因識(shí)別基本思路基因識(shí)別基本思路 找出基因兩端的功能區(qū)域找出基因兩端的功能區(qū)域:轉(zhuǎn)錄啟動(dòng)區(qū)轉(zhuǎn)錄啟動(dòng)區(qū) 終止區(qū)終止區(qū) 在啟動(dòng)區(qū)下游位置尋找翻譯起始密碼子在啟動(dòng)區(qū)下游位置尋找翻譯起始密碼子 識(shí)別轉(zhuǎn)錄剪切位點(diǎn)識(shí)別轉(zhuǎn)錄剪切位點(diǎn)剪切給體位點(diǎn)剪切給體位點(diǎn)剪切接受體位點(diǎn)剪切接受體位點(diǎn)v各種不同的方法有不同的適應(yīng)面,而不各種不同的方法有不同的適應(yīng)面,而不同的方法有時(shí)可以結(jié)合起來(lái)以提高基因同的方法有時(shí)可以結(jié)合起來(lái)以提高基因識(shí)別的準(zhǔn)確率。識(shí)別的準(zhǔn)確率。v關(guān)鍵問(wèn)題是如何提高一個(gè)識(shí)別算
34、法的敏關(guān)鍵問(wèn)題是如何提高一個(gè)識(shí)別算法的敏感性(感性(sensitivity,Sn)和特異性)和特異性(specificity,Sp)。)。 3、基因識(shí)別的主要方法、基因識(shí)別的主要方法兩大類識(shí)別方法:兩大類識(shí)別方法:v從頭算方法(或基于統(tǒng)計(jì)的方法)從頭算方法(或基于統(tǒng)計(jì)的方法)根據(jù)蛋白質(zhì)編碼基因的一般性質(zhì)和特征進(jìn)行識(shí)別,根據(jù)蛋白質(zhì)編碼基因的一般性質(zhì)和特征進(jìn)行識(shí)別,通過(guò)統(tǒng)計(jì)值區(qū)分外顯子、內(nèi)含子及基因間區(qū)域通過(guò)統(tǒng)計(jì)值區(qū)分外顯子、內(nèi)含子及基因間區(qū)域 v基于同源序列比較的方法基于同源序列比較的方法利用數(shù)據(jù)庫(kù)中現(xiàn)有與基因有關(guān)的信息(如利用數(shù)據(jù)庫(kù)中現(xiàn)有與基因有關(guān)的信息(如EST序序列、蛋白質(zhì)序列),通過(guò)同源
35、比較,幫助發(fā)現(xiàn)新列、蛋白質(zhì)序列),通過(guò)同源比較,幫助發(fā)現(xiàn)新基因。基因。v最理想的方法是綜合兩大類方法的優(yōu)點(diǎn),最理想的方法是綜合兩大類方法的優(yōu)點(diǎn),開發(fā)混合算法。開發(fā)混合算法。4、編碼區(qū)域識(shí)別、編碼區(qū)域識(shí)別兩類方法兩類方法 :v基于特征信號(hào)的識(shí)別基于特征信號(hào)的識(shí)別 內(nèi)部外顯子內(nèi)部外顯子剪切位點(diǎn)剪切位點(diǎn)5端的外顯子一定在核心啟動(dòng)子的下游端的外顯子一定在核心啟動(dòng)子的下游3端的外顯子的下游包含多聚信號(hào)和終端的外顯子的下游包含多聚信號(hào)和終止編碼止編碼 v基于統(tǒng)計(jì)度量的方法基于統(tǒng)計(jì)度量的方法 根據(jù)密碼子使用傾向根據(jù)密碼子使用傾向雙聯(lián)密碼統(tǒng)計(jì)度量等雙聯(lián)密碼統(tǒng)計(jì)度量等v在一個(gè)基因中,第在一個(gè)基因中,第i個(gè)(個(gè)(
36、i=1,64)密碼子相對(duì)使用)密碼子相對(duì)使用傾向傾向RSCUi的定義如下:的定義如下:vObsi是該基因中第是該基因中第i個(gè)密碼子實(shí)際出現(xiàn)的次數(shù)個(gè)密碼子實(shí)際出現(xiàn)的次數(shù)Expi是對(duì)應(yīng)密碼子期望的出現(xiàn)次數(shù)是對(duì)應(yīng)密碼子期望的出現(xiàn)次數(shù) aai是統(tǒng)計(jì)的第是統(tǒng)計(jì)的第i個(gè)密碼子出現(xiàn)的次數(shù)個(gè)密碼子出現(xiàn)的次數(shù) syni是所有與第是所有與第i個(gè)密碼子同義密碼子出現(xiàn)的次數(shù)個(gè)密碼子同義密碼子出現(xiàn)的次數(shù)vRSCU大于大于1表示相應(yīng)密碼子出現(xiàn)的次數(shù)比期望次數(shù)表示相應(yīng)密碼子出現(xiàn)的次數(shù)比期望次數(shù)高,而小于高,而小于1則表示出現(xiàn)次數(shù)相對(duì)較少。則表示出現(xiàn)次數(shù)相對(duì)較少。iiiExpObsRSCU iiisynaaExp(5-66)
37、 (5-65) 密碼子使用傾向密碼子使用傾向v設(shè)一段DNA序列為S,從S的第i位到第j位的雙聯(lián)密碼統(tǒng)計(jì)度量IF6(i,j)定義為: fk是從第k位開始的雙聯(lián)密碼的頻率Fk是該雙聯(lián)密碼隨機(jī)出現(xiàn)的頻率4,.,8 , 5 , 25,.,7, 4, 16,.,6, 3 , 06)/ln()/ln()/ln(max),(jkkikijkkikijkkikiFfFfFfjiIF(5-67)雙聯(lián)密碼統(tǒng)計(jì)度量雙聯(lián)密碼統(tǒng)計(jì)度量通過(guò)相似搜索發(fā)現(xiàn)編碼區(qū)域或者外顯子通過(guò)相似搜索發(fā)現(xiàn)編碼區(qū)域或者外顯子 EST(Expressed Sequence Tags)cDNA 蛋白質(zhì)序列蛋白質(zhì)序列v目前大多數(shù)預(yù)測(cè)程序都將數(shù)據(jù)庫(kù)相
38、似性目前大多數(shù)預(yù)測(cè)程序都將數(shù)據(jù)庫(kù)相似性搜索的信息結(jié)合進(jìn)基因預(yù)測(cè)過(guò)程搜索的信息結(jié)合進(jìn)基因預(yù)測(cè)過(guò)程v同時(shí)考慮序列特征信號(hào)和統(tǒng)計(jì)度量同時(shí)考慮序列特征信號(hào)和統(tǒng)計(jì)度量GRAIL用人工神經(jīng)網(wǎng)絡(luò)識(shí)別編碼區(qū)域用人工神經(jīng)網(wǎng)絡(luò)識(shí)別編碼區(qū)域人工神經(jīng)網(wǎng)絡(luò)的概念人工神經(jīng)網(wǎng)絡(luò)的概念v4、別名、別名v人工神經(jīng)系統(tǒng)(人工神經(jīng)系統(tǒng)(ANS)v神經(jīng)網(wǎng)絡(luò)(神經(jīng)網(wǎng)絡(luò)(NN)v自適應(yīng)系統(tǒng)(自適應(yīng)系統(tǒng)(Adaptive Systems)、自適應(yīng)網(wǎng))、自適應(yīng)網(wǎng)(Adaptive Networks)v聯(lián)接模型(聯(lián)接模型(Connectionism)v神經(jīng)計(jì)算機(jī)(神經(jīng)計(jì)算機(jī)(Neurocomputer)ANN ANN 具有學(xué)習(xí)(具有學(xué)習(xí)(Le
39、arningLearning)能力)能力 v人工神經(jīng)網(wǎng)絡(luò)可以根據(jù)所在的環(huán)境去改變它人工神經(jīng)網(wǎng)絡(luò)可以根據(jù)所在的環(huán)境去改變它的行為的行為v自相聯(lián)的網(wǎng)絡(luò)自相聯(lián)的網(wǎng)絡(luò)v異相聯(lián)的網(wǎng)絡(luò)異相聯(lián)的網(wǎng)絡(luò):它在接受樣本集合它在接受樣本集合A時(shí),可時(shí),可以抽取集合以抽取集合A中輸入數(shù)據(jù)與輸出數(shù)據(jù)之間的中輸入數(shù)據(jù)與輸出數(shù)據(jù)之間的映射關(guān)系。映射關(guān)系?!俺橄蟪橄蟆惫δ?。功能。v不同的人工神經(jīng)網(wǎng)絡(luò)模型,有不同的學(xué)習(xí)不同的人工神經(jīng)網(wǎng)絡(luò)模型,有不同的學(xué)習(xí)/訓(xùn)訓(xùn)練算法練算法基本特征的自動(dòng)提取基本特征的自動(dòng)提取 v由于其運(yùn)算的由于其運(yùn)算的不精確性不精確性,表現(xiàn)成,表現(xiàn)成“去噪音、去噪音、容殘缺容殘缺”的能力,利用這種不精確性,比較
40、的能力,利用這種不精確性,比較自然地實(shí)現(xiàn)模式的自動(dòng)分類。自然地實(shí)現(xiàn)模式的自動(dòng)分類。v普化(普化(Generalization)能力與抽象能力)能力與抽象能力 適應(yīng)性適應(yīng)性( (Applicability)問(wèn)題問(wèn)題 v擅長(zhǎng)兩個(gè)方面:擅長(zhǎng)兩個(gè)方面:對(duì)大量的數(shù)據(jù)進(jìn)行分類,并且只有較少的幾種情對(duì)大量的數(shù)據(jù)進(jìn)行分類,并且只有較少的幾種情況;況;必須學(xué)習(xí)一個(gè)復(fù)雜的非線性映射。必須學(xué)習(xí)一個(gè)復(fù)雜的非線性映射。v目前應(yīng)用:目前應(yīng)用:人們主要將其用于語(yǔ)音、視覺、知識(shí)處理、輔助人們主要將其用于語(yǔ)音、視覺、知識(shí)處理、輔助決策等方面。決策等方面。在數(shù)據(jù)壓縮、模式匹配、系統(tǒng)建模、模糊控制、在數(shù)據(jù)壓縮、模式匹配、系統(tǒng)建模、
41、模糊控制、求組合優(yōu)化問(wèn)題的最佳解的近似解(不是最佳近求組合優(yōu)化問(wèn)題的最佳解的近似解(不是最佳近似解)等方面也有較好的應(yīng)用。似解)等方面也有較好的應(yīng)用。 生物神經(jīng)網(wǎng)生物神經(jīng)網(wǎng)1、構(gòu)成、構(gòu)成胞體胞體(Soma)樹突(樹突(Dendrite)胞體胞體(Soma) 軸突(軸突(Axon)突觸(突觸(Synapse)生物神經(jīng)網(wǎng)生物神經(jīng)網(wǎng)v3、六個(gè)基本特征:、六個(gè)基本特征:1)神經(jīng)元及其聯(lián)接神經(jīng)元及其聯(lián)接;2)神經(jīng)元之間的聯(lián)接強(qiáng)度決定神經(jīng)元之間的聯(lián)接強(qiáng)度決定信號(hào)傳遞信號(hào)傳遞的強(qiáng)弱;的強(qiáng)弱;3)神經(jīng)元之間的聯(lián)接強(qiáng)度是可以隨神經(jīng)元之間的聯(lián)接強(qiáng)度是可以隨訓(xùn)練訓(xùn)練改變的;改變的;4)信號(hào)可以是起信號(hào)可以是起刺激刺
42、激作用的,也可以是起作用的,也可以是起抑制抑制作作用的;用的;5)一個(gè)神經(jīng)元接受的信號(hào)的一個(gè)神經(jīng)元接受的信號(hào)的累積效果累積效果決定該神經(jīng)決定該神經(jīng)元的狀態(tài);元的狀態(tài);6) 每個(gè)神經(jīng)元可以有一個(gè)每個(gè)神經(jīng)元可以有一個(gè)“閾值閾值”。人工神經(jīng)元人工神經(jīng)元 v神經(jīng)元是構(gòu)成神經(jīng)網(wǎng)絡(luò)的最基本單元(構(gòu)神經(jīng)元是構(gòu)成神經(jīng)網(wǎng)絡(luò)的最基本單元(構(gòu)件)。件)。v人工神經(jīng)元模型應(yīng)該具有生物神經(jīng)元的六個(gè)人工神經(jīng)元模型應(yīng)該具有生物神經(jīng)元的六個(gè)基本特性?;咎匦浴?人工神經(jīng)元的基本構(gòu)成人工神經(jīng)元的基本構(gòu)成 v人工神經(jīng)元模擬生物神經(jīng)元的人工神經(jīng)元模擬生物神經(jīng)元的一階特性一階特性。輸入:輸入:X=(x1,x2,xn)聯(lián)接權(quán):聯(lián)接權(quán):
43、W=(w1,w2,wn)T網(wǎng)絡(luò)輸入:網(wǎng)絡(luò)輸入: net=xiwi向量形式:向量形式: net=XWxn wnx1 w1x2 w2net=XW激活函數(shù)激活函數(shù)(Activation Function) v激活函數(shù)激活函數(shù)執(zhí)行對(duì)該神經(jīng)元所獲得的網(wǎng)絡(luò)執(zhí)行對(duì)該神經(jīng)元所獲得的網(wǎng)絡(luò)輸入的變換,也可以稱為激勵(lì)函數(shù)、活化函輸入的變換,也可以稱為激勵(lì)函數(shù)、活化函數(shù):數(shù): o=f(net) v1、線性函數(shù)(、線性函數(shù)(Liner Function) f(net)=k*net+c netooc4、S形函數(shù)形函數(shù) f(net)=a+b/(1+exp(-d*net)a,b,d為常數(shù)。它的飽和值為為常數(shù)。它的飽和值為a和
44、和a+b。最簡(jiǎn)單形式為:最簡(jiǎn)單形式為:f(net)= 1/(1+exp(-d*net) 函數(shù)的飽和值為函數(shù)的飽和值為0和和1。vS形函數(shù)有較好的增益控制形函數(shù)有較好的增益控制 4、S形函數(shù)形函數(shù) a+b o(0,c)netac=a+b/2簡(jiǎn)單單級(jí)網(wǎng)簡(jiǎn)單單級(jí)網(wǎng)x1x2xno1o2omwnmw11w1mw2mwn1輸出層輸出層輸入層輸入層簡(jiǎn)單單級(jí)網(wǎng)簡(jiǎn)單單級(jí)網(wǎng)W=(wij)輸出層的第輸出層的第j個(gè)神經(jīng)元的網(wǎng)絡(luò)輸入記為個(gè)神經(jīng)元的網(wǎng)絡(luò)輸入記為netj:netj=x1w1j+x2w2j+xnwnj其中其中, 1 j m。取。取NET=(net1,net2,netm)NET=XWO=F(NET)Neural
45、 network mathematicsInputsOutput),(),(),(),(14414133131221211111wxfywxfywxfywxfy),(),(),(231232212221121wyfywyfywyfy141312111yyyyy),(312wyfyOut2323232yyyy學(xué)習(xí)規(guī)則v有導(dǎo)師學(xué)習(xí)有導(dǎo)師學(xué)習(xí)在學(xué)習(xí)訓(xùn)練過(guò)程中需要不斷給網(wǎng)絡(luò)成對(duì)提供一個(gè)輸入模式和一個(gè)期望網(wǎng)絡(luò)正確輸出的模式,稱為“教師信號(hào)”。當(dāng)網(wǎng)絡(luò)的輸出與期望的教師信號(hào)不符時(shí),則調(diào)整權(quán)值,能產(chǎn)生所期望的輸出。 BP神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是指基于誤差反向傳播算法的多層前饋神經(jīng)網(wǎng)絡(luò) v反向傳播算法反向傳播算法的基
46、本思路:學(xué)習(xí)過(guò)程由信號(hào)的正向傳播和反向傳播兩個(gè)過(guò)程組成。正向傳播時(shí),輸入樣本由輸入層進(jìn)入,經(jīng)隱層處理后傳向輸出層。若實(shí)際輸出與教師信號(hào)不符,則轉(zhuǎn)入誤差的反向傳播階段。輸出誤差將通過(guò)隱層向輸入層逐層反傳,并把誤差分?jǐn)偠玫礁鲗訂卧恼`差信號(hào),作為修正各單元權(quán)值的依據(jù)。權(quán)值的調(diào)整過(guò)程即BP網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程,直到網(wǎng)絡(luò)輸出精度滿足要求為止。權(quán)值的更改梯度下降法的基本思想v首先設(shè)置權(quán)W的一組初值,然后,連接計(jì)算均方誤差相對(duì)于權(quán)的梯度,并按上式一小步小步地修正權(quán)值,當(dāng)滿足一定的準(zhǔn)則時(shí)(比如MSE進(jìn)入到下限的某一范圍時(shí))即停止。這時(shí)稱為算法收斂。對(duì)于梯度下降算法來(lái)說(shuō),最大的問(wèn)題是不能保證收斂到全局最優(yōu)。 梯度
47、下降法的缺點(diǎn)輸入是一系列反映功能位點(diǎn)信號(hào)特征和序列編碼統(tǒng)計(jì)特征的參數(shù)輸入是一系列反映功能位點(diǎn)信號(hào)特征和序列編碼統(tǒng)計(jì)特征的參數(shù)輸出就是對(duì)一段輸出就是對(duì)一段DNA序列是否是編碼區(qū)域的判別結(jié)果序列是否是編碼區(qū)域的判別結(jié)果神經(jīng)網(wǎng)絡(luò)具有非線性映射能力,能夠發(fā)現(xiàn)輸入和輸出之間的高階相關(guān)神經(jīng)網(wǎng)絡(luò)具有非線性映射能力,能夠發(fā)現(xiàn)輸入和輸出之間的高階相關(guān)性性生物信息中,神經(jīng)網(wǎng)絡(luò)主要應(yīng)用于: 序列編碼分析; 蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè); 單肽及其切割位點(diǎn)預(yù)測(cè); 遺傳密碼的結(jié)構(gòu)和起源分析; 真核生物基因?qū)ふ液蛢?nèi)含子剪接位點(diǎn)預(yù)測(cè)。第三部分v調(diào)控元件識(shí)別序列模式v1. 功能結(jié)構(gòu)域,functional domainv2. 模塊,B
48、LOCKv3. 模體,motifv4. 模式,pattern/profile功能結(jié)構(gòu)域v1. 具有完整的、獨(dú)立的三級(jí)結(jié)構(gòu)v2. 具有特定的生物學(xué)功能v3. 一般長(zhǎng)度,幾十到幾百個(gè)氨基酸v4. 允許插入/缺失,即允許存在gap模塊/BLOCKv1. 幾個(gè)到幾十個(gè)氨基酸v2. 無(wú)gap,從全局多序列比對(duì)的結(jié)果直接處理得到v3. 描述蛋白質(zhì)家族或者一類蛋白質(zhì)的序列保守性BLOCK模體/Motifv1. 不具有獨(dú)立的三級(jí)結(jié)構(gòu)v2. 具有特定的生物學(xué)功能:結(jié)合,修飾,細(xì)胞亞定位,維持結(jié)構(gòu),等v3. 長(zhǎng)度一般幾個(gè)到幾十個(gè)氨基酸或者堿基;v4. 例如,SUMO化的序列模體:-K-X-E (:A, I, L,
49、 V, M, F, P; X:任意氨基酸)模式/Pattern/Profilev1. 在算法上用來(lái)描述一類功能結(jié)構(gòu)域,模體或者模塊的表示方式v2. 根據(jù)序列數(shù)據(jù),構(gòu)建的預(yù)測(cè)模型v3. 數(shù)據(jù)形式:概率表示v4. 用來(lái)預(yù)測(cè)新的可能符合特定模式的序列v5. 例如,直接將-K-X-E視為SUMO化位點(diǎn)的,普適的“模式”,則可以預(yù)測(cè)所有包含該模式的蛋白質(zhì)序列2. 位點(diǎn)特異性打分矩陣v(1) Position Specific Scoring Matrix (PSSM)/ Weight Matrix Model(WMM)v(2) 對(duì)蛋白質(zhì)家族進(jìn)行多序列比對(duì)分析,發(fā)現(xiàn)結(jié)果中保守的BLOCKv(3) 根據(jù)BL
50、OCK序列推導(dǎo)相應(yīng)的PSSMv(4) 不考慮gap的影響v(5) BLOCK長(zhǎng)度一般在幾個(gè)幾十個(gè)殘基/堿基鋅指功能結(jié)構(gòu)域的PSSMBLOCK - PSSM代表每一列代表每一列二十種二十種氨基酸氨基酸矩陣中的數(shù)值:當(dāng)前位置上,某矩陣中的數(shù)值:當(dāng)前位置上,某種氨基酸出現(xiàn)的頻率的種氨基酸出現(xiàn)的頻率的log值值第二種PSSMv每一個(gè)位置上顯示每種氨基酸或者堿基出現(xiàn)的頻率堿基的位置堿基的位置四種堿基四種堿基第三種PSSMv每一個(gè)位置顯示氨基酸/堿基出現(xiàn)的概率 PSSM:思考與應(yīng)用v1. 可以根據(jù)BLOCK推導(dǎo)得到的PSSM進(jìn)行數(shù)據(jù)庫(kù)的搜索,發(fā)現(xiàn)包含該模式的新的蛋白質(zhì),并預(yù)測(cè)功能v2. 需要思考的問(wèn)題:(
51、1) PSSM必須能夠很好的反映BLOCK, Motif以及Domain的真實(shí)情況。然而,數(shù)據(jù)有限;如何解決?(2) 根據(jù)PSSM如何計(jì)算新的序列?(3) PSSM中究竟包含著何等信息?問(wèn)題一Pseudocountsv1. 如果訓(xùn)練數(shù)據(jù)中包含很多序列,并且每個(gè)位置上的氨基酸出現(xiàn)頻率合理,則根據(jù)該訓(xùn)練數(shù)據(jù)得到的PSSM能夠很好的反映訓(xùn)練數(shù)據(jù)的真實(shí)情況。否則,得到的PSSM可能會(huì)有明顯的偏差v2. 解決方案,引入偽計(jì)數(shù)(pseudocounts)A. pseudocounts太多,PSSM偏離真實(shí)情況太遠(yuǎn)B. pseudocounts太少,許多可能的氨基酸變化就忽略了v3. 數(shù)據(jù)量大時(shí),偽計(jì)數(shù)可以
52、少一些,反之則要增大為計(jì)數(shù)的比例v4. 一般的經(jīng)驗(yàn),偽計(jì)數(shù)NPseudocounts (2)v針對(duì)特定的氨基酸,如何確定是否需要引入偽計(jì)數(shù)?v1. 方法一:令f(i)為氨基酸i在蛋白質(zhì)數(shù)據(jù)庫(kù)(例如:UniProt)中的分布比例v2. 方法二:使用打分矩陣來(lái)衡量序列的相似性(GPS的思想)v3. 方法三:對(duì)其他的BLOCK分析,來(lái)估算當(dāng)前BLOCK可能的氨基酸的分布v4. 方法四:blind guess問(wèn)題二:PSSM-發(fā)現(xiàn)v1. 計(jì)算log-odds ratio/Odds ratiov2. Do not miss: 性能檢驗(yàn)!v3. 結(jié)果需要計(jì)算Sn, Sp, Ac & Mccv4.
53、需要計(jì)算Self-consistency, Leave-one-out validation & n-fold cross-validation計(jì)算log-odds ratiovP(S|+),根據(jù)陽(yáng)性訓(xùn)練數(shù)據(jù)計(jì)算出來(lái)的概率;Then, P(S|-)?v1. 負(fù)樣本/陰性數(shù)據(jù)的概率計(jì)算v2. 計(jì)算方法:A. DNA序列,四種堿基出現(xiàn)的頻率B. 蛋白質(zhì)序列,20種氨基酸出現(xiàn)的頻率Odds RatioLog-odds Ratio計(jì)算流程:滑動(dòng)窗口v設(shè)定域值;窗口寬度9bp;依次打分,預(yù)測(cè)例:剪切模型 (Splicing)計(jì)算log-odds ratio問(wèn)題三:PSSM-信息?v1. PSSM/motif/domain/BLOCK:每一個(gè)位置上究竟包含了什么樣的信息?v2. 對(duì)于同一個(gè)motif/PSSM:有些位點(diǎn)較其他位點(diǎn)提供更多的信息,why?v3. 如何定量化“信息”?信息論:Claude Shannonv信息論的奠基人1,048,576個(gè)盒子:Yes/No? v1. 隨機(jī)將10000R
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 北師大版道德與法治七年級(jí)下冊(cè)10.2《積極面對(duì)競(jìng)爭(zhēng)》聽課評(píng)課記錄
- 粵人版地理七年級(jí)下冊(cè)《第一節(jié) 非洲概述》聽課評(píng)課記錄
- 2025年天文測(cè)量?jī)x器合作協(xié)議書
- 加盟合作框架協(xié)議書范本
- 臨時(shí)棄土場(chǎng)土地租用協(xié)議書范本
- 2025年度網(wǎng)紅蛋糕店品牌授權(quán)轉(zhuǎn)讓合同
- 二零二五年度離婚協(xié)議書涉及子女醫(yī)療費(fèi)用承擔(dān)合同
- 2025年度農(nóng)業(yè)旅游租賃田地合同
- 2025年度期刊訂閱用戶信息保護(hù)合同
- 2025年度砍伐合同范文:林業(yè)砍伐與林業(yè)資源整合合作協(xié)議
- 前牙即刻種植的臨床應(yīng)用
- 2024-2025學(xué)年初中七年級(jí)上學(xué)期數(shù)學(xué)期末綜合卷(人教版)含答案
- 體育活動(dòng)策劃與組織課件
- 公司違規(guī)違紀(jì)連帶處罰制度模版(2篇)
- 2025屆高考物理二輪總復(fù)習(xí)第一編專題2能量與動(dòng)量第1講動(dòng)能定理機(jī)械能守恒定律功能關(guān)系的應(yīng)用課件
- T型引流管常見并發(fā)癥的預(yù)防及處理
- 2024-2025學(xué)年人教新版九年級(jí)(上)化學(xué)寒假作業(yè)(九)
- 內(nèi)業(yè)資料承包合同個(gè)人與公司的承包合同
- 【履職清單】2024版安全生產(chǎn)責(zé)任體系重點(diǎn)崗位履職清單
- 2022年全國(guó)醫(yī)學(xué)博士英語(yǔ)統(tǒng)一考試試題
- 《工業(yè)自動(dòng)化技術(shù)》課件
評(píng)論
0/150
提交評(píng)論