版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、DNA序列的分類方法摘 要:本文通過對20個已知類別的DNA序列進行統(tǒng)計分析,由淺入深進行研究,建立了五種DNA序列分類的模型。模型一利用單個堿基在序列中的含量不同,提出單堿基分類標準;模型二根據(jù)堿基c,g的百分比之和與堿基a,t的百分比之和的比值進行分類;模型三根據(jù)各序列中氨基酸分布不同引入分類參數(shù)得到分類標準;模型四把DNA序列中氨基酸含量分布轉(zhuǎn)化為空間向量的距離關系,對未知類別的DNA相對于不同類別集合的距離進行分類;模型五利用模糊聚類分析法對DNA進行分類關鍵詞:DNA 分類 模糊聚類分析一、 問題的提出及分析1953年,諾貝爾獎獲得者沃森(Watson)和克里克(Crick)創(chuàng)造了D
2、NA鏈的雙螺旋模型,并提出遺傳信息由DNA傳遞給蛋白質(zhì)的基本法則中心法則DNA(脫氧核糖核酸)鏈是由四種不同的核苷酸(a, t, g, c)排列而成,在DNA中,每三個核苷酸順序組成一種氨基酸,共64種排列方式對應著20種氨基酸(其中有些不同排列對應同一種氨基酸)對于一個DNA來說,我們完全可用一個由a, t, g, c四個字母所組成的一個序列來完全表述不同核苷酸在DNA中的含量及排序方式不同氨基酸的含量的分布與排序都表示不同生命特性的重要性質(zhì)我們對DNA進行分類時,就應該考慮分布與排序所表示出來的特性,而將特性相近的DNA分為一類在本文,我們主要是根據(jù)不同核苷酸的分布及不同氨基酸的分布所表現(xiàn)
3、出來的相似性,對DNA進行分類二、模型的基本假設與符號說明(一)基本假設 (1)題中所列40個數(shù)據(jù)為40個不同DNA的40個片段,且包含著每個DNA中我們所關注的主要信息;(2)182個DNA序列也為182個DNA中的片段,其中包含著以上40個數(shù)據(jù)中我們所關注的主要信息;(3)上面的所有DNA序列起始處都為一個完整氨基酸的起始處,每三個一組代表著不同氨基酸的排列(二)符號說明a, t, g, c分別表示腺嘌呤,胸腺嘧啶,鳥嘌呤,胞嘧啶; 表示DNA片段中分別含a, t, g, c的百分比含量; a, t, g, c中任意3字符的組合為一個氨基酸(包括終止符);=三、模型的建立與求解 模型一 單
4、堿基分類法 通過對A,B類DNA序列的細致觀察,容易看出,A類的堿基g的個數(shù)較多,而B類中堿基t的個數(shù)明顯多于其他堿基,于是我們對A,B 類序列進行統(tǒng)計得到表1表1A類中堿基百分比含量 B類中堿基百分比含量0.29730.13510.39640.17120.35450.50000.10000.04550.27030.15320.41440.16220.32730.50000.14550.02730.27030.06310.45050.21620.25450.51820.12730.10000.42340.28830.18020.10810.30000.50000.11820.08180.234
5、20.10810.42340.23420.29090.64550.063600.35140.12610.39640.12610.36360.46360.09090.08180.35140.18920.36040.09910.35450.26360.13640.24550.27930.18920.36940.16220.29090.50000.09090.11820.20720.15320.43240.20720.21820.56360.07270.14550.18180.13640.40910.27270.20000.56360.06360.1727上述表格中的數(shù)據(jù)表明,除第4個數(shù)據(jù)外,A類中
6、的t的百分比都小于0.19,g的百分比大于0.36, 而B類除倒數(shù)第4個數(shù)據(jù)(第17個序列)中的t的百分比含量大于0.45,g的百分比含量小于0.146由此得到分類標準為:若且,則該序列屬于A類;若且,則該序列屬于B類對2140序列進行統(tǒng)計得到表2 表2 2140序列中堿基百分比含量0.27430.36280.16810.19470.28850.22120.25000.24040.17650.18630.38240.25490.20870.40870.19130.19130.24760.21900.30480.22860.21930.38600.18420.21050.23080.23080.
7、31650.20190.25640.44440.15380.14530.14850.18810.44550.21780.28970.25230.21500.24300.24110.35710.22320.17860.17430.33030.26610.22940.27030.33330.20720.18920.23530.16170.36270.23530.24270.20390.33980.21360.22860.20950.25710.30480.21360.20390.33010.25240.22220.43590.17090.17090.27360.23580.20750.28300.
8、19830.43100.17240.1983根據(jù)序列2140的數(shù)值結(jié)果(見表2),對序列2140進行分類可得如下結(jié)果:A類:22,23,25,27,29,30,34,35,36,37,39(共11個);B類:21,28,38,40(共4個);評析:此模型易于辨別,對于某些特征較顯著的DNA序列的分類較有效,但對DNA中深入的研究缺少足夠的理論支持,于是我們對模型進行進一步改進模型二:參變量分類法根據(jù)DNA基因技術理論,不同來源的DNA序列的值不同,引進參數(shù),得到A類,B類以及序列2140關于的數(shù)據(jù)(見表3、表4)表3 A、B類關于的數(shù)據(jù)表A1.31251.36172.00000.40511.9
9、2111.09430.85001.13461.77502.1429B0.17020.20880.29410.25000.06800.20880.61760.26440.27910.3095表4 序列2140關于的數(shù)據(jù)表21300.56940.96231.75680.61971.14290.65221.16670.42681.97060.844831400.67160.98180.65671.48781.23911.28261.39530.51950.96300.5890通過以上數(shù)據(jù)的分析,我們發(fā)現(xiàn)A類中的值在0.852.1429之間(除第4個數(shù)據(jù)外),B類中的值在0.17020.6176之間,
10、我們認為A類具有0.85這一特征,即B類中含有堿基a、t的數(shù)量較c、g多,以為標準對序列2140進行分類可得A類:22 、23 、25、 27、 29、 32、 34、 35、 36、 37、 39(共11個);B類:21 、24、 28、 38、40(共5個);評析:根據(jù)來源不同的DNA序列中,堿基a、t的數(shù)量與c、g的數(shù)量比例的不同,制定一個較為合理的標準,來區(qū)分序列2140,且具有實際的生物意義和價值模型三:氨基酸含量分類法我們嘗試從氨基酸的分布著手,找出屬于A類(或B 類)DNA 的數(shù)據(jù)特征,就認為未知DNA序列只有A類(或B類)的性質(zhì)我們對A類和B類DNA序列統(tǒng)計出20種氨基酸(剔除
11、休止符)的分布,考慮各DNA序列長度的不同,對20種氨基酸的百分比的分布繪圖,如圖所示(含數(shù)據(jù)):按生物學理論對氨基酸進行分析,由分布圖形可以斷定,A類中精氨酸(cga、cgg、cgc、cgt、aga、agg)和甘氨酸(ggc、ggt、gga、ggg),B類中賴氨酸(aaa、aag)和苯丙氨酸(ttt、ttc)為特征氨基酸,引入?yún)?shù)=并求得A、B類以及序列2140關于的數(shù)值(見表5、表6)表5 A、B類關于的數(shù)值表A、B類關于的數(shù)值A0.33330.181801.40000.30770.10000.38460.23530.09090.3333B3.33333.000011.00018.0005
12、.00001.50006.50008.5000表6 序列2140關于的數(shù)值表序列2140中的值21302.00000.60000.384612.0000.62504.0000.87505.0000.07691.500031401.60002.25001.60000.33330.40000.5000.71431.8001.00004.000容易得出分類標準為:當01.4,則序列屬于 A類;當01.4,則序列屬于B類;當1.4時,則序列無法區(qū)分.根據(jù)上述分類標準,對序列2140進行分類得:A類:22,23,25,27,29,34,35,36,37,39(共10個)B類:21,24,26,28,30
13、,31,32,33,38,40(共10個)模型四:中心距離分類法對任何的DNA序列中的各種氨基酸的百分比含量,容易統(tǒng)計求得,不妨設氨基酸的向量,則為一個20維的向量,對于己知的DNA序列,A,B類氨基酸的含量百分比和均值分別為:;A類DNA序列氨基酸的空間重心為;B類DNA序列氨基酸的空間重心為我們定義到A,B中序列的氨基酸向量重心的中心距離分別為:A類中各序列的氨基酸向量到B序列的氨基酸向量重心的距離分別為;B類中各序列的氨基酸向量到A序列的氨基酸向量重心的距離分別為我們認為兩個DNA序列的氨基酸向量的距離越近,則這兩個序列的氨基酸擬合程度越高,這樣確定如下分類準則:(1)DNA序列的氨基酸
14、向量與A的重心的距離時,則序列屬于A類;(2)DNA序列的氨基酸向量與B的重心的距離時,則序列屬于B類;(3)否則說明該DNA序列無法歸類.應該說明的是,由數(shù)值結(jié)果(見下表)知,這種準則不會將己知的A類歸于B類,己知的B類中的序列歸于己知的A類.數(shù)據(jù)結(jié)果如下:dAB1.13541.12031.41740.71351.19551.17111.02781.19091.21861.1494dBA1.12871.17031.14441.13461.34201.05710.87041.16811.22281.2715根據(jù)序列21-40的如下的數(shù)據(jù)結(jié)果:dA0.59040.41660.69910.7733
15、0.45850.50570.64710.62390.50710.5185dB0.44160.61750.43850.43650.60130.38060.6660.37920.53020.631721-30dA0.87650.75210.73521.11690.71841.01590.50160.98000.78600.962831-40dB0.99910.95380.71690.60410.50810.87460.79011.05510.82330.9888用上述的分類準則對序列21-40進行分類得:A類:27,34,35B類:28評析:模型四引入DNA的氨基酸向量到己知類別(A類,B類)重心
16、的距離,提出分類準則,對未知DNA序列進行分類,具有很好的新意,這樣就把一個DNA序列的排列問題轉(zhuǎn)化為一個空間向量的距離問題.若某DNA中序列的氨基酸含量的百分比向量到己知的類別的重心距離小,則說明這個DNA中的序列各種氨基酸含量的百分比與己知類別的氨基酸含量的百分比擬合程度較高,則歸入己類別,具有很高的生物學參考價值.模型五:模糊聚類分析分類法如題目已知:DNA序列120,按一定的方法分成A,B二類,我們用模糊聚類分析方法建立A,B二類合并后的20個序列的相似矩陣,其中,然后通過平方法求其他傳遞閉包,我們?nèi)∷綖?.73,這樣將20個序列分為二類類和類,與原來的A、B兩類唯一區(qū)別是A類中序列
17、4通過處理后劃分到類中去,這種分類方法與原來已分好的A,B類所形成的差異,其原因可能有以下幾種(1) 原來的分類方法有誤(2) 序列4數(shù)據(jù)有誤(3) 數(shù)據(jù)信息特征的提煉不夠當然我們用某些特殊方法使得分類結(jié)果與原來假定的分類吻合如凡以gt開頭的序列劃分為B類,但這僅僅是一種數(shù)字游戲,看不出實際的意義,而且對后面的數(shù)據(jù)劃分無從下手為了避免A中序列4的異類特性對A類整體特征的影響,我們將它從 A類中刪除,只留下其余9個序列作為進一步分析的對象 我們將待分類的20個序列的集合定義為C C中序列與A中(或B中)每個元素或的相關系數(shù)的平均值定義為(或) 對于C中任一元素,如,且,則認為隸屬于A類:如,且,
18、則認為隸屬于B類。今用Matlab程序可求得20個隸屬數(shù):取用上述方法對序列進行分類,結(jié)果為A類:23,25,27,29,34,35,37B類:21,24,26,28,31,32,33,38,40不可分類:22,30,36,39對182種序列進行分類如下:B類: 四、模型的分析模型1:僅考慮t,g 的含量,特性突出,判斷簡便,但信息應用不夠,可能造成分類不準確模型2:該分類方法是DNA的分類的常用方法,它具有實際意義模型3:對某兩種氨基酸含量的分析,能迅速判斷出主要特征,同樣有信息利用不夠的缺陷模型4:對20個氨基酸的含量進行統(tǒng)計分析,用多元統(tǒng)計的方法分類,能有效的進行分類,但存在邊緣模糊不清的缺點模型5:用模糊聚類分析方法對20 個氨基酸含量分類,同類元素相
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 課題申報參考:教師教育神經(jīng)科學素養(yǎng)的模型構(gòu)建與提升路徑
- 2025年度個人協(xié)議合同范文匯編及法律適用指南4篇
- 醫(yī)院2025年度消防安全管理合同2篇
- 二零二五年度賣房資金墊付及管理協(xié)議4篇
- 騰訊2025年度企業(yè)郵箱遷移服務合同2篇
- 二零二五版高端奶粉品牌加盟管理合同范本頁2
- 二零二五年度城市公共自行車系統(tǒng)維護與升級合同4篇
- 2025年度勞動合同試用期加班費及休息休假規(guī)定3篇
- 個人商品運輸合同范本錦集
- 二零二五年度臨時工工資支付合同模板
- 加強教師隊伍建設教師領域?qū)W習二十屆三中全會精神專題課
- 2024-2025學年人教版數(shù)學七年級上冊期末復習卷(含答案)
- 2024年決戰(zhàn)行測5000題言語理解與表達(培優(yōu)b卷)
- 四年級數(shù)學上冊人教版24秋《小學學霸單元期末標準卷》考前專項沖刺訓練
- 2025年慢性阻塞性肺疾病全球創(chuàng)議GOLD指南修訂解讀課件
- (完整版)減數(shù)分裂課件
- 銀行辦公大樓物業(yè)服務投標方案投標文件(技術方案)
- 第01講 直線的方程(九大題型)(練習)
- 微粒貸逾期還款協(xié)議書范本
- 人教版七年級上冊數(shù)學全冊課時練習帶答案
- NBT 47013.4-2015 承壓設備無損檢測 第4部分:磁粉檢測
評論
0/150
提交評論