DNA序列的分類方法_第1頁
DNA序列的分類方法_第2頁
DNA序列的分類方法_第3頁
DNA序列的分類方法_第4頁
DNA序列的分類方法_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

DNA序列的分類方法摘要:本文通過對(duì)20個(gè)已知類別的DNA序列進(jìn)行統(tǒng)計(jì)分析,由淺入深進(jìn)行研究,建立了五種DNA序列分類的模型。模型一利用單個(gè)堿基在序列中的含量不同,提出單堿基分類標(biāo)準(zhǔn);模型二根據(jù)堿基c,g的百分比之和與堿基a,t的百分比之和的比值a=(C+G)/(A+T進(jìn)行分類;模型三根據(jù)各序列中氨基酸分布不同引入分類參數(shù)P得到分類標(biāo)準(zhǔn);模型四把DNA序列中氨基酸含量分布轉(zhuǎn)化為空間向量的距離關(guān)系,對(duì)未知類別的DNA相對(duì)于不同類別集合的距離進(jìn)行分類;模型五利用模糊聚類分析法對(duì)DNA進(jìn)行分類.關(guān)鍵詞:DNA分類模糊聚類分析一、問題的提出及分析1953年,諾貝爾獎(jiǎng)獲得者沃森(Watson)和克里克(Crick)創(chuàng)造了DNA鏈的雙螺旋模型,并提出遺傳信息由DNA傳遞給蛋白質(zhì)的基本法則一一中心法則.DNA(脫氧核糖核酸)鏈?zhǔn)怯伤姆N不同的核苷酸(a,t,g,c)排列而成,在DNA中,每三個(gè)核苷酸順序組成一種氨基酸,共64種排列方式對(duì)應(yīng)著20種氨基酸(其中有些不同排列對(duì)應(yīng)同一種氨基酸).對(duì)于一個(gè)DNA來說,我們完全可用一個(gè)由a,t,g,c四個(gè)字母所組成的一個(gè)序列來完全表述不同核苷酸在DNA中的含量及排序方式.不同氨基酸的含量的分布與排序都表示不同生命特性的重要性質(zhì).我們對(duì)DNA進(jìn)行分類時(shí),就應(yīng)該考慮分布與排序所表示出來的特性,而將特性相近的DNA分為一類.在本文,我們主要是根據(jù)不同核苷酸的分布及不同氨基酸的分布所表現(xiàn)出來的相似性,對(duì)DNA進(jìn)行分類.二、模型的基本假設(shè)與符號(hào)說明(一)基本假設(shè)題中所列40個(gè)數(shù)據(jù)為40個(gè)不同DNA的40個(gè)片段,且包含著每個(gè)DNA中我們所關(guān)注的主要信息;182個(gè)DNA序列也為182個(gè)DNA中的片段,其中包含著以上40個(gè)數(shù)據(jù)中我們所關(guān)注的主要信息;上面的所有DNA序列起始處都為一個(gè)完整氨基酸的起始處,每三個(gè)一組代表著不同氨基酸的排列.

(二)符號(hào)說明a,t,g,c分別表示腺嘌吟,胸腺嘧啶,鳥嘌吟,胞嘧啶;A,T,G,C表示DNA片段中分別含a,t,g,c的百分比含量;a,t,g,c中任意3字符的組合為一個(gè)氨基酸(包括終止符);a=(C+G)/(A+T);Q賴氨酸的百分比含量(第11號(hào))+苯丙氨酸的百分比含量(第14號(hào))B=:———:————-—精氨酸的百分比含量(第2號(hào))+甘氨酸的百分比含量(第8號(hào))三、模型的建立與求解模型一單堿基分類法通過對(duì)A,B類DNA序列的細(xì)致觀察,容易看出,A類的堿基g的個(gè)數(shù)較多,而B類中堿基t的個(gè)數(shù)明顯多于其他堿基,于是我們對(duì)A,B類序列進(jìn)行統(tǒng)計(jì)得到表1.表1ATGC0.29730.13510.39640.17120.27030.1532ATGC0.29730.13510.39640.17120.27030.15320.41440.16220.27030.06310.45050.21620.42340.28830.18020.10810.23420.10810.42340.23420.35140.12610.39640.12610.35140.18920.36040.09910.27930.18920.36940.16220.20720.15320.43240.20720.18180.13640.40910.2727A類中堿基百分比含量ATGC0.35450.50000.10000.04550.32730.50000.14550.02730.25450.51820.12730.10000.30000.50000.11820.08180.29090.64550.063600.36360.46360.09090.08180.35450.26360.13640.24550.29090.50000.09090.11820.21820.56360.07270.14550.20000.56360.06360.1727B類中堿基百分比含量g的百分比大于0.36,而B類除倒數(shù)第4個(gè)數(shù)據(jù)(第17個(gè)序列)中的t的百分

比含量大于0.45,g的百分比含量小于0.146.由此得到分類標(biāo)準(zhǔn)為:若T<0.2636且G>0.1802,則該序列屬于A類;若T>0.2883且G<0.1802,則該序列屬于B類.對(duì)21?40序列進(jìn)行統(tǒng)計(jì)得到表2.表221?40序列中堿基百分比含量ATGC0.27430.36280.16810.19470.28850.22120.25000.24040.17650.18630.38240.25490.20870.40870.19130.19130.24760.21900.30480.22860.21930.38600.18420.21050.23080.23080.31650.20190.25640.44440.15380.14530.14850.18810.44550.21780.28970.25230.21500.24300.24110.35710.22320.17860.17430.33030.26610.22940.27030.33330.20720.18920.23530.16170.36270.23530.24270.20390.33980.21360.22860.20950.25710.30480.21360.20390.33010.25240.22220.43590.17090.17090.27360.23580.20750.28300.19830.43100.17240.1983根據(jù)序列21?40的數(shù)值結(jié)果(見表2),對(duì)序列21?40進(jìn)行分類可得如下結(jié)果:A類:22,23,25,27,29,30,34,35,36,37,39(共11個(gè));B類:21,28,38,40(共4個(gè));評(píng)析:此模型易于辨別,對(duì)于某些特征較顯著的DNA序列的分類較有效,但對(duì)DNA中深入的研究缺少足夠的理論支持,于是我們對(duì)模型進(jìn)行進(jìn)一步改進(jìn).模型二:參變量a分類法根據(jù)DNA基因技術(shù)理論,不同來源的DNA序列a=(C+G)Q+T)的值□不同,引進(jìn)參數(shù)a=(c+G)(A+T),得到A類,B類以及序列21?40關(guān)于a的數(shù)據(jù)(見表3、表4).表3A、B類關(guān)于a的數(shù)據(jù)表a=(C+G)(A+T)A1.31251.36172.00000.40511.92111.09430.85001.13461.77502.1429B0.17020.20880.29410.25000.06800.20880.61760.26440.27910.3095表4序列21?40關(guān)于a的數(shù)據(jù)表a=(C+G)(A+T)21?300.56940.96231.75680.61971.14290.65221.16670.42681.97060.844831?400.67160.98180.65671.48781.23911.28261.39530.51950.96300.5890通過以上數(shù)據(jù)的分析,我們發(fā)現(xiàn)A類中a的值在0.85?2.1429之間(除第4個(gè)數(shù)據(jù)外),B類中a的值在0.1702?0.6176之間,我們認(rèn)為A類具有a>0.85這一特征,即B類中含有堿基a、t的數(shù)量較c、g多,以a為標(biāo)準(zhǔn)對(duì)序列21?40進(jìn)行分類可得A類:22、23、25、27、29、32、34、35、36、37、39(共11個(gè));B類:21、24、28、38、40(共5個(gè));評(píng)析:根據(jù)來源不同的DNA序列中,堿基a、t的數(shù)量與c、g的數(shù)量比例的不同,制定一個(gè)較為合理的標(biāo)準(zhǔn),來區(qū)分序列21?40,且具有實(shí)際的生物意義H和價(jià)值.

模型三:氨基酸含量分類法我們嘗試從氨基酸的分布著手,找出屬于A類(或B類)DNA的數(shù)據(jù)特征,就認(rèn)為未知DNA序列只有A類(或B類)的性質(zhì).我們對(duì)A類和B類DNA序列統(tǒng)計(jì)出20種氨基酸(剔除休止符)的分布,考慮各DNA序列長度的不同,對(duì)20種氨基酸的百分比的分布繪圖,如圖所示(含數(shù)據(jù)):(cga、氨酸類中賴氨酸(aaO、aag)和苯丙氨酸(ttt、切七捉)為特征氨基酸,引入?yún)?shù)&二賴氨酸的百分比含量(第11號(hào))+苯丙氨酸的百分比含量(第14號(hào))P=精氨酸的百分比含量(第2號(hào))+甘氨酸的百分比含量(第8(cga、氨酸類中賴氨酸(aaO、aag)和苯丙氨酸(ttt、切七捉)為特征氨基酸,引入?yún)?shù)并求得A、B類以及序列21?40關(guān)于P的數(shù)值(見表5、表6).表5A、B類關(guān)于P的數(shù)值表A、B類關(guān)于P的數(shù)值A(chǔ)0.33330.181801.40000.30770.10000.38460.23530.09090.3333B3.33333.0000811.00018.0005.00001.50006.50008.50008表6序列21?40關(guān)于p的數(shù)值表序列21?40中的P值21?302.00000.60000.384612.0000.62504.0000.87505.0000.07691.500031?401.60002.25001.60000.33330.40000.5000.71431.8001.00004.000容易得出分類標(biāo)準(zhǔn)為:當(dāng)0<P<1.4,則序列屬于A類;當(dāng)0<P<1.4,則序列屬于B類;當(dāng)1.4<p<1.5時(shí),則序列無法區(qū)分.根據(jù)上述分類標(biāo)準(zhǔn),對(duì)序列21?40進(jìn)行分類得:A類:22,23,25,27,29,34,35,36,37,39(共10個(gè))B類:21,24,26,28,30,31,32,33,38,40(共10個(gè))模型四:中心距離分類法對(duì)任何的DNA序列中的各種氨基酸的百分比含量,容易統(tǒng)計(jì)求得,不妨設(shè)氨基酸的向量S=(s,s,…,s),則S為一個(gè)20維的向量,對(duì)于己知的DNA序ii1i2i20i列,A,B類氨基酸的含量百分比和均值分別為:Sa=(sa,S?…,sn0),i=1,2,???,10;Sb=(sb,sb,…,sb),i=1,2,???,10;Sa=£區(qū)Sa,j=1,2,...,20;i=1Sb=—區(qū)Sb,j=1,2,...,20.j10iji=1A類DNA序列氨基酸的空間重心為Sa=(Sa,Sa,…,Sa);1220B類DNA序列氨基酸的空間重心為Sb=(牛,袂,…,S".我們定義Si到A,B中序列的氨基酸向量重心的中心距離分別為:d(i)=無S—SA|,i=1,2,...,10.j=1da)=無|s.—SBI,i=1,2,...,10.j=1A類中各序列的氨基酸向量到B序列的氨基酸向量重心的距離分別為d⑴=無|S.a—Sb|,i=1,2,...,10;j=1B類中各序列的氨基酸向量到A序列的氨基酸向量重心的距離分別為da)=£|Sb—Sa|,i=1,2,...,10.j=1我們認(rèn)為兩個(gè)DNA序列的氨基酸向量的距離越近,則這兩個(gè)序列的氨基酸擬合程度越高,這樣確定如下分類準(zhǔn)則:DNA序列的氨基酸向量與A的重心5人的距離d<0.7733時(shí),則序列屬于A類;DNA序列的氨基酸向量與B的重心Sb的距離d<0.6660時(shí),則序列屬于B類;否則說明該DNA序列無法歸類.應(yīng)該說明的是,由數(shù)值結(jié)果(見下表)知,這種準(zhǔn)則不會(huì)將己知的A類歸于B類,己知的B類中的序列歸于己知的A類.數(shù)據(jù)結(jié)果如下:dAB1.13541.12031.41740.71351.19551.17111.02781.19091.21861.1494dBA1.12871.17031.14441.13461.34201.05710.87041.16811.22281.2715根據(jù)序列21-40的如下的數(shù)據(jù)結(jié)果:dA0.59040.41660.69910.77330.45850.50570.64710.62390.50710.5185dB0.44160.61750.43850.43650.60130.38060.6660.37920.53020.631721-30dA0.87650.75210.73521.11690.71841.01590.50160.98000.78600.962831-40dB0.99910.95380.71690.60410.50810.87460.79011.05510.82330.9888用上述的分類準(zhǔn)則對(duì)序列21-40進(jìn)行分類得:A類:27,34,35B類:28評(píng)析:模型四引入DNA的氨基酸向量到己知類別(A類,B類)重心的距離,提出分類準(zhǔn)則,對(duì)未知DNA序列進(jìn)行分類,具有很好的新意,這樣就把一個(gè)DNA序列的排列問題轉(zhuǎn)化為一個(gè)空間向量的距離問題.若某DNA中序列的氨基酸含量的百分比向量到己知的類別的重心距離小,則說明這個(gè)DNA中的序列各種氨基酸含量的百分比與己知類別的氨基酸含量的百分比擬合程度較高,則歸入己類別,具有很高的生物學(xué)參考價(jià)值.模型五:模糊聚類分析分類法如題目已知:DNA序列1?20,按一定的方法分成A,B二類,我們用模糊聚類分析方法建立A,B二類合并后的20個(gè)序列的相似矩陣R=氣人小,其中ZSab-SABSab-SABik'jkjr=~:—,jZ(Sab-Sab)2■:Z(Sab-Sab)2Vikjkj)'k=1'k=1然后通過平方法求其他傳遞閉包R',我們?nèi)∪胨綖?.73,這樣將20個(gè)序列分為二類#類和Bf類,與原來的A、B兩類唯一區(qū)別是A類中序列4通過處理后劃分到B,類中去,這種分類方法與原來已分好的A,B類所形成的差異,其原因可能有以下幾種原來的分類方法有誤序列4數(shù)據(jù)有誤數(shù)據(jù)信息特征的提煉不夠當(dāng)然我們用某些特殊方法使得分類結(jié)果與原來假定的分類吻合.如凡以gt開頭的序列劃分為B類,但這僅僅是一種數(shù)字游戲,看不出實(shí)際的意義,而且對(duì)后面的數(shù)據(jù)劃分無從下手.為了避免A中序列4的異類特性對(duì)A類整體特征的影響,我們將它從A類中刪除,只留下其余9個(gè)序列作為進(jìn)一步分析的對(duì)象.我們將待分類的20個(gè)序列的集合定義為C.C中序列C與A中(或B中)每個(gè)元素a(i=1,...,9)或b(i=1,...,10)的相關(guān)系數(shù)的平均值定義為r(或r「對(duì)于C中任一元素c,如r>r,且r>0.6,則認(rèn)為c隸屬于A類:如iiaibiair>r,且r>0.6,則認(rèn)為c隸屬于B類。今用Matlab程序可求得20個(gè)隸屬ibiaibi數(shù):r=ia0.67630.58280.79780.52160.68470.54980.72600.54190.79590.56960.58420.55540.66070.82040.71630.52000.73600.65780.49040.3797r=ib0.80350.60820.56870.74440.59590.76850.72600.74420.47160.51840.71840.75210.72090.48600.45150.59530.71610.78650.51730.7641取k=0.6用上述方法對(duì)序列21~40進(jìn)行分類,結(jié)果為A類:23,25,27,29,34,35,37B類:21,24,26,28,31,32,33,38,40不可分類:22,30,36,39對(duì)182種序列進(jìn)行分類如下:A類:51213151617192021273233363839414244495153555859646768697173757779828384878889909193100104106109112115117118124134136137138141145147155158171B類:1234678910111418222324252628293031343537404346474850525456576062636566707

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論