基因的分類與癌癥基因識別_第1頁
基因的分類與癌癥基因識別_第2頁
基因的分類與癌癥基因識別_第3頁
基因的分類與癌癥基因識別_第4頁
基因的分類與癌癥基因識別_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、2008高教社杯全國大學(xué)生數(shù)學(xué)建模競賽承諾書我們仔細閱讀了中國大學(xué)生數(shù)學(xué)建模競賽的競賽規(guī)則.我們完全明白,在競賽開始后參賽隊員不能以任何方式(包括電話、電子郵件、網(wǎng)上咨詢等)與隊外的任何人(包括指導(dǎo)教師)研究、討論與賽題有關(guān)的問題。我們知道,抄襲別人的成果是違反競賽規(guī)則的,如果引用別人的成果或其他公開的資料(包括網(wǎng)上查到的資料),必須按照規(guī)定的參考文獻的表述方式在正文引用處和參考文獻中明確列出。我們鄭重承諾,嚴(yán)格遵守競賽規(guī)則,以保證競賽的公正、公平性。如有違反競賽規(guī)則的行為,我們將受到嚴(yán)肅處理。我們參賽選擇的題號是(從A/B/C/D中選擇一項填寫):D我們的參賽報名號為(如果賽區(qū)設(shè)置報名號的話

2、):所屬學(xué)校(請?zhí)顚懲暾娜簠①愱爢T(打印并簽名):1.2.3.指導(dǎo)教師或指導(dǎo)教師組負責(zé)人(打印并簽名):日期:2010年8月旦日賽區(qū)評閱編號(由賽區(qū)組委會評閱前進行編號):基因的分類與癌癥基因識別摘要本論文旨在通過分析基因的表達水平建立模型,并能通過模型對癌癥患者與健康者在基因水平上進行分類,直觀表現(xiàn)兩者區(qū)別。同樣也能通過模型對未知個體做出癌癥的診斷。第一問,此問題的特殊性在于樣本信息之間的關(guān)聯(lián)性,我們首先采用Fuzzy聚類的方法對癌癥患者與健康者分類,建立Fuzzy分類模型作為模型一。最后在不同的相似水平下得出了不同的分類結(jié)果,此結(jié)果較為模糊,我們只將作為進一步研究數(shù)據(jù)的參考。通過對

3、所有樣本基因表達水平的進一步研究,使用matlab作圖工具箱刀,將所有樣本的基因表達信息分別反映到圖表上,觀察圖像發(fā)現(xiàn),每個基因其實都有一定的正常表達范圍,那么由此建立作圖模型作為來確定這一范圍。得到這一判定范圍,就可以拿來對樣本分類和診斷了。若基因表達超出該基因正常范圍的樣本,可以被確定為癌癥患者。通過作圖模型對樣本只能做粗略判斷,且缺少精確的標(biāo)準(zhǔn)。因此,我們建立了概率模型,即為模型三。實際中,每個基因的客觀表達水平的概率分布服從正態(tài)分布,那么就可以通過建立模型,利用樣本信息估計出每個基因表達的概率分布參量,即期望和方差,確定其分布函數(shù)。再將樣本在某基因上的表達水平在概率分布中標(biāo)出,得出概率

4、值,不考慮此值概率意義,將其作為判斷的依據(jù)。值越小,此基因致病可能性越大。概率模型給出解決問題的依據(jù)只反映在單個基因上,不能在將對每個基因的表達水平值求出后來判斷總體,即基因與基因之間缺少可做累加的標(biāo)準(zhǔn)。為解決此問題,我們建立了Fuzzy集模型作為模型四。Fuzzy集此模型的建立靈感來源于模糊數(shù)學(xué)中一般形式的綜合評判模型。即將每個樣本在某基因上的表達水平理解為在此基因上的一種打分值。那么最終得到此基因的Fuzzy集,即為所有樣本對此基因的綜合評判。第二問,待檢測樣本的分析,聯(lián)合應(yīng)用前面四個模型,首先的做簡單分類,將數(shù)據(jù)作為資料的擴展信息。診斷樣本即模糊識別,利用Fuzzy集模型將待檢測樣本的平

5、均隸屬水平求出,根據(jù)此值的大小來做出診斷結(jié)果。根據(jù)模糊集模型,對比不同類樣本的平均隸屬水平得出,平均隸屬水平在0.85以上者為正常人,0.80.85之間的為癌癥子類,0.8之下的為癌癥患者。通過以上依據(jù)最后得出的結(jié)果為:在癌癥樣本中:1,3,4,7,8,11,13,14,17,19,20號樣本為癌癥子類。在待檢測樣本中:42,45,57號樣本為正常人;41,50,51,54,55,56,58,59號樣本為癌癥患者;43,44,46,47,48,49,52,53,60為癌癥子類。最后的直觀圖示可將樣本經(jīng)作圖模型來將圖示信息標(biāo)出。56樣本經(jīng)作圖我們得出,其54,56,62,85,87,94,101

6、,102號基因最有可能致使其患病?!娟P(guān)鍵字】Fuzzy聚類分析相似系數(shù)正態(tài)分布模糊集模糊識別平均隸屬水平一、問題重述附件中的文件給出了一個114個基因,60個人的基因表達水平的樣本.其中前20個是癌癥病人的基因表達水平的樣本(其中還可能有子類),其后的是20個正常人的基因表達信息樣本,其余的20個是待檢測的樣本(未知它們是否正常).(1).試設(shè)法找出描述癌癥與正常樣本在基因表達水平上的區(qū)別,建立數(shù)學(xué)模型,及識別方法,去預(yù)測待檢測樣本是癌癥還是正常樣本.(2).設(shè)計圖示(可視化)方法,使得在你的數(shù)學(xué)模型下,盡量清楚地表現(xiàn)癌癥與正常樣本在基因表達水平上的區(qū)別,以及癌癥樣本中是否有子類.二、問題分析

7、癌癥是危機人類健康與生命頭號殺手,時至今日,可以說人類仍然沒有徹底根治癌癥的有效方法。但是我們依然可以通過現(xiàn)代醫(yī)學(xué)手段預(yù)防癌癥?,F(xiàn)代醫(yī)學(xué)研究表明,癌癥的病發(fā),不單是外部環(huán)境刺激引起,還與人的基因表達有關(guān),實際上任何病癥都可以從人類基因方面找出或多或少的牽連關(guān)系。此題的實質(zhì)也就是從基因表達水平上分析癌癥與健康人的區(qū)別,并通過科學(xué)的建模方式,有效地對待檢測人群進行癌癥的診斷,即問題一。根據(jù)醫(yī)學(xué)理論,某一或某些基因的異常表達,可能會引起癌癥及其他病癥的病發(fā)。此題中已給出114個基因的表達水平,有理由相信每個基因的表達水平都是在統(tǒng)一的標(biāo)準(zhǔn)上進行的數(shù)字化處理。因此可以根據(jù)個體基因表達水平之間的差別進行分

8、類,將癌癥患者與健康人分開,即典型的聚類分析問題。對于聚類分析,現(xiàn)有的比較好的方法有Fuzzy聚類分析和人工神經(jīng)網(wǎng)絡(luò)模型。在對正常個體之間一種基因表達水平的差別分析中,可以看出基因的表達水平分布在了一定的范圍,但是再與癌癥病人的基因進行比較,并不能看出癌癥與健康人在基因表達水平上明顯的劃分。顯然直接在癌癥與健康人之間建立精確的模型將二類完全分隔是不可能的,也是不科學(xué)的(見下文分析)。對于有精確分類模式的人工神經(jīng)網(wǎng)絡(luò)顯然是不合適的,同樣在接下來的分析中,我們也會看到神經(jīng)網(wǎng)絡(luò)解決此問題的不足。對于有這樣模糊關(guān)系的集合進行分類,使用Fuzzy聚類分析的方法求解就比較合適了。我們已講到建立精確的模型進

9、行分類是不科學(xué)的,原因在于有這樣的事實:群體中,某個基因的表達水平是不確定性的以及一種癌癥多基因控制的可能性。同時,由于所給樣本數(shù)量有限和樣本個體是否患有除癌癥之外的其他病癥并未可知,這就對某些基因的異常表達所產(chǎn)生的病癥的判斷帶來了復(fù)雜性和不確定性。對于有些癌癥可能是有潛伏期的,在這我們也看到了Fuzzy分類的不足,即正常人中是否也會存在癌癥隱患的人也是未知的,從而對分類中模糊程度的確定帶來了困難。但在此題中,可以忽略這種情形。不論是Fuzzy聚類分析還是人工神經(jīng)網(wǎng)絡(luò),都是只進行了對不同集合的分類,最終都沒有明確給出集合中哪些元素在分類中起到關(guān)鍵的作用。在此問題中,雖然可以通過上方法進行分類,

10、但是并不能解決此問題的要求,即無法看出不同類之間的區(qū)別。這便是Fuzzy聚類分析和人工神經(jīng)網(wǎng)絡(luò)在解決此題中相同的不足之處。為解決這樣的不足,我們就需要另建模型來對此問題進行求解。從整體分類中,我們知道個體與個體之間的相似系數(shù),即模糊關(guān)系是通過考慮全部基因表達水平而來(從相似系數(shù)公式可知),故而也就無法得知癌癥患者與正常人在基因表達上的區(qū)別。這就讓我們想到,可以研究某一種基因來分析。在群體中,對于一個基因,其表達水平是隨機的,既然是自然界中的隨機規(guī)律現(xiàn)象,就有理由相信這種規(guī)律是符合正態(tài)分布的。根據(jù)人群中患癌癥的人很少這一事實可知,基因表達水平位于小概率附近的個體就可以定義為患者了。由于樣本有限,

11、我們將這種分布轉(zhuǎn)化為Fuzzy集分布如此一來,通過對某一種基因的研究,觀察某一個體的基因表達水平的Fuzzy程度,我們不僅可以看出不同個體之間的基因表達水平不同,而且可以更加明確地劃分癌癥子類。對于第二問,我們可通過第一問的求解過程直接給出所對應(yīng)的曲線族、分布圖,以及最終所求的Fuzzy集分布,可以將待檢驗樣本的基因表達水平畫到Fuzzy集分布中,通過觀察即可實現(xiàn)模糊識別,既方便又清晰明了。三、模型假設(shè)假設(shè)每個樣本之間相互獨立,并且每個基因相互獨立。即每個基因的表達水平不受其他基因表達水平的影響。這就將基因之間存在的關(guān)聯(lián)關(guān)系忽略了,這在只有114個少量基因的研究中是合理的。假設(shè)所給出的所有樣本

12、個體的基因表達水平都是由統(tǒng)一標(biāo)準(zhǔn)的計算公式求得,不需要另做轉(zhuǎn)換,可以直接在不同模型中參與計算。假設(shè)所給出的樣本都具有一定的代表性,不包含特殊樣本。因此這些樣本的基因表達水平就分布在了一個較小范圍內(nèi),分布在其他范圍較少,可視為小概率事件,進而假設(shè)一種基因表達水平的分布符合正態(tài)分布。假設(shè)所有樣本之間,只存在是否患有癌癥的區(qū)別,忽略除癌癥以外的其他病癥。假設(shè)癌癥病人樣本中,致癌基因均可以從這114個基因中找出。這即是將癌癥樣本的致病原因明確地歸為基因異常表達所致。四、符號說明主要符號及說明:X全體樣本基因表達水平矩陣R樣本中樣本之間的相似系數(shù)矩陣HL所有基因正常表達水平矩陣九對基因正常表達范圍修正時

13、的允許誤差值CH為研究單個基因,所選出的樣本矩陣A在所選樣本中,第j基因?qū)?yīng)樣本值的1階矩X在Fuzzy集中,每個基因隸屬水平為0值時的表達水平TFuzzy集中,每個樣本在每個基因上表水平隸屬水平為1是的范圍Z所有基因,其出現(xiàn)的表達水平對應(yīng)隸屬水平的Fuzzy集,40,40五、模型建立與求解5.1問題一5.11問題分析通過以上對此問題的分析,權(quán)衡下選擇Fuzzy聚類分析求解部分問題。前已經(jīng)提到使用此方法存在有一定的不足的,這里不再累述。為解決此不足,我們在Fuzzy聚類分析的基礎(chǔ)上,進行完善。在以分得的結(jié)果中觀察,找出明確區(qū)分癌癥患者與正常人在基因?qū)用娴牟煌???紤]到基因控制疾病的原理與過程

14、非常復(fù)雜,需要忽略一些因素,比如:114個基因中,任一基因的異常表達,都可能引起病變,不考慮多基因控制病癥的情況;120號患者除癌癥外,并未患有其他與基因有明顯關(guān)聯(lián)的病癥;2140號正常人是完全正常,不存在任何病癥,其中也不存在將來患有癌癥的可能性,即每個基因的表達水平都是在正常范圍內(nèi)的。5.1.2模型建立5.1.2.1模型一進行Fuzzy聚類分析,首先需要確定要進行分類的對象,在此問題中,需要分類的對象為140號樣本,將其分為兩類,對象中的元素為114個基因的表達水平,即得到:X=(x)40 x114(1.1)元素Xj即表示為第1號樣本的第j個基因的表達水平。根據(jù)X找出各樣本之間的相似系數(shù)。

15、對于相似系數(shù)的計算,由于不同的計算公式最后得出的結(jié)果不同,在這里我們選擇了兩個相似系數(shù)的計算公式,目的在于通過對比,選擇最適合本題意情況下的公式,這兩個公式分別是1指數(shù)相似系數(shù)公式:1114-3(Xk-xjk)2rj=帀弋e4S,Xj=口,40(1.2)其中:sk=丄送(x.k-xk)22,k=1,2,114k40ikk(1.3)2相關(guān)系數(shù)公式:(1.4)藝(x-x)(x-x)ikijkj(1.5)k=1k=1其中:ik(1.6)呎=占藝X,xj=藝xjk,i,j=1240k=1k=1之所以選擇這兩個,是由樣本元素之間的關(guān)系決定的。樣本元素是一系列的數(shù)字,并且同位置的元素在一定程度上同是在一定

16、范圍內(nèi)波動的,我們已經(jīng)假設(shè)在這樣的范圍出現(xiàn)的數(shù)值是正態(tài)分布的,因此兩樣本之間的相似性反映在元素差值上。通過以上任一求解樣本之間相似性的相似系數(shù)公式,得到樣本相似系數(shù)矩陣:R=(r.)(1.7)40 x40其中元素寫即為第i樣本和第j樣本之間的相似系數(shù),顯然R2是一對稱矩陣。要得到此樣本的Fuzzy等價關(guān)系,需要對R進行轉(zhuǎn)化。已知R的2次幕是自反、對稱和傳遞的,所以R的2次幕可作為樣本的Fuzzy等價關(guān)系,即可進行聚類分析。根據(jù)模糊矩陣的取幕公式得R的2次幕矩陣:R2=R。R=(r,)(L8)ij40 x40(1.9)其中元素:rj=妙(rar)i,j=1,2,40jikkjk=1根據(jù)R2做出聚

17、類圖,逐步取不同的相似水平d,直到將樣本分為兩類,且此兩類應(yīng)正是題目中正常人和癌癥患者兩類。分類過后,比較通過不同的相似系數(shù)計算公式得出的分類結(jié)果,在將兩類人分開時應(yīng)選擇相似水平較高的計算方法,這樣才是更符合實際的。5.1.2.2模型二通過前面的分析以及模型一求解結(jié)果我們都能得知,簡單的分類是不能看出癌癥患者和正常人之間的本質(zhì)區(qū)別。模型一僅僅求得了一相似水平Q2值,此參量不能反映兩類人在基因表達上的區(qū)別,而且也不直觀。因此我們需要另建模型,即對基因的單獨研究模型。對于每個基因,其必存在正常水平的表達范圍,即有上限和下限,若此基因的表達水平超出這個范圍,那么就有可能會引起疾病。為了研究癌癥患者與

18、正常人之間的區(qū)別,我們有必要根據(jù)正常人的基因表達水平來確定每個基因的這個范圍。因此取20個正常人樣本中每種基因表達水平的最大值作為上限,最小值作為下限得基因正常表達矩陣:(2.1)hHL=ij,j=1,2,.,114Ljlxll4其中hj和和分別為j基因正常表達范圍的上限和下限。又由于樣本數(shù)量有限,樣本值是不能完全反應(yīng)此基因的真正表達水平范圍的。已知樣本是選擇的正常人的基因,那么根據(jù)正常人的基因表達完全正常的假設(shè)條件可知,h要比實際小而l要比實際大。這就要求對HL每個基因?qū)?yīng)的jj(2.2)值進行修正。引入允許誤差九(Ov久vl),則得到修正后的基因正常表達范圍矩陣:HLf=:,j=12,11

19、4Lj1x114其中:H=h+A,廠=_AjjjolAiA,A=(hj-lj)/(2.3)再將i號癌癥患者的基因表達情況xi與HL繪制到同一張圖上,并設(shè)計程序,只將xij大于上限或小于下限的點描出,并將這個差值反應(yīng)到圖標(biāo)上。如此一來,癌癥患者的基因表達情況就直觀的反映在了圖上。觀察圖表并與模型一的分類結(jié)果進行聯(lián)系比較,分析模型一中分類不明確的樣本在圖表上點的情形。結(jié)果顯示,一些分類不明確的樣本其在圖表上的點是非常接近上限或下限的。這就說明了此樣本與正常樣本的相似水平是很高的,由此也就解釋了分類不明確的原因。此圖表也同樣給出了影響相似水平的關(guān)鍵因素是在那些基因上。同樣也可以大體上為研究此樣本所患

20、癌癥的直接關(guān)聯(lián)基因提供參考。雖然根據(jù)以上所繪制的圖表能夠?qū)Π┌Y患者的基因進行分析和比較區(qū)別,但是在癌癥診斷中,通過觀察某個基因的表達水平在正常范圍的位置或偏出多少,畢竟個體之間是存在差距的,如果這樣就主觀地就去判斷引發(fā)病癥的會與否,就顯得有些缺乏科學(xué)性了。故而還需要進一步的建模,來解決此問題。5.1.2.3模型三在對基因單獨研究的基礎(chǔ)上,雖然我們已經(jīng)給出了較為直觀的圖表來說明患者與正常人之間在單個基因上的表達區(qū)別,以及可以將此圖表用來進行癌癥的診斷,但是如前所說,這樣通過觀察得出來的結(jié)果或結(jié)論主觀色彩較濃,缺乏依據(jù)。為此我們就需要確定這樣的某種依據(jù),依此來進行更具有說服力的判斷。在概率論中我們

21、知道,一件事件的發(fā)生與否可以通過其發(fā)生的概率這一依據(jù)來做出判斷,概率即反映了事件發(fā)生的可能性。同樣在Fuzzy數(shù)學(xué)中,也確立了類似的依據(jù),即模糊性或隸屬度等概念。這些都可以將一些事物的屬性做出較為科學(xué)地判斷。在這里,我們將首先建立概率模型,對問題進行分析。在確定基因表達水平分布中,為使其更符合實際,可采取適當(dāng)增加樣本數(shù)量的方法。在此題中,總共有60個樣本,20個健康人的樣本當(dāng)然是必選,至于其他樣本我們可以通過模型二來確定是否選擇。針對一個基因,某一樣本此基因的表達水平與模型二所確定的正常表達范圍進行比較,若超出范圍則不選,在范圍之內(nèi)即可選擇。建立樣本選擇矩陣:CH=(c.),c.ij60 x1

22、14ijlWxHjijj其他(3.1)選擇出樣本之后,再對每一個基因所對應(yīng)的表達水平作如下計算:1爭卩j=c.Q2Jsl1八=1=昱(c.一卩.)2,c.豐0,=1,2,.,114sJIJl=12(3.2)其中s為第基因所選擇出的樣本數(shù)。J我們已經(jīng)知道,每個基因的表達水平是正態(tài)分布的,為了對其進行研究以及解決以上模型的不足,就需要將此正態(tài)分布的參數(shù)找出來,即此分布的均值和方差。如何確定這兩個參數(shù)呢?其實我們也已經(jīng)看到,這其實就是借助于總體的一個樣本來估計總體未知參數(shù)的值的問題,即參數(shù)的點估計問題,在此類問題中,概率論中給出了具體的方法。在此我們選擇使用矩估計法并簡要說明其方法。在矩估計法中所依

23、據(jù)的原理就是樣本矩依概率收斂于相應(yīng)的總體矩,樣本矩的連續(xù)函數(shù)依概率收斂于相應(yīng)的總體矩的連續(xù)函數(shù)。故而將樣本矩依作為相應(yīng)的總體矩的估計量,樣本矩的連續(xù)函數(shù)作為相應(yīng)的總體矩的連續(xù)函數(shù)的估計量。具體做法中,我們直接引用本題的參數(shù)來說明。對總體的一個隨機變量樣本即本題中的CH,其第基因樣本值對應(yīng)的k階(3.3)可/127乙cl,1=1,2矩分別為:A=1J(3.4)同樣由總體的分布函數(shù)計算得的k階矩是包含有k個未知參數(shù)的函數(shù),可分別簡化表示為:卩1=卩/0,02,.,0丿TOC o 1-5 h z1112卩2=卩2(0,02,.,0丿2212k%=%(01,02,k)這是包含有k個未知參數(shù)的聯(lián)立方程組

24、,一般來說可以從中解出000,12k得到:0.=0/卩.,卩?,卩(3.5)1112k0=0.2(卩十卩.2,,卩丿V22120k=0k(卩.,卩.2,,卩丿*kk12k以A.7分別代替上式中的卩,就可以得到待估計參數(shù)的估計值:170z=07(A,AA/=1,2,.,kGO1112k在本題中,因基因表達水平是正態(tài)分布的,通過以上矩估計法進行估計之后,得出的均值和方差的估計值分別為:=卩,&2=2,=1,2,.,1147)7777同樣也可以直接應(yīng)用matlab工具箱中的估計函數(shù)來對正態(tài)分布總體的均值和方差進行估計,格式為:muhat,sigmahat,muci,sigmaci=normfit(v

25、,alpha)此命令在顯著性水平alpha下估計數(shù)據(jù)v的參數(shù)(alpha缺省時設(shè)定為0.05),返回值muhat是v的均值的點估計值,sigmahat是標(biāo)準(zhǔn)差的點估計值,muci是均值的區(qū)間估計,sigmaci是標(biāo)準(zhǔn)差的區(qū)間估計4。得到基因表達分布的均值和方差后,不妨就認(rèn)為其分布是連續(xù)的,則即可作出概率密度函數(shù)曲線。到這里,雖然也可通過概率的描述來對某一樣本基因表達水平的異常情況作出判斷,即如果概率大就說明在總體中出現(xiàn)的可能性較大,在實際中出現(xiàn)可能性較大者往往是正常的,一般病癥的出現(xiàn)才是小概率的,所以能夠判斷其正??赡芮闆r。但也不難看出,通過概率密度函數(shù),是不能反映該基因的正常表達范圍的,即不

26、論此樣本基因表達水平是何值,總是一個不為1的概率值,除非都是以均值出現(xiàn),這就與實際情況不相符了,在實際中我們完全可以通過一個基因的表達水平確定其概率為1的不會致病,雖然我們也可以通過劃定一個范圍來作為正常范圍,但是范圍之外的概率就似乎受到了一定的約束,即其值只會在一定的范圍內(nèi),正常范圍越大,概率值的變化范圍越小,最后的結(jié)果可能就是樣本值無論超出正常范圍多少,都是小概率的了,這在實際中更加不相符了。這就使最后作出的判斷不準(zhǔn)確。因此我們還需要對模型做進一步的改進。我們的做法就是將基因表達水平的概率分布轉(zhuǎn)化為其Fuzzy集分布。5.1.2.4模型四之前我們已經(jīng)說到概率模型和Fuzzy模型都能夠就此問

27、題進行分析和研究,模型三的概率模型我們給出了其存在的不足之處,那么為了建立更好的模型,我們將結(jié)合以上兩種理論,做出創(chuàng)新,建立新的模型。首先我們通過對樣本的研究,找出單個基因表達水平滿足怎樣的分布,即概率論的知識。然后根據(jù)所確定的分布轉(zhuǎn)化成基因表達水平的模糊集,這樣就可以通過模糊判斷作為依據(jù)了。針對于一個基因,某個樣本在此基因上的表達水平實際上也是有一定范圍的,因樣本的不同這個范圍也不同,這在生物學(xué)角度上也是不難解釋,即某一性狀在一個個體上是允許有所變化的(例如鼻梁的高或低),雖然一個個體從一出生就已經(jīng)確定了其性狀,但在出生時刻如果分為兩個完全相同的個體,之后成長的性狀也不能保證完全相同(比如同

28、卵雙胞胎就是不完全相同的)。根據(jù)以上解釋,我們就可以將解決問題的模型進一步深入,即單個樣本在單個基因表達水平的研究上。這樣的建模必然要求的樣本性質(zhì)較高,為此我們只選擇20個完全健康的人的基因來分析建模。為說明模型需要的量,我們假設(shè)樣本在某基因上的表達水平理解為此樣本在此基因上的一個打分,那么此基因的表達水平就是所有樣本對此基因的綜合評價。問題就轉(zhuǎn)換為Fuzzy數(shù)學(xué)中一般形式的綜合評判問題2,建立綜合評判模型即可求解。建立綜合評判型就需要知道每個樣本打分的Fuzzy集以及評判所占比重的Fuzzy集。已知樣本在同一基因上的表達水平是服從同一的正態(tài)分布,即每個樣本在此基因上表達水平的Fuzzy集中隸

29、屬水平為0時的值是相同的。所以在模型三中,我們可以通過確定一概率值p,來找出基因表達水平的一個范圍,而這個范圍的界線正是樣本在基因表達水平的Fuzzy集中隸屬水平為0時的值。實際分析知,如果基因表達水平的隸屬性為0,那么就是說此水平對于正常水平的隸屬性為0即完全屬于不正常水平了。在模型三的概率分布中,此種情形正是小概率的表達水平,根據(jù)概率論中的小概率概念即可確定p值,根據(jù)p值確定此基因表達水平的Fuzzy集中隸屬水平為0時的值,得到所有基因此范圍的矩陣:X=x,x(4.1)j/j其中Lj與j滿足下公式:(4.2)八一八(Xj入出)二p,(Xj入卩丿)二1-p,j=1,2,.,114在模型二中我

30、們已經(jīng)給出了每一個基因的正常表達范圍,在此范圍內(nèi)的表達水平是正常的,即落在此范圍的樣本基因表達水平的隸屬性為1,但前面已經(jīng)提到,對于不同的個體隸屬性為1的表達范圍是不同的。這就需要針對不同的樣本來逐一分析。我們所確定的這個區(qū)間范圍Tj滿足下規(guī)定:T(/,medl,x+dImed,hLxd,hJjij2jdd且ddij1j2ij1j3dddj3j1j2dd且ddj2ij1j2j3dddj3ij2j1(4.3)其中med了為第j號基因表達水平的中位數(shù),其中,d二lx/I,d二lxhI,d二lxmed(4.4)j1Ijjij21jijIjji=21,22,40,j=1,2,114則T.即為第i樣本在

31、第j基因上的表達水平Fuzzy集中隸屬性為1時表達范圍。此計算中之所以選擇中位數(shù)而非平均數(shù)的原因在于中位數(shù)更能反映樣本值的分布情況。另外每個樣本在同一基因上計算綜合評判水平時所占比重是沒有模糊性的均為0.05(即1/20)。_i_21j_120 x(2)ija(4.5)根據(jù)以上所求,即可計算出隸屬性為a時j基因所對應(yīng)的綜合評判水平:%(1)jaZ(1)二i_2jT,Z(2)ja20皿最后根據(jù)Z做出每個基因綜合評判后的表達水平Fuzzy集曲線。這樣就彌補了概率圖的不足。至此,根據(jù)做出的曲線在對待檢測樣本或癌癥患者的基因表達水平的描點進行分析,不僅區(qū)別明顯,而且進行診斷時更有說服性較強的依據(jù)。5.

32、1.3模型求解5.1.31模型一求解模型一意在應(yīng)用Fuzzy聚類方法進行分類,首先建立分類對象矩陣X,即題目附件中的基因表達水平。根據(jù)X,分別應(yīng)用公式(1.2)和(1.5)將分類對象之間的相似關(guān)系矩陣R求出,具體實現(xiàn)matlab編程見附錄8.2,再對R進行乘幕運算得到Fuzzy等價關(guān)系矩陣,由于R的2次幕已是自反、對稱和傳遞的了,因此我們只求到R2,編程實現(xiàn)見8.3。由于篇幅有限,以上經(jīng)計算所得結(jié)果不再列出,最后只將經(jīng)分類后的結(jié)果給出。分類程序見附錄8.4。應(yīng)用公式(2)來計算相似關(guān)系后的分類結(jié)果為:第一類122226第二類3818第二類4516第四類6第五類71419第八類91015第七類1

33、112第八類13203437第九類1723252930323539第十類21242731第十一類3340第十二類2836此時的相似水平匕=0.6461;可以看出并沒有將樣本分為兩類,將a值繼續(xù)減小,分類結(jié)果也只是減少了分類數(shù),其中也有將癌癥樣本與健康樣本分為一類的情況。為與實際相吻合,我們將以上結(jié)果進行合并即健康人一定會分在一起的,則可得到:第一類21317202122262324252728293031323334353637393840第二類134567891011121415161819表2應(yīng)用公式(1.5)來計算相似關(guān)系后的分類結(jié)果為:第一類12345679第二類48101415161

34、819第二類11第四類12第五類13172021232425262730313536373940第八類22第七類28第八類2932333438表3此時的相似水平匕=0.9250,顯然要比使用公式(1.2)求得的相似水平高,而且使用此公式所得的分類數(shù)也少。再將以上分類進行合并,得到:第一類1317202122232425262728293031323334353637383940第二類1234567891011121415161819根據(jù)最后的分類結(jié)果,得出的兩種分類沒有太大差別,但是應(yīng)用公式(1.5)時的相似水平要高的多了,因此選擇公式(1.5)更為合理且接近實際水平。模型一雖然給出了分類的一

35、種思路,并確定了分類時的相似水平和計算公式,但是依然看不出樣本之間的實質(zhì)差別,更不能直觀的進行觀察出。但是模型一還是給我們提供了接下的模型求解結(jié)果的參照。5.1.3.2模型二求解通過模型二的建模分析,我們需要知道是每個基因的正常表達范圍,這個范圍反應(yīng)了正常人的基因會出現(xiàn)的表達水平,附件中給出了20個健康者,那么樣本中每個基因的最大表達和最小表達即是這個范圍的上限和下限。經(jīng)附錄8.5的程序求得所有基因正常表達水平矩陣HL,HL具體數(shù)據(jù)見附錄8.6。為能更直觀的表現(xiàn)這樣的范圍,根據(jù)HL做出條形圖,如圖1。黃色區(qū)域即表示正常表達范圍。600040003000衛(wèi)口1000又因為樣本數(shù)量有限,并不能代表

36、全部,所以圖1中每個基因的表達范圍有一定誤差,我們將此誤差d定為較常規(guī)的一般允許誤差值0.05,對利用公式(2.2)和(2.4)對皿進行修改得到HL,并繪制條形圖,得圖2。淺藍色區(qū)域為允許誤差范圍。至此模型二基本求解完畢,我們通過觀察圖2就可以很清晰的看出每個基因的表達水平。下面我們來觀察模型一所得出的分類結(jié)果中本是癌癥患者卻分到健康者一類的樣本其基因表達水平在圖二中的情況,在此選擇20號樣本。如圖3。圖中只描點出基因表達水平超出正常范圍的基因,紅色表示其超出的量。E口III-600異?;蚍植糺u40III-200100基因序列異常基因不計誤差偏離表達ju山j(luò)u2ju-2_11L表達偏離量1

37、120406080基因序列異常基因考慮誤差偏離表達100120Oju山j(luò)u2ju-2L表達偏離量11204060基因序列80100120O圖3實現(xiàn)程序見8.7。從圖3中我們可以看出20號樣本基因表達水平超出范圍的基因非常少,而且超出的量也沒有超過400,這就解釋了在模糊分類中為什么20號患者總會被分到健康者一類中,這是因為20號的基因表達與健康者的幾乎沒有太明顯的區(qū)別。對模型二的求解我們可以看出,通過圖3,我們可以類似的對待檢測樣本的基因表達進行觀察,研究個別基因的表達水平的異常水平。同時在對癌癥患者基因的表達研究中,甚至可以看出與致癌原因關(guān)聯(lián)性較大的基因。這就為癌癥的研究提供的參考依據(jù)。雖然

38、已經(jīng)非常直觀的表現(xiàn)了癌癥患者與健康人之間的區(qū)別,但在癌癥診斷中,我們也能發(fā)現(xiàn)其中的不足,就是不確定性較大大。超出的范圍有多大才能確定其引發(fā)病癥還需要進一步探討。5.1.3.3模型三求解為了進一步說明基因表達水平的正常與否,我們建立了模型三,即通過概率水平來說明:概率大則說明此表達水平在總樣本中出現(xiàn)的是大多數(shù),又實際中大多數(shù)往往又是健康的,因此得出結(jié)論即為健康的可能性較大。所以概率模型為我們進行判斷提供了一個依據(jù)。此概率說明不患病的可能性,而非真正意義上的概率。為了得出這樣的概率分布函數(shù),我們利用公式(3.1)首先確定應(yīng)選擇的樣本,得到樣本選擇矩陣CH,篇幅有限在此不再列出,具體實現(xiàn)程序見附錄8

39、.8。之后再根據(jù)CH提供的樣本,利用公式(3.2),求出每個基因樣本的均值和方差。編程實現(xiàn)見附錄8.9。在模型三的建立中,我們已經(jīng)知道,每個基因的表達水平都是服從正態(tài)分布的,利用矩估計的方法,并由公式(3.3)、(3.4)、(3.5)和(3.6)經(jīng)計算得到正態(tài)分布的期望和方差即為公式(3.7)所示,最終得到每個基因表達水平分布的期望和方差,算法程序代碼及具體數(shù)據(jù)見附錄8.9和8.10。這樣就可以根據(jù)附錄8.10所示的數(shù)據(jù)畫出每個基因表達水平的概率分布了。通過概率分布,我們針對一個樣本在此基因上的表達水平就可給出其異常表達水平及致病的可能性。我們選擇3號樣本一例,56號基因的分布圖做出圖表,如圖

40、4所示。圖4觀察圖4,我們可以看到3號樣本的56號基因表達水平出現(xiàn)的概率非常小,已經(jīng)達到概率論中所說的小概率概念的水平。這樣低的概率事件的發(fā)生,足以說明極大可能的致癌性,而這更與實際相符。雖然模型四給出了作為我們進行癌癥分類和判斷的依據(jù),但如前所說,此模型依然還是有所欠缺的,同時我們也能夠容易的看出,樣本數(shù)據(jù)太大,分布更是分散,這就導(dǎo)致了正態(tài)分布的方差過大,從而使每個值所對應(yīng)的概率是非常小的。雖然我們不會將真正的概率意義來解釋表達水平,但是如此小的數(shù)據(jù)還是給研究和判斷上帶來麻煩。那么就要對模型進行改良,具體做法我們曾考慮,在求解均值和方差時,將所選擇出的樣本數(shù)據(jù)進行歸一化,這樣可以消除以上方差

41、過大的不足,但是這樣做未免使得求解過程太過復(fù)雜,而且也并不能解決模型建立時所討論的不足。因此我們另辟蹊徑,創(chuàng)造性的將概率分布轉(zhuǎn)化為Fuzzy集分布,即模型四。5.1.3.4模型四求解模型四建立中我們已經(jīng)分析了,樣本在某個基因上的表達水平可以理解為此樣本對該基因的打分水平,這樣就要建立一般形式的綜合評判模型。建立綜合評判模型就需要知道每個樣本打分的Fuzzy集以及評判所占比重的Fuzzy集。P值我們?nèi)≌龖B(tài)分布中變量為2b時對應(yīng)的概率,以此來確定總體表達水平Fuzzy集中隸屬度為0時的表達水平,同時也是每個樣本的隸屬度為0時的表達水平。利用公式(4.1)、(4.2)求得X,編程實現(xiàn)與具體數(shù)據(jù)見附錄

42、8.11。j然后再確定出每個樣本,在每個基因上的表達水平的隸屬性為1的范圍,應(yīng)用公式(4.3)、(4.4),計算機編程,最后求得范圍矩陣T。同樣具體數(shù)據(jù)與程序見附錄8.12。這樣就將每一個健康人樣本在每個基因上表達水平的Fuzzy集求解出來了。由于數(shù)據(jù)過大,在這里我們不一一將數(shù)據(jù)列出。為方便研究,這里將21號樣本在57號基因上表達水平的Fuzzy集畫出,如圖5所示,其他樣本的Fuzzy集見附錄8.13。從圖5中可以看出就21樣本來說,其在57號基因上的表達水平也是一個模糊集,只有當(dāng)其表達水平的隸屬度為1時,才是合理的。雖然實際中并不存在這樣的模糊集,但我們也只是通過這樣的假設(shè),來求解整個基因的

43、Fuzzy集。根據(jù)公式(4.5),編程實現(xiàn)所有樣本對同一基因的綜合評判,其也是一模糊集,即得乙Z中列出了114個基因的Fuzzy集,由于數(shù)據(jù)過于龐大,現(xiàn)沒有列出,感興趣研究的話可以自行運行本論文中的程序,即可得到結(jié)果。那么根據(jù)Z,我們就可以一一將全部基因的表達水平的Fuzzy集畫出,通過對Fuzzy集的研究,我們就可以做出更為準(zhǔn)確的判斷。圖6為57號基因的Fuzzy集。圖6同時在圖6中將2號樣本在57號基因上的表達水平的隸屬性已標(biāo)出??梢苑浅G宄目闯觯藭r的隸屬性幾乎為0也就是說明此2號樣本此基因的表達水平是不正常的。這也就有理由判斷其為癌癥患者了。綜上四個模型,我們逐一深入研究,從首先的F

44、uzzy聚類分類,直觀的表現(xiàn)基因的表達水平正常范圍,再到使用概率的方法分析,最后再到Fuzzy集的概念來說明問題,每一個模型都有其優(yōu)點,誠然也有其不足之處。不過我們所要做的就是用此四個模型綜合來應(yīng)用,不僅做到對癌癥和健康人之間的分類與區(qū)別,同樣對待測樣本進行癌癥的診斷。5.2問題二5.2.1問題分析前面問題一已經(jīng)得到解決,為了能夠更加明確的說明問題,我們建立了四個模型。從模型中我們也很容易的看出,模型也適合于模糊識別。這就為第二問中設(shè)計可視化模型創(chuàng)造了契機。問題二便是模糊識別問題,我們需要做的不僅是能夠看出待檢測樣本的健康與否,還應(yīng)對其可能患病的情況做出判斷,這在疾病診斷中是非常有必要的。至于

45、所建立的圖示,就要能夠從圖中可以讀出這些方面的信息。在解決問題一中,最后我們采取了綜合應(yīng)用四個模型,利用Fuzzy集的方法來進行分析,這樣的Fuzzy集同樣可以作為診斷之用。5.2.2模型建立5.2.2.1模型五模型五實際是對前面幾個模型的一種綜合,我們利用前面幾個模型所提供確定的參數(shù),對待測樣本分類,得出數(shù)據(jù)并作圖輔助分析,再與樣本信息做比較。最后通過樣本在fuzzy集上的情況做出更為深入的判斷?,F(xiàn)就具體問題,闡述模型五的具體算法步驟。首先,根據(jù)模型一確定a,再建立2160號樣本的相關(guān)系數(shù)矩陣,在相似水平a下的分類情況,以及將健康人完全歸為一類情況下的分類情況,這樣可以對待檢測樣本進行總體的

46、分類??勺鳛橹笄蠼饨Y(jié)果的對比參考數(shù)據(jù)。然后,將剩余樣本基因的表達水平,直接根據(jù)模型四,算出各樣本的平均隸屬水平,所謂平均隸屬性是指該樣本所有基因表達水平的隸屬性的平均值,而平均隸屬性正是我們最終需要的數(shù)據(jù)。正常人樣本的隸屬水平是分布在一定的范圍的,同樣癌癥患者的隸屬水平也是在一定的水平的。根據(jù)這樣的結(jié)論,我們就可以對樣本進行判斷了。最后,應(yīng)用模型二,做出經(jīng)我們判斷得出的癌癥樣本的基因表達水平在圖表上的直觀表示。因此我們可以進一步判斷引起癌癥的基因。5.2.4模型求解根據(jù)以上模型五的算法步驟,利用模型一的Fuzzy聚類分析方法對21一60號樣本的分類結(jié)果為:第一類212223242526272

47、8293031323435363739414245505357第二類23465152585960第三類38435456第四類4044474849第五類55此時的a=0.8665,從分類結(jié)果不難看出,414245505357是正常者。至于其他類我們還不能進行判斷?,F(xiàn)在我們再用模型四進行求解,模型四已經(jīng)將每個基因的表達水平的Fuzzy集Z求出,我們利用此Fuzzy集,將所有樣本的平均隸屬性求出來,編程計算得結(jié)果:癌癥樣本隸屬水平正常樣本隸屬水平待測樣本隸屬水平10.84595143210.896663305410.79865117720.789429106220.877037351420.8827

48、000530.816922387230.884193179430.81863444340.823074575240.903300804440.82017929850.64136324250.894129939450.87577027260.718971764260.914851652460.81677747570.85028539270.931354995470.82684593980.852503136280.785316819480.82797036490.796481515290.889235749490.849213974100.712823785300.87296535500.783

49、9530371202012020110.821382807310.886132378510.766760645120.663744113320.910648133520.84194588130.841123163330.828892544530.847635182140.824395567340.897926071540.675841439150.719660476350.858036927550.79609263160.706252631360.836527244560.631305619170.808225371370.862412711570.879292265180.748472033

50、380.84866248580.753513714190.825220569390.885296355590.77756237200.805348896400.857925251600.812045044從表6中我們能夠看出,正常人的平均隸屬水平一般都在0.8以上,而癌癥患者的隸屬水平是通常低于這個值的。因此通過表6的數(shù)據(jù),對待檢測樣本的隸屬水平,我們可以得出這樣的結(jié)論:樣本隸屬水平在0.8以下者,判斷其為癌癥患者,而介于0.8與癌癥樣本中隸屬水平的最大值0.85之間的樣本,我們定義為癌癥子類,0.85之上的為正常人。根據(jù)以上的結(jié)論,我們得出我們最終求解的結(jié)果:在癌癥樣本中:1,3,4,7,8

51、,11,13,14,17,19,20號樣本為癌癥子類。在待檢測樣本中:_|600耳?;蚍植?060基因序列異?;虿挥嬚`差偏離表達0040鬼朝故疇BM10200III-200juOo00o1表達偏離量卩11nLi口r406080100基因序列異?;蚩紤]誤差偏離表達In200jooo00o4060基因序列8010012020分類人員編號正常人42,45,57癌癥患者41,50,51,54,55,56,5&59癌癥子類43,44,46,47,4&49,52,53,60表7最后還可以將選擇出的癌癥樣本基因的表達水平利用模型二作圖,就可直觀的看出與正?;虮磉_水平的區(qū)別。比如56號樣本,如圖7所示

52、:從圖7中可以看出異常表達的基因非常多,這也就說明了其平均隸屬水平最低的原因。完全可以判斷其為癌癥患者。從圖中我們還可以做出推測,致使56號患病的原因出在54,56,62,85,87,94,101,102號基因的異常表達的可能性最大。我們可以看出,模型的綜合應(yīng)用使得問題的研究更為深入,最后得出的結(jié)論也具有更為可靠的依據(jù)。本論文建立模型并不是孤立無聯(lián)系的,雖看起來是屬于不同的模型,但是他們之間都能夠通過相互補充不足來使問題解決的更為完美。六、模型評價與推廣6.1模型優(yōu)點本論文模型,首先克服了單一模型的求解不足,利用多個模型聯(lián)合進行求解和判斷,即增加了求解結(jié)果的準(zhǔn)確性也增強了求解結(jié)果的說服力。其次

53、本論文中所建立的模型之間存在很大的關(guān)聯(lián)性,并不是毫無關(guān)系的獨立模型,這就為求解中的綜合應(yīng)用提供了便利,同樣,這樣的模型的好處更是體現(xiàn)在問題二的求解中,通過多個模型的綜合應(yīng)用,不僅更加形象對結(jié)果進行解釋,同樣使判斷過程更加便捷。本論文模型最大的優(yōu)點在于將問題研究的深度增加至單個樣本單個基因的層次上,這就為解決問題的精確程度提高了幾個數(shù)量級,使得無論在樣本分類還是在區(qū)別樣本不同,以及在診斷中都達到了較高的水平。6.2模型缺點由于此模型是在分析基因表達水平的基礎(chǔ)上建立的,又是針對一個樣本一種基因的較深入的研究和建模,因此此模型受樣本選擇和基因表達水平精確程度的影響較大。同時,此模型適合較大的樣本,由

54、于樣本過小,對數(shù)據(jù)要求較高的此模型,最后求得的結(jié)果是存在較大誤差的。但是,這些缺點都可以通過提高基因表達水平精確度和增加樣本數(shù)量上得到較好的解決。6.3模型的現(xiàn)實性意義此模型得到的結(jié)果經(jīng)過給出樣本的檢驗,可以看出-其判別標(biāo)準(zhǔn)誤差非常小,可以運用于基因與癌癥關(guān)聯(lián)的診斷中。通過編程不僅可以對大量的待檢測樣本進行分析,而且實現(xiàn)了可視化,更清晰明了,具有人性化特點。如果運用于診斷軟件的開發(fā)算法中,將帶來客觀的經(jīng)濟效益。七、參考文獻【1】趙靜,但琦,數(shù)學(xué)建模預(yù)實驗(第2版)M,北京:高等教育出版社,2004【2】彭祖贈,孫韞玉,模糊(Fuzzy)數(shù)學(xué)及其應(yīng)用M,全國優(yōu)秀出版社,武漢大學(xué)出版社,2003,

55、P131-142,P230-307?!?】盛驟,謝式干,潘承毅,概率論與數(shù)理統(tǒng)計(第四版)M,北京:高等教育出版社,200&P149-168?!?】陳理榮,數(shù)學(xué)建模導(dǎo)論M,北京:北京郵電大學(xué)出版社,1999?!?】王冬琳,數(shù)學(xué)建模及實驗M,國防工業(yè)出版社,2004,P82-91【6】費培之,程中瑗,數(shù)學(xué)建模實用教程M,四川大學(xué)出版社,2003,P167-203。【7】樓順天,陳生潭,雷虎民,MATLAB5.X程序設(shè)計語言M,西安電子科技大學(xué)出版社,2000?!?】樓順天,胡昌華,張偉,基于MATLAB的系統(tǒng)分析與設(shè)計-模糊系統(tǒng)M,西安電子科技大學(xué)出版社,2003。八、附錄8.11-60號樣本基

56、因表達信息及matlab編程實現(xiàn)癌癥病人基因樣本20406080基因序列正常人基因樣本100120ju40III-200III-50020406080基因序列待檢測基因樣本100120ju40III-200III-500204060基因序列80100120ju40III-200III-500算法代碼:a=load(Adata.txt);t=1:114;subplot(3,1,1)fori=1:20b=a(i,:);plot(t,br.-)holdonendgridxlabel(基因序歹U)ylabel(基因表達水平)title(癌癥病人基因樣本)subplot(3,1,2)fori=21:40

57、b=a(i,:);plot(t,bg.-)holdonendgridxlabel(基因序歹U)ylabel(基因表達水平)title(正常人基因樣本)subplot(3,1,3)fori=41:60b=a(i,:);plot(t,bb.-)holdonendgridxlabel(基因序歹U)ylabel(基因表達水平)title(待檢測基因樣本)8.2相似系數(shù)編程實現(xiàn)8.2.1指數(shù)相似系數(shù)函數(shù)functionR=zhishuxs(a)n,m=size(a);liefc=var(a,1);fori=1:nforj=1:nfork=1:mb(k)=exp(-3/4*(a(i,k)-a(j,k)八2

58、/liefc(k);endR(i,j)=sum(b)/m;endend8.2.2相關(guān)系數(shù)函數(shù)functionR=xiangguanxs(a)n,m=size(a);hangpj=sum(a,2)/m;fori=1:nforj=1:nfork=1:mb_1(k)=(a(i,k)-hangpj(i)*(a(j,k)-hangpj(j);b_2(k)=(a(i,k)-hangpj(i)八2;b_3(k)=(a(j,k)-hangpj(j)八2;endR(i,j)=abs(sum(b_1)/sqrt(sum(b_2)*sum(b_3);endend8.3相似系數(shù)陣的乘幕函數(shù)編程functionR=xi

59、angsizm(a,x)%x為幕的次數(shù)n,m=size(a);A=a;s=0;whilesb(k)&a(i,j)=b(k)A(i,j)=1;elseA(i,j)=0;endendends=sum(A);pint=0;fori=1:nifs(i)=chpint=1;endendifpint=1break;break;endendl=0;d=;fori=1:nifisempty(find(d=i)p=1;d(l+1,p)=i;forj=i+1:nifisempty(find(d=j)fork=1:mifA(i,k)=A(j,k)break;endendifk=md(l+1,p+1)=j;p=p+1

60、;endendendl=l+1;endendR=A;bd8.5求解基因表達水平范圍程序代碼a=load(Adata.txt);hl=HL(a);functionhl=HL(a)fori=1:114h(i)=a(21,i);l(i)=a(21,i);forj=21:40ifa(j,i)=h(i)h(i)=a(j,i);endifa(j,i)h(i)plot(t(i),a(m,i)r*)b(i)=a(m,i)-h(i);elseifa(m,i)l(i)plot(t(i),a(m,ir*)b(i)=a(m,i)-l(i);b(i)=O;endendendbz=b;%匕為不考慮誤差時,基因的偏離量。b

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論