(整理)乳腺癌數(shù)據(jù)處理._第1頁
(整理)乳腺癌數(shù)據(jù)處理._第2頁
(整理)乳腺癌數(shù)據(jù)處理._第3頁
(整理)乳腺癌數(shù)據(jù)處理._第4頁
(整理)乳腺癌數(shù)據(jù)處理._第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、乳腺癌的數(shù)據(jù)處理摘要本文解決的是乳腺月中瘤的“良“惡性判別問題.現(xiàn)在是通過乳腺月中瘤的9項指標(biāo)來判定乳腺月中瘤患者是否患有乳腺癌,我們通過運(yùn)用Logistic回歸分析 判定模型和費(fèi)歇爾Fisher判別模型,對9項指標(biāo)進(jìn)行綜合判定、分析,最終 制定了一個科學(xué)的乳腺月中瘤的判別方法,以便人們能及早發(fā)現(xiàn)并且治療.對于問題一:我們建立了兩種模型一一Logistic回歸分析判定模型和費(fèi)歇爾 Fisher判別模型.對于 Logistic回歸模型,我們對數(shù)據(jù)進(jìn)行分析并運(yùn)用 MATLAB軟件求出回歸系數(shù),再由 Logistic回歸方程求出概率p,進(jìn)而與概率 值0.5進(jìn)行判斷,小于0.5那么為良性,反之,那么為

2、惡性,最終得出正確率為85%的判定方法.對于費(fèi)歇爾Fisher判別模型,我們借助方差分析的思想構(gòu)造判 定函數(shù),通過樣本SPSS軟件對數(shù)據(jù)進(jìn)行分析得出判定系數(shù) ci,接著求出臨界值 y.,最終把要檢驗的樣本數(shù)據(jù)代入判定函數(shù)求出y值,將y值與臨界值y.進(jìn)行比較,從而確定月中瘤性質(zhì),最終得出正確率為95%的判別方法.對于問題二:由第一問彳4出模型二費(fèi)歇爾Fisher判別模型正確率更高, 所以可以根據(jù)費(fèi)歇爾Fisher判別方法來判斷所給組是良性還是惡性,先將各 組數(shù)據(jù)直接代入模型二中求出的判定公式中,求得各組相應(yīng)的y值,通過與y.進(jìn)行比擬,來判斷月中瘤患者是為良性還是惡性.最終判定結(jié)果如下表:編P12

3、345678910檢測結(jié)果:1011010101編P11121314151617181920檢測結(jié)果0100100000注:檢測結(jié)果“ 1代表月中瘤為惡性,“0代表月中瘤為良性對于問題三:為區(qū)分月中瘤是良性還是惡性的主要指標(biāo),我們根據(jù)Fisher模型, 求出系數(shù)c和良性、惡性腫瘤中各項指標(biāo)的均值 下、X兩,最終求出指標(biāo)剔除判i、定數(shù)組c.*色一匚,剔除當(dāng)中絕對值最小的一個,依次類推,得到剔除的先后2SPSS順序,并求出相應(yīng)的檢驗準(zhǔn)確率,選擇高準(zhǔn)確率情況下指標(biāo)剔除較多的一組, 最 終得出區(qū)分月中瘤是良性還是惡性的主要指標(biāo)為: 乳腺月中瘤月中塊的厚度、單層上皮 細(xì)胞的大小、裸核、正常的核仁.關(guān)鍵詞

4、:logistic判別法費(fèi)歇爾判別法BP神經(jīng)網(wǎng)絡(luò)一、問題重述問題背景:如今,癌癥越來越多,發(fā)病率越來越高,不斷威脅著人們的生命平安,其中 乳腺癌就是其中一種嚴(yán)重威脅女性生命的癌癥之一, 全世界每年約有120萬婦女 患乳腺癌,50萬人死于乳腺癌,乳腺癌已經(jīng)成為全球女性發(fā)病率最高的惡性月中 瘤.下面是某醫(yī)院乳腺月中瘤患者的一組數(shù)據(jù)具體數(shù)據(jù)見附錄,其中前面9個 指標(biāo)分別表示乳腺月中瘤月中塊的厚度、細(xì)胞大小的均勻性、細(xì)胞形狀的均勻性、邊緣的粘連、單層上皮細(xì)胞的大小、裸核、溫和的染色質(zhì)、正常的核仁、有絲分 裂,尾數(shù)0表示確診為“良性,1表示確診為“惡性,數(shù)據(jù)已經(jīng)歸一化為0到 10之間的自然數(shù).所要解決的

5、問題如下:問題一、通過以上數(shù)據(jù),建立一種或多種判別方法,用來判斷乳腺月中瘤是屬于“良性還是“惡性,并檢驗這些方法的正確性.問題二、現(xiàn)有一組乳腺月中瘤患者的九個指標(biāo)數(shù)據(jù)如下, 根據(jù)問題一中提出的方法 分別判別屬于“良性還是“惡性10, 4,7,2,2,8,6,1,15,2,2,2,2,1,2,2,18,6,7,3,3,10,3,4,26,5,5,8,4,10,3,4,11,1,1,1,1,1,2,1,110,3,3,1,2,10,7,6,12,1,1,1,2,1,1,1,17,6,4,8,10,10,9,5,31,1,1,1,1,1,1,3,14,2,3,5,3,8,7,6,15,1,1,1,2

6、,1,3,1,2,5,4,6,6,4,10,4,3,11,1,1,1,2,1,1,1,11,1,1,1,2,1,3,1,18,5,5,5,2,10,4,3,11,1,1,1,2,1,3,1,11,1,1,1,2,1,1,1,11,1,1,1,2,1,1,1,13,4,4,10,5,1,3,3,15,1,1,3,2,1,1,1,1問題三、試確定區(qū)分乳腺月中瘤是“良性還是“惡性的主要指標(biāo),并采用主要 指標(biāo)建立區(qū)分“良性和“惡性乳腺月中瘤的模型,以便用于乳腺月中瘤的輔助診斷時可以減少化驗的指標(biāo).二、模型假設(shè)假設(shè)1:各種指標(biāo)對月中瘤的影響是相對獨(dú)立的.假設(shè)2: 9個指標(biāo)中的數(shù)據(jù)都是0-10之間的自然數(shù)

7、.假設(shè)3:月中瘤只有良性和惡性兩種情況.假設(shè)4:每組數(shù)據(jù)獨(dú)立作用互不影響.假設(shè)5:數(shù)據(jù)缺失組對判定無影響.假設(shè)6:除了 9中指標(biāo)的影響外,不考慮其他因素的影響三、符號說明符號符號說明p經(jīng)logistic轉(zhuǎn)換后月中瘤為惡性的判定概率q月中瘤為惡性的概率久回歸系數(shù)(k =1,2,3.9 )Xk患者體內(nèi)第k種指標(biāo)的大小ci判定系數(shù)(i =1,2,3.9 )Gi良性患者的總體G2惡性患者的總體T1)V第i組良性的判定函數(shù)一V第i組惡性的判定函數(shù)y.Fisher判定臨界值四、問題分析本文研究的是乳腺癌是良性還是惡性的判定方法以及影響乳腺月中瘤是良性 還是惡性的主要因素的問題.通過題中乳腺月中瘤月中塊的厚

8、度、細(xì)胞大小的均勻性、 細(xì)胞形狀的均勻性、邊緣的粘連、單層上皮細(xì)胞的大小、裸核、溫和的染色質(zhì)、 正常的核仁、有絲分裂這9個指標(biāo)的數(shù)據(jù)分析,來判斷是良性還是惡性.針對問題一:為了更好的判定乳腺癌是良性還是惡性,我們建立了兩種模 型一一Logistic回歸分析判定模型和費(fèi)歇爾Fisher判別模型.我們先運(yùn)用 Logistic回歸分析方法對數(shù)據(jù)進(jìn)行分析并求出回歸系數(shù),再由Logistic回歸方程求 出概率p,進(jìn)而與概率值0.5進(jìn)行判斷,小于0.5那么為良性,反之,那么為惡性.接著, 我們運(yùn)用費(fèi)歇爾Fisher-判別模型,借助方差分析的思想構(gòu)造判定函數(shù):y =GXi +C2X2+CnXn+CnXn ,

9、然后代入樣本數(shù)據(jù)對其進(jìn)行求解得出判定系數(shù)G,接著求出臨界值y.,最終把要檢驗的樣本數(shù)據(jù)代入判定函數(shù)求出 y值,將y值與臨界值y.進(jìn)行比擬,從而確定月中瘤性質(zhì).針對問題二:由于模型二費(fèi)歇爾Fisher-判別模型正確率更高,所以可以 根據(jù)問題一中模型二費(fèi)歇爾Fisher-判別模型來判斷所給組是良性還是惡性, 先將各組數(shù)據(jù)直接代入模型二中求出的判定公式中,求得各組相應(yīng)的y值,通過與y.進(jìn)行比擬,來判斷月中瘤患者是為良性還是惡性.針對問題三:要區(qū)分月中瘤是良性還是惡性的主要指標(biāo),可以先弄清楚哪些指標(biāo)可以剔除,剔除的先后順序,因此我們可以根據(jù)Fisher模型,求出系數(shù)c和良聲5性、惡性月中瘤中各項指標(biāo)的

10、均值X1、X2,再求出c.*e J ,進(jìn)而剔除出當(dāng)2中絕對值最小的一個,依次類推,得到剔除的先后順序,并求出相應(yīng)的檢驗準(zhǔn)確 率,從而得到區(qū)分月中瘤是良性還是惡性的主要指標(biāo).五、模型的建立問題一1 .模型一的建立1.1 Logistic回歸分析判定模型的建立1.1.1 確定目標(biāo)函數(shù)在分析乳腺月中瘤患者體內(nèi)乳腺月中瘤月中塊的厚度、細(xì)胞大小的均勻性、細(xì)胞形 狀的均勻性、邊緣的粘連、單層上皮細(xì)胞的大小、裸核、溫和的染色質(zhì)、正常的 核仁、有絲分裂9個指標(biāo)的根底上,將其月中瘤分為良性和惡性兩種情況. 對任一 患者定義隨機(jī)變量 丫.假設(shè)該患者月中瘤為良性,那么 丫=0;否那么,丫 = 1.并以q = PY

11、= 1表示該患者月中瘤屬惡性的概率.設(shè)Xkk = 1,2,3.9為患者體內(nèi)第k種指標(biāo)的大小,那么可將q看做自變量Xk的線性函數(shù):(1)q =PY = 1=P° + PX 在P 為 2tPkXk引入p的Logistic變換得:q =lnd"1 - p可得Logistic回歸方程為:eqe XX22依p =T TTTXxS'X在知道乳腺月中瘤月中塊的厚度等9個指標(biāo)的大小之后,只要根據(jù)Logistic回歸分析 模型計算出其良性的概率,再與概率值0.5進(jìn)行判斷,以確定患者腫瘤是否良性.假設(shè)p<0.5,那么表示該患者月中瘤為良性;反之,那么為惡性.1.1.2 確定約束條

12、件i .由于q =PY=1表示該患者月中瘤屬惡性的概率,所以有:q =PY =1 (0,1)ii .由于p也是表示的概率,所以有:0 : p :二 11.1.3綜上所述,得到問題一的最優(yōu)化模型:q =PY =1=瓦 + P X 在P X .2+0kXkq =ln(-p-)1 -pIV 搟雜 X2.MXkeep =777 =而鄧叱7q = PY =1 (0,1)s.t0 : p 11.2 Logistic回歸分析判定模型的求解采用某醫(yī)院檢測的42組良性月中瘤患者和38組惡性月中瘤患者(見下表),選 取樣本60人(良性患者130號,惡性患者130號),將樣本60人的9個指標(biāo)直接輸入matlab軟件

13、,應(yīng)用regress函數(shù)求出回歸系數(shù)P0,P1,P2.P9 ,如表三所示.表一:良性患者指標(biāo)編號第1項 指標(biāo)第2項 指標(biāo)第3項 指標(biāo)第4項 指標(biāo)第5項 指標(biāo)第6項 指標(biāo)第7項 指標(biāo)第8項 指標(biāo)第9項 指標(biāo)腫瘤性 質(zhì)15111210 31102311122 31103411321110401141212110413111230110422221117110表二:惡性患者指標(biāo)編號第1項 指標(biāo)第2項 指標(biāo)第3項 指標(biāo)第4項 指標(biāo)第5項 指標(biāo)第6項 指標(biāo)第7項 指標(biāo)第8項 指標(biāo)第9項 指標(biāo)腫瘤性 質(zhì)15333234411287510795匚4.1310776410412:136910101108311

14、37838349898;1381064134023i1表三:各元素回歸系數(shù)指標(biāo)常數(shù)第1項第2項第3項第4項第5項第6項第7項第8項第9項系數(shù)-42.370.036-0.0230.0550.0300.0110.009-0.0340.0490.038將上表中的回歸系數(shù)代入Logistic回歸方程2得:.-(-42.37 0.036X1-0.023X2 0.055X3 -0.030X4 :0.011X5 0.009X6 -0.034X7 -0.049X8 0.038X9)1 e將剩余樣本代入上式檢驗,同時與概率值 0.5比擬,結(jié)果如表四、表五所示:表四:良性患者驗證編R313233343536P-1

15、95.33 X 105.34 X 10-195.24 X 10-19?-195.28X10-194.62X10良性VVVVV編R373839404142P-194.97 X 10-181.07 X 10-194.50X 10-195.46 X 10-194.88X10-194.13X10良性VVVVVV注:表中表示數(shù)據(jù)出現(xiàn)缺失,無法進(jìn)行判斷表五:惡性患者驗證編P3132333435363738P10.998?-181.07 X 100.9878111惡性VVXVVVV注:表中表示數(shù)據(jù)出現(xiàn)缺失,無法進(jìn)行判斷1.3 Logistic回歸分析判定模型的結(jié)果分析通過對表四與表五的觀察發(fā)現(xiàn):在對表四中良

16、性患者的驗證中,包括未判斷 的數(shù)據(jù)缺失者,正確率高達(dá) 91.67%;在對表五中惡性患者的驗證中,包括未判 斷的數(shù)據(jù)缺失者,正確率達(dá)75%所以,在整體驗證中,包括未判斷的數(shù)據(jù)缺失 者,正確率達(dá)85%由此說明,本文中的Logistic回歸分析判定模型是可行的.2 .模型二的建立2.1 費(fèi)歇爾Fisheir判別模型的建立2.1.1 確定目標(biāo)函數(shù)費(fèi)歇爾Fisher判別法的思想:利用選取的30組“良性指標(biāo)數(shù)據(jù)與30 組“惡性指標(biāo)數(shù)據(jù),借助方差分析的思想構(gòu)造判定函數(shù):y =GXi +. +.+品.+20=93其中,系數(shù)C1,C2,C9確定的原那么是使兩組間的區(qū)別最大,而使每個組內(nèi) 部的離差最小 將屬于不同

17、總體的樣本代入判別函數(shù)得:yi1 =GXi C2X2 |H C9X9,i =1,|l|,30yi=cXi C2X2 ' |H C9X9,i =1,|H,302.1.2 費(fèi)歇爾Fisher判別模型的求解根據(jù)判定函數(shù),代入剩下的20組指標(biāo)數(shù)據(jù),將求得的y值與判定臨界值進(jìn) 行比擬,從而判定乳腺月中瘤是良性還是惡性.我們運(yùn)用SPSS軟件:進(jìn)彳T Fisher判定求得判別式函數(shù)系數(shù)以及樣本數(shù)據(jù)各 項指標(biāo)的均值:表六:Fisher判別式函數(shù)系數(shù)指標(biāo)第1指標(biāo)第2指標(biāo)第3指標(biāo)第4指標(biāo)第5指標(biāo)第6指標(biāo)第7指標(biāo)第8指標(biāo)第9指標(biāo)系數(shù)0.527-0.4830.5830.2300.1970.2430.1000.

18、4700.419所以將上述系數(shù)代入Fisher判別式得:y =0.527*x1-0.483*x2+0.583*x3+0.230* x4 0.197*x5+0.243*x6+0.100* x7 0.470* x8 0.419*x9表七:為惡性、良性腫瘤中各項指標(biāo)均值指標(biāo)一二三四r五六七八九惡性7.33 5.575.534.53:5.435.635.105.202.47 J良性2.801.501.401.272.101.872.671.301.17通過對乳腺月中瘤患者中良性與惡性的各項指標(biāo)的平均值進(jìn)行統(tǒng)計計算見上表,求得良性月中瘤的“重心 yd和惡性月中瘤的“重心 y2,利用SPSS軟 件對數(shù)據(jù)進(jìn)

19、行處理后得: 一 一,、9第一組樣品的“重心八c-x= 4.0 9 2 5k ±第二組樣品的“重心一(2 )9y 八2=11.8713k工為建立判定準(zhǔn)那么,確定判定臨界值 Y.,我們?nèi).為yC與y囪加權(quán)平均值:(1)(2)n1yn2 ynn2通過計算得:y0 =7.9819將檢測者的各項指標(biāo)的值X =X1,X9,代入3式中,求得y的值.1當(dāng) y C > y2時,假設(shè) y a y.,那么判定 x w G2;假設(shè) y < y.,那么判定 x w G1.2當(dāng)yM< y?時,假設(shè)y>y0,那么判定x w G1;假設(shè)y < y.,那么判定x w G2.根據(jù)Fis

20、her模型的判定函數(shù),代入剩下的20組指標(biāo)數(shù)據(jù),將求得的y值與 判定臨界值進(jìn)行比擬,從而判定乳腺月中瘤是良性還是惡性.通過對Fisher判定模型的計算,得到結(jié)果如下:表Fisher判定模型結(jié)果顯示良性患者的判定樣本號313233343536y值4.6913.6494.22(11.89,14.08)4.7242.583檢測正確YYYNYY樣本號373839404142y值4.2645.8573.9834.3324.2233.513檢測正確YYYYYY注:表中“ Y表示檢測正確,“N表示檢測錯誤.惡性患者的判定樣本號3132333435363738y值15.5212.26(8.35,10.54)8

21、.6512.0912.0219.488.99檢測正確YYYYYYYY注:表中y值為區(qū)間的組為數(shù)據(jù)缺失組,其缺失項分別用0到10來代替,以求出y值范圍,將范圍內(nèi)的極值與y°比擬,最終求得結(jié)果.2.1.3 結(jié)果分析通過對上述兩表的觀察知:在良性患者的驗證中,包括數(shù)據(jù)缺失者,正確率 高達(dá)91.67%;在惡性患者的驗證中,包才S數(shù)據(jù)缺失者,正確率達(dá)100%.所以,在整體驗證中,包括數(shù)據(jù)缺失者,正確率達(dá) 95%o由此說明,本文中的費(fèi)歇爾 Fisher判別模型是可行的.通過對模型一和模型二最終結(jié)果的正確率進(jìn)行比擬知:模型二的正確率較 高,故應(yīng)選取模型二來進(jìn)行問題二和問題三的解答.問題二經(jīng)過比擬分

22、析知模型二的正確率較高,故此處用模型二進(jìn)行解答.由模型二知判定函數(shù)為:y =0.527*x1-0.483*x2+0.583*x3+0.230* x4 0.197*x5+0.243*x6+0.100* x7 0.470* x8 0.419*x9那么根據(jù)所給數(shù)據(jù)可求得各組數(shù)據(jù)相對應(yīng)的y值,再與臨界值y° = 7.9819進(jìn)行比較:假設(shè)y a y0 ,那么判定xwg1;假設(shè)y < y°,那么判定xG?故通過Matlab軟件可得出對20組患者檢測結(jié)果如下表:編P12345678910檢測結(jié)果1011010101編R11121314151617181920檢測結(jié)果0100100

23、000注:檢測結(jié)果中“ 1表示惡性,“0表示良性由上表知:第1、3、4、6、8、10、12、15組為惡性月中瘤患者,其他的為良性患問題三3 .由Fisher模型知:c =0.527;-0.483;0.583;0.230;0.197;0.243;0.100;0.470;0.419良性、惡性月中瘤中各項指標(biāo)的均值分別為:x1=2.80;1.50;1.40;1.27;2.10;187;2.67;130;1.17x=7.33;5.57;5.53;4.53;5.43;5.63;5.10;5.20;2.47由Matlab軟件處理得:十子c.*- = 2.6693 -1.7074 2.0201 0.6670

24、 0.7417 0.9113 0.3885 1.5275 0.7626.*是matlab中的符號,是對應(yīng)項相乘,結(jié)果仍然為向量,比擬各項的大小,剔除絕對值最小的項由于該項數(shù)據(jù)對總的結(jié)果的平均影響最小,由數(shù)據(jù)可知首先應(yīng)該剔除倒數(shù)第三項,即第七項指標(biāo)所對應(yīng)的所有數(shù)據(jù),再根據(jù)問題一 的求解方法求解得:c =0.519 -0.458 0.606 0.243 0.202 0.233 0.494 0.427良性、惡性月中瘤中各項指標(biāo)的均值分別為:x1 =2.80;1.50;140;1.27;2.10;187;1.30;1.17x=7.33;5.57;5.53;4.53;5.43;5.63;5.20;2.4

25、7同理:由Matlab軟件處理得:c.*(X("X(2)= (2.6287 -1.6190 2.0998 0.7047 0.7605 0.8738 1.6055 0.7771)故應(yīng)該剔除第四項指標(biāo).在此我將逐次減少化驗的指標(biāo)(方法同上),并將其求解結(jié)果列表如下:剔除指標(biāo)判別式y(tǒng)=臨界值準(zhǔn)確率對原檢驗樣 本20人的 判斷結(jié)果第七指標(biāo)0.519*x1-0.458*x2+0.606*x3+0.243*x4+0.202*x5+0.233*x6+0.494*x8+0.427*x97.7895%9人惡性11人良性第四指標(biāo)0.556*x1-0.369*x2+0.497*x3+0.281*x5+0.

26、330*x6+0.480*x8+0.408*x97.8395%9人惡性11人良性第九指標(biāo)0.646*x1-0.108*x2+0.188*x3+0.377*x5+0.325*x6+0.395*x87.4695%9人惡性11人良性第二指標(biāo)0.639*x1+0.115*x3+0.351*x5+0.328*x6+0.382*x87.4395%9人惡性11人良性第三指標(biāo)0.682*x1+0.372*x5+0.348*x6+0.412*x87.5095%9人惡性11人良性第六指標(biāo)0.667*x1+0.447*x5+0.491*x86.6690%10人惡性10人良性第八指標(biāo)0.807*x1+0.603*x5

27、6.3690%11人惡性9人良性由表中結(jié)果可知:剔除第三項指標(biāo)之后,檢驗準(zhǔn)確率仍然在 95%,而剔除第 六項指標(biāo)后,檢驗準(zhǔn)確率降為90%,所以剔除的前四項均為次要指標(biāo),從第六項 開始是主要指標(biāo),所以區(qū)分月中瘤是良性還是惡性的主要指標(biāo)是第一、五、六、八 指標(biāo),即是乳腺月中瘤月中塊的厚度、單層上皮細(xì)胞的大小、裸核、正常的核仁,故可由判斷式 y =0.667* x1+0.447* x5+0.491* x8來判斷.六、誤差分析本文主要有三方面的誤差,分別為題中模型的誤差、數(shù)據(jù)的誤差、算法的誤 差.1 .模型一的誤差:(1) logistic模型中樣本僅有60組數(shù)據(jù),這對于求解模型中的回歸系數(shù)而 言,數(shù)

28、據(jù)過少,可能會使回歸系數(shù)產(chǎn)生較大的誤差,從而影響最終的判定結(jié)果.(2) logistic模型檢驗時,是用所得概率值與 0.5進(jìn)行比擬,以判定月中瘤性質(zhì),此處的0.5有一定的不合理性,可能會在最終判定結(jié)果時造成一定的誤差.(3) logistic模型對數(shù)據(jù)缺失項不能進(jìn)行有效的判定,這就降低了其檢驗的 準(zhǔn)確率,在進(jìn)行這種判定時會產(chǎn)生一定的誤差.2 .模型二的誤差:(1)日sher模型是一系列判定變量的線性組合,它只適用于區(qū)分和判定線 性可分的總體.對于非線性判定模型有較大的誤差和局限性.(2)日sher模型要求有足夠多的樣本數(shù)據(jù)時,才能最大限度的保證其算法 精度,但是此題中只有六十組數(shù)據(jù),這對于求

29、解判定系數(shù)及臨界值時均會產(chǎn)生一 定的誤差.3 .數(shù)據(jù)的誤差:主要是數(shù)據(jù)的準(zhǔn)確性以及有幾組數(shù)據(jù)的缺失,數(shù)據(jù)的缺失使在某些模型中這些組無法進(jìn)行計算,而總體又保持不變,這就相應(yīng)的產(chǎn)生了一些誤差.4 .算法的誤差:本文雖然采用了兩個模型,但是兩個模型主要都是用來求解線性問題的,對于此題中指標(biāo)之間的交叉影響不能很好的處理,可能會對結(jié)果產(chǎn)生一定的誤七、模型的評價模型的優(yōu)點(diǎn):1 .模型的實用性和通用性強(qiáng)并且與實際生活緊密相關(guān),對醫(yī)生的判斷具有很大的指導(dǎo)意義.尤其在第三問中區(qū)分月中瘤是良性還是惡性的關(guān)鍵因素的方法比擬 簡單易行.2 .本文采用了兩種判別分析方法來檢查腫瘤是惡性還是良性,并得到了影響其的主要因素

30、,為合理的診斷提供了一個很好的解決方案.3 .求解的過程中采用Matlab、Excel、SPSS數(shù)學(xué)軟件編程求解,計算過程方 便快捷,且結(jié)果準(zhǔn)確.4 .由于建模過程中使用的六十組樣本數(shù)據(jù)與檢驗時所用的二十組數(shù)據(jù)不重復(fù),有效地防止了數(shù)據(jù)間的相互影響, 彼此獨(dú)立,因而檢驗結(jié)果具有很強(qiáng)的可靠 性.模型的缺點(diǎn):1 .在診斷過程中并沒有綜合考慮所有的因素共同的影響,這與現(xiàn)實生活不 符.如果綜合考慮,將會更具有實用價值.2 .本文中模型對就診者判斷的正確率沒有到達(dá)100%,存在誤差,這種誤差會導(dǎo)致誤判,而在現(xiàn)實中這是很危險的.3 .在第一問中的模型中只考慮某一種元素單獨(dú)對結(jié)果的影響,其間存在著交叉項.八、

31、模型的改良和推廣模型的改良:1.本文中所用的兩個模型對就診者判斷的正確率都沒有到達(dá)100%,方法都很傳統(tǒng),存在著誤差,我們可以采用 BP神經(jīng)網(wǎng)絡(luò)模型.其思想是:通過輸入學(xué) 習(xí)樣本,使用反向傳播算法對網(wǎng)絡(luò)的權(quán)值和偏差進(jìn)行反復(fù)的調(diào)整練習(xí),使 輸出的向量與期望向量盡可能地接近,當(dāng)網(wǎng)絡(luò)輸出層的誤差平方和小于指 定的誤差時練習(xí)完成,保存網(wǎng)絡(luò)的權(quán)值和偏差,從而使判斷的正確率提升. 其算法流程圖如下:初始化求目標(biāo)值與輸出值得誤差EE滿足要求:YEk全部E滿足 二一結(jié)束NO1計算隱層單元誤差LNO求誤差梯度權(quán)值學(xué)習(xí)圖一:學(xué)習(xí)算法框圖由于此題中有9項指標(biāo),故分析可得其指標(biāo)與各層之間的關(guān)系,作出具體 BP神經(jīng)網(wǎng)絡(luò)

32、示意圖如下所示:輸入層 隱層 輸出層圖二:BP神經(jīng)網(wǎng)絡(luò)示意圖綜上,可得BP神經(jīng)網(wǎng)絡(luò)模型大致步驟如下:1能量函數(shù)選取1 n平方型誤差函數(shù)為E=1L Yk-Yk22心2隱層數(shù)取1,隱層單元數(shù)取93傳輸函數(shù)選取logsig型函數(shù), 、1,.、f (Ui)=-u- = fQ ,ijXj - 4)1 ej通過matlab軟件應(yīng)用上述函數(shù),最終可對數(shù)據(jù)進(jìn)行判定檢驗.2.在診斷過程中這9個指標(biāo)的作用不是獨(dú)立的,應(yīng)該存在著相互的影響, 有交叉項,而模型只考慮了各自單獨(dú)作用,所以模型中應(yīng)該添加交叉項的影響, 即采用一次項和交叉項的回歸模型,具體的我們可以從模型總體中選取良性 1-30 號、惡性1-30號作為研究

33、樣本,故可設(shè)多元線性回歸模型的一般形式為:9999? = /+£ *Xi+£ *x2+£ £ 禺xXj+為 i 4i 4i 4 j=1建立相應(yīng)的模型,并將數(shù)據(jù)代入上式,用Matlab軟件求得各參數(shù)項的線性回歸系數(shù),得到多元回歸模型的表達(dá)式,再將良性中31-42號、惡性中31-38號代入模型中進(jìn)行檢驗,得到良性、惡性的相關(guān)情況.為此我們可以看出,我們所 運(yùn)用的判別函數(shù)與所檢驗的結(jié)果和實際情況存在著一定的誤差,也就是說運(yùn)用原來的Logistic 回歸分析判定模型一次線性模型存在一定的誤判,從而得到 誤判率.3.題中所給數(shù)據(jù)有幾個出現(xiàn)缺失,在我們模型建立與求解

34、的過程中都將數(shù) 據(jù)缺失局部不考慮,認(rèn)為無此項,而實際上卻存在著此項的影響, 觀察數(shù)據(jù)知缺 失項都為第六個指標(biāo),所以可以將第六個指標(biāo)項去掉,考慮剩下的其他指標(biāo)項.模型的推廣:在當(dāng)今經(jīng)濟(jì)科技社會,人們經(jīng)常對某一事物現(xiàn)象進(jìn)行觀察研究歸類, 并用于 適宜的地方,例如,醫(yī)院里醫(yī)生對腎炎;非典時期對非典;還有肺炎等疾病進(jìn)行 類似的模型應(yīng)用;經(jīng)濟(jì)領(lǐng)域里某產(chǎn)品輸入與輸出是暢銷還是停滯;在科學(xué)領(lǐng)域, 某植物或動物的分類判別以及科研人員或地質(zhì)學(xué)家對某地質(zhì)土壤的判別;考古學(xué)家對墓年代的判別等都用到了此類判別式分析法的模型,應(yīng)用十分的廣泛.九、參考文獻(xiàn)1宣明數(shù)學(xué)建模與數(shù)學(xué)實驗,浙江浙江大學(xué)出版社20212謝金星優(yōu)化建

35、模與LINDO/LINGO 軟件,北京清華大學(xué)出版社20053宋來忠數(shù)學(xué)建模與實驗,北京科學(xué)出版社20054朱道元數(shù)學(xué)建模案例精選,北京科學(xué)出版社20035彭祖贈數(shù)學(xué)模型與實驗方法,大連大連海事大學(xué)出版社19976劉愛玉SPSS®出教程,上海上海人民出版社2007附錄附表一:良性患者指標(biāo)編號第1項 指標(biāo)第2項 指標(biāo)第3項 指標(biāo)第4項 指標(biāo)第5項 指標(biāo)第6項 指標(biāo)第7項 指標(biāo)第8項 指標(biāo)第9項 指標(biāo)腫瘤性 質(zhì)151112131102311122口31103411321口31104111121031105211121115)06111111口31107411121211083111212

36、1109111121311010321111211011211121211012311111211013211221311014211121211015621111711016111121212:017111121211018111122211019111121口3r210201121224r210215312212110222111312110235445710口3r21024688134口371025212121口311026421121211027211121211028111123口311029411121口311030611121口31103151112121103211312111

37、103331212121103466696?7810354113213110361111212110374111213110385131212110391332217r210401141212110413111233110422221117110附表二:惡性患者指標(biāo)編號第1項 指標(biāo)第2項 指標(biāo)第3項 指標(biāo)第4項 指標(biāo)第5項 指標(biāo)第6項 指標(biāo)第7項 指標(biāo)第8項 指標(biāo)第9項 指標(biāo)腫瘤性 質(zhì)153332.3441128751079V匚41310776410412:1473210510V441525336775116104313.36匚2:1756561010 3111878724882:195334

38、240 34111055581087371111066345061112824151V44113955222V1111463415209111510421324.1(1165341810491117610281027810118945106104811198101087109711207464614.112110553677101122810101360 3911235234276112410773857i1251010108618911265449210V61127610102810733i128101010481810112937744948113095812.3215)131103623

39、54102:132105568871113384512?7311345231610V1113553553.3410113691010110800.1137838349898323L1問題二答案:編第1第2第3第4第5第6第7第8第9月中號項指標(biāo)項指標(biāo)項指標(biāo)項指標(biāo)項指標(biāo)項指標(biāo)項指標(biāo)項指標(biāo)項指標(biāo)瘤 性 質(zhì)110472286111252222P12P 211P 01386733103421465584P 103411511111P12P 111P 016103312107611721112r 11r 1 11:0 18764810r 10953p 1191111111310

40、10423531 871 61111511121312012546641043111311112口1r 1 11r 0 114111121311015855521043111611112r 13r 111r 0 11711112111101811112111101934410513310205113211110回歸分析判定:> x =511121313111223114113213111111210311211121115111111311411121211311121211111121311321111211211121211311111211211221311211121211621

41、111711111121212111121211111122211程序一Logistic1111111215 3126 1117 4458 8819 12110 21111 1111111411161115333875 1010776732 102533104315656787253345558106638 2419 55210 341104215 3416 10289 45 108 10 1087464105538 10 10152341077310 10 1085 4496 10 10210 10 10437749581y = 0;0;21321224212121131211710321343712131121211212112331121311213112344179554410412510544677513365210131148382243411087374536151544225115239132431081049110278106104817 1097161 4 3 1677101363912 7 3 6 185743618912105618107338181014 9 4 8 12 3 2 15;0;0;00;0 ;0 ;0 ;0 ;0 ;0 ;0 ;0 ;00;0 ;0 ;0 ;0 ;0 ;0 ;0 ;0 ;00;1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論