基于基因表達(dá)譜的腫瘤識(shí)別方法的研究_第1頁(yè)
基于基因表達(dá)譜的腫瘤識(shí)別方法的研究_第2頁(yè)
基于基因表達(dá)譜的腫瘤識(shí)別方法的研究_第3頁(yè)
基于基因表達(dá)譜的腫瘤識(shí)別方法的研究_第4頁(yè)
基于基因表達(dá)譜的腫瘤識(shí)別方法的研究_第5頁(yè)
已閱讀5頁(yè),還剩54頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、全國(guó)第七屆研究生數(shù)學(xué)建模競(jìng)賽題 目 基于基因表達(dá)譜的腫瘤識(shí)別方法的研究摘 要:本文基于基因表達(dá)譜討論了腫瘤識(shí)別方法的問(wèn)題。首先建立分類數(shù)學(xué)模型對(duì)樣本分類識(shí)別:即在對(duì)原始數(shù)據(jù)進(jìn)行處理的基礎(chǔ)上,利用主成分分析的方法進(jìn)行降維處理;并將提取的主成分?jǐn)?shù)據(jù)輸入支持向量機(jī)模型訓(xùn)練學(xué)習(xí),從而實(shí)現(xiàn)對(duì)樣本的有效分類。其中模型對(duì)樣本正確分類識(shí)別率接近90%,并且對(duì)模型進(jìn)行敏感性和穩(wěn)定性檢驗(yàn)測(cè)試。其次,通過(guò)Relief 算法對(duì)基因進(jìn)行排序和篩選,在此基礎(chǔ)上運(yùn)用留一交叉檢驗(yàn)法確定了一組“基因標(biāo)簽”,并利用隨機(jī)重復(fù)試驗(yàn)檢驗(yàn)了“基因標(biāo)簽”的樣本分類能力。在上述模型運(yùn)算分析結(jié)果的基礎(chǔ)上分析了影響腫瘤識(shí)別效果的噪聲來(lái)源,對(duì)數(shù)據(jù)

2、中存在的噪聲樣本和重復(fù)數(shù)據(jù)進(jìn)行降噪,建立了噪聲模型,進(jìn)而得到了一組新的基因“標(biāo)簽”,從而使腫瘤識(shí)別精度提高到了92.65%;最后融入臨床生物學(xué)信息,綜合運(yùn)用支持向量機(jī)等數(shù)學(xué)理論建立了腫瘤診斷識(shí)別的數(shù)學(xué)模型,腫瘤識(shí)別率提高到了99.8%。 關(guān)鍵詞:基因表達(dá)譜 腫瘤 支持向量機(jī) 主成分分析 Relief算法 參賽隊(duì)號(hào) 10224003 隊(duì)員姓名 楊振華 劉愛(ài)蘭 邢秉昆 中山大學(xué)承辦一、問(wèn)題重述癌癥起源于正常組織在物理或化學(xué)致癌物的誘導(dǎo)下基因組發(fā)生的突變,即基因在結(jié)構(gòu)上發(fā)生堿基對(duì)的組成或排列順序的改變,因而改變了基因原來(lái)的正常分布。所以探討基因分布的改變與癌癥發(fā)生之間的關(guān)系具有深遠(yuǎn)的意義。從DNA

3、芯片所測(cè)量的成千上萬(wàn)個(gè)基因中,找出決定樣本類別的一組基因“標(biāo)簽”取出“信息基因”是正確識(shí)別腫瘤類型、給出可靠診斷和簡(jiǎn)化實(shí)驗(yàn)分析的關(guān)鍵所在,同時(shí)也為抗癌藥物的研制提供了捷徑。下面我們參考基因表達(dá)譜及腫瘤識(shí)別問(wèn)題方面的研究成果,利用附件所給數(shù)據(jù)并結(jié)合相關(guān)資料,就提取基因圖譜信息方法研究如下問(wèn)題:1、由于基因表示之間存在著很強(qiáng)的相關(guān)性,所以對(duì)于某種特定的腫瘤,似乎會(huì)有大量的基因都與該腫瘤類型識(shí)別相關(guān),但一般認(rèn)為與一種腫瘤直接相關(guān)的突變基因數(shù)目很少。對(duì)于給定的數(shù)據(jù),如何從上述觀點(diǎn)出發(fā),選擇最好的分類因素?2、相對(duì)于基因數(shù)目,樣本往往很小,如果直接用于分類會(huì)造成小樣本的學(xué)習(xí)問(wèn)題,如何減少用于分類識(shí)別的基

4、因特征是分類問(wèn)題的核心,事實(shí)上只有當(dāng)這種特征較少時(shí),分類的效果才更好些。對(duì)于給定的結(jié)腸癌數(shù)據(jù)如何從分類的角度確定相應(yīng)的基因“標(biāo)簽”?3、基因表達(dá)譜中不可避免地含有噪聲(見(jiàn)1999 年Golub 在Science 發(fā)表的文章),有的噪聲強(qiáng)度甚至較大,對(duì)含有噪聲的基因表達(dá)譜提取信息時(shí)會(huì)產(chǎn)生偏差。通過(guò)建立噪聲模型,分析給定數(shù)據(jù)中的噪聲能否對(duì)確定基因標(biāo)簽產(chǎn)生有利的影響?4、在腫瘤研究領(lǐng)域通常會(huì)已知若干個(gè)信息基因與某種癌癥的關(guān)系密切,建立融入了這些有助于診斷腫瘤信息的確定基因“標(biāo)簽”的數(shù)學(xué)模型。比如臨床有下面的生理學(xué)信息:大約90%結(jié)腸癌在早期有5號(hào)染色體長(zhǎng)臂APC 基因的失活,而只有40%50%的ra

5、s 相關(guān)基因突變。二、問(wèn)題分析2.1尋找與腫瘤相關(guān)的突變基因的分類因素我們認(rèn)為“分類因素” 可理解為由基因的某種組合得到的潛在因素。針對(duì)這一問(wèn)題,我們?cè)O(shè)計(jì)了一種有效的算法作為樣本分類識(shí)別的依據(jù)。具體內(nèi)容如下:首先利用修正后的信噪比公式對(duì)原始數(shù)據(jù)中的無(wú)關(guān)基因進(jìn)行剔除,同時(shí)對(duì)保留下來(lái)的基因進(jìn)行主成分分析,既可以實(shí)現(xiàn)有效的降維,同時(shí)便于計(jì)算;然后引入支持向量機(jī)分類器,對(duì)提取的主成分進(jìn)行學(xué)習(xí)訓(xùn)練,得到基于支持向量機(jī)的分類模型。在此基礎(chǔ)上,我們對(duì)算法進(jìn)行了敏感性檢驗(yàn)和穩(wěn)定性檢驗(yàn)。2.2從分類的角度確定基因“標(biāo)簽”相對(duì)于基因個(gè)數(shù)來(lái)說(shuō)62個(gè)樣本非常小,如果直接用于分類會(huì)造成小樣本的學(xué)習(xí)問(wèn)題。我們用Relie

6、f 算法為每個(gè)基因賦予一個(gè)權(quán)重,然后設(shè)定相應(yīng)的閾值,高于這個(gè)閾值的基因被留下;然后用留一交叉檢驗(yàn)法來(lái)檢驗(yàn)我們?cè)O(shè)定的閾值的合理性,通過(guò)檢驗(yàn)不斷地調(diào)整閾值,最終確定哪些基因被留下,而這些基因便是我們分類所依據(jù)的基因“標(biāo)簽”。2.3基因表達(dá)譜中噪聲模型的建立基因表達(dá)譜中不可避免地含有噪聲,對(duì)含有噪聲的基因表達(dá)譜提取信息會(huì)產(chǎn)生偏差。為了解決這個(gè)問(wèn)題,我們分析發(fā)現(xiàn)Genbank Acc name 中含有存在重復(fù)數(shù)據(jù)的基因,運(yùn)用方差分析來(lái)對(duì)這種基因的normal 樣本和cancer 樣本分別進(jìn)行顯著性檢驗(yàn),發(fā)現(xiàn)該種基因在同類樣本間存在顯著差異,進(jìn)而推斷其顯著性差異并不直接作用于樣本的分類,應(yīng)予以剔除。同時(shí)

7、,在對(duì)第二問(wèn)中得到的“基因標(biāo)簽”的檢驗(yàn)過(guò)程中,發(fā)現(xiàn)來(lái)源于樣本的噪聲,故對(duì)這些樣本進(jìn)行去噪處理。最后,應(yīng)用第二問(wèn)的模型對(duì)去噪后的數(shù)據(jù)重新進(jìn)行運(yùn)算,得到新的“基因標(biāo)簽”并對(duì)其進(jìn)行檢驗(yàn)。2.4融入臨床信息的診斷腫瘤確定基因標(biāo)簽的數(shù)學(xué)模型的建立在確定某種腫瘤的基因標(biāo)簽時(shí)如能融入與臨床問(wèn)題相關(guān)的主要生理學(xué)信息,也許可以糾正現(xiàn)有研究中基因低水平表達(dá)、差異不大的表達(dá)被忽略的傾向。我們利用問(wèn)題三中經(jīng)過(guò)降噪處理后的樣本數(shù)據(jù),利用最終篩選出的基因標(biāo)簽和所給數(shù)據(jù)中的APC 基因和ras 相關(guān)基因建立數(shù)學(xué)模型,希望能進(jìn)一步提高腫瘤識(shí)別的正確率。三、模型假設(shè)及符號(hào)說(shuō)明3.1模型假設(shè)1、假設(shè)統(tǒng)計(jì)數(shù)據(jù)真實(shí)可靠,沒(méi)有實(shí)驗(yàn)室誤

8、差。2、假設(shè)樣本具有普遍性,此樣本對(duì)分類效果沒(méi)有特別影響。3、假設(shè)與一種腫瘤相關(guān)的突變基因數(shù)目很少。3.2符號(hào)說(shuō)明-分類特征基因集合 F GM -算法篩選出的基因數(shù)-Relief 算法中的閾值四、模型的建立與解答由樣本數(shù)據(jù)可知,有些基因的標(biāo)號(hào)相同(即屬于同一種基因),故取這些基因表達(dá)水平的均值,合并為一種基因。問(wèn)題一:尋找與腫瘤相關(guān)的突變基因的分類因素由于基因表示之間存在著很強(qiáng)的相關(guān)性,且相對(duì)于較少的樣本數(shù)而言,過(guò)多的基因數(shù)既無(wú)益于樣本類型的判定,也會(huì)對(duì)以后統(tǒng)計(jì)方法的使用產(chǎn)生不良影響。因此,在分析樣本之前需要對(duì)基因進(jìn)行篩選。本文引入修正后的信噪比公式作為篩選依據(jù)來(lái)衡量基因表達(dá)差異的顯著程度;然

9、后利用主成分分析將相關(guān)性顯著的基因組合成具有某種特征的基因組合來(lái)降低維數(shù),進(jìn)而利用支持向量機(jī)進(jìn)行訓(xùn)練學(xué)習(xí)來(lái)尋找識(shí)別腫瘤的最好的分類因素。我們基于各種方法尋找與腫瘤相關(guān)的突變基因的分類因素的算法過(guò)程如圖1所示:圖1:算法流程圖1、修正后的信噪比公式1 1(j -2(j 1(j 2+2(j 2,式中1(j ,2(j 和1(j ,2(j 分別d (j =+ln 1j +2j 21j 2j是第j 個(gè)基因在正常人和癌癥患者兩類樣本中的均值和均方差。其中,公式的第一部分來(lái)源于Golub 等人提出的“信噪比”指標(biāo),后一部分體現(xiàn)了表達(dá)水平分布方差的不同對(duì)樣本分類的貢獻(xiàn)。2、篩選結(jié)果利用修正后的信噪比公式將每個(gè)

10、基因賦以相應(yīng)的權(quán)重,根據(jù)實(shí)驗(yàn)設(shè)定相應(yīng)的閾值, 之后從中初步篩選出可能與腫瘤相關(guān)的基因。由于目前仍沒(méi)有關(guān)于使用多少基因來(lái)構(gòu)造分類器這一問(wèn)題的最優(yōu)答案,故我們根據(jù)修正后的信噪比計(jì)算公式分別篩選出M 為25個(gè)、50個(gè)、100個(gè)、200個(gè)基因來(lái)構(gòu)造分類器。1、主成分分析的基本思想主成分分析(PCA )的目的是為了降維,即設(shè)法將原來(lái)眾多具有一定相關(guān)性的指標(biāo)重新組合成一組新的相互無(wú)關(guān)的綜合指標(biāo)。這些轉(zhuǎn)化生成的綜合指標(biāo)稱作主成分,其中每個(gè)主成分都是原始變量的線性組合,體現(xiàn)原有變量的綜合效果,且各個(gè)主成分之間互不相關(guān),從而在進(jìn)行定量分析的過(guò)程中涉及的變量較少,而得到的信息量較多。2、主成分分析的實(shí)現(xiàn)我們利用修

11、正后的信噪比公式篩選出的基因在Matlab 中進(jìn)行主成分分析。根據(jù)修正后的信噪比計(jì)算公式分別篩選出的25個(gè)、50個(gè)、100個(gè)、200個(gè)基因?qū)Ω戒浿?2個(gè)樣本數(shù)據(jù)進(jìn)行主成分分析,結(jié)果如表1所示:表1:主成分分析的結(jié)果M 選取主成分個(gè)數(shù)25 3 50 4100 5200 51. 支持向量機(jī)的基本思想支持向量機(jī)(SVM ,Support Vector Machine)是由Vapnik 首先提出的,可用于模式分類和非線性回歸。支持向量機(jī)的主要思想是建立一個(gè)分類超平面作為決策曲面,使得正例和反例之間的隔離邊緣被最大化。支持向量機(jī)算法旨在改善傳統(tǒng)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法的理論弱點(diǎn),根據(jù)有限的樣本信息在模型的復(fù)雜性

12、和學(xué)習(xí)能力之間尋求最佳折中,以期獲得最好的泛化能力。2、支持向量機(jī)的數(shù)學(xué)模型在分類問(wèn)題中,支持向量機(jī)分類效果主要受核函數(shù)的選擇以及參數(shù)的選擇的影響。支持向量機(jī)常用的核函數(shù)有線性、多項(xiàng)式核函數(shù)、徑向基核函數(shù)、S 形核函數(shù)??紤]到徑向基核函數(shù)可以實(shí)現(xiàn)非線性分類同時(shí)其只有一個(gè)控制參數(shù),而其它核函數(shù)均有比徑向基核函數(shù)更多的核參數(shù)。綜合考慮,本文選擇徑向基函數(shù)作為核函數(shù),其表達(dá)形式如下: 43,42累計(jì)貢獻(xiàn)率 89.80% 86.16% 87.26% 85.46% 其中,M 為篩選出的基因數(shù)K (x i , x j =exp(-x i -x j 222其中是徑向基核函數(shù)的參數(shù),下文用g 來(lái)表示。關(guān)于SV

13、M 參數(shù)的優(yōu)化選取,目前常用的方法就是讓?xiě)土P參數(shù)c 和核參數(shù)g 在一定的范圍內(nèi)取值,對(duì)于取定的c 和g 把訓(xùn)練集作為原始數(shù)據(jù)集利用K fold Cross Validation (KCV 方法得到在此組c 和g 下訓(xùn)練集驗(yàn)證分類準(zhǔn)確率,最終取使得訓(xùn)練集驗(yàn)證分類準(zhǔn)確率最高的那組c 和g 作為最佳的參數(shù),當(dāng)有多組c 和g 對(duì)應(yīng)于最高驗(yàn)證分類準(zhǔn)確率時(shí),這里采用的手段是選取能夠達(dá)到最高驗(yàn)證分類準(zhǔn)確率中參數(shù)c 最小的那組c 和g 作為最佳參數(shù)。這樣做的原因是:過(guò)高的c 會(huì)導(dǎo)致過(guò)學(xué)習(xí)狀態(tài),即訓(xùn)練集分類準(zhǔn)確率很高而測(cè)試集分類準(zhǔn)確率很低(分類器泛化能力降低),所以在能夠達(dá)到最高驗(yàn)證分類準(zhǔn)確率中的所有的成對(duì)的c

14、 和g 中認(rèn)為較小的懲罰參數(shù)c 是更佳的選擇對(duì)象。本文中將上一步選取的相應(yīng)主成分作為支持向量機(jī)模型的輸入,以徑向基函數(shù)作為核函數(shù),樣本的類別作為輸出,以K fold Cross Validation (KCV 計(jì)算最佳參數(shù)c 和g ,構(gòu)建支持向量機(jī)訓(xùn)練模型。樣本數(shù)據(jù) 樣本類別以下給出參數(shù)優(yōu)化過(guò)程中參數(shù)c 和g 和準(zhǔn)確率的等高線圖和3D 圖,能更直觀的看到c 和g 組合對(duì)準(zhǔn)確率的影響,如圖3所示: 圖2:分類因素算法圖參數(shù)選擇結(jié)果圖(等高線圖參數(shù)選擇結(jié)果圖(3D視圖 l o g 2g-8A c c u r a c y (%68-6-4-2024log2clog2glog2c圖3:參數(shù)尋優(yōu)等高線圖

15、及3D 圖91、算法對(duì)參數(shù)選擇的敏感性分析參數(shù)敏感性分析的目的在于檢驗(yàn)分析過(guò)程中選擇不同的M 是否會(huì)對(duì)算法的判定效果產(chǎn)生較大影響。故采用隨機(jī)重復(fù)的方法:將62個(gè)樣本數(shù)據(jù)隨機(jī)分成42個(gè)樣本的訓(xùn)練集(15 normal,27 cancer)和20個(gè)樣本的測(cè)試集(7 normal,13 cancer),運(yùn)用上述算法對(duì)測(cè)試集進(jìn)行分類,重復(fù)100次并計(jì)算平均正確識(shí)別個(gè)數(shù)。平均正確識(shí)別個(gè)數(shù) 18.01 17.85 17.40 17.55 平均正確識(shí)別率(%) 90.05 89.25 87.00 87.75在M 分別為25、50、100、200時(shí),采用該算法對(duì)樣本數(shù)據(jù)隨機(jī)測(cè)試集的平均正確識(shí)別個(gè)數(shù)在17.40

16、18.01個(gè)之間,這表明該算法的識(shí)別效果較為穩(wěn)定,不因M 的變化而發(fā)生劇烈波動(dòng),即當(dāng)參數(shù)M 為25、50、100、200時(shí),該算法對(duì)M 并不敏感。 2、算法穩(wěn)定性分析算法的穩(wěn)定性主要體現(xiàn)在對(duì)不同的訓(xùn)練集和測(cè)試集,最終的預(yù)測(cè)結(jié)果沒(méi)有產(chǎn)生較大波動(dòng)。據(jù)此,同樣采用隨機(jī)重復(fù)的方法,將62個(gè)樣本數(shù)據(jù)隨機(jī)分成42個(gè)樣本的訓(xùn)練集(15 normal,27 cancer)和20個(gè)樣本的測(cè)試集(7 normal,13 cancer),運(yùn)用上述算法對(duì)測(cè)試集進(jìn)行分類并重復(fù)100次。改算法對(duì)隨機(jī)劃分的樣本數(shù)據(jù)的分類結(jié)果如圖4所示: M=25 M=50M=100 M=200圖4:分類因素算法對(duì)隨機(jī)劃分的樣本數(shù)據(jù)的分類結(jié)

17、果從分類識(shí)別的結(jié)果看,該算法對(duì)含有20個(gè)樣本的測(cè)試集的正確識(shí)別個(gè)數(shù)主要集中在1719個(gè)樣本之間,其預(yù)測(cè)結(jié)果總體上比較穩(wěn)定,并沒(méi)有因?yàn)橛?xùn)練集的變化而使最終預(yù)測(cè)結(jié)果產(chǎn)生劇烈波動(dòng)。結(jié)論一:從以上分析與檢驗(yàn)可以看出,我們采用的以主成分分析構(gòu)造的分類因素對(duì)樣本是正常還是癌變具有很好的識(shí)別效果,其識(shí)別率均達(dá)到90%左右;并且此尋找分類因素的算法對(duì)參數(shù)的選擇并不敏感,具有非常好的穩(wěn)定性。 問(wèn)題二:從分類的角度確定“基因標(biāo)簽”從分類的角度來(lái)說(shuō),我們的目的是在眾多基因中找出決定樣本類別的一組基因作為分類特征基因。由于與一種腫瘤直接相關(guān)的突變基因數(shù)目很少,故只有少數(shù)基因與樣本類別相關(guān),且大部分基因?qū)⒈灰曌鳠o(wú)關(guān)基因

18、而剔除。 Relief 算法是一種屬性重要性排序的機(jī)器學(xué)習(xí)算法,其基本思想是以屬性區(qū)分相似樣本的能力來(lái)作為評(píng)估屬性重要程度的標(biāo)準(zhǔn),并據(jù)此給出屬性的分類權(quán)重(具體原理見(jiàn)參考文獻(xiàn)810)。Relief 算法通過(guò)求取分類特征的屬性分類權(quán)重,來(lái)選取具有最大分類權(quán)重的一組屬性作為決定樣本分類的特征基因。所以基因的分類權(quán)重越大,其含有的樣本分類信息越多,對(duì)樣本的分類能力就越強(qiáng)。5,6,7 2、基因的排序根據(jù)Relief 算法,本文計(jì)算出每個(gè)基因的分類權(quán)重。如圖5給出了基因分類權(quán)重的分布情況:基因分類權(quán)重 020040060080010001200基因順序號(hào) 1000基因個(gè)數(shù)5000500100015002

19、00025003000基因分類權(quán)重3500400045005000圖5:基因分類權(quán)重的分布圖由上圖可知各基因的分類權(quán)重,按照從大到小的順序進(jìn)行排序,從而得到有序基因組合F ,即F G i =G 1, G 2, G 3, G 1991,F(xiàn) 滿足:F G i F G j ,且i j 。8留一交叉檢驗(yàn)法是交叉檢驗(yàn)方法的擴(kuò)展,用來(lái)進(jìn)行樣本類型的識(shí)別,基本思想是在測(cè)試集上每次保留一個(gè)不同的樣本作為測(cè)試樣本,其余樣本作為SVM 的訓(xùn)練樣本,不斷重復(fù)這個(gè)過(guò)程,直到所有訓(xùn)練樣本都被測(cè)試了一次為止。將所有被錯(cuò)誤分類的樣本數(shù)作為該方法的分類錯(cuò)誤數(shù)。 2、“基因標(biāo)簽”的確定我們運(yùn)用留一交叉檢驗(yàn)法(LOOCV )來(lái)對(duì)

20、基因組合中的基因進(jìn)行分類能力檢驗(yàn),以期進(jìn)一步縮小具有分類特征基因(“基因標(biāo)簽”)的范圍。(1)由于基因的分類權(quán)重越大,其對(duì)樣本的分類能力也就越強(qiáng),因此我們?cè)O(shè)定閾值=2500,按照從大到小的順序選取基因組合中分類權(quán)重最大的53個(gè)基因開(kāi)始研究其分類能力。在這里我們定義53個(gè)基因組合F G 53, F G 52, F G 1,其中初始時(shí)刻為F G 53=G 1, G 2, G 3, G 53,將F G53中的基因作為分類特征基因,其值作為SVM 模型的輸入,記錄其對(duì)訓(xùn)練樣本的分類誤差。(2)接下來(lái)將F 中分類權(quán)重最小的基因G 53剔除,利用F G 52中的基因作為SVM 模型的輸入研究其分類能力。如

21、此循環(huán)下去,選取分類權(quán)重最大的k個(gè)基因,得到分類特征基因組合F G k =G 1, G 2, G 3, G k 用于分類,從而得到了有關(guān)于基因組合F G k =G 1, G 2, G 3, G k ,。由該曲線不僅可以得到不同基因組合的分類能(k =1, 2, 53與其分類誤差的關(guān)系曲線(如圖6)力,而且也能看出分類能力隨基因個(gè)數(shù)的變化而變化的趨勢(shì)。根據(jù)錯(cuò)誤分類個(gè)數(shù)最小原則,確定出一個(gè)最佳分類基因組合(“基因標(biāo)簽”)。錯(cuò)誤分類個(gè)數(shù) 基因個(gè)數(shù)圖6:分類誤差曲線圖由上圖可知,基因個(gè)數(shù)介于1235之間的分類基因組合的錯(cuò)誤分類個(gè)數(shù)最少,但對(duì)于基因個(gè)數(shù)大于35的組合來(lái)說(shuō),其走勢(shì)并不穩(wěn)定,錯(cuò)誤分類個(gè)數(shù)隨著

22、基因個(gè)數(shù)的增加而升高。我們認(rèn)為,造成這一結(jié)果的原因在于小樣本學(xué)習(xí)問(wèn)題,即相對(duì)于有限的樣本數(shù)來(lái)說(shuō),過(guò)多基因數(shù)目的選取影響了對(duì)樣本類別(正常人和癌癥患者)的判定。鑒于此,我們重新對(duì)篩選基因的閾值進(jìn)行設(shè)定,以縮小基因組合的范圍,即當(dāng)=3300時(shí),按照從大到小的順序選取基因組合中分類權(quán)重最大的18個(gè)基因進(jìn)行分類能力的研究,研究方法仍為留一交叉檢驗(yàn)法,這里不多贅述。經(jīng)過(guò)分析,得到新的分類誤差曲線,如圖7所示: 錯(cuò)誤分類個(gè)數(shù)基因個(gè)數(shù)圖7:分類誤差曲線圖由此圖可以清晰的看出:基因個(gè)數(shù)大于12的基因組合其錯(cuò)誤分類數(shù)最低,且隨著基因數(shù)的擴(kuò)大一直保持穩(wěn)定的分類識(shí)別率,從而確定具有樣本分類特征的“基因標(biāo)簽”為基因組

23、合F G 12。8為檢驗(yàn)上述確定的“基因標(biāo)簽”確實(shí)具有區(qū)分正常人與癌癥患者的良好樣本分類能力,在有限樣本的情況下,本文采用隨機(jī)交互檢驗(yàn)的方法對(duì)F 中基因的樣本分類能力進(jìn)行檢驗(yàn)。具體做法如下:(1)樣本抽樣:在保證訓(xùn)練集中每種不同類型的組織樣本數(shù)不變(即訓(xùn)練集(15 normal ,27 cancer)的前提下,在原始樣本集的22個(gè)正常人和40個(gè)癌癥患者樣本中進(jìn)行無(wú)重復(fù)抽樣,以形成新的訓(xùn)練集,剩余樣本形成新的測(cè)試集。(2)樣本識(shí)別:以F 中的基因作為分類特征,利用新形成的訓(xùn)練集構(gòu)造SVM 分類器,對(duì)測(cè)試集中的樣本進(jìn)行類型識(shí)別,記錄分類結(jié)果(SVM 分類模型的參數(shù)設(shè)置同第一問(wèn))。上述兩個(gè)過(guò)程稱為一

24、次隨機(jī)測(cè)試實(shí)驗(yàn),本文共做了100次這樣的實(shí)驗(yàn),由此得到100次隨機(jī)測(cè)試實(shí)驗(yàn)的平均分類正確率達(dá)90.1%??紤]到F 中基因是作為正常人和癌癥患者的分類特征基因,那么即使采用非限制性抽樣,即不考慮訓(xùn)練集和測(cè)試集內(nèi)部樣本的構(gòu)成情況直接接進(jìn)行完全隨機(jī)抽樣形成新的訓(xùn)練集和測(cè)試集,F(xiàn) 中的基因也應(yīng)具有良好的樣本分類能力。為此,我們采用非限制性抽樣同樣做了100次隨機(jī)測(cè)試實(shí)驗(yàn),得到測(cè)試集的平均分類正確率為90.45%。這一結(jié)果同上面限制訓(xùn)練集樣本構(gòu)成的隨機(jī)測(cè)試實(shí)驗(yàn)的分類結(jié)果(90.1%)相當(dāng)。結(jié)論二:綜上所述,基因“標(biāo)簽”F G 12=R87126,H08393,M63391,X12671,Z50753,R

25、36977,J02854,J05032,M26383,M22382,X63629,M76378中的基因識(shí)別正常和患癌樣本的識(shí)別率達(dá)到了90%左右,檢驗(yàn)證明其具有很好的分類能力,“基因標(biāo)簽”的確定具有合理性?;虮磉_(dá)譜中不可避免的含有噪聲,充分消除噪聲數(shù)據(jù)的影響有利于“基因標(biāo)簽”更精確的給出?!霸肼暋币话銇?lái)源于噪聲樣本、無(wú)用基因和基因數(shù)據(jù)的方差波動(dòng)等方面。我們認(rèn)為應(yīng)該針對(duì)第二問(wèn)中確定的“基因標(biāo)簽”(F G 12)中的基因數(shù)據(jù)進(jìn)行噪聲處理。 1、實(shí)驗(yàn)數(shù)據(jù)去噪在第二問(wèn)得到的“基因標(biāo)簽”F G 12=R87126,H08393,M63391,X12671,Z50753,R36977,J02854,J0

26、5032,M26383,M22382,X63629,M76378中,我們發(fā)現(xiàn)基因M76378在原始數(shù)據(jù)表中存在重復(fù)出現(xiàn)的現(xiàn)象,這可能是由于實(shí)驗(yàn)誤差造成的。其原始數(shù)據(jù)如表3所示: 分析,結(jié)果如表4和表5所示:ANOVA ANOVA 分析結(jié)果表明,基因M76378的normal 樣本和cancer 樣本之間都存在著顯著的差異性。因此有理由推斷,基因M76378的顯著差異來(lái)源于同類樣本自身,并不直接作用于樣本分類。所以應(yīng)該將基因M76378從“基因標(biāo)簽”中予以刪除。 2、噪聲樣本的識(shí)別與剔除由第二問(wèn)中的分類誤差曲線圖(圖8和圖9)可以看出,所有特征分類基因組合的最小錯(cuò)誤分類個(gè)數(shù)為5,還沒(méi)有一個(gè)基因組

27、合的正確分類識(shí)別率達(dá)到100% 。這表示作為分類特征的“基因標(biāo)簽”仍然有進(jìn)一步精確的空間。通過(guò)進(jìn)一步分析我們發(fā)現(xiàn),在各基因組合進(jìn)行樣本分類識(shí)別的過(guò)程中有5個(gè)樣本經(jīng)常被錯(cuò)判,且這正好與基因組合的最小錯(cuò)誤分類數(shù)相同。因此我們猜想,是否是這5個(gè)樣本的存在導(dǎo)致基因組合的正確識(shí)別率始終無(wú)法達(dá)到100% 。為了驗(yàn)證這一猜想,我們從樣本的角度出發(fā),對(duì)各個(gè)樣本在分類識(shí)別過(guò)程(包括在F G 53和F G 18兩種情況下的留一交叉檢驗(yàn))中的錯(cuò)誤識(shí)別率進(jìn)行了具體分析,如圖 8和圖9所示:10.9 錯(cuò)誤識(shí)別率102030樣本40506070圖8:F G 18的留一交叉檢驗(yàn)中各樣本的錯(cuò)誤識(shí)別率10.9 錯(cuò)誤識(shí)別率102

28、030樣本40506070圖9:F G 53的留一交叉檢驗(yàn)中各樣本的錯(cuò)誤識(shí)別率從圖中可以非常直觀的看到:在這兩個(gè)分類識(shí)別的過(guò)程中,都有5個(gè)樣本被嚴(yán)重錯(cuò)判,且都是同樣的5個(gè)樣本。它們分別是:normal18,normal20,cancer52,cancer55,cancer58。這些樣本嚴(yán)重干擾了“基因標(biāo)簽”對(duì)樣本的正確分類,影響了“基因標(biāo)簽”的選取,故應(yīng)該刪去。結(jié)論三:綜上所述,與第二問(wèn)中得到的基因標(biāo)簽F G 12相比,去噪后得到的基因“標(biāo)簽”F G 3=R87126,M63391,J02854 其基因組合所含基因數(shù)大大減少,且平均正確識(shí)別率達(dá)到92.64%,高于F G 12的識(shí)別精度。由此我

29、們認(rèn)為無(wú)論是來(lái)源于哪個(gè)方面的噪聲對(duì)基因“標(biāo)簽”的影響都是不利的,所以對(duì)基因表達(dá)譜無(wú)論是在實(shí)驗(yàn)階段還是在數(shù)據(jù)處理階段都必須考慮噪聲的影響,從而提高識(shí)別腫瘤的正確率,為臨床及醫(yī)學(xué)研究提供精確的依據(jù)。問(wèn)題四:融入臨床信息的診斷腫瘤確定基因標(biāo)簽的數(shù)學(xué)模型的建立目前診斷腫瘤主要依靠臨床的生理學(xué)信息,但有些情況下臨床信息會(huì)難以確定甚至出現(xiàn)錯(cuò)誤,這就為腫瘤的早期診斷和及時(shí)治療帶來(lái)了很多困難。而近年來(lái)迅速發(fā)展并日益成熟的基因表達(dá)譜可以清晰地表現(xiàn)腫瘤樣本與正常樣本的差別,據(jù)此可以更精確地識(shí)別腫瘤。遺憾的是,基于基因表達(dá)譜的研究還沒(méi)有進(jìn)入臨床實(shí)踐。如果能把基于基因表達(dá)譜的腫瘤識(shí)別方法與臨床生理學(xué)信息結(jié)合起來(lái)建立確

30、定基因標(biāo)簽的數(shù)學(xué)模型將會(huì)為腫瘤的識(shí)別與診斷帶來(lái)更可靠的依據(jù)。我們嘗試在這一問(wèn)中建立這樣一個(gè)數(shù)學(xué)模型。由APC 基因和ras 相關(guān)基因的原始數(shù)據(jù)得到其各自的樣本表達(dá)水平趨勢(shì)圖,如圖10所示: APC ras(M28214ras(T70197ras(L33075。 2)檢修時(shí)燒傷鐵芯。3)定子與轉(zhuǎn)子鐵芯相擦掃膛。 ras(R53941ras(H42477ras(T71207 ras(X54871ras(R22779ras(Z29677圖10:樣本表達(dá)水平趨勢(shì)圖 4 此模型使用的數(shù)據(jù)為基于第三問(wèn)去噪后的57個(gè)樣本數(shù)據(jù),而原始數(shù)據(jù)中有6個(gè)ras 相關(guān)基因的數(shù)據(jù),由于它們的表達(dá)水平相似,故取其均值作為r

31、as 相關(guān)基因的表達(dá)數(shù)據(jù)。) 過(guò)載或起動(dòng)頻繁 。 5)我們構(gòu)造的訓(xùn)練集中包含38個(gè)樣本(13 normal,25cancer ),測(cè)試集包含19個(gè)樣本(7normal ,12cancer )。 2、SVM 訓(xùn)練學(xué)習(xí)。樣本數(shù)據(jù)圖12:模型結(jié)構(gòu)圖3、模型檢驗(yàn)經(jīng)過(guò)500次的重復(fù)隨機(jī)實(shí)驗(yàn),此模型的正確分類識(shí)別率達(dá)到99.8%,如圖12所示:頻數(shù)18正確識(shí)別樣本個(gè)數(shù)19圖12:融入臨床信息的腫瘤識(shí)別模型的正確識(shí)別個(gè)數(shù)結(jié)論四:綜上所述,考慮了APC 基因和ras 相關(guān)基因的腫瘤識(shí)別模型精度上有了大幅度提高,有利于我們對(duì)樣本進(jìn)行分類。由此可見(jiàn),在基因表達(dá)譜的分析過(guò)程中融入臨床生理學(xué)信息,對(duì)于提高腫瘤的診斷效

32、果具有非常重要的貢獻(xiàn)。五、模型的評(píng)價(jià)與改進(jìn)設(shè)想6六、參考文獻(xiàn)1 李穎新,阮曉鋼. 基于基因表達(dá)譜的腫瘤亞型識(shí)別與分類特征基因選取研究J .電子學(xué)報(bào).2005年4月第4期:6524張小艷,李強(qiáng). 基于SVM 的分類方法綜述J .科技信息. 2008年第28期:344 5吳艷文,胡學(xué)鋼,陳效軍 . 基于Relief 算法的特征學(xué)習(xí)聚類J . 合肥學(xué)院學(xué)報(bào)(自然科學(xué)版).2008年5月. 第18卷第2期:457吳浩苗,尹中航,孫富春 .Relief 算法在筆跡識(shí)別中的應(yīng)用J.第26卷第1期.2006年1月 :1748阮曉鋼,李穎新,李建更,龔道雄,王金蓮. 基于基因表達(dá)譜的腫瘤特異基因表達(dá)模式研究.

33、 中國(guó)科學(xué)C 輯生命科學(xué).2006,36(1):86-96 9王翼飛,史定華. 生物信息學(xué)-智能化算法及其應(yīng)用. 北京:化學(xué)工業(yè)出版社.2006年7月:237-243 10李穎新,李建更,阮曉鋼. 腫瘤基因表達(dá)譜分類特征基因選取問(wèn)題及分析方法研究J.計(jì)算機(jī)學(xué)報(bào).2006年2月第29卷第2期:325-32611Matlab中文論壇.Matlab 神經(jīng)網(wǎng)絡(luò)30個(gè)案例分析M.北京:北京航空航天大學(xué)出版社.2010年4月:112-141附錄第一問(wèn)程序function S,BS,xzS,xzbinameno,xzxzbinameno,bnameno,sortk,sortxzbixu=fenlei_A1(

34、x1,x2 %利用信噪比、修正信噪比、巴式距離對(duì)基因進(jìn)行分類 % %mx1,nx1=size(x1; mx2,nx2=size(x2; miu1=mean(x1' miu2=mean(x2' xigema1=std(x1' xigema2=std(x2'xinzaobi=abs(miu1-miu2./(xigema1+xigema2; index1=find(xinzaobi<0.2;index2=find(xinzaobi>=0.2&xinzaobi<0.4; index3=find(xinzaobi>=0.4&xinz

35、aobi<0.6; index4=find(xinzaobi>=0.6&xinzaobi<0.8; index5=find(xinzaobi>=0.8; s1=length(index1; s2=length(index2; s3=length(index3; s4=length(index4; s5=length(index5; S=s1,s2,s3,s4,s5;xzbinameno=index1,index2,index3,index4,index5;figurebar(0.1 0.3 0.5 0.7 0.9,s1,s2,s3,s4,s5 title(

36、9;信噪比' % 修正信噪比7 xzS=xzs1,xzs2,xzs3,xzs4,xzs5;xzxzbinameno=xzindex1,xzindex2,xzindex3,xzindex4,xzindex5;sortxzbixu,sortk=sort(xzxinzaobi;figurebar(0.1 0.3 0.5 0.7 0.9,xzs1,xzs2,xzs3,xzs4,xzs5title('修正信噪比'% 巴氏距離bashi=(miu1-miu2.2./(4*(xigema1.*xigema1+xigema2.*xigema2+0.5*temp;bindex1=find

37、(bashi<0.1;bindex2=find(bashi>=0.1&bashi<0.2;bindex3=find(bashi>=0.2&bashi<0.3;bindex4=find(bashi>=0.4&bashi<0.5;bindex5=find(bashi>=0.5&bashi<0.6;bindex6=find(bashi>=0.6&bashi<0.7;bindex7=find(bashi>=0.8;bs1=length(bindex1;bs2=length(bindex2;b

38、s3=length(bindex3;bs4=length(bindex4;bs5=length(bindex5;bs6=length(bindex6;bs7=length(bindex7;BS=bs1,bs2,bs3,bs4,bs5,bs6,bs7;bnameno=bindex1,bindex2,bindex3,bindex4,bindex5,bindex6,bindex7;figurebar(0.1 0.2 0.3 0.4 0.5 0.6 0.7,bs1,bs2,bs3,bs4,bs5,bs6,bs7title('巴氏距離'%function pc_m,gxlv,score_

39、m=funpca(gaidata,m% 選取不同的基因,主成分分析的程序gd=gaidata;x1=gd(:,1:22;x2=gd(:,23:end;S,BS,xzS,xzbinameno,xzxzbinameno,bnameno,sortk,sortxzbixu=fenlei_A1(x1,x2;index_m=sortk(1991-m+1:1991;data_m=gd(index_m,:;stdr_m=std(data_m;sr=data_m./stdr_m(ones(m,1,:;pc_m,score_m,latent_m,tsquare_m = princomp(sr'gxlv=c

40、umsum(latent_m./sum(latent_m;functionptest_label,test_accuracy,ptrain_label,train_accuracy,bestacc,bestc,bestg=fun_svm_class(train_x,train_data_labels,test_x,test_data_labels% 利用支持向量機(jī)進(jìn)行分類% for classificatonformat compact;% 原始數(shù)據(jù)可視化% figure;% boxplot(train_data,'orientation','horizontal

41、9;% grid on;% title('Visualization for original data'% figure;% for i = 1:length(train_data(:,1% plot(train_data(i,1,train_data(i,2,'r*'% hold on;% end% grid on;% title('Visualization for 1st dimension & 2nd dimension of original data'% 歸一化預(yù)處理train_final,test_final = scal

42、eForSVM(train_x,test_x,0,1;% 歸一化后可視化% figure;% for i = 1:length(train_final(:,1% plot(train_final(i,1,train_final(i,2,'r*'% hold on;% end% grid on;% title('Visualization for 1st dimension & 2nd dimension of scale data'% 降維預(yù)處理(pca% train_final,test_final = pcaForSVM(train_final,te

43、st_final,97;% DCT% train_final,test_final = DCTforSVM(train_final,test_final;% ica% train_final,test_final = fasticaForSVM(train_final,test_final;% feature selection% using GA,.,etc.% 參數(shù)c 和g 尋優(yōu)選擇bestCVaccuracy,bestc,bestg = SVMcgForClass(train_data_labels,train_final;% ga_option.maxgen = 100;% ga_op

44、tion.sizepop = 20;% ga_option.ggap = 0.9;% ga_option.cbound = 0,100;% ga_option.gbound = 0,100;% ga_option.v = 5;% bestacc,bestc,bestg = gaSVMcgForClass(train_data_labels,train_final,ga_option% pso_option.c1 = 1.5;% pso_option.c2 = 1.7;% pso_option.maxgen = 100;% pso_option.sizepop = 20;% pso_option

45、.k = 0.6;% pso_option.wV = 1;% pso_option.wP = 1;% pso_option.v = 3;% pso_option.popcmax = 100;% pso_option.popcmin = 0.1;% pso_option.popgmax = 100;% pso_option.popgmin = 0.1;% bestacc,bestc,bestg = psoSVMcgForClass(train_data_labels,train_final,pso_option;cmd = '-c ',num2str(bestc,' -g

46、 ',num2str(bestg;% bestc =% 1.2714% bestg =% 1.8047% cmd = '-c 147.0334 -g 16'% 分類預(yù)測(cè)model = svmtrain(train_data_labels, train_final,cmd;ptrain_label, train_accuracy = svmpredict(train_data_labels, train_final, model;% train_accuracyptest_label, test_accuracy = svmpredict(test_data_labels

47、, test_final, model;% test_accuracy% toc;function meanstest,meanstrain,lv,zqgs=zuijia(score,l,method% % 第一問(wèn) 得到主成分后的分類檢驗(yàn)程序% 和第二問(wèn)中重復(fù)檢驗(yàn)%method=2 為非限制 method=1是限制性隨機(jī)試驗(yàn)if method=2stest=0;strain=0;zqgs=zeros(1,100;lv=zeros(1,100;zonglabel=zeros(1,57;for k=1:500randnum=randperm(57;ind=find(randnum>20;x_

48、label=zonglabel;x_label(ind=1;trainno=randnum(1:38;testno=randnum(39:57;x=score(:,1:l;train_x=x(trainno,:;train_label=x_label(1:38;test_x=x(testno,:;test_label=x_label(41:end;ptest_label,test_accuracy,ptrain_label,train_accuracy=fun_svm_class(train_x,train_label',test_x,test_label'zqgs(k=len

49、gth(find(ptest_label-test_label'=0;close allstest=stest+test_accuracy(1;strain=strain+train_accuracy(1;lv(k=test_accuracy(1/100;endmeanstest=stest/500;meanstrain=strain/500;plot(lv,'*'xlabel('重復(fù)次數(shù)'ylabel('正確識(shí)別率'axis(1 105 0.7 1.2% endelseif method=1stest=0;strain=0;zqgs=z

50、eros(1,100;lv=zeros(1,100;for k=1:500%index1=randperm(20;index2=randperm(37;trainno1=index1(1:13;testno1=index1(14:20;trainno2=20+index2(1:25;testno2=20+index2(26:end;% l=14;% for i=61:-1:1x=score(:,1:l;train_x=x(trainno1,:;x(trainno2,:;train_label=zeros(1,13,ones(1,25;test_x=x(testno1,:;x(testno2,:

51、;test_label=zeros(1,7,ones(1,12;ptest_label,test_accuracy,ptrain_label,train_accuracy=fun_svm_class(train_x,train_label',test_x,test_label'zqgs(k=length(find(ptest_label-test_label'=0;close allstest=stest+test_accuracy(1;strain=strain+train_accuracy(1;lv(k=test_accuracy(1/100;endmeanstes

52、t=stest/500;meanstrain=strain/500;plot(lv,'*'xlabel('重復(fù)次數(shù)'ylabel('正確識(shí)別率'axis(1 105 0.7 1.2% endendzq=minmax(zqgs;k=1;for p=zq(1:zq(2b=length(find(zqgs=p;if b=0bar_m(k=b;x_m(k=p;k=k+1;elsep=p+1endendbar(x_m,bar_mxlabel('正確識(shí)別樣本個(gè)數(shù)'ylabel('頻數(shù)'第二問(wèn)%= % 函數(shù)名:standardi

53、zation% 函數(shù)介紹:歸一化。方法:(x 基因均值)/基因方差。% 計(jì)算每類樣本的個(gè)數(shù)。% 輸入?yún)?shù):a 是原始基因表達(dá)譜數(shù)據(jù)。行是基因,列是樣本。a 的第一行是樣本標(biāo)記。0表示normal ;1表示tumor 。% 輸出參數(shù):b 是歸一化之后的a 。% style_1是normal 樣本的個(gè)數(shù)。% style_2是tumor 樣本的個(gè)數(shù)。%= function b, style_1, style_2 = standardization ( a style = a ( 1 , : ;%找到樣本標(biāo)記行。row, column = size ( a ;%對(duì)基因表達(dá)譜數(shù)據(jù)標(biāo)準(zhǔn)化。a = a (

54、2 : row , : ;%將樣本標(biāo)記行去掉。for i = 1 : row-1m = mean ( a ( i , : ;%樣本均值s = std ( a ( i , : ;%樣本方差。b ( i , : = ( a ( i , : - m ./ s;end%標(biāo)準(zhǔn)化結(jié)束%計(jì)算每類樣本的個(gè)數(shù)。style_1 = 0;%normal的個(gè)數(shù)。style_2 = 0;%tumor的個(gè)數(shù)。for i = 1 : columnif style (i = 0style_1 = style_1 + 1;elsestyle_2 = style_2 + 1;endend%計(jì)算樣本個(gè)數(shù)結(jié)束。%end of function%=% 函數(shù)名:weighted% 函數(shù)介紹:計(jì)算基因的權(quán)重向量。% 輸入?yún)?shù):data 是

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論