版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、腫瘤基因圖譜信息提取和分類方法研究摘 要 本文主要討論了如何提取腫瘤基因圖譜信息,主要工作是對結(jié)腸癌基因表達(dá)譜的特征基因信息進(jìn)行了提取,并利用四種神經(jīng)網(wǎng)絡(luò)模型對其進(jìn)行分類識別。 對于問題一、二,本文采用了一種致癌基因信息提取與分類方法,該方法主要由四步構(gòu)成:(1)利用 距離法濾除不相關(guān)基因; (2)采用兩兩冗余分析,剔除強(qiáng)相關(guān)冗余基因;同時,采用主 成分分析方法對所選擇的基因樣本數(shù)據(jù)進(jìn)行降維處理,得 到樣本的主成分量; (3)采用四種神經(jīng)網(wǎng)絡(luò)(BP 神經(jīng)網(wǎng)絡(luò)及三種徑向基神經(jīng)網(wǎng)絡(luò)) 對特征提取后的基因數(shù)據(jù)進(jìn)行分類學(xué)習(xí),從而獲得分類 網(wǎng)絡(luò)模型; (4)采用獲得的分類網(wǎng)絡(luò)模型對測試腫瘤樣本進(jìn)行分類,
2、并采 用留一交叉檢驗法和獨立檢驗法評估四種神經(jīng)網(wǎng)絡(luò)分類 器性能。 結(jié)果表明:本文所采用的特征提取方法能有效提出與腫瘤相關(guān)的信息基因,選取的特征基因子集包含9 個基因,且采用概率神經(jīng)網(wǎng)絡(luò)(PNN)的分類識別準(zhǔn)確率(77.27%)最高。 關(guān)鍵詞:腫瘤基因;特征提取;分類識別;一、問題重述 癌癥起源于正常組織在物理或化學(xué)致癌物的誘導(dǎo)下,基因組發(fā)生的突變,即基因在結(jié)構(gòu)上發(fā)生堿基對的組成或排列順序的改變,因而改變了基因原來的正常分布(即所包含基因的種類和各類基因以該基因轉(zhuǎn)錄的的多少來衡量的表達(dá)水平)。所以探討基因分布的改變與癌癥發(fā)生之間的關(guān)系具有深遠(yuǎn)的意義。DNA 微陣列(DNA ),也叫基因芯片,是最
3、近數(shù)年發(fā)展起來的一種能快速、高效檢測DNA 片段序列、基因表達(dá)水平的新技術(shù)。它將數(shù)目從幾百個到上百萬個不等的稱之為探針的核苷酸序列固定在小的玻璃或硅片等固體基片或膜上,該固定有探針的基片就稱之為DNA 微陣列。根據(jù)核苷酸分子在形成雙鏈時遵循堿基互補(bǔ)原則,就可以檢測出樣本中與探針陣列中互補(bǔ)的核苷酸片段,從而得到樣本中關(guān)于基因表達(dá)的信息,這就是基因表達(dá)譜,因此基因表達(dá)譜可以用一個矩陣或一個向量來表示,矩陣或向量元素的數(shù)值大小即該基因的表達(dá)水平。 隨著大規(guī)?;虮磉_(dá)譜技術(shù)的發(fā)展,人類各種組織的正常的基因表達(dá)已經(jīng)獲得,各類病人的基因表達(dá)分布圖都有了參考的基準(zhǔn),因此基因表達(dá)數(shù)據(jù)的分析與建模已經(jīng)成為生物信
4、息學(xué)研究領(lǐng)域中的重要課題。從DNA 芯片所測量的成千上萬個基因中,找出決定樣本類別的一組基因“標(biāo)簽”,即“信息基因”是正確識別腫瘤類型、給出可靠診斷和簡化實驗分析的關(guān)鍵所在。 通常由于基因數(shù)目很大,在判斷腫瘤基因標(biāo)簽的過程中,需要剔除掉大量“無關(guān)基因”,從而大大縮小需要搜索的致癌基因范圍。事實上,在基因表達(dá)譜中,一些基因的表達(dá)水平在所有樣本中都非常接近。因此,必須對這些“無關(guān)基因”進(jìn)行剔除。但信噪比肯定不是衡量基因?qū)颖痉诸愗暙I(xiàn)大小的唯一標(biāo)準(zhǔn),腫瘤是致癌基因、抑癌基因、促癌基因和蛋白質(zhì)通過多種方式作用的結(jié)果,在確定某種腫瘤的基因標(biāo)簽時,應(yīng)該設(shè)法充分利用其他有價值的信息。有專家認(rèn)為在基因分類研究
5、中忽略基因低水平表達(dá)、差異不大的表達(dá)的傾向應(yīng)該被糾正,與臨床問題相關(guān)的主要生理學(xué)信息應(yīng)該融合到基因分類研究中。 面對提取基因圖譜信息這樣前沿性課題,以下幾點是解決前沿性課題的有價值的工作。 (1)由于基因表示之間存在著很強(qiáng)的相關(guān)性,所以對于某種特定的腫瘤,似乎會有大量的基因都與該腫瘤類型識別相關(guān),但一般認(rèn)為與一種腫瘤直接相關(guān)的突變基因數(shù)目很少。對于給定的數(shù)據(jù),如何從上述觀點出發(fā),選擇最好的分類因素? (2)相對于基因數(shù)目,樣本往往很小,如果直接用于分類會造成小樣本的學(xué)習(xí)問題,如何減少用于分類識別的基因特征是分類問題的核心,事實上只有當(dāng)這種特征較少時,分類的效果才更好些。對于給定的結(jié)腸癌數(shù)據(jù)如何
6、從分類的角度確定相應(yīng)的基因“標(biāo)簽”? (3)基因表達(dá)譜中不可避免地含有噪聲,有的噪聲強(qiáng)度甚至較大,對含有噪聲的基因表達(dá)譜提取信息時會產(chǎn)生偏差。通過建立噪聲模型,分析給定數(shù)據(jù)中的噪聲能否對確定基因標(biāo)簽產(chǎn)生有利的影響? (4)在腫瘤研究領(lǐng)域通常會已知若干個信息基因與某種癌癥的關(guān)系密切,建立融入了這些有助于診斷腫瘤信息的確定基因“標(biāo)簽”的數(shù)學(xué)模型。二、問題分析 本文問題的關(guān)鍵在于如何對基因表達(dá)譜數(shù)據(jù)進(jìn)行大幅度降維。 對于問題一,就某種特定的腫瘤來說,一般認(rèn)為與一種腫瘤直接相關(guān)的突變基因數(shù)目很少,但由于基因表示之間存在著很強(qiáng)的相關(guān)性,因而總會有大量的基因都與該腫瘤類型識別相關(guān)。所以,首先根據(jù)給定基因數(shù)
7、據(jù),采用某一種基因相關(guān)性篩選方法進(jìn)行基因初選。根據(jù)數(shù)據(jù)分布得到的經(jīng)驗值得到選擇信息基因的個數(shù)。 對于問題二,相對于基因數(shù)目,樣本往往很小,如果直接用于分類會造成小樣本的學(xué)習(xí)問題,如何減少用于分類識別的基因特征是分類問題的核心,事實上只有當(dāng)這種特征較少時,分類的效果才更好些。所以,第二步需要采用特征提取方法從初選出的信息基因子集中提取分類特征信息,因為這些初選出來的信息基因相互之間存在高度的相關(guān)性,而具有這個特點的數(shù)據(jù)集也適合于采用諸如主成分分析這類降維方法。三、模型假設(shè)1、所給基因數(shù)據(jù)不含奇異數(shù)據(jù);2、基因的功能與作用是多個基因集體作用的結(jié)果;3、與一種腫瘤直接相關(guān)的突變基因數(shù)目很少;4、 符
8、號約定符號意義B(g)基因g的 Bhattacharyya 距離 基因 在訓(xùn)練樣本集中表達(dá)水平間的Pearson 相關(guān)系數(shù); 相關(guān)系數(shù)矩陣網(wǎng)絡(luò)輸入向量網(wǎng)絡(luò)目標(biāo)向量中間層單元輸入向量中間層單元輸出向量輸出層單元輸入向量輸出層單元輸出向量輸入層至中間層的連接權(quán)中間層至輸出層的連接權(quán)中間層各單元的輸出閾值,輸出層各單元的輸出閾值,信息基因的可信度,神經(jīng)網(wǎng)絡(luò)輸出結(jié)果賦予權(quán)值,五、問題一、二的分析、建模與求解 腫瘤分類特征基因選取的目的在于從原始基因集合中提取出一組最能反映樣本分類特性的基因以準(zhǔn)確地刻畫出事物的分類模型,從而為最終確定腫瘤分類與分型的基因標(biāo)記物提供可靠線索。該特征基因集合應(yīng)包含盡可能完整
9、的樣本分類信息,即不丟失原始基因集合中所蘊(yùn)含的樣本分類信息,可利用有效的分類器實現(xiàn)對基因樣本的準(zhǔn)確分類。 鑒于基因表達(dá)數(shù)據(jù)存在維數(shù)高、噪音大、樣本數(shù)量小以及基因表達(dá)之間存在很大相關(guān)性等特點,本文設(shè)計了一種致癌基因信息提取與分類方法。該方法的框架模型主要由下述五步構(gòu)成:第一步 信息基因選擇。采用 距離衡量基因含有樣本分類信息的 多少,濾除不相關(guān)基因;第二步 冗余基因剔除。采用兩兩冗余分析,剔除強(qiáng)相關(guān)冗余基因;第三步 提取主成分分量。采用主成分分析(PCA)方法對所選擇的基因樣本數(shù)據(jù) 進(jìn)行降維處理,得到樣本的主成分分量;第四步 分類模型訓(xùn)練和最優(yōu)基因組合篩選。對特征提取后的基因數(shù)據(jù)形成的 個候選基
10、因子集分別采用神經(jīng)網(wǎng)絡(luò)(BP 神經(jīng)網(wǎng)絡(luò)及三種徑向基神經(jīng) 網(wǎng)絡(luò))進(jìn)行分類學(xué)習(xí),訓(xùn)練網(wǎng)絡(luò)權(quán)值,得到分類網(wǎng)絡(luò)模型和最優(yōu)基因組 合;第五步 測試分類模型。采用獲得的分類網(wǎng)絡(luò)模型對測試腫瘤樣本進(jìn)行分類,并 采用留一檢驗法和獨立檢驗法評估四種神經(jīng)網(wǎng)絡(luò)分類器性能。5.1 數(shù)據(jù)的預(yù)處理5.1.1 剔除原始數(shù)據(jù)中相同基因 由于樣本中存在大量的來源于一個基因樣本的多次重復(fù)試驗數(shù)據(jù),為保證在特征提取和分類時,這些數(shù)據(jù)之間的相關(guān)性不對結(jié)果產(chǎn)生較大影響,該過程同時可在一定程度上消除數(shù)據(jù)的系統(tǒng)偏差。處理后,原始數(shù)據(jù)由2000 維降到1909 維。5.1.2 歸一化 本文使用的特征提取方法和人工神經(jīng)網(wǎng)絡(luò)分類識別算法要求首先
11、對輸入數(shù)進(jìn)行歸一化處理。 5.2 類別無關(guān)基因的濾除 由于只有少數(shù)基因與樣本某一特定的表型(生物類別)相關(guān),其余大部分基因是同該表型無關(guān)的“類別無關(guān)基因”。為有效選取樣本的分類特征,本文首先利用基因之間的距離作為衡量基因含有樣本分類信息多少的量。距離體現(xiàn)了屬性在兩個不同樣本中分布的差異,這種差異既包含了屬性在不同類別分布均值的差異,同時也考慮了樣本分布方差不同對分類的貢獻(xiàn)。其具體模型為: 式中 和分別為基因 在兩類不同樣本中的表達(dá)水平的均值,和為相應(yīng)的標(biāo)準(zhǔn)差。基因的距離越大,該基因在兩類樣本中表達(dá)水平的分布差異也就越大,對樣本分類的能力也就越強(qiáng)。 根據(jù)公式計算了每個基因的 距離,并作出了基因的
12、距離分布的直方圖,如圖所示。 本文選擇的 1709 個具有較小 距離的基因作為類別無關(guān)基因予以剔除,余下的200 個基因作為進(jìn)一步分析的基礎(chǔ)。其距離值可認(rèn)為是基因信息指數(shù)。5.3 強(qiáng)相關(guān)性冗余基因的剔除 從分類的角度看,上文得到個基因就可以作為分類特征基因。然而,在這個基因中還可能存在冗余,這些冗余基因的存在與否并不會影響到整個分類特征基因集合的樣本分類能力。因此,本文進(jìn)一步應(yīng)用兩兩冗余分析算法2計算初選后的任意兩個基因表達(dá)水平間的相關(guān)系數(shù),若其相關(guān)系數(shù)大于指定閾值,則認(rèn)為兩個基因是強(qiáng)相關(guān)的,排除二者中分類信息指數(shù)較小的那個基因,使排除冗余后的分類特征基因集合具有較大的分類信息指數(shù)。兩兩冗余分
13、析算法的偽代碼如下:(1) 對個基因按分類信息指數(shù)由大到小排序,得到有序基因集合(2) (3) 其中, 為的勢, 用來計算基因在訓(xùn)練樣本集中表達(dá)水平間的Pearson 相關(guān)系數(shù),具體計算公式如下:n式中 為基因 、在訓(xùn)練集第k 個樣本中的表達(dá)水平值,分別為、在訓(xùn)練集所有樣本中表達(dá)水平的均值。Threshold 為指定的相關(guān)系數(shù)閾值。兩兩冗余分析算法的程序流程如下圖所示:本文選用閾值為0.5,最后得到27個信息基因。5.4 基于主成分分析的降維處理 上述特征選擇方法提取出信息基因維數(shù)仍然較高,所以需要進(jìn)行降維處理,即用較少的幾個綜合指標(biāo)來代替原來較多的變量指標(biāo),而且使這些較少的綜合指標(biāo)既能盡量多
14、地反映原來較多指標(biāo)所反映的信息,同時它們之間又是彼此獨立的。主成分分析是把原來多個變量化為少數(shù)幾個綜合指標(biāo)的一種統(tǒng)計分析方法,本文將利用主成分分析法(PCA)3,4對信息基因進(jìn)行降維處理。對進(jìn)行主成分分析并從中提取主成分分量。為使樣本集在降維過程中所引起的平方誤差最小,必須進(jìn)行兩方面的工作:一是用雅可比方法求解正交變換矩陣;二是選取w個主成分分量,w < p。PCA的計算過程主要分三步進(jìn)行:第一步 將矩陣 中的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理(均值為0,方差為1),即對樣 本集中元素作變換: 第二步 為消除量綱對評價結(jié)果的影響,得到標(biāo)準(zhǔn)化后的矩陣 。計算樣本 矩陣的相關(guān)系數(shù)矩陣R 。 第三步 對于相關(guān)
15、系數(shù)矩陣R ,采用雅可比方法求特征方程 的個 非負(fù)特征值, 的特征向量為, 并且滿足 第四步 選擇 個主成分分量,使得前面?zhèn)€主成分的方差和占全部總方差 的比例并使所選的這個主成分盡可能多地保留原來 個基因的信息,得到的主成分矩陣記為。采用上述數(shù)據(jù)處理措施后選取的特征基因子集中含15個基因:X53799、M29273、U21914、L00352、D14520、X90858、R80427、X75208、D29808、M59807、D13627、M22760、R56070、Y00062、R50158。5.5 基于神經(jīng)網(wǎng)絡(luò)模型的致癌基因分類方法5.5.1 本文選用的幾種神經(jīng)網(wǎng)絡(luò)模型(1)BP 神經(jīng)網(wǎng)絡(luò)
16、模型(BPNN) BPNN 由輸入層、輸出層以及一個或多個隱含層組成。本文采用單隱含層的三層神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),如圖5-4 所示。輸入層神經(jīng)元數(shù)目和樣本數(shù)相同,隱含層神經(jīng)元個數(shù)一般通過實驗或根據(jù)經(jīng)驗值選取,輸出層神經(jīng)元個數(shù)為1。BP 算法的學(xué)習(xí)訓(xùn)練過程由正向傳播和反向傳播兩階段組成。在正向傳播過程中,樣本數(shù)據(jù)從輸入層經(jīng)過隱含層傳遞函數(shù)的處理傳向輸出層。如果輸出層得不到期望的輸出,則轉(zhuǎn)入反向傳播過程,將誤差信號沿原來正向傳播的通路返回,利用均方誤差和梯度下降法來實現(xiàn)對網(wǎng)絡(luò)連接權(quán)的修正,以調(diào)整網(wǎng)絡(luò)的實際輸出與指導(dǎo)學(xué)習(xí)信號之間的均方誤差值。此過程反復(fù)進(jìn)行,直至滿足指定誤差要求達(dá)到最大訓(xùn)練次數(shù)終止。 設(shè)
17、網(wǎng)絡(luò)輸入向量為,實際輸出為 ,期望的輸出為。中數(shù)據(jù)分為兩類,表示正常,表示異常。給定隱含層或輸出層的神經(jīng)元,其輸入為,其中是由上一層的神經(jīng)元到神經(jīng)元的連接權(quán);傳遞函數(shù)是神經(jīng)元的輸出;是神經(jīng)元的偏置。對于訓(xùn)練集中的第個樣本,其誤差函數(shù)為 通常利用梯度下降法求誤差函數(shù)的極小值,即,其中,為學(xué)習(xí)速率,其值大于零。(2)徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)模型(RBFNN) RBF 網(wǎng)絡(luò)的學(xué)習(xí)過程分為三個階段。第一階段:根據(jù)所有輸入樣本決定高斯基函數(shù)的中心值和平滑因子;第二階段:利用最小二乘原則,求出輸出層的權(quán)值;第三階段:根據(jù)指導(dǎo)學(xué)習(xí)信號校正網(wǎng)絡(luò)參數(shù),以進(jìn)一步提高網(wǎng)絡(luò)的精度。RBF 網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)由輸入層、徑向基層和
18、輸出層組成,如圖5-5 所示。 輸入層接收來自訓(xùn)練樣本的值,其神經(jīng)元數(shù)目和樣本數(shù)相同,傳遞函數(shù)是線性的。 徑向基層神經(jīng)元采用高斯函數(shù)作傳遞函數(shù)(也稱基函數(shù)),第個徑向基層神經(jīng)元的輸出為,輸出范圍在和之間,其中是平滑因子,其取值確定了以樣本點為中心的高斯函數(shù)的寬度,一般 的選取要足夠大,以保證徑向基神經(jīng)元的響應(yīng)在輸入空間能夠交迭。高斯函數(shù)是一種中徑向?qū)ΨQ衰減的非負(fù)非線性函數(shù),表示形式簡單且解析性好,便于進(jìn)行理論分析。高斯函數(shù)對輸入信號將在局部產(chǎn)生響應(yīng),當(dāng)輸入樣本越靠近基函數(shù)的中央范圍時,徑向基層節(jié)點輸出值越大,因而PNN 具有局部逼近能力,學(xué)習(xí)速度更快。 輸出層的傳遞函數(shù)為徑向基層神經(jīng)元輸出的線
19、性組合。(3)概率函數(shù)神經(jīng)網(wǎng)絡(luò)模型(PNN) 概率神經(jīng)網(wǎng)絡(luò)(PNN)是一種徑向基神經(jīng)網(wǎng)絡(luò)模型,采用 提出的由高斯函數(shù)為核函數(shù)形成聯(lián)合概率密度分布的估計方法和貝葉斯優(yōu)化規(guī)則。它基于統(tǒng)計原理,計算能逼近貝葉斯最優(yōu)判決式的非線性決策邊界,在分類功能上與最優(yōu)貝葉斯分類器等價。其拓?fù)浣Y(jié)構(gòu)由輸入層、模式層、累加層和輸出層(決策層)組成,如圖5-6 所示。 輸入層接收來自訓(xùn)練樣本的值,其傳遞函數(shù)是線性的,直接將輸入樣本傳遞給模式層。 模式層神經(jīng)元將輸入向量的各個分量進(jìn)行加權(quán)求和后采用一個非線性算子運算,其中,是平滑因子,表示各類樣本之間的影響程度。 累加層接收來自模式層的運算結(jié)果,其節(jié)點只與相應(yīng)類別的樣本節(jié)
20、點相連,計算概率密度函數(shù),從而得到輸入樣本屬于某類的最大可能性。 輸出層為模式后驗概率估計。神經(jīng)元數(shù)目等于訓(xùn)練樣本數(shù)據(jù)的種類數(shù),每個神經(jīng)元分別對應(yīng)于一個數(shù)據(jù)類別。該層神經(jīng)元是一種競爭神經(jīng)元,它接收從累加層輸出的各類概率密度函數(shù),尋找概率密度函數(shù)最大的神經(jīng)元,所對應(yīng)的類即為待識別的樣本模式類別。(4)廣義回歸神經(jīng)網(wǎng)絡(luò)模型(GRNN) 廣義回歸神經(jīng)網(wǎng)絡(luò)(General Regression Neural Network, GRNN)是在概率神經(jīng)網(wǎng)絡(luò)基礎(chǔ)之上提出的另一種徑向基神經(jīng)網(wǎng)絡(luò)模型,建立在非參數(shù)核回歸的數(shù)理統(tǒng)計基礎(chǔ)上,以樣本數(shù)據(jù)為后驗條件,執(zhí)行非參數(shù)估計,網(wǎng)絡(luò)最后收斂于樣本量積聚最多的優(yōu)化回歸
21、面。GRNN 的拓?fù)浣Y(jié)構(gòu)由輸入層、模式層、累加層和輸出層組成。 輸入層接收來自訓(xùn)練樣本的值,傳遞函數(shù)是線性的,直接將輸入樣本傳遞給模式層。 模式層又稱隱回歸層,神經(jīng)元的個數(shù)等于訓(xùn)練樣本數(shù)。模式層中采用高斯函數(shù)作傳遞函數(shù)。訓(xùn)練過程中通過改變平滑因子 的值,從而調(diào)整模式層中各神元的傳遞函數(shù),以獲得最佳的回歸估計結(jié)果。取值越大則基函數(shù)越平滑,在訓(xùn)練樣本數(shù)目一定的情況下,平滑因子值的變化影響概率密度函數(shù)值的變化,進(jìn)而影響最終預(yù)測結(jié)果。 累加層接收來自模式層的運算結(jié)果,神經(jīng)元數(shù)目為樣本向量的維數(shù)加1,包括兩種類型神經(jīng)元,其中個神經(jīng)元計算所有模式層神經(jīng)元輸出的加權(quán)和,稱為分子單元;另一個神經(jīng)元計算所有模式
22、層神經(jīng)元的輸出之和,稱為分母單元。輸出層將累加層分子單元和分母單元的輸出相除,算得樣本的估計值。5.5.2 神經(jīng)網(wǎng)絡(luò)致癌基因分類模型的建立 神經(jīng)網(wǎng)絡(luò)模型的輸入層節(jié)點數(shù)設(shè)置為訓(xùn)練樣本的基因個數(shù);隱層節(jié)點數(shù)為輸入層節(jié)點數(shù)的倍;由于輸出目標(biāo)為區(qū)分腫瘤樣本和正常樣本,故輸出層節(jié)點數(shù)設(shè)為,輸出目標(biāo)函數(shù)的值表示訓(xùn)練樣本類別,其中“”表示正常樣本,“”表示腫瘤樣本。輸入向量的第個分量對應(yīng)訓(xùn)練集中樣本的第個基因。 基于給定數(shù)據(jù)本文建立了四種神經(jīng)網(wǎng)絡(luò)分類器模型,分別為下面以神經(jīng)網(wǎng)絡(luò)為例,給出網(wǎng)絡(luò)的訓(xùn)練過程及步驟。 (1)初始化。給每個連接權(quán)值 、閥值與賦予區(qū)間內(nèi)的隨機(jī)值。 (2)用輸入基因樣本、連接權(quán) 和閥值計
23、算中間層各單元的輸入,然后用通過傳遞函數(shù)計算中間層各單元的輸出。 (3)利用中間層的輸出、連接權(quán)和閥值計算輸出層各單元的輸出,然后利用通過傳遞函數(shù)計算輸出層各單元的響應(yīng)。 (4)利用網(wǎng)絡(luò)目標(biāo)向量,網(wǎng)絡(luò)的實際輸出,計算輸出層的各單元一般化誤差。 (5)利用連接權(quán) 、輸入層的一般化誤差和中間層的輸出計算中間層各單元的一般化誤差。 (6)利用輸出層各單元的一般化誤差與中間層各單元的輸出來修正連接權(quán)和閥值。 (7)利用中間層各單元的一般化誤差,輸出層各單元的輸入來修正連接權(quán)和閥值。 (8)隨機(jī)選取下一個學(xué)習(xí)樣本向量提供給網(wǎng)絡(luò),返回到步驟,直到個訓(xùn)練樣本樣本完畢。 (9)重新從個學(xué)習(xí)樣本中隨機(jī)選取一組輸
24、入和目標(biāo)樣本,返回步驟(3),直到網(wǎng)絡(luò)全局誤差小于預(yù)先設(shè)定的一個極小值,即網(wǎng)絡(luò)收斂。如果學(xué)習(xí)次數(shù)大于預(yù)先設(shè)定的值,網(wǎng)絡(luò)就無法收斂。 (10)訓(xùn)練學(xué)習(xí)結(jié)束。 通用的神經(jīng)網(wǎng)絡(luò)訓(xùn)練的基本流程如下圖所示: 圖 5-7 通用神經(jīng)網(wǎng)絡(luò)訓(xùn)練的基本流程5.5.3 分類實驗過程與結(jié)果分析1、實驗數(shù)據(jù)分類 在提取特征信息基因后,本文將正常樣本和腫瘤樣本按接近的比例隨機(jī)地分配到訓(xùn)練集和測試集中。如圖5-8 所示,訓(xùn)練集有個樣本,測試集有個樣本。 圖 5-8 基因表達(dá)譜實驗數(shù)據(jù)集分類2、特征基因子集篩選 采用主成分分析法得到特征基因集合中含有的11 個特征基因,可以構(gòu)成 個不同的基因組合,每個基因組合被稱為一個特征子
25、集。本文采用遍歷搜索算法對特征子集構(gòu)成的空間進(jìn)行搜索,通過二進(jìn)制編碼對個基因組合進(jìn)行標(biāo)記,通過對正確辨識率的排序,篩選出具有最佳分類能力和最少基因個數(shù)的特征基因子集,以此作為分類器的基因“標(biāo)簽”(信息基因)。通過上述方法對本文進(jìn)行試驗,得到其中種基因的結(jié)合具有最佳分類能力。表5-1列出了采用上述數(shù)據(jù)處理措施后選取的特征基因子集中個基因的基因標(biāo)簽和簡單功能描述。3、訓(xùn)練與測試實驗 由于實驗樣本少,為了獲得對候選特征子集分類能力的較為可靠的估計,采取留一交叉校驗和獨立測試實驗在訓(xùn)練集和測試集上分別檢驗分類準(zhǔn)確率。 (1)訓(xùn)練集中,采用“留一法”2(Leave-One-Out Cross Valid
26、ation, LOOCV) 校驗樣本類型:每次保留個樣本為測試樣本,其余個樣本用作神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本。重復(fù)該過程,直到所有個樣本都被用作過測試樣本為止,從而統(tǒng)計得到留一交叉檢驗的準(zhǔn)確率。 (2) 對于測試集,用訓(xùn)練集上的所有個樣本訓(xùn)練神經(jīng)網(wǎng)絡(luò),然后用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)識別測試集中個樣本的類型,從而統(tǒng)計得到“獨立測試實驗”( Independent Test, IT) 的分類準(zhǔn)確率。4、實驗結(jié)果分析 表 5-2 四種神經(jīng)網(wǎng)絡(luò)的分類準(zhǔn)確性神經(jīng)網(wǎng)絡(luò)分類器BPNNRBFNN PNN GRNN留一交叉校驗準(zhǔn)確率97.5% 97.5%97.5% 97.5%獨立測試實驗準(zhǔn)確率61.36% 63.64% 77.27% 63.64%由表5-2 可知,對四種網(wǎng)絡(luò)分類器,留一法檢驗正確率都比較高,而對于訓(xùn)練集采用獨立測試實驗時,概率神經(jīng)網(wǎng)絡(luò)(PNN)對分類的效果最好
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年全球及中國同步發(fā)電機(jī)行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025版事業(yè)單位聘用合同續(xù)簽與培訓(xùn)發(fā)展支持協(xié)議3篇
- 2025年度個人股權(quán)交易合同模板2篇
- 2025年度個人戶外用品租賃融資合同范本民間版4篇
- 科技驅(qū)動下的校園安全教育新模式
- 二零二五年度出租車企業(yè)車輛油耗監(jiān)控合同3篇
- 二零二五年度車牌租賃企業(yè)信用評估合同協(xié)議4篇
- 二零二五年度車輛維修配件無償借用合作協(xié)議4篇
- 2025年度企事業(yè)單位食堂及便利店整體承包合作協(xié)議3篇
- 跨學(xué)科教育背景下的多元職業(yè)發(fā)展
- 供油合同模板
- 《造血干細(xì)胞移植護(hù)理》課件
- 2025-2030年中國氯酸鈉產(chǎn)業(yè)十三五規(guī)劃及投資風(fēng)險評估報告
- 中央2025年公安部部分直屬事業(yè)單位招聘84人筆試歷年參考題庫附帶答案詳解
- 遼寧省葫蘆島市2024-2025學(xué)年高三上學(xué)期1月期末語文試題及參考答案
- 2025年1月浙江高考英語聽力試題真題完整版(含答案+文本+MP3)
- 《UL線材培訓(xùn)資識》課件
- 《精密板料矯平機(jī) 第1部分:型式和基本參數(shù)》
- 舞蹈課家長會
- 自來水質(zhì)量提升技術(shù)方案
- 工業(yè)自動化生產(chǎn)線操作手冊
評論
0/150
提交評論