基于粗糙集的神經(jīng)網(wǎng)絡(luò)在模式識(shí)別中的應(yīng)用.doc_第1頁(yè)
基于粗糙集的神經(jīng)網(wǎng)絡(luò)在模式識(shí)別中的應(yīng)用.doc_第2頁(yè)
基于粗糙集的神經(jīng)網(wǎng)絡(luò)在模式識(shí)別中的應(yīng)用.doc_第3頁(yè)
基于粗糙集的神經(jīng)網(wǎng)絡(luò)在模式識(shí)別中的應(yīng)用.doc_第4頁(yè)
基于粗糙集的神經(jīng)網(wǎng)絡(luò)在模式識(shí)別中的應(yīng)用.doc_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于粗糙集的神經(jīng)網(wǎng)絡(luò)在模式識(shí)別中的應(yīng)用摘要:為解決神經(jīng)網(wǎng)絡(luò)在模式識(shí)別中存在的噪聲問題,基于粗糙集的上、下近似和邊界線集理論提出了一種對(duì)噪聲樣本進(jìn)行處理的方法。該方法主要包括對(duì)處于下近似集內(nèi)的含噪聲屬性值,將噪聲消除后轉(zhuǎn)換為理想狀態(tài)下的屬性值;對(duì)處于邊界域內(nèi)的含噪聲屬性值保持不變。當(dāng)屬性值處于邊界域內(nèi)屬性的個(gè)數(shù)與全部屬性數(shù)的比值達(dá)到某個(gè)確定的值時(shí),就認(rèn)為該樣本受到噪聲干擾過大,對(duì)其拒絕識(shí)別。通過實(shí)驗(yàn)對(duì)比表明,該方法能有效地降低BP網(wǎng)絡(luò)模式識(shí)別的誤識(shí)率。關(guān)鍵詞:粗糙集 神經(jīng)網(wǎng)絡(luò) 模式識(shí)別中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:AStudy on BP Network for Pattern Recognition Based on RS TheoryFan li meng( School of Information Engineering, Hebei University of Technology, Tianjin 300401, China )Abstract: In order to solve the noise problem of BP network for pattern recognition,proposes a method to process the noisy samples based on the upper approximations, the lowerapproximations and the boundary region theories of rough sets. The method eliminates the noise of attribute values and changes them into ideal values when they are in the lower approximations; and those attribute values with noise will remain unchanged while they are in the boundary region. The sample will be refused to recognize if the percent of its attributes with their values in the boundary region is over a certain point. The results of experiment show that the method can effectively reduce the false recognition rate of BP network for pattern recognition.Keywords: rough sets,BP network,pattern recognition1 前言神經(jīng)網(wǎng)絡(luò)在模式識(shí)別中的應(yīng)用十分廣泛,由于網(wǎng)絡(luò)訓(xùn)練樣本中存在大量的冗余信息,常導(dǎo)致神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、訓(xùn)練速度較慢、識(shí)別率不高等問題。粗糙集理論是一種處理含糊和不精確性問題的新型數(shù)學(xué)工具。自1982年波蘭科學(xué)家Z.Pawlak 提出該理論以來,發(fā)展十分迅速。粗糙集理論具有強(qiáng)大的定性分析能力,不需要預(yù)先給定某些特征或?qū)傩缘臄?shù)量描述,能有效地分析和處理不精確、不完整、不一致數(shù)據(jù),可以發(fā)現(xiàn)數(shù)據(jù)間隱藏的關(guān)系,提取有用的信息,簡(jiǎn)化信息處理。粗糙集的主要特點(diǎn)之一便是在分類能力保持不變的前提下,通過對(duì)知識(shí)的約簡(jiǎn),導(dǎo)出概念的分類規(guī)則。近年來粗糙集理論在模式識(shí)別、機(jī)器學(xué)習(xí)、故障診斷、知識(shí)獲取與發(fā)現(xiàn)、決策分析與支持等領(lǐng)域取得了較為成功的應(yīng)用。本文根據(jù)粗糙集的優(yōu)點(diǎn),在神經(jīng)網(wǎng)絡(luò)中引入粗糙集方法可有效地改善神經(jīng)網(wǎng)絡(luò)對(duì)有噪聲、有冗余或不確定值數(shù)據(jù)輸入模式的處理能力。粗糙集對(duì)神經(jīng)網(wǎng)絡(luò)和識(shí)別技術(shù)具有明顯的方法學(xué)意義,特別是在模糊或不精確知識(shí)的表達(dá)、機(jī)器學(xué)習(xí)、決策分析、知識(shí)發(fā)現(xiàn)、模式識(shí)別等領(lǐng)域。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練前,引用粗糙集理論對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本進(jìn)行屬性約簡(jiǎn),提取訓(xùn)練樣本的重要特征,使得訓(xùn)練樣本的輸入向量維數(shù)減少,進(jìn)而簡(jiǎn)化神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),提高網(wǎng)絡(luò)訓(xùn)練速度和識(shí)別率。2 方法原理(1)粗糙集基本理論知識(shí)表達(dá)系統(tǒng)為了處理智能數(shù)據(jù),需要知識(shí)的符號(hào)表達(dá),而知識(shí)表達(dá)系統(tǒng)(KRS)的基本成分是研究對(duì)象的集合,因此可以表達(dá)為: (1)這里,U是論域,即為對(duì)象的集合;Q是屬性集合,分為條件屬性集C和決策屬性集D,,;是屬性值的集合,表示了屬性的范圍;f是的映射。知識(shí)表達(dá)系統(tǒng)K有時(shí)可以簡(jiǎn)寫為:,它常用表格表達(dá)或決策表來實(shí)現(xiàn)。不可辨識(shí)關(guān)系對(duì)于,如果滿足,則稱對(duì)象x、y對(duì)于屬性集合P是不可辨識(shí)的。否則,稱x、y是可辨識(shí)的。由P決定的不可辨識(shí)關(guān)系記為即P中所有等價(jià)關(guān)系的交集。上近似、下近似及近似精度設(shè),,表示包含元素的P等價(jià)類,定義集合Y的下近似和上近似分別為: (2) (3)此外定義為Y的邊界或邊界區(qū)域。顯然,若或,則集合Y就是一個(gè)粗糙集概念。稱為集合Y 的P -正區(qū)域(P-positive region),稱為集合Y 的P -反區(qū)域(P negative region)。知識(shí)的依賴性設(shè)K = (U, R)是一個(gè)知識(shí)庫(kù),P,Q R。當(dāng)且僅當(dāng)ind(P) ind(Q),則稱Q依賴于P或P可推導(dǎo)出Q ,記做P Q 。當(dāng)且僅當(dāng)P Q 且Q P ,即ind(P) = ind(Q) ,則稱P 和Q 是等價(jià)的,記作P = Q。當(dāng)且僅當(dāng)PQ且Q P均不成立,則稱P和Q是獨(dú)立的,記P Q。依賴性也可以是部分成立的,部分依賴性(部分可推導(dǎo)性)可以由知識(shí)的正區(qū)域來定義,即 (4)我們稱知識(shí)Q以依賴度k(0 k 1)依賴于知識(shí)P ,記作 。當(dāng)k = 1,則稱知識(shí)Q完全依賴于知識(shí)P,即也記做PQ;當(dāng)0 k 1,則稱知識(shí)Q部分依賴于知識(shí)P;當(dāng)k = 0,則稱知識(shí)Q完全獨(dú)立于知識(shí)P。屬性的重要性按照式(4),條件屬性C和決策D間的依賴度可以寫成。根據(jù)依賴度的變化,可以定義屬性子集C C 關(guān)于D的重要性為: (5)特別當(dāng)C= a時(shí),屬性aC關(guān)于D的重要性為: (6)一般來說,屬性重要性即指屬性在信息表中的重要程度,其數(shù)值大,則重要性高;反之,其重要性低。在相對(duì)屬性約簡(jiǎn)中,屬性重要性主要用來作為啟發(fā)式信息。目前,關(guān)于屬性重要性的定義有多種,比如有根據(jù)信息熵和根據(jù)差別矩陣出現(xiàn)的頻度等形式的定義,不同定義下的屬性重要性計(jì)算結(jié)果可能有所變化。BP神經(jīng)網(wǎng)絡(luò)BP 網(wǎng)絡(luò)是一種多層前饋型神經(jīng)網(wǎng)絡(luò),采用BP 算法進(jìn)行訓(xùn)練神經(jīng)元的參數(shù)值。一般由輸入層、隱層、輸出層組成,隱層可以為一層或多層(如圖1 所示),其神經(jīng)元的傳遞函數(shù)是S型函數(shù),權(quán)值和閾值采用反向傳播算法進(jìn)行調(diào)節(jié)。有理論證明,它可以實(shí)現(xiàn)從輸入到輸出的任意非線性映射。目前,在人工神經(jīng)網(wǎng)絡(luò)的實(shí)際應(yīng)用中,絕大多數(shù)的神經(jīng)網(wǎng)絡(luò)的模型都采用BP 網(wǎng)絡(luò)及其變化形式。它也是前向網(wǎng)絡(luò)的核心部分,體現(xiàn)了人工神經(jīng)網(wǎng)絡(luò)的精華。圖1 多層前向BP網(wǎng)絡(luò)當(dāng)神經(jīng)網(wǎng)絡(luò)用于模式識(shí)別時(shí),輸入層神經(jīng)元的個(gè)數(shù)由構(gòu)成實(shí)體的屬性個(gè)數(shù)決定,隱層根據(jù)相關(guān)定理只要一層就可以了,隱層神經(jīng)元的個(gè)數(shù)需要根據(jù)經(jīng)驗(yàn)值進(jìn)行確定,輸出層神經(jīng)元的個(gè)數(shù)根據(jù)表示目標(biāo)值的向量維數(shù)進(jìn)行確定。BP 學(xué)習(xí)算法簡(jiǎn)要介紹如下:Step1置各權(quán)值或閾值的初始值,為小的隨機(jī)數(shù)值;Step2提供訓(xùn)練樣本:輸入矢量,期望輸出,k=1,2,P,對(duì)每個(gè)樣本進(jìn)行下面Step3Step5的迭代;Step3計(jì)算網(wǎng)絡(luò)的實(shí)際輸出及隱層單元的狀態(tài) (7)Step4計(jì)算訓(xùn)練誤差輸出層:;隱含層:Step5修正權(quán)值和閾值 (8) (9)Step6當(dāng)k每經(jīng)歷1至P后,判斷指標(biāo)是否滿足精度要求:;為精度;Step7結(jié)束。 基于粗糙集理論的神經(jīng)網(wǎng)絡(luò)近些年來,人們對(duì)于神經(jīng)網(wǎng)絡(luò)的研究主要局限于學(xué)習(xí)算法、網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、網(wǎng)絡(luò)初始參數(shù)等的研究等,甚少涉及對(duì)訓(xùn)練樣本進(jìn)行研究。由于網(wǎng)絡(luò)訓(xùn)練樣本中存在大量冗余信息,常導(dǎo)致神經(jīng)網(wǎng)絡(luò)輸入向量復(fù)雜,訓(xùn)練速度較慢,識(shí)別率不高。本文試圖結(jié)合粗糙集和神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),在神經(jīng)網(wǎng)絡(luò)訓(xùn)練前,引用粗糙集理論對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本進(jìn)行屬性約簡(jiǎn),提取訓(xùn)練樣本的重要特征,使得訓(xùn)練樣本的輸入向量維數(shù)減少,進(jìn)而簡(jiǎn)化神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),提高網(wǎng)絡(luò)訓(xùn)練速度和識(shí)別率,粗糙集與神經(jīng)網(wǎng)絡(luò)集成使用的模型如圖2 所示。圖2 基于粗糙集與神經(jīng)網(wǎng)絡(luò)集成的模式設(shè)別通過對(duì)國(guó)內(nèi)外相關(guān)文獻(xiàn)進(jìn)行檢索發(fā)現(xiàn),粗糙集在神經(jīng)網(wǎng)絡(luò)中應(yīng)用得最成熟的方面就是對(duì)輸入的預(yù)處理,也就是對(duì)訓(xùn)練樣本的選取。一般情況下,訓(xùn)練集往往會(huì)有很多冗余,神經(jīng)網(wǎng)絡(luò)用這樣的訓(xùn)練集訓(xùn)練往往會(huì)造成過擬合現(xiàn)象,粗糙集分析可以過濾這些冗余的例子,從而提高神經(jīng)網(wǎng)絡(luò)的泛化能力。Lingras 就構(gòu)造了一種粗糙神經(jīng)元,可以將粗糙集應(yīng)用于神經(jīng)元的設(shè)計(jì)中。粗糙集的數(shù)據(jù)分析方法對(duì)原始訓(xùn)練樣本進(jìn)行約簡(jiǎn)操作,在保持原有分類能力不變的情況下保留有用屬性,刪除冗余屬性,從而降低原始數(shù)據(jù)樣本的維數(shù)。它一方面提高了數(shù)據(jù)的代表性,減少了噪聲的干擾,使訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò)不容易出現(xiàn)過擬合現(xiàn)象;另一方面減少了訓(xùn)練數(shù)據(jù)的維數(shù),使訓(xùn)練時(shí)間得以減少,提高了效率。是否選用粗糙集對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本進(jìn)行數(shù)據(jù)約簡(jiǎn),應(yīng)該有一定的評(píng)價(jià)標(biāo)準(zhǔn)。以下4 條標(biāo)準(zhǔn)是較為認(rèn)可的:使用和不使用粗糙集進(jìn)行數(shù)據(jù)預(yù)處理,分類質(zhì)量的變化;使用粗糙集進(jìn)行數(shù)據(jù)預(yù)處理后,以神經(jīng)元數(shù)和連接數(shù)度量的網(wǎng)絡(luò)大小的變化;為完成期望效果的學(xué)習(xí),以必需的學(xué)習(xí)時(shí)間(學(xué)習(xí)步數(shù)) 度量的學(xué)習(xí)效率的變化;網(wǎng)絡(luò)的靈活性(即泛化能力、識(shí)別未知對(duì)象的能力)。粗糙集與神經(jīng)網(wǎng)絡(luò)結(jié)合,在這方面應(yīng)用的一般步驟如下:由原數(shù)據(jù)集構(gòu)造決策表,使用粗糙集數(shù)據(jù)分析方法尋找其最小約簡(jiǎn)(屬性約簡(jiǎn)即可,不必屬性值約簡(jiǎn))和核;根據(jù)最小約簡(jiǎn)刪除決策表中的冗余屬性;根據(jù)約簡(jiǎn)后的數(shù)據(jù)集構(gòu)建神經(jīng)網(wǎng)絡(luò);采用BP 學(xué)習(xí)算法訓(xùn)練神經(jīng)元,直至收斂達(dá)到精度要求;利用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別。3應(yīng)用實(shí)例為了檢驗(yàn)基于粗糙集理論去噪預(yù)處理的BP網(wǎng)絡(luò)識(shí)別模型識(shí)別含噪聲樣本的能力,將該模型用于含噪聲英文字母的識(shí)別。每個(gè)字母樣本為一個(gè)5 7的布爾網(wǎng)格,可表示為一個(gè)35維的向量。理想的字母樣本向量中的每個(gè)元素取值只能是0或1;對(duì)理想的字母樣本加入均值為0,標(biāo)準(zhǔn)差為0. 0 0. 4的隨機(jī)噪聲構(gòu)成含噪聲的字母樣本(實(shí)際應(yīng)用該模型時(shí)只要噪聲大小不超過上述范圍,識(shí)別效果與添加隨機(jī)噪聲的效果相同) 。理想的字母樣本和含噪聲的字母樣本如圖3所示(以A字母為例) 。圖3字母樣本示例根據(jù)基于粗糙集理論的去噪方法,可以運(yùn)用下式對(duì)噪聲樣本進(jìn)行去噪(式中所選擇的參數(shù)值是經(jīng)過多次實(shí)驗(yàn)得到的一個(gè)較優(yōu)的值) : (10)(1) 并選擇,即噪聲因子閾值, BP網(wǎng)絡(luò)采用3層結(jié)構(gòu),隱層神經(jīng)元設(shè)置為10個(gè), 測(cè)試該模型識(shí)別帶噪聲字母的能力。測(cè)試結(jié)果如圖3所示。圖4字母識(shí)別測(cè)試結(jié)果圖4中,曲線1為使用帶噪聲的信號(hào)對(duì)BP網(wǎng)絡(luò)進(jìn)行訓(xùn)練后的誤識(shí)率; 曲線2為采用文獻(xiàn)9中使用公式 (11)去噪的誤識(shí)率;曲線3,4分別為采用粗糙集理論即式(10) 去噪后的模式識(shí)別的錯(cuò)誤率和拒識(shí)率。從圖中可以看出,使用帶噪聲的信號(hào)對(duì)BP網(wǎng)絡(luò)進(jìn)行訓(xùn)練,網(wǎng)絡(luò)在樣本噪聲方差為0. 1的時(shí)候就開始出現(xiàn)識(shí)別錯(cuò)誤,而采用公式(10)或公式(11)對(duì)樣本去噪預(yù)處理后,網(wǎng)絡(luò)在樣本噪聲方差為0. 16時(shí)誤識(shí)率依然為0。因此,當(dāng)樣本噪聲較小時(shí)采用公式(10) 或公式(11)進(jìn)行去噪預(yù)處理后,BP網(wǎng)絡(luò)可獲得更好的模式識(shí)別性能。隨著噪聲的增大,采用公式(11)去噪的誤識(shí)率顯著增加,當(dāng)噪聲方差達(dá)到0. 35時(shí)其誤識(shí)率超過使用帶噪聲的信號(hào)對(duì)BP網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí)的誤識(shí)率,因此文獻(xiàn)9 中的去噪方法只適合于噪聲較小的場(chǎng)合。而采用公式(10)去噪在噪聲較大時(shí)其誤識(shí)率依然最低,所以在樣本噪聲較大的場(chǎng)合,基于粗糙集理論的去噪方法也可以顯著地提高BP網(wǎng)絡(luò)模式識(shí)別的性能。4 結(jié)束語(yǔ)和致謝運(yùn)用粗糙集的上、下近似和邊界域理論對(duì)噪聲樣本進(jìn)行去噪,可以有效地解決BP網(wǎng)絡(luò)模式識(shí)別中的樣本噪聲干擾問題,顯著降低BP網(wǎng)絡(luò)的誤識(shí)率。實(shí)際使用該模型進(jìn)行模型識(shí)別的關(guān)鍵問題是根據(jù)噪聲大小、識(shí)別樣本的維數(shù)和實(shí)際要求的識(shí)別錯(cuò)誤率確定、和的值。應(yīng)用實(shí)例中所選擇的這些值是經(jīng)過多次實(shí)驗(yàn)得到的一個(gè)較優(yōu)的值,下一步將對(duì)模型中這些參數(shù)的選擇問題進(jìn)行進(jìn)一步的研究。衷心的感謝河北工業(yè)大學(xué)夏克文教授在百忙之中審閱此論文,同時(shí)感謝夏克文老師對(duì)本工作的指導(dǎo)。參考文獻(xiàn):1夏克文,智能信息處理2秦海鷗,基于粗糙集解決BP網(wǎng)絡(luò)模式識(shí)別中的噪聲。江南大學(xué)學(xué)報(bào)(自然科學(xué)版),20103岳昊,邵春福,趙熠. 基于BP神經(jīng)網(wǎng)絡(luò)的行人和自行車交通識(shí)別方法 J . 北京交通大學(xué)學(xué)報(bào), 20084陳先鋒, 舒志兵, 趙英凱. “彈性”BP神經(jīng)網(wǎng)絡(luò)在識(shí)別帶有噪聲字母中的應(yīng)用 J . 計(jì)算機(jī)仿真, 20055王智君,粗糙集規(guī)則簡(jiǎn)約的方法在模式識(shí)別中的應(yīng)用,微計(jì)算機(jī)應(yīng)用,20096張麗, 馬良,基于粗糙集屬性約簡(jiǎn)的模糊模式識(shí)別.上海理工大學(xué)學(xué)報(bào), 20037劉清. Rough集及Rough推理M . 北京:科學(xué)出版社, 20018WU Di, HE Yong, SHAO Yongni, et al. BP neural networks combined with PLS app lied to pattern recognition ofVis/N IRs J .Lect

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論