人工神經(jīng)網(wǎng)絡(luò)課程_第1頁
人工神經(jīng)網(wǎng)絡(luò)課程_第2頁
人工神經(jīng)網(wǎng)絡(luò)課程_第3頁
人工神經(jīng)網(wǎng)絡(luò)課程_第4頁
人工神經(jīng)網(wǎng)絡(luò)課程_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2023/9/2馬盡文1第2章前饋型人工神經(jīng)網(wǎng)絡(luò)M-P模型感知機模型與學(xué)習(xí)算法多層感知機網(wǎng)絡(luò)自適應(yīng)線性單元與網(wǎng)絡(luò)非線性連續(xù)變換單元組成的前饋網(wǎng)絡(luò)BP算法2023/9/2馬盡文22.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)

由非線性連續(xù)變換單元組成的前饋網(wǎng)絡(luò),簡稱為BP(BackPropagation)

網(wǎng)絡(luò)。網(wǎng)絡(luò)的結(jié)構(gòu)與數(shù)學(xué)描述

(i).非線性連續(xù)變換單元對于非線性連續(xù)變換單元,其輸入、輸出變換函數(shù)是非線性、單調(diào)上升、連續(xù)的即可。但在BP網(wǎng)絡(luò)中,我們采用S型函數(shù):2023/9/2馬盡文32.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)函數(shù)是可微的,并且這種函數(shù)用來區(qū)分類別時,其結(jié)果可能是一種模糊的概念。當時,其輸出不是1,而是大于0.5的一個數(shù),而當時,輸出是一個小于0.5的一個數(shù)。若用這樣一個單元進行分類,當輸出是0.8時,我們可認為屬于A類的隸屬度(或概率)為0.8時,而屬于B類的隸屬度(或概率)為0.2。2023/9/2馬盡文42.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)(ii).網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)下面以四層網(wǎng)絡(luò)為例來介紹BP網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù),一般情況類似。2023/9/2馬盡文52.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)

網(wǎng)絡(luò)的輸入輸出關(guān)系為:顯然可以將閾值歸入為特別的權(quán),從而網(wǎng)絡(luò)的參數(shù)可用表示(為一個集合)。上述網(wǎng)絡(luò)實現(xiàn)了一個多元連續(xù)影射:

2023/9/2馬盡文62.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)(iii).網(wǎng)絡(luò)的學(xué)習(xí)問題學(xué)習(xí)的目標:通過網(wǎng)絡(luò)(或)來逼近一個連續(xù)系統(tǒng),即連續(xù)變換函數(shù)。學(xué)習(xí)的條件:一組樣本(對)

對于樣本對,存在使得對于所有樣本的解空間為:

),(iiyx2023/9/2馬盡文72.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)(iv).Kolmogorov定理Kolmogorov定理(映射神經(jīng)網(wǎng)絡(luò)存在定理,1950s)給定任何連續(xù)函數(shù),則能夠被一個三層前饋神經(jīng)網(wǎng)絡(luò)所實現(xiàn),其中網(wǎng)絡(luò)的隱單元數(shù)為。注意:定理未解決構(gòu)造問題。2023/9/2馬盡文82.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)2.BP學(xué)習(xí)算法

(i).基本思想

BP算法屬于學(xué)習(xí)律,是一種有監(jiān)督學(xué)習(xí):對于輔助變量并將閾值歸入權(quán)參數(shù):則有:2023/9/2馬盡文92.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)考慮第個樣本的誤差:進一步得總誤差:引入權(quán)參數(shù)矩陣:和總權(quán)參數(shù)向量:2023/9/2馬盡文102.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)根據(jù)總誤差得到一般性的梯度算法:終止規(guī)則:這里用梯度法可以使總的誤差向減小的方向變化,直到或梯度為零結(jié)束。這種學(xué)習(xí)方式使權(quán)向量達到一個穩(wěn)定解,但無法保證達到全局最優(yōu),一般收斂到一個局部極小解。2023/9/2馬盡文112.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)(ii).BP算法的推導(dǎo)令為迭代次數(shù),則得一般性梯度下降法:其中為學(xué)習(xí)率,是一個大于零的較小的實數(shù)。先考慮對于的偏導(dǎo)數(shù):2023/9/2馬盡文122.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)在上式中,為第個樣本輸入網(wǎng)絡(luò)時,的對應(yīng)值。另外令則:為了方便,引入記號:2023/9/2馬盡文132.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)對于的偏導(dǎo)數(shù),我們有:2023/9/2馬盡文142.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)這樣我們有:類似的推導(dǎo)可得:(iii).BP算法Step1.賦予初值:Step2.在時刻,計算及其廣義誤差

2023/9/2馬盡文152.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)Step3.修正權(quán)值:

Step4.計算修正后的誤差:若,算法結(jié)束,否則返回到Step2。2023/9/2馬盡文162.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)BP算法的討論:a).這里的梯度是對于全部樣本求的,因此是一種批處理算法,即Batch-way,它符合梯度算法,穩(wěn)定地收斂到總誤差的一個極小點而結(jié)束。(注意:按總誤差小于可能導(dǎo)致算法不收斂.)b).實際中更常用的是對每個樣本修改,即自適應(yīng)算法,當每次樣本是隨機選取時,可通過隨機逼近理論證明該算法也是收斂的。特點是收斂速度快。C).為了使得算法既穩(wěn)定,又具有快的收斂速度,可以使用批處理與自適應(yīng)相補充的算法,即選取一組樣本(遠小于全部樣本)進行計算梯度并進行修正,其它不變。2023/9/2馬盡文172.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)3.BP網(wǎng)絡(luò)誤差曲面的特性

BP網(wǎng)絡(luò)的誤差公式為:是一種非線性函數(shù),而多層的BP網(wǎng)絡(luò)中又是上一層神經(jīng)元狀態(tài)的非線性函數(shù),用表示其中一個樣本對應(yīng)的誤差,則有:可見,與有關(guān),同時也與所有樣本對有關(guān),即與有關(guān)。2023/9/2馬盡文182.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)假定樣本集給定,那么是的函數(shù)。在前面考慮的4層網(wǎng)絡(luò)中,權(quán)值參數(shù)的總個數(shù)為:那么在加上這一維數(shù),在維空間中,是一個具有極其復(fù)雜形狀的曲面。如果在考慮樣本,其形狀就更為復(fù)雜,難于想象。從實踐和理論上,人們得出了下面三個性質(zhì):(i).平滑區(qū)域

2023/9/2馬盡文192.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)(ii).全局最優(yōu)解不唯一中的某些元素進行置換依然是全局最優(yōu)解,這從右邊的簡單模型可以看出。(iii).局部極小

一般情況下,BP算法會收斂到一個局部極小解,即:當,算法以希望誤差收斂;當,算法不以希望誤差收斂,但可按梯度絕對值小于預(yù)定值結(jié)束。2023/9/2馬盡文202.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)4.算法的改進

(i).變步長算法(是由一維搜索求得)

Step1.賦予初始權(quán)值和允許誤差;

Step2.在時刻,計算誤差的負梯度(方向):

Step3.若,結(jié)束;否則從出發(fā),沿做一維搜索,求出最優(yōu)步長:Step4.,轉(zhuǎn)Step2。2023/9/2馬盡文212.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)步長(學(xué)習(xí)率)的確定方法:(a).求最優(yōu)解:對求導(dǎo)數(shù),并令其為零,直接求解:(b).迭代修正法:令

2023/9/2馬盡文222.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)(ii).加動量項為了防止震蕩并加速收斂,可采用下述規(guī)則:注意:上式類似于共軛梯度法的算式,但是這里不共軛。因此可能出現(xiàn)誤差增加的現(xiàn)象,即,這時可令,即退回到原來的梯度算法。2023/9/2馬盡文232.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)(iii).加入因子當算法進入平坦區(qū),即,則。為了消除或減弱這種現(xiàn)象,引入因子,使得:(iv).模擬退火方法在所有權(quán)上加一個噪聲,改變誤差曲面的形狀,使用模擬退火的機制,使算法逃離局部極小點,達到全局最優(yōu)而結(jié)束。2023/9/2馬盡文242.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)5.BP網(wǎng)絡(luò)的設(shè)計(i).輸入輸出層的設(shè)計

BP網(wǎng)絡(luò)輸入、輸出層單元個數(shù)是完全根據(jù)實際問題來設(shè)計的,我們分三種情況討論:

A.系統(tǒng)識別這時輸入單元個數(shù)為;輸入單元個數(shù)為。nm2023/9/2馬盡文252.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)B.分類問題

(a).若,則令,這樣輸出層僅需要一個單元。

(b).若,則令:

這樣輸出層則需要個單元。

(c).二進制編碼方法對進行二進制編碼,編碼位數(shù)為2023/9/2馬盡文262.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)

,這樣輸出層僅需個單元。(ii).隱單元數(shù)與映射定理1989年,R.Hecht-Nielson證明了任何一個閉區(qū)間內(nèi)的連續(xù)函數(shù)都可以用一個三層(僅有一個隱層)BP網(wǎng)絡(luò)來逼近(任意給定精度)。

引理2.1

任意給定一個連續(xù)函數(shù)及精度,必存在一個多項式,使得不等式對任意成立。

引理2.2

任意給定一個周期為的連續(xù)函數(shù)及精度,必存在一個三角函數(shù)多項式,使得對于成立。2023/9/2馬盡文272.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)在維空間中,任一向量都可表示為

其中為的一個正交基。同樣考慮連續(xù)函數(shù)空間或,必然存在一組正交函數(shù)序列,那么對,則],[bacp2c2023/9/2馬盡文282.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)當

充分大時,對每個成立:進一步考慮中的多元連續(xù)函數(shù):

根據(jù)傅立葉級數(shù)展開理論,若則同樣存在一個步傅立葉級數(shù)和函數(shù):2023/9/2馬盡文292.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)其中系數(shù)為:并且當時,滿足即在可以完全收斂達到?,F(xiàn)在考慮對一個任意連續(xù)映射:其中,則的每個分量也都可以用上面的傅立葉級數(shù)表示,依此就可以得到下面的影射定理(定理中所考慮的三層網(wǎng)絡(luò)輸出單元為線性單元)。n]1,0[)(xh2023/9/2馬盡文302.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)映射定理(Hecht-Nielsen):給定任意精度,對于一個連續(xù)影射,其中:那么必存在一個三層BP神經(jīng)網(wǎng)絡(luò)來逼近函數(shù),使得在每點上的誤差不超過。證明:由于輸出單元是獨立的,分別與的每個分量函數(shù)相對應(yīng),我們僅需要對單個輸出單元和分量函數(shù)來證明。2023/9/2馬盡文312.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)根據(jù)傅立葉級數(shù)理論,對于的分量,則其中是的步傅立葉級數(shù)和函數(shù):下面證明傅立葉級數(shù)中任意三角函數(shù)可以用三層BP子網(wǎng)絡(luò)來逼近,那么通過傅立葉級數(shù)的線性組合就可以保證用三層BP網(wǎng)絡(luò)來逼近函。考慮結(jié)構(gòu)為的三層BP網(wǎng)絡(luò),其輸出為:)(xh)(xhj)(xhj)(xhj2023/9/2馬盡文322.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)

我們來證明輸出函數(shù)能夠逼近任何三角函數(shù):令考慮函數(shù),當,趨向于單位階躍函數(shù)(見右圖),則為一些近似單位階躍函數(shù)的線性疊加,故當充分

jau2023/9/2馬盡文332.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)大時,我們可將區(qū)間充分的細分,選取和,使得,或

即得:對于,我們有下面的展開:

2023/9/2馬盡文342.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)2023/9/2馬盡文352.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)使用充分多的隱單元,可得令2023/9/2馬盡文362.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)(iii).隱單元數(shù)的選擇隱單元數(shù):小,結(jié)構(gòu)簡單,逼近能力差,不收斂;大,結(jié)構(gòu)復(fù)雜,逼近能力強,收斂慢。對于用作分類的三層BP網(wǎng)絡(luò),可參照多層感知機網(wǎng)絡(luò)的情況,得到下面設(shè)計方法:(a).其中為樣本個數(shù),選取滿足上式最小的。(b).?.

2023/9/2馬盡文372.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)(iv).網(wǎng)絡(luò)參數(shù)初始值的選取初試權(quán):隨機,比較?。ń咏?),保證狀態(tài)值較小,不在平滑區(qū)域內(nèi)。6.BP網(wǎng)絡(luò)的應(yīng)用

(i).模式識別、分類。用于語音、文字、圖象的識別,用于醫(yī)學(xué)圖象的分類、診斷等。(ii).函數(shù)逼近與系統(tǒng)建模。用于非線性系統(tǒng)的建模,擬合非線性控制曲線,機器人的軌跡控制,金融預(yù)測等。2023/9/2馬盡文382.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)(iii).數(shù)據(jù)壓縮。在通信中的編碼壓縮和恢復(fù),圖象數(shù)據(jù)的壓縮和存儲及圖象特征的抽取等。例1.手寫數(shù)字的識別由于手寫數(shù)字變化很大,有傳統(tǒng)的統(tǒng)計模式識別或句法識別很難得到高的識別率,BP網(wǎng)絡(luò)可通過對樣本的學(xué)習(xí)得到較高的學(xué)習(xí)率。為了克服字體大小不同,我們選取這些數(shù)字的一些特征值作為網(wǎng)絡(luò)輸入。(可提取)特征如:

1,2,3,7:具有兩個端點;

0,6,8,9:具有圈;2:兩個端點前后;2023/9/2馬盡文392.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)對于一個樣本,若具有那個特征,所對應(yīng)的特征輸入單元取值為1,否則為0。我們可選擇34個特征,即輸入單元個數(shù)為34。輸出可取10個單元,即1個輸出單元對應(yīng)一個數(shù)字(該單元輸出為1,其它為0)。如果選取200個人所寫的1000個樣本進行學(xué)習(xí),使用三層BP網(wǎng)絡(luò),隱層單元數(shù)應(yīng)如何選擇呢?根據(jù)前面的經(jīng)驗公式,可得到下面結(jié)果:2023/9/2馬盡文402.3非線性連續(xù)變換單元組成的網(wǎng)絡(luò)在實際中,我們選擇

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論