多層神經(jīng)網(wǎng)絡解析課件_第1頁
多層神經(jīng)網(wǎng)絡解析課件_第2頁
多層神經(jīng)網(wǎng)絡解析課件_第3頁
多層神經(jīng)網(wǎng)絡解析課件_第4頁
多層神經(jīng)網(wǎng)絡解析課件_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

第六章多層神經(jīng)網(wǎng)絡第六章多層神經(jīng)網(wǎng)絡16.1引言神經(jīng)網(wǎng)絡定義一個神經(jīng)網(wǎng)絡是一個由簡單處理元構(gòu)成的規(guī)模宏大的并行分布式處理器。天然具有存儲經(jīng)驗知識和使之可用的特性。神經(jīng)網(wǎng)絡與人腦的相似性:

a.神經(jīng)網(wǎng)絡獲取的知識是從外界環(huán)境中學習得來。

b.互連神經(jīng)元的連接強度,即突觸權(quán)值,用于存儲獲取的知識。6.1引言神經(jīng)網(wǎng)絡定義神經(jīng)元模型

a.突觸權(quán)值

b.加法器—凈激活

c.激活函數(shù)輸入信號突觸權(quán)值偏置輸出求和結(jié)點激活函數(shù)輸入信號突觸權(quán)值偏置輸出求和結(jié)點激活函數(shù)6.2前饋運算和分類前饋運算定義:

a.無反饋,可用一有向無環(huán)圖表示。

b.圖的節(jié)點分為兩類,即輸入節(jié)點與計算單元。

c.每個計算單元可有任意個輸入,但只有一個輸出,而輸出可耦合到任意多個其他節(jié)點的輸入。前饋網(wǎng)絡通常分為不同的層,第i層的輸入只與第i-1層的輸出相聯(lián)。

d.輸入和輸出節(jié)點由于可與外界相連,直接受環(huán)境影響,稱為可見層,而其他的中間層則稱為隱層。如圖。6.2前饋運算和分類前饋運算定義:激活函數(shù):隱單元對它的各個輸入進行加權(quán)求和運算而形成標量的“凈激活”(netactivation,或簡稱net)。也就是說,凈激活是輸入信號與隱含層權(quán)值的內(nèi)積。

下面介紹幾種常用的激活函數(shù):符號函數(shù):netk0激活函數(shù):符號函數(shù):netk0netk-0.50.5

分段線性函數(shù):

Sigmoid函數(shù):0netk-0.50.5分段線性函數(shù):Sigmoid函6.2.1一般的前饋運算顯然,我們可以把之前的討論推廣為更多的更多的輸入單元、其他的非線性函數(shù)、任意多個輸出單元。在分類方面,我們有c個輸出單元,每個類別一個,每個輸出單元產(chǎn)生的信號就是判別式函數(shù)gk(x).判別函數(shù)如下:6.2.2多層網(wǎng)絡的表達能力戈爾莫戈羅夫證明了:只要選取適當?shù)暮瘮?shù),任何連續(xù)函數(shù)g(x)都呆以定義在單位超立方體上,即可以表示為:可惜的是,上述構(gòu)造性的描述確實顯示任期望函數(shù)都可以通過一個三層網(wǎng)絡來執(zhí)行,但它更多的價值在理論方面,而實用意義不大。6.2.1一般的前饋運算顯然,我們可以把之前的討論推廣為更6.3反向傳播算法誤差反向傳播學習分為四個過程:

a.模式順傳播:一個輸入向量作用于網(wǎng)絡感知節(jié)點,它的影響經(jīng)過網(wǎng)絡一層接一層的傳播。最后,產(chǎn)生一個輸出作為網(wǎng)絡的實際響應。在前向通過中,網(wǎng)絡的突觸權(quán)為固定的。

b.誤差逆?zhèn)鞑ィ涸诜聪蛲ㄟ^中,突觸權(quán)值全部根據(jù)誤差修正規(guī)則調(diào)整。

c.記憶訓練:反復學習過程,也就是根據(jù)教師示教的希望輸出與網(wǎng)絡實際輸出的誤差調(diào)整連接權(quán)的過程。

d.學習收斂:網(wǎng)絡全局誤差收斂于極小值的過程。6.3反向傳播算法誤差反向傳播學習分為四個過程:

神經(jīng)元j的輸出神經(jīng)元j的凈激活連接權(quán)初始化學習模式提供給網(wǎng)絡計算輸出層的輸入輸出模式順傳播:

神經(jīng)元j的輸出神經(jīng)元j的凈激活連接權(quán)初始化學習模式提供給網(wǎng)絡誤差傳播階段(1)計算訓練誤差:(2)按與LMS算法類似的方式對突觸權(quán)值w應用一個修正值隱含層到輸出層學習規(guī)則:輸入層到隱含層學習規(guī)則:

誤差傳播階段更新學習模式計算輸出層各神經(jīng)元的誤差計算隱含層各神經(jīng)元的誤差調(diào)整輸出層到隱含層的連接權(quán)調(diào)整隱含層到輸入層的連接權(quán)更新學習次數(shù)判斷誤差或?qū)W習次數(shù)更新學習模式計算輸出層各神經(jīng)元的誤差計算隱含層各神經(jīng)元的誤差6.3.3

BP網(wǎng)絡——學習曲線6.3.2訓練協(xié)議

廣義地說,有監(jiān)督的訓練就是給出一個類別標記已知的模式——訓練集——找到網(wǎng)絡輸出,并調(diào)整權(quán)值以使實際輸出更加接近于期望的目標值。三種最有用的“訓練協(xié)義”是:隨機訓練、成批訓練和在線訓練。6.3.3BP網(wǎng)絡——學習曲線6.3.2訓練協(xié)議

6.4誤差曲面小型的網(wǎng)絡:6.4誤差曲面小型的網(wǎng)絡:

較大型的網(wǎng)絡:

高維空間里局部極小值問題有所不同:在學習中,高維空間可以給系統(tǒng)提供更多的方式(維數(shù)、或自由度)以“避開”障礙或局部極小值。權(quán)值數(shù)越過剩,網(wǎng)絡越不可能陷入局部極小值。但存在過擬和問題。關于多重極小:

局部極小問題,當誤差較低時,非全局極小是可以接受的。關于多重極?。?.5反向傳播作為特征映射隱含層到輸出層是一個線性判別函數(shù),多層神經(jīng)網(wǎng)絡所提供的新的計算能力可以歸因于輸入層到隱含層單元上的表示的非線性彎曲能力。隨著學習的進行,輸入層到隱含層的權(quán)值在數(shù)量上增加,隱含層單元的非線性彎曲扭曲了從輸入層到隱含層單元的空間映射。6.5反向傳播作為特征映射隱含層到輸出層是一個線性判別函數(shù)6.6反向傳播、貝葉斯理論及概率貝葉斯理論與神經(jīng)網(wǎng)絡盡管多層神經(jīng)網(wǎng)顯得有點專門化,我們可以證明,當采用均方差準則進行反向傳播訓練,且樣本數(shù)量趨于無窮極限時,多層神經(jīng)網(wǎng)可產(chǎn)生一個相應于貝葉斯理論判別函數(shù)的最小二乘判別。

作為概率的輸出實際生活時常不滿足無限個訓練數(shù)據(jù),這時可以作概率逼近。其中一個方法是softmax方法,即選擇指數(shù)型的辦理出單元非線性函數(shù),并對每種模式將輸出和歸一化為1.0,并用0-1目標信號進行訓練:

6.6反向傳播、貝葉斯理論及概率貝葉斯理論與神經(jīng)網(wǎng)絡投影尋蹤回歸:廣義疊加模型:多元自適應回歸樣條(MARS):6.7相關統(tǒng)計技術投影尋蹤回歸:6.7相關統(tǒng)計技術6.8改進反向傳播的一些實用技術激活函數(shù)

BP網(wǎng)絡中每一個神經(jīng)元的需要關于神經(jīng)元的激活函數(shù)的導數(shù)知識。要導數(shù)存在,則需要函數(shù)連續(xù)。常用的例子為sigmoid函數(shù),主要有兩種形式:

1.logistic函數(shù)

2.雙曲正切函數(shù)6.8改進反向傳播的一些實用技術激活函數(shù)沖量項

實驗表明:增加隱含層的層數(shù)和隱含層神經(jīng)元個數(shù)不一定總能夠提高網(wǎng)絡精度和表達能力。

BP網(wǎng)一般都選用三層網(wǎng)絡。沖量項權(quán)值初始化

a.初始權(quán)值的選擇對于局部極小點的防止和網(wǎng)絡收斂速度的提高均有一定程度的影響,如果初始權(quán)值范圍選擇不當,學習過程一開始就可能進入“假飽和”現(xiàn)象,甚至進入局部極小點,網(wǎng)絡根本不收斂。

b.在前饋多層神經(jīng)網(wǎng)絡的BP算法中,初始權(quán)、閾值一般是在一個固定范圍內(nèi)按均勻分布隨機產(chǎn)生的。一般文獻認為初始權(quán)值范圍為-1~+1之間,初始權(quán)、閾值的選擇因具體的網(wǎng)絡結(jié)構(gòu)模式和訓練樣本不同而有所差別,一般應視實際情況而定。

c.本書中考慮有d個輸入單元,假設用相同的分布初始化權(quán)值,那么輸入權(quán)值的范圍為:

d.隱含層輸出權(quán)值:權(quán)值初始化學習率學習率參數(shù)越小,從一次迭代到下一次迭代的網(wǎng)絡突觸權(quán)值的變化量就越小,軌跡在權(quán)值空間就越光滑。然而,這種改進是以減慢學習速度為代價的。另一方面,如果我們讓的值太大以加速學習速度的話,結(jié)果有可能使網(wǎng)絡的突觸權(quán)值的變化量不穩(wěn)定。學習率沖量項一個既要加快學習速度又要保持穩(wěn)定的簡單方法是修改delta法則,使它包括沖量項(慣量項):

a是沖量常數(shù),通常是正數(shù)。沖量項權(quán)值衰減

網(wǎng)絡的權(quán)值大致分兩類:對網(wǎng)絡具有很大影響的權(quán)值和對網(wǎng)絡影響很少或者根本沒有影響的權(quán)值。后者常常造成網(wǎng)絡推廣性差。復雜性正則化的使用鼓勵多余權(quán)值取得接近0,提高泛化能力。

訓練方式

a.隨機訓練:模式是隨機地從訓練集中取出的,權(quán)值也根據(jù)不同的模式進行更新b.成批訓練:所有的模式已在訓練之前全部送往網(wǎng)絡中。

c.在線訓練:每種模式只提供一次,不需要存儲器來保存模式權(quán)值衰減訓練方式誤差準則函數(shù)原來的平方誤差準則是最常見的訓練準則,然而,其他的訓練準則有時候也有一些好處。下面介紹兩個有用的準則函數(shù):

互熵(crossentropy):(可用來度量概率分布間的“距離”)基于閔可夫斯基誤差:可通過選擇R值來調(diào)節(jié)分類器的局部性:R值越小,分類器的局部性越強。誤差準則函數(shù)牛頓法:在梯度下降中使用牛頓法,可利用下式迭代計算w的值:

(其中H為赫森矩陣)Quickprop算法:

Quickprop算法中權(quán)值假設為獨立的。可以證明,這種方法可導出如下的權(quán)值更新規(guī)則:

其中的導數(shù)是由m和m-1次迭代估計得出6.9二階技術牛頓法:6.9二階技術共軛梯度法共軛條件:,其中H為赫森矩陣

在第m步的下降方向是梯度方向加上一個沿著前面的下降方向的元素:

各項間的相互比例由控制。通常它可以用如下兩個公式中的一個來計算:

Fletcher-Reeves:Polak-Ribiere:共軛梯度法徑向基函數(shù)網(wǎng)絡徑向基函數(shù)(radialbasisfunction,RBF)網(wǎng)絡的設計可以看作是一個高維空間中的曲線擬和(逼近)問題。這里考慮插值函數(shù)(內(nèi)核)的通用形式,該函數(shù)的變量是從中心到輸入變量的歐氏距離,稱為RBF。函數(shù)可以有多種形式,例如:6.10其他網(wǎng)絡和訓練算法徑向基函數(shù)網(wǎng)絡6.10其他網(wǎng)絡和訓練算法卷積網(wǎng)絡卷積網(wǎng)絡遞歸網(wǎng)絡遞歸網(wǎng)絡級數(shù)相關

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論