




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
高斌斌第五章神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)發(fā)展史第一階段1943年,McCulloch和Pitts提出第一個(gè)神經(jīng)元數(shù)學(xué)模型,即M-P模型,并從原理上證明了人工神經(jīng)網(wǎng)絡(luò)能夠計(jì)算任何算數(shù)和邏輯函數(shù)1949年,Hebb發(fā)表《TheOrganizationofBehavior》一書,提出生物神經(jīng)元學(xué)習(xí)的機(jī)理,即Hebb學(xué)習(xí)規(guī)則1958年,Rosenblatt提出感知機(jī)網(wǎng)絡(luò)(Perceptron)模型和其學(xué)習(xí)規(guī)則1960年,Widrow和Hoff提出自適應(yīng)線性神經(jīng)元(Adaline)模型和最小均方學(xué)習(xí)算法1969年,Minsky和Papert發(fā)表《Perceptrons》一書,指出單層神經(jīng)網(wǎng)路不能解決非線性問題,多層網(wǎng)絡(luò)的訓(xùn)練算法尚無希望.這個(gè)論斷導(dǎo)致神經(jīng)網(wǎng)絡(luò)進(jìn)入低谷神經(jīng)網(wǎng)絡(luò)發(fā)展史第二階段1982年,物理學(xué)家Hopfield提出了一種具有聯(lián)想記憶、優(yōu)化計(jì)算能力的遞歸網(wǎng)絡(luò)模型,即Hopfield網(wǎng)絡(luò)1986年,Rumelhart等編輯的著作《ParallelDistributedProceesing:ExplorationsintheMicrostructuresofCognition》報(bào)告了反向傳播算法1987年,IEEE在美國(guó)加州圣地亞哥召開第一屆神經(jīng)網(wǎng)絡(luò)國(guó)際會(huì)議(ICNN)90年代初,伴隨統(tǒng)計(jì)學(xué)習(xí)理論和SVM的興起,神經(jīng)網(wǎng)絡(luò)由于理論不夠清楚,試錯(cuò)性強(qiáng),難以訓(xùn)練,再次進(jìn)入低谷神經(jīng)網(wǎng)絡(luò)發(fā)展史第三階段2006年,Hinton提出了深度信念網(wǎng)絡(luò)(DBN),通過“預(yù)訓(xùn)練+微調(diào)”使得深度模型的最優(yōu)化變得相對(duì)容易2012年,Hinton組參加ImageNet競(jìng)賽,使用CNN模型以超過第二名10個(gè)百分點(diǎn)的成績(jī)奪得當(dāng)年競(jìng)賽的冠軍伴隨云計(jì)算、大數(shù)據(jù)時(shí)代的到來,計(jì)算能力的大幅提升,使得深度學(xué)習(xí)模型在計(jì)算機(jī)視覺、自然語言處理、語音識(shí)別等眾多領(lǐng)域都取得了較大的成功神經(jīng)網(wǎng)絡(luò)發(fā)展史第五章神經(jīng)網(wǎng)絡(luò)主要內(nèi)容5.1神經(jīng)元模型5.2感知機(jī)與多層網(wǎng)絡(luò)5.3
誤差逆?zhèn)鞑ニ惴?.4全局最小與局部最小5.5其他常見神經(jīng)網(wǎng)絡(luò)5.6深度學(xué)習(xí)第五章神經(jīng)網(wǎng)絡(luò)主要內(nèi)容5.1神經(jīng)元模型5.2感知機(jī)與多層網(wǎng)絡(luò)5.3
誤差逆?zhèn)鞑ニ惴?.4全局最小與局部最小5.5其他常見神經(jīng)網(wǎng)絡(luò)5.6深度學(xué)習(xí)5.1神經(jīng)元模型神經(jīng)網(wǎng)絡(luò)的定義“神經(jīng)網(wǎng)絡(luò)是由具有適應(yīng)性的簡(jiǎn)單單元組成的廣泛并行互聯(lián)的網(wǎng)絡(luò),它的組織能夠模擬生物神經(jīng)系統(tǒng)對(duì)真實(shí)世界物體所作出的反應(yīng)”
[Kohonen,1988]機(jī)器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)通常是指“神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)”
或者機(jī)器學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)兩個(gè)學(xué)科的交叉部分神經(jīng)元模型即上述定義中的“簡(jiǎn)單單元”是神經(jīng)網(wǎng)絡(luò)的基本成分生物神經(jīng)網(wǎng)絡(luò):每個(gè)神經(jīng)元與其他神經(jīng)元相連,當(dāng)它“興奮”時(shí),就會(huì)向相連的神經(jīng)云發(fā)送化學(xué)物質(zhì),從而改變這些神經(jīng)元內(nèi)的電位;如果某神經(jīng)元的電位超過一個(gè)“閾值”,那么它就會(huì)被激活,即“興奮”起來,向其它神經(jīng)元發(fā)送化學(xué)物質(zhì)
M-P神經(jīng)元模型[McCullochandPitts,1943]輸入:來自其他
個(gè)神經(jīng)云傳遞過來的輸入信號(hào)處理:輸入信號(hào)通過帶權(quán)重的連接進(jìn)行傳遞,神經(jīng)元接受到總輸入值將與神經(jīng)元的閾值進(jìn)行比較輸出:通過激活函數(shù)的處理以得到輸出5.1神經(jīng)元模型5.1神經(jīng)元模型激活函數(shù)理想激活函數(shù)是階躍函數(shù),0表示抑制神經(jīng)元而1表示激活神經(jīng)元階躍函數(shù)具有不連續(xù)、不光滑等不好的性質(zhì),常用的是Sigmoid函數(shù)
第五章神經(jīng)網(wǎng)絡(luò)主要內(nèi)容5.1神經(jīng)元模型5.2感知機(jī)與多層網(wǎng)絡(luò)5.3
誤差逆?zhèn)鞑ニ惴?.4全局最小與局部最小5.5其他常見神經(jīng)網(wǎng)絡(luò)5.6深度學(xué)習(xí)5.2感知機(jī)與多層網(wǎng)絡(luò)感知機(jī)感知機(jī)由兩層神經(jīng)元組成,輸入層接受外界輸入信號(hào)傳遞給輸出層,輸出層是M-P神經(jīng)元(閾值邏輯單元)
感知機(jī)能夠容易地實(shí)現(xiàn)邏輯與、或、非運(yùn)算
“與”:令,則,僅在時(shí),
.“或”:令,則
,僅在或者
時(shí),
.“非”:令
,
則
當(dāng)時(shí),;當(dāng),
.5.2感知機(jī)與多層網(wǎng)絡(luò)感知機(jī)學(xué)習(xí)給定訓(xùn)練數(shù)據(jù)集,權(quán)重與閾值可以通過學(xué)習(xí)得到感知機(jī)學(xué)習(xí)規(guī)則
對(duì)訓(xùn)練樣例,若當(dāng)前感知機(jī)的輸出為
,則感知機(jī)權(quán)重調(diào)整規(guī)則為:其中稱為學(xué)習(xí)率
若感知機(jī)對(duì)訓(xùn)練樣例預(yù)測(cè)正確,則感知機(jī)不發(fā)生變化;否則根據(jù)錯(cuò)誤程度進(jìn)行權(quán)重的調(diào)整.5.2感知機(jī)與多層網(wǎng)絡(luò)感知機(jī)求解異、或、非問題5.2感知機(jī)與多層網(wǎng)絡(luò)感知機(jī)求解異、或、非問題5.2感知機(jī)與多層網(wǎng)絡(luò)感知機(jī)學(xué)習(xí)能力若兩類模式線性可分,則感知機(jī)的學(xué)習(xí)過程一定會(huì)收斂;否感知機(jī)的學(xué)習(xí)過程將會(huì)發(fā)生震蕩
[MinskyandPapert,1969]單層感知機(jī)的學(xué)習(xí)能力非常有限,只能解決線性可分問題事實(shí)上,與、或、非問題是線性可分的,因此感知機(jī)學(xué)習(xí)過程能夠求得適當(dāng)?shù)臋?quán)值向量.而異或問題不是線性可分的,感知機(jī)學(xué)習(xí)不能求得合適解
對(duì)于非線性可分問題,如何求解?
多層感知機(jī)5.2感知機(jī)與多層網(wǎng)絡(luò)多層感知機(jī)解決異或問題的兩層感知機(jī)輸出層與輸入層之間的一層神經(jīng)元,被稱之為隱層或隱含層,隱含層和輸出層神經(jīng)元都是具有激活函數(shù)的功能神經(jīng)元5.2感知機(jī)與多層網(wǎng)絡(luò)多層前饋神經(jīng)網(wǎng)絡(luò)定義:每層神經(jīng)元與下一層神經(jīng)元全互聯(lián),神經(jīng)元之間不存在同層連接也不存在跨層連接前饋:輸入層接受外界輸入,隱含層與輸出層神經(jīng)元對(duì)信號(hào)進(jìn)行加工,最終結(jié)果由輸出層神經(jīng)元輸出學(xué)習(xí):根據(jù)訓(xùn)練數(shù)據(jù)來調(diào)整神經(jīng)元之間的“連接權(quán)”以及每個(gè)功能神經(jīng)元的“閾值”多層網(wǎng)絡(luò):包含隱層的網(wǎng)絡(luò)
第五章神經(jīng)網(wǎng)絡(luò)主要內(nèi)容5.1神經(jīng)元模型5.2感知機(jī)與多層網(wǎng)絡(luò)5.3
誤差逆?zhèn)鞑ニ惴?.4全局最小與局部最小5.5其他常見神經(jīng)網(wǎng)絡(luò)5.6深度學(xué)習(xí)5.3誤差逆?zhèn)鞑ニ惴ㄕ`差逆?zhèn)鞑ニ惴ǎ‥rrorBackPropagation,簡(jiǎn)稱BP)是最成功的訓(xùn)練多層前饋神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法.給定訓(xùn)練集 ,即輸入示例由
個(gè)屬性描述,輸出
維實(shí)值向量. 為方便討論,給定一個(gè)擁有
個(gè)輸入神經(jīng)元,個(gè)輸出神經(jīng)元,個(gè)隱層神經(jīng)元的多層前向前饋網(wǎng)絡(luò)結(jié)構(gòu).記號(hào):
:輸出層第
個(gè)神經(jīng)元閾值;
:隱含層第
個(gè)神經(jīng)元閾值;
:輸入層與隱層神經(jīng)元之間的連接權(quán)重;
:隱層與輸出層神經(jīng)元之間的連接權(quán)重;
5.3誤差逆?zhèn)鞑ニ惴?/p>
對(duì)于樣例,假設(shè)網(wǎng)絡(luò)的實(shí)際輸出為前向計(jì)算
step1:step2:
step3:參數(shù)數(shù)目權(quán)重:,閾值:,
因此網(wǎng)絡(luò)中需要個(gè)參數(shù)需要優(yōu)化參數(shù)優(yōu)化
BP是一個(gè)迭代學(xué)習(xí)算法,在迭代的每一輪中采用廣義的感知機(jī)學(xué)習(xí)規(guī)則對(duì)參數(shù)進(jìn)行更新估計(jì),任意的參數(shù)的更新估計(jì)式為5.3誤差逆?zhèn)鞑ニ惴˙P學(xué)習(xí)算法
BP算法基于梯度下降策略,以目標(biāo)的負(fù)梯度方向?qū)?shù)進(jìn)行調(diào)整.對(duì)誤差,給定學(xué)習(xí)率5.3誤差逆?zhèn)鞑ニ惴˙P學(xué)習(xí)算法類似的可以推導(dǎo)出:其中學(xué)習(xí)率控制著算法每一輪迭代中的更新步長(zhǎng),若太長(zhǎng)則讓容易震蕩,太小則收斂速度又會(huì)過慢.5.3誤差逆?zhèn)鞑ニ惴˙P學(xué)習(xí)算法5.3誤差逆?zhèn)鞑ニ惴˙P算法實(shí)驗(yàn)5.3誤差逆?zhèn)鞑ニ惴?biāo)準(zhǔn)BP算法每次針對(duì)單個(gè)訓(xùn)練樣例更新權(quán)值與閾值.參數(shù)更新頻繁,不同樣例可能抵消,需要多次迭代.累計(jì)BP算法其優(yōu)化的目標(biāo)是最小化整個(gè)訓(xùn)練集上的累計(jì)誤差讀取整個(gè)訓(xùn)練集一遍才對(duì)參數(shù)進(jìn)行更新,參數(shù)更新頻率較低.實(shí)際應(yīng)用但在很多任務(wù)中,累計(jì)誤差下降到一定程度后,進(jìn)一步下降會(huì)非常緩慢,這時(shí)標(biāo)準(zhǔn)BP算法往往會(huì)獲得較好的解,尤其當(dāng)訓(xùn)練集非常大時(shí)效果更明顯.5.3誤差逆?zhèn)鞑ニ惴ǘ鄬忧梆伨W(wǎng)絡(luò)表示能力只需要一個(gè)包含足夠多神經(jīng)元的隱層,多層前饋神經(jīng)網(wǎng)絡(luò)就能以任意精度逼近任意復(fù)雜度的連續(xù)函數(shù)
[Horniketal.,1989]多層前饋網(wǎng)絡(luò)局限神經(jīng)網(wǎng)絡(luò)由于強(qiáng)大的表示能力,經(jīng)常遭遇過擬合.表現(xiàn)為:訓(xùn)練誤差持續(xù)降低,但測(cè)試誤差卻可能上升如何設(shè)置隱層神經(jīng)元的個(gè)數(shù)仍然是個(gè)未決問題.實(shí)際應(yīng)用中通常使用“試錯(cuò)法”調(diào)整緩解過擬合的策略早停:在訓(xùn)練過程中,若訓(xùn)練誤差降低,但驗(yàn)證誤差升高,則停止訓(xùn)練
正則化:在誤差目標(biāo)函數(shù)中增加一項(xiàng)描述網(wǎng)絡(luò)復(fù)雜程度的部分,例如連接權(quán)值與閾值的平方和第五章神經(jīng)網(wǎng)絡(luò)主要內(nèi)容5.1神經(jīng)元模型5.2感知機(jī)與多層網(wǎng)絡(luò)5.3
誤差逆?zhèn)鞑ニ惴?.4全局最小與局部最小5.5其他常見神經(jīng)網(wǎng)絡(luò)5.6深度學(xué)習(xí)5.4全局最小與局部極小對(duì)和,若存在使得都有成立,則為局部極小解;若度參數(shù)空間中任意的,都有,則為全局最小解.兩者對(duì)應(yīng)的
分別稱為誤差函數(shù)的局部最小解和全局最小值.顯然參數(shù)空間梯度為零的點(diǎn),只要?dú)庹`差函數(shù)值小于鄰點(diǎn)的誤差函數(shù)值,就是局部極小點(diǎn)可能存在多個(gè)局部極小值,但卻只會(huì)有一個(gè)全局極最小值5.4全局最小與局部極小“跳出”局部最小的策略基于梯度的搜索是使用最為廣泛的參數(shù)尋優(yōu)方法.如果誤差函數(shù)僅有一個(gè)局部極小,那么此時(shí)找到的局部極小就是全局最小;然而,如果誤差函數(shù)具有多個(gè)局部極小,則不能保證找到的解是全局最小.在現(xiàn)實(shí)任務(wù)中,通常采用以下策略“跳出”局部極小,從而進(jìn)一步達(dá)到全局最小.多組不同的初始參數(shù)優(yōu)化神經(jīng)網(wǎng)絡(luò),選取誤差最小的解作為最終參數(shù).模擬退火技術(shù)[AartsandKorst,1989].每一步都以一定的概率接受比當(dāng)前解更差的結(jié)果,從而有助于跳出局部極小.隨機(jī)梯度下降.與標(biāo)準(zhǔn)梯度下降法精確計(jì)算梯度不同,隨機(jī)梯度下降法在計(jì)算梯度時(shí)加入了隨機(jī)因素.遺傳算法[Goldberg,1989].遺傳算法也常用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)以更好地逼近全局極小.第五章神經(jīng)網(wǎng)絡(luò)主要內(nèi)容5.1神經(jīng)元模型5.2感知機(jī)與多層網(wǎng)絡(luò)5.3
誤差逆?zhèn)鞑ニ惴?.4全局最小與局部最小5.5其他常見神經(jīng)網(wǎng)絡(luò)5.6深度學(xué)習(xí)5.5其他常見神經(jīng)網(wǎng)絡(luò)RBF網(wǎng)絡(luò)[BroomheadandLowe,1988]RBF網(wǎng)絡(luò)是一種單隱層前饋神經(jīng)網(wǎng)絡(luò),它使用徑向基函數(shù)作為隱層神經(jīng)元激活函數(shù),而輸出層則是隱層神經(jīng)元輸出的線性組合.RBF網(wǎng)絡(luò)模型假定輸入為維的向量,輸出為實(shí)值,則RBF網(wǎng)絡(luò)可以表示為其中為隱層神經(jīng)元的個(gè)數(shù),和分別是第神經(jīng)元對(duì)應(yīng)的中心和權(quán)重,是徑向基函數(shù).常用的高斯徑向基函數(shù)形如5.5其他常見神經(jīng)網(wǎng)絡(luò)RBF網(wǎng)絡(luò)RBF網(wǎng)絡(luò)性質(zhì)具有足夠多隱層神經(jīng)元RBF神經(jīng)網(wǎng)絡(luò)能以任意精度逼近任意連續(xù)函數(shù).
[ParkandSandberg,1991]RBF網(wǎng)絡(luò)訓(xùn)練Step1:確定神經(jīng)元中心,常用的方式包括隨機(jī)采樣、聚類等
Step2:利用BP算法等確定參數(shù)5.5其他常見神經(jīng)網(wǎng)絡(luò)ART網(wǎng)絡(luò)競(jìng)爭(zhēng)學(xué)習(xí)競(jìng)爭(zhēng)學(xué)習(xí)是神經(jīng)網(wǎng)絡(luò)中一種常用的無監(jiān)督學(xué)習(xí)策略,在使用該策略時(shí),網(wǎng)絡(luò)的輸出神經(jīng)元相互競(jìng)爭(zhēng),每一時(shí)刻僅有一個(gè)神經(jīng)元被激活,其他神經(jīng)元的狀態(tài)被抑制.ART網(wǎng)絡(luò)[CarpenterandGrossberg,1987]ART網(wǎng)絡(luò)是競(jìng)爭(zhēng)學(xué)習(xí)的重要代表ART網(wǎng)絡(luò)由比較層、識(shí)別層、識(shí)別閾值和重置模塊構(gòu)成
比較層負(fù)責(zé)接收輸入樣本,并將其傳送給識(shí)別層神經(jīng)元識(shí)別層每個(gè)神經(jīng)元對(duì)應(yīng)一個(gè)模式類,神經(jīng)元的數(shù)目可在訓(xùn)練過程中動(dòng)態(tài)增長(zhǎng)以增加新的模式類5.5其他常見神經(jīng)網(wǎng)絡(luò)ART網(wǎng)絡(luò)ART網(wǎng)絡(luò)性能依賴于識(shí)別閾值識(shí)別閾值高時(shí),輸入樣本將會(huì)分成比較多、得到較精細(xì)分類識(shí)別閾值低時(shí),輸入樣本將會(huì)分成比較少、產(chǎn)生較粗略分類ART網(wǎng)絡(luò)的優(yōu)勢(shì)ART較好的解決了競(jìng)爭(zhēng)學(xué)習(xí)中的“可塑性-穩(wěn)定性窘境”,可塑性是指神經(jīng)網(wǎng)絡(luò)要有學(xué)習(xí)新知識(shí)的能力;穩(wěn)定性是指神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)新知識(shí)時(shí)要保持對(duì)舊知識(shí)的記憶.ART網(wǎng)絡(luò)可以增量學(xué)習(xí)或在線學(xué)習(xí)ART網(wǎng)絡(luò)的發(fā)展
ART2網(wǎng)絡(luò)、FuzzyART網(wǎng)絡(luò)、ARTMAP網(wǎng)絡(luò)5.5其他常見神經(jīng)網(wǎng)絡(luò)SOM網(wǎng)絡(luò)[Kohonen,1982]SOM網(wǎng)絡(luò)是一種競(jìng)爭(zhēng)型的無監(jiān)督神經(jīng)網(wǎng)絡(luò),它能將高維數(shù)據(jù)映射到低維空間(通常為2維),同時(shí)保持輸入數(shù)據(jù)在高維空間的拓?fù)浣Y(jié)構(gòu),即將高維空間中相似的樣本點(diǎn)映射到網(wǎng)絡(luò)輸出層中鄰近神經(jīng)元.如圖,SOM網(wǎng)絡(luò)中的輸出層神經(jīng)元以矩陣方式排列在二維空間中,每個(gè)神經(jīng)元都擁有一個(gè)權(quán)值向量,網(wǎng)絡(luò)在接收輸入向量后,將會(huì)確定輸出層獲勝神經(jīng)元,它決定了該輸入向量在低維空間中的位置.5.5其他常見神經(jīng)網(wǎng)絡(luò)SOM網(wǎng)絡(luò)[Kohonen,1982]SOM網(wǎng)絡(luò)訓(xùn)練Step1:接受到一個(gè)訓(xùn)練樣本后,每個(gè)輸出層神經(jīng)元計(jì)算該樣本與自身攜帶的權(quán)向量之間的距離,距離最近的神經(jīng)元成為競(jìng)爭(zhēng)獲勝者Step2:最佳匹配單元及其近鄰神經(jīng)元的權(quán)值將被調(diào)整,使得這些權(quán)向量與當(dāng)前輸入樣本的距離縮小5.5其他常見神經(jīng)網(wǎng)絡(luò)級(jí)聯(lián)相關(guān)網(wǎng)絡(luò)[FahlmanandLebiere1990]級(jí)聯(lián)相關(guān)網(wǎng)絡(luò)不僅利用訓(xùn)練樣本優(yōu)化連接權(quán)值,閾值參數(shù),將網(wǎng)絡(luò)的結(jié)構(gòu)也當(dāng)做學(xué)習(xí)的目標(biāo)之一,希望在訓(xùn)練過程中找到適合數(shù)據(jù)的網(wǎng)絡(luò)結(jié)構(gòu).級(jí)聯(lián)與相關(guān)級(jí)聯(lián):建立層次連接的層級(jí)結(jié)構(gòu)相關(guān):最大化神經(jīng)元的輸出與網(wǎng)絡(luò)誤差時(shí)間的相關(guān)性來訓(xùn)練相關(guān)參數(shù)網(wǎng)絡(luò)優(yōu)化演示5.5其他常見神經(jīng)網(wǎng)絡(luò)Elman網(wǎng)絡(luò)[Elman1990]遞歸神經(jīng)網(wǎng)絡(luò)允許網(wǎng)絡(luò)中出現(xiàn)環(huán)形結(jié)構(gòu),使得神經(jīng)元的輸出反饋回來作為輸入信號(hào)t
時(shí)刻網(wǎng)絡(luò)的輸出狀態(tài):由
t
時(shí)刻的輸入狀態(tài)和t-1時(shí)刻的網(wǎng)絡(luò)狀態(tài)決定Elman網(wǎng)絡(luò)Elamn網(wǎng)絡(luò)是最常用的遞歸神經(jīng)網(wǎng)絡(luò)之一,結(jié)構(gòu)如圖所示,這種結(jié)構(gòu)與前饋神經(jīng)網(wǎng)絡(luò)很相似,但是隱層神經(jīng)元的輸出被反饋回來,與下一時(shí)刻輸入層神經(jīng)元提供的信號(hào)一起,作為隱層神經(jīng)元在下一時(shí)刻的輸入訓(xùn)練算法推廣的BP算法.
[Pineda,1987]5.5其他常見神經(jīng)網(wǎng)絡(luò)Boltzmann機(jī)能量模型神經(jīng)網(wǎng)絡(luò)中有一類模型為網(wǎng)絡(luò)定義一個(gè)“能量”,能量最小化時(shí)網(wǎng)絡(luò)達(dá)到理想狀態(tài),而網(wǎng)絡(luò)的訓(xùn)練就是在最小化這個(gè)能量函數(shù).Boltzmann機(jī)Boltzmann
機(jī)就是一種基于能量的模型結(jié)構(gòu):顯層與隱層顯層:數(shù)據(jù)的輸入輸出隱層:數(shù)據(jù)的內(nèi)在表達(dá)神經(jīng)元布爾型,即只能取0和1兩種狀態(tài),其中1表示激活,0表示抑制.5.5其他常見神經(jīng)網(wǎng)絡(luò)Boltzmann機(jī)[Ackleyetal.,1985]Boltzmann機(jī)能量令狀態(tài)向量,則其對(duì)應(yīng)的Boltzmann機(jī)能量定義為其中表示兩個(gè)神經(jīng)元之間的連接權(quán)值,表示神經(jīng)元的閾值.Boltzmann分布網(wǎng)絡(luò)中的神經(jīng)元以任意不依賴與輸入值得順序進(jìn)行更新,則網(wǎng)絡(luò)最終將達(dá)到
Boltzmann分布,此時(shí)狀態(tài)向量出現(xiàn)的概率將僅由其能量與所有可能狀態(tài)向量的能量確定:5.5其他常見神經(jīng)網(wǎng)絡(luò)Boltzmann機(jī)[Ackleyetal.,1985]Boltzmann
機(jī)訓(xùn)練將每個(gè)訓(xùn)練樣本視為一個(gè)狀態(tài)向量,使其出現(xiàn)的概率盡可能大
標(biāo)準(zhǔn)的Boltzmann
機(jī)是一個(gè)全連接圖,訓(xùn)練網(wǎng)絡(luò)的復(fù)雜度很高,這使其難以用于解決現(xiàn)實(shí)任務(wù)現(xiàn)實(shí)中常用受限Boltzmann
機(jī),簡(jiǎn)稱RBM.RBM僅保留顯層與隱層之間的連接,從而將Boltzmann機(jī)結(jié)構(gòu)有完全圖簡(jiǎn)化為二部圖
5.5其他常見神經(jīng)網(wǎng)絡(luò)受限Boltzmann機(jī)[Ackleyetal.,1985]受限Boltzmann機(jī)常用“對(duì)比散度”(簡(jiǎn)稱:CD)算法
[Hinton,2010]來進(jìn)行訓(xùn)練
假定網(wǎng)絡(luò)中有個(gè)顯層神經(jīng)元個(gè)隱層神經(jīng)元,令和分別是顯層與隱層的狀態(tài)向量,由于同一層內(nèi)不存在連接,有CD算法對(duì)每個(gè)訓(xùn)練樣本,先計(jì)算出隱層神經(jīng)元狀態(tài)的概率分布,然后根據(jù)這個(gè)概率分布采樣得到;類似的方法從中產(chǎn)生,再從
中產(chǎn)生;連接權(quán)重的更新公式為:第五章神經(jīng)網(wǎng)絡(luò)主要內(nèi)容5.1神經(jīng)元模型5.2感知機(jī)與多層網(wǎng)絡(luò)5.3
誤差逆?zhèn)鞑ニ惴?.4全局最小與局部最小5.5其他常見神經(jīng)網(wǎng)絡(luò)5.6深度學(xué)習(xí)5.6深度學(xué)習(xí)深度學(xué)習(xí)模型典型的深度學(xué)習(xí)模型就是很深層的神經(jīng)網(wǎng)絡(luò).模型復(fù)雜度增加隱層神經(jīng)元的數(shù)目(模型寬度)增加隱層數(shù)目(模型深度)從增加模型復(fù)雜度的角度看,增加隱層的數(shù)目比增加隱層神經(jīng)元的數(shù)目更有效.這是因?yàn)樵黾与[層數(shù)不僅增加額擁有激活函數(shù)的神經(jīng)元數(shù)目,還增加了激活函數(shù)嵌套的層數(shù).復(fù)雜模型難點(diǎn)多隱層網(wǎng)絡(luò)難以直接用經(jīng)典算法(例如標(biāo)準(zhǔn)BP算法)進(jìn)行訓(xùn)練,因?yàn)檎`差在多隱層內(nèi)逆?zhèn)鞑r(shí),往往會(huì)”發(fā)散”而不能收斂到穩(wěn)定狀態(tài).5.6深度學(xué)習(xí)復(fù)雜模型訓(xùn)練方法預(yù)訓(xùn)練+微調(diào)預(yù)訓(xùn)練:監(jiān)督逐層訓(xùn)練是多隱層網(wǎng)絡(luò)訓(xùn)練的有效手段,每次訓(xùn)練一層隱層結(jié)點(diǎn),訓(xùn)練時(shí)將上一層隱層結(jié)點(diǎn)的輸出作為輸入,而本層隱結(jié)點(diǎn)的輸出作為下一層隱結(jié)點(diǎn)的輸入,這稱為”預(yù)訓(xùn)練”.微調(diào):在預(yù)訓(xùn)練全部完成后,再對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào)訓(xùn)練.微調(diào)一般使用BP算法.例子:深度信念網(wǎng)絡(luò)[Hintonetal.,2006]結(jié)構(gòu):每一層都是一個(gè)受限Boltzmann機(jī)訓(xùn)練方法:無監(jiān)督預(yù)訓(xùn)練+BP微調(diào)分析預(yù)訓(xùn)練+微調(diào)的做法可以視為將大量參數(shù)分組,對(duì)每組先找到局部看起來比較好的設(shè)置,然后再基于這些局部較優(yōu)的結(jié)果聯(lián)合起來進(jìn)行全局尋優(yōu).5.6深度學(xué)習(xí)復(fù)雜模型訓(xùn)練方法權(quán)共享一組神經(jīng)元使用相同的連接權(quán)值.權(quán)共享策略在卷積神經(jīng)網(wǎng)絡(luò)(CNN)[Le
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2019-2025年二級(jí)注冊(cè)建筑師之法律法規(guī)經(jīng)濟(jì)與施工題庫檢測(cè)試卷A卷附答案
- 鄉(xiāng)村庭院收購合同樣本
- 內(nèi)勤聘任合同樣本
- 如何與家人溝通財(cái)務(wù)問題計(jì)劃
- 公司車貸合同樣本
- 推廣綠色醫(yī)院建設(shè)的計(jì)劃
- 隧道涂裝鋼管架施工方案
- 產(chǎn)權(quán)車位定金合同標(biāo)準(zhǔn)文本
- 價(jià)格保護(hù)合同樣本
- 2025年鋼材購銷(訂貨)合同范文
- 生物制藥技術(shù)專業(yè)建設(shè)方案
- TY/T 1106-2023群眾體育賽事活動(dòng)運(yùn)營(yíng)服務(wù)規(guī)范
- 無錫星洲工業(yè)園低碳園區(qū)規(guī)劃方案
- 北師大版心理健康六年級(jí)上冊(cè)第十四課欣賞我自己 課件
- 小班語言繪本《報(bào)紙上的洞洞》
- 幼兒園紅色小故事PPT:抗日小英雄王二小的故事
- 宴席設(shè)計(jì)與菜品開發(fā)第二版勞動(dòng)版宴席菜肴與菜單設(shè)計(jì)課件
- 2023學(xué)年完整公開課版積極情緒
- 軸向拉壓桿的強(qiáng)度計(jì)算
- 安徽寶鎂輕合金有限公司年產(chǎn)30萬噸高性能鎂基輕合金項(xiàng)目環(huán)境影響報(bào)告書
- 2160kn溢洪道雙向門機(jī)安裝使用說明書
評(píng)論
0/150
提交評(píng)論