版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第三章:前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)前饋神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)常見激活函數(shù)及其優(yōu)缺點(diǎn)常見損失函數(shù)的設(shè)置梯度下降算法及其擴(kuò)展反向傳播算法原理過擬合及其常用處理方法前饋神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)M-P神經(jīng)元模型M-P神經(jīng)元模型:首個(gè)模擬生物神經(jīng)元的結(jié)構(gòu)和工作原理構(gòu)造出來的一個(gè)抽象和簡(jiǎn)化了的數(shù)學(xué)模型。它由心理學(xué)家沃倫·麥卡洛克(WarrenMcCulloch)和數(shù)理邏輯學(xué)家沃爾特·皮茲(WalterPitts)在1943年提出并以二人的名字命名。該模型旨在模擬從多輸入到單輸出的信息處理單元。M-P模型的工作步驟:神經(jīng)元接受n個(gè)輸入信號(hào)。將輸入與權(quán)值參數(shù)進(jìn)行加權(quán)求和并經(jīng)過階躍函數(shù)激活。將激活結(jié)果作為結(jié)果輸出。人為設(shè)定參數(shù)值神經(jīng)元
激活函數(shù)激活函數(shù)就是指非線性變換。對(duì)線性組合的結(jié)果施加一個(gè)非線性變換,就為神經(jīng)網(wǎng)絡(luò)各層之間的連接方式提供了一種非線性的變換方式,而非線性變換打破了“線性組合的線性組合”這樣一種循環(huán),多層神經(jīng)網(wǎng)絡(luò)相比于單層網(wǎng)絡(luò)有了更豐富的函數(shù)形式。 常用的激活函數(shù):Sigmoid激活函數(shù)Tanh激活函數(shù)ReLu激活函數(shù)其他激活函數(shù):leakyReLU、elu、cReLU、selu、ReLU6、softplus、softsign……Sigmoid激活函數(shù)值域有界,神經(jīng)元的輸出不會(huì)爆炸輸出非負(fù),可以直接看做概率分布。連續(xù)可導(dǎo),梯度可以顯式計(jì)算原函數(shù)導(dǎo)數(shù)無法實(shí)現(xiàn)神經(jīng)元的激活值為負(fù)有可能會(huì)發(fā)生梯度退化或消失對(duì)于復(fù)雜網(wǎng)絡(luò)求解梯度十分復(fù)雜Tanh激活函數(shù)繼承了Sigmoid函數(shù)一系列優(yōu)缺點(diǎn)區(qū)別在于Tanh函數(shù)更適合讓神經(jīng)元產(chǎn)生與輸入符號(hào)一致的非概率輸出原函數(shù)導(dǎo)數(shù)ReLU激活函數(shù)原函數(shù)導(dǎo)數(shù)導(dǎo)數(shù)簡(jiǎn)單,計(jì)算和優(yōu)化將更高效不是兩端飽和函數(shù),緩解梯度消失問題舍棄神經(jīng)元負(fù)信號(hào),使神經(jīng)網(wǎng)絡(luò)具有稀疏的特點(diǎn)神經(jīng)元的輸入與輸出之間存在均值偏移有可能導(dǎo)致神經(jīng)元“死亡”的現(xiàn)象LeakyReLU緩解神經(jīng)元“死亡”現(xiàn)象四種激活函數(shù)示意圖前饋神經(jīng)網(wǎng)絡(luò)的構(gòu)成前饋神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的擬合能力,用具有有限多的隱藏層神經(jīng)元可以逼近任意的有限區(qū)間內(nèi)的曲線這被稱之為通用逼近定理UniversalApproximationTheorem
損失函數(shù)與梯度下降算法損失函數(shù)
梯度下降算法
小批量梯度下降算法
ImageNet14,197,122
images小批量梯度下降算法
小批量梯度下降算法
梯度下降算法的改進(jìn)梯度估計(jì)修正在MGD算法中,如果批量數(shù)比較小,損失會(huì)呈現(xiàn)震蕩的方式下降,說明每次迭代的梯度估計(jì)和整個(gè)訓(xùn)練集上的最優(yōu)梯度不一致,具有一定的隨機(jī)性,此時(shí)可以進(jìn)行梯度估計(jì)修正改進(jìn)算法:動(dòng)量梯度下降、梯度加速法學(xué)習(xí)率調(diào)整學(xué)習(xí)率的設(shè)置也很重要,過大可能不會(huì)收斂,過小可能收斂太慢自適應(yīng)學(xué)習(xí)率調(diào)整算法:AdaGrad、AdaDelta、RMSprop綜合法Adam:動(dòng)量法+RMSprop法的結(jié)合動(dòng)量梯度下降算法
Nesterov梯度加速算法
AdaGrad算法
AdaGrad算法(續(xù))優(yōu)點(diǎn):可以進(jìn)行學(xué)習(xí)率的自適應(yīng)調(diào)整缺點(diǎn):分母是所有歷史信息的求和,因此會(huì)隨著迭代變得越來越大,從而使得學(xué)習(xí)率衰減過快AdaDelta算法更新公式:解決AdaGrad中歷史梯度累積平方和單調(diào)遞增的問題AdaDelta不再使用全部歷史信息,而是使用某個(gè)固定窗寬內(nèi)的歷史梯度信息計(jì)算累計(jì)平方和。計(jì)算固定窗寬內(nèi)的梯度累積平方和需要存儲(chǔ)多個(gè)歷史梯度平方的信息,AdaDelta轉(zhuǎn)而使用指數(shù)加權(quán)的方式累積歷史信息AdaDelta作者指出此前梯度類算法參數(shù)的單位沒有保持一致,因此又更新了第二階段的AdaDelta算法,詳見教材公式
均方根加速(RMSprop)更新公式:與AdaDelta算法思路十分相似,同年提出(但未發(fā)表),與第一階段AdaDelta公式一致。
Adam算法更新公式:將動(dòng)量法與RMSprop結(jié)合起來考慮的算法
各種算法的收斂過程推薦閱讀材料:/dl2017/html/lesson2-week2.html反向傳播算法:?jiǎn)蝹€(gè)神經(jīng)元
反向傳播算法:?jiǎn)蝹€(gè)神經(jīng)元反向傳播算法:?jiǎn)蝹€(gè)神經(jīng)元
反向傳播算法:兩層神經(jīng)網(wǎng)絡(luò)
反向傳播算法:兩層神經(jīng)網(wǎng)絡(luò)
反向傳播算法:兩層神經(jīng)網(wǎng)絡(luò)
反向傳播算法:兩層神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練流程初始化參數(shù)。常用的初始化方法有常數(shù)初始化、正態(tài)分布類初始化、均勻分布類初始化等。切分batch數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)每一輪訓(xùn)練不是用全部數(shù)據(jù),而是選取一定量的數(shù)據(jù)樣本作為輸入,這部分?jǐn)?shù)據(jù)樣本稱為一個(gè)batch。前向傳播建立損失函數(shù)反向傳播是否達(dá)到迭代次數(shù),如果達(dá)到,則結(jié)束本輪訓(xùn)練,如果未達(dá)到,則繼續(xù)重復(fù)前面的步驟進(jìn)行新一輪迭代。神經(jīng)網(wǎng)絡(luò)的過擬合及處理方法過擬合
期望損失的極小值
過擬合欠擬合過擬合適度擬合過擬合(Overfitting)是指在模型訓(xùn)練過程中,模型對(duì)訓(xùn)練數(shù)據(jù)學(xué)習(xí)過度,將數(shù)據(jù)中包含的噪聲和誤差也學(xué)習(xí)了,使得模型在訓(xùn)練集上表現(xiàn)很好,而在測(cè)試集上表現(xiàn)很差的現(xiàn)象。偏差-方差分解
無法通過模型改變的理論下界
偏差-方差分解
偏差方差偏差:一個(gè)模型在不同訓(xùn)練集上的平均性能與最優(yōu)模型的差異,衡量模型的擬合能力。方差:一個(gè)模型在不同訓(xùn)練集上的差異,衡量一個(gè)模型是否容易過擬合。偏差-方差分解左上角:最理想的情況左下角:泛化能力很好,但擬合能力不足右上角:擬合能力很好,但泛化能力較差右下角:最差的情況訓(xùn)練誤差V.S.測(cè)試誤差判斷是否存在高偏差或高方差的關(guān)鍵:訓(xùn)練誤差V.S.測(cè)試誤差訓(xùn)練誤差5%20%20%1%測(cè)試誤差20%5%30%2%高方差高偏差高偏差&高方差低偏差&低方差高偏差:換一個(gè)更復(fù)雜的網(wǎng)絡(luò)或更先進(jìn)的算法、增加數(shù)據(jù)特征等高方差:降低模型復(fù)雜度、增加更多的數(shù)據(jù)集、集成模型等正則化方法
正則化方法權(quán)重衰減
Dropout方法Dropout方法由辛頓(Hinton)教授團(tuán)隊(duì)提出,它是指在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過程中,將某一層的單元(不包括輸出層的單元)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 物聯(lián)網(wǎng)技術(shù)在現(xiàn)代物流中的應(yīng)用與挑戰(zhàn)
- 現(xiàn)代城市住宅區(qū)的綠色規(guī)劃與實(shí)踐
- 現(xiàn)代人如何通過飲食改善腸胃問題
- 國(guó)慶節(jié)活動(dòng)方案百米畫
- 牙科患者需求與商業(yè)價(jià)值挖掘
- 2024-2025學(xué)年新教材高中英語 Unit 6 Earth first預(yù)習(xí) 新知早知道2說課稿 外研版必修第二冊(cè)
- 12《示兒》說課稿-2024-2025學(xué)年五年級(jí)上冊(cè)語文統(tǒng)編版
- 《11~20的認(rèn)識(shí)-11~20的認(rèn)識(shí)》(說課稿)-2024-2025學(xué)年一年級(jí)上冊(cè)數(shù)學(xué)人教版
- 2024-2025學(xué)年新教材高中地理 第一章 人口 第一節(jié) 人口分布(2)說課稿 新人教版必修2
- 1學(xué)會(huì)尊重-《每個(gè)人都應(yīng)得到尊重》(說課稿)2023-2024學(xué)年統(tǒng)編版道德與法治四年級(jí)下冊(cè)
- 2023~2024學(xué)年二年級(jí)下冊(cè)語文期末??荚嚲怼?chuàng)意情境 統(tǒng)編版
- 2024年北師大版六年級(jí)下冊(cè)數(shù)學(xué)期末測(cè)試卷(各地真題)
- 2024年江蘇農(nóng)牧科技職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)附答案
- 經(jīng)理層年度任期經(jīng)營(yíng)業(yè)績(jī)考核及薪酬辦法
- 2024年高考英語新聞報(bào)道閱讀理解訓(xùn)練歷年真題
- 2024高考物理廣東卷押題模擬含解析
- 青少年農(nóng)業(yè)科普館建設(shè)方案
- 新測(cè)繪法解讀
- 提高感染性休克集束化治療達(dá)標(biāo)率
- 譯林版七年級(jí)下冊(cè)英語單詞默寫表
- 人教版五年級(jí)上冊(cè)數(shù)學(xué)簡(jiǎn)便計(jì)算大全600題及答案
評(píng)論
0/150
提交評(píng)論