深度學(xué)習(xí)理論與實踐 課件 第5章 神經(jīng)網(wǎng)絡(luò)基礎(chǔ)_第1頁
深度學(xué)習(xí)理論與實踐 課件 第5章 神經(jīng)網(wǎng)絡(luò)基礎(chǔ)_第2頁
深度學(xué)習(xí)理論與實踐 課件 第5章 神經(jīng)網(wǎng)絡(luò)基礎(chǔ)_第3頁
深度學(xué)習(xí)理論與實踐 課件 第5章 神經(jīng)網(wǎng)絡(luò)基礎(chǔ)_第4頁
深度學(xué)習(xí)理論與實踐 課件 第5章 神經(jīng)網(wǎng)絡(luò)基礎(chǔ)_第5頁
已閱讀5頁,還剩38頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第5章神經(jīng)網(wǎng)絡(luò)基礎(chǔ)多層感知器2人工智能的研究者為了模擬人類的認(rèn)知,提出了不同的模型。人工神經(jīng)網(wǎng)絡(luò)是人工智能中非常重要的一個學(xué)派——連接主義最為廣泛使用的模型。在傳統(tǒng)上,基于規(guī)則的符號主義學(xué)派認(rèn)為,人類的認(rèn)知是基于信息中的模式;而這些模式可以被表示成為符號,并可以通過操作這些符號,顯式地使用邏輯規(guī)則進行計算與推理。事務(wù)認(rèn)知實踐積累信息處理理解決策01擁有處理信號的基礎(chǔ)單元而基于統(tǒng)計的連接主義的模型將認(rèn)知所需的功能屬性結(jié)合到模型中來,通過模擬生物神經(jīng)網(wǎng)絡(luò)的信息處理方式來構(gòu)建具有認(rèn)知功能的模型。類似于生物神經(jīng)元與神經(jīng)網(wǎng)絡(luò),這類模型具有三個特點:多層感知器02處理單元之間以并行方式連接03處理單元之間的連接是有權(quán)重的

這一類模型被稱為人工神經(jīng)網(wǎng)絡(luò),多層感知器是最為簡單的一種。目錄4多層感知器的相關(guān)基礎(chǔ)概念單層感知器和多層感知器BP神經(jīng)網(wǎng)絡(luò)Dropout正則化批標(biāo)準(zhǔn)化第一節(jié)第二節(jié)第三節(jié)第四節(jié)第五節(jié)第一節(jié)基礎(chǔ)概念神經(jīng)元6神經(jīng)元是基本的信息操作和處理單位。它接受一組輸入,將這組輸入加權(quán)求和后,由激活函數(shù)來計算該神經(jīng)元的輸出。輸入7

輸出8

連接權(quán)值

9偏置

10激活函數(shù)

11激活函數(shù)SoftMax

12Sigmoid

13Tanh

14ReLU

15神經(jīng)網(wǎng)絡(luò)16神經(jīng)網(wǎng)絡(luò)是一個有向圖,以神經(jīng)元為頂點,神經(jīng)元的輸入為頂點的入邊,神經(jīng)元的輸出為頂點的出邊。因此神經(jīng)網(wǎng)絡(luò)實際上是一個計算圖,直觀地展示了一系列對數(shù)據(jù)進行計算操作的過程。神經(jīng)網(wǎng)絡(luò)是一個端到端的系統(tǒng),這個系統(tǒng)接受一定形式的數(shù)據(jù)作為輸入,經(jīng)過系統(tǒng)內(nèi)的一系列計算操作后,給出一定形式的數(shù)據(jù)作為輸出;系統(tǒng)內(nèi)的運算可以被視為一個黑箱子,這與人類的認(rèn)知在一定程度上具有相似性。通常地,為了直觀起見,人們對神經(jīng)網(wǎng)絡(luò)中的各頂點進行了層次劃分。神經(jīng)網(wǎng)絡(luò)的層次劃分17輸入層接受來自網(wǎng)絡(luò)外部的數(shù)據(jù)的頂點,組成輸入層。輸出層向網(wǎng)絡(luò)外部輸出數(shù)據(jù)的頂點,組成輸出層。隱藏層除了輸入層和輸出層以外的其他層,均為隱藏層訓(xùn)練18

感知器感知器的概念由RosenblattFrank在1957提出,是一種監(jiān)督訓(xùn)練的二元分類器。19單層感知器

20單層感知器

21多層感知器

22多層感知器

23BP神經(jīng)網(wǎng)絡(luò)在多層感知器被引入的同時,也引入了一個新的問題:由于隱藏層的預(yù)期輸出并沒有在訓(xùn)練樣例中給出,隱藏層結(jié)點的誤差無法像單層感知器那樣直接計算得到。為了解決這個問題,后向傳播算法被引入,其核心思想是將誤差由輸出層向前層后向傳播,利用后一層的誤差來估計前一層的誤差。后向傳播算法由HenryJ.Kelley在1960和ArthurE.Bryson在1961分別提出。使用后向傳播算法訓(xùn)練的網(wǎng)絡(luò)稱為BP神經(jīng)網(wǎng)絡(luò)。24梯度下降

25梯度下降

26后向傳播

27后向傳播

28Dropout正則化Dropout是一種正則化技術(shù),通過防止特征的協(xié)同適應(yīng),可用于減少神經(jīng)網(wǎng)絡(luò)中的過擬合。Dropout的效果非常好,實現(xiàn)簡單且不會降低網(wǎng)絡(luò)速度,被廣泛使用。特征的協(xié)同適應(yīng)指的是在訓(xùn)練模型時,共同訓(xùn)練的神經(jīng)元為了相互彌補錯誤,而相互關(guān)聯(lián)的現(xiàn)象,在神經(jīng)網(wǎng)絡(luò)中這種現(xiàn)象會變得尤其復(fù)雜。協(xié)同適應(yīng)會轉(zhuǎn)而導(dǎo)致模型的過度擬合,因為協(xié)同適應(yīng)的現(xiàn)象并不會泛化未曾見過的數(shù)據(jù)。Dropout從解決特征間的協(xié)同適應(yīng)入手,有效地控制了神經(jīng)網(wǎng)絡(luò)的過擬合。29Dropout正則化ropout在每次訓(xùn)練中,按照一定概率p隨機的抑制一些神經(jīng)元的更新,相應(yīng)地,按照概率1?p保留一些神經(jīng)元的更新。當(dāng)神經(jīng)元被抑制時,它的前向結(jié)果被置為0,而不管相應(yīng)的權(quán)重和輸入數(shù)據(jù)的數(shù)值大小。被抑制的神經(jīng)元在后向傳播中,也不會更新相應(yīng)權(quán)重,也就是說被抑制的神經(jīng)元在前向和后向中都不起任何作用。通過隨機的抑制一部分神經(jīng)元,可以有效防止特征的相互適應(yīng)。30Dropout正則化Dropout的實現(xiàn)方法非常簡單,參考如下代碼,第3行生成了一個隨機數(shù)矩陣activations,表示神經(jīng)網(wǎng)絡(luò)中隱含層的激活值,第4-5行構(gòu)建了一個參數(shù)p=0.5伯努利分布,并從中采樣一個由伯努利變量組成的掩碼矩陣mask,伯努利變量是只有0和1兩種取值可能性的離散變量。第6行將mask和activations逐元素相乘,mask中數(shù)值為0的變量會將相應(yīng)的激活值置為0,從而這一激活值無論它本來的數(shù)值多大都不會參與到當(dāng)前網(wǎng)絡(luò)中更深層的計算,而mask中數(shù)值為1的變量則會保留相應(yīng)的激活值。31Dropout正則化

32Dropout正則化Dropout會在訓(xùn)練和測試時做出不同的行為,PyTorch的torch.nn.Module提供了train方法和eval方法,通過調(diào)用這兩個方法就可以將網(wǎng)絡(luò)設(shè)置為訓(xùn)練模式或測試模式這兩個方法只對Dropout這種訓(xùn)練和測試不一致的網(wǎng)絡(luò)層起作用,而不影響其他的網(wǎng)絡(luò)層后面介紹的BatchNormalization也是訓(xùn)練和測試步驟不同的網(wǎng)絡(luò)層。33批標(biāo)準(zhǔn)化在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,往往需要標(biāo)準(zhǔn)化輸入數(shù)據(jù),使得網(wǎng)絡(luò)的訓(xùn)練更加快速和有效,然而SGD等學(xué)習(xí)算法會在訓(xùn)練中不斷改變網(wǎng)絡(luò)的參數(shù),隱含層的激活值的分布會因此發(fā)生變化,而這一種變化就稱為內(nèi)協(xié)變量偏移。為了減輕ICS問題,批標(biāo)準(zhǔn)化固定激活函數(shù)的輸入變量的均值和方差,使得網(wǎng)絡(luò)的訓(xùn)練更快。除了加速訓(xùn)練這一優(yōu)勢,批標(biāo)準(zhǔn)化還具備其他功能:首先,應(yīng)用了批標(biāo)準(zhǔn)化的神經(jīng)網(wǎng)絡(luò)在反向傳播中有著非常好的梯度流。不僅如此,批標(biāo)準(zhǔn)化還具有正則化的作用。最后,批標(biāo)準(zhǔn)化讓深度神經(jīng)網(wǎng)絡(luò)使用飽和非線性函數(shù)成為可能。34批標(biāo)準(zhǔn)化的實現(xiàn)方式

35批標(biāo)準(zhǔn)化的實現(xiàn)方式

36批標(biāo)準(zhǔn)化的實現(xiàn)方式

37批標(biāo)準(zhǔn)化的使用方法在PyTorch中,torch.nn.BatchNorm1d提供了批標(biāo)準(zhǔn)化的實現(xiàn),同樣地,它也被當(dāng)作神經(jīng)網(wǎng)絡(luò)中的層使用。它有兩個十分關(guān)鍵的參數(shù):num_features確定特征的數(shù)量,affine決定批標(biāo)準(zhǔn)化是否使用仿射映射。38批標(biāo)準(zhǔn)化的使用方法代碼第4行實例化了一個BatchNorm1d對象,將模型的兩個中間變量running_mean和running_var初始化為5維的向量。第5-6行打印了這兩個變量的數(shù)據(jù)。第9-11行從標(biāo)準(zhǔn)高斯分布采樣了一些數(shù)據(jù)然后提供給批標(biāo)準(zhǔn)化層。第14-15行打印了變化后的running_mean和running_var。第17-24行驗證了如果我們將模型設(shè)置為eval模式,這兩個變量不會發(fā)生任何變化。39批標(biāo)準(zhǔn)化的使用方法40批標(biāo)準(zhǔn)化的使用方法

41小結(jié)最初的單層感知器模型就是為了模擬人腦神經(jīng)元提出的,但是就連異或運算都無法模擬。經(jīng)過多年的研究,人們終于提出了多層感知器模型

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論