深度學(xué)習(xí)及自動駕駛應(yīng)用 課件 第3章 卷積神經(jīng)網(wǎng)絡(luò)理論及實(shí)踐_第1頁
深度學(xué)習(xí)及自動駕駛應(yīng)用 課件 第3章 卷積神經(jīng)網(wǎng)絡(luò)理論及實(shí)踐_第2頁
深度學(xué)習(xí)及自動駕駛應(yīng)用 課件 第3章 卷積神經(jīng)網(wǎng)絡(luò)理論及實(shí)踐_第3頁
深度學(xué)習(xí)及自動駕駛應(yīng)用 課件 第3章 卷積神經(jīng)網(wǎng)絡(luò)理論及實(shí)踐_第4頁
深度學(xué)習(xí)及自動駕駛應(yīng)用 課件 第3章 卷積神經(jīng)網(wǎng)絡(luò)理論及實(shí)踐_第5頁
已閱讀5頁,還剩104頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

Chapter3卷積神經(jīng)網(wǎng)絡(luò)理論及實(shí)踐第三章DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用3.4實(shí)踐斑馬線檢測3.1深層全連接神經(jīng)網(wǎng)絡(luò)的問題3.3卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用示例3.2卷積神經(jīng)網(wǎng)絡(luò)詳解目錄Content第2頁全連接神經(jīng)網(wǎng)絡(luò)模型回顧問題導(dǎo)入建立模型損失函數(shù)參數(shù)學(xué)習(xí)第3頁問題導(dǎo)入全連接神經(jīng)網(wǎng)絡(luò)(DNN)模型存在哪些不足?思考第4頁建立模型損失函數(shù)參數(shù)學(xué)習(xí)Step1Step2Step3問題導(dǎo)入模型不足模型架構(gòu)不夠靈活模型參數(shù)過多第5頁……………………………………y1y2ymx1x2xn…………問題導(dǎo)入16x16=256256個(gè)神經(jīng)元1000個(gè)神經(jīng)元1000個(gè)神經(jīng)元10個(gè)神經(jīng)元假設(shè)對16x16的圖片進(jìn)行分類手寫字體識別任務(wù),設(shè)計(jì)了如上所示的網(wǎng)絡(luò)。那對100*100的圖片做相同的任務(wù),只有通過增加每層的神經(jīng)元個(gè)數(shù)或者增加網(wǎng)絡(luò)的層數(shù)來完成。模型結(jié)構(gòu)不夠靈活網(wǎng)絡(luò)結(jié)構(gòu)不夠靈活第6頁……………………………………y1y2ymx1x2xn…………問題導(dǎo)入16x16=256256X103權(quán)重參數(shù)106權(quán)重參數(shù)104權(quán)重參數(shù)256個(gè)神經(jīng)元例如:輸入為16x16的圖片,輸入層為256個(gè)神經(jīng)元,隱藏層每層1000個(gè)神經(jīng)元,輸出層10個(gè)神經(jīng)元。假設(shè)共5層,則共需要學(xué)習(xí)(256*103+106+106+104)個(gè)w再加(1000+1000+1000+10)個(gè)b。模型參數(shù)太多1000個(gè)神經(jīng)元1000個(gè)神經(jīng)元10個(gè)神經(jīng)元第7頁……………………………………y1y2ymx1x2xn…………16x16=256256X103權(quán)重參數(shù)106權(quán)重參數(shù)104權(quán)重參數(shù)如果輸入為100*100的圖片或者更大的圖片呢?如果網(wǎng)絡(luò)的層數(shù)為十層呢?參數(shù)爆炸!?。?000個(gè)神經(jīng)元1000個(gè)神經(jīng)元10個(gè)神經(jīng)元256個(gè)神經(jīng)元問題導(dǎo)入例如:輸入為16x16的圖片,輸入層為256個(gè)神經(jīng)元,隱藏層每層1000個(gè)神經(jīng)元,輸出層10個(gè)神經(jīng)元。假設(shè)共5層,則共需要學(xué)習(xí)(256*103+106+106+104)個(gè)w再加(1000+1000+1000+10)個(gè)b。模型參數(shù)太多第8頁問題導(dǎo)入如何改進(jìn)?思考第9頁圖像模式的特性一

應(yīng)用一次該方法只能提取一個(gè)特征所以對應(yīng)同一張圖片輸入,應(yīng)該應(yīng)用多次該方法圖像模式的特征第一個(gè)發(fā)現(xiàn):鳶尾花僅出現(xiàn)在圖像局部區(qū)域并不是所有具有相似形態(tài)特征的鳶尾花都位于圖像的同一個(gè)位置如何應(yīng)用這個(gè)發(fā)現(xiàn)?可能的做法:定義一種提取局部的特征的方法,可有效響應(yīng)特定局部模式用這種方法遍歷整張圖片第10頁第二個(gè)發(fā)現(xiàn):大小改變,鳶尾花仍然可以有效區(qū)分如何利用這個(gè)特性?可能的做法:在神經(jīng)網(wǎng)絡(luò)逐層累加的過程中,可以直接對圖像進(jìn)行縮放;縮放到適當(dāng)大小后,可以在特征提取過程中得到有效響應(yīng)。圖像模式的特性二圖像模式的特征第11頁建立模型損失函數(shù)參數(shù)學(xué)習(xí)模型改進(jìn)如何改進(jìn)?Step1全連接神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)第12頁目錄深層全連接神經(jīng)網(wǎng)絡(luò)的問題卷積神經(jīng)網(wǎng)絡(luò)詳解卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用示例實(shí)踐:斑馬線檢測第13頁第一個(gè)發(fā)現(xiàn)對應(yīng)的可能的做法:定義一種提取局部的特征的方法,可有效響應(yīng)特定局部模式;用這種方法遍歷整張圖片。第二個(gè)發(fā)現(xiàn)對應(yīng)的可能的做法:在神經(jīng)網(wǎng)絡(luò)逐層累加的過程中,可以直接對圖像進(jìn)行縮放。池化:下采樣被檢測物體不變模式卷積:平移不變模式圖像模式的特性——小結(jié)卷積和池化那是不是卷積和池化操作就夠了?我們是不是還需要更深的模型?第14頁卷積層+激活函數(shù)+池化層+全連接層

CNN基礎(chǔ)結(jié)構(gòu)CNN應(yīng)用圖像模式的一般框架(以分類為例)在最后出現(xiàn)一次或多次,用于做分類出現(xiàn)多次,用于提取特征第15頁建立模型卷積神經(jīng)網(wǎng)絡(luò)(CNN)卷積層Pooling層損失函數(shù)參數(shù)學(xué)習(xí)使用步驟第16頁建立模型卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)上的三大特性局部連接權(quán)重共享下采樣減少網(wǎng)絡(luò)參數(shù),加快訓(xùn)練速度第17頁建立模型局部連接全連接神經(jīng)元卷積神經(jīng)網(wǎng)絡(luò)的神經(jīng)元在進(jìn)行圖像識別的時(shí)候,不需要對整個(gè)圖像進(jìn)行處理,只需要關(guān)注圖像中某些特殊的區(qū)域640x480640x480

輸入為640x480個(gè)像素

輸入為16x16個(gè)像素16x16第18頁640x480建立模型權(quán)重共享…………

卷積神經(jīng)網(wǎng)絡(luò)的神經(jīng)元

只依靠局部連接就足以減少參數(shù)?每個(gè)神經(jīng)元起作用的只是局部區(qū)域,為了使各部分都起作用,就需要增加神經(jīng)元的個(gè)數(shù)第19頁建立模型下采樣下采樣對圖像像素進(jìn)行下采樣,并不會對物體進(jìn)行改變。雖然下采樣之后的圖像尺寸變小了,但是并不影響我們對圖像中物體的識別。640x480320x240第20頁全連接神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)相同顏色的箭頭代表相同的權(quán)重參數(shù)卷積核大?。?X1建立模型對比示例兩層卷積第21頁建立模型卷積神經(jīng)網(wǎng)絡(luò)(CNN)卷積層Pooling層使用步驟損失函數(shù)參數(shù)學(xué)習(xí)第22頁101010101010101010101010101010101010000000000000000000*=121000-1-2-10建立模型卷積核inputimage(輸入圖像)kernel(卷積核)featuremap(特征映射層)

注:*為卷積操作第23頁101010101010101010101010101010101010000000000000000000*=121000-1-2-100建立模型卷積核

inputimagekernelfeaturemap注:*為卷積操作第24頁101010101010101010101010101010101010000000000000000000*=121000-1-2-1000建立模型卷積核

inputimagekernelfeaturemap注:*為卷積操作第25頁101010101010101010101010101010101010000000000000000000*=121000-1-2-10000建立模型卷積核

inputimagekernelfeaturemap注:*為卷積操作第26頁101010101010101010101010101010101010000000000000000000*=121000-1-2-1000040建立模型卷積核

注:*為卷積操作inputimagekernelfeaturemap第27頁建立模型卷積核*=121000-1-2-1404040404040000101010101010101010101010101010101010000000000000000000

00004040inputimagekernelfeaturemap注:*為卷積操作第28頁101010101010101010101010101010101010000000000000000000*=121000-1-2-1000040404040404040400000建立模型卷積核

注:*為卷積操作inputimagekernelfeaturemap第29頁101010101010101010101010101010101010000000000000000000*=121000-1-2-1000040404040404040400000建立模型卷積核注:*為卷積操作inputimagekernelfeaturemap

卷積核在網(wǎng)絡(luò)連接里面相當(dāng)于是神經(jīng)元,里面的9個(gè)值是權(quán)重參數(shù)值,卷積核中的參數(shù)需要在訓(xùn)練的過程學(xué)習(xí)第30頁建立模型卷積層*=ABCDkernelfeature

mapinputimage456789123123456789

權(quán)重共享局部連接注:*為卷積操作第31頁123456789建立模型卷積層*=456789123

kernelfeature

mapinputimage權(quán)重共享局部連接注:*為卷積操作第32頁123456789建立模型卷積層*=456789123

kernelfeature

mapinputimage權(quán)重共享局部連接注:*為卷積操作第33頁建立模型卷積層123456789*=456789123權(quán)重共享

kernelfeature

mapinputimage局部連接注:*為卷積操作第34頁featuremapinputimage建立模型卷積層123456789*=456789123全連接output

kernelfeature

mapinputimage權(quán)重共享局部連接注:*為卷積操作第35頁建立模型卷積層123456789*=456789123一次卷積,只需學(xué)習(xí)kernel

size大小的參數(shù)個(gè)數(shù),如上所示的例子,從input

image到feature

map只需要學(xué)習(xí)4個(gè)參數(shù)。全連接

kernelfeature

mapinputimagefeaturemapinputimageoutput卷積大大減少了模型所需學(xué)習(xí)的參數(shù)量?。?!權(quán)重共享局部連接注:*為卷積操作,未考慮bias.第36頁建立模型卷積層123456789*=456789123全連接單個(gè)卷積核相當(dāng)于只能提取單一特征,如何利用卷積核提取更復(fù)雜的特征?注:*為卷積操作

kernelfeature

mapinputimagefeaturemapinputimageoutput權(quán)重共享局部連接第37頁

建立模型卷積層123456789*=456789123一個(gè)卷積核可以提取圖像的一種特征==多個(gè)卷積核提取多種特征。同一kernel權(quán)重共享注:*為卷積操作

3

kernels

3

feature

mapsinputimage

3

featuremapsinputimage全連接

output局部連接第38頁

建立模型卷積層123456789*=456789123==同一kernel權(quán)重共享全連接

對于如上size為3*3的image,如需提取3個(gè)特征,卷積層需要3個(gè)卷積核,假設(shè)卷積核大小為4,則共需4*3=12個(gè)參數(shù)。

3

feature

mapsinputimage

3

featuremapsinputimageoutput局部連接

3

kernels如何對feature

maps繼續(xù)進(jìn)行卷積操作?第39頁建立模型多通道卷積*=注:*為卷積操作

kernel

feature

map

feature

maps假設(shè)上一個(gè)卷積層已得到3個(gè)3x3的feature

maps,可表示為具有三個(gè)通道的feature

map,大小為3x3x33個(gè)2x2的卷積核,可表示為具有三個(gè)通道卷積核立方體,大小為3x2x2生成一個(gè)2x2大小的feature

map卷積核通常表示為一個(gè)立方體

第40頁建立模型多通道卷積*=注:*為卷積操作

kernel

feature

map

feature

maps卷積核通常表示為一個(gè)立方體卷積核通常表示為一個(gè)立方體輸出為對應(yīng)通道在滑動窗口內(nèi)的卷積的和3個(gè)3X3的feature

maps

3個(gè)2x2的卷積核生成一個(gè)2X2大小的feature

map

第41頁建立模型多通道卷積*=注:*為卷積操作

kernel

feature

map

feature

maps卷積核通常表示為一個(gè)立方體輸出為對應(yīng)通道在滑動窗口內(nèi)的卷積的和3個(gè)3X3的feature

maps3個(gè)2x2的卷積核生成一個(gè)2X2大小的feature

map

第42頁建立模型多通道卷積*=注:*為卷積操作

kernel

feature

map

feature

maps卷積核通常表示為一個(gè)立方體輸出為對應(yīng)通道在滑動窗口內(nèi)的卷積的和3個(gè)3X3的feature

maps3個(gè)2x2的卷積核生成一個(gè)2X2大小的feature

map

第43頁建立模型多通道卷積*=注:*為卷積操作

kernel

feature

map

feature

maps卷積核通常表示為一個(gè)立方體輸出為對應(yīng)通道在滑動窗口內(nèi)的卷積的和3個(gè)3X3的feature

maps

3個(gè)2x2的卷積核生成一個(gè)2X2大小的feature

map

第44頁建立模型多通道多核卷積*=注:*為卷積操作

n

kernels

n

feature

maps

feature

mapsn個(gè)卷積核立方體生成n個(gè)feature

maps==……n個(gè)2X2的feature

maps…3個(gè)3X3的feature

maps第45頁建立模型卷積神經(jīng)網(wǎng)絡(luò)(CNN)卷積層Pooling層使用步驟損失函數(shù)參數(shù)學(xué)習(xí)第46頁10101081091010101010101010101071000010000001000000000*=121000-1-2-10-2-1540302030403017240102010Poolinginputimagekernelfeaturemap通過下采樣縮減feature

map尺度。常用max

pooling和average

pooling.Max

pooling下采樣后的featuremap下采樣注:*為卷積操作640x480320x240建立模型池化層又叫下采樣層,目的是壓縮數(shù)據(jù),降低數(shù)據(jù)維度第47頁10101081091010101010101010101071000010000001000000000*=121000-1-2-10-2-1540302030403017240102010Poolinginputimagekernelfeaturemap通過下采樣縮減feature

map尺度。常用max

pooling和average

pooling.Max

pooling40下采樣后的featuremap下采樣注:*為卷積操作640x480320x240建立模型第48頁10101081091010101010101010101071000010000001000000000*=121000-1-2-10-2-1540302030403017240102010Pooling通過下采樣縮減feature

map尺度。常用max

pooling和average

pooling.Max

pooling4030下采樣注:*為卷積操作inputimagekernelfeaturemap下采樣后的featuremap640x480320x240建立模型第49頁10101081091010101010101010101071000010000001000000000*=121000-1-2-10-2-1540302030403017240102010Pooling通過下采樣縮減feature

map尺度。常用max

pooling和average

pooling.Max

pooling403040下采樣注:*為卷積操作inputimagekernelfeaturemap下采樣后的featuremap640x480320x240建立模型第50頁10101081091010101010101010101071000010000001000000000*=121000-1-2-10-2-1540302030403017240102010Pooling通過下采樣縮減feature

map尺度。常用max

pooling和average

pooling.Max

pooling40304024下采樣增大感受野:經(jīng)過pooling后,一個(gè)數(shù)字的感受野增大了,前一層每一個(gè)數(shù)字感受的信息范圍比較窄,下一層放大數(shù)字的感受范圍,每一層的語義信息的力度都不一樣。注:*為卷積操作inputimagekernelfeaturemap下采樣后的featuremap640x480320x240建立模型第51頁1.卷積層+激活函數(shù)+池化層的組合多次出現(xiàn)提取特征2.多個(gè)全連接層或特殊的CNN結(jié)構(gòu)做為輸出層

做分類器/檢測器/分割器CNN網(wǎng)絡(luò)搭建小結(jié)卷積神經(jīng)網(wǎng)絡(luò)的一般結(jié)構(gòu)第52頁建立模型卷積神經(jīng)網(wǎng)絡(luò)(CNN)卷積層Pooling層使用步驟損失函數(shù)參數(shù)學(xué)習(xí)第53頁建立模型卷積神經(jīng)網(wǎng)絡(luò)(CNN)卷積層Pooling層使用步驟損失函數(shù)參數(shù)學(xué)習(xí)第54頁損失函數(shù)分類損失回歸損失損失函數(shù)的設(shè)計(jì)依賴于具體的任務(wù)常用:交叉熵?fù)p失函數(shù)常用:平方損失函數(shù)第55頁損失函數(shù)多分類損失CarscoreTrunkscoreMotorscoref(w?x+b)1.隨機(jī)賦值w,b的情形下,模型的初始計(jì)算結(jié)果必然和對應(yīng)的標(biāo)簽不一致;2.如何定義損失函數(shù),衡量網(wǎng)絡(luò)計(jì)算結(jié)果與標(biāo)簽值的差異?+B:一般初始賦值為0,待優(yōu)化label第56頁損失函數(shù)多分類損失交叉熵?fù)p失函數(shù)&SoftMax概率歸一化normalize交叉熵用來衡量兩個(gè)分布間的差異性:根據(jù)網(wǎng)絡(luò)輸出結(jié)果和標(biāo)簽(p(x)代表標(biāo)簽的真實(shí)概率分布,q(x)代表模型概率分布如何根據(jù)損失函數(shù)對網(wǎng)絡(luò)的權(quán)重參數(shù)w和b進(jìn)行更新?label1.7960.1990.452q(x)log(q(x))p(x)交叉熵explog第57頁建立模型卷積神經(jīng)網(wǎng)絡(luò)(CNN)卷積層Pooling層使用步驟損失函數(shù)參數(shù)學(xué)習(xí)第58頁梯度下降法選擇一個(gè)初始值w,Random,RBMpre-train

η

是“學(xué)習(xí)率”迭代參數(shù)學(xué)習(xí)

第59頁梯度下降法

η

是“學(xué)習(xí)率”參數(shù)學(xué)習(xí)每一步都沿著損失下降就快的方向進(jìn)行;一步一步走下去,直到所在的位置非常接近最低點(diǎn);學(xué)習(xí)率(超參數(shù)):每次更新的步幅大小。第60頁梯度下降法使用樣本方式的變種參數(shù)學(xué)習(xí)第61頁梯度下降方式的優(yōu)化參數(shù)學(xué)習(xí)

第62頁反向傳播算法參數(shù)學(xué)習(xí)第63頁目錄卷積神經(jīng)網(wǎng)絡(luò)詳解卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用示例深層全連接神經(jīng)網(wǎng)絡(luò)的問題實(shí)踐:斑馬線檢測第64頁經(jīng)典模型(LeNet-5)應(yīng)用示例LeNet-5由LeCun等人提出于1998年提出,主要用于手寫數(shù)字識別和英文字母識別的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò),LeNet雖小,各模塊齊全,是學(xué)習(xí)CNN的基礎(chǔ)。在MNIST上的準(zhǔn)確率達(dá)到約99%。參考:/exdb/lenet/第65頁MNIST數(shù)據(jù)集:計(jì)算機(jī)視覺領(lǐng)域的一個(gè)經(jīng)典案例,0~9的手寫數(shù)字識別數(shù)據(jù)集,輸入的原始圖像是28x28x1的灰度圖像,要從中識別出圖片是0~9這10個(gè)數(shù)字中哪一個(gè)。MNIST一般會被當(dāng)著深度學(xué)習(xí)中的基本練習(xí),類似于學(xué)習(xí)編程時(shí)的“HelloWorld”。MNIST數(shù)據(jù)集應(yīng)用示例第66頁經(jīng)典模型(LeNet-5)應(yīng)用示例用字母C代表卷積層(Convolutional

layer),用字母S代表下采樣層(Sub-samplinglayer),整個(gè)網(wǎng)絡(luò)中共有C1、S2、C3、S4、C5共5個(gè)卷積加池化層構(gòu)成了特征提取的主干部分,因此把該網(wǎng)聯(lián)稱為LeNet-5。第67頁C1層(卷積層):6個(gè)卷積核,卷積核大小為5×5,步長為1,featuremap的大小為

32-5+1=28,得到6個(gè)大小為32-5+1=28的特征圖,也就是神經(jīng)元的個(gè)數(shù)為6×28×28=4704;6個(gè)卷積核,卷積核大小為5×5,共有6×25+6=156個(gè)參數(shù)(加了6個(gè)偏置)。應(yīng)用示例經(jīng)典模型(LeNet-5)第68頁S2層(pooling層):池化核大小選擇2?2,每個(gè)下采樣節(jié)點(diǎn)的4個(gè)輸入節(jié)點(diǎn)求和后乘上一個(gè)權(quán)重參數(shù),再加上一個(gè)偏置參數(shù)作為激活函數(shù)的輸入,激活函數(shù)的輸出即是節(jié)點(diǎn)的值,得到6個(gè)14×14大小的feature

map;每個(gè)feature

map的權(quán)值和偏置值都是一樣的,則共有6×2=12個(gè)參數(shù)。經(jīng)典模型(LeNet-5)應(yīng)用示例第69頁C3層(卷積層):C3層有16個(gè)10x10的特征圖,

共有60個(gè)卷積核,C3跟S2并不是全連接的,具體連接方式如右上表所示,每個(gè)卷積核大小為5×5;則共有60×25+16=1516個(gè)參數(shù)(加16個(gè)偏置)。經(jīng)典模型(LeNet-5)應(yīng)用示例第70頁C3層(卷積層):

C3與S2中前3個(gè)圖相連的卷積結(jié)構(gòu)。經(jīng)典模型(LeNet-5)應(yīng)用示例第71頁S4層(下采樣層):對C3的16張10×10特征圖進(jìn)行最大池化,池化核大小為2×2,得到16張大小為5×5的特征圖,神經(jīng)元個(gè)數(shù)已經(jīng)減少為:16×5×5=400;每個(gè)下采樣節(jié)點(diǎn)的4個(gè)輸入節(jié)點(diǎn)求和后乘上一個(gè)權(quán)重參數(shù)加上一個(gè)偏置參數(shù)作為sigmoid激活函數(shù)的輸入,激活函數(shù)的輸出即是節(jié)點(diǎn)的值,每個(gè)特征圖的權(quán)值和偏置值都是一樣的,則共有16×2=32個(gè)參數(shù)。經(jīng)典模型(LeNet-5)應(yīng)用示例第72頁C5層(卷積層):用5×5的卷積核進(jìn)行卷積,然后我們希望得到120個(gè)特征圖,特征圖大小為5-5+1=1,神經(jīng)元個(gè)數(shù)為120(這里實(shí)際上用卷積實(shí)現(xiàn)了全連接);由S4中的16個(gè)5×5大小的特征圖變?yōu)?20個(gè)1×1的特征圖,S4和C5的所有特征圖之間全部相連,有120×16=1920個(gè)卷積核,每個(gè)卷積核大小為5×5;則共有1920×25+120=48120個(gè)參數(shù)。經(jīng)典模型(LeNet-5)應(yīng)用示例第73頁F6層(全連接層):有84個(gè)節(jié)點(diǎn),該層的訓(xùn)練參數(shù)和連接數(shù)都(120+1)×84=10164。Output層(輸出層):共有10個(gè)節(jié)點(diǎn),分別代表數(shù)字0到9,該層的訓(xùn)練參數(shù)和連接數(shù)都(84+1)×10=850。采用的是徑向基函數(shù)(RBF)的網(wǎng)絡(luò)連接方式(現(xiàn)在已經(jīng)變?yōu)閟oftmax)。經(jīng)典模型(LeNet-5)應(yīng)用示例第74頁一般池化操作是沒有參數(shù)的,LeNet-5中在池化層整體增加了權(quán)重參數(shù)和偏置;卷積層的參數(shù)相對較少,大量的參數(shù)都存在于全連接層;隨著神經(jīng)網(wǎng)絡(luò)的加深,激活值尺寸會逐漸變小,但是,如果激活值尺寸下降太快,會影響神經(jīng)網(wǎng)絡(luò)的性能。經(jīng)典模型(LeNet-5)應(yīng)用示例ActivationShapeActivationUnitSizeParameters輸入層(32,32,1)1024C1層(28,28,6)4704(5x5x1+1)x6=156S2層(14,14,6)11762x6=12C3層(10,10,16)1600

60×25+16=1516S4層(5,5,16)4002x16=32C5層(120,1)120(400+1)x120=48120F6層(84,1)84(120+1)x84=10164輸出層(10,1)10(84+1)x10=850第75頁在卷積神經(jīng)網(wǎng)絡(luò)中,卷積核大小、卷積核個(gè)數(shù)(特征圖需要多少個(gè))、池化核大小(采樣率多少)這些參數(shù)都是變化的,這就是所謂的CNN調(diào)參,需要學(xué)會根據(jù)需要進(jìn)行不同的選擇。經(jīng)典模型(LeNet-5)應(yīng)用示例ActivationShapeActivationUnitSizeParameters輸入層(32,32,1)1024C1層(28,28,6)4704(5x5x1+1)x6=156S2層(14,14,6)11762x6=12C3層(10,10,16)160016×(6×(5×5)+1)=2416S4層(5,5,16)4002x16=32C5層(120,1)120(400+1)x120=48120F6層(84,1)84(120+1)x84=10164輸出層(10,1)10(84+1)x10=850第76頁LeNet-5網(wǎng)絡(luò)要求的輸入圖像的尺寸是32x32x1,需要對原始尺寸為28x28x1的MNIST數(shù)據(jù)集中的圖像進(jìn)行一些預(yù)處理,比如在原始圖像周邊填充上足量的0,或者對原始圖像使用插值法來調(diào)整尺寸。LeNet-5用于MNIST數(shù)據(jù)集應(yīng)用示例第77頁經(jīng)典模型(AlexNet)應(yīng)用示例1、AlexNet由多倫多大學(xué)的AlexKrizhevsky等人與2012年在ImageNet圖像分類競賽中提出的用于圖像識別的卷積神經(jīng)網(wǎng)絡(luò),并取得了當(dāng)年的ImageNet大規(guī)模視覺識別競賽冠軍。2、AlexNet是用于ImageNet圖像分類競賽的,而ImageNet是由李飛飛團(tuán)隊(duì)創(chuàng)建的一個(gè)用于圖像識別的大型圖像數(shù)據(jù)庫,包含了超過1400萬張帶標(biāo)簽的圖像。3、相較于LeNet用于處理的手寫數(shù)字識別問題,ImageNet圖像分類很明顯數(shù)據(jù)量更加龐大,任務(wù)難度提升巨大,因此要求神經(jīng)網(wǎng)絡(luò)的性能也就更加強(qiáng)大。第78頁經(jīng)典模型(AlexNet)應(yīng)用示例AlexNet的網(wǎng)絡(luò)結(jié)構(gòu),包括1個(gè)輸入層、5個(gè)卷積層、2個(gè)全連接層以及1個(gè)輸出層。此外,AlexNet的網(wǎng)絡(luò)訓(xùn)練也與之前的神經(jīng)網(wǎng)絡(luò)有所不同,由于參數(shù)量相較之前極為龐大,為了提升訓(xùn)練速度,作者使用2塊GPU并行訓(xùn)練網(wǎng)絡(luò)模型。第79頁經(jīng)典模型(AlexNet)應(yīng)用示例相較于LeNet,AlexNet結(jié)構(gòu)明顯變得更加復(fù)雜,需要計(jì)算的參數(shù)量也更加龐大。共有大約65萬個(gè)神經(jīng)元以及6千萬個(gè)參數(shù)。第80頁經(jīng)典模型(AlexNet)應(yīng)用示例AlexNet相較于之前的其他網(wǎng)絡(luò)的創(chuàng)新之處在于:1)使用了兩種數(shù)據(jù)增強(qiáng)方法,分別是鏡像加隨機(jī)剪裁和改變訓(xùn)練樣本RGB通道的強(qiáng)度值,通過使用數(shù)據(jù)增強(qiáng)方法能夠從數(shù)據(jù)集方面增加多樣性,從而增強(qiáng)網(wǎng)絡(luò)的泛化能力;2)激活函數(shù)使用ReLU,相較于tanh等飽和的非線性函數(shù),ReLU在梯度下降計(jì)算的時(shí)候會比它們速度更快。而且ReLU函數(shù)會使部分神經(jīng)元的輸出為0,可以提高網(wǎng)絡(luò)的稀疏性,并且減少參數(shù)之間的相關(guān)性,也可以一定程度上減少網(wǎng)絡(luò)的過擬合;3)使用局部響應(yīng)歸一化對局部神經(jīng)元?jiǎng)?chuàng)建競爭機(jī)制,使得響應(yīng)較大的值更大,響應(yīng)較小的神經(jīng)元受到抑制,增強(qiáng)模型泛化能力;4)引入dropout,對于一層的神經(jīng)元,按照定義的概率將部分神經(jīng)元輸出置零,即該神經(jīng)元不參與前向及后向傳播,同時(shí)也保證輸入層與輸出層的神經(jīng)元個(gè)數(shù)不變。從另一種角度看,dropout由于是隨機(jī)置零部分神經(jīng)元,因此也可以看成是不同模型之間的組合,可以有效的防止模型過擬合。第81頁經(jīng)典模型(AlexNet)應(yīng)用示例模型代碼示例:/projectdetail/5422835第82頁經(jīng)典模型(VGGNet)應(yīng)用示例VGG是2014年ILSVRC分類任務(wù)比賽的亞軍,由Simonyan等人在AlexNet的基礎(chǔ)上針對卷積神經(jīng)網(wǎng)絡(luò)的深度進(jìn)行改進(jìn)提出的卷積神經(jīng)網(wǎng)絡(luò)。VGG的結(jié)構(gòu)與AlexNet的結(jié)構(gòu)及其相似,區(qū)別在于其網(wǎng)絡(luò)深度更深,并且基本采用3×3的卷積核,因此從形式上看更加簡單。第83頁經(jīng)典模型(VGGNet)應(yīng)用示例原作者通過對比不同深度的網(wǎng)絡(luò)在圖像分類中的性能證明了卷積神經(jīng)網(wǎng)絡(luò)的深度提升有利于提高圖像分類的準(zhǔn)確率,但是深度加深并非是沒有限制的,當(dāng)神經(jīng)網(wǎng)絡(luò)的深度加深到一定程度后繼續(xù)加深網(wǎng)絡(luò)會導(dǎo)致網(wǎng)絡(luò)性能的退化,因此,經(jīng)過對比,VGG網(wǎng)絡(luò)的深度最終被確定在了16~19層之間。第84頁經(jīng)典模型(VGGNet)應(yīng)用示例第85頁InputImageAA-LRNBCDE11layers11layers13layers16layers16layers19layersInput(224×224×3RGBimage)Conv3-64Conv3-64LRNConv3-64Conv3-64Conv3-64Conv3-64Conv3-64Conv3-64Conv3-64Conv3-64MaxpoolConv3-128Conv3-128Conv3-128Conv3-128Conv3-128Conv3-128Conv3-128Conv3-128Conv3-128Conv3-128MaxpoolConv3-256Conv3-256Conv3-256Conv3-256Conv3-256Conv3-256Conv3-256Conv3-256Conv1-256Conv3-256Conv3-256Conv3-256Conv3-256Conv3-256Conv3-256Conv3-256MaxpoolConv3-512Conv3-512Conv3-512Conv3-512Conv3-512Conv3-512Conv3-512Conv3-512Conv1-512Conv3-512Conv3-512Conv3-512Conv3-512Conv3-512Conv3-512Conv3-512MaxpoolConv3-512Conv3-512Conv3-512Conv3-512Conv3-512Conv3-512Conv3-512Conv3-512Conv1-512Conv3-512Conv3-512Conv3-512Conv3-512Conv3-512Conv3-512Conv3-512MaxpoolFC-4096FC-4096FC-4096softmax經(jīng)典模型(VGGNet)應(yīng)用示例第86頁以上六種網(wǎng)絡(luò)結(jié)構(gòu)相似,都是由5層卷積層加上3層全連接層組成,區(qū)別在于每層卷積的子卷積層數(shù)量和卷積核大小不一樣,由A到E網(wǎng)絡(luò)層數(shù)由11層逐漸增加至19層。表格中conv3-64表示64個(gè)卷積核大小為3×3的卷積層,大卷積層之間由最大池化maxpool隔開,F(xiàn)C-4096表示由4096個(gè)神經(jīng)元構(gòu)成的全連接層,最終輸出層為softmax層。在這六種網(wǎng)絡(luò)中,D為著名的VGG16,E為VGG19。經(jīng)典模型(VGGNet)應(yīng)用示例第87頁圖為最經(jīng)典的VGG16網(wǎng)絡(luò)結(jié)構(gòu),VGG16總共包含16個(gè)子層,VGG16的輸入層為224×224×3的三通道RGB圖像,第1層卷積層由2個(gè)conv3-64組成,第2層卷積層由2個(gè)conv3-128組成,第3層卷積層由3個(gè)conv3-256組成,第4層卷積層由3個(gè)conv3-512組成,第5層卷積層由3個(gè)conv3-512組成,然后是2個(gè)FC4096的全連接層,1個(gè)FC1000的全連接層,總共16層。經(jīng)典模型(VGGNet)應(yīng)用示例第88頁VGG模型示例:/projectdetail/2799241?contributionType=1經(jīng)典模型(GoogleNet)應(yīng)用示例第89頁VGGNet獲得了2014年的ILSVRC分類比賽的亞軍,而獲得當(dāng)年分類任務(wù)比賽冠軍的則是GoogleNet。與VGGNet模型相比較,GoogleNet模型的網(wǎng)絡(luò)深度已經(jīng)達(dá)到了22層,如果只計(jì)算有參數(shù)的網(wǎng)絡(luò)層,GoogleNet網(wǎng)絡(luò)有22層,如果加上池化層的話則有27層,并且在網(wǎng)絡(luò)架構(gòu)中引入了Inception單元,從而進(jìn)一步地提升了模型整體的性能。雖然GoogleNet的深度達(dá)到了22層,但參數(shù)量卻比AlexNet和VGGNet小得多,GoogleNet參數(shù)總量約為500萬個(gè),而VGG16參數(shù)約為138million個(gè),是GoogleNet的27倍多,是AlexNet的兩倍多。經(jīng)典模型(GoogleNet)應(yīng)用示例第90頁如圖為Inception模塊最初的版本,其基本組成結(jié)構(gòu)包含4個(gè)部分:1×1卷積、3×3卷積、5×5卷積以及3×3最大池化,分別經(jīng)過這四個(gè)部分計(jì)算之后的結(jié)果再進(jìn)通道上的組合就得到最終的輸出。經(jīng)典模型(GoogleNet)應(yīng)用示例第91頁NaiveInception模塊有兩個(gè)問題:1、所有卷積層直接和前一層輸入的數(shù)據(jù)對接會造成卷積層中的計(jì)算量很大;2、在這個(gè)模塊中使用的最大池化層保留了輸入數(shù)據(jù)的特征圖的深度,所以在最后進(jìn)行合并時(shí),總的輸出的特征圖的深度只會增加,這樣就增加了該模塊之后的網(wǎng)絡(luò)結(jié)構(gòu)的計(jì)算量。因此,為了

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論