Python計算機(jī)視覺編程與應(yīng)用 課件 第8章 卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)_第1頁
Python計算機(jī)視覺編程與應(yīng)用 課件 第8章 卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)_第2頁
Python計算機(jī)視覺編程與應(yīng)用 課件 第8章 卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)_第3頁
Python計算機(jī)視覺編程與應(yīng)用 課件 第8章 卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)_第4頁
Python計算機(jī)視覺編程與應(yīng)用 課件 第8章 卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)_第5頁
已閱讀5頁,還剩89頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)讓機(jī)器更好的理解和服務(wù)人類人獲得的輸入是什么?圖像信息序列信息任務(wù):理解圖像內(nèi)容方法:卷積神經(jīng)網(wǎng)絡(luò)任務(wù):理解語音/文字/視頻方法:循環(huán)神經(jīng)網(wǎng)絡(luò)一個例子計算機(jī)視覺輸入圖像輸入圖像大小為32x32,輸入數(shù)據(jù)量為32x32x3=3072隱層神經(jīng)元個數(shù)為100,第一層權(quán)值數(shù)量為3072x100=307200/aics一個例子實(shí)際場景中,往往需要更大的輸入圖像以及更深的網(wǎng)絡(luò)結(jié)構(gòu)。輸入圖像大小為1024x1024,第一層隱層神經(jīng)元個數(shù)為1000第一層權(quán)重數(shù)量級為10^9,過多的參數(shù)會導(dǎo)致過擬合卷積神經(jīng)網(wǎng)絡(luò)可以有效減少權(quán)重數(shù)量輸入圖像/aics全連接前饋神經(jīng)網(wǎng)絡(luò)權(quán)重矩陣的參數(shù)非常多局部不變性特征自然圖像中的物體都具有局部不變性特征,比如尺度縮放、平移、旋轉(zhuǎn)等操作不影響其語義信息。而全連接前饋網(wǎng)絡(luò)很難提取這些局部不變特征。卷積神經(jīng)網(wǎng)絡(luò)(CNN)全連接卷積局部連接權(quán)重共享所有神經(jīng)元之間的連接都使用不同權(quán)重。輸出層神經(jīng)元共用同一組權(quán)重,進(jìn)一步減少權(quán)重數(shù)量。權(quán)重數(shù)量/aicsCNN組成VGG16卷積層(conv)池化層(max

pool)全連接層(FC)Softmax/aics卷積層卷積層如何檢測特征檢測復(fù)雜邊緣將權(quán)重作為參數(shù),在訓(xùn)練中學(xué)習(xí)。8w0w1w2w3w4w5w6w7w8filter/kernel卷積神經(jīng)網(wǎng)絡(luò)的兩個重要特征:局部連接、權(quán)重共享

可有效減少權(quán)重參數(shù),避免過擬合,為增加卷積層數(shù)提供可能。/aics卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)生物學(xué)上局部感受野(ReceptiveField)卷積神經(jīng)網(wǎng)絡(luò)有兩個結(jié)構(gòu)上的特性:局部連接權(quán)重共享卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)表示:矩陣,張量(Tensor)卷積層卷積卷積經(jīng)常用在信號處理中,用于計算信號的延遲累積。假設(shè)一個信號發(fā)生器每個時刻t產(chǎn)生一個信號xt,其信息的衰減率為wk,即在k?1個時間步長后,信息為原來的wk倍假設(shè)w1=1,w2=1/2,w3=1/4時刻t收到的信號yt為當(dāng)前時刻產(chǎn)生的信息和以前時刻延遲信息的疊加濾波器(filter)或卷積核(convolutionkernel)卷積卷積經(jīng)常用在信號處理中,用于計算信號的延遲累積。給定一個收入信號序列x和濾波器w卷積的輸出為:Filter:[-1,0,1]卷積擴(kuò)展引入濾波器的滑動步長s和零填充p等寬卷積窄卷積兩維卷積在圖像處理中,圖像是以二維矩陣的形式輸入到神經(jīng)網(wǎng)絡(luò)中,因此我們需要二維卷積。卷積層數(shù)學(xué):卷積運(yùn)算神經(jīng)網(wǎng)絡(luò):實(shí)際為計算矩陣內(nèi)積(相關(guān)系數(shù));

(“*”表示卷積)231523745231396042064712410806702163*1014-3230-1=321014-3230-1卷積層231523745231396042064712410806702163*1014-3230-1=32401014-3230-1231523745231396042064712410806702163*1014-3230-1=324037751014-3230-1卷積層離散卷積的邊緣效應(yīng)卷積層離散卷積的邊緣效應(yīng)Zero-Padding,edge-padding,reflect-padding二維卷積步長1,零填充0步長2,零填充0步長1,零填充1步長2,零填充1卷積神經(jīng)網(wǎng)絡(luò)用卷積層代替全連接層卷積作為特征提取器特征映射(FeatureMap):圖像經(jīng)過卷積后得到的特征。卷積核看成一個特征提取器卷積層卷積層如何檢測特征10-110-110-1101010000101010000101010000101010000101010000101010000030300030300030300030300*=11010-10-1-110101010100101010100010101000010100

0001000000

0000000

1030301030301030

30100301000*=檢測垂直邊緣檢測對角線邊緣卷積層基本操作單元:卷積層卷積層基本操作單元:卷積層卷積層多輸入特征圖單輸出特征圖卷積運(yùn)算*inputfilter=output6x6x33x3x34x4卷積層*=6x6x33x3x34x40000110020000020120000220121-1-1-1-10-1111-1-1-10-1-101-111-11-11-11C=0C=1C=2*=2-2-1+2+0-2+0+2+(-1)+0+0+2=2卷積層卷積層基本操作單元:卷積層卷積層基本操作單元:卷積層size=3c_in=3c_out=2stride=1padding=0卷積層的映射關(guān)系步長2

filter個數(shù)33*3填充卷積層典型的卷積層為3維結(jié)構(gòu)總結(jié):卷積層參數(shù)35*inputfilter1=output

filter2output+bias

filter:可訓(xùn)練bias:可訓(xùn)練,使分類器偏離激活函數(shù)原點(diǎn),更靈活;activation總結(jié):卷積層參數(shù)36激活層激活層基本操作單元:激活層ReLU激活層基本操作單元:激活層激活層基本操作單元:激活層池化層池化層基本操作單元:池化Pooling/降采樣層池化層基本操作單元:池化Pooling/降采樣層池化層池化Pooling/降采樣層池化層基本操作單元:池化Pooling/降采樣層正則化批歸一化BatchNormalization數(shù)據(jù)擴(kuò)增/增強(qiáng)/增廣DataAugmentation減少過擬合的最簡單方法是增加訓(xùn)練樣本。圖像增強(qiáng)方法旋轉(zhuǎn)(rotaing)、翻轉(zhuǎn)(flipping)、放縮(scaling)及平移(shfiting)等。Dropout微調(diào)Fine-tunningCNN結(jié)構(gòu)卷積網(wǎng)絡(luò)結(jié)構(gòu)卷積網(wǎng)絡(luò)是由卷積層、匯聚層、全連接層交叉堆疊而成。趨向于小卷積、大深度趨向于全卷積典型結(jié)構(gòu)一個卷積塊為連續(xù)M個卷積層和b個匯聚層(M通常設(shè)置為2~5,b為0或1)。一個卷積網(wǎng)絡(luò)中可以堆疊N個連續(xù)的卷積塊,然后在接著K個全連接層(N的取值區(qū)間比較大,比如1~100或者更大;K一般為0~2)。卷積網(wǎng)絡(luò)結(jié)構(gòu)深度特征學(xué)習(xí)L=||y-f(x)||1L=1,ify≠f(x)L=CE(y,f(x))交叉熵深度學(xué)習(xí)深度特征學(xué)習(xí)表示學(xué)習(xí)CNN以圖像的原始像素作為輸入,基于輸出層定義的損失函數(shù)使用反向傳播算法端到端(End-to-end)學(xué)習(xí),從而自動學(xué)習(xí)得到圖像底層到高層的層次化語義表達(dá)表示學(xué)習(xí)淺層學(xué)習(xí)局部特征,深層學(xué)習(xí)整體特征57神經(jīng)網(wǎng)絡(luò)可視化:conv6conv9Springenberg,J.T.;Dosovitskiy,A.;Brox,T.&Riedmiller,M.Strivingforsimplicity:theallconvolutinalnetICML,2015,1-12卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)58為何選擇“深”而非“廣”的網(wǎng)絡(luò)結(jié)構(gòu)即使只有一層隱層,只要有足夠的神經(jīng)元,神經(jīng)網(wǎng)絡(luò)理論上可以擬合任意連續(xù)函數(shù)。為什么還要使用深層網(wǎng)絡(luò)結(jié)構(gòu)?深度網(wǎng)絡(luò)可從局部到整體“理解圖像”學(xué)習(xí)復(fù)雜特征時(例如人臉識別),淺層的卷積層感受野小,學(xué)習(xí)到局部特征,深層的卷積層感受野大,學(xué)習(xí)到整體特征。以寬度換深度,用多個小卷積替代一個大卷積,在獲得更多樣特征的同時所需權(quán)重數(shù)量也更少。深度網(wǎng)絡(luò)可減少權(quán)重數(shù)量典型的卷積網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)CNN模型結(jié)構(gòu)變遷針對移動端的輕量型網(wǎng)絡(luò)MobileNetV3(2016.04)ShuffleNet(2016.06)Xception(2016.10)SqueezeNet(2016.02)LeNet(1998)AlexNet(2012)VGGNet(2014)NIN(2013)GoogLeNet(2014)ResNet(2015)DenseNet(2016)NAS(2018)PYTORCHHUBLeNet-5LeNet-5是一個非常成功的神經(jīng)網(wǎng)絡(luò)模型?;贚eNet-5的手寫數(shù)字識別系統(tǒng)在90年代被美國很多銀行使用,用來識別支票上面的手寫數(shù)字。LeNet-5共有7層。需要多少個卷積核?卷積網(wǎng)絡(luò)結(jié)構(gòu)https://atcold.github.io/pytorch-Deep-Learning/zh/week03/03-2/LeNet-5卷積網(wǎng)絡(luò)結(jié)構(gòu)https://atcold.github.io/pytorch-Deep-Learning/zh/week03/03-2/AlexNet2012ILSVRCwinner(top5errorof16%comparedtorunner-upwith26%error)第一個現(xiàn)代深度卷積網(wǎng)絡(luò)模型,首次使用了很多現(xiàn)代深度卷積網(wǎng)絡(luò)的一些技術(shù)方法,比如使用GPU進(jìn)行并行訓(xùn)練,采用了ReLU作為非線性激活函數(shù),使用Dropout防止過擬合,使用數(shù)據(jù)增強(qiáng)5個卷積層、3個匯聚層和3個全連接層torchvisionAlexNetInception網(wǎng)絡(luò)2014ILSVRCwinner(22層)參數(shù):GoogLeNet:4MVSAlexNet:60M錯誤率:6.7%Inception網(wǎng)絡(luò)是由有多個inception模塊和少量的匯聚層堆疊而成。Inception模塊v1在Inception網(wǎng)絡(luò)中,一個卷積層包含多個不同大小的卷積操作,稱為Inception模塊。Inception模塊同時使用1×1、3×3、5×5等不同大小的卷積核,并將得到的特征映射在深度上拼接(堆疊)起來作為輸出特征映射。卷積和最大匯聚都是等寬的。Inception模塊v3用多層的小卷積核來替換大的卷積核,以減少計算量和參數(shù)量。使用兩層3x3的卷積來替換v1中的5x5的卷積使用連續(xù)的nx1和1xn來替換nxn的卷積。Inception模塊v3用多層的小卷積核來替換大的卷積核,以減少計算量和參數(shù)量。使用兩層3x3的卷積來替換v1中的5x5的卷積使用連續(xù)的nx1和1xn來替換nxn的卷積。殘差網(wǎng)絡(luò)殘差網(wǎng)絡(luò)(ResidualNetwork,ResNet)是通過給非線性的卷積層增加直連邊的方式來提高信息的傳播效率。假設(shè)在一個深度網(wǎng)絡(luò)中,我們期望一個非線性單元(可以為一層或多層的卷積層)f(x,θ)去逼近一個目標(biāo)函數(shù)為h(x)。將目標(biāo)函數(shù)拆分成兩部分:恒等函數(shù)和殘差函數(shù)ResNet2015ILSVRCwinner(152層)錯誤率:3.57%殘差單元DenseNetStandardCNNResNetDenseNetDenseNetDenseNet常用CNN結(jié)構(gòu)NAS常用CNN結(jié)構(gòu)CNN可視化CNN可視化:濾波器AlexNet中的濾波器(96filters[11x11x3])CNN可視化:CNNExplainer解釋器CNN解釋器:https://poloclub.github.io/cnn-explainer/GitHub:/poloclub/cnn-explainer論文:/abs/2004.15004佐治亞理工ZijieWangCNN可視化:CNNExplainer解釋器單擊神經(jīng)元,進(jìn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論