![綜述卷積神經網絡:從基礎技術到_第1頁](http://file4.renrendoc.com/view/5abf75820f9407fe586700aca6fdef0a/5abf75820f9407fe586700aca6fdef0a1.gif)
![綜述卷積神經網絡:從基礎技術到_第2頁](http://file4.renrendoc.com/view/5abf75820f9407fe586700aca6fdef0a/5abf75820f9407fe586700aca6fdef0a2.gif)
![綜述卷積神經網絡:從基礎技術到_第3頁](http://file4.renrendoc.com/view/5abf75820f9407fe586700aca6fdef0a/5abf75820f9407fe586700aca6fdef0a3.gif)
![綜述卷積神經網絡:從基礎技術到_第4頁](http://file4.renrendoc.com/view/5abf75820f9407fe586700aca6fdef0a/5abf75820f9407fe586700aca6fdef0a4.gif)
![綜述卷積神經網絡:從基礎技術到_第5頁](http://file4.renrendoc.com/view/5abf75820f9407fe586700aca6fdef0a/5abf75820f9407fe586700aca6fdef0a5.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1引言1.1動機過去幾年來,計算機視覺研究主要集中在卷積神經網絡(常簡稱為ConvNet或CNN)上。這些工作已經在廣泛的分類和回歸任務上實現了新的當前最佳表現。相對而言,盡管這些方法的歷史可以追溯到多年前,但對這些系統(tǒng)得到出色結果的方式的理論理解還很滯后。事實上,當前計算機視覺領域的很多成果都是將CNN當作黑箱使用,這種做法是有效的,但其有效的原因卻非常模糊不清,這嚴重滿足不了科學研究的要求。尤其是這兩個可以互補的問題:(1)在被學習的方面(比如卷積核),究竟被學習的是什么?(2)在架構設計方面(比如層的數量、核的數量、池化策略、非線性的選擇),為什么某些選擇優(yōu)于另一些選擇?這些問題的答案不
2、僅有利于提升我們對CNN的科學理解,而且還能提升它們的實用性。此外,目前實現CNN的方法需要大量訓練數據,而且設計決策對結果表現有很大的影響。更深度的理論理解應該能減輕對數據驅動的設計的依賴。盡管已有實證研究調查了所實現的網絡的運行方式,但到目前為止,這些結果很大程度上還局限在內部處理過程的可視化上,目的是為了理解CNN中不同層中發(fā)生的情況。1.2目標針對上述情況,本報告將概述研究者提出的最突出的使用多層卷積架構的方法。要重點指出的是,本報告將通過概述不同的方法來討論典型卷積網絡的各種組件,并將介紹它們的設計決策所基于的生物學發(fā)現和/或合理的理論基礎。此外,本報告還將概述通過可視化和實證研究來
3、理解CNN的不同嘗試。本報告的最終目標是闡釋CNN架構中涉及的每一個處理層的作用,匯集我們當前對CNN的理解以及說明仍待解決的問題。1.3報告提綱本報告的結構如下:本章給出了回顧我們對卷積網絡的理解的動機。第2章將描述各種多層網絡并給出計算機視覺應用中使用的最成功的架構。第3章將更具體地關注典型卷積網絡的每種構造模塊,并將從生物學和理論兩個角度討論不同組件的設計。最后,第4章將會討論CNN設計的當前趨勢以及理解CNN的工作,并且還將重點說明仍然存在的一些關鍵短板。2多層網絡總的來說,本章將簡要概述計算機視覺領域中所用的最突出的多層架構。需要指出,盡管本章涵蓋了文獻中最重要的貢獻,但卻不會對這些
4、架構進行全面概述,因為其它地方已經存在這樣的概述了(比如17,56,90)。相反,本章的目的是為本報告的剩余部分設定討論基礎,以便我們詳細展示和討論當前對用于視覺信息處理的卷積網絡的理解。21多層架構在近來基于深度學習的網絡取得成功之前,最先進的用于識別的計算機視覺系統(tǒng)依賴于兩個分離但又互補步驟。第一步是通過一組人工設計的操作(比如與基本集的卷積、局部或全局編碼方法)將輸入數據變換成合適的形式。對輸入的變換通常需要找到輸入數據的一種緊湊和/或抽象的表征,同時還要根據當前任務注入一些不變量。這種變換的目標是以一種更容易被分類器分離的方式改變數據。其次,被變換的數據通常用于訓練某些類型的分類器(比
5、如支持向量機)來識別輸入信號的內容。通常而言,任何分類器的表現都會受到所使用的變換方法的嚴重影響。多層學習架構為這一問題帶來了不同的前景,這種架構提出不僅要學習分類器,而且要從數據中直接學習所需的變換操作。這種形式的學習通常被稱為表征學習,當應用在深度多層架構中時即被稱為深度學習。多層架構可以定義為允許從輸入數據的多層抽象中提取有用信息的計算模型。一般而言,多層架構的設計目標是在更高層凸顯輸入中的重要方面,同時能在遇到更不重要的變化時變得越來越穩(wěn)健。大多數多層架構都是將帶有交替的線性和非線性函數的簡單構建模塊堆疊在一起。多年以來,研究者已經提出了很多不同類型的多層架構,本章將會覆蓋計算機視覺應
6、用中所采用的最為突出的此類架構。人工神經網絡是其中的關注重點,因為這種架構的表現非常突出。為了簡單起見,后面會直接將這類網絡稱為神經網絡。2.1.1神經網絡典型的神經網絡由一個輸入層、一個輸出層和多個隱藏層構成,其中每一層都包含多個單元。kUpulRBJfE陽細圖2.1:典型神經網絡架構示意圖,圖來自17自動編碼器可以定義為由兩個主要部分構成的多層神經網絡。第一個部分是編碼器,可以將輸入數據變換成特征向量;第二個部分是解碼器,可將生成的特征向量映射回輸入空間。HeepAuton:cKierEnoodfngDecodingOOOOOOOOOOOO00OOOOOOOOOOOOOuipuiCompr
7、essedFeateVettw圖2.2典型自動編碼器網絡的結構,圖來自172.1.2循環(huán)神經網絡當談到依賴于序列輸入的任務時,循環(huán)神經網絡(RNN)是最成功的多層架構之一。RNN可被視為一種特殊類型的神經網絡,其中每個隱藏單元的輸入時其當前時間步驟觀察到的數據和其前一個時間步驟的狀態(tài)。圖2.3:標準循環(huán)神經網絡的運算的示意圖。每個RNN,單元的輸入都是當前時間步驟的新輸入和前ht=+wAd_i)一個時間步驟的狀態(tài);然后根據計算得到新輸出,這個輸出又可被饋a0*o叮斗送到多層RNN的下一層進行處理。LSTMUnit圖2.4:典型LSTM單元示意圖。該單元的輸入是當前時間的輸入和前一時間的輸入,然
8、后它會返回一個輸出并將其饋送給下一時間。LSTM單元的最終輸出由輸入門、輸出門和記憶單元狀態(tài)控制。圖來自33OutputGateInputModuiabonGate2.1.3卷積網絡卷積網絡(CNN)是一類尤其適合計算機視覺應用的神經網絡,因為它們能使用局部操作對表征進行分層抽象。有兩大關鍵的設計思想推動了卷積架構在計算機視覺領域的成功。第一,CNN利用了圖像的2D結構,并且相鄰區(qū)域內的像素通常是高度相關的。因此,CNN就無需使用所有像素單元之間的一對一連接(大多數神經網絡都會這么做),而可以使用分組的局部連接。第二,CNN架構依賴于特征共享,因此每個通道(即輸出特征圖)是在所有位置使用同一個
9、過濾器進行卷積而生成的。InputConvoluuors/FullConnectionOutputSubumphngConwontSubsampiingClfeaturemapsS2feacuremapsClfeaturemapsSIfeaturerTiipiConvolutions圖2.5:標準卷積網絡的結構的示意圖圖來自93圖2.6:Neocognitron的結構示意圖,圖來自492.1.4生成對抗網絡典型的生成對抗網絡(GAN)由兩個互相競爭的模塊或子網絡構成,即:生成器網絡和鑒別器網絡。2.1.5多層網絡的訓練如前面討論的一樣,多種多層架構的成功都很大程度上取決于它們的學習過程的成功。
10、其訓練過程通常都基于使用梯度下降的誤差的反向傳播。由于使用簡單,梯度下降在訓練多層架構上有廣泛的應用。216簡單說說遷移學習使用多層架構提取的特征在多種不同數據集和任務上的適用性可以歸功于它們的分層性質,表征會在這樣的結構中從簡單和局部向抽象和全局發(fā)展。因此,在其層次結構中的低層級提取的特征往往是多種不同任務共有的特征,因此使得多層結構更容易實現遷移學習。2.2空間卷積網絡理論上而言,卷積網絡可以應用于任意維度的數據。它們的二維實例非常適用于單張圖像的結構,因此在計算機視覺領域得到了相當大的關注。有了大規(guī)模數據集和強大的計算機來進行訓練之后,CNN近來在多種不同任務上的應用都出現了迅猛增長。本
11、節(jié)將介紹為原來的LeNet引入了相對新穎的組件的比較突出的2DCNN架構。CNN近期發(fā)展中的關鍵架構圖2.8:AlexNet架構。需要指出,雖然從圖上看這是一種有兩個流的架構,但實際上這是一種單流的架構,這張圖只是說明AlexNet在2個不同GPU上并行訓練的情況。圖來自88圖2.9:GoogLeNet架構。(a)典型的inception模塊,展示了順序和并行執(zhí)行的操作。(b)由層疊的許多inception模塊構成的典型inception架構的示意圖。圖來自138identity(a)圖2.10:ResNet架構。(a)殘差模塊。(b)由層疊的許多殘差模塊構成的典型ResNet架構示意圖。圖來
12、自64(ii)圖2.11:DenseNet架構。(a)dense模塊。(b)(b)由層疊的許多dense模塊構成的典型DenseNet架構的示意圖。圖來自722.2.2實現CNN的不變性使用CNN的一大難題是需要非常大的數據集來學習所有的基本參數。甚至擁有超過100萬張圖像的ImageNet等大規(guī)模數據集在訓練特定的深度架構時仍然被認為太小。滿足這種大數據集要求的一種方法是人工增強數據集,具體做法包括對圖像進行隨機翻轉、旋轉和抖動(jittering)等。這些增強方法的一大優(yōu)勢是能讓所得到的網絡在面對各種變換時能更好地保持不變。2.2.3實現CNN的定位除了識別物體等簡單的分類任務,CNN近來
13、也在需要精準定位的任務上表現出色,比如形義分割和目標檢測。2.3時空卷積網絡使用CNN為各種基于圖像的應用帶來了顯著的性能提升,也催生了研究者將2D空間CNN擴展到視頻分析的3D時空CNN上的興趣。一般而言,文獻中提出的各種時空架構都只是試圖將空間域(x,y)的2D架構擴展到時間域(x,y,t)中。在基于訓練的時空CNN領域存在3種比較突出的不同架構設計決策:基于LSTM的CNN、3DCNN和Two-StreamCNN。231基于LSTM的時空CNN基于LSTM的時空CNN是將2D網絡擴展成能處理時空數據的一些早期嘗試。它們的操作可以總結成圖2.16所示的三個步驟。第一步,使用一個2D網絡處理
14、每一幀,并從這些2D網絡的最后一層提取出特征向量。第二步,將這些來自不同時間步驟的特征用作LSTM的輸入,得到時間上的結果。第三步,再對這些結果求平均或線性組合,然后再傳遞給一個softmax分類器以得到最終預測。3DCNN這種突出的時空網絡是將2DCNN最直接地泛化到圖像時空域中。它直接處理RGB圖像的時間流,并通過應用所學習到的3D卷積過濾器來處理這些圖像。Two-StreamCNN這種類型的時空架構依賴于一種雙流式(two-stream)的設計。標準的雙流式架構是采用兩個并行通路個用于處理外觀,另一個用于處理運動;這種方法類似于生物視覺系統(tǒng)研究中的雙流式假設。2.4整體討論需要重點指出的
15、是,盡管這些網絡在很多計算機視覺應用上都實現了很有競爭力的結果,但它們的主要缺點仍然存在:對所學習到的表征的確切本質的理解很有限、依賴于大規(guī)模數據訓練集、缺乏支持準確的表現邊界的能力、網絡超參數選擇不清晰。3理解CNN的構建模塊鑒于CNN領域存在大量懸而未決的問題,本章將介紹典型卷積網絡中每種處理層的作用和意義。為此本章將概述在解決這些問題上最突出的工作。尤其值得一提的是,我們將從理論和生物學兩個角度來展示CNN組件的建模方式。每種組件的介紹后面都總結了我們當前的理解水平。31卷積層卷積層可以說是CNN架構中最重要的步驟之一?;径?,卷積是一種線性的、平移不變性的運算,其由在輸入信號上執(zhí)行局
16、部加權的組合構成。根據所選擇的權重集合(即所選擇的點擴散函數(pointspreadfunction)的不同,也將揭示出輸入信號的不同性質。在頻率域中,與點擴散函數關聯的是調制函數一一說明了輸入的頻率組分通過縮放和相移進行調制的方式。因此,選擇合適的核(kernel)對獲取輸入信號中所包含的最顯著和最重要的信息而言至關重要,這能讓模型對該信號的內容做出更好的推斷。本節(jié)將討論一些實現這個核選擇步驟的不同方法。3.2整流多層網絡通常是高度非線性的,而整流(rectification)則通常是將非線性引入模型的第一個處理階段。整流是指將點方面的非線性(也被稱為激活函數)應用到卷積層的輸出上。這一術語
17、借用自信號處理領域,其中整流是指將交流變成直流。這也是一個能從生物學和理論兩方面都找到起因的處理步驟。計算神經科學家引入整流步驟的目的是尋找能最好地解釋當前神經科學數據的合適模型。另一方面,機器學習研究者使用整流的目的是為了讓模型能更快和更好地學習。有趣的是,這兩個方面的研究者往往都認同這一點:他們不僅需要整流,而且還會殊途同歸到同一種整流上。(ajLogistic(b)tanh(c)ReLUV(d)LReLU/PReLU(e)SReLU(f)EReLU3.3歸一化正如前面提到的,由于這些網絡中存在級聯的非線性運算,所以多層架構是高度非線性的。除了前一節(jié)討論的整流非線性,歸一化(normali
18、zation)是CNN架構中有重要作用的又一種非線性處理模塊。CNN中最廣泛使用的歸一化形式是所謂的DivisiveNormalization(DN,也被稱為局部響應歸一化)。本節(jié)將介紹歸一化的作用并描述其糾正前兩個處理模塊(卷積和整流)的缺點的方式。同樣,我們會從生物學和理論兩個方面討論歸一化。3.4池化不管是生物學啟發(fā)的,還是純粹基于學習的或完全人工設計的,幾乎所有CNN模型都包含池化步驟。池化運算的目標是為位置和尺寸的改變帶來一定程度的不變性以及在特征圖內部和跨特征圖聚合響應。與之前幾節(jié)討論的三種CNN模塊類似,池化在生物學和理論研究上都具有支持。在CNN網絡的這個處理層上,主要的爭論點
19、是池化函數的選擇。使用最廣泛的兩種池化函數分別是平均池化和最大池化。本節(jié)將探索相關文獻中描述的各種池化函數的優(yōu)點和缺點。圖3.10:平均池化和最大池化在Gabor濾波后的圖像上的比較(a)展示了不同尺度的平均池化的效果,其中(a)中上面一行是應用于原始灰度值圖像的結果,(a)中下面一行是應用于Gabor濾波后的圖像上的結果。平均池化能得到灰度值圖像的更平滑的版本,而稀疏的Gabor濾波后的圖像則會褪色消散。相對而言,(b)給出了不同尺度的最大池化的效果,其中(b)中上面一行是應用于原始灰度值圖像的結果,(b)中下面一行是應用于Gabor濾波后的圖像上的結果。這里可以看到,最大池化會導致灰度值圖
20、像質量下降,而Gabor濾波后的圖像中的稀疏邊則會得到增強。圖來自1314當前狀態(tài)對CNN架構中各種組件的作用的論述凸顯了卷積模塊的重要性,這個模塊很大程度上負責了在網絡中獲取最抽象的信息。相對而言,我們對這個處理模塊的理解卻最少,因為這需要最繁重的計算。本章將介紹在嘗試理解不同的CNN層所學習的內容上的當前趨勢。同時,我們還將重點說明這些趨勢方面仍有待解決的問題。4.1當前趨勢盡管各種CNN模型仍繼續(xù)在多種計算機視覺應用中進一步推進當前最佳的表現,但在理解這些系統(tǒng)的工作方式和如此有效的原因上的進展仍還有限。這個問題已經引起了很多研究者的興趣,為此也涌現出了很多用于理解CNN的方法。一般而言,
21、這些方法可以分成三個方向:對所學習到的過濾器和提取出的特征圖進行可視化、受理解視覺皮層的生物學方法啟發(fā)的ablationstudy、通過向網絡設計中引入分析原理來最小化學習過程。本節(jié)將簡要概述其中每種方法。4.2仍待解決的問題基于上述討論,基于可視化的方法存在以下關鍵研究方向:首要的一點:開發(fā)使可視化評估更為客觀的方法是非常重要的,可以通過引入評估所生成的可視化圖像的質量和/或含義的指標來實現。另外,盡管看起來以網絡為中心的可視化方法更有前景(因為它們在生成可視化結果上不依賴網絡自身),但似乎也有必要標準化它們的評估流程。一種可能的解決方案是使用一個基準來為同樣條件下訓練的網絡生成可視化結果。這樣的標準化方法反過來也能實現基
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 個人短期借款法律合同范本2025
- 萬畝良田聯產承包合同新政策
- 個人廠房租賃合同典范
- 產權清楚車位買賣合同細則
- 上海市房地產委托代理合同范本
- 食品調料采購合同
- 個人貸款借款合同模板
- 勞動合同管理制度7
- 個人借款合同書及還款細則
- 個人住宅購房合同條款及樣本
- 充血性心力衰竭課件
- 2025年日歷(日程安排-可直接打印)
- 《VAVE價值工程》課件
- 分享二手房中介公司的薪酬獎勵制度
- 安徽省2022年中考道德與法治真題試卷(含答案)
- GB 4793-2024測量、控制和實驗室用電氣設備安全技術規(guī)范
- 重大火災隱患判定方法
- 挖掘機售后保養(yǎng)及維修服務協議(2024版)
- 2024年電工(高級技師)考前必刷必練題庫500題(含真題、必會題)
- 公司組織架構與管理體系制度
- 2024-2030年中國涂碳箔行業(yè)現狀調查與投資策略分析研究報告
評論
0/150
提交評論