papercv方向匯總第三篇vggnet中文_第1頁
papercv方向匯總第三篇vggnet中文_第2頁
papercv方向匯總第三篇vggnet中文_第3頁
papercv方向匯總第三篇vggnet中文_第4頁
papercv方向匯總第三篇vggnet中文_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

本文研究了在大規(guī)模識別中,卷積神經(jīng)網(wǎng)絡(luò)的深度對準確(accuracy)3x3卷積核的神經(jīng)網(wǎng)絡(luò)架16-19層的網(wǎng)絡(luò)可以使現(xiàn)有設(shè)2014年的ImageNet比賽中提介卷積神經(jīng)網(wǎng)絡(luò)最近在大規(guī)模和識別中取得了重大成功,這可能得益于大型開源庫,比如ImageNet,以及高性能計算系統(tǒng),如GPU或大規(guī)模分布式集群。特別是ImageNet大規(guī)模視覺識別(ILSVRC),對深度視覺識別架構(gòu)的發(fā)展起到了重要作用,它為幾代大規(guī)模識別系統(tǒng)——從淺層特征編碼(ILSVRC-2011的獲勝者)到卷積神經(jīng)網(wǎng)絡(luò)(ILSVRC-2012的獲勝者)隨著卷積神經(jīng)網(wǎng)絡(luò)在計算機視覺領(lǐng)域的應(yīng)用越來越廣,越來越多的人嘗試改進Kizevsky等人在2年原始架構(gòu),以得到更好的準確率。例如,在13年Imageet大賽中性能最好的改進方案在第一個卷積層中使用較小的接受域窗口以及較小的步長,另一種改進方案是在整幅及多個尺寸上多次訓(xùn)練和測試網(wǎng)絡(luò)(emaetetal.4;wad,)。在本文中,我們著眼于卷積神經(jīng)網(wǎng)絡(luò)中的另一個方面深度。為此,我們固定了架構(gòu)中的其他參數(shù),并通過添加卷積層穩(wěn)定地增加網(wǎng)絡(luò)深度。這是可行的,因為我們在每層都x3卷積核。ILSVRC分類和定位中取得最好成績,還在其他識別數(shù)據(jù)集中取得卓越性能,即便只作為簡單框架本文組織結(jié)構(gòu)如下。在第二部分,描述了卷積神經(jīng)網(wǎng)絡(luò)的設(shè)置。分類的訓(xùn)練及評估細節(jié)在第三部分中闡述。在ILSVRC分類任務(wù)中不同設(shè)置的比較在第四A中描估了我們在ILSVRC-2014中的物體,并在附錄B討論了深度特征在其他數(shù)據(jù)集上的泛化。最后,在附錄C中列出了本文的主要修訂記錄。卷積神經(jīng)網(wǎng)絡(luò)的設(shè)Ciresan(2011)Krizhevsky(2012)相同的設(shè)計原則。在這一部分,我們首先架在整個訓(xùn)練中,卷積神經(jīng)網(wǎng)絡(luò)的輸入為固定的224x224的RGB。唯一的預(yù)處理是對每個像素減去ImageNet訓(xùn)練集中RGB的平均值。通過一系列3x31x1的卷積核,這可以看做是輸入通道的線性變換(后面接一個非線性變換)1;卷積層的空間填充(padding)3x3的卷積層,padding1(pooling)5個最大池化層,接在部分卷積層后面(不是所有卷積層)。2x22。在一系列卷積層(不同架構(gòu)有不同深度)3個全連接層(Fully-Connected):4096個通道,第三個用來給ILSVRC進行分類,1000個通道(1000個類)。最后一層使用softmax。全連接層的設(shè)置與所有隱藏層都使用ReLU非線性激活函數(shù)。注意到我們的網(wǎng)絡(luò)(除了一個)都不包含局部響應(yīng)標準化(LRN):在第四部分中會展示,這個標準化并不會提高網(wǎng)絡(luò)在ILSVRC數(shù)據(jù)集上的性能,反而會增加內(nèi)存消耗和計算時間。在使用的情況下,LRN層的參數(shù)是(Krizhevskyetal.2012)的參數(shù)。設(shè)1列出,每列一個。接下來我們稱他們?yōu)椋ˋ-E)2.1所述的通用設(shè)計,只有深度不同:從網(wǎng)絡(luò)A的11層(83個全連接層)E19層(163個全連接1512。1:網(wǎng)絡(luò)設(shè)置(按列顯示)A到ERelu表2給出了每個設(shè)置的參數(shù)數(shù)目。盡絡(luò)很深,但是網(wǎng)絡(luò)的權(quán)重數(shù)目并沒有一個更淺但是卷積層更寬和接受域更大的網(wǎng)絡(luò)權(quán)重數(shù)目大(sermanetetal.,2014144M的權(quán)重)。2:參數(shù)數(shù)量(百萬討本文網(wǎng)絡(luò)的設(shè)置與ILSVRC-2012好ILSVRC-2013大賽中的前幾名完全不同。沒有在第一個卷積層使用大的接受域(11x114(Krizhevskyetal2012),7x72(Zeiler&Fergus,etal.2014)),3x3(1)3x3卷積層(中間沒有池化層)5x5的接7x73x3的卷積層代替一個7x7的卷積層有什么好處呢?首先,我們包含三個非線性修正層而非單一層,3x3卷積層堆疊的輸入和輸出都包含C3(32C2)=27C2;7x772C2=49C281%,這相當(dāng)于7x73x3的濾波器進行分解(中1x1卷積層的加入(1中的C)是一種為決策增加非線性因素的方式,不影響卷積層接受域。盡管在這里,1x1的卷積實質(zhì)上是相同空間維度的線性投影(輸入和輸出通道相同),1x1Lin等人(2014)用在“NetworkinNetwork”小尺寸的卷積濾波器之前被Ciresan(2011)等人用過,但是他們的網(wǎng)絡(luò)深度遠小于我們,并且他們沒有在大規(guī)模ILSVRC數(shù)據(jù)集上做評估。Goodfellow等人(2014)在識別街景數(shù)字的任務(wù)中使用了深度卷積神經(jīng)網(wǎng)絡(luò)(11層),展示了增加深度帶來的優(yōu)越性能。Net(2014),在ILSVRC-2014的識別任務(wù)中絡(luò)(22層)以及很小的卷積濾波器(3x31x15x5的濾4.5部分將展示我們的模型在單一網(wǎng)絡(luò)分類中準確率優(yōu)于Net。分類前面的部分我們介紹了網(wǎng)絡(luò)設(shè)置的細節(jié)。這一部分,詳細描述分類卷積訓(xùn)卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程與Krizhevsky等人(2012)(除了多尺寸訓(xùn)練數(shù)據(jù)樣本的裁剪,后面會介紹)(基于反向)做多項式邏輯回歸的優(yōu)化器來對模型進行訓(xùn)練。批次大小為2560.9,通過權(quán)值衰減(L25*10-4)和對前兩個全連接層進行dropout(比率0.5)實現(xiàn)正則化。學(xué)習(xí)率初始化為0.01,當(dāng)驗證集準10倍速率衰減(10)3次,370K(74代)。我們猜想,盡管與Krizhevsky(2012)等人的網(wǎng)絡(luò)相比,我們的網(wǎng)絡(luò)參數(shù),深度更深,但是卻需要更少的epoch次數(shù)來網(wǎng)絡(luò)權(quán)重的初始化很重要,由于深度網(wǎng)絡(luò)梯度下降的不穩(wěn)定性,不好的初始化A()A的權(quán)重初始化前四個卷積層和后三個全連接層(中間層隨機)。對預(yù)初始化層,不降低學(xué)習(xí)0.01方差。值得注意的是,我們發(fā)現(xiàn)可以用Gltegi)中的隨機初始化程序來對權(quán)重進行初始化,而不需要進行預(yù)訓(xùn)練。為了得到固定的224x224的RGB輸入,我們隨機從經(jīng)過尺寸縮放的訓(xùn)練集中進行裁剪(SGD迭代時裁剪一次)數(shù)據(jù)進行增強,被裁剪將進行隨機水平翻轉(zhuǎn)及RGB顏色轉(zhuǎn)換。訓(xùn)練的訓(xùn)練集尺寸令S為各向同性縮放的訓(xùn)練圖像最小邊,卷積神經(jīng)網(wǎng)絡(luò)的輸入就是從中裁剪的(S也稱為訓(xùn)練尺寸)224x224,原則上S224S=224,裁剪圖像將使用整個圖像的統(tǒng)計信S>>224,裁剪圖像就會取圖像的一小部我們考慮使用兩種方式來設(shè)置訓(xùn)練尺寸S。第一種是固定S,針對單尺寸的訓(xùn)練。(注意,裁剪的樣本圖像內(nèi)容仍然能夠代表多尺寸的統(tǒng)計信息)在S=384S=256S=384的訓(xùn)練,使S=2560.001第二種設(shè)置S的方式是使用多尺寸圖像訓(xùn)練,即每個訓(xùn)練的尺寸是[Smin,Smax]之間的隨機數(shù)(這里使用Smin=256,Smax=512)。由于圖像中的對象可能大小S=384的單一尺寸預(yù)訓(xùn)練模型相同設(shè)置的模型,測在測試時,給定一個訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)及一張輸入,用以下方式進行Q(也稱為測試尺寸,注意Q不需要等于訓(xùn)練尺寸S(4部分解釋),每個SQ可以提高性能)。然后,根據(jù)Sermanet的方法將網(wǎng)絡(luò)密集應(yīng)用在測試上,也就是說,全連接層先轉(zhuǎn)化為卷積層(7x7的卷積層,后兩個轉(zhuǎn)1x1的卷積層)。再將這樣得到的全卷積網(wǎng)絡(luò)運用在整幅圖像上(未裁切輸入的尺寸。最后,為了得到固定尺寸的分類得分向量,將分類得分圖進強;在原始圖像和翻轉(zhuǎn)圖像上的soft-max分類概率的平均值作為這幅圖像的最采樣(Kizevsy),因為網(wǎng)絡(luò)對每個裁切的重新計算會使效率降低。但zegey等人的網(wǎng)絡(luò),因為和全邊界條件,多重裁切評估與密集評估是互補的:對一個裁剪使用卷積網(wǎng)0來自于的相鄰像素(由于卷積和空間池化),大大增加了網(wǎng)絡(luò)整體的接域,所以上下午信息被獲取。盡管我們認為在實踐中多尺寸裁切圖像增加0張裁切圖像(×5個規(guī)則網(wǎng)格以及水平翻轉(zhuǎn),3種50zegey444張裁切圖像是可比的。實現(xiàn)細我們的實現(xiàn)使用開源的CCaffe工具箱(Jia,2013)(201312估模型,以及對全尺寸(未裁剪)的多種縮放(上文提到的)進行訓(xùn)練評估。GPU批量梯度下降計算完成后,取平均數(shù)作為所有批次的梯度。梯度計算在多個GPU間是并行計算的,所以結(jié)果與在單個GPU上訓(xùn)練是一樣的。4個GPU系統(tǒng)上的速度相對于單GPU3.75NVIDIATitanBlackGPU2~3周的時間。分類在本章,我們講述了卷積神經(jīng)網(wǎng)絡(luò)在ILSVRC2012(被用在ILSVRC2012——2014賽上)。數(shù)據(jù)集包含1000個類別,被分為三部分:訓(xùn)練集(1.3M片),驗證集(50K片),測試集(100K片,沒有)。分類性能使用兩個辦法評估:top-1和top-5error。前者是一個多類分類錯誤率,即錯誤分類圖像的比例;后者是在ILSVRC上的主要評估標準,即真實類別不在top-5預(yù)測類別之中的圖像的比例。并提交給ILSVRC服務(wù)器作為“VGG”團隊參加ILSVRC-2014競賽。單一尺寸測試測試集大小如下設(shè)置:對于固定的S,Q=S,對于變動的S∈[Smin,Smax>],Q=0.5(Smin+Smax>)3中。3A高。因此我們沒有在更深的網(wǎng)絡(luò)結(jié)構(gòu)上使用標準化操作(B-E)11A19層的E。注意,盡管深度相同,配置C(31x1卷積層)沒有配置D(使用3x3卷積層)性能好,這意味著添加非線性層的確有用(C比B好),但是使用卷積獲取空間上下文信息更有用(D比C好)19層時,錯誤率達到飽和,但是更大的數(shù)據(jù)集使用更深的模型會更好。我們也用網(wǎng)絡(luò)B與一個5x5的淺卷積網(wǎng)絡(luò)(B3x35x52.3種所述接受域相同)進行了比較,淺層網(wǎng)絡(luò)的top-1錯誤率比B(在中心裁剪圖像上)7%,證明了小濾波器的神劇卷積網(wǎng)絡(luò)比大濾波器的淺層網(wǎng)絡(luò)性能更最后,訓(xùn)練時尺寸變化(S[256;512])的性能比固定最小邊(S=256orS=384)行數(shù)據(jù)增強的確能獲取尺寸的統(tǒng)計信息。多尺寸測試數(shù)據(jù)評用尺寸抖動的效果。先在多個尺寸的測試數(shù)據(jù)上運行模型(Q值),然后下降,模型使用固定的S3個接近訓(xùn)練集的測試集尺寸評估,:Q={S-32,S,S+32}。同時,訓(xùn)練時的尺寸波動使測試時能使用更大范圍尺寸的圖像,所以使用S[Smin;Smax]Q來評估,Q={Smin,0.5(SminSmaxSmax}結(jié)果如表4,表明在測試時尺寸波動會使性能更好(對比表3中單一尺寸的結(jié)果)。與之前相同,最深的配置(D和E)表現(xiàn)的最好,并且訓(xùn)練時尺度波動比固定最小邊S表現(xiàn)更好。我們在驗證集上最好的單一網(wǎng)絡(luò)模型錯誤率為24.8%(top-1)7.5%(top5),4種加粗。在測試集上,配置E達到了7.3%的top-54Table5中我們對密集卷積網(wǎng)絡(luò)評估和多重裁切評估進行了比較(Sect3.2)。我們同樣還評估了兩種技術(shù)通過計算兩者soft-max輸出平均值的互補結(jié)果??梢?卷積網(wǎng)絡(luò)評估技術(shù)比較。所有實驗中,S[256,512],Q{256,384,卷積網(wǎng)絡(luò)融到目前為止,我們評估了獨立卷積網(wǎng)絡(luò)模型的性能。這一部分的實驗,通過計算多個模型soft-max分類概率的平均值來對它們的輸出進行組合。由于2012(Krizhevskyetal.,2012)和2013(Zeiler&Fergus,2013;Sermanetetal.,2014)的ILSVRC的最佳結(jié)果中。6。在ILSVRC比賽中我們進訓(xùn)練了單一尺寸網(wǎng)絡(luò)和多尺寸網(wǎng)絡(luò)D(僅僅微調(diào)了全連接層而非所有層)。7個模型組合結(jié)果在ILSVRC中測試的錯誤率7.3%。提交后,我們考慮禁用兩個最好表現(xiàn)的多尺寸模型(D和E)進行組7.0%,使用密集和多裁剪評估時錯誤率為6.8%7.1%(E5)。6與業(yè)界最好結(jié)72014年的ILSVRC比賽的分類任務(wù)中,我們的VGG7個模型組合的測試7.3%26.8%。7可以看出,我們的深度卷積神經(jīng)網(wǎng)絡(luò)比在ILSVRC-2012和ILSVRC-2013中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論