【基于VGG模型的照片評(píng)分機(jī)制探析綜述2900字】_第1頁
【基于VGG模型的照片評(píng)分機(jī)制探析綜述2900字】_第2頁
【基于VGG模型的照片評(píng)分機(jī)制探析綜述2900字】_第3頁
【基于VGG模型的照片評(píng)分機(jī)制探析綜述2900字】_第4頁
【基于VGG模型的照片評(píng)分機(jī)制探析綜述2900字】_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于VGG模型的照片評(píng)分機(jī)制分析綜述目錄TOC\o"1-2"\h\u13473基于VGG模型的照片評(píng)分機(jī)制分析綜述 1296541.1PyTorch框架 1194971.2VGG模型 1133921.2.1VGG模型特點(diǎn) 2203931.2.2VGG模型結(jié)構(gòu) 2196141.2.3VGG模型優(yōu)點(diǎn) 4187971.3基于VGG的圖片分類機(jī)制 456041.1.1圖像預(yù)處理 4199721.1.2圖片分類機(jī)制 51.1PyTorch框架Torch作為一個(gè)經(jīng)典的能夠處理多維矩陣數(shù)據(jù)的張量(tensor)庫,廣泛應(yīng)用于機(jī)器學(xué)習(xí)領(lǐng)域。但Torch語言采用Lua,國內(nèi)用戶不夠熟悉,導(dǎo)致其在國內(nèi)屬于小眾化,用戶使用時(shí)相較于支持Python的Tensorflow來說不方便。PyTorch作為由Facebook開源的神經(jīng)網(wǎng)絡(luò)基礎(chǔ)框架,是torch的python版本,專門針對(duì)GPU加速的深度神經(jīng)網(wǎng)絡(luò)(DNN)編程,同時(shí)還能支持動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)[12]。PyTorch追求最少的封裝設(shè)計(jì),在結(jié)構(gòu)上盡量避免重復(fù);遵循從tensor到variable(autograd)最后nn.Module三個(gè)由低到高的抽象層次,分別代表高維數(shù)組(張量)、自動(dòng)求導(dǎo)(變量)和神經(jīng)網(wǎng)絡(luò)(層/模塊),三個(gè)抽象層次之間聯(lián)系緊密,可以同時(shí)修改和操作;PyTorch的靈活性高,但不以速度為代價(jià),在許多評(píng)測中,相比TensorFlow和Keras等框架PyTorch的速度表現(xiàn)都更加優(yōu)越;PyTorch是所有的框架中面向?qū)ο笤O(shè)計(jì)最優(yōu)雅簡潔的一個(gè),其設(shè)計(jì)最符合人們的思維,它使用戶盡可能地專注于實(shí)現(xiàn)自己的想法,用戶操作過程中所思即所得,不需要考慮太多關(guān)于框架本身的束縛。1.2VGG模型VGGNet是2014年由牛津大學(xué)計(jì)算機(jī)視覺研究組(VisualGeometryGroup)和GoogleDeepMind公司的研究員一起研發(fā)出的的深度卷積神經(jīng)網(wǎng)絡(luò),其主要研究了卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)深度與其模型性能之間的關(guān)系。整體模型架構(gòu)非常簡潔,通過反復(fù)堆疊3*3的小型卷積核和2*2的最大池化層,成功地構(gòu)筑了不同網(wǎng)絡(luò)深度的卷積神經(jīng)網(wǎng)絡(luò),證明了在一定程度上增加網(wǎng)絡(luò)的深度能夠影響網(wǎng)絡(luò)最終的應(yīng)用性能。與之前state-of-the-art的網(wǎng)絡(luò)結(jié)構(gòu)相比,VGGNet的錯(cuò)誤率顯著下降,獲得了ILSVRC2014比賽分類項(xiàng)目的第2名和定位項(xiàng)目的第1名。同時(shí)由于VGGNet拓展性強(qiáng),使其遷移到其他圖片數(shù)據(jù)上的泛化性非常好,到目前為止,VGGNet依然經(jīng)常被用來提取圖像特征。因其官方網(wǎng)站上成功開源了VGGNet訓(xùn)練后的基礎(chǔ)模型參數(shù),提供了非常好的初始化權(quán)重,這些參數(shù)可用來在特定的圖像分類任務(wù)上進(jìn)行再次訓(xùn)練,因此被廣泛應(yīng)用于在卷積神經(jīng)網(wǎng)絡(luò)遷移學(xué)習(xí)中。1.2.1VGG模型特點(diǎn)1.結(jié)構(gòu)簡潔:整個(gè)卷積層結(jié)構(gòu)只有3*3的卷積核,連續(xù)的卷積層后使用池化層隔開;2.小卷積核和連續(xù)卷積層:連續(xù)的3*3卷積核增大感受野,減少參數(shù)量;1.小池化核:相比AlexNet使用3*3大小的池化核,VGG則全部采用2*2大小的池化核;4.通道數(shù)更多使特征圖更寬:通道數(shù)的增加,可以提取出更多的有效信息;5.層數(shù)更深:使用連續(xù)的小型卷積核代替大的卷積核,使網(wǎng)絡(luò)結(jié)構(gòu)深度更深,對(duì)邊緣進(jìn)行填充避免因卷積計(jì)算導(dǎo)致圖像尺寸降低;6.全連接轉(zhuǎn)卷積:在網(wǎng)絡(luò)測試階段將訓(xùn)練階段的三個(gè)全連接替換為三個(gè)卷積,將訓(xùn)練時(shí)的各個(gè)參數(shù)進(jìn)行測試重用,使得測試得到的全卷積網(wǎng)絡(luò)不受全連接限制,可以接收任意維度的寬或高圖像作為待檢測數(shù)據(jù)輸入。1.2.2VGG模型結(jié)構(gòu)VGG本質(zhì)上是一個(gè)框架,目前共有6種網(wǎng)絡(luò)配置,層數(shù)從淺到深分別為11層、13層、16層和19層。它并不具有固定的卷積層數(shù),而是根據(jù)需要調(diào)整模塊中層級(jí)結(jié)構(gòu)數(shù)量,即調(diào)整卷積模塊的卷積層數(shù)和卷積核大小,實(shí)現(xiàn)網(wǎng)絡(luò)規(guī)模和性能間的平衡。網(wǎng)絡(luò)共有5個(gè)卷積模塊,每個(gè)卷積模塊后面跟一個(gè)池化層,最后是3個(gè)全連接層,所有隱層的激活單元都采用RELU函數(shù)。VGGNet宏觀結(jié)構(gòu)如圖所示:圖3-1VGG網(wǎng)絡(luò)宏觀架構(gòu)圖3-2ConvNet配置以VGG16模型為例介紹ConvNet配置圖[13]:conv3-64:進(jìn)行第三層卷積后將維度變成64,同樣,conv3-128指的是第三層卷積后維度變成128;input(224x224RGBimage):輸入圖片大小為224*244的彩色圖像,通道數(shù)為3,即224*224*3;maxpool:最大池化,在vgg16結(jié)構(gòu)中,池化層采用的是2*2的最大池化;FC-4096:全連接層中有4096個(gè)節(jié)點(diǎn),而FC-1000則表示該層的全連接層有1000個(gè)節(jié)點(diǎn);padding:對(duì)矩陣在外圍填充n圈,padding=1表示矩陣外邊緣填充1圈,對(duì)5*5大小的矩陣進(jìn)行填充可得到7*7大小的矩陣;在進(jìn)行卷積操作的過程中,處于中間位置的數(shù)值將被進(jìn)行多次的提取,但是處于邊界位置的具體數(shù)值特征卻很少被提取到,為更好的把邊界數(shù)值也利用上同時(shí)避免中間位置數(shù)值被過分提取,所以給原始數(shù)據(jù)矩陣的四周都補(bǔ)上一層0,維持矩陣大小不變;vgg16在每層卷積運(yùn)算過程中的stride=1,padding=1;通過softmax函數(shù)輸出1000個(gè)預(yù)測結(jié)果。1.2.3VGG模型優(yōu)點(diǎn)VGG模型有以下優(yōu)點(diǎn)[14]:1.層數(shù)深使得特征圖更寬,更加適合于處理數(shù)據(jù)集較大的問題,該網(wǎng)絡(luò)可以解決1000類圖像分類和定位問題。2.卷積核大小影響了參數(shù)量和感受野,參數(shù)量關(guān)系到訓(xùn)練難易程度以及是否方便部署到移動(dòng)端等方面,而感受野關(guān)系到參數(shù)更新、特征圖大小、特征是否提取足夠多及模型復(fù)雜程度。(VGG用較深的網(wǎng)絡(luò)結(jié)構(gòu)和較小的卷積核,既可以保證感受視野,又能夠減少卷積層的參數(shù),如將兩個(gè)3*3的卷積層進(jìn)行疊加等價(jià)于一個(gè)5*5卷積核的效果,3個(gè)3*3卷積核疊加相加相當(dāng)于一個(gè)7*7的卷積核,而且參數(shù)更少,大約相當(dāng)于7*7卷積層的(3*3*3)/(7*7)=0.55倍。通過三個(gè)卷積層的疊加,可以增強(qiáng)特征學(xué)習(xí)能力)。1.池化層:AlexNet的kernelsize為3*3,stride為2的max-pooling,而VGGNet的kernelsize均為2*2,stride為2的max-pooling,更小的池化核能夠帶來更為細(xì)節(jié)的信息捕獲,得到更為詳細(xì)的特征(當(dāng)時(shí)也有采用averagepooling,但是由于maxpooling更加容易捕捉圖像上的變化,帶來更大的局部信息差異性,更好的描述邊緣紋理等,在圖像任務(wù)上使用max-pooling的效果更好,而用averagpooling可能會(huì)使圖像模糊,類似于數(shù)字圖像處理的高斯模糊)。1.3基于VGG的圖片分類機(jī)制1.1.1圖像預(yù)處理VGG16網(wǎng)絡(luò)計(jì)算要求輸入圖像尺寸固定,首先裁剪待分類圖像,尺寸大小固定為224*224,后續(xù)進(jìn)行預(yù)處理原始圖像:為解決數(shù)據(jù)集過小導(dǎo)致的過擬合問題,使用數(shù)據(jù)增強(qiáng)的方法對(duì)圖像進(jìn)行水平方向的翻轉(zhuǎn);對(duì)待評(píng)分圖像進(jìn)行歸一化處理,將原始圖像轉(zhuǎn)換為固定標(biāo)準(zhǔn)形式,得到歸一化圖像,進(jìn)行歸一化操作可減少后期模型訓(xùn)練運(yùn)算量,加速模型收斂速度,提高后續(xù)步驟可靠性[15]。1.1.2圖片分類機(jī)制根據(jù)VGG16的宏觀架構(gòu),該模型由13個(gè)卷積層、5個(gè)最大池化層和3個(gè)全連接層構(gòu)建。利用卷積濾波器(kernel)即卷積核對(duì)輸入的特征圖進(jìn)行卷積運(yùn)算,對(duì)從數(shù)據(jù)集輸入的各類圖像進(jìn)行特征提取,在卷積運(yùn)算得到特征矩陣后對(duì)輸出矩陣進(jìn)行最大池化操作,減少特征映射大小,減少數(shù)據(jù)量并通過填充確保固定的輸出大小,卷積的step和最大池化的step分別設(shè)置為1和2。全連接層對(duì)輸出層采用soft-max函數(shù),使模型可進(jìn)行一定數(shù)量的類別預(yù)測[15]。進(jìn)行圖像分類任務(wù)時(shí),輸入VGG16網(wǎng)絡(luò)模型的圖像尺寸固定為224(寬度)*224(高度)*3(信道),輸入層與64個(gè)3*3*3內(nèi)核卷積得到(3*3*3)*64共1728個(gè)訓(xùn)練參數(shù),第2次卷積繼續(xù)用64個(gè)3*3內(nèi)核進(jìn)行卷積運(yùn)算得到(3*3*64)*64共36864個(gè)訓(xùn)練參數(shù),兩次卷積后執(zhí)行2*2最大池化生成layer3,尺寸大小變成112*112*64;第二個(gè)卷積模塊進(jìn)行兩次卷積,卷積核大小為3*3,個(gè)數(shù)為128,經(jīng)過最大池化操作后得到(3*3*128)*128=147456個(gè)訓(xùn)練參數(shù),大小變?yōu)?6*56*128;第三個(gè)卷積模塊進(jìn)行三次卷積,卷積核大小不變,個(gè)數(shù)為256,采用一次最大池化得到(3*3*256)*256=589824個(gè)訓(xùn)練參數(shù),大小變?yōu)?8*28*256;第四個(gè)卷積模塊進(jìn)行三次卷積,卷積核個(gè)數(shù)為512,進(jìn)行一次最大池化產(chǎn)生(3*3*512)*512=2359296個(gè)訓(xùn)練參數(shù),大小變?yōu)?4*14*512;最后一個(gè)卷積模塊進(jìn)行三次卷積,卷積核個(gè)數(shù)為512,最后進(jìn)行最大池化得到(3*3*512)*512=2359296個(gè)訓(xùn)練參數(shù),大小變?yōu)?/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論