版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類技術(shù)研究與實現(xiàn) 王超Summary:圖像分類問題一直是計算機視覺的一個核心問題,而隨著深度學習的發(fā)展,也為我們解決圖像分類中圖像特征提取問題提供了一種很好的解決方法,通過構(gòu)建具有隱層的機器學習模型和海量的圖像訓練數(shù)據(jù),來學習更有用的圖像特征,從而最終提升圖像分類或預(yù)測的準確性。該文使用Caffe深度學習框架,構(gòu)建小型的圖像數(shù)據(jù)庫,通過Caffe框架給出的卷積神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)集進行訓練分析,提取目標圖像特征信息,最后對目標圖像進行預(yù)測,并和傳統(tǒng)的圖像分類算法進行對比,預(yù)測的準確率有很大的提升。Key:圖像分類;深度學習;Caffe框架;卷積神經(jīng)網(wǎng)絡(luò):TP18 :A :1
2、009-3044(2016)35-0209-03Research and Implementation of Image Classification Based on Convolution Neural NetworkWANG Chao(Information Engineering Institute,East China University of Technology, Nanchang 330013, China)Abstract: The problem of image classification has been the core problem in computer v
3、ision. A good solution is developed by further study which can solve the problem of extracting image features in image classification. In order to learn image features efficiently, constructing the machine learning model with hidden layer as well as training a large number of image data will eventua
4、lly promote the accuracy of image classification or prediction. This paper is intended as an in-depth Caffe learning framework to construct a small image data-base. The convolutional neural network provided by Caffe framework will make a training analysis of the data set and then extract the informa
5、tion of target image features. These can be used for the final prediction of the target image. Compared with the traditional image classification algorithm, the accuracy of the prediction will be greatly improved.Key words: image classification; deep learning; Caffe framework; Convolutional Neural N
6、etwork隨著計算機與互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,我們已經(jīng)進入了一個以圖像構(gòu)建的世界。但是面臨有海量圖像信息卻找不到所需要的數(shù)據(jù)的困境,因而圖像分類技術(shù)應(yīng)運而生。通過各種機器學習算法使計算機自動將各類圖像進行有效管理和分類,但是由于圖像內(nèi)容包含著大量復(fù)雜且難以描述的信息,圖像特征提取和相識度匹配技術(shù)也存在一定的難題,要使得計算機能夠像人類一樣進行分類還是有很大的困難。深度學習是近十年來人工智能領(lǐng)域取得的重要突破,在圖像識別中的應(yīng)用取得了巨大的進步,傳統(tǒng)的機器學習模型屬于神經(jīng)網(wǎng)絡(luò)模型,神經(jīng)網(wǎng)絡(luò)有大量的參數(shù),經(jīng)常會出現(xiàn)過擬合問題,因而對目標檢測準確率上比較低。本文采用卷積神經(jīng)網(wǎng)絡(luò)框架,圖像特征是從大數(shù)
7、據(jù)中自動學習得到,而且神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)深由很多層組成,通過重復(fù)利用中間層的計算單元來減少參數(shù),在特征匯聚階段引入圖像中目標的顯著信信息,增強了圖像的特征表達能力。通過在圖像層次稀疏表示中引入圖像顯著信息,加強了圖像特征的語義信息,得到圖像顯著特征表示,通過實驗測試,效果比傳統(tǒng)的圖像分類算法預(yù)測的準確度有明顯的提升。1 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類方法1.1 人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)是描述生物神經(jīng)網(wǎng)絡(luò)運行機理和工作過程的抽象和簡化了的數(shù)學物理模型,使用路徑權(quán)值的有向圖來表示模型中的人工神經(jīng)元節(jié)點和神經(jīng)元之間的連接關(guān)系,之后通過硬件或軟件
8、程序?qū)崿F(xiàn)上述有向圖的運行1。目前最典型的人工神經(jīng)網(wǎng)絡(luò)算法包括:目前最典型的人工神經(jīng)網(wǎng)絡(luò)有BP網(wǎng)絡(luò) 2Hopfield網(wǎng)絡(luò)3Boltzmann機4SOFM網(wǎng)絡(luò)5以及ART網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)6,算法流程圖如圖1所示7。1.2 卷積神經(jīng)網(wǎng)絡(luò)框架的架構(gòu)Caffe是Convolutional Architecture for Fast Feature Embedding的縮寫8,意為快速特征嵌入的卷積結(jié)構(gòu),包含最先進的深度學習算法以及一系列的參考模型,圖2表示的是卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖。Caffe深度學習框架主要依賴CUDA,IntelMKL,OpenCV,glog軟件以及caffe文件。本文使用的各個軟件版
9、本說明,如表1所示。 Caffe深度學習框架提供了多個經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型,卷積神經(jīng)網(wǎng)絡(luò)是一種多層的監(jiān)督學習神經(jīng)網(wǎng)絡(luò),利用隱含層的卷積層和池采樣層是實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)特征提取功能,卷積神經(jīng)網(wǎng)絡(luò)模型通過采取梯度下降法最小化損失函數(shù)對網(wǎng)絡(luò)中的權(quán)重參數(shù)逐層反向調(diào)節(jié),通過頻繁的迭代訓練來提高網(wǎng)絡(luò)的精度。卷積神經(jīng)網(wǎng)絡(luò)使用權(quán)值共享,這一結(jié)構(gòu)類似于生物神經(jīng)網(wǎng)絡(luò),從而使網(wǎng)絡(luò)的復(fù)雜程度明顯降低,并且權(quán)值的數(shù)量也有大幅度的減少,本文使用這些模型直接進行訓練,和傳統(tǒng)的圖像分類算法對比,性能有很大的提升,框架系統(tǒng)訓練識別基本流程如圖3表示。1.3 圖像分類特征提取卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)層次相比傳統(tǒng)的淺層的神經(jīng)網(wǎng)絡(luò)來說,要
10、復(fù)雜得多,每兩層的神經(jīng)元使用了局部連接的方式進行連接、神經(jīng)元共享連接權(quán)重以及時間或空間上使用降采樣充分利用數(shù)據(jù)本身的特征,因此決定了卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比維度大幅度降低,從而降低計算時間的復(fù)雜度。卷積神經(jīng)網(wǎng)絡(luò)主要分為兩個過程,分為卷積和采樣,分別的對上層數(shù)據(jù)進行提取抽象和對數(shù)據(jù)進行降維的作用。本文以Caffe深度學習框架中的 CIFAR-10數(shù)據(jù)集的貓的網(wǎng)絡(luò)模型為例,如圖4所示,對卷積神經(jīng)網(wǎng)絡(luò)模型進行訓練。CIFAR-10是一個標準圖像圖像訓練集,由六萬張圖像組成,共有10類(分為飛機,小汽車,鳥,貓,鹿,狗,青蛙,馬,船,卡車),每個圖片都是3232像素的RGB彩色圖像。通過對數(shù)據(jù)進
11、行提取和降維的方法來提取圖像數(shù)據(jù)的特征。2 實驗分析將貓的圖像訓練集放在train的文件夾下,并統(tǒng)一修改成256256像素大小,并對貓的圖像訓練集進行標記,標簽為1,運行選擇cpu進行訓練,每進行10次迭代進行一次測試,測試間隔為10次,初始化學習率為0.001,每20次迭代顯示一次信息,最大迭代次數(shù)為200次,網(wǎng)絡(luò)訓練的動量為0.9,權(quán)重衰退為0.0005,5000次進行一次當前狀態(tài)的記錄,記錄顯示如下圖5所示,預(yù)測的準度在98%以上。而相比傳統(tǒng)的圖像分類算法BP神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)的收斂性慢,訓練時間長的,網(wǎng)絡(luò)的學習和記憶具有不穩(wěn)定性,因而卷積神經(jīng)網(wǎng)絡(luò)框架在訓練時間和預(yù)測準度上具有非常大的優(yōu)勢。3
12、 結(jié)束語本文使用Caffe深度學習框架,以CIFAR-10數(shù)據(jù)集中貓的網(wǎng)絡(luò)模型為例,構(gòu)建小型貓的數(shù)據(jù)集,提取貓的圖象特征信息,最后和目標貓圖像進行預(yù)測,并和傳統(tǒng)的圖像分類算法進行對比,預(yù)測的準確率有很大的提升。Reference:1 楊錚, 吳陳沭, 劉云浩. 位置計算: 無線網(wǎng)絡(luò)定位與可定位性M. 北京: 清華大學出版社, 2014.2 丁士折. 人工神經(jīng)網(wǎng)絡(luò)基礎(chǔ)M. 哈爾濱: 哈爾濱工程大學出版社, 2008.3 McClelland J L, Rumelhart D E, PDP Research Group. Parallel distributedprocessingJ. Explo
13、rations in the microstructure of cognition, 1986, 2.4 Hopfield J J. Neural networks and physical systems with emergent collectivecomputational abilitiesJ. Proceedings of the national academy of sciences, 1982, 79(8): 2554-2558.5 Ackley D H, Hinton G E, Sejnowski T J. A learning algorithm for boltzma
14、nnmachinesJ. Cognitive science, 1985, 9(1): 147-169.6 Kohonenmaps T. Self-Organized Formation of Topologically Correct Feature MapsJ. Biological Cybernetics,1982, 43(1): 59-69.7 Carpenter G A, Grossberg S. A massively parallel architecture for aself-organizing neural pattern recognition machineJ. Computer visiongraphics, and image
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度杭州市民住宅轉(zhuǎn)租合同2篇
- 二零二五年度無人機農(nóng)藥噴灑與農(nóng)業(yè)科技推廣合同3篇
- 二零二五年度幼兒園幼兒教育咨詢服務(wù)合同2篇
- 2025年度建筑行業(yè)勞動用工合同標準3篇
- 二零二五年度醫(yī)院護理工護理工作流程優(yōu)化合同3篇
- 2025年度衛(wèi)浴安裝與智能家居系統(tǒng)集成與運維服務(wù)合同3篇
- 2025年度豬肉品牌形象設(shè)計與品牌推廣合同3篇
- 2025年度網(wǎng)絡(luò)安全產(chǎn)品研發(fā)借款合同2篇
- 養(yǎng)殖場土地租賃合同(二零二五年度)農(nóng)業(yè)觀光旅游合作3篇
- 二零二五年度新能源汽車全款購車合同模板3篇
- 繽紛天地美食街運營方案
- MOOC 通信原理-南京郵電大學 中國大學慕課答案
- 專題01 直線與橢圓的位置關(guān)系(原卷版)
- 知識圖譜API數(shù)據(jù)質(zhì)量評估方法
- MOOC 電機與拖動-北京信息科技大學 中國大學慕課答案
- 2024年寧波永耀供電服務(wù)有限公司招聘筆試參考題庫附帶答案詳解
- 山西師范大學計算機網(wǎng)絡(luò)基礎(chǔ)期末沖刺卷及答案
- 工程圖學(吉林聯(lián)盟)智慧樹知到期末考試答案2024年
- 天津市部分區(qū)2022-2023學年七年級上學期期末語文試題(含答案)
- 餐廳創(chuàng)新改革方案課件
- 《社會歷史的決定性基礎(chǔ)》共171張高中語文選擇性必修中冊
評論
0/150
提交評論