




已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
國防科技大學課程設計 機器視覺基于深度神經(jīng)網(wǎng)絡的行人檢測綜述摘要:行人檢測是汽車自動駕駛的基礎技術之一?;谏疃壬窠?jīng)網(wǎng)絡模型的行人檢測方法取得的效果已經(jīng)遠超于使用傳統(tǒng)特征經(jīng)行識別得到的效果。仿生物視覺系統(tǒng)的卷積神經(jīng)網(wǎng)絡作為深度學習的重要組成、在圖像、語音等領域得到了成功應用。其局部感受野、權值共享和降采樣三個特點使之成為智能機器視覺領域的研究熱點。通過增加網(wǎng)絡層數(shù)所構造的深層神經(jīng)網(wǎng)絡使機器能夠獲得抽象概念能力,在諸多領域都取得了巨大的成功,又掀起了神經(jīng)網(wǎng)絡研究的一個新高潮。本文回顧了神經(jīng)網(wǎng)絡的發(fā)展歷程,綜述了其當前研究進展以及存在的問題,展望了未來神經(jīng)網(wǎng)絡的發(fā)展方向。關鍵詞:行人檢測;卷積神經(jīng)網(wǎng)絡;深度學習Survey of Pedestrian detection based on Deep Neural NetworkYin Guangchuan,Zhangshuai,Qi ShuaihuiAbstract:Pedestrian detection is one of the basic technologies of unmanned vehicles. The pedestrian detection method based on the deep neural network model has achieved much more effect than the traditional one. Convolutional neural network which imitates the biological vision system has made great success on image and audio, which is the important component of deep learning. Local receptive field, sharing weights and down sampling are three important characteristics of CNN which lead it to be the hotspot in the field of intelligent machine visionWith the increasing number of layers, deep neural network entitles machines the capability to capture “abstract concepts” and it has achieved great success in various fields, leading a new and advanced trend in neural network research. This paper recalls the development of neural network, summarizes the latest progress and existing problems considering neural network and points out its possible future directions. Keywords: pedestrian detection; convolutional neural network; deep learning1 引言行人兼具剛性和柔性物體的特性,外觀易受穿著、尺度、遮擋、姿態(tài)和視角等影響,使得行人檢測成為計算機視覺的研究難點與熱點。行人檢測技術由于應用的廣泛性使其在計算機視覺領域成為一個重要分支,對視頻監(jiān)控、車輛輔助駕駛、智能機器人等多個領域提供了重要的技術支持。近幾年來,深度學習在大規(guī)模圖像分類方面取得的了重大突破,表明深度學習可以從多媒體內(nèi)容中提取具有很強表達能力的特征。卷積神經(jīng)網(wǎng)絡 ( Convolutional NeuralNetwork,CNN)1提供了一種端到端的學習模型,模型中的參數(shù)可以通過傳統(tǒng)的梯度下降方法進行訓練,經(jīng)過訓練的卷積神經(jīng)網(wǎng)絡能夠?qū)W習到圖像中的特征,并且完成對圖像特征的提取和分類。作為神經(jīng)網(wǎng)絡領域的一個重要研究分支,卷積神經(jīng)網(wǎng)絡的特點在于其每一層的特征都由上一層的局部區(qū)域通過共享權值的卷積核激勵得到。這一特點使得卷積神經(jīng)網(wǎng)絡相比于其他神經(jīng)網(wǎng)絡方法更適合應用于圖像特征的學習與表達。CNN 把特征提取歸入模型學習,把特征學習和分類學習有機結合起來, 更有效地實現(xiàn)對圖像的識別特別是近兩年,卷積神經(jīng)網(wǎng)絡受到了更為廣泛地關注CNN 可能是機器學習領域近十年最成功的研究方向,因此本文擬對 CNN 的發(fā)展和其在行人檢測上的研究成果進行了介紹,并對其預期研究方向進行展望。2 卷積神經(jīng)網(wǎng)絡的研究歷史20 世紀60年代,Hubel等2的生物學研究表明,視覺信息從視網(wǎng)膜傳遞到大腦中是通過多個層次的感受野 ( Receptive Field ) 激發(fā)完成的;1980 年,F(xiàn)ukushima3第一次提出了一個基于感受野理論模型Neocognitron。Neocognitron 是一個自組織的多層神經(jīng)網(wǎng)絡模型,每一層的響應都由上一層的局部感受野激發(fā)得到,對于模式的識別不受位置、較小形狀變化以及尺度大小的影響。Neocognitron 采用的無監(jiān)督學習也是卷積神經(jīng)網(wǎng)絡早期研究中占據(jù)主導地位的學習方式。1998 年,Lecun 等提出的 LeNet- 51采用了基于梯度的反向傳播算法對網(wǎng)絡進行有監(jiān)督的訓練。經(jīng)過訓練的網(wǎng)絡通過交替連接的卷積層和下采樣層將原始圖像轉換成一系列的特征圖,最后,通過全連接的神經(jīng)網(wǎng)絡針對圖像的特征表達進行分類。卷積層的卷積核完成了感受野的功能,可以將低層的局部區(qū)域信息通過卷積核激發(fā)到更高的層次。LeNet- 5在手寫字符識別領域的成功應用引起了學術界對于卷積神經(jīng)網(wǎng)絡的關注。同一時期,卷積神經(jīng)網(wǎng)絡在語音識別4、物體檢測5、人臉識別6等方面的研究也逐漸開展起來。2006年,機器學習領域的泰斗 Hinton7指出多層的神經(jīng)網(wǎng)絡結構能夠?qū)W習到更深刻更本質(zhì)的特征,并通過“逐層初始化”的訓練辦法克服了傳統(tǒng)神經(jīng)網(wǎng)絡訓練瓶頸問題,引領了深度學習的發(fā)展方向。從此,深度學習受到了各國學者的廣泛關注,谷歌、微軟、IBM、百度等擁有大數(shù)據(jù)的高科技公司相繼投入大量資源進行 深度學習理論研究。2011年以來,微軟研究院和谷歌的語音識別人員采用深度神經(jīng)網(wǎng)絡( deep neural network, DNN) 技術,使語音識別有了突破性進展,識別誤差可降低20% 30%。2012 年, Krizhevsky 等8提出的AlexNet在大型圖像數(shù)據(jù)庫ImageNet9的圖像分類競賽中以準確度超越第二名11%的巨大優(yōu)勢奪得了冠軍,使得卷積神經(jīng)網(wǎng)絡成為了學術界的焦點。2014 年的大型視覺辨識挑戰(zhàn)賽( ImageNet Large Scale Visual Recognition Challenge,ILSVRC) 中,幾乎所有的參賽隊伍都采用了卷積神經(jīng)網(wǎng)絡及其變形方法。2015 年國際機器學習大會上來自工業(yè)界和學術界的各位專家對深度學習 展開激烈討論,指出深度學習在人類擅長的領域已經(jīng)取得了令人振奮的成功, 未來的探索方向是人類并不擅長的任務、 數(shù)據(jù)集。2015 年國際計算機視覺與模式識別會議上關于 DL 和 CNN 的研究成果較往年有大幅的提升。2015 年 9 月, 微軟亞洲研究院的“深 層 殘 差 網(wǎng) 絡”( deep residual networks ) 在ILSVRC 中獲得圖像分類、 定位以及檢測全部項目的冠軍,如分類方面將錯誤率降低至 494%, 比人眼辨識( 錯誤率 51%) 更精確10 。在大數(shù)據(jù)時代, 各領域爭先占領 DL 的技術制高點,希望找出更強大的模型來揭示海量數(shù)據(jù)所承載的豐富信息,對未知事件更精準地預測。3 卷積神經(jīng)網(wǎng)絡結構與改進3.1 卷積神經(jīng)網(wǎng)絡結構Lecun 等1提出的LeNet-5模型采用了交替連接的卷積層和下采樣層對輸入圖像進行前向傳導,并且最終通過全連接層輸出概率分布的結構是當前普遍采用的卷積神經(jīng)網(wǎng)絡結構的原型。卷積神經(jīng)網(wǎng)絡是一種多層的監(jiān)督學習網(wǎng)絡,有輸入層、隱含層(包括卷積層和下采樣層)和輸出層,通過誤差反傳算法優(yōu)化網(wǎng)絡結構,求解未知參數(shù),其網(wǎng)絡結構如圖1 所示。圖1 卷積神經(jīng)網(wǎng)絡框架在卷積層,特征圖(Feature Map)的每一個神經(jīng)元與前一層的局部感受野相連,經(jīng)過卷積操作提取局部特征。A卷積層中有多個Feature Map,每個Feature Map 提取一種特征,在提取特征時,同一個Feature Map 的神經(jīng)元共享一組權值(即卷積核),不同的Feature Map 權值不同,從而提取不同的特征,在訓練過程中不斷地調(diào)整權值參數(shù),使特征提取朝著有利于分類的方向進行,卷積操作示意圖如圖2 所示,一般卷積的公式如公式1所示 (1) 其中,l 代表層數(shù),k 代表卷積核,輸入層的感受野,b 代表偏置。圖2 卷積操作示意圖在下采樣層中,輸入的Feature Map 經(jīng)過池化(Pooling)后其個數(shù)不變,大小變?yōu)樵瓉淼?/n(假設池化尺寸為n)。池化操作的主要作用是減小特征圖的分辨率,降低特征維數(shù),同時在一定程度上增加網(wǎng)絡對位移、縮放、扭曲的魯棒性。池化分為最大池化和平均池化。下采樣層的形式如公式2所示: (2)其中down() 為池化函數(shù),為權重系數(shù)。LeNet- 5雖然在手寫字符識別領域取得了成功,但是其存在的缺點也比較明顯,包括難以尋找到合適的大型訓練集對網(wǎng)絡進行訓練以適應更為復雜的應用需求; 過擬合問題使得 LeNet- 5 的泛化能力較弱;網(wǎng)絡的訓練開銷非常大,硬件性能支持的不足使得網(wǎng)絡結構的研究非常困難。以上三大制約卷積神經(jīng)網(wǎng)絡發(fā)展的重要因素在近期的研究中取得了突破性的進展是卷積神經(jīng)網(wǎng)絡成為一個新的研究熱點的重要原因。并且,近期針對卷積神經(jīng)網(wǎng)絡的深度和結構優(yōu)化方面的研究進一步提升了網(wǎng)絡的數(shù)據(jù)擬合能力。3 .2 卷積神經(jīng)網(wǎng)絡模型的改進3.2.1 CNN卷積層的改進在增加模型深度可以有效增加網(wǎng)絡性能的理論基礎上,Krizhevsky 等11把 CNN的卷積層數(shù)加至5層,構成了深度卷積神經(jīng)網(wǎng)絡( deep convolutionalneural network, DCNN);zegedy等組成GoogLeNet小組構建了22層深度網(wǎng)絡12,該網(wǎng)絡比 2012 ILSVRC獲勝者的網(wǎng)絡參數(shù)少了12倍,卻能更精確的分類和檢測,在2014 年的ILSVRC一舉奪冠。如何構建更深網(wǎng)絡一直是CNN的研究熱點,2015 ILSVRC的152層“深層殘差網(wǎng)絡”13采用了一個全新的“殘差學習”原則指導學習,并重新定向了深層 CNN中的信息流,高效地解決了深層神經(jīng)網(wǎng)絡準確度與層數(shù)之間的矛盾。王冠皓14提出了多級金字塔卷積神經(jīng)網(wǎng)( multi-level pyramid CNN),CNN每層先使用稀疏自編碼器預訓練,再使用金字塔卷積神經(jīng)網(wǎng)絡對整個網(wǎng)絡訓練,將低層的濾波權值共享到高層,保證訓練時的卷積濾波只在小尺寸圖像上進行,大尺度圖像只進行一次向前傳播,加快訓練速度。此外,Zhang在ImageNet上訓練具有7層的快速非線性卷積神經(jīng)網(wǎng)絡15,對每層加速以達到對整個網(wǎng)絡加速的目的,速度可達到與“AlexNet”16一致的同時,分類精度也提高了4. 7%。 3.2.2 CNN 降采樣層的改進常規(guī) DCNN 只能對尺度固定的圖像進行處理,對尺度不同的輸入圖像需人工裁剪或拉伸之后才輸入網(wǎng)絡,會造成圖像失真而影響分類的準確率。DCNN的卷積層尾端引入空間金字塔降采樣層去除固定尺度的約束,降采樣獲得與全連接層相匹配的特征。多尺度訓練得到的空間金字塔降采樣網(wǎng)絡 ( spatial pyramid poolingnetwork SPP-net )17可處理任意尺度的圖像。Rippel等18提出了頻譜池化的方法,將CNN進行傅里葉變換來把耗時的卷積操作替換為乘積操作可加速網(wǎng)絡訓練,通過截取信號在頻域特征表示來降低維度,不僅可以保留更多的信息,還比其它的池化方法更靈活,提高了利用傅里葉變換計算卷積效率。Zeiler等19提出了反卷積神經(jīng)網(wǎng)絡( deconvolutional networks,DN),采用非監(jiān)督方法對自然圖像自頂向下進行卷積分解,再組合濾波器組學習到的卷積特征,獲得一個特征豐富具有魯棒性的圖像表征。但大量卷積操作也DN比自底向上的編碼模型耗時,因而Zeiler在DN每層之間采用3D最大池化層,引入一組潛在開關變量,使得模型可以根據(jù)多種輸入模式自適應調(diào)整,構建了由卷積稀疏編碼層和最大降采樣層交替的自適應反卷積神經(jīng)網(wǎng)絡( adaptive deconvolutionalnetworks,ADN)20,在中間層和高層特征學習都能取得不錯的效果。3.2.3 CNN全連接層的改進為了克服過擬合問題, Krizhevsky在CNN兩個全連接層采用了“Dropout” 策略20,每次迭代以0.5概率使一些隨機分布的節(jié)點不工作但權值保留,之后又可能參與訓練。略可以防止某些特征僅在其它特殊特征出現(xiàn)下才產(chǎn)生作用的情況,從而有效地避免了網(wǎng)絡中特征之間的相互依賴性。孫艷豐21提出了基于改進 Fisher 準則的深CNN識別算法( fisher-based convolution neural network,F(xiàn)CNN),反向傳播采用 Fisher 的約束準則,加入判別準則的能量函數(shù),在迭代求解權值的搜索空間受到判別條件約束影響,從全局搜索縮小到更有利于分類的局部空間,從而使權值更快地逼近便于分類的最優(yōu)值。Girshick等22提出基于區(qū)域卷積神經(jīng)網(wǎng)絡(Regions with CNN features,RCNN),先找興趣區(qū)域再進行檢測和分割。由于RCNN興趣區(qū)域中心點的運算量大而耗時,提出fast R-CNN( FRCN),把全連接層的矩陣進行SVD分解,速度提高了30%對于給定的圖像和目標框方案,F(xiàn)RCN 進行目標檢測耗時60330 ms,忽略了在區(qū)域方案提取所需的時間( 約 1.51 s) 。無論卷積層的改進,還是降采樣層及全連接層的改進,都是針對網(wǎng)絡的學習能力及學習效率兩方面的改進。因為 CNN 的學習能力可以通過調(diào)節(jié)網(wǎng)絡的深度來增強,增加模型深度可以有效增加網(wǎng)絡性能。為了使 CNN 更好地模擬大腦復雜的深層次神經(jīng)網(wǎng)絡,增加網(wǎng)絡深度逐漸成為一種趨勢。另外,CNN 的卷積核相當于特征提取器,可以有效地提取輸入信號的有用信息,但是耗時是卷積操作必須重視的問題,針對這個問題,提出了一系列的加速方法,在一定程度上降低了訓練和測試的時間。但整體上,與傳統(tǒng)的非神經(jīng)網(wǎng)絡方法相比,CNN 的耗時還是比較大,需要進一步改善。如何在提高網(wǎng)絡學習能力和減少耗時之間找到一個平衡點,依舊是 CNN 面臨的問題。4 卷積神經(jīng)網(wǎng)絡算法在行人檢測上的應用4.1 行人檢測現(xiàn)狀行人檢測主要分為四部分:特征提取、形變處理、遮擋處理和分類。特征提取的應該是行人最有判別力的特征,比較有名的特征描述子有:Haar-like、SIFT、HOG等等;其次,可變形模型應該可以處理人體的各個部分,例如軀干、頭、腿等等。最有名的DPM(可變形部件模型)使得各部件具有連接性約束。形變處理是人體姿態(tài)的多樣性,給行人的準確識別帶來了一定的困難,為克服形變帶來的難題,在深度學習的框架中加入了形變處理層,采用混合形變模型,針對卷積產(chǎn)生的部位圖生成對應的形變特征,把部位圖與形變特征結合形成混合特征圖,用最大化函數(shù)處理混合特征,生成對應的部位檢測。遮擋處理是運動目標檢測中的一個難點問題,遮擋處理的結果將直接影響運動目標檢測的準確性,因此,遮擋處理是行人檢測過程中極其重要的一步,在遮擋處理的過程中可視度的估計是非常關鍵的,針對例如檢測Blocks或Parts的得分以及采用線索:圖像分割、深度圖等。分類器決定候選窗選中的為一個行人,如:SVM、boosted classifiers、隨機森林等等。在這些方法中,分類器是由訓練數(shù)據(jù)來調(diào)整的,但是特征是手工設計的。如果有用的信息在特征提取階段遺漏了,那么在分類階段不可能在恢復。實際上,應該是分類器應該引導特征的學習。用深度學習的方法將行人檢測的幾個方面進行系統(tǒng)的聯(lián)合訓練,避免每個步驟單一練造成的局部最優(yōu)化問題,使得整個檢測系統(tǒng)達到全局最優(yōu)。隨著深度學習的提出以及這幾年的大熱,越來越多的研究人員將其應用到行人檢測領域,例如:Pierre Sermant23等人提出了用無監(jiān)督的多特征學習法,應用稀疏卷積神經(jīng)網(wǎng)絡自動學習圖像的所有特征,提高了檢測的準確度;Ping Luo等人提出了用可切換的深度網(wǎng)絡檢測行人,將RBM模型與卷積神經(jīng)網(wǎng)絡連接在一塊,可針對圖像中不同的行人部位選擇更合適的模型,能有效的處理人體部位形變的問題; CNN是當前語音分析和圖像檢測、識別領域的研究熱點,它的整個結構更加類似于人的神經(jīng)網(wǎng)絡結構,降低了網(wǎng)絡模型的復雜度,具有權值共享性24,避免了傳統(tǒng)識別算法中復雜的數(shù)據(jù)重建過程。Wanli Ouyang等人提出了聯(lián)合深度學習(UDN)的概念,將行人檢測的幾個重要的部分進行了聯(lián)合學習,在處理大量的視頻圖像方面取得了很好的效果。聯(lián)合深度學習將行人檢測中的圖像預處理、卷積采樣、形變處理、遮擋處理和分類幾個部分進行結合,深度網(wǎng)絡可以將各部分放到不同的網(wǎng)絡層并使用BP進行優(yōu)化。這種聯(lián)合性質(zhì)的深度學習算法相比于最初的深度學習算法在準確性上有了大幅的提升,能學習到更多更具判別力的特征,而且可以根據(jù)行人的部分身體而推斷被遮擋行人的大體位置。4.2 行人檢測DataSets到目前為止, 行人檢測研究除提出了大量的行人檢測方法外,另一個成果是收集了多個行人數(shù)據(jù)庫以供不同方法進行測試和比較。(1)MIT 行人數(shù)據(jù)庫25該數(shù)據(jù)庫為較早公開的行人數(shù)據(jù)庫,共924張行人圖片(ppm格式,寬高為64x128),肩到腳的距離約80象素。該數(shù)據(jù)庫只含正面和背面兩個視角,無負樣本,未區(qū)分訓練集和測試集。Dalal等采用“HOG+SVM”,在該數(shù)據(jù)庫上的檢測準確率接近100%。該庫在 2005 年以前使用較多,因圖像背景簡單,目前較少被人使用。(2)INRIA 行人數(shù)據(jù)庫26是目前使用較多的靜態(tài)行人數(shù)據(jù)庫,提供原始圖片及相應的標注文件。訓練集有正樣本614張(包含2416個行人),負樣本1218張;測試集有正樣本288張(包含1126個行人),負樣本453張。圖片中人體大部分為站立姿勢且高度大于100個象素,部分標注可能不正確。圖片主要來源于GRAZ-01、個人照片及google,因此圖片的清晰度較高。該庫行人所處背景復雜,人的姿態(tài)也較多,而且含有光照等環(huán)境因素的變化,更加符合實際場景(3)Daimer 行人數(shù)據(jù)庫的圖像來源于車載攝像機,分為檢測數(shù)據(jù)集( Classification Benchmark)27,28和分類數(shù)據(jù)集( Detection Benchmark)29,圖片均是灰度圖像。每個數(shù)據(jù)集均由 訓 練 集 和 測 試 集 組 成。測 試 集 是 一 段 大 約27 min的視頻,其中包含完整的以及被部分遮擋的行人。數(shù)據(jù)庫中還包含 3 個輔助的非行人圖像的數(shù)據(jù)集,即這 3個附加庫只包含負樣本。該庫中大量的正樣本由較少的正樣本經(jīng)過移位和鏡像生成,所以訓練分類器時重要特征會出現(xiàn)在相鄰的多個位置上,從而產(chǎn)生模糊效應,分類效果不佳。(4)Caltech 行人數(shù)據(jù)庫30是目前規(guī)模較大的行人數(shù)據(jù)庫,庫中的圖像來源于車載攝像機,與現(xiàn)實生活中圖像的實際遮擋頻率一致,其中包含質(zhì)量不太好的圖像,約10個小時左右,視頻的分辨率為640 x480,30幀/秒。標注了約250,000幀(約137分鐘),350000個矩形框,2300個行人,另外還對矩形框之間的時間對應關系及其遮擋的情況進行標注。數(shù)據(jù)集分為set00set10,其中set00set05為訓練集,set06set10為測試集(標注信息尚未公開)。該數(shù)據(jù)庫為評估已有的行人檢測器的性能提供了一個較好的平臺。(5)TUD 行人數(shù)據(jù)庫31提供圖像對以便計算光流信息,該數(shù)據(jù)集的訓練集提供了行人的矩形框信息、分割掩膜及其各部位(腳、小腿、大腿、軀干和頭部)的大小和位置信息。主要用于評估運動信息在行人檢測中的作用,常用于行人檢測及跟蹤研究中。(6)NICTA 行人數(shù)據(jù)庫32是目前規(guī)模較大的靜態(tài)圖像行人數(shù)據(jù)庫,包含 25 551 張單人的圖像和 5 207 張高分辨率非行人圖像,但不包含運動信息,數(shù)據(jù)庫中已分好訓練集和測試集,方便不同分類器的比較。(7)ETH 行人數(shù)據(jù)庫33是基于雙目視覺的行人數(shù)據(jù)。該數(shù)據(jù)庫采用一對車載的AVT Marlins F033C攝像頭進行拍攝,分辨率為640 x480,幀率13-14fps,給出標定信息和行人標注信息,深度信息采用置信度傳播方法獲取。該數(shù)據(jù)庫主要用于多個行人的檢測與跟蹤研究。(8)CVC行人數(shù)據(jù)庫目前包含3個數(shù)據(jù)集: CVC0134,CVC0235和 CVCVirtual36。其中,CVC02 包含3個子數(shù)據(jù)集,分別針對行人檢測的 3 個不同任務: 感興趣區(qū)域的產(chǎn)生、分類和系統(tǒng)性能評估。CVCVirtual是通過 HalfLife2圖像引擎產(chǎn)生的虛擬行人數(shù)據(jù)集以用于測試。該數(shù)據(jù)庫主要用于車輛輔助駕駛中的行人檢測研究。(9)USC 行人數(shù)據(jù)庫37的圖像大部分來源于監(jiān)控視頻,是一個比較小的行人數(shù)據(jù)庫,該數(shù)據(jù)庫包含三組數(shù)據(jù)集(USC-A、USC-B和USC-C),以XML格式提供標注信息。USC-A的圖片來自于網(wǎng)絡,共205張圖片,313個站立的行人,行人間不存在相互遮擋,拍攝角度為正面或者背面;USC-B的圖片主要來自于CAVIAR視頻庫,包括各種視角的行人,行人之間有的相互遮擋,共54張圖片,271個行人;USC-C有100張圖片來自網(wǎng)絡的圖片,232個行人(多角度),行人之間無相互遮擋。該數(shù)據(jù)庫主要用于存在遮擋和多視角情況下的行人檢測研究。4.3 卷積神經(jīng)網(wǎng)絡進行行人檢測的分析利用更具深度的卷積神經(jīng)網(wǎng)絡提取復雜行人特征,完成行人檢測,避免了復雜的人工特征提取和數(shù)據(jù)重建過程。卷積神經(jīng)網(wǎng)絡最早應用于手寫字符識別,并在Mnist 樣本集上得到了非常好的結果。其經(jīng)典結構分為5 層,包括2 個卷積層,2 個下采樣層,卷積核大小為55。如果直接將此經(jīng)典網(wǎng)絡模型用于測試行人檢測樣本集,訓練樣本大小為12864,發(fā)現(xiàn)網(wǎng)絡無法收斂,不能完成行人檢測的二分類問題。經(jīng)過分析研究,其主要原因有以下幾點:(1)Mnist 樣本集圖像內(nèi)容相對單一,近乎于二值圖像,而行人檢測樣本集中行人姿態(tài)與圖像背景十分復雜,場景、光線不斷變化,復雜的圖像信息要求更深度的網(wǎng)絡結構來提取高層的特征表達,5 層結構已經(jīng)無法完成有效的特征提取。(2)經(jīng)典網(wǎng)絡結構中卷積核大小為55,對Mnist 樣本集圖像能夠有效提取局部特征,但相對于尺寸為12864 的圖像來說,卷積核過小,卷積的結果無法包含表達局部特征的有效信息。(3)Mnist 樣本集圖像尺寸為2828,而行人檢測樣本集圖像尺寸為12864,圖像尺寸增大導致隱含層輸出特征維數(shù)過高,分類器不能根據(jù)描述能力有限的高維特征做出正確的分類。經(jīng)典卷積神經(jīng)網(wǎng)絡不能有效完成行人檢測任務,網(wǎng)絡深度、卷積核大小、最終提取特征維數(shù)是影響結果的主要因素。因此需要針對行人檢測問題的具體特點,對卷積神經(jīng)網(wǎng)絡的結構進行重新的設計。設計過程中重點考慮了以下問題。(1)卷積核的影響。卷積核是卷積神經(jīng)網(wǎng)絡模型中最具特性的部分,可以理解為生物視覺中感受野的模型化表示。它的性質(zhì)直接決定了特征提取的好壞、網(wǎng)絡收斂的速度等。卷積核的大小決定了感受野的大小,感受野過大,提取的特征超出卷積核的表達范圍,而感受野過小,則無法提取有效的局部特征。因此,卷積核大小對整個網(wǎng)絡的性能有著至關重要的影響。(2)深度的影響。相比傳統(tǒng)人工神經(jīng)網(wǎng)絡,卷積神經(jīng)網(wǎng)絡具有更深層的結構框架。深度學習中最核心的內(nèi)容之一就是“無監(jiān)督特征學習”,這種特征學習過程正是通過具有一定深度的網(wǎng)絡結構在逐層抽象中完成的。通過增加網(wǎng)絡的層數(shù),其特征信息表達能力逐步增強,但層數(shù)過多也會致使網(wǎng)絡結構過于復雜,訓練時間增加,易出現(xiàn)過擬合現(xiàn)象。因此,選擇合適的層數(shù)對提高網(wǎng)絡訓練效率和檢測結果有重要影響。(3)分類器輸入特征維數(shù)的影響。在卷積神經(jīng)網(wǎng)絡中,訓練過程采用BP 訓練策略38,因此最后一層的分類器本質(zhì)上是BP 分類器,輸入維數(shù)的高低對最終結果也有影響。同時,一個隱含層特征提取的好壞決定著網(wǎng)絡的總體性能,而隱含層輸出的特征維數(shù)則是影響網(wǎng)絡收斂和收斂速度的一個重要因素,在有限樣本集的情況下,過高的特征維數(shù)會產(chǎn)生冗余,無法提取有效信息,過低則無法完整表達特征。5 總結與展望本文對卷積神經(jīng)網(wǎng)絡的歷史、原理進行了簡要的介紹,卷積神經(jīng)網(wǎng)絡結構對于行人檢測具有很好的表現(xiàn)。深度卷積神經(jīng)網(wǎng)絡在圖像處理和機器學習領域的應 用,取得了突破性的進展,體現(xiàn)了深度CNN處理圖像數(shù)據(jù)的優(yōu)勢。目前,卷積神經(jīng)網(wǎng)絡正處于研究熱度非常高的階段,該領域仍然存在的一些問題以及發(fā)展方向,包括:(1)多輸入卷積神經(jīng)網(wǎng)絡構造多圖像輸入的深度 CNN 具有極高的理論和應用價值另外不同卷積層能夠代表不同層次的圖像特征信息,通過構造不同層次的信息融合分層,可以方便地實現(xiàn)多傳感視覺系統(tǒng)像素級、特征級和決策級的信息融合。(2)卷積神經(jīng)網(wǎng)絡的結構研究還具有很大的空間。目前的研究表明,僅僅通過簡單地增加網(wǎng)絡的復雜程度,會遇到一系列的瓶頸,如: 過擬合問題,網(wǎng)絡退化問題等。卷積神經(jīng)網(wǎng)絡性能的提升需要依靠更加合理的網(wǎng)絡結構設計。(3)卷積神經(jīng)網(wǎng)絡的參數(shù)眾多, 但是目前的相關設置大多基于經(jīng)驗和實踐,參數(shù)的量化分析與研究是卷積神經(jīng)網(wǎng)絡的一個有待解決的問題。(4)卷積神經(jīng)網(wǎng)絡應用的擴展。近幾年,CNN在目標檢測、圖像識別及處理等領域已經(jīng)顯示了巨大的優(yōu)勢。然而,CNN 的應用領域還可以大大擴展。正如2015 年國際機器學習大會上的各國專家所指出,CNN應用研究的中心未來將轉移到模式識別以外的更廣泛領域。參考文獻1 LECUN Y,BOTTOU L,BENGIO Y,et alGradient-based learningapplied to document recognitionJ/Proceedings of the IEEE,1998,86( 11) :2278-23242 HUBEL D H,WIESEL T NReceptive fields,binocular interaction, and functional architecture in the cats visual cortex J/ Journal of hysiology,1962, 160( 1) :106-1543 FUKUSHIMA KNeocognitron: a self-organizing neural networkmodel for a mechanism of pattern recognition unaffected by shift in position J/Biological Cybernetics,1980,36( 4) : 193-2024 WAIBEL A,HANAZAWA T,HINTON G,et al. Phoneme recognition using time-delay neural networks M/Readings in Speech RecognitionAmsterdam: Elsvier,1990: 393-4045 VAILLANT R,MONROCQ C,LE CUN YOriginal approach for the localization of objects in images J/IEE ProceedingsVision,Image and Signal Processing,1994,141( 4) : 245-2506 LAWRENCE S,GILES C L,TSOI A C,et alFace recognition: a convolutional neural-network approach J/IEEE Transactions on Neural Networks, 1997, 8( 1) : 981137 Hinton G E,Salakhutdinov R RReducing the dimensionality of data with neural networksJ/Science,2006,313( 5786) : 504-5078 KRIZHEVSKY A,SUTSKEVER I,HINTON G EImageNet classification with deep convolutional neural networks C /Proceedingsof Advances in Neural Information Processing SystemsCambridge,MA: MIT Press,2012: 1106 -11149 DENG J,DONG W,SOCHER R,et alImageNet: a large-scale hierarchical image database C / Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern RecognitionWashington,DC: IEEE Computer Society,2009: 248-25510 He K M,Zhang X,Ren S,et alDeep residual learning for image recognition C / Proceedings of the International Conference on Computer Vision and Pattern RecognitionLas Vegas,NevadaIEEE,2016: 770-77811 Krizhevsky A,Sutskever I,Hinton G EImagenet classification with deep convolutional neural networks C/Proceeding of 26th Annual Conference on Neural Information Processing SystemLake Tahoe,USA: MIT Press,2012: 1097-110512 Szegedy C,Liu W,Jia Y,et alGoing deeper with convolutionsC / Proceedings of International Conference on Computer Vision and Pattern ecognitionBoston,USA: IEEE Computer Society,2015: 1-913 He K M,Zhang X,en S,et alDeep residual learning for image recognition C/Proceedings of the International Conference on Computer Vision and Pattern ecognitionLas Vegas,NevadaIEEE,2016: 770-77814 王冠皓,徐軍基于多級金字塔卷積神經(jīng)網(wǎng)絡( MLPCNN) 的快速特征表示方法 J/計算機應用研究,2015,32( 8) : 2492-249515 Zhang X,Zou J,Ming X,et alEfficient and accurate approximations of nonlinear convolutional networks C /Proceedings of the Conference on Computer Vision and Pattern Recognition Columbus, USA: IEEE,2014:1984-199216 Girshick R,Donahue J,Darrell T,et alRich feature hierarchies for accurate object detection and semantic segmentation C/Proceedings of the Conference on Computer Vision and Pattern RecognitionColumbus,USA: IEEE,2014: 580-58717 He K,Zhang X,Ren S,et alSpatial pyramid pooling in deep convolutional networks for visual recognition JIEEE Transactions on Pattern Analysis Machine Intelligence,2015,37(9) : 1904-191618 Rippel O,Snoek J,Adams R PSpectral representations for convolutional neural networks JAdvances in Neural Information Processing Systems,2015,28 (1):2440-244819 Zeiler M D,Krishnan D,Taylor G W,et alDeconvolutional networks C/Proceedings of the IEEE Conference on Computer Vision and Pattern RecognitionCalifornia,USA: IEEE,2010: 2528-253520 Zeiler M D,Krishnan D,Taylor G W, et alAdaptive deconvolutional networks for mid and high level feature learning C/Proceedings of the International Conference on Computer VisionColorado Springs,USA: IEEE,2011:2018-202521 孫艷豐,齊光磊,胡永利基于改進 Fisher 準則的深度卷積神經(jīng)網(wǎng)絡識別算法 J/北京工業(yè)大學學報,2015,41( 6) : 835-84122 Girshick R,Donahue J,Darrell T,et alRich feature hierarchies for accurate object detection and semantic segmentation C/Proceedings of the IEEE conference on computer vision and pattern recognition,Columbus,Ohio,USA: IEEE,2014: 580-58723 XWang,XHart,and SYahAn HOG-LBP human detector with partial occlusion handlingJ/In CVPR,2009:l,2,5.24 龔丁禧稀疏自組合時空卷積神經(jīng)網(wǎng)絡動作識別方法及其并行化D./福建省廈門:廈門大學,201423 Girshick R,Girshick RFast RCNN C /Proceedings of the International Conference on Computer VisionCopenhagen,Denmark: IEEE,2015: 1440-1448.25 PAPAGEORGIOU C,POGGIO TA trainable system for object detection JInternational Journal of Computer Vision,2000,38( 1) : 153326 DALAL N,TRIGGS B Histograms of oriented gradients for human detectionJ Computer Vision and Pattern Recognition,2005 ( 1 ) :88689327 KELLER C,ENZWEILER M,GAVRILA D MA new benchmark for stereo-based pedestrian detectionC/Proc.IEEE Intelligent Vehicles SymposiumBadenBaden,Germany: IEEE Press,2011: 69169628 ENZWEILER M,EIGENSTETTER A,SCHIELE B,et al Multicue pedestrian classification with partial occlusion handling EB /OL /201305 10 . http: /ieeexplore ieee org /xpl /articleDetails jsp? tp =&arnumber = 5540111&queryText%3DMulticue + pedestrian + classification + with + partial + occlusion + handling29 ENZWEILER M,GAVRILA D M Monocular pedestrian detection: surv
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 身體塑形的臨床護理
- 《城市軌道交通票務工作》課件-項目一 認知票務管理體系 課程思政:愛國自信-我國城市軌道交通自動售檢票系
- 2025年房地產(chǎn)經(jīng)營與管理專業(yè)試卷及答案
- 大學生手機使用情況調(diào)查報告
- 完全性大動脈錯位的臨床護理
- 2025-2030國內(nèi)蠶絲被行業(yè)市場發(fā)展分析及發(fā)展前景與投資機會研究報告
- 2025至2031年中國梯型鉗行業(yè)投資前景及策略咨詢研究報告
- 瞼結膜炎的臨床護理
- 腦膜轉移瘤的臨床護理
- 傳統(tǒng)生產(chǎn)力與新質(zhì)生產(chǎn)力的區(qū)別
- 廣西輔警面試題庫及答案
- 旅游行測試題及答案
- 江蘇省南京市江寧區(qū)2024-2025學年統(tǒng)編版二年級下冊期中考試語文試卷(含答案)
- 鐵路調(diào)車綜合實訓鐵鞋的使用和注意事項課件
- 加油站安全事故案例課件
- 無人機配送技術發(fā)展-全面剖析
- 第14課 遼宋夏金元時期的科技與文化 教案2024-2025學年七年級歷史下冊新課標
- 廣東省江門市2025屆高三下學期一?;瘜W試題(原卷版+解析版)
- 監(jiān)理實施細則模板(信息化、軟件工程)
- 2025年中共涼山州委辦公室面向全州考調(diào)所屬事業(yè)單位工作人員高頻重點模擬試卷提升(共500題附帶答案詳解)
- 夏季貨車行車安全教育
評論
0/150
提交評論