行人檢測綜述資料_第1頁
行人檢測綜述資料_第2頁
行人檢測綜述資料_第3頁
行人檢測綜述資料_第4頁
行人檢測綜述資料_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、最近一直在看行人檢測的論文,對目前的行人檢測做大概的介紹。行人檢測具有極其廣泛的應用:智能輔助駕駛,智能監(jiān)控,行人分析以及智能機器人等領域。從2005年以來行人檢測進入了一個快速的發(fā)展階段,但是也存在很多問題還有待解決,個人覺得主要還是在性能和速度方面還不能達到一個權衡。1.行人檢測的現(xiàn)狀(大概可以分為兩類)(1).基于背景建模:利用背景建模方法,提取出前景運動的目標,在目標區(qū)域內(nèi)進行特征提取,然后利用分類器進行分類,判斷是否包含行人;背景建模目前主要存在的問題:(背景建模的方法總結可以參考我的前一篇博文介紹) (前景目標檢測總結)· 必須適應環(huán)境的變化(比如光照的變化造成

2、圖像色度的變化);· 相機抖動引起畫面的抖動(比如手持相機拍照時候的移動);· 圖像中密集出現(xiàn)的物體(比如樹葉或樹干等密集出現(xiàn)的物體,要正確的檢測出來);· 必須能夠正確的檢測出背景物體的改變(比如新停下的車必須及時的歸為背景物體,而有靜止開始移動的物體也需要及時的檢測出來)。· 物體檢測中往往會出現(xiàn)Ghost區(qū)域,Ghost區(qū)域也就是指當一個原本靜止的物體開始運動,背靜差檢測算法可能會將原來該物體所覆蓋的區(qū)域錯誤的檢測為運動的,這塊區(qū)域就成為Ghost,當然原來運動的物體變?yōu)殪o止的也會引入Ghost區(qū)域,Ghost區(qū)域在檢測中必須被盡快的消除。(2).

3、基于統(tǒng)計學習的方法:這也是目前行人檢測最常用的方法,根據(jù)大量的樣本構建行人檢測分類器。提取的特征主要有目標的灰度、邊緣、紋理、顏色、梯度直方圖等信息。分類器主要包括神經(jīng)網(wǎng)絡、SVM、adaboost以及現(xiàn)在被計算機視覺視為寵兒的深度學習。統(tǒng)計學習目前存在的難點:(a)行人的姿態(tài)、服飾各不相同、復雜的背景、不同的行人尺度以及不同的關照環(huán)境。(b)提取的特征在特征空間中的分布不夠緊湊;(c)分類器的性能受訓練樣本的影響較大;(d)離線訓練時的負樣本無法涵蓋所有真實應用場景的情況;目前的行人檢測基本上都是基于法國研究人員Dalal在2005的CVPR發(fā)表的HOG+SVM的行人檢測算法 (H

4、istograms of Oriented Gradients for Human Detection, Navneet Dalel,Bill Triggs, CVPR2005)。HOG+SVM作為經(jīng)典算法也別集成到opencv里面去了,可以直接調(diào)用實現(xiàn)行人檢測為了解決速度問題可以采用背景差分法的統(tǒng)計學習行人檢測,前提是背景建模的方法足夠有效(即效果好速度快),目前獲得比較好的檢測效果的方法通常采用多特征融合的方法以及級聯(lián)分類器。(常用的特征有Harry-like、Hog特征、LBP特征、Edgelet特征、CSS特征、COV特征、積分通道特征以及CENTRIST特征。2.行人檢測綜述性文章1

5、 D. Geronimo, and A. M.Lopez. Vision-based Pedestrian Protection Systems for Intelligent Vehicles, BOOK, 2014.2 P.Dollar, C. Wojek,B. Schiele, et al. Pedestrian detection: an evaluation of the state of the art J. IEEE Transactions on PatternAnalysis andMachine Intelligence, 2012, 34(4

6、): 743-761.3蘇松志, 李紹滋, 陳淑媛等.  行人檢測技術綜述J.  電子學報, 2012, 40(4): 814-820.4M. Enzweiler, and D.Gavrila. Monocular pedestrian detection: survey and experiments J.  IEEE Transactions on Pattern Analysis andMachine Intelligence, 2009, 31(12): 2179-2195.5 D. Geronimo, A. M.L

7、opez and A. D. Sappa, et al. Survey of pedestrian detection for advanced driverassistance systems J.  IEEE Transactionson Pattern Analysis and Machine Intelligence, 2010, 32(7): 1239-1258.6賈慧星, 章毓晉.車輛輔助駕駛系統(tǒng)中基于計算機視覺的行人檢測研究綜述J,  自動化學報, 2007, 33(1): 84-90.7 許言午, 曹先彬,喬紅. 行人檢測系統(tǒng)研

8、究新進展及關鍵技術展望J,  電子學報, 2008, 36(5): 368-376.8 杜友田; 陳峰;徐文立; 李永彬;基于視覺的人的運動識別綜述,  電子學報, 2007. 35(1): 84-90.9朱文佳. 基于機器學習的行人檢測關鍵技術研究D.  第一章,  碩士學位論文, 上海交通大學. 2008. 指導教師: 戚飛虎. 最新論文2014_ITS_Toward real-time pedestrian detection based on a deformable template

9、model2014_PAMI_Scene-specific pedestrian detection for static video surveillance2014_CVPR_Pedestrian Detection in Low-resolution Imagery by Learning Multi-scale Intrinsic Motion Structures (MIMS)2014_CVPR_Switchable Deep Network for Pedestrian Detection2014_CVPR_Informed Haar-like Features Improve P

10、edestrian Detection2014_CVPR_Word Channel Based Multiscale Pedestrian Detection Without Image Resizing and Using Only One Classifier2013_BMVC_Surveillance camera autocalibration based on pedestrian height distribution2013_Virtual and real world adaptation for pedestrian detection2013_Search space re

11、duction in pedestrian detection for driver assistance system based on projective geometry2013_CVPR_Robust Multi-Resolution Pedestrian Detection in Traffic Scenes2013_CVPR_Optimized Pedestrian Detection for Multiple and Occluded People 2013_CVPR_Pedestrian Detection with Unsupervised and Multi-S

12、tage Feature Learning 2013_CVPR_Single-Pedestrian Detection aided by Multi-pedestrian Detection 2013_CVPR_Modeling Mutual Visibility Relationship in Pedestrian Detection 2013_CVPR_Local Fisher Discriminant Analysis for Pedestrian Re-identification 3.行人檢測source code1. INRIA O

13、bject detection and Localization Toolkit, Dalal于2005年提出了 基于HOG特征的行人檢測方法,行人檢測領域中的經(jīng)典文章之一。HOG特征目前也被用在其他的目標檢測與識別、圖像檢索和跟蹤等領域中。2.  Real-time Pedestrian Detection. Jianxin Wu實現(xiàn)的快速行人檢測方法。3.  Hough Transfom for Pedestrian Detection. Olga Barinova, CVPR 2010 Paper: On detection of mul

14、tiple object instances using Hough Transforms4.  HIKSVM, HOG+LBP+HIKSVM, 行人檢測的經(jīng)典方法.5.  GroundHOG, GPU-based Object Detection with Geometric Constraints, In: ICVS, 2011. CUDA版本的HOG+SVM,  video.6.  100FPS_PDS, Pedestrian detection at 100 frames per second, R. Be

15、nenson. CVPR, 2012. 實時的(o)哦。 Real-time!7.  POM: Probabilistic Occupancy Map. Multiple camera pedestrian detection.8.  Pitor Dollar Detector. Integral Channel Feature + 多尺度特征近似+多特征融合. Real-Time!4.行人檢測DataSetsMIT數(shù)據(jù)庫該數(shù)據(jù)庫為較早公開的行人數(shù)據(jù)庫,共924張行人圖片(ppm格式,寬高為64x128),肩到腳的距離約80象素。該數(shù)據(jù)庫只含正面和背面兩

16、個視角,無負樣本,未區(qū)分訓練集和測試集。Dalal等采用“HOG+SVM”,在該數(shù)據(jù)庫上的檢測準確率接近100%。INRIA數(shù)據(jù)庫該數(shù)據(jù)庫是目前使用最多的靜態(tài)行人檢測數(shù)據(jù)庫,提供原始圖片及相應的標注文件。訓練集有正樣本614張(包含2416個行人),負樣本1218張;測試集有正樣本288張(包含1126個行人),負樣本453張。圖片中人體大部分為站立姿勢且高度大于100個象素,部分標注可能不正確。圖片主要來源于GRAZ-01、個人照片及google,因此圖片的清晰度較高。在XP操作系統(tǒng)下部分訓練或者測試圖片無法看清楚,但可用OpenCV正常讀取和顯示。Daimler行人數(shù)據(jù)庫該數(shù)據(jù)庫采用車載攝

17、像機獲取,分為檢測和分類兩個數(shù)據(jù)集。檢測數(shù)據(jù)集的訓練樣本集有正樣本大小為18x36和48x96的圖片各15560(3915x4)張,行人的最小高度為72個象素;負樣本6744張(大小為640x480或360x288)。測試集為一段27分鐘左右的視頻(分辨率為640x480),共21790張圖片,包含56492個行人。分類數(shù)據(jù)庫有三個訓練集和兩個測試集,每個數(shù)據(jù)集有4800張行人圖片,5000張非行人圖片,大小均為18x36,另外還有3個輔助的非行人圖片集,各1200張圖片。Caltech行人數(shù)據(jù)庫該數(shù)據(jù)庫是目前規(guī)模較大的行人數(shù)據(jù)庫,采用車載攝像頭拍攝,約10個小時左右,視頻的分辨率為640x4

18、80,30幀/秒。標注了約250,000幀(約137分鐘),350000個矩形框,2300個行人,另外還對矩形框之間的時間對應關系及其遮擋的情況進行標注。數(shù)據(jù)集分為set00set10,其中set00set05為訓練集,set06set10為測試集(標注信息尚未公開)。性能評估方法有以下三種:(1)用外部數(shù)據(jù)進行訓練,在set06set10進行測試;(2)6-fold交叉驗證,選擇其中的5個做訓練,另外一個做測試,調(diào)整參數(shù),最后給出訓練集上的性能;(3)用set00set05訓練,set06set10做測試。由于測試集的標注信息沒有公開,需要提交給Pitor Dollar。結果提交方法為每30

19、幀做一個測試,將結果保存在txt文檔中(文件的命名方式為I00029.txt I00059.txt ),每個txt文件中的每行表示檢測到一個行人,格式為“l(fā)eft, top,width, height, score”。如果沒有檢測到任何行人,則txt文檔為空。該數(shù)據(jù)庫還提供了相應的Matlab工具包,包括視頻標注信息的讀取、畫ROC(Receiver Operatingcharacteristic Curve)曲線圖和非極大值抑制等工具。TUD行人數(shù)據(jù)庫TUD行人數(shù)據(jù)庫為評估運動信息在行人檢測中的作用,提供圖像對以便計算光流信息。訓練集的正樣本為1092對圖像(圖片大小為720x576,包含1

20、776個行人);負樣本為192對非行人圖像(手持攝像機85對,車載攝像機107對);另外還提供26對車載攝像機拍攝的圖像(包含183個行人)作為附加訓練集。測試集有508對圖像(圖像對的時間間隔為1秒,分辨率為640x480),共有1326個行人。Andriluka等也構建了一個 數(shù)據(jù)庫用于驗證他們提出的檢測與跟蹤相結合的行人檢測技術。該數(shù)據(jù)集的訓練集提供了行人的矩形框信息、分割掩膜及其各部位(腳、小腿、大腿、軀干和頭部)的大小和位置信息。測試集為250張圖片(包含311個完全可見的行人)用于測試檢測器的性能,2個視頻序列(TUD-Campus和TUD-Crossing)用于評估跟蹤

21、器的性能。NICTA行人數(shù)據(jù)庫該數(shù)據(jù)庫是目前規(guī)模較大的靜態(tài)圖像行人數(shù)據(jù)庫,25551張含單人的圖片,5207張高分辨率非行人圖片,數(shù)據(jù)庫中已分好訓練集和測試集,方便不同分類器的比較。Overett等用“RealBoost+Haar”評估訓練樣本的平移、旋轉和寬高比等各種因素對分類性能的影響:(1)行人高度至少要大于40個象素;(2)在低分辨率下,對于Haar特征來說,增加樣本寬度的性能好于增加樣本高度的性能;(3)訓練圖片的大小要大于行人的實際大小,即背景信息有助于提高性能;(4)對訓練樣本進行平移提高檢測性能,旋轉對性能的提高影響不大。以上的結論對于構建行人數(shù)據(jù)庫具有很好的指導意義。ETH行

22、人數(shù)據(jù)庫Ess等構建了基于雙目視覺的行人數(shù)據(jù)庫用于多人的行人檢測與跟蹤研究。該數(shù)據(jù)庫采用一對車載的AVT Marlins F033C攝像頭進行拍攝,分辨率為640x480,幀率13-14fps,給出標定信息和行人標注信息,深度信息采用置信度傳播方法獲取。CVC行人數(shù)據(jù)庫該數(shù)據(jù)庫目前包含三個數(shù)據(jù)集(CVC-01、CVC-02和CVC-Virtual),主要用于車輛輔助駕駛中的行人檢測研究。CVC-01Geronimo,2007有1000個行人樣本,6175個非行人樣本(來自于圖片中公路區(qū)域中的非行人圖片,不像有的行人數(shù)據(jù)庫非行人樣本為天空、沙灘和樹木等自然圖像)。CVC-02包含三個子數(shù)據(jù)集(C

23、VC-02-CG、CVC-02-Classification和CVC-02-System),分別針對行人檢測的三個不同任務:感興趣區(qū)域的產(chǎn)生、分類和系統(tǒng)性能評估。圖像的采集采用Bumblebee2立體彩色視覺系統(tǒng),分辨率640x480,焦距6mm,對距離攝像頭050m的行人進行標注,最小的行人圖片為12x24。CVC-02-CG主要針對候選區(qū)域的產(chǎn)生,有100張彩色圖像,包含深度和3D點信息;CVC-02-Classification主要針對行人分類,訓練集有1016張正樣本,7650張負樣本,測試集分為基于切割窗口的分類(570張行人,7500張非行人)和整張圖片的檢測(250張包含行人的圖

24、片,共587個行人);CVC-02-System主要用于系統(tǒng)的性能評估,包含15個視頻序列(4364幀),7983個行人。CVC-Virtual是通過Half-Life 2圖像引擎產(chǎn)生的虛擬行人數(shù)據(jù)集,共包含1678虛擬行人,2048個非行人圖片用于測試。USC行人數(shù)據(jù)庫該數(shù)據(jù)庫包含三組數(shù)據(jù)集(USC-A、USC-B和USC-C),以XML格式提供標注信息。USC-AWu, 2005的圖片來自于網(wǎng)絡,共205張圖片,313個站立的行人,行人間不存在相互遮擋,拍攝角度為正面或者背面;USC-B的圖片主要來自于 CAVIAR視頻庫,包括各種視角的行人,行人之間有的相互遮擋,共54張圖片,

25、271個行人;USC-C有100張圖片來自網(wǎng)絡的圖片,232個行人(多角度),行人之間無相互遮擋。5.Others相關資料資料 1. Edgar Seemann維護的 行人檢測網(wǎng)站,比較全,包括publications, code, datasets等。 2.  Pedestrian detection: state of the art. A video talk by Pitor Dollar. Pitor Dollar做了很多關于行人檢測方法的研究,他們研究小組的Caltech Pedestrian Dataset也很出名。6.

26、人體行為識別(Human Action Recognition)來源:二一、論文CVPR 2012 與行人檢測相關的論文1 Contextual Boost for Pedestrian Detection  YuanyuanDing, Jing Xiao2 Understanding Collective CrowdBehaviors:Learning Mixture Model of Dynamic P

27、edestrian-Agents   Bolei Zhou, Xiaogang Wang3 Pedestrian detection at 100 frames persecond  Rodrigo Benenson, Markus Mathias, Radu Timofte, Luc Van Gool4 Multi-Pedestrian Detection

28、 in CrowdedScenes: A Global View  Junjie Yan, Zhen Lei, Dong Yi, Stan.Z. Li5 A Discriminative Deep Model forPedestrian Detection with Occlusion Handling Wanli Ouyang, Xia

29、ogang Wang6 Transferring a Generic PedestrianDetector Towards Specific Scenes   MengWang, Wei Li, Xiaogang Wang7 Geodesic Flow Kernel for UnsupervisedDomain Adaptation  Boqing Gong

30、, Yuan Shi, Fei Sha, Kristen Grauman綜述類的文章1P.Dollar, C. Wojek,B. Schiele, et al. Pedestrian detection: an evaluation of the state of the art J.IEEE Transactions on PatternAnal

31、ysis andMachine Intelligence, 2012, 34(4): 743-761.2M. Enzweiler, and D.Gavrila. Monocular pedestrian detection: survey and experiments J. IEEE Transactions on Pattern Analysis andMachine In

32、telligence, 2009, 31(12): 2179-2195.3D. Geronimo, A. M.Lopez and A. D. Sappa, et al. Survey of pedestrian detection for advanced driverassistance systems J. IEEE Transactionson Pat

33、tern Analysis and Machine Intelligence, 2010, 32(7): 1239-1258.4蘇松志, 李紹滋, 陳淑媛等. 行人檢測技術綜述J. 電子學報, 2012, 40(4): 814-820.5賈慧星, 章毓晉.車輛輔助駕駛系統(tǒng)中基于計算機視覺的行人檢測研究綜述J, 自動化學報, 2007, 33(1): 84-90.6 許言午, 曹先彬,喬紅

34、. 行人檢測系統(tǒng)研究新進展及關鍵技術展望J, 電子學報, 2008, 36(5): 368-376.7 杜友田; 陳峰;徐文立; 李永彬;基于視覺的人的運動識別綜述, 電子學報, 2007. 35(1): 84-90.8朱文佳. 基于機器學習的行人檢測關鍵技術研究D. 第一章, 碩士學位論文, 上海交通大學. 2008. 指導教師: 戚飛虎.二、Source Code1.INRIA Ob

35、ject detection and Localization Toolkit, Dalal于2005年提出了基于HOG特征的行人檢測方法,行人檢測領域中的經(jīng)典文章之一。HOG特征目前也被用在其他的目標檢測與識別、圖像檢索和跟蹤等領域中。2. Real-time Pedestrian Detection. Jianxin Wu實現(xiàn)的快速行人檢測方法。3. Hough Transfom for Pedestrian Detection. 

36、Olga Barinova, CVPR 2010 Paper: On detection of multiple object instances using Hough Transforms4. HIKSVM, HOG+LBP+HIKSVM, 行人檢測的經(jīng)典方法.5. GroundHOG, GPU-based Object Detection with Geometric&#

37、160;Constraints, In: ICVS, 2011.  CUDA版本的HOG+SVM,  video. 三、數(shù)據(jù)集MIT數(shù)據(jù)庫    該數(shù)據(jù)庫為較早公開的行人數(shù)據(jù)庫,共924張行人圖片(ppm格式,寬高為64x128),肩到腳的距離約80象素。該數(shù)據(jù)庫只含正面和背面兩個視角,無負樣本,未區(qū)分訓練集和測試集。Dalal等采用“HOG+SVM”,在該數(shù)據(jù)庫上的檢測準確率接近100%。INRIA數(shù)據(jù)庫    該數(shù)據(jù)庫是目前使用最多

38、的靜態(tài)行人檢測數(shù)據(jù)庫,提供原始圖片及相應的標注文件。訓練集有正樣本614張(包含2416個行人),負樣本1218張;測試集有正樣本288張(包含1126個行人),負樣本453張。圖片中人體大部分為站立姿勢且高度大于100個象素,部分標注可能不正確。圖片主要來源于GRAZ-01、個人照片及google,因此圖片的清晰度較高。在XP操作系統(tǒng)下部分訓練或者測試圖片無法看清楚,但可用OpenCV正常讀取和顯示。Daimler行人數(shù)據(jù)庫    該數(shù)據(jù)庫采用車載攝像機獲取,分為檢測和分類兩個數(shù)據(jù)集。檢測數(shù)據(jù)集的訓練樣本集有正樣本大小為18x36和48x96的圖片各1

39、5560(3915x4)張,行人的最小高度為72個象素;負樣本6744張(大小為640x480或360x288)。測試集為一段27分鐘左右的視頻(分辨率為640x480),共21790張圖片,包含56492個行人。分類數(shù)據(jù)庫有三個訓練集和兩個測試集,每個數(shù)據(jù)集有4800張行人圖片,5000張非行人圖片,大小均為18x36,另外還有3個輔助的非行人圖片集,各1200張圖片。Caltech行人數(shù)據(jù)庫    該數(shù)據(jù)庫是目前規(guī)模較大的行人數(shù)據(jù)庫,采用車載攝像頭拍攝,約10個小時左右,視頻的分辨率為640x480,30幀/秒。標注了約250,000幀(約137分鐘

40、),350000個矩形框,2300個行人,另外還對矩形框之間的時間對應關系及其遮擋的情況進行標注。數(shù)據(jù)集分為set00set10,其中set00set05為訓練集,set06set10為測試集(標注信息尚未公開)。性能評估方法有以下三種:(1)用外部數(shù)據(jù)進行訓練,在set06set10進行測試;(2)6-fold交叉驗證,選擇其中的5個做訓練,另外一個做測試,調(diào)整參數(shù),最后給出訓練集上的性能;(3)用set00set05訓練,set06set10做測試。由于測試集的標注信息沒有公開,需要提交給PitorDollar。結果提交方法為每30幀做一個測試,將結果保存在txt文檔中(文件的命名方式為I

41、00029.txt I00059.txt ),每個txt文件中的每行表示檢測到一個行人,格式為“l(fā)eft, top,width, height, score”。如果沒有檢測到任何行人,則txt文檔為空。該數(shù)據(jù)庫還提供了相應的Matlab工具包,包括視頻標注信息的讀取、畫ROC(Receiver Operatingcharacteristic Curve)曲線圖和非極大值抑制等工具。TUD行人數(shù)據(jù)庫    TUD行人數(shù)據(jù)庫為評估運動信息在行人檢測中的作用,提供圖像對以便計算光流信息。訓練

42、集的正樣本為1092對圖像(圖片大小為720x576,包含1776個行人);負樣本為192對非行人圖像(手持攝像機85對,車載攝像機107對);另外還提供26對車載攝像機拍攝的圖像(包含183個行人)作為附加訓練集。測試集有508對圖像(圖像對的時間間隔為1秒,分辨率為640x480),共有1326個行人。Andriluka等也構建了一個數(shù)據(jù)庫用于驗證他們提出的檢測與跟蹤相結合的行人檢測技術。該數(shù)據(jù)集的訓練集提供了行人的矩形框信息、分割掩膜及其各部位(腳、小腿、大腿、軀干和頭部)的大小和位置信息。測試集為250張圖片(包含311個完全可見的行人)用于測試檢測器的性能,2個視頻序列(TUD-Ca

43、mpus和TUD-Crossing)用于評估跟蹤器的性能。NICTA行人數(shù)據(jù)庫    該數(shù)據(jù)庫是目前規(guī)模較大的靜態(tài)圖像行人數(shù)據(jù)庫,25551張含單人的圖片,5207張高分辨率非行人圖片,數(shù)據(jù)庫中已分好訓練集和測試集,方便不同分類器的比較。Overett等用“RealBoost+Haar”評估訓練樣本的平移、旋轉和寬高比等各種因素對分類性能的影響:(1)行人高度至少要大于40個象素;(2)在低分辨率下,對于Haar特征來說,增加樣本寬度的性能好于增加樣本高度的性能;(3)訓練圖片的大小要大于行人的實際大小,即背景信息有助于提高性能;(4)對訓練樣本進行平移

44、提高檢測性能,旋轉對性能的提高影響不大。以上的結論對于構建行人數(shù)據(jù)庫具有很好的指導意義。ETH行人數(shù)據(jù)庫     Ess等構建了基于雙目視覺的行人數(shù)據(jù)庫用于多人的行人檢測與跟蹤研究。該數(shù)據(jù)庫采用一對車載的AVT Marlins F033C攝像頭進行拍攝,分辨率為640x480,幀率13-14fps,給出標定信息和行人標注信息,深度信息采用置信度傳播方法獲取。CVC行人數(shù)據(jù)庫    該數(shù)據(jù)庫目前包含三個數(shù)據(jù)集(CVC-01、CVC-02和CVC-Virtual),主要用于車輛輔助駕駛中的

45、行人檢測研究。CVC-01Geronimo,2007有1000個行人樣本,6175個非行人樣本(來自于圖片中公路區(qū)域中的非行人圖片,不像有的行人數(shù)據(jù)庫非行人樣本為天空、沙灘和樹木等自然圖像)。CVC-02包含三個子數(shù)據(jù)集(CVC-02-CG、CVC-02-Classification和CVC-02-System),分別針對行人檢測的三個不同任務:感興趣區(qū)域的產(chǎn)生、分類和系統(tǒng)性能評估。圖像的采集采用Bumblebee2立體彩色視覺系統(tǒng),分辨率640x480,焦距6mm,對距離攝像頭050m的行人進行標注,最小的行人圖片為12x24。CVC-02-CG主要針對候選區(qū)域的產(chǎn)生,有100張彩色圖像,包

46、含深度和3D點信息;CVC-02-Classification主要針對行人分類,訓練集有1016張正樣本,7650張負樣本,測試集分為基于切割窗口的分類(570張行人,7500張非行人)和整張圖片的檢測(250張包含行人的圖片,共587個行人);CVC-02-System主要用于系統(tǒng)的性能評估,包含15個視頻序列(4364幀),7983個行人。CVC-Virtual是通過Half-Life 2圖像引擎產(chǎn)生的虛擬行人數(shù)據(jù)集,共包含1678虛擬行人,2048個非行人圖片用于測試。USC行人數(shù)據(jù)庫    該數(shù)據(jù)庫包含三組數(shù)據(jù)集(USC-A、USC-B

47、和USC-C),以XML格式提供標注信息。USC-AWu, 2005的圖片來自于網(wǎng)絡,共205張圖片,313個站立的行人,行人間不存在相互遮擋,拍攝角度為正面或者背面;USC-B的圖片主要來自于CAVIAR視頻庫,包括各種視角的行人,行人之間有的相互遮擋,共54張圖片,271個行人;USC-C有100張圖片來自網(wǎng)絡的圖片,232個行人(多角度),行人之間無相互遮擋。 四、其他相關資料資料1. Edgar Seemann維護的行人檢測網(wǎng)站,比較全,包括publications, code, datasets等。2. Pedes

48、trian detection: state of the art. A video talk byPitor Dollar. Pitor Dollar做了很多關于行人檢測方法的研究,他們研究小組的Caltech Pedestrian Dataset也很出名?,F(xiàn)有方法:1.harr特征+SVM:* Papageorgiou & Poggio, 2000; Mohan et al 20002.Rectangular differential

49、 features + adaBoost:* Viola & Jones, 20013.Edge templates + nearest neighbour:* Gavrila & Philomen, 19994:Model based methods:* Felzenszwalb & Huttenlocher, 2000;  Ioffe & Forsyth, 19995. Other works:* Leibe et al, 2005; Mikolajczyk et al, 20046. O

50、rientation histograms:* Freeman et al, 1996; Lowe, 1999 (SIFT); Belongie et al, 2002 (Shape contexts)看了將近半年的行人檢測的資料,最近開題了,我也趁著這個機會把腦袋里的東西總結一下:先說下常用的數(shù)據(jù)庫:最早的是MIT,這個庫比較簡單,行人圖片背景簡單,只有正面和背面。在2005年以前流行,2005年后隨著HOG的提出,MIT庫上的準確率已經(jīng)達到100%,所以INRIA成為標準數(shù)據(jù)庫中的大家通用的數(shù)據(jù)庫。這個庫背景復雜,人的姿勢也比較多,還有些光照等環(huán)境的影響。另外一個關于車

51、輛內(nèi)行人的圖像庫是Daimler,不過我總下載不下來?,F(xiàn)在常用的方法分這么幾類行人檢測的目標是得到每個行人在視頻中每幀的空間位置。根據(jù)對行人描述(表達)方法的不同,行人檢測算法可以基本分為三類:基于形狀模板匹配的方法和基于表觀特征描述的方法,以及將形狀和紋理結合的方法。根據(jù)對人體是以一個整體進行檢測還是分部件進行檢測,又可以將行人檢測算法分為基于部件的檢測方法和基于整體的檢測方法。下面針對國際上常用的行人檢測方法進行闡述。(1)基于形狀模板匹配的檢測方法形狀是人體明顯的一個特征,例如頭肩部的“”形、軀干部分的豎直邊緣輪廓,可以利用形狀之間的相似性來判斷圖像中是否有行人的存在。Gavrila3-

52、5使用一系列人體形狀來表示人體形狀,然后在測試圖像中提取邊緣,基于Chamfer距離來評測圖像與模板之間的相似性。LinZhe6等將人體分為頭肩軀干、大腿和小腿三個部件,然后按照從上倒下使用Gavrila提出的方法分層次進行匹配,最后和基于背景建模得到的前景圖像進行形狀匹配,在檢測行人的同時將其大致形狀從背景中分割出來?;谛螤钇ヅ浞椒ǖ膬?yōu)點是直接描述人體的形狀,比較直觀,檢測完成以后可以根據(jù)模板的形狀和姿勢,判斷檢測到行人的姿勢并切割出行人的大致輪廓。但由于其在線檢測時很難獲得待匹配圖像中目標的輪廓,且其利用樣本來描述類別的形狀,導致其一些顯著的缺點:離線訓練時的人體外圍輪廓需手工標定,邊緣

53、提取受背景的影響,沒有采取鑒別性學習等(2)基于表觀特征向量的檢測方法基于表觀特征向量的檢測方法使用能夠描述目標表觀特性的特征向量表示目標模式和非目標模式,然后使用基于統(tǒng)計學習得到的分類器根據(jù)特征向量做出判決。特征提取將原始的圖像灰度(彩色)信息映射到特征空間,其目的是減小待分類類別的類內(nèi)變化和增大類間變化,理想的特征是不同類別的分布沒有交疊,完全可分。特征提取的方法有兩種:基于整體特征向量的方法和基于關鍵點提取的方法。在基于整體特征向量的方法中,較早用于行人檢測的是Haar小波,Papageorgiou7等使用Haar小波變化系數(shù)描述行人,然后使用線性SVM分類器進行判決,建立了一個基于統(tǒng)計學習和表觀特征相結合的行人檢測系統(tǒng)。之后,為了避免邊緣提取誤差,很多方法直接使用梯度信息來表示

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論