基于深度學(xué)習(xí)的場(chǎng)景文本檢測(cè)的研究_第1頁(yè)
基于深度學(xué)習(xí)的場(chǎng)景文本檢測(cè)的研究_第2頁(yè)
基于深度學(xué)習(xí)的場(chǎng)景文本檢測(cè)的研究_第3頁(yè)
基于深度學(xué)習(xí)的場(chǎng)景文本檢測(cè)的研究_第4頁(yè)
基于深度學(xué)習(xí)的場(chǎng)景文本檢測(cè)的研究_第5頁(yè)
已閱讀5頁(yè),還剩90頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、中文圖書分類號(hào):TP183 密級(jí):公開UDG: 004學(xué)校代碼:10005松孝- BEIJING UNIVERSITY OF TECHNOLOGY碩士專業(yè)學(xué)位論文PROFESSIONAL MASTER DISSERTATION論文題目:基于深度學(xué)習(xí)的場(chǎng)景文本檢測(cè)的研究 論文作者:恩孟一 專業(yè)類別/領(lǐng)域:軟件工程 指導(dǎo)教師:李蓉李建強(qiáng) 論文提交日期:2018年6月UDC: 004中文圖書分類號(hào):TP 183學(xué)校代碼:10005學(xué) 號(hào):S201525105密 級(jí):公開北京工業(yè)大學(xué)碩士專業(yè)學(xué)位論文(全日制)題目:基于深度學(xué)習(xí)的場(chǎng)景文本檢測(cè)的研究英文題目:RESEARCH ON SCENE TEXT

2、DETECTION BASED ON DEEP LEARNING論文作者:恩孟一專業(yè)類別/領(lǐng)域:軟件工程研究方向:計(jì)算機(jī)視覺申請(qǐng)學(xué)位:工程碩士專業(yè)學(xué)位指導(dǎo)Mr師:李蓉李建強(qiáng)所在單位:軟件學(xué)院答辯日期:2018年6月授予學(xué)位單位:北京工業(yè)大學(xué)獨(dú)創(chuàng)性聲明本人聲明所呈交的論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研 究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其 他人已經(jīng)發(fā)表或撰寫過(guò)的研究成果,也不包含為獲得北京工業(yè)大學(xué)或其它教育 機(jī)構(gòu)的學(xué)位或證書而使用過(guò)的材料。與我一同工作的同志對(duì)本研究所做的任何 貢獻(xiàn)均已在論文中作了明確的說(shuō)明并表示了謝意。簽 名:恩孟一日 期:2018

3、年6月4日關(guān)于論文使用授權(quán)的說(shuō)明本人完全了解北京工業(yè)大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,BP:學(xué)校有 權(quán)保留送交論文的復(fù)印件,允許論文被查閱和借閱;學(xué)校可以公布論文的全部 或部分內(nèi)容,可以采用影卬、縮印或其他復(fù)制手段保存論文。(保密的論文在解密后應(yīng)遵守此規(guī)定)簽 名: 恩孟一導(dǎo)師簽名:李建強(qiáng)日 期:2018年6月4日 日 期:2018年6月4日北京工業(yè)大學(xué)工程碩士專業(yè)學(xué)位論文摘要自然場(chǎng)景圖像中的文本包含著豐富而精準(zhǔn)的語(yǔ)義信息,是圖像中重要的信息 來(lái)源,這使檢測(cè)和識(shí)別場(chǎng)景圖像中的文本成為一個(gè)具有巨大應(yīng)用價(jià)值的研究主題。 近年來(lái),場(chǎng)景文本的檢測(cè)和識(shí)別得到了越來(lái)越多研究者的關(guān)注,在該領(lǐng)域不斷有 新的方

4、法被提出。早期的場(chǎng)景文本檢測(cè)識(shí)別方法基本上都是基于人工設(shè)計(jì)的特征 的,隨著深度學(xué)習(xí)的復(fù)興,深度網(wǎng)絡(luò)強(qiáng)大的特征學(xué)習(xí)能力使基于深度學(xué)習(xí),特別 是基于卷積神經(jīng)網(wǎng)絡(luò)的方法逐漸成為該領(lǐng)域的主流。在該背景下,本文的主要工 作是,基于深度卷積網(wǎng)絡(luò)對(duì)場(chǎng)景文本檢測(cè)問題進(jìn)行研究。本文針對(duì)于多尺度場(chǎng)景文本尤其是小文本檢測(cè)的問題,提出了一個(gè)新的場(chǎng)景 文本檢測(cè)框架一一基于特征金字塔的場(chǎng)景文本檢測(cè)器。該框架基于通用目標(biāo)檢測(cè) 領(lǐng)域的SSD框架,并引入特征金字塔機(jī)制,通過(guò)一種自頂向下特征融合方法, 將卷積神經(jīng)網(wǎng)絡(luò)中不同深度的特征進(jìn)行融合產(chǎn)生新的特征,使這些新特征在具有 較強(qiáng)判別力的同時(shí)又保留較多圖像的局部細(xì)節(jié)信息。通過(guò)在新特

5、征上進(jìn)行文本檢 測(cè),使該框架在檢測(cè)多尺度文本尤其是小文本方面的效果得到了提升。該方法在 ICDAR2013 數(shù)據(jù)集上達(dá)到 87.6%的 F-score0冃前大多數(shù)基于深度網(wǎng)絡(luò)的場(chǎng)景文本檢測(cè)方法需要大量擁有包圍盒級(jí)別標(biāo) 注的數(shù)據(jù)進(jìn)行模型訓(xùn)練,而這種數(shù)據(jù)往往需要昂貴的人工標(biāo)注才可獲得。針對(duì)這 一問題,本文嘗試提岀一種基于弱監(jiān)督的方法,在僅包含圖像級(jí)標(biāo)注的數(shù)據(jù)集上 訓(xùn)練得到擁有場(chǎng)景文本定位能力的卷積網(wǎng)絡(luò)模型,而無(wú)需任何包圍盒級(jí)別的標(biāo)注。 該網(wǎng)絡(luò)模型可以根據(jù)輸入圖像產(chǎn)生一張二維的類激活圖,該激活圖上每個(gè)像素的 值表示該位置屬于文本區(qū)域的置信度。利用該激活圖可以排除輸入圖像中大部分 的背景區(qū)域,定位到可

6、能屈于文本的區(qū)域,進(jìn)而可以在這些區(qū)域上通過(guò)基于 MSER的方法進(jìn)行進(jìn)一步的文本候選框提取。通過(guò)在ICDAR2013和ICDAR2015 數(shù)據(jù)集上進(jìn)行驗(yàn)證,發(fā)現(xiàn)該方法提取的文本候選框達(dá)到的召冋率與一些監(jiān)督方法 相當(dāng)。關(guān)鍵詞:場(chǎng)景文本;卷積神經(jīng)網(wǎng)絡(luò);弱監(jiān)督;深度學(xué)習(xí)AbstractText in natural scene images is an important source of information, containing rich and precise high level semantics. So detecting and recognizing scene text hav

7、e great application value and have attracted much research interests during the last two decades. Early detection and recognition methods are based on artificially designed text features. However, with the revival of deep learning, deep neural networks show strong ability of learning features. Resea

8、rch based on deep neural networks, especially convolutional neural networks has became the mainstream of this field. Against the backdrop, the main task of this paper is to study the problem of scene text detection based on deep convolutional networks.In order to solve the problem of multi-scale sce

9、ne text detection, especially small text detection, we propose a new detection framework called feature pyramid based scene text detector. The framework is based on the state-of-the-art object detection framework SSD, and introduces feature pyramid mechanism. Through a top-down feature fusion manner

10、, features from different depth in CNN are combined and new features are built, forming a feature pyramid in which features have both high-level semantics and fine local details. Detecting on the new built features improves the performance on multi-scale text detection and small text detection. On I

11、CDAR2013 benchmark, the F-score of the proposed method achieves 87.6%.Most of the current state-of-the-art scene text detection methods need a large amount of data with bounding box-level or pixel-level ground-truth to train deep models. But getting these kinds of data require expensive manual annot

12、ation. We explore to propose a weakly supervised method that train a deep CNN model with text localization ability on datasets that have only image-level annotations. Given an input image, the model is capable of producing a 2-D class activation map (CAM) where value of each pixel denotes the confid

13、ence score of whether the pixel belongs to text region or not. By the help of the CAM, most of background areas in the input image can be filtered out and then we find the areas where text may exist. Based on this method, we can generate text proposals by some MSER-based methods. The proposed weakly

14、 supervised method achieves recall rate comparable to some fully supervised methods on ICDAR2013 and ICDAR2015 benchmarks.Keywords: scene text; convolutional neural netwotks; weak supervision; deep learning 北京工業(yè)大學(xué)工程碩士專業(yè)學(xué)位論E摘要IAbstractII第1章緒論11.1研究背景與意義11.2國(guó)內(nèi)外研究現(xiàn)狀2121傳統(tǒng)方法31.2.2基于深度學(xué)習(xí)的方法31.3主要工作和貢獻(xiàn)51.

15、4論文結(jié)構(gòu)安排6第2章目標(biāo)檢測(cè)技術(shù)基礎(chǔ)72.1 RCNN系列方法72.1.1候選目標(biāo)區(qū)域提取72.1.2 R-CNN82.3 Fast R-CNN82.1.4 Faster R-CNN112.2 SSD132.3反思152.4本章小結(jié)15第3章基于特征金字塔的場(chǎng)景文本檢測(cè)173.1網(wǎng)絡(luò)結(jié)構(gòu)173.1主干網(wǎng)絡(luò)173.1.2特征金字塔193.1.3檢測(cè)模塊203.2技術(shù)細(xì)節(jié)213.2.1 atrous 卷積213.2.2特征金字塔223.2.3先驗(yàn)盒263.2.4預(yù)測(cè)層283.2.5匹配規(guī)則293.2.6損失函數(shù)303.3實(shí)驗(yàn)313.3.1實(shí)驗(yàn)環(huán)境313.3.2數(shù)據(jù)集313.3.3訓(xùn)練和測(cè)試313

16、.3.4驗(yàn)證特征金字塔的有效性323.3.5檢測(cè)小文本的實(shí)驗(yàn)323.3.6不同配置下的FPTD性能對(duì)比343.3.7與其他檢測(cè)方法的對(duì)比343.3.8檢測(cè)效果展示與分析353.4本章小結(jié)36第4章基于弱監(jiān)督的場(chǎng)景文本注意力網(wǎng)絡(luò)374網(wǎng)絡(luò)模型374.2技術(shù)細(xì)節(jié)384.2.1空間金字塔池化384.2.2類激活圖的生成404.2.3感受野和多尺度問題424.2.4生成文本候選區(qū)域434.3實(shí)驗(yàn)454.3.1實(shí)驗(yàn)環(huán)境454.3.2數(shù)據(jù)集454.3.3 訓(xùn)練454.3.4 測(cè)試464.3.5二分類效果464.3.6文本候選區(qū)域提取效果464.3.7 ICDAR2013數(shù)據(jù)集上的召回效果474.3.8 I

17、CDAR2015數(shù)據(jù)集上的召回效果484.3.9單一尺度輸入的召回效果514.3.10與其他文本proposal方法的比較514.4本章小結(jié)52結(jié)論55參考文獻(xiàn)59附錄一ICDAR2013數(shù)據(jù)集介紹65附錄二ICDAR2015數(shù)據(jù)集介紹70V目錄附錄三FPTD評(píng)測(cè)結(jié)果截圖72攻讀碩士學(xué)位期間取得的成果75致謝77v第1章緒論第1章緒論1.1研究背景與意義在過(guò)去的二十多年中,如何有效地檢測(cè)、利用自然場(chǎng)景圖像中的文本信息得 到了越來(lái)越多研究者的關(guān)注。比較有代表性的是國(guó)際文檔分析與識(shí)別會(huì)議(International Conference on Document Analysis and Recog

18、nition, ICDAR) 和該 會(huì)議設(shè)置的魯棒閱讀競(jìng)賽(Robust Reading Competition) U_5J,以及從2005年 開始舉辦、依附于ICDAR會(huì)議的基于攝像機(jī)的文檔分析與識(shí)別研討會(huì)(International Workshop on Camera-Based Document Analysis and Recognition, CBDAR) o此外,近年來(lái)在計(jì)算機(jī)視覺領(lǐng)域的各大頂級(jí)會(huì)議,如CVPR, ICCV, ECCV等會(huì)議上,自然場(chǎng)景圖像中文本的檢測(cè)和識(shí)別也成為了重要的研究話題。對(duì)于自然場(chǎng)景圖像來(lái)說(shuō),圖像中出現(xiàn)的文字?jǐn)y帶著豐富而精準(zhǔn)的高級(jí)語(yǔ)義信 息,這是圖像中信

19、息的重要來(lái)源。因此,如果可以有效地將這些文本信息進(jìn)行檢 測(cè)、識(shí)別并加以利用,對(duì)很多的基于視覺的應(yīng)用來(lái)說(shuō)具有重大意義,例如文檔圖 像檢索,基于航拍圖像的目標(biāo)地理位置定位,基于視覺的機(jī)器人路徑導(dǎo)航兇, 幫助視障人士通過(guò)照相機(jī)讀取貨幣而值9,等等。另外,近年來(lái)隨著智能手機(jī)的普及,人們可以隨時(shí)隨地方便地“制造訝口處理 大量的圖像,這些圖像中往往包含著文本信息。這也為檢測(cè)、識(shí)別多樣環(huán)境下自 然場(chǎng)景圖像中的文木提供了巨大的應(yīng)用需求和應(yīng)用空間。一般來(lái)說(shuō),傳統(tǒng)光字符識(shí)別(Optical Character Recognition, OCR)的任務(wù)是 在背景干凈、文本均勻的掃描文檔上檢測(cè)、識(shí)別文本,目前該技術(shù)己

20、較為成熟一 在普通掃描文檔上一般可以達(dá)到99%以上的識(shí)別率I。和它相比,自然場(chǎng)景圖 像中文本的檢測(cè)與識(shí)別是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù),在目前大部分的公開數(shù)據(jù) 集上,檢測(cè)和識(shí)別效果都要遠(yuǎn)遠(yuǎn)低于傳統(tǒng)OCR。該任務(wù)的主要難點(diǎn)可以概括為 以下兒個(gè)方面:(1) 圖像背景的復(fù)余性。在場(chǎng)景圖像中,許多的非文本物體,主要是一些 人造物,如建筑物,標(biāo)志,涂鴉等等,與場(chǎng)景中的文本在外觀、結(jié)構(gòu)上有較大的 相似性。這樣一來(lái),圖像中的文本與其周圍的非文本物體很容易發(fā)生混淆,給區(qū) 分圖像中的文本與非文本造成了一定的困難。(2) 不均勻光照。在獲取(拍攝)圖像時(shí),環(huán)境中的照明不均勻或是感光 器件本身的不均勻響應(yīng),都會(huì)使得到的

21、場(chǎng)景圖像中存在一定程度的光照不均。這 第1章緒論會(huì)導(dǎo)致圖像的顏色失真,一些視覺特征的退化,從而影響了圖像中文本的檢測(cè)、 分割以及識(shí)別的準(zhǔn)確性。(3)圖像模糊/退化。拍攝過(guò)程中拍攝位置的不穩(wěn)定,以及相機(jī)對(duì)焦等問題, 會(huì)造成圖像的模糊、質(zhì)量退化。此外,圖像的壓縮、解壓縮處理也會(huì)帶來(lái)圖像質(zhì) 量的退化。這種情況會(huì)使導(dǎo)致圖像中文本銳度的降低,并且有可能引入粘連字符, 從而增大某些重要任務(wù)比如文本分割的難度。(4)文本本身的多樣性。首先,場(chǎng)景圖像中的文本具有多樣的寬高比,例 如,交通標(biāo)志上的文本通常很“短”,而報(bào)刊雜志上的文本通常較“長(zhǎng)二因此,文 本檢測(cè)算法需要考慮到這些多樣性來(lái)匹配不同寬高比的文本,這會(huì)

22、使算法設(shè)計(jì)的 難度大大增加。第二,場(chǎng)景圖像中的文本除了水平的,也可能是傾斜的,甚至是 彎曲的。這就使文本檢測(cè)算法面臨更大的挑戰(zhàn),往往一個(gè)適用于水平文本的檢測(cè) 方法在檢測(cè)傾斜、彎曲文本的時(shí)候效果會(huì)很差。第三,語(yǔ)種多樣性。比如,拉丁 語(yǔ)擁有幾十種字符,而像漢語(yǔ)、日語(yǔ)等語(yǔ)種擁有成千上萬(wàn)種字符;阿拉伯語(yǔ)通常 存在粘連字符,等等。綜上,場(chǎng)景文木檢測(cè)和識(shí)別有著巨大的應(yīng)用價(jià)值。同時(shí),由于該任務(wù)面臨很 大的挑戰(zhàn),所以又有著相當(dāng)大的研究?jī)r(jià)值和研究空間。一般來(lái)說(shuō),關(guān)于自然場(chǎng)景圖像文本的研究主要集中在場(chǎng)景文本的檢測(cè)和識(shí)別 這兩個(gè)方而,本文的研究工作則主要側(cè)重于文本檢測(cè)這一方而。1.2國(guó)內(nèi)外研究現(xiàn)狀近年來(lái),越來(lái)越多的

23、高校和科研機(jī)構(gòu)都參加到了場(chǎng)景文木檢測(cè)領(lǐng)域的研究中 來(lái)。在國(guó)內(nèi),如中科院大學(xué),北京科技大學(xué),華中科技大學(xué)等高校,百度IDL, 騰訊優(yōu)圖,三星研究院等研究機(jī)構(gòu);在國(guó)外,如牛津大學(xué),康奈爾大學(xué)等高校, 谷歌,MSRA等研究機(jī)構(gòu)等,均有長(zhǎng)期從事場(chǎng)景文本檢測(cè)方面研究的人員,也不 斷有新的方法被提出。類似于計(jì)算機(jī)視覺領(lǐng)域的其他任務(wù),場(chǎng)景文本檢測(cè)要解決的一個(gè)核心問題是 “表征”(representation)。簡(jiǎn)單來(lái)講,表征”是指通過(guò)怎樣的方式、方法來(lái) 對(duì)自然場(chǎng)景圖像中的文本和非文本(背景)進(jìn)行描述和建模。也就是通過(guò)找到場(chǎng) 景圖像中文本區(qū)域和非文本區(qū)域的特征,將圖像中的這兩種區(qū)域區(qū)分開來(lái),從而 達(dá)到將文木檢

24、測(cè)出來(lái)的目的。這里按照對(duì)文本特征的建模方式,將場(chǎng)景文本檢測(cè)的方法分為兩類:采用人 工設(shè)計(jì)特征的傳統(tǒng)方法和采用深度網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)特征的基于深度學(xué)習(xí)的方法。1.2.1傳統(tǒng)方法在傳統(tǒng)方法中,文本的特征基本上是人工設(shè)計(jì)的。檢測(cè)算法依照這些設(shè)計(jì)好 的特征,將場(chǎng)景圖像中符合這些特征的區(qū)域認(rèn)為是文本區(qū)域,從而與非文本區(qū)域 區(qū)分開來(lái)。下面按照人工設(shè)計(jì)特征的不同種類分別介紹相關(guān)的研究工作:(1) 顏色特征:該特征基于假設(shè)圖像中的文本擁有連續(xù)且可與背景形成 對(duì)比的顏色。相關(guān)的方法例如:將顏色特征結(jié)合聚類方法得到連通體利用一 些特殊顏色空間如HSV空間,HLS空間9中的顏色特征,等等。(2) 邊緣/梯度特征:該特征基

25、于假設(shè)一一文本與背景之間存在較強(qiáng)的梯度變 化。該特征常與一些分類器比如人工神經(jīng)網(wǎng)絡(luò)】4、AdaBoost等結(jié)合使用,來(lái)做 基于滑動(dòng)窗(sliding window)的文木檢測(cè)。(3) 紋理特征:圖像中的文本較為密集時(shí),文本可以被視為一種紋理(texture) 場(chǎng)景文本檢測(cè)中常見的紋理特征包括傅立葉變換,離散余弦變換,小波變換 ,HOG特征等。紋理特征也經(jīng)常用于結(jié)合分類器和多尺度滑動(dòng)窗做文本檢 測(cè)。(4) 筆畫特征:利用該特征的一個(gè)典型方法是筆畫寬度變換法(stroke width transformation, SWT) l20J,該方法通過(guò)一種圖像算子將輸入圖像轉(zhuǎn)化為一張?zhí)卣?圖,該特征圖表

26、示原圖中每個(gè)像素最有可能被包含的筆畫的寬度。該方法具有同 時(shí)期方法中較為出色的表現(xiàn),之后被廣泛引用和改進(jìn)也。(5) 區(qū)域特征:最具有代表性的是最大穩(wěn)定極值區(qū)域(Maximally Stable Extremal Regions, MSER),由于其較高的有效性,在近年來(lái)的場(chǎng)景文本檢測(cè)工 作中被廣引用”,24,25。它充分利用了場(chǎng)景圖像中,文本區(qū)域通常與背景存在顯著 的色彩對(duì)比,并且趨于形成一種穩(wěn)定的、同質(zhì)的色彩區(qū)域這一普遍現(xiàn)象。1.2.2基于深度學(xué)習(xí)的方法在自然場(chǎng)景圖像中,文木和背景均有很大的多樣性和復(fù)雜性,僅僅利用上述 的一種或幾種人工設(shè)計(jì)特征進(jìn)行場(chǎng)景文本檢測(cè),魯棒性往往并不理想。近年來(lái)隨

27、著深度學(xué)習(xí)的復(fù)興,尤其自2012年起,深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)在圖像識(shí) 別、冃標(biāo)檢測(cè)等計(jì)算機(jī)視覺任務(wù)上開始取得巨大成功MJ這很大程度上得益于深 度網(wǎng)絡(luò)強(qiáng)大的特征學(xué)習(xí)能力。與人工設(shè)計(jì)特征相比,深度網(wǎng)絡(luò)在大規(guī)模數(shù)據(jù)集上 自動(dòng)學(xué)習(xí)到的特征往往具有更高的判別力和魯棒性。在場(chǎng)景文本檢測(cè)領(lǐng)域,越來(lái) 越多基于深度學(xué)習(xí)尤其是基于DCNN的方法被提出。這一部分主要介紹基于深度網(wǎng)絡(luò)的場(chǎng)景文本檢測(cè)的工作。在這之前首先介紹 基于DCNN的通用冃標(biāo)檢測(cè)研究現(xiàn)狀。R-CNN27是利用DCNN進(jìn)行通用冃標(biāo)檢 測(cè)的一項(xiàng)開創(chuàng)性工作:先提取圖像中目標(biāo)的候選區(qū)域(objectproposal) I2S,然后 用CNN模型逐一地

28、對(duì)這些候選區(qū)域進(jìn)行分類。該方法的準(zhǔn)確率在當(dāng)時(shí)達(dá)到領(lǐng)先 水平,但缺點(diǎn)是非常耗時(shí)。FastR-CNNl29在RCNN的基礎(chǔ)上進(jìn)行改進(jìn),通過(guò)共 享特征圖(feature map)的方式大大提高了整個(gè)框架的速度。此后,F(xiàn)aster R-CNN1301 引入了區(qū)域候選捉取網(wǎng)絡(luò)(Region Proposal Network, RPN),將 object proposal 環(huán) 節(jié)整合到CNN中,進(jìn)一步提高了整個(gè)框架的速度。YOLO】則將冃標(biāo)檢測(cè)作為 一個(gè)回歸問題來(lái)處理:將整張圖像作為輸入,在CNN最高層feature map 直接 預(yù)測(cè)冃標(biāo)的包圍盒和對(duì)應(yīng)的分類置信度。該框架達(dá)到了很快的檢測(cè)速度,但在一 定

29、程度上犧牲了準(zhǔn)確率。SSD32則結(jié)合了 Faster R-CNN和YOLO各自的優(yōu)點(diǎn), 直接在CNN多個(gè)不同的feature map上分別形成若干錨盒”(anchor box) l29J, 然后對(duì)每個(gè)anchor box進(jìn)行分類和位置、形狀回歸。該框架在具有較快速度的同 時(shí)也保留了相當(dāng)?shù)臏?zhǔn)確率。受通用目標(biāo)檢測(cè)領(lǐng)域研究的啟發(fā),近期有很多基于DCNN的場(chǎng)景文本檢測(cè) 方法提出,并逐漸成為該領(lǐng)域的主流。Zhang等人提出了一個(gè)基于全卷積神經(jīng) 網(wǎng)絡(luò)(fully convolutional network, FCN)的檢測(cè)框架,由兩個(gè)FCN構(gòu)成,一個(gè) 用于預(yù)測(cè)文本的顯著性圖(saliency map),結(jié)

30、合MSER來(lái)預(yù)測(cè)圖像中的文木行 區(qū)域;另一個(gè)FCN用于預(yù)測(cè)圖像中每個(gè)字符的中心以排除錯(cuò)誤正例。Zhong等 人提出的方法基于FasterR-CNN,他們將RPN改進(jìn)為Inception-RPN,采用多個(gè) 尺寸的卷積核共同預(yù)測(cè)文本候選區(qū)域,用來(lái)解決文本形狀、寬高比具有多樣性的 問題cMa等人El提出了一個(gè)用于檢測(cè)多方向場(chǎng)景文本的方法,基于Faster R-CNN, 他們將RPN部分進(jìn)行改進(jìn),使它可以提取傾斜的、帶角度的文本候選區(qū)域,然 后通過(guò)興趣區(qū)域池化(Rolpooling)得到的特征對(duì)每個(gè)候選區(qū)域進(jìn)行分類和包圍 盒回歸。Jiang等人E利用RPN提取軸對(duì)齊文本proposal,結(jié)合不同尺寸的

31、Rol Pooling來(lái)提取區(qū)域特征,通過(guò)多任務(wù)損失使網(wǎng)絡(luò)可以同時(shí)學(xué)習(xí)對(duì)proposal進(jìn)行 分類,將其回歸成軸對(duì)齊矩形框和帶方向矩形框這三種任務(wù),使該方法適用于檢 測(cè)多方向文本。Liao等人卩提出的場(chǎng)景文本檢測(cè)框架TextBoxes則基于SSD,文 本檢測(cè)在CNN的多個(gè)feature map上同時(shí)進(jìn)行,先在這些feature map的每個(gè)位 置上產(chǎn)生一組缺省盒(default box),然后通過(guò)卷積層直接對(duì)每個(gè)default box進(jìn) 行分類和包圍盒回歸;該方法還對(duì)SSD進(jìn)行了若干針對(duì)于場(chǎng)景文本檢測(cè)的改進(jìn)。 工作37提出的方法同樣基于SSD,作者將default box設(shè)計(jì)成不規(guī)則四邊形,使

32、 該方法適合檢測(cè)多方向的文本。在工作38中,文本檢測(cè)同樣是在CNN的多個(gè) feature map上進(jìn)行,不同的是,文本檢測(cè)不是基于default box機(jī)制,而是在feature map的每個(gè)位置上,通過(guò)卷積層嵐接對(duì)該位置進(jìn)行文木置信度打分,以及預(yù)測(cè)該 位置與其所在的文本四邊形每一條邊的距離。最近,Shi等人39提出的方法將文 本檢測(cè)分解為兩部分即segments和links,前者是多方向的包圍盒,包含著一個(gè) 單詞或是一個(gè)文本行的一部分,后者是兩個(gè)segment之間的關(guān)系,表示兩個(gè) segment之間是否屬于同一個(gè)單詞或文本行。該框架將輸入圖像的segments和 links同時(shí)預(yù)測(cè)出來(lái),經(jīng)過(guò)

33、后處理得到最終的檢測(cè)結(jié)果。除了借鑒通用物體檢測(cè)領(lǐng)域的思想,將場(chǎng)景文本檢測(cè)視為一種特殊的物體檢 測(cè)之外,在一些工作中,還引入了在機(jī)器翻譯等領(lǐng)域獲得成功的“注意力機(jī)制(attention mechanism) ”來(lái)解決場(chǎng)景文本檢測(cè)問題。在40中,通過(guò)訓(xùn)練一個(gè)空 間變換網(wǎng)絡(luò)(spatial transformer network, STN)作為注意力機(jī)制,用產(chǎn)生的采 樣網(wǎng)格來(lái)定位場(chǎng)景圖像中的文本區(qū)域。在42中,注意力機(jī)制由一個(gè)循環(huán)神經(jīng)網(wǎng) 絡(luò)(recuiTent neural network, RNN)來(lái)實(shí)現(xiàn),在 RNN 的每一個(gè)時(shí)間步(time step) 上,都會(huì)產(chǎn)生一個(gè)注意力區(qū)域,表示當(dāng)前時(shí)間需

34、要關(guān)注輸入圖像中的某個(gè)區(qū)域, 即字符區(qū)域,該機(jī)制可以處理不規(guī)則、彎曲排列的文本。在當(dāng)前的自然場(chǎng)景文本檢測(cè)研究領(lǐng)域,基于深度學(xué)習(xí)的方法已經(jīng)代替了基于 人工設(shè)計(jì)特征的方法,成為該領(lǐng)域的主流。目前該領(lǐng)域所面臨的的主要問題有:(1) 多方向,彎曲的以及不規(guī)則排列的場(chǎng)景文本檢測(cè)較為困難。(2) 多尺度文本,尤其是小文本的檢測(cè)性能有待提升。(3) 大多數(shù)檢測(cè)方法需要依靠大量人工標(biāo)注文本位置的場(chǎng)景文本圖像數(shù)據(jù)集, 不依賴昂貴標(biāo)注的弱監(jiān)督檢測(cè)方法較少有人研究。(4) 大部分研究目前集中于拉丁文檢測(cè),而針對(duì)諸如漢語(yǔ)、口語(yǔ)、阿拉伯語(yǔ) 等語(yǔ)種的文本檢測(cè)檢測(cè)研究則相對(duì)較少,面臨的挑戰(zhàn)也更大。1.3主要工作和貢獻(xiàn)本文的

35、主要工作是基于深度卷積神經(jīng)網(wǎng)絡(luò)來(lái)研究場(chǎng)景文本檢測(cè)問題,提出相 關(guān)算法??傮w來(lái)說(shuō),本文工作包括兩部分:(1) 針對(duì)多尺度場(chǎng)景文本檢測(cè)尤其是小文木檢測(cè),提出一個(gè)基于特征金字塔 的場(chǎng)景文本檢測(cè)框架。該工作的主要貢獻(xiàn)包括:提出了一個(gè)基于CNN的新的檢 測(cè)框架,可以用于檢測(cè)自然場(chǎng)景圖像中多種尺度的文本,且可以端到端訓(xùn)練;特 征金字塔機(jī)制首次被應(yīng)用到場(chǎng)景文本檢測(cè)中來(lái),通過(guò)自頂向下的特征融合方法, CNN中不同層次的特征被充分結(jié)合起來(lái),使得到的特征既擁有較強(qiáng)的判別力, 又保留了較多圖像中的局部特征,文本檢測(cè)則在這些新特征上進(jìn)行。該框架在 ICDAR20I3 數(shù)據(jù)集上達(dá)到了 87.6%的 F-scoreo(2

36、) 嘗試提出一種基于弱監(jiān)督的用于場(chǎng)景圖像中文本proposal的方法。該工 作的主要貢獻(xiàn)包括:首次將弱監(jiān)督方法應(yīng)用到場(chǎng)景文本檢測(cè)中來(lái),利用通過(guò)弱監(jiān) 督訓(xùn)練得到的CNN模型來(lái)產(chǎn)生場(chǎng)景圖像中可能存在文本的區(qū)域;改進(jìn)Zhou等 人提出的模型,引入空間金字塔池化來(lái)提升模型的效果;利用CNN中多個(gè)不 同層的特征共同產(chǎn)生文本注意力區(qū)域使模型達(dá)到更好的效果;模型可以接收任意 大小的輸入圖像尺寸,提高了模型對(duì)于場(chǎng)景文木的尺度不變性。作為一種弱監(jiān)督 方法,該方法在ICDAR2013和ICDAR2015兩個(gè)數(shù)據(jù)集上達(dá)到了較高的proposal 召回率,達(dá)到了與一些監(jiān)督方法相當(dāng)?shù)男Ч?.4論文結(jié)構(gòu)安排第一章,緒論

37、。簡(jiǎn)要介紹本文所做工作的背景與意義。然后,總結(jié)國(guó)內(nèi)外相 關(guān)研究現(xiàn)狀,介紹本文工作的內(nèi)容和貢獻(xiàn)。最后歸納研究?jī)?nèi)容與文章組織和安排。第二章,目標(biāo)檢測(cè)技術(shù)基礎(chǔ)。木文關(guān)于場(chǎng)景文本檢測(cè)的研究大部分建立在通 用冃標(biāo)檢測(cè)的工作基礎(chǔ)之上,因此這一章對(duì)通用冃標(biāo)檢測(cè)領(lǐng)域一些較為重要的方 法進(jìn)行回顧和介紹,并對(duì)它們與場(chǎng)景文木檢測(cè)方法的關(guān)系進(jìn)行反思。第三章,基于特征金字塔的場(chǎng)景文本檢測(cè)。這一章對(duì)我們提出的基于特征金 字塔的場(chǎng)景文木檢測(cè)框架進(jìn)行詳細(xì)介紹,其中包括框架結(jié)構(gòu),其中的技術(shù)細(xì)節(jié), 以及在ICDAR2013數(shù)據(jù)集上進(jìn)行的多組實(shí)驗(yàn)等。第四章,基于弱監(jiān)督的場(chǎng)景文本注意力網(wǎng)絡(luò)。這一章對(duì)我們提出的基于弱監(jiān) 督的場(chǎng)景文本候

38、選提取方法進(jìn)行詳細(xì)介紹,主要包括基于弱監(jiān)督的場(chǎng)景文本注意 力網(wǎng)絡(luò)的結(jié)構(gòu)、技術(shù)細(xì)節(jié)。還介紹了該方法在ICDAR2013和ICDAR2015數(shù)據(jù) 集上進(jìn)行的多組相關(guān)實(shí)驗(yàn)。最后,結(jié)論??偨Y(jié)本文在自然場(chǎng)景文本檢測(cè)工作上的貢獻(xiàn)以及創(chuàng)新點(diǎn),并指 出當(dāng)前工作的局限性,同時(shí)對(duì)該研究領(lǐng)域下一步的發(fā)展方向進(jìn)行展望。5第2章目標(biāo)檢測(cè)技術(shù)基礎(chǔ)第2章目標(biāo)檢測(cè)技術(shù)基礎(chǔ)如第一章所述,借鑒通用目標(biāo)檢測(cè)領(lǐng)域的思想和方法,將場(chǎng)景圖像中的文木 視為一種特殊類型的冃標(biāo)來(lái)進(jìn)行檢測(cè),是當(dāng)前場(chǎng)景文本檢測(cè)領(lǐng)域的一種重要思路。 而木文在場(chǎng)景文木檢測(cè)方面的工作也大部分建立在通用目標(biāo)檢測(cè)技術(shù)的基礎(chǔ)之 上。因此作為技術(shù)基礎(chǔ),本章將對(duì)通用冃標(biāo)檢測(cè)中較

39、為重要的兩套方法一一R- CNN系列方法以及SSD進(jìn)行回顧和介紹,這兩套方法所采用的目標(biāo)檢測(cè)思路和 其中的技術(shù)細(xì)節(jié)對(duì)文本方法的設(shè)計(jì)具有重要意義。2.1 RCNN系列方法作為通用物體檢測(cè)領(lǐng)域的開創(chuàng)性方法之一,R-CNN (Region-basedCNN)系 列方法27,29,30自提出后就被不斷地引用、改進(jìn)并應(yīng)用于各種計(jì)算機(jī)視覺任務(wù)上。 按照提出的先后順序,該系列包括R-CNN, Fast R-CNN和Faster R-CNN三種。 這一節(jié)將對(duì)這三種方法做一個(gè)回顧和介紹。2.1.1候選目標(biāo)區(qū)域提取所謂冃標(biāo)候選區(qū)域提取,即object proposal (以下簡(jiǎn)稱為proposal),是以一 張圖

40、片作為輸入,輸出一定數(shù)量的矩形包圍盒,對(duì)應(yīng)著輸入圖像中的一個(gè)個(gè)區(qū)域, 代表待檢測(cè)目標(biāo)可能出現(xiàn)的區(qū)域,即“候選”目標(biāo)區(qū)域。目標(biāo)檢測(cè)任務(wù)的一個(gè)基本假設(shè)是,一張圖像包含兩種成分,一種是“前景” 即日標(biāo)區(qū)域,另一種是“背景”即非目標(biāo)區(qū)域。顯然,目標(biāo)的種類可以有多種, 以PASCAL VOC剛目標(biāo)檢測(cè)數(shù)據(jù)集為例,圖像中岀現(xiàn)的目標(biāo)包括20種,如人、 火車、狗等類別;同時(shí),背景也可能有很多類,如天空、道路、海洋等。但對(duì)于 proposal來(lái)說(shuō),其任務(wù)僅是將圖像中所有可能為目標(biāo)的區(qū)域找出,而不區(qū)分這些 區(qū)域具體屬于哪一種子類,同樣,排除掉的是所有可能為背景的區(qū)域,但不區(qū)分 這些區(qū)域屈于哪一類背景。一般把pro

41、posal的這種特性稱為“類未知(class- agnostic)-的,即算法本身僅能大致區(qū)分目標(biāo)與背景這兩大類,對(duì)于這兩大類各 自包含什么子類則是不知道的。也將產(chǎn)生的候選區(qū)域稱為“感興趣區(qū)域(region of interest, Rol)。另外,proposal方法得到的候選區(qū)域一般只能較為粗糙地定 位到冃標(biāo)上,且往往仍含有非冃標(biāo)區(qū)域,因此需要在后而的階段對(duì)這些候選區(qū)域 進(jìn)行進(jìn)一步的處理。在R-CNN系列方法中,進(jìn)行proposal的冃的是盡可能在該階段排除輸入圖 像中的非目標(biāo)區(qū)域,引導(dǎo)CNN模型去注意含有目標(biāo)的區(qū)域,使整個(gè)檢測(cè)框架的9北京工業(yè)大學(xué)工程碩士專業(yè)學(xué)位論文訓(xùn)練、推理更有效率。2

42、.1.2R-CNN圖2-1展示了 R-CNN冃標(biāo)檢測(cè)流程的主體,可分為如下幾步:Proposal.對(duì)于一張輸入圖像,R-CNN采用Selective Search1451方法進(jìn)行 proposal,產(chǎn)生若干候選區(qū)域/? = 盡,心,心。(2) 候選區(qū)域縮放。將所有R岸R都縮放為固定尺寸得到R = K , R?,R” (3) CNN特征提取。將每個(gè)R,: g R輸入一個(gè)CNN模型計(jì)算特征,每個(gè)斤得 到一個(gè)特征向量。(4) 候選區(qū)域分類。對(duì)每個(gè)特征向量,將其分別輸入K (目標(biāo)類別總數(shù))個(gè) 支持向量機(jī)(support vector machine, SVM)中,每個(gè)SVM負(fù)責(zé)判斷當(dāng)前候選區(qū) 域是否屬

43、于某一特定的類。這一步結(jié)束后,得到原始圖像所有的目標(biāo)區(qū)域 )= Di, 2,,A,D 二 R。(5) 包圍盒回歸。將每個(gè)DwD對(duì)應(yīng)在CNN模型pool5層的特征輸入一個(gè)線 性模型46進(jìn)行包圍盒回歸,得到修正后的冃標(biāo)區(qū)域D = D;,DS(6) 去除冗余檢測(cè)結(jié)果。對(duì)于D,逐類別進(jìn)行非極大值抑制,去除冗余的區(qū) 域,得到最終的檢測(cè)結(jié)果??s放后的 候選區(qū)域1.輸入圖像2.候選目標(biāo)區(qū)域 提取(約兩干個(gè))3. CNN提取特征4候選區(qū)域分類圖 2-1 R-CNNFigure 2-1 R-CNN2.1.3 Fast R-CNNFast R-CNN在R-CNN的基礎(chǔ)上做了一系列改進(jìn),圖2-2展示了該框架的0 標(biāo)

44、檢測(cè)流程:(1) Proposal.與R-CNN相同,對(duì)于輸入圖像產(chǎn)主若干感興趣區(qū)域(Rol) R = K , R?,Rm (2) CNN特征提取。將圖像輸入CNN模型,得到整個(gè)圖像在CNN最后一個(gè) 卷積層上的特征巧。(3) 計(jì)算Rol的特征向量。將R*R投影到Ff上,得到該Rol對(duì)應(yīng)的卷積特 征F&.,將你.通過(guò)感興趣區(qū)域池化(RoIPooling)得到池化后的特征,再將該特 征經(jīng)過(guò)若干全連接層得到當(dāng)前Rol的特征向量厶o(4) 預(yù)測(cè)。將fR輸入兩個(gè)網(wǎng)絡(luò)分支,一個(gè)進(jìn)行分類,另一個(gè)進(jìn)行包圍盒回歸。 得到所有的檢測(cè)結(jié)果D = 0,2,2。(5) 去除冗余。同R-CNN,通過(guò)非極大值抑制去除D中的

45、冗余結(jié)果,得到最 終的檢測(cè)結(jié)果。softmmx令半句,馬1倉(cāng)冋1閂圖 2-2 Fast R-CNNFigure 2-2 Fast R-CNNFast R-CNN做出的主要改進(jìn)包括:(1) 降低Rol區(qū)域特征的計(jì)算量。不必每個(gè)Rol都輸入CNN做一遍前向傳 播才能得到對(duì)應(yīng)特征,而是先用CNN計(jì)算好整張輸入圖片的卷積特征,每個(gè)Rol 的特征只需在該卷積特征上進(jìn)行投影就能得到,相當(dāng)于共享了一張圖片中所有 Rol的特征計(jì)算。(2) 引入Rol Pooling,不同尺寸的Rol可以不通過(guò)縮放大小就能得到相同維 度的特征向量。(3) 將特征提取,Rol分類,Rol包圍盒回歸三個(gè)模塊整合到同一個(gè)網(wǎng)絡(luò)中, 通

46、過(guò)設(shè)置多任務(wù)損失同時(shí)進(jìn)行優(yōu)化。不必像RCNN中分開訓(xùn)練這三部分,無(wú)需北京工業(yè)大學(xué)工程碩士專業(yè)學(xué)位論E將中間特征存儲(chǔ)到硬盤上(R-CNN中用存儲(chǔ)的特征來(lái)訓(xùn)練SVM) o上述改進(jìn)使整個(gè)檢測(cè)框架的訓(xùn)練、測(cè)試過(guò)程更加簡(jiǎn)潔、高效了。下而對(duì)Fast R-CNN中的兩個(gè)重要部分進(jìn)行介紹。(1) RoI Pooling.這種池化方式的作用是,將任意大小的Rol投影到卷積feature map上的區(qū)域特征都轉(zhuǎn)化為一個(gè)尺寸為HxW的小feature map,其中H和 W均為超參數(shù)。具體做法是:對(duì)于卷積feature map F 一個(gè)的矩形Rol區(qū) 域,將該區(qū)域劃分為HxW個(gè)尺寸為(h/H)x(w/W)的矩形格子,

47、然后在每個(gè)格 子中進(jìn)行最大池化得到對(duì)應(yīng)特征值(池化在每個(gè)通道單獨(dú)進(jìn)行)。這樣,假設(shè)F 通道數(shù)為C ,通過(guò)Rol Pooling可以將該feature map上任意大小的Rol轉(zhuǎn)化為一 個(gè)HxWxC的小feature map可將F送入全連接層進(jìn)行后續(xù)處理。(2) 多任務(wù)損失。Fast R-CNN中將Rol的分類和包圍盒回歸通過(guò)網(wǎng)絡(luò)末端的 兩個(gè)分支實(shí)現(xiàn),并且這兩個(gè)分支在訓(xùn)練中通過(guò)一個(gè)多任務(wù)損失同時(shí)進(jìn)行學(xué)習(xí)。假 設(shè)每個(gè)Rol對(duì)應(yīng)的類別標(biāo)簽(ground-truth)為u ,對(duì)應(yīng)的包圍盒標(biāo)簽為#,那么 對(duì)于每個(gè)Rol都有一個(gè)多任務(wù)損失厶,如公式(21)所示。L(p, u, f, v)二 L&(p, u

48、) + au 1 LIoe(t v)(2-1)其中Lelsu) = -ogpl(為分類損失,卩為分類預(yù)測(cè)輸出,采用了正確類的 對(duì)數(shù)損失。S為包圍盒回歸損失。嚴(yán)=(斗,龍)為對(duì)正確類的包圍盒預(yù)測(cè)輸出,各 個(gè)元素的定義見公式(22),其中為預(yù)測(cè)的包圍盒中心點(diǎn)坐標(biāo)和 寬、高,(迅h,臚)為Rol的中心點(diǎn)坐標(biāo)以及寬、高??梢?,包圍盒回歸分 支輸出的并不是包圍盒真實(shí)的坐標(biāo)和寬高,而是它們的一個(gè)變換,這樣做是為了 使冋歸過(guò)程對(duì)尺寸和位置具有不變性。同樣,標(biāo)簽v = (vv,vv,vHv/?)也經(jīng)過(guò)了同樣 的變換,見公式(2-3),其中(x*, y , w*,/? )為ground-truth包圍盒的中心點(diǎn)

49、坐標(biāo) 和寬、高。氐的定義見公式(2-4),其中對(duì)每個(gè)預(yù)測(cè)值都采用smooth-Ll損失, 其定義見公式(2-5) o相比于R-CNN的包圍盒回歸中采用的L2損失,smooth- Ll 損失的好處在于它對(duì)離群值的敏感性更低,可以更好地防止梯度爆炸。u為指示函數(shù),當(dāng)“ni時(shí)其值為1否則為0.也就是說(shuō),當(dāng)Rol被判定 為背景時(shí),忽略其回歸損失。兄為平衡因子,是一個(gè)超參數(shù),用于控制分類損失 和回歸損失的平衡。Fast R-CNN這種損失函數(shù)的設(shè)計(jì),在通用物體檢測(cè)領(lǐng)域后來(lái)的工作中被廣io第2章目標(biāo)檢測(cè)技術(shù)基礎(chǔ)17(2-2)(2-3)(2-4)(2-5)泛應(yīng)用,在本文提出的場(chǎng)景文本檢測(cè)模型中也使用了這種損

50、失函數(shù)。V十一尢打/屛,vvz: = log(),vvVx=(X-XR)/wR9vv=(Z-/)/A*Vv 二 bg(),wvh = og 法)Sc(廣宀)= 工伽a% -氣.)f 0.5/,ifxsmooth.= I x| -0.5, otherwise2.1.4 Faster R-CNN在Fast R-CNN中,整個(gè)框架的速度瓶頸出現(xiàn)在目標(biāo)proposal環(huán)節(jié)。盡管像 Selective Search宙,EdgeBoxes這些技術(shù)已經(jīng)盡可能地利用圖像中的低級(jí)特征 進(jìn)行低成本的計(jì)算,但在Fast R-CNN中,利用它們進(jìn)行proposal仍然占用了整 個(gè)框架大部分的計(jì)算時(shí)間。Faster R

51、-CNN引入的最重要的改進(jìn)就是將proposal環(huán)節(jié)整合到CNN中,讓 proposal環(huán)節(jié)與檢測(cè)網(wǎng)絡(luò)共享計(jì)算,也就是用深度網(wǎng)絡(luò)來(lái)進(jìn)行proposal,這個(gè)用 于 proposal 網(wǎng)絡(luò)被命名為 RPN (Region Proposal Networks)。整個(gè)Faster R-CNN框架由兩個(gè)部分構(gòu)成,一個(gè)是用于proposal的深度全卷 積網(wǎng)絡(luò)即RPN,另一個(gè)是利用RPN產(chǎn)牛的Rol進(jìn)行目標(biāo)檢測(cè)的檢測(cè)網(wǎng)絡(luò)。圖2 3描述了 Faster R-CNN的工作流程。輸入圖像通過(guò)CNN計(jì)算出整個(gè)圖像的卷積 feature map, RPN 在該 feature map 上進(jìn)行 proposal,產(chǎn)生

52、若干 Rol;這些 Rol 輸 入檢測(cè)網(wǎng)絡(luò),經(jīng)過(guò)Rol Pooling得到特征,進(jìn)而進(jìn)行分類和包圍盒回歸,得到最 終檢測(cè)結(jié)果??梢姡琑PN與檢測(cè)網(wǎng)絡(luò)共享了特征提取的計(jì)算。下面對(duì)RPN進(jìn)行詳細(xì)介紹:候選區(qū)域輸入圖像feature maps圖 2-3 Faster R-CNNFigure 2-3 Faster R-CNNRPN的輸入是一張任意大小的圖像,輸出是若干proposal矩形包圍盒,每個(gè) 包圍盒帶有一個(gè)包含目標(biāo)的分?jǐn)?shù)。首先,圖像輸入特征提取網(wǎng)絡(luò)(如VGG16的 所有卷積層)計(jì)算特征;在最后一個(gè)卷積層得到的feature map ,滑動(dòng)一個(gè)幾xn 的滑動(dòng)窗;滑動(dòng)窗每到一個(gè)位置,都會(huì)將該區(qū)域的

53、feature map映射到一個(gè)低維 的特征向量將/輸入兩個(gè)分支,一個(gè)進(jìn)行分類,一個(gè)進(jìn)行包圍盒回歸?;瑒?dòng) 窗到達(dá)的每個(gè)位置,都會(huì)同時(shí)預(yù)測(cè)k個(gè)proposal,因此分類分支在該位置會(huì)輸出 2R個(gè)分?jǐn)?shù),對(duì)應(yīng)每個(gè)proposal 于冃標(biāo)區(qū)域或背景區(qū)域的分?jǐn)?shù),回歸分支輸出 4k個(gè)值,對(duì)應(yīng)每個(gè)proposal的坐標(biāo)。RPN預(yù)測(cè)proposal基于錨盒(anchorbox)機(jī)制:在每個(gè)滑動(dòng)窗的位置, 會(huì)以滑動(dòng)窗的中心點(diǎn)為中心,在輸入圖像的對(duì)應(yīng)位置上產(chǎn)生個(gè)預(yù)先設(shè)計(jì)好的不 同尺寸、寬高比的矩形包圍盒,即anchor boxo若輸入feature map尺寸為HxW , 則在原圖上共有丹肱個(gè)anchor box

54、 o而上述分類、回歸分支的作用是根據(jù)特征向 量/,判斷每個(gè)anchor box是否屬于目標(biāo)區(qū)域,并H調(diào)整其位置、形狀。圖24 描述了 RPN的這一過(guò)程(圖中以/1 = 3, = 4為例)。在實(shí)現(xiàn)上,兀xn的滑動(dòng)窗由一個(gè)2的卷積層來(lái)實(shí)現(xiàn),輸出結(jié)果包含每個(gè)位 置得到的分類、回歸分支則分別由兩個(gè)1x1的卷積層來(lái)實(shí)現(xiàn)(每個(gè)滑動(dòng)窗位 置共享參數(shù))。損失函數(shù)方面,RPN這兩個(gè)預(yù)測(cè)分支采用和Fast R-CNN中相同 的損失函數(shù)(公式(2-1),其中包圍盒回歸輸岀的編碼方式也與Fast R-CNN 相同(公式(2-2) ,(2-3) ) o2kg類疑婦4k個(gè)回歸值原圖上的kanchor box低維特征向屋圖

55、 2-4 Faster R-CNN 中的 RPNFigure 2-4 RPN in Faster R-CNN2.2 SSDRCNN系列方法的基本流程可概括為三步:(l)Proposal得到若干Rol, (2)計(jì) 算Rol特征,(3)利用特征對(duì)Rol進(jìn)行分類、包圍盒回歸。該流稈在檢測(cè)精度上達(dá) 到了領(lǐng)先的水平,但在檢測(cè)速度則上不能達(dá)到實(shí)時(shí)處理的要求。而SSD (Single Shot MultiBox Detector)詞中提出的一系列改進(jìn)使目標(biāo)檢測(cè)框架的速度達(dá)到了較 高水平而又不至于像YOLO為了速度而犧牲檢測(cè)精度,這些使SSD成為了目 標(biāo)檢測(cè)領(lǐng)域又一個(gè)經(jīng)典的框架。SSD中最重要的思想是去除了

56、R-CNN系列方法中的第和第步,即不需 要產(chǎn)生Rol和提取Rol特征,而是通過(guò)一個(gè)CNN的一次前向傳播就能夠輸出冃 標(biāo)檢測(cè)結(jié)果,這也是其名字中single shot”的來(lái)源。圖2-5描述了 SSD的檢測(cè)流程。一張圖片輸入CNN計(jì)算特征,CNN中K 個(gè)不同層的feature map (圖中以K = 4為例)會(huì)與檢測(cè)模塊相連。每個(gè)檢測(cè)模塊 會(huì)根據(jù)其輸入的feature map進(jìn)行冃標(biāo)檢測(cè)并輸出檢測(cè)結(jié)果,來(lái)自不同檢測(cè)模塊 的檢測(cè)結(jié)果被匯總到一起,經(jīng)過(guò)非極大值抑制得到最終的檢測(cè)結(jié)果。SSD每個(gè)檢測(cè)模塊的輸入是網(wǎng)絡(luò)中某一卷積層的feature map,輸出是若T包 圍盒,毎個(gè)包圍盒對(duì)應(yīng)著c個(gè)分類分?jǐn)?shù)(c

57、為目標(biāo)總類別數(shù))。檢測(cè)模塊的工作 機(jī)制與Faster R-CNN中的RPN相似:斤的滑動(dòng)窗在feature map 滑動(dòng),每個(gè) 滑動(dòng)窗的位置都在原圖上關(guān)聯(lián)著k個(gè)預(yù)先定義好的不同形狀的包圍盒,SSD中稱 為缺省盒(default box);在滑動(dòng)窗的每個(gè)位置,對(duì)該位置關(guān)聯(lián)的所有default box 進(jìn)行c類分類、包圍盒回歸。其中,分類由X/2卷積層實(shí)現(xiàn),輸出通道數(shù)為伙, 后接softmax;回歸由/lx總卷積層實(shí)現(xiàn),輸出通道數(shù)為4R。Figure 2-5 Detection pipeline of SSD與R-CNN系列方法只在CNN最高層feature map上進(jìn)行檢測(cè)不同,SSD在 CNN中多個(gè)不同層的feature map上

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論