文稿成果講稿_第1頁
文稿成果講稿_第2頁
文稿成果講稿_第3頁
文稿成果講稿_第4頁
文稿成果講稿_第5頁
已閱讀5頁,還剩64頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

法 品法EDUCATIONTOCREATEABRIGHT本課件包括演示文稿、示例、代碼、題庫、和聲音等內(nèi)容,北風(fēng)網(wǎng)和講師擁有完全知識;只限于善意學(xué)習(xí)者在本課程使用,不得在課程范圍外向任何第散播。任何其他人或者機(jī)構(gòu)不得盜版、、仿造其中的創(chuàng)意和 課 咨目標(biāo)檢

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT認(rèn)真聽,善摘錄,勤思多溫故,樂實踐,再發(fā)不懶散惰性, 早不請 ,不拖延作“四不原則”,不包就業(yè)和推薦就

品EDUCATIONTOCREATEABRIGHT 品 EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT深度學(xué)習(xí)目標(biāo)檢測:RCNN,F(xiàn)astRCNNFasterRCNN

品EDUCATIONTOCREATEABRIGHT這一步是為了對目標(biāo)進(jìn)行定位。傳統(tǒng)方法是采用窮舉策略。由于目標(biāo)可能在上的任意位置,而且大小不定,因此使用滑動窗口用的特征有SIFT(尺度不變特征變換,Scale-invariantfeaturetransform)和HOG(方向梯度直方圖特征,HistogramofOrientedGradient)等。

品EDUCATIONTOCREATEABRIGHT針對滑動窗口問題,regionproposal(候選區(qū)域)是預(yù)先找出圖中目標(biāo)可 口固定長寬比)。比較常用的regionproposal算法有selectivesearch和edgeboxes。針對特征選取,卷積神經(jīng)網(wǎng)絡(luò)(convolutionneuralnetwork:CNN)的特征比傳統(tǒng)手工特征效果更好。因此在2014年,RBG(RossB.Girshick)使用Region

品EDUCATIONTOCREATEABRIGHT針對滑動窗口問題,regionproposal(候選區(qū)域)是預(yù)先找出圖中目標(biāo)可 口固定長寬比)。比較常用的regionproposal算法有selectivesearch和edgeboxes。針對特征選取,卷積神經(jīng)網(wǎng)絡(luò)(convolutionneuralnetwork:CNN)的特征比傳統(tǒng)手工特征效果更好。因此在2014年,RBG(RossB.Girshick)使用Region

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT這里介紹的比較簡單,RCNN使用SelectiveSearch算法提取圖像中的候選區(qū)域(因為 較晚,直接應(yīng)用的FasterRCNN,就沒有關(guān)注SelectiveSearch算法,這里也就不介紹了)RCNN的檢測流程

品EDUCATIONTOCREATEABRIGHT1.3SVM

品EDUCATIONTOCREATEABRIGHT 訓(xùn)練與測試階應(yīng)用測試階

品EDUCATIONTOCREATEABRIGHT)propoal與一個分值比它大的propoaloU(ctionovrn,即相交面積比這兩個propoalpropoal。作者對測試階段的時間進(jìn)行了分析,認(rèn)為RCNN的優(yōu)勢在于:(1)CNN中共享網(wǎng)絡(luò)參數(shù)(CNN身特性);(2)CNN提取后的特征維度較低(相比之前的方法),計算更快訓(xùn)練與測試階

品EDUCATIONTOCREATEABRIGHT作者首先 上進(jìn)行 N的預(yù)訓(xùn)練,由于VOC2012中訓(xùn)練數(shù)據(jù)較(相對而言),所以使用ImageNet預(yù)訓(xùn)練然后再finetuneIoU0.5的proposal看作正類(20類之一),其他的全部看作背景類。在訓(xùn)練

品EDUCATIONTOCREATEABRIGHT在訓(xùn)練MsIoU低于.的proposal設(shè)置為natve樣postivgrounttM分類器,由于訓(xùn)練圖像過多,同時為了保證訓(xùn)練的效果,所ardnativeminngardnativeminng被識別錯誤的負(fù)樣本作為訓(xùn)練集)in-tnngIoMSVM分類器訓(xùn)練

品EDUCATIONTOCREATEABRIGHT確定位)第二個原因在于SVM訓(xùn)練時采用的hardnegative 節(jié)可以提升效果(他們也是這么做的,F(xiàn)astRCNN中他們改變了loss函數(shù))。

品EDUCATIONTOCREATEABRIGHTRegression的處理。Bounding-boxRegression訓(xùn)練的過程中,輸入數(shù)據(jù)為N個

品EDUCATIONTOCREATEABRIGHT作者設(shè)計了四種坐標(biāo)映射方 ,其中前兩個表示對proposal中心坐標(biāo)尺度不變的平移變換,后面兩個則是對popoa的wh和heght的對數(shù)空間的變換,文章中的映射方式為:其

,進(jìn)行線性其

品EDUCATIONTOCREATEABRIGHT這是一個典型的最小二乘問題最終在進(jìn)行實驗時,mbda=1000,同時作者發(fā)現(xiàn)同一對中P和G相距過遠(yuǎn)時通過上面的變換是不,對于擇是選擇離P較近的G進(jìn)行配對,這里表示較近的方法是需要P和一個G的最大的oU要大于0.6P。

品EDUCATIONTOCREATEABRIGHT 飛機(jī)。如果我們能對紅色的框進(jìn)行微調(diào),使得經(jīng)過微調(diào)后的窗口跟GroundTruth更接近,這樣豈不是定位會更準(zhǔn)確。確實,Bounding-boxregression就是用來微調(diào)這個窗口的。

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT只有當(dāng)Propoal和Ground比較接近時(線性問題),我們才能將其作為訓(xùn)練樣本訓(xùn)練wor(Propoal)。

品EDUCATIONTOCREATEABRIGHT線性回歸就是給定輸入的特征向量X, 組參數(shù)W,使得經(jīng)過線性回歸后的值跟真實Y(GroundTruth)非常接近。即。那么Bounding-box中我們的輸入以及輸出分別是什輸入:輸入就是這四個數(shù)值嗎?其實真正的輸入是這個窗口對應(yīng)的CNN特征,也就 N中Pool5feature(特征向量)。(注:訓(xùn)練階段輸入還包括GroundTruth,也就是下邊提輸出:需要進(jìn)行的平移變換和尺度縮放,或者說是。我們的最終輸出不應(yīng)該是GroundTruth嗎?是的,但是有了這四個變換我們就可以直接得到GroundTruth,這里還有個問題,根據(jù)上面4個公

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT主要貢獻(xiàn)在于對N進(jìn)行加速,快是 寨版的奧運(yùn)-更快、更準(zhǔn)、更魯棒),問題在以下方面得到改進(jìn):1賣點1-借鑒SPP思路,提出簡化版的ROI池化層(注意,沒用金字塔),同時加入了候選框映射功能,使得網(wǎng)絡(luò)能夠反向,解決了SPP的整體網(wǎng)絡(luò)訓(xùn)練問2賣點2Loss

品EDUCATIONTOCREATEABRIGHT N框架圖對比,可以發(fā)現(xiàn)主要有兩處不同

品EDUCATIONTOCREATEABRIGHT一是最后一個卷積層后加了一個ROIpoolinglayer,ROIpoolinglayer實際上是SPP-NET的一精簡二是損失函數(shù)使用了多任務(wù)損失函數(shù)(multi-taskloss),將邊框回歸直接加入到CNN網(wǎng)絡(luò)中訓(xùn)練。N訓(xùn)練過程分為了三個階段,而 N直接使用softmax替代SVM分類,同時利用多中的(rnpropoal提取階)。t 在網(wǎng)絡(luò)微調(diào)的過程,將部分卷積層也進(jìn)行了微,取得了更好的檢測效果。t 了 和P-ET的精數(shù)練和測試變得十分方便。缺點:regionproposal的提取使用selectivesearch,目標(biāo)檢測時間大多消耗在這上面(提proposal2~3s,而提特征分類只需 實時應(yīng)用,而且并沒有實現(xiàn)真正意義上端到端訓(xùn)練測試(regionproposal使用selectivesearch先提取處來)

品EDUCATIONTOCREATEABRIGHT N一樣,只是regionproposal現(xiàn)在是用RPN網(wǎng)絡(luò)提取的(代替原來的selectivesearch)。RPN的 產(chǎn)生regionproposal,使用的方法本質(zhì)上就是滑動窗口。RPN的設(shè)計比較巧妙,度多長寬比的regionproposal。作者為了讓RPN的網(wǎng)絡(luò)和Fast 2、使用(1)中RPN網(wǎng)絡(luò)提取regionproposal訓(xùn)練Fast

品EDUCATIONTOCREATEABRIGHT 的目標(biāo)檢測,預(yù)先獲取regionproposal,然后在對每個proposal分總的來說,從N,SPP-NET,FastN,FasterN一路走 的N系列目標(biāo)檢

品EDUCATIONTOCREATEABRIGHT對于提取候選框最常用的lctivearc方法,提取一副圖像大概需2的時間,改進(jìn)的Edg算法將效率提高到了0.2,但是這還不夠。候選框提取不一定要在原圖上做,特征圖上以量設(shè)的 等提出PN(RegionProposalNetwork),完美解決了這個問題,我們先來看一下網(wǎng)絡(luò)拓?fù)?/p>

品EDUCATIONTOCREATEABRIGHT RP網(wǎng)絡(luò)特點在于通過滑動窗的方式實現(xiàn)候選框的提取每個滑動窗口位置生成9候選窗口(不同尺度、不同寬高),提取對應(yīng)9個候選窗口(anch)的特征,用于目標(biāo)分類和邊框回歸,與 類似。目標(biāo)分類只需要區(qū)分候選框內(nèi)特征為前景或者背景。邊框回歸確定更精確的目標(biāo)位置,基本網(wǎng)絡(luò)結(jié)構(gòu)如下圖所訓(xùn)練過程中,涉及到的候選框選取,選取依據(jù)丟 邊界的與樣 區(qū)域大于0.7的anchor標(biāo)記為前景 區(qū)域小于0.3的標(biāo)定為背景

品EDUCATIONTOCREATEABRIGHT對于每一個位置,通過兩個全連接層(目標(biāo)分類+邊框回歸)對每個候選框(anco)斷,并且結(jié)合概率值進(jìn)行舍棄僅保留約300anch從模型訓(xùn)練的角度來看,通過使用共享特征交替訓(xùn)練的方式,達(dá)到接近實時的性能,交替練方式描述為根據(jù)現(xiàn)有網(wǎng)絡(luò)初始化權(quán)值w,訓(xùn)練用RPN提取訓(xùn)練集上的候選區(qū)域,用候選區(qū)域訓(xùn) N,更新權(quán)值重復(fù)1、2,直到收斂

品EDUCATIONTOCREATEABRIGHT SSD:SingleShotMultiBox

品EDUCATIONTOCREATEABRIGHT目標(biāo)檢測近年來已經(jīng)取得了很重要的進(jìn)展,主流的算法主要分為兩個類型(參考two-tag方法,如 系算法,其主要思路是先通過啟發(fā)式方法(ectiverch)C網(wǎng)絡(luò)(RP)產(chǎn)生一系列稀疏的候選,然后對這些候選框進(jìn)行分類與回歸,two-tage高;2on-tag如SS在 置進(jìn)行密集抽樣,抽樣時可以采用不同尺度和長寬,然后利用C提取特征后直接進(jìn)行分類與整個過程只需要一所以其優(yōu)勢是速度但是均勻的密集采樣的一個重要缺點是訓(xùn)練較 ,這主要是因為正樣本與負(fù)樣本(背)極其不均衡(參見calLos)導(dǎo)致模型準(zhǔn)確度不同算法的性能如1示在的異。

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHTSingleshot指明了SSD算法屬于one-stage方法,MultiBox指明了SSD是多框預(yù) 先驗框(Priorboxes,Defaultboxes,在Faster

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT設(shè)計理 一樣都是采用一 N網(wǎng)絡(luò)來進(jìn)行檢測,但是卻采用了多尺度的特征圖,其基本架構(gòu)圖3所示。下面將 設(shè)計理念總結(jié)為以下三點

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT與Yolo最后采用全連接層不同,SSD直接采用卷積對不同的特征圖來進(jìn)行提取檢測結(jié)果。對于形m*n*p特征圖,只需要采3*3*p樣比較小的卷積核得到檢測值 的理念,每個單元設(shè)置尺度或者長寬比不同的先驗框,預(yù)測的邊界框(boundingboxes)是以這度和長寬比存在差異,如圖5所示,可以看到每個單元使用了4個不同的先驗框,中貓和狗分別

品EDUCATIONTOCREATEABRIGHTSS將背景也當(dāng)做了一個特殊的類別,如果檢測目標(biāo)共有c個類別,SS其實需要預(yù)測c+1個置信度值,其中第一個置信度指的是不含目標(biāo)cc-1cation4c,cy,w,)

品EDUCATIONTOCREATEABRIGHT框的預(yù)測值l實是b對于d轉(zhuǎn)換習(xí)慣上,我們稱上面這個過程為邊界框的編碼(encode),預(yù)測時,你需要反向這個過即進(jìn) (decode),從預(yù)測值l中得到邊界框的真實位置b

品EDUCATIONTOCREATEABRIGHT要手動設(shè)置超參數(shù)variance,用來對l的4個值進(jìn)行放縮,此時邊界框需要這樣:綜上所述,對于一個大小m*n特征圖,共有mn單元,每個單元設(shè)置的先驗框數(shù)目記為k那么每個單元共需c+4)k預(yù)測值,所有的單元共需要c+4)kmn預(yù)測值,由于SSD采用卷積做檢測,所以就需要(c+4)k個卷積核完成這個特征圖的檢測過程。

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHTSSD采用VGG16作為基礎(chǔ)模型,然后在VGG16的基礎(chǔ)上新增了卷積層來獲得的特征圖以用了多尺度的特征圖做檢測。模型的輸入大小是300*300。SSD采用VGG16做基礎(chǔ)模型,首先VGG16是在ILSVRCCLS-LOC數(shù)據(jù)集預(yù)訓(xùn)練。將VGG16連接層fc6和fc7轉(zhuǎn)換成3*3卷積層conv6和1*1卷積層conv7,同時將池化層pool5由原來的變(recov6采用擴(kuò)展卷積或帶孔卷積(DtonConv),其在不增加參數(shù)與模型復(fù)雜度的條件下指數(shù)級(diatnrate)參數(shù),來表示擴(kuò)張的大小,如下圖6,(a的3333,(177,(c)3野擴(kuò)大為15*15但是視野的特征更稀疏了。Conv6采用3*3大小但dilationrate=6的擴(kuò)展卷積然后移除dropout層和fc8層,并新增一系列卷積層,在檢測數(shù)據(jù)集上做finetuing

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT其中VGG16中的Conv4_3層將作為用于檢測的第一個特征圖。conv4_3層特征圖大小是38*38,但是該層比較靠前,其norm較大,所以在其后面增加了一個L2Normalization層(參見ParseNet),以保證和后面的檢測層差異不是很大,這個和BatchNormalization層不太一樣,其僅僅是對每個像素點在channle維度做歸一化,而BatchNormalization層是在[batch_sizewidthheight]三個維度上做歸一化。歸一化后一般設(shè)置#l2norm(notbacthnorm,spatialdefl2norm(x,scale,trainable=True,n_channels=x.get_shape().as_list()[-l2_norm=tf.nn.l2_normalize(x,[3],epsilon=1e-withgamma=tf.get_variable("gamma",shape=[n_channels,],returnl2_norm*

品EDUCATIONTOCREATEABRIGHT圖,加上Conv4_3層,共提取了6個特征圖,其大小分別是(38,38),(19,19),(10,10),(5,5),(3,3),(1,1m5,因為第一層(Conv4_3層)s_k的比例,而s_min和s_max表示比例的最小值與最大值,paper里面取0.2和0.9其先驗框的尺度比例一般設(shè)置為s_min/2=0.1,那么尺度為300*0.1=30。對于后面的特征圖,先驗框尺度 征圖的s_k為20,37,54,71,88,將這些比例除以100,然后再乘以大小,可以得到各個特征圖的尺度60,111162,213,264SSD的Caffe 驗框的寬度與高度(后面的s_k

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT得到了特征圖之后,需要對特征圖進(jìn)行卷積得到檢測結(jié)果,圖75*5用一次3*3卷積來進(jìn)行完成。令n_k為該特征圖所采用的先驗框數(shù)目,那么類別置信度需要的卷積核數(shù)量為n_k*c,而邊界框位置需要的卷積核數(shù)量為n_k*4。由于每個先驗框都會預(yù)測一個邊界框,所以

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT 中的groundtruth(真實目標(biāo))與哪個先驗框來進(jìn)行匹配,與之匹配先驗框所對應(yīng)的邊界框?qū)⒇?fù)責(zé)預(yù)測它。在Yolo中,groundtruth的中心落在哪個單元格,該單元格中與其IOU 中每個groundtruth,找到與其IOU最大的先驗框,該先驗框與其匹配,這樣,可以保證每個groundtruth一定與某個先驗框匹配。通常稱與groundtruth匹配的先驗框為正樣本,反之,若一個先驗框沒有與任何groundtruth進(jìn)行匹配,那么該先驗框只能與背景匹配,就是負(fù)樣本。一個中g(shù)roundtruth是非常少的,而先驗框卻很多,如果僅按第一個原則匹配,很多先驗框會是負(fù)樣本,正負(fù)樣本極其不平衡,所以需要第二個原則。第二個原則是:對于剩余的未匹配先驗框,若某個groundtruth的\text{IOU}大于某個閾值(一般是0.5),那么該先驗框也與這個groundtruth進(jìn)行匹配。這意味著某個groundtruth可能與多

品EDUCATIONTOCREATEABRIGHT但是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論