




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
語義分割及應(yīng)用人工智能技術(shù)基礎(chǔ)及應(yīng)用12024/2/17.1語義分割的基本概念7.1.1語義分割任務(wù)描述語義分割結(jié)合了圖像分類、目標(biāo)檢測和圖像分割,通過一定的方法將圖像分割成具有一定語義含義的區(qū)域塊,并識別出每個區(qū)域塊的語義類別,實(shí)現(xiàn)從底層到高層的語義推理過程,最終得到一幅具有逐像素語義標(biāo)注的分割圖像。人工智能技術(shù)基礎(chǔ)及應(yīng)用22024/2/17.1語義分割的基本概念語義分割的輸入與輸出語義分割的輸入圖像一般為具備h×w×3的維度的RGB彩色圖像,或者具備h×w×1維度的灰度圖像,分割后的輸出是一個h×w×1維由整數(shù)類別標(biāo)號組成的矩陣,語義分割的輸出與原圖像對應(yīng)關(guān)系如下圖所示:人工智能技術(shù)基礎(chǔ)及應(yīng)用32024/2/17.1語義分割的基本概念獨(dú)熱編碼語義分割中一般采用獨(dú)熱編碼(One-Hot)對類別進(jìn)行標(biāo)號,每個類別擁有一個編碼通道,如右圖所示。人工智能技術(shù)基礎(chǔ)及應(yīng)用42024/2/17.1語義分割的基本概念圖像的分割預(yù)測可以使用argmax函數(shù)對每個像素操作形成分割圖,把分割圖覆蓋到與原圖像上,每個類別通道將形成一個遮掩(mask)疊加后加亮相應(yīng)類別區(qū)域人工智能技術(shù)基礎(chǔ)及應(yīng)用52024/2/17.1語義分割的基本概念實(shí)例分割和全景分割實(shí)例分割將語義分割向前推進(jìn)了一步,將其與目標(biāo)檢測結(jié)合,旨在將多個對象與單個類區(qū)分開來。相對目標(biāo)檢測的邊界框,實(shí)例分割可精確到物體的邊緣;相對語義分割,實(shí)例分割需要標(biāo)注出圖上同一物體的不同個體。全景分割是語義分割和實(shí)例分割的結(jié)合,與實(shí)例分割不同的是:實(shí)例分割只對圖像中有標(biāo)簽的類別進(jìn)行檢測,并對檢測到的物體進(jìn)行分割,而全景分割是對圖中的所有物體包括背景都要進(jìn)行檢測和分割人工智能技術(shù)基礎(chǔ)及應(yīng)用62024/2/17.1語義分割的基本概念a原圖像b語義分割c實(shí)例分割d全景分割人工智能技術(shù)基礎(chǔ)及應(yīng)用72024/2/17.1語義分割的基本概念7.1.2
上采樣在圖像分割中,模型需要產(chǎn)生全分辨率的語義預(yù)測,所以,語義分割的常用方法是一種編碼器/解碼器結(jié)構(gòu),我們通過編碼器對輸入的空間分辨率進(jìn)行下采樣,形成低分辨率的特征映射,此時類別之間具有更高效的區(qū)分度;通過解碼器將特征表達(dá)進(jìn)行上采樣,還原到全尺寸的分割圖中,使得網(wǎng)絡(luò)能夠進(jìn)行像素級別的輸出人工智能技術(shù)基礎(chǔ)及應(yīng)用82024/2/17.1語義分割的基本概念與對特征圖進(jìn)行下采樣的池化和跨步幅卷積操作對應(yīng),上采樣的實(shí)現(xiàn)主要依賴于反池化和轉(zhuǎn)置卷積,此外,有些較早的網(wǎng)絡(luò)中使用的則是插值法實(shí)現(xiàn)上采樣。人工智能技術(shù)基礎(chǔ)及應(yīng)用92024/2/17.1語義分割的基本概念插值法(1)最近鄰插值(NearestNeighbor)人工智能技術(shù)基礎(chǔ)及應(yīng)用102024/2/1(2)雙線性插值與對特征圖進(jìn)行下采樣的池化和跨步幅卷積操作對應(yīng),上采樣的實(shí)現(xiàn)主要依賴于反池化和轉(zhuǎn)置卷積,此外,有些較早的網(wǎng)絡(luò)中使用的則是插值法實(shí)現(xiàn)上采樣。7.1語義分割的基本概念1)最近鄰插值最近鄰插值法(NearestNeighborInterpolation)又稱零階插值,將目標(biāo)圖像按照縮放系數(shù)縮放到原圖像的大小,找到待插值點(diǎn)縮放后在原圖像中的位置,取原圖像中與這個位置最近點(diǎn)的值賦值給待插值點(diǎn),最近鄰不需要計算只需要尋找,所以速度最快,但是新圖像局部破壞了原圖的漸變關(guān)系。人工智能技術(shù)基礎(chǔ)及應(yīng)用112024/2/17.1語義分割的基本概念2)雙線性插值雙線性插值是最近鄰插值的改進(jìn),將目標(biāo)圖像按照縮放系數(shù)縮放到原圖像大小,計算待插值點(diǎn)在縮放后的位置,使用離該位置最近的四個點(diǎn)依次對x,y兩個方向進(jìn)行插值。人工智能技術(shù)基礎(chǔ)及應(yīng)用122024/2/17.1語義分割的基本概念反池化“反池化”(Unpooling)操作使用單一值來填充局部區(qū)域來擴(kuò)充輸出的寬高,池化主要有最大池化和平均池化,其反池化也對應(yīng)地有反平均池化和反最大池化。反平均池化的操作比較簡單,首先還原成原來的大小,然后將池化結(jié)果中的每個值都填入其對應(yīng)于原始數(shù)據(jù)區(qū)域中的相應(yīng)位置即可。反最大池化會復(fù)雜一些。要求在池化過程中記錄最大激活值的坐標(biāo)位置,然后在反池化時,只把池化過程中最大激活值所在位置坐標(biāo)的值激活,其他的值置為零。人工智能技術(shù)基礎(chǔ)及應(yīng)用132024/2/17.1語義分割的基本概念轉(zhuǎn)置卷積如果想讓上采樣像卷積一樣從數(shù)據(jù)中學(xué)習(xí)得到更好的效果,需要使用轉(zhuǎn)置卷積,右圖為雙三次線性插值與使用轉(zhuǎn)置卷積的超分辨率網(wǎng)絡(luò)效果對比人工智能技術(shù)基礎(chǔ)及應(yīng)用142024/2/17.1語義分割的基本概念回顧經(jīng)典卷積中輸出特征圖與輸入特征圖的尺寸關(guān)系如下:其中o為輸出特征圖尺寸,i為輸入特征圖尺寸,p為填充,s為步幅,k為卷積核尺寸。人工智能技術(shù)基礎(chǔ)及應(yīng)用152024/2/17.1語義分割的基本概念首先考慮轉(zhuǎn)置卷積步幅s’為1,沒有填充(p’=0)時的情況,此時在實(shí)際卷積計算中,在輸入特征圖周圍添加p=(k-1)填充,作為新的輸入特征圖,在新的的輸入特征圖上,進(jìn)行實(shí)際卷積計算,計算出輸出特征圖。人工智能技術(shù)基礎(chǔ)及應(yīng)用162024/2/17.1語義分割的基本概念轉(zhuǎn)置卷積填充為p’時,實(shí)際卷積計算中輸入特征圖的填充p=(k-1-p’),以輸入特征圖尺寸為4x4,轉(zhuǎn)置卷積填充為1時為例,。此時經(jīng)過卷積計算,輸出特征圖尺寸為4x4,可以發(fā)現(xiàn)存在填充的輸出特征圖,恰是沒有填充的輸出特征圖向內(nèi)裁剪1層,而中心4x4的局部特征不變,所以使用填充時,代表轉(zhuǎn)置卷積不關(guān)心輸出特征圖外層,而更關(guān)注中心特征。人工智能技術(shù)基礎(chǔ)及應(yīng)用172024/2/17.1語義分割的基本概念轉(zhuǎn)置卷積的步幅s’!=1時,將輸入特征圖中相鄰行列之間插入(s’-1)全零行/列,此時新的輸入特征圖尺寸為o+(s-1)(o-1)。轉(zhuǎn)置卷積步幅為s’時,卷積運(yùn)算中卷積核需要多滑動(s’-1)次,每次滑動在原始輸入特征圖上的距離變短人工智能技術(shù)基礎(chǔ)及應(yīng)用182024/2/17.1語義分割的基本概念如上所述填充在經(jīng)典卷積中,使用填充時輸入特征圖向外補(bǔ)零,使得輸出特征圖尺寸增大,提高對邊緣特征關(guān)注度;在轉(zhuǎn)置卷積中,使用填充時輸出特征圖向內(nèi)裁剪,使得輸出特征圖尺寸減小。步幅
在經(jīng)典卷積中,步幅增大卷積核在原始輸入特征圖上每次滑動的距離變長,使得輸出特征圖尺寸變??;在轉(zhuǎn)置卷積中,步幅增大卷積核在原始輸入特征圖上每次滑動的距離變短,使得輸出特征圖尺寸變大。人工智能技術(shù)基礎(chǔ)及應(yīng)用192024/2/17.1語義分割的基本概念(3)右下方額外填充調(diào)整轉(zhuǎn)置卷積的填充和步幅可以調(diào)節(jié)輸出特征圖的大小,但是僅憑這兩個參數(shù)無法任意調(diào)整期望的輸出特征尺寸。在根據(jù)填充,步幅對轉(zhuǎn)置卷積的輸入特征矩陣操作后,再在下方和右邊添加a行/列零,其中a滿足即經(jīng)典卷積中輸出特征圖與輸入特征圖的尺寸關(guān)系在沒有向下取整情況下的表達(dá)式人工智能技術(shù)基礎(chǔ)及應(yīng)用202024/2/17.1語義分割的基本概念至此,轉(zhuǎn)置卷積的計算過程已經(jīng)明確,通過設(shè)定轉(zhuǎn)置卷積的填充、步幅和在右邊下方的額外填充,可以將經(jīng)典卷積的輸出特征圖還原到其輸入特征圖的尺寸。人工智能技術(shù)基礎(chǔ)及應(yīng)用212024/2/17.1語義分割的基本概念7.1.3
膨脹卷積多層深度卷積網(wǎng)絡(luò)之所以能夠提取更抽象的圖像特征,是因?yàn)樵诰矸e層深度增加的過程中,位于更深處特征圖上的元素在原始輸入圖像上擁有更大的感受野人工智能技術(shù)基礎(chǔ)及應(yīng)用222024/2/17.1語義分割的基本概念膨脹卷積與普通的卷積相比,除卷積核的大小以外,還有一個用來表示擴(kuò)張的大小的擴(kuò)張率(DilationRate)參數(shù)。在經(jīng)典卷積操作中,卷積核的尺寸等于感受野的大小,在膨脹卷積中,卷積核的各行列中被插入一定數(shù)量的空行,使得卷積核的作用范圍擴(kuò)大,以獲得更大的感受野。因?yàn)榕蛎浘矸e的操作類似于在卷積核上插入空洞,所以膨脹卷積也被稱為空洞卷積(AtrousConvolution)卷積核尺寸為k、擴(kuò)張率為d時,感受野尺寸k’為人工智能技術(shù)基礎(chǔ)及應(yīng)用232024/2/17.1語義分割的基本概念用感受野尺寸代替卷積核尺寸代入卷積公式得到膨脹卷積中輸入輸出特征圖尺寸關(guān)系:為使輸入特征圖與輸出特征圖尺寸相同,需要計算出合適的填充。以輸入特征圖尺寸為5×5、卷積核尺寸為3×3,步幅為1,擴(kuò)張率為1時為例,由上式可以計算出需要的填充為2,計算過程如圖所示,此時感受野大小為5×5。人工智能技術(shù)基礎(chǔ)及應(yīng)用242024/2/17.1語義分割的基本概念7.1.4
常用損失函數(shù)1.交叉熵圖像分割最常用的損失函數(shù)是像素級交叉熵?fù)p失,它對每個像素的類別預(yù)測向量與獨(dú)熱編碼的目標(biāo)向量進(jìn)行對比驗(yàn)證人工智能技術(shù)基礎(chǔ)及應(yīng)用252024/2/17.1語義分割的基本概念交叉熵的損失函數(shù)單獨(dú)評估每個像素矢量的類預(yù)測,然后對所有像素求平均值,可以認(rèn)為圖像中的像素被平等的學(xué)習(xí)了。但是,圖像分割中存在類別不均衡(ClassImbalance)的問題,由此導(dǎo)致訓(xùn)練會被像素較多的類主導(dǎo),對于較小的物體很難學(xué)習(xí)到其特征,從而降低網(wǎng)絡(luò)的有效性。其中,M表示類別數(shù),yc是一個獨(dú)熱編碼向量,元素只有0和1兩種取值,如果該類別和樣本的類別相同就取1,否則取0,至于pc示預(yù)測樣本屬于的概率,M取2時稱為二值交叉熵?fù)p失函數(shù)。人工智能技術(shù)基礎(chǔ)及應(yīng)用262024/2/17.1語義分割的基本概念2.加權(quán)交叉熵由于交叉熵是對圖片中所有的像素進(jìn)行求平均,這對于類別不均衡的圖片會受到主導(dǎo)類別的影響導(dǎo)致訓(xùn)練效果變差,通過每個輸出通道的損失值進(jìn)行權(quán)重調(diào)整來抵消數(shù)據(jù)集中的類別不均衡問題。其中Wc的計算公式為:,N表示總的像素個數(shù),而Nc表示類別為c的像素個數(shù)。人工智能技術(shù)基礎(chǔ)及應(yīng)用272024/2/17.1語義分割的基本概念3.骰子損失骰子系數(shù)是對兩個樣本重疊的度量,其取值范圍為0-1之間,1代表完全重疊。其表達(dá)式如下其中表示集合X和集合Y的共有元素,代表集合A中的元素個數(shù),代表集合B中的元素個數(shù),分子上存在系數(shù)2是因?yàn)榉帜钢兄貜?fù)計算了X和Y,求得的s的范圍在[0,1]之間。人工智能技術(shù)基礎(chǔ)及應(yīng)用282024/2/17.1語義分割的基本概念
人工智能技術(shù)基礎(chǔ)及應(yīng)用292024/2/17.1語義分割的基本概念1)像素精度PA像素精度PA(PixelAccuracy)表示正確分類的像素點(diǎn)個數(shù)和像素點(diǎn)總數(shù)的比值。人工智能技術(shù)基礎(chǔ)及應(yīng)用302024/2/12)均像素精度MPA均像素精度MPA(MeanPixelAccuracy)分別計算每一類的像素精度PA,然后求均值7.1語義分割的基本概念3)平均交并比MIoU平均交并比MIoU(MeanIntersectionoverUnion)求出每一類的交并比,取平均值。在語義分割任務(wù)中,交并比指的是圖像真值與預(yù)測值相交的部分/兩個部分的并集。權(quán)頻交并比FWIoU(FrequencyWeightIntersectionoverUnion)求出每一類的交并比,并依據(jù)類別出現(xiàn)頻率求加權(quán)均值。人工智能技術(shù)基礎(chǔ)及應(yīng)用312024/2/17.2語義分割網(wǎng)絡(luò)7.2.1
FCN全卷積網(wǎng)絡(luò)FCN使用全卷積網(wǎng)絡(luò)實(shí)現(xiàn)了像素級別端到端的圖像分割,展開了深度學(xué)習(xí)在圖像語義分割任務(wù)上的開創(chuàng)性工作。作者在已有圖像分類網(wǎng)絡(luò)(如VGG-16、AlexNet、GoogLeNet)的基礎(chǔ)上,把最后的分類網(wǎng)絡(luò)層去掉,把全連接層轉(zhuǎn)換為卷積層實(shí)現(xiàn)。如對于PASCALVOC數(shù)據(jù)集中的20個目標(biāo)類別和一個背景類別,擴(kuò)展了21通道的1×1卷積進(jìn)行預(yù)測,隨后用反卷積層(DeconvolutionLayer)對粗糙輸出進(jìn)行雙線性上采樣,形成像素密集輸出。人工智能技術(shù)基礎(chǔ)及應(yīng)用322024/2/17.2語義分割網(wǎng)絡(luò)在卷積神經(jīng)網(wǎng)絡(luò)用于分類時,要求得到圖片屬于各個類別的概率信息,所以在卷積層提取特征圖后,一般會加入一些全連接層,這樣在Softmax后可以獲得表示圖片分屬類別概率的一維向量,而語義分割任務(wù)的目標(biāo)是獲取每個像素點(diǎn)的類別概率信息,所以全連接層不適合語義分割。FCN提出將卷積神經(jīng)網(wǎng)絡(luò)中的全連接層替換為卷積層,以維持特征圖的二維信息,后接Softmax獲取每個像素點(diǎn)的分類信息,實(shí)現(xiàn)像素級分類任務(wù)人工智能技術(shù)基礎(chǔ)及應(yīng)用332024/2/17.2語義分割網(wǎng)絡(luò)較深的卷積層擁有較大的感知域,能夠更加抽象的深層特征,這些抽象特征對物體的大小、位置等敏感度更低,雖然有助于分類性能的提高,但語義分割任務(wù)需要確定物體的輪廓,在原圖中對應(yīng),所以仍需要含有物體大小、位置的淺層特征。FCN基于這種思想,采用了漸進(jìn)上采樣策略,在網(wǎng)絡(luò)層“跳躍連接”。對深層特征圖上采樣后,將上采樣的輸出特征圖與和它對應(yīng)的淺層特征圖相加。人工智能技術(shù)基礎(chǔ)及應(yīng)用342024/2/17.2語義分割網(wǎng)絡(luò)對于FCN-32s,直接對pool5特征進(jìn)行32倍上采樣,獲得與原圖像相同尺寸的特征圖,論文中稱為熱圖(Heatmap),再通過Softmax獲得每個像素點(diǎn)的輸出。對于FCN-16s,首先對pool5特征進(jìn)行2倍上采樣,獲得與pool4特征尺寸相同的中間特征,然后將其與pool4特征逐點(diǎn)相加,然后對相加后的特征圖進(jìn)行16倍上采樣,獲得與原圖像相同尺寸的特征圖,再通過Softmax獲得每個像素點(diǎn)的輸出。對于FCN-8s,采取與FCN-16s相似的上采樣及拼接模式。人工智能技術(shù)基礎(chǔ)及應(yīng)用352024/2/17.2語義分割網(wǎng)絡(luò)分割效果FCN-32s<FCN-16s<FCN-8s,得出結(jié)論:使用多層特征融合有利于精確重建分割邊界的形狀,提高語義分割的準(zhǔn)確性,事實(shí)上,使用更多的跳躍連接能夠恢復(fù)更好的細(xì)節(jié)。但是作者也提到將更深層的pool1和pool2的特征進(jìn)行跳躍連接時,對于最終結(jié)果收效甚微,所以實(shí)際應(yīng)用中一般使用FCN8s。人工智能技術(shù)基礎(chǔ)及應(yīng)用362024/2/17.2語義分割網(wǎng)絡(luò)7.2.2U-Net架構(gòu)U-Net架構(gòu)包含兩個對稱的路徑,編碼路徑實(shí)現(xiàn)了語義特征的捕獲,其對稱的解碼路徑實(shí)現(xiàn)了精確的定位人工智能技術(shù)基礎(chǔ)及應(yīng)用372024/2/17.2語義分割網(wǎng)絡(luò)U-Net網(wǎng)絡(luò)結(jié)構(gòu)U-Net使用編碼器-解碼器結(jié)構(gòu),稱為收縮路徑(ContractingPath)和擴(kuò)張路徑(ExpansivePath)。其中收縮路徑用于抽取多通道局部特征,擴(kuò)張路徑用于精確定位,兩條路徑幾乎完全對稱。收縮路徑(ContractingPath)位于U-Net網(wǎng)絡(luò)的的左側(cè)部分,對圖像使用經(jīng)典卷積和最大池化實(shí)現(xiàn)降采樣操作。具體由4個塊組成,每個塊使用了2個卷積層和1個最大池化層,每次降采樣之后特征圖通道數(shù)翻倍、尺寸減半。最終得到尺寸為32×32的中間特征圖。人工智能技術(shù)基礎(chǔ)及應(yīng)用382024/2/17.2語義分割網(wǎng)絡(luò)擴(kuò)張路徑擴(kuò)張路徑(ExpansivePath)位于U-Net網(wǎng)絡(luò)的右側(cè)部分使用轉(zhuǎn)置卷積上采樣并與收縮路徑的淺層特征進(jìn)行融合。擴(kuò)張路徑同樣由4個塊組成,除最后一層外,每個塊開始之前通過轉(zhuǎn)置卷積將特征圖尺寸翻倍、通道數(shù)減半,然后與壓縮路徑中對稱的特征圖合并,由于左側(cè)壓縮路徑和右側(cè)擴(kuò)展路徑的特征圖的尺寸不一樣,U-Net通過將壓縮路徑的特征圖裁剪到和擴(kuò)展路徑相同尺寸,即圖7-23中左側(cè)虛線部分)。擴(kuò)展路徑的卷積操作使用的是經(jīng)典卷積操作,最終得到的特征圖的尺寸是
388×388。人工智能技術(shù)基礎(chǔ)及應(yīng)用392024/2/17.2語義分割網(wǎng)絡(luò)7.2.3DeepLab系列網(wǎng)絡(luò)特征提取DeeplabV1與FCN有許多相似之處,兩者都使用VGG作為主干網(wǎng)絡(luò),但FCN網(wǎng)絡(luò)的32倍下采樣要求輸入圖像的分辨率不能過低Deeplab將VGG網(wǎng)絡(luò)的pool4和pool5層的步幅由原來的2改為1,再加上值為1的填充,使得VGG網(wǎng)絡(luò)總步幅由原來的32變成8,進(jìn)而使得在輸入圖像尺寸為514×514時,最后一層卷積輸出67×67的特征圖,要比FCN提取的特征要密集很多。但這樣做其實(shí)也存在一定的問題,步幅改變以后,如果想繼續(xù)使用VGG預(yù)訓(xùn)練模型,會導(dǎo)致感受野發(fā)生變化。由此引入本章7.1.3節(jié)介紹的的膨脹卷積,使用膨脹卷積替換部分經(jīng)典卷積層,使得感受野不發(fā)生變化人工智能技術(shù)基礎(chǔ)及應(yīng)用402024/2/17.2語義分割網(wǎng)絡(luò)上層:基于經(jīng)典卷積的圖像稀疏特征提取低分辨率輸入特征映射下層:密集特征提取,采用膨脹率為2的膨脹卷積,應(yīng)用于高分辨率輸入特征圖人工智能技術(shù)基礎(chǔ)及應(yīng)用412024/2/17.2語義分割網(wǎng)絡(luò)全連接CRF在使用膨脹卷積后,DeepLabV1卷積層輸出的特征圖是對原圖像8倍下采樣,DeepLabV1使用的上采樣方法為本章7.1.2節(jié)中介紹的雙線性插值法,后面連接一個全連接條件隨機(jī)場(Fully-ConnectedConditionalRandomFields)對分割邊界進(jìn)行優(yōu)化。人工智能技術(shù)基礎(chǔ)及應(yīng)用422024/2/17.2語義分割網(wǎng)絡(luò)模型實(shí)現(xiàn)細(xì)節(jié)在DeepLabV1中,網(wǎng)絡(luò)輸出的是上采樣前的特征圖。在訓(xùn)練過程中,損失的計算方式為網(wǎng)絡(luò)的輸出特征圖與下采樣8倍的真值做交叉熵。在進(jìn)行預(yù)測時,使用雙線性插值進(jìn)行8倍上采樣,使用全連接CRF做平滑處理。訓(xùn)練和預(yù)測過程都是端到端的。人工智能技術(shù)基礎(chǔ)及應(yīng)用432024/2/17.2語義分割網(wǎng)絡(luò)DeepLabV2與目標(biāo)檢測類似,語義分割任務(wù)也面臨物體在多尺度圖像中存在的問題,DeepLabV2相對V1最大的改動是增加了空洞空間金字塔池化ASPP(AtrousSpacialPyramidPooling)結(jié)構(gòu),在多個尺度上魯棒地分割圖像。ASPP使用多個擴(kuò)張率的卷積核來檢測傳入的卷積特征,從而以多個尺度捕獲目標(biāo)和圖像的上下文內(nèi)容。人工智能技術(shù)基礎(chǔ)及應(yīng)用442024/2/17.2語義分割網(wǎng)絡(luò)空洞空間金字塔池化ASPP(空洞空間金字塔池化)用不同擴(kuò)張率的膨脹卷積開發(fā)了多尺度特征。視野有效區(qū)用不同的顏色表示。ASPP相當(dāng)于以多個比例捕捉圖像的上下文,每個采樣率上提取的特征再用單獨(dú)的分支處理,融合生成最后的結(jié)果人工智能技術(shù)基礎(chǔ)及應(yīng)用452024/2/17.2語義分割網(wǎng)絡(luò)DeepLabV2網(wǎng)絡(luò)結(jié)構(gòu)DeepLabV2相對V1的另一處改進(jìn)是增加了ResNet-101作為主干網(wǎng)絡(luò)。在ResNet的Layer3中的Bottleneck1中原本是需要下采樣的(3x3的卷積層步幅為2),但在DeepLabV2中將步幅設(shè)置為1,即不再進(jìn)行下采樣。而且3x3卷積層全部采用膨脹卷積膨脹系數(shù)為2。在Layer4中也是一樣,取消了下采樣,所有的3x3卷積層全部采用膨脹卷積替換。最后需要注意的是ASPP模塊,在以ResNet101做為主干網(wǎng)絡(luò)時,每個分支只有一個3x3的膨脹卷積層,且卷積核的個數(shù)都等于標(biāo)簽類別數(shù)目。人工智能技術(shù)基礎(chǔ)及應(yīng)用462024/2/17.2語義分割網(wǎng)絡(luò)學(xué)習(xí)策略DeepLabV2中使用了Poly訓(xùn)練策略調(diào)整學(xué)習(xí)率。在power=0.9時,模型效果要優(yōu)于普通的分段學(xué)習(xí)率策略1.17%。人工智能技術(shù)基礎(chǔ)及應(yīng)用472024/2/17.2語義分割網(wǎng)絡(luò)DeepLabV3在DeepLabV1中討論過,膨脹卷積可以維持輸出特征圖的尺寸,具體操作是將池化層的步幅從2修改為1時,其后的卷積層就修改為擴(kuò)張率為2的膨脹卷積。使用兩種方式將ResNet-101的block4(其中有3個3×3的卷積)進(jìn)行復(fù)制,然后級聯(lián)在網(wǎng)絡(luò)后面構(gòu)成block5、block6、block7來加深網(wǎng)絡(luò)。這種方法存在問題:使用經(jīng)典卷積時,特征圖尺寸一直縮小,信息丟失十分嚴(yán)重;人工智能技術(shù)基礎(chǔ)及應(yīng)用482024/2/17.2語義分割網(wǎng)絡(luò)使用前面介紹的膨脹卷積,可以在達(dá)到同樣網(wǎng)絡(luò)深度的同時,不改變特征圖尺寸以及感受野大小。人工智能技術(shù)基礎(chǔ)及應(yīng)用492024/2/17.2語義分割網(wǎng)絡(luò)Multi-Grid策略DeepLabV3對于每一個block中3個卷積層的擴(kuò)張率(圖中用rate表示)的設(shè)置是不同的,通過設(shè)置一個基準(zhǔn)系數(shù)MultiGrid,同時設(shè)置三個卷積層的擴(kuò)張率對于MultiGrid策略的幾種參數(shù)設(shè)置方式,有以下幾個結(jié)論應(yīng)用不同的策略通常比單一擴(kuò)張率(r1,r2,r3)=(1,1,1)效果要好簡單提升倍數(shù)是無效的,(r1,r2,r3)=(2,2,2)網(wǎng)絡(luò)層數(shù)加深時,MultiGrid策略使得模型性能有效提升,模型性能最優(yōu)時block7最佳(r1,r2,r3)=(1,2,1)人工智能技術(shù)基礎(chǔ)及應(yīng)用502024/2/17.2語義分割網(wǎng)絡(luò)含BN的ASPPDeepLabV3在ASPP末尾加入了批量規(guī)范化層,能夠訓(xùn)練出更好的模型。ImagePooling在網(wǎng)絡(luò)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 國際產(chǎn)品授權(quán)分銷合同
- 辦公家具采購合同一
- 商品買賣合同「樣本」
- 商業(yè)地產(chǎn)買賣合同模板范文
- 公司設(shè)立投資合作合同范本
- 礦山棄渣處理合同范本
- 消防及安全整改合同履行細(xì)則
- 校企合作合同新范本
- 土地使用權(quán)出讓合同及物業(yè)銷售細(xì)則
- 躉船結(jié)構(gòu)培訓(xùn)課件
- 2025年黑龍江民族職業(yè)學(xué)院單招職業(yè)技能測試題庫附答案
- 年產(chǎn)60萬噸摻混肥項(xiàng)目可行性研究報告申請立項(xiàng)
- 2025年2月《公共安全視頻圖像信息系統(tǒng)管理?xiàng)l例》學(xué)習(xí)解讀課件
- 2025年江蘇省中職《英語》學(xué)業(yè)水平考試高頻必練考試題庫400題(含答案)
- 2025年濟(jì)寧職業(yè)技術(shù)學(xué)院高職單招語文2018-2024歷年參考題庫頻考點(diǎn)含答案解析
- 高三一?!吧媾c強(qiáng)弱關(guān)系思辨”審題立意及范文
- 2025年湖南工程職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測試近5年??及鎱⒖碱}庫含答案解析
- 2024年七臺河職業(yè)學(xué)院高職單招數(shù)學(xué)歷年參考題庫含答案解析
- 小學(xué)數(shù)學(xué)教學(xué)中小組合作學(xué)習(xí)課件
- 2024年晉中職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫附答案
- 2025年茂名市高三年級第一次綜合測試(一模)物理試卷(含答案)
評論
0/150
提交評論