Boosting 自下而上和自上而下的視覺(jué)特征的顯著性估計(jì)_第1頁(yè)
Boosting 自下而上和自上而下的視覺(jué)特征的顯著性估計(jì)_第2頁(yè)
Boosting 自下而上和自上而下的視覺(jué)特征的顯著性估計(jì)_第3頁(yè)
Boosting 自下而上和自上而下的視覺(jué)特征的顯著性估計(jì)_第4頁(yè)
Boosting 自下而上和自上而下的視覺(jué)特征的顯著性估計(jì)_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

BoostingBottom-upandTop-downVisualFeaturesforSaliencyEstimationBoosting

自下而上和自上而下的視覺(jué)特征的顯著性估計(jì)主要內(nèi)容四、模型比較和結(jié)果5六、讀者小結(jié)7五、討論與小結(jié)6摘要1一、簡(jiǎn)介2二、學(xué)習(xí)一個(gè)視覺(jué)顯著性的模型3三、實(shí)驗(yàn)程序4摘要自由觀賞自然場(chǎng)景時(shí),最好的視覺(jué)顯著模型盡管有顯著的最新進(jìn)展,在預(yù)測(cè)眼睛注視與人類的表現(xiàn)仍然落后。多數(shù)模型是基于低層次的視覺(jué)特點(diǎn),自頂向下的特點(diǎn)的重要性尚未得到充分探討或建模。在這里,我們結(jié)合了低級(jí)別的功能,如方向,顏色,強(qiáng)度,以前最好的自下而上的模式,采用自頂向下的視覺(jué)認(rèn)知功能(例如,臉,人類,汽車等)的顯著圖,使用回歸、SVM和AdaBoost分類,從這些特點(diǎn)里學(xué)習(xí)直接映射這些功能的的眼睛注視。通過(guò)廣泛的試驗(yàn)三個(gè)基準(zhǔn)眼球跟蹤數(shù)據(jù)集,使用三種流行的評(píng)價(jià)分?jǐn)?shù),我們展示了:我們的Boosting模型優(yōu)于27個(gè)最先進(jìn)的模型,是迄今為止在注視預(yù)測(cè)最準(zhǔn)確的模型。此外,我們的模型沒(méi)有如區(qū)域分割這樣復(fù)雜的圖像處理,成功地檢測(cè)到的最顯著的一個(gè)場(chǎng)景中的對(duì)象。視覺(jué)注意的過(guò)程中一直是許多心理學(xué),神經(jīng)科學(xué),計(jì)算機(jī)視覺(jué)等研究的對(duì)象。相應(yīng)地,一些計(jì)算模型已經(jīng)在機(jī)器學(xué)習(xí),計(jì)算機(jī)視覺(jué)和機(jī)器人領(lǐng)域引起關(guān)注。幾個(gè)應(yīng)用程序也已經(jīng)被提出,并進(jìn)一步提出了在這一領(lǐng)域的興趣,包括:,自動(dòng)創(chuàng)建拼貼[5],視頻壓縮[6][9],非真實(shí)渲染[8],廣告設(shè)計(jì)[10]。自下而上的顯著性的模型經(jīng)常被評(píng)估,在自由觀看任務(wù)中,預(yù)測(cè)人的注視。今天,許多顯著性模型基于各種各樣令人信服的技術(shù),仍然每年都會(huì)有人引進(jìn)新模型。然而,在預(yù)測(cè)眼睛注視時(shí),模型和人類間觀察員(IO)有很大的差距。IO模型“對(duì)于一個(gè)給定的刺激的輸出,通過(guò)整合眼睛注視建成地圖,而不是觀看那個(gè)刺激。該模型預(yù)計(jì)將提供預(yù)測(cè)模型的準(zhǔn)確度的程度,不同的人可能是對(duì)方的最好的預(yù)測(cè)者。上面提到的模型和人類之間的差距主要是由于自頂向下的因素的作用(參照?qǐng)D1)。一、介紹一、介紹它被認(rèn)為是自由觀看的早期階段(前幾百毫秒),主要是基于圖像醒目性的注意,后來(lái),高層次的因素(例如,行動(dòng)和事件)指導(dǎo)眼球運(yùn)動(dòng)[53][39]。這些高層次的因素可能不一定轉(zhuǎn)化為自下而上的顯著性(例如,根據(jù)顏色,強(qiáng)度或方向),應(yīng)考慮分開(kāi)。舉例來(lái)說(shuō),一個(gè)人的頭部可能在其余的場(chǎng)景中不會(huì)特別突出,但可能會(huì)引起人們的注意。因此,結(jié)合高層次概念和低層次的功能擴(kuò)展現(xiàn)有模型,并達(dá)到人類的表現(xiàn)似乎是不可避免的。一、介紹由[1]的啟發(fā),我們提出了三個(gè)貢獻(xiàn)顯著性的學(xué)習(xí)。首先,我們結(jié)合最好的兩個(gè)方面:自下而上和自上而下的因素。通過(guò)比較29個(gè)顯著性模型,我們整合功能,最好的自下而上的模式已經(jīng)發(fā)現(xiàn)預(yù)測(cè)與自上而下的因素,如人臉,人,車,等人的注視,培養(yǎng)幾個(gè)線性和非線性分類從這些功能中的錄制品。第二,我們更強(qiáng)調(diào)內(nèi)部零件更準(zhǔn)確的顯著性檢測(cè)矚目的對(duì)象(例如,人類上部)。通過(guò)大量的實(shí)驗(yàn),我們證明了我們的相結(jié)合的方法,超過(guò)以前顯著的學(xué)習(xí)方法([1][48]),以及其他最新的方法,在3個(gè)數(shù)據(jù)集上,使用3個(gè)評(píng)價(jià)得分。第三,我們證明了我們的模型能夠在一個(gè)場(chǎng)景中檢測(cè)到最突出的對(duì)象,接近主流的顯著區(qū)域檢測(cè)的表現(xiàn)。一、介紹相關(guān)工作:顯著性模型簡(jiǎn)介顯著性模型一般可以分為認(rèn)知(生物)或計(jì)算(數(shù)學(xué)),而有些發(fā)生在之間。幾款根據(jù)Itti等人的自底向上的顯著性模型[4]。這種模型是先執(zhí)行Koch和Ullman的計(jì)算架構(gòu)基于特征整合理論[15][16]。在這個(gè)理論中,圖像被分解為低一級(jí)的屬性,如跨越幾個(gè)空間尺度,然后歸一化和線性或非線性相結(jié)合,形成一個(gè)主顯著圖的顏色,強(qiáng)度和方向。這一理論的一個(gè)重要組成部分是作為圖像區(qū)域及其周圍環(huán)境的獨(dú)特性,顯著性定義中心環(huán)繞的想法。這個(gè)模型還提出一個(gè)合適的架構(gòu)適應(yīng)視覺(jué)搜索理論和對(duì)象檢測(cè)模型(例如,[18])?;谌ハ嚓P(guān)的神經(jīng)反應(yīng),Diaz等人[29]提出了一種有效的模型被稱為自適應(yīng)白化顯著性(AWS)的顯著性。LeMeur等[33],Marat等[36],Kootstra等[17]提出的模型是其他以認(rèn)知的調(diào)查結(jié)果為導(dǎo)向的模型。

另有,基于概率模型、基于頻率模型等,這里不一一介紹。一、介紹與手動(dòng)設(shè)計(jì)顯著性措施相比,我們按照訓(xùn)練分類的一種學(xué)習(xí)方式,直接從人眼跟蹤數(shù)據(jù)。其基本思路是的加權(quán)組合的功能,其中權(quán)重學(xué)會(huì)從一個(gè)大的庫(kù)對(duì)自然圖像的眼球運(yùn)動(dòng),可以增強(qiáng)顯著性檢測(cè)比未經(jīng)調(diào)整組合特征映射。學(xué)習(xí)方法也有容易適用于通過(guò)提高要素權(quán)重目標(biāo)對(duì)象的可視化搜索的好處。在下面,我們提出了一個(gè)樸素貝葉斯公式的顯著性估計(jì)。讓我們是一個(gè)二元變量表示的顯著位置的圖像像素X=(X,Y)與特征向量f,其中“s等于1”表示這個(gè)像素是突出的(也就是說(shuō),它可以吸引人類的眼睛)和零。像素x的概率是顯著的可寫為:二、學(xué)習(xí)一個(gè)視覺(jué)顯著性的模型上面的公式是基于假設(shè)特點(diǎn)可以出現(xiàn)在所有的空間位置(即,x和f是相互獨(dú)立的,則p(f|x)=p(f))。我們進(jìn)一步假設(shè),在S的先驗(yàn)概率(即,位置突出與否)都是平等的。上式右邊的第一項(xiàng)測(cè)量由于上面的圖像的像素的特征的顯著性,而第二項(xiàng)措施顯著性的基礎(chǔ)上的像素的空間位置。我們學(xué)習(xí)使用p(s|f)分類標(biāo)注數(shù)據(jù)(傾向的位置)。我們估計(jì)p(s|x):其中,d(X,X0)是歸一化的像素x從中心像素的X0的距離。二、學(xué)習(xí)一個(gè)視覺(jué)顯著性的模型①低層次(自下而上)特點(diǎn)傳統(tǒng)上,強(qiáng)度,方向和顏色已被用于對(duì)靜態(tài)圖像的顯著性推導(dǎo)。動(dòng)態(tài)場(chǎng)景(視頻),閃爍和運(yùn)動(dòng)特點(diǎn)也已經(jīng)被其他幾個(gè)低級(jí)別的特點(diǎn)(例如,大小,深度和光流)增加[55][56]。在這里,我們先調(diào)整每個(gè)圖像為200×200像素,然后提取一組特點(diǎn),我們使用低級(jí)每個(gè)像素[1],因?yàn)樗麄円呀?jīng)被證明與視覺(jué)注意力相關(guān)的特點(diǎn),并有潛在的生物合理性[16][15]。低層次的特點(diǎn)列舉如下:·13個(gè)在4個(gè)方向3尺度的可操縱金字塔過(guò)濾器的局部特點(diǎn)·使用Itti和Koch顯著的方法[4]計(jì)算的3強(qiáng)度,方向和顏色(紅/綠和藍(lán)色/黃色)對(duì)比通道?!?個(gè)紅色,綠色和藍(lán)色通道,以及3個(gè)功能相對(duì)應(yīng)的各顏色通道的概率值?!?在6個(gè)不同尺度中值濾波器濾波的圖像的三維顏色直方圖計(jì)算從上述顏色通道的概率。二、學(xué)習(xí)一個(gè)視覺(jué)顯著性的模型這樣產(chǎn)生了30個(gè)低級(jí)的特點(diǎn)。中心環(huán)繞操作需要注意的是,直接施加在地圖的某些特點(diǎn)(例如,Ltti特征映射)。雖然在實(shí)踐中,它是作為一個(gè)功能,可以使用任何自下而上的模型,在這里,我們利用Torralba[32],AWS[29],GBVS[20]的模型,因?yàn)檫@些模型具有較高的固定預(yù)測(cè)能力,采用完全不同的顯著性機(jī)制的速度,可以計(jì)算出從其他低級(jí)別的特點(diǎn)。樣本圖像中提取的特征示于圖2。二、學(xué)習(xí)一個(gè)視覺(jué)顯著性的模型二、學(xué)習(xí)一個(gè)視覺(jué)顯著性的模型②高級(jí)別(自頂向下)特點(diǎn)。高級(jí)別特點(diǎn),如人臉和文字[14],人車[1],對(duì)稱性[17],和體征已建議直接關(guān)注。據(jù)悉,這些都是通過(guò)一個(gè)人的一生的時(shí)間獲得的先驗(yàn)知識(shí)一個(gè)挑戰(zhàn)是檢測(cè)情感(情緒)的功能和語(yǔ)義(高層次的知識(shí))場(chǎng)景屬性,如因果關(guān)系和行動(dòng)的影響力,這被認(rèn)為是很重要的引導(dǎo)注意力。這些因素都影響眼球固定的位置和持續(xù)時(shí)間[13]。我們將我們的功能集包括如下的高級(jí)別的功能:?!び捎跀z影師的傾向幀圖像和對(duì)象水平所形成的水平線。·實(shí)施由Felzenszwalb的變形部分模型的人和車探測(cè)器(DPM)[50]?!な褂肰iola和Jone代碼的人臉檢測(cè)[51]。二、學(xué)習(xí)一個(gè)視覺(jué)顯著性的模型從注釋的數(shù)據(jù),我們注意到,某些地區(qū)吸引更多的關(guān)注對(duì)象,例如人類上部(頭區(qū))和臉部(眼睛,鼻子和嘴)(見(jiàn)圖3)。為了提高這些地區(qū)的顯著性,我們了解到該對(duì)象的平均顯著圖從訓(xùn)練數(shù)據(jù)了解到對(duì)象的檢測(cè)區(qū)域。二、學(xué)習(xí)一個(gè)視覺(jué)顯著性的模型另一個(gè)重要特點(diǎn)是在前中心的基礎(chǔ)上發(fā)現(xiàn)的:大多數(shù)的錄制品在中心附近發(fā)生的圖像(即中心偏置[39])。與基線的方法進(jìn)行公平比較的分類(AWS和GBVS模型),我們?cè)谶@里單獨(dú)對(duì)待中心功能。根據(jù)公式2,我們把每個(gè)模型的顯著性圖與p(s|x)相乘,p(s|x)是每個(gè)像素打牌中心的距離。最終,所有的特點(diǎn)都變成34(30自底向上+4自上而下)向量(不含中心),被送入分類器(在下一節(jié)中解釋)。二、學(xué)習(xí)一個(gè)視覺(jué)顯著性的模型分類器我們調(diào)查線性和非線性分類器的固定預(yù)測(cè)能力。線性分類通常比較快,通過(guò)矩陣運(yùn)算計(jì)算了解到的權(quán)重是比較容易解讀。另一方面,非線性模型通常是速度慢,但更強(qiáng)大的?;貧w。假設(shè)特征矢量f和顯著性s之間的線性關(guān)系,解方程F×W=S,其中,F(xiàn)和S是訓(xùn)練數(shù)據(jù)為f和s的矩陣。解決的辦法是:W=F+×S,F(xiàn)+是通過(guò)SVD分解最小二乘偽逆矩陣F。為了避免數(shù)值不穩(wěn)定,這些特征向量的特征值是小于的最大特征值的一半的偽逆的計(jì)算過(guò)程中被丟棄。對(duì)于測(cè)試圖像,特征提取,然后學(xué)習(xí)的映射被用于產(chǎn)生一個(gè)向量,然后調(diào)整大小到200×200的顯著圖。二、學(xué)習(xí)一個(gè)視覺(jué)顯著性的模型SVM。使用liblinear的支持向量機(jī)2,liblinear是一個(gè)公開(kāi)的SVMmatlab版,我們也訓(xùn)練SVM分類器。我們采用了線性的內(nèi)核,因?yàn)樗鼈兪歉斓膱?zhí)行以及非線性多項(xiàng)式和RBF內(nèi)核的固定預(yù)測(cè)[1]?;貧w,而不是預(yù)測(cè)的標(biāo)簽(即,1/-1)相似,在測(cè)試中,我們使用的WT的值F+b,其中W和b的學(xué)習(xí)參數(shù)。要調(diào)查的非線性映射功能顯著性,我們使用AdaBoost算法[52],在應(yīng)用場(chǎng)景分類和識(shí)別物體時(shí),其中有許多吸引人的理論性。鑒于N標(biāo)記的訓(xùn)練實(shí)例(ui,vi),vi∈{?1,+1},ui∈U,AdaBoost的結(jié)合了一些弱分類器Ht學(xué)到了強(qiáng)分類器H(u)=sign(f(u));f(u)=,這里αt是第t個(gè)分類器。二、學(xué)習(xí)一個(gè)視覺(jué)顯著性的模型本節(jié)對(duì)分類和功能提出一個(gè)全面的評(píng)估。在這里,我們不僅評(píng)估了我們的模型,也比較幾款模型以供日后參考。我們能夠運(yùn)行27個(gè)顯著性模型。此外,我們還實(shí)施了其他兩個(gè)簡(jiǎn)單但功能強(qiáng)大的模型:GaussianBlob和人類中間觀察者模型。GaussianBlob的是一個(gè)簡(jiǎn)單的2D高斯形狀的繪制圖像的中心,它是預(yù)期預(yù)測(cè)人的目光,以及如果這樣的凝視強(qiáng)烈圖像中心的周圍聚集。對(duì)于一個(gè)給定的刺激,當(dāng)他們觀看刺激時(shí),中間觀察員的模型輸出一個(gè)通過(guò)整合比其他物體測(cè)試的地圖。模型地圖可以根據(jù)記錄眼球運(yùn)動(dòng)來(lái)調(diào)整原始圖像的大小。三、實(shí)驗(yàn)程序3.1眼動(dòng)數(shù)據(jù)集由于可用的眼球運(yùn)動(dòng)數(shù)據(jù)集有不同的統(tǒng)計(jì)、各類刺激、受試者人數(shù),在這里,我們利用公平的基準(zhǔn)數(shù)據(jù)集來(lái)比較模型。第一個(gè)數(shù)據(jù)集,MIT[1],從Flicker和LabelMe[46]采集到的包含1003幅圖像的數(shù)據(jù)集。圖像的最長(zhǎng)尺寸是1024,其他的尺寸范圍從405到1024。它有779幅景觀圖像和228幅人像圖像。15人類受試者觀看的圖像。圖像顯示3秒,每?jī)蓚€(gè)之間有1秒的灰色屏幕。第二個(gè)數(shù)據(jù)集,Toronto[21],是顯著模型評(píng)價(jià)最高和最廣泛使用的數(shù)據(jù)集。它包含120室內(nèi)和室外場(chǎng)景的彩色圖像。隨機(jī)圖片4秒,圖像之間有2秒灰度掩模,20個(gè)的主題。NUSEF是最近推出的數(shù)據(jù)集,它有758幅包含情感的場(chǎng)景/物體如表現(xiàn)力的面孔,裸體,不愉快的概念和概念的語(yǔ)義(動(dòng)作/原因)的圖像圖像??偣?5名自由查看圖像數(shù)據(jù)集的一部分,每幅圖片觀察5秒(每幅圖像有平均25個(gè)不同的觀察者)。三、實(shí)驗(yàn)程序3.2評(píng)價(jià)指標(biāo)由于沒(méi)有一個(gè)獨(dú)特的得分可以進(jìn)行顯著模型評(píng)價(jià),我們報(bào)告了三個(gè)結(jié)果。應(yīng)該說(shuō)一個(gè)模型表現(xiàn)良好的話,應(yīng)該所有分?jǐn)?shù)都比較高。ROC曲線下面積(AUC);使用這個(gè)分?jǐn)?shù),視為二元分類的圖像中的每個(gè)像素上的模型的顯著圖;較大的顯著度值大于閾值的像素被分類為迷戀,而其余的像素被分類為非迷戀[21]。人類注視被用作地面參考。通過(guò)不同的閾值,ROC曲線繪制的假陽(yáng)性率與真陽(yáng)性率,這條曲線下的面積表示:顯著圖預(yù)測(cè)實(shí)際人眼注視。三、實(shí)驗(yàn)程序我們訓(xùn)練和測(cè)試分類在MIT的數(shù)據(jù)集交叉驗(yàn)證后段。第2.2節(jié)(K=10,M=100,除了最后一個(gè)含103)。在MIT的所有圖像數(shù)據(jù)集的一個(gè)訓(xùn)練有素的模型,然后應(yīng)用到其他數(shù)據(jù)集。表1示出模型的AUC分?jǐn)?shù)。四、模型比較和結(jié)果四、模型比較和結(jié)果NSS和CC不乘以中心偏置的分?jǐn)?shù)結(jié)果示于圖中4。增壓(無(wú)中心,但與AWS和GBVS為特征),在幾乎所有的情況下贏得了GBVS和AWS??傮w而言,這個(gè)數(shù)字顯示,而許多模型得分低于高斯模型,提高模型性能站在高斯的頂部,超過(guò)3個(gè)數(shù)據(jù)集和分?jǐn)?shù)顯示提高模型在大多數(shù)情況下是最好的。因?yàn)橛懈嗟母拍詈妥陨隙碌拇碳ひ蛩?,在這些數(shù)據(jù)集模型和IO模型在NUSEF和MIT的數(shù)據(jù)集之間有較大的差距。Tavakoli[40]表現(xiàn)最好,超過(guò)Toronto的數(shù)據(jù)集,缺乏太多的自上而下因素,此數(shù)據(jù)集的圖像排名提升至第二。除去在內(nèi)部零件上的強(qiáng)調(diào),在MIT的數(shù)據(jù)集上,AUC的增壓從0.806減少到0.792。四、模型比較和結(jié)果四、模型比較和結(jié)果四、模型比較和結(jié)果4.2顯著性物體檢測(cè)的應(yīng)用圖8顯示與人類的注釋和我們的模型預(yù)測(cè)的例子??梢钥闯?,即使是顯著的對(duì)象是不是靠近中心位置時(shí),它能夠成功地檢測(cè)最突出的物體。四、模型比較和結(jié)果結(jié)合自下而上和自上而下的特點(diǎn),我們學(xué)到了一些模型的視覺(jué)顯著性,在相同的數(shù)據(jù)和分?jǐn)?shù)上比較其準(zhǔn)確性。我們的方法允許添加更多的特點(diǎn),如其他自下而上的模式或其他自上而下的功能顯著圖。在分類中,使用SVM和回歸預(yù)測(cè)的AdaBoost具有最好的預(yù)測(cè)精度。它優(yōu)于大部分現(xiàn)有模型,是迄今為止表現(xiàn)人類最接近的模型,它可以幾種方法提高計(jì)算機(jī)視覺(jué)的性能。它也競(jìng)相表現(xiàn)用

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論