一種基于結(jié)構(gòu)學(xué)習(xí)的圖像標(biāo)注方法.doc

上傳人：伐*** IP屬地：寧夏上傳時(shí)間：2019-07-11 格式：DOC 頁數(shù)：6 大小：205.50KB 積分：10.8 舉報(bào) 版權(quán)申訴

一種基于結(jié)構(gòu)學(xué)習(xí)的圖像標(biāo)注方法.doc_第2頁

一種基于結(jié)構(gòu)學(xué)習(xí)的圖像標(biāo)注方法.doc_第3頁

一種基于結(jié)構(gòu)學(xué)習(xí)的圖像標(biāo)注方法.doc_第4頁

一種基于結(jié)構(gòu)學(xué)習(xí)的圖像標(biāo)注方法.doc_第5頁

免費(fèi)預(yù)覽已結(jié)束，剩余1頁可下載查看

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

精品論文一種基于結(jié)構(gòu)學(xué)習(xí)的圖像標(biāo)注方法崔超然，馬軍（山東大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，濟(jì)南 250101）5摘要：圖像標(biāo)注工作對(duì)于當(dāng)前的基于關(guān)鍵詞的圖像檢索系統(tǒng)至關(guān)重要。本文中，我們將圖像標(biāo)注問題看作一個(gè)最優(yōu)子集選擇的問題，并通過結(jié)構(gòu)學(xué)習(xí)的框架來學(xué)習(xí)一個(gè)得分函數(shù)，利用該函數(shù)來評(píng)估不同候選標(biāo)注集合的質(zhì)量。一個(gè)標(biāo)注集合的質(zhì)量由它與待標(biāo)注圖像的視覺近鄰圖像的多種關(guān)系來判定。在基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了該方法在圖像標(biāo)注任務(wù)中的有效性。10關(guān)鍵詞：計(jì)算機(jī)應(yīng)用技術(shù)；圖像標(biāo)注；結(jié)構(gòu)學(xué)習(xí)中圖分類號(hào)：tp391image annotation via structural learningcui chaoran, ma jun15(school of computer science and technology, shandong university, jinan 250101) abstract: image annotation plays an important role in modern keyword-based image retrieval systems. in this paper, we formulate the image annotation problem as that of selecting the optimal keyword subset for an image, and employ a structural learning framework to learn a scoring function for evaluating the quality of different candidate subsets. the quality of a keyword subset20is assessed based on its relations with visually similar neighbors of that image. experiments on benchmark data set demonstrate the effectiveness of our approach for image annotation.keywords: computer applied technology; image annotation; structural learning0引言25伴隨著網(wǎng)絡(luò)的發(fā)展和數(shù)字?jǐn)z影技術(shù)的提高，互聯(lián)網(wǎng)中數(shù)字圖像的數(shù)目呈現(xiàn)出爆炸式的增長。與此同時(shí)，這也增強(qiáng)了人們對(duì)高效的圖像檢索技術(shù)的需求。當(dāng)前的商用搜索引擎仍是采用基于文本的檢索技術(shù)，通過對(duì)圖像的標(biāo)注信息建立索引，來為用戶提供檢索服務(wù)的，其檢索性能依賴于圖像標(biāo)注的質(zhì)量。但由于人工手動(dòng)地為圖像添加標(biāo)注是一項(xiàng)十分耗時(shí)耗力的工作，因此，近年來研究人員開展了對(duì)自動(dòng)圖像標(biāo)注技術(shù)的研究30自動(dòng)圖像標(biāo)注是指機(jī)器自動(dòng)地選擇一組相關(guān)的標(biāo)注詞來反映圖像的視覺內(nèi)容。已有的工作大體可以分三類，即：基于概率的方法，基于分類的方法和基于近鄰的方法?；诟怕实?方法旨在利用訓(xùn)練集來推斷出圖像的視覺特征和標(biāo)注詞之間的聯(lián)合概率分布。在進(jìn)行標(biāo)注時(shí)，分別計(jì)算不同的標(biāo)注詞相對(duì)圖像的條件概率。基于分類的方法為每一個(gè)標(biāo)注詞訓(xùn)練一個(gè) 分類器從而預(yù)測該標(biāo)注詞是否在圖像中出現(xiàn)。在基于近鄰的方法中，算法首選在訓(xùn)練中找到35一組與測試圖像視覺相近的“近鄰”圖像，然后將這些“近鄰”的標(biāo)注詞傳遞給測試圖像。本質(zhì)上，圖像標(biāo)注工作的輸入是一幅圖像，輸出是一組標(biāo)簽集合。因此，該問題可以被看作一個(gè)結(jié)構(gòu)學(xué)習(xí)(structural learning)的問題。本文中，我們提出通過 structural svm1框架來學(xué)習(xí)一個(gè)評(píng)價(jià)函數(shù)，并利用該函數(shù)評(píng)估不同的候選標(biāo)簽相對(duì)于給定圖像的相關(guān)性。一個(gè)標(biāo) 簽的相關(guān)性由它和測試樣本的“近鄰”圖像的多種關(guān)系來判定。我們采用了 cutting plane40算法2來求解問題中推導(dǎo)出的優(yōu)化問題，然后利用學(xué)習(xí)到的評(píng)價(jià)函數(shù)來為測試圖像選擇最優(yōu)基金項(xiàng)目：教育部博士點(diǎn)基金(20110131110028)作者簡介：崔超然，(1987-)，男，博士研究生，主要研究領(lǐng)域?yàn)樾畔z索、多媒體信息的分析與理解。通信聯(lián)系人：馬軍，（1956-），教授，博士生導(dǎo)師，主要研究領(lǐng)域?yàn)?web 文本和多媒體檢索、社會(huì)網(wǎng)絡(luò)。e-mail: - 6 -的標(biāo)注詞。實(shí)驗(yàn)中，我們?cè)?corel 5k 數(shù)據(jù)集上對(duì)本文提出的方法進(jìn)行了評(píng)測。實(shí)驗(yàn)結(jié)果顯示，相比于以往方法在該數(shù)據(jù)上公布的實(shí)驗(yàn)結(jié)果，本文在準(zhǔn)確率和召回率等測度上均取得了最優(yōu)的結(jié)果。451問題描述指定 x=x1,x2,.,xn代表一個(gè)圖像集合，所有可能在該集合中出現(xiàn)的不同的標(biāo)注詞的集合為 w=w1,w2,.,wm。圖像標(biāo)注的目標(biāo)是學(xué)習(xí)一個(gè)映射 h: xy，其中 y 代表包含所有可能的標(biāo)注詞集合的空間。給定一幅圖像 xx，我們利用 h 為 x 預(yù)測一個(gè)合適的標(biāo)注詞集合 yw。在監(jiān)督學(xué)習(xí)中，我們會(huì)被給予一組訓(xùn)練樣本，s=(x(i),y(i)xy: i = 1,.,t，其中 y(i)是圖像50x(i)的真實(shí)標(biāo)注詞集合。我們希望學(xué)習(xí)到的映射函數(shù) h 可以使得訓(xùn)練樣本的經(jīng)驗(yàn)損失最小化，即1tmin r (h) = min ( y( i ) , h( x(i ) )hsht i =1上式中，(y(i),h(x(i)代表預(yù)測標(biāo)注 h(x(i)和真實(shí)標(biāo)注 y(i)之間的差距。在本文中，我們將它定義為如下形式：55( y, y ) = 1 -2 prp = | y y |p = | y y |p + r| y | y |其中，y 和 y分別代表兩個(gè)標(biāo)注詞集合，|y|代表 y 中標(biāo)簽的個(gè)數(shù)，|yy|表示兩個(gè)集合中相同標(biāo)簽的個(gè)數(shù)。本文中，我們采用 structural svm 學(xué)習(xí)框架來解決上述問題。structural svm 框架的基本思想是學(xué)習(xí)一個(gè)得分函數(shù) f(x,y): xyr，該函數(shù)度量了候選標(biāo)注集合 y 相對(duì)于給定圖像60x 的相關(guān)程度。我們通過特征向量(x,y)來表示圖像/標(biāo)注對(duì)(x,y)。類比于線性 svm，我們假設(shè)得分函數(shù) f(x,y)可以被表示為(x,y)的線性組合，即f ( x, y) = wt ( x, y)其中，w 是一個(gè)權(quán)重向量。直觀上說，特征表示函數(shù)必須能較好地區(qū)別高質(zhì)量和低質(zhì)量的候選標(biāo)注。我們將在下一節(jié)介紹的具體表示形式。65當(dāng)?shù)梅趾瘮?shù) f(x,y)確定后，映射函數(shù) h 可以利用下式為圖像 x 預(yù)測它的標(biāo)注詞集合y* = h( x) = arg max f (x, y)yy 遵循以往的工作3-5，實(shí)驗(yàn)中我們每幅圖像預(yù)測 l(l = 5)個(gè)標(biāo)簽，因此，在上式中|y*| = l。2特征表示在本節(jié)中，我們討論圖像/標(biāo)注對(duì)的聯(lián)合特征表示函數(shù)。給定訓(xùn)練樣本集，我們希望70能代表一組聯(lián)合特征，使得圖像和真實(shí)標(biāo)注的特征與它和其它候選標(biāo)注的特征的差異較大。直觀上感覺，視覺上相似的圖像的內(nèi)容往往反映了同一主題，因而它們更有可能會(huì)關(guān)聯(lián) 到相同的標(biāo)注詞。從這點(diǎn)出發(fā)，給定一個(gè)圖像/標(biāo)注對(duì)(x,y)，我們首選尋找 x 在訓(xùn)練集中的視覺“近鄰”圖像，然后再根據(jù) y 與這些“近鄰”的關(guān)系來定義(x,y)。具體地，(x,y)被定義為如下形式：1 s nn (w, nn1 ) 75 ( x, y) = | y |w y m s nnk (w, nn ) | y |wy k 其中 nn1, ., nnk 是與 x 最為相似的 k 個(gè)“近鄰”圖像，snn1, ., snnk 分別代表它們相對(duì)于 x的相似性。(w, nni)是一個(gè)特征向量，它編碼了標(biāo)注詞 w 和第 i 個(gè)“近鄰”nni 之間的關(guān)系。進(jìn)一步地，我們可以看到，實(shí)際上(x,y)是 k 個(gè)這樣的關(guān)系分量的組合特征向量。在本文中，我們分別計(jì)算圖像在不同視覺特征上的距離，并取它們的平均值作為兩幅圖80像間最終的距離3，進(jìn)而根據(jù)距離的大小選擇出視覺“近鄰”。我們認(rèn)為“近鄰”nni 對(duì) x的影響程度與它和 x 的相關(guān)性大小呈正相關(guān)關(guān)系。定義 nni 相對(duì)于 x 的相關(guān)性為： 1s= expnni1 + d (x, nn ) i 其中，d(x, nni)是 x 和 nni 之間歸一化后的視覺距離。如上所述，(w, nni)編碼了標(biāo)注詞 w 和第 i 個(gè)“近鄰”nni 之間的關(guān)系。具體地，(w,85nni)反映了 w 相對(duì)于 nni 的以下三種關(guān)系，即出現(xiàn)頻率，共現(xiàn)性以及語義相關(guān)性。根據(jù) w 在訓(xùn)練集樣本中的出現(xiàn)頻率，我們可以通過多重伯努利模型(multiple bernoulli)6來估計(jì)用 w 來標(biāo)注 nni 的概率大小，即： w, nn + twp(w | nn ) =ii + t這里，是一個(gè)平滑參數(shù)，實(shí)驗(yàn)中我們通過交叉驗(yàn)證來確定它的取值大小。w, nni = 1，如90果 w 出現(xiàn)在 nni 的真實(shí)標(biāo)注詞集合中，反之，w, nni = 0。tw 代表訓(xùn)練集中含有標(biāo)簽 w 的圖像的數(shù)目，而 t 表示訓(xùn)練集中全部圖像的數(shù)目。為了進(jìn)一步探究標(biāo)注詞 w 和“近鄰”圖像 nni 的相關(guān)性，我們考慮關(guān)鍵詞之間的兩種語義關(guān)系，即共現(xiàn)性和 wordnet 語義相關(guān)性。兩個(gè)關(guān)鍵詞之間的共現(xiàn)性 sco 被定義為：s (w , w ) = tf (w1 , w2 ) ，co12tf (w2 )95其中 w1 和 w2 是兩個(gè)關(guān)鍵詞，tf(w2)表示 w2 在訓(xùn)練集中的出現(xiàn)頻率，tf(w1,w2)表示訓(xùn)練集中同時(shí)包含 w1 和 w2 的圖像的數(shù)目。此外，我們利用林氏相關(guān)度(lins similarity measure)7來估計(jì) 兩個(gè)關(guān)鍵詞之間的 wordnet 語義相關(guān)性 swn。根據(jù) sco 和 swn 的定義，w 與 nni 的標(biāo)注之間的共現(xiàn)性和 wordnet 語義相關(guān)性進(jìn)而被分別定義為：rco (w, nni ) = max sco (w, t )tnni 。rwn (w, nni ) = max swn (w, t )tnni100基于上面的定義，(w, nni)的具體的形式是一個(gè)三維向量，即： p(w | nni ) (w, nni ) = rco (w, nni ) 。 rwn (w, nni )因此，當(dāng)我們考慮 x 的 k 個(gè)“近鄰圖像”時(shí)，聯(lián)合特征向量(x,y)的總維度是 3k。3基于 structural svm 的學(xué)習(xí)過程算法 1 cutting plane 算法輸入：(x(1), y(1), ., (x(t), y(t), c, 輸出：w1. 初始化 wi for all i=1,.,t2. 重復(fù)3. for i = 1, ., t doi4. h ( y; w) ( y ( i ) , y) + wt ( x( i ) , y)5. 計(jì)算y* = arg max yy h ( y; w)6. 計(jì)算i = max0, max ywh ( y; w)7. if8.h ( y*; w) i + wi wi y*t9.重新求解優(yōu)化目標(biāo)min 1 | w |2 + ci10. end if11. end for12. 直到沒有 wi 在本輪迭代中改變13. 返回 ww, 0 2n i =1算法 2 貪心標(biāo)簽子集選擇算法輸入：(x(i), y(i), w, l輸出：y*1. 初始化y* 2. v ( x, y, y) ( y, y) + wt ( x, y)3. for k =1,., l4. ( i ) (i )t* arg maxty v (x5. y y t*, y , y t)1056. end for7. 返回 y*在本節(jié)中，我們利用 structural svm 來訓(xùn)練一個(gè)圖像標(biāo)注模型。給定一組訓(xùn)練樣本， s=(x(i),y(i)xy: i = 1,.,t，structural svm 通過求解下面的優(yōu)化問題來得到最優(yōu)的權(quán)重向量 w1：優(yōu)化問題 1. (structural svm)110min 1 | w |2 + ctisubjected to:w, 0 2i, y y y(i ) :n i =1iwt ( x(i ) , y(i ) ) wt (x( i ) , y) + ( y(i ) , y) 115上式中，每一幅圖像的每一個(gè)不正確的標(biāo)注候選項(xiàng)均對(duì)應(yīng)一個(gè)約束條件。因此，該優(yōu)化問題總共涉及到關(guān)鍵詞個(gè)數(shù)的指數(shù)次方個(gè)約束條件。在本文中，我們采用 cutting plane 算法2來解決該問題，過程如算法 1 所示。該算法旨在找到一個(gè)全部約束的子集，使得滿足該子集中120125約束的解同時(shí)也能在一定誤差率下滿足全部約束。算法為每一個(gè)訓(xùn)練樣本(x(i),y(i)尋找能產(chǎn)生最違反的約束條件的候選標(biāo)注集 y*(算法 5 行)。如果此時(shí)的解違反約束子集的程度超過，則算法將 y*加入到結(jié)合 wi 中，然后求解這一修改后的優(yōu)化問題(算法 7-10 行)。算法 1 中，我們需要在每一輪中迭代中尋找最違反的約束條件，即求解下面的優(yōu)化問題：arg max ( y( i ) , y) + wt ( x(i ) , y)yy本文中，我們提出了一個(gè)簡單而有效的貪心算法來解決該問題，如算法 2 所示。算法不斷的選擇能給當(dāng)前的標(biāo)注集合 y*帶來最大收益標(biāo)注詞 t*，并將 t*加入到 y*直到 y*中標(biāo)注詞的個(gè) 數(shù)達(dá)到 l。同時(shí)，該貪心算法也被用來在測試時(shí)為新圖像預(yù)測它的標(biāo)注詞集合。4實(shí)驗(yàn)tab. 1 不同方法的標(biāo)注結(jié)果的比較p% r% n+msc4 25jec3 27lasso3 24gs5 30our method 3132 13632 13929 12733 14636 1511301351401454.1實(shí)驗(yàn)設(shè)置實(shí)驗(yàn)中，我們采用了 corel 5k 數(shù)據(jù)集。該數(shù)據(jù)被廣泛應(yīng)用在以往的圖像標(biāo)注工作中，因而我們可以與以往工作的結(jié)果進(jìn)行直接比較。對(duì)于每幅圖像，我們提取了與文獻(xiàn)3所述相同的特征描述。為了評(píng)價(jià)方法給出的預(yù)測標(biāo)注的性能，我們以每一個(gè)關(guān)鍵詞為查詢進(jìn)行圖像檢索操作，取各查詢結(jié)果的平均準(zhǔn)確率(p)和平均召回率(r)作為兩個(gè)評(píng)價(jià)指標(biāo)。同時(shí)，我們也考慮了結(jié)果中非零召回率的查詢的個(gè)數(shù)(n+)。實(shí)驗(yàn)中，我們?yōu)槊糠鶊D像選取 k=100 個(gè) “近鄰”圖像。4.2實(shí)驗(yàn)結(jié)果我們將本文提出的方法與以往的多個(gè)算法進(jìn)行了比較，比較結(jié)果如表 1 所示。相比于 jec3方法，盡管我們的方法與它采用了相同的視覺特征來計(jì)算“近鄰”圖像，但卻在 p，r 和 n+三個(gè)測度上分別提高了 4%，4%和 12。同時(shí)，相比于以往方法中其他復(fù)雜模型的結(jié)果，如 msc4，lasso3和 gs5，我們的方法也取得了最好的效果，這證明了本文提出的基于結(jié)構(gòu)學(xué)習(xí)的圖像標(biāo)注方法的有效性。5結(jié)論本文給出了一種基于結(jié)構(gòu)學(xué)習(xí)的自動(dòng)圖像標(biāo)注方法。在本文中，圖像標(biāo)注問題被看作一個(gè)結(jié)構(gòu)學(xué)習(xí)的問題。我們提出通過 structural svm 框架來學(xué)習(xí)一個(gè)評(píng)價(jià)函數(shù)，并利用該函數(shù) 來評(píng)估不同的候選標(biāo)簽相對(duì)于給定圖像的相關(guān)性。在基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示，相比于以往方法公布的實(shí)驗(yàn)結(jié)果，本文在準(zhǔn)確率和召回率等測度上均取得了最優(yōu)的結(jié)果。參考文獻(xiàn) (references)1501 i. tsochantaridis, t. joachims, t. hofmann, y. altun. large margin methods for structured and interdependent output variablesj. journal of machine learning research, 2006, 6: 1453.2 t. joachims, t. finley. cutting-plane training of structural svmsj. machine learning, 2009, 77: 27-59. 3 a. makadia, v. pavlovic, s. kumar. a new baseline for image annotationa. proceedings of the 10th155160european conference on computer visionc. marseille, france4 wang c, yan s, zhang l, zhang h j. multi-la

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 工程機(jī)械

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

一種基于結(jié)構(gòu)學(xué)習(xí)的圖像標(biāo)注方法.doc

文檔簡介

溫馨提示

最新文檔

評(píng)論

一種基于結(jié)構(gòu)學(xué)習(xí)的圖像標(biāo)注方法.doc

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔