圖像語義自動標(biāo)注介紹_第1頁
圖像語義自動標(biāo)注介紹_第2頁
圖像語義自動標(biāo)注介紹_第3頁
圖像語義自動標(biāo)注介紹_第4頁
圖像語義自動標(biāo)注介紹_第5頁
已閱讀5頁,還剩20頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、介紹人:李思輝圖像語義自動標(biāo)注 課題介紹1 問題提出背景問題提出背景隨著數(shù)字影像技術(shù)與互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,互聯(lián)網(wǎng)上有約數(shù)以百億記的圖像,如何快速的檢索到用戶需要的圖片成為一個關(guān)鍵問題。目前商業(yè)化的圖像搜索引擎如baidu、Google、Yahoo等都是以文本關(guān)鍵字的形式來查詢,其關(guān)鍵字主要依靠人工標(biāo)注及Web文本,工作量巨大,且缺乏一定的客觀性。2 目前圖像檢索方式目前圖像檢索方式(1)基于文本的圖像檢索(Text-based Image RetrievalTBIR)通過關(guān)鍵字檢索,圖像庫中的關(guān)鍵字由人工標(biāo)注,現(xiàn)有互聯(lián)網(wǎng)搜索引擎主要使用此方式。優(yōu)點(diǎn):將圖的檢索問題轉(zhuǎn)為文本的檢索問題,效率高,

2、技術(shù)成熟。缺點(diǎn):需要人工給每幅圖片標(biāo)注對應(yīng)的若干個語義詞,工作量巨大。(2)基于內(nèi)容的圖像檢索(Content-based Image Retrieval CBIR)輸一幅圖像,通過計算圖像的可視特征(如顏色、紋理、形狀等)來實(shí)現(xiàn)圖像的匹配與檢索。優(yōu)點(diǎn):無需人工標(biāo)注,由計算機(jī)自動計算特征并匹配。缺點(diǎn):“語義鴻溝”使檢索出的結(jié)果不能完全反映檢索者的意圖?;趦?nèi)容的檢索結(jié)果基于內(nèi)容的檢索結(jié)果 1基于內(nèi)容的檢索結(jié)果基于內(nèi)容的檢索結(jié)果 2此概念于1992年由T.Kato在論文“Query by Visual Example - Content based Image Retrieval”中提出。最早應(yīng)

3、用是IBM的QBIC系統(tǒng),是為一個俄國博物館制作的繪畫作品查詢系統(tǒng)。目前基于內(nèi)容的圖像檢索系統(tǒng),例如:谷歌搜圖、百度識圖等,因?yàn)椤罢Z義鴻溝”的原因,都不能很好的匹配用戶的檢索意圖。所謂“語義鴻溝”是指基于圖像底層可視特征(顏色、紋理、形狀等)的匹配,并不能完全反映用戶更高層次的語義查詢,例如:生命、呵護(hù)、沉思圖像檢索問題的思考?(1)如何克服方式1中人工標(biāo)注的難題?(2)如何克服方式2中“語義鴻溝問題”?答案:讓機(jī)器代替人去做。答案:讓機(jī)器進(jìn)行多示例學(xué)習(xí)。結(jié)論:結(jié)論:讓機(jī)器通過多示例學(xué)習(xí)后自動完成圖像內(nèi)容語義的標(biāo)注,即圖像語義自動標(biāo)注。3 什么是圖像語義自動標(biāo)注什么是圖像語義自動標(biāo)注圖像自動標(biāo)

4、注圖像自動標(biāo)注(Automatic Image Annotation,AIA)就是讓計算機(jī)自動地給圖像加上能夠反映其內(nèi)容的語義關(guān)鍵詞。自動標(biāo)注的使用可以有效改善目前的圖像檢索困境。使檢索在保留基于文本關(guān)鍵詞搜索的同時,免去了人工標(biāo)注的巨大工作量,也一定程度的跨越了“語義鴻溝”。它是圖像語義理解研究領(lǐng)域的一個熱點(diǎn)。由Mori等人在1999年提出。涉及技術(shù):涉及技術(shù):圖像處理(增強(qiáng)、去噪、分割等)、計算機(jī)視覺(特征提取)、模式識別(分類和理解)、機(jī)器學(xué)習(xí)(建立分類器)等。4自動標(biāo)注方法原理自動標(biāo)注方法原理利用已標(biāo)注圖像集或其他可獲得的信息自動學(xué)習(xí)語義概念空間與視覺特征空間的關(guān)系模型,并用此模型標(biāo)注

5、未知語義的圖像。即試圖在圖像的高層語義和低層視覺特征之間建立一種映射關(guān)系,一定程度上解決“語義鴻溝”問題。(1)基于整幅圖特征的語義映射;(自然場景、紋理、建筑,不區(qū)分前后景)(2)基于規(guī)則塊或同質(zhì)區(qū)域的語義映射; (比(1)多了位置區(qū)分)(3)基于圖中物體識別的語義詞射;(語義更準(zhǔn)確、更豐富)5 用于標(biāo)注實(shí)驗(yàn)的數(shù)據(jù)集用于標(biāo)注實(shí)驗(yàn)的數(shù)據(jù)集目前較為公認(rèn)的圖像集是目前較為公認(rèn)的圖像集是Corel-5kCorel-5k它由科雷爾公司收集整理,分成三部分:(1)4000張像作為訓(xùn)練集;(2)500張作為驗(yàn)證集用來估計模型參數(shù);(3)500張作為測試集評價算法性能;5000張圖片按照每100張一個主題,

6、共分為50個主題。圖像庫中的每張圖片被標(biāo)注35個標(biāo)注詞,訓(xùn)練集中總共有374個標(biāo)注詞,在測試集中總共使用了263個標(biāo)注詞。6 特征提取的主要方法特征提取的主要方法(1)基于顏色的特征提取由于顏色特征具有對尺度、平移和旋轉(zhuǎn)等不變的特性,同時顏色特征是我們辨別物體的主要方法,所以基于顏色的特征提取是目前圖像特征提取的最常用方法。常用的顏色特征提取方法有:顏色直方圖法 顏色矩法 顏色聚合向量法顏色相關(guān)圖法 顏色集法 6 特征提取的主要方法特征提取的主要方法(2)基于紋理的特征提取紋理是物體表面固有的一種特性,它具有區(qū)域特性和旋轉(zhuǎn)不變性,反映了不同對象之間的區(qū)分。所以紋理也是圖像的主要提取特征。常用的

7、紋理特征提取方法有:局部二值模式法 灰度共生矩陣法 隨機(jī)場模型法法基于小波變化法 基于Gabor濾波器法 自回歸紋理模型法結(jié)構(gòu)法 6 特征提取的主要方法特征提取的主要方法(3)基于形狀的特征提取形狀是刻畫物體的基本特征之一,用形狀區(qū)別物體非常直觀。通過形狀特征的提取可以識別圖像中所包含的事物或?qū)ο?,從而提取出其中感興趣的目標(biāo)。常用的形狀特征提取方法有:邊界特征值法 幾何參數(shù)法形狀不變矩法 傅里葉形狀描述法 6 特征提取的主要方法特征提取的主要方法(4)基于空間關(guān)系的特征提取空間關(guān)系是指圖像中多個目標(biāo)之間的相互位置或方向關(guān)系。這些關(guān)系可分為連接、鄰接、交疊、包含等??臻g關(guān)系加強(qiáng)了圖像內(nèi)容的描述和

8、區(qū)分能力。空間關(guān)系特征提取方法:基于圖像的規(guī)則子塊分割,建立子塊索引法?;趫D像中對象或區(qū)域的分割,建立對象索引。7 圖像相似度的計算圖像相似度的計算判斷兩幅圖像是否相似,就是計算兩幅圖像的特征向量,然后將特征向量看做多維空間中的點(diǎn),然后計算兩點(diǎn)之間的距 離 , 距 離 越 短 越 相 似 。 常 用 的 距 離 度 量 公 式 有 :Minkkowsky距離,Manhattan距離,Euclidean距離,加權(quán)Euclidean距離,Chebyshev距離,Mahalanobis距離等。當(dāng)然還有其它方法,例如:支持向量機(jī)的分類學(xué)習(xí)方法,它將圖像的匹配過程看成是相似圖像的分類過程。8 圖像標(biāo)注

9、的主要方法圖像標(biāo)注的主要方法(1)基于分類的標(biāo)注算法將標(biāo)注問題看成是圖像語義分類問題。將每個語義關(guān)鍵詞都看成是一個類別標(biāo)記,則圖像標(biāo)注問題就轉(zhuǎn)化為圖像分類問題。按照每個標(biāo)注詞將訓(xùn)練集分為正例和反例;提取所有正例的全局特征和反例的全局特征;根據(jù)正反例特征值構(gòu)造分類器;用每個標(biāo)注詞分類器為待標(biāo)注圖像分類; 在所有標(biāo)注詞中選取分類值最高的幾個作為標(biāo)注詞;(具體方法模型:多示例學(xué)習(xí)、SVM、語言索引法、多樣性密度法、高斯混合模型等)8 圖像標(biāo)注的主要方法圖像標(biāo)注的主要方法(2)基于概率關(guān)聯(lián)模型的標(biāo)注算法在概率統(tǒng)計模型的基礎(chǔ)上,分析圖像區(qū)域特征與語義關(guān)鍵詞之間的共生概率關(guān)系,并以此為待標(biāo)注圖像進(jìn)行語義標(biāo)

10、注。(兩篇內(nèi)容最相似的文章,其相同單詞出現(xiàn)的概率就最高)將訓(xùn)練集中每幅圖像進(jìn)行區(qū)域分割;(每個區(qū)域可為一個視覺單詞)提取每幅圖像的區(qū)域視覺區(qū)域視覺特征;(顏色、紋理、形狀等;即提取視覺單詞)將所有圖像的區(qū)域視覺區(qū)域視覺特征聚類; (即建立視覺單詞字典)用統(tǒng)計方法計算每個區(qū)域視覺區(qū)域視覺特征與標(biāo)注詞的相關(guān)概率; (?)根據(jù)待標(biāo)注圖像的區(qū)域視覺區(qū)域視覺特征對其標(biāo)注最相關(guān)的幾個標(biāo)注詞;(具體方法模型:Co-occurrence模型、翻譯模型、LDA、CMRM、CRM、MBRM模型)8 圖像標(biāo)注的主要方法圖像標(biāo)注的主要方法(3)基于圖學(xué)習(xí)的標(biāo)注算法將已標(biāo)注圖像和未標(biāo)注圖像放在一起,將每一幅圖像視為一個

11、圖節(jié)點(diǎn),以圖像間的相似關(guān)系作為邊,實(shí)現(xiàn)標(biāo)注信息從已標(biāo)注圖像到未知圖像的傳播,從而完成對待標(biāo)注圖像的標(biāo)注任務(wù)。同樣的方法也可用于標(biāo)注詞,并依據(jù)標(biāo)注詞之間的語義相關(guān)性進(jìn)一步改善基于圖學(xué)習(xí)生成的標(biāo)注。9 標(biāo)注的評價指標(biāo)標(biāo)注的評價指標(biāo)相關(guān)相關(guān)不相關(guān)不相關(guān)檢索到檢索到AB未檢索到未檢索到CD(1)查全率 = A/(A+C) (2)查準(zhǔn)率 = A/(A+B)該評價指標(biāo)主要借鑒于文本檢索領(lǐng)域的查全率和查準(zhǔn)率,針對圖像的非精確度匹配原則,有待于尋找一種更適合的評價標(biāo)準(zhǔn)。10 WordNet在標(biāo)注中的作用WordNet是由Princeton大學(xué)的心理學(xué)家、語言學(xué)家和計算機(jī)工程師聯(lián)合設(shè)計的一種基于認(rèn)知語言學(xué)的英語

12、詞典。它按照單詞的語義將其組成一個“單詞網(wǎng)絡(luò)”,體現(xiàn)了不同單詞間的語義層次和關(guān)系(相近、對立、包容等)。在自然語言理解和人工智能的應(yīng)用研究上都具有重要的價值。在圖像語義自動標(biāo)注中,可以借助WordNet的結(jié)構(gòu)化語義信息來衡量詞匯之間的關(guān)系,從而更好的選取適當(dāng)?shù)恼Z義詞(生物、鳥類、白鴿),以及剔除冗余的語義詞(計算機(jī)、電腦)。11 課題研究可能的切入點(diǎn)課題研究可能的切入點(diǎn)(1)顏色、紋理、形狀這些底層特征間的權(quán)重、優(yōu)先序。(2)文本檢索比較成熟,從文本檢索中找一些啟發(fā)。(3)基于區(qū)域的不均勻塊分割(快速、易分割、位置相關(guān))(4)基于視覺權(quán)重的圖像特征提?。ɑ谛睦韺W(xué)的視覺焦點(diǎn))(5)從圖像+相關(guān)文本+人反饋的綜合角度提出新的方法思路,從質(zhì)上改變鴻溝現(xiàn)狀。12 問題與疑惑問題與疑惑(1)“語義鴻溝”似乎永遠(yuǎn)無法逾越,目前所有工作只是縮小“鴻溝”而已。人工標(biāo)注的訓(xùn)練集也不是最客觀、無“鴻溝”的。(特征語義,對象語義,空間關(guān)系語義,場景語義,行為語義以及情感語義)(2)若訓(xùn)練集共有500個標(biāo)注詞

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論