圖像檢索中的元數(shù)據(jù)分析_第1頁(yè)
圖像檢索中的元數(shù)據(jù)分析_第2頁(yè)
圖像檢索中的元數(shù)據(jù)分析_第3頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

圖像檢索中的元數(shù)據(jù)分析

1、引言隨著計(jì)算機(jī)和網(wǎng)絡(luò)的普及,人們對(duì)數(shù)字圖像信息的需求與日俱增,有關(guān)圖像檢索、存儲(chǔ)方面的技術(shù)逐漸受到重視,并得到了快速發(fā)展。圖像檢索技術(shù)主要分為基于內(nèi)容圖像檢索(CBIR)和基于文本圖像檢索(TBIR)兩大類。TBIR是借用文本索引技術(shù),手工將圖像文件內(nèi)容標(biāo)注為一系列關(guān)鍵字,并對(duì)關(guān)鍵字建立索引。這種檢索技術(shù)對(duì)圖像處理的技術(shù)性要求不是太高,且操作方便,便于理解,在圖像檢索中應(yīng)用得比較廣泛,人們的研究重點(diǎn)已相應(yīng)轉(zhuǎn)移到了基于文本的圖像元數(shù)據(jù)標(biāo)準(zhǔn)的制定上:希望通過(guò)對(duì)元數(shù)據(jù)標(biāo)準(zhǔn)的完善來(lái)更加準(zhǔn)確地刻畫圖像的特征,以更好地滿足檢索需求。圖像元數(shù)據(jù)繼承并發(fā)展了對(duì)TBIR的研究,TBIR和圖像元數(shù)據(jù)也因此一直有著較為緊密的聯(lián)系。

而自從CBIR提出以后,其較強(qiáng)的技術(shù)性及在考古、醫(yī)學(xué)等專業(yè)內(nèi)的高度適用性很快引起了相關(guān)研究及應(yīng)用領(lǐng)域人員的重視。CBIR突破了傳統(tǒng)檢索技術(shù)的局限,直接對(duì)圖像內(nèi)容進(jìn)行分析,抽取特征和語(yǔ)義,利用這些內(nèi)容特征建立索引并進(jìn)行檢索,同時(shí)融合了模式識(shí)別、計(jì)算機(jī)視覺(jué)及圖像理解等技術(shù),雖然目前仍只在一些專業(yè)領(lǐng)域內(nèi)研究,但隨著MPEG-7的推出,其使用范圍大大擴(kuò)展,人們對(duì)它的發(fā)展前景無(wú)疑是看好的。

然而在熱點(diǎn)背后,我們也應(yīng)該看到,無(wú)論是對(duì)元數(shù)據(jù)的研究還是對(duì)CBIR的討論,以往都局限于各自的范圍,CBIR和TBIR在被論述時(shí)常常是建立在兩者不和諧的基調(diào)上,它們各自所對(duì)應(yīng)的元數(shù)據(jù)集之間很難兼容,CBIR和圖像元數(shù)據(jù)聯(lián)系也相對(duì)薄弱。面對(duì)這樣一種不協(xié)調(diào)的情況,筆者認(rèn)為,應(yīng)該站在一個(gè)新的相對(duì)統(tǒng)一的層面上,以用戶需求作為出發(fā)點(diǎn),重新看待兩種圖像檢索技術(shù)及其相互之間的關(guān)系,而作為兩種檢索技術(shù)支撐基礎(chǔ)的圖像元數(shù)據(jù)則應(yīng)成為它們相互補(bǔ)充和融合的平臺(tái)——而不是區(qū)分它們的一個(gè)指標(biāo)。為此,本文對(duì)幾個(gè)有代表性的,使用較為廣泛的圖像元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行了考察,希望能在此基礎(chǔ)上對(duì)兩種圖像檢索技術(shù)的融合問(wèn)題提供一個(gè)側(cè)面的依據(jù)。2、圖像元數(shù)據(jù)及相關(guān)標(biāo)準(zhǔn)評(píng)價(jià)數(shù)字圖像可供檢索的屬性主要有以下幾方面:①圖像創(chuàng)建信息;②圖像的顏色、紋理、形狀等原始特征;③物體的布局、擺放形式;④對(duì)圖像表現(xiàn)事件的描述;⑤特定的人、地點(diǎn)、事件;⑥和圖像相關(guān)的主觀感情[1]。作為圖像元數(shù)據(jù),無(wú)論是基于何種技術(shù),在對(duì)圖像進(jìn)行描述時(shí),都必須要盡可能準(zhǔn)確地反映這些特征,即圖像元數(shù)據(jù)的選擇與制定要受到圖像特征這一客觀因素的制約,這是圖像元數(shù)據(jù)與一般元數(shù)據(jù)的主要區(qū)別所在,下面就VRACore,MOA2,CDL,RLG,TMD,METS,MPEG-7等7種圖像元數(shù)據(jù)標(biāo)準(zhǔn)作簡(jiǎn)要介紹。2.1VRACore3.0

1993年,視覺(jué)資源協(xié)會(huì)(VisualResourcesAssociation,VRA)為了更好地管理、組織和交換視覺(jué)資料資源,制定了視覺(jué)資源核心類目(TheCoreCategoriesforVisualResources,簡(jiǎn)稱VRACore)[2],最新版本為3.0版(2000年6月),由17個(gè)類目組成,每個(gè)類目相當(dāng)于其他元數(shù)據(jù)標(biāo)準(zhǔn)中的一個(gè)元素。

該標(biāo)準(zhǔn)建立目的是為了實(shí)現(xiàn)網(wǎng)絡(luò)中圖像以及視覺(jué)資源的共享,所以與主要用于存儲(chǔ)的元數(shù)據(jù)集相比,這些元素在完整地描述一個(gè)圖像資源方面并沒(méi)有更多的優(yōu)勢(shì)[3]。該標(biāo)準(zhǔn)所涉及到的圖像特征有相當(dāng)一部分是屬于語(yǔ)義層次上的,對(duì)圖像顏色、紋理等原始特征的描述較少,可以較好滿足用戶根據(jù)圖像抽象特征進(jìn)行的檢索,尤其適用于藝術(shù)類圖像資源的管理。2.2MOA2元數(shù)據(jù)

MOA2(TheMakingOfAmericaⅡ)是數(shù)字圖書館聯(lián)盟(DigitalLibraryFederation,DLF)進(jìn)行的一個(gè)數(shù)字圖書館研究項(xiàng)目,它將圖像元數(shù)據(jù)分為三大類:①描述性元數(shù)據(jù),主要用于發(fā)現(xiàn)、識(shí)別和定位數(shù)字圖像,對(duì)此MOA2推薦使用已有標(biāo)準(zhǔn)(如:MARC、DC、EAD等);②結(jié)構(gòu)性元數(shù)據(jù),是與數(shù)字圖像的呈現(xiàn)有關(guān)的元數(shù)據(jù),用于描述數(shù)字圖像之間的關(guān)系以及數(shù)字圖像的顯示格式等信息,包括描述一個(gè)完整對(duì)象的元數(shù)據(jù)和描述數(shù)字對(duì)象的元數(shù)據(jù)兩類;③管理性元數(shù)據(jù),主要是數(shù)字圖像的產(chǎn)生信息、識(shí)別信息、版權(quán)信息等。該標(biāo)準(zhǔn)的重點(diǎn)在于結(jié)構(gòu)性元數(shù)據(jù)和管理性元數(shù)據(jù)[2]。

MOA2在管理性元數(shù)據(jù)方面較VRACore而言,更為詳細(xì),對(duì)圖像的描述也更為專業(yè)化;對(duì)圖像之間的關(guān)系有比較完整的描述機(jī)制是其一大特色,這對(duì)圖像資源建設(shè)中結(jié)構(gòu)層次的建立很有益處。在對(duì)圖像特征的表達(dá)上,對(duì)原始特征的描述有較強(qiáng)的技術(shù)性,這反映在管理性元數(shù)據(jù)和結(jié)構(gòu)性元數(shù)據(jù)兩類元數(shù)據(jù)的設(shè)置上;在對(duì)圖像主題的描述方面,主要依賴于所采用的描述性元數(shù)據(jù)的標(biāo)準(zhǔn)。2.3CDL元數(shù)據(jù)

CDL(CaliforniaDigitalLibrary)是加利福尼亞大學(xué)提供的數(shù)字資源網(wǎng)絡(luò)門戶為其數(shù)字圖像的質(zhì)量、格式、存儲(chǔ)和訪問(wèn)制定的一系列標(biāo)準(zhǔn),基本采用MOA2的元數(shù)據(jù)定義,也將元數(shù)據(jù)分為描述性、結(jié)構(gòu)性和管理性元數(shù)據(jù)三類,重點(diǎn)也在后兩類上[2]。對(duì)于描述性元數(shù)據(jù),和MOA2類似,CDL允許各個(gè)使用者采取不同的元數(shù)據(jù)集,只需DescriptiveMetadataType元素中說(shuō)明采用的元數(shù)據(jù)集的名稱種類。CDL將數(shù)字對(duì)象劃分為簡(jiǎn)單數(shù)字對(duì)象和復(fù)雜數(shù)字對(duì)象,并為它們分別定義元數(shù)據(jù),這一點(diǎn)與MOA2的對(duì)象與子對(duì)象類似。MOA2和CDL都是注重管理性元數(shù)據(jù)和結(jié)構(gòu)性元數(shù)據(jù)的元數(shù)據(jù)集,劃分標(biāo)準(zhǔn)基本一致,以結(jié)構(gòu)性元數(shù)據(jù)為例:兩個(gè)標(biāo)準(zhǔn)中的結(jié)構(gòu)性元數(shù)據(jù)有近一半的具體元素是相同的,只是分屬子類別有所不同,除此之外,MOA2對(duì)圖像描述性的技術(shù)參數(shù)更多一些;而CDL則更符合結(jié)構(gòu)性元數(shù)據(jù)的性質(zhì),將簡(jiǎn)單數(shù)字對(duì)象和復(fù)雜數(shù)字對(duì)象放在一個(gè)子集中,同時(shí)附以相應(yīng)的參照,可以更好地反映圖像文件之間層次關(guān)系。在對(duì)圖像原始特征描述上CDL比MOA2更進(jìn)一步,技術(shù)性也有所加強(qiáng),但主要是服務(wù)于圖像管理和顯示輸出。這兩個(gè)元數(shù)據(jù)標(biāo)準(zhǔn)在圖像管理方面可以較好地滿足用戶要求,雖然是基于文本技術(shù)的,但是對(duì)圖像原始特征的描述非常接近于專業(yè)的圖像信息技術(shù)。2.4RLG存儲(chǔ)元數(shù)據(jù)集

1998年,ResearchLibraryGroup(RLG)成立了一個(gè)工作組,專門研究存儲(chǔ)性元數(shù)據(jù)。他們?cè)贒C和USMARC的基礎(chǔ)上提出了他們認(rèn)為是對(duì)數(shù)據(jù)文件至關(guān)重要的16個(gè)元素。由于該元數(shù)據(jù)集主要作用于數(shù)字圖像的存儲(chǔ),所以版權(quán)、使用權(quán)等方面的信息沒(méi)有納入在內(nèi),文件類型方面的因素也被酌情忽略[4]。

該元數(shù)據(jù)集主要滿足的是圖像存儲(chǔ)需要,偏重于管理性元數(shù)據(jù),其元素大多反映的是圖像的原始特征,雖然技術(shù)性較強(qiáng),但比較簡(jiǎn)單,沒(méi)有涉及語(yǔ)義、概念層次上的特征,所以只能被一些專業(yè)的圖像資源管理組織在圖像存儲(chǔ)時(shí)采用,不僅不適用于一般用戶在互聯(lián)網(wǎng)上查找圖像,而且在圖像檢索專業(yè)領(lǐng)域內(nèi)也無(wú)法推廣使用。2.5NISODraftStandard:DataDictionary-TechnicalMetadataforDigitalStillImages(TMD)

該標(biāo)準(zhǔn)于1999年由美國(guó)國(guó)家信息標(biāo)準(zhǔn)局、圖書館情報(bào)資源委員會(huì)和研究圖書館協(xié)會(huì)三個(gè)組織召開專家會(huì)議討論制定。制定該標(biāo)準(zhǔn)目的在于推動(dòng)圖像處理中驗(yàn)證、管理、傳輸?shù)燃夹g(shù)的應(yīng)用。與會(huì)專家分別從圖像特征、圖像制作與復(fù)制、圖像確認(rèn)與完整性三個(gè)方面提出了一系列供參考的元素,希望從中整合出最后的元數(shù)據(jù)元素集[2]。該元數(shù)據(jù)集與RLG存儲(chǔ)元數(shù)據(jù)集有著類似的風(fēng)格,但卻更為詳細(xì)和全面,技術(shù)性強(qiáng)是它最主要的特征。在對(duì)圖像內(nèi)容的描述上,有關(guān)圖像原始特征的元數(shù)據(jù)更為全面,充分反映了圖像在色彩、層次上的特點(diǎn),向CBIR又跨進(jìn)了一步,但由于它仍是基于文本的,這些參數(shù)并不能被大多數(shù)互聯(lián)網(wǎng)用戶所理解,只限于圖書情報(bào)中圖像資源管理及應(yīng)用專業(yè)領(lǐng)域內(nèi)的使用。3、從圖像元數(shù)據(jù)標(biāo)準(zhǔn)看TBIR與CBIR圖像元數(shù)據(jù)是圖像檢索的基礎(chǔ)和依據(jù),直接關(guān)系著檢索入口,它所采用的圖像特征,對(duì)用戶檢索采用的相應(yīng)策略和效果有著直接影響。一定程度上,元數(shù)據(jù)標(biāo)準(zhǔn)的制定可以促進(jìn)檢索技術(shù)發(fā)展;另一方面,圖像檢索技術(shù)的實(shí)現(xiàn)和使用情況也反映了元數(shù)據(jù)標(biāo)準(zhǔn)是否合理:這兩方面是互相影響、互相牽制、互相促進(jìn)的。

目前基于文本的圖像元數(shù)據(jù)標(biāo)準(zhǔn)還是占大多數(shù),應(yīng)用廣泛,可以滿足描述、管理等多方面需求,現(xiàn)有的大多數(shù)圖像搜索引擎所采用的都是基于文本的檢索方式;而CBIR由于缺少相應(yīng)標(biāo)準(zhǔn),總體來(lái)說(shuō)尚未成熟,大多數(shù)基于內(nèi)容的圖像檢索系統(tǒng)采用的元數(shù)據(jù)集各成體系,相互之間很難兼容。但隨著MPEG-7的推出以及圖像元數(shù)據(jù)標(biāo)準(zhǔn)的發(fā)展,相關(guān)的技術(shù)問(wèn)題會(huì)逐步得到解決。所以,從應(yīng)用情況來(lái)說(shuō),CBIR和TBIR各有其優(yōu)勢(shì)所在。

從兩種檢索技術(shù)自身來(lái)看,它們也是各有特點(diǎn),由此也帶來(lái)了它們各自較為固定的用戶群。作為圖像領(lǐng)域研究熱點(diǎn)的CBIR在技術(shù)上無(wú)疑比TBIR更為先進(jìn),在滿足用戶需求上的優(yōu)勢(shì)也是顯而易見。首先,描述圖像資源時(shí),采用的是顏色、紋理、形狀等特征,更為直觀和客觀,避免了TBIR中資源管理者著錄時(shí)所帶有的主觀傾向[7];其次,在醫(yī)學(xué)、考古等專業(yè)領(lǐng)域內(nèi),根據(jù)紋理、顏色等特征進(jìn)行的檢索需求較多,這是TBIR所難以解決的;再次,TBIR雖然也可以描述圖像的部分原始特征,但在應(yīng)用上因其技術(shù)性較強(qiáng)因而存在一定難度,非專業(yè)人員往往難以理解其內(nèi)在本質(zhì),對(duì)于普通用戶來(lái)說(shuō),CBIR可能更容易滿足他們根據(jù)圖像原始特征的圖像檢索,這對(duì)他們來(lái)說(shuō)更為簡(jiǎn)單方便??梢钥闯?,TBIR在圖像管理方面更為有利,CBIR則在圖像檢索方面有更大的發(fā)展空間。但也應(yīng)該看到的是,雖然CBIR在技術(shù)和理論上更為先進(jìn),但它并不能解決所有的圖像檢索問(wèn)題,比如它暫時(shí)還不能較好地揭示圖像在語(yǔ)義層次上的內(nèi)容,而這恰恰是TBIR的長(zhǎng)處所在,這也是MPEG-7雖然是以建立描述基于內(nèi)容的元數(shù)據(jù)為目的,但在標(biāo)準(zhǔn)中也納入了基于文本的主題性的元數(shù)據(jù)的原因之一;另外,CBIR在存儲(chǔ)和檢索圖像時(shí),要計(jì)算顏色、紋理、形狀等表征,必要時(shí)還需要對(duì)這些數(shù)據(jù)進(jìn)行存儲(chǔ),這就比TBIR對(duì)計(jì)算

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論