MPEG-7與媒體資產(chǎn)檢索_第1頁
MPEG-7與媒體資產(chǎn)檢索_第2頁
MPEG-7與媒體資產(chǎn)檢索_第3頁
MPEG-7與媒體資產(chǎn)檢索_第4頁
MPEG-7與媒體資產(chǎn)檢索_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、MPEG-7與媒體資產(chǎn)檢索                 MPEG-7與媒體資產(chǎn)檢索     1、 引言       隨著電視技術(shù)與IT技術(shù)的不斷融合,以及IT技術(shù)日新月異的發(fā)展,實現(xiàn)視音頻信息的數(shù)字化管理即所謂的媒體資產(chǎn)管理已成為可能。但要實現(xiàn)對龐大的視音頻數(shù)據(jù)進(jìn)行組織、管理及檢索,僅僅有數(shù)字化的視音頻信息是遠(yuǎn)遠(yuǎn)不夠的,這時

2、便提出了所謂的"元數(shù)據(jù)(Metadata)"技術(shù)。"元數(shù)據(jù)"就是描述數(shù)據(jù)的數(shù)據(jù),即有關(guān)視音頻信息的描述信息。但現(xiàn)在多數(shù)媒體資產(chǎn)管理系統(tǒng)都是按照傳統(tǒng)的管理信息系統(tǒng)的方式組織和管理元數(shù)據(jù)的,即將視音頻信息進(jìn)行編目,再將編目信息(元數(shù)據(jù))存入數(shù)據(jù)庫以備日后的檢索和管理。這種方式對于版權(quán)、作者、主題等等文本信息是很有效的,但是要實現(xiàn)真正的面向內(nèi)容的管理就力不從心了。針對這一問題,MPEG (Moving Picture Experts Group)推出了基于內(nèi)容的多媒體描述標(biāo)準(zhǔn)MPEG-7。MPEG-7標(biāo)準(zhǔn)重點在于AV(Audiovisual)信息的描述和定義,

3、以明確的結(jié)構(gòu)和語法來定義AV信息的內(nèi)容。它的正式名稱是"多媒體內(nèi)容描述接口(multimedia content description interface)"。通過MPEG-7格式定義的信息,使用者可以有效地搜尋、過濾和定義想要的視音頻資料。    2、 MPEG-7        MPEG-7于2001年推出,它本身并不試圖定義一種新的數(shù)字壓縮方法,而主要是針對基于內(nèi)容的多媒體描述問題。    2.1 MPEG-

4、7標(biāo)準(zhǔn)的范圍        MPEG-7是MPEG繼MPEG-1、MPEG-2、MPEG-4之后制定的新標(biāo)準(zhǔn),但它與前三個標(biāo)準(zhǔn)不同,它超越基于波形或基于樣本、基于壓縮(如MPEG-1和MPEG-2)甚至是基于對象(如MPEG-4)的表示,也超越具體的存儲方式(如可以應(yīng)用于存儲在磁帶、影片等上模擬信號也可以應(yīng)用于存儲在磁盤、光盤上的數(shù)字信號,甚至可應(yīng)用于存在于紙上的圖形、圖片),其目的是建立一種基于多媒體內(nèi)容的描述方式,以便更有效地支持多媒體資料在產(chǎn)生、存儲、交換、傳輸?shù)冗^程中的各種應(yīng)用,這些應(yīng)用包括搜索引擎、編輯工

5、具和個性化的檢索機制等。但MPEG-7并不涉及這些就在具體的應(yīng)用本身,而是僅僅定義了多媒體內(nèi)容的描述方法,圖1是關(guān)于MPEG-7標(biāo)準(zhǔn)內(nèi)容的抽象描述。            MPEG-7對多媒體信息的描述目前主要包括以下幾個方面(當(dāng)然,隨著應(yīng)用的不斷深入,MPEG-7也在不斷的擴充和完善):     有關(guān)媒體制作方面的信息(如媒體的制作商、標(biāo)題等); 有關(guān)媒體使用方面的信息(如媒體的版權(quán)、使用記錄等); 有關(guān)媒體存儲方面的信息(如媒體的編

6、碼方式、存儲格式等); 有關(guān)媒體時間域、空間域方面的信息(如媒體中的場景切換、區(qū)域分割等); 有關(guān)媒體特征方面的信息(如媒體的灰度、紋理、音頻特征等); 有關(guān)媒體內(nèi)容表述方面的信息(如媒體中包括的對象、事件及其之間的相互關(guān)系等)。2.2 MPEG-7描述MPEG-7定義了一組的描述方法和工具,主要包含: 描述子D (Descriptors):用來描述多媒體內(nèi)容的各種特征。 描述方案DS (Description Schemes):用來描述D之間的結(jié)構(gòu)及關(guān)系。 描述定義語言DDL(Description Definition Language):用來定義D和DS的語言。  &

7、#160;     一個MPEG-7描述(descriptions)由一組DS實例組成,并與AV素材的內(nèi)容鏈接,以使用戶能夠快速、有效地訪問需要的AV素材。描述可以與AV素材存儲在同一存儲系統(tǒng)中,也可以異地、遠(yuǎn)程存儲。    2.2.1描述子        MPEG-7定義了一組標(biāo)準(zhǔn)的描述子,下表列出的是一些MPEG-7的視覺描述子:     類型   &#

8、160;特征    描述子    視覺    結(jié)構(gòu)    網(wǎng)格分布    二維/三維多視圖    時間序列    三維空間坐標(biāo)系    時間插值    顏色    顏色空間  &#

9、160; 顏色量化    顏色直方圖    主顏色    可擴展顏色    顏色結(jié)構(gòu)    顏色分布    GOF/GOP顏色    紋理    邊緣直方圖    同類紋理    紋理瀏覽&

10、#160;   形狀    對象范圍    基于區(qū)域的形狀    基于輪廓的形狀    三維形狀    運動    鏡頭運動    對象運動軌跡    參數(shù)運動    運動速度   

11、; 位置    區(qū)域定位子    時空定位子     其它    人臉描述子        每個描述子都定義了標(biāo)準(zhǔn)和非標(biāo)準(zhǔn)兩個部分,標(biāo)準(zhǔn)部分定義了描述子的語法、語義及其二進(jìn)制的表示法。而操作部分是非標(biāo)準(zhǔn)的部分,許多低層的特征(如顏色直方圖等)都是可以自動抽取的,推薦使用的特征抽取及匹配算法都包含在非標(biāo)準(zhǔn)的部分。   &

12、#160;2.2.2描述方案        描述方案(DS)定義了各組成部分之間的結(jié)構(gòu)和語義關(guān)系,它由描述子(D)和描述方案(DS)組成,下面是在AV內(nèi)容描述方案中常用到的幾個概念:     語法結(jié)構(gòu):AV內(nèi)容的物理和邏輯結(jié)構(gòu),如時間片斷、空間區(qū)域的基礎(chǔ)結(jié)構(gòu)。 語義結(jié)構(gòu):語義含義的細(xì)分,如時間事件、空間對象結(jié)構(gòu)。 語法語義鏈接:語法元素與語義元素間的結(jié)合。 一個頂層的AV描述方案往往是由多個描述方案組成: 一組語法結(jié)構(gòu)描述方案(Syntactic structure DS):

13、即片斷、區(qū)域、顏色、文本、運動等物理特征的描述。 一組語義結(jié)構(gòu)描述方案(Semantic structure DS):即對象、人物或事件等語義特征,如"進(jìn)球"、"射門"、"廣告"等。 語法語義鏈接描述方案(Syntactic-semantic links DS):即語法元素和語義元素之間的關(guān)系。 摘要描述方案(Summary DS):用于不同粒度間的瀏覽。 媒體信息描述方案(MetaInfo DS):有關(guān)作者、出版者等信息的描述,包括內(nèi)容描述方案、信用描述方案、創(chuàng)作目的描述方案、版權(quán)描述方案、出版描述方案等。 介質(zhì)信息描述方案(Med

14、iaInfo DS):有關(guān)存儲介質(zhì)的描述,如文件格式、存儲介質(zhì)、壓縮格式、長度等。 模式描述方案(Model DS):提供AV數(shù)據(jù)的分類方法的描述或當(dāng)前AV內(nèi)容和其它內(nèi)容間的通信的不同方法。    圖2是一個AV描述方案的結(jié)構(gòu)描述:        2.2.3 DDL語言        DDL語言可以創(chuàng)建新的描述方案和描述子,也可以擴展或修改現(xiàn)有的描述方案。MPEG-7的DDL語言以XML語言為基礎(chǔ)

15、,但由于XML并不是專門用來作為AV內(nèi)容描述語言來設(shè)計的,因此MPEG-7在XML的基礎(chǔ)上作了進(jìn)一步的擴展。MPEG-7的DDL語言主要包括以下幾個部分:     XML語言的結(jié)構(gòu)部分 XML語言的數(shù)據(jù)類型部分 MPEG-7的擴展部分    DDL語言、描述方案、描述子之間的關(guān)系見圖3。        3、 基于MPEG-7的媒體資產(chǎn)檢索        檢索

16、是媒體資產(chǎn)管理系統(tǒng)中的重要環(huán)節(jié),沒有效的檢索機制媒體資產(chǎn)管理也就沒有意義了?;贛PEG-7建立起來的媒體資產(chǎn)管理系統(tǒng)不僅可以包含傳統(tǒng)的視音頻信息,還可將其它多媒體信息(如做宣傳片時所建的3D模型等)納入其中,并且可超越存儲方式(無論是在線、近線還是離線)建立檢索機制。    3.1基于MPEG-7的媒體資產(chǎn)管理系統(tǒng)的結(jié)構(gòu)        雖然 MPEG-7描述不依賴于資料的編碼表示,但是在某種程度上,該標(biāo)準(zhǔn)建立在MPEG-4之上,在MPEG-4中定義的表示方式也非常適合MPE

17、G-7描述的建立。MPEG-4提供對視聽資料以對象方式編碼的方法,這些對象具有一定的時間(同步)和空間(空間位置和三維感受)關(guān)系。利用MPEG-4編碼,將有可能把描述附加到場景中的元素(VOP)上。因此在媒體資產(chǎn)管理系統(tǒng)中,可將輸入的視頻編碼成高、低兩種碼率的碼流,高碼率的可采用MPEG-2編碼,用于編輯、下載、播出等;低碼率的可采用MPEG-4編碼,檢索、瀏覽以及網(wǎng)絡(luò)上的傳輸。MPEG-7描述建立在MPEG-4編碼之上,MPEG-4編碼與MPEG-2編碼之間用EDL表鏈接。系統(tǒng)結(jié)構(gòu)見圖4。        3.2特

18、征自動抽取        一部視頻節(jié)目由一系列場景組成,而場景由鏡頭組成,鏡頭又由幀組成。利用鏡頭邊界檢測算法可將視頻序列分解成鏡頭,如最常用的顏色直方圖法,計算每兩幀之間的顏色直方圖的分布差,當(dāng)其超過某一閾值時,就可認(rèn)為這兩幀是兩個鏡頭的邊界。將場景被分成鏡頭后,就可利用自動關(guān)鍵幀抽取算法抽取一個或多個關(guān)鍵幀作為鏡頭的代表,供用戶瀏覽。關(guān)鍵幀抽取時,可先將第一幀作為鏡頭的第一個關(guān)鍵幀,然后將此關(guān)鍵幀與以后的每一幀作比較,當(dāng)差值超過某一閾值時,可將這一幀作為新的關(guān)鍵幀,以此類推,直到鏡頭結(jié)束。  

19、;      鏡頭分解和關(guān)鍵幀抽取完成后就可對其進(jìn)行靜態(tài)特征(形狀、顏色、紋理等)和運動特征進(jìn)行自動抽取,并生成MPEG-7的標(biāo)準(zhǔn)描述,作為日后檢索的依據(jù)。    3.3人工編目        對高層的語義描述,是不可能自動抽取的,需更多的依賴人機交互。因此專業(yè)的編目人員是建立高效的檢索機制所必不可少的。但是面對多種多樣的用戶需求,僅僅依靠幾個專業(yè)的編目人員是不可能的,一方面雖然已有了自動抽取的大量特征,但詳細(xì)的語義

20、說明仍然是一個海量的工作;另一方面,每一個人對AV素材的理解可能都不盡相同,既使是非常高水平的編目人員也不可能滿足所有用戶的需求。因此"學(xué)習(xí)能力"也就成為對媒體資產(chǎn)檢索系統(tǒng)的一種更高層的要求。        所謂的"學(xué)習(xí)能力"是指根據(jù)用戶的檢索過程生成新的描述信息的機制。例如,有一用戶鍵入"98世界杯上巴喬射失的點球"想檢索有關(guān)的AV素材時,可能以前沒有這樣的描述,所以無法找到。但用戶可能通過"98世界杯"、"點球"等一系列過程最終找到了有關(guān)素材,這時系統(tǒng)就可將"98世界杯上巴喬射失的點球"這一描述加到這一素材之上,當(dāng)再有用戶鍵入相同信息時,系統(tǒng)就可快速的找到有關(guān)素材。"學(xué)習(xí)能力"將編目、檢索兩個完全分立的近程結(jié)合起來,擴大了編目能力,也提高了系統(tǒng)的效率,使得每一個用戶都成為系統(tǒng)的編目人員,大大地減輕了編目人員的工作壓力。    &

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論