信息組織與檢索第五章-多媒體數(shù)據(jù)內(nèi)容描述模型

上傳人：q*** IP屬地：湖北上傳時(shí)間：2023-01-16 格式：PPT 頁數(shù)：39 大?。?65.50KB 積分：28 舉報(bào) 版權(quán)申訴

信息組織與檢索第五章-多媒體數(shù)據(jù)內(nèi)容描述模型_第2頁

信息組織與檢索第五章-多媒體數(shù)據(jù)內(nèi)容描述模型_第3頁

信息組織與檢索第五章-多媒體數(shù)據(jù)內(nèi)容描述模型_第4頁

信息組織與檢索第五章-多媒體數(shù)據(jù)內(nèi)容描述模型_第5頁

已閱讀5頁，還剩34頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2023/1/161第5章多媒體數(shù)據(jù)內(nèi)容描述模型

多媒體信息檢索系統(tǒng)的數(shù)據(jù)建模：數(shù)據(jù)類型的復(fù)雜結(jié)構(gòu)表達(dá)多媒體的特征內(nèi)容本章主要介紹第二方面的模型即多媒體的內(nèi)容描述模型

2023/1/162第5章本章內(nèi)容5.1什么是多媒體內(nèi)容5.2多媒體內(nèi)容的一般模型5.3圖像內(nèi)容描述5.4視頻內(nèi)容描述5.5音頻內(nèi)容描述5.6MPEG-7簡介5.7小結(jié)2023/1/1635.1什么是多媒體內(nèi)容“內(nèi)容”（content）表示包含和含義是本質(zhì)而區(qū)別于形式是構(gòu)成概念的性質(zhì)、想法和觀念元素的集合。表示包含在多媒體數(shù)據(jù)中的特性、含義和信息線索，而區(qū)別于其外部和一般性的屬性。2023/1/1645.1什么是多媒體內(nèi)容“內(nèi)容”的層次概念級內(nèi)容。表達(dá)對象的語義。感知特性。視覺特性，例如顏色、紋理、形狀、輪廓、運(yùn)動(dòng)等；聽覺特性。例如音高、音色、音質(zhì)等。邏輯關(guān)系。視頻音頻對象的時(shí)間和空間關(guān)系，語義和上下文關(guān)聯(lián)等。信號特性。通過信號處理算法得出的明顯的媒體區(qū)分特征，例如通過小波分析得出的特征。特定領(lǐng)域的特征。應(yīng)用相關(guān)的媒體特征，例如人的面部特征，指紋特征。需要用到領(lǐng)域知識。2023/1/1655.2多媒體內(nèi)容的一般模型一、模型元素媒體數(shù)據(jù)：模型描述的視聽資料，它可以是整體的或局部的視聽對象。例如圖像、視頻、音頻、文本等媒體數(shù)據(jù)。

特征媒體數(shù)據(jù)的性質(zhì)。例如視覺特征：顏色、紋理、形狀等。2023/1/1665.2多媒體內(nèi)容的一般模型特征子特征子是特征的一種描述符。特征子具有特征值。一個(gè)特征可能有多個(gè)特征子。例如對于形狀特征，可能的特征子有：復(fù)立葉形狀特征、矩不變特征、輪廓特征等。2023/1/1675.2多媒體內(nèi)容的一般模型關(guān)系關(guān)系表示各特征之間的關(guān)系結(jié)構(gòu)和語義。時(shí)間結(jié)構(gòu)關(guān)系（時(shí)基媒體）空間結(jié)構(gòu)關(guān)系（對象、元素之間）語義關(guān)系（詞語、謂語，表達(dá)“意味”、“論斷”等關(guān)系）視聽關(guān)系（例如，更明亮些）等。

2023/1/1685.2多媒體內(nèi)容的一般模型媒體數(shù)據(jù)特征多重特征子特征值

圖3.1模型元素MFD2023/1/1695.2多媒體內(nèi)容的一般模型二、分層內(nèi)容模型低層：媒體層媒體數(shù)據(jù)的物理和形式方面的描述例如像素、樣本、編碼模式(如JPEG，MPEG)、數(shù)據(jù)大小、時(shí)間存取刻度等。中間層：特征層描述視覺和聽覺特征這些特征可以是全局分布特征和局部結(jié)構(gòu)特征2023/1/16105.2多媒體內(nèi)容的一般模型二、分層內(nèi)容模型高層：語義層表示對象和場景的概念、語義、事件和敘事過程內(nèi)容元素之間的關(guān)系即各屬性之間存在的時(shí)間、空間、語義關(guān)系金字塔型：從模型的寬底到窄的頂點(diǎn)，表示內(nèi)容的概要和抽象程度。越往上，表示抽象的程度越高，所需要的表示內(nèi)容的數(shù)據(jù)就越少。

2023/1/16115.2多媒體內(nèi)容的一般模型多媒體內(nèi)容一般屬性視聽屬性(a)多媒體內(nèi)容劃分語義特征媒體關(guān)系(b)視聽內(nèi)容模型圖3.2一般的層次內(nèi)容模型HCMMLFLSLAgAavHCM={Ag,Aav(SL

,FL

,ML)|,}

2023/1/16125.3圖像內(nèi)容描述一、圖像的屬性一般屬性

從圖像外部導(dǎo)出的不依賴于其內(nèi)容的圖像屬性，有的文獻(xiàn)稱為“元屬性”。如拍攝圖像的日期、圖像識別碼、圖像設(shè)備的風(fēng)格、圖像的大小等。

邏輯屬性

描述一個(gè)圖像的實(shí)體和對象集合的性質(zhì)稱為圖像邏輯屬性如一幅圖像中包含的對象數(shù)，對象間的空間關(guān)系等

2023/1/16135.3圖像內(nèi)容描述一、圖像的屬性物理屬性

指圖像客觀存在的視覺能夠區(qū)分的性質(zhì)如一幅圖像的顏色、圖像對象的形狀、紋理等語義屬性

描述圖像所表明的高層領(lǐng)域概念的屬性語義屬性的說明常包含主觀、個(gè)人的印象，具有很大的不確定性2023/1/16145.3圖像內(nèi)容描述圖像屬性描述屬性一般屬性視覺屬性物理屬性邏輯屬性語義屬性圖像圖像對象2023/1/16155.3圖像內(nèi)容描述二、圖像內(nèi)容模型物理層：由圖像基表示和圖像對象基表示類組成，它提供原始圖像數(shù)據(jù)，即圖像的物理表示及物理特性。邏輯層：由圖像邏輯表示和圖像對象邏輯表示類組成，表示圖像的空間結(jié)構(gòu)、對象及其關(guān)系。語義層：提供了從用戶的觀點(diǎn)捕捉的語義內(nèi)容、一般屬性，以及從邏輯結(jié)構(gòu)中轉(zhuǎn)換的語義。2023/1/16165.3圖像內(nèi)容描述視覺物理特征顏色、輪廓、紋理邏輯特征時(shí)間空間結(jié)構(gòu)、對象及其關(guān)系描述語義屬性、主題、敘事描述視覺內(nèi)容描述模型2023/1/16175.4視頻內(nèi)容描述一、視頻結(jié)構(gòu)視頻數(shù)據(jù)的結(jié)構(gòu)單元幀（Frame）：是一幅靜態(tài)的圖像，是組成視頻的最小邏輯單元

鏡頭（Shot）：是由一系列幀組成的一段視頻，一個(gè)攝像機(jī)的連續(xù)拍攝動(dòng)作形成了一個(gè)鏡頭場景（Scene）：可能包含多個(gè)鏡頭，針對的是同一環(huán)境下的同一批對象，但拍攝的角度和技法不同，它是一個(gè)有意義的故事單元幕（Act）：又稱為視頻節(jié)目（program），它由一系列相關(guān)的場景組成的一大段視頻，包含一個(gè)完整的事件或故事

2023/1/16185.4視頻內(nèi)容描述二、鏡頭邊界鏡頭之間的銜接處稱之為鏡頭邊界鏡頭轉(zhuǎn)換的形式切變：指一個(gè)鏡頭與另一個(gè)鏡頭之間沒有過渡，由一個(gè)鏡頭的瞬間直接轉(zhuǎn)換到另一個(gè)鏡頭的方法漸變：指一個(gè)鏡頭到另一鏡頭的漸漸過渡過程，沒有明顯的視覺跳躍

2023/1/16195.4視頻內(nèi)容描述三、鏡頭邊界模型以圖像變換來建立一個(gè)數(shù)學(xué)模型兩個(gè)給定鏡頭Sk(x,y,t)、Sk+1(x,y,t)分別表示編輯段前和編輯段后的鏡頭(x,y,t)分別表示鏡頭的空間維和時(shí)間維編輯效果模型定義：

2023/1/16205.4視頻內(nèi)容描述三、鏡頭邊界模型編輯效果的類型

直接切換。例如突變，Ts和Tc都為1，是直接相加操作?？臻g編輯。僅對兩個(gè)鏡頭的空間特性進(jìn)行操作，不對顏色特性進(jìn)行處理。即Ts是一個(gè)變換函數(shù)，而Tc則為1，例如頁變化、翻頁、碎片編輯效果等。這時(shí)是一種疊加處理。2023/1/16215.4視頻內(nèi)容描述三、鏡頭邊界模型編輯效果的類型

色彩編輯。只對兩個(gè)鏡頭的顏色值進(jìn)行處理，而不操作像素的空間關(guān)系。即Tc是一個(gè)變化過程的函數(shù)，而Ts則為1，例如淡入、淡出和漸隱漸出等空間-色彩編輯。在編輯處理中同時(shí)對兩個(gè)鏡頭的空間和顏色特性進(jìn)行處理，這種編輯效果包括圖像變形和劃入劃出等2023/1/16225.4視頻內(nèi)容描述四、視頻運(yùn)動(dòng)視頻鏡頭的運(yùn)動(dòng)搖鏡頭

俯攝和仰攝

推拉攝影

跟蹤

…..2023/1/16235.4視頻內(nèi)容描述四、視頻運(yùn)動(dòng)視頻對象的運(yùn)動(dòng)在一段時(shí)間內(nèi)，視頻中的對象運(yùn)動(dòng)的情況

運(yùn)動(dòng)方向、速度大小的變化運(yùn)動(dòng)軌跡…..2023/1/16245.4視頻內(nèi)容描述五、視頻的內(nèi)容模型層次化內(nèi)容表示幀鏡頭場景視頻節(jié)目2023/1/16255.4視頻內(nèi)容描述五、視頻的內(nèi)容模型空間和時(shí)間結(jié)構(gòu)描述敘事結(jié)構(gòu)：場景的組織故事單元：鏡頭的組織時(shí)間結(jié)構(gòu)：視頻段及其對象空間結(jié)構(gòu)：視頻幀中的對象2023/1/16265.4視頻內(nèi)容描述鏡頭鏡頭鏡頭敘事結(jié)構(gòu)故事單元:場景空間關(guān)系場景場景場景場景場景對象對象對象視頻內(nèi)容模型2023/1/16275.5音頻內(nèi)容描述一、音頻的基本類型波形聲音。對模擬聲音數(shù)字化得到的數(shù)字音頻信號，它可以代表語音、音樂、自然界和合成的聲響語音。具有詞字、語法等語素，是一種高度抽象的概念交流媒體音樂。具有節(jié)奏、旋律或和聲等要素，是人聲或樂器音響等配合所構(gòu)成的一種聲音2023/1/16285.5音頻內(nèi)容描述二、音頻的內(nèi)容模型音樂敘事、音頻對象描述語音識別文本、探測結(jié)果......

感知特征：音調(diào)、音高；旋律、節(jié)奏、...

聲學(xué)特征：能量、過零率、LPC系數(shù)...

音頻結(jié)構(gòu)化表示采樣率、時(shí)間刻度、樣本、格式、編碼......語義級聲學(xué)特征級物理樣本級音頻內(nèi)容分層描述模型2023/1/16295.5音頻內(nèi)容描述三、音頻的結(jié)構(gòu)模型音頻(A)音頻場景(S)音頻對象(O)音頻流圖3.7音頻的結(jié)構(gòu)模型2023/1/16305.6MPEG-7簡介一、什么是MPEG-7視聽信息的“表示形式”。超越基于波形或基于樣本、基于壓縮(例如MPEG-1和MPEG-2)、或者甚至是基于對象(如MPEG-4)的表示。“表示形式”能夠在某種程度上對信息含義進(jìn)行注釋，設(shè)備或計(jì)算機(jī)代碼可以傳遞和存取這些注釋。

2023/1/16315.6MPEG-7簡介一、什么是MPEG-7MPEG-7的目標(biāo)就是產(chǎn)生一種描述多媒體內(nèi)容數(shù)據(jù)的標(biāo)準(zhǔn)，滿足實(shí)時(shí)、非實(shí)時(shí)以及推-拉應(yīng)用的需求。MPEG-7不針對特定的應(yīng)用領(lǐng)域，而是支持盡可能廣泛的應(yīng)用領(lǐng)域。

1996年10月，MPEG開始了一項(xiàng)新的工作

“多媒體內(nèi)容描述接口”(MultimediaContentDescriptionInterface)，簡稱為MPEG-72023/1/16325.6MPEG-7簡介一、什么是MPEG-7MPEG-1、MPEG-2和MPEG-4是內(nèi)容本身的表示，而MPEG-7是有關(guān)內(nèi)容的信息(是比特的比特)。

MPEG-7將規(guī)范一組“描述子”，用于描述各種多媒體信息。

帶有MPEG-7數(shù)據(jù)的視聽（AV）資料可以包含靜止圖象、圖形、3D模型、音頻、語音、視頻，以及這些元素如何在多媒體表現(xiàn)中組合的信息2023/1/16335.6MPEG-7簡介二、MPEG-7中的主要概念數(shù)據(jù)數(shù)據(jù)(Data)是利用MPEG-7描述的視聽資料，不考慮它們的存儲、編碼、顯示、傳輸、媒介或技術(shù)

圖形、靜止圖象、視頻、影片、音樂、語音、聲音、文本和其它相關(guān)的AV媒體

特征數(shù)據(jù)的獨(dú)特性質(zhì)例如：圖像的顏色、語音的聲調(diào)、音頻的旋律、鏡頭的運(yùn)動(dòng)、視頻的風(fēng)格、影片的名稱、影片中的角色等都是多媒體數(shù)據(jù)的特征

2023/1/16345.6MPEG-7簡介二、MPEG-7中的主要概念描述子D(Descriptor)是特征的表示。描述子定義特征表示的語法和語義。描述子可以賦予描述值?？赡芤粋€(gè)特征有多個(gè)描述子。例如顏色特征，可能的描述子有：顏色直方圖、頻率分量的平均值、顏色矩等。

2023/1/16355.6MPEG-7簡介二、MPEG-7中的主要概念描述子值是描述子的實(shí)例描述模式DS(DescriptionScheme)說明其成員之間的關(guān)系結(jié)構(gòu)和語義。它的成員可以是描述子和描述模式。DS和D的區(qū)別是：D僅僅包含基本的數(shù)據(jù)類型，不引用其它D或DS。例如對于影片，時(shí)間結(jié)構(gòu)化為場景和鏡頭（描述模式DS），在場景級包括一些文本描述子，在鏡頭級包含顏色、運(yùn)動(dòng)和一些音頻描述子。

2023/1/16365.6MPEG-7簡介二、MPEG-7中的主要概念描述(Description)由一個(gè)描述模式DS(結(jié)構(gòu))和一組描述子值組成編碼的描述(CodedDescription)是已經(jīng)經(jīng)過編碼的描述，滿足諸如壓縮效率、差錯(cuò)恢復(fù)和隨機(jī)存取的相關(guān)要求

2023/1/16375.6MPEG-7簡介二、MPEG-7中的主要概念描述定義語言DDL(DescriptionDefinitionLanguage)是一種允許產(chǎn)生新的描述模式和描述子的語言就

人人文庫> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

信息組織與檢索第五章-多媒體數(shù)據(jù)內(nèi)容描述模型

文檔簡介

溫馨提示

最新文檔

評論

信息組織與檢索第五章-多媒體數(shù)據(jù)內(nèi)容描述模型

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔