多媒體信息處理MultimediaComputing張福炎2000117課件_第1頁(yè)
多媒體信息處理MultimediaComputing張福炎2000117課件_第2頁(yè)
多媒體信息處理MultimediaComputing張福炎2000117課件_第3頁(yè)
多媒體信息處理MultimediaComputing張福炎2000117課件_第4頁(yè)
多媒體信息處理MultimediaComputing張福炎2000117課件_第5頁(yè)
已閱讀5頁(yè),還剩135頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 多媒體信息處理( Multimedia Computing )張福炎2000/11/72022/9/221內(nèi) 容0 Space of Multimedia Computing1 Media and Multimedia2 Media Processing2.1 Media Food(Value) Chain2.2 Digital Item Declaration2.3 Multimedia Content Representation(coding)2.4 Digital Item Identification and Description2.5 Content Management an

2、d Usage3 Networked Multimedia Applications2022/9/222以文本為主以音頻為主以視(音)頻為主離散媒體:text, image,連續(xù)媒體:audio, video, .0 多媒體信息處理空間媒體處理媒體類型單媒體復(fù)合媒體應(yīng)用模式單機(jī)應(yīng)用模式網(wǎng)絡(luò)應(yīng)用模式獲取(創(chuàng)建)編 輯管 理 傳 輸檢 索描 述展 現(xiàn)說(shuō) 明編 碼2022/9/223多媒體信息處理的總目標(biāo) To enable transparent and augmented use of multimedia resources across a wide range of networks an

3、d devices.使能跨越各種不同網(wǎng)絡(luò)和設(shè)備, 透明地、強(qiáng)化地使用多媒體資源。2022/9/2241.1 計(jì)算機(jī)與媒體媒體又稱媒介、媒質(zhì),指的是用于表示、存儲(chǔ)、分發(fā)、傳輸和展現(xiàn)數(shù)據(jù)(信息) 的手段、方法、工具、設(shè)備或裝置。 ( In general, one describes medium as a means for representation, storage, distribution, transmission and presentation of data. )2022/9/226計(jì)算機(jī)與媒體CPUOutputDeviceStorageInputDevice表示媒體存儲(chǔ)媒體展

4、現(xiàn)媒體展現(xiàn)媒體感覺(jué)媒體感覺(jué)媒體表示媒體傳輸媒體2022/9/227 感覺(jué)媒體 表示媒體舉例視覺(jué)媒體文字景象聽(tīng)覺(jué)媒體語(yǔ)言聲音觸覺(jué)媒體嗅覺(jué)媒體味覺(jué)媒體力,運(yùn)動(dòng),溫度氣味滋味聲音景象類 型 名 稱 分類 時(shí)間屬性/空間屬性/生成屬性 圖象(image)圖形(graphics)文本(text)視頻(video)動(dòng)畫(huà)(animation)合成語(yǔ)音MIDI音樂(lè)(MIDI)MP3音樂(lè)波形聲音(wave)2022/9/229表示媒體的時(shí)間屬性time-independent ( discrete ) media(離散媒體,值不會(huì)隨著時(shí)間而變化)text , graphics , static image, .

5、time-dependent ( continuous ) media (連續(xù)媒體,值隨著時(shí)間而變化)speech , music , video , animation, .2022/9/2210表示媒體的空間屬性1D媒體單聲道speech , music , 2D媒體雙聲道m(xù)usic ; text , image , 2D graphics ,3D及多維媒體3D graphics , 全景圖像 , 空間立體聲music , 2022/9/2211表示媒體的生成屬性自然媒體(使用數(shù)字化方法從現(xiàn)實(shí)世界獲取的媒體)取樣聲音 , image , video合成媒體(使用計(jì)算機(jī)創(chuàng)建的媒體)合成語(yǔ)音,

6、 MIDI , graphics , animation2022/9/2212多媒體系統(tǒng)中聽(tīng)覺(jué)媒體的分類 來(lái)源 機(jī)外形式 空間屬性 媒體名稱 語(yǔ)言 1D 波形語(yǔ)音 語(yǔ)言 多維 多聲道波形語(yǔ)音 非語(yǔ)言 1D 波形聲音 非語(yǔ)言 多維 雙聲道/3D立體聲 語(yǔ)言 1D 合成語(yǔ)音 語(yǔ)言 多維 多聲道合成語(yǔ)音 音樂(lè) 1D 合成音樂(lè)(MIDI音樂(lè)) 音樂(lè) 多維 多聲道合成音樂(lè)自然媒體合成媒體2022/9/2213多媒體系統(tǒng)中視覺(jué)媒體的分類 來(lái)源 機(jī)外形式 時(shí)間 空間屬性 媒體名稱 文字 靜止 2D 取樣文本 圖畫(huà) 靜止 2D 取樣圖像(image) 圖畫(huà) 靜止 3D 全景圖像 圖畫(huà) 活動(dòng) 2D 視頻(vid

7、eo) 圖畫(huà) 活動(dòng) 3D 臨境視頻 文字 靜止 2D 編碼文本(簡(jiǎn)稱文本) 圖畫(huà) 靜止 2D 二維圖形 圖畫(huà) 靜止 3D 三維圖形 圖畫(huà) 活動(dòng) 2D 二維動(dòng)畫(huà) 圖畫(huà) 活動(dòng) 3D 三維動(dòng)畫(huà)自然媒體合成媒體2022/9/22141.3 多媒體 多媒體強(qiáng)調(diào)的是使用多種媒體、綜合表達(dá)信息內(nèi)容并進(jìn)行交互式處理的技術(shù)。從本質(zhì)上來(lái)說(shuō),它具有三種最重要的特性:1 媒體的多樣性,其中至少有一種連續(xù)媒體;2 媒體的集成性(綜合性),多種不同媒體綜合地表現(xiàn)某個(gè)內(nèi)容,取得更好的效果;3 處理的交互性,使人們獲取和使用信息的過(guò)程中具有細(xì)粒度的控制和操縱能力。2022/9/2216多媒體是信息技術(shù)發(fā)展的必然趨勢(shì)計(jì)算機(jī)通

8、信大眾傳媒數(shù)值計(jì)算數(shù)據(jù)處理圖形、圖象處理聲音處理視頻處理郵 政電 報(bào)電 話傳 真數(shù)據(jù)通信綜合業(yè)務(wù)(N-ISDN)多媒體書(shū),刊,報(bào)紙廣 播電 影電 視光盤(pán)出版物交互電視網(wǎng)絡(luò)出版支持寬帶綜合業(yè)務(wù)的數(shù)據(jù)通信網(wǎng)絡(luò)信息技術(shù)走向匯聚和融合2022/9/22172.1 媒體食物(價(jià)值)鏈2022/9/2219媒體處理內(nèi)容對(duì)媒體進(jìn)行的各種處理:媒體準(zhǔn)備(media preparation)媒體獲取/媒體創(chuàng)建媒體編輯(media editing)媒體集成/組合(media integration / composition)結(jié)構(gòu)描述、特征描述、應(yīng)用描述.媒體通信/發(fā)送(media communication /

9、 delivery)媒體消費(fèi)(media consumption)媒體轉(zhuǎn)換(碼),展現(xiàn), 瀏覽, 檢索,.2022/9/2220媒體食物(價(jià)值)鏈多媒體作品(文檔)媒體集成媒體編輯媒體準(zhǔn)備媒體編輯媒體準(zhǔn)備媒體編輯媒體準(zhǔn)備媒體編輯媒體準(zhǔn)備網(wǎng)絡(luò)媒體通信媒體消費(fèi)文本圖像音頻視頻內(nèi)容(content)媒體展現(xiàn)媒體消費(fèi)媒體展現(xiàn)數(shù)字項(xiàng) (digital item)2022/9/2221多媒體(內(nèi)容)處理的7要素1 數(shù)字項(xiàng)目說(shuō)明(Digital Item Declaration)2 內(nèi)容表示(Content Representation)3 數(shù)字項(xiàng)目的標(biāo)識(shí)與描述(Digital Item Identific

10、ation and Description)4 內(nèi)容管理與使用(Content Management and Usage)5 知識(shí)產(chǎn)權(quán)管理與保護(hù)(Inte11ectual Property Management and Protection)6 內(nèi)容發(fā)送與終端及網(wǎng)絡(luò)(Terminals and Networks)7 事件報(bào)告(Event Reporting)。2022/9/22222.2 Digital Item Declaration2022/9/2223GoalEstablish a uniform and flexible abstraction and interoperable sc

11、hema for defining digital items.為定義數(shù)字項(xiàng)而建立一個(gè)統(tǒng)一、靈活的抽象表示和可互操作的模式。2022/9/2224Digital Item Declaration的需求An individual element may be referenced by multiple locations within a digital item. 一個(gè)元素可以被數(shù)字項(xiàng)中的多個(gè)地方引用.To enable applications to correctly manipulate and validate digital items.能使應(yīng)用程序正確操縱和驗(yàn)證數(shù)字項(xiàng).Ident

12、ification and revision of digital items and their components must be supportable in an open and extensible manner.對(duì)數(shù)字項(xiàng)及其組件的標(biāo)識(shí)和修改必須以開(kāi)放和可擴(kuò)展的方式進(jìn)行.2022/9/2226Digital Item Declaration的需求2Digital items explicitly define the relationships between elements and their corresponding descriptors.數(shù)字項(xiàng)對(duì)其元素與相應(yīng)描述符之間

13、的關(guān)系顯式地進(jìn)行定義Descriptors may be simple statements or full media components.描述符可以是簡(jiǎn)單語(yǔ)句也可以是整個(gè)媒體組件Descriptors can be described by other descriptors.描述符也可以由其它描述符描述Anchors must be declarable within a component that allow:descriptors to be associated with a specific point or range within a media resource.lin

14、king back from within a media resource to the anchor.錨(anchor)必須在一個(gè)組件中予以說(shuō)明,從而允許描述符與媒體資源中的一個(gè)指定點(diǎn)或指定范圍相關(guān)聯(lián),也允許從媒體資源反向鏈接到錨。2022/9/2227舉例: MPEG-4的場(chǎng)景說(shuō)明MPEG-4 視聽(tīng)場(chǎng)景(audiovisual scenes) 是由若干媒體對(duì)象(media objects)以層次方式組合而成的,最低層的稱為初級(jí)(primitive) 媒體對(duì)象, 如: still images (e.g. as a fixed background), video objects (e.g

15、. a talking person - without the background) audio objects (e.g. the voice associated with that person); text and graphics; talking synthetic heads and associated text used to synthesize the speech and animate the head;synthetic sound初級(jí)媒體對(duì)象既可以是自然媒體,也可以是合成媒體,既可以是 2維的,也可以是3維的。2022/9/2229MPEG-4的場(chǎng)景說(shuō)明MPE

16、G-4視聽(tīng)場(chǎng)景的描述可以看作一棵樹(shù), 葉節(jié)點(diǎn)是初級(jí)媒體對(duì)象, 中間節(jié)點(diǎn)是復(fù)合媒體對(duì)象(compound media objects),根節(jié)點(diǎn)則為場(chǎng)景。使用這種方法, 內(nèi)容提供商(作者)可以構(gòu)造出相當(dāng)復(fù)雜的場(chǎng)景, 例如: place media objects anywhere in a given coordinate system; apply transforms to change the geometrical or acoustical appearance of a media object; group primitive media objects in order to fo

17、rm compound media objects; apply streamed data to media objects, in order to modify their attributes (e.g. a sound, a moving texture belonging to an object; animation parameters driving a synthetic face); change, interactively, the users viewing and listening points anywhere in the scene. 2022/9/223

18、0視聽(tīng)場(chǎng)景的說(shuō)明由4個(gè)復(fù)合媒體對(duì)象(人,背景,家具,音視演示)組成。系統(tǒng)定義了一個(gè)場(chǎng)景坐標(biāo)系, 然后可以指定組成該場(chǎng)景的媒體對(duì)象在該坐標(biāo)系中的位置,并可設(shè)定用戶觀察該場(chǎng)景時(shí)所在的坐標(biāo)位置,這些位置信息都會(huì)包含在場(chǎng)景的描述中。2022/9/2231視聽(tīng)場(chǎng)景的說(shuō)明2022/9/2232視聽(tīng)場(chǎng)景的說(shuō)明1 對(duì)象是如何組合在一起的。MPEG-4的場(chǎng)景的組織呈樹(shù)狀結(jié)構(gòu),它是一個(gè)無(wú)回路的有向圖,圖中每個(gè)節(jié)點(diǎn)代表一個(gè)媒體對(duì)象。樹(shù)的結(jié)構(gòu)未必是不變的,當(dāng)增加節(jié)點(diǎn)、刪除節(jié)點(diǎn)或替換節(jié)點(diǎn)時(shí),節(jié)點(diǎn)的屬性(如位置參數(shù))就會(huì)發(fā)生修改。2 對(duì)象的空間和時(shí)間定位。MPEG-4中,每一個(gè)視聽(tīng)對(duì)象都有其空間和時(shí)間范圍, 有自己的局部

19、坐標(biāo)系。局部坐標(biāo)系是用作在空間和時(shí)間范圍內(nèi)操縱該媒體對(duì)象的手柄(handle) ,通過(guò)指定一個(gè)將對(duì)象從局部坐標(biāo)系變換到全局坐標(biāo)系的坐標(biāo)變換,可以將媒體對(duì)象放置在場(chǎng)景中規(guī)定位置處。3屬性值選擇。單個(gè)的媒體對(duì)象和場(chǎng)景描述節(jié)點(diǎn)向組合層(composition layer)提供了一組參數(shù),從而使它們的部分行為可以進(jìn)行控制。例如: 聲音的音調(diào),合成對(duì)象的顏色,可分級(jí)編碼的增強(qiáng)信息的起用和停止等。2022/9/2233多媒體內(nèi)容的展現(xiàn)2022/9/22342.3 Multimedia Content Representation(coding)2022/9/2235 Rationale (基本原理)Con

20、tent 是多媒體技術(shù)框架中最重要的要素, 它需要進(jìn)行編碼、標(biāo)識(shí)、描述、存儲(chǔ)、分發(fā)、保護(hù)、交易、消費(fèi)等等。它以滿足一組需求的數(shù)字編碼方式表示,數(shù)字內(nèi)容的有效表示將會(huì)允許開(kāi)展許多新的服務(wù).2022/9/2236Requirements 1Data Types it shall be possible to represent a large range of data types, both with natural and synthetic origin, as well as any combination of these data types, e.g. still pictures,

21、 frame-based as well as arbitrarily shaped video, specific and generic 3D models, graphics, text, natural and synthetic audio, natural and synthetic speech, etc.數(shù)據(jù)類型:應(yīng)能夠表示各種不同的數(shù)據(jù)類型,包括自然的和合成的,也包括兩者的組合。如:靜止圖像,其于幀的視頻,任意形狀的視頻,專用的和通用的3D模型,圖形,文本,自然聲音和合成聲音,自然語(yǔ)音和合成語(yǔ)音等。 2022/9/2237Requirements 2Content Varie

22、ty it shall be possible to represent any type of content for all the data types considered. 內(nèi)容種類:上述所有數(shù)據(jù)類型應(yīng)能表示任何種類的內(nèi)容。 2022/9/2238Requirements 3Efficiency it shall be possible to represent content for each of the data types above mentioned in the most bit efficient way for different target qualities;

23、 for a multimedia scene composed as a combination of various elements of the data types mentioned above, it shall be possible to selectively choose the coding efficiency/quality for each one of them. 有效性:根據(jù)不同的目標(biāo)質(zhì)量,上述每一種數(shù)據(jù)類型都使用最有效的數(shù)據(jù)位來(lái)表示內(nèi)容。對(duì)于由不同數(shù)據(jù)類型的多種元素組成的多媒體場(chǎng)景,應(yīng)能對(duì)每個(gè)元素選擇其編碼的效率/質(zhì)量。2022/9/2239Requirem

24、ents 4Scalability it shall be possible to represent all the elements in the multimedia scene in a scalable way and with a fine granularity in the dimensions considered relevant, e.g. spatial, temporal, quality.可分級(jí)性:應(yīng)能以一種可分級(jí)的方法來(lái)表示多媒體場(chǎng)景中的所有元素,且在所考慮的相關(guān)維度如時(shí)間、空間、質(zhì)量上是細(xì)粒度可分級(jí)的。2022/9/2240Requirements 5Rando

25、m Access it shall be possible to randomly access, within a limited time and with fine resolution, at all scalable layers, all elements in the multimedia scene; for a multimedia scene composed as a combination of various elements of the data types mentioned above, it shall be possible to randomly acc

26、ess each one of them.隨機(jī)存?。涸谝欢〞r(shí)間內(nèi),以比較精細(xì)的分辨率,在所有可分級(jí)的層次中,對(duì)多媒體場(chǎng)景中的所有元素可以進(jìn)行隨機(jī)存取;對(duì)于由不同數(shù)據(jù)類型元素組成的多媒體場(chǎng)景,應(yīng)能隨機(jī)存取場(chǎng)景中的每一個(gè)元素。2022/9/2241Requirements 6Error Resilience it shall be possible to selectively protect the various elements in a multimedia scene against channel errors with relevant error patterns, e.g. mo

27、bile networks, ATM networks or storage media.出錯(cuò)恢復(fù):對(duì)多媒體場(chǎng)景中的各種元素,應(yīng)能有選擇地進(jìn)行保護(hù),以免受到通道錯(cuò)誤的影響,如移動(dòng)網(wǎng)絡(luò)、 ATM網(wǎng)絡(luò)或存儲(chǔ)介質(zhì)錯(cuò)誤等。 2022/9/2242Requirements 7Interaction it shall be possible to interact with the various elements in the multimedia scene, with a fine granularity, both in space and time; for a multimedia scene

28、 composed as a combination of various elements of the data types mentioned above, it shall be possible to independently interact with each one of them.交互:無(wú)論是時(shí)間和空間,應(yīng)能以細(xì)粒度方式與多媒體場(chǎng)景中的各種元素進(jìn)行交互;對(duì)于由不同數(shù)據(jù)類型元素組成的多媒體場(chǎng)景,應(yīng)能單獨(dú)同其中的每個(gè)元素進(jìn)行交互。2022/9/2243Requirements 8Synchronization it shall be possible to synchroniz

29、e all the elements in the multimedia scene as well as other relevant data.同步:應(yīng)能對(duì)多媒體場(chǎng)景中所有元素以及其它相關(guān)數(shù)據(jù)進(jìn)行同步。2022/9/2244Requirements 9Multiplexing it shall be possible to multiplex the coded data corresponding to the various elements in the multimedia scene as well as other relevant data. 復(fù)用:應(yīng)能對(duì)多媒體場(chǎng)景中不同元素

30、的編碼數(shù)據(jù)以及其它相關(guān)數(shù)據(jù)進(jìn)行復(fù)用。2022/9/2245Current Situation編碼問(wèn)題已研究了很多年,已經(jīng)有了很多有名的標(biāo)準(zhǔn),涉及許多種媒體, 滿足了不同類型的需求. 例如:still pictures: JPEG, JPEG-LS and JPEG2000frame-based video: H.261, H.263, MPEG-1 and MPEG-2 Video object-based pictures and video: MPEG-4 Visual. audio: MPEG-1, MPEG-2 and MPEG-4 Audio, speech: G.723, G.72

31、8 and MPEG-4 Audio.synthetic visual content, VRML and MPEG-4 synthetic audio content , MIDI and MPEG-4 Audio.盡管這些標(biāo)準(zhǔn)在滿足相關(guān)需求方面已相當(dāng)完整,但現(xiàn)有標(biāo)準(zhǔn)并不完全滿足某些需求。2022/9/2246例1: 數(shù)字聲音的編碼標(biāo)準(zhǔn)ITU(CCITT): G.711,721,722,編碼對(duì)象:自然語(yǔ)音應(yīng)用領(lǐng)域:通信ISO/IEC:MPEG-1 audio (11172-3) : 1993MPEG-2 BC (13818-3) : 1995MPEG-2 AAC (13818-7) : 19

32、98MPEG-4 audio (14496-3) : 19992022/9/2247編碼對(duì)象:自然聲音(全頻道) 取樣頻率(kHz) 聲道數(shù)目MPEG-1 audio : 32, 44.1, 48 單,雙MPEG-2 BC : 增加16, 22.05, 24 5.1, 7.1MPEG-2 AAC : 8-96 48個(gè)主聲道, 16個(gè)LFE, MPEG-4 audio : 8-962022/9/2248編碼對(duì)象:合成聲音 MPEG-1 audio : 無(wú)MPEG-2 BC : 無(wú)MPEG-2 AAC : 無(wú)MPEG-4 audio : 合成語(yǔ)音, 合成音樂(lè)2022/9/2249輸出碼率 碼率范圍

33、(kbps) 全頻道聲音MPEG-1 audio : 32-384 384(I), 256-192(II), 128-112(III)MPEG-2 BC : 8-640 同MPEG-1MPEG-2 AAC : 8-160/CH 約 64/CHMPEG-4 audio : 2-64/CH 約 64/CH2022/9/2250功能(functionality)MPEG-1 audio :對(duì)錯(cuò)誤的魯棒性功能MPEG-2 BC : 對(duì)錯(cuò)誤的魯棒性功能MPEG-2 AAC :對(duì)錯(cuò)誤的魯棒性,可分級(jí)性功能MPEG-4 audio : 播放速度控制功能音調(diào)(pitch)變化功能對(duì)錯(cuò)誤的魯棒性功能可分級(jí)性(s

34、caleability)功能2022/9/2251可分級(jí)性(scaleability)功能MPEG-1 audio :無(wú)MPEG-2 BC : 無(wú)MPEG-2 AAC : 取樣率可分級(jí)(SSR)MPEG-4 audio : Bit rate scalabilityBandwidth scalabilityEncoder complexity scalabilitydecoder complexity scalability2022/9/2252編碼原理MPEG-1 audio ,MPEG-2 BC, MPEG-2 AAC : 基于心理聲學(xué)的感知編碼,特別是頻率域的聽(tīng)覺(jué)掩蔽特性.MPEG-4 a

35、udio : 各種編碼技術(shù)通用聲音編碼器對(duì)MPEG-2 AAC 作了改進(jìn)和擴(kuò)充;自然語(yǔ)音編碼器對(duì)LPC, CELP等作了改進(jìn)和擴(kuò)充,增加了可分級(jí)性功能.2022/9/2253Scalabilities in MPEG-4/CELP2022/9/2254對(duì)“對(duì)象”的支持MPEG-1 audio ,MPEG-2 BC, MPEG-2 AAC : 不支持MPEG-4 audio:把聲音對(duì)象定義為“可聽(tīng)見(jiàn)的語(yǔ)義實(shí)體”.若干聲音對(duì)象可以組合或混合在一起成為一個(gè)復(fù)合對(duì)象, 稱為Audio-Composition Objects:Natural audio,Synthetic audio,ControlOp

36、erations on objects:SynchronizeDecodeCompose into compound objectsPresentInteract2022/9/2255MPEG-4 聲音的應(yīng)用2022/9/2256例2: JPEG2000的目標(biāo)1 Superior low bit-rate performance: 例如具有豐富細(xì)節(jié)的灰度圖像在不犧牲其性能時(shí)壓縮比低于0.25 bpp. 這是優(yōu)先級(jí)最高的目標(biāo),網(wǎng)絡(luò)圖像傳輸和遙感需要此特性.2022/9/2257JPEG2000的目標(biāo)2 Continuous-tone and bi-level compression: 使用相似的

37、系統(tǒng)資源,既能壓縮連續(xù)色調(diào)圖像又能壓縮2值圖像. 可處理各種動(dòng)態(tài)范圍的圖像 (如每個(gè)顏色分量 1 bit to 16 bit). 此類應(yīng)用有混合文檔,帶有注釋的醫(yī)學(xué)圖像,圖表及帶有2值或近似2值區(qū)域、 alpha平面和透明面的計(jì)算機(jī)合成圖像,傳真圖像等。2022/9/2258JPEG2000的目標(biāo)3 Lossless and lossy compression: 提供無(wú)失真壓縮累進(jìn)式解碼。此類應(yīng)用有醫(yī)學(xué)圖像,圖像存檔,網(wǎng)絡(luò)應(yīng)用,印前圖像處理。4 Progressive transmission by pixel accuracy and resolution: 以像素精度或分辨率作為單位的累進(jìn)

38、式傳輸。此類應(yīng)用有WWW,圖像存檔,打印機(jī)等。2022/9/2259JPEG2000的目標(biāo)5 Fixed-rate, fixed-size, limited workspace memory: 固定速率指的是給定數(shù)目的連續(xù)像素編碼后比特?cái)?shù)應(yīng)小于等于一定值,這就允許解碼器在帶寬有限的通道上進(jìn)行實(shí)時(shí)解碼,如遙感圖像,運(yùn)動(dòng)編碼等。 固定大小指的是一幅完整圖像的碼流的大小應(yīng)為定值,這就允許存儲(chǔ)空間有限的硬件能保存一個(gè)完整的碼流(不管圖像大小), 例如掃描儀,打印機(jī)等。2022/9/2260JPEG2000的目標(biāo)6 Random codestream access and processing: 隨機(jī)碼

39、流存取指:允許用戶定義圖像中感興趣的區(qū)域( Regions-Of-Interest, ROI) ,并能以較小的失真對(duì)它進(jìn)行隨機(jī)存取and/or 解碼; 隨機(jī)碼流處理包括:rotation, translation, filtering, feature extraction, scaling, etc.2022/9/2261JPEG2000的目標(biāo)7 Robustness to bit-errors: 這在無(wú)線通信時(shí)很重要。由于解碼時(shí)碼流中的某些部分在決定圖像質(zhì)量方面比其它部分更加重要, 碼流的正確設(shè)計(jì)能幫助后繼的錯(cuò)誤改正系統(tǒng)以減輕解碼錯(cuò)誤。2022/9/2262JPEG2000的目標(biāo)8 Ope

40、n architecture: 開(kāi)放的體系結(jié)構(gòu)能為不同類型的圖像和應(yīng)用優(yōu)化系統(tǒng)性能。做法是開(kāi)發(fā)高靈活性的編碼工具或采用描述語(yǔ)言分發(fā)和集成新的壓縮工具。允許用戶選擇適合其應(yīng)用和將來(lái)發(fā)展的工具,解碼器只要實(shí)現(xiàn)核心的一組工具和能理解碼流的一個(gè)語(yǔ)法分析器,在需要時(shí),解碼器可以向“源”請(qǐng)求發(fā)送一個(gè)未知的工具。2022/9/2263JPEG2000的目標(biāo)9 Sequential build-up capability (real time coding): 能順序地一趟對(duì)圖像進(jìn)行編碼和解碼,對(duì)圖像的分量可以交錯(cuò)地也可以順序地進(jìn)行處理。壓縮和解壓縮期間,使用的上下文應(yīng)限定在合理的像素線數(shù)目?jī)?nèi)。2022/9/

41、2264JPEG2000的目標(biāo)10 Backwards compatibility with JPEG: It is desirable to provide for backwards compatibility (or easy transcoding) with the current JPEG standards.2022/9/2265JPEG2000的目標(biāo)11 Content-based description: Finding an image in a large database of images is an important problem in image proces

42、sing. For example, a doctor could request only images from a set that are recognized to have a certain type of tumor. This could have major applicability to the medical, law enforcement and environmental communities, and for image archival applications. Regardless of the techniques used, JPEG 2000 s

43、hould strive to provide the opportunity for solutions to this problem.2022/9/2266JPEG2000的目標(biāo)12 Protective image security: 保護(hù)數(shù)字圖像安全。方法如: watermarking, labeling, stamping, fingerprinting, encryption, scrambling, etc. Labeling is already implemented in SPIFF and must be easy to transfer back and forth

44、to JPEG 2000 image file. Stamping is a mark set on top of a displayed image that can only be removed by a specific process. Encryption, and scrambling can be applied on the whole image file or limited to part of it (header, directory, image data) to avoid unauthorized use of the image. (Note: The is

45、sue of whether JPEG2000 should cover specific solutions to encryption, watermarking, authentication algorithms should be revisited)2022/9/2267JPEG2000的目標(biāo)13 Compatibility with ITU-T recommendations for image exchange: 傳真也是JPEG 2000的應(yīng)用, ITU-T關(guān)于圖像交換的建議也將用來(lái)交換和發(fā)送JPEG 2000的編碼圖像 ,JPEG 2000編碼圖像也會(huì)符合 ITU-T Re

46、c關(guān)于灰度圖像和彩色圖像編碼的需求。2022/9/2268JPEG2000的目標(biāo)14 Interface with MPEG-4: JPEG2000所開(kāi)發(fā)的壓縮靜止圖像的編碼工具應(yīng)當(dāng)以合適的接口提供給MPEG-4,從而允許交換和集成(與MPEG-4之類的面向語(yǔ)法的編碼方案框架),特別是在向/從運(yùn)動(dòng)圖像嵌入/抽取靜止圖像時(shí),必須保持知識(shí)產(chǎn)權(quán)信息IPR。2022/9/2269JPEG2000的目標(biāo)15 Side channel spatial information (transparency): alpha平面和透明平面之類的邊通道空間信息,可用于傳輸有關(guān)圖像處理(如顯示、打印或編輯等)信息時(shí)有

47、用,例如透明平面可用于WWW應(yīng)用。2022/9/2270JPEG2000的目標(biāo)16 Object Based Functionality -Object based composition: 具有任意形狀(或透明性)的多個(gè)對(duì)象將允許用戶能非常靈活地復(fù)合出許多不同的靜止圖像。Object based information embedding: 附加在每個(gè)對(duì)象上的對(duì)象描述信息,為數(shù)字圖像的索引和檢索提供了一種有效的方法。2022/9/22712.4 Digital Item Identification and Description2022/9/2272Rationaledigital ite

48、m that is identified and described is more manageable and bears a higher value. A digital item that is identified and described enables a large number of possible applications including IPMP, search, filtering, cataloguing, 經(jīng)過(guò)標(biāo)識(shí)和描述的數(shù)據(jù)項(xiàng)更便于管理,因而具有更高的使用價(jià)值。經(jīng)過(guò)標(biāo)識(shí)和描述的數(shù)據(jù)項(xiàng)將會(huì)使大量的應(yīng)用成為可能,例如: IPMP、搜索、濾波、分類 。 202

49、2/9/2273Expected impact A framework for common identification and description of digital items will enable efficient deployment of business models and applications requiring rights management, automated transaction and billing, monitoring, search, retrieval, cataloguing, 一個(gè)用于數(shù)字項(xiàng)的公用標(biāo)識(shí)和描述框架,將會(huì)使得需要版權(quán)管理

50、、自動(dòng)交易和支付、監(jiān)控、搜索、檢索、目錄服務(wù)等功能的商業(yè)模型和應(yīng)用得到更加有效的開(kāi)展。2022/9/2274Requirements 1(標(biāo)識(shí)什么?)Content: which could be a representation of the abstract work(內(nèi)容的摘要表示)Transactions and/or Contracts: such as transaction number(內(nèi)容交易和/或合同的標(biāo)識(shí))Physical and/or Legal Persons: Rights Holders, Licensees, Publishers, Providers, Dis

51、tributors, Retailers, Consumers(物理人和/或法人的標(biāo)識(shí))Usage rules: Copy, Pay per view, Pay per listen, (使用規(guī)則的標(biāo)識(shí))2022/9/2275Requirements 2 (對(duì)標(biāo)識(shí)的使用)Access authorization(訪問(wèn)授權(quán)): read, change, write, 與標(biāo)識(shí)符和描述符的交互應(yīng)是靈活的、多種多樣的。例如,根據(jù)不同的應(yīng)用,對(duì)它們的存取可以采用簡(jiǎn)單的、加密的或者嵌入的方式,可以授權(quán)也可以不授權(quán)。2022/9/2276Requirements 3 (標(biāo)識(shí)的操作模式)Systems an

52、d processes for identification should ensure persistency and consistency.標(biāo)識(shí)系統(tǒng)和標(biāo)識(shí)方法應(yīng)保證持久性和一致性。 Systems for description should ensure consistency. Identification and description should be coherent with each other.描述系統(tǒng)應(yīng)保證一致性。標(biāo)識(shí)與描述應(yīng)連貫一致。More over, they should also allow both static and dynamic identific

53、ation and description schemas e.g. the ID and description of a digital item could be changed when its right holder changes.應(yīng)既允許靜態(tài)的標(biāo)識(shí)與描述方案也允許動(dòng)態(tài)的方案,例如當(dāng)數(shù)字項(xiàng)的版權(quán)持有者改變時(shí), 其ID和描述也應(yīng)隨之改變。2022/9/2277Requirements 4 (標(biāo)識(shí)的成本)Systems and processes for identification and description should allow a full range of appli

54、cations and business models from low cost and simple approaches to richer and more sophisticated ones. 用于標(biāo)識(shí)與描述的系統(tǒng)和方法,應(yīng)允許全范圍的應(yīng)用和商業(yè)模型, 從低成本、簡(jiǎn)單方法到高代價(jià)、復(fù)雜方法都能支持。2022/9/2278Current Situation 1所有權(quán)標(biāo)識(shí)(辨認(rèn))是一項(xiàng)支離破碎的、無(wú)窮盡的、動(dòng)態(tài)變化的工作,它涉及法律(legal)和契約(contractual)問(wèn)題.目前,所有權(quán)標(biāo)識(shí)系統(tǒng)與標(biāo)準(zhǔn)化的標(biāo)識(shí)方法同時(shí)存在,一些標(biāo)識(shí)符已成功地應(yīng)用了多年,但只是針對(duì)單媒體類型, 如

55、ISBN(國(guó)際標(biāo)準(zhǔn)書(shū)號(hào))、ISRC(International Standard Recording Code)、URN(Universal Resource Number全球資源號(hào))、 URI(Universal Resource Identifier全球資源標(biāo)識(shí)符)等。有些工作正在進(jìn)行之中,如 ISAN(International Standard Audiovisual Number國(guó)際標(biāo)準(zhǔn)音視頻號(hào)碼)、 ISWC(Information System Work Code信息系統(tǒng)工作碼)、 DOI(Digital Object Initiative數(shù)字對(duì)象創(chuàng)新計(jì)劃)、 cIDf(cont

56、ent ID forum,內(nèi)容 ID論壇)。2022/9/2279Current Situation 2Lack of integration between the different schemas of different sectors(不同部門不同方案之間缺少集成)Lack of standard dynamic identification schemas when entities related to the content (digital item) change(當(dāng)與內(nèi)容關(guān)聯(lián)的實(shí)體變化時(shí),缺乏標(biāo)準(zhǔn)的動(dòng)態(tài)標(biāo)識(shí)方法)Lack of standard methods to di

57、fferentiate between versions of a digital item when it is revised(缺乏區(qū)分不同版本數(shù)字項(xiàng)的標(biāo)準(zhǔn)方法)2022/9/2280Current Situation 3Lack of interoperability among identification schemas for the purpose of common applications e.g. automated transaction/billing systems.(在自動(dòng)交易/支付系統(tǒng)之類的公共應(yīng)用中,標(biāo)識(shí)方案缺少互操作性)Lack of internationa

58、l standard identification schemas for some entities (i.e. text, images, speech, etc.)(某些實(shí)體缺少國(guó)際標(biāo)準(zhǔn)的標(biāo)識(shí)方案)Lack of granularity definition/guideline for giving an ID to a digital item(為數(shù)字項(xiàng)賦于ID時(shí),缺少粒度大小的定義/指導(dǎo))2022/9/2281Current Situation 4Lack of scalability in the identification process accommodating from

59、self-publishing to large scale identification.(標(biāo)識(shí)過(guò)程中缺少可分級(jí)性)Conflicting requirements to identify a digital item depending on the purpose of identification, such asCommerce (search, purchase, acquisition, etc) Rights management 由于標(biāo)識(shí)的目的不同(如商業(yè)目的和版權(quán)管理目的),引起需求的沖突.Inconsistency of schemas between and withi

60、n media sectors(在媒體之間或媒體內(nèi)部標(biāo)識(shí)方案的不一致性)2022/9/2282舉例: MPEG-7 (Multimedia Content Description Interface) Context(背景)世界各地的數(shù)字化視聽(tīng)信息越來(lái)越多. 人們?cè)谑褂萌魏涡畔⒅?首先要找到信息。然而,信息越來(lái)越多,檢索越來(lái)越困難. 目前,檢索文本信息有一些辦法,WWW上就有許多text-based search engines . 然而,由于視聽(tīng)材料沒(méi)有通用的可識(shí)別的描述,因此無(wú)法進(jìn)行識(shí)別. 尋找內(nèi)容的問(wèn)題不僅在數(shù)據(jù)庫(kù)檢索應(yīng)用中存在,在其它領(lǐng)域也存在,如數(shù)字廣播的頻道越來(lái)越多,如何找到感興

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論