




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1 國際視頻壓縮標(biāo)準(zhǔn)簡(jiǎn)介國際視頻壓縮標(biāo)準(zhǔn)簡(jiǎn)介 多媒體技術(shù) 2 主要內(nèi)容 視頻壓縮標(biāo)準(zhǔn)發(fā)展歷史 H.26X系列壓縮標(biāo)準(zhǔn)簡(jiǎn)介 MPEG系列壓縮標(biāo)準(zhǔn)簡(jiǎn)介 3 視頻壓縮標(biāo)準(zhǔn)發(fā)展歷史 ITU: ISO/IEC: H.261 H.262 H.263 H.263+ H.264 MPEG1 MPEG2MPEG4 (Part2) MPEG7 MPEG21MPEG4(Part10) 4 MPEG是什么 MPEG(Moving Picture Expert Group)是在1988年由國際標(biāo) 準(zhǔn)化組織(International Organization for Standardization, ISO)和國際電工
2、委員會(huì)(International Electrotechnical Commission,IEC)聯(lián)合成立的專家組,負(fù)責(zé)開發(fā)電視圖像 數(shù)據(jù)和聲音數(shù)據(jù)的編碼、解碼和它們的同步等標(biāo)準(zhǔn)。這個(gè)專 家組開發(fā)的標(biāo)準(zhǔn)稱為MPEG標(biāo)準(zhǔn),到目前為止,已經(jīng)開發(fā)和 正在開發(fā)的MPEG標(biāo)準(zhǔn)有: MPEG-1:數(shù)字電視標(biāo)準(zhǔn),1992年正式發(fā)布。 MPEG-2:數(shù)字電視標(biāo)準(zhǔn)。 MPEG-3:已于1992年7月合并到高清晰度電視(High-Definition TV, HDTV)工作組。 MPEG-4:多媒體應(yīng)用標(biāo)準(zhǔn)(1999年發(fā)布)。 MPEG-5:直至1998年9月還沒有見到定義。 MPEG-6:直至1998年9月還
3、沒有見到定義。 MPEG-7:多媒體內(nèi)容描述接口標(biāo)準(zhǔn)(正在研究)。 5 MPEG-1和-2標(biāo)準(zhǔn)已經(jīng)正式發(fā)布,并且得到廣泛應(yīng)用。例如,CD-交 互系統(tǒng),在網(wǎng)絡(luò)上的數(shù)字聲音廣播、數(shù)字電視廣播和影視點(diǎn)播等。表 8-01是MPEG-1和-2的典型編碼參數(shù)。 6 MPEG文件的創(chuàng)建過程 與其他ISO標(biāo)準(zhǔn)文件一樣,MPEG標(biāo)準(zhǔn)文件的創(chuàng)建過程分 成4個(gè)階段: 工作文件(Working Draft,WD):工作組(Working Group,WG)準(zhǔn) 備的工作文件 委員會(huì)草案(Committee Draft,CD):從工作組WG準(zhǔn)備好的工作 文件WD提升上來的文件。這是ISO文檔的最初形式,它由ISO內(nèi) 部正
4、式調(diào)查研究和投票表決。 國際標(biāo)準(zhǔn)草案(Draft International Standard,DIS):投票成員國對(duì) CD的內(nèi)容和說明滿意之后由委員會(huì)草案CD提升上來的文件。 國際標(biāo)準(zhǔn)(International Standard,IS):由投票成員國、ISO的其 他部門和其他委員會(huì)投票通過之后出版發(fā)布的文件。 7 視頻壓縮標(biāo)準(zhǔn)對(duì)比 H.261 p64k b/s視頻 編碼標(biāo) 準(zhǔn) 時(shí)間 1990年12月 輸入 176144(QCIF) 352288(CIF) 幀速率可變H.263MPEG2 壓縮算法 運(yùn)動(dòng)補(bǔ)償幀間預(yù)測(cè)(單雙向預(yù)測(cè)) DCT 局部算法改進(jìn) 可伸縮性 應(yīng)用 通用電話交換網(wǎng)、局域網(wǎng)的
5、視頻通信 11 視頻壓縮標(biāo)準(zhǔn)對(duì)比(續(xù)) MPEG 4(Part 2) MPEG 4 Visual 甚 低 碼 率 活 動(dòng) 圖 像 及 其 伴 音 編 碼 標(biāo) 準(zhǔn) 時(shí)間 1999年 輸入 176144的多種分辨率格式 輸出 4.6Kb/s64Kb/s 壓縮率 100 壓縮算法 基于對(duì)象的新一代編碼技術(shù),注重交 互性,即可包含自然對(duì)象,又可包含 人工合成對(duì)象 應(yīng)用 可應(yīng)用范圍很廣、目前多用于因特網(wǎng) 視頻傳輸、流媒體應(yīng)用 12 視頻壓縮標(biāo)準(zhǔn)對(duì)比(續(xù)) H.264 MPEG 4(Part1 0) MPEG 4 AVC 時(shí)間 2003年5月 輸入 多種分辨率格式 輸出 壓縮率 壓縮率最高的視頻壓縮標(biāo)準(zhǔn),
6、比 MPEG4 Visual節(jié)約50的碼率 壓縮算法 基于傳統(tǒng)框架的混合編碼系統(tǒng),只是 做了局部?jī)?yōu)化。更注重編碼效率和可 靠性 應(yīng)用 視頻廣播、視頻通信和存儲(chǔ)媒體(CD DVD)等多種應(yīng)用 13 MPEG-1視頻壓縮標(biāo)準(zhǔn) MPEG-1處理的是標(biāo)準(zhǔn)圖像交換格式(Standard Interchange format,SIF)或者稱為源輸入格式(Source Input Format, SIF)的電視,即NTSC制為352像素x 240行/幀x 30幀/秒, PAL制為352像素x 288行/幀x25幀/秒,壓縮的輸出速率定 義在1.5 Mbit/s以下。這個(gè)標(biāo)準(zhǔn)主要是針對(duì)當(dāng)時(shí)具有這種數(shù) 據(jù)傳輸率
7、的CD-ROM和網(wǎng)絡(luò)而開發(fā)的,用于在CD-ROM上 存儲(chǔ)數(shù)字影視和在網(wǎng)絡(luò)上傳輸數(shù)字影視。 MPEG-1的標(biāo)準(zhǔn)號(hào)為ISO/IEC 11172,標(biāo)準(zhǔn)名稱為“信息技術(shù)用于數(shù) 據(jù)速率高達(dá)大約1.5 Mbit/s的數(shù)字存儲(chǔ)媒體的電視圖像和伴音編 碼”Information technology Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s)。 14 MPEG-1視頻壓縮標(biāo)準(zhǔn) MPEG-1已于1991年底被ISO/IEC采納,由五個(gè)部分組成: MPEG-1
8、系統(tǒng),寫成MPEG-1 Systems,規(guī)定電視圖像數(shù)據(jù)、聲音數(shù)據(jù) 及其他相關(guān)數(shù)據(jù)的同步,標(biāo)準(zhǔn)名是ISO/IEC 11172-1:1993 Information technology Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s Part 1: Systems。 MPEG-1電視圖像,寫成MPEG-1 Video, 規(guī)定電視數(shù)據(jù)的編碼和解碼, 標(biāo)準(zhǔn)名是ISO/IEC 11172-2:1993 Information technology Co
9、ding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s Part 2:Video。 MPEG-1聲音,寫成MPEG-1 Audio, 規(guī)定聲音數(shù)據(jù)的編碼和解碼,標(biāo)準(zhǔn) 名是ISO/IEC 11172-3:1993 Information technology Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s Par
10、t 3:Audio。 15 MPEG-1一致性測(cè)試,寫成MPEG-1 Conformance testing,標(biāo)準(zhǔn) 名是ISO/IEC 11172-4:1995 Information technology Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s Part 4:Conformance testing。 這個(gè)標(biāo)準(zhǔn)詳細(xì)說明如何測(cè)試比特?cái)?shù)據(jù)流(bitstreams)和解碼器是否 滿足MPEG-1前3個(gè)部分(Part1,2和3)中所規(guī)定的要求。這
11、些測(cè) 試可由廠商和用戶實(shí)施。 MPEG-1軟件模擬,寫成MPEG-1 Software simulation,標(biāo)準(zhǔn)名 是ISO/IEC TR 11172-5 Information technology Coding of moving pictures and associated audio for digital storage media up to about 1.5 Mbit/s Part 5:Software simulation。實(shí)際上, 這部分的內(nèi)容不是一個(gè)標(biāo)準(zhǔn),而是一個(gè)技術(shù)報(bào)告,給出了用軟件 執(zhí)行MPEG-1標(biāo)準(zhǔn)前3個(gè)部分的結(jié)果。 MPEG-1譯碼器方框圖 16 MPEG-
12、2數(shù)字電視標(biāo)準(zhǔn) MPEG-2標(biāo)準(zhǔn)從1990年開始研究,1994發(fā)布DIS。 它是一個(gè)直接與數(shù)字電視廣播有關(guān)的高質(zhì)量圖像 和聲音編碼標(biāo)準(zhǔn)。 MPEG-2可以說是MPEG-1的擴(kuò)充,因?yàn)樗鼈兊?基本編碼算法都相同。但MPEG-2增加了許多 MPEG-1所沒有的功能: 例如增加了隔行掃描電視的編碼, 提供了位速率的可變性能(scalability)功能。 MPEG-2要達(dá)到的最基本目標(biāo)是:位速率為49 Mbit/s, 最高達(dá)15 Mbit/s。 17 MPEG-2的標(biāo)準(zhǔn)號(hào)為ISO/IEC 13818,標(biāo)準(zhǔn)名稱為“信息 技術(shù)電視圖像和伴音信息的通用編碼(Information technology G
13、eneric coding of moving pictures and associated audio information )”。MPEG-2包含10個(gè)部分: MPEG-2系統(tǒng),寫成MPEG-2 Systems,規(guī)定電視圖像數(shù) 據(jù)、聲音數(shù)據(jù)及其他相關(guān)數(shù)據(jù)的同步,標(biāo)準(zhǔn)名是ISO/IEC 13818-1:1996 Information technology Generic coding of moving pictures and associated audio information :Systems。 18 MPEG-2的系統(tǒng)模型如圖所示。這個(gè)標(biāo)準(zhǔn)主要是用來定義電視圖 像數(shù)據(jù)、聲音
14、數(shù)據(jù)和其他數(shù)據(jù)的組合,把這些數(shù)據(jù)組合成一個(gè)或 者多個(gè)適合于存儲(chǔ)或者傳輸?shù)幕緮?shù)據(jù)流。數(shù)據(jù)流有兩種形式: 一種稱為程序數(shù)據(jù)流(Program Stream,PS) 程序數(shù)據(jù)流是組合一個(gè)或者多個(gè)規(guī)格化的即包化基本數(shù)據(jù)流 (Packetised Elementary Streams,PES)而生成的一種數(shù)據(jù)流, 用在出現(xiàn)錯(cuò)誤相對(duì)比較少的環(huán)境下,適合使用軟件處理的應(yīng)用; 另一種稱為傳輸數(shù)據(jù)流(Transport Stream,TS)。 傳輸數(shù)據(jù)流也是組合一個(gè)或者多個(gè)PES而生成的一種數(shù)據(jù)流, 它用在出現(xiàn)錯(cuò)誤相對(duì)比較多的環(huán)境下,例如在有損失或者有噪 聲的傳輸系統(tǒng)中。 圖MPEG-2的系統(tǒng)模型 19 MP
15、EG-2電視圖像,寫成MPEG-2 Video,規(guī)定電視數(shù)據(jù)的編碼和解碼, 標(biāo)準(zhǔn)名是ISO/IEC 13818-2:1996 Information technology Generic coding of moving pictures and associated audio information :Video。 為了適應(yīng)各種應(yīng)用,這個(gè)標(biāo)準(zhǔn)定義了電視圖像的各種規(guī)格,稱為配置 (profile),如表所示。表中的“X”符號(hào)表示MPEG-2支持的配置。 有些人認(rèn)為使用4:2:0子采樣格式的圖像質(zhì)量還不夠好, 因此在1996年的標(biāo)準(zhǔn)中增加了4:2:2子采樣格式的圖像。 多視角配置(Multiv
16、iew Profile,MVP)是附加的配置。 20 MPEG-2聲音,寫成MPEG-2 Audio,規(guī)定聲音數(shù)據(jù)的編碼 和解碼,是MPEG-1 Audio的擴(kuò)充,支持多個(gè)聲道,標(biāo)準(zhǔn)名 是ISO/IEC 13818-3:1998 Information technology Generic coding of moving pictures and associated audio information Part 3:Audio。 MPEG-2一致性測(cè)試,寫成MPEG-2 Conformance testing, 標(biāo)準(zhǔn)名是ISO/IEC DIS 13818-4 Information tec
17、hnology Generic coding of moving pictures and associated audio information Part 4:Conformance testing。 MPEG-2軟件模擬,寫成MPEG-2 Software simulation,標(biāo) 準(zhǔn)名是ISO/IEC TR 13818-5:1997 Information technology Generic coding of moving pictures and associated audio information Part 5:Software simulation。 21 MPEG-2數(shù)
18、字存儲(chǔ)媒體命令和控制擴(kuò)展協(xié)議,寫成MPEG-2 Extensions for DSM-CC,標(biāo)準(zhǔn)名是ISO/IEC DIS 13818-6 Information technology Generic coding of moving pictures and associated audio information Part 6:Extensions for DSM-CC。 這是一個(gè)數(shù)字存儲(chǔ)媒體命令和控制(Digital Storage Media Command and Control,DSM-CC)擴(kuò)展協(xié)議,用于管理MPEG-1和MPEG-2的數(shù) 據(jù)流,使數(shù)據(jù)流既可在單機(jī)上運(yùn)行,又可在異
19、構(gòu)網(wǎng)絡(luò)(即用類似設(shè)備構(gòu) 造但運(yùn)行不同協(xié)議的網(wǎng)絡(luò))環(huán)境下運(yùn)行。 在DSM-CC模型中,服務(wù)器(server)和客戶器(client)都被認(rèn)為是DSM- CC網(wǎng)絡(luò)的用戶(user),DSM-CC定義了一個(gè)稱為會(huì)話和資源管理 (Session and Resource Manager,SRM)的實(shí)體,用來集中管理網(wǎng)絡(luò) 中的會(huì)話和資源,如圖所示。 DSM-CC參考模型 22 MPEG-2先進(jìn)聲音編碼,寫成MPEG-2 AAC,是多聲道聲音編碼算法標(biāo)準(zhǔn)。 這個(gè)標(biāo)準(zhǔn)除后向兼容MPEG-1 Audio標(biāo)準(zhǔn)之外,還有非后向兼容的聲音標(biāo) 準(zhǔn)。標(biāo)準(zhǔn)名是ISO/IEC 13818-7:1997 Informatio
20、n technology Generic coding of moving pictures and associated audio information Part 7:Advanced Audio Coding (AAC)。 MPEG-2系統(tǒng)解碼器實(shí)時(shí)接口擴(kuò)展標(biāo)準(zhǔn),標(biāo)準(zhǔn)名是ISO/IEC 13818-9: 1996 Information technology Generic coding of moving pictures and associated audio information Part 9:Extension for real time interface for sys
21、tems decoders。 這是與傳輸數(shù)據(jù)流(Transport Stream)的實(shí)時(shí)接口(real-time interface, RTI)標(biāo)準(zhǔn),它可以用來適應(yīng)來自網(wǎng)絡(luò)的傳輸數(shù)據(jù)流,如圖所示。 實(shí)時(shí)接口參考模型 23 MPEG-2 DSM-CC一致性擴(kuò)展測(cè)試,標(biāo)準(zhǔn)名是ISO/IEC DIS 13818-10 Information technology Generic coding of moving pictures and associated audio information Part 10:Conformance extensions for Digital Storage Me
22、dia Command and Control (DSM-CC)。 10 MPEG-2先進(jìn)聲音編碼標(biāo)準(zhǔn)修正版,標(biāo)準(zhǔn)名是Amendment 1 to ISO/IEC TR 13818-5:1997 Amendment 1 to ISO/IEC TR 13818-5: 1997 Advanced Audio Coding (AAA)。 最后要說明的是,MPEG-2的Part 8原計(jì)劃用于采樣精度為10比特的 電視圖像編碼,但由于目前工業(yè)界對(duì)此興趣不大,因此該標(biāo)準(zhǔn)已暫停 開發(fā)。 24 MPEG-4多媒體應(yīng)用標(biāo)準(zhǔn) 標(biāo)準(zhǔn)概要 MPEG-4從1994年開始工作,它是為視聽(audio-visual)數(shù)據(jù)的
23、編碼和 交互播放開發(fā)算法和工具,是一個(gè)數(shù)據(jù)速率很低的多媒體通信標(biāo)準(zhǔn)。 MPEG-4的目標(biāo)是要在異構(gòu)網(wǎng)絡(luò)環(huán)境下能夠高度可靠地工作,并且具 有很強(qiáng)的交互功能。 為了達(dá)到這個(gè)目標(biāo),MPEG-4引入了對(duì)象基表達(dá)(object-based representation)的概念,用來表達(dá)視聽對(duì)象(audio/visual objects, AVO); MPEG-4擴(kuò)充了編碼的數(shù)據(jù)類型,由自然數(shù)據(jù)對(duì)象擴(kuò)展到計(jì)算機(jī)生成 的合成數(shù)據(jù)對(duì)象,采用合成對(duì)象/自然對(duì)象混合編碼(Synthetic/Natural Hybrid Coding,SNHC)算法; 25 在實(shí)現(xiàn)交互功能和重用對(duì)象中引入了組合、合成和編排等重要概
24、念。 MPEG-4系統(tǒng)構(gòu)造如圖8-05所示,接收端的構(gòu)造部件如圖8-06所示。 26 27 MPEG-4中制定了一個(gè)稱為傳輸多媒體集成框架(Delivery Multimedia Integration Framework,DMIF)的會(huì)話協(xié)議,它 用來管理多媒體數(shù)據(jù)流。 該協(xié)議在原則上與文件傳輸協(xié)議FTP(File Transfer Protocol) 類似,其差別是: FTP返回的是數(shù)據(jù), 而DMIF返回的是指向到何處獲取數(shù)據(jù)流的指針。 DMIF覆蓋了三種主要技術(shù): 廣播技術(shù), 交互網(wǎng)絡(luò)技術(shù) 光盤技術(shù), 如圖所示。 DMIF覆蓋 的三種主 要技術(shù) 28 MPEG-4將應(yīng)用在移動(dòng)通信和公用電
25、話交換 網(wǎng)(public switched telephone network, PSTN)上,并支持可視電話(videophone)、 電視郵件(video mail)、電子報(bào)紙(electronic newspapers)和其他低數(shù)據(jù)傳輸速率場(chǎng)合下 的應(yīng)用。 29 MPEG-4的標(biāo)準(zhǔn)名是Very-low bitrate audio-visual coding (甚低速率 視聽編碼)。截止到1998年9月,已作為國際標(biāo)準(zhǔn)草案(Draft International Standard,DIS)的MPEG-4文件有6個(gè)部分,它們是: MPEG-4系統(tǒng)標(biāo)準(zhǔn),標(biāo)準(zhǔn)名是ISO/IEC DIS 1449
26、6-1 Very-low bitrate audio-visual coding Part 1: Systems。 MPEG-4電視圖像標(biāo)準(zhǔn),標(biāo)準(zhǔn)名是ISO/IEC DIS 14496-2 Very low bitrate audio-visual coding Part 2: Video。 MPEG-4聲音標(biāo)準(zhǔn),標(biāo)準(zhǔn)名是ISO/IEC DIS 14496-3 Very low bitrate audio-visual coding Part 3: Audio。 MPEG-4一致性測(cè)試標(biāo)準(zhǔn),標(biāo)準(zhǔn)名是ISO/IEC DIS 14496-4 Very- low bitrate audio-visu
27、al coding Part 4: Conformance Testing。 MPEG-4參考軟件,標(biāo)準(zhǔn)名是ISO/IEC DIS 14496-5 Very-low bitrate audio-visual coding Part 5: Reference software MPEG-4傳輸多媒體集成框架,標(biāo)準(zhǔn)名是ISO/IEC DIS 14496-6 Very-low bitrate audio-visual coding Part 6: Delivery Multimedia Integration Framework (DMIF)。 30 MPEG-7多媒體內(nèi)容描述接口 MPEG-7的工
28、作于1996年啟動(dòng),名稱叫做多媒體內(nèi)容描述 接口(Multimedia Content Description Interface) , 目的是制定一套描述符標(biāo)準(zhǔn),用來描述各種類型的多媒體信息及它 們之間的關(guān)系,以便更快更有效地檢索信息。 這些媒體材料可包括靜態(tài)圖像、圖形、3D模型、聲音、話音、電視 以及在多媒體演示中它們之間的組合關(guān)系。 在某些情況下,數(shù)據(jù)類型還可包括面部特性和個(gè)人特性的表達(dá)。 與其他的MPEG標(biāo)準(zhǔn)一樣,MPEG-7是為滿足特定需求而制 定的視聽信息標(biāo)準(zhǔn)。MPEG-7標(biāo)準(zhǔn)也是建筑在其他的標(biāo)準(zhǔn)之 上的, 例如,PCM, MPEG-1, MPEG-2和MPEG-4等等。 在MPE
29、G-7中,例如MPEG-4中使用的形狀描述符、MPEG-1和 MPEG-2中使用的移動(dòng)矢量(motion vector)等都可能在MPEG-7中用 到。 31 圖8-08表示了MPEG-7的處理鏈(processing chain), 這是高度抽象的方框圖。在這個(gè)處理鏈中包含有三 個(gè)方框: 特征抽取(feature extraction)、 標(biāo)準(zhǔn)描述(standard description) 檢索工具(search engine)。 特征的自動(dòng)分析和抽取對(duì)MPEG-7是至關(guān)重要的, 抽象程度越高,自動(dòng)抽取也越困難,而且不是都能 夠自動(dòng)抽取的,因此開發(fā)自動(dòng)的和交互式半自動(dòng)抽 取的算法和工具都是
30、很有用的。盡管如此,特征抽 取和檢索工具都不包含在MPEG-7標(biāo)準(zhǔn)中,而是留 給大家去競(jìng)爭(zhēng),以便得到最好的算法和工具。 32 MPEG-7的應(yīng)用領(lǐng)域 數(shù)字圖書館(Digital library), 例如圖像目錄、音樂詞典等; 多媒體目錄服務(wù)(multimedia directory services), 例如黃頁(yellow pages); 廣播媒體的選擇, 例如無線電頻道,TV頻道等; 多媒體編輯, 例如個(gè)人電子新聞服務(wù),多媒體創(chuàng)作等等。 潛在應(yīng)用的應(yīng)用領(lǐng)域包括: 教育、娛樂、新聞、旅游、醫(yī)療、購物等等。 33 MPEG聲音 與前面章節(jié)介紹的波形聲音壓縮編碼(如ADPCM) 和參數(shù)編碼(如
31、LPC)不同,MPEG-1和MPEG-2的 聲音數(shù)據(jù)壓縮編碼不是依據(jù)波形本身的相關(guān)性和 模擬人的發(fā)音器官的特性,而是利用人的聽覺系 統(tǒng)的特性來達(dá)到壓縮聲音數(shù)據(jù)的目的,這種壓縮 編碼稱為感知聲音編碼(perceptual audio coding)。 進(jìn)入20世紀(jì)80年代之后,尤其最近幾年,人類在 利用自身的聽覺系統(tǒng)的特性來壓縮聲音數(shù)據(jù)方面 取得了很大的進(jìn)展,先后制定了MPEG-1 Audio, MPEG-2 Audio和MPEG-2 AAC等標(biāo)準(zhǔn)。 34 MPEG聲音 MPEG Audio壓縮編碼算法中的三個(gè)特性: 響度、 音高 掩蔽效應(yīng)。 35 MPEG聲音 對(duì)響度的感知 聲音的響度就是聲音
32、的強(qiáng)弱。 在物理上,聲音的響度使用客觀測(cè)量單位來度量,即 dyn/cm2(達(dá)因/平方厘米)(聲壓)或W/cm2(瓦特/平方厘 米)(聲強(qiáng))。 在心理上,主觀感覺的聲音強(qiáng)弱使用響度級(jí)“方(phon)” 或者“宋(sone)”來度量。 這兩種感知聲音強(qiáng)弱的計(jì)量單位是完全不同的兩 種概念,但是它們之間又有一定的聯(lián)系。 36 MPEG聲音 當(dāng)聲音弱到人的耳朵剛剛可以聽見時(shí),我們稱此時(shí)的聲音 強(qiáng)度為“聽閾”。 例如,1 kHz純音的聲強(qiáng)達(dá)到10-16w/cm2(定義成零dB聲強(qiáng)級(jí))時(shí), 人耳剛能聽到,此時(shí)的主觀響度級(jí)定為零方。實(shí)驗(yàn)表明,聽閾是 隨頻率變化的。測(cè)出的“聽閾頻率”曲線如圖9-01所示。圖中
33、最靠下面的一根曲線叫做“零方等響度級(jí)”曲線,也稱“絕對(duì)聽 閾”曲線,即在安靜環(huán)境中,能被人耳聽到的純音的最小值。 另一種極端的情況是聲音強(qiáng)到使人耳感到疼痛。 實(shí)驗(yàn)表明,如果頻率為1 kHz的純音的聲強(qiáng)級(jí)達(dá)到120 dB左右時(shí), 人的耳朵就感到疼痛,這個(gè)閾值稱為“痛閾”。對(duì)不同的頻率進(jìn) 行測(cè)量,可以得到“痛閾頻率”曲線,如圖9-01中最靠上面所 示的一根曲線。這條曲線也就是120方等響度級(jí)曲線。 37 MPEG聲音 在“聽閾頻率”曲線和“痛閾頻 率”曲線之間的區(qū)域就是人耳的聽覺 范圍。這個(gè)范圍內(nèi)的等響度級(jí)曲線也 是用同樣的方法測(cè)量出來的。由圖9- 01可以看出,1 kHz的10 dB的聲音和 2
34、00 Hz的30 dB的聲音,在人耳聽起 來具有相同的響度。 圖9-01說明人耳對(duì)不同頻率的敏感程 度差別很大,其中對(duì)2 kHz4 kHz范 圍的信號(hào)最為敏感,幅度很低的信號(hào) 都能被人耳聽到。而在低頻區(qū)和高頻 區(qū),能被人耳聽到的信號(hào)幅度要高得 多。 圖9-01 “聽閾頻率”曲線 38 MPEG聲音 對(duì)音高的感知 客觀上用頻率來表示聲音的音高,其單位是Hz。而主觀感 覺的音高單位則是“美(Mel)”,主觀音高與客觀音高的關(guān)系 是:Mel=log2(1+f),其中 的單位為Hz,這也是兩個(gè)既不相同 又有聯(lián)系的單位。 人耳對(duì)響度的感覺有一個(gè)范圍,即從聽閾到痛閾。同樣, 人耳對(duì)頻率的感覺也有一個(gè)范圍。
35、人耳可以聽到的最低頻 率約20 Hz,最高頻率約18000 Hz。正如測(cè)量響度時(shí)是以 1 kHz純音為基準(zhǔn)一樣,在測(cè)量音高時(shí)則以40 dB聲強(qiáng)為基 準(zhǔn),并且同樣由主觀感覺來確定。 39 MPEG聲音 測(cè)量主觀音高時(shí),讓實(shí)驗(yàn)者聽兩個(gè)聲強(qiáng)級(jí)為40 dB的純 音,固定其中一個(gè)純音的頻率,調(diào)節(jié)另一個(gè)純音的頻 率,直到他感到后者的音高為前者的兩倍,就標(biāo)定這 兩個(gè)聲音的音高差為兩倍。實(shí)驗(yàn)表明,音高與頻率之 間也不是線性關(guān)系。測(cè)出的“音高頻率”曲線如圖 所示。 “音高頻率”曲 線 40 MPEG聲音 掩蔽效應(yīng)掩蔽效應(yīng) 一種頻率的聲音阻礙聽覺系統(tǒng)感受另一 種頻率的聲音的現(xiàn)象稱為掩蔽效應(yīng)。 前者稱為掩蔽聲音(m
36、asking tone), 后者稱為被掩蔽聲音(masked tone)。 掩蔽可分成頻域掩蔽和時(shí)域掩蔽。 41 一個(gè)強(qiáng)純音會(huì)掩蔽在其附近同時(shí)發(fā)聲的弱純音,這種特性稱為頻域掩蔽, 也稱同時(shí)掩蔽(simultaneous masking)。 如圖9-03所示,一個(gè)聲強(qiáng)為60 dB、頻率為1000 Hz的純音,另外還 有一個(gè)1100 Hz的純音,前者比后者高18 dB,在這種情況下我們的 耳朵就只能聽到那個(gè)1000 Hz的強(qiáng)音。如果有一個(gè)1000 Hz的純音和 一個(gè)聲強(qiáng)比它低18 dB的2000 Hz的純音,那么我們的耳朵將會(huì)同時(shí) 聽到這兩個(gè)聲音。要想讓2000 Hz的純音也聽不到,則需要把它降到
37、 比1000 Hz的純音低45 dB。一般來說,弱純音離強(qiáng)純音越近就越容 易被掩蔽。 聲強(qiáng)為60 dB、頻率為1000 Hz純音的掩蔽效應(yīng) 42 在圖9-04中的一組曲線分別表示頻率為250 Hz、1 kHz、4 kHz和8 kHz純音的掩蔽效應(yīng),它們的聲強(qiáng)均為60 dB。從圖 中可以看到: 在250 Hz、1 kHz、4 kHz和8 kHz純音附近,對(duì)其他純音的掩蔽效 果最明顯, 低頻純音可以有效地掩蔽高頻純音,但高頻純音對(duì)低頻純音的掩蔽 作用則不明顯。 不同純音的掩蔽效應(yīng)曲線 43 由于聲音頻率與掩蔽曲線不是線性關(guān)系 ,為從感知上來統(tǒng)一度量聲音頻率,引 入了“臨界頻帶(critical b
38、and)”的概念 。通常認(rèn)為,在20 Hz到16 kHz范圍內(nèi) 有24個(gè)臨界頻帶,如下表所示。臨界頻 帶的單位叫Bark(巴克) 44 MPEG聲音 時(shí)域掩蔽時(shí)域掩蔽 除了同時(shí)發(fā)出的聲音之間有掩蔽現(xiàn)象之外,在時(shí)間上相鄰的聲音之間也 有掩蔽現(xiàn)象,并且稱為時(shí)域掩蔽。 時(shí)域掩蔽又分為超前掩蔽(pre-masking)和滯后掩蔽(post-masking),如 圖所示。產(chǎn)生時(shí)域掩蔽的主要原因是人的大腦處理信息需要花費(fèi)一定的 時(shí)間。一般來說,超前掩蔽很短,只有大約520 ms,而滯后掩蔽可以 持續(xù)50200 ms。這個(gè)區(qū)別也是很容易理解的。 45 MPEG Audio與感知特性 MPEG Audio標(biāo)準(zhǔn)
39、在本書中是指MPEG-1 Audio、MPEG-2 Audio和MPEG-2 AAC, 它們處理10 Hz20000 Hz范圍里的聲音數(shù) 據(jù)。 數(shù)據(jù)壓縮的的主要依據(jù)是人耳朵的聽覺特 性,使用“心理聲學(xué)模型(psychoacoustic model)”來達(dá)到壓縮聲音數(shù)據(jù)的目的。 46 MPEG Audio與感知特性 心理聲學(xué)模型中一個(gè)基本的概念就是聽覺系統(tǒng)中存在一個(gè)聽覺閾值電 平,低于這個(gè)電平的聲音信號(hào)就聽不到,因此就可以把這部分信號(hào)去 掉。 聽覺閾值的大小隨聲音頻率的改變而改變,各個(gè)人的聽覺閾值也不同。 大多數(shù)人的聽覺系統(tǒng)對(duì)2 kHz5 kHz之間的聲音最敏感。 一個(gè)人是否能聽到聲音取決于聲音
40、的頻率,以及聲音的幅度是否高于這 種頻率下的聽覺閾值。 心理聲學(xué)模型中的另一個(gè)概念是聽覺掩飾特性,意思是聽覺閾值電平 是自適應(yīng)的,即聽覺閾值電平會(huì)隨聽到的不同頻率的聲音而發(fā)生變化。 例如,同時(shí)有兩種頻率的聲音存在,一種是1000 Hz的聲音,另一種是 1100 Hz的聲音,但它的強(qiáng)度比前者低18分貝,在這種情況下,1100 Hz 的聲音就聽不到。 也許你有這樣的體驗(yàn),在一安靜房間里的普通談話可以聽得很清楚,但 在播放搖滾樂的環(huán)境下同樣的普通談話就聽不清楚了。聲音壓縮算法也 同樣可以確立這種特性的模型來取消更多的冗余數(shù)據(jù)。 47 MPEG-1 Audio 聲音的數(shù)據(jù)量由兩方面決定: 采樣頻率和樣
41、本精度。 對(duì)單聲道信號(hào)而言,每秒鐘的數(shù)據(jù)量(位數(shù))=采樣頻率 x 樣本精度。 要減小數(shù)據(jù)量,就需要降低采樣頻率或者降低樣本精度。 但是人耳可聽到的頻率范圍大約是20 Hz20 kHz。根據(jù)奈奎斯特 理論,要想不失真地重構(gòu)信號(hào),采樣頻率不能低于40 kHz。 再考慮到實(shí)際中使用的濾波器都不可能是理想濾波器,以及考慮 各國所用的交流電源的頻率,為保證聲音頻帶的寬度,所以采樣 頻率一般不能低于44.1 kHz。 這樣,壓縮就必須從降低樣本精度這個(gè)角度出發(fā),即減少每位樣 本所需要的位數(shù)。 48 MPEG-1 Audio 前面介紹了線性預(yù)測(cè)編碼(linear predictive coding,LPC)
42、 的方法,這種方法主要是針對(duì)話音的編碼,這種編碼方法 稱為音源特定編碼法(source specific methods)。 MPEG-1和MPEG-2的聲音壓縮采用了另一種方法,稱為 子帶編碼(sub-band coding,SBC)方法,這也是一種功 能很強(qiáng)而且很有效的聲音信號(hào)編碼方法。 與音源特定編碼法不同,SBC不局限于只對(duì)話音進(jìn)行編碼,也不 局限于哪一種聲源。 這種方法的具體思想是首先把時(shí)域中的聲音數(shù)據(jù)變換到頻域,對(duì) 頻域內(nèi)的子帶分量分別進(jìn)行量化和編碼,然后根據(jù)心理聲學(xué)模型 確定樣本的精度,從而達(dá)到壓縮數(shù)據(jù)量的目的。 49 MPEG-1 Audio MPEG聲音數(shù)據(jù)壓縮的基礎(chǔ)是量化。
43、 雖然量化會(huì)帶來失真,但MPEG標(biāo)準(zhǔn)要求量化失真對(duì)于人耳來說 是感覺不到的。在MPEG標(biāo)準(zhǔn)的制定過程中,MPEG-Audio委員 會(huì)作了大量的主觀測(cè)試實(shí)驗(yàn)。實(shí)驗(yàn)表明,采樣頻率為48 kHz、樣 本精度為16比特的聲音數(shù)據(jù)壓縮到256 kb/s時(shí),即在6:1的壓縮 率下,即使是專業(yè)測(cè)試員也很難分辨出是原始聲音還是編碼壓縮 后的聲音。 MPEG Audio是一個(gè)子帶編碼系統(tǒng)。 聲音數(shù)據(jù)壓縮算法的根據(jù)是心理聲學(xué)模型,心理聲學(xué)模型中一個(gè) 最基本的概念是聽覺系統(tǒng)中存在一個(gè)聽覺閾值電平,低于這個(gè)電 平的聲音信號(hào)就聽不到。 聽覺閾值的大小隨聲音頻率的改變而改變,各個(gè)人的聽覺閾值也 不同。大多數(shù)人的聽覺系統(tǒng)對(duì)
44、2 kHz5 kHz之間的聲音最敏感。 一個(gè)人是否能聽到聲音取決于聲音的頻率,以及聲音的幅度是否 高于這種頻率下的聽覺閾值。 50 MPEG-1 Audio 心理聲學(xué)模型中的另一個(gè)概念是聽覺掩飾特性,意思是聽覺閾值 電平是自適應(yīng)的,即聽覺閾值電平會(huì)隨聽到的頻率不同的聲音而 發(fā)生變化。 例如,在一般環(huán)境下房間里的普通談話可以聽得很清楚,但 在搖滾樂環(huán)境下同樣的普通談話就聽不清楚了。聲音壓縮算 法也同樣可以確立這種特性的模型,根據(jù)這個(gè)模型可取消冗 余的聲音數(shù)據(jù)。MPEG Audio的壓縮算法框圖如圖所示。 51 而MPEG聲音(ISO/IEC 11172-3)壓縮算法是世界上第一個(gè)高 保真聲音數(shù)據(jù)
45、壓縮國際標(biāo)準(zhǔn),并且得到了極其廣泛的應(yīng)用。 雖然MPEG聲音標(biāo)準(zhǔn)是MPEG標(biāo)準(zhǔn)的一部分,但它也完全可 以獨(dú)立應(yīng)用。 MPEG-1聲音標(biāo)準(zhǔn)的主要性能如下: (1) 如圖所示,MPEG編碼器的輸入信號(hào)為線性PCM信號(hào), 采樣率為32, 44.1或48 kHz,輸出為32 kb/s384 kb/s。 MPEG編碼器的輸入/輸出 52 (2) MPEG聲音標(biāo)準(zhǔn)提供三個(gè)獨(dú)立的壓縮層次:層1(Layer 1)、層2(Layer 2)和層3(Layer 3),用戶對(duì)層次的選擇可在 復(fù)雜性和聲音質(zhì)量之間進(jìn)行權(quán)衡。 層1的編碼器最為簡(jiǎn)單,編碼器的輸出數(shù)據(jù)率為384 kb/s,主要用 于小型數(shù)字盒式磁帶(digit
46、al compact cassette,DCC)。 層2的編碼器的復(fù)雜程度屬中等,編碼器的輸出數(shù)據(jù)率為256 kb/s192 kb/s,其應(yīng)用包括數(shù)字廣播聲音(digital broadcast audio,DBA)、數(shù)字音樂、CD-I(compact disc-interactive)和 VCD(video compact disc)等。 層3的編碼器最為復(fù)雜,編碼器的輸出數(shù)據(jù)率為64 kb/s,主要應(yīng) 用于ISDN上的聲音傳輸。 53 在盡可能保持CD音質(zhì)為前提的條件下,MPEG聲音標(biāo)準(zhǔn)一般 所能達(dá)到的壓縮率如表9-02所示,從編碼器的輸入到輸出的 延遲時(shí)間如表9-03所示。 表9-02
47、MPEG聲音的壓縮率 表9-03 MPEG編碼解碼器的延遲時(shí)間 54 (3) 可預(yù)先定義壓縮后的數(shù)據(jù)率,如表9-04所示。另外,MPEG 聲音標(biāo)準(zhǔn)也支持用戶預(yù)定義的數(shù)據(jù)率。 (4) 編碼后的數(shù)據(jù)流支持循環(huán)冗余校驗(yàn)CRC(cyclic redundancy check)。 (5) MPEG聲音標(biāo)準(zhǔn)還支持在數(shù)據(jù)流中添加附加信息。 表9-04 MPEG層3在各種數(shù)據(jù)率下的性能: 55 子帶編碼 MPEG-1使用子帶編碼來達(dá)到既壓縮聲音數(shù)據(jù)又 盡可能保留聲音原有質(zhì)量的目的。 聽覺系統(tǒng)有許多特性,子帶編碼的理論根據(jù)是聽覺系 統(tǒng)的掩蔽特性,并且主要是利用頻域掩蔽特性。 SBC的基本想法就是在編碼過程中保留
48、信號(hào)的帶寬而 扔掉被掩蔽的信號(hào),其結(jié)果是編碼之后還原的聲音, 也就是解碼或者叫做重構(gòu)的聲音信號(hào)與編碼之前的聲 音信號(hào)不相同,但人的聽覺系統(tǒng)很難感覺到它們之間 的差別。 這也就是說,對(duì)聽覺系統(tǒng)來說這種壓縮是“無損壓 縮”。 56 子帶編碼 大多數(shù)SBC編碼器都使用如圖9-09所示的結(jié)構(gòu),這也 是MPEG-1聲音編碼器的結(jié)構(gòu)圖。 輸入聲音信號(hào)經(jīng)過一個(gè)“時(shí)間-頻率多相濾波器組”變換到頻 域里的多個(gè)子帶中。 輸入聲音信號(hào)同時(shí)經(jīng)過“心理聲學(xué)模型(計(jì)算掩蔽特性)”,該 模型計(jì)算以頻率為自變量的噪聲掩蔽閾值(masking threshold), 查看輸入信號(hào)和子帶中的信號(hào)以確定每個(gè)子帶里的信號(hào)能量 與掩蔽
49、閾值的比率。 “量化和編碼”部分用信掩比(signal-to-mask ratio,SMR)來 決定分配給子帶信號(hào)的量化位數(shù),使量化噪聲低于掩蔽閾值。 最后通過“數(shù)據(jù)流幀包裝”將量化的子帶樣本和其他數(shù)據(jù)按 照規(guī)定的稱為“幀(frame)”的格式組裝成位數(shù)據(jù)流。 57 子帶編碼 信掩比是指最大的信號(hào)功率與全局掩蔽閾值之比,下 圖表示了某個(gè)子帶中的信掩比。 SNR(signal noise ratio) 信號(hào)噪聲比 SMR(signal-to-mask ratio) 信號(hào)掩蔽比 NMR(noise-to-mask ratio) 噪聲掩蔽比 58 子帶編碼 圖9-11是MPEG-1聲音解碼器的結(jié)構(gòu)圖
50、。解碼器對(duì)位數(shù) 據(jù)流進(jìn)行解碼,恢復(fù)被量化的子帶樣本值以重建聲音 信號(hào)。由于解碼器無需心理聲學(xué)模型,只需拆包、重 構(gòu)子帶樣本和把它們變換回聲音信號(hào),因此解碼器就 比編碼器簡(jiǎn)單得多。 圖9-11 MPEG聲音解碼器結(jié)構(gòu)圖 59 多相濾波器組 用來分割子帶也就是時(shí)間-頻率變換部件是一個(gè)多相濾波器組。 在MPEG-1中,多相濾波器組是MPEG聲音壓縮的關(guān)鍵部分部件之一, 它把輸入信號(hào)變換到32個(gè)頻域子帶中去。 子帶的劃分方法有兩種,一種是線性劃分,另一種是非線性劃分。如 果把聲音頻帶劃分成帶寬相等的子帶,這種劃分就不能精確地反映人 耳的聽覺特性,因?yàn)槿硕穆犛X特性是以“臨界頻帶”來劃分的,在 一個(gè)臨界
51、頻帶之內(nèi),很多心理聲學(xué)特性都是一樣的。 在低頻區(qū)域,一個(gè)子帶覆蓋好幾個(gè)臨界頻帶。在這種情況下,某個(gè)子 帶中量化器的比特分配就不能根據(jù)每個(gè)臨界頻帶的掩蔽閾值進(jìn)行分配, 而要以其中最低的掩蔽閾值為準(zhǔn)。 60 編碼層 MPEG聲音壓縮定義了3個(gè)分明的層次,它們的基 本模型是相同的。 層1是最基礎(chǔ)的,層2和層3都在層1的基礎(chǔ)上有所提高。 每個(gè)后繼的層次都有更高的壓縮比,但需要更復(fù)雜的編 碼解碼器。 MPEG聲音的每一個(gè)層都自含SBC編碼器,其中包含如 圖9-09所示的“時(shí)間-頻率多相濾波器組”、“心理聲學(xué) 模型(計(jì)算掩蔽特性)”、“量化和編碼”和“數(shù)據(jù)流幀包 裝”,而高層SBC可使用低層SBC編碼的聲
52、音數(shù)據(jù)。 61 MPEG的聲音數(shù)據(jù)分成幀(frame),層1每幀包含384個(gè)樣本 的數(shù)據(jù),每幀由32個(gè)子帶分別輸出的12個(gè)樣本組成。層2和 層3每幀為1152個(gè)樣本,如圖9-13所示。 圖9-13 層1、2和層3的子帶樣本 62 MPEG-2 Audio MPEG-2標(biāo)準(zhǔn)委員會(huì)定義了兩種聲音數(shù)據(jù)壓縮格 式: 一種稱為MPEG-2 Audio,或者稱為MPEG-2多通道 (Multichannel)聲音,因?yàn)樗cMPEG-1 Audio是兼容的, 所以又稱為MPEG-2 BC (Backward Compatible)。 另一種稱為MPEG-2 AAC (Advanced Audio Codin
53、g), 因?yàn)樗cMPEG-1聲音格式不兼容,因此通常稱為非后 向兼容MPEG-2 NBC(Non-Backward-Compatible)標(biāo)準(zhǔn)。 這節(jié)先介紹MPEG-2 Audio。 63 MPEG-2 Audio(ISO/IEC 13818-3)和MPEG-1 Audio(ISO/IEC 1117-3)標(biāo) 準(zhǔn)都使用相同種類的編譯碼器,層-1, -2和-3的結(jié)構(gòu)也相同。 MPEG-2聲音標(biāo)準(zhǔn)與MPEG-1標(biāo)準(zhǔn)相比,MPEG-2做了如下擴(kuò)充: 增加了16 kHz, 22.05 kHz和24 kHz采樣頻率, 擴(kuò)展了編碼器的輸出速率范圍,由32384 kb/s擴(kuò)展到8640 kb/s, 增加了聲道
54、數(shù),支持5.1聲道和7.1聲道的環(huán)繞聲。 此外MPEG-2還支持Linear PCM(線性PCM)和Dolby AC-3(Audio Code Number 3)編碼。它們的差別如表9-05所示。 MPEG-1和-2的聲音數(shù)據(jù)規(guī)格 64 MPEG-2 Audio的“5.1環(huán)繞聲”也稱為“3/2-立體聲加LFE”,其中的“.1” 就是指LFE聲道。它的含義是播音現(xiàn)場(chǎng)的前面可有3個(gè)喇叭聲道(左、中、 右),后面可有2個(gè)環(huán)繞聲喇叭聲道,LFE(low frequency effects)是低頻音 效的加強(qiáng)聲道,如圖9-19(a)所示。 7.1聲道環(huán)繞立體聲與5.1類似,如圖9-19(b)所示。 圖9
55、-19(a) 5.1聲道立體環(huán)繞聲 圖9-19(b) 7.1聲道立體環(huán)繞聲 65 MPEG-2聲音標(biāo)準(zhǔn)的第3部分(Part 3)是MPEG-1聲音標(biāo)準(zhǔn)的擴(kuò)展,擴(kuò)展部 分就是多聲道擴(kuò)展(multichannel extension),如圖9-20所示。這個(gè)標(biāo)準(zhǔn)稱 為MPEG-2后向兼容多聲道聲音編碼(MPEG-2 backwards compatible multichannel audio coding)標(biāo)準(zhǔn),簡(jiǎn)稱為MPEG-2 BC。 66 MPEG-2 AAC MPEG-2 AAC是MPEG-2標(biāo)準(zhǔn)中的一種非常靈活的聲音感知編碼標(biāo)準(zhǔn)。 就像所有感知編碼一樣,MPEG-2 AAC主要使用聽覺
56、系統(tǒng)的掩蔽特性 來減少聲音的數(shù)據(jù)量,并且通過把量化噪聲分散到各個(gè)子帶中,用全 局信號(hào)把噪聲掩蔽掉。 AAC支持的采用頻率可從8 kHz到96 kHz, AAC編碼器的音源可以是單聲道的、立體聲的和多聲道的聲音。 AAC標(biāo)準(zhǔn)可支持48個(gè)主聲道、16個(gè)低頻音效加強(qiáng)通道LFE (low frequency effects)、16個(gè)配音聲道(overdub channel)或者叫做多語言聲 道(multilingual channel)和16個(gè)數(shù)據(jù)流。 MPEG-2 AAC在壓縮比為11:1,即每個(gè)聲道的數(shù)據(jù)率為 (44.116 )/11=64 kb/s,而5個(gè)聲道的總數(shù)據(jù)率為320 kb/s的情況下
57、,很 難區(qū)分還原后的聲音與原始聲音之間的差別。與MPEG的層2相比, MPEG-2 AAC的壓縮率可提高1倍,而且質(zhì)量更高,與MPEG的層3相比, 在質(zhì)量相同的條件下數(shù)據(jù)率是它的70。 67 MPEG-2 AAC的配置 開發(fā)MPEG-2 AAC標(biāo)準(zhǔn)采用的方法與開發(fā) MPEG Audio標(biāo)準(zhǔn)采用的方法不同。 后者采用的方法是對(duì)整個(gè)系統(tǒng)進(jìn)行標(biāo)準(zhǔn)化, 前者采用的方法是模塊化的方法,把整個(gè)AAC 系統(tǒng)分解成一系列模塊,用標(biāo)準(zhǔn)化的AAC工具 (advanced audio coding tools)對(duì)模塊進(jìn)行定義。 68 MPEG-2 AAC的配置 AAC標(biāo)準(zhǔn)定義了三種配置: 基本配置基本配置(Main
58、 Profile): 在這種配置中,除了“增益控制(Gain Control)”模塊之外,AAC系統(tǒng)使用了圖中所示的所有模塊,在三種 配置中提供最好的聲音質(zhì)量,而且AAC的解碼器可以對(duì)低復(fù)雜性配 置編碼的聲音數(shù)據(jù)進(jìn)行解碼,但對(duì)計(jì)算機(jī)的存儲(chǔ)器和處理能力的要 求方面,基本配置比低復(fù)雜性配置的要求高。 低復(fù)雜性配置低復(fù)雜性配置(Low Complexity Profile): 在這種配置中,不使用 預(yù)測(cè)模塊和預(yù)處理模塊,瞬時(shí)噪聲定形(temporal noise shaping, TNS)濾波器的級(jí)數(shù)也有限,這就使聲音質(zhì)量比基本配置的聲音質(zhì)量 低,但對(duì)計(jì)算機(jī)的存儲(chǔ)器和處理能力的要求可明顯減少。 可變
59、采樣率配置可變采樣率配置(Scalable Sampling Rate Profile): 在這種配置中, 使用增益控制對(duì)信號(hào)作預(yù)處理,不使用預(yù)測(cè)模塊,TNS濾波器的級(jí) 數(shù)和帶寬也都有限制,因此它比基本配置和低復(fù)雜性配置更簡(jiǎn)單, 可用來提供可變采樣頻率信號(hào)。 69 MPEG-2 AAC的基本模塊 增益控制增益控制(Gain control) 增益控制模塊用在可變采樣率配置中,它由多相正交濾波器增益控制模塊用在可變采樣率配置中,它由多相正交濾波器 PQF(polyphase quadrature filter)、增益檢測(cè)器、增益檢測(cè)器(gain detector)和增和增 益修正器益修正器(ga
60、in modifier)組成。這個(gè)模塊把輸入信號(hào)分離到組成。這個(gè)模塊把輸入信號(hào)分離到4個(gè)相等帶個(gè)相等帶 寬的頻帶中。在解碼器中也有增益控制模塊,通過忽略寬的頻帶中。在解碼器中也有增益控制模塊,通過忽略PQF的高子帶信的高子帶信 號(hào)獲得低采樣率輸出信號(hào)。號(hào)獲得低采樣率輸出信號(hào)。 濾波器組濾波器組(Filter Bank) 濾波器組是把輸入信號(hào)從時(shí)域變換到頻域的轉(zhuǎn)換模塊,它是濾波器組是把輸入信號(hào)從時(shí)域變換到頻域的轉(zhuǎn)換模塊,它是MPEG-2 AAC系統(tǒng)的基本模塊。這個(gè)模塊采用了改進(jìn)離散余弦變換系統(tǒng)的基本模塊。這個(gè)模塊采用了改進(jìn)離散余弦變換MDCT,它是,它是 一種線性正交交迭變換,使用了一種稱為時(shí)域
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 危急重癥患者護(hù)理基本技能
- 南京信息職業(yè)技術(shù)學(xué)院《化工過程測(cè)控技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 武漢船舶職業(yè)技術(shù)學(xué)院《汽車運(yùn)用工程》2023-2024學(xué)年第二學(xué)期期末試卷
- 沈陽化工大學(xué)《外科學(xué)概論》2023-2024學(xué)年第二學(xué)期期末試卷
- 浙江省紹興市諸暨市2024-2025學(xué)年初三第三次診斷考試數(shù)學(xué)試題含解析
- 鄭州衛(wèi)生健康職業(yè)學(xué)院《大學(xué)英語(Ⅳ)-職場(chǎng)英語》2023-2024學(xué)年第一學(xué)期期末試卷
- 江蘇省無錫江陰市2024-2025學(xué)年高三學(xué)生學(xué)業(yè)調(diào)研抽測(cè)(第一次)生物試題含解析
- 漯河職業(yè)技術(shù)學(xué)院《高級(jí)編程》2023-2024學(xué)年第二學(xué)期期末試卷
- 嘉應(yīng)學(xué)院《跨文化傳播案例解析》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖南省長(zhǎng)沙市長(zhǎng)鐵一中2025年初三第三次質(zhì)量考評(píng)試卷語文試題含解析
- 撰寫課題申請(qǐng)書的五個(gè)關(guān)鍵(課堂PPT)
- 檸檬茶項(xiàng)目財(cái)務(wù)數(shù)據(jù)分析(參考范文)
- 預(yù)制渡槽吊裝施工方案_圖文
- 國家開放大學(xué)《會(huì)計(jì)學(xué)概論》章節(jié)測(cè)試參考答案
- sq1魔方還原教程
- 小升初個(gè)人簡(jiǎn)歷表
- 集中空調(diào)衛(wèi)生檔案目錄
- 錐套國際標(biāo)準(zhǔn)基本參數(shù)表
- 績(jī)效管理體系優(yōu)化方案
- DIN5480-10-1991中文版
- 支撐臺(tái)鑄造工藝設(shè)計(jì)剖析
評(píng)論
0/150
提交評(píng)論