信息技術虛擬現(xiàn)實內容表達第3部分- 音頻

上傳人：搬*** IP屬地：浙江上傳時間：2024-06-24 格式：PDF 頁數(shù)：347 大?。?.81MB 積分：11 舉報 版權申訴

已閱讀5頁，還剩342頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

ICS35.040GB/TXXXXX.3—XXXX

L71

中華人民共和國國家標準

GB/TXXXXX.3—XXXX

信息技術虛擬現(xiàn)實內容表達

第3部分：音頻

Informationtechnology–Virtualrealitycontentrepresentation–Part3:Audio

（征求意見稿）

（本稿完成日期：2023-1-17）

在提交反饋意見時，請將您知道的相關專利連同支持性文件一并附上。

××××-××-××發(fā)布××××-××-××實施

GB/TXXXXX.3—XXXX

前言

本文件按照GB/T1.1—2020《標準工作化導則第1部分：標準化文件的結構和起草規(guī)則》的規(guī)定

起草。

本文件是GB/TXXXXX《信息技術虛擬現(xiàn)實內容表達》的第三部分。GB/TXXXXX已經(jīng)發(fā)布了

以下部分：

——第2部分：視頻。

本文件由全國信息技術標準化技術委員會（SAC/TC28）提出并歸口。

本文件起草單位：清華大學、北京理工大學、中國電子技術標準化研究院、北京字跳網(wǎng)絡技術有

限公司、賽因芯微(北京)電子科技有限公司、北京全景聲信息科技有限公司、中關村視聽產業(yè)技術創(chuàng)

新聯(lián)盟、清華大學天津電子信息研究院、北京大學、咪咕文化科技有限公司、騰訊科技(深圳)有限公

司、北京愛奇藝科技有限公司、小米通訊技術有限公司、全景聲（北京）智能科技有限公司、華為技

術有限公司、中國傳媒大學。

本文件主要起草人：王晶、竇維蓓、耿一丹、朱博成、李婧欣、黃傳增、柳德榮、吳健、吳強、

許舒敏、潘興德、曲天書、李岳鵬、商世東、王志航、劉長韜、黃為慶、劉孟美、趙天博、韓澤瑞、

王賓、韓建、李琳、徐嵩、王喆、高原、靳聰、張偉民、高文、黃鐵軍。

III

引言

隨著虛擬現(xiàn)實(VR)技術的不斷涌現(xiàn)，虛擬現(xiàn)實已成為增強沉浸感的新興媒體形式，VR

音頻內容表達與渲染重建技術在虛擬現(xiàn)實沉浸感、真實感體驗中占有重要地位。目前虛擬現(xiàn)

實全景視頻技術已經(jīng)受到廣泛關注和重視，但是由于缺乏VR音頻內容表達和渲染重建的技

術規(guī)范，難以實現(xiàn)各種VR音頻采集制作與終端回放設備或系統(tǒng)間的互通共享。本標準在遵

循ITU-RBS.2076-2規(guī)范的前提下，面向適應我國全景音頻播出、沉浸式音頻通信、虛擬現(xiàn)

實音頻交互等領域，提供虛擬現(xiàn)實音頻內容的元素定義、編碼規(guī)范和渲染重建建議，服務于

虛擬現(xiàn)實(VR/AR/MR/XR)設備和相關系統(tǒng)中的音頻應用。GB/TXXXXX旨在確立VR音頻

元數(shù)據(jù)系統(tǒng)和渲染系統(tǒng)之間的協(xié)同關系，以及VR音頻元數(shù)據(jù)流與音頻流之間的可能的復接

模式，形成VR音頻內容表達的互聯(lián)互通應用規(guī)范，支持3DoF和6DoF等虛擬現(xiàn)實場景下，

涉及基于聲道、對象、場景三類信號的采集制作和渲染重建。本標準設計了音頻元數(shù)據(jù)系統(tǒng)、

音頻編解碼系統(tǒng)和VR音頻渲染系統(tǒng)之間的解耦合架構，三個系統(tǒng)之間既相互獨立，又緊密

配合，形成VR音頻內容表達的應用規(guī)范。本標準將對VR音頻坐標系、元數(shù)據(jù)系統(tǒng)、渲染

器系統(tǒng)、AVS音頻元數(shù)據(jù)串行流封裝格式進行規(guī)范。

本文件的發(fā)布機構提請注意，聲明符合本文件時，可能涉及到如下52項專利的使用。

其中，可能涉及到第6、7、9、10章及附錄相關的專利名稱如下：

PCT/CN2021/100076，音頻渲染系統(tǒng)、方法和電子設備；PCT/CN2022/098882，音頻渲

染系統(tǒng)、方法和電子設備；PCT/CN2021/100062，用于音頻渲染的音頻信號編碼方法、裝置

和電子設備；PCT/CN2022/098850，音頻渲染系統(tǒng)、方法和電子設備；PCT/CN2021/114366，

一種3D音頻元數(shù)據(jù)系統(tǒng)；PCT/CN2022/114219，音頻信號的處理方法和裝置；

PCT/CN2021/121135，聲音路徑能量的淡入淡出方法、電子設備和介質，PCT/CN2022/122204，

音頻渲染方法、音頻渲染設備和電子設備；PCT/CN2021/121718，一種動態(tài)估計場景近似長

方體房間的方法；PCT/CN2022/122635，一種音頻渲染系統(tǒng)和方法；PCT/CN2021/104309，

混響時長的估計方法、音頻信號的渲染方法和電子設備；PCT/CN2022/103312，音頻信號的

渲染方法、裝置和電子設備；PCT/CN2021/115130，用于音頻渲染的信號處理方法、裝置和

電子設備；PCT/CN2022/115194，用于音頻渲染的信號處理方法、裝置和電子設備；

PCT/CN2021/121729，用于空間音頻渲染的系統(tǒng)、方法和電子設備；PCT/CN2022/122657，

用于空間音頻渲染的系統(tǒng)、方法和電子設備；202110984837.4，一種音頻制作模型和生成方

法、電子設備及存儲介質；202111102045.6，音頻節(jié)目元數(shù)據(jù)和產生方法、電子設備及存儲

介質；202111100818.7，音頻內容元數(shù)據(jù)和產生方法、電子設備及存儲介質；202111102038.6，

音頻對象元數(shù)據(jù)和產生方法、電子設備及存儲介質；202111205630.9，音軌唯一標識元數(shù)據(jù)

和生成方法、電子設備及存儲介質；202111204386.4，一種音頻軌道元數(shù)據(jù)和生成方法、電

子設備及存儲介質；202111202898.7，一種音頻流元數(shù)據(jù)和生成方法、電子設備及存儲介質；

202111308422.1，基于音床音頻包格式元數(shù)據(jù)和產生方法、設備及介質；202111308430.6，

基于對象音頻包格式元數(shù)據(jù)和產生方法、設備及介質；202111306844.5，基于場景音頻包格

式元數(shù)據(jù)和產生方法、設備及存儲介質；202111308421.7，基于雙耳音頻包格式元數(shù)據(jù)和產

生方法、設備及介質；202111021068.4，基于音床音頻通道元數(shù)據(jù)和生成方法、設備及存儲

GB/TXXXXX.3—XXXX

介質；202111020417.0，基于對象音頻通道元數(shù)據(jù)和生成方法、設備及存儲介質；

202111021066.5，基于場景音頻通道元數(shù)據(jù)和生成方法、設備及存儲介質；202111021039.8，

基于雙耳音頻通道元數(shù)據(jù)和生成方法、設備及存儲介質；202111666346.1，一種廣播音頻格

式文件生成方法、裝置、設備及存儲介質；202111666362.0，音頻元數(shù)據(jù)區(qū)塊的生成方法、

裝置、設備及存儲介質；202210588174.9，生成渲染器內部數(shù)據(jù)結構的方法、裝置、設備及

存儲介質；202210634563.0，利用元數(shù)據(jù)對基于音床的音頻進行渲染的方法及裝置；

202210762912.7，共享渲染器組件的配置方法、裝置、設備及存儲介質；202210760302.3，

一種音床渲染項數(shù)據(jù)映射方法、裝置、設備及存儲介質；202210603204.9，一種渲染器的渲

染項確定方法、裝置、設備及存儲介質；202210600880.0，一種音床輸出渲染項確定方法、

裝置、設備及存儲介質；202210603208.7，一種對象輸出渲染項確定方法、裝置、設備及存

儲介質；202210603212.3，一種場景輸出渲染項確定方法、裝置、設備及存儲介質；

202210603184.5，音頻渲染器的渲染項處理方法、裝置、設備及存儲介質；202210608202.9，

一種場景渲染項數(shù)據(jù)映射方法、裝置、設備及存儲介質；202210782056.1，一種音頻渲染器

增益計算方法、裝置、設備及存儲介質；202210910129.0，用于對象渲染器的元數(shù)據(jù)解析方

法、裝置、設備及介質；202210907370.8，利用元數(shù)據(jù)對基于對象的音頻進行渲染的方法及

裝置；202210912275.7，利用元數(shù)據(jù)對基于場景的音頻進行渲染的方法及裝置；

202211057713.2，利用元數(shù)據(jù)對基于對象的音頻進行渲染的方法及裝置；202211063746.8，

利用元數(shù)據(jù)對基于場景的音頻進行渲染的方法及裝置；ZL201510795213.2，一種3D錄音系

統(tǒng)球面麥克風陣列分布方法；CN112312298A，音頻播放方法及裝置、電子設備和存儲介質；

202210451743.5，一種音頻處理方法、裝置、電子設備和可讀存儲介質。

本文件的發(fā)布機構對于該專利的真實性、有效性和范圍無任何立場。

該專利持有人已向本文件的發(fā)布機構保證，他愿意同任何申請人在合理且無歧視的條款

和條件下，就專利授權許可進行談判。該專利持有人的聲明已在本文件的發(fā)布機構備案，相

關信息可以通過以下聯(lián)系方式獲得：

聯(lián)系人：黃鐵軍（數(shù)字音視頻編解碼技術標準工作組秘書長）

通訊地址：北京大學理科2號樓2641室

郵政編碼：100871

電子郵件：tjhuang@

電話：+8610-62756172

傳真：+8610-62751638

網(wǎng)址：

請注意除上述專利外，本文件的某些內容仍可能涉及專利。本文件的發(fā)布機構不承擔識

別這些專利的責任。

GB/TXXXXX.3—XXXX

信息技術虛擬現(xiàn)實內容表達第3部分：音頻

1范圍

本文件規(guī)定了虛擬現(xiàn)實（VirtualReality,VR）設備及相關系統(tǒng)中的沉浸式音頻內容的表

達方式，提出了包括元數(shù)據(jù)（Metadata）和渲染器（Render）的系統(tǒng)構架及接口規(guī)范。

本文件適用于多種類型的音頻采集、傳輸、回放系統(tǒng)，其中采集方式包括基于聲道

（Channel）、基于對象（Object）、基于場景（Scene）或它們的混合形式，傳輸方式包括

面向廣播信道、影視制作、互聯(lián)網(wǎng)等多個場景下的傳輸協(xié)議和多種音頻編解碼方式，回放方

式主要包括雙耳和揚聲器兩大類，雙耳渲染分為面向3DoF和6DoF兩種形式。當涉及音頻編

解碼格式選擇時，既可按照ITU-RBS.2388-4選擇PCM或其他國際通用音頻編碼格式，

也可選用GB/T33475.3或AVS3-P3音頻編碼格式。

本文件適用于全景音頻錄播、沉浸式音頻通信、虛擬現(xiàn)實音頻交互等領域。

2規(guī)范性引用文件

下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件，僅所注日期的版本

適用于本文件。凡是不注日期的引用文件，其最新版本（包括所有的修改單）適用于本文件。

GB/T5271.1信息技術詞匯第1部分：基本術語（GB/T5271.1-2000eqvISO/IEC2382-1：

1993）

GB/T5271.4信息技術詞匯第4部分：數(shù)據(jù)的組織（GB/T5271.4-2000eqvISO/IEC2382-4：

1987）

GB/T5271.9信息技術詞匯第9部分：數(shù)據(jù)通信（GB/T5271.9-2001eqvISO/IEC2382-9：

1995）

GB/T33475.3信息技術高效多媒體編碼第3部分：音頻

GB/T17191信息技術具有1.5Mbit/s數(shù)據(jù)傳輸率的數(shù)字存儲媒體運動圖像及其伴音的

編碼

GB/T17975.1信息技術運動圖像及其伴音信息的通用編碼第1部分：系統(tǒng)

GY/T316用于節(jié)目制作的先進聲音系統(tǒng)

ITU-RBS.2076Audiodefinitionmodel(音頻元數(shù)據(jù)定義)

ITU-RBS.2051Advancedsoundsystemforprogrammeproduction(揚聲器位置規(guī)范)

ITU-RBS.2088Long-formfileformatfortheinternationalexchangeofaudioprogramme

materialswithmetadata(BW64格式定義)

ITU-RBS.2388UsageGuidelinesfortheAudioDefinitionModelandMultichannelAudio

Files(音頻元數(shù)據(jù)和多聲道文件使用指南)

ITU-RBS.1770Algorithmstomeasureaudioprogrammeloudnessandtrue-peakaudiolevel

(音頻節(jié)目響度和真實峰值的測量算法)

AES69:AESstandardforfileexchange-Spatialacousticdatafileformat(SOFA標準規(guī)范)

3術語和定義

GB/TXXXXX.3—XXXX

GB/T5271.1、GB/T5271.4、GB/T5271.9和GB/T33475.3中的界定以及下列術語和定義

適用于本文件。

3.1

3自由度3DoF

用戶以三維空間的一個點為中心在橫搖（Roll）、縱搖（Pitch）和垂搖（Yaw）三個方

式下進行自由旋轉。

3.2

6自由度6DoF

用戶在3DoF的基礎上加上在X、Y和Z軸三個方向的自由平移。

3.3

全景音頻panoramicaudio

能夠提供3DoF自由度全方位聽覺體驗的空間音頻。

3.4

沉浸式音頻immersiveaudio

能夠提供6DoF自由度沉浸感的空間音頻。

3.5

互動音頻interactiveaudio

特定空間場景下的用戶間交互和用戶與場景內聲源物體的交互，使用元數(shù)據(jù)呈現(xiàn)。

3.6

元數(shù)據(jù)metadata

描述與虛擬現(xiàn)實音頻內容表達相關的數(shù)據(jù)。

3.7

基礎元數(shù)據(jù)basicmetadata

引用ITU-RBS.2076-2(10/2019)中定義的AudioFormatExtended所包含的所有ADM元素。

3.8

擴展元數(shù)據(jù)extendedmetadata

不包含在ITU-RBS.2076-2(10/2019)中的ADM元素。

3.9

靜態(tài)元數(shù)據(jù)staticmetadata

GB/TXXXXX.3—XXXX

與音頻內容結構相關的在一定時間段內固定不變的元數(shù)據(jù)。

3.10

動態(tài)元數(shù)據(jù)dynamicmetadata

與音頻內容狀態(tài)相關的隨時間變化的元數(shù)據(jù)。

3.11

空間音頻渲染spatialaudiorendering

用于雙耳耳機或揚聲器輸出虛擬現(xiàn)實音頻信號采用的信號處理過程。

3.12

雙耳渲染binauralrendering

用雙耳耳機呈現(xiàn)虛擬現(xiàn)實音頻信號所采用的信號處理過程。

3.13

揚聲器渲染loudspeakerrendering

用一組揚聲器呈現(xiàn)虛擬現(xiàn)實音頻信號所采用的信號處理過程。

3.14

混響reverberation

在聲源停止發(fā)聲后，聲音在空間內繼續(xù)存在，并經(jīng)過多次反射和吸收，最后才消失的聲

學現(xiàn)象。

3.15

動態(tài)混響dynamicreverberation

跟隨聽者的移動產生不同混響效果的信號處理過程。

3.16

房間脈沖響應roomimpulseresponse

從聲源到房間中某場點的脈沖響應。

3.17

采樣混響samplingreverberation

使用在現(xiàn)實中采集房間脈沖響應產生混響效果的信號處理過程。

3.18

人工混響artificialreverberation

使用合成脈沖序列產生混響效果的信號處理過程。

GB/TXXXXX.3—XXXX

3.19

頭相關傳輸函數(shù)headrelatedtransferfunction(HRTF)

自由場情況下從點聲源到雙耳的頻域聲學傳輸函數(shù)。

3.20

頭相關脈沖響應headrelatedimpulseresponse(HRIR)

自由場情況下從點聲源到雙耳的脈沖響應，是HRTF在時域的等價表示。

3.21

場景信號scenesignal

基于一/高階環(huán)境聲學技術所獲取的音頻信號。

3.22

場景信號編碼scenesignalcoding

讀入場景信號，并產生編碼位流的過程。

3.23

聲音對象soundobject

被感知為一個整體的聲音或由一個聲源發(fā)出的獨立于環(huán)境的聲音。

3.24

一階/高階環(huán)境聲學技術FOA/HOA

基于Ambisonics原理的可以準確捕獲和再現(xiàn)三維音頻聲場的技術。

3.25

空間編碼spatialcoding

將多個通道的音頻信號變換成攜帶空間信息的FOA/HOA格式的音頻信號的處理過程。

4符號和縮略語

本文件采用的符號定義同GB/T33475.3定義。本文件中使用的數(shù)學運算符和優(yōu)先級與C

語言使用的類似。但對整型除法進行了特定的定義。除特別說明外，約定編號和計數(shù)從0開

始。

4.1算術運算符

下列算術運算符適用于本文件。

:=定義符號。a:=y表示定義為y的一個名字。

+加

GB/TXXXXX.3—XXXX

-減（二元運算符）或取反（一元前綴運算符）

×乘

ab冪，表示a的b次冪，也可表示上標。

冪

/整數(shù)除法，結果向0取整。例如，7/4和-7/-4取整為1，-7/4和7/-4取整為

-1。

除法運算，不做取整或四舍五入。

絕對值|x|=x當x>0

|||x|=0當x=0

|x|=-x當x<0

abs絕對值

x平方根

sprt平方根

f(i)自變量i取由a到b（含b）的所有整數(shù)值時，函數(shù)f(i)的累加和。

log10以10為底的對數(shù)

ln以e為底的對數(shù)

exp以自然常數(shù)e為底的指數(shù)函數(shù)

sin正弦函數(shù)

cos余弦函數(shù)

atan2求y/x（弧度表示）的反正切值

hypot計算直角三角形的斜邊長

AlegendreAssociatedLegendrepolynomials伴隨勒讓德多項式

size獲取矩陣的行數(shù)和列數(shù)

4.2邏輯運算符

下列邏輯運算符適合于本文件。

||邏輯或

&&邏輯與

GB/TXXXXX.3—XXXX

!邏輯非

4.3關系運算符

下列關系運算符適用于本文件。

>大于

>=大于或等于

<小于

<=小于或等于

==等于

不等于

min[,……,]參數(shù)表中的最小值

4.4位運算符

下列位運算符適用于本文件。

&與

4.5賦值

下列賦值運算適用于本文件。

=賦值運算符

++自加，x++相當于x=x+1。當用于數(shù)組下標時，在自加運算前先求變量值。

+=自加指定值，例如，x+=3相當于x=x+3，x+=(-3)相當于x=x+(-3)。

-=自減指定值，例如，x-=3相當于x=x+(-3)，x-=(-3)相當于x=x–(-3)。

4.6助記符

下列助記符適用于本文件。

bslbf位串，左位在前，這里“左”是按GB/T17191中寫的位串的順序。位串

是帶單引號的1和0串。如‘10000001’。位串內的空格是便于閱讀的，

無特殊意義。（bitstreamleftbitfirst）

uimsbf無符號整數(shù)，最高有效位優(yōu)先。（unsignedinteger,mostsignificantbit

first）

tcimsbf二進制補碼整數(shù),最高有效位優(yōu)先。（two’scomplementinteger,most

significantbitfirst）

4.7縮略語

下列縮略語適用于本文件。

3DoF3自由度(3DegreeofFreedom)

6DoF6自由度(6DegreeofFreedom)

AAMSFAVS音頻元數(shù)據(jù)串行流格式(AvsAudioMetadataSequentialFormat)

語法結構

ACN空間環(huán)繞聲通道數(shù)(AmbisonicChannelNumber)

ADM音頻定義模型(AudioDefinitionModel)

AES音頻工程協(xié)會(AudioEngineeringSociety)

AGC自動增益控制(AutomaticGainControl)

AllRAD全向空間解碼器(AllRoundAmbisonicDecoder)

GB/TXXXXX.3—XXXX

API應用程序編程接口(ApplicationProgrammingInterface)

ARIR空間房屋脈沖響應(AmbisonicRoomImpulseResponse)

AVS數(shù)字音視頻編解碼技術標準(AudioVideocodingStandard)

BRIR雙耳房屋脈沖響應(BinauralRoomImpulseResponse)

BW6464位廣播波文件(BroadcastWave-64bit)

DFT離散傅里葉變換(DiscreteFourierTransform)

DoF自由度(DegreesofFreedom)

DRC動態(tài)范圍控制(Dynamicrangecontrol)

EPAD能量無損的空間解碼器(EnergypreservedAmbisonicDecoder)

EQ均衡器(Equalization)

FFT快速傅立葉變換(FastFourierTransform)

FIR有限長單位沖激響應(FiniteImpulseResponse)

FOA一階球諧函數(shù)信號(FirstOrderAmbisonic)

HOA高階球諧函數(shù)信號(HigherOrderAmbisonic)

HRIR頭相關脈沖響應(HeadRelatedImpulseResponse)

HRTF頭相關傳輸函數(shù)(HeadRelatedTransferFunction)

IDFT離散傅里葉逆變換(InverseDiscreteFourierTransform)

IR沖激響應(ImpulseResponse)

ILD雙耳聲強差(InterauralLevelDifference)

ITD雙耳時間差(InterauralTimeDifference)

LC低復雜度(LowComplexity)

MMD模型匹配解碼器(ModeMatchingDecoder)

MO-BRIR多方位雙耳房屋脈沖響應(MultioritentionBianauralRoomImpulse

Response)

N3D三維歸一化諧波(NormalizedHarmonicsof3-Dimensions)

PCM脈沖編碼調制(PulseCodeModulation)

PSP點源聲像平移定位(PointSourcePanner)

RIR雙耳房屋沖擊響應(RoomImpulseResponse)

SAD采樣空間解碼器(SamplingAmbisonicDecoder)

SN3D三維半歸一化諧波(Semi-NormalizedHarmonicsof

3-Dimensions)

SNR信噪比(SignaltoNoiseRatio)

SOFA面向空間的聲學格式(SpatiallyOrientedFormatforAcoustics)

VBAP基于矢量的振幅平移(Vector-BaseAltitudePanning)

VR虛擬現(xiàn)實(VirtualReality)

VREXT虛擬現(xiàn)實擴展元數(shù)據(jù)(VirtualRealityExtendedMetadata)

XML可擴展標記語言(ExtensibleMarkupLanguage)

5串行流語法規(guī)則

本文件采用的串行流語法規(guī)則參考GB/T33475.3中位流語法規(guī)則的定義。串行流描述

VR音頻元數(shù)據(jù)及其他輔助信息的串行封裝結構。串行流中的每一個數(shù)據(jù)項用黑體。通過名

字、按比特位的長度及其類型和串行傳輸順序的助記符來描述。

GB/TXXXXX.3—XXXX

串行流中被解封裝的數(shù)據(jù)元素所導致的操作依賴于該數(shù)據(jù)的值及以前解封裝的數(shù)據(jù)元

素。下面的語法結構表示數(shù)據(jù)元素以標準類型出現(xiàn)時的情形。

注1：如無特殊說明，本部分中的“比特位”指二進制位。

注2：本部分語法用“C”代碼規(guī)定，變量或表達式為非零值時等價于條件為真，變量或表達式為零值時

等價于條件為非真。

while(condition){

dataElement

…

}

若條件為真，則數(shù)據(jù)元素組緊接著數(shù)據(jù)流產生，如此重復直到條件為非真。

do{

dataElement

…

}while(condition)

若條件為真，則數(shù)據(jù)元素組緊接著數(shù)據(jù)流產生，如此重復直到條件為非真。

if(condition){

dataElement

…

}else{

dataElement

…

}

若條件為真，在數(shù)據(jù)流中產生第一組數(shù)據(jù)元素，若條件為非真，在數(shù)據(jù)流中產生第二組

數(shù)據(jù)元素。

for(expr1;expr2;expr3){

dataElement

…

}

expr1是指定循環(huán)初始狀態(tài)表達式，通常它指定了計數(shù)器的初始狀態(tài)，expr2是指定的每

次循環(huán)前的測試條件。條件為非真時循環(huán)終止，expr3是每次循環(huán)結束時執(zhí)行的表達式，一

般是增加計數(shù)器。

注3：本結構的最通常用法為

for(i=0;i<n;i++){

dataElement

…

}

數(shù)據(jù)元素組產生n次。數(shù)據(jù)元素組內的條件結構可能依賴循環(huán)控制變量i的值。第一次出

現(xiàn)時被置為‘0’，第二次增加到‘1’，如此往復。

switch(expr){根據(jù)表達式expr的值，產生對應的數(shù)據(jù)元素。expr的值為

caseconstcase1:constcase1時產生數(shù)據(jù)元素dataElement1，expr的值為

dataElement1constcase2時產生數(shù)據(jù)元素dataElement2，以此類推，expr的值

break為constcasen時產生數(shù)據(jù)元素dataElementn。當expr的值不等于

caseconstcase2:constcase1,constcase2,…,constcasen中的任何一個值時，產生

dataElement2數(shù)據(jù)元素dataElementDefault

GB/TXXXXX.3—XXXX

break

…

caseconstcasen:

dataElementn

break

default:

dataElementDefault

break

}

本結構的一類變體是在case后不出現(xiàn)break，如

switch(expr){expr的值constcasex時，從對應的caseconstcasex開始產生數(shù)

caseconstcase1:據(jù)元素，直到break出現(xiàn)。

dataElement1expr的值constcase1時產生數(shù)據(jù)元素dataElement1和

caseconstcase2:dataElement2，expr的值為constcasen時產生數(shù)據(jù)元素

dataElement2dataElementn

break

…

caseconstcasen:

dataElementn

break

default:

dataElementDefault

break

}

注4：數(shù)據(jù)元素組中可能含有嵌套結構。為簡便起見，當后面只有一個數(shù)據(jù)元素時“[]”省略。

dataElement[]dataElement是一數(shù)組數(shù)據(jù)，數(shù)據(jù)元素的個數(shù)由上下文而定；

dataElement[n]dataElement[n]是數(shù)組數(shù)據(jù)的第n＋1個元素；

dataElement[m][n]dataElement[m][n]是二維數(shù)組的第m＋1，n+1個元素；

dataElement[l][m][n]dataElement[l][m][n]是三維數(shù)組的第l+1，m+1，n+1個元素；

dataElement[m…n]dataElement[m…n]是位m到位n之間包括的位。

6虛擬現(xiàn)實音頻內容表達系統(tǒng)框架

6.1概述

虛擬現(xiàn)實音頻內容表達廣義上涉及元數(shù)據(jù)、渲染器、音頻編解碼器，本文件采用元數(shù)據(jù)、

渲染器、編解碼器在邏輯上相互分離的方式，并主要對元數(shù)據(jù)和渲染器進行規(guī)范。虛擬現(xiàn)實

音頻適用于不同應用場景，包含全景音頻、沉浸音頻以及互動音頻。

當用于本地存儲和制作時，只需要渲染器對元數(shù)據(jù)進行解析，不涉及元數(shù)據(jù)編解碼及音

頻編解碼過程；當用于傳輸時（例如直播或雙向通信），需要另行在系統(tǒng)層定義元數(shù)據(jù)+音

頻流的傳輸格式?？梢愿鶕?jù)不同應用場合、不同傳輸協(xié)議的要求定義可行的靜態(tài)元數(shù)據(jù)、動

態(tài)元數(shù)據(jù)、音頻流封裝形式。

如圖1虛擬現(xiàn)實音頻內容表達系統(tǒng)框架示意圖。采集端，輸入音頻信號包括Channel（聲

道信號，即聲床Bed）、Object（聲音對象）、Scene（場景信號，基于一階/高階環(huán)境聲學技

GB/TXXXXX.3—XXXX

術FOA/HOA）或它們的混合形式，VR制作過程根據(jù)元數(shù)據(jù)定義生成基礎和擴展元數(shù)據(jù)信息，

本文件定義了AVS音頻元數(shù)據(jù)串行流封裝格式AAMSF，見第8章。多聲道音頻制作系統(tǒng)的關

鍵性指標建議及測試方案可參考附錄G，空間音頻信號中的聲音對象在元數(shù)據(jù)中用音頻對象

audioObject字段表示，場景信號采集方式可參考附錄D、附錄E，常用的場景信號渲染方式

可見附錄F。元數(shù)據(jù)又可以劃分為動態(tài)元數(shù)據(jù)和靜態(tài)元數(shù)據(jù)，前者是指隨著音頻流內容實時

變化的信息，后者則是在一次傳輸中固定不變的信息，動態(tài)元數(shù)據(jù)可以伴隨音頻流傳輸，具

體封裝格式根據(jù)系統(tǒng)層采用的傳輸協(xié)議類型進行定義，元數(shù)據(jù)串行流封裝后與音頻流復接進

入傳輸信道?；胤哦?，渲染器將根據(jù)解封裝后元數(shù)據(jù)對解碼后的音頻文件進行空間音頻渲染

輸出（揚聲器、耳機或其他方式）。邏輯上元數(shù)據(jù)和音頻編解碼互相獨立，且解碼器和渲染

器之間解耦合。渲染器采取注冊制，每個注冊的VR渲染器支持同一套元數(shù)據(jù)的解析。

本文件附錄定義了各類獨立的VR空間音頻渲染技術或渲染模塊，適用于不同場景的特

定需求，對于支持符合本文件元數(shù)據(jù)解析的渲染器可作為注冊渲染器。

圖1虛擬現(xiàn)實音頻內容表達框架示意圖

渲染器系統(tǒng)首先進行注冊渲染器的選擇，之后每個注冊渲染器分別進行元數(shù)據(jù)信息讀取

和音頻文件的讀取。渲染器的輸入數(shù)據(jù)由注冊渲染器標號以及元數(shù)據(jù)和音頻數(shù)據(jù)構成，其中

元數(shù)據(jù)和音頻數(shù)據(jù)可以組成BW64（ITU-RBS.2088）文件格式。渲染器系統(tǒng)中包含多個注冊

渲染器，以ID號區(qū)分，其中注冊渲染器ID1的具體定義和描述見第9章（面向雙耳輸出的基

于Ambisonic的渲染器），注冊渲染器ID2的具體定義和描述見第10章（面向揚聲器輸出的基

于標準揚聲器布局的渲染器）。

注冊渲染器模式選擇以不同的ID號進行標記，當用于傳輸時可以預留8個比特對渲染器

模式（rendererMode，見8.2節(jié)）進行指示，以支持對不同渲染器的靈活選擇。

6.2坐標系語法

坐標系用于描述聲源和聽者的位置、姿態(tài)信息，通過坐標系將位置相關的元數(shù)據(jù)與渲染

器關聯(lián)起來，實現(xiàn)聲源和聽者位置動態(tài)變化的功能。元數(shù)據(jù)的位置信息通常使用球坐標系或

者元數(shù)據(jù)坐標系定義，與ITU-RBS.2076的定義相同。世界坐標系與圖形學中的坐標系一致，

第9章以世界坐標系作為渲染器ID1的參數(shù)格式。音頻坐標系在音頻計算領域廣泛使用，在

第9章渲染器ID1中用于球諧函數(shù)的計算。

幾種坐標系的定義如下：

球坐標系：為目標點在xy平面上的投影與x軸正向的夾角，為目標點和原點連線與z

軸正向的夾角，r為目標點到原點的距離。

元數(shù)據(jù)坐標系：X指向右邊，Y指向屏幕里，Z指向天空，人看向Y軸正向；

世界坐標系：X指向右邊，Y指向天空，Z指向屏幕向外，人看向Z軸正向；

GB/TXXXXX.3—XXXX

音頻坐標系：X指向屏幕里，Y指向坐邊，Z指向天空，人看向X軸正向；

坐標系定義如圖2：

圖2坐標系定義

坐標系之間的轉換關系見表1-表4。笛卡爾坐標系轉換為世界坐標系

worldPositionFromCartesian()的語法見表1，世界坐標系轉換為傳統(tǒng)的音頻坐標系

audioPositionFromWorldPosition()的語法見表2，極坐標系轉換為傳統(tǒng)的音頻坐標系

audioPositionFromSphericalAngleInDegree()的語法見表3，世界坐標系轉換為極坐標系

sphericalFromWorldPosition()的語法見表4。

表1worldPositionFromCartesian()語法

語法比特數(shù)助記符

worldPositionFromCartesian(){

return{-x,z,y};8uimsbf

}

表2audioPositionFromWorldPosition()語法

語法比特數(shù)助記符

audioPositionFromWorldPosition(){

GB/TXXXXX.3—XXXX

return{z,x,y};8uimsbf

}

表3audioPositionFromSphericalAngleInDegree()語法

語法比特數(shù)助記符

audioPositionFromSphericalAngleInDegree(){

azimuth=azimuth*PI/180.f;8uimsbf

elevation=elevation*PI/180.f;8uimsbf

return{cos(elevation)*cos(azimuth),

cos(elevation)*sin(azimuth),

sin(elevation)};

}

表4sphericalFromWorldPosition()語法

語法比特數(shù)助記符

sphericalFromWorldPosition(){

azimuth=atan(x,z);

elevation=atan(y,sqrt(x*x+z*z));

}

6.3元數(shù)據(jù)系統(tǒng)結構

如圖3元數(shù)據(jù)系統(tǒng)結構。其中，<audioformatExtended>基礎部分引用了ITU-RBS.2076定

義的ADM,復用了其針對內容和格式的屬性和元素,用來傳遞Bed,Object,HOA,Matrix和

Binaural等音頻信號相關的內容和控制信息。進一步的，該元數(shù)據(jù)系統(tǒng)通過<vrExt>擴展部分

提供ADM中沒有的元數(shù)據(jù),以使符合本文件的渲染器在內容生產和渲染環(huán)節(jié)具有獨特的能

力。<audioformatExtended>基礎部分和<vrExt>擴展部分的元數(shù)據(jù)有可能會存在屬性上的沖

突。當出現(xiàn)沖突時，由渲染器決定解決沖突的策略。

元數(shù)據(jù)的具體定義和解析見第7章。

GB/TXXXXX.3—XXXX

圖3元數(shù)據(jù)系統(tǒng)結構

6.4元數(shù)據(jù)系統(tǒng)框架語法

metadataBlock()的語法見表5。

表5metadataBlock()語法

語法比特數(shù)助記符

metadataBlock()

GB/TXXXXX.3—XXXX

{

basicLevel;2uimsbf

numAudioProgrammes;3uimsbf

for(inti=0;i<numAudioProgrammes;++i){

AudioProgramme();

}

if(hasVrExt==1){1bslbf

vrExt();

}

basicLevel是基礎元數(shù)據(jù)的分層，定義參考第7.1節(jié),AudioProgramme()語法參考第7.3節(jié)，

vrExt()語法參考第7.6節(jié)。

6.5渲染器系統(tǒng)框架語法

createAudioRenderer()的語法見表6。

表6createAudioRenderer()語法

語法比特數(shù)助記符

createAudioRenderer()

{

switch(rendererMode){8uimsbf

case0x00:

binauralRenderer();

case0x80:

loundspeakerRenderer();

default:

otherRenderer();

}

6.6AVS音頻元數(shù)據(jù)串行流封裝格式AAMSF

第8章介紹了AVS音頻元數(shù)據(jù)串行流封裝格式AAMSF及其語法語義。

6.7面向雙耳耳機輸出的基于Ambisonics的渲染器

第9章介紹了面向雙耳耳機輸出的基于Ambisonics的渲染器（ID1）的系統(tǒng)框架和各部分

技術實現(xiàn)的原理、語法和語義。

6.8面向揚聲器輸出的基于標準揚聲器布局的渲染器

第10章介紹了面向揚聲器輸出的基于標準揚聲器布局的渲染器（ID2）的系統(tǒng)框架和各

部分技術實現(xiàn)的原理、語法和語義。

7元數(shù)據(jù)系統(tǒng)

GB/TXXXXX.3—XXXX

7.1元數(shù)據(jù)概述

第7章定義渲染相關的元數(shù)據(jù)，支持符合ITU-RBS.2076的ADM基礎元數(shù)據(jù)，包含

<audioformatExtended>部分和可定制的擴展元數(shù)據(jù)<vrExt>部分。描述音頻格式的ADM元

數(shù)據(jù)以XML形式給出，可以將其插入BW64文件中。

為了保持設備兼容性，內容的互操作性和渲染系統(tǒng)的復雜度可控，對元數(shù)據(jù)的數(shù)目和組

合采用分層(Level)控制，目前定義5級：Level0-Level4，Level0是為了保持跟現(xiàn)在

的音頻內容互操作,主要支持“typeDefinitions=DirectSpeakers”且“SpeakerLabel=M+000/M+

022/M-022”。Level1-4分別對各元素的最大配置見表7，Level1-3對內容元素數(shù)目做限制，

Level4支持無限的元數(shù)據(jù)數(shù)目。建議的Level配置見表7。

表7Level分層建議

Level

<audioformatExtended>描述01234

Element

音頻文件或音頻流中

audioProgramme1148Unlimited

音頻節(jié)目數(shù)

文件或者流中節(jié)目的

audioContent2(speech/non-speech)4816Unlimited

音頻內容數(shù)目

文件或者流中音頻源

audioObject(相當于vrExt中的23264128Unlimited

unit)

一個時間片同時存在

concurrentAudioObject281632Unlimited

的音頻源數(shù)

在節(jié)目中支持交互的

interactiveObject0124Unlimited

音頻源數(shù)目

audioObjectNesting音頻源嵌套的層數(shù)0124Unlimited

文件(不包含音頻流)

audioPackFormat1163264Unlimited

中音頻格式組的數(shù)目

文件(不包含音頻流)

audioChannelFormat23264128Unlimited

中音頻格式的數(shù)目

文件(不包含音頻流)2

audioStreamFormat3264128Unlimited

中軌道組格式的數(shù)

文件(不包含音頻流)

audioTrackFormat歸音頻軌道格式的數(shù)23264128Unlimited

目

音頻文件或者音頻流

audioTrackUI23264128Unlimited

中唯一標識符數(shù)目

surface同種材料的幾何表面181664Unlimited

組成surface的三角形

vertex頂點數(shù)，其中三個點組36161632Unlimited

成一個三角形

GB/TXXXXX.3—XXXX

7.2基礎元數(shù)據(jù)定義

元數(shù)據(jù)主要使用可擴展標記語言XML編碼來實現(xiàn)，XML格式的元數(shù)據(jù)可包含在BW64

格式的音頻文件的“axml”或“bxml”塊中進行傳輸。生成的元數(shù)據(jù)中的“音頻包格式標識”、“音

頻軌道格式標識”和“音軌唯一標識”，將提供給BW64文件的“chna”塊，用以將元數(shù)據(jù)與實際

的音軌鏈接。

元數(shù)據(jù)基礎元素（audioformatExtended）包括：音頻節(jié)目（audioProgramme，見表8）、

音頻內容（audioContent，見表9）、音頻對象（audioObject，見表10）、音頻流格式

（audioStreamFormat，見表11）、音頻軌道格式（audioTrackFormat，見表12）、音頻包格

式（audioPackFormat，見表13）、音軌唯一標識（audioTrackUID，見表14）、音頻通道格

式（audioChannelFormat，見表15）、音頻塊格式（audioBlockFormat，見表16）。

7.2節(jié)描述了audioformatExtended部分細節(jié)。

表8audioProgramme相關規(guī)范（參考BS2076-2第5.8節(jié)）

屬性/子元素規(guī)范限制必選/可選

audioProgrammeIDAPR_1001-APR_1008dependentonlevel必選

audioProgrammeName32個字符以內,否則截斷必選

可以為空;如有,必須符合ISO639-2/T的規(guī)定(3

audioProgrammeLanguage

人人文庫> 全部分類> 辦公材料 > 辦公文檔

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

信息技術虛擬現(xiàn)實內容表達第3部分- 音頻

文檔簡介

溫馨提示

最新文檔

評論

信息技術 虛擬現(xiàn)實內容表達 第3部分- 音頻

文檔簡介

溫馨提示

最新文檔

評論

相關文檔

信息技術虛擬現(xiàn)實內容表達第3部分- 音頻