音頻定義模型_第1頁
音頻定義模型_第2頁
音頻定義模型_第3頁
音頻定義模型_第4頁
音頻定義模型_第5頁
已閱讀5頁,還剩196頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1音頻定義模型本文件適用于廣插電視節(jié)目制作和渲染等環(huán)節(jié)。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文ITU-RBS.1770節(jié)目響度和真峰值音頻電平測量算法(AlgorithmstomeasureaudioprogrammeITU-RBT.1845在不同圖像質(zhì)量水平、顯示尺寸和幅型比的廣播應用定制電視節(jié)目使用的度量標準指南(Guidelinesonmetriestobeusedwhentailoringtelevisbroadcastingapplicationsatvariousimagequalitylevels,disIS0639:2023語種名稱代碼(Codeforindividuallanguagesandlanguagegroups)下列術(shù)語和定義適用于本文件。節(jié)目中各路聲音在采集、編輯時的記錄位置標識4縮略語下列縮略語適用于本文件。BMF廣播波形格式(BroadcastWaveFormatBW6464位廣播波形(BroadcastWaveDRR直達/混響聲能比(DirecttoReverberationRatio)HOA高階立體聲場信號(HigherOrderAnbisonics)ID身份標識號(Identitydocument)JSONJS對象表示法(JavaScriptObjectNotation)LFE低頻效果(LowFrequencyEffects)MXF素材交換格式(MaterialeXchangeFormat)NFC近場補償(Near-FieldConpensation)N3D三維歸一化(3DNormalization)PCM脈沖編碼調(diào)制(PulseCodeModulation)RIFF資源互換文件格式(ResouresInterchangeFileFornat)SN3D三維準歸一化(3DSemi-Nornalization)UID用戶身份證明(UserIdentification)URI統(tǒng)一資源標識符(UniformResourceIdentifier)XML可擴展標記語言(eXtensibleMarkupLanguage)5模型概述5.1模型描述本文件規(guī)定的ADM旨在規(guī)范音頻的描述,而非響度等信息。格式部分描述音頻的技術(shù)特性,以便音頻能夠被正確解碼或渲染。音頻信號生成前進行定義,而內(nèi)容元素,通常僅在音頻信號生成后才能定義。釋模型的工作原理。分之間的劃分。此外,本文件還展示了BS.2088文件中<chna>塊的結(jié)構(gòu),以及文件中音軌與模型的連接當一個BS.2088文件包含許多音軌時,需要明確每個音軌的具體信息。(chna)塊包含一個與文件中每個音軌對應的數(shù)字列表。因此,對于一個6音軌文件,數(shù)字列表的長度至少為6。對每個音配一個audioTrackFormatID號和一個audioTracklID號(“U”代表“唯一”)。列表的長度可能比音軌的數(shù)量長,因為在不同時間點,音軌可能具有不同的定義,因此需要多個audioTrackUID和引用。有唯一性(因此是“U”),以唯一地標識音軌。ID的這種用法意味著在文件中無論音軌的排列順序如ti audioTrackFormat的組合,表明了信號是否應被解碼。接下來需確認音頻流的類型:例如,它可以是一個傳統(tǒng)聲道(如“左前聲道”),一個位于前方、名為“吉他”的一軌音頻),一個H0A分量(如“X”)或一組聲道。在audioStreamformat中,存在一個對描述音頻流的audioChannelFormat或audioPackFormat的引用,用于描述音頻流:有且如果audioStreamFormat包含對audioChannelFormat的引用(即audioChannelFormatIDRef),那么audioStreanFormat是audioChannelFornat的某種特定類型。audioChannelFormat描述。在audioChannelFormat中有一個typeDefinition屬性,用于定義聲道類型typeDefinition屬性能夠設(shè)置為“DirectSpeakers”“HOA”“Matrix”“Objects”或“B每一種類型都伴隨著一組特定的子元素,用以指定與該類型audio“DirectSpeakers”類型的聲道包含子元素“speakerLabel”,用于向聲道分配一個揚聲器。為描述動態(tài)聲道(即會隨著時間發(fā)生變化的聲道),audioChannelFormat使用audioBlockFormat沿著時間軸劃分聲道。audioBlockFormat元素包含一個開始時間(相對于父元素audio0bject的開始時間)和持續(xù)時間。在audioBlockFormat中,存在一些與時間相關(guān)的參數(shù)用于描述聲道,具體取決于例如,“Objects”類型的聲道由子元素“azimuth”“elevation”和“distance”來描述聲音的位置。audioBlockFormats的數(shù)量和持續(xù)時間不受限制,當音頻對象快速移動時,每個樣點都可能會有一個audioBlockFormat。但至少存在一個audioBlockFormat,以確保即使是靜態(tài)聲道也有一個包含其參數(shù)的audioBlockFormat。如果audioStreamformat指向一個audioPackFormat,那么它描述的一個audioPackFormat元素將一個或多個相互關(guān)聯(lián)的audioChannelFormat(例如一個立體聲聲道對)組合在一起。這在渲染音頻時很重要,因為組內(nèi)的聲道可能需要相互影響。當audioStreamformat包含多個聲道編碼的非PCM音頻時多個AudioChannelFormat的audioPackFormat。對于大多數(shù)基于聲道和基于場景的POM格式音頻,audioStreanformat通常不會引用AudioPackFormat。如果存在此引用,audioPackFormat的功能是將相互關(guān)聯(lián)的audioChannelFormats組合在一起以進行渲染。的audioPackFormat以及包含R、s,T.U和V分以具有五對立體聲的音頻場景為例,audioTrackForsat定義了哪些音軌是左聲道、哪些音軌是右聲道,而不定義哪些音軌彼此關(guān)聯(lián),也不定義音頻代表的內(nèi)容audioObject用于確定哪些音軌可以配對,以及它們在文件中的位置。此元素將實際音頻數(shù)據(jù)與格式鏈接,這就是audioTrackUID的作用。對于一對立體聲(PCMD),audioObject包含對兩個audioTrackUID的引用;因此,這兩個音軌組成由于該示例中有五對立體聲,因此需要5個audioObject元素。每個audioObject雖然引用的是相同的立體聲audioPackFormat,但所引用的audioTrackUID卻各不相同,因為每對立體聲聲道都承載不audioStreanFornat、audioChannelFormat和audioPackFormat的格式已經(jīng)定義了每AudioObject元素還包含開始時間和持續(xù)時間屬性。開始時間是對象信號在文件或錄制中的開始時5間。因此,如果開始時間是“00:00:10.00000”,則對象的信號將在音頻文件音軌的第10s處開始。由于audioPackFornat可以被嵌套,所以audio0bject也能夠被嵌套。因此,audioObject不僅包含對承載流的兩個audioTrackUID的引用,還包含對兩個audio0bject的引用,一個用于5.1,另一個用于2.0。AudioContent引用了audioObject,用于描述音頻內(nèi)容,并包含諸如語言(如果有對話)和響度等參數(shù)。這些參數(shù)的某些值只能在音頻生成后進行計算,因此,不在格式部分。AudioProgramme將所有audioContent整合在一起,形成一個完整的“混音”例如?!粋€AudioProgramme可包含一個“narrator”的audioContent和一個“backgroundMusic”“backgroundlusie”的audioContent。在一個ADMXML樹狀結(jié)構(gòu)中,可以定義多個AudioProgramme元素,這有助于描述能供用戶選擇的預定義數(shù)量的有意義的混音。每個audioProgramme元素可只引用ADMXML樹的一部分audioContent元素,這樣可以讓ADM能夠描述個性化的音頻。 按照AudioProgranno示例,單個ADNxML樹能夠同時包含法語和英語的AudioProgrammo元——描述體育節(jié)目的ADMXML樹能夠包含主隊和客隊的audioPrograme元素。主隊audioProgamme可包含有關(guān)“偏主隊的評論”的audioContent元素和“氛圍”的元素。客隊audioProgrmme可包含“偏客隊的評論“和“氛圍”的元素??蛇x混音組合見表1。表1可選混音組合5.2通用定義在很多情況下,特別是在基于聲道和場景的王作中,許多所需的格式是通用的。例如,單聲道、立體聲和5.1都有通用的定義,當描述這些格式時,生成和攜帶大量的XML,效率低下。ITU-RBS.2094給出了通用定義的解決方案通用定義可在ITU-RBS.2094中附加的XML文件中獲得。該文件無需納入ADM文件中,能從外部引用。audioContent和audioObject,或者需要自定義時,才需要在文件中攜帶ADNXML代碼。6.1audioTraCY/T404—2024AT_yyyyxxxx_nn.其中yyyy代表音軌中包含的類型。yyyyxxxx宜與audioStreaaFornt的yyyyxxxx一致AT_00010001_011<audioTrackFormataudioTrackFornratID="AT_00010001_01”audioTrackFormatName="POI_FroforratDefinition="PCM"formatLabel=7audioStreanformatIDHet)AS_00010001</audioStreanFormat7音頻流是渲染聲道、對象、HOA分量(或包)所需的單個或多個音軌的組合。audioStreanFormat在audioTrackFormat和audioChannelFormat或audioPackFormat之間建立聯(lián)系。對于非POM編碼音頻,應將一個或多個audioTrackFormat組合起來以表示覆蓋多個audioChannelFormat的可解碼信號(通過引用audioCharnnelFormat。在這種情況下,可省略audioStreamFormat和audioTrackFormat。audioTrackUID應引用對應的audioChanmelForat,并且AT_yyxXX22、AS_yyxxxx和AC_yyyxx的“yxxxx”部分的數(shù)字應相同。audioStreanFormat的屬性宜符合表4的規(guī)定。AS_yyyyXXx,其中yyyy代表音頻流中包含的音頻類型,xxxx宜與audioChannelFormat的xaudioStreanFormat的子元素見表5。AT_00010001_010同—audioStreanFormat的子元素只能包含audioPackFormatIDRef或audioChannelFormatIDRef中的一個。6.2.4示例代碼<audioStreanFormataudioStreanformatID="AS_00010001”audioStrearformatheme="POIFraudioTrackFormatIDRef>AT_00010001_01</audioTrackForratI(audioChannelFonuatIDBeDMC_00010001</aud6.3audioChannelaudioChannelFormat在時域中被細分為一個或多個audioBlockFornat。audioChannelFormat的屬性宜符合表6的規(guī)定。ACyyyyXxxx,其中yyyy代表聲道中所包含的類型,xxxx宜與audioStreanFornat的xaudioChannelFormat的typeDefinition指定它所描述的音頻類型,并確定在其子audioBlockFormat中使用哪些參數(shù)。目前所采用的5種typeDefinition見表7。對于其他所有typeDefinition.信號被矩陣化到一起,如M/s,基于對象的音頻。聲道代表音頻對象(或部分對象),包基于場景的音頻,使用Arbisonic系audioChannelFormat的子元素見表8。和帶阻。常用于描述低通頻率限制(例如200Hz)的LFE聲道。96.3.4示例代碼(audioChannelFornataudioChannelFormatID-“AC_00010001”audioChannelFormatNane-"FrontLeft”typeDefinition="DirectSpeaudioBlockFormat...)audioBlockFormat表示在指定時間間隔內(nèi)具有固定參數(shù)(包括位置)的單個audioChannelFormat樣本序列。audioBlockFormat的屬性應符合表9的規(guī)定。音頻塊的開始時間(相對父audioObjeaudioBlockFormatID中的最后8位十六進制數(shù)字表示聲道內(nèi)音頻塊的索引,第一個音頻塊的起始編號為00000001如果未使用rtime,則音頻塊的開始時間為00:00:00.00000。如果未使用duration,則音頻塊持續(xù)整個聲道的持續(xù)時間。如果audioChannelFormat中只有一個auidioBlockFormat,則父audioChannelFornat的特性不隨時間變化,宜忽略rtime和duration屬性。如果audioChannolFornat中有超過一個audioBlockFormat,則父audioChannelFormat的特性隨時間動態(tài)變化,宜同時包含rtime和duration屬性。audioBlockFormat的大多數(shù)子元素都依賴于父audioChannelFormat的typeDefinition或typelabel。對于所有typeDofinition,audioObject的時間限制均適用于動態(tài)和靜態(tài)元數(shù)據(jù)。目前所采用的5種typeDefinition見表10?;趫鼍暗囊纛l,使用高保真環(huán)燒立體聲系audioChannelFormat.typeDefinition=="DirectSpeakers"對于基于聲道的系統(tǒng),該定義是用于描述聲道的元數(shù)據(jù)。如果通過特定揚聲器播放,則使用speakerLabel元素表示揚聲器標簽。雖然三個位置元素的最大值和最小值都可用(使用邊界屬性),但宜避免使用,因為通常宜通過省略邊界屬性來指定確切位置。針對DirectSpeakers的audioBlockFormat的子元素見表12。 一“azinuth”度1“azinuth”度度“elevatioo”度1“elevation”度“elevation”度“distance”自原點的精確歸一化歸一化為1白原點的最大歸一化歸一化為1自原點的最小歸一化歸一化為1左coordinate="elevation“屬性結(jié)合使用,并設(shè)置為一個字符串,說明宜假定屏幕到揚聲器位置的哪個邊緣(如果屏幕大小信息可用),因此它是“左”“右”“上”“下”,并且應包含坐標屬性。以表示設(shè)置的是哪個維度,并宜在屏幕不存在或屏幕大小信息不可用時提供替代位置下面的XML代碼示例說明了如何定義一個置于屏幕右邊緣的揚聲器(若屏幕不存在,則備選的位置speakerLabel>M-SC/spea(positioncoordinate=”azimuth”screenEdpeLock=r<positioncoordinate="elevation">0.cordinate="distance>1.0</po如果需要兩個screenfdgelock位置(對應屏幕角落),則應使用兩個位置ADM元素,這是因為XM不允許在同一個元素中有多個同名的屬性。<positioncoordinate="aziruth"screenEdgelock="right">-29.0</p(positioncoordinato="elcvatioo"screenEdgcLock="top")15.0</position>距離測量結(jié)果應進行歸一化處理,但在audioPackFornat中有一個可用的絕對參考距離。上述代碼示例中坐標均基于極坐標系,這是描述聲道和揚聲器位置的常用方法,也可以通過不同的坐標屬性(“X”“Y”“Z”)來使用笛卡爾坐標系,詳細描述見第9章。.2示例代碼<audioBlockFormat..><speakerLabel>M-30</speake<positioncoordinate=“azimuth”)-30.0</po<positioncoordinate="elevation">0.positioncoordinate=7distance">1.0</positaudioChannelFormat.typeDefinitio該定義面向矩陣聲道,如M/S和Lt/Rt。矩陣元素包含一系列系數(shù)子元素,每個子元素都指向另一個通道并附帶一個乘法因子。在生成矩陣方程時,宜將這些列表中的所有矩陣系數(shù)相加矩陣定義了以下三種類型——編碼矩陣:用于描述如何對音頻信號進行編碼以產(chǎn)生矩陣音頻信號。——解碼矩陣:用于描述如何將矩陣音頻信號轉(zhuǎn)換為另外一種類型的音頻信號輸出(通常為“DirectSpeakers”,但也不局限于該類型)。解碼矩陣可能是編碼矩陣的逆過程,編碼矩陣能夠參考解碼矩陣來連接其它矩陣,——直接矩陣:用于具有相同typeDefinition的聲道(例如:基于聲道到基于聲道)之間的直接audioPackFormat(見6.5.5)包含對矩陣聲道進行分組并可在編碼矩陣和解碼矩陣之間進行交叉引用的子元素。例如,‘Side”聲道的編碼矩陣元素包含兩個矩陣系數(shù)子元素,→個值為0.5,指的是“Left",另一個值為-0.5,指的是“Right”,那么Side=0.5XLeft-0.5XRight.示例1;一個解碼矩陣的示例是Left=0.5×Wid+0.5XSide,其中"Lert'為一個聲道的輸出示例2:一個直接矩陣的示例是5.1->LoRo下混,其中:Lo=Left+0.7071×Centre+0.7021×LeftSurround,Ro=Right+0.7071×Centre+0.7071×RightSurr增益和相移的值可能是常數(shù)(gain和phase),也可以是變量(gainVar和phaseVar),這些值可以由渲染器(可能用另一個來源的元數(shù)據(jù))決定。矩陣的audioBlockFormat子元素宜符合表13的規(guī)定如果jurpPosition設(shè)置為1,位置值將占用整個塊的長度0如果使用interpolationleng插值長度宜不大于塊的持續(xù)時間。并宜以秒(s)1一未被采用,則默認使用“l(fā)inear”r”(每個指定一法。)類型:字符申(參考浮點數(shù))一度0類型:字符中(參考浮點數(shù)) (浮點數(shù))類型:字符申(參考浮點數(shù))秒(ms)量 (outputChannelIDRef)AC_00010001<junpPosition=“1”interpolationLength=”0.<coefricientgcain=70.5”>AC_00021001</coeff(coeffieientgain=70.5audioChannelFormat.typeDefinition==“Object”該定義適用于基于對象的音頻,其中,音頻對象的位置可動態(tài)變化。除了對象的極坐標外,對象尺寸、擴散或前后一致程度均可動態(tài)改變channelLock參數(shù)指示渲染器將對象音頻渲染至最近的揚聲器或聲道,而不是采用通常的聲像移動、interpolationLength屬性指定的時間內(nèi)進行空間移動,而非在整個塊的持續(xù)時間內(nèi)平穩(wěn)地移動到下一個位置。位置元素使用coordinate屬性來指定使用哪個坐標軸。首選使用極坐標系,采用水平角、俯仰角和距離進行描述;也可以采用其他坐標系,如采用x、Y、Z描述的笛卡爾坐標系。具體技術(shù)細節(jié)見第9章。位置和對象尺寸參數(shù)定義取決于所采用的坐標系,表15和表16分別描述了不同坐標系下對應的參數(shù)定義。對于極坐標系/球坐標系,對象的audioBlockFormat子元素見表15。表15對象的audioBlockFormat子元素(極坐標系)“azimuth”度1“elovation”聲音位置的怕仰角“φ度1“distance” 度 度比率(0~1)或-1表示單位立方體表面。表16對象的audioBlockFormat子元素(笛卡爾坐標系)coordinate=“X”11coordinate=“2”相對單位(0~1)相對單位(0~1)相對單位(0~1)Postion元素還包括screenEdgeLock屬性,其他對象的audioBlockFormat子元素與所使用的坐標系無關(guān),宜符合表17的規(guī)定。指定坐標系,若設(shè)置為1.則使用球坐標系10度(是擴散或直達聲)0maxDistance屬性定義了鎖定在最近的揚聲器上。如果naxDistance未被定channelLock)調(diào)整對象指定位置和個位置之間的平衡(在對象位置+/-azinuthRango處,在對象兩側(cè)對稱)e為0~1.0表17(續(xù))positionkange值指定的另外兩個位置之間的平衡e為0.0~1.0.interpolationLength屬為1,那么插值的時間將101,則插值的時長與指定數(shù)點后5位)間 的需要排除的區(qū)域形狀子元素)ninAzimutbmaxAzlmuth要排除的區(qū)域形狀=30.一00positionRange或azimuthRange屬性不應同時出現(xiàn)在obj.2示例代碼positioncoordinate=”azimuth?)-22.5</<positioncoordinate="elevation">5.(positioncoordinateaudioChannelFormat.typeDefinition在基于場景的音頻中,一個聲音場景用一組系數(shù)信號表示。這些系數(shù)信號是空間正交基函數(shù)(如球形或圓形諧波函數(shù))的線性加權(quán)。通過將這些系數(shù)信號渲染至目標揚聲器布局或耳機上,能夠?qū)鼍斑M行重現(xiàn)。節(jié)目制作與重現(xiàn)分離,可在目標揚聲器的數(shù)量和位置未知的情況下創(chuàng)建混合節(jié)audioChannelFormat.typeDefinition==“HOA”的定義用于HOA的基于場景系數(shù)信號(或分量)。每個分量能夠由degree、order和nornalization的組合來描述,也能夠由一個方程來描述。介紹。如果使用可選的方程子元素,宜對方程元素使用C風格的數(shù)學符號(例如“cos(A)×sin(E)”)。其目的是允許對定制或?qū)嶒炐缘腍OA成分進行信息描述,這些成分不能僅由degree、order和nornalization、nfcRefDist和screenRef參數(shù)同時出現(xiàn)在audioPackFormat(見)和audioBlockFormat中。如果這些參數(shù)相互引用,它們的值宜和這兩個元素都匹配。如果在audioBlockFormat中指定的參數(shù)與audioPackFormat中的參數(shù)不同,audioBlockFormat的值宜優(yōu)先于audioPackFormat的值。HOA的audioBlockFormat子元素見表18。一于描述性/1 HOA(N3D、SN30、FuVa)的歸案不需要NFC米20相關(guān)為0)00.2示例代碼norraligation)N3DK/nortalizaaudioChannelFormat,typeDefinition==“Binaural”該定義面向雙耳渲染呈現(xiàn)??紤]到雙耳由左、右耳兩個聲道組成,audioChannelFormat的名字是“l(fā)eftEar”或"rightFar",除了所有類型共有的gain和importance之外,audioBlockFormat不需要其他元數(shù)據(jù).2示例代碼audioPackFormat將一個或多個在一起應用的audioChannelFornat組合在一起。對基于聲道的格式,audioPackFormat的示例如“立體聲”和“5.1”。audioPackFormat還能夠包含一些對其他包的引用,以支持音頻數(shù)據(jù)的嵌套結(jié)構(gòu)。typeDefinition用于定義包內(nèi)所描述聲道的類型。typeDefinition/typelabel應與所引用的audioChannelFormat中的相應內(nèi)容匹配。audioPackFormat中的子元素取決于audioPackFormat元素的typeDefinition或typeLabel。audioPackFormat的屬性見表19。AP_yyyyxxxx中的數(shù)字yyyy代表包中包含的注:*”表示audioPackFonat的屬性至少包含typelabel或typeDefinitio表20描述了5種不同的定義的typeDefinition。6.5.3子元素audioPackFormat的子元素見表21。有一個全局絕對距離參數(shù),能夠與通過audioBlockFormat規(guī)定的歸一化距離參數(shù)一起使用,來為每個塊提供絕對距離。<audioPackFormataudioPackForatID="AP_000010002"adioPackForuatName="stereo"typeLabe<audioChannelFornatIDRef>AC_00010001</audioChannelFona<audioChannelFornatIDRef>AC_00010002/audioChannelForma-coefficients(audicChannelFoaodioChannelFormatIDRefs圖3直接矩陣關(guān)系矩陣子元素編碼矩陣包含一個inputPackFornatIDRef,其引用一個基于聲道的輸入包。編碼矩陣還能夠包含一個decodePackFormatIDRef列表,對應解碼矩陣的引用。解碼矩陣包含一個outputPackFormatIDRef,其引用一個基于聲道的輸出包。解碼矩陣還能夠包含一個encodePackFormatIDRef列表,對應編碼矩陣的引用。直接矩陣包含一個inputPackFormatIDRef和一個outputPackFormatIDRef,分別引用一個基于聲道的輸入包和一個基于聲道的輸出包。Matrix的audioPackFormat子元素見表22.從解碼矩陣引用一個編碼矩庫audioPack從編碼矩陣引用一個解碼矩陣audioPnck示例代碼<inputPackFornatIDRef>AP_00010002</inputPackFo(audioChannelFornatIDRef>AC_00021001</aud<audioChannelFornatIDRef>AC_00021002/audioChannelForm(encodePackFormatIDRef)AP_000210(outputPackFormatIDRef)AP_00<audioChannolFormtIDRef>AC_00021101</audioChannelForaa(audioChannelFormtIDRef>AC_00021102</au6.5.6audioPackFormat.typeDefinition==“HOA”如果audioPackFormat元素為HOA類型,則能定義中的子元素。這些參數(shù)的作用是為audioPackFormat中的HOA類型audioChannelFormat定義相對應的audioBlockFormat參數(shù)的默認值。nornalization、nfcRefDist和screenRef參數(shù)在audioPackFormat和audioBlockFornat中均出現(xiàn)(見audioBlockFormat中指定的參數(shù)與在audioPackFormat中指定的參數(shù)不同時,audioBlockFormat給出的值優(yōu)先于audioPackFornat中的值。HOA子元素HOA的audioPackFormat子元素見表23。選nfcRefDist或值為0,則NFC的米20標記等于1:不相關(guān)時等于0)00audio0bject建立內(nèi)容、格式(通過音頻包)、音頻(通過音軌UID)之間的關(guān)系。audioObject能夠被嵌套,因此能夠引用其他audioObject.audio0bject的屬性見表24。表24audioObject屬性A0_1001一問,其時間格式見6.110:如果音頻只包含對話,值設(shè)為1:如果音頻包含二者,值設(shè)為20210006.6.3子元素audio0bject的子元素見表25。ID字符串ID字符串A0_1002簽,見表26“Dlalogue”表25(續(xù))簽定義。langunge屬性能用aodioConplementaryOb“主聲音” ID字符串A0_1003 (chna)塊中) 述的所有音頻樣本的增益值的定義。默認值為1.0.能選用ginlnit屬性(“l(fā)inear”或“dB”)來定義增益值的單“l(fā)inear”,該增益值的應用的詳細描述見第13章性):沒有被鎖定(標記=0).見1(在使用極坐標時)“axinuth““水平角”度1audio0bjects中所有元素的“的仰角”度1audio0bjects中所有元素的“距離”1(在使用笛卡爾坐標時)“X”audio0bjects中所有元素的“X”軸值1“Y”aodioObjects中所有元素的“Y”軸值1“Z”audio0bjects中所有元素的“Z”軸值1則設(shè)置為111alternativeValueSetID被一如果audioTrackUIDRef的值設(shè)為ATU_0000000,則不引用文件中的音軌,而是引用一個靜默音軌或空軌。這用于某些聲道未被使用的多聲道格式中,通過使用靜默音軌替代在文件中存儲0值樣本來節(jié)省文件的存儲空間。audioObjectLabe!的屬性見表26。語言屬性能用于定義不同語言的多個mdio0ojee言代碼按MIS0639;2023的規(guī)定以2個或3個字符的代碼形式audioComplementaryObjectGroupLabel元素包含一組相互排斥的audio0bjects的文本標簽,如包含相同對話的不同配音版本的語言音軌。audioObject中。該父audioObject宜同樣包含audioComplementaryObjectIDRef的子元素。audioComplementaryObjectGroupLabel的屬性見表27。定義父audioComplenentaryOb語言代碼按照IS0639:2023的規(guī)定以2個或3個字符的代碼形audioConplementaryObjectIDRef元素包含對另一個audio0bjoct的引用,這個被引用的對象是對其父audio0bject的補充。因此,能使用audioComplementaryObjectIDRef列表來描述相互排斥的內(nèi)容,如包含相同對話的不同配音版本的語言音軌(“異或”關(guān)系)。為避免若干audio0bject的audioComplementaryObjectIDRef之間的交叉引用,對每組互斥的內(nèi)容,audioComplementaryObjectDRef子元素宜只包含在一個對應的父audio0bjoet中。這個包含audioConplementaryObjectIDRef的父audio0bject宜包含一組互斥內(nèi)容的默認版本。6.6.5audio0bjectInte一個audioObjectInteraction元素描述了任何可能的用戶與對應的父audioObject的互動。只有當父audioObject的“Interact”屬性設(shè)為1時,才宜存在audio0bjectInteraction元素。如果父audioObject的“Interact”屬性設(shè)為0,則宜忽略所有audio0bjectInteraction元素audio0bjectInteraction的屬性見表28.如果on0ffInteract屬性被設(shè)置為1,則用戶能開或關(guān)audio0bject。在“gainInteract”屬性被設(shè)置為1的情況下,用戶能根據(jù)接下來的“gainInteractionRange”元素來改變audioObject的增益。在“positionInteract”屬性被設(shè)置為1的情況下,用戶能根據(jù)接下來的“positionInteractionRange”audio0bjectInteraction的子元素宜符合表29的規(guī)定數(shù)(dB)數(shù)(dB)“gain”屬性的單位,如果不positionInteractionB(在使用極坐標時)“azimuth”度度positioolnteractionR(在使用極坐標時)“elevatioo”度度“distance”positioolnteractionf(在使用笛卡爾坐標時)coordinates“X”coordinato=“Y”示例代碼(audioObjectInteractianonOffInteract-"1”gainInterac(positionInteractionfangecoordin/positionlnteractionR<positionInteractianRangecoordinate="elevation”/positionlnteractionR<positionInteractionRangecoordinate=“azinuth”/positionlnteractionR<positionInteractionRangecoordinate=“azinuth”/positionlnteractionR如果audio0bjoct允許交互,則在一個能由用戶進行設(shè)置的屬性上的實施改變的結(jié)果宜在該audio0bject的交互范圍的限制內(nèi)。這里所說的“改變”是指交互之前和之后的狀態(tài)之間的差異。audioBlockFormat的audioObjects層次結(jié)構(gòu)中的交互所引起的所有改變的聯(lián)合作用(見第13章)alternativeValueSet子元素允許為audio0bject定義一組備用參數(shù)。在此子元素中定義的參數(shù)將優(yōu)先于父audio0bject元素中的相同參數(shù)。在父audioObject中有定義,但尚未在alternativeValueSetalternativeValueSetg,以允許定義多個變量。表30列出了alternativeValueSet中包含的子元素,每個子元素與表25中列出的父audioObject中相同的子元素有相同的規(guī)定屬性、描述、示例、單位和數(shù)量的相關(guān)內(nèi)容見表25.altermativeValueSet子元素應使用altermativeValueSetID屬性,ID應采用AVS_ww_2222格應為父audio0bject中使用的每個alternativeValueSet的唯一值。alternativeValueSetID可從audioProg示例代碼(audioObjectaudioObjectID="A0_1001”audioObjectalternativeValueSetID-”AS_1001_0001”alternativeValueSetID6.6.7示例代碼<audioObjectaudio0bjectID=“A0_1001”audio0bjectName="Dialogue_stereo”<audioPackFormatIDRef>AP_00010001</audio<audioTrackUIDRerAIU_00000001</aodioTrac(audioTrackUIDBef)ATU_000006.6.8嵌套的audioObjects和時序參數(shù)當audioObject元素被嵌套時,其開始時間仍然是相對于節(jié)目的開始時間而非相對于引用它的audioObject的開始時間。從另一個audio0bject引用的任何audioObject的開始時間不應早于引用對象的時間,結(jié)束時間(即開始+持續(xù)時間)不應晚于引用對象的結(jié)束時間。A0_1001->A0_1002->A0_1003-)A0_1001即為一個循環(huán),因此無效)audioContent元素描述節(jié)目的一個組成部分的內(nèi)容(例如肯景音樂),并引用audioObjects將內(nèi)容與其格式聯(lián)系起來。此元素包括響度元數(shù)據(jù)。audioContent的屬性宜符合表31的規(guī)定AC0_1001內(nèi)容的語言(字符串)。宜使用語言代碼來標識語言。語言代碼能夠按照IS0639:2023的規(guī)定以2個或3個audioContent的子元素宜符合表32的規(guī)定。News”A0_10010對audio06jeet中alternativeValueS10...容由于可以在一個audioContent元素中包含多個altermativeValueSetIDRef子元素,因此宜確保alternativeValueSetIDRef僅引用同一audio0bject中的一個alternativeValueSet,通過檢查alternativeSetIDRef都應具有唯一的wwww數(shù)字6.7.4dialogue對話(可選)dialogue對話指定父audioContent中包含的內(nèi)容類型。Dialogue子元素能夠采用值0(1(純對話)或2(混合)。它具有一個屬性,該屬性使用內(nèi)容類型的已定義列表(枚舉類型)指定內(nèi)容dialogue的屬性見表33。001020dialogue的種類見表34。01201(故事情節(jié))對話23口語字幕45601236.7.5loudnessMetadata響度元數(shù)據(jù)屬性和子元素loudnessMetadata的屬性見表35。“10-RBS.1770”ATSCA/85”校正類型用于指示音頻的校正,例如,基于文件“File-based”音頻可以通過各種方式進行測量,與響度算法、遵循的區(qū)域推薦做法以及校正類型有關(guān)。使用的loudneslMethod或算法應符合ITU-RBS.1770中的規(guī)定。loudnesRecType表示作為字符串遵循的區(qū)域建議做法,例如“ATSCA/85”“ARIBTRB32”或“FreeTVOP59”。loudnessCorrectionType指定音頻的關(guān)聯(lián)方式包括基于離線文件或?qū)崟r處理。loudnessMetadata的子元素見表36。6.7.6示例代碼<audioContentaudioContentID="M00_1001"audioContentN(audicContentLabellanguage="eng")MusiaudioContentLabellanguage="deu")Musik</audioContentL(audioObjoctIDHef)A0_1<integratedloudness)-23.0</integrateaudioProgramme元素是指一組一個或多個audioContents,這些內(nèi)容組合在一起以創(chuàng)建完整的音頻節(jié)目。它包含節(jié)目的開始時間和結(jié)束時間,能夠用于與視頻時間對齊;還包括響度元數(shù)據(jù),以便記錄節(jié)目的響度。當文件中包含多個audioProgranne,并且沒有其他信息來決定選擇哪一個進行播放時,則默認選擇播放audioProgranneID值最低的那個。audioProgramme的屬性宜符合表37的規(guī)定。表37audioProgramme屬性APR_1001 本節(jié)目中包含的對話內(nèi)容的語言(以字符串形式)節(jié)目開始時間。開始時間采用6.11中所式或或指示節(jié)目中每個audio0bjeet允許的audioProgramme的子元素宜符合表38的規(guī)定。audioPrograme標簽。語言代碼宜639:2023的規(guī)定以2個或3個字符的代碼形式給出“會場“A00_1001隱式定義默認屏尊大小(見11.6) AWS_1001_0001由于可以在audioProgranne元素中包含多個alternativeValueSetIDRef子元素,因此宜確保alternativeValueSetIDRef僅引用同一audio0bject中的一個alternativeValueSet。這宜通過檢查的數(shù)字匹配。因此,為了確保音頻對象不會被多次引用,音頻節(jié)目中的每個alternativeValueSetIDRef都應具有唯一的wwww數(shù)字。6.8.4audioProgrammeReferenceScreen音頻節(jié)目參考屏幕audioProgrammeReferenceScren元素描述內(nèi)容創(chuàng)建者在制作此audio0bject的內(nèi)容期間使用的參考/制作/監(jiān)視屏幕。屏幕能夠使用極坐標或笛卡爾坐標來描述,但不能同時使用兩者(見圖4)。audioProgrammeReferenceScreen的屬性見表39。屏幕的縱橫比(其寬度與其高度之間的比例關(guān)系(相對于圖像尺寸))audioProgrammeReferenceScreen的音頻節(jié)目引用屏幕子元素見表40.表40audioProgrammeReferenceScren音頻節(jié)目引用屏幕子元素度度平角開口角0)度XYZX6.8.5loudnessMetadata響度元數(shù)據(jù)屬性和子元素loudnessMetadata的屬性見表41。ITU-RBS.1770”loudnessBocType指示在音頻ATSCM/85”校正類型用于指示音頻的校正,例如,基于文件“基于文件”音頻可以通過多種方式進行校正或歸一化,與響度算法、遵循的區(qū)域建議做法以及校正類型有關(guān)。loudnessMethod或算法應符合ITU-RBS.1770中的規(guī)定。loudnesRecType表示作為字符串遵循的區(qū)域建議做法,例如“ATSCA/85”“ARIBTRB32”或“FreeTVOP59”。loudnessCorrectionType指定音頻的關(guān)聯(lián)方式:在基于離線文件或?qū)崟r進程中。loudnessMetadata的子元素見表42。表42loudnessMetadata子元素audioProgrameaudioProgranrelD="APR_1001"audioProgrameNane="Docunent<audioProgramelabellanguage="eng">DefaultMix</aud(audioProgrameLabellanguage="deu">StaudioContentIDRef)A00_1001</audioContentIaudioContentIDRef)A00_1002</audioContentauthoringInformation的子元素見表43。參考布局描述了最初為其生成audioPrograme內(nèi)容的揚聲器布義上說,它代表了從內(nèi)容創(chuàng)作者的角度來看最佳的揚聲器布referenceLayout的子元表44referenceLayout子元梁對在制作過程中用作參考布局的audioPackF在制作過程中使用虛擬揚聲器設(shè)置的再現(xiàn)技術(shù)(例如雙耳渲染或條形音箱渲染),則referenceLayout宜引用虛擬揚聲器布局1renderer的屬性見表45。表45renderer屬性urn:itu:bs:2127:0:itu_adn_rend“1.0.0”renderer的子元素見表46。6.8.8示例代碼<audioForratExtendedversion="ITU-R_B(audioProgratneaudioProgranneID=“APR_1001”audioPr<rendereruri-"urn:itu:bs:2127:0:itu_adn_rGaudioPackFomatIDRef)AP_00010003</audioPackFormatIDGaudioPackFomatIDief)AP_00010017</audioPackaudioTrackUID是文件或音頻場景錄制中的音軌或資源的唯一標識。此元素包含有關(guān)音軌的位深度和采樣率的信息。對于POM音頻,可省略audioStreanFornat和audioTrackFormat.然后,audioTrackUID應引用相應的audioChannelFormat,并且相同的數(shù)字用于AT_yygyxxx_zz、AS_yyyyxxxx和AC_yyyyxxxx的“yyyyxxxx”部分。它還包含子元素,通過執(zhí)行(chna>區(qū)塊的作業(yè),可將模型用于非BW64應用程序。將模型與MXF文件一起使用時,將使用audioMXFLooklp子元素(其中包含用于引用文件中音頻本身的子元素)。audioTrackUID的屬性見表47。audioTrackUID的子元素見表48。表48audioTrackU1D子元素AT_00010001_01對audioChannelFormt描述的引用。僅當P略audioTrackFormat時,才使用此AC_yyryxxxx和AT_yyyyxxxx_zx的“yyxxxx”部MXF對術(shù)語“音軌”和“通道”的含義與它們在ADM中的使用不同。在MXF中,“音軌”是包含音頻或視頻的存儲介質(zhì),對于音頻,該“音軌”能夠被細分為“通道”。MXF的子元素見表49。表49WXF子元素串060a2634.01010105.01010120.13000000.540bc434f05.8ce5f4e3.5b72MFTRMCK_3MCFCHAN_16.9.5示例代碼(audioTrackUTDUID-ATU_0000001”sanplekRnto="48000”bitDepth-”24")(audioTrackUTDUID-ATU_0000001”sanplekRnto="48000”bitDepth-”24")6.10audioFormatExtendedAudioFormatExtended是父元素,包含所有ADM元素。audioFormatExtended的子元素見表50。表50audioFormatExtended子元素0.._中0...中表50中的任何元素在ADM文件中都不是必需的。例如,僅由通用定義音軌組成的文件不會包含任何audioTrackFornat、audioStreamFornat、audioChannelFormat和audioPackFormat元素。雖然ADM文件最好包含至少一個audioProgramme和audioContent元素,但省略它們?nèi)匀挥行?例如在臨時文件或測試文件中)。6.10.3版本名稱版本名稱見表51。表51版本名稱例“1TU-R_BS.2076-2”版本名稱用于指示使用哪個版本的ADM。如果缺少版本屬性,則默認ADM使用ITU-RBS.2076-0,因為此版本的ADM不包含此版本屬性,對于任何更高版本的ADN,版本屬性宜包含在相關(guān)名稱中。6.10.4示例代碼(audioFormatExtended.6.11時間參數(shù)格式與時間相關(guān)的參數(shù)應采用“hh:mm:ss.2222z”或"hh;mm;ss.z2z2zSffffr"的格式?!癶h:mm;ss.z22z2”表示小時、分鐘、秒。秒的小數(shù)位數(shù)宜至少為5.宜有足夠的小數(shù)位用于采樣精確計時。例如,01:34:16.25000?!癶h:m:88.2222zSffffl”表示小時、分鐘、秒,分數(shù)表示亞秒。22z22數(shù)字表示分數(shù)的分子,ffffr數(shù)字表示分母。2z2z2和ffffr的位數(shù)宜至少為5位數(shù)。此格式可使用基于樣本的時間表示形式,其中zzzzz是樣本數(shù),fffff是采樣率。z2zzz的值宜小于fffff以確保分數(shù)小于1.這兩個值都不宜為負數(shù),并且fffff宜大于零。例如,01:34:16.12000S48000與01:34:16.25000相同。附錄B包含一系列使用ADM的元數(shù)據(jù)示例。這些示例有助于說明如何使用ADM,但不宜被視為音頻定義的參考。各元素中的ID屬性有三個主要目的。-—允許元素相互引用。-—為每個已定義的元素提供一個唯一的標識每個元素的ID格式見表52。8yyyy部分是一個4位的十六進制數(shù),通過使用typelabel值來表示元素的類型。目前有5個已定義的類型標簽值以及可能的用戶自定義類型。目前所采用的5種typebefinitions的見表53。用于基于聲道的音頻,各聲道共同組成矩陣,如:M/s用于基于場景的音頻,使用高保真環(huán)繞立體聲xxxx部分是一個4位的十六進制數(shù),確定某個特定類型內(nèi)的描述。保留0001~0FFF范圍內(nèi)的值用于通用定義,如:“FrontLeft”或“Stereo”。具體通用定義見ITU-RBS.2094。1000~FFFF范圍的值用于自定義,專門用于基于對象的音頻,所有的對象都將是自定義的0001~0FFF范國內(nèi)的audioChannelFormatID值用于指定有關(guān)標簽和配置的聲道。用于典型揚聲器位置的audioChannelFornatID通用定義見ITU-RBS.2094。聲道標簽通用定義的一些示例見表54。表54聲道標簽通用定義示例audioPackFormatID定義了聲道配置。用于典型揚聲器配置定義的audioPackFormatID的通用定義見ITU-RBS.2094。這些通用定義的一些示例見表55。表55audioPackFormat通用定義示例在audioBlockFormat中,z2222222部分是一個8位的十六進制數(shù),作為聲道內(nèi)塊的一個索引/計數(shù)器。索引/計數(shù)器宜從1開始對應第一個塊。各yyyyxxxx值宜與其父audioChannelFormatID的值相匹配。在audioTrackFormat中,zz部分是一個2位的十六進制數(shù),作為流內(nèi)音軌的一個索引/計數(shù)器。各yyyyxxxx值宜與引用audioStreanFormatID的值相匹配audioProgramme、audioContent、audio0bject和alternativeValueSet沒yyyy值。由于audioProgramme、audioContent、audioObject和alternativeValueSet都是自定義值沒有通用的定義,因此wwww的值在十六進制的1000~FFFF范圍內(nèi)。保留通用的范圍值(0000~0FFF)具有零值的ID不宜用于任何定義,保留給宜于沒有定義且宜被忽略的audioTrackFormat。這適用于包含未使用音軌的音頻文件(例如:只包含5個聲道音頻的8音軌文件)。因此<chna>塊能在audioTrackFormat字段中為AT_00000000_00引用這些未使用音軌ID應支持大寫和小寫十六進制數(shù)字(a~f和A-F),具有相同數(shù)字但具有不同大小寫的ID視為相ADM的目標是建立一個通用模型,其與864文件的關(guān)系,在ITU-RBS.2088中進行了重點解釋。ADM使用audioTrackFormat、aud文件實現(xiàn)關(guān)聯(lián)。BW64文件定義了一個稱為<chna>的新塊(簡稱“聲道分配”),它包含了一組ID對應文件中的每個音軌。這些ID可以引用某個元素,或者被某個元素引用。塊中的每個音軌包含以下ID。——audioTrackFormatID描述某個特定audioTrackFornat元素的ID。由于audioTrackFornat也引用audioStreamFormat、audioPackFormat或audioChannelFormat,個特定音軌的格式。對于POM音頻,可忽略audioTrackFormat和audioStreamFormat元素。audioTrackFormat(AT_yyyyxxXX_zz)audioStreanFormat(Asyyyyxxx)audioChannelFormat(AC_yyyxxx)中的“yyyxxxx”部分使用相同的數(shù)字。當-audioPackFormatID描述某個特定audioPackFormat的ID。由于需要給大多數(shù)應在具有此ID的(chna>塊中指定它?!猘udioTrackUID用于標識音軌的唯一ID。內(nèi)容描述符audio0bject需要了解描述文件中的哪些音軌被描述了,因此需要包含一個與文件中的音軌相對應的audioTrackUID引用列表?!癉irectSpeakers”輸入聲道,而audioPackFormatID將引用“Matrix”類型編碼矩陣包音軌能包含多個audioTrackFormatID,以便在不同的時間上能在音軌中實現(xiàn)不同的格式。此類分配的示例見表56。122表56中,2號音軌有兩個audioTrackUID,因為分配給它的audioTrackFormats和audioPackFormat在文件中的不同時間使用。雷要通過檢查涉及這些audioTrackUID的audioObjeet元素,來找到分配時間。例如:音軌1和音軌2包含持續(xù)到文件第一分鐘的主題曲,這些音軌在第一分鐘后是空閑的,那么節(jié)目主體中的一些音頻對象后續(xù)可以存儲在這些音軌中。由于主題曲和音頻對象具有完全不同的格式和內(nèi)容,因此它們需要不同的audioTrackIID。audioBlockFormat中,對于“DiroetSpeakers”和“Objeeta”這兩種類型,位置元素均支持在坐標屬性中指定不同的軸。所用的主坐標系統(tǒng)是極坐標系,它使用水平角、俯仰角和距離這三個參數(shù)。水平角和俯仰角也可以用于基于場景的音頻的方程子元素(參考)。為確保在指定位置時的一致性,每個極軸都宜遵循以下準則——原點:位于中心,是最佳點(由于某些系統(tǒng)沒有最佳點,因此宜假定空間的中心)?!浇牵核矫嫔系慕嵌?,從上方看時,前方為0°,向左(或逆時針方向)為正角?!┭鼋牵捍怪逼矫嬷械慕嵌?,水平前方為0°,向上為正角——距離:歸一化距離,其中1.0假定為球體的缺省半徑。 左圖5用于HOA的球坐標和笛卡爾坐標系10所有typeDefinition的通用參數(shù)說明以下四個參數(shù)是所有typeDefinition所共有的--importance在audioBlockFormat、audioPackFormat和audioObject中都有定義?!猤ain在audioBlockFornat和audioObject中都可以出現(xiàn)。 headlocked在audioBlockFormat

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論