三維沉浸視頻技術(shù)白皮書(shū)-世界超高清視頻產(chǎn)業(yè)聯(lián)盟_第1頁(yè)
三維沉浸視頻技術(shù)白皮書(shū)-世界超高清視頻產(chǎn)業(yè)聯(lián)盟_第2頁(yè)
三維沉浸視頻技術(shù)白皮書(shū)-世界超高清視頻產(chǎn)業(yè)聯(lián)盟_第3頁(yè)
三維沉浸視頻技術(shù)白皮書(shū)-世界超高清視頻產(chǎn)業(yè)聯(lián)盟_第4頁(yè)
三維沉浸視頻技術(shù)白皮書(shū)-世界超高清視頻產(chǎn)業(yè)聯(lián)盟_第5頁(yè)
已閱讀5頁(yè),還剩66頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

三維沉浸視頻技術(shù)白皮書(shū)(2024)Thee-DmensionalImmerseVidoehnologyWiepe(202)三維沉浸視頻技術(shù)白皮書(shū)目錄TOC\o"1-2"\h\z\u三維沉浸視頻概述 1三維沉浸視頻概念 1背景和意義 2三維沉浸視頻的技術(shù)演進(jìn)路線 3三維沉浸視頻技術(shù)體系 4三維沉浸視頻內(nèi)容采集 5三維沉浸視頻內(nèi)容重建 10三維沉浸視頻內(nèi)容編碼 20三維沉浸視頻內(nèi)容傳輸 27三維沉浸視頻渲染交互 29三維沉浸視頻終端顯示 34三維沉浸視頻質(zhì)量評(píng)價(jià) 38三維沉浸視頻發(fā)展趨勢(shì) 46當(dāng)前存在的問(wèn)題 46前沿技術(shù)概述 473D全真視頻 50標(biāo)準(zhǔn)化建議 52三維沉浸視頻標(biāo)準(zhǔn) 52標(biāo)準(zhǔn)化建議 545.附錄 56三維沉浸視頻應(yīng)用 56縮略語(yǔ) 65參考文獻(xiàn) 67三維沉浸視頻通過(guò)采集真實(shí)世界的數(shù)據(jù),并結(jié)合計(jì)算機(jī)視覺(jué)、視頻編解碼、深度學(xué)習(xí)等技術(shù),旨在模擬并重現(xiàn)現(xiàn)實(shí)場(chǎng)景的完整視覺(jué)信息,使觀眾能夠獲得立體、真實(shí)、沉浸式的視頻體驗(yàn)。相對(duì)于傳統(tǒng)的二維平面視頻,三維沉浸視頻具有以下特點(diǎn):從平面感知到立體感知:三維沉浸視頻通過(guò)立體影像技術(shù)使觀眾能夠感受到真實(shí)場(chǎng)景的三維結(jié)構(gòu)。與3D從單一視角到自由視角:傳統(tǒng)視頻限制了觀眾只能從固定的視角觀看內(nèi)容。三維沉浸視頻致力于提供自由視角,觀眾通過(guò)觸摸屏幕、轉(zhuǎn)動(dòng)頭部、手勢(shì)等交互方式,使觀眾視角能夠在場(chǎng)景中自由移動(dòng),仿佛置身于真實(shí)世界。從有限時(shí)空分辨率到任意時(shí)空分辨率:傳統(tǒng)視頻受時(shí)空分辨率的限制,三維沉浸視頻力求提供更高的時(shí)間分辨率和空間分辨率,以更完整、精細(xì)地呈現(xiàn)場(chǎng)景。復(fù)刻現(xiàn)實(shí)場(chǎng)景完整視覺(jué)信息:三維沉浸視頻試圖模擬并重現(xiàn)現(xiàn)實(shí)場(chǎng)景的所有視覺(jué)信息,包括顏色、光照、深度、運(yùn)動(dòng)等方面,通過(guò)照片級(jí)真實(shí)的渲染技術(shù),創(chuàng)造更為真實(shí)沉浸的視覺(jué)感官體驗(yàn)??傮w而言,三維沉浸視頻是一種持續(xù)發(fā)展創(chuàng)新的視覺(jué)技術(shù),經(jīng)歷了一系列的發(fā)展階段,最終目標(biāo)是通過(guò)整合先進(jìn)的技術(shù)和設(shè)計(jì)理念,使觀眾能夠在虛擬環(huán)境中獲得真實(shí)、身臨其境的感受。圖1三維沉浸視頻的特征能夠完整復(fù)刻真實(shí)場(chǎng)景全部視覺(jué)信息的三維沉浸視頻一直存在于人們美好的想象中。相對(duì)于傳統(tǒng)的2D視頻,三維沉浸視頻可以給予觀眾全新的體驗(yàn)。一方面,觀眾能夠沉浸在近乎全真的虛擬環(huán)境中,獲得深度的觀看體驗(yàn),為教育、文化、醫(yī)療和娛樂(lè)等諸多領(lǐng)域帶來(lái)視覺(jué)上的變革。另一方面,三維沉浸視頻使觀眾能與內(nèi)容直接互動(dòng),觀眾從被動(dòng)觀看變成積極參與,拉近了數(shù)字世界與現(xiàn)實(shí)生活的距離,為個(gè)體提供更為個(gè)性化的體驗(yàn)。但是,硬件設(shè)備、軟件算法、人機(jī)交互、內(nèi)容創(chuàng)造等多方面的瓶頸都制約了三維沉浸視頻的發(fā)展。近年來(lái),隨著數(shù)字技術(shù)的高速發(fā)展,元宇宙的概念逐漸深入人心,相關(guān)研究和產(chǎn)品呈現(xiàn)爆炸性增長(zhǎng),為三維沉浸視頻的最終實(shí)現(xiàn)創(chuàng)造了條件。一方面,圖形處理單元的運(yùn)算性能不斷提高,能夠?qū)崟r(shí)渲染高質(zhì)量的3DAI作為一項(xiàng)面向未來(lái)的技術(shù),三維沉浸視頻技術(shù)將對(duì)中國(guó)科技創(chuàng)新和產(chǎn)業(yè)升級(jí)產(chǎn)生巨大的推動(dòng)作用,有利于強(qiáng)化國(guó)家戰(zhàn)略科技力量、增強(qiáng)技術(shù)自主可控能力。因此,沉浸式視頻的技術(shù)研究和產(chǎn)業(yè)應(yīng)用已經(jīng)寫(xiě)入國(guó)務(wù)203512174K/8K3D根據(jù)《2024中國(guó)沉浸產(chǎn)業(yè)發(fā)展白皮書(shū)》,到2023年,中國(guó)沉浸產(chǎn)業(yè)消費(fèi)市場(chǎng)規(guī)模達(dá)到927億元,總1933.420242400三維沉浸視頻的技術(shù)發(fā)展不是一蹴而就的,需要經(jīng)歷多個(gè)階段,不斷引入新的技術(shù)和方法,以提供更為逼真、沉浸和交互的體驗(yàn)。如圖2所示,三維沉浸視頻的技術(shù)演進(jìn)經(jīng)歷了以下幾個(gè)階段。圖2三維沉浸視頻的技術(shù)演進(jìn)雙目立體技術(shù):雙目立體是三維沉浸視頻早期的實(shí)現(xiàn)方式。通過(guò)兩臺(tái)攝像機(jī)模擬人眼的雙目視覺(jué),使觀眾能夠感知到深度,其缺點(diǎn)主要是需要佩戴特殊的眼鏡或者頭戴式顯示設(shè)備,并且在視點(diǎn)數(shù)量和視覺(jué)舒適性方面存在局限性。3D3D3D3D3D3D3D自由視點(diǎn)技術(shù):自由視點(diǎn)技術(shù)是一種允許觀眾從外部場(chǎng)景觀看視頻時(shí)自由選擇視點(diǎn)的技術(shù)。它通過(guò)從多個(gè)視點(diǎn)采集視頻或者利用計(jì)算機(jī)合成虛擬視點(diǎn)來(lái)實(shí)現(xiàn)。在觀看視頻時(shí),觀眾可以通過(guò)交互式界面或者設(shè)備自由選擇不同視角,從而獲得更加個(gè)性化和沉浸式的觀影體驗(yàn)。體積視頻技術(shù):體積視頻是一種采集和呈現(xiàn)三維空間中動(dòng)態(tài)場(chǎng)景的技術(shù)。體積視頻通常由一系列包含深度信息的幀組成,常見(jiàn)的表示形式包括點(diǎn)云、3DofFreedom)的觀看體驗(yàn),但拍攝難度大,僅適用于室內(nèi)小場(chǎng)景,渲染質(zhì)量不夠高,也沒(méi)有形成廣泛接受的標(biāo)準(zhǔn)。三維沉浸視頻的技術(shù)體系包含了內(nèi)容采集、內(nèi)容重建、內(nèi)容編碼、內(nèi)容傳輸、渲染交互、終端顯示、質(zhì)量評(píng)價(jià)等七個(gè)核心組成部分。內(nèi)容采集階段通過(guò)各類相機(jī)獲取場(chǎng)景的視覺(jué)信息。然后利用雙目立體視覺(jué)、多視立體視覺(jué)等技術(shù)將這些數(shù)據(jù)轉(zhuǎn)化為具有立體感和幾何結(jié)構(gòu)的場(chǎng)景。接著,對(duì)數(shù)據(jù)進(jìn)行壓縮和編碼,以便在傳輸和存儲(chǔ)中減少數(shù)據(jù)量。渲染交互階段將編碼后的數(shù)據(jù)解碼,并通過(guò)視點(diǎn)合成等技術(shù)渲染成沉浸式的視覺(jué)體驗(yàn)。最后,終端顯示為用戶提供了沉浸視頻的觀看方式。這六個(gè)部分協(xié)同作用,創(chuàng)造出立體、沉浸式的視覺(jué)體驗(yàn)。此外,質(zhì)量評(píng)價(jià)可以幫助確定三維沉浸視頻的整體質(zhì)量。本章將對(duì)相關(guān)技術(shù)進(jìn)行詳細(xì)介紹。圖3三維沉浸視頻技術(shù)體系圖4技術(shù)體系與技術(shù)演進(jìn)關(guān)系圖內(nèi)容采集是三維沉浸視頻制作的第一步,旨在捕捉場(chǎng)景的視覺(jué)和幾何信息,為后續(xù)的三維重建和渲染提供基礎(chǔ)數(shù)據(jù)。不同的采集方式適用于不同的場(chǎng)景和需求,能夠提供不同范圍的場(chǎng)景信息,從而影響對(duì)視頻的處理方式以及最終呈現(xiàn)效果的真實(shí)性和沉浸感。三維沉浸視頻內(nèi)容采集包括圖像的采集和深度信息的采集,圖像采集可以通過(guò)多視點(diǎn)的方式,使用雙目相機(jī)、陣列相機(jī)或全景相機(jī)完成。而深度信息的采集既可以通過(guò)被動(dòng)式采集即多目相機(jī)通過(guò)后期計(jì)算獲得,也可以通過(guò)深度相機(jī)、激光掃描儀等通過(guò)物理的方式直接獲得。圖5內(nèi)容采集方式雙目相機(jī)采集單目相機(jī)通常基于針孔模型來(lái)描述相機(jī)的成像過(guò)程。它假設(shè)相機(jī)具有一個(gè)光學(xué)中心和成像平面,光線從物體通過(guò)光學(xué)中心投影到成像平面上形成圖像。焦距表示光學(xué)中心到成像平面的距離,而透視投影描述了物體在圖像中的投影位置。相機(jī)參數(shù)包括焦距、成像平面尺寸、畸變參數(shù)等,用于校準(zhǔn)相機(jī)并計(jì)算像素與物理空間之間的關(guān)系。單目相機(jī)的針孔模型是理解和分析相機(jī)成像的基礎(chǔ),它與多目相機(jī)系統(tǒng)共同構(gòu)成了計(jì)算機(jī)視覺(jué)和攝影學(xué)中的重要工具。圖6針孔相機(jī)模型雙目相機(jī)內(nèi)容采集是一種利用兩個(gè)單目相機(jī)同時(shí)拍攝同一場(chǎng)景的方法,以獲取更加豐富和準(zhǔn)確的視覺(jué)信息。在雙目相機(jī)系統(tǒng)中,左右兩個(gè)相機(jī)分別模擬人類的兩只眼睛,兩個(gè)鏡頭通常被安裝在一個(gè)固定的平臺(tái)上,以保證它們的空間位置和朝向一致。在內(nèi)容采集過(guò)程中,雙目相機(jī)需要同時(shí)獲取兩個(gè)攝像機(jī)的圖像數(shù)據(jù),并確保它們的時(shí)間同步和空間校準(zhǔn),以保證后續(xù)處理的準(zhǔn)確性。另外,為了實(shí)現(xiàn)對(duì)場(chǎng)景深度的感知,需要通過(guò)分析兩個(gè)攝像機(jī)圖像之間的視差信息來(lái)計(jì)算物體到相機(jī)的距離。因此,雙目相機(jī)內(nèi)容采集不僅可以提供立體感覺(jué),還能夠?qū)崿F(xiàn)對(duì)場(chǎng)景深度的測(cè)量和感知。下圖為理想的雙目深度相機(jī)成像模型,只需要獲得一個(gè)空間點(diǎn)在左右相機(jī)中的視差,就可以計(jì)算出該點(diǎn)的深度信息。圖7理想雙目相機(jī)模型陣列相機(jī)采集陣列相機(jī)是一種使用多個(gè)攝像機(jī)排列在一起的成像系統(tǒng),旨在獲取更廣闊的視野和更豐富的場(chǎng)景信息。如下圖所示為陣列相機(jī)的幾種典型幾何排列方式,包括水平或垂直的線性排列、環(huán)繞排列、2維平面式排列、3D陣列等。陣列相機(jī)的工作原理類似于雙目相機(jī),但通過(guò)更多的攝像機(jī)增加了視點(diǎn)個(gè)數(shù),便于獲得整個(gè)場(chǎng)景的三維結(jié)構(gòu)。在內(nèi)容采集過(guò)程中,陣列相機(jī)需要確保所有攝像機(jī)拍攝的圖像在時(shí)間上保持同步,并通過(guò)精確的空間校準(zhǔn)來(lái)將它們的視野對(duì)齊。通常,這需要使用高精度的硬件同步和精確的攝像機(jī)標(biāo)定技術(shù)。通過(guò)對(duì)多個(gè)攝像機(jī)圖像進(jìn)行融合和處理,陣列相機(jī)還能夠合成密集的虛擬視點(diǎn),或者通過(guò)多視點(diǎn)視圖實(shí)現(xiàn)對(duì)真實(shí)場(chǎng)景的三維重建。圖8相機(jī)陣列幾何排布方式全景相機(jī)采集

圖93D陣列全景相機(jī)采集系統(tǒng)通常由多個(gè)攝像頭組成,可以同時(shí)拍攝多個(gè)方向的視頻,并通過(guò)軟件或硬件的方式將這些視頻拼接成全景視頻。全景相機(jī)的鏡頭可以采用普通鏡頭,也可以使用魚(yú)眼鏡頭,鏡頭的排列可以按環(huán)形、球形或其他幾何形狀的方式布局,以確保它們的視野可以實(shí)現(xiàn)全方位覆蓋。攝像頭的布局方式取決于相機(jī)1808全景視頻為了呈現(xiàn)立體效果,需要為左右兩個(gè)視點(diǎn)分別生成全景圖,這可以通過(guò)全方向立體投影(ODS,Omni-directionalStereo)模型來(lái)描述。ODS給出了一種3D全景的緊湊表示方法,將空間中與一個(gè)半徑為人眼瞳距的觀察圓(ViewingCircle)相切的光線映射為兩組(左眼光線和右眼光線)光線,對(duì)于同一個(gè)方向空間光線,它們?cè)谟^察圓上的投影中心恰好落在觀察圓的一條直徑上??梢韵胂髮⑷搜劾@著中軸旋轉(zhuǎn)360°,并把每一個(gè)時(shí)刻記錄下來(lái)的圖片中與觀察圓相切的一條光線拼接成一個(gè)完整的圖像。如下圖所示,ODS對(duì)空間中所有與觀察圓相切的光線進(jìn)行采樣,圖中藍(lán)色的光線對(duì)應(yīng)于右眼觀測(cè)到的光線,紅色對(duì)應(yīng)左眼觀測(cè)到的光線。圖10左:全景相機(jī)共光心環(huán)形排布、右:ODS模型深度信息采集RGB-DRGBofFlight)相機(jī)等。結(jié)構(gòu)光RGB-D通常采用特定波長(zhǎng)的不可見(jiàn)的紅外激光作為光源,發(fā)射出來(lái)的光投射在物體表面。使用相機(jī)拍攝被測(cè)物體的結(jié)構(gòu)光圖像,通過(guò)一定的算法獲得物體的位置和深度信息。這種方式在靜態(tài)場(chǎng)景和非透明物體具有較好的性能,適用于室內(nèi)環(huán)境,但在較遠(yuǎn)距離和透明物體上的性能較差,深度測(cè)量精度可能下降。圖11結(jié)構(gòu)光RGB-D系統(tǒng)組成TOF相機(jī)是一種利用飛行時(shí)間原理獲取深度信息的RGB-D相機(jī)。它的工作原理是通過(guò)發(fā)射連續(xù)光脈沖到場(chǎng)景上,然后測(cè)量光線從相機(jī)發(fā)射到物體表面再返回相機(jī)的時(shí)間,從而計(jì)算出物體到相機(jī)的距離。其優(yōu)點(diǎn)是速度快,可以實(shí)時(shí)采集深度信息,適用于動(dòng)態(tài)場(chǎng)景。但分辨率相對(duì)較低,深度圖像的精度和準(zhǔn)確性可能較差,尤其是在長(zhǎng)距離和低反射率表面上的性能較差。此外,還可以通過(guò)激光掃描的方法獲取物體或者場(chǎng)景的三維結(jié)構(gòu)信息。該技術(shù)利用激光掃描設(shè)備向目標(biāo)物體發(fā)射激光,并記錄激光束反射回來(lái)的時(shí)間差確定距離,從而生成大量離散的點(diǎn)云數(shù)據(jù)。通過(guò)對(duì)這些點(diǎn)云數(shù)據(jù)進(jìn)行處理和分析,可以實(shí)現(xiàn)對(duì)物體的三維重建,包括幾何形狀和表面細(xì)節(jié)。激光掃描法生成模型精度相對(duì)較高,被廣泛應(yīng)用于工程設(shè)計(jì)、文物保護(hù)、建筑測(cè)量等領(lǐng)域。激光掃描法的缺點(diǎn)是受環(huán)境影響較大、無(wú)法掃描特殊表面、時(shí)間長(zhǎng)、成本高、應(yīng)用范圍有限等。三維沉浸視頻的內(nèi)容重建是通過(guò)從單個(gè)或者多個(gè)視角采集的視頻或幾何信息,利用計(jì)算機(jī)視覺(jué)和圖像處理技術(shù),對(duì)場(chǎng)景進(jìn)行三維結(jié)構(gòu)的重建。獲取場(chǎng)景三維結(jié)構(gòu)的方法可以分為主動(dòng)式和被動(dòng)式兩個(gè)大類,基于主動(dòng)視覺(jué)的三維重建方法需要人工設(shè)置特別的照明光源,光源信號(hào)投射到場(chǎng)景后,圖像傳感器獲取返回的信號(hào),通過(guò)比較發(fā)射前后信號(hào)的差異來(lái)計(jì)算物體的深度信息生成三維結(jié)構(gòu)。這類方法適用范圍比較受限,超出一定距離后誤差很大,在深度圖質(zhì)量、圖像分辨率和時(shí)間分辨率等參數(shù)上也存在一些劣勢(shì)?;诒粍?dòng)視覺(jué)的三維重建技術(shù)不需要進(jìn)行人為增加光源,相機(jī)在自然光下采集圖像,包括雙目立體視覺(jué)技術(shù)、運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(SFM,StructureFromMotion)技術(shù)、多視立體視覺(jué)技術(shù)(MVS,MultipleViewStere)等。對(duì)于單目視頻,可以通過(guò)明暗度恢復(fù)形狀法(SFS,ShapeFromShading)、紋理法(SFT,ShapeFromTexture)、輪廓法(SFS/SFC,ShapeFromSilhouettes/Contours)、調(diào)焦法(SFF,ShapeFromFocus)等通過(guò)圖像中的特2D3D3D1三維沉浸視頻表示如下圖所示,3D3DCloud)、體素(Voxel)、網(wǎng)格(Mesh),有基于圖像的表示方式如光場(chǎng)合成,還有混合表示如多視點(diǎn)加深度圖、分層深度圖等,此外還有隱式表示的方式。常見(jiàn)的表示方式如下:10圖123D圖像的表示方式點(diǎn)云是由三維空間中的一組點(diǎn)組成的集合,每個(gè)點(diǎn)都有其在空間中的坐標(biāo)。點(diǎn)云通常用于表示和模擬三維對(duì)象或場(chǎng)景,是計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺(jué)、機(jī)器人學(xué)和虛擬現(xiàn)實(shí)等領(lǐng)域中的常見(jiàn)數(shù)據(jù)表示形式。通過(guò)激光掃描、結(jié)構(gòu)光掃描、立體視覺(jué)等方式可以獲取原始點(diǎn)云數(shù)據(jù),然后通過(guò)對(duì)原始點(diǎn)云數(shù)據(jù)進(jìn)行預(yù)處理、特征提取、配準(zhǔn)、濾波、擬合等實(shí)現(xiàn)對(duì)物體的建模、分析和處理。體素是三維空間中的體積像素。與二維像素類似,體素是三維圖像或三維場(chǎng)景的最小可分辨單元。體素通常由立方體表示,具有三維坐標(biāo)以及可能的屬性信息,如顏色、密度等。體素在三維重建中扮演著重要的角色,它們是一種對(duì)三維空間進(jìn)行離散化表示的方式,有助于建立物體或場(chǎng)景的模型。網(wǎng)格是由一系列連接的頂點(diǎn)、邊和面組成的三維結(jié)構(gòu),在三維重建中扮演著重要的角色。一些三維重建算法的輸出就是一個(gè)網(wǎng)格,以表示被重建物體的外表面。通過(guò)從點(diǎn)云數(shù)據(jù)、體素等形式轉(zhuǎn)換為網(wǎng)格,可以更容易地對(duì)重建后的對(duì)象進(jìn)行可視化、分析和編輯。以上三類表示較為精確,便于渲染和顯示任意視點(diǎn),但建模和匹配相對(duì)復(fù)雜,耗時(shí)大?;趫D像的表示不需要幾何信息和匹配信息。這類方法包括光場(chǎng)合成(LightFieldRendering),光圖(Lumigraph),共光心拼接(ConcentricMosaicsRepresentation)等。通過(guò)多角度的圖像采集,使用基于像素或者塊的圖像處理方式來(lái)產(chǎn)生虛擬的中間視點(diǎn)。該方法的主要優(yōu)點(diǎn)是無(wú)需3D場(chǎng)景重建即可完成高質(zhì)量的虛擬視點(diǎn)合成(VirtualViewSynthesis)。然而該優(yōu)點(diǎn)也必須付出一些昂貴的代價(jià):一方面,必須通過(guò)大量的相機(jī)對(duì)場(chǎng)景進(jìn)行稠密的過(guò)采樣,另一方面,為了合成高質(zhì)量的虛擬視點(diǎn),大量的圖像被處理和傳輸。如果對(duì)場(chǎng)景采樣過(guò)小,那么閉塞區(qū)域(Disocculusions)的插值偽影(InterpolationArtifacts)會(huì)相當(dāng)明顯,極有可能影響合成質(zhì)量。兩者混合的表示兼顧了基于幾何和基于圖像表示方法的優(yōu)勢(shì),主要的表示方式有多視點(diǎn)加對(duì)應(yīng)的深度圖、視差圖等,這種方式一般只需要很少的幾個(gè)視點(diǎn)加對(duì)應(yīng)的深度信息,通過(guò)基于深度圖繪制的視點(diǎn)合成方法可以生成一定范圍內(nèi)的虛擬視點(diǎn)。由于這種表示方式合成效果較好,且相對(duì)容易獲得,因此成為三維視頻重要的描述方式。但這種方式在合成視圖中依然面臨偽影和空洞修復(fù)的問(wèn)題。隱式表示是一種基于函數(shù)的方法,通過(guò)隱式函數(shù)來(lái)描述三維空間中的物體或場(chǎng)景。在隱式表示中,物體的表面不是顯式地表示為點(diǎn)、面或體素,而是通過(guò)滿足某種隱式函數(shù)的點(diǎn)集來(lái)定義,隱式函數(shù)通常不直接提供關(guān)于三維空間的幾何信息,而是輸出三維空間中所有幾何特征滿足的關(guān)系。常見(jiàn)的隱式表示有符號(hào)距離函數(shù)(SDF,SignedDistanceFunciton),占用場(chǎng)(OccupancyField),神經(jīng)輻射場(chǎng)(NeRF,NeuralRadianceField)等。隱式表示方法可以直接從觀測(cè)到的二維圖像數(shù)據(jù)中學(xué)習(xí)對(duì)象的三維結(jié)構(gòu)和屬性,而無(wú)需顯式地提供三維信息作為監(jiān)督信號(hào)。同時(shí),隱式表示方法還能夠產(chǎn)生高質(zhì)量、高分辨率的圖像,使其在圖像生成、渲染和視覺(jué)重建等任務(wù)中具有廣泛的應(yīng)用前景。D3D隨著AppleVisionPro3D3D3D2D3D3D傳統(tǒng)方法如單目深度估計(jì)、光流分析等依賴于經(jīng)典的圖像處理技術(shù)。單目深度估計(jì)通過(guò)分析圖像中的紋理、光照變化或邊緣信息來(lái)推測(cè)深度。然而,這種方法的準(zhǔn)確性受限于圖像的質(zhì)量和紋理特征,在紋理信息不足、邊緣模糊等情況下表現(xiàn)不佳。光流分析法是一種通過(guò)計(jì)算視頻中連續(xù)幀之間的像素移動(dòng)來(lái)估算場(chǎng)景深度的方法。它利用物體在幀間的運(yùn)動(dòng)來(lái)推測(cè)距離,生成深度信息。這種方法適用于動(dòng)態(tài)場(chǎng)景,但在精度、計(jì)算復(fù)雜度和圖像噪聲干擾方面面臨挑戰(zhàn)。深度學(xué)習(xí)方法的興起促進(jìn)了單目深度估計(jì)技術(shù)的快速發(fā)展,例如,可以采用卷積神經(jīng)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)、Transformer別器的對(duì)抗訓(xùn)練,能夠生成高質(zhì)量的深度圖。Transformer2D3D雙目立體視覺(jué)技術(shù)雙目立體視覺(jué)是一種基于雙目相機(jī)的深度感知技術(shù),它模擬了人類雙眼的視覺(jué)系統(tǒng)。通過(guò)安裝兩個(gè)攝像頭并調(diào)整它們的間距,雙目立體視覺(jué)系統(tǒng)可以同時(shí)采集同一場(chǎng)景的兩個(gè)不同視角的圖像。這兩個(gè)圖像之間存在一定的視差,利用這個(gè)視差信息,可以計(jì)算出場(chǎng)景中物體的深度信息。在雙目立體視覺(jué)中,使用傳統(tǒng)方法獲得場(chǎng)景的三維結(jié)構(gòu),通常使用如下圖所示的幾個(gè)步驟:圖13雙目立體視覺(jué)流程相機(jī)標(biāo)定:相機(jī)的內(nèi)外參數(shù)是描述相機(jī)成像過(guò)程中的重要參數(shù),包括內(nèi)部參數(shù)和外部參數(shù)。內(nèi)部參數(shù)主要描述了相機(jī)的內(nèi)部幾何特性,如焦距、主點(diǎn)、畸變系數(shù)等,這些參數(shù)通常在相機(jī)制造時(shí)就固定下來(lái),并且通常由相機(jī)制造商提供。外部參數(shù)則描述了相機(jī)與世界坐標(biāo)系之間的幾何關(guān)系,包括相機(jī)的位置、朝向、旋轉(zhuǎn)角度等,這些參數(shù)需要通過(guò)相機(jī)標(biāo)定或者視覺(jué)定位算法來(lái)獲取。內(nèi)外參數(shù)的準(zhǔn)確性對(duì)于計(jì)算機(jī)視覺(jué)任務(wù)至關(guān)重要,它們?cè)谌S重建、攝像機(jī)運(yùn)動(dòng)估計(jì)、立體視覺(jué)等方面起著關(guān)鍵作用,能夠影響到最終結(jié)果的精度和穩(wěn)定性。對(duì)于相機(jī)內(nèi)參(如焦距、主點(diǎn)位置、鏡頭畸變),通??梢允褂闷灞P(pán)格標(biāo)定法估計(jì),讓相機(jī)拍攝多角度的印有棋盤(pán)格的物體,通過(guò)角點(diǎn)檢測(cè)找到棋盤(pán)格上的角點(diǎn),再通過(guò)平面約束求解相機(jī)內(nèi)參。對(duì)于相機(jī)外參(如相機(jī)位置、朝向),可以使用稀疏光束平差(SBA,SparseBundleAdjustment)對(duì)多相機(jī)系統(tǒng)進(jìn)行標(biāo)定,該方法假定給定多個(gè)視角下二維點(diǎn)對(duì)應(yīng)三維坐標(biāo)初始估計(jì),以及每個(gè)相機(jī)的內(nèi)參估計(jì),利用這些信息完成一個(gè)優(yōu)化問(wèn)題,包括所有相機(jī)的內(nèi)外參數(shù)以及三維點(diǎn)坐標(biāo),使得重投影誤差最小。圖像矯正:在相機(jī)相對(duì)位置一致的情形下,場(chǎng)景點(diǎn)在兩個(gè)相機(jī)上的投影滿足極線約束(EpipolarConstrain),即一幅圖像中的特征點(diǎn)在另一幅圖像上的所有可能的對(duì)應(yīng)點(diǎn)的軌跡構(gòu)成一條二維直線,這條二維直線稱為極線(EpipolarLine),通過(guò)極線約束可以極大縮小立體匹配的范圍,提高立體匹配的魯棒性和穩(wěn)定性,減少計(jì)算復(fù)雜度。圖14對(duì)極幾何約束(P是場(chǎng)景點(diǎn),O和O'分別是兩個(gè)相機(jī)的光心,p和p‘分別是P在兩個(gè)相機(jī)上的投影)理想情況下若兩相機(jī)成像面平行且對(duì)齊,參數(shù)相同,那么像素的極線就在水平方向上。但實(shí)際拍攝中,由于相機(jī)的安裝誤差、成像面不平行等原因,通常不滿足理想條件。因此,需要通過(guò)旋轉(zhuǎn)和平移相機(jī)的成像面使得它們與兩個(gè)相機(jī)的基線(Baseline)平行,以實(shí)現(xiàn)極線矯正。圖15旋轉(zhuǎn)相機(jī)成像面使其與基線平行立體匹配:對(duì)于一組經(jīng)過(guò)矯正的圖像對(duì),通過(guò)立體匹配來(lái)獲取圖像對(duì)上像素點(diǎn)的對(duì)應(yīng)關(guān)系。立體匹配的算法有全局算法、局部算法、深度學(xué)習(xí)的方法等。全局(半全局)立體匹配算法采用全局優(yōu)化理論,通過(guò)最小化全局能量函數(shù)(包含一個(gè)數(shù)據(jù)項(xiàng)和平滑項(xiàng))得到最優(yōu)視差值。常用算法有動(dòng)態(tài)規(guī)劃(DynamicProgramming)、圖割法(GraphCuts)、置信度傳播方法(BeliefPropagation)等。局部立體匹配的方法通過(guò)對(duì)參考圖像中的每個(gè)像素周?chē)x一個(gè)窗口,并利用該窗口內(nèi)的像素信息與目標(biāo)圖像中對(duì)應(yīng)窗口進(jìn)行匹配,進(jìn)而計(jì)算像素間的視差。這種算法僅利用局部區(qū)域的約束數(shù)據(jù)進(jìn)行匹配,不考慮全局一致性,具有計(jì)算復(fù)雜度低的優(yōu)點(diǎn),但在低紋理、重復(fù)紋理、視差不連續(xù)和遮擋等情況下,匹配效果可能較差。近年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的立體匹配方法逐漸流行。這類方法利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)左右圖像之間的特征表示和匹配關(guān)系,例如神經(jīng)網(wǎng)絡(luò)的特征匹配、立體神經(jīng)網(wǎng)絡(luò)(StereoNeuralNetworks)等。三維重建:根據(jù)匹配的結(jié)果計(jì)算圖像中每個(gè)像素的視差值,然后利用視差值和相機(jī)參數(shù)進(jìn)行三角測(cè)量,計(jì)算出場(chǎng)景中每個(gè)像素點(diǎn)的深度信息,從而可以得到稠密的三維空間點(diǎn)云。最后,對(duì)獲取的三維空間點(diǎn)云進(jìn)行預(yù)處理、表面重建、模型優(yōu)化、后處理等步驟就可以得到更為光滑和精細(xì)的三維模型。多視立體視覺(jué)技術(shù)多視立體(MVS,MultipleViewStereo)視覺(jué)是雙目立體視覺(jué)的推廣,它通過(guò)多個(gè)攝像頭或者攝像頭組從不同的角度觀察同一場(chǎng)景,以獲取場(chǎng)景的多個(gè)視角圖像。視角之間的差異性提供了豐富的深度信息,使得系統(tǒng)能夠更準(zhǔn)確地理解場(chǎng)景的三維結(jié)構(gòu)和物體的位置。多視立體視覺(jué)的方法包含體素重建法、點(diǎn)云擴(kuò)散法、深度圖融合法等:體素重建法對(duì)計(jì)算機(jī)內(nèi)存設(shè)備的要求較高,如果想要表示較大的重建場(chǎng)景,則體素的數(shù)量只能增多,也即用硬件換取重建場(chǎng)景的范圍,而如果想要更精細(xì)的細(xì)節(jié),則需要更小但分辨率更高的體素,同時(shí)這也意味著更高的硬件要求。在有限的硬件資源下,如果想要表示大場(chǎng)景,只能降低體素的分辨率。點(diǎn)云擴(kuò)散法將稀疏重建中得到的稀疏點(diǎn)云投影到各個(gè)視角的圖像,并向投影點(diǎn)周?chē)鷧^(qū)域擴(kuò)散。對(duì)于某個(gè)視角,在擴(kuò)散的過(guò)程中,如果深度值與其他視角不一致或一致性較低,則視角間選出一致性最高的點(diǎn)作為新的深度值,這樣就能逐漸重建完整的點(diǎn)云模型。點(diǎn)云擴(kuò)散法優(yōu)勢(shì)是重建得到的點(diǎn)云精度較高,且在模型上的分布均勻,但是劣勢(shì)是其在對(duì)弱紋理區(qū)域的處理能力較弱,容易造成空洞。基于深度圖融合的方法:對(duì)于每張紋理圖估計(jì)對(duì)應(yīng)的深度圖,然后依次融合成點(diǎn)云。由于深度圖的計(jì)算可用GPU進(jìn)行加速,其在視角數(shù)量眾多的場(chǎng)景下具有其他方法不可比的優(yōu)勢(shì)。此外,深度圖融合的方法相比其他方法,點(diǎn)云密度高,這也將有助于網(wǎng)格生成等下游任務(wù)。目前,大部分的開(kāi)源MVS軟件以及商用MVS軟件均采用此方法。來(lái)源:/cdcseacave/openMVS圖16MVS重建效果基于深度圖融合的多視立體視覺(jué)通常經(jīng)過(guò)稀疏重建和稠密重建兩個(gè)階段。稀疏重建階段可以使用運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(SFM,StructureFromMotion)技術(shù),在未知相機(jī)姿態(tài)的情況下恢復(fù)場(chǎng)景的稀疏三維結(jié)構(gòu)。稠密重建的主要任務(wù)是從已估計(jì)的相機(jī)姿態(tài)和稀疏三維點(diǎn)云出發(fā),進(jìn)一步細(xì)化和豐富場(chǎng)景的三維結(jié)構(gòu),構(gòu)建場(chǎng)景的稠密三維模型。此外,隨著深度學(xué)習(xí)的發(fā)展,通過(guò)深度學(xué)習(xí)方法實(shí)現(xiàn)多視立體視覺(jué)也成為一種有效的手段。運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)從圖像中恢復(fù)出場(chǎng)景的三維結(jié)構(gòu)是計(jì)算機(jī)視覺(jué)的基本目標(biāo)。其中一種特別有效的三維重建方法使用靜止場(chǎng)景的眾多圖像來(lái)進(jìn)行場(chǎng)景重建,也就是基于運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)的三維重建。SFM主要分為增量式和全局式。增量式SFM采用逐步的方式處理圖像序列,一次處理一對(duì)或一小組圖像,然后逐步積累姿態(tài)信息來(lái)重建整個(gè)場(chǎng)景。全局式SFM會(huì)同時(shí)考慮所有的圖像,并在整個(gè)圖像集上進(jìn)行優(yōu)化,以最大程度地提高重建結(jié)果的準(zhǔn)確性和穩(wěn)健性。典型的增量式SFM算法通常包括以下幾個(gè)步驟:圖17典型的SFM算法流程特征點(diǎn)提取與匹配:特征點(diǎn)提取的目的是在圖像中識(shí)別具有顯著信息的點(diǎn),這些點(diǎn)在視角變化、尺度變化和光照變化等情況下能保持穩(wěn)定性。常用的特征點(diǎn)如角點(diǎn)、邊緣尺度不變特征變換(SIFT,ScaleInvariantFeatureTransform)、ORB(OrientedFastAndRotatedBrief)等局部特征點(diǎn)。特征點(diǎn)匹配的目標(biāo)是找到不同圖像中對(duì)應(yīng)的特征點(diǎn),即代表相同物理點(diǎn)的特征點(diǎn)。匹配過(guò)程中,首先計(jì)算特征點(diǎn)的描述子,然后使用距離度量(如歐氏距離、漢明距離等)來(lái)衡量它們的相似性,最后通過(guò)最近鄰搜索、暴力匹配等策略找到匹配的特征點(diǎn)。幾何驗(yàn)證:特征匹配僅是基于特征點(diǎn)的外觀描述,因此無(wú)法保證對(duì)應(yīng)的特征點(diǎn)實(shí)際上映射到相同的場(chǎng)景點(diǎn)。為此需要利用圖像間的幾何關(guān)系,來(lái)驗(yàn)證這些特征匹配的正確性。常見(jiàn)的方法有隨機(jī)采樣一致性方法(RANSAC,RandomSampleConsensus)、85初始化:選擇一對(duì)合適的圖像來(lái)初始化模型是非常關(guān)鍵的,因?yàn)楹苡锌赡軣o(wú)法從錯(cuò)誤的初始化結(jié)果中重建三維模型。此外,選擇密集、信息豐富的初始圖像對(duì)能夠提升重建的精度和魯棒性,而選擇稀疏的初始化位置可以減少計(jì)算復(fù)雜性,但重建質(zhì)量可能下降。圖像配準(zhǔn):增量式SFM重建需要在初始模型的基礎(chǔ)上逐步加入新圖像,并通過(guò)圖像配準(zhǔn)和三角測(cè)量的方式更新模型。圖像配準(zhǔn)過(guò)程從一個(gè)度量重建(MetricReconstruction)的模型開(kāi)始,通過(guò)解決PnP(Perspective-n-Point)問(wèn)題,估計(jì)新圖像的相機(jī)位姿(位置和朝向)并將新圖像配準(zhǔn)到當(dāng)前模型中。PnP過(guò)程利用特征點(diǎn)的對(duì)應(yīng)關(guān)系,將新圖像中的特征點(diǎn)與已引入模型的圖像的三角測(cè)量點(diǎn)(2D-3D)進(jìn)行匹配,得到新圖像的相機(jī)位姿以及未標(biāo)定相機(jī)的內(nèi)參。三角測(cè)量:如下圖所示,三角測(cè)量是通過(guò)從不同視角的圖像中對(duì)同一場(chǎng)景點(diǎn)進(jìn)行觀測(cè),來(lái)確定該點(diǎn)的三維空間位置。通過(guò)這個(gè)過(guò)程,可以在三維空間中定位新點(diǎn),并將其添加到現(xiàn)有模型中。三角測(cè)量是SFM的關(guān)鍵步驟,因?yàn)樗粌H可以擴(kuò)展場(chǎng)景模型,而且提供了多視角的冗余信息,從而增強(qiáng)了模型的穩(wěn)定性。圖18三角測(cè)量獲得三維點(diǎn)的深度光束法平差(BundleAdjustment):光束法平差是一種用于優(yōu)化相機(jī)位姿和三維點(diǎn)位置的技術(shù)。它通過(guò)最小化圖像中觀察到的特征點(diǎn),與根據(jù)當(dāng)前估計(jì)的相機(jī)位姿和三維點(diǎn)位置計(jì)算出的重投影位置之間的誤差來(lái)改善重建結(jié)果的準(zhǔn)確性。在這個(gè)過(guò)程中,相機(jī)的位姿和三維點(diǎn)的位置被視為優(yōu)化變量,目標(biāo)是使重投影誤差盡可能小。光束法平差通常使用迭代優(yōu)化算法來(lái)解決這個(gè)非線性優(yōu)化問(wèn)題,并且通過(guò)反復(fù)迭代,不斷更新相機(jī)位姿和三維點(diǎn)的位置,直到達(dá)到收斂條件為止。最終的優(yōu)化結(jié)果可以提高三維重建的精度和穩(wěn)健性。稠密重建SFM深度估計(jì):利用空間幾何一致性約束,即空間中一個(gè)點(diǎn)、塊在不同視角是顏色、形狀一致的,計(jì)算獲取得到每一張圖片每一個(gè)像素的估計(jì)深度。MVS的深度估計(jì)可以分為PlaneSweep與PatchMatch兩類。PlaneSweep但它通常能夠產(chǎn)生更準(zhǔn)確的匹配結(jié)果,并且具有更好的魯棒性。點(diǎn)云融合(Fusion):根據(jù)上步驟獲取的深度圖,將二維像素點(diǎn)反投影到三維重建中,并進(jìn)行重復(fù)點(diǎn)云的融合,獲得一個(gè)統(tǒng)一的稠密點(diǎn)云表示。網(wǎng)格化(Meshing)和紋理貼圖(Texturing):根據(jù)稠密點(diǎn)云,通過(guò)三角化等方法將點(diǎn)云結(jié)構(gòu)轉(zhuǎn)換成網(wǎng)格結(jié)構(gòu),并將紋理映射到網(wǎng)格模型上,最終獲得一個(gè)完整的場(chǎng)景/物體模型。圖19基于深度圖融合的多視立體匹配流程基于深度學(xué)習(xí)的多視立體視覺(jué)2018年起,多視立體視覺(jué)與深度學(xué)習(xí)結(jié)合的方法開(kāi)始涌現(xiàn)。MVSNet借鑒了傳統(tǒng)方法中PlaneSweep(MatchingCostVolume),3D(可以類比于傳統(tǒng)方法里代價(jià)聚合)2D卷積精細(xì)化深度圖細(xì)節(jié)或者去除噪聲。MVSNetCasMVSNetMVSNet3D使得深度網(wǎng)絡(luò)也可以處理高分辨率圖像;DeepPruner拋棄PlaneSweep的代價(jià)構(gòu)建方式,使用可微分的PatchMatchMVS2、MVS3基于深度學(xué)習(xí)的多視立體視覺(jué),無(wú)論是有監(jiān)督模型還是無(wú)監(jiān)督模型,與其他領(lǐng)域的深度學(xué)習(xí)模型一樣,同樣面臨著場(chǎng)景變換情況下泛化性的問(wèn)題,相比之下,傳統(tǒng)方法則不需要訓(xùn)練集,這是其最大的優(yōu)勢(shì)。無(wú)監(jiān)督的深度學(xué)習(xí)模型解決了真實(shí)標(biāo)簽難以獲取的難題,但其效果仍然與SOTA有監(jiān)督模型存在一定差距。此外,關(guān)于深度圖生成速度問(wèn)題,有監(jiān)督與無(wú)監(jiān)督模型訓(xùn)練耗時(shí)極大,而訓(xùn)練完成后模型的推理速度較高。相對(duì)而言,傳統(tǒng)方法生成深度圖的速度仍然很慢。全景立體視頻技術(shù)3602150VR際可見(jiàn)范圍會(huì)變得更小,通常在110度以下。因此,全景視頻數(shù)據(jù)中有一部分內(nèi)容無(wú)法在用戶有效視野內(nèi)顯示。當(dāng)用戶使用頭顯或其他觀看工具時(shí),全景圖像會(huì)被反映射成3D光線,根據(jù)用戶觀看的角度重新成像,以適應(yīng)頭盔的限制,并在用戶的眼睛中呈現(xiàn)出一種沉浸感。全景立體視頻技術(shù)結(jié)合了全景視頻和立體視覺(jué),可以為觀眾提供360度環(huán)繞和立體的視頻感受。構(gòu)建立體全景視頻會(huì)比平面全景視頻更加復(fù)雜,涉及到全景視頻的拼接技術(shù)以及全景立體視頻合成技術(shù)。全景視頻的拼接技術(shù)該技術(shù)是用來(lái)將多個(gè)成像設(shè)備在不同位置拍攝到的視頻內(nèi)容對(duì)齊并拼接為全景圖像的方法。常用的拼接方法包括:傳統(tǒng)的基于單映射的全景拼接技術(shù)、基于雙單應(yīng)矩陣的拼接算法、基于動(dòng)態(tài)直接線性變換法的拼接技術(shù)等。基于單應(yīng)矩陣的拼接方法:?jiǎn)螒?yīng)矩陣通常描述處于共同平面上的一些點(diǎn)在兩張圖像之間的變換關(guān)系。若所有相機(jī)采集到的視圖共面或近似共面,或者視角變化不大時(shí),則可以通過(guò)單應(yīng)來(lái)進(jìn)行相機(jī)位姿估計(jì)。這種方式適用于相機(jī)之間僅有旋轉(zhuǎn),沒(méi)有平移的情況。然而在實(shí)際拍攝過(guò)程中,多個(gè)相機(jī)的成像中心并不重合,對(duì)應(yīng)不同景深的圖像區(qū)域帶有不同的視差(Parallax),無(wú)法正確地通過(guò)單應(yīng)矩陣對(duì)齊,可能會(huì)出現(xiàn)拼縫或者失真等情況?;陔p單應(yīng)矩陣的拼接算法:該技術(shù)使用兩個(gè)單應(yīng)矩陣分別擬合近景平面和遠(yuǎn)景平面,并且對(duì)這兩個(gè)單應(yīng)矩陣進(jìn)行融合,從而更好地對(duì)齊圖像。基于動(dòng)態(tài)直接線性變換法的拼接技術(shù):當(dāng)場(chǎng)景為平面的或者相機(jī)位姿為純旋轉(zhuǎn),單應(yīng)矩陣的拼接模型是合理的,然而實(shí)際情況中該前提很難滿足,因而會(huì)產(chǎn)生偽影(GhostingArtifact)。基于動(dòng)態(tài)直接線性變化法的拼接技術(shù)(APAP,As-Projective–As-PossibleWithMovingDLT)不再采用全局投影,而是允許局部存在相對(duì)于全局投影的偏差。APAP基于動(dòng)態(tài)直接線性變換法(MovingDirectLinearTransformation,MovingDLT)可以無(wú)縫地橋接與投影模型不一致的圖像區(qū)域。該算法產(chǎn)生了高度準(zhǔn)確的圖像拼接結(jié)果,顯著少了偽影現(xiàn)象,大大降低了算法對(duì)后處理階段去偽影的依賴性。全景立體視頻合成技術(shù)上述方式拼接出來(lái)的全景視頻只能給雙眼提供相同的內(nèi)容,缺乏3D深度感。為了提供六自由度的內(nèi)容,需要從有限的真實(shí)視圖合成虛擬視圖。這可以使用稠密的光流算法實(shí)現(xiàn),待合成的連續(xù)虛擬視點(diǎn)不是某個(gè)空間視點(diǎn)位置對(duì)應(yīng)的完整圖像,而是分別針對(duì)左右眼視點(diǎn)且滿足ODS模型的像素列,這里模擬了用戶雙眼觀看現(xiàn)實(shí)世界的過(guò)程。圖21全景立體視頻內(nèi)容合成典型的全景立體視頻合成算法,首先從相鄰相機(jī)鏡頭之間提取重疊區(qū)域。然后逐像素計(jì)算左右重疊區(qū)域之間的雙向稠密光流信息,這里可以使用傳統(tǒng)方法如Lucas-Kanada方法、LK金字塔光流算法等,也可以使用深度學(xué)習(xí)的方法獲得光流如RAFT、GMA等。最后,根據(jù)光流信息及ODS模型合成左右眼的虛擬像素列。三維沉浸視頻內(nèi)容編碼涉及將三維場(chǎng)景的內(nèi)容編碼成數(shù)字?jǐn)?shù)據(jù),以便在沉浸式視頻系統(tǒng)中傳輸、存儲(chǔ)和呈現(xiàn)。三維視頻和二維視頻很大的不同在于其表示格式、編碼技術(shù)和三維顯示技術(shù)之間是相互關(guān)聯(lián)的,不同的三維顯示需要使用不同編碼方案,如傳統(tǒng)的平面視頻編碼、雙目立體視頻編碼、多視點(diǎn)編碼、全景立體視頻編碼、體積視頻編碼等。傳統(tǒng)平面視頻編碼技術(shù)視頻編碼是指用于將數(shù)字視頻壓縮以便于存儲(chǔ)和傳輸?shù)囊幌盗幸?guī)范和算法。視頻編碼標(biāo)準(zhǔn)只規(guī)定了碼流的語(yǔ)法語(yǔ)義和解碼器,只要碼流符合相應(yīng)的標(biāo)準(zhǔn)語(yǔ)法,解碼器就可以正常解碼。如下圖所示,從1980年代40(ITU-T)和國(guó)際標(biāo)準(zhǔn)化組織(ISO)/國(guó)際電工委員會(huì)(IEC)制定的H.26x標(biāo)準(zhǔn),由開(kāi)放媒體聯(lián)盟AOM制定的AVx)制定的AVS圖22主要編解碼標(biāo)準(zhǔn)發(fā)展歷史主流視頻編碼標(biāo)準(zhǔn)通常采用基于塊的混合編碼框架,以實(shí)現(xiàn)高效的視頻壓縮。如下圖所示為AVS3當(dāng)前,支持多視點(diǎn)立體視頻編解碼標(biāo)準(zhǔn)的設(shè)備及應(yīng)用仍然較少,傳統(tǒng)的平面視頻編碼標(biāo)準(zhǔn)在三維沉浸視頻中依然發(fā)揮著重要的作用。圖23AVS3編碼框架雙目立體視頻編碼技術(shù)雙目立體視頻通常以兩種方式進(jìn)行表示。一種方式是將左右兩個(gè)視點(diǎn)分別作為兩個(gè)視頻序列進(jìn)行編碼和傳輸,兩路視頻可以選擇任意平面視頻的編碼標(biāo)準(zhǔn)如AVC、HEVC、AVS32D2D另一種方式如下圖所示,將左右兩個(gè)視點(diǎn)拼接成一個(gè)視頻序列進(jìn)行存儲(chǔ)或傳輸,雙目圖像可以按照左右或者上下的格式進(jìn)行排列。使用這種方式的立體視頻可以通過(guò)專門(mén)的立體攝像機(jī)采集,也可以在兩個(gè)攝像機(jī)分別采集后再進(jìn)行拼接處理。其優(yōu)點(diǎn)是可以直接使用現(xiàn)有的信道進(jìn)行傳輸,也可以使用通用的平面視頻解碼器進(jìn)行解碼。現(xiàn)有的立體視頻服務(wù)多采用上述兩種方式對(duì)雙目立體視頻進(jìn)行編碼和解碼。圖24左右視點(diǎn)拼接事實(shí)上,立體視頻的兩幅圖像通常具有比較強(qiáng)的視點(diǎn)相關(guān)性,存在著大量的空間冗余。對(duì)這種立體視頻格式進(jìn)行編碼時(shí),可以采取視點(diǎn)間預(yù)測(cè)方式。一種簡(jiǎn)單的實(shí)現(xiàn)方式是使用普通的平面視頻編碼器對(duì)基準(zhǔn)視點(diǎn)的圖像進(jìn)行壓縮,然后利用已經(jīng)編碼的基準(zhǔn)視點(diǎn)圖像來(lái)預(yù)測(cè)和編碼另一視點(diǎn)的圖像。這種預(yù)測(cè)編碼的過(guò)程類似于利用運(yùn)動(dòng)矢量和殘差圖像進(jìn)行運(yùn)動(dòng)補(bǔ)償預(yù)測(cè),從而實(shí)現(xiàn)對(duì)另一視點(diǎn)圖像的高效壓縮,減少存儲(chǔ)空間和傳輸帶寬的需求,同時(shí)保持較好的視頻質(zhì)量。多視點(diǎn)視頻編碼技術(shù)隨著裸眼3D立體顯示器、自由視角電視等設(shè)備不斷進(jìn)步,并進(jìn)入家庭消費(fèi)場(chǎng)景,多視點(diǎn)編碼成為研究熱點(diǎn)。與普通立體顯示設(shè)備不同,多視點(diǎn)顯示設(shè)備需要同時(shí)傳輸多個(gè)視點(diǎn)的畫(huà)面來(lái)提供多角度、立體的觀看體驗(yàn),因而傳統(tǒng)的平面視頻編碼方式所需要的編碼碼率與視圖的數(shù)量近乎等比例增長(zhǎng)。一種比較好的替代方案是以多視點(diǎn)加深度圖的方式來(lái)傳輸3D視頻。在這個(gè)格式中,只需對(duì)少數(shù)幾個(gè)視圖進(jìn)行編碼,但每個(gè)視圖都有對(duì)應(yīng)的深度圖,通過(guò)這些深度數(shù)據(jù)可以還原出所采集場(chǎng)景的基本幾何結(jié)構(gòu)?;趥鬏?shù)囊曨l圖像和深度圖,可以使用基于深度圖像的虛擬視點(diǎn)合成(DIBR,DepthImageBasedRendering)技術(shù)在接收端生成任意視角的3D視圖。為滿足上述需求并充分利用現(xiàn)有的平面視頻編碼標(biāo)準(zhǔn)提供最先進(jìn)的壓縮能力,動(dòng)態(tài)圖像專家組(MPEG)成立了一些專門(mén)的小組(如JCT-3V)并開(kāi)發(fā)了一系列現(xiàn)有編碼標(biāo)準(zhǔn)的多視點(diǎn)擴(kuò)展如MVC+D、MV-HEVC、3D-HEVC、MIV等,以下做簡(jiǎn)單介紹。MVC+D和MV-HEVC的設(shè)計(jì)原則是繼續(xù)使用基礎(chǔ)平面視頻編碼標(biāo)準(zhǔn)AVC和HEVC。因此只需要更改現(xiàn)有標(biāo)準(zhǔn)的切片頭(Slice)或者更高級(jí)的語(yǔ)法元素就可以實(shí)現(xiàn)。MV-HEVC還采用了層(Layer)間處理的方式,其高級(jí)語(yǔ)法允許各層之間通過(guò)參考圖像列表進(jìn)行關(guān)聯(lián),允許預(yù)測(cè)層的圖像使用參考層的圖像進(jìn)行預(yù)測(cè)編碼。此外,通過(guò)輔助圖片層(AuxiliaryPictureLayers)機(jī)制來(lái)支持深度視圖,而有關(guān)深度輔助層的更詳細(xì)屬性,可以通過(guò)SEI消息提供。3D-HEVC通過(guò)引入新的塊級(jí)編碼工具進(jìn)一步降低了碼率,這些工具有效地利用了視頻紋理與深度之間的統(tǒng)計(jì)依賴,并專門(mén)適應(yīng)了深度圖的特性。由于深度圖通常包含由銳利邊緣分隔的均勻區(qū)域,因此采用了新的幀內(nèi)預(yù)測(cè)和殘差編碼方法,來(lái)處理這些特殊的信號(hào)特征。此外,還指定了新的深度圖編碼工具,允許進(jìn)行視點(diǎn)間運(yùn)動(dòng)預(yù)測(cè),或從紋理層預(yù)測(cè)運(yùn)動(dòng)和分塊信息。新引入的預(yù)測(cè)技術(shù)通過(guò)使用子塊分區(qū)來(lái)提升預(yù)測(cè)精度。在某些情況下,這些子塊分區(qū)可以將一個(gè)預(yù)測(cè)塊細(xì)分為具有非矩形形狀的兩個(gè)部分,從而進(jìn)一步優(yōu)化編碼效果。在需要視頻紋理與深度的應(yīng)用場(chǎng)景中,3D-HEVC提供了更大的優(yōu)勢(shì)。MIV(MPEGImmersiveVideo)是為了支持沉浸式視頻內(nèi)容的壓縮而開(kāi)發(fā)的,該標(biāo)準(zhǔn)使得沉浸式視頻內(nèi)容可以通過(guò)現(xiàn)有或未來(lái)的網(wǎng)絡(luò)進(jìn)行存儲(chǔ)和分發(fā),并支持6DoF視點(diǎn)播放。MIV是一個(gè)靈活的標(biāo)準(zhǔn),支持帶有深度圖的多視點(diǎn)視頻(MVD,MultiviewVideoWithDepth)和多平面視頻,并利用強(qiáng)大的硬件支持來(lái)對(duì)體積視頻進(jìn)行編碼。所有配置文件都有符合性比特流,MIV主配置文件用于MVD,MIV擴(kuò)展配置文件支持MPI,此外還有適用于云端和解碼器端深度估計(jì)的MIVGeometryAbsentProfile文件。除了符合性測(cè)試外,MIV的驗(yàn)證測(cè)試也已完成。MIV的編碼和解碼過(guò)程。在編碼器階段,包含紋理及深度組件的多個(gè)源視圖以及相機(jī)參數(shù)MIV—TMIV余進(jìn)行修剪。然后,所有視圖以補(bǔ)?。≒atch)HEVC編碼器對(duì)視圖集進(jìn)行編碼,子碼流與包含patchV3C格式的碼流。在解碼器端,碼流被解復(fù)MIV標(biāo)準(zhǔn)使用高效視頻編碼(HEVC,HighEfficiencyVideoCoding)技術(shù),由于V3C(VVC,VersatileVideoCoding)、AVS3MIV圖25MIV編碼流程全景立體視頻編碼360常見(jiàn)的全景視頻投影方式包括等距矩形投影、多面體投影、非均勻投影等。等距矩形投影(ERP,EquirectangularProjection):是一種簡(jiǎn)單的地圖投影方法,在這種投影方法中,將球面上的經(jīng)線和緯線圈分別投影為二維矩形平面上等間隔的垂直直線和水平直線。ERP圖26等距圓柱投影多面體投影:多面體投影使用球心透視方位投影的方法將球面投影到外切的多面體上,然后再將多面體展開(kāi)成二維平面。多面體投影包括正四面體投影、立方體投影、正八面體投影、正十二面體投影和正二十面3D圖27多面體投影方式非均勻投影方式:全景視頻均勻投影技術(shù)適用于各種場(chǎng)景的全景視頻應(yīng)用中,但是其編碼效率較低。為了取得更高的編碼效率,可以采用非均勻投影技術(shù)。非均勻投影技術(shù)將球面分為主視點(diǎn)區(qū)域和非主視點(diǎn)區(qū)域,投影時(shí)對(duì)主視點(diǎn)區(qū)域使用較高的采樣密度以保證主觀質(zhì)量,而對(duì)非主視點(diǎn)區(qū)域采用較低的采樣密度以節(jié)省碼率。非均勻投影主要適用于一對(duì)多的基于全景視頻流切換的應(yīng)用中。在基于全景視頻流切換的應(yīng)用中,服務(wù)器端編碼多路不同主視點(diǎn)的非均勻投影的視頻,服務(wù)器和客戶端之間根據(jù)用戶頭部視點(diǎn)實(shí)時(shí)選擇最近的一路流進(jìn)行傳輸。2)全景立體視頻編碼技術(shù)全景立體視頻編碼技術(shù)是針對(duì)全景立體視頻的特殊需求而設(shè)計(jì)的一種編碼方案。與普通全景視頻相比,全景立體視頻需要在左右眼分別渲染有視差的全景圖像。與雙目立體視頻類似,全景立體視頻也涉及左右眼的視差處理,但是全景立體視頻的視圖是以球面形式呈現(xiàn)的,因此需要先將球面圖像分別投影成兩個(gè)平面視圖,然后再進(jìn)行編碼。全景立體視頻的左右眼圖像可以使用傳統(tǒng)的平面視頻編碼方式分別編碼,也可以采用上文提到的雙目立體視頻編碼方式或者多視點(diǎn)編碼的方式。傳統(tǒng)的平面視頻編碼方式將左右眼圖像分別處理,然后采用常規(guī)的視頻編碼算法(如HEVC、VVC等)對(duì)其進(jìn)行編碼和壓縮,最終生成左右眼各自的視頻流。而雙目立體視頻編碼方式則將左右眼圖像作為一對(duì)立體圖像進(jìn)行處理,通過(guò)特定的立體視頻編碼算法對(duì)其進(jìn)行聯(lián)合編碼,以充分利用左右眼之間的相關(guān)性和視差信息,從而實(shí)現(xiàn)更高效的壓縮和傳輸。此外,將左右眼視頻按照左右或者上下排布直接拼接在一起,然后使用平面視頻編碼標(biāo)準(zhǔn)進(jìn)行編碼,也是一種目前廣泛支持的編碼方式。選擇哪種編碼方式取決于具體的應(yīng)用場(chǎng)景、編碼效率、解碼和渲染終端等因素。體積視頻編碼體積視頻通常由一系列包含深度信息的幀組成,常見(jiàn)的表示形式包括點(diǎn)云、三維網(wǎng)格等。點(diǎn)云:是三維沉浸視頻領(lǐng)域廣泛使用的數(shù)據(jù)格式之一,但其原始數(shù)據(jù)通常過(guò)于龐大,難以高效存儲(chǔ)和傳輸。此外,更高分辨率的點(diǎn)云采集技術(shù)對(duì)點(diǎn)云數(shù)據(jù)量的大小提出了更高的要求。為了使點(diǎn)云數(shù)據(jù)可用,壓縮是必要。為此,MPEG-IG-PCC(Geometry-basedPointCloudCompression)標(biāo)準(zhǔn)和基于視頻的點(diǎn)云壓縮V-PCC(Video-basedPointCloudCompression)標(biāo)準(zhǔn),可以顯著減少點(diǎn)云的數(shù)據(jù)量,推動(dòng)點(diǎn)云格式在各個(gè)領(lǐng)域的廣泛應(yīng)用。V-PCC(3D)點(diǎn)云投影到二維(2D)圖2D(如AVS、HEVC)編碼這些2D隨著深度學(xué)習(xí)技術(shù)在圖像視頻壓縮等方面的應(yīng)用進(jìn)展,基于深度學(xué)習(xí)的點(diǎn)云壓縮迎來(lái)一系列發(fā)展?;诎瞬鏄?shù)的點(diǎn)云編碼方法迭代地把包含點(diǎn)云的最小立方體劃分為八個(gè)子正方體,然后用一個(gè)字節(jié)編碼八個(gè)子正方體是否包含“點(diǎn)”這一信息,最后使用基于上下文的算術(shù)編碼進(jìn)一步去除相關(guān)性?;诖耍恍┓桨咐蒙窠?jīng)網(wǎng)絡(luò)來(lái)估計(jì)八叉樹(shù)節(jié)點(diǎn)的熵模型,并且運(yùn)用到動(dòng)態(tài)場(chǎng)景中。還有一些方案結(jié)合八叉樹(shù)架構(gòu)與體素結(jié)構(gòu)的各自優(yōu)勢(shì),提出利用相鄰節(jié)點(diǎn)的體素化的信息來(lái)增強(qiáng)對(duì)時(shí)空信息的利用,進(jìn)一步提升點(diǎn)云的壓縮效率。也有一些方案利用基于深度神經(jīng)網(wǎng)絡(luò)的變分自編碼器來(lái)高效地壓縮點(diǎn)云幾何信息。動(dòng)態(tài)網(wǎng)格:相較于保持固定連接性的跟蹤網(wǎng)格序列,具有時(shí)變連接性的動(dòng)態(tài)網(wǎng)格雖然能夠提供更好的生成質(zhì)量和更簡(jiǎn)化的生成過(guò)程,但也代表了龐大的數(shù)據(jù)量和復(fù)雜的壓縮需求。為此,MPEG發(fā)布了新的動(dòng)態(tài)網(wǎng)格標(biāo)準(zhǔn),稱為基于視頻的動(dòng)態(tài)網(wǎng)格編碼(V-DMC,Video-basedDynamicMeshCoding)。這一技術(shù)使用低分辨率網(wǎng)格序列(稱為基網(wǎng)格)及其附加信息,如位移信息和紋理圖,以重建高分辨率的輸入網(wǎng)格序列?;W(wǎng)格可以使用任意網(wǎng)格編碼器進(jìn)行編碼,而根據(jù)體積視頻編碼(V3C)格式的標(biāo)準(zhǔn),可以使用任意視頻編碼器對(duì)附加信息進(jìn)行編碼。多視點(diǎn)視頻雙視點(diǎn)、多視點(diǎn)雙目立體視頻,利用左右眼視差帶來(lái)視覺(jué)上的立體感??梢允莾蓚€(gè)或多個(gè)帶有視差的多路視頻,也可包含深度信息。由于每個(gè)視點(diǎn)都有自己的視頻流,多視點(diǎn)視頻數(shù)據(jù)總量非常龐大,這對(duì)網(wǎng)絡(luò)帶寬、存儲(chǔ)和處理能力都提出了高要求。為此可以根據(jù)用戶當(dāng)前的視點(diǎn)和潛在的移動(dòng)方向,只傳輸相關(guān)視點(diǎn)的視頻流,減少不必要的數(shù)據(jù)傳輸。經(jīng)測(cè)試,Iphone15Pro1080p@30fps15Mbps。FOV視頻4KVR540P,8K120fps150Mbps視場(chǎng)角(FOV,F(xiàn)ieldOfView)視頻技術(shù)將根據(jù)視角對(duì)VR360°視頻進(jìn)行分段。用戶無(wú)需從全視角360°2KXRP95150ms95150ms。圖28全景視頻流切換體積視頻體積視頻本質(zhì)是三維模型序列,可以由三維模型的Mesh202293D資源分享社區(qū)Sketchfab11表1體積視頻典型參數(shù)體驗(yàn)分檔幀率紋理分辨率紋理幀序列碼率Mesh面數(shù)Mesh幀序列碼率入門(mén)30FPS2048Px2048P10Mbps(H.265)10萬(wàn)面70Mbps良好30FPS4096Px4096P25Mbps(H.265)50萬(wàn)面125Mbps優(yōu)秀60FPS8192Px8292P60Mbps(H.265)100萬(wàn)面260Mbps三維沉浸視頻傳輸網(wǎng)絡(luò)要求

來(lái)源:WirelessXLabs經(jīng)測(cè)試驗(yàn)證,當(dāng)網(wǎng)絡(luò)帶寬達(dá)到視頻碼率的1.5倍時(shí)能夠滿足流暢播放需求,達(dá)到5倍時(shí)可滿足“秒開(kāi)”體驗(yàn)需求。視角切換時(shí)延需求是100ms@95%,其中服務(wù)器時(shí)延30ms,網(wǎng)絡(luò)時(shí)延100ms,客戶端時(shí)延20ms。表2三維沉浸視頻網(wǎng)絡(luò)傳輸要求視頻類型分辨率典型碼率流暢播放網(wǎng)絡(luò)要求“秒開(kāi)”網(wǎng)絡(luò)要求雙目立體視頻(雙視點(diǎn))1080p15Mbps23Mbps75Mbps2K20Mbps30Mbps100Mbps4K80Mbps120Mbps400MbpsFOV視頻4K15Mbps23Mbps@幀時(shí)延P95100ms75Mbps@幀時(shí)延P95100ms8K30Mbps45Mbps@幀時(shí)延P95100ms150Mbps@幀時(shí)延P95100ms體積視頻2K80Mbps120Mbps400Mbps4K150Mbps250Mbps750Mbps

來(lái)源:WirelessXLabs3D、自由視點(diǎn)技術(shù)可以提供多個(gè)視點(diǎn),因而觀看者可以在任意允許的視點(diǎn)范圍內(nèi)觀看,但視點(diǎn)越多,所需同時(shí)傳輸?shù)臄?shù)據(jù)量就越大,這對(duì)于帶寬和存儲(chǔ)都帶來(lái)了巨大的壓力。此外,視點(diǎn)越多,拍攝成本相應(yīng)就越高,因此需要使用虛擬視點(diǎn)合成術(shù)。如下圖所示,虛擬視點(diǎn)合成技術(shù)是一種利用已有視角的圖像或視頻信息,通過(guò)計(jì)算機(jī)圖形學(xué)方法,在場(chǎng)景中生成新的視角的技術(shù)。該技術(shù)通常通過(guò)分析場(chǎng)景的幾何和光學(xué)屬性,結(jié)合視角之間的關(guān)系,使用插值、合成和空洞填補(bǔ)等算法,生成具有逼真效果的新視角,使用戶能夠以不同的角度和位置觀察場(chǎng)景,從而提升觀看體驗(yàn)和增強(qiáng)沉浸感。按合成原理,渲染虛擬視點(diǎn)的方法可以分為基于模型的方法,即MBR(ModelBasedRendering)方法,以及基于圖像的渲染,即IBR(ImageBasedRendering)方法。三維沉浸視頻的交互是指在渲染三維沉浸視頻時(shí),用戶可以與視頻內(nèi)容進(jìn)行互動(dòng)的過(guò)程。這種交互可以包括改變觀看角度、調(diào)整視角位置、縮放或移動(dòng)場(chǎng)景等操作。通過(guò)交互,用戶能夠更加自由地探索視頻內(nèi)容,增強(qiáng)沉浸感和參與感。這需要使用先進(jìn)的渲染技術(shù)和交互設(shè)計(jì),以確保用戶體驗(yàn)流暢、直觀和令人滿意。圖29虛擬視點(diǎn)合成基于模型的渲染技術(shù)基于模型的渲染是通過(guò)使用三維場(chǎng)景模型(包括幾何形狀、材質(zhì)屬性、紋理等)來(lái)生成圖像的過(guò)程。它涉及將三維場(chǎng)景投影到二維視圖平面上,計(jì)算每個(gè)像素的顏色值,并考慮光照、陰影、反射等視覺(jué)效果,以創(chuàng)建符合真實(shí)或虛擬環(huán)境的圖像?;谀P偷匿秩疽蕾囉陬A(yù)先創(chuàng)建的三維模型,這些模型可以通過(guò)不同的方式獲取,如高精度掃描儀、多視立體幾何等。雖然MBRMBR基于深度圖像的渲染IBR技術(shù)通常無(wú)需建模,通過(guò)二維圖像及相應(yīng)的幾何信息即可渲染虛擬視點(diǎn)。通常來(lái)說(shuō),場(chǎng)景的圖像信息容易獲取且合成速度較快,但由于圖像只包含二維信息,缺乏空間幾何信息,導(dǎo)致合成的虛擬視點(diǎn)質(zhì)量不理想。而使用基于深度圖的合成技術(shù)(DIBR,DepthImageBasedRendering)則可以平衡合成質(zhì)量與速度。DIBR技術(shù)利用輸入數(shù)據(jù)中提供的深度信息,結(jié)合參考視點(diǎn)和虛擬視點(diǎn)不同的相機(jī)位姿,生成虛擬視點(diǎn)所能看到的圖像。相較于傳統(tǒng)的IBRDIBR圖像生成對(duì)應(yīng)的深度圖,即可完成虛擬視點(diǎn)圖像的繪制。因此,DIBR外,DIBR用中更為可行和有效?;谏疃葓D的虛擬視點(diǎn)合成首先將原圖中的點(diǎn)反投影至真實(shí)世界中的3D坐標(biāo),接著,將3D點(diǎn)重投影到用戶指定視角的成像平面上。在DIBR系統(tǒng)中,所有三維點(diǎn)的坐標(biāo)、相機(jī)內(nèi)外參數(shù)都需要作為元數(shù)據(jù)傳遞到接收端。多視點(diǎn)采集系統(tǒng)與虛擬視點(diǎn)合成系統(tǒng)都在相同的三維世界坐標(biāo)系下,以便采集系統(tǒng)的真實(shí)攝像機(jī)和虛擬攝像機(jī)之間的相對(duì)關(guān)系能很好地定義?;谝陨蠋缀侮P(guān)系,合成步驟如下圖所示:圖30DIBR合成虛擬視圖的流程深度圖在獲取時(shí)常常會(huì)出現(xiàn)噪聲以及深度與紋理不對(duì)齊等問(wèn)題的影響,導(dǎo)致合成的虛擬視點(diǎn)出現(xiàn)前后景紋理錯(cuò)誤等情況。為了減輕這些問(wèn)題帶來(lái)的影響,在進(jìn)行圖像變換之前通常需要對(duì)深度圖進(jìn)行預(yù)處理,例如使用中值濾波或高斯濾波等方法,以平滑深度圖像的過(guò)渡,避免產(chǎn)生突兀的效果。接著,通過(guò)三維圖形變換(3DWarp)的過(guò)程,利用圖像紋理、深度信息以及相機(jī)內(nèi)外參數(shù),建立起參考視點(diǎn)和虛擬視點(diǎn)像素之間的聯(lián)系,從而合成虛擬視點(diǎn)。在此過(guò)程中,需要確保虛擬視點(diǎn)能夠準(zhǔn)確地反映場(chǎng)景中的幾何和紋理信息,以實(shí)現(xiàn)真實(shí)的合成效果。得到多張?zhí)摂M視點(diǎn)圖像后,通常需要進(jìn)行圖像融合的步驟,以生成最終的虛擬視點(diǎn)圖像。這一過(guò)程可以通過(guò)將同一位置的像素點(diǎn)根據(jù)其距離進(jìn)行加權(quán)融合來(lái)實(shí)現(xiàn)。最后,由于虛擬視點(diǎn)的部分區(qū)域可能無(wú)法從任意視點(diǎn)獲得,因此需要對(duì)虛擬視點(diǎn)圖像進(jìn)行空洞填補(bǔ),以完善合成的虛擬視點(diǎn)。在經(jīng)典的DIBR框架中,一種簡(jiǎn)單且快速的空洞填充方法是使用均值濾波,這種方式在速度上比較有優(yōu)勢(shì)。雖然DIBR技術(shù)具有傳輸簡(jiǎn)便、節(jié)省帶寬和合成速度快的優(yōu)點(diǎn),但合成虛擬視點(diǎn)的圖像質(zhì)量仍然是一個(gè)挑戰(zhàn),常見(jiàn)的問(wèn)題包括空洞、偽影、邊緣模糊和時(shí)域不穩(wěn)定等現(xiàn)象?;趫D像域形變的虛擬視點(diǎn)合成基于圖像域形變的虛擬視點(diǎn)合成是另一重要的視點(diǎn)合成方法。對(duì)比依賴稠密深度圖或者視差圖的DIBR技術(shù),圖像域形變(IDW,Image-DomainWarping)通過(guò)稀疏的視差關(guān)系即可合成新的視點(diǎn)。人眼并不能精確地估計(jì)絕對(duì)深度,對(duì)于看似合理的圖像,人眼對(duì)圖像失真并不十分敏感,因此可以將圖像失真隱藏在非顯著區(qū)域。受到這一點(diǎn)的啟發(fā),IDW的IDW圖31雙視點(diǎn)合成多視點(diǎn)步驟首先進(jìn)行數(shù)據(jù)提取,獲取輸入圖像的稀疏視差特征以及圖像顯著性特征。稀疏視差就是同一極線上匹配的像素點(diǎn)的橫坐標(biāo)之差,常用的方法有特征點(diǎn)匹配、光流追蹤等,顯著性特征則可以在后續(xù)步驟中減少合成誤差。完成數(shù)據(jù)提取后,如下圖所示,可以將輸入圖像形式化為一個(gè)個(gè)規(guī)則的網(wǎng)格,然后定義一個(gè)非線性能量函數(shù)對(duì)網(wǎng)格進(jìn)行畸變后得到新的圖像,從而獲取計(jì)算中間視點(diǎn)所必須的Warping。接著進(jìn)行形變插值,一般選取兩個(gè)最近的相機(jī)作為參考,并將其Warping到中央相機(jī),而其他位置的虛擬視圖則可以通過(guò)左右真實(shí)相機(jī)以及中央的虛擬視圖插值而得到,這樣做主要是為了減少計(jì)算量。最后進(jìn)行圖像域形變,虛擬視點(diǎn)由較近的輸入圖像合成。由于Warping拉伸隱性地對(duì)閉塞區(qū)域進(jìn)行了紋理修復(fù)。然而,僅僅使用一張圖合成虛擬視點(diǎn)會(huì)造成邊緣區(qū)域空洞,因此該區(qū)域再使用另一張圖作為參考以補(bǔ)償邊緣空洞。這種方法依賴于稀疏視差和圖像顯著性信息,約束合成的虛擬視圖強(qiáng)行滿足目標(biāo)的視差估計(jì),在沒(méi)有深度圖的情況下依然具有相對(duì)高質(zhì)量的合成結(jié)果。圖32Wraping示例圖三維沉浸視頻交互三維沉浸視頻交互是指用戶通過(guò)直觀的交互方式,沉浸在三維虛擬環(huán)境中并與其中的內(nèi)容進(jìn)行互動(dòng)。用戶由被動(dòng)觀看變?yōu)橹鲃?dòng)欣賞,可以在三維空間中自由探索,從而獲得身臨其境的互動(dòng)體驗(yàn)。典型的交互方式包括:頭部追蹤及人眼追蹤:在頭戴式顯示器或增強(qiáng)現(xiàn)實(shí)眼鏡中,用戶可以通過(guò)轉(zhuǎn)動(dòng)頭部自由改變視角,從3D顯示技術(shù)中,通過(guò)人眼追蹤技術(shù),系統(tǒng)可以實(shí)時(shí)檢測(cè)用戶3D觸摸屏操作:用戶通過(guò)觸摸屏幕或觸摸板等設(shè)備直接與系統(tǒng)進(jìn)行交互。例如,在裸眼3D設(shè)備上,用戶可以通過(guò)滑動(dòng)屏幕來(lái)切換視角,或者通過(guò)多指操作來(lái)放大、縮小、旋轉(zhuǎn)、進(jìn)入或退出場(chǎng)景。觸摸交互的直觀性和便捷性使其成為三維沉浸視頻中常見(jiàn)的交互方式。體感和手勢(shì)交互:體感設(shè)備可以捕捉用戶的身體動(dòng)作,實(shí)現(xiàn)與沉浸視頻內(nèi)容的交互,如微軟的kinect可以通過(guò)深度攝像頭和紅外傳感器捕捉用戶的全身動(dòng)作。手勢(shì)識(shí)別技術(shù)的進(jìn)步使得手勢(shì)操作更加豐富和精確,如AppleVisionPro定義了互點(diǎn)手指、捏合并拖移、輕觸等多種手勢(shì),使得交互過(guò)程更加自然和直觀??刂破鹘换ィ菏翘摂M現(xiàn)實(shí)體驗(yàn)中常見(jiàn)交互方式。虛擬現(xiàn)實(shí)控制器,如SKYWORTHPancake1C6DoF手柄和HTCViveControllers等,通過(guò)內(nèi)置傳感器和觸控面板實(shí)現(xiàn)精確的運(yùn)動(dòng)跟蹤和便利的操作。這些控制器不僅提供高精度的空間定位,還可以支持振動(dòng)反饋和力反饋,使得VR體驗(yàn)更加豐富和身臨其境。語(yǔ)音交互:隨著大語(yǔ)言模型如ChatGPT、文心一言等的廣泛應(yīng)用,以及語(yǔ)音識(shí)別技術(shù)的發(fā)展,語(yǔ)音交互技術(shù)賦予了虛擬環(huán)境更高的智能化和便利性。例如,用戶可以通過(guò)語(yǔ)音命令輕松實(shí)現(xiàn)視角切換、播放控制、場(chǎng)景變換等操作。這種交互方式在無(wú)需手動(dòng)操作的情況下提供了極大的便利,尤其是在需要專注于其他任務(wù)或復(fù)雜操作的場(chǎng)景中,語(yǔ)音交互成為一種高效的交互手段。三維沉浸視頻的終端設(shè)備包括支持高分辨率和高幀率的顯示設(shè)備、3D眼鏡與VR頭戴顯示器、裸眼3D設(shè)備等。立體顯示設(shè)備的種類繁多,基本原理都是相似的,通過(guò)為兩只眼睛呈現(xiàn)不同的圖像,以實(shí)現(xiàn)三維立體的效果,下面依次介紹幾類三維沉浸終端顯示設(shè)備。平面視頻顯示器平面視頻顯示器是一種用于顯示2D視頻內(nèi)容的設(shè)備,通常采用陰極射線管(CRT,CathodeRayTube)、液晶顯示(LCD,Liquid-CrystalDisplay)、發(fā)光二極管(LED,Light-EmittingDiode)、有機(jī)發(fā)光二極管(OLED,OrganicLight-EmittingDiode)或其他類似技術(shù)。這些顯示器廣泛用于各種場(chǎng)景,包括電視、電腦顯示器、移動(dòng)設(shè)備、商場(chǎng)大屏等。平面視頻顯示器具有一些顯著的優(yōu)勢(shì),例如高分辨率、良好的色彩表現(xiàn)。它們能夠以高質(zhì)量和高清晰度顯示視頻內(nèi)容,使用戶能夠享受到更加逼真和清晰的視覺(jué)體驗(yàn)。此外,平面視頻顯示器通常具有較低的功耗,使其在節(jié)能環(huán)保方面具有優(yōu)勢(shì),同時(shí)也更加輕薄便攜,適用于各種場(chǎng)所和應(yīng)用場(chǎng)景。近年來(lái),平面顯示器的發(fā)展體現(xiàn)出以下趨勢(shì):更高的分辨率和更高的像素密度:隨著技術(shù)的進(jìn)步,平面顯示器的分辨率和像素密度不斷提高,從1080p到4K再到8K甚至12K,以實(shí)現(xiàn)更清晰、更逼真的圖像顯示。高分辨率和高像素密度的顯示器可以呈現(xiàn)更多的細(xì)節(jié)和更精細(xì)的圖像,提升用戶的視覺(jué)體驗(yàn)。10bit色深、高動(dòng)態(tài)范圍、寬色域:隨著顯示技術(shù)的發(fā)展,平面顯示器對(duì)色彩的還原能力也在不斷提升。10bit更薄更輕的設(shè)計(jì):隨著人們對(duì)便攜性和美觀性的需求不斷增加,平面顯示器的設(shè)計(jì)趨向更薄更輕。柔性屏和折疊屏的廣泛使用使得屏幕變大的同時(shí),體積和重量減少,便于收納和攜帶。更高的刷新率和更快的響應(yīng)時(shí)間:對(duì)于游戲和多媒體應(yīng)用來(lái)說(shuō),高刷新率和快速的響應(yīng)時(shí)間是至關(guān)重60Hz120Hz144Hz240Hz,以滿足用戶對(duì)于流暢游戲和視頻播放的需求。然而,與其他類型的顯示技術(shù)相比,平面視頻顯示器也存在一些局限性,例如有限的觀看角度,缺乏立體感等。3D眼鏡式3D顯示的主要實(shí)現(xiàn)方法有三種,色分式、偏光式和時(shí)分式。色分式3D眼鏡又稱為紅藍(lán)眼鏡,左右眼分別看到的圖像使用不同的顏色濾光片進(jìn)行過(guò)濾,通常一個(gè)眼鏡片是紅色,另一個(gè)是藍(lán)色。在觀看時(shí),一只眼睛只會(huì)接收到紅色光,另一只眼睛只會(huì)接收到藍(lán)色光,從而實(shí)現(xiàn)立體效果。然而,這種技術(shù)會(huì)導(dǎo)致顏色失真,并且觀看時(shí)可能出現(xiàn)視覺(jué)疲勞,因而適用范圍較小。3D3D3D影像時(shí),屏幕上顯示的圖像采用線性偏振或圓偏振方式。每只眼睛的眼鏡片僅允許與其偏振方向一致的光線通過(guò),過(guò)濾掉其他方向的光線。這樣,左右眼看到的圖像經(jīng)過(guò)大腦的融合,產(chǎn)生了真實(shí)的立體效果。時(shí)分式3D顯示技術(shù)會(huì)在不同的時(shí)間段內(nèi)切換顯示不同的圖像或圖像信號(hào)。例如,在某一時(shí)刻,屏幕會(huì)顯示左眼所需的圖像,同時(shí)眼鏡的濾光器會(huì)使左眼接收到這部分圖像的光信號(hào),而右眼則會(huì)被屏蔽或接收到不完整的圖像光信號(hào)。然后,在接下來(lái)的時(shí)刻,屏幕會(huì)顯示右眼所需的圖像,并相應(yīng)地調(diào)整眼鏡的濾光器,使右眼接收到這部分圖像的光信號(hào),而左眼則被屏蔽或接收到不完整的圖像光信號(hào)。這種方式為了保證能看到連續(xù)不閃爍的3D圖像效果,一般會(huì)要求顯示器的刷新率達(dá)到120Hz,這樣左右眼分別可以達(dá)到60Hz的刷新率。3.頭戴顯示器頭戴顯示設(shè)備(HeadMountDisplay,HMD)是一種可以佩戴在頭部的裝置,通過(guò)將顯示屏置于用戶的眼睛前方,實(shí)現(xiàn)沉浸式的觀看體驗(yàn)。由于頭戴式顯示設(shè)備天然的在用戶左右眼分別播放畫(huà)面,所以可以方便的支持3D立體顯示。這些設(shè)備通常包括顯示屏、透鏡、傳感器和計(jì)算處理單元等組件,可以提供沉浸式的視聽(tīng)體驗(yàn)和交互功能。頭戴顯示設(shè)備可以分為虛擬現(xiàn)實(shí)(VR,VirtualReality)頭顯、增強(qiáng)現(xiàn)實(shí)(AR,AugmentedReality)頭顯和混合現(xiàn)實(shí)(MR,MixedReality)頭顯三種類型:虛擬現(xiàn)實(shí)頭顯:虛擬現(xiàn)實(shí)頭顯通過(guò)完全封閉用戶的視野,并提供全景的虛擬環(huán)境,使用戶完全沉浸在虛擬世界中。這些設(shè)備通常配備高分辨率的顯示屏和透鏡,可以呈現(xiàn)出逼真的虛擬場(chǎng)景,并通過(guò)頭部追蹤技術(shù)實(shí)現(xiàn)用戶的視角變換,從而營(yíng)造出身臨其境的體驗(yàn)。增強(qiáng)現(xiàn)實(shí)頭顯:增強(qiáng)現(xiàn)實(shí)頭顯通過(guò)透明的顯示屏將虛擬內(nèi)容疊加在現(xiàn)實(shí)世界中,使用戶可以同時(shí)看到虛擬圖像和真實(shí)環(huán)境。這些設(shè)備通常配備攝像頭和傳感器,可以實(shí)時(shí)捕捉用戶的周?chē)h(huán)境,并將虛擬圖像與現(xiàn)實(shí)場(chǎng)景進(jìn)行融合,為用戶提供豐富的增強(qiáng)現(xiàn)實(shí)體驗(yàn)。混合現(xiàn)實(shí)頭顯:混合現(xiàn)實(shí)頭顯結(jié)合了虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)的特點(diǎn),既可以呈現(xiàn)出完全虛擬的環(huán)境,又可以將虛擬圖像與現(xiàn)實(shí)環(huán)境進(jìn)行交互和融合。這些設(shè)備通常具有更高級(jí)的傳感器和計(jì)算處理能力,可以實(shí)現(xiàn)更復(fù)雜的虛實(shí)融合效果,為用戶提供更加逼真的混合現(xiàn)實(shí)體驗(yàn)。頭戴顯示設(shè)備可以應(yīng)用于游戲娛樂(lè)、教育培訓(xùn)、醫(yī)療保健、工業(yè)設(shè)計(jì)等領(lǐng)域,為用戶提供沉浸式的體驗(yàn)和全新的交互方式。隨著技術(shù)的不斷進(jìn)步和成本的降低,頭戴顯示設(shè)備有望成為未來(lái)人機(jī)交互和娛樂(lè)體驗(yàn)的重要載體。3D裸眼3D顯示設(shè)備可以分為三個(gè)大類,全息3D顯示器(Holographic3DDisplays)、體積3D顯示器(Volumetric3DDisplays)和多視角立體3D顯示器(Autostereoscopic3DDisplays)。全息3D顯示是一種能夠記錄并再現(xiàn)實(shí)物的振幅和相位信息的先進(jìn)顯示技術(shù)。它通過(guò)記錄激光光束經(jīng)過(guò)物體時(shí)的相位和振幅等信息,然后再用這些信息通過(guò)特定介質(zhì)(例如光折射聚合物)來(lái)進(jìn)行再現(xiàn)的技術(shù)。此外,利用空間光調(diào)制器進(jìn)行光波的調(diào)制,可以通過(guò)數(shù)值模擬實(shí)現(xiàn)計(jì)算機(jī)生成的全息系統(tǒng)。3D利用一些特殊的介質(zhì),如被困的顆粒或熒光屏幕,來(lái)產(chǎn)生空間中的光點(diǎn)(也稱為體素)。這些光點(diǎn)通過(guò)在介質(zhì)中激發(fā)光源,形成發(fā)光的圖像點(diǎn)。通過(guò)控制光源的位置和強(qiáng)度,可以在空間中形成各種形3D2D332D2D3D3D3D3D3D(如液晶顯示、有機(jī)發(fā)光二極管顯示、發(fā)光二極管顯示)。這種設(shè)計(jì)緊湊、易于與平板顯示設(shè)備集成、易于調(diào)制且成本較低,非常適用于便3D33D:這種技術(shù)使用一層被稱為視差障礙或者視差柵欄的遮光層,該層位于顯示屏和觀眾之間。視差障礙層包含一系列微小的條紋或凹槽,通過(guò)這些結(jié)構(gòu)來(lái)限制觀看者左右眼看到的圖像,從而在腦海中形成立體的圖像。這種方式的缺點(diǎn)是隨視角增加,分辨率和亮度均會(huì)降低。圖33基于視差壁障的3D顯示3D:這種技術(shù)使用柱狀透鏡,透鏡表面有一系列縱向排列的微型柱狀凸起。這些柱狀透鏡通過(guò)調(diào)整左右眼所看到的像素,使得左眼和右眼分別感知到不同的圖像,從而產(chǎn)生立體效果。為實(shí)現(xiàn)多視角的顯示,可以使用每個(gè)微透鏡記錄多個(gè)視角的子圖像,每個(gè)微透鏡的子圖像都包含了若干個(gè)像素,此時(shí)各像素所記錄的光線強(qiáng)度就來(lái)自于一個(gè)微透鏡和一個(gè)鏡頭的子孔徑區(qū)域之間所限制的細(xì)光束。這種技術(shù)同樣會(huì)導(dǎo)致分辨率的損失。為了拓展可視角度,還可以添加眼球追蹤系統(tǒng)獲取人眼所在的位置,通過(guò)這種方式實(shí)時(shí)調(diào)整顯示屏顯示圖像的位置,從而擴(kuò)大可視范圍。圖34基于柱狀透鏡的3D顯示3DLED,配合快速反應(yīng)的液晶面板和驅(qū)動(dòng)方法,3D(Sequential)的方式先后進(jìn)入觀看者的左右眼產(chǎn)生33D,該技術(shù)使用多塊不同角度的屏幕(至少是兩個(gè)不同顯示面,常見(jiàn)為L(zhǎng)ED)使用三維縫合拼接技術(shù)進(jìn)行立體內(nèi)容顯示。真實(shí)LED3D

來(lái)源:七維視覺(jué)科技圖35動(dòng)態(tài)裸眼3D顯示針對(duì)普通的二維視頻,其質(zhì)量評(píng)價(jià)主要可以分為兩大類:主觀質(zhì)量評(píng)價(jià)、客觀質(zhì)量評(píng)價(jià)。主觀質(zhì)量評(píng)價(jià)是由測(cè)試者按照規(guī)定的實(shí)驗(yàn)流程觀看一組存在失真的視頻,并對(duì)視頻質(zhì)量進(jìn)行主觀打分評(píng)價(jià)的方法。而客觀質(zhì)量評(píng)價(jià)通過(guò)設(shè)計(jì)數(shù)學(xué)模型來(lái)模擬人眼對(duì)圖像質(zhì)量的感知,以盡可能實(shí)現(xiàn)和主觀評(píng)價(jià)一致的評(píng)價(jià)結(jié)果。與傳統(tǒng)的二維視頻不同,三維沉浸視頻可以提供空間維度、沉浸感和臨場(chǎng)感等觀影體驗(yàn)。因其沉浸式的視覺(jué)體驗(yàn),觀眾往往會(huì)有較強(qiáng)的臨場(chǎng)感和包圍感,這對(duì)視頻質(zhì)量的評(píng)價(jià)產(chǎn)生重大影響。受觀影設(shè)備的影響,三維沉浸視頻觀影設(shè)備(如VR頭顯)的性能對(duì)視頻體驗(yàn)影響巨大,分辨率、刷新率、FOV和設(shè)備的舒適度都可能直接影響到質(zhì)量評(píng)價(jià)。因此,除了二維視頻的評(píng)估指標(biāo)外,三維沉浸視頻質(zhì)量評(píng)價(jià)還需要考慮深度感知、視場(chǎng)角(FOV)、延遲、運(yùn)動(dòng)跟蹤精度、渲染質(zhì)量和實(shí)時(shí)性等影響。其主觀評(píng)價(jià)也會(huì)包括更多心理層面的評(píng)價(jià),如舒適度、可交互性、沉浸感等。三維沉浸視頻主觀質(zhì)量評(píng)價(jià)方法[8,9]三維沉浸視頻主觀質(zhì)量評(píng)價(jià)實(shí)驗(yàn)包括針對(duì)各種終端顯示設(shè)備,如使用眼鏡式3D顯示(由于用途限制,使用較少),頭戴式顯示器(HMD,Head-MountedDisplay),以及裸眼3D顯示設(shè)備等觀看的360°視頻。[ITU-TP.919]標(biāo)準(zhǔn)較為詳細(xì)介紹了時(shí)長(zhǎng)為10s-30s之間的較短三維沉浸視頻的主觀實(shí)驗(yàn)方法。視頻源選擇360°視頻源應(yīng)根據(jù)學(xué)術(shù)研究的具體目標(biāo)進(jìn)行選擇,并記錄在數(shù)字存儲(chǔ)系統(tǒng)中。應(yīng)保證原始視頻的質(zhì)量盡可能高,盡可能使用最大空間分辨率和幀率,并使用原始的、未壓縮的視頻。視頻源應(yīng)當(dāng)具有足夠充分的空間信息和時(shí)間信息,同時(shí)應(yīng)當(dāng)保證在測(cè)試中,源視頻可以引起受試者各種不同類型的探索行為。主觀實(shí)驗(yàn)環(huán)境:應(yīng)控制實(shí)驗(yàn)環(huán)境盡量保持安靜,且環(huán)境場(chǎng)景中沒(méi)有可能引起受試者注意力分散的因素。同時(shí)保證受試者可以合理地利用實(shí)驗(yàn)設(shè)備進(jìn)行實(shí)驗(yàn)。為了保證沉浸視頻的特點(diǎn),并保證對(duì)全景視頻質(zhì)量的準(zhǔn)確感知,應(yīng)該保證使用的沉浸式視頻終端顯示設(shè)備符合商用設(shè)備的使用規(guī)范和要求,且需要保證顯示設(shè)備有360HMD3D主觀實(shí)驗(yàn)方法:主要方法包括絕對(duì)類別評(píng)級(jí)法(ACR,AbsoluteCategoryRating)和損傷類別評(píng)級(jí)法(DCR,DegradationCategoryRating)。ACR方法是單刺激主觀評(píng)價(jià)法,每次只呈現(xiàn)一個(gè)失真視頻,并在類別范圍內(nèi)獨(dú)立評(píng)分。ACR:5;4;3;2;1DCR:5;3;22515主觀評(píng)分記錄方法3D觀看視頻時(shí)頭戴HMDVR程序在每段視頻觀看結(jié)束后,在HMD設(shè)備上顯示一個(gè)評(píng)分欄,并且以受試者28況和頭部位置,記錄應(yīng)由HMD內(nèi)部的應(yīng)用程序完成。實(shí)驗(yàn)數(shù)據(jù)處理方法:對(duì)于主觀測(cè)試實(shí)驗(yàn)的結(jié)果,應(yīng)使用統(tǒng)計(jì)方法篩選符合規(guī)范的主觀測(cè)試數(shù)據(jù),剔除離群值。最終應(yīng)給出每段視頻的評(píng)估等級(jí)統(tǒng)計(jì)分布的均值,即平均意見(jiàn)分?jǐn)?shù)(MeanOpinionScoreMOS)和標(biāo)準(zhǔn)差。這些統(tǒng)計(jì)值的計(jì)算方法見(jiàn)[ITU-RBT.500-14],[ITU-TP.800.2]提供的有關(guān)信息。三維沉浸視頻客觀質(zhì)量評(píng)價(jià)方法全景沉浸視頻質(zhì)量客觀評(píng)價(jià)旨在設(shè)計(jì)合理的算法,準(zhǔn)確預(yù)測(cè)沉浸視頻的用戶觀看質(zhì)量,使之達(dá)到與主觀質(zhì)量評(píng)價(jià)結(jié)果相近的結(jié)果。優(yōu)良的客觀評(píng)價(jià)算法或模型能夠快速有效地預(yù)測(cè)各種場(chǎng)景下的失真沉浸視頻質(zhì)量,其研究成果能夠用于指導(dǎo)沉浸視頻相關(guān)技術(shù)的設(shè)計(jì)和優(yōu)化,進(jìn)而提高沉浸視頻應(yīng)用的用戶視覺(jué)體驗(yàn)質(zhì)量。目前絕大多數(shù)現(xiàn)存的關(guān)于全景沉浸式視頻的質(zhì)量評(píng)價(jià)方法集中于二維沉浸視頻的質(zhì)量評(píng)價(jià)方面。二維沉浸視頻的質(zhì)量評(píng)價(jià)主要關(guān)注投影變形對(duì)圖像質(zhì)量的影響,特別是在極地區(qū)域的失真(如ERP)。此外,2D3602D2D對(duì)于三維全景沉浸視頻的客觀評(píng)價(jià)算法,由于三維全景沉浸視頻不僅需要考慮視角范圍和投影變形,還必須處理雙目視覺(jué)帶來(lái)的額外復(fù)雜性,處理雙眼之間的協(xié)調(diào)性和舒適度。全景3D圖像包含兩個(gè)視角(左視圖和右視圖),在用戶佩戴頭戴顯示設(shè)備時(shí),這些圖像會(huì)被分別呈現(xiàn)在用戶的左右眼中,形成立體視覺(jué)效果。2D2D3D1)二維沉浸視頻全參考客觀質(zhì)量評(píng)價(jià)方法:早期的二維沉浸視頻(圖像)的全參考質(zhì)量評(píng)價(jià)方法主要2D(圖像)的經(jīng)典全參考評(píng)價(jià)方法,整體屬于基于經(jīng)驗(yàn)和手工提取特征的方法。一些學(xué)者直接對(duì)參考和失真全景二維視頻(圖像)ERP2D(PSNR,PeakSignal-to-NoiseRatio)和結(jié)構(gòu)相似度(SSIM,StructuralSimilarity),從而得出簡(jiǎn)單的全參考質(zhì)量估計(jì)。然而,ERPERPPSNR360°全景內(nèi)容的評(píng)價(jià)。球形加權(quán)峰值信噪比(WS-PSNR[10])PSNR計(jì)算克拉斯特拋物線投影的PSNR655362在此之后,出現(xiàn)了一些基于數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法,一些模型采用特征提取—質(zhì)量評(píng)價(jià)模型訓(xùn)練的思路,首先設(shè)計(jì)了兩組特征來(lái)描述拼接失真(模糊、重影和幾何失真等)在二維沉浸視頻中引起的結(jié)構(gòu)和空間一致性的變化,并分別從失真視頻和原始無(wú)失真視頻中進(jìn)行提取。然后,計(jì)算失真和無(wú)失真圖像之間的特征差值,并將它們作為支持向量回歸器的輸入訓(xùn)練質(zhì)量評(píng)價(jià)模型。近年,一些基于深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)全參考質(zhì)量評(píng)價(jià)方法已被提出。一種較新的全參考質(zhì)量評(píng)價(jià)方法綜合考慮了三維沉浸視頻觀看過(guò)程中視窗的選取和視窗投影圖像的顯著性檢測(cè)。視窗(實(shí)際觀看空間)指2Dt360°幀圖像與之前Δt360°幀圖像取時(shí)間差值,之360°幀圖像合并輸入基于球面卷積神經(jīng)網(wǎng)絡(luò)(CNN,ConvolutionalNeuralNetwork)的視窗選取網(wǎng)絡(luò),輸出待選擇的視窗和該視窗的重要性權(quán)重。之后使用軟非極大值抑制(SofterNon-maximumSuppression)算法合并重合度較高的視窗,并剔除不重要的視窗。最后選取得到用于全參考評(píng)價(jià)的視窗。之后將t到質(zhì)量評(píng)價(jià)網(wǎng)絡(luò)中,使用CNN與計(jì)算顯著性圖結(jié)合的方式預(yù)測(cè)出該視窗的全參考質(zhì)量預(yù)測(cè)分?jǐn)?shù),之后將t時(shí)刻所有視窗的質(zhì)量分?jǐn)?shù)加權(quán)平均得到t時(shí)刻360°失真圖像幀的預(yù)測(cè)質(zhì)量分?jǐn)?shù),最后取所有幀的平均作為整段視頻的全參考質(zhì)量預(yù)測(cè)分?jǐn)?shù)。這種方案綜合考慮了用戶觀看二維沉浸視頻時(shí)對(duì)不同時(shí)刻不同視窗內(nèi)容的敏感差異以及對(duì)于單個(gè)視窗內(nèi)容關(guān)注的顯著性差異,是一種較全面的二維沉浸視頻全參考質(zhì)量評(píng)價(jià)方法。圖36全景沉浸式視頻單幀投影到右視窗示意圖(FOV為90°)2二維沉浸視頻無(wú)參考客觀質(zhì)量評(píng)價(jià)方法:主要包含基于ERP投影空間的方法以及基于視窗的方法?;贓RP投影空間的方法的主要思想是直接通過(guò)對(duì)ERP投影形式圖像進(jìn)行特征提取和特征融合得到質(zhì)量分?jǐn)?shù)。由于ERPERP基于視窗(實(shí)際觀看空間)的方法主要是通過(guò)模擬人類在現(xiàn)實(shí)中觀看二維沉浸式內(nèi)容時(shí)的真實(shí)過(guò)程或特性,以獲得與人類主觀評(píng)價(jià)更接近的客觀質(zhì)量評(píng)價(jià)結(jié)果。這類方法中視窗的投影和選取非常重要。一種基于多通道CNN13]引入了六面視窗投影預(yù)處理,得到二維沉浸式視頻前、后、左、右、上、下六個(gè)視窗的視窗投影序列。之后使用改進(jìn)的ResNet34慮到ResNet前ResNet34結(jié)構(gòu)的基礎(chǔ)上,使用HyperResNet結(jié)構(gòu),融合網(wǎng)絡(luò)中間層特征。最后通過(guò)全局平均池化和全局標(biāo)準(zhǔn)差池化得到每幀視窗圖像的特征向量,使用全連接層輸出每幀圖像的質(zhì)量分?jǐn)?shù),之后進(jìn)行平均得到整段視頻的預(yù)測(cè)質(zhì)量分?jǐn)?shù)。一種面向視窗

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論