人工智能生成內(nèi)容(AIGC)

上傳人：1*** IP屬地：浙江上傳時(shí)間：2024-10-30 格式：PDF 頁(yè)數(shù)：67 大?。?.44MB 積分：11 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩62頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

No.202212

人工智能生成內(nèi)容（AIGC）

白皮書(shū)

(2022年)

中國(guó)信息通信研究院

京東探索研究院

2022年9月

前言

習(xí)近平總書(shū)記曾指出，“數(shù)字技術(shù)正以新理念、新業(yè)態(tài)、新模式

全面融入人類(lèi)經(jīng)濟(jì)、政治、文化、社會(huì)、生態(tài)文明建設(shè)各領(lǐng)域和全過(guò)

程”。在當(dāng)前數(shù)字世界和物理世界加速融合的大背景下，人工智能生

成內(nèi)容（ArtificialIntelligenceGeneratedContent，簡(jiǎn)稱(chēng)AIGC）正在悄

然引導(dǎo)著一場(chǎng)深刻的變革，重塑甚至顛覆數(shù)字內(nèi)容的生產(chǎn)方式和消費(fèi)

模式，將極大地豐富人們的數(shù)字生活，是未來(lái)全面邁向數(shù)字文明新時(shí)

代不可或缺的支撐力量。

本白皮書(shū)重點(diǎn)從AIGC技術(shù)、應(yīng)用和治理等維度進(jìn)行了闡述。在

技術(shù)層面，梳理提出了AIGC技術(shù)體系，既涵蓋了對(duì)現(xiàn)實(shí)世界各種內(nèi)

容的數(shù)字化呈現(xiàn)和增強(qiáng)，也包括了基于人工智能的自主內(nèi)容創(chuàng)作。在

應(yīng)用層面，重點(diǎn)分析了AIGC在傳媒、電商、影視等行業(yè)和場(chǎng)景的應(yīng)

用情況，探討了以虛擬數(shù)字人、寫(xiě)作機(jī)器人等為代表的新業(yè)態(tài)和新應(yīng)

用。在治理層面，從政策監(jiān)管、技術(shù)能力、企業(yè)應(yīng)用等視角，分析了

AIGC所暴露出的版權(quán)糾紛、虛假信息傳播等各種問(wèn)題。最后，從政

府、行業(yè)、企業(yè)、社會(huì)等層面，給出了AIGC發(fā)展和治理建議。由于

人工智能仍處于飛速發(fā)展階段，我們對(duì)AIGC的認(rèn)識(shí)還有待進(jìn)一步深

化，白皮書(shū)中存在不足之處，敬請(qǐng)大家批評(píng)指正。

人工智能生成內(nèi)容（AIGC）白皮書(shū)

一、人工智能生成內(nèi)容的發(fā)展歷程與概念

1950年，艾倫·圖靈（AlanTuring）在其論文《計(jì)算機(jī)器與智能

（ComputingMachineryandIntelligence）》中提出了著名的“圖靈測(cè)

試”，給出了判定機(jī)器是否具有“智能”的試驗(yàn)方法，即機(jī)器是否能

夠模仿人類(lèi)的思維方式來(lái)“生成”內(nèi)容繼而與人交互。某種程度上來(lái)

說(shuō)，人工智能從那時(shí)起就被寄予了用于內(nèi)容創(chuàng)造的期許。經(jīng)過(guò)半個(gè)多

世紀(jì)的發(fā)展，隨著數(shù)據(jù)快速積累、算力性能提升和算法效力增強(qiáng)，今

天的人工智能不僅能夠與人類(lèi)進(jìn)行互動(dòng)，還可以進(jìn)行寫(xiě)作、編曲、繪

畫(huà)、視頻制作等創(chuàng)意工作。2018年，人工智能生成的畫(huà)作在佳士得拍

賣(mài)行以43.25萬(wàn)美元成交，成為世界上首個(gè)出售的人工智能藝術(shù)品，

引發(fā)各界關(guān)注。隨著人工智能越來(lái)越多地被應(yīng)用于內(nèi)容創(chuàng)作，人工智

能生成內(nèi)容（ArtificialIntelligenceGeneratedContent，簡(jiǎn)稱(chēng)AIGC）的

概念悄然興起。

（一）AIGC歷史沿革

結(jié)合人工智能的演進(jìn)歷程，AIGC的發(fā)展大致可以分為三個(gè)階段，

即：早期萌芽階段（20世紀(jì)50年代至90年代中期）、沉淀積累階段

（20世紀(jì)90年代中期至21世紀(jì)10年代中期），以及快速發(fā)展階段

（21世紀(jì)10年代中期至今）。

早期萌芽階段（1950s-1990s），受限于當(dāng)時(shí)的科技水平，AIGC

僅限于小范圍實(shí)驗(yàn)。1957年，萊杰倫·希勒（LejarenHiller）和倫納

人工智能生成內(nèi)容（AIGC）白皮書(shū)

德·艾薩克森（LeonardIsaacson）通過(guò)將計(jì)算機(jī)程序中的控制變量換成

音符完成了歷史上第一支由計(jì)算機(jī)創(chuàng)作的音樂(lè)作品——弦樂(lè)四重奏

《依利亞克組曲（IlliacSuite）》。1966年，約瑟夫·魏岑鮑姆（Joseph

Weizenbaum）和肯尼斯·科爾比（KennethColby）共同開(kāi)發(fā)了世界第

一款可人機(jī)對(duì)話的機(jī)器人“伊莉莎（Eliza）”，其通過(guò)關(guān)鍵字掃描和

重組完成交互任務(wù)。80年代中期，IBM基于隱形馬爾科夫鏈模型

（HiddenMarkovModel,HMM）創(chuàng)造了語(yǔ)音控制打字機(jī)“坦戈拉

（Tangora）”，能夠處理約20000個(gè)單詞。80年代末至90年代中，

由于高昂的系統(tǒng)成本無(wú)法帶來(lái)可觀的商業(yè)變現(xiàn)，各國(guó)政府紛紛減少了

在人工智能領(lǐng)域的投入，AIGC沒(méi)有取得重大突破。

沉淀積累階段（1990s-2010s），AIGC從實(shí)驗(yàn)性向?qū)嵱眯灾饾u轉(zhuǎn)

變。2006年，深度學(xué)習(xí)算法取得重大突破，同時(shí)期圖形處理器

（GraphicsProcessingUnit,GPU）、張量處理器（TensorProcessingUnit,

TPU）等算力設(shè)備性能不斷提升，互聯(lián)網(wǎng)使數(shù)據(jù)規(guī)模快速膨脹并為各

類(lèi)人工智能算法提供了海量訓(xùn)練數(shù)據(jù)，使人工智能發(fā)展取得了顯著的

進(jìn)步。但是AIGC依然受限于算法瓶頸，無(wú)法較好地完成創(chuàng)作任務(wù)，

應(yīng)用仍然有限，效果有待提升。2007年，紐約大學(xué)人工智能研究員羅

斯·古德溫裝配的人工智能系統(tǒng)通過(guò)對(duì)公路旅行中的一切所見(jiàn)所聞進(jìn)

行記錄和感知，撰寫(xiě)出小說(shuō)《1TheRoad》。作為世界第一部完全由

人工智能創(chuàng)作的小說(shuō)，其象征意義遠(yuǎn)大于實(shí)際意義，整體可讀性不強(qiáng)，

拼寫(xiě)錯(cuò)誤、辭藻空洞、缺乏邏輯等缺點(diǎn)明顯。2012年，微軟公開(kāi)展示

人工智能生成內(nèi)容（AIGC）白皮書(shū)

了一個(gè)全自動(dòng)同聲傳譯系統(tǒng)，基于深層神經(jīng)網(wǎng)絡(luò)（DeepNeural

Network,DNN）可以自動(dòng)將英文演講者的內(nèi)容通過(guò)語(yǔ)音識(shí)別、語(yǔ)言翻

譯、語(yǔ)音合成等技術(shù)生成中文語(yǔ)音。

快速發(fā)展階段（2010s-至今），自2014年起，隨著以生成式對(duì)抗

網(wǎng)絡(luò)（GenerativeAdversarialNetwork,GAN）為代表的深度學(xué)習(xí)算法

的提出和迭代更新，AIGC迎來(lái)了新時(shí)代，生成內(nèi)容百花齊放，效果

逐漸逼真直至人類(lèi)難以分辨。2017年，微軟人工智能少女“小冰”推

出了世界首部100%由人工智能創(chuàng)作的詩(shī)集《陽(yáng)光失了玻璃窗》。2018

年，英偉達(dá)發(fā)布的StyleGAN模型可以自動(dòng)生成圖片，目前已升級(jí)到

第四代模型StyleGAN-XL，其生成的高分辨率圖片人眼難以分辨真假。

2019年，DeepMind發(fā)布了DVD-GAN模型用以生成連續(xù)視頻，在草

地、廣場(chǎng)等明確場(chǎng)景下表現(xiàn)突出。2021年，OpenAI推出了DALL-E

并于一年后推出了升級(jí)版本DALL-E-2,主要應(yīng)用于文本與圖像的交

互生成內(nèi)容，用戶只需輸入簡(jiǎn)短的描述性文字，DALL-E-2即可創(chuàng)作

出相應(yīng)極高質(zhì)量的卡通、寫(xiě)實(shí)、抽象等風(fēng)格的繪畫(huà)作品。

人工智能生成內(nèi)容（AIGC）白皮書(shū)

來(lái)源：中國(guó)信息通信研究院

圖1AIGC發(fā)展歷程

（二）AIGC的概念與內(nèi)涵

目前，對(duì)AIGC這一概念的界定，尚無(wú)統(tǒng)一規(guī)范的定義。國(guó)內(nèi)產(chǎn)

學(xué)研各界對(duì)于AIGC的理解是“繼專(zhuān)業(yè)生成內(nèi)容（Professional

GeneratedContent,PGC）和用戶生成內(nèi)容（UserGeneratedContent,

UGC）之后，利用人工智能技術(shù)自動(dòng)生成內(nèi)容的新型生產(chǎn)方式”。在

國(guó)際上對(duì)應(yīng)的術(shù)語(yǔ)是“人工智能合成媒體（AI-generatedMedia或

SyntheticMedia）”1，其定義是“通過(guò)人工智能算法對(duì)數(shù)據(jù)或媒體進(jìn)

行生產(chǎn)、操控和修改的統(tǒng)稱(chēng)”。綜上所述，我們認(rèn)為AIGC既是從內(nèi)

容生產(chǎn)者視角進(jìn)行分類(lèi)的一類(lèi)內(nèi)容，又是一種內(nèi)容生產(chǎn)方式，還是用

于內(nèi)容自動(dòng)化生成的一類(lèi)技術(shù)集合。本白皮書(shū)主要聚焦于AIGC含義

1維基百科：“人工智能合成媒體（AI-generatedMedia或SyntheticMedia）”

/wiki/Synthetic_media

人工智能生成內(nèi)容（AIGC）白皮書(shū)

中的技術(shù)部分。

為了幫助不同領(lǐng)域的受眾群體更好的理解AIGC，我們從發(fā)展背

景、技術(shù)能力、應(yīng)用價(jià)值三個(gè)方面對(duì)其概念進(jìn)行深入剖析。

從發(fā)展背景方面來(lái)看，AIGC的興起源于深度學(xué)習(xí)技術(shù)的快速突

破和日益增長(zhǎng)的數(shù)字內(nèi)容供給需求。一方面，技術(shù)進(jìn)步驅(qū)動(dòng)AIGC可

用性不斷增強(qiáng)。在人工智能發(fā)展初期，雖然對(duì)AIGC進(jìn)行了一些初步

嘗試，但受限各種因素，相關(guān)算法多基于預(yù)先定義的規(guī)則或者模板，

還遠(yuǎn)遠(yuǎn)算不上是智能創(chuàng)作內(nèi)容的程度。近年來(lái)，基于深度學(xué)習(xí)算法的

AIGC技術(shù)快速迭代，徹底打破了原先模板化、公式化、小范圍的局

限，可以快速、靈活地生成不同模態(tài)的數(shù)據(jù)內(nèi)容。另一方面，海量需

求牽引AIGC應(yīng)用落地。隨著數(shù)字經(jīng)濟(jì)與實(shí)體經(jīng)濟(jì)融合程度不斷加深，

以及Meta、微軟、字節(jié)跳動(dòng)等平臺(tái)型巨頭的數(shù)字化場(chǎng)景向元宇宙轉(zhuǎn)

型，人類(lèi)對(duì)數(shù)字內(nèi)容總量和豐富程度的整體需求不斷提高。數(shù)字內(nèi)容

的生產(chǎn)取決于想象能力、制造能力和知識(shí)水平；傳統(tǒng)內(nèi)容生產(chǎn)手段受

限于人力有限的制造能力，逐漸無(wú)法滿足消費(fèi)者對(duì)于數(shù)字內(nèi)容的消費(fèi)

需求，供給側(cè)產(chǎn)能瓶頸日益凸顯?；谝陨显?，AIGC在各行業(yè)中

得到越來(lái)越廣泛的應(yīng)用，市場(chǎng)潛力逐漸顯現(xiàn)。

從技術(shù)能力方面來(lái)看，AIGC根據(jù)面向?qū)ο?、?shí)現(xiàn)功能的不同可

分為三個(gè)層次。一是智能數(shù)字內(nèi)容孿生，其主要目標(biāo)是建立現(xiàn)實(shí)世界

到數(shù)字世界的映射，將現(xiàn)實(shí)世界中的物理屬性（如物體的大小、紋理、

顏色等）和社會(huì)屬性（如主體行為、主體關(guān)系等）高效、可感知地進(jìn)

人工智能生成內(nèi)容（AIGC）白皮書(shū)

行數(shù)字化。二是智能數(shù)字內(nèi)容編輯，其主要目的是建立數(shù)字世界與現(xiàn)

實(shí)世界的雙向交互。在數(shù)字內(nèi)容孿生的基礎(chǔ)上，從現(xiàn)實(shí)世界實(shí)現(xiàn)對(duì)虛

擬數(shù)字世界中內(nèi)容的控制和修改，同時(shí)利用數(shù)字世界高效率仿真和低

成本試錯(cuò)的優(yōu)勢(shì)，為現(xiàn)實(shí)世界的應(yīng)用提供快速迭代能力。三是智能數(shù)

字內(nèi)容創(chuàng)作，其主要目標(biāo)是讓人工智能算法具備內(nèi)容創(chuàng)作和自我演化

的能力，形成的AIGC產(chǎn)品具備類(lèi)似甚至超越人的創(chuàng)作能力。以上三

個(gè)層面的能力共同構(gòu)成AIGC的能力閉環(huán)。

從應(yīng)用價(jià)值方面來(lái)看，AIGC將有望成為數(shù)字內(nèi)容創(chuàng)新發(fā)展的新

引擎，為數(shù)字經(jīng)濟(jì)發(fā)展注入全新動(dòng)能。一方面，AIGC能夠以?xún)?yōu)于人

類(lèi)的制造能力和知識(shí)水平承擔(dān)信息挖掘、素材調(diào)用、復(fù)刻編輯等基礎(chǔ)

性機(jī)械勞動(dòng)，從技術(shù)層面實(shí)現(xiàn)以低邊際成本、高效率的方式滿足海量

個(gè)性化需求；同時(shí)能夠創(chuàng)新內(nèi)容生產(chǎn)的流程和范式，為更具想象力的

內(nèi)容、更加多樣化的傳播方式提供可能性，推動(dòng)內(nèi)容生產(chǎn)向更有創(chuàng)造

力的方向發(fā)展。另一方面，AIGC能夠通過(guò)支持?jǐn)?shù)字內(nèi)容與其他產(chǎn)業(yè)

的多維互動(dòng)、融合滲透從而孕育新業(yè)態(tài)新模式，打造經(jīng)濟(jì)發(fā)展新增長(zhǎng)

點(diǎn)，為千行百業(yè)發(fā)展提供新動(dòng)能。此外，2021年以來(lái)，“元宇宙”呈

現(xiàn)出超出想象的發(fā)展爆發(fā)力；作為數(shù)實(shí)融合的“終極”數(shù)字載體，元

宇宙將具備持續(xù)性、實(shí)時(shí)性、可創(chuàng)造性等特征，也將通過(guò)AIGC加速

復(fù)刻物理世界、進(jìn)行無(wú)限內(nèi)容創(chuàng)作，從而實(shí)現(xiàn)自發(fā)有機(jī)生長(zhǎng)。

人工智能生成內(nèi)容（AIGC）白皮書(shū)

二、人工智能生成內(nèi)容的技術(shù)體系及其演進(jìn)方向

AIGC作為人工智能技術(shù)和產(chǎn)業(yè)應(yīng)用的要素之一，隨著技術(shù)能

力的不斷迭代升級(jí)，正在降低內(nèi)容創(chuàng)作門(mén)檻、釋放創(chuàng)作能力，未來(lái)

將推動(dòng)數(shù)實(shí)融合趨勢(shì)下內(nèi)容創(chuàng)作的范式轉(zhuǎn)變。探討其能力體系的構(gòu)

成，即賦能內(nèi)容創(chuàng)作的技術(shù)路徑，對(duì)制定領(lǐng)域內(nèi)標(biāo)準(zhǔn)、建立行業(yè)生

態(tài)、爭(zhēng)取更加廣泛的開(kāi)發(fā)者和應(yīng)用場(chǎng)景具有十分重要的意義。

本部分從技術(shù)驅(qū)動(dòng)的視角出發(fā)，對(duì)AIGC的能力體系進(jìn)行歸納

和推理，展示現(xiàn)有技術(shù)應(yīng)用和其背后技術(shù)演化整體進(jìn)程。第一節(jié)首

先從技術(shù)趨勢(shì)的角度，提出AIGC的技術(shù)創(chuàng)新已經(jīng)完成由傳統(tǒng)方法

向深度學(xué)習(xí)過(guò)渡的應(yīng)用創(chuàng)新階段，并逐步深化到學(xué)習(xí)范式和網(wǎng)絡(luò)結(jié)

構(gòu)方面的理論創(chuàng)新階段。第二節(jié)則重點(diǎn)分析前沿理論多模態(tài)大模型

方面的突破，讓AIGC進(jìn)行跨模態(tài)融合性創(chuàng)新成為可能，也給予了

AIGC前所未有的產(chǎn)業(yè)空間與實(shí)踐潛力。第三節(jié)進(jìn)一步歸納總結(jié)在

前沿技術(shù)驅(qū)動(dòng)下，AIGC賦能內(nèi)容創(chuàng)作的三大能力，并對(duì)三大能力

的技術(shù)演化路徑進(jìn)行展望。

（一）AIGC技術(shù)升級(jí)步入深化階段

人工智能算法的不斷迭代是AIGC發(fā)展進(jìn)步的源動(dòng)力，從技術(shù)演

進(jìn)的角度出發(fā)，可將AIGC技術(shù)可大致劃分為傳統(tǒng)基于模板或規(guī)則的

前深度學(xué)習(xí)階段和深度神經(jīng)網(wǎng)絡(luò)快速發(fā)展的深度學(xué)習(xí)階段。

早期的AIGC技術(shù)主要依據(jù)事先指定的模板或者規(guī)則，進(jìn)行簡(jiǎn)單

的內(nèi)容制作與輸出，與靈活且真實(shí)的內(nèi)容生成有較大的差距。該時(shí)期

人工智能生成內(nèi)容（AIGC）白皮書(shū)

的人工智能算法并不具備強(qiáng)大的學(xué)習(xí)能力，而是大多依賴(lài)于預(yù)先定義

的統(tǒng)計(jì)模型或?qū)＜蚁到y(tǒng)執(zhí)行特定的任務(wù)。通過(guò)巧妙地規(guī)則設(shè)計(jì)，早期

AIGC技術(shù)可以完成簡(jiǎn)單線條、文本和旋律的生成。例如，通過(guò)定義

復(fù)雜的函數(shù)方程組，計(jì)算機(jī)所繪出的函數(shù)曲線具備某種美學(xué)圖樣；通

過(guò)記錄大量的問(wèn)答文本，在面對(duì)新的問(wèn)題時(shí)，計(jì)算機(jī)可以通過(guò)檢索和

匹配的方式生成簡(jiǎn)單的答案，甚至于改寫(xiě)故事。但是由于缺乏對(duì)客觀

世界的深入感知和對(duì)人類(lèi)語(yǔ)言文字等知識(shí)的認(rèn)知能力，早期的AIGC

技術(shù)普遍面臨所生成的內(nèi)容空洞、刻板、文不對(duì)題等問(wèn)題。參考人類(lèi)

的內(nèi)容創(chuàng)作過(guò)程，研究人員們提出，理想的AIGC算法需要具備對(duì)數(shù)

據(jù)內(nèi)容的學(xué)習(xí)能力，在理解數(shù)據(jù)的基礎(chǔ)上進(jìn)行知識(shí)與分布的學(xué)習(xí)，最

終實(shí)現(xiàn)高質(zhì)量的內(nèi)容創(chuàng)作。

深度神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)范式2和網(wǎng)絡(luò)結(jié)構(gòu)上的不斷迭代極大的提升

了人工智能算法的學(xué)習(xí)能力，從而推動(dòng)了AIGC技術(shù)的快速發(fā)展。不

同于傳統(tǒng)人工智能算法，深度學(xué)習(xí)中的損失函數(shù)和梯度下降算法可以

靈活快速的調(diào)整深度神經(jīng)網(wǎng)絡(luò)中的參數(shù)，從而實(shí)現(xiàn)從數(shù)據(jù)中進(jìn)行學(xué)習(xí)

功能。2012年，卷積神經(jīng)網(wǎng)絡(luò)AlexNet[1]憑借優(yōu)秀的學(xué)習(xí)能力，在當(dāng)

年的ImageNet大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽中一舉奪魁，比第二名傳統(tǒng)機(jī)

器學(xué)習(xí)算法的錯(cuò)誤率提升10.8個(gè)百分點(diǎn)，開(kāi)啟了深度學(xué)習(xí)時(shí)代的序

幕。就在緊隨其后的2013年，深度變分自編碼器[2]的提出讓AIGC技

術(shù)能力有了極大的進(jìn)步。對(duì)于給定的神經(jīng)網(wǎng)絡(luò)，深度變分自編碼器要

2人工智能的學(xué)習(xí)范式是指人工智能模型從數(shù)據(jù)中進(jìn)行學(xué)習(xí)的方法。

人工智能生成內(nèi)容（AIGC）白皮書(shū)

求網(wǎng)絡(luò)的輸出是對(duì)于輸入內(nèi)容的重建，通過(guò)重參數(shù)化等技巧，網(wǎng)絡(luò)在

重建過(guò)程中學(xué)習(xí)訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)分布。在測(cè)試階段，變分自編碼器通

過(guò)在學(xué)習(xí)到的統(tǒng)計(jì)分布中進(jìn)行采樣，首次能比穩(wěn)定的生成從未觀測(cè)過(guò)

的低分辨率圖像。2014年，一種新的博弈學(xué)習(xí)范式伴隨著生成對(duì)抗網(wǎng)

絡(luò)[3]被提出。生成對(duì)抗網(wǎng)絡(luò)由一個(gè)生成器和一個(gè)判別器組成，判別器

致力于不斷尋找生成數(shù)據(jù)和真實(shí)數(shù)據(jù)間的不同，生成器根據(jù)判別器的

反饋不斷完善自身，以求生成真假難辨的內(nèi)容。得益于雙方博弈的學(xué)

習(xí)策略，生成內(nèi)容的真實(shí)性和清晰度都得到了極大的提升，生成對(duì)抗

網(wǎng)絡(luò)也被應(yīng)用于很多內(nèi)容生成的具體應(yīng)用。除了變分自編碼器和生成

對(duì)抗網(wǎng)絡(luò)，強(qiáng)化學(xué)習(xí)[4]、流模型[5]、擴(kuò)散模型[6]等學(xué)習(xí)范式均取得了喜

人的進(jìn)展，這些模型范式在不同場(chǎng)景中各有優(yōu)勢(shì)，讓AIGC技術(shù)可以

快速地應(yīng)用到不同的場(chǎng)景和任務(wù)中。

深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)升級(jí)是推動(dòng)AIGC快速發(fā)展的另一主要因

素。一方面，實(shí)驗(yàn)證明，深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力和模型大小呈正相

關(guān)，伴隨著模型參數(shù)量的增加，相對(duì)應(yīng)深度神經(jīng)網(wǎng)絡(luò)的能力一般會(huì)取

得大幅提升。但是，隨意地增加神經(jīng)網(wǎng)絡(luò)規(guī)模是行不通的，越大規(guī)模

神經(jīng)網(wǎng)絡(luò)往往意味著更大的訓(xùn)練難度，因此深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)

顯得尤為關(guān)鍵。從早期的玻爾茲曼機(jī)，多層感知機(jī)，卷積神經(jīng)網(wǎng)絡(luò)，

到深度殘差網(wǎng)絡(luò)和Transformer大模型，網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)化帶來(lái)了深度學(xué)

習(xí)模型參數(shù)量從幾萬(wàn)到數(shù)千億躍升，模型層數(shù)也從開(kāi)始的個(gè)位數(shù)逐步

發(fā)展到成百上千。深度學(xué)習(xí)模型規(guī)模上的量變引起了AIGC技術(shù)能力

人工智能生成內(nèi)容（AIGC）白皮書(shū)

的質(zhì)變，在新型網(wǎng)絡(luò)結(jié)構(gòu)的加持下，上述的生成對(duì)抗網(wǎng)絡(luò)等算法開(kāi)始

能生成超高清晰度的視頻，高質(zhì)量的文本段落和優(yōu)美靈動(dòng)的樂(lè)曲旋律。

另一方面，研究者們?cè)谏疃壬窠?jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)中引入包含語(yǔ)義的隱

式表達(dá)和物理知識(shí)，以降低模型的訓(xùn)練難度、增強(qiáng)生成內(nèi)容的豐富程

度。例如，研究者發(fā)現(xiàn)通過(guò)在神經(jīng)網(wǎng)絡(luò)的每一層引入隱式表達(dá)，能夠

極大地提升內(nèi)容生成算法的可控性和生成效果[7]。另外，在三維數(shù)據(jù)

的生成任務(wù)中，神經(jīng)輻射場(chǎng)[8]在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)時(shí)充分考慮了物理世界

的固有約束，極大提升了三維渲染效率和效果。

AIGC要真正發(fā)揮對(duì)不同行業(yè)的驅(qū)動(dòng)作用，需要與各行各業(yè)的特

異性場(chǎng)景深度融合。在處理這些實(shí)際應(yīng)用中，深度學(xué)習(xí)算法在感知、

認(rèn)知、模仿、生成等方向的基礎(chǔ)能力決定了AIGC技術(shù)所能創(chuàng)作的生

產(chǎn)力。近些年中，這些算法技術(shù)齊頭并進(jìn)、百花齊放，并最終形成了

AIGC應(yīng)用于不同場(chǎng)景的底層支撐。通過(guò)人工智能支撐技術(shù)的不斷升

級(jí)，AIGC技術(shù)將持續(xù)賦能各類(lèi)文化創(chuàng)意、生產(chǎn)生活、科學(xué)發(fā)現(xiàn)[9,10]等

各種場(chǎng)景。

（二）AIGC大模型架構(gòu)潛力凸顯

超級(jí)深度學(xué)習(xí)近年來(lái)的快速發(fā)展帶來(lái)了深度神經(jīng)網(wǎng)絡(luò)技術(shù)在大

模型和多模態(tài)兩個(gè)方向上的不斷突破，并為AIGC技術(shù)能力的升級(jí)提

供了強(qiáng)力的支撐和全新的可能性。當(dāng)前AIGC技術(shù)已經(jīng)從最初追求生

成內(nèi)容的真實(shí)性的基本要求，發(fā)展到滿足生成內(nèi)容多樣性、可控性的

進(jìn)階需求，并開(kāi)始追求生成內(nèi)容的組合性。數(shù)字內(nèi)容的組合性一方面

人工智能生成內(nèi)容（AIGC）白皮書(shū)

關(guān)注復(fù)雜場(chǎng)景、長(zhǎng)文本等內(nèi)容中各個(gè)元素的組合，例如虛擬數(shù)字世界

中人、物和環(huán)境間的交互并組合生成為整體場(chǎng)景；長(zhǎng)篇文字內(nèi)容用詞、

語(yǔ)句、段落間的相互呼應(yīng)和組合。另一方面，組合性追求概念、規(guī)則

等抽象表達(dá)的組合，以此完成更加豐富和生動(dòng)的數(shù)字內(nèi)容生成，這些

新出現(xiàn)的需求對(duì)傳統(tǒng)單一模態(tài)的人工智能算法框架提出了新的挑戰(zhàn)。

近年來(lái)，研究界在大規(guī)模深度網(wǎng)絡(luò)、多模態(tài)人工智能方面的探索表明

大模型具備易擴(kuò)展性，能夠?qū)崿F(xiàn)跨模態(tài)的知識(shí)沉淀，以大模型為基礎(chǔ)

模型，通過(guò)大模型小型化技術(shù)使得人工智能在小數(shù)據(jù)集場(chǎng)景下也能具

備優(yōu)秀的理解、生成和泛化能力，具有超大規(guī)模、超多參數(shù)量的多模

態(tài)大型神經(jīng)網(wǎng)絡(luò)將引領(lǐng)AIGC技術(shù)升級(jí)正在成為學(xué)界、產(chǎn)業(yè)界共識(shí)3。

1.視覺(jué)大模型提升AIGC感知能力

以圖像、視頻為代表的視覺(jué)數(shù)據(jù)是互聯(lián)網(wǎng)時(shí)代信息的主要載體之

一，這些視覺(jué)信息時(shí)刻記錄著物理世界的狀態(tài)，并在不斷傳播和再創(chuàng)

作的過(guò)程中，反映人的想法、觀念和價(jià)值主張。賦以人工智能模型感

知并理解這些海量的視覺(jué)數(shù)據(jù)的能力[11]，是實(shí)現(xiàn)人工智能生成數(shù)字內(nèi)

容、數(shù)字孿生的基礎(chǔ)；感知能力的提升，是實(shí)現(xiàn)生成視覺(jué)內(nèi)容語(yǔ)義明

確、內(nèi)涵豐富、效果逼真的前提。

針對(duì)視覺(jué)信息的感知研究，在傳統(tǒng)機(jī)器學(xué)習(xí)時(shí)代主要基于科研人

員手動(dòng)建模的特征和基于統(tǒng)計(jì)學(xué)習(xí)理論構(gòu)建的樸素分類(lèi)器，例如支持

3百度文心大模型：/；OpenAIDALL·E2大模型：/dall-e-2/；智

源研究院大模型：/s/j8q018Lck1TWHO3NxQDiJQ

人工智能生成內(nèi)容（AIGC）白皮書(shū)

向量機(jī)模型（SVM），其能完成的任務(wù)類(lèi)型和感知能力都非常有限；

在深度學(xué)習(xí)時(shí)代，主要基于深度神經(jīng)網(wǎng)絡(luò)模型，例如深度殘差網(wǎng)絡(luò)

（ResNet），其數(shù)據(jù)驅(qū)動(dòng)的端到端學(xué)習(xí)范式使得模型的感知能力有了

顯著提升，在工業(yè)界也得到廣泛的應(yīng)用。但是，這類(lèi)模型往往針對(duì)單

一感知任務(wù)進(jìn)行設(shè)計(jì)，很難同時(shí)完成多種視覺(jué)感知任務(wù)。如何解決不

同場(chǎng)景、環(huán)境和條件下的視覺(jué)感知問(wèn)題，并實(shí)現(xiàn)魯棒、準(zhǔn)確、高效的

視覺(jué)理解，是AIGC技術(shù)必須要解決的挑戰(zhàn)。

以視覺(jué)Transformer（ViT，一種神經(jīng)網(wǎng)絡(luò)模型）[12]為代表的新

型神經(jīng)網(wǎng)絡(luò)，因其優(yōu)異的性能、模型的易擴(kuò)展性、計(jì)算的高并行性，

正在成為視覺(jué)領(lǐng)域的基礎(chǔ)網(wǎng)絡(luò)架構(gòu)，并且逐漸發(fā)展出來(lái)十億甚至百億

參數(shù)規(guī)模的模型。在過(guò)去的2-3年間，視覺(jué)感知和理解技術(shù)正迎來(lái)突

飛猛進(jìn)的發(fā)展。無(wú)監(jiān)督學(xué)習(xí)技術(shù)，包括對(duì)比式自監(jiān)督學(xué)習(xí)（例如

SimCLR和MoCo系列技術(shù)）和生成式自監(jiān)督學(xué)習(xí)（例如MAE技術(shù)），

能夠大幅降低訓(xùn)練模型所需的有標(biāo)注數(shù)據(jù)的數(shù)量。經(jīng)過(guò)無(wú)監(jiān)督預(yù)訓(xùn)練

的深度神經(jīng)網(wǎng)絡(luò)模型，僅需要在少量的有標(biāo)注樣本上經(jīng)過(guò)微調(diào)學(xué)習(xí)，

即可在多種場(chǎng)景，線上線下均取得優(yōu)異的性能。近年來(lái)基于

Transformer衍生出來(lái)一系列網(wǎng)絡(luò)結(jié)構(gòu)，例如SwinTransformer[13]、

ViTAETransformer[14,15]。通過(guò)將人類(lèi)先驗(yàn)知識(shí)引入網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)，使

得這些模型具有了更快的收斂速度、更低的計(jì)算代價(jià)、更多的特征尺

度、更強(qiáng)的泛化能力，從而能更好地學(xué)習(xí)和編碼海量數(shù)據(jù)中蘊(yùn)含的知

識(shí)。這些新型的大模型架構(gòu)，通過(guò)無(wú)監(jiān)督預(yù)訓(xùn)練和微調(diào)學(xué)習(xí)的范式，

人工智能生成內(nèi)容（AIGC）白皮書(shū)

在圖像分類(lèi)、目標(biāo)檢測(cè)、語(yǔ)義分割、姿態(tài)估計(jì)、圖像編輯以及遙感圖

像解譯等多個(gè)感知任務(wù)上取得了相比于過(guò)去精心設(shè)計(jì)的多種算法模

型更加優(yōu)異的性能和表現(xiàn)[16,17]，有望成為基礎(chǔ)視覺(jué)模型（Foundation

VisionModel），顯著提升場(chǎng)景感知能力，助力AIGC領(lǐng)域的發(fā)展。

基于視覺(jué)Transformer完成多種感知任務(wù)的聯(lián)合學(xué)習(xí)是目前的研

究熱點(diǎn)。通過(guò)探索不同任務(wù)關(guān)聯(lián)關(guān)系，挖掘豐富的監(jiān)督信號(hào)，能夠促

使模型學(xué)習(xí)到更具泛化能力和可被理解的特征表示。此外，聯(lián)合文本、

語(yǔ)音等不同模態(tài)數(shù)據(jù)進(jìn)行聯(lián)合學(xué)習(xí)，探索不同模態(tài)數(shù)據(jù)的語(yǔ)義關(guān)聯(lián)和

信息互補(bǔ)，也是訓(xùn)練視覺(jué)大模型的重要路徑。由此得到的視覺(jué)基礎(chǔ)大

模型在環(huán)境感知、內(nèi)容檢索、語(yǔ)義理解、模態(tài)對(duì)齊等任務(wù)上具備先天

的優(yōu)勢(shì)，對(duì)于提升AIGC基礎(chǔ)環(huán)境孿生能力、豐富AIGC應(yīng)用場(chǎng)景具

有重要價(jià)值。

2.語(yǔ)言大模型增強(qiáng)AIGC認(rèn)知能力

作為人類(lèi)文明的重要記錄方式，語(yǔ)言和文字記錄了人類(lèi)社會(huì)的歷

史變遷、科學(xué)技術(shù)和知識(shí)文化等。利用人工智能技術(shù)對(duì)海量語(yǔ)言、文

本數(shù)據(jù)進(jìn)行信息挖掘和內(nèi)容理解是AIGC技術(shù)的關(guān)鍵一環(huán)。一方面，

語(yǔ)言模型的訓(xùn)練和學(xué)習(xí)是進(jìn)行文本生成的核心基礎(chǔ)；另一方面，學(xué)習(xí)

并理解人類(lèi)語(yǔ)言將大幅豐富數(shù)字內(nèi)容的生產(chǎn)能力，創(chuàng)新、豐富數(shù)字內(nèi)

容的生產(chǎn)方式，例如構(gòu)建低門(mén)檻創(chuàng)作工具，使用戶通過(guò)語(yǔ)言描述就能

完成例如語(yǔ)言定位、語(yǔ)言編輯等高階編輯操作。

在如今信息復(fù)雜的場(chǎng)景中，數(shù)據(jù)質(zhì)量參差不齊、任務(wù)種類(lèi)多，導(dǎo)

人工智能生成內(nèi)容（AIGC）白皮書(shū)

致數(shù)據(jù)孤島和模型孤島的存在，傳統(tǒng)自然語(yǔ)言處理技術(shù)的不足尤為明

顯：模型設(shè)計(jì)、部署困難；數(shù)據(jù)難以復(fù)用；難以學(xué)習(xí)海量無(wú)標(biāo)簽數(shù)據(jù)

挖掘、知識(shí)提取的共性能力。

對(duì)于傳統(tǒng)自然語(yǔ)言處理技術(shù)的普遍問(wèn)題，基于語(yǔ)言的大模型技術(shù)

可以充分利用海量無(wú)標(biāo)注文本進(jìn)行預(yù)訓(xùn)練，從而賦予文本大模型在小

數(shù)據(jù)集、零數(shù)據(jù)集場(chǎng)景下的理解和生成能力?；诖笠?guī)模預(yù)訓(xùn)練的語(yǔ)

言模型不僅能夠在情感分析、語(yǔ)音識(shí)別、信息抽取、閱讀理解等文本

理解場(chǎng)景中表現(xiàn)出色，而且同樣適用于圖片描述生成、廣告生成、書(shū)

稿生成、對(duì)話生成等文本生成場(chǎng)景。這些復(fù)雜的功能往往只需要通過(guò)

簡(jiǎn)單的無(wú)標(biāo)注文本數(shù)據(jù)收集，訓(xùn)練部署一個(gè)通用的大規(guī)模預(yù)訓(xùn)練模型

即可實(shí)現(xiàn)。研究者們相信基于語(yǔ)言的認(rèn)知智能可以更快的加速通用人

工智能的到來(lái)。例如，谷歌和OpenAI分別提出大規(guī)模預(yù)訓(xùn)練模型

BERT[18]和GPT[19]，在諸多自然語(yǔ)言理解和生成任務(wù)上取得了突破性

的性能提升，驗(yàn)證了大模型在零資源、小樣本、中低資源場(chǎng)景的優(yōu)越

性。緊隨其后，國(guó)內(nèi)外知名企業(yè)和高校均投入非常大的人力、算力、

數(shù)據(jù)于自然語(yǔ)言處理大模型的研發(fā)，包括谷歌、微軟、Meta、清華大

學(xué)、斯坦福大學(xué)、華盛頓大學(xué)、卡內(nèi)基·梅隆大學(xué)、京東、華為、百度

等等。模型參數(shù)量也從最初的千萬(wàn)級(jí)發(fā)展到了千億級(jí)別[20]，訓(xùn)練代價(jià)

也從數(shù)十天增長(zhǎng)到了不容忽略的幾十萬(wàn)天（按在單張V100上計(jì)算）。

顯然，指數(shù)級(jí)增長(zhǎng)的成本換取的微弱增益讓人們意識(shí)到，如何設(shè)

計(jì)更高效率的自監(jiān)督學(xué)習(xí)方法、更高參數(shù)效用比的模型架構(gòu)、更綠色

人工智能生成內(nèi)容（AIGC）白皮書(shū)

節(jié)能的訓(xùn)練框架成為了大模型未來(lái)方向之一。在這個(gè)方向上，諸多機(jī)

構(gòu)開(kāi)始了高效綠色的大模型探索之路，并且取得了顯著的效果，如通

用語(yǔ)言理解評(píng)估基準(zhǔn)（GLUE）目前（2022年6月）在榜第一名的是

由京東探索研究院研發(fā)的Vegav1織女模型4，依托于預(yù)訓(xùn)練階段多種

文本粒度、語(yǔ)種類(lèi)型、負(fù)采樣方式上的自監(jiān)督學(xué)習(xí)創(chuàng)新，實(shí)現(xiàn)了高效

的數(shù)據(jù)知識(shí)提取，并采用了有理論支撐的更快捷的分布式優(yōu)化器。此

外，超級(jí)深度學(xué)習(xí)模型可以通過(guò)非常低成本的微調(diào)快速適應(yīng)新的產(chǎn)業(yè)、

領(lǐng)域、行業(yè)，實(shí)現(xiàn)跨模態(tài)、全鏈路的知識(shí)積累、沉淀、傳播、復(fù)用。

基于語(yǔ)言的超級(jí)深度學(xué)習(xí)技術(shù)的發(fā)展趨勢(shì)主要體現(xiàn)在訓(xùn)練模型

的數(shù)據(jù)量日益增大、數(shù)據(jù)種類(lèi)也更加豐富，模型規(guī)模增大、參數(shù)量以

指數(shù)倍增加。通過(guò)不斷構(gòu)建語(yǔ)義理解能力增強(qiáng)、邏輯知識(shí)可抽象學(xué)習(xí)、

同時(shí)適用于多種任務(wù)的語(yǔ)言大模型，將會(huì)對(duì)AIGC場(chǎng)景中的各項(xiàng)認(rèn)知

應(yīng)用產(chǎn)生極大價(jià)值。

3.多模態(tài)大模型升級(jí)AIGC內(nèi)容創(chuàng)作能力

在日常生活中，視覺(jué)和語(yǔ)言是最常見(jiàn)且重要的兩種模態(tài)[21]，上述

的視覺(jué)大模型可以構(gòu)建出人工智能更加強(qiáng)大的環(huán)境感知能力，而語(yǔ)言

大模型則可以學(xué)習(xí)到人類(lèi)文明的抽象概念以及認(rèn)知的能力。然而

AIGC技術(shù)如果只能生成單一模態(tài)的內(nèi)容，那么AIGC的應(yīng)用場(chǎng)景將

極為有限、不足以推動(dòng)內(nèi)容生產(chǎn)方式的革新。多模態(tài)大模型的出現(xiàn)，

4/leaderboard

人工智能生成內(nèi)容（AIGC）白皮書(shū)

則讓融合性創(chuàng)新成為可能，極大豐富了AIGC技術(shù)可應(yīng)用的廣度。對(duì)

于包含多個(gè)模態(tài)的信息，多模態(tài)大模型則致力于處理不同模態(tài)、不同

來(lái)源、不同任務(wù)的數(shù)據(jù)和信息，從而滿足AIGC場(chǎng)景下新的創(chuàng)作需求

和應(yīng)用場(chǎng)景。

多模態(tài)大模型擁有兩種能力，一個(gè)是尋找到不同模態(tài)數(shù)據(jù)之間的

對(duì)應(yīng)關(guān)系，例如將一段文本和與之對(duì)應(yīng)的圖片聯(lián)系起來(lái)；另一個(gè)是實(shí)

現(xiàn)不同模態(tài)數(shù)據(jù)間的相互轉(zhuǎn)化與生成，比如根據(jù)一張圖片生成對(duì)應(yīng)的

語(yǔ)言描述。為了尋找到不同模態(tài)數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系，多模態(tài)大模型

將不同模態(tài)的原始數(shù)據(jù)映射到統(tǒng)一或相似語(yǔ)義空間當(dāng)中，從而實(shí)現(xiàn)不

同模態(tài)的信號(hào)之間的相互理解與對(duì)齊，這一能力最常見(jiàn)的例子就是互

聯(lián)網(wǎng)中使用文字搜索與之相關(guān)圖片的圖文搜索引擎。在此基礎(chǔ)上，多

模態(tài)大模型可以進(jìn)一步實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)間的相互轉(zhuǎn)化與生成，這一

能力是進(jìn)行AIGC原生創(chuàng)作的關(guān)鍵。

來(lái)源：京東探索研究院

圖2AIGC多模態(tài)大模型生成結(jié)果圖

如圖2所示，只需給定用戶簡(jiǎn)單手繪的語(yǔ)義圖或是素描圖，多模

人工智能生成內(nèi)容（AIGC）白皮書(shū)

態(tài)大模型學(xué)習(xí)模型便能夠創(chuàng)作出逼真的風(fēng)景圖像，同時(shí)，當(dāng)給定具體

文本語(yǔ)義時(shí)，圖像中的內(nèi)容也將隨之改變，展現(xiàn)出不同的季節(jié)亦或是

“黃昏時(shí)河道干涸”的場(chǎng)景。再以O(shè)penAI最新提出的多模態(tài)大模型

DALL-E2為例，給定一個(gè)已有的場(chǎng)景圖像，該模型能夠在指定位置

添加指定的目標(biāo)主體，如圖3所示，當(dāng)要求在沙發(fā)上（位置3處）添

加一只柯基狗時(shí)，算法可以在指定位置添加不同形態(tài)的真實(shí)的柯基；

當(dāng)要求在左側(cè)畫(huà)框中（位置1處）添加一只柯基時(shí)，算法先是成功的

識(shí)別出該位置是一幅畫(huà)，并創(chuàng)作了符合相應(yīng)畫(huà)風(fēng)的柯基狗5。基于多模

態(tài)大模型，AIGC具備了更加接近于人類(lèi)的創(chuàng)作能力，并真正的開(kāi)始

展示出代替人類(lèi)進(jìn)行內(nèi)容創(chuàng)作，進(jìn)一步解放生產(chǎn)力的潛力。

來(lái)源：OpenAI

圖3OpenAIAIGC多模態(tài)大模型DALLE2生成結(jié)果圖

對(duì)于人工智能而言，能夠高質(zhì)量的完成多模態(tài)數(shù)據(jù)的對(duì)齊、轉(zhuǎn)換

5/dall-e-2/

人工智能生成內(nèi)容（AIGC）白皮書(shū)

和生成任務(wù)意味著模型對(duì)物理世界具備了極為深刻的理解。從某種程

度而言，基于多模態(tài)大模型的AIGC是人工智能算法邁向通用人工智

能的重要一步。就好像人類(lèi)通過(guò)不斷的對(duì)比試錯(cuò)、總結(jié)歸納來(lái)了解我

們身處的物理世界一樣，多模態(tài)AIGC大模型也有希望能夠自行總結(jié)

客觀規(guī)律，發(fā)展出認(rèn)知與常識(shí)，進(jìn)而幫助人類(lèi)創(chuàng)造出新的數(shù)字世界。

（三）AIGC技術(shù)演化出三大前沿能力

AIGC技術(shù)被廣泛應(yīng)用于音頻、文本、視覺(jué)等不同模態(tài)數(shù)據(jù)，并

構(gòu)成了豐富多樣的技術(shù)應(yīng)用。本節(jié)歸納AIGC變革內(nèi)容創(chuàng)作方式的三

大前沿能力（如圖4所示），分別是智能數(shù)字內(nèi)容孿生能力，智能數(shù)

字內(nèi)容編輯能力和智能數(shù)字內(nèi)容創(chuàng)作能力。

來(lái)源：京東探索研究院

圖4AIGC的三大前沿能力

1.增強(qiáng)與轉(zhuǎn)譯構(gòu)建數(shù)字內(nèi)容孿生能力

內(nèi)容數(shù)字化是現(xiàn)今所有數(shù)字系統(tǒng)得以存在和運(yùn)轉(zhuǎn)的前提，其過(guò)程

人工智能生成內(nèi)容（AIGC）白皮書(shū)

是指將視覺(jué)、聲音、文本等信息轉(zhuǎn)化為數(shù)字格式。傳統(tǒng)的數(shù)字化主要

關(guān)注對(duì)傳感器所采集數(shù)據(jù)的客觀記錄和儲(chǔ)存，但容易忽略所記錄的內(nèi)

容本身的完整性和相關(guān)語(yǔ)義。相比于傳統(tǒng)的內(nèi)容數(shù)字化，智能數(shù)字內(nèi)

容孿生技術(shù)致力于進(jìn)一步挖掘數(shù)據(jù)中的有效信息，在深入理解數(shù)據(jù)內(nèi)

容的基礎(chǔ)上，實(shí)現(xiàn)一系列高效、準(zhǔn)確、智能的數(shù)字內(nèi)容孿生任務(wù)。作

為傳統(tǒng)數(shù)字化的擴(kuò)充和升級(jí)，數(shù)字內(nèi)容的孿生技術(shù)受到了持續(xù)且廣泛

的研究。

智能數(shù)字內(nèi)容孿生可大致分為智能增強(qiáng)技術(shù)和智能轉(zhuǎn)譯技術(shù)兩

個(gè)主要分支?？紤]現(xiàn)實(shí)場(chǎng)景中數(shù)據(jù)采集、傳輸和儲(chǔ)存中可能遇到的多

種限制，原始的數(shù)字內(nèi)容經(jīng)常會(huì)存在缺失或者損壞等問(wèn)題。智能增強(qiáng)

技術(shù)旨在消除上述過(guò)程中的干擾和缺失問(wèn)題，根據(jù)給定的低質(zhì)量原始

數(shù)據(jù)生成經(jīng)過(guò)增強(qiáng)后的高質(zhì)量數(shù)字內(nèi)容，力求在數(shù)字世界中孿生并重

構(gòu)完整逼真的客觀世界。在計(jì)算機(jī)視覺(jué)任務(wù)中，智能增強(qiáng)技術(shù)多被用

于修復(fù)并增強(qiáng)由采集設(shè)備或環(huán)境因素引起的視覺(jué)內(nèi)容受損，例如低分

辨率、模糊、像素缺失等。同理，對(duì)于有缺陷的文本和音頻數(shù)據(jù)，相

關(guān)的智能增強(qiáng)技術(shù)被用于解決片段缺失、脈沖干擾和音頻失真等問(wèn)題，

在實(shí)際生產(chǎn)生活中為相關(guān)應(yīng)用生成復(fù)原高質(zhì)量的數(shù)字內(nèi)容。

除了對(duì)各種模態(tài)數(shù)據(jù)內(nèi)容的修復(fù)和增強(qiáng)，近年間，數(shù)字內(nèi)容孿生

中智能增強(qiáng)技術(shù)在三維視覺(jué)領(lǐng)域取得了快速地發(fā)展。具體來(lái)說(shuō)，數(shù)字

圖像是三維世界在攝影設(shè)備上的二維投影，傳統(tǒng)的數(shù)字化記錄了拍攝

影像的色彩信息，但卻無(wú)法保留三維世界中的深度、材質(zhì)和光照等信

人工智能生成內(nèi)容（AIGC）白皮書(shū)

息?，F(xiàn)有的數(shù)字孿生技術(shù)，可以利用對(duì)同一場(chǎng)景拍攝的多張照片，重

構(gòu)并生成相應(yīng)的三維內(nèi)容。最近，谷歌等多家國(guó)內(nèi)外科技公司正探索

使用互聯(lián)網(wǎng)上商家和用戶上傳的照片，生成并渲染不同餐廳、街道和

景點(diǎn)的三維全景。通過(guò)數(shù)字內(nèi)容孿生中的智能增強(qiáng)技術(shù)，算法可以過(guò)

濾剔除不同照片中天氣、時(shí)間、行人等擾動(dòng)信息，專(zhuān)注于生成并渲染

不同場(chǎng)所的全時(shí)間段三維全景[22]。

數(shù)字內(nèi)容孿生中的智能轉(zhuǎn)譯技術(shù)是建立在對(duì)客觀世界內(nèi)容感知

的基礎(chǔ)上，進(jìn)一步理解孿生后的數(shù)字內(nèi)容，從而實(shí)現(xiàn)多樣化的內(nèi)容呈

現(xiàn)的一類(lèi)技術(shù)集合?，F(xiàn)階段比較成熟的智能轉(zhuǎn)譯技術(shù)包括給定語(yǔ)音信

號(hào)進(jìn)行字幕合成，依據(jù)文字進(jìn)行語(yǔ)音生成等。對(duì)于智能轉(zhuǎn)譯技術(shù)，放

在第一位的是生成內(nèi)容的準(zhǔn)確性，無(wú)論是語(yǔ)音到文本還是文本生成語(yǔ)

音，準(zhǔn)確地呈現(xiàn)原始信息是該類(lèi)技術(shù)走向?qū)嶋H應(yīng)用的基礎(chǔ)。在準(zhǔn)確的

基礎(chǔ)上，為應(yīng)對(duì)不同的使用場(chǎng)景，相關(guān)算法、工程人員還在不斷地提

高轉(zhuǎn)譯算法的實(shí)時(shí)性和生成語(yǔ)音的真實(shí)性。近些年間，智能轉(zhuǎn)譯技術(shù)

已被越來(lái)越多地應(yīng)用于社交、傳媒、協(xié)同辦公、殘疾人輔助等實(shí)際場(chǎng)

景中，為人們的生成生活帶來(lái)更多的便利。

相比于較為成熟的語(yǔ)音/字幕合成，視覺(jué)內(nèi)容描述[23]是近年間學(xué)

術(shù)領(lǐng)域的熱點(diǎn)研究課題之一。視覺(jué)描述技術(shù)致力于生成能夠準(zhǔn)確描述

給定視覺(jué)內(nèi)容（例如圖像、視頻等）的文本和語(yǔ)音。視覺(jué)內(nèi)容描述技

術(shù)可以被廣泛地應(yīng)用于賽事轉(zhuǎn)播、智慧交通、影視娛樂(lè)等各類(lèi)應(yīng)用場(chǎng)

景中。雖然現(xiàn)階段的智能轉(zhuǎn)譯技術(shù)已經(jīng)可以初步的描述圖像（或視頻）

人工智能生成內(nèi)容（AIGC）白皮書(shū)

中的人物、物體和環(huán)境信息，但如何能夠準(zhǔn)確地生成有關(guān)人物行為和

主體關(guān)系的描述仍是現(xiàn)有技術(shù)亟需突破的問(wèn)題。相比于智能增強(qiáng)技術(shù)，

智能轉(zhuǎn)譯技術(shù)更加關(guān)注數(shù)字世界中不同模態(tài)的數(shù)字內(nèi)容間相互理解、

融合和轉(zhuǎn)換的能力，從而豐富智能數(shù)字內(nèi)容孿生技術(shù)的應(yīng)用范圍和靈

活性。

數(shù)字內(nèi)容孿生技術(shù)通過(guò)對(duì)真實(shí)世界中內(nèi)容的智能增強(qiáng)和轉(zhuǎn)譯，將

現(xiàn)實(shí)世界的物理屬性（如物體的大小、紋理、顏色等）和社會(huì)屬性（如

主體行為、主體關(guān)系等）高效、可感知地進(jìn)行數(shù)字化，實(shí)現(xiàn)現(xiàn)實(shí)世界

到數(shù)字世界的映射，構(gòu)建了在數(shù)字世界中重現(xiàn)現(xiàn)實(shí)場(chǎng)景的能力。通過(guò)

數(shù)字內(nèi)容孿生技術(shù)，不同行業(yè)的從業(yè)者可以更好地在數(shù)字世界中進(jìn)行

內(nèi)容的組織和展示。

2.理解與控制組成內(nèi)容編輯能力

在數(shù)字內(nèi)容孿生技術(shù)的基礎(chǔ)上，智能數(shù)字內(nèi)容編輯的相關(guān)技術(shù)構(gòu)

建了虛擬數(shù)字世界與現(xiàn)實(shí)物理世界間的交互通道。一方面，對(duì)數(shù)字內(nèi)

容的編輯和控制，例如數(shù)字人技術(shù)，可以直接作用于物理世界，實(shí)現(xiàn)

實(shí)時(shí)的反饋和互動(dòng)，起到對(duì)現(xiàn)實(shí)世界中主體陪伴或服務(wù)等功能；另一

方面，數(shù)字內(nèi)容編輯技術(shù)是實(shí)現(xiàn)數(shù)字仿真的基礎(chǔ)。例如在自動(dòng)駕駛仿

真場(chǎng)景中，通過(guò)智能編輯，可以實(shí)現(xiàn)對(duì)同一道路上不同車(chē)況和天氣狀

況的控制。基于數(shù)字內(nèi)容仿真，算法模型可以在數(shù)字世界中學(xué)習(xí)到相

人工智能生成內(nèi)容（AIGC）白皮書(shū)

應(yīng)的知識(shí)和技能，這些知識(shí)可以被用來(lái)反哺解決現(xiàn)實(shí)世界中的問(wèn)題6。

從技術(shù)角度看，智能數(shù)字內(nèi)容編輯主要通過(guò)數(shù)字內(nèi)容的語(yǔ)義理解

和屬性控制兩類(lèi)技術(shù)來(lái)實(shí)現(xiàn)對(duì)內(nèi)容的修改和控制。首先，理解數(shù)字內(nèi)

容是對(duì)其進(jìn)行編輯和修改的必要前提。例如，在處理音頻數(shù)據(jù)進(jìn)行人

聲分離時(shí)，算法模型需要先理解輸入的原始聲音信號(hào)，才能進(jìn)一步分

離其中的人聲信號(hào)和背景音，生成兩段獨(dú)立的音頻內(nèi)容。同理，對(duì)于

計(jì)算機(jī)視覺(jué)中的圖片、視頻剪輯和自然語(yǔ)言處理中的摘要生成任務(wù)，

都需要數(shù)字內(nèi)容的語(yǔ)義理解技術(shù)進(jìn)行相關(guān)語(yǔ)義的理解和概括，繼而修

改輸入的原始數(shù)據(jù)以得到最終的生成結(jié)果。

值得注意的是，現(xiàn)實(shí)世界中的內(nèi)容大多是由多種不同的語(yǔ)義信息

組成的。例如，一張人臉照片實(shí)際上是由人物的身份信息、面部動(dòng)作、

拍攝視角、攝影設(shè)備和光照條件等許多語(yǔ)義信息一同決定的。早期的

語(yǔ)義理解技術(shù)更多的是將某個(gè)內(nèi)容當(dāng)做一個(gè)整體進(jìn)行理解，在學(xué)習(xí)到

的數(shù)字表征中不同類(lèi)別的語(yǔ)義信息往往是糾纏在一起的。雖然可以應(yīng)

用于解決某些數(shù)字內(nèi)容編輯任務(wù)，但卻難以對(duì)不同的語(yǔ)義進(jìn)行精確的

理解和修改。基于生成模型的可解耦語(yǔ)義學(xué)習(xí)技術(shù)是解決語(yǔ)義糾纏問(wèn)

題的可行解決方案之一，并在近些年間取得了快速的發(fā)展。通過(guò)理解

并學(xué)習(xí)不同語(yǔ)義成分的變化，可解耦語(yǔ)義學(xué)習(xí)技術(shù)對(duì)數(shù)據(jù)內(nèi)容具有更

深刻的理解，并逐漸開(kāi)始服務(wù)于人工智能試妝、試衣、生成同一個(gè)人

6/omniverse/media-entertainment/

人工智能生成內(nèi)容（AIGC）白皮書(shū)

不同年齡照片等新興應(yīng)用程序。

在充分理解數(shù)字內(nèi)容語(yǔ)義的基礎(chǔ)上，屬性控制技術(shù)構(gòu)成了數(shù)字內(nèi)

容編輯的另一主要分支。在語(yǔ)義理解的基礎(chǔ)上，數(shù)字內(nèi)容的智能屬性

控制技術(shù)將直接根據(jù)用戶指定的屬性，對(duì)原有的內(nèi)容進(jìn)行精確地修改、

編輯和二次生成。常用的屬性控制技術(shù)已經(jīng)廣泛地應(yīng)用于智能圖像編

輯、文本情感改寫(xiě)和智能調(diào)音等多項(xiàng)應(yīng)用中，并潛移默化地服務(wù)人們

的生活，作為輔助功能提升內(nèi)容創(chuàng)作者的效率。此外，先進(jìn)的智能內(nèi)

容編輯技術(shù)結(jié)合了語(yǔ)義理解技術(shù)和屬性控制技術(shù)，在處理三維動(dòng)畫(huà)內(nèi)

容時(shí)，在學(xué)習(xí)可解耦的視角、光照和角色等語(yǔ)義特征的基礎(chǔ)上，智能

屬性控制技術(shù)以比傳統(tǒng)算法更加高效且穩(wěn)定的方式完成虛擬現(xiàn)實(shí)、游

戲、電影中的渲染和操控[24]；在構(gòu)造數(shù)字人時(shí)，屬性控制能力可以根

據(jù)實(shí)際需要快速地編輯數(shù)字人的外貌、音色、感情、表情等屬性，以

完成數(shù)字人技術(shù)在不同場(chǎng)合環(huán)境中的應(yīng)用。

數(shù)字內(nèi)容編輯技術(shù)在內(nèi)容孿生技術(shù)的基礎(chǔ)上，具備了對(duì)現(xiàn)實(shí)世界

內(nèi)容進(jìn)行語(yǔ)義理解和屬性操控的能力，從而構(gòu)建了數(shù)字世界對(duì)現(xiàn)實(shí)世

界內(nèi)容的影響和反饋。在數(shù)字世界中的操作和嘗試將不受限于場(chǎng)地、

成本、資源消耗等客觀約束，所得到的經(jīng)驗(yàn)知識(shí)也能夠更好地反饋給

現(xiàn)實(shí)世界，提升生產(chǎn)生活的效率。

3.模仿與概念學(xué)習(xí)造就內(nèi)容創(chuàng)作能力

上述的數(shù)字內(nèi)容的孿生和編輯能力主要面向客觀世界中的真實(shí)

內(nèi)容，通過(guò)對(duì)現(xiàn)實(shí)內(nèi)容的智能孿生、理解、控制和編輯，AIGC算法

人工智能生成內(nèi)容（AIGC）白皮書(shū)

可以快速準(zhǔn)確地將現(xiàn)實(shí)世界的內(nèi)容映射到虛擬世界中，并通過(guò)控制仿

真等方法，對(duì)現(xiàn)實(shí)世界產(chǎn)生正向的反饋和幫助。更進(jìn)一步，數(shù)字內(nèi)容

的智能創(chuàng)作旨在讓人工智能算法具備類(lèi)似甚至超越人的創(chuàng)作能力。

1968年，畢加索曾這樣評(píng)價(jià)計(jì)算機(jī)技術(shù)：“它們是沒(méi)用的，只能簡(jiǎn)單

的給出答案?！钡?4年后的今天，百度已經(jīng)可以通過(guò)人工智能模

型進(jìn)行繪畫(huà)創(chuàng)作，并被西安美院的教授評(píng)價(jià)為具有“美院畢業(yè)生水平”，

在短短24小時(shí)內(nèi)就售出了8700多份，銷(xiāo)售額超過(guò)17萬(wàn)元7。無(wú)需基

于任何現(xiàn)實(shí)世界中存在的內(nèi)容主體，基于人工智能算法的內(nèi)容創(chuàng)作能

力有望生成海量的原創(chuàng)數(shù)字內(nèi)容。

按照技術(shù)的發(fā)展進(jìn)程和實(shí)際應(yīng)用的形態(tài)，數(shù)字內(nèi)容的創(chuàng)作能力可

劃分為基于模仿的創(chuàng)作和基于概念的創(chuàng)作兩類(lèi)。基于模仿的創(chuàng)作需要

人工智能模型首先觀察人類(lèi)的作品，通過(guò)學(xué)習(xí)某一類(lèi)作品的分布特性，

人工智能生成模型可以進(jìn)行模仿式的新創(chuàng)作。以前文中提到的佳士得

拍賣(mài)的肖像畫(huà)為例，人工智能算法利用大約15000張創(chuàng)作于14世紀(jì)

到20世紀(jì)的肖像畫(huà)，從中學(xué)習(xí)作畫(huà)的筆法、內(nèi)容、藝術(shù)風(fēng)格等。最

終，人工智能內(nèi)容生成模型所創(chuàng)作的肖像畫(huà)通過(guò)了視覺(jué)圖靈測(cè)試，讓

絕大部分人類(lèi)都難以區(qū)分這幅畫(huà)是藝術(shù)家創(chuàng)作的，還是人工智能的作

品。不僅僅局限于智能作畫(huà)，基于模仿的人工智能生成模型在旋律創(chuàng)

作、文本寫(xiě)作和詩(shī)詞創(chuàng)作等具體任務(wù)中都取得了不錯(cuò)的表現(xiàn)。對(duì)于某

一類(lèi)具體的內(nèi)容，例如人物畫(huà)像、押韻詩(shī)歌或樂(lè)曲旋律，現(xiàn)有的人工

7/a/557118794_362042

人工智能生成內(nèi)容（AIGC）白皮書(shū)

智能技術(shù)基本可以創(chuàng)作出讓人真假難辨的數(shù)字內(nèi)容。但同時(shí)，面對(duì)更

加復(fù)雜的數(shù)據(jù)內(nèi)容，例如三維數(shù)據(jù)、視頻數(shù)據(jù)等，現(xiàn)有的技術(shù)所創(chuàng)作

的內(nèi)容相比于真實(shí)內(nèi)容仍有一定差距，需要算法模型的不斷完善來(lái)縮

小這些內(nèi)容的創(chuàng)作難度。

基于概念的創(chuàng)作不再簡(jiǎn)單的對(duì)固定種類(lèi)的數(shù)據(jù)進(jìn)行觀察和模仿，

而是致力于在海量的數(shù)據(jù)中學(xué)習(xí)抽象的概念，進(jìn)而通過(guò)對(duì)不同概念的

組合進(jìn)行全新的創(chuàng)作。以文本到圖像的生成為例，給定的文本不僅可

以描述生成內(nèi)容中需要包含的主體內(nèi)容、數(shù)量和關(guān)系，還可以指定生

成圖像的風(fēng)格、年代等屬性。在現(xiàn)實(shí)世界中，人們可能只能見(jiàn)到“木

頭制作的椅子”，“獅子在捕獵獾鼠”等內(nèi)容，但是通過(guò)文本描述，

基于概念的創(chuàng)作技術(shù)可以創(chuàng)作出“牛油果制作的椅子”，“在獵捕獅

子的獾鼠”等視覺(jué)內(nèi)容[25]。在更進(jìn)一步理解不同主體間動(dòng)作、行為、

和關(guān)系基礎(chǔ)上，已經(jīng)有相關(guān)的前沿研究開(kāi)始嘗試通過(guò)故事或者劇本描

述，創(chuàng)作影視短片?？傮w來(lái)說(shuō)，基于概念的智能創(chuàng)作與上述智能孿生

中的轉(zhuǎn)譯技術(shù)不同，智能轉(zhuǎn)譯更關(guān)注對(duì)已有內(nèi)容的精確表達(dá)和轉(zhuǎn)換，

而基于概念的智能創(chuàng)作是在給定模糊概念的基礎(chǔ)上，進(jìn)行自由生成和

創(chuàng)作。數(shù)字內(nèi)容基于概念的創(chuàng)作很大程度上依賴(lài)于算法模型對(duì)多模態(tài)

數(shù)據(jù)的理解、對(duì)齊、融合和生成，依賴(lài)于人類(lèi)社會(huì)中海量的數(shù)據(jù)以及

相關(guān)的描述?；诟拍畹膭?chuàng)作擺脫了對(duì)簡(jiǎn)單學(xué)習(xí)紋理、形狀、顏色的

模仿，進(jìn)一步像人類(lèi)一樣開(kāi)始學(xué)習(xí)和總結(jié)創(chuàng)作中包含的概念元素，實(shí)

現(xiàn)更通用、更高效、更智能的AIGC應(yīng)用。

人工智能生成內(nèi)容（AIGC）白皮書(shū)

伴隨著深度神經(jīng)網(wǎng)絡(luò)的快速發(fā)展，人工智能模型的規(guī)模和能力都

在不斷被刷新，憑借著數(shù)據(jù)內(nèi)容的快速增長(zhǎng)，算力的爆發(fā)以及算法模

型的不斷迭代，數(shù)字內(nèi)容創(chuàng)作技術(shù)突破到了一個(gè)新的高度，規(guī)模上不

斷變大，逐步趨近并開(kāi)始超過(guò)人腦的神經(jīng)元個(gè)數(shù)，能力上不斷增強(qiáng)，

展現(xiàn)出強(qiáng)大的多模態(tài)理解和生成能力。

三、人工智能生成內(nèi)容的應(yīng)用場(chǎng)景

在全球新冠肺炎疫情延宕反復(fù)的背景下，各行業(yè)對(duì)于數(shù)字內(nèi)容的

需求呈現(xiàn)井噴態(tài)勢(shì)，數(shù)字世界內(nèi)容消耗與供給的缺口亟待彌合。AIGC

以其真實(shí)性、多樣性、可控性、組合性的特征，有望幫助企業(yè)提高內(nèi)

容生產(chǎn)的效率，以及為其提供更加豐富多元、動(dòng)態(tài)且可交互的內(nèi)容，

或?qū)⒙氏仍趥髅?、電商、影視、娛?lè)等數(shù)字化程度高、內(nèi)容需求豐富

的行業(yè)取得重大創(chuàng)新發(fā)展。

來(lái)源：中國(guó)信息通信研究院

圖2AIGC應(yīng)用視圖

人工智能生成內(nèi)容（AIGC）白皮書(shū)

（一）AIGC+傳媒：人機(jī)協(xié)同生產(chǎn)，推動(dòng)媒體融合

近年來(lái)，隨著全球信息化水平的加速提升，人工智能與傳媒業(yè)的

融合發(fā)展不斷升級(jí)。AIGC作為當(dāng)前新型的內(nèi)容生產(chǎn)方式，為媒體的

內(nèi)容生產(chǎn)全面賦能。寫(xiě)稿機(jī)器人、采訪助手、視頻字幕生成、語(yǔ)音播

報(bào)、視頻錦集、人工智能合成主播等相關(guān)應(yīng)用不斷涌現(xiàn)，并滲透到采

集、編輯、傳播等各個(gè)環(huán)節(jié)，深刻地改變了媒體的內(nèi)容生產(chǎn)模式，成

為推動(dòng)媒體融合發(fā)展的重要力量。

在采編環(huán)節(jié)，一是實(shí)現(xiàn)采訪錄音語(yǔ)音轉(zhuǎn)寫(xiě)，提升傳媒工作者的工

作體驗(yàn)。借助語(yǔ)音識(shí)別技術(shù)將錄音語(yǔ)音轉(zhuǎn)寫(xiě)成文字，有效壓縮稿件生

產(chǎn)過(guò)程中錄音整理方面的重復(fù)工作，進(jìn)一步保障了新聞的時(shí)效性。

2022年冬奧會(huì)期間，科大訊飛的智能錄音筆通過(guò)跨語(yǔ)種的語(yǔ)音轉(zhuǎn)寫(xiě)

助力記者2分鐘快速出稿。二是實(shí)現(xiàn)智能新聞寫(xiě)作，提升新聞資訊的

時(shí)效。基于算法自動(dòng)編寫(xiě)新聞，將部分勞動(dòng)性的采編工作自動(dòng)化，幫

助媒體更快、更準(zhǔn)、更智能化地生產(chǎn)內(nèi)容。比如2014年3月，美國(guó)

洛杉磯時(shí)報(bào)網(wǎng)站的機(jī)器人記者Quakebot，在洛杉磯地震發(fā)生后僅3

分鐘，就寫(xiě)出相關(guān)消息并進(jìn)行發(fā)布；美聯(lián)社使用的智能寫(xiě)稿平臺(tái)

Wordsmith可以每秒寫(xiě)2000篇報(bào)道；中國(guó)地震臺(tái)網(wǎng)的寫(xiě)稿機(jī)器人在

九寨溝地震發(fā)生后7秒內(nèi)就完成了相關(guān)消息的編發(fā)；第一財(cái)經(jīng)“DT

稿王”一分鐘可寫(xiě)出1680字[26]。三是實(shí)現(xiàn)智能視頻剪輯，提升視頻

內(nèi)容的價(jià)值。通過(guò)使用視頻字幕生成、視頻錦集、視頻拆條、視頻超

分等視頻智能化剪輯工具，高效節(jié)省人力時(shí)間成本，最大化版權(quán)內(nèi)容

人工智能生成內(nèi)容（AIGC）白皮書(shū)

價(jià)值。2020年全國(guó)兩會(huì)期間，人民日?qǐng)?bào)社利用“智能云剪輯師”快速

生成視頻，并能夠?qū)崿F(xiàn)自動(dòng)匹配字幕、人物實(shí)時(shí)追蹤、畫(huà)面抖動(dòng)修復(fù)、

橫屏速轉(zhuǎn)豎屏等技術(shù)操作，以適應(yīng)多平臺(tái)分發(fā)要求[27]。2022年冬奧會(huì)

期間，央視視頻通過(guò)使用AI智能內(nèi)容生產(chǎn)剪輯系統(tǒng)，高效生產(chǎn)與發(fā)

布冬奧冰雪項(xiàng)目的視頻集錦內(nèi)容，為深度開(kāi)發(fā)體育媒體版權(quán)內(nèi)容價(jià)值，

創(chuàng)造了更多的可能性。

在傳播環(huán)節(jié)，AIGC應(yīng)用主要集中于以AI合成主播為核心的新

聞播報(bào)等領(lǐng)域。AI合成主播開(kāi)創(chuàng)了新聞?lì)I(lǐng)域?qū)崟r(shí)語(yǔ)音及人物動(dòng)畫(huà)合

成的先河，只需要輸入所需要播發(fā)的文本內(nèi)容，計(jì)算機(jī)就會(huì)生成相應(yīng)

的AI合成主播播報(bào)的新聞視頻，并確保視頻中人物音頻和表情、唇

動(dòng)保持自然一致，展現(xiàn)與真人主播無(wú)異的信息傳達(dá)效果?？v觀AI合

成主播在傳媒領(lǐng)域的應(yīng)用，呈現(xiàn)三方面的特點(diǎn)。一是應(yīng)用范圍不斷拓

展。目前新華社、中央廣播電視總臺(tái)、人民日?qǐng)?bào)社等國(guó)家級(jí)媒體及湖

南衛(wèi)視等省市媒體都開(kāi)始積極布局應(yīng)用AI合成主播，先后推出“新

小微”、“小C”等虛擬新聞主持人，并推動(dòng)其從新聞播報(bào)向晚會(huì)主

持、記者報(bào)道、天氣預(yù)報(bào)等更廣泛的場(chǎng)景應(yīng)用，為全國(guó)兩會(huì)、冬奧會(huì)、

冬殘奧會(huì)等重大活動(dòng)傳播深度賦能。二是應(yīng)用場(chǎng)景不斷升級(jí)。除了常

規(guī)的新聞播報(bào)，AI合成主播開(kāi)始陸續(xù)支持多語(yǔ)種播報(bào)和手語(yǔ)播報(bào)。

2020年全國(guó)兩會(huì)期間，多語(yǔ)種虛擬主播采用中、韓、日、英等多種語(yǔ)

言進(jìn)行新聞報(bào)道，實(shí)現(xiàn)了一音多語(yǔ)的播報(bào)，將中國(guó)新聞傳遞給世界，

順應(yīng)了信息化時(shí)代信息共享的發(fā)展潮流[28]。2022年冬奧會(huì)期間，百

人工智能生成內(nèi)容（AIGC）白皮書(shū)

度、騰訊等企業(yè)推出手語(yǔ)播報(bào)數(shù)字人，為千萬(wàn)聽(tīng)障用戶提供手語(yǔ)解說(shuō)，

進(jìn)一步推動(dòng)觀賽的無(wú)障礙進(jìn)程。三是應(yīng)用形態(tài)日趨完善。在形象方面，

逐步從2D向3D拓展；在驅(qū)動(dòng)范圍上，開(kāi)始從口型向面部表情、肢

體、手指、背景內(nèi)容素材延伸；在內(nèi)容構(gòu)建上，從支持SaaS化平臺(tái)

工具構(gòu)建向智能化生產(chǎn)探索。例如騰訊3D手語(yǔ)數(shù)智人“聆語(yǔ)”，實(shí)

現(xiàn)了唇動(dòng)、面部表情、肢體動(dòng)作、手指動(dòng)作等內(nèi)容的生成，并配套可

視化動(dòng)作編輯平臺(tái)，支持對(duì)手語(yǔ)動(dòng)作進(jìn)行精修。

AIGC對(duì)傳媒機(jī)構(gòu)、傳媒從業(yè)者和傳媒受眾都產(chǎn)生深刻影響。對(duì)

傳媒機(jī)構(gòu)來(lái)說(shuō)，AIGC通過(guò)參與新聞產(chǎn)品的生產(chǎn)過(guò)程，大幅提高生產(chǎn)

效率，并帶來(lái)新的視覺(jué)化、互動(dòng)化體驗(yàn)；豐富了新聞報(bào)道的形式，加

速了媒體的數(shù)字化轉(zhuǎn)型，推動(dòng)傳媒向智媒轉(zhuǎn)變。對(duì)傳媒從業(yè)者來(lái)說(shuō)，

AIGC可助力生產(chǎn)更具人文關(guān)懷、社會(huì)意義和經(jīng)濟(jì)價(jià)值的新聞作品；

將部分勞動(dòng)性的采編播工作自動(dòng)化，讓其更加專(zhuān)注于需要深入思考和

創(chuàng)造力的工作內(nèi)容，如新聞特稿、深度報(bào)道和專(zhuān)題報(bào)道等此類(lèi)更需發(fā)

揮人類(lèi)在精準(zhǔn)分析事物、妥善處理情感元素等方面優(yōu)勢(shì)的細(xì)分領(lǐng)域。

對(duì)傳媒受眾來(lái)說(shuō)，AIGC的應(yīng)用可使其在更短時(shí)間內(nèi)獲得以更豐富多

元的形態(tài)呈現(xiàn)的新聞內(nèi)容，提高了其獲取新聞信息的及時(shí)性和便捷性；

降低了傳媒行業(yè)的技術(shù)門(mén)檻，促使傳媒受眾具有更多參與內(nèi)容生產(chǎn)的

機(jī)會(huì)，極大增強(qiáng)其參與感。

（二）AIGC+電商：推進(jìn)虛實(shí)交融，營(yíng)造沉浸體驗(yàn)

隨著數(shù)字技術(shù)的發(fā)展和應(yīng)用、消費(fèi)的升級(jí)和加快，購(gòu)物體驗(yàn)沉浸

人工智能生成內(nèi)容（AIGC）白皮書(shū)

化成為電商領(lǐng)域發(fā)展的方向。AIGC正加速商品3D模型、虛擬主播

乃至虛擬貨場(chǎng)的構(gòu)建，通過(guò)和AR、VR等新技術(shù)的結(jié)合，實(shí)現(xiàn)視聽(tīng)等

多感官交互的沉浸式購(gòu)物體驗(yàn)。

生成商品3D模型用于商品展示和虛擬試用，提升線上購(gòu)物體驗(yàn)。

基于不同角度的商品圖像，借助視覺(jué)生成算法自動(dòng)化生成商品的3D

幾何模型和紋理，輔以線上虛擬“看、試、穿、戴”，提供接近實(shí)物

的差異化網(wǎng)購(gòu)體驗(yàn)，助力高效提升用戶轉(zhuǎn)化。百度、華為等企業(yè)都推

出商品自動(dòng)化3D建模服務(wù)，支持在分鐘級(jí)的時(shí)間內(nèi)完成商品的3D

拍攝和生成，精度可達(dá)到毫米級(jí)。相較于傳統(tǒng)2D展示，3D模型可

720°全方位展示商品主體外觀，可大幅度降低用戶選品和溝通時(shí)間，

提升用戶體驗(yàn)感，快速促成商品成交。同時(shí)生成出的3D商品模型還

可用于在線試穿，高度還原商品或服務(wù)試用的體驗(yàn)感，讓消費(fèi)者有更

多機(jī)會(huì)接觸到產(chǎn)品或服務(wù)的絕對(duì)價(jià)值。如阿里于2021年4月上線3D

版天貓家裝城，通過(guò)為商家提供3D設(shè)計(jì)工具及商品3D模型AI生成

服務(wù)，幫助商家快速構(gòu)建3D購(gòu)物空間，支持消費(fèi)者自己動(dòng)手做家裝

搭配，為消費(fèi)者提供沉浸式的“云逛街”體驗(yàn)。數(shù)據(jù)顯示，3D購(gòu)物的

轉(zhuǎn)化率平均值為70%，較行業(yè)平均水平提升了9倍，同比正常引導(dǎo)成

交客單價(jià)提升超200％，同時(shí)商品退換貨率明顯降低。此外，不少品

牌企業(yè)也開(kāi)始在虛擬試用方向上開(kāi)展探索和嘗試，如優(yōu)衣庫(kù)虛擬試衣、

阿迪達(dá)斯虛擬試鞋、周大福虛擬試珠寶、Gucci虛擬試戴手表和眼鏡、

宜家虛擬家具搭配、保時(shí)捷虛擬試駕等[29]。盡管目前還是采用的傳統(tǒng)

人工智能生成內(nèi)容（AIGC）白皮書(shū)

手動(dòng)建模方式，但隨著AIGC技術(shù)的不斷進(jìn)步，未來(lái)有望涌現(xiàn)更多消

費(fèi)級(jí)工具，從而逐步降低3D建模的門(mén)檻和成本，助力虛擬試穿應(yīng)用

大規(guī)模商用。

打造虛擬主播，賦能直播帶貨。基于視覺(jué)、語(yǔ)音、文本生成技術(shù)，

打造虛擬主播為觀眾提供24小時(shí)不間斷的貨品推薦介紹以及在線服

務(wù)能力，為商戶直播降低門(mén)檻。相比真人直播間帶貨，虛擬主播具備

三大優(yōu)勢(shì)：一是虛擬主播能夠填補(bǔ)真人主播的直播間隙，使直播間能

不停輪播，既為用戶提供更靈活的觀看時(shí)間和更方便的購(gòu)物體驗(yàn)，也

為合作商家創(chuàng)造更大的生意增量。如歐萊雅、飛利浦、完美日記等品

牌的虛擬主播一般會(huì)在凌晨0點(diǎn)上線，并進(jìn)行近9個(gè)小時(shí)的直播，與

真人主播形成了24小時(shí)無(wú)縫對(duì)接的直播服務(wù)。二是虛擬化的品牌主

播更能加速店鋪或品牌年輕化進(jìn)程，拉近與新消費(fèi)人群的距離，塑造

元宇宙時(shí)代的店鋪形象，未來(lái)可通過(guò)延展應(yīng)用到元宇宙中更多元的虛

擬場(chǎng)景，實(shí)現(xiàn)多圈層傳播。如彩妝品牌“卡姿蘭”推出自己的品牌虛

擬形象，并將其引入直播間作為其天貓旗艦店日常的虛擬主播導(dǎo)購(gòu)。

同時(shí)對(duì)于已具備虛擬品牌IP形象的傳統(tǒng)企業(yè)，可直接利用已有形象

快速轉(zhuǎn)化形成虛擬品牌主播。如在2020年5月海爾直播大促活動(dòng)中，

大家所熟知的海爾兄弟虛擬IP來(lái)到直播間，并同主持人和粉絲一起

互動(dòng)，高達(dá)千萬(wàn)播放量。三是虛擬主播人設(shè)更穩(wěn)定可控。在頭部主播

有限并且可能“人設(shè)崩塌”的情況下，虛擬主播人設(shè)、言行等由品牌

方掌握，比真人明星的可控性、安全性更強(qiáng)。品牌不必?fù)?dān)心虛擬形象

人工智能生成內(nèi)容（AIGC）白皮書(shū)

人設(shè)崩塌，為品牌帶來(lái)負(fù)面新聞、差評(píng)及資金損失。

賦能線上商城和線下秀場(chǎng)加速演變，為消費(fèi)者提供全新的購(gòu)物場(chǎng)

景。通過(guò)從二維圖像中重建場(chǎng)景的三維幾何結(jié)構(gòu)，實(shí)現(xiàn)虛擬貨場(chǎng)快速、

低成本、大批量的構(gòu)建，將有效降低商家搭建3D購(gòu)物空間的門(mén)檻及

成本，為一些原本高度倚重線下門(mén)店的行業(yè)打開(kāi)了線上線下融合的想

象空間，同時(shí)為消費(fèi)者提供線上線下融合的新消費(fèi)體驗(yàn)。目前一些品

牌已經(jīng)開(kāi)始嘗試打造虛擬空間。例如奢侈品商Gucci在一百周年品牌

慶典時(shí)，把線下的GucciGardenArchetypes展覽搬到了游戲Roblox

上，推出了為期兩周的虛擬展，5個(gè)主題展廳的內(nèi)容與現(xiàn)實(shí)展覽相互

對(duì)應(yīng)。2021年7月，阿里巴巴首次展示了其虛擬現(xiàn)實(shí)計(jì)劃“Buy+”，

并提供360°虛擬的購(gòu)物現(xiàn)場(chǎng)開(kāi)放購(gòu)物體驗(yàn)。2021年11月，Nike和

Roblox合作，推出虛擬世界Nikeland，并向所有Roblox用戶開(kāi)放。

隨著基于圖像的3D重建技術(shù)在谷歌地圖沉浸式視圖功能中的成功應(yīng)

用，虛擬貨場(chǎng)的自動(dòng)化構(gòu)建未來(lái)將得到更好的應(yīng)用和發(fā)展。

（三）AIGC+影視：拓展創(chuàng)作空間，提升作品質(zhì)量

隨著影視行業(yè)的快速發(fā)展，從前期創(chuàng)作、中期拍攝到后期制作的

過(guò)程性問(wèn)題也隨之顯露，存在高質(zhì)量劇本相對(duì)缺乏、制作成本高昂以

及部分作品質(zhì)量有待提升等發(fā)展痛點(diǎn)，亟待進(jìn)行結(jié)構(gòu)升級(jí)。運(yùn)用AIGC

技術(shù)能激發(fā)影視劇本創(chuàng)作思路，擴(kuò)展影視角色和場(chǎng)景創(chuàng)作空間，極大

地提升影視產(chǎn)品的后期制作質(zhì)量，幫助實(shí)現(xiàn)影視作品的文化價(jià)值與經(jīng)

濟(jì)價(jià)值最大化。

人工智能生成內(nèi)容（AIGC）白皮書(shū)

AIGC為劇本創(chuàng)作提供新思路。通過(guò)對(duì)海量劇本數(shù)據(jù)進(jìn)行分析歸

納，并按照預(yù)設(shè)風(fēng)格快速生產(chǎn)劇本，創(chuàng)作者再進(jìn)行篩選和二次加工，

以此激發(fā)創(chuàng)作者的靈感，開(kāi)闊創(chuàng)作思路，縮短創(chuàng)作周期。國(guó)外率先開(kāi)

展相關(guān)嘗試，早在2016年6月，紐約大學(xué)利用人工智能編寫(xiě)的電影

劇本《Sunspring》，經(jīng)拍攝制作后入圍倫敦科幻電影（Sci-FiLondon）

48小時(shí)挑戰(zhàn)前十強(qiáng)[30]。2020年，美國(guó)查普曼大學(xué)的學(xué)生利用OpenAI

的大模型GPT-3創(chuàng)作劇本并制作短片《律師》。國(guó)內(nèi)部分垂直領(lǐng)域的

科技公司開(kāi)始提供智能劇本生產(chǎn)相關(guān)的服務(wù)，如海馬輕帆推出的“小

說(shuō)轉(zhuǎn)劇本”智能寫(xiě)作功能，服務(wù)了包括《你好，李煥英》《流浪地球》

等爆款作品在內(nèi)的劇集劇本30000多集、電影/網(wǎng)絡(luò)電影劇本8000多

部、網(wǎng)絡(luò)小說(shuō)超過(guò)500萬(wàn)部。

AIGC擴(kuò)展角色和場(chǎng)景創(chuàng)作空間。一是通過(guò)人工智能合成人臉、

聲音等相關(guān)內(nèi)容，實(shí)現(xiàn)“數(shù)字復(fù)活”已故演員、替換“劣跡藝人”、

多語(yǔ)言譯制片音畫(huà)同步、演員角色年齡的跨越、高難度動(dòng)作合成等，

減少由于演員自身局限對(duì)影視作品的影響。如央視紀(jì)錄片《創(chuàng)新中國(guó)》

中，央視和科大訊飛利用人工智能算法學(xué)習(xí)已故配音員李易過(guò)往紀(jì)錄

片的聲音資料，并根據(jù)紀(jì)錄片的文稿合成配音，配合后期的剪輯優(yōu)化，

最終讓李易的聲音重現(xiàn)。在2020年播出的《了不起的兒科醫(yī)生》中，

主角人物的學(xué)歷事件影響了影視作品的宣傳與發(fā)行，該作品便采用了

智能影視換臉技術(shù)將主角人物進(jìn)行替換，從而減少影視作品創(chuàng)作過(guò)程

中的損失。2021年，英國(guó)公司Flawless針對(duì)多語(yǔ)言譯制片中角色唇形

人工智能生成內(nèi)容（AIGC）白皮書(shū)

不同步的問(wèn)題推出了可視化工具TrueSync，能通過(guò)AI深度視頻合成

技術(shù)精準(zhǔn)調(diào)整演員的面部特征，讓演員的口型和不同語(yǔ)種的配音或字

幕相匹配。二是通過(guò)人工智能合成虛擬物理場(chǎng)景，將無(wú)法實(shí)拍或成本

過(guò)高的場(chǎng)景生成出來(lái)，大大拓寬了影視作品想象力的邊界，給觀眾帶

來(lái)更優(yōu)質(zhì)的視覺(jué)效果和聽(tīng)覺(jué)體驗(yàn)。如2017年熱播的《熱血長(zhǎng)安》，

劇中的大量場(chǎng)景便是通過(guò)人工智能技術(shù)虛擬生成。工作人員在前期進(jìn)

行大量的場(chǎng)景資料采集，經(jīng)由特效人員進(jìn)行數(shù)字建模，制作出仿真的

拍攝場(chǎng)景，演員則在綠幕影棚進(jìn)行表演，結(jié)合實(shí)時(shí)摳像技術(shù)，將演員

動(dòng)作與虛擬場(chǎng)景進(jìn)行融合，最終生成視頻[31]。

AIGC賦能影視剪輯，升級(jí)后期制作。一是實(shí)現(xiàn)對(duì)影視圖像進(jìn)行

修復(fù)、還原，提升影像資料的清晰度，保障影視作品的畫(huà)面質(zhì)量。例

如中影數(shù)字制作基地和中國(guó)科技大學(xué)共同研發(fā)的基于AI的圖像處理

系統(tǒng)“中影·神思”，成功修復(fù)《厲害了，我的國(guó)》《馬路天使》等多

部影視劇。利用AI神思系統(tǒng)，修復(fù)一部電影的時(shí)間可以縮短四分之

三，成本可以減少一半。同時(shí)，愛(ài)奇藝、優(yōu)酷、西瓜視頻等流媒體平

臺(tái)都開(kāi)始將AI修復(fù)經(jīng)典影視作品作為新的增長(zhǎng)領(lǐng)域開(kāi)拓。二是實(shí)現(xiàn)

影視預(yù)告片生成。IBM旗下的人工智能系統(tǒng)Watson在學(xué)習(xí)了上百部

驚悚預(yù)告片的視聽(tīng)手法后，從90分鐘的《Morgan》影片中挑選出符

合驚悚預(yù)告片特點(diǎn)的電影鏡頭，并制作出一段6分鐘的預(yù)告片。盡管

這部預(yù)告片需要在制作人員的重新修改下才能最終完成，但卻將預(yù)告

片的制作周期從一個(gè)月左右縮減到24小時(shí)。三是實(shí)現(xiàn)將影視內(nèi)容從

人工智能生成內(nèi)容（AIGC）白皮書(shū)

2D向3D自動(dòng)轉(zhuǎn)制。聚力維度推出的人工智能3D內(nèi)容自動(dòng)制作平臺(tái)

“崢嶸”支持對(duì)影視作品進(jìn)行維度轉(zhuǎn)換，將院線級(jí)3D轉(zhuǎn)制效率提升

1000多倍。

（四）AIGC+娛樂(lè)：擴(kuò)

人人文庫(kù)> 全部分類(lèi)> 專(zhuān)業(yè)文獻(xiàn) > 工程機(jī)械

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

人工智能生成內(nèi)容(AIGC)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

人工智能生成內(nèi)容(AIGC)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔