人工智能生成內(nèi)容(AIGC)_第1頁
人工智能生成內(nèi)容(AIGC)_第2頁
人工智能生成內(nèi)容(AIGC)_第3頁
人工智能生成內(nèi)容(AIGC)_第4頁
人工智能生成內(nèi)容(AIGC)_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

No.202212

人工智能生成內(nèi)容(AIGC)

白皮書

(2022年)

中國信息通信研究院

京東探索研究院

2022年9月

前言

習近平總書記曾指出,“數(shù)字技術正以新理念、新業(yè)態(tài)、新模式

全面融入人類經(jīng)濟、政治、文化、社會、生態(tài)文明建設各領域和全過

程”。在當前數(shù)字世界和物理世界加速融合的大背景下,人工智能生

成內(nèi)容(ArtificialIntelligenceGeneratedContent,簡稱AIGC)正在悄

然引導著一場深刻的變革,重塑甚至顛覆數(shù)字內(nèi)容的生產(chǎn)方式和消費

模式,將極大地豐富人們的數(shù)字生活,是未來全面邁向數(shù)字文明新時

代不可或缺的支撐力量。

本白皮書重點從AIGC技術、應用和治理等維度進行了闡述。在

技術層面,梳理提出了AIGC技術體系,既涵蓋了對現(xiàn)實世界各種內(nèi)

容的數(shù)字化呈現(xiàn)和增強,也包括了基于人工智能的自主內(nèi)容創(chuàng)作。在

應用層面,重點分析了AIGC在傳媒、電商、影視等行業(yè)和場景的應

用情況,探討了以虛擬數(shù)字人、寫作機器人等為代表的新業(yè)態(tài)和新應

用。在治理層面,從政策監(jiān)管、技術能力、企業(yè)應用等視角,分析了

AIGC所暴露出的版權糾紛、虛假信息傳播等各種問題。最后,從政

府、行業(yè)、企業(yè)、社會等層面,給出了AIGC發(fā)展和治理建議。由于

人工智能仍處于飛速發(fā)展階段,我們對AIGC的認識還有待進一步深

化,白皮書中存在不足之處,敬請大家批評指正。

人工智能生成內(nèi)容(AIGC)白皮書

一、人工智能生成內(nèi)容的發(fā)展歷程與概念

1950年,艾倫·圖靈(AlanTuring)在其論文《計算機器與智能

(ComputingMachineryandIntelligence)》中提出了著名的“圖靈測

試”,給出了判定機器是否具有“智能”的試驗方法,即機器是否能

夠模仿人類的思維方式來“生成”內(nèi)容繼而與人交互。某種程度上來

說,人工智能從那時起就被寄予了用于內(nèi)容創(chuàng)造的期許。經(jīng)過半個多

世紀的發(fā)展,隨著數(shù)據(jù)快速積累、算力性能提升和算法效力增強,今

天的人工智能不僅能夠與人類進行互動,還可以進行寫作、編曲、繪

畫、視頻制作等創(chuàng)意工作。2018年,人工智能生成的畫作在佳士得拍

賣行以43.25萬美元成交,成為世界上首個出售的人工智能藝術品,

引發(fā)各界關注。隨著人工智能越來越多地被應用于內(nèi)容創(chuàng)作,人工智

能生成內(nèi)容(ArtificialIntelligenceGeneratedContent,簡稱AIGC)的

概念悄然興起。

(一)AIGC歷史沿革

結合人工智能的演進歷程,AIGC的發(fā)展大致可以分為三個階段,

即:早期萌芽階段(20世紀50年代至90年代中期)、沉淀積累階段

(20世紀90年代中期至21世紀10年代中期),以及快速發(fā)展階段

(21世紀10年代中期至今)。

早期萌芽階段(1950s-1990s),受限于當時的科技水平,AIGC

僅限于小范圍實驗。1957年,萊杰倫·希勒(LejarenHiller)和倫納

1

人工智能生成內(nèi)容(AIGC)白皮書

德·艾薩克森(LeonardIsaacson)通過將計算機程序中的控制變量換成

音符完成了歷史上第一支由計算機創(chuàng)作的音樂作品——弦樂四重奏

《依利亞克組曲(IlliacSuite)》。1966年,約瑟夫·魏岑鮑姆(Joseph

Weizenbaum)和肯尼斯·科爾比(KennethColby)共同開發(fā)了世界第

一款可人機對話的機器人“伊莉莎(Eliza)”,其通過關鍵字掃描和

重組完成交互任務。80年代中期,IBM基于隱形馬爾科夫鏈模型

(HiddenMarkovModel,HMM)創(chuàng)造了語音控制打字機“坦戈拉

(Tangora)”,能夠處理約20000個單詞。80年代末至90年代中,

由于高昂的系統(tǒng)成本無法帶來可觀的商業(yè)變現(xiàn),各國政府紛紛減少了

在人工智能領域的投入,AIGC沒有取得重大突破。

沉淀積累階段(1990s-2010s),AIGC從實驗性向?qū)嵱眯灾饾u轉(zhuǎn)

變。2006年,深度學習算法取得重大突破,同時期圖形處理器

(GraphicsProcessingUnit,GPU)、張量處理器(TensorProcessingUnit,

TPU)等算力設備性能不斷提升,互聯(lián)網(wǎng)使數(shù)據(jù)規(guī)模快速膨脹并為各

類人工智能算法提供了海量訓練數(shù)據(jù),使人工智能發(fā)展取得了顯著的

進步。但是AIGC依然受限于算法瓶頸,無法較好地完成創(chuàng)作任務,

應用仍然有限,效果有待提升。2007年,紐約大學人工智能研究員羅

斯·古德溫裝配的人工智能系統(tǒng)通過對公路旅行中的一切所見所聞進

行記錄和感知,撰寫出小說《1TheRoad》。作為世界第一部完全由

人工智能創(chuàng)作的小說,其象征意義遠大于實際意義,整體可讀性不強,

拼寫錯誤、辭藻空洞、缺乏邏輯等缺點明顯。2012年,微軟公開展示

2

人工智能生成內(nèi)容(AIGC)白皮書

了一個全自動同聲傳譯系統(tǒng),基于深層神經(jīng)網(wǎng)絡(DeepNeural

Network,DNN)可以自動將英文演講者的內(nèi)容通過語音識別、語言翻

譯、語音合成等技術生成中文語音。

快速發(fā)展階段(2010s-至今),自2014年起,隨著以生成式對抗

網(wǎng)絡(GenerativeAdversarialNetwork,GAN)為代表的深度學習算法

的提出和迭代更新,AIGC迎來了新時代,生成內(nèi)容百花齊放,效果

逐漸逼真直至人類難以分辨。2017年,微軟人工智能少女“小冰”推

出了世界首部100%由人工智能創(chuàng)作的詩集《陽光失了玻璃窗》。2018

年,英偉達發(fā)布的StyleGAN模型可以自動生成圖片,目前已升級到

第四代模型StyleGAN-XL,其生成的高分辨率圖片人眼難以分辨真假。

2019年,DeepMind發(fā)布了DVD-GAN模型用以生成連續(xù)視頻,在草

地、廣場等明確場景下表現(xiàn)突出。2021年,OpenAI推出了DALL-E

并于一年后推出了升級版本DALL-E-2,主要應用于文本與圖像的交

互生成內(nèi)容,用戶只需輸入簡短的描述性文字,DALL-E-2即可創(chuàng)作

出相應極高質(zhì)量的卡通、寫實、抽象等風格的繪畫作品。

3

人工智能生成內(nèi)容(AIGC)白皮書

來源:中國信息通信研究院

圖1AIGC發(fā)展歷程

(二)AIGC的概念與內(nèi)涵

目前,對AIGC這一概念的界定,尚無統(tǒng)一規(guī)范的定義。國內(nèi)產(chǎn)

學研各界對于AIGC的理解是“繼專業(yè)生成內(nèi)容(Professional

GeneratedContent,PGC)和用戶生成內(nèi)容(UserGeneratedContent,

UGC)之后,利用人工智能技術自動生成內(nèi)容的新型生產(chǎn)方式”。在

國際上對應的術語是“人工智能合成媒體(AI-generatedMedia或

SyntheticMedia)”1,其定義是“通過人工智能算法對數(shù)據(jù)或媒體進

行生產(chǎn)、操控和修改的統(tǒng)稱”。綜上所述,我們認為AIGC既是從內(nèi)

容生產(chǎn)者視角進行分類的一類內(nèi)容,又是一種內(nèi)容生產(chǎn)方式,還是用

于內(nèi)容自動化生成的一類技術集合。本白皮書主要聚焦于AIGC含義

1維基百科:“人工智能合成媒體(AI-generatedMedia或SyntheticMedia)”

/wiki/Synthetic_media

4

人工智能生成內(nèi)容(AIGC)白皮書

中的技術部分。

為了幫助不同領域的受眾群體更好的理解AIGC,我們從發(fā)展背

景、技術能力、應用價值三個方面對其概念進行深入剖析。

從發(fā)展背景方面來看,AIGC的興起源于深度學習技術的快速突

破和日益增長的數(shù)字內(nèi)容供給需求。一方面,技術進步驅(qū)動AIGC可

用性不斷增強。在人工智能發(fā)展初期,雖然對AIGC進行了一些初步

嘗試,但受限各種因素,相關算法多基于預先定義的規(guī)則或者模板,

還遠遠算不上是智能創(chuàng)作內(nèi)容的程度。近年來,基于深度學習算法的

AIGC技術快速迭代,徹底打破了原先模板化、公式化、小范圍的局

限,可以快速、靈活地生成不同模態(tài)的數(shù)據(jù)內(nèi)容。另一方面,海量需

求牽引AIGC應用落地。隨著數(shù)字經(jīng)濟與實體經(jīng)濟融合程度不斷加深,

以及Meta、微軟、字節(jié)跳動等平臺型巨頭的數(shù)字化場景向元宇宙轉(zhuǎn)

型,人類對數(shù)字內(nèi)容總量和豐富程度的整體需求不斷提高。數(shù)字內(nèi)容

的生產(chǎn)取決于想象能力、制造能力和知識水平;傳統(tǒng)內(nèi)容生產(chǎn)手段受

限于人力有限的制造能力,逐漸無法滿足消費者對于數(shù)字內(nèi)容的消費

需求,供給側產(chǎn)能瓶頸日益凸顯?;谝陨显颍珹IGC在各行業(yè)中

得到越來越廣泛的應用,市場潛力逐漸顯現(xiàn)。

從技術能力方面來看,AIGC根據(jù)面向?qū)ο蟆崿F(xiàn)功能的不同可

分為三個層次。一是智能數(shù)字內(nèi)容孿生,其主要目標是建立現(xiàn)實世界

到數(shù)字世界的映射,將現(xiàn)實世界中的物理屬性(如物體的大小、紋理、

顏色等)和社會屬性(如主體行為、主體關系等)高效、可感知地進

5

人工智能生成內(nèi)容(AIGC)白皮書

行數(shù)字化。二是智能數(shù)字內(nèi)容編輯,其主要目的是建立數(shù)字世界與現(xiàn)

實世界的雙向交互。在數(shù)字內(nèi)容孿生的基礎上,從現(xiàn)實世界實現(xiàn)對虛

擬數(shù)字世界中內(nèi)容的控制和修改,同時利用數(shù)字世界高效率仿真和低

成本試錯的優(yōu)勢,為現(xiàn)實世界的應用提供快速迭代能力。三是智能數(shù)

字內(nèi)容創(chuàng)作,其主要目標是讓人工智能算法具備內(nèi)容創(chuàng)作和自我演化

的能力,形成的AIGC產(chǎn)品具備類似甚至超越人的創(chuàng)作能力。以上三

個層面的能力共同構成AIGC的能力閉環(huán)。

從應用價值方面來看,AIGC將有望成為數(shù)字內(nèi)容創(chuàng)新發(fā)展的新

引擎,為數(shù)字經(jīng)濟發(fā)展注入全新動能。一方面,AIGC能夠以優(yōu)于人

類的制造能力和知識水平承擔信息挖掘、素材調(diào)用、復刻編輯等基礎

性機械勞動,從技術層面實現(xiàn)以低邊際成本、高效率的方式滿足海量

個性化需求;同時能夠創(chuàng)新內(nèi)容生產(chǎn)的流程和范式,為更具想象力的

內(nèi)容、更加多樣化的傳播方式提供可能性,推動內(nèi)容生產(chǎn)向更有創(chuàng)造

力的方向發(fā)展。另一方面,AIGC能夠通過支持數(shù)字內(nèi)容與其他產(chǎn)業(yè)

的多維互動、融合滲透從而孕育新業(yè)態(tài)新模式,打造經(jīng)濟發(fā)展新增長

點,為千行百業(yè)發(fā)展提供新動能。此外,2021年以來,“元宇宙”呈

現(xiàn)出超出想象的發(fā)展爆發(fā)力;作為數(shù)實融合的“終極”數(shù)字載體,元

宇宙將具備持續(xù)性、實時性、可創(chuàng)造性等特征,也將通過AIGC加速

復刻物理世界、進行無限內(nèi)容創(chuàng)作,從而實現(xiàn)自發(fā)有機生長。

6

人工智能生成內(nèi)容(AIGC)白皮書

二、人工智能生成內(nèi)容的技術體系及其演進方向

AIGC作為人工智能技術和產(chǎn)業(yè)應用的要素之一,隨著技術能

力的不斷迭代升級,正在降低內(nèi)容創(chuàng)作門檻、釋放創(chuàng)作能力,未來

將推動數(shù)實融合趨勢下內(nèi)容創(chuàng)作的范式轉(zhuǎn)變。探討其能力體系的構

成,即賦能內(nèi)容創(chuàng)作的技術路徑,對制定領域內(nèi)標準、建立行業(yè)生

態(tài)、爭取更加廣泛的開發(fā)者和應用場景具有十分重要的意義。

本部分從技術驅(qū)動的視角出發(fā),對AIGC的能力體系進行歸納

和推理,展示現(xiàn)有技術應用和其背后技術演化整體進程。第一節(jié)首

先從技術趨勢的角度,提出AIGC的技術創(chuàng)新已經(jīng)完成由傳統(tǒng)方法

向深度學習過渡的應用創(chuàng)新階段,并逐步深化到學習范式和網(wǎng)絡結

構方面的理論創(chuàng)新階段。第二節(jié)則重點分析前沿理論多模態(tài)大模型

方面的突破,讓AIGC進行跨模態(tài)融合性創(chuàng)新成為可能,也給予了

AIGC前所未有的產(chǎn)業(yè)空間與實踐潛力。第三節(jié)進一步歸納總結在

前沿技術驅(qū)動下,AIGC賦能內(nèi)容創(chuàng)作的三大能力,并對三大能力

的技術演化路徑進行展望。

(一)AIGC技術升級步入深化階段

人工智能算法的不斷迭代是AIGC發(fā)展進步的源動力,從技術演

進的角度出發(fā),可將AIGC技術可大致劃分為傳統(tǒng)基于模板或規(guī)則的

前深度學習階段和深度神經(jīng)網(wǎng)絡快速發(fā)展的深度學習階段。

早期的AIGC技術主要依據(jù)事先指定的模板或者規(guī)則,進行簡單

的內(nèi)容制作與輸出,與靈活且真實的內(nèi)容生成有較大的差距。該時期

7

人工智能生成內(nèi)容(AIGC)白皮書

的人工智能算法并不具備強大的學習能力,而是大多依賴于預先定義

的統(tǒng)計模型或?qū)<蚁到y(tǒng)執(zhí)行特定的任務。通過巧妙地規(guī)則設計,早期

AIGC技術可以完成簡單線條、文本和旋律的生成。例如,通過定義

復雜的函數(shù)方程組,計算機所繪出的函數(shù)曲線具備某種美學圖樣;通

過記錄大量的問答文本,在面對新的問題時,計算機可以通過檢索和

匹配的方式生成簡單的答案,甚至于改寫故事。但是由于缺乏對客觀

世界的深入感知和對人類語言文字等知識的認知能力,早期的AIGC

技術普遍面臨所生成的內(nèi)容空洞、刻板、文不對題等問題。參考人類

的內(nèi)容創(chuàng)作過程,研究人員們提出,理想的AIGC算法需要具備對數(shù)

據(jù)內(nèi)容的學習能力,在理解數(shù)據(jù)的基礎上進行知識與分布的學習,最

終實現(xiàn)高質(zhì)量的內(nèi)容創(chuàng)作。

深度神經(jīng)網(wǎng)絡在學習范式2和網(wǎng)絡結構上的不斷迭代極大的提升

了人工智能算法的學習能力,從而推動了AIGC技術的快速發(fā)展。不

同于傳統(tǒng)人工智能算法,深度學習中的損失函數(shù)和梯度下降算法可以

靈活快速的調(diào)整深度神經(jīng)網(wǎng)絡中的參數(shù),從而實現(xiàn)從數(shù)據(jù)中進行學習

功能。2012年,卷積神經(jīng)網(wǎng)絡AlexNet[1]憑借優(yōu)秀的學習能力,在當

年的ImageNet大規(guī)模視覺識別挑戰(zhàn)賽中一舉奪魁,比第二名傳統(tǒng)機

器學習算法的錯誤率提升10.8個百分點,開啟了深度學習時代的序

幕。就在緊隨其后的2013年,深度變分自編碼器[2]的提出讓AIGC技

術能力有了極大的進步。對于給定的神經(jīng)網(wǎng)絡,深度變分自編碼器要

2人工智能的學習范式是指人工智能模型從數(shù)據(jù)中進行學習的方法。

8

人工智能生成內(nèi)容(AIGC)白皮書

求網(wǎng)絡的輸出是對于輸入內(nèi)容的重建,通過重參數(shù)化等技巧,網(wǎng)絡在

重建過程中學習訓練數(shù)據(jù)的統(tǒng)計分布。在測試階段,變分自編碼器通

過在學習到的統(tǒng)計分布中進行采樣,首次能比穩(wěn)定的生成從未觀測過

的低分辨率圖像。2014年,一種新的博弈學習范式伴隨著生成對抗網(wǎng)

絡[3]被提出。生成對抗網(wǎng)絡由一個生成器和一個判別器組成,判別器

致力于不斷尋找生成數(shù)據(jù)和真實數(shù)據(jù)間的不同,生成器根據(jù)判別器的

反饋不斷完善自身,以求生成真假難辨的內(nèi)容。得益于雙方博弈的學

習策略,生成內(nèi)容的真實性和清晰度都得到了極大的提升,生成對抗

網(wǎng)絡也被應用于很多內(nèi)容生成的具體應用。除了變分自編碼器和生成

對抗網(wǎng)絡,強化學習[4]、流模型[5]、擴散模型[6]等學習范式均取得了喜

人的進展,這些模型范式在不同場景中各有優(yōu)勢,讓AIGC技術可以

快速地應用到不同的場景和任務中。

深度神經(jīng)網(wǎng)絡的結構升級是推動AIGC快速發(fā)展的另一主要因

素。一方面,實驗證明,深度神經(jīng)網(wǎng)絡的學習能力和模型大小呈正相

關,伴隨著模型參數(shù)量的增加,相對應深度神經(jīng)網(wǎng)絡的能力一般會取

得大幅提升。但是,隨意地增加神經(jīng)網(wǎng)絡規(guī)模是行不通的,越大規(guī)模

神經(jīng)網(wǎng)絡往往意味著更大的訓練難度,因此深度神經(jīng)網(wǎng)絡的結構設計

顯得尤為關鍵。從早期的玻爾茲曼機,多層感知機,卷積神經(jīng)網(wǎng)絡,

到深度殘差網(wǎng)絡和Transformer大模型,網(wǎng)絡結構進化帶來了深度學

習模型參數(shù)量從幾萬到數(shù)千億躍升,模型層數(shù)也從開始的個位數(shù)逐步

發(fā)展到成百上千。深度學習模型規(guī)模上的量變引起了AIGC技術能力

9

人工智能生成內(nèi)容(AIGC)白皮書

的質(zhì)變,在新型網(wǎng)絡結構的加持下,上述的生成對抗網(wǎng)絡等算法開始

能生成超高清晰度的視頻,高質(zhì)量的文本段落和優(yōu)美靈動的樂曲旋律。

另一方面,研究者們在深度神經(jīng)網(wǎng)絡結構的設計中引入包含語義的隱

式表達和物理知識,以降低模型的訓練難度、增強生成內(nèi)容的豐富程

度。例如,研究者發(fā)現(xiàn)通過在神經(jīng)網(wǎng)絡的每一層引入隱式表達,能夠

極大地提升內(nèi)容生成算法的可控性和生成效果[7]。另外,在三維數(shù)據(jù)

的生成任務中,神經(jīng)輻射場[8]在網(wǎng)絡結構設計時充分考慮了物理世界

的固有約束,極大提升了三維渲染效率和效果。

AIGC要真正發(fā)揮對不同行業(yè)的驅(qū)動作用,需要與各行各業(yè)的特

異性場景深度融合。在處理這些實際應用中,深度學習算法在感知、

認知、模仿、生成等方向的基礎能力決定了AIGC技術所能創(chuàng)作的生

產(chǎn)力。近些年中,這些算法技術齊頭并進、百花齊放,并最終形成了

AIGC應用于不同場景的底層支撐。通過人工智能支撐技術的不斷升

級,AIGC技術將持續(xù)賦能各類文化創(chuàng)意、生產(chǎn)生活、科學發(fā)現(xiàn)[9,10]等

各種場景。

(二)AIGC大模型架構潛力凸顯

超級深度學習近年來的快速發(fā)展帶來了深度神經(jīng)網(wǎng)絡技術在大

模型和多模態(tài)兩個方向上的不斷突破,并為AIGC技術能力的升級提

供了強力的支撐和全新的可能性。當前AIGC技術已經(jīng)從最初追求生

成內(nèi)容的真實性的基本要求,發(fā)展到滿足生成內(nèi)容多樣性、可控性的

進階需求,并開始追求生成內(nèi)容的組合性。數(shù)字內(nèi)容的組合性一方面

10

人工智能生成內(nèi)容(AIGC)白皮書

關注復雜場景、長文本等內(nèi)容中各個元素的組合,例如虛擬數(shù)字世界

中人、物和環(huán)境間的交互并組合生成為整體場景;長篇文字內(nèi)容用詞、

語句、段落間的相互呼應和組合。另一方面,組合性追求概念、規(guī)則

等抽象表達的組合,以此完成更加豐富和生動的數(shù)字內(nèi)容生成,這些

新出現(xiàn)的需求對傳統(tǒng)單一模態(tài)的人工智能算法框架提出了新的挑戰(zhàn)。

近年來,研究界在大規(guī)模深度網(wǎng)絡、多模態(tài)人工智能方面的探索表明

大模型具備易擴展性,能夠?qū)崿F(xiàn)跨模態(tài)的知識沉淀,以大模型為基礎

模型,通過大模型小型化技術使得人工智能在小數(shù)據(jù)集場景下也能具

備優(yōu)秀的理解、生成和泛化能力,具有超大規(guī)模、超多參數(shù)量的多模

態(tài)大型神經(jīng)網(wǎng)絡將引領AIGC技術升級正在成為學界、產(chǎn)業(yè)界共識3。

1.視覺大模型提升AIGC感知能力

以圖像、視頻為代表的視覺數(shù)據(jù)是互聯(lián)網(wǎng)時代信息的主要載體之

一,這些視覺信息時刻記錄著物理世界的狀態(tài),并在不斷傳播和再創(chuàng)

作的過程中,反映人的想法、觀念和價值主張。賦以人工智能模型感

知并理解這些海量的視覺數(shù)據(jù)的能力[11],是實現(xiàn)人工智能生成數(shù)字內(nèi)

容、數(shù)字孿生的基礎;感知能力的提升,是實現(xiàn)生成視覺內(nèi)容語義明

確、內(nèi)涵豐富、效果逼真的前提。

針對視覺信息的感知研究,在傳統(tǒng)機器學習時代主要基于科研人

員手動建模的特征和基于統(tǒng)計學習理論構建的樸素分類器,例如支持

3百度文心大模型:/;OpenAIDALL·E2大模型:/dall-e-2/;智

源研究院大模型:/s/j8q018Lck1TWHO3NxQDiJQ

11

人工智能生成內(nèi)容(AIGC)白皮書

向量機模型(SVM),其能完成的任務類型和感知能力都非常有限;

在深度學習時代,主要基于深度神經(jīng)網(wǎng)絡模型,例如深度殘差網(wǎng)絡

(ResNet),其數(shù)據(jù)驅(qū)動的端到端學習范式使得模型的感知能力有了

顯著提升,在工業(yè)界也得到廣泛的應用。但是,這類模型往往針對單

一感知任務進行設計,很難同時完成多種視覺感知任務。如何解決不

同場景、環(huán)境和條件下的視覺感知問題,并實現(xiàn)魯棒、準確、高效的

視覺理解,是AIGC技術必須要解決的挑戰(zhàn)。

以視覺Transformer(ViT,一種神經(jīng)網(wǎng)絡模型)[12]為代表的新

型神經(jīng)網(wǎng)絡,因其優(yōu)異的性能、模型的易擴展性、計算的高并行性,

正在成為視覺領域的基礎網(wǎng)絡架構,并且逐漸發(fā)展出來十億甚至百億

參數(shù)規(guī)模的模型。在過去的2-3年間,視覺感知和理解技術正迎來突

飛猛進的發(fā)展。無監(jiān)督學習技術,包括對比式自監(jiān)督學習(例如

SimCLR和MoCo系列技術)和生成式自監(jiān)督學習(例如MAE技術),

能夠大幅降低訓練模型所需的有標注數(shù)據(jù)的數(shù)量。經(jīng)過無監(jiān)督預訓練

的深度神經(jīng)網(wǎng)絡模型,僅需要在少量的有標注樣本上經(jīng)過微調(diào)學習,

即可在多種場景,線上線下均取得優(yōu)異的性能。近年來基于

Transformer衍生出來一系列網(wǎng)絡結構,例如SwinTransformer[13]、

ViTAETransformer[14,15]。通過將人類先驗知識引入網(wǎng)絡結構設計,使

得這些模型具有了更快的收斂速度、更低的計算代價、更多的特征尺

度、更強的泛化能力,從而能更好地學習和編碼海量數(shù)據(jù)中蘊含的知

識。這些新型的大模型架構,通過無監(jiān)督預訓練和微調(diào)學習的范式,

12

人工智能生成內(nèi)容(AIGC)白皮書

在圖像分類、目標檢測、語義分割、姿態(tài)估計、圖像編輯以及遙感圖

像解譯等多個感知任務上取得了相比于過去精心設計的多種算法模

型更加優(yōu)異的性能和表現(xiàn)[16,17],有望成為基礎視覺模型(Foundation

VisionModel),顯著提升場景感知能力,助力AIGC領域的發(fā)展。

基于視覺Transformer完成多種感知任務的聯(lián)合學習是目前的研

究熱點。通過探索不同任務關聯(lián)關系,挖掘豐富的監(jiān)督信號,能夠促

使模型學習到更具泛化能力和可被理解的特征表示。此外,聯(lián)合文本、

語音等不同模態(tài)數(shù)據(jù)進行聯(lián)合學習,探索不同模態(tài)數(shù)據(jù)的語義關聯(lián)和

信息互補,也是訓練視覺大模型的重要路徑。由此得到的視覺基礎大

模型在環(huán)境感知、內(nèi)容檢索、語義理解、模態(tài)對齊等任務上具備先天

的優(yōu)勢,對于提升AIGC基礎環(huán)境孿生能力、豐富AIGC應用場景具

有重要價值。

2.語言大模型增強AIGC認知能力

作為人類文明的重要記錄方式,語言和文字記錄了人類社會的歷

史變遷、科學技術和知識文化等。利用人工智能技術對海量語言、文

本數(shù)據(jù)進行信息挖掘和內(nèi)容理解是AIGC技術的關鍵一環(huán)。一方面,

語言模型的訓練和學習是進行文本生成的核心基礎;另一方面,學習

并理解人類語言將大幅豐富數(shù)字內(nèi)容的生產(chǎn)能力,創(chuàng)新、豐富數(shù)字內(nèi)

容的生產(chǎn)方式,例如構建低門檻創(chuàng)作工具,使用戶通過語言描述就能

完成例如語言定位、語言編輯等高階編輯操作。

在如今信息復雜的場景中,數(shù)據(jù)質(zhì)量參差不齊、任務種類多,導

13

人工智能生成內(nèi)容(AIGC)白皮書

致數(shù)據(jù)孤島和模型孤島的存在,傳統(tǒng)自然語言處理技術的不足尤為明

顯:模型設計、部署困難;數(shù)據(jù)難以復用;難以學習海量無標簽數(shù)據(jù)

挖掘、知識提取的共性能力。

對于傳統(tǒng)自然語言處理技術的普遍問題,基于語言的大模型技術

可以充分利用海量無標注文本進行預訓練,從而賦予文本大模型在小

數(shù)據(jù)集、零數(shù)據(jù)集場景下的理解和生成能力?;诖笠?guī)模預訓練的語

言模型不僅能夠在情感分析、語音識別、信息抽取、閱讀理解等文本

理解場景中表現(xiàn)出色,而且同樣適用于圖片描述生成、廣告生成、書

稿生成、對話生成等文本生成場景。這些復雜的功能往往只需要通過

簡單的無標注文本數(shù)據(jù)收集,訓練部署一個通用的大規(guī)模預訓練模型

即可實現(xiàn)。研究者們相信基于語言的認知智能可以更快的加速通用人

工智能的到來。例如,谷歌和OpenAI分別提出大規(guī)模預訓練模型

BERT[18]和GPT[19],在諸多自然語言理解和生成任務上取得了突破性

的性能提升,驗證了大模型在零資源、小樣本、中低資源場景的優(yōu)越

性。緊隨其后,國內(nèi)外知名企業(yè)和高校均投入非常大的人力、算力、

數(shù)據(jù)于自然語言處理大模型的研發(fā),包括谷歌、微軟、Meta、清華大

學、斯坦福大學、華盛頓大學、卡內(nèi)基·梅隆大學、京東、華為、百度

等等。模型參數(shù)量也從最初的千萬級發(fā)展到了千億級別[20],訓練代價

也從數(shù)十天增長到了不容忽略的幾十萬天(按在單張V100上計算)。

顯然,指數(shù)級增長的成本換取的微弱增益讓人們意識到,如何設

計更高效率的自監(jiān)督學習方法、更高參數(shù)效用比的模型架構、更綠色

14

人工智能生成內(nèi)容(AIGC)白皮書

節(jié)能的訓練框架成為了大模型未來方向之一。在這個方向上,諸多機

構開始了高效綠色的大模型探索之路,并且取得了顯著的效果,如通

用語言理解評估基準(GLUE)目前(2022年6月)在榜第一名的是

由京東探索研究院研發(fā)的Vegav1織女模型4,依托于預訓練階段多種

文本粒度、語種類型、負采樣方式上的自監(jiān)督學習創(chuàng)新,實現(xiàn)了高效

的數(shù)據(jù)知識提取,并采用了有理論支撐的更快捷的分布式優(yōu)化器。此

外,超級深度學習模型可以通過非常低成本的微調(diào)快速適應新的產(chǎn)業(yè)、

領域、行業(yè),實現(xiàn)跨模態(tài)、全鏈路的知識積累、沉淀、傳播、復用。

基于語言的超級深度學習技術的發(fā)展趨勢主要體現(xiàn)在訓練模型

的數(shù)據(jù)量日益增大、數(shù)據(jù)種類也更加豐富,模型規(guī)模增大、參數(shù)量以

指數(shù)倍增加。通過不斷構建語義理解能力增強、邏輯知識可抽象學習、

同時適用于多種任務的語言大模型,將會對AIGC場景中的各項認知

應用產(chǎn)生極大價值。

3.多模態(tài)大模型升級AIGC內(nèi)容創(chuàng)作能力

在日常生活中,視覺和語言是最常見且重要的兩種模態(tài)[21],上述

的視覺大模型可以構建出人工智能更加強大的環(huán)境感知能力,而語言

大模型則可以學習到人類文明的抽象概念以及認知的能力。然而

AIGC技術如果只能生成單一模態(tài)的內(nèi)容,那么AIGC的應用場景將

極為有限、不足以推動內(nèi)容生產(chǎn)方式的革新。多模態(tài)大模型的出現(xiàn),

4/leaderboard

15

人工智能生成內(nèi)容(AIGC)白皮書

則讓融合性創(chuàng)新成為可能,極大豐富了AIGC技術可應用的廣度。對

于包含多個模態(tài)的信息,多模態(tài)大模型則致力于處理不同模態(tài)、不同

來源、不同任務的數(shù)據(jù)和信息,從而滿足AIGC場景下新的創(chuàng)作需求

和應用場景。

多模態(tài)大模型擁有兩種能力,一個是尋找到不同模態(tài)數(shù)據(jù)之間的

對應關系,例如將一段文本和與之對應的圖片聯(lián)系起來;另一個是實

現(xiàn)不同模態(tài)數(shù)據(jù)間的相互轉(zhuǎn)化與生成,比如根據(jù)一張圖片生成對應的

語言描述。為了尋找到不同模態(tài)數(shù)據(jù)之間的對應關系,多模態(tài)大模型

將不同模態(tài)的原始數(shù)據(jù)映射到統(tǒng)一或相似語義空間當中,從而實現(xiàn)不

同模態(tài)的信號之間的相互理解與對齊,這一能力最常見的例子就是互

聯(lián)網(wǎng)中使用文字搜索與之相關圖片的圖文搜索引擎。在此基礎上,多

模態(tài)大模型可以進一步實現(xiàn)不同模態(tài)數(shù)據(jù)間的相互轉(zhuǎn)化與生成,這一

能力是進行AIGC原生創(chuàng)作的關鍵。

來源:京東探索研究院

圖2AIGC多模態(tài)大模型生成結果圖

如圖2所示,只需給定用戶簡單手繪的語義圖或是素描圖,多模

16

人工智能生成內(nèi)容(AIGC)白皮書

態(tài)大模型學習模型便能夠創(chuàng)作出逼真的風景圖像,同時,當給定具體

文本語義時,圖像中的內(nèi)容也將隨之改變,展現(xiàn)出不同的季節(jié)亦或是

“黃昏時河道干涸”的場景。再以OpenAI最新提出的多模態(tài)大模型

DALL-E2為例,給定一個已有的場景圖像,該模型能夠在指定位置

添加指定的目標主體,如圖3所示,當要求在沙發(fā)上(位置3處)添

加一只柯基狗時,算法可以在指定位置添加不同形態(tài)的真實的柯基;

當要求在左側畫框中(位置1處)添加一只柯基時,算法先是成功的

識別出該位置是一幅畫,并創(chuàng)作了符合相應畫風的柯基狗5。基于多模

態(tài)大模型,AIGC具備了更加接近于人類的創(chuàng)作能力,并真正的開始

展示出代替人類進行內(nèi)容創(chuàng)作,進一步解放生產(chǎn)力的潛力。

來源:OpenAI

圖3OpenAIAIGC多模態(tài)大模型DALLE2生成結果圖

對于人工智能而言,能夠高質(zhì)量的完成多模態(tài)數(shù)據(jù)的對齊、轉(zhuǎn)換

5/dall-e-2/

17

人工智能生成內(nèi)容(AIGC)白皮書

和生成任務意味著模型對物理世界具備了極為深刻的理解。從某種程

度而言,基于多模態(tài)大模型的AIGC是人工智能算法邁向通用人工智

能的重要一步。就好像人類通過不斷的對比試錯、總結歸納來了解我

們身處的物理世界一樣,多模態(tài)AIGC大模型也有希望能夠自行總結

客觀規(guī)律,發(fā)展出認知與常識,進而幫助人類創(chuàng)造出新的數(shù)字世界。

(三)AIGC技術演化出三大前沿能力

AIGC技術被廣泛應用于音頻、文本、視覺等不同模態(tài)數(shù)據(jù),并

構成了豐富多樣的技術應用。本節(jié)歸納AIGC變革內(nèi)容創(chuàng)作方式的三

大前沿能力(如圖4所示),分別是智能數(shù)字內(nèi)容孿生能力,智能數(shù)

字內(nèi)容編輯能力和智能數(shù)字內(nèi)容創(chuàng)作能力。

來源:京東探索研究院

圖4AIGC的三大前沿能力

1.增強與轉(zhuǎn)譯構建數(shù)字內(nèi)容孿生能力

內(nèi)容數(shù)字化是現(xiàn)今所有數(shù)字系統(tǒng)得以存在和運轉(zhuǎn)的前提,其過程

18

人工智能生成內(nèi)容(AIGC)白皮書

是指將視覺、聲音、文本等信息轉(zhuǎn)化為數(shù)字格式。傳統(tǒng)的數(shù)字化主要

關注對傳感器所采集數(shù)據(jù)的客觀記錄和儲存,但容易忽略所記錄的內(nèi)

容本身的完整性和相關語義。相比于傳統(tǒng)的內(nèi)容數(shù)字化,智能數(shù)字內(nèi)

容孿生技術致力于進一步挖掘數(shù)據(jù)中的有效信息,在深入理解數(shù)據(jù)內(nèi)

容的基礎上,實現(xiàn)一系列高效、準確、智能的數(shù)字內(nèi)容孿生任務。作

為傳統(tǒng)數(shù)字化的擴充和升級,數(shù)字內(nèi)容的孿生技術受到了持續(xù)且廣泛

的研究。

智能數(shù)字內(nèi)容孿生可大致分為智能增強技術和智能轉(zhuǎn)譯技術兩

個主要分支??紤]現(xiàn)實場景中數(shù)據(jù)采集、傳輸和儲存中可能遇到的多

種限制,原始的數(shù)字內(nèi)容經(jīng)常會存在缺失或者損壞等問題。智能增強

技術旨在消除上述過程中的干擾和缺失問題,根據(jù)給定的低質(zhì)量原始

數(shù)據(jù)生成經(jīng)過增強后的高質(zhì)量數(shù)字內(nèi)容,力求在數(shù)字世界中孿生并重

構完整逼真的客觀世界。在計算機視覺任務中,智能增強技術多被用

于修復并增強由采集設備或環(huán)境因素引起的視覺內(nèi)容受損,例如低分

辨率、模糊、像素缺失等。同理,對于有缺陷的文本和音頻數(shù)據(jù),相

關的智能增強技術被用于解決片段缺失、脈沖干擾和音頻失真等問題,

在實際生產(chǎn)生活中為相關應用生成復原高質(zhì)量的數(shù)字內(nèi)容。

除了對各種模態(tài)數(shù)據(jù)內(nèi)容的修復和增強,近年間,數(shù)字內(nèi)容孿生

中智能增強技術在三維視覺領域取得了快速地發(fā)展。具體來說,數(shù)字

圖像是三維世界在攝影設備上的二維投影,傳統(tǒng)的數(shù)字化記錄了拍攝

影像的色彩信息,但卻無法保留三維世界中的深度、材質(zhì)和光照等信

19

人工智能生成內(nèi)容(AIGC)白皮書

息?,F(xiàn)有的數(shù)字孿生技術,可以利用對同一場景拍攝的多張照片,重

構并生成相應的三維內(nèi)容。最近,谷歌等多家國內(nèi)外科技公司正探索

使用互聯(lián)網(wǎng)上商家和用戶上傳的照片,生成并渲染不同餐廳、街道和

景點的三維全景。通過數(shù)字內(nèi)容孿生中的智能增強技術,算法可以過

濾剔除不同照片中天氣、時間、行人等擾動信息,專注于生成并渲染

不同場所的全時間段三維全景[22]。

數(shù)字內(nèi)容孿生中的智能轉(zhuǎn)譯技術是建立在對客觀世界內(nèi)容感知

的基礎上,進一步理解孿生后的數(shù)字內(nèi)容,從而實現(xiàn)多樣化的內(nèi)容呈

現(xiàn)的一類技術集合?,F(xiàn)階段比較成熟的智能轉(zhuǎn)譯技術包括給定語音信

號進行字幕合成,依據(jù)文字進行語音生成等。對于智能轉(zhuǎn)譯技術,放

在第一位的是生成內(nèi)容的準確性,無論是語音到文本還是文本生成語

音,準確地呈現(xiàn)原始信息是該類技術走向?qū)嶋H應用的基礎。在準確的

基礎上,為應對不同的使用場景,相關算法、工程人員還在不斷地提

高轉(zhuǎn)譯算法的實時性和生成語音的真實性。近些年間,智能轉(zhuǎn)譯技術

已被越來越多地應用于社交、傳媒、協(xié)同辦公、殘疾人輔助等實際場

景中,為人們的生成生活帶來更多的便利。

相比于較為成熟的語音/字幕合成,視覺內(nèi)容描述[23]是近年間學

術領域的熱點研究課題之一。視覺描述技術致力于生成能夠準確描述

給定視覺內(nèi)容(例如圖像、視頻等)的文本和語音。視覺內(nèi)容描述技

術可以被廣泛地應用于賽事轉(zhuǎn)播、智慧交通、影視娛樂等各類應用場

景中。雖然現(xiàn)階段的智能轉(zhuǎn)譯技術已經(jīng)可以初步的描述圖像(或視頻)

20

人工智能生成內(nèi)容(AIGC)白皮書

中的人物、物體和環(huán)境信息,但如何能夠準確地生成有關人物行為和

主體關系的描述仍是現(xiàn)有技術亟需突破的問題。相比于智能增強技術,

智能轉(zhuǎn)譯技術更加關注數(shù)字世界中不同模態(tài)的數(shù)字內(nèi)容間相互理解、

融合和轉(zhuǎn)換的能力,從而豐富智能數(shù)字內(nèi)容孿生技術的應用范圍和靈

活性。

數(shù)字內(nèi)容孿生技術通過對真實世界中內(nèi)容的智能增強和轉(zhuǎn)譯,將

現(xiàn)實世界的物理屬性(如物體的大小、紋理、顏色等)和社會屬性(如

主體行為、主體關系等)高效、可感知地進行數(shù)字化,實現(xiàn)現(xiàn)實世界

到數(shù)字世界的映射,構建了在數(shù)字世界中重現(xiàn)現(xiàn)實場景的能力。通過

數(shù)字內(nèi)容孿生技術,不同行業(yè)的從業(yè)者可以更好地在數(shù)字世界中進行

內(nèi)容的組織和展示。

2.理解與控制組成內(nèi)容編輯能力

在數(shù)字內(nèi)容孿生技術的基礎上,智能數(shù)字內(nèi)容編輯的相關技術構

建了虛擬數(shù)字世界與現(xiàn)實物理世界間的交互通道。一方面,對數(shù)字內(nèi)

容的編輯和控制,例如數(shù)字人技術,可以直接作用于物理世界,實現(xiàn)

實時的反饋和互動,起到對現(xiàn)實世界中主體陪伴或服務等功能;另一

方面,數(shù)字內(nèi)容編輯技術是實現(xiàn)數(shù)字仿真的基礎。例如在自動駕駛仿

真場景中,通過智能編輯,可以實現(xiàn)對同一道路上不同車況和天氣狀

況的控制?;跀?shù)字內(nèi)容仿真,算法模型可以在數(shù)字世界中學習到相

21

人工智能生成內(nèi)容(AIGC)白皮書

應的知識和技能,這些知識可以被用來反哺解決現(xiàn)實世界中的問題6。

從技術角度看,智能數(shù)字內(nèi)容編輯主要通過數(shù)字內(nèi)容的語義理解

和屬性控制兩類技術來實現(xiàn)對內(nèi)容的修改和控制。首先,理解數(shù)字內(nèi)

容是對其進行編輯和修改的必要前提。例如,在處理音頻數(shù)據(jù)進行人

聲分離時,算法模型需要先理解輸入的原始聲音信號,才能進一步分

離其中的人聲信號和背景音,生成兩段獨立的音頻內(nèi)容。同理,對于

計算機視覺中的圖片、視頻剪輯和自然語言處理中的摘要生成任務,

都需要數(shù)字內(nèi)容的語義理解技術進行相關語義的理解和概括,繼而修

改輸入的原始數(shù)據(jù)以得到最終的生成結果。

值得注意的是,現(xiàn)實世界中的內(nèi)容大多是由多種不同的語義信息

組成的。例如,一張人臉照片實際上是由人物的身份信息、面部動作、

拍攝視角、攝影設備和光照條件等許多語義信息一同決定的。早期的

語義理解技術更多的是將某個內(nèi)容當做一個整體進行理解,在學習到

的數(shù)字表征中不同類別的語義信息往往是糾纏在一起的。雖然可以應

用于解決某些數(shù)字內(nèi)容編輯任務,但卻難以對不同的語義進行精確的

理解和修改?;谏赡P偷目山怦钫Z義學習技術是解決語義糾纏問

題的可行解決方案之一,并在近些年間取得了快速的發(fā)展。通過理解

并學習不同語義成分的變化,可解耦語義學習技術對數(shù)據(jù)內(nèi)容具有更

深刻的理解,并逐漸開始服務于人工智能試妝、試衣、生成同一個人

6/omniverse/media-entertainment/

22

人工智能生成內(nèi)容(AIGC)白皮書

不同年齡照片等新興應用程序。

在充分理解數(shù)字內(nèi)容語義的基礎上,屬性控制技術構成了數(shù)字內(nèi)

容編輯的另一主要分支。在語義理解的基礎上,數(shù)字內(nèi)容的智能屬性

控制技術將直接根據(jù)用戶指定的屬性,對原有的內(nèi)容進行精確地修改、

編輯和二次生成。常用的屬性控制技術已經(jīng)廣泛地應用于智能圖像編

輯、文本情感改寫和智能調(diào)音等多項應用中,并潛移默化地服務人們

的生活,作為輔助功能提升內(nèi)容創(chuàng)作者的效率。此外,先進的智能內(nèi)

容編輯技術結合了語義理解技術和屬性控制技術,在處理三維動畫內(nèi)

容時,在學習可解耦的視角、光照和角色等語義特征的基礎上,智能

屬性控制技術以比傳統(tǒng)算法更加高效且穩(wěn)定的方式完成虛擬現(xiàn)實、游

戲、電影中的渲染和操控[24];在構造數(shù)字人時,屬性控制能力可以根

據(jù)實際需要快速地編輯數(shù)字人的外貌、音色、感情、表情等屬性,以

完成數(shù)字人技術在不同場合環(huán)境中的應用。

數(shù)字內(nèi)容編輯技術在內(nèi)容孿生技術的基礎上,具備了對現(xiàn)實世界

內(nèi)容進行語義理解和屬性操控的能力,從而構建了數(shù)字世界對現(xiàn)實世

界內(nèi)容的影響和反饋。在數(shù)字世界中的操作和嘗試將不受限于場地、

成本、資源消耗等客觀約束,所得到的經(jīng)驗知識也能夠更好地反饋給

現(xiàn)實世界,提升生產(chǎn)生活的效率。

3.模仿與概念學習造就內(nèi)容創(chuàng)作能力

上述的數(shù)字內(nèi)容的孿生和編輯能力主要面向客觀世界中的真實

內(nèi)容,通過對現(xiàn)實內(nèi)容的智能孿生、理解、控制和編輯,AIGC算法

23

人工智能生成內(nèi)容(AIGC)白皮書

可以快速準確地將現(xiàn)實世界的內(nèi)容映射到虛擬世界中,并通過控制仿

真等方法,對現(xiàn)實世界產(chǎn)生正向的反饋和幫助。更進一步,數(shù)字內(nèi)容

的智能創(chuàng)作旨在讓人工智能算法具備類似甚至超越人的創(chuàng)作能力。

1968年,畢加索曾這樣評價計算機技術:“它們是沒用的,只能簡單

的給出答案。”但在54年后的今天,百度已經(jīng)可以通過人工智能模

型進行繪畫創(chuàng)作,并被西安美院的教授評價為具有“美院畢業(yè)生水平”,

在短短24小時內(nèi)就售出了8700多份,銷售額超過17萬元7。無需基

于任何現(xiàn)實世界中存在的內(nèi)容主體,基于人工智能算法的內(nèi)容創(chuàng)作能

力有望生成海量的原創(chuàng)數(shù)字內(nèi)容。

按照技術的發(fā)展進程和實際應用的形態(tài),數(shù)字內(nèi)容的創(chuàng)作能力可

劃分為基于模仿的創(chuàng)作和基于概念的創(chuàng)作兩類?;谀7碌膭?chuàng)作需要

人工智能模型首先觀察人類的作品,通過學習某一類作品的分布特性,

人工智能生成模型可以進行模仿式的新創(chuàng)作。以前文中提到的佳士得

拍賣的肖像畫為例,人工智能算法利用大約15000張創(chuàng)作于14世紀

到20世紀的肖像畫,從中學習作畫的筆法、內(nèi)容、藝術風格等。最

終,人工智能內(nèi)容生成模型所創(chuàng)作的肖像畫通過了視覺圖靈測試,讓

絕大部分人類都難以區(qū)分這幅畫是藝術家創(chuàng)作的,還是人工智能的作

品。不僅僅局限于智能作畫,基于模仿的人工智能生成模型在旋律創(chuàng)

作、文本寫作和詩詞創(chuàng)作等具體任務中都取得了不錯的表現(xiàn)。對于某

一類具體的內(nèi)容,例如人物畫像、押韻詩歌或樂曲旋律,現(xiàn)有的人工

7/a/557118794_362042

24

人工智能生成內(nèi)容(AIGC)白皮書

智能技術基本可以創(chuàng)作出讓人真假難辨的數(shù)字內(nèi)容。但同時,面對更

加復雜的數(shù)據(jù)內(nèi)容,例如三維數(shù)據(jù)、視頻數(shù)據(jù)等,現(xiàn)有的技術所創(chuàng)作

的內(nèi)容相比于真實內(nèi)容仍有一定差距,需要算法模型的不斷完善來縮

小這些內(nèi)容的創(chuàng)作難度。

基于概念的創(chuàng)作不再簡單的對固定種類的數(shù)據(jù)進行觀察和模仿,

而是致力于在海量的數(shù)據(jù)中學習抽象的概念,進而通過對不同概念的

組合進行全新的創(chuàng)作。以文本到圖像的生成為例,給定的文本不僅可

以描述生成內(nèi)容中需要包含的主體內(nèi)容、數(shù)量和關系,還可以指定生

成圖像的風格、年代等屬性。在現(xiàn)實世界中,人們可能只能見到“木

頭制作的椅子”,“獅子在捕獵獾鼠”等內(nèi)容,但是通過文本描述,

基于概念的創(chuàng)作技術可以創(chuàng)作出“牛油果制作的椅子”,“在獵捕獅

子的獾鼠”等視覺內(nèi)容[25]。在更進一步理解不同主體間動作、行為、

和關系基礎上,已經(jīng)有相關的前沿研究開始嘗試通過故事或者劇本描

述,創(chuàng)作影視短片。總體來說,基于概念的智能創(chuàng)作與上述智能孿生

中的轉(zhuǎn)譯技術不同,智能轉(zhuǎn)譯更關注對已有內(nèi)容的精確表達和轉(zhuǎn)換,

而基于概念的智能創(chuàng)作是在給定模糊概念的基礎上,進行自由生成和

創(chuàng)作。數(shù)字內(nèi)容基于概念的創(chuàng)作很大程度上依賴于算法模型對多模態(tài)

數(shù)據(jù)的理解、對齊、融合和生成,依賴于人類社會中海量的數(shù)據(jù)以及

相關的描述?;诟拍畹膭?chuàng)作擺脫了對簡單學習紋理、形狀、顏色的

模仿,進一步像人類一樣開始學習和總結創(chuàng)作中包含的概念元素,實

現(xiàn)更通用、更高效、更智能的AIGC應用。

25

人工智能生成內(nèi)容(AIGC)白皮書

伴隨著深度神經(jīng)網(wǎng)絡的快速發(fā)展,人工智能模型的規(guī)模和能力都

在不斷被刷新,憑借著數(shù)據(jù)內(nèi)容的快速增長,算力的爆發(fā)以及算法模

型的不斷迭代,數(shù)字內(nèi)容創(chuàng)作技術突破到了一個新的高度,規(guī)模上不

斷變大,逐步趨近并開始超過人腦的神經(jīng)元個數(shù),能力上不斷增強,

展現(xiàn)出強大的多模態(tài)理解和生成能力。

三、人工智能生成內(nèi)容的應用場景

在全球新冠肺炎疫情延宕反復的背景下,各行業(yè)對于數(shù)字內(nèi)容的

需求呈現(xiàn)井噴態(tài)勢,數(shù)字世界內(nèi)容消耗與供給的缺口亟待彌合。AIGC

以其真實性、多樣性、可控性、組合性的特征,有望幫助企業(yè)提高內(nèi)

容生產(chǎn)的效率,以及為其提供更加豐富多元、動態(tài)且可交互的內(nèi)容,

或?qū)⒙氏仍趥髅?、電商、影視、娛樂等?shù)字化程度高、內(nèi)容需求豐富

的行業(yè)取得重大創(chuàng)新發(fā)展。

來源:中國信息通信研究院

圖2AIGC應用視圖

26

人工智能生成內(nèi)容(AIGC)白皮書

(一)AIGC+傳媒:人機協(xié)同生產(chǎn),推動媒體融合

近年來,隨著全球信息化水平的加速提升,人工智能與傳媒業(yè)的

融合發(fā)展不斷升級。AIGC作為當前新型的內(nèi)容生產(chǎn)方式,為媒體的

內(nèi)容生產(chǎn)全面賦能。寫稿機器人、采訪助手、視頻字幕生成、語音播

報、視頻錦集、人工智能合成主播等相關應用不斷涌現(xiàn),并滲透到采

集、編輯、傳播等各個環(huán)節(jié),深刻地改變了媒體的內(nèi)容生產(chǎn)模式,成

為推動媒體融合發(fā)展的重要力量。

在采編環(huán)節(jié),一是實現(xiàn)采訪錄音語音轉(zhuǎn)寫,提升傳媒工作者的工

作體驗。借助語音識別技術將錄音語音轉(zhuǎn)寫成文字,有效壓縮稿件生

產(chǎn)過程中錄音整理方面的重復工作,進一步保障了新聞的時效性。

2022年冬奧會期間,科大訊飛的智能錄音筆通過跨語種的語音轉(zhuǎn)寫

助力記者2分鐘快速出稿。二是實現(xiàn)智能新聞寫作,提升新聞資訊的

時效。基于算法自動編寫新聞,將部分勞動性的采編工作自動化,幫

助媒體更快、更準、更智能化地生產(chǎn)內(nèi)容。比如2014年3月,美國

洛杉磯時報網(wǎng)站的機器人記者Quakebot,在洛杉磯地震發(fā)生后僅3

分鐘,就寫出相關消息并進行發(fā)布;美聯(lián)社使用的智能寫稿平臺

Wordsmith可以每秒寫2000篇報道;中國地震臺網(wǎng)的寫稿機器人在

九寨溝地震發(fā)生后7秒內(nèi)就完成了相關消息的編發(fā);第一財經(jīng)“DT

稿王”一分鐘可寫出1680字[26]。三是實現(xiàn)智能視頻剪輯,提升視頻

內(nèi)容的價值。通過使用視頻字幕生成、視頻錦集、視頻拆條、視頻超

分等視頻智能化剪輯工具,高效節(jié)省人力時間成本,最大化版權內(nèi)容

27

人工智能生成內(nèi)容(AIGC)白皮書

價值。2020年全國兩會期間,人民日報社利用“智能云剪輯師”快速

生成視頻,并能夠?qū)崿F(xiàn)自動匹配字幕、人物實時追蹤、畫面抖動修復、

橫屏速轉(zhuǎn)豎屏等技術操作,以適應多平臺分發(fā)要求[27]。2022年冬奧會

期間,央視視頻通過使用AI智能內(nèi)容生產(chǎn)剪輯系統(tǒng),高效生產(chǎn)與發(fā)

布冬奧冰雪項目的視頻集錦內(nèi)容,為深度開發(fā)體育媒體版權內(nèi)容價值,

創(chuàng)造了更多的可能性。

在傳播環(huán)節(jié),AIGC應用主要集中于以AI合成主播為核心的新

聞播報等領域。AI合成主播開創(chuàng)了新聞領域?qū)崟r語音及人物動畫合

成的先河,只需要輸入所需要播發(fā)的文本內(nèi)容,計算機就會生成相應

的AI合成主播播報的新聞視頻,并確保視頻中人物音頻和表情、唇

動保持自然一致,展現(xiàn)與真人主播無異的信息傳達效果??v觀AI合

成主播在傳媒領域的應用,呈現(xiàn)三方面的特點。一是應用范圍不斷拓

展。目前新華社、中央廣播電視總臺、人民日報社等國家級媒體及湖

南衛(wèi)視等省市媒體都開始積極布局應用AI合成主播,先后推出“新

小微”、“小C”等虛擬新聞主持人,并推動其從新聞播報向晚會主

持、記者報道、天氣預報等更廣泛的場景應用,為全國兩會、冬奧會、

冬殘奧會等重大活動傳播深度賦能。二是應用場景不斷升級。除了常

規(guī)的新聞播報,AI合成主播開始陸續(xù)支持多語種播報和手語播報。

2020年全國兩會期間,多語種虛擬主播采用中、韓、日、英等多種語

言進行新聞報道,實現(xiàn)了一音多語的播報,將中國新聞傳遞給世界,

順應了信息化時代信息共享的發(fā)展潮流[28]。2022年冬奧會期間,百

28

人工智能生成內(nèi)容(AIGC)白皮書

度、騰訊等企業(yè)推出手語播報數(shù)字人,為千萬聽障用戶提供手語解說,

進一步推動觀賽的無障礙進程。三是應用形態(tài)日趨完善。在形象方面,

逐步從2D向3D拓展;在驅(qū)動范圍上,開始從口型向面部表情、肢

體、手指、背景內(nèi)容素材延伸;在內(nèi)容構建上,從支持SaaS化平臺

工具構建向智能化生產(chǎn)探索。例如騰訊3D手語數(shù)智人“聆語”,實

現(xiàn)了唇動、面部表情、肢體動作、手指動作等內(nèi)容的生成,并配套可

視化動作編輯平臺,支持對手語動作進行精修。

AIGC對傳媒機構、傳媒從業(yè)者和傳媒受眾都產(chǎn)生深刻影響。對

傳媒機構來說,AIGC通過參與新聞產(chǎn)品的生產(chǎn)過程,大幅提高生產(chǎn)

效率,并帶來新的視覺化、互動化體驗;豐富了新聞報道的形式,加

速了媒體的數(shù)字化轉(zhuǎn)型,推動傳媒向智媒轉(zhuǎn)變。對傳媒從業(yè)者來說,

AIGC可助力生產(chǎn)更具人文關懷、社會意義和經(jīng)濟價值的新聞作品;

將部分勞動性的采編播工作自動化,讓其更加專注于需要深入思考和

創(chuàng)造力的工作內(nèi)容,如新聞特稿、深度報道和專題報道等此類更需發(fā)

揮人類在精準分析事物、妥善處理情感元素等方面優(yōu)勢的細分領域。

對傳媒受眾來說,AIGC的應用可使其在更短時間內(nèi)獲得以更豐富多

元的形態(tài)呈現(xiàn)的新聞內(nèi)容,提高了其獲取新聞信息的及時性和便捷性;

降低了傳媒行業(yè)的技術門檻,促使傳媒受眾具有更多參與內(nèi)容生產(chǎn)的

機會,極大增強其參與感。

(二)AIGC+電商:推進虛實交融,營造沉浸體驗

隨著數(shù)字技術的發(fā)展和應用、消費的升級和加快,購物體驗沉浸

29

人工智能生成內(nèi)容(AIGC)白皮書

化成為電商領域發(fā)展的方向。AIGC正加速商品3D模型、虛擬主播

乃至虛擬貨場的構建,通過和AR、VR等新技術的結合,實現(xiàn)視聽等

多感官交互的沉浸式購物體驗。

生成商品3D模型用于商品展示和虛擬試用,提升線上購物體驗。

基于不同角度的商品圖像,借助視覺生成算法自動化生成商品的3D

幾何模型和紋理,輔以線上虛擬“看、試、穿、戴”,提供接近實物

的差異化網(wǎng)購體驗,助力高效提升用戶轉(zhuǎn)化。百度、華為等企業(yè)都推

出商品自動化3D建模服務,支持在分鐘級的時間內(nèi)完成商品的3D

拍攝和生成,精度可達到毫米級。相較于傳統(tǒng)2D展示,3D模型可

720°全方位展示商品主體外觀,可大幅度降低用戶選品和溝通時間,

提升用戶體驗感,快速促成商品成交。同時生成出的3D商品模型還

可用于在線試穿,高度還原商品或服務試用的體驗感,讓消費者有更

多機會接觸到產(chǎn)品或服務的絕對價值。如阿里于2021年4月上線3D

版天貓家裝城,通過為商家提供3D設計工具及商品3D模型AI生成

服務,幫助商家快速構建3D購物空間,支持消費者自己動手做家裝

搭配,為消費者提供沉浸式的“云逛街”體驗。數(shù)據(jù)顯示,3D購物的

轉(zhuǎn)化率平均值為70%,較行業(yè)平均水平提升了9倍,同比正常引導成

交客單價提升超200%,同時商品退換貨率明顯降低。此外,不少品

牌企業(yè)也開始在虛擬試用方向上開展探索和嘗試,如優(yōu)衣庫虛擬試衣、

阿迪達斯虛擬試鞋、周大福虛擬試珠寶、Gucci虛擬試戴手表和眼鏡、

宜家虛擬家具搭配、保時捷虛擬試駕等[29]。盡管目前還是采用的傳統(tǒng)

30

人工智能生成內(nèi)容(AIGC)白皮書

手動建模方式,但隨著AIGC技術的不斷進步,未來有望涌現(xiàn)更多消

費級工具,從而逐步降低3D建模的門檻和成本,助力虛擬試穿應用

大規(guī)模商用。

打造虛擬主播,賦能直播帶貨?;谝曈X、語音、文本生成技術,

打造虛擬主播為觀眾提供24小時不間斷的貨品推薦介紹以及在線服

務能力,為商戶直播降低門檻。相比真人直播間帶貨,虛擬主播具備

三大優(yōu)勢:一是虛擬主播能夠填補真人主播的直播間隙,使直播間能

不停輪播,既為用戶提供更靈活的觀看時間和更方便的購物體驗,也

為合作商家創(chuàng)造更大的生意增量。如歐萊雅、飛利浦、完美日記等品

牌的虛擬主播一般會在凌晨0點上線,并進行近9個小時的直播,與

真人主播形成了24小時無縫對接的直播服務。二是虛擬化的品牌主

播更能加速店鋪或品牌年輕化進程,拉近與新消費人群的距離,塑造

元宇宙時代的店鋪形象,未來可通過延展應用到元宇宙中更多元的虛

擬場景,實現(xiàn)多圈層傳播。如彩妝品牌“卡姿蘭”推出自己的品牌虛

擬形象,并將其引入直播間作為其天貓旗艦店日常的虛擬主播導購。

同時對于已具備虛擬品牌IP形象的傳統(tǒng)企業(yè),可直接利用已有形象

快速轉(zhuǎn)化形成虛擬品牌主播。如在2020年5月海爾直播大促活動中,

大家所熟知的海爾兄弟虛擬IP來到直播間,并同主持人和粉絲一起

互動,高達千萬播放量。三是虛擬主播人設更穩(wěn)定可控。在頭部主播

有限并且可能“人設崩塌”的情況下,虛擬主播人設、言行等由品牌

方掌握,比真人明星的可控性、安全性更強。品牌不必擔心虛擬形象

31

人工智能生成內(nèi)容(AIGC)白皮書

人設崩塌,為品牌帶來負面新聞、差評及資金損失。

賦能線上商城和線下秀場加速演變,為消費者提供全新的購物場

景。通過從二維圖像中重建場景的三維幾何結構,實現(xiàn)虛擬貨場快速、

低成本、大批量的構建,將有效降低商家搭建3D購物空間的門檻及

成本,為一些原本高度倚重線下門店的行業(yè)打開了線上線下融合的想

象空間,同時為消費者提供線上線下融合的新消費體驗。目前一些品

牌已經(jīng)開始嘗試打造虛擬空間。例如奢侈品商Gucci在一百周年品牌

慶典時,把線下的GucciGardenArchetypes展覽搬到了游戲Roblox

上,推出了為期兩周的虛擬展,5個主題展廳的內(nèi)容與現(xiàn)實展覽相互

對應。2021年7月,阿里巴巴首次展示了其虛擬現(xiàn)實計劃“Buy+”,

并提供360°虛擬的購物現(xiàn)場開放購物體驗。2021年11月,Nike和

Roblox合作,推出虛擬世界Nikeland,并向所有Roblox用戶開放。

隨著基于圖像的3D重建技術在谷歌地圖沉浸式視圖功能中的成功應

用,虛擬貨場的自動化構建未來將得到更好的應用和發(fā)展。

(三)AIGC+影視:拓展創(chuàng)作空間,提升作品質(zhì)量

隨著影視行業(yè)的快速發(fā)展,從前期創(chuàng)作、中期拍攝到后期制作的

過程性問題也隨之顯露,存在高質(zhì)量劇本相對缺乏、制作成本高昂以

及部分作品質(zhì)量有待提升等發(fā)展痛點,亟待進行結構升級。運用AIGC

技術能激發(fā)影視劇本創(chuàng)作思路,擴展影視角色和場景創(chuàng)作空間,極大

地提升影視產(chǎn)品的后期制作質(zhì)量,幫助實現(xiàn)影視作品的文化價值與經(jīng)

濟價值最大化。

32

人工智能生成內(nèi)容(AIGC)白皮書

AIGC為劇本創(chuàng)作提供新思路。通過對海量劇本數(shù)據(jù)進行分析歸

納,并按照預設風格快速生產(chǎn)劇本,創(chuàng)作者再進行篩選和二次加工,

以此激發(fā)創(chuàng)作者的靈感,開闊創(chuàng)作思路,縮短創(chuàng)作周期。國外率先開

展相關嘗試,早在2016年6月,紐約大學利用人工智能編寫的電影

劇本《Sunspring》,經(jīng)拍攝制作后入圍倫敦科幻電影(Sci-FiLondon)

48小時挑戰(zhàn)前十強[30]。2020年,美國查普曼大學的學生利用OpenAI

的大模型GPT-3創(chuàng)作劇本并制作短片《律師》。國內(nèi)部分垂直領域的

科技公司開始提供智能劇本生產(chǎn)相關的服務,如海馬輕帆推出的“小

說轉(zhuǎn)劇本”智能寫作功能,服務了包括《你好,李煥英》《流浪地球》

等爆款作品在內(nèi)的劇集劇本30000多集、電影/網(wǎng)絡電影劇本8000多

部、網(wǎng)絡小說超過500萬部。

AIGC擴展角色和場景創(chuàng)作空間。一是通過人工智能合成人臉、

聲音等相關內(nèi)容,實現(xiàn)“數(shù)字復活”已故演員、替換“劣跡藝人”、

多語言譯制片音畫同步、演員角色年齡的跨越、高難度動作合成等,

減少由于演員自身局限對影視作品的影響。如央視紀錄片《創(chuàng)新中國》

中,央視和科大訊飛利用人工智能算法學習已故配音員李易過往紀錄

片的聲音資料,并根據(jù)紀錄片的文稿合成配音,配合后期的剪輯優(yōu)化,

最終讓李易的聲音重現(xiàn)。在2020年播出的《了不起的兒科醫(yī)生》中,

主角人物的學歷事件影響了影視作品的宣傳與發(fā)行,該作品便采用了

智能影視換臉技術將主角人物進行替換,從而減少影視作品創(chuàng)作過程

中的損失。2021年,英國公司Flawless針對多語言譯制片中角色唇形

33

人工智能生成內(nèi)容(AIGC)白皮書

不同步的問題推出了可視化工具TrueSync,能通過AI深度視頻合成

技術精準調(diào)整演員的面部特征,讓演員的口型和不同語種的配音或字

幕相匹配。二是通過人工智能合成虛擬物理場景,將無法實拍或成本

過高的場景生成出來,大大拓寬了影視作品想象力的邊界,給觀眾帶

來更優(yōu)質(zhì)的視覺效果和聽覺體驗。如2017年熱播的《熱血長安》,

劇中的大量場景便是通過人工智能技術虛擬生成。工作人員在前期進

行大量的場景資料采集,經(jīng)由特效人員進行數(shù)字建模,制作出仿真的

拍攝場景,演員則在綠幕影棚進行表演,結合實時摳像技術,將演員

動作與虛擬場景進行融合,最終生成視頻[31]。

AIGC賦能影視剪輯,升級后期制作。一是實現(xiàn)對影視圖像進行

修復、還原,提升影像資料的清晰度,保障影視作品的畫面質(zhì)量。例

如中影數(shù)字制作基地和中國科技大學共同研發(fā)的基于AI的圖像處理

系統(tǒng)“中影·神思”,成功修復《厲害了,我的國》《馬路天使》等多

部影視劇。利用AI神思系統(tǒng),修復一部電影的時間可以縮短四分之

三,成本可以減少一半。同時,愛奇藝、優(yōu)酷、西瓜視頻等流媒體平

臺都開始將AI修復經(jīng)典影視作品作為新的增長領域開拓。二是實現(xiàn)

影視預告片生成。IBM旗下的人工智能系統(tǒng)Watson在學習了上百部

驚悚預告片的視聽手法后,從90分鐘的《Morgan》影片中挑選出符

合驚悚預告片特點的電影鏡頭,并制作出一段6分鐘的預告片。盡管

這部預告片需要在制作人員的重新修改下才能最終完成,但卻將預告

片的制作周期從一個月左右縮減到24小時。三是實現(xiàn)將影視內(nèi)容從

34

人工智能生成內(nèi)容(AIGC)白皮書

2D向3D自動轉(zhuǎn)制。聚力維度推出的人工智能3D內(nèi)容自動制作平臺

“崢嶸”支持對影視作品進行維度轉(zhuǎn)換,將院線級3D轉(zhuǎn)制效率提升

1000多倍。

(四)AIGC+娛樂:擴

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論