2024AIGC視頻生成:走向AI創(chuàng)生時代:視頻生成的技術(shù)演進、范式重塑與商業(yè)化路徑探索_第1頁
2024AIGC視頻生成:走向AI創(chuàng)生時代:視頻生成的技術(shù)演進、范式重塑與商業(yè)化路徑探索_第2頁
2024AIGC視頻生成:走向AI創(chuàng)生時代:視頻生成的技術(shù)演進、范式重塑與商業(yè)化路徑探索_第3頁
2024AIGC視頻生成:走向AI創(chuàng)生時代:視頻生成的技術(shù)演進、范式重塑與商業(yè)化路徑探索_第4頁
2024AIGC視頻生成:走向AI創(chuàng)生時代:視頻生成的技術(shù)演進、范式重塑與商業(yè)化路徑探索_第5頁
已閱讀5頁,還剩40頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

錄Part

02AIGC視頻生成推動世界走向“AI創(chuàng)生時代”Part

03“提示交互式”視頻制作范式重塑視頻產(chǎn)業(yè)鏈Part

04文娛領(lǐng)域有望開啟第二輪投資浪潮Part

01AIGC視頻生成的技術(shù)路線與產(chǎn)品演進趨勢1.1

Sora讓文生視頻迎來“GPT-3”時刻OpenAI發(fā)布文生視頻模型Sora,堪稱視頻生成領(lǐng)域的“GPT-3”時刻“Sora”一詞在微信指數(shù)及百度指數(shù)的關(guān)注度快速上升2月16日微信指數(shù)快速上升百度關(guān)鍵詞搜索趨勢處于高位效果逼真:普通人一時難以分辨時長感人:60秒高清視頻生成“百萬”

剪輯:堪比專業(yè)的鏡頭語言多模態(tài):文字、圖片、視頻皆可生成視頻春節(jié)假期甚至還未結(jié)束,Sora已引發(fā)全民關(guān)注“炸裂”視頻效果成為討論熱點1.2

Sora的展現(xiàn)效果Sora模型展現(xiàn)自身超強視頻生成及剪輯能力,超出其他競品一個段位能力項 Sora 其他模型基本視頻生成視頻時長60秒視頻長寬比1920*1080之間的任意尺寸20秒以內(nèi)固定尺寸比例,例如16:9,9:16,1:1等視頻清晰度1080p部分upscale后達到4k多模態(tài)生成語言理解能力強弱文本生成視頻支持支持圖片生成視頻強支持視頻生成視頻支持支持視頻編輯文本編輯視頻支持支持擴展視頻向前/向后擴展僅支持向后視頻的無縫連接支持不支持獨特模擬能力3D一致性強弱或不支持遠程相干性和物體持久性強弱世界交互強弱數(shù)字世界模擬支持不支持Sora的語言理解能力更強,可將簡短的用戶提示轉(zhuǎn)換為更長的詳細描述Sora還可以生成圖片,最高可達到2048*2048分辨率Sora通過插幀技術(shù),實現(xiàn)完全不同主題和場景構(gòu)圖的視頻之間的流暢自然的過渡效果Sora可生成具有動態(tài)攝像機運動效果的視頻,隨著攝像機的移動和旋轉(zhuǎn),人和場景元素在三維空間中保持一致移動Sora可以對短期和長期依賴關(guān)系進行建模,保持各個主體的時空連貫性和一致性Sora以簡單的方式模擬影響世界狀態(tài)的行為,比如一個人吃完漢堡可以在上面留下咬痕Sora還能夠模擬人工過程,比如視頻游戲,同時通過基本策略控制玩家,同時以高保真度渲染世界及其動態(tài)模型Gen-2pika1.0Stable

VideoDiffusionEmu

VideoW.A.L.T開發(fā)團隊RunwayPika

LabsStablity

AIMeta李飛飛及其學(xué)生團隊、谷歌時間2023年11月2023年11月2023年11月2023年11月2023年12月長度4-18秒3-7秒2-4秒4秒3秒分辨率768*448,1536*896,4096*21601280*7202560*1440576*1024512*512512*896是否開源非開源非開源開源非開源非開源其他模型情況1.2

Sora的展現(xiàn)效果3D一致性:確保景別切換時運鏡的連貫1234以上四個鏡頭由遠及近,保證了視頻鏡頭中人和場景的一致性,是其他AI生成視頻中少見的。遠程相關(guān)性和物體持久性1 23 4以上四個鏡頭在同一視頻中生成,包括機器人的多個角度。畫家可以在畫布上留下新的筆觸,并隨著時間的推移而持續(xù)存在。與世界互動:Sora有時可以用簡單的方式模擬影響世界狀況的動作模擬數(shù)字世界例如,Sora可以同時通過基本策略控制《我的世界》中的玩家,同時以高保真度渲染世界及其動態(tài)。不同主題場景視頻的無縫連接一鍵進行風格渲染基于時空雙維度的視頻擴展大模型訓(xùn)練的“暴力美學(xué)”在視頻生成領(lǐng)域再次涌現(xiàn)卓越特性O(shè)penAI發(fā)現(xiàn)視頻模型在大規(guī)模訓(xùn)練時表現(xiàn)出許多有趣的“涌現(xiàn)”能力,使Sora能夠從物理世界中模擬人、動物和環(huán)境。值得一提的是OpenAI官網(wǎng)所說的“theyare

purely

phenomenaof

scale”——它們純粹是“規(guī)?,F(xiàn)象”,這再一次驗證了“暴力美學(xué)”。文/圖像/視頻生視頻的功能 視頻剪輯功能1.3

Sora的出現(xiàn)意味著AGI的又一個里程碑時刻備注說明:信能比,是甲子光年智庫發(fā)明的概念,反映單位能源所能駕馭的信息量。信能比通過單位時間內(nèi)產(chǎn)生/傳輸/使用/存儲的信息量除以單位時間內(nèi)所消耗的能源量計算得出,反映單位能源所能調(diào)用的信息量水平的高低。信能比可以體現(xiàn)數(shù)據(jù)智能技術(shù)的先進性和能源效率的高效性:它能夠反映整個社會數(shù)字化、智能化水平的高低;它能體現(xiàn)能源體系的可持續(xù)發(fā)展能力;它能反映生產(chǎn)力的高低和生產(chǎn)效率的提升;它能體現(xiàn)社會經(jīng)濟發(fā)展的先進性、創(chuàng)新性、可持續(xù)性。原始時代 農(nóng)業(yè)時代 工業(yè)時代第一臺計算機…第一代PCiPhone4GPT-1 GPT-2GPT-3ChatGPTGPT-4SoraAGI50002001946198520102018

2019

2020

20222023

2025

2030>300Sora意味著scaling

law(規(guī)模法則)再次驗證,推動文生視頻進入“GPT-3”時刻Scaling

law(規(guī)模法則)的再次驗證:雖然Sora并不十全十美,但它通過scaling

law和原有模型拉開了差距,為視頻生成領(lǐng)域提供了另一條可以走通的路線,推動行業(yè)進入全新的階段。文生視頻的“GPT-3”時刻:從發(fā)展階段類比,Sora更像文本模型的GPT-3時刻。ChatGPT讓人類看到實現(xiàn)AGI的雛形,Sora讓實現(xiàn)AGI的目標又進一步。智能新世代:Sora向AGI再進一步0信能比+∞<

AI賦能生產(chǎn)力躍遷<

AI賦能生產(chǎn)力二次躍遷,開啟智能新世代無窮小信息時代數(shù)字時代智能新世代信能比>300信能比>100宙線:時間(人類文明進化歷程)當下文本生成模型推動人類向AGI邁過第一個里程碑文生視頻模型推動人類向AGI邁過又一個里程碑1.4

Sora開啟“明牌游戲”,推動AIGC應(yīng)用時間軸進一步被壓縮詐騙垃圾信息識別翻譯基礎(chǔ)問答回應(yīng)基礎(chǔ)文案撰寫初稿更長的文本二稿垂直領(lǐng)域的文案撰寫實現(xiàn)可精調(diào)(論文等)終稿,水平接近人類平均值終稿,水平高于人類平均值終稿,水平高于專業(yè)寫手單行代碼補足多行代碼生成更長的代碼更精確的表達支持更多語種領(lǐng)域更垂直根據(jù)文本生成初版應(yīng)用程序根據(jù)文本生成初版應(yīng)用程序根據(jù)文本生成終版應(yīng)用程序,比全職開發(fā)者水平更高藝術(shù)圖標攝影模仿(產(chǎn)品設(shè)計、建筑等)終稿(海報設(shè)計、產(chǎn)品設(shè)計等)終稿(產(chǎn)品設(shè)計、建筑等)終稿,水平高于專職藝術(shù)家、設(shè)計師等視頻和3D文件的基礎(chǔ)版/初稿根據(jù)文本生成初版的短視頻根據(jù)文本生成初版的長視頻,并實際應(yīng)用于制作環(huán)節(jié)AI版Roblox可依個人夢想定制的游戲與電影領(lǐng)域類型2020年之前2025年E2030年E文本領(lǐng)域代碼領(lǐng)域圖像領(lǐng)域視頻/3D/游戲領(lǐng)域大模型成熟難度: 初級嘗試2020年 2022年接近成熟2023年成熟應(yīng)用2024年E51.9%37.6%32.4%27.6%26.2%22.4%17.1%文本生成類圖像生成類科研文字生成類視頻生成類代碼生成類語音生成類多模態(tài)生成類歷史反復(fù)表明,一旦先行者模式驗證,后來者整體的應(yīng)用進程時間表將加快先行者往往要花費大量時間精力試錯,一旦模式跑通,“明牌游戲”就開啟了。后來者會有更好的參考系和聚焦方向。ChatGPT后續(xù)的文本生成模型進展就說明了這一點。過去一年,AI文本生成和圖像生成相繼走向成熟,Sora的發(fā)布意味著視頻生成應(yīng)用走向成熟的時間比原先預(yù)計的更早出現(xiàn),AIGC已經(jīng)加速邁入視頻生成階段。對此,甲子光年智庫更新了生成式AI技術(shù)的成熟應(yīng)用進程時間表。2024年可實現(xiàn)根據(jù)文本提示生成初版短視頻,2025年有望實現(xiàn)根據(jù)文本生成初版長視頻,并在視頻制作環(huán)節(jié)真實使用落地。圖1:AIGC用戶偏好使用的大模型產(chǎn)品類型 圖2:生成式AI技術(shù)的成熟應(yīng)用進程時間表1.5

Sora驗證視頻生成的新技術(shù)范式Sora的出現(xiàn)意味著視頻生成的DiT技術(shù)路線得到有力驗證視頻生成技術(shù)路線在過去主要有兩條,一條是基于Transformer的路線,以Phenaki為代表,第二條是Diffusion

Model(擴散模型)路線,該路線在2023年是主流路線,誕生了Meta的Make-A-Video、英偉達的Video

LDM,Runway的Gen1、Gen2,字節(jié)的MagicVideo等代表性產(chǎn)品。Sora的發(fā)布,對Transformer

+

Diffusion

Model(DiT)路線進行了成果矚目的驗證。時間2024生成視頻質(zhì)量Transformer+Diffusion

Model早期20222023TransformerGAN+

VAE早期路線Transformer路線DiT路線代表產(chǎn)品:SoraDiffusionModel擴散模型路線代表產(chǎn)品:Make-A-VideoVideo

LDMText2Video-ZeroRunway-Gen2通義千問視頻大模型代表產(chǎn)品:PhenakiCog

VideoVideoGPT代表產(chǎn)品:Text2FilterGen-2stable

videoW.Ad.Li.fTfusionEmu

VideoPika1.0Sora010203040506070圖2:Sora技術(shù)優(yōu)勢與競品的對比情況720P高清1080P最大生成時長(秒)視頻分辨率圖1:AIGC視頻生成的技術(shù)演進路徑1.6

Sora的技術(shù)原理PixelVideo

SpaceEncoderLatentSpacetime

PatchesPatchifyZTZT-1Denoised

latentZ′ε

RHΧ

W

Χ

T

Χ

dZε

RHΧ

W

Χ

T

Χ

dNoised

LatentZTεRHΧWΧTΧ

dDiffusionTransformerBlockDecoderLower-DimensionalLatentSpaceClean

LatentConditioningHumaninstructionsCLIPGPT-4AugmentedpromptImagesorvideo

framesPatch(時空編碼思路)+DiT(Diffusion和Transformer模型的結(jié)合)+Scaling

Law(規(guī)模效應(yīng))Sora模型將視頻壓縮到低維空間(latent

space),并使用時空補?。⊿pacetime

latent

patches)來表示視頻。這個過程類似于將文本轉(zhuǎn)換為Token表示,而視頻則轉(zhuǎn)換為patches表示。Sora模型主要在壓縮的低維空間進行訓(xùn)練,并使用解碼器將低維空間映射回像素空間,以生成視頻。Sora使用了diffusion模型,給定輸入的噪聲塊+文本prompt,它被訓(xùn)練來預(yù)測原始的“干凈”分塊。Sora是diffusion

transformer,而transformer在各個領(lǐng)域都表現(xiàn)出顯著的規(guī)模效應(yīng)。圖:業(yè)內(nèi)推測出的Sora技術(shù)架構(gòu)圖1.6

Sora的技術(shù)原理EncoderBlockLatentSpacetime

PatchesPatchifyDenoised

latentZTZT-1Z′ε

RHΧ

W

Χ

T

Χ

dZTεRHΧWΧTΧ

dDiffusionNoised

LatentDecoderSora模型的實施路徑可拆分為四個部分Sora模型的實施路徑有四個核心部分:Part1:使用文生圖模型(DALLE

3)把文本和圖像對<text,

image>聯(lián)系起來。Part2:視頻數(shù)據(jù)切分為Patches,通過編碼器壓縮成低維空間表示,解決了時間和空間兩個維度的注意力交互(patch化是訓(xùn)練生成式模型的一個非常scalable和高效的圖像/視頻表征形式)。Part3:Diffusion

Transformer。Denoising

Diffusion

Probabilistic

Models

(DDPMs):通過逐步添加噪聲來模擬數(shù)據(jù)分布,然后學(xué)習(xí)逆向過程去除噪聲,以生成新的數(shù)據(jù)。DiT是DDPM在圖像生成中的應(yīng)用。Latent

Diffusion

Models

(LDMs):使用變分自編碼器將圖像壓縮到低維表示,然后在低維空間中訓(xùn)練DDPM。這樣可以降低計算成本,并使DiT成為基于Transformer的DDPM的適用框架。Part4:DiT生成的低維空間表示,可通過解碼器恢復(fù)成像素級的視頻數(shù)據(jù)。圖:業(yè)內(nèi)推測的模型實施路徑解析Pixel

Video

Space Lower-DimensionalLatent

Space ConditioningHumaninstructionsGPT-4Imagesorvideo

framesClean

LatentZε

RHΧ

W

Χ

T

Χ

dPart2Part4TransformePr

art3AugmentedpromptPart1CLIP1.7

Sora的局限性Sora仍存在三大方面局限性,會短期制約其商業(yè)化、規(guī)?;瘧?yīng)用技術(shù)局限性倫理合規(guī)性普適制約性物理現(xiàn)實主義的挑戰(zhàn)Sora對復(fù)雜場景中物理原理的處理不一致,導(dǎo)致無法準確復(fù)制因果關(guān)系,偶爾會偏離物理合理性。例如物體的不自然變換或?qū)傂越Y(jié)構(gòu)的不正確模擬,導(dǎo)致不切實際的物理交互。此外,描繪復(fù)雜的動作或捕捉微妙的面部表情是模型可以增強的領(lǐng)域。以上,導(dǎo)致Sora現(xiàn)階段更擅長幽默的結(jié)果而非嚴肅的內(nèi)容。時空連續(xù)性的挑戰(zhàn)Sora生成的視頻中可能會出現(xiàn)物體無緣無故消失或出現(xiàn),

Sora有時會誤解給定提示中與物體的放置或排列相關(guān)的指令,從而導(dǎo)致方向混亂。此外,它在保持事件的時間準確性方面面臨挑戰(zhàn),可能會導(dǎo)致預(yù)期時間流發(fā)生偏差,影響生成內(nèi)容的可靠性和連貫性。人機交互的限制Sora生成視頻的隨機性很強,類似人類的“做夢”,用戶可能很難精確指定或調(diào)整視頻中特定元素的呈現(xiàn),這限制了Sora在視頻編輯和增強方面的潛力,也讓Sora在長視頻應(yīng)用中面臨挑戰(zhàn)。數(shù)據(jù)合規(guī)性可能涉及到他人的隱私信息,例如在視頻中出現(xiàn)的人物、場景或個人數(shù)據(jù)等。未經(jīng)授權(quán)或未經(jīng)允許的情況下,生成和傳播涉及他人隱私的虛假視頻可能導(dǎo)致隱私泄露問題。版權(quán)風險生成的視頻內(nèi)容可能涉及到他人的知識產(chǎn)權(quán)/版權(quán),如果未經(jīng)授權(quán)使用他人的作品或內(nèi)容進行生成,就可能涉嫌侵犯他人的版權(quán)權(quán)益,引發(fā)版權(quán)糾紛或法律訴訟。AI安全問題可能導(dǎo)致深度偽造視頻的增加,即利用技術(shù)手段在視頻中替換現(xiàn)實中的人物或場景,使得偽造的視頻無法通過肉眼識別真?zhèn)危o社會帶來信任危機和安全隱患。確保Sora的輸出始終安全且公正是一項主要挑戰(zhàn)。經(jīng)濟賬與成本問題OpenAI自從推出文本生成大模型再到推出視頻生成大模型,一直沒有解決商業(yè)化問題,大模型的訓(xùn)練需要較高成本投入,如何算好經(jīng)濟賬是影響規(guī)模化應(yīng)用的前提。需要依賴高質(zhì)量、大規(guī)模的視頻數(shù)據(jù)Sora的訓(xùn)練路徑需要依賴龐大規(guī)模的視頻數(shù)據(jù),并需要較高的數(shù)據(jù)標注、合成能力,后期的迭代升級會受到底層訓(xùn)練數(shù)據(jù)的影響與限制。算力瓶頸問題Sora視頻模型的訓(xùn)練需要很高的算力支撐,如何平衡算力、成本、能源消耗等關(guān)系是值得關(guān)注的制動因素,也將是影響Sora大規(guī)模商業(yè)化運營的瓶頸。數(shù)據(jù)來源:甲子光年智庫梳理,2024年;文案創(chuàng)作辦公文本改寫/擴寫搜索引擎文本摘要歸納知識問答智能客服科研學(xué)術(shù)翻譯海報設(shè)計視頻拍攝與制作6062646668707274(25)(15)(5)5152535451.7

Sora的局限性視頻生成處于用戶滿意但不推薦象限,說明現(xiàn)有視頻生成工具雖然驚艷,但尚無法支持實際工作數(shù)據(jù)來源:甲子光年智庫,N=476,2023年問卷調(diào)研;X

NPSY滿意度星團象限星辰象限星云象限領(lǐng)導(dǎo)者 光年象限先行者挑戰(zhàn)者新勢力甲子星空坐標系:

用戶對AIGC產(chǎn)品不同應(yīng)用場景的滿意度與NPS值1.8

Sora引發(fā)的世界模型之爭Sora被OpenAI定義為“世界模擬器”,由此引發(fā)了世界模型的實施路線之爭OpenAI把Scale

作為核心價值觀之一:我們相信規(guī)?!谖覀兊哪P汀⑾到y(tǒng)、自身、過程以及抱負中——具有魔力。當有疑問時,就擴大規(guī)模。VSOpenAI是自回歸生成式路線(Auto-regressive

models),遵循“大數(shù)據(jù)、大模型、大算力”的暴力美學(xué)路線。從

ChatGPT

到Sora,都是這一思路的代表性產(chǎn)物。Yann

LeCun,圖靈獎獲得者和Meta首席科學(xué)家,最近表達了對Sora的生成式技術(shù)路線的質(zhì)疑,并指出該路線可能面臨失敗的風險。Yann

LeCun認為,僅憑文字提示生成逼真視頻并不代表模型真正理解物理世界。他指出生成視頻的過程與基于世界模型的因果預(yù)測完全不同。在2月19日的發(fā)文中,他再次反駁了通過生成像素來建模世界的觀點,認為這種方法是浪費,就像被廣泛拋棄的“通過合成來分析”的想法一樣,注定會失敗。Yann

LeCun認為文本生成之所以可行是因為文本本身是離散的,具有有限數(shù)量的符號。在這種情況下,處理預(yù)測中的不確定性相對容易。而在處理高維連續(xù)的感覺輸入時,基本上不可能處理預(yù)測的不確定性,這也是為什么針對感覺輸入的生成模型注定會失敗的原因。Keras

之父

Fran?ois

Chollet

也持有類似觀點。他認為僅僅通過讓

AI

觀看視頻是無法完全學(xué)習(xí)到世界模型的。盡管像Sora

這樣的視頻生成模型確實融入了物理模型,問題在于這些模型的準確性及其泛化能力——即它們是否能夠適應(yīng)新的、非訓(xùn)練數(shù)據(jù)插值的情況。Artificial

Intuition的作者Carlos

E.

Perez認為,Sora并沒有真正學(xué)會物理規(guī)律,只是表面上看起來像學(xué)會了,就像幾年前的煙霧模擬一樣。知名

AI

學(xué)者、Meta

AI

研究科學(xué)家田淵棟也表示,關(guān)于Sora是否有潛力學(xué)到精確物理(當然現(xiàn)在還沒有)的本質(zhì)是:為什么像“預(yù)測下一個token

”或“重建”這樣簡單的思路會產(chǎn)生如此豐富的表示?正方:

OpenAI

把它定義為一個“世界模擬器”(World

Simulator)反方:僅根據(jù)文字提示生成逼真的視頻,并不代表模型理解了物理世界!OpenAI

表示:“

Sora是能夠理解和模擬現(xiàn)實世界模型的基礎(chǔ),我們相信這種能力將成為實現(xiàn)

AGI

的重要里程碑?!庇ミ_高級研究科學(xué)家

Jim

Fan

更是直接斷言:“Sora是一個數(shù)據(jù)驅(qū)動的物理引擎,是一個可學(xué)習(xí)的模擬器,或世界模型?!蹦?/p>

錄Part

01AIGC視頻生成的技術(shù)路線與產(chǎn)品演進趨勢Part

03“提示交互式”視頻制作范式重塑視頻產(chǎn)業(yè)鏈Part

04文娛領(lǐng)域有望開啟第二輪投資浪潮Part

02AIGC視頻生成推動世界走向“AI創(chuàng)生時代”2.1

走向AI創(chuàng)生時代,改變世界剛剛開始AIGC視頻生成提示交互式制作范式終極?技術(shù)成熟度改變世界的進程AIGC視頻生成開啟AI創(chuàng)生時代,重塑視頻產(chǎn)業(yè)鏈僅僅是第一步甲子光年智庫將AIGC視頻生成對世界的影響分為如下四個階段:L1:AI生產(chǎn)時代/AI工業(yè)時代。AIGC引發(fā)內(nèi)容相關(guān)產(chǎn)業(yè)的生產(chǎn)力變革,視頻產(chǎn)業(yè)將是首先被重塑的領(lǐng)域,AI驅(qū)動內(nèi)容領(lǐng)域迎來“工業(yè)革命”,大幅提升內(nèi)容生產(chǎn)效率,形成第二生產(chǎn)力。L2:AI原生時代。AIGC將進一步引發(fā)生產(chǎn)關(guān)系變革,引發(fā)角色與分工的變遷。視頻成為人類信息表達的第二語言,人類語言將告別“詞不達意”階段,重塑人、內(nèi)容、機器間的生產(chǎn)關(guān)系與交互關(guān)系。在這一階段,AI滲透率將無限逼近人類在數(shù)字世界的生產(chǎn)活動行為邊界——人在數(shù)字世界可以做的事情,AI都可以做。L3:AI創(chuàng)生時代。AI與物理世界進一步融合,逐漸滲透逼近人在物理世界的生產(chǎn)活動行為邊界。從AI

for

science到生產(chǎn)制造,從人形機器人到世界模型,AI將逐漸突破人類為主語的創(chuàng)造范疇,世界模型將創(chuàng)造人類智慧之外的“第二智慧體系”。L4:AI文明時代。AI推動人類認知重塑,開啟AI文藝復(fù)興。AI會深度參與人類的物理世界和心靈世界,人類智慧與AI將互相影響、共同進化,人類文明進入“雙生時代”,形成“AI的歸AI,人類的歸人類”的有序分工和共生模式。圖:AIGC視頻生成改變世界的進程展望L1:AI生產(chǎn)時代L2:AI原生時代L3:AI創(chuàng)生時代L4:AI文明時代數(shù)字科研世界模型人形機器人AI+生產(chǎn)制造智能融合文化共生重塑文明新型社交網(wǎng)絡(luò)人機交互數(shù)字人元宇宙第二生產(chǎn)力第二語言第二智慧體系雙生文明2.2

L1-AI生產(chǎn)時代:“拍扁”視頻制作鏈條,開啟“提示交互式”

新范式數(shù)據(jù)來源:甲子光年智庫,2024年基于AIGC視頻生成工具的提示交互式視頻制作范式將重塑傳統(tǒng)視頻制作流程AIGC視頻生成工具可對視頻生產(chǎn)流程進行重塑,由傳統(tǒng)視頻制作范式進化到“提示交互式”新范式?!疤崾窘换ナ健毙路妒较啾葌鹘y(tǒng)范式具有三方面的重塑:“拍扁”制作過程:傳統(tǒng)視頻制作流程涉及多個階段和專業(yè)團隊的合作,耗費大量時間和資源;而AIGC視頻生成可將視頻生成、剪輯、后期等環(huán)節(jié)集于一體,僅需要輸入提示詞即可生成視頻,省去了很多繁瑣步驟,尤其可將攝影、素材收集、后期等環(huán)節(jié)取消或縮短。提升創(chuàng)意和剪輯自由度:傳統(tǒng)視頻制作通常由制作團隊提出創(chuàng)意、編寫劇本,受人的能力局限;提示交互式視頻生成用更可視化的方式激發(fā)創(chuàng)作者想象力,支持創(chuàng)作者調(diào)用AI模型探索每個鏡頭的無限可能,而且剪輯過程可以隨時發(fā)生。節(jié)省制作成本和時間:傳統(tǒng)視頻制作流程需要投入較多的人力、物力和時間,而提示交互式視頻生成的流程成本和時間較少,可在提示交互的飛輪中迭代生成最終滿足需要的內(nèi)容。策劃拍攝后期籌備制定視頻內(nèi)容的概念和主題。編寫劇本或提綱,規(guī)劃視頻的情節(jié)和內(nèi)容。確定目標受眾和傳達的信息。確定拍攝地點、演員、道具等資源。制定拍攝計劃和時間表。準備拍攝設(shè)備和技術(shù)團隊。實際拍攝視頻素材。確保拍攝質(zhì)量和符合劇本要求。視頻剪輯和編輯。添加音效、音樂、特效等元素。調(diào)整畫面色調(diào)、字幕等。最終呈現(xiàn)和渲染視頻。1234用戶提示1用戶提供關(guān)于期望視頻內(nèi)容的提示詞或描述性文本。生成滿足用戶要求的最終視頻內(nèi)容。模型根據(jù)用戶反饋進行調(diào)整,并重新生成視頻內(nèi)容。內(nèi)容進行反饋,提出修改或調(diào)整意見。模型解析用戶提示詞,理解用戶的需求。模型生成視頻內(nèi)容,包括圖像、場景、角色等元素。2 3內(nèi)容 反饋生成 交互提示交互飛輪用戶對生成的4重新生成最終生成5傳統(tǒng)視頻制作執(zhí)行流程基于AIGC工具的提示交互式視頻生成制作流程2.2

L1-AI生產(chǎn)時代:AIGC視頻生成將“多點開花”,開源是下個關(guān)鍵節(jié)點伴隨開源模型的出現(xiàn),AI視頻生成將迎來多元化的入局者Sora雖未公測,根據(jù)當下的視頻效果,模型及對應(yīng)的技術(shù)路線與其他公司已經(jīng)拉開差距,但猜測其模型可能仿照ChatGPT,不提供開源模型非開源開源?……AI+視頻創(chuàng)業(yè)公司以生成式AI技術(shù)為底色,已經(jīng)完成部分技術(shù)積累,正在進行技術(shù)追趕和體驗創(chuàng)新。數(shù)字人技術(shù)提供商數(shù)字人本身可以完成部分視頻錄制,雖然暫且無法完成端到端生成(文字直接生成視頻),但可以快速滿足部

分場景需求。 AI+影視公司對視頻,尤其是專業(yè)視頻(影視、廣告、動畫或游戲)具備深刻理解,AI技術(shù)可以充分提供視頻創(chuàng)作、分發(fā)的工具?;ヂ?lián)網(wǎng)科技企業(yè)具備充分的技術(shù)積累,產(chǎn)品豐富,平臺用戶量高,可迅速在內(nèi)容產(chǎn)業(yè)中實現(xiàn)價值。徐圖智能………………相關(guān)賽道企業(yè)若想具備先發(fā)優(yōu)勢,要么技術(shù)更強,建立技術(shù)壁壘,要么產(chǎn)品對用戶需求的理解更深,建立用戶粘性和數(shù)據(jù)飛輪文生視頻領(lǐng)域迫切需要如LLama2的模型,讓更多應(yīng)用層公司節(jié)省從0-1的成本C端用戶全民視頻創(chuàng)作的浪潮正蓄勢而來,未來人人都會成為導(dǎo)演,每個人都會擁有個人平臺

。2.3

L2-AI原生時代:視頻用戶身份實現(xiàn)“三位一體”角色變遷:視頻用戶變?yōu)锳I原生居民,實現(xiàn)生產(chǎn)者、消費者、擁有者“三位一體”越來越多視頻用戶將成為AI原生居民:他們同時是內(nèi)容生產(chǎn)者、消費者和擁有者。個體在視頻內(nèi)容生產(chǎn)、消費和擁有方面擁有更大的主動權(quán)和自主性。這將改變?nèi)伺c內(nèi)容、人與人的生產(chǎn)關(guān)系與交互關(guān)系。信息時代數(shù)字時代AI原生時代階段內(nèi)容消費者PGC內(nèi)容生產(chǎn)形式角色轉(zhuǎn)換初次內(nèi)容生產(chǎn)者UGCAI原生居民【生產(chǎn)、消費、擁有一體】AIGC專業(yè)人工專業(yè)設(shè)備專業(yè)內(nèi)容平臺用戶模糊推送主動檢索用戶設(shè)備內(nèi)容AIGC視頻生產(chǎn)制播一體核心環(huán)節(jié)演進消費者生產(chǎn)者擁有者提問交互生產(chǎn)數(shù)量少、質(zhì)量有限、無法自動化生產(chǎn)數(shù)量多、質(zhì)量有限、無法自動化平臺用戶精準推送主動檢索階段>古代媒體時代網(wǎng)絡(luò)時代數(shù)字時代AI原生時代投放渠道>牌匾媒體刊物互聯(lián)網(wǎng)視頻平臺元宇宙、虛擬世界交互變遷>離線離線在線,單向在線,雙向?qū)崟r、沉浸角色變遷>高門檻的內(nèi)容生產(chǎn)、消費者高門檻的內(nèi)容生產(chǎn)、消費者內(nèi)容消費者內(nèi)容生產(chǎn)者生產(chǎn)、消費、擁有三位一體內(nèi)容形態(tài)>文字文字+圖片文字+圖片+廣告視頻視頻可交互、可編輯、可定制的視頻2.3

L2-AI原生時代:視頻成為“第二語言”視頻成為人類的第二語言,人類語言告別“詞不達意”階段伴隨視頻生產(chǎn)成本的無限降低,以及視頻可交互、可編輯、可定制的靈活能力,人人可駕馭視頻表達的時代到來。視頻將成為人類的第二語言,大量用戶會進行行為遷移——原本用文字表達的場景,將用視頻直接表達。視頻具有連續(xù)性,視頻表達將不受限于“詞匯量”,比文字表達擁有更豐富、更沉浸的特征,可以表達更準確的場景、承載更豐富的情感、抵達更深刻的共情。文本與視頻的無縫切換,讓人類語言告別“詞不達意”、“意在言外”的階段。圖:人類傳遞信息的內(nèi)容載體形態(tài)演變歷程視頻語言:視頻語言指利用視頻和圖像等視覺元素進行交流表達的語言形式。視頻語言的特點:視覺化表達:與文字語言相比,視頻語言主要通過視覺影像來表達信息,通過圖像、顏色、動作等元素傳達更加直觀、生動、豐富的信息。多媒體結(jié)合:視頻語言通常結(jié)合了圖像、聲音、文字等多種媒體形式,豐富了表達手段和效果。情感共鳴:視覺和聲音的傳達方式更容易引起情感共鳴。多樣化形式:視頻語言可以呈現(xiàn)為電影、電視、短視頻、動畫等多種形式,適應(yīng)不同場景和需求。視頻成為第二語言2.3

L2-AI原生時代:AI滲透率無限逼近人類在數(shù)字世界生產(chǎn)活動行為邊界場景:平面展示等L1:Tool主要依賴人工制作形象和動畫效果L2依賴外部動捕設(shè)備采集肢體、表情和口型信息L2:Chatbot場景:視頻錄播等L3依賴算法驅(qū)動肢體、姿態(tài)、口型、表情等L3:Copilot場景:虛擬化身進行實時互動直播等L4語音交互智能化,但在特定場合需要人工接管L4:AgentL5完全實現(xiàn)智能交互的數(shù)字人智能化水平數(shù)字人可自主理解世界、形成關(guān)系互動場景:數(shù)字人可以自行基于文本、視頻等語言理解物理世界,自行實現(xiàn)數(shù)字人與數(shù)字人的交互溝通文本生成大模型場景:垂直領(lǐng)域逐步代替真人服務(wù)等視頻生成大模型場景:個性化AI助手、視頻自動生成、虛擬人物自動生成等多模態(tài)大模型?數(shù)字人與視頻生成大模型的結(jié)合,推動數(shù)字人發(fā)展進入L5級數(shù)字人與AIGC的結(jié)合一直是重要發(fā)展方向。在Sora出現(xiàn)之前,主要是數(shù)字人與文本生成模型(如GPT系列)的結(jié)合,生成虛擬角色的對話和互動內(nèi)容,主要應(yīng)用于虛擬助手、客服機器人、虛擬主持人等基于文本的交互和對話場景。AIGC視頻生成技術(shù)的發(fā)展將會推動數(shù)字人進入全新階段。數(shù)字人與視頻生成大模型(如Sora)的結(jié)合,提升了數(shù)字人的逼真度和互動性,其應(yīng)用場景會進一步拓寬,涵蓋虛擬演員、虛擬教育導(dǎo)師等需要視覺交流和場景互動的領(lǐng)域。未來,數(shù)字人還會探索與多模態(tài)大模型的融合發(fā)展,繼續(xù)提升仿真度和互動性、拓展應(yīng)用場景、

探索人機交互的新可能,豐富人們感知和改變世界的方式?!肮杌睂⒓铀俚絹恚瑹o限逼近人類在數(shù)字世界的生產(chǎn)活動行為邊界。圖:AIGC視頻生成技術(shù)與數(shù)字人的結(jié)合推動硅基生命的探索擬人化程度終極:硅基生命L5:Species2.3

L2-AI原生時代:元宇宙相關(guān)產(chǎn)業(yè)將加速到來交互層通用場景應(yīng)用層虛擬人 虛擬活動人形機器人 營銷出行虛擬辦公泛娛樂 購物社交 教培政務(wù)黨建工業(yè)制造C端B端/G端XR頭顯/眼鏡觸控設(shè)備手勢識別及控制設(shè)備新一代交互技術(shù)智能體腦機接口 影音機聲控設(shè)備硬件交互設(shè)備嗅覺面罩人機交互NFTVR互動平臺數(shù)字支付平臺DAO游戲內(nèi)容創(chuàng)作者平臺社交AI芯片公司AIDC智算中心文本數(shù)據(jù) 視頻數(shù)據(jù) 圖片數(shù)據(jù)類公司 類公司 類公司算法層平臺層算力層數(shù)據(jù)平臺視頻生成中間層視頻生成基礎(chǔ)層共識機制密碼學(xué)技術(shù)智能合約鏈式存儲區(qū)塊鏈未來發(fā)展重心在應(yīng)用內(nèi)容構(gòu)建應(yīng)用層與交互層在B端C端都將帶來無窮想象空間由于視頻和C端有天然的聯(lián)系,AIGC視頻生成技術(shù)的快速發(fā)展將推動應(yīng)用層和交互層的快速發(fā)展。通過簡單的操作用戶即可快速生成高質(zhì)量的視頻內(nèi)容,將大大提升用戶體驗和參與度,推動元宇宙生態(tài)的蓬勃發(fā)展。因此,在傳統(tǒng)AI技術(shù)棧上,應(yīng)用層和交互層將誕生豐富的創(chuàng)新機會,在B端和C端都迎來無窮的想象空間。圖:AIGC視頻生成將加速元宇宙世界的內(nèi)容構(gòu)建2.4

L3-AI創(chuàng)生時代:重塑人與機器的交互文本傳遞信息為主的人機交互>多模態(tài)物理世界圖片視頻信息數(shù)字世界+物理世界ABBBC人/機器ABCD文本信息數(shù)字世界物理世界人機器視頻等多模態(tài)傳遞信息為主的人機交互交互語言:文字為主,傳統(tǒng)人機交互主要依賴于鍵盤、鼠標、觸摸屏等輸入設(shè)備以及文字、圖像、聲音等輸出方式進行交流。信息表達:信息含量低。傳統(tǒng)人機交互以文字、圖像、聲音等為主要表達方式,信息相對單一。感知能力:傳統(tǒng)人機交互主要依賴于計算機對文字、圖像、聲音等信息的理解和處理能力。交互體驗:單向交互模型。傳統(tǒng)人機交互通常是靜態(tài)的,用戶通過鍵盤、鼠標等輸入設(shè)備與計算機進行交互,交互過程相對單一。交互語言:聲音、動作、表情、場景……都可以作為機器理解人的指令的輸入形式,再配以攝像頭等傳感器的機器將會主動理解世界。信息表達:信息含量大且多樣化。視頻語言時代的人機交互更加豐富多樣,信息以視頻為載體,可以包含文字、圖像、聲音、動作等多種元素,表達更加生動和直觀。感知能力:視頻語言時代的人機交互需要計算機具備更強的視頻感知和理解能力,能夠識別、理解和分析視頻中的內(nèi)容和情境。交互體驗:實時、沉浸式交互。視頻語言時代的人機交互更加動態(tài)和生動,用戶可以通過拍攝、錄制視頻、實時互動來與計算機進行交互,交互過程更加自然和直觀。視頻成為機器理解物理世界的主要媒介,推動AI與物理世界進一步融合人機交互進入視頻語言時代。與傳統(tǒng)人機交互相比,視頻語言在信息表達形式、感知方式、交互體驗和個性化定制等方面都有較大差異點,為用戶提供了更加豐富、直觀和個性化的交互體驗。視頻等多模態(tài)內(nèi)容的信息含量更大、更多元,讓機器更容易理解物理世界,讓機器人真正成為數(shù)字世界與物理世界的橋梁。AIGC視頻生成與具身智能、工業(yè)視覺、工業(yè)元宇宙等方向的結(jié)合,將會推動AI突破數(shù)字世界,與物理世界進一步融合。B D1

D2文本具身智能工業(yè)視覺工業(yè)元宇宙人形機器人數(shù)字孿生工業(yè)仿真2.4

L3-AI創(chuàng)生時代:數(shù)字科研推動新一輪“科學(xué)革命”AIGC生成技術(shù)與數(shù)字孿生、仿真等融合,可驅(qū)動科技研發(fā)進入全新范式AIGC生成技術(shù)與數(shù)字孿生、仿真等技術(shù)的融合可以探索出一條基于虛擬世界仿真的科技研發(fā)模型。這種模型可以通過在虛擬世界中建立逼真的數(shù)字孿生模型和仿真環(huán)境進行科技研究和實驗,大大提高科研的效率,解放科研工作者的人力,降低綜合科研成本。甲子光年智庫將這種基于虛擬世界仿真的科技研發(fā)模型稱之為數(shù)字科研模型,將通過數(shù)字科研模型進行研發(fā)的模式稱為“數(shù)字科研”。當前,AI已經(jīng)在藥物研發(fā)、合成生物等基礎(chǔ)科學(xué)研究中得到廣泛應(yīng)用。AI的進一步發(fā)展,將推動數(shù)字科研加快實現(xiàn)。未來數(shù)字科研模型有望成為科學(xué)研究的通用基礎(chǔ)設(shè)施,在各個學(xué)科普及,這將催生新一輪科學(xué)范式革命。在虛擬世界中建立逼真的數(shù)字孿生模型和仿真環(huán)境,包括各種物體、場景、情境等,以模擬真實世界的各種情況。通過AIGC生成技術(shù),可以生成逼真的虛擬世界內(nèi)容,包括各種場景、人物、物體、聲光等,以豐富和完善虛擬世界的仿真環(huán)境。在虛擬世界中進行科技研究和實驗,利用數(shù)字孿生模型和仿真環(huán)境,模擬各種情況和場景,探索新的科技解決方案和創(chuàng)新思路。在虛擬世界中得到的研究成果和解決方案可以在現(xiàn)實物理世界進行驗證和實踐,通過實驗和測試驗證其可行性和有效性。基于虛擬世界仿真的科技研發(fā)模型,可以為科研人員提供更加靈活、高效、低成本的研究平臺,加速科技創(chuàng)新和成果轉(zhuǎn)化,推動科研方式轉(zhuǎn)型和升級。第一步第二步第三步第四步第五步建立數(shù)字孿生模型和仿真環(huán)境AIGC生成虛擬世界內(nèi)容進行科技研究和實驗物理世界驗證和實踐構(gòu)建新型科研范式圖1:AIGC在基礎(chǔ)科學(xué)研究中應(yīng)用于眾多領(lǐng)域圖2:數(shù)字科研的實施步驟化學(xué)規(guī)劃化學(xué)合成途徑與視覺呈現(xiàn)生命科學(xué)生物醫(yī)學(xué)序列的語言建模超分辨率

3D活細胞成像地球科學(xué)天氣預(yù)報真實模擬假設(shè)空間中的導(dǎo)航醫(yī)學(xué)視頻化手術(shù)導(dǎo)航醫(yī)療資源調(diào)配視覺化呈現(xiàn)材料科學(xué)新材料發(fā)現(xiàn)與設(shè)計優(yōu)化物理粒子碰撞中的稀有事件選擇核聚變反應(yīng)堆的磁控制與呈現(xiàn)2.4

L3-AI創(chuàng)生時代:世界模型創(chuàng)造人類智慧之外的“第二智慧體系”預(yù)測感知匹配/思考形成認知感知前的預(yù)測階段,大腦基于內(nèi)部模型、先前經(jīng)驗和期望,預(yù)測可能發(fā)生的情況。對外界刺激的感知,接受外部刺激,形成感知信號,并進行感知輸入。在預(yù)測與感知的匹配階段,大腦將外界刺激與先前的預(yù)測進行匹配,并調(diào)節(jié)、更新預(yù)測,以使其與感知一致。在意義建構(gòu)和理解階段,大腦解釋、理解感知到的信息,并將其納入更廣泛的認知框架中。圖1:大腦理解世界的四個環(huán)節(jié)預(yù)測輸入預(yù)測輸出②感知③匹配/思考①④形成認知預(yù)測感知輸入生成輸出匹配/思考 形成認知④① ② ③第一智慧體系:預(yù)測式模型對世界的理解邏輯 Meta的V-JEPAOpenAI的Sora第二智慧體系:生成式模型對世界的理解邏輯路徑1:在感知前先預(yù)測,然后接收外部刺激信號進行思考匹配并形成認知,基于預(yù)測輸出對世界理解的內(nèi)容。認知后是輸出階段。預(yù)測式模型:將路徑1對世界的理解邏輯稱為預(yù)測式模型。世界模型代表:Meta的V-JEPA。路徑2:第一步是直接接收外部刺激信號進行思考匹配后形成認知,基于認知預(yù)測生成對世界理解的內(nèi)容。預(yù)測后是生產(chǎn)輸出階段。生成式模型:將路徑2對世界的理解邏輯稱為生成式模型。世界模型代表:OpenAI的Sora。預(yù)輸入兩種世界模型:預(yù)測式模型和生成式模型世界模型的核心路徑分歧來自于:世界是不是真的需要一個解析解?人類依靠大腦來理解世界。美國藝術(shù)與科學(xué)學(xué)院院士、加拿大皇家學(xué)會院士莉莎·費德曼·巴瑞特在《認識大腦》一書中提出了人類大腦通過對外界刺激進行預(yù)測來解釋和理解世界的過程。甲子光年將這個過程概括為四個階段:預(yù)測階段、感知階段、匹配/思考階段、形成認知階段,可簡稱為“預(yù)測式模型”。是否遵循大腦理解世界的模式構(gòu)成了世界模型的不同思路,將催生不同技術(shù)路線。伴隨AI創(chuàng)生時代到來,我們將迎來人類大腦智慧之外的“第二智慧體系”。甲子光年將世界模型大體劃分為兩類:第一智慧體系:預(yù)測式世界模型,代表是人類大腦,Meta的V-JEPA也屬于預(yù)測式模型。第二智慧體系:生成式世界模型,代表是ChatGPT、Sora等深度學(xué)習(xí)的數(shù)據(jù)驅(qū)動流派。深度學(xué)習(xí)的數(shù)據(jù)驅(qū)動流派的核心思路是:通過大量數(shù)據(jù)模擬世界所得到的結(jié)果可能會比一個解析解更能反映世界的真實物理,更能體現(xiàn)智能。人類智慧只是智慧的一種范式,ChatGPT、Sora等范式已能夠通過大量模擬世界學(xué)習(xí)到世界規(guī)律。因此,用一個物理公式概括現(xiàn)實世界的思路并不一定正確,深度學(xué)習(xí)的數(shù)據(jù)驅(qū)動流派開啟的“第二智慧體系”也可能成為理解世界最終奧妙的一把鑰匙,而非追求解析解。2.5

L4-AI文明時代:AI驅(qū)動文藝復(fù)興AI文化認知重塑信息傳遞載體變化角色變遷行為變遷交互行為、角色、載體形態(tài)的變化推動人類認知重塑,并形成新文化圈層視頻作為一種生動、直觀的傳播媒介,能夠更好地激發(fā)人們的情感,與文字、圖片相比,視頻更能引發(fā)觀眾的深度共鳴和參與。信息載體的變化會重塑人類的認知與觀念,并將具有相同認知觀念的人群逐步集合到一起,形成新的文化圈層,推動文化的變遷,并進一步推動AI版本的文藝復(fù)興。行為變遷:AIGC視頻生成技術(shù)若能在視頻領(lǐng)域規(guī)?;瘧?yīng)用,將首先打破視頻生產(chǎn)的固化流程,讓視頻實現(xiàn)一鍵生成,實現(xiàn)視頻生產(chǎn)的流程歸一,行為歸一。信息傳遞載體形態(tài)變化:視頻形態(tài)從傳統(tǒng)的不可編輯的單向輸出版式轉(zhuǎn)變?yōu)楦咏换?、可編輯和可定制的形式,使得視頻成為了更加靈活多樣的信息傳遞載體。角色變遷:由內(nèi)容消費者變?yōu)锳I原生居民,是內(nèi)容沉浸生產(chǎn)者、擁有者和消費者,集內(nèi)容生產(chǎn)、內(nèi)容消費、內(nèi)容擁有于一體。認知重塑:隨著信息載體的變遷,人們的認知和觀念也會發(fā)生重塑。通過視頻內(nèi)容的傳播和互動交流,人們可能會形成共享的認知觀念,理念和價值觀的統(tǒng)一性會得到加強。AI文化:基于AI的新文化圈層的形成,具有相似認知觀念的人群可能會因為共享相似的視頻內(nèi)容和信息,逐步形成新的文化圈層,形成共享的文化認同和價值體系,帶來AI文藝復(fù)興。新形態(tài)的視頻圖:AI驅(qū)動文藝復(fù)興符號世界物理世界心靈世界無限的創(chuàng)意和想象世界模型眼耳鼻舌身意2.5

L4-AI文明時代:重塑人類文明AI符號世界物理世界心靈世界無限的創(chuàng)意和想象世界模型波普爾世界三元組眼耳鼻舌身意備注說明:波普爾的世界三元組第一元:物理世界(World

1):指的是客觀存在的實體世界,包括物質(zhì)和能量等自然現(xiàn)象。物理世界是獨立于我們的意識和思想存在的,是客觀存在的。第二元:心靈世界(World

2):指的是個體的主觀意識和心理活動所構(gòu)成的世界,包括思想、感覺、情緒、意識等心理現(xiàn)象。心靈世界是個體內(nèi)部的心理體驗領(lǐng)域,是主觀存在的。第三元:符號世界(World

3):指的是人類通過語言、符號和文化制度等共同建構(gòu)的文化世界,包括科學(xué)理論、藝術(shù)作品、社會制度、文化傳統(tǒng)等。符號世界是人類共同的文化積累和認知產(chǎn)物,是客觀存在的,但是不同于物理世界,是通過人類的創(chuàng)造和交流而存在的。路徑①路徑②AI文明波普爾世界三元組人類文明文明的演進:人類文明進入與AI共建共生的“雙生時代”,AI的歸AI,人類的歸人類波普爾的世界三元組是哲學(xué)家卡爾·波普爾提出的概念,用于描述對世界的基本認知,包括三個要素:物理世界、心靈世界和符號世界。AI從符號世界出發(fā),參與物理世界的方式是逐漸建立通用的世界模型,參與心靈世界的方式是生成無限的創(chuàng)意和想象。最終,AI會深度參與人類的物理世界和心靈世界,人類智慧與AI將互相影響、共同進化,人類文明進入“雙生時代”,形成“AI的歸AI,人類的歸人類”的有序的分工。圖1:AI主導(dǎo)的世界及其兩條影響路徑 圖2:人與AI共建共生的“雙生時代”目

錄Part

01AIGC視頻生成的技術(shù)路線與產(chǎn)品演進趨勢Part

04文娛領(lǐng)域有望開啟第二輪投資浪潮Part

02AIGC視頻生成推動世界走向“AI創(chuàng)生時代”Part

03“提示交互式”視頻制作范式重塑視頻產(chǎn)業(yè)鏈短視頻類長視頻類3.1

視頻內(nèi)容的兩大類型:短視頻和長視頻數(shù)據(jù)來源:甲子光年智庫,2024年;文學(xué)游戲動漫音樂電影電視劇動畫體育衍生品演出渠道IP→內(nèi)容→衍生,是視頻內(nèi)容價值鏈的主要邏輯鏈條,長視頻與短視頻是兩大核心類型上游 中游 下游IP類 內(nèi)容類 衍生類上游產(chǎn)業(yè)更加注重版權(quán)的再開發(fā),特別是可改編成內(nèi)容的版權(quán)中游產(chǎn)業(yè)偏向內(nèi)容展示為主,影像類居多,可以按視頻內(nèi)容的長度劃分為短視頻和長視頻兩大類型下游產(chǎn)業(yè)偏向以內(nèi)容為基礎(chǔ)的再開發(fā)廣告新聞資訊微短劇生活記錄豎屏劇綜藝節(jié)目3.2

傳統(tǒng)視頻產(chǎn)業(yè)鏈:完整產(chǎn)業(yè)鏈視頻產(chǎn)業(yè)鏈包含七個關(guān)鍵環(huán)節(jié),制作環(huán)節(jié)是最核心環(huán)節(jié),也是AI視頻生成工具現(xiàn)階段主要服務(wù)環(huán)節(jié)數(shù)據(jù)來源:甲子光年智庫,2024年;IP投資制作宣發(fā)播映映后開發(fā)產(chǎn)品鏈>核心角色>主要職責>內(nèi)容播放內(nèi)容生產(chǎn)制作投資評估劇本開發(fā)與策劃IP評估與交易內(nèi)容宣傳發(fā)行制作公司文學(xué)平臺制作公司編劇工作室制作公司投資公司制作公司經(jīng)紀公司后期公司視頻平臺營銷公司視頻平臺數(shù)字平臺傳統(tǒng)電視臺視頻制作工具策劃/劇本衍生品開發(fā)出版社游戲公司策劃工作室商務(wù)公司發(fā)行公司票務(wù)平臺院線衍生品設(shè)計衍生品開發(fā)海外視頻平臺圖:傳統(tǒng)視頻產(chǎn)業(yè)鏈及關(guān)鍵核心角色3.3

傳統(tǒng)視頻產(chǎn)業(yè)鏈:長視頻與短視頻的核心產(chǎn)業(yè)鏈環(huán)節(jié)數(shù)據(jù)來源:甲子光年智庫,2024年;IP投資制作宣發(fā)播映映后開發(fā)長視頻>策劃/劇本圖:長視頻與短視頻的核心產(chǎn)業(yè)鏈環(huán)節(jié)制作分發(fā)短視頻>變現(xiàn)長視頻需覆蓋完整視頻產(chǎn)業(yè)鏈,短視頻則更注重分發(fā)和變現(xiàn)長視頻與短視頻在產(chǎn)業(yè)鏈中的各自側(cè)重點有顯著性差異。長視頻需要完整覆蓋視頻產(chǎn)業(yè)鏈,并非常注重制作環(huán)節(jié)的投入。短視頻則對上游IP、策劃、投資等環(huán)節(jié)依賴度極低,通常關(guān)注中下游的制作、分發(fā)與變現(xiàn)環(huán)節(jié)。3.4

不同形態(tài)視頻細分領(lǐng)域的應(yīng)用進程長視頻工業(yè)短視頻社交終極?術(shù)成熟度AI改變世界的進程L1:AI生產(chǎn)時代L2:AI原生時代L3:AI創(chuàng)生時代L4:AI文明時代短視頻正在進入AI原生時代,長視頻正在進入AI生產(chǎn)時代AIGC視頻生成技術(shù)在不同形態(tài)的視頻內(nèi)容領(lǐng)域的應(yīng)用進程各不相同。概括而言,長視頻領(lǐng)域AIGC視頻生成技術(shù)仍然處于L1階段,由于現(xiàn)階段AIGC視頻生成技術(shù)的局限性,導(dǎo)致一些具有高度專業(yè)性的領(lǐng)域僅僅將其作為生產(chǎn)工具,例如為電影、劇集等提供素材來源,尚無法帶來顛覆性重塑,但會壓縮原有產(chǎn)業(yè)鏈。而對于新聞這類需要高度準確性的內(nèi)容,則暫時只能滿足情景復(fù)現(xiàn)等少量場景。短視頻領(lǐng)域則會首先面臨AIGC視頻生成技術(shù)的顛覆,甲子光年智庫判斷短視頻領(lǐng)域?qū)M入L2即AI原生時代,短視頻產(chǎn)業(yè)鏈將不復(fù)存在,而會誕生AI原生的短視頻模式和平臺。圖:AIGC視頻生成對不同視頻形態(tài)的應(yīng)用進程情況技長視頻處在L1階段 短視頻已邁入L2階段3.5

短視頻重塑后的產(chǎn)業(yè)鏈角色分工導(dǎo)演編劇藝人攝影剪輯特效美術(shù)武指制片…工作流概念腳本選景道具分鏡拍攝剪輯音效渲染…AI原生平臺All

in

One,鏈條縮短,環(huán)節(jié)融合無序、沉浸、實時、互動、聚聯(lián)式平臺AI克隆音色圖文成片數(shù)字人口播視頻生成素材生成個人平臺數(shù)字時代短視頻的工作流數(shù)字時代短視頻的角色分工AI原生時代的短視頻平臺短視頻進入AI原生時代,產(chǎn)業(yè)鏈被壓縮,催生AI原生模式的新型平臺PC互聯(lián)網(wǎng)時代催生出了長視頻平臺,移動互聯(lián)網(wǎng)催生出了短視頻平臺,雖然短視頻平臺已經(jīng)在大幅度應(yīng)用AI技術(shù)進行賦能,但仍然存在顯著的短視頻生產(chǎn)工作流和短視頻制作的角色分工體系。AIGC視頻生成技術(shù)將會打破短視頻的原有產(chǎn)業(yè)鏈,大幅度壓縮簡化生產(chǎn)制作流程和角色分工,實現(xiàn)一鍵生成的all

in

one原生模式。AI原生視頻流程的歸一,將會帶來AI原生時代的短視頻平臺新范式,新的視頻平臺范式將具有無序、沉浸,實時、互動、聚聯(lián)的AI原生特征。無序是指打破傳統(tǒng)固化的視頻生產(chǎn)流程。沉浸是指實現(xiàn)全面體驗的沉浸式視頻生產(chǎn)。實時是低延時的視頻快速生成。互動是指一邊交互對話一邊進行視頻調(diào)整的個性化、定制化的互動視頻。聚聯(lián)是指去中心化的生產(chǎn)方式。3.5

短視頻重塑后的產(chǎn)業(yè)鏈數(shù)據(jù)來源:甲子光年智庫,2024年;去中心化平臺B端用戶自媒體機構(gòu)MCN快消品……C端用戶創(chuàng)意故事IP版權(quán)……AI創(chuàng)意工具AI原生視頻工具分發(fā)變現(xiàn)平臺負責創(chuàng)意的生產(chǎn)提供,既可以是B端用戶也可以是C端用戶自行產(chǎn)生。負責視頻的生成制作,以提問交互的方式進行視頻生成,平臺負責為用戶提供全套的視頻生成工具。負責生成視頻的流量分發(fā)與內(nèi)容變現(xiàn),將會催生三大類型的變現(xiàn)平臺:最中心的流量分發(fā)平臺、外圍的直播平臺、用戶平臺。新型制播一體的AI原生內(nèi)容平臺,有望顛覆短視頻平臺格局,每個用戶既是導(dǎo)演又是平臺在AIGC視頻生成對視頻產(chǎn)業(yè)鏈的技術(shù)變革下,有望孵化出新一代的集短視頻制作、分發(fā)、變現(xiàn)為一體的全新形態(tài)的視頻平臺。新型的制播一體的AI原生內(nèi)容平臺應(yīng)該是融合AI創(chuàng)意工具+AI原生視頻工具+變現(xiàn)平臺三大環(huán)節(jié)的AI原生短視頻平臺。在實現(xiàn)AI原生范式的轉(zhuǎn)換后,過去短視頻平臺和內(nèi)容創(chuàng)作者將會出現(xiàn)一些變革:短視頻平臺:將會向AI創(chuàng)意工具+AI原生視頻工具+變現(xiàn)平臺的融合式的平臺轉(zhuǎn)變,提供AI原生視頻工具和流量分發(fā)平臺。用戶平臺:用戶將不僅僅是作為生產(chǎn)者和消費者,真正做到人人都是導(dǎo)演型的創(chuàng)作者,并且人人都是一個小型的平臺。個人用戶可以建立個人平臺,企業(yè)用戶可以建立企業(yè)平臺,直播機構(gòu)可以建立直播平臺。內(nèi)容創(chuàng)作者的價值將更注重創(chuàng)意能力、解決實際問題的能力、個人IP影響力等。圖:新型制播一體的AI原生內(nèi)容平臺的業(yè)務(wù)模式流量分發(fā)平臺直播平臺用戶平臺個人平臺1直播平臺2個人平臺2個人平臺3個人平臺N企業(yè)平臺N企業(yè)平臺3企業(yè)平臺2企業(yè)平臺1直播平臺1直播平臺3直播平臺NAIGC視頻生成大模型剪輯工具渲染工具AI克隆音色工具 數(shù)字人工具圖文生成工具 素材生成工具……用戶以導(dǎo)演的角色進行交互式生成3.6

長視頻重塑后的產(chǎn)業(yè)鏈制作環(huán)節(jié)難度下降,將會助推產(chǎn)業(yè)鏈上游的創(chuàng)意環(huán)節(jié)和下游宣發(fā)播映環(huán)節(jié)重要程度上升,數(shù)據(jù)來源:甲子光年智庫,2024年;IP投資制作宣發(fā)播映映后開發(fā)產(chǎn)品鏈>策劃/劇本新核心環(huán)節(jié)>視頻制作環(huán)節(jié)難度下降,成本降低,將會推動產(chǎn)業(yè)鏈上游和下游發(fā)展更注重向上游拓展優(yōu)質(zhì)IP和創(chuàng)意能力注重向下游尋找發(fā)行資源和播映渠道創(chuàng)意生成環(huán)節(jié)視頻生成環(huán)節(jié)宣發(fā)播映環(huán)節(jié)好故事、好腳本、好平臺將成為視頻產(chǎn)業(yè)的核心競爭力AIGC視頻生成工具會降低視頻制作的準入門檻、拋棄對專業(yè)設(shè)備的依賴、降低生產(chǎn)成本、提升制作效率。隨著制作環(huán)節(jié)難度下降,好故事、好腳本等產(chǎn)業(yè)鏈上游的創(chuàng)意環(huán)節(jié)將成為視頻產(chǎn)業(yè)的核心競爭力。AI視頻產(chǎn)量的大幅增加需要更符合AI視頻特征的播映平臺,產(chǎn)業(yè)鏈也將更為注重下游宣發(fā)播映平臺渠道的建設(shè)更新。原有產(chǎn)業(yè)鏈的投資環(huán)節(jié)主要針對內(nèi)容制造環(huán)節(jié),未來文娛和技術(shù)投資將走向融合。圖:AIGC視頻生成簡化傳統(tǒng)視頻產(chǎn)業(yè)鏈3.6

長視頻重塑后的產(chǎn)業(yè)鏈重塑后的視頻產(chǎn)業(yè)鏈將整合簡化為三大環(huán)節(jié):創(chuàng)意生成—視頻生成—宣發(fā)播映數(shù)據(jù)來源:甲子光年智庫,2024年;IP制作宣發(fā)播映策劃/ 映后劇本 開發(fā)視頻生成應(yīng)用層視頻生成中間層視頻生成基礎(chǔ)層

文本+劇本文本+小說圖片+設(shè)計圖片+海報視頻+剪輯音頻+配樂創(chuàng)意生成環(huán)節(jié)視頻生成環(huán)節(jié)宣發(fā)播映環(huán)節(jié)細節(jié)說明文本生成模型圖片生成模型音頻生成長視頻生成模型音頻生成短視頻生成模型圖片生成模型視頻+特效視頻+3D視頻+動作視頻+渲染圖片+美術(shù)圖片+設(shè)計視頻+剪輯音頻+配樂視頻+元宇宙視頻+人機交互文本+創(chuàng)意文本+策劃創(chuàng)意生成:主要包括原IP、策劃/劇本和映后開發(fā)環(huán)節(jié)。主要以講好故事、做好創(chuàng)意策劃為目的。需要整合文本生成和圖像生成模型。視頻生成:主要包括制作環(huán)節(jié)。主要負責將故事由文本變?yōu)橐曨l內(nèi)容。需要具備長視頻生成和音頻生成模型。宣發(fā)播映:主要包括宣發(fā)與播映環(huán)節(jié)。主要負責將生成視頻內(nèi)容進行宣傳和播放。需要具備短視頻生成、音頻生成和圖片生成模型。3.6

長視頻重塑后的產(chǎn)業(yè)鏈重塑后的視頻產(chǎn)業(yè)鏈將會變?yōu)榛谌竽P腕w系的全新產(chǎn)業(yè)鏈,并帶來全新的生產(chǎn)方式重塑后的視頻產(chǎn)業(yè)鏈將基于三大環(huán)節(jié)產(chǎn)生三大產(chǎn)業(yè)體系:基于創(chuàng)意生成模型的產(chǎn)業(yè)體系、基于視頻生成模型的產(chǎn)業(yè)體系、基于宣發(fā)播映模型的產(chǎn)業(yè)體系。數(shù)據(jù)來源:甲子光年智庫,2024年;圖:AIGC視頻生成整合重塑后的全新視頻產(chǎn)業(yè)鏈算法層視頻生成應(yīng)用層創(chuàng)意生成模型產(chǎn)業(yè)體系視頻生成模型產(chǎn)業(yè)體系宣發(fā)播映模型產(chǎn)業(yè)體系A(chǔ)I芯片公司平臺層算力層AIDC智算中心視頻生成中間層視頻生成基礎(chǔ)層文學(xué)平臺制作公司 編劇工作室策劃工作室出版社 衍生品設(shè)計游戲公司 衍生品開發(fā)長視頻平臺營銷公司短視頻平臺數(shù)字平臺傳統(tǒng)電視臺發(fā)行公司票務(wù)平臺院線制作公司 動畫公司經(jīng)紀公司 教育培訓(xùn)后期公司 廣告公司視頻制作工具 傳媒公司文本生成+圖片生成的大模型廠商長視頻生成+音頻生成的大模型廠商短視頻+音頻+圖片生成的多模態(tài)大模型廠商文本生成工具廠商圖片生成工具廠商音頻生成工具廠商長視頻生成工具廠商

音頻生成工具廠商

短視頻生成工具廠商

圖片生成工具廠商 文本數(shù)據(jù)類公司視頻數(shù)據(jù)類公司圖片數(shù)據(jù)類公司數(shù)據(jù)平臺3.6

長視頻重塑后的產(chǎn)業(yè)鏈機會:創(chuàng)意生成體系IP版權(quán)生產(chǎn)交易開發(fā)一體化的平臺有望成為新的發(fā)展機遇數(shù)據(jù)來源:甲子光年智庫,2024年;IP版權(quán)交易模式>生產(chǎn)出版發(fā)行用戶消費獲取授權(quán)再開發(fā)內(nèi)容推廣版權(quán)方:作者版權(quán)擁有方平臺方:出版社閱讀平臺用戶:普通用戶專業(yè)用戶版權(quán)采購方:內(nèi)容開發(fā)方:內(nèi)容主控方:內(nèi)容公司影視公司影視公司版權(quán)代理方游戲公司游戲公司平臺方動漫公司動漫公司………………授權(quán)授權(quán)授權(quán)閱讀IP版權(quán)生產(chǎn)模式>觀看內(nèi)容生成內(nèi)容上傳版權(quán)確認定價和許可設(shè)置數(shù)字簽約支付使用監(jiān)控傳統(tǒng)的版權(quán)生產(chǎn)與交易模式IP版權(quán)生產(chǎn)交易開發(fā)一體化的平臺傳統(tǒng)IP版權(quán)的生產(chǎn)非常依賴作家的能力,而在版權(quán)交易環(huán)節(jié)通常是由版權(quán)持有者直接與使用方(如出版商、電影制作公司等)之間進行的,可交易范圍較窄。使用AIGC技術(shù)后,版權(quán)生成環(huán)節(jié)可以直接使用大模型來生成內(nèi)容,并且可以是文本文章、圖片、音頻剪輯、視頻片段等各種形式的內(nèi)容。版權(quán)交易不再是人與人之間的交易,而是創(chuàng)作者與技術(shù)平臺之間的交易。因此,IP版權(quán)生產(chǎn)和交易開發(fā)一體化的新型平臺有望迎來機遇。創(chuàng)作者VS技術(shù)平臺3.6

長視頻重塑后的產(chǎn)業(yè)鏈機會:創(chuàng)意生成體系白金作家群體不再成為稀有資源,未來人人都是小說家,中小型文學(xué)平臺將可能迎來春天數(shù)據(jù)來源:甲子光年智庫,2024年;行業(yè)的代表性人物,數(shù)量極少行業(yè)的中堅力量,數(shù)量不多行業(yè)的基礎(chǔ)力量,數(shù)量眾多行業(yè)的主要群體,數(shù)量龐大白金作家大神作家普通作家公眾作家90.6%0.004%0.001%9.4%現(xiàn)階段的作家群體分布呈現(xiàn)金字塔狀態(tài)人人都是小說家使用AIGC模型撰寫小說可以幫助小說作家快速生成大量文本,并為創(chuàng)作提供靈感和創(chuàng)意的啟發(fā),可以顯著降低撰寫小說的門檻,未來小說家將不再是特點人群,而是人人都是小說家。伴隨內(nèi)容供給的增加,傳統(tǒng)寡頭壟斷型的文學(xué)平臺有望被打破,中小型文學(xué)平臺的發(fā)展將迎來春天。準備工作選擇一個用于生成文本的AIGC模型,可以是一個預(yù)訓(xùn)練好的通用語言模型,也可以是經(jīng)過特定領(lǐng)域或風格微調(diào)的模型。確定故事基本框架,包括主要人物、情節(jié)發(fā)展、背景設(shè)定等方面的內(nèi)容。這些信息將作為生成文設(shè)定故事框

本的基礎(chǔ),引導(dǎo)模型生成與故事相關(guān)的內(nèi)容。架生成文本基于設(shè)定好的故事框架使用AIGC模型生成文本。通過向模型提供一些關(guān)鍵詞、句子或段落作為輸入,然后模型會基于這些輸入生成相應(yīng)的文本。篩選和編輯生成的文本可能包含不符合故事情節(jié)或風格的部分,因此需要進行篩選和編輯,刪除不需要的內(nèi)容、調(diào)整語言表達、補充細節(jié)等

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論