2024 生成式AI+視頻行業(yè)專題報(bào)告：AI+視頻的星辰大海遠(yuǎn)不止于視頻生成

上傳人：緣*** IP屬地：四川上傳時(shí)間：2024-09-26 格式：DOCX 頁數(shù)：54 大?。?1.89MB 積分：12 舉報(bào) 版權(quán)申訴

2024 生成式AI+視頻行業(yè)專題報(bào)告：AI+視頻的星辰大海遠(yuǎn)不止于視頻生成_第2頁

2024 生成式AI+視頻行業(yè)專題報(bào)告：AI+視頻的星辰大海遠(yuǎn)不止于視頻生成_第3頁

2024 生成式AI+視頻行業(yè)專題報(bào)告：AI+視頻的星辰大海遠(yuǎn)不止于視頻生成_第4頁

2024 生成式AI+視頻行業(yè)專題報(bào)告：AI+視頻的星辰大海遠(yuǎn)不止于視頻生成_第5頁

已閱讀5頁，還剩49頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

信達(dá)證勞CINDASECURITIES行業(yè)專題研究(深度)行業(yè)專題研究(深度)AI行業(yè)馮翠婷傳媒互聯(lián)網(wǎng)及海外首席分析師聯(lián)系電話ransformer、DiffusionModel以及Sora采用的DiT架構(gòu)躍性提升。VAE引入了隱變量推斷，GAN生成的圖像真PixverseV2為0.02美元(0.174rmb)、美圖WHEE為0.32rmb,國CINDASECURITIESC0.,LTD郵編：100053請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露2CINDASECURITIES題”。為，1)一站式平臺(tái)型公司，如Adobe、美圖公司；2)Al+視頻技術(shù)一、生成式AI發(fā)展進(jìn)程，文生視頻正成為當(dāng)前AI行業(yè)關(guān)鍵發(fā)展節(jié)點(diǎn) 6二、目前市場主流的海外生成式視頻參與者三、目前市場主流的國內(nèi)生成式視頻參與者 28四、從AI生成到AI剪輯，一站式Al視頻生成+編輯有望成為另一核心方向五、Al+視頻發(fā)展方向展望六、風(fēng)險(xiǎn)因素表1:Transformer、Diffusion、DiT模型的產(chǎn)品梳理表2:Runway歷年融資輪次、融資金額及對(duì)應(yīng)估值表3:LumaAl、Pika、RunwayGen-3Alpha、Sora相同提示詞生成視頻的效果多維度比較.27表4:海內(nèi)外視頻生成產(chǎn)品單視頻所需成本比較(1美元=7.28人民幣) 28表5:Adobe數(shù)字媒體業(yè)務(wù)和數(shù)字體驗(yàn)業(yè)務(wù)預(yù)估市占率 42表6:快影和剪映產(chǎn)品相關(guān)數(shù)據(jù) 46表7:相關(guān)公司提供視頻數(shù)據(jù)用于訓(xùn)練多模態(tài)大模型 48表8:IP類公司可基于Al+視頻開發(fā)更多IP衍生品 49 49表10:相關(guān)上市公司估值表(截至2024.07.24) 6圖2:AI應(yīng)用地圖梳理 6圖3:主流文生視頻技術(shù)的演進(jìn)路徑 7圖4:AIGC視頻生成的技術(shù)演進(jìn)路徑 8圖5:GAN生成對(duì)抗網(wǎng)絡(luò)運(yùn)作原理 8圖6:Diffusion擴(kuò)散模型運(yùn)作原理圖7:WALT視頻生成模型搭建原理示意圖圖8:Sora基于DiT模型生成圖像視頻圖9:2023年生成式Al+視頻時(shí)間表圖10:LumaAIDreamMachine官網(wǎng)宣傳文生視頻功能圖11:LumaAIDreamMachine官網(wǎng)宣傳前后幀輸入圖片生成連貫視頻功能圖12:LumaAIDreamMachine實(shí)測演示中會(huì)遇到不符合物理規(guī)律、物體對(duì)象缺失等問題.17圖13:Runway產(chǎn)品定價(jià)模式圖14:RunwayGen-1視頻生視頻圖15:RunwayGen-1視頻生視頻演示 20圖16:RunwayGen-2文生視頻效果表現(xiàn)較好 20圖17:RunwayGen-2圖生視頻效果及筆刷功能表現(xiàn)較好 21圖18:RunwayGen-3Alpha通過運(yùn)動(dòng)畫筆、高級(jí)相機(jī)控制、導(dǎo)演模式可以更精細(xì)控制運(yùn)動(dòng)21圖19:RunwayGen-3Alpha兩端提示詞測試，效果較強(qiáng) 22 23圖21:Pika文生視頻界面及視頻編輯核心功能 23圖22:Sora合成的60秒視頻 24請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露http://www.cindasc.com4 24 25圖25:LumaAIDreamMachine生成效果(電影質(zhì)感，略微不符 25圖26:Pika生成效果(提示詞理解、畫面質(zhì)感等方面有差距) 26圖27:RunwayGen-2生成效果(主角沒有跟隨鏡頭移動(dòng)) 26圖28:RunwayGen-3Alpha生成效果(各方面表現(xiàn)均優(yōu)秀) 27圖29:快手大模型產(chǎn)品矩陣及可靈AI產(chǎn)品功能升級(jí) 圖39:后續(xù)Firefly關(guān)于多模態(tài)音頻、視頻方向上的功能展望圖42:CaptionsAIADCr 圖43:阿里達(dá)摩院“尋光”一站式視頻創(chuàng)作平臺(tái)視頻編輯功能圖44:阿里達(dá)摩院“尋光”視頻素材創(chuàng)作功能圖45:美圖MOKIAI短片產(chǎn)品圖46:商湯Vimi人物視頻生成 40圖47:智象大模型升級(jí)2.0版本 40圖48:智向未來即將上線一站式分鏡頭故事創(chuàng)作視頻生成功能 41 42圖50:AdobeExpress在24年4月迭代AI功能后，日活數(shù)驟然抬升并穩(wěn)定提高 43 43圖52:美圖公司底層、生態(tài)層、應(yīng)用層架構(gòu) 44圖53:Vimi在人物一致性功能支持下打造的數(shù)字分身打造AI視頻功能、AI表情包功能..45信達(dá)證券CINDASECURITIES一、為什么要研究Al+視頻——AI視頻生成正成為當(dāng)前行業(yè)發(fā)展關(guān)鍵節(jié)點(diǎn)2023年紅杉資本在關(guān)于生成式AI發(fā)展進(jìn)程的預(yù)測報(bào)告中表明，在歷經(jīng)文生文、文生圖的升級(jí)迭代后，我們目前正處在Al+生產(chǎn)力辦公&設(shè)計(jì)、Al+視頻和Al+3d滲透的歷史節(jié)點(diǎn)上。在底層大模型技術(shù)迭代逐漸加速的今陪伴等方向已經(jīng)逐漸成為競爭激烈的主要方向，展望未來我們需要對(duì)更多Al+做深入的研究，而視頻方向一直是業(yè)內(nèi)關(guān)注的重點(diǎn)方向之一。視頻雜糅了文本、語音、圖像等多維度內(nèi)容，其訓(xùn)練的難點(diǎn)也往往在于視頻數(shù)據(jù)對(duì)數(shù)量和質(zhì)量的不足、算法架構(gòu)需要優(yōu)化、物理規(guī)律性較差等等，但我們相信，隨著Al+視頻的技術(shù)和產(chǎn)品升級(jí)迭代，眾多行業(yè)有望受益，諸如電影、廣告、視頻剪輯、視頻流媒體平臺(tái)、UGC創(chuàng)作平臺(tái)、短視頻綜合平臺(tái)等，而目前正處在Al+視頻發(fā)展的關(guān)鍵性時(shí)刻，正從Al+視頻創(chuàng)意生成逐漸過渡到一站式視頻生成+剪輯+UGC的后續(xù)階段。TEXTCODEVIDEO/GAMING圖1:生成式TEXTCODEVIDEO/GAMINGPRE-2020202020222023?SpamdetectionTranslationBasicQ&ABasiccopywritingFirstdraftsLongerformSeconddraftsVerticalfinetuninggetsgood(scientifiopapers,etc)FinaldraftsbetterthanthehumanaverageFinaldraftsbetterthanprofessionawriters1-lineauto-completeMulti-linegenerationLongerformBetteraccuracyMorelanguagesMoreverticalsTexttoproduct(final)developersArtLogosPhotographyMock-ups(productdesign,architecture.etc.)Finaldrafts(productFinaldraftsbetterthanprofessiorartists,designersphotographers)Firstattemptsat3D/videomodelsBasic/firstdraftvideosand3DfilesSeconddraftsAIRobloxVideogamesandmoviesarealzeuuteatisLargemodelavailability:FirstattemptsAlmostthereReadyforprimetime在紅杉資本2024年關(guān)于AI應(yīng)用的地圖梳理中反映了市場中的兩個(gè)重要趨勢：生成式人工智能從技術(shù)趨勢演變?yōu)閷?shí)際應(yīng)用和價(jià)值，以及生成式人工智能應(yīng)用日益呈現(xiàn)多模態(tài)的特性?？梢钥吹?，AI視頻生成及編輯的版圖占比較多，重要性和產(chǎn)品推進(jìn)速度目前較快。圖2:AI應(yīng)用地圖梳理ProsumerGENERALSEARCHKNOWLEDGChatGPT●ANTHROPICUae米perplexityXVRTXkSsynthesiaAUTONOMOusAGENTVIDEOCREATION/EDITINGRrunwayVEED.IOBROWSERCOPILOTSAUTOMATIONASSISTAN7MinionAlnewCOMPUTERBabyAGIIMAGECREATION/EDITINGPicsartPhotoRoomVOICEIElevenLabsANwRESEMBLE.AIWWELLSAID以MURFAI1)計(jì)算成本：確保幀間空間和時(shí)間一致性會(huì)產(chǎn)生長期依賴性，從而帶來高計(jì)算成本；2)缺乏高質(zhì)量的數(shù)據(jù)集：用于文生視頻的多模態(tài)數(shù)據(jù)集很少，而且通常數(shù)據(jù)集的標(biāo)注很少，這使得學(xué)習(xí)復(fù)雜的運(yùn)動(dòng)語義很困難。文生視頻模型需要依賴于大量數(shù)據(jù)來掌握如何將文本描述轉(zhuǎn)化為具有寫實(shí)感的連續(xù)幀，并捕捉時(shí)間上的動(dòng)態(tài)變化；3)視頻生成質(zhì)量：時(shí)空一致性難以保持，在不同鏡頭、場景或時(shí)間段內(nèi)較難確保角色、物體和背景的一致性。長視頻制作仍面臨時(shí)間一致性和完整性的挑戰(zhàn)，這直接影響到實(shí)際應(yīng)用的可行性；4)語義對(duì)齊：由于自然語言具有復(fù)雜性和多義性，文本語義理解、文本與視頻元素的映射關(guān)系仍是挑戰(zhàn)；5)產(chǎn)品易用性：對(duì)于文生視頻，產(chǎn)品的易用性和體驗(yàn)仍需改進(jìn)。個(gè)人用戶希望制作流程易上手、符合習(xí)慣，并支持快速素材搜索、多樣模板、多端同步和一鍵分享；小B端用戶關(guān)注成本可控下的快速營銷視頻制作和品牌傳播效果；行業(yè)用戶則需要內(nèi)容與交互性的融合，包括商用素材適配性、快速審核和批量制作分發(fā)能力；6)合規(guī)應(yīng)用：文生視頻的應(yīng)用面臨素材版權(quán)、隱私安全和倫理道德等風(fēng)險(xiǎn)。二、市場主流AI視頻生成技術(shù)的迭代路徑圖3:主流文生視頻技術(shù)的演進(jìn)路徑2021.11微軟亞洲研究院發(fā)布2021.11微軟亞洲研究院發(fā)布NUWA(女媧)2021.4微軟亞洲研究院發(fā)布GODI2023.3微軟亞洲研究院發(fā)布NUWA-XI2024.1字節(jié)跳動(dòng)發(fā)布Magicvideo2022.5清華發(fā)布CogVideo20162016年-2019年2022.11字節(jié)跳動(dòng)發(fā)布MagicVideo2022.10Google發(fā)布Im2022.9Meta發(fā)布Make-A-Video2022.7微軟亞洲研究院發(fā)布NUWA-Infinity2017.12MOCOGAN2019.9DVD-GAN資料來源：CarlVondrick等《GeneratingVideoswithSceneDynamics》;SergeyTulyakov等《MoCoGAN:DecomposingMotionandContentforVideoGeneration》;EichiMatsumoto等《TemporalGenerativeAdversarialNetswithSingularValueClipping》;AidanClark等《ADVERSARIALVIDEOGENERATIONONCOMPLEXDATASETS》;ChenfeiWu等《NUWA:VisualSynthesisPre-trainingforNeuralJonathanHo等《MAGENVIDEO:HIGHDEFINITIONVIDEOGENERATIONWITHDIFFUSIONMODELS》;RubenVilegas等《PHENAK:TO-VIDEOGENERATIONWITHOUTTEXT-VIDEODATA》;ChenfeiWu等《NUWA-Infinity:AutoregressYu等《GENERATINGVIDEOSWITHDYNAMICS-AWAREMPLICITGENERATIVEADVERSARIALNETWORKS》;DanKondratyuk等《VideoPoet:ALargeLanguageModelforZero-ShotVideoGeneration》;AgrimGuptau等《PhotorealisticVideoGenModels》;SongweiGe等《PreserveYourOwnCorrelation:ANoiseProrforVideoDifusionModels》;AndreasBlattmann等《AligLatents:High-ResolutionVideoSynthesiswithLatentDifusion研發(fā)中心請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露7代表產(chǎn)品代表產(chǎn)品Text2FilterVideoGPT.Runway-Gen2、通義千問視頻大模型……Sora、快手可靈……資料來源：信達(dá)證券研發(fā)中心(注：該圖通過圖3所引用論文總結(jié)而來)1)GAN+VAE生成對(duì)抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks)核心思想是訓(xùn)練兩個(gè)網(wǎng)絡(luò)，生成器(G)和判別器(D)。生和MoCoGAN,它們通過不同的網(wǎng)絡(luò)架構(gòu)和訓(xùn)練方法來改進(jìn)GAN在視頻生成上的性能。此外，DualVideoRandomRandomGeneratorFakeDiscriminatorGenerator資料來源：AWSMarketplace,信達(dá)證券研發(fā)中心GAN技術(shù)特點(diǎn)如下：1)無需標(biāo)注數(shù)據(jù)，可以從未標(biāo)注的圖像中學(xué)習(xí)生成新的圖像或視頻；2)多領(lǐng)域應(yīng)用，可以應(yīng)用于圖像生成、風(fēng)格遷移、數(shù)據(jù)增強(qiáng)、超分辨率等多種任務(wù)；3)模型靈活，通過改變網(wǎng)絡(luò)結(jié)構(gòu)，可以適應(yīng)不同的數(shù)據(jù)分布和生成任務(wù)；4)模型參數(shù)小，較為輕便，擅長對(duì)單個(gè)或多個(gè)對(duì)象類進(jìn)行建模。GAN作為早期文生視頻模型，存在如下缺點(diǎn)：1)訓(xùn)練過程不穩(wěn)定，容易出現(xiàn)模式崩潰(modecollapse),即生成器開始生成非請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露83)擴(kuò)散模型請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露9x?X2DenoisingUNetXrXT4)DiT(Transformer+Diffusion)W.A.L.T(owAttentionLatentTransformer)模型和兩個(gè)視頻超分辨率擴(kuò)散模型，以每秒8幀的速度生成512×896分辨率的視頻。請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露10圖7:WALT視頻生成模型搭建原理示意圖SpatSelfAttSpatSelfAttAttearodtV——WALT將圖像和視頻編碼到共享潛在空間中。Transformer主干使用具有兩層窗口限制注意力的塊來處理這些潛在空間：空間層捕獲圖像和視頻中的空間關(guān)系，而時(shí)空層通過身份注意力掩碼模擬視頻中的時(shí)間動(dòng)態(tài)并傳遞圖像。文本調(diào)節(jié)是通過空間交叉注意力完成的。DiT模型技術(shù)特點(diǎn)如下：1)運(yùn)用潛在擴(kuò)散模型，在潛在空間而非像素空間中訓(xùn)練擴(kuò)散模型，提高了計(jì)算效率；2)Patchify操作，將空間輸入轉(zhuǎn)換為一系列token,每個(gè)token代表圖像中的一個(gè)小塊；3)條件輸入處理，DiT設(shè)計(jì)了不同的Transformer塊變體來處理?xiàng)l件輸入(如噪聲時(shí)間步長、類別標(biāo)簽等);4)自適應(yīng)層歸一化(adaLN),使用adaLN來改善模型性能和計(jì)算效率；5)可擴(kuò)展性：DiT展示了隨著模型大小和輸入token數(shù)量的增加，模型性能(以FID衡量)得到提升；6)簡化的架構(gòu)選擇，DiT證明了在擴(kuò)散模型中，傳統(tǒng)的U-Net架構(gòu)并不是必需的，可以被Transformer替代。DiT模型仍存在以下缺點(diǎn)：1)實(shí)現(xiàn)復(fù)雜性，雖然DiT在理論上簡化了架構(gòu)選擇，但Transformer的實(shí)現(xiàn)可能比U-Net更復(fù)雜；2)訓(xùn)練穩(wěn)定性：盡管DiT訓(xùn)練穩(wěn)定，但Transformer架構(gòu)可能需要特定的訓(xùn)練技巧來保持穩(wěn)定；3)對(duì)硬件要求高，雖然DiT在計(jì)算上更有效率，但Transformer模型通常需要大量的內(nèi)存和計(jì)算資源，這可能限制了它們?cè)谫Y源受限的環(huán)境中的應(yīng)用；4)模型泛化能力，DiT主要在ImageNet數(shù)據(jù)集上進(jìn)行了評(píng)估，其在其他類型的數(shù)據(jù)和任務(wù)上的泛化能力尚未得到驗(yàn)證。DiT作為一種新型的擴(kuò)散模型，通過在潛在空間中使用Transformer架構(gòu)，實(shí)現(xiàn)了對(duì)圖像生成任務(wù)的高效和高性獲得了通用化的能力。它采用基于擴(kuò)散模型的生成框架，逐步改進(jìn)噪聲樣本以產(chǎn)生高保真度的視頻輸出，并應(yīng)用Transformer架構(gòu)來處理視頻和圖像的時(shí)空信息，保持物體在三維空間中的連貫性。這種結(jié)合生成和變換器優(yōu)勢的方法，使得Sora在視頻生成和編輯任務(wù)中表現(xiàn)出色，能夠創(chuàng)造出多樣化、高質(zhì)量的視覺內(nèi)容。請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露11模型類型模型名稱發(fā)布方發(fā)布時(shí)間技術(shù)特點(diǎn)及主要功能VideoGPT使用VQ-VAE,并通過3D卷積和軸向自注意力機(jī)制實(shí)現(xiàn)。使用類似GPT的架構(gòu)自回歸能生成高保真度視頻，尤其是適應(yīng)動(dòng)作條件視頻。微軟亞洲研究院采用3D變換器編碼器-解碼器框架，提出3D近鄰注意力機(jī)制簡化計(jì)算，支持多模態(tài)預(yù)訓(xùn)練，使用VQ-GAN視覺標(biāo)記3Dtokens,具有零樣本能力。在生成圖像、視頻以及視頻預(yù)測方面表現(xiàn)優(yōu)秀。清華大學(xué)采用多幀率層次化訓(xùn)練策略、雙通道注意力機(jī)制，靈活文本條件模擬不同幀率視頻，順序生成和遞歸插值框架使視頻生成連貫。對(duì)復(fù)雜語義的運(yùn)動(dòng)理解加強(qiáng)，生成高分辨率、高幀率、高一致性的視頻。微軟亞洲研究院采用雙重自回歸生成機(jī)制來處理可變尺寸的生成任務(wù)，引入NCP緩存已生成的相關(guān)patch來減少計(jì)算成本，采用任意方向控制器賦能圖像擴(kuò)展，能生成任意大小高分辨率圖像、長時(shí)視頻、圖像動(dòng)畫。Google使用因果注意力機(jī)制生成可變長度視頻，使用預(yù)訓(xùn)練的T5X來生成文本嵌入，通過雙向遮蔽Transformer根據(jù)文本嵌入生成視頻請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露12token,采用C-ViViT編碼-解碼架構(gòu)減少token數(shù)量并在時(shí)空一致性表現(xiàn)更好。僅采用解碼器架構(gòu)能處理多模態(tài)輸入，支持零樣本視頻生成；使用雙向變換器在標(biāo)記空間內(nèi)提高空間分辨率；通過自回歸擴(kuò)展內(nèi)容來合成長達(dá)10秒的連貫視頻；執(zhí)行文本、圖像、視頻編輯到視頻的多任務(wù)視頻生成。使用因果編碼器聯(lián)合壓縮圖像和視頻，實(shí)現(xiàn)跨模態(tài)生成；采用窗口注意力架構(gòu)，聯(lián)合空間和時(shí)空生成建模；不依賴分類器自由引導(dǎo)可生成視頻；通過潛在視頻擴(kuò)散模型和視頻超分辨率擴(kuò)散模型的級(jí)聯(lián)，生成512×896分辨率、每秒8幀的視頻；能根據(jù)類別標(biāo)簽、自然語言、過去幀、低分辨率視頻生成可控視頻。采用基礎(chǔ)視頻擴(kuò)散模型和用于空間與時(shí)間超分辨率擴(kuò)散模型，采用v-prediction參數(shù)化避免色彩偏移，應(yīng)用漸進(jìn)式蒸餾技術(shù)，快速高效采樣；使用噪聲條件增強(qiáng)來減少級(jí)聯(lián)模型中的域差距，提高樣本質(zhì)量；能生成各種藝術(shù)風(fēng)格和3D對(duì)象理解的視頻，具可控性和對(duì)世界知識(shí)的理解。VideoDiffusion從圖像和視頻數(shù)據(jù)聯(lián)合訓(xùn)練減小批量梯度方差；引入條件采樣技術(shù)，提高空間和時(shí)間視頻擴(kuò)展性能；使用特定類型的3DU-Net作為擴(kuò)散模型架構(gòu)，使時(shí)間空間分解；采用因子化的空間-時(shí)間注意力機(jī)制，能遮蔽模型以在獨(dú)立圖像上運(yùn)行；使用多種擴(kuò)散模型采樣器；能處理多尺度和多幀視頻數(shù)據(jù)，生成長序列視頻。不需要成對(duì)的文本-視頻數(shù)據(jù)進(jìn)行訓(xùn)練；通過無監(jiān)督的視頻素材學(xué)習(xí)世界的運(yùn)動(dòng)方式；構(gòu)建在T2I模型之上，包括分解全時(shí)域U-Net和注意力張量，并在空間和時(shí)間上近似它們；設(shè)計(jì)空間-時(shí)間管道，通過視頻解碼器、插值模型、超分辨率模型生成高分辨率、高幀率MagicVideo字節(jié)跳動(dòng)使用3DU-Net解碼器簡化計(jì)算；引入幀間輕量適配器，減少對(duì)獨(dú)立2D卷積塊的需求；采用有向自注意力機(jī)制，僅基于所有先前幀計(jì)算未來幀的特征；提出VideoVAE自編碼器，改善像素抖動(dòng)問題；訓(xùn)練基于擴(kuò)散的超請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露131024×1024的高分辨率。新加坡國立大學(xué)，騰訊基于預(yù)訓(xùn)練的T2I擴(kuò)散模型，使用開放域知識(shí)；引入空間時(shí)間注意力機(jī)制來學(xué)習(xí)連續(xù)運(yùn)動(dòng)；使用DDIM反演，使生成視頻時(shí)序一致；只更新注意力塊中的投影矩陣而非所有參數(shù)，避免對(duì)新概念視頻生成的阻礙。將潛在擴(kuò)散模型擴(kuò)展到視頻生成，通過將時(shí)間層引入到預(yù)訓(xùn)練的圖像模型中并對(duì)圖像和視頻進(jìn)行聯(lián)合訓(xùn)練，無需額外訓(xùn)練和預(yù)處理。頻；通過訓(xùn)練模型預(yù)測視頻下一幀，對(duì)視覺世界深入理解；從單個(gè)幀的高保真度生成開始，逐步解決視頻敘事中的挑戰(zhàn)，包括場景、Google采用混合微調(diào)方法，結(jié)合全時(shí)序注意力和時(shí)序注意力掩蔽的微調(diào)；引入輕量級(jí)的幀間適配器，用于調(diào)整I2V分布；采用有向自注意力機(jī)制，捕捉幀間的時(shí)序依賴性；提出圖像動(dòng)畫框架，轉(zhuǎn)圖像為粗糙視頻進(jìn)行編輯。微軟亞洲研究院能夠直接在長視頻上進(jìn)行訓(xùn)練，并通過增加深度m來輕松擴(kuò)展到更長的視頻；“粗到細(xì)”階段生成，先通過全局?jǐn)U散模型生成關(guān)鍵幀，再用局部擴(kuò)散模型遞歸填充鄰近幀之間的內(nèi)容；支持并行推理，提高長視頻生成速度。PicsartAIResearch,UTAustin,實(shí)現(xiàn)零樣本學(xué)習(xí)；在生成幀代碼注入運(yùn)動(dòng)動(dòng)力學(xué)，能保持全局場景和背景的時(shí)間一致性；使用新的跨幀注意力機(jī)制保留前景對(duì)象的上下文、外觀和身份。NVIDIA在潛在空間擴(kuò)散模型中引入時(shí)間維度，將圖像生成器轉(zhuǎn)換為視頻生成器，實(shí)現(xiàn)視頻數(shù)據(jù)的時(shí)間對(duì)齊；在圖像上預(yù)訓(xùn)練LDM,然后在編碼的視頻上微調(diào)生成視頻；能夠?qū)崿F(xiàn)高達(dá)1280×2048分辨率的視頻生成。NVIDIA提出視頻擴(kuò)散噪聲先驗(yàn)，更好地捕捉視頻幀之間的內(nèi)在聯(lián)系；采用一個(gè)由基礎(chǔ)模型和三個(gè)上采樣堆疊組成的級(jí)聯(lián)網(wǎng)絡(luò)架構(gòu)；使用了DEIS及其隨機(jī)變體進(jìn)行樣本合成的先進(jìn)采樣技術(shù)；小規(guī)模模型實(shí)現(xiàn)優(yōu)異性能，從文本嵌入生成高分辨率的視頻。請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露14Sora、可靈等OpenAI、快手等使用文本條件擴(kuò)散模型，處理視頻和圖像的空間時(shí)間塊；訓(xùn)練了一個(gè)網(wǎng)絡(luò)來降低視覺數(shù)據(jù)的維度，輸入原始視頻并輸出壓縮的潛在表示；能夠生成一分鐘的高保真視頻，能實(shí)現(xiàn)視頻擴(kuò)展、視頻過渡，輸入視頻的風(fēng)格和環(huán)境的零樣本轉(zhuǎn)換。資料來源：CarlVondrick等《GeneratingVideoswithSceneDynamics》;SergeyTulyakov等KMoCoGAN:DecomposingMotionandContentAl+視頻發(fā)展以來，技術(shù)路徑和迭代產(chǎn)品冗雜繁多、功能不一、效果差異，我們選取目前海內(nèi)外市場主要的生成式視頻的參與者：LumaAI(DreamMachine)、Runway(Gen1-2&Gen-3Alpha)、Pika、Sora,集中梳理了其融資歷程、產(chǎn)品迭代、核心功能、實(shí)測效果比較等多方面，經(jīng)個(gè)別提示詞生成視頻效果測試，在Sora未公提示詞理解、視頻時(shí)長等諸多維度上表現(xiàn)均較為優(yōu)秀。圖9:2023年生成式Al+視頻時(shí)間表Gen-XOMeta@venturetwinsMagicHourPikaVispuHotshot③AdAssis-to-FullJour請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露15LumaAI成立于2021年，2024年以其推出的文生視頻模型DreamMachine而得到全球投資視野的關(guān)注，但早期公司僅聚焦在3D內(nèi)容生成，23年11月，LumaAI在Discord服務(wù)器上推出了文生3D模型Genie,降低了集4300萬美元，B輪估值在2億到3億美元之間。官網(wǎng)顯示目前核心團(tuán)隊(duì)共34人，其中華人5位。LumaAIDreamMachine是一款由LumaAI開發(fā)的AI視頻生成模型，它能夠?qū)⑽谋竞蛨D像快速轉(zhuǎn)換為高質(zhì)圖10:LumaAIDreamMachine官網(wǎng)宣傳文生視頻功能請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露16圖11:LumaAIDreamMachine官網(wǎng)宣傳前后幀輸入圖片生成連貫視頻功能圖12:LumaAIDreamMachine實(shí)測演示中會(huì)遇到不符合物理規(guī)律、物體對(duì)象缺失等問題running,rushedontothestageofacircusGrazingcowsmoveslowlyacrossanidyllicmeadow,thecameratrackingalongsidetheminasmoothside-anglemotionExtend↓Download6?斷創(chuàng)新，2024年推出新一代視頻生成模型Gen-3Alpha。據(jù)外媒TechCrunch報(bào)道，近期公司正籌劃新一輪融資4.5億美元，估值有望達(dá)到40億美元。時(shí)間估值A(chǔ)mplifyPartners領(lǐng)投，LuxCapital和CompoundVentures參投/B輪3500萬美元Coatue領(lǐng)投，所有現(xiàn)有投資者均參與其中：AmplifyPartners、LuxVentures和Compound/C輪5000萬美元Felicis領(lǐng)投，所有現(xiàn)有投資者均參與其中：AmplifyPartners、LuxCapital、Coatue和Compound/C+輪1.41億美元C輪融資增加1.41億美元，參與的投資者包括谷歌、NVIDIA、SalesforceVentures以及現(xiàn)有投資者等15億美元D輪(據(jù)TechCrunch報(bào)道)4.5億美元投資機(jī)構(gòu)包括GeneralAtlantic等40億美元Runway不同的定價(jià)模式：主要分為永久免費(fèi)基礎(chǔ)版、標(biāo)準(zhǔn)版、高級(jí)版、無限制版本和企業(yè)級(jí)版本服務(wù)。永久免費(fèi)版：用戶擁有一次性125個(gè)credits積分，gen-1(視頻到視頻)上傳最長為4s,gen-2(文生視頻和圖生視頻)通過延長視頻功能最長至16s等；標(biāo)準(zhǔn)版、高級(jí)版和無限制版本的差別在于每月積分的數(shù)額、gen-3的使用、水印的消除、資產(chǎn)庫數(shù)量、視頻質(zhì)量等方面。圖13:Runway產(chǎn)品定價(jià)模式andocontentcreationfeatures.Gen-1(VideotoVideo)uptsecviasubscriptiondate.BuymoreasneedUnlimitedvideoeditorprojects·TromagtopOlsnrtstroiunopcns·withplan)①geherators(itrainin·Creditsresetto2250erymonthstartingfrUpscaleresolutioninGen-1andGen-2Unlimitedvideoeditorproiects.500GBassetsAllvideoeditorexportsfromStandard.plusPNG&ProRevideoeditorconAllimageexportsfromStandard,plusPNG&ProRe·date.BuymoreasneededEQ\*jc3\*hps34\o\al(\s\up6(w),h)EQ\*jc3\*hps34\o\al(\s\up6(t),o)EQ\*jc3\*hps34\o\al(\s\up6(h),n)EQ\*jc3\*hps30\o\al(\s\up6(nraote),star)EQ\*jc3\*hps30\o\al(\s\up6(r),f)EQ\*jc3\*hps30\o\al(\s\up6(es),ro)·date.BuymoreasneededScalableforlargeorganizationsCustomcreditamounsegmentandAdvancedsecurityanterpdingrioritysuIntegrationwithinternaltoos請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露18RunwayGen-1(VideotoVideo)在生成之前，可以預(yù)覽4個(gè)靜態(tài)幀以幫助調(diào)整設(shè)置。Gen-1最多可以生成15秒的視頻。在使用Gen-1生成型可以根據(jù)示例圖像或文本引導(dǎo)修改視頻。編輯完全在推理時(shí)執(zhí)行，無需額外的每個(gè)視頻的訓(xùn)練或預(yù)處理。Gen-1模型在大規(guī)模未配對(duì)視頻和配對(duì)的文本-圖像數(shù)據(jù)集上進(jìn)行訓(xùn)練。同時(shí)，產(chǎn)品展示了通過訓(xùn)練不mesmerizingportraitmesmerizingportraitFigure1.GuidedVideoSynthesisWepresentanapproachbasedonlatentvideodiffusionmodelsthatsynthesizesvideos(topandbottom)guidedbycontentdescribedthroughtext(top)orimages(bottom)whilekeepingthestructureofaninputvideo(middle).請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露19圖15:RunwayGen-1視頻生視頻演示(左上為原始視頻，右上為預(yù)覽分鏡頭腳本，下圖為素描風(fēng)格的視頻轉(zhuǎn)換生成)圖16:RunwayGen-2文生視頻效果表現(xiàn)較好請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露20圖17:RunwayGen-2圖生視頻效果及筆刷功能表現(xiàn)較好請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露21圖19:RunwayGen-3Alpha兩端提示詞測試，效果較強(qiáng)萬人實(shí)現(xiàn)了創(chuàng)意構(gòu)想。Pika由斯坦福大學(xué)AILab的博士生郭文景和孟辰霖于2023年4月創(chuàng)立。2023年7月，領(lǐng)投Pika的3500萬美元A輪融資。在前期三輪融資中籌集了5500萬美元。2024年6月，Pika進(jìn)行了8000萬美元的B輪融資，使公司的總?cè)谫Y額達(dá)到1.35億美元。在Discord上進(jìn)行了秘密發(fā)布，發(fā)布了1.0版模型美金)、無限制版(每年336美金)的credits數(shù)量增加，延長4s視頻時(shí)長、無水印等；高級(jí)版(每年696美請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露22圖20:Adobe產(chǎn)品中引入第三方視頻模型Pika優(yōu)化用戶體驗(yàn)dobeFirflyPrivateBeta-PersonalUseyfxA006_C009.mov[V]圖21:Pika文生視頻界面及視頻編輯核心功能請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露232024年2月16日，OpenAI在官網(wǎng)發(fā)布了創(chuàng)新性文生視頻模型-Sora。從官網(wǎng)展示的Sora生成視頻來看，在圖22:Sora合成的60秒視頻圖23:OpenAI擴(kuò)散模型過程請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露24圖24:Sora可進(jìn)行多個(gè)視頻的組合about.”請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露25圖27:RunwayGen-2生成效果(主角沒有跟隨鏡頭移動(dòng))請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露RunwayGen-3Alpha上線時(shí)間2023.112024.06/實(shí)測綜合效果中低高暫未對(duì)外開放測試分辨率中低720p高/生成時(shí)長/單次延長時(shí)間3s/4s可選5s/10s最長60s物理規(guī)律中低高/提示詞理解高低高生成速度中高高其他主要能力提示詞加強(qiáng)、延長時(shí)間、首尾幀圖片生成等提示詞修改局部區(qū)域、改編視頻畫幅、人物添加表情視頻、添加音效等提示詞長度無限制、給人物添加表情視頻等請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露產(chǎn)品定價(jià)免費(fèi)用戶每月可生成30條視標(biāo)準(zhǔn)版$23.99/月Pro高級(jí)版$79.99/月Premier最高級(jí)版$399.99$/月免費(fèi)用戶初始250積分，10積分可生成3s視頻；標(biāo)準(zhǔn)版$8/月Unlimited無限值版$28/月Pro高級(jí)版$58/月免費(fèi)用戶初始125積分標(biāo)準(zhǔn)版$12/月Pro高級(jí)版$28/月Unlimited無限制版$76/月企業(yè)級(jí)定制詳詢最新融資金額4300萬美元8000萬美元據(jù)外媒TheInformation報(bào)道為4.5億美元估值情況2-3億美元4.7億美元40億美元24.06全渠道應(yīng)用下載量/24.04-06網(wǎng)站擁擠度加總24.06平均月活用戶數(shù)半年達(dá)到500,000用戶ARR/2500萬美元估值指數(shù)=估假設(shè)55萬月活，付費(fèi)率10%,平均arpu30美金/月，則月收入為165萬美元，假設(shè)年收入為500萬美元，則2.5億美元/500萬美元=50x/40億美元/2500萬美元單活躍用戶估值指數(shù)2.5億美元/55萬=454.54.7億美元/50萬=94040億美元/32萬=12500表4:海內(nèi)外視頻生成產(chǎn)品單視頻所需價(jià)格比較(1美元=7.28人民幣)Alpha快手可靈剪映即夢(mèng)愛詩科技PixverseV2虛擬道具/credits積分credits積分靈感值；靈感值10.87人民幣credits積分請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露28免費(fèi)用戶10個(gè)視頻生成250初始積分，每日30積分無免費(fèi)版66個(gè)(24h過60積分(24h過期)100初始積分，每天50積分生成耗時(shí)5分鐘15分鐘+60s生成5s的720p視頻2-5分鐘1分鐘2-5分鐘單次視頻時(shí)長5s/10s3/6/9/12s單個(gè)視頻生成消耗單位虛擬道具數(shù)量付費(fèi)會(huì)員沒有生成視頻數(shù)量限制625積分=125sgen2視頻10個(gè)靈感值3積分15/30積分年基礎(chǔ)會(huì)員費(fèi)287.9美元/年96美元/年，每月獲得700積分+每天30積分，共1600積分144美元/年，每月獲得625積分限時(shí)基礎(chǔ)黃金會(huì)員396元/年，每月獲得660靈感值659元/年，每月獲得2020積分，每天贈(zèng)送60積分，共3820積分48美元/年，每月獲得1000積分，每天獲得50積分，共2500積分會(huì)員每月可生成視頻數(shù)量150個(gè)1600/10=160個(gè)125/5=25個(gè)gen-2視頻660/10=66個(gè)3820/3=1273個(gè)2500/15=167個(gè)單條視頻生成所需價(jià)格0.16美元(1.17人民幣)0.05美元(0.364人民0.48美元(gen2,3.49人民幣)0.5元人民幣0.04元人民幣0.02美元(0.174人民快手一可靈AI(DiffusionTransformer架構(gòu))快手的大模型能力涵蓋了包括大語言模型、文生圖大模型、視頻生成大模型、音頻大模型、多模態(tài)大模型等核心技術(shù)方向，并基于快手豐富的業(yè)務(wù)場景，將生成式AI與多模態(tài)內(nèi)容理解、短視頻/直播創(chuàng)作、社交互動(dòng)、商業(yè)化AIGC、創(chuàng)新應(yīng)用等業(yè)務(wù)形態(tài)深度結(jié)合?？伸`大模型的更新迭代速度較快，當(dāng)視頻生成效果接近圖形渲染和視頻拍攝時(shí)，有望對(duì)游戲、動(dòng)畫、泛視頻行業(yè)帶來新的機(jī)遇，有望促進(jìn)視頻平臺(tái)生態(tài)繁榮。1)自研“快意大模型”(KuaiYii)。13B、66B、175B三種參數(shù)規(guī)模，將大模型應(yīng)用于短視頻場景下。2)可圖大模型(KOLORS)。由快手大模型團(tuán)隊(duì)自研打造的文生圖大模型，具備強(qiáng)大的圖像生成能力，能夠基于開放式文本生成風(fēng)格多樣、畫質(zhì)精美、創(chuàng)意十足的繪畫作品?！翱蓤D”主打三大核心特性：深入的中文特色理解、長文本復(fù)雜語義理解及對(duì)齊人類審美的精美畫質(zhì)，讓用戶低門檻創(chuàng)造高質(zhì)量圖像。3)可靈視頻生成大模型。2024年6月6日，快手大模型團(tuán)隊(duì)自研打造了視頻生成大模型一可靈，具備強(qiáng)大的視頻生成能力，讓用戶可以輕松高效地完成藝術(shù)視頻創(chuàng)作，包含文生視頻能力、圖生視頻能力及視頻續(xù)寫能力，后續(xù)有望上線視頻編輯功能?？伸`視頻模型的重點(diǎn)方向在于：大幅度的合理運(yùn)動(dòng)符合物理規(guī)律、長達(dá)2分鐘的視頻生成能力幀率且達(dá)到30fps、模擬物理世界特性、強(qiáng)大的概念組合能力、電影級(jí)別的畫面、支持自由的輸出視頻高寬比。在2024年世界人工智能大會(huì)上，快手可靈AI產(chǎn)品宣布全新升級(jí)：高清畫質(zhì)、首尾幀控制、單次生成10s、Web端上線、鏡頭控制。請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露2950萬+可靈AI經(jīng)過我們長時(shí)間測試跟蹤，APP端的視頻生成效果十分出色，無論是在提示詞理解、物理規(guī)律控制、畫質(zhì)分辨率、生成速度時(shí)長、產(chǎn)品使用容易度和產(chǎn)品迭代升級(jí)速度上均表現(xiàn)較為亮眼，是國內(nèi)視頻生成大模型產(chǎn)品的頭部參與者。在APP端，用戶可以選擇參數(shù)設(shè)置：視頻時(shí)長5s/10s、高性能(生成速度更快，生成等待時(shí)長16、1:1)。舉例來看，下圖左上的提示詞：“木頭上長出了兩朵奇特的透明塑料花，花瓣閃閃發(fā)光，花瓣是淡紫色的，花瓣被風(fēng)吹動(dòng)旁邊有一棵草在搖曳，氛圍光照”。左下圖的提示詞：“氛圍光照，抽象背景，黑貓警長在光怪陸離的路上行走”。右上圖提示詞：“高清畫質(zhì)，四只帶著墨鏡的大熊貓?jiān)趪粋€(gè)用竹子編織的桌子周圍打撲克牌，同時(shí)悠閑的吃著竹子，喝著汽水。”請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露30CINDASECURITIES2024年7月24日起，可靈A感值)、黃金會(huì)員(396元/年，每月獲得660靈感值，約生成3300張圖片或66個(gè)高性能視頻，包含去水印高質(zhì)量視頻生成、視頻延長、運(yùn)鏡升級(jí)功能)、鉑金會(huì)員(1596元/年，每月獲得3000靈感值，約生成15000石會(huì)員(3996元/年，每月獲得8000靈感值，同樣包含上述增值功能)。圖32:視頻續(xù)寫功能請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露31信達(dá)證勞CINDASECURITIES圖33:美圖WheeAI生視頻功能愛詩科技Alsphere成立于2023年4月，海外版產(chǎn)品PixVerse于2024年1月正式上線，目前已是全球用戶量使輪融資，2024年3月公司完成億級(jí)人民幣A請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露32信達(dá)證勞CINDASECURITIES2024年5月31日，PixVerse正式上線Magic2024年6月5日，國內(nèi)首張AI音樂專輯GxTxPx(偉大科技的造物)正式發(fā)布，部分單曲已在網(wǎng)易云平臺(tái) 圖34:Pixverse文生視頻(左圖為V1,右圖為V2)請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露33圖35:即夢(mèng)視頻生成功能頁面00-視頻生成04-1516:5andanimatedditysignage.Shewearsablackleatherjacket,alongreddress,andblackboots,andcariesablacklly.Thestreetisandreflective,creatingamiroreffectofthecolorfullights.Manypedestri圖36:即夢(mèng)首尾幀土圖生視頻即夢(mèng)-視頻生成07-1019:30即夢(mèng)-視頻生成07-1019:30圖片生視頻文本生視頻首幀圖和尾幀圖，盡量都包含同樣的主體，并用文字隨機(jī)運(yùn)鏡運(yùn)動(dòng)速度慢速適中快速2024年4月27日，在中關(guān)村論壇未來人工智能先鋒論壇上，生數(shù)科技聯(lián)合清華大學(xué)發(fā)布了具有“長時(shí)長、高一致性、高動(dòng)態(tài)性”性能標(biāo)簽的視頻大模型Vidu,可根據(jù)文本描述直接生成長達(dá)16秒、分辨率達(dá)1080P的高清視可實(shí)現(xiàn)一次性生成16秒的視頻時(shí)長。同時(shí)，視頻畫面能保持連貫流暢，隨著鏡頭移動(dòng)，人物和場景在時(shí)間、空景、特寫等鏡頭的切換，以及直接生成長鏡頭、追焦和轉(zhuǎn)場效果。技術(shù)路線上，Vidu采用的是自研U-ViT架構(gòu)，請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露34Volcanoes一直致力于機(jī)器學(xué)習(xí)算法和深度神經(jīng)網(wǎng)絡(luò)技術(shù)的研究。2024年3月7日，七火山Etna模型正式發(fā)圖38:Etna宣傳用的文生視頻效果請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露35CINDASECURITIESModelModel3RunwayPromptDrivingthroughthecityatnightfromthedriver'sview請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露36CINDASECURITIES數(shù)量達(dá)到1000多萬，推出了一系列全球首創(chuàng)的生成功能，用戶每月制作超過300萬個(gè)視頻。2024年7月9日，Capital和AndreessenHorowitz也參與其中。新投資者包括AdobeVentures、HubSpotVentures和Jared戶無需從空白畫布開始。從三種視頻編輯風(fēng)格中選擇一種Impact、Cinem請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露372024年7月，在世界人工智能大會(huì)上阿里巴巴達(dá)摩院最新發(fā)布了AIGC產(chǎn)品——尋光視頻創(chuàng)作平臺(tái)，旨在提升視頻制作效率，解決視頻后期編輯問題，通過簡易的分鏡頭組織形式和豐富的視頻編輯能力，讓用戶實(shí)現(xiàn)對(duì)視頻內(nèi)容的精準(zhǔn)控制，并保持多個(gè)視頻中角色和場景的一致性?！皩す狻敝荚跒橛脩籼峁┮徽臼降囊曨l創(chuàng)作工具，讓用戶回歸到關(guān)注視頻內(nèi)容本身是尋光致力于做的事情。目前主要功能包括：分鏡故事板一鍵創(chuàng)建、定制自己的故事角色、生成具備一致性的角色和場景畫面，再利用運(yùn)鏡控制、運(yùn)動(dòng)編輯，創(chuàng)作AI視頻作品。同時(shí)，可以使用各類視頻編輯功能進(jìn)行修改，更有圖層拆解和融合功能，定制化視頻內(nèi)容，方便用戶利用AI創(chuàng)作高質(zhì)量、高一致性的故事視頻片段，而非幾十秒的創(chuàng)意AI視頻。圖43:阿里達(dá)摩院“尋光”一站式視頻創(chuàng)作平臺(tái)視頻編輯功能圖44:阿里達(dá)摩院“尋光”視頻素材創(chuàng)作功能請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露38CINDASECURITIES2024年6月12日，美圖公司舉辦以“聊聊AI工作流”為主題的第三屆美圖影像節(jié)，現(xiàn)場發(fā)布6款產(chǎn)品，其中包含了MOKI-用AI做短片。MOKI不做常規(guī)的文生視頻，而是聚焦在了AI短片創(chuàng)作，其中涉及到動(dòng)畫短片、網(wǎng)視覺風(fēng)格、角色等前期設(shè)定；2)用AI生成分鏡圖，分鏡圖轉(zhuǎn)視頻；3)用臺(tái)詞驅(qū)動(dòng)角色開口說話。圖45:美圖MOKIAIl短片產(chǎn)品我用AI做短片AI腳本視覺風(fēng)格選擇角色設(shè)計(jì)AI腳本視覺風(fēng)格選擇角色設(shè)計(jì)后期制作智能剪輯Al配樂Al音效自動(dòng)字幕分鏡圖生成分鏡圖修改分鏡圖轉(zhuǎn)視頻視頻生視頻驅(qū)動(dòng)角色說話MOKIAl短片工作流作視頻生視頻能剪輯Al樂型制型制作與編定材質(zhì)和紋理制作面富商湯Vimi——人物視頻生成大模型2024年7月，商湯科技在世界人工智能大會(huì)上發(fā)布了公司打造的首個(gè)可控人物視頻生成大模型——Vimi,Vimi基于商湯日日新大模型的強(qiáng)大能力，僅通過一張任意風(fēng)格的照片就能生成和目標(biāo)動(dòng)作一致的人物類視頻，不僅能其在長視頻的情景下，能夠穩(wěn)定保持人物的臉部可控，可生成長達(dá)1分鐘以上的單鏡頭人物類視頻。Vimi在人Vimi可控人物視頻大模型體系的第一款C端產(chǎn)品，能夠滿足廣大女性用戶的娛樂創(chuàng)作需求。請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露圖46:商湯Vimi人物視頻生成智向未來(HiDream.ai)一基于自研的DiT架構(gòu)的智智象未來(HiDream.ai),成立于2023年3月，其自主研發(fā)的視覺多模態(tài)基礎(chǔ)模型實(shí)現(xiàn)了不同模態(tài)之間的生成智象大模型2.0的整體升級(jí)，相較于1.0版本在底層架構(gòu)、訓(xùn)練數(shù)據(jù)和訓(xùn)練策略上均有質(zhì)的變化。2023年12月，智象大模型的文生視頻打破了4秒時(shí)長限制，做到了支持15秒鐘以上的生成時(shí)長，同時(shí)還支持4K畫質(zhì)。圖47:智象大模型升級(jí)2.0版本智象大模型1.0可變時(shí)長可變尺寸請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露40圖48:智向未來即將上線一站式分鏡頭故事創(chuàng)作視頻生成功能場空間為630億美元，DocumentCloud市場空間為320億美元。相較其FY24Q2創(chuàng)意云收入31.26億美元，請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露41·Continuedmomentumincreativejobgrowth·Increasingvaluethroughcollaboration·Expandingreachwithweb-firstcreativesolutions·Growingadoptionof3D&I·GrowthinAdobeStockadoption·MonetizationofvideocollaborationwithFrame.io·Explosivegrowthincreatoreconomy·Content-firstcreationforrangeofusecases·Easy-to-usetoolsfornon-procreators·Expandingreachwithweb&mobilecreativetools·Growthincontentcreationamongstudents,marketersandsmallbusinesses·AddressingneedsofphotoandvideoenthusiastsWeb-basedcreativetoolsforrange·Creativityasa21s*centuryskill~$41B標(biāo)總收入在214億美元到215億美元之間(上個(gè)季度指引：213億-215億美元)。預(yù)計(jì)年度新增數(shù)字媒體ARR約為19.5億美元，數(shù)字媒體部門收入在158億美元到158.5億美元之間。數(shù)字體驗(yàn)部門收入預(yù)計(jì)在53.25億美元到53.75億美元之間，數(shù)字體驗(yàn)訂閱收入在47.75億美元到48.25億美元之間。因此，2024年預(yù)估Adobe數(shù)字媒體業(yè)務(wù)營收市占率在16.6%-16.7%之間，數(shù)字體驗(yàn)業(yè)務(wù)營收市占率在4.86%,兩個(gè)主要業(yè)務(wù)方向的長期營表5:Adobe數(shù)字媒體業(yè)務(wù)和數(shù)字體驗(yàn)業(yè)務(wù)預(yù)估市占率2024年Adobe預(yù)估創(chuàng)意云+文檔云預(yù)計(jì)市場規(guī)模(十億美元)2024財(cái)年Adobe數(shù)字媒體部門(創(chuàng)意云+文檔云)預(yù)計(jì)收入(十億美Adobe數(shù)字媒體業(yè)務(wù)營收市占率請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露422024年數(shù)字體驗(yàn)業(yè)務(wù)預(yù)計(jì)市場規(guī)模(十億美元)2024財(cái)年Adobe數(shù)字體驗(yàn)業(yè)務(wù)預(yù)計(jì)收入(十億美元)2024年4月AdobeExpress活躍用戶陡然爆發(fā)增長，根據(jù)第三方Sensortower數(shù)據(jù)，應(yīng)用日活從12萬上下提升至70萬上下并呈現(xiàn)持續(xù)提升的趨勢，主要原因在于Adobe推出全新的AdobeExpress移動(dòng)應(yīng)用程序，具有力，其主要功能包括文本生成圖像、生成填充、文本效果、文本到模板、為InstagramR頻等相關(guān)生成式AI功能，用戶數(shù)的增長側(cè)面驗(yàn)證了Adobe產(chǎn)品在AI功能上的迭代準(zhǔn)確把握了用戶的痛點(diǎn)需求，公司宣布在24年內(nèi)PremierePro會(huì)推出一站式AI視頻生成剪輯功能，這一變化有望帶來ARR收入上的增長。圖50:AdobeExpress在24年4月迭代AI功能后，日活數(shù)驟然抬升并穩(wěn)定提高AAsbepesAY+469%+6984%圖51:AdobePremierePro引入第三方模型如Pika、OpenAI、Runway生成視頻片段滿足用戶一站式視頻剪輯需求請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露43CINDASECURITIES2024年6月12日，美圖第三屆影像節(jié)上公布一組數(shù)據(jù)：“在AI驅(qū)動(dòng)下，美圖全球VIP會(huì)員數(shù)突破千萬”,從2023年6月19日的719萬提升至2024年6月12日的1063萬，同比增長幅度+47.8%。美圖公司聚焦“生產(chǎn)層和應(yīng)用層構(gòu)建的AI產(chǎn)品生態(tài)。2023年美圖實(shí)現(xiàn)總收入27億元，同比增長+29.3%。經(jīng)調(diào)整后歸母凈利潤3.7份圖片和視頻，約83%都用到了泛AI功能。2023年，美圖以付費(fèi)訂閱為主的影像與設(shè)計(jì)產(chǎn)品業(yè)務(wù)收入13.3億幅增長。截至2023年12月31日，美圖公司月活躍用戶數(shù)達(dá)2.5億，同比增長2.6%。美圖付費(fèi)訂閱用戶數(shù)超911萬，創(chuàng)歷史新高，同比增長62.3%,付費(fèi)率僅為3.64%,ARPU提升空間較大。Al視頻Al設(shè)計(jì)EQ\*jc3\*hps92\o\al(\s\up5(站),商用)EQ\*jc3\*hps92\o\al(\s\up5(酷),版)EQ\*jc3\*hps92\o\al(\s\up5(海洛),權(quán)平臺(tái))底層站酷兵創(chuàng)創(chuàng)意營銷平臺(tái)應(yīng)用層站請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露44商湯科技生成式人工智能相關(guān)業(yè)務(wù)在2023年的收入獲得200%增長，收入突破11.8億元人民幣。公司在國內(nèi)的生成式人工智能的算力儲(chǔ)備、人才儲(chǔ)備等維度上均屬于第一梯隊(duì)，公司目前以為B端客戶提供算力、大模型API調(diào)用為主，在AI技術(shù)上迭代發(fā)展較快。2024年7月在世界人工智能大會(huì)上，商湯科技打造的首個(gè)可控人物視頻生成大模型Vimi,以Vimi為例來探索商湯在垂直領(lǐng)域細(xì)分市場上的C端AI產(chǎn)品擴(kuò)張。我們認(rèn)為，AI視頻生成領(lǐng)域的難點(diǎn)在于創(chuàng)作人物形象的一致性和是否符合世界物理規(guī)律上。因暫未拿到實(shí)測資格，在Vimi微信公眾號(hào)的介紹中我們看到，Vimi基于商湯日日新大模型的強(qiáng)大能力，僅通過一張任意風(fēng)格的照片就能生成和目標(biāo)動(dòng)作一致的人物類視頻，不僅能實(shí)現(xiàn)精準(zhǔn)的人物表情控制，還可實(shí)現(xiàn)在半身區(qū)域內(nèi)控制照片中人物自然肢體變化，通過已有人物視頻、動(dòng)畫、聲音、文字等多種元素進(jìn)行驅(qū)動(dòng)。Vimi模型主打在長視頻情景下能夠穩(wěn)定保持人物臉部可控，這有望適用于多領(lǐng)域創(chuàng)作。例如能夠滿足廣大女性用戶的娛樂創(chuàng)作需求。用戶只需上傳不同角度的高清人物圖片，即可自動(dòng)生成數(shù)字分身和不同風(fēng)格的寫真視頻；對(duì)于熱衷表情包的用戶來說，Vimi通過單張圖片即可驅(qū)動(dòng)生成各種趣味的人物表情包，同時(shí)還可支持聊天、唱歌、舞動(dòng)等多種娛樂互動(dòng)情景，在女性娛樂應(yīng)用市場中，用領(lǐng)先的AI技術(shù)打造垂直領(lǐng)域產(chǎn)品，有望打開公司的ToC端市場，同時(shí)也有望通過大量的用戶數(shù)據(jù)進(jìn)而反哺B端市場客戶的使用效果。圖53:Vimi在人物一致性功能支持下打造的數(shù)字分身打造AI視頻功能、AI表情包功能Vimi打造屬于你的AI視頻大片作為國內(nèi)短視頻內(nèi)容頭部公司，均對(duì)應(yīng)推出了其視頻剪輯類軟件—快手快影和抖音剪映，目前快影已經(jīng)集成了快手可靈視頻大模型的文生視頻和圖生視頻功能，后續(xù)有望迭代至AI視頻剪輯功能；剪映也推出了AI創(chuàng)作產(chǎn)品Dreamina(即夢(mèng)),同時(shí)剪映內(nèi)部目前也已經(jīng)上線了諸多AI功能，例如一鍵成片、AI廣告營銷等。可以看到若在視頻剪輯領(lǐng)域做到極強(qiáng)產(chǎn)品力，同樣有望提升用戶付費(fèi)率，帶來商業(yè)化變現(xiàn)程度的提升?？焓挚伸`快手可靈視頻大模型的效果得到廣泛的市場認(rèn)可關(guān)，相比快影的月活數(shù)據(jù)近200萬來看，已經(jīng)有了較高的占比，累計(jì)生成的視頻作品高達(dá)700萬份。快手可靈請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露45年有超過1.38億用戶首次在快手平臺(tái)發(fā)布短視頻、2023年堅(jiān)持365天在快手每天發(fā)視頻的創(chuàng)作者人數(shù)高達(dá)61%、2023年有超過2200萬創(chuàng)作者在快手平臺(tái)獲得收入、2023年第三季度快手搜索平均月活躍用戶數(shù)達(dá)到產(chǎn)品產(chǎn)品定價(jià)年訂閱費(fèi)快影(內(nèi)嵌可靈)88元/年剪映(包含海外全渠道)3.2億499元/年YouTube等短視頻平臺(tái)崛起，據(jù)Statista相關(guān)數(shù)據(jù)顯示，2030年全球移動(dòng)營銷市場規(guī)模達(dá)預(yù)計(jì)將達(dá)到57易點(diǎn)天下：2023年旗下AIGC數(shù)字營銷創(chuàng)作平10億到追求30-50億，甚至未來的100個(gè)億；2)更多AINative,持續(xù)提高AI的占比、濃度和含金量，將人工因賽集團(tuán)：公司旗下AIGC營銷產(chǎn)品—InsightGPT繼3月初推出圖生視頻產(chǎn)品后，再度聚焦AI視頻創(chuàng)作領(lǐng)域請(qǐng)閱讀最后一頁免責(zé)聲明及信息披露47活躍用戶超過1億。2023全年超300萬UP主在B站獲得收入，同比增長超30%。2024年第一季度，B站日12個(gè)月留存率近80%。大會(huì)員付費(fèi)用戶數(shù)據(jù)為2190萬，其中超過80%為年度訂閱或自動(dòng)續(xù)訂用戶。海量的創(chuàng)表7:相關(guān)公司提供視頻數(shù)據(jù)用于訓(xùn)練多模態(tài)大模型公司國內(nèi)外流媒體平臺(tái)、電影視頻制作公司均積累了海量視頻素材，在前期的生成式Al+視頻的技術(shù)迭代發(fā)展中，優(yōu)質(zhì)的視頻數(shù)據(jù)對(duì)于模型質(zhì)量的訓(xùn)練優(yōu)化顯得至關(guān)重要。捷成股份與華為云簽署協(xié)議共同建設(shè)視頻大模型。捷成股份憑借十多年來積累的20萬小時(shí)影視視聽節(jié)目素材和通過數(shù)據(jù)清洗來為華為云投入高質(zhì)量數(shù)據(jù)集，授權(quán)華為用于視頻大模型訓(xùn)練。華為方面投入基礎(chǔ)模型、算力、模型優(yōu)化與專業(yè)服務(wù)等。24年3月，捷成自主研發(fā)的AI智能創(chuàng)作引擎ChatPV正式發(fā)布，并接入華為云盤古大模型的通用語言解析能力，服務(wù)于AI視頻創(chuàng)作應(yīng)用。視覺中國2023年10月，視覺中國與華為云正式簽署關(guān)于

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2024 生成式AI+視頻行業(yè)專題報(bào)告：AI+視頻的星辰大海遠(yuǎn)不止于視頻生成

文檔簡介

溫馨提示

最新文檔

評(píng)論

2024 生成式AI+視頻行業(yè)專題報(bào)告：AI+視頻的星辰大海遠(yuǎn)不止于視頻生成

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔