2024 生成式AI+視頻行業(yè)專題報告:AI+視頻的星辰大海遠不止于視頻生成_第1頁
2024 生成式AI+視頻行業(yè)專題報告:AI+視頻的星辰大海遠不止于視頻生成_第2頁
2024 生成式AI+視頻行業(yè)專題報告:AI+視頻的星辰大海遠不止于視頻生成_第3頁
2024 生成式AI+視頻行業(yè)專題報告:AI+視頻的星辰大海遠不止于視頻生成_第4頁
2024 生成式AI+視頻行業(yè)專題報告:AI+視頻的星辰大海遠不止于視頻生成_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

信達證勞CINDASECURITIES行業(yè)專題研究(深度)行業(yè)專題研究(深度)AI行業(yè)馮翠婷傳媒互聯(lián)網(wǎng)及海外首席分析師聯(lián)系電話ransformer、DiffusionModel以及Sora采用的DiT架構(gòu)躍性提升。VAE引入了隱變量推斷,GAN生成的圖像真PixverseV2為0.02美元(0.174rmb)、美圖WHEE為0.32rmb,國CINDASECURITIESC0.,LTD郵編:100053請閱讀最后一頁免責聲明及信息披露2CINDASECURITIES題”。為,1)一站式平臺型公司,如Adobe、美圖公司;2)Al+視頻技術(shù)一、生成式AI發(fā)展進程,文生視頻正成為當前AI行業(yè)關(guān)鍵發(fā)展節(jié)點 6二、目前市場主流的海外生成式視頻參與者 三、目前市場主流的國內(nèi)生成式視頻參與者 28四、從AI生成到AI剪輯,一站式Al視頻生成+編輯有望成為另一核心方向 五、Al+視頻發(fā)展方向展望 六、風(fēng)險因素 表1:Transformer、Diffusion、DiT模型的產(chǎn)品梳理 表2:Runway歷年融資輪次、融資金額及對應(yīng)估值 表3:LumaAl、Pika、RunwayGen-3Alpha、Sora相同提示詞生成視頻的效果多維度比較.27表4:海內(nèi)外視頻生成產(chǎn)品單視頻所需成本比較(1美元=7.28人民幣) 28表5:Adobe數(shù)字媒體業(yè)務(wù)和數(shù)字體驗業(yè)務(wù)預(yù)估市占率 42表6:快影和剪映產(chǎn)品相關(guān)數(shù)據(jù) 46表7:相關(guān)公司提供視頻數(shù)據(jù)用于訓(xùn)練多模態(tài)大模型 48表8:IP類公司可基于Al+視頻開發(fā)更多IP衍生品 49 49表10:相關(guān)上市公司估值表(截至2024.07.24) 6圖2:AI應(yīng)用地圖梳理 6圖3:主流文生視頻技術(shù)的演進路徑 7圖4:AIGC視頻生成的技術(shù)演進路徑 8圖5:GAN生成對抗網(wǎng)絡(luò)運作原理 8圖6:Diffusion擴散模型運作原理 圖7:WALT視頻生成模型搭建原理示意圖 圖8:Sora基于DiT模型生成圖像視頻 圖9:2023年生成式Al+視頻時間表 圖10:LumaAIDreamMachine官網(wǎng)宣傳文生視頻功能 圖11:LumaAIDreamMachine官網(wǎng)宣傳前后幀輸入圖片生成連貫視頻功能 圖12:LumaAIDreamMachine實測演示中會遇到不符合物理規(guī)律、物體對象缺失等問題.17圖13:Runway產(chǎn)品定價模式 圖14:RunwayGen-1視頻生視頻 圖15:RunwayGen-1視頻生視頻演示 20圖16:RunwayGen-2文生視頻效果表現(xiàn)較好 20圖17:RunwayGen-2圖生視頻效果及筆刷功能表現(xiàn)較好 21圖18:RunwayGen-3Alpha通過運動畫筆、高級相機控制、導(dǎo)演模式可以更精細控制運動21圖19:RunwayGen-3Alpha兩端提示詞測試,效果較強 22 23圖21:Pika文生視頻界面及視頻編輯核心功能 23圖22:Sora合成的60秒視頻 24請閱讀最后一頁免責聲明及信息披露http://www.cindasc.com4 24 25圖25:LumaAIDreamMachine生成效果(電影質(zhì)感,略微不符 25圖26:Pika生成效果(提示詞理解、畫面質(zhì)感等方面有差距) 26圖27:RunwayGen-2生成效果(主角沒有跟隨鏡頭移動) 26圖28:RunwayGen-3Alpha生成效果(各方面表現(xiàn)均優(yōu)秀) 27圖29:快手大模型產(chǎn)品矩陣及可靈AI產(chǎn)品功能升級 圖39:后續(xù)Firefly關(guān)于多模態(tài)音頻、視頻方向上的功能展望 圖42:CaptionsAIADCr 圖43:阿里達摩院“尋光”一站式視頻創(chuàng)作平臺視頻編輯功能 圖44:阿里達摩院“尋光”視頻素材創(chuàng)作功能 圖45:美圖MOKIAI短片產(chǎn)品 圖46:商湯Vimi人物視頻生成 40圖47:智象大模型升級2.0版本 40圖48:智向未來即將上線一站式分鏡頭故事創(chuàng)作視頻生成功能 41 42圖50:AdobeExpress在24年4月迭代AI功能后,日活數(shù)驟然抬升并穩(wěn)定提高 43 43圖52:美圖公司底層、生態(tài)層、應(yīng)用層架構(gòu) 44圖53:Vimi在人物一致性功能支持下打造的數(shù)字分身打造AI視頻功能、AI表情包功能..45信達證券CINDASECURITIES一、為什么要研究Al+視頻——AI視頻生成正成為當前行業(yè)發(fā)展關(guān)鍵節(jié)點2023年紅杉資本在關(guān)于生成式AI發(fā)展進程的預(yù)測報告中表明,在歷經(jīng)文生文、文生圖的升級迭代后,我們目前正處在Al+生產(chǎn)力辦公&設(shè)計、Al+視頻和Al+3d滲透的歷史節(jié)點上。在底層大模型技術(shù)迭代逐漸加速的今陪伴等方向已經(jīng)逐漸成為競爭激烈的主要方向,展望未來我們需要對更多Al+做深入的研究,而視頻方向一直是業(yè)內(nèi)關(guān)注的重點方向之一。視頻雜糅了文本、語音、圖像等多維度內(nèi)容,其訓(xùn)練的難點也往往在于視頻數(shù)據(jù)對數(shù)量和質(zhì)量的不足、算法架構(gòu)需要優(yōu)化、物理規(guī)律性較差等等,但我們相信,隨著Al+視頻的技術(shù)和產(chǎn)品升級迭代,眾多行業(yè)有望受益,諸如電影、廣告、視頻剪輯、視頻流媒體平臺、UGC創(chuàng)作平臺、短視頻綜合平臺等,而目前正處在Al+視頻發(fā)展的關(guān)鍵性時刻,正從Al+視頻創(chuàng)意生成逐漸過渡到一站式視頻生成+剪輯+UGC的后續(xù)階段。TEXTCODEVIDEO/GAMING圖1:生成式TEXTCODEVIDEO/GAMINGPRE-2020202020222023?SpamdetectionTranslationBasicQ&ABasiccopywritingFirstdraftsLongerformSeconddraftsVerticalfinetuninggetsgood(scientifiopapers,etc)FinaldraftsbetterthanthehumanaverageFinaldraftsbetterthanprofessionawriters1-lineauto-completeMulti-linegenerationLongerformBetteraccuracyMorelanguagesMoreverticalsTexttoproduct(final)developersArtLogosPhotographyMock-ups(productdesign,architecture.etc.)Finaldrafts(productFinaldraftsbetterthanprofessiorartists,designersphotographers)Firstattemptsat3D/videomodelsBasic/firstdraftvideosand3DfilesSeconddraftsAIRobloxVideogamesandmoviesarealzeuuteatisLargemodelavailability:FirstattemptsAlmostthereReadyforprimetime在紅杉資本2024年關(guān)于AI應(yīng)用的地圖梳理中反映了市場中的兩個重要趨勢:生成式人工智能從技術(shù)趨勢演變?yōu)閷嶋H應(yīng)用和價值,以及生成式人工智能應(yīng)用日益呈現(xiàn)多模態(tài)的特性??梢钥吹?,AI視頻生成及編輯的版圖占比較多,重要性和產(chǎn)品推進速度目前較快。圖2:AI應(yīng)用地圖梳理ProsumerGENERALSEARCHKNOWLEDGChatGPT●ANTHROPICUae米perplexityXVRTXkSsynthesiaAUTONOMOusAGENTVIDEOCREATION/EDITINGRrunwayVEED.IOBROWSERCOPILOTSAUTOMATIONASSISTAN7MinionAlnewCOMPUTERBabyAGIIMAGECREATION/EDITINGPicsartPhotoRoomVOICEIElevenLabsANwRESEMBLE.AIWWELLSAID以MURFAI1)計算成本:確保幀間空間和時間一致性會產(chǎn)生長期依賴性,從而帶來高計算成本;2)缺乏高質(zhì)量的數(shù)據(jù)集:用于文生視頻的多模態(tài)數(shù)據(jù)集很少,而且通常數(shù)據(jù)集的標注很少,這使得學(xué)習(xí)復(fù)雜的運動語義很困難。文生視頻模型需要依賴于大量數(shù)據(jù)來掌握如何將文本描述轉(zhuǎn)化為具有寫實感的連續(xù)幀,并捕捉時間上的動態(tài)變化;3)視頻生成質(zhì)量:時空一致性難以保持,在不同鏡頭、場景或時間段內(nèi)較難確保角色、物體和背景的一致性。長視頻制作仍面臨時間一致性和完整性的挑戰(zhàn),這直接影響到實際應(yīng)用的可行性;4)語義對齊:由于自然語言具有復(fù)雜性和多義性,文本語義理解、文本與視頻元素的映射關(guān)系仍是挑戰(zhàn);5)產(chǎn)品易用性:對于文生視頻,產(chǎn)品的易用性和體驗仍需改進。個人用戶希望制作流程易上手、符合習(xí)慣,并支持快速素材搜索、多樣模板、多端同步和一鍵分享;小B端用戶關(guān)注成本可控下的快速營銷視頻制作和品牌傳播效果;行業(yè)用戶則需要內(nèi)容與交互性的融合,包括商用素材適配性、快速審核和批量制作分發(fā)能力;6)合規(guī)應(yīng)用:文生視頻的應(yīng)用面臨素材版權(quán)、隱私安全和倫理道德等風(fēng)險。二、市場主流AI視頻生成技術(shù)的迭代路徑圖3:主流文生視頻技術(shù)的演進路徑2021.11微軟亞洲研究院發(fā)布2021.11微軟亞洲研究院發(fā)布NUWA(女媧)2021.4微軟亞洲研究院發(fā)布GODI2023.3微軟亞洲研究院發(fā)布NUWA-XI2024.1字節(jié)跳動發(fā)布Magicvideo2022.5清華發(fā)布CogVideo20162016年-2019年2022.11字節(jié)跳動發(fā)布MagicVideo2022.10Google發(fā)布Im2022.9Meta發(fā)布Make-A-Video2022.7微軟亞洲研究院發(fā)布NUWA-Infinity2017.12MOCOGAN2019.9DVD-GAN資料來源:CarlVondrick等《GeneratingVideoswithSceneDynamics》;SergeyTulyakov等《MoCoGAN:DecomposingMotionandContentforVideoGeneration》;EichiMatsumoto等《TemporalGenerativeAdversarialNetswithSingularValueClipping》;AidanClark等《ADVERSARIALVIDEOGENERATIONONCOMPLEXDATASETS》;ChenfeiWu等《NUWA:VisualSynthesisPre-trainingforNeuralJonathanHo等《MAGENVIDEO:HIGHDEFINITIONVIDEOGENERATIONWITHDIFFUSIONMODELS》;RubenVilegas等《PHENAK:TO-VIDEOGENERATIONWITHOUTTEXT-VIDEODATA》;ChenfeiWu等《NUWA-Infinity:AutoregressYu等《GENERATINGVIDEOSWITHDYNAMICS-AWAREMPLICITGENERATIVEADVERSARIALNETWORKS》;DanKondratyuk等《VideoPoet:ALargeLanguageModelforZero-ShotVideoGeneration》;AgrimGuptau等《PhotorealisticVideoGenModels》;SongweiGe等《PreserveYourOwnCorrelation:ANoiseProrforVideoDifusionModels》;AndreasBlattmann等《AligLatents:High-ResolutionVideoSynthesiswithLatentDifusion研發(fā)中心請閱讀最后一頁免責聲明及信息披露7代表產(chǎn)品代表產(chǎn)品Text2FilterVideoGPT.Runway-Gen2、通義千問視頻大模型……Sora、快手可靈……資料來源:信達證券研發(fā)中心(注:該圖通過圖3所引用論文總結(jié)而來)1)GAN+VAE生成對抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks)核心思想是訓(xùn)練兩個網(wǎng)絡(luò),生成器(G)和判別器(D)。生和MoCoGAN,它們通過不同的網(wǎng)絡(luò)架構(gòu)和訓(xùn)練方法來改進GAN在視頻生成上的性能。此外,DualVideoRandomRandomGeneratorFakeDiscriminatorGenerator資料來源:AWSMarketplace,信達證券研發(fā)中心GAN技術(shù)特點如下:1)無需標注數(shù)據(jù),可以從未標注的圖像中學(xué)習(xí)生成新的圖像或視頻;2)多領(lǐng)域應(yīng)用,可以應(yīng)用于圖像生成、風(fēng)格遷移、數(shù)據(jù)增強、超分辨率等多種任務(wù);3)模型靈活,通過改變網(wǎng)絡(luò)結(jié)構(gòu),可以適應(yīng)不同的數(shù)據(jù)分布和生成任務(wù);4)模型參數(shù)小,較為輕便,擅長對單個或多個對象類進行建模。GAN作為早期文生視頻模型,存在如下缺點:1)訓(xùn)練過程不穩(wěn)定,容易出現(xiàn)模式崩潰(modecollapse),即生成器開始生成非請閱讀最后一頁免責聲明及信息披露83)擴散模型請閱讀最后一頁免責聲明及信息披露9x?X2DenoisingUNetXrXT4)DiT(Transformer+Diffusion)W.A.L.T(owAttentionLatentTransformer)模型和兩個視頻超分辨率擴散模型,以每秒8幀的速度生成512×896分辨率的視頻。請閱讀最后一頁免責聲明及信息披露10圖7:WALT視頻生成模型搭建原理示意圖SpatSelfAttSpatSelfAttAttearodtV——WALT將圖像和視頻編碼到共享潛在空間中。Transformer主干使用具有兩層窗口限制注意力的塊來處理這些潛在空間:空間層捕獲圖像和視頻中的空間關(guān)系,而時空層通過身份注意力掩碼模擬視頻中的時間動態(tài)并傳遞圖像。文本調(diào)節(jié)是通過空間交叉注意力完成的。DiT模型技術(shù)特點如下:1)運用潛在擴散模型,在潛在空間而非像素空間中訓(xùn)練擴散模型,提高了計算效率;2)Patchify操作,將空間輸入轉(zhuǎn)換為一系列token,每個token代表圖像中的一個小塊;3)條件輸入處理,DiT設(shè)計了不同的Transformer塊變體來處理條件輸入(如噪聲時間步長、類別標簽等);4)自適應(yīng)層歸一化(adaLN),使用adaLN來改善模型性能和計算效率;5)可擴展性:DiT展示了隨著模型大小和輸入token數(shù)量的增加,模型性能(以FID衡量)得到提升;6)簡化的架構(gòu)選擇,DiT證明了在擴散模型中,傳統(tǒng)的U-Net架構(gòu)并不是必需的,可以被Transformer替代。DiT模型仍存在以下缺點:1)實現(xiàn)復(fù)雜性,雖然DiT在理論上簡化了架構(gòu)選擇,但Transformer的實現(xiàn)可能比U-Net更復(fù)雜;2)訓(xùn)練穩(wěn)定性:盡管DiT訓(xùn)練穩(wěn)定,但Transformer架構(gòu)可能需要特定的訓(xùn)練技巧來保持穩(wěn)定;3)對硬件要求高,雖然DiT在計算上更有效率,但Transformer模型通常需要大量的內(nèi)存和計算資源,這可能限制了它們在資源受限的環(huán)境中的應(yīng)用;4)模型泛化能力,DiT主要在ImageNet數(shù)據(jù)集上進行了評估,其在其他類型的數(shù)據(jù)和任務(wù)上的泛化能力尚未得到驗證。DiT作為一種新型的擴散模型,通過在潛在空間中使用Transformer架構(gòu),實現(xiàn)了對圖像生成任務(wù)的高效和高性獲得了通用化的能力。它采用基于擴散模型的生成框架,逐步改進噪聲樣本以產(chǎn)生高保真度的視頻輸出,并應(yīng)用Transformer架構(gòu)來處理視頻和圖像的時空信息,保持物體在三維空間中的連貫性。這種結(jié)合生成和變換器優(yōu)勢的方法,使得Sora在視頻生成和編輯任務(wù)中表現(xiàn)出色,能夠創(chuàng)造出多樣化、高質(zhì)量的視覺內(nèi)容。請閱讀最后一頁免責聲明及信息披露11模型類型模型名稱發(fā)布方發(fā)布時間技術(shù)特點及主要功能VideoGPT使用VQ-VAE,并通過3D卷積和軸向自注意力機制實現(xiàn)。使用類似GPT的架構(gòu)自回歸能生成高保真度視頻,尤其是適應(yīng)動作條件視頻。微軟亞洲研究院采用3D變換器編碼器-解碼器框架,提出3D近鄰注意力機制簡化計算,支持多模態(tài)預(yù)訓(xùn)練,使用VQ-GAN視覺標記3Dtokens,具有零樣本能力。在生成圖像、視頻以及視頻預(yù)測方面表現(xiàn)優(yōu)秀。清華大學(xué)采用多幀率層次化訓(xùn)練策略、雙通道注意力機制,靈活文本條件模擬不同幀率視頻,順序生成和遞歸插值框架使視頻生成連貫。對復(fù)雜語義的運動理解加強,生成高分辨率、高幀率、高一致性的視頻。微軟亞洲研究院采用雙重自回歸生成機制來處理可變尺寸的生成任務(wù),引入NCP緩存已生成的相關(guān)patch來減少計算成本,采用任意方向控制器賦能圖像擴展,能生成任意大小高分辨率圖像、長時視頻、圖像動畫。Google使用因果注意力機制生成可變長度視頻,使用預(yù)訓(xùn)練的T5X來生成文本嵌入,通過雙向遮蔽Transformer根據(jù)文本嵌入生成視頻請閱讀最后一頁免責聲明及信息披露12token,采用C-ViViT編碼-解碼架構(gòu)減少token數(shù)量并在時空一致性表現(xiàn)更好。僅采用解碼器架構(gòu)能處理多模態(tài)輸入,支持零樣本視頻生成;使用雙向變換器在標記空間內(nèi)提高空間分辨率;通過自回歸擴展內(nèi)容來合成長達10秒的連貫視頻;執(zhí)行文本、圖像、視頻編輯到視頻的多任務(wù)視頻生成。使用因果編碼器聯(lián)合壓縮圖像和視頻,實現(xiàn)跨模態(tài)生成;采用窗口注意力架構(gòu),聯(lián)合空間和時空生成建模;不依賴分類器自由引導(dǎo)可生成視頻;通過潛在視頻擴散模型和視頻超分辨率擴散模型的級聯(lián),生成512×896分辨率、每秒8幀的視頻;能根據(jù)類別標簽、自然語言、過去幀、低分辨率視頻生成可控視頻。采用基礎(chǔ)視頻擴散模型和用于空間與時間超分辨率擴散模型,采用v-prediction參數(shù)化避免色彩偏移,應(yīng)用漸進式蒸餾技術(shù),快速高效采樣;使用噪聲條件增強來減少級聯(lián)模型中的域差距,提高樣本質(zhì)量;能生成各種藝術(shù)風(fēng)格和3D對象理解的視頻,具可控性和對世界知識的理解。VideoDiffusion從圖像和視頻數(shù)據(jù)聯(lián)合訓(xùn)練減小批量梯度方差;引入條件采樣技術(shù),提高空間和時間視頻擴展性能;使用特定類型的3DU-Net作為擴散模型架構(gòu),使時間空間分解;采用因子化的空間-時間注意力機制,能遮蔽模型以在獨立圖像上運行;使用多種擴散模型采樣器;能處理多尺度和多幀視頻數(shù)據(jù),生成長序列視頻。不需要成對的文本-視頻數(shù)據(jù)進行訓(xùn)練;通過無監(jiān)督的視頻素材學(xué)習(xí)世界的運動方式;構(gòu)建在T2I模型之上,包括分解全時域U-Net和注意力張量,并在空間和時間上近似它們;設(shè)計空間-時間管道,通過視頻解碼器、插值模型、超分辨率模型生成高分辨率、高幀率MagicVideo字節(jié)跳動使用3DU-Net解碼器簡化計算;引入幀間輕量適配器,減少對獨立2D卷積塊的需求;采用有向自注意力機制,僅基于所有先前幀 計算未來幀的特征;提出VideoVAE自編碼器,改善像素抖動問題;訓(xùn)練基于擴散的超請閱讀最后一頁免責聲明及信息披露131024×1024的高分辨率。新加坡國立大學(xué),騰訊基于預(yù)訓(xùn)練的T2I擴散模型,使用開放域知識;引入空間時間注意力機制來學(xué)習(xí)連續(xù)運動;使用DDIM反演,使生成視頻時序一致;只更新注意力塊中的投影矩陣而非所有參數(shù),避免對新概念視頻生成的阻礙。將潛在擴散模型擴展到視頻生成,通過將時間層引入到預(yù)訓(xùn)練的圖像模型中并對圖像和視頻進行聯(lián)合訓(xùn)練,無需額外訓(xùn)練和預(yù)處理。頻;通過訓(xùn)練模型預(yù)測視頻下一幀,對視覺世界深入理解;從單個幀的高保真度生成開始,逐步解決視頻敘事中的挑戰(zhàn),包括場景、Google采用混合微調(diào)方法,結(jié)合全時序注意力和時序注意力掩蔽的微調(diào);引入輕量級的幀間適配器,用于調(diào)整I2V分布;采用有向自注意力機制,捕捉幀間的時序依賴性;提出圖像動畫框架,轉(zhuǎn)圖像為粗糙視頻進行編輯。微軟亞洲研究院能夠直接在長視頻上進行訓(xùn)練,并通過增加深度m來輕松擴展到更長的視頻;“粗到細”階段生成,先通過全局擴散模型生成關(guān)鍵幀,再用局部擴散模型遞歸填充鄰近幀之間的內(nèi)容;支持并行推理,提高長視頻生成速度。PicsartAIResearch,UTAustin,實現(xiàn)零樣本學(xué)習(xí);在生成幀代碼注入運動動力學(xué),能保持全局場景和背景的時間一致性;使用新的跨幀注意力機制保留前景對象的上下文、外觀和身份。NVIDIA在潛在空間擴散模型中引入時間維度,將圖像生成器轉(zhuǎn)換為視頻生成器,實現(xiàn)視頻數(shù)據(jù)的時間對齊;在圖像上預(yù)訓(xùn)練LDM,然后在編碼的視頻上微調(diào)生成視頻;能夠?qū)崿F(xiàn)高達1280×2048分辨率的視頻生成。NVIDIA提出視頻擴散噪聲先驗,更好地捕捉視頻幀之間的內(nèi)在聯(lián)系;采用一個由基礎(chǔ)模型和三個上采樣堆疊組成的級聯(lián)網(wǎng)絡(luò)架構(gòu);使用了DEIS及其隨機變體進行樣本合成的先進采樣技術(shù);小規(guī)模模型實現(xiàn)優(yōu)異性能,從文本嵌入生成高分辨率的視頻。請閱讀最后一頁免責聲明及信息披露14Sora、可靈等OpenAI、快手等使用文本條件擴散模型,處理視頻和圖像的空間時間塊;訓(xùn)練了一個網(wǎng)絡(luò)來降低視覺數(shù)據(jù)的維度,輸入原始視頻并輸出壓縮的潛在表示;能夠生成一分鐘的高保真視頻,能實現(xiàn)視頻擴展、視頻過渡,輸入視頻的風(fēng)格和環(huán)境的零樣本轉(zhuǎn)換。資料來源:CarlVondrick等《GeneratingVideoswithSceneDynamics》;SergeyTulyakov等KMoCoGAN:DecomposingMotionandContentAl+視頻發(fā)展以來,技術(shù)路徑和迭代產(chǎn)品冗雜繁多、功能不一、效果差異,我們選取目前海內(nèi)外市場主要的生成式視頻的參與者:LumaAI(DreamMachine)、Runway(Gen1-2&Gen-3Alpha)、Pika、Sora,集中梳理了其融資歷程、產(chǎn)品迭代、核心功能、實測效果比較等多方面,經(jīng)個別提示詞生成視頻效果測試,在Sora未公提示詞理解、視頻時長等諸多維度上表現(xiàn)均較為優(yōu)秀。圖9:2023年生成式Al+視頻時間表Gen-XOMeta@venturetwinsMagicHourPikaVispuHotshot③AdAssis-to-FullJour請閱讀最后一頁免責聲明及信息披露15LumaAI成立于2021年,2024年以其推出的文生視頻模型DreamMachine而得到全球投資視野的關(guān)注,但早期公司僅聚焦在3D內(nèi)容生成,23年11月,LumaAI在Discord服務(wù)器上推出了文生3D模型Genie,降低了集4300萬美元,B輪估值在2億到3億美元之間。官網(wǎng)顯示目前核心團隊共34人,其中華人5位。LumaAIDreamMachine是一款由LumaAI開發(fā)的AI視頻生成模型,它能夠?qū)⑽谋竞蛨D像快速轉(zhuǎn)換為高質(zhì)圖10:LumaAIDreamMachine官網(wǎng)宣傳文生視頻功能請閱讀最后一頁免責聲明及信息披露16圖11:LumaAIDreamMachine官網(wǎng)宣傳前后幀輸入圖片生成連貫視頻功能圖12:LumaAIDreamMachine實測演示中會遇到不符合物理規(guī)律、物體對象缺失等問題running,rushedontothestageofacircusGrazingcowsmoveslowlyacrossanidyllicmeadow,thecameratrackingalongsidetheminasmoothside-anglemotionExtend↓Download6?斷創(chuàng)新,2024年推出新一代視頻生成模型Gen-3Alpha。據(jù)外媒TechCrunch報道,近期公司正籌劃新一輪融資4.5億美元,估值有望達到40億美元。時間估值A(chǔ)mplifyPartners領(lǐng)投,LuxCapital和CompoundVentures參投/B輪3500萬美元Coatue領(lǐng)投,所有現(xiàn)有投資者均參與其中:AmplifyPartners、LuxVentures和Compound/C輪5000萬美元Felicis領(lǐng)投,所有現(xiàn)有投資者均參與其中:AmplifyPartners、LuxCapital、Coatue和Compound/C+輪1.41億美元C輪融資增加1.41億美元,參與的投資者包括谷歌、NVIDIA、SalesforceVentures以及現(xiàn)有投資者等15億美元D輪(據(jù)TechCrunch報道)4.5億美元投資機構(gòu)包括GeneralAtlantic等40億美元Runway不同的定價模式:主要分為永久免費基礎(chǔ)版、標準版、高級版、無限制版本和企業(yè)級版本服務(wù)。永久免費版:用戶擁有一次性125個credits積分,gen-1(視頻到視頻)上傳最長為4s,gen-2(文生視頻和圖生視頻)通過延長視頻功能最長至16s等;標準版、高級版和無限制版本的差別在于每月積分的數(shù)額、gen-3的使用、水印的消除、資產(chǎn)庫數(shù)量、視頻質(zhì)量等方面。圖13:Runway產(chǎn)品定價模式andocontentcreationfeatures.Gen-1(VideotoVideo)uptsecviasubscriptiondate.BuymoreasneedUnlimitedvideoeditorprojects·TromagtopOlsnrtstroiunopcns·withplan)①geherators(itrainin·Creditsresetto2250erymonthstartingfrUpscaleresolutioninGen-1andGen-2Unlimitedvideoeditorproiects.500GBassetsAllvideoeditorexportsfromStandard.plusPNG&ProRevideoeditorconAllimageexportsfromStandard,plusPNG&ProRe·date.BuymoreasneededEQ\*jc3\*hps34\o\al(\s\up6(w),h)EQ\*jc3\*hps34\o\al(\s\up6(t),o)EQ\*jc3\*hps34\o\al(\s\up6(h),n)EQ\*jc3\*hps30\o\al(\s\up6(nraote),star)EQ\*jc3\*hps30\o\al(\s\up6(r),f)EQ\*jc3\*hps30\o\al(\s\up6(es),ro)·date.BuymoreasneededScalableforlargeorganizationsCustomcreditamounsegmentandAdvancedsecurityanterpdingrioritysuIntegrationwithinternaltoos請閱讀最后一頁免責聲明及信息披露18RunwayGen-1(VideotoVideo)在生成之前,可以預(yù)覽4個靜態(tài)幀以幫助調(diào)整設(shè)置。Gen-1最多可以生成15秒的視頻。在使用Gen-1生成型可以根據(jù)示例圖像或文本引導(dǎo)修改視頻。編輯完全在推理時執(zhí)行,無需額外的每個視頻的訓(xùn)練或預(yù)處理。Gen-1模型在大規(guī)模未配對視頻和配對的文本-圖像數(shù)據(jù)集上進行訓(xùn)練。同時,產(chǎn)品展示了通過訓(xùn)練不mesmerizingportraitmesmerizingportraitFigure1.GuidedVideoSynthesisWepresentanapproachbasedonlatentvideodiffusionmodelsthatsynthesizesvideos(topandbottom)guidedbycontentdescribedthroughtext(top)orimages(bottom)whilekeepingthestructureofaninputvideo(middle).請閱讀最后一頁免責聲明及信息披露19圖15:RunwayGen-1視頻生視頻演示(左上為原始視頻,右上為預(yù)覽分鏡頭腳本,下圖為素描風(fēng)格的視頻轉(zhuǎn)換生成)圖16:RunwayGen-2文生視頻效果表現(xiàn)較好請閱讀最后一頁免責聲明及信息披露20圖17:RunwayGen-2圖生視頻效果及筆刷功能表現(xiàn)較好請閱讀最后一頁免責聲明及信息披露21圖19:RunwayGen-3Alpha兩端提示詞測試,效果較強萬人實現(xiàn)了創(chuàng)意構(gòu)想。Pika由斯坦福大學(xué)AILab的博士生郭文景和孟辰霖于2023年4月創(chuàng)立。2023年7月,領(lǐng)投Pika的3500萬美元A輪融資。在前期三輪融資中籌集了5500萬美元。2024年6月,Pika進行了8000萬美元的B輪融資,使公司的總?cè)谫Y額達到1.35億美元。在Discord上進行了秘密發(fā)布,發(fā)布了1.0版模型美金)、無限制版(每年336美金)的credits數(shù)量增加,延長4s視頻時長、無水印等;高級版(每年696美請閱讀最后一頁免責聲明及信息披露22圖20:Adobe產(chǎn)品中引入第三方視頻模型Pika優(yōu)化用戶體驗dobeFirflyPrivateBeta-PersonalUseyfxA006_C009.mov[V]圖21:Pika文生視頻界面及視頻編輯核心功能請閱讀最后一頁免責聲明及信息披露232024年2月16日,OpenAI在官網(wǎng)發(fā)布了創(chuàng)新性文生視頻模型-Sora。從官網(wǎng)展示的Sora生成視頻來看,在圖22:Sora合成的60秒視頻圖23:OpenAI擴散模型過程請閱讀最后一頁免責聲明及信息披露24圖24:Sora可進行多個視頻的組合about.”請閱讀最后一頁免責聲明及信息披露25圖27:RunwayGen-2生成效果(主角沒有跟隨鏡頭移動)請閱讀最后一頁免責聲明及信息披露RunwayGen-3Alpha上線時間2023.112024.06/實測綜合效果中低高暫未對外開放測試分辨率中低720p高/生成時長/單次延長時間3s/4s可選5s/10s最長60s物理規(guī)律中低高/提示詞理解高低高生成速度中高高其他主要能力提示詞加強、延長時間、首尾幀圖片生成等提示詞修改局部區(qū)域、改編視頻畫幅、人物添加表情視頻、添加音效等提示詞長度無限制、給人物添加表情視頻等請閱讀最后一頁免責聲明及信息披露產(chǎn)品定價免費用戶每月可生成30條視標準版$23.99/月Pro高級版$79.99/月Premier最高級版$399.99$/月免費用戶初始250積分,10積分可生成3s視頻;標準版$8/月Unlimited無限值版$28/月Pro高級版$58/月免費用戶初始125積分標準版$12/月Pro高級版$28/月Unlimited無限制版$76/月企業(yè)級定制詳詢最新融資金額4300萬美元8000萬美元據(jù)外媒TheInformation報道為4.5億美元估值情況2-3億美元4.7億美元40億美元24.06全渠道應(yīng)用下載量/24.04-06網(wǎng)站擁擠度加總24.06平均月活用戶數(shù)半年達到500,000用戶ARR/2500萬美元估值指數(shù)=估假設(shè)55萬月活,付費率10%,平均arpu30美金/月,則月收入為165萬美元,假設(shè)年收入為500萬美元,則2.5億美元/500萬美元=50x/40億美元/2500萬美元單活躍用戶估值指數(shù)2.5億美元/55萬=454.54.7億美元/50萬=94040億美元/32萬=12500表4:海內(nèi)外視頻生成產(chǎn)品單視頻所需價格比較(1美元=7.28人民幣)Alpha快手可靈剪映即夢愛詩科技PixverseV2虛擬道具/credits積分credits積分靈感值;靈感值10.87人民幣credits積分請閱讀最后一頁免責聲明及信息披露28免費用戶10個視頻生成250初始積分,每日30積分無免費版66個(24h過60積分(24h過期)100初始積分,每天50積分生成耗時5分鐘15分鐘+60s生成5s的720p視頻2-5分鐘1分鐘2-5分鐘單次視頻時長5s/10s3/6/9/12s單個視頻生成消耗單位虛擬道具數(shù)量付費會員沒有生成視頻數(shù)量限制625積分=125sgen2視頻10個靈感值3積分15/30積分年基礎(chǔ)會員費287.9美元/年96美元/年,每月獲得700積分+每天30積分,共1600積分144美元/年,每月獲得625積分限時基礎(chǔ)黃金會員396元/年,每月獲得660靈感值659元/年,每月獲得2020積分,每天贈送60積分,共3820積分48美元/年,每月獲得1000積分,每天獲得50積分,共2500積分會員每月可生成視頻數(shù)量150個1600/10=160個125/5=25個gen-2視頻660/10=66個3820/3=1273個2500/15=167個單條視頻生成所需價格0.16美元(1.17人民幣)0.05美元(0.364人民0.48美元(gen2,3.49人民幣)0.5元人民幣0.04元人民幣0.02美元(0.174人民快手一可靈AI(DiffusionTransformer架構(gòu))快手的大模型能力涵蓋了包括大語言模型、文生圖大模型、視頻生成大模型、音頻大模型、多模態(tài)大模型等核心技術(shù)方向,并基于快手豐富的業(yè)務(wù)場景,將生成式AI與多模態(tài)內(nèi)容理解、短視頻/直播創(chuàng)作、社交互動、商業(yè)化AIGC、創(chuàng)新應(yīng)用等業(yè)務(wù)形態(tài)深度結(jié)合。可靈大模型的更新迭代速度較快,當視頻生成效果接近圖形渲染和視頻拍攝時,有望對游戲、動畫、泛視頻行業(yè)帶來新的機遇,有望促進視頻平臺生態(tài)繁榮。1)自研“快意大模型”(KuaiYii)。13B、66B、175B三種參數(shù)規(guī)模,將大模型應(yīng)用于短視頻場景下。2)可圖大模型(KOLORS)。由快手大模型團隊自研打造的文生圖大模型,具備強大的圖像生成能力,能夠基于開放式文本生成風(fēng)格多樣、畫質(zhì)精美、創(chuàng)意十足的繪畫作品?!翱蓤D”主打三大核心特性:深入的中文特色理解、長文本復(fù)雜語義理解及對齊人類審美的精美畫質(zhì),讓用戶低門檻創(chuàng)造高質(zhì)量圖像。3)可靈視頻生成大模型。2024年6月6日,快手大模型團隊自研打造了視頻生成大模型一可靈,具備強大的視頻生成能力,讓用戶可以輕松高效地完成藝術(shù)視頻創(chuàng)作,包含文生視頻能力、圖生視頻能力及視頻續(xù)寫能力,后續(xù)有望上線視頻編輯功能??伸`視頻模型的重點方向在于:大幅度的合理運動符合物理規(guī)律、長達2分鐘的視頻生成能力幀率且達到30fps、模擬物理世界特性、強大的概念組合能力、電影級別的畫面、支持自由的輸出視頻高寬比。在2024年世界人工智能大會上,快手可靈AI產(chǎn)品宣布全新升級:高清畫質(zhì)、首尾幀控制、單次生成10s、Web端上線、鏡頭控制。請閱讀最后一頁免責聲明及信息披露2950萬+可靈AI經(jīng)過我們長時間測試跟蹤,APP端的視頻生成效果十分出色,無論是在提示詞理解、物理規(guī)律控制、畫質(zhì)分辨率、生成速度時長、產(chǎn)品使用容易度和產(chǎn)品迭代升級速度上均表現(xiàn)較為亮眼,是國內(nèi)視頻生成大模型產(chǎn)品的頭部參與者。在APP端,用戶可以選擇參數(shù)設(shè)置:視頻時長5s/10s、高性能(生成速度更快,生成等待時長16、1:1)。舉例來看,下圖左上的提示詞:“木頭上長出了兩朵奇特的透明塑料花,花瓣閃閃發(fā)光,花瓣是淡紫色的,花瓣被風(fēng)吹動旁邊有一棵草在搖曳,氛圍光照”。左下圖的提示詞:“氛圍光照,抽象背景,黑貓警長在光怪陸離的路上行走”。右上圖提示詞:“高清畫質(zhì),四只帶著墨鏡的大熊貓在圍著一個用竹子編織的桌子周圍打撲克牌,同時悠閑的吃著竹子,喝著汽水?!闭堥喿x最后一頁免責聲明及信息披露30CINDASECURITIES2024年7月24日起,可靈A感值)、黃金會員(396元/年,每月獲得660靈感值,約生成3300張圖片或66個高性能視頻,包含去水印高質(zhì)量視頻生成、視頻延長、運鏡升級功能)、鉑金會員(1596元/年,每月獲得3000靈感值,約生成15000石會員(3996元/年,每月獲得8000靈感值,同樣包含上述增值功能)。圖32:視頻續(xù)寫功能請閱讀最后一頁免責聲明及信息披露31信達證勞CINDASECURITIES圖33:美圖WheeAI生視頻功能愛詩科技Alsphere成立于2023年4月,海外版產(chǎn)品PixVerse于2024年1月正式上線,目前已是全球用戶量使輪融資,2024年3月公司完成億級人民幣A請閱讀最后一頁免責聲明及信息披露32信達證勞CINDASECURITIES2024年5月31日,PixVerse正式上線Magic2024年6月5日,國內(nèi)首張AI音樂專輯GxTxPx(偉大科技的造物)正式發(fā)布,部分單曲已在網(wǎng)易云平臺 圖34:Pixverse文生視頻(左圖為V1,右圖為V2)請閱讀最后一頁免責聲明及信息披露33圖35:即夢視頻生成功能頁面00-視頻生成04-1516:5andanimatedditysignage.Shewearsablackleatherjacket,alongreddress,andblackboots,andcariesablacklly.Thestreetisandreflective,creatingamiroreffectofthecolorfullights.Manypedestri圖36:即夢首尾幀土圖生視頻即夢-視頻生成07-1019:30即夢-視頻生成07-1019:30圖片生視頻文本生視頻首幀圖和尾幀圖,盡量都包含同樣的主體,并用文字隨機運鏡運動速度慢速適中快速2024年4月27日,在中關(guān)村論壇未來人工智能先鋒論壇上,生數(shù)科技聯(lián)合清華大學(xué)發(fā)布了具有“長時長、高一致性、高動態(tài)性”性能標簽的視頻大模型Vidu,可根據(jù)文本描述直接生成長達16秒、分辨率達1080P的高清視可實現(xiàn)一次性生成16秒的視頻時長。同時,視頻畫面能保持連貫流暢,隨著鏡頭移動,人物和場景在時間、空景、特寫等鏡頭的切換,以及直接生成長鏡頭、追焦和轉(zhuǎn)場效果。技術(shù)路線上,Vidu采用的是自研U-ViT架構(gòu),請閱讀最后一頁免責聲明及信息披露34Volcanoes一直致力于機器學(xué)習(xí)算法和深度神經(jīng)網(wǎng)絡(luò)技術(shù)的研究。2024年3月7日,七火山Etna模型正式發(fā)圖38:Etna宣傳用的文生視頻效果 請閱讀最后一頁免責聲明及信息披露35CINDASECURITIESModelModel3RunwayPromptDrivingthroughthecityatnightfromthedriver'sview請閱讀最后一頁免責聲明及信息披露36CINDASECURITIES數(shù)量達到1000多萬,推出了一系列全球首創(chuàng)的生成功能,用戶每月制作超過300萬個視頻。2024年7月9日,Capital和AndreessenHorowitz也參與其中。新投資者包括AdobeVentures、HubSpotVentures和Jared戶無需從空白畫布開始。從三種視頻編輯風(fēng)格中選擇一種Impact、Cinem請閱讀最后一頁免責聲明及信息披露372024年7月,在世界人工智能大會上阿里巴巴達摩院最新發(fā)布了AIGC產(chǎn)品——尋光視頻創(chuàng)作平臺,旨在提升視頻制作效率,解決視頻后期編輯問題,通過簡易的分鏡頭組織形式和豐富的視頻編輯能力,讓用戶實現(xiàn)對視頻內(nèi)容的精準控制,并保持多個視頻中角色和場景的一致性。“尋光”旨在為用戶提供一站式的視頻創(chuàng)作工具,讓用戶回歸到關(guān)注視頻內(nèi)容本身是尋光致力于做的事情。目前主要功能包括:分鏡故事板一鍵創(chuàng)建、定制自己的故事角色、生成具備一致性的角色和場景畫面,再利用運鏡控制、運動編輯,創(chuàng)作AI視頻作品。同時,可以使用各類視頻編輯功能進行修改,更有圖層拆解和融合功能,定制化視頻內(nèi)容,方便用戶利用AI創(chuàng)作高質(zhì)量、高一致性的故事視頻片段,而非幾十秒的創(chuàng)意AI視頻。圖43:阿里達摩院“尋光”一站式視頻創(chuàng)作平臺視頻編輯功能圖44:阿里達摩院“尋光”視頻素材創(chuàng)作功能請閱讀最后一頁免責聲明及信息披露38CINDASECURITIES2024年6月12日,美圖公司舉辦以“聊聊AI工作流”為主題的第三屆美圖影像節(jié),現(xiàn)場發(fā)布6款產(chǎn)品,其中包含了MOKI-用AI做短片。MOKI不做常規(guī)的文生視頻,而是聚焦在了AI短片創(chuàng)作,其中涉及到動畫短片、網(wǎng)視覺風(fēng)格、角色等前期設(shè)定;2)用AI生成分鏡圖,分鏡圖轉(zhuǎn)視頻;3)用臺詞驅(qū)動角色開口說話。圖45:美圖MOKIAIl短片產(chǎn)品我用AI做短片AI腳本視覺風(fēng)格選擇角色設(shè)計AI腳本視覺風(fēng)格選擇角色設(shè)計后期制作智能剪輯Al配樂Al音效自動字幕分鏡圖生成分鏡圖修改分鏡圖轉(zhuǎn)視頻視頻生視頻驅(qū)動角色說話MOKIAl短片工作流作視頻生視頻能剪輯Al樂型制型制作與編定材質(zhì)和紋理制作面富商湯Vimi——人物視頻生成大模型2024年7月,商湯科技在世界人工智能大會上發(fā)布了公司打造的首個可控人物視頻生成大模型——Vimi,Vimi基于商湯日日新大模型的強大能力,僅通過一張任意風(fēng)格的照片就能生成和目標動作一致的人物類視頻,不僅能其在長視頻的情景下,能夠穩(wěn)定保持人物的臉部可控,可生成長達1分鐘以上的單鏡頭人物類視頻。Vimi在人Vimi可控人物視頻大模型體系的第一款C端產(chǎn)品,能夠滿足廣大女性用戶的娛樂創(chuàng)作需求。請閱讀最后一頁免責聲明及信息披露圖46:商湯Vimi人物視頻生成智向未來(HiDream.ai)一基于自研的DiT架構(gòu)的智智象未來(HiDream.ai),成立于2023年3月,其自主研發(fā)的視覺多模態(tài)基礎(chǔ)模型實現(xiàn)了不同模態(tài)之間的生成智象大模型2.0的整體升級,相較于1.0版本在底層架構(gòu)、訓(xùn)練數(shù)據(jù)和訓(xùn)練策略上均有質(zhì)的變化。2023年12月,智象大模型的文生視頻打破了4秒時長限制,做到了支持15秒鐘以上的生成時長,同時還支持4K畫質(zhì)。圖47:智象大模型升級2.0版本智象大模型1.0可變時長可變尺寸請閱讀最后一頁免責聲明及信息披露40圖48:智向未來即將上線一站式分鏡頭故事創(chuàng)作視頻生成功能場空間為630億美元,DocumentCloud市場空間為320億美元。相較其FY24Q2創(chuàng)意云收入31.26億美元,請閱讀最后一頁免責聲明及信息披露41·Continuedmomentumincreativejobgrowth·Increasingvaluethroughcollaboration·Expandingreachwithweb-firstcreativesolutions·Growingadoptionof3D&I·GrowthinAdobeStockadoption·MonetizationofvideocollaborationwithFrame.io·Explosivegrowthincreatoreconomy·Content-firstcreationforrangeofusecases·Easy-to-usetoolsfornon-procreators·Expandingreachwithweb&mobilecreativetools·Growthincontentcreationamongstudents,marketersandsmallbusinesses·AddressingneedsofphotoandvideoenthusiastsWeb-basedcreativetoolsforrange·Creativityasa21s*centuryskill~$41B標總收入在214億美元到215億美元之間(上個季度指引:213億-215億美元)。預(yù)計年度新增數(shù)字媒體ARR約為19.5億美元,數(shù)字媒體部門收入在158億美元到158.5億美元之間。數(shù)字體驗部門收入預(yù)計在53.25億美元到53.75億美元之間,數(shù)字體驗訂閱收入在47.75億美元到48.25億美元之間。因此,2024年預(yù)估Adobe數(shù)字媒體業(yè)務(wù)營收市占率在16.6%-16.7%之間,數(shù)字體驗業(yè)務(wù)營收市占率在4.86%,兩個主要業(yè)務(wù)方向的長期營表5:Adobe數(shù)字媒體業(yè)務(wù)和數(shù)字體驗業(yè)務(wù)預(yù)估市占率2024年Adobe預(yù)估創(chuàng)意云+文檔云預(yù)計市場規(guī)模(十億美元)2024財年Adobe數(shù)字媒體部門(創(chuàng)意云+文檔云)預(yù)計收入(十億美Adobe數(shù)字媒體業(yè)務(wù)營收市占率請閱讀最后一頁免責聲明及信息披露422024年數(shù)字體驗業(yè)務(wù)預(yù)計市場規(guī)模(十億美元)2024財年Adobe數(shù)字體驗業(yè)務(wù)預(yù)計收入(十億美元)2024年4月AdobeExpress活躍用戶陡然爆發(fā)增長,根據(jù)第三方Sensortower數(shù)據(jù),應(yīng)用日活從12萬上下提升至70萬上下并呈現(xiàn)持續(xù)提升的趨勢,主要原因在于Adobe推出全新的AdobeExpress移動應(yīng)用程序,具有力,其主要功能包括文本生成圖像、生成填充、文本效果、文本到模板、為InstagramR頻等相關(guān)生成式AI功能,用戶數(shù)的增長側(cè)面驗證了Adobe產(chǎn)品在AI功能上的迭代準確把握了用戶的痛點需求,公司宣布在24年內(nèi)PremierePro會推出一站式AI視頻生成剪輯功能,這一變化有望帶來ARR收入上的增長。圖50:AdobeExpress在24年4月迭代AI功能后,日活數(shù)驟然抬升并穩(wěn)定提高AAsbepesAY+469%+6984%圖51:AdobePremierePro引入第三方模型如Pika、OpenAI、Runway生成視頻片段滿足用戶一站式視頻剪輯需求請閱讀最后一頁免責聲明及信息披露43CINDASECURITIES2024年6月12日,美圖第三屆影像節(jié)上公布一組數(shù)據(jù):“在AI驅(qū)動下,美圖全球VIP會員數(shù)突破千萬”,從2023年6月19日的719萬提升至2024年6月12日的1063萬,同比增長幅度+47.8%。美圖公司聚焦“生產(chǎn)層和應(yīng)用層構(gòu)建的AI產(chǎn)品生態(tài)。2023年美圖實現(xiàn)總收入27億元,同比增長+29.3%。經(jīng)調(diào)整后歸母凈利潤3.7份圖片和視頻,約83%都用到了泛AI功能。2023年,美圖以付費訂閱為主的影像與設(shè)計產(chǎn)品業(yè)務(wù)收入13.3億幅增長。截至2023年12月31日,美圖公司月活躍用戶數(shù)達2.5億,同比增長2.6%。美圖付費訂閱用戶數(shù)超911萬,創(chuàng)歷史新高,同比增長62.3%,付費率僅為3.64%,ARPU提升空間較大。Al視頻Al設(shè)計EQ\*jc3\*hps92\o\al(\s\up5(站),商用)EQ\*jc3\*hps92\o\al(\s\up5(酷),版)EQ\*jc3\*hps92\o\al(\s\up5(海洛),權(quán)平臺)底層站酷兵創(chuàng)創(chuàng)意營銷平臺應(yīng)用層站請閱讀最后一頁免責聲明及信息披露44商湯科技生成式人工智能相關(guān)業(yè)務(wù)在2023年的收入獲得200%增長,收入突破11.8億元人民幣。公司在國內(nèi)的生成式人工智能的算力儲備、人才儲備等維度上均屬于第一梯隊,公司目前以為B端客戶提供算力、大模型API調(diào)用為主,在AI技術(shù)上迭代發(fā)展較快。2024年7月在世界人工智能大會上,商湯科技打造的首個可控人物視頻生成大模型Vimi,以Vimi為例來探索商湯在垂直領(lǐng)域細分市場上的C端AI產(chǎn)品擴張。我們認為,AI視頻生成領(lǐng)域的難點在于創(chuàng)作人物形象的一致性和是否符合世界物理規(guī)律上。因暫未拿到實測資格,在Vimi微信公眾號的介紹中我們看到,Vimi基于商湯日日新大模型的強大能力,僅通過一張任意風(fēng)格的照片就能生成和目標動作一致的人物類視頻,不僅能實現(xiàn)精準的人物表情控制,還可實現(xiàn)在半身區(qū)域內(nèi)控制照片中人物自然肢體變化,通過已有人物視頻、動畫、聲音、文字等多種元素進行驅(qū)動。Vimi模型主打在長視頻情景下能夠穩(wěn)定保持人物臉部可控,這有望適用于多領(lǐng)域創(chuàng)作。例如能夠滿足廣大女性用戶的娛樂創(chuàng)作需求。用戶只需上傳不同角度的高清人物圖片,即可自動生成數(shù)字分身和不同風(fēng)格的寫真視頻;對于熱衷表情包的用戶來說,Vimi通過單張圖片即可驅(qū)動生成各種趣味的人物表情包,同時還可支持聊天、唱歌、舞動等多種娛樂互動情景,在女性娛樂應(yīng)用市場中,用領(lǐng)先的AI技術(shù)打造垂直領(lǐng)域產(chǎn)品,有望打開公司的ToC端市場,同時也有望通過大量的用戶數(shù)據(jù)進而反哺B端市場客戶的使用效果。圖53:Vimi在人物一致性功能支持下打造的數(shù)字分身打造AI視頻功能、AI表情包功能Vimi打造屬于你的AI視頻大片作為國內(nèi)短視頻內(nèi)容頭部公司,均對應(yīng)推出了其視頻剪輯類軟件—快手快影和抖音剪映,目前快影已經(jīng)集成了快手可靈視頻大模型的文生視頻和圖生視頻功能,后續(xù)有望迭代至AI視頻剪輯功能;剪映也推出了AI創(chuàng)作產(chǎn)品Dreamina(即夢),同時剪映內(nèi)部目前也已經(jīng)上線了諸多AI功能,例如一鍵成片、AI廣告營銷等??梢钥吹饺粼谝曨l剪輯領(lǐng)域做到極強產(chǎn)品力,同樣有望提升用戶付費率,帶來商業(yè)化變現(xiàn)程度的提升??焓挚伸`快手可靈視頻大模型的效果得到廣泛的市場認可關(guān),相比快影的月活數(shù)據(jù)近200萬來看,已經(jīng)有了較高的占比,累計生成的視頻作品高達700萬份??焓挚伸`請閱讀最后一頁免責聲明及信息披露45年有超過1.38億用戶首次在快手平臺發(fā)布短視頻、2023年堅持365天在快手每天發(fā)視頻的創(chuàng)作者人數(shù)高達61%、2023年有超過2200萬創(chuàng)作者在快手平臺獲得收入、2023年第三季度快手搜索平均月活躍用戶數(shù)達到產(chǎn)品產(chǎn)品定價年訂閱費快影(內(nèi)嵌可靈)88元/年剪映(包含海外全渠道)3.2億499元/年YouTube等短視頻平臺崛起,據(jù)Statista相關(guān)數(shù)據(jù)顯示,2030年全球移動營銷市場規(guī)模達預(yù)計將達到57易點天下:2023年旗下AIGC數(shù)字營銷創(chuàng)作平10億到追求30-50億,甚至未來的100個億;2)更多AINative,持續(xù)提高AI的占比、濃度和含金量,將人工因賽集團:公司旗下AIGC營銷產(chǎn)品—InsightGPT繼3月初推出圖生視頻產(chǎn)品后,再度聚焦AI視頻創(chuàng)作領(lǐng)域請閱讀最后一頁免責聲明及信息披露47活躍用戶超過1億。2023全年超300萬UP主在B站獲得收入,同比增長超30%。2024年第一季度,B站日12個月留存率近80%。大會員付費用戶數(shù)據(jù)為2190萬,其中超過80%為年度訂閱或自動續(xù)訂用戶。海量的創(chuàng)表7:相關(guān)公司提供視頻數(shù)據(jù)用于訓(xùn)練多模態(tài)大模型公司國內(nèi)外流媒體平臺、電影視頻制作公司均積累了海量視頻素材,在前期的生成式Al+視頻的技術(shù)迭代發(fā)展中,優(yōu)質(zhì)的視頻數(shù)據(jù)對于模型質(zhì)量的訓(xùn)練優(yōu)化顯得至關(guān)重要。捷成股份與華為云簽署協(xié)議共同建設(shè)視頻大模型。捷成股份憑借十多年來積累的20萬小時影視視聽節(jié)目素材和通過數(shù)據(jù)清洗來為華為云投入高質(zhì)量數(shù)據(jù)集,授權(quán)華為用于視頻大模型訓(xùn)練。華為方面投入基礎(chǔ)模型、算力、模型優(yōu)化與專業(yè)服務(wù)等。24年3月,捷成自主研發(fā)的AI智能創(chuàng)作引擎ChatPV正式發(fā)布,并接入華為云盤古大模型的通用語言解析能力,服務(wù)于AI視頻創(chuàng)作應(yīng)用。視覺中國2023年10月,視覺中國與華為云正式簽署關(guān)于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論