OpenAI Sora專題:Transformer擴展優(yōu)勢凸顯視頻理解與生成能力提升_第1頁
OpenAI Sora專題:Transformer擴展優(yōu)勢凸顯視頻理解與生成能力提升_第2頁
OpenAI Sora專題:Transformer擴展優(yōu)勢凸顯視頻理解與生成能力提升_第3頁
OpenAI Sora專題:Transformer擴展優(yōu)勢凸顯視頻理解與生成能力提升_第4頁
OpenAI Sora專題:Transformer擴展優(yōu)勢凸顯視頻理解與生成能力提升_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

Transformer擴展優(yōu)勢凸顯,視頻理解與生成能力提升西南證券研究發(fā)展中心海外研究團隊王湘杰2024年2月核心觀點事件:2024年2月16日,OpenAI發(fā)布文生視頻模型——Sora及其技術(shù)報告《Videogenerationmodelsasworldsimulators》。從Sora模型看文生視頻的技術(shù)路徑:技術(shù)路徑尚未收斂,Transformer擴展特性優(yōu)勢凸顯。市場大模型,其優(yōu)秀的生成能力離不開Transformer架構(gòu)優(yōu)秀的scaling特性。當(dāng)前,為構(gòu)建性能更優(yōu)、效從Sora模型看文生視頻的最新能力(假設(shè)展示視頻可以代表Sora的一般性表現(xiàn)1)強大的理解理解能力是其能夠準確生成視頻的前提。2)優(yōu)秀的生成能力:①長度:可生成60s視頻;②復(fù)雜度:能夠生成包含多個角色、多種2主題、多類運動形態(tài)的復(fù)雜場景;③逼真度:能夠呈現(xiàn)更多的視覺個鏡頭,保持其在整個視頻中的外觀,在角度移動和切換情況下,人物和場景元素在三維空間中的位置關(guān)系能夠保持一致的運動;⑤可控性:在某一Prompt基礎(chǔ)上只改動一個關(guān)鍵詞仍能生成優(yōu)質(zhì)的從Sora模型看文生視頻的行業(yè)影響:目前OpenAI已向部分視覺藝術(shù)家、設(shè)計師和電影制作人提供訪問權(quán)限,以獲取專業(yè)的反饋。我們認為,以Sora為代表的視頻生成模型有望給廣告/設(shè)計/短視投資建議:隨著文生視頻模型的迭代升級和未來的大規(guī)模應(yīng)用,算力需求有望增長,云服務(wù)有望成為算力的重要補充,視頻傳輸也將帶動高帶寬、高性能的光通信需求,建議關(guān)注算力、云服務(wù)和光通信領(lǐng)域投資機會。相關(guān)標的:英偉達(NVDA.O)、超威半導(dǎo)體(AMD.O)、微軟(MS風(fēng)險提示:技術(shù)進展不及預(yù)期風(fēng)險;行業(yè)競爭加劇風(fēng)險;應(yīng)用開發(fā)不及預(yù)期風(fēng)險。13從Sora看文生視頻模型的影響1從1從Sora看文生視頻模型的技術(shù)路徑2從2從Sora看文生視頻模型的最新能力2趨勢文生3D基石理論2020年6月DDPM提出2022年4月Diffusionbasemodelkickoff2020年3月NeRF趨勢文生3D基石理論2020年6月DDPM提出2022年4月Diffusionbasemodelkickoff2020年3月NeRF論文發(fā)表;2023年8月提出3DGaussianSplatting核心模型2021年1月DALL-E為初代模型,22年8月StableDiffusion基石開源模型2022年9月出現(xiàn)Make-A-Video、ImagenVideo等 ;2024年2月Sora模型/2023年3月Midjourney1.0推出,拉開視頻生成應(yīng)用的帷幕2023年12月Tripo的推出和2024年1月Genie-1.0文生3D應(yīng)用嶄露頭角代表應(yīng)用資料來源:西南證券1.1.1發(fā)展現(xiàn)狀:多模態(tài)發(fā)展已成共識,視覺生成熱潮逐步興起從模態(tài)發(fā)展情況來看:AI大模型的生成和理解能力從單模態(tài)向多模態(tài)發(fā)展已成社會共識。當(dāng)前,大從市場催化節(jié)奏來看:受文本端殺手級應(yīng)用ChatGPT(于22年11月推出)和圖像生成代表應(yīng)用MidjourneyV5(于23年3月推出)的影響,文本端和圖像生成應(yīng)用已于2023年迎來市場催化。大模型多模態(tài)發(fā)展情況大模型多模態(tài)發(fā)展情況文本端文本端文生圖像文生圖像文生視頻文生視頻視頻生成或迎來ChatGPT時刻2017年6月2017年6月Transformer架構(gòu)提出2018年102018年10月Bert初代模GPT-3奠定基石閉源模型2022年11月2022年11月ChatGPT推從理論到應(yīng)用的歷時逐步縮短,從理論到應(yīng)用的歷時逐步縮短,多模態(tài)時代加速到來3技術(shù)路徑潛在路徑是否收斂當(dāng)前技術(shù)路徑已收斂于LLM文本生成基于transformer的自回歸模型:技術(shù)路徑潛在路徑是否收斂當(dāng)前技術(shù)路徑已收斂于LLM文本生成基于transformer的自回歸模型:擴散模型+transformer架構(gòu):技術(shù)路徑尚未收斂圖像生成基于transformer自回歸模型:擴散模型+transformer架構(gòu):技術(shù)路徑尚未收斂視頻生成3D原生:>OpenAI—Shape-E技術(shù)路徑尚未收斂1.1.2發(fā)展現(xiàn)狀:文本端技術(shù)路徑收斂于LLM,視覺生成領(lǐng)域仍在探索從技術(shù)路徑收斂情況來看:1)文本生成方面,在OpenAIGPT系列模型的引領(lǐng)下,大語言模型(LLM—largelanguagemodel)已成為當(dāng)前文本端的確定性路徑。2)多模態(tài)方面,圖像和視頻生成的技術(shù)路徑均未收斂。圖像和視頻生成主要包括兩大路徑:擴散模型(DiffusionModel)的自回歸模型具備較大潛力,擴散模型也逐步呈當(dāng)前主流當(dāng)前主流LLM—Transformer—Decoderonly擴散模型>OpenAI—GLIDE,DALL-E2擴散模型:2D向3D升維:先由擴散模型實現(xiàn)text-to-2D,再由NeRF實現(xiàn)2D-to-3D資料來源:西南證券41.2.1路徑對比:擴散模型占據(jù)主流,自回歸模型潛力可期Diffusion模型選擇開源,使廣大開發(fā)者能夠在此基礎(chǔ)上運用和優(yōu)化擴散模型,其公開可用的特性使之成為圖像和視頻生成領(lǐng)域的主流基礎(chǔ)模型;歸模型相較于擴散模型更適合、更容易做規(guī)模擴展(scaleup)。目前,擴散模型的參數(shù)規(guī)和視頻領(lǐng)域的自回歸模型有望借鑒transformer在文本領(lǐng)域LLM的經(jīng)驗,通過對不同模態(tài)進行跨模擴散模型原理擴散過程是指對數(shù)據(jù)逐漸增加高斯噪音直至數(shù)據(jù)變成隨機通過編碼器將文本轉(zhuǎn)化成token或序列,應(yīng)經(jīng)過訓(xùn)練好的模型解碼輸出圖像。①在規(guī)模持續(xù)增長的情況下能夠呈現(xiàn)更好的生成效果;②視頻的時間序列結(jié)構(gòu)適合轉(zhuǎn)化為預(yù)測下一幀的任務(wù)形態(tài)。整體訓(xùn)練成本高。模型圖像:①StabilityAI—StableDiffusion;②OpenAI—GLIDE,DALL-E2;③Google—Imagen&Imagen2視頻:①StabilityAI—StablevideoDiffusion;②Google—ImagenVideo;圖像:①Google—Parti;②OpenAI—ImageGPT,DALL-E視頻:①GoogleVideoPoet應(yīng)用/資料來源:西南證券5基于GAN基于diffusion Pixeldiffusion基于GAN基于diffusion Pixeldiffusion第1次關(guān)鍵迭代 Latentdiffusion第2次關(guān)鍵迭代 Latentdiffusionwithtransformerbackbon基于languagemodel1.2.1路徑對比:擴散模型占據(jù)主流,自回歸模型潛力可期從圖像生成模型發(fā)展順序來看:GAN出現(xiàn)最模型(2020年6月OpenAI提出ImageGPTOpenAI于2021年5月提出在擴散過程中使用顯式分類器進行引導(dǎo),展示出擴散模型的強大潛力,從此打敗此前在圖像生成領(lǐng)域統(tǒng)治Diffusion開源,擴散模型逐步成為圖像生成領(lǐng)域的主流模型。 Autoregressivemodel資料來源:西南證券2020-2023年圖像生成領(lǐng)域技術(shù)進展2020-2023年圖像生成領(lǐng)域技術(shù)進展2月3月4月5月6月7月8月9月10月11月12月2020DETRDDPMDDIM;VisonTransformer2021CLIP;DALL·ESwinTransformerCogViewMAE;SwinTransformerv2;NUWALatent-Diff;GLIDE2022MaskGITMake-A-SceneDALL·E2;CogView2ImagenPartiNUWA-InfinityStableDiffusion;BEiT-3;MidjourneyV3eDiff-I;MidjourneyV42023BLIP2;MUSEVisualChatGPT;GPT4;MidjourneyV5;GigaGANSAMSDXLDALL·E3SDXLTurbo6僅樣20步2)僅樣20步2)模型優(yōu)化生成的速度和質(zhì)量由擴散模型中的采樣器控制和Euler、SDE、DPM-Solver++和Karras等加速采樣方法的出現(xiàn)有助于大力提升模型在保證生成質(zhì)量的前提下的快速采樣能力。BasedGenerativeModelingthroughStochasticDifferentialEquations年5月OpenAI提出在擴散過程中使用顯式分類器擴散模型的強大潛力,打敗圖像生成領(lǐng)域統(tǒng)治多年的GAN模型,擴散模型逐步成為圖像生成領(lǐng)ModelsBeatGANsonImageSynthesis①BigGAN-deep模型結(jié)果②OpenAI擴散模型結(jié)果1月CLIP預(yù)訓(xùn)練模型發(fā)布,該技術(shù)而后與擴散模型持續(xù)結(jié)合,推動擴散模型21-22年在文生圖領(lǐng)域爆發(fā)。如OpenAIGLIDE、DALL-E,GoogleImagen,StableDiffusion.TransferableVisualModelsFromNaturalLanguageSupervisionDreamBooth(22.08)、LoRA(23.01)和ControlNet(23.02)等擴散模型的再學(xué)習(xí)方法持續(xù)推出,針對不同任務(wù)對擴散模型進行優(yōu)化。DreamBooth:FineTuningText-to-ImageDiffusionModelsforSubject-DrivenGeneration>核心事件:眾多圖像生成應(yīng)用應(yīng)運而生。MidjourneyV5;StabilityAl公司開發(fā)的DreamStudio圖像生成Firefly;百度推出文心一格AI創(chuàng)作平臺;阿里巴巴達摩院推出通義文生圖大模1.2.2擴散模型:發(fā)展歷程擴散模型持續(xù)迭代,助力應(yīng)用崛起。2020年,DDP擴散模型在圖像生成領(lǐng)域中的發(fā)展歷程擴散模型在圖像生成領(lǐng)域中的發(fā)展歷程>核心事件:DDPM模型于2020年6月推出,是圖像生成領(lǐng)域最早出現(xiàn)的擴首次將去噪擴散概率模型應(yīng)用到圖像生成任務(wù)中,奠定了擴散模型在圖像生成領(lǐng)域應(yīng)用的基礎(chǔ)。DiffusionProbabilisticModels71.2.2擴散模型:基本原理擴散模型(DiffusionModels)基本原理:擴散模型包括前向和反向兩個擴散過程,擴散過程是指的對數(shù)據(jù)逐漸增加高斯噪音直至數(shù)據(jù)變成隨機噪音的過程。真實圖片添加噪聲最終得到一個純噪聲。對于訓(xùn)練集中的每張圖片,都能生成一系列的噪聲程度不同的加噪圖片;在訓(xùn)練時,不同程度的噪聲圖片>反向擴散過程(ReverseDiffusionProcess指給圖片去噪的過程,逐漸還原真實數(shù)據(jù)或樣本。擴散模型的前向過程與反向過程擴散模型的前向過程與反向過程81.2.2擴散模型:兩次關(guān)鍵迭代擴散模型第一次關(guān)鍵迭代:在像素空間(PixelSpace)之外引入潛在空間(LatentSpace)。擴散模降維至feature,再在feature上進行diffusion,完成后將特征空間最后投射至圖像空間。因此,LatentDiffusion通過將數(shù)據(jù)處理成低維(lowdimensional)數(shù)據(jù)(圖像的latentspace比pixelspace更小且更加關(guān)注數(shù)據(jù)的重要語義位,能夠更好地在“降低復(fù)雜度”和“保留細節(jié)度”之?dāng)U散過程編碼器潛在表示U-Net架構(gòu)解碼器“去噪”步驟特別的編碼器/條件編碼器:將各種模態(tài)的信息編碼為一個中間表示資料來源:《High-ResolutionImag資料來源:《U-Net:ConvolutionalNetworksforBiomedical通過一系列交叉注意力機制將圖像細化91.2.2擴散模型:兩次關(guān)鍵迭代擴散模型第二次關(guān)鍵迭代:在LatentDiffusion基礎(chǔ)上將U-N型中的經(jīng)典架構(gòu)是U-net網(wǎng)絡(luò),大多數(shù)擴散模型會基于U-Net結(jié)構(gòu)進行一些變體,U-Net架構(gòu)主要用于接收“帶噪”的輸入并預(yù)測噪聲,以實現(xiàn)“去噪”。2023年3月,Meta發(fā)布論文《ScalableTransformer架構(gòu)相較于U-Net架構(gòu)的優(yōu)點:Transformer架構(gòu)scalability能力更強、更適合做生TheTheDiffusionTransformer(DiT)架構(gòu)帶噪的潛在表示帶噪的潛在表示類別標簽TransformerTransformer架構(gòu)資料來源:《AttentionIsAllYouNeed》,西南證券整理…problemsturning……problemsturning…1.2.3自回歸模型:基本原理自回歸模型(AutoregressiveModels)基本原理:在數(shù)學(xué)模型和算法中,自回歸模型的核心思想是基于同一變量的歷史值預(yù)測未來值。自回歸作為一種時間序列模型,通過使用以前時間步長自回歸語言模型的前向與反向過程自回歸語言模型的前向與反向過程forward…crises… …crises…bankingcrisbankingcris1.2.3自回歸模型:代表模型自回歸文生圖代表模型——Parti:2022年6月22日,谷歌發(fā)表論文《ScalingAutoregressive自回歸文生視頻代表模型——VideoPoet:2023年12月21日,谷歌發(fā)表論文《VideoPoet:A調(diào)LLM在視頻生成領(lǐng)域依然可以發(fā)揮重要作用,能夠在動作生成上能夠保持較好的一致性、在大范谷歌文生圖自回歸模型—谷歌文生圖自回歸模型—Parti部分部分文本embedding作為條件在TransformerDecoder中作為K和V通過CrossAttention與視覺Token交叉使用Encoder對文本編碼,生成文本embeddingViT-VQGAN資料來源:《ScalingAutoregressiveModelsforContent-谷歌文生視頻自回歸模型—谷歌文生視頻自回歸模型—VideoPoet多任務(wù)一站式處理基于LLM的自回歸模型資料來源:《VideoPoet:Alargelanguagemodelforzero-shotvideogeneraTokenizer將文本轉(zhuǎn)化為tokens并建立互聯(lián),幫助模型對視覺生成任務(wù)的理解。Tokenizer是指將文本或序列轉(zhuǎn)化為標記(tokens)的工具或算法。在自然語言領(lǐng)域,Tokenizer通常將文本轉(zhuǎn)換成ImageTokenizer—ViT-VQGAN:2022年6月5日,谷歌發(fā)表論文《Vector-quantizedImageVideoTokenizer—MAGVIT-v2:2023年10月9日,谷歌發(fā)表論文《LanguageModelBeatsDiffusion:Tokenizeriskeytovisualgeneration》,并提出分詞器MAGVIT-v2(MaskedGenerativeVideoTransformer強調(diào)Tokenizer對視覺生成的重要性,指出一個更好的Tokenizer在接入語言模型后有望獲得比擴散模型更好的效果。谷歌谷歌ViT-VQGAN中的Tokenizer將圖像編碼為token序列用于生成離散的Latentcode用于生成離散的Latentcode到Codebook空間從離散Latentcode中恢復(fù)原始圖像withImprovedVQGAN》,西南證券整理MAGVIT與其他Tokenizer架構(gòu)對比資料來源:《LanguageModelBeatsDiffusion:Tokeniskeytovisualgeneration》,西南證券整理運用Transformer主干運用Transformer主干視頻1.3未來趨勢:transformer優(yōu)勢凸顯,模型構(gòu)建有望呈現(xiàn)多種方式于2023年12月發(fā)布與李飛飛老師和其學(xué)生合作的文生視頻模型——W.A.L.T、OpenAI于2024年2力,且transformer已在語言建模、計算機視覺和圖像生成等多個領(lǐng)域展示其顯著的擴展能力,未來同樣有望在視頻生成上發(fā)揮更大作用。隨著技術(shù)研究的不斷深入,各家可能會利用每個架構(gòu)最擅SoraSora基于Diffusion+transformerSoraSora是基于Transformers+擴散模型Sora技術(shù)報告指出:Transformers已經(jīng)在語言建模、計算機視覺和圖像生成等多個領(lǐng)域展示顯著的擴展能力W.A.L.T基于W.A.L.T基于Diffusion+transformer編碼編碼時空層空間層時空層W.A.L.T(WindowAttentionLatentTransformer)架構(gòu)優(yōu)勢:①localwindowattention有助于顯著降低計算需求;②有利于聯(lián)合訓(xùn)練,空間層處理圖像和視頻幀,時空層用于建模視頻中的時間關(guān)系。3從Sora看文生視頻模型的影響1從1從Sora看文生視頻模型的技術(shù)路徑2從2從Sora看文生視頻模型的最新能力2.1.1團隊背景:研發(fā)實力突出,優(yōu)秀人才聚集核心作者主要研究成果個人介紹推特賬號【語言領(lǐng)域】2020年5月28日《Languagemodelsarefew-shotlearners》Sora團隊負責(zé)人;本科就讀于紐約大學(xué);主導(dǎo)三代DALL-E的研究/《Hierarchicaltext-conditionalimagegenerationwithCLIPlatents》《Hierarchicaltext-conditionalimagegenerationwithCLIPlatents》【圖像領(lǐng)域】2022年4月13日《ImprovingImageGenerationwithBetterCaptions》【視頻領(lǐng)域】2024年2月15日《Videogenerationmodelsasworldsimulators》【視頻領(lǐng)域】2022年6月9日《GeneratingLongVideosofDynamicScenes》【圖像領(lǐng)域】2023年1月18日《InstructPix2Pix:LearningtoFollowImageEditingIns【圖像領(lǐng)域】2023年10月20日《ImprovingImageGenerationwithBetterCaptioSora團隊核心成員&主要作者;本科就讀于卡內(nèi)基梅隆大學(xué),主修邏輯與計算;博士就讀于加州大學(xué)伯克利分校AI實驗室;曾在部門、英偉達實習(xí)或工作過/_【圖像領(lǐng)域】2022年4月5日《GAN-SupervisedDenseVisualAlignment》【圖像領(lǐng)域】2023年3月2日《ScalableDiffusionModelswithTrSora團隊核心成員&主要作者;本科就讀于麻省理工學(xué)院;博士就讀于加州大學(xué)伯克利分校AI實驗室;曾在Facebook人工智能研究中心FAIR、AdobeResearch、英偉達/GPT-1:數(shù);有一定的泛化能力億參數(shù),強大的理解能力GPT-3:參數(shù);可完成大多NLP任務(wù)GPT-4V:開始具備視覺能力,可輸入圖像并結(jié)合文本進行輸出GPT-4:萬億級參數(shù);數(shù)據(jù)源擴充;增加訓(xùn)練后處理和行為預(yù)測GPT-2: ;生成能力提升文本領(lǐng)域DALL·E第1代:GPT-1:數(shù);有一定的泛化能力億參數(shù),強大的理解能力GPT-3:參數(shù);可完成大多NLP任務(wù)GPT-4V:開始具備視覺能力,可輸入圖像并結(jié)合文本進行輸出GPT-4:萬億級參數(shù);數(shù)據(jù)源擴充;增加訓(xùn)練后處理和行為預(yù)測GPT-2: ;生成能力提升文本領(lǐng)域DALL·E第1代:數(shù);基于自回歸模型DALL·E第2代: ;基于擴散模型圖像領(lǐng)域Point-E:可根據(jù)復(fù)雜提示生成3D點云的模型 ;采用2D向3D升維的技術(shù)路徑Shape-E:一個用于3D資產(chǎn)的條件生成模型 ;采用原生3D數(shù)據(jù)進行訓(xùn)練視頻領(lǐng)域2.1.2時間進程:AGI技術(shù)積淀已久,視覺生成領(lǐng)域加速推進前期工作積累深厚,研發(fā)進程加速推進。Sora模型的誕生離不開GPT和DALL·E系列模型的積淀,模型和文本-圖像配對的優(yōu)質(zhì)數(shù)據(jù)集奠定前期基礎(chǔ),SoGPTGPT-4Turbo:多模態(tài)能力提升;支持更長的上下文窗口、更低的價格、更高的性能DALLDALL·E第3代:基于Tranformer架構(gòu)的圖像生成模型,能更準確地反映提示內(nèi)容和理解細微差別SoraSora:文生視頻模型;視頻理解能力和生成能力突出 ;擴散模型與大語言模型相結(jié)合3D領(lǐng)域3D領(lǐng)域2.2.1強大的理解能力:領(lǐng)會并細化提示詞,學(xué)習(xí)及模擬物理世界為什么Sora可以較好地理解Prompt提示詞?術(shù)應(yīng)用到視頻訓(xùn)練上,訓(xùn)練出一個較強的文字描述模型,并在訓(xùn)練Sora時通過使用大量②GPT用于改寫和細化Prompt:團隊利用GPT系列模型將簡短的Prompt轉(zhuǎn)換成詳細的文字描詳細的文字描述有助于高質(zhì)量圖像生成詳細的文字描述有助于高質(zhì)量圖像生成在“更詳細的文本和圖像配對”上訓(xùn)練的文生圖模型的CLIP分數(shù)更高在“更詳細的文本和圖像配對”上訓(xùn)練的文生圖模型的CLIP分數(shù)更高GPTGPT模型將Prompt提示詞詳細化GPT可幫助補充缺失的細節(jié)、消除復(fù)雜關(guān)系的歧義,圖像質(zhì)量提升資料來源:《ImprovingImageGenerationwithBette2.2.1強大的理解能力:領(lǐng)會并細化提示詞,學(xué)習(xí)及模擬物理世界爭議:Sora是否能夠理解事物在物理世界中的存在方式?>Sora在一定程度上展示出其可能具備理解物理現(xiàn)象和物理規(guī)律的能力。根據(jù)OpenAI官網(wǎng)的展示視該場景實際上不存在于現(xiàn)實世界,但Sora依然可以根據(jù)流體力學(xué)等物理規(guī)則實現(xiàn)Promp的真實或幻想的模擬,并且模擬渲染直觀的物理、推理和基礎(chǔ)。Sora必須學(xué)習(xí)一些隱式形式的文本>Transformer架構(gòu)下的Scalinglaw對理解物理現(xiàn)象和規(guī)則有望持續(xù)有效。當(dāng)模型變大、數(shù)據(jù)量更Sora模型生成視頻展示1Sora模型生成視頻展示1踩奶的動作。Sora模型生成視頻展示2Sora模型生成視頻展示2周圍的泡沫十分自然。2.2.1強大的理解能力:領(lǐng)會并細化提示詞,學(xué)習(xí)及模擬物理世界爭議:Sora是否能夠理解事物在物理世界中的存在方式?>Transformer架構(gòu)和擴散模型在學(xué)習(xí)和模擬物理世界的過程中存在頻可以在幀與幀之間做到較好的連貫性,但不意味著符合因果邏輯,所以在“奶奶吹蠟燭”的展示視頻中,畫面十分連貫,卻在吹完蠟燭后火苗并沒有熄滅模型適合學(xué)習(xí)和生成穩(wěn)定狀態(tài)下的物體,但是較難理解和識別物體發(fā)生顯著變化時的臨界狀態(tài),所Sora模型生成視頻展示3Sora模型生成視頻展示3Sora模型生成視頻展示4Sora模型生成視頻展示42.2.1強大的理解能力:領(lǐng)會并細化提示詞,學(xué)習(xí)及模擬物理世界爭議:Sora是否能夠理解事物在物理世界中的存在方式?>MetaV-JEPA模型:2024年2月14日,Meta發(fā)表論文《RevisitingFeaturePredictionforPredictiveArchitectures)。不同于視頻生成模型Sora,V-JEPA模型>YannLeCun觀點:大多數(shù)根據(jù)提示生成的逼真的視頻并不表明模型能夠理解物理世界。生成模型因此只需生成一個樣本即可算作成功;而一個真實視頻的合理延續(xù)(plausiblecontinuationsofaInputInput頻用作V-JEPA模型樣本1樣本1色框線內(nèi)包含來自覆蓋在原始視頻上的解碼器decoder出來的樣本2樣本3各種樣本。模型生成樣本2樣本3的樣本與輸入不一定完全匹配。V-JEPA不僅預(yù)測空間上的信息,同時能夠捕捉隨時間變化的一致運動資料來源:《RevisitingFeaturePredictionforLearningVisualRepresentationsfromVideo》,西南證券整理2.2.2優(yōu)秀的生成能力:視頻長度優(yōu)勢明顯,連貫性及可控性提升長度:Sora可以生成長達約60s的視頻。產(chǎn)品技術(shù)路徑發(fā)展階段Sora基于TransfomerPika1.0Pikalabs文生圖、文生視頻、圖生視頻、視頻擴展、區(qū)域修RunwayGen-2Runway文本提示,生成4s時長的視頻,或上傳圖片讓為其頻中選擇"攝像機"運動的方向和強度/速度。Stablevideodiffusion/s之間調(diào)整幀率>將圖片分割后的小塊。為方便理解,下圖展示的是顯式的patch,與之對應(yīng)的是隱式(latent)的patch,Sora其實也正是用的latentpatches。>Patches的思想最開始是源于Google深度學(xué)習(xí)團隊的ViT-Visiontransformer算法。2.2.2優(yōu)秀的生成能力:視頻長度優(yōu)勢明顯,連貫性及可控性提升為什么Sora能夠生成的長達60s的視頻?Patch的表達方式(前提)+transformer時空信息的處理能力(帶來時序概念)+transformer的scaling擴展能力(能力)。Sora將視覺數(shù)據(jù)統(tǒng)一轉(zhuǎn)化為patch的表示方法,在transformer架構(gòu)可以更好地處理視頻中各個關(guān)鍵幀像素信息的相關(guān)性。因此,在更多的patch下,Sora模型可以把一個更長的視頻完整地表達出來,而transformer的scaleup的能力也更加makeSora模型將視覺數(shù)據(jù)轉(zhuǎn)化為Patch的表達方式Sora模型將視覺數(shù)據(jù)轉(zhuǎn)化為Patch的表達方式視頻中的關(guān)鍵幀視頻中的關(guān)鍵幀視覺編碼器變成一長串patch的序列帶噪的帶噪的patch通過擴散模型(diffusionmodel)的去噪過程去噪的patch資料來源:OpenAI官網(wǎng),《Animageisworth16x16words:Transformersforimagerecognitionatscale》西南證券整理2.2.2優(yōu)秀的生成能力:視頻長度優(yōu)勢明顯,連貫性及可控性提升Transformer對時空信息的處理能力:①Transformer在自然語言處理領(lǐng)域和計算機視覺感知領(lǐng)域均能發(fā)揮作用。②Transformer在處理大規(guī)模數(shù)據(jù)量場景據(jù)中識別數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,更有利于構(gòu)建向量空間。③Transformer架構(gòu)引入時間和空間注意在時間性方面具有更高的并行計算效率,在空間性能方面具有更強的泛化能力。>以自動駕駛中的BEVformer編碼器為例,>相較于純擴散模型而言,Transformer架構(gòu)空間交叉注意力機制時間交叉注意力機制資料來源:《Transformer-basedmodelsandhardwareaccelerationanalysisinautonomousdriving:Asurvey》,西南證券整理BaseBasecompute2.2.2優(yōu)秀的生成能力:視頻長度優(yōu)勢明顯,連貫性及可控性提升Transformer的scaling擴展能力:現(xiàn)的確定性越高。從模型參數(shù)量級來看,截至目前,擴散模型的參數(shù)規(guī)模普遍在billion(十億)級>市場大多認為擴散模型是圖像和視頻生成領(lǐng)域的技術(shù)主流,卻容易忽視語言模型中transformer架構(gòu)scaleup的能力。OpenAI技術(shù)報告指出,Sora是基于擴散模型,但更強調(diào),Sora是一個基于SoraSora將Scalingtransformers運用至視頻生成中的效果中“帶著藍色帽子的小狗”為例擴展(中“帶著藍色帽子的小狗”為例如何理解4xcompute?>例如,在basecompute的基礎(chǔ)上,將模型參數(shù)量擴大2倍、訓(xùn)練數(shù)據(jù)集擴大2倍如何理解32xcompute?>例如,在4xcompute的基礎(chǔ)上,再將模型參數(shù)量擴大4倍、訓(xùn)練數(shù)據(jù)集擴大2倍Sora模型可控性示例Sora模型可控性示例2.2.2優(yōu)秀的生成能力:視頻長度優(yōu)勢明顯,連貫性及可控性提升復(fù)雜度:能夠生成包含多個角色、多種主題、多類運動形態(tài)的復(fù)雜場景。逼真度:能夠呈現(xiàn)更多的視覺細節(jié),具備更高清的畫質(zhì),為用戶提供更好的視覺體驗。生成的視頻的畫質(zhì)分辨率可以達到1920x1080p。生成的圖片的畫質(zhì)分辨率可以達到2048x2048p。連貫性&一致性:在角度移動和切換情況下,人物和場景等元素在3D空間中的位置關(guān)系能夠保持一致的運動;可以生成同一角色的多個鏡頭,保持其在整個視頻中的外觀,當(dāng)物體短暫地被遮擋或離開框架后仍然能夠恢復(fù)與先前一致的物體特征。Sora模型連貫性&一致性示例Sora模型連貫性&一致性示例①小狗原先的特征─→②小狗即將被遮擋①小狗原先的特征─→②小狗即將被遮擋量關(guān)鍵詞詞,仍可快速生成優(yōu)質(zhì)視頻③小狗被遮擋③小狗被遮擋Sora模型在畫面構(gòu)圖方面更合理Sora模型在畫面構(gòu)圖方面更合理2.2.2優(yōu)秀的生成能力:視頻長度優(yōu)勢明顯,連貫性及可控性提升為什么Sora能夠在視頻生成的逼真度/連貫性/一致性方面能夠取得較大進展?>建立優(yōu)質(zhì)的視覺數(shù)據(jù)集和文本-視頻配對集:得益于前期DALL·E3的相關(guān)工作,Sora擁有具備高關(guān)>對視覺訓(xùn)練數(shù)據(jù)的處理能力:通過降維的方法保留原始視覺數(shù)據(jù)格式。OpenAI通過降維的方法,保留原始圖像的縱橫比和分辨率,使畫面完整度更高,這一改進有助于模型更準確地捕捉視覺數(shù)據(jù)視頻生成模型的工作(如GAN、Autoregress視覺數(shù)據(jù)的尺寸大小比如裁剪成標準尺寸、時長為4秒、分辨率為256x256,而Sora可以直接使用Sora模型在視頻采樣的尺寸方面具備靈活性Sora模型在視頻采樣的尺寸方面具備靈活性于兩者之間的視頻。銜接視頻的能力換成夏季綠樹成蔭無人機和蝴蝶實現(xiàn)無縫銜接銜接視頻的能力換成夏季綠樹成蔭無人機和蝴蝶實現(xiàn)無縫銜接2.2.3其他能力:圖生視頻,視頻擴展/編輯/拼接/模擬等圖生視頻:可以將圖片轉(zhuǎn)化為動圖和視頻。視頻擴展:能在時間上向前或向后擴展視頻。例如在時間上向后延伸,視頻開頭不同,但結(jié)局相同。視頻編輯:擴散模型已有眾多根據(jù)文本提示編輯圖像和視頻的方法,可改變物體樣式和畫中環(huán)境等。銜接視頻:使用Sora在兩個輸入視頻之間逐步插值,實現(xiàn)不同的主題和場景視頻的靜態(tài)圖片變成動態(tài)視頻靜態(tài)圖片變成動態(tài)視頻3從Sora看文生視頻模型的影響1從1從Sora看文生視頻模型的技術(shù)路徑2從2從Sora看文生視頻模型的最新能力文生視頻模型通常在1B~20B之間推理算力影響因素文生視頻模型通常在1B~20B之間推理算力影響因素3.1算力端:參數(shù)擴展提升訓(xùn)練算力消耗,應(yīng)用落地拉動推理算力增長訓(xùn)練端:模型參數(shù)仍有擴展空間,訓(xùn)練算力消耗有望提升。從目前市場上的文生視頻模型來看,參數(shù)大小一般處于1B~20B之間,相較于千億甚至萬億參數(shù)級別的大語言模型而言,模型仍有擴展空推理端:未來應(yīng)用落地可期,推理算力需求持續(xù)增長。擴散模型包括大量的去噪步驟,擴散步驟帶來的算力消耗相較于大語言所需的推理算力需求更高。此外,在視頻生成的過程中,視頻需要轉(zhuǎn)換視頻的SequenceLength較文本模態(tài)更長視頻的清晰度越高,算力要求越大長視頻對連貫性和一致性的要求更高物理規(guī)則更好的理解要求更多的推理的算力消耗顯著高于大語言模型資料來源:《MakePixelsDance:Hi3.2應(yīng)用端:文生視頻模型拓寬應(yīng)用廣度,前期有望以助手角色落地大模型向多模態(tài)方向持續(xù)發(fā)展,AI應(yīng)用的廣度進一步拓寬。目前,OpenAI已向部分視覺藝術(shù)家、設(shè)計師和電影制作人提供訪問權(quán)限,以獲取專業(yè)的反饋。根據(jù)OpenAI內(nèi)測方向也代表了文生視頻模型應(yīng)用的重點領(lǐng)域,我們認為以Sora為代表的視頻生成模型有望給廣告業(yè)、設(shè)計業(yè)、電影業(yè)、短視頻行業(yè)、游戲行業(yè)帶來變化。成模型距離精確控制尚有一定差距,受制于精確控制的能力,Sora未來的落地形式更可能偏向于為創(chuàng)作工具對相關(guān)行業(yè)進行賦能。文生視頻模型對應(yīng)用領(lǐng)域的影響細分領(lǐng)域文生視頻潛在賦能方向短視頻視頻生成模型在視頻生成時長上較短劇和影視作品來看更能滿足實際需求,文生視頻模型有望降低短視頻創(chuàng)作門檻,提升創(chuàng)作效率,同時為長尾視頻內(nèi)容的生產(chǎn)提供更多的可能性。廣告主流的廣告素材更多地傾向于視頻模態(tài),文生視頻技術(shù)的進步有望提升視頻廣告生產(chǎn)效率。IP&社交幫助創(chuàng)建虛擬人,創(chuàng)作IP將變得更加簡單,成本低優(yōu)勢。游戲高性能帶寬的提升對游戲的提升效率會更高;可以幫助創(chuàng)建游戲Demo,提升團隊討論效率等。有望改變電影制作的傳統(tǒng)流程,例如減少對物理拍攝、場景搭建、特效制作等資源的依賴,降低電影制作成本,同時使個人創(chuàng)作者和小型團隊也有可能制作出具有專業(yè)水準的影視作品;AI主要是介入內(nèi)容生產(chǎn)和編輯的方式,對內(nèi)容創(chuàng)作流程的改變。AR/VR有助于打造虛擬生態(tài),為用戶帶來沉浸式的體驗;但AR/VR場景還需用到空間計算,用戶的設(shè)備定位對精度要求高。自動駕駛自動駕駛的進步仍需視覺系統(tǒng)的進一步發(fā)展,視覺系統(tǒng)還需識別地圖等三維深度信息,需要更精準地理解和識別世界。工業(yè)未來有望賦能3D和物理仿真等環(huán)節(jié)。資料來源:西南證券3.3其他:云服務(wù)將成算力重要補充,多媒體傳輸帶動光通信需求云服務(wù):模型廠商除購買大量算力以支撐AI服務(wù),同時還需使用云服務(wù)作為補充。在推理側(cè),AI模進一步提高市場對云服務(wù)的需求。光通信:隨著視頻生成模型的發(fā)展以及未來應(yīng)用的落地,數(shù)據(jù)中心之間將進行更多的視頻等多媒體信息的傳輸,對傳輸帶寬的要求和穩(wěn)定性的要求更高,光通信需求有望大幅提升。為應(yīng)對未來大模型的升級迭代和大規(guī)模應(yīng)用,需要更高性能的網(wǎng)絡(luò)帶寬和更低的延遲,以支持更復(fù)雜的網(wǎng)絡(luò)需求。市場對交換機、光模塊、光芯片等基礎(chǔ)設(shè)施的需求也將持續(xù)增長。AIAI工作負載需要高有效帶寬的低延遲網(wǎng)絡(luò)1.6T光模塊需求有望增長風(fēng)險提示技術(shù)進展不及預(yù)期風(fēng)險;行業(yè)競爭加劇風(fēng)險;應(yīng)用開發(fā)不及預(yù)期風(fēng)險。電話箱:wxj@西南證券研究發(fā)展中心西南證券研究發(fā)展中心西南證券投資評級說明報告中投資建議所涉及的評級分為公司評級和行業(yè)評級(另有說明的除外)。評級標準為報告發(fā)布日后6個月內(nèi)的相對市場表現(xiàn),即:以報告發(fā)布日后6個月內(nèi)公司股價(或行業(yè)指數(shù))相對同期相關(guān)證券市場代表性指數(shù)的漲跌幅作為基準。其中:A股市場以滬深300指數(shù)為基準,新三板市場以三板成指(針對協(xié)議轉(zhuǎn)讓標的)或三板做市指數(shù)(針對做市轉(zhuǎn)讓標的)為基準;香港市場以恒生指數(shù)為基準;美國市場以納斯達克綜合指數(shù)或標普500指數(shù)為基準。評級買入:未來6個月內(nèi),個股相對同期相關(guān)證券市場代表性指數(shù)漲幅在20%以上持有:未來6個月內(nèi),個股相對同期相關(guān)證券市場代表性指數(shù)漲幅介于10%與20%之間中性:未來6個月內(nèi),個股相對同期相關(guān)證券市場代表性指數(shù)漲幅介于-10%與10%之間回避:未來6個月內(nèi),個股相對同期相關(guān)證券市場代表性指數(shù)漲幅介于-20%與-10%之間賣出:未來6個月內(nèi),個股相對同期相關(guān)證券市場代表性指數(shù)漲幅在-20%以下評級強于大市:未來6個月內(nèi),行業(yè)整體回報高于同期相關(guān)證券市場代表性指數(shù)5%以上跟隨大市:未來6個月內(nèi),行業(yè)整體回報介于同期相關(guān)證券市場代表性指數(shù)-5%與5%之間弱于大市:未來6個月內(nèi),行業(yè)整體回報低于同期相關(guān)證券市場代表性指數(shù)-5%以下分析師承諾分析師承諾報告署名分析師具有中國證券業(yè)協(xié)會授予的證券投資咨詢執(zhí)業(yè)資格并注冊為證券分析師,報告所采用的數(shù)據(jù)均來自合法合規(guī)渠道,分析邏輯基于分析師的職業(yè)理解,通過合理判斷得出結(jié)論,獨立、客觀地出具本報告。分析師承諾不曾因,不因,也將不會因本報告中的具體推薦意見或觀點而直接或間接獲取任何形式的補償。重要聲明西南證券股份有限公司(以下簡稱“本公司”)具有中國證券監(jiān)督管理委員會核準的證券投資咨詢業(yè)務(wù)資格。本公司與作者在自身所知情范圍內(nèi),與本報告中所評價或推薦的證券不存在法律法規(guī)要求披露或采取限制、靜默措施的利益沖突?!蹲C券期貨投資者適當(dāng)性管理辦法》于2017年7月1日起正式實施,本報告僅供本公司簽約客戶使用,若您并非本公司簽約客戶,為控制投資風(fēng)險,請取消接收、訂閱或使用本報告中的任何信息。本公司也不會因接收人收到、閱讀或

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論