版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
Abstract摘要訓(xùn)練側(cè)來看,Sora的算力成本理論計算值約為GPT-4的10倍。根據(jù)我們測算,若Sora基于現(xiàn)實世界所貢獻視頻的一定比例訓(xùn)練,且輸入數(shù)據(jù)考慮特定比例的時間壓縮、圖像分辨率不壓縮,Sora的訓(xùn)練算力成本理論計算值可能達到約10倍GPT-4的水平,其主要原因源自于長token的問題,參數(shù)所貢獻的計算量并不高(僅30B)。細(xì)化來看,若1920*1080分辨率視頻僅進行幀率壓縮,1min視頻所轉(zhuǎn)化到潛在空間內(nèi)的patch可能高達百萬級別(即1Mtoken),長token導(dǎo)致的計算量大幅度上升是transformer架構(gòu)模型難以避免的問題。雖然我們的理論推導(dǎo)得出Sora訓(xùn)練成本高于GPT-4的結(jié)論,但實際來看,因單位算力成本高,我們認(rèn)為OpenAI可能結(jié)合一些節(jié)省訓(xùn)練成本來獲得高質(zhì)量模型(如結(jié)合高質(zhì)量大規(guī)模的數(shù)據(jù)標(biāo)記、或結(jié)合低分辨率長視頻+高分辨率短視頻訓(xùn)練的方式),算力消耗的實際值可能會低于我們的理論計算值,這是當(dāng)下大模型企業(yè)所努力的方向。推理側(cè)來看,Sora的算力成本理論計算值高達約GPT-4的2000倍。由于擴散類模型去噪過程需要多步迭代、視頻一致性問題需長token的一次性輸出,以大語言類模型處理2ktokens,與文生視頻模型生成1min視頻做對比來看,我們得到Sora的推理算力成本的理論計算值可能會是GPT-4的2000倍,我們認(rèn)為這需要算力性能更強的芯片來支撐;同時,當(dāng)前主流GPU單機8卡推理可能面臨算力不足的問題,文生視頻模型在推理端需更大規(guī)模的AI芯片集群支持推理,有望帶來光模塊、交換機等設(shè)備需求。積極關(guān)注可能節(jié)約算力的技術(shù)方向。Transformer對于長文本的自注意力機制的計算量會隨著上下文長度的增加呈平方級增長是既定事實,但我們近期也看到,如Mamba采用了可擴展性更強的狀態(tài)空間模型(SSM)主干替代了傳統(tǒng)架構(gòu)中的注意力機制,可以使用更少的算力,生成高分辨率圖像。風(fēng)險大模型技術(shù)發(fā)展不及預(yù)期;Transformer主流技術(shù)路線發(fā)生變化,理論計算可能與實際存在差異。Text正文認(rèn)識Sora:世界模擬器,AGI里程碑Sora:具備1分鐘較長視頻生成能力,引領(lǐng)文生視頻應(yīng)用實現(xiàn)跨越式發(fā)展近期,OpenAI發(fā)布首個文生視頻模型Sora,引致市場廣泛關(guān)注。在輸入簡短文本后,Sora能夠生成包含多個角色、特定運動類型以及主體和背景準(zhǔn)確細(xì)節(jié)的復(fù)雜場景。除文生視頻外,Sora也可以執(zhí)行廣泛的圖像和視頻編輯任務(wù)——文生圖片(根據(jù)提示生成圖像)、圖生視頻(為靜態(tài)圖像添加動畫)、視頻拼接(通過插值連接輸入的兩個視頻)、視頻編輯(根據(jù)輸入的指示及基礎(chǔ)視頻,更改視頻風(fēng)格與環(huán)境),視頻擴展(向前或向后延長視頻的時間)等。Sora的表現(xiàn)超越了市面上其他文生視頻模型,如Gen2(由Runaway開發(fā))、Pika1.0(由Pika開發(fā))、StableVideoDiffusion(由Stabilityai開發(fā))、VideoPoet(由Google開發(fā))等,其優(yōu)勢主要體現(xiàn)為以下幾點:?生成視頻時間長。Sora可以生成長達1分鐘的視頻,超越了VideoPoet的10s時長極限,而主流短視頻平臺TikTok中短視頻最佳時長為21-34秒,表明Sora已具備可觀的商業(yè)化落地價值;?文字理解能力強。Sora利用GPT將用戶的簡短提示轉(zhuǎn)換成更長的詳細(xì)說明,然后發(fā)送給視頻模型,因此Sora能準(zhǔn)確解釋提示,并生成能表達生動情感的引人注目的角色;?視頻穩(wěn)定性、一致性、流暢度大幅提升。在以往文生視頻模型生成的視頻中,常出現(xiàn)背景或主體混亂、怪異的情形,而Sora給出的視頻樣例中,視頻中的人物或物體均保持穩(wěn)定。Sora還能在單個生成的視頻中創(chuàng)建多個鏡頭,準(zhǔn)確地體現(xiàn)角色和視覺風(fēng)格;?對現(xiàn)實世界的模擬能力。Sora能夠在一定程度上理解和模擬真實世界的物理運動,因此Sora被OpenAI稱為世界模擬器,我們認(rèn)為該模型有望是實現(xiàn)AGI的重要里程碑。圖表1:主流文生視頻模型對比資料來源:OpenAI官網(wǎng),Runway官網(wǎng),Pika官網(wǎng),Stabilityai官網(wǎng),谷歌官網(wǎng),iFinD,中金公司研究部Sora模型結(jié)構(gòu):視頻編解碼+擴散模型+語言模型,探索Scalingup邊界根據(jù)OpenAI發(fā)布的Sora技術(shù)報告,我們推測Sora模型由視頻編解碼模型(VAE等)、DiT模型(DiffusionTransformer)、語言模型(LLM)三部分組成,各部分具體作用如下:?視頻編碼/解碼模型:我們推測Sora利用VAE模型進行視頻數(shù)據(jù)編解碼。Sora利用編碼器,將原視頻壓縮到低維潛在空間,并輸出為時間和空間的潛在表示,即降維為Patch序列,而后輸入潛在空間(LatentSpace),然后利用DiT(DiffusionTransformer)模型在這一空間中訓(xùn)練、生成視頻;訓(xùn)練完成后,利用解碼器將DiT模型生成的潛在表示映射回像素空間,使壓縮的視頻數(shù)據(jù)轉(zhuǎn)換為高質(zhì)量的視頻格式。?DiT模型:Sora利用DiT模型在潛在空間內(nèi)對降維后的數(shù)據(jù)進行訓(xùn)練。擴散模型(Diffusionmodel)訓(xùn)練的原理主要為通過連續(xù)添加高斯噪聲來破壞訓(xùn)練數(shù)據(jù),然后通過逆轉(zhuǎn)擴散過程來學(xué)習(xí)恢復(fù)數(shù)據(jù)。DiT模型是PeeblesWilliam和SainingXie在2023年的研究成果[1],OpenAI在技術(shù)分析中引用了該篇論文。我們認(rèn)為,在Sora的應(yīng)用中,DiT模型的訓(xùn)練流程為給定上述提到的輸入的噪聲Patch(和像文本提示這樣的條件信息)來預(yù)測原始的“干凈”Patch。?語言模型:Sora利用GPT將用戶的簡短提示轉(zhuǎn)換成更長的詳細(xì)說明。具體而言,Sora將用戶的提示詞通過GPT進行擴寫成更為詳細(xì)的說明文字,并轉(zhuǎn)換為文本向量,作為條件信息與視覺Patch一并輸入潛在空間,這使得Sora能夠生成高質(zhì)量的視頻,準(zhǔn)確地遵循用戶的提示;此外,Sora利用OpenAI自行訓(xùn)練的標(biāo)注模型(captionermodel)對全部訓(xùn)練集數(shù)據(jù)生成文字標(biāo)題。根據(jù)Sora技術(shù)報告,OpenAI將DALL·E3中應(yīng)用的重新標(biāo)注技術(shù)(re-captioningtechnique)應(yīng)用到視頻上。OpenAI自行訓(xùn)練了具有較強表達力的標(biāo)注模型,并借此為訓(xùn)練集中的所有視頻生成文字標(biāo)題,并發(fā)現(xiàn)詳細(xì)標(biāo)注后的數(shù)據(jù)可以提高文本的準(zhǔn)確性以及視頻的整體質(zhì)量。圖表2:DiT模型架構(gòu)資料來源:Peebles,William,andSainingXie:"Scalablediffusionmodelswithtransformers."ProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision.2023.圖表3:Sora模型架構(gòu)的猜測資料來源:OpenAI官網(wǎng),中金公司研究部我們看到,Sora是對生成式模型的ScalingLaw的進一步嘗試和有力證明。ScalingLaw(規(guī)模效應(yīng))是OpenAI于2020年提出的概念[2],其主要內(nèi)容為:對于基于transformer的語言模型,其最終性能主要與計算量(與模型參數(shù)量和數(shù)據(jù)集規(guī)模線性相關(guān))有關(guān)。遷移到多模態(tài)領(lǐng)域,ScalingLaw依舊存在。Sora的骨干架構(gòu)為DiT[3]模型,而提出DiT模型的論文同樣證明了ScalingLaw的存在,即伴隨計算量(Gflops)增大(模型變大或Patch劃分更為精細(xì)),模型效果有所提升,即擴散模型可以從架構(gòu)統(tǒng)一趨勢中受益。我們認(rèn)為,人們一直在尋找一個標(biāo)準(zhǔn)化模型(世界模型),試圖通過規(guī)模增大(scaleup)來獲得更強的通識能力。根據(jù)OpenAI的技術(shù)報告,OpenAI此次實驗是基于視頻數(shù)據(jù)的large-scaling探索,而Sora作為規(guī)模最大的模型,其不尋常的生成能力,表示此次探索再次有力印證了ScalingLaw。技術(shù)報告指出,Sora在提升模型的規(guī)模的同時,模型出現(xiàn)了模擬現(xiàn)實世界中人類、動物和環(huán)境的能力,例如3D一致性、長距離一致性、人與物體的互動性、數(shù)字世界模擬能力等,并提出伴隨模型規(guī)模持續(xù)擴大,Sora對于物理和數(shù)字世界及其內(nèi)部的物體、動物和人類的模擬能力有望持續(xù)提升,最終成為世界的“通用模擬器”。我們認(rèn)為,在Scalinglaw持續(xù)有效的前提下,為達到更為強大的視頻生成能力,在以Sora為代表的文生視頻模型持續(xù)迭代過程中,模型規(guī)模擴張將成為大勢所趨,所需算力規(guī)模也將隨之增長,對硬件提出更高要求,在下文中我們會呈現(xiàn)具體分析說明。圖表4:DiT模型從一定程度上表征了其具有規(guī)模效應(yīng)資料來源:Peebles,William,andSainingXie:"Scalablediffusionmodelswithtransformers."ProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision.2023.信息輸入:Sora圖塊化的過程及訓(xùn)練所使用的數(shù)據(jù)量預(yù)估在討論訓(xùn)練所需算力之前,我們首先需要關(guān)注Sora對輸入數(shù)據(jù)的重要操作步驟——即圖塊化(Patchify)的過程,創(chuàng)新意義上來看,Sora以其輸入視頻分辨率、時長、單幀長寬比都可變等一系列特征廣泛受到關(guān)注。我們認(rèn)為,Sora對輸入圖像(視頻)操作的基本的思路與DiT模型思路保持一致,將圖像圖塊化(patchify)后送入隱空間(latentspace)去進行Transformer網(wǎng)絡(luò)計算,如圖5所示。但是,我們認(rèn)為對輸入圖像實現(xiàn)精準(zhǔn)處理是個很復(fù)雜的過程,在這一過程中,Sora模型可能借鑒了諸多前人的研究基礎(chǔ)。圖表5:Sora實現(xiàn)圖塊化(Patchify)的過程示意資料來源:OpenAI官網(wǎng),中金公司研究部我們看到,先前DiT[4]模型使用了StableDiffusion中預(yù)訓(xùn)練好的KL-f8作為autoencoder,對于256x256x3的圖像(由于訓(xùn)練數(shù)據(jù)集采用ImageNet,其固定分辨率為256*256,加上RGB三通道),其壓縮得到的latent空間大小為32x32x4(對應(yīng)patchsize8*8),以此降低了擴散模型的計算量。DiT論文中指出,更小的patchsizep會帶來輸入tokens長度的增加,進而增加GFlops(即計算量)。但正如上文所述,更大的Gflops會帶來更佳優(yōu)異的模型生成質(zhì)量(FID)的表現(xiàn)。我們在后文計算中,會類比DiT模型的方式來對Sora的輸入視頻圖塊化。圖表6:DiT模型實現(xiàn)圖塊化(Patchify)的詳細(xì)操作流資料來源:Peebles,William,andSainingXie:"Scalablediffusionmodelswithtransformers."ProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision.2023.,中金公司研究部OpenAI對于Sora的技術(shù)分析中指出,Sora支持原始寬高比進行訓(xùn)練。而在之前,我們看到采用正方形或一定分辨率裁剪視頻的方式居多。我們認(rèn)為,固定格式的圖像輸入雖然保證了硬件高效的處理、以及滿足卷積神經(jīng)網(wǎng)絡(luò)(CNN)過往存在的架構(gòu)限制,但固定格式的圖像會帶來一系列的損傷模型性能、或者處理效率低下的問題。我們看到,OpenAI的Sora引用了NaViT[5]模型的研究成果,我們認(rèn)為其可能在模型中使用了sequencepacking的類似方式,來處理任意分辨率和寬高比的輸入(根據(jù)NaViT模型作者所述,NaViT將來自不同圖像的多個圖塊打包在一個序列中,稱為“Patchn'Pack”),這樣可以在保留寬高比的同時實現(xiàn)可變分辨率。由此一來,Sora能夠有效地處理各種視覺數(shù)據(jù),而無需調(diào)整大小或填充等預(yù)處理步驟。我們認(rèn)為,Sora之所以能實現(xiàn)突破,與其訓(xùn)練時保留原始的寬高比和分辨率很重要,這使得Sora可以捕捉到視覺數(shù)據(jù)的真正本質(zhì),并促使模型在更為準(zhǔn)確的表達中學(xué)習(xí)。若使用正方形裁剪輸入的模型,難免會遇到視頻只生成中間圖像主體的情況。圖表7:NaViT實現(xiàn)Patchn'Pack的方法示意資料來源:DehghaniM,MustafaB,DjolongaJ,etal.Patchn’pack:Navit,avisiontransformerforanyaspectratioandresolution[J].AdvancesinNeuralInformationProcessingSystems,2024,36.,中金公司研究部我們試圖從較為簡化的理想情況,來計算Sora模型采用現(xiàn)實世界數(shù)據(jù)訓(xùn)練可能面臨的數(shù)據(jù)量大小。我們假設(shè)每分鐘Youtube視頻上傳量為500小時,那么每年Youtube的視頻時長為500*60*24*365*60≈158億分鐘,但實際上訓(xùn)練視頻需要高質(zhì)量視頻數(shù)據(jù),且伴隨大量的同步數(shù)據(jù)標(biāo)注,因此我們假設(shè)Sora會采用全年百分之一的數(shù)據(jù)進行訓(xùn)練。時間上,由于高清視頻實際幀率高達30FPS-60FPS,為了避免過度龐大的計算量,Sora在時間維度上應(yīng)采用了T->t的壓縮,且壓縮比例應(yīng)該不低,我們假設(shè)壓縮系數(shù)為4。在采用高清圖像(1920*1080)原分辨率的情況下,假設(shè)32*32的patch大小,經(jīng)過我們計算1分鐘的視頻可能被拆分成的patch數(shù)量多達近100萬個(如果完全效仿DiT模型采用p=8來拆分,那么實際對應(yīng)的patch數(shù)量將可能達到千萬級別,后續(xù)我們還會討論如果patchsize較小的情況該如何處理)。我們認(rèn)為,百萬級別的patch構(gòu)成的長token將會對計算量帶來較大挑戰(zhàn)。圖表8:若基于現(xiàn)實世界數(shù)據(jù)訓(xùn)練,我們預(yù)計Sora使用的數(shù)據(jù)量可能多達每分鐘百萬token級別資料來源:Peebles,William,andSainingXie."Scalablediffusionmodelswithtransformers."ProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision.2023.,中金公司研究部訓(xùn)練成本:Sora的理論計算值約為GPT-4的10倍我們看到,由于Sora是基于DiT的模型,其核心同樣是Transformer的架構(gòu),且單個樣本在每個訓(xùn)練步驟中是隨機選擇一個時間點來計算損失,而不是連續(xù)多次采樣,所以若忽略掉相對較少量的VideoEncoder/Decoder計算,其計算量的預(yù)估是可以與GPT的訓(xùn)練計算量使用相同的公式的。但是,由于在Sora實際使用的情況下,連續(xù)視頻輸入所帶來的token長度已經(jīng)達到1M級別(以1min視頻為例),注意力機制的計算項已不可忽略,且這一項內(nèi)容所帶來的,相比短tokens輸入下算力開銷增量將與Token的長度存在線性關(guān)系。在30B左右模型參數(shù)、1M的token長度假設(shè)下,我們測算整個注意力機制項所帶來算力開銷增量約為14倍,即整體計算量為原先C≈6ND假設(shè)下的15倍。如果我們不考慮輸入時token的截短,那么因長token所帶來的附加計算量確實是明顯提升的。結(jié)合我們上文對輸入token的預(yù)測,我們認(rèn)為在不考慮時間要求、只考慮計算量的情況下,完全采用現(xiàn)實世界數(shù)據(jù)來訓(xùn)練Sora可能得到大約10倍于GPT-4的訓(xùn)練成本。若結(jié)合時間要求考慮(Sora計算量大、訓(xùn)練時間上給予相對寬松的假設(shè))、及當(dāng)下GPU算力成本,我們測算采用全現(xiàn)實世界數(shù)據(jù)訓(xùn)練Sora所需成本可能會達到10億美元以上水平(相較GPT-4為1億美元量級)。圖表9:Transformer架構(gòu)模型總計算開銷計算公式資料來源:JaredKaplan,SamMcCandlish,etal.,“ScalingLawsforNeuraLanguagModels”,2020.,中金公司研究部圖表10:Soravs.GPT-4,訓(xùn)練成本對比資料來源:Peebles,William,andSainingXie."Scalablediffusionmodelswithtransformers."ProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision.2023.,中金公司研究部由于OpenAI至今未以論文形式公布Sora模型的技術(shù)細(xì)節(jié),我們認(rèn)為Sora訓(xùn)練的所需的計算量可能我們上述理論計算有所出入,舉例來看:Sora訓(xùn)練的實際計算量可能小于我們前文所計算的情況,如Sora模型可不使用全量數(shù)據(jù)訓(xùn)練。例如,在有些語言類模型中,SequenceLength并不會達到1Mtoken這樣的長度,兼顧經(jīng)濟性與模型效果的做法是大部分訓(xùn)練集數(shù)據(jù)采用4ktoken這樣的SequenceLength進行訓(xùn)練,最后再基于訓(xùn)練好的模型,針對小部分訓(xùn)練集數(shù)據(jù)將SequenceLength擴展至1Mtoken長度進行訓(xùn)練。遷移到Sora模型中,Sora模型可能與之LLM邏輯類似。這樣的情況下Sora的訓(xùn)練計算量公式符合ScalingLaw的前提(忽略注意力機制的計算),總訓(xùn)練計算量為C≈6ND,此時若Token大小同樣為32*32,則訓(xùn)練所需總計算量為前文計算總額的十五分之一;此時若Token大小為8*8(更小顆粒度的patch,前后在patch的數(shù)量上差距16倍),則訓(xùn)練所需總計算量與我們前文的計算量基本相符。另一方面,Sora在訓(xùn)練中可能采用了大量的高質(zhì)量標(biāo)注,增大了計算量但減少了訓(xùn)練樣本數(shù)量。據(jù)前文所述,OpenAI在訓(xùn)練Sora時將DALL·E3中應(yīng)用的重新標(biāo)注技術(shù)(re-captioningtechnique)應(yīng)用到視頻上,為訓(xùn)練集中的所有視頻生成文字說明,來補償訓(xùn)練集本身的數(shù)據(jù)不足,并發(fā)現(xiàn)在高度描述性的視頻描述上進行訓(xùn)練可以提高文本的準(zhǔn)確性以及視頻的整體質(zhì)量。根據(jù)DALL·E3技術(shù)報告,DALL·E3的圖像描述模型(ImageCaptioner)借鑒的是Google的CoCa模型。由于圖像描述模型較為復(fù)雜,且數(shù)據(jù)標(biāo)注并不是Sora模型架構(gòu)的重點,因此我們在計算時并未考慮圖像及視頻描述模型所需訓(xùn)練計算量。此外,前文也提及到,Sora會利用GPT將用戶的簡短提示轉(zhuǎn)換成更長的詳細(xì)說明,并轉(zhuǎn)換為文本向量,作為條件信息與視覺Patch一并輸入潛在空間,使得Sora能夠生成高質(zhì)量的視頻,準(zhǔn)確地遵循用戶的提示。由于GPT擴寫文字也并不是Sora計算的重點,我們也未針對這一部分訓(xùn)練計算量進行計算。因此結(jié)合以上兩點考慮,訓(xùn)練Sora時的實際計算量可能大于我們所計算的情況,但高質(zhì)量的數(shù)據(jù)標(biāo)注有可能節(jié)約了訓(xùn)練樣本數(shù)量。此外,我們也看到,一些新架構(gòu)如Mamba的提出,能夠進一步實現(xiàn)用更少算力生成更高分辨率圖像的目標(biāo)。Transformer已成為當(dāng)今多模態(tài)大模型領(lǐng)域的主流架構(gòu),但伴隨模型規(guī)模的擴張和輸入文本長度、圖像分辨率的提升,其基于注意力機制的局限性也愈加突出,具體來看,Transformer對于長文本的自注意力機制的計算量會隨著上下文長度的增加明顯增長,大大降低了計算效率。Mamba的提出打破了這一局限,這一新架構(gòu)主要基于選擇性狀態(tài)空間模型(SelectiveStateSpaceModel),相較于Transformer,Mamba簡化了模型結(jié)構(gòu),去掉了傳統(tǒng)的注意力和MLP模塊,利用SSM更高效地捕獲信息,并在序列長度方面實現(xiàn)了線性時間運行,尤為適合長信息序列的處理,體現(xiàn)出良好的可擴展性[7]。在論文中,作者提到Mamba在語言、音頻和基因序列等多模態(tài)模型中表現(xiàn)突出,在語言建模方面,Mamba-3B在預(yù)訓(xùn)練和下游評估方面都優(yōu)于同等大小的Transformer,其性能與兩倍規(guī)模大小的Transformer相匹配。同時,論文還指出,相較于同等規(guī)模大小的Transformer,Mamba擁有高達4-5倍的推理吞吐量,這是由于Mamba沒有KV緩存,可以設(shè)置更大的BatchSize。我們認(rèn)為,Mamba借助架構(gòu)優(yōu)化大幅提升了預(yù)訓(xùn)練與推理時的算力利用效率,有望進一步降低模型訓(xùn)練與部署的硬件成本。圖表11:Sora的數(shù)據(jù)標(biāo)注實例資料來源:OpenAI官網(wǎng)推理成本:Sora的理論計算值約為GPT-4的2000倍在計算推理所需計算量之前,我們認(rèn)為首先需要了解Diffusion模型與GPT-4類大語言模型在推理過程中所呈現(xiàn)的差異點。作為圖片生成/視頻生成的主要模型之一,Diffusion模型主要工作流程分為兩個過程:加噪和去噪。因此,Diffusion模型在推理生成圖片的過程中需要反復(fù)迭代來生成圖片信息,其中每步迭代都在完善圖像信息。經(jīng)典模型StableDiffusion推理時迭代步數(shù)通常設(shè)置為30-50次,后經(jīng)過算法優(yōu)化可以降低到20次左右,而語言類模型GPT-4則無需多次迭代即可輸出結(jié)果。圖表12:擴散模型的技術(shù)細(xì)節(jié)示例資料來源:CSDN,中金公司研究部結(jié)合OpenAI公開展示的能力,我們以1min高清視頻生成作為Sora的標(biāo)準(zhǔn)任務(wù)量,與GPT-4模型輸入(prompt)+輸出2ktokens的標(biāo)準(zhǔn)任務(wù)量做推理成本的比對。基于我們在訓(xùn)練過程中所得到的結(jié)論,1min高清視頻所對應(yīng)的token數(shù)量約長達1M,因此在推理環(huán)節(jié)來看,不考慮反向傳播,也將因為長token的原因?qū)е伦罱K的近似結(jié)果發(fā)生變化,除非考慮短token的輸出+拼接的方式可能會節(jié)省注意力機制所產(chǎn)生的運算量,但由于最終面對的是視頻生成類應(yīng)用,拼接token的操作可能會影響視頻的連貫性與一致性。所以我們認(rèn)為,在推理側(cè)理論計算Sora所需算力時,原GPT-4所用公式C≈2ND的結(jié)果將放大為C≈30ND(在30B參數(shù),1Mtoken長度假設(shè)下)。此外,在GPU利用率方面,我們并沒有采用與訓(xùn)練應(yīng)用下相同的假設(shè)(我們在訓(xùn)練側(cè)假設(shè)Sora與GPT-4的GPU算力集群利用率均為40%),其主要原因是,GPT-4是自回歸模型,其decoder-only架構(gòu)在生成token階段對訪存的需求要遠高于計算需求,也就是在推理吞吐量不大情況下,采用高端訓(xùn)練卡直接進行推理其算力利用率會是相當(dāng)?shù)偷乃?,我們假設(shè)其算力利用率只有10%。而對于DiT結(jié)構(gòu)的Sora來看,其屬于計算密集型應(yīng)用,對算力的開銷更大,因此我們假設(shè)Sora在GPU資源上執(zhí)行單任務(wù)推理時,算力利用率會明顯高于GPT-4。在不考慮允許時延情況下,我們理論計算得到Sora推理1min高清視頻的成本可能是GPT-4生成2ktoken的2000倍左右(如果不考慮算力利用率的差異,這個數(shù)字會達到萬倍級別),視頻推理成本可能接近100美元。若考慮生成1min視頻時延同樣為1min的情況下,我們測算所需要的GPU數(shù)量與3s內(nèi)生成2ktoken的語言類模型相比也有百倍的差距,我們認(rèn)為這可能會對當(dāng)下單機單卡、單機多卡推理的現(xiàn)實配置帶來較大改變,未來多機多卡推理可能會成為多模態(tài)大模型的標(biāo)準(zhǔn)需求。圖表13:Soravs.GPT-4,推理成本對比資料來源:Peebles,William,andSainingXie."Scalablediffusionmodelswithtransformers."ProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision.2023.,中金公司研究部歸納總結(jié):算力需求增長趨勢確定,但降本趨勢同樣迫切通過以上研究,我們把得到的相關(guān)結(jié)論總結(jié)為以下幾點:?
Sora基于DiffusionTransformer模型,我們認(rèn)為在忽略Videoencoder-decoder的算力需求時,對于整體模型訓(xùn)練/推理算力的計算可延續(xù)之前GPT-4的類似方法,但由于Tokens的序列長度較長,因此對于C≈6ND的公式要有修正,導(dǎo)致計算量增加較多(attention機制的交叉計算不可忽略)。?
對于訓(xùn)練來看,我們通過理論計算得到,完全基于現(xiàn)實世界數(shù)據(jù)訓(xùn)練Sora的整體成本約為GPT-4的10倍左右(未來Sora迭代可能會使得算力需求繼續(xù)增加),主要原因是長token帶來attention機制計算量的不可忽略,以及token數(shù)本身的增長。當(dāng)然,我們認(rèn)為合理壓縮視頻,裁剪長token等方法都可能帶來算力需求的下降,但要同時保證模型的性能是有難度的。此外,我們認(rèn)為結(jié)合OpenAI先前所開發(fā)的大模型進行一定的高質(zhì)量標(biāo)注可優(yōu)化訓(xùn)練樣本數(shù),但本身標(biāo)注也會帶來一定的算力開銷。?
對于推理來看,1分鐘高清視頻推理的成本可能為2ktoken對應(yīng)文字推理任務(wù)的2000倍之多,主要原因是Diffusion結(jié)構(gòu)的多steps過程,以及長token帶來的attention機制計算量不可忽略。在視頻類生成應(yīng)用來看,輸出短token拼接的方式雖然節(jié)省計算量,但可能會帶來視頻前后一致性、穩(wěn)定性的問題。從我們給定時延假設(shè)的結(jié)果來看,由于Sora推理計算量遠大于之前需求,因此我們認(rèn)為Sora需要大算力的推理芯片,且多機多卡推理可能成為普遍場景,與以前LLM模型單機單卡的形式呈現(xiàn)差異,可能會拉動光模塊/交換芯片需求。?
Sora的優(yōu)秀能力從一定程度上顯示了ScalingLaws由語言類大模型擴展到了多模態(tài)模型。我們認(rèn)為,在相關(guān)模型繼續(xù)向前迭代的過程中,算力需求增長也有望進入新的階段。但鑒于當(dāng)下單位算力成本依然較高,降本也是大模型廠商的呼吁,因此研究人員在考慮采用更強的狀態(tài)空間模型(SSM)主干替代傳統(tǒng)架構(gòu)中的注意力機制,來減少計算量。向前看,我們認(rèn)為“世界模型”依然少不了算力的支撐,“以價換量”模式也有望推動算力芯片市場規(guī)模再創(chuàng)新高。風(fēng)險大模型技術(shù)發(fā)展不及預(yù)期。大模型技術(shù)難度高,發(fā)展需要大量持續(xù)的研發(fā)投入,且研發(fā)成果產(chǎn)出具有不確定性。如果大模型技術(shù)發(fā)展出現(xiàn)不及預(yù)期的情況,進而有可能影響對算力的需求。Transformer主流技術(shù)路線發(fā)生變化。我們看到,Transformer是目前大模型領(lǐng)域主流的技術(shù)路線,且Transformer架構(gòu)已經(jīng)從語言類模型擴展到文生視頻等多模態(tài)大模型中,并展現(xiàn)出了一定的擴展能力。如果未來整個大模型的主流技術(shù)路線與當(dāng)前發(fā)生偏離,ScalingLaw
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 技能大賽心得
- 開學(xué)第一課觀后感集錦15篇
- 感恩的講話稿匯編15篇
- 開業(yè)慶典致辭(匯編15篇)
- 公司整體操作流程
- 手術(shù)室基礎(chǔ)知識操作管理
- 全面推進依法治國的總目標(biāo)和原則+導(dǎo)學(xué)案 高中政治統(tǒng)編版必修三政治與法治+
- 慶祝圣誕節(jié)活動策劃方案(7篇)
- 家長講話稿合集15篇
- 面向雷達的智能化干擾策略優(yōu)化技術(shù)研究
- 2025年人教五四新版八年級物理上冊階段測試試卷含答案
- 2025年春季1530安全教育記錄主題
- 礦山2025年安全工作計劃
- 2025年包裝印刷項目可行性研究報告
- 企業(yè)融資報告特斯拉成功案例分享
- 給客戶的福利合同(2篇)
- 銷售調(diào)味品工作總結(jié)5篇
- 2024年江蘇省勞動合同條例
- 供電企業(yè)輿情的預(yù)防及處置
- 【高中語文】《氓》課件++統(tǒng)編版+高中語文選擇性必修下冊
- T-WAPIA 052.3-2023 無線局域網(wǎng)設(shè)備技術(shù)規(guī)范 第3部分:接入點和控制器
評論
0/150
提交評論