




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
行業(yè)動態(tài)報(bào)告●行業(yè)動態(tài)報(bào)告●計(jì)算機(jī)行業(yè).Sora算力需求將呈指數(shù)級增長,帶動算力基礎(chǔ)設(shè)施需求。北京時(shí)間2月16日凌晨,OpenAI發(fā)布了首個(gè)文生視頻模型Sora,可以用文字指令生成長達(dá)60秒的高清流暢視頻,在生成視頻長度、連貫性、多鏡頭切換方面具備顯著優(yōu)勢。本文基于大語言模型推導(dǎo)算力需求方法,對Sora單次訓(xùn)練算力需求進(jìn)行推演,據(jù)相關(guān)研究推測,Sora參數(shù)規(guī)模估算在30B(待確認(rèn)如果按此參數(shù)GPT-3175B的8.2倍。我們認(rèn)為,目前準(zhǔn)確模擬物理運(yùn)動規(guī)律及場景、混淆左右方向、混淆空間細(xì)節(jié)等,但伴隨Sora不斷迭代調(diào)優(yōu),訓(xùn)練數(shù)據(jù)集規(guī)模增大,未來算力需求將呈現(xiàn)指數(shù)級爆發(fā)式增長,持續(xù)看好上游算力基礎(chǔ)設(shè)施投資機(jī)會。DiT(DiffusionTransformer,擴(kuò)散變換器)的模型搭建,同時(shí)采用了Diffusion與Transformer,是一種用于擴(kuò)散模型的新架構(gòu)。Sora受到大語言模型的啟發(fā),成為一種基于擴(kuò)散變換的模型DiT,趨于標(biāo)準(zhǔn)Transformer架構(gòu),同時(shí)保留其可擴(kuò)展性。與大語言模型將文本轉(zhuǎn)換為可被理解的token類似,Sora將視頻轉(zhuǎn)換成一系列Patch(視覺編碼塊)并將其進(jìn)行降維,用Patch作為視覺圖像統(tǒng)一表現(xiàn)形式,將噪聲通過去噪來預(yù)測原始圖像信息,進(jìn)而生成視頻。.Sora實(shí)現(xiàn)跨越式提升,文生視頻大模型開啟新紀(jì)元。Sora可換成長達(dá)60秒視頻,相對于此前文生視頻大模型Runway、Pika、StableVideo等提升幾個(gè)級別。同時(shí)在視頻分辨率以及質(zhì)量方面,Sora可以生成1080P清晰度視頻,并且能夠相對完整實(shí)現(xiàn)對世界及物體運(yùn)動規(guī)律理解及模擬,在鏡拼接等,是文生視頻領(lǐng)域突破性技術(shù)變革。.投資建議:Sora是人工智能發(fā)展進(jìn)程中的“里程碑”,推動AGI時(shí)代加速到來,算力需求將持續(xù)爆發(fā),持續(xù)看好產(chǎn)業(yè)鏈投資機(jī)會。建議重點(diǎn)關(guān)注國內(nèi)上基礎(chǔ)設(shè)施:工業(yè)富聯(lián)、中科曙光、軟通動力、神州數(shù)碼、華勤技術(shù)、曙光數(shù)創(chuàng)、潤澤科技、拓維信息;3、AI應(yīng)用端:萬興科技、金山辦公、超圖軟件、彩訊股份、拓爾思、衛(wèi)寧健康、嘉和美康等。險(xiǎn);消費(fèi)需求不及預(yù)期風(fēng)險(xiǎn);行業(yè)競爭加劇風(fēng)險(xiǎn)等。維持評級分析師行業(yè)點(diǎn)評報(bào)告/計(jì)算機(jī)行業(yè)22一、Sora大模型橫空出世,AGI時(shí)代加速到來 3二、Sora基于DiT模型搭建,更適用文生視頻領(lǐng)域 4三、Sora算力分析框架拆解,單次訓(xùn)練算 6 7 7 8行業(yè)點(diǎn)評報(bào)告/計(jì)算機(jī)行業(yè)33北京時(shí)間2月16日凌晨,OpenAI發(fā)布了首個(gè)文生視頻大模型Sora,并配有48個(gè)生成案例及技術(shù)報(bào)告,能夠通過自然語言指令生成長達(dá)60秒的高清流暢視頻,在生成視頻長度、清晰度、連貫性、多鏡頭切換方面都有顯著提升。資料來源:數(shù)字經(jīng)濟(jì)先鋒號,中國銀河證券研究院Sora在文生視頻領(lǐng)遙遙領(lǐng)先。Sora可以將簡短文本描述轉(zhuǎn)換成一分鐘流暢視頻,相對于Runway、Pika、StableVideo等提升了幾個(gè)代級。1)生成視頻長度:Runway、Pika等傳統(tǒng)文生視頻大模型平均時(shí)長在3-5秒,Runway用戶可以最多延長視頻長度至16秒,Sora相對傳統(tǒng)視頻生成工具提升15-20倍;2)視頻質(zhì)量顯著提升:可生成1080P高清視頻;3)可實(shí)現(xiàn)多鏡頭切換:可以理解和模擬運(yùn)動中的物理規(guī)律,可以實(shí)現(xiàn)復(fù)雜的運(yùn)動相機(jī)模擬;4)視頻連貫性與穩(wěn)定性更好:在建模能力上表現(xiàn)更好,可以依賴關(guān)系進(jìn)行建模,能初步理解及模擬物理運(yùn)動規(guī)律;5)高可拓展性:支持多種數(shù)據(jù)格式輸入,具備實(shí)現(xiàn)文生視頻、圖生視頻、向前或向后視頻擴(kuò)展能力,同時(shí)支持視頻連接。細(xì)分能力項(xiàng)其他文生視頻大模型細(xì)分能力項(xiàng)強(qiáng)弱強(qiáng)弱√√√√√√依賴關(guān)系進(jìn)行建模強(qiáng)強(qiáng)弱弱行業(yè)點(diǎn)評報(bào)告/計(jì)算機(jī)行業(yè)44強(qiáng)弱√僅支持向后×資料來源:CSDN,中國銀河證券研究院與Transformer,是一種用于擴(kuò)散模型的新架構(gòu)。DiT盡可能趨于標(biāo)準(zhǔn)Transformer架構(gòu),以保留其可擴(kuò)展性。擴(kuò)散模型廣泛應(yīng)用于視頻生成領(lǐng)域,采用編碼器-解碼器架構(gòu)。擴(kuò)散模型是標(biāo)準(zhǔn)圖像擴(kuò)散架構(gòu)的自然擴(kuò)展,它可以從圖像和視頻數(shù)據(jù)中進(jìn)行聯(lián)合訓(xùn)練,可以減少小批量梯度的方差并加快優(yōu)化速度,迅速取代了基于生成對抗網(wǎng)絡(luò)(GANs)和自回歸變換器的方法,成為圖像生成的主導(dǎo)方法。Sora受到大語言模型的啟發(fā),用Transformer替換擴(kuò)散模型中的U-Net,通過將Transformer與Diffusion結(jié)合成為一種基于擴(kuò)散變換的模型DiT。Sora將視頻降維成時(shí)空Patch作為視頻數(shù)據(jù)對模型進(jìn)行訓(xùn)練。首先為了適應(yīng)大模型支持的上下文長度,降低處理復(fù)雜度,類似ViT(VisionTransformer)將圖像進(jìn)行處理,將圖像進(jìn)行降維分解,這樣一來可以兼容所有的數(shù)據(jù)素材(靜態(tài)圖像可以看成是在時(shí)間t=0的一些列Patch)。行業(yè)點(diǎn)評報(bào)告/計(jì)算機(jī)行業(yè)55Sora采用DiT模型,通過VAE將視頻壓縮到LatentSpace(潛在空間)中,然后將這種表現(xiàn)形式分解成時(shí)空Patch(視頻塊相當(dāng)于大語言模型中的token。資料來源:OpenAI官網(wǎng),中國銀河證券研究院Sora通過給定輸入噪聲及Prompt(文本提示信息),訓(xùn)練出的模型來預(yù)測原始的不帶噪聲的圖像,類似于通過預(yù)測帶有馬賽克的原始圖像,讓模型去學(xué)習(xí)去除馬賽克,從而達(dá)到去噪聲的目的。在生成視頻過程中,Sora通過對噪聲進(jìn)行去噪,來預(yù)測原始Patch,最后將圖片轉(zhuǎn)化為視頻。行業(yè)點(diǎn)評報(bào)告/計(jì)算機(jī)行業(yè)66資料來源:OpenAI官網(wǎng),中國銀河證券研究院通常在計(jì)算大語言模型算力需求通常與參數(shù)量及token數(shù)量成正比,而Sora大模型中可以將Patch算力需求進(jìn)行分析測算。根據(jù)阿里聯(lián)合浙江大學(xué)、華中科技大學(xué)提出的文生視頻模型I2VGen-XL,研究人員收集了大約3500萬單鏡頭文本-視頻對和60億文本-圖像對來優(yōu)化模型。我們暫且保守假設(shè)Sora訓(xùn)練數(shù)據(jù)集與I2VGen-XL相同,同時(shí)二維向量空間圖片表示為H×W×C(其中H為長度,W為寬度,C為RGB顏色通道數(shù),假設(shè)C=3)。我們估算Sora訓(xùn)練數(shù)據(jù)集中視頻類數(shù)據(jù)Patch規(guī)模=3500×10^4×60×30×3=1.89×10^11;圖片類根據(jù)谷歌論文《ANIMAGEISWORTH16ATSCALE》,Transformer的輸入是一個(gè)序列,對于一張圖像來說如果把每個(gè)像素點(diǎn)當(dāng)作一個(gè)token,那就會需要相當(dāng)旁大的計(jì)算量,該文則將圖像劃分為16×16大小的一個(gè)個(gè)Patch,然后將每個(gè)Patch當(dāng)作一個(gè)token組成一串序列作為Transformer的輸入,減少了計(jì)算成本。我們假設(shè)PatchSize為16×行業(yè)點(diǎn)評報(bào)告/計(jì)算機(jī)行業(yè)77根據(jù)OpenAI論文,T5模型由于采用編碼器-解碼器模型,在向前和向后傳播的過程中只有一半token處于激活狀態(tài),而BERT與GPT基于Transformer的自然語言監(jiān)督模型,每個(gè)token都處于活躍狀態(tài),而每個(gè)token都在向前傳播過程中涉及一次加法和一次乘法,論文添加一個(gè)3×的乘數(shù)來計(jì)算向后傳遞的計(jì)算量,故推出GPT模型所需算力:訓(xùn)練所需總算力=模型參數(shù)量×token數(shù)量×3×2×訓(xùn)練輪根據(jù)上述測算,基于Sora參數(shù)量大概在30億(待確認(rèn))水平,同時(shí)采用I2VGen-XL訓(xùn)練數(shù)據(jù)集的8.2倍(測算采用參數(shù)和訓(xùn)練數(shù)據(jù)集規(guī)模會與實(shí)際有一定出入)。單張A100算力為19.5TFlops,暫時(shí)不考慮模型訓(xùn)練利用率及其他訓(xùn)練成本,如果在10000張英偉目前由于Sora還在初級階段,訓(xùn)練數(shù)據(jù)集和參數(shù)規(guī)模有限,仍存在一些不足之處。對于Sora當(dāng)前存在的弱點(diǎn),OpenAI指出它可能難以準(zhǔn)確模擬復(fù)雜場景的物理原理,并且可能無法理解因果關(guān)系。該模型還可能混淆提示的空間細(xì)節(jié),例如混淆左右,并且可能難以精確描述隨著時(shí)間推移發(fā)生的事件,例如遵循特定的相機(jī)軌跡。未來訓(xùn)練數(shù)據(jù)集將會數(shù)以萬倍的增長,模型參數(shù)量也會不段提升,目前來看Sora訓(xùn)練所需算力不及GPT-4等大語言模型,伴隨Sora大模型不斷迭代調(diào)優(yōu)、訓(xùn)練數(shù)據(jù)集規(guī)模逐漸擴(kuò)大,我們認(rèn)為,未來Sora所需算力將呈現(xiàn)指數(shù)級增長:1)短期來看模型迭代優(yōu)化、訓(xùn)練數(shù)據(jù)集增大將快速帶動訓(xùn)練端算力需求;2)長期來看,Sora技術(shù)逐漸成熟帶動下游AI應(yīng)用百花齊放,推理端需求將厚積薄發(fā)。有望持續(xù)帶動上游算力基礎(chǔ)設(shè)施需求爆發(fā)。88Sora是人工智能發(fā)展進(jìn)程中的“里程碑”,推動AGI時(shí)代加速到來,算力需求將持續(xù)爆發(fā),持續(xù)看好產(chǎn)業(yè)鏈投資機(jī)會:1、國內(nèi)多模態(tài)大模型:科大訊飛、??低?、大華股份;2、算力基礎(chǔ)設(shè)施:工業(yè)富聯(lián)、中科曙光、軟通動力、神州數(shù)碼、華勤技術(shù)、曙光數(shù)創(chuàng)、潤澤科技、拓維信息;3、AI應(yīng)用端:萬興科技、金山辦公、超圖軟件、彩訊股份、拓爾思、衛(wèi)寧健康、嘉和美康等。技術(shù)研發(fā)進(jìn)度不及預(yù)期風(fēng)險(xiǎn);供應(yīng)鏈風(fēng)險(xiǎn);政策推進(jìn)不及預(yù)期風(fēng)險(xiǎn);消費(fèi)需求不及預(yù)期風(fēng)險(xiǎn);行業(yè)競爭加劇風(fēng)險(xiǎn)等。99 3 4 5 5 5 6 7本人承諾以勤勉的執(zhí)業(yè)態(tài)度,獨(dú)立、客觀地出具本報(bào)告,本報(bào)告清晰準(zhǔn)確地反映本人的研究觀點(diǎn)。本人薪酬的任何部分過去不曾與、現(xiàn)在不與、未來也將不會與本報(bào)告的具體推薦或觀點(diǎn)直接或間接相關(guān)。吳硯靖TMT/科創(chuàng)板研究負(fù)責(zé)人北京大學(xué)軟件項(xiàng)目管理碩士,10年證券分析從業(yè)經(jīng)驗(yàn),歷任中銀國際證券首席分析師,國內(nèi)大型知名PE機(jī)構(gòu)研究部執(zhí)行總經(jīng)理。具備一二級市場經(jīng)驗(yàn),長期專注科技公司研究。本報(bào)告由中國銀河證券股份有限公司(以下簡稱銀河證券)向其客戶提供。銀河證券無需因接收人收到本報(bào)告而視其為客戶。若您并非銀河證券客戶中的專業(yè)投資者,為保證服務(wù)質(zhì)量、控制投資風(fēng)險(xiǎn)、應(yīng)首先聯(lián)系銀河證券機(jī)構(gòu)銷售部門或客戶經(jīng)理,完成投資者適當(dāng)性匹配,并充分了解該項(xiàng)服務(wù)的性質(zhì)、特點(diǎn)、使用的注意事項(xiàng)以及若不當(dāng)使用可能帶來的風(fēng)險(xiǎn)或損失。本報(bào)告所載的全部內(nèi)容只提供給客戶做參考之用,并不構(gòu)成對客戶的投資咨詢建議,并非作為買賣、認(rèn)購證券或其它金融工具的邀請或保證。客戶不應(yīng)單純依靠本報(bào)告而取代自我獨(dú)立判斷。銀河證券認(rèn)為本報(bào)告資料來源是可靠的,所載內(nèi)容及觀點(diǎn)客觀公正,但不擔(dān)保其準(zhǔn)確性或完整性。本報(bào)告所載內(nèi)容反映的是銀河證券在最初發(fā)表本報(bào)告日期當(dāng)日的判斷,銀河證券可發(fā)出其它與本報(bào)告所載內(nèi)容不一致或有不同結(jié)論的報(bào)告,但銀河證券沒有義務(wù)和責(zé)任去及時(shí)更新本報(bào)告涉及的內(nèi)容并通知客戶。銀河證券不對因客戶使用本報(bào)告而導(dǎo)致的損失負(fù)任何責(zé)任。本報(bào)告可能附帶其它網(wǎng)站的地址或超級鏈接,對于可能涉及的銀河證券網(wǎng)站以外的地址或超級鏈接,銀河證券不對其內(nèi)容負(fù)責(zé)。鏈接網(wǎng)站的內(nèi)容不構(gòu)成本報(bào)告的任何部分,客戶需自行承擔(dān)瀏覽這些網(wǎng)站的費(fèi)用或風(fēng)險(xiǎn)。銀河證券在法律允許的情況下可參與、投資或持有本報(bào)告涉及的證券或進(jìn)行證券交易,或向本報(bào)告涉及的公司提供或爭取提供包括投資銀行業(yè)務(wù)在內(nèi)的服務(wù)或業(yè)務(wù)支持。銀河證券可能與本報(bào)告涉及的公司之間存在業(yè)務(wù)關(guān)系,并無需事先或在獲得業(yè)務(wù)關(guān)系后通知客戶。銀河證券已具備中國證監(jiān)會批復(fù)的證券投資咨詢業(yè)務(wù)資格。除非另有說明,所有本報(bào)告的版權(quán)屬于銀河證券。未經(jīng)銀河證券書面授權(quán)許可,任何機(jī)構(gòu)或個(gè)人不得以任何形式轉(zhuǎn)發(fā)、轉(zhuǎn)載、翻版或傳播本報(bào)告。特提醒公眾投資者慎重使用未經(jīng)授權(quán)刊載或者轉(zhuǎn)發(fā)的本公司證券研究報(bào)告。本報(bào)告版權(quán)歸銀河證券所有并保留最終解釋權(quán)。評級標(biāo)準(zhǔn)評級說明評級標(biāo)準(zhǔn)為報(bào)告發(fā)布日后的6到12個(gè)月行業(yè)指數(shù)(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 軟件設(shè)計(jì)師考試前景預(yù)測與試題答案
- 數(shù)字電路與邏輯設(shè)計(jì)試題及答案
- 設(shè)計(jì)理念在軟件設(shè)計(jì)師考試中的試題及答案
- 軟件設(shè)計(jì)師考試數(shù)據(jù)結(jié)構(gòu)試題及答案
- 把握2025年軟件設(shè)計(jì)師考試的試題及答案策略
- 深度研究西方政治制度中的利益表達(dá)機(jī)制試題及答案
- 軟件設(shè)計(jì)師考試現(xiàn)狀調(diào)查試題及答案
- 公共政策中的競爭與合作關(guān)系試題及答案
- 教育行業(yè)招生市場數(shù)字化營銷策略與招生團(tuán)隊(duì)建設(shè)研究報(bào)告
- 項(xiàng)目管理工具應(yīng)用效果試題及答案
- 肺脹中醫(yī)護(hù)理查房-課件
- 急診臨床思維-課件
- 立德修身誠信為本
- 小石獅【經(jīng)典繪本】
- 艾里遜8000系列變速箱培訓(xùn):《動力傳遞分析》
- 商務(wù)英語寫作實(shí)踐智慧樹知到答案章節(jié)測試2023年中北大學(xué)
- 社會治安動態(tài)視頻監(jiān)控系統(tǒng)工程建設(shè)方案
- 脫硫塔玻璃鱗片膠泥襯里施工組織設(shè)計(jì)
- XB/T 505-2011汽油車排氣凈化催化劑載體
- GB/T 3672.2-2002橡膠制品的公差第2部分:幾何公差
- GB 8076-2008混凝土外加劑
評論
0/150
提交評論