SORA人工智能文生視頻大模型科普培訓(xùn)

上傳人：1*** IP屬地：遼寧上傳時(shí)間：2024-07-03 格式：PPTX 頁(yè)數(shù)：23 大?。?.81MB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩18頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

SORA人工智能文生視頻大模型Sora，美國(guó)人工智能研究公司OpenAI發(fā)布的人工智能文生視頻大模型（但OpenAI并未單純將其視為視頻模型，而是作為“世界模擬器”）主講：

時(shí)間：202X-X適用于公司員工培訓(xùn)、人工智能科普Sora簡(jiǎn)介Addyourtextcontent.01PARTONE行業(yè)背景Addyourtextcontent.02PARTTWO名字由來Addyourtextcontent.03PARTTHREE發(fā)展歷程Addyourtextcontent.04PARTFOUR功能特色Addyourtextcontent.05PARTFIVEContentsSora簡(jiǎn)介Sora，美國(guó)人工智能研究公司OpenAI發(fā)布的人工智能文生視頻大模型（但OpenAI并未單純將其視為視頻模型，而是作為“世界模擬器”）第一章節(jié)Sora，美國(guó)人工智能研究公司OpenAI發(fā)布的人工智能文生視頻大模型（但OpenAI并未單純將其視為視頻模型，而是作為“世界模擬器”），于2024年2月15日（美國(guó)當(dāng)?shù)貢r(shí)間）正式對(duì)外發(fā)布Sora這一名稱源于日文“空”（そらsora），即天空之意，以示其無限的創(chuàng)造潛力。其背后的技術(shù)是在OpenAI的文本到圖像生成模型DALL-E基礎(chǔ)上開發(fā)而成的。Sora簡(jiǎn)介名稱來源功能技術(shù)Sora可以根據(jù)用戶的文本提示創(chuàng)建最長(zhǎng)60秒的逼真視頻，該模型了解這些物體在物理世界中的存在方式，可以深度模擬真實(shí)物理世界，能生成具有多個(gè)角色、包含特定運(yùn)動(dòng)的復(fù)雜場(chǎng)景。繼承了DALL-E3的畫質(zhì)和遵循指令能力，能理解用戶在提示中提出的要求。Sora對(duì)于需要制作視頻的藝術(shù)家、電影制片人或?qū)W生帶來無限可能，其是OpenAI“教AI理解和模擬運(yùn)動(dòng)中的物理世界”計(jì)劃的其中一步，也標(biāo)志著人工智能在理解真實(shí)世界場(chǎng)景并與之互動(dòng)的能力方面實(shí)現(xiàn)飛躍行業(yè)背景Sora，美國(guó)人工智能研究公司OpenAI發(fā)布的人工智能文生視頻大模型（但OpenAI并未單純將其視為視頻模型，而是作為“世界模擬器”）第二章節(jié)視覺算法近年來的突破在泛化性、可提示性、生成質(zhì)量和穩(wěn)定性等方面均取得了進(jìn)展，這預(yù)示著技術(shù)拐點(diǎn)的臨近以及爆款應(yīng)用的涌現(xiàn)。特別是在3D資產(chǎn)生成和視頻生成領(lǐng)域，由于擴(kuò)散算法的成熟，這些領(lǐng)域受益匪淺。然而，與圖像生成相比，3D資產(chǎn)和視頻生成在數(shù)據(jù)和算法方面面臨的難點(diǎn)更多。盡管如此，考慮到大型語(yǔ)言模型（LLM）對(duì)人工智能各領(lǐng)域的加速作用以及已經(jīng)出現(xiàn)的優(yōu)秀開源模型，2024年該行業(yè)有望實(shí)現(xiàn)更大的發(fā)展。在2023年末至2024年初，Pika、HeyGen等人工智能生成的視頻應(yīng)用逐漸受到關(guān)注，這驗(yàn)證了多模態(tài)技術(shù)的持續(xù)進(jìn)步與成熟。但與此同時(shí)，民主倡導(dǎo)者和人工智能研究人員警告說，這些工具已經(jīng)被用來欺騙民眾。名字由來Sora，美國(guó)人工智能研究公司OpenAI發(fā)布的人工智能文生視頻大模型（但OpenAI并未單純將其視為視頻模型，而是作為“世界模擬器”）第三章節(jié)Sora在日語(yǔ)中是“天空”（そら）的意思，引申含義還有“自由”，象征著其無限的創(chuàng)造潛力名字由來發(fā)展歷程Sora，美國(guó)人工智能研究公司OpenAI發(fā)布的人工智能文生視頻大模型（但OpenAI并未單純將其視為視頻模型，而是作為“世界模擬器”）第四章節(jié)2021年1月5日模型發(fā)展2022年4月模型發(fā)展2022年11月30日模型發(fā)展文生圖模型Dall-E發(fā)布，Dall-E可以根據(jù)簡(jiǎn)單的描述創(chuàng)建逼真和清晰的圖像，精通各種藝術(shù)風(fēng)格，還可以生成文字制作建筑物上的標(biāo)志，并制作同一場(chǎng)景的草圖和全彩圖像。Dall-E2發(fā)布，Dall-E2不僅可以生成更真實(shí)和更準(zhǔn)確的畫像，而且能夠?qū)⑽谋久枋鲋械母拍睢傩院惋L(fēng)格等元素綜合起來，生成現(xiàn)實(shí)主義的圖像和藝術(shù)作品。大語(yǔ)言模型ChatGPT發(fā)布[29]，ChatGPT不僅能與人對(duì)話，還能編寫代碼、創(chuàng)作內(nèi)容等，這一款革命性產(chǎn)品的上線引發(fā)全球關(guān)注，上線僅5天用戶數(shù)量就已突破100萬(wàn)。GPT-4正式面世，GPT-4可以更準(zhǔn)確地解決用戶的難題，多模態(tài)的GPT-4還可以生成、編輯具有創(chuàng)意性或技術(shù)性的文章，在高級(jí)推理方面的表現(xiàn)超過其前代產(chǎn)品。Sora問世，Sora繼承了Dall-E3的畫質(zhì)和遵循指令能力，可以根據(jù)用戶的文本提示創(chuàng)建逼真的視頻，可以深度模擬真實(shí)物理世界，能生成具有多個(gè)角色、包含特定運(yùn)動(dòng)的復(fù)雜場(chǎng)景。Dall-E3正式發(fā)布，Dall-E3能夠更準(zhǔn)確、更優(yōu)秀地生成效果，可以更準(zhǔn)確地呈現(xiàn)用戶的想法，用戶可以要求ChatGPT提供合適的提示詞。美國(guó)當(dāng)?shù)貢r(shí)間2024年2月15日，OpenAI正式發(fā)布文生視頻模型Sora，并發(fā)布了48個(gè)文生視頻案例和技術(shù)報(bào)告，正式入局視頻生成領(lǐng)域。Sora能夠根據(jù)提示詞生成60s的連貫視頻，“碾壓”了行業(yè)目前大概只有平均“4s”的視頻生成長(zhǎng)度。正式發(fā)布正式發(fā)布正式發(fā)布89%52%75%功能特色Sora，美國(guó)人工智能研究公司OpenAI發(fā)布的人工智能文生視頻大模型（但OpenAI并未單純將其視為視頻模型，而是作為“世界模擬器”）第四章節(jié)Sora可以快速制作最長(zhǎng)一分鐘、準(zhǔn)確反映用戶提示、可一鏡到底的視頻（其他AI視頻工具還在突破幾秒內(nèi)的連貫性），視頻可以呈現(xiàn)“具有多個(gè)角色、特定類型的動(dòng)作、以及主題和背景的準(zhǔn)確細(xì)節(jié)的復(fù)雜場(chǎng)景”Sora可以快速制作最長(zhǎng)一分鐘、準(zhǔn)確反映用戶提示、可一鏡到底的視頻（其他AI視頻工具還在突破幾秒內(nèi)的連貫性），視頻可以呈現(xiàn)“具有多個(gè)角色、特定類型的動(dòng)作、以及主題和背景的準(zhǔn)確細(xì)節(jié)的復(fù)雜場(chǎng)景”Sora可以快速制作最長(zhǎng)一分鐘、準(zhǔn)確反映用戶提示、可一鏡到底的視頻（其他AI視頻工具還在突破幾秒內(nèi)的連貫性），視頻可以呈現(xiàn)“具有多個(gè)角色、特定類型的動(dòng)作、以及主題和背景的準(zhǔn)確細(xì)節(jié)的復(fù)雜場(chǎng)景”Sora可以快速制作最長(zhǎng)一分鐘、準(zhǔn)確反映用戶提示、可一鏡到底的視頻（其他AI視頻工具還在突破幾秒內(nèi)的連貫性），視頻可以呈現(xiàn)“具有多個(gè)角色、特定類型的動(dòng)作、以及主題和背景的準(zhǔn)確細(xì)節(jié)的復(fù)雜場(chǎng)景”功能綜述視頻擴(kuò)展與缺失幀填充靜態(tài)圖生成視頻連接視頻Sora可以生成各種尺寸的圖像，分辨率最高達(dá)2048×2048。Sora可以生成動(dòng)態(tài)運(yùn)動(dòng)的視頻，隨著相機(jī)的移動(dòng)和旋轉(zhuǎn)，人和場(chǎng)景元素在三維空間中一致移動(dòng)。Sora通常能夠有效地對(duì)短期和長(zhǎng)期依賴關(guān)系進(jìn)行建模，包括人、動(dòng)物和物體的持久化，即使它們被遮擋或離開框架。同時(shí)，它還能在單個(gè)樣本中生成同一角色的多個(gè)鏡頭，以保持其在整個(gè)視頻中的外觀。圖像生成3D一致遠(yuǎn)距離連貫性、物體持久性Sora有時(shí)可以用簡(jiǎn)單的方式模擬影響世界狀態(tài)的動(dòng)作。例如一個(gè)畫家可以在畫布上留下新的筆觸，并隨著時(shí)間的推移而持續(xù)，或者一個(gè)男人可以吃漢堡并留下咬痕Sora可以模擬人工過程，例如電子游戲，并能夠通過基本策略控制玩家，同時(shí)高保真地渲染世界及其動(dòng)態(tài)。Sora可以生成多機(jī)位、多角度的視頻。技術(shù)特點(diǎn)多幀預(yù)測(cè)生成：Sora是一種擴(kuò)散模型，具備從噪聲中生成完整視頻的能力，它生成的視頻一開始看起來像靜態(tài)噪音，通過多個(gè)步驟逐漸去除噪聲后，視頻也從最初的隨機(jī)像素轉(zhuǎn)化為清晰的圖像場(chǎng)景，其能夠一次生成多幀預(yù)測(cè)，確保畫面主體在暫時(shí)離開視野時(shí)仍保持一致。技術(shù)特點(diǎn)特殊架構(gòu)：Sora采用與GPT模型相似的Transformer架構(gòu)，OpenAI用Transformer結(jié)構(gòu)替代Diffusion模型中常用的U-Net結(jié)構(gòu)，提升了原來Diffusion模型在深度和寬度上的可擴(kuò)展性，為視頻模型增加輸出時(shí)長(zhǎng)奠定基礎(chǔ)。Transformer架構(gòu)能夠處理長(zhǎng)序列數(shù)據(jù)，并通過自注意力機(jī)制捕捉數(shù)據(jù)中的依賴關(guān)系，從而提高模型的生成能力。但為了解決Transformer架構(gòu)在長(zhǎng)文本和高分辨率圖像處理上的問題，擴(kuò)散模型采用更可擴(kuò)展的狀態(tài)空間模型（SSM）主干替代了傳統(tǒng)的注意力機(jī)制，從而減少了算力需求，并能夠生成高分辨率圖像。Sora借鑒DALL-E3的“重述提示詞技術(shù)”，為視覺訓(xùn)練數(shù)據(jù)生成高度描述性的標(biāo)注，這使得模型能夠更忠實(shí)地遵循用戶的文本指令，生成符合用戶需求的視頻內(nèi)容，同時(shí)也提高了模型的靈活性和可控性。OpenAI將視頻和圖像表示為Patch，類似于GPT中的token，這種統(tǒng)一的數(shù)據(jù)表示方式使得Sora能夠在更廣泛的視覺數(shù)據(jù)上進(jìn)行訓(xùn)練，涵蓋不同的持續(xù)時(shí)間、分辨率和縱橫比，有助于模型學(xué)習(xí)到更豐富的視覺特征，提高生成視頻的質(zhì)量和多樣性。重述提示詞數(shù)據(jù)表示技術(shù)特點(diǎn)原生規(guī)模訓(xùn)練：Sora采用“原生規(guī)模訓(xùn)練”，過往的圖像和視頻生成通常會(huì)將視頻調(diào)整為標(biāo)準(zhǔn)大小，但這樣會(huì)失去視頻的原始長(zhǎng)寬比和細(xì)節(jié)，而原生規(guī)模的訓(xùn)練方法可以帶來更好的效果。Sora可以對(duì)各種尺寸和縱橫比的視頻進(jìn)行采樣，允許直接為不同尺寸的設(shè)備創(chuàng)建內(nèi)容，并快速原型化較低分辨率的內(nèi)容。與將視頻裁剪為正方形的模型相比，Sora可以生成更完整、更美觀的視頻。例如，在“五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”的場(chǎng)景中，狼的數(shù)量會(huì)變化，一些憑空出現(xiàn)或消失。在提示詞“籃球穿過籃筐然后爆炸”中，籃球

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

SORA人工智能文生視頻大模型科普培訓(xùn)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

SORA人工智能文生視頻大模型科普培訓(xùn)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔