SORA人工智能文生視頻大模型科普培訓(xùn)_第1頁(yè)
SORA人工智能文生視頻大模型科普培訓(xùn)_第2頁(yè)
SORA人工智能文生視頻大模型科普培訓(xùn)_第3頁(yè)
SORA人工智能文生視頻大模型科普培訓(xùn)_第4頁(yè)
SORA人工智能文生視頻大模型科普培訓(xùn)_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

SORA人工智能文生視頻大模型Sora,美國(guó)人工智能研究公司OpenAI發(fā)布的人工智能文生視頻大模型(但OpenAI并未單純將其視為視頻模型,而是作為“世界模擬器”)主講:

時(shí)間:202X-X適用于公司員工培訓(xùn)、人工智能科普Sora簡(jiǎn)介Addyourtextcontent.01PARTONE行業(yè)背景Addyourtextcontent.02PARTTWO名字由來Addyourtextcontent.03PARTTHREE發(fā)展歷程Addyourtextcontent.04PARTFOUR功能特色Addyourtextcontent.05PARTFIVEContentsSora簡(jiǎn)介Sora,美國(guó)人工智能研究公司OpenAI發(fā)布的人工智能文生視頻大模型(但OpenAI并未單純將其視為視頻模型,而是作為“世界模擬器”)第一章節(jié)Sora,美國(guó)人工智能研究公司OpenAI發(fā)布的人工智能文生視頻大模型(但OpenAI并未單純將其視為視頻模型,而是作為“世界模擬器”),于2024年2月15日(美國(guó)當(dāng)?shù)貢r(shí)間)正式對(duì)外發(fā)布Sora這一名稱源于日文“空”(そらsora),即天空之意,以示其無限的創(chuàng)造潛力。其背后的技術(shù)是在OpenAI的文本到圖像生成模型DALL-E基礎(chǔ)上開發(fā)而成的。Sora簡(jiǎn)介名稱來源功能技術(shù)Sora可以根據(jù)用戶的文本提示創(chuàng)建最長(zhǎng)60秒的逼真視頻,該模型了解這些物體在物理世界中的存在方式,可以深度模擬真實(shí)物理世界,能生成具有多個(gè)角色、包含特定運(yùn)動(dòng)的復(fù)雜場(chǎng)景。繼承了DALL-E3的畫質(zhì)和遵循指令能力,能理解用戶在提示中提出的要求。Sora對(duì)于需要制作視頻的藝術(shù)家、電影制片人或?qū)W生帶來無限可能,其是OpenAI“教AI理解和模擬運(yùn)動(dòng)中的物理世界”計(jì)劃的其中一步,也標(biāo)志著人工智能在理解真實(shí)世界場(chǎng)景并與之互動(dòng)的能力方面實(shí)現(xiàn)飛躍行業(yè)背景Sora,美國(guó)人工智能研究公司OpenAI發(fā)布的人工智能文生視頻大模型(但OpenAI并未單純將其視為視頻模型,而是作為“世界模擬器”)第二章節(jié)視覺算法近年來的突破在泛化性、可提示性、生成質(zhì)量和穩(wěn)定性等方面均取得了進(jìn)展,這預(yù)示著技術(shù)拐點(diǎn)的臨近以及爆款應(yīng)用的涌現(xiàn)。特別是在3D資產(chǎn)生成和視頻生成領(lǐng)域,由于擴(kuò)散算法的成熟,這些領(lǐng)域受益匪淺。然而,與圖像生成相比,3D資產(chǎn)和視頻生成在數(shù)據(jù)和算法方面面臨的難點(diǎn)更多。盡管如此,考慮到大型語(yǔ)言模型(LLM)對(duì)人工智能各領(lǐng)域的加速作用以及已經(jīng)出現(xiàn)的優(yōu)秀開源模型,2024年該行業(yè)有望實(shí)現(xiàn)更大的發(fā)展。在2023年末至2024年初,Pika、HeyGen等人工智能生成的視頻應(yīng)用逐漸受到關(guān)注,這驗(yàn)證了多模態(tài)技術(shù)的持續(xù)進(jìn)步與成熟。但與此同時(shí),民主倡導(dǎo)者和人工智能研究人員警告說,這些工具已經(jīng)被用來欺騙民眾。名字由來Sora,美國(guó)人工智能研究公司OpenAI發(fā)布的人工智能文生視頻大模型(但OpenAI并未單純將其視為視頻模型,而是作為“世界模擬器”)第三章節(jié)Sora在日語(yǔ)中是“天空”(そら)的意思,引申含義還有“自由”,象征著其無限的創(chuàng)造潛力名字由來發(fā)展歷程Sora,美國(guó)人工智能研究公司OpenAI發(fā)布的人工智能文生視頻大模型(但OpenAI并未單純將其視為視頻模型,而是作為“世界模擬器”)第四章節(jié)2021年1月5日模型發(fā)展2022年4月模型發(fā)展2022年11月30日模型發(fā)展文生圖模型Dall-E發(fā)布,Dall-E可以根據(jù)簡(jiǎn)單的描述創(chuàng)建逼真和清晰的圖像,精通各種藝術(shù)風(fēng)格,還可以生成文字制作建筑物上的標(biāo)志,并制作同一場(chǎng)景的草圖和全彩圖像。Dall-E2發(fā)布,Dall-E2不僅可以生成更真實(shí)和更準(zhǔn)確的畫像,而且能夠?qū)⑽谋久枋鲋械母拍睢傩院惋L(fēng)格等元素綜合起來,生成現(xiàn)實(shí)主義的圖像和藝術(shù)作品。大語(yǔ)言模型ChatGPT發(fā)布[29],ChatGPT不僅能與人對(duì)話,還能編寫代碼、創(chuàng)作內(nèi)容等,這一款革命性產(chǎn)品的上線引發(fā)全球關(guān)注,上線僅5天用戶數(shù)量就已突破100萬(wàn)。GPT-4正式面世,GPT-4可以更準(zhǔn)確地解決用戶的難題,多模態(tài)的GPT-4還可以生成、編輯具有創(chuàng)意性或技術(shù)性的文章,在高級(jí)推理方面的表現(xiàn)超過其前代產(chǎn)品。Sora問世,Sora繼承了Dall-E3的畫質(zhì)和遵循指令能力,可以根據(jù)用戶的文本提示創(chuàng)建逼真的視頻,可以深度模擬真實(shí)物理世界,能生成具有多個(gè)角色、包含特定運(yùn)動(dòng)的復(fù)雜場(chǎng)景。Dall-E3正式發(fā)布,Dall-E3能夠更準(zhǔn)確、更優(yōu)秀地生成效果,可以更準(zhǔn)確地呈現(xiàn)用戶的想法,用戶可以要求ChatGPT提供合適的提示詞。美國(guó)當(dāng)?shù)貢r(shí)間2024年2月15日,OpenAI正式發(fā)布文生視頻模型Sora,并發(fā)布了48個(gè)文生視頻案例和技術(shù)報(bào)告,正式入局視頻生成領(lǐng)域。Sora能夠根據(jù)提示詞生成60s的連貫視頻,“碾壓”了行業(yè)目前大概只有平均“4s”的視頻生成長(zhǎng)度。正式發(fā)布正式發(fā)布正式發(fā)布89%52%75%功能特色Sora,美國(guó)人工智能研究公司OpenAI發(fā)布的人工智能文生視頻大模型(但OpenAI并未單純將其視為視頻模型,而是作為“世界模擬器”)第四章節(jié)Sora可以快速制作最長(zhǎng)一分鐘、準(zhǔn)確反映用戶提示、可一鏡到底的視頻(其他AI視頻工具還在突破幾秒內(nèi)的連貫性),視頻可以呈現(xiàn)“具有多個(gè)角色、特定類型的動(dòng)作、以及主題和背景的準(zhǔn)確細(xì)節(jié)的復(fù)雜場(chǎng)景”Sora可以快速制作最長(zhǎng)一分鐘、準(zhǔn)確反映用戶提示、可一鏡到底的視頻(其他AI視頻工具還在突破幾秒內(nèi)的連貫性),視頻可以呈現(xiàn)“具有多個(gè)角色、特定類型的動(dòng)作、以及主題和背景的準(zhǔn)確細(xì)節(jié)的復(fù)雜場(chǎng)景”Sora可以快速制作最長(zhǎng)一分鐘、準(zhǔn)確反映用戶提示、可一鏡到底的視頻(其他AI視頻工具還在突破幾秒內(nèi)的連貫性),視頻可以呈現(xiàn)“具有多個(gè)角色、特定類型的動(dòng)作、以及主題和背景的準(zhǔn)確細(xì)節(jié)的復(fù)雜場(chǎng)景”Sora可以快速制作最長(zhǎng)一分鐘、準(zhǔn)確反映用戶提示、可一鏡到底的視頻(其他AI視頻工具還在突破幾秒內(nèi)的連貫性),視頻可以呈現(xiàn)“具有多個(gè)角色、特定類型的動(dòng)作、以及主題和背景的準(zhǔn)確細(xì)節(jié)的復(fù)雜場(chǎng)景”功能綜述視頻擴(kuò)展與缺失幀填充靜態(tài)圖生成視頻連接視頻Sora可以生成各種尺寸的圖像,分辨率最高達(dá)2048×2048。Sora可以生成動(dòng)態(tài)運(yùn)動(dòng)的視頻,隨著相機(jī)的移動(dòng)和旋轉(zhuǎn),人和場(chǎng)景元素在三維空間中一致移動(dòng)。Sora通常能夠有效地對(duì)短期和長(zhǎng)期依賴關(guān)系進(jìn)行建模,包括人、動(dòng)物和物體的持久化,即使它們被遮擋或離開框架。同時(shí),它還能在單個(gè)樣本中生成同一角色的多個(gè)鏡頭,以保持其在整個(gè)視頻中的外觀。圖像生成3D一致遠(yuǎn)距離連貫性、物體持久性Sora有時(shí)可以用簡(jiǎn)單的方式模擬影響世界狀態(tài)的動(dòng)作。例如一個(gè)畫家可以在畫布上留下新的筆觸,并隨著時(shí)間的推移而持續(xù),或者一個(gè)男人可以吃漢堡并留下咬痕Sora可以模擬人工過程,例如電子游戲,并能夠通過基本策略控制玩家,同時(shí)高保真地渲染世界及其動(dòng)態(tài)。Sora可以生成多機(jī)位、多角度的視頻。技術(shù)特點(diǎn)多幀預(yù)測(cè)生成:Sora是一種擴(kuò)散模型,具備從噪聲中生成完整視頻的能力,它生成的視頻一開始看起來像靜態(tài)噪音,通過多個(gè)步驟逐漸去除噪聲后,視頻也從最初的隨機(jī)像素轉(zhuǎn)化為清晰的圖像場(chǎng)景,其能夠一次生成多幀預(yù)測(cè),確保畫面主體在暫時(shí)離開視野時(shí)仍保持一致。技術(shù)特點(diǎn)特殊架構(gòu):Sora采用與GPT模型相似的Transformer架構(gòu),OpenAI用Transformer結(jié)構(gòu)替代Diffusion模型中常用的U-Net結(jié)構(gòu),提升了原來Diffusion模型在深度和寬度上的可擴(kuò)展性,為視頻模型增加輸出時(shí)長(zhǎng)奠定基礎(chǔ)。Transformer架構(gòu)能夠處理長(zhǎng)序列數(shù)據(jù),并通過自注意力機(jī)制捕捉數(shù)據(jù)中的依賴關(guān)系,從而提高模型的生成能力。但為了解決Transformer架構(gòu)在長(zhǎng)文本和高分辨率圖像處理上的問題,擴(kuò)散模型采用更可擴(kuò)展的狀態(tài)空間模型(SSM)主干替代了傳統(tǒng)的注意力機(jī)制,從而減少了算力需求,并能夠生成高分辨率圖像。Sora借鑒DALL-E3的“重述提示詞技術(shù)”,為視覺訓(xùn)練數(shù)據(jù)生成高度描述性的標(biāo)注,這使得模型能夠更忠實(shí)地遵循用戶的文本指令,生成符合用戶需求的視頻內(nèi)容,同時(shí)也提高了模型的靈活性和可控性。OpenAI將視頻和圖像表示為Patch,類似于GPT中的token,這種統(tǒng)一的數(shù)據(jù)表示方式使得Sora能夠在更廣泛的視覺數(shù)據(jù)上進(jìn)行訓(xùn)練,涵蓋不同的持續(xù)時(shí)間、分辨率和縱橫比,有助于模型學(xué)習(xí)到更豐富的視覺特征,提高生成視頻的質(zhì)量和多樣性。重述提示詞數(shù)據(jù)表示技術(shù)特點(diǎn)原生規(guī)模訓(xùn)練:Sora采用“原生規(guī)模訓(xùn)練”,過往的圖像和視頻生成通常會(huì)將視頻調(diào)整為標(biāo)準(zhǔn)大小,但這樣會(huì)失去視頻的原始長(zhǎng)寬比和細(xì)節(jié),而原生規(guī)模的訓(xùn)練方法可以帶來更好的效果。Sora可以對(duì)各種尺寸和縱橫比的視頻進(jìn)行采樣,允許直接為不同尺寸的設(shè)備創(chuàng)建內(nèi)容,并快速原型化較低分辨率的內(nèi)容。與將視頻裁剪為正方形的模型相比,Sora可以生成更完整、更美觀的視頻。例如,在“五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”的場(chǎng)景中,狼的數(shù)量會(huì)變化,一些憑空出現(xiàn)或消失。在提示詞“籃球穿過籃筐然后爆炸”中,籃球

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論