《生成式人工智能:從ChatGPT到Sora-構(gòu)建通 用世界模擬器》課件_第1頁
《生成式人工智能:從ChatGPT到Sora-構(gòu)建通 用世界模擬器》課件_第2頁
《生成式人工智能:從ChatGPT到Sora-構(gòu)建通 用世界模擬器》課件_第3頁
《生成式人工智能:從ChatGPT到Sora-構(gòu)建通 用世界模擬器》課件_第4頁
《生成式人工智能:從ChatGPT到Sora-構(gòu)建通 用世界模擬器》課件_第5頁
已閱讀5頁,還剩116頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

主要內(nèi)容從互聯(lián)網(wǎng)空間邁向真實(shí)物理世界:賦能垂域應(yīng)用與實(shí)體經(jīng)濟(jì)的發(fā)展四生成式人工智能:從文本單模態(tài)ChatGPT邁向世界模擬器Sora一文生視頻大模型Sora:構(gòu)建可觀察的通用世界模擬器二數(shù)據(jù)智能新物種:理解與模擬人類語言智能與世界知識(shí)三生成式人工智能:從文本單模態(tài)ChatGPT邁向世界模擬器Sora一(一)什么是生成式人工智能?目前的主流大型語言模型(LLM)幾乎都是基于注意力神經(jīng)網(wǎng)絡(luò)Transformer構(gòu)建的生成式模型。編碼器解碼器編碼器解碼器生成式大模型判別式大模型前綴/編碼器-解碼器式大模型生成式人工智能(Generative

AI,縮寫為GenAI),除ChatGPT之類的大型語言模型(LLM),以Sora為代表的世界模擬器,也大多是生成式人工智能模型,這是實(shí)現(xiàn)AGI的可行路徑。生成式人工智能同時(shí)具有文本的閱讀理解能力和自回歸多模態(tài)內(nèi)容的生成能力。所謂生成式大型語言模型,就是利用具有自注意力和交叉注意力機(jī)制的Transformer神經(jīng)網(wǎng)絡(luò),將近百個(gè)解碼器塊堆疊起來,通過對(duì)包括文本、音頻、圖像、視頻、點(diǎn)云等在內(nèi)的超大規(guī)模多模態(tài)數(shù)據(jù)在潛空間的統(tǒng)一表達(dá)、自監(jiān)督學(xué)習(xí)、隱向量對(duì)齊及轉(zhuǎn)換,去建立從微觀到宏觀的不同層次實(shí)體之間的連接關(guān)系,進(jìn)而完成對(duì)世界知識(shí)的構(gòu)建,這就完成了多模態(tài)理解。然后利用同一個(gè)多層解碼器框架,完成從宏觀到微觀的多模態(tài)自回歸生成或模擬。生成式人工智能的特點(diǎn)潛空間特征向量的統(tǒng)一表達(dá)多模態(tài)理解多模態(tài)自回歸生成或模擬(二)生成式人工智能為什么會(huì)取得成功?1.LLM范式啟發(fā)ChatGPT的巨大成功表明,可通過對(duì)全球規(guī)模的互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行自監(jiān)督訓(xùn)練,以此獲得通才能力;同時(shí)采用潛空間的token低維隱向量來統(tǒng)一表達(dá)各種模態(tài),如文本、音頻、圖像、視頻、點(diǎn)云、代碼、信號(hào)、事件流、行為流等。Transformer摒棄了卷積和遞歸,創(chuàng)新性地提出了全局注意力學(xué)習(xí)機(jī)制(包括自注意力與交叉注意力),引入了位置編碼;Transformer能夠統(tǒng)一表達(dá)、對(duì)齊、融合與轉(zhuǎn)換各種模態(tài);滿足比例定律,可出現(xiàn)涌現(xiàn)能力。Transformer對(duì)多模態(tài)的統(tǒng)一表達(dá)與規(guī)?;楷F(xiàn)能力 2.利用自監(jiān)督實(shí)現(xiàn)世界模擬ChatGPT等大型語言模型、Sora等多模態(tài)世界模擬器可完成對(duì)世界范圍內(nèi)全人類多模態(tài)數(shù)據(jù)的自監(jiān)督學(xué)習(xí),以此實(shí)現(xiàn)對(duì)數(shù)字與真實(shí)物理世界的自回歸生成或模擬逼近,并最終構(gòu)建出人類語言智能、知識(shí)模型與世界模型。模擬就是生成3.具有比例定律與涌現(xiàn)能力緩慢增加閾值涌現(xiàn)涌現(xiàn)能力指當(dāng)模型規(guī)模(模型參數(shù)大小、訓(xùn)練集規(guī)模和訓(xùn)練計(jì)算量)超過某個(gè)閾值時(shí),大模型所涌現(xiàn)出的融會(huì)貫通、觸類旁通,獲得接近人類水平的多模態(tài)理解與模仿生成能力,特別是解決多樣化任務(wù)的零樣本學(xué)習(xí)能力與泛化能力獲得大幅度躍升。極限或最大程度地使用深度神經(jīng)網(wǎng)絡(luò)即量變引起質(zhì)變。具有智能涌現(xiàn)的生成式人工智能,可能是人類邁向通用人工智能的必由之路。較小的語言模型不存在涌現(xiàn)能力,涌現(xiàn)已成為區(qū)分大、小語言模型的關(guān)鍵指標(biāo)。無需額外標(biāo)簽的LLM范式的成功實(shí)踐,自回歸生成式Transformer模型所遵從的比例定律,以及由此產(chǎn)生的智能涌現(xiàn),包括涌現(xiàn)理解與涌現(xiàn)模擬能力,是邁向AGI的可行路徑。文生視頻大模型Sora:構(gòu)建可觀察的通用世界模擬器二Sora的重大突破表明,規(guī)?;囊曨l及其他多模態(tài)生成式大型語言模型,是構(gòu)建數(shù)字與物理世界通用模擬器的一條可行且最具前途的技術(shù)途徑。(一)底層架構(gòu)創(chuàng)新1.將各種類型的視頻數(shù)據(jù)轉(zhuǎn)換為時(shí)空塊(patch)序列原始視頻通過視覺編碼器或tokenizer轉(zhuǎn)換為patch

token序列2.預(yù)訓(xùn)練的視頻tokenizer或視覺編碼器原始圖像的切塊過程或patch化3.DiT模型架構(gòu)圖像與視頻質(zhì)量、逼真度、一致性更好,且特別適合于圖像與視頻生成。優(yōu)點(diǎn)Sora將原來的圖像DiT擴(kuò)展為視頻DiT自編碼器示意圖擴(kuò)散模型的反向去噪過程示意圖前向前向反向擴(kuò)散模型的反向去噪過程示意圖解碼器編碼器擴(kuò)散模型的U-Net框架4.視頻DiT的規(guī)?;c涌現(xiàn)能力DiT最重要的特性之一是產(chǎn)生智能涌現(xiàn)出的理解與模擬能力。在Sora中,OpenAI將已有的圖像DiT模型擴(kuò)展為視頻DiT模型,不但可行有效,而且同樣滿足比例定律,即隨著訓(xùn)練計(jì)算量的增加,生成的視頻質(zhì)量會(huì)顯著提高?;鶞?zhǔn)訓(xùn)練計(jì)算量增加到4倍的訓(xùn)練計(jì)算量增加到32倍的訓(xùn)練計(jì)算量出現(xiàn)“涌現(xiàn)能力”的Sora,能夠精準(zhǔn)地模擬一些狀態(tài)平穩(wěn)變化的細(xì)節(jié)。模擬物體運(yùn)動(dòng)過程中出現(xiàn)的光影變化。模擬在與物體相互作用的過程中留下符合常識(shí)的狀態(tài)痕跡。出現(xiàn)“涌現(xiàn)能力”的Sora模擬出場景中的主角與其他物體之間的相互作用符合物理學(xué)原理。出現(xiàn)“涌現(xiàn)能力”的Sora模擬出場景中的主角在出現(xiàn)部分或完全遮擋后,仍能重新恢復(fù)。出現(xiàn)“涌現(xiàn)能力”的Sora,能夠模擬視點(diǎn)或鏡頭的平穩(wěn)變化,并展示背景的細(xì)節(jié)。(二)Sora的核心是世界模擬Sora實(shí)現(xiàn)了文本指令理解與視頻生成,但核心是對(duì)可觀察世界的學(xué)習(xí)模擬。1.文本語言理解大規(guī)模訓(xùn)練樣本自動(dòng)添加詳細(xì)的文本描述式說明文字;基于詳細(xì)的視頻說明文字進(jìn)行訓(xùn)練,不僅可提升文本理解的準(zhǔn)確性,還能提高生成視頻的整體質(zhì)量。利用DALL·E

3自動(dòng)標(biāo)注訓(xùn)練視頻對(duì)文本指令或提示的理解利用了GPT-4

API來將用戶提綱式的文本提示詞自動(dòng)擴(kuò)展為較長的詳細(xì)說明文字,如此可進(jìn)一步增強(qiáng)對(duì)用戶輸入文本指令的理解能力。利用圖像與視頻進(jìn)行提示生成視頻與文本提示類似,作為條件信息,Sora也實(shí)現(xiàn)了對(duì)圖像與視頻提示的理解。2.視頻/圖像生成能力(AIGC)直接根據(jù)文本指令,可靈活地生成分辨率高達(dá)1920×1080(寬屏)或1080×1920(豎屏)的1分鐘高清視頻。生成的視頻包括了光線的變化、視點(diǎn)或鏡頭的變化、物體間的相互作用等物理學(xué)常識(shí),也提供了文本提示的視頻編輯等。文本指令或提示生成視頻利用文本+圖像/視頻進(jìn)行提示以生成視頻Sora可使靜止的DALL·E圖像動(dòng)起來。圖像提示文本提示:一只戴著貝雷帽,穿著黑色高領(lǐng)毛衣的斯巴犬。文本提示:在一個(gè)華麗且古老的大廳中,巨浪卷起,并開始拍浪撞擊。兩名沖浪者抓住時(shí)機(jī),嫻熟地進(jìn)行沖浪。圖像/視頻提示高質(zhì)量圖像生成Sora可以生成不同大小的圖像,最高可達(dá)2048×2048的分辨率。文本提示:一個(gè)女人在秋天的特寫肖像,極其清晰的細(xì)節(jié)展示,使用淺的景深。高質(zhì)量圖像生成Sora可以對(duì)圖像、視頻進(jìn)行文本指令級(jí)別的后期編輯與制作。兩段視頻的無縫過渡拼接(三)Sora的局限性與面臨的各種挑戰(zhàn)1.不能準(zhǔn)確地模擬相變或其他非線性狀態(tài)變化2.偶爾出現(xiàn)幻覺在生成的持續(xù)時(shí)間較長的視頻中,偶爾會(huì)發(fā)生不連貫,或自發(fā)跳出一些不相干的物體,有時(shí)也存在空間左、右不分的情況。生成式語言及世界模型出現(xiàn)模擬偏差是不可避免的。3.Sora的濫用可能帶來的安全、法律、倫理與隱私挑戰(zhàn)濫用的Sora生成視頻可能會(huì)帶來虛假信息或社會(huì)謠言;用于訓(xùn)練與生成的圖像,其數(shù)據(jù)采集源可能涉及知識(shí)產(chǎn)權(quán)及個(gè)人隱私問題;生成的視頻可能有違法律、倫理等;巨量的生成視頻或會(huì)嚴(yán)重污染互聯(lián)網(wǎng)空間;利用AI復(fù)活獲“永生”。4.Sora的未來之路模型規(guī)模、訓(xùn)練量與訓(xùn)練數(shù)據(jù)的持續(xù)規(guī)?;?,無疑是未來發(fā)展的必然趨勢。Sora等視頻GenAI,是發(fā)展真實(shí)物理世界與數(shù)字世界模擬器的可行及有效途徑。目前的Sora在模擬復(fù)雜場景的物理原理方面,仍然存在困難,不僅難以理解世界中的因果關(guān)系,同時(shí)也無法解決幻覺等問題。模擬就是生成:世界模型需要全世界量級(jí)的多模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練與喂養(yǎng)。數(shù)據(jù)智能新物種:理解與模擬人類語言智能與世界知識(shí)三(一)語言智能是人類有別于動(dòng)物的核心標(biāo)志之一使用人類的文本自然語言進(jìn)行預(yù)訓(xùn)練、微調(diào)與安全/價(jià)值對(duì)齊;能夠在“語義”上表達(dá)、理解、生成文本/圖像/視頻/語音等多模態(tài)對(duì)齊實(shí)體及其關(guān)系;能夠利用人類的自然語言進(jìn)行類比、演示、學(xué)習(xí)或提示學(xué)習(xí),在出現(xiàn)智能涌現(xiàn)能力之后,甚至可以實(shí)現(xiàn)接近人類水平的少樣本與零樣本推理、規(guī)劃與“創(chuàng)造”能力。從本質(zhì)上來看,ChatGPT以數(shù)據(jù)驅(qū)動(dòng)的方式模擬了人類的語言智能;ChatGPT作為文本單模態(tài)語言模型,雖不完美,但它證明大語言模型是完全可以模擬人類語言的;ChatGPT能夠理解人類語言,擁有常識(shí)與其他世界知識(shí),也就意味著它能夠像人類一樣觀察、理解與交互外部世界,具有人類思維與行為方式;基于大型語言模型的人工智能不僅是通用人工智能,而且完全有別于過去基于數(shù)據(jù)或特征層次的人工智能。(二)知識(shí)封裝與壓縮:構(gòu)建人類一般性世界知識(shí)新物種封裝和壓縮了人類的一般性知識(shí),包括分布在Transformer框架低層和中層的語言學(xué)知識(shí),如詞法、詞性、句法等淺層知識(shí),以及存儲(chǔ)在中層和高層結(jié)構(gòu)中的抽象的語義類世界知識(shí)。世界知識(shí)常識(shí)型知識(shí)事實(shí)型知識(shí)新物種可以在整體上把知識(shí)互相連接起來,即再通過反復(fù)使用打通路徑連接,在此過程中就有可能發(fā)現(xiàn)一個(gè)新的路徑,這可能是此前人類完全沒想到的路徑,即所謂的“創(chuàng)造”。(三)開始利用外部工具利用外部搜索引擎與向量知識(shí)庫;機(jī)器算力遠(yuǎn)超生物算力的進(jìn)化速度。從互聯(lián)網(wǎng)空間邁向真實(shí)物理世界:賦能垂域應(yīng)用與實(shí)體經(jīng)濟(jì)的發(fā)展四通用人工智能(AGI)的迭代演化路徑單模態(tài)文本大型語言模型多模態(tài)大型語言模型多模態(tài)具身智能多模態(tài)交互式通用人工智能從對(duì)人類語言與對(duì)世界的理解(編碼器)對(duì)世界的模擬生成(解碼器)(一)從文本閱讀理解到多模態(tài)閱讀理解思維鏈、思維樹技術(shù)等可以大大增強(qiáng)大型語言模型(LLM)的推理能力。零樣本思維鏈提示案例零樣本提示:珍妮特的鴨子每天產(chǎn)下16個(gè)蛋。她每天早餐吃3個(gè)鴨蛋,而且每天用4個(gè)鴨蛋為她的朋友烤松餅。同時(shí)她每天在農(nóng)貿(mào)市場,以每個(gè)新鮮鴨蛋2美元的價(jià)格出售剩余的鴨蛋。問題:她每天在農(nóng)貿(mào)市場賺多少錢?(真值:18)珍妮特吃早餐和烤松餅后還剩下多少鴨蛋?她還有多少雞蛋可以在農(nóng)貿(mào)市場出售?她在農(nóng)貿(mào)市場賣雞蛋賺了多少錢?992×9=18具有價(jià)值對(duì)齊的輸出:利用GPT-3.5-Turbo,在指令下問題被自動(dòng)分解為如下子問題:珍妮特吃早餐和烤松餅后還剩下多少鴨蛋?她還有多少雞蛋可以在農(nóng)貿(mào)市場出售?她在農(nóng)貿(mào)市場賣雞蛋賺了多少錢?992×9=18具有價(jià)值對(duì)齊的輸出:利用GPT-3.5-Turbo,在指令下問題被自動(dòng)分解為如下子問題:零樣本CoT自動(dòng)推理:是的,珍妮特每天在農(nóng)貿(mào)市場賺了18美元!GPT-4V具有更強(qiáng)的文本—圖像多模態(tài)閱讀理解能力GPT-4Turbo是迄今最強(qiáng)大的生成式AI。(二)多模態(tài)內(nèi)容生成(AIGC),問世即產(chǎn)業(yè)1.文本生成圖像文本提示詞:一碗湯:它是通向另一個(gè)維度的入口,如數(shù)字藝術(shù)。DALL·E

3生成的圖像2.文本生成視頻3.文本生成語音4.文本生成3D圖形AI建筑學(xué):利用AI模型,輸入提示文本,由AI來自動(dòng)生成建筑設(shè)計(jì)方案及細(xì)節(jié)。5.文本生成代碼6.文本與其他模態(tài)互相轉(zhuǎn)換(三)具身智能:從自動(dòng)駕駛到人形機(jī)器人,賦能真實(shí)物理世界1.裝上“眼睛”的ChatGPT,讓機(jī)器人可以看懂真實(shí)的物理世界VisuaL

groundingSituated

reasoningQuestion

answeringDense

captioning2.裝上“耳朵”的ChatGPT,可以賦能產(chǎn)線與自動(dòng)化工程等自然人機(jī)交互場景,實(shí)現(xiàn)語

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論