大模型原理與技術(shù)-課件 chap10 多模態(tài)大模型_第1頁
大模型原理與技術(shù)-課件 chap10 多模態(tài)大模型_第2頁
大模型原理與技術(shù)-課件 chap10 多模態(tài)大模型_第3頁
大模型原理與技術(shù)-課件 chap10 多模態(tài)大模型_第4頁
大模型原理與技術(shù)-課件 chap10 多模態(tài)大模型_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

多模態(tài)通用大模型魏明強、宮麗娜計算機科學與技術(shù)學院智周萬物?道濟天下o

引言和目標o

多模態(tài)數(shù)據(jù)集介紹o

CLIPo

GPT-4Vo

ImageBindo

3D-LLMo

Sora

目錄23

目錄o

引言和目標o

多模態(tài)數(shù)據(jù)集介紹o

CLIPo

GPT-4Vo

ImageBindo

3D-LLMo

Sorao

多模態(tài)大模型是一種能夠同時處理和理解多種類型數(shù)據(jù)的人工智能模型,旨在模擬人類多感官的信息處理方式。o

本章將介紹多模態(tài)大模型的基礎(chǔ)概念、代表性模型(如CLIP和GPT-4V)、關(guān)鍵技術(shù)、實際應用,以及未來的發(fā)展趨勢。學習目標:掌握多模態(tài)大模型的關(guān)鍵技術(shù)和代表性模型的架構(gòu);

引言和目標49

目錄o

引言和目標o

多模態(tài)數(shù)據(jù)集介紹o

CLIPo

GPT-4Vo

ImageBindo

3D-LLMo

Sora多模態(tài)數(shù)據(jù)集介紹10數(shù)據(jù)集年份模態(tài)描述圖像文本點云GQA2019年??大規(guī)模視覺推理和問答數(shù)據(jù)集HowTo100M2019年??大規(guī)模敘事視頻數(shù)據(jù)集Conceptual-12M2021年??拓展于ConceptualCaptions數(shù)據(jù)集YT-Temporal-180M2021年??覆蓋多種主題的大規(guī)模多樣化數(shù)據(jù)集WebVid-2M2021年??大規(guī)模視頻-文本對數(shù)據(jù)集ModelNet2015年??廣泛使用的合成3D模型數(shù)據(jù)集ShapeNet2015年??大規(guī)模的合成3D模型數(shù)據(jù)集ScanObjectNN2019年??真實世界中掃描得到的3D模型數(shù)據(jù)集KITTI2012年???廣泛使用的真實自動駕駛基準數(shù)據(jù)集nuScenes2019年???標注細致的真實駕駛場景數(shù)據(jù)集Waymo2019年???大規(guī)模跨城市的真實自動駕駛數(shù)據(jù)集表10.1常用多模態(tài)數(shù)據(jù)集多模態(tài)數(shù)據(jù)集介紹10GQA數(shù)據(jù)集示例HowTo100M數(shù)據(jù)集示例ScanObjectNN數(shù)據(jù)集示例KITTI數(shù)據(jù)集示例14

目錄o

引言和目標o

多模態(tài)數(shù)據(jù)集介紹o

CLIPo

GPT-4Vo

ImageBindo

3D-LLMo

SoraCLIP:探索圖文結(jié)合的奧秘CLIP是OpenAI提出的多模態(tài)大模型,CLIP融合了對語言和圖像信息的綜合處理,不僅在圖像分類和物體檢測等傳統(tǒng)視覺任務上取得了領(lǐng)先的性能,而且在自然語言處理等領(lǐng)域也表現(xiàn)出色。對比學習預訓練文本編碼器Transformer圖像編碼器ResNet-50VisionTransformer(ViT)CLIP:探索圖文結(jié)合的奧秘訓練過程

偽代碼CLIP:探索圖文結(jié)合的奧秘CLIP的零樣本預測能力CLIP:探索圖文結(jié)合的奧秘相關(guān)應用圖像編輯開放詞匯目標檢測CLIP:探索圖文結(jié)合的奧秘相關(guān)應用文本生成圖像文本生成三維形狀

目錄16o

引言和目標o

多模態(tài)數(shù)據(jù)集介紹o

CLIPo

GPT-4Vo

ImageBindo

3D-LLMo

SoraGPT-4V:大模型視覺能力新篇章GPT-4V是OpenAI推出的多模態(tài)語言模型,它的主要特點是能夠處理圖像和文本輸入。這使得它可以理解并生成與圖像相關(guān)的文本描述,回答視覺相關(guān)的問題,甚至在更復雜的多模態(tài)任務中表現(xiàn)出色。在本節(jié)中,我們將重點介紹GPT-4V的輸入模式及其所具備的部分視覺語言能力。GPT-4V能夠處理三種主要類型的輸入:純文本輸入單一圖像-文本對輸入交錯圖像-文本對輸入GPT-4V:大模型視覺能力新篇章GPT-4V:大模型視覺能力新篇章上下文少樣本示例學習GPT-4V:大模型視覺能力新篇章理解和表達視覺信息在人類認知中扮演著至關(guān)重要的角色。GPT-4V以其卓越的視覺理解和描述能力,在解讀圖像信息方面展現(xiàn)出了極強的表現(xiàn)。GPT-4V展現(xiàn)了卓越的視覺語言能力,能夠理解和表達復雜的視覺信息。這種能力體現(xiàn)在多個高級視覺任務中:名人識別地標識別食物識別醫(yī)學影像分析場景理解GPT-4V:大模型視覺能力新篇章高級視覺任務應用空間關(guān)系理解對象計數(shù)對象定位…………o

引言和目標o

多模態(tài)數(shù)據(jù)集介紹o

CLIPo

GPT-4Vo

ImageBindo

3D-LLMo

Sora

目錄2ImageBind:多感官統(tǒng)一以CLIP和GPT-4V為代表的多模態(tài)大模型在音頻、深度、熱像等感官領(lǐng)域仍有一些不足。在這一背景下,Meta

AI提出了一種多感官統(tǒng)一大模型,即ImageBind。六種感官統(tǒng)一到聯(lián)合嵌入空間圖像/視頻文本音頻深度熱像IMUImageBind:多感官統(tǒng)一相關(guān)應用跨模態(tài)檢索嵌入空間算術(shù)音頻生成圖像…ImageBind:多感官統(tǒng)一PouringTrainsRain音頻->圖像文本->音頻&圖像音頻&圖像->圖像應用示例ImageBind:多感官統(tǒng)一使用方法(/facebookresearch/ImageBind.git)即插即用靈活可拓展多模態(tài)內(nèi)容創(chuàng)作零成本模型升級多模態(tài)圖像搜索o

引言和目標o

多模態(tài)數(shù)據(jù)集介紹o

CLIPo

GPT-4Vo

ImageBindo

3D-LLMo

Sora

目錄23D-LLM:將3D世界注入大模型3D-LLM是加州大學、上海交通大學等多所高校的學者聯(lián)合提出的一種新的三維大模型。這一技術(shù)在機器人領(lǐng)域展現(xiàn)出了較大的應用潛力,因為它可以將三維世界的知識注入到大模型中,使智能體在三維環(huán)境中能夠更有效地進行導航、規(guī)劃和執(zhí)行任務。3D-LLM:將3D世界注入大模型三維數(shù)據(jù)生成o

基于Boxes-Demonstration-Instruction的提示l

輸入三維場景中物體的軸對齊包圍框(Axis-AlignedBoundingBoxes:AABB),以提供場景的語義和空間位置信息,并通過向GPT模型提供具體的特定指令,從而生成多樣化的數(shù)據(jù)。o

基于ChatCaptioner的提示l

利用ChatGPT輸入提示,詢問一系列關(guān)于圖像的信息性問題(InformativeQuestions),隨后使用BLIP-2模型回答這些問題。o

基于Revision的提示l

該方法可用于將一種類型的三維數(shù)據(jù)轉(zhuǎn)換為另一種類型。3D-LLM:將3D世界注入大模型o

Objaversel

包含八十萬個三維物體。由于這些物體的語言描述是從在線資源中提取的,未經(jīng)人工校驗,因此大多數(shù)描述包含大量噪聲,如網(wǎng)址等,或根本無法生成描述。研究者們利用基于ChatCaptioner的提示功能,為這些場景生成高質(zhì)量的三維場景相關(guān)描述。o

ScanNet

l

包含約一千個三維室內(nèi)場景的豐富標注數(shù)據(jù)集,提供了場

景中物體的語義和邊界框信息。o

Habitat-Matterport(HM3D)l

一個反映人工智能三維環(huán)境的數(shù)據(jù)集。HM3DSem為HM3D的兩百多個場景進一步添加了語義注釋和邊界框。3D-LLM:將3D世界注入大模型3D-LLM訓練方式3D-LLM:將3D世界注入大模型o

模型推理l

下載objaverse子集特征l

下載預訓練檢查點o

模型微調(diào)l

下載預訓練檢查點:修改yaml配置文件中的“resume_checkpoint_path”路徑l

下載問題:修改yaml配置文件中的“annotations”路徑l

下載scannet特征或3dmv-vqa特征:修改“l(fā)avis/datasets/datasets/thirdvqa_datasets.py”中的路徑(train和val)3D-LLM安裝與實現(xiàn)3D-LLM:將3D世界注入大模型3D-LLM應用圖譜3D-LLM:將3D世界注入大模型3D-LLM應用范圍c機器人技術(shù)實體人工智能智能導覽和規(guī)劃…………o

利用3D-LLM,機器人能夠更靈活地感知和理解三維環(huán)境,有效執(zhí)行復雜任務,如導航、物體抓取和環(huán)境交互等。o

3D-LLM可用于增強實體的感知和認知能力,提高其與環(huán)境的交互效果,尤其在虛擬現(xiàn)實和增強現(xiàn)實等場景中有較多潛在應用。o

應用于智能導覽和規(guī)劃中,3D-LLM可以幫助系統(tǒng)更好地理解復雜的環(huán)境結(jié)構(gòu),并提供更智能、個性化的導覽和規(guī)劃服務。o

引言和目標o

多模態(tài)數(shù)據(jù)集介紹o

CLIPo

GPT-4Vo

ImageBindo

3D-LLMo

Sora

目錄2Sora:文生視頻,理解世界Sora是OpenAI推出的多模態(tài)語言模型,它能夠根據(jù)給出的提示信息有效生成高質(zhì)量的、擬真的高清晰度視頻。它通過分塊編碼和擴散模型結(jié)合方案,賦予了模型更低的運算成本、更高的生成自由度和更擬真的生成效果。Thisclose-upshotofachameleonshowcasesitsstrikingcolorchangingcapabilities.Thebackgroundisblurred,drawingattentiontotheanimal’sstrikingappearance.(這張變色龍的特寫鏡頭展示了它驚人的變色能力。背景模糊,吸引人們注意這只動物引人注目的外觀)Thecamerarotatesaroundalargestackofvintagetelevisionsallshowingdifferentprograms—1950ssci-fimovies,horrormovies,news,static,a1970ssitcom,etc,setinsidealargeNewYorkmuseumgallery.(鏡頭圍繞著一大堆老式電視機旋轉(zhuǎn),播放著不同的節(jié)目——20世紀50年代的科幻電影、恐怖電影、新聞、靜態(tài)節(jié)目、20世紀70年代的情景喜劇等,背景是紐約的一個大型博物館畫廊。)Sora:文生視頻,理解世界Sora是基于DiT的隱空間擴散模型,與原始版本的擴散模型不同,DiT使用Transformer進行逆擴散過程。相比U-Net,Transformer架構(gòu)的參數(shù)可拓展性強,即隨著參數(shù)量的增加,Transformer架構(gòu)的性能提升會更加明顯。在此基礎(chǔ)上,Sora使用了時空感知模塊,使其具有此前基于圖像生成的擴散模型進行的精調(diào)模型所不具備的超凡的時空感知能力。1.時空深度融合Sora重新訓練了一套能直接壓縮視頻的自編碼器。相比之前的工作,Sora的自編碼器不僅能提取像素空間維度特征,還能提取時間維度特征2.處理任意分辨率、時長的視頻在訓練和生成時使用的視頻可以是任何分辨率、任何長寬比、任何時長的。這意味著視頻訓練數(shù)據(jù)不需要做縮放、裁剪等預處理3.真正地理解世界Sora能夠更正確認識物體在世界中客觀存在的事實,能夠穩(wěn)定地維持目標;Sora能夠更正確地理解真實世界中目標間相互作用;Sora具有一定的進行“超視覺”邏輯信息推理的能力Sora:文生視頻,理解世界局限性與爭議能力有限理解世界?效果不達標仍未完成OpenAI于2024年2月首次公布了Sora的技術(shù)報告,但是截至2024年9月,Sora仍然未進行公開或半公開的測試,僅有極少數(shù)團隊被允許在小范圍內(nèi)受限地試用Sora。楊立昆(YannLeCun)Meta首席人工智能科學家ACM圖靈獎得主根據(jù)提示生成看起來十分擬真的視頻無法表明系統(tǒng)能夠理解真實世界,通過生成像素來對世界進行建模是一種浪費,并且注定會失敗。李沐

前Amazon首席科學家BosonAI聯(lián)合創(chuàng)始人模型跟前作DiT可能變化不大,但是用了幾百倍的算力…目前的技術(shù)報告缺

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論