謝春宇：多模態(tài)大模型：開放世界理解

上傳人：1*** IP屬地：山西上傳時間：2024-12-30 格式：DOCX 頁數(shù)：97 大小：6.71MB 積分：19.9 舉報 版權(quán)申訴

已閱讀5頁，還剩92頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

多模態(tài)大模型：開放世界理解謝春宇/360多模態(tài)團(tuán)隊負(fù)責(zé)人DataFunSummit#202422圖文多模態(tài)大模型3360多模態(tài)大模型探索44業(yè)務(wù)落地實踐什么是大模型大算力大數(shù)據(jù)大大算力大數(shù)據(jù)大參數(shù)什么是大模型大參數(shù)大算力大數(shù)據(jù)大參數(shù)大算力大數(shù)據(jù)背景o人工智能AGI，我們需要什么？ChatGPT的發(fā)布標(biāo)志著自然語言處理技術(shù)邁入了一個全新的階段。自2022年底亮相以來，它憑借其驚人的語言生成能力，迅速成為AI領(lǐng)域的焦點。ChatGPT能夠進(jìn)行連貫、深度的對話，甚至創(chuàng)作詩歌、撰寫文章，展現(xiàn)出了前所未有的創(chuàng)造力和理解力。這一突破不僅激發(fā)了公眾對于AI技術(shù)的興趣，還加速了科技界對通用人工智能（AGI）的研究步伐。在教育、寫作、娛樂等多個領(lǐng)域，ChatGPT的應(yīng)用潛力正在被不斷挖掘。教育工作者利用它輔助教學(xué)，作家借助它激發(fā)靈感，企業(yè)則將其融入客戶服務(wù)，提高了效率與體驗。同時，ChatGPT也引發(fā)了關(guān)于AI倫理、隱私保護(hù)及就業(yè)市場變革的廣泛討論，促使社會各界思考如何在享受AI紅利的同時，建立相應(yīng)的監(jiān)管框架，確保技術(shù)的健康發(fā)展?？傊?，ChatGPT的出現(xiàn)不僅是技術(shù)上的革新，更是對人類社會未來發(fā)展路徑的一次深刻啟示。背景o人工智能AGI，我們需要什么？?GPT4做為新一代的GPT模型?增加了對視覺模態(tài)輸入的支持，這意味著它能夠理解圖像并進(jìn)行相應(yīng)的自然語言生成?增加了多模態(tài)能力的GPT4也帶來了應(yīng)用層面的更多可能?GPT-4V?增強(qiáng)的視覺能力?分析和理解圖像內(nèi)容，提供描述、識別對象，甚至解釋場景?根據(jù)圖像生成創(chuàng)意文本格式?翻譯圖像中的文本，強(qiáng)大的OCR能力?GPT-4O?具備原生多模態(tài)能力?支持文本、音頻、圖像任意組合?性能提升，更快的響應(yīng)速度背景o視覺能力是通用人工智能AGI需必備的基礎(chǔ)能力——人類智能本身高度依賴于視覺感知理解世界情境感知理解世界學(xué)習(xí)能力識別物體學(xué)習(xí)能力交互能力預(yù)測運(yùn)動視覺-語言跨模態(tài)學(xué)習(xí)?Vision-languagecrossmodallearning，亦稱為VLP（Vision-LanguagePretrain）、VLM（Vision-LanguageModel代表性的工作是20年OpenAI的CLIP，開啟和引領(lǐng)了CV多模態(tài)研究的大模型時代視覺-語言跨模態(tài)學(xué)習(xí)0.4BRadford,Alec,JongWookKim,ChrisHalacy,AdityaRamesh,GabrielGoh,SandhiniAgarwal,GirishSastryetal."Learningtransferablevisualmodelsfromnaturallanguage視覺-語言跨模態(tài)學(xué)習(xí)中文圖文跨模態(tài)模型R2D2圖文跨模態(tài)學(xué)習(xí)帶來的基于內(nèi)容的圖文互檢能力對于互聯(lián)網(wǎng)搜索來說具有非常重要的落地價值，來自于360搜索的實際業(yè)務(wù)需求非常強(qiáng)烈。360搜索：使用跨模態(tài)模型之前的搜索結(jié)果360搜索：使用跨模態(tài)模型之前的搜索結(jié)果360搜索：使用跨模態(tài)模型之后的搜索結(jié)果視覺-語言跨模態(tài)學(xué)習(xí)中文圖文跨模態(tài)模型R2D2?2300萬訓(xùn)練數(shù)據(jù)，在中文圖文檢索任務(wù)上達(dá)到?雙塔base+單塔head的混合模式?專門針對數(shù)據(jù)噪聲設(shè)計的momentum-updatedencoder和maskedinput+softlabel雙蒸餾視覺-語言跨模態(tài)學(xué)習(xí)?伴隨著算法和模型，我們一同開源了對應(yīng)的圖文跨模態(tài)?伴隨著算法和模型，我們一同開源了對應(yīng)的圖文跨模態(tài)數(shù)據(jù)集Zero，包含2.5億中文圖文對數(shù)據(jù)?基于用戶點擊CTR篩選，數(shù)據(jù)質(zhì)量更高2.5億1億2300萬3000萬22圖文多模態(tài)大模型3360多模態(tài)大模型探索44業(yè)務(wù)落地實踐圖文多模態(tài)大模型LMM的研發(fā)回顧?LMM=LargeMultimodalModel，之前亦稱為MLLM（MultimodalLargeLanguageModel目前也有小部分工作為了強(qiáng)調(diào)視覺能力將其稱為LVM(LargeVisionModel)。LMM是在單文本模態(tài)的語言模型LLM基礎(chǔ)上發(fā)展起來的研究方向，旨在解決純文本語言模型LLM只能理解文本輸入的先天缺陷，賦予大模型對多模態(tài)信息混合輸入的理解和處理能力，在此基礎(chǔ)上可以再進(jìn)一步實現(xiàn)多模態(tài)信息的混合輸出能力?相關(guān)的研究路線主要分為兩條：一條是原生多模態(tài)路線，模型設(shè)計從一開始就專門針對多模態(tài)數(shù)據(jù)進(jìn)行適配設(shè)計，代表性的工作有MSRA的KOSMOS、Google的Gemeni、OpenAI的GPT-4O；另一條是單模態(tài)專家模型縫合路線，通過橋接層將預(yù)訓(xùn)練的視覺專家模型與預(yù)訓(xùn)練的語言模型鏈接起來，代表性的工作有23年1月Saleforce的BLIP-2，以及近期GPT-4O5-14-2024的IdeficsGPT-4O5-14-2024Qwen-VL8-15-2023Qwen-VL8-15-2023開源InternVL26-25-2024開源LLaVA4-17-2023開源Gemini12-6-2023Idefics24-15-2024開源圖文多模態(tài)大模型路線選擇路線選擇 ?原生多模態(tài)路線的理論上限更高，但對應(yīng)的是訓(xùn)練成本遠(yuǎn)高于縫合路線；?縫合路線因為可以復(fù)用各個單模態(tài)領(lǐng)域的已有成果，因此具有很經(jīng)濟(jì)的訓(xùn)練成本優(yōu)勢。?少數(shù)的巨頭機(jī)構(gòu)采用的是原生多模態(tài)路線，其它絕大多數(shù)企業(yè)和學(xué)界研究機(jī)構(gòu)采用的是縫合路線圖文多模態(tài)大模型第一代LMM?多模態(tài)LMM的研發(fā)從22年底到現(xiàn)在，從整個業(yè)界的角度來觀察，有著非常明顯的代際更替?第一代LMM（22年11~23年6月）的代表性工作主要包括BLIP-2,LLaVA，miniGPT4以及國內(nèi)智譜的VisualGLM、阿里的mPLUG-owl、自動化所的X-LLM、IDEA的Ziya-Visual等。360人工智能研究院在23年5月開源的SEEChat(360VL的前身)也屬于第一代LMM。?這一代LMM的能力主要為針對圖像內(nèi)容的對話和問答，支持的圖像分辨率非常低（224×224研發(fā)的重心主要聚焦在模態(tài)對齊的原型驗證上證上圖文多模態(tài)大模型第二代LMM?第二代LMM的研發(fā)，時間上大致為23年6~11月。?從第二代LMM的研發(fā)開始，整個業(yè)界開始呈現(xiàn)出研發(fā)投入逐漸增強(qiáng)，研發(fā)競爭急劇擴(kuò)大的情況。?第二代LMM從研發(fā)的角度主要是要為LMM增加目標(biāo)定位的能力，相比粗粒度的圖像內(nèi)容問答，增加目標(biāo)定位能力是多模態(tài)LMM能夠在Agent、機(jī)器人、自動駕駛、安防巡檢等場景中落地實用的必要前提圖文多模態(tài)大模型第三代LMM?從23年11月~至今，業(yè)界已經(jīng)轉(zhuǎn)入第三代LMM的研發(fā)。?第二代LMM的研發(fā)中暴露出以下幾個關(guān)鍵問題，需要在第三代LMM的研發(fā)中進(jìn)一步解決I.高分辨率輸入的支持?2代LMM的分辨率基本都處在336~448之間II.圖文模態(tài)間的競爭?幾乎所有的工作都回避了語言模型能力下降的問題III.多模態(tài)的ScalingLaw?縫合路線的天花板是否已經(jīng)出現(xiàn)圖文多模態(tài)大模型高分辨率輸入的支持?第一代LMM所能處理的圖像分辨率固定為224（對應(yīng)圖像token數(shù)32~256第二代LMM的典型分辨率是336~448。圖文多模態(tài)大模型?多任務(wù)訓(xùn)練一直以來存在任務(wù)間競爭的問題?在多模態(tài)LMM的研發(fā)上，多任務(wù)的競爭問題更為顯著，特別是視覺模態(tài)vs文本模態(tài)的競爭融合路線：在多模態(tài)訓(xùn)練時加入文本數(shù)據(jù)，來緩解LLM的遺忘問題OptionI:保持LLM原有能力，型融合設(shè)計和訓(xùn)練的難度更高。代表性的工作是做為LMM先驅(qū)的Flamingo。模型結(jié)構(gòu)上專門設(shè)計了多模態(tài)融合的縫合層，內(nèi)嵌的LLM訓(xùn)練時固定不受影響。360SEEChat和智譜OptionI:保持LLM原有能力，型融合設(shè)計和訓(xùn)練的難度更高。代表性的工作是做為LMM先驅(qū)的Flamingo。模型結(jié)構(gòu)上專門設(shè)計了多模態(tài)融合的縫合層，內(nèi)嵌的LLM訓(xùn)練時固定不受影響。360SEEChat和智譜圖文多模態(tài)大模型?縫合路線目前最大的障礙：不具有很好的data-performancescalingup能力?當(dāng)前縫合路線的模型結(jié)構(gòu)基本已經(jīng)收斂為imageencoder+projector+LLM的結(jié)構(gòu)，其中imageencoder負(fù)責(zé)圖像編碼，LLM負(fù)責(zé)對話邏輯，projector作為縫合層將視覺編碼器和語言模型進(jìn)行橋接縫合?但是當(dāng)前以LLAVA為代表的淺層縫合模型，通常在百萬訓(xùn)練量級后就已經(jīng)飽和，將訓(xùn)練量提高到千萬甚至幾億的量級并不能帶來LMM模型能力的明顯提升?背后的根本原因，要追溯到縫合路線下LMM中內(nèi)嵌的語言模型能力是否需要保持上?兩種解決方案：?方案一：在imageencoder+projector上做文章，將海量數(shù)據(jù)的信息在預(yù)訓(xùn)練階段訓(xùn)練到視覺編碼器和縫合層中，語言模型參數(shù)僅在最后的指令微調(diào)階段參與訓(xùn)練。代表性的工作包括國內(nèi)零一萬物的Yi-VL，書生浦語InternLM-XComposer-VL，韓國KaKaoBrain的Honeybee等?方案二：在多模態(tài)訓(xùn)練過程中也同步加入相當(dāng)比例的純文本訓(xùn)練數(shù)據(jù)同時進(jìn)行訓(xùn)練，代表性的工作包括Apple的MM1和國內(nèi)幻方的圖文多模態(tài)大模型圖文多模態(tài)大模型?模型結(jié)構(gòu)：采用BLIP2的ViT和Q-Former作為視覺編碼器，采用Vicuna作為文本解碼器，通過一個線性映射層將視覺特征映射到文本表示空間?模型訓(xùn)練：凍結(jié)視覺編碼器和文本解碼器，只訓(xùn)練線性映射層?Pre-traing：5M圖文數(shù)據(jù)對齊?SFT：3.5K人工矯正數(shù)據(jù)圖文多模態(tài)大模型?模型結(jié)構(gòu)：采用CLIPVIT-L/14作為視覺編碼器，采用Vicuna作為文本解碼器，通過一層MLP做線性映射?模型訓(xùn)練：?Pre-traing：從CC3M中通過限制caption中名詞詞組的最小頻率過濾出595k圖文數(shù)據(jù)，凍住視覺編碼器和文本解碼器，只訓(xùn)練線性映射層?SFT：映射矩陣與語言模型均更新圖文多模態(tài)大模型LLaVA-1.5?數(shù)據(jù)?增加更多微調(diào)數(shù)據(jù)?Region-levelVQA?中英雙語ShareGPT?對特定問題設(shè)計prompt?模型?增加VLconnector容量?提升模型分辨率?更大杯LLM圖文多模態(tài)大模型?混合分辨率支持?自適應(yīng)選擇最佳縮放尺寸2x2,2x3等?模型?性能更好的LLM（Mistral-7B、Nous-Hermes-2-Yi-34B?數(shù)據(jù)?高質(zhì)量GPT-4V數(shù)據(jù)（LAION-GPT-V和ShareGPT-4V）?用戶反饋真實數(shù)據(jù)?增強(qiáng)OCR能力（DocVQA、SynDog-EN等）?加強(qiáng)圖表理解能力（ChartQA,DVQA,和AI2D）圖文多模態(tài)大模型DeekSeek-VL?視覺編碼器?384分辨率SigLIP與1024分辨率SAM的結(jié)合，全局+細(xì)節(jié)?語言能力退化？?聯(lián)合視覺語言預(yù)訓(xùn)練中加入大量純文本數(shù)據(jù)圖文多模態(tài)大模型??模型?SigLIP+PerceiverResampler+Mistral-7B?Resampler降低圖像token，提升效率?保持aspectratio，4cropsandoriginal數(shù)據(jù)?interleaved數(shù)據(jù)?圖文對（高質(zhì)量的人工標(biāo)注PMD+高噪聲的laion)?Cauldron微調(diào)數(shù)據(jù)圖文多模態(tài)大模型InternVL2?大容量ViT：InternViT-6B?性能更強(qiáng)的LLM：InternLM2/Llama3?動態(tài)高分辨率策略?視頻等更多數(shù)據(jù)的引入22圖文多模態(tài)大模型3360多模態(tài)大模型探索44業(yè)務(wù)落地實踐360多模態(tài)大模型探索基于單模態(tài)專家縫合方案的多模態(tài)模型SEEChat?SEEChat項目（/360CVGroup/SEEChat）重點是將視覺能力與已有的LLM模型相融合，打造側(cè)重視覺能力的多模態(tài)語言模型MLLM。在多模態(tài)能力的實現(xiàn)路線上，我們選擇了能夠充分復(fù)用不同領(lǐng)域已有成果的單模態(tài)專家模型縫合路線（Single-modalExpertsEfficientintegration）?主打能力：oo嚴(yán)格超集：SEEChatMLLM的視覺能力做為內(nèi)嵌語言模型的嚴(yán)格超集存在，強(qiáng)調(diào)不影響語言模型原有的能力oOVD：在對圖像內(nèi)容的整體理解之外，能夠同步給出涉及目標(biāo)在圖像中出現(xiàn)的位置360多模態(tài)大模型探索oSEEChat?淺層融合模型，主打Dialogue+Captioning+OVD能力模型StageIImage-TextAlignmentHuman-TextAlignmentrStageIIIDomainAlignment360多模態(tài)大模型探索oStageII初版多輪對話效果5-18-2023360多模態(tài)大模型探索oStageII初版多輪對話效果5-18-2023這張照片顯示了一名男子站在一輛出租車前,出租車停在路邊,窗外是一棟高樓和街道。背景是一棟高樓和街道,樹木和路燈照亮了城市。圖像中的人穿著黑色襯衫和白色褲子,戴著黑色帽子。圖像中的樹木這張照片是在夜晚拍攝的,所以背景中的高樓和街道被樹木和路燈照亮,出租車停在路邊。這是一張城市夜景的照片,可以讓人感受到城市360多模態(tài)大模型探索oStageII初版多輪對話效果5-18-2023這張圖片展示了一個街頭市場,人們站在一個貨架前,手里拿著各種這張圖片展示了一個街頭市場,人們站在一個貨架前,手里拿著各種一棟建筑,屋頂上有一個遮陽傘。圖片中的人穿著衣服,看起來很高這張圖片的日期和時間未知。從圖片的背景來看,可可以看出人們穿著夏季服裝,比如短袖襯衫和短褲。在這種情況下,SEEChat圖片中的人似乎正在看報紙,但我沒有注意到他們是否在閱讀。360多模態(tài)大模型探索?實驗探索?數(shù)據(jù)??數(shù)據(jù)?開源數(shù)據(jù)?開源數(shù)據(jù)?Lai?Laion，Zero等中英文原生數(shù)據(jù)?Recaption數(shù)據(jù)?GeneralVQA,OCR,Counting,Detection等?Vicuna1.5??Visionencoder?CLIP-Vit?高分辨率策略?滑動窗口?高分辨率visionencoder?Connector360多模態(tài)大模型探索?結(jié)合實驗探索和內(nèi)部數(shù)據(jù)積累，SeeChat升級為360VL?2024年5月發(fā)布開源版360VL，在MMMU開源模型中排名第一https://github/360CVGroup/360VLhttps://huggingface.co/qihoo360/360VL-8Bhtt

人人文庫> 全部分類> 應(yīng)用文書 > 研究報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

謝春宇：多模態(tài)大模型：開放世界理解

文檔簡介

溫馨提示

最新文檔

評論

謝春宇：多模態(tài)大模型：開放世界理解

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔