版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
多模態(tài)大語(yǔ)言模型(MLLMs)在視覺(jué)問(wèn)答、視覺(jué)理解與推理等任務(wù)中展現(xiàn)出卓越的性能,但多模態(tài)大語(yǔ)言模型龐大的模型規(guī)模和高昂的訓(xùn)練、推理成本限制了其在學(xué)術(shù)界和工業(yè)界的廣泛應(yīng)用。因此,研究高效且輕量化的多模態(tài)大語(yǔ)言模型,特別是在邊緣計(jì)算場(chǎng)景中,潛力巨大。本文將全面介紹當(dāng)前多模態(tài)大語(yǔ)言模型輕量化的方法及研究現(xiàn)狀,并探討其局限性及未來(lái)多模態(tài)大語(yǔ)言模型是一種創(chuàng)新性的人工智能模型,巧妙地融合了大語(yǔ)言模型與多模態(tài)處理能力。它能夠理解和生成涵蓋多種模態(tài)的數(shù)據(jù),如文本、圖像、視頻、音頻等,并通過(guò)多模態(tài)信息的融合實(shí)現(xiàn)更廣泛、更復(fù)雜的任務(wù)。多模態(tài)大語(yǔ)言模型不僅具有強(qiáng)大的語(yǔ)言處理能力,還能通過(guò)對(duì)圖像、視頻或其他模態(tài)的理解,進(jìn)行跨模態(tài)任務(wù)處理,比如視覺(jué)問(wèn)答、視覺(jué)推多模態(tài)大語(yǔ)言模型的成功主要得益于縮放定律(scalinglaw),即資源投入越多,性能越高。然而,高資源需求限制了其開(kāi)發(fā)和部署。例如,MiniGPT-v2模型[16]的訓(xùn)練耗時(shí)超80041.6G內(nèi)存,資源消耗巨大。目前,主流多模態(tài)大語(yǔ)言模型多由少數(shù)企業(yè)掌控,云端運(yùn)行模式引發(fā)普及化和隱私保護(hù)擔(dān)憂,同時(shí),高算力需求也限制了邊緣設(shè)備的應(yīng)用,對(duì)公平訪問(wèn)和隱私保護(hù)構(gòu)成挑戰(zhàn)。鑒于此,輕量化多模態(tài)大語(yǔ)言模型的研究日益受到重視,旨在降低資源消耗、提高適用性,同時(shí)盡量減少多模態(tài)大語(yǔ)言模型主要由三個(gè)核心模塊組成:視覺(jué)編碼器、預(yù)訓(xùn)練大語(yǔ)言模型、以及視覺(jué)-語(yǔ)言投影器,如圖1所示。輕量化多模態(tài)大語(yǔ)言模型的優(yōu)化措施主要集中在對(duì)上述三個(gè)模視覺(jué)編碼器:負(fù)責(zé)接收和處理視覺(jué)輸入。輕量化的多模態(tài)),覺(jué)編碼器在多模態(tài)大語(yǔ)言模型總參數(shù)中的占比較小,其輕量化優(yōu)化的效果不如語(yǔ)言模型顯著,因此大部分輕量化多模態(tài)大語(yǔ)言模型通常仍沿用大規(guī)模多模態(tài)大語(yǔ)言模型中廣泛采用的視覺(jué)預(yù)訓(xùn)練大語(yǔ)言模型:大語(yǔ)言模型是多模態(tài)大語(yǔ)言模型的核心組件,用于管理多模態(tài)信號(hào)并執(zhí)行推理。多模態(tài)大語(yǔ)言模型中獲取小的大語(yǔ)言模型的方案一般分為兩種:一是直接使用小的輕量化模型。輕量化的多模態(tài)大語(yǔ)言模型通常使用參數(shù)少于30億的小型語(yǔ)言模型,如微軟的phi2-2.7B模型[17]和谷歌的以匹配使用常規(guī)數(shù)據(jù)集訓(xùn)練的25倍大模型。Phi-3-mini模型[2]8x7B[18]模型和GPT-3.5等模型相當(dāng)。二是使用模型壓縮技術(shù)對(duì)大語(yǔ)言模型進(jìn)行輕量化處理。一般常用的模型壓縮方法包括:量化,剪枝,知識(shí)蒸餾,緊湊的架構(gòu)設(shè)計(jì),動(dòng)態(tài)網(wǎng)絡(luò)等,這些方法在傳統(tǒng)的深度學(xué)習(xí)網(wǎng)絡(luò)(如CNN和RNN)中已有廣泛應(yīng)用,而在大語(yǔ)言模型的優(yōu)化中也有了更深入的探索。每種方法的具體實(shí)施方案和效果因任務(wù)需求和硬件約束而異,在此不再視覺(jué)-語(yǔ)言投影器:是連接視覺(jué)與文本橋梁,其核心功能是將視覺(jué)特征塊映射至文本特征空間。針對(duì)此模塊的輕量化,包括四種:一是基于注意力。如BLIP2[7]引入了Q-Former,一個(gè)輕量級(jí)的Transformer,使用一組可學(xué)習(xí)的查詢向量從凍結(jié)的視覺(jué)模型中提取視覺(jué)特征。二是基于CNN。如MobileVLMv2[8]提出的LDPv2,通過(guò)使用逐點(diǎn)卷積層、平均池化和帶有跳躍連接的PEG模塊,LDPv2減少了99.8%的參數(shù),在效率上取得了更好的表現(xiàn)。三是基于Mamba。如VL-Mamba[9]在其視覺(jué)-語(yǔ)言投影器中實(shí)合。四是混合結(jié)構(gòu)。如卷積抽象器通過(guò)使用卷積結(jié)構(gòu)高效地建模局部上下文,有助于將視覺(jué)特征抽象為任意平方數(shù)的視覺(jué)已經(jīng)成為多模態(tài)大語(yǔ)言模型輕量化的關(guān)鍵。通過(guò)以下幾種關(guān)鍵多視圖輸入:為了利用低分辨率視覺(jué)編碼器處理高分辨率圖像,一種常見(jiàn)的方法是輸入高分辨率圖像的低分辨率全局視圖,和通過(guò)分割高分辨率圖像獲得局部視圖。例如,LLaVA-UHD[5]提出了一種圖像模塊化策略,將原始分辨率圖像劃分為更token處理:長(zhǎng)視覺(jué)token序列的處理技術(shù)對(duì)于高效的多模態(tài)大語(yǔ)言模型至關(guān)重要,其解決了保持細(xì)粒度細(xì)節(jié)和減少計(jì)算復(fù)雜度的雙重挑戰(zhàn)。例如LLaVA-PruMerge[10]和MADTP[19]提出了多尺度信息融合:利用多尺度圖像信息對(duì)視覺(jué)特征提取至關(guān)重要。這種方法使模型能夠捕捉較小尺度中的細(xì)粒度細(xì)節(jié)和較大尺度中的廣闊背景。例如Mini-Gemini模型[11]包括兩個(gè)編碼器,一個(gè)用于高分辨率圖像,另一個(gè)用于低分辨率視覺(jué)嵌入。它提出了塊信息挖掘,通過(guò)低分辨率視覺(jué)嵌入作為查詢,視頻特定方法:視頻理解還需要處理大量幀,這可能會(huì)突破大語(yǔ)言模型的上下文窗口處理能力,帶來(lái)巨大計(jì)算負(fù)擔(dān)。例如VideoLLaVA[15]基于LanguageBind[20]構(gòu)建,將視覺(jué)表示統(tǒng)一到語(yǔ)言特征空間中,推動(dòng)基礎(chǔ)大語(yǔ)言模型向統(tǒng)一的語(yǔ)言-視覺(jué)大模高效的結(jié)構(gòu)是通過(guò)優(yōu)化模型結(jié)構(gòu)或算法設(shè)計(jì),以更少的資源實(shí)現(xiàn)相近甚至更高的性能,是多模態(tài)大語(yǔ)言模型輕量化的關(guān)專家混合模型:專家混合模型通過(guò)調(diào)節(jié)模型參數(shù)的總數(shù)來(lái)增強(qiáng)模型容量,同時(shí)保持激活參數(shù)不變,從而不會(huì)顯著影響推理速度。MoE-LLaVA[12]提出了一種基于專家混合模型的稀疏M多模態(tài)大語(yǔ)言模型框架,能夠有效增加參數(shù)數(shù)量,而不影響計(jì)算Mamba:Mamba[21]是一種新型效處理信息密集型數(shù)據(jù)(如語(yǔ)言建模)而設(shè)計(jì)。Cobra[13]將性能媲美LLaVA,但參數(shù)僅用43%。模型架構(gòu),加快推理速度。SPD[14]提多模態(tài)大語(yǔ)言模型的輕量化發(fā)展仍處于初期階段,仍有很(一)突破多模態(tài)信息處理的局限是關(guān)鍵。輕量化的多模態(tài)大語(yǔ)言模型在處理多模態(tài)信息時(shí)面臨挑戰(zhàn),通常僅能接受單一圖像,這限制了能夠處理更多元模態(tài)標(biāo)記的復(fù)雜模型的進(jìn)一步拓展。而這類復(fù)雜模型對(duì)于對(duì)于理解長(zhǎng)視頻和分析包含圖像與文本混合的長(zhǎng)篇文檔等應(yīng)用場(chǎng)景有著極為關(guān)鍵的價(jià)值,可以(二)輸入輸出模態(tài)擴(kuò)展是未來(lái)發(fā)展的重點(diǎn)。當(dāng)前主要的輕量化多模態(tài)大語(yǔ)言模型支持的是雙輸入模態(tài)-圖像和文本,以及單一輸出模態(tài)-文本,但現(xiàn)實(shí)世界中的模態(tài)遠(yuǎn)不止于此。未來(lái),通過(guò)擴(kuò)大高效多模態(tài)大語(yǔ)言模型的輸入模態(tài)范圍,以適應(yīng)更多樣化的輸入類型,并增強(qiáng)其生成能力,將顯著增強(qiáng)其多功(三)可在邊緣部署的輕量化多模態(tài)大語(yǔ)言模型將推動(dòng)機(jī)器人等智能設(shè)備發(fā)展。輕量化的多模態(tài)大語(yǔ)言模型將賦予終端設(shè)備更高效、更智能且多模態(tài)的處理能力,使智能設(shè)備得以與現(xiàn)實(shí)世界無(wú)縫互動(dòng)。特別在機(jī)器人領(lǐng)域,輕量化多模態(tài)大語(yǔ)言模型將極大提升機(jī)器人對(duì)環(huán)境理解的準(zhǔn)確性,增強(qiáng)任務(wù)執(zhí)行的visionlanguageassista[2]YizhangJin,JianLi,YexinLiu,TianjunGu4,KaiWu,YabiaoWang,ChengjieWangandLizhuangMa.EfficientMultimodalLargeLanguageModels:ASurvey.ar[3]HaotianLiu,ChunyuanLi,QingyangWu,andYongJaeLee.GabrielGoh,SandhiniAgarwal,GirishSastry,AmandaAskell,2:Bootstrappinglanguage-imagepretrainingwithfrozvisionlanguagemodel.arXivpreprintarXZhao,MingzhenSun,QiWu,andJingLiu.Vl-mambgemini:Miningthepotentialofmulanguagemodels.arXivpreprinJin,JunwuZhang,MunanNing,anpreprintarXiv:2401.159preprintarXiv:2403.145[16]JunChen,DeyaoZhu,XiaoqianShen,XiangLi,ZechunLiu,multi-tasklearning.arXivpreprintarXiv:2310.09478,2023.smalllanguagemodels.Microsoft[18]AlbertQ.Jiang,AlexandreSablayrolles,AntoineRoux,ArthurMenschandBlancheSavary.Mixtralof[19]JianjianCao,PengYe,ShengzeLi,ChongYu,Yanson
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025合同模板股權(quán)投資合作合同
- 解碼生命奧秘醫(yī)療技術(shù)的未來(lái)展望
- 科技展會(huì)的活動(dòng)創(chuàng)新與亮點(diǎn)挖掘
- 水利建設(shè)對(duì)高效農(nóng)業(yè)發(fā)展的推動(dòng)作用
- 課題申報(bào)參考:客家珍稀文書(shū)文字研究
- 課題申報(bào)參考:抗戰(zhàn)時(shí)期樂(lè)西公路與沿線各民族國(guó)家認(rèn)同建構(gòu)研究
- 數(shù)字技術(shù)與生態(tài)農(nóng)業(yè)的協(xié)同創(chuàng)新策略
- 深井泵房施工組織設(shè)計(jì)
- 歷年英語(yǔ)四級(jí)真題及答案
- 2025年華師大新版七年級(jí)歷史下冊(cè)月考試卷
- 數(shù)學(xué)-山東省2025年1月濟(jì)南市高三期末學(xué)習(xí)質(zhì)量檢測(cè)濟(jì)南期末試題和答案
- 中儲(chǔ)糧黑龍江分公司社招2025年學(xué)習(xí)資料
- 湖南省長(zhǎng)沙市2024-2025學(xué)年高一數(shù)學(xué)上學(xué)期期末考試試卷
- 船舶行業(yè)維修保養(yǎng)合同
- 2024年林地使用權(quán)轉(zhuǎn)讓協(xié)議書(shū)
- 物流有限公司安全生產(chǎn)專項(xiàng)整治三年行動(dòng)實(shí)施方案全國(guó)安全生產(chǎn)專項(xiàng)整治三年行動(dòng)計(jì)劃
- 2025屆江蘇省13市高三最后一卷生物試卷含解析
- 產(chǎn)鉗助產(chǎn)護(hù)理查房
- 招聘專員轉(zhuǎn)正述職報(bào)告
- (完整版)小學(xué)生24點(diǎn)習(xí)題大全(含答案)
- 四川省2023年普通高等學(xué)校高職教育單獨(dú)招生文化考試(中職類)數(shù)學(xué)試題(原卷版)
評(píng)論
0/150
提交評(píng)論