2024萬億規(guī)模中文多模態(tài)預訓練模型M6_第1頁
2024萬億規(guī)模中文多模態(tài)預訓練模型M6_第2頁
2024萬億規(guī)模中文多模態(tài)預訓練模型M6_第3頁
2024萬億規(guī)模中文多模態(tài)預訓練模型M6_第4頁
2024萬億規(guī)模中文多模態(tài)預訓練模型M6_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

萬億規(guī)模中文多模態(tài)預訓練模型M6?錄M6模型簡介M6從百億到萬億的技術迭代M6能?的下游應?M6?到圖?成模型創(chuàng)新背景預訓練技術的時代背景:大規(guī)模數(shù)據(jù)與極致算力的結合,自監(jiān)督學習對標注樣本需求大大降低的同時,能獲取比較通用&以大力出奇跡的風格,用更少的模型,做更多的事情 MoCo多模態(tài):不同模態(tài)(模型)之間的協(xié)同是當下AI的一個短板,具備長期的研究意義。自然語言可以鏈接不同模態(tài)的語義/文案生成/圖文互搜/客服&問答/安全審核/分類…】,場景豐富、標注數(shù)據(jù)少,需要預訓練任務提供隱式的知識M6Milestone M6:Multi-Modality-to-Multi-ModalityMultitaskMega-transformer2020.03.30——Vision-and-LanguageInteractionforMulti-modalPretraining,1.7億2021.01.05——M6百億多模態(tài)預訓練模型達成&基礎下游模型2021.02.27——M6千億多模態(tài)預訓練模型達成&文到圖生成模型2021.05.31——M6萬億多模態(tài)預訓練模型達成&內(nèi)部業(yè)務實踐與服務化M6-模型 M6模型架構:基于自注意力的transformer模塊同時兼容理解任務&生成任務,容易scaleupPatch-basedbackbone(Resnet50/EfficientNet/VIT/…)替換ObjectDetectionbackboneM6多任務預訓練:利用不同的mask理解和生成。m6:achinesemultimodalpretrainer,/abs/2103.00823,KDD21’M6-參數(shù)ScaleUp 參數(shù)&算力探索國外研究機構的眾多NLP/CV預訓練模型的實踐經(jīng)驗表明,參數(shù)越多效果越好;國內(nèi)算力&infra起步較晚在阿里的infra環(huán)境下,探索了大規(guī)模模型&數(shù)據(jù)并行對CV/NLP這類預訓練模型的支持,1B10B100B1000BandMore?10B標準dense模型:zero-optimizer,cpuoffload節(jié)省顯存dense模型scaleup難度高,ROI產(chǎn)出低,需要尋求更高效的解決方案caseheadshiddenNum.layersSeqlenBatchsizeNum.GPUspeed10Bdense12840965014432*256256220samples/sScaleto100Bdense128921610014448321.7samples/sMOE-Transformer示例

功效:FLOPS(算力)固定情況下,參數(shù)增大難點:Expert間LoadBalanceCapacityLimitAuxiliaryLoss內(nèi)部TF-Whale的并行框架支持M6高效分布式訓練利用Whale實現(xiàn)Mixture-of-Experts的并行算子;采用ep+dp的混合并行模式;結合GradientCheckpoint、Optimizer峰值顯存優(yōu)化、通信池化、混合精度、編譯優(yōu)化等技術減少GPU高訓練效率;千億模型128張A100可以實現(xiàn)1400+samples/s參數(shù)大小對下游任務的影響 參數(shù)大小對下游任務的影響 VQA(FMIQA)LM ImageCaptioning

Classification480V10032G完整實現(xiàn)了萬億參數(shù)M6模型的訓練,并report收斂情況AdamAdafactor省顯存,但也帶來極大的收斂難度探索了MoE結構在大模型中的各種訓練問題,提出了ExpertPrototyping的方法,最終實現(xiàn)5倍加速對比Nvidia(3072GPU/萬億)、Google(2048TPU/萬億)更高效,算力資源降低8成,且效率提升近11倍ExploringSparseExpertModelsandBeyond,/abs/2105.15082ExploringFactorsinMoEModels Expertcapacitytoavoidoverload#tokensinabatchN:#expertsK:top-kroutingTheEffectofSparseActivation Computationefficiency(GFLOPs)oftop-kroutingwithdifferentkTrainingspeed(ms)ofmodelswithdifferenttop-kroutingstrategies.增加top-k個數(shù),會降低效率,提升模型實際容量,提升效果;一定程度上增大capacity會降低效率但提升模型能力; 12ExpertPrototypingofMoEExpertPrototypingofMoE希望用相同的參數(shù)量,增加模型的表達能力希望能提升topk的執(zhí)行速度增加top-k個數(shù),會降低效率,提升效果;一定程度上增大capacity會降低效率但提升模型能力;分組topk能在提升效率的情況下保持模型效果通用下游任務(Text2ImageSyntesis)圖——>(ageapt,VQ)文——>文生成(Q,續(xù)寫,datatet)圖文互搜(搜索)通用能力:圖到文生成(描述/推薦理由) M6-small:經(jīng)典的西裝領設計,修飾頸部線條,凸顯女性的干練氣上身挺括有型。M6-median:純色西裝領外套,經(jīng)典西裝領,精致的走線工藝,腰間腰帶日扣收腰,立體顯瘦,袖口荷葉邊拼接設計,抬手臂間,帶出嫵媚溫柔的女人味。衣身面料凹凸有致,豐富衣服層次感。M6-large:一款簡約不失優(yōu)雅氣質(zhì)的風衣,采用經(jīng)典翻領設計,完美修飾臉型。腰間系帶裝飾,可根據(jù)自身需求調(diào)節(jié)松緊度,穿著舒適方便。兩側大口袋點綴,豐富層次感很實用。M6M6通用能力:圖到文生成(VQA) 通用能力:寫作訓練 M6M6通用能力:其他用法,e.g.,zero-shot分類 M6特色下游任務:文到圖生成多模態(tài)預訓練模型工業(yè)級應用落地現(xiàn)狀 工業(yè)界的特點:數(shù)據(jù)類型多、場景豐富、標注數(shù)據(jù)少目前阿里內(nèi)部使用m6已落地的業(yè)務場景,抽象出的典型任務:生成類任務:(fewshot)文案生成素材生成服飾設計推薦理由生成

檢索類任務:文本搜索圖文匹配talk2car

分類任務:評論情感分類(zeroshot/fewshot)分類下游任務Finetune:用戶可以自定義model在m6的基礎上進行finetune加contrastiveloss在m6上獲得更好的檢索效果在inference階段修改變成data2text…M6下游任務:文本到圖像的生成M6下游任務:文本到圖像的生成Stage1 Stage2利用預訓練語言模型做圖像生成,核心方法在于兩階段學習。1負責學習圖像的離散code表示,我們使用做能還原更加高清的圖像2使用預訓練的M6做text+code的聯(lián)合學習,利用語言模型的訓練目標,構建文本和圖像離散表示的關聯(lián)生成階段,M6根據(jù)輸入文本生成code序列,并利用1的decoder將code序列還原成圖像工業(yè)級AIDesigner工業(yè)級AIDesigner根據(jù)潮流趨勢文本的描述,自動產(chǎn)出細節(jié)清晰的服裝圖破洞牛仔褲吊帶法式甜美連衣裙更可控的圖像生成更可控的圖像生成Controls(TC)VisualControls(VC)PreservationControls(PC)Combinationsof1/2/3

Autoregressive的方式生成難以滿足比如PC這類的需求,不太靈活UFC-BERT:UnifyingMulti-ModalControlsforConditionalImageSynthesis,/abs/2105.14211#Task1:MaskedSequenceModeling,similartoMLMinBERTFourmaskstrategies:(1)randomlymask;(2)maskalltokens;(3)maskthetokenswithinsomeboxedareasoftheimage;(4)maskthetokensoutsidesomerandomboxedareasoftheimage.Fourcombinationsofcontrolsignals:<TC,VC>,<TC>,<VC>,<empty>(probabilities0.20,0.55,0.20,0.05)#Task2:相關性(inbatchcontrol作為負樣本)#Task3:真實性(前一版模型產(chǎn)出作為負樣本)InferenceMask-Predictpredictsalltargettokensgivenafully-maskedsequenceatthefirstiterationre-maskandre-predictasubsetoftokenswithlowprobabilityscoresforaconstantnumberofiterations.

PNAGbasedonth

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論