版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第1章大模型技術(shù)概 第2章語言大模型技 2.4.5語言大模型的工具學(xué) 第3章多模態(tài)大模型技 第4章大模型技術(shù)生 第5章大模型的開發(fā)訓(xùn)練與推理部 第6章大模型應(yīng) 第7章大模型的安全 第8章總結(jié)與思 名詞索 126年GofryHnn解由于梯度消失而導(dǎo)致的深層網(wǎng)絡(luò)難以訓(xùn)練的問題[1],為神經(jīng)網(wǎng)絡(luò)的有效學(xué)習(xí)提供了重要的優(yōu)化途徑。此后,深度學(xué)習(xí)在計算機視覺[2[34+標注數(shù)據(jù)微調(diào)”的預(yù)訓(xùn)練模型,再到如今的“大規(guī)模無標注數(shù)據(jù)預(yù)訓(xùn)+指令微調(diào)+人類對齊”的大模型,經(jīng)歷了從小數(shù)據(jù)到大數(shù)據(jù),從小2022OpenAIChatGPT引發(fā)了社會ChatGPT為代表的大模型技術(shù)可以在經(jīng)濟、法律、本序列的生成概率。特別地,N-gram語言模型[6]認為下一個詞匯的訓(xùn)練語言模型包括EM[9P11]和BET1]Lo模型基于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)[12]構(gòu)建,存在長距離序列rsormer13GP1和Trnsormr架構(gòu)一個重要的經(jīng)驗性法則是擴展定律(ScalingLaw)[14]:隨著模型參1-120182023年間典型預(yù)訓(xùn)練模型的參數(shù)量變化趨勢。OpenAIGPTGPT-1[10][16]三個不同參數(shù)規(guī)模的模型,谷歌也推出了參數(shù)規(guī)模高達5400億參數(shù)的PaLM模型[17]。當(dāng)模型參數(shù)規(guī)模達到千億量級,語言大模型能夠展現(xiàn)出多方面的能力躍升[18]。例如,GPT-3在沒有微調(diào)的情況下,可以僅通過提示詞或少數(shù)樣例(In-contextlearning,上下文學(xué)習(xí)(Large1-12018-2023年模型參數(shù)規(guī)模變化圖(InstructionTuning)[20]以及基于人類反饋的強化學(xué)習(xí)(ReinforcementLearningfromHumanFeedback,RLHF)[21]化能力;基于人類反饋的強化學(xué)習(xí)(1-2所示)將人類標注者引(包括思維鏈(Chain-of- CoT)[22]、思維1-2OeAIrnfomerG-1asormer(dede-nyrnsorer)+G-2初步驗證了擴大模型參數(shù)規(guī)模的有效性(擴展法則,并且探索了基于自然GP3模型效果,提出了基于“上下文學(xué)習(xí)”的任務(wù)解決方法;CdX2]使用代碼數(shù)據(jù)對P-3ntucGT2(H化對于人類指令的遵循能力和人類偏好的對齊能力;aGPT與IntutGT的技術(shù)原理相似,進一步引入了對話數(shù)據(jù)進行學(xué)習(xí),從而加強了多輪對話能力;GP42]能夠處理更長的上下文窗口,具大模型服務(wù)平臺正向個人開放及商業(yè)落地應(yīng)用延伸,不同公司互有側(cè)重OeAIAPI地面向公眾開放的大模型服務(wù)平臺,用戶可以通過API訪問不同的GPTClde系列模型是由nhiclue和lade-ntt該系列模型通過無監(jiān)督預(yù)訓(xùn)練、基于人類反饋的強化學(xué)習(xí)和CntuinlI()Clde0Klde20K基于百度文心大模型的知識增強語言大模型,提供APP、網(wǎng)頁版、API提供了分桶梯度、通信計算重疊、跳過同步等技術(shù),支持大規(guī)模的分架,ZeRO技術(shù)減少冗余內(nèi)存訪問,使得可以訓(xùn)練萬億級模型。開LLaMA[30]實現(xiàn)高效訓(xùn)練。Falcon[31]TII研究院,最大規(guī)模型的生成能力。Baichuan系列模型由百川智能開發(fā),支持中英雙語,Baichuan2在保留原有模型優(yōu)勢的基礎(chǔ)上,增強了邏輯推理等方面的能力。CPM33][34]系列采用經(jīng)典的語言模型自回歸訓(xùn)練方式,NLP任務(wù)上均表現(xiàn)卓越。ChatGPT為代表的大模型技術(shù)取得關(guān)鍵性突破,但當(dāng)前1]、4]情景學(xué)習(xí)能力[19][7]等方面有待展開深入研究,為大模型的大規(guī)模2rnsomer將模型在大規(guī)模無標注數(shù)據(jù)上進行自監(jiān)督訓(xùn)練得到預(yù)訓(xùn)練模型,2)將模型在下游各種自然語言處理任務(wù)上的小規(guī)模有標注數(shù)據(jù)進行微(ageLnugedel,LL)TransformerTransformer架構(gòu)[13]是目前語言大模型采用的主流架構(gòu)[5]于自注意力機制(Self-attentionMechanism)Transformer2-1-解碼器架構(gòu),其編碼器和解碼器均由一個編碼層和若干相同的Transformer模塊層堆疊組成,編碼器的Transformer模塊層包括多頭注意力層和全連接成,其中每個Transformer層多了一個交叉注意力層。相比于傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)和長短時記憶神經(jīng)網(wǎng)絡(luò)(LongShort-TermMemoryNetwork,LSTM,Transformer架構(gòu)的Transformer架構(gòu)包含編碼層與Transformer模塊兩個核心組件,2-1Transformer架構(gòu)讓模型能夠理解序列中的順序信息,引入了位置編碼。標準Transformer架構(gòu)的位置編碼方式是使用正弦和余弦函數(shù)的方法。對idd是模jj是偶j個元素為sin(i10000j/d;j是奇數(shù),那么編j個元素為cos(i10000j/d。2-2Transformer自注意力網(wǎng)絡(luò)網(wǎng)絡(luò)層,這兩部分通過殘差連接和層歸一化操作連接起來,Transformer模塊,由自注意力層、全連接前饋層、殘差連接和層歸組成部分。它包含一個查詢矩陣QKHAttention(Q,K,V) 直觀來說,矩陣H中的每一行是V中行向量的加權(quán)和,其列的特征矩陣和具有序列長度為m Xq 和 ,三個矩陣Q、K、V由三個線性變換得QXqWqKXkvWk,VXkvWv.Transformer被稱為自注意力機制,因為三個矩陣Q、K、V同特征矩陣X nd此外,Transformer采用了多頭自注意力(Multi-headAttention)能力。多頭注意力的計算方式如下:使用了多個查詢矩陣Q(i)陣K(i)和值矩陣V(i),最終輸出為H dvdo,它是通過將一系列H進dv拼接并使用一個新的權(quán)重矩陣Wodv,Hh,Hh q kv kvHAttention(Q(i),K(i),V(i))Attention(XW(i),XW(i), q kv kv對于解碼器,TransformerAttentionSoftmax之前引入了一個額外的掩碼(MASK)操作,防止查詢矩陣Q去對序列中尚未解外的“交叉注意力”層,其中查詢矩陣Q是從解碼器中前一層的輸出中派生出來的,而鍵矩陣K和值矩陣V是從編碼器的最后一層的輸出中Transformer在解碼時避XdidGELU,diddfb ,W df
(1)活:在每個注意力模塊之后引入了非線性激活函數(shù)(,這有助于增(2之后,Transformer都應(yīng)用殘差連接(ResidualConnection)和層歸一化(LayerNormalization)技術(shù),這有助于在模型非常深時保留信息歸一化層定義為LayerNormX
fXTransformer模型被提出之后,它也衍生出了相當(dāng)一部分的變現(xiàn)有的語言大模型幾乎全部是以Transformer模型作為基礎(chǔ)架Transformer編碼器或解碼器,或者同時使用兩者。從建模策略的角度,語言大模型架構(gòu)大致可以分為三類[36]:2-3語言大模型的三種典型架構(gòu)掩碼語言建模(MaskedLanguageModeling,MLM)是基于Transformer編碼器的雙向模型,其中BERT[11]和RoBERTa[41]是中還加入了下一句預(yù)測(NextSentencePrediction,NSP)任務(wù)。在預(yù)記[CLS]和[SEP],并且隨機用[MASK]標記替換原始序列中的字[MASK]位置的標簽字符的條件概率,即讓模型執(zhí)行“完型填空”任務(wù)。而[CLS]的最終表示被用于預(yù)測兩個句子是否連貫。RoBERTaBERT基本相同,但是自回歸語言模型在訓(xùn)練時通過學(xué)習(xí)預(yù)測序列中的下一個詞來建rnsorer的優(yōu)化目標為最大化對序列中每個位置的下一個詞的條件概率的預(yù)OeI的PT[6]]、Mta的LaA0]和Ggle的PM[7]G-3[1]Transformer架構(gòu)上的序列到序列模型,即同時使用編碼器-解碼器結(jié)構(gòu),代表性模型包括T5[42]和要的預(yù)訓(xùn)練任務(wù),即隨機用單個[MASK]特殊標記替換文本中任意54章。高效預(yù)訓(xùn)練策略對語言大模型的預(yù)訓(xùn)練。一種是在預(yù)訓(xùn)練中設(shè)計高效的優(yōu)化任務(wù)目標熱啟動策略漸進式訓(xùn)練策略知識繼承方法234375%(PreitaleSaig[6]pAI在P-4使用00倍至00倍較少計算資源訓(xùn)練的小模型可靠地預(yù)測GP4 ETrnsrmer(統(tǒng)一的序列建模(542和BAT43等2計算高效的模型架構(gòu)rnsorer訓(xùn)練穩(wěn)定性、顯存利用等方面進行優(yōu)化。比如,rnsomer其并行O(),rnfomer模型也是顯存密集型模型,輸入序列越長、占用的內(nèi)存nsorerRet44,其(Rtnin能的基礎(chǔ)上同時實現(xiàn)模型訓(xùn)練速度、推斷速度和內(nèi)存節(jié)約的大幅提升。針對自注意力顯存消耗大,斯坦福大學(xué)在rnsomer中引入Fahtein45]O計算實現(xiàn)訓(xùn)練和推理加速,典型工作包括Google的SwitchTransformers[46]和Pathways[47]架構(gòu)、清華大學(xué)的MoEfication架構(gòu)[48]、FastMoE架構(gòu)[49]等。2-5混合專家化的模型架構(gòu)(InstructionTuning)[21],是一種可以幫助語言大模型多工作采用多任務(wù)提示方式對基于指令描述的大量任務(wù)集上對語言指令數(shù)據(jù)獲取,指如何構(gòu)建包含多樣性的任務(wù)指令數(shù)據(jù)。2000NLPOPT-IML[52]。ii)借助語言大模型的自動過GPT-3、InstructGPT等在線平臺收集用戶真實指令數(shù)據(jù)。指令對齊, 言大模在多然語言理任都展現(xiàn)了卓越性能而它有時會出現(xiàn)預(yù)期為如造虛假信息、追求錯誤目標或產(chǎn)生有偏見的內(nèi)容5]。其根本原因在于,語言大型在練時僅過語型建模未涉人的價值或偏好。為了解決這一問題,研究者提出了“指令對齊,使語言大模型的輸更符類的預(yù)期但這對齊與始預(yù)有所不同注重于用性實性和害性外指對齊會降低言大模型的些通力,這稱為lgmetx?,F(xiàn)模型出與對人類價值的對齊,IsrcGPT提出了一種基于人類反饋的微調(diào)方法利用強化習(xí)技術(shù)將類反納入模微調(diào)程實際ChtGT也用與ItrcGT的技術(shù)以確生高質(zhì)且無害的出指對齊的泛應(yīng)用適配微從純學(xué)習(xí)的統(tǒng)微參數(shù)高效微調(diào)(PaametEiietigET為代“”3類[4]()添加式方法并僅微調(diào)該引入部分的參數(shù)。如適配器(dter)方法,旨將小規(guī)2指定式方法:旨在原模型指定模型中部分參數(shù)為可訓(xùn)練參數(shù),并固定模型其他參%3重參數(shù)化方法:將原模型或部分模型參數(shù)重參數(shù)化到低維度參數(shù)空間oR[4個低秩矩陣相乘,即WW0WW0WdownWup2-63種范式etang40繞參數(shù)高效微調(diào)的開源工具也被研發(fā),代表性包括OpPropt[5、OeDla[6dperu[7]Dltantr[0等。種更輕量級的下游任務(wù)適配方法。特別地,LRA4]已廣泛應(yīng)用于(如LLM)通過大規(guī)模文本數(shù)據(jù)預(yù)訓(xùn)練之后的語言大模型具備了作為通用指令提示(InstructionPrompt,也稱為提示學(xué)習(xí)。OpenAI在GPT-3[16]GPT-3在少樣本提示下能(Prompt1(3ICL,也稱2-7思維鏈(hinofThoght,CT)[8]。推理的過程通常涉及模型的多步推理能力,被鼓勵語言大模型生成解決問題的中間推理圖27國AllenAIGPT-3(falsepremise)的簡單性常識性問題時,如類似“太陽有幾只眼睛?”,GPT-3仍然會給出“太陽兩只眼睛”的荒謬回復(fù)。有效的解決4類[59]2-8所示:2-84以BERT為首的各種預(yù)訓(xùn)練模型是現(xiàn)在知識遷移的主要方法。2.4.521OpI推出eGT60,利用G-3器和搜索引擎交互獲取互聯(lián)網(wǎng)信息在長文本問答上實現(xiàn)非常強的能bhp6]223年3OeAI發(fā)布CaGTPgns2],實現(xiàn)ChPT支持瀏覽器實時信息獲取、代碼解釋器、PDF閱讀等能力,截至8月已支持40Mta擴展語言大模型能力的方法,統(tǒng)一稱為增廣語言模型(AgetdLnugeoes[3olLerig)框架24]2-9基于用戶接口視角的工具分類(2-9瀏覽器、Office辦公軟件等、基于編程接口的工具(如數(shù)據(jù)庫、知Learning,利用Learning3面向理解任務(wù)的多模態(tài)大模型,其核心結(jié)構(gòu)通常是基于Transformer的編碼器。按照模型結(jié)構(gòu)的不同,面向理解任務(wù)的多模Transformer網(wǎng)絡(luò)進行處理;而多流結(jié)構(gòu)Transformer網(wǎng)絡(luò)進行編碼處理,這些網(wǎng)絡(luò)之了一種雙流TransformerTransformr特征嵌入到共享的語義空間中。CLIP4億圖文對進行訓(xùn)練,可零樣本(zero-shot)分類能力。另一個與CLIP含超過10億個噪聲圖像-文本對的數(shù)據(jù)集來擴展視覺和視覺語言表征CLIP類似,VATT將每個模態(tài)線性投影為特Transformer編碼器中,并將編碼后的特3-1CLIP[65]單流結(jié)構(gòu)的一個典型代表是VL-BERT[68],它將圖像的描述文本和關(guān)鍵物體的區(qū)域特征拼接后作為BERT另一代表性方法UNITER[69],則采用了一種多任務(wù)的多模態(tài)預(yù)訓(xùn)練代表性方法有VideoBERT[70]和ActBET[71]VideoBERT是一個視頻-語言模型,它融合了文本和視頻作為BERT網(wǎng)絡(luò)的輸入;而ActBERT采用了一種全局-局部關(guān)系的建模方法,輸入不止包括文本現(xiàn)有的面向理解任務(wù)的多模態(tài)大模型大多都以上面兩類結(jié)構(gòu)為Florence[72],它著重于如何使模型適應(yīng)各種下游任務(wù),并設(shè)D、分子結(jié)構(gòu)等多種模態(tài)內(nèi)容的生成應(yīng)用。目前常用的方法主要是difsondl在序列生成模型中,DALL-E[73]是個典型代表。它是由OpenAI發(fā)布的一個基于4億圖文對訓(xùn)練的圖像生成模型,通過采用VQVAE[74]GPT組合的結(jié)構(gòu),在以文生圖任務(wù)型的圖像生成模型是北京智源研究院所的CogView模型[75](如圖3-2所示DALL-E類似的結(jié)構(gòu),但是面向中文環(huán)境的文CogView3-2CogView75]性方法LDM[77]StableDiffusionLDM至開放領(lǐng)域的文本至圖像生成,是當(dāng)性方法有OpenAI的DALL-E2[78]與谷歌的Imagen[79]。其中,DALL-E2首先然CLIP訓(xùn)練一個獨立的映射模型將CLIP模型的文本特征映射到圖像特征空匹配程度。而Imagen首先將文本進行編碼表征,之后使用擴散模型64x641024x10243-3所示。DALL-E2ImagenT5模ImagenT5CLIP模3-3Imagen[79]Transformer編碼器通過雙向的注意力機制來學(xué)習(xí)對數(shù)據(jù)的理解時具備這兩種能力從而可以在更廣泛的下游任務(wù)上應(yīng)用,可以聯(lián)合Transformer編碼器與解碼器,設(shè)計能夠兼顧理解與生成任務(wù)的多模VL-T5[80]模型,3-4所示,該模型由Transformer編碼器和自回歸的解碼器組成,其主要創(chuàng)新點在型UnifiedVLP[81],它的主要特點是編碼器和解碼器共享同一個Transformer網(wǎng)絡(luò)。該方法通過設(shè)置注意力掩碼來控制網(wǎng)絡(luò)為編碼器BLIP-2[82]Q-former結(jié)構(gòu)等(3-5所示。這類模型3-5BLIP-2[82]上,典型方法有KRISP[84],它結(jié)合了隱含知識和明確知識的學(xué)習(xí),Transformer或卷積神經(jīng)網(wǎng)絡(luò)(CNN)來捕捉視覺和語言代Transformer,成為了重要的研究方向。20-70-40-Flmno(ewst的多等多種任務(wù)。另一個代表性模型SMOS186],它將一個基于rnfomer6(將圖像、視頻等感知模塊與LMA7]等開源的語言大模型對接,從而實現(xiàn)類似P-4的多模態(tài)理解能力。其中的一個典型模型是ChtBige8],它使用多個并行的感知模塊用來處理包括圖片、音Modeling,MLM:預(yù)訓(xùn)練模型被要求根據(jù)可見的多模態(tài)上下文來預(yù)測這些被遮蔽的單3-7。多模態(tài)大模型通過執(zhí)行這種預(yù)訓(xùn)練任務(wù),模型3-7ModelingMIM訓(xùn)練模型被要求在僅看到其余圖像內(nèi)容與文本等其他模態(tài)信息的情3-8。3-8Matching,ITM:3-9。3-9ITC,3-10。3-10圖像-基于適配器網(wǎng)絡(luò)的模型微調(diào)適配:適配器層,使得模型可以在不同任務(wù)之間共享通用預(yù)訓(xùn)練模型的表4ChatGPT、文心一言、訊飛星火等提供如APP、網(wǎng)頁版、API接口等多種形式的開放服務(wù),并通過開放插件機制、FunctionCall等實現(xiàn)大模型外部工具、服務(wù)的調(diào)用,加速應(yīng)用生態(tài)的AI芯片開展適配和聯(lián)合優(yōu)化。大模型的訓(xùn)練數(shù)GPTOpenAI的GPTChatGPTGPT-4是兩個代表性模型。ChatGPT專注于對各種文本ChatGPT32,000個字符,它可以執(zhí)行各種任務(wù),包括代碼編寫、數(shù)學(xué)問題求解、寫作建議等。GPT-4在推理方面的能力比ChatGPT更強,同時也減少了幻象的產(chǎn)生,能夠更準確地理解ChatGPTGPT-4發(fā)布以來,許多開發(fā)者已經(jīng)開始將各種工具ChatGPTPlusClaudeClaudeAnthropic開發(fā)的閉源語言大模型,目前包含Claude和Claude-InstantClaude2023AI技術(shù)(包含監(jiān)督訓(xùn)練和強化學(xué)習(xí))進行訓(xùn)練,旨在改進模型的有Claude-2200K詞元的上下文。相比于Claude1.3Claude2擁有更強的綜合能力,同時能夠生成更長的相PaLMPaLM17]Google2022種PaLM的改進版本。Med-PaLM[89]是PaLM540B在醫(yī)療數(shù)據(jù)上績。PaLM-E90]是PaLM的多模態(tài)版本,能夠在現(xiàn)實場景中控制機器人完成簡單任務(wù)。20235月,Google發(fā)布了PaLM2,但并未公開其技術(shù)細節(jié)。Google340B,訓(xùn)練數(shù)據(jù)為PaLM5倍左右。Bard是GoogleOpenAIChatGPT后,GoogleBard的開包括添加數(shù)學(xué)與邏輯能力、添加代碼能力、支持更多語言等。5月,Google發(fā)布了基于新一代語言大模型PaLM2Bard32019年發(fā)布。831APP、網(wǎng)頁版、API接口等多種形式的開放服務(wù)。文心一言一方面采用有監(jiān)330多倍。文心一言還建設(shè)了202356日發(fā)布的語言748169日星火大模型升級到V1.5版,實現(xiàn)了開放式知識問答、多輪對話、邏輯和數(shù)學(xué)能力的提升;8月15日星火大模型升級到V2.0版,對于代碼和多模態(tài)能力進行了提升。同時,訊飛和華為2023703年80的產(chǎn)品體系以及廣泛的應(yīng)用場景使得通義千問更具可落地性和市場可接受程度。LLaMAFalconPythiaT5BLOOMOPTMPTERNIE2.0,ERNIEGLMBaichuanCPM盤古LLaMALaA0]B到5B集。這些數(shù)據(jù)集包括ComnCral、iieia、peex2、ReaNw、oks等。LMALMA使用了高效的數(shù)據(jù)并行和流水線并行技術(shù),以加速模型的訓(xùn)練和擴LaA1B在ComeneA等9G-315B,而LaA65Bhnhla-0B和Pa-0BLaAGPTLMA采用了eodolyoraiztnLaMA對每個rnfomer子層的輸入進行了RMSormiU將ReLUSwiGLU線性,同時減少參數(shù)量和計算量;RoPE位置編碼,模型的輸入不再使用位置編碼,而是在網(wǎng)絡(luò)的每一層添加了位置編碼,RoPE位置編FalconFalcon[31]系列模型是由位于阿布扎比的技術(shù)創(chuàng)新研究院(TechnologyInnovationInstitute,TII)創(chuàng)建的生成式語言大模型,其基于Apache2.0許可發(fā)布。Falcon大模型家族目前主要包含三個基礎(chǔ)模型:Falcon-7B,F(xiàn)alcon-40B,以及Falcon-180B。三個模型都是在Falcon-7B基于解碼器模型架構(gòu)并在精心處理的RefinedWeb數(shù)據(jù)集上使用1.5萬億個字符預(yù)訓(xùn)練。除此之外,使用多查詢注意力機制增強推理時的可擴展性,并顯著降低顯存需求。Falcon-40B擁有400億參數(shù),并在1萬億字符上進行了訓(xùn)練。在發(fā)布后的兩個月里,其在HuggingFace的開源語言大模型排行榜上排名第一。該系列最新的Falcon180B具有1800億參數(shù)的,在3.5萬億字符上進行預(yù)訓(xùn)練。該 的開源語言大模型排行榜上擊敗了Meta LLaMA2-70B等競爭對手。在閉源模型中,它的排名僅次于OpenAI的GPT4,性能與谷歌的PaLM2Large相當(dāng),但只有其模型的一半PythiaPythia[91]EleutherAI開發(fā)的一系列生成式語言大模型。該系列有1612B提供下載和清洗重組數(shù)據(jù)的工具,以便進一步研究。EleutherAI使用2Pythia88種不同的模型尺寸。一套是直接在Pile上訓(xùn)練的,另一套則在經(jīng)過MinHashLSH近重復(fù)處理后的Pile0.87。經(jīng)字符。由于Pythia系列模型在相同架構(gòu)基礎(chǔ)上涵蓋多個不同尺寸,HuggingFace上直接獲取,也可以通過Github的官方頁面獲取。T5T5[42]模型是由GoogleBrain團隊在2019年提出的一種基于NLP任務(wù)(如翻譯、摘要、問答等)轉(zhuǎn)化為一個統(tǒng)一的框架下進英文網(wǎng)頁文本數(shù)據(jù)的大規(guī)模語料庫。T5模型還探索了不同規(guī)模的模型架構(gòu)和參數(shù)量,從小到大分別有small、base、large、XL、XXL和XXXL六種規(guī)模。其中,XXXLT5110億個參數(shù),Transformer的預(yù)訓(xùn)練語言模型之一。BLOOMBigScience2022年提出了BLOOM系列模型[92]BLOOM有1760Transformer解碼器架構(gòu)的語言大模型,4613提升BLOOM庫中包含的語言。此外,BLOOMTransformer架構(gòu)提出了許多的更改。相比于在嵌入層添加位置信息,BLOOM采用了ALiBi技術(shù),基于keys和queries二者之間距離來計算注意力分數(shù)。雖然ALiBi技術(shù)擁有外推至更長的序列的能力,但其在原始序列上也能夠BLOOM在嵌入層之后后立即進行層分詞器相比,BLOOM25萬個字符,以支持多種語言。BLOOMZBLOOM擁有相同的模型架構(gòu)與超參數(shù),在130了SGPTBi-Encoder方案進行對比微調(diào)。通過訓(xùn)練,可以得到擁有高bitext挖掘、重排或者特征抽取等任務(wù)。GPT-Neo[93]系列模型是由EleutherAI開發(fā)的預(yù)訓(xùn)練語言大模GPT-Neo基于OpenAI的GPT該模型的最大版本,GPT-Neo2.7B27億個參數(shù)。它是在多樣化125M,350M1.3B等不同參數(shù)規(guī)模。GPT-Neo項目的一個獨特之處在于其強調(diào)開源開發(fā)和社區(qū)參與。EleutherAI公開了該模型的訓(xùn)練權(quán)重,使其他研究人員和開發(fā)人員能GPT-Neo模型的OPTOT[4]模型是由MetaAI發(fā)布的一款dedeny模型,與GP3GP-3MtaAIOT模15M到15B原因和動機,為研究社區(qū)的使用和進一步研究提供了重要的參考資O-5BP3PT包括RoEa的okops和tois,以及更新的CNwsPle的CmoCrwl、MMaemais、Poecttebe、HakeNwsOpSuilsOenex2USO和ikpda。MPTMP(MosaicMLransformer研發(fā)的開源可商用模型。MPT-7B在2023年5月發(fā)布,有MPT-7B-StoryWriter-65k+65K20236月,MPT-30BMPT-7B更強大的性能,超過了原Chat方面表現(xiàn)出色。MPT-30B8,000字符長度的上下文窗ERNIE2019年,百度將大規(guī)模知識與海量數(shù)據(jù)融合學(xué)習(xí)的方法,在超90GLUE、SuperGlue20究和產(chǎn)業(yè)發(fā)展。ERNIE3.0[97]1000億,首次GLMGLM[98]AI等合作研發(fā)的開源語言大模型。GLM采用了自回歸填空作為預(yù)訓(xùn)練任務(wù),并且使用多任務(wù)為了能夠更好地進行預(yù)訓(xùn)練,GLM采用了二維位置編碼,第一維表息。此外,為了能夠盡量推理和訓(xùn)練所占用的顯存,GLM-130B可以使用INT4進行量化并且不會明顯影響模型效果。通過優(yōu)化,GLM-130B4張RTX3090Ti(24G)8張RTX2080Ti(11G)的顯卡上進行推理。ChatGLM是基于GLM1萬億字符的中英文語料進行訓(xùn)練,能夠支持中文和英文兩種語言的ChatGLM擁有強大的生成能力,能夠生成更符合人類偏好的內(nèi)容。與GLMINT4量化和P-Tuningv2[99]等高效微調(diào)的算法,ChatGLM7GChatGLM的基礎(chǔ)上,ChatGLM21.4FlashAttention技術(shù),ChatGLM23.2通過Multi-QueryAttention技術(shù),ChatGLM2能夠進一步地提升推理BaichuanBaichuan的中文和英文benchmark上均取得同尺寸最好的效果,其基于Transformer解碼器架構(gòu)。Baichuan-7B1.2萬億字符上訓(xùn)練704096的上下文窗口長度。Baichuan-13B在Baichuan-7B的基礎(chǔ)上進一步擴大參數(shù)量到1301.4LLaMA-13B40%,是當(dāng)前開源13B尺寸下訓(xùn)練數(shù)據(jù)量最多的模型。其支持中英雙語,使用ALiBi4096的上下文窗口長度,使用INT8INT4了部署的機器資源需求。Baichuan2-7B和Baichuan2-13B2.6萬億高質(zhì)量多語言數(shù)據(jù)進行訓(xùn)練,在保留了上一代開源模型良好CPMCPM系列模型由北京智源人工智能研究院和清華大學(xué)的合作研發(fā),目前包括了CPM-1、CPM-2,CPM-3和CPM-Bee典型模型。CPM-1[33]26億參數(shù)。100GB數(shù)據(jù)為基礎(chǔ),等類型。在多個公開的中文數(shù)據(jù)集上的實驗表明,CPM-1在對話、練模型訓(xùn)練的計算開銷對應(yīng)用的使用限制。CPM-3是基于BMTrain預(yù)訓(xùn)練技術(shù),在零樣本和少樣本場景中表現(xiàn)出色。CPM-Bee的是一個完全開源、允許商用的百億參數(shù)中英文基座模型。它采用Transformer自回歸架構(gòu),通過對預(yù)訓(xùn)練預(yù)料進行嚴格后處理提升數(shù)鵬程盤古α[100]由以鵬城實驗室為首的技術(shù)團隊聯(lián)合協(xié)作開20482000閱讀理解等,并且擁有很強的小樣本學(xué)習(xí)能力。鵬程.盤古α收集了80TB的原始數(shù)據(jù),包括開源數(shù)據(jù)集、commoncrawl網(wǎng)頁數(shù)據(jù)、電1.1TB的高質(zhì)量中文語料數(shù)據(jù)集。研究對比了智源研究院發(fā)布的首個26億參數(shù)的中文預(yù)訓(xùn)練語言模型「悟道·文源」CPM1.1TB數(shù)據(jù)中策略抽樣100GB2.6B參數(shù)規(guī)模的「鵬程.盤古α」模型,16個下游任務(wù)上進行了對比。實驗結(jié)果表明,鵬程.盤古α-2.6BCPM-2.6B模型具有更強的語言學(xué)習(xí)能力,特別是在生成任務(wù)和小樣本學(xué)習(xí)方面。實驗還對比了鵬程.盤古α-13B和鵬程.盤古α-2.6BPPL任務(wù)上,13B2.6B,說明鵬程.盤古α-13B模型具有較強的小OPT,7B,LLaMA-AdapterViT,CPM-KOSMOS-2[101]是微軟亞洲研究院在KOSMOS-1模型的基礎(chǔ)上開發(fā)的多模態(tài)大模型。其中,KOSMOS-1是在大規(guī)模多模態(tài)數(shù)據(jù)集(即零樣本學(xué)習(xí)KOSMOS-2KOSMOS-1相同的模型架構(gòu)和訓(xùn)練目標對模型進行訓(xùn)練,并在此基礎(chǔ)上新增了對圖像局部區(qū)域OpenFlamingo[102]DeepMindFlamingo模型的開源復(fù)現(xiàn)版,可實現(xiàn)多模態(tài)大模型的訓(xùn)練和評估。OpenFlamingo使用交叉注在大型多模態(tài)數(shù)據(jù)集(MultimodalC4)上進行訓(xùn)練,可以實現(xiàn)以交錯的圖像/文本為輸入來進行文本生成。例如,OpenFlamingo可BLIP-2[82]通過一個輕量級的查詢轉(zhuǎn)換器彌補了模態(tài)之間的差生成學(xué)習(xí)。BLIP-2在各種視覺語言任務(wù)上實現(xiàn)了最先進的性能,盡管與現(xiàn)有方法相比,可訓(xùn)練的參數(shù)明顯更少。例如,BLIP-2模型在8.7%BLIP-2模型,對視覺語言指令進行微調(diào)。具體地,InstructBlipBLIP-2的結(jié)構(gòu),有一個圖像編碼器,一個語言大Q-Former覺特征提取過程,指令不僅會指導(dǎo)語言大模型生成文本,同時也會指力與圖像能力結(jié)合。其利用視覺編碼器和語言大模型Vicuna[109]進行結(jié)合訓(xùn)練。具體地,MiniGPT-4使用一個投影層來將來自BLIP-2的凍結(jié)視覺編碼器與凍結(jié)的Vicuna(LLaMA指令微500萬個圖像-文本對進行視覺-語言對齊訓(xùn)練。第二個微調(diào)階段進行多模態(tài)指令微調(diào)以提高其生成可靠性和整體可用性。MiniGPT-4能夠產(chǎn)生許多類似于GPT-4中展示的新興視覺語言能力。LlaMA-AdapterV2[105]是一種參數(shù)高效的視覺指令模型。具體LlaMAAdapterLLaMA模型該模型將額外的專家模型(例如字幕/OCR系統(tǒng))合并到LLaMA-Adapter中,以進一步增強其圖像理解能力。ImageBind[106]是Meta(3D習(xí)能力,接下來是多任務(wù)的指令微調(diào),使其與用戶的意圖對齊。VisualGLM-6B[107是由語言模型ChatGLM-6B與圖像模型BLIP2-Qformer結(jié)合而得到的一個多模態(tài)大模型,其能夠整合視覺和文圖像文本對進行預(yù)訓(xùn)練。這種方法使視覺信息能夠很好地與ChatGLM的語義空間對齊。在微調(diào)階段,該模型在長視覺問答數(shù)據(jù)VisCPM-Paint模型支持文到CPM-Bee基座的雙語能力,VisCPMmPLUG-Owl[110]大模型可以支持多種數(shù)據(jù)模態(tài),各種多模態(tài)任務(wù)。與傳統(tǒng)的多模態(tài)模型相比,mPLUG-Owl有更高的Qwen-VL[111]是支持中英文等多種語言的視覺語言模型。Qwen-VL以通義千問70億參數(shù)模型Qwen-7B為基座語言模型,了具備基本的圖文識別、描述、問答及對話能力之外,Qwen-VL還PyochPyorch[27]gradients communication)以及在梯度累積(gradientsynchronizationPyTorch分布式數(shù)據(jù)并行可以用256個GPU達到接近線性的可擴展性程度。在DP的基礎(chǔ)上,原生支持DDP,每個節(jié)點都有自己的本DDP都顯著快于DP,能達到略低于卡數(shù)的加速比,但要求每塊GPU卡都能裝載完整輸入維度的參數(shù)集合在1.11版本后Pyorch開始支持FSDP技術(shù),可以更加高效的將部分使用完畢的參數(shù)移至TensorFlowTensorFlow在多個領(lǐng)域有廣泛的應(yīng)CPU、GPU和TPU等。TensorFlow還提供了高級API,使開發(fā)者可以快速構(gòu)建、訓(xùn)練和部署深度學(xué)習(xí)模型。(PaddlePaddle[13]ParallelERNIE等處理(NLP)模型訓(xùn)練場景,又覆蓋了有著龐大的Embedding層模深度學(xué)習(xí)訓(xùn)練/推理框架。MindSpore能很好匹配昇騰處理器算力,AIMindSpore還習(xí)框架。Jittor集成了算子編譯器和調(diào)優(yōu)器,可以為模型生成高性能的代碼。Jittor與PyTorch兼容,可以方便地將PyTorch程序遷移Jittor框架上。JittorCPU、GPU、TPU等。Jittor在框架層面也提供了許多優(yōu)化功能,如算子融合、自動混OneFlow:OneFlow[116][116]能夠較好適用于多機多卡訓(xùn)練場景,是國內(nèi)較早發(fā)布的并行計算框架。OneFlow會把整個分布式集設(shè)備。最新版本的OneFlow和TensorFlow一樣,實現(xiàn)了同時對動兼容了PyTorch,支持數(shù)據(jù)+模型的混合并行方式,可提升并行計AI[117]機PyTorch代碼快速擴展到并行計算機集群上,無需關(guān)心并行編程Megatron-LMMegratron[118]是NVIDIA提出的一種基于PyTorch分布式訓(xùn)練大規(guī)模語言模型的架構(gòu),用于訓(xùn)練基于Transformer架構(gòu)的巨型語言模型。針對Transformer進行了專門的Megatron設(shè)計就是為了支持超TransformerTensorPipeline并行兩種模型并行方式。同時提出了更加精細的pipeline結(jié)構(gòu)與communication模式。通過多種并行方式的結(jié)合,可以讓大模型的訓(xùn)LayerNormDropout安裝輸入維度進一步切DeepSpeed2021年2月份,微軟發(fā)布了一款名為ZeROZeRO-1,ZeRO-2,ZeRO-3ZeRO-3OffloadGPU規(guī)Offload512顆V100上訓(xùn)練萬億參數(shù)規(guī)模的大模型。law7B的小規(guī)模“教科書(Textbooks)”高質(zhì)量的代碼訓(xùn)練數(shù)據(jù)(包括從web上篩選的“教科tokensGPT3、PaLM[17]和GLaM[120]模型在訓(xùn)練數(shù)據(jù)構(gòu)造時都使用了基于鍵詞過濾,如BLOOM和Gopher[121]都采用了基于啟發(fā)式的方法。要對數(shù)據(jù)進行冗余去除。文本冗余發(fā)現(xiàn)(TextDuplicateDetection)也方法使用了基于Transformer的模型,并結(jié)合機器翻譯技術(shù),可以處100種語言的文本,消除其中的隱私信息。(Plainshotbased1語言大模型預(yù)38G,RedditURLWeb3CommonThe語言大模型指52000條指令數(shù)據(jù),涵蓋創(chuàng)作、生成、設(shè)Ontocord.ai這三個機構(gòu)共同制作,用于對1.8G,ShareGPT數(shù)據(jù)集是一個由用戶共享SFT1億條來語言大模型強化學(xué)習(xí)微調(diào)數(shù)16M52MRLHF數(shù)據(jù)集,包3020007774個問題。helpfulharmless圖片-文本多模COCO330K,圖片/1.5MConceptual12M視頻-文本多模136M,視頻標題對/1345002.5M,視頻標題對/130001.8M圖文音多模態(tài)1M,視頻-音頻-5AI模型相比,非常依賴分布式技術(shù)提升效率。因此,大模型開發(fā)的示的梯度檢查點(Checkpointing)方法,以及內(nèi)存優(yōu)化的ZeRO-Offload[142]方法,即通過將數(shù)據(jù)和計算從GPUCPU,GPU內(nèi)存占用的方法。二是多設(shè)備優(yōu)化方GPU一起數(shù)據(jù)并行[143]后,對參數(shù)梯度做AllReduce聚合,然后每個處理器獨立進行參數(shù)更張量并行8]但需要設(shè)計高效的并行算法和通信機制來確保計算的正確性和高效1F1BInterleaving1F1B“通信-計算”重疊的方式隱藏通信時間,的是基于PyTorch進行進一步封裝形成單獨的工具,如微軟的DeepSpeed-Megatron[147]、NVIDIA的Megatron-LM[118]、清華大學(xué)的BMTrainPaddePaddle硬件資源異構(gòu)性,進一步發(fā)展出了端到端自適應(yīng)分布式訓(xùn)練架構(gòu)5-15-2如:FasterTransformer、TensorRT-LLM、vLLM、TextGenertionInference、HuggingFaceTG等實現(xiàn),這些工具已經(jīng)針對大模型推理進ChatGPT30多倍;騰訊混元大模型,通40%。從而減少Attention層的參數(shù)量,提高模型的效率。ALBERT[152]采用了權(quán)重共享數(shù)轉(zhuǎn)換為低位數(shù)的技術(shù)。通常情況下,量化的精度可被降低到8位難以量化的問題[155]。自適應(yīng)Shift-SmoothQuant[156]大模型量化方Hardwarewareness,協(xié)同優(yōu)化模型推理效率[102][103]。TokenGeneration階段則屬于訪存密集型。針對這種計算特點,可以通過協(xié)同硬件開展優(yōu)化,研發(fā)LLM.INT8()[67]WeightOnly量化混合的推理方案。這種方案能夠快速進行量化,GPU資源的利用目前國際上主要的大模型訓(xùn)練芯片有英偉達GPU,如H100、A100,以及谷歌的TPU(TensorProcessingUnit,國內(nèi)主要有華為AI芯片的技術(shù)棧提供差層硬件SDK支持硬件算子庫。NVIDIACUDAC開發(fā)語言,然后深度學(xué)習(xí)框架通過高級開發(fā)間表示(IntermediateRepresentation,IR)對接硬件的代碼生成器(CodegenSDK支持代碼生成的硬件。算子融合優(yōu)化等技術(shù),并通過接入硬件Transformer大算子庫,針對TPU(TensorProcessingUnit)CPU和GPU不同,TPU型訓(xùn)練的特殊需求。ASIC(Application-SpecificIntegratedCircuit)加個特定應(yīng)用場景而設(shè)計制造。ASIC的優(yōu)勢在于能夠?qū)崿F(xiàn)高度優(yōu)化的電路結(jié)構(gòu)和算法,從而提高性能和能效。除了ASICFPGA(Field-ProgrammableGateArray)加速也是一種重要的硬件加速技另外,云服務(wù)也為大模型訓(xùn)練提供了強大的計算能力和存儲資zueoleCud6和少樣本學(xué)習(xí)能力,可以快速掌握新的任務(wù),實現(xiàn)對不同領(lǐng)域、不同數(shù) (年來的向量索引。在在線階段,檢索系統(tǒng)接收到用戶查詢后,首先如經(jīng)典的B5pK以索引為核心的“索引—召回—精排”檢索架構(gòu)被廣泛應(yīng)用在各種信息檢索系統(tǒng)中。ChatGPT為代表的生成式大模型和以搜索引擎為代表的檢索6-1NewBing6-2中國科學(xué)院自動化研究所基于自主研發(fā)的音視頻理解大模型“聞AI技術(shù)在視頻配音、語音播報、標題生成、海報設(shè)計Talk2Car任務(wù)中。具體地,用戶通過給出一個指令,比如“在223年7月7CtGT“市-園區(qū)-商圈-社區(qū)-網(wǎng)點級別的智能計算與研判,為線上線下數(shù)實融AI“空間AI專家顧”6-3AIDeepMindCalicoDNA遠端交互進行基因表達和染色質(zhì)狀態(tài)預(yù)測的神經(jīng)網(wǎng)絡(luò)架構(gòu)Enformer[159]20萬個堿基對,大幅提高了根據(jù)DNA序列預(yù)測基因表達的準確性。為進一步研究疾病中的基因調(diào)控“EVE”[160]基因突變是“致病”還是“良性”AI模型可幫助遺AlphaFold2使得6-4AlphaFold2微軟推出的新一代辦公軟件Copilot,將大模型應(yīng)用于辦公場景,實現(xiàn)智能化協(xié)助用戶提高工作效率。在文字處理軟件Word中,Copilot戶只需用自然語言提出需求,Copilot即可以快速生成或修改文檔內(nèi)PowerPoint中,Copilot可以根據(jù)用戶的要求,Excel中,Copilot可以完成數(shù)6-5在影視行業(yè),大模型技術(shù)為內(nèi)容制作和影視創(chuàng)作帶來了新的變6-6新應(yīng)用,以智能化手段提升教與學(xué)效果。7月,K12模型能夠較好地因材施教,為學(xué)生提供全方位知識支持。8月,好未來MathGPT,可自動出題并給出解答,涵蓋小學(xué)到2023年6月,恒生電子發(fā)布多款大模型金融應(yīng)用,其中金融行業(yè)LightGPT4000億字節(jié)的金融領(lǐng)域數(shù)據(jù)進行預(yù)訓(xùn)練,風(fēng)險控制等能力。在模型訓(xùn)練規(guī)模不斷擴大的背景下,金融行業(yè)大模20235月,MedGPT,實現(xiàn)從預(yù)防到康復(fù)的全流程智能診療,7月,谷歌DeepMind研發(fā)Med-PaLM[89]醫(yī)療大模型,其在醫(yī)學(xué)考試和開放式問答上達到專家水平,86.5%,大幅超過早期版本。非專業(yè)評估者也阿里巴巴的多模態(tài)大模型M6已經(jīng)在眾多民生服務(wù)領(lǐng)域產(chǎn)生了影響。首先,M6除了提供文本到圖像生成的能力,還被改進為可根據(jù)可以保留其領(lǐng)子并進一步進行個性化調(diào)整。M6改進后每次可以只生M6還被用于生成營銷文案,傳統(tǒng)方法需要十萬到百萬級別訓(xùn)練數(shù)據(jù)才能達到工業(yè)級可用,M6只需要使用原來5%左右的樣本,即可實包括題目,還可以輸入圖,大大增加了模型的預(yù)測效率。M6模型還M6,這一過程已經(jīng)成功地上線實現(xiàn)。20221213GoogleRoboticTransformer-1[162],框Transformer直接EverydayRobots公司機器人的機械臂狀態(tài)和移動底盤狀態(tài)2023124日,Microsoft發(fā)布了ControlTransformer[163],在氣象方面,大模型也取得了突破。202376當(dāng)。與IFS1000072023428須由各國展開協(xié)調(diào)設(shè)定紅線”,需要“AI有助于人類幸福,而不會成為人類威脅的環(huán)境”。OpenAI首席執(zhí)行官山姆阿爾特曼呼吁美AI社會威脅的擔(dān)憂日益底,眾多AIAI領(lǐng)袖發(fā)表公開聲明,呼吁防范AI的生存風(fēng)險應(yīng)該與流行病和核戰(zhàn)爭等其他大規(guī)模風(fēng)險一樣,成為全球優(yōu)先議題。20236Geoff
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 紅薯課程設(shè)計
- 網(wǎng)絡(luò)工程的課程設(shè)計
- 二零二五年度XX污水處理廠節(jié)能減排技術(shù)服務(wù)合同
- 網(wǎng)頁制作課程設(shè)計dw優(yōu)缺點
- 素描課程設(shè)計總結(jié)
- 《基于RMP理論下長白山景區(qū)冰雪旅游產(chǎn)品開發(fā)策略研究》
- 二零二五年勞動合同解除違約金支付及損害賠償3篇
- 算法課程設(shè)計與分析教案
- 《二氧化碳切槽定向致裂機理及實驗研究》
- 自動化控制原理課程設(shè)計
- 【9歷期末】安徽省合肥市包河區(qū)智育聯(lián)盟2023-2024學(xué)年九年級上學(xué)期1月期末歷史試題
- 2024年度專業(yè)外語培訓(xùn)機構(gòu)兼職外教聘任合同3篇
- (完整版)外科學(xué)名詞解釋【完整版】
- 永磁同步電機控制系統(tǒng)設(shè)計與仿真畢業(yè)論文
- 傳感器與檢測技術(shù)課后習(xí)題和答案(陳杰)
- 藏歷新年ppt模版課件
- 基于PLC的自動門控制系統(tǒng)
- 滬教牛津版小學(xué)四年英語上冊全冊教案
- 智能凈水器控制系統(tǒng)設(shè)計
- 鋼結(jié)構(gòu)廠房施工方案(完整版)
- 正能量校園心理劇劇本-校園心理劇本范例
評論
0/150
提交評論