ChatGPT技術(shù)演進(jìn)及研究框架分析報(bào)告

上傳人：a*** IP屬地：廣東上傳時(shí)間：2023-10-24 格式：PPTX 頁數(shù)：41 大小：4.69MB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩36頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

證券研究報(bào)告

行業(yè)動(dòng)態(tài)報(bào)告ChatGPT技術(shù)演進(jìn)及研究框架發(fā)布日期：2023年3月3日核心觀點(diǎn)?

核心觀點(diǎn)：

Transformer

模型融合了詞向量、注意力機(jī)制和預(yù)訓(xùn)練模式的諸多優(yōu)勢(shì)，其出現(xiàn)標(biāo)志著深度學(xué)習(xí)進(jìn)入大模型時(shí)代。OpenAI

推出基于Transformer和人類反饋強(qiáng)化學(xué)習(xí)的ChatGPT以其強(qiáng)大的語義理解和生成能力引爆了市場(chǎng)。技術(shù)側(cè)重點(diǎn)理解大模型訓(xùn)練中的核心四要素：模型參數(shù)、訓(xùn)練數(shù)據(jù)、訓(xùn)練方法以及訓(xùn)練效率。隨著預(yù)訓(xùn)練自然語言模型進(jìn)入巨量化參數(shù)時(shí)代，模型算力需求邁上新臺(tái)階。相關(guān)投資機(jī)遇中，建議重點(diǎn)關(guān)注國(guó)產(chǎn)AI芯片供應(yīng)鏈、海內(nèi)外大模型相關(guān)垂直應(yīng)用落地情況。?

核心技術(shù)發(fā)展推動(dòng)自然語言處理逐步成熟。對(duì)詞向量的關(guān)注明確了訓(xùn)練目標(biāo)，構(gòu)建起語義信息和數(shù)據(jù)之間的橋梁；注意力機(jī)制增強(qiáng)上下文理解能力，提高語義信息學(xué)習(xí)能力；Transformer等模型推動(dòng)計(jì)算結(jié)構(gòu)從串行走向并行，大幅提升算法和語言模型的訓(xùn)練速度；預(yù)訓(xùn)練明確了訓(xùn)練思路，解決了數(shù)據(jù)量不足的問題，降低了模型應(yīng)用的門檻。以上四點(diǎn)核心進(jìn)展帶來了語言模型語言理解和生成能力的大幅提升，人工智能語言模型逐步走向預(yù)訓(xùn)練大模型。對(duì)應(yīng)行業(yè)發(fā)展，谷歌和OpenAI先后于2018年提出基于Transformer-Encoder的BERT和基于Transformer-Decoder的GPT。與此同時(shí)，國(guó)內(nèi)外的其他技術(shù)巨頭也紛紛加快自然語言處理模型研發(fā)進(jìn)程。?

訓(xùn)練好大模型的四要素：模型參數(shù)、訓(xùn)練數(shù)據(jù)、訓(xùn)練方法以及訓(xùn)練效率。在模型參數(shù)上，參數(shù)量越大，大模型性能往往越好，當(dāng)參數(shù)量提升到一定程度后性能可能會(huì)產(chǎn)生跨越式提升；訓(xùn)練數(shù)據(jù)方面，大模型對(duì)數(shù)據(jù)量和數(shù)據(jù)質(zhì)量均提出了更高要求，高質(zhì)量的數(shù)據(jù)集在模型訓(xùn)練過程中帶來了更高的邊際收益；

在訓(xùn)練方法上，一方面需要更充分的預(yù)訓(xùn)練以及增大預(yù)訓(xùn)練難度，另一方面使用Prompt或Fine-tune可以顯著提高模型在下游應(yīng)用場(chǎng)景的表現(xiàn)；在訓(xùn)練效率上，并行計(jì)算、顯存優(yōu)化與模型稀疏性能顯著提升大模型訓(xùn)練效率。?

隨著預(yù)訓(xùn)練自然語言模型進(jìn)入巨量化參數(shù)時(shí)代，模型算力需求邁上新臺(tái)階。當(dāng)前大規(guī)模的自然語言模型進(jìn)入了千億參數(shù)時(shí)代，模型的訓(xùn)練算力顯著提升，例如GPT-3模型參數(shù)量為1750億，訓(xùn)練算力需求為3.14E+23

flops，如采用1000塊英偉達(dá)A100芯片提供算力，需要不間斷訓(xùn)練55天，可以估算單次訓(xùn)練租用云服務(wù)器的成本是328萬美金。大模型在商業(yè)化落地之后，大量的客戶訪問還會(huì)帶來不菲的運(yùn)行成本，近期ChatGPT官網(wǎng)每日訪客數(shù)量接近5000萬，估算云上月租金576萬美元/每月，頭部企業(yè)開發(fā)大模型競(jìng)爭(zhēng)力更強(qiáng)。?

后續(xù)關(guān)注：國(guó)產(chǎn)AI芯片及大模型相關(guān)應(yīng)用落地。算力端重點(diǎn)關(guān)注國(guó)產(chǎn)AI芯片、英偉達(dá)供應(yīng)鏈、國(guó)內(nèi)相關(guān)企業(yè)如

、百度及阿里等的大模型落地情況和相關(guān)垂直應(yīng)用供應(yīng)商，以及國(guó)內(nèi)公司利用OpenAI技術(shù)在海外應(yīng)用的產(chǎn)品進(jìn)展。AI芯片昇騰供應(yīng)鏈。算法應(yīng)用端重點(diǎn)關(guān)注目錄一、NLP算法發(fā)展歷程介紹二、訓(xùn)練好大模型的要素三、算力需求的展望四、投資邏輯梳理1.1

早期自然語言處理（NLP）：基于規(guī)則方法/統(tǒng)計(jì)方法?

第一階段（1950s-1980s）基于規(guī)則的方法：基于語言學(xué)家制定的規(guī)則完成相關(guān)任務(wù)。優(yōu)點(diǎn)：自由設(shè)計(jì)，靈活性強(qiáng)；不存在對(duì)于訓(xùn)練數(shù)據(jù)的依賴缺點(diǎn)：研究強(qiáng)度大，泛化能力差；實(shí)踐性差，無法從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)和迭代?

第二階段（1980s-2000s）基于統(tǒng)計(jì)的方法：將語言問題轉(zhuǎn)化為概率問題進(jìn)行模型構(gòu)建。優(yōu)點(diǎn)：數(shù)據(jù)驅(qū)動(dòng)；相較于規(guī)則模型泛化能力強(qiáng)缺點(diǎn)：受訓(xùn)練數(shù)據(jù)集的影響大；缺乏對(duì)于語言知識(shí)的考慮；模型可解釋性差圖表：基于規(guī)則的方法圖表：基于統(tǒng)計(jì)的方法語言規(guī)則（例）：“from”

總是指某些東西最初來自哪里，所以我們用ORIGIN標(biāo)記它?！皌o”總是指某些東西的去向是哪里，所以用DESTINATION標(biāo)記它。資料：easyAI，中信建投資料：CSDN，中信建投1.2

四大核心進(jìn)展推動(dòng)神經(jīng)網(wǎng)絡(luò)方法在NLP領(lǐng)域發(fā)展?

第三階段（2000s至今）：基于神經(jīng)網(wǎng)絡(luò)的方法逐步發(fā)展并得到大幅提升優(yōu)點(diǎn)：數(shù)據(jù)驅(qū)動(dòng)力更強(qiáng)，泛化能力更強(qiáng)，逐步挖掘語言知識(shí)缺點(diǎn)：數(shù)據(jù)需求大（質(zhì)量/數(shù)量），訓(xùn)練成本高；可解釋性有限?

核心進(jìn)展：1）詞向量的應(yīng)用明確了訓(xùn)練目標(biāo)，構(gòu)建起語義信息和數(shù)據(jù)之間的橋梁2）LSTM/注意力機(jī)制增強(qiáng)上下文理解能力，提高語義信息學(xué)習(xí)能力3）Transformer推動(dòng)串行走向并行優(yōu)化計(jì)算結(jié)構(gòu)，大幅提升算法和語言模型的訓(xùn)練速度4）預(yù)訓(xùn)練明確了訓(xùn)練思路，解決了數(shù)據(jù)量不足的問題，降低了模型應(yīng)用的門檻?

我們認(rèn)為以上核心進(jìn)展，推動(dòng)了自然語言理解走向大模型，推動(dòng)了語義理解和生成的大幅提高，并在更多場(chǎng)景落地應(yīng)用。圖表：基于神經(jīng)網(wǎng)絡(luò)的自然語言處理重要算法時(shí)間軸早期神經(jīng)網(wǎng)絡(luò)語言模型部分解決長(zhǎng)程依賴開啟預(yù)訓(xùn)練大模型時(shí)代2018

2018引入RLHF2003NNLM2013word2vec2014glove2015LSTM2017Transformer2019GPT-22020GPT-32022InstructGPT/ChatGPTELMO

GPT/BERT不斷發(fā)掘模型容量和數(shù)據(jù)量增加帶來的性能提升詞向量開始被重視注意力機(jī)制挖掘語義關(guān)聯(lián)word2vec模型示意圖LSTM模型示意圖Transformer模型示意圖GPT模型示意圖資料：GoogleScholar，機(jī)器之心，OpenAI，CSDN，中信建投1.3

Word2Vec：詞向量構(gòu)建起語義信息和數(shù)據(jù)之間的橋梁?

詞向量（word

embedding）在早期的神經(jīng)網(wǎng)絡(luò)語言模型中便已經(jīng)出現(xiàn)，但一直沒有受到重視和關(guān)注，直到word2vec模型開始真正重視起來。?

詞向量的重要意義：1）通過數(shù)學(xué)方法表征了語義信息（例如：通過余弦相似度計(jì)算單詞相關(guān)性）2）相較于過去的方法（獨(dú)熱編碼）其表征詞匯的矩陣大小被有效控制。?

Word2Vec中詞向量的缺陷：缺少對(duì)于上下文文本的分析，一詞多義問題成為當(dāng)時(shí)限制模型語言分析能力的一大障礙。?

我們認(rèn)為，詞向量的應(yīng)用，讓NLP領(lǐng)域的神經(jīng)網(wǎng)絡(luò)訓(xùn)練的訓(xùn)練目標(biāo)變得明確，為后續(xù)模型的發(fā)展奠定了基礎(chǔ)。圖表：利用Word2Vec產(chǎn)生單詞對(duì)應(yīng)的詞向量圖表：Word2Vec產(chǎn)生的詞向量能夠反映單詞之間的語義關(guān)系（二維）維度1相似語義關(guān)系的詞組具有相似的向量關(guān)系例：國(guó)家和首都的關(guān)系（紅框）形容詞比較級(jí)之間的關(guān)系（藍(lán)框）維度2資料：飛槳AI

studio，中信建投資料：飛槳AI

studio，中信建投1.4

RNN/LSTM/ELMO：逐步強(qiáng)化模型分析上下文能力?

RNN(循環(huán)神經(jīng)網(wǎng)絡(luò)）解決了短程時(shí)序依賴問題：對(duì)于較短的序列，RNN可以結(jié)合少量的前文來分析后文，但當(dāng)序列較長(zhǎng)時(shí)，由于梯度消失/爆炸，模型難以學(xué)到遠(yuǎn)距離的信息。?

LSTM(長(zhǎng)短期記憶）部分解決了長(zhǎng)程時(shí)序依賴問題：LSTM引入了“遺忘”的結(jié)構(gòu)，在信息傳遞過程中改善了“信息過長(zhǎng)，信息丟失”的問題，進(jìn)而使得模型可以學(xué)到相對(duì)遠(yuǎn)距離的信息。但其效果依然有限，串行計(jì)算也顯著影響了訓(xùn)練效率。?

ELMO完善了上下文時(shí)序依賴問題：采用雙向LSTM結(jié)構(gòu)，同時(shí)學(xué)習(xí)上下文信息。?

我們認(rèn)為，LSTM/ELMO強(qiáng)化了模型分析上下文的能力，進(jìn)而增強(qiáng)了模型的語義理解能力，較好解決了一詞多義問題。舉例

短程依賴：對(duì)于問題“我的母語是____”，可以通過“母語”確定后面填空應(yīng)當(dāng)為一種語言，這個(gè)過程便是短程依賴；長(zhǎng)程依賴：但如果需要通過文章開頭的句子來進(jìn)一步確定問題的答案，例如“我的故鄉(xiāng)是中國(guó)，……，我的母語是____”，基于文章開頭的“故鄉(xiāng)是中國(guó)”，來判定此處填空應(yīng)當(dāng)為“中文”，此時(shí)對(duì)于更遠(yuǎn)距離的文本內(nèi)容的學(xué)習(xí)便是長(zhǎng)程依賴。圖表：RNN結(jié)構(gòu)圖表：LSTM結(jié)構(gòu)圖表：ELMO結(jié)構(gòu)右向的紅色箭頭表示當(dāng)前時(shí)刻的輸出參與下一時(shí)刻的計(jì)算遺忘門：決定向下傳遞中需要保留的內(nèi)容Xt為當(dāng)前時(shí)刻的輸入ht為當(dāng)前時(shí)刻的輸出綠色部分相當(dāng)于RNN結(jié)構(gòu)的A資料：CSDN，BERT：Pre-training

ofDeepBidirectional

Transformers

for

Language

Understanding

，中信建投1.5

注意力機(jī)制增強(qiáng)語義關(guān)聯(lián)，賦予模型并行運(yùn)算能力?

核心思路：從文本中有選擇地篩選出少量重要信息并聚焦到這些重要信息上，忽略不重要的信息。?

實(shí)現(xiàn)方法：?jiǎn)为?dú)計(jì)算目標(biāo)單詞和全文所有單詞的“重要性”，進(jìn)而理解單詞和句子在語境中的含義。?

重要意義：1）解決了“信息過長(zhǎng)，信息丟失”問題：任意位置詞向量可關(guān)聯(lián)計(jì)算，一次性獲得局部和全局信息的關(guān)聯(lián)。2）擁有并行能力：每個(gè)單詞詞向量的計(jì)算不依賴于前個(gè)單詞詞向量，可實(shí)現(xiàn)并行計(jì)算。3）賦予了詞向量新的內(nèi)涵：提供了一些可解釋性（句法層面的特征），如句子結(jié)構(gòu)中主語和謂語之間的關(guān)系?

缺陷：對(duì)序列中的位置信息缺少考慮（后續(xù)通過在詞向量中加入位置信息解決）?

變種：Self-Attention、Masked

Self-Attention、Multi-Head

Self-Attention等圖表：不同注意力機(jī)制的含義圖表：注意力機(jī)制獲得的單詞間重要性關(guān)系（Self

Masked

Attention）1.紅色為目標(biāo)單詞，顏色越深表示重要性越強(qiáng)；例如對(duì)于第四句的chasing來說，“FBI”和“is”相對(duì)“The”是更重要的單詞Attention考慮對(duì)于查詢語句中的詞語而言重要的信息2.因?yàn)槠洳捎玫氖荢elf

MaskedAttention，因此計(jì)算的是和前文單詞之間的重要性。Self

Attention考慮對(duì)于文章自身的每個(gè)單詞而言重要的信息只考慮當(dāng)前及過去的文本信息的重要性，不考慮未來的文本信息的重要性Masked

AttentionMulti-Head

Attention考慮對(duì)于同一詞語的不同含義重要的信息，再將結(jié)果“組合”起來資料：中信建投資料：知乎，中信建投1.6

預(yù)訓(xùn)練的應(yīng)用：彌補(bǔ)訓(xùn)練數(shù)據(jù)量不足，降低模型應(yīng)用門檻?

預(yù)訓(xùn)練模型原理：對(duì)于語言/圖像處理而言，其淺層特征是通用的：底層網(wǎng)絡(luò)參數(shù)在面對(duì)不同任務(wù)時(shí)均可以復(fù)用。但隨著網(wǎng)絡(luò)層數(shù)增加，越深層的特征與具體任務(wù)的相關(guān)性便越強(qiáng)。例如人、車、大象圖像的淺層特征都是線條和輪廓。因此在模型淺層部分通過海量數(shù)據(jù)的預(yù)訓(xùn)練(Pre-training)，再根據(jù)具體下游場(chǎng)景訓(xùn)練深層特征做微調(diào)（Fine-tuning)。?

我們認(rèn)為，預(yù)訓(xùn)練的應(yīng)用是具有跨時(shí)代意義的。一方面其解決了因神經(jīng)網(wǎng)絡(luò)日益復(fù)雜而帶來的數(shù)據(jù)需求日益增加的問題。另一方面，基于海量數(shù)據(jù)預(yù)訓(xùn)練后的模型，下游具體任務(wù)的訓(xùn)練速度被大大加快，準(zhǔn)確度也進(jìn)一步提高。圖表：圖像識(shí)別任務(wù)中淺層特征與深層特征的示意圖圖表：預(yù)訓(xùn)練模型：基礎(chǔ)知識(shí)學(xué)習(xí)+具體任務(wù)學(xué)習(xí)直接訓(xùn)練模型英文法律文書撰寫英文法律文書知識(shí)海量英文法律文書相關(guān)數(shù)據(jù)不同的下游任務(wù)中深層特征具有較大差異預(yù)訓(xùn)練下游具體任務(wù)的微調(diào)法律文書知識(shí)英文法律文書撰寫英文小說創(chuàng)作英文知識(shí)海量數(shù)據(jù)少量法律文書相關(guān)數(shù)據(jù)加速了下游任務(wù)的訓(xùn)練速度減少了下游任務(wù)的數(shù)據(jù)需求小說知識(shí)少量小說相關(guān)數(shù)據(jù)不同的下游任務(wù)中淺層特征具有通用性資料：Improving

Language

Understanding

byGenerative

Pre-Training

，中信建投資料：CSDN，中信建投1.7

集大成者：Transformer正式開啟預(yù)訓(xùn)練大模型時(shí)代?

Transformer模型的核心結(jié)構(gòu)是：編碼器（encoder）-解碼器（decoder）?

工作原理：對(duì)于Transformer最初應(yīng)用的翻譯任務(wù)而言，其過程為輸入文本通過encoder編碼，經(jīng)過多層注意力增強(qiáng)機(jī)制提取特征后，學(xué)習(xí)并理解語句含義轉(zhuǎn)為詞向量，再由decoder解碼，基于前文詞向量生成文本，完成翻譯任務(wù)。?

共同點(diǎn)：encoder和decoder都采取了多層多頭注意力進(jìn)行特征提取和學(xué)習(xí)，能夠深入挖掘文本的語義關(guān)聯(lián)信息?

差異點(diǎn)：encoder：同時(shí)對(duì)上下文進(jìn)行理解，有更強(qiáng)的語言理解能力。decoder：使用多頭掩碼注意力機(jī)制，將輸入文本當(dāng)前詞以后的單詞掩蓋（masked）進(jìn)行訓(xùn)練，這與語言生成過程邏輯一致（由前往后逐詞生成，下一個(gè)單詞只與前文信息相關(guān)），因此decoder擁有更強(qiáng)的文本生成能力。綜上，encoder對(duì)上下文的理解類似于“完形填空”，有更強(qiáng)的理解能力。而decoder類似根據(jù)題目寫作文，有更強(qiáng)的生成能力。圖表：Transformer模型結(jié)構(gòu)圖表：Transformer模型結(jié)構(gòu)簡(jiǎn)圖多頭掩碼自注意力機(jī)制多頭自注意力機(jī)制資料：CSDN，中信建投資料：Attention

all

you

need，中信建投1.8

基于Transformer，BERT&GPT分別采取了不同的策略?

GPT：建立在

Transformer

Decoder

的基礎(chǔ)上、具有良好的自然語言生成能力，然而當(dāng)前詞的語義只能由其前序詞決定，因此在語義理解上不足。一定程度上犧牲語義理解能力，換取更強(qiáng)的生成能力。?

BERT：建立在Transformer

Encoder

的基礎(chǔ)上，并使用了與其配套的掩碼訓(xùn)練方法。雖然使用雙向編碼讓

BERT

文本生成能力被削弱，但是

BERT

的語義信息提取能力更強(qiáng)。?

二者均采用預(yù)訓(xùn)練方法：第一階段使用大規(guī)模無標(biāo)簽語料訓(xùn)練基礎(chǔ)語言模型。第二階段根據(jù)指定任務(wù)的少量帶標(biāo)簽數(shù)據(jù)進(jìn)行微調(diào)訓(xùn)練。?

我們認(rèn)為：1.

Transformer創(chuàng)新性架構(gòu)設(shè)計(jì)為后續(xù)的語言模型奠定基礎(chǔ)，開啟了預(yù)訓(xùn)練大語言模型的時(shí)代。?

2.谷歌和OpenAI引領(lǐng)大模型發(fā)展：谷歌和OpenAI先后于2018年提出基于Encoder的BERT和基于Decoder的GPT。谷歌在3年后加入OpenAI的Decoder路線，但在時(shí)間上處于落后。OpenAI在模型中引入人工反饋，并推出了生成能力極強(qiáng)的ChatGPT，引領(lǐng)全行業(yè)。圖表：Google和OpenAI在語言模型中的發(fā)展時(shí)間線圖表：BERT&GPT示意圖資料：BERT：Pre-training

ofDeepBidirectional

Transformers

for

Language

Understanding，公司官網(wǎng)，中信建投1.9

GPT

1-3:不斷發(fā)掘模型容量和數(shù)據(jù)量增加帶來的性能提升?

GPT-1使用了BooksCorpus數(shù)據(jù)集，這個(gè)數(shù)據(jù)集包含

7,000本沒有發(fā)布的書籍。1.

數(shù)據(jù)集擁有更長(zhǎng)的上下文依賴關(guān)系，使得模型能學(xué)得更長(zhǎng)期的依賴關(guān)系；2.

這些書籍因?yàn)闆]有發(fā)布，所以很難在下游數(shù)據(jù)集上見到，更能驗(yàn)證模型的泛化能力。?

GPT-2的文章取自于Reddit上高贊的文章，命名為WebText。數(shù)據(jù)集共有約800萬篇文章，累計(jì)體積約40G。為了避免和測(cè)試集的沖突，WebText移除了涉及Wikipedia的文章。

GPT-2訓(xùn)練了4組不同的層數(shù)和詞向量的長(zhǎng)度的模型：12/768，24/1024，36/1280，48/1600，滑動(dòng)窗口大小為1024（一次性對(duì)于上下文的1024個(gè)單詞進(jìn)行關(guān)聯(lián)語義挖掘）。?

GPT-3共訓(xùn)練了5個(gè)不同的語料，分別是低質(zhì)量的Common

Crawl，高質(zhì)量的WebText2，Books1，Books2和Wikipedia。

GPT-3采用了

96層的96頭transformer；詞向量的長(zhǎng)度是

12,888；滑動(dòng)窗口大小提升至

2,048?

我們認(rèn)為，在Transformer模型的廣泛應(yīng)用中，參數(shù)量和預(yù)訓(xùn)練數(shù)據(jù)量的提升，快速提升了模型的表現(xiàn)能力。千億級(jí)參數(shù)量的模型開始不斷出現(xiàn)。圖表：GPT系列模型的參數(shù)量與數(shù)據(jù)量不斷提升模型GPT發(fā)布時(shí)間2018.62019.22020.5參數(shù)量1.17億15億預(yù)訓(xùn)練數(shù)據(jù)量約5GBGPT-2GPT-340GB1750億45TB資料：機(jī)器之心，中信建投1.10

GPT

1-3:針對(duì)下游任務(wù)輸入的不斷革新?

GPT1-3的下游任務(wù)訓(xùn)練方法：GPT-1：針對(duì)不同下游任務(wù)，通過特殊格式的少量標(biāo)注數(shù)據(jù)集進(jìn)行訓(xùn)練（提供特殊格式的例子）。GPT-2：zero-shot，完全不提供例子，直接使用自然語言描述問題（task

description），但實(shí)際效果有限。GPT-3：zero-shot/one-shot/few-shot，不提供/提供1個(gè)/提供少量幾個(gè)例子，讓模型完成相應(yīng)的下游任務(wù)。?

我們認(rèn)為，隨著模型參數(shù)量和預(yù)訓(xùn)練數(shù)據(jù)量的增大，模型對(duì)通用任務(wù)的處理能力顯著提升，對(duì)下游微調(diào)的依賴性減弱。一方面，模型已經(jīng)在龐大的預(yù)訓(xùn)練數(shù)據(jù)量中學(xué)習(xí)了相關(guān)知識(shí)；另一方面，少量的微調(diào)數(shù)據(jù)難以調(diào)整巨大的神經(jīng)網(wǎng)絡(luò)模型。圖表：GPT-1對(duì)于不同下游任務(wù)的訓(xùn)練數(shù)據(jù)格式圖表：GPT3采用的zero-shot/one-shot/few-shot方法（左）與對(duì)應(yīng)性能（右）資料：Improving

Language

Understanding

byGenerative

Pre-Training，Language

Models

areFew-Shot

Learners，中信建投1.11

GPT3—ChatGPT:引入基于人類反饋的強(qiáng)化學(xué)習(xí)?

基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）就是通過人類的反饋去規(guī)范學(xué)習(xí)的過程：1.使用人工標(biāo)注形成標(biāo)準(zhǔn)答案：在ChatGPT的兄弟版本InstructGPT中，40位人工標(biāo)注員針對(duì)一個(gè)詳細(xì)說明了下游任務(wù)的數(shù)據(jù)集，完成了13000個(gè)問答，基于這些這些問答組成的訓(xùn)練數(shù)據(jù)來調(diào)整模型。2.訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型：針對(duì)模型給出的相同問題的多個(gè)回答，然后人工給這些問答對(duì)按一些標(biāo)準(zhǔn)（可讀性、無害、正確性等）進(jìn)行排序，訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型/偏好模型來打分（reward

model）。3.

持續(xù)更新網(wǎng)絡(luò)參數(shù)，在獎(jiǎng)勵(lì)模型的激勵(lì)下使模型生成的答案不斷趨近于定義的標(biāo)準(zhǔn)答案。圖表：InstructGPT引入人類反饋的強(qiáng)化學(xué)習(xí)示意圖圖表：ChatGPT能力的語言生成能力大語言模型的預(yù)訓(xùn)練過程海量的訓(xùn)練數(shù)據(jù)基礎(chǔ)世界知識(shí)上下文學(xué)習(xí)能力存儲(chǔ)知識(shí)的能力遵循不同指令的能力大語言模型中的海量參數(shù)廣泛的指令學(xué)習(xí)生成符合人類預(yù)期的答案的能力基于人類反饋的強(qiáng)化學(xué)習(xí)資料：Training

language

models

instructions

with

human

feedback，"How

does

GPT

Obtain

its

Ability?

Tracing

Emergent

Abilities

ofLanguage

Models

their

Sources"，中信建投1.12

ChatGPT與Bard對(duì)比?

2022年11月30日，OpenAI發(fā)布聊天機(jī)器人ChatGPT，基于GPT-3模型，為微軟主導(dǎo)，能夠模擬人類語言行為，與用戶進(jìn)行自然交互；2023年2月6日，谷歌發(fā)布Bard聊天機(jī)器人，基于大語言模型LaMDA。LaMDA包含1370億個(gè)參數(shù)量，

預(yù)訓(xùn)練數(shù)據(jù)為1.56T

；GPT-3包含1750億個(gè)參數(shù)量，預(yù)訓(xùn)練數(shù)據(jù)量為45TB。?

在訓(xùn)練方式上，ChatGPT在GPT-3基礎(chǔ)上加入了人類反饋強(qiáng)化學(xué)習(xí)（RLHF），采用人工標(biāo)注的方式將自然語言和強(qiáng)化學(xué)習(xí)結(jié)合起來，極大提升了模型的效率和學(xué)習(xí)能力。?

在數(shù)據(jù)集上，雖然原始LaMDA預(yù)訓(xùn)練數(shù)據(jù)量不如GPT-3，但Bard數(shù)據(jù)更新且與谷歌搜索引擎集成后能訪問大量數(shù)據(jù)，在獲取信息的深度和廣度方面要比ChatGPT大，與ChatGPT相比，Bard模型具有明顯的數(shù)據(jù)量?jī)?yōu)勢(shì)。?

除以上區(qū)別外，還存在ChatGPT內(nèi)嵌了抄襲檢測(cè)工具、Bard目前只應(yīng)用在搜索中、Bard是免費(fèi)的而ChatGPT有付費(fèi)選項(xiàng)等區(qū)別。圖表：ChatGPT與Bard區(qū)別ChatGPTBard集成在谷歌搜索中，只需要更改谷歌設(shè)置即可獲得BardAI搜索結(jié)果可以在ChatGPT網(wǎng)站進(jìn)行訪問，但只有文本響應(yīng)數(shù)據(jù)集來自2021年及以前的數(shù)據(jù)庫基于GPT數(shù)據(jù)來自互聯(lián)網(wǎng)，有比ChatGPT更新的數(shù)據(jù)基于LaMDA服務(wù)有免費(fèi)的也有付費(fèi)計(jì)劃選項(xiàng)服務(wù)是免費(fèi)的內(nèi)置了名為GPT-2OutputDetector的抄襲工具沒有內(nèi)置抄襲檢測(cè)工具仍然處于測(cè)試階段目前已經(jīng)發(fā)布資料：谷歌，微軟，中信建投1.13

KOSMOS-1—從大語言模型到多模態(tài)大語言模型?

微軟發(fā)布多模態(tài)大型語言模型（MLLM）KOSMOS-1。其基于Transformer模型，不但可以完成文本學(xué)習(xí)、指令遵循、上下文學(xué)習(xí)、文本生成等任務(wù)，還能夠?qū)⑽谋疽酝獾哪B(tài)（如視覺圖像、語音）嵌入到模型中，進(jìn)而完成多模態(tài)的下游任務(wù)。研究證明，在多個(gè)下游任務(wù)中，該模型具有非常優(yōu)異的性能。?

其訓(xùn)練數(shù)據(jù)集包括文本語料庫、圖像

字幕對(duì)、圖像和文本交叉數(shù)據(jù)集；模型的參數(shù)總量為16億。?

重要意義：多模態(tài)感知是實(shí)現(xiàn)通用人工智能的重要條件，多模態(tài)技術(shù)的發(fā)展將進(jìn)一步增強(qiáng)人工智能的知識(shí)獲取能力和高價(jià)值場(chǎng)景應(yīng)用能力?

我們認(rèn)為，多模態(tài)大語言模型蘊(yùn)含著更廣泛的應(yīng)用場(chǎng)景和更高的商業(yè)價(jià)值，將成為未來人工智能行業(yè)發(fā)展重要的競(jìng)爭(zhēng)賽道，多模態(tài)技術(shù)的成熟也將進(jìn)一步加速人工智能技術(shù)在不同場(chǎng)景的落地應(yīng)用。圖表：KOSMOS-1在視覺問答方面的測(cè)試樣例圖表：KOSMOS-1在圖像對(duì)話/邏輯問答方面的測(cè)試樣例資料：LanguageIsNot

AllYouNeed:

Aligning

Perception

with

Language

Models，機(jī)器之心，中信建投1.14

預(yù)訓(xùn)練自然語言大模型學(xué)術(shù)研究情況?

預(yù)訓(xùn)練自然語言的大模型相關(guān)研究得到爆發(fā)式發(fā)展。2017年Transformer模型誕生之后，隨即被應(yīng)用到自然語言、視覺識(shí)別等諸多領(lǐng)域，2018年自然語言預(yù)訓(xùn)練大模型的概念逐漸興起，通過在web

science上檢索

pre-trained

language

model（PLM），我們發(fā)現(xiàn)自2018年之后，預(yù)訓(xùn)練大模型得到了學(xué)術(shù)圈的廣泛研究，相關(guān)學(xué)術(shù)論文數(shù)量也呈現(xiàn)爆發(fā)式增長(zhǎng)。?

2022年大部分企業(yè)都加大了自然語言大模型的研發(fā)力度。通過對(duì)相關(guān)企業(yè)的文獻(xiàn)數(shù)量研究，我們能夠窺測(cè)到：微軟、谷歌在自然語言大模型領(lǐng)域進(jìn)入較早且持續(xù)投入較大。整體來看，大部分企業(yè)在2022年都加快了自然語言模型的研發(fā)進(jìn)程，在ChatGPT爆火之后，自然語言大模型領(lǐng)域?qū)⒂瓉硇乱惠喌难芯坷顺?。圖：大模型的相關(guān)學(xué)術(shù)研究論文數(shù)量圖：不同企業(yè)的大模型學(xué)術(shù)論文的發(fā)表頻次6005004003002002018201920202021202250314121083276157410002413110微軟阿里巴巴谷歌百度臉書IBM201820192020202120222023資料：Web

Science，中信建投目錄一、NLP算法發(fā)展歷程介紹二、訓(xùn)練好大模型的要素三、算力需求的展望四、投資邏輯梳理2.

訓(xùn)練好大模型的要素1、大模型的性能往往隨著模型參數(shù)量增加而增加，這是可以從小模型推斷出來的；2、某些情況下，大模型的參數(shù)增加到一定程度，模型性能會(huì)有一些突破性，這不能從小模型進(jìn)行推斷，被稱為大模型的突現(xiàn)能力。模型參數(shù)訓(xùn)練準(zhǔn)備1、模型的數(shù)據(jù)量與模型參數(shù)數(shù)量同等重要，模型數(shù)據(jù)量要和參數(shù)量保持相同速度增長(zhǎng)；訓(xùn)練數(shù)據(jù)2、高質(zhì)量、干凈的數(shù)據(jù)集會(huì)對(duì)模型預(yù)訓(xùn)練產(chǎn)生較好的性能提升。1、模型需要更充分的預(yù)訓(xùn)練，包括增大batchsize和步長(zhǎng)；2、增大預(yù)訓(xùn)練難度可以提升模型性能。預(yù)訓(xùn)練模型訓(xùn)練微調(diào)Prompt、Fine-tune提高模型在下游場(chǎng)景的表現(xiàn)訓(xùn)練效率訓(xùn)練環(huán)境并行計(jì)算、顯存優(yōu)化與模型稀疏性是提升訓(xùn)練效率的三種方式2.1

大模型與小模型界定?

大模型，又稱為基礎(chǔ)模型或者大規(guī)模預(yù)訓(xùn)練模型，是“大算力+強(qiáng)算法”結(jié)合的產(chǎn)物，大模型是人工智能發(fā)展的趨勢(shì)和未來。?

大模型的一般訓(xùn)練過程：數(shù)據(jù)獲取-數(shù)據(jù)清洗-大模型訓(xùn)練-下游適配-終端應(yīng)用?

大模型與小模型沒有非常清晰的界定，站在當(dāng)前時(shí)點(diǎn)來看，大模型一般具備如下特征：

參數(shù)量（十億量級(jí)）和訓(xùn)練數(shù)據(jù)量（GB以上）巨大，一般采用transformer架構(gòu)；

采用預(yù)訓(xùn)練模式，在通用數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練，而不是直接在特定數(shù)據(jù)集進(jìn)行特定任務(wù)的訓(xùn)練；

具備遷移學(xué)習(xí)能力，遷移學(xué)習(xí)的思想是將從一項(xiàng)任務(wù)(例如，圖像中的對(duì)象識(shí)別)中學(xué)到的“知識(shí)”應(yīng)用到另一項(xiàng)任務(wù)(例如，視頻中的行為識(shí)別)中，在Zero/One-shot中具有較好的表現(xiàn)，即訓(xùn)練樣本很少或者沒有的情況下，仍有較好性能。

模型的訓(xùn)練過程依賴云端設(shè)備，無法在離線個(gè)人終端上實(shí)現(xiàn)；圖表：大模型的訓(xùn)練及應(yīng)用過程數(shù)據(jù)獲取數(shù)據(jù)清洗大模型訓(xùn)練下游適配終端應(yīng)用資料：On

the

Opportunities

and

Risks

Foundation

Models，中信建投2.2

大模型與小模型建模過程的差異性?

在訓(xùn)練步驟方面。大模型的訓(xùn)練過程主要包含如下步驟：數(shù)據(jù)獲取→數(shù)據(jù)清洗

→大模型訓(xùn)練→下游適配→終端應(yīng)用，小模型的訓(xùn)練過程主要包含如下幾個(gè)步驟：任務(wù)制定→數(shù)據(jù)獲取→數(shù)據(jù)清洗

→模型訓(xùn)練→模型調(diào)試→終端應(yīng)用。訓(xùn)練過程的差異性主要存在于以下兩個(gè)步驟中：?

在數(shù)據(jù)獲取環(huán)節(jié)方面，大模型的訓(xùn)練文本一般是通用數(shù)據(jù)集，其訓(xùn)練文本并未針對(duì)特定領(lǐng)域進(jìn)行篩選。小模型的訓(xùn)練過程中首先制定任務(wù)目標(biāo)，針對(duì)特定目標(biāo)搜選訓(xùn)練數(shù)據(jù)集，適用于監(jiān)督學(xué)習(xí)的數(shù)據(jù)集同時(shí)需要標(biāo)注員進(jìn)行人工標(biāo)注。?

在訓(xùn)練模式方面，大模型一般采用預(yù)訓(xùn)練模式，訓(xùn)練過程中并未針對(duì)下游特定任務(wù)，訓(xùn)練之后需要fine-tune（微調(diào)）去在下游應(yīng)用領(lǐng)域適用。小模型在訓(xùn)練時(shí)包含特定任務(wù)，訓(xùn)練結(jié)束后經(jīng)過一定的參數(shù)微調(diào)，便可應(yīng)用到下游領(lǐng)域。圖表：“源”模型數(shù)據(jù)預(yù)處理流程圖圖表：BERT模型的預(yù)訓(xùn)練過程和下游任務(wù)微調(diào)資料：浪潮信息，

BERT：Pre-training

ofDeep

Bidirectional

Transformers

forLanguage

Understanding，中信建投2.3

如何訓(xùn)練好一個(gè)大模型：增加模型參數(shù)及復(fù)雜度?

模型參數(shù)量對(duì)大模型的性能有重要影響，大模型的性能往往隨著模型參數(shù)量的增加而上升，多數(shù)是可以預(yù)見的，模型性能通常是依靠知識(shí)和簡(jiǎn)單的文本操作來提高。大模型還存在一種不可預(yù)見現(xiàn)象，被稱為大模型的突現(xiàn)能力（emergent

abilities

orbreakthroughness），指在特定任務(wù)中，伴隨著模型參數(shù)量的增加，會(huì)發(fā)生一些不存在于小模型的現(xiàn)象，這種現(xiàn)象不能簡(jiǎn)單通過推斷小模型的性能改進(jìn)進(jìn)行預(yù)測(cè)，約有5%的大模型任務(wù)會(huì)出現(xiàn)大模型的突現(xiàn)能力。?

在一定程度上堆疊更多的網(wǎng)絡(luò)層數(shù)，提升模型復(fù)雜度，有利于提升模型效果。例如，GPT-1為12層網(wǎng)絡(luò)，GPT-2將Transformer堆疊的層數(shù)增加到48層，GPT-3則為96層。此外，增加模型中詞向量長(zhǎng)度，放大每層網(wǎng)絡(luò)中的構(gòu)件大小等均能提升模型效果。圖表：模型性能隨參數(shù)量上升圖表：隨著參數(shù)量上升大模型性能具有突破性資料：EmergentAbilities

ofLarge

Language

Models，Quantifying

and

extrapolating

the

capabilities

oflanguage

models，中信建投2.4

語言模型對(duì)訓(xùn)練數(shù)據(jù)量提出更高需求?

在大模型中，模型參數(shù)量大小和訓(xùn)練數(shù)據(jù)量應(yīng)該以大致相同的速度增長(zhǎng)。?

大模型普遍訓(xùn)練不足的問題：DeepMind的最新論文中審視了當(dāng)前的模型發(fā)展，發(fā)現(xiàn)普遍存模型的大小與訓(xùn)練數(shù)據(jù)量不匹配。因?yàn)樵谶^去，業(yè)界普遍認(rèn)為大模型表現(xiàn)和參數(shù)量高度相關(guān)。但在實(shí)際訓(xùn)練中，算力是對(duì)模型最大的制約因素，模型參數(shù)不可能無限增長(zhǎng)。?

參數(shù)量與數(shù)據(jù)量應(yīng)匹配：在算力資源有限情況下，如何匹配模型參數(shù)量和數(shù)據(jù)量使得模型表現(xiàn)達(dá)到最優(yōu)，是非常重要的問題。?

DeepMind最新的研究成果表明：對(duì)于固定的算力資源，模型參數(shù)大小和訓(xùn)練數(shù)據(jù)的大小是對(duì)應(yīng)的。1）OpenAI過去的工作發(fā)現(xiàn)，模型的尺寸應(yīng)該會(huì)比訓(xùn)練數(shù)據(jù)大小的增加更快。2）DeepMind新研究發(fā)現(xiàn)，

模型的尺寸和訓(xùn)練數(shù)據(jù)的數(shù)量應(yīng)該以大致相同的速度增長(zhǎng)。在最優(yōu)性能曲線（右下圖三條直線）中：

DeepMind的Chinchilla

(700億)

模型，利用原先4倍的訓(xùn)練數(shù)據(jù)量，獲得了參數(shù)量和性能的最優(yōu)匹配?？梢钥吹紾opher（2800億）、GPT-3（1750億）、MT-NLG

（5300億）等模型的訓(xùn)練量明顯不足，造成了對(duì)算力的浪費(fèi)。圖表：DeepMind訓(xùn)練大模型的參數(shù)圖表：DeepMind發(fā)現(xiàn)很多大模型參數(shù)量應(yīng)該有所降低ModelSize(#

Parameters)

Training

TokensLaMDAGPT-3137

Billion175

Billion178

Billion280

Billion530

Billion70

Billion168

Billion300

Billion270

Billion1.4

TrillionJurassicGopherMT-NLG

530BChinchilla資料：TrainingCompute-Optimal

Large

Language

Model，State

ofAI2022，中信建投2.5

高質(zhì)量的數(shù)據(jù)集可能更為重要?

對(duì)于大型語言模型而言，數(shù)據(jù)質(zhì)量可能更為重要。數(shù)據(jù)質(zhì)量包括數(shù)據(jù)準(zhǔn)確度、信息含量以及數(shù)據(jù)類型的多樣性等。?

多年前谷歌提出的T5預(yù)訓(xùn)練模型，使用其專門構(gòu)造的C4數(shù)據(jù)集（Colossal

Clean

CrawledCorpus），該數(shù)據(jù)集是從Common

Crawl網(wǎng)站上抓取數(shù)百個(gè)千兆字節(jié)干凈的英文文本，從而使得模型訓(xùn)練后，性能有較好的表現(xiàn)。?

除了構(gòu)造高質(zhì)量、干凈的數(shù)據(jù)集外，對(duì)不同質(zhì)量的數(shù)據(jù)在訓(xùn)練中賦以不同的訓(xùn)練占比也是提升訓(xùn)練效果的方法。例如，GPT-3中數(shù)據(jù)集包括Common

Crawl在內(nèi)的五類數(shù)據(jù)，但該模型并非根據(jù)數(shù)據(jù)量大小賦予同比例權(quán)重，而是將質(zhì)量較高的維基百科數(shù)據(jù)在訓(xùn)練集中給予更大的單數(shù)據(jù)量占比。?

阿伯丁大學(xué)等相關(guān)學(xué)者（資料據(jù)會(huì)在2030到2050年用光，而低質(zhì)量圖像數(shù)據(jù)會(huì)在2030到2060年用光。2）對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行了估算，結(jié)論到2026年左右，高質(zhì)量的

NLP

數(shù)據(jù)將會(huì)用光，低質(zhì)量

NLP

數(shù)圖表：T5模型C4數(shù)據(jù)集表現(xiàn)（前四類數(shù)據(jù)集是C4或者基于C4的變體）圖表：GPT-3數(shù)據(jù)集DatasetSize

GLUE

CNNDM

SQnAD

SGLUE

EnDe

EnF

EnRoQuantityWeight

inEpochs

elapsedwhenDataset(tokens)

trainingmix

trainingfor

300BtokensC4745GB

83.286.1TB

81.4635GB

83.8317GB

84.0316GB

81.8519.2419.1419.2319.3119.3119.2880.8878.7880.3981.4281.2982.0871.36

26.98

39.82

27.6568.04

26.55

39.34

27.2172.38

26.75

39.90

27.4871.40

26.80

39.74

27.5968.01

26.94

39.69

27.6773.24

26.77

39.63

27.57C4,unfilteredRealNews-likeWebText-likeWikipediaCommonCrawl

(filtered)

410billion60%22%8%0.442.9WebText2Books119billion12billion55billion3billion1.9Books28%0.433.4Wikipedia

TBC

20GB

83.65Wikipedia3%資料：1.

Exploring

theLimits

ofTransfer

Learning

with

aUnified

Text-to-Text

Transformer

，2.Will

werunoutofdata?

Ananalysis

ofthe

limits

ofscaling

datasets

inMachine

Learning

，3.Language

Models

are

Few-Shot

Learners，中信建投2.6

大模型需要更充分的預(yù)訓(xùn)練?

大模型預(yù)訓(xùn)練階段主要通過在一定程度上增大batchSize（每一組數(shù)據(jù)的大?。┖筒介L(zhǎng)（在數(shù)據(jù)上移動(dòng)的長(zhǎng)度）實(shí)現(xiàn)。?

典型的增大batchsize與步長(zhǎng)的模型是BERT的改進(jìn)版本RoBERTa。RoBERTa是穩(wěn)健優(yōu)化的BERT方法，使用動(dòng)態(tài)掩碼、更大的batchsize以及字節(jié)對(duì)編碼等進(jìn)行優(yōu)化。?

RoBERTa在BERT的基礎(chǔ)上，通過增大batchsize（8K）和步長(zhǎng)（100K->300K->500K），使得BERT得到充分訓(xùn)練，極大提升了原始BERT模型的效果。圖表：RoBERTa模型使用大的batchSize和增加訓(xùn)練步數(shù)不同數(shù)據(jù)集的準(zhǔn)確率SQuAD(v1.1/2.0)ModeldatabszstepsMNLl-mSST-2RoBERTawithBooKs+

WIKI+additional

data(§3.2)+pretrain

longer+pretrain

even

longerBERT

large16GB160GB160GB160GB8K8K8K8K100K100K300K500K93.6/87.394.0/87.794.4/88.794.6/89.489.089.390.090.295.395.696.196.4withBooKs+

WIKIXLNet

large13GB2561M90.9/81.886.693.7withBooKs+

WIKI+additional

data13GB2562K1M94.0/87.894.5/88.888.489.894.495.6126GB500K資料：RoBERTa:ARobustly

Optimized

BERT

Pretraining

Approach，中信建投2.7

增加預(yù)訓(xùn)練任務(wù)的難度?

大模型在進(jìn)行預(yù)測(cè)之前需要進(jìn)行預(yù)訓(xùn)練，如果預(yù)訓(xùn)練任務(wù)越有難度，則預(yù)訓(xùn)練模型則越能高效率學(xué)習(xí)知識(shí)，則最終模型能有更好的性能表現(xiàn)。以BERT為例，BERT有兩個(gè)預(yù)訓(xùn)練任務(wù)，分別是單詞級(jí)的MASK語言模型和句子級(jí)的下一句預(yù)測(cè)NSP模型。?

MASK模型隨機(jī)選取一部分單詞進(jìn)行屏蔽，要求模型對(duì)屏蔽詞作出預(yù)測(cè)。MASK任務(wù)中，相較于簡(jiǎn)單屏蔽一個(gè)獨(dú)立的單詞，通過屏蔽連續(xù)的單詞片段，對(duì)模型要求更高，訓(xùn)練效果也最好。?

NSP的主要目的是判斷兩個(gè)句子之間的連貫性，正例由兩個(gè)連續(xù)句子構(gòu)成，負(fù)例的兩個(gè)句子順序則是隨機(jī)的，不具備上下文關(guān)系，NSP將連貫性預(yù)測(cè)和主題預(yù)測(cè)進(jìn)行了合并，只需要模型預(yù)測(cè)句子是否主題相似即可，任務(wù)比較簡(jiǎn)單。在BERT模型的改進(jìn)版ALBERT中，用SOP代替了NSP，將兩個(gè)連續(xù)出現(xiàn)的句子構(gòu)造成正例，負(fù)例則將連續(xù)的句子調(diào)換語序，需要模型預(yù)測(cè)兩個(gè)句子出現(xiàn)順序是否正確，模型復(fù)雜度增加，但同時(shí)模型學(xué)到了更多知識(shí)，取得了比較好的訓(xùn)練效果。圖表：各種語言模型預(yù)訓(xùn)練任務(wù)ObjectiveInputsTargetsPrefix

language

modelingBERT-styleThank

you

forinvitingmetoyour

party

lastweek

.(original

text)Thank

you

<M>

<M>metoyour

party

apple

week

.party

meforyour

to.last

funyou

inviting

weekThankThank

you

<M><M>metoyour

party

<M>week

.Thank

you

<X>metoyour

party

<Y>week

.Thank

you

metoyour

party

week

.Thank

you

<X>to<Y>week

.Deshuflling(original

text)MASS-style(original

text)l.i.d.noisE,replace

spansl.i.d.noise,

droptokensRandom

spans<X>forinviting

<Y>last

<Z>forinvitinglast<X>forinviting

me<Y>your

party

last

<Z>資料：Exploring

theLimits

ofTransfer

Learning

with

aUnified

Text-to-Text

Transformer，中信建投2.8

Fine-tune、Prompt提高模型下游任務(wù)表現(xiàn)?

大型語言模型預(yù)訓(xùn)練之后，需要進(jìn)行微調(diào)。Fine-tune方法將預(yù)訓(xùn)練模型在具體的下游任務(wù)上進(jìn)行微調(diào)，以獲得更好的應(yīng)用效果。但是這種策略一方面需要保存大量的主干參數(shù)的數(shù)據(jù)且需要大量訓(xùn)練數(shù)據(jù)，成本較高；另一方面，在上下游任務(wù)目標(biāo)差異大時(shí)，微調(diào)難以解決問題；同時(shí)，不改變大部分參數(shù)，只針對(duì)輸出部分進(jìn)行調(diào)整，會(huì)導(dǎo)致過擬合問題。?

Prompt方法主要通過改造下游任務(wù)的模板來縮小預(yù)訓(xùn)練和微調(diào)時(shí)的差異，降低微調(diào)成本，提高模型在下游的應(yīng)用效果。最大的優(yōu)點(diǎn)是零/小樣本，解決了Fine-tune最大的痛點(diǎn)。Prompt的設(shè)計(jì)分為模板設(shè)計(jì)、答案搜索和答案映射三步。?

Prompt模板的設(shè)計(jì)方法主要分為人工構(gòu)建模板、離散模板和連續(xù)模板三種。其中，人工構(gòu)建的模板具有直觀、高效的特點(diǎn)，但是費(fèi)時(shí)費(fèi)力難度較大；離散模板對(duì)專業(yè)知識(shí)的要求較低，但是在部分任務(wù)上性能不佳；連續(xù)模板在部分場(chǎng)景下性能超過Fine-tune，但是訓(xùn)練時(shí)間長(zhǎng)、收斂速度慢，與預(yù)訓(xùn)練數(shù)據(jù)可能出現(xiàn)過耦合。圖表：連續(xù)Propmt和Fine-tune調(diào)優(yōu)效果對(duì)比圖表：離散Propmt和Fine-tune調(diào)優(yōu)效果對(duì)比資料：Prefix-Tuning:

Optimizing

Continuous

Prompts

for

Generation，Autoprompt:

Eliciting

knowledge

from

language

models

with

automatically

generated

prompts，中信建投2.9

并行計(jì)算、顯存優(yōu)化與模型稀疏性提升訓(xùn)練效率?

并行計(jì)算、顯存優(yōu)化與模型稀疏性設(shè)計(jì)是提升大模型訓(xùn)練效率的三種技術(shù)。?

并行計(jì)算通過使用多張顯卡訓(xùn)練模型，將任務(wù)進(jìn)行拆解，分配給不同的處理器進(jìn)行處理，可以提高模型的訓(xùn)練效率。根據(jù)不同的維度，分為數(shù)據(jù)并行、流水線并行、張量并行三種。數(shù)據(jù)并行是將相同模型權(quán)重復(fù)制到多個(gè)設(shè)備，并將一部分?jǐn)?shù)據(jù)分配給每個(gè)設(shè)備同時(shí)處理；流水線并行是一種通過將模型并行與數(shù)據(jù)流水線相結(jié)合來加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練的方法，核心思想在于模型按層分割成若干塊，每塊都交給一個(gè)設(shè)備；張量并行是將一個(gè)張量沿特定維度分成若干部分在不同的設(shè)備上分別計(jì)算。?

顯存優(yōu)化技術(shù)能夠降低顯存占用，提高GPU利用率，與并行計(jì)算相結(jié)合，節(jié)約模型訓(xùn)練的成本，實(shí)現(xiàn)在單GPU上訓(xùn)練大模型，包括激活檢查點(diǎn)（ActivationCheckpointing）、混合精度訓(xùn)練（Mix

Precision

Training

）以及零冗余優(yōu)化器（Zero

RedundancyOptimizer

）?

模型稀疏性指的是模型具有非常大的容量，但只有模型的用于給定的任務(wù)、樣本或標(biāo)記的某些部分被激活。模型稀疏設(shè)計(jì)的優(yōu)點(diǎn)在于輸入不會(huì)激活整個(gè)模型，通過子模型處理不同類的任務(wù)，同時(shí)共享一部分模型。子模型擴(kuò)大了模型的容量，但是實(shí)際計(jì)算成本不會(huì)發(fā)生明顯變化。圖表：并行策略圖表：零冗余優(yōu)化器優(yōu)化過程圖表：專家混合模型（MoE）是典型的模型稀疏性方法資料：Diveinto

BigModel

Training，中信建投目錄一、NLP算法發(fā)展歷程介紹二、訓(xùn)練好大模型的要素三、算力需求的展望四、投資邏輯梳理3.1

人工智能模型不同時(shí)段的算力需求人工智能模型的算力需求大致可以分為三個(gè)階段：

2010年以前，深度學(xué)習(xí)尚未得到廣泛應(yīng)用，

主要還是基于統(tǒng)計(jì)的方法進(jìn)行模型搭建，算力需求的增長(zhǎng)相對(duì)緩慢，大致每20個(gè)月翻一倍。

2010-2015年，深度學(xué)習(xí)模型在傳統(tǒng)的自然語言、計(jì)算機(jī)視覺等領(lǐng)域開始戰(zhàn)勝支持向量機(jī)等算法，深度學(xué)習(xí)模型開始成為主流算法，隨著神經(jīng)網(wǎng)絡(luò)的層數(shù)和參數(shù)量的提升，算力需求的增長(zhǎng)速度也顯著加快，大致每6個(gè)月翻一倍。

2016年之后，人工智能模型開始進(jìn)入巨量參數(shù)時(shí)代，算力需求顯著提升。根據(jù)英偉達(dá)的算力統(tǒng)計(jì)顯示，自2017年之后，以Transformer模型為基礎(chǔ)架構(gòu)的大模型算力需求提升大致是每2年提升275倍。圖表：AI模型的算力需求逐步提升圖表：Transformer模型的算力需求顯著高于其他模型資料：State

Report，英偉達(dá)，中信建投3.2

預(yù)訓(xùn)練自然語言模型對(duì)算力提出更高需求?

隨著大規(guī)模預(yù)訓(xùn)練自然語言模型的提出，模型的訓(xùn)練過程中提出了更高的算力要求。預(yù)訓(xùn)練模型通過無需人工標(biāo)注的大規(guī)模文本庫進(jìn)行高算力的預(yù)先訓(xùn)練，得到通用的語言模型和表現(xiàn)形式，再經(jīng)過特定應(yīng)用環(huán)境對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)，從而在各種下游應(yīng)用領(lǐng)域得到目標(biāo)任務(wù)的快速收斂和準(zhǔn)確率提升。預(yù)訓(xùn)練模型在訓(xùn)練過程中不針對(duì)下游任務(wù)進(jìn)行訓(xùn)練，模型的泛化學(xué)習(xí)能力使其具備廣泛的下游適應(yīng)能力，泛化學(xué)習(xí)能力與模型的參數(shù)量密切相關(guān)，因而參數(shù)巨量化成為預(yù)訓(xùn)練模型的典型特征。同時(shí)隨著訓(xùn)練數(shù)據(jù)量的顯著提升，預(yù)訓(xùn)練模型的訓(xùn)練過程中對(duì)算力提出了更高的要求。圖表：大規(guī)模自然語言模型的參數(shù)量和算力需求圖表：訓(xùn)練大規(guī)模自然語言模型的算力需求算力需求(PF-訓(xùn)練數(shù)據(jù)量（百

算力需求（每參模型算力需求(flops)

參數(shù)量（百萬）days)萬tokens）數(shù)·每文本）chatGPTT5-Small2.08E+001.80E+20601,0003T5-BaseT5-Large7.64E+002.67E+011.04E+023.82E+021.89E+006.16E+001.74E+014.93E+012.60E+007.42E+001.58E+012.75E+015.52E+011.39E+022.68E+026.60E+202.31E+219.00E+213.30E+221.64E+205.33E+201.50E+214.26E+212.25E+206.41E+201.37E+212.38E+214.77E+211.20E+222.31E+222207701

,0001

,0001,0001,000250333366666666666T5-3B3,00011,000109T5-11BBERT-BaseBERT-LargeRoBERTa-BaseRoBERTa-LargeGPT-3

SmallGPT-3

MediumGPT-3

LargeGPT-3

XL3552501252,0002,0003003551253563007603001,3202,6506,66012,850300GPT-3

2.7BGPT-3

6.7BGPT3

13B300300300GPT-3

175B3.64E+033.14E+23174,6003006資料：LanguageModels

areFew-Shot

Learners，中信建投3.3

超大規(guī)模自然語言模型的算力需求邁上新臺(tái)階?

預(yù)訓(xùn)練自然語言模型進(jìn)入千億參數(shù)時(shí)代，模型訓(xùn)練算力邁上新臺(tái)階。自GPT-3模型之后，大規(guī)模的自然語言模型進(jìn)入了千億參數(shù)時(shí)代，2021年之后涌現(xiàn)出諸多千億規(guī)模的自然語言模型，模型的訓(xùn)練算力顯著增加。GPT-3模型參數(shù)量為1750億，訓(xùn)練算力需求為3.14E+23

flops，當(dāng)前各種預(yù)訓(xùn)練語言模型還在快速的更新迭代，不斷刷新自然語言處理任務(wù)的表現(xiàn)記錄，單一模型的訓(xùn)練算力需求也不斷突破新高。圖表：超大規(guī)模自然語言模型的發(fā)展進(jìn)程GPT-N

eoX

(20B)GPT-j(6B)M

egatronTuring-N

(137B)BLOOM

(176B)C

illa(70B)chatG

PTGPT-3(175B)Pan-Gu

(200B)FLAN

(137B)Gopher(280B)OPT

(175B)Ja

2022Aug

2022June

2020M

2021Aug

2021Sep

2021M

2022Nov

2022H

yperCLO

(204B)Yuan

1.0

(246B)

LaM

(280B)GLM

(130B)PaLM

(540B)Jurassic-1

Jum

(204B)Ernie

3.0

Titan

(260B)資料：State

Report，中信建投3.4

大模型的算力需求主要來自三個(gè)環(huán)節(jié)?

大模型的算力需求主要來自于三個(gè)環(huán)節(jié)：

預(yù)訓(xùn)練得到大模型的訓(xùn)練環(huán)節(jié)。該環(huán)節(jié)中，算力呈現(xiàn)海量需求且集中訓(xùn)練的特點(diǎn)，大模型通常在數(shù)天到數(shù)周內(nèi)在云端完成訓(xùn)練。

適應(yīng)下游領(lǐng)域時(shí)進(jìn)一步fine-tune環(huán)節(jié)。算力需求取決于模型的泛化能力以及下游任務(wù)的難度情況。

大模型日常運(yùn)行時(shí)的推理環(huán)節(jié)。該環(huán)節(jié)中，算力取決于模型的參數(shù)量和用戶調(diào)用量，需求在模型商業(yè)化后持續(xù)存在且波動(dòng)較大。圖表：大模型算力需求訓(xùn)練算力日常運(yùn)行時(shí)的算力需求書籍文章網(wǎng)絡(luò)對(duì)話商業(yè)應(yīng)用chatGPT、LaMDA等預(yù)訓(xùn)練模型數(shù)據(jù)獲取數(shù)據(jù)清洗模型訓(xùn)練適應(yīng)下游領(lǐng)域時(shí)Fine-tune算力資料：中信建投3.5

英偉達(dá)顯卡是AI模型算力的主流選擇?

英偉達(dá)顯卡是AI模型中最常用的算力芯片。英偉達(dá)顯卡憑借較高的靈活性和成熟的軟件生態(tài)，成為當(dāng)前AI模型的主流選擇，根據(jù)學(xué)術(shù)論文的統(tǒng)計(jì)結(jié)果，英偉達(dá)顯卡使用的頻次是FPGA的23倍，TPU的78倍。?

英偉達(dá)顯卡實(shí)現(xiàn)人工智能算力的顯著提升。從V100-A100-H100的發(fā)展路徑來看，英偉達(dá)顯卡實(shí)現(xiàn)了FP64、FP32算力能力的持續(xù)提升，AI模型的訓(xùn)練速度穩(wěn)步加快，通過引入FP16、INT8

Tensor

core，實(shí)現(xiàn)推理能力的顯著提升，單位能耗下的訓(xùn)練和推理能力也實(shí)現(xiàn)穩(wěn)步提升。圖表：不同AI芯片在人工智能論文中的出現(xiàn)頻次圖表：英偉達(dá)不同GPGPU的性能參數(shù)比對(duì)H100A100A800V100型號(hào)34679.719.59.77.8FP64(TFlops)19.515.7FP32(TFlops)1979395880624624

-1248

-80FP16Tensor

core(TFlops)INT8Tensor

core(TFlops)12488032900GPUGB）顯存（335090020396002039400GPU

GB/s帶寬（

）300GB/s互連（）700400400300功耗（W）2022.032020.032022.112017.5發(fā)布時(shí)間資料：State

Report，英偉達(dá)，中信建投3.6

AI服務(wù)器專注實(shí)現(xiàn)人工智能加速?

隨著AI算力的需求提升，衍生出專注人工智能加速的AI服務(wù)器。在小模型時(shí)代，AI模型的訓(xùn)練和推理算力需求相對(duì)較小，依賴個(gè)人終端就可以實(shí)現(xiàn)。隨著模型參數(shù)的逐漸提升，AI模型開始依賴云端算力，云服務(wù)器承載了主要的算力需求。當(dāng)前，AI算力在數(shù)據(jù)中心的占比進(jìn)一步提升，衍生出了更加專業(yè)化的AI服務(wù)器。?

以GPU為主的AI服務(wù)器實(shí)現(xiàn)人工智能的算力加速。AI服務(wù)器多采用異構(gòu)架構(gòu)，其中以2CPU+8GPU最為常見，AI服務(wù)器具有性能優(yōu)越、擅長(zhǎng)并行計(jì)算、高帶寬、散熱能力強(qiáng)等優(yōu)點(diǎn)。圖表：傳統(tǒng)云服務(wù)器與AI服務(wù)器圖表：云服務(wù)器與AI服務(wù)器的差異AI服務(wù)器云服務(wù)器AI服務(wù)器2

CPU+8

GPU傳統(tǒng)云服務(wù)器典型配置計(jì)算性能適用領(lǐng)域2

CPU側(cè)重串行計(jì)算側(cè)重并行計(jì)算

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 通信電子

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

ChatGPT技術(shù)演進(jìn)及研究框架分析報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

ChatGPT技術(shù)演進(jìn)及研究框架分析報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔