大模型原理與技術(shù) 課件匯魏明強(qiáng) chap1 緒論- chap5 大模型訓(xùn)練與優(yōu)化

上傳人：y*** IP屬地：山東上傳時(shí)間：2024-12-06 格式：PPTX 頁(yè)數(shù)：279 大小：11.82MB 積分：40 舉報(bào) 版權(quán)申訴

大模型原理與技術(shù) 課件匯魏明強(qiáng) chap1 緒論- chap5 大模型訓(xùn)練與優(yōu)化_第2頁(yè)

大模型原理與技術(shù) 課件匯魏明強(qiáng) chap1 緒論- chap5 大模型訓(xùn)練與優(yōu)化_第3頁(yè)

大模型原理與技術(shù) 課件匯魏明強(qiáng) chap1 緒論- chap5 大模型訓(xùn)練與優(yōu)化_第4頁(yè)

大模型原理與技術(shù) 課件匯魏明強(qiáng) chap1 緒論- chap5 大模型訓(xùn)練與優(yōu)化_第5頁(yè)

已閱讀5頁(yè)，還剩274頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

緒

論智周萬(wàn)物?道濟(jì)天下o

大模型基本概念o

大模型發(fā)展歷程o

大模型關(guān)鍵技術(shù)及訓(xùn)練流程l

大模型關(guān)鍵技術(shù)l

大模型訓(xùn)練流程o

內(nèi)容安排22

目錄o

大模型基本概念o

大模型發(fā)展歷程o

大模型關(guān)鍵技術(shù)及訓(xùn)練流程l

大模型關(guān)鍵技術(shù)l

大模型訓(xùn)練流程o

內(nèi)容安排3

大模型基本概念4o

大模型是通過(guò)“大數(shù)據(jù)+大算力+強(qiáng)算法”相結(jié)合來(lái)模擬人類思維和創(chuàng)造力的人工智能算法

大模型基本概念5o

大模型是通過(guò)“大數(shù)據(jù)+大算力+強(qiáng)算法”相結(jié)合來(lái)模擬人類思維和創(chuàng)造力的人工智能算法l

大數(shù)據(jù)：規(guī)模巨大、多樣化的數(shù)據(jù)集合。

具有廣度和深度的數(shù)據(jù)可以提供豐富的信息來(lái)訓(xùn)練和優(yōu)化大模型，從而使大模型具備更全面的認(rèn)知

和更準(zhǔn)確的預(yù)測(cè)能力，更好地理解現(xiàn)實(shí)世界復(fù)雜的現(xiàn)象和問(wèn)題。l

大算力：指計(jì)算機(jī)或計(jì)算系統(tǒng)具有處理和執(zhí)行復(fù)雜計(jì)算任務(wù)的高度能力。

大模型涉及龐大的參數(shù)和復(fù)雜的計(jì)算任務(wù)，強(qiáng)大的算力是支撐大模型訓(xùn)練和推理的基石。

在訓(xùn)練階段，大算力可以加速數(shù)據(jù)預(yù)處理、特征提取和模型優(yōu)化，使得模型能夠更快地收斂；

在推理階段，大算力可以實(shí)現(xiàn)模型的高效運(yùn)行和及時(shí)響應(yīng)，滿足用戶對(duì)于實(shí)時(shí)性的需求。l

強(qiáng)算法：指在解決特定問(wèn)題或執(zhí)行任務(wù)方面表現(xiàn)出高效率、高準(zhǔn)確率和強(qiáng)魯棒性的算法，是模型解決問(wèn)題的機(jī)制。

強(qiáng)算法能夠更好地挖掘大數(shù)據(jù)中的潛在模式，并將其轉(zhuǎn)化為模型的優(yōu)化方向，

在面對(duì)不確定性和變化時(shí)保持高度的適應(yīng)性和穩(wěn)定性，有效應(yīng)對(duì)現(xiàn)實(shí)世界中的復(fù)雜問(wèn)題。

大模型基本概念6o

大模型是“大數(shù)據(jù)+大算力+強(qiáng)算法”相互融合的產(chǎn)物

大模型是一種全新的AI基礎(chǔ)范式o

大模型基本概念o

大模型發(fā)展歷程o

大模型關(guān)鍵技術(shù)及訓(xùn)練流程l

大模型關(guān)鍵技術(shù)l

大模型訓(xùn)練流程o

內(nèi)容安排7

大模型發(fā)展歷程8Transformer架構(gòu)GPTBERT技術(shù)架構(gòu)參數(shù)規(guī)模模態(tài)支持大規(guī)模預(yù)訓(xùn)練模型超大規(guī)模預(yù)訓(xùn)練模型預(yù)訓(xùn)練模型多模態(tài)跨模態(tài)單模態(tài)應(yīng)用領(lǐng)域基礎(chǔ)大模型行業(yè)大模型o

大模型基本概念o

大模型發(fā)展歷程o

大模型關(guān)鍵技術(shù)及訓(xùn)練流程l

大模型關(guān)鍵技術(shù)l

大模型訓(xùn)練流程o

內(nèi)容安排9

大模型關(guān)鍵技術(shù)：模型擴(kuò)展10模型擴(kuò)展擴(kuò)展計(jì)算資源擴(kuò)展訓(xùn)練數(shù)據(jù)擴(kuò)展模型規(guī)模提升模型處理和學(xué)習(xí)能力提高模型泛化能力和性能加速模型訓(xùn)練過(guò)程o

最近的一項(xiàng)研究探討了在給定固定預(yù)算的情況下，模型大小、數(shù)據(jù)規(guī)模和計(jì)算資源之間的平衡關(guān)系。o

該研究突顯了模型規(guī)模的增大在一定程度上能夠提升性能，但同時(shí)也指出了遭遇遞減收益的問(wèn)題。o

因此，制定出精確而高效的模型擴(kuò)展策略需要綜合考慮多個(gè)因素，并在計(jì)算資源有限的情況下實(shí)現(xiàn)最佳效益。

大模型關(guān)鍵技術(shù)：模型訓(xùn)練11o

由于具有巨大的參數(shù)，訓(xùn)練對(duì)于大模型來(lái)說(shuō)是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。o

大模型通常需要采用各種并行策略，在多個(gè)計(jì)算設(shè)備上同時(shí)進(jìn)行訓(xùn)練，

因此，分布式訓(xùn)練在學(xué)習(xí)大模型網(wǎng)絡(luò)參數(shù)方面扮演著不可或缺的角色。o

同時(shí)，為了支持分布式訓(xùn)練，一些優(yōu)化框架已經(jīng)問(wèn)世，進(jìn)一步促進(jìn)并行算法的實(shí)施和部署，

包括DeepSpeed和Megatron-LM等。模型訓(xùn)練分布式訓(xùn)練優(yōu)化框架的提出支持

大模型關(guān)鍵技術(shù)：對(duì)齊調(diào)優(yōu)12o

由于大模型接受預(yù)訓(xùn)練時(shí)涵蓋了各種語(yǔ)料庫(kù)的數(shù)據(jù)特征。o

因此，大模型存在生成有毒、偏見(jiàn)甚至有害內(nèi)容的潛在風(fēng)險(xiǎn)。o

為確保大模型與人類價(jià)值觀保持一致，InstructGPT提出了一種有效的微調(diào)方法：o

通過(guò)基于人類反饋的強(qiáng)化學(xué)習(xí)技術(shù)，使大模型能夠按照期望的指令進(jìn)行操作。

大模型關(guān)鍵技術(shù)：能力誘導(dǎo)13o

在大規(guī)模語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練后，大模型獲得了作為通用任務(wù)求解器的潛在能力。o

然而，這些能力在執(zhí)行某些特定任務(wù)時(shí)可能并不會(huì)明顯展現(xiàn)。o

因此，通過(guò)設(shè)計(jì)適當(dāng)?shù)娜蝿?wù)引導(dǎo)或特定上下文學(xué)習(xí)策略喚起這些潛能。提示詞的微妙變化對(duì)大模型輸出結(jié)果的影響

大模型關(guān)鍵技術(shù)：工具使用14o

大模型通過(guò)在海量純文本語(yǔ)料庫(kù)上進(jìn)行文本生成訓(xùn)練，因此在一些不適合以文本形式表達(dá)的任務(wù)上可能表現(xiàn)不佳。o

此外，它們的能力也受限于預(yù)訓(xùn)練數(shù)據(jù)，無(wú)法獲取最新信息。o

為了解決這些問(wèn)題，近期有研究提出利用外部工具來(lái)彌補(bǔ)大模型的不足。l

例如，大模型可以通過(guò)使用計(jì)算器進(jìn)行準(zhǔn)確計(jì)算，或者利用搜索引擎檢索未知信息。l

最近，ChatGPT已經(jīng)實(shí)現(xiàn)了一種機(jī)制，允許使用外部插件，無(wú)論是現(xiàn)有的還是新創(chuàng)建的應(yīng)用程序。l

通過(guò)這種機(jī)制，大模型可以更廣泛地利用外部工具，從而顯著擴(kuò)展其能力范圍。l

這種工具使用的方法不僅僅使大模型能夠在特定任務(wù)上表現(xiàn)更為靈活和準(zhǔn)確，

而且還使其能夠處理更廣泛和多樣化的信息來(lái)源。o

大模型基本概念o

大模型發(fā)展歷程o

大模型關(guān)鍵技術(shù)及訓(xùn)練流程l

大模型關(guān)鍵技術(shù)l

大模型訓(xùn)練流程o

內(nèi)容安排15

大模型訓(xùn)練流程16預(yù)訓(xùn)練有監(jiān)督微調(diào)獎(jiǎng)勵(lì)建模強(qiáng)化學(xué)習(xí)未標(biāo)注或部分標(biāo)準(zhǔn)的數(shù)據(jù)集上，通過(guò)預(yù)測(cè)下一個(gè)詞或完成句子等任務(wù)進(jìn)行無(wú)監(jiān)督訓(xùn)練，進(jìn)而構(gòu)建出能學(xué)習(xí)到豐富的數(shù)據(jù)表示和通用知識(shí)的基礎(chǔ)大模型，為后續(xù)的特定任務(wù)訓(xùn)練提供堅(jiān)實(shí)的基礎(chǔ)。有監(jiān)督微調(diào)是在基礎(chǔ)大模型的基礎(chǔ)上利用少量高質(zhì)量數(shù)據(jù)集合進(jìn)行微調(diào)，從而生成有監(jiān)督微調(diào)模型。高質(zhì)量數(shù)據(jù)集合包含用戶輸入的提示詞和對(duì)應(yīng)的理想輸出結(jié)果，用戶輸入可以是問(wèn)題、閑聊對(duì)話、任務(wù)指令等多種形式和任務(wù)。在大模型訓(xùn)練的上下文中，設(shè)計(jì)一個(gè)獎(jiǎng)勵(lì)體系，以量化模型行為的好壞，從而引導(dǎo)模型學(xué)習(xí)如何在給定環(huán)境中作出最優(yōu)決策，達(dá)到預(yù)期目標(biāo)。在這一階段，根據(jù)數(shù)十萬(wàn)用戶提供的提示詞，利用在前一階段訓(xùn)練的模型，對(duì)有監(jiān)督微調(diào)模型生成的用戶提示詞補(bǔ)全結(jié)果進(jìn)行質(zhì)量評(píng)估。這個(gè)評(píng)估結(jié)果與基礎(chǔ)模型的建模目標(biāo)結(jié)合，以獲得更優(yōu)的效果。o

大模型基本概念o

大模型發(fā)展歷程o

大模型關(guān)鍵技術(shù)及訓(xùn)練流程l

大模型關(guān)鍵技術(shù)l

大模型訓(xùn)練流程o

內(nèi)容安排17

內(nèi)容安排18理論基礎(chǔ)第1章

緒論第2章

深度學(xué)習(xí)基礎(chǔ)第3章

自然語(yǔ)言處理第4章

大模型網(wǎng)絡(luò)結(jié)構(gòu)預(yù)訓(xùn)練及微調(diào)第5章

大模型訓(xùn)練與優(yōu)化第6章

大模型微調(diào)第7章

大模型提示工程第8章

高效大模型策略常用大模型第10章

多模態(tài)通用大模型第9章

單模態(tài)通用大模型第11章

大模型測(cè)評(píng)模型應(yīng)用第13章

基于大模型的智能軟件研究第12章

大模型主要應(yīng)用場(chǎng)景第14章

基于大模型的航空航天裝備制造智周萬(wàn)物?道濟(jì)天下

謝謝！Thanks!第

2章深度學(xué)習(xí)基礎(chǔ)智周萬(wàn)物?道濟(jì)天下o

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l

神經(jīng)網(wǎng)絡(luò)l

卷積神經(jīng)網(wǎng)絡(luò)o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經(jīng)網(wǎng)絡(luò)訓(xùn)練l

梯度和鏈?zhǔn)椒▌tl

前向傳播和反向傳播l

訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

深度學(xué)習(xí)框架l

主流深度學(xué)習(xí)框架l

框架選擇和優(yōu)缺點(diǎn)比較o

思考

目錄23

目錄o

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l

神經(jīng)網(wǎng)絡(luò)l

卷積神經(jīng)網(wǎng)絡(luò)o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經(jīng)網(wǎng)絡(luò)訓(xùn)練l

梯度和鏈?zhǔn)椒▌tl

前向傳播和反向傳播l

訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

深度學(xué)習(xí)框架l

主流深度學(xué)習(xí)框架l

框架選擇和優(yōu)缺點(diǎn)比較o

思考

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)神經(jīng)網(wǎng)絡(luò)o

人工神經(jīng)元人工神經(jīng)網(wǎng)絡(luò)（ArtificialNeuralNetwork，ANN），簡(jiǎn)稱為神經(jīng)網(wǎng)絡(luò)（NeuralNetwork：NN），是指一系列受生物學(xué)和神經(jīng)科學(xué)啟發(fā)的數(shù)學(xué)模型。人工神經(jīng)元，簡(jiǎn)稱為神經(jīng)元，是構(gòu)成神經(jīng)網(wǎng)絡(luò)的基本單元。單個(gè)神經(jīng)元計(jì)算過(guò)程單層神經(jīng)網(wǎng)絡(luò)計(jì)算過(guò)程要想模擬人腦具有的能力，單一神經(jīng)元是遠(yuǎn)遠(yuǎn)不夠的，需要眾多神經(jīng)元的協(xié)作來(lái)完成復(fù)雜任務(wù)，即神經(jīng)網(wǎng)絡(luò)。在得到單層神經(jīng)網(wǎng)絡(luò)的輸出之后，可以通過(guò)疊加類似的層來(lái)構(gòu)建每層都包含若干神經(jīng)元的多層神經(jīng)網(wǎng)絡(luò)。

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)神經(jīng)網(wǎng)絡(luò)o

激活函數(shù)激活函數(shù)（ActivationFunction）是神經(jīng)網(wǎng)絡(luò)中的一種非線性變換，它賦予神經(jīng)元更強(qiáng)大的表達(dá)能力。如果不使用激活函數(shù)，則每層的操作只是對(duì)上一層的輸出結(jié)果進(jìn)行線性變換，多層神經(jīng)網(wǎng)絡(luò)會(huì)退化成單層神經(jīng)網(wǎng)絡(luò)。l

Sigmoid函數(shù)l

Tanh函數(shù)l

Softmax函數(shù)l

ReLU函數(shù)通常用于二分類問(wèn)題的輸出層。通常用于多分類問(wèn)題的輸出層。通常用于中間層或輸出層。廣泛應(yīng)用于隱藏層，其簡(jiǎn)單性和非飽和性使其在大多數(shù)情況下表現(xiàn)良好。

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)神經(jīng)網(wǎng)絡(luò)o

全連接神經(jīng)網(wǎng)絡(luò)在全連接神經(jīng)網(wǎng)絡(luò)中，每個(gè)神經(jīng)元與前一層的所有神經(jīng)元相連接，形成一個(gè)完全連接的結(jié)構(gòu)。它的基本組成包括輸入層（InputLayer）、若干隱藏層（HiddenLayer）和輸出層（OutputLayer）。輸入層接收原始數(shù)據(jù)或特征作為網(wǎng)絡(luò)的輸入，每個(gè)輸入神經(jīng)元對(duì)應(yīng)于數(shù)據(jù)或特征的一個(gè)維度。隱藏層位于輸入層和輸出層之間，進(jìn)行特征的非線性變換和抽象。每個(gè)隱藏層包含多個(gè)神經(jīng)元，每個(gè)神經(jīng)元與前一層的所有神經(jīng)元相連接。多個(gè)隱藏層的存在使得網(wǎng)絡(luò)能夠?qū)W習(xí)更加復(fù)雜和抽象的表示。輸出層產(chǎn)生網(wǎng)絡(luò)的最終輸出。全連接神經(jīng)網(wǎng)絡(luò)在一些任務(wù)上表現(xiàn)良好，但隨著問(wèn)題復(fù)雜性的增加，更深層次、更復(fù)雜結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)逐漸取代了全連接神經(jīng)網(wǎng)絡(luò)。這是因?yàn)槿B接神經(jīng)網(wǎng)絡(luò)在參數(shù)數(shù)量和計(jì)算復(fù)雜度上容易受到限制，而深度學(xué)習(xí)任務(wù)通常需要更強(qiáng)大的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。o

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l

神經(jīng)網(wǎng)絡(luò)l

卷積神經(jīng)網(wǎng)絡(luò)o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經(jīng)網(wǎng)絡(luò)訓(xùn)練l

梯度和鏈?zhǔn)椒▌tl

前向傳播和反向傳播l

訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

深度學(xué)習(xí)框架l

主流深度學(xué)習(xí)框架l

框架選擇和優(yōu)缺點(diǎn)比較o

思考

目錄2

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)o

感受野1962年，生物學(xué)家D.H.Hubel和T.N.Wiesel對(duì)貓的視覺(jué)系統(tǒng)進(jìn)行了研究，貓的視覺(jué)系統(tǒng)實(shí)驗(yàn)示意圖如圖2.5所示。他們首次發(fā)現(xiàn)了在貓的視覺(jué)皮層中存在兩種主要類型的神經(jīng)元，即簡(jiǎn)單細(xì)胞和復(fù)雜細(xì)胞。這兩種類型的細(xì)胞對(duì)邊緣和紋理的敏感性有所不同。神經(jīng)元對(duì)視野中的某一小塊區(qū)域內(nèi)的特定邊緣或紋理更為敏感，反映了感受野的特性。感受野（ReceptiveField）描述了神經(jīng)系統(tǒng)中一些神經(jīng)元對(duì)于特定刺激區(qū)域的敏感性，這意味著神經(jīng)元只對(duì)其支配區(qū)域內(nèi)的信號(hào)做出響應(yīng)。在視覺(jué)神經(jīng)系統(tǒng)中，視覺(jué)皮層中的神經(jīng)細(xì)胞的輸出受到視網(wǎng)膜上光感受器的影響，即當(dāng)視網(wǎng)膜上的光感受器受到刺激并興奮時(shí)，會(huì)產(chǎn)生神經(jīng)沖動(dòng)信號(hào)并傳遞到視覺(jué)皮層。然而，并非所有視覺(jué)皮層中的神經(jīng)元都會(huì)接收這些信號(hào)。每個(gè)神經(jīng)元都有其特定的感受野，即只有視網(wǎng)膜上特定區(qū)域內(nèi)的刺激才能激活該神經(jīng)元。

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)o

卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)（ConvolutionalNeuralNetwork，CNN）的設(shè)計(jì)靈感正是源自生物學(xué)中感受野的機(jī)制。卷積神經(jīng)網(wǎng)絡(luò)模仿了生物學(xué)中神經(jīng)元對(duì)于刺激的局部敏感性。它通過(guò)學(xué)習(xí)局部特征，逐漸建立對(duì)整體特征的抽象。它在處理空間結(jié)構(gòu)化數(shù)據(jù)和視覺(jué)數(shù)據(jù)方面的能力使其在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等領(lǐng)域都發(fā)揮著重要作用。下圖展示了第一個(gè)誕生的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的網(wǎng)絡(luò)結(jié)構(gòu)，該網(wǎng)絡(luò)用于手寫(xiě)數(shù)字識(shí)別任務(wù)。LeNet-5由卷積層、池化層及全連接層組成，它的設(shè)計(jì)為后續(xù)卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展奠定了基礎(chǔ)。

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)o

卷積卷積運(yùn)算通過(guò)滑動(dòng)一定間隔的卷積核（也稱為濾波器）窗口，計(jì)算對(duì)應(yīng)位置的元素相乘再求和，得到輸出特征圖中每個(gè)位置的值，當(dāng)卷積核窗口移動(dòng)到所示位置時(shí)，計(jì)算輸入特征圖與卷積核窗口對(duì)應(yīng)位置的元素乘積，并將其求和，即執(zhí)行計(jì)算：(-1)×1+0×0+1×2+(-1)×5+0×4+1×2+(-1)×3+0×4+1×5=0，從而計(jì)算得到輸出特征圖中相應(yīng)位置的值為0。之后，卷積核繼續(xù)向后滑動(dòng)，重復(fù)相同的操作，直到得到完整的輸出特征圖。o

卷積操作的概念l

偏置（bias）l

步長(zhǎng)（stride）l

填充（padding）

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)o

池化池化操作通常應(yīng)用在卷積層之后，通過(guò)對(duì)特征圖的局部區(qū)域進(jìn)行采樣，從而獲得更小且具有抽象特征的特征圖。常見(jiàn)的池化類型有最大池化和平均池化兩種。在最大池化中，每個(gè)池化窗口選擇局部區(qū)域的最大值作為采樣值。而在平均池化中，每個(gè)池化窗口計(jì)算局部區(qū)域的平均值作為采樣值。o

池化層的特點(diǎn)l

沒(méi)有可學(xué)習(xí)參數(shù)l

不改變通道數(shù)l

平移不變性

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)o

批歸一化批歸一化的作用是加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，提高模型的收斂速度，并且有助于避免梯度消失或梯度爆炸問(wèn)題。批歸一化的核心思想是對(duì)每層的輸入進(jìn)行歸一化，使其均值接近0，標(biāo)準(zhǔn)差接近1。這樣做有助于緩解梯度消失問(wèn)題，提高網(wǎng)絡(luò)的穩(wěn)定性。對(duì)于一個(gè)批次的輸入數(shù)據(jù)，批歸一化首先計(jì)算批次的均值和方差，再對(duì)輸入進(jìn)行歸一化，即減去均值并除以標(biāo)準(zhǔn)差，然后使用可學(xué)習(xí)的縮放和平移參數(shù)對(duì)歸一化后的數(shù)據(jù)進(jìn)行線性變換。o

全連接全連接層（FullyConnectedLayer），也被稱為密集連接層，是卷積神經(jīng)網(wǎng)絡(luò)中的關(guān)鍵組成部分。在全連接層中，每個(gè)神經(jīng)元都與上一層的所有神經(jīng)元相連接，形成了一個(gè)全連接的結(jié)構(gòu)。對(duì)于自然語(yǔ)言處理任務(wù)，輸入通常是一維向量，如文本數(shù)據(jù)的詞嵌入，以便進(jìn)行文本分類、情感分析等任務(wù)；對(duì)于計(jì)算機(jī)視覺(jué)任務(wù)，輸入通常是多維特征圖，這些特征圖可能通過(guò)卷積層或其他特征提取層從原始圖像中提取而來(lái)。為了傳遞給全連接層，這些多維特征圖通常需要被展平成一維向量，作為全連接層的輸入，以便進(jìn)行后續(xù)處理。

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)o

DropoutDropout是一種常用的正則化技術(shù)，旨在減少過(guò)擬合并提高模型的泛化能力。Dropout的基本思想是在訓(xùn)練過(guò)程中以一定概率隨機(jī)地忽略一部分神經(jīng)元的輸出。具體而言，假設(shè)有一個(gè)全連接層的輸出向量為h，Dropout的操作如下：（1）在訓(xùn)練中，以概率（通常為0.5）隨機(jī)選擇一部分神經(jīng)元，將它們的輸出置為0。（2）在測(cè)試過(guò)程中，保持所有神經(jīng)元的輸出，但將它們乘以1?p以保持期望輸出值不變。o

殘差連接殘差連接將若干卷積層學(xué)習(xí)到的特征與原始輸入相加，從而形成了一種“跳躍連接”的結(jié)構(gòu)，從而使得神經(jīng)網(wǎng)絡(luò)更容易進(jìn)行優(yōu)化，并且能夠構(gòu)建更深層次的網(wǎng)絡(luò)結(jié)構(gòu)。殘差連接能夠在一定程度上緩解深層網(wǎng)絡(luò)的退化網(wǎng)絡(luò)問(wèn)題。并且既不增加額外的參數(shù)也不增加計(jì)算復(fù)雜度，使得網(wǎng)絡(luò)易于優(yōu)化，提高了泛化性能。o

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l

神經(jīng)網(wǎng)絡(luò)l

卷積神經(jīng)網(wǎng)絡(luò)o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經(jīng)網(wǎng)絡(luò)訓(xùn)練l

梯度和鏈?zhǔn)椒▌tl

前向傳播和反向傳播l

訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

深度學(xué)習(xí)框架l

主流深度學(xué)習(xí)框架l

框架選擇和優(yōu)缺點(diǎn)比較o

思考

目錄2o

均方誤差損失函數(shù)均方誤差（MeanSquaredError，MSE）損失函數(shù)是一種應(yīng)用于回歸問(wèn)題的損失函數(shù)，用于度量模型預(yù)測(cè)值與真實(shí)值之間的平方差的平均值。

損失函數(shù)和優(yōu)化算法4o

平方絕對(duì)誤差損失函數(shù)平均絕對(duì)誤差（MeanAbsoluteError，MAE）損失函數(shù)是應(yīng)用于回歸問(wèn)題的一種損失函數(shù)，用于度量模型預(yù)測(cè)值與真實(shí)值之間的絕對(duì)差的平均值。o

交叉熵?fù)p失函數(shù)交叉熵?fù)p失（Cross-EntropyLoss）函數(shù)廣泛應(yīng)用于分類問(wèn)題。它衡量模型輸出的概率分布與真實(shí)標(biāo)簽的概率分布之間的差異。二分類問(wèn)題：多分類問(wèn)題：損失函數(shù)o

序列交叉熵?fù)p失函數(shù)序列交叉嫡損失（SequenceCross-EntropyLoss）函數(shù)是用于序列到序列（sequence-to-sequence）任務(wù)中的一種損失函數(shù)，主要應(yīng)用于自然語(yǔ)言處理領(lǐng)域的機(jī)器翻譯任務(wù)。在這種任務(wù)中，模型需要將一個(gè)輸入序列映射到另一個(gè)輸出序列，而且輸入和輸出的序列長(zhǎng)度是可變的。

損失函數(shù)和優(yōu)化算法4o

焦點(diǎn)損失函數(shù)焦點(diǎn)損失（FocalLoss）函數(shù)通過(guò)調(diào)整難易分類樣本的權(quán)重，即降低易分類樣本的權(quán)重，提高難分類樣本的權(quán)重，使得模型更關(guān)注難以分類的樣本。損失函數(shù)o

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l

神經(jīng)網(wǎng)絡(luò)l

卷積神經(jīng)網(wǎng)絡(luò)o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經(jīng)網(wǎng)絡(luò)訓(xùn)練l

梯度和鏈?zhǔn)椒▌tl

前向傳播和反向傳播l

訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

深度學(xué)習(xí)框架l

主流深度學(xué)習(xí)框架l

框架選擇和優(yōu)缺點(diǎn)比較o

思考

目錄2

損失函數(shù)和優(yōu)化算法4優(yōu)化算法o

梯度下降法變種l

批量梯度下降法l

隨機(jī)梯度下降法l

小批量梯度下降法使用整個(gè)訓(xùn)練集的數(shù)據(jù)，計(jì)算每個(gè)樣本上損失函數(shù)的梯度并求和，然后更新參數(shù)。隨機(jī)選擇一個(gè)樣本計(jì)算梯度并更新參數(shù)。每次迭代使用一小批次的樣本來(lái)計(jì)算梯度。

損失函數(shù)和優(yōu)化算法優(yōu)化算法

損失函數(shù)和優(yōu)化算法優(yōu)化算法o

Adam算法Adam算法是一種自適應(yīng)學(xué)習(xí)率的優(yōu)化算法，結(jié)合了動(dòng)量法和AdaGrad算法思想，在深度學(xué)習(xí)中得到了廣泛應(yīng)用，對(duì)于不同類型的神經(jīng)網(wǎng)絡(luò)和任務(wù)都有較好的適應(yīng)性。其核心思想是為每個(gè)參數(shù)維護(hù)兩個(gè)移動(dòng)平均量，一個(gè)是梯度的一階矩估計(jì)（動(dòng)量項(xiàng)），另一個(gè)是梯度的二階矩估計(jì)（AdaGrad項(xiàng)），然后使用這兩個(gè)估計(jì)來(lái)調(diào)整學(xué)習(xí)率。

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l

神經(jīng)網(wǎng)絡(luò)l

卷積神經(jīng)網(wǎng)絡(luò)o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經(jīng)網(wǎng)絡(luò)訓(xùn)練l

梯度和鏈?zhǔn)椒▌tl

前向傳播和反向傳播l

訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

深度學(xué)習(xí)框架l

主流深度學(xué)習(xí)框架l

框架選擇和優(yōu)缺點(diǎn)比較o

思考

目錄2

神經(jīng)網(wǎng)絡(luò)訓(xùn)練梯度和鏈?zhǔn)椒▌to

梯度的計(jì)算給定一個(gè)具有n個(gè)輸入和1個(gè)標(biāo)量輸出的函數(shù)：其對(duì)輸入計(jì)算梯度，得到一個(gè)與輸入具有相同維度的向量，向量的每個(gè)維度是輸出對(duì)于輸入中相應(yīng)維度的偏導(dǎo)數(shù)：給定一個(gè)有n個(gè)輸入和m個(gè)輸出的函數(shù)：可以將m個(gè)輸出拆分成m個(gè)具有n個(gè)輸入的單輸出函數(shù)。相當(dāng)于由m個(gè)神經(jīng)元構(gòu)成了一層神經(jīng)網(wǎng)絡(luò)。m個(gè)輸出分別對(duì)n個(gè)輸入求微分，得到m×n大小的雅可比矩陣（JacobianMatrix）。該矩陣的第i行第j列元素是第i個(gè)輸出對(duì)于第j個(gè)輸入的偏導(dǎo)數(shù)。

神經(jīng)網(wǎng)絡(luò)訓(xùn)練梯度和鏈?zhǔn)椒▌to

鏈?zhǔn)椒▌t鏈?zhǔn)椒▌t是復(fù)合函數(shù)求導(dǎo)數(shù)的性質(zhì)，其定義如下：如果某個(gè)函數(shù)由復(fù)合函數(shù)表示，則該復(fù)合函數(shù)的導(dǎo)數(shù)可以用構(gòu)成復(fù)合函數(shù)的各個(gè)函數(shù)的導(dǎo)數(shù)的乘積表示。以一元函數(shù)為例，為了求z對(duì)x的導(dǎo)數(shù)，使用鏈?zhǔn)椒▌t，先求z對(duì)y的導(dǎo)數(shù)，再求y對(duì)x的導(dǎo)數(shù)，再將兩個(gè)導(dǎo)數(shù)相乘，即為z對(duì)x的導(dǎo)數(shù)：推廣到多輸入多輸出的函數(shù)：要求h對(duì)x的偏導(dǎo)，同樣地運(yùn)用鏈?zhǔn)椒▌t，先求h對(duì)z的偏導(dǎo)以及z對(duì)x的偏導(dǎo)，兩者都可以表示成雅可比矩陣，再將矩陣相乘，得到最終的結(jié)果。o

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l

神經(jīng)網(wǎng)絡(luò)l

卷積神經(jīng)網(wǎng)絡(luò)o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經(jīng)網(wǎng)絡(luò)訓(xùn)練l

梯度和鏈?zhǔn)椒▌tl

前向傳播和反向傳播l

訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

深度學(xué)習(xí)框架l

主流深度學(xué)習(xí)框架l

框架選擇和優(yōu)缺點(diǎn)比較o

思考

目錄2

神經(jīng)網(wǎng)絡(luò)訓(xùn)練前向傳播和反向傳播o

計(jì)算圖計(jì)算圖能夠?qū)⑸窠?jīng)網(wǎng)絡(luò)的計(jì)算過(guò)程以圖形化的方式呈現(xiàn)。在這個(gè)圖中，源節(jié)點(diǎn)表示網(wǎng)絡(luò)的輸入，內(nèi)部節(jié)點(diǎn)表示各種計(jì)算操作，有向邊用于傳遞各節(jié)點(diǎn)計(jì)算出的值，同時(shí)存儲(chǔ)當(dāng)前計(jì)算操作得到的值。按照有向邊的方向進(jìn)行順序計(jì)算，就能得到神經(jīng)網(wǎng)絡(luò)的輸出值，這個(gè)過(guò)程稱為前向傳播。反向傳播的過(guò)程則是沿著計(jì)算圖相反的方向進(jìn)行計(jì)算，計(jì)算每個(gè)參數(shù)的梯度，從而在優(yōu)化過(guò)程中更新這些參數(shù)。通過(guò)反向傳播，神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)調(diào)整權(quán)重和偏置，使得模型的預(yù)測(cè)與實(shí)際結(jié)果更加接近，從而提高整體性能。單個(gè)節(jié)點(diǎn)的反向傳播：下游梯度=上游梯度×本地梯度

神經(jīng)網(wǎng)絡(luò)訓(xùn)練前向傳播和反向傳播o

計(jì)算圖計(jì)算過(guò)程示例前向傳播反向傳播o

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l

神經(jīng)網(wǎng)絡(luò)l

卷積神經(jīng)網(wǎng)絡(luò)o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經(jīng)網(wǎng)絡(luò)訓(xùn)練l

梯度和鏈?zhǔn)椒▌tl

前向傳播和反向傳播l

訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

深度學(xué)習(xí)框架l

主流深度學(xué)習(xí)框架l

框架選擇和優(yōu)缺點(diǎn)比較o

思考

目錄2

神經(jīng)網(wǎng)絡(luò)訓(xùn)練訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

PyTorch訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要先將訓(xùn)練數(shù)據(jù)輸入模型中，通過(guò)前向傳播計(jì)算預(yù)測(cè)值，然后計(jì)算損失函數(shù)，并通過(guò)反向傳播調(diào)整模型參數(shù)，以最小化損失。這一過(guò)程使用合適的優(yōu)化算法來(lái)更新模型的權(quán)重和偏置。以卷積神經(jīng)網(wǎng)絡(luò)為例，使用MNIST數(shù)據(jù)集完成手寫(xiě)數(shù)字識(shí)別任務(wù)，使用PyTorch框架來(lái)演示訓(xùn)練神經(jīng)網(wǎng)絡(luò)的具體流程。（1）導(dǎo)入必要的庫(kù)

神經(jīng)網(wǎng)絡(luò)訓(xùn)練訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

PyTorch訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例（2）定義一個(gè)簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)模型，包括卷積層、激活函數(shù)、池化層和全連接層。

神經(jīng)網(wǎng)絡(luò)訓(xùn)練訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

PyTorch訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例（3）加載數(shù)據(jù)集并進(jìn)行數(shù)據(jù)預(yù)處理，將圖像轉(zhuǎn)換為T(mén)ensor格式并進(jìn)行歸一化。（4）定義損失函數(shù)和優(yōu)化器，損失函數(shù)使用交叉熵?fù)p失函數(shù)，優(yōu)化器使用Adam優(yōu)化器，學(xué)習(xí)率設(shè)置為0.001。

神經(jīng)網(wǎng)絡(luò)訓(xùn)練訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

PyTorch訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例（5）進(jìn)行模型訓(xùn)練，迭代數(shù)據(jù)集，計(jì)算損失，反向傳播更新模型參數(shù)。o

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l

神經(jīng)網(wǎng)絡(luò)l

卷積神經(jīng)網(wǎng)絡(luò)o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經(jīng)網(wǎng)絡(luò)訓(xùn)練l

梯度和鏈?zhǔn)椒▌tl

前向傳播和反向傳播l

訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

深度學(xué)習(xí)框架l

主流深度學(xué)習(xí)框架l

框架選擇和優(yōu)缺點(diǎn)比較o

思考

目錄2https:///jittor/深度學(xué)習(xí)框架https:///11主流深度學(xué)習(xí)框架https://keras.io//https:////https:///https://www.tensorflow.org/o

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l

神經(jīng)網(wǎng)絡(luò)l

卷積神經(jīng)網(wǎng)絡(luò)o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經(jīng)網(wǎng)絡(luò)訓(xùn)練l

梯度和鏈?zhǔn)椒▌tl

前向傳播和反向傳播l

訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

深度學(xué)習(xí)框架l

主流深度學(xué)習(xí)框架l

框架選擇和優(yōu)缺點(diǎn)比較o

思考

目錄2深度學(xué)習(xí)框架10框架優(yōu)點(diǎn)缺點(diǎn)適用場(chǎng)景Jittor動(dòng)態(tài)圖計(jì)算；自動(dòng)微分；異步計(jì)算相對(duì)較新；文檔和生態(tài)系統(tǒng)可能有限靈活模型需求；動(dòng)態(tài)圖計(jì)算場(chǎng)景Tensorflow廣泛應(yīng)用；高性能；豐富生態(tài)系統(tǒng)相對(duì)復(fù)雜；開(kāi)發(fā)迭代速度相對(duì)較慢大規(guī)模部署；復(fù)雜模型需求PyTorch動(dòng)態(tài)圖模型；易用性；研究支持部署相對(duì)復(fù)雜；穩(wěn)定性較差研究領(lǐng)域；快速試驗(yàn)與原型開(kāi)發(fā)Keras簡(jiǎn)單易用；輕量級(jí)靈活性相對(duì)較低初學(xué)者；快速搭建簡(jiǎn)單模型Caffe高效；簡(jiǎn)單明了功能有限；缺乏動(dòng)態(tài)圖支持嵌入式設(shè)備；實(shí)時(shí)應(yīng)用MXNet多語(yǔ)言支持；可擴(kuò)展性文檔相對(duì)不足；相對(duì)小眾多語(yǔ)言項(xiàng)目；可擴(kuò)展性需求PaddlePaddle面向產(chǎn)業(yè)；動(dòng)靜結(jié)合生態(tài)系統(tǒng)相對(duì)較?。粚W(xué)習(xí)難度較大工業(yè)應(yīng)用；動(dòng)靜結(jié)合需求MindSpore全場(chǎng)景支持；動(dòng)靜結(jié)合生態(tài)相對(duì)較新；資源相對(duì)有限多場(chǎng)景支持；新興項(xiàng)目框架選擇優(yōu)缺點(diǎn)比較o

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l

神經(jīng)網(wǎng)絡(luò)l

卷積神經(jīng)網(wǎng)絡(luò)o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經(jīng)網(wǎng)絡(luò)訓(xùn)練l

梯度和鏈?zhǔn)椒▌tl

前向傳播和反向傳播l

訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

深度學(xué)習(xí)框架l

主流深度學(xué)習(xí)框架l

框架選擇和優(yōu)缺點(diǎn)比較o

思考

目錄2o

損失函數(shù)的選擇l

多任務(wù)問(wèn)題

聯(lián)合損失函數(shù)/各損失函數(shù)獨(dú)立優(yōu)化l

類別不平衡問(wèn)題

加權(quán)損失函數(shù)l

特定問(wèn)題

結(jié)合業(yè)務(wù)領(lǐng)域知識(shí)自定義損失函數(shù)o

優(yōu)化算法的選擇

自適應(yīng)學(xué)習(xí)率算法l

學(xué)習(xí)率衰減策略l

正則化控制項(xiàng)o

模型架構(gòu)的選擇

利用預(yù)訓(xùn)練模型的優(yōu)勢(shì)l

引入注意力機(jī)制l

增加網(wǎng)絡(luò)的深度思考65智周萬(wàn)物?道濟(jì)天下

謝謝！Thanks!自然語(yǔ)言處理智周萬(wàn)物?道濟(jì)天下

目錄2o

自然語(yǔ)言處理概述o

詞嵌入l

獨(dú)熱向量l

word2vecl

跳元模型l

連續(xù)詞袋模型o

循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）o

長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM）o

門(mén)控循環(huán)單元（GRU）

自然語(yǔ)言處理概述3自然語(yǔ)

言處理翻譯你好你好你好hello00111101汪汪×自然語(yǔ)言處理使計(jì)算機(jī)能夠解讀、處理和理解人類語(yǔ)言，成為人類和計(jì)算機(jī)之間溝通的橋梁......新聞文章電子郵件o

自然語(yǔ)言理解

自然語(yǔ)言處理概述——基本任務(wù)4明天天氣怎么樣？“明天陰轉(zhuǎn)多云，氣溫零下六度到三度”NaturalLanguageProcessing自然語(yǔ)言處理o

自然語(yǔ)言生成自然語(yǔ)言理解類任務(wù)包括：詞性標(biāo)注分詞文本分類信息抽取自然語(yǔ)言生成類任務(wù)包括：機(jī)器翻譯問(wèn)答系統(tǒng)自動(dòng)摘要語(yǔ)音識(shí)別人與計(jì)算機(jī)交流的第一步就是讓計(jì)算機(jī)理解人類輸入給它的信息。這類任務(wù)的研究目的是使計(jì)算機(jī)能夠理解自然語(yǔ)言，從自然語(yǔ)言中提取有用的信息輸出或用于下游任務(wù)明天天氣怎么樣？明天？天氣？計(jì)算機(jī)理解人類的輸入后，我們還希望計(jì)算機(jī)能夠生成滿足人類目的的、可以理解的自然語(yǔ)言形式的輸出，從而實(shí)現(xiàn)真正的交流。

自然語(yǔ)言處理概述——發(fā)展歷程Bengio等人提出第一個(gè)神經(jīng)語(yǔ)言模型。這個(gè)模型將某詞語(yǔ)之前出現(xiàn)的n個(gè)詞語(yǔ)作為輸入，預(yù)測(cè)下一個(gè)單詞輸出。模型一共三層，第一層是映射層，將n個(gè)單詞映射為對(duì)應(yīng)的詞嵌入；第二層是隱藏層；第三層是輸出層，使用softmax輸出單詞的概率分布，是一個(gè)多分類器。2013Bahdanau等人的工作使用注意力機(jī)制在機(jī)器翻譯任務(wù)上將翻譯和對(duì)齊同時(shí)進(jìn)行,是第一個(gè)將注意力機(jī)制應(yīng)用到NLP領(lǐng)域的科研工作。2017BERT、GPT20世紀(jì)50年代70年代2018年之后Mikolov等人提出了word2vec，大規(guī)模詞向量的訓(xùn)練成為可能自然語(yǔ)言處理領(lǐng)域神經(jīng)網(wǎng)絡(luò)時(shí)代,也逐漸開(kāi)始，循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)開(kāi)始被廣泛應(yīng)用到自然語(yǔ)言處理領(lǐng)域20世紀(jì)50年代到70年代主要采用基于規(guī)則的方法。這種方法依賴于語(yǔ)言學(xué)家和開(kāi)發(fā)者預(yù)先定義的規(guī)則系統(tǒng)，以便解析和理解語(yǔ)言。70年代以后主要采用基于統(tǒng)計(jì)的方法。這種方法通常依靠大量的語(yǔ)言數(shù)據(jù)來(lái)學(xué)習(xí)，得到數(shù)據(jù)中詞、短語(yǔ)、句子的概率分布，從而實(shí)現(xiàn)對(duì)語(yǔ)言的處理和分析。BERT、GPT等大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型出現(xiàn)，大模型時(shí)代逐漸到來(lái)傳統(tǒng)理論深度學(xué)習(xí)興起大模型時(shí)代20002015Transformer提出,它創(chuàng)造性地用非序列模型來(lái)處理序列化的數(shù)據(jù)，并且大獲成功。5

自然語(yǔ)言處理概述——應(yīng)用領(lǐng)域1.翻譯軟件4.搜索引擎3.語(yǔ)音助手2.聊天機(jī)器人6o

自然語(yǔ)言處理概述o

詞嵌入l

獨(dú)熱向量l

word2vecl

跳元模型l

連續(xù)詞袋模型o

循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）o

長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM）o

門(mén)控循環(huán)單元（GRU）7

目錄計(jì)算機(jī)是無(wú)法直接讀懂非數(shù)值的自然語(yǔ)言，只有將其轉(zhuǎn)化為數(shù)值形式才能被計(jì)算機(jī)處理詞嵌入完成各種下游任務(wù)神經(jīng)網(wǎng)絡(luò)模型循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM）門(mén)控循環(huán)單元（GRU）??

詞嵌入——獨(dú)熱向量(One-hotEncoding)

文本數(shù)值？

apple

[10000]

bag

[01000]

cat

[00100]

dog

[00010]elephant

[00001]×

缺點(diǎn)：獨(dú)熱向量不能編碼詞之間的相似性特征矩陣非常稀疏，占用空間很大o

獨(dú)熱向量是指使用??位0或1對(duì)??個(gè)單詞進(jìn)行編碼，其分量和類別數(shù)一樣多，類別對(duì)應(yīng)的分量設(shè)置為1（即one-hot），其余分量設(shè)置為0。例如，編碼apple、bag、cat、dog、elephant五個(gè)單詞，用5位向量進(jìn)行編碼：

但任意兩詞之間余弦相似度為0！√優(yōu)點(diǎn)：獨(dú)熱向量容易構(gòu)建獨(dú)熱向量的維度等于詞匯表大小，在詞匯表較大時(shí)會(huì)變得非常長(zhǎng)8最簡(jiǎn)單的方法就是用獨(dú)熱向量表示每個(gè)單詞

詞嵌入——word2vec

攜帶上下文信息，即詞與詞之間的聯(lián)系能在詞的向量表示中體現(xiàn)。o

詞的表示是稠密的，能用更少的空間、更低的維數(shù)表示更多的信息。和獨(dú)熱向量相比，word2vec生成的詞向量具有以下優(yōu)點(diǎn)：o

訓(xùn)練時(shí)利用上下文信息，詞向量包含詞的語(yǔ)義信息和詞與詞之間的聯(lián)系。o

維度更少，所以占用空間更少、計(jì)算成本更低。o

通用性強(qiáng)，可用于各種下游NLP任務(wù)。訓(xùn)練word2vec的常用方法有兩種：跳元模型（Skip-Gram）和連續(xù)詞袋（ContinuousBagsofWords：CBOW）圖3.4降維后的詞向量表示，可以看到相似概念的詞是聚集在一起的9我們希望詞向量：word2vec!實(shí)現(xiàn)o

word2vec是一種詞嵌入技術(shù)，也可被看作是一個(gè)神經(jīng)網(wǎng)絡(luò)模型，其參數(shù)是詞向量，通過(guò)預(yù)測(cè)上下文來(lái)學(xué)習(xí)好的詞向量。我們希望實(shí)現(xiàn)這樣的效果：

詞嵌入——跳元模型

根據(jù)中心詞預(yù)測(cè)上下文詞

目標(biāo)函數(shù)（損失函數(shù)）

目標(biāo)是最大化該似然函數(shù)，即最小化損失函數(shù)：

如何計(jì)算？就是

softmax!

詞向量維數(shù)詞匯大小10

詞嵌入——連續(xù)詞袋模型

根據(jù)上下文詞預(yù)測(cè)中心詞

如何計(jì)算？

求和取平均

目標(biāo)函數(shù)（損失函數(shù)）

目標(biāo)是最大化該似然函數(shù)，即最小化損失函數(shù)：

詞嵌入——連續(xù)詞袋模型舉例

12the=[10000]woman=[01000]loves=[00100]her=[00010]daughter=[00001]

其中，N=5表示輸入層單詞的維數(shù)，V=3表示希望得到的詞向量維數(shù)

現(xiàn)在將

“the”輸入，即與權(quán)重矩陣相乘：“the”的詞向量同理，可以得到每個(gè)單詞的詞向量為：

使用單詞的獨(dú)熱編碼作為輸入：

詞嵌入——連續(xù)詞袋模型舉例

13將得到的4個(gè)向量相加求平均作為輸出層的輸入：

最后計(jì)算損失函數(shù)，反向傳播，更新網(wǎng)絡(luò)參數(shù)。

目錄14o

自然語(yǔ)言處理概述o

詞嵌入l

獨(dú)熱向量l

word2vecl

跳元模型l

連續(xù)詞袋模型o

循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）o

長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM）o

門(mén)控循環(huán)單元（GRU）

......

循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）

有效包含當(dāng)前輸入和先前序列的信息時(shí)序的重要性！×

workinglove

learningweondeep√weloveworkingondeeplearning捕捉序列中的時(shí)序信息循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）o

循環(huán)神經(jīng)網(wǎng)絡(luò)15循環(huán)神經(jīng)網(wǎng)絡(luò)——訓(xùn)練16o

BPTT(BackPropagationThroughTime)算法

簡(jiǎn)化表達(dá)

則可以使用交叉熵計(jì)算每個(gè)時(shí)刻的損失，則在

t=3時(shí)有損失：

假設(shè)當(dāng)前時(shí)刻的隱藏狀態(tài)和輸出為：

循環(huán)神經(jīng)網(wǎng)絡(luò)——梯度問(wèn)題17o

梯度消失問(wèn)題o

梯度爆炸問(wèn)題o

本質(zhì)上都是因?yàn)樘荻确聪騻鞑ブ械倪B乘效應(yīng)，小于1的數(shù)連乘就會(huì)出現(xiàn)梯度下降問(wèn)題，大于1的數(shù)連乘就會(huì)出現(xiàn)梯度爆炸的問(wèn)題

假設(shè)當(dāng)激活函數(shù)為T(mén)anh時(shí)，連乘部分可以表示為：

而Tanh的導(dǎo)數(shù)可以寫(xiě)為：

，其值域?yàn)椋?0,1]

循環(huán)神經(jīng)網(wǎng)絡(luò)——梯度問(wèn)題的緩解18

循環(huán)神經(jīng)網(wǎng)絡(luò)——雙向RNN19我______我______困，我剛起床我______困，我想趕緊睡覺(jué)很高興不非常o

短語(yǔ)的“下文”在填空任務(wù)中起到十分關(guān)鍵的作用，它傳達(dá)的信息關(guān)乎到選擇什么詞來(lái)填空。如果無(wú)法利用這一特性，普通的RNN模型將在相關(guān)任務(wù)上表現(xiàn)不佳。而既可以學(xué)習(xí)正向特征也可以學(xué)習(xí)反向特征的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)在解決該類任務(wù)時(shí)會(huì)有更高的擬合度。圖3.10雙向循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)

目錄o

自然語(yǔ)言處理概述o

詞嵌入l

獨(dú)熱向量l

word2vecl

跳元模型l

連續(xù)詞袋模型o

循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）o

長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM）o

門(mén)控循環(huán)單元（GRU）長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)21普通RNNLSTMo

和普通RNN比較，LSTM主要是改變了隱藏層的結(jié)構(gòu)。o

LSTM引入了記憶元（memorycell）的概念，簡(jiǎn)稱單元（cell），其設(shè)計(jì)目的是用于記錄附加信息。

引入了門(mén)機(jī)制對(duì)當(dāng)前的輸入信息進(jìn)行篩選，從而決定哪些信息可以傳遞到下一層o

當(dāng)訓(xùn)練深層網(wǎng)絡(luò)時(shí)，RNN面臨梯度在反向傳播過(guò)程中消失或爆炸的問(wèn)題。而由于梯度消失的問(wèn)題，普通RNN難以學(xué)習(xí)和記憶過(guò)去很長(zhǎng)時(shí)間里的輸入信息，這個(gè)問(wèn)題在處理長(zhǎng)序列和復(fù)雜序列模式時(shí)變得尤為明顯。長(zhǎng)短期記憶網(wǎng)絡(luò)的出現(xiàn)緩解了長(zhǎng)期信息保存以及梯度問(wèn)題。長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)221.遺忘門(mén)、輸入門(mén)和輸出門(mén)帶sigmoid激活函數(shù)的線性層

當(dāng)前時(shí)刻的輸入上一時(shí)刻的隱藏狀態(tài)長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)232.候選單元狀態(tài)帶Tanh激活函數(shù)的線性層

3.單元狀態(tài)更新

*按元素乘積長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)244.隱藏狀態(tài)更新

目錄25o

自然語(yǔ)言處理概述o

詞嵌入l

獨(dú)熱向量l

word2vecl

跳元模型l

連續(xù)詞袋模型o

循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）o

長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM）o

門(mén)控循環(huán)單元（GRU）門(mén)控循環(huán)單元（GRU）26o

門(mén)控循環(huán)單元的提出同樣是為了解決反向傳播中的梯度問(wèn)題以及長(zhǎng)期記憶問(wèn)題，但相比于LSTM，GRU能在提供同等效果的同時(shí)有更快的計(jì)算速度o

GRU結(jié)構(gòu)更簡(jiǎn)單，主要包括重置門(mén)、更新門(mén)兩個(gè)門(mén)結(jié)構(gòu)，候選隱藏狀態(tài)以及隱藏狀態(tài)更新兩個(gè)主要步驟門(mén)控循環(huán)單元（GRU）27

1.重置門(mén)和更新門(mén)兩個(gè)門(mén)同樣起到選擇性地讓信息通過(guò)的作用重置門(mén)：決定隱藏狀態(tài)中的什么信息需要保存。更新門(mén)：決定新的隱藏狀態(tài)多少來(lái)自候選隱藏狀態(tài)多少來(lái)自舊隱藏狀態(tài)。門(mén)控循環(huán)單元（GRU）282.候選隱藏狀態(tài)

3.隱藏狀態(tài)更新

*按元素乘積智周萬(wàn)物?道濟(jì)天下

謝謝！Thanks!大模型網(wǎng)絡(luò)結(jié)構(gòu)智周萬(wàn)物?道濟(jì)天下o

Transformerl

注意力機(jī)制l

編碼器-解碼器結(jié)構(gòu)

大模型中的編碼器-解碼器結(jié)構(gòu)o

編碼器結(jié)構(gòu)----BERT家族l

BERT結(jié)構(gòu)l

預(yù)訓(xùn)練策略l

BERT的變體o

解碼器結(jié)構(gòu)----GPT家族l

GPT結(jié)構(gòu)l

自回歸預(yù)訓(xùn)練l

后續(xù)改進(jìn)o

思考

目錄2

目錄o

Transformerl

注意力機(jī)制l

編碼器-解碼器結(jié)構(gòu)

大模型中的編碼器-解碼器結(jié)構(gòu)o

編碼器結(jié)構(gòu)----BERT家族l

BERT結(jié)構(gòu)l

預(yù)訓(xùn)練策略l

BERT的變體o

解碼器結(jié)構(gòu)----GPT家族l

GPT結(jié)構(gòu)l

自回歸預(yù)訓(xùn)練l

后續(xù)改進(jìn)o

思考16o

面對(duì)問(wèn)題:記錄輸入序列中的長(zhǎng)期依賴關(guān)系o

Transformer利用注意力機(jī)制完成對(duì)源語(yǔ)言序列和目標(biāo)語(yǔ)言序列全局依賴的建模

Transformer4Transformer是自然語(yǔ)言處理領(lǐng)域的顛覆者，為后續(xù)大模型網(wǎng)絡(luò)結(jié)構(gòu)（BERT、GPT）的發(fā)展奠定了基礎(chǔ)o

基本結(jié)構(gòu):編碼器-解碼器結(jié)構(gòu)o

編碼器輸入，解碼器輸出

Transformer4o

嵌入表示層o

注意力層o

位置前饋感知層o

殘差連接o

層歸一化

Transformer43

目錄o

Transformerl

注意力機(jī)制l

編碼器-解碼器結(jié)構(gòu)

大模型中的編碼器-解碼器結(jié)構(gòu)o

編碼器結(jié)構(gòu)----BERT家族l

BERT結(jié)構(gòu)l

預(yù)訓(xùn)練策略l

BERT的變體o

解碼器結(jié)構(gòu)----GPT家族l

GPT結(jié)構(gòu)l

自回歸預(yù)訓(xùn)練l

后續(xù)改進(jìn)o

思考注意力機(jī)制是對(duì)人類行為的一種仿生，起源于對(duì)人類視覺(jué)注意機(jī)制的研究

注意力機(jī)制4注意力機(jī)制8不同的單詞通過(guò)不同權(quán)重計(jì)算影響1.自注意力模塊注意力機(jī)制8注意力機(jī)制8相關(guān)性通過(guò)詞與詞之間的關(guān)系來(lái)更好地理解當(dāng)前詞的意思注意力機(jī)制8點(diǎn)積雙線性多重感知機(jī)注意力機(jī)制8注意力圖查詢向量鍵向量注意力機(jī)制8縮放&Soft-max注意力機(jī)制8注意力機(jī)制8并行計(jì)算注意力機(jī)制8注意力機(jī)制8注意力機(jī)制8注意力機(jī)制8縮放Soft-max注意力機(jī)制8注意力機(jī)制8需要學(xué)習(xí)的參數(shù)注意力機(jī)制82.多頭注意力模塊注意力機(jī)制8注意力機(jī)制8注意力機(jī)制8=0=0=03.掩碼多頭注意力模塊在推理過(guò)程中，編碼器在生成當(dāng)前token時(shí)，往往只能獲取之前token的信息注意力機(jī)制8縮放Soft-max注意力機(jī)制80000001111111011001000構(gòu)造掩碼矩陣注意力機(jī)制8000000000000注意力機(jī)制84.位置編碼在自注意力模塊中缺乏句子詞序位置編碼：每個(gè)位置有一個(gè)獨(dú)一無(wú)二的位置向量手工設(shè)計(jì)的也可以是學(xué)習(xí)得到的注意力機(jī)制8/abs/2003.092292

目錄o

Transformerl

注意力機(jī)制l

編碼器-解碼器結(jié)構(gòu)

大模型中的編碼器-解碼器結(jié)構(gòu)o

編碼器結(jié)構(gòu)----BERT家族l

BERT結(jié)構(gòu)l

預(yù)訓(xùn)練策略l

BERT的變體o

解碼器結(jié)構(gòu)----GPT家族l

GPT結(jié)構(gòu)l

自回歸預(yù)訓(xùn)練l

后續(xù)改進(jìn)o

思考編碼器-解碼器結(jié)構(gòu)31.編碼器編碼器Transformer中的編碼器編碼器-解碼器結(jié)構(gòu)4Transformer塊Transformer塊Transformer塊…………多頭注意力模塊FCFCFCFC前向傳播編碼器-解碼器結(jié)構(gòu)5多頭注意力模塊normFCFCnorm…norm均值標(biāo)準(zhǔn)差層歸一化/abs/1607.06450殘差連接編碼器-解碼器結(jié)構(gòu)62.解碼器解碼器編碼器<BOS>狗Dogslikeballs球0.1狗0.8歡0.0喜0.0……分布詞匯表大小Vsoftmaxmax喜max編碼器-解碼器結(jié)構(gòu)7解碼器編碼器<BOS>狗歡喜歡球Dogslikeballs狗maxmaxmax輸入的是解碼器的輸出Transformer中的解碼器編碼器-解碼器結(jié)構(gòu)8o

解碼器需要自己決定生成的目標(biāo)句的長(zhǎng)度o

實(shí)際上：機(jī)器并不能確定正確的輸出長(zhǎng)度喜max解碼器編碼器<BOS>狗歡球類喜歡球Dogslikeballs狗maxmaxmaxmax……會(huì)一直持續(xù)下去softmax編碼器-解碼器結(jié)構(gòu)9解碼器編碼器<BOS>狗Dogslikeballs球0.1狗0.0歡0.0喜0.0……<EOS>0.8分布softmaxmax解碼器<BOS>softmaxmax<EOS>喜歡球maxmaxmax喜狗歡球編碼器-解碼器結(jié)構(gòu)10在訓(xùn)練的過(guò)程中，不僅降低模型并行程度，使得訓(xùn)練時(shí)間變長(zhǎng)，而且訓(xùn)練更加困難喜max解碼器編碼器<BOS>狗歡球<EOS>喜歡球Dogslikeballs狗maxmaxmaxmaxGroundTruthTeacherForcing:使用GroundTruth作為輸入編碼器-解碼器結(jié)構(gòu)為什么需要掩碼？11編碼器-解碼器結(jié)構(gòu)推理訓(xùn)練在訓(xùn)練的過(guò)程中，使用掩碼多頭注意力模塊12編碼器-解碼器結(jié)構(gòu)3.編碼器與解碼器之間的信息傳遞Crossattention13編碼器-解碼器結(jié)構(gòu)編碼器掩碼多頭注意力<BOS>FC14Crossattention編碼器-解碼器結(jié)構(gòu)編碼器掩碼多頭注意力<BOS>FC狗15

目錄o

Transformerl

注意力機(jī)制l

編碼器-解碼器結(jié)構(gòu)

大模型中的編碼器-解碼器結(jié)構(gòu)o

編碼器結(jié)構(gòu)----BERT家族l

BERT結(jié)構(gòu)l

預(yù)訓(xùn)練策略l

BERT的變體o

解碼器結(jié)構(gòu)----GPT家族l

GPT結(jié)構(gòu)l

自回歸預(yù)訓(xùn)練l

后續(xù)改進(jìn)o

思考16大模型中的編碼器-解碼器結(jié)構(gòu)1.BART17大模型中的編碼器-解碼器結(jié)構(gòu)TokenMaskingA[MASK]C.[MASK]E.

C.DE.

18大模型中的編碼器-解碼器結(jié)構(gòu)TokenMaskingTokenDeletionA

19大模型中的編碼器-解碼器結(jié)構(gòu)TokenMaskingTokenDeletionTokenInfillingA[MASK].D[MASK]E.

.D0E.

20大模型中的編碼器-解碼器結(jié)構(gòu)TokenMaskingTokenDeletionTokenInfillingSentencePermutationDE.ABC.

2121大模型中的編碼器-解碼器結(jié)構(gòu)TokenMaskingTokenDeletionTokenInfillingSentencePermutationDocumentRotationC.DE.AB

Begin22大模型中的編碼器-解碼器結(jié)構(gòu)23大模型中的編碼器-解碼器結(jié)構(gòu)BaseLarge6層12層24大模型中的編碼器-解碼器結(jié)構(gòu)1.T5將所有文本處理問(wèn)題轉(zhuǎn)化為“文本到文本”的問(wèn)題25大模型中的編碼器-解碼器結(jié)構(gòu)ReplaceSpanA_.D_E.ABC.DE.norm殘差連接層歸一化norm262

目錄o

Transformerl

注意力機(jī)制l

編碼器-解碼器結(jié)構(gòu)

大模型中的編碼器-解碼器結(jié)構(gòu)o

編碼器結(jié)構(gòu)----BERT家族l

BERT結(jié)構(gòu)l

預(yù)訓(xùn)練策略l

BERT的變體o

解碼器結(jié)構(gòu)----GPT家族l

GPT結(jié)構(gòu)l

自回歸預(yù)訓(xùn)練l

后續(xù)改進(jìn)o

思考編碼器結(jié)構(gòu)-BERT家族3BERTTransformer中的編碼器like編碼器結(jié)構(gòu)-BERT家族42.預(yù)訓(xùn)練策略自監(jiān)督學(xué)習(xí)策略的提出使得BERT的訓(xùn)練成為可能BERT“掩碼語(yǔ)言建?！盌ogsballs隨機(jī)掩蓋其中一些token“[MASK]”softmaxballs0.0Dogs0.1like0.8……分布Linear交叉熵?fù)p失like訓(xùn)練GT編碼器結(jié)構(gòu)-BERT家族5“下句預(yù)測(cè)”DogslikeballsTheyarefuntoplaywith[CLS][SEP]BERTLinearsigmoidisNextnotNext二值交叉熵?fù)p失isNext訓(xùn)練GT6

目錄o

Transformerl

注意力機(jī)制l

編碼器-解碼器結(jié)構(gòu)

大模型中的編碼器-解碼器結(jié)構(gòu)o

編碼器結(jié)構(gòu)----BERT家族l

BERT結(jié)構(gòu)l

預(yù)訓(xùn)練策略l

BERT的變體o

解碼器結(jié)構(gòu)----GPT家族l

GPT結(jié)構(gòu)l

自回歸預(yù)訓(xùn)練l

后續(xù)改進(jìn)o

思考編碼器結(jié)構(gòu)-BERT家族71.BERT結(jié)構(gòu)Transformer編碼器文本嵌入Linear編碼器結(jié)構(gòu)-BERT家族8Transformer編碼器文本嵌入DogslikeballsTheyarefuntoplaywith[CLS][SEP][SEP]Token嵌入分段嵌入LinearLinear位置嵌入編碼器結(jié)構(gòu)-BERT家族91.BERT結(jié)構(gòu)Transformer編碼器文本嵌入輸出層DogslikeballsTheyarefuntoplaywith[CLS][SEP][SEP]LinearTanh輸出層輸出層10

目錄o

Transformerl

注意力機(jī)制l

編碼器-解碼器結(jié)構(gòu)

大模型中的編碼器-解碼器結(jié)構(gòu)o

編碼器結(jié)構(gòu)----BERT家族l

BERT結(jié)構(gòu)l

預(yù)訓(xùn)練策略l

BERT的變體o

解碼器結(jié)構(gòu)----GPT家族l

GPT結(jié)構(gòu)l

自回歸預(yù)訓(xùn)練l

后續(xù)改進(jìn)o

思考編碼器結(jié)構(gòu)-BERT家族3.BERT的變體BERT的參數(shù)量太大--ALBERT“跨層參數(shù)共享”全共享：Transformer塊的參數(shù)共享共享前饋網(wǎng)絡(luò)層：每個(gè)Transformer塊的前向傳播層參數(shù)共享共享注意力層：每個(gè)Transformer塊的多頭注意力層參數(shù)共享11編碼器結(jié)構(gòu)-BERT家族3.BERT的變體BERT的參數(shù)量太大--ALBERT“嵌入層參數(shù)因子分解”文本嵌入LinearLinearLinear12編碼器結(jié)構(gòu)-BERT家族萬(wàn)萬(wàn)13動(dòng)態(tài)掩碼編碼器結(jié)構(gòu)-BERT家族RoBERTa：改進(jìn)BERT預(yù)訓(xùn)練移除下句預(yù)測(cè)任務(wù)增加數(shù)據(jù)和訓(xùn)練步數(shù)增大batchsize使用字節(jié)級(jí)字節(jié)對(duì)編碼14編碼器結(jié)構(gòu)-BERT家族DogslikeballsTheyarefuntoplaywith[CLS][SEP]生成器(BERT)[eat]cat從詞匯表中隨機(jī)選擇一個(gè)token[]判別器Linearsigmoid實(shí)際替換15

目錄o

Transformerl

注意力機(jī)制l

編碼器-解碼器結(jié)構(gòu)

大模型中的編碼器-解碼器結(jié)構(gòu)o

編碼器結(jié)構(gòu)----BERT家族l

BERT結(jié)構(gòu)l

預(yù)訓(xùn)練策略l

BERT的變體o

解碼器結(jié)構(gòu)----GPT家族l

GPT結(jié)構(gòu)l

自回歸預(yù)訓(xùn)練l

后續(xù)改進(jìn)o

思考16解碼器結(jié)構(gòu)-GPT家族GPTTransformer解碼器樣式17解碼器結(jié)構(gòu)-GPT家族Transformer解碼器文本嵌入1.GPT結(jié)構(gòu)輸出層18<BOS>GPT解碼器結(jié)構(gòu)-GPT家族softmaxDogsGTlikeballs<EOS>likeDogsballs2.自回歸預(yù)訓(xùn)練自監(jiān)督學(xué)習(xí)19解碼器結(jié)構(gòu)-GPT家族<BOS>GPTsoftmaxDogslikeballs<EOS>likeDogsballsballs0.1Dogs0.8like0.0……<EOS>0.0maxmaxmaxmaxballs0.1Dogs0.0like0.8……<EOS>0.0balls0.8Dogs0.1like0.0……<EOS>0.0balls0.1Dogs0.0like0.0……<EOS>0.8balls0.1Dogs0.8like0.0……<EOS>0.020解碼器結(jié)構(gòu)-GPT家族3.后續(xù)改進(jìn)normnorm1)縮放參數(shù)增大輸入序列長(zhǎng)度GPT-221解碼器結(jié)構(gòu)-GPT家族2)GPT-2移除了微調(diào)模型，完全只做無(wú)監(jiān)督預(yù)訓(xùn)練zero-shot零樣本學(xué)習(xí)3)更大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)集22解碼器結(jié)構(gòu)-GPT家族GPT-31)Dogslikeballsbecause.theyarefuntoplaywithk=223解碼器結(jié)構(gòu)-GPT家族2)是否進(jìn)行微調(diào)和使用多少數(shù)據(jù)進(jìn)行微調(diào)24

謝謝！Thanks!大模型訓(xùn)練與優(yōu)化智周萬(wàn)物?道濟(jì)天下o

訓(xùn)練數(shù)據(jù)準(zhǔn)備l

數(shù)據(jù)獲取l

數(shù)據(jù)預(yù)處理l

數(shù)據(jù)增強(qiáng)l

數(shù)據(jù)配比與課程設(shè)置l

開(kāi)源數(shù)據(jù)集o

并行化與分布式訓(xùn)練l

大模型訓(xùn)練的挑戰(zhàn)l

并行化策略l

節(jié)點(diǎn)間數(shù)據(jù)通信l

分布式訓(xùn)練框架

目錄o

模型壓縮l

量化l

剪枝l

知識(shí)蒸餾o

華為昇騰芯片o

數(shù)據(jù)獲取:l

收集類別豐富的樣本l

篩選高質(zhì)量的樣本o

數(shù)據(jù)增強(qiáng)：l

擴(kuò)充數(shù)據(jù)規(guī)模l

提高數(shù)據(jù)多樣性o

訓(xùn)練數(shù)據(jù)配比和課程設(shè)置：l

確定數(shù)據(jù)的比例l

編排數(shù)據(jù)使用順序大模型展現(xiàn)出卓越性能的一個(gè)關(guān)鍵原因：海量的高質(zhì)量訓(xùn)練數(shù)據(jù)

訓(xùn)練數(shù)據(jù)準(zhǔn)備文本圖像點(diǎn)云o

訓(xùn)練數(shù)據(jù)準(zhǔn)備l

數(shù)據(jù)獲取l

數(shù)據(jù)預(yù)處理l

數(shù)據(jù)增強(qiáng)l

數(shù)據(jù)配比與課程設(shè)置l

開(kāi)源數(shù)據(jù)集o

并行化與分布式訓(xùn)練l

大模型訓(xùn)練的挑戰(zhàn)l

并行化策略l

節(jié)點(diǎn)間數(shù)據(jù)通信l

分布式訓(xùn)練框架

目錄o

模型壓縮l

量化l

剪枝l

知識(shí)蒸餾o

華為昇騰芯片o

通用文本:

來(lái)源：包括在線論壇、社交媒體、新聞、博客、書(shū)籍、期刊等l

主題：涵蓋社會(huì)、科技、娛樂(lè)、健康等l

表達(dá)：囊括不同人群、地區(qū)和文化背景的表達(dá)方式o

三個(gè)主要來(lái)源:

訓(xùn)練數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)獲取1.文本數(shù)據(jù)來(lái)源網(wǎng)頁(yè)數(shù)據(jù)新聞文章博客百科數(shù)據(jù)社交媒體對(duì)話數(shù)據(jù)電子郵件對(duì)話論壇帖子社交媒體對(duì)話書(shū)籍?dāng)?shù)據(jù)社會(huì)人文類歷史類科技類小說(shuō)數(shù)據(jù)量大內(nèi)容豐富理解對(duì)話邏輯表達(dá)規(guī)范長(zhǎng)文本理解o

專業(yè)文本:

數(shù)據(jù)占比較低l

包含大量專業(yè)術(shù)語(yǔ)以及特定的語(yǔ)法句式o

常見(jiàn)的專業(yè)文本數(shù)據(jù):

訓(xùn)練數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)獲取1.文本數(shù)據(jù)來(lái)源科學(xué)文本數(shù)據(jù)學(xué)術(shù)論文技術(shù)報(bào)告教材行業(yè)專業(yè)文本法律法規(guī)合同工程文檔代碼文本開(kāi)源代碼倉(cāng)庫(kù)編程競(jìng)賽和挑戰(zhàn)平臺(tái)開(kāi)發(fā)者社區(qū)論壇賦予模型理解科學(xué)問(wèn)題的能力注重實(shí)際應(yīng)用、業(yè)務(wù)操作和解決特定問(wèn)題的需求具有特定的語(yǔ)法規(guī)則及準(zhǔn)確的執(zhí)行邏輯o

通用圖像數(shù)據(jù):

涵蓋了人類日常生活中的各種場(chǎng)景l(fā)

從互聯(lián)網(wǎng)收集得到；

各種常規(guī)的便攜設(shè)備，如手機(jī)、平板電腦、相機(jī)等拍攝獲取l

比文本的信息更加密集，包含豐富的視覺(jué)特征，如顏色、紋理、形狀等o

確保數(shù)據(jù)多樣性需要考慮:

天氣條件：收集圖像時(shí)考慮不同的天氣條件，包括晴天、陰天、雨天、雪天等l

時(shí)間變化：收集一天不同時(shí)間段下拍攝的圖像，這能夠捕捉到光照、陰影等方面的變化l

人群多樣性：確保圖像中包含不同人群的照片，考慮年齡、性別、種族等因素l

物體類別：涵蓋多個(gè)物體類別，包括不同的動(dòng)植物、建筑物、交通工具等l

場(chǎng)景多樣性：需要包括常見(jiàn)的室內(nèi)及室外場(chǎng)景，如辦公室、臥室、城市街景l(fā)

文化多樣性：考慮在不同社會(huì)環(huán)境中收集圖像，涵蓋不同文化、習(xí)慣和社交活動(dòng)

訓(xùn)練數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)獲取2.圖像數(shù)據(jù)來(lái)源o

專業(yè)圖像數(shù)據(jù):

針對(duì)特定領(lǐng)域或?qū)I(yè)需求采集的圖像數(shù)據(jù)l

使用專業(yè)設(shè)備或者在特定場(chǎng)景下采集l

例如，通過(guò)X光機(jī)、CT掃描獲得醫(yī)學(xué)圖像；l

通過(guò)衛(wèi)星或航空器獲取的地球表面的遙感圖像；l

工業(yè)生產(chǎn)線上拍攝得到的產(chǎn)品缺陷檢測(cè)圖像；

訓(xùn)練數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)獲取2.圖像數(shù)據(jù)來(lái)源o

常見(jiàn)的三維數(shù)據(jù)表示形式有:

點(diǎn)云、三角網(wǎng)格、體素、隱式表達(dá)

點(diǎn)云定義:l

三維點(diǎn)的數(shù)據(jù)集合o

屬性:l

三維坐標(biāo)l

強(qiáng)度l

顏色o

采集設(shè)備:l

激光掃描儀、深度相機(jī)、雙目相機(jī)、光學(xué)相機(jī)多視角重建、結(jié)構(gòu)光設(shè)備

訓(xùn)練數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)獲取3.點(diǎn)云數(shù)據(jù)來(lái)源o

訓(xùn)練數(shù)據(jù)準(zhǔn)備l

數(shù)據(jù)獲取l

數(shù)據(jù)預(yù)處理l

數(shù)據(jù)增強(qiáng)l

數(shù)據(jù)配比與課程設(shè)置l

開(kāi)源數(shù)據(jù)集o

并行化與分布式訓(xùn)練l

大模型訓(xùn)練的挑戰(zhàn)l

并行化策略l

節(jié)點(diǎn)間數(shù)據(jù)通信l

分布式訓(xùn)練框架

目錄o

模型壓縮l

量化l

剪枝l

知識(shí)蒸餾o

華為昇騰芯片o

低質(zhì)去除:

目標(biāo)：去除那些質(zhì)量較差，以及不符合標(biāo)準(zhǔn)的文本數(shù)據(jù)l

基于分類器的方法：使用一組精選的文本（包括維基百科、書(shū)籍等），訓(xùn)練一個(gè)分類器用于判斷文本的質(zhì)量，將與訓(xùn)練數(shù)據(jù)類似的數(shù)據(jù)給定較高的分?jǐn)?shù)。利用該分類器評(píng)估數(shù)據(jù)的內(nèi)容質(zhì)量l

基于啟發(fā)式的方法：自定義規(guī)則，對(duì)數(shù)據(jù)進(jìn)行篩選例如：去除單詞數(shù)量少于50個(gè)或者大于100000個(gè)的文檔去除符號(hào)與單詞的比例大于0.1的文件

訓(xùn)練數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)預(yù)處理1.文本數(shù)據(jù)預(yù)處理低質(zhì)去除冗余去除隱私去除詞元?jiǎng)澐謔

冗余去除:

目標(biāo)：去除文本數(shù)據(jù)中的冗余信息，精簡(jiǎn)數(shù)據(jù)集，防止模型在預(yù)測(cè)時(shí)陷入重復(fù)循環(huán)l

句子級(jí)別：構(gòu)建過(guò)濾方法，識(shí)別重復(fù)句子例如，提取并過(guò)濾文檔間超過(guò)一定長(zhǎng)度的相同字符串(公共子串匹配)l

段落或者文檔級(jí)別：基于文本之間的特征相似度來(lái)進(jìn)行冗余去除例如，計(jì)算兩個(gè)段落或者文檔之間的13-gram的Jaccard相似度來(lái)判斷它們是否重復(fù)

訓(xùn)練數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)預(yù)處理1.文本數(shù)據(jù)預(yù)處理低質(zhì)去除冗余去除隱私去除詞元?jiǎng)澐盅a(bǔ)充知識(shí)：N-gram是一種文本特征表示方法，它將文本分解為連續(xù)的n個(gè)單詞或字符序列。常用的是基于單詞的n-gram，其中n表示連續(xù)的單詞的數(shù)量。例如，在句子"Thisisanexample"中，2-gram表示為[“Thisis”,“isan”,“anexample”]。對(duì)于文本，可以將其表示為n-gram序列，然后計(jì)算n-gram序列之間的Jaccard指數(shù)來(lái)比較兩個(gè)文本的相似性o

隱私去除:

目標(biāo)：刪除或替換文本數(shù)據(jù)中個(gè)人姓名、電話號(hào)碼、電子郵件地址等敏感信息l

基于規(guī)則的算法：例如，可使用命名實(shí)體識(shí)別算法，從文本中檢測(cè)姓名、地址、電話號(hào)碼等信息

訓(xùn)練數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)預(yù)處理1.文本數(shù)據(jù)預(yù)處理低質(zhì)去除冗余去除隱私去除詞元?jiǎng)澐謔

詞元?jiǎng)澐?

目標(biāo)：將連續(xù)的文本劃分為有意義的詞元（tokens）

訓(xùn)練數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)預(yù)處理1.文本數(shù)據(jù)預(yù)處理低質(zhì)去除冗余去除隱私去除詞元?jiǎng)澐謔

詞粒度劃分：將連續(xù)文本以單詞為基本單元進(jìn)行劃分

缺點(diǎn):l

只能處理預(yù)先定義的詞表內(nèi)的詞l

詞表中可能存在常委分布，使得模型對(duì)稀有詞的理解不佳l

對(duì)于英語(yǔ)等語(yǔ)言，無(wú)法正確處理不同時(shí)態(tài)的單詞o

字符劃分：將字符視為詞元來(lái)構(gòu)建詞表

缺點(diǎn):l

字符作為詞元的語(yǔ)義表達(dá)不足l

一個(gè)單詞需要由多個(gè)字符來(lái)表示，計(jì)算成本增加o

子詞劃分：基于某種規(guī)則對(duì)單詞進(jìn)行拆分，高頻詞保持原狀，將低頻詞拆分成子詞例如，對(duì)于單詞token不進(jìn)行拆分，對(duì)于單詞tokenization則拆分為token和ization。o

詞元?jiǎng)澐?

常見(jiàn)的方法：Byte-PairEncoding（BPE）、WordPiece、UnigramLanguageModel（ULM）l

基本流程：1.構(gòu)建詞表2.基于詞表進(jìn)行分詞

訓(xùn)練數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)預(yù)處理1.文本數(shù)據(jù)預(yù)處理低質(zhì)去除冗余去除隱私去除詞元?jiǎng)澐諦yte-PairEncoding（BPE）

構(gòu)建詞表：1.準(zhǔn)備足夠大的訓(xùn)練語(yǔ)料，并確定期望的Subword詞表大小；語(yǔ)料詞表high</t>：3次oldest</t>:6次newest</t>:3次</t>是插入到每個(gè)單詞后的終止符，用于區(qū)分單詞邊界o

詞元?jiǎng)澐?

常見(jiàn)的方法：Byte-PairEncoding（BPE）、WordPiece、UnigramLanguageModel（ULM）l

基本流程：1.構(gòu)建詞表2.基于詞表進(jìn)行分詞

構(gòu)建詞表：1.準(zhǔn)備足夠大的訓(xùn)練語(yǔ)料，并確定期望的Subword詞表大??；2.將單詞拆分為成最小單元。比如英文中26個(gè)字母加上各種符號(hào)，這些作為初始詞表；語(yǔ)料詞表high</t>：3次oldest</t>:6次newest</t>:3次h,i,g,o,l,d,e,s,t,n,w,</t></t>是插入到每個(gè)單詞后的終止符，用于區(qū)分單詞邊界o

詞元?jiǎng)澐?

常見(jiàn)的方法：Byte-PairEncoding（BPE）、WordPiece、UnigramLanguageModel（ULM）l

基本流程：1.構(gòu)建詞表2.基于詞表進(jìn)行分詞

訓(xùn)練數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)預(yù)處理1.文本數(shù)據(jù)預(yù)處理低質(zhì)去除冗余去除隱私去除

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大模型原理與技術(shù) 課件匯魏明強(qiáng) chap1 緒論- chap5 大模型訓(xùn)練與優(yōu)化

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大模型原理與技術(shù) 課件匯 魏明強(qiáng) chap1 緒論- chap5 大模型訓(xùn)練與優(yōu)化

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

大模型原理與技術(shù) 課件匯魏明強(qiáng) chap1 緒論- chap5 大模型訓(xùn)練與優(yōu)化