版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
緒
論智周萬物?道濟(jì)天下o
大模型基本概念o
大模型發(fā)展歷程o
大模型關(guān)鍵技術(shù)及訓(xùn)練流程l
大模型關(guān)鍵技術(shù)l
大模型訓(xùn)練流程o
內(nèi)容安排22
目錄o
大模型基本概念o
大模型發(fā)展歷程o
大模型關(guān)鍵技術(shù)及訓(xùn)練流程l
大模型關(guān)鍵技術(shù)l
大模型訓(xùn)練流程o
內(nèi)容安排3
目錄
大模型基本概念4o
大模型是通過“大數(shù)據(jù)+大算力+強(qiáng)算法”相結(jié)合來模擬人類思維和創(chuàng)造力的人工智能算法
大模型基本概念5o
大模型是通過“大數(shù)據(jù)+大算力+強(qiáng)算法”相結(jié)合來模擬人類思維和創(chuàng)造力的人工智能算法l
大數(shù)據(jù):規(guī)模巨大、多樣化的數(shù)據(jù)集合。
具有廣度和深度的數(shù)據(jù)可以提供豐富的信息來訓(xùn)練和優(yōu)化大模型,從而使大模型具備更全面的認(rèn)知
和更準(zhǔn)確的預(yù)測能力,更好地理解現(xiàn)實世界復(fù)雜的現(xiàn)象和問題。l
大算力:指計算機(jī)或計算系統(tǒng)具有處理和執(zhí)行復(fù)雜計算任務(wù)的高度能力。
大模型涉及龐大的參數(shù)和復(fù)雜的計算任務(wù),強(qiáng)大的算力是支撐大模型訓(xùn)練和推理的基石。
在訓(xùn)練階段,大算力可以加速數(shù)據(jù)預(yù)處理、特征提取和模型優(yōu)化,使得模型能夠更快地收斂;
在推理階段,大算力可以實現(xiàn)模型的高效運(yùn)行和及時響應(yīng),滿足用戶對于實時性的需求。l
強(qiáng)算法:指在解決特定問題或執(zhí)行任務(wù)方面表現(xiàn)出高效率、高準(zhǔn)確率和強(qiáng)魯棒性的算法,是模型解決問題的機(jī)制。
強(qiáng)算法能夠更好地挖掘大數(shù)據(jù)中的潛在模式,并將其轉(zhuǎn)化為模型的優(yōu)化方向,
在面對不確定性和變化時保持高度的適應(yīng)性和穩(wěn)定性,有效應(yīng)對現(xiàn)實世界中的復(fù)雜問題。
大模型基本概念6o
大模型是“大數(shù)據(jù)+大算力+強(qiáng)算法”相互融合的產(chǎn)物
大模型是一種全新的AI基礎(chǔ)范式o
大模型基本概念o
大模型發(fā)展歷程o
大模型關(guān)鍵技術(shù)及訓(xùn)練流程l
大模型關(guān)鍵技術(shù)l
大模型訓(xùn)練流程o
內(nèi)容安排7
目錄
大模型發(fā)展歷程8Transformer架構(gòu)GPTBERT技術(shù)架構(gòu)參數(shù)規(guī)模模態(tài)支持大規(guī)模預(yù)訓(xùn)練模型超大規(guī)模預(yù)訓(xùn)練模型預(yù)訓(xùn)練模型多模態(tài)跨模態(tài)單模態(tài)應(yīng)用領(lǐng)域基礎(chǔ)大模型行業(yè)大模型o
大模型基本概念o
大模型發(fā)展歷程o
大模型關(guān)鍵技術(shù)及訓(xùn)練流程l
大模型關(guān)鍵技術(shù)l
大模型訓(xùn)練流程o
內(nèi)容安排9
目錄
大模型關(guān)鍵技術(shù):模型擴(kuò)展10模型擴(kuò)展擴(kuò)展計算資源擴(kuò)展訓(xùn)練數(shù)據(jù)擴(kuò)展模型規(guī)模提升模型處理和學(xué)習(xí)能力提高模型泛化能力和性能加速模型訓(xùn)練過程o
最近的一項研究探討了在給定固定預(yù)算的情況下,模型大小、數(shù)據(jù)規(guī)模和計算資源之間的平衡關(guān)系。o
該研究突顯了模型規(guī)模的增大在一定程度上能夠提升性能,但同時也指出了遭遇遞減收益的問題。o
因此,制定出精確而高效的模型擴(kuò)展策略需要綜合考慮多個因素,并在計算資源有限的情況下實現(xiàn)最佳效益。
大模型關(guān)鍵技術(shù):模型訓(xùn)練11o
由于具有巨大的參數(shù),訓(xùn)練對于大模型來說是一項極具挑戰(zhàn)性的任務(wù)。o
大模型通常需要采用各種并行策略,在多個計算設(shè)備上同時進(jìn)行訓(xùn)練,
因此,分布式訓(xùn)練在學(xué)習(xí)大模型網(wǎng)絡(luò)參數(shù)方面扮演著不可或缺的角色。o
同時,為了支持分布式訓(xùn)練,一些優(yōu)化框架已經(jīng)問世,進(jìn)一步促進(jìn)并行算法的實施和部署,
包括DeepSpeed和Megatron-LM等。模型訓(xùn)練分布式訓(xùn)練優(yōu)化框架的提出支持
大模型關(guān)鍵技術(shù):對齊調(diào)優(yōu)12o
由于大模型接受預(yù)訓(xùn)練時涵蓋了各種語料庫的數(shù)據(jù)特征。o
因此,大模型存在生成有毒、偏見甚至有害內(nèi)容的潛在風(fēng)險。o
為確保大模型與人類價值觀保持一致,InstructGPT提出了一種有效的微調(diào)方法:o
通過基于人類反饋的強(qiáng)化學(xué)習(xí)技術(shù),使大模型能夠按照期望的指令進(jìn)行操作。
大模型關(guān)鍵技術(shù):能力誘導(dǎo)13o
在大規(guī)模語料庫上進(jìn)行預(yù)訓(xùn)練后,大模型獲得了作為通用任務(wù)求解器的潛在能力。o
然而,這些能力在執(zhí)行某些特定任務(wù)時可能并不會明顯展現(xiàn)。o
因此,通過設(shè)計適當(dāng)?shù)娜蝿?wù)引導(dǎo)或特定上下文學(xué)習(xí)策略喚起這些潛能。提示詞的微妙變化對大模型輸出結(jié)果的影響
大模型關(guān)鍵技術(shù):工具使用14o
大模型通過在海量純文本語料庫上進(jìn)行文本生成訓(xùn)練,因此在一些不適合以文本形式表達(dá)的任務(wù)上可能表現(xiàn)不佳。o
此外,它們的能力也受限于預(yù)訓(xùn)練數(shù)據(jù),無法獲取最新信息。o
為了解決這些問題,近期有研究提出利用外部工具來彌補(bǔ)大模型的不足。l
例如,大模型可以通過使用計算器進(jìn)行準(zhǔn)確計算,或者利用搜索引擎檢索未知信息。l
最近,ChatGPT已經(jīng)實現(xiàn)了一種機(jī)制,允許使用外部插件,無論是現(xiàn)有的還是新創(chuàng)建的應(yīng)用程序。l
通過這種機(jī)制,大模型可以更廣泛地利用外部工具,從而顯著擴(kuò)展其能力范圍。l
這種工具使用的方法不僅僅使大模型能夠在特定任務(wù)上表現(xiàn)更為靈活和準(zhǔn)確,
而且還使其能夠處理更廣泛和多樣化的信息來源。o
大模型基本概念o
大模型發(fā)展歷程o
大模型關(guān)鍵技術(shù)及訓(xùn)練流程l
大模型關(guān)鍵技術(shù)l
大模型訓(xùn)練流程o
內(nèi)容安排15
目錄
大模型訓(xùn)練流程16預(yù)訓(xùn)練有監(jiān)督微調(diào)獎勵建模強(qiáng)化學(xué)習(xí)未標(biāo)注或部分標(biāo)準(zhǔn)的數(shù)據(jù)集上,通過預(yù)測下一個詞或完成句子等任務(wù)進(jìn)行無監(jiān)督訓(xùn)練,進(jìn)而構(gòu)建出能學(xué)習(xí)到豐富的數(shù)據(jù)表示和通用知識的基礎(chǔ)大模型,為后續(xù)的特定任務(wù)訓(xùn)練提供堅實的基礎(chǔ)。有監(jiān)督微調(diào)是在基礎(chǔ)大模型的基礎(chǔ)上利用少量高質(zhì)量數(shù)據(jù)集合進(jìn)行微調(diào),從而生成有監(jiān)督微調(diào)模型。高質(zhì)量數(shù)據(jù)集合包含用戶輸入的提示詞和對應(yīng)的理想輸出結(jié)果,用戶輸入可以是問題、閑聊對話、任務(wù)指令等多種形式和任務(wù)。在大模型訓(xùn)練的上下文中,設(shè)計一個獎勵體系,以量化模型行為的好壞,從而引導(dǎo)模型學(xué)習(xí)如何在給定環(huán)境中作出最優(yōu)決策,達(dá)到預(yù)期目標(biāo)。在這一階段,根據(jù)數(shù)十萬用戶提供的提示詞,利用在前一階段訓(xùn)練的模型,對有監(jiān)督微調(diào)模型生成的用戶提示詞補(bǔ)全結(jié)果進(jìn)行質(zhì)量評估。這個評估結(jié)果與基礎(chǔ)模型的建模目標(biāo)結(jié)合,以獲得更優(yōu)的效果。o
大模型基本概念o
大模型發(fā)展歷程o
大模型關(guān)鍵技術(shù)及訓(xùn)練流程l
大模型關(guān)鍵技術(shù)l
大模型訓(xùn)練流程o
內(nèi)容安排17
目錄
內(nèi)容安排18理論基礎(chǔ)第1章
緒論第2章
深度學(xué)習(xí)基礎(chǔ)第3章
自然語言處理第4章
大模型網(wǎng)絡(luò)結(jié)構(gòu)預(yù)訓(xùn)練及微調(diào)第5章
大模型訓(xùn)練與優(yōu)化第6章
大模型微調(diào)第7章
大模型提示工程第8章
高效大模型策略常用大模型第10章
多模態(tài)通用大模型第9章
單模態(tài)通用大模型第11章
大模型測評模型應(yīng)用第13章
基于大模型的智能軟件研究第12章
大模型主要應(yīng)用場景第14章
基于大模型的航空航天裝備制造智周萬物?道濟(jì)天下
謝謝!Thanks!第
2章深度學(xué)習(xí)基礎(chǔ)智周萬物?道濟(jì)天下o
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l
神經(jīng)網(wǎng)絡(luò)l
卷積神經(jīng)網(wǎng)絡(luò)o
損失函數(shù)和優(yōu)化算法l
損失函數(shù)l
優(yōu)化算法o
神經(jīng)網(wǎng)絡(luò)訓(xùn)練l
梯度和鏈?zhǔn)椒▌tl
前向傳播和反向傳播l
訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o
深度學(xué)習(xí)框架l
主流深度學(xué)習(xí)框架l
框架選擇和優(yōu)缺點比較o
思考
目錄23
目錄o
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l
神經(jīng)網(wǎng)絡(luò)l
卷積神經(jīng)網(wǎng)絡(luò)o
損失函數(shù)和優(yōu)化算法l
損失函數(shù)l
優(yōu)化算法o
神經(jīng)網(wǎng)絡(luò)訓(xùn)練l
梯度和鏈?zhǔn)椒▌tl
前向傳播和反向傳播l
訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o
深度學(xué)習(xí)框架l
主流深度學(xué)習(xí)框架l
框架選擇和優(yōu)缺點比較o
思考
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)神經(jīng)網(wǎng)絡(luò)o
人工神經(jīng)元人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN),簡稱為神經(jīng)網(wǎng)絡(luò)(NeuralNetwork:NN),是指一系列受生物學(xué)和神經(jīng)科學(xué)啟發(fā)的數(shù)學(xué)模型。人工神經(jīng)元,簡稱為神經(jīng)元,是構(gòu)成神經(jīng)網(wǎng)絡(luò)的基本單元。單個神經(jīng)元計算過程單層神經(jīng)網(wǎng)絡(luò)計算過程要想模擬人腦具有的能力,單一神經(jīng)元是遠(yuǎn)遠(yuǎn)不夠的,需要眾多神經(jīng)元的協(xié)作來完成復(fù)雜任務(wù),即神經(jīng)網(wǎng)絡(luò)。在得到單層神經(jīng)網(wǎng)絡(luò)的輸出之后,可以通過疊加類似的層來構(gòu)建每層都包含若干神經(jīng)元的多層神經(jīng)網(wǎng)絡(luò)。
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)神經(jīng)網(wǎng)絡(luò)o
激活函數(shù)激活函數(shù)(ActivationFunction)是神經(jīng)網(wǎng)絡(luò)中的一種非線性變換,它賦予神經(jīng)元更強(qiáng)大的表達(dá)能力。如果不使用激活函數(shù),則每層的操作只是對上一層的輸出結(jié)果進(jìn)行線性變換,多層神經(jīng)網(wǎng)絡(luò)會退化成單層神經(jīng)網(wǎng)絡(luò)。l
Sigmoid函數(shù)l
Tanh函數(shù)l
Softmax函數(shù)l
ReLU函數(shù)通常用于二分類問題的輸出層。通常用于多分類問題的輸出層。通常用于中間層或輸出層。廣泛應(yīng)用于隱藏層,其簡單性和非飽和性使其在大多數(shù)情況下表現(xiàn)良好。
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)神經(jīng)網(wǎng)絡(luò)o
全連接神經(jīng)網(wǎng)絡(luò)在全連接神經(jīng)網(wǎng)絡(luò)中,每個神經(jīng)元與前一層的所有神經(jīng)元相連接,形成一個完全連接的結(jié)構(gòu)。它的基本組成包括輸入層(InputLayer)、若干隱藏層(HiddenLayer)和輸出層(OutputLayer)。輸入層接收原始數(shù)據(jù)或特征作為網(wǎng)絡(luò)的輸入,每個輸入神經(jīng)元對應(yīng)于數(shù)據(jù)或特征的一個維度。隱藏層位于輸入層和輸出層之間,進(jìn)行特征的非線性變換和抽象。每個隱藏層包含多個神經(jīng)元,每個神經(jīng)元與前一層的所有神經(jīng)元相連接。多個隱藏層的存在使得網(wǎng)絡(luò)能夠?qū)W習(xí)更加復(fù)雜和抽象的表示。輸出層產(chǎn)生網(wǎng)絡(luò)的最終輸出。全連接神經(jīng)網(wǎng)絡(luò)在一些任務(wù)上表現(xiàn)良好,但隨著問題復(fù)雜性的增加,更深層次、更復(fù)雜結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)逐漸取代了全連接神經(jīng)網(wǎng)絡(luò)。這是因為全連接神經(jīng)網(wǎng)絡(luò)在參數(shù)數(shù)量和計算復(fù)雜度上容易受到限制,而深度學(xué)習(xí)任務(wù)通常需要更強(qiáng)大的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。o
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l
神經(jīng)網(wǎng)絡(luò)l
卷積神經(jīng)網(wǎng)絡(luò)o
損失函數(shù)和優(yōu)化算法l
損失函數(shù)l
優(yōu)化算法o
神經(jīng)網(wǎng)絡(luò)訓(xùn)練l
梯度和鏈?zhǔn)椒▌tl
前向傳播和反向傳播l
訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o
深度學(xué)習(xí)框架l
主流深度學(xué)習(xí)框架l
框架選擇和優(yōu)缺點比較o
思考
目錄2
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)o
感受野1962年,生物學(xué)家D.H.Hubel和T.N.Wiesel對貓的視覺系統(tǒng)進(jìn)行了研究,貓的視覺系統(tǒng)實驗示意圖如圖2.5所示。他們首次發(fā)現(xiàn)了在貓的視覺皮層中存在兩種主要類型的神經(jīng)元,即簡單細(xì)胞和復(fù)雜細(xì)胞。這兩種類型的細(xì)胞對邊緣和紋理的敏感性有所不同。神經(jīng)元對視野中的某一小塊區(qū)域內(nèi)的特定邊緣或紋理更為敏感,反映了感受野的特性。感受野(ReceptiveField)描述了神經(jīng)系統(tǒng)中一些神經(jīng)元對于特定刺激區(qū)域的敏感性,這意味著神經(jīng)元只對其支配區(qū)域內(nèi)的信號做出響應(yīng)。在視覺神經(jīng)系統(tǒng)中,視覺皮層中的神經(jīng)細(xì)胞的輸出受到視網(wǎng)膜上光感受器的影響,即當(dāng)視網(wǎng)膜上的光感受器受到刺激并興奮時,會產(chǎn)生神經(jīng)沖動信號并傳遞到視覺皮層。然而,并非所有視覺皮層中的神經(jīng)元都會接收這些信號。每個神經(jīng)元都有其特定的感受野,即只有視網(wǎng)膜上特定區(qū)域內(nèi)的刺激才能激活該神經(jīng)元。
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)o
卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)的設(shè)計靈感正是源自生物學(xué)中感受野的機(jī)制。卷積神經(jīng)網(wǎng)絡(luò)模仿了生物學(xué)中神經(jīng)元對于刺激的局部敏感性。它通過學(xué)習(xí)局部特征,逐漸建立對整體特征的抽象。它在處理空間結(jié)構(gòu)化數(shù)據(jù)和視覺數(shù)據(jù)方面的能力使其在自然語言處理、計算機(jī)視覺等領(lǐng)域都發(fā)揮著重要作用。下圖展示了第一個誕生的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)用于手寫數(shù)字識別任務(wù)。LeNet-5由卷積層、池化層及全連接層組成,它的設(shè)計為后續(xù)卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展奠定了基礎(chǔ)。
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)o
卷積卷積運(yùn)算通過滑動一定間隔的卷積核(也稱為濾波器)窗口,計算對應(yīng)位置的元素相乘再求和,得到輸出特征圖中每個位置的值,當(dāng)卷積核窗口移動到所示位置時,計算輸入特征圖與卷積核窗口對應(yīng)位置的元素乘積,并將其求和,即執(zhí)行計算:(-1)×1+0×0+1×2+(-1)×5+0×4+1×2+(-1)×3+0×4+1×5=0,從而計算得到輸出特征圖中相應(yīng)位置的值為0。之后,卷積核繼續(xù)向后滑動,重復(fù)相同的操作,直到得到完整的輸出特征圖。o
卷積操作的概念l
偏置(bias)l
步長(stride)l
填充(padding)
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)o
池化池化操作通常應(yīng)用在卷積層之后,通過對特征圖的局部區(qū)域進(jìn)行采樣,從而獲得更小且具有抽象特征的特征圖。常見的池化類型有最大池化和平均池化兩種。在最大池化中,每個池化窗口選擇局部區(qū)域的最大值作為采樣值。而在平均池化中,每個池化窗口計算局部區(qū)域的平均值作為采樣值。o
池化層的特點l
沒有可學(xué)習(xí)參數(shù)l
不改變通道數(shù)l
平移不變性
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)o
批歸一化批歸一化的作用是加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,提高模型的收斂速度,并且有助于避免梯度消失或梯度爆炸問題。批歸一化的核心思想是對每層的輸入進(jìn)行歸一化,使其均值接近0,標(biāo)準(zhǔn)差接近1。這樣做有助于緩解梯度消失問題,提高網(wǎng)絡(luò)的穩(wěn)定性。對于一個批次的輸入數(shù)據(jù),批歸一化首先計算批次的均值和方差,再對輸入進(jìn)行歸一化,即減去均值并除以標(biāo)準(zhǔn)差,然后使用可學(xué)習(xí)的縮放和平移參數(shù)對歸一化后的數(shù)據(jù)進(jìn)行線性變換。o
全連接全連接層(FullyConnectedLayer),也被稱為密集連接層,是卷積神經(jīng)網(wǎng)絡(luò)中的關(guān)鍵組成部分。在全連接層中,每個神經(jīng)元都與上一層的所有神經(jīng)元相連接,形成了一個全連接的結(jié)構(gòu)。對于自然語言處理任務(wù),輸入通常是一維向量,如文本數(shù)據(jù)的詞嵌入,以便進(jìn)行文本分類、情感分析等任務(wù);對于計算機(jī)視覺任務(wù),輸入通常是多維特征圖,這些特征圖可能通過卷積層或其他特征提取層從原始圖像中提取而來。為了傳遞給全連接層,這些多維特征圖通常需要被展平成一維向量,作為全連接層的輸入,以便進(jìn)行后續(xù)處理。
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)o
DropoutDropout是一種常用的正則化技術(shù),旨在減少過擬合并提高模型的泛化能力。Dropout的基本思想是在訓(xùn)練過程中以一定概率隨機(jī)地忽略一部分神經(jīng)元的輸出。具體而言,假設(shè)有一個全連接層的輸出向量為h,Dropout的操作如下:(1)在訓(xùn)練中,以概率(通常為0.5)隨機(jī)選擇一部分神經(jīng)元,將它們的輸出置為0。(2)在測試過程中,保持所有神經(jīng)元的輸出,但將它們乘以1?p以保持期望輸出值不變。o
殘差連接殘差連接將若干卷積層學(xué)習(xí)到的特征與原始輸入相加,從而形成了一種“跳躍連接”的結(jié)構(gòu),從而使得神經(jīng)網(wǎng)絡(luò)更容易進(jìn)行優(yōu)化,并且能夠構(gòu)建更深層次的網(wǎng)絡(luò)結(jié)構(gòu)。殘差連接能夠在一定程度上緩解深層網(wǎng)絡(luò)的退化網(wǎng)絡(luò)問題。并且既不增加額外的參數(shù)也不增加計算復(fù)雜度,使得網(wǎng)絡(luò)易于優(yōu)化,提高了泛化性能。o
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l
神經(jīng)網(wǎng)絡(luò)l
卷積神經(jīng)網(wǎng)絡(luò)o
損失函數(shù)和優(yōu)化算法l
損失函數(shù)l
優(yōu)化算法o
神經(jīng)網(wǎng)絡(luò)訓(xùn)練l
梯度和鏈?zhǔn)椒▌tl
前向傳播和反向傳播l
訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o
深度學(xué)習(xí)框架l
主流深度學(xué)習(xí)框架l
框架選擇和優(yōu)缺點比較o
思考
目錄2o
均方誤差損失函數(shù)均方誤差(MeanSquaredError,MSE)損失函數(shù)是一種應(yīng)用于回歸問題的損失函數(shù),用于度量模型預(yù)測值與真實值之間的平方差的平均值。
損失函數(shù)和優(yōu)化算法4o
平方絕對誤差損失函數(shù)平均絕對誤差(MeanAbsoluteError,MAE)損失函數(shù)是應(yīng)用于回歸問題的一種損失函數(shù),用于度量模型預(yù)測值與真實值之間的絕對差的平均值。o
交叉熵?fù)p失函數(shù)交叉熵?fù)p失(Cross-EntropyLoss)函數(shù)廣泛應(yīng)用于分類問題。它衡量模型輸出的概率分布與真實標(biāo)簽的概率分布之間的差異。二分類問題:多分類問題:損失函數(shù)o
序列交叉熵?fù)p失函數(shù)序列交叉嫡損失(SequenceCross-EntropyLoss)函數(shù)是用于序列到序列(sequence-to-sequence)任務(wù)中的一種損失函數(shù),主要應(yīng)用于自然語言處理領(lǐng)域的機(jī)器翻譯任務(wù)。在這種任務(wù)中,模型需要將一個輸入序列映射到另一個輸出序列,而且輸入和輸出的序列長度是可變的。
損失函數(shù)和優(yōu)化算法4o
焦點損失函數(shù)焦點損失(FocalLoss)函數(shù)通過調(diào)整難易分類樣本的權(quán)重,即降低易分類樣本的權(quán)重,提高難分類樣本的權(quán)重,使得模型更關(guān)注難以分類的樣本。損失函數(shù)o
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l
神經(jīng)網(wǎng)絡(luò)l
卷積神經(jīng)網(wǎng)絡(luò)o
損失函數(shù)和優(yōu)化算法l
損失函數(shù)l
優(yōu)化算法o
神經(jīng)網(wǎng)絡(luò)訓(xùn)練l
梯度和鏈?zhǔn)椒▌tl
前向傳播和反向傳播l
訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o
深度學(xué)習(xí)框架l
主流深度學(xué)習(xí)框架l
框架選擇和優(yōu)缺點比較o
思考
目錄2
損失函數(shù)和優(yōu)化算法4優(yōu)化算法o
梯度下降法變種l
批量梯度下降法l
隨機(jī)梯度下降法l
小批量梯度下降法使用整個訓(xùn)練集的數(shù)據(jù),計算每個樣本上損失函數(shù)的梯度并求和,然后更新參數(shù)。隨機(jī)選擇一個樣本計算梯度并更新參數(shù)。每次迭代使用一小批次的樣本來計算梯度。
損失函數(shù)和優(yōu)化算法優(yōu)化算法
損失函數(shù)和優(yōu)化算法優(yōu)化算法
損失函數(shù)和優(yōu)化算法優(yōu)化算法o
Adam算法Adam算法是一種自適應(yīng)學(xué)習(xí)率的優(yōu)化算法,結(jié)合了動量法和AdaGrad算法思想,在深度學(xué)習(xí)中得到了廣泛應(yīng)用,對于不同類型的神經(jīng)網(wǎng)絡(luò)和任務(wù)都有較好的適應(yīng)性。其核心思想是為每個參數(shù)維護(hù)兩個移動平均量,一個是梯度的一階矩估計(動量項),另一個是梯度的二階矩估計(AdaGrad項),然后使用這兩個估計來調(diào)整學(xué)習(xí)率。
o
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l
神經(jīng)網(wǎng)絡(luò)l
卷積神經(jīng)網(wǎng)絡(luò)o
損失函數(shù)和優(yōu)化算法l
損失函數(shù)l
優(yōu)化算法o
神經(jīng)網(wǎng)絡(luò)訓(xùn)練l
梯度和鏈?zhǔn)椒▌tl
前向傳播和反向傳播l
訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o
深度學(xué)習(xí)框架l
主流深度學(xué)習(xí)框架l
框架選擇和優(yōu)缺點比較o
思考
目錄2
神經(jīng)網(wǎng)絡(luò)訓(xùn)練梯度和鏈?zhǔn)椒▌to
梯度的計算給定一個具有n個輸入和1個標(biāo)量輸出的函數(shù): 其對輸入計算梯度,得到一個與輸入具有相同維度的向量,向量的每個維度是輸出對于輸入中相應(yīng)維度的偏導(dǎo)數(shù):給定一個有n個輸入和m個輸出的函數(shù):可以將m個輸出拆分成m個具有n個輸入的單輸出函數(shù)。相當(dāng)于由m個神經(jīng)元構(gòu)成了一層神經(jīng)網(wǎng)絡(luò)。m個輸出分別對n個輸入求微分,得到m×n大小的雅可比矩陣(JacobianMatrix)。該矩陣的第i行第j列元素是第i個輸出對于第j個輸入的偏導(dǎo)數(shù)。
神經(jīng)網(wǎng)絡(luò)訓(xùn)練梯度和鏈?zhǔn)椒▌to
鏈?zhǔn)椒▌t鏈?zhǔn)椒▌t是復(fù)合函數(shù)求導(dǎo)數(shù)的性質(zhì),其定義如下:如果某個函數(shù)由復(fù)合函數(shù)表示,則該復(fù)合函數(shù)的導(dǎo)數(shù)可以用構(gòu)成復(fù)合函數(shù)的各個函數(shù)的導(dǎo)數(shù)的乘積表示。以一元函數(shù)為例,為了求z對x的導(dǎo)數(shù),使用鏈?zhǔn)椒▌t,先求z對y的導(dǎo)數(shù),再求y對x的導(dǎo)數(shù),再將兩個導(dǎo)數(shù)相乘,即為z對x的導(dǎo)數(shù):推廣到多輸入多輸出的函數(shù):要求h對x的偏導(dǎo),同樣地運(yùn)用鏈?zhǔn)椒▌t,先求h對z的偏導(dǎo)以及z對x的偏導(dǎo),兩者都可以表示成雅可比矩陣,再將矩陣相乘,得到最終的結(jié)果。o
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l
神經(jīng)網(wǎng)絡(luò)l
卷積神經(jīng)網(wǎng)絡(luò)o
損失函數(shù)和優(yōu)化算法l
損失函數(shù)l
優(yōu)化算法o
神經(jīng)網(wǎng)絡(luò)訓(xùn)練l
梯度和鏈?zhǔn)椒▌tl
前向傳播和反向傳播l
訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o
深度學(xué)習(xí)框架l
主流深度學(xué)習(xí)框架l
框架選擇和優(yōu)缺點比較o
思考
目錄2
神經(jīng)網(wǎng)絡(luò)訓(xùn)練前向傳播和反向傳播o
計算圖計算圖能夠?qū)⑸窠?jīng)網(wǎng)絡(luò)的計算過程以圖形化的方式呈現(xiàn)。在這個圖中,源節(jié)點表示網(wǎng)絡(luò)的輸入,內(nèi)部節(jié)點表示各種計算操作,有向邊用于傳遞各節(jié)點計算出的值,同時存儲當(dāng)前計算操作得到的值。按照有向邊的方向進(jìn)行順序計算,就能得到神經(jīng)網(wǎng)絡(luò)的輸出值,這個過程稱為前向傳播。反向傳播的過程則是沿著計算圖相反的方向進(jìn)行計算,計算每個參數(shù)的梯度,從而在優(yōu)化過程中更新這些參數(shù)。通過反向傳播,神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)調(diào)整權(quán)重和偏置,使得模型的預(yù)測與實際結(jié)果更加接近,從而提高整體性能。單個節(jié)點的反向傳播:下游梯度=上游梯度×本地梯度
神經(jīng)網(wǎng)絡(luò)訓(xùn)練前向傳播和反向傳播o
計算圖計算過程示例前向傳播反向傳播o
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l
神經(jīng)網(wǎng)絡(luò)l
卷積神經(jīng)網(wǎng)絡(luò)o
損失函數(shù)和優(yōu)化算法l
損失函數(shù)l
優(yōu)化算法o
神經(jīng)網(wǎng)絡(luò)訓(xùn)練l
梯度和鏈?zhǔn)椒▌tl
前向傳播和反向傳播l
訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o
深度學(xué)習(xí)框架l
主流深度學(xué)習(xí)框架l
框架選擇和優(yōu)缺點比較o
思考
目錄2
神經(jīng)網(wǎng)絡(luò)訓(xùn)練訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o
PyTorch訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要先將訓(xùn)練數(shù)據(jù)輸入模型中,通過前向傳播計算預(yù)測值,然后計算損失函數(shù),并通過反向傳播調(diào)整模型參數(shù),以最小化損失。這一過程使用合適的優(yōu)化算法來更新模型的權(quán)重和偏置。以卷積神經(jīng)網(wǎng)絡(luò)為例,使用MNIST數(shù)據(jù)集完成手寫數(shù)字識別任務(wù),使用PyTorch框架來演示訓(xùn)練神經(jīng)網(wǎng)絡(luò)的具體流程。(1)導(dǎo)入必要的庫
神經(jīng)網(wǎng)絡(luò)訓(xùn)練訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o
PyTorch訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例(2)定義一個簡單的卷積神經(jīng)網(wǎng)絡(luò)模型,包括卷積層、激活函數(shù)、池化層和全連接層。
神經(jīng)網(wǎng)絡(luò)訓(xùn)練訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o
PyTorch訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例(3)加載數(shù)據(jù)集并進(jìn)行數(shù)據(jù)預(yù)處理,將圖像轉(zhuǎn)換為Tensor格式并進(jìn)行歸一化。(4)定義損失函數(shù)和優(yōu)化器,損失函數(shù)使用交叉熵?fù)p失函數(shù),優(yōu)化器使用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為0.001。
神經(jīng)網(wǎng)絡(luò)訓(xùn)練訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o
PyTorch訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例(5)進(jìn)行模型訓(xùn)練,迭代數(shù)據(jù)集,計算損失,反向傳播更新模型參數(shù)。o
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l
神經(jīng)網(wǎng)絡(luò)l
卷積神經(jīng)網(wǎng)絡(luò)o
損失函數(shù)和優(yōu)化算法l
損失函數(shù)l
優(yōu)化算法o
神經(jīng)網(wǎng)絡(luò)訓(xùn)練l
梯度和鏈?zhǔn)椒▌tl
前向傳播和反向傳播l
訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o
深度學(xué)習(xí)框架l
主流深度學(xué)習(xí)框架l
框架選擇和優(yōu)缺點比較o
思考
目錄2https:///jittor/深度學(xué)習(xí)框架https:///11主流深度學(xué)習(xí)框架https://keras.io//https:////https:///https://www.tensorflow.org/o
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l
神經(jīng)網(wǎng)絡(luò)l
卷積神經(jīng)網(wǎng)絡(luò)o
損失函數(shù)和優(yōu)化算法l
損失函數(shù)l
優(yōu)化算法o
神經(jīng)網(wǎng)絡(luò)訓(xùn)練l
梯度和鏈?zhǔn)椒▌tl
前向傳播和反向傳播l
訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o
深度學(xué)習(xí)框架l
主流深度學(xué)習(xí)框架l
框架選擇和優(yōu)缺點比較o
思考
目錄2深度學(xué)習(xí)框架10框架優(yōu)點缺點適用場景Jittor動態(tài)圖計算;自動微分;異步計算相對較新;文檔和生態(tài)系統(tǒng)可能有限靈活模型需求;動態(tài)圖計算場景Tensorflow廣泛應(yīng)用;高性能;豐富生態(tài)系統(tǒng)相對復(fù)雜;開發(fā)迭代速度相對較慢大規(guī)模部署;復(fù)雜模型需求PyTorch動態(tài)圖模型;易用性;研究支持部署相對復(fù)雜;穩(wěn)定性較差研究領(lǐng)域;快速試驗與原型開發(fā)Keras簡單易用;輕量級靈活性相對較低初學(xué)者;快速搭建簡單模型Caffe高效;簡單明了功能有限;缺乏動態(tài)圖支持嵌入式設(shè)備;實時應(yīng)用MXNet多語言支持;可擴(kuò)展性文檔相對不足;相對小眾多語言項目;可擴(kuò)展性需求PaddlePaddle面向產(chǎn)業(yè);動靜結(jié)合生態(tài)系統(tǒng)相對較??;學(xué)習(xí)難度較大工業(yè)應(yīng)用;動靜結(jié)合需求MindSpore全場景支持;動靜結(jié)合生態(tài)相對較新;資源相對有限多場景支持;新興項目框架選擇優(yōu)缺點比較o
神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l
神經(jīng)網(wǎng)絡(luò)l
卷積神經(jīng)網(wǎng)絡(luò)o
損失函數(shù)和優(yōu)化算法l
損失函數(shù)l
優(yōu)化算法o
神經(jīng)網(wǎng)絡(luò)訓(xùn)練l
梯度和鏈?zhǔn)椒▌tl
前向傳播和反向傳播l
訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o
深度學(xué)習(xí)框架l
主流深度學(xué)習(xí)框架l
框架選擇和優(yōu)缺點比較o
思考
目錄2o
損失函數(shù)的選擇l
多任務(wù)問題
聯(lián)合損失函數(shù)/各損失函數(shù)獨立優(yōu)化l
類別不平衡問題
加權(quán)損失函數(shù)l
特定問題
結(jié)合業(yè)務(wù)領(lǐng)域知識自定義損失函數(shù)o
優(yōu)化算法的選擇
l
自適應(yīng)學(xué)習(xí)率算法l
學(xué)習(xí)率衰減策略l
正則化控制項o
模型架構(gòu)的選擇
l
利用預(yù)訓(xùn)練模型的優(yōu)勢l
引入注意力機(jī)制l
增加網(wǎng)絡(luò)的深度思考65智周萬物?道濟(jì)天下
謝謝!Thanks!自然語言處理智周萬物?道濟(jì)天下
目錄2o
自然語言處理概述o
詞嵌入l
獨熱向量l
word2vecl
跳元模型l
連續(xù)詞袋模型o
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)o
長短期記憶網(wǎng)絡(luò)(LSTM)o
門控循環(huán)單元(GRU)
自然語言處理概述3自然語
言處理翻譯你好你好你好hello00111101汪汪×自然語言處理使計算機(jī)能夠解讀、處理和理解人類語言,成為人類和計算機(jī)之間溝通的橋梁......新聞文章電子郵件o
自然語言理解
自然語言處理概述——基本任務(wù)4明天天氣怎么樣?“明天陰轉(zhuǎn)多云,氣溫零下六度到三度”NaturalLanguageProcessing自然語言處理o
自然語言生成自然語言理解類任務(wù)包括:詞性標(biāo)注分詞文本分類信息抽取自然語言生成類任務(wù)包括:機(jī)器翻譯問答系統(tǒng)自動摘要語音識別人與計算機(jī)交流的第一步就是讓計算機(jī)理解人類輸入給它的信息。這類任務(wù)的研究目的是使計算機(jī)能夠理解自然語言,從自然語言中提取有用的信息輸出或用于下游任務(wù)明天天氣怎么樣?明天?天氣?計算機(jī)理解人類的輸入后,我們還希望計算機(jī)能夠生成滿足人類目的的、可以理解的自然語言形式的輸出,從而實現(xiàn)真正的交流。
自然語言處理概述——發(fā)展歷程Bengio等人提出第一個神經(jīng)語言模型。這個模型將某詞語之前出現(xiàn)的n個詞語作為輸入,預(yù)測下一個單詞輸出。模型一共三層,第一層是映射層,將n個單詞映射為對應(yīng)的詞嵌入;第二層是隱藏層;第三層是輸出層,使用softmax輸出單詞的概率分布,是一個多分類器。2013Bahdanau等人的工作使用注意力機(jī)制在機(jī)器翻譯任務(wù)上將翻譯和對齊同時進(jìn)行,是第一個將注意力機(jī)制應(yīng)用到NLP領(lǐng)域的科研工作。2017BERT、GPT20世紀(jì)50年代70年代2018年之后Mikolov等人提出了word2vec,大規(guī)模詞向量的訓(xùn)練成為可能自然語言處理領(lǐng)域神經(jīng)網(wǎng)絡(luò)時代,也逐漸開始,循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)開始被廣泛應(yīng)用到自然語言處理領(lǐng)域20世紀(jì)50年代到70年代主要采用基于規(guī)則的方法。這種方法依賴于語言學(xué)家和開發(fā)者預(yù)先定義的規(guī)則系統(tǒng),以便解析和理解語言。70年代以后主要采用基于統(tǒng)計的方法。這種方法通常依靠大量的語言數(shù)據(jù)來學(xué)習(xí),得到數(shù)據(jù)中詞、短語、句子的概率分布,從而實現(xiàn)對語言的處理和分析。BERT、GPT等大規(guī)模預(yù)訓(xùn)練語言模型出現(xiàn),大模型時代逐漸到來傳統(tǒng)理論深度學(xué)習(xí)興起大模型時代20002015Transformer提出,它創(chuàng)造性地用非序列模型來處理序列化的數(shù)據(jù),并且大獲成功。5
自然語言處理概述——應(yīng)用領(lǐng)域1.翻譯軟件4.搜索引擎3.語音助手2.聊天機(jī)器人6o
自然語言處理概述o
詞嵌入l
獨熱向量l
word2vecl
跳元模型l
連續(xù)詞袋模型o
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)o
長短期記憶網(wǎng)絡(luò)(LSTM)o
門控循環(huán)單元(GRU)7
目錄計算機(jī)是無法直接讀懂非數(shù)值的自然語言,只有將其轉(zhuǎn)化為數(shù)值形式才能被計算機(jī)處理詞嵌入完成各種下游任務(wù)神經(jīng)網(wǎng)絡(luò)模型循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)長短期記憶網(wǎng)絡(luò)(LSTM)門控循環(huán)單元(GRU)??
詞嵌入——獨熱向量(One-hotEncoding)
文本數(shù)值?
apple
=
[10000]
bag
=
[01000]
cat
=
[00100]
dog
=
[00010]elephant
=
[00001]×
缺點:獨熱向量不能編碼詞之間的相似性特征矩陣非常稀疏,占用空間很大o
獨熱向量是指使用??位0或1對??個單詞進(jìn)行編碼,其分量和類別數(shù)一樣多,類別對應(yīng)的分量設(shè)置為1(即one-hot),其余分量設(shè)置為0。例如,編碼apple、bag、cat、dog、elephant五個單詞,用5位向量進(jìn)行編碼:
但任意兩詞之間余弦相似度為0!√優(yōu)點:獨熱向量容易構(gòu)建獨熱向量的維度等于詞匯表大小,在詞匯表較大時會變得非常長8最簡單的方法就是用獨熱向量表示每個單詞
詞嵌入——word2vec
o
攜帶上下文信息,即詞與詞之間的聯(lián)系能在詞的向量表示中體現(xiàn)。o
詞的表示是稠密的,能用更少的空間、更低的維數(shù)表示更多的信息。和獨熱向量相比,word2vec生成的詞向量具有以下優(yōu)點:o
訓(xùn)練時利用上下文信息,詞向量包含詞的語義信息和詞與詞之間的聯(lián)系。o
維度更少,所以占用空間更少、計算成本更低。o
通用性強(qiáng),可用于各種下游NLP任務(wù)。訓(xùn)練word2vec的常用方法有兩種:跳元模型(Skip-Gram)和連續(xù)詞袋(ContinuousBagsofWords:CBOW)圖3.4降維后的詞向量表示,可以看到相似概念的詞是聚集在一起的9我們希望詞向量:word2vec!實現(xiàn)o
word2vec是一種詞嵌入技術(shù),也可被看作是一個神經(jīng)網(wǎng)絡(luò)模型,其參數(shù)是詞向量,通過預(yù)測上下文來學(xué)習(xí)好的詞向量。我們希望實現(xiàn)這樣的效果:
詞嵌入——跳元模型
o
根據(jù)中心詞預(yù)測上下文詞
o
目標(biāo)函數(shù)(損失函數(shù))
目標(biāo)是最大化該似然函數(shù),即最小化損失函數(shù):
如何計算?就是
softmax!
詞向量維數(shù)詞匯大小10
詞嵌入——連續(xù)詞袋模型
o
根據(jù)上下文詞預(yù)測中心詞
如何計算?
求和取平均
o
目標(biāo)函數(shù)(損失函數(shù))
目標(biāo)是最大化該似然函數(shù),即最小化損失函數(shù):
11
詞嵌入——連續(xù)詞袋模型舉例
12the=[10000]woman=[01000]loves=[00100]her=[00010]daughter=[00001]
其中,N=5表示輸入層單詞的維數(shù),V=3表示希望得到的詞向量維數(shù)
現(xiàn)在將
“the”輸入,即與權(quán)重矩陣相乘:“the”的詞向量同理,可以得到每個單詞的詞向量為:
使用單詞的獨熱編碼作為輸入:
詞嵌入——連續(xù)詞袋模型舉例
13將得到的4個向量相加求平均作為輸出層的輸入:
最后計算損失函數(shù),反向傳播,更新網(wǎng)絡(luò)參數(shù)。
目錄14o
自然語言處理概述o
詞嵌入l
獨熱向量l
word2vecl
跳元模型l
連續(xù)詞袋模型o
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)o
長短期記憶網(wǎng)絡(luò)(LSTM)o
門控循環(huán)單元(GRU)
......
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)
有效包含當(dāng)前輸入和先前序列的信息時序的重要性!×
workinglove
learningweondeep√weloveworkingondeeplearning捕捉序列中的時序信息循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)o
循環(huán)神經(jīng)網(wǎng)絡(luò)15循環(huán)神經(jīng)網(wǎng)絡(luò)——訓(xùn)練16o
BPTT(BackPropagationThroughTime)算法
簡化表達(dá)
則可以使用交叉熵計算每個時刻的損失,則在
t=3時有損失:
假設(shè)當(dāng)前時刻的隱藏狀態(tài)和輸出為:
循環(huán)神經(jīng)網(wǎng)絡(luò)——梯度問題17o
梯度消失問題o
梯度爆炸問題o
本質(zhì)上都是因為梯度反向傳播中的連乘效應(yīng),小于1的數(shù)連乘就會出現(xiàn)梯度下降問題,大于1的數(shù)連乘就會出現(xiàn)梯度爆炸的問題
假設(shè)當(dāng)激活函數(shù)為Tanh時,連乘部分可以表示為:
而Tanh的導(dǎo)數(shù)可以寫為:
,其值域為:(0,1]
循環(huán)神經(jīng)網(wǎng)絡(luò)——梯度問題的緩解18
循環(huán)神經(jīng)網(wǎng)絡(luò)——雙向RNN19我______我______困,我剛起床我______困,我想趕緊睡覺很高興不非常o
短語的“下文”在填空任務(wù)中起到十分關(guān)鍵的作用,它傳達(dá)的信息關(guān)乎到選擇什么詞來填空。如果無法利用這一特性,普通的RNN模型將在相關(guān)任務(wù)上表現(xiàn)不佳。而既可以學(xué)習(xí)正向特征也可以學(xué)習(xí)反向特征的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)在解決該類任務(wù)時會有更高的擬合度。圖3.10雙向循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)
20
目錄o
自然語言處理概述o
詞嵌入l
獨熱向量l
word2vecl
跳元模型l
連續(xù)詞袋模型o
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)o
長短期記憶網(wǎng)絡(luò)(LSTM)o
門控循環(huán)單元(GRU)長短期記憶網(wǎng)絡(luò)(LSTM)21普通RNNLSTMo
和普通RNN比較,LSTM主要是改變了隱藏層的結(jié)構(gòu)。o
LSTM引入了記憶元(memorycell)的概念,簡稱單元(cell),其設(shè)計目的是用于記錄附加信息。
o
引入了門機(jī)制對當(dāng)前的輸入信息進(jìn)行篩選,從而決定哪些信息可以傳遞到下一層o
當(dāng)訓(xùn)練深層網(wǎng)絡(luò)時,RNN面臨梯度在反向傳播過程中消失或爆炸的問題。而由于梯度消失的問題,普通RNN難以學(xué)習(xí)和記憶過去很長時間里的輸入信息,這個問題在處理長序列和復(fù)雜序列模式時變得尤為明顯。長短期記憶網(wǎng)絡(luò)的出現(xiàn)緩解了長期信息保存以及梯度問題。長短期記憶網(wǎng)絡(luò)(LSTM)221.遺忘門、輸入門和輸出門帶sigmoid激活函數(shù)的線性層
當(dāng)前時刻的輸入上一時刻的隱藏狀態(tài)長短期記憶網(wǎng)絡(luò)(LSTM)232.候選單元狀態(tài)帶Tanh激活函數(shù)的線性層
3.單元狀態(tài)更新
*按元素乘積長短期記憶網(wǎng)絡(luò)(LSTM)244.隱藏狀態(tài)更新
目錄25o
自然語言處理概述o
詞嵌入l
獨熱向量l
word2vecl
跳元模型l
連續(xù)詞袋模型o
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)o
長短期記憶網(wǎng)絡(luò)(LSTM)o
門控循環(huán)單元(GRU)門控循環(huán)單元(GRU)26o
門控循環(huán)單元的提出同樣是為了解決反向傳播中的梯度問題以及長期記憶問題,但相比于LSTM,GRU能在提供同等效果的同時有更快的計算速度o
GRU結(jié)構(gòu)更簡單,主要包括重置門、更新門兩個門結(jié)構(gòu),候選隱藏狀態(tài)以及隱藏狀態(tài)更新兩個主要步驟門控循環(huán)單元(GRU)27
1.重置門和更新門兩個門同樣起到選擇性地讓信息通過的作用重置門:決定隱藏狀態(tài)中的什么信息需要保存。更新門:決定新的隱藏狀態(tài)多少來自候選隱藏狀態(tài)多少來自舊隱藏狀態(tài)。門控循環(huán)單元(GRU)282.候選隱藏狀態(tài)
3.隱藏狀態(tài)更新
*按元素乘積智周萬物?道濟(jì)天下
謝謝!Thanks!大模型網(wǎng)絡(luò)結(jié)構(gòu)智周萬物?道濟(jì)天下o
Transformerl
注意力機(jī)制l
編碼器-解碼器結(jié)構(gòu)
l
大模型中的編碼器-解碼器結(jié)構(gòu)o
編碼器結(jié)構(gòu)----BERT家族l
BERT結(jié)構(gòu)l
預(yù)訓(xùn)練策略l
BERT的變體o
解碼器結(jié)構(gòu)----GPT家族l
GPT結(jié)構(gòu)l
自回歸預(yù)訓(xùn)練l
后續(xù)改進(jìn)o
思考
目錄2
目錄o
Transformerl
注意力機(jī)制l
編碼器-解碼器結(jié)構(gòu)
l
大模型中的編碼器-解碼器結(jié)構(gòu)o
編碼器結(jié)構(gòu)----BERT家族l
BERT結(jié)構(gòu)l
預(yù)訓(xùn)練策略l
BERT的變體o
解碼器結(jié)構(gòu)----GPT家族l
GPT結(jié)構(gòu)l
自回歸預(yù)訓(xùn)練l
后續(xù)改進(jìn)o
思考16o
面對問題:記錄輸入序列中的長期依賴關(guān)系o
Transformer利用注意力機(jī)制完成對源語言序列和目標(biāo)語言序列全局依賴的建模
Transformer4Transformer是自然語言處理領(lǐng)域的顛覆者,為后續(xù)大模型網(wǎng)絡(luò)結(jié)構(gòu)(BERT、GPT)的發(fā)展奠定了基礎(chǔ)o
基本結(jié)構(gòu):編碼器-解碼器結(jié)構(gòu)o
編碼器輸入,解碼器輸出
Transformer4o
嵌入表示層o
注意力層o
位置前饋感知層o
殘差連接o
層歸一化
Transformer43
目錄o
Transformerl
注意力機(jī)制l
編碼器-解碼器結(jié)構(gòu)
l
大模型中的編碼器-解碼器結(jié)構(gòu)o
編碼器結(jié)構(gòu)----BERT家族l
BERT結(jié)構(gòu)l
預(yù)訓(xùn)練策略l
BERT的變體o
解碼器結(jié)構(gòu)----GPT家族l
GPT結(jié)構(gòu)l
自回歸預(yù)訓(xùn)練l
后續(xù)改進(jìn)o
思考注意力機(jī)制是對人類行為的一種仿生,起源于對人類視覺注意機(jī)制的研究
注意力機(jī)制4注意力機(jī)制8不同的單詞通過不同權(quán)重計算影響1.自注意力模塊注意力機(jī)制8注意力機(jī)制8相關(guān)性通過詞與詞之間的關(guān)系來更好地理解當(dāng)前詞的意思注意力機(jī)制8點積雙線性多重感知機(jī)注意力機(jī)制8注意力圖查詢向量鍵向量注意力機(jī)制8縮放&Soft-max注意力機(jī)制8注意力機(jī)制8并行計算注意力機(jī)制8注意力機(jī)制8注意力機(jī)制8注意力機(jī)制8縮放Soft-max注意力機(jī)制8注意力機(jī)制8需要學(xué)習(xí)的參數(shù)注意力機(jī)制82.多頭注意力模塊注意力機(jī)制8注意力機(jī)制8注意力機(jī)制8=0=0=03.掩碼多頭注意力模塊在推理過程中,編碼器在生成當(dāng)前token時,往往只能獲取之前token的信息注意力機(jī)制8縮放Soft-max注意力機(jī)制80000001111111011001000構(gòu)造掩碼矩陣注意力機(jī)制8000000000000注意力機(jī)制84.位置編碼在自注意力模塊中缺乏句子詞序位置編碼:每個位置有一個獨一無二的位置向量手工設(shè)計的也可以是學(xué)習(xí)得到的注意力機(jī)制8/abs/2003.092292
目錄o
Transformerl
注意力機(jī)制l
編碼器-解碼器結(jié)構(gòu)
l
大模型中的編碼器-解碼器結(jié)構(gòu)o
編碼器結(jié)構(gòu)----BERT家族l
BERT結(jié)構(gòu)l
預(yù)訓(xùn)練策略l
BERT的變體o
解碼器結(jié)構(gòu)----GPT家族l
GPT結(jié)構(gòu)l
自回歸預(yù)訓(xùn)練l
后續(xù)改進(jìn)o
思考編碼器-解碼器結(jié)構(gòu)31.編碼器編碼器Transformer中的編碼器編碼器-解碼器結(jié)構(gòu)4Transformer塊Transformer塊Transformer塊…………多頭注意力模塊FCFCFCFC前向傳播編碼器-解碼器結(jié)構(gòu)5多頭注意力模塊normFCFCnorm…norm均值標(biāo)準(zhǔn)差層歸一化/abs/1607.06450殘差連接編碼器-解碼器結(jié)構(gòu)62.解碼器解碼器編碼器<BOS>狗Dogslikeballs球0.1狗0.8歡0.0喜0.0……分布詞匯表大小Vsoftmaxmax喜max編碼器-解碼器結(jié)構(gòu)7解碼器編碼器<BOS>狗歡喜歡球Dogslikeballs狗maxmaxmax輸入的是解碼器的輸出Transformer中的解碼器編碼器-解碼器結(jié)構(gòu)8o
解碼器需要自己決定生成的目標(biāo)句的長度o
實際上:機(jī)器并不能確定正確的輸出長度喜max解碼器編碼器<BOS>狗歡球類喜歡球Dogslikeballs狗maxmaxmaxmax……會一直持續(xù)下去softmax編碼器-解碼器結(jié)構(gòu)9解碼器編碼器<BOS>狗Dogslikeballs球0.1狗0.0歡0.0喜0.0……<EOS>0.8分布softmaxmax解碼器<BOS>softmaxmax<EOS>喜歡球maxmaxmax喜狗歡球編碼器-解碼器結(jié)構(gòu)10在訓(xùn)練的過程中,不僅降低模型并行程度,使得訓(xùn)練時間變長,而且訓(xùn)練更加困難喜max解碼器編碼器<BOS>狗歡球<EOS>喜歡球Dogslikeballs狗maxmaxmaxmaxGroundTruthTeacherForcing:使用GroundTruth作為輸入編碼器-解碼器結(jié)構(gòu)為什么需要掩碼?11編碼器-解碼器結(jié)構(gòu)推理訓(xùn)練在訓(xùn)練的過程中,使用掩碼多頭注意力模塊12編碼器-解碼器結(jié)構(gòu)3.編碼器與解碼器之間的信息傳遞Crossattention13編碼器-解碼器結(jié)構(gòu)編碼器掩碼多頭注意力<BOS>FC14Crossattention編碼器-解碼器結(jié)構(gòu)編碼器掩碼多頭注意力<BOS>FC狗15
目錄o
Transformerl
注意力機(jī)制l
編碼器-解碼器結(jié)構(gòu)
l
大模型中的編碼器-解碼器結(jié)構(gòu)o
編碼器結(jié)構(gòu)----BERT家族l
BERT結(jié)構(gòu)l
預(yù)訓(xùn)練策略l
BERT的變體o
解碼器結(jié)構(gòu)----GPT家族l
GPT結(jié)構(gòu)l
自回歸預(yù)訓(xùn)練l
后續(xù)改進(jìn)o
思考16大模型中的編碼器-解碼器結(jié)構(gòu)1.BART17大模型中的編碼器-解碼器結(jié)構(gòu)TokenMaskingA[MASK]C.[MASK]E.
AB
C.DE.
18大模型中的編碼器-解碼器結(jié)構(gòu)TokenMaskingTokenDeletionA
C.
E.
A
C.
E.
19大模型中的編碼器-解碼器結(jié)構(gòu)TokenMaskingTokenDeletionTokenInfillingA[MASK].D[MASK]E.
A
2
.D0E.
20大模型中的編碼器-解碼器結(jié)構(gòu)TokenMaskingTokenDeletionTokenInfillingSentencePermutationDE.ABC.
2121大模型中的編碼器-解碼器結(jié)構(gòu)TokenMaskingTokenDeletionTokenInfillingSentencePermutationDocumentRotationC.DE.AB
Begin22大模型中的編碼器-解碼器結(jié)構(gòu)23大模型中的編碼器-解碼器結(jié)構(gòu)BaseLarge6層12層24大模型中的編碼器-解碼器結(jié)構(gòu)1.T5將所有文本處理問題轉(zhuǎn)化為“文本到文本”的問題25大模型中的編碼器-解碼器結(jié)構(gòu)ReplaceSpanA_.D_E.ABC.DE.norm殘差連接層歸一化norm262
目錄o
Transformerl
注意力機(jī)制l
編碼器-解碼器結(jié)構(gòu)
l
大模型中的編碼器-解碼器結(jié)構(gòu)o
編碼器結(jié)構(gòu)----BERT家族l
BERT結(jié)構(gòu)l
預(yù)訓(xùn)練策略l
BERT的變體o
解碼器結(jié)構(gòu)----GPT家族l
GPT結(jié)構(gòu)l
自回歸預(yù)訓(xùn)練l
后續(xù)改進(jìn)o
思考編碼器結(jié)構(gòu)-BERT家族3BERTTransformer中的編碼器like編碼器結(jié)構(gòu)-BERT家族42.預(yù)訓(xùn)練策略自監(jiān)督學(xué)習(xí)策略的提出使得BERT的訓(xùn)練成為可能BERT“掩碼語言建?!盌ogsballs隨機(jī)掩蓋其中一些token“[MASK]”softmaxballs0.0Dogs0.1like0.8……分布Linear交叉熵?fù)p失like訓(xùn)練GT編碼器結(jié)構(gòu)-BERT家族5“下句預(yù)測”DogslikeballsTheyarefuntoplaywith[CLS][SEP]BERTLinearsigmoidisNextnotNext二值交叉熵?fù)p失isNext訓(xùn)練GT6
目錄o
Transformerl
注意力機(jī)制l
編碼器-解碼器結(jié)構(gòu)
l
大模型中的編碼器-解碼器結(jié)構(gòu)o
編碼器結(jié)構(gòu)----BERT家族l
BERT結(jié)構(gòu)l
預(yù)訓(xùn)練策略l
BERT的變體o
解碼器結(jié)構(gòu)----GPT家族l
GPT結(jié)構(gòu)l
自回歸預(yù)訓(xùn)練l
后續(xù)改進(jìn)o
思考編碼器結(jié)構(gòu)-BERT家族71.BERT結(jié)構(gòu)Transformer編碼器文本嵌入Linear編碼器結(jié)構(gòu)-BERT家族8Transformer編碼器文本嵌入DogslikeballsTheyarefuntoplaywith[CLS][SEP][SEP]Token嵌入分段嵌入LinearLinear位置嵌入編碼器結(jié)構(gòu)-BERT家族91.BERT結(jié)構(gòu)Transformer編碼器文本嵌入輸出層DogslikeballsTheyarefuntoplaywith[CLS][SEP][SEP]LinearTanh輸出層輸出層10
目錄o
Transformerl
注意力機(jī)制l
編碼器-解碼器結(jié)構(gòu)
l
大模型中的編碼器-解碼器結(jié)構(gòu)o
編碼器結(jié)構(gòu)----BERT家族l
BERT結(jié)構(gòu)l
預(yù)訓(xùn)練策略l
BERT的變體o
解碼器結(jié)構(gòu)----GPT家族l
GPT結(jié)構(gòu)l
自回歸預(yù)訓(xùn)練l
后續(xù)改進(jìn)o
思考編碼器結(jié)構(gòu)-BERT家族3.BERT的變體BERT的參數(shù)量太大--ALBERT“跨層參數(shù)共享”全共享:Transformer塊的參數(shù)共享共享前饋網(wǎng)絡(luò)層:每個Transformer塊的前向傳播層參數(shù)共享共享注意力層:每個Transformer塊的多頭注意力層參數(shù)共享11編碼器結(jié)構(gòu)-BERT家族3.BERT的變體BERT的參數(shù)量太大--ALBERT“嵌入層參數(shù)因子分解”文本嵌入LinearLinearLinear12編碼器結(jié)構(gòu)-BERT家族萬萬13動態(tài)掩碼編碼器結(jié)構(gòu)-BERT家族RoBERTa:改進(jìn)BERT預(yù)訓(xùn)練移除下句預(yù)測任務(wù)增加數(shù)據(jù)和訓(xùn)練步數(shù)增大batchsize使用字節(jié)級字節(jié)對編碼14編碼器結(jié)構(gòu)-BERT家族DogslikeballsTheyarefuntoplaywith[CLS][SEP]生成器(BERT)[eat]cat從詞匯表中隨機(jī)選擇一個token[]判別器Linearsigmoid實際替換15
目錄o
Transformerl
注意力機(jī)制l
編碼器-解碼器結(jié)構(gòu)
l
大模型中的編碼器-解碼器結(jié)構(gòu)o
編碼器結(jié)構(gòu)----BERT家族l
BERT結(jié)構(gòu)l
預(yù)訓(xùn)練策略l
BERT的變體o
解碼器結(jié)構(gòu)----GPT家族l
GPT結(jié)構(gòu)l
自回歸預(yù)訓(xùn)練l
后續(xù)改進(jìn)o
思考16解碼器結(jié)構(gòu)-GPT家族GPTTransformer解碼器樣式17解碼器結(jié)構(gòu)-GPT家族Transformer解碼器文本嵌入1.GPT結(jié)構(gòu)輸出層18<BOS>GPT解碼器結(jié)構(gòu)-GPT家族softmaxDogsGTlikeballs<EOS>likeDogsballs2.自回歸預(yù)訓(xùn)練自監(jiān)督學(xué)習(xí)19解碼器結(jié)構(gòu)-GPT家族<BOS>GPTsoftmaxDogslikeballs<EOS>likeDogsballsballs0.1Dogs0.8like0.0……<EOS>0.0maxmaxmaxmaxballs0.1Dogs0.0like0.8……<EOS>0.0balls0.8Dogs0.1like0.0……<EOS>0.0balls0.1Dogs0.0like0.0……<EOS>0.8balls0.1Dogs0.8like0.0……<EOS>0.020解碼器結(jié)構(gòu)-GPT家族3.后續(xù)改進(jìn)normnorm1)縮放參數(shù)增大輸入序列長度GPT-221解碼器結(jié)構(gòu)-GPT家族2)GPT-2移除了微調(diào)模型,完全只做無監(jiān)督預(yù)訓(xùn)練zero-shot零樣本學(xué)習(xí)3)更大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)集22解碼器結(jié)構(gòu)-GPT家族GPT-31)Dogslikeballsbecause.theyarefuntoplaywithk=223解碼器結(jié)構(gòu)-GPT家族2)是否進(jìn)行微調(diào)和使用多少數(shù)據(jù)進(jìn)行微調(diào)24
謝謝!Thanks!大模型訓(xùn)練與優(yōu)化智周萬物?道濟(jì)天下o
訓(xùn)練數(shù)據(jù)準(zhǔn)備l
數(shù)據(jù)獲取l
數(shù)據(jù)預(yù)處理l
數(shù)據(jù)增強(qiáng)l
數(shù)據(jù)配比與課程設(shè)置l
開源數(shù)據(jù)集o
并行化與分布式訓(xùn)練l
大模型訓(xùn)練的挑戰(zhàn)l
并行化策略l
節(jié)點間數(shù)據(jù)通信l
分布式訓(xùn)練框架
目錄o
模型壓縮l
量化l
剪枝l
知識蒸餾o
華為昇騰芯片o
數(shù)據(jù)獲取:l
收集類別豐富的樣本l
篩選高質(zhì)量的樣本o
數(shù)據(jù)增強(qiáng):l
擴(kuò)充數(shù)據(jù)規(guī)模l
提高數(shù)據(jù)多樣性o
訓(xùn)練數(shù)據(jù)配比和課程設(shè)置:l
確定數(shù)據(jù)的比例l
編排數(shù)據(jù)使用順序大模型展現(xiàn)出卓越性能的一個關(guān)鍵原因:海量的高質(zhì)量訓(xùn)練數(shù)據(jù)
訓(xùn)練數(shù)據(jù)準(zhǔn)備文本圖像點云o
訓(xùn)練數(shù)據(jù)準(zhǔn)備l
數(shù)據(jù)獲取l
數(shù)據(jù)預(yù)處理l
數(shù)據(jù)增強(qiáng)l
數(shù)據(jù)配比與課程設(shè)置l
開源數(shù)據(jù)集o
并行化與分布式訓(xùn)練l
大模型訓(xùn)練的挑戰(zhàn)l
并行化策略l
節(jié)點間數(shù)據(jù)通信l
分布式訓(xùn)練框架
目錄o
模型壓縮l
量化l
剪枝l
知識蒸餾o
華為昇騰芯片o
通用文本:
l
來源:包括在線論壇、社交媒體、新聞、博客、書籍、期刊等l
主題:涵蓋社會、科技、娛樂、健康等l
表達(dá):囊括不同人群、地區(qū)和文化背景的表達(dá)方式o
三個主要來源:
訓(xùn)練數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)獲取1.文本數(shù)據(jù)來源網(wǎng)頁數(shù)據(jù)新聞文章博客百科數(shù)據(jù)社交媒體對話數(shù)據(jù)電子郵件對話論壇帖子社交媒體對話書籍?dāng)?shù)據(jù)社會人文類歷史類科技類小說數(shù)據(jù)量大內(nèi)容豐富理解對話邏輯表達(dá)規(guī)范長文本理解o
專業(yè)文本:
l
數(shù)據(jù)占比較低l
包含大量專業(yè)術(shù)語以及特定的語法句式o
常見的專業(yè)文本數(shù)據(jù):
訓(xùn)練數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)獲取1.文本數(shù)據(jù)來源科學(xué)文本數(shù)據(jù)學(xué)術(shù)論文技術(shù)報告教材行業(yè)專業(yè)文本法律法規(guī)合同工程文檔代碼文本開源代碼倉庫編程競賽和挑戰(zhàn)平臺開發(fā)者社區(qū)論壇賦予模型理解科學(xué)問題的能力注重實際應(yīng)用、業(yè)務(wù)操作和解決特定問題的需求具有特定的語法規(guī)則及準(zhǔn)確的執(zhí)行邏輯o
通用圖像數(shù)據(jù):
l
涵蓋了人類日常生活中的各種場景l(fā)
從互聯(lián)網(wǎng)收集得到;
各種常規(guī)的便攜設(shè)備,如手機(jī)、平板電腦、相機(jī)等拍攝獲取l
比文本的信息更加密集,包含豐富的視覺特征,如顏色、紋理、形狀等o
確保數(shù)據(jù)多樣性需要考慮:
l
天氣條件:收集圖像時考慮不同的天氣條件,包括晴天、陰天、雨天、雪天等l
時間變化:收集一天不同時間段下拍攝的圖像,這能夠捕捉到光照、陰影等方面的變化l
人群多樣性:確保圖像中包含不同人群的照片,考慮年齡、性別、種族等因素l
物體類別:涵蓋多個物體類別,包括不同的動植物、建筑物、交通工具等l
場景多樣性:需要包括常見的室內(nèi)及室外場景,如辦公室、臥室、城市街景l(fā)
文化多樣性:考慮在不同社會環(huán)境中收集圖像,涵蓋不同文化、習(xí)慣和社交活動
訓(xùn)練數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)獲取2.圖像數(shù)據(jù)來源o
專業(yè)圖像數(shù)據(jù):
l
針對特定領(lǐng)域或?qū)I(yè)需求采集的圖像數(shù)據(jù)l
使用專業(yè)設(shè)備或者在特定場景下采集l
例如,通過X光機(jī)、CT掃描獲得醫(yī)學(xué)圖像;l
通過衛(wèi)星或航空器獲取的地球表面的遙感圖像;l
工業(yè)生產(chǎn)線上拍攝得到的產(chǎn)品缺陷檢測圖像;
訓(xùn)練數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)獲取2.圖像數(shù)據(jù)來源o
常見的三維數(shù)據(jù)表示形式有:
點云、三角網(wǎng)格、體素、隱式表達(dá)
o
點云定義:l
三維點的數(shù)據(jù)集合o
屬性:l
三維坐標(biāo)l
強(qiáng)度l
顏色o
采集設(shè)備:l
激光掃描儀、深度相機(jī)、雙目相機(jī)、光學(xué)相機(jī)多視角重建、結(jié)構(gòu)光設(shè)備
訓(xùn)練數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)獲取3.點云數(shù)據(jù)來源o
訓(xùn)練數(shù)據(jù)準(zhǔn)備l
數(shù)據(jù)獲取l
數(shù)據(jù)預(yù)處理l
數(shù)據(jù)增強(qiáng)l
數(shù)據(jù)配比與課程設(shè)置l
開源數(shù)據(jù)集o
并行化與分布式訓(xùn)練l
大模型訓(xùn)練的挑戰(zhàn)l
并行化策略l
節(jié)點間數(shù)據(jù)通信l
分布式訓(xùn)練框架
目錄o
模型壓縮l
量化l
剪枝l
知識蒸餾o
華為昇騰芯片o
低質(zhì)去除:
l
目標(biāo):去除那些質(zhì)量較差,以及不符合標(biāo)準(zhǔn)的文本數(shù)據(jù)l
基于分類器的方法:使用一組精選的文本(包括維基百科、書籍等),訓(xùn)練一個分類器用于判斷文本的質(zhì)量,將與訓(xùn)練數(shù)據(jù)類似的數(shù)據(jù)給定較高的分?jǐn)?shù)。利用該分類器評估數(shù)據(jù)的內(nèi)容質(zhì)量l
基于啟發(fā)式的方法:自定義規(guī)則,對數(shù)據(jù)進(jìn)行篩選例如:去除單詞數(shù)量少于50個或者大于100000個的文檔去除符號與單詞的比例大于0.1的文件
訓(xùn)練數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)預(yù)處理1.文本數(shù)據(jù)預(yù)處理低質(zhì)去除冗余去除隱私去除詞元劃分o
冗余去除:
l
目標(biāo):去除文本數(shù)據(jù)中的冗余信息,精簡數(shù)據(jù)集,防止模型在預(yù)測時陷入重復(fù)循環(huán)l
句子級別:構(gòu)建過濾方法,識別重復(fù)句子例如,提取并過濾文檔間超過一定長度的相同字符串(公共子串匹配)l
段落或者文檔級別:基于文本之間的特征相似度來進(jìn)行冗余去除例如,計算兩個段落或者文檔之間的13-gram的Jaccard相似度來判斷它們是否重復(fù)
訓(xùn)練數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)預(yù)處理1.文本數(shù)據(jù)預(yù)處理低質(zhì)去除冗余去除隱私去除詞元劃分補(bǔ)充知識:N-gram是一種文本特征表示方法,它將文本分解為連續(xù)的n個單詞或字符序列。常用的是基于單詞的n-gram,其中n表示連續(xù)的單詞的數(shù)量。例如,在句子"Thisisanexample"中,2-gram表示為[“Thisis”,“isan”,“anexample”]。對于文本,可以將其表示為n-gram序列,然后計算n-gram序列之間的Jaccard指數(shù)來比較兩個文本的相似性o
隱私去除:
l
目標(biāo):刪除或替換文本數(shù)據(jù)中個人姓名、電話號碼、電子郵件地址等敏感信息l
基于規(guī)則的算法:例如,可使用命名實體識別算法,從文本中檢測姓名、地址、電話號碼等信息
訓(xùn)練數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)預(yù)處理1.文本數(shù)據(jù)預(yù)處理低質(zhì)去除冗余去除隱私去除詞元劃分o
詞元劃分:
l
目標(biāo):將連續(xù)的文本劃分為有意義的詞元(tokens)
訓(xùn)練數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)預(yù)處理1.文本數(shù)據(jù)預(yù)處理低質(zhì)去除冗余去除隱私去除詞元劃分o
詞粒度劃分:將連續(xù)文本以單詞為基本單元進(jìn)行劃分
o
缺點:l
只能處理預(yù)先定義的詞表內(nèi)的詞l
詞表中可能存在常委分布,使得模型對稀有詞的理解不佳l
對于英語等語言,無法正確處理不同時態(tài)的單詞o
字符劃分:將字符視為詞元來構(gòu)建詞表
o
缺點:l
字符作為詞元的語義表達(dá)不足l
一個單詞需要由多個字符來表示,計算成本增加o
子詞劃分:基于某種規(guī)則對單詞進(jìn)行拆分,高頻詞保持原狀,將低頻詞拆分成子詞例如,對于單詞token不進(jìn)行拆分,對于單詞tokenization則拆分為token和ization。o
詞元劃分:
l
常見的方法:Byte-PairEncoding(BPE)、WordPiece、UnigramLanguageModel(ULM)l
基本流程:1.構(gòu)建詞表2.基于詞表進(jìn)行分詞
訓(xùn)練數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)預(yù)處理1.文本數(shù)據(jù)預(yù)處理低質(zhì)去除冗余去除隱私去除詞元劃分Byte-PairEncoding(BPE)
構(gòu)建詞表:1.準(zhǔn)備足夠大的訓(xùn)練語料,并確定期望的Subword詞表大小;語料詞表high</t>:3次oldest</t>:6次newest</t>:3次</t>是插入到每個單詞后的終止符,用于區(qū)分單詞邊界o
詞元劃分:
l
常見的方法:Byte-PairEncoding(BPE)、WordPiece、UnigramLanguageModel(ULM)l
基本流程:1.構(gòu)建詞表2.基于詞表進(jìn)行分詞
訓(xùn)練數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)預(yù)處理1.文本數(shù)據(jù)預(yù)處理低質(zhì)去除冗余去除隱私去除詞元劃分Byte-PairEncoding(BPE)
構(gòu)建詞表:1.準(zhǔn)備足夠大的訓(xùn)練語料,并確定期望的Subword詞表大??;2.將單詞拆分為成最小單元。比如英文中26個字母加上各種符號,這些作為初始詞表;語料詞表high</t>:3次oldest</t>:6次newest</t>:3次h,i,g,o,l,d,e,s,t,n,w,</t></t>是插入到每個單詞后的終止符,用于區(qū)分單詞邊界o
詞元劃分:
l
常見的方法:Byte-PairEncoding(BPE)、WordPiece、UnigramLanguageModel(ULM)l
基本流程:1.構(gòu)建詞表2.基于詞表進(jìn)行分詞
訓(xùn)練數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)預(yù)處理1.文本數(shù)據(jù)預(yù)處理低質(zhì)去除冗余去除隱私去除
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 冬休安全應(yīng)急預(yù)案范文(5篇)
- 童裝市場趨勢洞察-洞察分析
- 連接器-材料知識培訓(xùn)課件
- 關(guān)于節(jié)約糧食國旗下講話稿(17篇)
- 六年級《各具特色的民居》課件
- 汽車設(shè)計-課程設(shè)計-離合器設(shè)計
- 辦公空間設(shè)計中的天文元素運(yùn)用
- 農(nóng)業(yè)科技成果轉(zhuǎn)化的新機(jī)遇與挑戰(zhàn)
- 健康生活家庭健身器材全解析
- 企業(yè)內(nèi)部如何進(jìn)行創(chuàng)新成果的評估與保護(hù)
- 2024秋國開《管理學(xué)基礎(chǔ)》形考任務(wù)(1234)試題及答案
- 叉車安全管理
- 考試安全保密培訓(xùn)
- 江蘇省揚(yáng)州市2023-2024學(xué)年高一上學(xué)期期末考試物理試題(含答案)
- 2024年時事政治題庫附參考答案(綜合題)
- 數(shù)字化年終述職報告
- 消防車換季保養(yǎng)計劃
- 股東會表決票-文書模板
- 肉牛育肥基地建設(shè)項目可行性研究報告書
- 電力土建安全質(zhì)量培訓(xùn)
- 2022-2023學(xué)年山東省濟(jì)南市高一上學(xué)期期末考試化學(xué)試題(解析版)
評論
0/150
提交評論