大模型原理與技術(shù)-課件 chap3 自然語言處理

上傳人：q*** IP屬地：山東上傳時(shí)間：2024-12-05 格式：PPTX 頁數(shù)：29 大?。?.44MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩24頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

自然語言處理計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院智周萬物?道濟(jì)天下

目錄2o

自然語言處理概述o

詞嵌入l

獨(dú)熱向量l

word2vecl

跳元模型l

連續(xù)詞袋模型o

循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）o

長短期記憶網(wǎng)絡(luò)（LSTM）o

門控循環(huán)單元（GRU）

自然語言處理概述3自然語

言處理翻譯你好你好你好hello00111101汪汪×自然語言處理使計(jì)算機(jī)能夠解讀、處理和理解人類語言，成為人類和計(jì)算機(jī)之間溝通的橋梁......新聞文章電子郵件o

自然語言理解

自然語言處理概述——基本任務(wù)4明天天氣怎么樣？“明天陰轉(zhuǎn)多云，氣溫零下六度到三度”NaturalLanguageProcessing自然語言處理o

自然語言生成自然語言理解類任務(wù)包括：詞性標(biāo)注分詞文本分類信息抽取自然語言生成類任務(wù)包括：機(jī)器翻譯問答系統(tǒng)自動(dòng)摘要語音識(shí)別人與計(jì)算機(jī)交流的第一步就是讓計(jì)算機(jī)理解人類輸入給它的信息。這類任務(wù)的研究目的是使計(jì)算機(jī)能夠理解自然語言，從自然語言中提取有用的信息輸出或用于下游任務(wù)明天天氣怎么樣？明天？天氣？計(jì)算機(jī)理解人類的輸入后，我們還希望計(jì)算機(jī)能夠生成滿足人類目的的、可以理解的自然語言形式的輸出，從而實(shí)現(xiàn)真正的交流。

自然語言處理概述——發(fā)展歷程Bengio等人提出第一個(gè)神經(jīng)語言模型。這個(gè)模型將某詞語之前出現(xiàn)的n個(gè)詞語作為輸入，預(yù)測(cè)下一個(gè)單詞輸出。模型一共三層，第一層是映射層，將n個(gè)單詞映射為對(duì)應(yīng)的詞嵌入；第二層是隱藏層；第三層是輸出層，使用softmax輸出單詞的概率分布，是一個(gè)多分類器。2013Bahdanau等人的工作使用注意力機(jī)制在機(jī)器翻譯任務(wù)上將翻譯和對(duì)齊同時(shí)進(jìn)行,是第一個(gè)將注意力機(jī)制應(yīng)用到NLP領(lǐng)域的科研工作。2017BERT、GPT20世紀(jì)50年代70年代2018年之后Mikolov等人提出了word2vec，大規(guī)模詞向量的訓(xùn)練成為可能自然語言處理領(lǐng)域神經(jīng)網(wǎng)絡(luò)時(shí)代,也逐漸開始，循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)開始被廣泛應(yīng)用到自然語言處理領(lǐng)域20世紀(jì)50年代到70年代主要采用基于規(guī)則的方法。這種方法依賴于語言學(xué)家和開發(fā)者預(yù)先定義的規(guī)則系統(tǒng)，以便解析和理解語言。70年代以后主要采用基于統(tǒng)計(jì)的方法。這種方法通常依靠大量的語言數(shù)據(jù)來學(xué)習(xí)，得到數(shù)據(jù)中詞、短語、句子的概率分布，從而實(shí)現(xiàn)對(duì)語言的處理和分析。BERT、GPT等大規(guī)模預(yù)訓(xùn)練語言模型出現(xiàn)，大模型時(shí)代逐漸到來傳統(tǒng)理論深度學(xué)習(xí)興起大模型時(shí)代20002015Transformer提出,它創(chuàng)造性地用非序列模型來處理序列化的數(shù)據(jù)，并且大獲成功。5

自然語言處理概述——應(yīng)用領(lǐng)域1.翻譯軟件4.搜索引擎3.語音助手2.聊天機(jī)器人6o

自然語言處理概述o

詞嵌入l

獨(dú)熱向量l

word2vecl

跳元模型l

連續(xù)詞袋模型o

循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）o

長短期記憶網(wǎng)絡(luò)（LSTM）o

門控循環(huán)單元（GRU）7

目錄計(jì)算機(jī)是無法直接讀懂非數(shù)值的自然語言，只有將其轉(zhuǎn)化為數(shù)值形式才能被計(jì)算機(jī)處理詞嵌入完成各種下游任務(wù)神經(jīng)網(wǎng)絡(luò)模型循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）長短期記憶網(wǎng)絡(luò)（LSTM）門控循環(huán)單元（GRU）??

詞嵌入——獨(dú)熱向量(One-hotEncoding)

文本數(shù)值？

apple

[10000]

bag

[01000]

cat

[00100]

dog

[00010]elephant

[00001]×

缺點(diǎn)：獨(dú)熱向量不能編碼詞之間的相似性特征矩陣非常稀疏，占用空間很大o

獨(dú)熱向量是指使用??位0或1對(duì)??個(gè)單詞進(jìn)行編碼，其分量和類別數(shù)一樣多，類別對(duì)應(yīng)的分量設(shè)置為1（即one-hot），其余分量設(shè)置為0。例如，編碼apple、bag、cat、dog、elephant五個(gè)單詞，用5位向量進(jìn)行編碼：

但任意兩詞之間余弦相似度為0！√優(yōu)點(diǎn)：獨(dú)熱向量容易構(gòu)建獨(dú)熱向量的維度等于詞匯表大小，在詞匯表較大時(shí)會(huì)變得非常長8最簡單的方法就是用獨(dú)熱向量表示每個(gè)單詞

詞嵌入——word2vec

攜帶上下文信息，即詞與詞之間的聯(lián)系能在詞的向量表示中體現(xiàn)。o

詞的表示是稠密的，能用更少的空間、更低的維數(shù)表示更多的信息。和獨(dú)熱向量相比，word2vec生成的詞向量具有以下優(yōu)點(diǎn)：o

訓(xùn)練時(shí)利用上下文信息，詞向量包含詞的語義信息和詞與詞之間的聯(lián)系。o

維度更少，所以占用空間更少、計(jì)算成本更低。o

通用性強(qiáng)，可用于各種下游NLP任務(wù)。訓(xùn)練word2vec的常用方法有兩種：跳元模型（Skip-Gram）和連續(xù)詞袋（ContinuousBagsofWords：CBOW）圖3.4降維后的詞向量表示，可以看到相似概念的詞是聚集在一起的9我們希望詞向量：word2vec!實(shí)現(xiàn)o

word2vec是一種詞嵌入技術(shù)，也可被看作是一個(gè)神經(jīng)網(wǎng)絡(luò)模型，其參數(shù)是詞向量，通過預(yù)測(cè)上下文來學(xué)習(xí)好的詞向量。我們希望實(shí)現(xiàn)這樣的效果：

詞嵌入——跳元模型

根據(jù)中心詞預(yù)測(cè)上下文詞

目標(biāo)函數(shù)（損失函數(shù)）

目標(biāo)是最大化該似然函數(shù)，即最小化損失函數(shù)：

如何計(jì)算？就是

softmax!

詞向量維數(shù)詞匯大小10

詞嵌入——連續(xù)詞袋模型

根據(jù)上下文詞預(yù)測(cè)中心詞

如何計(jì)算？

求和取平均

目標(biāo)函數(shù)（損失函數(shù)）

目標(biāo)是最大化該似然函數(shù)，即最小化損失函數(shù)：

詞嵌入——連續(xù)詞袋模型舉例

12the=[10000]woman=[01000]loves=[00100]her=[00010]daughter=[00001]

其中，N=5表示輸入層單詞的維數(shù)，V=3表示希望得到的詞向量維數(shù)

現(xiàn)在將

“the”輸入，即與權(quán)重矩陣相乘：“the”的詞向量同理，可以得到每個(gè)單詞的詞向量為：

使用單詞的獨(dú)熱編碼作為輸入：

詞嵌入——連續(xù)詞袋模型舉例

13將得到的4個(gè)向量相加求平均作為輸出層的輸入：

最后計(jì)算損失函數(shù)，反向傳播，更新網(wǎng)絡(luò)參數(shù)。

目錄14o

自然語言處理概述o

詞嵌入l

獨(dú)熱向量l

word2vecl

跳元模型l

連續(xù)詞袋模型o

循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）o

長短期記憶網(wǎng)絡(luò)（LSTM）o

門控循環(huán)單元（GRU）

......

循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）

有效包含當(dāng)前輸入和先前序列的信息時(shí)序的重要性！×

workinglove

learningweondeep√weloveworkingondeeplearning捕捉序列中的時(shí)序信息循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）o

循環(huán)神經(jīng)網(wǎng)絡(luò)15循環(huán)神經(jīng)網(wǎng)絡(luò)——訓(xùn)練16o

BPTT(BackPropagationThroughTime)算法

簡化表達(dá)

則可以使用交叉熵計(jì)算每個(gè)時(shí)刻的損失，則在

t=3時(shí)有損失：

假設(shè)當(dāng)前時(shí)刻的隱藏狀態(tài)和輸出為：

循環(huán)神經(jīng)網(wǎng)絡(luò)——梯度問題17o

梯度消失問題o

梯度爆炸問題o

本質(zhì)上都是因?yàn)樘荻确聪騻鞑ブ械倪B乘效應(yīng)，小于1的數(shù)連乘就會(huì)出現(xiàn)梯度下降問題，大于1的數(shù)連乘就會(huì)出現(xiàn)梯度爆炸的問題

假設(shè)當(dāng)激活函數(shù)為Tanh時(shí)，連乘部分可以表示為：

而Tanh的導(dǎo)數(shù)可以寫為：

，其值域?yàn)椋?0,1]

循環(huán)神經(jīng)網(wǎng)絡(luò)——梯度問題的緩解18

循環(huán)神經(jīng)網(wǎng)絡(luò)——雙向RNN19我______我______困，我剛起床我______困，我想趕緊睡覺很高興不非常o

短語的“下文”在填空任務(wù)中起到十分關(guān)鍵的作用，它傳達(dá)的信息關(guān)乎到選擇什么詞來填空。如果無法利用這一特性，普通的RNN模型將在相關(guān)任務(wù)上表現(xiàn)不佳。而既可以學(xué)習(xí)正向特征也可以學(xué)習(xí)反向特征的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)在解決該類任務(wù)時(shí)會(huì)有更高的擬合度。圖3.10雙向循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)

目錄o

自然語言處理概述o

詞嵌入l

獨(dú)熱向量l

word2vecl

跳元模型l

連續(xù)詞袋模型o

循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）o

長短期記憶網(wǎng)絡(luò)（LSTM）o

門控循環(huán)單元（GRU）長短期記憶網(wǎng)絡(luò)(LSTM)21普通RNNLSTMo

和普通RNN比較，LSTM主要是改變了隱藏層的結(jié)構(gòu)。o

LSTM引入了記憶元（memorycell）的概念，簡稱單元（cell），其設(shè)計(jì)目的是用于記錄附加信息。

引入了門機(jī)制對(duì)當(dāng)前的輸入信息進(jìn)行篩選，從而決定哪些信息可以傳遞到下一層o

當(dāng)訓(xùn)練深層網(wǎng)絡(luò)時(shí)，RNN面臨梯度在反向傳播過程中消失或爆炸的問題。而由于梯度消失的問題，普通RNN難以學(xué)習(xí)和記憶過去很長時(shí)間里的輸入信息，這個(gè)問題在處理長序列和復(fù)雜序列模式時(shí)變得尤為明顯。長短期記憶網(wǎng)絡(luò)的出現(xiàn)緩解了長期信息保存以及梯度問題。長短期記憶網(wǎng)絡(luò)(LSTM)221.遺忘門、輸入門和輸出門帶sigmoid激活函數(shù)的線性層

當(dāng)前時(shí)刻的輸入上一時(shí)刻的隱藏狀態(tài)長短期記憶網(wǎng)絡(luò)(LSTM)232.候選單元狀態(tài)帶Tanh激活函數(shù)的線性層

3.單元狀態(tài)更新

*按元素乘積長短期記憶網(wǎng)絡(luò)(LSTM)244.隱藏狀態(tài)更新

目錄25o

自然語言處理概述o

詞嵌入l

獨(dú)熱向量l

word2vecl

跳元模型l

連續(xù)詞袋模型o

循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）o

長短期記憶網(wǎng)絡(luò)（LSTM）o

門控循環(huán)單元（GRU）門控循環(huán)單元（GRU）26o

門控循環(huán)單元的提出同樣是為了解決反向傳播中的梯度問題以及長期記憶問題，但相比于LSTM，GRU能在提供同等效果的

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大模型原理與技術(shù)-課件 chap3 自然語言處理

文檔簡介

溫馨提示

最新文檔

評(píng)論

大模型原理與技術(shù)-課件 chap3 自然語言處理

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔