大模型原理與技術(shù)-課件 chap3 自然語言處理_第1頁
大模型原理與技術(shù)-課件 chap3 自然語言處理_第2頁
大模型原理與技術(shù)-課件 chap3 自然語言處理_第3頁
大模型原理與技術(shù)-課件 chap3 自然語言處理_第4頁
大模型原理與技術(shù)-課件 chap3 自然語言處理_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

自然語言處理計算機科學(xué)與技術(shù)學(xué)院智周萬物?道濟天下

目錄2o

自然語言處理概述o

詞嵌入l

獨熱向量l

word2vecl

跳元模型l

連續(xù)詞袋模型o

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)o

長短期記憶網(wǎng)絡(luò)(LSTM)o

門控循環(huán)單元(GRU)

自然語言處理概述3自然語

言處理翻譯你好你好你好hello00111101汪汪×自然語言處理使計算機能夠解讀、處理和理解人類語言,成為人類和計算機之間溝通的橋梁......新聞文章電子郵件o

自然語言理解

自然語言處理概述——基本任務(wù)4明天天氣怎么樣?“明天陰轉(zhuǎn)多云,氣溫零下六度到三度”NaturalLanguageProcessing自然語言處理o

自然語言生成自然語言理解類任務(wù)包括:詞性標(biāo)注分詞文本分類信息抽取自然語言生成類任務(wù)包括:機器翻譯問答系統(tǒng)自動摘要語音識別人與計算機交流的第一步就是讓計算機理解人類輸入給它的信息。這類任務(wù)的研究目的是使計算機能夠理解自然語言,從自然語言中提取有用的信息輸出或用于下游任務(wù)明天天氣怎么樣?明天?天氣?計算機理解人類的輸入后,我們還希望計算機能夠生成滿足人類目的的、可以理解的自然語言形式的輸出,從而實現(xiàn)真正的交流。

自然語言處理概述——發(fā)展歷程Bengio等人提出第一個神經(jīng)語言模型。這個模型將某詞語之前出現(xiàn)的n個詞語作為輸入,預(yù)測下一個單詞輸出。模型一共三層,第一層是映射層,將n個單詞映射為對應(yīng)的詞嵌入;第二層是隱藏層;第三層是輸出層,使用softmax輸出單詞的概率分布,是一個多分類器。2013Bahdanau等人的工作使用注意力機制在機器翻譯任務(wù)上將翻譯和對齊同時進行,是第一個將注意力機制應(yīng)用到NLP領(lǐng)域的科研工作。2017BERT、GPT20世紀50年代70年代2018年之后Mikolov等人提出了word2vec,大規(guī)模詞向量的訓(xùn)練成為可能自然語言處理領(lǐng)域神經(jīng)網(wǎng)絡(luò)時代,也逐漸開始,循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)開始被廣泛應(yīng)用到自然語言處理領(lǐng)域20世紀50年代到70年代主要采用基于規(guī)則的方法。這種方法依賴于語言學(xué)家和開發(fā)者預(yù)先定義的規(guī)則系統(tǒng),以便解析和理解語言。70年代以后主要采用基于統(tǒng)計的方法。這種方法通常依靠大量的語言數(shù)據(jù)來學(xué)習(xí),得到數(shù)據(jù)中詞、短語、句子的概率分布,從而實現(xiàn)對語言的處理和分析。BERT、GPT等大規(guī)模預(yù)訓(xùn)練語言模型出現(xiàn),大模型時代逐漸到來傳統(tǒng)理論深度學(xué)習(xí)興起大模型時代20002015Transformer提出,它創(chuàng)造性地用非序列模型來處理序列化的數(shù)據(jù),并且大獲成功。5

自然語言處理概述——應(yīng)用領(lǐng)域1.翻譯軟件4.搜索引擎3.語音助手2.聊天機器人6o

自然語言處理概述o

詞嵌入l

獨熱向量l

word2vecl

跳元模型l

連續(xù)詞袋模型o

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)o

長短期記憶網(wǎng)絡(luò)(LSTM)o

門控循環(huán)單元(GRU)7

目錄計算機是無法直接讀懂非數(shù)值的自然語言,只有將其轉(zhuǎn)化為數(shù)值形式才能被計算機處理詞嵌入完成各種下游任務(wù)神經(jīng)網(wǎng)絡(luò)模型循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)長短期記憶網(wǎng)絡(luò)(LSTM)門控循環(huán)單元(GRU)??

詞嵌入——獨熱向量(One-hotEncoding)

文本數(shù)值?

apple

=

[10000]

bag

=

[01000]

cat

=

[00100]

dog

=

[00010]elephant

=

[00001]×

缺點:獨熱向量不能編碼詞之間的相似性特征矩陣非常稀疏,占用空間很大o

獨熱向量是指使用??位0或1對??個單詞進行編碼,其分量和類別數(shù)一樣多,類別對應(yīng)的分量設(shè)置為1(即one-hot),其余分量設(shè)置為0。例如,編碼apple、bag、cat、dog、elephant五個單詞,用5位向量進行編碼:

但任意兩詞之間余弦相似度為0!√優(yōu)點:獨熱向量容易構(gòu)建獨熱向量的維度等于詞匯表大小,在詞匯表較大時會變得非常長8最簡單的方法就是用獨熱向量表示每個單詞

詞嵌入——word2vec

o

攜帶上下文信息,即詞與詞之間的聯(lián)系能在詞的向量表示中體現(xiàn)。o

詞的表示是稠密的,能用更少的空間、更低的維數(shù)表示更多的信息。和獨熱向量相比,word2vec生成的詞向量具有以下優(yōu)點:o

訓(xùn)練時利用上下文信息,詞向量包含詞的語義信息和詞與詞之間的聯(lián)系。o

維度更少,所以占用空間更少、計算成本更低。o

通用性強,可用于各種下游NLP任務(wù)。訓(xùn)練word2vec的常用方法有兩種:跳元模型(Skip-Gram)和連續(xù)詞袋(ContinuousBagsofWords:CBOW)圖3.4降維后的詞向量表示,可以看到相似概念的詞是聚集在一起的9我們希望詞向量:word2vec!實現(xiàn)o

word2vec是一種詞嵌入技術(shù),也可被看作是一個神經(jīng)網(wǎng)絡(luò)模型,其參數(shù)是詞向量,通過預(yù)測上下文來學(xué)習(xí)好的詞向量。我們希望實現(xiàn)這樣的效果:

詞嵌入——跳元模型

o

根據(jù)中心詞預(yù)測上下文詞

o

目標(biāo)函數(shù)(損失函數(shù))

目標(biāo)是最大化該似然函數(shù),即最小化損失函數(shù):

如何計算?就是

softmax!

詞向量維數(shù)詞匯大小10

詞嵌入——連續(xù)詞袋模型

o

根據(jù)上下文詞預(yù)測中心詞

如何計算?

求和取平均

o

目標(biāo)函數(shù)(損失函數(shù))

目標(biāo)是最大化該似然函數(shù),即最小化損失函數(shù):

11

詞嵌入——連續(xù)詞袋模型舉例

12the=[10000]woman=[01000]loves=[00100]her=[00010]daughter=[00001]

其中,N=5表示輸入層單詞的維數(shù),V=3表示希望得到的詞向量維數(shù)

現(xiàn)在將

“the”輸入,即與權(quán)重矩陣相乘:“the”的詞向量同理,可以得到每個單詞的詞向量為:

使用單詞的獨熱編碼作為輸入:

詞嵌入——連續(xù)詞袋模型舉例

13將得到的4個向量相加求平均作為輸出層的輸入:

最后計算損失函數(shù),反向傳播,更新網(wǎng)絡(luò)參數(shù)。

目錄14o

自然語言處理概述o

詞嵌入l

獨熱向量l

word2vecl

跳元模型l

連續(xù)詞袋模型o

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)o

長短期記憶網(wǎng)絡(luò)(LSTM)o

門控循環(huán)單元(GRU)

......

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)

有效包含當(dāng)前輸入和先前序列的信息時序的重要性!×

workinglove

learningweondeep√weloveworkingondeeplearning捕捉序列中的時序信息循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)o

循環(huán)神經(jīng)網(wǎng)絡(luò)15循環(huán)神經(jīng)網(wǎng)絡(luò)——訓(xùn)練16o

BPTT(BackPropagationThroughTime)算法

簡化表達

則可以使用交叉熵計算每個時刻的損失,則在

t=3時有損失:

假設(shè)當(dāng)前時刻的隱藏狀態(tài)和輸出為:

循環(huán)神經(jīng)網(wǎng)絡(luò)——梯度問題17o

梯度消失問題o

梯度爆炸問題o

本質(zhì)上都是因為梯度反向傳播中的連乘效應(yīng),小于1的數(shù)連乘就會出現(xiàn)梯度下降問題,大于1的數(shù)連乘就會出現(xiàn)梯度爆炸的問題

假設(shè)當(dāng)激活函數(shù)為Tanh時,連乘部分可以表示為:

而Tanh的導(dǎo)數(shù)可以寫為:

,其值域為:(0,1]

循環(huán)神經(jīng)網(wǎng)絡(luò)——梯度問題的緩解18

循環(huán)神經(jīng)網(wǎng)絡(luò)——雙向RNN19我______我______困,我剛起床我______困,我想趕緊睡覺很高興不非常o

短語的“下文”在填空任務(wù)中起到十分關(guān)鍵的作用,它傳達的信息關(guān)乎到選擇什么詞來填空。如果無法利用這一特性,普通的RNN模型將在相關(guān)任務(wù)上表現(xiàn)不佳。而既可以學(xué)習(xí)正向特征也可以學(xué)習(xí)反向特征的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)在解決該類任務(wù)時會有更高的擬合度。圖3.10雙向循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)

20

目錄o

自然語言處理概述o

詞嵌入l

獨熱向量l

word2vecl

跳元模型l

連續(xù)詞袋模型o

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)o

長短期記憶網(wǎng)絡(luò)(LSTM)o

門控循環(huán)單元(GRU)長短期記憶網(wǎng)絡(luò)(LSTM)21普通RNNLSTMo

和普通RNN比較,LSTM主要是改變了隱藏層的結(jié)構(gòu)。o

LSTM引入了記憶元(memorycell)的概念,簡稱單元(cell),其設(shè)計目的是用于記錄附加信息。

o

引入了門機制對當(dāng)前的輸入信息進行篩選,從而決定哪些信息可以傳遞到下一層o

當(dāng)訓(xùn)練深層網(wǎng)絡(luò)時,RNN面臨梯度在反向傳播過程中消失或爆炸的問題。而由于梯度消失的問題,普通RNN難以學(xué)習(xí)和記憶過去很長時間里的輸入信息,這個問題在處理長序列和復(fù)雜序列模式時變得尤為明顯。長短期記憶網(wǎng)絡(luò)的出現(xiàn)緩解了長期信息保存以及梯度問題。長短期記憶網(wǎng)絡(luò)(LSTM)221.遺忘門、輸入門和輸出門帶sigmoid激活函數(shù)的線性層

當(dāng)前時刻的輸入上一時刻的隱藏狀態(tài)長短期記憶網(wǎng)絡(luò)(LSTM)232.候選單元狀態(tài)帶Tanh激活函數(shù)的線性層

3.單元狀態(tài)更新

*按元素乘積長短期記憶網(wǎng)絡(luò)(LSTM)244.隱藏狀態(tài)更新

目錄25o

自然語言處理概述o

詞嵌入l

獨熱向量l

word2vecl

跳元模型l

連續(xù)詞袋模型o

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)o

長短期記憶網(wǎng)絡(luò)(LSTM)o

門控循環(huán)單元(GRU)門控循環(huán)單元(GRU)26o

門控循環(huán)單元的提出同樣是為了解決反向傳播中的梯度問題以及長期記憶問題,但相比于LSTM,GRU能在提供同等效果的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論