《大數(shù)據(jù)挖掘與統(tǒng)計(jì)機(jī)器學(xué)習(xí)（第3版）》課件10-RNN注意力機(jī)制1

上傳人：y*** IP屬地：山東上傳時間：2024-10-16 格式：PPTX 頁數(shù)：48 大?。?.36MB 積分：12 舉報 版權(quán)申訴

《大數(shù)據(jù)挖掘與統(tǒng)計(jì)機(jī)器學(xué)習(xí)（第3版）》課件10-RNN注意力機(jī)制1_第2頁

《大數(shù)據(jù)挖掘與統(tǒng)計(jì)機(jī)器學(xué)習(xí)（第3版）》課件10-RNN注意力機(jī)制1_第3頁

《大數(shù)據(jù)挖掘與統(tǒng)計(jì)機(jī)器學(xué)習(xí)（第3版）》課件10-RNN注意力機(jī)制1_第4頁

《大數(shù)據(jù)挖掘與統(tǒng)計(jì)機(jī)器學(xué)習(xí)（第3版）》課件10-RNN注意力機(jī)制1_第5頁

已閱讀5頁，還剩43頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1第10章循環(huán)神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制10.1文本表示與詞嵌入模型210.1文本表示與詞嵌入模型

10.1.1文本表示基本方法One-hot向量：容易構(gòu)建稀疏N-gram輕量級淺層文本處理3文本詞頻矩陣與TF-IDF變換詞袋表示,又稱計(jì)數(shù)向量表示。直觀地,就是將所有單詞放入一個袋子中,只考慮單詞出現(xiàn)的頻率,不考慮單詞出現(xiàn)的順序。文檔詞頻矩陣由每個文檔中單詞(標(biāo)記)出現(xiàn)的次數(shù)所構(gòu)成的矩陣410.1.2NNLM模型當(dāng)使用神經(jīng)網(wǎng)絡(luò)來處理語言時，如果使用基于局部表示的向量來作為網(wǎng)絡(luò)的輸入，那么輸入層的維數(shù)非常大，會導(dǎo)致網(wǎng)絡(luò)參數(shù)也非常多。為了避免這個問題，我們可以將高維的局部表示向量空間R映射到一個非常低維的空間。特別地，對于詞的分布式表示(即低維稠密向量表示)，我們經(jīng)常叫做詞嵌入56710.1.3Word2vec模型Word2Vec是一個著名的表示詞嵌入的模型，它利用上下文的單詞來訓(xùn)練詞嵌入。Word2Vec實(shí)際上由兩種模型組成:連續(xù)詞袋模型(CBOW)和跳字模型(Skip-gram)。8CBOW模型連續(xù)詞袋模型是用訓(xùn)練窗口中的上下文詞來預(yù)測中心詞,簡單來說,它試圖填補(bǔ)空白,以確定哪個詞更適合給定的上下文詞。連續(xù)詞袋模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如下:輸入層:輸入為一組上下文詞的獨(dú)熱向量的拼接隱藏層(投影層):將上下文詞的獨(dú)熱向量與投影矩陣相乘,得到維度為d的詞嵌入,并將投影得到的結(jié)果求和。輸出層:將維度為d的隱藏層作為輸入,與參數(shù)矩陣相乘,得到形狀為

的向量,這個向量經(jīng)過softmax處理后,得到當(dāng)前上下文對中心詞的預(yù)測。910Skip-gram模型跳字模型嘗試從中心詞預(yù)測上下文詞(與連續(xù)詞袋模型相反)。跳字模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如下：輸入層:輸入為一個中心詞的獨(dú)熱向量。隱藏層(投影層):將中心詞的獨(dú)熱向量與投影矩陣相乘,得到維度為d的詞嵌入。輸出層:將維度為d的隱藏層作為輸入,與參數(shù)矩陣相乘,得到形狀為的向量，這個向量經(jīng)過softmax處理后,得到當(dāng)前中心詞對上下文的預(yù)測。111210.1.4Glove模型Glove模型通過學(xué)習(xí)單詞的局部信息和全局信息,彌補(bǔ)了Word2Vec的缺點(diǎn)。符號定義：13公式推導(dǎo)：差值處理點(diǎn)積運(yùn)算14指數(shù)變換對稱性考慮15損失函數(shù)：161710.2循環(huán)神經(jīng)網(wǎng)絡(luò)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)特點(diǎn)：層級結(jié)構(gòu)通常為每層神經(jīng)元與下一層神經(jīng)元全連接，同層的神經(jīng)元之間不存在連接。所有的觀測值都是相互獨(dú)立地進(jìn)行處理。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的面臨的問題：

（1)輸入和輸出具備明顯的順序特征。（時序數(shù)據(jù)） (2)Input和output的長度不同（輸入和輸出長度不固定的數(shù)據(jù)） (3)不能共享從文本不同位置所學(xué)習(xí)到的特征為解決這些問題，循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork，RNN)應(yīng)運(yùn)而生。它添加了時間記憶功能，是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的簡單變體，但這一改變極大地推動了自然語言處理、語音識別等領(lǐng)域的發(fā)展。

1810.2.1研究問題與基本結(jié)構(gòu)循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork，RNN)：是一類用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。RNN的每個輸入之間具有記憶性，模型根據(jù)過去的信息構(gòu)建，并隨著新信息的進(jìn)入而不斷更新。神經(jīng)元不但可以接受其它神經(jīng)元的信息，也可以接受自身的信息，形成具有環(huán)路的網(wǎng)絡(luò)結(jié)構(gòu)。循環(huán)神經(jīng)網(wǎng)絡(luò)這種漸進(jìn)式迭代，在語音識別、自然語言處理、機(jī)器翻譯等領(lǐng)域發(fā)揮重要作用。19循環(huán)神經(jīng)網(wǎng)絡(luò)示意圖20公式表達(dá)21

10.2.2隨時間反向傳播算法22232425梯度爆炸與梯度消失26對于梯度爆炸，可以通過權(quán)重衰減或者梯度截斷來避免。對于梯度消失問題，更有效的方式是改變模型。10.2.3長短期記憶網(wǎng)LSTM27引入門控機(jī)制來控制信息的積累速度以及加入新的信息，并有選擇的遺忘之前累積的信息。282910.2.4其他RNN網(wǎng)絡(luò)30門控循環(huán)單元GRU：將輸入門和遺忘門合并成一個更新門，控制當(dāng)前狀態(tài)需要從歷史狀態(tài)中保留多少信息，以及從候選狀態(tài)中接受多少新信息3132深層循環(huán)神經(jīng)網(wǎng)絡(luò)如果將深度定義為網(wǎng)絡(luò)中信息傳遞路徑長度的話，循環(huán)神經(jīng)網(wǎng)絡(luò)可以看作是既“深”又“淺”的網(wǎng)絡(luò)。一方面來說，如果我們把循環(huán)網(wǎng)絡(luò)按時間展開，長時間間隔的狀態(tài)之間的路徑很長，循環(huán)網(wǎng)絡(luò)可以看作是一個非常深的網(wǎng)絡(luò)了。從另一方面來說，如果同一時刻網(wǎng)絡(luò)輸入到輸出之間的路徑xt→yt，這個網(wǎng)絡(luò)是非常淺的。因此，我們可以增加循環(huán)神經(jīng)網(wǎng)絡(luò)的深度從而增強(qiáng)循環(huán)神經(jīng)網(wǎng)絡(luò)的能力。增加循環(huán)神經(jīng)網(wǎng)絡(luò)的深度主要是增加同一時刻網(wǎng)絡(luò)輸入到輸出之間的路徑xt→

yt，比如增加隱狀態(tài)到輸出ht→yt，以及輸入到隱狀態(tài)xt→ht之間的路徑的深度。33堆疊循環(huán)神經(jīng)網(wǎng)絡(luò)一種常見的做法是將多個循環(huán)網(wǎng)絡(luò)堆疊起來，稱為堆疊循環(huán)神經(jīng)網(wǎng)絡(luò)（StackedRecurrentNeuralNetwork，SRNN）。34雙向循環(huán)神經(jīng)網(wǎng)絡(luò)在有些任務(wù)中，一個時刻的輸出不但和過去時刻的信息有關(guān)，也和后續(xù)時刻的信息有關(guān)。比如給定一個句子，其中一個詞的詞性由它的上下文決定，即包含左右兩邊的信息。因此，在這些任務(wù)中，我們可以增加一個按照時間的逆序來傳遞信息的網(wǎng)絡(luò)層，來增強(qiáng)網(wǎng)絡(luò)的能力。第1層按時間順序，第2層按時間逆序。3510.3注意力機(jī)制

10.3.1注意力機(jī)制基本介紹認(rèn)知神經(jīng)學(xué)中的注意力：關(guān)注一些信息的同時忽略另一些信息的選擇能力兩種形式自上而下、有意識：聚焦式（雞尾酒會，聽見朋友說話）自下而上、無意識：顯著性（聽見有人喊自己的名字）36最大匯聚、門控：顯著性注意力注意力分布：

（1)X:輸入信息 (2)與任務(wù)相關(guān)的表示：查詢向量q (3)注意力變量z

（4）選擇第i個輸入向量的概率注意力機(jī)制：（1）軟注意力：加權(quán)平均（2）硬性注意力（3）鍵值對注意力（4）多頭注意力（5）自注意力機(jī)制：忽略了位置信息，需要加入

37計(jì)算注意力分布38注意力打分函數(shù)：加權(quán)平均（軟性注意力機(jī)制）：39鍵值對注意力機(jī)制40自注意力機(jī)制如果要建立輸入序列之間的長距離依賴關(guān)系，可以使用以下兩種方法：一種方法是增加網(wǎng)絡(luò)的層數(shù)，通過一個深層網(wǎng)絡(luò)來獲取遠(yuǎn)距離的信息交互；另一種方法是使用全連接網(wǎng)絡(luò)，全連接網(wǎng)絡(luò)是一種非常直接的建模遠(yuǎn)距離依賴的模型，但是無法處理變長的輸入序列．不同的輸入長度，其連接權(quán)重的大小也是不同的。自注意力也稱為內(nèi)部注意力（Intra

Attention），這時我們就可以利用注意力機(jī)制來“動態(tài)”地生成不同連接的權(quán)重，這就是自注意力模型（Self-AttentionModel）．41多頭注意力機(jī)制多頭注意力（Multi-HeadAttention）是利用多個查詢??=[??1,?,????]，來并行地從輸入信息中選取多組信息．每個注意力關(guān)注輸入信息的不同部分．

4210.3.2Transformer模型及其拓展較早的機(jī)器翻譯模型多使用基于循環(huán)神經(jīng)網(wǎng)絡(luò)的序列到序列的模型,缺點(diǎn)是當(dāng)序列很長時,由于循環(huán)神經(jīng)網(wǎng)絡(luò)的長期依賴問題,容易丟失輸入序列信息。Transformer模型引入了自注意力機(jī)制,它允許模型在處理每個位置的輸入時,動態(tài)地關(guān)注輸入序列的不同部分,從而更好地捕捉長距離依賴關(guān)系。Transformer模型是一個基于多頭自注意力的序列到序列模型，其整個網(wǎng)絡(luò)結(jié)構(gòu)可以分為編碼器和解碼器兩部分：43序列編碼4445解碼器4647拓展BERT使用Transformer模型架構(gòu)的編碼器部分。模型包括兩部分:預(yù)訓(xùn)練(pre-training)階段和微調(diào)(fine-tuning)階段。BERT在預(yù)訓(xùn)練階段學(xué)到的通用語言表示可以在各種下游任務(wù)中進(jìn)行微調(diào),例如文本分類、命名實(shí)體識別、問答等BERT的出現(xiàn)對自然語言處理領(lǐng)域產(chǎn)

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《大數(shù)據(jù)挖掘與統(tǒng)計(jì)機(jī)器學(xué)習(xí)（第3版）》課件10-RNN注意力機(jī)制1

文檔簡介

溫馨提示

最新文檔

評論

《大數(shù)據(jù)挖掘與統(tǒng)計(jì)機(jī)器學(xué)習(xí)（第3版）》 課件10-RNN注意力機(jī)制1

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

《大數(shù)據(jù)挖掘與統(tǒng)計(jì)機(jī)器學(xué)習(xí)（第3版）》課件10-RNN注意力機(jī)制1