版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1第10章循環(huán)神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制10.1文本表示與詞嵌入模型210.1文本表示與詞嵌入模型
10.1.1文本表示基本方法One-hot向量:容易構(gòu)建稀疏N-gram輕量級淺層文本處理3文本詞頻矩陣與TF-IDF變換詞袋表示,又稱計(jì)數(shù)向量表示。直觀地,就是將所有單詞放入一個袋子中,只考慮單詞出現(xiàn)的頻率,不考慮單詞出現(xiàn)的順序。文檔詞頻矩陣由每個文檔中單詞(標(biāo)記)出現(xiàn)的次數(shù)所構(gòu)成的矩陣410.1.2NNLM模型當(dāng)使用神經(jīng)網(wǎng)絡(luò)來處理語言時,如果使用基于局部表示的向量來作為網(wǎng)絡(luò)的輸入,那么輸入層的維數(shù)非常大,會導(dǎo)致網(wǎng)絡(luò)參數(shù)也非常多。為了避免這個問題,我們可以將高維的局部表示向量空間R映射到一個非常低維的空間。特別地,對于詞的分布式表示(即低維稠密向量表示),我們經(jīng)常叫做詞嵌入56710.1.3Word2vec模型Word2Vec是一個著名的表示詞嵌入的模型,它利用上下文的單詞來訓(xùn)練詞嵌入。Word2Vec實(shí)際上由兩種模型組成:連續(xù)詞袋模型(CBOW)和跳字模型(Skip-gram)。8CBOW模型連續(xù)詞袋模型是用訓(xùn)練窗口中的上下文詞來預(yù)測中心詞,簡單來說,它試圖填補(bǔ)空白,以確定哪個詞更適合給定的上下文詞。連續(xù)詞袋模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如下:輸入層:輸入為一組上下文詞的獨(dú)熱向量的拼接隱藏層(投影層):將上下文詞的獨(dú)熱向量與投影矩陣相乘,得到維度為d的詞嵌入,并將投影得到的結(jié)果求和。輸出層:將維度為d的隱藏層作為輸入,與參數(shù)矩陣相乘,得到形狀為
的向量,這個向量經(jīng)過softmax處理后,得到當(dāng)前上下文對中心詞的預(yù)測。910Skip-gram模型跳字模型嘗試從中心詞預(yù)測上下文詞(與連續(xù)詞袋模型相反)。跳字模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如下:輸入層:輸入為一個中心詞的獨(dú)熱向量。隱藏層(投影層):將中心詞的獨(dú)熱向量與投影矩陣相乘,得到維度為d的詞嵌入。輸出層:將維度為d的隱藏層作為輸入,與參數(shù)矩陣相乘,得到形狀為的向量,這個向量經(jīng)過softmax處理后,得到當(dāng)前中心詞對上下文的預(yù)測。111210.1.4Glove模型Glove模型通過學(xué)習(xí)單詞的局部信息和全局信息,彌補(bǔ)了Word2Vec的缺點(diǎn)。符號定義:13公式推導(dǎo):差值處理點(diǎn)積運(yùn)算14指數(shù)變換對稱性考慮15損失函數(shù):161710.2循環(huán)神經(jīng)網(wǎng)絡(luò)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)特點(diǎn):層級結(jié)構(gòu)通常為每層神經(jīng)元與下一層神經(jīng)元全連接,同層的神經(jīng)元之間不存在連接。所有的觀測值都是相互獨(dú)立地進(jìn)行處理。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的面臨的問題:
(1)輸入和輸出具備明顯的順序特征。(時序數(shù)據(jù)) (2)Input和output的長度不同(輸入和輸出長度不固定的數(shù)據(jù)) (3)不能共享從文本不同位置所學(xué)習(xí)到的特征為解決這些問題,循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)應(yīng)運(yùn)而生。它添加了時間記憶功能,是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的簡單變體,但這一改變極大地推動了自然語言處理、語音識別等領(lǐng)域的發(fā)展。
1810.2.1研究問題與基本結(jié)構(gòu)循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN):是一類用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。RNN的每個輸入之間具有記憶性,模型根據(jù)過去的信息構(gòu)建,并隨著新信息的進(jìn)入而不斷更新。神經(jīng)元不但可以接受其它神經(jīng)元的信息,也可以接受自身的信息,形成具有環(huán)路的網(wǎng)絡(luò)結(jié)構(gòu)。循環(huán)神經(jīng)網(wǎng)絡(luò)這種漸進(jìn)式迭代,在語音識別、自然語言處理、機(jī)器翻譯等領(lǐng)域發(fā)揮重要作用。19循環(huán)神經(jīng)網(wǎng)絡(luò)示意圖20公式表達(dá)21
10.2.2隨時間反向傳播算法22232425梯度爆炸與梯度消失26對于梯度爆炸,可以通過權(quán)重衰減或者梯度截斷來避免。對于梯度消失問題,更有效的方式是改變模型。10.2.3長短期記憶網(wǎng)LSTM27引入門控機(jī)制來控制信息的積累速度以及加入新的信息,并有選擇的遺忘之前累積的信息。282910.2.4其他RNN網(wǎng)絡(luò)30門控循環(huán)單元GRU:將輸入門和遺忘門合并成一個更新門,控制當(dāng)前狀態(tài)需要從歷史狀態(tài)中保留多少信息,以及從候選狀態(tài)中接受多少新信息3132深層循環(huán)神經(jīng)網(wǎng)絡(luò)如果將深度定義為網(wǎng)絡(luò)中信息傳遞路徑長度的話,循環(huán)神經(jīng)網(wǎng)絡(luò)可以看作是既“深”又“淺”的網(wǎng)絡(luò)。一方面來說,如果我們把循環(huán)網(wǎng)絡(luò)按時間展開,長時間間隔的狀態(tài)之間的路徑很長,循環(huán)網(wǎng)絡(luò)可以看作是一個非常深的網(wǎng)絡(luò)了。從另一方面來說,如果同一時刻網(wǎng)絡(luò)輸入到輸出之間的路徑xt→yt,這個網(wǎng)絡(luò)是非常淺的。因此,我們可以增加循環(huán)神經(jīng)網(wǎng)絡(luò)的深度從而增強(qiáng)循環(huán)神經(jīng)網(wǎng)絡(luò)的能力。增加循環(huán)神經(jīng)網(wǎng)絡(luò)的深度主要是增加同一時刻網(wǎng)絡(luò)輸入到輸出之間的路徑xt→
yt,比如增加隱狀態(tài)到輸出ht→yt,以及輸入到隱狀態(tài)xt→ht之間的路徑的深度。33堆疊循環(huán)神經(jīng)網(wǎng)絡(luò)一種常見的做法是將多個循環(huán)網(wǎng)絡(luò)堆疊起來,稱為堆疊循環(huán)神經(jīng)網(wǎng)絡(luò)(StackedRecurrentNeuralNetwork,SRNN)。34雙向循環(huán)神經(jīng)網(wǎng)絡(luò)在有些任務(wù)中,一個時刻的輸出不但和過去時刻的信息有關(guān),也和后續(xù)時刻的信息有關(guān)。比如給定一個句子,其中一個詞的詞性由它的上下文決定,即包含左右兩邊的信息。因此,在這些任務(wù)中,我們可以增加一個按照時間的逆序來傳遞信息的網(wǎng)絡(luò)層,來增強(qiáng)網(wǎng)絡(luò)的能力。第1層按時間順序,第2層按時間逆序。3510.3注意力機(jī)制
10.3.1注意力機(jī)制基本介紹認(rèn)知神經(jīng)學(xué)中的注意力:關(guān)注一些信息的同時忽略另一些信息的選擇能力兩種形式自上而下、有意識:聚焦式(雞尾酒會,聽見朋友說話)自下而上、無意識:顯著性(聽見有人喊自己的名字)36最大匯聚、門控:顯著性注意力注意力分布:
(1)X:輸入信息 (2)與任務(wù)相關(guān)的表示:查詢向量q (3)注意力變量z
(4)選擇第i個輸入向量的概率注意力機(jī)制:(1)軟注意力:加權(quán)平均(2)硬性注意力(3)鍵值對注意力(4)多頭注意力(5)自注意力機(jī)制:忽略了位置信息,需要加入
37計(jì)算注意力分布38注意力打分函數(shù):加權(quán)平均(軟性注意力機(jī)制):39鍵值對注意力機(jī)制40自注意力機(jī)制如果要建立輸入序列之間的長距離依賴關(guān)系,可以使用以下兩種方法:一種方法是增加網(wǎng)絡(luò)的層數(shù),通過一個深層網(wǎng)絡(luò)來獲取遠(yuǎn)距離的信息交互;另一種方法是使用全連接網(wǎng)絡(luò),全連接網(wǎng)絡(luò)是一種非常直接的建模遠(yuǎn)距離依賴的模型,但是無法處理變長的輸入序列.不同的輸入長度,其連接權(quán)重的大小也是不同的。自注意力也稱為內(nèi)部注意力(Intra
Attention),這時我們就可以利用注意力機(jī)制來“動態(tài)”地生成不同連接的權(quán)重,這就是自注意力模型(Self-AttentionModel).41多頭注意力機(jī)制多頭注意力(Multi-HeadAttention)是利用多個查詢??=[??1,?,????],來并行地從輸入信息中選取多組信息.每個注意力關(guān)注輸入信息的不同部分.
4210.3.2Transformer模型及其拓展較早的機(jī)器翻譯模型多使用基于循環(huán)神經(jīng)網(wǎng)絡(luò)的序列到序列的模型,缺點(diǎn)是當(dāng)序列很長時,由于循環(huán)神經(jīng)網(wǎng)絡(luò)的長期依賴問題,容易丟失輸入序列信息。Transformer模型引入了自注意力機(jī)制,它允許模型在處理每個位置的輸入時,動態(tài)地關(guān)注輸入序列的不同部分,從而更好地捕捉長距離依賴關(guān)系。Transformer模型是一個基于多頭自注意力的序列到序列模型,其整個網(wǎng)絡(luò)結(jié)構(gòu)可以分為編碼器和解碼器兩部分:43序列編碼4445解碼器4647拓展BERT使用Transformer模型架構(gòu)的編碼器部分。模型包括兩部分:預(yù)訓(xùn)練(pre-training)階段和微調(diào)(fine-tuning)階段。BERT在預(yù)訓(xùn)練階段學(xué)到的通用語言表示可以在各種下游任務(wù)中進(jìn)行微調(diào),例如文本分類、命名實(shí)體識別、問答等BERT的出現(xiàn)對自然語言處理領(lǐng)域產(chǎn)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 名人傳讀后感(匯編15篇)
- 酒店前臺個人工作總結(jié)-(14篇)
- 學(xué)校安全工作會議演講稿(6篇)
- 小學(xué)奧數(shù)行程問題經(jīng)典
- 現(xiàn)代Web開發(fā)與應(yīng)用課件 第四章-Web開發(fā)模式與框架
- 成都房屋租賃合同
- 汽車出租代駕合同
- 八年級語文下冊第三單元10小石潭記第2課時教案新人教版
- 六年級英語上冊Unit1HowcanIgetthere第五課時教案人教PEP版
- 2024年規(guī)范版工程項(xiàng)目安全保證金協(xié)議例本一
- 項(xiàng)目經(jīng)理部考核評分表
- 貼面 貼面修復(fù)
- 2023年高二學(xué)業(yè)水平測試生物模擬考試試題
- 力士樂-mtx micro簡明安裝調(diào)試手冊v4updated
- GB/T 6807-2001鋼鐵工件涂裝前磷化處理技術(shù)條件
- GB/T 15109-1994白酒工業(yè)術(shù)語
- 膜片鉗常見問題匯總(人人都會膜片鉗)
- 校車安全逃生技能培訓(xùn)學(xué)習(xí)
- (新版)電網(wǎng)規(guī)劃專業(yè)知識考試題庫(含答案)
- 學(xué)校心理危機(jī)干預(yù)流程圖
- 杏醬生產(chǎn)工藝
評論
0/150
提交評論