人工智能導論-第四課自然語言處理_第1頁
人工智能導論-第四課自然語言處理_第2頁
人工智能導論-第四課自然語言處理_第3頁
人工智能導論-第四課自然語言處理_第4頁
人工智能導論-第四課自然語言處理_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1卷積神經網絡網絡結構前饋網絡2卷積神經網絡三個核心局部感受域每個隱層節(jié)點(神經元)只連接到圖像某個足夠小局部的像素點上3卷積神經網絡三個核心局部感受域每個隱層節(jié)點只連接到圖像某個足夠小局部的像素點上權值共享同一個卷積核內,所有的神經元的權值是相同的4卷積神經網絡三個核心局部感受域每個隱層節(jié)點只連接到圖像某個足夠小局部的像素點上權值共享同一個卷積核內,所有的神經元的權值是相同的池化卷積神經網絡沒有必要對原圖像做處理,可以使用池化“壓縮”方法5卷積神經網絡卷積過程舉個栗子6卷積神經網絡卷積網絡訓練過程以船的識別為例輸入圖像=船,目標矢量=[0,0,1,0]1.使用隨機值設置參數(shù)/權重,初始化濾波器2.接收訓練圖像作為輸入,前向傳播計算各類的輸出概率3.計算輸出層總誤差4.使用反向傳播算法,計算網絡權重誤差梯度,使用梯度下降算法更新濾波器值/權重以及參數(shù)值,使輸出誤差最小化5.對訓練數(shù)據重復步驟1~47卷積神經網絡卷積網絡訓練過程反向傳播過程從高層到底層,逐層進行分析多層感知器層使用多層感知器的參數(shù)估計方法,得到最低一個隱層S的殘差向量δs將殘差傳播到光柵化層

R,光柵化的時候并沒有對向量的值做修改,因此其激活函數(shù)為恒等函數(shù),其導數(shù)為單位向量。8卷積神經網絡卷積網絡訓練過程反向傳播過程從高層到底層,逐層進行分析光柵化層從上一層傳過來的殘差為重新整理成為一系列矩陣即可,若上一層Q有q個池化核,則傳播到池化層的殘差為9卷積神經網絡卷積網絡訓練過程反向傳播過程從高層到底層,逐層進行分析池化層應池化過程中常用的兩種池化方案,反傳殘差的時候也有兩種上采樣方案最大池化:將1個點的殘差直接拷貝到4個點。均值池化:將1個點的殘差平均到4個點。傳播到卷積層的殘差為10卷積神經網絡卷積網絡訓練過程反向傳播過程從高層到底層,逐層進行分析卷積層卷積層有參數(shù),所以卷積層的反傳過程需要更新權值,并反傳殘差。先考慮權值更新,考慮卷積層某個“神經中樞”中的第一個神經元多層感知器的梯度公式11卷積神經網絡卷積網絡訓練過程反向傳播過程從高層到底層,逐層進行分析卷積層僅考慮對θ11的偏導數(shù)對卷積層P中的某個“神經中樞”p,權值更新公式為12卷積神經網絡卷積網絡訓練過程反向傳播過程從高層到底層,逐層進行分析卷積層考慮殘差反傳考慮淡藍色像素點影響到的神經元如果前邊的池化層Q′的某個特征圖q′連接到這個卷積層P中的某“神經中樞”集合C,那么傳播到q′的殘差為13卷積神經網絡卷積圖像應用同一化核(Identity)邊緣檢測核(EdgeDetection)圖像銳化核(SharpnessFilter)均值模糊(BoxBlur/Averaging)14傳統(tǒng)神經網絡不考慮歷史數(shù)據歷史可以幫助我們推測未來,不可輕易拋棄。15遞歸(循環(huán))神經網絡(RNN)“書讀百遍,其義自見”研究表示,在大腦皮層中局部回路的基本連接可以通過一系列的互聯(lián)規(guī)則所捕獲,而且這些規(guī)則在大腦皮層中處于不斷循環(huán)之中。模擬人腦利用歷史信息來做決策兩種不同神經網絡的縮寫。時間遞歸神經網絡(recurrentneuralnetwork)結構遞歸神經網絡(recursiveneuralnetwork)RNN由Hopfield網絡啟發(fā)變種而來,最早被應用于NLP,是深度學習的三大模型之一16遞歸(循環(huán))神經網絡(RNN)網絡表現(xiàn)形式有循環(huán)結構,使得過去輸出的信息作為記憶而被保留下來,并可應用于當前輸出的計算中。RNN的同一隱層之間的節(jié)點是有連接的。17遞歸(循環(huán))神經網絡(RNN)ElmanRNN網絡結構和符號形式化定義18遞歸(循環(huán))神經網絡(RNN)RNN網絡訓練算法時間反向傳播(BackPropagationThroughTime,簡稱BPTT)問題建模確定隱層和輸出層的輸出函數(shù)假設隱層用激活函數(shù)sigmoid,在任意第t時間步,隱層的輸出s(t)可表示為:在第t時間步的輸出層o(t)可表示為:RNN網絡訓練算法問題建模對于分類模型,輸出層還要利用softmax激活函數(shù)做歸一化處理,將一個m維的向量壓縮為一個m維的實數(shù)向量,最終輸出形式為:優(yōu)化目標函數(shù)構建損失函數(shù),設法求損失函數(shù)最小值,形成優(yōu)化目標函數(shù)J(θ)19遞歸(循環(huán))神經網絡(RNN)RNN網絡訓練算法參數(shù)求解和傳統(tǒng)BP反向傳播算法一樣,BPTT算法的核心也是求解參數(shù)的導數(shù)利用隨機梯度下降等優(yōu)化策略,來指導網絡參數(shù)的更新RNN常采用的激活函數(shù)是sigmoid,其導數(shù)值域鎖定在[0,1/4]范圍,隨著傳遞時間步數(shù)的不斷增加,梯度會呈現(xiàn)指數(shù)級遞減趨勢20遞歸(循環(huán))神經網絡(RNN)RNN網絡問題原始RNN隱層中的神經元只有一個狀態(tài),記為h,它對短期輸入非常敏感“天空中飛來一只__”“我在中國北京長大,我兄弟5人,我哥叫牛A,我還有三個弟弟分別叫牛C、牛D和牛F,我排名老二,因此大家都叫我牛B,我們都能說一口流利的__”。21遞歸(循環(huán))神經網絡(RNN)核心本質通過引入巧妙的可控自循環(huán),以產生讓梯度能夠得以長時間可持續(xù)流動的路徑。網絡結構在原有神經元的基礎上再增加一個狀態(tài),即c,讓它“合理地”保存長期的狀態(tài)。新增加的狀態(tài)c,稱為記憶單元態(tài)(cellstate),亦稱為“記憶塊(memoryblock)”,用以取代傳統(tǒng)的隱含神經元節(jié)點。它負責把記憶信息從序列的初始位置,傳遞到序列的末端。22長短記憶網絡(LSTM)長期狀態(tài)c控制機制設計3把控制門開關(gate)打造一個可控記憶神經元23長短記憶網絡(LSTM)前向計算“門開關”實際上是一個全連接網絡層,它的輸入是一個復雜的矩陣向量,輸出是一個0到1之間的實數(shù)向量。LSTM通過調控某些全連接層網絡參數(shù),來達到調控輸出的目的。如果輸出可控,那么“門”的開和關就可以模擬出來。假設W是門的權重向量,b為偏置向量,“門”可表示為:24長短記憶網絡(LSTM)前向計算遺忘門目的在于控制從前面的記憶中,丟棄多少信息,或者說要繼承過往多大程度的記憶??赏ㄟ^如下公式的激活函數(shù)來實現(xiàn)遺忘門前一隱層的輸出st?1

與當前的輸入xt的線性組合,然后利用激活函數(shù),將其輸出值壓縮到0到1的區(qū)間之內。當輸出值越靠近1,表明記憶體(cellblock)保留的信息就越多;反之,越靠近0,表明保留的就越少。25長短記憶網絡(LSTM)前向計算輸入門目的在于決定了當前時刻的輸入信息xt,以多大程度添加至記憶信息流中??赏ㄟ^如下公式的激活函數(shù)來實現(xiàn)26長短記憶網絡(LSTM)前向計算候選門目的在于計算當前輸入的單元狀態(tài)??赏ㄟ^如下所示的激活函數(shù)來實現(xiàn)。27長短記憶網絡(LSTM)前向計算記憶更新通過遺忘門過濾掉不想保留得部分記憶,大小可記為:ft×Ct?1添加當前新增的信息,添加的比例由輸入門控制,大小可記為:it×C′t然后將這兩個部分線性組合,得到更新后的記憶信息Ct28長短記憶網絡(LSTM)前向計算輸出門作用在于控制有多少記憶可以用于下一層網絡的更新中??赏ㄟ^如下公式的激活函數(shù)來實現(xiàn)此外,用激活函數(shù)tanh把記憶值變換一下,將其變換為-1至+1之間的數(shù)。負值區(qū)間表示不但不能輸出,還得壓制一點,正數(shù)區(qū)間表示合理的輸出。最終輸出門的公式為29長短記憶網絡(LSTM)LSTM訓練反向傳播算法前向計算每個神經元的輸出值確定優(yōu)化目標函數(shù)根據損失函數(shù)的梯度指引,更新網絡權值參數(shù)30長短記憶網絡(LSTM)自然語言處理32自然語言處理詞的表示計算機表示詞的意思通常使用語義詞典,包含有上位詞(is-a)關系和同義詞集33自然語言處理詞的表示語義詞典存在的問題可能在一些細微之處有缺失,例如這些同義詞準確嗎:adept,expert,good,practiced,proficient,skillful?會錯過一些新詞,幾乎不可能做到及時更新:wicked,badass,nifty,crack,ace,wizard,genius,ninjia有一定的主觀傾向需要大量的人力物力很難用來計算兩個詞語的相似度34自然語言處理詞向量one-hotrepresentation最簡單的詞向量方式舉個栗子“話筒”表示為[000

1

000000000000…]

“麥克”表示為[00000000

1

0000000…]無法對詞向量做比較,任意兩個詞之間都是孤立的35自然語言處理詞向量使用上下文來表示單詞使用共現(xiàn)矩陣(Cooccurrencematrix)一個基于窗口的共現(xiàn)矩陣例子窗口長度是1(一般是5-10)語料樣例Ilikedeeplearning.IlikeNLP.Ienjoyflying36自然語言處理詞向量共現(xiàn)矩陣存在的問題規(guī)模隨著語料庫詞匯的增加而增加非常高的維度,需要大量的存儲分類模型會遇到稀疏問題模型不夠健壯解決方案:低維向量將最重要的信息存儲在固定的,低維度的向量里:密集向量(densevector)SVD(奇異值分解)直接學習低維度的詞向量37自然語言處理詞向量SVD(奇異值分解)38自然語言處理詞向量有趣的語義模式39自然語言處理詞向量Distributedrepresentation直接學習低維度的詞向量通過訓練將某種語言中的每一個詞映射成一個固定長度的短向量(當然這里的“短”是相對于one-hotrepresentation的“長”而言的),將所有這些向量放在一起形成一個詞向量空間,而每一向量則可視為該空間中的一個點,在這個空間上引入“距離”,則可以根據詞之間的距離來判斷它們之間的(詞法、語義上的)相似性了。Word2vec與一般的共現(xiàn)計數(shù)不同,主要預測單詞周邊的單詞預測一個窗口長度為c的窗口內每個單詞的周邊單詞概率目標函數(shù):對于一個中心詞,最大化周邊任意單詞的log概率40自然語言處理詞向量Distributedrepresentationword2vec中存在的線性關系可以很好的對詞語相似度進行編碼,在嵌入空間里相似度的維度可以用向量的減法來進行類別測試41自然語言處理語言模型“其實就是看一句話是不是正常人說出來的”語言模型形式化的描述就是給定一個字符串,看它是自然語言的概率P(w1,w2,…,wt),w1

到wt

依次表示這句話中的各個詞。P(w1,w2,…,wt)=P(w1)×P(w2|w1)×P(w3|w1,w2)×…×P(wt|w1,w2,…,wt?1)常用的語言模型都是在近似地求P(wt|w1,w2,…,wt?1),比如n-gram模型就是用P(wt|wt?n+1,…,wt?1)近似表示前者。42自然語言處理訓練語言模型經典之作Bengio等人在2001年發(fā)表在NIPS上的文章《ANeuralProbabilisticLanguageModel》用三層神經網絡構建語言模型,同樣也是n-gram模型43自然語言處理詞向量評價詞向量的評價大體上可以分成兩種方式第一種是把詞向量融入現(xiàn)有系統(tǒng)中,看對系統(tǒng)性能的提升;第二種是直接從語言學的角度對詞向量進行分析,如相似度、語義偏移等提升現(xiàn)有系統(tǒng)直接用于神經網絡模型的輸入層將訓練好的詞向量作為輸入,用前饋網絡和卷積網絡完成了詞性標注、語義角色標注等一系列任務將詞向量作為輸入,用遞歸神經網絡完成了句法分析、情感分析等多項任務。作為輔助特征擴充現(xiàn)有模型將詞向量作為額外的特征來進一步提高命名實體識別和短語識別的效果44DL+NLP應用文本分類CNN網絡(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論