版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
詞語表示方法簡介*詞語表示方法簡介*1MenuOne-Hot表示方法PPMI矩陣表示基于SVD的表示方法基于神經網(wǎng)絡的表示方法*MenuOne-Hot表示方法*2One-Hot表示方法
NLP中最直觀,也是到目前為止最常用的詞表示方法是One-hotRepresentation,這種方法把每個詞表示為一個很長的向量。這個向量的維度是詞表大小,其中絕大多數(shù)元素為0,只有一個維度的值為1(或者出現(xiàn)的次數(shù)),這個維度就代表了當前的詞?!霸捦病北硎緸閇0001
000000000000…]
“麥克”表示為[000000001
0000000…]*One-Hot表示方法
NLP中最直觀,也是到目前為止最3One-Hot表示方法
這種One-hotRepresentation如果采用稀疏方式存儲,會是非常的簡潔:也就是給每個詞分配一個數(shù)字ID。比如剛才的例子中,話筒記為3,麥克記為8(假設從0開始記)。存在問題詞義鴻溝維度災難*One-Hot表示方法
這種One-hotRepres4PPMI矩陣表示
詞語表示的向量長度等同于term表的長度對于單詞的表示,統(tǒng)計所有詞語與該詞語作為上下文時出現(xiàn)的次數(shù)如要得到cat的單詞向量我們就統(tǒng)計cat和其他所有單詞在局部上下文中的共現(xiàn)情況假設cat和plays在語料中共現(xiàn)1000次plays對應的維度是55那么cat單詞向量的第55維就是1000。*PPMI矩陣表示
詞語表示的向量長度等同于term表的長度*5PPMI矩陣表示是一種和one-hot表示方法類似的稀疏表示方法能夠對于共現(xiàn)關系進行表示同樣存在維度爆炸的問題(英文單詞有限,目前算力可以支持,跨語言時會出現(xiàn)維度爆炸問題)*PPMI矩陣表示是一種和one-hot表示方法類似的稀疏表示6LSA/LSILSA(latentsemanticanalysis)潛在語義分析,也被稱為LSI(latentsemanticindex)主要對詞語-文檔矩陣進行SVD,對一個t*d維的矩陣(單詞-文檔矩陣)X可以分解為U*D*Vt其中U為t*m維矩陣U中的每一列稱為左奇異向量(leftsingularbector)D為m*m維對角矩陣,每個值稱為奇異值(singularvalue)Vt為d*m維矩陣,每一列稱為右奇異向量。*LSA/LSILSA(latentsemanticana7LSA/LSI*LSA/LSI*8LSA/LSI優(yōu)點1)低維空間表示可以刻畫同義詞,同義詞會對應著相同或相似的主題。2)降維可去除部分噪聲,是特征更魯棒。3)充分利用冗余數(shù)據(jù)。4)無監(jiān)督/完全自動化。5)與語言無關。*LSA/LSI優(yōu)點*9LSA/LSI缺點1)LSA可以處理向量空間模型無法解決的一義多詞(synonymy)問題,但不能解決一詞多義(polysemy)問題。因為LSA將每一個詞映射為潛在語義空間中的一個點,也就是說一個詞的多個意思在空間中對于的是同一個點,并沒有被區(qū)分。2)特征向量的方向沒有對應的物理解釋。3)SVD的計算復雜度很高,而且當有新的文檔來到時,若要更新模型需重新訓練。4)沒有刻畫term出現(xiàn)次數(shù)的概率模型。*LSA/LSI缺點*10共現(xiàn)矩陣分解類似于LSA/LSI,我們還可以對PPMI矩陣進行分解,使用SVD分解設term表大小為n,則矩陣為n*n大小的方陣然后使用SVD進行分解,分解為U*D*Vt然后使用U陣作為詞語表示的信息*共現(xiàn)矩陣分解類似于LSA/LSI,我們還可以對PPMI矩陣進11共現(xiàn)矩陣分解特點對于詞語的共現(xiàn)頻率有良好的支持訓練出的結果在近義詞數(shù)據(jù)集上效果好(ws353等)*共現(xiàn)矩陣分解特點*12Word2vecWord2vec是Mikolov提出的詞語表示模型主要包含兩個模型:CBOWSkip-gram兩個框架:HierarchicalSoftmax(HS)NegativeSampling(NS)*Word2vecWord2vec是Mikolov提出的詞語表13Word2vec
NerualNetworkLanguageModel(NNLM)*Word2vec
NerualNetworkLangua14Word2vec
NerualNetworkLanguageModel(NNLM)三層神經網(wǎng)絡架構輸入層投影層輸出層輸入單詞使用one-hot編碼輸入層是單詞數(shù)*詞向量大小的矩陣,保存詞向量投影層是將輸入的映射后的向量用tanh激活輸出層使用softmax函數(shù)訓練目標:最大化下面的函數(shù)*Word2vec
NerualNetworkLangua15Word2vec*Word2vec*16Word2vec模型與NNRM非常類似,也是輸入層,投影層和輸出層三層CBOW模型主要用當前詞的上下文預測當前詞Skip-gram模型主要用當前詞來預測上下文所以CBOW目標函數(shù)為Skip-gram目標函數(shù)為*Word2vec模型與NNRM非常類似,也是輸入層,投影層和17Word2vec
CBOW*Word2vec
CBOW*18Word2vec
CBOW輸入層包含上下文中n個相關詞的詞向量,如我們選定n為2,則上下文長度為2,則會包含上文2個詞和下文2個詞的詞向量投影層將輸入的2n個詞向量做累加,即輸出層輸出一顆二叉樹,以語料中出現(xiàn)過的詞作為葉子節(jié)點,以詞語在語料中出現(xiàn)的次數(shù)作為權值構造出的Huffman樹,葉子節(jié)點數(shù)N為term表的長度,非葉子節(jié)點為N-1個針對NNLM中隱藏層到輸出層的計算以及softmax計算等計算復雜度比較高的地方進行針對性的優(yōu)化,并引入了Huffman樹,為HierachicalSoftmax技術奠定基礎*Word2vec
CBOW輸入層*19Word2vec
HierachicalSoftmaxHS是word2vec中用于提高性能的關鍵技術我們假設詞典D中的詞w使得Pw:從根結點出發(fā)到達w對應葉子節(jié)點的路徑Lw:路徑Pw中包含結點的個數(shù)P1w,P2w,…,Plww:路徑Pw中的Lw個結點,其中P1w表示根結點,Plww表示詞w對應的結點D1w,D2w,…,Dlww:詞w的Huffman編碼,由Lw-1位編碼組成,Djw表示路徑Pw中第j個結點對應的編碼θ1w,θ2w,…,θlw-1w:路徑Pw中非葉子節(jié)點對應的向量,θjw表示路徑Pw中第j個非結點對應的向量*Word2vec
HierachicalSoftmaxHS20Word2vec
HierachicalSoftmaxW=‘足球’的時候圖中紅色的邊構成路徑Pw該路徑長度為5,則Lw=5P1w,P2w,P3w,P4w,P5w為路徑Pw上五個結點D2w,D3w,D4w,D5w分別為1,0,0,1θ1w,θ2w,θ3w,θ4w分別表示路徑Pw上4個非葉子結點對應的向量*Word2vec
HierachicalSoftmaxW=21Word2vec
HierachicalSoftmax以’足球’為例,路徑每經過一個結點都可以看成一個二分類,在word2vec中,編碼為1的結點為負類,編碼為0的結點為正類。根據(jù)邏輯回歸,我們可以發(fā)現(xiàn)每個結點被分為正類概率為被分為負類的概率為*Word2vec
HierachicalSoftmax以’22Word2vec
HierachicalSoftmax在例子中,單詞經過了4次二分類,概率分別為:基于以上的概率,我們可以表示目標詞的概率如下*Word2vec
HierachicalSoftmax在例23Word2vec
HierachicalSoftmax對于詞典D中的任意詞w,Huffman樹中必存在一條從根結點到詞w的對應結點路徑,路徑上的每一個分支都可以看做是一個二分類,將這些概率乘起來就是我們需要的目標詞概率寫成條件式為寫成整體表達式為*Word2vec
HierachicalSoftmax對于24Word2vec
HierachicalSoftmax基于神經網(wǎng)絡語言模型目標函數(shù)通常選用對數(shù)似然函數(shù)將概率計算式帶入對數(shù)似然函數(shù)可得*Word2vec
HierachicalSoftmax基于25Word2vec
HierachicalSoftmax對于目標函數(shù)的最大化方式,word2vec采用了隨機梯度上升法我們可以把目標函數(shù)的雙重求和符號表示為可得由上式可知,該函數(shù)包含的參數(shù)包括向量和關于的梯度計算如下*Word2vec
HierachicalSoftmax對于26Word2vec
HierachicalSoftmax對于的更新公式可以寫為,n表示學習率同理,關于的梯度,由于目標函數(shù)中,兩個變量是對稱的,所以其梯度可以表示為由于表示的是上下文詞向量的累加,我們通過下式對詞向量進行更新*Word2vec
HierachicalSoftmax對于27Word2vec
Skip-gram*Word2vec
Skip-gram*28Word2vec
Skip-gram輸入層只包含當前樣本的中心詞投影層恒等投影,主要方便與CBOW模型對比輸出層與CBOW一樣,輸出一顆二叉樹*Word2vec
Skip-gram輸入層*29Word2vec
Skip-gram參考CBOW,我們可以構造條件概率為使用HS的思想,可以將p(u|w)寫為然后可以使用類似于CBOW模型中的似然函數(shù)處理方法進行處理*Word2vec
Skip-gram參考CBOW,我們可以構30Word2vec
HierachicalSoftmax把上式代回對數(shù)似然函數(shù)可得類似的,將三重求和符號簡寫,可以表示為*Word2vec
HierachicalSoftmax把上31Word2vec
HierachicalSoftmax類似于CBOW模型,我們可以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 動火安全課件
- 醫(yī)院反腐倡廉廉潔行醫(yī)專題黨課宣講課件
- 《超市盤點操作流程》課件
- 贛南科技學院《現(xiàn)代企業(yè)管理學》2023-2024學年第一學期期末試卷
- 應急照明系統(tǒng)培訓課件
- 大學生安全教育(共31張課件)-2024鮮版
- 七年級語文上冊第二單元體驗親情8世說新語二則高效教案新人教版
- 2022年-2023年公務員(國考)之公共基礎知識??寄M試題
- 氣胸護理查房
- 慶元旦表演安全課件
- 事故隱患報告和舉報獎勵制度
- 腹部外傷門診病歷
- 品質異常處理及要求培訓
- 模具部年終總結--ppt課件
- 立式熱虹吸再沸器機械設計說明書
- 國家開放大學電大《生產與運作管理》2025-2026期末試題及答案
- 質量保證大綱(共14頁)
- 關于歐盟新版EMC標準EN55032的解析
- 木材材積表0.1-10米.xls
- 輕質隔墻板安裝合同協(xié)議書范本標準版
- 車輛管理各崗位績效考核量表
評論
0/150
提交評論