版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
詞語表示方法簡介*詞語表示方法簡介*1MenuOne-Hot表示方法PPMI矩陣表示基于SVD的表示方法基于神經(jīng)網(wǎng)絡(luò)的表示方法*MenuOne-Hot表示方法*2One-Hot表示方法
NLP中最直觀,也是到目前為止最常用的詞表示方法是One-hotRepresentation,這種方法把每個(gè)詞表示為一個(gè)很長的向量。這個(gè)向量的維度是詞表大小,其中絕大多數(shù)元素為0,只有一個(gè)維度的值為1(或者出現(xiàn)的次數(shù)),這個(gè)維度就代表了當(dāng)前的詞?!霸捦病北硎緸閇0001
000000000000…]
“麥克”表示為[000000001
0000000…]*One-Hot表示方法
NLP中最直觀,也是到目前為止最3One-Hot表示方法
這種One-hotRepresentation如果采用稀疏方式存儲,會是非常的簡潔:也就是給每個(gè)詞分配一個(gè)數(shù)字ID。比如剛才的例子中,話筒記為3,麥克記為8(假設(shè)從0開始記)。存在問題詞義鴻溝維度災(zāi)難*One-Hot表示方法
這種One-hotRepres4PPMI矩陣表示
詞語表示的向量長度等同于term表的長度對于單詞的表示,統(tǒng)計(jì)所有詞語與該詞語作為上下文時(shí)出現(xiàn)的次數(shù)如要得到cat的單詞向量我們就統(tǒng)計(jì)cat和其他所有單詞在局部上下文中的共現(xiàn)情況假設(shè)cat和plays在語料中共現(xiàn)1000次plays對應(yīng)的維度是55那么cat單詞向量的第55維就是1000。*PPMI矩陣表示
詞語表示的向量長度等同于term表的長度*5PPMI矩陣表示是一種和one-hot表示方法類似的稀疏表示方法能夠?qū)τ诠铂F(xiàn)關(guān)系進(jìn)行表示同樣存在維度爆炸的問題(英文單詞有限,目前算力可以支持,跨語言時(shí)會出現(xiàn)維度爆炸問題)*PPMI矩陣表示是一種和one-hot表示方法類似的稀疏表示6LSA/LSILSA(latentsemanticanalysis)潛在語義分析,也被稱為LSI(latentsemanticindex)主要對詞語-文檔矩陣進(jìn)行SVD,對一個(gè)t*d維的矩陣(單詞-文檔矩陣)X可以分解為U*D*Vt其中U為t*m維矩陣U中的每一列稱為左奇異向量(leftsingularbector)D為m*m維對角矩陣,每個(gè)值稱為奇異值(singularvalue)Vt為d*m維矩陣,每一列稱為右奇異向量。*LSA/LSILSA(latentsemanticana7LSA/LSI*LSA/LSI*8LSA/LSI優(yōu)點(diǎn)1)低維空間表示可以刻畫同義詞,同義詞會對應(yīng)著相同或相似的主題。2)降維可去除部分噪聲,是特征更魯棒。3)充分利用冗余數(shù)據(jù)。4)無監(jiān)督/完全自動化。5)與語言無關(guān)。*LSA/LSI優(yōu)點(diǎn)*9LSA/LSI缺點(diǎn)1)LSA可以處理向量空間模型無法解決的一義多詞(synonymy)問題,但不能解決一詞多義(polysemy)問題。因?yàn)長SA將每一個(gè)詞映射為潛在語義空間中的一個(gè)點(diǎn),也就是說一個(gè)詞的多個(gè)意思在空間中對于的是同一個(gè)點(diǎn),并沒有被區(qū)分。2)特征向量的方向沒有對應(yīng)的物理解釋。3)SVD的計(jì)算復(fù)雜度很高,而且當(dāng)有新的文檔來到時(shí),若要更新模型需重新訓(xùn)練。4)沒有刻畫term出現(xiàn)次數(shù)的概率模型。*LSA/LSI缺點(diǎn)*10共現(xiàn)矩陣分解類似于LSA/LSI,我們還可以對PPMI矩陣進(jìn)行分解,使用SVD分解設(shè)term表大小為n,則矩陣為n*n大小的方陣然后使用SVD進(jìn)行分解,分解為U*D*Vt然后使用U陣作為詞語表示的信息*共現(xiàn)矩陣分解類似于LSA/LSI,我們還可以對PPMI矩陣進(jìn)11共現(xiàn)矩陣分解特點(diǎn)對于詞語的共現(xiàn)頻率有良好的支持訓(xùn)練出的結(jié)果在近義詞數(shù)據(jù)集上效果好(ws353等)*共現(xiàn)矩陣分解特點(diǎn)*12Word2vecWord2vec是Mikolov提出的詞語表示模型主要包含兩個(gè)模型:CBOWSkip-gram兩個(gè)框架:HierarchicalSoftmax(HS)NegativeSampling(NS)*Word2vecWord2vec是Mikolov提出的詞語表13Word2vec
NerualNetworkLanguageModel(NNLM)*Word2vec
NerualNetworkLangua14Word2vec
NerualNetworkLanguageModel(NNLM)三層神經(jīng)網(wǎng)絡(luò)架構(gòu)輸入層投影層輸出層輸入單詞使用one-hot編碼輸入層是單詞數(shù)*詞向量大小的矩陣,保存詞向量投影層是將輸入的映射后的向量用tanh激活輸出層使用softmax函數(shù)訓(xùn)練目標(biāo):最大化下面的函數(shù)*Word2vec
NerualNetworkLangua15Word2vec*Word2vec*16Word2vec模型與NNRM非常類似,也是輸入層,投影層和輸出層三層CBOW模型主要用當(dāng)前詞的上下文預(yù)測當(dāng)前詞Skip-gram模型主要用當(dāng)前詞來預(yù)測上下文所以CBOW目標(biāo)函數(shù)為Skip-gram目標(biāo)函數(shù)為*Word2vec模型與NNRM非常類似,也是輸入層,投影層和17Word2vec
CBOW*Word2vec
CBOW*18Word2vec
CBOW輸入層包含上下文中n個(gè)相關(guān)詞的詞向量,如我們選定n為2,則上下文長度為2,則會包含上文2個(gè)詞和下文2個(gè)詞的詞向量投影層將輸入的2n個(gè)詞向量做累加,即輸出層輸出一顆二叉樹,以語料中出現(xiàn)過的詞作為葉子節(jié)點(diǎn),以詞語在語料中出現(xiàn)的次數(shù)作為權(quán)值構(gòu)造出的Huffman樹,葉子節(jié)點(diǎn)數(shù)N為term表的長度,非葉子節(jié)點(diǎn)為N-1個(gè)針對NNLM中隱藏層到輸出層的計(jì)算以及softmax計(jì)算等計(jì)算復(fù)雜度比較高的地方進(jìn)行針對性的優(yōu)化,并引入了Huffman樹,為HierachicalSoftmax技術(shù)奠定基礎(chǔ)*Word2vec
CBOW輸入層*19Word2vec
HierachicalSoftmaxHS是word2vec中用于提高性能的關(guān)鍵技術(shù)我們假設(shè)詞典D中的詞w使得Pw:從根結(jié)點(diǎn)出發(fā)到達(dá)w對應(yīng)葉子節(jié)點(diǎn)的路徑Lw:路徑Pw中包含結(jié)點(diǎn)的個(gè)數(shù)P1w,P2w,…,Plww:路徑Pw中的Lw個(gè)結(jié)點(diǎn),其中P1w表示根結(jié)點(diǎn),Plww表示詞w對應(yīng)的結(jié)點(diǎn)D1w,D2w,…,Dlww:詞w的Huffman編碼,由Lw-1位編碼組成,Djw表示路徑Pw中第j個(gè)結(jié)點(diǎn)對應(yīng)的編碼θ1w,θ2w,…,θlw-1w:路徑Pw中非葉子節(jié)點(diǎn)對應(yīng)的向量,θjw表示路徑Pw中第j個(gè)非結(jié)點(diǎn)對應(yīng)的向量*Word2vec
HierachicalSoftmaxHS20Word2vec
HierachicalSoftmaxW=‘足球’的時(shí)候圖中紅色的邊構(gòu)成路徑Pw該路徑長度為5,則Lw=5P1w,P2w,P3w,P4w,P5w為路徑Pw上五個(gè)結(jié)點(diǎn)D2w,D3w,D4w,D5w分別為1,0,0,1θ1w,θ2w,θ3w,θ4w分別表示路徑Pw上4個(gè)非葉子結(jié)點(diǎn)對應(yīng)的向量*Word2vec
HierachicalSoftmaxW=21Word2vec
HierachicalSoftmax以’足球’為例,路徑每經(jīng)過一個(gè)結(jié)點(diǎn)都可以看成一個(gè)二分類,在word2vec中,編碼為1的結(jié)點(diǎn)為負(fù)類,編碼為0的結(jié)點(diǎn)為正類。根據(jù)邏輯回歸,我們可以發(fā)現(xiàn)每個(gè)結(jié)點(diǎn)被分為正類概率為被分為負(fù)類的概率為*Word2vec
HierachicalSoftmax以’22Word2vec
HierachicalSoftmax在例子中,單詞經(jīng)過了4次二分類,概率分別為:基于以上的概率,我們可以表示目標(biāo)詞的概率如下*Word2vec
HierachicalSoftmax在例23Word2vec
HierachicalSoftmax對于詞典D中的任意詞w,Huffman樹中必存在一條從根結(jié)點(diǎn)到詞w的對應(yīng)結(jié)點(diǎn)路徑,路徑上的每一個(gè)分支都可以看做是一個(gè)二分類,將這些概率乘起來就是我們需要的目標(biāo)詞概率寫成條件式為寫成整體表達(dá)式為*Word2vec
HierachicalSoftmax對于24Word2vec
HierachicalSoftmax基于神經(jīng)網(wǎng)絡(luò)語言模型目標(biāo)函數(shù)通常選用對數(shù)似然函數(shù)將概率計(jì)算式帶入對數(shù)似然函數(shù)可得*Word2vec
HierachicalSoftmax基于25Word2vec
HierachicalSoftmax對于目標(biāo)函數(shù)的最大化方式,word2vec采用了隨機(jī)梯度上升法我們可以把目標(biāo)函數(shù)的雙重求和符號表示為可得由上式可知,該函數(shù)包含的參數(shù)包括向量和關(guān)于的梯度計(jì)算如下*Word2vec
HierachicalSoftmax對于26Word2vec
HierachicalSoftmax對于的更新公式可以寫為,n表示學(xué)習(xí)率同理,關(guān)于的梯度,由于目標(biāo)函數(shù)中,兩個(gè)變量是對稱的,所以其梯度可以表示為由于表示的是上下文詞向量的累加,我們通過下式對詞向量進(jìn)行更新*Word2vec
HierachicalSoftmax對于27Word2vec
Skip-gram*Word2vec
Skip-gram*28Word2vec
Skip-gram輸入層只包含當(dāng)前樣本的中心詞投影層恒等投影,主要方便與CBOW模型對比輸出層與CBOW一樣,輸出一顆二叉樹*Word2vec
Skip-gram輸入層*29Word2vec
Skip-gram參考CBOW,我們可以構(gòu)造條件概率為使用HS的思想,可以將p(u|w)寫為然后可以使用類似于CBOW模型中的似然函數(shù)處理方法進(jìn)行處理*Word2vec
Skip-gram參考CBOW,我們可以構(gòu)30Word2vec
HierachicalSoftmax把上式代回對數(shù)似然函數(shù)可得類似的,將三重求和符號簡寫,可以表示為*Word2vec
HierachicalSoftmax把上31Word2vec
HierachicalSoftmax類似于CBOW模型,我們可以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年廣東省深圳市中考英語試題含解析
- 長春版小學(xué)心理健康教育四年級(下)教案
- 期中提優(yōu)卷(無答案) 2024-2025學(xué)年人教版(2024)英語七年級上冊
- 2024至2030年中國控油潔面奶數(shù)據(jù)監(jiān)測研究報(bào)告
- 2024至2030年中國帶座軸承用潤滑脂行業(yè)投資前景及策略咨詢研究報(bào)告
- 2024至2030年中國室內(nèi)繡花拖鞋數(shù)據(jù)監(jiān)測研究報(bào)告
- 2024至2030年中國口咽通氣管數(shù)據(jù)監(jiān)測研究報(bào)告
- 2024至2030年中國單刃電動茶樹修剪機(jī)數(shù)據(jù)監(jiān)測研究報(bào)告
- 產(chǎn)品英語術(shù)語培訓(xùn)
- 2024至2030年中國2,2-二甲基聯(lián)苯胺鹽酸鹽行業(yè)投資前景及策略咨詢研究報(bào)告
- 初中英語-Unit 6 An old man tried to move the mountains.Section A 3a教學(xué)設(shè)計(jì)學(xué)情分析教材分析課后反思
- 文學(xué)理論第七章文學(xué)接受
- 白蟻常識課件
- 大衛(wèi)科波菲爾簡介
- 國家開放大學(xué)《財(cái)務(wù)報(bào)表分析》章節(jié)測試參考答案
- 臨床護(hù)理實(shí)踐指南(2011版)
- 奧維地圖手機(jī)APP用戶手冊
- XX站排水溝技術(shù)交底
- 氨合成塔檢驗(yàn)方案
- 大學(xué)生心理健康教育智慧樹知到答案章節(jié)測試2023年湖南中醫(yī)藥大學(xué)
- 版本二:風(fēng)險(xiǎn)分級管控告知卡
評論
0/150
提交評論