版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
深度學(xué)習(xí)與自然語言處理Python自然語言處理第十章CONTENT目錄
01詞嵌入算法03循環(huán)神經(jīng)網(wǎng)絡(luò)02訓(xùn)練詞向量實(shí)踐04Seq2Seq模型實(shí)戰(zhàn)課前回顧常見機(jī)器學(xué)習(xí)方法無監(jiān)督學(xué)習(xí)的文本分類文本分類實(shí)戰(zhàn)文本聚類實(shí)戰(zhàn)深度學(xué)習(xí)概述深度學(xué)習(xí)(DeepLearning)方法基于人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork)自動學(xué)習(xí)合適的特征與多層次的表達(dá)與輸出
應(yīng)用于信息抽取、詞性標(biāo)注、搜索引擎和推薦系統(tǒng)等方面使用詞向量來表示各個(gè)級別的元素本章概述
深度學(xué)習(xí)算法:詞嵌入
循環(huán)神經(jīng)網(wǎng)絡(luò)模型
Seq2Seq實(shí)例詞嵌入算法01詞向量Word2vec簡介詞向量模型CBOW和Skip-gram模型詞嵌入算法
詞嵌入算法:一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)據(jù)模型依靠系統(tǒng)復(fù)雜程度和調(diào)節(jié)內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的其核心為上下文表達(dá)和上下文與目標(biāo)詞匯之間的映射關(guān)系詞向量
詞向量(WordEmbedding)離散表示(One-Hot):把每個(gè)詞表示為一個(gè)長向量。這個(gè)向量的維度是詞表大小,向量中只有一個(gè)維度的值為1,其余維度為0例:蘋果[0,0,0,1,0,0,0,0,0,……]缺點(diǎn):無法捕獲詞與詞之間的相似性詞向量
分布式表示:將每個(gè)詞映射到K維實(shí)數(shù)向量,并根據(jù)詞之間的距離,作為判斷它們之間的語義相似度的標(biāo)準(zhǔn)word2vec模型優(yōu)點(diǎn):詞之間存在相似關(guān)系詞嵌入算法01詞向量Word2vec簡介詞向量模型CBOW和Skip-gram模型word2vec簡介
word2vec:用于訓(xùn)練詞向量的工具神經(jīng)網(wǎng)絡(luò)語言模型(NeuralNetworkLanguageModel,簡稱NNLM)算法:產(chǎn)生詞向量的相關(guān)模型NNLM模型架構(gòu)word2vec簡介
word2vec模型01連續(xù)詞袋模型(ContinuousBag-Of-Words,簡稱CBOW)02Skip-Gramword2vec簡介
詞袋模型將所有詞語裝進(jìn)一個(gè)袋子里,不考慮其詞法和語序的問題例:JanewantstogotoShenzhen.Bob
wantstogotoShanghai.[Jane,wants,to,go,Shenzhen,Bob,Shanghai][1,1,2,1,1,0,0][0,1,2,1,0,1,1]word2vec簡介語料選取語料必須充分:詞量足夠大,盡可能多地包含反映詞語之間關(guān)系的句子語料必須準(zhǔn)確:能夠正確反映該語言的語義和語法關(guān)系word2vec簡介
Skip-gram模型可以跳過某些符號例:“中國足球踢得真是太爛了”提取4個(gè)3元詞組為“中國足球踢得”、“足球踢得真是”、“踢得真是太爛”、“真是太爛了”Skip-gram可以組成“中國足球太爛”word2vec簡介
word2vec模型可以將文本內(nèi)容的處理簡化為K維向量空間中的向量運(yùn)算,并且向量空間中的相似度也可以用來表達(dá)文本的語義相似度word2vec可用于聚類、找同義詞、詞性分析等任務(wù)word2vec簡介
詞向量的評價(jià)方式:1將詞向量集成到系統(tǒng)中以提高整個(gè)系統(tǒng)的準(zhǔn)確性2從語言學(xué)的角度分析詞向量,例如句子相似度分析,語義偏移等詞嵌入算法01詞向量Word2vec簡介詞向量模型CBOW和Skip-gram模型詞向量模型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):詞向量模型算法流程:①②③對于每個(gè)詞,隨機(jī)初始化一個(gè)特征向量;設(shè)計(jì)神經(jīng)網(wǎng)絡(luò);通過數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)以獲得合理的特征向量和神經(jīng)網(wǎng)絡(luò)參數(shù)。詞向量模型
詞向量模型
詞向量模型
詞向量模型
詞向量模型
詞向量模型詞嵌入算法01詞向量Word2vec簡介詞向量模型CBOW和Skip-gram模型CBOW和Skip-gram模型
CBOW(ContinuousBag-Of-WordsModel)和Skip-gram模型:CBOW和Skip-gram模型
CBOW計(jì)算流程:(1)隨機(jī)生成所有單詞的詞向量矩陣,每一行對應(yīng)一個(gè)單詞的向量;(2)從矩陣中提取某一個(gè)單詞(中心詞)的周邊單詞詞向量;(3)求周邊單詞詞向量的均值向量;(4)在該均值向量上用logisticregression訓(xùn)練,激活函數(shù)用softmax;(5)期望回歸得到的概率向量能與真實(shí)的概率向
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 定金罰則法律風(fēng)險(xiǎn)
- 誠實(shí)保證字萬能保證書
- 招標(biāo)文件條款的全面解讀與實(shí)踐
- 招標(biāo)文件商務(wù)評分的操作流程
- 正規(guī)訂餐服務(wù)合同樣本
- 非受雇關(guān)系非固定員工聲明書
- 技術(shù)支持服務(wù)合同樣本
- 招標(biāo)房屋租賃信息
- 招標(biāo)信息格式技巧
- 招標(biāo)文件疑問全解析
- 一年級數(shù)學(xué)個(gè)位數(shù)加減法口算練習(xí)題大全(連加法-連減法-連加減法直接打印版)
- 軟件UI設(shè)計(jì)師招聘筆試題與參考答案(某世界500強(qiáng)集團(tuán))2024年
- 五年級上冊數(shù)學(xué)試題試卷(8篇)
- 中國慢性腎臟病早期評價(jià)與管理指南課件
- 2024-2025學(xué)年四年級科學(xué)上冊第三單元《運(yùn)動和力》測試卷(教科版)
- 安全漏洞挖掘技術(shù)
- 賽碼網(wǎng)行測題題庫2024
- 中國血液透析用血管通路專家共識(全文)
- 10S507 建筑小區(qū)埋地塑料給水管道施工
- DL∕T 5028.4-2015 電力工程制圖標(biāo)準(zhǔn) 第4部分:土建部分
- 2024年北京電子科技職業(yè)學(xué)院高職單招筆試歷年職業(yè)技能測驗(yàn)典型例題與考點(diǎn)解析含答案
評論
0/150
提交評論