人工智能基礎(chǔ) 課件 6.1~6.10 自然語(yǔ)言處理_第1頁(yè)
人工智能基礎(chǔ) 課件 6.1~6.10 自然語(yǔ)言處理_第2頁(yè)
人工智能基礎(chǔ) 課件 6.1~6.10 自然語(yǔ)言處理_第3頁(yè)
人工智能基礎(chǔ) 課件 6.1~6.10 自然語(yǔ)言處理_第4頁(yè)
人工智能基礎(chǔ) 課件 6.1~6.10 自然語(yǔ)言處理_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

自然語(yǔ)言處理學(xué)習(xí)目標(biāo)—6.1—知識(shí)目標(biāo)了解自然語(yǔ)言處理的含義理解自然語(yǔ)言數(shù)字化的基本方法了解神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理中的作用項(xiàng)目引導(dǎo)—6.2—6.2.1問(wèn)題引導(dǎo)假設(shè)有一句話(huà):“小明和同學(xué)們經(jīng)常乘地鐵去動(dòng)物園觀看動(dòng)物,去植物園觀賞植物?!蹦憧梢匀绾螌⑦@句話(huà)轉(zhuǎn)變?yōu)閿?shù)字,以方便計(jì)算機(jī)處理呢?地圖可以將一個(gè)地名轉(zhuǎn)變?yōu)閷?duì)應(yīng)的經(jīng)緯度數(shù)字表示,我們可以用類(lèi)似方法建立一個(gè)語(yǔ)言地圖,實(shí)現(xiàn)我們?nèi)粘UZ(yǔ)言轉(zhuǎn)換為語(yǔ)言地圖上的坐標(biāo)嗎?這樣是不是就可以實(shí)現(xiàn)語(yǔ)言到數(shù)字的轉(zhuǎn)變了呢?6.2.2初步分析假設(shè)每個(gè)詞都可以在地圖上找到對(duì)應(yīng)的位置,你如何將每個(gè)詞數(shù)字化呢?這些數(shù)字化后的詞可以比較詞義關(guān)系嗎?想一想知識(shí)準(zhǔn)備—6.3—自然語(yǔ)言處理能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信,是一門(mén)融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。它包括很多的內(nèi)容,如語(yǔ)義分析、信息抽取、機(jī)器翻譯等。其主要難點(diǎn)有單詞之間的分界的確定、詞義的消歧、句法的模糊性和有瑕疵的或不規(guī)范的輸入等。6.3.1自然語(yǔ)言處理是什么一個(gè)解決方法就是詞嵌入,即將詞映射到一個(gè)向量空間,也就是將詞嵌入另一個(gè)便于計(jì)算的空間。6.3.2機(jī)器如何理解自然語(yǔ)言6.3.3一個(gè)數(shù)字代表一個(gè)詞(獨(dú)熱編碼)

設(shè)想最簡(jiǎn)單的詞嵌入表達(dá)方法,我們用自然數(shù)對(duì)應(yīng)各個(gè)詞。例如,要把英文數(shù)字化,假設(shè)從“a”到“zoom”有100個(gè)詞,如圖所示,就用1代表“a”,2代表“abbreviation”,一直到100代表“zoom”。在計(jì)算機(jī)中,為了使用方便,會(huì)將這些數(shù)字以另外一種形式存儲(chǔ)。例如,在上面的英文數(shù)字化例子中,設(shè)計(jì)一個(gè)長(zhǎng)度為100的由0或者1組成的數(shù)字串(向量),此數(shù)字串(向量)只有一個(gè)位置為1,其他99個(gè)位置全是0。若將1看作“熱”,0看作“冷”,則這個(gè)向量只有一個(gè)位置“熱”,所以叫作獨(dú)熱編碼。6.3.3一個(gè)數(shù)字代表一個(gè)詞(獨(dú)熱編碼)“a”用1表示,獨(dú)熱編碼后就是只有第一個(gè)位置為1;“abbreviation”用2表示,獨(dú)熱編碼后就是第2個(gè)位置為1;“zoom”用100表示,獨(dú)熱編碼后就是第100個(gè)位置為1。6.3.3一個(gè)數(shù)字代表一個(gè)詞(獨(dú)熱編碼)此模型可以分辨詞與詞之間的關(guān)系嗎?想一想設(shè)想有一個(gè)小動(dòng)物園,有三種動(dòng)物:獅子、老虎、斑馬,如果采用獨(dú)熱編碼,這三種動(dòng)物就可以分別編碼為(0,0,1),(0,1,0)和(1,0,0)這樣的向量。這三個(gè)向量如果放在一個(gè)三維空間中,就是如圖所示的樣子。

6.3.3一個(gè)數(shù)字代表一個(gè)詞(獨(dú)熱編碼)憑我們對(duì)動(dòng)物的了解,獅子和老虎都是食肉動(dòng)物,關(guān)系應(yīng)該比跟斑馬要近吧,但是從圖中,我們看不出誰(shuí)跟誰(shuí)關(guān)系更近。這說(shuō)明目前的獨(dú)熱編碼無(wú)法解決詞義關(guān)聯(lián)的問(wèn)題,我們需要某種方法,能告訴我們一個(gè)詞和另一個(gè)詞的關(guān)系有多遠(yuǎn)或者多近。6.3.3一個(gè)數(shù)字代表一個(gè)詞(獨(dú)熱編碼)6.3.4詞袋模型要解決詞與詞之間的關(guān)系問(wèn)題并不是很容易,如果只比較一段文本和另一段文本的關(guān)系呢?人們想出了另外一個(gè)簡(jiǎn)單的方法,詞袋(BagofWords,BoW)模型。深入分析—6.4—神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(NeuralNetworkLanguageModel,NNLM)它可以采用Word2Vec等詞嵌入方法,很好地捕獲每個(gè)詞的意義。這些方法相對(duì)之前的方法很好地表達(dá)了自然語(yǔ)言。6.4.1神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型雖然Word2Vec等方法看起來(lái)十分優(yōu)秀,但是在實(shí)際工作中并沒(méi)有表現(xiàn)得十分出色。這是為什么呢?主要就是一詞多義的問(wèn)題。6.4.2一詞多義如圖沿著這個(gè)思路,我們可以得到ELMo,即EmbeddingfromLanguageModels。ELMo可以在實(shí)際使用中根據(jù)上下文動(dòng)態(tài)調(diào)整詞的向量表示(即語(yǔ)義)。6.4.2一詞多義ELMo使用LSTM提取特征,那么什么是提取特征?LSTM又是什么呢?語(yǔ)言數(shù)字化為向量之后怎么用呢?所有向量作為特征輸入某個(gè)模型嗎?特征提取就像在圖像識(shí)別中,我們很難將成千上萬(wàn)的向量輸入模型中直接運(yùn)算,而是想要提取出特征,然后將這些特征作為后面模型的輸入。RNN特征提取ConvolutionalNeuralNetworks,CNN特征提取每一個(gè)輸出不僅與當(dāng)前輸入有關(guān),還和前面的輸出有關(guān)。長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM一種特殊的RNN網(wǎng)絡(luò),長(zhǎng)短期記憶網(wǎng)絡(luò)(LongShortTermMemorynetworks,LSTM)不僅僅能記住附近有什么詞,還能夠記住較遠(yuǎn)的詞,但是長(zhǎng)句不理想,并行計(jì)算也不好Transformer它是谷歌在2017年做機(jī)器翻譯任務(wù)的“Attentionisallyouneed”論文中提出的。其中使用了Attention,即注意力機(jī)制。這就解決了LSTM的處理長(zhǎng)句方面不太理想和并行計(jì)算能力有限這兩個(gè)問(wèn)題。2018年出現(xiàn)的BERT(BidirectionalEncoderRepresentationsfromTransformers)即在ELMo和Transformer基礎(chǔ)上,進(jìn)一步提高了自然語(yǔ)言處理(NLP)在各個(gè)任務(wù)中的表現(xiàn)。本章小結(jié)—6.5—本章介紹了不使用神經(jīng)網(wǎng)絡(luò)的傳統(tǒng)的方法進(jìn)行自然語(yǔ)言處理。重點(diǎn)是理解自然語(yǔ)言處理的數(shù)字化方法,了解神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的意義。通過(guò)使用“橙現(xiàn)智能”軟件,讀者可以完成語(yǔ)句的分詞等基本任務(wù),并理解在分詞基礎(chǔ)上可以進(jìn)行更深入的分

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論