深度學(xué)習(xí)基礎(chǔ)-循環(huán)神經(jīng)網(wǎng)絡(luò)_第1頁(yè)
深度學(xué)習(xí)基礎(chǔ)-循環(huán)神經(jīng)網(wǎng)絡(luò)_第2頁(yè)
深度學(xué)習(xí)基礎(chǔ)-循環(huán)神經(jīng)網(wǎng)絡(luò)_第3頁(yè)
深度學(xué)習(xí)基礎(chǔ)-循環(huán)神經(jīng)網(wǎng)絡(luò)_第4頁(yè)
深度學(xué)習(xí)基礎(chǔ)-循環(huán)神經(jīng)網(wǎng)絡(luò)_第5頁(yè)
已閱讀5頁(yè),還剩54頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

機(jī)器學(xué)習(xí)深度學(xué)習(xí)—循環(huán)神經(jīng)網(wǎng)絡(luò)復(fù)旦大學(xué)趙衛(wèi)東章節(jié)介紹深度學(xué)習(xí)是一種利用復(fù)雜結(jié)構(gòu)的多個(gè)處理層來(lái)實(shí)現(xiàn)對(duì)數(shù)據(jù)進(jìn)行高層次抽象的算法,是機(jī)器學(xué)習(xí)的一個(gè)重要分支。傳統(tǒng)的BP算法僅有幾層網(wǎng)絡(luò),需要手工指定特征且易出現(xiàn)局部最優(yōu)問(wèn)題,而深度學(xué)習(xí)引入了概率生成模型,可自動(dòng)地從訓(xùn)練集提取特征,解決了手工特征考慮不周的問(wèn)題,而且初始化了神經(jīng)網(wǎng)絡(luò)權(quán)重,采用反向傳播算法進(jìn)行訓(xùn)練,與BP算法相比取得了很好的效果。本章主要介紹了深度學(xué)習(xí)相關(guān)的概念和主流框架,重點(diǎn)介紹卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)以及常見(jiàn)應(yīng)用。復(fù)旦大學(xué)趙衛(wèi)東循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)是一種對(duì)序列數(shù)據(jù)建模的神經(jīng)網(wǎng)絡(luò)。RNN不同于前向神經(jīng)網(wǎng)絡(luò),它的層內(nèi)、層與層之間的信息可以雙向傳遞,更高效地存儲(chǔ)信息,利用更復(fù)雜的方法來(lái)更新規(guī)則,通常用于處理信息序列的任務(wù)。RNN在自然語(yǔ)言處理、圖像識(shí)別、語(yǔ)音識(shí)別、上下文的預(yù)測(cè)、在線(xiàn)交易預(yù)測(cè)、實(shí)時(shí)翻譯等領(lǐng)域得到了大量的應(yīng)用。復(fù)旦大學(xué)趙衛(wèi)東《全世界就在那里》(外二首)○小冰河水上滑過(guò)一對(duì)對(duì)盾牌和長(zhǎng)矛她不再相信這是人們的天堂眼看著太陽(yáng)落了下去這時(shí)候不必再有愛(ài)的詩(shī)句全世界就在那里早已拉下了離別的帷幕生命的顏色你雙頰上的道理是人們的愛(ài)情撒向天空的一個(gè)星變幻出生命的顏色我跟著人們跳躍的心太陽(yáng)也不必再為我遲疑

記錄著生命的憑證像飛在天空沒(méi)有羈絆的云冰雪后的水那霜雪鋪展出的道路是你的聲音啊雪花中的一點(diǎn)顏色是開(kāi)啟我生命的象征我的心兒像冰雪后的水一滴一滴翻到最后給我生命的上帝把它吹到縹緲的長(zhǎng)空機(jī)器人寫(xiě)詩(shī)歌《機(jī)智過(guò)人》機(jī)心造化本無(wú)私,智略功夫巧笑時(shí)。過(guò)客不須頻眺望,人間天上有新詩(shī)?!獧C(jī)器人“九歌”復(fù)旦大學(xué)趙衛(wèi)東圖像加標(biāo)題復(fù)旦大學(xué)趙衛(wèi)東議程RNN基本原理RNN主要用來(lái)處理序列數(shù)據(jù),在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型中,是從輸入層到隱含層再到輸出層,每層內(nèi)的節(jié)點(diǎn)之間無(wú)連接,循環(huán)神經(jīng)網(wǎng)絡(luò)中一個(gè)當(dāng)前神經(jīng)元的輸出與前面的輸出也有關(guān),網(wǎng)絡(luò)會(huì)對(duì)前面的信息進(jìn)行記憶并應(yīng)用于當(dāng)前神經(jīng)元的計(jì)算中,隱藏層之間的節(jié)點(diǎn)是有連接的,并且隱藏層的輸入不僅包含輸入層的輸出還包含上一時(shí)刻隱藏層的輸出。理論上,RNN可以對(duì)任意長(zhǎng)度的序列數(shù)據(jù)進(jìn)行處理。復(fù)旦大學(xué)趙衛(wèi)東議程RNN基本原理一個(gè)典型的RNN網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。復(fù)旦大學(xué)趙衛(wèi)東議程RNN基本原理

復(fù)旦大學(xué)趙衛(wèi)東議程RNN基本原理

與CNN一樣,RNN也是參數(shù)共享,在時(shí)間維度上,共享權(quán)重參數(shù)U、V和W復(fù)旦大學(xué)趙衛(wèi)東議程RNN基本結(jié)構(gòu)復(fù)旦大學(xué)趙衛(wèi)東議程RNN的運(yùn)行過(guò)程復(fù)旦大學(xué)趙衛(wèi)東RNN示例復(fù)旦大學(xué)趙衛(wèi)東RNN的運(yùn)行示例復(fù)旦大學(xué)趙衛(wèi)東RNN的訓(xùn)練在每個(gè)時(shí)間節(jié)點(diǎn)t=0,1,2,3,4神經(jīng)網(wǎng)絡(luò)的輸出都會(huì)產(chǎn)生誤差值:E0,E1,E2,E3,E4。與前饋神經(jīng)網(wǎng)絡(luò)類(lèi)似,RNN也使用反向傳播梯度下降法更新權(quán)重。復(fù)旦大學(xué)趙衛(wèi)東RNN的不足(1)RNN缺陷:長(zhǎng)期依賴(lài)(LongTermDependencies)問(wèn)題,產(chǎn)生長(zhǎng)跨度依賴(lài)(短時(shí)記憶)的問(wèn)題。梯度消失復(fù)旦大學(xué)趙衛(wèi)東RNN的不足(2)當(dāng)梯度很大時(shí),可以采用梯度截?cái)嗟姆椒?,將梯度約束在一個(gè)范圍內(nèi)。梯度爆炸復(fù)旦大學(xué)趙衛(wèi)東議程長(zhǎng)短期記憶網(wǎng)絡(luò)長(zhǎng)短期記憶網(wǎng)絡(luò)能夠?qū)W習(xí)長(zhǎng)期依賴(lài)關(guān)系,并可保留誤差,在沿時(shí)間和層進(jìn)行反向傳遞時(shí),可以將誤差保持在更加恒定的水平,讓遞歸網(wǎng)絡(luò)能夠進(jìn)行多個(gè)時(shí)間步的學(xué)習(xí),從而建立遠(yuǎn)距離因果聯(lián)系。它在許多問(wèn)題上效果非常好,現(xiàn)在被廣泛應(yīng)用。復(fù)旦大學(xué)趙衛(wèi)東(1)輸入一個(gè)輸出多個(gè),例如輸入一張圖像,輸出這個(gè)圖像的描述信息。(2)輸入是多個(gè),輸出則是一個(gè),例如輸入段話(huà),輸出這段話(huà)的情感。(3)輸入是多個(gè),輸出也是多個(gè),如機(jī)器翻譯輸入一段話(huà)輸出也是一段話(huà)(多個(gè)詞)。(4)多個(gè)輸入和輸出是同步的,例如進(jìn)行字幕標(biāo)記。RNN分類(lèi):循環(huán)神經(jīng)網(wǎng)絡(luò)的類(lèi)型RNN圖像注釋O.Vinyalsetal.Showandtell:Aneuralimagecaptiongenerator,arXiv:1411.4555v1,2014RNN實(shí)例RNN與LSTM議程長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)長(zhǎng)短期記憶網(wǎng)絡(luò)將信息存放在遞歸網(wǎng)絡(luò)正常信息流之外的門(mén)控單元中,這些單元可以存儲(chǔ)、寫(xiě)入或讀取信息,就像計(jì)算機(jī)內(nèi)存中的數(shù)據(jù)一樣。但愿通過(guò)門(mén)的開(kāi)關(guān)判定存儲(chǔ)哪些信息,何時(shí)允許讀取、寫(xiě)入或清除信息。這些門(mén)是模擬的,包含輸出范圍全部在0~1之間的Sigmoid函數(shù)的逐元素相乘操作。這些門(mén)依據(jù)接收到的信號(hào)開(kāi)關(guān),而且會(huì)用自身的權(quán)重集對(duì)信息進(jìn)行篩選,根據(jù)強(qiáng)度和輸入內(nèi)容決定是否允許信息通過(guò)。這些權(quán)重會(huì)通過(guò)遞歸網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程進(jìn)行調(diào)整。復(fù)旦大學(xué)趙衛(wèi)東長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)運(yùn)行動(dòng)畫(huà)遺忘門(mén)的Sigmoid激活函數(shù)一個(gè)新的候選值,判斷是否將其加入到元胞狀態(tài)中保留重要信息,更新?tīng)顟B(tài)忘掉不重要信息選擇重要的信息作為元胞狀態(tài)的輸出長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)遺忘門(mén)的Sigmoid激活函數(shù)一個(gè)新的候選值,判斷是否將其加入到元胞狀態(tài)中保留重要信息,更新?tīng)顟B(tài)忘掉不重要信息選擇重要的信息作為元胞狀態(tài)的輸出長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)

一般使用sigmoid函數(shù),it控制了t時(shí)刻新輸入的接受程度遺忘門(mén)的Sigmoid激活函數(shù)一個(gè)新的候選值,判斷是否將其加入到元胞狀態(tài)中保留重要信息,更新?tīng)顟B(tài)忘掉不重要信息選擇重要的信息作為元胞狀態(tài)的輸出長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)遺忘門(mén)的Sigmoid激活函數(shù)一個(gè)新的候選值,判斷是否將其加入到元胞狀態(tài)中保留重要信息,更新?tīng)顟B(tài)忘掉不重要信息選擇重要的信息作為元胞狀態(tài)的輸出長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)狀態(tài)向量Ct不會(huì)全部輸出議程長(zhǎng)短期記憶網(wǎng)絡(luò)長(zhǎng)短期記憶網(wǎng)絡(luò)的步驟如下:決定從元胞狀態(tài)中扔掉哪些信息。由叫做“遺忘門(mén)”的Sigmoid層控制。遺忘門(mén)會(huì)輸出0~1之間的數(shù),1表示保留該信息,0表示丟棄該信息通過(guò)輸入門(mén)將有用的新信息加入到元胞狀態(tài)。首先,將前一狀態(tài)和當(dāng)前狀態(tài)的輸入輸入到Sigmoid函數(shù)中濾除不重要信息。另外,通過(guò)tanh函數(shù)得到一個(gè)-1?1之間的輸出結(jié)果。這將產(chǎn)生一個(gè)新的候選值,后續(xù)將判斷是否將其加入到元胞狀態(tài)中。將上一步中Sigmoid函數(shù)和tanh函數(shù)的輸出結(jié)果相乘,并加上第一步中的輸出結(jié)果,從而實(shí)現(xiàn)保留的信息都是重要信息,此時(shí)更新?tīng)顟B(tài)即可忘掉那些不重要的信息最后,從當(dāng)前狀態(tài)中選擇重要的信息作為元胞狀態(tài)的輸出。首先,將前一隱狀態(tài)和當(dāng)前輸入值通過(guò)Sigmoid函數(shù)得到一個(gè)0?1之間的結(jié)果值。然后對(duì)第三步中輸出結(jié)果計(jì)算tanh函數(shù)的輸出值,并與得到的結(jié)果值相乘,作為當(dāng)前元胞隱狀態(tài)的輸出結(jié)果,同時(shí)也作為下一個(gè)隱狀態(tài)的輸入值復(fù)旦大學(xué)趙衛(wèi)東議程長(zhǎng)短期記憶網(wǎng)絡(luò)的訓(xùn)練過(guò)程復(fù)旦大學(xué)趙衛(wèi)東多隱層LSTM(堆疊)復(fù)旦大學(xué)趙衛(wèi)東BiLSTM復(fù)旦大學(xué)趙衛(wèi)東雙層雙向LSTM復(fù)旦大學(xué)趙衛(wèi)東BiLSTM實(shí)例議程門(mén)限循環(huán)單元門(mén)限循環(huán)單元本質(zhì)上就是一個(gè)沒(méi)有輸出門(mén)的長(zhǎng)短期記憶網(wǎng)絡(luò),因此它在每個(gè)時(shí)間步都會(huì)將記憶單元中的所有內(nèi)容寫(xiě)入整體網(wǎng)絡(luò)。GRU只有兩個(gè)門(mén):重置門(mén)和更新門(mén),將遺忘門(mén)和輸入門(mén)合并為更新門(mén),將細(xì)胞狀態(tài)

與隱藏層輸出

合并在一起。

復(fù)旦大學(xué)趙衛(wèi)東議程門(mén)限循環(huán)單元門(mén)限循環(huán)單元模型只有兩個(gè)門(mén),分別是更新門(mén)和重置門(mén),更新門(mén)是遺忘門(mén)和輸入門(mén)的結(jié)合體。將元胞狀態(tài)和隱狀態(tài)合并,更新門(mén)用于控制前一時(shí)刻的狀態(tài)信息被帶入到當(dāng)前狀態(tài)中的程度,更新門(mén)的值越大說(shuō)明前一時(shí)刻的狀態(tài)信息帶入越多。重置門(mén)用于控制忽略前一時(shí)刻的狀態(tài)信息的程度,重置門(mén)的值越小說(shuō)明忽略的越多。這個(gè)模型比長(zhǎng)短期記憶網(wǎng)絡(luò)更加簡(jiǎn)化,也變得越來(lái)越流行。復(fù)旦大學(xué)趙衛(wèi)東議程LSTM與GRU復(fù)旦大學(xué)趙衛(wèi)東指標(biāo)數(shù)據(jù):開(kāi)盤(pán)收盤(pán)最低最高成交量基于LSTM的股票預(yù)測(cè)-數(shù)據(jù)引入復(fù)旦大學(xué)趙衛(wèi)東數(shù)據(jù)預(yù)處理(歸一化)之后結(jié)果:基于LSTM的股票預(yù)測(cè)-數(shù)據(jù)預(yù)處理復(fù)旦大學(xué)趙衛(wèi)東樣本結(jié)果標(biāo)記:窗口后漲跌作為樣本標(biāo)記,即窗口后的交易結(jié)果作為預(yù)測(cè)結(jié)果模型采用MSE作為損失函數(shù),對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià)加窗(window)股票走勢(shì)轉(zhuǎn)化為回歸問(wèn)題進(jìn)行預(yù)測(cè)基于LSTM的股票預(yù)測(cè)-準(zhǔn)備樣本復(fù)旦大學(xué)趙衛(wèi)東2層GRU(n_layers=2)損失函數(shù)MSE基于LSTM的股票預(yù)測(cè)-設(shè)計(jì)LSTM網(wǎng)絡(luò)復(fù)旦大學(xué)趙衛(wèi)東訓(xùn)練epoch次數(shù):10訓(xùn)練集:1300+驗(yàn)證集:170+測(cè)試集170+基于LSTM的股票預(yù)測(cè)-預(yù)測(cè)結(jié)果復(fù)旦大學(xué)趙衛(wèi)東基于LSTM的電商秒殺業(yè)務(wù)預(yù)測(cè)復(fù)旦大學(xué)趙衛(wèi)東基于LSTM的電商秒殺業(yè)務(wù)預(yù)測(cè)(1)復(fù)旦大學(xué)趙衛(wèi)東基于LSTM的電商秒殺業(yè)務(wù)預(yù)測(cè)(2)復(fù)旦大學(xué)趙衛(wèi)東注意力機(jī)制復(fù)旦大學(xué)趙衛(wèi)東seq2seq與注意力機(jī)制模型(1)seq2seq模型最早是在2013年由cho等人提出一種RNN模型,主要的應(yīng)用目的就是機(jī)器翻譯。seq2seq模型是序列對(duì)序列的模型,

本質(zhì)上是一種多對(duì)多的RNN模型,也就是輸入序列和輸出序列不等長(zhǎng)的RNN模型。seq2seq廣泛應(yīng)用在神經(jīng)機(jī)器翻譯、文本摘要、語(yǔ)音識(shí)別、文本生成、AI寫(xiě)詩(shī)等。復(fù)旦大學(xué)趙衛(wèi)東seq2seq與注意力機(jī)制模型(2)注意力機(jī)制本質(zhì)上是一種注意力資源分配的模型。編碼器將輸入編碼成上下文變量C,在解碼時(shí)每一個(gè)輸出Y都會(huì)不加區(qū)分的使用這個(gè)C進(jìn)行解碼。注意力模型根據(jù)序列的每個(gè)時(shí)間步將編碼器編碼為不同C,在解碼時(shí),結(jié)合每個(gè)不同的C進(jìn)行解碼輸出。一段漢譯英的機(jī)器翻譯注意力模型圖解示意圖復(fù)旦大學(xué)趙衛(wèi)東ELMo語(yǔ)言模型(1)詞向量:詞的獨(dú)熱編碼:用0,1表示,無(wú)法計(jì)算詞之間的(語(yǔ)義)相似度,導(dǎo)致向量稀疏詞向量模型:大多數(shù)詞向量都是固定的,無(wú)法表示在不同語(yǔ)境下的含義(一詞多義)非LM:CBOW,Skip-gram,...基于LM:Glove,ELMO,...復(fù)旦大學(xué)趙衛(wèi)東ELMo語(yǔ)言模型(2)ELMo是一種在詞向量(vector)或詞嵌入(embedding)中表示詞匯的方法。與word2vec、GLoVe等詞嵌入不同,ELMo中每個(gè)詞對(duì)應(yīng)的向量是一個(gè)包含該詞的整個(gè)句子的函數(shù),同一個(gè)詞在不同的上下文中對(duì)應(yīng)不同的詞向量。ELMo可用于以下自然語(yǔ)言處理領(lǐng)域:情感分析機(jī)器翻譯語(yǔ)言模型文本摘要命名實(shí)體識(shí)別問(wèn)答系統(tǒng)情感分析/contest/practice-problem-twitter-sentiment-analysis//developer/article/1458629復(fù)旦大學(xué)趙衛(wèi)東ELMo語(yǔ)言模型(3)將原始詞向量輸入雙向語(yǔ)言模型中第一層前向迭代中包含了該詞及其之前的詞匯或語(yǔ)境的信息后向迭代中包含了其之后的信息這兩種迭代的信息組成了中間詞向量這些中間詞向量被輸入到模型的下一層最終ELMo是原始詞向量和兩個(gè)中間詞向量的加權(quán)和/pdf/1802.05365.pdf復(fù)旦大學(xué)趙衛(wèi)東深度學(xué)習(xí)流行框架目前深度學(xué)習(xí)領(lǐng)域主要實(shí)現(xiàn)框架有TensorFlow、Caffe、Torch、Keras、MxNet、Deeplearning4j等,針對(duì)這些框架的特點(diǎn)做對(duì)比介紹。復(fù)旦大學(xué)趙衛(wèi)東議程TorchTorch由Lua語(yǔ)言編寫(xiě),支持機(jī)器學(xué)習(xí)算法,核心是以圖層的方式定義網(wǎng)絡(luò),優(yōu)點(diǎn)是包括了大量的模塊化的組件,可以快速進(jìn)行組合,并且具有較多訓(xùn)練好的模型,可以直接應(yīng)用,支持GPU加速,模型運(yùn)算性能較強(qiáng)。缺點(diǎn)在于需要LuaJIT的支持,對(duì)于開(kāi)發(fā)者學(xué)習(xí)和應(yīng)用集成有一定的障礙,文檔方面的支持較弱,對(duì)商業(yè)支持較少,大部分時(shí)間需要自己編寫(xiě)訓(xùn)練代碼。復(fù)旦大學(xué)趙衛(wèi)東議程TensorFlowTensorFlow由Python語(yǔ)言編寫(xiě),通過(guò)C/C++引擎加速,相對(duì)應(yīng)的教程、資源、社區(qū)貢獻(xiàn)比較多,出現(xiàn)問(wèn)題容易查找解決方案。用途廣泛,支持強(qiáng)化學(xué)習(xí)和其他算法的工具,與NumPy等庫(kù)進(jìn)行組合使用可以展現(xiàn)強(qiáng)大的數(shù)據(jù)分析能力,支持?jǐn)?shù)據(jù)和模型的并行運(yùn)行,在數(shù)據(jù)展現(xiàn)方面,可以使用TensorBoard對(duì)訓(xùn)練過(guò)程和結(jié)果按WEB方式進(jìn)行可視化。復(fù)旦大學(xué)趙衛(wèi)東議程CaffeCaffe是較早出現(xiàn)的工業(yè)級(jí)深度學(xué)習(xí)工具,將Matlab實(shí)現(xiàn)的快速卷積網(wǎng)絡(luò)移植到了C和C++平臺(tái)上。不適用于文本、聲音或者時(shí)間序列數(shù)據(jù)等其他類(lèi)型的深度學(xué)習(xí)應(yīng)用,在RNN方面建模能力較差。Caffe采用P

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論