




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
深度學(xué)習(xí)之循環(huán)神經(jīng)網(wǎng)絡(luò)1目錄1:深度學(xué)習(xí)發(fā)展史2:從神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí)3:循環(huán)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)4:自然語言處理基礎(chǔ)(擴(kuò)充知識)21:深度學(xué)習(xí)發(fā)展史3深度學(xué)習(xí)發(fā)展史SVMBoostingDecisiontreeKNN…NeuralnetworkBackpropagation19862006DeepbeliefnetScienceSpeech20112012ComputervisionNLPSpeech……2014GeoffreyHinton1949Learningmodelofneurons1958PerceptronHebbRosenblattGeoffreyHintonDBNCNNRBMRNN…機(jī)器學(xué)習(xí)第一次浪潮:機(jī)器學(xué)習(xí)第二次浪潮淺層學(xué)習(xí)模型(ShallowLearning)深度學(xué)習(xí)模型(DeepLearning)FirstWinterofNNSecondWinterofNN4深度學(xué)習(xí)(多層神經(jīng)網(wǎng)絡(luò))神經(jīng)網(wǎng)絡(luò)神經(jīng)元5synapsedendriteCellbodySynapticterminalsAxon軸突末梢突觸樹突細(xì)胞體軸突w1x1xnΣ線性動(dòng)態(tài)系統(tǒng)激勵(lì)函數(shù)own神經(jīng)元是構(gòu)成神經(jīng)網(wǎng)絡(luò)的最基本單元(構(gòu)件),因此,首要任務(wù)是構(gòu)造人工神經(jīng)元模型。細(xì)胞體Cellbody樹突dendrite突觸synapse軸突Axon來自其它神經(jīng)元神經(jīng)元模型6yθyaxox2x1xnw1w2wn???w1x1xnΣ激勵(lì)函數(shù)o=f(net)wnnet
=WTX
典型的激勵(lì)函數(shù)(ActivationFunction):線性函數(shù),非線性斜面函數(shù),階躍函數(shù),S型函數(shù)等。神經(jīng)元模型7InputLayerHiddenLayerOutputLayerx1xMh1hLo1oNw11wm1wM1wmLwMLw1Lv11vl1vL1vLN神經(jīng)網(wǎng)絡(luò)一般形式?
Nonlinearity非線性
?ParallelProcessing并行處理?Input—OutputMapping輸入輸出匹配
?Adaptivity自適應(yīng)性ocx2x1xnw1w2wn???8最簡單的神經(jīng)網(wǎng)絡(luò):Perceptrons9SingleLayerPerceptronsybx2x1xMw1w2wM???Rosenblatt,1957u>0u<010兩類樣本:白色和黑色
分類錯(cuò)誤的樣本用紅色輪廓目標(biāo):分類正確所有樣本,直到?jīng)]有紅色輪廓的樣本。W=[1.661.11]b=[1.25]W=[1.541.28]b=[-0.64]W=[1.161.63]b=[-1.8]W=[1.661.11]b=[-0.823]W=[1.49-1.39]b=[-0.743]SingleLayerPerceptrons:迭代過程where?11SingleLayerPerceptrons:局限性Theobjectiveisonlytofindthelinethatseparatestwolinearlyseparableclasses.Assoonasthefirstsolutionweightsvector,whichseparatesallthedatapairscorretly,isfound,therewillbenofurtherchangesofthevector.So,theperceptronlearningisnotanoptimizationmethod.線性可分問題Problems:itcannotseparatepatternswhenthereisanoverlappingofdataorwhenclassesarenotlinearlySeparable不能處理線性不可分問題x10011x20101d0110異或問題:120001AND1011OR1010XORx1x2y000100010111x1x2y000101011111x1x2y000101011110LinearSeparableProblem131010XORSingleLayerPerceptronsForXORproblem:1.introducingoneadditionalneuroninaspecialway;2.usingdifferentiableactivationfunction;?
一個(gè)單級網(wǎng)絡(luò)可以將平面劃分成兩部分,用多個(gè)單級網(wǎng)組合在一起,
就可以構(gòu)成一個(gè)兩級網(wǎng),該網(wǎng)絡(luò)可以被用來在平面上劃分出一個(gè)封閉
或者開放的凸域來;?
采用特殊的激勵(lì)函數(shù)。142:從神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí)15神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)網(wǎng)絡(luò)相似之處:不同之處:模擬人腦的分層網(wǎng)絡(luò)結(jié)構(gòu);強(qiáng)調(diào)深度的重要性;突出特征學(xué)習(xí)的重要性;(逐層抽象)訓(xùn)練機(jī)制;16深度學(xué)習(xí)思想起源:人腦視覺機(jī)理后腦皮層的不同視覺神經(jīng)元,與瞳孔所受刺激之間,存在某種對應(yīng)關(guān)系。17人的視覺系統(tǒng)的信息處理是分級的;高層的特征是低層特征的組合,從低層到高層的特征表示越來越抽象,越來越能表現(xiàn)語義或者意圖;抽象層面越高,存在的可能猜測就越少,就越利于分類;如何用計(jì)算機(jī)模擬?深度學(xué)習(xí)起源:人腦視覺機(jī)理18為什么需要深度?深層網(wǎng)絡(luò)具有刻畫復(fù)雜函數(shù)的能力19常見深度學(xué)習(xí)網(wǎng)絡(luò)一覽20深度學(xué)習(xí)網(wǎng)絡(luò)按是否有監(jiān)督分類:213:循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)22遞歸神經(jīng)網(wǎng)絡(luò)模型23遞歸神經(jīng)網(wǎng)絡(luò)吸收了HMM模型的有限序列關(guān)聯(lián)的思想。神經(jīng)網(wǎng)絡(luò)的隱藏層結(jié)構(gòu)能夠更好的表達(dá)有限的觀察值背后的復(fù)雜分布。遞歸神經(jīng)網(wǎng)絡(luò)(RNN),是兩種人工神經(jīng)網(wǎng)絡(luò)的總稱:一種是時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetwork);一種是結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)(recursiveneuralnetwork);遞歸神經(jīng)網(wǎng)絡(luò)模型24時(shí)序擴(kuò)展RecurrentNeuralNetwork25針對對象:序列數(shù)據(jù)。例如文本,是字母和詞匯的序列;語音,是音節(jié)的序列;視頻,是圖像的序列;氣象觀測數(shù)據(jù),股票交易數(shù)據(jù)等等,也都是序列數(shù)據(jù)。核心思想:樣本間存在順序關(guān)系,每個(gè)樣本和它之前的樣本存在關(guān)聯(lián)。通過神經(jīng)網(wǎng)絡(luò)在時(shí)序上的展開,我們能夠找到樣本之間的序列相關(guān)性。RNN是一類擴(kuò)展的人工神經(jīng)網(wǎng)絡(luò),它是為了對序列數(shù)據(jù)進(jìn)行建模而產(chǎn)生的。RNN發(fā)展歷史26Hop?eldnetworksJ.Hop?eld19821986JordanNetworkElmanNetwork1990
J.ElmanBPTTP.WerbosHochreiter&Schmidhuber
LSTM1997Schuster&PaliwalBRNNA.
GravesNeuralturingmachine2014Cho,etalGRUM.Jordan早期(80、90年代)主要思想:重新使用參數(shù)和計(jì)算中期(90-2010)除LSTM以外,RNN基本從主流研究中消失了。當(dāng)前(2010-)應(yīng)用廣泛:自然語言應(yīng)用視頻建模,手寫識別,用戶意圖預(yù)測StackRNN2015Joulin&Mikolov開源工具包:TheanoTorch
PyBrain
TensorFlow,,,RecurrentNeuralNetwork27RNN基本框架e.g.ImageCaptioning
image->sequenceofwords
e.g.SentimentClassificationsequenceofwords->sentimente.g.MachineTranslation
seqofwords->seqofwords
e.g.Videoclassificationonframelevel
RecurrentNeuralNetwork28典型應(yīng)用:圖像標(biāo)注RecurrentNeuralNetwork29典型應(yīng)用:語言生成RecurrentNeuralNetwork30典型應(yīng)用:音樂作曲循環(huán)神經(jīng)網(wǎng)絡(luò)模型31激活函數(shù)RNN常用的激活函數(shù)是tanh和sigmoid。循環(huán)神經(jīng)網(wǎng)絡(luò)模型32softmaxSoftmax函數(shù)是sigmoid函數(shù)的一個(gè)變種,通常我們將其用在多分類任務(wù)的輸出層,將輸入轉(zhuǎn)化成標(biāo)簽的概率。本質(zhì)就是將一個(gè)K維的任意實(shí)數(shù)向量壓縮(映射)成另一個(gè)K維的實(shí)數(shù)向量,其中向量中的每個(gè)元素取值都介于(0,1)之間。
循環(huán)神經(jīng)網(wǎng)絡(luò)模型33簡單循環(huán)網(wǎng)絡(luò)SRN神經(jīng)元之間的連接權(quán)重在時(shí)域上不變。循環(huán)神經(jīng)網(wǎng)絡(luò)模型34隨時(shí)間反向傳播算法BPTTBP回顧:定義損失函數(shù)E
來表示輸出
和真實(shí)標(biāo)簽y的誤差,通過鏈?zhǔn)椒▌t自頂向下求得E對網(wǎng)絡(luò)權(quán)重的偏導(dǎo)。沿梯度的反方向更新權(quán)重的值,直到E收斂。 BPTT的本質(zhì)其實(shí)和BP很像,就是加上了時(shí)序演化。定義權(quán)重U,V,W。
定義損失函數(shù):我們將整個(gè)序列作為一次訓(xùn)練,所以需要對每個(gè)時(shí)刻的誤差進(jìn)行求和。循環(huán)神經(jīng)網(wǎng)絡(luò)模型35隨時(shí)間反向傳播算法BPTT目前的任務(wù)是求E對于U,V,W的梯度。定義E對于W的梯度(U,V同理):(1)求E對于V的梯度。先求E3
對于V的梯度:WVU其中:求和可得。其中:依賴于,而又依賴于和W
,依賴關(guān)系一直傳遞到t=0的時(shí)刻。因此,當(dāng)我們計(jì)算對于W的偏導(dǎo)數(shù)時(shí),不能把看作是常數(shù)項(xiàng)!循環(huán)神經(jīng)網(wǎng)絡(luò)模型36隨時(shí)間反向傳播算法BPTT(2)求E對于W
的梯度。注意,現(xiàn)在情況開始變得復(fù)雜起來。先求E3
對于W的梯度:WVU當(dāng)我們求對于W的偏導(dǎo)時(shí)。注意到:求和可得。同樣:依賴于,而又依賴于和U
。類似求W,當(dāng)我們計(jì)算對于U的偏導(dǎo)數(shù)時(shí),也不能把看作是常數(shù)項(xiàng)!循環(huán)神經(jīng)網(wǎng)絡(luò)模型37隨時(shí)間反向傳播算法BPTT(3)求E對于U的梯度。情況與W類似。先求E3
對于U
的梯度:WVU當(dāng)我們求對于W的偏導(dǎo)時(shí)。注意到:求和可得。循環(huán)神經(jīng)網(wǎng)絡(luò)模型38隨時(shí)間反向傳播算法BPTT參數(shù)意義:Whv:輸入層到隱含層的權(quán)重參數(shù),Whh:隱含層到隱含層的權(quán)重參數(shù),Woh:隱含層到輸出層的權(quán)重參數(shù),bh:隱含層的偏移量,bo輸出層的偏移量,h0:起始狀態(tài)的隱含層的輸出,一般初始為0。
遞歸神經(jīng)網(wǎng)絡(luò)模型39隨時(shí)間反向傳播算法BPTT面臨的問題:梯度消失問題梯度爆炸問題解決方案:選擇其他的激活函數(shù)。例如ReLU。引入改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)的機(jī)制,例如LSTM,GRU?,F(xiàn)在在自然語言處理上應(yīng)用十分廣的的就是LSTM。4:自然語言處理基礎(chǔ)404.1:什么是自然語言處理?概念:研究人和計(jì)算機(jī)之間用自然語言進(jìn)行通信的各種理論和方法414.2:詞向量421:傳統(tǒng)的One-HotEncode
離散單獨(dú)符號表示單詞
將一個(gè)單詞轉(zhuǎn)換成一個(gè)很長的向量。例子:{0,0,0,0,0,,,1,,,,0}
缺點(diǎn):
A:維數(shù)災(zāi)難,稀疏
B:不能反映出單詞之間的相似性
2:分布式表示
將一個(gè)單詞表示成固定維度(小維度)向量
分布式假設(shè)(distribute):上下文相似的詞,其語義也相似
相近的詞投影到高維空間后距離很近詞的表示-詞向量4.3:Word2Vec43現(xiàn)在常用的工具是Google2013年開源的Word2Vec:根據(jù)采用的策略和模型我們主要分為以下幾類框架模型基于HierarchicalSoftMax策略CBOW模型Skip-gram模型基于NegativeSampling策略CBOW模型Skip-gram模型我們主要介紹架是Negat
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大連藝術(shù)學(xué)院《普通話教程》2023-2024學(xué)年第二學(xué)期期末試卷
- 中國礦業(yè)大學(xué)《班主任工作概論》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年重慶市兼善教育集團(tuán)初三3月第一次中考模擬物理試題含解析
- 贛州職業(yè)技術(shù)學(xué)院《現(xiàn)代生物技術(shù)進(jìn)展》2023-2024學(xué)年第二學(xué)期期末試卷
- 新疆生產(chǎn)建設(shè)兵團(tuán)2024-2025學(xué)年初三模擬考試(一)物理試題理試卷含解析
- 2025年山東省臨沂市蘭山區(qū)部分校初三第一次月考考試化學(xué)試題理含解析
- 寧德時(shí)代施工方案
- 2025年:探討合同管理在工程造價(jià)控制中的關(guān)鍵作用
- 管路疏通施工方案
- Unit 4 the art of having fun 第四課時(shí)Presenting ideas&Reflection 教學(xué)設(shè)計(jì) 2024-2025學(xué)年外研版(2024)七年級英語下冊
- 電影音樂欣賞智慧樹知到答案章節(jié)測試2023年華南農(nóng)業(yè)大學(xué)
- GB/T 39766-2021人類生物樣本庫管理規(guī)范
- 315食品安全宣傳PPT模板
- GB/T 20145-2006燈和燈系統(tǒng)的光生物安全性
- GB 21519-2008儲水式電熱水器能效限定值及能效等級
- 2023年陜西省學(xué)業(yè)水平考試物理試真題答案無
- 運(yùn)輸供應(yīng)商年度評價(jià)表
- 旅游項(xiàng)目融投資概述
- 全旅館業(yè)前臺從業(yè)人員資格證考試答案解析
- 十二經(jīng)絡(luò)及腧穴課件
- 立式圓筒形儲罐罐底真空試驗(yàn)記錄
評論
0/150
提交評論