深度學習-2016年課件deep_第1頁
深度學習-2016年課件deep_第2頁
深度學習-2016年課件deep_第3頁
深度學習-2016年課件deep_第4頁
深度學習-2016年課件deep_第5頁
已閱讀5頁,還剩49頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

深度學習技術(shù)與應用DeepLearning:深度學習技術(shù)與應用DeepLearning:TechniquesandApplicationsGePeking機nBoltzmannMachine1985年由GeoffreyH機nBoltzmannMachine1985年由GeoffreyHu(StochasticRecurrentNeuralNetwork)uuu機nBoltzmannMachine機nBoltzmannMachineu具有強大的無監(jiān)督學習能力;u能夠?qū)W習數(shù)據(jù)中復雜的規(guī)則;uu不僅無法確切地計算BM所表示的分布,甚至得到服從BM。機nRestrictedBoltzmannMachine,為克服BM的問題,1986年Smolensky引入RBMu2002年on提出RBMu度(ContrastiveDivergence,機nRestrictedBoltzmannMachine,為克服BM的問題,1986年Smolensky引入RBMu2002年on提出RBMu度(ContrastiveDivergence,u。應用方面,RBMunRBM機RBMuunRBM機RBMuu通過采樣可以得到服從RBMuu深度信念網(wǎng)2006年n fNets深度信念網(wǎng)2006年n fNetsDBN)并給出了該模型的一個高效u(1)底部RBMu(2)將底部RBM抽取的特征作為頂部RBMu(3)過程(1)和(2)可以重復來訓練所需n深度信念網(wǎng)n優(yōu)點深度信念網(wǎng)n優(yōu)點uuuu機nRBM ??%可見層神經(jīng)元數(shù)目;??& ??=(??*機nRBM ??%可見層神經(jīng)元數(shù)目;??& ??=(??*,??,. 可見層的狀態(tài)向量,??2表示可見層中第??個神經(jīng)元的狀態(tài)/ *? 隱藏層的狀態(tài)向量,?6表示隱藏層中第??個神經(jīng)元的狀態(tài)5 ??=(??*????)1∈??可見層的偏置向量,??2表示可見層中第??/ ????*,??,??)1??隱藏層的偏置向量,b6表示隱藏層中第??個神經(jīng)元的偏置5∈??隱藏層與可見層之間的權(quán)值矩陣,??2,6表示可見層第??個神經(jīng)元與隱藏層第??個 ?? 假設所有神經(jīng)元均為二值,即對?????有??26機n運算過u??=??*??,,. 機n運算過u??=??*??,,. ?*,.滿足如下的關(guān)系?.Step1:求出???2=1∑=×??+/ 26Step2:產(chǎn)生一個0到1如果它小于???2=1??,?2的取值就是1,否則就是u需要確定的參數(shù):????,機nRBMuRBM機nRBMuRBMu找到一組模型參數(shù),使得在這組模型參數(shù)下,由RBM所表示的概率分布,應盡n即即:求解一組參數(shù)??n即RBMu最大n即RBMu最大化似然機uu接下來的問題機nn問題n當系統(tǒng)和它周圍的環(huán)境處于熱平衡時,一個基本的結(jié)果是狀態(tài)??發(fā)生的u1R機nn問題n當系統(tǒng)和它周圍的環(huán)境處于熱平衡時,一個基本的結(jié)果是狀態(tài)??發(fā)生的u1Rp2=??其中,E2表示系統(tǒng)在狀態(tài)??時的能u絕對溫度,??Y為Boltzmann常數(shù),Zu機nu機nuu系統(tǒng)越有序或者概率分布越集中,系統(tǒng)的能量越小。反之,系統(tǒng)越無nu可以定義:在一組給定狀態(tài)(??,?)u寫為矩陣形式n機當系統(tǒng)和它周圍的環(huán)境處于熱平衡時,一個基本的結(jié)果是狀態(tài)??發(fā)生的u1Rp2n機當系統(tǒng)和它周圍的環(huán)境處于熱平衡時,一個基本的結(jié)果是狀態(tài)??發(fā)生的u1Rp2=??這里的E2為剛剛定義的能量函數(shù):????,?參數(shù)T和??Y跟求解無關(guān),設置為??uuun??機n??機u??(??是一個概率,其所有情況下的和應為un由此,可以得出狀態(tài)??, 發(fā)生的聯(lián)合概率分布為n機nn機n成為關(guān)于??n接下來:在給定(??,?)的條件下,求解能夠最大化上述函數(shù)的機n梯度上機n梯度上升法n機n因而機n因而機由于??包含三個參數(shù)(??????)??lnp(???????,???????,=_??&)?_機由于??包含三個參數(shù)(??????)??lnp(???????,???????,=_??&)?_????,=_&=_&?2??6?_????,???2??6?_??%_&???_????=%??(?2=???2=1??機)?_????,n同理??lnp(???????,???????,=_??&=_&?????6?_????,機)?_????,n同理??lnp(???????,???????,=_??&=_&?????6?_????,??6=_???& _?%&%??lnp??(???,???????,=_??&)?_??,=_???&?2?_????,?=_??????2?_????_?&%&=%=?2=1 ?機n其中機n其中機n由上可知n機n由上可知n∑ …方法(Montefneu方法(Montefneue解,則可以:將積分f???????看作某個函數(shù)??(??)u在(????)上按照某個概率密度函數(shù)??(??)按照分布密度??的大量樣本點??*??,,??.unu如何按照概率密度??u且條件是:??(??)nu如何按照概率密度??u且條件是:??(??)onteu利鏈nu量Xuu變量??,其在??時刻的取值??junu量Xuu變量??,其在??時刻的取值??ju量??量從一個狀態(tài)??2轉(zhuǎn)移到下一個狀態(tài)??k的概率,即unu如果存在某個取值,從它出發(fā)轉(zhuǎn)移回自身所需要的轉(zhuǎn)移次數(shù)總是整數(shù)過程具有周期性u如果任意兩個取值之間總能以非零的概率互相轉(zhuǎn)移,則稱該過程不可約unu如果存在某個取值,從它出發(fā)轉(zhuǎn)移回自身所需要的轉(zhuǎn)移次數(shù)總是整數(shù)過程具有周期性u如果任意兩個取值之間總能以非零的概率互相轉(zhuǎn)移,則稱該過程不可約u如果一遍歷的過程既沒有周期性,又不可約,則稱該過程是u對于各態(tài)遍歷nu如爾unu如爾uuunnn按照n按照n從而,得到無偏樣本集合n利用采樣結(jié)果估算.)n??lnp1=??=1_%??lnp???2=1??6=?2=1n利用采樣結(jié)果估算.)n??lnp1=??=1_%??lnp???2=1??6=?2=1??6???_?2=1????tn1=??6?_%????6=??6???_????6tn??lnp1=???2=1 ?_???????2=1 =???2=1%???_?2=1????2tn因為:muwx)n因為:muwx)=∑u)n可以得到n帶有*項都是一樣的,所以累加后*變?yōu)閚nn因此,在計算muwxu???26n因此,在計算muwxu???26←???26+???2=1????6???(?2=1|??rs)??6+?s666???(?2=1|??u???6←???6+???2=1nnuk步采樣仍然比較慢,因為,k特別是,當訓練樣本的特征數(shù)(可視層節(jié)點數(shù))ununuk步采樣仍然比較慢,因為,k特別是,當訓練樣本的特征數(shù)(可視層節(jié)點數(shù))unu2002年on發(fā)明了對比散度算法(ContrastiveCD),成為RBMu通常僅需要使用k(通常k=1nuCD算法一開始,直接將可見層所有單元的狀態(tài)設置成一個訓練樣本??nuCD算法一開始,直接將可見層所有單元的狀態(tài)設置成一個訓練樣本??*uk采樣(通常l根據(jù)??*計算所有隱層單元的二值狀態(tài)l隱層層的狀態(tài)確定之后,再根據(jù)?*推出可見層狀態(tài),從而得到可ln算法n算法u輸入l訓練樣本l隱藏層個數(shù)l學習率l最大訓練周期u輸出l權(quán)重矩陣l偏置向量??n算法n算法u輸入l訓練樣本l隱藏層個數(shù)l學習率l最大訓練周期u輸出l權(quán)重矩陣l偏置向量??n算法n算法u輸入l訓練樣本l隱藏層個數(shù)l學習率l最大訓練周期u輸出l權(quán)重矩陣l偏置向量??n批次n批次權(quán)重調(diào)+RBMu將訓練樣本分成多個小批量數(shù)據(jù)(Mini-batches)u優(yōu)點:(a)并行;(b)u權(quán)重更新的方式l每個批次更新一次權(quán)重l每次權(quán)重更新:平均梯度=總梯度/數(shù)據(jù)容量n批n批次權(quán)重調(diào)+RBMu批次不易設置過大(估計的抽樣誤差過大ullBl每個批次中包含來自每個類的(一個或多個)+RBMn初始+RBMn初始u權(quán)重W初始化l按照正態(tài)分布初始化,例如按照??(0,0.01)u可見層偏置lu隱藏層偏置b初始化為+RBMn+RBMn學習uu一般做法l將權(quán)重更新量控制為權(quán)重的10R?lu在權(quán)重更新中加入動量項l使權(quán)重更新不完全由當前樣本下的似然函數(shù)梯度方向決定,而設置為上一l+RBMn學+RBMn學習u在權(quán)重更新中加入動量項lK開始時可以小一點,例如0.5l當重構(gòu)誤差處于平穩(wěn)增加狀態(tài)時,K可以大一點,例如0.9,“慣性大一點”+RBMnu為避免過度擬合,可以在最大似然函數(shù)(最優(yōu)化函數(shù))中增??+RBMnu為避免過度擬合,可以在最大似然函數(shù)(最優(yōu)化函數(shù))中增?? 226u??是一個較小的值,例如介于0.01-0.0001+RBMn+RBMnuu單元數(shù)=比特數(shù)*單元數(shù)=sqrt(*樣本數(shù)單元數(shù)=類比特數(shù)*+RBMnEarlyuul+RBMnEarlyuulValidationAccuracy;l一種可選做法:當連續(xù)N次沒有再次達到最佳Accuracy時,認為“不再提l當ValidationAccuracy出現(xiàn)下降,則調(diào)整學習率(增大或減小un對RMBn解n對RMBn解決辦法ul一次采樣(或迭代運算)l1-范數(shù)或21-范數(shù)或2n基于CDContrastiveDivergence,PCD)l認為當前的RBMn基于CDContrastiveDivergence,PCD)l認為當前的RBMl因此,按照“當前RBMluu(FastPersistentContrastiveDivergence,FPCD2006年n fNetsDBN)并給出了該模型的一個高效2006年n fNetsDBN)并給出了該模型的一個高

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論