激活函數(shù)的比較和優(yōu)缺點(diǎn)sigmoid tanh relu_第1頁(yè)
激活函數(shù)的比較和優(yōu)缺點(diǎn)sigmoid tanh relu_第2頁(yè)
激活函數(shù)的比較和優(yōu)缺點(diǎn)sigmoid tanh relu_第3頁(yè)
激活函數(shù)的比較和優(yōu)缺點(diǎn)sigmoid tanh relu_第4頁(yè)
激活函數(shù)的比較和優(yōu)缺點(diǎn)sigmoid tanh relu_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、深度學(xué)習(xí)激活函數(shù)的比較和優(yōu)缺點(diǎn)sigmoidtanh, relu 1什么是激活函數(shù)2為什么要用3都有什么激活函數(shù)4、sigmoid ,softmax1. 什么是數(shù)如下圖元中 inputs 通過(guò)加權(quán)用了一個(gè)函數(shù), 這個(gè)函數(shù)就是激活函數(shù) Activation Function。2. 為什么如果不用激勵(lì)函數(shù)一層輸出都是上層輸入的線性函數(shù)論神經(jīng)網(wǎng)絡(luò)有多少 層,輸出都是輸入的線性組合。如果使用的話活函數(shù)給神經(jīng)元引入了非線性因素得神經(jīng)網(wǎng)絡(luò)可以任意逼近任何非線性函數(shù),這樣神經(jīng)網(wǎng)絡(luò)就可以應(yīng)用到眾多的非線性模型中。 3. 都有什函數(shù)(1) sigmoid 函數(shù)公式:曲線:導(dǎo)數(shù):sigmoid 數(shù)也叫 Logis

2、tic 函數(shù),用于隱層神經(jīng)元輸出,取值范圍,它 可以將一個(gè)實(shí)數(shù)映射到(0,1)的區(qū)間,可以用來(lái)做二分類。在特征相差比較復(fù)雜或是相差不是特別大時(shí)效果比較好。sigmoid 點(diǎn):激活函數(shù)計(jì)算量大,反向傳播求誤差梯度時(shí),求導(dǎo)涉及除法反向傳播時(shí)容易就會(huì)出現(xiàn)梯度消失的情況而無(wú)法完成深層網(wǎng)絡(luò)的訓(xùn) 練 掉Sigmoids 下面解釋為何會(huì)出現(xiàn)梯度消失:反向傳播算法中,要對(duì)激活函數(shù)求導(dǎo),sigmoid 的導(dǎo)數(shù)表達(dá)式為:sigmoid 原函數(shù)及導(dǎo)數(shù)圖形如下:由圖可知,導(dǎo)數(shù)從 0 開(kāi)始很快就又趨近于 0 了,易造成“梯度消失”現(xiàn)象 (2) Tanh 函數(shù)公式曲線也稱為雙切正切函數(shù),取值范圍為-1,1。tanh 在特

3、征相差明顯時(shí)的效果會(huì)很好,在循環(huán)過(guò)程中會(huì)不斷擴(kuò)大特征效果。與 sigmoid 的區(qū)別是tanh 是 0 均值的,因此實(shí)際應(yīng)用中 tanh 會(huì)比 sigmoid 更好。(3) ReLU Linear Unit(ReLU) - 用于隱層神經(jīng)元輸出公式曲線RELU 點(diǎn):輸入信號(hào) 0 的情況下,輸出等于輸入ReLU 的優(yōu)點(diǎn):發(fā)現(xiàn)使用 ReLU 得到的 的收斂速度會(huì)比 快很多ReLU 的缺點(diǎn):訓(xùn)練的時(shí)候很”脆弱”,很容易就”die”了例如,一個(gè)非常大的梯度流過(guò)一個(gè) ReLU 神經(jīng)元,更新過(guò)參數(shù)之后,這個(gè)神經(jīng) 元再也不會(huì)對(duì)任何數(shù)據(jù)有激活現(xiàn)象了,那么這個(gè)神經(jīng)元的梯度就永遠(yuǎn)都會(huì)是 如果 learning ra

4、te 很大,那么很有可能網(wǎng)絡(luò)中的 40% 的神經(jīng)元都”dead”了。 函數(shù) - 用于多分類神經(jīng)網(wǎng)絡(luò)輸出公式舉個(gè)例子來(lái)看公式的意思:就是如果某一個(gè) zj 大過(guò)其他 z, 那這個(gè)映射的分量就逼近于 1,其他就逼近于 0,主要應(yīng)就是多分類。為什么要取指數(shù),第一個(gè)原因是要模擬 的行為,所以要讓大的更大。 第二個(gè)原因是需要一個(gè)可導(dǎo)的函數(shù)。4. ReLU 較Sigmoid 和 ReLU 比較:sigmoid 的梯度消失問(wèn)題, 的導(dǎo)數(shù)就不存在這樣的問(wèn)題,它的導(dǎo)數(shù)表達(dá)式 如下:曲線如圖對(duì)比 sigmoid 類函數(shù)主要變化是:1)單側(cè)抑2)相對(duì)寬的興奮邊界3)稀疏激性。Sigmoid 和 Softmax 區(qū)別:

5、softmax is a generalization of logistic function that “squashes”(maps) a K-dimensional z of real values to a K- vector (z) of real in range 1) 1.sigmoid 將一個(gè) 映射到(0,1)的區(qū)間,用來(lái)做二分類。而 把一個(gè) k 維的 real 向量(.)映射成一個(gè) (b1,b2,b3,b4.)其中 bi 是一個(gè) 的常數(shù),輸出神經(jīng)元之和為 ,所以 相當(dāng)于概率值,然后可以根據(jù) bi 的概率大小來(lái)進(jìn)行多分類的任務(wù)。二分類問(wèn)題時(shí) sigmoid 和 softmax

6、 是一樣的,求的都是 cross 而 可以用于多分類問(wèn)題 sigmoid 的擴(kuò)展別數(shù) k 時(shí) 回歸退化為 logistic 回歸。具體地說(shuō),當(dāng) k2 時(shí), 回歸的假設(shè)函數(shù)為:利用 回歸參數(shù)冗余的特點(diǎn)從兩個(gè)參數(shù)向量中都減去向量 1 ,得到:最后用 來(lái)表示 21上述公式可以表示為 回歸器預(yù)測(cè)其中一個(gè) 類別的概率為另一個(gè)類別概率的為這與 logistic 回歸是一致的。 建模使用的分布是多項(xiàng)式分布而 logistic 基于伯努利分布多個(gè) logistic 回歸通過(guò)疊加也同可以實(shí)現(xiàn)多分類的效果,但是 回歸進(jìn) 行的多分類,類與類之間是互斥的,即一個(gè)輸入只能被歸為一類;多個(gè) logistic 回歸進(jìn)行多分類,輸出的類別并不是互斥的,即蘋(píng)果這個(gè)詞語(yǔ)既屬于水類 也屬

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論