人工智能學(xué)習(xí)基礎(chǔ)：常見的激活函數(shù)

上傳人：r*** IP屬地：北京上傳時間：2024-02-05 格式：DOCX 頁數(shù)：10 大?。?29.22KB 積分：1.2 舉報 版權(quán)申訴

已閱讀5頁，還剩5頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

人工智能學(xué)習(xí)基礎(chǔ)：常見的激活函數(shù)一、激活函數(shù)作用激活函數(shù)的主要作用是提供網(wǎng)絡(luò)的非線性建模能力。如果沒有激活函數(shù)，那么該網(wǎng)絡(luò)僅能夠表達(dá)線性映射，此時即便有再多的隱藏層，其整個網(wǎng)絡(luò)跟單層神經(jīng)網(wǎng)絡(luò)也是等價的。因此也可以認(rèn)為，只有加入了激活函數(shù)之后，深度神經(jīng)網(wǎng)絡(luò)才具備了分層的非線性映射學(xué)習(xí)能力?；氐巾敳慷?、激活函數(shù)所具有的幾個性質(zhì)非線性：當(dāng)激活函數(shù)是線性的時候，一個兩層的神經(jīng)網(wǎng)絡(luò)就可以逼近基本上所有的函數(shù)了。但是，如果激活函數(shù)是恒等激活函數(shù)的時候（即f(x)=x），就不滿足這個性質(zhì)了，而且如果MLP（Multi-LayerPerceptron，即多層感知器）使用的是恒等激活函數(shù)，那么其實整個網(wǎng)絡(luò)跟單層神經(jīng)網(wǎng)絡(luò)是等價的?？晌⑿裕寒?dāng)優(yōu)化方法是基于梯度的時候，這個性質(zhì)是必須的。單調(diào)性：當(dāng)激活函數(shù)是單調(diào)的時候，單層網(wǎng)絡(luò)能夠保證是凸函數(shù)。f(x)≈x：當(dāng)激活函數(shù)滿足這個性質(zhì)的時候，如果參數(shù)的初始化是random的很小的值，那么神經(jīng)網(wǎng)絡(luò)的訓(xùn)練將會很高效；如果不滿足這個性質(zhì)，那么就需要很用心地去設(shè)置初始值。輸出值的范圍：當(dāng)激活函數(shù)輸出值是有限的時候，基于梯度的優(yōu)化方法會更加穩(wěn)定，因為特征的表示受有限權(quán)值的影響更顯著；當(dāng)激活函數(shù)的輸出是無限的時候，模型的訓(xùn)練會更加高效，不過在這種情況下，一般需要更小的learningrate?；氐巾敳咳⑺姆N激活函數(shù)3.1：SigmoidSigmoid因其在logistic回歸中的重要地位而被人熟知，值域在0到1之間。LogisticSigmoid（或者按通常的叫法，Sigmoid）激活函數(shù)給神經(jīng)網(wǎng)絡(luò)引進了概率的概念。它的導(dǎo)數(shù)是非零的，并且很容易計算（是其初始輸出的函數(shù)）。然而，在分類任務(wù)中，sigmoid正逐漸被Tanh函數(shù)取代作為標(biāo)準(zhǔn)的激活函數(shù)，因為后者為奇函數(shù)（關(guān)于原點對稱）。優(yōu)點：Sigmoid函數(shù)的輸出映射在(0,1)之間，單調(diào)連續(xù)，輸出范圍有限，如果是非常大的負(fù)數(shù)，那么輸出就是0；如果是非常大的正數(shù)，輸出就是1。優(yōu)化穩(wěn)定，可以用作輸出層。求導(dǎo)容易。sigmoid函數(shù)曾經(jīng)被使用的很多，不過近年來，用它的人越來越少了。缺點：容易飽和和終止梯度傳遞("死神經(jīng)元")；sigmoid函數(shù)的輸出沒有0中心化。3.2：雙曲正切函數(shù)（Tanh）在分類任務(wù)中，雙曲正切函數(shù)（Tanh）逐漸取代Sigmoid函數(shù)作為標(biāo)準(zhǔn)的激活函數(shù)，其具有很多神經(jīng)網(wǎng)絡(luò)所鐘愛的特征。它是完全可微分的，反對稱，對稱中心在原點。為了解決學(xué)習(xí)緩慢和/或梯度消失問題，可以使用這個函數(shù)的更加平緩的變體（log-log、softsign、symmetricalsigmoid等等）。優(yōu)點：比Sigmoid函數(shù)收斂速度更快。相比Sigmoid函數(shù)，其輸出以0為中心。缺點：還是沒有改變Sigmoid函數(shù)的最大問題——由于飽和性產(chǎn)生的梯度消失。3.3：修正線性單元（Rectifiedlinearunit，ReLU）是神經(jīng)網(wǎng)絡(luò)中最常用的激活函數(shù)。它保留了step函數(shù)的生物學(xué)啟發(fā)（只有輸入超出閾值時神經(jīng)元才激活），不過當(dāng)輸入為正的時候，導(dǎo)數(shù)不為零，從而允許基于梯度的學(xué)習(xí)（盡管在x=0的時候，導(dǎo)數(shù)是未定義的）。使用這個函數(shù)能使計算變得很快，因為無論是函數(shù)還是其導(dǎo)數(shù)都不包含復(fù)雜的數(shù)學(xué)運算。然而，當(dāng)輸入為負(fù)值的時候，ReLU的學(xué)習(xí)速度可能會變得很慢，甚至使神經(jīng)元直接無效，因為此時輸入小于零而梯度為零，從而其權(quán)重?zé)o法得到更新，在剩下的訓(xùn)練過程中會一直保持靜默。優(yōu)點：1.相比起Sigmoid和tanh，ReLU在SGD中能夠快速收斂，這是因為它線性（linear）、非飽和（non-saturating）的形式。2.Sigmoid和tanh涉及了很多很expensive的操作（比如指數(shù)），ReLU可以更加簡單地實現(xiàn)。3.有效緩解了梯度消失的問題。4.在沒有無監(jiān)督預(yù)訓(xùn)練的時候也能有較好的表現(xiàn)。缺點：沒有邊界，可以使用變種ReLU:min(max(0,x),6)比較脆弱，比較容易陷入出現(xiàn)"死神經(jīng)元"的情況?解決方案：較小的學(xué)習(xí)率3.4：LeakyReLU經(jīng)典（以及廣泛使用的）ReLU激活函數(shù)的變體，帶泄露修正線性單元（LeakyReLU）的輸出對負(fù)值輸入有很小的坡度。由于導(dǎo)數(shù)總是不為零，這能減少靜默神經(jīng)元的出現(xiàn)，允許基于梯度的學(xué)習(xí)（雖然會很慢）。優(yōu)缺點：人工神經(jīng)網(wǎng)絡(luò)中為什么ReLu要好過于tanh和sigmoidfunction？1.采用sigmoid等函數(shù)，算激活函數(shù)時（指數(shù)運算），計算量大，反向傳播求誤差梯度時，求導(dǎo)涉及除法和指數(shù)運算，計算量相對大，而采用Relu激活函數(shù)，整個過程的計算量節(jié)省很多。2.對于深層網(wǎng)絡(luò)，sigmoid函數(shù)反向傳播時，很容易就會出現(xiàn)梯度消失的情況（在sigmoid接近飽和區(qū)時，變換太緩慢，導(dǎo)數(shù)趨于0，這種情況會造成信息丟失），這種現(xiàn)象稱為飽和，從而無法完成深層網(wǎng)絡(luò)的訓(xùn)練。而ReLU就不會有飽和傾向，不會有特別小的梯度出現(xiàn)。3.Relu會使一部分神經(jīng)元的輸出為0，這樣就造成了網(wǎng)絡(luò)的稀疏性，并且減少了參數(shù)的相互依存關(guān)系，緩解了過擬合問題的發(fā)生（以及一些人的生物解釋balabala）。當(dāng)然現(xiàn)在也有一些對relu的改進，比如prelu，randomrelu等，在不同的數(shù)據(jù)集上會有一些訓(xùn)練速度上或者準(zhǔn)確率上的改進。一般來說，隱藏層最好使用ReLU神經(jīng)元。對于分類任務(wù)，Softmax通常是更好的選擇；對于回歸問題，最好使用Sigmoid函數(shù)或雙曲正切函數(shù)。如果使用ReLU，要小心設(shè)置learningrate，注意不要讓網(wǎng)絡(luò)出現(xiàn)很多"dead"神經(jīng)元，如果不好解決，可以試試LeakyReLU、PReLU或者Maxout.比如GAN就是使用這個函數(shù)?；氐巾敳克?、其它激活函數(shù)：ELU激活函數(shù)：指數(shù)線性激活函數(shù)，同樣屬于對ReLU激活函數(shù)的x≤0部分的轉(zhuǎn)換進行指數(shù)修正，而不是和LeakyReLU中的線性修正五、激勵層建議：CNN盡量不要使用sigmoid，如果要使用，建議只在全連接層使用首先使用ReLU，因為迭代速度快，但是有可能效果不佳如果使用ReLU失效的情況下，考慮使用LeakyReLu或者Maxout，此時一般情況都可以解決啦tanh激活函數(shù)在某些情況下有比較好的效果，但是應(yīng)用場景比較少附加：Softmax：做過多分類任務(wù)的同學(xué)一定都知道softmax函數(shù)。softmax函數(shù)，又稱歸一化指數(shù)函數(shù)。它是二分類函數(shù)sigmoid在多分類上的推廣，目的是將多分類的結(jié)果以概率的形式展現(xiàn)出來。下圖展示了softmax的計算方法：下面為大家解釋一下為什么softmax是這種形式。我們知道指數(shù)函數(shù)的值域取值范圍是零到正無窮。與概率取值相似的地方是它們都是非負(fù)實數(shù)。那么我們可以1）利

人人文庫> 全部分類> 應(yīng)用文書 > 產(chǎn)品手冊

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

人工智能學(xué)習(xí)基礎(chǔ)：常見的激活函數(shù)

文檔簡介

溫馨提示

最新文檔

評論

人工智能學(xué)習(xí)基礎(chǔ)：常見的激活函數(shù)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔