人工智能學(xué)習(xí)基礎(chǔ):常見的激活函數(shù)_第1頁
人工智能學(xué)習(xí)基礎(chǔ):常見的激活函數(shù)_第2頁
人工智能學(xué)習(xí)基礎(chǔ):常見的激活函數(shù)_第3頁
人工智能學(xué)習(xí)基礎(chǔ):常見的激活函數(shù)_第4頁
人工智能學(xué)習(xí)基礎(chǔ):常見的激活函數(shù)_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

人工智能學(xué)習(xí)基礎(chǔ):常見的激活函數(shù)一、激活函數(shù)作用激活函數(shù)的主要作用是提供網(wǎng)絡(luò)的非線性建模能力。如果沒有激活函數(shù),那么該網(wǎng)絡(luò)僅能夠表達(dá)線性映射,此時即便有再多的隱藏層,其整個網(wǎng)絡(luò)跟單層神經(jīng)網(wǎng)絡(luò)也是等價的。因此也可以認(rèn)為,只有加入了激活函數(shù)之后,深度神經(jīng)網(wǎng)絡(luò)才具備了分層的非線性映射學(xué)習(xí)能力?;氐巾敳慷?、激活函數(shù)所具有的幾個性質(zhì)非線性:當(dāng)激活函數(shù)是線性的時候,一個兩層的神經(jīng)網(wǎng)絡(luò)就可以逼近基本上所有的函數(shù)了。但是,如果激活函數(shù)是恒等激活函數(shù)的時候(即f(x)=x),就不滿足這個性質(zhì)了,而且如果MLP(Multi-LayerPerceptron,即多層感知器)使用的是恒等激活函數(shù),那么其實整個網(wǎng)絡(luò)跟單層神經(jīng)網(wǎng)絡(luò)是等價的??晌⑿裕寒?dāng)優(yōu)化方法是基于梯度的時候,這個性質(zhì)是必須的。單調(diào)性:當(dāng)激活函數(shù)是單調(diào)的時候,單層網(wǎng)絡(luò)能夠保證是凸函數(shù)。f(x)≈x:當(dāng)激活函數(shù)滿足這個性質(zhì)的時候,如果參數(shù)的初始化是random的很小的值,那么神經(jīng)網(wǎng)絡(luò)的訓(xùn)練將會很高效;如果不滿足這個性質(zhì),那么就需要很用心地去設(shè)置初始值。輸出值的范圍:當(dāng)激活函數(shù)輸出值是有限的時候,基于梯度的優(yōu)化方法會更加穩(wěn)定,因為特征的表示受有限權(quán)值的影響更顯著;當(dāng)激活函數(shù)的輸出是無限的時候,模型的訓(xùn)練會更加高效,不過在這種情況下,一般需要更小的learningrate?;氐巾敳咳⑺姆N激活函數(shù)3.1:SigmoidSigmoid因其在logistic回歸中的重要地位而被人熟知,值域在0到1之間。LogisticSigmoid(或者按通常的叫法,Sigmoid)激活函數(shù)給神經(jīng)網(wǎng)絡(luò)引進了概率的概念。它的導(dǎo)數(shù)是非零的,并且很容易計算(是其初始輸出的函數(shù))。然而,在分類任務(wù)中,sigmoid正逐漸被Tanh函數(shù)取代作為標(biāo)準(zhǔn)的激活函數(shù),因為后者為奇函數(shù)(關(guān)于原點對稱)。優(yōu)點:Sigmoid函數(shù)的輸出映射在(0,1)之間,單調(diào)連續(xù),輸出范圍有限,如果是非常大的負(fù)數(shù),那么輸出就是0;如果是非常大的正數(shù),輸出就是1。優(yōu)化穩(wěn)定,可以用作輸出層。求導(dǎo)容易。sigmoid函數(shù)曾經(jīng)被使用的很多,不過近年來,用它的人越來越少了。缺點:容易飽和和終止梯度傳遞("死神經(jīng)元");sigmoid函數(shù)的輸出沒有0中心化。3.2:雙曲正切函數(shù)(Tanh)在分類任務(wù)中,雙曲正切函數(shù)(Tanh)逐漸取代Sigmoid函數(shù)作為標(biāo)準(zhǔn)的激活函數(shù),其具有很多神經(jīng)網(wǎng)絡(luò)所鐘愛的特征。它是完全可微分的,反對稱,對稱中心在原點。為了解決學(xué)習(xí)緩慢和/或梯度消失問題,可以使用這個函數(shù)的更加平緩的變體(log-log、softsign、symmetricalsigmoid等等)。優(yōu)點:比Sigmoid函數(shù)收斂速度更快。相比Sigmoid函數(shù),其輸出以0為中心。缺點:還是沒有改變Sigmoid函數(shù)的最大問題——由于飽和性產(chǎn)生的梯度消失。3.3:修正線性單元(Rectifiedlinearunit,ReLU)是神經(jīng)網(wǎng)絡(luò)中最常用的激活函數(shù)。它保留了step函數(shù)的生物學(xué)啟發(fā)(只有輸入超出閾值時神經(jīng)元才激活),不過當(dāng)輸入為正的時候,導(dǎo)數(shù)不為零,從而允許基于梯度的學(xué)習(xí)(盡管在x=0的時候,導(dǎo)數(shù)是未定義的)。使用這個函數(shù)能使計算變得很快,因為無論是函數(shù)還是其導(dǎo)數(shù)都不包含復(fù)雜的數(shù)學(xué)運算。然而,當(dāng)輸入為負(fù)值的時候,ReLU的學(xué)習(xí)速度可能會變得很慢,甚至使神經(jīng)元直接無效,因為此時輸入小于零而梯度為零,從而其權(quán)重?zé)o法得到更新,在剩下的訓(xùn)練過程中會一直保持靜默。優(yōu)點:1.相比起Sigmoid和tanh,ReLU在SGD中能夠快速收斂,這是因為它線性(linear)、非飽和(non-saturating)的形式。2.Sigmoid和tanh涉及了很多很expensive的操作(比如指數(shù)),ReLU可以更加簡單地實現(xiàn)。3.有效緩解了梯度消失的問題。4.在沒有無監(jiān)督預(yù)訓(xùn)練的時候也能有較好的表現(xiàn)。缺點:沒有邊界,可以使用變種ReLU:min(max(0,x),6)比較脆弱,比較容易陷入出現(xiàn)"死神經(jīng)元"的情況?解決方案:較小的學(xué)習(xí)率3.4:LeakyReLU經(jīng)典(以及廣泛使用的)ReLU激活函數(shù)的變體,帶泄露修正線性單元(LeakyReLU)的輸出對負(fù)值輸入有很小的坡度。由于導(dǎo)數(shù)總是不為零,這能減少靜默神經(jīng)元的出現(xiàn),允許基于梯度的學(xué)習(xí)(雖然會很慢)。優(yōu)缺點:人工神經(jīng)網(wǎng)絡(luò)中為什么ReLu要好過于tanh和sigmoidfunction?1.采用sigmoid等函數(shù),算激活函數(shù)時(指數(shù)運算),計算量大,反向傳播求誤差梯度時,求導(dǎo)涉及除法和指數(shù)運算,計算量相對大,而采用Relu激活函數(shù),整個過程的計算量節(jié)省很多。2.對于深層網(wǎng)絡(luò),sigmoid函數(shù)反向傳播時,很容易就會出現(xiàn)梯度消失的情況(在sigmoid接近飽和區(qū)時,變換太緩慢,導(dǎo)數(shù)趨于0,這種情況會造成信息丟失),這種現(xiàn)象稱為飽和,從而無法完成深層網(wǎng)絡(luò)的訓(xùn)練。而ReLU就不會有飽和傾向,不會有特別小的梯度出現(xiàn)。3.Relu會使一部分神經(jīng)元的輸出為0,這樣就造成了網(wǎng)絡(luò)的稀疏性,并且減少了參數(shù)的相互依存關(guān)系,緩解了過擬合問題的發(fā)生(以及一些人的生物解釋balabala)。當(dāng)然現(xiàn)在也有一些對relu的改進,比如prelu,randomrelu等,在不同的數(shù)據(jù)集上會有一些訓(xùn)練速度上或者準(zhǔn)確率上的改進。一般來說,隱藏層最好使用ReLU神經(jīng)元。對于分類任務(wù),Softmax通常是更好的選擇;對于回歸問題,最好使用Sigmoid函數(shù)或雙曲正切函數(shù)。如果使用ReLU,要小心設(shè)置learningrate,注意不要讓網(wǎng)絡(luò)出現(xiàn)很多"dead"神經(jīng)元,如果不好解決,可以試試LeakyReLU、PReLU或者Maxout.比如GAN就是使用這個函數(shù)?;氐巾敳克?、其它激活函數(shù):ELU激活函數(shù):指數(shù)線性激活函數(shù),同樣屬于對ReLU激活函數(shù)的x≤0部分的轉(zhuǎn)換進行指數(shù)修正,而不是和LeakyReLU中的線性修正五、激勵層建議:CNN盡量不要使用sigmoid,如果要使用,建議只在全連接層使用首先使用ReLU,因為迭代速度快,但是有可能效果不佳如果使用ReLU失效的情況下,考慮使用LeakyReLu或者Maxout,此時一般情況都可以解決啦tanh激活函數(shù)在某些情況下有比較好的效果,但是應(yīng)用場景比較少附加:Softmax:做過多分類任務(wù)的同學(xué)一定都知道softmax函數(shù)。softmax函數(shù),又稱歸一化指數(shù)函數(shù)。它是二分類函數(shù)sigmoid在多分類上的推廣,目的是將多分類的結(jié)果以概率的形式展現(xiàn)出來。下圖展示了softmax的計算方法:下面為大家解釋一下為什么softmax是這種形式。我們知道指數(shù)函數(shù)的值域取值范圍是零到正無窮。與概率取值相似的地方是它們都是非負(fù)實數(shù)。那么我們可以1)利

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論