ML中的過擬合問題

上傳人：郭*** IP屬地：河北上傳時(shí)間：2022-01-31 格式：DOC 頁(yè)數(shù)：5 大?。?88.61KB 積分：12 舉報(bào) 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、防止過擬合：1. 機(jī)器學(xué)習(xí)中防止過擬合的方法？答：早停、數(shù)據(jù)擴(kuò)展、正則化（L1、L2（權(quán)值衰減）、dropout早停：在訓(xùn)練數(shù)據(jù)不足時(shí)，或者過訓(xùn)練時(shí)，常常會(huì)導(dǎo)致過擬合問題。其直觀表達(dá)如下圖：隨著訓(xùn)練的進(jìn)行，網(wǎng)絡(luò)在訓(xùn)練數(shù)據(jù)上的誤差越來越小，但是在驗(yàn)證集上的誤差卻漸漸增大，因?yàn)橛?xùn)練出的網(wǎng)絡(luò)過擬合了訓(xùn)練集，對(duì)訓(xùn)練集已經(jīng)不工作了。在機(jī)器學(xué)習(xí)中，我們常常將原始數(shù)據(jù)劃分為三部分：訓(xùn)練、驗(yàn)證和測(cè)試。驗(yàn)證集其實(shí)就是為了防止過擬合的，在訓(xùn)練過程中，我們常常用它來確定一組超參數(shù)（如通過驗(yàn)證集確定算法停止訓(xùn)練的epoch大小，根據(jù)驗(yàn)證集確定學(xué)習(xí)率等等）。這些過程并不在測(cè)試數(shù)據(jù)上進(jìn)行，因?yàn)榉乐鼓Ｐ驮跍y(cè)試數(shù)據(jù)上過擬合，

2、這樣導(dǎo)致后邊的測(cè)試誤差沒有參考價(jià)值。L2正則化問題（也稱為權(quán)值衰減）：L2正則化方法主要在代價(jià)函數(shù)后邊添加一個(gè)正則項(xiàng)：C0代表原始代價(jià)函數(shù)，后面的一項(xiàng)就是L2正則項(xiàng)，是參數(shù)w的2-范數(shù)的平方，除以訓(xùn)練集樣本數(shù)n，然后乘以一個(gè)權(quán)衡系數(shù)，1/2主要是方便于后邊的求導(dǎo)計(jì)算。從上式可以看出，L2正則化項(xiàng)對(duì)偏置b的更新沒有影響，但是對(duì)w有影響。從上式可以看出，權(quán)值w是在減小的，也即是通常所說的權(quán)值衰減問題（weight decay）。另外，對(duì)于mini-batch的隨機(jī)梯度下降方法，w和b的更新公式有所差異：m表示一個(gè)mini-batch中的樣本數(shù)目Cx表示第x個(gè)batch的代價(jià)函數(shù)。L2正則化方法之所

3、以可以防止過擬合，是因?yàn)槟Ｐ偷膮?shù)越小，復(fù)雜度就越小，對(duì)數(shù)據(jù)的擬合也就剛剛好。L1正則化：在原始的代價(jià)函數(shù)后邊加上一個(gè)L1的正則項(xiàng)，即是權(quán)值w的絕對(duì)值之和，乘以lamda/n求導(dǎo)之后：上式中的sng(w)表示w的符號(hào)，那么權(quán)值w的更新公式為：當(dāng)w為正時(shí)，w減小，為負(fù)時(shí)，w增大。這樣就使得w往0方向移動(dòng)，也就相當(dāng)于減小了網(wǎng)絡(luò)的復(fù)雜度，防止過擬合。Drop-out方法：L1和L2正則化方法是通過修改代價(jià)函數(shù)來實(shí)現(xiàn)，而Drop-out則是通過修改神經(jīng)網(wǎng)絡(luò)本身來實(shí)現(xiàn)，它是訓(xùn)練網(wǎng)絡(luò)時(shí)的一種技巧。在深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練中，對(duì)于神經(jīng)單元而言，按照一定的概率將其暫時(shí)從網(wǎng)絡(luò)中丟棄。對(duì)于SGD方法，由于是隨機(jī)丟棄，故

4、而每一個(gè)mini-batch都在訓(xùn)練不同的網(wǎng)絡(luò)。每一個(gè)網(wǎng)絡(luò)都可以給出一個(gè)分類結(jié)果，有的正確，有的錯(cuò)誤，隨著訓(xùn)練的進(jìn)行，大部分網(wǎng)絡(luò)可以給出正確的分類結(jié)果，但是不會(huì)影響到整體的分類結(jié)果。對(duì)于大規(guī)模神經(jīng)網(wǎng)絡(luò)而言，存在兩個(gè)缺點(diǎn)：訓(xùn)練費(fèi)時(shí)和容易過擬合每次做完Drop-out，相當(dāng)于從原始網(wǎng)絡(luò)中找到一個(gè)更瘦的網(wǎng)絡(luò)。假如在每一次的迭代中，丟棄網(wǎng)絡(luò)中半數(shù)的隱層神經(jīng)元，得到一個(gè)半數(shù)網(wǎng)絡(luò)。那么在若干次的迭代中，得到若干個(gè)半數(shù)網(wǎng)絡(luò)，當(dāng)然每一次的迭代所丟棄的神經(jīng)元是不一樣的。數(shù)據(jù)擴(kuò)展：因?yàn)橛?xùn)練數(shù)據(jù)中的帶標(biāo)記數(shù)據(jù)收集比較困難，我們?yōu)榱双@取更多的訓(xùn)練數(shù)據(jù)，可以在原始數(shù)據(jù)上做改動(dòng)，從而得到更多數(shù)據(jù)。如：l 添加隨機(jī)噪聲l

5、平移、旋轉(zhuǎn)、縮放、翻轉(zhuǎn)l 截取原始圖像中的一部分l 顏色變換樣本偏斜問題：樣本偏斜也叫做數(shù)據(jù)集偏斜（unbalanced），它是指參與分類的兩個(gè)類別之間的訓(xùn)練樣本數(shù)目差異較大。如正類有10,000個(gè)樣本，負(fù)類有100個(gè)，則會(huì)導(dǎo)致樣本偏斜問題。類別不平衡是指在分類任務(wù)中，不同類別的訓(xùn)練樣本數(shù)目差別很大的情況?，F(xiàn)有的應(yīng)對(duì)樣本傾斜問題的方法有三種：對(duì)數(shù)目較多的一類采用欠采樣方法。即是去除一些多余的樣本，使得樣本平衡，然后再進(jìn)行學(xué)習(xí)；第二類方法即是對(duì)樣本數(shù)目少的一類采用過采樣的方法，即是增加一些樣本，然后再進(jìn)行學(xué)習(xí)；第三類方法則是直接基于原始訓(xùn)練集進(jìn)行學(xué)習(xí)，但是在用訓(xùn)練好的分類器上預(yù)測(cè)時(shí)，利用上式做決

6、策，稱為閾值移動(dòng)。欠采樣并不是簡(jiǎn)單的去除樣本，可能會(huì)導(dǎo)致重要信息丟失，有效的方法為Easy-Ensemble。主要思想在于利用集成學(xué)習(xí)機(jī)制，將多數(shù)樣本類劃分為多個(gè)部分，供多個(gè)學(xué)習(xí)器使用，這樣相當(dāng)于對(duì)每一個(gè)學(xué)習(xí)器都進(jìn)行了欠采樣，對(duì)于整體而言，并不會(huì)丟失重要信息。過采樣不能簡(jiǎn)單的對(duì)初始正樣本進(jìn)行重復(fù)采樣，否則會(huì)招致嚴(yán)重的過擬合，過采樣代表性方法為SMOTE，即是通過對(duì)訓(xùn)練數(shù)據(jù)里的少量樣本進(jìn)行插值產(chǎn)生額外的樣本。再縮放方法：對(duì)于線性分類問題而言，通常利用預(yù)測(cè)值y與閾值進(jìn)行比較，y>0.5則認(rèn)為正類，反之為負(fù)類，y其實(shí)表示的是屬于正樣本的可能性，t= y/1-y表示的即是幾率。通常認(rèn)為t>

7、1為正類，反之為負(fù)類。這種判別方法適用于正樣本和負(fù)樣本數(shù)目差不多時(shí)。但是當(dāng)兩類差別較大時(shí)，通常是通過t和觀測(cè)幾率進(jìn)行比較。即是t= y/1-y > m+/m-，m+和m-分別表示正負(fù)樣本數(shù)?；谇罢吆秃笳撸瑢?duì)預(yù)測(cè)幾率進(jìn)行調(diào)整，得到：這就是類別不平衡的一種基本策略-再縮放或再平衡。再縮放的思想是建立在訓(xùn)練集是整體樣本的無偏采樣，但是這個(gè)假設(shè)并不一定成立，即是未必能夠推斷出真實(shí)的觀測(cè)幾率。1）實(shí)現(xiàn)參數(shù)的稀疏有什么好處嗎？一個(gè)好處是可以簡(jiǎn)化模型，避免過擬合。因?yàn)橐粋€(gè)模型中真正重要的參數(shù)可能并不多，如果考慮所有的參數(shù)起作用，那么可以對(duì)訓(xùn)練數(shù)據(jù)可以預(yù)測(cè)的很好，但是對(duì)測(cè)試數(shù)據(jù)就只能呵呵了。另一個(gè)好處

8、是參數(shù)變少可以使整個(gè)模型獲得更好的可解釋性。2）參數(shù)值越小代表模型越簡(jiǎn)單嗎？是的。為什么參數(shù)越小，說明模型越簡(jiǎn)單呢，這是因?yàn)樵綇?fù)雜的模型，越是會(huì)嘗試對(duì)所有的樣本進(jìn)行擬合，甚至包括一些異常樣本點(diǎn)，這就容易造成在較小的區(qū)間里預(yù)測(cè)值產(chǎn)生較大的波動(dòng)，這種較大的波動(dòng)也反映了在這個(gè)區(qū)間里的導(dǎo)數(shù)很大，而只有較大的參數(shù)值才能產(chǎn)生較大的導(dǎo)數(shù)。因此復(fù)雜的模型，其參數(shù)值會(huì)比較大。L0正則化表示的是非零元素的數(shù)目；（NP-難題）L1正則化在實(shí)際中往往替代L0正則化，來防止過擬合，在江湖中也人稱Lasso；L2正則化江湖人稱Ridge，也稱“嶺回歸”。L1會(huì)趨向于產(chǎn)生少量的特征，而其他的特征都是0，而L2會(huì)選擇更多的特

9、征，這些特征都會(huì)接近于0。Lasso在特征選擇時(shí)候非常有用，而Ridge就只是一種規(guī)則化而已。在所有特征中只有少數(shù)特征起重要作用的情況下，選擇Lasso比較合適，因?yàn)樗茏詣?dòng)選擇特征。而如果所有特征中，大部分特征都能起作用，而且起的作用很平均，那么使用Ridge也許更合適。我們大概知道了L1可以實(shí)現(xiàn)稀疏，但我們會(huì)想呀，為什么要稀疏？讓我們的參數(shù)稀疏有什么好處呢？這里扯兩點(diǎn)：1）特征選擇(Feature Selection)：大家對(duì)稀疏規(guī)則化趨之若鶩的一個(gè)關(guān)鍵原因在于它能實(shí)現(xiàn)特征的自動(dòng)選擇。一般來說，xi的大部分元素（也就是特征）都是和最終的輸出yi沒有關(guān)系或者不提供任何信息的，在最小化目標(biāo)函數(shù)

10、的時(shí)候考慮xi這些額外的特征，雖然可以獲得更小的訓(xùn)練誤差，但在預(yù)測(cè)新的樣本時(shí)，這些沒用的信息反而會(huì)被考慮，從而干擾了對(duì)正確yi的預(yù)測(cè)。稀疏規(guī)則化算子的引入就是為了完成特征自動(dòng)選擇的光榮使命，它會(huì)學(xué)習(xí)地去掉這些沒有信息的特征，也就是把這些特征對(duì)應(yīng)的權(quán)重置為0。2）可解釋性(Interpretability)：另一個(gè)青睞于稀疏的理由是，模型更容易解釋。例如患某種病的概率是y，然后我們收集到的數(shù)據(jù)x是1000維的，也就是我們需要尋找這1000種因素到底是怎么影響患上這種病的概率的。假設(shè)我們這個(gè)是個(gè)回歸模型：y=w1*x1+w2*x2+w1000*x1000+b（當(dāng)然了，為了讓y限定在0,1的范圍，一般

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

ML中的過擬合問題

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

ML中的過擬合問題

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔