今天內(nèi)容模型選擇課件_第1頁
今天內(nèi)容模型選擇課件_第2頁
今天內(nèi)容模型選擇課件_第3頁
今天內(nèi)容模型選擇課件_第4頁
今天內(nèi)容模型選擇課件_第5頁
已閱讀5頁,還剩77頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、今天內(nèi)容:模型選擇Occams razor測試誤差/訓(xùn)練誤差訓(xùn)練誤差的樂觀性估計(jì)Mallows Cp 統(tǒng)計(jì)量AICBIC/MDLSRM直接估計(jì)測試誤差交叉驗(yàn)證Bootstrap1今天內(nèi)容:模型選擇Occams razor1“模型”我們說的“模型”有時(shí)指的是模型類別 ,例如所有2個(gè)高斯的混合模型和所有3個(gè)高斯的混合模型。有時(shí)也指在一個(gè)類別的模型中的一員,如參數(shù) 的值為特定值。也就是說,模型的類別是固定的,而考慮的是不同的參數(shù)值。在實(shí)際應(yīng)用中,我們通常同時(shí)考慮上述兩種情況,也就是說:參數(shù) 的選擇統(tǒng)計(jì)決策理論部分已經(jīng)討論 ,在此主要討論不同函數(shù)族的選擇 2“模型”我們說的“模型”有時(shí)指的是模型類別

2、,例如所有Occams razor William of Occham (12851348)from wikipediaOccams razor: Entia non sunt multiplicanda praeter necessitatem Or: Entities should not be multiplied unnecessarily the explanation of any phenomenon should make as few assumptions as possible, eliminating, or shaving off, those that make n

3、o difference in the observable predictions of the explanatory hypothesis or theory. 3Occams razor William of OcchaOccams razor例:樹后面有多少個(gè)盒子?4Occams razor例:樹后面有多少個(gè)盒子?4模型選擇訓(xùn)練數(shù)據(jù)既包含輸入輸出之間的規(guī)律也包含噪聲模型匹配時(shí)會匹配上述兩種情況如果模型太復(fù)雜,會將噪聲也包含在模型中所以,好的模型足夠?qū)斎胼敵鲋g的規(guī)律建模不夠?qū)υ肼暯#僭O(shè)噪聲較弱)5模型選擇訓(xùn)練數(shù)據(jù)5一個(gè)回歸的例子 樣本數(shù)n = 10用M階多項(xiàng)式擬合:6一個(gè)回歸的

4、例子 樣本數(shù)n = 106一個(gè)回歸的例子(2)0階多項(xiàng)式擬合7一個(gè)回歸的例子(2)0階多項(xiàng)式擬合7一個(gè)回歸的例子(3)1階多項(xiàng)式擬合8一個(gè)回歸的例子(3)1階多項(xiàng)式擬合8一個(gè)回歸的例子(4)3階多項(xiàng)式擬合9一個(gè)回歸的例子(4)3階多項(xiàng)式擬合9一個(gè)回歸的例子(5)9階多項(xiàng)式擬合10一個(gè)回歸的例子(5)9階多項(xiàng)式擬合10一個(gè)回歸的例子(6) 過擬合:11一個(gè)回歸的例子(6) 過擬合:11一個(gè)回歸的例子(7) 回歸系數(shù):12一個(gè)回歸的例子(7) 回歸系數(shù):12一個(gè)回歸的例子(8)9階多項(xiàng)式擬合,訓(xùn)練樣本數(shù)n=1513一個(gè)回歸的例子(8)9階多項(xiàng)式擬合,訓(xùn)練樣本數(shù)n=1513一個(gè)回歸的例子(9)9階多

5、項(xiàng)式擬合,訓(xùn)練樣本數(shù)n=10014一個(gè)回歸的例子(9)9階多項(xiàng)式擬合,訓(xùn)練樣本數(shù)n=10014一個(gè)回歸的例子(10)嶺回歸:最小化15一個(gè)回歸的例子(10)嶺回歸:最小化15一個(gè)回歸的例子(11)嶺回歸16一個(gè)回歸的例子(11)嶺回歸16一個(gè)回歸的例子(12)嶺回歸17一個(gè)回歸的例子(12)嶺回歸17一個(gè)回歸的例子(13)嶺回歸系數(shù)18一個(gè)回歸的例子(13)嶺回歸系數(shù)18目標(biāo)模型選擇:估計(jì)不同模型的性能,選出最好的模型模型評估:已經(jīng)選定最終的模型,估計(jì)它在新數(shù)據(jù)上的預(yù)測誤差(泛化誤差)提升模型的性能:模型平均BaggingBoost教材第8章19目標(biāo)模型選擇:估計(jì)不同模型的性能,選出最好的模型

6、教材第8章1模型選擇和模型評估當(dāng)樣本足夠多時(shí),可以將數(shù)據(jù)分成三份訓(xùn)練集:估計(jì)模型的參數(shù)校驗(yàn)集:估計(jì)模型的預(yù)測誤差測試集:計(jì)算最終選定的模型的泛化誤差但通常沒有足夠多樣本,而且也很難說明多少足夠數(shù)據(jù)是足夠的依賴于基礎(chǔ)數(shù)據(jù)的信噪比和模型的復(fù)雜程度訓(xùn)練集校驗(yàn)集測試集20模型選擇和模型評估當(dāng)樣本足夠多時(shí),可以將數(shù)據(jù)分成三份訓(xùn)練集校模型選擇目標(biāo):選擇使測試誤差最小的模型M,稱為模型選擇。21模型選擇目標(biāo):選擇使測試誤差最小的模型M,稱為模型選擇。21訓(xùn)練誤差與測試誤差測試誤差,亦稱泛化誤差(generalization error ),是在與訓(xùn)練數(shù)據(jù)同分布的獨(dú)立測試樣本上的風(fēng)險(xiǎn)(平均損失):亦稱期望風(fēng)險(xiǎn)

7、訓(xùn)練誤差是在訓(xùn)練樣本上的平均損失:亦稱經(jīng)驗(yàn)風(fēng)險(xiǎn)22訓(xùn)練誤差與測試誤差測試誤差,亦稱泛化誤差(generaliz訓(xùn)練誤差與測試誤差目標(biāo)是選擇測試誤差最小的模型但測試誤差很難計(jì)算/估計(jì)用訓(xùn)練誤差估計(jì)但訓(xùn)練誤差是測試誤差的欠估計(jì)在選擇合適復(fù)雜性的模型時(shí),存在偏差-方差的平衡訓(xùn)練誤差的樂觀性23訓(xùn)練誤差與測試誤差目標(biāo)是選擇測試誤差最小的模型訓(xùn)練誤差的樂觀訓(xùn)練誤差與測試誤差經(jīng)驗(yàn)風(fēng)險(xiǎn)/訓(xùn)練誤差是否是期望風(fēng)險(xiǎn)/測試誤差的一個(gè)好的估計(jì)?隨樣本集容量n漸進(jìn)成立在小樣本條件下,并不是一個(gè)好的估計(jì)訓(xùn)練誤差是測試誤差的欠估計(jì)(有偏估計(jì))訓(xùn)練誤差的樂觀性24訓(xùn)練誤差與測試誤差經(jīng)驗(yàn)風(fēng)險(xiǎn)/訓(xùn)練誤差是否是期望風(fēng)險(xiǎn)/測試誤差訓(xùn)

8、練誤差的樂觀性通常我們有因此,為了選擇模型,我們可以對 進(jìn)行估計(jì),或以某種方式估計(jì)R(M)欠擬合程度 + 復(fù)雜性懲罰25訓(xùn)練誤差的樂觀性通常我們有欠擬合程度 + 復(fù)雜性懲罰25訓(xùn)練誤差的樂觀性估計(jì)預(yù)測誤差的方法估計(jì)樂觀性,然后與訓(xùn)練誤差 相加AIC/BIC/MDL等(模型與參數(shù)為線性關(guān)系時(shí))SRM直接估計(jì)測試誤差 交叉驗(yàn)證/bootstrap對任意損失函數(shù)、非線性自適應(yīng)擬合技術(shù)都適用26訓(xùn)練誤差的樂觀性估計(jì)預(yù)測誤差的方法26估計(jì)樂觀性通過各種技巧(通常是漸近性)估計(jì)樂觀性27估計(jì)樂觀性通過各種技巧(通常是漸近性)估計(jì)樂觀性27Mallows Cp 統(tǒng)計(jì)量 統(tǒng)計(jì)量:使用所有特征的模型28Mall

9、ows Cp 統(tǒng)計(jì)量 統(tǒng)計(jì)量AIC:Akaike Information Criterion當(dāng)采用log似然作為損失函數(shù),測試誤差為其中 為MLE,模型為 ,似然函數(shù)為則訓(xùn)練誤差為其中 為在訓(xùn)練集上的log似然。i為測試集上數(shù)據(jù)索引29AIC:Akaike Information CriteriAIC:Akaike Information Criterion當(dāng) 時(shí),其中這導(dǎo)出R(M)的一個(gè)估計(jì): AIC其中 為從一個(gè)低偏差(復(fù)雜的)估計(jì)的MSE獲得。(高斯模型時(shí),對數(shù)似然與平方誤差損失一致)30AIC:Akaike Information CriteriBIC :Bayesian Inform

10、ation Criterion類似AIC,可用于極大化對數(shù)似然實(shí)現(xiàn)的擬合中其中所以 同AIC31BIC :Bayesian Information CritBIC: Motivation用貝葉斯方法選擇模型32BIC: Motivation用貝葉斯方法選擇模型32回顧貝葉斯方法為書寫簡單,記訓(xùn)練數(shù)據(jù)為假設(shè)已知模型 的 的形式,參數(shù) 的貝葉斯估計(jì)為(見參數(shù)估計(jì)部分)定義模型參數(shù)的先驗(yàn)分布:和模型似然:當(dāng)有數(shù)據(jù)Z到達(dá)后,參數(shù)的分布(后驗(yàn)分布)變得更確定qs33回顧貝葉斯方法為書寫簡單,記訓(xùn)練數(shù)據(jù)為qs33貝葉斯方法與模型選擇給定一些列侯選模型 ,并且模型參數(shù)為某個(gè)給定的模型的后驗(yàn)概率為: 表示模型

11、的先驗(yàn) 表示證據(jù)(參數(shù)估計(jì)中的歸一化因子) 為了比較兩個(gè)模型,可以比較后驗(yàn)比:如果比值 1,則選擇第1個(gè)模型。34貝葉斯方法與模型選擇給定一些列侯選模型 貝葉斯方法與模型選擇 其中先驗(yàn)比 可以根據(jù)美學(xué)原理或經(jīng)驗(yàn)確定:如簡單的模型先驗(yàn)更高但先驗(yàn)比不是必須的,即使假設(shè)模型的先驗(yàn)是均勻的,即先驗(yàn)比為常數(shù),貝葉斯規(guī)則也傾向于選擇能解釋數(shù)據(jù)的最簡單模型:Occam剃刀原理。Bayes因子 表示數(shù)據(jù)Z對后驗(yàn)比值的貢獻(xiàn)(證據(jù))根據(jù)證據(jù)對模型排序35貝葉斯方法與模型選擇 35例: Occam剃刀原理簡單模型 只對有限范圍內(nèi)做預(yù)測 復(fù)雜模型 (如有更多自由參數(shù))能對更寬范圍做預(yù)測但對區(qū)域 中的數(shù)據(jù), 的預(yù)測不如

12、 強(qiáng)36例: Occam剃刀原理36證據(jù)證據(jù)(evidence)通常會在最可能的參數(shù) 附近有一個(gè)很強(qiáng)的峰。以一維參數(shù)為例:利用Laplace方法近似,即用被積函數(shù) 乘以其寬度37證據(jù)證據(jù)(evidence)37Occam因子(參數(shù)為多維情況) 其中38Occam因子(參數(shù)為多維情況) 38BIC :Bayesian Information Criterion當(dāng)模型為線性模型時(shí)用Laplace近似 其中 為極大似然估計(jì), 為模型中自由參數(shù)的數(shù)目當(dāng)損失函數(shù)取 ,導(dǎo)出貝葉斯信息準(zhǔn)則:39BIC :Bayesian Information CritBICAIC不是一致的,而BIC是一致的。也就是說,選

13、擇最小BIC的模型等價(jià)于選擇最大后驗(yàn)概率的模型(在漸近意義下)。事實(shí)上,模型的后驗(yàn)概率為不僅可以估計(jì)最好的模型,而且可以評估所考慮模型的相關(guān)指標(biāo)。但:假設(shè)候選模型包含正確的模型“Essentially, all models are wrong, but some are useful ” G.Box (1987)40BICAIC不是一致的,而BIC是一致的。也就是說,選擇最小最小描述長度MDL最小描述長度MDL(minimum description length)采用與BIC完全相同的選擇準(zhǔn)則,但它源自數(shù)據(jù)壓縮/最優(yōu)編碼BIC與MDL都只適用于似然損失。Rissanen, J. 1978.

14、 Modeling by shortest data description. Automatica, 14, 465-471.41最小描述長度MDL最小描述長度MDL(minimum desMDL可譯變長編碼:越頻繁的信息碼長越短平均信息長度越短消息的長度 與事件zi的概率 之間的關(guān)系為:為了傳遞具有概率密度為 的隨機(jī)變量zi ,需要大約 位平均信息長度熵:消息長度的下界42MDL可譯變長編碼:越頻繁的信息碼長越短熵:消息長度的下界4MDL假設(shè)我們有以為參數(shù)的模型M,和包含輸入輸出數(shù)據(jù)Z=(X,y),則傳遞輸出的消息長度為:選擇最小長度的模型等價(jià)于選擇最大后驗(yàn)概率的模型,同BIC傳遞模型參數(shù)

15、所需的平均消息長度用于傳遞模型與目標(biāo)差別所需要的平均消息長度43MDL假設(shè)我們有以為參數(shù)的模型M,和包含輸入輸出數(shù)據(jù)Z=(AIC vs. BICAIC:選擇使 最小的模型,也是使 最大的模型,其中 為log似然函數(shù), 表示模型中有效參數(shù)的數(shù)目極大似然,同時(shí)模型復(fù)雜度極小BIC:用貝葉斯方法選擇模型選擇最大后驗(yàn)概率的模型44AIC vs. BICAIC:44AIC vs. BIC均使用模型參數(shù)數(shù)目來度量復(fù)雜度對復(fù)雜度的懲罰參數(shù)的選擇不同BIC:漸近相容樣本容量n時(shí),選擇正確模型的概率1有限樣本情況下,當(dāng)取高斯噪聲時(shí), ,BIC中因子2被logn代替,對復(fù)雜性施加更嚴(yán)厲的懲罰,傾向于選擇簡單模型,

16、AIC傾向于選擇復(fù)雜模型45AIC vs. BIC均使用模型參數(shù)數(shù)目來度量復(fù)雜度45有效參數(shù)數(shù)目AIC/BIC中參數(shù)的數(shù)目可以擴(kuò)展到使用正則化擬合的模型對線性擬合其中 為 的矩陣,只依賴于輸入向量 ,與 無關(guān)則有效參數(shù)的數(shù)目為如對嶺回歸則有效參數(shù)數(shù)目為46有效參數(shù)數(shù)目AIC/BIC中參數(shù)的數(shù)目可以擴(kuò)展到使用正則化擬VC維(Vapnik-Chernovenkis Dimension)之前的樂觀性估計(jì)都適用于簡單模型和基于似然函數(shù)的。VC理論給出了模型復(fù)雜性更一般的度量函數(shù)類 的VC維可被函數(shù)集成員打散(shatter)的點(diǎn)的最大數(shù)目打散不管怎樣改變每個(gè)點(diǎn)的位置和標(biāo)記,某個(gè)類別的函數(shù)中的一員都能完

17、全分開這些點(diǎn),則稱為這些點(diǎn)能被該類別的函數(shù)打散。47VC維(Vapnik-Chernovenkis DimenVC維2D線性函數(shù)的VC維為3,等于參數(shù)的個(gè)數(shù)正弦函數(shù)的VC維:無窮,但參數(shù)只有一個(gè):頻率48VC維2D線性函數(shù)的VC維為3,等于參數(shù)的個(gè)數(shù)正弦函數(shù)的VCVC維如線性函數(shù)能打散2D平面上任意3點(diǎn),因此線性函數(shù)的VC維是3。通常D維線性函數(shù)的VC維是D + 1,也就是自由參數(shù)的數(shù)目。一個(gè)非線性的函數(shù)族的VC維可能無窮大,因?yàn)橥ㄟ^選擇合適的參數(shù),任何點(diǎn)的集合都能被該類的函數(shù)打散。實(shí)值函數(shù)類 的VC維定義指示函數(shù)類 的VC維,其中在 f 的值域上取值。49VC維如線性函數(shù)能打散2D平面上任意

18、3點(diǎn),因此線性函數(shù)的VCVC維函數(shù)集的VC維不一定等于自由參數(shù)的個(gè)數(shù)可為等于、大于或小于尚無一般方法對任意函數(shù)集計(jì)算VC維,只有一些函數(shù)集合的VC維可計(jì)算線性函數(shù)多項(xiàng)式三角函數(shù)等50VC維函數(shù)集的VC維不一定等于自由參數(shù)的個(gè)數(shù)50VC維與風(fēng)險(xiǎn)的界對兩類分類問題,假設(shè)函數(shù)類的VC維為h,則對該函數(shù)類中的每個(gè)模型,至少有 的概率滿足其中對回歸問題對回歸問題,建議 對分類問題,沒有建議,但 對應(yīng)最壞的情況51VC維與風(fēng)險(xiǎn)的界對兩類分類問題,假設(shè)函數(shù)類的VC維為h,則對VC維與風(fēng)險(xiǎn)的界 如果h有限的話,模型族的復(fù)雜性可以隨n增加而增加 當(dāng)h 較小時(shí),R(M) 和 Rtr 之間的差異小所以正則化回歸(如

19、嶺回歸)比一般最小二乘的推廣型更好52VC維與風(fēng)險(xiǎn)的界 52VC維與風(fēng)險(xiǎn)的界 稱為置信范圍,隨n增大而減小,隨h增加而增加,與AIC中的項(xiàng) d/n一致訓(xùn)練誤差有時(shí)亦稱經(jīng)驗(yàn)風(fēng)險(xiǎn),測試誤差亦稱期望風(fēng)險(xiǎn)對于特定的問題,樣本數(shù)目n一般是固定的, VC維越大,測試誤差與訓(xùn)練誤差之間的差就越大。因此我們在選擇模型時(shí),不但要使訓(xùn)練誤差最小化,還要使模型的復(fù)雜性也即VC維盡量小,從而使測試誤差最小。53VC維與風(fēng)險(xiǎn)的界 53結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則(Structural Risk Minimization, SRM)這個(gè)上界是對函數(shù)類中的全部成員(參數(shù)不同)給出可能的上界,而AIC描述的是類中某個(gè)特定成員(MLE)

20、的樂觀性估計(jì)。 結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則選擇具有最小上界的函數(shù)類別。注意:VC理論并沒有給出測試誤差的真正估計(jì),只是測試誤差的上界,所給出的界往往是松的54結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則(Structural Risk Min結(jié)構(gòu)風(fēng)險(xiǎn)最小化設(shè)計(jì)模型的目標(biāo):同時(shí)最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍如何同時(shí)最小化結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則把函數(shù)集S分解為一個(gè)函數(shù)子集序列(子集結(jié)構(gòu)) :S1 S2 Sk S,使得各子集能夠按照VC維的大小排列:h1 h2 hk ,同一個(gè)子集中的置信范圍就相同55結(jié)構(gòu)風(fēng)險(xiǎn)最小化設(shè)計(jì)模型的目標(biāo):55結(jié)構(gòu)風(fēng)險(xiǎn)最小化根據(jù)函數(shù)類的性質(zhì),將它劃分為一系列嵌套的子集如多項(xiàng)式的階數(shù)增加;嶺回歸的減??;神經(jīng)元網(wǎng)絡(luò)的隱含節(jié)

21、點(diǎn)數(shù)據(jù)增加學(xué)習(xí)問題:選擇一個(gè)適當(dāng)?shù)暮瘮?shù)子集(根據(jù)推廣性)并在該子集中選擇最好的函數(shù)(根據(jù)經(jīng)驗(yàn)風(fēng)險(xiǎn))56結(jié)構(gòu)風(fēng)險(xiǎn)最小化根據(jù)函數(shù)類的性質(zhì),將它劃分為一系列嵌套的子集5兩種構(gòu)造性方法一種方法:找到合適的模型類別,然后再這個(gè)類別的模型中找到使訓(xùn)練誤差最小的函數(shù),即保持置信范圍固定(通過選擇合適的模型類別)并最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)如人工神經(jīng)網(wǎng)絡(luò)先確定網(wǎng)絡(luò)的結(jié)構(gòu),然后再學(xué)習(xí)網(wǎng)絡(luò)的系數(shù)另一種方法:保持經(jīng)驗(yàn)風(fēng)險(xiǎn)固定(如為0),最小化置信范圍如SVM57兩種構(gòu)造性方法一種方法:找到合適的模型類別,然后再這個(gè)類別的直接估計(jì)測試誤差重采樣技術(shù):直接估計(jì)測試誤差R(M)交叉驗(yàn)證bootstrap58直接估計(jì)測試誤差重采樣技術(shù)

22、:直接估計(jì)測試誤差R(M)58交叉驗(yàn)證最簡單、最常用的估計(jì)預(yù)測誤差的方法思想:直接估計(jì)樣本外誤差 應(yīng)用到來自X與Y的聯(lián)合分布的獨(dú)立的測試集在 -折交叉驗(yàn)證中,數(shù)據(jù)被分成大致相等的 份。對第 份,用其余 份數(shù)據(jù)用于擬合模型 ,并在第 份數(shù)據(jù)上計(jì)算擬合好的模型的預(yù)測誤差59交叉驗(yàn)證最簡單、最常用的估計(jì)預(yù)測誤差的方法59K-折交叉驗(yàn)證數(shù)據(jù)被分成大致相等的K份第k=1,K份數(shù)據(jù)作為校驗(yàn)集,其余K-1份數(shù)據(jù)用于訓(xùn)練模型 ,并在第k份數(shù)據(jù)上計(jì)算訓(xùn)練好的模型的預(yù)測誤差例5-折交叉驗(yàn)證訓(xùn)練訓(xùn)練訓(xùn)練訓(xùn)練校驗(yàn)第1折:校驗(yàn)訓(xùn)練訓(xùn)練訓(xùn)練訓(xùn)練第2折:訓(xùn)練校驗(yàn)訓(xùn)練訓(xùn)練訓(xùn)練第3折:訓(xùn)練訓(xùn)練校驗(yàn)訓(xùn)練訓(xùn)練第4折:訓(xùn)練訓(xùn)練訓(xùn)練校

23、驗(yàn)訓(xùn)練第5折:60K-折交叉驗(yàn)證數(shù)據(jù)被分成大致相等的K份訓(xùn)練訓(xùn)練訓(xùn)練訓(xùn)練校驗(yàn)第交叉驗(yàn)證交叉驗(yàn)證對預(yù)測誤差的估計(jì)為其中 為去掉第k份數(shù)據(jù)后訓(xùn)練的模型。 對測試誤差提供了一個(gè)估計(jì), 通過最小化 確定調(diào)整參數(shù):最后被選中的模型為用所有數(shù)據(jù)擬合的模型61交叉驗(yàn)證交叉驗(yàn)證對預(yù)測誤差的估計(jì)為61學(xué)習(xí)曲線由于訓(xùn)練集減小,會引起偏差62學(xué)習(xí)曲線由于訓(xùn)練集減小,會引起偏差62交叉驗(yàn)證:K的值?如果 稱為留一交叉驗(yàn)證(leave-one-out cross-validation,LOOCV)。這是近似無偏的,但由于n個(gè)訓(xùn)練集彼此之間很相似,可能會有較高的方差。并且計(jì)算代價(jià)也很高(計(jì)算n次)。另一方面,當(dāng) CV為低

24、方差但偏差較大。在給定訓(xùn)練集合大小時(shí),如果學(xué)習(xí)曲線比較陡,則5-折、10-折CV會對真正的預(yù)測誤差過估計(jì)。通常取K=1063交叉驗(yàn)證:K的值?如果 稱為留一交叉BootstrapBootstrap是一個(gè)很通用的工具,用來估計(jì)測試誤差和置信區(qū)間參見第二部分:統(tǒng)計(jì)推斷用來估計(jì)預(yù)測誤差:從訓(xùn)練集中進(jìn)行bootstrap采樣,得到bootstrap樣本64BootstrapBootstrap是一個(gè)很通用的工具,用來Bootstrap測試誤差估計(jì)bootstrap來估計(jì)檢測誤差:但同時(shí)從訓(xùn)練集和校驗(yàn)集中采樣,當(dāng)二者有重疊時(shí),就引入了偏差。一種方法是leave-one-out bootstrap:其中 為

25、不包含觀測i的樣本b的索引的集合。這解決了過擬合問題,但樣本的減少帶來了類似CV中的偏差問題。為了處理樣本偏少的問題,采用“.632”估計(jì)子:65Bootstrap測試誤差估計(jì)bootstrap來估計(jì)檢測誤Bootstrap測試誤差估計(jì)“.632”估計(jì)子在“輕擬合”時(shí)表現(xiàn)很好,但在過擬合時(shí)會有問題,因此又引入 “.632+”估計(jì)子: 無信息誤差率 :如果輸入和類別標(biāo)號是獨(dú)立的,則 為預(yù)測規(guī)則的誤差率 過擬合率:“.632+”估計(jì)子:66Bootstrap測試誤差估計(jì)“.632”估計(jì)子在“輕擬合”Case study:前列腺癌數(shù)據(jù) 考慮模型族:嶺回歸模型復(fù)雜度參數(shù):有效參數(shù)數(shù)目:采用下述技術(shù)做模型選擇AICBICCVBootstrap67Case study:前列腺癌數(shù)據(jù) 考慮模型族:嶺回歸67AIC68AIC68BIC69BIC69SRM70SRM7010-折交叉驗(yàn)證最佳模型為 :7110-折交叉驗(yàn)證最佳模型為 :71Bootstrap0.632:72Bootstrap0.632:72Bootstrap0.632+:最小測試誤差73Bootstrap0.63

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論