今天內(nèi)容模型選擇課件

上傳人：d*** IP屬地：貴州上傳時(shí)間：2022-10-17 格式：PPT 頁數(shù)：82 大小：1.71MB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩77頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、今天內(nèi)容：模型選擇Occams razor測試誤差/訓(xùn)練誤差訓(xùn)練誤差的樂觀性估計(jì)Mallows Cp 統(tǒng)計(jì)量AICBIC/MDLSRM直接估計(jì)測試誤差交叉驗(yàn)證Bootstrap1今天內(nèi)容：模型選擇Occams razor1“模型”我們說的“模型”有時(shí)指的是模型類別，例如所有2個(gè)高斯的混合模型和所有3個(gè)高斯的混合模型。有時(shí)也指在一個(gè)類別的模型中的一員，如參數(shù) 的值為特定值。也就是說，模型的類別是固定的，而考慮的是不同的參數(shù)值。在實(shí)際應(yīng)用中，我們通常同時(shí)考慮上述兩種情況，也就是說：參數(shù) 的選擇統(tǒng)計(jì)決策理論部分已經(jīng)討論，在此主要討論不同函數(shù)族的選擇 2“模型”我們說的“模型”有時(shí)指的是模型類別

2、，例如所有Occams razor William of Occham (12851348)from wikipediaOccams razor: Entia non sunt multiplicanda praeter necessitatem Or： Entities should not be multiplied unnecessarily the explanation of any phenomenon should make as few assumptions as possible, eliminating, or shaving off, those that make n

3、o difference in the observable predictions of the explanatory hypothesis or theory. 3Occams razor William of OcchaOccams razor例：樹后面有多少個(gè)盒子？4Occams razor例：樹后面有多少個(gè)盒子？4模型選擇訓(xùn)練數(shù)據(jù)既包含輸入輸出之間的規(guī)律也包含噪聲模型匹配時(shí)會匹配上述兩種情況如果模型太復(fù)雜，會將噪聲也包含在模型中所以，好的模型足夠?qū)斎胼敵鲋g的規(guī)律建模不夠?qū)υ肼暯＃僭O(shè)噪聲較弱）5模型選擇訓(xùn)練數(shù)據(jù)5一個(gè)回歸的例子樣本數(shù)n = 10用M階多項(xiàng)式擬合：6一個(gè)回歸的

4、例子樣本數(shù)n = 106一個(gè)回歸的例子（2）0階多項(xiàng)式擬合7一個(gè)回歸的例子（2）0階多項(xiàng)式擬合7一個(gè)回歸的例子（3）1階多項(xiàng)式擬合8一個(gè)回歸的例子（3）1階多項(xiàng)式擬合8一個(gè)回歸的例子（4）3階多項(xiàng)式擬合9一個(gè)回歸的例子（4）3階多項(xiàng)式擬合9一個(gè)回歸的例子（5）9階多項(xiàng)式擬合10一個(gè)回歸的例子（5）9階多項(xiàng)式擬合10一個(gè)回歸的例子（6）過擬合：11一個(gè)回歸的例子（6）過擬合：11一個(gè)回歸的例子（7）回歸系數(shù)：12一個(gè)回歸的例子（7）回歸系數(shù)：12一個(gè)回歸的例子（8）9階多項(xiàng)式擬合，訓(xùn)練樣本數(shù)n=1513一個(gè)回歸的例子（8）9階多項(xiàng)式擬合，訓(xùn)練樣本數(shù)n=1513一個(gè)回歸的例子（9）9階多

5、項(xiàng)式擬合，訓(xùn)練樣本數(shù)n=10014一個(gè)回歸的例子（9）9階多項(xiàng)式擬合，訓(xùn)練樣本數(shù)n=10014一個(gè)回歸的例子（10）嶺回歸：最小化15一個(gè)回歸的例子（10）嶺回歸：最小化15一個(gè)回歸的例子（11）嶺回歸16一個(gè)回歸的例子（11）嶺回歸16一個(gè)回歸的例子（12）嶺回歸17一個(gè)回歸的例子（12）嶺回歸17一個(gè)回歸的例子（13）嶺回歸系數(shù)18一個(gè)回歸的例子（13）嶺回歸系數(shù)18目標(biāo)模型選擇：估計(jì)不同模型的性能，選出最好的模型模型評估：已經(jīng)選定最終的模型，估計(jì)它在新數(shù)據(jù)上的預(yù)測誤差（泛化誤差）提升模型的性能：模型平均BaggingBoost教材第8章19目標(biāo)模型選擇：估計(jì)不同模型的性能，選出最好的模型

6、教材第8章1模型選擇和模型評估當(dāng)樣本足夠多時(shí)，可以將數(shù)據(jù)分成三份訓(xùn)練集：估計(jì)模型的參數(shù)校驗(yàn)集：估計(jì)模型的預(yù)測誤差測試集：計(jì)算最終選定的模型的泛化誤差但通常沒有足夠多樣本，而且也很難說明多少足夠數(shù)據(jù)是足夠的依賴于基礎(chǔ)數(shù)據(jù)的信噪比和模型的復(fù)雜程度訓(xùn)練集校驗(yàn)集測試集20模型選擇和模型評估當(dāng)樣本足夠多時(shí)，可以將數(shù)據(jù)分成三份訓(xùn)練集校模型選擇目標(biāo)：選擇使測試誤差最小的模型M，稱為模型選擇。21模型選擇目標(biāo)：選擇使測試誤差最小的模型M，稱為模型選擇。21訓(xùn)練誤差與測試誤差測試誤差，亦稱泛化誤差(generalization error )，是在與訓(xùn)練數(shù)據(jù)同分布的獨(dú)立測試樣本上的風(fēng)險(xiǎn)（平均損失）：亦稱期望風(fēng)險(xiǎn)

7、訓(xùn)練誤差是在訓(xùn)練樣本上的平均損失：亦稱經(jīng)驗(yàn)風(fēng)險(xiǎn)22訓(xùn)練誤差與測試誤差測試誤差，亦稱泛化誤差(generaliz訓(xùn)練誤差與測試誤差目標(biāo)是選擇測試誤差最小的模型但測試誤差很難計(jì)算/估計(jì)用訓(xùn)練誤差估計(jì)但訓(xùn)練誤差是測試誤差的欠估計(jì)在選擇合適復(fù)雜性的模型時(shí)，存在偏差-方差的平衡訓(xùn)練誤差的樂觀性23訓(xùn)練誤差與測試誤差目標(biāo)是選擇測試誤差最小的模型訓(xùn)練誤差的樂觀訓(xùn)練誤差與測試誤差經(jīng)驗(yàn)風(fēng)險(xiǎn)/訓(xùn)練誤差是否是期望風(fēng)險(xiǎn)/測試誤差的一個(gè)好的估計(jì)？隨樣本集容量n漸進(jìn)成立在小樣本條件下，并不是一個(gè)好的估計(jì)訓(xùn)練誤差是測試誤差的欠估計(jì)（有偏估計(jì)）訓(xùn)練誤差的樂觀性24訓(xùn)練誤差與測試誤差經(jīng)驗(yàn)風(fēng)險(xiǎn)/訓(xùn)練誤差是否是期望風(fēng)險(xiǎn)/測試誤差訓(xùn)

8、練誤差的樂觀性通常我們有因此，為了選擇模型，我們可以對進(jìn)行估計(jì)，或以某種方式估計(jì)R(M)欠擬合程度 + 復(fù)雜性懲罰25訓(xùn)練誤差的樂觀性通常我們有欠擬合程度 + 復(fù)雜性懲罰25訓(xùn)練誤差的樂觀性估計(jì)預(yù)測誤差的方法估計(jì)樂觀性，然后與訓(xùn)練誤差相加AIC/BIC/MDL等（模型與參數(shù)為線性關(guān)系時(shí)）SRM直接估計(jì)測試誤差交叉驗(yàn)證/bootstrap對任意損失函數(shù)、非線性自適應(yīng)擬合技術(shù)都適用26訓(xùn)練誤差的樂觀性估計(jì)預(yù)測誤差的方法26估計(jì)樂觀性通過各種技巧（通常是漸近性）估計(jì)樂觀性27估計(jì)樂觀性通過各種技巧（通常是漸近性）估計(jì)樂觀性27Mallows Cp 統(tǒng)計(jì)量統(tǒng)計(jì)量：使用所有特征的模型28Mall

9、ows Cp 統(tǒng)計(jì)量統(tǒng)計(jì)量AIC：Akaike Information Criterion當(dāng)采用log似然作為損失函數(shù)，測試誤差為其中為MLE，模型為，似然函數(shù)為則訓(xùn)練誤差為其中為在訓(xùn)練集上的log似然。i為測試集上數(shù)據(jù)索引29AIC：Akaike Information CriteriAIC：Akaike Information Criterion當(dāng) 時(shí)，其中這導(dǎo)出R(M)的一個(gè)估計(jì)： AIC其中為從一個(gè)低偏差（復(fù)雜的）估計(jì)的MSE獲得。（高斯模型時(shí)，對數(shù)似然與平方誤差損失一致）30AIC：Akaike Information CriteriBIC ：Bayesian Inform

10、ation Criterion類似AIC，可用于極大化對數(shù)似然實(shí)現(xiàn)的擬合中其中所以同AIC31BIC ：Bayesian Information CritBIC: Motivation用貝葉斯方法選擇模型32BIC: Motivation用貝葉斯方法選擇模型32回顧貝葉斯方法為書寫簡單，記訓(xùn)練數(shù)據(jù)為假設(shè)已知模型的的形式，參數(shù) 的貝葉斯估計(jì)為（見參數(shù)估計(jì)部分）定義模型參數(shù)的先驗(yàn)分布：和模型似然：當(dāng)有數(shù)據(jù)Z到達(dá)后，參數(shù)的分布（后驗(yàn)分布）變得更確定qs33回顧貝葉斯方法為書寫簡單，記訓(xùn)練數(shù)據(jù)為qs33貝葉斯方法與模型選擇給定一些列侯選模型，并且模型參數(shù)為某個(gè)給定的模型的后驗(yàn)概率為：表示模型

11、的先驗(yàn) 表示證據(jù)（參數(shù)估計(jì)中的歸一化因子）為了比較兩個(gè)模型，可以比較后驗(yàn)比：如果比值 1，則選擇第1個(gè)模型。34貝葉斯方法與模型選擇給定一些列侯選模型貝葉斯方法與模型選擇其中先驗(yàn)比可以根據(jù)美學(xué)原理或經(jīng)驗(yàn)確定：如簡單的模型先驗(yàn)更高但先驗(yàn)比不是必須的，即使假設(shè)模型的先驗(yàn)是均勻的，即先驗(yàn)比為常數(shù)，貝葉斯規(guī)則也傾向于選擇能解釋數(shù)據(jù)的最簡單模型：Occam剃刀原理。Bayes因子表示數(shù)據(jù)Z對后驗(yàn)比值的貢獻(xiàn)（證據(jù)）根據(jù)證據(jù)對模型排序35貝葉斯方法與模型選擇 35例： Occam剃刀原理簡單模型只對有限范圍內(nèi)做預(yù)測復(fù)雜模型（如有更多自由參數(shù)）能對更寬范圍做預(yù)測但對區(qū)域中的數(shù)據(jù)，的預(yù)測不如

12、強(qiáng)36例： Occam剃刀原理36證據(jù)證據(jù)（evidence）通常會在最可能的參數(shù) 附近有一個(gè)很強(qiáng)的峰。以一維參數(shù)為例：利用Laplace方法近似，即用被積函數(shù) 乘以其寬度37證據(jù)證據(jù)（evidence）37Occam因子（參數(shù)為多維情況）其中38Occam因子（參數(shù)為多維情況） 38BIC ：Bayesian Information Criterion當(dāng)模型為線性模型時(shí)用Laplace近似其中為極大似然估計(jì)，為模型中自由參數(shù)的數(shù)目當(dāng)損失函數(shù)取，導(dǎo)出貝葉斯信息準(zhǔn)則：39BIC ：Bayesian Information CritBICAIC不是一致的，而BIC是一致的。也就是說，選

13、擇最小BIC的模型等價(jià)于選擇最大后驗(yàn)概率的模型（在漸近意義下）。事實(shí)上，模型的后驗(yàn)概率為不僅可以估計(jì)最好的模型，而且可以評估所考慮模型的相關(guān)指標(biāo)。但：假設(shè)候選模型包含正確的模型“Essentially, all models are wrong, but some are useful ” G.Box (1987)40BICAIC不是一致的，而BIC是一致的。也就是說，選擇最小最小描述長度MDL最小描述長度MDL（minimum description length）采用與BIC完全相同的選擇準(zhǔn)則，但它源自數(shù)據(jù)壓縮/最優(yōu)編碼BIC與MDL都只適用于似然損失。Rissanen, J. 1978.

14、 Modeling by shortest data description. Automatica, 14, 465-471.41最小描述長度MDL最小描述長度MDL（minimum desMDL可譯變長編碼：越頻繁的信息碼長越短平均信息長度越短消息的長度與事件zi的概率之間的關(guān)系為：為了傳遞具有概率密度為的隨機(jī)變量zi ，需要大約位平均信息長度熵：消息長度的下界42MDL可譯變長編碼：越頻繁的信息碼長越短熵：消息長度的下界4MDL假設(shè)我們有以為參數(shù)的模型M，和包含輸入輸出數(shù)據(jù)Z=(X,y)，則傳遞輸出的消息長度為：選擇最小長度的模型等價(jià)于選擇最大后驗(yàn)概率的模型，同BIC傳遞模型參數(shù)

15、所需的平均消息長度用于傳遞模型與目標(biāo)差別所需要的平均消息長度43MDL假設(shè)我們有以為參數(shù)的模型M，和包含輸入輸出數(shù)據(jù)Z=(AIC vs. BICAIC：選擇使最小的模型，也是使最大的模型，其中為log似然函數(shù)，表示模型中有效參數(shù)的數(shù)目極大似然，同時(shí)模型復(fù)雜度極小BIC:用貝葉斯方法選擇模型選擇最大后驗(yàn)概率的模型44AIC vs. BICAIC：44AIC vs. BIC均使用模型參數(shù)數(shù)目來度量復(fù)雜度對復(fù)雜度的懲罰參數(shù)的選擇不同BIC：漸近相容樣本容量n時(shí)，選擇正確模型的概率1有限樣本情況下，當(dāng)取高斯噪聲時(shí)，，BIC中因子2被logn代替，對復(fù)雜性施加更嚴(yán)厲的懲罰，傾向于選擇簡單模型，

16、AIC傾向于選擇復(fù)雜模型45AIC vs. BIC均使用模型參數(shù)數(shù)目來度量復(fù)雜度45有效參數(shù)數(shù)目AIC/BIC中參數(shù)的數(shù)目可以擴(kuò)展到使用正則化擬合的模型對線性擬合其中為的矩陣，只依賴于輸入向量，與無關(guān)則有效參數(shù)的數(shù)目為如對嶺回歸則有效參數(shù)數(shù)目為46有效參數(shù)數(shù)目AIC/BIC中參數(shù)的數(shù)目可以擴(kuò)展到使用正則化擬VC維(Vapnik-Chernovenkis Dimension)之前的樂觀性估計(jì)都適用于簡單模型和基于似然函數(shù)的。VC理論給出了模型復(fù)雜性更一般的度量函數(shù)類的VC維可被函數(shù)集成員打散（shatter）的點(diǎn)的最大數(shù)目打散不管怎樣改變每個(gè)點(diǎn)的位置和標(biāo)記，某個(gè)類別的函數(shù)中的一員都能完

17、全分開這些點(diǎn)，則稱為這些點(diǎn)能被該類別的函數(shù)打散。47VC維(Vapnik-Chernovenkis DimenVC維2D線性函數(shù)的VC維為3，等于參數(shù)的個(gè)數(shù)正弦函數(shù)的VC維：無窮，但參數(shù)只有一個(gè)：頻率48VC維2D線性函數(shù)的VC維為3，等于參數(shù)的個(gè)數(shù)正弦函數(shù)的VCVC維如線性函數(shù)能打散2D平面上任意3點(diǎn)，因此線性函數(shù)的VC維是3。通常D維線性函數(shù)的VC維是D + 1，也就是自由參數(shù)的數(shù)目。一個(gè)非線性的函數(shù)族的VC維可能無窮大，因?yàn)橥ㄟ^選擇合適的參數(shù)，任何點(diǎn)的集合都能被該類的函數(shù)打散。實(shí)值函數(shù)類的VC維定義指示函數(shù)類的VC維，其中在 f 的值域上取值。49VC維如線性函數(shù)能打散2D平面上任意

18、3點(diǎn)，因此線性函數(shù)的VCVC維函數(shù)集的VC維不一定等于自由參數(shù)的個(gè)數(shù)可為等于、大于或小于尚無一般方法對任意函數(shù)集計(jì)算VC維，只有一些函數(shù)集合的VC維可計(jì)算線性函數(shù)多項(xiàng)式三角函數(shù)等50VC維函數(shù)集的VC維不一定等于自由參數(shù)的個(gè)數(shù)50VC維與風(fēng)險(xiǎn)的界對兩類分類問題，假設(shè)函數(shù)類的VC維為h，則對該函數(shù)類中的每個(gè)模型，至少有的概率滿足其中對回歸問題對回歸問題，建議對分類問題，沒有建議，但對應(yīng)最壞的情況51VC維與風(fēng)險(xiǎn)的界對兩類分類問題，假設(shè)函數(shù)類的VC維為h，則對VC維與風(fēng)險(xiǎn)的界如果h有限的話，模型族的復(fù)雜性可以隨n增加而增加當(dāng)h 較小時(shí)，R(M) 和 Rtr 之間的差異小所以正則化回歸（如

19、嶺回歸）比一般最小二乘的推廣型更好52VC維與風(fēng)險(xiǎn)的界 52VC維與風(fēng)險(xiǎn)的界稱為置信范圍，隨n增大而減小，隨h增加而增加，與AIC中的項(xiàng) d/n一致訓(xùn)練誤差有時(shí)亦稱經(jīng)驗(yàn)風(fēng)險(xiǎn)，測試誤差亦稱期望風(fēng)險(xiǎn)對于特定的問題，樣本數(shù)目n一般是固定的， VC維越大，測試誤差與訓(xùn)練誤差之間的差就越大。因此我們在選擇模型時(shí)，不但要使訓(xùn)練誤差最小化，還要使模型的復(fù)雜性也即VC維盡量小，從而使測試誤差最小。53VC維與風(fēng)險(xiǎn)的界 53結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則(Structural Risk Minimization, SRM)這個(gè)上界是對函數(shù)類中的全部成員（參數(shù)不同）給出可能的上界，而AIC描述的是類中某個(gè)特定成員(MLE)

20、的樂觀性估計(jì)。結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則選擇具有最小上界的函數(shù)類別。注意：VC理論并沒有給出測試誤差的真正估計(jì)，只是測試誤差的上界，所給出的界往往是松的54結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則(Structural Risk Min結(jié)構(gòu)風(fēng)險(xiǎn)最小化設(shè)計(jì)模型的目標(biāo)：同時(shí)最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍如何同時(shí)最小化結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則把函數(shù)集S分解為一個(gè)函數(shù)子集序列（子集結(jié)構(gòu)）：S1 S2 Sk S，使得各子集能夠按照VC維的大小排列：h1 h2 hk ，同一個(gè)子集中的置信范圍就相同55結(jié)構(gòu)風(fēng)險(xiǎn)最小化設(shè)計(jì)模型的目標(biāo)：55結(jié)構(gòu)風(fēng)險(xiǎn)最小化根據(jù)函數(shù)類的性質(zhì)，將它劃分為一系列嵌套的子集如多項(xiàng)式的階數(shù)增加；嶺回歸的減??；神經(jīng)元網(wǎng)絡(luò)的隱含節(jié)

21、點(diǎn)數(shù)據(jù)增加學(xué)習(xí)問題：選擇一個(gè)適當(dāng)?shù)暮瘮?shù)子集（根據(jù)推廣性）并在該子集中選擇最好的函數(shù)（根據(jù)經(jīng)驗(yàn)風(fēng)險(xiǎn)）56結(jié)構(gòu)風(fēng)險(xiǎn)最小化根據(jù)函數(shù)類的性質(zhì)，將它劃分為一系列嵌套的子集5兩種構(gòu)造性方法一種方法：找到合適的模型類別，然后再這個(gè)類別的模型中找到使訓(xùn)練誤差最小的函數(shù)，即保持置信范圍固定（通過選擇合適的模型類別）并最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)如人工神經(jīng)網(wǎng)絡(luò)先確定網(wǎng)絡(luò)的結(jié)構(gòu)，然后再學(xué)習(xí)網(wǎng)絡(luò)的系數(shù)另一種方法：保持經(jīng)驗(yàn)風(fēng)險(xiǎn)固定（如為0），最小化置信范圍如SVM57兩種構(gòu)造性方法一種方法：找到合適的模型類別，然后再這個(gè)類別的直接估計(jì)測試誤差重采樣技術(shù)：直接估計(jì)測試誤差R(M)交叉驗(yàn)證bootstrap58直接估計(jì)測試誤差重采樣技術(shù)

22、：直接估計(jì)測試誤差R(M)58交叉驗(yàn)證最簡單、最常用的估計(jì)預(yù)測誤差的方法思想：直接估計(jì)樣本外誤差應(yīng)用到來自X與Y的聯(lián)合分布的獨(dú)立的測試集在 -折交叉驗(yàn)證中，數(shù)據(jù)被分成大致相等的份。對第份，用其余份數(shù)據(jù)用于擬合模型，并在第份數(shù)據(jù)上計(jì)算擬合好的模型的預(yù)測誤差59交叉驗(yàn)證最簡單、最常用的估計(jì)預(yù)測誤差的方法59K-折交叉驗(yàn)證數(shù)據(jù)被分成大致相等的K份第k=1,K份數(shù)據(jù)作為校驗(yàn)集，其余K-1份數(shù)據(jù)用于訓(xùn)練模型，并在第k份數(shù)據(jù)上計(jì)算訓(xùn)練好的模型的預(yù)測誤差例5-折交叉驗(yàn)證訓(xùn)練訓(xùn)練訓(xùn)練訓(xùn)練校驗(yàn)第1折：校驗(yàn)訓(xùn)練訓(xùn)練訓(xùn)練訓(xùn)練第2折：訓(xùn)練校驗(yàn)訓(xùn)練訓(xùn)練訓(xùn)練第3折：訓(xùn)練訓(xùn)練校驗(yàn)訓(xùn)練訓(xùn)練第4折：訓(xùn)練訓(xùn)練訓(xùn)練校

23、驗(yàn)訓(xùn)練第5折：60K-折交叉驗(yàn)證數(shù)據(jù)被分成大致相等的K份訓(xùn)練訓(xùn)練訓(xùn)練訓(xùn)練校驗(yàn)第交叉驗(yàn)證交叉驗(yàn)證對預(yù)測誤差的估計(jì)為其中為去掉第k份數(shù)據(jù)后訓(xùn)練的模型。對測試誤差提供了一個(gè)估計(jì)，通過最小化確定調(diào)整參數(shù)：最后被選中的模型為用所有數(shù)據(jù)擬合的模型61交叉驗(yàn)證交叉驗(yàn)證對預(yù)測誤差的估計(jì)為61學(xué)習(xí)曲線由于訓(xùn)練集減小，會引起偏差62學(xué)習(xí)曲線由于訓(xùn)練集減小，會引起偏差62交叉驗(yàn)證：K的值?如果稱為留一交叉驗(yàn)證(leave-one-out cross-validation，LOOCV)。這是近似無偏的，但由于n個(gè)訓(xùn)練集彼此之間很相似，可能會有較高的方差。并且計(jì)算代價(jià)也很高（計(jì)算n次）。另一方面，當(dāng) CV為低

24、方差但偏差較大。在給定訓(xùn)練集合大小時(shí)，如果學(xué)習(xí)曲線比較陡，則5-折、10-折CV會對真正的預(yù)測誤差過估計(jì)。通常取K=1063交叉驗(yàn)證：K的值?如果稱為留一交叉BootstrapBootstrap是一個(gè)很通用的工具，用來估計(jì)測試誤差和置信區(qū)間參見第二部分：統(tǒng)計(jì)推斷用來估計(jì)預(yù)測誤差：從訓(xùn)練集中進(jìn)行bootstrap采樣，得到bootstrap樣本64BootstrapBootstrap是一個(gè)很通用的工具，用來Bootstrap測試誤差估計(jì)bootstrap來估計(jì)檢測誤差：但同時(shí)從訓(xùn)練集和校驗(yàn)集中采樣，當(dāng)二者有重疊時(shí)，就引入了偏差。一種方法是leave-one-out bootstrap:其中為

25、不包含觀測i的樣本b的索引的集合。這解決了過擬合問題，但樣本的減少帶來了類似CV中的偏差問題。為了處理樣本偏少的問題，采用“.632”估計(jì)子：65Bootstrap測試誤差估計(jì)bootstrap來估計(jì)檢測誤Bootstrap測試誤差估計(jì)“.632”估計(jì)子在“輕擬合”時(shí)表現(xiàn)很好，但在過擬合時(shí)會有問題，因此又引入 “.632+”估計(jì)子：無信息誤差率：如果輸入和類別標(biāo)號是獨(dú)立的，則為預(yù)測規(guī)則的誤差率過擬合率：“.632+”估計(jì)子：66Bootstrap測試誤差估計(jì)“.632”估計(jì)子在“輕擬合”Case study：前列腺癌數(shù)據(jù) 考慮模型族：嶺回歸模型復(fù)雜度參數(shù)：有效參數(shù)數(shù)目：采用下述技術(shù)做模型選擇AICBICCVBootstrap67Case study：前列腺癌數(shù)據(jù) 考慮模型族：嶺回歸67AIC68AIC68BIC69BIC69SRM70SRM7010-折交叉驗(yàn)證最佳模型為：7110-折交叉驗(yàn)證最佳模型為：71Bootstrap0.632：72Bootstrap0.632：72Bootstrap0.632+：最小測試誤差73Bootstrap0.63

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

今天內(nèi)容模型選擇課件

文檔簡介

溫馨提示

最新文檔

評論

今天內(nèi)容模型選擇課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔