通過LASSO回歸壓縮和選擇._第1頁
通過LASSO回歸壓縮和選擇._第2頁
通過LASSO回歸壓縮和選擇._第3頁
通過LASSO回歸壓縮和選擇._第4頁
通過LASSO回歸壓縮和選擇._第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、通過LASSO回歸壓縮和選擇Robert·Tibshirani加拿大多倫多大學(xué)【1994年1月收到,1995年1月修訂】【摘要】本文提出一個(gè)線性模型估計(jì)的新方法。LASSO最小化殘差平方和使得系數(shù)絕對(duì)值之和小于一個(gè)常數(shù)。由于此約束的性質(zhì)傾向于產(chǎn)生一些為0的系數(shù),從而給出了解釋模型。我們的仿真研究表明,LASSO具有一些子集選擇和嶺回歸的有利特性。它產(chǎn)生了例如子集選擇的解釋模型并展示了嶺回歸的穩(wěn)定性。在最近的工作中關(guān)于多諾霍和約翰斯通的自適應(yīng)函數(shù)估計(jì)也有一些有趣的關(guān)系。LASSO思想是相當(dāng)廣泛的并可用于各種統(tǒng)計(jì)模型:本文簡要介紹了廣義的回歸模型和基于樹的模型的擴(kuò)展。關(guān)鍵詞:二次規(guī)劃;回

2、歸;壓縮;子集選擇1.引言考慮通常的回歸情況:已知數(shù)據(jù)其中和分別是觀察數(shù)據(jù)的第個(gè)回歸因子和響應(yīng)量。通過最小化殘差平方的誤差得到普通最小二乘法(OLS)估計(jì)。數(shù)據(jù)分析師經(jīng)常不滿意OLS估計(jì)值有兩個(gè)原因。第一是預(yù)測(cè)精度:OLS估計(jì)經(jīng)常是低偏壓高方差;預(yù)測(cè)精度有時(shí)可以通過壓縮或設(shè)置一些系數(shù)為0進(jìn)行改善。通過這樣,犧牲一些偏壓,減少預(yù)測(cè)值的方差,從而提高可以總體的預(yù)測(cè)精度。第二個(gè)原因是解釋。擁有大量的經(jīng)常想要決定更小子集的預(yù)測(cè)值,我們表現(xiàn)出強(qiáng)烈的影響。改進(jìn)OLS估計(jì)的子集選擇和嶺回歸這兩種標(biāo)準(zhǔn)標(biāo)準(zhǔn)技術(shù)都有缺點(diǎn)。子集選擇提供可解釋模型,但是由于它是一個(gè)從模型中保留或刪除的離散過程變量,它可能極其易變。數(shù)

3、據(jù)的一點(diǎn)更改可能導(dǎo)致選中非常不同的模型,這樣可以減少其預(yù)測(cè)精度。嶺回歸是一個(gè)系數(shù)收縮的連續(xù)的過程,并且因此更加穩(wěn)定:然而,它的任何系數(shù)都不為0,因此沒有給出一個(gè)容易解釋的模型。我們提出一個(gè)新技術(shù),LASSO即最小絕對(duì)收縮和選擇算子。它將一些系數(shù)收縮,其他的系數(shù)設(shè)置為0,從而試圖保持子集選擇和嶺回歸的良好特征。第2節(jié)給出LASSO的定義,看一些特殊情況。第3節(jié)給出真實(shí)數(shù)據(jù)示例,而在第4節(jié)我們討論預(yù)測(cè)誤差與LASSO收縮參數(shù)估計(jì)的方法。第5節(jié)簡要介紹LASSO的貝葉斯模型。第6節(jié)描述LASSO算法。第7節(jié)描述仿真研究。第8、9節(jié)討論廣義回歸模型的擴(kuò)展和其他問題。一些關(guān)于soft threshold

4、ing和與LASSO的關(guān)系的結(jié)果在第10節(jié)中進(jìn)行了討論,第11節(jié)包括一些討論和總結(jié)。2.LASSO方法2.1定義假設(shè)已知數(shù)據(jù)其中是預(yù)測(cè)變量,是響應(yīng)變量。在一般的回歸設(shè)置中,我們假設(shè)觀測(cè)值獨(dú)立或者對(duì)給定的,是條件獨(dú)立的。假設(shè)是標(biāo)準(zhǔn)化的,那么,。令,LASSO估計(jì)的定義如下: (1)其中,調(diào)優(yōu)參數(shù) ?,F(xiàn)在對(duì)于所有,的解決方案是。我們可以假設(shè)不是一般性,因此省略。方程(1)的解決方案的計(jì)算是具有線性不等式約束的二次規(guī)劃問題。在第6節(jié),針對(duì)這個(gè)問題,我們描述了一些高效、穩(wěn)定的算法。參數(shù)控制了應(yīng)用于估計(jì)的收縮量。令為完全最小二乘估計(jì),。將導(dǎo)致方案的收縮趨向于0,并且一些系數(shù)可能剛好等于0。例如,如果,效

5、果會(huì)大致類似于尋找大小為的最優(yōu)特征子集。還要注意,設(shè)置的矩陣不一定需要滿秩。在第4節(jié),我們給出基于數(shù)據(jù)的估計(jì)的方法。LASSO的動(dòng)機(jī)來自于布賴曼(1993)的一個(gè)提議。布賴曼的非負(fù)最小化。 (2)始于普通最小二乘估計(jì),通過總和被限制的非負(fù)因素進(jìn)行收縮。在廣泛的仿真研究中,布賴曼顯示,除非真正的模型中有許多小的非零系數(shù),具有保持比子集選擇更低的預(yù)測(cè)誤差且與嶺回歸具有競(jìng)爭(zhēng)力。的一個(gè)缺點(diǎn)是它的解決方案取決于標(biāo)志和OLS估計(jì)量。在OLS表現(xiàn)不佳的過擬合或高度相關(guān)的設(shè)置中,可能會(huì)深受其害。相比之下,LASSO避免顯示使用OLS估計(jì)。弗蘭克和弗里德曼(1993)提出了使用綁定的參數(shù)范數(shù),是一個(gè)大于等于0的

6、數(shù);LASSO方法中。在第10節(jié)中簡要討論了這個(gè)問題。2.2正交設(shè)計(jì)深入了解收縮的性質(zhì)可以從正交設(shè)計(jì)案例中進(jìn)行收集。令為既定矩陣,元素為,假定,為單位矩陣。方程(1)的解很容易證明是 (3)其中,由決定。有趣的是,這與多諾霍和約翰斯通(1994)和多諾霍等人(1995)提出的軟收縮建議具有相同的形式,應(yīng)用于小波系數(shù)的函數(shù)估計(jì)。軟收縮和最低范數(shù)懲罰的關(guān)系也由多諾霍等人(1992)在非負(fù)參數(shù)信號(hào)和圖像恢復(fù)中指出。我們將在第10節(jié)進(jìn)行詳細(xì)的解釋說明。在正交設(shè)計(jì)的情況下,大小為的最佳子集的選擇減少到最大系數(shù)的絕對(duì)值,將其余的設(shè)置為0。對(duì)的一些選擇相當(dāng)于如果,設(shè)置;否則設(shè)置為0。嶺回歸使得下面式子最小或

7、者等價(jià)地,使得如下最小 (4)嶺回歸的解是:其中取決于或。估計(jì)是圖1顯示了這些函數(shù)的曲線。嶺回歸用一個(gè)常數(shù)因子衡量系數(shù),然而LASSO通過常數(shù)因子轉(zhuǎn)換,截?cái)酁?。函數(shù)與LASSO十分相近,都是系數(shù)愈大收縮愈小。我們的仿真程序顯示,當(dāng)設(shè)計(jì)不是正交時(shí),與LASSO差異可能會(huì)很大。2.3LASSO幾何從圖1中很明顯的看出為什么LASSO產(chǎn)生的系數(shù)經(jīng)常是0。為什么這種情況會(huì)出現(xiàn)在一般(非正交)的設(shè)置中?并且為什么這種現(xiàn)象在嶺回歸中沒有出現(xiàn),其中嶺回歸使用的約束條件是而不是?圖2提供了當(dāng)時(shí)的試圖。標(biāo)準(zhǔn)與加上一個(gè)常數(shù)相等。由圖2(a),函數(shù)的橢圓輪廓由全曲線顯示出來;它們集中于OLS估計(jì)周圍;約束區(qū)域是個(gè)

8、旋轉(zhuǎn)的正方形。LASSO解決方案是首先輪廓觸摸了廣場(chǎng),并且有時(shí)這也會(huì)發(fā)生在一個(gè)角落,該角落對(duì)應(yīng)于系數(shù)為0的地方。圖2(b)顯示了嶺回歸的圖像,沒有有角的輪廓,因此很少有零解。這個(gè)圖片中出現(xiàn)了一個(gè)有趣的問題:LASSO估計(jì)的符號(hào)可以與最小二乘估計(jì)不同嗎?由于變量是標(biāo)準(zhǔn)化的,當(dāng)時(shí),主要的輪廓線軸線與坐標(biāo)軸成,并且我們可以表明,輪廓必需與包含的正方形在同一個(gè)象限中。然而,當(dāng)時(shí),在數(shù)據(jù)上至少是中度相關(guān),這不必是真的。圖3在三維空間中進(jìn)行舉例。圖3(b)中的視圖證實(shí):橢圓與約束區(qū)域在第八象限的接觸與它中心所在的象限不同。圖1. (a)子集選擇,(b)嶺回歸,(c)LASSO和(d)garotte:,正交

9、設(shè)計(jì)情況下,系數(shù)壓縮的形式;·········傾斜角為45°的線作為參考圖2. (a)是LASSO的預(yù)估圖像,(b)是嶺回歸的預(yù)估圖像 圖3. (a)不同于總體最小二乘估計(jì)LASSO估計(jì)落在第八區(qū)的例子;(b)俯視圖然而,保留了每個(gè)的符號(hào),LASSO可以改變符號(hào)。甚至在LASSO估計(jì)與有相同符號(hào)的矢量的情況下,中OLS估計(jì)得存在也會(huì)使結(jié)果不同。帶有約束條件的模型可以表示成約束條件是,模型為。舉例,如果且,效果將會(huì)橫向拉伸圖2(a)的正方形。結(jié)果,青睞于較大的和較小的。2.4關(guān)于兩個(gè)預(yù)測(cè)的其他信息

10、假設(shè),并且不失一般性,最小二乘估計(jì)都是正的。那么我們可以展示LASSO估計(jì)是圖4. 對(duì)于兩個(gè)預(yù)測(cè)值的例子,實(shí)線表示LASSO,虛線表示嶺回歸:曲線說明,作為LASSO或者嶺回歸參數(shù)的數(shù)據(jù)對(duì)是變化的;從底部的虛線開始并向上移動(dòng),相關(guān)系數(shù)是0,0.23,0.45,0.68和0.90 (5)其中選定使得。這個(gè)公式適用于時(shí),并且及時(shí)預(yù)測(cè)值是相關(guān)的這個(gè)公式也是有效的。解得出 (6)相反,嶺回歸收縮的形式取決于預(yù)測(cè)值的相關(guān)性。圖4給出了一個(gè)例子。在沒有干擾的情況下,我們從模型中產(chǎn)生100個(gè)數(shù)據(jù)點(diǎn)。這里和是標(biāo)準(zhǔn)正常變量,兩者的相關(guān)系數(shù)為。圖4的曲線表明嶺回歸和LASSO估計(jì)得邊界和是變化的。對(duì)的所有值,LA

11、SSO估計(jì)均遵循全曲線。嶺回歸估計(jì)(間斷的曲線)取決于。當(dāng)時(shí),嶺回歸成比例收縮。然而,對(duì)于更大的值嶺估計(jì)收縮變得不同并且邊界降低是甚至可以增加一點(diǎn)。杰羅姆·弗里德曼指出,這是由于嶺回歸試圖使系數(shù)等于他們最小平方范數(shù)的趨勢(shì)。2.5標(biāo)準(zhǔn)誤差由于LASSO估計(jì)是響應(yīng)值的一個(gè)非線性、非可微函數(shù),即使對(duì)應(yīng)固定的,所以很難得到標(biāo)準(zhǔn)誤差的一個(gè)準(zhǔn)確估計(jì)。一種方法是通過自助法;要么可以固定,要么為每個(gè)樣本對(duì)進(jìn)行優(yōu)化。固定類似于選擇一個(gè)最佳子集,然后對(duì)每個(gè)子集使用最小二乘標(biāo)準(zhǔn)誤差。一個(gè)近似封閉的形式估計(jì)可能通過把懲罰寫成得到。因此,對(duì)于LASSO估計(jì),我們可以通過形式的嶺回歸近似解決,其中是一個(gè)對(duì)角矩陣

12、,對(duì)角元素為,是的廣義逆矩陣并且的選定使得成立。估計(jì)的協(xié)方差矩陣可以用以下近似 (7)其中是誤差方差的一個(gè)估計(jì)值。這個(gè)公式的一個(gè)困難在于對(duì)的預(yù)測(cè)值給出了0的一個(gè)估計(jì)方差。這種近似也表明了計(jì)算LASSO估計(jì)本身的一個(gè)迭代嶺回歸的算法,但這是很低效的。然而,它對(duì)LASSO參數(shù)(第4節(jié))的選擇很有用。3.例子前列腺癌數(shù)據(jù)前列腺數(shù)據(jù)來自于斯塔米等人(1989)的一項(xiàng)研究,檢查接受根治性前列腺切除術(shù)的人前列腺特異性抗原水平與臨床措施的相關(guān)性。因素有:日志(癌癥卷)(lcaval)、日志(前列腺重量)(lweight)、年齡、日志(良性前列腺增生)(lbph)、精囊入侵(svi)、日志(莢膜滲透)(lcp

13、)、格里森評(píng)分(gleason)和百分比格里森評(píng)分4或5(pgg45)。在第一個(gè)標(biāo)準(zhǔn)化預(yù)測(cè)因子后,我們找到適合日志(前列腺特異抗原)(lpsa)的線性模型。圖5. 前列腺癌例子中,系數(shù)的LASSO壓縮:每個(gè)曲線代表了一個(gè)系數(shù)(右邊有標(biāo)注),該曲線作為LASSO參數(shù)(沒有將截距畫出來);虛線代表了的模型,該值是由廣義交叉驗(yàn)證所得的最優(yōu)值圖5顯示了作為一個(gè)綁定的標(biāo)準(zhǔn)函數(shù)的LASSO估計(jì)。請(qǐng)注意,隨著趨于0,每個(gè)系數(shù)的絕對(duì)值也趨于0。在這個(gè)例子中,曲線單調(diào)且趨于0,但一般情況下不會(huì)總發(fā)生。單調(diào)性的缺乏是由嶺回歸與子集選擇所共同承擔(dān),例如,大小為5的最優(yōu)特征子集可能不包含大小為4的最優(yōu)特征子集。垂直的

14、虛線是當(dāng)時(shí)的模型,該值是由廣義交叉驗(yàn)證所得的最優(yōu)值。粗略地說,這與保持略低于預(yù)測(cè)值的一半相對(duì)應(yīng)。表1顯示了完全最小二乘法、最優(yōu)子集和LASSO程序的結(jié)果。第7.1節(jié)會(huì)給出所使用的最佳子集的詳細(xì)步驟。LASSO給出了癌癥卷、前列腺重量和精囊入侵的非零系數(shù);子集選擇選擇了同樣的三個(gè)預(yù)測(cè)因子。請(qǐng)注意,子集選擇所選擇的預(yù)測(cè)因子的系數(shù)和得分往往比完整模型值大;這在呈正相關(guān)的預(yù)測(cè)中是常見的。然而,LASSO顯示了相反的作用,因?yàn)樗鼜耐暾哪P椭抵袎嚎s系數(shù)的得分。倒數(shù)第二列的標(biāo)準(zhǔn)誤差通過充分的最小二乘法殘差的自助重采樣進(jìn)行估計(jì)。標(biāo)準(zhǔn)誤差的計(jì)算是通過對(duì)原始數(shù)據(jù)集中的取最優(yōu)值0.44計(jì)算得到。表2表1表2圖6.

15、 在前列腺癌例子中,盒狀圖中給出了8個(gè)預(yù)測(cè)值LASSO系數(shù)估計(jì)的200個(gè)引導(dǎo)值 比較了嶺估計(jì)近似公式(7)固定自助值和在自助法中對(duì)每個(gè)樣本重新估計(jì)。除了零系數(shù),嶺估計(jì)公式給了一個(gè)自助值的一個(gè)相當(dāng)好的近似。允許變化包含額外的變異來源,因此給出了一個(gè)較大的標(biāo)準(zhǔn)誤差估計(jì)。圖6顯示固定估計(jì)值為0.44的LASSO估計(jì)的200自助復(fù)制的框塊。估計(jì)系數(shù)為0的預(yù)測(cè)因子展示傾斜自助分布。中央百分之九十的時(shí)間間隔(自助分布的第五百分位和第九十五百分位)都包含零,癌癥卷和精囊入侵這些例外。4.的誤差預(yù)測(cè)與估計(jì)在本節(jié)中我們描述了LASSO參數(shù)的三種估計(jì)方法:交叉驗(yàn)證、廣義交叉驗(yàn)證和分析風(fēng)險(xiǎn)的無偏估計(jì)。嚴(yán)格地說,前兩

16、種方法適合于“X-random”情況,在這種情況下假設(shè)觀測(cè)值來自于未知分布,第三種方法適用于“X-fixed”情況。然而,在現(xiàn)實(shí)中存在的問題往往不能明確的區(qū)分這兩種情況,我們可能只需選擇最有效的方法。假設(shè)其中,。估計(jì)的均方誤差定義如下:固定,預(yù)期接管和的聯(lián)合分布。類似的措施是的預(yù)測(cè)誤差由下式給出 . (8)我們通過五倍交叉驗(yàn)證正如埃夫隆和Tibshirani(1993)所描述(例子)的估計(jì)LASSO步驟的預(yù)測(cè)誤差。在歸一化參數(shù)的條件下索引LASSO,并且預(yù)測(cè)誤差是由從0到1的網(wǎng)格估計(jì)出來的。選擇了產(chǎn)生的最低的估計(jì)值。報(bào)道了而不是方面的仿真結(jié)果。本文考慮到的線性模型,均方誤差有很簡單的形式其中是

17、的總體協(xié)方差矩陣。估計(jì)的第二種方法來自于LASSO估計(jì)的線性近似。我們把約束寫成。這個(gè)約束就等價(jià)于在殘差和或殘差平方上增加一個(gè)拉格朗日懲罰,其中取決于。因此,我們可以把約束解決方案寫成嶺回歸估計(jì) (9)其中,表示廣義逆矩陣。因此,在約束中適合的有效參數(shù)量可以用以下進(jìn)行近似令為約束與約束的殘差平方和,我們構(gòu)建了廣義交叉驗(yàn)證的方式統(tǒng)計(jì) (10)最后,我們概述基于斯坦風(fēng)險(xiǎn)無偏估計(jì)的第三種方法。假設(shè)是一個(gè)多元正態(tài)隨機(jī)向量,均值為,方差為單位矩陣。令為的一個(gè)估計(jì)值,并且,其中是一個(gè)從到(見斯坦(1981)的定義1)的一個(gè)基本可微函數(shù)。然后斯坦(1981)顯示 (11)我們可以將這個(gè)結(jié)果應(yīng)用于LASSO估

18、計(jì)(3)。用表示的估計(jì)標(biāo)準(zhǔn)誤差,其中那么是大約獨(dú)立的標(biāo)準(zhǔn)正態(tài)變量,并且從方程(11)中我們可以得到公式作為風(fēng)險(xiǎn)的近似無偏估計(jì)或均方誤差,其中。多諾霍和約翰斯通(1994)在方程估計(jì)設(shè)置中給出了一個(gè)相似公式。因此,的一個(gè)估計(jì)可以由的最小化得到:從這我們可以得到LASSO參數(shù)的一個(gè)估計(jì):盡管推導(dǎo)的前提是正交設(shè)計(jì),在非正交設(shè)置的時(shí)候,我們也試圖使用它。自從預(yù)測(cè)值標(biāo)準(zhǔn)化,的最優(yōu)值大約是數(shù)據(jù)中整體信號(hào)信噪比的函數(shù),并且它應(yīng)該對(duì)的協(xié)方差相對(duì)不敏感。(相比之下,LASSO估計(jì)的形式對(duì)協(xié)方差敏感,我們需要適當(dāng)?shù)乜紤]它。)7.2節(jié)的仿真示例表明該方法給予了一個(gè)有用的估計(jì)。但是我們僅僅只能提供一個(gè)啟發(fā)式的論點(diǎn)來支

19、持它。假設(shè),令因?yàn)榈牧幸呀?jīng)標(biāo)準(zhǔn)化,在形狀上與不同但是有大致大小相同的邊緣投影。因此的最優(yōu)值應(yīng)該在每個(gè)實(shí)例中相同。最后,注意到斯坦方法在的交叉驗(yàn)證估計(jì)具有顯著的計(jì)算優(yōu)勢(shì)。在我們的實(shí)驗(yàn)中,我們優(yōu)化LASSO參數(shù)的15個(gè)值的網(wǎng)格并且使用了五倍的交叉驗(yàn)證。結(jié)果,交叉驗(yàn)證方法要求第六節(jié)模型最優(yōu)化步驟的75個(gè)應(yīng)用而斯坦方法值要求一個(gè)。廣義交叉驗(yàn)證方法的要求在這兩個(gè)中間,要求每個(gè)網(wǎng)格點(diǎn)有一個(gè)優(yōu)化過程的程序。5.LASSO貝葉斯估計(jì)LASSO約束相當(dāng)于對(duì)殘差平方和(見穆雷等人(1981),第五章)添加懲罰條件?,F(xiàn)在,與雙指數(shù)分布的(負(fù))對(duì)數(shù)密度是成正比的。結(jié)果,我們可以得出在的獨(dú)立雙指數(shù)先驗(yàn)信息下LASSO估

20、計(jì)作為貝葉斯后驗(yàn)?zāi)P停渲袌D7顯示了雙指數(shù)密度(全曲線)和正常密度(虛線曲線);后者是利用嶺回歸的隱式之前。注意,雙指數(shù)密度如何提出將更多的質(zhì)量接近0和尾巴。這反映了LASSO產(chǎn)生估計(jì)的更大趨勢(shì)是很大或者是0。6.尋找LASSO解的算法我們固定。問題(1)可以表示成一個(gè)帶有個(gè)不等式的最小二乘問題,對(duì)應(yīng)于的個(gè)可能的不同的符號(hào)。羅森和漢森(1974)提供了程序,該程序解決了線性最小二乘問題,圖7. 實(shí)線表示雙指數(shù)密度,虛線表示標(biāo)準(zhǔn)密度;前者是LASSO使用的隱式先驗(yàn)信息;后者是表示嶺回歸使用的隱式先驗(yàn)信息使得一般線性不等式約束成立。其中是一個(gè)矩陣,對(duì)應(yīng)于線性不等式約束的矢量。然而,對(duì)于我們的問題,

21、可能太龐大,這樣直接應(yīng)用此程序是不實(shí)際的。然而,通過順序地引入不等式約束是可以解決問題的,即尋求一個(gè)滿足所謂的庫恩-塔克條件(勞森和漢森,1974)的可行的解決方案。下面我們大概的描述了程序。令,并令為形式的重?cái)?shù)。那么對(duì)任意的,條件就等價(jià)于。對(duì)給定的,令以及。集合是平等集,與完全滿足的約束相對(duì)應(yīng),而是松弛的集合,與相等不成立的約束相對(duì)應(yīng)。用表示行為,的矩陣。令1是元素均為1的向量,向量的長度等于矩陣的行數(shù)。 下面的算法由,開始,是總體最小二乘估計(jì)。它解決了最小二乘問題使得成立,然后檢查是否成立。如果成立,那么計(jì)算完成;如果不成立,將違反的約束添加到并繼續(xù)該過程直到成立。這里是該算法的大致過程。

22、(a)首先,是總體最小二乘估計(jì)。(b)尋找使得最小,約束條件是。(c)當(dāng),(d)將增加到集合,其中。尋找使得最小,約束條件是。在有限的步驟里這個(gè)程序必定總是收斂的,因?yàn)槊恳徊蕉加幸粋€(gè)元素添加到集合中,并且這里一共有個(gè)元素。最后的迭代是最初問題的解決方案,因?yàn)閹於魉藯l件在集合和上是滿足收斂性的。表3此程序的修改是在(d)步驟中把不滿足約束條件的元素從集合中刪除。這樣做雖然更加有效率,但尚不清楚如何建立其收斂性。事實(shí)上,如果很大,為了得到稍許安慰,當(dāng)?shù)螖?shù)達(dá)到時(shí),算法必須停止。在實(shí)踐中我們發(fā)現(xiàn)迭代平均次數(shù)要求在范圍內(nèi),因此在實(shí)際目的上是可以接受的。針對(duì)這一問題,大衛(wèi)蓋伊提出了完全不同的算法。我

23、們把每一個(gè)寫成,其中和都是非負(fù)的。然后我們解決帶有和約束條件的最小二乘問題。以這種方式我們把原問題(個(gè)變量,個(gè)約束條件)轉(zhuǎn)換為一個(gè)帶有更多個(gè)變量()和更少約束條件()的一個(gè)新問題??梢钥闯鲂聠栴}與原問題有相同的解決方案。可以應(yīng)用標(biāo)準(zhǔn)的二次規(guī)劃方法,該算法保證在步收斂。我們還沒有廣泛地比較這兩種算法,但是在例子中發(fā)現(xiàn)第二種算法通常(不總是)比第一個(gè)算法略快些。7. 模擬7.1 大綱 在下面的例子中,我們將完全最小二乘估計(jì)與LASSO、非負(fù)、最佳子集選擇、嶺回歸方法進(jìn)行比較。我們用五倍的交叉驗(yàn)證來估計(jì)每個(gè)例子中的正則化參數(shù)。對(duì)于最佳子集選擇,我們使用語言中的飛躍程序,用五倍交叉驗(yàn)證估計(jì)的最優(yōu)子集的

24、大小。本程序在布雷曼博士和斯佩克特(1992)中進(jìn)行了描述和研究,他們推薦在實(shí)際使用中用5倍或10倍交叉驗(yàn)證。出于完整性的考慮,以下是交叉驗(yàn)證過程的細(xì)節(jié)。每個(gè)尺寸的最佳子集是第一個(gè)發(fā)現(xiàn)的原始數(shù)據(jù)集:把它們稱為(代表零模型;因?yàn)檫@個(gè)模型的擬合值為0。)由表示完整的訓(xùn)練集,由和,其中分別表示交叉驗(yàn)證集和測(cè)試集。表4對(duì)每個(gè)交叉驗(yàn)證倍數(shù),為數(shù)據(jù)的每個(gè)尺寸找到最佳子集:將它們稱為當(dāng)用于測(cè)試數(shù)據(jù)時(shí),令表示預(yù)測(cè)誤差,并形成估計(jì) (12) 我們尋找使最小的以及我們選擇的模型為。這與估計(jì)固定模型的預(yù)測(cè)誤差不同,然后選擇帶有最小預(yù)測(cè)誤差的模型。后面的程序在張(1993)和邵(1992)進(jìn)行了描述,并可能造成不一致

25、的模型選擇,除非交叉驗(yàn)證測(cè)試集以一個(gè)適當(dāng)?shù)臐u進(jìn)速度增長。7.2. 示例1在這個(gè)例子中,我們模擬了50個(gè)數(shù)據(jù)集,由來自下面模型的20個(gè)觀測(cè)數(shù)據(jù)組成其中,是標(biāo)準(zhǔn)正態(tài)變量。和的協(xié)方差,其中。我們?cè)O(shè)置,這給出了大約5.7的信號(hào)噪聲比。表3給出了在這個(gè)模型中超過200個(gè)模擬的均方差誤差。LASSO表現(xiàn)的最好,其次是和嶺回歸。利用廣義交叉驗(yàn)證估計(jì)LASSO參數(shù)似乎是最佳的,通過我們的例子發(fā)現(xiàn)它們趨于一致。表5圖8. 估計(jì)例1中的8個(gè)系數(shù),包括截距:········,真實(shí)系數(shù)表6 子集選擇挑選了大約正確的零系數(shù)(5)的數(shù)量,但如

26、圖8所示的盒狀圖中遭受了太多的變異性。表4顯示了LASSO(廣義交叉驗(yàn)證)選擇最常用的五個(gè)模型:雖然這次在正確的模型(1,2,5)中只有2.5%被選中,但是被選中的模型中有95.5%包含(1,2,5)。子集回歸最常用的模型如表5所示。正確的模型被選中的概率更高(這次24%),但是子集選擇也擬合不充分:這次被選中的模型中只有53.5%包含(1,2,5)。7.3. 示例2第二個(gè)例子與第一個(gè)例子相同,但是對(duì)和,;信號(hào)噪聲比大約為1.8。表6的結(jié)果顯示嶺回歸通過一個(gè)很好的邊際達(dá)到最佳,LASSO是僅有的一個(gè)優(yōu)于完全最小二乘估計(jì)的方法。7.4. 示例3在示例3中我們選擇應(yīng)該很好的適用于子集選擇的設(shè)置。模

27、型與示例1中相同,但,所以信號(hào)噪聲比大約是7。表7的結(jié)果顯示和子集選擇表現(xiàn)最好,后面即是LASSO。嶺回歸效果很差,并且均方誤差比完全最小二乘估計(jì)更高。表7表87.5. 示例4在這個(gè)例子中,我們?cè)谝粋€(gè)更大的模型中檢測(cè)LASSO的效果。我們模擬了50個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集有100個(gè)觀測(cè)值和40個(gè)變量(注意,當(dāng)時(shí)最佳子集回歸通常是被認(rèn)為不切實(shí)際的)。我們定義預(yù)測(cè)值,其中和是獨(dú)立的標(biāo)準(zhǔn)正態(tài)變量。這誘導(dǎo)了預(yù)測(cè)因子之間兩兩相關(guān),并且相關(guān)系數(shù)為0.5。系數(shù)向量是在每個(gè)序列塊中有10個(gè)重復(fù)。最后,我們定義,其中是標(biāo)準(zhǔn)正態(tài)。這產(chǎn)生了一個(gè)大約是9的信號(hào)噪聲比。表8的結(jié)果顯示嶺回歸的效果最好,LASSO(廣義交叉驗(yàn)

28、證)第二。在每個(gè)由10個(gè)數(shù)字組成的四個(gè)序列塊中,LASSO系數(shù)的平均值是0.50(0.06),0.92(0.07),1.56(0.08)和2.33(0.09),盡管LASSO平均僅產(chǎn)生了14.4零系數(shù),的平均值與真實(shí)的部分接近。8. 廣義回歸模型的應(yīng)用LASSO可以應(yīng)用于許多其他的模型:例如描述了在比例風(fēng)險(xiǎn)模型中的應(yīng)用。在這里我們簡要探討廣義回歸模型的應(yīng)用。考慮通過向量參數(shù)進(jìn)行索引的任何模型,在這個(gè)模型中估計(jì)是通過函數(shù)的最大化實(shí)現(xiàn)的;這可能是一個(gè)對(duì)數(shù)似然函數(shù)或者配合一些其他的措施。為了應(yīng)用LASSO,我們?cè)诩s束條件下求的最大值。有可能要通過一般(非二次)編程程序?qū)崿F(xiàn)最大化。相反,在這里我們考慮

29、的模型二次逼近,這導(dǎo)致了的計(jì)算要用到迭代加權(quán)最小二乘法。這樣一種程序相當(dāng)于一個(gè)牛頓拉夫遜算法。通過這種方法,我們可以通過LASSO算法的迭代應(yīng)用加上一個(gè)循環(huán)解決帶有約束條件的問題。一般來說,這個(gè)程序的收斂性不能保證,但在我們有限的經(jīng)驗(yàn)中,它的效果都是相當(dāng)好的。8.1邏輯回歸為了說明我們將LASSO在二進(jìn)制數(shù)據(jù)的邏輯回歸上使用。我們使用脊柱后凸畸形數(shù)據(jù),在黑斯蒂和(1990)第十章中有分析。響應(yīng)變量是脊柱后凸畸形(0代表沒有,1代表有);預(yù)測(cè)值是年齡,是椎骨的數(shù)量水平以及是剛開始時(shí)的椎體水平。這里有83個(gè)觀測(cè)數(shù)據(jù)。由于預(yù)測(cè)值的影響是非線性的,在集中每個(gè)變量后,我們將二次條件包括在內(nèi)。最后,將數(shù)據(jù)

30、矩陣的列進(jìn)行標(biāo)準(zhǔn)化處理。線性邏輯擬合模型是基于信息準(zhǔn)則,向后逐步刪除,舍棄部分,產(chǎn)生的模型是LASSO選擇,給出下面的模型定義在的收斂性5次迭代就能得到。9. 一些進(jìn)一步的擴(kuò)展我們目前正在探索的LASSO理念的兩個(gè)完全不同的應(yīng)用程序。一個(gè)應(yīng)用程序是基于樹的模型,如勒布朗和報(bào)道(1994)。不是在分類中修剪一棵大樹以及布雷曼博士等人(1984)的分類回歸樹方法,我們使用LASSO思想對(duì)它進(jìn)行壓縮。與本文很像,這涉及到一個(gè)約束最小二乘操作,在每個(gè)節(jié)點(diǎn)上參數(shù)為平均對(duì)比。約束的進(jìn)一步設(shè)置需要確保壓縮模型是一棵樹。勒布朗和(1994)報(bào)道中的結(jié)果顯示壓縮程序相對(duì)修剪能夠給出更加精確的樹,同時(shí)還可以得出可

31、解釋的子樹。不同的應(yīng)用程序是弗里德曼 (1991 年) 提出的多元自適應(yīng)回歸樣。方法是一種自適應(yīng)過程,通過個(gè)別變量的線性基函數(shù)的產(chǎn)品分段求和構(gòu)建回歸表面。算法建立了一個(gè)模型,包括基函數(shù)代表的主效應(yīng)和高階交互作用。給出了自適應(yīng)選擇的基地,擬合是這些基地上的一個(gè)簡單的線性回歸。那么應(yīng)用于消除的向后逐步過程久變得不那么重要。 在特雷弗·黑斯蒂的持續(xù)工作中,為了動(dòng)態(tài)地生長和修剪模型,我們正在開發(fā)一種特殊的LASSO類型的算法。希望這能產(chǎn)生更加精確的模型,該模型也是可以解釋的。LASSO的思想還可以應(yīng)用到病態(tài)的問題中,即該問題中的預(yù)測(cè)矩陣是非滿秩的。為在通過小波函數(shù)估計(jì)中使

32、用LASSO類型的約束,陳和多諾霍(1994)報(bào)道了一些令人鼓舞的結(jié)果。10. 基于軟閾值的結(jié)論考慮正交設(shè)計(jì)的特殊情況。LASSO估計(jì)有如下形式 (13)這是稱為軟閾值的估計(jì),該估計(jì)是由多諾霍和約翰斯通(1994)提出來的;他們把這個(gè)估計(jì)應(yīng)用到測(cè)量噪聲函數(shù)小波變換的系數(shù)。然后他們回溯轉(zhuǎn)換得到函數(shù)的光滑估計(jì)。多諾霍和約翰斯通證實(shí)了許多軟閾值估計(jì)的最優(yōu)結(jié)果,然后將這些結(jié)果轉(zhuǎn)換成函數(shù)估計(jì)的最佳結(jié)果。這里我們的興趣不在于函數(shù)估計(jì),而在于系數(shù)本身。這里我們給出多諾霍和約翰斯通的一個(gè)結(jié)果。結(jié)果表明,軟閾值估計(jì)(LASSO)漸進(jìn)地與子集選擇距離達(dá)到一個(gè)理想的子集選擇器(使用實(shí)際性能參數(shù)信息)的效果一樣的接近。假設(shè)其中并且既定矩陣為正交矩陣。然后有 (14)其中我們考慮在均方誤差損失的情況下的估計(jì),風(fēng)險(xiǎn)是考慮對(duì)角線性預(yù)測(cè)簇 (15)這個(gè)估計(jì)要么保持要么消除一個(gè)參數(shù),即它的確是一個(gè)子集選擇。現(xiàn)在如果我們用,我們將會(huì)招致一個(gè)的風(fēng)險(xiǎn),以及如果我們用0的估計(jì)替換的話,會(huì)引發(fā)的風(fēng)險(xiǎn)。因此的最佳選擇是即我們只保持真實(shí)系數(shù)大于噪聲水平的預(yù)測(cè)值。把這些預(yù)測(cè)值的風(fēng)險(xiǎn)叫做:當(dāng)然因?yàn)槭俏粗?,估?jì)值不能被構(gòu)造出來。因此是一個(gè)我們希望得到的關(guān)于風(fēng)險(xiǎn)的較低的邊界。多諾霍和約翰

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論