從理論到應(yīng)用——淺談lasso模型_第1頁
從理論到應(yīng)用——淺談lasso模型_第2頁
從理論到應(yīng)用——淺談lasso模型_第3頁
從理論到應(yīng)用——淺談lasso模型_第4頁
從理論到應(yīng)用——淺談lasso模型_第5頁
已閱讀5頁,還剩8頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、 本科生學(xué)年論文題目:從理論到應(yīng)用淺談lasso模型指導(dǎo)教師: 學(xué)院: 姓名: 學(xué)號: 班級: 從理論到應(yīng)用淺談lasso模型【摘要】回歸模型是我們在處理數(shù)據(jù)中常用的方法。其中,Lasso模型是一種適用于多重共線性問題,能夠在參數(shù)估計的同時實(shí)現(xiàn)變量的選擇的回歸方法。本文從lasso模型的概念談起,對其起源、思想、與嶺回歸的比較、通過lar的算法實(shí)現(xiàn)等方面進(jìn)行了探究。另外還使用R語言對簡單案例進(jìn)行l(wèi)asso模型的應(yīng)用。最后簡述了lasso模型的研究現(xiàn)狀?!綼bstract】Regression model is our commonly used method in processing dat

2、a. Lasso model is a kind of regression method for multiple linear problems, which can be used to achieve parameter estimation and variable selection at the same time. This paper starts from the concept of the lasso model, including its origin, ideas, and the comparison of ridge regression, through l

3、ar algorithm implementation, etc. In addition, using R language to solve a simple case through lasso. At last, the research status of lasso model is introduced.【關(guān)鍵詞】Lasso嶺回歸最小角回歸R語言【key words】Lassoridge regressionlarR language目錄一、 定義及基本信息4二、 起源與原理4三、 模型的思想4四、 Lasso與嶺回歸51、 嶺回歸的概念52、 Lasso與嶺回歸的比較5五、 L

4、asso的算法步驟61、 lasso算法實(shí)現(xiàn)的背景62、 最小角回歸73、 用lar實(shí)現(xiàn)lasso7六、 案例分析81、 問題描述82、 簡單線性回歸求解93、 利用lasso求解11七、 應(yīng)用與研究現(xiàn)狀12八、 參考資料131、 定義及基本信息Lasso模型是由Robert Tibshirani在1996年JRSSB上的一篇文章Regression shrinkage and selection via the lasso所提出的一種能夠?qū)崿F(xiàn)指標(biāo)集合精簡的估計方法。在參數(shù)估計的同時實(shí)現(xiàn)變量的選擇(可以解決回歸分析中的多重共線性問題)。全稱:Least Absolute Shrinkage a

5、nd Selection Operator讀音:lsu: 而不是lsoRobert Tibshirani 簡介:生于1956年7月10日,擔(dān)任斯坦福大學(xué)the Departments of Statistics and Health Research and Policy的教授。1985-1998年擔(dān)任多倫多大學(xué)的教授。 他主要研究方向是致力于開發(fā)處理復(fù)雜數(shù)據(jù)的分析統(tǒng)計工具。Lasso模式是他最著名的貢獻(xiàn)。同時在著名的 Generalized Additive Models, An Introduction to the Bootstrap, and The Elements of Stati

6、stical Learning三本書中都有他的編著。12、 起源與原理在常規(guī)的回歸分析中,假設(shè)我們有一組(xi,yi),i=1,2,.,N,其中xi=(xi1,.,xip)T,yi是第i維觀測值的回歸量的數(shù)據(jù)。普通最小二乘(OLS)通過最小化殘差平方和來進(jìn)行估計。它對數(shù)據(jù)的分析不那么令人滿意通常有兩個原因。一是預(yù)測精度:OLS往往偏差較低但方差大;預(yù)測精度有時可以用縮小或設(shè)置一些系數(shù)為0的方法來提高。通過這樣做,我們犧牲一點(diǎn)偏差減少預(yù)測的方差值,因此可以提高整體預(yù)測準(zhǔn)確性。第二個原因是可解釋性的問題。在大量的預(yù)測值中,我們通常想確定一個展現(xiàn)出最強(qiáng)影響的更小的子集。 兩個公認(rèn)優(yōu)秀的改善OLS估計

7、的方法是子集選擇(subset selection)和嶺回歸(ridge regression)它們都有缺點(diǎn)。子集選擇提供了可解釋的模型但是可變性非常強(qiáng),因?yàn)樗且粋€離散的過程回歸量要么保留要么從模型中去掉。小的數(shù)據(jù)變化就會使得模型的選擇改變,這會降低預(yù)測準(zhǔn)確度。嶺回歸是連續(xù)縮小參數(shù)的過程,因此更穩(wěn)定:然而它不會使得任何參數(shù)為0,沒辦法得出簡單的可解釋的模型。lasso模型就此提出,The least absolute shrinkage and selection operator,同時縮?。╯hrinkage)和設(shè)置成參數(shù)為0(selection),保持了子集選擇和嶺回歸的良好特征。23、

8、 模型的思想lasso是在回歸系數(shù)的絕對值之和小于一個常數(shù)的約束條件下,使殘差平方和最小化,從而能夠產(chǎn)生某些嚴(yán)格等于0的回歸系數(shù),得到解釋力較強(qiáng)的模型。給出一組測量數(shù)據(jù)x1, x2 .xp以及測量結(jié)果y,lasso符合線性模型yhat=b0 + b1x1+ b2x2 + . bpxp 它所使用的標(biāo)準(zhǔn)是: 當(dāng)| bj |cement cementlm.solsummary(lm.sol)可以看到雖然R2接近于1,擬合優(yōu)度較理想,但是自變量的p值均大于0.05,回歸系數(shù)沒有通過顯著性檢驗(yàn)。利用簡單線性回歸得到回歸方程中的X與Y的關(guān)系不明顯。F檢驗(yàn)的值也非常大,說明自變量的顯著性較低,需要進(jìn)行變量選

9、擇。利用car包中的vif()函數(shù)查看各自變量間的共線情況library(car)vif(lm.sol)從結(jié)果看,各自變量的VIF值都超過10,存在多重共線性,其中,X2與X4的VIF值均超過200。plot(X2 X4, col = red, data = cement)圖中可以明顯看出X2與X4存在線性關(guān)系。3、 利用lasso求解此時我們嘗試用lars-lasso來求解這個方程。library(lars)x = as.matrix(cement, 1:4)y = as.matrix(cement, 5)(laa = lars(x, y, type = lar)可以看到lasso的變量選擇

10、依次是X4,X1,X2,X3。plot(laa)可以看出各變量的系數(shù)的變化過程。summary(laa)其中Cp(衡量多重共線性,其值越小越好)可以看到在第3步以后cp值明顯變小。說明lasso模型在實(shí)際應(yīng)用中能夠解決多重共線性的問題,有良好的應(yīng)用。7、 應(yīng)用與研究現(xiàn)狀我們在知網(wǎng)中對lasso進(jìn)行中文數(shù)據(jù)庫的搜索,結(jié)果見下圖:可以看到該模型在計算機(jī)、醫(yī)學(xué)、經(jīng)濟(jì)等各個領(lǐng)域均有應(yīng)用。見微知著的可以下結(jié)論其運(yùn)用十分廣泛。在應(yīng)用和拓展方面的研究也十分豐富。下表中列出了部分內(nèi)容。這些研究在數(shù)學(xué)層面考察了lasso產(chǎn)生最小預(yù)測誤差模型的能力,并重新獲得了真正的底層(稀疏)模型。重要的貢獻(xiàn)者包括Bickel

11、, Buhlmann, Candes, Donoho, Johnstone, Meinshausen,van de Geer, Wainwright and Yu.也證明了lasso可以揭示更多的傳統(tǒng)技術(shù),給向前逐步選擇方法帶來了新的理解。另一個例子是graphical lasso擬合的稀疏高斯圖,將其應(yīng)用于逆協(xié)方差矩陣,提供了一個強(qiáng)有利的圖選擇方法(確定哪些邊緣)。9隨著計算機(jī)處理速度的不斷提高和當(dāng)今社會對于大數(shù)據(jù)處理的要求的不斷進(jìn)步,對lasso的研究必當(dāng)更加深入,在各個領(lǐng)域的拓展也是值得期待的。8、 參考資料1 Wikipedia. Robert TibshiraniDB/OL. htt

12、ps://wiki/Robert_Tibshirani.2 Tibshirani,R.Regression Shrinkage and Selection Via the LassoJJournal of the Royal Statical Society.Series B.58,267-2883Stanford University. A simple explanation of the Lasso and Least Angle RegressionDB/OL. /tibs/lasso/simple.h

13、tml.4楊燦. 統(tǒng)計學(xué)習(xí)那些事DB/OL. /2011/12/stories-about-statistical-learning/#more-4532.5 Efron B, Hastie T, Johnstone I and Tibshirani R. Least angle regression J. Ann. Stat., 2004, 32:409-499.6梁斌,陳敏,繆柏其,黃意球,陳釗. 基于LARS-Lasso的指數(shù)跟蹤及其在股指期貨套利策略中的應(yīng)用J. 數(shù)理統(tǒng)計與管理,2011,06:1104-1113.7月之十三. LASSODB/OL. 46df

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論