基于Lasso和支持向量機(jī)的組合預(yù)測(cè)及其應(yīng)用_第1頁
基于Lasso和支持向量機(jī)的組合預(yù)測(cè)及其應(yīng)用_第2頁
基于Lasso和支持向量機(jī)的組合預(yù)測(cè)及其應(yīng)用_第3頁
基于Lasso和支持向量機(jī)的組合預(yù)測(cè)及其應(yīng)用_第4頁
基于Lasso和支持向量機(jī)的組合預(yù)測(cè)及其應(yīng)用_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余6頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、    基于lasso和支持向量機(jī)的組合預(yù)測(cè)及其應(yīng)用    喻勝華龔尚花摘要針對(duì)lasso方法與支持向量機(jī)兩者的聯(lián)系與各自的優(yōu)勢(shì),給出了基于lasso與支持向量機(jī)的串聯(lián)型、并聯(lián)型和嵌入型三種組合預(yù)測(cè),并將它們運(yùn)用到我國(guó)糧食價(jià)格預(yù)測(cè)中.實(shí)證結(jié)果表明,與單一預(yù)測(cè)方法的預(yù)測(cè)結(jié)果相比,基于lasso方法與支持向量機(jī)的串聯(lián)型組合預(yù)測(cè)和嵌入型組合預(yù)測(cè)具有更高的預(yù)測(cè)精度.關(guān)鍵詞組合預(yù)測(cè);lasso;支持向量機(jī)f069 aabstractin view of the connection between lasso and support vector machine

2、and their respective advantages, we gave three kinds of combination forecast model, which includes series combination forecast, parallel combination forecast and embedded combination forecast. then we used them in china's grain price forecast. the empirical results show that compared with the pr

3、ediction results of single prediction method both series combination forecast and embedded combination forecast based on lasso and support vector machine have higher prediction accuracy.key words combination forecast; lasso; support vector machine1引言在實(shí)際建模過程中,往往會(huì)涉及到自變量的選擇問題.如果模型中的自變量太多,可能會(huì)削弱估計(jì)以及預(yù)測(cè)的穩(wěn)定

4、性,相反,自變量太少則會(huì)導(dǎo)致所擬合的模型與實(shí)際情況有太大的偏差.因此,如何從眾多影響因素中選擇最適合的解釋變量就顯得十分重要.lasso1是一種帶有懲罰因子的線性模型估計(jì)方法,它用模型的懲罰函數(shù)壓縮模型的系數(shù),絕對(duì)值較小的系數(shù)會(huì)自動(dòng)壓縮為0,從而使得參數(shù)估計(jì)和變量選擇可以同時(shí)實(shí)現(xiàn),而且有利于我們更好地解釋模型.lasso回歸模型既像最佳子集回歸那樣便于解釋,同時(shí)又具有嶺回歸類似的穩(wěn)定性,該方法的進(jìn)一步完善及其應(yīng)用已成為統(tǒng)計(jì)學(xué)研究中的熱點(diǎn)問題之一.支持向量機(jī) (svm)是在統(tǒng)計(jì)學(xué)習(xí)理論2的基礎(chǔ)上發(fā)展起來的一種新的、非常有效的機(jī)器學(xué)習(xí)方法,主要用于解決小樣本的學(xué)習(xí)規(guī)律 3,它避開了從歸納到演繹的傳

5、統(tǒng)過程,實(shí)現(xiàn)了高效的從訓(xùn)練樣本到預(yù)報(bào)樣本的“傳導(dǎo)推理”,大大簡(jiǎn)化了通常的分類和回歸等問題,較好地解決了小樣本、非線性、過擬合和局部極小等問題.目前,支持向量機(jī)已經(jīng)廣泛應(yīng)用于生物學(xué)、化學(xué)以及經(jīng)濟(jì)學(xué)等實(shí)際領(lǐng)域.同時(shí),學(xué)者們也在對(duì)該方法進(jìn)行不斷的改進(jìn),其中一個(gè)很重要的方面是探索支持向量機(jī)與其他方法的融合和進(jìn)行支持向量機(jī)的稀疏性研究4-8.lasso方法和支持向量機(jī)這兩種預(yù)測(cè)模型均適用于小樣本數(shù)據(jù),但單一模型存在一定的應(yīng)用盲區(qū).lasso方法在變量選擇問題上比傳統(tǒng)的逐步回歸、嶺回歸和主成分回歸等方法具有優(yōu)越性,并且lasso方法能同時(shí)實(shí)現(xiàn)對(duì)變量的選擇和模型參數(shù)的估計(jì),但lasso方法不能用于非線性模型

6、,而支持向量機(jī)能夠處理非線性的問題,但不能進(jìn)行特征篩選.因此,本文將lasso方法和支持向量機(jī)組合起來進(jìn)行擬合和預(yù)測(cè),在預(yù)測(cè)過程中彌補(bǔ)其各自的缺點(diǎn),實(shí)現(xiàn)它們的優(yōu)勢(shì)互補(bǔ),可望比單一方法更能有效地利用信息,從而得到高精度、高效率的組合預(yù)測(cè)模型.2基于lasso方法與支持向量機(jī)的組合預(yù)測(cè)模型2.1lasso及支持向量機(jī)方法lasso回歸即最小絕對(duì)值壓縮與選擇算子(least absolute shrinkage and selection operator),它是 tibshirani.r(1996)提出的一種關(guān)于線性回歸的新方法.lasso回歸是在普通線性最小二乘的基礎(chǔ)上加了一個(gè)約束條件,使各系數(shù)

7、的絕對(duì)值之和小于某一常數(shù),從而將沒有影響或影響較小的自變量的回歸系數(shù)自動(dòng)壓縮到零.當(dāng)s< p>支持向量機(jī)是一種小樣本“機(jī)器”學(xué)習(xí)方法,比較適合解決分類和回歸兩大類問題.本文主要是應(yīng)用支持向量機(jī)的非線性回歸模型,其核心是引入核映射的思想與結(jié)構(gòu)風(fēng)險(xiǎn)的概念.設(shè)有樣本數(shù)據(jù)集xi,yi,其中xird(xi包含d個(gè)特征),yir,集合f=ff:rdr,其中f是回歸函數(shù),若f(xi)是非線性的,我們可以通過非線性映射將原輸入訓(xùn)練樣本由輸入空間映射到高維特征空間h,并在高維特征空間h中構(gòu)造線性支持向量回歸機(jī).訓(xùn)練樣本xi滿足如下條件:yt(xi·+b)-1+i0,i0,i為松弛變量,i0

8、,i=1,.,n.這時(shí)求解最大化支持向量機(jī)邊界的優(yōu)化方程為:min 122+cni=1is.t. yi(xi·+b)-1+i0,i0,i=1,.,n通過求解上式可得到最終判別函數(shù):fxi=signni=1iyikxi,xj+b,其中,c為懲罰參數(shù),用于控制模型的復(fù)雜度,kxi,xj為核函數(shù),不同的核函數(shù)可以構(gòu)造不同的支持向量機(jī). 2.2基于lasso方法與支持向量機(jī)的組合預(yù)測(cè)模型所謂組合預(yù)測(cè)就是設(shè)法把不同的預(yù)測(cè)模型組合起來,綜合利用各個(gè)預(yù)測(cè)方法所提供的信息.從信息利用的角度來說,任何單一預(yù)測(cè)方法都只利用了部分有用信息,而且信息利用的程度也是不同的,把兩種或兩種以上的預(yù)測(cè)方法相結(jié)合,可

9、以彌補(bǔ)單一方法在某些方面的不足之處.把lasso方法與支持向量機(jī)組合起來進(jìn)行預(yù)測(cè),理論上是可行的,可以綜合利用兩種方法所提供的信息,盡可能地提高預(yù)測(cè)精度.組合的方式多種多樣,本文主要嘗試三種方式的組合,即串聯(lián)型組合、并聯(lián)型組合和嵌入型組合,并在實(shí)證過程中比較不同組合的預(yù)測(cè)效果.1)基于lasso方法與支持向量機(jī)的串聯(lián)型組合基于lasso方法與支持向量機(jī)的串聯(lián)型組合模型就是把lasso預(yù)測(cè)方法與支持向量機(jī)在預(yù)測(cè)模型中按串聯(lián)方式連接,即一方的輸出作為另一方的輸入,而最終的輸出即為整個(gè)模型的預(yù)測(cè)結(jié)果.該模型首先要求利用lasso方法篩選出眾多自變量中的主要變量,剔除與因變量關(guān)聯(lián)度很小的變量,然后將主

10、要影響因素作為支持向量機(jī)模型的輸入,通過不斷地學(xué)習(xí)與訓(xùn)練,得出最后的預(yù)測(cè)值.2)基于lasso方法與支持向量機(jī)的并聯(lián)型組合基于lasso方法與支持向量機(jī)的并聯(lián)型組合模型就是分別用lasso方法和支持向量機(jī)來進(jìn)行預(yù)測(cè),然后將其各自的預(yù)測(cè)結(jié)果進(jìn)行組合,給出一個(gè)平均的預(yù)測(cè)輸出.該模型中的一個(gè)關(guān)鍵問題就是需要確定單項(xiàng)預(yù)測(cè)方法的加權(quán)系數(shù).根據(jù)組合預(yù)測(cè)確定權(quán)系數(shù)的不同,將組合預(yù)測(cè)模型分為固定權(quán)系數(shù)組合預(yù)測(cè)模型和變權(quán)系數(shù)組合預(yù)測(cè)模型.固定權(quán)系數(shù)組合預(yù)測(cè)方法的權(quán)系數(shù)確定比較簡(jiǎn)單,有關(guān)研究一直占主導(dǎo)地位且應(yīng)用最為廣泛,所以本文也采用固定權(quán)系數(shù)組合預(yù)測(cè).在閱讀了關(guān)于組合預(yù)測(cè)的相關(guān)文獻(xiàn)后,我們選擇目前最常用的擬合誤

11、差的誤差平方和最小來計(jì)算組合預(yù)測(cè)模型的權(quán)系數(shù).具體求解過程如下:設(shè)同一預(yù)測(cè)對(duì)象的某個(gè)指標(biāo)序列為xt:t=1,2,n ,存在m種單項(xiàng)無偏預(yù)測(cè)方法對(duì)其進(jìn)行預(yù)測(cè),第i種單項(xiàng)預(yù)測(cè)方法在t時(shí)刻的預(yù)測(cè)值為xit,i=1,2,m, t=1,2,n,稱eit=xt-xit為第i種單項(xiàng)預(yù)測(cè)方法在第t時(shí)刻的預(yù)測(cè)誤差,設(shè)l1,l2,lm分別為m種單項(xiàng)預(yù)測(cè)方法的加權(quán)系數(shù),為了使組合預(yù)測(cè)保持無偏性,加權(quán)系數(shù)應(yīng)滿足:mi=1li=1,li0,i=1,2,m.設(shè)t=l1x1t+l2x2t+lmxmt為xt的組合預(yù)測(cè)值,et為組合預(yù)測(cè)在t時(shí)刻的預(yù)測(cè)誤差,則有:et=xt-t=mi=1lieit.設(shè)q1表示組合預(yù)測(cè)誤差平方和,

12、則有q1=nt=1e2t=nt=1mi=1mj=1lieitljejt.以預(yù)測(cè)誤差平方和最小為準(zhǔn)則的線性組合預(yù)測(cè)模型即為下列最優(yōu)化問題.該問題可以利用matlab最優(yōu)化工具箱求解.minq1=nt=1e2t=nt=1mi=1mj=1lieitljejtli0,mi=1li=1.對(duì)lasso方法與支持向量機(jī)兩種方法進(jìn)行組合,即當(dāng)m=2時(shí)構(gòu)建組合模型,得到最優(yōu)組合系數(shù)的公式解如下:l1=nt=1e22t-nt=1e1te2tnt=1e21t+nt=1e22t-2nt=1e1te2t,l2=nt=1e21t-nt=1e1te2tnt=1e21t+nt=1e22t-2nt=1e1te2t.3)基于la

13、sso方法與支持向量機(jī)的嵌入型組合基于lasso方法與支持向量機(jī)的嵌入型組合模型就是以lasso模型、支持向量機(jī)模型對(duì)目標(biāo)系統(tǒng)的預(yù)測(cè)值作為支持向量機(jī)預(yù)測(cè)模型的輸入向量,相應(yīng)時(shí)刻的目標(biāo)系統(tǒng)的實(shí)際值作為輸出目標(biāo)值,建立起組合模型的預(yù)測(cè)樣本對(duì),調(diào)整相關(guān)的參數(shù),然后用一定數(shù)量的樣本來訓(xùn)練支持向量機(jī),使訓(xùn)練和測(cè)試時(shí)不同的輸入向量得到相應(yīng)的輸出值,這樣經(jīng)過不斷地學(xué)習(xí)及測(cè)試,就實(shí)現(xiàn)了支持向量機(jī)組合預(yù)測(cè)模型.3組合預(yù)測(cè)模型在糧食價(jià)格預(yù)測(cè)中的應(yīng)用糧食價(jià)格數(shù)據(jù)是典型的小樣本數(shù)據(jù),糧食價(jià)格的影響因素眾多,而且糧食價(jià)格與其眾多影響因素之間存在著不確定性和非線性特點(diǎn),傳統(tǒng)預(yù)測(cè)方法對(duì)于解決此類高度非線性且影響因素眾多的問

14、題具有很大的局限性,基于lasso方法與支持向量機(jī)的組合預(yù)測(cè)模型則適合處理此類問題.本文用糧食類零售價(jià)格指數(shù)代表我國(guó)糧食價(jià)格,根據(jù)糧食價(jià)格波動(dòng)理論和已有的研究結(jié)論,我們共選取了影響糧食價(jià)格的21個(gè)變量9-12,具體包括糧食庫存量、期末庫存消費(fèi)比、糧食生產(chǎn)價(jià)格指數(shù)、糧食總產(chǎn)量、 糧食作物播種面積、成災(zāi)面積、農(nóng)業(yè)支出、農(nóng)業(yè)支出占財(cái)政支出的比重、城鎮(zhèn)居民人均可支配收入、農(nóng)村居民家庭人均純收入、城鎮(zhèn)居民人均糧食消費(fèi)、農(nóng)村居民人均糧食消費(fèi)、農(nóng)業(yè)生產(chǎn)資料價(jià)格指數(shù)、國(guó)內(nèi)生產(chǎn)總值指數(shù)、世界能源價(jià)格指數(shù)、糧食凈進(jìn)口、人民幣對(duì)美元匯率、上一期真實(shí)糧價(jià)增長(zhǎng)率、貨幣和準(zhǔn)貨幣(m2)供應(yīng)量、同期通貨膨脹率以及世界谷物價(jià)

15、格指數(shù).并且選擇1978-2009年的32個(gè)樣本作為擬合訓(xùn)練樣本,2010-2013年的4個(gè)樣本作為預(yù)測(cè)檢驗(yàn)樣本.在進(jìn)行糧食價(jià)格預(yù)測(cè)的實(shí)證過程中,主要使用matlab(2010b)并結(jié)合libsvm-3.20工具箱完成.先用lasso方法選出對(duì)糧食價(jià)格影響較大的變量,再運(yùn)用基于lasso與支持向量機(jī)的串聯(lián)型組合預(yù)測(cè)模型、并聯(lián)型組合預(yù)測(cè)模型及嵌入型組合預(yù)測(cè)模型對(duì)我國(guó)糧食價(jià)格及其影響因素進(jìn)行實(shí)證研究,為了比較預(yù)測(cè)效果,另單獨(dú)使用lasso模型、支持向量機(jī)模型對(duì)我國(guó)糧食價(jià)格進(jìn)行預(yù)測(cè).我們可根據(jù)預(yù)測(cè)誤差來評(píng)價(jià)預(yù)測(cè)效果的好壞,預(yù)測(cè)誤差越小,預(yù)測(cè)越準(zhǔn)確.常用的評(píng)價(jià)指標(biāo)有平均絕對(duì)誤差(mae)、均方誤差(m

16、se)、平均絕對(duì)百分比誤差(mape)、均方根誤差(rmse)等,其定義由以下的公式給出:從表1可以看出:五個(gè)模型的平均絕對(duì)百分比誤差(mape)都在10% 以下,有較好的預(yù)測(cè)效果,說明這五個(gè)模型都可以用來對(duì)我國(guó)的糧食價(jià)格進(jìn)行預(yù)測(cè).如果從單個(gè)預(yù)測(cè)模型與組合預(yù)測(cè)模型的預(yù)測(cè)效果對(duì)比來看,并聯(lián)型組合預(yù)測(cè)模型的預(yù)測(cè)效果不是很理想,它與單一預(yù)測(cè)模型的預(yù)測(cè)效果基本上差不多,而串聯(lián)型組合預(yù)測(cè)模型和嵌入型組合預(yù)測(cè)模型的預(yù)測(cè)效果則要大大優(yōu)于單一的預(yù)測(cè)模型,它們的平均絕對(duì)百分比誤差(mape)均在3%以下,要遠(yuǎn)遠(yuǎn)低于其他預(yù)測(cè)模型的平均絕對(duì)百分比誤差.這說明在針對(duì)類似糧食價(jià)格等的預(yù)測(cè)問題上,使用基于lasso與支持

17、向量機(jī)的串聯(lián)型組合模型和嵌入型組合模型進(jìn)行預(yù)測(cè)有一定的優(yōu)勢(shì),能夠提高預(yù)測(cè)精度,擁有更好的預(yù)測(cè)性能.4結(jié)語分析了lasso方法和支持向量機(jī)各自的建模機(jī)理和特點(diǎn)之后,發(fā)現(xiàn)lasso方法和支持向量機(jī)這兩種預(yù)測(cè)模型均適用于小樣本數(shù)據(jù)的項(xiàng)目預(yù)測(cè),但單一模型都存在一定的應(yīng)用盲區(qū).lasso方法可以進(jìn)行變量篩選和回歸,但它不能用于處理非線性問題.支持向量機(jī)能夠處理具有非線性關(guān)系的數(shù)據(jù),但是不能進(jìn)行特征篩選.所以,針對(duì)lasso方法與支持向量機(jī)兩者的聯(lián)系與各自的優(yōu)勢(shì),給出了基于lasso與支持向量機(jī)的串聯(lián)型、并聯(lián)型和嵌入型三種組合預(yù)測(cè)模型,并將其運(yùn)用到我國(guó)糧食價(jià)格的預(yù)測(cè)中.實(shí)證結(jié)果表明,組合預(yù)測(cè)模型的預(yù)測(cè)效果

18、整體上要優(yōu)于單個(gè)預(yù)測(cè)模型,把lasso方法與支持向量機(jī)進(jìn)行組合預(yù)測(cè)提高了糧食價(jià)格預(yù)測(cè)的精度.從3個(gè)組合預(yù)測(cè)模型的預(yù)測(cè)效果來看,它們的預(yù)測(cè)精度表現(xiàn)出較大的差異性,串聯(lián)型和嵌入型組合預(yù)測(cè)模型的預(yù)測(cè)效果要遠(yuǎn)遠(yuǎn)優(yōu)于并聯(lián)型組合預(yù)測(cè)模型.參考文獻(xiàn)1tibshirani,r. regression shrinkage and selection via the lasso j. journal of the royal statistical society.1996(58):267-288.2vapnik v. the nature of statistical learning theory (second

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論