基于強(qiáng)化學(xué)習(xí)的股票預(yù)測(cè)系統(tǒng)的研究與設(shè)計(jì)_第1頁(yè)
基于強(qiáng)化學(xué)習(xí)的股票預(yù)測(cè)系統(tǒng)的研究與設(shè)計(jì)_第2頁(yè)
基于強(qiáng)化學(xué)習(xí)的股票預(yù)測(cè)系統(tǒng)的研究與設(shè)計(jì)_第3頁(yè)
基于強(qiáng)化學(xué)習(xí)的股票預(yù)測(cè)系統(tǒng)的研究與設(shè)計(jì)_第4頁(yè)
基于強(qiáng)化學(xué)習(xí)的股票預(yù)測(cè)系統(tǒng)的研究與設(shè)計(jì)_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

投稿日期:2005-07-02 投稿日期:2005-07-02 終稿《微計(jì)算機(jī)信息》PAGEPAGE2基于強(qiáng)化學(xué)習(xí)的股票預(yù)測(cè)系統(tǒng)的研究與設(shè)計(jì)葉德謙金大兵楊櫻燕ft大學(xué)中德信息技術(shù)研究所(秦皇島066004)摘要:的應(yīng)用價(jià)值。BPBPBP能力,在實(shí)際應(yīng)用中取的較好的效果。關(guān)鍵詞:股票預(yù)測(cè);BP神經(jīng)網(wǎng)絡(luò);強(qiáng)化學(xué)習(xí);RBP模中圖分類號(hào):TP183 文獻(xiàn)標(biāo)識(shí)碼:AAStockForecastingSystemBasedOnALearningAlgorithmYeDeqian,JinDabing,YangYing(ICDZ,YanshanUniversity,Qinhuangdao066004)Abstract:Thestockmarketisthemostimportantandhardfieldoffinanceanalysisfield.Thestockforecastingsystemisoneofthemostavailablesystem.BPneuralnetworkhasbeenusedinnonlinearsystemcontrollerwidely.Butasasupervisedtrainingalgorithm,itrequiresexperientialdatatobetrained.Sothispaperprovidestheoptimizationonareinforcementlearningalgorithmbasedonneuralnetworkensembleandappliestoastockforecastingsystem.Reinforcementlearningisunsupervisedandon-line.Neuralnetworkensemblecansignificantlyimprovethegeneralizationabilityoflearningsystem.Themethodistestedandtheexpectedresultsareobtained.Keywords:stockforecastingsystem,BPneuralnetwork,reinforcementlearning,reinforcementback-propagationmodel引言股票市場(chǎng)是我國(guó)證券業(yè)以及金融業(yè)不可缺少的組成部分,股票數(shù)據(jù)的分析和預(yù)測(cè)具有重大的理論意義和誘人的應(yīng)用價(jià)值,股票市場(chǎng)是一個(gè)極其復(fù)雜的動(dòng)力學(xué)系統(tǒng),高噪聲、嚴(yán)重非線性和投資者的任意盲目性等因素決定了股票預(yù)測(cè)的復(fù)雜性。線圖、移動(dòng)平均線和OBV近非線性函數(shù)的能力和對(duì)于信息的綜合能力,這是其他方法所不能具有的。BP網(wǎng)絡(luò)的收斂速度慢和目標(biāo)函數(shù)存在局部極小點(diǎn)兩個(gè)問題。對(duì)前者可采用加入動(dòng)量項(xiàng),高階導(dǎo)數(shù)利用共軛梯度,遞推最小二乘法,神經(jīng)元空間搜所法等方法,對(duì)于后者可采用模擬退火或遺傳算法等方法,已取得較好的效果。但BP算法作為有導(dǎo)師監(jiān)督的學(xué)習(xí)算法,要求批量提供輸入輸出對(duì)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,而在實(shí)際應(yīng)用系統(tǒng)中很多并不知道最優(yōu)策略,因而無法得到輸入輸出對(duì)。針對(duì)這種情況,提出了將強(qiáng)化學(xué)習(xí)與BP神經(jīng)網(wǎng)絡(luò)結(jié)合起來的RBP模型并應(yīng)用與股票預(yù)測(cè)系統(tǒng),這種模型使得BP神經(jīng)網(wǎng)絡(luò)集成是一種新興的神經(jīng)計(jì)算方法,比單一神經(jīng)網(wǎng)絡(luò)系統(tǒng)有更強(qiáng)的泛化能力,因此將神經(jīng)網(wǎng)絡(luò)集成與強(qiáng)化學(xué)習(xí)算法結(jié)合起來,能夠達(dá)到更好的效果。本文提出拉一種基于神經(jīng)網(wǎng)絡(luò)集成的強(qiáng)化學(xué)習(xí)BP的數(shù)據(jù)生成方式,生成數(shù)據(jù)集,使強(qiáng)化BP算法能從神經(jīng)網(wǎng)絡(luò)集成的強(qiáng)泛化能力中受益,提高了算法的速度和精度。本文將強(qiáng)化學(xué)習(xí)BP算法應(yīng)用與股票預(yù)測(cè)系統(tǒng)設(shè)計(jì),取得了比普通BP網(wǎng)絡(luò)股票系統(tǒng)更加理想的效果。BP強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)的術(shù)語(yǔ)最早是由Minsky于1961年提出的,隨后Walta和Fu將它獨(dú)立于控制領(lǐng)域。強(qiáng)化學(xué)習(xí)的思想起源于動(dòng)物學(xué)習(xí)心理學(xué)。強(qiáng)化學(xué)習(xí)的兩個(gè)重要特點(diǎn)是:強(qiáng)化學(xué)習(xí)對(duì)于處理問題的所有可能目標(biāo)歸結(jié)為一個(gè)標(biāo)量報(bào)酬,強(qiáng)化學(xué)習(xí)的目標(biāo)是由外部環(huán)境所產(chǎn)生的報(bào)酬,而非Agent自己本身。所有的的強(qiáng)化學(xué)習(xí)包括一個(gè)映射學(xué)習(xí)它將一個(gè)環(huán)境的狀態(tài)或態(tài)勢(shì),映射到一個(gè)合適的動(dòng)作或動(dòng)作的一個(gè)概論分配,這個(gè)映射稱為策略。它指出了在當(dāng)前學(xué)習(xí)期間對(duì)于每個(gè)狀態(tài)Agent應(yīng)當(dāng)采取的行為。在強(qiáng)化學(xué)習(xí)中Agent的某個(gè)行為策略導(dǎo)致環(huán)境的獎(jiǎng)賞用來調(diào)整行為策略趨勢(shì),基本模型如圖1所示。學(xué)習(xí)Agent輸入(狀態(tài)) 獎(jiǎng)勵(lì)信息 行動(dòng)環(huán)境世界圖1基本模型我們采用最常用的Q(λ)算法,其迭代過程如下:Q(s,a)=(1-α)Q(s,a)+α

+rmax{Q

,a)}]I i I

I i I i

I+1

i+1采用神經(jīng)網(wǎng)絡(luò)技術(shù)輸入系統(tǒng)狀態(tài),輸出Q值或V值供強(qiáng)化學(xué)習(xí)系統(tǒng)。其結(jié)構(gòu)如圖3所示。強(qiáng)化系統(tǒng)X強(qiáng)化系統(tǒng)X神經(jīng)網(wǎng)絡(luò)評(píng)價(jià)P圖3結(jié)構(gòu)最終強(qiáng)化學(xué)習(xí)的效果與強(qiáng)化學(xué)習(xí)的收斂和神經(jīng)網(wǎng)絡(luò)的收斂過程有關(guān),而BP神經(jīng)網(wǎng)絡(luò)的輸入輸出對(duì)是以增量方式產(chǎn)生的,因此以前學(xué)習(xí)的知識(shí)會(huì)被“遺忘”,需要對(duì)BP算法加以改進(jìn)。提出了RBP算法(強(qiáng)化學(xué)習(xí)BP神經(jīng)網(wǎng)絡(luò))可以根據(jù)以往學(xué)到的知識(shí)對(duì)輸入進(jìn)行函數(shù)映射,系統(tǒng)對(duì)網(wǎng)絡(luò)的輸出進(jìn)行評(píng)價(jià),評(píng)價(jià)通過延遲,將提供給神經(jīng)網(wǎng)絡(luò)以調(diào)整權(quán)值,再用此網(wǎng)絡(luò)與系統(tǒng)完成下階段的學(xué)習(xí)。集成RBP圖2給出了集成RBP神經(jīng)網(wǎng)絡(luò)模型。強(qiáng) 化強(qiáng) 化系 統(tǒng)Z評(píng)價(jià)隨機(jī)抖動(dòng)DPBPXYXX延時(shí)緩沖評(píng)價(jià)選擇YT訓(xùn)練集圖2神經(jīng)網(wǎng)絡(luò)模型BPX,輸出Y隨機(jī)抖動(dòng):產(chǎn)生符合Gaussian分布的抖動(dòng)量D,調(diào)整Y,Z=Y+D是強(qiáng)化學(xué)習(xí)中引入的隨機(jī)量,以避免陷入局部最小。評(píng)價(jià):環(huán)境根據(jù)輸出ZP,RBPP延時(shí)緩沖:因?yàn)閺?qiáng)化學(xué)習(xí)中評(píng)價(jià)的延遲,而將D,Yn步。p=p-p。p

c ave(k)+a*(p(k)-p

(k)),ave

ave

avea

ave

是系統(tǒng)平均性能的度量,pave

(k),p(k)是表示第kcp,p(kX(k-n),Z(k-nD(k-nave c c p p p訓(xùn)練集:令T(k-n)=Y(k-n),p(k)≤0set p pT(k-n)=Y(k-n)+D(k-nset p p p表示當(dāng)性能提高時(shí)接受Y+D作為輸出,否則以Y作為輸出,T(k-n)和X(k-n)構(gòu)成BP網(wǎng)絡(luò)p p的訓(xùn)練輸入輸出對(duì),當(dāng)訓(xùn)練例達(dá)到一定數(shù)目時(shí)將訓(xùn)練集合提交給網(wǎng)絡(luò)學(xué)習(xí)。RBP集以保證網(wǎng)絡(luò)性能的提高;引入隨機(jī)噪聲是為了避免陷入局部最小,噪聲的引入非常必要,太小的噪聲使網(wǎng)絡(luò)無法收斂。實(shí)際系統(tǒng)設(shè)計(jì)股票模型設(shè)計(jì)由于股票價(jià)格是一個(gè)受多方面因素影響的離散時(shí)間序列,故可以由每天的成交價(jià)與成交量組成一個(gè)多維時(shí)間序列記為X(t),t=0,1,2,?。在時(shí)間序列預(yù)測(cè)中,對(duì)一個(gè)變量預(yù)測(cè)僅根據(jù)其歷史數(shù)據(jù),即某一值被認(rèn)為與其時(shí)間序列中前面的值之間有某種函數(shù)關(guān)系,用下式描述:n)n). .n))(x(t),x) 1 2其中,X(n+k)為以nmX(n),X(n-1),?.為n時(shí)刻以前最近發(fā)生的m個(gè)歷史數(shù)據(jù);x1(t),x2(t),?.為序列中t時(shí)刻的l個(gè)變量值,如開盤價(jià),收盤價(jià),成交量等。令:r(X(nk)X(n))/X(n) r(nk)2,r3,r其中,γ(n+k)為神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)輸出;r為預(yù)測(cè)股價(jià)k日內(nèi)上漲率;α為股價(jià)走勢(shì)被劃成各種趨勢(shì)的閾值1趨勢(shì)。

,和γ2

,分別為神經(jīng)網(wǎng)絡(luò)對(duì)股價(jià)預(yù)測(cè)呈上升,平穩(wěn),和下降3ANN通過學(xué)習(xí)樣本數(shù)據(jù),刻劃出F(),在通過這一函數(shù)來預(yù)測(cè)走勢(shì)。在實(shí)際的股票模型的設(shè)計(jì)過程中,考慮到強(qiáng)化系統(tǒng)中的Agent直接與環(huán)境交互,所以也可以不需要環(huán)境模型。這有利于加速?gòu)?qiáng)化學(xué)習(xí)的過程。對(duì)于建立一個(gè)環(huán)境模型的Agent,真實(shí)經(jīng)驗(yàn)起兩個(gè)作用:一是可以用來改善模型,使之更準(zhǔn)確的模擬真實(shí)的環(huán)境,這中情況稱之為模型學(xué)習(xí)。二是可以用真實(shí)的經(jīng)驗(yàn)去改進(jìn)值函數(shù)策略,稱之為直接強(qiáng)化學(xué)習(xí)?;诠善钡膶?shí)時(shí)特性,我們采取直接的強(qiáng)化學(xué)習(xí)的方法來實(shí)現(xiàn)系統(tǒng)。實(shí)際模型設(shè)計(jì)在實(shí)際模型中,設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)的輸入為股票價(jià)格X(t)(t=1,?,n),通過網(wǎng)絡(luò)來預(yù)測(cè)X(n+1)的價(jià)格。這里我們?nèi)=5,即通過股票市場(chǎng)前五日的價(jià)格來預(yù)測(cè)第六日的價(jià)格。為了克服BP網(wǎng)絡(luò)不可收斂的缺點(diǎn)和提高預(yù)測(cè)精度,我們要先對(duì)數(shù)據(jù)進(jìn)行歸一化處理,如下式。X XXminXmaxXmin設(shè)計(jì)如下:預(yù)測(cè)系統(tǒng)輸入為X(t)(t=1,?,n),經(jīng)過集成神經(jīng)網(wǎng)絡(luò)輸出Y(n+1)。[7]可見采取一個(gè)隱含層的BPBP網(wǎng)絡(luò)作為訓(xùn)練網(wǎng)絡(luò)。[7]在相同層數(shù)學(xué)習(xí)率的條件下,隱含層采用tansig函數(shù)作為傳輸函數(shù),并輸出層采用tansig函數(shù),能使BP算法收斂速度有較大的提高且能函數(shù)。Z=Y+D與預(yù)測(cè)值的誤差D偏離的太遠(yuǎn)。以提高系統(tǒng)預(yù)測(cè)的正確性。=1。P評(píng)價(jià)器產(chǎn)生的評(píng)價(jià)信號(hào)p=ln(z-x)2PcYZ3.2實(shí)現(xiàn)結(jié)果通過Matlab和Vc++混合編程實(shí)現(xiàn)系統(tǒng)預(yù)測(cè)。股票以2005年4月德國(guó)國(guó)奔馳汽車股票的開盤價(jià)為例進(jìn)行數(shù)據(jù)的預(yù)測(cè)分析。表1開盤價(jià)強(qiáng)化BP算法與一般BP算法的比較日期實(shí)際值強(qiáng)化BP算法BP算法4.0634.5934.6334.794.0534.5034.5434.634.0434.1934.2934.004.0134.3634.4234.253.3134.5334.6234.423.3034.4734.4934.513.2934.4034.4634.503.2434.4034.4134.483.2333.9634.0034.103.2233.9134.8433.973.2133.7933.7933.82圖4強(qiáng)化BP算法與BP算法的比較圖4中,帶點(diǎn)線為實(shí)際曲線,虛線為BP算法,實(shí)線為強(qiáng)化BP算法的結(jié)果。顯然,強(qiáng)化BP算法的預(yù)測(cè)結(jié)果比BP算法的結(jié)果,在預(yù)測(cè)趨勢(shì)上更加準(zhǔn)確,有著明顯的優(yōu)勢(shì)。對(duì)于股票系統(tǒng)的決策有著較高的價(jià)值。本文在所做的股票預(yù)測(cè)系統(tǒng)的基礎(chǔ)上進(jìn)行了系統(tǒng)改進(jìn),在原有的有導(dǎo)師系統(tǒng)的基礎(chǔ)上實(shí)現(xiàn)了自學(xué)習(xí)功能并大大提高了預(yù)測(cè)的精確度,同時(shí)由于神經(jīng)網(wǎng)絡(luò)集成的原因初始數(shù)據(jù)的可預(yù)測(cè)性提高。值得指出的是,該系統(tǒng)在運(yùn)行時(shí)間上比原有的BP神經(jīng)網(wǎng)絡(luò)略有所降低,仍需進(jìn)一步改進(jìn)和優(yōu)化。結(jié)論本文提出了一種基于神經(jīng)網(wǎng)絡(luò)集成的強(qiáng)化BP算法的系統(tǒng)設(shè)計(jì)方案。使原有的無導(dǎo)師BP參考文獻(xiàn)[1]周志華陳世福.神經(jīng)網(wǎng)絡(luò)集成,計(jì)算機(jī)學(xué)報(bào)[J],2002,25(1):1-8[J],2003,40(10):1419-1423陸鑫等.基于神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)算法研究,計(jì)算機(jī)研究與發(fā)展[J],2002,39(8):981-985趙宏等.證券市場(chǎng)預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò)方法,系統(tǒng)工程理論與實(shí)踐[J],1997,17(6):127-131[J],1998,(6):299-304LPKaelbling,MLLittman,AWMoore.Reinforcementlearning:Asurvey.Journal

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論