量化專題報(bào)告:基于可見性圖嵌入的滬深300深度學(xué)習(xí)增強(qiáng)策略_第1頁(yè)
量化專題報(bào)告:基于可見性圖嵌入的滬深300深度學(xué)習(xí)增強(qiáng)策略_第2頁(yè)
量化專題報(bào)告:基于可見性圖嵌入的滬深300深度學(xué)習(xí)增強(qiáng)策略_第3頁(yè)
量化專題報(bào)告:基于可見性圖嵌入的滬深300深度學(xué)習(xí)增強(qiáng)策略_第4頁(yè)
量化專題報(bào)告:基于可見性圖嵌入的滬深300深度學(xué)習(xí)增強(qiáng)策略_第5頁(yè)
已閱讀5頁(yè),還剩41頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告1相關(guān)研究1.量化專題報(bào)告:冷門獵手:權(quán)益基金提前布局能力分析-2023/10/122.量化專題報(bào)告:驅(qū)動(dòng)創(chuàng)新的資本力量:創(chuàng)新效率中的超額收益-2023/10/123.量化專題報(bào)告:從傳統(tǒng)策略到深度學(xué)習(xí)的可轉(zhuǎn)債投資-2023/10/104.資產(chǎn)配置月報(bào):十月配置視點(diǎn):能源板塊5.量化周報(bào):景氣度跳升,節(jié)后有望反彈-20基于可見性圖嵌入的滬深300深度學(xué)習(xí)增強(qiáng)策略可見性圖可以刻畫量?jī)r(jià)時(shí)序性結(jié)構(gòu)特征。可見性圖是一種將時(shí)間序列數(shù)據(jù)轉(zhuǎn)化成一張圖結(jié)構(gòu)的方法。抽取可見圖的結(jié)構(gòu)特征并訓(xùn)練分類器的方法被廣泛用于時(shí)間序列數(shù)據(jù)的分類問(wèn)題??梢妶D轉(zhuǎn)化為復(fù)雜網(wǎng)絡(luò)后,復(fù)雜網(wǎng)絡(luò)的結(jié)構(gòu)包含了時(shí)間序列中局部或者全局的波動(dòng)率與趨勢(shì)信息,多篇研究利用可見性圖及其特征進(jìn)行時(shí)序數(shù)據(jù)的預(yù)測(cè)并取得了顯著效果。簡(jiǎn)單的可見性圖結(jié)構(gòu)特征可以構(gòu)造弱有效的選股因子,日度IC均值0.03。利用結(jié)構(gòu)向量法提取圖結(jié)構(gòu)特征,可以刻畫股票的潛在屬性。盡管人為定義計(jì)算的可見性圖結(jié)構(gòu)特征已經(jīng)被證實(shí)過(guò)對(duì)時(shí)序數(shù)據(jù)有一定的分類效果,我們選擇用一種無(wú)監(jiān)督學(xué)習(xí)的方式來(lái)抽取復(fù)雜網(wǎng)絡(luò)的圖結(jié)構(gòu)特征——結(jié)構(gòu)向量法。與傳統(tǒng)的圖嵌入方法相比,struc2vec更加高效,且在多個(gè)數(shù)據(jù)集上分類更加精確,并可以應(yīng)用于大規(guī)模圖的嵌入。用結(jié)構(gòu)向量法提取的圖結(jié)構(gòu)特征對(duì)滬深300的股票進(jìn)行聚類,在多種風(fēng)格因子上有顯著分類效果,在周期行業(yè)上區(qū)分效果相對(duì)不明顯。利用二階段循環(huán)神經(jīng)網(wǎng)絡(luò)與跨資產(chǎn)注意力網(wǎng)絡(luò)構(gòu)造預(yù)測(cè)模塊,從而納入潛在屬性及股票間的相互關(guān)系。兩階段注意力循環(huán)神經(jīng)網(wǎng)絡(luò)DA-RNN可以通過(guò)按照時(shí)間順序上不斷訓(xùn)練結(jié)構(gòu)性信息的模型結(jié)構(gòu),提取圖結(jié)構(gòu)嵌入特征,在生成股票因子表示時(shí)納入股票的潛在信息??缳Y產(chǎn)注意力網(wǎng)絡(luò)CAAN可以對(duì)股票間的相互關(guān)系進(jìn)行建模,計(jì)算batch內(nèi)因子表示的相似度,作為注意力機(jī)制的來(lái)源。最終通過(guò)sigmoid函數(shù),以下一個(gè)交易日股票價(jià)格是否上漲為因變量進(jìn)行建模,輸出股票上漲概率。利用混淆矩陣來(lái)衡量模型準(zhǔn)確率,驗(yàn)證集內(nèi)準(zhǔn)確率68%,精確率達(dá)70%。日頻模型選股和擇時(shí)效果顯著,合成股指信號(hào)依然有效。將模型預(yù)測(cè)的個(gè)股日度上漲概率作為日頻選股因子struc_learning,因子日度IC均值0.16,ICIR1.2;中性化后因子表現(xiàn)有所下降,但選股效果依然顯著。日度調(diào)倉(cāng)多頭組合年化超額收益95.6%,信息比率8.0,但策略容量較低。增加持股數(shù)量構(gòu)建滬深300增強(qiáng)組合,組合平均持股數(shù)量137只,策略容量顯著上升,年化超額收益46.7%,信息比率5.87。用個(gè)股信號(hào)合成股指日度漲跌概率信號(hào),并構(gòu)建滬深300倉(cāng)位擇時(shí)策略,年化超額收益13.3%,信息比率1.47,預(yù)測(cè)漲跌準(zhǔn)確率64%。風(fēng)險(xiǎn)提示:量化模型基于歷史數(shù)據(jù),市場(chǎng)未來(lái)可能發(fā)生變化,策略模型有失效可能。量化專題報(bào)告本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告21可見性圖的構(gòu)造以及圖結(jié)構(gòu)嵌入 31.1可見性圖 31.2復(fù)雜網(wǎng)絡(luò)的節(jié)點(diǎn)權(quán)重 51.3從圖結(jié)構(gòu)中提取嵌入信息 52模型結(jié)構(gòu)與開箱分析 82.1基于圖結(jié)構(gòu)嵌入的深度神經(jīng)網(wǎng)絡(luò) 82.2DA-RNN網(wǎng)絡(luò) 92.3CAAN網(wǎng)絡(luò) 2.4圖結(jié)構(gòu)特征對(duì)股票的分類效果 3模型效果實(shí)證 3.1參數(shù)選擇及準(zhǔn)確率衡量 3.2模型選股表現(xiàn) 3.3模型擇時(shí)表現(xiàn) 4總結(jié)與思考 225風(fēng)險(xiǎn)提示 236參考文獻(xiàn) 24插圖目錄 25量化專題報(bào)告本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告31可見性圖的構(gòu)造以及圖結(jié)構(gòu)嵌入可見性圖(VisibilityGraph)是一種將時(shí)間序列數(shù)據(jù)轉(zhuǎn)化成圖結(jié)構(gòu)的方法。抽取可見圖的結(jié)構(gòu)特征并訓(xùn)練分類器的方法被廣泛用于時(shí)間序列數(shù)據(jù)的分類問(wèn)題??梢娦詧D的定義如下:對(duì)于一個(gè)時(shí)間序列P=(p1,…pn),其可見圖表示為:給定兩個(gè)數(shù)據(jù)點(diǎn)(ti,pi)和(tj,pj),若其中的所有數(shù)據(jù)點(diǎn)(tk,pk),ti<tk<tj滿足:pk<pi+(pj?pi),則兩點(diǎn)的連線視為一條“邊”(edge時(shí)序中所有符合條件的數(shù)據(jù)點(diǎn)以及其“邊”的集合即為這一時(shí)序的可見圖。用更直觀的角度解釋:若將一個(gè)時(shí)間序列表達(dá)為一個(gè)柱狀圖,依次站在柱子的頂端“往前看”,如果可以“看到”任意一條柱子的頂端,則在這兩條柱子間連接一條線,形成具有網(wǎng)絡(luò)結(jié)構(gòu)的邊。圖1:可見性圖連接規(guī)則示意可見圖方法通過(guò)結(jié)構(gòu)圖直觀地展示時(shí)間序列映射后的復(fù)雜網(wǎng)絡(luò),此時(shí)的復(fù)雜網(wǎng)絡(luò)繼承了時(shí)間序列的屬性。使用可見圖方法轉(zhuǎn)換時(shí)間序列為復(fù)雜網(wǎng)絡(luò)的方法最早可以追溯到2008年LucasLacasa等人的論文Fromtimeseriestocomplexnetworks:Thevisibilitygraph[1],我們可以把時(shí)間序列數(shù)據(jù)中的時(shí)間信息轉(zhuǎn)換為復(fù)雜網(wǎng)絡(luò)的節(jié)點(diǎn)位置信息,時(shí)間序列中的可見性關(guān)系轉(zhuǎn)換為復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)與節(jié)點(diǎn)間的連線關(guān)系,這種可見性的連接關(guān)系同樣刻畫了時(shí)間序列數(shù)據(jù)中數(shù)值的相對(duì)大小關(guān)系。但不同于時(shí)間序列的兩個(gè)維度t(時(shí)間)和y(數(shù)值)維度,可見圖的最終表示形式則為一個(gè)n×n的矩陣Γ,若點(diǎn)i與點(diǎn)j有連線,則矩陣中的元素yij=1,否則為0。下圖展示了某一只股票在2019年底的20天收盤價(jià)構(gòu)造的可見性圖,可視化復(fù)雜網(wǎng)絡(luò),及矩陣化表示(紅色為1,白色為0)。本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告4圖2:某只股票20天收盤價(jià)的可見性圖及復(fù)雜網(wǎng)絡(luò)可見性圖及其特征被廣泛應(yīng)用于時(shí)序數(shù)據(jù)的預(yù)測(cè)中。比如,在DaoyuanLi,etal在2018年發(fā)表的論文ExtractingStatisticalGraphFeaturesforAccurateandEfficientTimeSeriesClassification[3]中,作者將可見性圖中提取出的多個(gè)特征輸入XGBoost模型,對(duì)UCR大學(xué)創(chuàng)建的時(shí)間序列數(shù)據(jù)集中的多個(gè)時(shí)間序列數(shù)據(jù)進(jìn)行了分類,并取得了顯著的分類效果,證明了可見性圖的結(jié)構(gòu)特征可以對(duì)樣本進(jìn)行分類。從這一角度出發(fā),我們可以將可見性圖結(jié)構(gòu)特征的分類效果應(yīng)用到股票市場(chǎng)中,將可見圖結(jié)構(gòu)特征作為股票的潛在屬性,輸入到神經(jīng)在A股中,可見性圖中的結(jié)構(gòu)性特征對(duì)股票有一定的選擇效果,其邏輯在于結(jié)構(gòu)中蘊(yùn)含的波動(dòng)性與趨勢(shì)。最簡(jiǎn)單且常見的圖結(jié)構(gòu)特征為平均最短步長(zhǎng),即每個(gè)節(jié)點(diǎn)連到其他點(diǎn)最短步長(zhǎng)的平均。想象一種U型價(jià)格走勢(shì),按照可見性圖的規(guī)則,圖中的所有價(jià)格點(diǎn)都可以“看見”彼此,則類似的圖結(jié)構(gòu)有著最低的平均最短步長(zhǎng)(一步就可以從任一點(diǎn)到任一點(diǎn)反之,若價(jià)格走勢(shì)為倒U型,則圖結(jié)構(gòu)有著最高的平均最短步長(zhǎng)。根據(jù)類似圖結(jié)構(gòu)中包含的波動(dòng)率與趨勢(shì)信息,我們可以構(gòu)建簡(jiǎn)單的選股因子。例如,我們可以基于股票過(guò)去20個(gè)交易日收盤價(jià)可見性圖的平均最短步長(zhǎng)減去負(fù)收盤價(jià)可見性圖的平均最短步長(zhǎng),構(gòu)建日頻選股因子,在全A上取得0.03的日度IC。圖3:可見性圖結(jié)構(gòu)因子日度IC本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告5除了每個(gè)網(wǎng)絡(luò)的圖結(jié)構(gòu)特征外,我們還需要考慮每一個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)的權(quán)重,因?yàn)槊總€(gè)節(jié)點(diǎn)蘊(yùn)含的信息權(quán)重是不一樣的。在傳統(tǒng)的復(fù)雜網(wǎng)絡(luò)分析框架中,有很多方法可以用來(lái)衡量節(jié)點(diǎn)權(quán)重,如度中心性,介數(shù)中心性,接近度中心性等。我們采用FlavianoMoroneandHernanA.Makse于2015年發(fā)表的論文Influencemaximizationincomplexnetworksthroughoptimalpercolation中提到的CollectiveInfluence[3]算法,根據(jù)Morone等人的研究,CI算法計(jì)算高效,并且相比起傳統(tǒng)權(quán)重計(jì)算方法,可以更好識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)中的節(jié)點(diǎn)貢獻(xiàn)。在CI算法中,要計(jì)算點(diǎn)i的CI指數(shù),首先從點(diǎn)i出發(fā),跳l步可以到達(dá)的所有點(diǎn)的集合(即距離點(diǎn)i的最短步數(shù)為l的所有點(diǎn))構(gòu)成以點(diǎn)i為中心,半徑為l=2的“球面”,表示為?Ball(i,l)。則每個(gè)節(jié)點(diǎn)的CI指數(shù)計(jì)算方式定義如下:CIi=(di?1)∑(dj?1)j∈δBall(i,l)其中d為節(jié)點(diǎn)的度數(shù),即節(jié)點(diǎn)連的邊數(shù)。我們以某只股票20天的量?jī)r(jià)指標(biāo)為例,計(jì)算節(jié)點(diǎn)權(quán)重如下:圖4:某只股票20天量?jī)r(jià)指標(biāo)的相應(yīng)節(jié)點(diǎn)權(quán)重示例777790804872273029681301640338520520756562850120120120140128140565676855024314214830404514771401201622281641041645046190112188116116152130130132132644014498520520756562850120120120140128140closevolopenamount30216631361332165025614413625610050921441405016869561471266950508412012650631216 4632463963上一節(jié)中我們提到,傳統(tǒng)的復(fù)雜網(wǎng)絡(luò)用人為定義的結(jié)構(gòu)特征,如平均最短步長(zhǎng),對(duì)時(shí)序數(shù)據(jù)進(jìn)行分類。盡管這種傳統(tǒng)的方法已經(jīng)被證實(shí)過(guò)對(duì)時(shí)序數(shù)據(jù)有一定的分類效果,我們選擇用一種更有效的訓(xùn)練方式來(lái)抽取復(fù)雜網(wǎng)絡(luò)的圖結(jié)構(gòu)特征——結(jié)構(gòu)向量法(Struc2vec此方法由2017年LeonardoF.R.Ribeiro等人發(fā)表的研究struc2vec:LearningNodeRepresentationsfromStructuralIdentity中提出[4]。結(jié)構(gòu)向量法是一種將復(fù)雜網(wǎng)絡(luò)中的節(jié)點(diǎn)表示為嵌入向量,并用其進(jìn)行分類的無(wú)監(jiān)督學(xué)習(xí)算法。與傳統(tǒng)的圖嵌入方法相比,struc2vec更加高效,且在多個(gè)數(shù)據(jù)集上分類更加精確,并可以應(yīng)用于大規(guī)模圖的嵌入。需要注意的是,1.2中提到的CI指數(shù)與結(jié)構(gòu)向量法是兩個(gè)獨(dú)立的算法,CI指數(shù)衡量的是復(fù)雜網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的信息權(quán)重,而結(jié)構(gòu)向量法則是從這些節(jié)點(diǎn)中提取潛在特征,將節(jié)點(diǎn)信息變?yōu)榍度胂蛄浚?種算法作用不同,并無(wú)關(guān)聯(lián)。在后續(xù)模型構(gòu)建中,量化專題報(bào)告本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告6我們計(jì)算可見性圖后將分別計(jì)算CI節(jié)點(diǎn)權(quán)重與結(jié)構(gòu)向量嵌入,并輸入到神經(jīng)網(wǎng)絡(luò)中進(jìn)行預(yù)測(cè)。Ribeiro等人認(rèn)為,一個(gè)好的可以反映節(jié)點(diǎn)結(jié)構(gòu)特性的方法需要使得嵌入embedding向量間的距離可以反映節(jié)點(diǎn)之間的結(jié)構(gòu)相似性,即兩個(gè)局部結(jié)構(gòu)相似節(jié)點(diǎn)的嵌入距離應(yīng)該相近;并且節(jié)點(diǎn)表示不依賴于節(jié)點(diǎn)本身的屬性,邊的屬性以及節(jié)點(diǎn)標(biāo)簽,即使兩個(gè)節(jié)點(diǎn)離的很遠(yuǎn),也能夠識(shí)別出他們?cè)诮Y(jié)構(gòu)上的相似性。基于上述目的,作者提出了結(jié)構(gòu)向量算法,將每一個(gè)節(jié)點(diǎn)表示為嵌入向量。核心思想是:先根據(jù)節(jié)點(diǎn)相似度構(gòu)建多個(gè)圖層,在其中進(jìn)行多次隨機(jī)游走并構(gòu)建上下文環(huán)境,再將上下文環(huán)境套入Word2vec算法中的skip-gram模型,學(xué)習(xí)每個(gè)節(jié)點(diǎn)的向量表示。skip-gram模型是一種用于生成詞向量的神經(jīng)網(wǎng)絡(luò)模型。它的目標(biāo)是通過(guò)學(xué)習(xí)上下文信息來(lái)捕捉單詞之間的語(yǔ)義關(guān)系。具體而言,skip-gram模型試圖預(yù)測(cè)給定一個(gè)中心單詞周圍出現(xiàn)的其他單詞。舉個(gè)例子來(lái)說(shuō),假設(shè)我們有一個(gè)句子:“北京的天空很藍(lán)”。在skip-gram模型中,我們將選擇一個(gè)中心單詞比如“天空”,并嘗試預(yù)測(cè)它周圍出現(xiàn)的其他單詞。通過(guò)這樣的訓(xùn)練過(guò)程,skip-gram模型可以學(xué)習(xí)到每個(gè)單詞在不同上下文中的表示,對(duì)應(yīng)到復(fù)雜網(wǎng)絡(luò)中,即可以學(xué)習(xí)到每個(gè)節(jié)點(diǎn)在隨機(jī)游走構(gòu)建的上下文環(huán)境中的向量表示。結(jié)構(gòu)向量法的大致計(jì)算步驟如下:1.根據(jù)不同距離的相鄰節(jié)點(diǎn)信息,對(duì)K*個(gè)k跳鄰域分別計(jì)算每?jī)蓚€(gè)節(jié)點(diǎn)的相似度,即計(jì)算K*個(gè)層級(jí)的相似度信息,其中K*為網(wǎng)絡(luò)的直徑,即網(wǎng)絡(luò)中任意兩點(diǎn)距離的最大值。計(jì)算相似度的核心思想是,如果兩個(gè)節(jié)點(diǎn)的度相同,那么這兩個(gè)節(jié)點(diǎn)結(jié)構(gòu)相似;如果這兩個(gè)節(jié)點(diǎn)的鄰居度也相同,那么這兩個(gè)節(jié)點(diǎn)的結(jié)構(gòu)相似性比前者更高。圖5中左邊展示了一個(gè)網(wǎng)絡(luò)集合以及節(jié)點(diǎn)u和v的相似度算法示意,其中g(shù)代表了R2(u)和R2(v)的距離函數(shù),具體算法在本文中不再贅述。2.構(gòu)建一個(gè)帶權(quán)重的多層圖,層數(shù)為K,每個(gè)圖層中都包含網(wǎng)絡(luò)中的所有節(jié)點(diǎn),且每?jī)牲c(diǎn)間均有邊,邊的權(quán)重與以這一層的層數(shù)k計(jì)算的兩點(diǎn)的結(jié)構(gòu)相似度有關(guān),兩個(gè)點(diǎn)結(jié)構(gòu)相似度越高,這條邊的權(quán)重越高。3.使用有偏的隨機(jī)游走生成每一個(gè)節(jié)點(diǎn)的路徑:對(duì)于每個(gè)節(jié)點(diǎn),從基層開始進(jìn)行隨機(jī)游走,節(jié)點(diǎn)的每一次游走可以走到同一層的其他點(diǎn),或是上下層的同一點(diǎn),概率與步驟2中的邊權(quán)重有關(guān)。圖5中展示了3個(gè)圖層的情況下隨機(jī)游走的路徑示意。4.根據(jù)多次隨機(jī)游走獲得的多個(gè)序列,將序列類比為上下文環(huán)境,使用Skip-Gram算法來(lái)生成節(jié)點(diǎn)表示。我們選擇為20個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)生成P=32的向量表示。量化專題報(bào)告本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告7圖5:結(jié)構(gòu)向量法示意圖本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告82模型結(jié)構(gòu)與開箱分析基于可見性圖的圖結(jié)構(gòu)嵌入可以應(yīng)用到深度神經(jīng)網(wǎng)絡(luò)中。我們?cè)谏弦黄疃葘W(xué)習(xí)的專題報(bào)告《深度學(xué)習(xí)如何利用公募持倉(cāng)網(wǎng)絡(luò)優(yōu)化選股效果?》中,論證了神經(jīng)網(wǎng)絡(luò)中加入股票潛在屬性嵌入的可行性,提出了用股票動(dòng)態(tài)的潛在屬性影響因子表示并預(yù)測(cè)股票收益的方法(即將embedding與LSTM輸出的隱藏層一起拼接到MLP中)。在本篇報(bào)告中,我們參考Wu,J.etal.,2022[6]中提出的圖結(jié)構(gòu)嵌入的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,采用類似的思路:我們?cè)?.3中提出了用結(jié)構(gòu)向量法構(gòu)建每一個(gè)可見性圖的嵌入表示,以此來(lái)表示股票的潛在屬性。接下來(lái),我們?cè)陬A(yù)測(cè)模塊中將圖結(jié)構(gòu)嵌入輸入到深度神經(jīng)網(wǎng)絡(luò)中,進(jìn)行股票漲跌預(yù)測(cè)。總體模型結(jié)構(gòu)如下:圖6:基于圖結(jié)構(gòu)嵌入的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在上圖的網(wǎng)絡(luò)結(jié)構(gòu)中,我們對(duì)于每一個(gè)樣本,即單天單只股票的單個(gè)量?jī)r(jià)指標(biāo)過(guò)去20天的數(shù)據(jù),計(jì)算可見性圖;隨后分別計(jì)算節(jié)點(diǎn)權(quán)重CI以及結(jié)構(gòu)向量嵌入矩陣。我們的預(yù)測(cè)模塊由2部分構(gòu)成,第一部分是DA-RNN,一個(gè)雙步的深度神經(jīng)網(wǎng)絡(luò),來(lái)對(duì)嵌入信息進(jìn)行編碼,并將編碼后的股票潛在屬性與原始量?jī)r(jià)信息和節(jié)點(diǎn)權(quán)重一起輸入到DA-RNN的第二步中,輸出股票個(gè)股當(dāng)天單變量的因子表示,再將6個(gè)價(jià)量指標(biāo)的隱藏層相加,輸入到跨資產(chǎn)注意力網(wǎng)絡(luò)CAAN中,最后通過(guò)一個(gè)全鏈接神經(jīng)網(wǎng)絡(luò),即上圖中的Linear(1),以及sigmoid函數(shù)輸出一個(gè)0-1的預(yù)測(cè)變量,即個(gè)股在下一個(gè)交易日的上漲概率。下面我們將介紹預(yù)測(cè)模塊中用到的DA-RNN網(wǎng)絡(luò)和CAAN網(wǎng)絡(luò)。本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告9兩階段注意力循環(huán)神經(jīng)網(wǎng)絡(luò)Dual-stageAttention-basedRNN,即DA-RNN,可以通過(guò)按照時(shí)間順序上不斷訓(xùn)練結(jié)構(gòu)性信息,用雙步的模型結(jié)構(gòu)提取圖結(jié)構(gòu)嵌入特征并輸入到特征處理中,影響原始價(jià)量數(shù)據(jù)的建模。DA-RNN由YaoQin等人在2017年發(fā)表的論文ADual-StageAttention-BasedRecurrentNeuralNetworkforTimeSeriesPrediction[7]中提出。DA-RNN是一個(gè)雙階段的注意力機(jī)制循環(huán)神經(jīng)網(wǎng)絡(luò)模型,主要思想就是將前t個(gè)時(shí)間步的信息利用編碼器encoder編碼到一個(gè)融合吸納前t個(gè)時(shí)間步信息的定長(zhǎng)向量,然后使用解碼器decoder進(jìn)行解碼對(duì)后續(xù)的時(shí)間步驟進(jìn)行預(yù)測(cè)。與傳統(tǒng)的將embedding特征與隱藏層進(jìn)行拼接不同,DA-RNN用Encoder-Decoder的結(jié)構(gòu)納入嵌入信息,充分利用了之前提取的結(jié)構(gòu)特征。在Encoder中,我們?cè)诿恳粋€(gè)時(shí)間步輸入圖嵌入以用一個(gè)LSTM提取隱藏特征,并將上一個(gè)時(shí)間步的隱藏特征輸入到這個(gè)時(shí)間步,并使用輸入注意力機(jī)制來(lái)選擇相關(guān)特征(對(duì)應(yīng)下圖中的InputAttention機(jī)制賦予每個(gè)特征一定權(quán)重;隨后我們?cè)谀P偷牡诙紻ecoder中加入原始量?jī)r(jià)數(shù)據(jù)以及CI算法計(jì)算的節(jié)點(diǎn)權(quán)重,并加入時(shí)間注意力機(jī)制來(lái)選擇整個(gè)時(shí)間步長(zhǎng)中相應(yīng)的隱藏層狀態(tài)(對(duì)應(yīng)下圖中的TemporalAttention機(jī)制并計(jì)算最終的隱狀態(tài),即因子表示。圖7:DA-RNN網(wǎng)絡(luò)結(jié)構(gòu)圖7(a)中展示了DA-RNN中特有的輸入注意力機(jī)制編碼器。首先構(gòu)建一個(gè)輸入注意力層以輸出初始隱藏層?0,隨后在每一個(gè)時(shí)間步上,使用當(dāng)前時(shí)刻的輸入xt以及上一個(gè)時(shí)刻編碼器的隱藏層?t?1輸入LSTM,并更新當(dāng)前時(shí)間步上的隱狀態(tài)?t=f1(?t?1,xt),這里n=32,即為結(jié)構(gòu)向量法中的特征維度。隨后,把第k個(gè)特征與前一時(shí)刻的隱狀態(tài)與細(xì)胞狀態(tài)進(jìn)行線性組合,再用tanh激活得到e,k=1,…,n,將e用softmax函數(shù)進(jìn)行歸一化便得到了t時(shí)刻的注意力權(quán)重a=),最后更新下一步t時(shí)刻的輸入t=(ae,…,ae)。輸入注意力機(jī)制使得編碼器能夠關(guān)注其中輸入特征中重要的特征,而不是對(duì)所有特征一視同仁,這也是所有注意力機(jī)制的本質(zhì)作用。本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告10圖7(b)中介紹了第二階段的解碼器注意力機(jī)制。需要注意的是,圖7(b)中已經(jīng)包含了(a)中的過(guò)程,而圖7(a)可以看作是得到?t與t的過(guò)程細(xì)節(jié)。第二階段解碼器中采用的TemporalAttention類似于傳統(tǒng)的注意力機(jī)制,在不同時(shí)刻采用不同的背景向量(contextvector)以達(dá)到只選取相關(guān)時(shí)刻的隱藏層的目的,使得解碼器能夠關(guān)注時(shí)序中重要的隱狀態(tài),而不是對(duì)每一天的隱狀態(tài)一視同仁。其中背景向量ct=∑′=1β′?t′表示為所有時(shí)刻隱藏層的加權(quán)平均,權(quán)重β′即為注意力權(quán)重。對(duì)于注意力權(quán)重β′的計(jì)算,作者基于前一個(gè)時(shí)刻解碼器的隱狀態(tài)dt?1與細(xì)胞狀態(tài)進(jìn)行線性組合,再用tanh激活得到l′,t′=1,…,T,將l′用softmax函數(shù)進(jìn)行歸一化便得到了t時(shí)刻的注意力權(quán)重β′=,更新下一步的背景向量ct=∑′=1β′?t,最終更新當(dāng)前t時(shí)刻解碼器的隱狀態(tài)dt=f2(yt?1,dt?1,ct?1)。而當(dāng)前時(shí)刻的隱狀態(tài)dt即為我們模型中輸出的最終因子表示。跨資產(chǎn)注意力網(wǎng)絡(luò)CAAN(Cross-AssetAttentionNetwork)可以對(duì)股票間的相互關(guān)系進(jìn)行建模,作為注意力機(jī)制的來(lái)源。CAAN最早由JingyuanWang等人于2019年發(fā)表的論文:AlphaStock:ABuying-Winners-and-Selling-LosersInvestmentStrategyusingInterpretableDeepReinforcementAttentionNetworks[8]中提出。傳統(tǒng)的self-attention注意力機(jī)制著重學(xué)習(xí)輸入特征在時(shí)序上相關(guān)性較高的部分,而跨資產(chǎn)注意力網(wǎng)絡(luò)則以股票間因子的相似度作為注意力機(jī)制的來(lái)源。我們將上一步中得到的因子表示輸入到CAAN中,給定資產(chǎn)表征r,我們計(jì)算出股票i的查詢向量q,密鑰向量k,和價(jià)值向量v,q(i)=w(Q)r(i),k(i)=w(k)r(i),v(i)=w(Q)r(i)。其中w(Q),w(k)和w(v)是待學(xué)習(xí)的參數(shù)矩陣。資產(chǎn)j與資產(chǎn)i的相互關(guān)系被建模為使用資產(chǎn)i的q(i)來(lái)查詢資產(chǎn)j的密鑰k(j),即q(i)與k(j)的內(nèi)積βij,然后,將相互關(guān)系{βij}作為權(quán)重,將其他資產(chǎn)的值向量{v(i)}加起來(lái),成為一個(gè)歸一化加權(quán)得分a(i)=ij′)?v(j),作為個(gè)股的得分。最后用全連接層,即下圖中的FullyConnectedLayer(Linear(1))通過(guò)sigmoid函數(shù)將得分轉(zhuǎn)化為個(gè)股的上漲概率,即0-1的標(biāo)準(zhǔn)圖8:CAAN網(wǎng)絡(luò)結(jié)構(gòu)示意本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告11整個(gè)模型的訓(xùn)練分為兩部分。我們將嵌入模塊與預(yù)測(cè)模塊分開訓(xùn)練,先得到可見性圖,隨后分別計(jì)算節(jié)點(diǎn)CI權(quán)重,和訓(xùn)練結(jié)構(gòu)向量法模型得到節(jié)點(diǎn)嵌入embedding信息。預(yù)測(cè)模塊包含了上文中提到的DA-RNN與CAAN,即按照模型結(jié)構(gòu)進(jìn)行端到端的訓(xùn)練,輸入為原始量?jī)r(jià)信息,以及嵌入模塊中得到的節(jié)點(diǎn)權(quán)重CI與節(jié)點(diǎn)嵌入embedding,最終輸出股票的上漲概率。結(jié)構(gòu)向量法提取的圖結(jié)構(gòu)特征刻畫了股票的潛在屬性,因而對(duì)股票有一定的分類效果。在師野等作者于2022年發(fā)表的論文《基于可見圖方法的股票行業(yè)分析》中,作者用收盤價(jià)的平均度,聚類系數(shù),緊密中心性等特征對(duì)美國(guó)道瓊斯指數(shù)中的30只股票進(jìn)行了聚類,得到了近似于行業(yè)的分類結(jié)果。這表明相似屬性的股票理應(yīng)具有相似的價(jià)量圖結(jié)構(gòu)特征。我們?nèi)?019年年底截面上滬深300的所有股票,用訓(xùn)練好的模型提取出DA-RNN編碼器的輸出,即個(gè)股的32維隱狀態(tài)。這個(gè)隱狀態(tài)表示了股票在這一截面上的“潛在屬性”。潛在屬性應(yīng)是無(wú)法直接量化的屬性,它可以是多種風(fēng)格和行業(yè)屬性的疊加,或者是更深層次,暫時(shí)無(wú)人發(fā)掘的股票屬性。我們對(duì)每支股票的6個(gè)價(jià)量指標(biāo)輸出的隱狀態(tài)取平均,并用k-means法對(duì)300支股票進(jìn)行聚類,聚類結(jié)果如下:圖9:k-means法聚類各類別股票個(gè)數(shù)我們將滬深300內(nèi)的股票聚為10類,可以看出10類的數(shù)量分布沒有明顯不均。我們進(jìn)一步計(jì)算每一類股票相對(duì)滬深300的主動(dòng)風(fēng)格偏離,解析圖結(jié)構(gòu)特征對(duì)股票的分類效果:本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告12圖10:10類股票的風(fēng)格偏離類別類別beta盈利成長(zhǎng)杠桿流動(dòng)性動(dòng)量非線性市值市值價(jià)值波動(dòng)率1-0.510.09-0.220.12-0.48-0.280.12-0.090.420.020.400.250.13-0.010.350.410.000.02-0.140.370.11-0.340.29-0.370.250.77-0.240.22-0.730.34-0.270.31-0.050.18-0.22-0.12-0.010.030.290.16-0.83-0.25-0.080.17-0.43-0.36-0.120.090.03-0.24-0.380.410.120.050.15-0.320.05-0.02-0.100.13-0.36-0.490.46-0.800.000.060.12-0.14-0.930.530.440.24-0.240.030.090.17-0.030.030.13-0.320.38-0.16-0.11-0.040.20-0.140.15-0.09-0.01-0.210.16-0.14-0.080.39-0.16-0.560.01-0.120.65-0.510.420.290.210.320.270.380.110.110.460.3223456789標(biāo)準(zhǔn)差從結(jié)果可以看出,每一類股票都有較為明顯的多種風(fēng)格偏離,且不盡相同。類別1以高貝塔,低流動(dòng)性,低動(dòng)量,高價(jià)值為主;類別2以高貝塔,高流動(dòng)性,高動(dòng)量,低價(jià)值為主……以此類推,發(fā)現(xiàn)每一類股票都有較為明顯的多種風(fēng)格。縱向來(lái)看,在beta,動(dòng)量,價(jià)值等風(fēng)格因子上,10類股票的標(biāo)準(zhǔn)差較大,證明在這些風(fēng)格上,結(jié)構(gòu)特征對(duì)股票的區(qū)分度較高,或者說(shuō)股票在這幾種風(fēng)格上對(duì)圖結(jié)構(gòu)特征較為敏感。圖11:10類股票的行業(yè)分布汽車銀行基礎(chǔ)化工通信計(jì)算機(jī)建筑及新能源食品飲料用事業(yè)機(jī)械傳媒有色金屬石油石化能源房地產(chǎn)證券交通運(yùn)輸1112220110110220.83552110110226211011210111000.640044001100220110224000022133004400011111110001111300.870.8721550001132220110000220110.8004330001101101130000003310220001103310110220002210220.87330882222231066011111210441020000001100210011220.830220215522011000118002112205500440222123456789 標(biāo)準(zhǔn)差觀察行業(yè)在各個(gè)類別上的分布,可以看到圖結(jié)構(gòu)特征在證券,醫(yī)藥,銀行等行業(yè)的區(qū)分效果比較明顯。而在一些周期性行業(yè)如基礎(chǔ)化工,國(guó)防軍工,能源,汽車等行業(yè)上,圖結(jié)構(gòu)特征的分類效果相對(duì)較弱。總的來(lái)說(shuō),可以認(rèn)為圖結(jié)構(gòu)特征根據(jù)股票的行業(yè),風(fēng)格和潛在屬性,對(duì)股票進(jìn)行分類,從而在DA-RNN解碼器中發(fā)揮作用,輸出更加動(dòng)態(tài),包含更多股票潛在屬性的因子表示。本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告133模型效果實(shí)證模型數(shù)據(jù)輸入與參數(shù)選擇具體如下表。大多數(shù)參數(shù)選擇均與參考論文中披露的一致。建模時(shí),我們選擇了滬深300成分股作為股票池,主要考慮到滬深300的流動(dòng)性較高,以及結(jié)構(gòu)向量法的中間結(jié)果較大,無(wú)法一次訓(xùn)練過(guò)多數(shù)據(jù)等原因。訓(xùn)練采用80G內(nèi)存,RTX4090顯卡的服務(wù)器。Struc2vec訓(xùn)練單個(gè)量?jī)r(jià)指標(biāo)中間結(jié)果需要10個(gè)小時(shí)左右,預(yù)測(cè)模塊訓(xùn)練單次epoch需要5分鐘左右,整個(gè)訓(xùn)練過(guò)程需要運(yùn)行3天左右。故全歷史訓(xùn)練單次需要一周左右。圖12:模型數(shù)據(jù)與參數(shù)細(xì)節(jié)?數(shù)據(jù)窗口:個(gè)股過(guò)去20個(gè)交易日量?jī)r(jià),圖結(jié)構(gòu)特?模型訓(xùn)練:神經(jīng)網(wǎng)絡(luò)最大訓(xùn)練輪數(shù)為800輪,最小為50輪;每一年訓(xùn)練一次,預(yù)年的訓(xùn)練模型預(yù)測(cè)2020年日度漲跌,以此類推, 我們采用混淆矩陣來(lái)衡量模型預(yù)測(cè)表現(xiàn)?;煜仃囀呛饬糠诸愋湍P蜏?zhǔn)確度中最簡(jiǎn)單,直觀的計(jì)算方法。它分別統(tǒng)計(jì)了分類模型歸錯(cuò)類,歸對(duì)類的觀測(cè)值個(gè)數(shù)。我們?nèi)∠乱蝗展善鄙蠞q為1,即positive,下跌為0,即negative。本質(zhì)上,模型在最后全鏈接層加入sigmoid,決定了模型的預(yù)測(cè)值為下一個(gè)交易日個(gè)股的上漲概率,故若預(yù)測(cè)值大于0.5,我們就認(rèn)為個(gè)股會(huì)上漲,預(yù)測(cè)值取1,反之則取0,故混淆矩陣如下圖所示:圖13:混淆矩陣的四分類我們采用混淆矩陣中常用的4個(gè)指標(biāo)來(lái)衡量模型的準(zhǔn)確度。4個(gè)指標(biāo)的計(jì)算方式如下:本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告14模型在訓(xùn)練集和預(yù)測(cè)集上的預(yù)測(cè)效果如下圖所示:兩個(gè)數(shù)據(jù)集上的表現(xiàn)都隨訓(xùn)練輪數(shù)epoch增加穩(wěn)步上升,驗(yàn)證集表現(xiàn)波動(dòng)稍大,最終正確率穩(wěn)定在68%左右,訓(xùn)練集正確率接近80%。驗(yàn)證集最高精確率超過(guò)70%,體現(xiàn)了模型在多頭段的預(yù)測(cè)能力。圖14:訓(xùn)練集準(zhǔn)確率隨訓(xùn)練輪數(shù)變化圖15:驗(yàn)證集準(zhǔn)確率隨訓(xùn)練輪數(shù)變化我們?nèi)∶看斡?xùn)練驗(yàn)證集表現(xiàn)最好的一次訓(xùn)練作為最終模型,將模型輸出的漲跌概率作為個(gè)股struc_learning日頻因子,在滬深300上回測(cè)日頻選股效果?;販y(cè)日期2019年1月4日至2023月18日。用當(dāng)天因子值對(duì)應(yīng)第二天開盤價(jià)到第三天開盤價(jià)?計(jì)算因子日度IC與分十組年化收益,因子表現(xiàn)出色,日度IC均值0.16,ICIR1.2,分十組收益單調(diào)性強(qiáng)。_圖16:struclearning因子日度IC__圖17:struclearning因子分十組平均年化收益_對(duì)struc_learning因子做市值行業(yè)中性化,中性化后因子IC均值下降到本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告150.1,ICIR1.13,分組收益單調(diào)性依然顯著,但收益下降明顯。 圖18:中性化struclearning因子日度IC 圖19:中性化struclearning因子分十組平均年化收益 計(jì)算因子多頭組合收益時(shí),考慮到每日的開盤價(jià)競(jìng)爭(zhēng)較為激烈,我們采用每日9:35的價(jià)格作為成交價(jià)格,避免股價(jià)高開,以至于因子表現(xiàn)虛高。我們進(jìn)行日度調(diào)倉(cāng),取雙邊千三的手續(xù)費(fèi)進(jìn)行扣費(fèi),計(jì)算因子struc_learning因子分年度表現(xiàn)如下圖所示,所有年份都取得顯著收益,表現(xiàn)優(yōu)異。因子中性化后表現(xiàn)下降明顯,但整體仍能取得顯著超額收益。_圖20:struclearning因子及中性化因子分年度表現(xiàn)_年份費(fèi)后多頭收多頭組合超多頭組合信多空收益990.7%中性化因子費(fèi)中性化因子費(fèi)中性化因子費(fèi)中性化因子中性化因子益額收益息比率后多頭收益后超額收益后信息比率多空收益20192020202145.5%4.90202249.4%2023/8/18460.6%44.4%平均年化95.6%8.001721.5%62.2%26.9%395.0%因子多頭組合換手率較高,年化單邊換手率在220倍左右。_圖21:struclearning因子多頭組合凈值曲線_ 圖22:中性化struclearning因子多頭組合凈值曲線 對(duì)于中性化因子表現(xiàn)下降較多的原因,我們對(duì)多頭組合持倉(cāng)計(jì)算主動(dòng)風(fēng)格暴量化專題報(bào)告本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告16露及行業(yè)暴露,我們計(jì)算每一期的因子暴露并統(tǒng)計(jì)均值,發(fā)現(xiàn)組合的持股并沒有在風(fēng)格和行業(yè)上有過(guò)大偏離,相對(duì)較為明顯的風(fēng)格是滬深300內(nèi)的相對(duì)中小市值,以及低配了食品飲料,銀行等行業(yè)。在深度學(xué)習(xí)中,我們預(yù)測(cè)的是絕對(duì)收益,預(yù)測(cè)結(jié)果中本身就包含了對(duì)風(fēng)格和行業(yè)收益的預(yù)測(cè),對(duì)因子做中性化則剝離掉了這部分收益,得不償失。_圖23:struclearning因子多頭組合平均風(fēng)格偏離_ 圖24:struclearning因子多頭組合平均行業(yè)偏離 近年來(lái),傳統(tǒng)機(jī)器學(xué)習(xí)因子表現(xiàn)波動(dòng)較大的環(huán)境下,struc_learning因子仍然有著優(yōu)異的表現(xiàn),對(duì)比我們之前發(fā)布的報(bào)告《深度學(xué)習(xí)如何利用公募持倉(cāng)網(wǎng)絡(luò)優(yōu)化選股效果?》中的baselineLSTM模型,效果有著明顯提升。這也證明了基于可見性圖結(jié)構(gòu)嵌入的神經(jīng)網(wǎng)絡(luò)在選股上的可行性。對(duì)因子多頭組合做策略容量大約在1千萬(wàn)左右。我們?nèi)∶咳?:35-9:40的成交量最小股票的成交量乘以當(dāng)天的持股數(shù)量,得到理想情況下,9:35-9:40全部成交情況下的當(dāng)日策略容量測(cè)算,進(jìn)行10日的struc_learning因子多頭組合平均每期持有28-30支股票,理想情況下策略4年平均容量為1.1億。若假設(shè)這部分成交量中實(shí)際情況下可以成交10%,則策略容量在千萬(wàn)左右。 圖25:struc_learning因子多頭組合策略理想容量(億)本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告17由于因子多頭組合策略容量較低,我們考慮提升組合的持股數(shù)量來(lái)增加策略容量,即從截面選股策略改為類擇時(shí)策略。我們對(duì)struc_learning因子做標(biāo)準(zhǔn)化,將因子值減去0.5后除以當(dāng)天因子值標(biāo)準(zhǔn)差,得到標(biāo)準(zhǔn)化struc_learning因子,并按照因子值按比例買入因子值大于0的股票,構(gòu)建struc_learning因子滬深300增強(qiáng)組合,組合平均持股137支,用類似的方法估算策略容量,增強(qiáng)組合策略容量平均為24.7億,有明顯提升。圖26:struc_learning滬深300增強(qiáng)組合持股數(shù)量圖27:struc_learning滬深300增強(qiáng)組合策略容量增加持股數(shù)量后,策略收益有所下降,但跟蹤誤差也有所降低,仍能取得良好表現(xiàn)。樣本外仍能有60%以上的勝率,證明了模型的有效性。 圖28:struc_learning因子滬深300增強(qiáng)組合分年度表現(xiàn)本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告18年份年份費(fèi)后多多頭組合超多頭組合信頭收益額收益息比率46.9%struc_learning滬深300增強(qiáng)組合凈值曲線如下。_圖29:struclearning滬深300增強(qiáng)組合凈值曲線_由于模型在滬深300成分股中優(yōu)秀的選股與擇時(shí)能力,我們考慮用個(gè)股信號(hào)合成股指信號(hào),構(gòu)建滬深300指數(shù)倉(cāng)位擇時(shí)策略,以探索模型在股指期貨策略上的潛在應(yīng)用意義。具體地,我們?nèi)∧P皖A(yù)測(cè)的個(gè)股日度漲跌概率,以市值加權(quán)至滬深300股指信號(hào),生成滬深300股指日度漲跌概率信號(hào),信號(hào)波動(dòng)較大,分布略微左偏。 圖30:滬深300日度漲跌概率信號(hào)圖31:滬深300日度漲跌概率信號(hào)分布本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告19我們直接取當(dāng)日滬深300日度漲跌概率信號(hào)作為持有滬深300指數(shù)的倉(cāng)位比例。依然按照9:35分開盤價(jià)進(jìn)行日度調(diào)倉(cāng),并且取雙邊千分之一作為回測(cè)費(fèi)率日頻調(diào)倉(cāng),總體預(yù)測(cè)正確率64%,正確率較高。超額收益在歷史上回撤原因主要為在市場(chǎng)行情較好時(shí),沒有滿倉(cāng)而導(dǎo)致的回撤。最終年化超額收益13.3%,信息比率1.47。圖32:struclearning滬深300倉(cāng)位擇時(shí)策略凈值倉(cāng)位擇時(shí)策略的分年度表現(xiàn)如下:圖33:struclearning滬深300倉(cāng)位擇時(shí)策略分年表現(xiàn)量化專題報(bào)告本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告20年份策略絕對(duì)收益策略超額收益信息比率夏普比率41.1%4.8%平均年化若我們采用更為激進(jìn)的策略,保持勝率不變的情況下提升賠率,則可以取得更好的策略表現(xiàn)。我們規(guī)定若預(yù)測(cè)上漲概率為50%以上,則全倉(cāng)持有滬深300指數(shù),否則在第二天上午9:35分賣出指數(shù)并空倉(cāng)。這樣一來(lái),策略的波動(dòng)率有顯著上升,但收益可以獲得更顯著的提升。圖34:struclearning滬深300激進(jìn)擇時(shí)策略凈值激進(jìn)擇時(shí)策略的分年度表現(xiàn)如下:圖35:struc_learning滬深300激進(jìn)擇時(shí)策略分年表現(xiàn)年份策略絕對(duì)收益策略超額收益信息比率夏普比率年份策略絕對(duì)收益策略超額收益信息比率夏普比率最大回撤201961.7%4.06-5.8%202080.9%37.6%2.204.73-9.3%202132.0%35.0%-7.2%20229.1%37.2%0.42-3.0%2023/8/186.5%8.2%0.36-4.8%平均年化38.7%29.3%2.362.41-9.3%若可以做空,則策略可以取得進(jìn)一步收益。我們考慮不同信號(hào)閾值下的多空策略,分別嘗試以[0.5,0.5],[0.45,0.55],[0.4,0.6],[0.35,0.65],[0.3,0.7]五組本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告21閾值為多空信號(hào)下,模型的勝率和多空收益,例如[0.4,0.6]代表若預(yù)測(cè)指數(shù)上漲概率小于0.4,則賣空;大于0.6,則買多,若介于0.4與0.6之間,則空倉(cāng)的策略收益與勝率(若空倉(cāng)則不計(jì)入勝率統(tǒng)計(jì))。隨著閾值增加,信號(hào)變窄,模型勝率有明顯提升,然而長(zhǎng)時(shí)間的空倉(cāng)導(dǎo)致了收益有一定下滑,在[0.45,0.55]的閾值信號(hào)上多空策略有最大的夏普比率。圖36:不同閾值信號(hào)下年化多空收益與勝率多空信號(hào)閾值[0.5,0.5]年化多空收益夏普比率預(yù)測(cè)勝率64.0%[0.45,0.55]66.9%[0.4,0.6]76.6%69.8%[0.35,0.65]44.4%71.8%[0.3,0.7]74.9%圖37:不同閾值信號(hào)下多空收益凈值曲線量化專題報(bào)告本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告224總結(jié)與思考在本篇研究中,我們利用滬深300內(nèi)股票的價(jià)量信息構(gòu)造可見性圖復(fù)雜網(wǎng)絡(luò),使用結(jié)構(gòu)向量法提取出圖結(jié)構(gòu)嵌入,輸入到預(yù)測(cè)模塊DA-RNN+CAAN中,預(yù)測(cè)下一日的股票上漲概率,取得顯著效果,在選股和擇時(shí)方面都有較好效果,證明了可見性圖嵌入深度神經(jīng)網(wǎng)絡(luò)的可行性。可見性圖是一種將時(shí)間序列數(shù)據(jù)轉(zhuǎn)化成一張圖結(jié)構(gòu)的方法。抽取可見圖的結(jié)構(gòu)特征并訓(xùn)練分類器的方法被廣泛用于時(shí)間序列數(shù)據(jù)的分類問(wèn)題。復(fù)雜網(wǎng)絡(luò)每個(gè)節(jié)點(diǎn)的權(quán)重不同,我們采用CI算法定義節(jié)點(diǎn)權(quán)重,衡量節(jié)點(diǎn)及其局部結(jié)構(gòu)在整個(gè)網(wǎng)絡(luò)中的重要性。利用結(jié)構(gòu)向量法提取圖結(jié)構(gòu)特征,可以刻畫股票的潛在屬性。與傳統(tǒng)的圖嵌入方法相比,struc2vec更加高效,且在多個(gè)數(shù)據(jù)集上分類更加精確,并可以應(yīng)用于大規(guī)模圖的嵌入。最后,利用二階段循環(huán)神經(jīng)網(wǎng)絡(luò)與跨資產(chǎn)注意力網(wǎng)絡(luò)構(gòu)造預(yù)測(cè)模塊,從而納入潛在屬性及股票間的相互關(guān)系。兩階段注意力循環(huán)神經(jīng)網(wǎng)絡(luò)DA-RNN可以通過(guò)按照時(shí)間順序上不斷訓(xùn)練結(jié)構(gòu)性信息的模型結(jié)構(gòu),提取圖結(jié)構(gòu)嵌入特征,在生成股票因子表示時(shí)納入股票的潛在信息??缳Y產(chǎn)注意力網(wǎng)絡(luò)CAAN可以對(duì)股票間的相互關(guān)系進(jìn)行建模,計(jì)算batch內(nèi)因子表示的相似度,作為注意力機(jī)制的來(lái)源。利用混淆矩陣來(lái)衡量模型準(zhǔn)確率,驗(yàn)證集內(nèi)準(zhǔn)確率68%,精確率達(dá)70%。日頻模型選股和擇時(shí)效果顯著,合成股指信號(hào)依然有效。將模型預(yù)測(cè)的個(gè)股日度上漲概率作為日頻選股因子struc_learning,因子日度IC均值0.16,ICIR1.2;中性化后因子表現(xiàn)有所下降,但選股效果依然顯著。日度調(diào)倉(cāng)多頭組合年化超額收益95.6%,信息比率8.0,但策略容量較低。增加持股數(shù)量構(gòu)建滬深300增強(qiáng)組合,組合平均持股數(shù)量137只,策略容量顯著上升,年化超額收益46.7%,信息比率5.87。用個(gè)股信號(hào)合成股指日度漲跌概率信號(hào),并構(gòu)建滬深300倉(cāng)位擇時(shí)策略,年化超額收益13.3%,信息比率1.47,預(yù)測(cè)漲跌準(zhǔn)確率64%?;诳梢娦詧D的時(shí)序預(yù)測(cè)有效窗口期較短,較為適合日頻策略,若增加自變量窗口期或者用周k建模,效果有較大衰減。深度學(xué)習(xí)策略可解釋性相對(duì)較弱,若未來(lái)策略失效,無(wú)法歸因,重新訓(xùn)練參數(shù)耗時(shí)較長(zhǎng),這也是深度學(xué)習(xí)策略的通本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告235風(fēng)險(xiǎn)提示量化模型基于歷史數(shù)據(jù),市場(chǎng)未來(lái)可能發(fā)生變化,策略模型有失效可能。本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁(yè)免責(zé)聲明證券研究報(bào)告246參考文獻(xiàn)[1]Lacasa,L.,Luque,B.,Ballesteros,F.,Luque,J.,&Nuio,J.C.(2008,April).Fromtimeseriestocomplexnetworks:Thevisibilitygraph.ProceedingsoftheNationalAcademyofSciences,105(13),4972–4975.[2]DaoyuanLi;JessicaLin;TegawendéF.Bissyandé;JacquesKlein;YvesLeTraon.(2018).ExtractingStatisticalGraphFeaturesforAccurateandEfficientTimeSeriesClassification.Proceedingsofthe21stInternationalConferenceonExtendingDatabaseTechnology(EDBT),ISBN978-3-89318-078-3.[3]F.Morone,H.A.Makse,Influencemaximizationincomplexnetworksthroughoptimalpercolation,Nature524(7563)(2015)65–68.[4]Ribeiro,L.F.,Saverese,P.H.,&Figueiredo,D.R.(2017,August4).struc2vec.Proceedingsofthe23rdACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.[5]AdrianColyer,September2017,themorningpaper:Struc2vec:learningnoderepresentationsfromstructuralidentity,[6]Wu,J.,Xu,K.,Chen,X.,Li,S.,&Zhao,J.(2022,April).Pricegraphs:Utilizingthestructuralinformationoffinancialtimeseriesforstockprediction.InformationSciences,588,405–424.[7]Y.Qin,D.Song,H.Cheng,W.Cheng,G.Jiang,G.W.Cottrell,Adual-stageattention-basedrecurrentneuralnetworkfortimeseriesprediction,Proceedingsofthe26thIJCAI,2017,pp.2627–2633.[8]J.Wang,Y.Zhang,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論