選股因子系列研究(六十一):從加權(quán)IC到機(jī)器學(xué)習(xí)高頻因子多頭失效的修正_第1頁
選股因子系列研究(六十一):從加權(quán)IC到機(jī)器學(xué)習(xí)高頻因子多頭失效的修正_第2頁
選股因子系列研究(六十一):從加權(quán)IC到機(jī)器學(xué)習(xí)高頻因子多頭失效的修正_第3頁
選股因子系列研究(六十一):從加權(quán)IC到機(jī)器學(xué)習(xí)高頻因子多頭失效的修正_第4頁
選股因子系列研究(六十一):從加權(quán)IC到機(jī)器學(xué)習(xí)高頻因子多頭失效的修正_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、相關(guān)研究債基量化研究系列 5債基久期的凈 值估測效果影響因素分析2020.03.17短周期交易策略研究之四基于周內(nèi)效應(yīng)和市場狀態(tài)的 A 股擇時策略 2020.03.11金融科技(Fintech)和數(shù)據(jù)挖掘研究(七)創(chuàng)業(yè)板 50 的產(chǎn)業(yè)鏈特征和優(yōu) 勢2020.03.06分析師:馮佳睿Tel:(021)23219732 HYPERLINK mailto:fengjr Email:fengjr證書:S0850512080006分析師:余浩淼Tel:(021)23219883 HYPERLINK mailto:yhm9591 Email:yhm9591證書:S0850516050004選股因子系列研究

2、(六十一)從加權(quán) IC投資要點:到機(jī)器學(xué)習(xí):高頻因子多頭失效的修正高頻因子易出現(xiàn)多頭失效現(xiàn)象。與常用 9 因子(市值、估值、非線性市值、換手率、特質(zhì)波動率、非流動性、反轉(zhuǎn)、ROE、ROE 同比變化)正交后的高頻因子,一般都有較高的 IC 與較大的因子多空收益。然而,當(dāng)它們被加入選股模型后,卻往往無法提升組合的收益表現(xiàn)。這種現(xiàn)象來自于高頻因子多頭端的失效,即,多頭端的因子值和未來收益率的相關(guān)性和整體不同。在計算 IC 時對不同組別賦予差異化權(quán)重,可以更好地評價和篩選因子。例如,賦予多頭端更高的權(quán)重,重構(gòu) IC。這樣一來,多頭端更加有效的因子,IC 會升高,方便投資者重新審視因子的有效性。加入高頻

3、因子的高次多項式能較好地刻畫因子暴露和預(yù)期收益率非線性相關(guān)的特征,有助于修正因子多頭失效的現(xiàn)象。實證結(jié)果表明,直接加入因子的高次項(如,二次、四次多項式),可以在整體上改善最大化預(yù)期收益組合的業(yè)績表現(xiàn),挖掘出高頻因子更多的增量信息。利用徑向基函數(shù)對高頻因子升維,并結(jié)合線性模型,可以達(dá)到分段回歸的效果,同樣能夠在一定程度上修正因子多頭失效的現(xiàn)象。該方法屬于機(jī)器學(xué)習(xí)的一個類別,計算壓力較小,主要通過數(shù)據(jù)驅(qū)動來反映因子和收益之間的非線性關(guān)系。使用機(jī)器學(xué)習(xí)升維可能會引發(fā)“維數(shù)災(zāi)禍(dimension curse)”,增加多因子模型的風(fēng)險。一方面,因子維度升高會降低參數(shù)估計的穩(wěn)定性。極端情況下,會導(dǎo)致因

4、子暴露矩陣不滿秩,無法進(jìn)行跟蹤誤差約束。另一方面,過高的維度也會提高模型的過擬合概率,尤其是在有效歷史數(shù)據(jù)較為有限的月度再平衡方式下。風(fēng)險提示。市場系統(tǒng)性風(fēng)險、模型誤設(shè)風(fēng)險、有效因子變動風(fēng)險。金融工程研究金融工程專題報告證券研究報告2020 年 03 月 22 日請務(wù)必閱讀正文之后的信息披露和法律聲明目錄 HYPERLINK l _TOC_250012 高頻因子的多頭失效現(xiàn)象 5 HYPERLINK l _TOC_250011 高頻因子的分組收益 5 HYPERLINK l _TOC_250010 分組 IC 7 HYPERLINK l _TOC_250009 加權(quán) IC 7 HYPERLIN

5、K l _TOC_250008 加權(quán) IC 的定義 7 HYPERLINK l _TOC_250007 提高多頭組的權(quán)重,重新評價因子有效性 8 HYPERLINK l _TOC_250006 因子升維 9 HYPERLINK l _TOC_250005 加入高頻因子的二次多項式 9 HYPERLINK l _TOC_250004 加入高頻因子的四次多項式 11 HYPERLINK l _TOC_250003 機(jī)器學(xué)習(xí)之徑向基升維 12 HYPERLINK l _TOC_250002 升維方法對比和小結(jié) 15 HYPERLINK l _TOC_250001 4.總結(jié) 15 HYPERLINK

6、l _TOC_250000 風(fēng)險提示 16圖目錄圖 1加入大買集中度因子的組合相對中證 500 的累計超額收益 6圖 2加入大買集中度因子的組合相對 9 因子組合的累計超額收益 6圖 3因子多頭失效現(xiàn)象的模擬 6圖 4原始 IC 組合與加權(quán) IC 組合的累計凈值 9圖 5加入二次多項式的模擬 10圖 6加入大買成交集中度二次多項式的組合相對中證 500 的累計超額收益 10圖 7加入大買成交集中度二次多項式的組合相對 9 因子組合的累計超額收益 10圖 8加入四次多項式的模擬 11圖 9徑向基升維方法示意圖 13圖 10徑向基升維的模擬 13圖 11加入升維后的大買成交集中度的組合相對中證 5

7、00 的累計超額收益 14圖 12加入升維后的大買成交集中度的組合相對 9 因子組合的累計超額收益 14表目錄表 1高頻因子分組收益(2015.01-2020.02,中證 500 成分股內(nèi)) 5表 2加入大買集中度因子的組合相對中證 500 的超額收益表現(xiàn)(2015.01-2020.02)6表 3高頻因子分組 IC(2015.01-2020.02,中證 500 成分股內(nèi)) 7表 4大買成交集中度的加權(quán) IC(2015.01-2020.02,中證 500 成分股內(nèi)) 8表 5高頻因子加權(quán) IC(2015.01-2020.02,中證 500 成分股內(nèi)) 8表 6原始 IC 組合與加權(quán) IC 組合相

8、對中證 500 的超額收益表現(xiàn)(2015.01-2020.02)9表 7原始 IC 組合與加權(quán) IC 組合的復(fù)合因子 IC(2015.01-2020.02) 9表 8加入大買集中度二次多項式的組合的超額收益表現(xiàn)(2015.01-2020.02) 10表 9加 入 高 頻 因 子 二 次 多 項 式 的 組 合 相 對 中 證 500 的 超 額 收 益 表 現(xiàn)(2015.01-2020.02) . 11表 10加 入 高 頻 因 子 四 次 多 項 式 的 組 合 相 對 中 證 500 的 超 額 收 益 表 現(xiàn)(2015.01-2020.02) .12表 11加入升維后的大買成交集中度的組

9、合的超額收益表現(xiàn)(2015.01-2020.02) 14表 12加入升維后的高頻因子的組合相對中證 500 的超額收益表現(xiàn)(2015.01-2020.02)14表 13不 同 升 維 方 法 下 的 組 合 相 對 只 含 一 次 項 的 組 合 的 超 額 收 益 表 現(xiàn)(2015.01-2020.02) .15股票的因子暴露和未來收益率的截面相關(guān)系數(shù),即因子 IC,是評判因子有效性的重要標(biāo)準(zhǔn)。在實踐中,如果一個新的因子與原始因子(市值、估值、非線性市值、換手率、特質(zhì)波動率、非流動性、反轉(zhuǎn)、ROE、ROE 同比變化,以下簡稱 9 因子)正交后的 IC越高,意味著該因子很有可能會提升原始組合的

10、表現(xiàn)。然而,這一結(jié)論似乎對很多高頻因子并不成立。高頻因子雖然有較高的 IC,但在加入原始模型構(gòu)建股票多頭組合后,對收益的提升并不顯著。造成這種現(xiàn)象的原因是什么,如何進(jìn)行修正,本文嘗試給出有一定可行性的解決方案。高頻因子的多頭失效現(xiàn)象高頻因子的分組收益分組收益是體現(xiàn)因子有效性的常用方式。一般情況下,IC 越高的因子,分組后的多空收益也越高。下表展示了海通量化團(tuán)隊前期開發(fā)的 11 個高頻因子(因子定義可參考相關(guān)專題報告,已與 9 因子正交)在中證 500 成分股內(nèi)的 IC,以及分五組后的收益。其中,多頭/空頭組特指第 1、第 5 組(試因子的選股方向而定);次多頭/空頭組特指第 2、第 4 組,中

11、值組特指第 3 組。表 1 高頻因子分組收益(2015.01-2020.02,中證 500 成分股內(nèi))ICt 值多空收益多頭貢獻(xiàn)占比空頭組次空頭組中值組次多頭組多頭組大單資金凈流入率0.0183.415.02%27.83%-3.64%0.76%1.17%0.24%1.38%平均單筆流出金額占比0.0214.096.89%41.54%-4.04%1.28%0.84%-1.00%2.85%大買成交金額占比0.0487.2416.36%28.27%-11.57%-2.81%4.26%6.17%4.80%量價復(fù)合0.0335.8412.21%35.11%-7.87%-1.38%3.10%2.08%4.

12、34%收盤前成交委托相關(guān)性0.0203.358.86%24.88%-6.64%1.58%1.26%1.65%2.22%高頻下行波動占比0.0295.308.01%26.95%-5.84%0.40%0.97%2.34%2.17%改進(jìn)反轉(zhuǎn)0.0356.0511.04%29.99%-7.70%-1.21%0.58%5.14%3.34%大單推動漲幅0.0284.968.13%25.20%-6.08%1.54%0.24%2.26%2.05%高頻已實現(xiàn)偏度0.0314.737.27%25.41%-5.43%-0.61%1.83%2.33%1.84%大買成交集中度0.0172.415.37%-31.64%-

13、7.03%-0.97%5.17%4.72%-1.65%尾盤成交量占比0.0507.6014.73%39.67%-8.80%-2.29%1.01%4.58%5.93%資料來源:Wind,海通證券研究所由上表可見, IC 與多空收益正相關(guān)。如,大買成交金額占比、改進(jìn)反轉(zhuǎn)和尾盤成交量占比的 IC 分別為 4.8%、3.5%和 5.0%,對應(yīng)的多空收益分別為 16.36%、11.04%、 14.73%。從這兩個角度看,三個因子的選股能力十分突出。然而,如果只看多頭組的收益,情況卻并非如此,IC 高并不一定對應(yīng)多頭組的收益高。以多空收益最高的大買成交金額占比為例,多頭組相對全市場平均的超額收益占多空收益

14、的比例不足 30%。而大買成交集中度的多頭組收益甚至不如全市場平均。這種現(xiàn)象,我們稱為多頭失效。在實際構(gòu)建組合時,我們的目標(biāo)通常是追求多頭端的預(yù)期收益最大化。如果加入股票收益預(yù)測模型的因子都有 IC 高,但多頭失效的特征。那么,可以想象,該因子對組合收益的提升幅度并不會太大。甚至,還有可能影響原來的股票排序,降低組合收益。以多頭失效最為嚴(yán)重(多頭組超額收益占多空收益的比例僅為-31.64%)的大買成交集中度因子為例,將它加入原始的 9 因子模型,構(gòu)建最簡單的最大化預(yù)期收益組合(預(yù)期收益最高的 100 個股票的等權(quán)組合,下同,并簡稱組合),其累計收益如下圖所示。圖1 加入大買集中度因子的組合相對

15、中證 500 的累計超額收益資料來源:Wind,海通證券研究所圖2 加入大買集中度因子的組合相對 9 因子組合的累計超額收益資料來源:Wind,海通證券研究所如下表所示,雖然大買集中度因子的 IC 為 0.017,t 值為 2.41,但加入 9 因子模型之后,組合相對中證 500 的超額收益反而出現(xiàn)了下降。表 2 加入大買集中度因子的組合相對中證 500 的超額收益表現(xiàn)(2015.01-2020.02)9 因子組合加入大買成交集中度的組合相對 9 因子組合的超額收益年化收益11.71%11.52%-0.31%最大回撤-9.44%-9.67%-6.79%年化波動10.50%11.07%2.44%

16、收益回撤比1.241.19信息比1.121.04資料來源:Wind,海通證券研究所進(jìn)一步考察復(fù)合因子IC 可以發(fā)現(xiàn),盡管加入大買成交集中度后,復(fù)合因子 IC 從6.7%小幅上升至 6.8%,但多頭組(復(fù)合因子得分最高的 20%股票)的 IC 卻從 2.05%降至 1.98%。根本原因是復(fù)合因子的高 IC 絕大部分來自空頭端,即,股票收益與因子暴露在空頭端有很好的線性相關(guān)性。而到了多頭端,相關(guān)性會逐步減弱,甚至反轉(zhuǎn)。這種現(xiàn)象可通過如下的簡單模擬來描述。圖中橫軸表示因子值,紅線代表相應(yīng)的收益。顯然,當(dāng)因子值小于 0.5 時,收益與因子值顯著正相關(guān);而當(dāng)因子值大于 0.5 之后,則變?yōu)槊鞔_的負(fù)相關(guān)。

17、藍(lán)線表示根據(jù)因子值和收益之間的線性回歸得到的預(yù)期收益。圖3 因子多頭失效現(xiàn)象的模擬資料來源:海通證券研究所該模擬因子的 IC 高達(dá) 0.907,然而,因子暴露較大的那部分股票,顯然不是實際收益最高的。由此可見,常規(guī)的 IC 在評價因子有效性,尤其是多頭端的效果時,可能會產(chǎn)生誤導(dǎo)。分組 IC因子 IC 的計算公式為在分 5 組的假定下,如果將同屬一組的股票看成一個子集,并定義該集合的 IC 為那么,整體 IC 等于 5 個子集 IC 的和。由此,便可以評價每一組對整體 IC 的貢獻(xiàn)。 下表展示了高頻因子各個分組的 IC。為便于比較,我們將因子 IC 均調(diào)整為正。若某一分組的 IC 為負(fù),則說明該

18、分組與整體反向。表 3 高頻因子分組 IC(2015.01-2020.02,中證 500 成分股內(nèi))ICt 值空頭組次空頭組中值組次多頭組多頭組大單資金凈流入率0.0183.410.0132-0.00050.00030.00050.0043平均單筆流出金額占比0.0214.090.0141-0.00070.0000-0.00070.0081大買成交金額占比0.0487.240.03140.00320.00010.00550.0080量價復(fù)合因子0.0335.840.02310.00070.00010.00230.0069收盤前成交委托相關(guān)性0.0203.350.0159-0.00090.000

19、00.00110.0040高頻下行波動占比0.0295.300.0220-0.00030.00010.00180.0058改進(jìn)反轉(zhuǎn)因子0.0356.050.02320.00160.00020.00500.0049大單推動漲幅0.0284.960.0216-0.00110.00000.00250.0044高頻已實現(xiàn)偏度0.0314.730.02130.00080.00040.00300.0050大買成交集中度0.0172.410.01890.0020-0.00060.0041-0.0078尾盤成交量占比0.0507.600.02970.00210.00020.00480.0129資料來源:Win

20、d,海通證券研究所對比表 1 可以發(fā)現(xiàn),多頭收益高的因子,如,大買成交金額占比、尾盤成交量占比,多頭組、次多頭組的 IC 也較高。而多頭失效的因子,多頭組的 IC 低。如,大買成交集中度因子的多頭組 IC 甚至為負(fù)數(shù)。另一方面,所有高頻因子的空頭組 IC 均在 1%以上,是整體 IC 的主要貢獻(xiàn)者。由此我們猜測,如果不采用等權(quán),而是對屬于不同組的股票賦予不同的權(quán)重,那么,因子的有效性,尤其是對構(gòu)建多頭組合的增益,或許能得到重新評估。例如,在計算大買成交集中度因子的整體 IC 時,對多頭組和次多組頭賦予更高的權(quán)重。那么,這個因子的 IC 很有可能就不再顯著,我們也不會把它們加入現(xiàn)有的多因子模型中

21、。加權(quán) IC加權(quán) IC 的定義根據(jù)石川博士公眾號“川總寫量化”中的文章用 IC 評價因子效果靠譜嗎?提到的方法,通過降低或提高不同股票在計算相關(guān)系數(shù)時的權(quán)重,可對原始 IC 進(jìn)行修正。具體的計算公式如下,其中,wi 表示第 i 個股票的權(quán)重,Dw 表示利用相同權(quán)重向量 w 計算的加權(quán)方差。我們以多頭失效現(xiàn)象最為突出的大買成交集中度因子為例,若將多頭組權(quán)重提高到 50%,其他組均為 12.5%,其 IC 可被修正為下表所示的結(jié)果。表 4 大買成交集中度的加權(quán) IC(2015.01-2020.02,中證 500 成分股內(nèi))ICt 值空頭組次空頭組中值組次多頭組多頭組原始0.0172.410.018

22、90.0020-0.00060.0041-0.0078加權(quán)-0.005-0.530.01260.0014-0.0037-0.0006-0.0145資料來源:Wind,海通證券研究所在調(diào)高多頭組的權(quán)重之后,大買成交集中度因子的 IC 從 1.7%大幅下降至-0.5%,t值從 2.41 變?yōu)?0.53,可直接判定該因子無效。由此可見,如果我們以提升多頭權(quán)重后的加權(quán) IC 為評價標(biāo)準(zhǔn),或許能對因子有新的認(rèn)識。提高多頭組的權(quán)重,重新評價因子有效性將多頭組的權(quán)重調(diào)整為其他組的 5 倍,重新計算高頻因子的 IC,結(jié)果見下表。表 5 高頻因子加權(quán) IC(2015.01-2020.02,中證 500 成分股內(nèi)

23、)ICt 值空頭組次空頭組中值組次多頭組多頭組大單資金凈流入率(原始)0.0183.410.0132-0.00050.00030.00050.0043大單資金凈流入率(加權(quán))0.0152.540.0099-0.0001-0.00030.00000.0060平均單筆流出金額占比(原始)0.0214.090.0141-0.00070.0000-0.00070.0081平均單筆流出金額占比(加權(quán))0.0213.260.01210.00050.00010.00020.0080大買成交金額占比(原始)0.0487.240.03140.00320.00010.00550.0080大買成交金額占比(加權(quán))0

24、.0293.780.02600.0056-0.0013-0.0003-0.0005量價復(fù)合因子(原始)0.0335.840.02310.00070.00010.00230.0069量價復(fù)合因子(加權(quán))0.0213.130.01920.0025-0.00050.00010.0000收盤前成交委托相關(guān)性(原始)0.0203.350.0159-0.00090.00000.00110.0040收盤前成交委托相關(guān)性(加權(quán))0.0131.580.0132-0.0008-0.0003-0.00030.0012高頻下行波動占比(原始)0.0295.300.0220-0.00030.00010.00180.00

25、58高頻下行波動占比(加權(quán))0.0212.800.01750.0004-0.0003-0.00020.0035改進(jìn)反轉(zhuǎn)因子(原始)0.0356.050.02320.00160.00020.00500.0049改進(jìn)反轉(zhuǎn)因子(加權(quán))0.0212.600.01820.00250.0001-0.0001-0.0001大單推動漲幅(原始)0.0284.960.0216-0.00110.00000.00250.0044大單推動漲幅(加權(quán))0.0172.720.0167-0.00060.0003-0.00010.0009高頻已實現(xiàn)偏度(原始)0.0314.730.02130.00080.00040.0030

26、0.0050高頻已實現(xiàn)偏度(加權(quán))0.0222.820.01640.0016-0.00050.00010.0040大買成交集中度(原始)0.0172.410.01890.0020-0.00060.0041-0.0078大買成交集中度(加權(quán))-0.005-0.530.01260.0014-0.0037-0.0006-0.0145尾盤成交量占比(原始)0.0507.600.02970.00210.00020.00480.0129尾盤成交量占比(加權(quán))0.0394.730.02550.00460.00100.00030.0076資料來源:Wind,海通證券研究所重新賦權(quán)后,高頻因子的 IC 普遍有所

27、下滑,這主要是因為高頻因子整體的空頭效應(yīng)強(qiáng)于多頭。下面,我們比較兩種 IC 計算方式下,在評價和篩選高頻因子時的差異。為確保所選因子確實能帶來新的信息,每次根據(jù) IC 的大小篩選得到一個新因子后,都將剩余的高頻因子分別對已選因子及 9 因子正交,并再次計算 IC。重復(fù)上述步驟,直到?jīng)]有新的因子被選出。根據(jù)原始 IC 依此篩選出大買成交金額占比,尾盤成交量占比,大單推動漲幅,根據(jù)加權(quán) IC 依此篩選出尾盤成交量占比,大買成交金額占比,平均單筆流出金額占比。將各自篩選出的三個因子分別和 9 因子一起構(gòu)建多因子組合。為便于表達(dá),分別記為原始 IC組合與加權(quán) IC 組合,它們的收益風(fēng)險特征如以下圖表所

28、示。圖4 原始 IC 組合與加權(quán) IC 組合的累計凈值資料來源:海通證券研究所加入高頻因子的兩個組合,年化收益均顯著高于 9 因子組合。而使用加權(quán) IC 篩選高頻因子,則進(jìn)一步提升了收益,并降低了波動。表 6 原始 IC 組合與加權(quán) IC 組合相對中證 500 的超額收益表現(xiàn)(2015.01-2020.02)9 因子組合原始 IC 組合加權(quán) IC 組合年化收益11.91%14.62%16.81%最大回撤-9.44%-10.83%-11.22%年化波動10.50%12.63%12.46%收益回撤比1.261.351.45信息比1.131.161.35資料來源:Wind,海通證券研究所下表對比了兩

29、個組合的復(fù)合因子 IC。盡管加權(quán) IC 組合的整體 IC 略低于原始 IC 組合,但多頭組 IC 和相應(yīng)的 t 值卻更高。以上結(jié)果均表明,使用加權(quán) IC 能夠更好地篩選出對組合多頭端有貢獻(xiàn)的高頻因子,緩解多頭失效問題。表 7 原始 IC 組合與加權(quán) IC 組合的復(fù)合因子 IC(2015.01-2020.02)ICt 值多頭組 IC多頭組 t 值原始 IC 組合0.0898.120.0266.07加權(quán) IC 組合0.0878.010.0276.26資料來源:Wind,海通證券研究所因子升維加入高頻因子的二次多項式出現(xiàn)圖 3 中多頭失效現(xiàn)象的原因是,股票收益和因子暴露之間存在非線性關(guān)系,用直線擬合

30、會高(低)估多頭的選股效果。實際上,傳統(tǒng)的低頻因子同樣存在這類問題。例如,在海通量化團(tuán)隊前期的報告市值因子的非線性特征中,市值最小和最大的那部分股票,實際收益均高于線性預(yù)測的結(jié)果。為修正這一不足,我們提出在線性模型中進(jìn)一步加入市值因子的平方項,來反映市值和收益的非線性特征。根據(jù)相同的思路,我們也嘗試在收益預(yù)測模型中引入高頻因子的二次多項式,解決多頭失效問題。對于圖 3 中的模擬案例,這一過程的示意圖如下所示。圖5 加入二次多項式的模擬資料來源:海通證券研究所以大買成交集中度因子為例,將它的二次多項式和 9 因子一同建立收益預(yù)測模型和股票組合,業(yè)績表現(xiàn)如以下圖表所示。 圖6 加入大買成交集中度二

31、次多項式的組合相對中證 500 的累計超額收益資料來源:Wind,海通證券研究所圖7 加入大買成交集中度二次多項式的組合相對 9 因子組合的累計超額收益資料來源:Wind,海通證券研究所包含二次多項式的模型相比只含一次項,表現(xiàn)顯著增強(qiáng)。在回撤和波動降低的基礎(chǔ)上,將相對中證 500 的超額收益從 11.52%提升至 12.55%。若以 9 因子模型為基準(zhǔn),二次項的引入同樣增強(qiáng)了原始收益和風(fēng)險調(diào)整后收益。表 8 加入大買集中度二次多項式的組合的超額收益表現(xiàn)(2015.01-2020.02)只含一次項加入二次多項式相對中證 500 超額相對 9 因子超額相對中證 500 超額相對 9 因子超額年化收

32、益11.52%-0.31%12.55%1.33%最大回撤-9.67%-6.79%-9.46%-4.39%年化波動11.07%2.44%10.87%3.08%收益回撤比1.19-0.051.330.30信息比1.04-0.131.160.43資料來源:Wind,海通證券研究所上述結(jié)果表明,二次多項式更好地刻畫了大買成交集中度和收益之間的關(guān)系。因加入多頭失效因子導(dǎo)致的股票排序紊亂得以修復(fù),組合收益回升。對其余 10 個高頻因子,我們按照相同的方法計算加入二次多項式后,組合的收益風(fēng)險特征,并與 9 因子組合進(jìn)行對比(見下表)。表 9 加入高頻因子二次多項式的組合相對中證 500 的超額收益表現(xiàn)(20

33、15.01-2020.02)年化收益最大回撤年化波動收益回撤比夏普比9 因子組合11.71%-9.44%10.50%1.241.12大單資金凈流入率平均單筆流出金額占比大買成交金額占比只含一次項11.87%-10.05%11.24%1.18 1.06二次多項式11.73%-10.56%11.48%1.11 1.02只含一次項11.51%-9.01%9.98%1.28 1.15二次多項式12.20%-10.76%10.63%1.13 1.15只含一次項11.72%-10.20%10.77%1.15 1.091.001.021.081.1311.80%-10.90%11.86%11.73%-10.

34、41%11.55%只含一次項二次多項式量價復(fù)合因子二次多項式14.11%-10.59%11.50%1.33 1.23收盤前成交委托相關(guān)性只含一次項11.70%-10.25%11.36%1.14 1.031.001.001.141.1110.78%11.02%10.80%-9.44%11.02%-9.90%只含一次項二次多項式高頻下行波動占比二次多項式12.32%-10.55%11.89%1.17 1.04改進(jìn)反轉(zhuǎn)因子只含一次項12.84%-10.47%11.13%1.23 1.151.081.071.241.2111.27%11.14%12.15%-9.80%11.89%-9.84%只含一次項

35、二次多項式大單推動漲幅二次多項式13.06%-10.40%11.12%1.26 1.17高頻已實現(xiàn)偏度只含一次項10.62%-9.58%10.91%1.11 0.971.041.161.191.3311.07%10.87%11.52%-9.67%12.55%-9.46%只含一次項二次多項式大買成交集中度二次多項式10.78%-10.01%11.06%1.08 0.97尾盤成交量占比只含一次項13.26%-10.80%12.11%1.23 1.09二次多項式13.24%-11.06%12.23%1.20 1.08資料來源:Wind,海通證券研究所和原始的 9 因子組合相比,只包含高頻因子的一次項

36、時,11 個新組合中有 6 個收益上升,幅度為-1.09%至 1.55%,均值為 0.09%;加入二次項后,收益上升的新組合數(shù)量增加至 9 個,收益上升幅度變?yōu)?0.93%至 2.40%,均值變?yōu)?0.53%。整體來看,引入高頻因子和股票收益的非線性特征,更好地挖掘了高頻因子所蘊含的增量信息。加入高頻因子的四次多項式根據(jù)泰勒展開原理,多項式的階數(shù)越高,越能逼近原始函數(shù)。因此,我們嘗試在收益預(yù)測模型中加入四次多項式,以求更好地刻畫高頻因子和股票收益之間的非線性特征。如下圖所示,相較于二次多項式,四次多項式對多頭失效現(xiàn)象的修正更進(jìn)一步。圖8 加入四次多項式的模擬資料來源:海通證券研究所基于此,我們

37、在收益預(yù)測模型中分別加入 11 個高頻因子的四次多項式,并構(gòu)建最大化預(yù)期收益組合,相應(yīng)的收益風(fēng)險特征如下表所示。表 10加入高頻因子四次多項式的組合相對中證 500 的超額收益表現(xiàn)(2015.01-2020.02)年化收益最大回撤年化波動收益回撤比夏普比9 因子組合11.71%-9.44%10.50%1.241.12大單資金凈流入率平均單筆流出金額占比大買成交金額占比只含一次項11.87%-10.05%11.24%1.18 1.06四次多項式11.88%-10.35%11.23%1.15 1.06只含一次項11.51%-9.01%9.98%1.28 1.15四次多項式11.85%-10.81%

38、11.04%1.10 1.07只含一次項11.72%-10.20%10.77%1.15 1.091.001.081.081.1811.80%-10.90%11.86%12.01%-10.15%11.11%只含一次項四次多項式量價復(fù)合因子四次多項式14.04%-10.53%11.61%1.33 1.21收盤前成交委托相關(guān)性只含一次項11.70%-10.25%11.36%1.14 1.031.000.991.141.1110.80%-9.44%10.78%11.58%-10.45%11.67%只含一次項四次多項式高頻下行波動占比四次多項式11.97%-10.33%11.79%1.16 1.02改進(jìn)

39、反轉(zhuǎn)因子只含一次項12.84%-10.47%11.13%1.23 1.151.081.081.241.2411.27%11.04%12.15%-9.80%11.94%-9.63%只含一次項四次多項式大單推動漲幅四次多項式13.32%-10.48%11.31%1.27 1.18高頻已實現(xiàn)偏度只含一次項10.62%-9.58%10.91%1.11 0.971.041.141.191.3411.07%11.40%11.52%-9.67%12.99%-9.66%只含一次項四次多項式大買成交集中度四次多項式11.50%-10.08%11.15%1.14 1.03尾盤成交量占比只含一次項13.26%-10

40、.80%12.11%1.23 1.09四次多項式13.90%-10.06%11.78%1.38 1.18資料來源:Wind,海通證券研究所對比原始的 9 因子組合,在包含高頻因子四次多項式的 11 個新組合中,同樣有 9個年化收益上升,幅度為-0.21%至 2.33%,均值為 0.74%。和只加入二次多項式的結(jié)果相比,不僅平均提升幅度擴(kuò)大(0.74% vs. 0.53%),而且穩(wěn)定性也略有上升(波動率: 0.93% vs. 0.98%)。總的來說,引入四次多項式使得高頻因子包含增量信息的特征被進(jìn)一步挖掘,從而提升了原始組合的業(yè)績表現(xiàn)。機(jī)器學(xué)習(xí)之徑向基升維從研究的角度來看,加入高次項確實有助于緩

41、解高頻因子的多頭失效現(xiàn)象。但在實際應(yīng)用中,也會面臨另一個棘手的問題如何選擇高次項的階數(shù)。一方面,人為指定雖然簡單直接,但顯得有些隨意,且未必能保證好的效果。另一方面,優(yōu)化尋解又缺乏統(tǒng)一的標(biāo)準(zhǔn),而且,若同時存在多個高頻因子,計算難度也將成倍上升。因此,我們希望找到一種方法,能夠在較小的計算壓力下,盡可能通過數(shù)據(jù)驅(qū)動來反映因子和收益之間的非線性關(guān)系。機(jī)器學(xué)習(xí)中的徑向基網(wǎng)絡(luò)就符合這樣的要求,其基本思想是先利用徑向基函數(shù)將數(shù)據(jù)升維,使每一個維度包含一部分?jǐn)?shù)據(jù)蘊含的信息,然后利用線性回歸模型對升維后的數(shù)據(jù)進(jìn)行擬合(見下圖)。圖9 徑向基升維方法示意圖資料來源:海通證券研究所整理具體到多因子模型層面,首先

42、,對包含 n 個股票的因子值向量 x 采用聚類算法確定 m 個中心點。其次,利用如下的徑向基函數(shù)(RBF unit)對第 i 個股票的因子值 xi 進(jìn)行升維。最后,將被擴(kuò)充至 m 維的因子與其他因子一同用于股票收益的預(yù)測。此外,由上式可見,離中心點 j 越遠(yuǎn)的數(shù)據(jù),升維后的值越接近于 0。所以,徑向基升維的方法還起到了對數(shù)據(jù)分組的作用,從而可以實現(xiàn)下圖所示的分段回歸,更好地逼近因子和收益的真實關(guān)系。圖10 徑向基升維的模擬資料來源:海通證券研究所下面,我們先將徑向基升維的方法運用于大買成交集中度因子,考察它與原始 9 因子結(jié)合后,構(gòu)建的最大化預(yù)期收益組合的業(yè)績表現(xiàn),具體結(jié)果如以下圖表所示。圖1

43、1 加入升維后的大買成交集中度的組合相對中證 500 的累計超額收益資料來源:Wind,海通證券研究所圖12 加入升維后的大買成交集中度的組合相對 9 因子組合的累計超額收益資料來源:Wind,海通證券研究所在原始 9 因子中,加入徑向基升維后的大買集中度因子帶來了顯著的收益提升。這表明,該因子確實蘊含了可以預(yù)測收益的信息,只是被人為確定的線性關(guān)系掩蓋了。表 11加入升維后的大買成交集中度的組合的超額收益表現(xiàn)(2015.01-2020.02)原始因子組合徑向基升維組合相對中證 500 超額相對 9 因子超額相對中證 500 超額相對 9 因子超額年化收益11.52%-0.31%14.36%4.

44、09%最大回撤-9.67%-6.79%-10.34%-3.95%年化波動11.07%2.44%11.93%4.57%收益回撤比1.19-0.051.391.04信息比1.04-0.131.200.89資料來源:Wind,海通證券研究所進(jìn)一步將升維方法推廣至其他高頻因子,對應(yīng)的最大化預(yù)期收益組合的業(yè)績表現(xiàn)如下表所示。表 12加入升維后的高頻因子的組合相對中證 500 的超額收益表現(xiàn)(2015.01-2020.02)年化收益最大回撤年化波動收益回撤比夏普比9 因子組合11.71%-9.44%10.50%1.241.12大單資金凈流入率平均單筆流出金額占比大買成交金額占比只含一次項11.87%-10

45、.05%11.24%1.18 1.06徑向基升維11.31%-9.99%10.51%1.13 1.08只含一次項11.51%-9.01%9.98%1.28 1.15徑向基升維11.81%-10.13%11.12%1.17 1.06只含一次項11.72%-10.20%10.77%1.15 1.091.001.011.081.0811.80%-10.90%11.86%11.79%-10.87%11.62%只含一次項徑向基升維量價復(fù)合因子徑向基升維13.55%-10.63%10.71%1.27 1.27收盤前成交委托相關(guān)性只含一次項11.70%-10.25%11.36%1.14 1.031.001.

46、071.141.1110.80%-9.44%10.78%11.55%-10.39%10.84%只含一次項徑向基升維高頻下行波動占比徑向基升維10.97%-10.03%10.80%1.09 1.02改進(jìn)反轉(zhuǎn)因子只含一次項12.84%-10.47%11.13%1.23 1.151.081.061.241.1512.15%-9.80%11.27%12.28%-10.68%11.57%只含一次項徑向基升維大單推動漲幅徑向基升維13.25%-9.73%10.87%1.36 1.22高頻已實現(xiàn)偏度只含一次項10.62%-9.58%10.91%1.11 0.97徑向基升維11.43%-9.83%10.47%

47、1.16 1.09大買成交集中度只含一次項11.52%-9.67%11.07%1.19 1.04徑向基升維14.36%-10.34%11.93%1.39 1.20尾盤成交量占比只含一次項13.26%-10.80%12.11%1.23 1.09徑向基升維15.54%-10.08%12.11%1.54 1.28資料來源:Wind,海通證券研究所由上表可見,先通過徑向基對高頻因子升維,再分別加入原始的 9 因子組合后,有7 個年化收益上升,數(shù)量高于只含一次項的 6 個。上升幅度為-0.74%至 3.83%,均值為0.82%,優(yōu)于加入二次和四次多項式的結(jié)果。3.4 升維方法對比和小結(jié)加入二次或四次多項

48、式,本質(zhì)上都是對高頻因子增加維度,因此不妨將這兩種方式和使用機(jī)器學(xué)習(xí)的結(jié)果進(jìn)行對比。下表展示了加入升維后的高頻因子的最大化預(yù)期收益組合,相對只含一次項的年化收益之差。表 13不同升維方法下的組合相對只含一次項的組合的超額收益表現(xiàn)(2015.01-2020.02)加入二次多項式加入四次多項式徑向基升維大單資金凈流入率-0.15%0.01%-0.56%平均單筆流出金額占比0.68%0.34%0.30%大買成交金額占比2.39%2.31%1.82%量價復(fù)合因子-0.07%0.21%-0.01%收盤前成交委托相關(guān)性0.62%0.28%-0.72%高頻下行波動占比0.21%0.78%0.75%改進(jìn)反轉(zhuǎn)因

49、子0.23%0.48%0.42%大單推動漲幅-0.26%-0.21%0.13%高頻已實現(xiàn)偏度0.16%0.88%0.81%大買成交集中度1.04%1.47%2.84%尾盤成交量占比-0.02%0.64%2.27%均值0.44%0.65%0.73%資料來源:Wind,海通證券研究所在使用高頻因子時,適當(dāng)升高維度在平均意義上均可提高組合的年化收益。相對而言,徑向基方法的效果最好。相對只含一次項的平均超額收益為 0.73%,高于加入二次和四次多項式的 0.44%和 0.65%。僅就上述結(jié)果而言,我們傾向于認(rèn)為,完全由數(shù)據(jù)驅(qū)動的徑向基升維對挖掘高頻因子信息的發(fā)現(xiàn)和挖掘最為充分。但作為機(jī)器學(xué)習(xí)的一種算法

50、,潛在的風(fēng)險同樣需要關(guān)注。雖然整個過程中,參數(shù)選擇和模型設(shè)定均無人工干預(yù),但機(jī)器學(xué)習(xí)方法卻暗含了一個前提訓(xùn)練期數(shù)據(jù)與預(yù)測期數(shù)據(jù)的特征基本一致。例如,徑向基升維需要確定中心點的個數(shù),以便對數(shù)據(jù)分段。而我們的實證發(fā)現(xiàn),這是一個敏感性較強(qiáng)的參數(shù)。選擇不同時間長度的訓(xùn)練樣本,得到的最優(yōu)參數(shù)差異較大,組合的收益也是大相徑庭。因此,使用機(jī)器學(xué)習(xí)也需謹(jǐn)慎,尤其是對于頻率較低、有效樣本量較少的月度選股模型??偨Y(jié)高頻因子存在明顯的多頭失效現(xiàn)象,這使得常用的因子 IC 在評價高頻因子有效性時,容易出現(xiàn)失真。通過對不同數(shù)據(jù)賦予新的權(quán)重,構(gòu)建得到的加權(quán) IC 可以更好地反映因子的多頭效果,找到真正有助于提升組合收益的

51、因子。進(jìn)一步研究發(fā)現(xiàn),多頭失效問題常常表現(xiàn)為高頻因子和股票收益之間的非線性關(guān)系。因此,加入因子的高次項以刻畫這種關(guān)系,成為了自然的選擇。實證結(jié)果表明,直接加入因子的高次項(如,二次、四次多項式),可以在整體上改善最大化預(yù)期收益組合的業(yè)績表現(xiàn),挖掘出高頻因子更多的增量信息。但這種方法的問題也顯而易見,它需要事先確定非線性函數(shù)的形式。而這一過程更多地是依賴模型使用者的經(jīng)驗,較難推而廣之。機(jī)器學(xué)習(xí)中同樣提供了大量擬合線性關(guān)系的方法,徑向基升維是其中一種直觀且運算量較小的技術(shù)。將其應(yīng)用于高頻因子的多頭失效問題,同樣可以在平均意義上提升組合的年化收益。但這種方法的風(fēng)險也不容忽視,它可能會引發(fā)“維數(shù)災(zāi)禍(

52、dimension curse)”。一方面,因子維度升高會降低參數(shù)估計的穩(wěn)定性。極端情況下,會導(dǎo)致因子暴露矩陣不滿秩,無法進(jìn)行跟蹤誤差約束。另一方面,過高的維度也會增加模型的過擬合概率,尤其是在有效歷史數(shù)據(jù)較為有限的月度再平衡方式下。根據(jù) Cover 定理,將復(fù)雜的模式分類問題非線性地投射到高維空間,比投射到低維空間更可能是線性可分的。雖然這種方式提升了模型的預(yù)測能力,但也嚴(yán)重降低了模型的人工修正能力,使策略徹底黑盒化。對這種非線性方法進(jìn)行有效控制并合理使用,是機(jī)器學(xué)習(xí)應(yīng)用于投資實踐中的重要研究方向。風(fēng)險提示市場系統(tǒng)性風(fēng)險、模型誤設(shè)風(fēng)險、有效因子變動風(fēng)險。信息披露分析師聲明馮佳睿金融工程研究團(tuán)

53、隊余浩淼金融工程研究團(tuán)隊本人具有中國證券業(yè)協(xié)會授予的證券投資咨詢執(zhí)業(yè)資格,以勤勉的職業(yè)態(tài)度,獨立、客觀地出具本報告。本報告所采用的數(shù)據(jù)和信息均來自市場公開信息,本人不保證該等信息的準(zhǔn)確性或完整性。分析邏輯基于作者的職業(yè)理解,清晰準(zhǔn)確地反映了作者的研究觀點,結(jié)論不受任何第三方的授意或影響,特此聲明。法律聲明本報告僅供海通證券股份有限公司(以下簡稱“本公司”)的客戶使用。本公司不會因接收人收到本報告而視其為客戶。在任何情況下,本報告中的信息或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下,本公司不對任何人因使用本報告中的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。本報告所載的資料、意見及推測僅反映本

54、公司于發(fā)布本報告當(dāng)日的判斷,本報告所指的證券或投資標(biāo)的的價格、價值及投資收入可能會波動。在不同時期,本公司可發(fā)出與本報告所載資料、意見及推測不一致的報告。市場有風(fēng)險,投資需謹(jǐn)慎。本報告所載的信息、材料及結(jié)論只提供特定客戶作參考,不構(gòu)成投資建議,也沒有考慮到個別客戶特殊的投資目標(biāo)、財務(wù)狀況或需要。客戶應(yīng)考慮本報告中的任何意見或建議是否符合其特定狀況。在法律許可的情況下,海通證券及其所屬關(guān)聯(lián)機(jī)構(gòu)可能會持有報告中提到的公司所發(fā)行的證券并進(jìn)行交易,還可能為這些公司提供投資銀行服務(wù)或其他服務(wù)。本報告僅向特定客戶傳送,未經(jīng)海通證券研究所書面授權(quán),本研究報告的任何部分均不得以任何方式制作任何形式的拷貝、復(fù)印

55、件或復(fù)制品,或再次分發(fā)給任何其他人,或以任何侵犯本公司版權(quán)的其他方式使用。所有本報告中使用的商標(biāo)、服務(wù)標(biāo)記及標(biāo)記均為本公司的商標(biāo)、服務(wù)標(biāo)記及標(biāo)記。如欲引用或轉(zhuǎn)載本文內(nèi)容,務(wù)必聯(lián)絡(luò)海通證券研究所并獲得許可,并需注明出處為海通證券研究所,且不得對本文進(jìn)行有悖原意的引用和刪改。根據(jù)中國證監(jiān)會核發(fā)的經(jīng)營證券業(yè)務(wù)許可,海通證券股份有限公司的經(jīng)營范圍包括證券投資咨詢業(yè)務(wù)。海通證券股份有限公司研究所路 穎所長(021)23219403 HYPERLINK mailto:luying luying高道德副所長(021)63411586 HYPERLINK mailto:gaodd gaodd姜 超副所長(02

56、1)23212042 HYPERLINK mailto:jc9001 jc9001(021)23219404 HYPERLINK mailto:dengyong dengyong(021)23219658 HYPERLINK mailto:xyg6052 xyg6052(021)23219747 HYPERLINK mailto:tll5535 tll5535涂力磊所長助理荀玉根副所長鄧 勇副所長宏觀經(jīng)濟(jì)研究團(tuán)隊金融工程研究團(tuán)隊金融產(chǎn)品研究團(tuán)隊姜 超(021)23212042 HYPERLINK mailto:jc9001 jc9001高道德(021)63411586 HYPERLINK ma

57、ilto:gaodd gaodd高道德(021)63411586 HYPERLINK mailto:gaodd gaodd于 博(021)23219820 HYPERLINK mailto:yb9744 yb9744馮佳睿(021)23219732 HYPERLINK mailto:fengjr fengjr倪韻婷(021)23219419 HYPERLINK mailto:niyt niyt李金柳(021)23219885 HYPERLINK mailto:ljl11087 ljl11087鄭雅斌(021)23219395 HYPERLINK mailto:zhengyb zhengyb陳

58、瑤(021)23219645 HYPERLINK mailto:chenyao chenyao宋 瀟(021)23154483 HYPERLINK mailto:sx11788 sx11788羅 蕾(021)23219984 HYPERLINK mailto:ll9773 ll9773唐洋運(021)23219004 HYPERLINK mailto:tangyy tangyy陳 興(021)23154504聯(lián)系人應(yīng)鎵嫻(021)23219394 HYPERLINK mailto:cx12025 cx12025 HYPERLINK mailto:yjx12725 yjx12725余浩淼(021

59、)23219883袁林青(021)23212230姚 石(021)23219443呂麗穎(021)23219745張振崗(021)23154386梁 鎮(zhèn)(021)23219449聯(lián)系人顏 偉(021)23219914 HYPERLINK mailto:yhm9591 yhm9591 HYPERLINK mailto:ylq9619 ylq9619 HYPERLINK mailto:ys10481 ys10481 HYPERLINK mailto:lly10892 lly10892 HYPERLINK mailto:zzg11641 zzg11641 HYPERLINK mailto:lz119

60、36 lz11936 HYPERLINK mailto:yw10384 yw10384皮 靈(021)23154168徐燕紅(021)23219326談 鑫(021)23219686王 毅(021)23219819蔡思圓(021)23219433莊梓愷(021)23219370周一洋(021)23219774聯(lián)系人譚實宏(021)23219445吳其右(021)23154167 HYPERLINK mailto:pl10382 pl10382 HYPERLINK mailto:xyh10763 xyh10763 HYPERLINK mailto:tx10771 tx10771 HYPERLIN

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論