多因子系列之三:因子空頭問題及其“頂端”優(yōu)化_第1頁
多因子系列之三:因子空頭問題及其“頂端”優(yōu)化_第2頁
多因子系列之三:因子空頭問題及其“頂端”優(yōu)化_第3頁
多因子系列之三:因子空頭問題及其“頂端”優(yōu)化_第4頁
多因子系列之三:因子空頭問題及其“頂端”優(yōu)化_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、內(nèi)容目錄 HYPERLINK l _bookmark0 引言4 HYPERLINK l _bookmark1 因子空頭問題5 HYPERLINK l _bookmark2 因子空頭問題及基于 IC 的因子評價體系的缺陷5 HYPERLINK l _bookmark3 特質(zhì)波動率因子示例5 HYPERLINK l _bookmark6 使用帶權(quán)重 IC 和空頭剔除法解決空頭問題7 HYPERLINK l _bookmark7 ICIR 加權(quán)的多因子策略7 HYPERLINK l _bookmark11 改進一:帶權(quán)重的 ICIR 配權(quán)方式9 HYPERLINK l _bookmark16 改進二

2、:空頭剔除法11 HYPERLINK l _bookmark20 頂端優(yōu)化模型13 HYPERLINK l _bookmark21 二分排序模型13 HYPERLINK l _bookmark22 4.1 頂端優(yōu)化模型的原理13 HYPERLINK l _bookmark23 基于頂端優(yōu)化模型的多因子選股策略15 HYPERLINK l _bookmark24 模型訓練15 HYPERLINK l _bookmark25 策略組合構(gòu)建15 HYPERLINK l _bookmark28 參數(shù)敏感性測試16 HYPERLINK l _bookmark30 因子配權(quán)模型比較17 HYPERLINK

3、 l _bookmark31 主要模型實證檢驗17 HYPERLINK l _bookmark36 頂端優(yōu)化模型優(yōu)勢分析19 HYPERLINK l _bookmark38 總結(jié)與展望20 HYPERLINK l _bookmark39 附錄20 HYPERLINK l _bookmark40 因子數(shù)據(jù)庫一覽20 HYPERLINK l _bookmark42 致謝24 HYPERLINK l _bookmark43 風險提示24圖表目錄 HYPERLINK l _bookmark4 圖表 1:特質(zhì)波動率因子歷史表現(xiàn)6 HYPERLINK l _bookmark5 圖表 2:特質(zhì)波動率因子 2

4、018 年上半年表現(xiàn)6 HYPERLINK l _bookmark8 圖表 3:ICIR 加權(quán)方式歷史表現(xiàn)8 HYPERLINK l _bookmark9 圖表 4:策略分年表現(xiàn)8 HYPERLINK l _bookmark10 圖表 5:參數(shù)敏感性測試9 HYPERLINK l _bookmark12 圖表 6:帶權(quán)重的 ICIR 舉例10 HYPERLINK l _bookmark13 圖表 7:帶權(quán)重的 ICIR 加權(quán)方式歷史表現(xiàn)10 HYPERLINK l _bookmark14 圖表 8:帶權(quán)重的 ICIR 策略分年表現(xiàn)11 HYPERLINK l _bookmark15 圖表 9:

5、不同半衰期下帶權(quán)重的 ICIR 表現(xiàn)11 HYPERLINK l _bookmark17 圖表 10:空頭剔除法 ICIR 加權(quán)方式歷史表現(xiàn)12 HYPERLINK l _bookmark18 圖表 11:空頭剔除法 ICIR 策略分年表現(xiàn)12 HYPERLINK l _bookmark19 圖表 12:不同半衰期下帶權(quán)重的 ICIR 表現(xiàn)12 HYPERLINK l _bookmark26 圖表 13:頂端優(yōu)化組合歷史表現(xiàn)16 HYPERLINK l _bookmark27 圖表 14:頂端優(yōu)化策略分年表現(xiàn)16 HYPERLINK l _bookmark29 圖表 15:參數(shù)敏感性測試17

6、HYPERLINK l _bookmark32 圖表 16:各算法異同比較18 HYPERLINK l _bookmark33 圖表 17:不同策略表現(xiàn)18 HYPERLINK l _bookmark34 圖表 18:不同模型歷史表現(xiàn)18 HYPERLINK l _bookmark35 圖表 19:不同策略分年度表現(xiàn)19 HYPERLINK l _bookmark37 圖表 20:頂端正例率指標比較19 HYPERLINK l _bookmark41 圖表 21:因子數(shù)據(jù)庫20引言在多因子系列之一:多因子選股體系的思考一文中,我們對多因子組合構(gòu)建的一些 基本問題進行了探討,并給出了一些思考。然

7、而,在實際構(gòu)建多因子模型的過程中,我 們還會遇到很多影響其績效的問題,其中因子的空頭問題就是其中一個非常重要的因素。眾所周知,在當前的 A 股市場投資中,由于交易限制,我們沒有辦法做空個股,因此, 傳統(tǒng)多因子的多空組合收益是無法獲取的,一般通過股指期貨構(gòu)建策略的空頭端,而在 多頭端配臵個股。這樣帶來一個的問題是,如果一個因子的多頭端并不是很強,但是空 頭端非常強,那么傳統(tǒng)的因子評價指標信息系數(shù) IC 會認為這個因子是一個還不錯的因子, 從而基于該指標的收益預測模型例如 ICIR 因子配權(quán)會給該因子一個相對高估的權(quán)重,而事實上空頭端的收益我們卻是無法獲取的。為了解決該問題,目前市場上已經(jīng)有了很多

8、研究,例如通過空頭因子先進行股票池剔除, 再用其他因子進行選股;使用帶權(quán)重的 IC(weighted IC)指標進行因子配權(quán)等等。這些方法或多或少的解決了一部分該問題,但也可能引入新的問題。本文將對這些方法進行探討,并通過一個新的模型頂端優(yōu)化模型來解決該問題。該模型的思路和以上方法非常相近,但它是通過機器學習中的優(yōu)化方法進行問題求解的,給解決因子空頭問題帶來了新的思路。所謂“頂端”優(yōu)化,其實是指在進行因子權(quán)重優(yōu)化時更多地考慮收益率較高的股票是否都預測正確了,而忽略那些收益率較低的股票,這里“頂端”也就是收益率的較高的股票。通過這種優(yōu)化方式,我們會使得因子的配權(quán)更傾向于那些頂端表現(xiàn)更優(yōu)的因子。另

9、外,我們還比較了傳統(tǒng)的線性回歸模型、因子等權(quán)配臵模型、ICIR 因子配權(quán)模型、帶權(quán)重的 ICIR 配權(quán)模型、頂端優(yōu)化模型等算法的表現(xiàn),我們發(fā)現(xiàn)解決了因子空頭問題的頂端優(yōu)化模型表現(xiàn)相對更為穩(wěn)健。本文的結(jié)構(gòu)如下:第二章開始我們先通過一些具體的例子闡述了因子空頭問題,以及該問題對多因子策略表現(xiàn)的影響;第三章我們先構(gòu)造了一個比較基準,也就是傳統(tǒng)的 ICIR 加權(quán)方法,通過介紹該策略,讓投資者進一步了解我們多因子策略的細節(jié),然后分別通過使用空頭因子剔除選股池,帶權(quán)重的 ICIR 來改進這個策略;第四章我們著重介紹了頂端優(yōu)化模型,其代表算法是 TOPPUSH 算法,并分析了該算法的表現(xiàn);最后,我們在第五章

10、將頂端優(yōu)化模型和市場上目前較為主流的 ALPHA 預測模型進行了比較,包括因子等權(quán)配臵、線性回歸加權(quán)、ICIR 加權(quán)、帶權(quán)重的 ICIR 加權(quán)等模型,發(fā)現(xiàn)頂端優(yōu)化算法具有相對更穩(wěn)健的表現(xiàn),尤其在多因子回撤相對較大的 17 年初,更是表現(xiàn)出了自身的優(yōu)勢。因子空頭問題因子空頭問題及基于 IC 的因子評價體系的缺陷首先我們來介紹本文主要要解決的問題:因子空頭問題。該問題的主要含義是,由于我們在構(gòu)建多因子組合多頭的時候,希望因子打分越高的股票收益率越高(同理,負 ALPHA 因子打分越低的股票收益率越高),尤其是希望那些收益率很高的股票具有很高的打分,而至于那些收益率一般的股票是不是打分足夠低,我們并

11、不是那么關(guān)心。這主要是因為我們無法針對個股進行做空,從而獲得打分足夠低的股票帶來的空頭收益。正是因為這一點,如果有某個因子,其收益率較低的那些股票(即“因子空頭端”,或“底端”)打分很低, 而收益率較高的那些股票(即“因子多頭端”,或“頂端”)打分并不是很高,那么這樣的因子在實際投資中在股票多頭并不能給我們帶來類似其空頭那么好的收益, 因此我們希望降低這種類型因子的權(quán)重。然而,在現(xiàn)階段對于因子的評價方式中,很大一部分是依賴于因子的信息系數(shù)(即 IC) 的,甚至基于 IC 的因子配權(quán) ICIR 方法在投資者中使用甚為廣泛。但通過上面的分析, 我們發(fā)現(xiàn),基于 IC 這種因子評價體系的策略會高估空頭

12、效應很強的因子,從而導致策略的表現(xiàn)不佳,這主要是因為基于 IC 的因子評價體系考察的是整個截面因子打分和因子收益率的線性相關(guān)性,而并不是只是考慮頂端。下面,我們通過一個具體的例子介紹這一現(xiàn)象。特質(zhì)波動率因子示例這一節(jié)我們通過特質(zhì)波動率這個因子來給投資者介紹因子多頭問題在實際投資中的表現(xiàn)。特質(zhì)波動率因子是被投資者熟知的波動率因子,該因子在 A 股市場歷史表現(xiàn)優(yōu)異,因子是使用 Fama-French 三因子回歸得到: = + + + + 其中,F(xiàn)ama-French 三因子回歸的殘差即為,而特質(zhì)波動率因子即定義為其標準差:IVOL = ()如圖 1 所示,是特質(zhì)波動率因子從 2008 年初至今的歷

13、史表現(xiàn),我們將因子經(jīng)過縮尾、中性化、標準化等一系列處理后,再將所有股票根據(jù)因子打分大小分為十組,通過漸變的藍色曲線展示了從第一組到第十組的收益情況,并計算出第一組對沖第十組的多空收益,以及第一組對沖中證 500 指數(shù)的收益,在坐標軸右軸標示其凈值。圖表 1:特質(zhì)波動率因子歷史表現(xiàn)1130925720515310152008-1-22009-1-22010-1-22011-1-22012-1-22013-1-22014-1-22015-1-22016-1-22017-1-22018-1-22019-1-2-10資料來源:Wind, Group1Group2Group3Group4Group5Gr

14、oup6Group7Group8Group9Group10對沖基準 多空對沖觀察該圖不難發(fā)現(xiàn),特質(zhì)波動率因子過去幾年是非常好的 ALPHA 因子,其不但十組收益分的非常開,而且收益也很可觀,每年都較穩(wěn)健。然而,我們發(fā)現(xiàn)在 2018 年上半年,第一組對沖中證 500 指數(shù)并沒有獲得像之前那樣好的收益。我們把這一時段放大,如圖2 所示。圖表 2:特質(zhì)波動率因子 2018 年上半年表現(xiàn)1.0510.950.90.850.80.70.751.091.071.051.031.010.990.970.95 Group1 Group2 Group3 Group4 Group5 Group6 Group7 G

15、roup8 Group9 Group10 對沖基準 多空對沖資料來源:Wind, 可以看到,18 年上半年該因子第一組股票相對中證 500 指數(shù)幾乎沒有收益,而多空組合依然獲得了不錯的 7%的收益,這顯然是因為因子空頭端的股票帶來的。如果我們使用IC 來評價該因子,這段時間其因子 IC 為 0.066,ICIR 為 2.75,是一個相當不錯的因子。然而實際上該因子這段時間并不能給我們帶來穩(wěn)定的收益。因此,如果我們使用只考慮因子頂端的模型,就可以降低該因子的配權(quán)權(quán)重。使用帶權(quán)重 IC 和空頭剔除法解決空頭問題本章開始我們一步步介紹解決空頭問題的若干辦法,包括市場上已有不少投資者使用的帶權(quán)重的 I

16、CIR 配權(quán)方式,以及空頭剔除法等等。我們實證檢驗了這些方法是否能夠切實有效地解決因子空頭問題,并闡述了這些方法自身的局限性。在此之前,我們還是先回歸到 ICIR 配權(quán)方法,該方法將成為我們后面其他算法的比較基準。因此,我們先來看看基準能有怎樣的表現(xiàn)。ICIR 加權(quán)的多因子策略這一節(jié)我們先來介紹業(yè)績比較基準:基于 ICIR 加權(quán)的多因子策略。ICIR 方法是目前多因子收益預測模型中最常用的方法之一,其優(yōu)勢在于不但考慮了因子的預測能力,還考慮了因子的穩(wěn)定性,因此是相對較為穩(wěn)健的預測方法,其效果在 A 股歷史上略優(yōu)于等權(quán)重配臵模型(見第五章)。因此,以 ICIR 作為我們算法檢驗比較的基準相對比較

17、公平、真實。我們構(gòu)建月?lián)Q倉的 ICIR 加權(quán)的多因子策略步驟如下:對數(shù)據(jù)庫中的所有因子(因子列表見附錄)進行縮尾、中性化、標準化處理;對這些因子進行篩選,選出過去 12 個月 ICIR 絕對值最高的k 個因子,并且要求這 k個因子之間的兩兩相關(guān)性小于c。計算篩選出來的所有因子的 ICIR 值,并以該值作為權(quán)重對所有因子進行加權(quán),給出合成的打分值作為股票的ALPHA 預測。上述步驟中涉及兩個參數(shù):篩選的因子數(shù)量 k 和因子的相關(guān)性要求 c,我們這里選取默認的參數(shù)k=50,c=0.2,之后我們會檢驗不同參數(shù)下策略表現(xiàn)的差異。假設我們選定以上參數(shù),月?lián)Q倉的 ICIR 多因子策略具體交易方式為: 樣本

18、池:全部A 股,剔除上市半年以內(nèi)的新股、ST 股;換倉時間:每月第一個交易日交易價格:交易當天的VWAP 價格跟蹤基準:中證 500 指數(shù)交易成本:雙邊共 0.4%年化跟蹤誤差約束:小于 5%行業(yè)風格約束:行業(yè)、市值中性具體的優(yōu)化形式為:max ( ) | |s. t. ( ) _, _ ( ) _, _( )( + )( ) target 21 = _ 0 _其中約束條件上文已經(jīng)給出。這里的即為我們使用ICIR 方式加權(quán)合成的。根據(jù)以上交易策略,我們回測了從 2010 年初至今的表現(xiàn),如下圖所示:圖表 3:ICIR 加權(quán)方式歷史表現(xiàn)70-0.0056-0.015-0.015-0.024-0.

19、0253-0.032-0.035-0.041-0.04502010-1-42011-1-42012-1-42013-1-42014-1-42015-1-42016-1-42017-1-42018-1-4-0.05資料來源:Wind, 最大回撤 策略 基準 對沖凈值圖表 4:策略分年表現(xiàn)年化收益年化波動信息比率最大回撤回撤天數(shù)回撤開始時間回撤結(jié)束時間201031.25%5.94%5.2581.99%72010-1-42010-1-12201114.14%4.84%2.9221.93%132011-3-152011-3-31201216.21%5.33%3.043.12%422012-7-1820

20、12-9-1320139.70%5.79%1.6753.76%312013-2-12013-3-22201411.92%5.67%2.1032.52%142014-7-82014-7-25201523.08%6.18%3.7374.11%242015-7-242015-8-26201614.59%4.58%3.1881.62%112016-12-162016-12-30201720.69%6.27%3.2983.32%272017-1-132017-2-2720188.51%5.32%1.5984.00%252018-8-92018-9-12總計16.37%5.58%2.9324.57%462

21、016-12-162017-2-27資料來源:可以看到,使用 ICIR 加權(quán)構(gòu)造的多因子組合整體獲得了相對不錯的表現(xiàn),在 2010 年到2018 年這九年的時間內(nèi)獲得了平均 16%的年化超額收益,信息比率 2.932,最大回撤4.57%,發(fā)生在 16 年末 17 年初的時候,該時間段是典型的小盤成長性風格向大盤藍籌型風格的轉(zhuǎn)換,該策略是基于過去 12 個月的 ICIR 進行加權(quán),因此出現(xiàn)了這個回撤。那么,在k 和c 取其他參數(shù)情況下策略會有怎樣的表現(xiàn)呢?我們對臨近參數(shù)進行了測試, 結(jié)果如下:圖表 5:參數(shù)敏感性測試因子個數(shù) k相關(guān)性閾值 c年化收益年化波動信息比率最大回撤k=20c=0.216

22、.26%5.69%2.8564.25%k=30c=0.216.52%5.59%2.9564.99%k=40c=0.216.63%5.62%2.9594.81%k=50c=0.216.37%5.58%2.9324.57%k=60c=0.216.23%5.61%2.8934.88%k=30c=0.113.64%5.54%2.4645.76%k=30c=0.317.33%5.62%3.0834.47%k=30c=0.416.14%5.55%2.914.27%k=30c=0.515.87%5.55%2.865.38%k=30c=0.615.77%5.64%2.7965.22%資料來源:Wind, 從上

23、表可以看出,當因子個數(shù) k=30,相關(guān)性閾值 c=0.3 時,策略獲得最高的信息比率3.083。我們選取的參數(shù) k=50,c=0.2 并不是最好的參數(shù),在該參數(shù)附近策略表現(xiàn)較為穩(wěn)定。說明 ICIR 策略確實能收獲不錯的表現(xiàn)。下面,我們開始使用一些簡單的思考來對以上策略進行改進,主要就是為了解決策略中的因子空頭問題。改進一:帶權(quán)重的 ICIR 配權(quán)方式首先想到的一個可能的改進辦法是將傳統(tǒng)的 IC 指標改為帶權(quán)重的 IC。由于 IC 指標考察的是整個截面上因子暴露和下一期收益率的相關(guān)系數(shù),相當于對于因子多頭和因子空頭賦予了相同的權(quán)重,那么我們可以降低空頭部分的權(quán)重,提高多頭部分的權(quán)重,這樣就能更好

24、地表達我們希望因子“頂端”表現(xiàn)更優(yōu)?;谶@個思路,我們定義帶權(quán)重的 IC 指標為: ( )( ) = 2 ( )2 2 ( )2其中, 表示第 i 只股票的因子暴露,表示第 i 只股票下一期的收益率,n 代表當期截面股票個數(shù),表示第i 只股票的權(quán)重,其給定方式為以 int(n/2)為半衰期進行加權(quán),即位于因子打分 50%分位數(shù)的股票的權(quán)重為 0.5,以此類推。為了更清晰的表達這個方法的思路,我們舉個簡單的例子。假設有A、B 兩個因子,其 t時刻的因子暴露和 t+1 時刻的收益率分別如下表所示:圖表 6:帶權(quán)重的 ICIR 舉例股票序號因子 A因子 B收益率 r1X1=0.7X2=0.1r=5%

25、2X1=0.3X2=0.4r=4%3X1=0X2=0.3r=3%4X1=0.1X2=0.4r=2%5X1=0.2X2=-0.2r=1%6X1=-0.1X2=0.2r=0%7X1=-0.3X2=0.5r=-1%8X1=0.4X2=-0.3r=-2%9X1=-0.5X2=-0.7r=-3%10X1=-0.3X2=-0.9r=-4%資料來源:Wind, 如果用 IC 指標計算這兩個因子,得到:ICA = 0.707, ICB = 0.716B 因子的 IC 略高于 A 因子,但顯然在多頭端 A 因子表現(xiàn)更優(yōu),B 因子 IC 相對更高更多來源于空頭部分。我們計算加權(quán)的 IC,得到:ICA weight

26、ed = 0.747, ICB weighted = 0.633可以看到,A 因子的 IC 變高了,而 B 因子 IC 大幅降低,因此更好的表示出了兩者在多頭端的表現(xiàn)差異。根據(jù)這個 IC 值我們可以同樣計算帶權(quán)重的 ICIR:ICIRweighted =() 252 ()下面,我們使用帶權(quán)重的 ICIR 加權(quán)方式重新構(gòu)建多因子組合,依然保持上文參數(shù) k=50,c=0.2 不變,組合構(gòu)建的細節(jié)也完全參照之前的ICIR,回測結(jié)果如下圖所示:圖表 7:帶權(quán)重的 ICIR 加權(quán)方式歷史表現(xiàn)70-0.0056-0.015-0.0154-0.02-0.0253-0.032-0.035-0.041-0.04

27、502010-1-42011-1-42012-1-42013-1-42014-1-42015-1-42016-1-42017-1-42018-1-4-0.05資料來源:Wind, 最大回撤 策略 基準 對沖凈值策略的分年度表現(xiàn)如下:圖表 8:帶權(quán)重的 ICIR 策略分年表現(xiàn)年化收益年化波動信息比率最大回撤回撤天數(shù)回撤開始時間回撤結(jié)束時間201030.63%5.82%5.2642.78%102010-1-42010-1-15201112.47%5.20%2.3982.51%152011-5-172011-6-7201220.05%5.33%3.7641.61%372012-1-172012-3-

28、14201315.28%5.85%2.6133.31%122013-8-292013-9-1320148.43%5.69%1.4823.21%192014-2-72014-3-5201524.37%5.63%4.3253.16%362015-7-82015-8-26201614.96%4.88%3.0653.42%552016-9-292016-12-21201714.63%5.93%2.4663.92%232017-4-242017-5-25201817.28%5.78%2.9883.00%132018-8-272018-9-12總計17.26%5.59%3.094.29%1572016-9

29、-292017-5-25資料來源:Wind, 可以看到,使用帶權(quán)重的 ICIR 加權(quán)的多因子組合比傳統(tǒng)的 ICIR 方法無論從年化收益率還是信息比率上都表現(xiàn)更優(yōu)。尤其是在每個年份的表現(xiàn)更加穩(wěn)定,例如最近三年 2016 年到 2018 年,無論市場處于怎樣的風格,都能獲得 14%以上的年化收益,信息比穩(wěn)定在 2.4 以上,這一點相比原始的 ICIR 要更穩(wěn)健,由此帶來的超額收益最大回撤也降低到了 4.29%,信息比率提高到 3.090.那么,是不是“頂部”的權(quán)重給的越高,策略效果越好呢?我們可以調(diào)整 w 的半衰期, 將w 的半衰期從int(n/2)調(diào)整為int(n/10),這樣相當于 10%分位

30、的股票就有一半的權(quán)重。我們測試了 w 的半衰期從int(n/2)到 int(n/10)的情況,發(fā)現(xiàn)策略表現(xiàn)變化如下表所示。圖表 9:不同半衰期下帶權(quán)重的 ICIR 表現(xiàn)w 半衰期年化收益年化波動信息比率最大回撤int(n/2)17.26%5.59%3.094.29%int(n/5)16.11%5.44%2.9614.61%int(n/10)13.76%5.92%2.3245.22%資料來源:Wind, 可以看到,半衰期的選擇對于帶權(quán)重的 ICIR 策略影響很大,如果半衰期選的不好,將太多的權(quán)重給予“頂端”,那么策略表現(xiàn)反而不如原始的ICIR(信息比從2.932 降低到2.324)??梢?,使用帶

31、權(quán)重的 ICIR 的最主要問題是參數(shù)不是很穩(wěn)定,合適的半衰期可能對策略有著很大的影響。改進二:空頭剔除法除了帶權(quán)重的 ICIR 之外,還有一種做法是通過空頭剔除法解決因子空頭問題,其思想是找出空頭最強的 m 個因子,通過這 m 個因子先對選股池做剔除,例如針對這 m 個因子中的每個因子,剔除其后 10%的股票,然后再在剩下的選股池中進行選股。這種方式的好處是可以充分利用空頭端股票表現(xiàn)差的特點,使得這些很差的股票直接不會被選到。然而,我們通過研究發(fā)現(xiàn),空頭因子個數(shù) m 的選擇對策略影響也較大。我們下面先使用默認參數(shù) m=5 進行測試,方法是首先把股票在因子 i 上分為 10 組,計算空頭收益(第

32、六組減第十組)和多頭(第一組減第五組)收益的比值,選取該比值最大的 5 個因子, 分別從選股池中剔除這五個因子的 10%股票,其他策略細節(jié)同 ICIR 策略。策略的表現(xiàn)如下圖所示:圖表 10:空頭剔除法 ICIR 加權(quán)方式歷史表現(xiàn)706-0.015-0.024-0.033-0.0421-0.0502010-1-42011-1-42012-1-42013-1-42014-1-42015-1-42016-1-42017-1-42018-1-4-0.06資料來源:Wind, 最大回撤 策略 基準 對沖凈值圖表 11:空頭剔除法 ICIR 策略分年表現(xiàn)年化收益年化波動信息比率最大回撤回撤天數(shù)回撤開始時

33、間回撤結(jié)束時間201031.74%6.32%5.0212.47%152010-10-262010-11-15201119.54%5.03%3.8832.54%182011-3-232011-4-19201224.33%5.78%4.2112.51%152012-4-52012-4-25201315.16%6.21%2.4392.62%242013-6-262013-7-2920145.49%5.60%0.9813.67%632014-1-172014-4-23201528.81%5.96%4.8312.62%182015-5-212015-6-15201616.65%4.95%3.3631.8

34、4%152016-11-242016-12-14201712.92%5.57%2.3214.91%722017-1-32017-4-21201811.83%5.68%2.0843.98%602018-6-222018-9-13總計17.01%5.71%2.9794.93%732016-12-302017-4-21資料來源:Wind, 可以看到,空頭剔除法在該參數(shù)下比傳統(tǒng) ICIR 方法表現(xiàn)略有提高,信息比率提高到了2.979,那么空頭因子到底應該選多少個呢?我們發(fā)現(xiàn),如果因子個數(shù)選擇不好,業(yè)績會大打折扣:圖表 12:不同半衰期下帶權(quán)重的 ICIR 表現(xiàn)空頭因子個數(shù)m年化收益年化波動信息比率最大

35、回撤m=116.15%5.63%2.8684.83%m=517.01%5.71%2.9794.93%m=1013.73%5.84%2.3516.12%m=209.87%5.86%1.6868.64%m=307.24%5.61%1.2917.51%m=50NANANANA資料來源:Wind, 可以看到,隨著因子個數(shù)的增長,策略表現(xiàn)不但沒有提高,還變得更差了,甚至弱于原來的 ICIR 策略。在空頭因子個數(shù)為 50 的時候,由于選股域被壓縮的太厲害,很多期甚至優(yōu)化無解,導致回測沒有太大意義。所以,在 m=5 的時候策略的微弱提高看來根本不值一提。可以看出,雖然帶權(quán)重的 ICIR 和空頭剔除法或多或少

36、地解決了一些因子空頭問題,但是兩個方法也都存在著一些問題,使得這些方法還不能夠讓我們滿意。下面,我們來介紹一個穩(wěn)定性更強,策略表現(xiàn)更優(yōu)的機器學習模型頂端優(yōu)化模型。頂端優(yōu)化模型近年來,機器學習算法在語音識別、圖像處理等方面的卓越性能引起了廣泛關(guān)注,通過使用機器學習算法構(gòu)建的量化投資策略也逐漸進入了公眾的視野,但是這些策略目前都有其無法回避的弊端:線性模型無法解釋因子之間的非線性關(guān)系,而很多非線性模型又對參數(shù)比較敏感,市場風格的切換導致策略魯棒性降低,同時模型可解釋性低也使得投資者望而卻步。然而,我們把注意力轉(zhuǎn)移到信息檢索領(lǐng)域,發(fā)現(xiàn)量化投資與信息檢索有相通之處,即用戶在進行信息檢索時,他只關(guān)注搜索

37、出來排序前幾名的結(jié)果是否與搜索關(guān)鍵詞相關(guān),而并不關(guān)心排名靠后的網(wǎng)頁。類比到投資領(lǐng)域,正是我們上文提到的,我們對空頭端的表現(xiàn)并沒有那么關(guān)心,而相對更關(guān)心因子多頭端的情況。因此,我們使用頂端優(yōu)化模型,將優(yōu)化目標著眼于股票收益率排序頂端,賦予排序頂端的負例更大的錯誤代價,從而達到頂端正例(績優(yōu)股票)聚集的效果。該算法時間復雜度低(線性),模型可解釋性強,符合投資者思維及市場邏輯。接下來,我們從頂端優(yōu)化模型的基礎(chǔ)模型二分排序模型引入,介紹這些算法的原理, 之后我們利用數(shù)據(jù)庫中的ALPHA 因子構(gòu)建基于頂端優(yōu)化的多因子組合,并分析頂端排序模型的表現(xiàn)和及其試適用條件,最后我們將頂端排序模型與其他模型進行比

38、較。二分排序模型在量化選股過程中,排序模型被廣泛應用,大部分輸出結(jié)果為實值的選股模型在最后都需要根據(jù)結(jié)果對個股進行排序,所以排序結(jié)果對選股效果的好壞至關(guān)重要,我們首先考慮直接對排序結(jié)果進行優(yōu)化。機器學習中的二分排序模型(Bipartite ranking)是排序模型的一種,輸入的樣本只有兩個分類,可以類比為股票之中的上漲的下跌,其目標是學得一個實值的排序模型,使得模型在測試時將正例樣本排列在負例之前。而在選股問題上,我們認為優(yōu)化排序頂端的二分排序模型更加符合量化選股的邏輯,下面我們就介紹該模型的原理,并探究其與傳統(tǒng)線性回歸的區(qū)別與優(yōu)勢。4.1 頂端優(yōu)化模型的原理頂端優(yōu)化模型是李楠等人發(fā)表于 N

39、IPS 2014 上Top Rank Optimization in Linear Time一文中的算法,其以二分排序為基礎(chǔ),在二分排序模型之中,廣泛使用的評價準則是 AUC, 為了優(yōu)化AUC,傳統(tǒng)排序優(yōu)化的損失函數(shù)為:(1)其中 f 表示預測模型,m 與 n 表示正例樣本數(shù)與負例樣本數(shù),+與表示正例樣本和負例樣本, 表示指示函數(shù),這個損失函數(shù)可以理解為:當模型對正例樣本的預測值小于負例樣本時,記為 1 錯誤,遍歷所有正例與負例樣本對,得到整體錯誤率。然而,AUC 強調(diào)的是模型整體的排序效果好壞,最大化 AUC 并不能滿足對排序最頂端的優(yōu)化目標,為了解決這一問題,頂端優(yōu)化算法著眼于優(yōu)化排序最頂

40、端的精度:高于排名最高負例的正例比例,又被稱為頂端正例率,其損失函數(shù)為:(2)損失函數(shù)(2)可以理解為:當模型對正例x+的預測值(+)比模型預測排序最靠前的負例imax1n ()預測值小的時候,記為 1 錯誤,對所有正例進行遍歷,得到排名在最高負例之下的正例比例,通過降低(2)中的損失函數(shù),我們將更多的正例排在了所有負例之前,使得在排序頂端的正例純度升高。由于指示函數(shù)為非凸函數(shù),不利于模型的優(yōu)化,模型使用凸函數(shù)對損失函數(shù)進行替代:(3)+其中 為截斷二次損失() = 1 + 2 ,為了最小化損失函數(shù),我們將()以的形式表示,那么模型的目的就是學得各因子的權(quán)重,最終,模型的優(yōu)化問題為:(4)其中

41、為正則化參數(shù),由于max 操作符難以優(yōu)化,我們對優(yōu)化問題求其對偶形式:(5)其中與 為對偶變量,其定義域 為:(6)令與為對偶問題的最優(yōu)解,那么原問題的最優(yōu)解 可由對偶變量推出:(7)所以若求得對偶變量與的最優(yōu)解,我們也得到了因子權(quán)重的最優(yōu)解,為了求解對偶變量,我們使用加速梯度下降來對(5)式進行求解,對偶變量的梯度為:(8)(9)(10)其中 () 為截斷二次損失() = 1 + 2 凸共軛的導數(shù)。同時使用 Nesterov 方法來加+快收斂過程。具體細節(jié)及理論見論文 N. Li, R. Jin and Z.-H. Zhou. Top Rank Optimization in Linear

42、Time. In NIPS-2014,這里不再贅述。我們用一句話總結(jié)頂端排序模型:模型在訓練時,通過對偶、加速梯度下降結(jié)合 Nesterov 方法不斷優(yōu)化(3)式來降低頂端排序損失,也就意味著在訓練集上排序最頂端的正例純度升高,最終得到針對頂端進行優(yōu)化的因子權(quán)重,在具體的操作上,頂端排序模型的輸入為+1 與-1 的樣本集合,輸出為頂端優(yōu)化后的排序權(quán)重。頂端排序模型與線性模型最大的區(qū)別就在于損失函數(shù)上,線性模型最小化的是平方損失函數(shù),而頂端排序模型自定義了損失函數(shù)(2),這也是造成兩者得到的因子權(quán)重不同的原因。那么接下來讓我們構(gòu)建基于頂端優(yōu)化的多因子選股策略,同時與線性模型的結(jié)果進行比較分析?;?/p>

43、于頂端優(yōu)化模型的多因子選股策略在上一節(jié)中,我們介紹了頂端優(yōu)化模型的主要原理。本節(jié)我們將使用該模型進行多因子選股。首先,我們介紹策略怎樣進行模型訓練。模型訓練樣本空間:在模型訓練時,樣本空間選取全部 A 股標的池(去除新股、ST 股票)。樣本數(shù)據(jù):樣本數(shù)據(jù)的特征 X 矩陣為數(shù)據(jù)庫中所有因子在 t 時刻的暴露,標簽 y 為個股在 t+1 期的收益率。樣本數(shù)據(jù)處理:包括缺失值處理、去極值、中性化和標準化四個步驟,這部分和 ICIR 方法一樣,先使用當日個股橫截面均值來補足股票因子暴露度缺失,再使用 5 倍 MAD(中位數(shù)絕對偏差)對異常值進行處理,即將個股橫截面序列上大于因子中位數(shù) 5 倍絕對偏差的

44、因子臵為中位數(shù) 5 倍絕對偏差,小于中位數(shù)-5 倍絕對偏差的因子臵為中位數(shù)-5 倍絕對偏差。之后是中性化,對市值和行業(yè)進行中性處理(這里使用流通市值和中信行業(yè)分類)。最后再進行標準化,即計算因子的 z-score。策略組合構(gòu)建我們同樣通過頂端優(yōu)化算法構(gòu)建月?lián)Q倉的交易策略,在每個月最后一個交易日結(jié)束后提取個股過去 12 個月月末的因子值及下一期收益率,對每一期分別運行頂端排序模型,得到因子權(quán)重,最后以 6 個月為半衰期求得加權(quán)均值,使用此因子權(quán)重與當期個股因子暴露加權(quán)后得到個股的因子總得分,該得分即為合成的 ALPHA 值。依然根據(jù) 3.1 節(jié)中的目標函數(shù)進行組合優(yōu)化:max ( ) | |我們

45、回測的細節(jié)如下:回測時間:從 2010 年 1 月至今樣本池:全部A 股,剔除上市半年以內(nèi)的新股、ST 股換倉時間:每月第一個交易日,每次都滾動使用過去 12 個月的數(shù)據(jù)作為訓練數(shù)據(jù)得到模型的權(quán)重,然后用該權(quán)重對本期因子進行加權(quán)。訓練時,設定當期收益率排名前 30%的股票作為正例(y=1),當期收益率排名后 30%的股票作為負例(y=-1)交易價格:交易當天的VWAP 價格跟蹤基準:中證 500 指數(shù)交易成本:雙邊共 0.4%年化跟蹤誤差約束:小于 5%行業(yè)風格約束:行業(yè)、市值中性策略回測結(jié)果如下:圖表 13:頂端優(yōu)化組合歷史表現(xiàn)807-0.0056-0.01-0.0155-0.024-0.0

46、253-0.032-0.0351-0.0402010-1-42011-1-42012-1-42013-1-42014-1-42015-1-42016-1-42017-1-42018-1-4-0.045資料來源:Wind, 最大回撤 策略 基準 對沖策略圖表 14:頂端優(yōu)化策略分年表現(xiàn)年化收益年化波動信息比率最大回撤回撤天數(shù)回撤開始時間回撤結(jié)束時間201031.31%5.81%5.3862.68%102010-1-42010-1-15201118.53%5.02%3.6892.33%272011-7-12011-8-8201226.52%5.90%4.4891.81%122012-2-21201

47、2-3-7201315.67%5.92%2.6473.18%122013-8-292013-9-1320148.01%5.57%1.4373.29%122014-12-42014-12-19201527.20%5.68%4.7892.98%372015-7-82015-8-27201614.71%4.90%3.0013.24%212016-11-232016-12-21201713.97%5.84%2.3933.76%232017-4-242017-5-25201817.52%5.94%2.953.05%132018-8-272018-9-12總計19.47%5.58%3.4893.76%23

48、2017-4-242017-5-25資料來源:Wind, 可以看到,頂端優(yōu)化組合整體表現(xiàn)穩(wěn)健,策略獲得了總體 19.47%的年化收益率和 3.489的信息比率,并且在每一年度的表現(xiàn)較為平均,除了 2014 年因為因子整體表現(xiàn)不佳以外,其他年份都獲得了至少 2.4 以上的信息比率??紤]到這是使用 VWAP 回測的結(jié)果, 技術(shù)因子因交易層面的收益貢獻對我們回測組合的表現(xiàn)影響不大,應該說這是較為貼近實盤可得業(yè)績的結(jié)果。參數(shù)敏感性測試認真考察頂端優(yōu)化算法會發(fā)現(xiàn),整個算法其實只有兩個參數(shù),即正則化參數(shù)和選擇正例、負例的百分比。下面我們來看看這兩個參數(shù)是否會對策略造成顯著影響。圖表 15:參數(shù)敏感性測試正

49、則化參數(shù)正例百分比年化收益年化波動信息比率最大回撤=0.0130%19.47%5.58%3.4893.76%=0.0230%20.42%5.61%3.643.99%=0.0330%19.21%5.68%3.3823.56%=0.0530%17.84%5.77%3.0924.62%=0.0140%16.39%5.62%2.9164.12%=0.0150%15.32%5.42%2.8264.59%資料來源:Wind, 從上表不難看出,如果固定正例百分比參數(shù)為 30%,正則化參數(shù)的變化對策略表現(xiàn)影響不大。而如果選用更高的正例百分比,策略效果略有下降,這應該是符合我們認知的, 因為如果正例百分比提高,

50、那么“頂端”的程度降低,優(yōu)化效果變?nèi)酢=?jīng)驗的看,固定在 30%左右的正例百分比,策略較為穩(wěn)定。因子配權(quán)模型比較上文中我們對頂端優(yōu)化多因子組合進行了分析與測試,我們發(fā)現(xiàn)頂端優(yōu)化算法可以獲得不錯的業(yè)績。那么相對傳統(tǒng)的選股模型,該模型表現(xiàn)如何呢?我們這一章將會就頂端優(yōu)化模型和傳統(tǒng)的等權(quán)模型、線性回歸模型、ICIR 加權(quán)模型,以及本文介紹的帶權(quán)重的 ICIR 模型、空頭剔除法 ICIR 模型進行比較,考察他們的差異。主要模型實證檢驗我們首先來說明待比較模型的構(gòu)建方式:等權(quán)模型:根據(jù)因子相關(guān)性和過去 12 個月的表現(xiàn)選擇最優(yōu)秀的 50 個因子,所有因子等權(quán)重配臵;線性回歸模型:根據(jù)因子相關(guān)性和過去 12

51、 個月的表現(xiàn)選擇最優(yōu)秀的 50 個因子,滾動進行訓練,即在每一個換倉日,使用過去 12 個月每個月的數(shù)據(jù)分別做一個線性回歸模型,最后將這 12 個月回歸模型的權(quán)重求平均作為當期的因子權(quán)重;ICIR 加權(quán)模型:無須贅述,請參考上文 3.1 節(jié); 帶權(quán)重的 ICIR 模型:請參考上文 3.2 節(jié);空頭剔除法 ICIR 模型:請參考上文 3.3 節(jié)。為了比較結(jié)果的公平,我們盡量保證所有算法使用的參數(shù)都保持一致,具體來說,每個算法的主要異同點如下表所示:圖表 16:各算法異同比較等權(quán)線性回歸ICIR帶權(quán)重 ICIR空頭剔除法 ICIR頂端優(yōu)化訓練周期NA過去 12 個月過去 12 個月過去 12 個月

52、過去 12 個月過去 12 個月權(quán)重配臵方式權(quán)重相等線性回歸權(quán)重過去12 期ICIR過去 12 期帶權(quán)重的 ICIR使用空頭因子剔除后的 12 個月 ICIR頂端優(yōu)化權(quán)重換倉周期每月第一個交易日每月第一個交易日每月第一個交易日每月第一個交易日每月第一個交易日每月第一個交易日因子數(shù)量50 個50 個50 個50 個50 個50 個交易價格VWAPVWAPVWAPVWAPVWAPVWAP市值行業(yè)約束中性中性中性中性中性中性資料來源:Wind, 各模型根據(jù)以上設定回測結(jié)果如下表和下圖所示:圖表 17:不同策略表現(xiàn)年化收益年化波動信息比率最大回撤等權(quán)14.84%5.67%2.6194.11%線性回歸1

53、4.72%5.83%2.5245.94%ICIR16.37%5.58%2.9324.57%帶權(quán)重 ICIR17.26%5.59%3.094.29%空頭剔除法 ICIR17.01%5.71%2.9794.93%頂端優(yōu)化19.47%5.58%3.4893.76%資料來源:Wind, 圖表 18:不同模型歷史表現(xiàn)4.43.93.42.92.41.91.40.92010-1-42011-1-42012-1-42013-1-42014-1-42015-1-42016-1-42017-1-42018-1-4 頂端優(yōu)化 線性回歸 ICIR等權(quán)資料來源:Wind, 另外,我們還可以從分年的維度來看看不同策略每

54、年信息比率的差異。圖表 19:不同策略分年度表現(xiàn)等權(quán)線性回歸ICIR 方法帶權(quán)重 ICIR剔除法 ICIR頂端優(yōu)化20104.0593.3885.2585.2645.0215.38620112.0272.8282.9222.3983.8833.68220123.5824.3823.043.7644.2114.48820132.7824.3611.6752.6132.4392.64620140.3591.8752.1031.4820.9811.43720152.9533.8763.7374.3254.8314.78920161.8651.1513.1883.0653.3633.00120173.

55、5640.0033.2982.4662.3212.39320182.4331.5251.5982.9882.0842.95總計2.6192.5242.9323.092.9793.489資料來源:Wind, 從績效結(jié)果的對比中可以看到,在參數(shù)、因子及行業(yè)中性設臵完全相同的情況下,將因子權(quán)重由線性回歸權(quán)重或者 ICIR 權(quán)重替換為頂端優(yōu)化權(quán)重,年化收益率由 14.84%提高至 19.47%,信息比率由 2.62 提升至 3.48,同時在獲取更高的年化收益率的同時,還保持了較低的回撤,最大回撤由 4.11%降至 3.76%。從這些績效數(shù)據(jù)可以看出,頂端優(yōu)化總體確實表現(xiàn)更為優(yōu)秀。下面,我們用一些具體的

56、指標分析頂端優(yōu)化模型的優(yōu)勢。頂端優(yōu)化模型優(yōu)勢分析我們知道,通過頂端優(yōu)化方法進行因子配權(quán)的目的是為了使得加權(quán)過后的因子得分在“頂端”具有更好的預測能力。那么,有沒有什么辦法判斷這個預測能力是否真的提升了呢? 我們這里使用一個更直觀的指標來考察頂端優(yōu)化模型和 ICIR 模型在排序最頂部的正確率差異,即考察兩種方法合成的因子暴露在每一期超過基準中證 500 因子暴露的正確率。具體計算方式是,在每一期,根據(jù)中證 500 指數(shù)個股權(quán)重計算該基準的因子得分,記該期所有超過該基準得分的個股數(shù)量為 N,在這些個股中,t+1 期收益率又高于中證 500 的個股記為 M,那么 M/N 就代表“頂端正例率”,即在“

57、頂端”打分高的股票真正跑贏基準的概率。我們對頂端優(yōu)化、線性回歸、ICIR 三個模型計算全樣本平均頂端正例率,結(jié)果如下;圖表 20:頂端正例率指標比較線性回歸ICIR頂端優(yōu)化頂端正例率55.50%58.20%63.80%資料來源:Wind, 從指標比較結(jié)果可以看出,頂端優(yōu)化在超過基準中證 500 打分的股票中的正例率高達63.8%,高于線性回歸和ICIR。這使得使用頂端優(yōu)化算法在組合多頭貢獻了更加良好的收益,真正解決了我們報告開始提到的因子空頭問題。另外,從分年度績效比較表中我們可以看出,頂端優(yōu)化模型在因子較為強勢的 2010 年到 2013 年每年都獲得了比 ICIR 模型更好的績效,而在風格

58、劇烈變換的 2017 年到 2018 年,頂端優(yōu)化算法受風格影響更小,每一年的表現(xiàn)更加平均,顯示出抗跌的效果。另外, 所有模型在 2014 年的表現(xiàn)都相對不佳,這更大可能是因子相對弱勢,而非模型的失效。這也說明了任何算法和模型都不是萬能的,正所謂“垃圾進,垃圾出”,如果沒有有效的ALPHA 因子,在不過擬合的情況下,算法模型也是無能為力的。因此,我們在研究因子配權(quán)的同時,也需要不斷挖掘有效的 ALPHA 因子??偨Y(jié)與展望近年來,因子空頭問題已經(jīng)成為影響多因子績效表現(xiàn)的重要因素。本篇報告我們從問題的描述出發(fā),一步步地介紹解決因子空頭問題的可能辦法,最后引入頂端優(yōu)化模型,相對更好地解決了該問題,并

59、通過實證檢驗證明,頂端優(yōu)化組合有更好的績效表現(xiàn)。至此,我們的多因子系列已經(jīng)解決了以下幾個問題:1.多因子選股體系如何搭建,搭建過程中有哪些需要關(guān)注的問題?2.因子測試怎樣完成,A 股市場有哪些有效的 ALPHA 因子?3.組合優(yōu)化如何進行,怎樣根據(jù)ALPHA 得分和各種限制條件對組合進行優(yōu)化?4.業(yè)績歸因有哪些值得注意的問題,如何進行多期歸因?5.如果數(shù)據(jù)庫中因子數(shù)量龐大,如何有效篩選合適的因子?6.因子配權(quán)有哪些方法,這些方法之間有何異同?7.因子空頭問題是如何影響組合績效的,如何解決該問題?未來,我們還將對已有因子進行更加深度的挖掘,進一步完善我們的體系,歡迎各位投資者關(guān)注。附錄因子數(shù)據(jù)庫

60、一覽圖表 21:因子數(shù)據(jù)庫因子名稱定義使用數(shù)據(jù)asset_turnover過去 12 個月營業(yè)收入/過去 12 個月平均總資產(chǎn)營業(yè)收入,總資產(chǎn)inv_turnover過去 12 個月營業(yè)成本/過去 12 個月平均存貨營業(yè)成本,存貨net_profit_ratio過去 12 個月凈利潤/過去 12 個月營業(yè)總收入凈利潤,營業(yè)總收入gross_profit_ratio(過去 12 個月營業(yè)收入-過去 12 個月營業(yè)支出)/過去 12 個月營業(yè)收入營業(yè)收入,營業(yè)支出expense_ratio(銷售費用+管理費用+財務費用)/營業(yè)收入銷售費用,管理費用,財務費用,營業(yè)收入admin_ratio管理費用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論