2020年人工智能行業(yè)分析報(bào)告

上傳人：無(wú)*** IP屬地：北京上傳時(shí)間：2023-05-05 格式：DOC 頁(yè)數(shù)：28 大?。?.32MB 積分：42 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩23頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

42020年人工智能行業(yè)分析報(bào)告2020年3月資管行業(yè)的倫理需要“白箱”模型就顯得尤為關(guān)鍵。資管行業(yè)的倫理需要可解釋的“白箱”模型。Cabitza等人在年的論文UnintendedConsequencesofMachineLearningMedicine中列舉如下案例：某項(xiàng)機(jī)器學(xué)習(xí)研究以位肺炎患者為樣本，探索肺炎死“哮喘是肺炎患者的保護(hù)因子”的反常結(jié)論。機(jī)器學(xué)習(xí)模型的“思考”過(guò)程，直接使用機(jī)器學(xué)習(xí)的診斷結(jié)果，可能帶來(lái)較大的風(fēng)險(xiǎn)。無(wú)本質(zhì)上的不同，仍是對(duì)樣本特征X和標(biāo)簽Y進(jìn)行擬合，區(qū)別無(wú)非是機(jī)器學(xué)習(xí)模型的非也是如此。習(xí)模型“黑箱”的方法。本文第一部分將介紹特征重要性（FeatureImportanceICE（IndividualConditionalExpectationPDP（PartialDependencePlot（SurrogateDecisionTreesLIME（LocalInterpretableModel-agnosticExplanationsSHAP（Shapley）六種解釋機(jī)器學(xué)習(xí)模型的常用方法。本文第二部分將以華泰金工XGBoostXGBoost5解釋機(jī)器學(xué)習(xí)模型的常用方法本節(jié)我們將以模擬的因子選股數(shù)據(jù)集為例，介紹特征重要性、ICE、PDP、、LIME、SHAP六種解釋機(jī)器學(xué)習(xí)模型的常用方法。圖表：模型解釋方法總結(jié)模型解釋方法特征重要性核心思想優(yōu)點(diǎn)缺點(diǎn)依據(jù)某特征進(jìn)行決策樹(shù)分裂時(shí)，分裂前后的信息增益高度簡(jiǎn)潔，模型間可比不能體現(xiàn)方向，只適用于樹(shù)模型ICE對(duì)于每條樣本，考察某特征的計(jì)算簡(jiǎn)便，直觀，能解釋單樣本不同取值對(duì)模型輸出的影響忽略特征間相關(guān)性PDP對(duì)于全體樣本，考察某特征的計(jì)算簡(jiǎn)便，直觀不同取值對(duì)模型輸出的影響忽略特征間相關(guān)性全局代理：SDT局部代理：LIMESHAP對(duì)于全體樣本，用單棵決策樹(shù)高度直觀解釋原模型模型高度復(fù)雜時(shí)，單棵決策樹(shù)不足以刻畫計(jì)算繁瑣，對(duì)個(gè)別樣本解釋可能欠合理對(duì)于每條樣本，用更簡(jiǎn)單的模能夠解釋單樣本型解釋原模型計(jì)算某特征對(duì)模型輸出的邊際貢獻(xiàn)計(jì)算繁瑣資料來(lái)源：Goldstein等（2015Lundberg2018，Molnar2018Ribeiro等（2016模擬數(shù)據(jù)和機(jī)器學(xué)習(xí)模型模擬的因子選股數(shù)據(jù)集包含條樣本，4項(xiàng)特征和1項(xiàng)三分類標(biāo)簽。標(biāo)簽分為“上漲”（＝＝＝﹣）三種類別，每種類別各含條樣本。4項(xiàng)因子、無(wú)效因子。因子值詳細(xì)構(gòu)建方式如下表所示。圖表：模擬因子值構(gòu)建方式（N,σ代表均值為、標(biāo)準(zhǔn)差為σ的正態(tài)分布）因子“上漲”類別（）N(1,1)“震蕩”類別（）“下跌”類別（）X1（效果一般的正向線性因子）X2（效果較好的反向線性因子）X3（效果較好的非線性因子）X4（無(wú)效因子）N(0,1)N(-1,1)N(-1,0.5)N(0,0.5)N(1,0.5)N(0,0.25)N(0.5,0.25)或N(-0.5,0.25)N(1,0.25)或N(-1,0.25)N(0,1)N(0,1)N(0,1)資料來(lái)源：XXXX市場(chǎng)研究部X1和X2的兩處區(qū)別在于：X1各分類下因子值的均值和所屬類別一致，屬于正向因子；各分類下因子值的均值和所屬類別相反，屬于反向因子。X1的標(biāo)準(zhǔn)差為，X2的標(biāo)準(zhǔn)差為，X2比X1的信噪比更高，效果更好。X3為非線性因子，當(dāng)因子值較大或較小時(shí)，樣本傾向于屬于“下跌”類別；當(dāng)因子值居中時(shí)，樣本傾向于屬于“上漲”類別。4項(xiàng)因子中的2我們采用XGBoost模型對(duì)特征和標(biāo)簽進(jìn)行擬合。6圖表：模擬因子值及所屬類別（紅、白、藍(lán)分別對(duì)應(yīng)上漲、震蕩和下跌分類）資料來(lái)源：XXXX市場(chǎng)研究部所有特征進(jìn)入模型前首先進(jìn)行標(biāo)準(zhǔn)化處理，轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布。我們不對(duì)XGBoost分使默認(rèn)參數(shù)也能達(dá)到的訓(xùn)練集正確率。我們也不再額外切分測(cè)試集。我們僅關(guān)心下面的問(wèn)題：對(duì)于訓(xùn)練集數(shù)據(jù)，XGBoost模型是根據(jù)什么規(guī)則進(jìn)行決策的？特征重要性概念特征重要性（FeatureImportance）的核心思想是計(jì)算依據(jù)某個(gè)特征進(jìn)行決策樹(shù)分裂時(shí)分裂前后的信息增益，信息增益越大，該特征越重要。特征重要性源于決策樹(shù)模型，XGBoost的機(jī)器學(xué)習(xí)模型解釋方法之一。特征重要性的計(jì)算始于信息論中的概念——GiniGiniIndexGini指數(shù)用來(lái)定義決KD中的點(diǎn)屬于第k類的概率為?，則分裂前的指數(shù)為：???????(?)=∑?(1??)=1?∑?2????=1?=1Gini(D)反映了從數(shù)據(jù)集DGini(D)越小，數(shù)據(jù)集D的純度越高。理解Gini指數(shù)時(shí)可以類比經(jīng)濟(jì)學(xué)中的基尼系數(shù)，一個(gè)國(guó)家隨機(jī)抽取兩個(gè)人，財(cái)富差距的期望越小，基尼系數(shù)越小，這個(gè)國(guó)家的貧富差距就越小。對(duì)于給定的樣本集合（A分裂為D和D兩棵12不相交的子樹(shù)，則分裂后的Gini指數(shù)為每棵子樹(shù)Gini指數(shù)的加權(quán)和：||?||?||?|12????(?,?)=????(?)+????(?)21A的重要性定義為該步分裂前后?(?)=????(?)?????(?,?)???GiniGiniGiniGini指數(shù)增益就越大。對(duì)于單棵決策樹(shù)，特征A的重要性定義為所有按特征A進(jìn)行分裂的節(jié)點(diǎn)，分裂前后Gini指數(shù)增益的和：?(?)=∑?(?)??7對(duì)于XGBoost，特征A的重要性定義為特征A在每棵決策樹(shù)的重要性之和。最后將所有特征的原始特征重要性歸一化，即可得到各個(gè)特征的重要性。信息增益更為常用。結(jié)果模擬因子選股數(shù)據(jù)集的模型特征重要性如下圖所示。X2（效果較好的反向因子）重要性相對(duì)最高，其次是X1（效果一般的正向因X4（無(wú)效因子）重要性相對(duì)最低。圖表：模擬因子選股數(shù)據(jù)集的XGBoost模型特征重要性0.80.60.120.05資料來(lái)源：XXXX市場(chǎng)研究部因子對(duì)模型輸出影響的具體情況。ICE和PDP概念（IndividualConditionalExpectation）和（PartialDependencePlot）的核心思想是考察某項(xiàng)特征的不同取值對(duì)模型輸出值的影響。ICE和PDP的概念接近，常繪制在同一圖表中，前者側(cè)重于單條樣本，后者側(cè)重于全體樣本，是全體樣本的均值。圖表：ICE和示意圖資料來(lái)源：XXXX市場(chǎng)研究部8假設(shè)需要解釋的原模型為f，特征為，標(biāo)簽為，X包含N條樣本和p項(xiàng)特征，那么X的第i條樣本可表示為：?(?)=1,?(?),…,?(?)(?)]2Xj項(xiàng)特征可表示為：?=[?(1),?(2),…,?(?)]????如果將某項(xiàng)特征X全部設(shè)為常數(shù)cXj時(shí)模型的輸出：?′=?(?′)對(duì)取均值即可得Xc條件下的值。對(duì)于不同的常數(shù)，可得不同的值，繪j制隨c變化的曲線，可以刻畫特征j的不同取值對(duì)模型輸出的影響。ICE衡量單條樣本某項(xiàng)特征的不同取值對(duì)模型輸出的影響。對(duì)于第ix的第j項(xiàng)特征為常數(shù)c，記作新的樣本x(i)。此時(shí)模型的輸出：′(?)=?(?′(?))該輸出值即第iX＝c條件下的ICEcICE值，j繪制ICE隨cij是全體樣本ICE的均值。結(jié)果對(duì)于模擬因子選股數(shù)據(jù)集的XGBoost模型，其特征X3對(duì)應(yīng)“上漲”類別輸出的ICE和如下圖所示。其中“：”代表某條屬于“上漲”類別樣本的，橫軸為不同的X3取值，縱軸為模型輸出屬于“上漲”類別的概率。圖表：模擬因子選股數(shù)據(jù)集的XGBoost模型對(duì)應(yīng)“上漲”類別的和1.0ICE:y=1ICE:y=10.8ICE:y=1ICE:y=00.6ICE:y=0ICE:y=0ICE:y=-1ICE:y=-1ICE:y=-1PDP-6-4-20246資料來(lái)源：XXXX市場(chǎng)研究部X3取值對(duì)模型輸出幾UX3取值接近0X3的形態(tài)同樣為倒U模型習(xí)得了X3的非線性特點(diǎn)。對(duì)于模擬因子選股數(shù)據(jù)集的XGBoost模型，其特征X2對(duì)應(yīng)“上漲”類別輸出的ICE和PDP如下圖所示。X2的和PDP形態(tài)均為左高右低，表明XGBoost模型習(xí)得了X2反向因子的特點(diǎn)。9圖表：模擬因子選股數(shù)據(jù)集的XGBoost模型對(duì)應(yīng)“上漲”類別的和1.00.20.0ICE:y=1ICE:y=1ICE:y=1ICE:y=0ICE:y=0ICE:y=0ICE:y=-1ICE:y=-1ICE:y=-1PDP-6-4-20246資料來(lái)源：XXXX市場(chǎng)研究部ICE和的優(yōu)點(diǎn)在于，分別從單條樣本和全體樣本層面展示特征對(duì)模型輸出的影響，從而忽略特征間的相關(guān)性。全局代理：SDT概念（Decision）的核心思想是用單棵決策樹(shù)解釋其它更復(fù)雜的機(jī)器學(xué)個(gè)新的決策樹(shù)模型來(lái)解釋原黑箱模型的輸出。圖表：全局代理示意圖資料來(lái)源：XXXX市場(chǎng)研究部延續(xù)上節(jié)原模型f、標(biāo)簽Y的定義，利用算法?得到原模型f的訓(xùn)練過(guò)程可記作：??:?,?→?該原模型預(yù)測(cè)的結(jié)果記為f(X)，可以利用這個(gè)預(yù)測(cè)結(jié)果重新訓(xùn)練一個(gè)決策樹(shù)模型，來(lái)解釋原模型的輸出：??:?,?(?)→?由此得到的決策樹(shù)模型g即為最終的。結(jié)果模擬因子選股數(shù)據(jù)集的模型策樹(shù)的前三層。圖表：模擬因子選股數(shù)據(jù)集的XGBoost模型可視化展示資料來(lái)源：XXXX市場(chǎng)研究部X2X2≤-0.33X2X2的信噪比總體高于其余特征，第一步依據(jù)X2分裂較為合理。X3X3非線性因子的邏輯相符，X3這一步可以將X3較大的部分樣本篩出歸入“震蕩”類別。X2分裂，X2≤屬于“震蕩”類別；否則歸入右枝，傾向于認(rèn)為屬于“下跌”類別。同樣與X2反向因子的邏輯相符。其余分裂過(guò)程不再作詳細(xì)解讀。的優(yōu)點(diǎn)在于高度直觀。的缺點(diǎn)在于當(dāng)模型高度新的誤差。局部代理：LIME概念LIME（LocalInterpretableModel-agnosticExplanations）的核心思想是對(duì)于每條樣和代理模型時(shí)，使用全體樣本，的代理模型為單棵決策樹(shù)，的代理模型更為豐富，可以是決策樹(shù)、線性回歸、回歸等模型。和也分別屬于全局代理和局部代理。圖表：局部代理示意圖1資料來(lái)源："WhyShouldITrustYou?":ExplainingPredictionsAnyClassifier，XXXX市場(chǎng)研究部的概念相對(duì)復(fù)雜，首先我們以圖示說(shuō)明。下圖引自的原始論文"WhyIExplainingthePredictionsofAnyClassifier，展示了一個(gè)二分類問(wèn)題下的非線性分類器fx希望得到原模型f的一個(gè)代理模型g比f(wàn)x=[x1,x2,x3,x4]，g只使用其中的部分特征xx2,x4]。在該樣本的鄰域隨機(jī)生成一部分新樣本，通過(guò)原模型計(jì)算其預(yù)測(cè)值f(z)，以紅色十字和藍(lán)色圓形表示。我們希望尋找一個(gè)簡(jiǎn)單的分類器，使用包含更少特征的樣本，就能將兩類樣本分開(kāi)，即原模型f的預(yù)測(cè)值f(z)和代理模型g的預(yù)測(cè)值盡可能接近。用公式x－2可以給單條樣本x加上均值為、標(biāo)準(zhǔn)差為定值的高斯噪音，生成一系列新樣本。同時(shí)，隨機(jī)生成的樣本z并非等權(quán)，而是根據(jù)其與x的距離加權(quán)，距離越近權(quán)重π越xx鄰域內(nèi)隨機(jī)生成的一系列樣本，希望下列式子盡可能小：?(?,?,?)=∑?(?)(?(?)??(?′))2???,?′其中L(f,π)代表在π的范圍內(nèi)用gf的不可置信度，即在x的某個(gè)鄰域內(nèi)g與fxx間的差距；Zx鄰域內(nèi)隨機(jī)生成的全部樣本構(gòu)成的集合。更進(jìn)一步，我們希望得到的代理模型g盡可能簡(jiǎn)單。定義(g)作為代理模型g的復(fù)雜度，決策樹(shù)的可以是葉子節(jié)點(diǎn)個(gè)數(shù)，線性回歸的(g)可以是或正則化項(xiàng)，我們希望(g)盡可能小。假設(shè)G是一個(gè)包含許多具有潛在可解釋性模型的集合，我們?cè)贕找滿足L(f,π)和(g)同時(shí)盡可能小的代理模型：x?(?)=??????[?(?,?,?)+?(?)]??∈?當(dāng)G為線性回歸模型構(gòu)成的集合，(g)為g等價(jià)于Lasso???????,?(?)→?此時(shí)Lasso回歸模型記作)=w·Zw為L(zhǎng)asso回歸系數(shù)?？捎傻?marcotcr/lime庫(kù)輸出每項(xiàng)特征及其對(duì)應(yīng)回歸系數(shù)的乘積，即該特征對(duì)于模型輸出的貢獻(xiàn)。圖表：局部代理示意圖2資料來(lái)源：XXXX市場(chǎng)研究部結(jié)果模擬因子選股數(shù)據(jù)集的模型第1如下圖所示。該樣本各特征的由高到低排序?yàn)樾С潭鹊呐判蛳喾?。其中反向因子X(jué)2值較小，X2的值相應(yīng)較高。圖表：模擬因子選股數(shù)據(jù)集的XGBoost模型第1條樣本的(0.20)(0.10)0.0000.400.500.60LIME0.0710.5000.2540.020特征值1.497-1.125-0.207-0.063資料來(lái)源：XXXX市場(chǎng)研究部圖表：模擬因子選股數(shù)據(jù)集的XGBoost模型第條樣本的(0.10)(0.05)0.000.000.250.30LIME-0.0420.0920.241-0.048特征值-0.568-0.399-0.093-1.324資料來(lái)源：XXXX市場(chǎng)研究部模擬因子選股數(shù)據(jù)集的模型第1取值，第條樣本X2一區(qū)別在于正向因子X(jué)1取值，第條樣本X1值相對(duì)更小，同樣不似于“上漲”類別，因此對(duì)應(yīng)值較低。的優(yōu)點(diǎn)在于能夠解釋單條樣本，例如回答機(jī)器學(xué)習(xí)模型為什么預(yù)測(cè)茅臺(tái)會(huì)漲。的缺點(diǎn)在于計(jì)算相對(duì)繁瑣，并且對(duì)于個(gè)別樣本的解釋可能有欠合理。概念Shapley值（Shapley，簡(jiǎn)記為）的概念源于博弈論，核心思想是計(jì)算特征對(duì)模型輸出的邊際貢獻(xiàn)。值的概念較為復(fù)雜，我們先以一個(gè)簡(jiǎn)單案例說(shuō)明。假設(shè)CV({A,B,C})＝獻(xiàn)？首先將工作單獨(dú)分配給、B或C，計(jì)算每個(gè)人的獨(dú)立產(chǎn)出：V({A})=，V({B})=，V({C})=20其次將工作分配給任意兩人，計(jì)算任意兩個(gè)人的聯(lián)合產(chǎn)出：V({A,B})=40，V({A,C})=30，V({B,C})=假設(shè)三人合作時(shí)按C的順序，我們可以計(jì)算三個(gè)各自的邊際貢獻(xiàn)。第一個(gè)人A的邊際貢獻(xiàn)為＝B的邊際貢獻(xiàn)為－V({A})＝－＝個(gè)人C的邊際貢獻(xiàn)為V({A,B,C})－V({A,B})＝－＝C所在的行。C是三人合作的可能順序之一，可以計(jì)算所有可能順序下，三人各自的邊際貢獻(xiàn)。SHAPB的邊際貢獻(xiàn)最高，值為，A的邊際貢獻(xiàn)最低，值為。圖表：值簡(jiǎn)單案例順序A10B30C60ABCABBACBACBCA合計(jì)107020301060401050207010405010150252404021035SHAP資料來(lái)源：XXXX市場(chǎng)研究部下面介紹Ni的重要性。定義集合S為N的一個(gè)不包含i的子集，即：???且???。特征Xf、模型輸出f(X)沿用之前的定義。定義特征i的邊際貢獻(xiàn)：?(?)=?(??{?})??(?)???其中f代表以特征集合S為輸入時(shí)，原模型f輸出的期望：X?(?)=?[?(?)|?]??此時(shí)，特征i的值為：?=1|?|!∑?(?(?))(???????其中?為N的全排列集合；對(duì)于某個(gè)具體排列的R，在特征i之前的其它特征的排列記為S(R)；對(duì)每一種排列S(R)i的邊際貢獻(xiàn)，全排列共有|N|!種，對(duì)全部|N|!個(gè)邊際貢獻(xiàn)ii求均值，最終得到特征i的SHAP值。下表展示了當(dāng)特征為X1X3和X4X3X1~X4的全排列共有4!=24種，每行代表可能的排列方式，最右側(cè)一列代表該排列方式下X3的邊際貢獻(xiàn)。X3的值為最右側(cè)一列的加權(quán)平均，權(quán)重為第2列排列個(gè)數(shù)：1?3=(6??(?)+2??({?1})+2??({?2})+2??({?4})+2??({?1,+2??({?1,?4})+2??({?2,?4})+6??({?1,?4}))圖表：值計(jì)算實(shí)例（四項(xiàng)特征，計(jì)算的值）X1~X4排列排列個(gè)數(shù)：i之前的特征{i}：計(jì)算重要性的特征N\S\{i}：i之后的特征?i(S)：特征i的邊際貢獻(xiàn)3124,3142,3214,3241,3412,34211324,13426?f({X1})-f(?)XX2222226f–f({X1})XX2314,2341f–f({X2})XX4312,4321f–f({X4})XX1234,2134f–fXX1432,4132f–fXX2431,4231f–fXX1243,1423,2143,2413,4123,4213?f–fXX資料來(lái)源：XXXX市場(chǎng)研究部SHAP值還可以按下面的簡(jiǎn)化方式定義：|?|!?|?|?1)!?=?∑[?(??{?})??(?)]???!???\{?}N項(xiàng)特征的某種排列，總是可以劃分為三部分：i之前的特征集合，特征，i的其余特征。模型輸出值f(S)與f(S∪{i})不受排列順序影響，因此可將i之前的項(xiàng)特XX征全排列得到種結(jié)果，i之后的(N-|S|-1)!項(xiàng)特征全排列得到(N-|S|-1)!種結(jié)果。將|S|!(N-|S|-1)!可由的shap庫(kù)實(shí)現(xiàn)（/slundberg/shap結(jié)果對(duì)于模擬因子選股數(shù)據(jù)集的XGBoost模型，各因子對(duì)應(yīng)“上漲”類別的絕對(duì)值的均值如下圖所示。|SHAP|反映了該因子的重要性，從高到低分別為：X2（效果較好的反X1圖表：模擬因子選股數(shù)據(jù)集的XGBoost模型“上漲”類別的均值資料來(lái)源：XXXX市場(chǎng)研究部SHAPSHAPSHAP子對(duì)于將該樣本識(shí)別為“上漲”具有負(fù)向影響。圖表：模擬因子選股數(shù)據(jù)集的XGBoost模型“上漲”類別的各樣本值資料來(lái)源：XXXX市場(chǎng)研究部X2X2X1X1因子值越大，更可能識(shí)別為“上漲”類別。XGBoost模型習(xí)得了X1的正向特點(diǎn)和X2的反向特點(diǎn)。X3X3因子值較高或較低X3XGBoost模型習(xí)得了X3的非線性特點(diǎn)。X4對(duì)應(yīng)橫軸位置集中在0附近，表明X4因子值對(duì)模型輸出影響較弱，XGBoost模型識(shí)別出了無(wú)效因子。我們還可以繪制每個(gè)因子的SHAP值相關(guān)性最低的另一個(gè)因子值。、X2、X3的值分別呈現(xiàn)遞增、遞減、倒U型的形態(tài)，均與它們各自的邏輯相符。另外，X2X2的X3居中的樣本）在縱軸的分布相對(duì)于紅色和藍(lán)色點(diǎn)更寬。這表明當(dāng)X3X2對(duì)模型判斷樣本是否屬于“上漲”類別的邊際貢獻(xiàn)更大；當(dāng)X3較大或較小時(shí)，X2的邊際貢獻(xiàn)相對(duì)較小，由此展示X2和X3的交互作用。圖表：模擬數(shù)據(jù)集的XGBoost模型“上漲”類別的值圖表：模擬數(shù)據(jù)集的XGBoost模型“上漲”類別的值資料來(lái)源：XXXX市場(chǎng)研究部資料來(lái)源：XXXX市場(chǎng)研究部圖表：模擬數(shù)據(jù)集的XGBoost模型“上漲”類別的值圖表：模擬數(shù)據(jù)集的XGBoost模型“上漲”類別的值資料來(lái)源：XXXX市場(chǎng)研究部資料來(lái)源：XXXX市場(chǎng)研究部SHAP值可能是更好的機(jī)器學(xué)習(xí)模型解釋工具。法，還有其它適用的解釋工具。例如在華泰金工《人工智能：市場(chǎng)弱有效性檢驗(yàn)與擇時(shí)戰(zhàn)場(chǎng)選擇（）中，我們介紹了解釋神經(jīng)網(wǎng)絡(luò)模型的兩種方法：中間層激活的可視化，類激活熱力圖的可視化（如Grad-CAM六種方法中，除特征重要性外，、、SDT、和SHAP適用于絕大多數(shù)監(jiān)督學(xué)習(xí)模型。揭開(kāi)XGBoost選股模型的“黑箱”本章以華泰XGBoostXGBoost選股模型XGBoost選股模型（月調(diào)倉(cāng)，全A選股，中證行業(yè)市值中性）為指數(shù)增強(qiáng)策略，基準(zhǔn)為中證該模型年化超額收益12.53%，年化跟蹤誤差，信息比率。年該模型超額收益3.59%，跟蹤誤差5.34%，信息比率0.67（由于模型為月初調(diào)倉(cāng)，收益區(qū)間取20190102~20200102月頻調(diào)倉(cāng)模型在XGBoost華泰金工研究報(bào)告《機(jī)器學(xué)習(xí)選股模型的調(diào)倉(cāng)頻率實(shí)證（20200105考察月頻調(diào)倉(cāng)模型。圖表：XGBoost選股模型凈值（月調(diào)倉(cāng)，全A選股500中性）圖表：XGBoost選股累計(jì)超額收益（月調(diào)倉(cāng)，全A選股500中性）5432103.5XGBoost中證500單位：倍單位：倍XGBoost累計(jì)超額收益3.02.52.01.51.00.5Wind，XXXX市場(chǎng)研究部；回測(cè)期：20110201~20200203資料來(lái)源：XXXX市場(chǎng)研究部；回測(cè)期：20110201~20200203XGBoost選股模型的構(gòu)建包含如下步驟：圖表：人工智能選股模型測(cè)試流程示意圖滾動(dòng)訓(xùn)練集和驗(yàn)證集合成數(shù)據(jù)獲取模型評(píng)價(jià)特征和標(biāo)簽提取特征預(yù)處理交叉驗(yàn)證調(diào)參樣本外測(cè)試樣本內(nèi)訓(xùn)練資料來(lái)源：XXXX市場(chǎng)研究部．?dāng)?shù)據(jù)獲?。篈上市3個(gè)月內(nèi)的股票，每只股票視作一個(gè)樣本?；販y(cè)區(qū)間：年2月1日至年2月3．特征和標(biāo)簽提?。好總€(gè)自然月的最后一個(gè)交易日，計(jì)算個(gè)因子暴露度，作為樣本的原始特征。因子池如下表所示，因子按下表進(jìn)行方向調(diào)整。計(jì)算下一整個(gè)自然月的個(gè)股超額收益（以滬深的股票作為正例（y=1的股票作為負(fù)例（y=圖表：選股模型中涉及的全部因子及其描述大類因子具體因子因子描述因子方向估值估值估值估值估值估值估值估值成長(zhǎng)成長(zhǎng)成長(zhǎng)成長(zhǎng)EP凈利潤(rùn)（）總市值11EPcutBP扣除非經(jīng)常性損益后凈利潤(rùn)（）總市值凈資產(chǎn)總市值1SP營(yíng)業(yè)收入（）總市值1NCFPOCFPDP凈現(xiàn)金流（）總市值1經(jīng)營(yíng)性現(xiàn)金流（）總市值近12個(gè)月現(xiàn)金紅利（按除息日計(jì)）總市值凈利潤(rùn)（）同比增長(zhǎng)率/PE_TTM營(yíng)業(yè)收入（最新財(cái)報(bào)，）同比增長(zhǎng)率凈利潤(rùn)（最新財(cái)報(bào)，）同比增長(zhǎng)率經(jīng)營(yíng)性現(xiàn)金流（最新財(cái)報(bào)，）同比增長(zhǎng)率ROE（最新財(cái)報(bào)，）同比增長(zhǎng)率ROE（最新財(cái)報(bào)，）11G/PE1Sales_G_qProfit_G_qOCF_G_qROE_G_q1111財(cái)務(wù)質(zhì)量ROE_q1財(cái)務(wù)質(zhì)量ROE_ttmROE（最新財(cái)報(bào)，）1財(cái)務(wù)質(zhì)量ROA_qROA（最新財(cái)報(bào)，）1財(cái)務(wù)質(zhì)量ROA_ttmROA（最新財(cái)報(bào)，）1財(cái)務(wù)質(zhì)量grossprofitmargin_q財(cái)務(wù)質(zhì)量grossprofitmargin_ttm財(cái)務(wù)質(zhì)量profitmargin_q財(cái)務(wù)質(zhì)量profitmargin_ttm財(cái)務(wù)質(zhì)量assetturnover_q財(cái)務(wù)質(zhì)量assetturnover_ttm財(cái)務(wù)質(zhì)量operationcashflowratio_q毛利率（最新財(cái)報(bào)，）1毛利率（最新財(cái)報(bào)，）1扣除非經(jīng)常性損益后凈利潤(rùn)率（最新財(cái)報(bào)，）扣除非經(jīng)常性損益后凈利潤(rùn)率（最新財(cái)報(bào)，）資產(chǎn)周轉(zhuǎn)率（最新財(cái)報(bào)，YTD）資產(chǎn)周轉(zhuǎn)率（最新財(cái)報(bào)，）經(jīng)營(yíng)性現(xiàn)金流凈利潤(rùn)（最新財(cái)報(bào)，YTD）11111財(cái)務(wù)質(zhì)量operationcashflowratio_ttm經(jīng)營(yíng)性現(xiàn)金流凈利潤(rùn)（最新財(cái)報(bào)，TTM）1杠桿杠桿杠桿杠桿市值financial_leveragedebtequityratiocashratio總資產(chǎn)凈資產(chǎn)-1-11非流動(dòng)負(fù)債凈資產(chǎn)現(xiàn)金比率currentratio流動(dòng)比率1ln_capital總市值取對(duì)數(shù)-1-1-1-1動(dòng)量反轉(zhuǎn)HAlpha個(gè)股60個(gè)月收益與上證綜指回歸的截距項(xiàng)個(gè)股最近N個(gè)月收益率，，，，12個(gè)股最近N個(gè)月內(nèi)用每日換手率乘以每日收益率求算術(shù)平均值，，，，12動(dòng)量反轉(zhuǎn)return_Nm動(dòng)量反轉(zhuǎn)wgt_return_Nm動(dòng)量反轉(zhuǎn)exp_wgt_return_Nm個(gè)股最近N個(gè)月內(nèi)用每日換手率乘以函數(shù)exp(-x_i/N/4)再乘以每日收益率求算術(shù)平均值，為該日距離截面日的交易日的個(gè)數(shù)，，，，12-1-1波動(dòng)率std_FF3factor_Nm特質(zhì)波動(dòng)率——個(gè)股最近N個(gè)月內(nèi)用日頻收益率對(duì)FamaFrench三因子回歸的殘差的標(biāo)準(zhǔn)差，，，，12個(gè)股最近N個(gè)月的日收益率序列標(biāo)準(zhǔn)差，，，，12股價(jià)取對(duì)數(shù)波動(dòng)率股價(jià)std_Nmln_pricebeta-1-1-1beta個(gè)股60個(gè)月收益與上證綜指回歸的beta換手率turn_Nm個(gè)股最近NN=1，，，12-1換手率bias_turn_Nm個(gè)股最近N個(gè)月內(nèi)日均換手率除以最近2除停牌、漲跌停的交易日）再減去1，，，，12評(píng)級(jí)的平均值-1情緒情緒情緒股東技術(shù)技術(shù)技術(shù)技術(shù)技術(shù)技術(shù)rating_average11rating_change評(píng)級(jí)（上調(diào)家數(shù)下調(diào)家數(shù)）總數(shù)一致目標(biāo)價(jià)現(xiàn)價(jià)-1rating_targetprice1holder_avgpctchange戶均持股比例的同比增長(zhǎng)率1MACDDEADIF-1-1-1-1-1-1經(jīng)典技術(shù)指標(biāo)（釋義可參考百度百科），長(zhǎng)周期取30周期取10日，計(jì)算均線的周期（中周期）取15日RSI經(jīng)典技術(shù)指標(biāo)，周期取20日經(jīng)典技術(shù)指標(biāo)，周期取20日經(jīng)典技術(shù)指標(biāo)，周期取20日PSYBIASWind，XXXX市場(chǎng)研究部．特征預(yù)處理：中位數(shù)去極值：設(shè)第T期某因子在所有個(gè)股上的暴露度序列為?，?為該序列??中位數(shù)，?1為序列??|的中位數(shù)，則將序列?中所有大于?+?1的數(shù)????重設(shè)為?+?1，將序列?中所有小于???1的數(shù)重設(shè)為???1；??級(jí)行業(yè)相同個(gè)股的平均值；c)值中性；標(biāo)準(zhǔn)化：將中性化處理后的因子暴露度序列減去其現(xiàn)在的均值、除以其標(biāo)準(zhǔn)差，得到一個(gè)新的近似服從N(0,1)分布的序列。．滾動(dòng)訓(xùn)練集和驗(yàn)證集的合成：采用年度滾動(dòng)訓(xùn)練方式，全體樣本內(nèi)外數(shù)據(jù)共分為9個(gè)階段，如下表所示。例如預(yù)測(cè)年時(shí)，將2005~2010年共個(gè)月數(shù)據(jù)合并作為樣本內(nèi)數(shù)據(jù)集；預(yù)測(cè)T年時(shí)，將至年的個(gè)月合并作為樣本內(nèi)數(shù)據(jù)。根據(jù)分組時(shí)序交叉驗(yàn)證劃分訓(xùn)練集和測(cè)試集，每次訓(xùn)練集長(zhǎng)度均為6個(gè)月的整數(shù)倍，驗(yàn)證集長(zhǎng)度均等于6個(gè)月。圖表：年度滾動(dòng)訓(xùn)練示意圖資料來(lái)源：XXXX市場(chǎng)研究部．樣本內(nèi)訓(xùn)練：使用XGBoost模型對(duì)訓(xùn)練集進(jìn)行訓(xùn)練。．交叉驗(yàn)證調(diào)參：對(duì)全部超參數(shù)組合進(jìn)行網(wǎng)格搜索，選擇驗(yàn)證集平均最高的一組超參數(shù)作為模型最終的超參數(shù)。超參數(shù)設(shè)置和最優(yōu)參數(shù)如下表所示。圖表：XGBoost選股模型和超參數(shù)基學(xué)習(xí)器超參數(shù)20110.05520120.025520130.075320140.025520150.05320160.075320170.025520180.05320190.053XGBoost學(xué)習(xí)速率（learning_rate）最大樹(shù)深度（max_depth）行采樣比例（subsample）0.90.850.8Wind，XXXX市場(chǎng)研究部．T月末截面期所有樣本預(yù)處理后的特征作為模型IC法和分層回測(cè)法進(jìn)行單因子測(cè)試。．等衡量模型性能的指標(biāo)；單因子測(cè)試得到的統(tǒng)計(jì)指標(biāo)和回測(cè)績(jī)效。ln_capital動(dòng)量反轉(zhuǎn)、波動(dòng)率、股價(jià)、、換手率、技術(shù)因子均為反向因子。下面我們將針對(duì)以年為訓(xùn)練和驗(yàn)證集、年為測(cè)試集的模型（以下簡(jiǎn)稱年的預(yù)測(cè)（年1月末月末截面期）進(jìn)行分析。特征重要性下表展示XGBoost年模型個(gè)因子的特征重要性。前個(gè)因子特征重要性之和為量因子為主導(dǎo)。前3名均為反轉(zhuǎn)因子，第、8名為換手率因子，第、名為波動(dòng)率因子，第6名為市值因子，第7名屬估值因子，第9名為分析師情緒因子。排名靠后的因子主要包括：rsi技術(shù)因子、financial_leverage杠桿因子、財(cái)務(wù)質(zhì)量類因子以及std_FF3factor_6m殘差波動(dòng)率因子?？偟膩?lái)看，價(jià)量類因子的特征重要性高于基本面類因子。圖表：XGBoost選股2019年模型特征重要性排名因子特征重要性0.1330.0830.0770.0410.0380.0230.0220.0200.0190.0180.0180.0170.0170.0160.0160.0160.0150.0150.0140.0140.0130.0130.0130.013排名因子bias_turn_12m特征重要性0.0130.0120.0120.0120.0120.0120.0110.0110.0110.0110.0100.0100.0100.0100.0090.0090.0090.0090.0080.0080.0080.0080.0080.008排名49505152535455565758596061626364656667686970因子特征重要性0.0080.0080.0070.0070.0060.0060.0060.0060.0060.0050.0040.0030.00201exp_wgt_return_6m252627282930313233343536373839404142434445464748return_12mreturn_3m2exp_wgt_return_3mwgt_return_1mturn_1mOCFP3turn_12mBPOCF_G_q4return_6m5std_FF3factor_3mln_capitalrating_averageDPprofitmargin_qSP67EPstd_6mcashratio8bias_turn_1mrating_changestd_FF3factor_12mstd_12mturn_3mcurrentratio9HAlphastd_1m101112131415161718192021222324biaspsySales_G_qbias_turn_3mbetaROE_ttmexp_wgt_return_12mProfit_G_qwgt_return_3mexp_wgt_return_1mstd_FF3factor_1mturn_6mln_pricestd_FF3factor_6mROA_ttmG/PENCFPgrossprofitmargin_qgrossprofitmargin_ttmassetturnover_qassetturnover_ttmoperationcashflowratio_qoperationcashflowratio_ttmfinancial_leveragersi0dea0wgt_return_12mholder_avgpctchangereturn_1mwgt_return_6mprofitmargin_ttmrating_targetpricebias_turn_6mdebtequityratio0EPcut0macd0ROA_q0ROE_q0ROE_G_q0std_3mdifWind，XXXX市場(chǎng)研究部PDP下表展示XGBoost年模型5個(gè)因子的。選取這5個(gè)因子的原因是前4個(gè)因子的值排名所有因子前4部分將介紹5個(gè)macd因子的非線性特征最為顯著。由下表知，、exp_wgt_return_6m、wgt_return_1m、的均ln_capital市值因子的0時(shí)，上漲概率為。換言之，模型高度偏好小市值個(gè)股。同時(shí)，觀察到macd因子的呈現(xiàn)倒Umacd因子較小或較大時(shí)，個(gè)股上漲概率約為macd因子在±型捕捉了macd因子的非線性邏輯，XGBoost模型偏好macd值中等的個(gè)股。本章后續(xù)SHAP部分將對(duì)此展開(kāi)討論。圖表：XGBoost選股2019年模型5個(gè)因子5個(gè)因子PDPln_capitalwgt_return_1mmacdexp_wgt_return_6mbias_turn_1m0.600.580.560.540.520.500.480.460.44(2)(1)(0)12因子值Wind，XXXX市場(chǎng)研究部ICE是全部樣本ICE年14只個(gè)股在上一節(jié)5個(gè)因子上的。選股這4只個(gè)股的理由為，它們分別是股票池內(nèi)預(yù)測(cè)上漲概率最高（002366.SZ益最高（000859.SZ603238.SH，諾邦股份）的個(gè)股。總的來(lái)看，個(gè)股ICE和其均值的形態(tài)接近。ln_capital、exp_wgt_return_6m、wgt_return_1mbias_turn_1m這4個(gè)因子的ICE單調(diào)遞增，macdICE呈倒Uln_capital市值因子對(duì)較為0市值因子為1時(shí)，預(yù)測(cè)上漲概率提升至；當(dāng)市值因子為2時(shí)，預(yù)測(cè)上漲概率提升至70%ln_capital市值因子對(duì)2提升至236%提升至個(gè)因子可能就足以判定該個(gè)股的上漲概率較低。圖表：XGBoost模型2019年1月末截面期ln_capital因子圖表：XGBoost模型2019年1月末exp_wgt_return_6m因子ICE（603031.SH，預(yù)測(cè)最高）ICE（000859.SZ，實(shí)際最高）ICE（603238.SH，實(shí)際最低）ICE（002366.SZ，預(yù)測(cè)最低）PDPICE（603031.SH，預(yù)測(cè)最高）ICE（000859.SZ，實(shí)際最高）ICE（603238.SH，實(shí)際最低）ICE（002366.SZ，預(yù)測(cè)最低）PDP0.30.2(2)(1)(0)12(2)(1)(0)12ln_capital因子值exp_wgt_return_6m因子值Wind，XXXX市場(chǎng)研究部Wind，XXXX市場(chǎng)研究部圖表：XGBoost模型2019年1月末截面期wgt_return_1m因子圖表：XGBoost模型2019年1月末截面期bias_turn_1m因子ICE（603031.SH，預(yù)測(cè)最高）ICE（000859.SZ，實(shí)際最高）ICE（603238.SH，實(shí)際最低）ICE（603031.SH，預(yù)測(cè)最高）ICE（000859.SZ，實(shí)際最高）ICE（603238.SH，實(shí)際最低）0.2ICE（002366.SZ，預(yù)測(cè)最低）PDP0.2ICE（002366.SZ，預(yù)測(cè)最低）PDP(2)(1)(0)12(2)(1)(0)12wgt_return_1m因子值bias_turn_1m因子值Wind，XXXX市場(chǎng)研究部Wind，XXXX市場(chǎng)研究部下圖展示macd因子的個(gè)股603031.SH000859.SZ的ICE形態(tài)和接近，整體呈現(xiàn)倒U603238.SH002366.SZ的ICEXGBoost模型對(duì)這兩只個(gè)股進(jìn)行判斷時(shí)，可能較少參考macd因子。圖表：XGBoost模型2019年1月末截面期macd因子ICE（603031.SH，預(yù)測(cè)最高）ICE（603238.SH，實(shí)際最低）PDPICE（000859.SZ，實(shí)際最高）ICE（002366.SZ，預(yù)測(cè)最低）0.2(2)(1)(0)12macd因子值Wind，XXXX市場(chǎng)研究部全局代理：SDTXGBoost年模型可視化展示如下圖，簡(jiǎn)單起見(jiàn)我們僅展示決策樹(shù)的前4層。在根節(jié)點(diǎn)位置，模型首先根據(jù)exp_wgt_return_6m反轉(zhuǎn)因子（前述特征重要性最高2高的層右側(cè)葉子節(jié)點(diǎn)，模型根據(jù)std_6m圖表：XGBoost選股2019年模型可視化展示資料來(lái)源：XXXX市場(chǎng)研究部展示的重要因子還包括：EPcut、ln_capital、std_FF3factor_3m、bias_turn_1m、turn_1mstd_1m難以讀出因子的非線性邏輯。局部代理：LIME我們以年1月末截面期為例，展示4只個(gè)股最大的前個(gè)因子其因子值和LIME。值為XGBoost該個(gè)股下月更可能上漲。價(jià)量因子整體為正向貢獻(xiàn)，表明模型根據(jù)“歷史跌幅模型根據(jù)基本面信息判斷該個(gè)股下月更可能下跌。綜合全部個(gè)因子的貢獻(xiàn)，預(yù)測(cè)該個(gè)股下月上漲概率為。圖表：XGBoost選股模型年1月末截面期預(yù)測(cè)上漲概率最高個(gè)股最大的前個(gè)因子603031.SH安德利2019年1月末截面期預(yù)測(cè)上漲概率70.3%實(shí)際下月超額收益（基準(zhǔn)為中證500）-3.9%macdProfit_G_qexp_wgt_return_3mbias_turn_1mwgt_return_1mG/PErating_changestd_FF3factor_3mexp_wgt_return_6mln_capital(0.02)0.000.020.040.06exp_wgt_return_3m0.08exp_wgstd_FFt_return3factor_6mln_capitalrating_changewgt_retbias_tururn_1mn_1mProfit_G_qG/PEmacd_3mLIME0.0600.0150.0130.011-0.0100.0090.0080.007-0.0070.007因子值1.5751.5071.296-0.056-1.1690.4330.9620.550-0.956-0.488Wind，XXXX市場(chǎng)研究部圖表：XGBoost選股模型年1月末截面期預(yù)測(cè)上漲概率最低個(gè)股最大的前個(gè)因子002366.SZ臺(tái)海核電2019年1月末截面期預(yù)測(cè)上漲概率24.6%實(shí)際下月超額收益（基準(zhǔn)為中證500）0.2%bias_turn_12mSales_G_qexp_wgt_return_3mstd_12mexp_wgt_return_1mturn_1mbias_turn_1mexp_wgt_return_6mln_capitalwgt_return_1m(0.04)(0.03)(0.02)(0.01)0.000.010.02exp_wgt_return_6mexp_wgt_return_1mexp_wgt_return_3mwgt_retln_capiturn_1malbias_turturn_1std_12mSales_bias_turG_qn_12mn_1mmLIME-0.030-0.027-0.024-0.021-0.017-0.013-0.013-0.013-0.012-0.011因子值-1.705-1.302-1.928-1.045-1.617-2.307-1.339-2.036-2.214-2.222Wind，XXXX市場(chǎng)研究部002366.SZ|LIME|最大的前XGBoost圖表：XGBoost選股模型年2月實(shí)際超額收益最高個(gè)股在1月末截面期最大的前10個(gè)因子000859.SZ國(guó)風(fēng)塑業(yè)2019年1月末截面期預(yù)測(cè)上漲概率53.7%實(shí)際下月超額收益（基準(zhǔn)為中證500）129.2%bias_turn_12mProfit_G_qbias_turn_1mmacdstd_12mln_capitalROE_qturn_1mstd_FF3factor_3mexp_wgt_return_1m(0.020)(0.015)(0.010)(0.005)0.0000.0050.0100.0150.020exp_wgstd_FFt_return3factor_1m_3mturn_1mln_capitstd_12bias_turProfit_bias_turROE_qmacdalmn_1mG_qn_12mLIME-0.0160.0140.010-0.009-0.0090.0090.0090.0080.0080.007因子值-0.7041.2051.047-1.3690.6191.439-0.1250.3342.2941.187Wind，XXXX市場(chǎng)研究部國(guó)風(fēng)塑業(yè)（000859.SZ）是股票池內(nèi)實(shí)際下月超額收益最高的個(gè)股。然而XGBoost模型預(yù)測(cè)其上漲概率不高，僅為exp_wgt_return_1mln_captial三個(gè)ROE年2可能更多源于概念炒作，難以用因子模型解釋。XGBoost模型的判斷及依據(jù)似乎無(wú)不妥。圖表：XGBoost選股模型年2月實(shí)際超額收益最低個(gè)股在1月末截面期最大的前10個(gè)因子603238.SH諾邦股份2019年1月末截面期預(yù)測(cè)上漲概率35.8%實(shí)際下月超額收益（基準(zhǔn)為中證500）-31.4%wgt_return_3mmacdProfit_G_qln_capitalexp_wgt_return_3mexp_wgt_return_1mturn_1mbias_turn_1mexp_wgt_return_6mwgt_return_1m(0.04)(0.03)(0.02)(0.01)0.000.010.02exp_wgt_return_6mexp_wgexp_wgt_returnt_returnwgt_return_1mbias_turturn_1ln_capitProfit_wgt_return_3mmacdn_1mmalG_q_1m_3mLIME-0.031-0.024-0.020-0.018-0.015-0.013-0.0090.0080.007-0.007因子值-2.169-2.142-0.525-2.317-2.615-2.3400.4040.739-0.526-1.958Wind，XXXX市場(chǎng)研究部XGBoost模型預(yù)測(cè)的上漲概率XGBoost年月及年1年2月的下跌可以解讀為強(qiáng)勢(shì)股補(bǔ)跌。這里XGBoost模型的判斷及依據(jù)較為合理。下面兩張表分別展示XGBoost年模型的均值和值。從左下圖的|SHAP|均值排名來(lái)看，XGBoost模型輸出2至第78為macd技術(shù)因子，第9為std_12m波動(dòng)率因子，第為rating_change分析師情緒因子。排名靠后的因子包括：ln_price股價(jià)因子、市銷率因子、std_FF3factor_6m殘差波動(dòng)率因子、財(cái)務(wù)質(zhì)量類因子、currentratio杠桿因子以及psy技術(shù)因子?？偟膩?lái)看，價(jià)量類因子的值高于基本面類因子。樹(shù)分裂過(guò)程中的信息增益，SHAP值側(cè)重于特征對(duì)輸出的邊際貢獻(xiàn)。SHAP表該樣本的因子值。對(duì)于第一行市值因子，基本遵循左藍(lán)右紅的規(guī)律，即因子該個(gè)股上漲的概率越高?？偟膩?lái)看，絕大部分因子的SHAP均為左藍(lán)右紅，但仍存在部分因子為左紅右藍(lán)，表明XGBoost表明XGBoost模型以明顯的非線性邏輯使用該因子。下面我們將選取部分典型因子進(jìn)行詳細(xì)討論。圖表：XGBoost選股2019年模型均值圖表：XGBoost選股2019年模型值Wind，XXXX市場(chǎng)研究部Wind，XXXX市場(chǎng)研究部圖表：XGBoost選股2019年模型ln_capital因子值圖表：XGBoost選股2019年exp_wgt_return_6m因子值Wind，XXXX市場(chǎng)研究部Wind，XXXX市場(chǎng)研究部|SHAP|均值排名前2位的是ln_captial市值因子和exp_wgt_return_6m換手率指數(shù)加權(quán)6因子值，縱軸代表值。顏色代表與該因子值交互作用最強(qiáng)（即相關(guān)系數(shù)絕讀者可以參考論文Consistentindividualizedfeatureattributiontreeensembles。左上圖ln_capital市值因子整體呈現(xiàn)左低右高的正相關(guān)關(guān)系，因子值越大值越大。這表明XGBoost模型的判斷準(zhǔn)則之一是個(gè)股市值越小預(yù)測(cè)下月上漲概率越高。然而市值和上漲概率之間并非線性正相關(guān)。當(dāng)因子值大于時(shí)，實(shí)際能觀察到微弱的負(fù)相關(guān)，換言之，當(dāng)個(gè)股市值非常小時(shí)，XGBoost模型將調(diào)低對(duì)于上漲概率的預(yù)測(cè)。同樣地，觀察到當(dāng)ln_capital因子值在-3左右時(shí)，值為正，圖像上表現(xiàn)為一處“凸

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2020年人工智能行業(yè)分析報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

2020年人工智能行業(yè)分析報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔