新聞輿情分析的HAN網(wǎng)絡選股_第1頁
新聞輿情分析的HAN網(wǎng)絡選股_第2頁
新聞輿情分析的HAN網(wǎng)絡選股_第3頁
新聞輿情分析的HAN網(wǎng)絡選股_第4頁
新聞輿情分析的HAN網(wǎng)絡選股_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

研究背景另類數(shù)據(jù)是指傳統(tǒng)的價量、財務數(shù)據(jù)以外,能夠為投資者提供增量信息的數(shù)據(jù),比如新聞輿情析師報市公司EG數(shù)等與統(tǒng)的最大別在另數(shù)據(jù)多非結(jié)構化、來源多樣,且數(shù)據(jù)源的收集較為困難。人工智能方法是對另類數(shù)據(jù)進行分析的有效手段,華泰金工人工智能系列已經(jīng)有三篇對另類數(shù)據(jù)挖掘的相關研究,分別為《人工智能:輿因和ET感分模型(《人智能基于ET的分析師研情感子()及《工能:本ED選策略(分別對情文和分師研文本行了同角的掘本是本挖的第篇報告?zhèn)鹘y(tǒng)對新聞情的掘大停留單條本的理例如我在本ED選策略的構建過程當中對每位分析師的業(yè)績點評進行單獨處理,而沒有考慮到不同分析師的觀點可能帶來不同響以如何合不的觀與我閱讀分師點的直經(jīng)驗相符大多數(shù)情況下我們會閱讀不同分析師、不同時間的點評,并認為某些點評是重要的而某些點評相不那重要以此成對股的體理。新聞輿情的解讀與此類似,某段時間內(nèi)與同一只個股相關的所有新聞中,并非所有新聞都有關鍵性影響,例如投資者對于新聞發(fā)布的市場當天漲跌幅數(shù)據(jù)并不那么關注,因為他們從行情軟件中早已獲知相關信息且該信息只能表征過去,但投資者會格外關注分析師對個股的解以及市觀類高噪比新聞其接來的投行為能具決定影響不學順文絡(ydAtintrk在深0:AN網(wǎng)絡結(jié)構重點其中注意模塊行解;N應用于A股市的實在滬深0股票內(nèi)對N日頻因進行效性析,嘗試構有效選股略;對不同塊的意力制進空白照實;對不同塊的意力制進解讀。HN混合注意力機制網(wǎng)絡原理模型思想面對紛復雜股票聞輿人會根順序容(Stiltxtcy)和多樣影(vreIflc兩原形對票趨勢認第于單新聞蘊含的信息并不充足,人們往往會詳盡地閱讀近期與某家公司相關的所有新聞,進行更為可信的價格趨勢預測,這就是順序內(nèi)容依賴。第二,不同新聞甚至不同詞語提供的信息不盡相同造成股票測“樣化響如比于簡陳述去市表現(xiàn)名分析師未來勢的評會得更參考值“增“中標“持“增等噪比詞比“““間”低信比詞更吸引投者的意。Ziiuu等()提的混注力機網(wǎng)絡(ydAttintrk,A)模仿人認知聞的兩大則對聞輿進行習為了模多樣影響,N在網(wǎng)絡結(jié)構的前半部分引入了詞語和新聞層面的注意力機制,對不同的詞語和新聞賦予相應的權重由絡自學習重分更效地據(jù)不新聞有效性提取聞文中的息為了形順序容依,N在網(wǎng)絡結(jié)構的后半部運用了雙向循環(huán)經(jīng)網(wǎng)絡適用于處理新聞時間序列數(shù)據(jù),并進一步通過時間層面的注意力機制,對每個日期的新聞賦予不同的權重,從而實現(xiàn)對所有數(shù)據(jù)的整合,最終輸出對股票趨勢的預測。接下來我們將詳細介紹N絡的理及中蘊的思。模型結(jié)構AN模型的原完整構如圖表1所括詞Wrdmi語注力機制新聞意力制雙向控循單(G時注意力制及層感(MP值得一提的是,原論文中只有新聞和時間層次的注意力機制,但我們認為不同詞語在新聞解讀的程中要性是千萬別此增了詞層次的意力制如圖表2所示我們將網(wǎng)絡各個塊進解讀。圖表:HAN網(wǎng)絡結(jié)構(原論文版):stigoCticWisrs:ADprigFrwrkrNwsritdtckTrdrictin,圖表:HAN網(wǎng)絡結(jié)構(增加詞語注意力機制):stigoCticWisrs:ADprigFrwrkrNwsritdtckTrdrictin,首先界定本文的任務目標:作為混合注意力機制網(wǎng)絡的初探報告,我們借鑒了原論文的做法,以頻股漲跌作為N絡的測標。對第t個交易的股票我們要利用過去N個自日中該股相關新聞[t-,t-+,...,t-]來測該票的~+1日收,該收益以用頻開價或交均來衡假每個然日與股票S有關新聞有L則,t=[t,t,..,t];則聞有M個詞,ti=[i,i2,...,iM]。詞嵌入作為非結(jié)構化數(shù)據(jù),新聞文本需要經(jīng)過一定的預處理,才能輸入神經(jīng)網(wǎng)絡模型。最簡單的處理是-t編碼向的每維度應一詞語“華泰券可表示[[,,,],[,,,],[,,,],[,,,]。樣的足是如果想覆蓋有的匯,量的維度將特別大,占據(jù)較高存儲空間,且難以表征詞語之間的相似性。詞嵌入是一種更好的向量化方式,它基于文本中的上下文位置進行訓練,既能構建出更低維度的向量,也能保留詞語間的似性。常見的嵌入有Si-rm和W它的基思想是詞匯中的個詞可以表示為定維的向有量的本作預訓語文本的每位置t上一個心詞語c和上文詞語據(jù)詞量計算c和o的似度到給定c條件下o出的概Si-rm或給定o條件下c出現(xiàn)概BW不斷整詞使概率最大。下面以Si-rm例,紹算的原。對中心語和上文詞,各一套向化的方式v和比中心詞語c表為向量v下文詞語o可表為向量給定c條件下o出現(xiàn)的率為???? ?????????? ??????)=????∑??????(??????)????預訓練本中位置=,,…,T,定中詞語t,預測窗大小為m上下詞語現(xiàn)的概為目標函數(shù)J(定義

??????)=∏ ∏ ????????;??)??1?≤??≤,??0??1 1????)=?????????)=???∑ ∑ ??????????;??)??1?≤??≤,??0概率()最大,即標函數(shù)J(最小??蛇^梯下降法隨機度下法等法代,獲最優(yōu)詞向參數(shù)。在實際作中我們先借助Ptn中的jia庫,段落切成有義的字和語比如“中國鐵建財務公司落地首筆國債逆回購”切分后變?yōu)椤爸袊鴟鐵建|財務|公司|落地|首筆|國債|逆|回購;之后,用北京師大學和中民大學研究者源的中文訓練詞向量iWr-tr,將切的每詞語化為0維的向量。為了檢驗預訓練詞向量能否反映詞語之間的相似性,我們做了一些測試。首先,根據(jù)詞向量的余弦值可以計算詞語之間的相似度,從而挑選出與測試詞語最為接近的詞語。比如,輸入復旦學,會“北大學“京大武漢大上交通學是最為相似詞其北京學復旦相度為.廣州會出“天河區(qū)“越秀“番禺“花都“海珠區(qū)”等廣州市內(nèi)的縣級行政區(qū)劃,其中“天區(qū)”“廣市”相似達.。另通過主分分(P對詞量進行降處理以二維點圖觀地映詞之的關系如“華大“京大學“浙江大學”在散點圖中的位置非常接近,說明這三個詞語含義較為相近,類似的還“京上?!皬V“泰中信“中金通這兩簡單測試,我們發(fā)預訓詞向能夠好地示詞的實含。圖表:詞向量可視化:詞語注意力機制人類在瀏覽文字時,往往不是按部就班地逐字閱讀,而是會聚焦在一些關鍵的詞語和語句上,抽象出重要的信息,形成對文本的理解。借鑒人類的閱讀行為,5年zmtryBu等人對傳統(tǒng)的cr-cr模型加以進出了意力制有效升了機器翻的性。模結(jié)構下圖示,核心于用注意機制建了境向量ci:????=∑??????1其中j表示語的解ij表示j在建語向量ci中的權ij確定要兩步驟,首先是據(jù)cr中前一刻的狀態(tài)i-1及cr中的隱態(tài)j,通對齊型a計算得到ij再由ij進行fmx理后得到ij模型是指翻譯后的本一不是等長的,所以需要一個模型來對齊文本,原文中運用的對齊模型本質(zhì)上也是一個前饋神經(jīng)網(wǎng)能刻畫cr第j個輸入與cr第i個輸出的配程與整翻譯模型中的他參聯(lián)合練。??=????1,??)????(??)∑??=??∑??1

??????)圖表:機器翻譯模型:NerlcieTrltinyJilyrigolindTrslte,AN使用了語注力機,以量不詞語預測票趨勢的差化影。相于述機器譯模型AN確定權的過更為單向量化詞語i通過一層經(jīng)絡得到意力值i使用fmx標化后到詞注意力??i最后加權均得新聞層面向量。具的數(shù)公如下:??=????(????+??)??= ??????)∑?? ??∑??1

??(??)????=∑??????1圖表:詞語注意力機制:新聞注意力機制考慮到同新在預股票勢中差異影響,AN也加入新聞意力制。則聞i通過層神網(wǎng)絡到注力值vi用fmx準化后到新的注力權重,最后加平均到日向量,表某天中有新的信息具體數(shù)學式如:????=????(????+??)??= ??????)∑?? ??∑??1

??????)????=∑??????=1圖表:新聞注意力機制:雙向門控循環(huán)單元循環(huán)神網(wǎng)絡N是時間列建的經(jīng)模型但準N在應用中會到梯消失的問題難以憶長的信短期憶網(wǎng)(S和門控環(huán)單G以利用門控機制來保留長期信息,決梯度消失問題。中GU結(jié)構更為簡單,參數(shù)更少且能在音識等任中與STM現(xiàn)樣出。圖表:門控循環(huán)單元的內(nèi)部結(jié)構:GU包含一重置門t一個新門z,重門有捕捉時序列的短關系而新門有于捕長期系:??=????????+????1+??)??=????????+????1+??)其中,t-1表示一的隱狀態(tài),t的算如:????=1???)×??1+??×?????可以看出t由上期的藏狀態(tài)t-1和當?shù)暮虿貭?線性組而成選隱藏????狀?的計算如??

?=??????+??×??? )+??)?? ??? ?? ???1 ?為了同捕捉去和來的息,AN使了雙門循環(huán)單(iG=??,??∈[,??]?? ???=???,??∈[??,]?? ???=[,]????值得注的是這里未來息是對于去而的比如使前0的新預第1天到2天價的跌,么第5的新處理可利用第1和第0的信的,在股價預上并會造未來據(jù)的題。圖表:雙向門控循環(huán)單元:時間注意力機制AN同樣使用意力制反映同時的新在股預測中差異影iGU輸?shù)拿咳招畔通過層神網(wǎng)絡到注力值i用fmx標化后到日的注力權重i,后加平均得到。體的學公如:??=????(????+??)??= ????(??)∑?? ??∑??=1

??????)????=∑??????1圖表:時間注意力機制:多層感知機經(jīng)過詞入循神經(jīng)絡和系的注力機制出V可以表征股票S過去N自然日的新輿情息下來通過別網(wǎng)三層連接網(wǎng)結(jié)構最輸出未來票趨勢預測—上、下或平。圖表:判別網(wǎng)絡結(jié)構:HN網(wǎng)絡選股實證本章應用N網(wǎng)絡在A股場進新聞情分選的實證主要究兩目標:網(wǎng)絡選股是否有效以及不同模塊的注意力機制對最終選股結(jié)果的影響。我們將主要分為以下幾個分展介紹:新聞情數(shù)源介;實驗與對組的計;對比驗結(jié)展示;注意分析??傮w來基于N網(wǎng)絡輿分析股較有效模型的意力配基與我預的較為致從果來看Wr-vl-vl和mrl-vl三模塊注意力對最終回測果都較大響Wr-vl影響;-vl和mr-vl影響較。新聞輿情數(shù)據(jù)源介紹本文數(shù)實證分所用的聞輿數(shù)據(jù)自于得庫Fiils表該表記錄自5年以來A股市場每日新聞情數(shù)。里們展示表按OPTE段提出的//3日的部分輿數(shù)據(jù)對其的字進行讀。圖表:nclews樣本示例UIDEDTE INDCODS URCEMKTNTIMNTS TITLE CNTNT1 /0/7::48

/1/3::32

中金嶺南中金嶺|A股A股公司

e公司 - 屬e公司訊,中金嶺南()7日晚間公告,公司直屬凡凡口鉛鋅礦恢口鉛鋅礦此前于0月9日實施分階段流程停產(chǎn)檢修根司|.Z:中金嶺南|股ON0公司

產(chǎn)

年度檢修計劃安排,公司直屬凡口鉛鋅礦于0月5日產(chǎn)檢修完畢,0月6日全面恢復生產(chǎn)…2 /0/7

/1/3

中國聯(lián)通中國聯(lián)

新浪 0.SH0:

中國聯(lián)通前三新技訊0月7午聯(lián)布披露::34

::57

|A股A股公司公

國聯(lián)通正面

7年三財運據(jù)報示國前三司|.H:中 |ON1:A股正億元同比上升季收為8億其務入.0比國聯(lián)通|股ON0公司

面ON1:公司正面|:正面情|ON1市場情緒

.%

去期升.;服入為.8億比去年上升.;TDA為.3元去期上升.聯(lián)司持應利幣.4億增加中聯(lián)通7前度財務數(shù)據(jù)運數(shù)據(jù)面,7年首季度移動賬用凈4萬達到.7億,出戶RU為.4元比6年年的.4明…3 /1/3::33

/1/3::35

.Z:通富電N0:A

中國經(jīng)濟

1.Z0:富微電正面

芯片概念午后芯片概念午后持續(xù)活躍,截至發(fā)稿,通富微電、雅克科技走強通富微電等2股漲停景嘉微漲超%太極實業(yè)漲超%國科微、|.Z:全志技.H三安光電N公司

|ON1:A股正面ON1:公司正面|:正面情|.H三安光電正面|ON1場情緒

上海新陽長電科技漲逾紫光國芯盈方微三安光電、北京君正等漲逾%全志科技富瀚微富滿電子歐比特漲逾%,國民技術、圣邦股份、士蘭微等十余股漲逾%。中國經(jīng)濟網(wǎng)聲明:股市資訊來源于合作媒體及機構,屬作者個人觀點,僅供投資者參考,并不構成投資建議。投資者據(jù)此操作,風險自擔。4 /1/3::50

/1/3::51

.Z:柳|ON0:A

工程機商貿(mào)

-.Z:工正面

業(yè)“現(xiàn)代農(nóng)業(yè)機械”是柳工集團二次創(chuàng)業(yè)要大力發(fā)展的重要大力拓展新興新興產(chǎn)業(yè)之一。柳工農(nóng)機公司致力于“成為甘蔗生產(chǎn)全程資料來源,

|ON0公司

|ON1:A股正面ON1:公司正面|:正面情|.WZ:建筑機械與重型卡車正面|ON1:行業(yè)面ON1:市場情緒

機械化領導品牌”,以“實現(xiàn)甘蔗生產(chǎn)現(xiàn)代工業(yè)化系統(tǒng)理”為使命,圍繞全產(chǎn)業(yè)鏈思維、全程機械化思維及產(chǎn)共享理念,依托柳工集團強大的研發(fā)、制造及營銷體系專注于甘蔗生產(chǎn)全程機械化產(chǎn)品研究。自進入現(xiàn)代農(nóng)業(yè)械產(chǎn)業(yè)以來,柳工農(nóng)機公司取得了喜人的成績。BIEE是E條樣本是/7發(fā)布的,而該新聞直到/3才進入萬得底庫。從回測的角度,//7到/3。WOES字段示該聞涉到的票代為聞與股應構聯(lián)系系的一識字MTSETIETS表該新聞情感向由萬得注大部新聞有情傾向標。ITE與OET新聞標題摘要是文本據(jù)的體來,本在對該文本行處時將題與要拼在一當作條本的文輸入。實驗組設計:網(wǎng)絡結(jié)構與參數(shù)設置前文已經(jīng)從理論層面詳細介紹了N網(wǎng)絡的結(jié)構,這里不再贅述。本章展示我們在trflw中搭建N網(wǎng)絡時使用具體絡層及超參設置。圖表:基于Trfow的HAN網(wǎng)絡詳細結(jié)構:本文所用的mig訓練型為京師大學中國人大學究員源的文訓練詞向量iWr-tr將切分每個轉(zhuǎn)化為0維的向量第一我們已經(jīng)針對該預訓練模型進行過一些測試,結(jié)果表明確實可以較好地衡量詞語之間的相似程度,再贅。這里我們展開解釋訓練迭代次數(shù)的選擇原因:一般來說在神經(jīng)網(wǎng)絡訓練時每個ch里tps的步數(shù)是由樣總量和tcize決定的盡量證每輪練可將全樣本歷一次。但我們在實際訓練中發(fā)現(xiàn),受限于算力不足,如果每輪訓練都將樣本全部遍歷一次大約需要~0個t,時間開銷高,此為顧訓練間與型學效率我們將每輪ch訓迭代數(shù)固為0個t。這也就意著,際上能存部分樣本沒參與練。圖表:HAN網(wǎng)絡超參數(shù)項目 參數(shù)選擇新聞回看天數(shù)N 0每天選取的新聞數(shù)量L 5每條新聞的長度W mig維度V 雙向GRU的輸出特征維度 判別模塊全連接層神經(jīng)元數(shù)量 單條新聞D方式 st單條新聞TRUNCTE方式 st訓練迭代次數(shù)ch 0每輪迭代的訓練步數(shù) 網(wǎng)絡總可訓練參數(shù) 06tchie 4優(yōu)化器 WitDcayOtimirrigrte -4rlystig 是資料來源:關于模訓練的一細節(jié)予以獨說:如果某自然個股聞數(shù)為零則當天的5新都以D進行理如果新聞數(shù)大于5條,則讀取序依取前5條新聞;本文進的是類任根據(jù)本內(nèi)部樣的個日頻收按開價計下三分一分數(shù)作閾值將樣劃分上漲震下跌個類使的損函數(shù)為交熵損函數(shù)。對照組設計:刪除不同模塊注意力的對比試驗N網(wǎng)絡設計繞著意力制展,因關于力機制無的比試是N絡研究繞不開的話題。本小節(jié)我們將三組注意力模塊分別替換為等權求均值,在保證其他網(wǎng)絡超數(shù)都致的件下行對實驗使結(jié)的較有意。對試驗下圖示:圖表:刪除不同模塊注意力的對比試驗:上圖中記為Witm模塊示有意力制標記為vre模塊示注力機制被替換為向量等權平均:以詞注意力機制為例,有注意力機制表示網(wǎng)絡結(jié)構當中會對一條新的0個詞編向量(0是先設的每新聞的大詞長度生成應注意力重,加權和得該條聞的碼向;注意力制則接將0詞向編碼求均作該條聞的碼向,如圖所,余模塊照組似。圖表:詞注意力機制的對照:對比試驗結(jié)果展示本小節(jié)們示N絡新輿情析在A股選實證結(jié)。以深0為票池,每條樣的輸特為T日去N天的聞序,每最多選的新數(shù)為L,每條新聞的度為W每個詞的量編長為關上述參的選可以考表。每條樣的標為T1日盤至+2開盤因后文數(shù)實證調(diào)倉率均日頻。數(shù)據(jù)實我們要分三個分展:p-put策略回測始的一個易日據(jù)一天N預測的股得分選擇排名前的K只票等持有接下的每交易根據(jù)前天N測出得分剔除組內(nèi)得最低一只票,入組外得最的一只票;因子IC測試:將N預測得視為頻因進行因子IC計算;因子分層回測:將N預得分為頻因進行因子分回測。在展示據(jù)測的結(jié)之前我們以首看一下N預測得在滬深0股票池的蓋度該覆度的際含過去0個自然中至有1則新聞的股數(shù)可看整體覆度超過,爾覆度會降低。圖表:HAN日頻因子在滬深0股票池覆蓋

HN日頻因子覆蓋度2019-01-022019-04-03202019-01-022019-04-032019-07-032019-09-262019-12-262020-03-302020-06-302020-09-222020-12-232021-03-252021-06-242021-09-162021-12-202022-03-22,p-put策略回測開的第個交日我根據(jù)一天N預出股票得選擇名靠的K只票等權持從二個易日始每根據(jù)一天N測出的分除當持倉合內(nèi)得分最低的一只股票,并以剩余資金買入組合外得分最高的一只股票。每次模型重新訓練時持有的K只票會據(jù)最滬深0成分股部重替換為分最前的K只股于K的選擇在比實時我都以0為例進展示后文我們對K選擇行討。由于萬數(shù)據(jù)庫提的新輿情據(jù)從5年開且始數(shù)質(zhì)量佳因此一輪訓練我們以-8的樣本作為樣本內(nèi),以-0作為樣本外;第二輪訓練以-0作為樣本內(nèi),以-2作為樣外;段樣本拼接我們際的測間-3每日以盤價替換股進行調(diào)易手費取邊千。圖表:T-rot1策略凈值實驗組 圖表:T-rot1相對凈值實驗組.50.5.0.5.0.511--3

TT-Drt-費前最大回撤T-Drt-費T-Drt-費滬深等權-%2-2--3

.08.6.4.2.0.8

TT-Drt-相對基準-費前最大回撤 T-Drt-相對基準-費前(左軸)T-Drt-相對基準-費后(左軸)-%2-2--31--41--41--71--72--12--121--41--41--71--72--12--12--32--42--62--52--72--11--31--41--41--71--72--12--12--32--42--62--52--72--1圖表:T-rot1策略凈值對照組1 圖表:T-rot1相對凈值對照組1Top3-Drt-費前最大回撤T-DT-Drt-相對基準-費前最大回撤相對基準凈值-對照組1.0.5.0.5.0.51--31--31--31--31--41--41--71--72--12--12--32--42--62--52--72--1

ToTo3-Dr-對照組1 滬深等權-%2-2--3

.0.8.6.4.2.0.8

-%2-2--31--41--41--71--72--1--41--41--71--72--12--12--32--42--62--52--72--1圖表:T-rot1策略凈值對照組2 圖表:T-rot1相對凈值對照組2

.0相對基準凈值相對基準凈值-對照組26.4T-DrT-Drt-對照組2滬深等權3 .01--31--41--41--71--31--41--41--71--72--12--12--32--42--62--52--72--12--31--31--41--41--71--72--12--12--32--42--62--52--72--12--3,,回測期:-031 ,,回測期:-03圖表:T-rot1策略凈值對照組3 圖表:T-rot1相對凈值對照組3.8.3.8

T0-Drt-對照組3

.0相對基準凈相對基準凈-對照組36.3

.4滬深等權.8滬深等權.3 .01--31--41--41--71--31--41--41--71--72--12--12--32--42--62--52--72--12--31--31--41--41--71--72--12--12--32--42--62--52--72--12--3,,回測期:-031 ,,回測期:-03圖表:T-rot1策略凈值對照組4 圖表:T-rot1相對凈值對照組4T-DrtT-Drt-對照組4滬深等權 相對基準凈值-對照組43 .88 .63 .48 .23 .01--31--41--41--71--31--41--41--71--72--12--12--32--42--62--52--72--12--31--31--41--41--71--72--12--12--32--42--62--52--72--12--3,,回測期:-031 ,,回測期:-03圖表:各實驗組業(yè)績對比區(qū)間收益 年化收益 年化波動 最大回撤 夏普 卡瑪 年化超額實驗組對照組對照組2對照組3對照組4滬深0等

.% .% .% .6 .8 .%.%.%.%.%.%.%.% .%.%.%.%.%.%.% .% .% .3 .6 -.%.% .% .% .2 .9 .%.% .% .% .1 .2 .%.% .% .% .3 .4 -資料來源,,回測期-2通過以對比驗,們可總結(jié)如下論:N混合注意力機制網(wǎng)絡選效果較為秀,K-t策略在回區(qū)間以獲得較為著的額回,區(qū)相對滬深0等權年化額.,超穩(wěn)??;且-rt策略受手費影較??;注意力機制的有無對最終結(jié)果有較大影響,有注意力塊的網(wǎng)絡選股效果明顯要好無注意模塊網(wǎng)絡且效相差大;不同模塊注意力機制影響不同,詞注意力模塊的缺失選股結(jié)果影響相對較小,去詞注意模塊后年收益年化額收大約削減左右新聞意力日期力的缺失對選股結(jié)果影響較大,去除新聞注意力或日期注意力以后選股結(jié)果幾乎難獲得超收益超額益在附近動。但值得說明的是,我們在測試的過程中發(fā)現(xiàn)某些情形下,即使是三組注意力模塊都存在選股結(jié)果也可能由于模型超參數(shù)的變化而產(chǎn)生一定范圍的波動,因此這里我們展示的對試驗結(jié)果未必呈現(xiàn)出了對應網(wǎng)絡結(jié)構下的最優(yōu)選股效果,僅是在保證其余超參數(shù)都一致情形下嚴格照。圖表:T-rot1策略日頻換手實驗組 圖表:T-rot1策略日頻換手對照組1

日頻換手率-實驗組

日頻換手率-對照組1% % % % 1--41--41--41--1--41--41--41--42--42--42--42--42--42--42--42--42--41--41--41--41--42--42--42--42--42--42--42--42--42--4, ,圖表:HAN訓練準確率 圖表:HAN訓練損失函數(shù)

訓練集準確率 驗證集準確率

.20

訓練集損失函數(shù) 驗證集損失函數(shù)

.18

.16.14.12

.10

0 2 4 6 8024680246

.08

0 2 4 6 8024680246, ,除此以外實驗對應換手及損函數(shù)上面所示從手率看基于N絡的日選股略日雙邊手平均在.左右年雙邊換手6倍從失函來N的訓過程以看較為型的失函變化,圖中展示結(jié)果約在0迭代以進入定狀。本小節(jié)后我對實組中不同K的取進行測試結(jié)果如圖所。從果來看K取//0整體效果差不大說明基于N日頻因構建的-rt策略對票數(shù)量這一數(shù)的感性度較。K取0時回測收最高,波動幅度居中,最大回撤最小。圖表:實驗組不同K取值回測絕對凈=2=2-最大回=3-最大回=4-最大回=0 =0 =0.0

0%.5 .0 .5 .0 .5 -%1--31--41-1--31--41--41--71--72--12--12--32--42--62--52--72--12--3,圖表:實驗組不同K取值回測相對凈=2=2-相對基準最大回撤=3-相對基準最大回撤=-相對基準最撤 =2-相對基準 =3-相對基準 =4-相對基準

0%.8 .6 .4 .2 .0 1--31--41-1--31--41--41--71--72--12--12--32--42--62--52--72--12--3,圖表:實驗組不同K取值的業(yè)績對比區(qū)間收益年化收益年化波動最大回撤夏普卡瑪年化超額=20.%.%.%.%.1.1.%=30.%.%.%.%.6.8.%=40.%.%.%.%.8.4.%資料來源,,回測期-2N日頻因子IC測試將AN網(wǎng)絡預測得到每只票上類別概率為日頻子,算因子的IC值:??????=????(????1,????)其????1表示+1日個收益(按盤價算日收益????表示第T個股應的N因子值。在多因選股體系,為驗證單子有效性,上述因??我們一般會進行行業(yè)值中處理但受于算本計算的N因子限于滬深0股票池因此我們對因值進行業(yè)值中預處。由于N輸出因子是屬上漲別的率,較少出異常,可直接用IC對因子效性行判,無秩相系數(shù)根據(jù)IC對子進行價的法如:IC值序列值—因子著性;IC值序列準差—因穩(wěn)定;II(IC值列均與標差比值——子有性;IC值序列于零占比—因作用向是穩(wěn)定。H對照組:無詞注意力圖表:滬深0實驗組:日頻C序列 圖表:滬深0對照組:日H對照組:無詞注意力

H實驗組H實驗組% -% -%1--21--31--31--61--21--31--31--61--62--02--42--62--92--12--02--12--41--21--31--31--61--62--02--42--62--92--12--02--12--4, ,圖表:各對照組因子值日頻累計C序列H實驗組HH對照組:無詞注意力 H對照組:無詞注意力+無新聞注意力 H對照組:無詞注意力+無日期注意力H對照組:無詞注意力+無新聞注意力+無日期注意力975311--21--31--21--31--31--61--62--02--42--62--92--12--02--12--4,從單因子IC角度看實組的子有性也于其對照組詞意力塊的失對子有效性影響較??;新聞注意力與日期注意力模塊的缺失對因子有效性影響較大。實驗組日頻IC均值為.,IIR為.;從因子IC的角度來即使實驗的有性也不能稱為很一般認為IIR大于.5是有效子,一面或提我們絡結(jié)的設計仍改進間;另一面從文的析可看,N頻因的IIR高可能是由于多頭的相性不造成。N日頻因子分層測試因節(jié)有深0為5。分層相對基準分層相對基分層相對基分層相對基分層相對基準分層相對基分層相對基分層相對基分層相對基.4.3.21.0.9.871--21--1--21--31--31--61--62--02--42--62--92--12--02--12--4, 分層相對基準分層相對基準 分層相對基 分層相對準分層相對基準圖表:滬深0對照組 分層相對基準分層相對基準 分層相對基 分層相對準分層相對基準.4.3.2.1.0.9.8.7.6

.4分層分層相對基準 分層相對基準 分層相對基準分層相對基準 分層相對準.2.1.0.98.71--21--31--31-1--21--31--31--61--62--02--42--62--92--12--02--12--41--21--31--31--61--62--02--42--62--92--12--02--12--4, , 分層相對基準分層相對基準 分層相對基準 分層相對基準分層相對基準圖表:滬深 分層相對基準分層相對基準 分層相對基準 分層相對基準分層相對基準.4.3.2.1.0.9.8.7.6

分層相對基準分層相對基準 分層相對基準分層相對基分層相對基.3.2.1.0.9.8.71--21--31--31-1--21--31--31--61--62--02--42--62--92--12--02--12--42019-01-022019-04-032019-07-032019-09-262019-12-262020-03-302020-07-242020-10-26221-0-192021-04-212021-07-20221-1-212022-01-14, ,圖表:各實驗組分層絕對收益對比分層1 分層2 分層3 分層4 分層5實驗組.%-.%-.%-.%-.%對照組1.%-.%-.%-.%-.%對照組2-.%-.%-.%-.%-.%對照組3.%-.%-.%-.%-.%對照組4-.%.%.%-.%-.%資料來源,從分層測的果可看到,N實驗日頻子的頭側(cè)收非常顯,期來相基準凈值較為穩(wěn)??;后面四層雖然單調(diào)性不如第一層,但整體可以看出區(qū)分度。結(jié)合上一小節(jié)對IC值分析們不發(fā)現(xiàn)N實驗日頻子的IC值不主要來自非多頭端的分效果較一:顧N日頻子的建程,我是對只股去0個自然日的新聞輿情進行分析,實際上模型比較關注的應當是新聞輿情覆蓋度比較高的那些股票而尾的股可能過去0個然日關的情數(shù)很少導模型以區(qū)開也屬合理,并不礙我利用N日頻子的頭端益貢獻。注意力分析最后我們對模型訓練當中的注意力實際結(jié)果進行分析展示,對注意力系數(shù)進行分析可以更為直觀看到N模型文本如何行思的幫我們了當前絡結(jié)設計不理之處便于續(xù)改。詞注意力系數(shù)下圖展示詞注意力模塊部分樣本的注意力系數(shù),顏色越靠近紅色表示網(wǎng)絡賦予的注意力高,顏色越靠近深藍色表示網(wǎng)絡賦予的注意力越低;我們選取了三組樣本進行展示,如圖所示其中(knWr表示出詞詞語:圖表:示例樣本:詞注意力展示,圖表:示例樣本:詞注意力展示,圖表:示例樣本:詞注意力展示,從上述例樣我們以總出以三點論:模型對那些有實意義詞語賦予高的重如示例1中“合“速“助力等詞、例2的“破“利”等及示例3中“看“為”等詞語而這詞語實對斷對文本情感向較重要作用;模型對專有詞賦的注力較如示例1中多晶硅示例2中“華等詞語而這詞語個出時也實對感判影不大;最后我需要出模的缺可以到示例3中模給“景氣回詞較的權重,而“暖”上文“有望景氣”上為高,按常規(guī)經(jīng)應當會給這樣一些較高權重我們測可的原在于mig詞向編碼我并未用金融料而較為用的文語庫能導模型景氣“暖金領域的用詞關注不足。新聞注意力系數(shù)下圖展示新聞注意力模塊部分樣本的注意力系數(shù),由于我們設置的每日最大新聞數(shù)量為5條,因下圖展示新聞意力配將至多5條聞上,足5條的表當?shù)男聰?shù)量不足;顏色越靠近紅色表示網(wǎng)絡賦予的注意力越高,顏色越靠近深藍色表示網(wǎng)絡賦予的注意越低圖表:示例樣本:新聞注意力展示(東方航空:503日相關新聞),圖表:示例樣本:新聞注意力展示(三七互娛:221日相關新聞),圖表:示例樣本:新聞注意力展示(中聯(lián)重科:508日相關新聞),從上述果我可以結(jié)出下幾結(jié)論:模型對發(fā)事的描性新賦予注意比較如示例樣本1中航空突發(fā)件的兩相關聞注力高其余條,能是于類新聞有較的時性;模型對股描類的聞會予更的注力如例樣本3中對第股的述新聞更為關注,而評類的新如第一和二條樣本可由于是對相關業(yè)進行的評與個股即時聯(lián)系不是別強因此予了低權重。時序注意力系數(shù)最后我展示序注力系數(shù)下圖為-8訓練期的樣內(nèi)模在過去0個自日時序水上的意力值們隨采樣了0條樣分別對這0個自日的意力計算均值-0表示前0個自日-1表示前1個然日從果來時間近的平均賦予的注意力水平越高;時間越遠的新聞平均賦予的注意力水平越低,與我們

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論