




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隱馬爾可夫模型基本理論隱馬爾可夫模型(Hidden Markov Model, HMM)作為序列模型,已經(jīng)成為時(shí)間序列數(shù)據(jù)建模的一種主流模型。其已在多個(gè)領(lǐng)域得到廣泛應(yīng)用,例如語(yǔ)音識(shí)別,文本分類(lèi),生物信息等。HMM 模型是一種可以用于標(biāo)注問(wèn)題的統(tǒng)計(jì)學(xué)習(xí)模型,其描述了一種由隱 藏的馬爾可夫鏈來(lái)生成觀(guān)測(cè)序列的過(guò)程,是一種生成模型。這一節(jié)我們主要介紹 HMM 的基本理論,包括模型定義和算法。隱馬爾可夫模型的定義隱馬爾科夫模型主要包括兩個(gè)序列,一個(gè)是狀態(tài)序列(state sequence),一個(gè)是觀(guān)測(cè)序列(observation sequence)。其描述由一個(gè)隱藏的馬爾科夫鏈來(lái)隨機(jī)生成不可觀(guān)測(cè)的狀態(tài)序
2、列,再由各個(gè)狀態(tài)來(lái)生成觀(guān)測(cè)進(jìn)而得到觀(guān)測(cè)序列的過(guò)程。序列每一個(gè)位置代表了一個(gè)時(shí)刻。隱馬爾可夫模型主要由三個(gè)參數(shù)來(lái)確定,一個(gè)是初始概率分布,一個(gè)是狀態(tài)轉(zhuǎn)移概率分布,一個(gè)是觀(guān)測(cè)概率分布。我們對(duì)整個(gè)模型其進(jìn)行形式化如下:我們?cè)O(shè) Q 為所 有隱藏 狀態(tài) 的集合 , V 為 所有 可能的 觀(guān)測(cè)的 集合: = 1 ,2 , , , = 1,2 , , 。這里 N 為所有可能的隱藏狀態(tài)的數(shù)量,M是所有可能的觀(guān)測(cè)數(shù)。我們?cè)O(shè) I 為狀態(tài)序列,其長(zhǎng)度為 T,O 為其觀(guān)測(cè)序列:I =i1 ,i2 , , iT ,O = o1 ,o2 , , oT 。我們?cè)O(shè) A 為隱藏狀態(tài)的轉(zhuǎn)移矩陣:A = aij,NNNM這里,ai
3、j = P it+1 = qj it = qI ,i = 1,2, , N; j = 1,2, , N。其表示在時(shí)刻 t 時(shí)候 處于隱藏狀態(tài)的情況下在時(shí)刻 t+1 轉(zhuǎn)移至隱藏狀態(tài)的概率。我們?cè)O(shè) B 為觀(guān)測(cè)矩陣,也叫發(fā)射概率矩陣: B = bjk,這里,bjk = P ot = vk it = qj ,k =1,2, , M; j = 1,2, , N。其表示在時(shí)刻 t 的時(shí)候隱藏狀態(tài)為的時(shí)候生成觀(guān)測(cè)值的概率。我們?cè)O(shè)為初始狀態(tài): = I,這里,i = Pi1 = qI, i = 1,2, , N。其表示在時(shí)刻 t 為 1 的情況下隱藏狀態(tài)為的概率。由以上我們可以得知隱馬爾科夫模型主要由三個(gè)參數(shù)即
4、初始狀態(tài),狀態(tài)轉(zhuǎn)移矩陣 A 以及觀(guān)測(cè)矩陣 B 來(lái)決定。我們?cè)O(shè)隱馬爾科夫模型為,其可以用上述三個(gè)參數(shù)來(lái)表示: = A, B, 。這里隱藏狀態(tài)由兩個(gè)參數(shù)確定,A, ;觀(guān)測(cè)矩陣 B 確定如何從隱藏狀態(tài)來(lái)生成觀(guān)測(cè),整個(gè)模型的示意圖如圖 1 所示。我們可以發(fā)現(xiàn)隱馬爾可夫模型其有三個(gè)重要假設(shè):(1)當(dāng)前觀(guān)測(cè)值只由當(dāng)前隱藏狀 態(tài) 確 定 , 而 與 其 他 隱 藏 狀 態(tài) 或 觀(guān) 測(cè) 值 無(wú) 關(guān) : P ot iT , oT ,iT1,oT1, , it+1,ot+1, it,it1, ot1, , i1,o1 = P ot it 。(觀(guān)測(cè)的獨(dú)立 性假設(shè));(2)當(dāng)前隱藏狀態(tài)由其前一個(gè)隱藏狀態(tài)決定,與其它時(shí)
5、刻的狀態(tài)和觀(guān)測(cè)無(wú)關(guān):P it it1,ot1, , i1,o1 = Pit it1 , t = 1,2, , T。(一階馬爾科夫假設(shè));(3)隱藏狀態(tài)之間的轉(zhuǎn)換函數(shù)概率不隨時(shí)間變化(轉(zhuǎn)換函數(shù)穩(wěn)定性假設(shè))。隱馬爾可夫模型可以用于標(biāo)注問(wèn)題,標(biāo)注問(wèn)題就是在給定觀(guān)測(cè)的序列的情況下來(lái)預(yù)測(cè)對(duì)應(yīng)的標(biāo)注序列,若假設(shè)數(shù)據(jù)是由隱馬爾可夫模型生成的,則隱藏狀態(tài)序列即標(biāo)注序列。由于隱馬爾可夫模型是一個(gè)生成模型,也可來(lái)描述觀(guān)測(cè)序列的生成過(guò)程。隱馬爾可夫模型的 3 個(gè)基本問(wèn)題如果我們假設(shè)訓(xùn)練數(shù)據(jù)中包括 S 個(gè)長(zhǎng)度相同的觀(guān)測(cè)序列和對(duì)應(yīng)的隱藏狀態(tài)序列,那么可以通過(guò)極大似然估計(jì)的方法來(lái)估計(jì)模型參數(shù),其方法如下所述:1.對(duì)轉(zhuǎn)移概
6、率aij進(jìn)行估計(jì):設(shè)樣本中時(shí)刻 t 處于隱藏狀態(tài) i 接著在時(shí)刻 t+1Aij轉(zhuǎn)移到狀態(tài) j 的頻數(shù)為Aij,則對(duì)于轉(zhuǎn)移概率aij的估計(jì)為:aij = N A ,i =j=1 ij1,2, , N; j = 1,2, , N對(duì)于隱馬爾可夫模型來(lái)講,其研究的有三個(gè)基本問(wèn)題:概率計(jì)算問(wèn)題:當(dāng)給定模型 = A, B, 和觀(guān)測(cè)序列O = o1 , o2 , , oT ,計(jì)算在模型已知的情況下觀(guān)測(cè)序列O出現(xiàn)的概率P O 。學(xué)習(xí)問(wèn)題: 在已知觀(guān)測(cè)序列O = o1 ,o2 , , oT 的情況下來(lái)估計(jì)模型 = A, B, 的參數(shù),從而使得在該模型下觀(guān)測(cè)序列概率P O 最大,也就是使用極大似然估計(jì)的方法來(lái)進(jìn)行
7、參數(shù)估計(jì)。預(yù)測(cè)問(wèn)題: 即解碼問(wèn)題, 是在已知模型 = A, B, 和觀(guān)測(cè)序列O = o1 , o2 , , oT ,來(lái)求得對(duì)于給定的觀(guān)測(cè)序列條件概率P I O 最大的隱藏狀態(tài)的序列I = i1 ,i2 , , iT ,也就是給定觀(guān)測(cè)序列,求得對(duì)應(yīng)的隱藏狀態(tài)序列。圖 1隱馬爾可夫示意圖資料來(lái)源: 研究所對(duì)于資產(chǎn)擇時(shí)來(lái)講,我們主要關(guān)注后兩個(gè)問(wèn)題,也就是學(xué)習(xí)問(wèn)題和預(yù)測(cè)問(wèn)題,即通過(guò)觀(guān)測(cè)序列來(lái)估計(jì)模型參數(shù)并利用模型來(lái)進(jìn)行預(yù)測(cè)。我們這里簡(jiǎn)述對(duì)于后兩個(gè)問(wèn)題的相應(yīng)算法。學(xué)習(xí)算法對(duì)于上一節(jié)我們所述的學(xué)習(xí)問(wèn)題,其需要通過(guò)算法來(lái)求解。那么根據(jù)訓(xùn)練數(shù)據(jù)是包括觀(guān)測(cè)序列和對(duì)應(yīng)的隱藏狀態(tài)序列還是只有觀(guān)測(cè)序列,對(duì)應(yīng) HMM
8、模型訓(xùn)練算法可以分為兩種,一種是監(jiān)督學(xué)習(xí)算法,一種是無(wú)監(jiān)督學(xué)習(xí)算法,也就是 Baum-Welch 算法 (EM 算法)。監(jiān)督學(xué)習(xí)算法無(wú)監(jiān)督學(xué)習(xí)算法也就是 Baum-Welch 算法,其假設(shè)訓(xùn)練數(shù)據(jù)值包含 S 和長(zhǎng)度為 T的觀(guān)測(cè)序列,而沒(méi)有對(duì)應(yīng)的隱藏狀態(tài)的序列,那么我們的目標(biāo)是來(lái)學(xué)習(xí)隱馬爾可夫模型的參數(shù) = , , 。我們?cè)O(shè)觀(guān)測(cè)數(shù)據(jù)為 O,隱藏狀態(tài)序列為 I,那么:P O = I P O I, P I ,其參數(shù)通過(guò) EM 算法進(jìn)行學(xué)習(xí),其過(guò)程如下:首先要確認(rèn)完全數(shù)據(jù)的對(duì)數(shù)似然函數(shù):完全數(shù)據(jù)指的是觀(guān)測(cè)數(shù)據(jù)和隱藏狀態(tài)數(shù)據(jù)的聯(lián)合:O, I = o1 , o2 , , oT , i1 ,i2 , , i
9、T 。那么完全數(shù)據(jù)的對(duì)數(shù)似然函數(shù)為log , 。接下來(lái)是 EM 算法的 E 步 : 求 得 Q 函數(shù) , : Q, = I log P O, I PO, I 。這里表示隱馬爾科夫模型的當(dāng)前估計(jì)值, 為要 極 大 化 的 隱 馬 爾 可 夫 模 型 參 數(shù) , P O, I =i1 b1o1 a12bi2 o2 aiT1iT biroT 。則函數(shù), 可以進(jìn)行展開(kāi)如下:Q, = I log P O, I + IT1 log ai ,PO, I +1t=1IT log bi otP O, I 。tt=1I +1下面是 EM 算法的 M 步:對(duì) Q 函數(shù) , 進(jìn)行極大化來(lái)求得模型參數(shù) =, , 。由于
10、要極大化的參數(shù)是單獨(dú)出現(xiàn)的,所以對(duì)各項(xiàng)分別進(jìn)行最大化,可以得到:PO, i1 = ii=, aT1 PO, i = I, i= j t=1tt+1t=1ij=以及b k =P O T1 P O, it= ijT P O, i = j Iot=vk t=1tTt=1PO, it= j2.對(duì)觀(guān)測(cè)概率bjk進(jìn)行估計(jì):設(shè)樣本中隱藏狀態(tài)為 j 并且觀(guān)測(cè)為 k 的頻數(shù)為B ,則隱藏狀態(tài)為 j 觀(guān)測(cè)為 k 的概率 的估計(jì)為:b k =BjkjkjM,j =k=1Bjk1,2, , N; k = 1,2, , M3.對(duì)初始狀態(tài)i進(jìn)行估計(jì):即計(jì)算 S 個(gè)樣本中初始狀態(tài)為qi的頻率。以上為有監(jiān)督情況下的學(xué)習(xí)算法,
11、但由于隱藏狀態(tài)需要人工來(lái)進(jìn)行標(biāo)注,所以這種算法的局限性比較大。更為實(shí)用的為無(wú)監(jiān)督學(xué)習(xí)算法。1.3.2.無(wú)監(jiān)督學(xué)習(xí)算法以上是對(duì)于學(xué)習(xí)問(wèn)題的無(wú)監(jiān)督算法。通過(guò)上述算法可以對(duì)觀(guān)測(cè)序列進(jìn)行模型參數(shù)估計(jì)。預(yù)測(cè)算法對(duì)于 1.3 節(jié)提到的預(yù)測(cè)問(wèn)題,也就是解碼問(wèn)題,求得給定觀(guān)測(cè)序列下最有可能的隱藏狀態(tài)序列。對(duì)于這個(gè)問(wèn)題,主要有兩種算法,一種是近似算法,一種是維特比算法,下面我們簡(jiǎn)述這兩種算法。1.4.1.近似算法近似算法的本質(zhì)思想是在每個(gè)時(shí)刻 t 來(lái)選擇該時(shí)刻最有可能出現(xiàn)的狀態(tài)i,進(jìn)而t得到一個(gè)狀態(tài)序列I = i ,i , , i ,此為預(yù)測(cè)結(jié)果。1 2T當(dāng)給定隱馬爾科夫模型 = , , 以及觀(guān)測(cè)序列 O,在時(shí)
12、刻 t 處于狀態(tài)qi的概率 為: i = i i i i tttP O=ttN tjtj。那么在每一時(shí)刻 t 最有可能的狀態(tài) 為:i =tj=1請(qǐng)仔細(xì)閱讀在本報(bào)告尾部的重要法律聲明 6維特比算法是一種通過(guò)動(dòng)態(tài)規(guī)劃的方法來(lái)求解隱馬爾可夫模型的預(yù)測(cè)問(wèn)題,此時(shí)一條路徑對(duì)應(yīng)一個(gè)最大概率的序列。首先導(dǎo)入兩個(gè)變量 和 , 我們定義在時(shí)刻 t 狀態(tài)為 i 的所有單個(gè)路徑1 ,2 , , 中概率最大值為: ti =maxh1, i2,i1P it = I, it1, , i1 ,ot, , o1 ,i =1,2, , N。那么的遞推公式為:t+1i = max P it+1 = I, it, , i1,ot+
13、1, , o1 =I,i2, ,hmaxtjaji biot+1 ,i = 1,2, , N; t = 1,2, , T 1。那么定義在時(shí)刻 t 隱藏狀態(tài)1jN為 i 的所有單個(gè)路徑1 ,2 , , 1 ,中概率最大的路徑的第 t-1 個(gè)結(jié)點(diǎn)為:ti = arg max t1 jaji ,i = 1,2, , N。1我們下面介紹維特比算法:算法的輸入:模型 = , , 以及觀(guān)測(cè)序列 = 1 , 2 , , ;算法的輸出:最有的路徑 = , , , 。1 21.進(jìn)行初始化:1 i = ibio1 ,i = 1,2, , N;1 i = 0,i = 1,2, , N2.進(jìn)行遞推計(jì)算,對(duì)于 t=2,
14、3,T: +1 = max +1 , =11,2, , ; = arg max 1 , = 1,2, , 。1終止計(jì)算:P = max T i;i = arg maxT i。1iNT1iN最后是進(jìn)行路徑回溯:對(duì)于 t=T-1,T-2,1, i = t+1 i 。據(jù)此求得最優(yōu)路徑 = , , , 。tt+1arg maxtI,t = 1,2, , T。進(jìn)而據(jù)此得到狀態(tài)序列 = , , , 。近似算法1iN1 2計(jì)算非常簡(jiǎn)單,但其并不能保證是全局最優(yōu)的,即預(yù)測(cè)的狀態(tài)序列很可能是實(shí)際上不發(fā)生的。1.4.2.維特比算法1 2小結(jié)隱馬爾可夫模型包含兩個(gè)隨機(jī)過(guò)程,一般隨機(jī)過(guò)程以及馬爾可夫過(guò)程。這其中馬爾可
15、夫過(guò)程對(duì)狀態(tài)轉(zhuǎn)移進(jìn)行刻畫(huà),運(yùn)用轉(zhuǎn)移概率矩陣來(lái)進(jìn)行描述。一般隨機(jī)過(guò)程用概率分布函數(shù)表示。隱馬爾可夫模型作為一個(gè)非線(xiàn)性時(shí)間序列模型在許多領(lǐng)域有著較為成熟的應(yīng)用,其在模式識(shí)別以及狀態(tài)預(yù)測(cè)等方面已經(jīng)被證明了有著很大的優(yōu)勢(shì)。模型的本質(zhì)就是通過(guò)訓(xùn)練數(shù)據(jù)來(lái)對(duì)未來(lái)進(jìn)行預(yù)測(cè)。我們從證券市場(chǎng)獲得的觀(guān)測(cè)數(shù)據(jù)大多都具有時(shí)間趨勢(shì),借助隱馬爾科夫模型來(lái)對(duì)進(jìn)行資產(chǎn)價(jià)格走勢(shì)預(yù)測(cè)是具有很強(qiáng)的現(xiàn)實(shí)意義的。隱馬爾可夫模型的擇時(shí)建模我們知道,股價(jià)是可以被每個(gè)人觀(guān)察到,但股價(jià)背后的意義卻并不能直接被觀(guān)察到,即使是相同的股價(jià)通常也會(huì)有著不同的意義。例如在 2015 年 6 月和 2018 年 1 月上證指數(shù)都為 3000 點(diǎn),但這兩個(gè)
16、3000 點(diǎn)有著截然不同的含義,2015 年時(shí)候的 3000點(diǎn)是在一段持續(xù)性下跌的過(guò)程中,而 2018 年的 3000 點(diǎn)確實(shí)指數(shù)觸底后的一段上漲過(guò)程中,兩者有著完全相反的內(nèi)在含義。而股價(jià)背后的狀態(tài)和含義是需要通過(guò)可觀(guān)測(cè)的狀態(tài)來(lái)進(jìn)行估計(jì)的,隱馬爾科夫模型對(duì)這樣的包含因變量的時(shí)序過(guò)程有著很好的建模,我們這里來(lái)研究基于隱馬爾科夫模型的擇時(shí)建模。模型合理性的討論從理論層面上來(lái)講,利用隱馬爾可夫模型進(jìn)行建模需要滿(mǎn)足其三個(gè)核心假設(shè):(1)當(dāng)前觀(guān)測(cè)值只由當(dāng)前隱藏狀態(tài)確定,而與其他隱藏狀態(tài)或觀(guān)測(cè)值無(wú)關(guān)(觀(guān)測(cè)的獨(dú)立性假設(shè));(2)當(dāng)前隱藏狀態(tài)由其前一個(gè)隱藏狀態(tài)決定,與其它時(shí)刻的狀態(tài)和觀(guān)測(cè)無(wú)關(guān):(一階馬爾科夫假
17、設(shè));(3)隱藏狀態(tài)之間的轉(zhuǎn)換函數(shù)概率不隨時(shí)間變化(轉(zhuǎn)換函數(shù)穩(wěn)定性假設(shè))。首先我們討論觀(guān)測(cè)的獨(dú)立性假設(shè),其認(rèn)為每個(gè)觀(guān)測(cè)變量只由其隱藏狀態(tài)來(lái)決定,核心思想就是不同狀態(tài)對(duì)應(yīng)的觀(guān)測(cè)數(shù)據(jù)來(lái)源于不同的概率分布,這個(gè)概率分布值依賴(lài)于其所屬隱藏狀態(tài)是什么而和其它狀態(tài)無(wú)關(guān)。這個(gè)假設(shè)是一個(gè)較強(qiáng)的假設(shè),但對(duì)于資產(chǎn)價(jià)格數(shù)據(jù)來(lái)講是可以較為合理的,因?yàn)榕J泻托苁邢碌母鞣N指標(biāo)有著顯著不同,通過(guò)構(gòu)建合適的輸入觀(guān)測(cè)數(shù)據(jù)使得牛熊等不同市場(chǎng)情況下有著比較明顯的區(qū)分將會(huì)較好的滿(mǎn)足這個(gè)假設(shè)。接著我們討論一階馬爾可夫假設(shè),這個(gè)假設(shè)認(rèn)為當(dāng)前隱藏狀態(tài)僅有前一個(gè)隱藏狀態(tài)決定,而與其它隱藏狀態(tài)無(wú)關(guān)。其僅考慮了一階的關(guān)聯(lián)性,而沒(méi)有考慮高階或者長(zhǎng)
18、程關(guān)聯(lián)性,較為簡(jiǎn)單的模型會(huì)有著比較強(qiáng)的泛化能力,但也會(huì)帶來(lái)模型的擬合能力不足,我們這里先以一階馬爾可夫假設(shè)進(jìn)行研究,通過(guò)對(duì)輸入數(shù)據(jù)的調(diào)整,例如選取合適的持倉(cāng)周期來(lái)使得輸入數(shù)據(jù)盡可能滿(mǎn)足此假設(shè)等方法來(lái)提高模型的表現(xiàn)。最后我們討論轉(zhuǎn)換函數(shù)穩(wěn)定性假設(shè),其認(rèn)為隱藏狀態(tài)之間的轉(zhuǎn)換函數(shù)不隨時(shí)間變化,這意味著對(duì)于訓(xùn)練數(shù)據(jù)的時(shí)間長(zhǎng)度內(nèi)隱藏狀態(tài)的轉(zhuǎn)移遵循相同的規(guī)律。那么這個(gè)假設(shè)將和訓(xùn)練樣本的時(shí)間長(zhǎng)度和調(diào)倉(cāng)時(shí)間息息相關(guān)。后兩個(gè)假設(shè)是關(guān)于隱藏狀態(tài)轉(zhuǎn)移是否符合馬爾科夫鏈。我們對(duì)于訓(xùn)練樣本進(jìn)行檢驗(yàn)以判斷隱馬爾可夫模型是否適合擇時(shí)建模。模型優(yōu)缺點(diǎn)的討論隱馬爾科夫模型有著較高的可解釋性,其通過(guò)對(duì)隱變量進(jìn)行建模,將復(fù)雜的觀(guān)測(cè)
19、用隱藏狀態(tài)來(lái)進(jìn)行解釋?zhuān)@有著一定的可解釋性。其可以理解為將時(shí)間序列進(jìn)行降維,低維度的隱藏狀態(tài)則更具有可解釋性,并且利用低維變量進(jìn)行預(yù)測(cè)會(huì)有著更高的泛化 能力和預(yù)測(cè)準(zhǔn)確度。另外對(duì)于推斷出的隱藏狀態(tài)可以和經(jīng)驗(yàn)進(jìn)行比對(duì),判斷每個(gè)隱藏 狀態(tài)的含義。隱馬爾可夫模型核心調(diào)節(jié)參數(shù)比較方便,主要需要調(diào)整的超參數(shù)為隱藏狀態(tài)的個(gè)數(shù),相比于其它模型來(lái)講其超參數(shù)數(shù)量較少,隱藏狀態(tài)比較少時(shí)候會(huì)出現(xiàn)欠擬合的效應(yīng),隱藏狀態(tài)比較多的時(shí)候會(huì)出現(xiàn)過(guò)擬合,通過(guò)調(diào)節(jié)這一個(gè)超參數(shù)即可來(lái)調(diào)整模型,比較容易和直觀(guān)。隱馬爾可夫模型有著比較高的模型表示能力,其作為一個(gè)非線(xiàn)性模型,相比于傳統(tǒng)線(xiàn)性模型來(lái)講會(huì)有著更高的模型表示能力,可以對(duì)更復(fù)雜的輸
20、入進(jìn)行表示,并且作為一個(gè)概率模型可以刻畫(huà)不確定性。但如我們?cè)?2.1 節(jié)中所述,如果期望模型有著比較好的表現(xiàn),其需要滿(mǎn)足模型的基本假設(shè),如何對(duì)數(shù)據(jù)進(jìn)行調(diào)整以滿(mǎn)足模型假設(shè)是一個(gè)需要細(xì)致探索和研究的內(nèi)容。另外模型的學(xué)習(xí)算法即 EM 算法并不能保證會(huì)收斂至全局最優(yōu),這也需要進(jìn)行額外的考慮來(lái)制定合適的模型。策略設(shè)計(jì)思路我們的策略的主要設(shè)計(jì)思路如下:設(shè)置主要的模型構(gòu)建方法,即進(jìn)行滾動(dòng)訓(xùn)練以及設(shè)置執(zhí)行方案;根據(jù)隱馬爾可夫模型的原理來(lái)設(shè)置預(yù)測(cè)方案;對(duì)數(shù)據(jù)及參數(shù)進(jìn)行選?。煌ㄟ^(guò)回測(cè)來(lái)確定最優(yōu)模型。建模方法從理論上講,隱馬爾科夫模型一般假設(shè)可觀(guān)測(cè)序列服從泊松分布或者正態(tài)分布,其中泊松分布用來(lái)描述離散型隨機(jī)變量,正
21、態(tài)分布用來(lái)描述連續(xù)型隨機(jī)變量,股票的時(shí)間序列為連續(xù)的,這里我們選取的模型假設(shè)可觀(guān)測(cè)序列為正態(tài)分布,即正態(tài)隱馬爾可夫模型。由于資產(chǎn)價(jià)格數(shù)據(jù)隨著時(shí)間的推移在不斷增長(zhǎng),所以這里采用滾動(dòng)訓(xùn)練的方法,即當(dāng)獲取到新的數(shù)據(jù)時(shí)候就把其加入訓(xùn)練數(shù)據(jù)中。由于隱馬爾可夫模型的一階馬爾科夫假設(shè),我們這里提出兩種滾動(dòng)訓(xùn)練的方法:一種是從起始數(shù)據(jù)開(kāi)始,新的數(shù)據(jù)不斷加入訓(xùn)練數(shù)據(jù)中,即訓(xùn)練樣本長(zhǎng)度不斷增加,即不定長(zhǎng)滾動(dòng)訓(xùn)練;另一種是設(shè)定固定的訓(xùn)練樣本長(zhǎng)度,新的樣本的加入則同時(shí)將樣本周期最前的數(shù)據(jù)剔除。我們這里將會(huì)對(duì)兩種方案分別進(jìn)行測(cè)試。模型的執(zhí)行步驟為:對(duì)模型進(jìn)行訓(xùn)練,做參數(shù)估計(jì)。選取模型的訓(xùn)練集,如上所述,一種是不定長(zhǎng)滾動(dòng)
22、訓(xùn)練集,一種是定長(zhǎng)滾動(dòng)訓(xùn)練集,將其特征指標(biāo)作為輸入變量,使用 Baum-Welch算法來(lái)對(duì)模型進(jìn)行訓(xùn)練,得到估計(jì)的參數(shù)。將訓(xùn)練集觀(guān)測(cè)向量數(shù)據(jù)輸入訓(xùn)練好的模型使用 Vertibi 算法進(jìn)行樣本內(nèi)解碼,獲得最大概率的隱藏狀態(tài)序列,根據(jù)隱藏狀態(tài)來(lái)對(duì)所處市場(chǎng)狀態(tài)進(jìn)行標(biāo)注,再根據(jù)解碼的狀態(tài)來(lái)對(duì)未來(lái)狀態(tài)進(jìn)行預(yù)測(cè),根據(jù)預(yù)測(cè)結(jié)果進(jìn)行交易操作。預(yù)測(cè)方法做預(yù)測(cè)是基于未來(lái)數(shù)據(jù)和歷史數(shù)據(jù)存在類(lèi)似的規(guī)律假設(shè)?;陔[馬爾科夫模型的基本原理,可以構(gòu)造預(yù)測(cè)的基本方法,即首先根據(jù)樣本來(lái)估計(jì)模型參數(shù),之后計(jì)算觀(guān) 測(cè)樣本的在該參數(shù)模型下隱藏序列,假定當(dāng)前為第 i 個(gè)調(diào)倉(cāng)期間,欲估計(jì)第 i+1 個(gè)持 倉(cāng)期間的市場(chǎng)狀態(tài),也就是統(tǒng)計(jì)第
23、i 個(gè)持倉(cāng)期間所屬隱藏狀態(tài)在訓(xùn)練樣本中后一個(gè)狀 態(tài)的期望收益,其作為 i+1 持倉(cāng)期間的預(yù)測(cè),根據(jù)此預(yù)測(cè)收益率來(lái)判斷是否進(jìn)行交易。數(shù)據(jù)及參數(shù)選擇關(guān)于預(yù)測(cè)標(biāo)的的選取我們使用滬深 300 指數(shù)(000300)的日數(shù)據(jù)來(lái)進(jìn)行測(cè)試。隱馬爾科夫模型的參數(shù)主要包括兩部分,一個(gè)是隱藏狀態(tài)數(shù)量的選擇,即模型的超參數(shù);一個(gè)是觀(guān)測(cè)變量的選擇。隱藏狀態(tài)數(shù)量參數(shù)選擇:從證券市場(chǎng)的周期來(lái)看可以需略分為牛市,熊市和震蕩 市。而從價(jià)格來(lái)看又大致可以分為上漲啟動(dòng)階段,上漲加速階段,上漲末端,下跌初 始階段,下跌中繼階段,下跌末端。由于隱藏狀態(tài)數(shù)量的設(shè)置過(guò)少會(huì)使得模型擬合能 力下降,而過(guò)多又會(huì)欠擬合,我們將以隱藏狀態(tài)為 6 為
24、中心,在其附近進(jìn)行參數(shù)尋優(yōu)。觀(guān)測(cè)變量選擇:一般而言隱馬爾科夫模型的觀(guān)測(cè)變量數(shù)量通常為 4,變量數(shù)量過(guò)少會(huì)使得市場(chǎng)信息不能被有效包含,變量數(shù)量過(guò)多會(huì)使得模型復(fù)雜,噪音變大,觀(guān)測(cè)變量應(yīng)該可以反應(yīng)價(jià)格因素的變化,成交量變化以及收益率的波動(dòng)情況。由于我們主要以收益率來(lái)作為交易的依據(jù),我們這里以收益率作為基礎(chǔ)觀(guān)測(cè)變量,關(guān)于最佳觀(guān)測(cè)變量的選擇可以通過(guò)不斷增加觀(guān)測(cè)變量的數(shù)量來(lái)判斷最佳觀(guān)測(cè)變量的選擇。對(duì)于更嚴(yán)謹(jǐn)觀(guān)測(cè)變量選擇我們這里提出枚舉的方法,即首先構(gòu)造觀(guān)測(cè)變量因子池,構(gòu)造所有的觀(guān)測(cè)變量因子組合,對(duì)這些不同的組合在初始訓(xùn)練樣本進(jìn)行模型參數(shù)學(xué)習(xí),選取一定長(zhǎng)度的樣本作為驗(yàn)證樣本,在其上進(jìn)行驗(yàn)證來(lái)判斷最優(yōu)因子組合
25、。這里我們限于篇幅僅對(duì) 4 個(gè)觀(guān)測(cè)變量因子進(jìn)行研究。策略具體過(guò)程及回測(cè)分析我們這里以滬深 300 作為交易標(biāo)的,首先獲取觀(guān)測(cè)值的時(shí)間序列,這是后續(xù)進(jìn)行模型計(jì)算的基礎(chǔ)。我們首先將觀(guān)測(cè)變量分為價(jià)格類(lèi),成交量類(lèi)和綜合類(lèi)。對(duì)于收益率類(lèi)觀(guān)測(cè)變量,我們選取持倉(cāng)時(shí)間長(zhǎng)度收益率,交易日前二分之一持倉(cāng)時(shí)間長(zhǎng)度收益率作為價(jià)格類(lèi)觀(guān)測(cè)變量;持倉(cāng)期間夏普比率作為綜合類(lèi)觀(guān)測(cè)變量;5 日和持倉(cāng)期平均成交量之比作為成交量類(lèi)觀(guān)測(cè)變量。如下圖所示,我們以持倉(cāng)時(shí)間長(zhǎng)度為 10 日為例,畫(huà)出數(shù)據(jù)的頻率分布直方圖:圖 2持倉(cāng)時(shí)間平均收益率圖 35 日平均收益率資料來(lái)源: 研究所資料來(lái)源: 研究所圖 45 日和持倉(cāng)期的平均成交量之比圖
26、5持倉(cāng)時(shí)間長(zhǎng)度內(nèi)夏普比率資料來(lái)源: 研究所資料來(lái)源: 研究所由于我們這里使用正態(tài)隱馬爾可夫模型,即假設(shè)觀(guān)測(cè)變量服從正態(tài)分布,觀(guān)察頻率直方圖可判斷數(shù)據(jù)基本符合我們的假設(shè),如果輸入不符合關(guān)于正態(tài)分布的輸入假設(shè)則還需進(jìn)行輸入變換,我們以此作為模型的輸入。這里數(shù)據(jù)的維度為 4 維,將 4 維的歷史時(shí)間序列數(shù)據(jù)作為觀(guān)測(cè)變量輸入到模型中,通過(guò) EM 算法得出模型的參數(shù) = A, B, 。由于 EM 算法并不能保證找到全局最優(yōu)解,所以我們進(jìn)行對(duì)模型進(jìn)行多次迭代,選取對(duì)數(shù)據(jù)擬合效果最好的模型參數(shù)。之后固定 模型參數(shù)和觀(guān)測(cè)變量,利用維特比算法進(jìn)行更新,以求得最大概率的隱藏狀態(tài)序列。 隱藏狀態(tài)的最后一項(xiàng)即為對(duì)于交
27、易日前持倉(cāng)期的狀態(tài)推斷。由于隱馬爾可夫模型的狀 態(tài)轉(zhuǎn)換函數(shù)不變性假設(shè),我們對(duì)推斷出的隱藏狀態(tài)和轉(zhuǎn)移函數(shù)進(jìn)行相乘,求得下一個(gè) 持倉(cāng)階段收益率的期望,此為未來(lái)收益率的預(yù)測(cè),根據(jù)未來(lái)收益率預(yù)測(cè)來(lái)判斷在下個(gè) 持倉(cāng)周期內(nèi)交易操作。當(dāng)新的觀(guān)測(cè)數(shù)據(jù)到來(lái)時(shí)候,重新進(jìn)行以上步驟,進(jìn)而實(shí)現(xiàn)滾動(dòng) 訓(xùn)練預(yù)測(cè)。隱藏狀態(tài)的馬爾可夫性檢驗(yàn)檢驗(yàn)隨機(jī)變量序列是否具有“馬氏性”,是應(yīng)用馬爾科夫鏈模型分析和解決實(shí)際問(wèn)題的必要前提。隱馬爾科夫模型假設(shè)隱藏狀態(tài)的轉(zhuǎn)移符合“馬氏性”,這里我們首先對(duì)這個(gè)假設(shè)進(jìn)行檢驗(yàn)。目前絕大多數(shù)方法應(yīng)用隱馬爾科夫模型方法去解決實(shí)際問(wèn)題時(shí),忽視了檢驗(yàn)“馬氏性”這一步驟,這是不科學(xué)的,也是不嚴(yán)謹(jǐn)?shù)?。我們這里給
28、出馬氏性檢驗(yàn)定理。定理 1:設(shè)所討論的指標(biāo)值序列包含 m 個(gè)可能的狀態(tài),用fij表示指標(biāo)值序列中從狀態(tài) i 經(jīng)過(guò)一步轉(zhuǎn)移到達(dá)狀態(tài)j 的頻率。將轉(zhuǎn)移頻數(shù)矩陣的第j 列之和除以隔行割裂的總和所得到值稱(chēng)之為邊際概率,記為p.j,即p= mfij / mji=1i=1 j=1mfij。則統(tǒng)計(jì)量2 = 2 5i=1 j=1 ij5ijf log以自由度為m 12 的2 分布為極限分布。其中p =ppjijfij/ m fij。給定顯著性水平,若2 x 2m 12,則認(rèn)為狀態(tài)序列符合馬氏性,j=1否則其不可以被認(rèn)為馬爾科夫鏈。基于定理 1,我們對(duì)滬深 300 標(biāo)的進(jìn)行檢驗(yàn),初始日期為 2005.01,初始
29、 2000 個(gè)交易日作為模型的訓(xùn)練樣本。我們對(duì)訓(xùn)練樣本進(jìn)行學(xué)習(xí)和解碼,選取持倉(cāng)時(shí)間為 10天,改變隱藏狀態(tài)的數(shù)量,判斷解碼得到的隱藏狀態(tài)序列是否可以通過(guò)檢驗(yàn)。表 1 :隱藏狀態(tài)數(shù)量變化進(jìn)行馬氏性檢驗(yàn)隱藏變量數(shù)量分位點(diǎn)計(jì)算統(tǒng)計(jì)量3 9.48 109.8 4 16.91 116.66 5 26.29 146.73 6 37.65 173.47 7 50.99 203.87 8 99.33 257.44 資料來(lái)源: 研究所從表 1 中可以發(fā)現(xiàn)解碼后的隱藏狀態(tài)都可以在顯著性水平為 0.05 的水平上認(rèn)為隱藏狀態(tài)序列滿(mǎn)足馬氏性。接著我們固定隱藏狀態(tài)數(shù)量為 6,對(duì)持倉(cāng)周期進(jìn)行變化,來(lái)判斷隱藏狀態(tài)序列是否滿(mǎn)
30、足馬氏性。我們改變持倉(cāng)周期,結(jié)果表明不同的持倉(cāng)周期下隱藏狀態(tài)序列都具有馬氏性,并且可以發(fā)現(xiàn)在 10,20 天左右馬氏性最高,這可能意味著當(dāng)持倉(cāng)周期選取 10 天,20 天左右時(shí)候會(huì)更好的和模型假設(shè)相匹配。我們這里說(shuō)明了隱馬爾科夫模型對(duì)于滬深 300 標(biāo)的進(jìn)行建模的合理性,這說(shuō)明其基本滿(mǎn)足模型的假設(shè)。但預(yù)測(cè)的準(zhǔn)確度還受很多因素影響,我們?cè)诤髢晒?jié)通過(guò)回測(cè)來(lái)說(shuō)明這些變量和因素的影響。表 2: 持倉(cāng)周期變化進(jìn)行馬氏性檢驗(yàn)持倉(cāng)周期分位點(diǎn)計(jì)算統(tǒng)計(jì)量5 37.65 101.21 10 37.65 173.47 20 37.65 184.01 30 37.65 103.19 40 37.65 85.88 資料
31、來(lái)源: 研究所不定長(zhǎng)滾動(dòng)訓(xùn)練分析不定長(zhǎng)滾動(dòng)訓(xùn)練即我們的歷史觀(guān)測(cè)數(shù)據(jù)是不斷增加的,每當(dāng)有新的觀(guān)測(cè)數(shù)據(jù)時(shí)候就把這些數(shù)據(jù)加入歷史數(shù)據(jù)中,所以觀(guān)測(cè)數(shù)據(jù)是在不斷增長(zhǎng)的。我們這里對(duì)滬深 300標(biāo)的進(jìn)行回測(cè),回測(cè)區(qū)間為 2005.01 至 2021.07,初始 2000 個(gè)交易日作為模型的初始訓(xùn)練樣本。我們選取持倉(cāng)周期為 10 天,每 10 天進(jìn)行是否交易的判斷。首先我們對(duì)觀(guān)測(cè)數(shù)據(jù)的維數(shù)進(jìn)行分析,確定觀(guān)測(cè)數(shù)據(jù)維數(shù)對(duì)于回測(cè)結(jié)果的影響。這里隱藏狀態(tài)數(shù)量我們?cè)O(shè)置為 6。我們以持倉(cāng)時(shí)間長(zhǎng)度收益率作為基礎(chǔ)觀(guān)測(cè)變量,分別添加其它觀(guān)測(cè)變量來(lái)判斷添加其進(jìn)入觀(guān)測(cè)變量組合的影響。我們將觀(guān)測(cè)變量組合進(jìn)行編號(hào):1 號(hào)為持倉(cāng)周期收益
32、率;2 號(hào)為持倉(cāng)周期收益率+持倉(cāng)期間夏普比率;3 號(hào)為持倉(cāng)周期收益率+持倉(cāng)期間夏普比率+持倉(cāng)半周期和持倉(cāng)全周期平均成交量之比;4 號(hào)為持倉(cāng)周期收益率+持倉(cāng)期間夏普比率+持倉(cāng)半周期和持倉(cāng)全周期平均成交量之比+持倉(cāng)半周期收益率。結(jié)果如下表所示,可以發(fā)現(xiàn)單變量并不能實(shí)現(xiàn)好的分類(lèi)預(yù)測(cè)效果,這說(shuō)明更多的 觀(guān)測(cè)變量使得對(duì)于隱藏狀態(tài)的分類(lèi)更加準(zhǔn)確。如語(yǔ)音識(shí)別領(lǐng)域中提到過(guò)高的觀(guān)測(cè)變量 維度會(huì)帶來(lái)嚴(yán)重的過(guò)擬合現(xiàn)象,我們這里推薦 4 個(gè)左右的觀(guān)測(cè)維度可以有著不錯(cuò)表現(xiàn)。表 3:觀(guān)測(cè)變量組合對(duì)回測(cè)結(jié)果的影響觀(guān)測(cè)變量組合編號(hào) 夏普比率 年化收益率 總收益率 最大回撤 勝率 交易次數(shù) 1 0.2 0.0734 0.585
33、8 0.3157 0.44 9 2 0.42 0.1645 1.3116 0.42 0.43 30 3 0.54 0.2238 1.7842 0.3122 0.61 18 4 0.65 0.2788 2.223 0.2761 0.74 27 基準(zhǔn) 0.33 0.1345 1.0723 0.467 資料來(lái)源: 研究所接著我們來(lái)對(duì)超參數(shù)隱藏變量進(jìn)行分析,我們這里固定持倉(cāng)周期為 10 天,改變隱藏變量的數(shù)量來(lái)研究隱藏變量的影響。如表 4 所示,當(dāng)隱藏狀態(tài)比較少時(shí)候和隱藏狀態(tài)數(shù)量過(guò)多的時(shí)候都不能獲得良好的回測(cè)表現(xiàn),這是因?yàn)闄C(jī)器學(xué)習(xí)模型的一個(gè)固有問(wèn)題即過(guò)擬合和欠擬合的問(wèn)題,隱藏狀態(tài)數(shù)量作為一個(gè)超參數(shù)對(duì)于
34、調(diào)節(jié)模型對(duì)于已有數(shù)據(jù)的擬合效果具有重要影響。我們希望模型具有好的預(yù)測(cè)效果即需要模型有較強(qiáng)的泛化能力,我們的實(shí)驗(yàn)回測(cè)經(jīng)驗(yàn)告訴我們隱藏狀態(tài)數(shù)量為 6 可以取得較好的預(yù)測(cè)效果。表 4 :隱藏狀態(tài)數(shù)量對(duì)回測(cè)結(jié)果的影響隱藏變量數(shù)量 夏普比率 年化收益率 總收益率 最大回撤 勝率 交易次數(shù) 3 0.14 0.0603 0.4813 0.5258 0.47 38 4 0.03 0.0259 0.2071 0.6091 0.48 31 5 0.54 0.2308 1.8402 0.3449 0.61 13 6 0.65 0.2788 2.223 0.2761 0.74 27 7 0.47 0.1881 1.4
35、998 0.3455 0.55 27 8 0.38 0.1466 1.1694 0.3474 0.5 30 基準(zhǔn) 0.33 0.1345 1.0723 0.467 圖 6 和圖 7 是我們當(dāng)設(shè)定隱藏狀態(tài)數(shù)量為 3 和 6 時(shí)候分別利用維特比算法對(duì)觀(guān)測(cè)變量進(jìn)行解碼得到的效果圖。對(duì)于 2000 個(gè)交易日的訓(xùn)練樣本,基于在該期間內(nèi)學(xué)習(xí)出來(lái)的模型參數(shù)使用維特比算法計(jì)算各個(gè)時(shí)間點(diǎn)的隱藏狀態(tài)數(shù)值,將計(jì)算出來(lái)的隱藏狀態(tài)特征用不同的顏色標(biāo)記出來(lái)。由圖 6 可以觀(guān)察得到時(shí)間被分為了 3 種階段,綠色代表上漲階段,橘色代表下跌階段,藍(lán)色代表震蕩階段。由圖 8 可以觀(guān)察得到,不同的市場(chǎng)隱藏狀態(tài)確實(shí)被隱馬爾可夫模型解
36、碼出來(lái),隱藏狀態(tài) 0 的藍(lán)色,隱藏狀態(tài) 1 的資料來(lái)源: 研究所橘色,隱藏狀態(tài) 2 的綠色和隱藏狀態(tài) 5 的紫色為上漲階段,且隱藏狀態(tài) 0 的紅色主要表述上漲的幅度較大階段;隱藏狀態(tài) 3 的紅色和隱藏狀態(tài) 5 的棕色對(duì)應(yīng)下跌階段;所以模型可以較好的對(duì)當(dāng)前持倉(cāng)周期的交易日內(nèi)有著比較好的解碼效果,其在牛市和熊市以及震蕩市可以做到有效標(biāo)注和區(qū)分。圖 6:隱藏狀態(tài)數(shù)量為 3 時(shí)候解碼效果圖 7:隱藏狀態(tài)數(shù)量為 6 時(shí)候解碼效果資料來(lái)源: 研究所資料來(lái)源: 研究所我們分別對(duì)隱藏狀態(tài)為 3 以及隱藏狀態(tài)為 6 的情況下對(duì)訓(xùn)練樣本的得到的每個(gè)狀態(tài)采取分時(shí)買(mǎi)入的多頭策略,觀(guān)察每種隱藏狀態(tài)在截止到樣本周期內(nèi)最后
37、一日的策略?xún)糁登€(xiàn),如圖 8 和圖 9 所示:當(dāng)隱藏狀態(tài)數(shù)量為 3 的時(shí)候策略?xún)糁蹈哂诔跏純糁?1的隱藏狀態(tài)為 0 和 2,但 0 狀態(tài)對(duì)應(yīng)的凈值曲線(xiàn)存在較大回撤。而當(dāng)隱藏狀態(tài)數(shù)量為 6 的時(shí)候策略?xún)糁蹈哂诔跏純糁?1 的隱藏狀態(tài)為 0,1,2 和 4,且這其中狀態(tài)的策略?xún)糁祹缀鯖](méi)有遇到較大回撤。通過(guò)比較可以顯著發(fā)現(xiàn)隱藏狀態(tài)更多會(huì)對(duì)預(yù)測(cè)收益有著更細(xì)致的分類(lèi),同時(shí)其買(mǎi)入策略?xún)糁档膯握{(diào)性也更好,這對(duì)于提高收益預(yù)測(cè)的勝率有著較大作用。圖 8:隱藏狀態(tài)為 3 時(shí)的分時(shí)買(mǎi)入策略?xún)糁祱D圖 9:隱藏狀態(tài)為 6 時(shí)候的分時(shí)買(mǎi)入策略?xún)糁祱D4.23.22.21.20.2 狀態(tài)0狀態(tài)1狀態(tài)22.11.10.1 狀態(tài)
38、0狀態(tài)1狀態(tài)2狀態(tài)3狀態(tài)4狀態(tài)5資料來(lái)源: 研究所資料來(lái)源: 研究所我們還研究了持倉(cāng)周期對(duì)于回測(cè)的影響,不同的持倉(cāng)周期對(duì)應(yīng)不同交易頻率的投資者,我們來(lái)研究模型是否可以在長(zhǎng)短不同的持倉(cāng)周期下都有著超過(guò)基準(zhǔn)的表現(xiàn)。表 5 持倉(cāng)周期對(duì)回測(cè)結(jié)果的影響持倉(cāng)周期夏普比率年化收益率總收益率最大回撤勝率交易次數(shù)10 0.65 0.2788 2.223 0.2761 0.74 27 基準(zhǔn) 0.33 0.1345 1.0723 0.467 20 0.41 0.1505 1.1946 0.3911 0.61 21 基準(zhǔn) 0.33 0.1281 1.0169 0.467 30 0.02 0.019 0.152 0.4
39、218 0.55 18 基準(zhǔn) 0.33 0.1345 1.0723 0.467 40 0.41 0.1503 1.1804 0.3125 0.85 7 基準(zhǔn) 0.31 0.1219 0.9575 0.467 50 0.52 0.1971 1.5402 0.3246 0.6 5 基準(zhǔn) 0.37 0.152 1.1946 0.467 60 0.41 0.1548 1.2163 0.47 0.625 8 基準(zhǔn) 0.31 0.1211 0.9575 0.467 資料來(lái)源: 研究所如表 5 所示,由于不同的持倉(cāng)周期選取會(huì)導(dǎo)致初始樣本日期不一致,所以每一種持倉(cāng)周期對(duì)應(yīng)不同的基準(zhǔn)。我們可以發(fā)現(xiàn)從較短持倉(cāng)周期
40、的 10 天到較長(zhǎng)持倉(cāng)周期的60 天即季度持倉(cāng)周期都有著超過(guò)基準(zhǔn)的表現(xiàn)。而例外的是持倉(cāng)周期為 30 天的測(cè)試結(jié)果,其顯著低于基準(zhǔn),盡管其勝率依然高于 50的水準(zhǔn),這由于隱馬爾可夫模型的一個(gè)重要參數(shù)是初始參數(shù)的選擇,由于不同的持倉(cāng)周期會(huì)使得初始觀(guān)測(cè)變量不一致從而推斷得到的模型參數(shù)也不一致。但如果僅從勝率的角度來(lái)看,隱馬爾科夫模型依然可以做到對(duì)漲跌的預(yù)判。定長(zhǎng)滾動(dòng)訓(xùn)練分析定長(zhǎng)滾動(dòng)訓(xùn)練即我們的歷史觀(guān)測(cè)數(shù)據(jù)是固定長(zhǎng)度的,每當(dāng)有新的觀(guān)測(cè)數(shù)據(jù)時(shí)候就把新的數(shù)據(jù)加入到歷史數(shù)據(jù)中同時(shí)將歷史數(shù)據(jù)中較早的部分剔除,從而使得歷史觀(guān)測(cè)數(shù)據(jù)始終保持一個(gè)固定的長(zhǎng)度。和上文一樣,我們這里對(duì)滬深 300 標(biāo)的進(jìn)行回測(cè),回測(cè)區(qū)間
41、為 2005.01 至 2021.07,訓(xùn)練樣本的時(shí)間長(zhǎng)度選取 2000 個(gè)交易日。圖 10:定長(zhǎng)滾動(dòng)訓(xùn)練回測(cè)圖 11:不定長(zhǎng)滾動(dòng)訓(xùn)練回測(cè)3.73.22.72.21.71.20.7 HMM擇時(shí)模型基準(zhǔn)(滬深300)4.83.82.81.80.8HMM擇時(shí)模型基準(zhǔn)(滬深300)資料來(lái)源: 研究所資料來(lái)源: 研究所圖 12:定長(zhǎng)滾動(dòng)訓(xùn)練回測(cè)累積超額收益率圖 13:不定長(zhǎng)滾動(dòng)訓(xùn)練回測(cè)累積超額收益率2.52.01.51.00.5 累計(jì)超額收益2.52.01.51.00.5 累計(jì)超額收益資料來(lái)源: 研究所資料來(lái)源: 研究所我們比較了持倉(cāng)周期為 10 天,隱藏狀態(tài)數(shù)量為 6 的定長(zhǎng)滾動(dòng)訓(xùn)練結(jié)果和不定長(zhǎng)滾動(dòng)
42、訓(xùn)練結(jié)果,從結(jié)果來(lái)看不定長(zhǎng)滾動(dòng)訓(xùn)練會(huì)比定長(zhǎng)滾動(dòng)訓(xùn)練稍好,尤其是在勝率的表現(xiàn)上,這是因?yàn)榍罢叩慕灰状螖?shù)較少,其累積了更長(zhǎng)時(shí)間尺度的歷史信息,從機(jī)器學(xué)習(xí)的角度來(lái)看增大了樣本數(shù)量從而減少過(guò)擬合。但定長(zhǎng)滾動(dòng)訓(xùn)練有著較小的最大回撤,因?yàn)槠鋬H選取交易日前一段時(shí)間數(shù)據(jù)進(jìn)行訓(xùn)練,本質(zhì)上是增大了交易日較近歷史數(shù)據(jù)的權(quán)重,降低了更遠(yuǎn)歷史數(shù)據(jù)的權(quán)重,進(jìn)而在某些狀態(tài)上有著更好的識(shí)別。從超額收益率的角度來(lái)看定長(zhǎng)訓(xùn)練法會(huì)獲得更高的超額收益率,但可以從圖 10 和 11 中明顯發(fā)現(xiàn)不定長(zhǎng)訓(xùn)練帶來(lái)的累計(jì)超額收益率存在更大回撤相比于定長(zhǎng)訓(xùn)練方法。這進(jìn)一步印證了定長(zhǎng)訓(xùn)練會(huì)降低較長(zhǎng)歷史數(shù)據(jù)的干擾。表 6 :定長(zhǎng)滾動(dòng)訓(xùn)練和不定長(zhǎng)滾動(dòng)
43、訓(xùn)練的比較夏普比率年化收益率總收益率最大回撤勝率交易次數(shù)定長(zhǎng)滾動(dòng)訓(xùn)練回測(cè) 0.61 0.2403 1.9164 0.2449 0.65 47 不定長(zhǎng)滾動(dòng)訓(xùn)練回測(cè) 0.65 0.2788 2.223 0.2761 0.74 27 基準(zhǔn) 0.33 0.1345 1.0723 0.467 資料來(lái)源: 研究所擇時(shí)策略討論基于隱馬爾可夫模型的擇時(shí)策略是一種機(jī)器學(xué)習(xí)模型測(cè)量,本質(zhì)上是將高維復(fù)雜的觀(guān)測(cè)變量進(jìn)行降維,在更低維度的隱藏狀態(tài)上對(duì)隱藏狀態(tài)之間的轉(zhuǎn)移過(guò)程進(jìn)行擬合,根據(jù)擬合出的轉(zhuǎn)移概率來(lái)對(duì)未來(lái)的隱藏狀態(tài)進(jìn)行預(yù)測(cè)。模型主要包括兩步驟,第一是通過(guò) EM 算法求得模型的參數(shù),第二是通過(guò)維特比算法來(lái)對(duì)隱藏狀態(tài)進(jìn)
44、行解碼。之后根據(jù)隱藏狀態(tài)和轉(zhuǎn)移概率來(lái)對(duì)未來(lái)狀態(tài)預(yù)測(cè)。作為機(jī)器學(xué)習(xí)模型其對(duì)于數(shù)據(jù)的要求比較高,由于我們這里使用了正態(tài)隱馬爾科夫模型,其要求觀(guān)測(cè)變量符合正態(tài)分布的假設(shè),所以對(duì)數(shù)據(jù)需要進(jìn)行合適的處理才能輸入到模型。數(shù)據(jù)還需要滿(mǎn)足隱馬爾科夫模型的三大假設(shè),如果不滿(mǎn)足其三大假設(shè)會(huì)導(dǎo)致擬合預(yù)測(cè)效果變差,如我們?cè)诒?3 的持倉(cāng)周期 30 天例子所示。如何判斷數(shù)據(jù)是否滿(mǎn)足假設(shè)并沒(méi)有一個(gè)直接的統(tǒng)計(jì)檢驗(yàn)手段,根據(jù)機(jī)器學(xué)習(xí)中的經(jīng)驗(yàn),我們推薦將數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,首先在訓(xùn)練集上進(jìn)行模型的參數(shù)和觀(guān)測(cè)變量的調(diào)優(yōu)選擇,之后固定調(diào)優(yōu)參數(shù)在測(cè)試集上進(jìn)行回測(cè)?;陔[馬爾可夫擇時(shí)的資產(chǎn)配置策略資產(chǎn)配置資產(chǎn)配置的研究對(duì)于金融經(jīng)濟(jì)
45、行業(yè)來(lái)講有著非常重要的意義。等權(quán)法(1/N)是就是一種很古老的的資產(chǎn)配置方法。等權(quán)法不需要對(duì)任何參數(shù)進(jìn)行預(yù)測(cè),而只是簡(jiǎn)單地對(duì)資產(chǎn)進(jìn)行平均的分配。盡管其操作極為簡(jiǎn)單,但其卻非常有效,并且在如今的資產(chǎn)的配置中依然有著極高的活力。假設(shè)一個(gè)資產(chǎn)組合 P,由 N 個(gè)子資產(chǎn)構(gòu)成,資產(chǎn)組合的權(quán)重向量為 w,對(duì)于等權(quán)配置模型來(lái)講,模型權(quán)重為wi = = 1/ ,即所有子資產(chǎn)按照相同市值權(quán)重配置。而現(xiàn)代的資產(chǎn)配置的理論起源于 Markowitz 在 1952 年提出的均值方差模型(Mean-Variance Optimization,MVO)。這種方法通過(guò)在組合預(yù)期收益率給定的情況下選擇波動(dòng)率最小的一種資產(chǎn)組合
46、。MVO 是一種經(jīng)典的資產(chǎn)配置方法,許多新的資產(chǎn)配置模型都是建立在其思想上的。它的數(shù)學(xué)表達(dá)式如下:min 2 1 wTwppmax r2= wTr均值方差模型同時(shí)優(yōu)化風(fēng)險(xiǎn)和收益,及最大化組合收益的同時(shí)希望最小化組合風(fēng)險(xiǎn)。這里2表示整個(gè)資產(chǎn)組合的風(fēng)險(xiǎn),r 表示資產(chǎn)組合的收益,r表示子資產(chǎn)的收益pp率。其通過(guò)優(yōu)化來(lái)對(duì)配置權(quán)重進(jìn)行求解。風(fēng)險(xiǎn)平價(jià)法(Risk Parity,RP)是由橋水基金創(chuàng)始人達(dá)里奧首次提出,其初衷是構(gòu)建一個(gè)投資組合使得在不同的經(jīng)濟(jì)環(huán)境中都有文件的表現(xiàn)。簡(jiǎn)單來(lái)講就是對(duì)風(fēng)險(xiǎn)進(jìn)行配平,其不考慮對(duì)收益率進(jìn)行優(yōu)化,而是只對(duì)波動(dòng)率進(jìn)行優(yōu)化,也就是只對(duì)風(fēng)險(xiǎn)進(jìn)行優(yōu)化。其可以被形式化為如下:s.t
47、. wT1 1minw 1w2 p 2 2iiN (w)s.t. wT1 1, constantipp資產(chǎn)的協(xié)方差,在組合波動(dòng)率的約束下就可以得到資產(chǎn)組合的權(quán)重。這里2表示整個(gè)資產(chǎn)組合的波動(dòng)率,基于波動(dòng)率的風(fēng)險(xiǎn)平價(jià)模型只需要輸入子3.2.基于隱馬爾可夫擇時(shí)的資產(chǎn)配置如前文所述,隱馬爾可夫模型可以通過(guò)對(duì)未來(lái)資產(chǎn)價(jià)格變動(dòng)進(jìn)行預(yù)測(cè)來(lái)完成較好的擇時(shí)表現(xiàn),我們進(jìn)一步研究在其基礎(chǔ)上的資產(chǎn)配置模型。這里我們選取了 8 中資產(chǎn)標(biāo)的:滬深 300 指數(shù),中證 500 指數(shù),中證 1000 指數(shù),中債企業(yè)債財(cái)富指數(shù),COMEX 黃金,COMEX 白銀,COMEX 銅,布倫特原油。囊括了股票,債券,大宗商品,黃金等
48、 資產(chǎn)。我們分別使用等權(quán)配置,均值方差模型配置,風(fēng)險(xiǎn)平價(jià)模型配置三種方法,來(lái) 研究隱馬爾可夫模型擇時(shí)的資產(chǎn)配置方法。我們選取的回測(cè)區(qū)間是 2011.04-2021.08。首先是等權(quán)配置下的策略表現(xiàn),如表 7 所示,可以發(fā)現(xiàn)在等權(quán)配置下我們的策略相比于基準(zhǔn)有著大幅的提高,這是由于隱馬爾可夫在單一子資產(chǎn)上進(jìn)行了擇時(shí)增強(qiáng),從而在等權(quán)下表現(xiàn)出來(lái)了顯著增強(qiáng)。圖 14:等權(quán)配置模型不同調(diào)倉(cāng)周期累計(jì)收益走勢(shì)圖2.62.11.61.10.611-0412-0413-0414-0415-0416-0417-0418-0419-0420-0421-04季度原始季度擇時(shí)半年原始半年擇時(shí)年度原始年度擇時(shí)資料來(lái)源: 研
49、究所表 7: 等權(quán)配置下的策略表現(xiàn)調(diào)倉(cāng)頻率夏普比率年化收益率總收益率最大回撤年化超額收益率總超額收益率季度 0.82 11.13% 112.85% 16.80% 7.70% 84.98% 基準(zhǔn) 0.28 3.43% 37.87% 29.86% 半年 0.85 11.78% 130.09% 17.00% 8.40% 92.70% 基準(zhǔn) 0.28 3.38% 37.39% 29.51% 年度 0.85 11.79% 130.15% 16.73% 8.54% 94.31% 基準(zhǔn) 0.27 3.24% 35.83% 29.77% 資料來(lái)源: 研究所接著我們研究均值方差模型配置下的表現(xiàn),由于均值方差需要對(duì)協(xié)方差進(jìn)行估計(jì),我們是用日頻數(shù)據(jù)作為輸入,較小的樣本點(diǎn)會(huì)帶來(lái)估計(jì)的不穩(wěn)定性??梢园l(fā)現(xiàn)季度調(diào)倉(cāng)頻率收益會(huì)略低于基準(zhǔn),但從夏普比率角度來(lái)看策略依然相對(duì)于基準(zhǔn)有
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年工業(yè)自動(dòng)化儀表項(xiàng)目發(fā)展計(jì)劃
- 二零二五年度新能源車(chē)輛采購(gòu)合同終止合同通知書(shū)
- 2025年度航空航天保險(xiǎn)合同
- 二零二五年度物流信息化運(yùn)輸合同及大數(shù)據(jù)分析服務(wù)協(xié)議
- 2025年度雇主責(zé)任保險(xiǎn)賠償協(xié)議書(shū)模板
- 二零二五年度影視演員合同終止合同
- 2025年度科研實(shí)驗(yàn)樓空間方式租賃服務(wù)協(xié)議
- 二零二五年度房地產(chǎn)貸款合同變更協(xié)議
- 二零二五年度個(gè)人出租車(chē)夜間服務(wù)承包協(xié)議
- 二零二五年度新型環(huán)保材料工業(yè)產(chǎn)品購(gòu)銷(xiāo)合同范本
- 師德師風(fēng)培訓(xùn)筆記
- 養(yǎng)老護(hù)理練習(xí)題庫(kù)(含答案)
- 醫(yī)療廢物相關(guān)法律法規(guī)培訓(xùn)課件
- 特種設(shè)備生產(chǎn)和充裝單位許可規(guī)則
- 女生自尊自愛(ài)知識(shí)講座
- 2025年兒童青少年近視防控白皮書(shū)
- 小學(xué)生春季傳染病預(yù)防
- deepseek在智慧城市建設(shè)中的應(yīng)用前景
- 2024黑龍江公務(wù)員考試【A類(lèi)、B類(lèi)、省直、筆試】四套真題及答案
- 2025年九江職業(yè)大學(xué)高職單招職業(yè)技能測(cè)試近5年??及鎱⒖碱}庫(kù)含答案解析
- 第七章 力 達(dá)標(biāo)測(cè)試卷(含答案)2024-2025學(xué)年度人教版物理八年級(jí)下冊(cè)
評(píng)論
0/150
提交評(píng)論