




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
《金融與財務機器學習》復習思考題答案第一章金融領(lǐng)域的機器學習1.闡述機器學習的主要思想和步驟。機器學習的主要思想是用先驗知識設計一個合理的結(jié)構(gòu),再用實際經(jīng)驗對這一結(jié)構(gòu)的細節(jié)進行修正和優(yōu)化;其主要步驟包括數(shù)據(jù)預處理、特征提取、特征轉(zhuǎn)換和預測。2.闡述機器學習在金融領(lǐng)域適用的主要原因。機器學習在金融領(lǐng)域適用的主要原因是金融對機器學習具有需求性,即在解決金融問題中,會遇到預測問題的高維的特性、傳統(tǒng)金融模型的稀疏性假設等問題。而機器學習具有解決上述問題的優(yōu)勢:在數(shù)據(jù)高維特性的處理方面,機器學習方法強調(diào)變量選擇和降維技術(shù)減少自由度并壓縮預測變量之間的冗余變化,非常適合解決高維情境下的預測問題;機器學習工具箱給我們提供了無需在預測問題上施加特殊稀疏性分析資產(chǎn)價格的機會,稀疏性假設問題得到很好地解決。此外,機器學習能夠提供更加豐富的函數(shù)形式,適合更多金融領(lǐng)域的運用場景。3.闡述機器學習在金融領(lǐng)域不適用的主要原因。機器學習在金融領(lǐng)域不適用的主要原因是金融數(shù)據(jù)存在著“小數(shù)據(jù)性”、信噪比較低、模型穩(wěn)定性較差等特點,這些特點使人們在金融領(lǐng)域運用機器學習到時必須經(jīng)過謹慎的考慮。
第二章Python軟件使用簡介1. Python通常如何調(diào)用第三方程序包?Python中可使用import語句導入第三方程序包,也可使用“from…import…as”語句導入第三方程序包中的部分函數(shù)。2. Python序列包含哪些類型?Python中序列類型包括字符、元組、列表、字典和集合。字符串用于記錄文本信息以及任意字節(jié)集合,字符串使用引號來界定;元組是固定長度,不可變的Python對象序列;列表是長度可變,內(nèi)容也可變的Python對象序列;字典是一系列鍵值對集合,鍵值對是兩個相關(guān)聯(lián)的值,可以使用鍵來訪問相關(guān)的值;集合是無序、對象可變的Python對象序列。3. Python常用的第三方庫有哪些?常用第三方庫包括多維數(shù)組Numpy、面板處理Pandas、科學計算Sympy、統(tǒng)計分析Statsmodels、金融計量Linearmodes和機器學習Scikit-learn(sklearn)。4. Python怎么處理缺失值?面對缺失值一般處理方法可以分為:過濾缺失值、填充缺失值、不處理三種方法。Pandas中提供了dropna()和fillna()兩個指令來進行數(shù)據(jù)清理,其中dropna()用于過濾缺失值,fillna()可對缺失數(shù)據(jù)進行填充。5. Python常用內(nèi)置機器學習包有哪些?Scikit-learn(sklearn)是機器學習中常用的第三方模塊,包括回歸(Regression)、降維(DimensionalityReduction)、分類(Classfication)、聚類(Clustering)等機器方法。Python中深度學習的程序包主要包括Pytorch和Tensorflow。
第三章金融大數(shù)據(jù)的處理與分析1.國內(nèi)常用的金融數(shù)據(jù)庫有哪些?金融領(lǐng)域?qū)嵶C研究和業(yè)界處理中常用的金融數(shù)據(jù)庫有國內(nèi)的國泰安數(shù)據(jù)庫、萬得資訊、中國研究數(shù)據(jù)服務平臺以及獲取國外數(shù)據(jù)的CRSP數(shù)據(jù)庫。不同的數(shù)據(jù)庫側(cè)重和覆蓋不同金融研究層面,且有各自的優(yōu)缺點。2.請列舉幾個常用描述性統(tǒng)計常用工具。描述性統(tǒng)計常用工具包括:均值、方差、中位數(shù)、偏峰度、各類相關(guān)系數(shù)。3.請簡要闡述數(shù)據(jù)預處理的基本流程。數(shù)據(jù)預處理的基本流程為檢查缺失值并處理、異常值識別與處理、數(shù)據(jù)標準化。4.什么是標準差法?該方法的主要用途是什么?標準差方法也被稱為“3σ”方法,在給定的樣本xtt=1T中,那些落在樣本均值的3倍標準差范圍內(nèi)的數(shù)據(jù)點即可被認為是異常點,我們可以定義上(下)閾值為:t?ret?o該方法的主要用途是設立臨界值后識別樣本異常值。5.簡要闡述截尾法和縮尾法的區(qū)別。截尾方法將任何大于上閾值或任何小于下閾值的數(shù)據(jù)點從樣本中刪除??s尾方法將樣本中大于上閾值的數(shù)據(jù)點直接設置為上閾值,將任何小于下閾值的數(shù)據(jù)點設置為下閾值。6.什么是Z值標準化(Z-Score)法?Z-Score處理方法為將觀測值減去總體均值后除以總體方差,將數(shù)據(jù)轉(zhuǎn)化為均值為0方差為1的分布。其計算公式為:Z=Z值標準化計算簡單,使得不同量級的數(shù)據(jù)便于比較,是最常用的標準化方法。第四章因子與因子模型1.解釋因子、資產(chǎn)價格異象和因子定價模型。“因子”是系統(tǒng)性風險的一種定量表現(xiàn)形式,描述了眾多資產(chǎn)共同暴露的某種系統(tǒng)性風險。資產(chǎn)價格異象是指傳統(tǒng)因子定價模型中無法解釋的收益率序列中持續(xù)存在的規(guī)律性模式。因子模型模型是一種定量的建模方法,它將資產(chǎn)的預期收益率分解為系統(tǒng)性風險影響部分和定價誤差部分。2.闡述Fama-French三因子模型的基本結(jié)構(gòu)、所反映的異象、異象的代理變量以及代理變量的構(gòu)造。Fama-French三因子模型的基本結(jié)構(gòu)是:所反映的異象是規(guī)模異象和價值異象。規(guī)模異象選取的代理變量是市值,價值異象選取的代理變量是賬面市值比。代理變量的構(gòu)造方法:(一)取紐交所上市公司市值的中位數(shù),將三個市場中市值高于中位數(shù)的股票分入V-B(大市值)組,其他分入V-S(小市值)組。(二)取上市公司賬面市值比的上30分位數(shù)和下30分位數(shù),將三個市場中賬面市值比高于上30分位數(shù)的股票分入BM-H組,賬面市值比低于下30分位數(shù)的股票分入BM-L組,其他股票分入BM-M組。(三)根據(jù)以上的雙因子排序,得到一共六個組別,即S/H、S/M、S/L、B/H、B/M和B/L組。(四)根據(jù)以上分組,規(guī)模因子的超額收益等于三個小市值組合(S/H、S/M和S/L)的等權(quán)平均收益率減去三個大市值組合(B/H、B/M和B/L)的等權(quán)平均收益率;而價值因子的超額收益等于兩個高賬面市值比組合(S/H和B/H)的等權(quán)平均收益減去兩個低賬面市值比組合(S/L和B/L)的等權(quán)平均收益。3.闡述Fama-French五因子模型的基本結(jié)構(gòu)、所反映的異象、異象的代理變量以及代理變量的構(gòu)造。Fama-French三因子模型的基本結(jié)構(gòu)是:所反映的異象是規(guī)模異象、價值異象、盈利異象和投資異象。規(guī)模異象選取的代理變量是市值,價值異象選取的代理變量是賬面市值比,盈利異象選取的代理變量是股權(quán)收益率,投資異象選取的代理變量是總投資變化率。代理變量的構(gòu)造方法:(一)取紐交所上市公司市值的中位數(shù),將三個市場中市值高于中位數(shù)的股票分入V-B(大市值)組,其他分入V-S(小市值)組。(二)取上市公司權(quán)益收益率的上30分位數(shù)和下30分位數(shù),將三個市場中權(quán)益收益率高于上30分位數(shù)的股票分入ROE-R組,權(quán)益收益率低于下30分位數(shù)的股票分入ROE-W組,其他股票分入ROE-N組。(三)根據(jù)以上的雙因子排序,一共得到六個組別,即S/R、S/N、S/W、B/R、B/N和B/W組,(四)計算盈利因子的超額收益,其公式為:RRMV(五)取上市公司總投資變化率的上30分位數(shù)和下30分位數(shù),將三個市場中總投資變化率高于上30分位數(shù)的股票分入總資產(chǎn)變化率-A組,總投資變化率低于下30分位數(shù)的股票分入總資產(chǎn)變化率-C組,其他股票分入總資產(chǎn)變化率-N組。(六)根據(jù)以上的雙因子排序,得到一共六個組別,即S/A、S/N*、S/C、B/A、B/N*和B/C組(*是為了和盈利因子的分組相區(qū)別),根據(jù)以上分組計算投資因子的超額收益。其公式為:RRMV值得注意的是,規(guī)模因子的構(gòu)建是基于其他三個因子的分組排序結(jié)果的。在價值因子、盈利因子和投資因子的提取過程中,我們分別用賬面市值比、權(quán)益收益率和總資產(chǎn)變化率對市值進行了雙因子排序,一共得到了18(3*6)個投資組合;根據(jù)以上分組計算規(guī)模因子的超額收益。其公式為:R1/9(R4.闡述CH-3模型的基本結(jié)構(gòu)、所反映的異象、異象的代理變量以及代理變量的構(gòu)造。CH-3模型的基本結(jié)構(gòu)是:所反映的異象是規(guī)模異象和價值異象。規(guī)模異象選取的代理變量是市值,價值異象選取的代理變量是賬面市值比。代理變量的構(gòu)造方法:(一)按照市值對上市公司進行排序,剔除市值最小的30%的股票,形成新的數(shù)據(jù)集;(二)取新的數(shù)據(jù)集中上市公司市值的中位數(shù),將市場中市值高于中位數(shù)的股票分入V-B(大市值)組,其他分入V-S(小市值)組。(三)取上市公司市盈率的上30分位數(shù)和下30分位數(shù),將三個市場中市盈率高于上30分位數(shù)的股票分入EP-V組,市盈率低于下30分位數(shù)的股票分入EP-L組,其他股票分入EP-G組。(四)根據(jù)以上的雙因子排序,得到一共六個組別,即S/V、S/M、S/G、B/V、B/M和B/G組,根據(jù)以上分組,計算規(guī)模因子的超額收益,其公式為:RSMB=1/3((五)計算價值因子的超額收益,其公式為:RSMB5.總結(jié)Fama-French五因子模型和CH-3模型在Fama-French三因子模型上所做的改進及改進的動機。Fama和French從股利貼現(xiàn)模型出發(fā),推導出公司價值是各期凈利潤和公司賬面變動之差的貼現(xiàn)值之和,且發(fā)現(xiàn)預期收益率和預期盈利呈正相關(guān),與預期投資呈負相關(guān)。于是,他們在Fama-French三因子模型的基礎上加入了盈利因子和投資因子,提出了新的Fama-French五因子模型。Liu等根據(jù)中國市場上存在的殼效應,在構(gòu)建因子時剔除了市值最小的30%的公司的數(shù)據(jù);通過應用Fama-macbeth回歸,發(fā)現(xiàn)在中國市場上相較于賬面市值比,市盈率能更好地反映價值效應;綜合以上兩點,提出了CH-3模型。6.解釋時變性問題及其背后的原因。因子的時變性是指某些因子在某些時間區(qū)間表現(xiàn)良好的預測能力,但卻在其他期間失效。其主要原因有:P-hacking、多重檢驗問題、出版后的復制問題以及經(jīng)濟數(shù)據(jù)的修正問題。
第五章因子模型的估計、檢驗與解釋1、簡單闡述單變量組合分析的具體步驟。單變量組合分析的步驟主要包括股票分組、投資組合調(diào)整、投資組合收益率計算以及統(tǒng)計檢驗四個部分。第一,在股票分組部分,須要按照排序變量分位數(shù)確定好各組斷點,并根據(jù)斷點將股票依序定組。第二,在投資組合調(diào)整部分,須要對股票的分組情況按照月、季度或年的固定頻率進行定期調(diào)整,對股票進行重新分組。第三,在投資組合收益率計算部分,須要對分組后的股票計算組內(nèi)的等值加權(quán)或者市值加權(quán)的股票收益率。第四,在統(tǒng)計檢驗部分,須要檢驗排序變量對收益率是否存在顯著影響,并判斷這種影響的單調(diào)性,具體實踐方法可以分別通過檢驗計算得出的組合收益率是否顯著為0以及計算出每個組平均截面收益率的Spearman等級相關(guān)系數(shù)來實現(xiàn)。2、因子模擬組合法包含幾種方法?具體闡述它們的流程。因子模擬組合法包含排序分組法、Fama-MacBeth兩階段回歸方法、最大相關(guān)性投資組合方法、方差最小化法和三步回歸法這三種方法。第一種,排序分組法下,首先須要先將宏觀變量等特征變量映射資產(chǎn)的回報率中,通過時間序列回歸的方法估計出每個資產(chǎn)對該特征變量的風險暴露。接著,將該回歸系數(shù)作為資產(chǎn)的排序變量,對資產(chǎn)進行單變量排序,把資產(chǎn)劃分為固定數(shù)量的組合,并構(gòu)建多空組合,最后計算出因子收益率。第二種,F(xiàn)ama-MacBeth兩階段回歸方法下,第一步與組合排序分組法在開始單變量分組之前實施的步驟相同,將基礎資產(chǎn)收益率與特征變量進行時間序列回歸,估計出每個資產(chǎn)對該特征變量的因子載荷;第二步先對每個資產(chǎn)的收益率取時間序列上的均值,再將每個資產(chǎn)的收益率均值和第一步估計出來的因子載荷進行一次OLS橫截面回歸,估計出因子風險溢價。第三種,最大相關(guān)性投資組合方法下,先基于單變量回歸估計出不可交易因子的資產(chǎn)載荷,接著以最大化每個因子模擬組合與所要構(gòu)建的不可交易因子之間的相關(guān)性為目標,求解最優(yōu)化問題,最后得到相應不可交易因子的風險溢價。第四種,方差最小化法下,建立一個通用的最小方差因子模擬投資組合構(gòu)建框架,計算投資組合權(quán)重和因子投資組合的目標暴露,通過最優(yōu)化問題求解不可交易因子的風險溢價。第五種,三步回歸法下,共分為三個步驟。第一步是PCA步驟,通過主成分分析(PrincipalComponentsAnalysis,PCA)從基礎資產(chǎn)回報中提取收益率的前L個(L≤N)主成分,并將不可交易因子投射到這L個主成分上,得到經(jīng)過基礎資產(chǎn)映射之后的因子和相應的因子載荷。第二步是橫截面回歸步驟,對資產(chǎn)的平均收益和第一步計算得到的因子載荷進行OLS橫截面回歸,估計出因子模擬投資組合的風險溢價。第三步是時間序列回歸步驟,將第二步得到的風險溢價與第一步經(jīng)過映射得到的因子進行時間序列回歸,得到因子模擬投資組合的權(quán)重,并將該權(quán)重與第二步估計出來的投資組合風險溢價相乘,最終得到三步回歸法的風險溢價估計值。3、時序回歸法的Alpha檢驗和GRS檢驗的差別是什么?Alpha檢驗主要是針對單個指標或者單個股票進行的,它檢驗在一定的假設條件下,單個Alpha為0的原假設是否成立。而GRS檢驗是針對多個指標或者多個股票進行的,它可以對一系列股票的Alpha進行聯(lián)合檢驗,即檢驗在一定的假設條件下,所有候選股票的Alpha聯(lián)合為0的原假設是否成立。4、比較Fama-MacBeth兩階段回歸和三階段回歸的異同。Fama-MacBeth兩階段回歸和三階段回歸均是估計因子收益率的回歸方法。Fama-MacBeth回歸根據(jù)因子暴露是否具有時變性,可以分為兩階段回歸和三階段回歸。簡單來說,兩種回歸的第一階段是相同的,均是通過上一節(jié)所介紹的時間序列回歸求得資產(chǎn)的因子暴露的估計值βi',但兩階段回歸是“先求均值,再求回歸”,而Fama-MacBeth三階段回歸的核心思想是“先求回歸,再求均值”,有效防止了截面上αit的相關(guān)性影響因子收益率的估計值。不過,兩種回歸的目標卻“不謀而合”,學術(shù)界中大部分時候都是為了檢驗因子預期收益率λ
,并且在因子暴露βi'不具備時變性(即常數(shù))的情況下,兩階段回歸和三階段回歸的估計結(jié)果是一致的;當因子暴露β5、可以從哪些角度解釋因子模型?可以從風險補償、錯誤定價和數(shù)據(jù)窺探這三個角度來解釋因子模型。如果因子確實可以獲得超額收益,則其可以歸因于風險補償、錯誤定價角度;而如果構(gòu)建的新因子并不是真實存在,而是由于過擬合所帶來的巧合,這種時候就歸因于數(shù)據(jù)挖掘(或數(shù)據(jù)窺探)。其中,風險補償?shù)呐袛喾椒òǔWR判斷、宏觀經(jīng)濟判斷和定價模型檢驗這三種方法,錯誤定價的判斷方法包括業(yè)績公告期、預測未來基本面、有限注意力和套利成本這四種方法,數(shù)據(jù)挖掘的判斷方法則包括交易成本、機智的套利者和因子擁擠這三種方法。
第六章金融資產(chǎn)收益預測1.闡述資產(chǎn)收益率短期不可預測性的原因來源。當間隔的兩個時間點非常接近時,安全利率接近零,經(jīng)濟狀況變化不大,因此隨機折扣因子也變化不大,可以假設其為1。此時根據(jù)無摩擦市場條件下的均衡定價公式Pt=EtMt+1Vt+1可知,短期內(nèi)股價運動是一個鞅過程,即股價符合隨機游走的形式。闡述樣本內(nèi)預測模型和樣本外預測模型的聯(lián)系與區(qū)別。樣本內(nèi)預測和樣本外預測都是進行金融資產(chǎn)收益預測的重要步驟。樣本內(nèi)預測是指用全部觀測值來估計模型,然后用估計得到的模型對其中的一部分觀測值進行預測;而樣本外預測是指將全部觀測值分為兩部分,部分用來估計模型(這也算是樣本內(nèi)預測,只不過并沒有使用了全樣本的數(shù)據(jù)),然后用估計得到的模型對另一部分數(shù)據(jù)進行預測。在股票收益的時間序列的分析中,樣本內(nèi)預測是時間序列資產(chǎn)定價的開始,但目前無論學者還是現(xiàn)實世界的投資者,大家更關(guān)心的是樣本外預測。闡述主要的模型評價方法。模型的主要評價方法包括樣本外預測評價和投資價值評估評價。其中,樣本外預測評價主要通過統(tǒng)計量進行比較,包括ROS2統(tǒng)計量、經(jīng)調(diào)整的t統(tǒng)計量,以及經(jīng)調(diào)整的MSFE統(tǒng)計量;投資價值評估評價是看收益預測模型是否會產(chǎn)生顯著的經(jīng)濟價值4.闡述Campbell-Shiller分解的基本思想。Campbell-Shiller分解基于現(xiàn)值模型,通過泰勒展開將股票的現(xiàn)價、未來的分紅及收益的關(guān)系式進行線性化,將股息價格比(D/P)的對數(shù)分解為未來期望收益對數(shù)折現(xiàn)率和對數(shù)股息變化的加權(quán)和。Campbell-Shiller的現(xiàn)金流折現(xiàn)率分解告訴我們:當股息價格比(D/P)較高時,必然是由于以下3個原因(其一或全部):(1)未來股息會上升;(2)未來的股票收益率會變低;(3)存在著“泡沫”,即價格的過度波動現(xiàn)象。
第七章包含懲罰項的線性回歸模型1.闡述在時序和橫截面使用普通最小二乘法時的差異。自變量和因變量的時間截點不同。OLS在時序回歸中的自變量與因變量并不完全在同一時間截點,存在跨期的情況;而OLS在橫截面下的自變量與因變量均為一個時間截點上的,不存在跨期的情況。2.OLS模型在高維數(shù)據(jù)下存在什么問題?OLS模型在高維數(shù)據(jù)下會存在“維數(shù)災難”的問題,高維數(shù)據(jù)會帶來較多的預測變量,而過多的預測變量可能會降低模型的預測準確率。若觀測個數(shù)m遠大于預測變量個數(shù)n時,OLS的方差較低。然而,不滿足m遠遠大于n的情況下,OLS回歸得到的結(jié)果可能會出現(xiàn)過擬合的情況,此時模型在測試集上的表現(xiàn)較差。倘若n>m,使用OLS模型將會得到多個系數(shù)估計結(jié)果,方差也變得無窮大,此時不再適用OLS的方法。3.為什么要對線性回歸模型加入懲罰項?OLS模型通常無法解決自變量個數(shù)較多帶來的模型解釋力和預測精度下降的問題,一般需要采用其他方法來對線性回歸模型進行修正。歸根結(jié)底,自變量數(shù)量較多的問題最終影響到的是自變量前面的模型參數(shù),使得參數(shù)估計值不準確??梢酝ㄟ^對系數(shù)進行約束或者加以懲罰的方式來對自變量個數(shù)較多的模型進行擬合,從而降低參數(shù)估計的方差,提高參數(shù)估計的準確率,增強模型的擬合效果。4.對比LASSO、嶺回歸和彈性網(wǎng)絡在幾何模型上的差別并闡述其在大數(shù)據(jù)變量挑選時的不同。類似地,這幾個模型都是在基本線性回歸模型上對參數(shù)施加約束或者懲罰的模型,因此,他們的幾何模型都是在基本線性回歸的目標函數(shù)上引入懲罰項的;不同的是,這幾個方法施加的懲罰項不同。具體而言,嶺回歸只是在幾何模型上施加了L2范數(shù)的懲罰項,LASSO只是在幾何模型上施加了L1范數(shù)的懲罰項,而彈性網(wǎng)絡則是在幾何模型上同時施加了L1和L2范數(shù)的懲罰項。在變量挑選上,嶺回歸可以壓縮變量,LASSO可以篩選變量,而彈性網(wǎng)路則是同時具有變量壓縮和變量篩選的功能。5.哪些施加懲罰項的線性回歸模型能夠壓縮變量?哪些能夠選擇變量?嶺回歸和彈性網(wǎng)絡可以壓縮變量,LASSO和彈性網(wǎng)絡可以選擇變量。6.調(diào)節(jié)參數(shù)或懲罰參數(shù)的選擇標準有哪些?如何判斷哪些模型是較優(yōu)的?調(diào)節(jié)參數(shù)或懲罰參數(shù)的選擇標準包括信息準則判斷和交叉驗證兩種方法。其中,信息準則的模型選擇方法包括赤池信息準則(AkaikeInformationCriterion,AIC)和貝葉斯信息準則(BayesianInformationCriterion,BIC),交叉驗證的模型選擇方法則包括交叉驗證法和廣義交叉驗證法。通常情況下,AIC準則低、BIC準則低、交叉驗證法下的均方誤差低的模型是較優(yōu)模型。
第八章數(shù)據(jù)降維模型1.闡述“降維”這一概念背后的現(xiàn)實邏輯。降維即通過數(shù)學變換將高維空間數(shù)據(jù)投射到低維空間中,并在這一過程中最大程度的保留重要信息,使得縮放后各個特征之間的距離與原始空間中的距離盡可能接近。2.對比主成分分析與其他幾類線性降維模型之間的差異。首先,主成分回歸只利用了自變量的信息,根據(jù)協(xié)方差矩陣求得主成分,而偏最小二乘法利用了因變量和自變量的信息。其次,主成分回歸是對數(shù)據(jù)做了一個正交變換,因此主成分之間都是正交的,而偏最小二乘法則不一定。最后,在確定主成分個數(shù)的時候,兩者都可以通過交叉檢驗確定,但是主成分回歸一般使用信息占比值來確定,一般來說大于0.8就行了。3.對比線性降維模型與非線性降維模型之間的差異。由于高維空間與低維空間的關(guān)系不同,故降維模型可以分為線性將為模型與非線性降維模型。線性降維方法假設從高維空間到低維空間的函數(shù)映射是線性的,但是在世紀生活中,線性的映射不一定能找到一個合適的低維嵌入,故需要選擇非線性映射,即非線性降維模型。
第九章樹模型與分類模型1.闡述邏輯回歸的步驟。完整的邏輯分類,一般需要4個步驟:線性求和、函數(shù)映射、計算誤差以及修正參數(shù)。首先,進行線性求和。假設有一個n維的輸入列向量
x,也有一個n維的參數(shù)列向量h,還有一個偏置量b(類似于二維的直線方程
y=ax+b中的b),那么通過線性求和可得:z=?式中,z的值域為[?∞,+∞],現(xiàn)狀我們還無法根據(jù)z來判斷x到底是屬于0類還是1類的。其次,我們利用激活函數(shù)進行函數(shù)映射。以Sigmoid函數(shù)為例,讓z的值映射到[0,1]之間,即:y=σ(z)=σ(式中,y的值域為[0,1]。最后,計算誤差,并進行參數(shù)的修正。假設我們期望輸入的判定值是u,而實際得到的判定值是y,為了使u盡可能接近y,我們會先計算;隨后,我們通過迭代計算修正h和b的值。如果我們將損失函數(shù)C(u,y)定義為用來描述u和y之間差距的損失函數(shù),那么我們的目的使C(u,y)最小化。通過不斷迭代,我們能夠計算得出h和b的最優(yōu)解,進而確定最優(yōu)模型,得到最好的分類結(jié)果。2.闡述樹形模型非線性特征的來源。樹形結(jié)構(gòu)通過分支引入了“非線性”的概念,基于樹的模型本身就是非線性的。分叉作為是樹形模型最重要的結(jié)構(gòu),可以將具有不同特征的樣本進行分類,類比人類在面對問題時自然的決策機制,定義為“決策樹”模型。一顆典型的決策樹包含一個初始根節(jié)點,若干個延展出的內(nèi)部節(jié)點和包含最終決策結(jié)果的葉節(jié)點,而具體節(jié)點數(shù)取決于模型初始設定的參數(shù)。使用決策樹決策的過程即從根節(jié)點開始,選擇一個特征作為當前節(jié)點的分裂標準,自上而下生成子節(jié)點,直到到達葉子節(jié)點得出分類決策的結(jié)果。3.闡述樹形模型的度量指標,并試析信息增益作為劃分標準的缺陷。樹形模型常見的度量指標有三種,信息熵與信息增益,信息增益率和基尼系數(shù)。決策樹的生成便是使用某特征對數(shù)據(jù)集進行劃分,從而使得劃分后各數(shù)據(jù)子集的純度比劃分前的數(shù)據(jù)集純度高,這種劃分前后純度的差值稱為信息增益。信息增益率就是在信息增益指標的基礎上增加一個懲罰參數(shù),該懲罰參數(shù)即為所選特征信息熵的倒數(shù)?;嵯禂?shù)表示在訓練集中隨機選中一個樣本,此樣本被分類錯誤的概率。信息增益準則的缺點是對取值較多的屬性有所偏好。一旦有一個指標對每一個樣本都有不同取值,再以該指標為劃分依據(jù),那每個結(jié)點的熵就為0,則所有分支結(jié)點的總熵也為0,那么這個特征的信息增益就一定是最大的。因此如果此時用信息增益準則作為屬性劃分的依據(jù),最后根節(jié)點必然都是該指標劃分的結(jié)果,但是顯然這是不對的。4.闡述對樹形模型進行剪枝的原因并比較不同剪枝方法的差異。在分支過程中面臨的問題在于當使用的屬性過多,模型訓練的“過好”則會出現(xiàn)過擬合的情況。此時,需要主動刪除決策樹模型的一些分支,來降低“過擬合”的風險。預剪枝的原理是設定一些規(guī)則極早地停止樹的擴散,這些規(guī)則包括但不限于:對樹的深度設置一個閾值、設置每個葉片節(jié)點中所包含樣本的最小值、不純度指標單次下降幅度的下限等。而后剪枝的操作與預剪枝相反,在決策樹模型構(gòu)建完成后進行剪枝處理,通過刪除節(jié)點的分支來剪去中間節(jié)點或者葉節(jié)點達到后剪枝的目的。預剪枝提前使很多分支都沒有展開,降低了過擬合的風險,但是這個分支下的后續(xù)劃分可能是非常有用的。從這點考慮,預剪枝是基于”貪心“的本質(zhì)來禁止分支以及后續(xù)的展開,在降低過擬合的同時也有欠擬合的風險。相比預剪枝,后剪枝的優(yōu)點是后剪枝決策樹通常比預剪枝決策樹保留了更多的分支,而且后剪枝決策樹的欠擬合風險很小,泛化性能往往優(yōu)于預剪枝決策樹。但后剪枝的缺點是決策樹訓練時間開銷比未剪枝決策樹和預剪枝決策樹都要大的多。在后剪枝中最常用的主要有最小誤差剪枝法、悲觀剪枝法和代價復雜性剪枝法。最小誤差剪枝方法和代價復雜度法等方法從生成決策樹自下而上進行剪枝處理,而悲觀剪枝法是一種完全使用訓練數(shù)據(jù)來進行剪枝的方法,而且采用自上而下的剪枝的策略。5.說明Boosting和Bagging兩類集成算法的差異。Boosting算法是基于“串聯(lián)”模型的思想來提高弱學習器準確度的集成方法。Bagging通過并行的方式同步生成多個基學習器,最終通過集合所有學習器的結(jié)果來得到訓練結(jié)果。不同于Boosting,Bagging生成的基學習器之間并沒有“依附”關(guān)系,每個模型通過隨機設定樣本集和特征數(shù)來得到。6.試析AdaBoost模型和GBDT模型的異同。梯度下降樹模型和Adaboost模型有很大的不同。首先二者使用的基學習器不同,AdaBoost算法利用單層決策樹的誤差來更新樣本權(quán)重值,然后進行迭代;而GBDT要求弱學習器必須是分類與回歸樹模型。其次由于使用了CART模型,因此相比AdaBoost通過提升錯分數(shù)據(jù)點的權(quán)重來定位模型的不足,GBDT模型可以使用更多種類的目標函數(shù),通過計算目標函數(shù)的梯度,使用梯度下降的方式來減少訓練誤差。因此GBDT常用在處理連續(xù)數(shù)據(jù)的回歸問題中,此時目標函數(shù)可以為均方誤差等。7.闡述XGBoost模型在GBDT算法基礎上做了哪些方面的優(yōu)化。具體優(yōu)化方面如下:(1)GBDT的基分類器只支持CART樹,而XGBoost支持線性分類器;(2)GBDT在優(yōu)化時只使用了一階倒數(shù),而XGBoost對目標函數(shù)進行二階泰勒展開;(3)XGBoost在訓練之前,對數(shù)據(jù)預先進行排序并保存為block,后續(xù)迭代中重復使用,并最終實現(xiàn)對基回歸樹的并行構(gòu)建;(4)與GBDT不同的是,在構(gòu)建目標函數(shù)時,XGBoost不僅使用了損失函數(shù),還加入代表了所有決策樹復雜程度的正則化項來防止過擬合,盡可能保證模型的泛化能力。8.闡述隨機森林模型為何能成為機器學習方法最受歡迎的模型之一。隨機森林中的“隨機”就是指的上述過程中的樣本隨機性和屬性隨機性。兩個隨機性的引入對隨機森林的分類性能至關(guān)重要。由于它們的引入,使得隨機森林不容易陷入過擬合,并且具有很好得抗噪能力。與傳統(tǒng)Bagging中基學習器的“多樣性”通過樣本擾動來實現(xiàn)不同,隨機森林模型的多樣性不僅來自于樣本,同時也來自屬性擾動。更多的隨機特性使得隨機森林的泛化能力大大提高,模型在很多現(xiàn)實任務中表現(xiàn)出強大的性能。隨機森林對噪聲和異常值有較好的容忍性,能夠在不需要降維的條件下處理具有高維特征的輸入樣本,具有良好的可擴展性和并行性,而且能夠評估各個特征在分類問題上的重要性,這使得隨機森林模型成為樹形模型中最受歡迎的模型之一。
第十章神經(jīng)網(wǎng)絡模型1.闡述神經(jīng)網(wǎng)絡模型非線性特征的來源.構(gòu)成神經(jīng)網(wǎng)絡的基本單元是神經(jīng)元,而神經(jīng)元與神經(jīng)元之間經(jīng)過激活函數(shù)的作用。通常使用的激活函數(shù)很多都是非線性的,這可以拓展神經(jīng)網(wǎng)絡的運用范圍。2.闡述梯度下降法和BP算法的聯(lián)系與區(qū)別。梯度下降法和BP算法都是神經(jīng)網(wǎng)絡的模型訓練方法。但梯度下降法在訓練過程中首先找到一個連續(xù)可微的函數(shù)作為待優(yōu)化的函數(shù);然后利用梯度下降法進行參數(shù)迭代估計,使可微函數(shù)在估計的參數(shù)處最優(yōu)值達到最小,其效率較為低下;而BP算法則首先計算輸出層的誤差,再按照公式逆向反推各隱藏層和輸入層的參數(shù)值,在達到規(guī)定的訓練次數(shù)或模型誤差減少到一定范圍時停止訓練,其效率較高。闡述LSTM的特點。LSTM模型是循環(huán)神經(jīng)網(wǎng)絡的一類分支,具有判定有效信息的記憶模塊,改善循環(huán)神經(jīng)網(wǎng)絡的長程依賴問題,目前已廣泛應用于神經(jīng)語言程序等具有時序特征的數(shù)據(jù)挖掘及分析中。闡述生成式對抗網(wǎng)絡的“博弈性”特征。生成式對抗網(wǎng)絡是無監(jiān)督學習方法的一種,一個典型的GAN主要包含兩個獨立的神經(jīng)網(wǎng)絡:生成器和判別器。其由生成器得到預測數(shù)據(jù)分布后,判別模塊對真實數(shù)據(jù)和預測數(shù)據(jù)進行分類并返回判別信息給生成器,而最終的優(yōu)化結(jié)果即使得生成器生成的預測收益同真實收益無法被判別器識別,以達到以假亂真的效果。這就是生成式對抗網(wǎng)絡的“對抗性”,也即“博弈性”的特征。5.闡述強化學習的基本框架強化學習中的基本框架由兩個可以進行交互的對象組成:智能體和環(huán)境。智能體可以感知外界環(huán)境的狀態(tài)和反饋的獎勵,做出不同的動作進行決策,或是指根據(jù)外界環(huán)境的獎勵來調(diào)整策略進行學習。環(huán)境是指智能體外部的所有事物,其受智能體動作的影響而改變其狀態(tài),并反饋給智能體相應的獎勵。
第十一章模型評估、訓練與可解釋性1.舉例說明“偏差”和“方差”在金融學中的含義。機器學習中的偏差概念(Bias)主要指模型期望輸出與真實值之間的差別,刻畫了模型本身的擬合能力。方差(Variance)則度量了訓練集的變動所導致的學習性能的變化,體現(xiàn)了在不同訓練集上模型輸出值的變異性,刻畫了模型輸出結(jié)果由于訓練集的不同造成的波動。在金融學中可以延伸到選股模型的實踐,比如一些選股模型本身對訓練集擬合能力很好(即偏差小),一旦更換新的訓練集可能導致股票收益預測能力波動較大(即方差大)。在金融機器學習中,要合理適當權(quán)衡模型的偏差與方差。2.“訓練誤差”和“泛化誤差”的區(qū)別是什么。模型在訓練集上的誤差稱為訓練誤差,而泛化誤差即是模型在全新樣本上的誤差。3.訓練集、驗證集和測試集的區(qū)別與聯(lián)系?模型在訓練集中開展訓練或完成參數(shù)選擇;而驗證集則是用來做模型選擇,考察其過擬合情況或調(diào)參,即做模型的最終優(yōu)化及確定的;而最終的測試集表現(xiàn)代表了模型的樣本外的預測能力,純粹是測試已經(jīng)訓練好的模型準確度。而在實際應用中,通常只會將數(shù)據(jù)分為兩類,即訓練集和測試。4.回歸模型中常見評價指標有哪些?預測模型的常見評價指標主要基于預測誤差的測度,常見的有平均絕對值誤差(MAE)和均方誤差(MSE)。樣本外的預測分析中可以使用均方預測誤差(MSFE)、R2指標以及Diebold-Mariano方法5.闡述分類模型中的評價指標。二元分類指標中包含準確率(預測正確的樣本在所有樣本中占的比例)、錯誤率(被預測錯誤的樣本在所有樣本中所占比例)、精確率(所有被預測為正收益的樣本中,多少比例是真的正收益)與召回率(所有真的正收益中,多少比例被模型成功預測)。ROC曲線是反映靈敏性和特效性連續(xù)變量的綜合指標,是用構(gòu)圖法揭示敏感性和特異性的相互關(guān)系,它通過將連續(xù)變量設定出多個不同的臨界值,從而計算出一系列敏感性和特異性。AUC值就是ROC曲線下的面積大小,通常取值在0與1之間。6.闡述K折交叉驗證法的實施步驟。(1)把數(shù)據(jù)集隨機分為互斥的K個子集,為確保隨機性,進行P次隨機劃分取平均;(2)將K個子集隨機分為K-1個子集,與余下1個子集,總共有K種分法;(3)在每一種分組結(jié)果中,訓練K-1個子集數(shù)據(jù),另外1個當作測試集,這樣就產(chǎn)生了K次結(jié)果,對結(jié)果取平均;(4)稱為P次K折交叉驗證,通常令K=5或K=10(當K=N時情況會在下一節(jié)進行分析)。7.比較留出法、留一法、K折交叉驗證法的優(yōu)勢和劣勢。留出法:優(yōu)勢在于簡單方便,易于理解。劣勢在于不夠穩(wěn)定;泛化誤差估計的準確度降低。留一法:優(yōu)點在于訓練集比初始數(shù)據(jù)集相比僅少一個數(shù)據(jù)集,偏差較??;留一法在分割訓練集和測試集時沒有隨機性,重復使用結(jié)果相同。不足之處是模型擬合N次,在數(shù)據(jù)集比較大時訓練計算精度過高,計算資源消耗大;每次訓練只有1條測試數(shù)據(jù),無法有效幫助參數(shù)調(diào)優(yōu)。K折交叉驗證法:K折交叉驗證法的優(yōu)點是每個樣本都會被用作訓練和測試,因此產(chǎn)生的參數(shù)估計的方差會很小,但考慮到金融數(shù)據(jù)的時序和周期特性,交叉驗證中過多“舊”數(shù)據(jù)的使用反而可能弱化預測結(jié)果。綜上所述,當數(shù)據(jù)量足夠時,選擇簡單省時的留出法,在犧牲很小的準確度的情況下,換取計算的簡便;當數(shù)據(jù)量較小時,應該選擇交叉驗證法,因為此時按留出法的思路劃分樣本集將會使訓練數(shù)據(jù)過少,偏差過大;當數(shù)據(jù)量特別少的時候,計算資源的消耗可以接受,此時應考慮留一法。8.什么是超參數(shù)設定?請闡述超參數(shù)設定的具體方法。超參數(shù)設定即為調(diào)節(jié)超參數(shù)(Hyperparameter),簡稱超參,調(diào)參的過程即為超參優(yōu)化過程。超參數(shù)調(diào)優(yōu)主要包括手動搜索、網(wǎng)格搜索、隨機搜索以及貝葉斯優(yōu)化四種方法。9.闡述黑箱模型與白箱模型。通常在做模型選擇(黑箱模型或白箱模型)時,要權(quán)衡模型預測客觀精確性和可解釋性。黑箱模型(包括:神經(jīng)網(wǎng)絡模型、集成模型等):模型預測具有高度的精準性,但其內(nèi)部運算機制難以被理解,也無法衡量每個特征變量對于模型預測結(jié)果的重要性,更不能體現(xiàn)特征變量之間的相互作用。白箱模型(包括線性回歸模型、決策樹模型等):模型具有出色的可解釋性,且內(nèi)部的運算機制也容易理解,但模型預測能力受限,且無法對數(shù)據(jù)集內(nèi)在的復雜性進行建模。10.增強模型可解釋性的方法有哪些?(1)特征重要度(2)特征交互(3)ShapleyValues(常用SHAP方法)(4)部分依賴圖(PDP)(5)個體條件期望圖(ICE)(6)累積局部效應圖(ALE)(7)全局(GSM)或局部(LIME)代理模型。
第十二章金融領(lǐng)域的機器學習1.文本數(shù)據(jù)有哪些特點?文本數(shù)據(jù)與諸如行情交易等傳統(tǒng)金融數(shù)據(jù)不同,具有兩個獨特特征。首先,文本數(shù)據(jù)一般無固定結(jié)構(gòu),無法用傳統(tǒng)二維表進行邏輯表達。其次,文本數(shù)據(jù)具有與生俱來的高維特性。2.文本數(shù)據(jù)可以通過哪些途徑獲得?文本大數(shù)據(jù)主要通過三種方式獲取:1.手工收集法;2.數(shù)據(jù)庫獲取法;3.網(wǎng)絡抓取法。3.將文本數(shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)矩陣的方法有哪些?可以利用詞袋模型(BagsofWords)、Word2Vec(WordtoVector)、N元模型(N-gram)、主題模型(TopicModel)、BERT模型(BidirectionalEncoderRepresentationfromTransformers)等方法將文本數(shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)矩陣。4.文本特征識別方法有哪些?文本特征識別方法有可讀性衡量(Readability)、文本敘述方法(Narrative)、文本相似性(Similarity)等。5.對文本數(shù)據(jù)進行信息提取的方法有哪些?可以利用詞典法、樸素貝葉斯、支持向量機以及深度學習等方法對文本數(shù)據(jù)進行信息提取。6.文本分析技術(shù)在金融市場有哪些應用?目前,文本分析技術(shù)在金融市場的應用大致可分為兩類,一是對文本顯示的投資者情緒正負、新聞或者文件語調(diào)正負進行分類的問題,二是對關(guān)注度、不確定性、恐慌程度、意見分歧程度的度量以及相應的回歸問題。7.根據(jù)研究主體不同,關(guān)注度可以分成哪三類?根據(jù)研究主體不同,關(guān)注度可分為投資者關(guān)注度(散戶投資者和機構(gòu)投資者)、媒體關(guān)注度和分析師關(guān)注度三類。
第十三章基于機器學習的金融時間序列預測1.常見的宏觀經(jīng)濟指標有哪些?常見的宏觀經(jīng)濟指標有通貨膨脹、國民生產(chǎn)總值、就業(yè)率和國際收支平衡。2.PCA與sPCA的區(qū)別在哪里?兩者的預測能力如何?傳統(tǒng)PCA模型在處理預測因子集時只考慮數(shù)據(jù)內(nèi)部的信噪比,并沒有考慮數(shù)據(jù)集與被預測項的關(guān)系。而sPCA強調(diào)單一數(shù)據(jù)中包含兩類信息,一為模型預測所需要的,而另一類為其他無關(guān)的噪聲信息,因此在降維前給予信息多的數(shù)據(jù)更高權(quán)重而降低信息少、噪音多的數(shù)據(jù)權(quán)重,新構(gòu)建的數(shù)據(jù)集將具有更高的預測能力。3.公司特征指標一般分為哪幾類?公司特征指標一般分為估值類指標、投資類指標、趨勢類指標、市場類指標和無形資產(chǎn)類指標。
第十四章基于機器學習的因子投資1.闡述第一節(jié)案例深度學習中國股票市場因子投資組合中的訓練集、驗證集以及預測集的設定。樣本初始訓練集為2003年1月至2006年12月,初始驗證集為2007年1月至2008年12月,利用得到的預測模型估計樣本期為2009年1月至2009年12月的股票收益;之后每年初保持驗證集和測試集長度不變,訓練集長度增加一年,最終得到的樣本外預測集為2009年1月至2017年12月共108個月收益預測數(shù)據(jù)。2.第二節(jié)案例各類機器學習方法構(gòu)建中國股票市場因子投資組合中如何對數(shù)據(jù)進行篩選和修正?首先,將財務數(shù)據(jù)的樣本時間區(qū)間起始點選在2000年后。這是由于中國股票市場從90年代初期建立的頭十年里,市場機制不健全、上市公司數(shù)量較少、公司的財務造假和內(nèi)幕交易現(xiàn)象較嚴重,因此難以得到令人信服的實證資產(chǎn)定價研究結(jié)論。其次,我國在2000年左右加入了世界貿(mào)易組織(WTO),以此為契機,我國的市場經(jīng)濟的發(fā)展程度更加完善,股票市場機制更加成熟,上市公司的財務披露質(zhì)量和監(jiān)管力度顯著提高。因此,根據(jù)目前研究中國股票市場的研究經(jīng)驗,將分析的起始點選在2000年后。3.第三節(jié)案例因子動物園中所構(gòu)造的因子模型包括哪些?包括五因子模型與七因子模型,如下所示RR4.對投資組合的評估指標有哪些?有夏普比率(Sharperatio),確定等價收益(CER,certaintyequivalentreturn)和換手率(Turnover)。夏普比率是一種普遍使用的評估投資組合表現(xiàn)的指標,其含義是投資組合每單位風險所帶來的收益。確定等價收益的等價意味著一個投資者認為下列兩個選擇是等價的:①某個投資組合策略所產(chǎn)生的收益②恒等于CER的無風險利率。換手率是評價投資組合表現(xiàn)的關(guān)鍵指標,其定義為N個資產(chǎn)在各期之間變化值的絕對值之和。5.闡述二次組合方法。與主要致力于通過單次精確估計來減少估計過程中的誤差不同,Kan&Zhou(2007)和Zhou(2011)提出了將互補方法的結(jié)果進行二次組合,從而得到一個表現(xiàn)更好的方法,即為二次組合方法。
第十五章基于機器學習的風險管理1.金融風險是什么?你所知道的風險度量指標有哪些?金融風險包括了金融市場風險、金融產(chǎn)品風險、金融機構(gòu)風險等。一家金融機構(gòu)發(fā)生的風險所帶來的后果,往往超過對其自身的影響。金融機構(gòu)在具體的金融交易活動中出現(xiàn)的風險,有可能對該金融機構(gòu)的生存構(gòu)成威脅;具體的一家金融機構(gòu)因經(jīng)營不善而出現(xiàn)危機,有可能對整個金融體系的穩(wěn)健運行構(gòu)成威脅;一旦發(fā)生系統(tǒng)風險,金融體系運轉(zhuǎn)失靈,必然會導致全社會經(jīng)濟秩序的混亂,甚至引發(fā)嚴重的政治危機。常用的風險指標有逾期天數(shù)、逾期期數(shù)、遞延指標、不良率、欺詐損失率等等。(1)逾期天數(shù)(dayspastdure,DPD)代表已逾契約書預定繳款日的延滯天數(shù),貸款型產(chǎn)品自繳款截止日后第一天開始計算;而信用卡較為特別,雖然繳款截止日為關(guān)賬日后20天,但逾期天數(shù)也是由次一關(guān)賬日后起算。(2)遞延指標(lagged)為計算延滯率時常用的一種方法。銀行的風險管理單位較常使用lagged指針,優(yōu)點是可以回溯逾期起源,不受業(yè)務起伏影響,較能合理的反應逾期狀態(tài),缺點是需要回推歷史數(shù)據(jù),計算較為麻煩。2.GARCH模型是用來解決波動率的什么問題?是通過什么辦法解決的?GARCH模型假設波動率是一個有著自回歸結(jié)構(gòu)的隱含變量,因此能以極其簡單的結(jié)構(gòu)來刻畫波動率聚類效應,使波動率度量值的設定更加合理。3.我國股市的崩盤風險來源有哪些?你可以解釋其背后的經(jīng)濟原因嗎?在金融市場理論下,我國股市的崩盤風險來源主要有兩點:(1)首先是投資者結(jié)構(gòu)。我國不管是在股市、債市、基市這些傳統(tǒng)的資本市場,個人投資者都占主體和主導地位。個人投資者的主要特征是過度交易,其行為很大程度上扭曲了整個市場的資產(chǎn)定價和市場流動性。(2)其次引起系統(tǒng)性風險的原因就是交易制度。我國用的是指令驅(qū)動的交易制度,沒有做市商,市場的流動性主要由投資者主導。一旦市場出現(xiàn)大幅度波動,知情交易者不愿意提供流動性,這樣就出現(xiàn)流動性風險,流動性風險的蔓延和傳染形成系統(tǒng)性風險。4.在第一節(jié)的案例一中,你對2015年前后的樣本預測結(jié)果有什么看法?你認為是什么因素影響了模型的預測能力?在2015年股災發(fā)生之后各模型的預測能力都有明顯的下降,但其預測能力依舊表現(xiàn)優(yōu)秀。這說明使用機器學習模型來預測波動率是切實可行的,但是風險事件的發(fā)生也會對模型預測精度產(chǎn)生影響。有可能股災等事件的發(fā)生使得投資者更加害怕此類事件,市場更容易受到風險的影響,反映程度更難以預測,因此機器學習方法的預測精度有所下滑(合理即可)5.在第二節(jié)的案例二中,你認為那種機器學習模型表現(xiàn)最好,為什么?在測試集樣本下,Bagging和隨機森林方法在訓練階段展示出了較高的準確性。然而,這并不意味著他們是好模型,有可能這兩種機器學習方法在訓練集中產(chǎn)生了過擬合效應。因此為了增加說服力,在來看使用原始數(shù)據(jù)集檢驗的結(jié)果——所有的預測模型性能都有所下降,但是綜合來看,機器學習模型中的boosting、bagging和隨機森林模型的預測效果最為優(yōu)秀。6.在第三節(jié)的案例二中,為什么要用對精準度與召回率進行等權(quán)調(diào)整的F1度量值來衡量整體預測能力呢?F-score作為機器學習模型中最常用的測量方法,是根據(jù)測試的精確度和召回率計算出來的。F-score關(guān)注的是權(quán)衡精確度和召回率,精確度可以看作是質(zhì)量的衡量標準,而召回率則是數(shù)量的衡量標準。較高的精度意味著模型返回的相關(guān)結(jié)果比不相關(guān)的結(jié)果更多,高召回率意味著模型返回了大部分相關(guān)結(jié)果。而在案例中為了比較不同模型的預測精度,因此需要使用對測試的精準度與召回率進行等權(quán)調(diào)整的F-score值。
第十六章基于文本分析的投資者情緒研究1.闡述金融市場不同類型文本的特征在學術(shù)研究以及業(yè)界實踐中主要應用的文本包括企業(yè)會計報告文本、媒體新聞報道文本、網(wǎng)絡論壇文本和政府公告文本。企業(yè)會計報告是按照監(jiān)管要求定期對外提供關(guān)于企業(yè)經(jīng)營狀況的整體報告,包含了反
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2023年杭州市錢塘區(qū)國有企業(yè)公開招聘工作人員筆試參考題庫附帶答案詳解
- 龍鳳花鳥字藝術(shù)課程大綱
- DB32T 5090.2-2025 醫(yī)院醫(yī)患溝通規(guī)范 第2部分:門診
- 專利知識產(chǎn)權(quán)培訓
- 醫(yī)院護理管理培訓課件
- 溫有奎大數(shù)據(jù)知識發(fā)現(xiàn)產(chǎn)品開發(fā)
- 液壓與氣壓傳動第九章氣壓傳動基礎知識
- 消防知識競賽資料
- 雨中的安全小班教案
- 強化市場調(diào)研分析預測消費趨勢
- 企業(yè)供應鏈管理與優(yōu)化研究
- 大部分分校:地域文化形考任務三-國開(CQ)-國開期末復習資料
- 有機化學知到智慧樹章節(jié)測試課后答案2024年秋山東第一醫(yī)科大學
- 施工現(xiàn)場安全防火管理制度與規(guī)定范文(2篇)
- 【MOOC】高級綜合英語-北京交通大學 中國大學慕課MOOC答案
- 2024年財務會計制度模版(4篇)
- 2022年河南省商丘市柘城縣實驗中學中考一模地理試題(原卷版)
- 辦公用品、易耗品供貨服務方案
- 《互聯(lián)網(wǎng)金融對居民消費的影響實證探究》14000字(論文)
- 《篆刻基礎》課件
- 養(yǎng)殖工人合同范本
評論
0/150
提交評論