第6講 樹類分析及其在金融運(yùn)用_第1頁
第6講 樹類分析及其在金融運(yùn)用_第2頁
第6講 樹類分析及其在金融運(yùn)用_第3頁
第6講 樹類分析及其在金融運(yùn)用_第4頁
第6講 樹類分析及其在金融運(yùn)用_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

樹類分析及其在金融領(lǐng)域的應(yīng)用第六講樹類分析是數(shù)據(jù)挖掘技術(shù)領(lǐng)域的一種重要方法,能夠從一系列具有眾多特征和標(biāo)簽的數(shù)據(jù)中總結(jié)出決策規(guī)則,并用樹狀圖的結(jié)構(gòu)呈現(xiàn)這些規(guī)則。作為金融平臺(tái)來說,為了把控風(fēng)險(xiǎn),保證資金的流動(dòng)性,就要提前預(yù)測(cè)未來一段時(shí)間內(nèi)的用戶購買和提現(xiàn)金額。準(zhǔn)確預(yù)測(cè)用戶到期是否復(fù)投就變得至關(guān)重要。章前導(dǎo)讀12345了解樹類分析方法的基本原理熟悉決策樹方法和隨機(jī)森林的原理與代碼熟練運(yùn)用回歸決策樹和分析決策樹等熟悉各種模型的優(yōu)缺點(diǎn)與評(píng)價(jià)指標(biāo)掌握各種模型的具體應(yīng)用情景,特別是金融領(lǐng)域的應(yīng)用學(xué)習(xí)目標(biāo)樹類分析方法概述及其應(yīng)用場(chǎng)景隨機(jī)森林算法原理決策樹算法原理樹類分析方法在金融領(lǐng)域的應(yīng)用本講內(nèi)容一、樹類分析方法概述及其應(yīng)用場(chǎng)景第一節(jié)樹類分析方法概述及其運(yùn)用場(chǎng)景樹類分析主要包括決策樹隨機(jī)森林梯度提升決策樹樹類分析的應(yīng)用場(chǎng)景臨床醫(yī)學(xué)非金融領(lǐng)域:企業(yè)營銷企業(yè)決策天文學(xué)基因研究……金融領(lǐng)域:資產(chǎn)定價(jià)風(fēng)險(xiǎn)預(yù)測(cè)股票市場(chǎng)樹類方法概述與比較最早產(chǎn)生于20世紀(jì)60年代,是由亨特(Hunt)等人研究人類概念建模時(shí)建立的學(xué)習(xí)系統(tǒng)(ConceptLearningSystem)優(yōu)點(diǎn)計(jì)算復(fù)雜度不高,輸出結(jié)果易于理解,對(duì)中間值的缺失不敏感,可以直接處理分類型變量而不需要?jiǎng)?chuàng)建啞變量關(guān)鍵難點(diǎn)建立決策樹不足存在過擬合的問題,泛化能力差決策樹隨機(jī)選擇特征構(gòu)建決策樹隨機(jī)森林投票在數(shù)據(jù)噪音比較大的情況下會(huì)過擬合基本流程:相比決策樹的優(yōu)點(diǎn):不足:隨機(jī)選擇樣本解決了模型的抗干擾能力易于實(shí)現(xiàn);訓(xùn)練速度快;突出優(yōu)良特征數(shù)據(jù)量大的情況下預(yù)算量大的問題樹類方法概述與比較隨機(jī)森林樹類方法概述與比較優(yōu)點(diǎn):訓(xùn)練效果好、適合低維稠密數(shù)據(jù),模型可解釋性好,不需要做特征的歸一化、可以自動(dòng)選擇特征、不易過擬合以決策樹為基分類器(一般是CART樹)進(jìn)行迭代的決策樹算法不足:弱學(xué)習(xí)器之間相互依賴,難以并行訓(xùn)練數(shù)據(jù)、不適用高維稀疏特征等梯度提升決策樹樹類分析方法在金融領(lǐng)域的應(yīng)用在風(fēng)險(xiǎn)預(yù)測(cè)中的應(yīng)用B在資產(chǎn)定價(jià)中的應(yīng)用A二項(xiàng)式期權(quán)定價(jià)模型:使用離散概率來確定期權(quán)到期時(shí)的價(jià)值在股票市場(chǎng)中的應(yīng)用C決策樹預(yù)測(cè)用戶違約:獲取用戶的歷史數(shù)據(jù),將貸款客戶不斷分類,簡(jiǎn)化樹的復(fù)雜度,評(píng)估客戶的信用等級(jí)充分利用龐大的交易數(shù)據(jù)進(jìn)行股票漲跌預(yù)測(cè)二、決策樹算法原理基本概念1.父節(jié)點(diǎn)、子節(jié)點(diǎn)2.根節(jié)點(diǎn)3.葉子節(jié)點(diǎn)4.節(jié)點(diǎn)分裂最小樣本數(shù)5.葉子節(jié)點(diǎn)最小樣本數(shù)6.樹最大深度(垂直深度)第二節(jié)決策樹算法原理決策樹算法流程是否(if-else)規(guī)則的集合決策樹的構(gòu)造:1.由訓(xùn)練樣本集生成決策樹2.用新的樣本數(shù)據(jù)集校驗(yàn)并進(jìn)行決策樹的剪枝定義在特征空間與類空間上的條件概率分布根節(jié)點(diǎn)分支節(jié)點(diǎn)決策結(jié)果(葉子節(jié)點(diǎn))分支節(jié)點(diǎn)決策結(jié)果(葉子節(jié)點(diǎn))決策結(jié)果(葉子節(jié)點(diǎn))決策結(jié)果(葉子節(jié)點(diǎn))條件1條件2條件3決策樹算法——ID3算法主要特點(diǎn):根據(jù)“最大信息增益”來選擇分裂節(jié)點(diǎn)的屬性,從而可以獲得有關(guān)于每個(gè)節(jié)點(diǎn)的最大類別信息ID3決策樹算法是其他決策樹算法的基礎(chǔ)其中,i代表X的n種離散取值,而pi則表示取X值為i的概率,log為以2或以e為底的對(duì)數(shù)。熵:度量事物的不確定程度隨機(jī)變量的熵的表達(dá)式:信息增益(InformationGain)信息增益:原信息熵值與條件熵值之差02條件熵:當(dāng)引入某個(gè)用于分類的變量,則將根據(jù)分類條件劃分后的信息熵稱之為條件熵,其公式為:01信息增益越大,分類后混亂程度越低,該條件分類的效果越好。03通過不斷選取信息增益最大的條件作為首先劃分的依據(jù),依據(jù)該邏輯進(jìn)行分裂,不斷重復(fù)該過程最終構(gòu)建出決策樹。原理簡(jiǎn)單,降低了個(gè)別異常數(shù)據(jù)的敏感度,大樣本數(shù)據(jù)集計(jì)算速度也較快。傾向于選擇取值較多的屬性而非最佳分裂屬性;未考慮缺失值的情況和特征屬性之間的關(guān)聯(lián),只適用于離散型數(shù)據(jù),只能用于分類不能用于回歸。ID3算法的主要原理優(yōu)勢(shì)不足主要原理01020102優(yōu)勢(shì):不足:將連續(xù)的特征離散化解決離散數(shù)據(jù)問題改進(jìn)改善了ID3算法的幾個(gè)主要問題,分類準(zhǔn)確率較高計(jì)算機(jī)運(yùn)算效率低未考慮特征屬性間的相關(guān)性,只能用于分類C4.5算法——以最大信息增益率作為標(biāo)準(zhǔn)信息增益率:信息增益與條件熵的比值決策樹算法——CART分類樹CART分類樹引入基尼系數(shù)(Gini)作為選擇分裂節(jié)點(diǎn)的特征,其表達(dá)式為與熵一樣,基尼系數(shù)表征的也是事件的不確定性

決策樹算法——CART分類樹引入某個(gè)用于分類的變量后,分割后的基尼系數(shù)公式為:基尼增益(Gain)的公式為:度量目標(biāo):選擇誤差平方和最小的劃分特征與切分點(diǎn)作為最優(yōu)特征和最優(yōu)切分點(diǎn)預(yù)測(cè)結(jié)果:采用最終葉子的均值或者中位數(shù)來預(yù)測(cè)輸出結(jié)果決策樹算法——CART回歸樹

ID3、C4.5、CART算法總結(jié)算法支持模型樹結(jié)構(gòu)特征選擇標(biāo)準(zhǔn)連續(xù)值處理缺失值處理剪枝特征多次使用ID3分類多叉樹信息增益不支持不支持不支持不支持C4.5分類多叉樹信息增益率支持支持支持不支持CART分類、回歸二叉樹基尼系數(shù)、均方差支持支持支持支持決策樹剪枝YUJIANZHI預(yù)剪枝:HOUJIANZHI后剪枝:指定每一節(jié)點(diǎn)包含的最小樣本數(shù)目指定決策樹的深度指定節(jié)點(diǎn)的熵/基尼系數(shù)小于某個(gè)值時(shí),停止分裂在構(gòu)建決策樹的過程中同時(shí)伴隨著剪枝先生成與訓(xùn)練樣本集完全擬合的決策樹再利用測(cè)試樣本集來檢測(cè)決策樹的預(yù)測(cè)精度決策樹完全生成之后再進(jìn)行剪枝#改變參數(shù)實(shí)現(xiàn)預(yù)剪枝決策樹的預(yù)剪枝代碼決策樹的后剪枝方法在剪枝的過程中,對(duì)于決策樹的任意子樹,其代價(jià)函數(shù)為:后剪枝通常比預(yù)剪枝保留更多的分支,其欠擬合風(fēng)險(xiǎn)很??;泛化性能更優(yōu);但訓(xùn)練時(shí)間開銷更大決策樹的評(píng)估評(píng)估方法ROC曲線AUC指標(biāo)均方誤差(MSE)交叉驗(yàn)證法評(píng)估內(nèi)容模型的準(zhǔn)確性模型的穩(wěn)定性三、隨機(jī)森林算法原理010203用隨機(jī)的方式構(gòu)造多棵決策樹,形成決策樹的“森林”原理:根據(jù)決策樹的算法,通過擬合算法,將分散的決策樹進(jìn)行整合,大量樹體融合后,通過分類結(jié)果進(jìn)行統(tǒng)計(jì)后的運(yùn)算??朔藳Q策樹過擬合問題對(duì)噪聲和異常值有較好的容忍性對(duì)高維數(shù)據(jù)分類問題具有良好的可擴(kuò)展性和并行性隨機(jī)森林算法優(yōu)勢(shì)隨機(jī)森林隨機(jī)森林算法基本步驟一二三四自助抽樣法(Bootstrap)從全部訓(xùn)練樣本單元中抽取個(gè)樣本單元構(gòu)成Bootstrap數(shù)據(jù)集基于數(shù)據(jù)集構(gòu)造一棵樹,對(duì)于樹上的每個(gè)節(jié)點(diǎn),重復(fù)選取最佳分分枝變量并分裂,直到節(jié)點(diǎn)的樣本數(shù)達(dá)到指定的最小限定值獲得決策樹聚合決策樹做出最終決策29隨機(jī)森林代碼隨機(jī)森林的泛化誤差能夠正確分類訓(xùn)練樣本之外的樣本數(shù)據(jù)的能力模型的泛化能力泛化誤差的上界模型未能對(duì)其進(jìn)行正確分類的概率泛化誤差袋外數(shù)據(jù)泛化誤差估計(jì)方式大數(shù)據(jù)是指數(shù)據(jù)的集合,其大小超出了現(xiàn)有典型數(shù)據(jù)庫獲取、存儲(chǔ)管理和分析數(shù)據(jù)的能力。平均基尼指數(shù)下降法:通過計(jì)算變量導(dǎo)致的基尼系數(shù)不純度下降程度,得到各特征對(duì)分類樹每個(gè)節(jié)點(diǎn)上觀測(cè)值的異質(zhì)性的影響,從而衡量特征的重要性。隨機(jī)森林的參數(shù)調(diào)試四、樹類分析方法在金融領(lǐng)域的應(yīng)用面對(duì)充滿不確定性的新常態(tài),未來銀行需要不斷借助大數(shù)據(jù)和機(jī)器學(xué)習(xí),優(yōu)化自身的風(fēng)險(xiǎn)管理水平,提高核心競(jìng)爭(zhēng)力樹類分析方法在金融領(lǐng)域的應(yīng)用案例一:客戶違約預(yù)測(cè)——基于決策樹分類模型得益于決策樹的可解釋性強(qiáng)等特點(diǎn),通過決策樹搭建客戶違約預(yù)測(cè)模型,可以更科學(xué)高效地預(yù)測(cè)客戶是否會(huì)出現(xiàn)違約情況。1.提取特征變量和目標(biāo)變量2.劃分訓(xùn)練集和測(cè)試集3.模型搭建和評(píng)估決策樹模型的搭建案例一:客戶違約預(yù)測(cè)——基于決策樹分類模型模型的預(yù)測(cè)及效果分析案例一:客戶違約預(yù)測(cè)——基于決策樹分類模型股市的暴漲暴跌直接影響到金融市場(chǎng)的穩(wěn)定,增加發(fā)生系統(tǒng)性金融風(fēng)險(xiǎn)的可能性,進(jìn)一步影響經(jīng)濟(jì)的健康發(fā)展。樹類分析方法在金融領(lǐng)域的運(yùn)用案例二:股票漲跌預(yù)測(cè)——基于隨機(jī)森林分類模型傳統(tǒng)的預(yù)測(cè)方法都無法十分準(zhǔn)確的模擬股票預(yù)測(cè)的非線性關(guān)系。隨機(jī)森林算法作為多個(gè)決策樹算法的集成,它的泛化能力更強(qiáng),并且不存在過擬合的問題,因此通常使用隨機(jī)森林算法預(yù)測(cè)股票價(jià)格的變動(dòng)。案例二:股票漲跌預(yù)測(cè)——基于隨機(jī)森林分類模型openclosehighlowvolumecode2012-03-0111.9411.9011.9911.861543166000312012-03-0211.9012.2012.2111.893563756000312012-03-0512.2412.2212.5112.194069196000312012-03-0612.1711.7812.1711.762788626000312012-03-0711.6411.4511.7111.41363519600031股票數(shù)據(jù)的獲取與處理模型訓(xùn)練與預(yù)測(cè)結(jié)果分析38dateclosevolumehigh_low…rsiY_testY_predict2020-03-1913.5618570220.09…32.21112020-03-2014.4416215150.07…42.20112020-03-2314.5114334760.08…42.93112020-03-2415.2612364280.03…50.27112020-03-2515.5410904880.05…52.75-112020-03-2615.345534630.04…50.7811序號(hào)特征名稱特征重要度1close_open0.242

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論