財經(jīng)大數(shù)據(jù)分析-以Python為工具 課件第8、9章 分析一般公司債的票面利率影響因素-應(yīng)用統(tǒng)計分析、使用ARIMA模型預(yù)測股票價格-時間序列_第1頁
財經(jīng)大數(shù)據(jù)分析-以Python為工具 課件第8、9章 分析一般公司債的票面利率影響因素-應(yīng)用統(tǒng)計分析、使用ARIMA模型預(yù)測股票價格-時間序列_第2頁
財經(jīng)大數(shù)據(jù)分析-以Python為工具 課件第8、9章 分析一般公司債的票面利率影響因素-應(yīng)用統(tǒng)計分析、使用ARIMA模型預(yù)測股票價格-時間序列_第3頁
財經(jīng)大數(shù)據(jù)分析-以Python為工具 課件第8、9章 分析一般公司債的票面利率影響因素-應(yīng)用統(tǒng)計分析、使用ARIMA模型預(yù)測股票價格-時間序列_第4頁
財經(jīng)大數(shù)據(jù)分析-以Python為工具 課件第8、9章 分析一般公司債的票面利率影響因素-應(yīng)用統(tǒng)計分析、使用ARIMA模型預(yù)測股票價格-時間序列_第5頁
已閱讀5頁,還剩44頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

Python與財經(jīng)大數(shù)據(jù)分析基礎(chǔ)第8章分析一般公司債的票面利率影響因素——應(yīng)用統(tǒng)計分析CONTENTS目錄04回歸分析05應(yīng)用實踐01描述性統(tǒng)計02隨機變量及其概率分布03推斷統(tǒng)計01描述性統(tǒng)計描述性統(tǒng)計是指綜合運用計算指標、分類等方式來描述一組數(shù)據(jù)的特征,幫助讀者了解數(shù)據(jù)。描述性統(tǒng)計的基本指標主要包括數(shù)據(jù)的位置以及數(shù)據(jù)的離散程度。8.1描述性統(tǒng)計(一)概述在獲取數(shù)據(jù)之后,我們通常需要了解數(shù)據(jù)的位置分布特征,例如最小值、最大值、平均數(shù)、中位數(shù)、眾數(shù)、分位數(shù)等指標。Python中可以使用Pandas模塊完成數(shù)據(jù)位置指標的獲取。8.1描述性統(tǒng)計(二)數(shù)據(jù)的位置分布函數(shù)函數(shù)說明DataFrame.min()/DataFrame.max()最小值/最大值DataFrame.mean()平均數(shù)DataFrame.median()中位數(shù)DataFrame.mode()眾數(shù)DataFrame.quantile()分位數(shù)數(shù)據(jù)位置指標能幫助讀者分析一組數(shù)據(jù)的平均水平或中間位置,但是要了解數(shù)據(jù)集中和分散程度,則需要用到極差、偏差、方差以及標準差,在Python中主要通過Pandas模塊完成數(shù)據(jù)離散度指標的獲取。8.1描述性統(tǒng)計(三)數(shù)據(jù)的離散程度函數(shù)函數(shù)說明DataFrame.max()-DataFrame.min()極差DataFrame.mad()平均絕對偏差DataFrame.var()方差DataFrame.std()標準差

Pandas庫提供descibe()函數(shù),可以直接得到描述性統(tǒng)計的主要指標,例如樣本量、均值、方差、最值、分位數(shù)等統(tǒng)計特征。8.1描述性統(tǒng)計(三)describe函數(shù)02隨機變量及其概率分布隨機變量是隨機試驗各種結(jié)果的實值單值函數(shù),隨機事件的數(shù)量表現(xiàn)。隨機變量分為離散型隨機變量和連續(xù)型隨機變量。一般而言,隨機數(shù)并不是真正的“隨機”,而是服從于某種概率分布,根據(jù)隨機變量的分類,有離散型概率分布和連續(xù)型概率分布。財會金融領(lǐng)域經(jīng)常使用的概率分布如下所示。8.2隨機變量及其概率分布(一)概述

8.2隨機變量及其概率分布(二)正態(tài)分布在Numpy庫中使用normal()函數(shù)生成正態(tài)分布。8.2隨機變量及其概率分布(二)正態(tài)分布假設(shè)X服從標準正態(tài)分布N(0,,1),Y服從自由度為n的卡方分布,那么變量Z服從自由度為n的t分布,記作Z~t(n)。隨著自由度n逐漸增大,t分布將逐漸接近標準正態(tài)分布。8.2隨機變量及其概率分布(三)t分布假設(shè)兩個隨機變量x1和x2相互獨立,且分別服從自由度是n1和n2的卡方分布,則稱統(tǒng)計量F服從自由度n1和n2的F分布,記作F~F(n1,n2)。8.2隨機變量及其概率分布(四)F分布03推斷統(tǒng)計推斷統(tǒng)計是研究如何利用樣本數(shù)據(jù)來推斷總體特征的統(tǒng)計方法。推斷統(tǒng)計包括兩方面的內(nèi)容:參數(shù)估計和假設(shè)檢驗。8.3推斷統(tǒng)計(一)概述

8.3推斷統(tǒng)計(二)參數(shù)估計假設(shè)檢驗是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的推斷統(tǒng)計方法。

進行假設(shè)檢驗主要經(jīng)歷四個步驟。第一,提出原假設(shè)H0和備擇假設(shè)H1。第二,構(gòu)造檢驗的統(tǒng)計量及其分布。第三,確定顯著性水平α,以及確定檢驗規(guī)則。第四,根據(jù)檢驗規(guī)則作出決策。8.3推斷統(tǒng)計(三)假設(shè)檢驗

不拒絕H0拒絕H0H0為真1-α(正確)α(拒真錯誤)H1為假

(取偽錯誤)1-

(正確)t檢驗主要用于樣本含量較小(例如樣本量小于30),總體標準差σ未知的正態(tài)分布。常見的t檢驗主要有單樣本t檢驗、配對樣本t檢驗和獨立樣本t檢驗。8.3推斷統(tǒng)計(二)假設(shè)檢驗04回歸分析協(xié)方差表示的是兩個變量總體誤差的期望。如果兩個變量的變化趨勢一致,那么兩個變量之間的協(xié)方差就是正值;如果兩個變量的變化趨勢相反,那么兩個變量之間的協(xié)方差就是負值;如果兩個變量是統(tǒng)計獨立的,那么二者之間的協(xié)方差就是0。8.4

回歸分析(一)協(xié)方差cov()函數(shù)相關(guān)系數(shù)是用以反映變量之間相關(guān)關(guān)系密切程度的統(tǒng)計指標。與協(xié)方差不同,相關(guān)系數(shù)排除了變量之間量綱的差異。常見的相關(guān)系數(shù)計算方法包括pearson相關(guān)系數(shù)、spearman相關(guān)系數(shù)等。8.4

回歸分析(二)相關(guān)系數(shù)corr()函數(shù)8.4

回歸分析(三)線性回歸線性回歸是找到多維空間中的一條直線(線性回歸方程),使得其盡可能地去擬合變量之間的“隱式關(guān)系”。普通最小二乘法(OrdinaryLeastSquare,OLS),是線性回歸模型中最基本的估計方法,原理就是使殘差的平方和達到最小。statsmodel庫是Python一個強大的統(tǒng)計分析庫。我們使用statsmodels.api庫的OLS()進行線性回歸。需要特別注意的是,進行線性回歸的變量不能有缺失值,否則會報錯。8.4

回歸分析(三)線性回歸05應(yīng)用實踐“指數(shù)信息.xlsx”為2008年至2021年發(fā)行的一般公司債數(shù)據(jù),票面利率為發(fā)行時票面利率,總資產(chǎn)報酬率、資產(chǎn)負債率、流動比率為債券2020年的財務(wù)比率,對其做描述性統(tǒng)計。分析一般公司債的票面利率在2021年與2022年是否存在顯著差異。分析一般公司債的票面利率影響因素,因變量為票面利率,自變量分別為發(fā)行時信用評級、總資產(chǎn)報酬率、資產(chǎn)負債率、流動比率。8.5應(yīng)用實踐Python與財經(jīng)大數(shù)據(jù)分析基礎(chǔ)第9章使用ARIMA模型預(yù)測股票價格——時間序列CONTENTS目錄04應(yīng)用實踐01時間序列簡介02時間序列處理03時間序列基本性質(zhì)01時間序列簡介時間序列是指將同一統(tǒng)計指標的數(shù)值按其發(fā)生的時間先后順序排列而成的數(shù)列,其實質(zhì)是反映某個或者某些隨機變量隨時間不斷變化的趨勢。常見的時間序列如按秒或分鐘更新的股價數(shù)據(jù)、按天更新的利率數(shù)據(jù)、按月更新的征信數(shù)據(jù)以及按年更新的宏觀經(jīng)濟數(shù)據(jù)等。9.1時間序列簡介(一)時間序列基本概念datetime模塊是Python處理日期和時間的標準庫,提供多種處理日期、時間相關(guān)的類。不僅支持日期和時間的算法,也能實現(xiàn)有效的屬性提取和格式輸出,本部分將介紹使用datetime創(chuàng)建時間對象、查看時間對象屬性和轉(zhuǎn)換時間格式等方法。9.1時間序列簡介(二)datetime模塊類名功能說明date日期對象,常用屬性有year,month,daytime時間對象,常用屬性有hour,minute,seconddatetime日期時間對象,是date和time的結(jié)合timedelta時間間隔,即兩個時間點之間的長度tzinfo時區(qū)信息對象在日常數(shù)據(jù)分析中,最為常用的是datetime模塊的datetime類,因此我們主要介紹datetime類。9.1時間序列簡介(三)datetime類02時間序列處理時間序列的缺失值處理一般采用插值方法,使用缺失值周圍的兩個已知數(shù)據(jù)點估計丟失的數(shù)據(jù)點。較為常見的插值方法有基于時間的插值、樣條插值和線性插值,一般通過pandas模塊的interpolate()函數(shù)來實現(xiàn)。9.2時間序列處理(一)時間序列缺失值處理移動是指沿著時間軸將數(shù)據(jù)前移或后移,在財經(jīng)金融數(shù)據(jù)處理中,時常會用到時間滯后。時間滯后是將t期的數(shù)據(jù)轉(zhuǎn)換為(t-n)期的數(shù)據(jù),可以通過shift()函數(shù)實現(xiàn)。9.2時間序列處理(二)時間序列數(shù)據(jù)移動和滯后計算第九章數(shù)據(jù)分組介紹了groupby()函數(shù),其主要作用是進行數(shù)據(jù)的分組以及分組后的組內(nèi)運算,常與agg()和apply()函數(shù)搭配使用。這一函數(shù)在時間序列數(shù)據(jù)中也十分常用,同樣對時間序列進行分組,之后再進行組內(nèi)運算,從而獲取所需的數(shù)據(jù)或觀察不同組別間的差異。9.2時間序列處理(三)時間序列數(shù)據(jù)分組時間序列通常由趨勢、周期性、季節(jié)性、誤差構(gòu)成,其中最經(jīng)常被分析的是趨勢和季節(jié)性。時間序列可以被看作是趨勢、季節(jié)性和誤差項的整合,其各個觀測值可以是以上成分相加或相乘得到的。9.2時間序列處理(四)時間序列的分解時間序列的分解可以通過statsmodels模塊的seasonal_decompose來實現(xiàn)。9.2時間序列處理(四)時間序列的分解

9.2時間序列處理(五)時間序列的平滑在了解時間序列數(shù)據(jù)之后,我們可以對其進行簡單的分析,比如進行描述性統(tǒng)計。這里我們沿用上節(jié)數(shù)據(jù),基于前序章節(jié)內(nèi)容,可以直接使用describe()函數(shù)查看數(shù)據(jù)的均值方差等。9.2時間序列處理(六)時間序列數(shù)據(jù)描述性統(tǒng)計03時間序列基本性質(zhì)研究不同變量之間的相關(guān)性,是為了揭示變量之間的因果關(guān)系,以更好地預(yù)測目標變量,而時間序列的自相關(guān)性同樣也是研究和利用時間序列的重要性質(zhì)。所謂“歷史可以重演”,即希望找到時間序列所具有的可延續(xù)性特征,以幫助我們更好地預(yù)測未來。時間序列的自相關(guān)性可以通過自協(xié)方差、自相關(guān)系數(shù)等統(tǒng)計量來體現(xiàn)。9.3時間序列基本性質(zhì)(一)自相關(guān)性

Python中statsmodels模塊包含的acf()函數(shù)可以便捷計算自相關(guān)系數(shù)。9.3時間序列基本性質(zhì)(一)自相關(guān)性時間序列的平穩(wěn)性是時間序列研究的基本前提,通過前一節(jié)的介紹,我們希望通過自相關(guān)性找到時間序列的可延續(xù)性特征,并在預(yù)測未來時利用該特征,而時間序列的平穩(wěn)性則是決定該特征能否延續(xù)到未來的重要性質(zhì)。9.3時間序列基本性質(zhì)(二)平穩(wěn)性增廣迪基·富勒檢驗(ADF檢驗)是最常用的單位根檢驗方法,Python中的arch模塊提供了ADF()函數(shù)幫助我們便捷地進行ADF檢驗。9.3時間序列基本性質(zhì)(二)平穩(wěn)性KPSS檢驗可以用于趨勢平穩(wěn)性檢驗,Python中的statsmodels模塊提供了kpss()函數(shù)幫助我們便捷地進行KPSS檢驗。9.3時間序列基本性質(zhì)(二)平穩(wěn)性白噪聲序列是指序列中任意兩個時間點的變量均不相關(guān),序列均值為0、方差為常數(shù),這使得白噪聲序列符合平穩(wěn)時間序列的條件。白噪聲序列中沒有任何規(guī)律,不能用于預(yù)測和推斷,所以發(fā)現(xiàn)一個時間序列為白噪聲序列時,說明該時間序列已經(jīng)失去了繼續(xù)研究的意義。9.3時間序列基本性質(zhì)(三)白噪聲序列可以通過Ljung-Box檢驗該序列是否為白噪聲序列,Python中statsmodels模塊提供了q_stat()完成該檢驗。9.3時間序列基本性質(zhì)(三)白噪聲序列

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論