金融數(shù)據(jù)分析 課件 第9、10章 空間計(jì)量模型與檢驗(yàn)、機(jī)器學(xué)習(xí)與數(shù)據(jù)分析ppt_第1頁(yè)
金融數(shù)據(jù)分析 課件 第9、10章 空間計(jì)量模型與檢驗(yàn)、機(jī)器學(xué)習(xí)與數(shù)據(jù)分析ppt_第2頁(yè)
金融數(shù)據(jù)分析 課件 第9、10章 空間計(jì)量模型與檢驗(yàn)、機(jī)器學(xué)習(xí)與數(shù)據(jù)分析ppt_第3頁(yè)
金融數(shù)據(jù)分析 課件 第9、10章 空間計(jì)量模型與檢驗(yàn)、機(jī)器學(xué)習(xí)與數(shù)據(jù)分析ppt_第4頁(yè)
金融數(shù)據(jù)分析 課件 第9、10章 空間計(jì)量模型與檢驗(yàn)、機(jī)器學(xué)習(xí)與數(shù)據(jù)分析ppt_第5頁(yè)
已閱讀5頁(yè),還剩142頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第九章

空間計(jì)量模型與檢驗(yàn)

學(xué)習(xí)目標(biāo)

掌握空間計(jì)量模型的概念、內(nèi)容

區(qū)分空間計(jì)量模型的使用范圍與適用條件

了解空間計(jì)量模型的計(jì)量程序與實(shí)際應(yīng)用了解中國(guó)金融風(fēng)險(xiǎn)的空間集聚和溢出效應(yīng)

空間計(jì)量經(jīng)濟(jì)學(xué)的研究不斷深入、應(yīng)用領(lǐng)域不斷擴(kuò)大,逐漸發(fā)展為計(jì)量經(jīng)濟(jì)學(xué)的主流,它的應(yīng)用涉及眾多領(lǐng)域:從普遍應(yīng)用于區(qū)域科學(xué)、城市以及房地產(chǎn)經(jīng)濟(jì)學(xué)、經(jīng)濟(jì)地理等專門化領(lǐng)域,拓展到勞動(dòng)經(jīng)濟(jì)學(xué)、國(guó)際經(jīng)濟(jì)學(xué)、資源環(huán)境經(jīng)濟(jì)學(xué)、政治學(xué)以及發(fā)展經(jīng)濟(jì)學(xué)等領(lǐng)域。當(dāng)今世界經(jīng)濟(jì)一體化和全球化程度不斷加深,更有必要使用空間計(jì)量經(jīng)濟(jì)學(xué)分析經(jīng)濟(jì)體之間的空間相關(guān)程度,從系統(tǒng)性視角看問(wèn)題。9.1

空間權(quán)重矩陣9.2

空間自回歸模型9.3

空間杜賓模型9.4

空間誤差模型專題9中國(guó)金融風(fēng)險(xiǎn)的空間集聚與溢出效應(yīng)目錄CONTENTS空間權(quán)重矩陣

9.1

空間權(quán)重矩陣的定義空間權(quán)重矩陣(SpatialWeightingMatrix)最簡(jiǎn)單的定義如下:其中,每個(gè)元素的定義為:(9.2)式中,N(i)為地點(diǎn)j的鄰近集。通過(guò)定義,我們有

。(9.1)(9.2)9.1.1鄰接矩陣根據(jù)空間相鄰關(guān)系,相鄰既可以是有共同邊界又可以是有共同頂點(diǎn)。根據(jù)類型,可分以下幾種:

(1)象相鄰(BishopContiguity):兩個(gè)相鄰的區(qū)域有共同的頂點(diǎn),但沒(méi)有共同的邊。

(2)車相鄰(RockContiguity):兩個(gè)相鄰的區(qū)域有共同的邊。

(3)后相鄰(QueenContiguity):兩個(gè)相鄰的區(qū)域有共同的頂點(diǎn)或邊。舉一個(gè)簡(jiǎn)單的例子,假設(shè)有如下四個(gè)區(qū)域,其變量取值分別為

,參照?qǐng)D9.1。x4x1x2x3圖9.1

假想的四個(gè)區(qū)域9.1.1鄰接矩陣針對(duì)圖8.1中的四個(gè)區(qū)域,其空間權(quán)重矩陣為:矩陣(9.3)的第一行表示,區(qū)域1與三個(gè)區(qū)域均相鄰;第二行表示,區(qū)域2只與區(qū)域4不相鄰;以此類推。(9.3)9.1.1鄰接矩陣

將(8.3)式的空間權(quán)重矩陣行標(biāo)準(zhǔn)化可得(仍記為W):(9.5)9.1.2距離矩陣空間單元間除了相鄰關(guān)系,還可用距離進(jìn)行描述。記區(qū)域i與區(qū)域j的距離為dij,以距離之倒數(shù)作為空間權(quán)重,空間權(quán)重矩陣構(gòu)建方式如下:其中,dij既可以是地理距離,也可以是基于運(yùn)輸成本或旅行時(shí)間的經(jīng)濟(jì)距離。距離越遠(yuǎn),空間權(quán)重系數(shù)越小。(9.6)9.1.3莫蘭指數(shù)(Moran'sI)統(tǒng)計(jì)量

其中,n是空間單元總數(shù),wij是空間權(quán)重,yi是第i個(gè)地區(qū)的觀測(cè)值,

,

。9.1.3莫蘭指數(shù)(Moran'sI)統(tǒng)計(jì)量全局莫蘭指數(shù)統(tǒng)計(jì)量的取值范圍為[-1,1],其值大于0時(shí)表明數(shù)據(jù)呈現(xiàn)空間正自相關(guān);其值小于0時(shí)為空間負(fù)自相關(guān);其值等于0時(shí)表明無(wú)空間相關(guān)性。莫蘭指數(shù)還可以用來(lái)檢驗(yàn)空間自相關(guān)的統(tǒng)計(jì)顯著性。統(tǒng)計(jì)量的期望為

,方差取決于y服從均勻分布還是正態(tài)分布,檢驗(yàn)統(tǒng)計(jì)量為

,檢驗(yàn)原假設(shè)是不存在空間自相關(guān)。在R中計(jì)算并檢驗(yàn)空間自相關(guān)的函數(shù)是spdep程序包中的moran.test(),其用法是:>moran.test(x,listw,randomization=TRUE,alternative="greaterr",zero.policy=NULL,...)9.1.4吉爾里指數(shù)(Geary’sC)統(tǒng)計(jì)量吉爾里指數(shù)統(tǒng)計(jì)量定義為:吉爾里指數(shù)測(cè)量的是全局空間自相關(guān)。

當(dāng)全局吉爾里指數(shù)的觀察值小于1,并且具有統(tǒng)計(jì)學(xué)意義時(shí),存在正空間自相關(guān);當(dāng)全局吉爾里指數(shù)的觀察值大于1時(shí),存在空間負(fù)相關(guān);全局吉爾里指數(shù)的觀察值等于1時(shí),無(wú)空間自相關(guān)。其假設(shè)檢驗(yàn)的方法同全局莫蘭指數(shù)。吉爾里指數(shù)衡量的是空間檢測(cè)值兩兩之間的差。吉爾里指數(shù)與莫蘭指數(shù)存在負(fù)相關(guān)關(guān)系。

空間正自相關(guān)性越強(qiáng),吉爾里指數(shù)越小,而莫蘭指數(shù)越大。(9.8)9.1.5雙變量莫蘭指數(shù)

R軟件中沒(méi)有可以直接計(jì)算雙變量莫蘭指數(shù)的函數(shù),需要根據(jù)公式(9.9)逐步運(yùn)算??臻g自回歸模型9.29.2.1一階空間自回歸模型

這里,y為被解釋變量向量的離差形式,W為行標(biāo)準(zhǔn)化處理后的空間權(quán)重矩陣(其行和為1),Wy表示空間滯后項(xiàng),λ是空間自回歸系數(shù),ε是服從正態(tài)分布的隨機(jī)誤差項(xiàng)。9.2.1一階空間自回歸模型對(duì)于模型(9.10)中的參數(shù),一般采用極大似然函數(shù)方法進(jìn)行估計(jì)。此時(shí),極大似然函數(shù)為在R中,如果我們想估計(jì)一階空間自回歸模型的參數(shù),相應(yīng)的命令為:>spautolm(x~1,data=filename,listw=w)9.2.2空間滯后模型

被解釋變量y為n×1階向量,解釋變量X是n×k階向量,W是人為設(shè)定的、行標(biāo)準(zhǔn)化處理后的n×n階空間權(quán)重矩陣,Wy表示空間滯后因變量,ε是服從正態(tài)分布的隨機(jī)誤差向量,參數(shù)λ是空間滯后項(xiàng)Wy的系數(shù),參數(shù)β反映了解釋變量對(duì)被解釋變量y的影響。9.2.2空間滯后模型

。在R中,估計(jì)空間滯后模型的函數(shù)是spatialreg程序包中的lagsarlm(),其用法是:>lagsarlm(formula,data=list(),listw,Durbin=FALSE,method="eigen",...)

9.2.3分解效應(yīng)

空間計(jì)量模型是一種用于分析空間數(shù)據(jù)的統(tǒng)計(jì)模型,它考慮了空間上的相互依賴關(guān)系,能夠更準(zhǔn)確地描述空間數(shù)據(jù)的特征和變化規(guī)律??臻g計(jì)量模型計(jì)算容易,但解釋并不容易。常見(jiàn)的術(shù)語(yǔ)有直接效應(yīng)、間接效應(yīng)和總效應(yīng)。直接效應(yīng)是解釋變量對(duì)本地的被解釋變量的影響。間接效應(yīng)是解釋變量對(duì)鄰地被解釋變量的影響。直接效應(yīng)與間接效應(yīng)之間的總和就是總效應(yīng),如圖9-2所示。。Y鄰地X本地Y本地直接效應(yīng)間接效應(yīng)總效應(yīng)【例9.1】中國(guó)30個(gè)?。ㄗ灾螀^(qū)、直轄市)2021年人均消費(fèi)的空間分析

消費(fèi)問(wèn)題一直是經(jīng)濟(jì)研究領(lǐng)域的熱點(diǎn)問(wèn)題。擴(kuò)大消費(fèi)尤其是居民消費(fèi)、完善消費(fèi)政策對(duì)于縮小地區(qū)差距,促進(jìn)經(jīng)濟(jì)平穩(wěn)健康發(fā)展具有重要意義。為此,研究中國(guó)各地區(qū)居民消費(fèi)問(wèn)題具有重要的理論和實(shí)踐價(jià)值。本例以2021年中國(guó)30個(gè)省份(自治區(qū)、直轄市,西藏由于部分?jǐn)?shù)據(jù)缺失,香港、澳門、臺(tái)灣沒(méi)有相關(guān)數(shù)據(jù),均不計(jì)入以下研究)的數(shù)據(jù)為樣本,建立空間滯后模型。表8.1展示了用于檢驗(yàn)人均消費(fèi)空間相關(guān)性的相關(guān)數(shù)據(jù)。表9.1中,因變量rjxf代表各省人均消費(fèi);自變量rjgdp代表各省人均GDP;Arjtax代表各省人均稅收;rjins代表各省人均保費(fèi)收入。9.2.2空間滯后模型

9.2.2空間滯后模型

表9.1中國(guó)30個(gè)省(自治區(qū)、直轄市)人均消費(fèi)變化的空間分布(單位:元/人)9.2.2空間滯后模型資料來(lái)源:數(shù)據(jù)來(lái)源于中國(guó)統(tǒng)計(jì)年鑒。9.2.2空間滯后模型注:*、**和***分別表示10%、5%和1%顯著性水平,下同。

莫蘭指數(shù)為0.4112,表明消費(fèi)具有空間正相關(guān)性,期望值為-0.0345,方差為0.0123,z統(tǒng)計(jì)量為4.0268,表明消費(fèi)呈現(xiàn)了明顯的聚類特征,p值為2.83E-05,在1%的顯著水平上顯著,因此有必要建立空間滯后模型進(jìn)行分析,結(jié)果如表9.3所示。9.2.2空間滯后模型

從表9.3估計(jì)結(jié)果可以看到,空間自回歸系數(shù)為0.2141,漸近z檢驗(yàn)的p值為0.0755,因此空間自回歸系數(shù)顯著為正,說(shuō)明周邊鄰居消費(fèi)水平的提高能顯著提高本地消費(fèi)水平。9.2.2空間滯后模型從表9.4估計(jì)結(jié)果可以看到,人均國(guó)內(nèi)生產(chǎn)總值rigdp對(duì)本地和鄰近省份人均消費(fèi)rjxf具有正向的促進(jìn)作用,人均國(guó)內(nèi)生產(chǎn)總值rigdp每增加一個(gè)單位,本地人均消費(fèi)rjxf增加0.1109,鄰近省份人均消費(fèi)rjxf增加0.09313;人均稅收rjtax對(duì)本省人均消費(fèi)rjxf有促進(jìn)作用,對(duì)鄰近省份人均消費(fèi)rjxf有抑制作用,人均稅收rjtax每提高一個(gè)單位,本省人均消費(fèi)rjxf提高0.5709,但鄰近省份的人均消費(fèi)rjxf會(huì)下降0.0269,整體上對(duì)人均消費(fèi)rjxf呈正向作用;人均保費(fèi)收入rjins對(duì)本省以及鄰近省份人均消費(fèi)均呈現(xiàn)抑制作用,人均保費(fèi)收入rjins每提高一個(gè)單位,本省人均消費(fèi)rjxf下降0.1145,但鄰近省份的人均消費(fèi)rjxf會(huì)下降0.6428,整體上對(duì)鄰省消費(fèi)的抑制作用更強(qiáng)。

R代碼R語(yǔ)言代碼:>library(sp)>library(foreign)>library(readstata13)>library(haven)>library(rgdal)>library(spdep)>setwd("C:/Users/study/Desktop/data")>getwd()>rjxf9.1<-readOGR(".","sheng")>rjxf9.1_nb<-poly2nb(rjxf9.1)>rjxf9.1_nblist<-nb2listw(rjxf9.1_nb)>dataset=read.dta13("data.dta")>dataset$rjgdp=dataset$gdp*10000/dataset$peo>dataset$rjtax=dataset$tax*10000/dataset$peo>dataset$rjins=dataset$ins*10000/dataset$peo>summary(dataset)>#install.packages('psych')>library(psych)>describe(dataset$xf)>m1=lm(xf~rjgdp+rjtax+rjins,data=dataset)>summary(m1)>m2=step(m1)>summary(m2)>n<-nrow(rjxf9.1)

R代碼續(xù)>m3<-step(m1,k=log(n))>summary(m3)>moran.test(dataset$xf,listw=rjxf9.1_nblist,zero.policy=T)>library(spatialreg)>m3_lag<-lagsarlm(xf~rjgdp+rjtax+rjins,data=dataset,listw=>rjxf9.1_nblist,type="lag",zero.policy=TRUE)>summary(m3_lag,correlation=FALSE)>ev<-eigenw(rjxf9.1_nblist)>sdm2<-lagsarlm(m1,dataset,rjxf9.1_nblist,Durbin=T,control=list(pre_eig=ev))>impacts(sdm2,listw=rjxf9.1_nblist)【例9.2】產(chǎn)業(yè)結(jié)構(gòu)對(duì)科技創(chuàng)新的影響分析數(shù)字普惠金融影響因素問(wèn)題一直是金融研究領(lǐng)域的熱點(diǎn)問(wèn)題。數(shù)字普惠金融對(duì)于縮小地區(qū)差距,促進(jìn)經(jīng)濟(jì)平穩(wěn)健康發(fā)展具有重要意義。為此,研究數(shù)字普惠金融影響因素具有重要的理論和實(shí)踐價(jià)值。本例以2020年廣西省69個(gè)縣的數(shù)據(jù)為樣本,建立空間滯后模型即(9.13)9.2.2空間滯后模型式9.13中,因變量:數(shù)字普惠金融y;自變量:城鄉(xiāng)收入差距x1;傳統(tǒng)金融發(fā)展程度x2;產(chǎn)業(yè)結(jié)構(gòu)升級(jí)x3;經(jīng)濟(jì)發(fā)展水平x4;政府干預(yù)x5;人口密度x6;城鎮(zhèn)化率x7;交通便捷情況x8;互聯(lián)網(wǎng)發(fā)展水平x9;人口受教育程度x10。9.2.2空間滯后模型莫蘭指數(shù)為0.4535,表明數(shù)字普惠金融具有空間正相關(guān)性,期望值為-0.0147,方差為0.0076,z統(tǒng)計(jì)量為5.3670,表明數(shù)字普惠金融呈現(xiàn)了明顯的聚類特征,p值為4.002e-08,在1%的顯著水平上顯著,因此有必要建立空間滯后模型進(jìn)行分析,結(jié)果如表9.6所示。9.2.2空間滯后模型從表9.6估計(jì)結(jié)果可以看到,空間自回歸系數(shù)λ為0.3684,漸近z檢驗(yàn)的p值為0.0001,因此空間自回歸系數(shù)λ顯著為正,說(shuō)明周邊鄰居數(shù)字普惠金融水平的提高能顯著提高本地?cái)?shù)字普惠金融水平。9.2.2空間滯后模型從表9.7估計(jì)結(jié)果可以看到,x1城鄉(xiāng)收入差距、x5政府干預(yù)、x8交通便捷和x10人口受教育程度都對(duì)本省和鄰近省份數(shù)字普惠金融有抑制作用;x2傳統(tǒng)金融發(fā)展、x3產(chǎn)業(yè)結(jié)構(gòu)升級(jí)和x6人口密度對(duì)本省和鄰近省份的數(shù)字普惠金融發(fā)展有促進(jìn)作用;x4經(jīng)濟(jì)發(fā)展水平、x7城鎮(zhèn)化率和x9互聯(lián)網(wǎng)發(fā)展水平會(huì)對(duì)本身數(shù)字普惠金融發(fā)展有促進(jìn)作用,對(duì)鄰省的數(shù)字普惠金融發(fā)展有抑制作用。

R代碼R語(yǔ)言代碼:>setwd("C:\\Users\\study\\Desktop\\例2")>getwd()>library(haven)>library(spdep)>library(spatialreg)>columbusswm<-read_dta("sw.dta")>columbusdata<-read_dta("ndata.dta")>names(columbusdata)>colww<-mat2listw(as.matrix(columbusswm),style="W")>moran.test(columbusdata$y,listw=colww)>moran.plot(as.vector(columbusdata$y),listw=colww,xlab="y",ylab="y.lag")>fm=y~x1+x2+x3+x4+x5+x6+x7+x8+x9+x10>cololsfit=lm(fm,data=columbusdata);summary(cololsfit)>collag1=lagsarlm(fm,data=columbusdata,>colww,type="lag");summary(collag1)>ev<-eigenw(colww)>sdm2<-lagsarlm(cololsfit,columbusdata,colww,Durbin=T,>control=list(pre_eig=ev))>impacts(sdm2,listw=colww)【例9.3】房?jī)r(jià)波動(dòng)對(duì)技術(shù)創(chuàng)新的空間影響分析

改革開(kāi)放以來(lái),越來(lái)越多的人轉(zhuǎn)移到城市工作和生活,人口城鎮(zhèn)化率不斷上升,2021年中國(guó)城鎮(zhèn)化率達(dá)到64.72%。伴隨經(jīng)濟(jì)發(fā)展和城鎮(zhèn)化率不斷上升,中國(guó)房?jī)r(jià)也不斷上漲,尤其是進(jìn)入21世紀(jì)后,高房?jī)r(jià)已經(jīng)成為大部分城市經(jīng)濟(jì)社會(huì)發(fā)展中必須面對(duì)的重要問(wèn)題之一。隨著房?jī)r(jià)不斷上漲,越來(lái)越多的學(xué)者開(kāi)始關(guān)注房?jī)r(jià)對(duì)技術(shù)創(chuàng)新的影響?;诳臻g相關(guān)性構(gòu)建了空間滯后模型,以2021年中國(guó)30個(gè)省份(西藏由于部分?jǐn)?shù)據(jù)缺失,不計(jì)入以下研究)省級(jí)截面數(shù)據(jù)為樣本,研究了房?jī)r(jià)波動(dòng)對(duì)技術(shù)創(chuàng)新影響的空間效應(yīng)。9.2.2空間滯后模型

考慮到數(shù)據(jù)的可比性和可衡量性,因變量技術(shù)創(chuàng)新采用專利授權(quán)數(shù)量來(lái)表示,自變量房?jī)r(jià)采用各省份商品房銷售額與商品房銷售面積之比來(lái)表示。技術(shù)創(chuàng)新不僅會(huì)受到房?jī)r(jià)波動(dòng)的影響,還會(huì)受到其他因素的影響,為使模型回歸結(jié)果更加準(zhǔn)確,將衛(wèi)生健康作為控制變量納入到模型中進(jìn)行回歸分析。所構(gòu)建空間滯后模型如下:8.2.2空間滯后模型式(9.14)中,Y表示技術(shù)創(chuàng)新(件),HP表示房?jī)r(jià)(元/平方米),HE表示衛(wèi)生健康支出(億元)。(9.14)9.2.2空間滯后模型8.2.2空間滯后模型資料來(lái)源:數(shù)據(jù)來(lái)源于中國(guó)統(tǒng)計(jì)年鑒8.2.2空間滯后模型

在表8.7中可以看出,莫蘭指數(shù)為0.4760,表明技術(shù)創(chuàng)新具有空間正相關(guān)性,期望值為-0.0345,方差為0.0138,z統(tǒng)計(jì)量為4.3527,表明技術(shù)創(chuàng)新呈現(xiàn)了明顯的聚類特征,p值為6.722e-06,在1%的顯著水平上顯著,因此有必要建立空間滯后模型進(jìn)行分析,結(jié)果如表8.8所示。8.2.2空間滯后模型從表9.10估計(jì)結(jié)果可以看到,空間自回歸系數(shù)顯著為正為0.2521,漸近z檢驗(yàn)的p值為0.0358,周邊鄰居房?jī)r(jià)的提高能顯著提高本地技術(shù)創(chuàng)新水平。8.2.2空間滯后模型從表9.11估計(jì)結(jié)果可以看到,房?jī)r(jià)lnHP對(duì)本省以及鄰省技術(shù)創(chuàng)新lnY都存在促進(jìn)作用,lnHP每提高一個(gè)單位,本省技術(shù)創(chuàng)新提高0.3614,鄰近省份的技術(shù)創(chuàng)新會(huì)提高1.4362;衛(wèi)生健康支出lnHE對(duì)本省以及鄰省技術(shù)創(chuàng)新lnY存在促進(jìn)作用,但會(huì)降低鄰省的技術(shù)創(chuàng)新水平,lnHE每提高一個(gè)單位,本省技術(shù)創(chuàng)新提高1.3795,鄰近省份的技術(shù)創(chuàng)新會(huì)減少0.0255,對(duì)整體技術(shù)創(chuàng)新也是呈促進(jìn)作用。

R代碼R語(yǔ)言代碼:>library(rgdal)>library(spdep)>library(haven)>fjbd9.3<-readOGR("sheng.shp")>nb.fjbd9.3<-poly2nb(fjbd9.3)>dataset<-read_dta("data3.dta")>summary(nb.fjbd9.3)>fjbd9.3_listw<-nb2listw(nb.fjbd9.3)>dataset$lnY=log(dataset$y)>dataset$lnHP=log(dataset$hp)>dataset$lnHE=log(dataset$h>>moran.test(dataset$lnY,fjbd9.3_listw)>library(spatialreg)>slm<lagsarlm(lnY~lnHP+lnHE,data=dataset,fjbd9.3_listw)>summary(slm)>ev<-eigenw(fjbd9.3_listw)>sdm2<-lagsarlm(slm,dataset,fjbd9.3_listw,Durbin=T,>control=list(pre_eig=ev))>impacts(sdm2,listw=fjbd9.3_listw)空間杜賓模型8.38.3空間杜賓模型

8.3空間杜賓模型

8.3空間杜賓模型

8.3空間杜賓模型我們用R逐步進(jìn)行運(yùn)算后可以描繪出雙變量莫蘭檢驗(yàn)的散點(diǎn)圖,具體如圖9-3所示雙莫蘭散點(diǎn)圖顯示了兩變量之間存在正空間相關(guān),其中橫坐標(biāo)表示產(chǎn)業(yè)結(jié)構(gòu)離差的空間滯后變量,縱坐標(biāo)表示科技創(chuàng)新的對(duì)數(shù)離差形式8.3空間杜賓模型表9.12展示了空間杜賓模型估計(jì)結(jié)果,我們可以得到如下結(jié)論:W2x4估計(jì)結(jié)果在5%的水平上顯著為負(fù),雙變量莫蘭指數(shù)檢驗(yàn)可以說(shuō)明其他地區(qū)經(jīng)濟(jì)發(fā)展對(duì)于本地普惠金融存在負(fù)面的抑制作用。;空間系數(shù)項(xiàng)W1y以及自變量的空間滯后項(xiàng)W2x4,空間回歸系數(shù)λ和β2分別為0.4361和-9.7250。R代碼

>library(spdep)>library(spatialreg)>dly<-log(dataset$y)-mean(log(dataset$y))>dx4<-dataset$dus-mean(dataset$x4)>slag.dx4<-lag.listw(lw,dx4)>numerator<-sum(dly*slag.dx4)>denominator<-sqrt(sum(dly^2))*sqrt(sum(dx4^2))>numerator/denominator>plot(slag.dx4,dly)>abline(h=0,v=0,lty=2)>abline(lm(dly~slag.dx4))>sdm<-lagsarlm(fm,data=dataset,list=colww,Durbin=TRUE)>summary(sdm)>sdm1<-lagsarlm(fm,data=dataset,listw=colww,Durbin=~x4x+x5x+x7x)>summary(sdm1)>impacts(sdm,listw=colww)空間誤差模型8.48.4空間誤差模型

8.4空間誤差模型

8.4空間誤差模型

8.4空間誤差模型

8.4空間誤差模型從回歸結(jié)果可以得到如下結(jié)論:經(jīng)濟(jì)發(fā)展的系數(shù)為5.8999,在LR檢驗(yàn)水平下顯著不為0;誤差項(xiàng)的空間自回歸系數(shù)ρ為0.5857,LR檢驗(yàn)的p值為3.371e-04,漸近z檢驗(yàn)的p值為1.649e-10;似然比檢驗(yàn)、漸近正態(tài)檢驗(yàn)以及Wald檢驗(yàn)都表明其顯著不為0,地區(qū)經(jīng)濟(jì)發(fā)展對(duì)普惠金融發(fā)展水平有顯著的促進(jìn)作用??刂谱兞恐校旱貐^(qū)人口密度和城鎮(zhèn)化率對(duì)普惠金融發(fā)展水平具有顯著推動(dòng)作用,而交通便捷情況有抑制作用;交通便捷情況的提高會(huì)在一定程度加大城市內(nèi)部的資金流動(dòng),調(diào)整產(chǎn)業(yè)結(jié)構(gòu),金融機(jī)構(gòu)從而就會(huì)減少對(duì)于普惠金融的力度。8.4空間誤差模型為了使統(tǒng)計(jì)結(jié)果更具有穩(wěn)健性,我們接下來(lái)通過(guò)使用廣義矩估計(jì)的方法來(lái)檢驗(yàn)的模型和統(tǒng)計(jì)結(jié)果的穩(wěn)健性,空間誤差模型的廣義矩估計(jì)結(jié)果如下表所示:R代碼

>library(spdep)>library(rgdal)>library(spatialreg)>sem<-errorsarlm(fm,data=columbusdata,listw=colww)>class(sem)>summary(sem)>sem.gmm<-GMerrorsar(fm,data=columbusdata,listw=colww)>summary(sem.gmm)專題9中國(guó)金融風(fēng)險(xiǎn)的空間集聚與溢出效應(yīng)

專題9中國(guó)金融風(fēng)險(xiǎn)的空間集聚與溢出效應(yīng)當(dāng)前經(jīng)濟(jì)金融形勢(shì)仍存在較大不確定性,未來(lái)金融風(fēng)險(xiǎn)防范任務(wù)仍然十分艱巨,特別是宏觀杠桿率較高、房地產(chǎn)部門風(fēng)險(xiǎn)凸顯、地方融資平臺(tái)債務(wù)、金融科技風(fēng)險(xiǎn)以及內(nèi)外金融風(fēng)險(xiǎn)共振等問(wèn)題仍需要得到及時(shí)有效的應(yīng)對(duì)與處置;選擇合適的分析工具探討金融風(fēng)險(xiǎn)在國(guó)內(nèi)空間區(qū)域間的集聚與溢出效應(yīng),是健全金融監(jiān)管,堅(jiān)守不發(fā)生系統(tǒng)性金融風(fēng)險(xiǎn)底線上亟需解決的重要問(wèn)題;為測(cè)量空間區(qū)域間金融風(fēng)險(xiǎn)的集聚和溢出性,我們構(gòu)建區(qū)域上的空間權(quán)重矩陣,這個(gè)問(wèn)題可通過(guò)R解決。再通過(guò)構(gòu)建的空間權(quán)重矩陣,我們利用莫蘭和吉爾里全局檢驗(yàn)可以有效的測(cè)算空間的相關(guān)性水平;金融風(fēng)險(xiǎn)的傳導(dǎo)往往具有集聚和溢出性,通過(guò)選擇構(gòu)建合適的空間滯后模型、空間誤差模型,來(lái)具體分析金融風(fēng)險(xiǎn)在空間上的傳遞和集聚。

專題9中國(guó)金融風(fēng)險(xiǎn)的空間集聚與溢出效應(yīng)1.數(shù)據(jù)來(lái)源本專題將研究中國(guó)國(guó)內(nèi)30個(gè)?。ㄗ灾螀^(qū)、直轄市,西藏、香港、澳門、臺(tái)灣除外)2019年地方政府負(fù)債率衡量政府債務(wù)風(fēng)險(xiǎn);研究數(shù)據(jù)為2019年的截面數(shù)據(jù),共計(jì)30個(gè)觀測(cè)值,數(shù)據(jù)主要來(lái)源各省《地方政府性債務(wù)審計(jì)公報(bào)》、地方政府債券信息網(wǎng)以及Wind。實(shí)證研究所采用的其他數(shù)據(jù)主要來(lái)自《地區(qū)統(tǒng)計(jì)公報(bào)》、國(guó)家統(tǒng)計(jì)局。此外,需要提及的是,各地政府債務(wù)余額于2010年開(kāi)始公布,截至2019年底共公布了10個(gè)時(shí)間點(diǎn)數(shù)據(jù)(2011年國(guó)家審計(jì)署尚未公布,2013年為6月底公布)專題9中國(guó)金融風(fēng)險(xiǎn)的空間集聚與溢出效應(yīng)

專題9中國(guó)金融風(fēng)險(xiǎn)的空間集聚與溢出效應(yīng)3.實(shí)證結(jié)果在對(duì)模型進(jìn)行實(shí)證分析之前,先需要對(duì)空間區(qū)域進(jìn)行空間自相關(guān)檢驗(yàn),從而判斷空間關(guān)聯(lián)性。表9.19以及表9.20分別為莫蘭和吉爾里全局空間自相關(guān)檢驗(yàn)結(jié)果。專題9中國(guó)金融風(fēng)險(xiǎn)的空間集聚與溢出效應(yīng)

專題9中國(guó)金融風(fēng)險(xiǎn)的空間集聚與溢出效應(yīng)表9.21顯示了普通最小二乘回歸模型統(tǒng)計(jì)結(jié)果,可以看出地方政府財(cái)政赤字率對(duì)于當(dāng)?shù)氐恼?fù)債率具有顯著的正相關(guān)性,可決系數(shù)為0.6974,模型能較好說(shuō)明它們之間的關(guān)系。專題9中國(guó)金融風(fēng)險(xiǎn)的空間集聚與溢出效應(yīng)

專題9中國(guó)金融風(fēng)險(xiǎn)的空間集聚與溢出效應(yīng)表9.22顯示空間滯后模型的回歸結(jié)果,從估計(jì)結(jié)果可以看到,空間自回歸系數(shù)ρ為-0.1900,漸近z檢驗(yàn)的p值為0.2455。因此通過(guò)構(gòu)建空間滯后模型并不能合理分析政府債務(wù)風(fēng)險(xiǎn)的空間自相關(guān)性。為了構(gòu)建更合理的空間相關(guān)模型,接下來(lái)我們利用LM檢驗(yàn)進(jìn)行空間模型選擇。LM檢驗(yàn)結(jié)果如表9.23所示:專題9中國(guó)金融風(fēng)險(xiǎn)的空間集聚與溢出效應(yīng)

專題9中國(guó)金融風(fēng)險(xiǎn)的空間集聚與溢出效應(yīng)表9.24顯示了空間誤差模型的回歸結(jié)果,從估計(jì)結(jié)果可以看出,政府赤字率的系數(shù)為0.0666,顯著為正,政府赤字率對(duì)政府負(fù)債率有非常明顯的促進(jìn)作用;誤差項(xiàng)的空間自回歸系數(shù)為-1.2357,LR檢驗(yàn)的p值為8.941e-05,漸近z檢驗(yàn)的p值為1.693e-11,似然比檢驗(yàn)表明其顯著不為0。專題9中國(guó)金融風(fēng)險(xiǎn)的空間集聚與溢出效應(yīng)從表9.24還可以得到如下結(jié)論:地方政府債務(wù)存在明顯的地理聚集效應(yīng)和空間溢出效應(yīng),本省份的地方政府債務(wù)水平不僅受到本省份解釋變量、控制變量的影響,也會(huì)受到相鄰省份的地方不確定性誤差負(fù)向沖擊;控制變量的顯著性水平也可以說(shuō)明,人均GDP、人口密度、產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化水平對(duì)政府負(fù)債率具有顯著的抑制作用,即一個(gè)地區(qū)經(jīng)濟(jì)發(fā)展越好、產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化性能越高,會(huì)很大程度上削弱當(dāng)?shù)卣趥鶆?wù)上風(fēng)險(xiǎn)溢出水平。我們對(duì)空間誤差模型進(jìn)行廣義矩估計(jì)(GMM,Generalizedmethodofmoments),空間誤差模型的廣義矩估計(jì)結(jié)果如下表9.25所示:專題9中國(guó)金融風(fēng)險(xiǎn)的空間集聚與溢出效應(yīng)從表9.25估計(jì)結(jié)果可以看出,政府赤字率的系數(shù)為0.0675,在通常的檢驗(yàn)水平下顯著不為0;誤差項(xiàng)的空間自回歸系數(shù)為-0.9154,顯著不為0,結(jié)果與極大似然估計(jì)基本相同,足以說(shuō)明模型的穩(wěn)健性和回歸結(jié)果的可靠性。專題9中國(guó)金融風(fēng)險(xiǎn)的空間集聚與溢出效應(yīng)本專題通過(guò)研究中國(guó)金融風(fēng)險(xiǎn)的空間集聚和溢出性,并結(jié)合空間回歸模型對(duì)國(guó)內(nèi)30個(gè)省份的政府債務(wù)風(fēng)險(xiǎn)進(jìn)行了深入分析。實(shí)證結(jié)果表明,我國(guó)金融風(fēng)險(xiǎn)的特征較為明顯,容易造成多地區(qū)溢出和集聚。當(dāng)前,各級(jí)政府需高度重視地方政府債務(wù)風(fēng)險(xiǎn)問(wèn)題,充分認(rèn)識(shí)防范化解地方政府債務(wù)風(fēng)險(xiǎn)任務(wù)的長(zhǎng)期性、艱巨性,牢牢守住不發(fā)生系統(tǒng)性風(fēng)險(xiǎn)的底線。習(xí)題習(xí)題1.以我國(guó)各?。ㄗ灾螀^(qū)、直轄市)2020—2021年GDP與教育支出的數(shù)據(jù),構(gòu)建空間滯后模型分析教育支出是否促進(jìn)了經(jīng)濟(jì)增長(zhǎng)。2.空間滯后模型以及空間誤差模型有什么區(qū)別?我們?cè)谟?jì)量分析中應(yīng)該如何選擇合適的空間計(jì)量模型呢?具體R語(yǔ)言操作是怎樣呢?3.考慮案例9.4經(jīng)濟(jì)發(fā)展對(duì)普惠金融的影響,結(jié)合案例中的數(shù)據(jù)集,繼續(xù)構(gòu)建空間杜賓模型。如果我們只考慮加入政府干預(yù)作為自變量的滯后項(xiàng)該如何操作?其結(jié)果與包含所有自變量的空間滯后項(xiàng)的結(jié)果相同嗎?可以嘗試通過(guò)結(jié)果分析而選擇顯著的空間滯后項(xiàng)有哪些?

Theending第十章機(jī)器學(xué)習(xí)與數(shù)據(jù)分析

學(xué)習(xí)目標(biāo)

了解機(jī)器學(xué)習(xí)的基本概念、建模流程和應(yīng)用范疇;掌握不同類型的機(jī)器學(xué)習(xí)算法原理,并能利用Python進(jìn)行實(shí)踐;能夠針對(duì)預(yù)測(cè)、分類、聚類、關(guān)聯(lián)規(guī)則問(wèn)題搭建合適的機(jī)器學(xué)習(xí)模型,并對(duì)不同模型效果進(jìn)行評(píng)估和比較

本章導(dǎo)讀

機(jī)器學(xué)習(xí)(MachineLearning,ML),是基于有限樣本訓(xùn)練模型,學(xué)習(xí)樣本數(shù)據(jù)中的一般性規(guī)律,并利用這些規(guī)律進(jìn)行預(yù)測(cè)的方法。機(jī)器學(xué)習(xí)在各個(gè)領(lǐng)域應(yīng)用非常廣泛,與模式識(shí)別、統(tǒng)計(jì)學(xué)習(xí)、數(shù)據(jù)挖掘、計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別以及自然語(yǔ)言處理等領(lǐng)域有著非常深的聯(lián)系。在金融領(lǐng)域,機(jī)器學(xué)習(xí)發(fā)揮了重要作用,為欺詐檢測(cè)、股票市場(chǎng)預(yù)測(cè)、個(gè)人征信評(píng)分、券商智能投顧、手機(jī)銀行APP人臉識(shí)別等提供了有力的技術(shù)支撐。通過(guò)本章學(xué)習(xí),學(xué)生應(yīng)了解機(jī)器學(xué)習(xí)的概念、掌握常用機(jī)器學(xué)習(xí)算法原理,重現(xiàn)本章案例,提高使用機(jī)器學(xué)習(xí)對(duì)金融數(shù)據(jù)進(jìn)行建模的能力。10.1機(jī)器學(xué)習(xí)概述10.2分類學(xué)習(xí)10.3回歸分析10.4聚類分析10.5關(guān)聯(lián)規(guī)則挖掘方法10.6模型評(píng)估與選擇10.7

專題10基于機(jī)器學(xué)習(xí)的上證指數(shù)走勢(shì)預(yù)測(cè)研究目錄CONTENTS機(jī)器學(xué)習(xí)概述10.110.1機(jī)器學(xué)習(xí)概述

機(jī)器學(xué)習(xí)一般可分為四種類型,即監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)。監(jiān)督學(xué)習(xí)(SupervisedLearning)

從標(biāo)簽化訓(xùn)練數(shù)據(jù)集中推斷出函數(shù)的機(jī)器學(xué)習(xí)任務(wù)。監(jiān)督學(xué)習(xí)中通常將數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,從訓(xùn)練數(shù)據(jù)集合中訓(xùn)練模型,再對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)。訓(xùn)練數(shù)據(jù)由輸入和輸出對(duì)組成,測(cè)試數(shù)據(jù)也由相應(yīng)的輸入輸出對(duì)組成。根據(jù)標(biāo)簽類型不同,可將監(jiān)督學(xué)習(xí)分為回歸問(wèn)題和分類問(wèn)題,回歸問(wèn)題中標(biāo)簽是連續(xù)值,分類問(wèn)題中標(biāo)簽是離散的類別。常見(jiàn)的監(jiān)督學(xué)習(xí)算法有神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)、決策樹(shù)、隨機(jī)森林等。10.1機(jī)器學(xué)習(xí)概述無(wú)監(jiān)督學(xué)習(xí)(UnsupervisedLearning)

即數(shù)據(jù)沒(méi)有標(biāo)簽,其本質(zhì)就是找到特征和標(biāo)簽間的關(guān)系。當(dāng)有特征而無(wú)標(biāo)簽的未知數(shù)據(jù)輸入時(shí),即在缺乏先驗(yàn)知識(shí)的情況下,通過(guò)已有的關(guān)系得到未知數(shù)據(jù)標(biāo)簽。典型的無(wú)監(jiān)督學(xué)習(xí)問(wèn)題有聚類、降維、特征學(xué)習(xí)等,常見(jiàn)的主成分分析方法就是一種無(wú)監(jiān)督學(xué)習(xí)算法。10.1機(jī)器學(xué)習(xí)概述強(qiáng)化學(xué)習(xí)(ReinforcementLearning)

用于描述和解決智能體(Agent)在與環(huán)境的交互過(guò)程中通過(guò)學(xué)習(xí)策略以達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)的問(wèn)題。例如在圍棋游戲中,玩家的每一步移動(dòng)都會(huì)影響對(duì)手的反應(yīng)和下一步棋的位置,從而影響輸贏概率。因此,可以通過(guò)計(jì)算每個(gè)棋面的輸贏概率,選擇贏棋概率最大的下一步的位置走子。10.1機(jī)器學(xué)習(xí)概述深度學(xué)習(xí)(DeepLearning)

深度學(xué)習(xí)是近年來(lái)發(fā)展十分迅速的研究領(lǐng)域,并且在人工智能的很多子領(lǐng)域都取得了巨大的成功。深度學(xué)習(xí)問(wèn)題本質(zhì)上是一個(gè)機(jī)器學(xué)習(xí)問(wèn)題,起源于人工神經(jīng)網(wǎng)絡(luò)的研究,但也可以采用其他模型(比如深度信念網(wǎng)絡(luò)是一種概率圖模型)。它的“深度”主要體現(xiàn)在兩個(gè)方面:(1)強(qiáng)調(diào)模型結(jié)構(gòu)的深度,神經(jīng)網(wǎng)絡(luò)模型中至少有3層以上的隱層節(jié)點(diǎn);(2)強(qiáng)調(diào)特征學(xué)習(xí),通過(guò)逐層特征變換,將低層特征形成更加抽象的高層屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示,從而使分類或預(yù)測(cè)更加容易。深度學(xué)習(xí)的代表性算法有卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短期記憶網(wǎng)絡(luò)等。分類分析10.210.2分類分析方法分類是將類別標(biāo)簽分配給未標(biāo)記樣本的過(guò)程,其目的是通過(guò)分類模型,將數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別。在分類過(guò)程中,首先通過(guò)訓(xùn)練數(shù)據(jù)集獲得一個(gè)分類器,再通過(guò)分類器去預(yù)測(cè)未知數(shù)據(jù),因此分類本質(zhì)上是一種監(jiān)督學(xué)習(xí)方法。分類分析方法可以應(yīng)用于客群分類、客流量預(yù)測(cè)、滿意度分析、征信評(píng)估和欺詐檢測(cè)等。經(jīng)典分類算法有Logistic回歸法、判別分析法、k近鄰分類法和支持向量機(jī)。10.2.1Logistic回歸Logistic回歸Logistic回歸,也稱邏輯回歸,是一項(xiàng)可用于預(yù)測(cè)二分類結(jié)果的統(tǒng)計(jì)技術(shù),即預(yù)測(cè)的因變量只有兩個(gè)取值,如0或1。在Logistic回歸中,利用Logistic函數(shù)對(duì)因變量y值進(jìn)行歸一化處理,使y的取值在區(qū)間(0,1)內(nèi),從而將預(yù)測(cè)問(wèn)題轉(zhuǎn)化為一個(gè)概率問(wèn)題:

其中,在Logistic回歸中常采用極大似然估計(jì)方法來(lái)估計(jì)待估參數(shù),一般以0.5為界,如果預(yù)測(cè)值大于0.5,判斷此時(shí)y更可能取1,否則取0。10.2.2

判別分析法2.判別分析法判別分析法的核心思想是,在給定自變量x的條件下,判斷因變量y屬于哪一類。例如,在金融業(yè),根據(jù)客戶的信息對(duì)其信用等級(jí)分類;在人力部門,根據(jù)已有的員工類別及特征對(duì)求職者進(jìn)行相應(yīng)分類;在醫(yī)學(xué)上,根據(jù)臨床特征對(duì)是否染上某種疾病做出診斷,等等。常用的判別分析法有貝葉斯分類法、線性判別分析法(LinearDiscriminantAnalysis,LDA)和二次判別分析法(QuadraticDiscriminantAnalysis,QDA)。10.2.2

判別分析法2.判別分析法10.2.3

K-近鄰分類法3.K-近鄰分類法K-近鄰分類法的原理是,如果一個(gè)樣本附近的K個(gè)最臨近樣本大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。K-近鄰法的基本思路:首先,將樣本劃分為標(biāo)記好分類的訓(xùn)練集和未知分類的測(cè)試集;其次,逐一取出訓(xùn)練集中的樣本,與測(cè)試集樣本相比較,提取與測(cè)試集樣本前K個(gè)最相似數(shù)據(jù)的分類標(biāo)簽;最后,選擇K個(gè)最相似數(shù)據(jù)中出現(xiàn)次數(shù)最多的分類,作為新數(shù)據(jù)的分類。K-近鄰分類法中有三個(gè)參數(shù)需要考量,即距離的定義、核函數(shù)的選擇以及K的選擇。通常采用歐式距離或絕對(duì)距離,K取不大于20的整數(shù)。10.2.4

支持向量機(jī)

支持向量機(jī)的基本思想是構(gòu)造一個(gè)最優(yōu)分離超平面,將給定的兩類樣本分開(kāi),最優(yōu)的分離超平面將使得兩類樣本對(duì)超平面的最小距離最大化。10.2.4

支持向量機(jī)

10.2.4

支持向量機(jī)

對(duì)于非線性可分的情況,可通過(guò)核函數(shù)將原數(shù)據(jù)映射到更高維的空間。此時(shí)使用超平面作為決策邊界會(huì)帶來(lái)分類損失,此時(shí)使用超平面作為決策邊界會(huì)帶來(lái)分類損失,可以用損失函數(shù)來(lái)量化分類損失程度,SVM算法中一般采用Hinge損失函數(shù)(也稱合頁(yè)損失函數(shù)),形式如式所示:對(duì)于整個(gè)數(shù)據(jù)集而言,可以加總Hinge損失得到總體分類損失程度。此時(shí)優(yōu)化問(wèn)題變?yōu)椋海?0.7)(10.8)10.2分類分析方法例10.2Python分類分析實(shí)例:預(yù)測(cè)湖南省房?jī)r(jià)是否上漲

本例將基于不同分類方法預(yù)測(cè)湖南省房?jī)r(jià)上漲或下跌。研究樣本為湖南省2001-2021年的年度數(shù)據(jù),選擇2001-2016年觀測(cè)值作為訓(xùn)練集,2017-2021年觀測(cè)值作為測(cè)試集。數(shù)據(jù)來(lái)自《湖南統(tǒng)計(jì)年鑒》。定義商品房銷售價(jià)格年增長(zhǎng)率高于其樣本平均值為上漲,低于其平均值為下跌。因變量y為二值變量,y=1代表當(dāng)期房?jī)r(jià)上漲,y=0代表當(dāng)期房?jī)r(jià)下跌。選取商品房銷售面積增長(zhǎng)率(GSaleArea)、人均可支配收入增長(zhǎng)率(GIncome)和人均GDP增長(zhǎng)率(GGDPC)作為影響房?jī)r(jià)變化趨勢(shì)的特征變量。選取預(yù)測(cè)值準(zhǔn)確率Accuracy以及擬合值準(zhǔn)確率Score作為模型評(píng)估指標(biāo)。10.2分類分析方法importpandasaspdimportnumpyasnpdf=pd.read_excel("E:/jrj1/Chapter10/房?jī)r(jià).xlsx")fromsklearn.model_selectionimporttrain_test_split#數(shù)據(jù)處理m=df['Gsaleprice'].mean()df['trend']=(df['Gsaleprice']>=m).astype(int)x=df[['Gsalearea','Gperincome','Gpergdp']]y=df['Gsaleprice']#劃分訓(xùn)練集x_train,y_train與測(cè)試集x_test,y_testx_train,x_test=x.iloc[:16,:],x.iloc[16:,:]y_train,y_test=y[:16],y[16:]fromsklearn.linear_modelimportLogisticRegressionasLRfromsklearn.metricsimportaccuracy_scorelr=LR()clf=lr.fit(x_train,y_train)print(clf.coef_);print(ercept_)#打印logistics回歸變量系數(shù)與截距r=lr.score(x_train,y_train)y_predict=lr.predict(x_test)print("準(zhǔn)確率:",accuracy_score(y_test,y_predict))print('score:',lr.score(x_train,y_train))Python代碼演示10.2分類分析方法#線性判別分析fromsklearn.discriminant_analysisimportLinearDiscriminantAnalysisasLDAfromsklearn.metricsimportaccuracy_scorelda=LDA()lda.fit(x_train,y_train)y_predict=lda.predict(x_test)print("準(zhǔn)確率:",accuracy_score(y_test,y_predict))print('score:',lda.score(x_train,y_train))#k近鄰分類fromsklearnimportneighborsfromsklearn.metricsimportaccuracy_scoreknn=neighbors.KNeighborsClassifier()knn.fit(x_train,y_train)y_predict=knn.predict(x_test)print("準(zhǔn)確率:",accuracy_score(y_test,y_predict))print('score:',knn.score(x_train,y_train))#支持向量機(jī)fromsklearnimportsvmcls=svm.LinearSVC()cls.fit(x_train,y_train)y_predict=cls.predict(x_test)fromsklearn.metricsimportaccuracy_scoreprint("準(zhǔn)確率:",accuracy_score(y_test,y_predict))print('score:',cls.score(x_train,y_train))回歸分析10.310.3回歸分析方法回歸分析方法是挖掘連續(xù)變量或?qū)傩灾g的相關(guān)關(guān)系并進(jìn)行預(yù)測(cè)的一種有效工具,其主要應(yīng)用場(chǎng)景有數(shù)據(jù)序列的趨勢(shì)特征分析、數(shù)據(jù)序列的預(yù)測(cè)以及數(shù)據(jù)間的相關(guān)關(guān)系等?;貧w分析可分為簡(jiǎn)單線性回歸、多元線性回歸以及非線性回歸方法如決策樹(shù)回歸與隨機(jī)森林回歸法。10.3.1線性回歸10.3.2

決策樹(shù)

通過(guò)若干基本面特征來(lái)區(qū)分四家銀行:中國(guó)銀行、中信銀行、北京農(nóng)商銀行和長(zhǎng)沙農(nóng)商銀行:是否上市?資產(chǎn)規(guī)模超過(guò)十萬(wàn)億?總部在北京?北京農(nóng)商銀行長(zhǎng)沙農(nóng)商銀行是是否否中國(guó)銀行中信銀行是否10.3.2

決策樹(shù)10.3.2

決策樹(shù)10.3.2

決策樹(shù)10.3.3

隨機(jī)森林

隨機(jī)森林是一種集成學(xué)習(xí)(EnsembleLearning)模型,其結(jié)合了Bagging集成算法與隨機(jī)子空間方法。

其算法流程可分解為如下步驟:

(1)對(duì)樣本集進(jìn)行隨機(jī)采樣選出n個(gè)樣本;

(2)從所有屬性中隨機(jī)選擇k個(gè)屬性(部分特征),選擇最佳分割特征作為節(jié)點(diǎn)建立決策樹(shù);

(3)重復(fù)以上步驟m次,即建立了m棵決策樹(shù),每顆樹(shù)都和其他樹(shù)略有不同;

(4)這m棵樹(shù)形成了隨機(jī)森林,通過(guò)投票表決結(jié)果,決定數(shù)據(jù)屬于哪一類??梢?jiàn),隨機(jī)森林算法的隨機(jī)性體現(xiàn)在兩個(gè)方面,一是樣本的隨機(jī)性,二是分割特征的隨機(jī)性。10.3回歸分析例10.3Python回歸分析實(shí)例:預(yù)測(cè)湖南省商品房房?jī)r(jià)

本例中將利用前述回歸分析方法研究湖南省房?jī)r(jià)水平的影響因素。樣本數(shù)據(jù)包括湖南省2001年到2021年的商品房平均銷售價(jià)格、商品房銷售面積、人均可支配收入和人均GDP。數(shù)據(jù)全部來(lái)自《湖南統(tǒng)計(jì)年鑒》。選取人均GDP(GDPC)代表經(jīng)濟(jì)發(fā)展水平作為自變量,湖南省商品房單位銷售價(jià)格(HousePrice)作為湖南省房?jī)r(jià)水平的測(cè)度指標(biāo)作為因變量。湖南省商品房銷售面積、人均可支配收入作為控制變量,構(gòu)建多元線性回歸、決策樹(shù)回歸以及隨機(jī)森林回歸模型。將樣本按照4:1的比例隨機(jī)劃分訓(xùn)練集與測(cè)試集,利用訓(xùn)練集進(jìn)行回歸訓(xùn)練,將模型訓(xùn)練結(jié)果對(duì)測(cè)試集進(jìn)行預(yù)測(cè),對(duì)比預(yù)測(cè)結(jié)果和真實(shí)結(jié)果。利用可決系數(shù)(R-squared)、均方誤差(MSE)與平均絕對(duì)誤差(MAE)評(píng)估模型預(yù)測(cè)效果10.3

回歸分析Python代碼演示importpandasaspdimportnumpyasnpdf=pd.read_excel("E:/jrj1/Chapter10/房?jī)r(jià).xlsx")importstatsmodels.apiassmfromsklearn.model_selectionimporttrain_test_split#一元線性回歸df.head()y=df.salepricex=df.pergdpx_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2,random_state=10)x_train=sm.add_constant(x_train)x_test=sm.add_constant(x_test)est=sm.OLS(y_train,x_train)est=est.fit()est.summary()y_predict=est.predict(x_test)print('mse:',np.sum((y_test-y_predict)**2)/len(y_test))print('mae:',np.sum(np.absolute(y_test-y_predict))/len(y_test))10.3

回歸分析#多元線性回歸importpandasaspdimportnumpyasnpimportstatsmodels.apiassmdf.dropna(inplace=True)df.head()x=df[['pergdp','salearea','perincome']]y=df['saleprice']x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2,random_state=10)x_train=sm.add_constant(x_train)x_test=sm.add_constant(x_test)est=sm.OLS(y_train,x_train).fit()est.summary()y_predict=est.predict(x_test)print('mse:',np.sum((y_test-y_predict)**2)/len(y_test))print('mae:',np.sum(np.absolute(y_test-y_predict))/len(y_test))10.3

回歸分析#決策樹(shù)回歸x=df[['pergdp','salearea','perincome']]y=df['saleprice']x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2,random_state=10)fromsklearn.treeimportDecisionTreeRegressordt_reg=DecisionTreeRegressor(random_state=10)dt_reg.fit(x_train,y_train)dtr_y_predict=dt_reg.predict(x_test)fromsklearn.metricsimportr2_score,mean_absolute_error,mean_squared_errorprint('R-squared:',dt_reg.score(x_test,y_test))print('mse:',mean_squared_error(y_test,dtr_y_predict))print('mae:',mean_absolute_error(y_test,dtr_y_predict))#隨機(jī)森林回歸fromsklearn.ensembleimportRandomForestRegressorreg=RandomForestRegressor(random_state=10)reg.fit(x_train,y_train)y_predict=reg.predict(x_test)fromsklearn.metricsimportr2_score,mean_absolute_error,mean_squared_errorprint('R-squared:',reg.score(x_test,y_test))print('mse:',mean_squared_error(y_test,y_predict))print('mae:',mean_absolute_error(y_test,y_predict))聚類分析10.410.4聚類分析聚類是按照某個(gè)特定標(biāo)準(zhǔn)(如距離)把一個(gè)數(shù)據(jù)集分割成不同的類或簇,使得同一個(gè)類別中數(shù)據(jù)對(duì)象的相似性盡可能大,同時(shí)不在同一個(gè)類別中的數(shù)據(jù)對(duì)象的差異性也盡可能地大。與分類不同,聚類是一種無(wú)監(jiān)督學(xué)習(xí)方法,事先并沒(méi)有標(biāo)注標(biāo)簽。數(shù)據(jù)聚類方法可以分為劃分式聚類方法(Partition-basedMethods)、基于密度的聚類方法(Density-basedMethods)、層次化聚類方法(HierarchicalMethods)。10.4.1劃分式聚類分析1.劃分式聚類方法劃分式聚類方法需要事先指定類別數(shù)目或者聚類中心,通過(guò)反復(fù)迭代,直至最后達(dá)到“同類的樣本盡可能相似,不同類的樣本盡可能相異”的目標(biāo)。經(jīng)典的劃分式聚類算法有K-均值聚類法(K-meansClustering),以及其變體K-means++聚類法、二分K-means聚類法(BisectingK-meansClustering)等。10.4.1劃分式聚類分析1.劃分式聚類方法K-均值聚類法的算法流程一般如下:第一步,隨機(jī)初始化K個(gè)聚類中心向量;第二步,計(jì)算每個(gè)樣本與各個(gè)聚類中心向量的距離,并將該樣本分配給距離最小的類;第三步,對(duì)每一個(gè)類,取該類中所有樣本的特征變量均值做為新的類中心向量;第四步,重復(fù)第二到第三步,直到各個(gè)類的中心向量不再發(fā)生為止。10.4.2基于密度的聚類分析2.基于密度的聚類方法在處理非球形數(shù)據(jù)以及離群點(diǎn)時(shí)可以采用基于密度的聚類方法,其中最典型的方法就是基于密度的噪聲空間聚類算法,即DBSCAN(Density-basedSpatialClusteringofApplicationswithNoise)DBSCAN算法的原理是將特征空間中足夠密集的點(diǎn)劃分為同一個(gè)類,類的形狀可以是任意的,并且數(shù)據(jù)中的噪聲點(diǎn)不會(huì)被劃分給某個(gè)類。DBSCAN算法使用兩個(gè)參數(shù)來(lái)描述樣本分布的緊密程度:一是鄰域半徑閾值,二是最少點(diǎn)數(shù)目M。10.4.3層次化聚類分析3.層次化聚類方法相較于劃分式聚類方法和基于密度的聚類方法,而層次化聚類方法可以降低鏈?zhǔn)叫?yīng)引起的誤差。層次聚類算法的特征是基于類之間的相似度在不同層次上聚合數(shù)據(jù),從而形成樹(shù)形的聚類結(jié)構(gòu)。層次聚類法一般有兩種劃分策略,即自底向上的聚合策略(Agglomerative)和自頂向下的分拆策略(Divisive)。10.4聚類分析方法例10.4Python聚類分析實(shí)例:中國(guó)居民消費(fèi)支出結(jié)構(gòu)分析

本例運(yùn)用聚類分析法探究居民消費(fèi)支出結(jié)構(gòu)相似性與所處地域之間的關(guān)聯(lián)。選取2020年我國(guó)除港澳臺(tái)之外31個(gè)省市的城鎮(zhèn)居民人均消費(fèi)數(shù)據(jù)作為研究樣本,其中包含了居民食品煙酒支出、衣著支出、生活用品及服務(wù)支出、教育文化娛樂(lè)支出四個(gè)類別。數(shù)據(jù)來(lái)源于CSMAR國(guó)泰安數(shù)據(jù)庫(kù)。10.4聚類分析方法Python代碼演示importpandasaspdfromsklearn.clusterimportKMeans#導(dǎo)入K-均值聚類模塊fromsklearn.clusterimportDBSCAN#導(dǎo)入DBSCANfromsklearn.clusterimportAgglomerativeClustering#導(dǎo)入聚合聚類法#數(shù)據(jù)獲取及標(biāo)準(zhǔn)化處理data=pd.read_excel(r'E:/jrj1/Chapter10/consumption.xlsx')x=data.iloc[:,1:]fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(x)x=scaler.transform(x)model=KMeans(n_clusters=4,random_state=0,max_iter=500)#K-均值聚類法model.fit(x)c=model.labels_Fs=pd.Series(c,index=data['AreaName'])Fs=Fs.sort_values(ascending=True)10.4聚類分析方法model=DBSCAN(eps=0.8,min_samples=3)#DBSCANmodel.fit(x)c=model.labels_Fs=pd.Series(c,index=data['AreaName'])Fs=Fs.sort_values(ascending=True)model=AgglomerativeClustering(linkage='ward',affinity='euclidean',n_clusters=4)#聚合聚類法model.fit(x)c=model.labels_Fs=pd.Series(c,index=data['AreaName'])Fs=Fs.sort_values(ascending=True)關(guān)聯(lián)規(guī)則挖掘方法10.510.5關(guān)聯(lián)規(guī)則挖掘方法交易編號(hào)商品0豆奶,萵苣1萵苣,尿布,葡萄酒,甜菜2豆奶,尿布,葡萄酒,橙汁3萵苣,豆奶,尿布,葡萄酒4萵苣,豆奶,尿布,橙汁10.5關(guān)聯(lián)規(guī)則挖掘方法通常采用支持度(Support)描述項(xiàng)集事務(wù)集中出現(xiàn)的概率,如果某項(xiàng)集{A,B}的支持度滿足預(yù)定義的最小支持度閾值,則此項(xiàng)集是一個(gè)頻繁項(xiàng)集(FrequentItemSet)。支持度揭示了A與B同時(shí)出現(xiàn)的概率,如果A與B同時(shí)出現(xiàn)的概率小,說(shuō)明A與B的關(guān)系不大;如果A與B同時(shí)出現(xiàn)的非常頻繁,則說(shuō)明A與B總是相關(guān)的。:置信度(Confidence)衡量關(guān)聯(lián)規(guī)則的強(qiáng)弱程度,置信度揭示了A出現(xiàn)時(shí),B是否也會(huì)出現(xiàn)或有多大概率出現(xiàn)。如果置信度太低,則說(shuō)明A的出現(xiàn)與B是否出現(xiàn)關(guān)系不大。10.5關(guān)聯(lián)規(guī)則挖掘方法關(guān)聯(lián)規(guī)則挖掘過(guò)程主要包括兩個(gè)階段:第一階段,從海量原始數(shù)據(jù)中找出所有的頻繁項(xiàng)目集;第二階段,從這些頻繁項(xiàng)目集產(chǎn)生關(guān)聯(lián)規(guī)則,并且通過(guò)支持度和置信度來(lái)進(jìn)行衡量。只有支持度和置信度較高的關(guān)聯(lián)規(guī)則才是用戶感興趣的。常見(jiàn)的關(guān)聯(lián)規(guī)則挖掘算法有Apriori算法與FP-Growth算法,在Python中可通過(guò)第三方庫(kù)mlxtend實(shí)現(xiàn)。FP-Growth算法可以更為高效地發(fā)現(xiàn)頻繁項(xiàng)集。但在關(guān)聯(lián)分析時(shí),Apriori算法的擴(kuò)展性更好,可以用于并行計(jì)算等領(lǐng)域。10.5關(guān)聯(lián)規(guī)則挖掘方法例10.4Python關(guān)聯(lián)規(guī)則挖掘應(yīng)用:國(guó)際股票指數(shù)關(guān)聯(lián)分析

本例將利用關(guān)聯(lián)規(guī)則來(lái)分析國(guó)際上主要股票價(jià)格指數(shù)之間的漲跌關(guān)聯(lián)情況。選取了11個(gè)主要國(guó)家或者地區(qū)中具有代表性的股票價(jià)格指數(shù)交易數(shù)據(jù),數(shù)據(jù)時(shí)間范圍為2012年1月1日至2021年12月31日。數(shù)據(jù)來(lái)源于國(guó)泰安CSMAR在進(jìn)行Apriori算法前要對(duì)數(shù)據(jù)進(jìn)行一個(gè)預(yù)處理,首先計(jì)算出各指數(shù)的跌幅指標(biāo)數(shù)據(jù),其中跌幅計(jì)算公式為:(當(dāng)日收盤指數(shù)—上日收盤指數(shù))/上日收盤指數(shù)

為了方便進(jìn)行關(guān)聯(lián)規(guī)則挖掘,將跌幅指標(biāo)數(shù)據(jù)轉(zhuǎn)化為0-1布爾值,也就是如果跌幅大于等于0.5%記為1,否則為0。在轉(zhuǎn)化為布爾值之后,還需要對(duì)各個(gè)指數(shù)的交易日期做一致化處理。為了便于挖掘有意義的關(guān)聯(lián)規(guī)則,需要在所有指數(shù)交易日均相同的情況下進(jìn)行挖掘。本例中以中國(guó)滬深300指數(shù)交易日為篩選基準(zhǔn),如果所有指數(shù)都在該交易日下有交易,則取該交易日下的指數(shù)的跌幅數(shù)據(jù)進(jìn)行挖掘分析。最后得到11個(gè)國(guó)際指數(shù)的共同交易日一共1245個(gè)。

數(shù)據(jù)進(jìn)行預(yù)處理完之后,便可以使用Apriori算法或FP-Growth算法挖掘關(guān)聯(lián)規(guī)則。10.3.4關(guān)聯(lián)規(guī)則挖掘方法例10.4Python關(guān)聯(lián)規(guī)則挖掘應(yīng)用:國(guó)際股票指數(shù)關(guān)聯(lián)分析Python代碼演示importpandasaspd;

importnumpyasnpfrommlxtend.frequent_patternsimportassociation_rules,apriori,fpgrowthdata=pd.read_excel(r'E:\jrj1\Chapter10\stock.xlsx')code=list(data.iloc[:,0].value_counts().index)groups=data.groupby(data.Indexcd)deftrend(prc):ret=np.diff(np.log(prc))trend=np.zeros(len(ret))+np.nantrend[ret<-0.005]=1trend[ret>=-0.005]=0trend=np.append(np.nan,trend)returntrendforiinrange(len(code)):c=code[i]obj=groups.get_group(c)obj=obj[['Trddt','Clsidx']]obj.rename(columns={'Clsidx':c},inplace=True)obj['Trddt']=pd.to_datetime(obj['Trddt'])obj.iloc[:,1]=trend(obj.iloc[:,1])locals()['subset'+str(i)]=obj10.5關(guān)聯(lián)規(guī)則挖掘方法dataset=subset0dataset.sort_values('Trddt',inplace=True)foriinrange(1,len(code)):obj=locals()['subset'+str(i)]dataset=pd.merge(dataset,obj,how='outer',on='Trddt’)#dataset=stock.iloc[:,1:].apply(lambdax:trend(x))dataset.set_index('Trddt',inplace=True)dataset.dropna(inplace=True)dataset=dataset.astype(bool)#apriorifreq_items=apriori(dataset,min_support=0.08,use_colnames=True).sort_values(by='support',ascending=False)rules=association_rules(freq_items,metric='confidence',min_threshold=0.9)rules=rules.sort_values(by='confidence',ascending=False)print(rules[['antecedents','consequents','support','confidence']])#fp-growthfreq_items1=fpgrowth(dataset,min_support=0.08,use_colnames=True).sort_values(by='support',ascending=False)rules1=association_rules(freq_items1,metric='confidence',min_threshold=0.9)rules1=rules1.sort_values(by='confidence',ascending=False)rules1[['antecedents','consequents','support','confidence']]模型評(píng)估與選擇10.610.6.1交叉驗(yàn)證

交叉驗(yàn)證是一種評(píng)估模型泛化能力的統(tǒng)計(jì)方法。在交叉驗(yàn)證中,將原始數(shù)據(jù)進(jìn)行分組,一部分作為訓(xùn)練集(TrainSet),另一部分作為驗(yàn)證集(ValidationSet),首先用訓(xùn)練集對(duì)分類器進(jìn)行訓(xùn)練,再利用驗(yàn)證集來(lái)測(cè)試訓(xùn)練得到的模型,以此作為評(píng)價(jià)分類器的性能指標(biāo)。

最常用的交叉驗(yàn)證方法為K折交叉驗(yàn)證,K為指定的數(shù)字。初始采樣分割成K個(gè)子樣本,一個(gè)單獨(dú)的子樣本被保留作為驗(yàn)證模型的數(shù)據(jù),其他K-1個(gè)樣本用來(lái)訓(xùn)練。交叉驗(yàn)證重復(fù)K次,每個(gè)子樣本驗(yàn)證一次,平均K次的結(jié)果或者使用其它結(jié)合方式,最終得到一個(gè)單一估測(cè)。10.6.1

交叉驗(yàn)證K折交叉驗(yàn)證的兩個(gè)優(yōu)點(diǎn):

(1)對(duì)數(shù)據(jù)進(jìn)行多次劃分使得每個(gè)樣例都剛好在測(cè)試集中出現(xiàn)一次,因此,模型需要對(duì)數(shù)據(jù)集中所有樣本的泛化能力都很好,才能讓所有的交叉驗(yàn)證得分較高。

(2)交叉驗(yàn)證對(duì)數(shù)據(jù)的使用更加高效,例如,在5折交叉驗(yàn)證中,每次迭代中可以使用80%的數(shù)據(jù)來(lái)擬合模型,更多的數(shù)據(jù)通常可以得到更為精確的模型。10.6.2

網(wǎng)格搜索

為了提高模型的泛化性能,常常需要對(duì)模型的參數(shù)進(jìn)行調(diào)整,從而找到模型最佳泛化性能的重要參數(shù)。常用的調(diào)參方法為帶交叉驗(yàn)證的網(wǎng)格搜索,將各個(gè)參數(shù)可能的取值進(jìn)行排列組合,列出所有可能的組合結(jié)果生成“網(wǎng)格”,然后使用交叉驗(yàn)證對(duì)各組合的表現(xiàn)進(jìn)行評(píng)估??梢允褂胹cikit-learn的GridSearchCV進(jìn)行網(wǎng)格搜索。10.6.3

評(píng)估指標(biāo)與評(píng)分1.分類評(píng)估10.6.3

評(píng)估指標(biāo)與評(píng)分10.6.3

評(píng)估指標(biāo)與評(píng)分10.6.3

評(píng)估指標(biāo)與評(píng)分假正例率(FalsePostiveRate,F(xiàn)PR)或特異,F(xiàn)PR越大,預(yù)測(cè)正類中實(shí)際負(fù)類越多。真正例率(TruePostiveRate,TPR)也即靈敏度,TPR越大,預(yù)測(cè)正類中實(shí)際正類越多。10.6.3

評(píng)估指標(biāo)與評(píng)分圖10-3AUC曲線圖AUC曲線即ROC曲線下方的面積,由真正率和假正率組成。

10.6.3

評(píng)估指標(biāo)與評(píng)分2.回歸評(píng)估10.6.3

評(píng)估指標(biāo)與評(píng)分專題10基于機(jī)器學(xué)習(xí)的上證指數(shù)走勢(shì)預(yù)測(cè)研究

10.7

基于機(jī)器學(xué)習(xí)的上證指數(shù)走勢(shì)預(yù)測(cè)研究如何對(duì)股市未來(lái)走勢(shì)進(jìn)行合理預(yù)判一直是學(xué)術(shù)界與業(yè)界關(guān)注的焦點(diǎn)。然而,傳統(tǒng)時(shí)間序列模型有較強(qiáng)的前提假設(shè),只有當(dāng)假設(shè)滿足時(shí)才能得到可靠的預(yù)測(cè)結(jié)果。此外,金融數(shù)據(jù)的高度非線性決定了股票預(yù)測(cè)的復(fù)雜性與困難度,傳統(tǒng)的時(shí)間序列模型往往難以得到理想的預(yù)測(cè)結(jié)果。計(jì)算機(jī)技術(shù)與人工智能技術(shù)的迅猛發(fā)展為股票市場(chǎng)的建模與預(yù)測(cè)提供了新的方法。機(jī)器學(xué)習(xí)算法可視作優(yōu)化問(wèn)題求解算法,具有良好的非線性逼近能力和降噪能力。本專題將運(yùn)用機(jī)器學(xué)習(xí)技術(shù)預(yù)測(cè)上證指數(shù)走勢(shì),考察不同機(jī)器學(xué)習(xí)模型對(duì)我國(guó)股市的預(yù)測(cè)效果。

10.7

基于機(jī)器學(xué)習(xí)的上證指數(shù)走勢(shì)預(yù)測(cè)研究1.數(shù)據(jù)來(lái)源與預(yù)處理(1)歷史行情數(shù)據(jù)

本專題研究樣本為2010年1月4日至2022年12月31日的上證指數(shù)日交易數(shù)據(jù),選取最高價(jià)(Hiprc)、最低價(jià)(Loprc)、開(kāi)盤價(jià)(Opnprc)、收盤價(jià)(Clsprc)、成交量(Volume)、成交額(Amt)、換手率(Turnover)、市盈率(PE)、市凈率(PB)、總市值(Dsmvosd)、流動(dòng)比率(Liquidility)、漲跌幅(pct_chg)共12個(gè)行情數(shù)據(jù)指標(biāo),所有指標(biāo)滯后一期。數(shù)據(jù)來(lái)自Wind數(shù)據(jù)庫(kù)。剔除缺失值后共有樣本數(shù)據(jù)3155條。

10.7

基于機(jī)器學(xué)習(xí)的上證指數(shù)走勢(shì)預(yù)測(cè)研究圖10-4各指標(biāo)時(shí)間序列圖圖10-5收盤價(jià)的漲跌變化趨勢(shì)

10.7

基于機(jī)器學(xué)習(xí)的上證指數(shù)走勢(shì)預(yù)測(cè)研究(

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論