《商務(wù)統(tǒng)計(jì)分析 第2版》 課件 第10-12章 多元線性回歸、邏輯回歸、時(shí)間序列預(yù)測(cè)_第1頁(yè)
《商務(wù)統(tǒng)計(jì)分析 第2版》 課件 第10-12章 多元線性回歸、邏輯回歸、時(shí)間序列預(yù)測(cè)_第2頁(yè)
《商務(wù)統(tǒng)計(jì)分析 第2版》 課件 第10-12章 多元線性回歸、邏輯回歸、時(shí)間序列預(yù)測(cè)_第3頁(yè)
《商務(wù)統(tǒng)計(jì)分析 第2版》 課件 第10-12章 多元線性回歸、邏輯回歸、時(shí)間序列預(yù)測(cè)_第4頁(yè)
《商務(wù)統(tǒng)計(jì)分析 第2版》 課件 第10-12章 多元線性回歸、邏輯回歸、時(shí)間序列預(yù)測(cè)_第5頁(yè)
已閱讀5頁(yè),還剩106頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第10章

多元線性回歸1第10章多元線性回歸——目錄10.1多元線性回歸模型及其參數(shù)估計(jì)10.2多元線性回歸模型的評(píng)估10.3多重共線性10.4一般線性模型10.5定類(lèi)自變量10.6變量選擇與逐步回歸10.7利用回歸模型進(jìn)行預(yù)測(cè)10.8利用回歸模型進(jìn)行因果分析2

310.1多元線性回歸模型及其參數(shù)估計(jì)4

10.1多元線性回歸模型及其參數(shù)估計(jì)

10.1多元線性回歸模型及其參數(shù)估計(jì)

10.1多元線性回歸模型及其參數(shù)估計(jì)7例:某運(yùn)輸公司的主要業(yè)務(wù)是為它的周邊地區(qū)運(yùn)送貨物。為了制定最佳的工作計(jì)劃,公司的管理者希望估計(jì)出他們的司機(jī)每天行駛的時(shí)間。公司的管理人員認(rèn)為,貨車(chē)行駛的里程數(shù)和運(yùn)送貨物的次數(shù)都會(huì)影響到司機(jī)的行駛時(shí)間。經(jīng)過(guò)統(tǒng)計(jì),他們得到的數(shù)據(jù)如表10-1所示。表10-1運(yùn)輸公司貨車(chē)的行駛里程數(shù)、運(yùn)送貨物次數(shù)與行駛時(shí)間10.1多元線性回歸模型及其參數(shù)估計(jì)運(yùn)輸任務(wù)行駛里程(公里)運(yùn)送貨物次數(shù)行駛時(shí)間(小時(shí))15024.6524513.05332.523437.523.954013.165013.257251245103523.25810.1多元線性回歸模型及其參數(shù)估計(jì)模型平方和自由度均方F顯著性回歸4.87722.43938.034殘差.4497.064

總計(jì)5.3269

表10-2

方差分析表910.1多元線性回歸模型及其參數(shù)估計(jì)

模型未標(biāo)準(zhǔn)化系數(shù)B

標(biāo)準(zhǔn)誤差標(biāo)準(zhǔn)化系數(shù)Beta

t

顯著性共線性統(tǒng)計(jì)容差VIF(常量)-.499.470

-1.063.323

行駛里程.062.010.6866.216.000.9901.010運(yùn)送貨物次數(shù).897.164.6025.458.001.9901.010表10-3運(yùn)輸公司貨車(chē)行駛時(shí)間的二元回歸模型的參數(shù)估計(jì)和檢驗(yàn)回歸系數(shù)的解釋?zhuān)?/p>

在控制其他變量不變的情況下,每增加一單位的行駛里程,行駛時(shí)間增加0.062單位;同理在控制其他變量如行駛里程不變的情況下,每增加一單位運(yùn)送貨物次數(shù),行駛時(shí)間增加0.897單位。1010.2多元線性回歸模型的評(píng)估在多元線性回歸模型中,我們同樣可以定義總平方和(SST)、回歸平方和(SSR)和殘差平方和(SSE

)。具體的形式分別為:與一元線性回歸模型一致,SST、SSR和SSE滿足:

1110.2多元線性回歸模型的評(píng)估

1210.2多元線性回歸模型的評(píng)估

1310.2多元線性回歸模型的評(píng)估14

10.2多元線性回歸模型的評(píng)估

15,10.2多元線性回歸模型的評(píng)估

1610.3多重共線性

1710.3多重共線性一般線性模型(generallinearmodel,GLM):描述一個(gè)因變量與多個(gè)自變量之間的線性關(guān)系的方程模型,對(duì)于含有

個(gè)自變量的模型其一般形式為:

稱為截距參數(shù),稱為斜率參數(shù),變量表示誤差項(xiàng)或干擾項(xiàng)。自變量并不僅僅是單個(gè)變量本身,它可以是關(guān)于觀測(cè)變量的函數(shù),如,。1810.4一般線性模型

含單變量多項(xiàng)式的模型是指:自變量只能取關(guān)于某個(gè)自變量的一階或多階函數(shù)。1910.4.1含單變量多項(xiàng)式的模型

令,化為一般線性模式:對(duì)于模型:只是關(guān)于自變量的一階函數(shù),而與其他自變量無(wú)關(guān)。

對(duì)于模型:

是交互作用項(xiàng)。

2010.4.2含交互項(xiàng)的模型例:為加強(qiáng)國(guó)內(nèi)青少年的體育鍛煉活動(dòng),助使其具有一個(gè)健康的身體和強(qiáng)健的體魄,各大高校紛紛開(kāi)展了有獎(jiǎng)競(jìng)跑的夏季“夜跑”活動(dòng),對(duì)于參加夜跑的學(xué)生當(dāng)天即可抽取豐厚大獎(jiǎng)?,F(xiàn)考慮某高校每晚參加夜跑活動(dòng)的學(xué)生人數(shù),經(jīng)過(guò)調(diào)查發(fā)現(xiàn),影響參加夜跑活動(dòng)人數(shù)的主要因素有兩個(gè):天氣的溫度、獎(jiǎng)品的價(jià)值。記錄一個(gè)月(30天)的參加夜跑的人數(shù)得到數(shù)據(jù)見(jiàn)表10-3,試建立一般線性模型,并分析自變量之間是否存在交互作用。2110.4.2含交互項(xiàng)的模型當(dāng)天溫度/℃獎(jiǎng)品價(jià)值/元參加人數(shù)/人當(dāng)天溫度/℃獎(jiǎng)品價(jià)值/元參加人數(shù)/人1520080155001121720091165001181920012018500182202001212150020822200142215002102320014422500215232001452450023924200149245002482520015225500250262001562550025328200165295002753020017230500286332001863250029334200185355002813620018837500272解:設(shè)參加人數(shù)為因變量,當(dāng)天溫度和獎(jiǎng)品價(jià)值分別為自變量。當(dāng)分別取200元、500元時(shí),考慮對(duì)

的影響:22解:從圖中可以看出獎(jiǎng)品價(jià)值設(shè)為500元比獎(jiǎng)品價(jià)值設(shè)為200元能吸引更多的學(xué)生來(lái)參加本次夜跑活動(dòng),且不同獎(jiǎng)品夠吸引的人數(shù)之差依賴于當(dāng)天的溫度。這種觀測(cè)結(jié)果也就間接性的說(shuō)明了當(dāng)天溫度和獎(jiǎng)品價(jià)值之間的潛在的交互作用。10.4.2含交互項(xiàng)的模型23建立模型:10.4.2含交互項(xiàng)的模型變量替換,得:交互項(xiàng)“溫度和價(jià)值”的顯著性是0.038,交互項(xiàng)的影響是顯著的。結(jié)論:當(dāng)天溫度和獎(jiǎng)品價(jià)值之間的交互作用對(duì)參加人數(shù)的影響是顯著的,即當(dāng)天溫度對(duì)參加人數(shù)的影響依賴于獎(jiǎng)品價(jià)值。表10-7模型的參數(shù)估計(jì)和檢驗(yàn)?zāi)P头菢?biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)tSig.共線性統(tǒng)計(jì)標(biāo)準(zhǔn)誤差容忍度VIF(常量)當(dāng)天溫度(℃)獎(jiǎng)品價(jià)值(元)溫度和價(jià)值8.88139.635

.224.824

3.2721.541.3332.123.043.1496.720.061.102.151.600.554.05817.299.009.004.6342.190.038.04422.915設(shè)勞動(dòng)人員年薪為因變量(萬(wàn)元),接受教育年數(shù)為自變量(年),建立模型:2410.4.3變量的對(duì)數(shù)變換工資的變化量為:

工資的比例變化為:期望結(jié)果:每增加一年的教育,工資增長(zhǎng)的比例是不變的,而不應(yīng)是工資的增長(zhǎng)量是不變的。為了得到工資比例變化近似為常數(shù)的模型,對(duì)因變量取對(duì)數(shù):2510.4.3變量的對(duì)數(shù)變換工資的比例近似變化為:若樣本回歸方程為:(常數(shù))

此時(shí)對(duì)方程的解釋為:每多接受一年的教育,工資會(huì)增加約。當(dāng)變化較小時(shí):對(duì)自變量進(jìn)行對(duì)數(shù)變換:2610.4.3變量的對(duì)數(shù)變換何時(shí)取對(duì)數(shù)?使用對(duì)數(shù)線性模型的經(jīng)驗(yàn)法則:使用對(duì)數(shù)時(shí),變量不能取0或者負(fù)值。對(duì)于錢(qián)、人數(shù)、產(chǎn)品數(shù)等大的正整數(shù),通??梢匀?duì)數(shù)。以年度量的單位,通常以原有形式出現(xiàn),例如年齡、工作年限、教育年數(shù)等。在回歸模型中,除了需要考慮定量因素對(duì)因變量的影響,一些定性因素對(duì)因變量的影響往往也不可以忽略。例如,研究影響二手車(chē)價(jià)格的因素時(shí),里程表計(jì)數(shù)可以作為一個(gè)定量自變量,而銷(xiāo)售商認(rèn)為顏色也是影響二手車(chē)價(jià)格的一個(gè)因素,這時(shí)需要將二手車(chē)的顏色作為一個(gè)定性自變量引入模型之中。2710.5定性自變量

2810.5定性自變量——在模型中引入定性變量

對(duì)于更復(fù)雜的定性變量,記定性變量的水平數(shù)為k,那么需要定義k-1個(gè)虛擬變量。例如,在研究某品牌電腦在各商店的銷(xiāo)售數(shù)量時(shí),管理人員認(rèn)為付款方式也是影響銷(xiāo)售數(shù)量的一個(gè)重要因素。因?yàn)橛鞋F(xiàn)金支付、刷卡支付、移動(dòng)支付三種付款方式,所以需要定義2個(gè)虛擬變量。每個(gè)虛擬變量被定義為如下形式,2910.5定性自變量——在模型中引入定性變量

付款方式現(xiàn)金支付10刷卡支付01移動(dòng)支付00

在回歸模型中引入定性變量有多種方式,各種方式對(duì)回歸模型的影響不同。為了直觀地闡釋定類(lèi)變量不同的引入方式對(duì)回歸模型的影響,接下來(lái)以決定小時(shí)工資的基本模型

進(jìn)行說(shuō)明(y:工資,x1:教育水平)。30

10.5定性自變量——含有定性變量的回歸(1)引入定性變量此時(shí)定性變量的不同取值改變的是模型的截距項(xiàng),體現(xiàn)了性別和婚姻狀況對(duì)小時(shí)工資的影響。將x2(性別)和x3(婚姻狀況)引入基本模型(2)定性變量之間的交互作用3110.5定性自變量——含有定性變量的回歸此時(shí)含有交互作用的定性變量的不同取值改變的也是模型的截距項(xiàng),體現(xiàn)了性別和婚姻狀況對(duì)小時(shí)工資的影響。將性別和婚姻狀況的交互項(xiàng)x2x3引入模型32

10.5定性自變量——含有定性變量的回歸(3)定性變量與非定性變量的交互作用此時(shí)定性變量的不同取值不僅改變了模型的截距項(xiàng),還改變了模型的斜率項(xiàng),體現(xiàn)了性別在受教育回報(bào)上的差異。將教育水平和性別的交互項(xiàng)x1x2引入模型33例:中國(guó)進(jìn)出口貿(mào)易總額數(shù)據(jù)(1950-1984)見(jiàn)表10-5-2。試檢驗(yàn)改革開(kāi)放前后該時(shí)間序列的斜率是否發(fā)生變化。(數(shù)據(jù)見(jiàn)表10-6中國(guó)進(jìn)出口貿(mào)易總額數(shù)據(jù)(1950-1984))解:由于年份數(shù)據(jù)值較大,首先將其處理為時(shí)間x1列。定義虛擬變量x2如下:以時(shí)間x1為自變量,進(jìn)出口貿(mào)易總額y為因變量,為了檢驗(yàn)改革開(kāi)放前后該時(shí)間序列的斜率是否發(fā)生變化,同時(shí)引入虛擬變量x2及其與時(shí)間的交互項(xiàng)x1x2。

10.5定性自變量3410.5定性自變量統(tǒng)計(jì)軟件輸出的結(jié)果如表10-10和表10-11所示:表10-12模型的參數(shù)估計(jì)和檢驗(yàn)表10-11方差分析表

由上式可知,斜率項(xiàng)和截距項(xiàng)都發(fā)生了變化;于是得出結(jié)論:改革開(kāi)放前后該時(shí)間序列的斜率發(fā)生了變化。因?yàn)楦飨禂?shù)的估計(jì)值通過(guò)檢驗(yàn),所以估計(jì)結(jié)果如下:

向前選擇(forwardselection):從模型沒(méi)有自變量開(kāi)始,逐個(gè)選入自變量。步驟如下:對(duì)于因變量y的k個(gè)自變量分別建立一元線性回歸模型,對(duì)于這k個(gè)模型分別計(jì)算F統(tǒng)計(jì)量,將擁有最大且顯著F統(tǒng)計(jì)量的模型的自變量選入模型;對(duì)剩余的k-1個(gè)自變量分別加入模型,計(jì)算F統(tǒng)計(jì)量,選擇使F統(tǒng)計(jì)量最大且顯著的自變量進(jìn)入模型;反復(fù)以上過(guò)程,直到自變量均無(wú)統(tǒng)計(jì)顯著性。35

10.6變量選擇與逐步回歸——向前選擇向后剔除(backwardelimination):與向前選擇法相反,從自變量全部進(jìn)入模型開(kāi)始,逐個(gè)剔除自變量。步驟如下:將所有k個(gè)自變量加入模型進(jìn)行擬合,然后建立k個(gè)剔除一個(gè)自變量的回歸模型,每個(gè)模型都含有k-1個(gè)自變量。計(jì)算k個(gè)模型的SSE,選擇F統(tǒng)計(jì)量最小且不顯著的自變量進(jìn)行剔除;建立k-1個(gè)回歸模型,每個(gè)模型中有k-2個(gè)自變量,比較每個(gè)模型增大的SSE值,選擇F統(tǒng)計(jì)量最小且不顯著的自變量進(jìn)行剔除;反復(fù)以上過(guò)程,直到刪除任何自變量SSE均有顯著變化為止。36

10.6變量選擇與逐步回歸——向后剔除逐步回歸(stepwiseregression):綜合了向前選擇和向后剔除兩種方法進(jìn)行自變量的選擇。步驟如下:前兩步與向前選擇相同,但是在加入一個(gè)自變量之后,要對(duì)之前所有自變量進(jìn)行考察,確定是否需要剔除變量。如果在增加了一個(gè)自變量后,之前的某個(gè)自變量對(duì)模型的作用不再顯著,則需要剔除變量;反復(fù)進(jìn)行這個(gè)過(guò)程,不斷增加變量和剔除變量,直到增加變量不會(huì)導(dǎo)致SSE顯著減小為止。37

10.6變量選擇與逐步回歸——逐步回歸38例:城鎮(zhèn)居民的平均工資受多種因素的影響,如教育水平、直接投資、基礎(chǔ)設(shè)施、外資開(kāi)放度、第三產(chǎn)業(yè)增量,等等。為分析平均工資的影響因素,選取2016年31個(gè)省市的國(guó)家統(tǒng)計(jì)數(shù)據(jù),如右表所示,用逐步回歸法建立回歸方程。省市編號(hào)平均工資教育水平直接投資基礎(chǔ)設(shè)施外資開(kāi)放度產(chǎn)業(yè)結(jié)構(gòu)11199280.03474276.29540.07731.18430.80232863050.04173751.94970.09730.74580.56443553340.0208742.50880.03680.22720.41544537050.0260680.42190.03400.28340.55455610670.021866.74410.01040.18550.43786560150.02882574.16280.03840.76190.51557560980.0295620.24280.02720.26070.42458524350.024672.33150.01310.27470.540491199350.026719014.30860.07892.81810.697810715740.027821651.13470.02730.72280.500011733260.02275000.71630.02550.72890.509912591020.0235874.80690.03010.22730.410513619730.02473917.76860.02640.98400.428814561360.0282773.12360.02400.37400.419715625390.02525477.53760.03500.41940.466816495050.02483288.67060.03350.19910.417817598310.0305707.07120.02210.27480.439418582410.0226416.94020.02220.21160.463719723260.021731237.70830.02341.48030.520120578780.0207646.92800.02200.24480.395621616630.0255479.93510.02950.65630.542522655450.03032214.05790.02530.31310.481323639260.02192074.23920.00950.31490.472324662790.019420.19620.01870.12830.446725604500.017032.37730.00940.27640.4668261032320.01340.00610.00070.20500.526727596370.03671434.37150.02240.30690.423528575750.02211.70410.00900.28870.514129665890.01280.27550.00320.17100.428130655700.021729.71430.01960.20550.454031637390.016412.99010.00350.15280.451210.6變量選擇與逐步回歸——逐步回歸3910.6變量選擇與逐步回歸——逐步回歸解:由統(tǒng)計(jì)軟件輸出的逐步回歸結(jié)果如下各表所示模型標(biāo)準(zhǔn)估算的錯(cuò)誤1.795.632.61910778.995表10-15

模型概要模型已輸入變量已除去變量方法1產(chǎn)業(yè)結(jié)構(gòu).步進(jìn)(準(zhǔn)則:進(jìn)入的概率F<=.050,刪除的概率F>=.100)。表10-14變量的進(jìn)入和移出模型平方和df均值差值FSig.1回歸5790869774.07115790869774.07149.841.000b殘差3369415317.34829116186735.081

總計(jì)9160285091.41930

表10-16方差分析表4010.6變量選擇與逐步回歸——逐步回歸解:由統(tǒng)計(jì)軟件輸出的逐步回歸結(jié)果如下各表所示根據(jù)以上的回歸結(jié)果,該模型最終的估計(jì)方程為:

模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)tSig.標(biāo)準(zhǔn)誤差1(常量)-12372.86911410.429

-1.084.287產(chǎn)業(yè)結(jié)構(gòu)162636.32223036.894.7957.060.000表10-17模型的參數(shù)估計(jì)和檢驗(yàn)?zāi)P蛅Sig.偏相關(guān)共線性統(tǒng)計(jì)容忍度1教育水平-.128-1.073.292-.199.889直接投資.1211.012.320.188.890基礎(chǔ)設(shè)施.080.543.591.102.606外資開(kāi)放度.2621.789.084.320.551表10-18模型移出變量41例:在此沿用上例,對(duì)城鎮(zhèn)居民的平均工資進(jìn)行預(yù)測(cè),統(tǒng)計(jì)軟件的輸出結(jié)果如右表所示10.7利用回歸模型進(jìn)行預(yù)測(cè)省市編號(hào)平均工資點(diǎn)估計(jì)值置信下界置信上界預(yù)測(cè)下界預(yù)測(cè)上界1119928118113.78102790.02133437.5491265.64144961.9228630579412.7674066.9384758.5956728.34102097.1835533455179.3949941.6760417.1032520.2077838.5745370577811.3172765.4882857.1455195.71100426.9156106758834.6854220.2063449.1536311.3981357.9665601571459.0167295.4575622.5749023.7793894.2675609856672.6251707.3061637.9334074.8479270.3985243575518.9470855.5580182.3352985.5898052.299119935101113.8290471.35111756.2976633.89125593.76107157468939.9564941.3772938.5346534.7491345.17117332670548.8666459.1474638.5848127.2092970.52125910254382.6248990.9959774.2631687.3777077.88136197357365.1052518.1962212.0034793.0579937.15145613655893.5150788.8260998.1933264.7078522.31156253963540.6559455.2467626.0541119.7785961.52164950555579.1850416.5560741.8232937.2478221.13175983159082.0754503.9963660.1636566.2281597.93185824163049.1258926.3267171.9140621.4085476.83197232672210.7467974.7876446.7149761.9594659.54205787851972.4746084.5557860.3929154.2274790.72216166375858.9071142.7480575.0653314.5698403.24226554565902.9361930.3669875.5043502.3488303.52236392664446.7260417.9468475.5042036.1086857.34246627960281.5455867.6464695.4337798.4982764.58256045063544.8459459.7367629.9441124.0285965.652610323273289.4368932.6177646.2450817.5195761.34275963756497.6951501.6461493.7533893.1579102.24285757571231.9167088.2275375.6048800.3493663.47296658957254.0852388.5662119.6034678.0379830.14306557061464.5457191.0365738.0639008.6383920.45316373961004.8556679.4765330.2338539.0283470.69城鎮(zhèn)居民平均工資預(yù)測(cè)表42點(diǎn)估計(jì)值表示給定自變量值的條件下對(duì)應(yīng)的因變量的預(yù)測(cè)值,例如,第31組數(shù)據(jù)實(shí)際平均工資為63739,利用回歸方程預(yù)測(cè)的平均工資為61004.85;置信下界和置信上界表示平均值的置信區(qū)間的下界和上界,預(yù)測(cè)下界和預(yù)測(cè)上界表示個(gè)別值的預(yù)測(cè)區(qū)間的下界和上界,例如,實(shí)際工資為63739的省市,均值95%的置信區(qū)間為[56679.47,65330.23],個(gè)體預(yù)測(cè)95%的預(yù)測(cè)區(qū)間為[38539.02,83470.69]。10.7利用回歸模型進(jìn)行預(yù)測(cè)43回歸系數(shù)的進(jìn)一步解釋偏效應(yīng)(partialeffect)是指在其他自變量保持不變條件下,某自變量(解釋變量)對(duì)因變量(被解釋變量)的效應(yīng)。在獲取樣本時(shí),我們很少能夠奢侈到限制某些變量使其保持不變。多元回歸分析的作用在于,盡管不能在其他條件保持不變的情況下收集數(shù)據(jù),但它提供的系數(shù)仍然可以做其他條件不變的解釋。多元回歸使我們?cè)趯?duì)自變量的值不施加限制的情況下,能有效地模擬施加限制時(shí)的情況。使得我們能夠在非實(shí)驗(yàn)的環(huán)境中,去做自然科學(xué)家在受控實(shí)驗(yàn)室中所能做的事情:保持其他因素不變。10.8利用回歸模型進(jìn)行因果分析44

10.8利用回歸模型進(jìn)行因果分析2018年9月30日上映的由莊文強(qiáng)執(zhí)導(dǎo)的犯罪動(dòng)作電影《無(wú)雙》,贏得了口碑、票房的雙豐收2017年7月27日,由吳京執(zhí)導(dǎo)的動(dòng)作類(lèi)電影《戰(zhàn)狼2》,更是霸屏各類(lèi)網(wǎng)站頭條,以56.8億元雄踞國(guó)產(chǎn)片電影榜首2017年8月上映的由王寶強(qiáng)執(zhí)導(dǎo)的處女作《大鬧天竺》,未播先火,王寶強(qiáng),岳云鵬,柳巖,王祖藍(lán),劉昊然,黃渤等都是票房號(hào)召力演員,最終卻爛尾收?qǐng)鏊坪豕饪繌V告、明星、導(dǎo)演就可以吸金的時(shí)代已不復(fù)存在,互聯(lián)網(wǎng)的發(fā)展,社會(huì)化網(wǎng)絡(luò)的普及(微信、微博)使得觀眾評(píng)價(jià)信息更快速地傳播,其作用也日益彰顯。為此,研究觀眾評(píng)價(jià)如何影響電影票房及其趨勢(shì)是一個(gè)亟需解決的問(wèn)題,對(duì)制片方以及出品方更具有直接的現(xiàn)實(shí)意義。45中國(guó)電影票房案例分析—案例背景本案例以中國(guó)2011-2017年豆瓣上映的1246部電影為樣本,運(yùn)用多元線性回歸模型,分析觀眾評(píng)價(jià)對(duì)電影票房的作用及其變化趨勢(shì)。模型包括電影票房、評(píng)分、票價(jià)和移動(dòng)網(wǎng)民數(shù)量等13個(gè)變量。46變量描述數(shù)據(jù)來(lái)源票房電影i的總票房藝恩數(shù)據(jù)庫(kù)評(píng)分電影i的豆瓣評(píng)分豆瓣網(wǎng)移動(dòng)網(wǎng)民數(shù)量對(duì)應(yīng)年份移動(dòng)網(wǎng)民數(shù)量中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心首映日票房電影i的首映日票房藝恩數(shù)據(jù)庫(kù)首映日排座數(shù)電影i的首映日排座數(shù)藝恩數(shù)據(jù)庫(kù)票價(jià)電影i的平均票價(jià)藝恩數(shù)據(jù)庫(kù)電影時(shí)長(zhǎng)電影i的播出時(shí)長(zhǎng)豆瓣網(wǎng)明星影響力虛擬變量,至少有一位明星在福布斯中國(guó)名人榜則為1福布斯中國(guó)名人榜發(fā)行商虛擬變量,屬于中國(guó)十大發(fā)行商則為1藝恩數(shù)據(jù)庫(kù)假期虛擬變量,電影i在假期上映則為1豆瓣網(wǎng)續(xù)集虛擬變量,電影i為續(xù)集電影則為1豆瓣網(wǎng)國(guó)外電影虛擬變量,電影i為國(guó)外制片則為1豆瓣網(wǎng)上映年份虛擬變量,電影i在當(dāng)年上映年份則為1豆瓣網(wǎng)中國(guó)電影票房案例分析—數(shù)據(jù)及其說(shuō)明為了概括性地描述數(shù)據(jù)的特征,對(duì)本案例的連續(xù)變量進(jìn)行了描述性統(tǒng)計(jì)。票房、首映日票房、首映日排座數(shù)以及電影時(shí)長(zhǎng)的波動(dòng)性較大。因此對(duì)以上變量進(jìn)行取對(duì)數(shù)處理(ln),這不僅使數(shù)據(jù)變得平滑同時(shí)易消除異方差的問(wèn)題。47變量個(gè)數(shù)最小值最大值均值標(biāo)準(zhǔn)差票價(jià)(元)12466.0047.0030.254.01票房(萬(wàn)元)12461.10567877.409677.0829690.13首映日票房(萬(wàn)元)12460.0235600.001080.762686.21首映日排座數(shù)(個(gè))1246867199455371652593.792662311.37電影時(shí)長(zhǎng)(分鐘)12467315397.9511.98評(píng)分12462.109.104.581.48移動(dòng)網(wǎng)民數(shù)量(千萬(wàn))12463.567.535.721.26中國(guó)電影票房案例分析—數(shù)據(jù)及其說(shuō)明使用本章所學(xué)的內(nèi)容,對(duì)2011-2017年1246部豆瓣上映的電影進(jìn)行多元線性回歸分析,主要實(shí)現(xiàn)兩個(gè)目的:對(duì)數(shù)據(jù)中的因變量“票房”與自變量“評(píng)分”、“移動(dòng)網(wǎng)民數(shù)量”、“首映日票房”和“首映日排座數(shù)”等進(jìn)行回歸分析,刻畫(huà)觀眾評(píng)價(jià)等因素對(duì)電影票房的影響作用。在多元線性回歸方程中加入觀眾評(píng)價(jià)與移動(dòng)網(wǎng)民數(shù)量、首映日票房、首映日排座數(shù)的交互項(xiàng),分析網(wǎng)民數(shù)量、首映日票房、首映日排座數(shù)對(duì)觀眾評(píng)價(jià)的票房影響力的調(diào)節(jié)作用。48中國(guó)電影票房案例分析—數(shù)據(jù)分析使用SPSS來(lái)分析上述問(wèn)題,統(tǒng)計(jì)軟件輸出的結(jié)果如表10-21所示表10-21(a)模型匯總表10-21(b)方差分析49模型平方和自由度均方F顯著性1回歸7298.86615486.5911180.970.000殘差506.79312300.412

總計(jì)7805.6591245

因變量:電影票房模型RR方調(diào)整后R方標(biāo)準(zhǔn)估算的錯(cuò)誤Durbin-Watson(U)10.9670.9350.9340.6421.984因變量:電影票房中國(guó)電影票房案例分析—數(shù)據(jù)分析表10-21(c)模型匯總(因變量:電影票房)50模型變量未標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)tSig.共線性統(tǒng)計(jì)標(biāo)準(zhǔn)誤差容忍度VIF(常量)4.8091.667

2.8840.004

票價(jià)0.0080.0060.0131.4720.1410.6461.547首映日票房0.6920.0800.6728.6090.0000.009115.591首映日排座0.0980.1170.0660.8390.4020.009116.756評(píng)分0.5070.2500.3002.0290.0430.002414.085移動(dòng)網(wǎng)民數(shù)量-1.1380.391-0.573-2.9100.0040.001734.999評(píng)分*移動(dòng)網(wǎng)民數(shù)量0.0200.0110.0781.8630.0630.03033.036評(píng)分*首映日票房0.0780.0180.5014.3700.0000.004249.223評(píng)分*首映日排座-0.0650.026-0.617-2.4900.0130.0011162.939電影時(shí)長(zhǎng)0.0000.0020.0010.1550.8770.5881.702續(xù)集0.2430.0860.0212.8290.0050.9341.071發(fā)行商-0.0480.042-0.009-1.1440.2530.8401.190國(guó)外電影0.1340.1280.0091.0460.2960.7361.358上映年份0.6440.2580.4872.4980.0130.001719.822假期0.1780.0380.0354.6900.0000.9221.084明星影響力0.1640.0540.0283.0480.0020.6341.578中國(guó)電影票房案例分析—數(shù)據(jù)分析從電影票房的顯著影響因素及其變化趨勢(shì)的回歸結(jié)果可以得出以下結(jié)論電影的首映日的票房、評(píng)分、續(xù)集、上映年份假期上映和明星都會(huì)顯著正向影響電影的票房。移動(dòng)網(wǎng)民數(shù)量對(duì)電影票房有顯著的負(fù)向影響,既在保持其他變量不變的情況下,移動(dòng)網(wǎng)民數(shù)量越多票房越少。評(píng)分對(duì)電影票房的正向顯著作用受到首映日票房的正向調(diào)節(jié)。即在保持其他變量不變的情況下,首映日票房越高,評(píng)分對(duì)票房的正向作用越強(qiáng)。觀眾評(píng)分對(duì)電影票房的正向顯著作用受到移動(dòng)網(wǎng)民數(shù)量的正向調(diào)節(jié)。即在保持其他變量不變的情況下,移動(dòng)網(wǎng)民數(shù)量越多,評(píng)分的正向作用越強(qiáng)。觀眾評(píng)分對(duì)電影票房的正向顯著作用受到首映日排座數(shù)的負(fù)向調(diào)節(jié)。即在保持其他變量不變的情況下,首映日排作數(shù)越多,評(píng)分的正向作用越弱。51中國(guó)電影票房案例分析—結(jié)論第11章

邏輯回歸52第11章邏輯回歸分析——目錄11.1邏輯回歸模型11.2估計(jì)邏輯回歸模型11.3顯著性檢驗(yàn)11.4回歸系數(shù)的含義11.5案例分析53許多社會(huì)科學(xué)問(wèn)題中的因變量往往是分類(lèi)變量。比如,政治學(xué)中經(jīng)常研究的是否選舉某候選人,候選人的類(lèi)型等;又如,經(jīng)濟(jì)學(xué)研究中所涉及的是否銷(xiāo)售或購(gòu)買(mǎi)某種商品、是否簽訂一份合同,保險(xiǎn)是否違約,違約有哪些類(lèi)型等等。這些分類(lèi)變量中有一類(lèi)特殊的變量,遵循二值取值原則,要么“是”或“發(fā)生”,要么“否”或“未發(fā)生”。統(tǒng)計(jì)上我們將這樣的變量稱作二分類(lèi)變量(Binaryvariable)。54應(yīng)用背景多元回歸模型分析二分類(lèi)變量的局限性被解釋變量的取值區(qū)間受限制自變量的邊際分析不符合實(shí)際分析二分類(lèi)變量的方法利用概率轉(zhuǎn)化模型調(diào)整二分類(lèi)變量使其線性化,也即,使其隨著自變量的變化,這一概率的值總是在0到1之間變化。11.1邏輯回歸模型Logistic函數(shù)Logistic回歸方程11.1邏輯回歸模型——概率轉(zhuǎn)換方法

似然函數(shù)其中,11.2估計(jì)邏輯回歸模型——最大似然估計(jì)追求似然函數(shù)最大值的過(guò)程就是追求對(duì)數(shù)似然函數(shù)值最大值的過(guò)程。對(duì)數(shù)似然函數(shù)值越大,意味著模型較好地?cái)M合樣本數(shù)據(jù)的可能性也越大,所得模型的擬合優(yōu)度越高。整體模型的檢驗(yàn)和評(píng)價(jià)11.3顯著性檢驗(yàn)

整體模型的檢驗(yàn)和評(píng)價(jià)11.3顯著性檢驗(yàn)判錯(cuò)矩陣預(yù)測(cè)值01正確率觀測(cè)值01總體正確率判錯(cuò)矩陣是一種極為直觀的評(píng)價(jià)模型優(yōu)劣的方法,它通過(guò)矩陣表格的形式展現(xiàn)預(yù)測(cè)值與實(shí)際觀測(cè)值的吻合程度。整體模型的檢驗(yàn)和評(píng)價(jià)11.3顯著性檢驗(yàn)Cox&SnellR2統(tǒng)計(jì)量Cox&SnellR2統(tǒng)計(jì)量與一般線性回歸分析中的R2有相似之處,也是方程對(duì)被解釋變量變差解釋程度的反映。缺點(diǎn)是取值范圍不易確定,因此使用時(shí)不方便。NagelkerkeR2統(tǒng)計(jì)量Cox&SnellR2統(tǒng)計(jì)量取值在0~1之間,越接近1說(shuō)明方程的擬合優(yōu)度越高。回歸系數(shù)的顯著性檢驗(yàn)

11.3顯著性檢驗(yàn)

Wald統(tǒng)計(jì)量多重共線性檢驗(yàn)

應(yīng)當(dāng)注意,如果解釋變量存在多重共線性會(huì)對(duì)Wald檢驗(yàn)統(tǒng)計(jì)量產(chǎn)生影響。由于用于logistic回歸建模的很多軟件包,如

Excel,SPSS,和R并不提供共線性的問(wèn)題檢驗(yàn),所以如果用戶想檢驗(yàn)共線性問(wèn)題,可以就給定的自變量做一個(gè)線性回歸模型,并輸出共線性診斷指標(biāo),就可以了解自變量的相關(guān)情況。11.4邏輯回歸系數(shù)的意義平均個(gè)人偏效應(yīng)和平均偏效應(yīng)Logistic回歸模型的解釋涉及到對(duì)建立回歸方程所包含的自變量的分析。也即,我們常常想估計(jì)xi對(duì)響應(yīng)概率P(y=1|X)的影響。若xi是(大致)連續(xù)的,則對(duì)xi的較小變化,有:比例因子

11.4邏輯回歸系數(shù)的意義平均個(gè)人偏效應(yīng)和平均偏效應(yīng)

平均個(gè)人偏效應(yīng)表示將每個(gè)解釋變量都代之以樣本平均值而得到常數(shù)比例因子,利用該常數(shù)比例因子乘以對(duì)應(yīng)的xi的系數(shù)βi

即得到平均個(gè)人偏效應(yīng)。數(shù)學(xué)表達(dá)式為:平均個(gè)人偏效應(yīng)(PEA)平均偏效應(yīng)表示將樣本中所有個(gè)體的偏效應(yīng)取平均而得到常數(shù)比例因子。數(shù)學(xué)表達(dá)式為:平均偏效應(yīng)(PEA)11.4邏輯回歸系數(shù)的意義

根據(jù)平均個(gè)人偏效應(yīng)的定義,將年齡的樣本均值40.00代入公式可計(jì)算年齡對(duì)購(gòu)買(mǎi)該產(chǎn)品響應(yīng)概率影響的平均個(gè)人偏效應(yīng)PEA;將根據(jù)個(gè)人偏效應(yīng)的定義,將年齡的樣本所有取值代入公式可得年齡對(duì)購(gòu)買(mǎi)該產(chǎn)品響應(yīng)概率影響的個(gè)人偏效應(yīng)APE。

由于logistic模型中,自變量與響應(yīng)概率之間的關(guān)系是非線性的,因此平均個(gè)人偏效應(yīng)和平均偏效應(yīng)存在差異。11.4邏輯回歸系數(shù)的意義發(fā)生比Logistic回歸模型的解釋涉及到對(duì)建立回歸方程所包含的自變量的分析。利用logistic回歸,直接解釋自變量和y=1的概率之間的關(guān)系非常困難,統(tǒng)計(jì)學(xué)上,通過(guò)定義發(fā)生比和比值比對(duì)logistic回歸方程做出解釋。發(fā)生比

發(fā)生比被定義為事件將要發(fā)生的概率與該事件將不會(huì)發(fā)生的概率之比。11.4邏輯回歸系數(shù)的意義比值比比值比(Oddsratio)度量了當(dāng)一組自變量中只有一個(gè)自變量增加了一個(gè)單位時(shí)對(duì)事件發(fā)生概率(Odds)的影響。比值比是當(dāng)給定的一組自變量中一個(gè)自變量增加了一個(gè)單位,y=1發(fā)生概率(Odds1)除以該組自變量的值都沒(méi)有變化時(shí)y=1發(fā)生概率(Odds0)

比值比(Oddsratio)11.4邏輯回歸系數(shù)的意義

此時(shí),我們想要知道去年消費(fèi)支出為2萬(wàn)元,且擁有信用卡的顧客使用優(yōu)惠券的機(jī)會(huì)比與去年消費(fèi)支出為2萬(wàn)元,但沒(méi)有信用卡額度顧客使用優(yōu)惠券的機(jī)會(huì)比精細(xì)比較,也即,當(dāng)解釋變量x2增加一個(gè)單位時(shí)的影響:

因此,去年消費(fèi)支出為2萬(wàn)元,且擁有信用卡的顧客使用優(yōu)惠券的機(jī)會(huì)比是去年消費(fèi)支出為2萬(wàn)元,但沒(méi)有信用卡的顧客使用優(yōu)惠券的機(jī)會(huì)比的3倍。11.5案例分析一、案例背景

某商品銷(xiāo)售人員在長(zhǎng)期推銷(xiāo)該產(chǎn)品的過(guò)程中發(fā)現(xiàn),消費(fèi)者是否購(gòu)買(mǎi)該產(chǎn)品受到很強(qiáng)的消費(fèi)者人口結(jié)構(gòu)特征的影響。比如性別、年齡以及收入水平。為了驗(yàn)證自己的猜想,以及在未來(lái)的銷(xiāo)售活動(dòng)中能更好的,有針對(duì)性的,對(duì)可能購(gòu)買(mǎi)該產(chǎn)品的顧客提供更好的服務(wù)。經(jīng)與銷(xiāo)售主管的商議,該銷(xiāo)售團(tuán)隊(duì)對(duì)到達(dá)商鋪的顧客進(jìn)行隨機(jī)的問(wèn)卷調(diào)查,并對(duì)顧客最終是否購(gòu)買(mǎi)該產(chǎn)品做了詳細(xì)的記錄。對(duì)數(shù)據(jù)進(jìn)行初步的整理以后,團(tuán)隊(duì)成員計(jì)劃通過(guò)運(yùn)用logistic回歸的方法來(lái)檢驗(yàn)消費(fèi)者人口特征對(duì)其是否購(gòu)買(mǎi)該產(chǎn)品的影響。11.5案例分析二、數(shù)據(jù)及其說(shuō)明剔除無(wú)效樣本,并對(duì)數(shù)據(jù)進(jìn)行編碼后發(fā)現(xiàn),收集到有效樣本431份。數(shù)據(jù)項(xiàng)包括:是否購(gòu)買(mǎi)(purchase)、性別(gender)、年齡(age)、收入水平(income)。是否購(gòu)買(mǎi)作為被解釋變量(0/1二分類(lèi)變量),其余各變量作為解釋變量,且其中性別和收入水平為類(lèi)別變量,年齡為數(shù)值型變量。11.5案例分析三、數(shù)據(jù)分析表11-4分類(lèi)表a,b

已觀測(cè)已預(yù)測(cè)

是否購(gòu)買(mǎi)百分比校正

不購(gòu)買(mǎi)購(gòu)買(mǎi)步驟0是否購(gòu)買(mǎi)不購(gòu)買(mǎi)2690100.0購(gòu)買(mǎi)1620.0總計(jì)百分比

62.4a.模型中包括常量。b.切割值為.50011.5案例分析三、數(shù)據(jù)分析表11-5方程中的變量

BS.E,WalsdfSig.Exp(B)EXP(B)的95%C.I.下限上限步驟1aage.025.0181.9741.1601.026.9901.062gender.511.2095.9541.0151.6671.1062.513income

12.3052.002

income(1)-.787.2539.6761.002.455.277.748income(2)-.686.2437.9451.005.503.312.811常量-1.836.7865.4571.019.159

a.在步驟1中輸入的變量:age,gender,income.

11.5案例分析三、結(jié)論

通過(guò)運(yùn)用logistic

回歸分析的方法發(fā)現(xiàn),消費(fèi)者是否購(gòu)買(mǎi)該產(chǎn)品顯著的受到性別和收入水平的影響。其中女性消費(fèi)者比男性消費(fèi)者更青睞于購(gòu)買(mǎi)該產(chǎn)品。此外,該產(chǎn)品更適合于低收入群體,因?yàn)橹?、高收入群體購(gòu)買(mǎi)該產(chǎn)品的機(jī)會(huì)比顯著的小于低收入群體。因此,該商品的銷(xiāo)售人員應(yīng)該更關(guān)注于女性和低收入的消費(fèi)者。但是,值得注意的是,該模型的解釋力較低NagelkerkeR2

只有0.057。也就是說(shuō),消費(fèi)者是否購(gòu)買(mǎi)該產(chǎn)品可能還受到其他因素的影響。未來(lái)的研究可以嘗試加入這些因素,如該產(chǎn)品的特性等。由此,便能更好的解釋和預(yù)測(cè)消費(fèi)者購(gòu)買(mǎi)該產(chǎn)品的原因。第12章

時(shí)間序列預(yù)測(cè)73第12章時(shí)間序列預(yù)測(cè)——目錄12.1時(shí)間序列構(gòu)成因素12.2預(yù)測(cè)方法的評(píng)估12.3平穩(wěn)序列的預(yù)測(cè)12.4趨勢(shì)型序列的預(yù)測(cè)12.5趨勢(shì)與季節(jié)混合型序列的預(yù)測(cè)74時(shí)間序列(timeseries)是按照一定的時(shí)間區(qū)間進(jìn)行索引的隨機(jī)變量序列。平穩(wěn)時(shí)間序列(stationarytimeseries)指的是只包含隨機(jī)波動(dòng)的序列。這類(lèi)序列中的各個(gè)觀察值基本上在某個(gè)固定的水平上隨機(jī)波動(dòng)。非平穩(wěn)時(shí)間序列(non-stationarytimeseries)指的是除了隨機(jī)波動(dòng)外,還包含趨勢(shì)、季節(jié)變動(dòng)和周期波動(dòng)中的一種或多種成分的序列。7512.1時(shí)間序列的構(gòu)成因素固定值圖12-1四種要素:趨勢(shì)、季節(jié)變動(dòng)、周期波動(dòng)和隨機(jī)波動(dòng)。趨勢(shì)(trend)是指在一個(gè)較長(zhǎng)時(shí)間段內(nèi),時(shí)間序列呈現(xiàn)出的持續(xù)向上或者持續(xù)向下的穩(wěn)定變動(dòng)。時(shí)間序列中的趨勢(shì)可以是線性的,也可以是非線性的。7612.1時(shí)間序列的構(gòu)成因素——趨勢(shì)圖12-2(b)圖12-2(a)季節(jié)變動(dòng)(seasonality)是指在一個(gè)較短時(shí)間段內(nèi)(一般小于一年),時(shí)間序列呈現(xiàn)出的重復(fù)性的、可預(yù)測(cè)的變動(dòng)。例如。電風(fēng)扇的銷(xiāo)售低谷在冬季,而銷(xiāo)售高峰在夏天。這種季節(jié)性是氣候條件,生產(chǎn)條件,節(jié)假日以及風(fēng)俗習(xí)慣等諸多因素的聯(lián)合影響所引起。這里我們所說(shuō)的“季節(jié)”一詞是廣義的周期性變化。不僅僅代表一年四季,而是泛指任何有規(guī)律的變動(dòng)周期,可以是小于一年的季,月,旬,周,日。7712.1時(shí)間序列的構(gòu)成因素——季節(jié)性圖12-3周期波動(dòng)(cyclicity)也稱循環(huán)波動(dòng)(cyclicalfluctuation)是指在一個(gè)較長(zhǎng)時(shí)間段內(nèi)(一般大于一年),時(shí)間序列呈現(xiàn)出的圍繞長(zhǎng)期趨勢(shì)的一種波浪形或振蕩式變動(dòng)。周期性變動(dòng)是變動(dòng)周期超過(guò)一年的、非固定長(zhǎng)度的變動(dòng),但每一變動(dòng)周期的長(zhǎng)短不同,上下波動(dòng)的幅度也不一致,循環(huán)波動(dòng)可以是1-5年周期,也可以是10年以上的長(zhǎng)周期。7812.1時(shí)間序列的構(gòu)成因素——周期性圖12-4隨機(jī)波動(dòng)(randomness)也稱不規(guī)則波動(dòng)(irregularvariations)是指除趨勢(shì)、季節(jié)變動(dòng)和周期波動(dòng)以外,時(shí)間序列所呈現(xiàn)出的由臨時(shí)性或偶然性因素引起的變動(dòng)。如地震、洪災(zāi)、軍事沖突、政治動(dòng)亂或一些偶然因素對(duì)社會(huì)經(jīng)濟(jì)所造成的影響及結(jié)果。不規(guī)則變動(dòng)是不以人的意志為轉(zhuǎn)移的,是無(wú)法控制的。7912.1時(shí)間序列的構(gòu)成因素——隨機(jī)性圖12-5時(shí)間序列分析需要把趨勢(shì)(T)、季節(jié)變動(dòng)(S)、周期波動(dòng)(C)和隨機(jī)波動(dòng)(R)這幾種成分從時(shí)間序列中有目的的分離出來(lái),或者所對(duì)數(shù)據(jù)進(jìn)行分解、整理,并將它們的關(guān)系用一定的數(shù)學(xué)關(guān)系式進(jìn)行表達(dá),然后分別進(jìn)行分析,即建立時(shí)間序列的分解模型。按照四種成分對(duì)時(shí)間序列影響方式的不同,時(shí)間序列可分解為多種模型,比如加法模型,乘法模型等,其中比較常用的是乘法模型。80

12.1時(shí)間序列的構(gòu)成因素——時(shí)間序列的分解模型乘法模型:加法模型:12.2預(yù)測(cè)方法的評(píng)估——評(píng)價(jià)預(yù)測(cè)方法預(yù)測(cè)誤差:預(yù)測(cè)值與實(shí)際值的差距最優(yōu)的預(yù)測(cè)方法:使預(yù)測(cè)誤差最小常用的計(jì)算方法:平均絕對(duì)誤差和均方誤差。平均絕對(duì)誤差:平均絕對(duì)誤差可以避免相互抵消的問(wèn)題,因而可以準(zhǔn)確的反應(yīng)實(shí)際預(yù)測(cè)誤差的大小。12.2預(yù)測(cè)方法的評(píng)估——評(píng)價(jià)預(yù)測(cè)方法均方誤差:如果避免誤差太大對(duì)研究問(wèn)題來(lái)說(shuō)很重要,那就應(yīng)該使用均方誤差,因?yàn)樗鄬?duì)于平均絕對(duì)誤差而言增加了相對(duì)較大誤差的計(jì)算權(quán)重,反之則使用平均絕對(duì)誤差。均方誤差具有良好的數(shù)學(xué)性質(zhì),有利于快速求得使其最小化的模型參數(shù)。平穩(wěn)序列(stationaryseries)指的是不含趨勢(shì)、季節(jié)變動(dòng)和循環(huán)波動(dòng)的序列,即其通常只包含隨機(jī)成分。本節(jié)主要介紹簡(jiǎn)單平均法、加權(quán)移動(dòng)平均法和指數(shù)平滑法。8312.3平穩(wěn)時(shí)間序列的預(yù)測(cè)移動(dòng)平均法:把最近d期數(shù)據(jù)的算術(shù)平均值作為t+1期的觀測(cè)值。簡(jiǎn)單移動(dòng)平均法能消除數(shù)據(jù)的隨機(jī)波動(dòng)對(duì)預(yù)測(cè)結(jié)果的影響,因而適合預(yù)測(cè)較為平穩(wěn)的時(shí)間序列。對(duì)每個(gè)實(shí)際觀測(cè)值賦予相同的權(quán)重,忽略了一個(gè)重要的事實(shí),在大多數(shù)情況下,遠(yuǎn)期和近期觀測(cè)值對(duì)未來(lái)值的影響是不一樣的。8412.3平穩(wěn)時(shí)間序列的預(yù)測(cè)加權(quán)移動(dòng)平均法:是基于簡(jiǎn)單移動(dòng)平均法上的一種改進(jìn)預(yù)測(cè)方法。對(duì)每個(gè)實(shí)際觀測(cè)值賦予不同的權(quán)重—近期權(quán)數(shù)較大,遠(yuǎn)期權(quán)數(shù)較小,但權(quán)數(shù)之和為1。可以根據(jù)預(yù)測(cè)誤差(如均方誤差)最小原則,來(lái)尋找最優(yōu)的權(quán)重組合。8512.3平穩(wěn)時(shí)間序列的預(yù)測(cè)指數(shù)平滑法:

通常設(shè)1期的預(yù)測(cè)值等于1期的實(shí)際觀測(cè)值2期的預(yù)測(cè)值為:3期的預(yù)測(cè)值為:4期的預(yù)測(cè)值為:結(jié)論:任何預(yù)測(cè)值是過(guò)去所有實(shí)際觀測(cè)值的加權(quán)平均值。8612.3平穩(wěn)時(shí)間序列的預(yù)測(cè)

87例12.1:分別用移動(dòng)平均法、加權(quán)移動(dòng)平均法、指數(shù)平滑法預(yù)測(cè)2016年中國(guó)的電力出口量。解:(1)移動(dòng)平均法(移動(dòng)間隔為4):因此,2016年中國(guó)的電力出口量為183.25億千瓦時(shí)。序號(hào)年份電力出口量/億千瓦時(shí)120101912201119332012177420131875201418262015187表12-12010-2015年中國(guó)的電力出口量12.3平穩(wěn)時(shí)間序列的預(yù)測(cè)88解:(2)加權(quán)移動(dòng)平均法:權(quán)數(shù)設(shè)置為:12.3平穩(wěn)時(shí)間序列的預(yù)測(cè)則1980年的預(yù)測(cè)值為:因此,2016年中國(guó)的電力出口量為184.96億千瓦時(shí)。89解:(3)指數(shù)平滑法():2011年的預(yù)測(cè)值為:12.3平穩(wěn)時(shí)間序列的預(yù)測(cè)因此,2016年中國(guó)的電力出口量為186.0255億千瓦時(shí)。2012年的預(yù)測(cè)值為:2013年的預(yù)測(cè)值為:2014年的預(yù)測(cè)值為:2015年的預(yù)測(cè)值為:2016年的預(yù)測(cè)值為:90線性趨勢(shì)(lineartrend)是指時(shí)間序列呈現(xiàn)出穩(wěn)定的上升或下降的線性變化規(guī)律。當(dāng)時(shí)間序列含有線性趨勢(shì)時(shí),可以用一元線性回歸模型進(jìn)行預(yù)測(cè),即將時(shí)間當(dāng)作自變量,實(shí)際觀測(cè)值當(dāng)作因變量。線性回歸方程:12.4趨勢(shì)型時(shí)間序列的預(yù)測(cè)—線性趨勢(shì)回歸參數(shù)值(最小二乘法):趨勢(shì)預(yù)測(cè)的效果:一元線性回歸方程的判定系數(shù)、估計(jì)標(biāo)準(zhǔn)誤、模型顯著性等指標(biāo)例12.2:根據(jù)表12-2中的蔬菜產(chǎn)量數(shù)據(jù),用一元線性回歸方程預(yù)測(cè)2019年的蔬菜產(chǎn)量,并將實(shí)際值和預(yù)測(cè)值繪制成圖形進(jìn)行比較。91,12.4趨勢(shì)型時(shí)間序列的預(yù)測(cè)—線性趨勢(shì)回歸表12-22000-2018年蔬菜產(chǎn)量時(shí)間序列序號(hào)年份蔬菜產(chǎn)量(萬(wàn)噸)1200044467.942200148422.363200252860.564200354032.325200455064.666200556451.497200653953.058200751767.679200854457.9610200955300.3011201053030.8612201159766.6313201261624.4614201363197.9815201464948.6516201566425.1017201667434.1618201769192.6819201870346.72

92,12.4趨勢(shì)型時(shí)間序列的預(yù)測(cè)—線性趨勢(shì)回歸(萬(wàn)噸)圖12-6蔬菜產(chǎn)量的預(yù)測(cè)93當(dāng)時(shí)間序列不是以固定的常數(shù)(即斜率)上升或下降的時(shí)候,則此時(shí)間序列具有非線性趨勢(shì)(non-lineartrend)。當(dāng)時(shí)間序列的實(shí)際觀測(cè)值按指數(shù)規(guī)律變化時(shí),需要用指數(shù)曲線(exponentialcurve)方程對(duì)時(shí)間序列進(jìn)行預(yù)測(cè)。指數(shù)曲線:12.4趨勢(shì)型時(shí)間序列的預(yù)測(cè)—非線性趨勢(shì)回歸參數(shù)的計(jì)算:先取對(duì)數(shù),再由最小二乘法可得例12.3:根據(jù)表12-3中的人均GDP數(shù)據(jù),用指數(shù)曲線方程預(yù)測(cè)2019年的人均GDP,并將實(shí)際值和預(yù)測(cè)值繪制成圖形進(jìn)行比較。94,12.4趨勢(shì)型時(shí)間序列的預(yù)測(cè)—非線性趨勢(shì)回歸表12-32000-2018年人均GDP時(shí)間序列序號(hào)年份人均GDP(元)12000794222001871732002950642003106665200412487620051436872006167388200720494920082410010200926180112010308081220113630213201239874142013436841520144700516201550028172016536801820175920119201864644解:對(duì)取對(duì)數(shù)得:

由最小二乘法可得:

所以指數(shù)曲線方程為:

帶入t=20,可得:95,12.4趨勢(shì)型時(shí)間序列的預(yù)測(cè)—非線性趨勢(shì)回歸圖12-7人均GDP的預(yù)測(cè)96當(dāng)時(shí)間序列的實(shí)際觀測(cè)值變化比較復(fù)雜時(shí),如在一段時(shí)間內(nèi)下降,在另一段時(shí)間內(nèi)上升,或者更為復(fù)雜(存在多個(gè)拐點(diǎn)),此時(shí),需要通過(guò)擬合多階曲線來(lái)刻畫(huà)這種復(fù)雜的非線性趨勢(shì)。二階曲線:1個(gè)拐點(diǎn)三階曲線:2個(gè)拐點(diǎn)多階曲線:12.4趨勢(shì)型時(shí)間序列的預(yù)測(cè)—非線性趨勢(shì)回歸參數(shù)的計(jì)算:由最小二乘法可得例12.4:根據(jù)表12-4中石油占能源消費(fèi)總量的比重的數(shù)據(jù),用合適的多階曲線方程預(yù)測(cè)2019年的石油占能源消費(fèi)總量的比重,并將實(shí)際值和預(yù)測(cè)值繪制成圖形進(jìn)行比較。97,12.4趨勢(shì)型時(shí)間序列的預(yù)測(cè)—非線性趨勢(shì)回歸表12-42000-2018年石油占能源消費(fèi)總量的比重時(shí)間序列序號(hào)年份石油占能源消費(fèi)總量的比重120000.2200220010.2120320020.2100420030.2010520040.1990620050.1780720060.1750820070.1700920080.16701020090.1640112010016801320120171015201401830172016018801920180.1890解:石油占能源消費(fèi)總量的比重先下降,再上升,存在一個(gè)明顯的拐點(diǎn),因此,用二階曲線方程預(yù)測(cè)較為合適。二階曲線方程為:

由最小二乘法可得:

帶入t=20,可得:98,12.4趨勢(shì)型時(shí)間序列的預(yù)測(cè)—非線性趨勢(shì)回歸圖12-8石油占能源消費(fèi)總量的比重的預(yù)測(cè)99當(dāng)時(shí)間序列同時(shí)存在趨勢(shì)和季節(jié)性時(shí),時(shí)間序列既在某一段時(shí)間內(nèi)遞增或遞減,同時(shí)各年內(nèi)的相同季節(jié)中存在類(lèi)似的波動(dòng)。為了對(duì)這種類(lèi)型的時(shí)間序列進(jìn)行預(yù)測(cè),可以根據(jù)多元線性回歸的思想,將時(shí)間和表示季節(jié)性的虛擬變量當(dāng)作自變量,實(shí)際觀測(cè)值當(dāng)作因變量。引入虛擬變量的多元回歸預(yù)測(cè):12.5趨勢(shì)與季節(jié)混合型—引入虛擬變量的多元回歸參數(shù)的計(jì)算:最小二乘法可得虛擬變量的設(shè)置:n個(gè)虛擬變量對(duì)應(yīng)表示n+1個(gè)季節(jié)預(yù)測(cè)效果:可用多元回歸方程的判定系數(shù)、系數(shù)顯著性、模型顯著性等指標(biāo)進(jìn)行衡量例12.5:根據(jù)表12-5中的數(shù)據(jù),預(yù)測(cè)布丁酒店2017年1月的客房出租率,并將實(shí)際值和預(yù)測(cè)值繪制成圖形進(jìn)行比較。100,表12-52005-2006年布丁酒店各月的客房出租率序號(hào)年份月份時(shí)間客房出租率12015115912015226312015336812015447012015556312015665912015776812015886412015996212015101073120151111621201512124722016113642201621469220163157322016416672201651768220166187122016719672201682071220169216522016102272220161123632201612244712.5趨勢(shì)與季節(jié)混合型—引入虛擬變量的多元回歸解:客房出租率同時(shí)含有季節(jié)性和趨勢(shì)成分,應(yīng)引入月份虛擬變量,并進(jìn)行多元回歸預(yù)測(cè)。

將12月設(shè)為基準(zhǔn)變量,引入11個(gè)月份虛擬變量,則多元回歸預(yù)測(cè)方程為:

由最小二乘法可得:

帶入t=25,可得:所以,2017年1月布丁酒店的預(yù)測(cè)客房出租率為66.36%。101,12.5趨勢(shì)與季節(jié)混合型—引入虛擬變量的多元回歸102,圖12-9客房出租率的預(yù)測(cè)12.5趨勢(shì)與季節(jié)混合型—引入虛擬變量的多元回歸103當(dāng)時(shí)間序列是同時(shí)含有趨勢(shì)、季節(jié)變動(dòng)和隨機(jī)波動(dòng)的復(fù)合型序列時(shí),需要對(duì)時(shí)間序列進(jìn)行分解預(yù)測(cè)—先將時(shí)間序列的各個(gè)因素依次分解出來(lái),然后進(jìn)行預(yù)測(cè)。常用的有乘法模型和加法模型,此節(jié)僅介紹乘法模型。乘法模型:12.5趨勢(shì)與季節(jié)性—時(shí)間序列分解法第1步:確定并分離季節(jié)成分以季節(jié)指數(shù)來(lái)表示時(shí)間序列中的季節(jié)成分,將季節(jié)成分從時(shí)間序列中分離出去,即用序列中的每個(gè)實(shí)際觀測(cè)值除以對(duì)應(yīng)的季節(jié)指數(shù),以消

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論