版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)學(xué)建模培訓(xùn)回歸分析與建模主講人:黃旭東安徽師范大學(xué)數(shù)學(xué)計算機(jī)科學(xué)學(xué)院統(tǒng)計系系主任huangxdahnu@163.com2課程背景:由于客觀事物內(nèi)部規(guī)律的復(fù)雜及人們認(rèn)識程度的限制,無法分析實(shí)際對象內(nèi)在的因果關(guān)系,建立合乎機(jī)理規(guī)律的數(shù)學(xué)模型。通過對數(shù)據(jù)的統(tǒng)計分析,找出與數(shù)據(jù)擬合最好的模型,回歸模型是用統(tǒng)計分析方法建立的最常用的一類模型。3WhatShallWeTalk…?
內(nèi)容安排一、多元回歸分析二、虛擬變量模型
三、多元Logistic回歸分析一、多元回歸分析55實(shí)例1對中國國內(nèi)旅游消費(fèi)支出的定量研究
●國內(nèi)旅游消費(fèi)支出度量及增長的狀況怎樣?(消費(fèi)支出度量、增長速度)●分析影響國內(nèi)旅游消費(fèi)支出的因素有哪些?
(如收入、閑暇時間、交通設(shè)施、人口、社會環(huán)境等)●國內(nèi)旅游消費(fèi)支出與各種影響因素關(guān)系的性質(zhì)是什么?
(如增加、減少)●各種因素對國內(nèi)旅游消費(fèi)支出影響的程度和具體數(shù)量規(guī)律是什么?
(各種因素變動具體會引起旅游消費(fèi)支出變動多少)●所作數(shù)量分析結(jié)果的可靠性如何?●對旅游消費(fèi)增長的政策效應(yīng)分析、對國內(nèi)旅游消費(fèi)支出發(fā)展趨勢的預(yù)測等566實(shí)例2:中國家庭用汽車市場的研究●家用汽車市場狀況如何?(用銷售量觀測)●影響汽車銷量的主要因素是什么?(如收入、價格、費(fèi)用、道路狀況、政策、消費(fèi)行為特征等)●各種因素對汽車銷量影響的性
質(zhì)怎樣?(正、負(fù))●各種因素影響汽車銷量的具體
數(shù)量關(guān)系是什么?●所得的分析結(jié)論是否可靠?●今后汽車市場的發(fā)展前景怎樣?應(yīng)如何制定汽車的產(chǎn)業(yè)政策?677
實(shí)例3:中國股票價格波動的研究●股票價格變動的情況怎樣?
(用股價指數(shù)觀測)●影響股票價格變動的主要因素是什么?
(基本面、資金、政策、利率、公司業(yè)績、投資者信心等)●股價與各種影響因素的關(guān)系是什么?
(利空、利多)●各種因素影響的具體數(shù)量規(guī)律是什么?●所得的數(shù)量分析結(jié)果可不可靠?●今后股票價格的發(fā)展趨勢可能會怎樣?8
這類實(shí)例需要研究的共性問題:●提出所研究的經(jīng)濟(jì)問題及度量方式(如消費(fèi)、股票價格、汽車)
確定作為研究對象的經(jīng)濟(jì)現(xiàn)象的變量●分析主要影響因素(根據(jù)經(jīng)濟(jì)理論、實(shí)際經(jīng)驗(yàn))
選擇若干作為影響因素的變量
●
分析各種影響因素與所研究經(jīng)濟(jì)現(xiàn)象的相互關(guān)系
決定相互聯(lián)系的數(shù)學(xué)關(guān)系式●確定所研究的經(jīng)濟(jì)問題與各種影響因素間的數(shù)量規(guī)律
需要有科學(xué)的數(shù)量分析方法●分析和檢驗(yàn)所得數(shù)量結(jié)論的可靠性
需要運(yùn)用統(tǒng)計檢驗(yàn)方法●運(yùn)用數(shù)量研究的結(jié)果作經(jīng)濟(jì)分析和經(jīng)濟(jì)預(yù)測
對數(shù)量分析的實(shí)際應(yīng)用結(jié)論:以上問題的研究具有普遍性,需要運(yùn)用回歸分析方法去研究8案例在一項(xiàng)對某社區(qū)家庭對某種消費(fèi)品的消費(fèi)需要調(diào)查中,得到下表所示的資料。
請用手工與軟件兩種方式對該社區(qū)家庭對該商品的消費(fèi)需求支出作二元線性回歸分析,其中手工方式要求以矩陣表達(dá)式進(jìn)行運(yùn)算。(1)估計回歸方程的參數(shù)及隨機(jī)干擾項(xiàng)的方差,計算及。(2)對方程進(jìn)行檢驗(yàn),對參數(shù)進(jìn)行檢驗(yàn),并構(gòu)造參數(shù)95%的置信區(qū)間。(3)如果商品單價變?yōu)?5元,則某一月收入為20000元的家庭的消費(fèi)支出估計是多少?構(gòu)造該估計值的95%的置信區(qū)間。
步驟一:建立工作表,并輸入數(shù)據(jù)(1)打開Eviews軟件,進(jìn)入主界面,界面如下:(2)點(diǎn)擊File
Newworkfile
得到如下界面:(3)由于數(shù)據(jù)為截面數(shù)據(jù),則依次點(diǎn)擊:workfilefrequency→Undatedorirregular;由于數(shù)據(jù)的個數(shù)為10,則按如下列步驟依次填入:
Startdate→1
Enddate→10
→OK結(jié)果如下圖:(4)建立序列對象:定義解釋變量X1
在workfile窗口中,依次點(diǎn)擊:
ObjectsNewObjectseries;
在Nameforobject中輸入X1,界面如下所示:
定義解釋變量X2在workfile窗口中,依次點(diǎn)擊:
ObjectsNewObjectseries;
在Nameforobject中輸入X2,界面如下所示:
定義被解釋變量Y:同理,在workfile窗口中,依次點(diǎn)擊:
ObjectsNewObjectseries;
在Nameforobject中輸入Y,界面如下所示:(5)錄入數(shù)據(jù):同時選中X、Y右擊:
Open→asGroup→Edit+/-
相應(yīng)的界面如下所示:
輸入數(shù)據(jù),數(shù)據(jù)輸入后得到如下界面:
步驟二:
第一問:(1)估計回歸方程的參數(shù)及隨機(jī)干擾項(xiàng)的方差,計算及。
(1)普通最小二乘估計:在主界面:Quick→EstimateEquation
出現(xiàn)如下界面:依次輸入ycx1x2(注意:要有空格)點(diǎn)擊ok
,得到Equation窗口,如下圖所示:從該估計中,可得到隨即干擾項(xiàng)的殘差平方和為2116.847根據(jù)得到隨即干擾項(xiàng)的方差為可決系數(shù)為調(diào)整的可決系數(shù)為第二問:
(2)對方程進(jìn)行檢驗(yàn),對參數(shù)進(jìn)行檢驗(yàn),并構(gòu)造參數(shù)95%的置信區(qū)間。(1)F檢驗(yàn)方程顯著性的檢驗(yàn)是要檢驗(yàn)?zāi)P椭袇?shù)是否顯著不為零。原假設(shè):備擇假設(shè):根據(jù)樣本得到=32.29408給定顯著性水平a=0.05,查F分布表得到臨界值通過來拒絕原假設(shè),即線性關(guān)系顯著成立(2)t檢驗(yàn)提出假設(shè)在軟件中得到兩個變量的值,分別為=3.061617,=4.902030在顯著性水平a=0.05,查分布表得到可見,兩個變量的t值都大于該臨界值,所以拒絕原假設(shè),則在95%的水平下兩個解釋變量都通過了變量的顯著性檢驗(yàn)。參數(shù)的置信區(qū)間已知從回歸計算中得到根據(jù)得到的置信區(qū)間為(-17.35,-2.23)的置信區(qū)間為(0.0148,0.0424)第三問:
(3)如果商品單價變?yōu)?5元,則某一月收入為20000元的家庭的消費(fèi)支出估計是多少?構(gòu)造該估計值的95%的置信區(qū)間。進(jìn)行以下操作:拓展工作空間:打開workfile窗口,點(diǎn)擊Procs→ChangeworkfileRange
將Enddate的數(shù)據(jù)10→11→OK
確定預(yù)測值的起止日期:打開workfile窗口,點(diǎn)擊
Procs→Sample,將10→11→OK
界面分別如下:在x1的最下方填入35,在x2的最下方填入20000,按回車鍵。在出現(xiàn)的Equation界面,點(diǎn)擊Forecast
出現(xiàn)相應(yīng)界面如下:
在Forecastname中輸入YF在S.E(optional)中輸入W在workfile中雙擊yf可得到下面界面得到X1=35,X2=20000時家庭的消費(fèi)支出為Y=856.202507115
雙擊w,得到
從上表可得根據(jù)得個值的95%的預(yù)測區(qū)間(759.41,952.99)
在95%的置信度下均值的置信區(qū)間為即為(768.6,943.8)二、虛擬變量模型
(一)虛擬變量的基本含義
(二)虛擬變量的引入
(三)虛擬變量的設(shè)置原則在對在校學(xué)生的消費(fèi)行為進(jìn)行的調(diào)查中,發(fā)現(xiàn)在校生的消費(fèi)行為呈現(xiàn)多元化的結(jié)構(gòu)。人際交往消費(fèi)、手機(jī)類消費(fèi)、衣著類消費(fèi)、化妝品類消費(fèi)、電腦類消費(fèi)、旅游類消費(fèi)占有較大的比例;而食品類消費(fèi)、學(xué)習(xí)用品類消費(fèi)不突顯。
顯然,男女生在消費(fèi)上存在差異。為了了解男、女生的消費(fèi)支出結(jié)構(gòu)差異,應(yīng)當(dāng)如何建立模型?面臨的問題:如何把男女生這樣的非數(shù)量變量引
入方程?
引例:男女大學(xué)生消費(fèi)真有差異嗎?
(一)虛擬變量的基本含義許多經(jīng)濟(jì)變量是可以定量度量。一些影響經(jīng)濟(jì)變量的因素是無法定量度量。為了在模型中能夠反映這些因素的影響,并提高模型的精度,需要將它們“量化”。這種“量化”通常是通過引入“虛擬變量”來完成的。根據(jù)這些因素的屬性類型,構(gòu)造只取“0”或“1”的人工變量,通常稱為虛擬變量,記為D。虛擬變量只作為解釋變量。1、虛擬變量(dummyvariables)一般地,在虛擬變量的設(shè)置中:
基礎(chǔ)類型、肯定類型取值為1;比較類型,否定類型取值為0。例如,反映文程度的虛擬變量可取為:D=1,本科學(xué)歷D=0,非本科學(xué)歷虛擬變量能否取1、0以外的數(shù)值?同時含有一般解釋變量與虛擬變量的模型稱為虛擬變量模型或者方差分析(analysis-ofvariance:ANOVA)模型。例如,一個以性別為虛擬變量考察企業(yè)職工薪金的模型:其中:Yi為企業(yè)職工的薪金;Xi為工齡;Di=1,若是男性,Di=0,若是女性。2、虛擬變量模型(二)虛擬變量的引入虛擬變量作為解釋變量引入模型有兩種基本方式:加法方式和乘法方式。上述企業(yè)職工薪金模型中性別虛擬變量的引入采取了加法方式。在該模型中,如果仍假定E(i)=0,則企業(yè)男、女職工的平均薪金為:1、加法方式
假定2>0,則兩個函數(shù)有相同的斜率,但有不同的截距。意即,男女職工平均薪金對工齡的變化率是一樣的,但兩者的平均薪金水平相差2??梢酝ㄟ^對2的統(tǒng)計顯著性進(jìn)行檢驗(yàn),以判斷企業(yè)男女職工的平均薪金水平是否有顯著差異。02將上例中的性別換成教育水平,教育水平考慮三個層次:高中以下、高中、大學(xué)及其以上。高中以下高中大學(xué)及以上在上例中同時引入性別和教育水平:女職工本科以下學(xué)歷的平均薪金:女職工本科以上學(xué)歷的平均薪金:男職工本科以下學(xué)歷的平均薪金:男職工本科以上學(xué)歷的平均薪金:加法方式引入虛擬變量,考察:截距的不同。許多情況下,斜率發(fā)生變化,或斜率、截距同時發(fā)生變化。斜率的變化可通過以乘法的方式引入虛擬變量來測度。2、乘法方式例如,根據(jù)消費(fèi)理論,收入決定消費(fèi)。但是,農(nóng)村居民和城鎮(zhèn)居民的邊際消費(fèi)傾向往往是不同的。這種消費(fèi)傾向的不同可通過在消費(fèi)函數(shù)中引入虛擬變量來考察。農(nóng)村居民:城鎮(zhèn)居民:例如,根據(jù)消費(fèi)理論,收入決定消費(fèi)。但是,在自然災(zāi)害、戰(zhàn)爭等反常年份,消費(fèi)傾向往往發(fā)生變化。這種消費(fèi)傾向的變化可通過在消費(fèi)函數(shù)中引入虛擬變量來考察。例如,根據(jù)消費(fèi)理論,收入決定消費(fèi)。但是,從某一個時點(diǎn)開始,消費(fèi)傾向發(fā)生變化。這種消費(fèi)傾向的變化也可通過在消費(fèi)函數(shù)中引入虛擬變量來考察。當(dāng)截距與斜率發(fā)生變化時,則需要同時引入加法與乘法形式的虛擬變量。對于一元模型,有兩組樣本,則有可能出現(xiàn)下述四種情況中的一種:
1=1
,且2=2
,即兩個回歸相同,稱為重合回歸(CoincidentRegressions);11,但2=2
,即兩個回歸的差異僅在其截距,稱為平行回歸(ParallelRegressions);1=1
,但22
,即兩個回歸的差異僅在其斜率,稱為匯合回歸(ConcurrentRegressions);11,且22
,即兩個回歸完全不同,稱為相異回歸(DissimilarRegressions)。3、同時引入加法與乘法形式的虛擬變量通過統(tǒng)計檢驗(yàn),判斷兩個時期中消費(fèi)函數(shù)的截距和斜率是否發(fā)生變化。例如,以1978-2009年的數(shù)據(jù)為樣本,以GDP作為解釋變量,建立居民消費(fèi)函數(shù)。根據(jù)分析,1992年前后,自發(fā)消費(fèi)和消費(fèi)率都可能發(fā)生變化。(三)虛擬變量的設(shè)置原則每一定性變量(qualitativevariable)所需的虛擬變量個數(shù)要比該定性變量的狀態(tài)類別數(shù)(categories)少1。即如果有m種狀態(tài),只在模型中引入m-1個虛擬變量。例如,季節(jié)定性變量有春、夏、秋、冬4種狀態(tài),只需要設(shè)置3個虛變量:如果設(shè)置第4個虛變量,則出現(xiàn)“虛擬變量陷井”(DummyVariableTrap),為什么?解釋變量完全共線性包含季節(jié)變量的正確模型:如果在服裝需求函數(shù)模型中必須包含3個定性變量:季節(jié)(4種狀態(tài))、性別(2種狀態(tài))、職業(yè)(5種狀態(tài)),應(yīng)該設(shè)置多少虛變量?模型含常數(shù)項(xiàng)模型不含常數(shù)項(xiàng)三、多元Logistic回歸分析MultipleLogisticRegressionAnalysis線性回歸模型的一個局限性是要求因變量是定量變量(定距變量、定比變量)而不能是定性變量(定序變量、定類變量)。但是在許多實(shí)際問題中,經(jīng)常出現(xiàn)因變量是定性變量(分類變量)的情況。可用于處理分類因變量的統(tǒng)計分析方法有:判別分別(Discriminantanalysis)、Probit分析、Logistic回歸分析和對數(shù)線性模型等。在社會科學(xué)中,應(yīng)用最多的是Logistic回歸分析。Logistic回歸分析根據(jù)因變量取值類別不同,又可以分為BinaryLogistic回歸分析和MultinomialLogistic回歸分析,BinaryLogistic回歸模型中因變量只能取兩個值1和0(虛擬因變量),而MultinomialLogistic回歸模型中因變量可以取多個值。本章將只討論BinaryLogistic回歸,并簡稱Logistic回歸。因變量只取兩個值,表示一種決策、一種結(jié)果的兩種可能性。例如,某個人能否擁有房子,受到多種因素的影響,如家庭情況、工齡、收入情況等,但最終的可能性只有兩個,要么擁有住房,要么沒有住房。我們把Y=1定義為擁有住房,Y=0定義為其它情況,即從模型角度出發(fā),不妨把事件發(fā)生的情況定義為Y=1,事件未發(fā)生的情況定義為Y=0,這樣取值為0、1的因變量可以寫為下式:我們可以采用多種方法對取值為0、1的因變量進(jìn)行分析。通常以p表示事件發(fā)生的概率(事件未發(fā)生的概率為1-p),并把p看作自變量Xi的線性函數(shù),即不同形式的F(·),就有不同形式的模型,最簡單的莫過于使F(·)為一線性函數(shù),即我們可能會認(rèn)為可用普通最小二乘法對上式進(jìn)行估計,但因p的值一定在區(qū)間[0,1]內(nèi),而且當(dāng)p接近于0或1時,自變量即使有很大變化p的值也不可能變化很大,所以對上式直接用普通最小二乘法進(jìn)行估計是行不通的。從數(shù)學(xué)上看,函數(shù)p對Xi的變化在p=0或p=1的附近是不敏感的、緩慢的,且非線性的程度較高。于是要尋求一個p的函數(shù)θ(p),使得它在p=0或p=1附近時變化幅度較大,而函數(shù)的形式又不是很復(fù)雜,因此,我們引入p的Logistic變換(或稱為p的Logit變換),即其中,p/(1-p);logit(p)是因變量Y=1的差異比(oddsratio)或似然比(likelihoodratio)的自然對數(shù),稱為對數(shù)差異比(logoddsratio)、對數(shù)似然比(loglikelihoodratio)或分對數(shù)。很明顯,θ(p)以logit(0.5)=0為中心對稱(如表10-54所示),θ(p)在p=0和p=1的附近變化幅度很大,而且當(dāng)p從0變化1時,θ(p)從-∞變到+∞。用θ(p)代替式(10-113)中的p就克服了前面指出的兩點(diǎn)困難。如果p對Xi不是線性的關(guān)系,θ(p)對Xi就可以是線性的關(guān)系了。用θ(p)代替前式中的p,得將p由θ來表示,得醫(yī)學(xué)研究中經(jīng)常遇到分類型變量二分類變量:生存與死亡有病與無病有效與無效感染與未感染多分類有序變量:疾病程度(輕度、中度、重度)治愈效果(治愈、顯效、好轉(zhuǎn)、無效)多分類無序變量:手術(shù)方法(A、B、C)就診醫(yī)院(甲、乙、丙、?。┽t(yī)學(xué)研究者經(jīng)常關(guān)心的問題哪些因素導(dǎo)致了人群中有的人患胃癌而有的人不患胃癌?哪些因素導(dǎo)致了手術(shù)后有的人感染,而有的人不感染?哪些因素導(dǎo)致了某種治療方法出現(xiàn)治愈、顯效、好轉(zhuǎn)、無效等不同的效果?是回歸分析問題:Y=f(x)如何解決這樣的問題?
y=f(x)y=1,0x任意存在,且不唯一不能直接分析變量y與x的關(guān)系p=p(y=1|x)=f(x)0≤p≤1,x任意Logistic回歸模型y取某個值的概率變量p與x的關(guān)系不存在1、什么是Logistic回歸分析?研究因變量y取某個值的概率變量p與自變量x的依存關(guān)系。p=p(y=1|x)=f(x)(一)Logistic回歸分析的概念2、Logist
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 代辦食品經(jīng)營許可證合同
- 二手房買賣定金合同范本中介版
- 二零二五年別墅鋼筋勞務(wù)工程服務(wù)協(xié)議5篇
- 2024年黑白盒金鋼木圍棋項(xiàng)目可行性研究報告
- 2024年速固型瞬間膠粘劑項(xiàng)目可行性研究報告
- 2025年婚慶床品合作協(xié)議書
- 2024年電刨刀架項(xiàng)目可行性研究報告
- 二零二五年體育賽事組織及贊助合同3篇
- 空調(diào)移機(jī)合同
- 北京中醫(yī)藥大學(xué)《醫(yī)患溝通知識及技巧》2023-2024學(xué)年第一學(xué)期期末試卷
- 山東省棗莊市滕州市2023-2024學(xué)年高二上學(xué)期期末考試政治試題 含答案
- 《外盤期貨介紹》課件
- 2024年07月11396藥事管理與法規(guī)(本)期末試題答案
- 《PMC培訓(xùn)資料》課件
- 2025年初級社會工作者綜合能力全國考試題庫(含答案)
- 企業(yè)發(fā)展培訓(xùn)
- 江蘇省徐州市2023-2024學(xué)年高一上學(xué)期1月期末抽測試題 化學(xué) 含答案
- 紅藍(lán)光譜治療儀
- 四川省義務(wù)教育藝術(shù)課程設(shè)置方案
- 2024年我國人口老齡化問題與對策
- 2024年江西省公務(wù)員考試《行測》真題及答案解析
評論
0/150
提交評論