數(shù)據(jù)挖掘-回歸分析技術(shù)在建模中的應(yīng)用_第1頁(yè)
數(shù)據(jù)挖掘-回歸分析技術(shù)在建模中的應(yīng)用_第2頁(yè)
數(shù)據(jù)挖掘-回歸分析技術(shù)在建模中的應(yīng)用_第3頁(yè)
數(shù)據(jù)挖掘-回歸分析技術(shù)在建模中的應(yīng)用_第4頁(yè)
數(shù)據(jù)挖掘-回歸分析技術(shù)在建模中的應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩46頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘—回歸分析技術(shù)在建模中的應(yīng)用Neverforgethowtodreamcontents回歸分析技術(shù)概述31回歸分析易存在誤區(qū)23回歸分析建模方法3回歸分析技術(shù)應(yīng)用4Neverforgethowtodream回歸分析技術(shù)概述概述發(fā)展內(nèi)容及模型建立模型步驟Neverforgethowtodream1

從高斯(Gauss)提出最小二乘法算起,回歸分析已經(jīng)有200年的歷史。統(tǒng)計(jì)學(xué)的許多方法與回歸分析有著密切聯(lián)系,如時(shí)間序列分析、主成分分析、判別分析等。矩陣?yán)碚摵陀?jì)算機(jī)技術(shù)的發(fā)展為回歸分析模型的應(yīng)用提供了極大的方便。近年來(lái)的非參數(shù)統(tǒng)計(jì)、自助法、刀切法、經(jīng)驗(yàn)貝葉斯估計(jì)對(duì)回歸分析起著滲透和促進(jìn)作用。1.1回歸分析技術(shù)發(fā)展1.2回歸分析的主要內(nèi)容及其一般模型

設(shè)置指標(biāo)變量收集整理數(shù)據(jù)構(gòu)造理論模型估計(jì)模型參數(shù)修改

N

模型運(yùn)用Y因素分析變量控制

決策預(yù)測(cè)實(shí)際問題模型檢驗(yàn)1.3建立實(shí)際問題回歸模型的過(guò)程回歸分析技術(shù)易存在誤區(qū)2認(rèn)識(shí)誤區(qū)回歸建模指標(biāo)變量的設(shè)置變量數(shù)據(jù)的收集和整理回歸擬合效果與檢驗(yàn)回歸方程的解釋與應(yīng)用

回歸分析研究的主要對(duì)象是客觀事物變量間的依賴關(guān)系,客觀事物變量間依賴關(guān)系的普遍性決定了回歸分析方法的廣泛應(yīng)用性。它是建立在對(duì)客觀事物進(jìn)行大量試驗(yàn)和觀察的基礎(chǔ)上,用來(lái)尋找隱藏在那些看上去是不確定的現(xiàn)象中的統(tǒng)計(jì)規(guī)律性的統(tǒng)計(jì)方法?;貧w分析方法是通過(guò)建立統(tǒng)計(jì)模型研究變量間相互關(guān)系的密切程度、結(jié)構(gòu)狀態(tài)、模型預(yù)測(cè)的一種有力的工具。2.1

回歸分析認(rèn)識(shí)誤區(qū)統(tǒng)計(jì)學(xué)科發(fā)展到今天已經(jīng)非常豐富繁茂,統(tǒng)計(jì)學(xué)的分支和研究方向也異常細(xì)化。近些年來(lái),統(tǒng)計(jì)學(xué)的應(yīng)用隨著計(jì)算機(jī)的飛速發(fā)展很受人們重視,在諸多現(xiàn)代統(tǒng)計(jì)分析方法中回歸分析是最基本最實(shí)用應(yīng)用最廣泛的統(tǒng)計(jì)學(xué)方法。許多統(tǒng)計(jì)學(xué)分支都是在回歸分析模型的基礎(chǔ)上通過(guò)改進(jìn)、推廣、提升為新的統(tǒng)計(jì)理論及分支。如時(shí)間序列分析作為現(xiàn)代統(tǒng)計(jì)學(xué)的一個(gè)重要分支就是序列自回歸模型的發(fā)展和豐富。2.1回歸分析技術(shù)認(rèn)識(shí)誤區(qū)然而,目前回歸分析受重視程度不高,認(rèn)為回歸分析是統(tǒng)計(jì)學(xué)里的小兒科,所講的回歸分析內(nèi)容太簡(jiǎn)單,甚至連模型的基本假定都忽略,在運(yùn)用回歸分析技術(shù)時(shí)容易犯錯(cuò)。2.1回歸分析技術(shù)認(rèn)識(shí)誤區(qū)回歸分析模型主要是揭示事物間相關(guān)變量的數(shù)量聯(lián)系。首先要根據(jù)所研究問題的目的設(shè)置因變量,然后再選取與因變量有統(tǒng)計(jì)關(guān)系的一些變量做為自變量。建立實(shí)際問題的回歸分析模型一定要搞清楚哪個(gè)變量是因變量,哪些指標(biāo)是自變量。通常情況下,所研究的實(shí)際問題因變量與自變量之間應(yīng)具有一定的因果關(guān)系。因此在研究某種現(xiàn)象時(shí),必須根據(jù)具體研究目的,利用專業(yè)理論,從定性角度來(lái)確定某種經(jīng)濟(jì)問題中各因素之間的因果關(guān)系。2.2回歸建模指標(biāo)變量的設(shè)置因變量確定:對(duì)一個(gè)具體的問題,當(dāng)研究目的確定之后,被解釋變量容易確定,被解釋變量一般直接表達(dá)、刻畫研究的目的。自變量確定:對(duì)被解釋變量有影響的解釋變量的確定不太容易。一是由于人們的認(rèn)識(shí)有局限,可能并不知道對(duì)被解釋變量有重要影響的因素;二是為了模型參數(shù)估計(jì)的有效性,設(shè)置的解釋變量之間應(yīng)該是不相關(guān)的。人們很難確定哪些變量是相關(guān)的,哪些不是相關(guān)的,這就看如何在多個(gè)變量中確定幾個(gè)重要的且不相關(guān)的變量。2.2回歸建模指標(biāo)變量的設(shè)置注意:一個(gè)回歸模型所涉及到的解釋變量不是越多越好。一個(gè)模型,如果把一些主要變量漏掉肯定會(huì)影響模型的應(yīng)用效果,但如果無(wú)關(guān)緊要因素一起進(jìn)入模型也未必就好。當(dāng)引入的變量太多時(shí),可能選擇了一些與問題無(wú)關(guān)緊要的變量,還可能由于一些變量的相關(guān)性很強(qiáng),它們所反映的信息有較嚴(yán)重的重疊,這就出現(xiàn)多重共線性問題。當(dāng)變量太多時(shí),計(jì)算工作量太大,計(jì)算誤差積累也大,估計(jì)出的模型參數(shù)精度自然不高。2.2回歸建模指標(biāo)變量的設(shè)置當(dāng)確定好回歸模型的變量之后,就要對(duì)這些變量收集、整理統(tǒng)計(jì)數(shù)據(jù)。常用的樣本數(shù)據(jù)分為時(shí)間序列數(shù)據(jù)和橫截面數(shù)據(jù)。時(shí)間序列數(shù)據(jù)就是按時(shí)間順序排列的統(tǒng)計(jì)數(shù)據(jù)。對(duì)于收集到的時(shí)間序列資料要特別注意數(shù)據(jù)的可比性及數(shù)據(jù)的統(tǒng)計(jì)口徑問題。對(duì)于沒有可比性和統(tǒng)計(jì)口徑計(jì)算不一致的統(tǒng)計(jì)數(shù)據(jù)就要作認(rèn)真調(diào)整,這個(gè)調(diào)整過(guò)程就是一個(gè)數(shù)據(jù)整理過(guò)程。2.3變量數(shù)據(jù)的收集和整理時(shí)間序列數(shù)據(jù)容易產(chǎn)生模型中隨機(jī)誤差項(xiàng)的序列相關(guān),這是因?yàn)樵S多變量的前后期之間總是有關(guān)聯(lián)的。如在經(jīng)濟(jì)中建立需求模型時(shí),人們的消費(fèi)習(xí)慣、商品短缺程度等具有一定的延續(xù)性,它們會(huì)對(duì)相當(dāng)一段時(shí)間的需求量有影響,這樣就產(chǎn)生隨機(jī)誤差項(xiàng)的序列相關(guān)。對(duì)于具有隨機(jī)誤差項(xiàng)序列相關(guān)的情況,就要通過(guò)對(duì)數(shù)據(jù)的某種計(jì)算、整理來(lái)消除序列相關(guān)性。最常用的處理方法是差分方法。2.3變量數(shù)據(jù)的收集和整理橫截面數(shù)據(jù)即為在同一時(shí)間截面上的統(tǒng)計(jì)數(shù)據(jù)。如同一年在不同的地塊上做的施肥量與小麥產(chǎn)量試驗(yàn)的統(tǒng)計(jì)數(shù)據(jù)就是截面數(shù)據(jù)。當(dāng)用截面數(shù)據(jù)作樣本時(shí),容易產(chǎn)生異方差性。這是因?yàn)橐粋€(gè)回歸模型往往涉及到眾多解釋變量,如果其中某一因素或一些因素隨著解釋變量觀測(cè)值的變化而對(duì)被解釋變量產(chǎn)生不同影響,就產(chǎn)生異方差性。

yi=β0+β1xi+ui

,

i=1,…,n隨機(jī)項(xiàng)ui具有不同的方差。2.3變量數(shù)據(jù)的收集和整理在實(shí)際應(yīng)用中,人們往往只能得到樣本相關(guān)系數(shù)r,而無(wú)法得到總體相關(guān)系數(shù)r。用樣本相關(guān)系數(shù)r判定兩變量間相關(guān)程度的強(qiáng)弱時(shí)一定要注意樣本量的大小,只有當(dāng)樣本量較大時(shí)用樣本相關(guān)系數(shù)r判定兩變量間相關(guān)程度的強(qiáng)弱才可信服。需要正確區(qū)分相關(guān)系數(shù)顯著性檢驗(yàn)與相關(guān)程度強(qiáng)弱的關(guān)系,相關(guān)系數(shù)的t檢驗(yàn)顯著只是表示總體相關(guān)系數(shù)ρ顯著不為零,并不能表示相關(guān)程度高。2.4回歸擬合效果與檢驗(yàn)有A、B兩位同學(xué),A同學(xué)計(jì)算出r=0.8,但是顯著性檢驗(yàn)沒有通過(guò);B同學(xué)計(jì)算出r=0.1,而聲稱此相關(guān)系數(shù)高度顯著,我們都不能判斷誰(shuí)對(duì)誰(shuí)錯(cuò)。這個(gè)問題的回答同樣與樣本量有關(guān)。由檢驗(yàn)統(tǒng)計(jì)量可以看到t值不僅與樣本相關(guān)系數(shù)r有關(guān),同時(shí)與樣本量n有關(guān),對(duì)同樣的相關(guān)系數(shù)r,樣本量n大時(shí)|t|就大,樣本量n小時(shí)|t|就小。實(shí)際上,對(duì)任意固定的非0的r值,只要樣本量n充分大就能使|t|足夠大,從而得到相關(guān)系數(shù)高度顯著的結(jié)論。明白這個(gè)道理后你就會(huì)相信A、B兩位同學(xué)說(shuō)的都可能是正確的。2.4回歸擬合效果與檢驗(yàn)樣本決定系數(shù):是一個(gè)回歸直線與樣本觀測(cè)值擬合優(yōu)度的相對(duì)指標(biāo),反映了因變量的波動(dòng)中能用自變量解釋的比例。其數(shù)值在0到1之間,可以用百分?jǐn)?shù)表示。如果決定系數(shù)

接近于1,說(shuō)明因變量不確定性的絕大部分能由回歸方程解釋,回歸方程擬合優(yōu)度就好。反之,如

不大,說(shuō)明回歸方程的效果不好,應(yīng)進(jìn)行修改,可以考慮增加新的自變量或者使用曲線回歸。需要注意以下幾個(gè)方面:2.4回歸擬合效果與檢驗(yàn)第一,樣本量太小時(shí),決定系數(shù)很大,但這個(gè)大的決定系數(shù)很可能是虛假現(xiàn)象。樣本量越小時(shí),決定系數(shù)越容易大。第二,即使樣本量并不小,決定系數(shù)很大,例如是0.9,也并不能肯定自變量與因變量之間的關(guān)系就是線性的,這是因?yàn)橛锌赡芮€回歸的效果更好。尤其是當(dāng)自變量的取值范圍很窄時(shí),線性回歸的效果通常是較好的,這樣的線性回歸方程是不能用于外推預(yù)測(cè)的??梢杂媚P褪M檢驗(yàn)(Lackoffittest)來(lái)判定因變量與自變量之間的真實(shí)函數(shù)關(guān)系,到底是線性關(guān)系還是曲線關(guān)系,如果是曲線關(guān)系到底是哪一種曲線關(guān)系。2.4回歸擬合效果與檢驗(yàn)第三、不論是時(shí)間序列數(shù)據(jù)還是橫截面數(shù)據(jù)的建模,樣本容量的多少一般要與設(shè)置的解釋變量數(shù)目相匹配。當(dāng)樣本容量的個(gè)數(shù)小于解釋變量的數(shù)目時(shí),普通的最小二乘估計(jì)方法失效;當(dāng)樣本容量大于解釋變量數(shù)目,但比較接近時(shí),用于評(píng)價(jià)回歸擬合效果的決定系數(shù)虛假現(xiàn)象嚴(yán)重。通常為了使模型的參數(shù)估計(jì)更有效,要求樣本容量n比解釋變量個(gè)數(shù)p大的多。一般來(lái)說(shuō)樣本容量n應(yīng)是解釋變量個(gè)數(shù)p的10倍。2.4回歸擬合效果與檢驗(yàn)變量的因素分析是回歸模型的一個(gè)重要應(yīng)用。應(yīng)用回歸模型對(duì)變量之間的關(guān)系作出度量,從模型的回歸系數(shù)可發(fā)現(xiàn)經(jīng)濟(jì)變量的結(jié)構(gòu)關(guān)系,給出政策評(píng)價(jià)的一些量化依據(jù)。對(duì)一般情況含有p個(gè)自變量的多元線性回歸,每個(gè)回歸系數(shù)表示在回歸方程中其他自變量保持不變的情況下,自變量每增加一個(gè)單位時(shí)因變量y的平均增加程度。在分析各自變量對(duì)因變量的相對(duì)重要性時(shí),標(biāo)準(zhǔn)化回歸系數(shù)是比較自變量對(duì)y影響程度相對(duì)重要性的一種較為理想的方法。但是,仍對(duì)回歸系數(shù)的解釋須采取謹(jǐn)慎的態(tài)度,這是因?yàn)楫?dāng)自變量相關(guān)時(shí)會(huì)影響標(biāo)準(zhǔn)化回歸系數(shù)的大小。2.5回歸方程的解釋與應(yīng)用進(jìn)行預(yù)測(cè)是回歸模型的另一個(gè)重要應(yīng)用。通過(guò)建立模型就可以對(duì)未來(lái)做出預(yù)測(cè)。但在作長(zhǎng)期預(yù)測(cè)時(shí),要特別注意相應(yīng)的自變量是否還保持建模當(dāng)初數(shù)據(jù)的變化趨勢(shì)和特征。在回歸模型的運(yùn)用中,還要特別強(qiáng)調(diào)定性分析和定量分析的有機(jī)結(jié)合。這是因?yàn)榻y(tǒng)計(jì)學(xué)方法只是從事物外在的數(shù)量表面上去研究問題,不涉及事物質(zhì)的規(guī)定性。2.5回歸方程的解釋與應(yīng)用

回歸分析建模方法3回歸分析建模主成分回歸與偏最小二乘含定性變量回歸嶺回歸多元線性回歸3.1多元線性回歸回歸模型參數(shù)估計(jì)回歸應(yīng)用顯著性檢驗(yàn)基本步驟Textinhere基本假定:1.解釋變量x1,x2,…,xp是確定性變量,不是隨機(jī)變量,且要求rank(X)=p+1<n。表明設(shè)計(jì)矩陣X中的自變量列之間不相關(guān),X是一滿秩矩陣。2.隨機(jī)誤差項(xiàng)具有0均值和等方差。多元線性回歸模型一般形式:y=β0+β0x1+β0x2+…+β0xp+ε其中β0,β1,β2,…,βp是p+1個(gè)未知參數(shù),β0稱為回歸常數(shù),β1,β2,…,βp稱為回歸系數(shù)?;貧w方程解釋:對(duì)一般含有p個(gè)自變量的多元線性回歸,每個(gè)回歸系數(shù)βi表示在回歸方程中其他變量保持不變的情況下,自變量xi每增加一個(gè)單位時(shí)因變量y的平均增加程度,多元線性回歸系數(shù)稱為偏回歸系數(shù)。回歸參數(shù)估計(jì)普通最小二乘估計(jì):尋找最大似然估計(jì):y~N(Xβ,σ2In)顯著性檢驗(yàn)一、F檢驗(yàn)

(回歸方程顯著性檢驗(yàn))

H0:β1=β2=…=βp=0SST=SSR+SSE

當(dāng)H0成立時(shí)服從顯著性檢驗(yàn)二、回歸系數(shù)的顯著性t檢驗(yàn)

H0j:βj=0,j=1,2,…,p~N(β,σ2(X'X)-1)構(gòu)造t統(tǒng)計(jì)量

其中,(X'X)-1=(cij)i,j=0,1,2,…,p多元線性回歸分析實(shí)例年份yx1x2x3x4x51978231301018888149114.89180.921979298335021958638916.00420.391980343368825319220419.53570.251981401394127999530021.82776.711982445425830549992223.27792.4319833914736335810604422.91947.7019845545652390511035326.021285.2219857447020487911211027.721783.3019869977859555210857932.432281.95198713109313638611242938.91

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論