




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 中 國(guó) 礦 業(yè) 大 學(xué)本科生畢業(yè)論文姓 名: 劉 瑾 瑜 學(xué) 號(hào): 10104459 學(xué) 院: 理學(xué)院 專 業(yè): 數(shù)學(xué)與應(yīng)用數(shù)學(xué) 論文題目: 最小一乘估計(jì)與最小二乘估計(jì)的比較分析 專 題: 指導(dǎo)教師: 韓苗 職 稱: 講師 年 月 徐州中國(guó)礦業(yè)大學(xué)畢業(yè)論文任務(wù)書學(xué)院 理學(xué)院 專業(yè)年級(jí) 數(shù)學(xué)與應(yīng)用數(shù)學(xué)10級(jí) 學(xué)生姓名 劉瑾瑜 任務(wù)下達(dá)日期: 2013 年 12 月 5 日畢業(yè)論文日期: 2014 年 2 月 24 日至 2014 年 5 月 27 日畢業(yè)論文題目: 最小一乘估計(jì)和最小二乘估計(jì)的比較分析畢業(yè)論文專題題目:畢業(yè)論文主要內(nèi)容和要求:主要內(nèi)容:最小二乘估計(jì)在理論與方法上較為成熟和完善,
2、被十分廣泛地應(yīng)用于許多實(shí)際問題中,但其容易受到奇異點(diǎn)的影響,最小一乘估計(jì)雖能很好地克服這一缺陷,但又由于它是不可微優(yōu)化問題,存在計(jì)算上的困難。本文希望能夠詳細(xì)的比較最小一乘估計(jì)與最小二乘估計(jì)之間的優(yōu)缺點(diǎn),能夠?qū)ψ钚∫怀斯烙?jì)進(jìn)行算法設(shè)計(jì),并進(jìn)行實(shí)證分析比較。要求:1、認(rèn)真仔細(xì)閱讀相關(guān)參考文獻(xiàn),對(duì)最小一乘估計(jì)與最小二乘估計(jì)的方法原理進(jìn)行理論分析比較。2、能夠利用相關(guān)軟件從實(shí)證方面對(duì)兩種方法進(jìn)行比較分析。3、撰寫畢業(yè)論文,格式要求符合規(guī)范。4、獨(dú)立翻譯與畢業(yè)論文相關(guān)的,近3年發(fā)表的英文文獻(xiàn)一篇,內(nèi)容不少于3000字。院長(zhǎng)簽字: 指導(dǎo)教師簽字:中國(guó)礦業(yè)大學(xué)畢業(yè)論文指導(dǎo)教師評(píng)閱書指導(dǎo)教師評(píng)語(基礎(chǔ)理論及
3、基本技能的掌握;獨(dú)立解決實(shí)際問題的能力;研究?jī)?nèi)容的理論依據(jù)和技術(shù)方法;取得的主要成果及創(chuàng)新點(diǎn);工作態(tài)度及工作量;總體評(píng)價(jià)及建議成績(jī);存在問題;是否同意答辯等):成 績(jī): 指導(dǎo)教師簽字: 年 月 日中國(guó)礦業(yè)大學(xué)畢業(yè)論文評(píng)閱教師評(píng)閱書評(píng)閱教師評(píng)語(選題的意義;基礎(chǔ)理論及基本技能的掌握;綜合運(yùn)用所學(xué)知識(shí)解決實(shí)際問題的能力;工作量的大小;取得的主要成果及創(chuàng)新點(diǎn);寫作的規(guī)范程度;總體評(píng)價(jià)及建議成績(jī);存在問題;是否同意答辯等):成 績(jī): 評(píng)閱教師簽字: 年 月 日中國(guó)礦業(yè)大學(xué)畢業(yè)論文評(píng)閱教師評(píng)閱書評(píng)閱教師評(píng)語(選題的意義;基礎(chǔ)理論及基本技能的掌握;綜合運(yùn)用所學(xué)知識(shí)解決實(shí)際問題的能力;工作量的大小;取得的主
4、要成果及創(chuàng)新點(diǎn);寫作的規(guī)范程度;總體評(píng)價(jià)及建議成績(jī);存在問題;是否同意答辯等):中國(guó)礦業(yè)大學(xué)畢業(yè)論文答辯及綜合成績(jī)答 辯 情 況提 出 問 題回 答 問 題正 確基本正確有一般性錯(cuò)誤有原則性錯(cuò)誤沒有回答答辯委員會(huì)評(píng)語及建議成績(jī):答辯委員會(huì)主任簽字: 年 月 日學(xué)院領(lǐng)導(dǎo)小組綜合評(píng)定成績(jī)學(xué)院領(lǐng)導(dǎo)小組負(fù)責(zé)人: 年 月 日摘 要回歸分析(Regression Analysis)是一種應(yīng)用相當(dāng)廣泛的數(shù)據(jù)分析方法,它常用于進(jìn)行數(shù)據(jù)內(nèi)在規(guī)律分析,研究某一現(xiàn)象與影響它的主要因素之間的關(guān)系,同時(shí)也可用于控制或者預(yù)報(bào)等問題?;貧w模型參數(shù)估計(jì)中大多采用最小二乘法估計(jì),但當(dāng)數(shù)據(jù)較少且含有異常值時(shí),最小二乘法會(huì)使回歸方
5、程產(chǎn)生較大偏差,而基于絕對(duì)殘差和最小原則的最小一乘估計(jì)卻會(huì)彌補(bǔ)這個(gè)缺陷。最小一乘估計(jì)和最小二乘估計(jì)是從同一思路出發(fā)而用不同統(tǒng)計(jì)工具進(jìn)行參數(shù)估計(jì)的兩種方法,從而也導(dǎo)致了這兩種方法的結(jié)果和應(yīng)用對(duì)象的差異。本文將最小二乘估計(jì)和最小一乘估計(jì)的原理進(jìn)行了簡(jiǎn)單介紹,分別從奇異點(diǎn)和數(shù)據(jù)對(duì)稱性兩方面對(duì)用最小一乘法和最小二乘法得到的回歸方程進(jìn)行了比較分析,當(dāng)數(shù)據(jù)出現(xiàn)明顯的奇異點(diǎn)或因變量關(guān)于自變量不是條件對(duì)稱時(shí),最小一乘估計(jì)要比選擇最小二乘估計(jì)好。并用這兩種方法對(duì)江蘇省的固定資產(chǎn)投資和地區(qū)生產(chǎn)總值的關(guān)系進(jìn)行了實(shí)證分析,進(jìn)一步論證了奇異點(diǎn)對(duì)兩種方法的影響,并對(duì)兩種方法各自的應(yīng)用范圍進(jìn)行了總結(jié)?!娟P(guān)鍵字】: 最小一乘
6、估計(jì);最小二乘估計(jì);回歸分析 AbstractRegression analysis is a widely used method of data analysis, which is commonly used in analysing the internal laws of the data, studying a phenomenon and its impact on the relationship among the main factors , and also can be used to control or prediction. Most of the regress
7、ion model use least squares estimation to estimate parameter , but when there comes a small sample and outliers , the least squares regression equation will have a greater deviation , and the least absolute estimates based on the principle of minimizing absolute residuals will take a compensate for
8、this defect . Least absolute estimates and least squares estimation are two methods from the same idea but with two different statistical tools for parameter estimation , which also led to differences in the results of the two methods and application objects.This article takes a simple introduction
9、for least squares estimation and least absolute estimates, and compares the least absolute estimates and least squares estimation from the singular point and data symmetry respectively. When there are singular points in the sample or when the independent variable on the dependent variable condition
10、is not symmetrical , choosing the least absolute estimates is better than least squares estimation . In this paper, we used two methods to analysis the relationship between the total fixed asset investment and the GDP of Jiangsu Province, demonstrated the impact of singular points to the two methods
11、 , and summarized the application of both methods respectively. Keywords least absolute estimates ;least squares estimation ;regression analysis 目 錄 1 緒論. .11.1 問題研究的意義11.1.1回歸分析的意義11.1.2線性回歸分析的意義11.1.3研究最小一乘估計(jì)與最小二乘估計(jì)比較的意義31.2理論背景41.3本論文的工作42 理論分析52.1原理概述52.1.1最小一乘法52.1.2最小二乘法72.2算法分析82.2.1直接求解82.2.
12、2計(jì)算機(jī)求解102.3兩種方法的優(yōu)劣勢(shì)比較122.3.1奇異值的影響122.3.2數(shù)據(jù)對(duì)稱性的影響133 實(shí)證分析(固定資產(chǎn)投資與地區(qū)生產(chǎn)總值的關(guān)系)143.1問題背景143.2地區(qū)生產(chǎn)總值關(guān)于固定資產(chǎn)投資的模型153.3整體回歸分析173.3.1含奇異點(diǎn)的兩種模型173.3.2不含奇異點(diǎn)的兩種模型183.3.3誤差分析193.4綜合分析及政策建議204 總結(jié)21參考文獻(xiàn)22翻譯部分23英文原文24中文譯文31致 謝36 第 35 頁中國(guó)礦業(yè)大學(xué)2014屆本科生畢業(yè)論文 1 緒論1.1 問題研究的意義1.1.1回歸分析的意義回歸分析(regression analysis)是一種統(tǒng)計(jì)方法,它旨
13、在確定兩種或兩種以上變量間相互依賴的定量關(guān)系?;貧w分析具有相當(dāng)廣泛的應(yīng)用,按照自變量的多少,回歸分析可分為一元回歸分析和多元回歸分析,如: 稱為一元回歸,則稱為多元回歸;其中y稱為因變量或被解釋變量,x稱為自變量或解釋變量。按照因變量和自變量的關(guān)系,回歸分析又包括非線性回歸分析和線性回歸分析,如:就是線性回歸,就是非線性回歸;同時(shí)考慮因變量和自變量的關(guān)系,以及自變量的數(shù)量,回歸分析可分為一元線性回歸分析和多元線性回歸分析,如:就是多元線性回歸,就是一元線性回歸。 回歸分析主要解決的問題有: (1)確定回歸方程,也就是因變量和自變量間的定量關(guān)系表達(dá)式; (2)檢驗(yàn)回歸方程的可信度; (3)判斷自
14、變量是否對(duì)因變量有顯著影響; (4)用回歸方程對(duì)未來進(jìn)行預(yù)測(cè)和控制。由于回歸方程具有非常廣泛的應(yīng)用,在任何領(lǐng)域的研究中都可能要對(duì)變量進(jìn)行回歸分析,因此,對(duì)回歸分析的研究具有重要的意義。1.1.2線性回歸分析的意義線性回歸是回歸分析中比較簡(jiǎn)單的一種,但在生活中,很多時(shí)候兩個(gè)變量都呈現(xiàn)線性相關(guān)關(guān)系發(fā)展,因此線性回歸分析具有廣泛的應(yīng)用。1 關(guān)于線性回歸分析的簡(jiǎn)例例1:假設(shè)有一組數(shù)據(jù)如下所示:表1:x123456y3.15.4912.614.818.4則我們能得到這組數(shù)據(jù)的散點(diǎn)圖為 圖(1)顯然從圖中可看出這幾個(gè)樣本點(diǎn)大致成一條直線,也就是說x和y大致是一種線性關(guān)系,那么此時(shí)我們可以擬合出一條直線使得
15、這些點(diǎn)盡可能離直線近,如圖所示: 圖(2)2 線性回歸模型:1) 理論回歸模型: 若自變量x和因變量y呈線性關(guān)系,從理論上說,兩者可用以下模型表示: (1.1)式中:是未知的定值,其中為常數(shù),而是理論上的回歸系數(shù);是隨機(jī)項(xiàng),包括那些除x外被忽略或者無法考慮到的因素。對(duì)于觀察到的每一個(gè)樣本點(diǎn),(1.1)式也寫為: (1.2)其中需要滿足: (1.3)2) 實(shí)際回歸模型 我們要計(jì)算出(1.1)式中和的精確值幾乎是不可能的,因?yàn)槠綍r(shí)能得到的只有有限的數(shù)據(jù)和情報(bào),在資料有限的情況下,我們只能計(jì)算出和的估計(jì)值,實(shí)際上因變量y和自變量x的簡(jiǎn)單線性關(guān)系可以表述為: (1.4)這里、不是像、一樣的精確地固定數(shù)
16、值,而是個(gè)估計(jì)量;是殘差項(xiàng),也可以稱為回歸余項(xiàng),是估計(jì)值與實(shí)際值之間的差值。 相應(yīng)地,(1.2)式的實(shí)際回歸模型也可以寫為: (1.5)其中是實(shí)際觀測(cè)值與的估計(jì)值的離差,即,其中表示估計(jì)值。3) 預(yù)測(cè)模型 實(shí)際進(jìn)行預(yù)測(cè)時(shí),殘差項(xiàng)也是無法預(yù)測(cè)的,但我們的目的是要借助來得到因變量的估計(jì)值,因此預(yù)測(cè)模型為 (1.6)可以看出(1.6)式實(shí)際上是(1.4)式的主體部分,相對(duì)于(1.5)式,(1.6)式也可寫成: (1.7)3 線性回歸的應(yīng)用:1 預(yù)測(cè),線性回歸可以用來對(duì)自變量的值和觀測(cè)數(shù)據(jù)集擬合出一個(gè)預(yù)測(cè)模型,并且對(duì)模型中的參數(shù)利用已知數(shù)據(jù)進(jìn)行估計(jì),得到具體模型后可用擬合出來的模型對(duì)未來的數(shù)據(jù)進(jìn)行預(yù)測(cè)
17、,即給定一個(gè)自變量的值代入模型中可算得一個(gè)因變量的預(yù)測(cè)值。2 相關(guān)性,假設(shè)給定變量和一些相關(guān)變量,這些變量有的與相關(guān)度高,有的卻相關(guān)度不是很高,用線性回歸分析可用來量化因變量和自變量之間相關(guān)性的強(qiáng)度并識(shí)別出哪些自變量的子集包含了關(guān)于因變量的冗余信息。在線性回歸中,使用線性預(yù)測(cè)模型對(duì)所測(cè)數(shù)據(jù)來建立模型,并且同樣通過這些數(shù)據(jù)來估計(jì)未知的模型參數(shù),其中最常用的兩種估計(jì)線性回歸模型的方法,就是最小一乘估計(jì)和最小二乘估計(jì)。線性回歸是在實(shí)際應(yīng)用中廣泛使用的一種回歸分析的方法,這是由于非線性關(guān)系依賴于未知參數(shù)的模型比線性依賴于未知參數(shù)模型更加難以擬合,而且,產(chǎn)生的那些估計(jì)的統(tǒng)計(jì)特性也更難以確定。1.1.3研
18、究最小一乘估計(jì)與最小二乘估計(jì)比較的意義在上述線性回歸的例子中,我們雖然知道可以用一條直線大致擬合這些已知數(shù)據(jù),但實(shí)際應(yīng)用中,要使得模型可以在以后的研究中直接運(yùn)用,必須將這條直線的方程估計(jì)出來,即回歸方程。直線的回歸方程為,其中為實(shí)際值與估計(jì)值的差,也稱殘差。在實(shí)例中,我們需要利用已知數(shù)據(jù)對(duì)進(jìn)行估計(jì),使得到的直線盡可能離每一個(gè)點(diǎn)都近,若直接將每個(gè)點(diǎn)與直線上的點(diǎn)的值之差相加則可能產(chǎn)生正負(fù)相抵,于是前人想出了將每個(gè)點(diǎn)與直線上點(diǎn)的值之差加絕對(duì)值或者平方,再讓其達(dá)到最小來估計(jì)參數(shù),這就分別是最小一乘估計(jì)法和最小二乘估計(jì)法。由以上對(duì)線性回歸的分析可知線性回歸在實(shí)際研究中的重要性,最小一乘估計(jì)與最小二乘估計(jì)
19、是線性回歸中參數(shù)估計(jì)的方法,因而最小一乘估計(jì)和最小二乘估計(jì)的重要性也就不言而喻了。其中最小二乘估計(jì)是目前運(yùn)用最廣泛的參數(shù)估計(jì)方法之一,雖然最小一乘估計(jì)的出現(xiàn)早于最小二乘估計(jì),但由于計(jì)算復(fù)雜未能得到推廣,實(shí)際上最小一乘估計(jì)有最小二乘估計(jì)無法替代的優(yōu)勢(shì),即在某些場(chǎng)合最小一乘估計(jì)得到的結(jié)果比最小二乘估計(jì)要更優(yōu)。因此,本文研究最小一乘估計(jì)與最小二乘估計(jì)的差異,可以更清楚最小一乘估計(jì)和最小二乘估計(jì)的適用范圍,同時(shí)使最小一乘估計(jì)得到更廣泛的運(yùn)用。并且,在今天,計(jì)算機(jī)行業(yè)迅速崛起,計(jì)算復(fù)雜已經(jīng)不算問題,很多計(jì)算問題可以直接用計(jì)算機(jī)代勞,于是對(duì)最小一乘估計(jì)的研究就顯得尤為重要了。1.2理論背景最小一乘法和最小
20、二乘法最先開始時(shí)來源于數(shù)學(xué)中對(duì)線性方程組的求解的研究1,考慮如下元非齊次線性方程組: (1.8)在數(shù)學(xué)中要求解(1.8)式,通常是的情況,此時(shí)方程組(1.8)有解,需要滿足的充要條件是系數(shù)矩陣與增廣矩陣具有相等的秩。當(dāng)時(shí)(方程中不存在等價(jià)方程,否則可視為的情況),該方程是無解的。在實(shí)際問題的研究中,這種情況比較普遍。既然找不到一組準(zhǔn)確使方程組同時(shí)成立的解,那么只能退而求其次,尋找一組解使得方程組中每一個(gè)方程左右兩邊的數(shù)值盡可能地接近。為了實(shí)現(xiàn)這一目的,有以下兩種方法可供使用:1、最小一乘法最小一乘法是指計(jì)算方程左右兩邊的絕對(duì)殘差,并最小化殘差的絕對(duì)值之和,即 (1.9)使達(dá)到最小,來求得相近的
21、解。由于最小一乘估計(jì)的目標(biāo)函數(shù)中含有絕對(duì)值,導(dǎo)致計(jì)算起來不是很方便,這也就直接導(dǎo)致了最小一乘估計(jì)沒能得到廣泛的應(yīng)用。2、最小二乘法最小二乘法(也有人稱最小平方法)是指計(jì)算方程左右兩邊的殘差平方和,并最小化殘差平方和的參數(shù)估計(jì)法,即 (1.10)使達(dá)到最小,來求得相近的解。顯然此時(shí)的是的可導(dǎo)函數(shù),因此最小二乘法的通常解法為通過對(duì)求xj (j=1,2,.,n)的偏導(dǎo)來估計(jì)參數(shù)。顯然,最小二乘法與最小一乘法在估計(jì)思想上是相一致的,它們研究的是同一個(gè)問題并且解決思路也是一樣的,只是實(shí)現(xiàn)路徑不同。1.3本論文的工作設(shè)樣本容量為,則很顯然一元線性回歸模型的參數(shù)估計(jì)即為尋求關(guān)于未知數(shù)的線性方程組求解問題:
22、(1.11)根據(jù)理論背景中所述,方程組(1.11)是沒有精確解的,因而只能尋求一個(gè)最優(yōu)解來使得方程兩邊盡可能接近。本文將以上述一元線性回歸模型的參數(shù)估計(jì)為例,來闡釋最小一乘法和最小二乘法的實(shí)現(xiàn)路徑。重點(diǎn)研究最小一乘估計(jì)的實(shí)現(xiàn)方法,通過實(shí)證分析比較最小一乘估計(jì)與最小二乘估計(jì),總結(jié)兩種方法的優(yōu)缺點(diǎn)以及各自的適用范圍。2 理論分析2.1原理概述如圖所示 圖(3)就是一元線性回歸的擬合圖形,為構(gòu)造出來的樣本的回歸直線?,F(xiàn)實(shí)中,不可能所有樣本點(diǎn)完全在同一條直線上,所以就產(chǎn)生了殘差我們用回歸直線來擬合這些樣本點(diǎn)的條件是要使得每點(diǎn)距離直線最近,最簡(jiǎn)單的思路是直接計(jì)算所有樣本點(diǎn)所形成的殘差和,即,使之達(dá)到最小
23、,但是此時(shí)就會(huì)存在正負(fù)相抵的問題。如例1中的數(shù)據(jù),假設(shè)用直線擬合這些樣本點(diǎn),則可計(jì)算得殘差和為,若將例1中第二組數(shù)據(jù)換成,則計(jì)算得殘差和為,顯然比數(shù)據(jù)更換前殘差和更大,但事實(shí)是更換數(shù)據(jù)后離擬合直線更近。通過這個(gè)小例子可以看到,用殘差和來作為擬合直線是否很好地?cái)M合樣本點(diǎn)的評(píng)判標(biāo)準(zhǔn)是有缺陷的。要消掉正負(fù)相抵的弊端,就有兩種方法:加絕對(duì)值或平方,即用或者達(dá)到最小來估計(jì)擬合直線中的參數(shù),前者被稱為最小一乘估計(jì)法,后者被稱為最小二乘估計(jì)法。2.1.1最小一乘法 最小一乘法的目標(biāo)函數(shù)為 (2.1)顯然與是分段線性函數(shù)關(guān)系,在各分段的端點(diǎn)取極值,并且每個(gè)端點(diǎn)對(duì)應(yīng)一個(gè)的值,即:(i=1,2,.n),將從小到大
24、排列,即: 。繪制關(guān)系的曲線,如下 圖(4)顯然當(dāng)時(shí)達(dá)到最小,由此可見為的估計(jì)值。同時(shí),可以證明,滿足達(dá)到最小的即為yi關(guān)于xi的樣本條件中位數(shù)。證明如下:假設(shè)不是條件中位數(shù),不妨設(shè)關(guān)于的樣本條件中位數(shù)為,且,再假設(shè),則1)若n為奇數(shù),則,不妨設(shè)當(dāng)時(shí),有同理可證得當(dāng)時(shí),也有。 2)若n為偶數(shù),則,當(dāng)時(shí),若,則 若,則有: 綜上所述,滿足達(dá)到最小的即為關(guān)于的樣本條件中位數(shù)。由此可得最小一乘回歸所得的直線就是中位數(shù)直線,因此我們也把最小一乘回歸稱為中位數(shù)回歸。2.1.2最小二乘法最小二乘法的目標(biāo)函數(shù)為 (2.2)將Q展開得: 顯然這是一個(gè)我們很熟悉的開口向上的拋物線方程,由二次函數(shù)的圖形,如下:
25、圖(5)很容易得到當(dāng)時(shí),Q取最小值,此時(shí)為拋物線的對(duì)稱軸。我們也很容易證得滿足達(dá)到最小的即為yi關(guān)于xi的樣本條件均值。 我們知道二次函數(shù)有唯一極值點(diǎn)也即最值點(diǎn),由費(fèi)馬引理可知,極值點(diǎn)一定是駐點(diǎn),即在該點(diǎn)的導(dǎo)數(shù)為零。由 則即顯然,當(dāng)Q達(dá)到最小值時(shí),得到的 ,正好是。由此可得最小二乘回歸直線是一條均值直線,因此最小二乘回歸也可以稱為均值回歸。2.2算法分析2.2.1直接求解 最小二乘估計(jì)之所以比最小一乘估計(jì)運(yùn)用廣泛,最大的原因就是計(jì)算簡(jiǎn)單易行,我們可以利用求駐點(diǎn)的方法求得使 (2.3)達(dá)到最小時(shí)的和的值。具體算法如下:由解得 (2.4)下面重點(diǎn)介紹一下最小一乘估計(jì)的一種算法:穩(wěn)定極點(diǎn)的迭代算法2
26、。首先介紹兩種特殊情況:1)當(dāng)時(shí),求。在原理概述中我們已經(jīng)證明,最小一乘估計(jì)得到的是條件中位數(shù),因而,設(shè)是樣本數(shù)據(jù)的按從小到大的一個(gè)排序。則當(dāng)n為奇數(shù)時(shí),該數(shù)列的中位數(shù)為,所以當(dāng)目標(biāo)函數(shù)達(dá)到最小時(shí),有;當(dāng)n為偶數(shù)時(shí),區(qū)間中任何一個(gè)數(shù)都是該最小一乘問題的解,所以可取區(qū)間內(nèi)任何一個(gè)值。2) 當(dāng)=0時(shí),求。這時(shí),最小一乘估計(jì)就是利用使達(dá)到最小來求。顯然這時(shí)一個(gè)過原點(diǎn)的直線求斜率的問題。不妨設(shè),.令,把它們按由小到大的順序排列為.令Q=,則當(dāng)時(shí),有,所以有 (2.5)由此在與的線性關(guān)系中,直線的斜率為;當(dāng)時(shí),只有,其余都為負(fù)數(shù),于是有 (2.6)此時(shí)斜率為。顯然有并有: 當(dāng)分段直線的斜率由變到時(shí),則出
27、現(xiàn)以及相應(yīng)的的值,此則為該問題的最小一乘解。3) 一般情形的求解步驟1 任意給出初始p個(gè)數(shù)據(jù)點(diǎn);2 固定,在剩余個(gè)點(diǎn)中尋找使 ; 固定,在剩余個(gè)點(diǎn)中尋找使; 同理,可依次求得,且顯然有 3 若,有,則迭代結(jié)束,不然,重復(fù)步驟2繼續(xù)尋找下一組數(shù)據(jù)點(diǎn),并產(chǎn)生數(shù)據(jù)點(diǎn)組合序列以及相應(yīng)的殘差絕對(duì)值和序列。2.2.2計(jì)算機(jī)求解如今的計(jì)算機(jī)領(lǐng)域迅速發(fā)展,很多數(shù)學(xué)計(jì)算問題運(yùn)用計(jì)算機(jī)求解可以更快更準(zhǔn),尤其當(dāng)數(shù)據(jù)量很大時(shí),根本無法直接計(jì)算出來,計(jì)算機(jī)的作用就不可估量了。比如本文中研究的最小一乘估計(jì)幾百年前由于其計(jì)算復(fù)雜而擱置了其發(fā)展,在有計(jì)算機(jī)的今天計(jì)算問題早已不是問題,因而大多數(shù)人開始重新研究它。因此掌握常用軟
28、件的用法,在數(shù)學(xué)學(xué)習(xí)中具有巨大的作用。本文將主要簡(jiǎn)單介紹最小二乘估計(jì)和最小一乘估計(jì)各自的幾種軟件程序。1) 基于lingo的最小一乘估計(jì)程序事實(shí)上最小一乘估計(jì)可轉(zhuǎn)化為線性規(guī)劃求解:假設(shè)有這么一組樣本觀測(cè)值,其中。其中n為樣本容量。由最小一乘法得到的目標(biāo)函數(shù)為: (2.7)令。其中,表示非負(fù)變量,表示正負(fù)偏差量,滿足且。根據(jù)上述條件就可以寫出n個(gè)線性方程: 同時(shí),就轉(zhuǎn)化為。這樣就將最小一乘法轉(zhuǎn)化成了一個(gè)簡(jiǎn)單的線性規(guī)劃問題。Lingo是專門用于建立和求解整數(shù)、非線性和線性最優(yōu)化模型的工具軟件,其程序執(zhí)行速度很快,容易對(duì)數(shù)學(xué)規(guī)劃問題進(jìn)行輸入、修改、求解和分析。因而我們可以用lingo軟件來求解上述最
29、小一乘估計(jì)所轉(zhuǎn)化的線性規(guī)劃問題。具體的求解程序3如下:model:sets: !設(shè)置變量LAD/1.n/:x,y; !N為變量個(gè)數(shù)endsetsdata: !樣本數(shù)據(jù)x=x1 x2 x3 .xn;y=y1 y2 y3 .yn;enddatafree(a);free(b);min=sum(LAD:abs(a+b*x-y); !目標(biāo)函數(shù)end2) 基于MATLAB的最小一乘估計(jì)MATLAB是目前國(guó)際上用于通用數(shù)值計(jì)算的最強(qiáng)大的軟件,它提供了很多出色的工具箱幫助工程技術(shù)人員解決實(shí)際問題。由于MATLAB的應(yīng)用實(shí)在太廣泛,因此掌握MATLAB的程序編寫對(duì)數(shù)學(xué)研究有很大的幫助。事實(shí)上,用MATLAB求解
30、最小一乘估計(jì)也是將最小一乘估計(jì)化成線性規(guī)劃問題來求解。這里不再贅述,直接給出MATLAB的源代碼:Functionbeta L1 norm=ladregression(y,x)n=length(y);p=size(x,1);x=ones(n,1);f=zeros(2*(p+1),1);ones(2*n,1);b=y;A=x,-x,eye(n),-eye(n);lb=zeros(2*(n+p+1),1);x,fval=linprog(f, , ,A,b,lb);beta=x(1:p+1)-x(p+2:2*(p+1);L1norm=sum(abs(y-x*beta);if abs(fval-L1n
31、orm)>1e-6 optionsOptimset(MaxIter,10000,LargeScale,off,Simplex,on); x,fval=linprog(f, , ,A,b,lb, , ,options); beta=x(1:p+1)-x(p+2:2*(p+1);endL1norm=sum(abs(y-x*beta);2.3兩種方法的優(yōu)劣勢(shì)比較2.3.1奇異值的影響由上文闡述可知,實(shí)際上最小一乘估計(jì)的本質(zhì)是尋找因變量的條件中位數(shù),根據(jù)我們所知的中位數(shù)的統(tǒng)計(jì)性質(zhì),它是不受極端值影響的,由此可知最小一乘估計(jì)不會(huì)受極端值的影響。而最小二乘估計(jì)是構(gòu)造被解釋變量的條件均值函數(shù),同時(shí)均值
32、的統(tǒng)計(jì)性質(zhì)也不是很穩(wěn)定,很容易受極端值的影響,由此可知最小二乘估計(jì)易受極端值影響。舉個(gè)簡(jiǎn)單例子如下。例2:假設(shè)有已知樣本點(diǎn)如下表2:樣本點(diǎn)ABCDEFGHX13269572Y25378684根據(jù)樣本數(shù)據(jù),用最小一乘估計(jì)得出的樣本回歸直線為: 用最小二乘估計(jì)得出的樣本回歸直線為: 假設(shè)上述樣本點(diǎn)數(shù)據(jù)有一個(gè)奇異點(diǎn),如下:表3:樣本點(diǎn)ABCDEFGHX13269572Y253786810則用最小一乘估計(jì)得出的樣本回歸直線仍為: 而最小二乘估計(jì)得出的樣本回歸直線則變成:顯然奇異點(diǎn)對(duì)最小一乘估計(jì)幾乎沒什么影響,而對(duì)最小二乘估計(jì)的影響較大。并且,我們可以對(duì)表2估計(jì)結(jié)果進(jìn)行誤差分析:表4:樣本點(diǎn)XYL1估計(jì)
33、值L1誤差L2估計(jì)值L2誤差A(yù)12202.80.8B354-14.3-0.7C23303.50.5D67706.6-0.4E981028.90.9F56605.8-0.2G78807.4-0.6H243-13.5-0.5 從表中可知,最小一乘估計(jì)的殘差絕對(duì)值之和,而最小二乘估計(jì)的殘差絕對(duì)值之和大于最小一乘估計(jì)的,并且從表中我們可以看出大多數(shù)點(diǎn)都在最小一乘估計(jì)的回歸方程上,只有少數(shù)點(diǎn)偏離,而最小二乘估計(jì)得回歸方程幾乎不過任何一個(gè)點(diǎn)。由此也可以看出,當(dāng)數(shù)據(jù)量比較小時(shí),最小二乘估計(jì)的誤差較大。2.3.2數(shù)據(jù)對(duì)稱性的影響1 例3:當(dāng)Y關(guān)于X條件對(duì)稱時(shí),如下表所示:表5: 樣本點(diǎn)ABCDEFGHIX11
34、2233123Y263748456用最小二乘估計(jì)可得到回歸方程:Y=3+X用最小一乘估計(jì)可得到回歸方程:Y=3+X例4:若我們將例3中最后三個(gè)數(shù)字做以下調(diào)整,則此時(shí)Y不關(guān)于X條件對(duì)稱:表6:樣本點(diǎn)ABCDEFGHIX112233123Y263748101010此時(shí)我么用最小一乘估計(jì)得到回歸方程為: Y=5+X用最小二乘估計(jì)得到回歸方程為:Y=5.333+0.667X誤差分析:表7:樣本點(diǎn)ABCDEFGHI殘差1404040-4-3-2殘差2403.667-0.3333.334-0.666-4-3.333-2.666由以上得到的殘差我們可計(jì)算得兩個(gè)模型的平均絕對(duì)誤差為:F1=2.33 F2=2.
35、44由以上分析我們能看到,數(shù)據(jù)對(duì)稱性對(duì)最小一乘估計(jì)和最小二乘估計(jì)具有很明顯的影響,當(dāng)數(shù)據(jù)對(duì)稱時(shí),在一般的情況下最小二乘估計(jì)得到的回歸直線和最小一乘估計(jì)得到的回歸直線會(huì)是一樣的,這是由于Y關(guān)于X條件對(duì)稱時(shí),Y關(guān)于X的條件中位數(shù)和條件均值相等,由前面的分析我們可以知道最小一乘估計(jì)和最小二乘估計(jì)得到的回歸方程正好是條件中位數(shù)和條件均值,因而此時(shí)的到的回歸直線是同一條;當(dāng)數(shù)據(jù)不對(duì)稱時(shí),顯然此時(shí)條件中位數(shù)和條件均值不相等,因而最小二乘估計(jì)和最小一乘估計(jì)得到的回歸直線會(huì)不同,由上面的例證中的誤差分析我們可知道此時(shí)最小一乘估計(jì)要優(yōu)于最小二乘估計(jì)。由于本例中對(duì)稱性數(shù)據(jù)比較特殊,本文只做理論推導(dǎo),不進(jìn)行實(shí)證分析
36、。 3 實(shí)證分析(固定資產(chǎn)投資與地區(qū)生產(chǎn)總值的關(guān)系)3.1問題背景衡量國(guó)民經(jīng)濟(jì)的發(fā)展?fàn)顩r的一個(gè)最重要的指標(biāo)就是國(guó)內(nèi)生產(chǎn)總值(GDP,國(guó)家內(nèi)一個(gè)地區(qū)的該指標(biāo)稱為地區(qū)生產(chǎn)總值),它能很直接地反映出國(guó)民經(jīng)濟(jì)總量和它的內(nèi)部產(chǎn)業(yè)結(jié)構(gòu),覆蓋了整個(gè)國(guó)民經(jīng)濟(jì)的所有部門和環(huán)節(jié),是把握國(guó)民經(jīng)濟(jì)整體運(yùn)行情況的最基本指標(biāo)。我們經(jīng)常聽到“消費(fèi),投資和出口就是驅(qū)動(dòng)經(jīng)濟(jì)增長(zhǎng)的三駕馬車”,這中間的投資常常理解為固定資產(chǎn)投資。固定資本形成總額是用來增加固定資產(chǎn)的投資支出的金額,表現(xiàn)為各單位當(dāng)期的獲得(包括建造、轉(zhuǎn)入、購(gòu)置)的固定資產(chǎn)扣除處置(出售,轉(zhuǎn)讓)固定資產(chǎn)后的凈值。固定資產(chǎn)投資只是固定資本形成的一部分。根據(jù)現(xiàn)有的統(tǒng)計(jì)的基
37、礎(chǔ)上,具體的計(jì)算方法是:在整個(gè)社會(huì)固定資產(chǎn)投資的統(tǒng)計(jì)的基礎(chǔ)上,排除不形成固定資產(chǎn)的費(fèi)用支出,再加上與固定資本形成有關(guān)的其他項(xiàng)目的成本。毫無疑問的是,在拉動(dòng)經(jīng)濟(jì)的三駕馬車消費(fèi)、投資、出口中,投資是最直接,最有效的方法,這是因?yàn)橥顿Y四萬億元使得中國(guó)逐步走出全球金融危機(jī)的陰影,經(jīng)濟(jì)逐漸回暖,這是對(duì)一個(gè)國(guó)家來說的好處。具體到一個(gè)小的地區(qū),一個(gè)城市和縣,其作用也是非常明顯的,但不是我們想象的那樣直接。雖然固定資產(chǎn)投資不能直接計(jì)入GDP,但其對(duì)區(qū)域經(jīng)濟(jì)發(fā)展的拉動(dòng)作用會(huì)通過相關(guān)產(chǎn)業(yè)的發(fā)展體現(xiàn)出來。一般情況下,主要表現(xiàn)在以下幾個(gè)方面:一是直接驅(qū)動(dòng)和投資相關(guān)度較高的行業(yè),如工程機(jī)械,建材,電器和機(jī)械設(shè)備制造業(yè)的
38、發(fā)展;二是推動(dòng)建筑安裝工程,房地產(chǎn)業(yè)的發(fā)展;三是企業(yè)通過改造、更新來實(shí)現(xiàn)擴(kuò)大再生產(chǎn);四是該地區(qū)通過基本建設(shè)來完善投資環(huán)境,以推動(dòng)經(jīng)濟(jì)增長(zhǎng)。其中,對(duì)建筑行業(yè)的貢獻(xiàn)是比較明顯的。對(duì)固定資產(chǎn)投資的地區(qū)分布的分析,對(duì)行業(yè)發(fā)展的貢獻(xiàn)可以判斷一個(gè)總的趨勢(shì),但很難有特定數(shù)目的衡量。 江蘇省是中國(guó)的經(jīng)濟(jì)大省之一,經(jīng)濟(jì)在整個(gè)中國(guó)一直處于領(lǐng)頭羊的地位,對(duì)江蘇經(jīng)濟(jì)的增長(zhǎng)原因的研究對(duì)推進(jìn)國(guó)家經(jīng)濟(jì)發(fā)展有重要意義。本文將通過對(duì)江蘇省固定資產(chǎn)投資及地區(qū)生產(chǎn)總值的數(shù)據(jù)分別用最小一乘估計(jì)和最小二乘估計(jì)來擬合一元線性回歸模型,比較奇異值在本例中對(duì)最小一乘估計(jì)和最小二乘估計(jì)的影響,同時(shí)分析江蘇省固定資產(chǎn)投資對(duì)江蘇省經(jīng)濟(jì)的拉動(dòng)作用,
39、并給出如何通過調(diào)節(jié)固定資產(chǎn)投資來發(fā)展經(jīng)濟(jì)的政策性建議。3.2地區(qū)生產(chǎn)總值關(guān)于固定資產(chǎn)投資的模型以下是江蘇省1978年2012年固定資產(chǎn)投資和江蘇省國(guó)民生產(chǎn)總值的相關(guān)數(shù)據(jù),本案例數(shù)據(jù)來源于江蘇省統(tǒng)計(jì)年鑒。表8:年份固定資產(chǎn)投資地區(qū)生產(chǎn)總值年份固定資產(chǎn)投資地區(qū)生產(chǎn)總值197821.75566.8519961949.5320304.53197926.75661.2619972203.0922314.78198034.73750.1219982535.523433.26198160.5816.2719992742.6524578.4198276.21897.8520002995.4327034.819
40、83105.271014.5520013302.9629832.611984130.981239.4420023849.2432550.331985191.931642.720035335.838729.251986241.231960.4420046827.5946972.131987317.122472.2220058739.7156754.261988371.873409.56200610071.4267730.811989320.233839.67200712268.0783861.751990356.34208.23200815060.4599579.131991439.984820
41、.22200918949.88107849.21992711.76862.87201023184.28127976.4319931144.210245.27201126314.66157421.1319941331.1314163.89201231706.58170950.2819951680.1717699.96由此表格,我們可以得到地區(qū)生產(chǎn)總值(GDP)和固定資產(chǎn)投資(IFA)關(guān)于時(shí)間的變化趨勢(shì): 圖(6)從圖中我們可以看到兩個(gè)序列都呈指數(shù)形式增長(zhǎng),并且增長(zhǎng)趨勢(shì)大體一致,因此為了能利用線性模型擬合回歸模型,需要對(duì)IFA和GDP兩個(gè)序列進(jìn)行對(duì)數(shù)化處理,這樣一方面可以消除這種指數(shù)增長(zhǎng)趨勢(shì),方便
42、用線性模型擬合曲線,另一方面可以減輕模型擬合殘差的異方差問題。進(jìn)行對(duì)數(shù)化處理后可得到:表9:年份固定資產(chǎn)投資地區(qū)生產(chǎn)總值年份固定資產(chǎn)投資地區(qū)生產(chǎn)總值19783.0796137586.34009471819967.5753435979.91859929319793.2865344736.49414710619977.69761619910.0130045219803.5476038676.62023319419987.83814613510.0619116619814.1026433656.70474518319997.91667988510.1096232919824.3334926886.8
43、0000301620008.00484307310.204880219834.6565284786.92220044320018.10257431510.3033573719844.875044647.12241494420028.25563100510.3905427919855.2571307227.40409650920038.58219410610.5643504119865.4857508357.58092421720048.82872703510.7573097319875.7592802517.81287181120059.07563228710.94648619885.9185
44、443318.1343385320069.21745698911.1232964519895.7690394888.25314170420079.41475523111.3369248919905.8757730738.34479741120089.61982738111.5087078819916.0867292718.48057484920099.84955287811.5884892319926.5676564748.833881001201010.0512297411.7596013919937.0424609829.234571415201110.1778814811.9666798
45、519947.1937834859.558451047201210.3642795112.0491280319957.4266502589.781317659根據(jù)表格我們可以得到GDP和IFA的散點(diǎn)圖為: 圖(7)時(shí)序圖為: 圖(8) 從圖中我們可以看出GDP明顯隨著IFA呈線性增長(zhǎng)。此時(shí)可以進(jìn)行線性回歸模型建立。由以上分析,對(duì)固定資產(chǎn)投資和地區(qū)生產(chǎn)總值建立總體回歸模型如下: (3.1) 同時(shí),從以上圖表中我們也可看出1988年的數(shù)據(jù)明顯為奇異點(diǎn)。接下來我們將分別用最小一乘估計(jì)和最小二乘估計(jì)對(duì)含有奇異點(diǎn)和不含奇異點(diǎn)的數(shù)據(jù)進(jìn)行回歸分析,比較奇異點(diǎn)對(duì)最小一乘法和最小二乘法的影響。 3.3整體回歸分
46、析3.3.1含奇異點(diǎn)的兩種模型 1) 基于最小二乘估計(jì)的模型用EVIEWS進(jìn)行最小二乘估計(jì)得到圖(9)由此得到固定資產(chǎn)投資和地區(qū)生產(chǎn)總值基于最小二乘估計(jì)的模型1 從回歸結(jié)果來看,殘差平方和為1.343169,說明具有較高的精度;樣本決定系數(shù)和調(diào)整后的樣本決定系數(shù)都接近1,表明模型的擬合效果非常好;F檢驗(yàn)的相伴概率為0.000000,反映變量間呈高度線性,回歸方程顯著;系數(shù)的t檢驗(yàn)的相伴概率都為0.00000,說明解釋變量的系數(shù)值在統(tǒng)計(jì)上是高度顯著地,也就是說它顯著不為零,即固定資產(chǎn)投資是GDP的重要影響因素;D.W=0.288,對(duì)于n=35,k=1時(shí)查表D.W檢驗(yàn)的1%臨界值為,因?yàn)?表明殘差
47、序列存在自相關(guān),在處理時(shí)間序列數(shù)據(jù)時(shí),殘差序列的自相關(guān)可能導(dǎo)致偽相關(guān),即可能解釋變量和被解釋變量不存在相關(guān)關(guān)系,但假設(shè)檢驗(yàn)檢驗(yàn)出來卻存在相關(guān)關(guān)系,此時(shí)我們可以用廣義差分法或廣義最小二乘法對(duì)數(shù)據(jù)進(jìn)行處理,但本例中我們由實(shí)際情況已經(jīng)知道固定資產(chǎn)投資和地區(qū)生產(chǎn)總值存在相關(guān)關(guān)系,因此不會(huì)出現(xiàn)偽相關(guān)現(xiàn)象,因而本例不再對(duì)殘差序列進(jìn)行處理。2) 基于最小一乘估計(jì)的模型 用LINGO進(jìn)行最小一乘估計(jì)得到圖(10)此時(shí)得到固定資產(chǎn)投資和地區(qū)生產(chǎn)總值基于最小一乘估計(jì)的模型2從結(jié)果中我們可以看到經(jīng)過72次迭代,得到參數(shù)的估計(jì)值,此時(shí)目標(biāo)函數(shù)即殘差的絕對(duì)值之和最小為5.173501,該模型的不可行性是,即該模型是可行的。3.3.2不含奇異點(diǎn)的兩種模型假設(shè)1988年的GDP值正常,不妨用預(yù)測(cè)值代替原值進(jìn)行計(jì)算。分析如下: 1) 基于最小二乘估計(jì)的模型 用EVIEWS進(jìn)行最小二乘估計(jì)得到: 圖(11)即不含奇異點(diǎn)時(shí)固定資產(chǎn)投資和地區(qū)生產(chǎn)總值基于最小二乘估計(jì)的模型3 2) 基于最小一乘估計(jì)的模型 用LINGO進(jìn)行最小一乘估計(jì)得到圖(12)即沒有奇異點(diǎn)時(shí)固定資產(chǎn)投資和地方生產(chǎn)總值基于最小一乘估計(jì)的模型43.3.3誤差分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 鄉(xiāng)村文化建設(shè)推廣方案
- 素描基本功訓(xùn)練與設(shè)計(jì)理論學(xué)習(xí)指南
- 排污管網(wǎng)施工合同
- 金融產(chǎn)品營(yíng)銷與代理合作協(xié)議
- 線上線下營(yíng)銷效果對(duì)比表
- 派遣人員勞動(dòng)合同
- 在線教育平臺(tái)開發(fā)合同
- 移動(dòng)支付業(yè)務(wù)推廣合作協(xié)議
- 工程熱力學(xué)基本原理與運(yùn)用練習(xí)題
- 共享住宅小區(qū)物業(yè)服務(wù)合同
- 2024年度網(wǎng)易游戲開發(fā)與發(fā)行合同6篇
- 2025屆高考語文復(fù)習(xí):文言文閱讀方法指導(dǎo)+課件
- 溫州市第五屆職業(yè)技能大賽砌筑工項(xiàng)目比賽技術(shù)文件
- 圖解自然資源部《自然資源領(lǐng)域數(shù)據(jù)安全管理辦法》
- 2023-2024學(xué)年廣東省廣州市天河區(qū)七年級(jí)(上)期末英語試卷
- 外墻安全隱患排查與整改方案
- 2024落實(shí)意識(shí)形態(tài)責(zé)任清單及風(fēng)險(xiǎn)點(diǎn)臺(tái)賬
- 購(gòu)油聯(lián)營(yíng)協(xié)議合同模板
- 2024北京海淀區(qū)初三一模物理試題及參考答案
- 江蘇社會(huì)單位消防安全管理系統(tǒng)
- 建設(shè)2臺(tái)66000KVA全封閉低碳硅錳礦熱爐項(xiàng)目竣工環(huán)保驗(yàn)收監(jiān)測(cè)調(diào)查報(bào)告
評(píng)論
0/150
提交評(píng)論