版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第八章成對數(shù)據(jù)的統(tǒng)計分析8.2一元線性回歸模型參數(shù)的最小二乘法估計學(xué)習(xí)目標主題一主題二精講精練課堂練習(xí)授課過程課堂小結(jié)1.結(jié)合具體實例,了解一元線性回歸模型的含義,了解模型參數(shù)的統(tǒng)計意義,了解最小二乘原理,掌握一元線性回歸模型參數(shù)的最小二乘估計方法,會使用相關(guān)的統(tǒng)計軟件.2.針對實際問題,會用一元線性回歸模型進行預(yù)測.學(xué)習(xí)目標:主題1
一元線性回歸模型基礎(chǔ)預(yù)習(xí)初探
生活經(jīng)驗告訴我們,兒子的身高與父親的身高不僅線性相關(guān),而且還是正相關(guān),即父親的身高較高時,兒子的身高通常也較高.為了進一步研究兩者之間的關(guān)系,有人調(diào)查了14名男大學(xué)生的身高及其父親的身高,得到的數(shù)據(jù)如表所示(身高單位cm).編號1234567891011121314父親身高174170173169182172180172168166182173164180兒子身高176176170170185176178174170168178172165182利用前面表示數(shù)據(jù)的方法,以橫軸表示父親身高、縱軸表示兒子身高建立直角坐標系,再將表中的成對樣本數(shù)據(jù)表示為散點圖.可以發(fā)現(xiàn),散點大致分布在一條從左下角到右上角的直線附近,表明兒子身高和父親身高線性相關(guān).
利用統(tǒng)計軟件,求得樣本相關(guān)系數(shù)為r≈0.886,表明兒子身高和父親身高正線性相關(guān),且相關(guān)程度較高.
思考?根據(jù)表中的數(shù)據(jù),兒子身高和父親身高這兩個變量之間的關(guān)系可以用函數(shù)模型刻畫嗎?
在上表的數(shù)據(jù)中,存在父親身高相同而兒子身高不同的情況.例如,第6個和第8個觀測父親的身高均為172cm,而對應(yīng)的兒子的身高為176cm和174cm;同樣在第3,4個觀測中,兒子的身高都是170cm,而父親的身高分別為173cm,169cm.可見兒子的身高和父親身高之間不是函數(shù)關(guān)系,也就不能用函數(shù)模型刻畫.編號1234567891011121314父親身高174170173169182172180172168166182173164180兒子身高176176170170185176178174170168178172165182散點圖中的散點大致分布在一條直線附近,表明兒子身高和父親身高這兩個變量之間有較強的線性相關(guān)關(guān)系,因此我們可以用一次函數(shù)來刻畫父親身高對兒子身高的影響,而把影響兒子身高的其他因素,如母親身高、生活環(huán)境、飲食習(xí)慣等作為隨機誤差,得到刻畫兩個變量之間關(guān)系的線性回歸模型.其中,隨機誤差是一個隨機變量.用x表示父親身高,Y表示兒子身高,e表示隨機誤差,假定隨機誤差e的均值為0,方差為與父親身高無關(guān)的定值σ2,則它們之間的關(guān)系可以表示為我們稱(1)式為Y關(guān)于x的一元線性回歸模型.(1)用x表示父親身高,Y表示兒子身高,e表示隨機誤差,則它們之間的關(guān)系可以表示為我們稱(1)式為Y關(guān)于x的一元線性回歸模型.(1)其中,Y稱為因變量或響應(yīng)變量,x稱為自變量或解釋變量;a和b為模型的未知參數(shù),a稱為截距參數(shù),b稱為斜率參數(shù);e是Y與bx+a之間的隨機誤差.模型中的Y也是隨機變量,其值雖然不能由變量x的值確定,但是卻能表示為bx+a與e的和(疊加),前一部分由x所確定,后一部分是隨機的.如果e=0,那么Y與x之間的關(guān)系就可用一元線性函數(shù)模型來描述.
思考?
為什么要假設(shè)E(e)=0,而不假設(shè)其為某個不為0的常數(shù)?因為誤差是隨機的,即取各種正負誤差的可能性一樣,所以它們均值的理想狀態(tài)應(yīng)該為0.如果隨機誤差是一個不為0的常數(shù)α,則可以將α合并到截距項a中,否則模型無法確定,即參數(shù)沒有唯一解.另外,如果α不為0,則表示存在系統(tǒng)誤差,在實際建模中也不希望模型有系統(tǒng)誤差,即模型不存在非隨機誤差.(1)
對于父親身高x和兒子身高Y的一元線性回歸模型(1),可以解釋為父親身高為xi的所有男大學(xué)生身高組成一個子總體,該子總體的均值為bxi+a,即該子總體的均值與父親的身高是線性函數(shù)關(guān)系.而對于父親身高為xi的某一名男大學(xué)生,他的身高yi并不一定為bxi+a,它僅是該子總體的一個觀測值,這個觀測值與均值有一個誤差項ei=yi-(bxi+a).思考?你能結(jié)合具體實例解釋產(chǎn)生模型(1)中隨機誤差項的原因嗎?在研究兒子身高與父親身高的關(guān)系時,產(chǎn)生隨機誤差e的原因有:(1)除父親身高外,其他可能影響兒子身高的因素,比如母親身高、生活環(huán)境、飲食習(xí)慣和鍛煉時間等;(2)在測量兒子身高時,由于測量工具、測量精度所產(chǎn)生的測量誤差;(3)實際問題中,我們不知道兒子身高和父親身高的相關(guān)關(guān)系是什么,可以利用一元線性回歸模型來近似這種關(guān)系,這種近似也是產(chǎn)生隨機誤差e的原因.1.說明函數(shù)模型與回歸模型的區(qū)別,并分別舉出兩個應(yīng)用函數(shù)模型與回歸模型的例子。
解析:函數(shù)模型刻畫的是變量之間具有的函數(shù)關(guān)系,是一種確定性的關(guān)系.回歸模型刻畫的是變量之間具有的相關(guān)關(guān)系,不是一種確定性關(guān)系,即回歸模型刻畫的是兩個變量之間的隨機關(guān)系.
舉例:路程與速度的關(guān)系、正方體體積與邊長的關(guān)系可以應(yīng)用函數(shù)模型刻畫,體重與身高的關(guān)系、冷飲銷量與氣溫的關(guān)系可以用回歸模型刻畫。精講精練:2.在一元線性回歸模型(1)中,參數(shù)b的含義是什么?
解:在一元線性回歸模型(1)中,參數(shù)b為斜率參數(shù),參數(shù)b的含義是父親的身高每增加1cm,兒子的身高平均增加bcm.(1)3.將圖中的點按父親身高的大小次序用折線連起來,所得到的圖像是一個折線圖,可以用這條折線圖表示兒子身高和父親身高之間的關(guān)系嗎?
解析:不能.一是父親的身高與兒子的身高之間是隨機關(guān)系,不是函數(shù)關(guān)系;二是這組數(shù)據(jù)僅是總體的一個樣本,不一定能很好地描述兩個變量之間的關(guān)系.有的同學(xué)可能會想,可以采用測量的方法,先畫出一條直線,測量出各點到直線的距離,然后移動直線,到達一個使距離的和最小的位置.測量出此時的斜率和截距,就得到一條直線.主題2
參數(shù)的最小二乘法估計基礎(chǔ)預(yù)習(xí)初探有的同學(xué)可能會想,可以在散點圖中選則這樣的兩點畫一條直線,使得直線兩側(cè)點的個數(shù)基本相同,把這條直線作為所求直線.如圖所示.還有的同學(xué)會想,在散點圖中多取幾對點,確定出幾條直線的方程,再分別求出這些直線的斜率、截距的平均數(shù),將這兩個平均數(shù)作為所求直線的斜率和截距.如圖.同學(xué)們不妨去實踐一下,看看這些方法是不是真的可行.上面這些方法雖然有一定的道理,但比較難操作,我們需要另辟蹊徑.先進一步明確我們面臨的任務(wù):從成對樣本數(shù)據(jù)出發(fā),用數(shù)學(xué)的方法刻畫“從整體上看,各散點與直線最接近”.
通常,我們會想到利用點到直線y=bx+a的“距離”來刻畫散點與該直線的接近程度,然后用所有“距離”之和刻畫所有樣本觀測數(shù)據(jù)與該直線的接近程度.我們設(shè)滿足一元線性回歸模型的兩個變量的n對樣本數(shù)據(jù)為(x1,y1),(x2,y2),…,(xn
,yn),由yi=bxi+a+ei(i=1,2,…,n),得|yi?(bxi+a)|=|ei|.由yi=bxi+a+ei(i=1,2,…,n),得|yi?(bxi+a)|=|ei|.顯然|ei|越小,表示點(xi,yi)與點(xi,bxi+a)的“距離”越小,即樣本數(shù)據(jù)點離直線y=bx+a的豎直距離越小,如圖所示.特別地,當ei=0時,表示點(xi,yi)在這條直線上.來刻畫各樣本觀測數(shù)據(jù)與直線y=bx+a的“整體接近程度”.
因此可以用這n個豎直距離之和在實際應(yīng)用中,因為絕對值使得計算不方便,所以人們通常用各散點到直線的豎直距離的平方之和刻畫“整體接近程度”.
在上式中,xi,yi
(i=1,2,…,n)是已知的成對樣本數(shù)據(jù),所以Q由a和b所決定,即它是a和b的函數(shù).這個和當然越小越好.
所以我們?nèi)∈筈達到最小的a和b值,作為截距a和斜率b的估計值.Q越小越好.
下面利用成對樣本數(shù)據(jù)求使Q取最小值的a和b.
上式是關(guān)于b的二次函數(shù),因此要使Q取得最小值,當且僅當b的取值為
時,Q達到最小.綜上,當a,b的取值為
我們將
稱為Y關(guān)于x的經(jīng)驗回歸方程,也稱經(jīng)驗回歸函數(shù)或經(jīng)驗回歸公式,其圖形稱為經(jīng)驗回歸直線,這種求經(jīng)驗回歸方程的方法叫最小二乘法.
相應(yīng)的經(jīng)驗回歸直線如圖所示.
顯然不一定,因為還有其他影響兒子身高的因素,父親的身高不能完全決定兒子的身高.不過,我們可以作出推測,當父親的身高為176cm時,兒子身高一般在177cm左右.實際上,如果把這所學(xué)校父親身高為176cm的所有兒子身高作為一個子總體,那么177cm是這個子總體均值的估計值.
分析模型可以發(fā)現(xiàn),高個子父親有生高個子兒子的趨勢,但一群高個子父親的兒子們的平均身高要低于父親們的平均身高,例如
矮個子父親有生矮個子兒子的趨勢,但一群矮個子父親的兒子們的平均身高要高于父親們的平均身高,例如
根據(jù)模型,父親身高為多少時,長大成人的兒子的平均身高與父親身高一樣?你怎么看這個判斷?
例如,對于前表中的第6個觀測,父親身高為172cm,其兒子身高的觀測值為y6=176cm,預(yù)測值
類似地,可以得到其他殘差,如下表所示殘差是隨機誤差的估計結(jié)果,通過對殘差的分析可判斷模型刻畫數(shù)據(jù)的效果,以及判斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù)等,這方面的工作稱為殘差分析.編號父親身高/cm兒子身高觀測值/cm兒子身高預(yù)測值/cm殘差/cm1174176174.9431.0572170176171.5874.4133173170174.104?4.1044169170170.748?0.7485182185181.6553.3456172176173.2562.7357180178179.977?1.9778172174173.2560.7359168170169.9090.09110166168168.231?0.23111182178181.655?3.65512173172174.104?2.10413164165166.553?1.55314180182179.9772.023為了使數(shù)更加直觀,用父親身高作為橫坐標,殘差作為縱坐標,可以畫出殘差圖,如下圖所示.觀察殘差表可以看到,殘差有正有負,殘差的絕對值最大是4.413.觀察殘差的散點圖可以發(fā)現(xiàn),殘差比較均勻地分布在橫軸的兩邊,說明殘差比較符合一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 西京學(xué)院《微機原理與接口技術(shù)》2022-2023學(xué)年期末試卷
- 西南林業(yè)大學(xué)《地理信息系統(tǒng)原理與應(yīng)用》2022-2023學(xué)年第一學(xué)期期末試卷
- 從事專業(yè)與所學(xué)專業(yè)不一致專業(yè)技術(shù)人員申報職稱崗位任職合格證明附件6
- 西京學(xué)院《電機學(xué)實驗》2021-2022學(xué)年期末試卷
- 西華師范大學(xué)《中學(xué)思想政治學(xué)科教學(xué)論》2021-2022學(xué)年第一學(xué)期期末試卷
- 西華師范大學(xué)《音樂作品分析與寫作》2023-2024學(xué)年第一學(xué)期期末試卷
- 西華師范大學(xué)《文藝作品演播》2022-2023學(xué)年第一學(xué)期期末試卷
- 2024-2025學(xué)年高中物理舉一反三系列專題4.1 普朗克黑體輻射理論(含答案)
- 房地產(chǎn)金融與投資概論教學(xué)課件第二章房地產(chǎn)抵押貸款
- 匆匆 朱自清課件
- 醫(yī)療廢物流失泄漏應(yīng)急處理流程圖
- 長方形、正方形的面積和周長復(fù)習(xí)課件
- WI-QA-02-034A0 燈具成品檢驗標準
- 農(nóng)業(yè)信息技術(shù) chapter5 地理信息系統(tǒng)
- 信號與系統(tǒng)(第十章Z-變換)
- 部編版六年級上語文閱讀技巧及解答
- 斯派克max操作手冊
- 項目四 三人表決器ppt課件
- 結(jié)合子的機械加工工藝規(guī)程及銑槽的夾具設(shè)計
- 林武樟 完整陽宅講義 筆記版[方案]
- 《會滾的汽車》ppt課件
評論
0/150
提交評論