方差分析及回歸分析課件_第1頁(yè)
方差分析及回歸分析課件_第2頁(yè)
方差分析及回歸分析課件_第3頁(yè)
方差分析及回歸分析課件_第4頁(yè)
方差分析及回歸分析課件_第5頁(yè)
已閱讀5頁(yè),還剩145頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第九章方差分析及回歸分析

(續(xù))1第九章方差分析及回歸分析(續(xù))1一般地,對(duì)一個(gè)單因素試驗(yàn),假設(shè)因子有s個(gè)水平,n個(gè)對(duì)象參與了試驗(yàn)。假定對(duì)應(yīng)于因子第j個(gè)水平的組中有個(gè)試驗(yàn)對(duì)象,響應(yīng)變量數(shù)據(jù)為通常假定2一般地,對(duì)一個(gè)單因素試驗(yàn),假設(shè)因子有s個(gè)水平,n個(gè)對(duì)象參與了檢驗(yàn)假設(shè)假設(shè)等價(jià)于3檢驗(yàn)假設(shè)假設(shè)等價(jià)于3方差來源平方和自由度均方F比因素As-1誤差n-s總和n-1單因素試驗(yàn)方差分析表4方差來源平方和自由度均方F比因素As-1誤差n-s總和n-1例1設(shè)有5種治療蕁麻疹的藥,要比較它們的療效。假設(shè)將30個(gè)病人分成5組,每組6人,令同組病人使用一種藥,并記錄病人從使用藥物開始到痊愈所需時(shí)間,得到下面的記錄:(=0.05)藥物x治愈所需天數(shù)y15,8,7,7,10,824,6,6,3,5,636,4,4,5,4,347,4,6,6,3,559,3,5,7,7,65例1設(shè)有5種治療蕁麻疹的藥,要比較它們的療效。假設(shè)將30這里藥物是因子,共有5個(gè)水平,這是一個(gè)單因子方差分析問題,要檢驗(yàn)的假設(shè)是“所有藥物的效果都沒有差別”。

6這里藥物是因子,共有5個(gè)水平,這是一個(gè)單因子方差分析問題,要方差分析表方差來源平方和自由度均方F比因素A36.466749.11673.90誤差58.5000252.3334總和94.9667297方方差來源平方和自由度均方F比因素A36.466749.11未知參數(shù)的估計(jì)8未知參數(shù)的估計(jì)899§3一元線性回歸分析

確定性關(guān)系:當(dāng)自變量給定一個(gè)值時(shí),就確定應(yīng)變量的值與之對(duì)應(yīng)。如:在自由落體中,物體下落的高度h與下落時(shí)間t之間有函數(shù)關(guān)系:

變量與變量之間的關(guān)系

10§3一元線性回歸分析確定性關(guān)系:變量與變量之間的關(guān)系1例1:人的體重y與身高x之間存在著一定的關(guān)系。一般來說,身高越高則體重也越重,但高度相同的人,體重不一定完全相同.例3:消費(fèi)y

和收入x是有關(guān)的,一般來說,收入高的人消費(fèi)也相對(duì)比較高。但同樣收入的人,消費(fèi)不會(huì)完全相同.

例2:人的腳掌的長(zhǎng)度x與身高y兩者也有一定聯(lián)系,通常腳掌長(zhǎng)的人身高也較高,但同樣腳掌長(zhǎng)度的人身高并不完全相同.

相關(guān)關(guān)系:

11例1:人的體重y與身高x之間存在著一定的關(guān)系。一般來說,身高這種變量之間既有關(guān)聯(lián)但又不存在確定性數(shù)值對(duì)應(yīng)的相互關(guān)系,稱為相關(guān)關(guān)系。

相關(guān)關(guān)系可以歸結(jié)為兩點(diǎn):一是變量之間存在著關(guān)系;二是這種關(guān)系又是非確定的,或者說只存在統(tǒng)計(jì)規(guī)律性?;貧w分析——研究相關(guān)關(guān)系的最基本,應(yīng)用最廣泛的方法。12這種變量之間既有關(guān)聯(lián)但又不存在確定性數(shù)值對(duì)應(yīng)的相互關(guān)系,稱為(一)一元線性回歸現(xiàn)在,我們需要研究?jī)勺兞縳和Y之間的相關(guān)關(guān)系。這里,x(自變量)通常是可以控制和可以測(cè)量的“普通”變量,Y(響應(yīng)變量)的值不能根據(jù)x的值完全確定,而遵循一定的分布而取值,是隨依賴于x的一個(gè)隨機(jī)變量。13(一)一元線性回歸現(xiàn)在,我們需要研究?jī)勺兞縳和Y之間的相當(dāng)自變量取確定的x時(shí),若隨機(jī)變量Y的期望E(Y)存在,其值與x有關(guān),記為.回歸問題的本質(zhì)是研究,以此來反映Y與X之間的關(guān)系,而不是研究Y與X之間的直接關(guān)系,這一點(diǎn)應(yīng)嚴(yán)加區(qū)別。14當(dāng)自變量取確定的x時(shí),若隨機(jī)變量Y的期望E(Y)存在,其值在實(shí)際問題中,回歸函數(shù)μ(x)一般是未知的,需要根據(jù)試驗(yàn)數(shù)據(jù)去估計(jì)。由此來推斷μ(x),這樣的問題稱為Y關(guān)于x的回歸問題.15在實(shí)際問題中,回歸函數(shù)μ(x)一般是未知的,需要由此來推斷μ1616描述兩個(gè)定量變量間關(guān)系的一個(gè)最直觀的方法是繪制兩變量的散點(diǎn)圖。散點(diǎn)圖包括橫軸和縱軸。橫軸(x軸)代表一個(gè)變量,縱軸(y軸)代表另一個(gè)變量。圖中的點(diǎn)表示兩個(gè)變量的一對(duì)觀測(cè)值。

散點(diǎn)圖

17描述兩個(gè)定量變量間關(guān)系的一個(gè)最直觀1818為了解釋散點(diǎn)圖,首先要看它的整體輪廓。它的輪廓可以反映出兩個(gè)變量間關(guān)系的方向、線性關(guān)系和關(guān)系的強(qiáng)弱。散點(diǎn)圖的最大優(yōu)點(diǎn)是它沒有丟失任何數(shù)據(jù)信息并簡(jiǎn)化了數(shù)據(jù),并且易于制作和解釋。19為了解釋散點(diǎn)圖,首先要看它的整體輪廓。它的輪廓可以反映出兩個(gè)正相關(guān)、負(fù)相關(guān)關(guān)系:若兩個(gè)變量的變化趨向相一致,則稱兩個(gè)變量是正相關(guān);若一個(gè)變量有向上的趨向,而另一個(gè)變量有向下的趨向,則稱這兩個(gè)變量呈負(fù)相關(guān)。20正相關(guān)、負(fù)相關(guān)關(guān)系:20用散點(diǎn)圖可顯示兩個(gè)定量變量間關(guān)系的方向、線性關(guān)系以及關(guān)系的強(qiáng)弱程度。如果散點(diǎn)圖中的點(diǎn)都在一條直線的附近,則稱變量間呈強(qiáng)線性關(guān)系;若點(diǎn)較為分散的落在一條直線周圍,則稱變量間呈弱線性關(guān)系散點(diǎn)圖有助于粗略了解這兩個(gè)變量之間的關(guān)系。若此關(guān)系近似是線性關(guān)系,則稱此問題為一元線性回歸問題。21用散點(diǎn)圖可顯示兩個(gè)定量變量間關(guān)系的方向——一元線性回歸模型22——一元線性回歸模型222323一元線性回歸要解決的問題:24一元線性回歸要解決的問題:24(二)求回歸函數(shù)的估計(jì),即求a,b的估計(jì)現(xiàn)在的問題是:選擇一條直線y=a+bx去擬合n個(gè)樣本點(diǎn)。即求a,b,使得y=a+bx最接近于所給出的n個(gè)數(shù)據(jù)對(duì)。

采用最小二乘法25(二)求回歸函數(shù)的估計(jì),即求a,b的估計(jì)現(xiàn)在的問題是:采用2626——稱之為正規(guī)方程組27——稱之為正規(guī)方程組27正規(guī)方程組的矩陣形式28正規(guī)方程組的矩陣形式28正規(guī)方程系數(shù)行列式29正規(guī)方程系數(shù)行列式29在誤差為正態(tài)分布假定下,最小二乘估計(jì)等價(jià)于極大似然估計(jì)。事實(shí)上,似然函數(shù)30在誤差為正態(tài)分布假定下,最小二乘估計(jì)等價(jià)于極大似然估計(jì)。事313132323333例2K.Pearson收集了大量父親身高與兒子身高的資料。其中十對(duì)如下:父親身高x(吋)60626465666768707274兒子身高y(吋)63.665.26665.566.967.167.468.370.170求Y關(guān)于x的線性回歸方程。34例2K.Pearson收集了大量父親身高與兒子606263535備注:“回歸一詞”是英國(guó)統(tǒng)計(jì)學(xué)家F.Galton在1886年研究遺傳現(xiàn)象時(shí)引進(jìn)的。他和他的學(xué)生――英國(guó)著名統(tǒng)計(jì)學(xué)K.Pearson研究了兒子身高y與父母親平均身高x之間的關(guān)系。他們收集了1078對(duì)夫婦與兒子(每對(duì)夫婦只取一個(gè)成年兒子)的身高數(shù)據(jù),并用一條直線描述y與x之間的關(guān)系:人們通常的看法是,雙親的身體高,其子身體也高;父母親的身高偏矮,兒子的身高也偏矮。但Galton的研究發(fā)現(xiàn),如果雙親平均身高屬高個(gè)類(高于1078對(duì)夫婦平均身高),其子比他們更高的概率就比較小,即兒子以較大的概率比雙親個(gè)子矮;反過來,如果雙親平均身高屬矮個(gè)類,兒子則以較大的概率比雙親個(gè)子高。所以平均身高偏高或偏矮的夫婦,其子的身高都有“向中心(父母輩的平均身高)回歸”的現(xiàn)象?;谶@一事實(shí),Galton把他們所求出的描述兒子身高與雙親身高關(guān)系的直線叫做回歸直線。雖然“回歸”這一現(xiàn)象并沒有普遍性,但人們習(xí)慣上一直沿用這個(gè)術(shù)語(yǔ)。

36備注:“回歸一詞”是英國(guó)統(tǒng)計(jì)學(xué)家F.Galton在1886(三)誤差方差的估計(jì)誤差方差估計(jì)的意義:誤差方差的大小對(duì)模型的好壞有很大的影響。自變量對(duì)因變量影響的大小是同誤差對(duì)因變量的影響相比較的。(c)如果自變量對(duì)因變量的影響不能顯著的超過誤差對(duì)因變量的影響,就很難從這樣的模型中提煉出有效的、有足夠精度的信息。

37(三)誤差方差的估計(jì)誤差方差估計(jì)的意義:373838例3:求例2中誤差方差的無(wú)偏估計(jì)。39例3:求例2中誤差方差的無(wú)偏估計(jì)。39(四)線性假設(shè)的顯著性檢驗(yàn)采用最小二乘法估計(jì)參數(shù)a和b,并不需要事先知道Y與x之間一定具有相關(guān)關(guān)系,即使是平面圖上一堆完全雜亂無(wú)章的散點(diǎn),也可以用公式求出回歸方程。因此μ(x)是否為x的線性函數(shù),一要根據(jù)專業(yè)知識(shí)和實(shí)踐來判斷,二要根據(jù)實(shí)際觀察得到的數(shù)據(jù)用假設(shè)檢驗(yàn)方法來判斷。40(四)線性假設(shè)的顯著性檢驗(yàn)采用最小二乘法估計(jì)參數(shù)a和b,并不若原假設(shè)被拒絕,說明回歸效果是顯著的,否則,若接受原假設(shè),說明Y與x不是線性關(guān)系,回歸方程無(wú)意義。41若原假設(shè)被拒絕,說明回歸效果是顯著的,否則,若接受原假設(shè),說42424343回歸效果不顯著的原因可能有以下幾種:(1)影響Y取值的,除了x,還有其他不可忽略的因素;(2)E(Y)與x的關(guān)系不是線性關(guān)系,而是其他關(guān)系;(3)Y與x不存在關(guān)系。44回歸效果不顯著的原因可能有以下幾種:44例4:檢驗(yàn)例2中回歸效果是否顯著,取α=0.05。45例4:檢驗(yàn)例2中回歸效果是否顯著,取α=0.05。45(五)回歸系數(shù)b的置信區(qū)間當(dāng)回歸效果顯著時(shí),常需要對(duì)回歸系數(shù)b作區(qū)間估計(jì)。46(五)回歸系數(shù)b的置信區(qū)間當(dāng)回歸效果顯著時(shí),常需要對(duì)回歸系數(shù)(六)回歸函數(shù)μ(x)=a+bx函數(shù)值的點(diǎn)估計(jì)和置信區(qū)間47(六)回歸函數(shù)μ(x)=a+bx函數(shù)值的點(diǎn)估計(jì)和置信區(qū)間44848(七)Y的觀察值的點(diǎn)預(yù)測(cè)和預(yù)測(cè)區(qū)間49(七)Y的觀察值的點(diǎn)預(yù)測(cè)和預(yù)測(cè)區(qū)間49505051515252注:在預(yù)測(cè)時(shí),一定要落在已有的的數(shù)據(jù)范圍內(nèi)部,否則預(yù)測(cè)常常沒有意義。

53注:在預(yù)測(cè)時(shí),一定要落在已有的的數(shù)據(jù)范圍內(nèi)部,否則預(yù)例5,在例1中F.Galton曾斷言“兒子身高會(huì)受到父親身高的影響,但身高偏離父代平均水平的父親,其兒子身高的影響有回歸到子代平均水平的趨勢(shì)。”試問例1這組數(shù)據(jù)能證實(shí)這一論斷嗎(α=0.05)?并給出x=69吋時(shí),y的預(yù)測(cè)區(qū)間。(1)回歸到平均水平的趨勢(shì),即檢驗(yàn)

54例5,在例1中F.Galton曾斷言“兒子身高會(huì)受到父親身高5555例6合金鋼的強(qiáng)度y與鋼材中碳的含量x有密切關(guān)系。為了冶煉出符合要求強(qiáng)度的鋼常常通過控制鋼水中的碳含量來達(dá)到目的,為此需要了解y與x之間的關(guān)系。其中x:碳含量(%)y:鋼的強(qiáng)度(kg/mm2)數(shù)據(jù)見下:x0.030.040.050.070.090.100.120.150.170.20y40.539.541.041.543.042.045.047.553.056.0((1)畫出散點(diǎn)圖;(2)設(shè)μ(x)=a+bx,求a,b的估計(jì);(3)求誤差方差的估計(jì),畫出殘差圖;(4)檢驗(yàn)回歸系數(shù)b是否為零(取α=0.05);(5)求回歸系數(shù)b的95%置信區(qū)間;(6)求在x=0.06點(diǎn),回歸函數(shù)的點(diǎn)估計(jì)和95%置信區(qū)間;(7)求在x=0.06點(diǎn),Y的點(diǎn)預(yù)測(cè)和95%區(qū)間預(yù)測(cè)。

56例6合金鋼的強(qiáng)度y與鋼材中碳的含量x有密切關(guān)系。為了冶煉出0.030.050.070.090.110.130.150.170.1956545250484644424038(1)合金鋼的強(qiáng)度y與鋼材中碳的含量x的散點(diǎn)圖570.030.0558580.030.050.070.090.110.130.150.170.19590.030.050.030.050.070.090.110.130.150.170.1956545250484644424038合金鋼的強(qiáng)度y與鋼材中碳的含量x的回歸直線圖600.030.0561616262(八)可化為一元線性回歸的例子

實(shí)際中常會(huì)遇到很復(fù)雜的回歸問題,但在某些情況下,通過適當(dāng)?shù)淖兞孔儞Q,可將其化為一元線性回歸來處理。下面是三種常見的可轉(zhuǎn)化為一元線性回歸的模型。

63(八)可化為一元線性回歸的例子實(shí)際中常會(huì)遇到很復(fù)雜的回歸問結(jié)果為:

64結(jié)果為:64§4多元線性回歸

在實(shí)際問題中,影響Y(因變量)的因素(自變量)往往不止一個(gè),設(shè)有

65§4多元線性回歸在實(shí)際問題中,影響Y(因變量)的因素(自66666767686869697070例6某公司在各地區(qū)銷售一種特殊化妝品。該公司觀測(cè)了15個(gè)城市在某月內(nèi)對(duì)該化妝品的銷售量Y及各地區(qū)適合使用該化妝品的人數(shù)X1和人均收入X2,得到數(shù)據(jù)如下:

表1.1.2化妝品銷售的調(diào)查數(shù)據(jù)

地區(qū)i銷售(箱)Yi人數(shù)(千人)Xi1人均收入(元)Xi2116227424502120180325432233753802413120528385678623476169265378278198300871例6某公司在各地區(qū)銷售一種特殊化妝品。該公司觀測(cè)了15地區(qū)i銷售(箱)Yi人數(shù)(千人)Xi1人均收入(元)Xi281923302450911619521371055532560112524304020122323724427131442362660141031572088152123702605化妝品銷售的調(diào)查數(shù)據(jù)(續(xù))

72地區(qū)銷售(箱)人數(shù)(千人)人均收入(元)Xi281927373由回歸方程可知,若固定人均收入不變,則人數(shù)每增加1千人,銷售量增加0.496箱;若固定人數(shù)不變,收入每增加1元,銷售量增加0.0092箱。

多元線性回歸也可以像一元線性回歸一樣,檢驗(yàn)?zāi)P偷幕貧w效果是否顯著。所不同的是,在模型的回歸效果顯著的情況下,還要檢驗(yàn)每個(gè)自變量對(duì)因變量的效應(yīng)是否顯著,不顯著就要剔除,通常用逐步回歸法可以使回歸方程變得簡(jiǎn)潔、明確、顯著。在此基礎(chǔ)上可以對(duì)給定點(diǎn)處對(duì)應(yīng)的Y進(jìn)行點(diǎn)預(yù)測(cè)和區(qū)間預(yù)測(cè)。所有這些都可以通過SAS軟件實(shí)現(xiàn)。74由回歸方程可知,若固定人均收入不變,則人數(shù)每增加1千人,銷售課件結(jié)束!1/2/2023課件結(jié)束!12/18/2022第九章方差分析及回歸分析

(續(xù))76第九章方差分析及回歸分析(續(xù))1一般地,對(duì)一個(gè)單因素試驗(yàn),假設(shè)因子有s個(gè)水平,n個(gè)對(duì)象參與了試驗(yàn)。假定對(duì)應(yīng)于因子第j個(gè)水平的組中有個(gè)試驗(yàn)對(duì)象,響應(yīng)變量數(shù)據(jù)為通常假定77一般地,對(duì)一個(gè)單因素試驗(yàn),假設(shè)因子有s個(gè)水平,n個(gè)對(duì)象參與了檢驗(yàn)假設(shè)假設(shè)等價(jià)于78檢驗(yàn)假設(shè)假設(shè)等價(jià)于3方差來源平方和自由度均方F比因素As-1誤差n-s總和n-1單因素試驗(yàn)方差分析表79方差來源平方和自由度均方F比因素As-1誤差n-s總和n-1例1設(shè)有5種治療蕁麻疹的藥,要比較它們的療效。假設(shè)將30個(gè)病人分成5組,每組6人,令同組病人使用一種藥,并記錄病人從使用藥物開始到痊愈所需時(shí)間,得到下面的記錄:(=0.05)藥物x治愈所需天數(shù)y15,8,7,7,10,824,6,6,3,5,636,4,4,5,4,347,4,6,6,3,559,3,5,7,7,680例1設(shè)有5種治療蕁麻疹的藥,要比較它們的療效。假設(shè)將30這里藥物是因子,共有5個(gè)水平,這是一個(gè)單因子方差分析問題,要檢驗(yàn)的假設(shè)是“所有藥物的效果都沒有差別”。

81這里藥物是因子,共有5個(gè)水平,這是一個(gè)單因子方差分析問題,要方差分析表方差來源平方和自由度均方F比因素A36.466749.11673.90誤差58.5000252.3334總和94.96672982方方差來源平方和自由度均方F比因素A36.466749.11未知參數(shù)的估計(jì)83未知參數(shù)的估計(jì)8849§3一元線性回歸分析

確定性關(guān)系:當(dāng)自變量給定一個(gè)值時(shí),就確定應(yīng)變量的值與之對(duì)應(yīng)。如:在自由落體中,物體下落的高度h與下落時(shí)間t之間有函數(shù)關(guān)系:

變量與變量之間的關(guān)系

85§3一元線性回歸分析確定性關(guān)系:變量與變量之間的關(guān)系1例1:人的體重y與身高x之間存在著一定的關(guān)系。一般來說,身高越高則體重也越重,但高度相同的人,體重不一定完全相同.例3:消費(fèi)y

和收入x是有關(guān)的,一般來說,收入高的人消費(fèi)也相對(duì)比較高。但同樣收入的人,消費(fèi)不會(huì)完全相同.

例2:人的腳掌的長(zhǎng)度x與身高y兩者也有一定聯(lián)系,通常腳掌長(zhǎng)的人身高也較高,但同樣腳掌長(zhǎng)度的人身高并不完全相同.

相關(guān)關(guān)系:

86例1:人的體重y與身高x之間存在著一定的關(guān)系。一般來說,身高這種變量之間既有關(guān)聯(lián)但又不存在確定性數(shù)值對(duì)應(yīng)的相互關(guān)系,稱為相關(guān)關(guān)系。

相關(guān)關(guān)系可以歸結(jié)為兩點(diǎn):一是變量之間存在著關(guān)系;二是這種關(guān)系又是非確定的,或者說只存在統(tǒng)計(jì)規(guī)律性?;貧w分析——研究相關(guān)關(guān)系的最基本,應(yīng)用最廣泛的方法。87這種變量之間既有關(guān)聯(lián)但又不存在確定性數(shù)值對(duì)應(yīng)的相互關(guān)系,稱為(一)一元線性回歸現(xiàn)在,我們需要研究?jī)勺兞縳和Y之間的相關(guān)關(guān)系。這里,x(自變量)通常是可以控制和可以測(cè)量的“普通”變量,Y(響應(yīng)變量)的值不能根據(jù)x的值完全確定,而遵循一定的分布而取值,是隨依賴于x的一個(gè)隨機(jī)變量。88(一)一元線性回歸現(xiàn)在,我們需要研究?jī)勺兞縳和Y之間的相當(dāng)自變量取確定的x時(shí),若隨機(jī)變量Y的期望E(Y)存在,其值與x有關(guān),記為.回歸問題的本質(zhì)是研究,以此來反映Y與X之間的關(guān)系,而不是研究Y與X之間的直接關(guān)系,這一點(diǎn)應(yīng)嚴(yán)加區(qū)別。89當(dāng)自變量取確定的x時(shí),若隨機(jī)變量Y的期望E(Y)存在,其值在實(shí)際問題中,回歸函數(shù)μ(x)一般是未知的,需要根據(jù)試驗(yàn)數(shù)據(jù)去估計(jì)。由此來推斷μ(x),這樣的問題稱為Y關(guān)于x的回歸問題.90在實(shí)際問題中,回歸函數(shù)μ(x)一般是未知的,需要由此來推斷μ9116描述兩個(gè)定量變量間關(guān)系的一個(gè)最直觀的方法是繪制兩變量的散點(diǎn)圖。散點(diǎn)圖包括橫軸和縱軸。橫軸(x軸)代表一個(gè)變量,縱軸(y軸)代表另一個(gè)變量。圖中的點(diǎn)表示兩個(gè)變量的一對(duì)觀測(cè)值。

散點(diǎn)圖

92描述兩個(gè)定量變量間關(guān)系的一個(gè)最直觀9318為了解釋散點(diǎn)圖,首先要看它的整體輪廓。它的輪廓可以反映出兩個(gè)變量間關(guān)系的方向、線性關(guān)系和關(guān)系的強(qiáng)弱。散點(diǎn)圖的最大優(yōu)點(diǎn)是它沒有丟失任何數(shù)據(jù)信息并簡(jiǎn)化了數(shù)據(jù),并且易于制作和解釋。94為了解釋散點(diǎn)圖,首先要看它的整體輪廓。它的輪廓可以反映出兩個(gè)正相關(guān)、負(fù)相關(guān)關(guān)系:若兩個(gè)變量的變化趨向相一致,則稱兩個(gè)變量是正相關(guān);若一個(gè)變量有向上的趨向,而另一個(gè)變量有向下的趨向,則稱這兩個(gè)變量呈負(fù)相關(guān)。95正相關(guān)、負(fù)相關(guān)關(guān)系:20用散點(diǎn)圖可顯示兩個(gè)定量變量間關(guān)系的方向、線性關(guān)系以及關(guān)系的強(qiáng)弱程度。如果散點(diǎn)圖中的點(diǎn)都在一條直線的附近,則稱變量間呈強(qiáng)線性關(guān)系;若點(diǎn)較為分散的落在一條直線周圍,則稱變量間呈弱線性關(guān)系散點(diǎn)圖有助于粗略了解這兩個(gè)變量之間的關(guān)系。若此關(guān)系近似是線性關(guān)系,則稱此問題為一元線性回歸問題。96用散點(diǎn)圖可顯示兩個(gè)定量變量間關(guān)系的方向——一元線性回歸模型97——一元線性回歸模型229823一元線性回歸要解決的問題:99一元線性回歸要解決的問題:24(二)求回歸函數(shù)的估計(jì),即求a,b的估計(jì)現(xiàn)在的問題是:選擇一條直線y=a+bx去擬合n個(gè)樣本點(diǎn)。即求a,b,使得y=a+bx最接近于所給出的n個(gè)數(shù)據(jù)對(duì)。

采用最小二乘法100(二)求回歸函數(shù)的估計(jì),即求a,b的估計(jì)現(xiàn)在的問題是:采用10126——稱之為正規(guī)方程組102——稱之為正規(guī)方程組27正規(guī)方程組的矩陣形式103正規(guī)方程組的矩陣形式28正規(guī)方程系數(shù)行列式104正規(guī)方程系數(shù)行列式29在誤差為正態(tài)分布假定下,最小二乘估計(jì)等價(jià)于極大似然估計(jì)。事實(shí)上,似然函數(shù)105在誤差為正態(tài)分布假定下,最小二乘估計(jì)等價(jià)于極大似然估計(jì)。事106311073210833例2K.Pearson收集了大量父親身高與兒子身高的資料。其中十對(duì)如下:父親身高x(吋)60626465666768707274兒子身高y(吋)63.665.26665.566.967.167.468.370.170求Y關(guān)于x的線性回歸方程。109例2K.Pearson收集了大量父親身高與兒子6062611035備注:“回歸一詞”是英國(guó)統(tǒng)計(jì)學(xué)家F.Galton在1886年研究遺傳現(xiàn)象時(shí)引進(jìn)的。他和他的學(xué)生――英國(guó)著名統(tǒng)計(jì)學(xué)K.Pearson研究了兒子身高y與父母親平均身高x之間的關(guān)系。他們收集了1078對(duì)夫婦與兒子(每對(duì)夫婦只取一個(gè)成年兒子)的身高數(shù)據(jù),并用一條直線描述y與x之間的關(guān)系:人們通常的看法是,雙親的身體高,其子身體也高;父母親的身高偏矮,兒子的身高也偏矮。但Galton的研究發(fā)現(xiàn),如果雙親平均身高屬高個(gè)類(高于1078對(duì)夫婦平均身高),其子比他們更高的概率就比較小,即兒子以較大的概率比雙親個(gè)子矮;反過來,如果雙親平均身高屬矮個(gè)類,兒子則以較大的概率比雙親個(gè)子高。所以平均身高偏高或偏矮的夫婦,其子的身高都有“向中心(父母輩的平均身高)回歸”的現(xiàn)象。基于這一事實(shí),Galton把他們所求出的描述兒子身高與雙親身高關(guān)系的直線叫做回歸直線。雖然“回歸”這一現(xiàn)象并沒有普遍性,但人們習(xí)慣上一直沿用這個(gè)術(shù)語(yǔ)。

111備注:“回歸一詞”是英國(guó)統(tǒng)計(jì)學(xué)家F.Galton在1886(三)誤差方差的估計(jì)誤差方差估計(jì)的意義:誤差方差的大小對(duì)模型的好壞有很大的影響。自變量對(duì)因變量影響的大小是同誤差對(duì)因變量的影響相比較的。(c)如果自變量對(duì)因變量的影響不能顯著的超過誤差對(duì)因變量的影響,就很難從這樣的模型中提煉出有效的、有足夠精度的信息。

112(三)誤差方差的估計(jì)誤差方差估計(jì)的意義:3711338例3:求例2中誤差方差的無(wú)偏估計(jì)。114例3:求例2中誤差方差的無(wú)偏估計(jì)。39(四)線性假設(shè)的顯著性檢驗(yàn)采用最小二乘法估計(jì)參數(shù)a和b,并不需要事先知道Y與x之間一定具有相關(guān)關(guān)系,即使是平面圖上一堆完全雜亂無(wú)章的散點(diǎn),也可以用公式求出回歸方程。因此μ(x)是否為x的線性函數(shù),一要根據(jù)專業(yè)知識(shí)和實(shí)踐來判斷,二要根據(jù)實(shí)際觀察得到的數(shù)據(jù)用假設(shè)檢驗(yàn)方法來判斷。115(四)線性假設(shè)的顯著性檢驗(yàn)采用最小二乘法估計(jì)參數(shù)a和b,并不若原假設(shè)被拒絕,說明回歸效果是顯著的,否則,若接受原假設(shè),說明Y與x不是線性關(guān)系,回歸方程無(wú)意義。116若原假設(shè)被拒絕,說明回歸效果是顯著的,否則,若接受原假設(shè),說1174211843回歸效果不顯著的原因可能有以下幾種:(1)影響Y取值的,除了x,還有其他不可忽略的因素;(2)E(Y)與x的關(guān)系不是線性關(guān)系,而是其他關(guān)系;(3)Y與x不存在關(guān)系。119回歸效果不顯著的原因可能有以下幾種:44例4:檢驗(yàn)例2中回歸效果是否顯著,取α=0.05。120例4:檢驗(yàn)例2中回歸效果是否顯著,取α=0.05。45(五)回歸系數(shù)b的置信區(qū)間當(dāng)回歸效果顯著時(shí),常需要對(duì)回歸系數(shù)b作區(qū)間估計(jì)。121(五)回歸系數(shù)b的置信區(qū)間當(dāng)回歸效果顯著時(shí),常需要對(duì)回歸系數(shù)(六)回歸函數(shù)μ(x)=a+bx函數(shù)值的點(diǎn)估計(jì)和置信區(qū)間122(六)回歸函數(shù)μ(x)=a+bx函數(shù)值的點(diǎn)估計(jì)和置信區(qū)間412348(七)Y的觀察值的點(diǎn)預(yù)測(cè)和預(yù)測(cè)區(qū)間124(七)Y的觀察值的點(diǎn)預(yù)測(cè)和預(yù)測(cè)區(qū)間49125501265112752注:在預(yù)測(cè)時(shí),一定要落在已有的的數(shù)據(jù)范圍內(nèi)部,否則預(yù)測(cè)常常沒有意義。

128注:在預(yù)測(cè)時(shí),一定要落在已有的的數(shù)據(jù)范圍內(nèi)部,否則預(yù)例5,在例1中F.Galton曾斷言“兒子身高會(huì)受到父親身高的影響,但身高偏離父代平均水平的父親,其兒子身高的影響有回歸到子代平均水平的趨勢(shì)。”試問例1這組數(shù)據(jù)能證實(shí)這一論斷嗎(α=0.05)?并給出x=69吋時(shí),y的預(yù)測(cè)區(qū)間。(1)回歸到平均水平的趨勢(shì),即檢驗(yàn)

129例5,在例1中F.Galton曾斷言“兒子身高會(huì)受到父親身高13055例6合金鋼的強(qiáng)度y與鋼材中碳的含量x有密切關(guān)系。為了冶煉出符合要求強(qiáng)度的鋼常常通過控制鋼水中的碳含量來達(dá)到目的,為此需要了解y與x之間的關(guān)系。其中x:碳含量(%)y:鋼的強(qiáng)度(kg/mm2)數(shù)據(jù)見下:x0.030.040.050.070.090.100.120.150.170.20y40.539.541.041.543.042.045.047.553.056.0((1)畫出散點(diǎn)圖;(2)設(shè)μ(x)=a+bx,求a,b的估計(jì);(3)求誤差方差的估計(jì),畫出殘差圖;(4)檢驗(yàn)回歸系數(shù)b是否為零(取α=0.05);(5)求回歸系數(shù)b的95%置信區(qū)間;(6)求在x=0.06點(diǎn),回歸函數(shù)的點(diǎn)估計(jì)和95%置信區(qū)間;(7)求在x=0.06點(diǎn),Y的點(diǎn)預(yù)測(cè)和95%區(qū)間預(yù)測(cè)。

131例6合金鋼的強(qiáng)度y與鋼材中碳的含量x有密切關(guān)系。為了冶煉出0.030.050.070.090.110.130.150.170.1956545250484644424038(1)合金鋼的強(qiáng)度y與鋼材中碳的含量x的散點(diǎn)圖1320.030.05133580.030.050.070.090.110.130.150.170.191340.030.050.030.050.07

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論