版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
簡(jiǎn)單線性回歸第一頁,共七十二頁,編輯于2023年,星期一對(duì)于考察變量與變量之間關(guān)系時(shí),我們采用回歸分析的方法建立模型或方程進(jìn)行變量間關(guān)系的分析。因變量:被預(yù)測(cè)的變量自變量:進(jìn)行預(yù)測(cè)的變量第二頁,共七十二頁,編輯于2023年,星期一簡(jiǎn)單線性回歸模型(對(duì)總體而言)為未知參數(shù),為隨機(jī)誤差項(xiàng),反映其它未列入回歸模型的變量對(duì)因變量的影響。第三頁,共七十二頁,編輯于2023年,星期一關(guān)于簡(jiǎn)單線性回歸模型的標(biāo)準(zhǔn)假設(shè):1.,可推知,該方程稱為回歸方程。2.對(duì)于所有的X,誤差項(xiàng)的方差一樣:即同方差假定。3.誤差項(xiàng)獨(dú)立。其協(xié)方差為零,4.自變量是給定的變量,與誤差項(xiàng)線性無關(guān)。5.誤差項(xiàng)服從正態(tài)分布,從而說明Y服從正態(tài)分布第四頁,共七十二頁,編輯于2023年,星期一對(duì)于總體的線性回歸模型,由于總體參數(shù)未知,我們只能利用樣本數(shù)據(jù)進(jìn)行估計(jì),得到樣本回歸模型(對(duì)樣本而言)。分別為的估計(jì)。其中真實(shí)值與估計(jì)值之間的差距用e來表示:是y的一個(gè)估計(jì)值。第五頁,共七十二頁,編輯于2023年,星期一我們稱下式為估計(jì)回歸方程:第六頁,共七十二頁,編輯于2023年,星期一估計(jì)回歸方程與總體回歸模型之間的區(qū)別??傮w回歸模型是未知的,它只有一個(gè)。而估計(jì)回歸方程則是根據(jù)樣本數(shù)據(jù)擬合的,每抽取一組樣本,便可以擬合一個(gè)樣本估計(jì)方程??傮w回歸模型中的1和2是未知的參數(shù),表現(xiàn)為常數(shù)。而回歸估計(jì)方程中的和是隨機(jī)變量,其具體數(shù)值隨所抽取的樣本觀測(cè)值不同而變動(dòng)??傮w回歸模型中的E是Y與未知的總體回歸線之間的縱向距離,它是不可直接觀測(cè)的。而樣本回歸模型中的e是Y與估計(jì)回歸線之間的縱向距離,當(dāng)根據(jù)樣本觀測(cè)值擬合出估計(jì)回歸方程之后,可以計(jì)算出e的具體數(shù)值。第七頁,共七十二頁,編輯于2023年,星期一最小二乘估計(jì)法該法的目的:使殘差平方和達(dá)到最小殘差:因變量y的觀察值與估計(jì)值之間的距離求該式對(duì)應(yīng)的b0,b1可以根據(jù)微分的方法求解最優(yōu)解。第八頁,共七十二頁,編輯于2023年,星期一令第九頁,共七十二頁,編輯于2023年,星期一披薩連鎖店的銷售量與學(xué)生人數(shù)的回歸方程連鎖店12345678910學(xué)生人數(shù)2688121620202226銷售收入5810588118117137157169149202第十頁,共七十二頁,編輯于2023年,星期一序號(hào)xyx-x均值y-y均值(x-x均值)*(y-y均值)(x-x均值)^21258-12-7286414426105-8-25200643888-6-422523648118-6-127236512117-2-132646161372714472015762716236820169639234369221498191526410262021272864144x均值y均值SUMSUM141302840568x求和y求和1401300第十一頁,共七十二頁,編輯于2023年,星期一第十二頁,共七十二頁,編輯于2023年,星期一模型的擬合度判定系數(shù):用來判斷估計(jì)回歸方程的擬合程度。誤差平方和SSE總平方和SST回歸平方和SSRSST=SSR+SSE判定系數(shù)第十三頁,共七十二頁,編輯于2023年,星期一第十四頁,共七十二頁,編輯于2023年,星期一SST=SSR+SSEWHY?第十五頁,共七十二頁,編輯于2023年,星期一序號(hào)xyy估計(jì)x-x均值y-y均值(x-x均值)*(y-y均值)(x-x均值)^2(y-y均值)^2(y-y估計(jì))^2125870-12-7286414451841442610590-8-25200646252253888100-6-4225236176414448118100-6-127236144324512117120-2-132641699616137140271444997201571606271623672998201691606392343615218192214917081915264361441102620219012728641445184144x均值y均值SUMSUMSUMSUM14130284056815730142001530x求和y求和SSTSSRSSE1401300判定系數(shù)=SSR/SST0.902734第十六頁,共七十二頁,編輯于2023年,星期一在該披薩店的例題中,由樣本估計(jì)得到的回歸方程的判定系數(shù)為:0.9027我們認(rèn)為:該估計(jì)回歸方程有90.27%的總平方和可以通過估計(jì)回歸方程來解釋,我們認(rèn)為該模型較好的擬合了學(xué)生人數(shù)與銷售額之間的線性關(guān)系。第十七頁,共七十二頁,編輯于2023年,星期一判定系數(shù)與相關(guān)系數(shù)的關(guān)系:第十八頁,共七十二頁,編輯于2023年,星期一從而有:判定系數(shù)=SSR/SST=回憶相關(guān)系數(shù)的計(jì)算公式:本例中:r=0.9501第十九頁,共七十二頁,編輯于2023年,星期一模型的顯著性檢驗(yàn)在模型進(jìn)行估計(jì)以后,得到了估計(jì)回歸方程。由于估計(jì)回歸方程是由樣本信息得到的,具有隨機(jī)性。為了由樣本推及總體,我們需要對(duì)估計(jì)參數(shù)進(jìn)行顯著性檢驗(yàn)。因此可以利用之前介紹的假設(shè)檢驗(yàn)的統(tǒng)計(jì)方法來判斷。第二十頁,共七十二頁,編輯于2023年,星期一1.估計(jì)回歸模型中殘差項(xiàng)的方差之前的假設(shè)中,令誤差項(xiàng)的方差記為可得,因此也代表了y值的方差。數(shù)學(xué)上可以證明,方差的無偏估計(jì)為MSE(meansquareerror)第二十一頁,共七十二頁,編輯于2023年,星期一其中SSE的自由度為n-2,受兩個(gè)約束(b0,b1)MSE=SSE/(n-2)s稱為估計(jì)量的標(biāo)準(zhǔn)誤差pizza店的例子中,計(jì)算得到SSE=1530,因此方差的一個(gè)無偏估計(jì),第二十二頁,共七十二頁,編輯于2023年,星期一2.T檢驗(yàn)及相應(yīng)的抽樣分布T檢驗(yàn):用來判定是否顯著為零。H0:=0;Ha:≠0如果x和y相關(guān),則有≠0.如果通過假設(shè)檢驗(yàn),我們拒絕了H0,可以相應(yīng)得到≠0的結(jié)論。由于是唯一的,是未知總體的參數(shù),我們需要借助樣本計(jì)算得到的斜率b1來進(jìn)行判斷。第二十三頁,共七十二頁,編輯于2023年,星期一考察b0,b1的抽樣分布:可以證明,在標(biāo)準(zhǔn)假定能夠得到滿足的條件下,回歸系數(shù)的最小二乘估計(jì)量的期望值等于其真值,即有:第二十四頁,共七十二頁,編輯于2023年,星期一我們給出截距項(xiàng)估計(jì)參數(shù)的推導(dǎo)公式:以上公式的推導(dǎo),是由于:令第二十五頁,共七十二頁,編輯于2023年,星期一推導(dǎo):第二十六頁,共七十二頁,編輯于2023年,星期一由于總體方差未知,我們用之前說過的MSE來漸近估計(jì)總體方差:代入估計(jì)參數(shù)的方差和標(biāo)準(zhǔn)差公式:第二十七頁,共七十二頁,編輯于2023年,星期一構(gòu)造統(tǒng)計(jì)量T,在H0為真是,T統(tǒng)計(jì)量服從自由度為(n-2)的t分布。顯著水平α下的拒絕規(guī)則:如果T>t(a/2;n-2),拒絕H0的初始假定。說明顯著非零。第二十八頁,共七十二頁,編輯于2023年,星期一披薩店的例子,我們來看人數(shù)的估計(jì)參數(shù)是否顯著,也就是看學(xué)生人數(shù)是否真的與銷售量有顯著關(guān)系:顯著水平為0.01H0:=0;Ha:≠0在H0為真的前提下,有統(tǒng)計(jì)量T服從自由度為8的t分布。第二十九頁,共七十二頁,編輯于2023年,星期一比較T與臨界值t(0.005,8),T>3.36從而可以拒絕H0的假定,統(tǒng)計(jì)上提供依據(jù)可以認(rèn)為學(xué)生人數(shù)與披薩店的銷售量有顯著相關(guān)關(guān)系。第三十頁,共七十二頁,編輯于2023年,星期一3.F檢驗(yàn)及相關(guān)抽樣分布F檢驗(yàn)是針對(duì)整體模型是否顯著而設(shè)計(jì)的假設(shè)檢驗(yàn)。在一元簡(jiǎn)單回歸模型中,F(xiàn)檢驗(yàn)的對(duì)象與T檢驗(yàn)一致,結(jié)果也一致。但在多元回歸模型中,F(xiàn)檢驗(yàn)是對(duì)所有自變量的顯著性同時(shí)進(jìn)行檢驗(yàn)。第三十一頁,共七十二頁,編輯于2023年,星期一F檢驗(yàn)的原理:類似于方差分析的構(gòu)造方式,總體方差有兩個(gè)獨(dú)立的估計(jì)量。之前介紹的MSE是總體方差的無偏估計(jì),的另一個(gè)獨(dú)立估計(jì)量為MSRMSR=SSR/(k-1)k為模型待估參數(shù)個(gè)數(shù)。在一元回歸模型中,k=2第三十二頁,共七十二頁,編輯于2023年,星期一當(dāng)H0:為真時(shí),兩個(gè)估計(jì)量應(yīng)當(dāng)相當(dāng)接近,且MSR和MSE相除后得到的統(tǒng)計(jì)量服從F分布,自由度為(k-1,n-2)我們依照該分布的特點(diǎn),且在一定顯著水平下,找到統(tǒng)計(jì)值落入小概率事件的區(qū)域。F=MSR/MSE~F(a;k-1,n-2)拒絕原則:如果F>F臨界值,則拒絕H0,從而可以認(rèn)為模型整體通過顯著檢驗(yàn)。第三十三頁,共七十二頁,編輯于2023年,星期一類似于方差分析,我們同樣可以列出ANOVA表:方差來源平方和自由度均方(meansquare)F統(tǒng)計(jì)量回歸方程SSRk-1MSR=SSR/(K-1)MSR/MSE誤差SSEn-2MSE=SSE/(n-2)合計(jì)SSTn-1第三十四頁,共七十二頁,編輯于2023年,星期一披薩店的例子:k-1=1由之前的計(jì)算,有MSR=14200,MSE=1530/8=191.25F=14200/191.25=74.25通過比較F與臨界值,有F>11.26,相應(yīng)拒絕H0原假設(shè),認(rèn)為模型整體通過顯著檢驗(yàn)。F檢驗(yàn)結(jié)果與T檢驗(yàn)一致。第三十五頁,共七十二頁,編輯于2023年,星期一對(duì)一元線性回歸模型而言,F(xiàn)檢驗(yàn)與T檢驗(yàn)的關(guān)系:第三十六頁,共七十二頁,編輯于2023年,星期一4.回歸模型中參數(shù)的區(qū)間估計(jì)樣本回歸模型中的b1是由(x,y)的一組樣本數(shù)據(jù)計(jì)算得到的,類似于點(diǎn)估計(jì),那么對(duì)總體回歸模型中的是未知參數(shù),我們通過樣本估計(jì)b1來估計(jì),其區(qū)間估計(jì)為:置信度(1-α)第三十七頁,共七十二頁,編輯于2023年,星期一5.關(guān)于顯著性檢驗(yàn)的幾點(diǎn)問題1.變量x和y之間有顯著性關(guān)系,并不能得出x和y之間存在因果關(guān)系的結(jié)論。我們可以說,x的變化是y產(chǎn)生變化的最大可能。2.x和y之間存在顯著性關(guān)系,不能說明x和y之間存在線性關(guān)系。只能說明在樣本觀察值范圍內(nèi)有一近似線性關(guān)系。第三十八頁,共七十二頁,編輯于2023年,星期一利用估計(jì)回歸方程進(jìn)行估計(jì)和預(yù)測(cè)前面的章節(jié)對(duì)模型的擬合度、參數(shù)估計(jì)顯著性進(jìn)行的分析,在我們得到較高的擬合度以及明顯的變量間關(guān)系以后,可以利用估計(jì)回歸方程進(jìn)行估計(jì)和預(yù)測(cè)。估計(jì):因變量的點(diǎn)估計(jì)和區(qū)間估計(jì)預(yù)測(cè):觀測(cè)樣本以外的因變量預(yù)測(cè)第三十九頁,共七十二頁,編輯于2023年,星期一1.E(y)的點(diǎn)估計(jì):利用估計(jì)回歸方程給出某一特定的x對(duì)應(yīng)的y的均值的點(diǎn)估計(jì)。由披薩店的例子,我們估計(jì)當(dāng)x=10時(shí)的y均值的點(diǎn)估計(jì)。說明:所有位于有1萬名學(xué)生的校園附近的餐館平均每季度銷售額為11萬美元。第四十頁,共七十二頁,編輯于2023年,星期一因?yàn)椋菏堑臒o偏估計(jì)。所以給出的是在某個(gè)對(duì)應(yīng)點(diǎn)上因變量的均值。第四十一頁,共七十二頁,編輯于2023年,星期一2.E(y)的區(qū)間估計(jì)在已知了E(y)點(diǎn)估計(jì)的基礎(chǔ)上,我們可以構(gòu)造E(y)的區(qū)間估計(jì):點(diǎn)估計(jì)加減抽樣極限誤差抽樣極限誤差與點(diǎn)估計(jì)的標(biāo)準(zhǔn)差有關(guān)。第四十二頁,共七十二頁,編輯于2023年,星期一因?yàn)椋旱谒氖摚财呤?,編輯?023年,星期一E(y)的置信區(qū)間的估計(jì)公式為:求位于有1萬名學(xué)生的校園附近的連鎖店平均銷售收入的95%置信區(qū)間:(98585,121415)第四十四頁,共七十二頁,編輯于2023年,星期一由標(biāo)準(zhǔn)差的公式看出,當(dāng)時(shí),最小,相應(yīng)的E(y)估計(jì)區(qū)間最窄。xy抽樣極限誤差xy第四十五頁,共七十二頁,編輯于2023年,星期一3.y的個(gè)別值預(yù)測(cè)區(qū)間當(dāng)時(shí),以作為的預(yù)測(cè)值。預(yù)測(cè)誤差為:第四十六頁,共七十二頁,編輯于2023年,星期一當(dāng)總體方差未知時(shí),我們用MSE替代,由已知抽樣分布,有,第四十七頁,共七十二頁,編輯于2023年,星期一從而有,y個(gè)別值的預(yù)測(cè)區(qū)間:第四十八頁,共七十二頁,編輯于2023年,星期一由以上公式,求在學(xué)生人數(shù)為1萬的校園附近一家指定連鎖店的銷售收入,置信度為95%的估計(jì)區(qū)間:(76215,143875)第四十九頁,共七十二頁,編輯于2023年,星期一由標(biāo)準(zhǔn)差的公式看出,當(dāng)時(shí),最小,相應(yīng)的E(y)估計(jì)區(qū)間最窄。xy抽樣極限誤差xy第五十頁,共七十二頁,編輯于2023年,星期一殘差分析我們?cè)谶M(jìn)行模型估計(jì)之前,曾經(jīng)對(duì)回歸模型的誤差項(xiàng)做了諸多假設(shè)。殘差分析就是用來判斷這些假定是否符合真實(shí)數(shù)據(jù)的統(tǒng)計(jì)方法。若對(duì)誤差項(xiàng)的那些假定不成立,那么關(guān)于回歸關(guān)系的顯著性檢驗(yàn)和區(qū)間估計(jì)的結(jié)果就不可能正確。第五十一頁,共七十二頁,編輯于2023年,星期一我們利用殘差e提供的信息,對(duì)誤差項(xiàng)的假設(shè)是否合適進(jìn)行分析。我們利用殘差項(xiàng)的殘差圖來觀察和判斷:1.自變量x的值的殘差圖2.關(guān)于自變量的預(yù)測(cè)值的殘差圖3.標(biāo)準(zhǔn)殘差圖4.正態(tài)概率圖第五十二頁,共七十二頁,編輯于2023年,星期一關(guān)于x的殘差圖第五十三頁,共七十二頁,編輯于2023年,星期一(1)圖滿足同方差假定(2)圖不滿足同方差假定(3)圖說明模型不能合理的描述變量間的關(guān)系。第五十四頁,共七十二頁,編輯于2023年,星期一關(guān)于因變量y預(yù)測(cè)值的殘差圖第五十五頁,共七十二頁,編輯于2023年,星期一標(biāo)準(zhǔn)殘差圖殘差標(biāo)準(zhǔn)化以后,觀察其是否服從標(biāo)準(zhǔn)正態(tài)分布:第i個(gè)觀測(cè)值的標(biāo)準(zhǔn)化殘差=其中第i個(gè)殘差的標(biāo)準(zhǔn)差為:其中h與x有關(guān),因此殘差標(biāo)準(zhǔn)差依賴于x。
第五十六頁,共七十二頁,編輯于2023年,星期一第五十七頁,共七十二頁,編輯于2023年,星期一該圖形以x為橫坐標(biāo),標(biāo)準(zhǔn)化殘差為縱坐標(biāo),該圖表明:所有標(biāo)準(zhǔn)化殘差都在-2到+2之間,因此我們沒有理由拒絕誤差相服從正態(tài)分布的假設(shè)。標(biāo)準(zhǔn)正態(tài)變量至少有95%的值介于-2到+2之間。第五十八頁,共七十二頁,編輯于2023年,星期一正態(tài)概率圖標(biāo)準(zhǔn)正態(tài)分布的樣本的順序統(tǒng)計(jì)量和正態(tài)分?jǐn)?shù)(n=10)序號(hào)1-1.5560.122-170.373-0.6580.654-0.37915-0.12101.55第五十九頁,共七十二頁,編輯于2023年,星期一作圖:將10個(gè)標(biāo)準(zhǔn)化殘差由小到大順序,使與10個(gè)正態(tài)分?jǐn)?shù)依順序?qū)?yīng)。然后,以對(duì)應(yīng)所得的10對(duì)數(shù)在坐標(biāo)系(正態(tài)分?jǐn)?shù)為橫坐標(biāo))中描點(diǎn),得出散點(diǎn)圖。若散點(diǎn)圖顯示這些散點(diǎn)緊密的聚集在45度線附近,則認(rèn)為殘差來自正態(tài)分布。否則表明正態(tài)性假設(shè)不成立。第六十頁,共七十二頁,編輯于2023年,星期一第六十一頁,共七十二頁,編輯于2023年,星期一殘差分析:離群值與影響值1.檢測(cè)離群值(1)查看散點(diǎn)圖某個(gè)別的觀測(cè)值遠(yuǎn)離大部分的觀測(cè)點(diǎn)。第六十二頁,共七十二頁,編輯于2023年,星期一(2)計(jì)算標(biāo)準(zhǔn)殘差計(jì)算每個(gè)觀測(cè)點(diǎn)的標(biāo)準(zhǔn)殘差,若該值大于+2或小于-2,就可以將該觀測(cè)點(diǎn)視為異常值。若將異常值放入模型中,會(huì)發(fā)現(xiàn)其對(duì)整個(gè)模型擬合效果有明顯影響。第六十三頁,共七十二頁,編輯于2023年,星期一2.檢測(cè)有影響的觀察值所謂的影響值是對(duì)回歸結(jié)果有強(qiáng)影響的觀測(cè)值。(1)利用散點(diǎn)圖識(shí)別影響值影響值可能是離群值,也可能是遠(yuǎn)離x平均值的觀測(cè)值,同時(shí)也可能是與接近極端的x值對(duì)應(yīng)、有某種程度偏離其它諸y值的觀測(cè)值。第六十四頁,共七十二頁,編輯于2023年,星期一第六十五頁,共七十二頁,編輯于2023年,星期一(2)觀測(cè)值的杠桿率對(duì)應(yīng)x為極端值的觀測(cè)值稱為高杠桿率點(diǎn)。xyxy10125201201013025110151207010020115第六十六頁,共七十二頁,編輯于2023年,星期一根據(jù)杠桿率公式,我們可以計(jì)算各觀測(cè)點(diǎn)的杠桿率:我們可以設(shè)定:若h>6/n,則可將該觀測(cè)值識(shí)別為高杠桿率的觀測(cè)值。第7個(gè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)生自我介紹
- 商丘職業(yè)技術(shù)學(xué)院《納電子材料與器件》2023-2024學(xué)年第一學(xué)期期末試卷
- 業(yè)務(wù)員年終考核總結(jié)
- 小學(xué)教學(xué)工作計(jì)劃模板匯編五篇
- 2025解除合伙合同協(xié)議書范本
- 2024年環(huán)境治理合同:公共環(huán)境衛(wèi)生消殺項(xiàng)目
- 2025標(biāo)準(zhǔn)版?zhèn)€人租房合同范文
- 2025加工合同協(xié)議書模板
- 數(shù)學(xué)思維三部曲-記錄
- 河南省科學(xué)技術(shù)進(jìn)步獎(jiǎng)提名書
- 排泄物、分泌物及體液檢驗(yàn)方法和病例分析
- 合同責(zé)任分解及交底表1-5
- 《漢服》PPT課件(完整版)
- 復(fù)旦大學(xué)附屬腫瘤醫(yī)院病理科李大力,楊文濤
- 機(jī)械式停車設(shè)備安裝工藝
- AutoCAD 布局(圖紙空間)使用教程詳解
- 電化學(xué)原理知識(shí)點(diǎn)
- 龍泉街道文化產(chǎn)業(yè)及民族民俗文化發(fā)展工作匯報(bào)
- 壓力容器壁厚計(jì)算表
- Y-△降壓?jiǎn)?dòng)控制線路ppt課件
評(píng)論
0/150
提交評(píng)論