




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
PowerPoint統(tǒng)計(jì)學(xué)第七章相關(guān)與回歸分析PowerPoint統(tǒng)計(jì)學(xué)第七章相關(guān)與回歸分析1
實(shí)例1:中國(guó)婦女生育水平的決定因素是什么?婦女生育水平除了受計(jì)劃生育政策影響以外,還可能與社會(huì)、經(jīng)濟(jì)、文化等多種因素有關(guān)。1、影響中國(guó)婦女生育率變動(dòng)的因素有哪些?2、各種因素對(duì)生育率的作用方向和作用程度如何?3、哪些因素是影響婦女生育率主要的決定性因素?4、如何評(píng)價(jià)計(jì)劃生育政策在生育水平變動(dòng)中的作用?5、計(jì)劃生育政策與經(jīng)濟(jì)因素比較,什么是影響生育率的決定因素?6、如果某些地區(qū)的計(jì)劃生育政策及社會(huì)、經(jīng)濟(jì)、文化等因素發(fā)生重大變化,預(yù)期對(duì)這些地區(qū)的婦女生育水平會(huì)產(chǎn)生怎樣的影響?
實(shí)例1:中國(guó)婦女生育水平的決定因素是什么?婦女生育水平除了2
據(jù)世界衛(wèi)生組織統(tǒng)計(jì),全球肥胖癥患者達(dá)3億人,其中兒童占2200萬(wàn)人,11億人體重過重。肥胖癥和體重超常早已不是發(fā)達(dá)國(guó)家的“專利”,已遍及五大洲。目前,全球因”吃”致病乃至死亡的人數(shù)已高于因饑餓死亡的人數(shù)。
(引自《光明日?qǐng)?bào)》劉軍/文)問題:肥胖癥和體重超常與死亡人數(shù)真有顯著的數(shù)量關(guān)系嗎?實(shí)例2:全球吃死的人比餓死的人多?據(jù)世界衛(wèi)生組織統(tǒng)計(jì),全球肥胖癥患者達(dá)3億人,3發(fā)生車禍的次數(shù)與司機(jī)的年齡有關(guān)嗎?一年的葡萄酒消耗量(平均每人喝葡萄酒攝取酒精的升數(shù))以及一年中因心臟病死亡的人數(shù)(每十萬(wàn)人死亡人數(shù))之間有關(guān)系嗎?身高與足跡長(zhǎng)度有關(guān)嗎?這些類型的問題可以運(yùn)用相關(guān)分析與回歸分析的方法去解決。
發(fā)生車禍的次數(shù)與司機(jī)的年齡有關(guān)嗎?4第七章相關(guān)與回歸分析第一節(jié)相關(guān)分析第二節(jié)一元線性回歸分析第三節(jié)線性回歸的顯著性檢驗(yàn)及回歸預(yù)測(cè)第四節(jié)多元線性回歸分析第七章相關(guān)與回歸分析5
學(xué)習(xí)目標(biāo)1、變量間的相關(guān)關(guān)系與相關(guān)系數(shù)的計(jì)算2、總體回歸函數(shù)與樣本回歸函數(shù)3、線性回歸的基本假定4、一元線性回歸參數(shù)的估計(jì)與檢驗(yàn)5、多元線性回歸參數(shù)的估計(jì)與檢驗(yàn)6、回歸預(yù)測(cè)的方法學(xué)習(xí)目標(biāo)6
一、相關(guān)關(guān)系的概念
◆確定性的函數(shù)關(guān)系Y=f(X)◆不確定性的統(tǒng)計(jì)關(guān)系—相關(guān)關(guān)系
Y=f(X)+ε(ε為隨機(jī)變量)◆沒有關(guān)系
變量間關(guān)系的圖形描述:坐標(biāo)圖(散點(diǎn)圖)
變量間的相互關(guān)系一、相關(guān)關(guān)系的概念變量間的相互關(guān)系7
(一)相關(guān)關(guān)系的概念
1、相關(guān)關(guān)系:客觀現(xiàn)象之間確實(shí)存在的、但在數(shù)量表現(xiàn)上不嚴(yán)格對(duì)應(yīng)的依存關(guān)系。
確實(shí)存在——關(guān)系是真實(shí)的、具有內(nèi)在聯(lián)系,而不是主觀臆造的,也不是形式上的偶然巧合。
通過定性分析確定,即根據(jù)經(jīng)濟(jì)理論或經(jīng)濟(jì)常識(shí)以及相關(guān)學(xué)科的知識(shí)分析判斷是否存在這樣的關(guān)系。(一)相關(guān)關(guān)系的概念8數(shù)量表現(xiàn)上不嚴(yán)格對(duì)應(yīng)
——1)變量間的關(guān)系不能用函數(shù)關(guān)系精確表達(dá)2)一個(gè)變量的取值不能由另一個(gè)變量唯一確定3)當(dāng)變量x取某個(gè)值時(shí),變量y有若干取值與之對(duì)應(yīng)——這些數(shù)值雖然有波動(dòng),但總是以一定的分布規(guī)律圍繞其均值上下波動(dòng)4)各觀測(cè)點(diǎn)分布在直線(或曲線)周圍
直線相關(guān)圖數(shù)量表現(xiàn)上不嚴(yán)格對(duì)應(yīng)——1)變量間的關(guān)系不能用函數(shù)關(guān)系精確9居民收入(x)與社會(huì)商品零售額(y)之間的關(guān)系父親身高(x)與子女身高(y)之間的關(guān)系受教育程度(x)與收入水平(y)之間的關(guān)系廣告費(fèi)支出(x1)、價(jià)格(x2)與商品銷售額(y)之間的關(guān)系施肥量(x1)、降雨量(x2)、溫度(x3)與糧食畝產(chǎn)量(y)之間的關(guān)系相關(guān)關(guān)系的例子居民收入(x)與社會(huì)商品零售額(y)之間的關(guān)系相關(guān)關(guān)系的例子10
2.函數(shù)關(guān)系客觀現(xiàn)象之間確實(shí)存在的、而且數(shù)量表現(xiàn)上是嚴(yán)格的確定性的依存關(guān)系。1)對(duì)于變量x和y,當(dāng)自變量x取某個(gè)數(shù)值時(shí),因變量y依確定的關(guān)系取相應(yīng)的值,則稱y是x的函數(shù),記為y=f(x)。2)各觀測(cè)點(diǎn)落在一條線上(直線或曲線)
XY2.函數(shù)關(guān)系1)對(duì)于變量x和y,當(dāng)自變量x取某個(gè)數(shù)值時(shí),因11函數(shù)關(guān)系的例子圓面積(S)與半徑之間的關(guān)系:S=
R2
里程(D)與速度(V)、時(shí)間(t)之間的關(guān)系:D=Vt某種商品的銷售額(y)與銷售量(x)、單價(jià)(p)之間的關(guān)系:y=px企業(yè)的原材料消耗額(y)與產(chǎn)量(x1)、單位產(chǎn)量消耗(x2)、原材料價(jià)格(x3)之間的關(guān)系:y=x1x2x3
函數(shù)關(guān)系的例子123、相關(guān)關(guān)系與函數(shù)關(guān)系的聯(lián)系函數(shù)關(guān)系往往通過相關(guān)關(guān)系表現(xiàn)出來(lái);由于存在測(cè)量誤差和其他隨機(jī)因素的干擾,可以說(shuō)現(xiàn)實(shí)中沒有純粹的函數(shù)關(guān)系。相關(guān)關(guān)系要通過函數(shù)關(guān)系進(jìn)行研究。相關(guān)變量之間的數(shù)量變動(dòng)雖然表現(xiàn)出一定的波動(dòng)性,但是這種波動(dòng)總是按照一定的分布規(guī)律圍繞其理論均值而波動(dòng)的,因此可以通過尋找這種數(shù)量變化規(guī)律,使相關(guān)關(guān)系轉(zhuǎn)化為函數(shù)關(guān)系進(jìn)行研究。3、相關(guān)關(guān)系與函數(shù)關(guān)系的聯(lián)系13
4、因果關(guān)系原因與結(jié)果、影響因素與被影響因素之間的關(guān)系。
因果關(guān)系∈相關(guān)關(guān)系;是因果關(guān)系同時(shí)是相關(guān)關(guān)系,但是相關(guān)關(guān)系不一定是因果關(guān)系。
施肥量(x)與糧食畝產(chǎn)量(y)之間的關(guān)系父親身高(x)與子女身高(y)之間的關(guān)系受教育程度(x)與收入水平(y)之間的關(guān)系居民收入(x)與商品的消費(fèi)量(y)之間的關(guān)系廣告費(fèi)支出(x)與商品銷售額(y)之間的關(guān)系4、因果關(guān)系施肥量(x)與糧食畝產(chǎn)量(y14
互為因果的情況如:收入水平和股票持有額是正相關(guān),但,是收入增加使股票持有增加?還是持有股票的盈利使收入增加?收入水平和物價(jià)水平之間的關(guān)系。統(tǒng)計(jì)只能說(shuō)明現(xiàn)象間有無(wú)數(shù)量上的關(guān)系,不能說(shuō)明誰(shuí)因誰(shuí)果。因與果的確定——定性分析互為因果的情況統(tǒng)計(jì)只能說(shuō)明現(xiàn)象間有無(wú)數(shù)量上的關(guān)系,不能155、注意假相關(guān)(偽相關(guān))現(xiàn)象之間沒有本質(zhì)聯(lián)系,只是表面數(shù)字的偶然巧合或受到其他潛在變量的影響而表現(xiàn)出不真實(shí)的相關(guān)性。如上證股票價(jià)格綜合指數(shù)與氣溫的關(guān)系;
有人測(cè)算出教師工資增長(zhǎng)與酒價(jià)上升是正相關(guān);有人測(cè)算出小孩腳的大小與識(shí)字多少是正相關(guān);有數(shù)據(jù)表明英國(guó)股票指數(shù)升降與一年半前的汽車銷售量有相同的變化規(guī)律,相關(guān)系數(shù)達(dá)0.88‘還有人做過測(cè)算,發(fā)現(xiàn)在美國(guó)經(jīng)濟(jì)學(xué)學(xué)位越高的人,收入越低,相關(guān)系數(shù)為負(fù)(要注意不正確的計(jì)算方法也會(huì)模糊對(duì)事物本質(zhì)的認(rèn)識(shí))。5、注意假相關(guān)(偽相關(guān))16即時(shí)思考:有數(shù)據(jù)顯示世界各國(guó)平均每人擁有電視機(jī)數(shù)x及居民預(yù)期壽命y之間有很強(qiáng)的正相關(guān),可否認(rèn)為電視機(jī)很多的國(guó)家,居民預(yù)期壽命比較長(zhǎng)?有人測(cè)試出火災(zāi)現(xiàn)場(chǎng)的消防員人數(shù)和該場(chǎng)火災(zāi)造成的損害之間有很強(qiáng)的正相關(guān),可否認(rèn)為派出的消防員越多造成的損害越大?
即時(shí)思考:17(二)相關(guān)關(guān)系的種類(二)相關(guān)關(guān)系的種類18
單相關(guān)(一元相關(guān)):兩個(gè)現(xiàn)象之間的相關(guān)
復(fù)相關(guān)(多元相關(guān)):兩個(gè)以上現(xiàn)象之間的相關(guān)
正相關(guān):現(xiàn)象之間的變化方向一致,即一個(gè)現(xiàn)象的數(shù)量增加或減少,另一個(gè)現(xiàn)象的數(shù)量隨之增加或減少。
負(fù)相關(guān):現(xiàn)象之間的變化方向不一致,即一個(gè)現(xiàn)象的數(shù)量增加或減少,另一個(gè)現(xiàn)象的數(shù)量隨之減少或增加。直線(線性)相關(guān):一個(gè)現(xiàn)象的數(shù)量每變動(dòng)一個(gè)單位,另一個(gè)現(xiàn)象隨之每次都發(fā)生大致均等的變動(dòng),散點(diǎn)分布近似一條直線。曲線(非線性)相關(guān):一個(gè)現(xiàn)象的數(shù)量每變動(dòng)一個(gè)單位,另一個(gè)現(xiàn)象隨之發(fā)生不均等的變動(dòng),散點(diǎn)分布近似某種曲線。單相關(guān)(一元相關(guān)):兩個(gè)現(xiàn)象之間的相關(guān)直線(線性)相19相關(guān)關(guān)系的種類一元相關(guān)多元相關(guān)負(fù)相關(guān)正相
關(guān)線性相關(guān)曲線相關(guān)xy正線性相關(guān)xy負(fù)線性相關(guān)xy曲線相關(guān)xy不相關(guān)相關(guān)關(guān)系的種類一元相關(guān)多元相關(guān)負(fù)相關(guān)正相關(guān)線性相關(guān)曲20進(jìn)行相關(guān)分析的一般程序:定性分析定量分析相關(guān)表和相關(guān)圖計(jì)算相關(guān)系數(shù)和判定系數(shù)二、相關(guān)關(guān)系的測(cè)定進(jìn)行相關(guān)分析的一般程序:定性分析定量分析相關(guān)表和相關(guān)圖計(jì)算相21相關(guān)表是表現(xiàn)具有相關(guān)關(guān)系的現(xiàn)象(變量)之間數(shù)量取值的表格。一般將成對(duì)數(shù)據(jù)依其中一個(gè)變量按大小順序排列,另一個(gè)變量對(duì)應(yīng)排列而成。但僅能對(duì)現(xiàn)象作大體初步觀測(cè),當(dāng)涉及多個(gè)影響因素時(shí)制表較困難。相關(guān)圖(散點(diǎn)圖)將兩現(xiàn)象(或多個(gè)現(xiàn)象)對(duì)應(yīng)的樣本觀測(cè)值標(biāo)繪到坐標(biāo)軸上所作的圖形稱為散點(diǎn)圖。(一)相關(guān)表和相關(guān)圖相關(guān)表是表現(xiàn)具有相關(guān)關(guān)系的現(xiàn)象(變量)之間數(shù)量取值的表格。一22能源消耗量與工業(yè)總產(chǎn)值的相關(guān)表能源消耗量(十萬(wàn)噸)工業(yè)總產(chǎn)值(億元)能源消耗量(十萬(wàn)噸)工業(yè)總產(chǎn)值(億元)3524624138256440402465474228685049326949523171515437724859407658
能源消耗量與工業(yè)總產(chǎn)值相關(guān)圖能源消耗量與工業(yè)總產(chǎn)值的相關(guān)表
能源消耗量與工業(yè)總產(chǎn)值相關(guān)圖2319個(gè)發(fā)達(dá)國(guó)家一年的葡萄酒消耗量以及一年中因心臟病死亡的人數(shù)資料(選自《統(tǒng)計(jì)學(xué)的世界》):國(guó)家從葡萄酒攝取的酒精(升)心臟病死亡率(每十萬(wàn)人死亡人數(shù))國(guó)家從葡萄酒攝取的酒精(升)心臟病死亡率(每十萬(wàn)人死亡人數(shù))澳大利亞2.5211荷蘭1.8167奧地利3.9167新西蘭1.9266比利時(shí)/盧森堡2.9131挪威0.8227加拿大2.4191西班牙6.586丹麥2.9220瑞典1.6207芬蘭0.8297瑞士5.8115法國(guó)9.171英國(guó)1.3285冰島0.8211美國(guó)1.2199愛爾蘭0.7300德國(guó)2.7172意大利7.9107
19個(gè)發(fā)達(dá)國(guó)家一年的葡萄酒消耗量以及一年中因心臟病死亡的2419個(gè)發(fā)達(dá)國(guó)家一年的葡萄酒消耗量以及一年中因心臟病死亡的人數(shù)的相關(guān)圖19個(gè)發(fā)達(dá)國(guó)家一年的葡萄酒消耗量以及一年中因心臟病死亡的25身高與足跡長(zhǎng)度的相關(guān)圖身高與足跡長(zhǎng)度的相關(guān)圖26(二)相關(guān)系數(shù)(1)相關(guān)系數(shù)是對(duì)變量之間關(guān)系密切程度的度量;(2)總體相關(guān)系數(shù):反映總體的相關(guān)程度,根據(jù)總體全部數(shù)據(jù)計(jì)算,通常用“ρ”表示;
樣本相關(guān)系數(shù):反映樣本的相關(guān)程度,根據(jù)樣本數(shù)據(jù)計(jì)算。(3)單相關(guān)系數(shù):反映兩個(gè)變量之間的相關(guān)程度;
復(fù)相關(guān)系數(shù):反映兩個(gè)以上變量之間的相關(guān)程度。(4)直線相關(guān)系數(shù)(通常簡(jiǎn)稱為相關(guān)系數(shù)):反映變量之間直線相關(guān)關(guān)系的密切程度;曲線相關(guān)系數(shù)(也稱為非線性相關(guān)系數(shù)或相關(guān)指數(shù))反映變量之間曲線相關(guān)關(guān)系的密切程度。(二)相關(guān)系數(shù)(1)相關(guān)系數(shù)是對(duì)變量之間關(guān)系密切程度的度量;27(5)直線相關(guān)系數(shù)的取值范圍是[-1,1]|r|=1,完全線性相關(guān);r=0,沒有線性相關(guān)-1
r<0,負(fù)線性相關(guān);0<r
1,正線性相關(guān)|r|越趨于1表示兩變量線性關(guān)系越密切;|r|越趨于0表示線性關(guān)系越不密切完全負(fù)相關(guān)完全正相關(guān)無(wú)線性相關(guān)-1.0+1.00-0.5+0.5負(fù)相關(guān)程度增加r正相關(guān)程度增加(5)直線相關(guān)系數(shù)的取值范圍是[-1,1]完全負(fù)相關(guān)完全正2800.40.71.0相關(guān)程度的三級(jí)劃分法(大樣本):不相關(guān)
低度相關(guān)顯著相關(guān)高度相關(guān)完全相關(guān)根據(jù)樣本數(shù)據(jù)計(jì)算樣本相關(guān)系數(shù)的公式:直線相關(guān)系數(shù)的計(jì)算直線相關(guān)系數(shù)一般用積差法公式測(cè)算從公式可以看出,r的符號(hào)決定于分子。
00.29直線相關(guān)的特點(diǎn)(1)兩個(gè)變量是對(duì)等的,不必區(qū)分自變量和因變量;(2)只能計(jì)算出一個(gè)相關(guān)系數(shù);(3)r只反映兩個(gè)變量的直線關(guān)系密切程度,當(dāng)r的絕對(duì)值很小,甚至為0,只表示它們之間沒有直線相關(guān)關(guān)系,但有可能存在其它類型的相關(guān)關(guān)系。相關(guān)系數(shù)的平方稱為判定系數(shù)(可決系數(shù)),用r2表示;可用于判斷回歸方程的擬合優(yōu)度。直線相關(guān)的特點(diǎn)相關(guān)系數(shù)的平方稱為判定系數(shù)(可決系數(shù)30案例研究:發(fā)生車禍次數(shù)與司機(jī)年齡有關(guān)嗎?作為交通安全研究的一部分,美國(guó)交通部采集了每1000個(gè)駕駛執(zhí)照發(fā)生死亡事故的車禍次數(shù)和有駕駛執(zhí)照的司機(jī)中21歲以下者所占比例的數(shù)據(jù),樣本由42個(gè)城市組成,在一年間采集的數(shù)據(jù)及散點(diǎn)圖如下:案例研究:發(fā)生車禍次數(shù)與司機(jī)年齡有關(guān)嗎?作為交通安全研3121歲以下者所占比例(%)
21歲以下者所占比例(%)21歲以下者所占比例(%)21歲以下者所占比例(%)80.885100.039121.913152.81480.368101.014132.962162.80180.645100.493131.142163.62382.19101.926132.634162.94380.82112.091142.885172.62781.267111.849142.352174.191.082111.294142.89173.25691.433120.708141.443183.8390.338121.652141.643183.61490.835121.405152.623
90.926122.246153.224
每千個(gè)駕駛執(zhí)照中發(fā)生車禍次數(shù)每千個(gè)駕駛執(zhí)照中發(fā)生車禍次數(shù)每千個(gè)駕駛執(zhí)照中發(fā)生車禍次數(shù)每千個(gè)駕駛執(zhí)照中發(fā)生車禍次數(shù)21歲以下者所占比例(%)21歲以下者所占比例(%)21歲32EXCEL(三)相關(guān)系數(shù)的顯著性檢驗(yàn)1)檢驗(yàn)總體X與Y之間的線性相關(guān)關(guān)系是否顯著,即檢驗(yàn)自變量X對(duì)因變量Y的線性影響是否顯著;2)在一元線性回歸中,等價(jià)于回歸方程的顯著性檢驗(yàn)及回歸系數(shù)的顯著性檢驗(yàn);3)一般采用t檢驗(yàn)法(大樣本也可用z檢驗(yàn)法)EXCEL(三)相關(guān)系數(shù)的顯著性檢驗(yàn)1)檢驗(yàn)總體X與Y之間的33
相關(guān)系數(shù)的檢驗(yàn)
為什么要檢驗(yàn)?
樣本相關(guān)系數(shù)是隨抽樣而變動(dòng)的隨機(jī)變量,相關(guān)系數(shù)的統(tǒng)計(jì)顯著性還有待檢驗(yàn)。檢驗(yàn)的依據(jù):
如果x與都服從正態(tài)分布,在總體相關(guān)系數(shù)的假設(shè)下,與樣本相關(guān)系數(shù)r有關(guān)的t統(tǒng)計(jì)量服從自由度為n-2的t分布:
相關(guān)系數(shù)的檢驗(yàn)為什么要檢34確定顯著性水平
,并作出決策若
t
>t
,拒絕H0;若
t
<t
,不能拒絕H0計(jì)算檢驗(yàn)的統(tǒng)計(jì)量提出假設(shè):H0:
;H1:
0檢驗(yàn)步驟:當(dāng)n≥50:確定顯著性水平,并作出決策計(jì)算檢驗(yàn)的統(tǒng)計(jì)量提出假設(shè):H0:35拒絕原假設(shè),認(rèn)為總體的這兩個(gè)變量(每千個(gè)駕駛執(zhí)照中發(fā)生車禍的次數(shù)和有駕駛執(zhí)照的司機(jī)中21歲以下者所占比例)之間線性相關(guān)顯著。對(duì)于前例:拒絕原假設(shè),認(rèn)為總體的這兩個(gè)變量(每千個(gè)駕駛執(zhí)照中發(fā)生車36第二節(jié)一元線性回歸分析一、回歸分析的意義(一)回歸分析的含義回歸分析法是借助數(shù)學(xué)方程,揭示具有相關(guān)關(guān)系的變量之間數(shù)量變化規(guī)律的統(tǒng)計(jì)分析方法;回歸分析中的數(shù)學(xué)方程稱為回歸方程。變量之間的數(shù)量變化規(guī)律,是指當(dāng)自變量發(fā)生一定量變化時(shí),平均說(shuō)來(lái)因變量會(huì)發(fā)生多大量的變化。第二節(jié)一元線性回歸分析一、回歸分析的意義37之所以強(qiáng)調(diào)“平均”,是因?yàn)槿绻o定自變量一個(gè)值,因變量有若干值與之對(duì)應(yīng),這些值雖然表現(xiàn)出一定的隨機(jī)性、波動(dòng)性,但是又總是按一定的分布規(guī)律圍繞因變量的均值(數(shù)學(xué)期望)上下波動(dòng),即對(duì)于自變量的某個(gè)確定值,因變量有一個(gè)平均值與之對(duì)應(yīng)。
這樣現(xiàn)象之間數(shù)量不確定的相關(guān)關(guān)系,從平均意義上說(shuō)已轉(zhuǎn)變?yōu)榇_定的函數(shù)關(guān)系,從而為研究不確定關(guān)系提供了可能。之所以強(qiáng)調(diào)“平均”,是因?yàn)槿绻o定自變量一個(gè)值,38(二)回歸分析和相關(guān)分析的聯(lián)系和區(qū)別聯(lián)系(1)都用于分析變量間的關(guān)系;(2)相關(guān)分析是回歸分析的前提,相關(guān)程度越高,回歸分析效果越好;(3)同一例中相關(guān)系數(shù)和回歸系數(shù)方向一致,可以互相推算;r是回歸分析的一個(gè)基本統(tǒng)計(jì)量。(二)回歸分析和相關(guān)分析的聯(lián)系和區(qū)別聯(lián)系(1)都用于分析39
區(qū)別(1)單純的相關(guān)分析不必區(qū)分自變量和因變量;而回歸分析必須區(qū)分,且因變量處在被解釋的地位,自變量用于解釋和預(yù)測(cè)因變量變化。(2)相關(guān)分析中x、y均為隨機(jī)變量,回歸分析中只有y為隨機(jī)變量;(3)相關(guān)分析主要是描述變量之間有無(wú)相關(guān)關(guān)系、關(guān)系的方向、形態(tài)及密切程度;回歸分析要通過回歸方程揭示變量之間的數(shù)量變化規(guī)律。區(qū)別(1)單純的相關(guān)分析不必區(qū)分自變量和因變量;而40(一)總體一元線性回歸理論方程該式確切地反映了Y與X之間密切的相關(guān)關(guān)系,但又沒有到Y(jié)由X唯一確定的地步。式中,是由于X的變化引起Y線性變化的部分;ε是除X的線性影響外的一切隨機(jī)因素引起Y變化的部分(包括未列入模型但又共同影響Y的種種因素、X對(duì)Y的非線性影響以及Y變量的觀測(cè)誤差、隨機(jī)誤差等)。二、一元線性回歸方程的確定(一)總體一元線性回歸理論方程該式確切地反映了Y與X之間41總體回歸理論方程是設(shè)想把所研究總體的每一個(gè)個(gè)體(X,Y)的值都測(cè)量到,利用其全部結(jié)果而建立回歸方程,這事實(shí)上辦不到。只能通過n組樣本觀測(cè)值得到樣本一元線性回歸經(jīng)驗(yàn)方程。對(duì)式兩邊求數(shù)學(xué)期望,該式稱為總體一元線性回歸理論方程從平均意義上表達(dá)了Y與X的統(tǒng)計(jì)規(guī)律性。有:(二)樣本一元線性回歸經(jīng)驗(yàn)方程總體回歸理論方程是設(shè)想把所研究總體的每一個(gè)個(gè)體(X,Y)的值42—因變量的估計(jì)值(回歸理論值、預(yù)測(cè)值)。
a—截距,回歸直線的起始值,即自變量為0時(shí)因變量的回歸估計(jì)值;從經(jīng)濟(jì)意義上理解,是在沒有自變量的影響時(shí),其它各種因素對(duì)因變量的平均影響。
b—回歸系數(shù)(斜率),表示自變量x每變動(dòng)一個(gè)單位引起因變量y的平均變動(dòng)量。估計(jì)參數(shù)的最小平方法(最小二乘法)(LeastSquareMethod)按最小平方法估計(jì)方程參數(shù),要求滿足兩個(gè)條件:若能滿足第一個(gè)條件,第二個(gè)條件自然滿足?!蜃兞康墓烙?jì)值(回歸理論值、預(yù)測(cè)值)。a—截距,回43x
(xi,yi)
yab理想的回歸線應(yīng)該盡可能接近各個(gè)實(shí)際觀察點(diǎn)。只要對(duì)上式中a、b求偏導(dǎo),并令其為0,x(xi,yi)yab理想的回歸44可以得到兩個(gè)正規(guī)(標(biāo)準(zhǔn))方程:
(1)樣本回歸直線必然通過數(shù)據(jù)散點(diǎn)中心(2)回歸系數(shù)與相關(guān)系數(shù)的符號(hào)取決于x、y的協(xié)方差,且具有一定關(guān)系:可以得到兩個(gè)正規(guī)(標(biāo)準(zhǔn))方程:(1)樣本回歸直線必然通過數(shù)45“發(fā)生交通事故與年齡有關(guān)嗎”例b表示有駕駛執(zhí)照的司機(jī)中21歲以下者所占比例每增加1%,每千個(gè)駕駛執(zhí)照中發(fā)生車禍的次數(shù)平均增加0.2867次。EXCEL“發(fā)生交通事故與年齡有關(guān)嗎”例b表示有駕駛執(zhí)照的司機(jī)中21歲46三、回歸估計(jì)的標(biāo)準(zhǔn)差(一)回歸估計(jì)標(biāo)準(zhǔn)差的概念和作用大樣本條件下,分母可用n代替。該指標(biāo)反映因變量實(shí)際值與回歸估計(jì)值之間的平均差異程度,表明回歸估計(jì)值對(duì)實(shí)際值的代表性強(qiáng)弱。其值越小,實(shí)際值與估計(jì)值的平均差異程度越小,估計(jì)值(或回歸方程)的代表性越強(qiáng),進(jìn)行估計(jì)或預(yù)測(cè)的結(jié)果越準(zhǔn)確。
三、回歸估計(jì)的標(biāo)準(zhǔn)差(一)回歸估計(jì)標(biāo)準(zhǔn)差的概念和作用大樣47都是反映平均差異程度和表明代表性的指標(biāo)一般標(biāo)準(zhǔn)差反映實(shí)際值和平均值的差異程度,表明平均值的代表性;回歸估計(jì)標(biāo)準(zhǔn)差反映實(shí)際值和估計(jì)值的差異程度,表明估計(jì)值的代表性。(二)回歸估計(jì)標(biāo)準(zhǔn)差與一般標(biāo)準(zhǔn)差的異同都是反映平均差異程度和表明代表性的指標(biāo)(二)回歸估計(jì)標(biāo)準(zhǔn)差與481、總離差的分解(三)回歸估計(jì)標(biāo)準(zhǔn)差與相關(guān)系數(shù)的關(guān)系xyy{}}
離差分解圖1、總離差的分解(三)回歸估計(jì)標(biāo)準(zhǔn)差與相關(guān)系數(shù)的關(guān)系xyy{49y實(shí)際取值與其平均數(shù)之間的離差稱為總離差。總離差來(lái)源于兩個(gè)方面:一是由于自變量x對(duì)y的線性影響;一是除x以外的其他因素(包括x對(duì)y的非線性影響及測(cè)量誤差等)對(duì)y的影響。對(duì)一個(gè)具體的觀測(cè)值來(lái)說(shuō),總離差的大小可以通過該實(shí)際觀測(cè)值與其均值之差來(lái)表示:總離差=剩余離差+回歸離差↓↓↓y實(shí)際取值與其平均數(shù)之間的離差稱為總離差??傠x50對(duì)上式兩端平方求和整理以后有:↓↓↓總離差平方和=剩余平方和+回歸平方和
總離差平方和(SST):反映因變量n個(gè)觀察值與其均值的總離差
回歸平方和(SSR)—可解釋的平方和:反映自變量x的變化對(duì)因變量y取值變化的線性影響,即x與y之間的線性關(guān)系引起的y取值的變化。
殘差(剩余)平方和(SSE)—不可解釋的平方和:反映x的線性影響以外及x以外的其他因素對(duì)y取值的影響對(duì)上式兩端平方求和整理以后有:↓↓↓512、判定系數(shù)及其意義說(shuō)明觀察值的總離差平方和中有多大的比例可以用回歸直線來(lái)解釋。即因變量的變動(dòng)中由自變量做出解釋的部分,或者說(shuō)由自變量變化所引起因變量的變化在因變量的全部變化中所占的比例。定義為判定系數(shù)2、判定系數(shù)及其意義說(shuō)明觀察值的總離差平方和中有多大的52(1)取值范圍:[0,1](2)作用:反映回歸直線的擬合程度,其值越
1,回歸直線擬合效果越好;反之越差;(3)和相關(guān)系數(shù)的關(guān)系:r2=(r)2,因此判定系數(shù)可間接衡量變量之間的線性相關(guān)程度。3、相關(guān)系數(shù)與回歸估計(jì)標(biāo)準(zhǔn)差的關(guān)系或:相關(guān)系數(shù)直接說(shuō)明變量間的線性關(guān)系密切程度,間接說(shuō)明回歸估計(jì)的精確程度;回歸估計(jì)標(biāo)準(zhǔn)差直接說(shuō)明回歸估計(jì)的精確程度,間接說(shuō)明變量間的線性關(guān)系密切程度。(1)取值范圍:[0,1]3、相關(guān)系數(shù)與回歸估計(jì)53第三節(jié)線性回歸的顯著性檢驗(yàn)及回歸預(yù)測(cè)一、回歸系數(shù)的顯著性檢驗(yàn)(t檢驗(yàn))檢驗(yàn)總體x與y之間是否具有線性關(guān)系,即檢驗(yàn)總體自變量x對(duì)因變量y的影響是否顯著。在一元線性回歸分析中,等價(jià)于回歸方程的顯著性檢驗(yàn);但在多元回歸分析中,回歸方程顯著,不等于每個(gè)回歸系數(shù)都顯著。檢驗(yàn)的理論基礎(chǔ)是回歸系數(shù)的估計(jì)量的抽樣分布。通常采用t檢驗(yàn)法。第三節(jié)一、回歸系數(shù)的顯著性檢驗(yàn)(t檢驗(yàn))檢驗(yàn)總體x與54檢驗(yàn)步驟H0:b=0;其意為總體回歸系數(shù)顯著為0,即總體自變量對(duì)于因變量的線性影響不顯著,x與y之間沒有線性關(guān)系,據(jù)以進(jìn)行回歸分析沒有意義,樣本回歸方程無(wú)效;
H1:b
0;總體回歸系數(shù)顯著不為0,總體自變量對(duì)于因變量的線性影響顯著,x與y之間存在線性關(guān)系,據(jù)以進(jìn)行回歸分析有意義,樣本回歸方程有效。1、提出假設(shè):2、計(jì)算檢驗(yàn)的統(tǒng)計(jì)量檢驗(yàn)步驟H0:b=0;其意為總體回歸系數(shù)顯著為55式中,為回歸估計(jì)標(biāo)準(zhǔn)差,為b的抽樣平均誤差(估計(jì)量的標(biāo)準(zhǔn)差);3、確定顯著性水平
和臨界值,或計(jì)算P-值4、進(jìn)行決策:
t
>t
(n-2)或P-值<
,拒絕H0;反之,不能拒絕H0。前例,在α=0.05的顯著性水平下,可計(jì)算得:式中,為回歸估計(jì)標(biāo)準(zhǔn)差,為b的抽樣平均誤差(估56拒絕H0,總體回歸系數(shù)顯著不為0,說(shuō)明總體兩變量(每千個(gè)駕駛執(zhí)照中發(fā)生死亡事故的車禍次數(shù)和有駕駛執(zhí)照的司機(jī)中21歲以下者所占比例)之間的線性影響關(guān)系是顯著的,樣本回歸方程是有效的。1、
提出假設(shè):二、回歸方程的顯著性檢驗(yàn)(f檢驗(yàn))2、確定檢驗(yàn)統(tǒng)計(jì)量:3、確定顯著性水平
,找出臨界值F
(1,n-2)或計(jì)算P-值;拒絕H0,總體回歸系數(shù)顯著不為0,說(shuō)明總體兩變量(每千個(gè)574、作出決策:若F
F
或P-值<
,拒絕H0;反之不能拒絕H0。
檢驗(yàn)統(tǒng)計(jì)量中,分子的方差(回歸平方和除以其自由度1)是x對(duì)y的線性影響所產(chǎn)生的;分母的方差(剩余平方和除以其自由度n-2)是除去x的線性影響外的其他因素及隨機(jī)因素所產(chǎn)生的。分子越大,二者的比值F值就越大,說(shuō)明x對(duì)y的線性影響就越大,變量間線性相關(guān)性越顯著;若x對(duì)y無(wú)影響,則F=0,故F分布是以0為原點(diǎn)的右偏斜分布;檢驗(yàn)是右側(cè)檢驗(yàn)。4、作出決策:若FF或P-值<,拒絕H0;反之不能58aF分布F
(k-1,n-k)0拒絕H0不能拒絕H0F如果y估計(jì)值=y平均值F=SSR/SSE
0F檢驗(yàn)與t檢驗(yàn)的一致性
在一元線性回歸分析中,回歸方程的檢驗(yàn)等價(jià)于回歸系數(shù)的檢驗(yàn)。對(duì)于同一樣本資料,F檢驗(yàn)與t檢驗(yàn)的結(jié)果完全一致,有:但多元回歸中,二者有所不同(略)。EXCELaF分布F(k-1,n-k)0拒絕H0不能拒絕H0F如59對(duì)于前例,在α=0.05的顯著性水平下,可計(jì)算得:
拒絕H0,總體回歸系數(shù)顯著不為0,說(shuō)明總體兩變量(發(fā)生死亡事故的車禍次數(shù)和司機(jī)中21歲以下者所占比重)之間的線性關(guān)系是顯著的,所擬合的線性回歸方程具有95%的置信概率。對(duì)于前例,在α=0.05的顯著性水平下,可計(jì)算得:拒絕H60三、回歸預(yù)測(cè)1、就是根據(jù)自變量x的一定值來(lái)估計(jì)或預(yù)測(cè)因變量y的可能值;經(jīng)檢驗(yàn)認(rèn)為有意義的回歸方程,可進(jìn)行內(nèi)插預(yù)測(cè)。2、估計(jì)或預(yù)測(cè)的類型點(diǎn)預(yù)測(cè):給定x=xo,因變量y對(duì)應(yīng)的點(diǎn)預(yù)測(cè)為:區(qū)間預(yù)測(cè):在1-
置信水平下,因變量y對(duì)應(yīng)的預(yù)測(cè)區(qū)間為三、回歸預(yù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 噴漆勞務(wù)合同范本
- 商標(biāo)獨(dú)家使用合同范本
- 商用護(hù)發(fā)產(chǎn)品采購(gòu)合同范例
- 北京公司買賣合同范例
- 代收玉米合同范本
- 商家 回購(gòu) 合同范例
- 商業(yè)歌舞演出合同范例
- 公司賣車合同范本
- 公差配合試題庫(kù)(附答案)
- 掌握心理調(diào)節(jié)方法提升養(yǎng)生水平
- 小學(xué)生情緒管理課件
- 《紙飛機(jī)的秘密》課件
- 第1課 中國(guó)古代政治制度的形成與發(fā)展 課件-歷史統(tǒng)編版(2019)選擇性必修1國(guó)家制度與社會(huì)治理
- 2025年中國(guó)中煤校園招聘筆試參考題庫(kù)含答案解析
- 開曼群島公司法2024版中文譯本(含2024年修訂主要內(nèi)容)
- 東北師大附屬中學(xué)2025屆高考數(shù)學(xué)四模試卷含解析
- 漏采血標(biāo)本不良事件根因分析
- 安全管理工作的成果與亮點(diǎn)
- 糧食儲(chǔ)備庫(kù)內(nèi)圓筒鋼板倉(cāng)及附房工程施工組織設(shè)計(jì)
- 學(xué)校科技節(jié)活動(dòng)方案
- 賽事運(yùn)營(yíng)創(chuàng)新模式
評(píng)論
0/150
提交評(píng)論