第五講相關分析與回歸分析_第1頁
第五講相關分析與回歸分析_第2頁
第五講相關分析與回歸分析_第3頁
第五講相關分析與回歸分析_第4頁
第五講相關分析與回歸分析_第5頁
已閱讀5頁,還剩78頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

相關分析與回歸分析

-相關與回歸分析是研究具有非確定性依存關系的現(xiàn)象之間相互關系的統(tǒng)計方法

相關分析一、相關關系概念客觀現(xiàn)象之間是普遍聯(lián)系相互依存的??陀^現(xiàn)象之間的數(shù)量聯(lián)系可分為兩類:(一)確定性的函數(shù)關系(二)不確定性的統(tǒng)計關系—相關關系(三)變量間關系的圖形描述:坐標圖(散點圖)(一)確定性的函數(shù)關系1.函數(shù)關系當一個或幾個變量取一定的值時,另一個變量有確定值與之相對應,我們稱這種關系為確定性的函數(shù)關系。2.函數(shù)關系特點(1)是一一對應的確定關系;(2)設有兩個變量x和y,變量y隨變量x一起變化,并完全依賴于x,當變量x取某個數(shù)值時,

y依確定的關系取相應的值,則稱y是x的函數(shù),記為y=f(x),其中x稱為自變量,y稱為因變量(3)各觀測點(x,y)落在一條線上xy3.函數(shù)關系舉例某種商品的銷售額(y)與銷售量(x)之間的關系可表示為y=px(p為單價)圓的面積與半徑之間的關系可表示為S=r2

企業(yè)的原材料消耗額(y)與產(chǎn)量(x1)、單位產(chǎn)量消耗(x2)、原材料價格(x3)之間的關系可表示為y=x1x2x3

定義:當一個或幾個相互聯(lián)系的變量取一定數(shù)值時,與之相對應的另一變量的值雖然不確定,但它仍按某種規(guī)律在一定的范圍內變化。變量間的這種關系稱為具有不確定性的相關關系。現(xiàn)象之間客觀存在的不嚴格、不確定的數(shù)量依存關系。

(二)相關關系2.相關關系特點(1)變量間關系不能用函數(shù)關系精確表達;(2)一個變量的取值不能由另一個變量唯一確定;當變量x取某個值的時候,變量y的取值可能有幾個;(3)各觀測點(x,y)分布在某條線的周圍。xy商品的消費量(y)與居民收入(x)之間的關系商品的消費量(y)與物價(x)之間的關系商品銷售額(y)與廣告費支出(x)之間的關系糧食畝產(chǎn)量(y)與施肥量(x1)、降雨量(x2)、溫度(x3)之間的關系收入水平(y)與受教育程度(x)之間的關系青少年犯罪率(y)與冰淇淋消費量(x)之間的關系公務員考試成績(y)與受教育程度(x)之間的關系3.相關關系舉例思考題(判斷自變量與因變量)警局負責人認為增加警務支出將降低犯罪率。圖書管理員認為圖書的流通速度與廣告有關。志愿者人數(shù)受天氣條件影響。?二、相關關系的種類相關關系按相關程度分類按相關方向分類按相關形式分類按所研究變量多少分類(1)完全相關:當一種現(xiàn)象的數(shù)量變化完全由另一種現(xiàn)象的數(shù)量變化所確定時,稱這兩種現(xiàn)象間的關系為完全相關。(2)不相關:當兩種現(xiàn)象互不影響,其數(shù)量變化各自獨立時,稱為不相關現(xiàn)象。(3)兩種現(xiàn)象之間的關系介于完全相關和不相關之間,稱為不完全相關。1.按相關的程度可劃分為:完全相關,不完全相關和不相關(1)當兩種相關現(xiàn)象之間的關系大致呈現(xiàn)為線性關系時,稱之為線性相關。(2)當兩種相關現(xiàn)象之間的關系不表現(xiàn)為直線關系,而是近似于某種曲線方程的關系,則這種相關關系稱為非線性相關。2.按相關的形式可劃分為:

線性相關,非線性相關(1)正相關:兩個相關現(xiàn)象間,當一個變量的數(shù)值增加(或減少)時,另一個變量的數(shù)值也隨之增加(或減少),即同方向變化。收入與消費的關系。(2)負相關:當一個變量的數(shù)值增加(或減少)時,而另一個變量的數(shù)值相反地呈減少(或增加)趨勢變化,即反方向變化。物價與消費的關系。3.按相關的方向可劃分為:

正相關,負相關(1)當只研究兩個變量時,它們之間的相關,稱為單相關。(2)當所研究的是一個變量對兩個或兩個以上其他變量的相關關系時,稱為復相關。某種商品的需求與其價格水平以及收入水平之間的相關關系便是一種復相關。4.按相關關系涉及的變量多少可劃分為:

單相關,復相關和偏相關(3)在某一現(xiàn)象與多種現(xiàn)象相關的場合,假定其他變量不變,只考察其中兩個變量的相關關系稱為偏相關。在假定人們的收入水平不變的條件下,某種商品的需求與其價格水平的關系就是一種偏相關。4.按相關關系涉及的變量多少可劃分為:

單相關,復相關和偏相關相關關系的種類小結從變量相關關系變化的方向看正相關——變量同方向變化A同增同減(A)負相關——變量反方向變化一增一減(B)

B從變量相關的程度看完全相關(B)不完全相關(A)不相關(C)C

從涉及的變量數(shù)量看簡單相關多重相關(復相關)從變量相關關系的表現(xiàn)形式看線性相關——散布圖接近一條直線(左圖)非線性相關——散布圖接近一條曲線(右圖)相關關系的圖示:不相關負線性相關正線性相關非線性相關完全負線性相關完全正線性相關三、相關分析相關分析是描述和測度變量間相關關系類型和相關程度的分析方法。在相關分析中,所有變量都假定是隨機變量,它們之間不存在解釋變量和被解釋變量的關系,即不考慮因果關系。就是用一個指標來表明現(xiàn)象間相互依存關系的密切程度。(一)相關關系的判斷(二)相關系數(shù)的測定及其應用定性分析是依據(jù)研究者的理論知識和實踐經(jīng)驗,對客觀現(xiàn)象之間是否存在相關關系,以及何種關系作出判斷。定量分析在定性分析的基礎上,通過編制相關表、繪制相關圖、計算相關系數(shù)等方法,來判斷現(xiàn)象之間相關的方向、形態(tài)及密切程度。(一)相關關系的判斷1.相關表相關表是一種反映變量之間相關關系的統(tǒng)計表。

將自變量x的數(shù)值按照從小到大的順序排列,然后再將與其相關的因變量y的對應數(shù)值平行排列,便可形成簡單的相關表。簡單相關表例:居民消費支出和收入的相關表(單位:百元)

根據(jù)以上資料繪制坐標圖便得到相關圖家庭編號

12345678910消費支出y可支配收入x1520304042536065707818254560627588929998單變量分組表產(chǎn)量(千件)x企業(yè)數(shù)平均單位成本(元/件)y20304050809556516.815.615.014.814.2合計30例:30家企業(yè)按產(chǎn)品產(chǎn)量分組的平均單位產(chǎn)品成本雙變量分組表

例:30家企業(yè)按產(chǎn)品產(chǎn)量和單位產(chǎn)品成本分組

單位成本(元/件)y產(chǎn)量(千件)x合計203040508018161514441--32--131-132--1449107合計9556530

2.相關圖相關圖也稱散點圖,是在平面直角坐標系中,以橫軸表示變量x,縱軸表示變量y,將兩者對應的數(shù)值形成的坐標點(x,y)在圖中標出,即可看出變量之間關系密切程度。如下圖(銷售收入與廣告費相關圖)銷售收入與廣告費相關圖相關關系的圖示(散點圖scatterdiagram)不相關負線性相關正線性相關非線性相關完全負線性相關完全正線性相關散點圖(例題分析)例:一家大型商業(yè)銀行在多個地區(qū)設有分行,其業(yè)務主要是進行基礎設施建設、國家重點項目建設、固定資產(chǎn)投資等項目的貸款。近年該銀行貸款額平穩(wěn)增長,但不良貸款額也有較大提高,給銀行業(yè)務發(fā)展帶來較大壓力。為弄清不良貸款形成的原因,以便找出控制不良貸款的辦法,現(xiàn)利用銀行有關業(yè)務數(shù)據(jù)進行相關分析。下面是該銀行所屬25家分行2002年的有關業(yè)務數(shù)據(jù)。散點圖的重要性下圖是新英格蘭地區(qū)六個州的謀殺率和自殺率(每10萬人口)的數(shù)據(jù):州謀殺率自殺率緬因3.214.3新罕布什爾2.911.3佛蒙特4.317.8馬薩諸塞3.68.9羅德島4.212.3康涅狄格5.48.6散點圖的重要性(續(xù))相關系數(shù)為-0.17,代表弱相關關系,似乎支持一些社會學家的觀點:這兩種形式的暴力是彼此消減的,當一個升高時,另一個就降低。從散點圖中看出康涅狄格州在新英格蘭諸州中有最高的謀殺率和最低的自殺率,導致實際的相關關系降低,只考慮其他5個州的數(shù)據(jù),相關系數(shù)為0.44.(二)相關系數(shù)的測定及其應用1.相關系數(shù)是對變量之間關系密切程度的度量2.對兩個變量之間線性相關程度的度量稱為簡單相關系數(shù)(簡稱相關系數(shù))3.若相關系數(shù)是根據(jù)總體全部數(shù)據(jù)計算的,稱為總體相關系數(shù),記為4.若相關系數(shù)是根據(jù)樣本數(shù)據(jù)計算的,則稱為樣本相關系數(shù),記為r在此僅討論兩變量間相關關系問題。對于隨機變量x和y,總體相關系數(shù)一般是未知的,只能根據(jù)樣本觀測值給出一個估計量即樣本相關系數(shù)r。樣本相關系數(shù)r的計算公式:

或化簡為

表1我國人均國民收入與人均消費金額數(shù)據(jù)

單位:元年份人均國民收入人均消費金額年份人均國民收入人均消費金額1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148例:在研究我國人均消費水平的問題中,把全國人均消費額記為y,把人均國民收入記為x。收集到1981~1993年的樣本數(shù)據(jù)(xi

,yi),i=1,2,…,13,計算相關系數(shù)。年份序號人均國民收入x人均消費金額yx2y2xy123∶∶∶∶13393.8419.14460.86∶∶∶∶2099.5249267289∶∶∶∶1148155078.44175678.34212391.94∶∶∶∶4407900.25620017128983521∶∶∶∶131790498056.20111910.38133188.54∶∶∶∶2410226合計12827.5745716073323.7752263399156173.99解:根據(jù)樣本相關系數(shù)的計算公式有人均國民收入與人均消費金額之間的相關系數(shù)為0.9987,顯示人均國民收入與人均消費金額之間高度正相關。2.相關系數(shù)取值及其意義r

的取值范圍是[-1,1]|r|=1,表明x與y完全線性相關r=1,為完全正線性相關r=-1,為完全負線性相關

r=0,表明x與y不存在線性相關關系-1r<0,為負線性相關0<r1,為正線性相關|r|越趨于1表示x與y線性關系越密切|r|越趨于0表示x與y線性關系越不密切相關系數(shù)(取值及其意義)-1.0+1.00-0.5+0.5完全負相關無線性相關完全正相關負相關程度增加r正相關程度增加3.相關程度評價標準

樣本容量適中時相關關系程度一般判斷標準:無相關或微弱相關低度相關中度相關(顯著相關)高度相關這種判斷必須建立在對相關系數(shù)進行顯著性檢驗的基礎上。習題:某企業(yè)10名工人的工齡和年工資資料如下:職工編號12345678910工齡X(年)44567889910工資Y(百元)42465060646874728084要求:計算相關系數(shù),已知條件如下:4.相關系數(shù)的顯著性檢驗根據(jù)樣本計算的相關系數(shù)r能否代表總體相關系數(shù),只有對其檢驗以后才能下結論。因其具有一定的隨機性,樣本容量越小其可信程度越差。相關系數(shù)的顯著性檢驗問題可分為兩類:一是對總體相關系數(shù)是否等于0進行檢驗;二是對總體相關系數(shù)是否等于某一給定的不為0的數(shù)值進行檢驗。這里只介紹第一類檢驗。相關系數(shù)的顯著性檢驗(方法與步驟)數(shù)學上可以證明,在X與Y都服從正態(tài)分布且的條件下,可以采用t檢驗來確定r

的顯著性。檢驗統(tǒng)計量t服從自由度為n-2的t分布,即:檢驗的步驟為:提出假設:假設樣本是從一個不相關的總體中抽出的,即H0:;H1:0計算檢驗統(tǒng)計量:根據(jù)給定的顯著性水平和自由度df=n-2查t分布表得t(n-2)的臨界值,并作出決策:若t>t(n-2),拒絕H0,表明r在統(tǒng)計上是顯著的,兩變量之間存在顯著線性關系;若t<t(n-2),接受H0,表明r在統(tǒng)計上是不顯著的。

我國人均國民收入與人均消費金額數(shù)據(jù)單位:元年份人均國民收入人均消費金額年份人均國民收入人均消費金額1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148相關系數(shù)的顯著性檢驗【例】在我國居民消費水平研究中,將人均消費額記為y,人均國民收入記為x。收集到1981~1993年的樣本數(shù)據(jù)(xi

,yi,i=1,2,…,13)見下表,計算相關系數(shù)。并對人均消費額與人均國民收入相關系數(shù)進行顯著性檢(0.05)解:根據(jù)樣本相關系數(shù)的計算公式有:人均國民收入與人均消費金額之間的相關系數(shù)為0.9987。顯示人均國民收入與人均消費金額之間高度正相關。相關系數(shù)的顯著性檢驗提出假設:H0:;H1:0計算檢驗統(tǒng)計量根據(jù)顯著性水平=0.05,查t分布表得臨界值

t(n-2)=t0.025(13-2)=2.201

由于t=64.9809>t0.025(13-2)=2.201,所以拒絕H0,接受H1,即說明人均消費金額與人均國民收入之間的相關關系顯著。相關分析小結相關分析就是對總體中確實具有聯(lián)系的標志進行分析,其主體是對總體中具有因果關系標志的分析。它是描述客觀事物相互間關系的密切程度并用適當?shù)慕y(tǒng)計指標表示出來的過程。在一段時期內出生率隨經(jīng)濟水平上升而上升,這說明兩指標間是正相關關系;而在另一時期,隨著經(jīng)濟水平進一步發(fā)展,出現(xiàn)出生率下降的現(xiàn)象,兩指標間就是負相關關系。為了確定相關變量之間的關系,首先應該收集一些數(shù)據(jù),這些數(shù)據(jù)應該是成對的。例如,每人的身高和體重。然后在直角坐標系上描述這些點,這一組點集稱為“散點圖”。

相關分析小結(續(xù))根據(jù)散點圖,當自變量取某一值時,因變量對應為一概率分布,如果對于所有的自變量取值的概率分布都相同,則說明因變量和自變量是沒有相關關系的。反之,如果,自變量的取值不同,因變量的分布也不同,則說明兩者是存在相關關系的。兩個變量之間的相關程度通過相關系數(shù)r來表示。相關系數(shù)r的值在-1和1之間,但可以是此范圍內的任何值。正相關時,r值在0和1之間,散點圖是斜向上的,這時一個變量增加,另一個變量也增加;負相關時,r值在-1和0之間,散點圖是斜向下的,此時一個變量增加,另一個變量將減少。r的絕對值越接近1,兩變量的關聯(lián)程度越強,r的絕對值越接近0,兩變量的關聯(lián)程度越弱。

回歸分析

一、回歸分析的概念1.什么是回歸回歸是由英國著名統(tǒng)計學家FrancisGalton在19世紀末期研究孩子及其父母的身高時提出來的。Galton發(fā)現(xiàn)身材高的父母,他們的孩子也高。但這些孩子平均起來并不像他們父母那樣高。比較矮的父母情形也類似:他們的孩子比較矮,但這些孩子的平均身高要比他們父母的平均身高高。Galton把這種孩子的身高向中間值靠近的趨勢稱之為一種回歸效應,而他發(fā)展的研究兩個數(shù)值變量之間數(shù)量關系的方法稱為回歸分析。2.什么是回歸分析回歸分析是對具有相關關系的變量擬合數(shù)學方程,通過一個或一些變量的變化解釋另一變量變化的方法。二、回歸分析的內容和步驟根據(jù)理論和對問題的分析判斷,區(qū)分自變量(即解釋變量)和因變量(即被解釋變量);從一組樣本數(shù)據(jù)出發(fā),設法確定合適的數(shù)學方程式(即回歸模型regressionmodel)描述變量間的關系;對數(shù)學方程式(回歸模型)的可信程度進行統(tǒng)計檢驗,并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著;利用數(shù)學方程式(回歸模型),根據(jù)一個或幾個自變量的取值來估計或預測因變量的取值,并給出這種估計或預測的精確程度。三、回歸模型的類型按涉及變量多少分為:一元回歸和多元回歸按變量相關的形式分:線性回歸和非線性回歸(僅討論一元回歸分析問題)一個自變量兩個及以上自變量回歸模型多元回歸一元回歸線性回歸非線性回歸線性回歸非線性回歸四、一元線性回歸方程

1.一元線性回歸方程的設定對于只涉及一個自變量的回歸分析,若因變量y與自變量x之間為線性關系,可以用一個線性方程來表示二者之間的關系,此方程為一元線性回歸模型。通常先要收集若干(n)組樣本數(shù)據(jù)(xi,yi,i=1,2,…,n),然后將數(shù)據(jù)繪制散點圖,若圖中顯示x和y之間大致呈線性關系,就可以用一元線性回歸方程來描述這種關系。2.簡單線性回歸分析:因為具有顯著相關關系y不僅受x影響,還受其它因素影響,因此,x、y形成的點不在一直線上,而是分在直線上下變動,呈現(xiàn)線性相關的趨勢,簡單線性回歸方程分析任務就是設法在這些分散的具有線性關系的相關點之間配合一條最優(yōu)的直線,以表明兩面變量之間具體的變動關系

3.一元線性回歸分析的特點必須確定自變量(x)和因變量(y)。

y依x和x依y的兩個回歸方程相互獨立的,不能互換。給出自變量的數(shù)值來估計因變量的數(shù)值。計算相關系數(shù)時,要求相關的兩個變量都是隨機的變量;但是,確定回歸方程時,盡管兩個變量也都是隨機變量,但要求自變量是給定的,因變量是隨機的。

4.回歸方程一元線性回歸方程是用于分析兩個變量(一個自變量與一個因變量)線性關系的數(shù)學表達式,一元線性回歸方程的一般形式為:

式中,x是自變量的實際觀測值。是因變量的估計值(又稱理論值),是當自變量給定一個值時,對應的因變量的許多可能值的平均值。a和b為回歸方程參數(shù),其中b也叫回歸系數(shù)。其幾何意義是:a是直線方程的截距,b是斜率。其經(jīng)濟意義是:a是當x為零時y的起點值,b是當x每增加一個單位時,y平均增加(或減少)的數(shù)量,它的符號同相關系數(shù)r的符號是一致的。返回

4.回歸方程一元線性回歸方程式的確定,實際上是根據(jù)抽樣取得的若干對x和y的觀測值,對方程中兩個未知參數(shù)a和b的確定。根據(jù)最小平方法可的求解a、b兩個參數(shù)的標準方程式為:正規(guī)方程解正規(guī)方程得:

例:某地區(qū)歷年人均收入與商品銷售額資料如下要求建立人均收入與商品銷售額的直線回歸方程.年份人均收入(百元)x商品銷售額(百萬元)y

xy

x2

y219981999200020012002

2430323438

1115141620

264450448544760

576900102411561444121225196256400合計158

76246651001198解:將前面計算表中的有關數(shù)據(jù)代入求參數(shù)a、b的標準方程,得:人均收入與商品銷售額的直線回歸方程為:五、回歸分析與相關分析的區(qū)別相關分析中,變量x

與y處于平等地位;回歸分析中具有相關關系的變量之間地位是非對等的,變量y稱為因變量,處在被解釋的地位,x稱為自變量,用于預測因變量的變化相關分析中所涉及的變量x和y都是隨機變量;回歸分析中,因變量y是隨機變量,自變量x

可以是隨機變量,也可以是非隨機的確定變量相關分析主要描述變量之間相關關系的密切程度;回歸分析不僅可以揭示變量x對變量y的影響大小,還可以由回歸方程進行估計和預測六、回歸估計標準誤差建立了回歸方程以后,通常要用方程估計值Yc來推斷或預測實際值Y。為了分析用Yc去估計Y是否準確可靠,常采用反映回歸直線代表性好壞的統(tǒng)計分析指標,檢驗方程回歸系數(shù)的擬合優(yōu)劣程度。為此需要進行變差分析。六、回歸估計標準誤差六、回歸估計標準誤差1.直線回歸的變差因變量y的取值是不同的,y取值的這種波動稱為變差。變差來源于兩個方面:由于自變量x的取值不同造成的;除x以外的其他因素(如x對y的非線性影響、測量誤差等)的影響。對一個具體的觀測值來說,變差的大小可以通過該實際觀測值與其均值之差(離差)來表示。n個觀察值的總變差()的計算公式為:(總離差平方和)回歸平方和(回歸變差)殘差平方和(剩余變差或隨機變差)

檢驗統(tǒng)計量三個平方和的意義1.總平方和反映因變量的n個觀察值與其均值的總離差2.回歸平方和反映自變量x的變化對因變量y取值變化的影

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論