統(tǒng)計基礎 課件 項目十 相關與回歸分析_第1頁
統(tǒng)計基礎 課件 項目十 相關與回歸分析_第2頁
統(tǒng)計基礎 課件 項目十 相關與回歸分析_第3頁
統(tǒng)計基礎 課件 項目十 相關與回歸分析_第4頁
統(tǒng)計基礎 課件 項目十 相關與回歸分析_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

統(tǒng)計基礎新時代高等院校課證融合新形態(tài)一體化教材相關與回歸分析項目十01相關分析一元線性回歸分析多元線性回歸分析Excel在相關與回歸分析中的應用020304CONTENTSPART01相關分析一、相關分析的概念和類型(一)相關分析的概念現(xiàn)實世界中的各種現(xiàn)象之間相互聯(lián)系、相互制約、相互依存,某一現(xiàn)象發(fā)生變化時,另一現(xiàn)象也隨之發(fā)生變化。例如,商品價格的變化會刺激或抑制商品銷售量的變化;勞動力素質的高低會影響企業(yè)的效益;直接材料、直接人工的價格變化對產(chǎn)品銷售成本有直接的影響,居民收入的高低會影響對企業(yè)產(chǎn)品的需求量,等等。研究這些現(xiàn)象之間的依存關系,找出它們之間的變化規(guī)律,對經(jīng)搜集、整理過的統(tǒng)計數(shù)據(jù)進行數(shù)據(jù)分析,為統(tǒng)計提供客觀、科學的依據(jù)?,F(xiàn)象間的依存關系大致可以分成兩種類型:一類是函數(shù)關系,另一類是相關關系。(2)相關關系。相關關系是指客觀現(xiàn)象之間確實存在的,但數(shù)量上不是嚴格對應的依存關系。在這種關系中,對于某一現(xiàn)象的每一數(shù)值,可以有另一現(xiàn)象的若干數(shù)值與之相對應。(1)函數(shù)關系。函數(shù)關系是指,現(xiàn)象之間的一種嚴格的確定性的依存關系。表現(xiàn)為某一現(xiàn)象發(fā)生變化,另一現(xiàn)象也隨之發(fā)生變化,并且有確定的值與之相對應。具有相關關系的某些現(xiàn)象可表現(xiàn)為因果關系,即某一或若干現(xiàn)象的變化是引起另一現(xiàn)象變化的原因,它是可以控制、給定的值,將其稱為自變量;另一現(xiàn)象的變化是自變量變化的結果,它是不確定的值,將其稱為因變量。例如,資金投入與產(chǎn)值之間,前者為自變量,后者為因變量。但具有相關關系的現(xiàn)象并不都表現(xiàn)為因果關系,如生產(chǎn)費用和生產(chǎn)量、商品的供求與價格等。這是由于相關關系比因果關系包括的范圍更廣泛。相關關系和函數(shù)關系既有區(qū)別,又有聯(lián)系。有些函數(shù)關系往往因為有觀察或測量誤差及各種隨機因素的干擾等原因,在實際中通過相關關系表現(xiàn)出來。而在研究相關關系時,對其數(shù)量間的規(guī)律性了解得越深刻,則越有可能將相關關系轉化為函數(shù)關系或借助函數(shù)關系來表現(xiàn)。(二)相關關系類型現(xiàn)象之間的相關關系從不同的角度可以區(qū)分為不同類型。1.按照相關關系涉及變量(或因素)的多少劃分(1)單相關,又稱一元相關,指兩個變量之間的相關關系,如廣告費支出與產(chǎn)品銷售量之間的相關關系。(1)線性相關,又稱直線相關,是指當一個變量變動時,另一個變量隨之發(fā)生大致均等的變動,從圖形上看,其觀察點的分布近似地表現(xiàn)為一條直線。例如,人均消費水平與人均收入水平通常呈線性關系。(2)復相關,又稱多元相關,指三個或三個以上變量之間的相關關系,如商品銷售額與居民收入、商品價格之間的相關關系。(2)非線性相關,即一個變量變動時,另一個變量也隨之發(fā)生變動,但這種變動不是均等的,從圖形上看,其觀察點的分布近似地表現(xiàn)為一條曲線,如拋物線、指數(shù)曲線等,因此也稱曲線相關。2.按照相關關系的形式不同劃分(3)偏相關,在一個變量與兩個或兩個以上的變量相關的條件下,當假定其他變量不變時,其中兩個變量的相關關系稱為偏相關。3.按照相關現(xiàn)象變化的方向不同劃分(1)正相關,即當一個變量的值增加或減少時,另一個變量的值也隨之增加或減少。例如,工人勞動生產(chǎn)率提高,產(chǎn)品產(chǎn)量也隨之增加;居民的消費水平隨個人所支配收入的增加而增加。(2)負相關,即當一個變量的值增加或減少時,另一個變量的值反而減少或增加。例如,商品流轉額越大,商品流通費用越低;利潤隨單位成本的降低而增加。4.按相關程度劃分(1)完全相關,即當一個變量的數(shù)量完全由另一個變量的數(shù)量變化所確定時,二者之間即為完全相關。(2)不相關,又稱零相關,當變量之間彼此互不影響,其數(shù)量變化各自獨立時,則變量之間為不相關。(3)不完全相關。如果兩個變量的關系介于完全相關和不相關之間,則稱為不完全相關。要判別現(xiàn)象之間有無相關關系,一是定性分析,二是定量分析。(一)定性分析定性分析是指依據(jù)研究者的理論知識、專業(yè)知識和實踐經(jīng)驗,對客觀現(xiàn)象之間是否存在相關關系,以及有何種相關關系做出判斷,并可在定性認識的基礎上,編制相關表、繪制相關圖,以便直觀地判斷現(xiàn)象之間相關的方向、形態(tài)及大致的密切程度。二、相關關系的測定1.相關表相關表是一種統(tǒng)計表。它是直接根據(jù)現(xiàn)象之間的原始資料,將一變量的若干變量值按從小到大的順序排列,并將另一變量的值與之對應排列形成的統(tǒng)計表。2.相關圖相關圖又稱散點圖,它是用直角坐標系的x軸代表自變量,y軸代表因變量,將兩個變量間相對應的變量值用坐標點的形式描繪出來,用以表明相關點分布狀況的圖形。(二)定量分析——相關系數(shù)相關表和相關圖可反映兩個變量之間的相互關系及其相關方向,但無法確切地表明兩個變量之間相關的程度。著名統(tǒng)計學家卡爾·皮爾遜(KarlPearson)設計了統(tǒng)計指標——相關系數(shù)。相關系數(shù)是用以反映變量之間相關關系密切程度的統(tǒng)計指標。依據(jù)相關現(xiàn)象之間的不同特征,其統(tǒng)計指標的名稱有所不同。例如,將反映兩變量間線性相關關系的統(tǒng)計指標稱為相關系數(shù)(相關系數(shù)的平方稱為判定系數(shù));將反映兩變量間曲線相關關系的統(tǒng)計指標稱為非線性相關系數(shù)、非線性判定系數(shù);將反映多元線性相關關系的統(tǒng)計指標稱為復相關系數(shù)、復判定系數(shù)等。這里只介紹相關系數(shù)。相關系數(shù)用r表示,它的基本公式為(1)當r

>0時,表示兩變量正相關;當r<0時,表示兩變量負相關。0102030405(2)當|r|=1時,表示兩變量完全線性相關,即為函數(shù)關系。(3)當r

=0時,表示兩變量間無線性相關關系。(4)當0<|r|<1時,表示兩變量存在一定程度的線性相關;且|r|越接近1,兩變量間線性關系越密切;|r|越接近于0,兩變量的線性相關程度越弱。(5)一般可按三級劃分:|r|<0.4,為低度線性相關;0.4≤|r|<0.7,為顯著性相關;0.7≤|r|<1,為高度線性相關。PPT模板/moban/

相關系數(shù)的值介于-1與+1之間,即-1≤r≤+1。其性質如下:T

extT

ext相關系數(shù)只表明兩個變量間互相影響的程度和方向,并不能說明兩變量間是否有因果關系,以及何為因,何為果,即使是在相關系數(shù)非常大時,也并不意味著兩變量間具有顯著的因果關系。因與果在很多情況下是可以互換的。(一)相關系數(shù)不能解釋兩變量間的因果關系有時兩變量之間并不存在相關關系,但卻可能出現(xiàn)較高的相關系數(shù)。如存在一個同時影響兩變量的因素。在時間數(shù)列資料中往往就會出現(xiàn)這種情況,另外,注意不要在相關關系據(jù)以成立的數(shù)據(jù)范圍以外,仍然保持推論這種相關關系。正相關達到某個極限,就可能變成負相關。這個道理似乎人人都明白,但在分析問題時卻容易忽視。(二)警惕虛假相關導致的錯誤結論三、相關分析中應注意的問題PART02一元線性回歸分析一、回歸分析的概念回歸分析通過一個變量或一些變量的變化去解釋另一個變量的變化。其主要內容和步驟是,首先根據(jù)理論和對問題的分析判斷,將變量分為自變量和因變量;其次,設法找出合適的數(shù)學方程式(即回歸模型)描述變量間的關系;由于涉及的變量具有不確定性,接著還要對回歸模型進行統(tǒng)計檢驗;統(tǒng)計檢驗通過后,最后是利用回歸模型,根據(jù)自變量去估計、預測因變量?;貧w有不同種類,按照自變量的個數(shù)分,有一元回歸和多元回歸。只有一個自變量的叫一元回歸,有兩個或兩個以上自變量的叫多元回歸;按照回歸曲線的形態(tài)分,有線性(直線)回歸和非線性(曲線)回歸。實際分析時應根據(jù)客觀現(xiàn)象的性質、特點、研究目的和任務選取回歸分析方法。二、相關分析與回歸分析的關系相關分析是回歸分析的基礎和前提,回歸分析則是相關分析的深入和繼續(xù)。相關分析需要依靠回歸分析來表現(xiàn)變量之間數(shù)量相關的具體形式,而回歸分析則需要依靠相關分析來表現(xiàn)變量之間數(shù)量變化的相關程度。只有當變量之間高度相關時,進行回歸分析尋求其相關的具體形式才有意義。如果在沒有對變量之間是否相關,以及相關方向和程度做出正確判斷之前,就進行回歸分析,則很容易造成“虛假回歸”。與此同時,相關分析只能研究變量之間相關的方向和程度,不能推斷變量之間相互關系的具體形式,也無法從一個變量的變化來推測另一個變量的變化情況。因此,在具體應用過程中,只有把相關分析和回歸分析結合起來,才能達到研究和分析的目的。(1)在相關分析中涉及的變量不存在自變量和因變量的劃分問題,變量之間的關系是對等的;而在回歸分析中,則必須根據(jù)研究對象的性質和研究分析的目的,對變量進行自變量和因變量的劃分。因此,在回歸分析中,變量之間的關系是不對等的。(2)在相關分析中所有的變量都必須是隨機變量;而在回歸分析中,自變量是給定的,因變量才是隨機的,即將自變量的給定值代入回歸方程后,所得到的因變量的估計值不是唯一確定的,而會表現(xiàn)出一定的隨機波動性。(3)相關分析主要是通過一個指標即相關系數(shù)來反映變量之間相關程度的大小的,由于變量之間是對等的,因此相關系數(shù)是唯一確定的。而在回歸分析中,對于互為因果的兩個變量(如人的身高與體重,商品的價格與需求量),則有可能存在多個回歸方程。二者的區(qū)別主要體現(xiàn)在以下三方面。需要指出的是,變量之間是否存在“真實相關”,是由變量之間的內在聯(lián)系決定的。相關分析和回歸分析只是定量分析的手段,通過相關分析和回歸分析,雖然可以從數(shù)量上反映變量之間的聯(lián)系形式及其密切程度,但是無法準確判斷變量之間內在聯(lián)系的存在與否,也無法判斷變量之間的因果關系。因此,在具體應用過程中,一定要始終注意把定性分析和定量分析結合起來,在準確的定性分析的基礎上展開定量分析。三、一元線性回歸模型對于具有線性相關關系的兩個變量,由于有隨機因素的干擾,兩變量的線性關系中應包括隨機誤差項,即y=α+βx+ε對于x某一確定的值,其對應的y值雖有波動,但隨機誤差的期望值為零,即E(ε)=0,因而從平均意義上說(記E(y)為y),總體線性回歸方程為y=E(y)=α+βx我們可通過樣本觀察值計算α,β,用它對下面樣本回歸直線方程公式中的參數(shù)a,b做出估計,即求樣本回歸方程,進而對總體線性回歸方程進行估計。樣本回歸直線方程又稱一元線性回歸方程,其表達形式為yc=a+bx式中,yc

為因變量的估計值(回歸理論值);a,b為待定參數(shù)。a是回歸直線的起始值(截距),即

x

0

yc

的值,從數(shù)學意義上理解,它表示在沒有自變量

x

的影響時,其他各種因素對因變量

y

的平均影響;b為回歸系數(shù)(直線的斜率),表示自變量

x

每變動一個單位,因變量y平均變動

b

個單位。一元線性回歸方程中的待定參數(shù)是根據(jù)數(shù)據(jù)資料求出的,其計算公式為(由于本書旨在介紹該種方法在統(tǒng)計中的應用,故數(shù)學推導過程略)當求出

a,b

后,便可確定一元線性回歸方程

yc=a+bx。四、回歸估計標準誤差回歸方程的一個重要作用在于根據(jù)自變量的已知值估計因變量的理論值(估計值)。而理論值

yc

與實際值

y

存在著差距,這就產(chǎn)生了推算結果的準確性問題。如果差距小,則說明推算結果的準確性高;反之則低。為此,分析理論值與實際值的差距很有意義。為了度量

y

的實際水平和估計值離差的一般水平,可計算估計標準誤差。估計標準誤差是衡量回歸直線代表性大小的統(tǒng)計分析指標,它說明觀察值圍繞著回歸直線的變化程度或分散程度。(一)估計標準誤差的計算通常用

Se

代表估計標準誤差,其計算公式為一般標準差反映的是各變量值與其平均數(shù)的平均差異程度,表明其平均數(shù)對各變量值的代表性強弱;回歸標準誤差反映的是因變量各實際值與其估計值之間的平均差異程度,表明其估計值對各實際值的代表性強弱,其值越小,估計值

yc(或回歸方程)的代表性越強,用回歸方程估計或預測的結果越準確。(二)回歸估計標準差與一般標準差PART03多元線性回歸分析一、多元線性回歸方程的含義前面所講的一元線性回歸方程只反映一個因變量受一個自變量影響的情況,現(xiàn)實中往往一個因變量受多個自變量的影響。如果只用一個自變量來進行回歸分析,那么分析的結果就存在問題,如果將影響因變量的多個因素結合在一起進行分析,則更能揭示現(xiàn)象內在的規(guī)律。多元線性回歸方程是分析兩個或兩個以上自變量與一個因變量之間相關關系的數(shù)學方程式。其估計的基本程序與一元線性回歸方程相似,也是通過采用最小二乘法擬合一條與實際最為接近的直線方程。因為涉及的自變量為兩個或兩個以上,因此,構建方程時首先需要通過理論分析篩選自變量。假定x為自變量,y為因變量,y值除受自變量x1,x2,x3,…,xn值的影響,還受其他隨機因素的影響。在構建模型時,還應該包括隨機誤差項ε。那么,構建的多元線性回歸模型可以表示為估計的回歸方程為二、建立二元線性回歸方程以二元線性回歸方程的建立為例說明多元線性回歸方程的建立。二元線性回歸方程是分析兩個自變量與一個因變量之間相關關系的數(shù)學方程式。假定

x

為自變量,y

為因變量,y

值除了受自變量

x1,

x2值的影響,還受其他隨機因素的影響。在構建模型時,還應該包括隨機誤差項

ε。那么,構建的二元線性回歸模型可以表示為y

=

a

+

b1x1

+

b2x2

+

ε式中,a

為截距;b1,b2為回歸系數(shù)。b1為假定

x2

固定時,x1每變動1個單位引起的y的增量;b2

為假定

x1

固定時,x2

每變動1個單位引起的y的增量。估計的回歸方程為根據(jù)實際資料,用最小二乘法使

最小分別對a,b1,b2求偏導并令其為零,求得方程組解此方程組便可得到a,b1,b2。a,b1,b2確定后,估計的二元線性回歸方程即可確定,從而也可通過自變量的值估計和推算因變量的值。但通過方程求以上系數(shù)的過程比較復雜,在此不再介紹,現(xiàn)實中多元回歸主要采用計算機軟件進行操作。PART04Excel在相關與回歸分析中的應用任務引入15家企業(yè)產(chǎn)品銷售資料如表10-4-1所示。思考:(1)如何分析產(chǎn)品銷售額與銷售利潤之間的關系;(2)模擬二者的回歸方程;(3)預測當銷售額為1100萬元時,銷售利潤為多少。任務分析本任務涉及15家企業(yè)的數(shù)據(jù),數(shù)據(jù)量比較大,若人工計算,則工作量大且容易出現(xiàn)錯誤,現(xiàn)實中經(jīng)常采用統(tǒng)計軟件進行分析。相關知識一、運用Excel進行相關分析(一)Excel的圖表功能相關圖是通過繪制兩個變量的散點圖來測定變量間相關關系的一種方法。圖表繪制出后,就可以直觀地判斷兩變量間有無關系,若有關系,則是什么關系。以表10-4-1中15家企業(yè)產(chǎn)品銷售資料為例說明繪制散點圖的具體操作步驟。(1)選定Excel中的數(shù)據(jù)。(2)切換到“插入”選項卡,單擊“圖表”組右下角的“查看所有圖表”按鈕,打開“插入圖表”對話框如圖10-4-1所示,切換到“所有圖表”選項卡,選擇“XY散點圖”選項,選擇適合的散點圖模型。(3)單擊“確定”按鈕后,在Excel中會形成一個基本的散點圖。根據(jù)需要選中圖表,單擊鼠標右鍵,對散點圖進行增加、修改或刪減一些項目,最終形成的散點圖如圖10-4-2所示。圖中X軸代表銷售額,Y軸代表銷售利潤,散點圖反映二者之間的相關關系。可以看出,隨著銷售額的增加,銷售利潤是呈現(xiàn)上升趨勢的,而且銷售額與銷售利潤的關系近似于一條直線,因此二者呈正線性相關關系,且高度相關。(二)Excel的函數(shù)功能Excel提供了兩個可以計算相關系數(shù)的函數(shù),分別是PEARSON和CORREL,兩者操作步驟相似。仍然以表10-4-1中15家企業(yè)產(chǎn)品銷售資料為例說明通過Excel的函數(shù)功能計算相關系數(shù)的具體操作步驟。(1)在數(shù)據(jù)區(qū)域外選擇一個空白單元格,用來放置相關系數(shù)的值。(2)切換到“公式”選項卡,單擊“插入函數(shù)”按鈕,打開“插入函數(shù)”對話框,展開“或選擇類別”下拉列表,選擇“全部”(或“統(tǒng)計”)選項,再在“選擇函數(shù)”列表框中選擇PEARSON(或CORREL)選項,單擊“確定”按鈕。(3)打開“函數(shù)參數(shù)”對話框,如圖10-4-3所示,在Array1輸入框中輸入一組變量,通常是自變量,Array2輸入框中輸入另一組變量,通常是因變量,然后單擊“確定”按鈕。因為相關分析中兩個變量是平等的,故而,無論先輸入哪一組數(shù)據(jù),都不會影響相關系數(shù)的結果。(4)在原選定的單元格中出現(xiàn)結果0.984398,即相關系數(shù)的值。圖10-4-3

“函數(shù)參數(shù)”對話框(三)Excel的數(shù)據(jù)分析功能在Excel的數(shù)據(jù)分析功能中,仍然提供了兩種求相關系數(shù)的方法。一種是數(shù)據(jù)分析中的“相關系數(shù)”,另一種是數(shù)據(jù)分析中的“回歸”,稍后就會介紹到回歸,這里暫不介紹。仍然以表10-4-1中15家企業(yè)產(chǎn)品銷售資料為例說明通過Excel的數(shù)據(jù)分析功能計算相關系數(shù)的具體操作步驟。(1)切換到“數(shù)據(jù)”選項卡,單擊“數(shù)據(jù)分析”按鈕,打開“數(shù)據(jù)分析”對話框,在“分析工具”列表框中選擇“相關系數(shù)”選項,單擊“確定”按鈕。(2)打開“相關系數(shù)”對話框,在“輸入”選項組中,單擊“輸入?yún)^(qū)域”對話框,選擇全部數(shù)據(jù)(包括文字),勾選“標志位于第一行”復選框,根據(jù)需要在“輸出區(qū)域”選項組中選擇相應的單選按鈕,最后單擊“確定”按鈕。“相關系數(shù)”對話框如圖10-4-4所示。(3)出現(xiàn)相關系數(shù)的結果,如表10-4-2所示??梢?,銷售利潤與銷售額的相關系數(shù)為0.984398479,二者高度線性正相關。二、運用Excel進行回歸分析運用Excel進行回歸分析主要是利用Excel的數(shù)據(jù)分析功能實現(xiàn)的。仍然以表10-4-1中15家企業(yè)產(chǎn)品銷售資料為例說明通過Excel的數(shù)據(jù)分析功能進行回歸分析的具體操作步驟。(1)切換到“數(shù)據(jù)”選項卡,單擊“數(shù)據(jù)分析”按鈕,打開“數(shù)據(jù)分析”對話框,在“分析工具”列表框中選擇“回歸”選項,單擊“確定”按鈕。(2)打開“回歸”對話框。(3)“回歸”對話框中的X代表的是自變量,Y代表的是因變量。因此必須首先分析數(shù)據(jù)的關系從而判斷自變量和因變量。從表10-4-1所示的數(shù)據(jù)資料很容易分析出銷售額會影響銷售利潤,銷售額是影響因素,是自變量,銷售利潤是因變量。單擊“X值輸入?yún)^(qū)域”對話框,選擇銷售額一列的數(shù)據(jù),單擊“Y值輸入?yún)^(qū)域”對話框,選擇銷售利潤一列的數(shù)據(jù)。若勾選“標志”復選框,則“輸入?yún)^(qū)域”應包含標志,若不勾選,則只需選擇數(shù)據(jù)。根據(jù)需要在“輸出區(qū)域”選項組中選擇相應的單選按鈕,單擊“確定”按鈕?!盎貧w”對話框如圖10-4-5所示。(4)回歸的結果主要有回歸統(tǒng)計表(見表10-4-3)、方差分析表(見表10-4-4)和回歸參數(shù)表(見表10-4-5)三個。表10-4-3中,MultipleR稱為相關系數(shù),它用來衡量變量x和y之間相關程度的大小。MultipleR為0.984398,表示二者之間的關系是高度正相關關系。RSquare即R2,稱為判定系數(shù),用來說明用自變量解釋因變量變差的程度,以測量自變量同因變量y的擬合效果。判定系數(shù)為0.96904,表明用自變量可解釋因變量變差的96.90%。AdjustedRSquare為調整的判定系數(shù),它用于衡量加入獨立變量后模型的擬合程度,僅用于多元回歸才有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論