相關(guān)分析與回歸分析_第1頁
相關(guān)分析與回歸分析_第2頁
相關(guān)分析與回歸分析_第3頁
相關(guān)分析與回歸分析_第4頁
相關(guān)分析與回歸分析_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

關(guān)于相關(guān)分析與回歸分析第一頁,共四十七頁,2022年,8月28日概述相關(guān)分析和回歸分析都是分析客觀事物之間相關(guān)性的數(shù)量分析方法。相互關(guān)系:函數(shù)關(guān)系與統(tǒng)計(jì)關(guān)系統(tǒng)計(jì)關(guān)系:不完全確定的隨機(jī)關(guān)系,當(dāng)一個(gè)或幾個(gè)相互聯(lián)系的變量取一定值時(shí),與其相對(duì)應(yīng)的另一個(gè)變量取值雖不確定,但會(huì)按照某種規(guī)律在一定范圍內(nèi)變化。線性相關(guān):正/負(fù)非線性相關(guān)第二頁,共四十七頁,2022年,8月28日相關(guān)分析-散點(diǎn)圖將數(shù)據(jù)以點(diǎn)的形式畫在直角平面上?;静僮鳎簣D形-舊對(duì)話框-散點(diǎn)/點(diǎn)狀第三頁,共四十七頁,2022年,8月28日相關(guān)系數(shù)兩個(gè)步驟:計(jì)算樣本相關(guān)系數(shù)r;對(duì)樣本來自的兩總體是否存在顯著線性關(guān)系進(jìn)行推斷。提出零假設(shè),即兩總體無線性相關(guān)性;選擇檢驗(yàn)統(tǒng)計(jì)量;計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值和對(duì)應(yīng)的概率p值;決策第四頁,共四十七頁,2022年,8月28日相關(guān)系數(shù)的分類

Pearson簡單相關(guān)系數(shù)(皮爾遜):用來度量正態(tài)分布的定距變量間的線性相關(guān)關(guān)系,Pearson簡單相關(guān)系數(shù)不能用于度量變量之間的非線性關(guān)系Spearman秩相關(guān)系數(shù)(斯皮爾曼):采用非參數(shù)檢驗(yàn)方法來度量定序變量間的線性相關(guān)關(guān)系,由于數(shù)據(jù)為非定距變量,因此不能直接采用原始數(shù)據(jù),而是利用數(shù)據(jù)的秩Kendallτ秩相關(guān)系數(shù)(肯德爾):采用非參數(shù)檢驗(yàn)方法來度量定序變量間的線性相關(guān)關(guān)系第五頁,共四十七頁,2022年,8月28日連續(xù)變量的相關(guān)分析Pearson簡單相關(guān)系數(shù):其中為協(xié)方差,為標(biāo)準(zhǔn)差。x和y是對(duì)稱的,說明x與y的相關(guān)系數(shù)等同于y和x和相關(guān)系數(shù);簡單相關(guān)系數(shù)是無量綱的;x和y做線性變換后可能改變相關(guān)系數(shù)的符號(hào),但不會(huì)改變值;只能度量線性關(guān)系,不能度量非線性關(guān)系的。第六頁,共四十七頁,2022年,8月28日對(duì)相關(guān)關(guān)系的顯著性進(jìn)行檢驗(yàn),該檢驗(yàn)原假設(shè)是:兩總體相關(guān)系數(shù)等于0。t統(tǒng)計(jì)量:,服從自由度為n-2的t分布。第七頁,共四十七頁,2022年,8月28日定序變量的相關(guān)分析-Spearmanui和vi分別表示變量x和y的秩變量,用di=ui-vi表示第i個(gè)樣本對(duì)應(yīng)于兩變量的秩之差。Spearman秩相關(guān)公式:兩變量正相關(guān),秩變化有同步性,r趨向于1;兩變量完全正線性相關(guān),ui和vi相等,r=1;完全負(fù)相關(guān),ui+vi=n+1,r=-1;檢驗(yàn)系數(shù),原假設(shè)為:兩變量不相關(guān)。小樣本,服從Spearman分布;大樣本,服從標(biāo)準(zhǔn)正態(tài)分布。第八頁,共四十七頁,2022年,8月28日定序變量的相關(guān)分析-Kendall秩相關(guān)系數(shù)設(shè)在v1后面有R1個(gè)秩大于v1,v2后面有R2個(gè)秩大于v2,.....在vn-1后面有Rn-1個(gè)秩大于vn-1,令顯然,變量x和y相關(guān)性越強(qiáng),則R越大。Kendall秩相關(guān)系數(shù):第九頁,共四十七頁,2022年,8月28日舉例—kendall秩相關(guān)系數(shù)假如我們?cè)O(shè)一組8人的身高和體重在那里A的人是最高的,第三重,等等:注意,A最高,但體重排名為3,比體重排名為4,5,6,7,8的重,貢獻(xiàn)5個(gè)同序?qū)?,即AB,AE,AF,AG,AH。同理,我們發(fā)現(xiàn)B、C、D、E、F、G、H分別貢獻(xiàn)4、5、4、3、1、0、0個(gè)同序?qū)?,因此,R=5+4+5+4+3+1+0+0=22.因而rk=(88/56)-1=0.57。第十頁,共四十七頁,2022年,8月28日定類變量的相關(guān)分析卡方檢驗(yàn)離散變量的相關(guān)性,稱為列聯(lián)表分析。用多行多列縱橫交錯(cuò)形成一個(gè)表體。Eij為聯(lián)合觀察頻數(shù);ni.為第i行觀察頻數(shù)之和,n.j為第j列觀察頻數(shù)之和。Pearson卡方統(tǒng)計(jì)量:該檢驗(yàn)的原假設(shè)為:兩變量相互獨(dú)立。第十一頁,共四十七頁,2022年,8月28日舉例:列聯(lián)表分析第十二頁,共四十七頁,2022年,8月28日第十三頁,共四十七頁,2022年,8月28日第十四頁,共四十七頁,2022年,8月28日第十五頁,共四十七頁,2022年,8月28日第十六頁,共四十七頁,2022年,8月28日第十七頁,共四十七頁,2022年,8月28日案例6.1雙變量相關(guān)分析案例的資料給出了杭州市2006年市區(qū)分月統(tǒng)計(jì)的平均溫度和日照時(shí)數(shù)。試據(jù)此分析平均溫度和日照時(shí)數(shù)的相關(guān)性。第十八頁,共四十七頁,2022年,8月28日偏相關(guān)分析很多情況下,需要進(jìn)行相關(guān)分析的變量的取值會(huì)同時(shí)受到其他變量的影響,這時(shí)候就需要把其他變量控制住,然后輸出控制其他變量影響后的相關(guān)系數(shù)。SPSS的偏相關(guān)分析(Partial)過程就是為解決這一問題而設(shè)計(jì)的??刂谱兞總€(gè)數(shù)為一時(shí),偏相關(guān)系數(shù)稱為一階偏相關(guān),為2則是二階偏相關(guān)。第十九頁,共四十七頁,2022年,8月28日步驟:計(jì)算樣本的偏相關(guān)系數(shù)對(duì)樣本來自兩總體是否存在顯著凈相關(guān)進(jìn)行推斷:提出零假設(shè):兩總體的偏相關(guān)系數(shù)與零無顯著差異;選擇檢驗(yàn)統(tǒng)計(jì)量t;計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值和對(duì)應(yīng)的概率p值;決策。第二十頁,共四十七頁,2022年,8月28日案例6.2的資料給出了隨機(jī)抽取的山東省某學(xué)校的12名學(xué)生的IQ值、語文成績和數(shù)學(xué)成績。因?yàn)檎Z文成績和數(shù)學(xué)成績都受IQ的影響,所以試用偏相關(guān)分析研究學(xué)生語文成績和數(shù)學(xué)成績的相關(guān)關(guān)系。第二十一頁,共四十七頁,2022年,8月28日案例6.3距離分析SPSS的距離分析(Distances)也屬于相關(guān)分析的范疇,其基本功能是對(duì)樣本觀測(cè)值之間差異性或者相似程度進(jìn)行度量,從而對(duì)數(shù)據(jù)形成一個(gè)初步的了解。這種分析方法主要應(yīng)用在分析之前對(duì)數(shù)據(jù)背后的專業(yè)知識(shí)不夠充分了解,進(jìn)行探索性研究的情形。的資料給出了沈陽、大連和鞍山2006年各月的平均氣溫情況。試用距離分析方法研究這三個(gè)地區(qū)月平均氣溫的相似程度。第二十二頁,共四十七頁,2022年,8月28日回歸分析回歸分析是研究兩個(gè)變量或多個(gè)變量之間因果關(guān)系的統(tǒng)計(jì)方法?;舅枷耄涸谶M(jìn)行相關(guān)分析的基礎(chǔ)上,對(duì)確定具有相關(guān)關(guān)系的兩個(gè)或多個(gè)變量之間數(shù)量變化的一般關(guān)系進(jìn)行測(cè)定,確定一個(gè)合適的數(shù)學(xué)模型,以便從已知量來推斷未知量。第二十三頁,共四十七頁,2022年,8月28日相關(guān)分析與回歸分析的區(qū)別相關(guān)分析研究的變量之間關(guān)系是對(duì)等的,回歸分析研究的變量有解釋和被解釋之分;相關(guān)分析研究的是隨機(jī)變量,回歸分析被解釋變量是隨機(jī)變量,而解釋變量非隨機(jī);相關(guān)分析不能指出變量間相互關(guān)系的具體形式,回歸分析可以通過一個(gè)數(shù)學(xué)表達(dá)式來確定變量之間相關(guān)情況的具體形式。第二十四頁,共四十七頁,2022年,8月28日一般步驟:確定回歸方程中的解釋變量和被解釋變量確定回歸模型建立回歸方程對(duì)回歸方程進(jìn)行各種檢驗(yàn)利用回歸方程進(jìn)行預(yù)測(cè)第二十五頁,共四十七頁,2022年,8月28日線性回歸數(shù)學(xué)模型:使用最小二乘法對(duì)模型中的回歸系數(shù)進(jìn)行估計(jì),得到樣本回歸函數(shù):

是的估計(jì)值,是與其擬合值之間的離差,稱為殘差。第二十六頁,共四十七頁,2022年,8月28日線性回歸建立在以下基本假設(shè)之上對(duì)于所有的i,存在:不同的隨機(jī)擾動(dòng)項(xiàng)之間不存在序列相關(guān),即:解釋變量是非隨機(jī)的,與隨機(jī)擾動(dòng)項(xiàng)不相關(guān)K個(gè)解釋變量不存在共線性第二十七頁,共四十七頁,2022年,8月28日線性回歸模型的檢驗(yàn)一級(jí)檢驗(yàn)統(tǒng)計(jì)學(xué)檢驗(yàn)二級(jí)檢驗(yàn)經(jīng)濟(jì)計(jì)量學(xué)檢驗(yàn)擬合優(yōu)度評(píng)價(jià)顯著性檢驗(yàn)異方差檢驗(yàn)序列相關(guān)檢驗(yàn)第二十八頁,共四十七頁,2022年,8月28日1)模型擬合優(yōu)度評(píng)價(jià)是指樣本觀測(cè)值聚集在樣本回歸線周圍的緊密程度,也反應(yīng)了回歸方程對(duì)被解釋變量的解釋程度。SST=SSR+SSE(總變差,解釋變差,剩余變差)可決系數(shù):R2=SSR/SST=1-SSE/SST(一元線性回歸方程)調(diào)整的可決系數(shù):(多元線性回歸方程)解釋變量增多時(shí),SSE減少,R2增加;有重要“貢獻(xiàn)”的解釋變量出現(xiàn)。第二十九頁,共四十七頁,2022年,8月28日2)回歸方程整體顯著性檢驗(yàn)包含回歸方程的顯著性檢驗(yàn)和回歸系數(shù)的顯著性檢驗(yàn)兩個(gè)部分?;貧w方程的顯著性檢驗(yàn):檢驗(yàn)線性關(guān)系是否顯著(1)建立原假設(shè):,即回歸方程整體不顯著;,即回歸方程整體顯著。(2)構(gòu)造F統(tǒng)計(jì)量:(3)計(jì)算F統(tǒng)計(jì)量和對(duì)應(yīng)的p值(4)對(duì)比p值和ɑ。第三十頁,共四十七頁,2022年,8月28日3)回歸系數(shù)的顯著性檢驗(yàn)(1)建立原假設(shè):,即第j個(gè)回歸系數(shù)不顯著;,即第j個(gè)回歸系數(shù)顯著。(2)構(gòu)造t統(tǒng)計(jì)量:(3)計(jì)算t統(tǒng)計(jì)量和對(duì)應(yīng)的p值(4)對(duì)比p值和ɑ。第三十一頁,共四十七頁,2022年,8月28日4)殘差分析殘差:殘差序列:多個(gè)ei出發(fā)點(diǎn):如果回歸方程能較好地反映被解釋變量的特征和變化規(guī)律,那么殘差序列中應(yīng)不包含明顯的規(guī)律性和趨勢(shì)性。(1)殘差均值為0的正態(tài)性分析;(2)殘差的獨(dú)立性分析:繪制殘差序列的序列圖;計(jì)算殘差的自相關(guān)系數(shù);DW檢驗(yàn)。(零假設(shè):總體的自相關(guān)系數(shù)ρ與0無顯著差異。)第三十二頁,共四十七頁,2022年,8月28日當(dāng)隨機(jī)擾動(dòng)項(xiàng)存在序列相關(guān)時(shí),進(jìn)行Durbin-Watson檢驗(yàn):0<DW<dL:隨機(jī)擾動(dòng)項(xiàng)存在一階正序列相關(guān);4-dL<DW<4:隨機(jī)擾動(dòng)項(xiàng)存在一階負(fù)序列相關(guān);dU<DW<4-dU:隨機(jī)擾動(dòng)項(xiàng)不存在序列相關(guān);dL<DW<dU或者4-dU<DW<4-dL:不能確定是否存在序列相關(guān)。第三十三頁,共四十七頁,2022年,8月28日正相關(guān)不相關(guān)負(fù)相關(guān)第三十四頁,共四十七頁,2022年,8月28日如果殘差序列存在自相關(guān),說明回歸方程沒能充分說明被解釋變量的變化規(guī)律,還留有一些規(guī)律性沒有被解釋,也就是方程中遺漏了一些較為重要的的解釋變量;或者,變量存在滯后性;或者,回歸模型選擇不合適。第三十五頁,共四十七頁,2022年,8月28日(3)異方差(heteroscedasticity)分析:總體回歸函數(shù)中的隨機(jī)誤差項(xiàng)滿足同方差性,即它們都有相同的方差。如果這一假定不滿足,則稱線性回歸模型存在異方差性。兩種方式:繪制殘差圖(p193圖)等級(jí)相關(guān)分析(得到殘差序列后對(duì)其取絕對(duì)值,分別計(jì)算出殘差和解釋變量的秩,最后計(jì)算Spearman等級(jí)相關(guān)系數(shù),進(jìn)行等級(jí)相關(guān)分析。)第三十六頁,共四十七頁,2022年,8月28日5)多元回歸分析的其他問題(1)變量的篩選問題:向前篩選—解釋變量不斷進(jìn)入回歸方程的過程,最高線性相關(guān)系數(shù)的變量最先進(jìn)入;向后篩選—變量不斷剔除出回歸方程的過程,先全部引入,把最不顯著的一個(gè)或多個(gè)變量剔除;逐步篩選—向前和向后的綜合,在引入變量的每個(gè)階段提供剔除不顯著變量的機(jī)會(huì)。第三十七頁,共四十七頁,2022年,8月28日(2)變量的多重共線性問題:指各個(gè)解釋變量之間存在線性相關(guān)關(guān)系的現(xiàn)象。容忍度:方差膨脹因子:,大于10時(shí),存在多重共線性條件指數(shù):,在10以下,多重共線性比較弱,大于100時(shí),存在嚴(yán)重的多重共線性。方差比例:幾個(gè)不同解釋變量,某個(gè)特征根能夠解釋的方差比例超過50%,則認(rèn)為存在較強(qiáng)共線性。第三十八頁,共四十七頁,2022年,8月28日案例6.4簡單線性回歸分析菲利普斯曲線表明,失業(yè)率和通貨膨脹率之間存在著替代關(guān)系。下面的資料給出了我國1998-2007年的通貨膨脹率和城鎮(zhèn)登記失業(yè)率。試用簡單回歸分析方法研究這種替代關(guān)系在我國是否存在。第三十九頁,共四十七頁,2022年,8月28日結(jié)果分析回歸模型:R(失業(yè)率)=3.601+0.157*I(通貨膨脹率)調(diào)整后R平方為0.326,模型的擬合優(yōu)度,也就是對(duì)數(shù)據(jù)的解釋能力一般;因方差分析顯著性為0.049,小于0.05,故模型整體是顯著的;兩個(gè)參數(shù)是顯著的。但通貨膨脹和失業(yè)的替代關(guān)系在我國并不存在。第四十頁,共四十七頁,2022年,8月28日案例6.5多重線性回歸分析為了檢驗(yàn)美國電力行業(yè)是否存在規(guī)模經(jīng)濟(jì),Nerlove(1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論