統(tǒng)計(jì)分析軟件教程相關(guān)與回歸分演示文稿_第1頁(yè)
統(tǒng)計(jì)分析軟件教程相關(guān)與回歸分演示文稿_第2頁(yè)
統(tǒng)計(jì)分析軟件教程相關(guān)與回歸分演示文稿_第3頁(yè)
統(tǒng)計(jì)分析軟件教程相關(guān)與回歸分演示文稿_第4頁(yè)
統(tǒng)計(jì)分析軟件教程相關(guān)與回歸分演示文稿_第5頁(yè)
已閱讀5頁(yè),還剩114頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì)分析軟件教程相關(guān)與回歸分演示文稿當(dāng)前1頁(yè),總共119頁(yè)。(優(yōu)選)統(tǒng)計(jì)分析軟件教程相關(guān)與回歸分當(dāng)前2頁(yè),總共119頁(yè)。33/16/2023第五章33/16/2023目錄5.1相關(guān)與回歸分析概述5.2線性相關(guān)分析的CORR過程5.3線性回歸分析的REG過程5.4非線性回歸分析過程*5.5Logistic回歸分析過程*當(dāng)前3頁(yè),總共119頁(yè)。43/16/2023第五章43/16/20235.1相關(guān)與回歸分析概述

1.相關(guān)與回歸分析基本概念·相關(guān)分析(CorrelationAnalysis):是研究變量之間依存關(guān)系的密切程度。·回歸分析(RegressionAnalysis):是根據(jù)相關(guān)關(guān)系的具體形態(tài),選擇一個(gè)合適的數(shù)學(xué)模型,近似地表達(dá)變量間的平均變化關(guān)系。當(dāng)前4頁(yè),總共119頁(yè)。53/16/2023第五章53/16/2023

·兩者的關(guān)系:具有共同的研究對(duì)象,在應(yīng)用中互相補(bǔ)充。相關(guān)分析需要回歸分析來進(jìn)一步表明變量相關(guān)的具體形式,而回歸分析則需要相關(guān)分析所表明的變量間是否存在相關(guān)及相關(guān)程度的高低作為依據(jù)。只有變量之間高度相關(guān)時(shí),進(jìn)行回歸分析尋求其相關(guān)的具體形式才有意義。而在相關(guān)程度很低的情況下回歸函數(shù)表達(dá)式的代表性幾乎就不存在了。當(dāng)前5頁(yè),總共119頁(yè)。63/16/2023第五章63/16/2023

·兩者的區(qū)別:第一,相關(guān)分析沒有自變量和因變量之分?;貧w分析必須事先確定變量中哪個(gè)是自變量,哪個(gè)是因變量,兩個(gè)變量的地位不是對(duì)等的;第二,相關(guān)分析所涉及的兩個(gè)變量都是隨機(jī)變量,在回歸分析中通常把因變量作為隨機(jī)變量,而自變量作為非隨機(jī)變量;第三,相關(guān)分析通過相關(guān)系數(shù)描述變量的關(guān)系。改變兩變量的地位不影響相關(guān)系數(shù)的數(shù)值。而回歸分析是通過回歸方程進(jìn)行估計(jì)和預(yù)測(cè)。改變兩變量的地位后所形成的回歸方程的性質(zhì)是不同的。當(dāng)前6頁(yè),總共119頁(yè)。73/16/2023第五章73/16/20232.相關(guān)分析的內(nèi)容與種類

相關(guān)分析的主要內(nèi)容有:確定相關(guān)關(guān)系的存在,相關(guān)關(guān)系呈現(xiàn)的形態(tài)和方向,相關(guān)關(guān)系的密切程度。其主要方法是繪制相關(guān)圖表和計(jì)算相關(guān)系數(shù)。在分析過程中的按分析方法分主要包括兩類:

?線性相關(guān)(LinearCorrelation):又稱為簡(jiǎn)單相關(guān)(SimpleCorrelation),適用于雙變量符合正態(tài)分布類型的數(shù)據(jù)屬于參數(shù)統(tǒng)計(jì)分析方法的范疇。當(dāng)前7頁(yè),總共119頁(yè)。83/16/2023第五章83/16/2023

?秩相關(guān)(RankCorrelation):秩相關(guān)又稱等級(jí)相關(guān),適用于雙變量等級(jí)資料類型的數(shù)據(jù)。屬于非參數(shù)統(tǒng)計(jì)分析方法。秩相關(guān)分析方法適用于下列類型的資料:①不服從變量正態(tài)分布的數(shù)據(jù)。②總體分布類型未知的數(shù)據(jù)。③以等級(jí)表示的數(shù)據(jù)。

當(dāng)前8頁(yè),總共119頁(yè)。93/16/2023第五章93/16/2023相關(guān)關(guān)系非線性相關(guān)線性相關(guān)正相關(guān)正相關(guān)負(fù)相關(guān)負(fù)相關(guān)完全相關(guān)不相關(guān)按關(guān)系類型分:當(dāng)前9頁(yè),總共119頁(yè)。103/16/2023第五章103/16/2023不相關(guān)負(fù)線性相關(guān)正線性相關(guān)非線性相關(guān)完全負(fù)線性相關(guān)完全正線性相關(guān)相關(guān)關(guān)系的圖示當(dāng)前10頁(yè),總共119頁(yè)。113/16/2023第五章113/16/2023SAS系統(tǒng)中相關(guān)分析的方法主要包括:

Pearson(皮爾遜)積差相關(guān)Spearman(斯皮爾曼)等級(jí)相關(guān)Kendall(卡德爾)等級(jí)相關(guān)HOEFFDING(霍夫丁)D相關(guān)當(dāng)前11頁(yè),總共119頁(yè)。123/16/2023第五章123/16/20233.回歸分析的內(nèi)容與種類

如果因變量是(非時(shí)間的)連續(xù)變量(即一般定量資料),設(shè)自變量的個(gè)數(shù)為k,當(dāng)k=1時(shí),回歸分析的種類有:①直線回歸分析②通過直線化實(shí)現(xiàn)的簡(jiǎn)單曲線回歸分析(以下簡(jiǎn)稱為曲線擬合)

非線性曲線擬合一般多項(xiàng)式曲線擬合。正交多項(xiàng)式曲線擬合。當(dāng)前12頁(yè),總共119頁(yè)。133/16/2023第五章133/16/20235.2線性相關(guān)分析的CORR過程

SAS系統(tǒng)的線性相關(guān)分析過程是由CORR過程完成的。該過程由系統(tǒng)的BASE模塊提供,可以計(jì)算:PEARSON(皮爾遜)積差相關(guān)系數(shù)、SPEARMAN(斯皮爾曼)秩相關(guān)系數(shù)、KENDALL(卡德爾)TAU-B統(tǒng)計(jì)量、HOEFFDING(霍夫丁)獨(dú)立性分析統(tǒng)計(jì)量D以及Pearson、Spearman以及Kendall線性偏相關(guān)系數(shù)。另外,它還對(duì)用于估計(jì)可靠性的Cronbach系數(shù)α進(jìn)行計(jì)算。當(dāng)前13頁(yè),總共119頁(yè)。143/16/2023第五章143/16/20231.語(yǔ)句格式:

PROCCORR[選擇項(xiàng)];VAR變量表;WITH變量表;PARTIAL變量表;WEIGHT變量;FREQ變量;BY變量表;當(dāng)前14頁(yè),總共119頁(yè)。153/16/2023第五章153/16/20232.常用選項(xiàng):

(1)PROCCORR語(yǔ)句的選擇項(xiàng):1.DATA=SAS數(shù)據(jù)集2.PEAESON計(jì)算皮爾遜相關(guān)系數(shù)(默認(rèn))3.SPEARMAN計(jì)算斯皮爾曼系數(shù)4.HOEFFDING計(jì)算霍夫丁D統(tǒng)計(jì)量5.KENDALL計(jì)算卡德爾系數(shù)6.OUT(P│S│K│H)=SAS數(shù)據(jù)集輸出數(shù)據(jù)集。分別對(duì)應(yīng)與四個(gè)系數(shù)輸出數(shù)據(jù)集當(dāng)前15頁(yè),總共119頁(yè)。163/16/2023第五章163/16/2023

7.NOMISS分析時(shí)剔除缺失值8.NOSIMPLE不列出描述統(tǒng)計(jì)量9.COV列出協(xié)方差矩陣10.ALPHA計(jì)算并輸出阿爾法系數(shù)(CRONBACH系數(shù))(2)功能語(yǔ)句

1.VAR語(yǔ)句:計(jì)算所有數(shù)值型變量間的相關(guān)系數(shù)2.WITH語(yǔ)句:必須與VAR語(yǔ)句同時(shí)使用,只計(jì)算VAR變量與WITH變量的相關(guān)系數(shù)。3.PARTIAL:偏相關(guān)變量表;/*偏相關(guān)*/4.BY語(yǔ)句:數(shù)據(jù)集按照BY語(yǔ)句中變量的值分組,在每組內(nèi)分別進(jìn)行相關(guān)系數(shù)的計(jì)算。數(shù)據(jù)集內(nèi)的數(shù)據(jù)必須先按照BY變量的值排序當(dāng)前16頁(yè),總共119頁(yè)。173/16/2023第五章173/16/2023[例5-1]

數(shù)據(jù)集MYDATA.CPI是某地區(qū)30戶居民家庭的月可支配收入(INCOME)和月消費(fèi)支出(CSPT)的原始資料,試通過相關(guān)分析月可支配收入和月消費(fèi)支出兩個(gè)變量間是否存在相關(guān)關(guān)系。

由于這兩個(gè)分析變量均為連續(xù)變量。因此,可以使用PEARSON積差相關(guān)分析過程。為了更直觀的反映兩個(gè)變量之間的關(guān)系,在使用CORR過程分析之前,使用PLOT過程作散點(diǎn)圖。當(dāng)前17頁(yè),總共119頁(yè)。183/16/2023第五章183/16/2023

編程PROCGPLOTDATA=DATA.CPI;PLOTCSP*INCOME;RUN;PROCCORRDATA=DATA.CPIOUTS=DA1;VARINCOMECSP;RUN;當(dāng)前18頁(yè),總共119頁(yè)。193/16/2023第五章193/16/2023輸出結(jié)果—散點(diǎn)圖

從散點(diǎn)圖中可以看到兩個(gè)變量基本上呈現(xiàn)直線關(guān)系

當(dāng)前19頁(yè),總共119頁(yè)。203/16/2023第五章203/16/2023輸出結(jié)果—相關(guān)分析結(jié)果

當(dāng)前20頁(yè),總共119頁(yè)。213/16/2023第五章213/16/2023結(jié)果分析CORR過程的默認(rèn)輸出結(jié)果分為兩部分:

第一部分“SimpleStatistics”為描述分析,輸出VAR語(yǔ)句中所有變量的描述統(tǒng)計(jì)量的基本信息變量名(Variable)觀測(cè)數(shù)(N)均值(Mean)變量值的和(Sum)標(biāo)準(zhǔn)差(StdDev)最小值(Minimum)最大值(Maximum)變量標(biāo)簽(Label)當(dāng)前21頁(yè),總共119頁(yè)。223/16/2023第五章223/16/2023結(jié)果分析

第二部分“PearsonCorrelationCoefficients”為默認(rèn)的PEARSON(皮爾遜)積差相關(guān)分析結(jié)果。是在原假設(shè)為總體相關(guān)系數(shù)等于零(Prob>|r|underH0:Rho=0)條件下的PEARSON積差相關(guān)系數(shù)矩陣,該矩陣是一個(gè)對(duì)角方陣??梢钥闯鰞勺兞康木€性相關(guān)系數(shù)值為0.967,說明兩變量為高度線性相關(guān),其檢驗(yàn)概率為Prob>|r|小于0.0001。小于默認(rèn)的顯著性水平,因此從總體上可以認(rèn)為兩個(gè)變量呈高度線性相關(guān)。當(dāng)前22頁(yè),總共119頁(yè)。233/16/2023第五章233/16/2023[例5-2]

數(shù)據(jù)集DST.BCLASS是某學(xué)校學(xué)生身體狀況的資料。運(yùn)行下列兩組程序,了解WITH語(yǔ)句的作用。

程序1:

程序2:PROCCORRDATA=DST.BCLASSNOSIMPLE;VARAGEHEIGHTWEIGHT;RUN;PROCCORRDATA=DST.BCLASSNOSIMPLE;VARHEIGHTWEIGHT;WITHAGE;RUN;當(dāng)前23頁(yè),總共119頁(yè)。243/16/2023第五章243/16/2023運(yùn)行結(jié)果運(yùn)行結(jié)果-未使用WITH語(yǔ)句運(yùn)行結(jié)果-使用WITH語(yǔ)句當(dāng)前24頁(yè),總共119頁(yè)。253/16/2023[例5-3]數(shù)據(jù)集MYDATA.VITAL是一組肺活量、身高體重的實(shí)測(cè)資料要求:

(1)對(duì)三個(gè)變量進(jìn)行簡(jiǎn)單線性相關(guān)分析;(2)分別以身高與體重為控制變量進(jìn)行一階偏相關(guān)分析。編程1:簡(jiǎn)單線性相關(guān)分析(CORR的一般過程)PROCCORRNOSIMPLE;VARHEIGHTWEIGHT;WITHVITAL;RUN;第五章253/16/2023當(dāng)前25頁(yè),總共119頁(yè)。263/16/2023運(yùn)行結(jié)果第五章263/16/2023當(dāng)前26頁(yè),總共119頁(yè)。273/16/2023編程2:偏相關(guān)過程(以WEIGHT為控制變量)

PROCCORRNOSIMPLE;VARHEIGHTVITAL;PARTIALWEIGHT;RUN;第五章273/16/2023當(dāng)前27頁(yè),總共119頁(yè)。283/16/2023編程3:偏相關(guān)過程(以HEIGHT為控制變量)

PROCCORRNOSIMPLE;VARWEIGHTVITAL;PARTIALHEIGHT;RUN;第五章283/16/2023當(dāng)前28頁(yè),總共119頁(yè)。293/16/2023[例5-4]

大型企業(yè)以“你在企業(yè)改革中最需要解決什么?”為題,分別對(duì)企業(yè)管理人員和普通員工共200名進(jìn)行了問卷調(diào)查。經(jīng)整理后得下表所列的資料。分析兩種人員“需要”的相關(guān)程度。由于兩變量是離散變量,因此需要使用秩相關(guān)分析過程。第五章293/16/2023當(dāng)前29頁(yè),總共119頁(yè)。303/16/2023第五章303/16/2023當(dāng)前30頁(yè),總共119頁(yè)。313/16/2023DATALI54;INPUTworkermanager@@;CARDS;2619102116825165116159733;PROCPRINT;RUN;第五章313/16/2023創(chuàng)建數(shù)據(jù)集當(dāng)前31頁(yè),總共119頁(yè)。323/16/2023PROCRANKDATA=LI54OUT=LI54_R;VARworkermanager;RANKSR_workerR_manager;PROCPRINT;RUN;PROCCORRDATA=LI54_RSPEARMAN;VARR_workerR_manager;RUN;第五章323/16/2023分析過程當(dāng)前32頁(yè),總共119頁(yè)。333/16/2023運(yùn)行結(jié)果第五章333/16/2023

兩變量的線性相關(guān)系數(shù)值為0.61905,說明兩變量為中度線性相關(guān),但其檢驗(yàn)概率值Prob>|r|為0.1017,大于默認(rèn)的顯著性水平,因此從總體上不能認(rèn)為兩個(gè)變量具有線性相關(guān)關(guān)系。當(dāng)前33頁(yè),總共119頁(yè)。

數(shù)據(jù)集EXAM包含四個(gè)子測(cè)驗(yàn)的分?jǐn)?shù),分別是VOCAB(詞匯)、READING(閱讀)、SPELLING(拼寫)、USAGE(語(yǔ)法)等,分析這些子測(cè)驗(yàn)成績(jī)是否與英語(yǔ)總成績(jī)有關(guān)。編程:PROCCORRDATA=EXAMALPHANOSIMPLE;VARVOCABREADINGSPELLINGUSAGE;RUN;343/16/2023[示例5-1]*第五章當(dāng)前34頁(yè),總共119頁(yè)。運(yùn)行結(jié)果353/16/2023第五章當(dāng)前35頁(yè),總共119頁(yè)。結(jié)果說明

輸出結(jié)果的第一部分(CronbachCoefficientAlpha)含兩個(gè)阿爾法系數(shù),第一個(gè)值(Raw)Alpha=0.895444是根據(jù)原始分?jǐn)?shù)導(dǎo)出的,第二個(gè)值(Standardized)Alpha=0.889552是根據(jù)標(biāo)準(zhǔn)化后的分?jǐn)?shù)導(dǎo)出的,二者的值都相當(dāng)高。因此,可下結(jié)論說由這四個(gè)子測(cè)驗(yàn)分?jǐn)?shù)的總和所形成英語(yǔ)總成績(jī)的顯示極高的可信度。363/16/2023第五章當(dāng)前36頁(yè),總共119頁(yè)。

輸出結(jié)果的第二部分是各子測(cè)驗(yàn)與總成績(jī)的相關(guān)系數(shù),就READING(閱讀)而言,該子測(cè)驗(yàn)與總分的相關(guān)最高r=0.921181(根據(jù)原始分?jǐn)?shù))或r=0.902411(根據(jù)標(biāo)準(zhǔn)化分?jǐn)?shù))。如果考試中不包括此子測(cè)驗(yàn),則阿爾法信度減為0.802956(根據(jù)原始分?jǐn)?shù)),或0.801067(根據(jù)標(biāo)準(zhǔn)化分?jǐn)?shù))。輸出結(jié)果的第三部分是一個(gè)的Pearson(皮爾遜相關(guān)系數(shù)矩陣),其元素為四個(gè)子測(cè)驗(yàn)兩兩相關(guān)的相關(guān)系數(shù)以及其統(tǒng)計(jì)檢驗(yàn)的顯著程度。373/16/2023第五章當(dāng)前37頁(yè),總共119頁(yè)。383/16/20235.3線性回歸分析的REG過程

SAS系統(tǒng)中主要回歸分析過程:

1、GLM(GenerallinearModel):通用線性模型。用最小二乘法擬合,既可處理連續(xù)變量也處理離散變量。主要用于建立一般線性回歸模型和方差分析2、CATMOD(CategoricalDataModeling):對(duì)數(shù)模型。用于對(duì)頻數(shù)表的分析,可擬合對(duì)數(shù)線性模型、Logistic回歸模型等3、REG:線性回歸的基本過程。第五章383/16/2023當(dāng)前38頁(yè),總共119頁(yè)。393/16/2023

1.可處理多個(gè)MODEL語(yǔ)句。2.提供9種模型選擇的方法。3.允許交互式修改模型或建模用數(shù)據(jù)。4.可對(duì)線性及多變量假設(shè)進(jìn)行檢驗(yàn)。5.作數(shù)據(jù)或統(tǒng)計(jì)量的散點(diǎn)圖。6.可進(jìn)行回歸診斷并給出相應(yīng)統(tǒng)計(jì)量。7.可利用相關(guān)矩陣或協(xié)方差陣作為建模的數(shù)據(jù)。8.可進(jìn)行回歸預(yù)測(cè)并估計(jì)預(yù)測(cè)值、殘差、置信度等第五章393/16/2023REG過程的主要功能:當(dāng)前39頁(yè),總共119頁(yè)。403/16/2023PROCREG[選擇項(xiàng)];MODEL因變量=自變量1自變量2???/[選擇項(xiàng)];VAR變量;FREQ變量;BY變量;第五章403/16/2023REG過程語(yǔ)句格式當(dāng)前40頁(yè),總共119頁(yè)。413/16/2023REG過程語(yǔ)句說明1.PROCREG語(yǔ)句:調(diào)用REG過程,可使用的選擇項(xiàng)包括:

①DATA=SAS數(shù)據(jù)集②OUTEST=SAS數(shù)據(jù)集將有關(guān)模型的參數(shù)輸出③OUTSSCP=SAS數(shù)據(jù)集將變量的平方和和內(nèi)乘積輸出到數(shù)據(jù)集④ALL屏幕輸出所有內(nèi)容。⑤CORR輸出列在MODEL語(yǔ)句和VAR語(yǔ)句中的所有變量間的相關(guān)矩陣。⑥NOPRINT不在屏幕輸出。⑦SIMPLE在屏幕僅輸出變量的和、均值、方差標(biāo)準(zhǔn)差和未校正平方和。第五章413/16/2023當(dāng)前41頁(yè),總共119頁(yè)。423/16/2023

2.MODEL語(yǔ)句選擇項(xiàng):

(REG過程中必須有MODEL語(yǔ)句):

1、SELECTION=方法名;2、SLENTRY=:確定變量進(jìn)入方程的顯著性水平;3、SLSTAY=:確定變量留在方程中的顯著性水平;4、COLLIN:要求詳細(xì)分析變量間的共線性。包括特征值、條件指數(shù)、及相對(duì)于每個(gè)特征值估計(jì)方差的分解;5、NOINT輸出結(jié)果中不包括截距項(xiàng);6、PCORR1輸出偏相關(guān)系數(shù)矩陣;第五章423/16/2023當(dāng)前42頁(yè),總共119頁(yè)。433/16/2023

7、CLI:計(jì)算并輸出個(gè)體觀測(cè)預(yù)測(cè)值的95%上、下限這個(gè)置信界反映了誤差的偏差,以及參數(shù)估計(jì)的偏差;8、CLM:計(jì)算并輸出每個(gè)觀測(cè)輸出因變量期望值的95%上、下限,它不是預(yù)測(cè)區(qū)間,因它僅考慮到參數(shù)估計(jì)的偏差,沒有考慮誤差項(xiàng)的偏差;9、P:由輸入數(shù)據(jù)和估計(jì)模型來計(jì)算預(yù)測(cè)值,輸出包括觀測(cè)序號(hào)、ID變量、實(shí)際值、預(yù)測(cè)值和殘差值。如果CLI,CLM或R已規(guī)定,P就不需要規(guī)定;第五章當(dāng)前43頁(yè),總共119頁(yè)。443/16/2023

10、R:請(qǐng)求分析殘差,輸出包括選擇項(xiàng)P要求的一切內(nèi)容,加上預(yù)測(cè)值和殘差值的標(biāo)準(zhǔn)誤差、學(xué)生化殘差和CooK‘sD統(tǒng)計(jì)量,D統(tǒng)計(jì)量用來度量在參數(shù)估計(jì)中每個(gè)觀測(cè)對(duì)預(yù)測(cè)值的影響大小,通過D統(tǒng)計(jì)量的大小,可以找到原始數(shù)據(jù)中的強(qiáng)影響點(diǎn);11、INFLUENCE:要求輸出在估計(jì)值和預(yù)測(cè)值方面每個(gè)觀測(cè)的影響的詳細(xì)分析12、VIF:輸出這些參數(shù)估計(jì)的方差膨脹因子。方差膨脹因子是容許值的倒數(shù)第五章當(dāng)前44頁(yè),總共119頁(yè)。453/16/2023REG過程輸出內(nèi)容REG過程的基本輸出內(nèi)容包括三部分:

(1)AnalysisofVariance(方差分析)方差來源自由度平方和均方F值顯著性概率SumofMeanSourceDFSquaresSquareFValueProb>FModel15609.665609.6626.8550.0001Error193968.908208.889CTotal209578.57143

結(jié)論:如果檢驗(yàn)概率值Prob>F的值小于默認(rèn)的顯著性水平,則回歸效果顯著。第五章453/16/2023當(dāng)前45頁(yè),總共119頁(yè)。463/16/2023REG過程輸出內(nèi)容

(2)擬和程度檢驗(yàn)

(可決系數(shù))(標(biāo)準(zhǔn)差)RootMSE14.453R-square0.5856(因變量均值)DepMean64.857AdjR-sq0.563(變異系數(shù))C.V.22.28440第五章463/16/2023當(dāng)前46頁(yè),總共119頁(yè)。473/16/2023REG過程輸出內(nèi)容(3)ParameterEstimates(參數(shù)估計(jì))

(變量自由度參數(shù)估計(jì)標(biāo)準(zhǔn)誤差參數(shù)為0T統(tǒng)計(jì)量顯著性概率)ParameterStandardTforH0:VariableDFEstimateErrorParameter=0Prob>|T|INTERCEP127.8510727.806538273.5680.0021X15.3410821.030670095.1820.0001小于0.5有顯著意義估計(jì)線性回歸方程:Y=27.851072+5.341082X第五章473/16/2023當(dāng)前47頁(yè),總共119頁(yè)。483/16/2023[例5-5]恩格爾系數(shù)反映了食品支出與收入水平之間的關(guān)系:假定商品價(jià)格不變,實(shí)際食品支出與實(shí)際收入水平之間的關(guān)系,可以用一元線性回歸模型表示。下表是關(guān)于15個(gè)居民家庭的月人均食品支出(Y)與人均月收入(X)的數(shù)值要求:①繪制散點(diǎn)圖;②建立回歸模型并進(jìn)行殘差分析;③繪制95%的置信區(qū)間圖。第五章483/16/2023當(dāng)前48頁(yè),總共119頁(yè)。493/16/2023第五章493/16/2023當(dāng)前49頁(yè),總共119頁(yè)。503/16/2023編程PROCGPLOTDATA=MYDATA.ENGLE;PLOTY*X;RUN;PROCREGDATA=MYDATA.ENGLE;MODELY=X/CLICLMR;PLOTY*XPREDICTED.*XL95.*XU95.*X/OVERLAY;PLOTY*XPREDICTED.*XL95M.*XU95M.*X/OVERLAY;QUIT;第五章503/16/2023當(dāng)前50頁(yè),總共119頁(yè)。513/16/2023運(yùn)行結(jié)果-散點(diǎn)圖第五章513/16/2023當(dāng)前51頁(yè),總共119頁(yè)。運(yùn)行結(jié)果-CLI圖523/16/2023第五章當(dāng)前52頁(yè),總共119頁(yè)。運(yùn)行結(jié)果-CLM圖533/16/2023第五章當(dāng)前53頁(yè),總共119頁(yè)。543/16/2023運(yùn)行結(jié)果-回歸分析第五章543/16/2023當(dāng)前54頁(yè),總共119頁(yè)。553/16/2023運(yùn)行結(jié)果-置信區(qū)間第五章553/16/2023當(dāng)前55頁(yè),總共119頁(yè)。563/16/2023運(yùn)行結(jié)果-殘差分析第五章563/16/2023當(dāng)前56頁(yè),總共119頁(yè)。573/16/2023輸出殘差分析結(jié)果:

包括殘差的標(biāo)準(zhǔn)誤差(StdErrorResidual)、學(xué)生化殘差(StudentResidual)以及學(xué)生化殘差圖,圖上出現(xiàn)四個(gè)及以上“*”號(hào)的點(diǎn)所對(duì)應(yīng)的學(xué)生化殘差的絕對(duì)值大于2,認(rèn)為是殘差較大的可疑點(diǎn)。如果這樣的點(diǎn)所占的比例較大,表明模型擬合得不合適。對(duì)于出現(xiàn)的可疑點(diǎn),應(yīng)檢查原始記錄和數(shù)據(jù)輸入時(shí)是否有失誤。第五章573/16/2023當(dāng)前57頁(yè),總共119頁(yè)。583/16/2023COOK的D統(tǒng)計(jì)量(Cook‘sD):COOK統(tǒng)計(jì)量是度量各個(gè)觀測(cè)點(diǎn)影響大小的指標(biāo),D值大的點(diǎn)稱為強(qiáng)勢(shì)影響點(diǎn),一般使用的標(biāo)準(zhǔn)為|D|>4/N,為強(qiáng)勢(shì)影響點(diǎn)。從殘差圖中可以看到第6個(gè)觀測(cè)和第12個(gè)觀測(cè)為強(qiáng)勢(shì)影響點(diǎn)。在實(shí)際應(yīng)用中可以刪除這兩個(gè)觀測(cè)重新建立回歸模型,可以提高模型的分析精度。第五章583/16/2023當(dāng)前58頁(yè),總共119頁(yè)?;貧w模型違反假設(shè)及其處理自相關(guān)問題的診斷與解決方法

診斷用DW統(tǒng)計(jì)量,解決用差分法異方差問題及其解決方法

診斷觀察殘差圖和計(jì)算Spearman等級(jí)相關(guān)系數(shù),解決用加權(quán)最小二乘多重共線性問題及其解決方法逐步回歸當(dāng)前59頁(yè),總共119頁(yè)。603/16/2023第五章603/16/2023

多元線性回歸(Multiplelinearregression)為線性回歸中自變量在兩個(gè)以上的情形,此時(shí)回歸模型的選擇具有很大的靈活性。對(duì)于全部自變量可以將它們?nèi)糠旁谀P椭?,也可以只選擇其中一部分進(jìn)行回歸分析。在REG過程,根據(jù)“最優(yōu)”變量及“最佳”方程的不同判斷標(biāo)準(zhǔn),提供了9種模型選擇方法。其中最簡(jiǎn)單的方法就是擬合全部自變量的回歸方程,其余8種均涉及變量篩選方法。其語(yǔ)句選擇項(xiàng)為:

MODEL因變量=自變量1…自變量n/selection=…;多元線性回歸的REG過程當(dāng)前60頁(yè),總共119頁(yè)。613/16/2023第五章613/16/2023主要的模型選擇方法與相應(yīng)語(yǔ)句

1前進(jìn)法(FORWARD)

預(yù)先確定進(jìn)入方程的顯著性水平;按自變量對(duì)因變量的貢獻(xiàn),由大至小依次挑選進(jìn)入方程。

語(yǔ)句格式:

PROCREG[選擇項(xiàng)];MODEL因變量=自變量1自變量2???/SELECTION=FORWARDSLENTRY=;

‘SLENTRY=’根據(jù)需要選擇顯著性水平(默認(rèn)值0.50)當(dāng)前61頁(yè),總共119頁(yè)。623/16/2023第五章623/16/20232后退法(BACKWARD)預(yù)先確定剔除自變量的顯著性水平;按自變量對(duì)因變量的貢獻(xiàn)由小至大依次剔除。

語(yǔ)句格式:

PROCREG[選擇項(xiàng)];MODEL因變量=自變量1自變量2???/SELECTION=BACKWARDSLENTRY=;‘SLENTRY=’根據(jù)需要選擇顯著性水平(默認(rèn)值0.10)當(dāng)前62頁(yè),總共119頁(yè)。633/16/2023第五章633/16/20233逐步回歸法(STEPWISE)預(yù)先確定進(jìn)入方程的顯著性水平SLE和剔除自變量的顯著性水平SLS(兩者默認(rèn)值0.15);引入偏回歸平方和經(jīng)檢驗(yàn)顯著的變量,并且將方程中對(duì)模型貢獻(xiàn)不顯著的變量剔除出去。

語(yǔ)句格式:

(1)PROCREG[選擇項(xiàng)];MODEL因變量=自變量1自變量2???/SELECTION=STEPWISESLENTRY=SLSTAY=;

(2)PROCSTEPWISE[選擇項(xiàng)];MODEL因變量=自變量1自變量2???;當(dāng)前63頁(yè),總共119頁(yè)。643/16/2023第五章643/16/20234其他方法

R2最大增量法(MAXR)R2最小增量法(MINR)R2選擇法(RSQUARE)R2校正選擇法(ADJRSQ)當(dāng)前64頁(yè),總共119頁(yè)。653/16/2023第五章653/16/2023[例5-6]

數(shù)據(jù)集REALTY是某地區(qū)1992-2004年的部分經(jīng)濟(jì)核算指標(biāo)。包括住宅需求量(Y)、年度(YEAR)、國(guó)內(nèi)生產(chǎn)總值(X1)、人均住房支出(X2)、市區(qū)人口總量(X3)、職工平均工資(X4)、本年住宅平均售價(jià)(X5)、上年住宅平均售價(jià)(X51)、人均居住面積(X6)、年市場(chǎng)化利率(X7)、年末總戶數(shù)(X8)、本年人均可支配收入(X9)、下年人均可支配收入(X91),研究這些因素對(duì)住宅需求量(Y)的影響。PROCREGDATA=MYDATA.REALTY;MODELY=x1x2x3x4x5x51x6x7x8x9x91;QUIT;當(dāng)前65頁(yè),總共119頁(yè)。663/16/2023第五章663/16/2023輸出結(jié)果-方差分析(AnalysisofVariance)當(dāng)前66頁(yè),總共119頁(yè)。673/16/2023第五章673/16/2023輸出結(jié)果-參數(shù)估計(jì)(ParameterEstimates)當(dāng)前67頁(yè),總共119頁(yè)。683/16/2023第五章683/16/2023結(jié)果討論一

F檢驗(yàn)的檢驗(yàn)值,其對(duì)應(yīng)的概率值為,遠(yuǎn)遠(yuǎn)小于顯著性水平,表明變量間線性關(guān)系顯著,擬合的回歸模型回歸效果是顯著的;擬合精度(RootMSE)的值為7.94654,擬合優(yōu)度的值為0.9988,調(diào)整的擬合優(yōu)度(AdjR-Sq)的值為0.9925,表明因變量變化的99.25%是由自變量引起的。說明該回歸模型自變量對(duì)因變量的線性關(guān)系的擬合是可靠的。當(dāng)前68頁(yè),總共119頁(yè)。693/16/2023第五章693/16/2023結(jié)果討論二

由于沒有指定分析方法,因此系統(tǒng)默認(rèn)使用全部進(jìn)入法。該方法的默認(rèn)顯著性水平為。因此在確定回歸方程時(shí),檢驗(yàn)概率的值大等于0.5的變量可以不寫入回歸模型。所以該模型可以寫為:當(dāng)前69頁(yè),總共119頁(yè)。703/16/2023第五章703/16/2023[例5-7]

利用例5-6的資料進(jìn)行逐步回歸法分析:

PROCSTEPWISEDATA=MYDATA.REALTY;MODELY=x1x2x3x4x5x51x6x7x8x9x91;QUIT;當(dāng)前70頁(yè),總共119頁(yè)。713/16/2023第五章713/16/2023輸出結(jié)果(1):STEP1的方差分析當(dāng)前71頁(yè),總共119頁(yè)。723/16/2023第五章723/16/2023輸出結(jié)果(1):STEP1的參數(shù)估計(jì)當(dāng)前72頁(yè),總共119頁(yè)。733/16/2023第五章733/16/2023討論

在逐步回歸分析過程中,變量進(jìn)入方程的次序是按照其對(duì)因變量變化的貢獻(xiàn)的大小,以及檢驗(yàn)概率的值確定的,由于變量X5對(duì)因變量變化的貢獻(xiàn)最大,檢驗(yàn)概率的值最小,因此首先進(jìn)入方程。當(dāng)前73頁(yè),總共119頁(yè)。743/16/2023第五章743/16/2023輸出結(jié)果(2):STEP2當(dāng)前74頁(yè),總共119頁(yè)。753/16/2023第五章753/16/2023討論

第二步,根據(jù)上述原則變量X9進(jìn)入方程。當(dāng)所有檢驗(yàn)概率小于顯著性水平(逐步回歸的系統(tǒng)默認(rèn)值為0.15)的變量全部進(jìn)入方程后,系統(tǒng)提示如下:逐步回歸過程結(jié)束。其確定的線性回歸方程為:

Allvariablesleftinthemodelaresignificantatthe0.1500level.Noothervariablemetthe0.1500significancelevelforentryintothemodel.當(dāng)前75頁(yè),總共119頁(yè)。763/16/2023第五章763/16/2023

回歸診斷的任務(wù)是檢驗(yàn)所選模型中的各變量之間共線性的情況(即判斷某些自變量之間是否具有線性關(guān)系);根據(jù)模型推算出與自變量取各樣本值時(shí)對(duì)應(yīng)的因變量的估計(jì)值,反過來檢驗(yàn)所測(cè)得的Y是否可靠。針對(duì)SAS系統(tǒng)的REG過程運(yùn)行后不同輸出結(jié)果,回歸診斷的方法包括以下幾個(gè)方面。REG過程的回歸診斷*當(dāng)前76頁(yè),總共119頁(yè)。773/16/2023第五章773/16/20231.用條件數(shù)和方差分量來進(jìn)行共線性診斷

各入選變量的共線性診斷借助SAS的MODEL語(yǔ)句的選擇項(xiàng)COLLIN或COLLINOINT來完成。二者都給出信息矩陣的特征根和條件數(shù)(ConditionNumber),還給出各變量的方差在各主成分上的分解(Decomposition),以百分?jǐn)?shù)的形式給出,每個(gè)入選變量上的方差分量之和為1。

COLLIN和COLLINOINT的區(qū)別在于后者對(duì)模型中截距項(xiàng)作了校正。當(dāng)截距項(xiàng)無顯著性時(shí),看由COLLIN輸出的結(jié)果;反之,應(yīng)看由COLLINOINT輸出的結(jié)果。當(dāng)前77頁(yè),總共119頁(yè)。783/16/2023第五章783/16/2023(1)條件數(shù)

先計(jì)算出信息矩陣|X`X|的各個(gè)特征根,然后計(jì)算條件指數(shù)。

條件指數(shù)(conditionindices)是指:最大特征根與每個(gè)特征根比值的平方根。其中最大條件指數(shù)(K)稱為信息矩陣|X`X|的條件數(shù)。條件數(shù)越大回歸模型存在共線性的可能性越大。一般情況下,如果0<K<10,認(rèn)為模型不存在多重共線性,如果10≤K≤30則認(rèn)為存在中等程度或較強(qiáng)的多重共線性,如果K>30則認(rèn)為存在嚴(yán)重的多重共線性。當(dāng)前78頁(yè),總共119頁(yè)。793/16/2023第五章793/16/2023(2)方差分量

較強(qiáng)的多重共線性同時(shí)還會(huì)表現(xiàn)在變量的方差分量上,對(duì)于大的條件數(shù)并且同時(shí)有兩個(gè)以上變量的方差分量超過50%,就意味這些變量間有一定程度的線性相關(guān)。當(dāng)前79頁(yè),總共119頁(yè)。803/16/2023第五章803/16/20232.利用方差膨脹因子進(jìn)行共線性診斷

(1)容許度(ToleranceValue)

其在Model語(yǔ)句中的選擇項(xiàng)為TOL。對(duì)一個(gè)入選回歸模型的變量而言,其容許度統(tǒng)計(jì)量等于,其中是把某自變量當(dāng)作因變量時(shí)對(duì)模型中所有其余回歸變量的擬合程度。其數(shù)值大,說明該變量受其他變量影響的程度大,相對(duì)應(yīng)容許度的值就小,變量的共線性強(qiáng)。當(dāng)前80頁(yè),總共119頁(yè)。813/16/2023第五章813/16/2023(2)方差膨脹因子(VIF)

VIF=1/TOL,統(tǒng)計(jì)量稱為“方差膨脹因”(VarianceInflationFactor),表示由于共線性的存在而使參數(shù)估計(jì)值的方差增大的情況。根據(jù)經(jīng)驗(yàn)一般情況下,VIF>5或10時(shí),就有嚴(yán)重的多重共線性存在。當(dāng)前81頁(yè),總共119頁(yè)。823/16/2023第五章823/16/20233.利用學(xué)生化殘差對(duì)觀測(cè)中的強(qiáng)影響點(diǎn)進(jìn)行診斷

對(duì)因變量的預(yù)測(cè)值影響特別大,甚至容易導(dǎo)致相反結(jié)論的觀測(cè)點(diǎn),被稱為強(qiáng)影響點(diǎn)或稱為異常點(diǎn)。在實(shí)際工作中經(jīng)常利用學(xué)生化殘差STUDENT統(tǒng)計(jì)量診斷來分析哪些點(diǎn)對(duì)因變量的預(yù)測(cè)值影響最大。當(dāng)該統(tǒng)計(jì)量的值大于2時(shí),所對(duì)應(yīng)的觀測(cè)點(diǎn)往往被認(rèn)為可能是異常點(diǎn)。當(dāng)前82頁(yè),總共119頁(yè)。833/16/2023第五章833/16/2023[例5-8]

對(duì)例5-6的資料進(jìn)行回歸診斷PROCREGDATA=MYDATA.REALTY;MODELY=x1x2x3x4x5x51x6x7x8x9x91/RTOL

VIF;QUIT;當(dāng)前83頁(yè),總共119頁(yè)。843/16/2023第五章843/16/2023

運(yùn)行結(jié)果容許度(ToleranceValue)與方差膨脹因子(VarianceInflationFactor)的檢驗(yàn)結(jié)論當(dāng)前84頁(yè),總共119頁(yè)。853/16/2023第五章853/16/2023結(jié)論

從運(yùn)行結(jié)果中看,各變量的容許度值較小,方差膨脹因子的較大,說明各變量間存在較嚴(yán)重的共線性。當(dāng)前85頁(yè),總共119頁(yè)。863/16/2023第五章863/16/2023運(yùn)行結(jié)果學(xué)生化殘差的診斷結(jié)論當(dāng)前86頁(yè),總共119頁(yè)。873/16/2023第五章873/16/2023REG過程的菜單操作Analyst當(dāng)前87頁(yè),總共119頁(yè)。883/16/2023第五章883/16/2023REG過程的菜單操作OpenBySASName當(dāng)前88頁(yè),總共119頁(yè)。893/16/2023第五章893/16/2023REG過程的菜單操作當(dāng)前89頁(yè),總共119頁(yè)。903/16/2023第五章903/16/2023REG過程的菜單操作RegressionLinear當(dāng)前90頁(yè),總共119頁(yè)。913/16/2023第五章913/16/2023REG過程的菜單操作當(dāng)前91頁(yè),總共119頁(yè)。923/16/2023第五章923/16/2023REG過程的菜單操作當(dāng)前92頁(yè),總共119頁(yè)。933/16/20235.4非線性回歸分析的過程一、可直線化的簡(jiǎn)單曲線擬合

曲線擬合一般可分為2類:第一:曲線直線化法,即利用變量變換的方法,使變換后的2個(gè)變量之間呈直線關(guān)系。求出直線回歸方程后,再將方程中的變量還原,即得曲線回歸方程。這一類又可分為以下兩種情況:①直線化后的方程中只保留1個(gè)自變量。②直線化后的方程中有多個(gè)自變量,但它們都是由最初始的1個(gè)自變量變換得來的。既所謂的多項(xiàng)式回歸,其本質(zhì)是把一元回歸間題轉(zhuǎn)變成多元線性回歸。第二:有些曲線方程不能經(jīng)過變量變換使之直線化或給定初值后直接擬合曲線方程屬于非線性回歸問題。第五章933/16/2023當(dāng)前93頁(yè),總共119頁(yè)。943/16/2023曲線擬合的基本步驟①畫出(x,y)的散點(diǎn)圖,根據(jù)散點(diǎn)圖的變化趨勢(shì),并結(jié)合常見曲線圖形的形狀和專業(yè)知識(shí),初步選定幾種最可能的曲線類型;②根據(jù)所選定的曲線方程的特點(diǎn),作相應(yīng)的變量變換,使曲線直線化;③建立直線化后的直線回歸方程,并作顯著性檢驗(yàn);④將變量還原,寫出用原變量表達(dá)的曲線方程;若對(duì)同一批資料擬合了幾個(gè)可能的模型,需作曲線的擬合優(yōu)度檢驗(yàn),看它們?cè)诿枋鐾慌Y料上是否有顯著差別,對(duì)擬合得最好的曲線方程作殘差分析,考察所擬合的曲線回歸方程在專業(yè)上是否成立,是否值得應(yīng)用。當(dāng)前94頁(yè),總共119頁(yè)。953/16/2023[例5-9]

觀測(cè)11個(gè)水稻品種的各種性狀:穗數(shù)X1、枝梗數(shù)X2、批粒數(shù)X3、200粒重y,每種水稻以5株為一個(gè)單位。研究水稻200粒的重量與穗數(shù)、枝梗數(shù)、批粒數(shù)之間的關(guān)系,分析哪些因素對(duì)200粒重量的影響較大。(數(shù)據(jù)存在于數(shù)據(jù)集DATA.LI59)。數(shù)據(jù)處理,建立原變量的二次項(xiàng):X11,X22,X33

datali59a;setdata.li59;x11=x1*x1;x22=x2*x2;x33=x3*x3;quit;當(dāng)前95頁(yè),總共119頁(yè)。963/16/2023編程:proc

regdata=li59a;modely=x1x2x3x11x22x33/selection=stepwise;modely=x1x2x3x11x22x33/selection=backwardnoint;modely=x1x2x3x11x22x33/selection=forwardnoint;modely=x2x22x33/selection=stepwisenointrcliinfluencecollin;quit;當(dāng)前96頁(yè),總共119頁(yè)。973/16/2023程序說明:

第一個(gè)REG過程調(diào)用數(shù)據(jù)集LI59A進(jìn)行分析,用了4個(gè)模型,前三個(gè)模型是對(duì)變量的篩選,第4個(gè)模型是在前三個(gè)模型變量篩選后添加上的。選項(xiàng)說明:

NOINT:要求模型中不含截距項(xiàng);

R:要求進(jìn)行殘差分析,輸出選擇項(xiàng)R要求的一切內(nèi)容,包括預(yù)測(cè)值和殘差值的標(biāo)準(zhǔn)誤差、學(xué)生化殘差和COOK‘sD統(tǒng)計(jì)量來度量在參數(shù)估計(jì)中每個(gè)觀測(cè)對(duì)預(yù)測(cè)值的影響大小。

CLI:對(duì)各個(gè)預(yù)測(cè)值y要求輸出95%的置信上界和下界。這個(gè)置信區(qū)間反映了誤差的偏差,以及參數(shù)估計(jì)的偏差。

COLLIN:要求詳細(xì)分析回歸變量間的共線性,包括特征值、條件指數(shù)及相對(duì)于每個(gè)特征值這些估計(jì)的方差的分解。

INFLUENCE:要求輸出在估計(jì)值和預(yù)測(cè)值方面每個(gè)觀測(cè)影響的詳細(xì)分析.當(dāng)前97頁(yè),總共119頁(yè)。983/16/2023[例5-10]

試對(duì)以下一組數(shù)據(jù)選擇指數(shù)曲線、冪函數(shù)曲線以及對(duì)數(shù)曲線進(jìn)行擬和。

首先繪制散點(diǎn)圖,觀察其變化趨勢(shì),XY250.2500.311000.472000.513000.645000.727000.8510000.91第五章當(dāng)前98頁(yè),總共119頁(yè)。993/16/2023編程DATALI5_10;INPUTXY@@;Y1=LOG(Y);X1=LOG(X);CARDS;250.2500.311000.472000.513000.645000.727000.8510000.91;PROCPRINT;RUN;PROCGPLOTDATA=LI5_10;PLOTY*XY*X1Y1*XY1*X1;RUN;PROCREGDATA=LI5_10;MODELY=X;MODELY=X1;MODELY1=X;MODELY1=X1;QUIT;當(dāng)前99頁(yè),總共119頁(yè)。1003/16/2023程序說明:

DATA步中的表達(dá)式y(tǒng)1=1og(y),x1=1og(x)分別表示取y和x的自然對(duì)數(shù),即y1=ln(y),x1=ln(x)。如果取以10為底的對(duì)數(shù)據(jù),則需寫成:y1=log10(y),x1=log10(x)。

REG過程中的第1個(gè)MODEL語(yǔ)句是擬合直線方程;第2個(gè)MODEL語(yǔ)句是擬合對(duì)數(shù)曲線方程;第3個(gè)MODEL語(yǔ)句是擬合指數(shù)曲線方程;第4個(gè)MODEL語(yǔ)句是擬合冪函數(shù)。當(dāng)前100頁(yè),總共119頁(yè)。1013/16/2023二、多項(xiàng)式曲線擬合[例5-10]用一個(gè)簡(jiǎn)單的曲線方程描述了數(shù)據(jù)之間關(guān)系的大致情況,但殘差分析的結(jié)果不太理想,可以試著在不改變曲線類型的前提下,通過改變變量的次數(shù),以得到最佳的方程。即為多項(xiàng)式曲線擬和[例5-11]。當(dāng)前101頁(yè),總共119頁(yè)。1023/16/2023[例5-11]DATALI5_11;INPUTXY@@;X1=LOG(X);X2=X1*X1;X3=X2*X1;CARDS;250.2500.311000.472000.513000.645000.727000.8510000.91;PROCPRINT;RUN;PROCREGDATA=LI5_11;MODELY=X1X2X3/SELECTION=SETPWISEPRNOINT;OUTPUTOUT=LI5_11OUTP=YHATR=RESID;QUIT;PROCGPLOTDATA=LI5_11OUT;PLOTY*XYHAT*X/OVERLAY;RUN;當(dāng)前102頁(yè),總共119頁(yè)。1033/16/2023程序說明:

用DATA步建立新變量:x2、x3分別為x對(duì)數(shù)的二次方和三次方,在MODEL語(yǔ)句中將這兩個(gè)新變量加入,用逐步回歸法重新擬合對(duì)數(shù)曲線,將預(yù)測(cè)值和殘差值輸出到數(shù)據(jù)集LI5_10out中,用PLOT過程將預(yù)測(cè)值與原始數(shù)據(jù)繪制在一張圖上,從圖形上可以較直觀地比較預(yù)測(cè)值的效果好壞。從輸出結(jié)果上看,截距項(xiàng)在模型中不顯著。所以添加上NOINT選項(xiàng),去掉模型中的截距項(xiàng)重新擬合。當(dāng)前103頁(yè),總共119頁(yè)。1043/16/20235.5Logistic回歸分析過程*

LOGISTIC回歸分析過程用于處理二分或二分以上的類別數(shù)據(jù)。分析方法包括逐步回歸分析以及各種診斷統(tǒng)計(jì)量。統(tǒng)計(jì)模型的形式可以是概率模型或邏輯斯諦模型。當(dāng)模型中的自變量數(shù)目過多時(shí),LOGISTIC過程可提供逐步排除的方法來挑選最精簡(jiǎn)的模型。輸出結(jié)果包含回歸模型的診斷以及預(yù)測(cè)值、預(yù)測(cè)誤差等。

1043/16/2023當(dāng)前104頁(yè),總共119頁(yè)。1053/16/2023

其統(tǒng)計(jì)理論基礎(chǔ)是邏輯斯諦回歸分析(LogisticRegression),這個(gè)分析所用的參數(shù)估計(jì)法是最大似然法。二分的因變量(或稱反應(yīng)變量)表達(dá)現(xiàn)象的兩種可能性。其分析的目的是為了找出這個(gè)因變量值與一組連續(xù)變量(或稱自變量)之間的線性關(guān)系。這個(gè)線性關(guān)系的表示可用因變量的對(duì)數(shù)奇數(shù)比單位(Logit)、正態(tài)數(shù)單位(Normit)、或雙對(duì)數(shù)單位(Log-Log)等。因此,產(chǎn)生了三類線性函數(shù)表示法。此外,LOGISTIC過程也可利用三種簡(jiǎn)化模型的方式來找到一個(gè)更精簡(jiǎn)的函數(shù)關(guān)系。當(dāng)前105頁(yè),總共119頁(yè)。

這三種簡(jiǎn)化模型的方式由MODEL語(yǔ)句中的選項(xiàng)“SELECTION=”來界定。對(duì)于定序變量可以通過同樣的控制來找出其與一組連續(xù)變量之間的線性關(guān)系,

邏輯斯諦回歸模型的反應(yīng)變量可以是一個(gè)二分的變量或次序變量。因此,模型的量化單位則可以是Logit、Normit或Log-Log等三種形式。這幾種可能情況的排列組合就形成邏輯斯諦回歸模型的不同類型。1063/16/2023當(dāng)前106頁(yè),總共119頁(yè)。

二分反應(yīng)變量的模型:如果反應(yīng)變量的值只可以是二分的(如1=正向結(jié)果,2=負(fù)向結(jié)果),則任何一個(gè)觀測(cè)在此變量上得1(即正向結(jié)果)的概率:p=Prob(Y=1|X),可用對(duì)數(shù)奇數(shù)比的單位來表示。其回歸模型為:

其中:

代表一組自變量,

是模型中的截距,是對(duì)應(yīng)自變量的回歸系數(shù)(即待估計(jì)參數(shù))。該回歸模型與一般的線性模型相同。都代表因變量Y的平均數(shù),即Prob(Y=1)與一組連續(xù)變量間的函數(shù)對(duì)應(yīng)關(guān)系。1073/16/2023當(dāng)前107頁(yè),總共119頁(yè)。

次序變量的模型

如果反應(yīng)變量為次序變量,則系統(tǒng)用1,2,┅,k,k+1的整數(shù)來代表這些組別,由于組別數(shù)可能大于2。因此,LOGISTIC程序得將回歸模型改寫成:其中:

。因此,(k+1)組只需k個(gè)截距參數(shù)再加上k個(gè)與斜率有關(guān)的參數(shù)即可解釋次序變量上反應(yīng)分布的情況。1083/16/2023當(dāng)前108頁(yè),總共119頁(yè)。1093/16/2023LOGISTIC過程的程序無論在功能上或基本語(yǔ)法上和其它的回歸程序類似。假設(shè)Y為一個(gè)二分的因變量,X1、X2分別是兩個(gè)自變量,則其程序的寫法在LOGISTIC過程中與REC過程是完全一致的。

例如:PROCLOGISTIC;MODELY=X1X2;QUIT;

其中Y變量的組別可用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論