第10章回歸分析_第1頁
第10章回歸分析_第2頁
第10章回歸分析_第3頁
第10章回歸分析_第4頁
第10章回歸分析_第5頁
已閱讀5頁,還剩110頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第10章回歸分析本章主要內(nèi)容概述Corr過程線性相關(guān)分析Reg過程直線回歸多元線性回歸嶺回歸Nlin過程非線性回歸分析對數(shù)曲線擬合Logistic過程主成分回歸概述變量之間的關(guān)系有兩類:一類是變量間存在著完全確定性的關(guān)系,可以用精確的數(shù)學(xué)表達(dá)式來表示。如長方形的面積(S)與長(a)和寬(b)的關(guān)系可以表達(dá)為:S=ab。它們之間的關(guān)系是確定性的,只要知道了其中兩個(gè)變量的值就可以精確地計(jì)算出另一個(gè)變量的值,這類變量間的關(guān)系稱為函數(shù)關(guān)系,模型為機(jī)理模型。概述變量之間的另一類關(guān)系是不完全確定的關(guān)系,無法用精確的數(shù)學(xué)公式來表示。如兒童生長時(shí)的身高和體重、作物的產(chǎn)量和肥料用量、植物病害的發(fā)生程度與氣候條件之間的關(guān)系。這類關(guān)系在生物界中大量存在,只能用統(tǒng)計(jì)學(xué)的方法研究變量間的相關(guān)關(guān)系,建立數(shù)值模擬模型。概述統(tǒng)計(jì)學(xué)上采用回歸分析(regressionanalysis)研究相關(guān)變量間的因果關(guān)系。表示原因的變量稱為自變量,表示結(jié)果的變量稱為依變量。研究“一因一果”,即一個(gè)自變量與一個(gè)依變量的回歸分析稱為一元回歸分析;研究“多因一果”,即多個(gè)自變量與一個(gè)依變量的回歸分析稱為多元回歸分析。概述統(tǒng)計(jì)學(xué)上采用相關(guān)分析(correlationanalysis)研究變量之間的相關(guān)關(guān)系。對兩個(gè)變量間的直線關(guān)系進(jìn)行相關(guān)分析稱為簡單相關(guān)分析(也叫線性相關(guān)分析);對多個(gè)變量進(jìn)行相關(guān)分析時(shí):研究一個(gè)變量與多個(gè)變量間的線性相關(guān)稱為復(fù)相關(guān)分析;研究其余變量保持不變的情況下兩個(gè)變量間的線性相關(guān)稱為偏相關(guān)分析;研究兩組變量間線性相關(guān)稱為典型相關(guān)分析。概述SAS系統(tǒng)中,適用回歸分析的過程:過程功能REG執(zhí)行普通線性回歸分析。適用于各式的輸入輸出格式并有診斷性以及簡化模型的功能。PROBIT執(zhí)行概率回歸分析或邏輯斯諦的回歸分析。這個(gè)程序所處理的數(shù)據(jù)通常含二分(或二分以上)的依變量以及數(shù)個(gè)連續(xù)的自變量。NLIN建立非線性的回歸模型。概述過程功能LOGISTIC執(zhí)行邏輯斯諦的回歸分析,分析方式含逐步回歸分析以及各式的診斷統(tǒng)計(jì)值。ORTHOREG使用Gentleman-Givens的計(jì)算程序來估計(jì)回歸模型中的參數(shù)值。適用于估計(jì)值之標(biāo)準(zhǔn)誤差較大的數(shù)據(jù)。RSREG建立二項(xiàng)式反應(yīng)面(Response-Surface)的回歸模型。GLM最普通的線性分析,自變量可以是類別變量或多項(xiàng)式。概述幾種回歸過程相同的輸出數(shù)據(jù)用最小二乘法所估計(jì)的參數(shù)值(如:b0,b1....);誤差方差的估計(jì)值;參數(shù)估計(jì)值的標(biāo)準(zhǔn)誤或方差;有關(guān)參數(shù)的假設(shè)(如H0:β0=0)檢驗(yàn);各種預(yù)測值及其誤差;回歸方程顯著性的檢驗(yàn)。概述相異的診斷功能REG程序提供共線性(Collinearity)的診斷,這個(gè)診斷探討自變量間相關(guān)的程度及可能造成的影響。REG,LOGISTIC及RSREG三個(gè)程序提供影響度診斷以決定各觀察體對參數(shù)估計(jì)值、誤差的平方和(SSE)及預(yù)測值等的影響。LOGISTIC程序也有這種功能,不過其分析原理是采最大似然率法。PROBIT與RSREG兩程序提供回歸模型精確度(Accuracy)的診斷,所用的方法是比較誤差的方差及其估計(jì)值。REG程序提供時(shí)間序列分析(TimeSeriesAnalysis)的診斷,特別是有關(guān)時(shí)間的誤差以及誤差間彼此的相關(guān)。Corr過程Corr過程存在于SAS的base模塊,可以計(jì)算:Pearson積矩相關(guān)系數(shù);Spearman秩相關(guān)系數(shù);Kendall‘stau-b統(tǒng)計(jì)量;Hoeffding‘s獨(dú)立性分析統(tǒng)計(jì)量D;Pearson、Spearman以及Kendall偏相關(guān)系數(shù);另外,它還對用于估計(jì)可靠性的Cronbach系數(shù)α進(jìn)行計(jì)算。Corr過程Corr過程格式:PROCCORR<options>;

BY<DESCENDING>var-1<...<DESCENDING>var-n><NOTSORTED>;

FREQ

variable;

PARTIAL

variables;

VAR

variables;

WEIGHT

variable;

WITHvariables;Run;Corr過程選項(xiàng)功能alpha計(jì)算并輸出Cronbach系數(shù)αbest=n對于每個(gè)變量輸出所指定的n個(gè)相關(guān)系數(shù)cov指定計(jì)算并輸出協(xié)方差矩陣csscp指定計(jì)算并輸出校正離均差平方和及離均差積和矩陣data=指定要進(jìn)行分析的數(shù)據(jù)集exclnpwgt將weight語句指定變量值非正的記錄排除出分析過程hoeffding指定計(jì)算并輸出Hoeffding'sD統(tǒng)計(jì)量Corr過程選項(xiàng)功能kendall指定計(jì)算并輸出Kendalltau-b系數(shù)nocorr禁止Pearson相關(guān)系數(shù)的計(jì)算和輸出nomiss將含有缺失值的記錄排除出計(jì)算過程之外noprob禁止相關(guān)系數(shù)對應(yīng)的P值的計(jì)算和輸出nosimple禁止描述性統(tǒng)計(jì)結(jié)果的輸出outh=創(chuàng)建含有Hoeffding’sD統(tǒng)計(jì)量的輸出數(shù)據(jù)集outk=創(chuàng)建含有Kendall相關(guān)統(tǒng)計(jì)量的輸出數(shù)據(jù)集Outp=創(chuàng)建含有Pearson相關(guān)統(tǒng)計(jì)量的輸出數(shù)據(jù)集

outs=創(chuàng)建含有Spearman相關(guān)統(tǒng)計(jì)量的輸出數(shù)據(jù)集Corr過程選項(xiàng)功能pearson指定計(jì)算并輸出Pearson積矩相關(guān)系數(shù)rank將相關(guān)系數(shù)按照其絕對值從大到小的順序顯示在輸出結(jié)果中singular=p指定判斷某變量為奇異的標(biāo)準(zhǔn)spearman計(jì)算并輸出Spearman秩相關(guān)系數(shù)sscp計(jì)算并輸出離均差平方和及離均差積和矩陣vardef=分母指定計(jì)算方差、標(biāo)準(zhǔn)差及協(xié)方差時(shí)所用的分母項(xiàng),默認(rèn)值為自由度dfouts=創(chuàng)建含有Spearman相關(guān)統(tǒng)計(jì)量的輸出數(shù)據(jù)集線性相關(guān)分析線性相關(guān)分析:是在(X,Y)服從正態(tài)分布(雙變量正態(tài)分布)的假定下,用線性相關(guān)的統(tǒng)計(jì)分析方法研究兩變量間數(shù)量變化關(guān)系的密切程度和方向,稱為線性相關(guān)分析。對樣本的要求:線性:linear獨(dú)立:independent正態(tài):normal等方差:equalvariance線性相關(guān)分析線性相關(guān)分析線性相關(guān)分析線性相關(guān)的性質(zhì)可由散點(diǎn)圖直觀的說明,按圖中散點(diǎn)的分布,可歸納為以下幾種情況:A0<ρ<1B-1<ρ<0Cρ=1Dρ=-1Eρ=0Fρ=0Gρ=0Hρ=0線性相關(guān)分析公式的解釋:r的符號(hào)(方向):

當(dāng)X,Y同向變化時(shí),一、三象限的點(diǎn)多于二、四象限的點(diǎn),r為正,兩變量正相關(guān),0<r<1;當(dāng)X,Y反向變化時(shí),二、四象限的點(diǎn)多于一、三象限的點(diǎn),r為負(fù),兩變量負(fù)相關(guān),-1<r<0;當(dāng)點(diǎn)在一、三象限和二、四象限均勻分布時(shí),正負(fù)抵消,r=0,呈零相關(guān),X、Y沒有線性關(guān)系。相關(guān)系數(shù)r的大?。簉的絕對值越大,說明線性相關(guān)程度越好,散點(diǎn)越接近一條直線;絕對值越小,說明線性相關(guān)程度越差。線性相關(guān)分析示例10001(李春喜,王文林等編著《生物統(tǒng)計(jì)學(xué)》114頁):有人研究了粘蟲孵化歷期平均溫度(x,℃)與歷期天數(shù)(y,天)之間的關(guān)系。試進(jìn)行皮爾遜積差相關(guān)分析。X11.814.715.616.817.118.819.520.4y30.117.316.713.611.910.78.36.7線性相關(guān)分析對資料進(jìn)行相關(guān)分析之前,我們可以先對其繪制散點(diǎn)圖,以考察兩變量的真實(shí)變化關(guān)系。我們可以應(yīng)用plot過程或gplot過程來執(zhí)行繪制散點(diǎn)圖的功能。散點(diǎn)圖完成后再計(jì)算變量之間的相關(guān)系數(shù),對相關(guān)系數(shù)進(jìn)行假設(shè)檢驗(yàn),以量化形式表示變量間的相關(guān)關(guān)系。線性相關(guān)分析/*SasProg10001.Sas*/dataD10001;

inputxy@@;cards;11.830.114.717.315.616.716.813.617.111.918.810.719.58.320.46.7;proc

gplot;

ploty*x='*';run;proc

corr;

varxy;run;Pearson相關(guān)分析是Corr過程的默認(rèn)方式;用with語句可以對特定的變量對進(jìn)行相關(guān)分析,可將corr過程中間的語句改為:

varx;withy;線性相關(guān)分析結(jié)果解釋:首先給出兩變量的描述性統(tǒng)計(jì)量;然后給出變量的相關(guān)系數(shù)矩陣(var語句所列變量中任兩者之間的相關(guān)系數(shù));由于抽樣誤差的存在,從ρ=0的雙變量總體中抽出的樣本相關(guān)系數(shù)r不一定等于0。為了判斷r所代表的總體是否存在直線相關(guān),必須測定r來自ρ=0總體的概率,因此,需進(jìn)行相關(guān)系數(shù)的假設(shè)檢驗(yàn)。假設(shè)為H0:ρ=0,檢驗(yàn)結(jié)果(僅給出P值)列在相應(yīng)相關(guān)系數(shù)的下面。本例p<0.001,ρ=0是不可能的,x和y之間存在著極顯著的直線相關(guān)關(guān)系。線性相關(guān)分析示例10002(西北農(nóng)學(xué)院、華南農(nóng)業(yè)大學(xué)主編《農(nóng)業(yè)化學(xué)研究法》177頁):大豆脂肪含量(x1,%)和蛋白質(zhì)含量(x2,%)的測定結(jié)果。試進(jìn)行皮爾遜積差相關(guān)分析。X116.517.518.519.520.521.522.523.524.5X243.542.642.640.640.338.737.236.034.0線性相關(guān)分析/*SasProg10002.Sas*/dataD10002;

inputx1x2@@;cards;16.543.517.542.618.542.619.540.620.540.321.538.722.537.223.536.024.534.0;proc

gplot;

plotx2*x1='*';run;proc

corr;

varx1x2;run;線性相關(guān)分析示例10003:用60Co對狗造成急性放射病,對照射后5天時(shí)的健康狀況進(jìn)行綜合評分,并記錄其存活天數(shù)。試作Spearman秩(等級(jí))相關(guān)分析。綜合評分79809190708792存活天數(shù)45301624282514線性相關(guān)分析當(dāng)兩變量不符合雙變量正態(tài)分布的假設(shè)時(shí),需用Spearman秩相關(guān)來描述變量間的相互變化關(guān)系。此時(shí),散點(diǎn)圖上散點(diǎn)的分布形態(tài)不能完全描述兩變量間的相關(guān)關(guān)系,故此時(shí)一般不需再繪制散點(diǎn)圖。線性相關(guān)分析/*SasProg10003.Sas*/dataD10003;

inputxy@@;cards;7945803091169024702887259214;proc

corr

spearman

nosimple;

varxy;run;Proccorr語句的spearman選項(xiàng)即要求用Spearman秩相關(guān)來進(jìn)行數(shù)據(jù)分析,nosimple選項(xiàng)則用來禁止對變量描述性統(tǒng)計(jì)量的輸出。REG過程REG程序?qū)?shù)估計(jì)值帶入線性回歸模型中,以便執(zhí)行回歸分析的預(yù)測。這些參數(shù)估計(jì)值是由最小誤差平方法所導(dǎo)出的。REG程序是SAS所有回歸分析程序中用途最廣泛的一種(好比GLM程序是SAS所有方差分析程序中用途最廣泛的一種)。其它回歸分析的程序各有其特殊的用途。REG過程PROCREG<options>;<label:>MODELdependents=<regressors></options>;BYvariables;FREQvariable;IDvariables;VARvariables;WEIGHTvariable;ADDvariables;DELETEvariables;<label:>MTEST<equation<,...,equation>></options>;OUTPUT<OUT=dataset>keyword=names<...keyword=names>;PAINT<condition

|ALLOBS></options>|<STATUS|UNDO>;PLOT<yvar*xvar><=symbol><...yvar*xvar><=symbol></option>;PRINT<options><ANOVA><MODELDATA>;REFIT;RESTRICTequation,...,equation;REWEIGHT<condition|ALLOBS></options>|<STATUS|UNDO>;<label:>TESTequation,<,...,equation></options>;Run;REG過程Reg過程的Model語句Model語句用以指定所要擬合的回歸模型。格式:<label:>MODEL

dependents=<regressors></options>;最前面的標(biāo)簽為可選項(xiàng),可以是不超過8個(gè)字符的字符串,用來對定義的模型進(jìn)行標(biāo)識(shí),以便于在結(jié)果中分辨不同的模型,一般情況下系統(tǒng)會(huì)以默認(rèn)的方式對模型進(jìn)行標(biāo)識(shí)。REG過程Reg過程的Model語句關(guān)鍵字Model后所列的是模型表達(dá)式,和方差分析中anova過程的model語句相似。模型表達(dá)式中等號(hào)的左邊為依變量,等號(hào)的右邊為自變量列表,自變量間以空格相分隔。Model語句中不允許出現(xiàn)組合型變量。如果要用到幾個(gè)變量產(chǎn)生的綜合變量,必須在數(shù)據(jù)步完成新變量的創(chuàng)建過程。REG過程常用的Model語句選項(xiàng):選項(xiàng)功能adjrsq對每一個(gè)所選擇的模型計(jì)算其自由度校正的R2b對于以R2、校正R2、Cp值為參數(shù)的選擇模型,計(jì)算其回歸系數(shù)clb計(jì)算并輸出參數(shù)估計(jì)值的可信區(qū)間上、下限cli計(jì)算并輸出單個(gè)預(yù)測值的可信區(qū)間上、下限clm計(jì)算并輸出每條觀測下應(yīng)變量期望值(均數(shù))的可信區(qū)間上、下限collin對自變量之間的共線性進(jìn)行分析REG過程選項(xiàng)功能collinoint對自變量之間的共線性進(jìn)行分析,不包括截距項(xiàng)cp對每一個(gè)模型計(jì)算Mallow’sCp統(tǒng)計(jì)量include=n指定每次模型擬合必須包含自變量中的前n個(gè)influence針對每一條觀測,分析其對參數(shù)估計(jì)和預(yù)測值的影響maxstep=n限定逐步回歸分析時(shí)最多進(jìn)行的步數(shù)為nnoint要求模型擬合時(shí)不包含截距項(xiàng)p計(jì)算每一條觀測應(yīng)變量的預(yù)測值并輸出到結(jié)果REG過程選項(xiàng)功能partial對每一個(gè)自變量(包括截距項(xiàng))繪制對于應(yīng)變量的偏回歸殘差圖r進(jìn)行殘差分析并顯示在結(jié)果中sbc計(jì)算每個(gè)模型的SBC統(tǒng)計(jì)量并顯示在結(jié)果中selection=指定模型選擇的方法,可以是前進(jìn)法(forward)、后退法(backward)、逐步法(stepwise)等等slentry=指定前進(jìn)法和逐步法時(shí)變量進(jìn)入模型的顯著性水平,默認(rèn)值前進(jìn)法為0.5,逐步法為0.15slstay指定后退法和逐步法時(shí)變量留在模型內(nèi)的顯著性水平,默認(rèn)值后退法為0.1,逐步法為0.15REG過程選項(xiàng)功能sp對每個(gè)模型計(jì)算Sp統(tǒng)計(jì)量ss1將I型平方和(SS1)與各參數(shù)估計(jì)值一并列出ss2將II型平方和(SS2)與各參數(shù)估計(jì)值一并列出sse計(jì)算并顯示每個(gè)模型的誤差平方和start=s在模型選擇模式下,指定開始時(shí)包含在模型中的自變量個(gè)數(shù)(s個(gè))stop=s指定包含在模型中的自變量個(gè)數(shù)為s個(gè)時(shí)停止模型選擇過程xpx計(jì)算并顯示自變量交叉積和矩陣(X'X)直線回歸示例10R01(西北農(nóng)學(xué)院、華南農(nóng)業(yè)大學(xué)主編.農(nóng)業(yè)化學(xué)研究法.北京:農(nóng)業(yè)出版社.1980年12月第1版):從土壤學(xué)理論知道,土壤中的氮素主要以有機(jī)氮的形態(tài)存在,因此,土壤全氮量與土壤有機(jī)質(zhì)之間,應(yīng)該有一定的聯(lián)系。50種水稻土實(shí)測得到的有機(jī)質(zhì)含量(%)與全氮含量(%)的記錄(SasData10R01.txt),試對這批數(shù)據(jù)進(jìn)行回歸分析。直線回歸/*SasProg10R01.Sas*/datad10R01;

infile

'e:\sas\sasdata\sasdata10R01.txt';

inputxy;proc

gplot;

ploty*x;proc

reg;

modely=x;

ploty*x;run;直線回歸結(jié)果解釋:Model:MODEL1:模型標(biāo)簽為“MODEL1”(程序未進(jìn)行指定,此處為系統(tǒng)默認(rèn)分配的標(biāo)簽)。DependentVariable:y:依變量為y。AnalysisofVariance:方差分析表。RootMSE:誤差均方平方根。R-Square:決定系數(shù)。DependentMean:依變量均數(shù)。AdjR-Sq:校正的決定系數(shù)。直線回歸結(jié)果解釋:CoeffVar:變異系數(shù)。ParameterEstimates:模型的參數(shù)估計(jì)。分別給出截距項(xiàng)和自變量回歸系數(shù)等的估計(jì)值以及對應(yīng)參數(shù)為0的假設(shè)測驗(yàn)結(jié)果。本例回歸方程為:y=0.00093116+0.05431x直線回歸直線回歸示例10R02(蔣明.SAS軟件在回歸分析中的應(yīng)用.計(jì)算機(jī)與農(nóng)業(yè).2003,(8):15-16):國營大嶺農(nóng)場橡膠樹大型系比二組無性系,1960年刺檢干膠量(mg)與1965年正式割膠產(chǎn)量(g)數(shù)據(jù)(SasData10004.txt),試求正式割膠量(x)回歸于刺檢干膠量(y)的回歸方程。直線回歸/*SasProg10R02.Sas*/datad10R02;

infile

'e:\sas\sasdata\sasdata10R02.txt';

inputxy;proc

reg;

modely=x;run;本例回歸方程為:y=1.96825+0.07761x多元線性回歸示例10M01(蔣明.SAS軟件在回歸分析中的應(yīng)用.計(jì)算機(jī)與農(nóng)業(yè).2003,(8):15-16):研究橡膠樹白粉病的始病期(x1)、嫩葉歷期(x2)、發(fā)病期雨天數(shù)(x3)與最終病情指數(shù)(y)的關(guān)系,18年的白粉病預(yù)報(bào)要素和最終病情指數(shù)級(jí)值數(shù)據(jù)(SasData10M01.txt),試求回歸方程。多元線性回歸/*SasProg10m01.Sas*/datad10m01;

infile

'e:\sas\sasdata\sasdata10m01.txt';

inputx1x2x3y;proc

reg;

modely=x1x2x3;run;多元線性回歸模型選擇:上例整個(gè)模型具有統(tǒng)計(jì)學(xué)意義(方差分析表中F檢驗(yàn)p<0.0001),但部分自變量回歸系數(shù)的檢驗(yàn)結(jié)果顯示沒有統(tǒng)計(jì)學(xué)意義(p>0.05)。我們看到,并不是所有自變量對依變量的回歸作用都具有統(tǒng)計(jì)學(xué)意義,這時(shí)我們需要建立一個(gè)最優(yōu)模型。SAS有關(guān)模型的選擇方法多達(dá)9種。多元線性回歸逐步回歸:/*SasProg10m02.Sas*/datad10m01;

infile

'e:\sas\sasdata\sasdata10m01.txt';

inputx1x2x3y;proc

reg;

modely=x1x2x3/selection=stepwiseslentry=0.05

slstay=0.05;run;逐步法選擇模型,自變量進(jìn)入模型和剔除出模型的標(biāo)準(zhǔn)都定為α=0.05。多元線性回歸示例10M03:某學(xué)校20名一年級(jí)女大學(xué)生體重(x1,公斤)、胸圍(x2,厘米)、肩寬(x3,厘米)及肺活量(y,升)實(shí)測值,試對影響女大學(xué)生肺活量的有關(guān)因素作逐步回歸分析。數(shù)據(jù)文件SasData10M03.txt多元線性回歸/*SasProg10m03.Sas*/datad10m03;

infile

'e:\sas\sasdata\sasdata10m03.txt';

inputnox1x2x3y;proc

reg;

modely=x1x2x3/selection=stepwiseslentry=0.05

slstay=0.05;run;quit;多元線性回歸實(shí)例10M04(陳立,徐漢虹,趙善歡.獲取復(fù)配農(nóng)藥最佳增效配方的一種簡易方法.生物數(shù)學(xué)學(xué)報(bào).2001,16(4):456-461):研究氯氰菊酯和喹硫磷混配對斜紋夜蛾(Spodopteralitura)的增效作用,以共毒系數(shù)的倒數(shù)為目標(biāo)函數(shù)尋找最優(yōu)配方。藥劑為91.6%氯氰菊酯原藥(廣東省中山凱達(dá)精細(xì)化工股份有限公司)和40%喹硫磷乳油(福建三明農(nóng)藥廠)。采用二次回歸通用旋轉(zhuǎn)組合設(shè)計(jì)。(1)首先測定氯氰菊酯和喹硫磷各自的毒力回歸線,以Lc25的近似值為零水平。然后用以2為底的對數(shù)尺度2r編碼(見下表),殺蟲劑使用濃度(Ni)與編碼值(xi)之間的轉(zhuǎn)換關(guān)系為多元線性回歸實(shí)例10M04(陳立,徐漢虹,趙善歡.獲取復(fù)配農(nóng)藥最佳增效配方的一種簡易方法.生物數(shù)學(xué)學(xué)報(bào).2001,16(4):456-461):因子及編碼表供試?yán)ハx為室內(nèi)飼養(yǎng)的斜紋夜娥2齡中后期幼蟲。采用Potter塔噴霧法處理試蟲,24小時(shí)后檢查試蟲死亡情況。編碼值氯氰菊酯(x1)喹硫磷(x2)濃度(μg/ml)濃度對數(shù)濃度(μg/ml)濃度對數(shù)1.41439.971.601766.621.82361301.4771501.69900151.1761251.3979-17.50.875112.51.0969-1.4145.630.75049.380.9723多元線性回歸/*SasProg10M04.Sas*/dataxz;

inputx1-x5y;cards;-1-11114.9164-11-1115.34061-1-1115.1679111116.2816-1.41400204.83251.41400205.52440-1.4140024.916401.4140025.8416000005.2533000005.4308000005.4308000005.3406000005.5244;proc

reg;

modely=x1-x5;run;計(jì)算斜紋夜蛾死亡率(y)與氯氰菊酯(x1)和喹硫磷(x2)濃度的二次回歸方程。y=5.39598+0.27140x1

+0.35582x2

+0.17237x1x2

-0.07179x12

+0.02849x22多元線性回歸示例10M05:預(yù)測人體吸入氧氣的效率本例數(shù)據(jù)(SasData10M05.txt)來自一群中年男士的健康狀態(tài)資料,由Linnerud提供。每一名男士提供七個(gè)數(shù)據(jù),分別是:年齡(AGE),體重(WEIGHT),吸氧的效率(OXY),跑1.5英里所需的時(shí)間(以分鐘計(jì),RUNTIME),休息時(shí)的心跳(RSTPULSE),跑步時(shí)的心跳率(RUNPULSE)和最高心跳率(MAXPULSE)。其中,吸氧效率(OXY)是依變量,另外六個(gè)均是自變量。分析的過程是,先用逐步排除法,再用最大相關(guān)法,以便找出一個(gè)又精簡又有效的遞歸模型。多元線性回歸/*Sasprog10M05.Sas*/DATAD10M05;

infile

'e:\Sas\SasData\SasData10M05.txt';

INPUTAGEWEIGHTOXYRUNTIMERSTPULSERUNPULSEMAXPULSE@@;PROC

REG

DATA=D10M04OUTEST=EST;MODELOXY=AGEWEIGHTRUNTIMERUNPULSEMAXPULSERSTPULSE/SELECTION=STEPWISE;MODELOXY=AGEWEIGHTRUNTIMERUNPULSEMAXPULSERSTPULSE/SELECTION=MAXR;RUN;多元線性回歸結(jié)果:根據(jù)逐步回歸法的選擇標(biāo)準(zhǔn),依次進(jìn)入回歸模型的自變量是RUNTIME、AGE、RUNPULSE與MAXPULSE。這四個(gè)變量的組合可解釋84.3%的OXY的變異。模型的形式是吸氧效率OXY的預(yù)測值=100.07909519-0.21265570AGE-2.76824065RUNTIME-0.33956528RUNPULSE+0.25535199MAXPULSE此模型的F檢驗(yàn)值高達(dá)34.90,P<0.0001,是一個(gè)顯著的回歸方程。多元線性回歸當(dāng)某一自變量與其它自變量之間有高度線性相關(guān)時(shí),參數(shù)的估計(jì)值將會(huì)不穩(wěn)定,而且會(huì)含偏高的標(biāo)準(zhǔn)誤,這個(gè)現(xiàn)象稱為共線性(Collinearity)或多變量共線性(Multicollinearity)。針對這一個(gè)問題,我們可采用COLLIN選項(xiàng)來診斷到底哪些自變量之間有共線性。這個(gè)診斷的理論基礎(chǔ)來自Belsley、Kuh及Welsch于1980年所發(fā)表的論文。多元線性回歸診斷的步驟如下第一,將(X’X)矩陣標(biāo)準(zhǔn)化,使其對角線上的值都成為1。若選用COLLINOINT選項(xiàng),則不包括截距項(xiàng)。第二,計(jì)算出(X’X)矩陣的特性根與特性向量。第三,以最大的特性根為分子,其它特性根分別為分母,形成幾個(gè)不同的比例,這些比例的平方根便是共線性指標(biāo)。若指標(biāo)的值較大時(shí),則表示變量之間的共線性情形可能極為嚴(yán)重,在這種情況下,參數(shù)的估計(jì)值較不準(zhǔn)確。多元線性回歸示例10M06:診斷示例10M05資料自變量間的相關(guān)性。/*SasProg10M06.Sas*/PROC

REG

DATA=d10m05;MODELOXY=RUNTIMEAGEWEIGHTRUNPULSEMAXPULSERSTPULSE/TOL

VIF

COLLIN;RUN;Model語句選項(xiàng)Tol,給出參數(shù)估計(jì)值的容忍度;選項(xiàng)Vif,將方差膨脹因子隨參數(shù)估計(jì)值一同給出。方差膨脹因子等于容忍度的倒數(shù)。多元線性回歸CollinearityDiagnostics

NumberEigenvalueConditionIndex

---------------ProportionofVariation---------------InterceptRUNTIMEAGEWEIGHTRUNPULSEMAXPULSERSTPULSE16.949161.000000.000023290.000215130.000163670.000197520.000008580.000006260.0002781120.0192219.015940.001880.021930.174960.005230.000014853.981161E-80.3515630.0151121.448410.000802340.131820.137150.242480.001170.001250.0497740.0091627.548750.005930.631460.030200.168470.001400.001150.2075450.0061433.634350.001770.114480.105760.462710.014650.008160.3647160.0010481.807500.785270.085840.477590.098680.070260.005300.0195270.00017734197.952060.204320.014260.074180.022240.912490.984120.00662共線性比較嚴(yán)重的變量是RUNPULSE與MAXPULSE,此外RUNTIME與RSTPULSE以及WEIGHT與RSTPULSE之間也有中等程度的共線性。嶺回歸當(dāng)|X’X|≈0時(shí),我們設(shè)想給X’X加上一個(gè)正常數(shù)矩陣kI(k>0),那么(X’X+

kI)-1接近奇異的可能性就會(huì)比(X’X)-1接近奇異的可能性小得多;因此用作為β的估計(jì)值應(yīng)比最小二乘估計(jì)穩(wěn)定,我們稱為β的嶺回歸估計(jì),k為嶺參數(shù),常常用較直觀的嶺跡法確定k值。嶺回歸當(dāng)自變量之間存在復(fù)共線性時(shí),建立的模型會(huì)極不穩(wěn)定。嶺回歸模型是通過在自變量自相關(guān)矩陣中引入一個(gè)很小的嶺參數(shù)k(0<k<1),并將它加到主對角線元素上,從而降低參數(shù)的最小二乘估計(jì)復(fù)共線特征向量的影響,以保證參數(shù)估計(jì)更接近真實(shí)情況。嶺回歸示例10L01(郭秀花,趙連偉.SAS6.11版嶺回歸分析程序設(shè)計(jì)及其實(shí)例分析.數(shù)理統(tǒng)計(jì)與管理.2001,20(1):41-44,64):實(shí)例選自胡良平主編的“現(xiàn)代統(tǒng)計(jì)學(xué)與SAS應(yīng)用”一書。有人在某地抽樣調(diào)查了29例兒童的血紅蛋白與4種微量元素的含量,資料如下,試問可否用4種微量元素(單位都是μmo1/L)鈣(X1)、鎂(X2)、鐵(X3)、銅(X4)來較好地預(yù)測血紅蛋白(Y,g/L)的含量?數(shù)據(jù)文件SasData10L01.txt嶺回歸/*SasProg10L01.Sas*/Datadata01;

infile

'e:\sas\sasdata\sasdata10L01.txt';

Inputyx1-x4;Proc

standard

m=0

s=1

out=data02;run;Proc

reg

data=data02outest=rrr;/*實(shí)現(xiàn)嶺回歸*/

Modely=x1-x4/ridge=0.0to1.0by0.1

collinoint;

Plot

rsq.*np./ridgeplot;/*繪制嶺跡圖*/Run;Proc

print

data=rrr;Run;STANDARD過程把x1,x2,…,xm,y作標(biāo)準(zhǔn)化轉(zhuǎn)換,轉(zhuǎn)換后的標(biāo)準(zhǔn)化變量均數(shù)為0,標(biāo)準(zhǔn)差為1。嶺回歸結(jié)果共線性分析表明,自變量之間的共線性主要表現(xiàn)在X2與X3、X1與X4之間。本例適合采用嶺回歸進(jìn)行分析。在不同的嶺參數(shù)下,各自變量的回歸系數(shù)保存在數(shù)據(jù)集rrr中。從嶺跡圖或從數(shù)據(jù)集rrr中可以看到,當(dāng)嶺參數(shù)大于0.1時(shí),自變量的回歸系數(shù)趨于平穩(wěn)(以水平直線為漸進(jìn)線),故選嶺參數(shù)為0.2時(shí)的標(biāo)準(zhǔn)化回歸方程為:y=6.0663E-16-0.20612x1+0.17949x2+0.65829x3+0.08377x4嶺回歸結(jié)果從嶺回歸結(jié)果(ParameterEstimates)中可以得知:在4種微量元素中,影響血紅蛋白的含量達(dá)到顯著性水平的有:鐵及鈣。從回歸系數(shù)的符號(hào)可知:鐵的含量提高,有助于血紅蛋白含量的提高,而鈣的吸收量加大后,反面會(huì)使血紅蛋白含量減少。Nlin過程非線性回歸模型(Nonlinearregression)的估計(jì)方法有多種思路,常見的有先利用變量變換將模型轉(zhuǎn)換為線性模型,然后進(jìn)行估計(jì);或者使用泰勒級(jí)數(shù)展開式進(jìn)行逐次的線性近似估計(jì),直至達(dá)到迭代收斂標(biāo)準(zhǔn)。嚴(yán)格地講,能夠通過變量變換被轉(zhuǎn)化為線性回歸方程,并通過對該線性模型的估計(jì)以求得參數(shù)值的模型只能被稱為曲線回歸模型(固有線性模型);直接進(jìn)行估計(jì)的才是非線性回歸模型(固有非線性模型)。Nlin過程SAS中主要有兩個(gè)過程可以實(shí)現(xiàn)非線性回歸,分別是Nlin過程和Nlmixed過程,后者是非線性混合效應(yīng)模型。Nlin過程使用最小二乘法或加權(quán)最小二乘法實(shí)現(xiàn)非線性回歸模型的參數(shù)估計(jì)。與Reg過程相比,Nlin過程中除簡單列出參與回歸模型的變量外,用戶還必須給出方程表達(dá)式,定義未知參數(shù)名稱,并給出所有參數(shù)的初始值。由于非線性模型的復(fù)雜性,Nlin過程并不保證所有模型都能被擬合出來。Nlin過程N(yùn)lin過程的一般格式:PROCNLIN<options>;MODELdependent=expression;PARAMETERS

parameter=values<,...,parameter=values>;BOUNDSinequality<,...,inequality>;BY

variables;DER.parameter=expression;DER.parameter.parameter=expression;ID

variables;OUTPUTOUT=SAS-data-setkeyword=names<,...,keyword=names>;CONTROL

variable<=values><...variable<=values>>;Nlin過程N(yùn)lin過程在進(jìn)行非線性回歸模型參數(shù)估計(jì)時(shí),提供了5種不同的迭代(搜索)方法:Gauss(默認(rèn)方法),高斯法,又稱改良高斯-牛頓法(ModifiedGauss-Newtonmethod);Marquardt,麥夸特法(Marquardt

method);Newton,牛頓法(Newtonmethod)。Gradient,梯度法(Gradientmethod),又稱最速下降法(Steepestdescentmethod);Dud,又稱錯(cuò)位法(Falseposition)或多元割線法(Multivariatesecant);可以在選項(xiàng)中使用“method=”指明迭代方法,前三種方法更為穩(wěn)鍵。Nlin過程N(yùn)lin過程中的model語句:Model語句用來指定所要擬合的非線性回歸模型。格式為:Modeldependent=expression;此處的Model語句必須給出模型完整的表達(dá)式,比如:Modely=exp(a+b*x);指數(shù)模型Modely=a+b*cos(2*pi*t/12+c);余弦模型Modely=b0*(1-exp(-b1*x);負(fù)指數(shù)增長曲線未知參數(shù)可以自行命名,表達(dá)式中可以使用SAS函數(shù)和常數(shù)。Nlin過程N(yùn)lin過程中的Parameters語句:Parameters語句也可以簡寫作Parms。由于Model語句中出現(xiàn)了未知參數(shù),因此需要Parameters語句給定參數(shù)初始值。通常,每個(gè)參數(shù)只需設(shè)定一個(gè)初始值即可。如:parmsa=1b=1;給定離散的多個(gè)值:m1,m2,…,mn;搜索整數(shù)區(qū)間:mTon;從m到n,間隔I的等差序列:mTonByi;離散數(shù)值和整數(shù)區(qū)間:m1,m2Tom3。Nlin過程N(yùn)lin過程中可以使用類似于Data

Step中的相應(yīng)賦值語句,經(jīng)實(shí)現(xiàn)較為復(fù)雜的非線性模型,如下面的程序:Procnlin;parmsb0=0b1=0.01;temp=exp(b1*x);modely=b0*(1-temp);顯然,上述模型等價(jià)于y=b0*(1-exp(b1*x)),但表達(dá)式更為簡潔,并且擬合的速度更快。除賦值語句外,絕大多數(shù)Data

Step中可用的編程語句,如判斷、循環(huán)、goto語句等都可在這里使用。非線性回歸分析實(shí)例10N01:收集我國1940-1998年間不同月份的男嬰死亡率(‰),試為全年各月份的死亡率波動(dòng)擬合適當(dāng)?shù)哪P?。月?23456死亡率63.855.854.557.058.553.5月份789101112死亡率57.367.965.468.567.462.2非線性回歸分析首先,建立數(shù)據(jù)集,研究死亡率與月份之間的關(guān)系(散點(diǎn)圖)。/*SasProg10n01.Sas*/dataD10n01;

inputxy@@;cards;163.8255.8354.5457.0558.5653.5757.3867.9965.41068.51167.41262.2;proc

gplot;

ploty*x='+';run;非線性回歸分析非線性回歸分析由圖可見,死亡率3-6月間達(dá)到最低,而8-11月份達(dá)到最高,在全年范圍內(nèi)呈現(xiàn)一種有規(guī)律的波動(dòng)趨勢。試著擬合如下模型:y=b0+b1*cos(2*3.1415926/12*x+b2)其中:b0,b1,b2為未知數(shù);

2*3.1415926/12*x用于將月份轉(zhuǎn)變?yōu)榛《?。非線性回歸分析/*SasProg10n02.Sas*/proc

nlin

data=d10n01;

modely=b0+b1*cos(2*3.1415926/12*x+b2);

parametersb0=60b1=6b2=4;run;選項(xiàng)maxiter=設(shè)定迭代次數(shù),默認(rèn)次數(shù)100;選項(xiàng)Converge=設(shè)定Bates和Watts提出的收斂測量指標(biāo),默認(rèn)收斂標(biāo)準(zhǔn)10-5。選項(xiàng)ConvergeObj=設(shè)定以損失函數(shù)的改變量作為收斂標(biāo)準(zhǔn),默認(rèn)值10-8。非線性回歸分析TheNLINProcedureDependentVariableyMethod:Gauss-NewtonIterativePhaseSumofIterb0b1b2Squares060.00006.00004.00001028.5160.9833-6.47223.866296.4181260.9833-6.30724.122680.0095360.9833-6.52184.123579.7329460.9833-6.52184.123479.7329依變量為y迭代方法:高斯-牛頓法每次迭代過程中的參數(shù)估計(jì)值以及殘差平方和的變化??梢钥闯?,隨著迭代次數(shù)的增加,各參數(shù)估計(jì)值越來越穩(wěn)定,殘差平方和越來越小。輸出的第一部分:非線性回歸分析模型的第二部分給出收斂的狀態(tài)(Convergencecriterionmet.合適的)。輸出的第三部分給出模型擬合情況匯總,迭代方法、迭代次數(shù)、相應(yīng)的模型收斂標(biāo)準(zhǔn)等。(可忽略)輸出的第四部分是近似方差分析結(jié)果。相應(yīng)的原假設(shè)是:所擬合的模型對依變量的預(yù)測無貢獻(xiàn)。顯示,p=0.0016<0.05,可以認(rèn)為模型中至少有一些自變量對依變量是有作用的。輸出的第五部分是模型中未知參數(shù)的點(diǎn)估計(jì)和區(qū)間估計(jì)。輸出的第六部分為各參數(shù)的相關(guān)系數(shù)陣。本例三個(gè)未知參數(shù)間不存在相關(guān)關(guān)系。非線性回歸分析實(shí)例10N03(張錄達(dá)編.數(shù)據(jù)擬合.中國農(nóng)業(yè)大學(xué)自編教材):植物病毒對植物葉片的傷害(一般取枯斑數(shù))與植物病毒的濃度之間是一種非線性關(guān)系。一般在低的、中等病毒濃度下二者之間的關(guān)系可用下式表示:其中,y為平均侵染枯斑數(shù),v為病毒濃度。N、C為未知數(shù)。病毒濃度較高時(shí),植物病毒侵-稀度關(guān)系的數(shù)學(xué)模型為:其中,y為半葉侵染的的枯斑數(shù),v為病毒濃度。非線性回歸分析實(shí)例10N03(張錄達(dá)編.數(shù)據(jù)擬合.中國農(nóng)業(yè)大學(xué)自編教材):不同濃度下心葉煙接種煙草花葉病毒(TMV),在半葉所得平均枯斑數(shù)據(jù)。試以的極小化為目標(biāo),采用Marquardt法進(jìn)行植物侵染-稀度模型的數(shù)據(jù)擬合。非線性回歸分析實(shí)例10N03(張錄達(dá)編.數(shù)據(jù)擬合.中國農(nóng)業(yè)大學(xué)自編教材):病毒濃度(mg/ml)組別12345671.0E-14652341492541963161923.5E-22921851112161642522211.0E-222811970.615691.51901333.5E-316083.070.010881.613988.21.0E-376.549.830.059.637.572.254.83.5E-459.427.510.933.626.433.327.31.0E-420.08.185.514.513.117.510.23.5E-58.43.253.858.067.089.092.941.0E-5.2.441.314.261.644.23.非線性回歸分析/*SasProg10n03.Sas*/datad10n03;

inputxy1-y7;av=mean(ofy1-y7);cards;1.0E-14652341492541963161923.5E-22921851112161642522211.0E-222811970.615691.51901333.5E-316083.070.010881.613988.21.0E-376.549.830.059.637.572.254.83.5E-459.427.510.933.626.433.327.31.0E-420.08.185.514.513.117.510.23.5E-58.43.253.858.067.089.092.941.0E-5.2.441.314.261.644.23.;Mean是SAS提供的求樣本平均數(shù)的函數(shù)。非線性回歸分析proc

nlin

method=marquardt;

parmsb1=30b2=4000;modely1=b1*log(1+b2*x);proc

nlin

method=marquardt;

parmsb1=10b2=2000;modely2=b1*log(1+b2*x);proc

nlin

method=marquardt;

parmsb1=10b2=5000;modely3=b1*log(1+b2*x);proc

nlin

method=marquardt;

parmsb1=10b2=6000;modely4=b1*log(1+b2*x);proc

nlin

method=marquardt;

parmsb1=60b2=8000;modely5=b1*log(1+b2*x);proc

nlin

method=marquardt;

parmsb1=10b2=5000;modely6=b1*log(1+b2*x);proc

nlin

method=marquardt;

parmsb1=20b2=1000;modely7=b1*log(1+b2*x);proc

nlin

method=marquardt;

parmsb1=20b2=1000;modelav=b1*log(1+b2*x);run;非線性回歸分析組別方程顯著性(ApproxPr>F)1y1=87.6185ln(1+1342.2v)<.00012y2=45.2684ln(1+1618.2v)<.00013y3=26.8680ln(1+2068.6v)<.00014y4=45.1564ln(1+2998.1v)<.00015y5=37.2329ln(1+1857.2v)<.00016y6=55.5436ln(1+2869.0v)<.00017y7=37.4928ln(1+3499.1v)<.0001Meanav=47.2415ln(1+2204.4v)<.0001對數(shù)曲線擬合實(shí)例10D01(阮桂海等編著.SAS統(tǒng)計(jì)分析實(shí)用大全.北京:清華大學(xué)出版社.2003,6.第1版:408-413):一組產(chǎn)量(y)與勞動(dòng)力(L)、資金(K)的數(shù)據(jù),試擬合非線性經(jīng)濟(jì)模型:參數(shù):B0:截距;D:分布參數(shù);C:斜率,即效率參數(shù);r:替代參數(shù)。數(shù)據(jù)文件:SasData10d01.txt對數(shù)曲線擬合/*SASProg10d01.Sas*/title

'非線性回歸分析-對數(shù)曲線回歸';datad10d01;

infile

'e:\sas\sasdata\sasdata10d01.txt';

inputkly;proc

nlin

best=100

method=dud;

modely=b0+c*log(d*l**r+(1-d)*k**r);

parmsb0=1c=-1d=0.5r=-1;run;選項(xiàng)best=n,只列出整個(gè)搜索過程前n個(gè)最小的殘差平方和。對數(shù)曲線擬合輸出結(jié)果的解釋:第一部分、第二部分:模型的初始參數(shù)系數(shù)值。第三部分:迭代了37步,最小平方和已經(jīng)不能再下降了(達(dá)到收斂標(biāo)準(zhǔn))。第四部分:

NOTE:Convergencecriterionmet.收斂標(biāo)準(zhǔn)是適合的第五部分:模型擬合情況匯總。第六部分:方差分析Regressionsumofsquares(RegressionSS):已被解釋的回歸平方和。Residualsumofsquares(ResidualSS):未被解釋的回歸平方和。Uncorrectedtotalsumofsquares:依變量的總平方和。Correctedtotalsumofsquares:偏離均值的平方和。Rsquare=1-ResidualSS/CorrectedSS=1-1.6492/58.2089=0.9717,意味著:能被模型解釋的方差點(diǎn)總方差的97.17%。Logistic過程如果依變量為分類變量,則不符合一般回歸分析模型的要求,可用Logistic回歸來分析。Logistic回歸按反應(yīng)變量的類型分為:兩分類的Logistic回歸多分類有序反應(yīng)變量的Logistic回歸多分類無序反應(yīng)變量的Logistic回歸按照設(shè)計(jì)類型可分為:非條件Logistic回歸,即研究對象未經(jīng)過配對條件Logistic回歸,即研究對象為1:1或1:m配對簡單的Logistic回歸需調(diào)用SAS中LOGISTIC過程完成,一些較復(fù)雜的則需要調(diào)用CATMOD過程來實(shí)現(xiàn)。Logistic過程Logisticregression回歸中,可直接計(jì)算一個(gè)事件的發(fā)生概率:有多個(gè)自變量的Logisticregression模型,可以寫成:式中,Z中線性結(jié)合模型,即事件沒有發(fā)生的概率可以寫成:

Prob(noevent)=1-Prob(event)Logistic過程優(yōu)勢(odds):發(fā)生概率(p)與不發(fā)生概率(1-p)之比。對odds取自然對數(shù):Logistic過程Logistic過程語法:PROCLOGISTIC<options>;BYvariables;CLASSvariable<(v-options)><variable<(v-options)>...></v-options>;CONTRAST'label'effectvalues<,...effectvalues></options>;FREQvariable;MODELresponse=<effects></options>;MODELevents/trials=<effects></options>;OUTPUT<OUT=SAS-data-set><keyword=name...keyword=name>/<option>;<label:>TESTequation1<,...,<equationk>></option>;UNITSindependent1=list1<...independentk=listk></option>;WEIGHTvariable</option>;Logistic過程Logistic過程用最大似然法對應(yīng)變量擬合一個(gè)Logistic模型。除了ProcLogistic和Model語句為必需,其他都可省略。Logistic過程示例10C01(GeoffDer,BrianS.Everitt.AHandbookofStatisticalAnalysesusingSAS(SECONDEDITION).CHAPMAN&HALL/CRCPress.2002):精神病調(diào)查問卷,內(nèi)容包括得分、性別、病例數(shù)、非病例數(shù)。數(shù)據(jù)文件SasData10c01.txt首先,建立數(shù)據(jù)集ghq(GeneralHealthQuestionnaire);生成總調(diào)查數(shù)(Total)和發(fā)病率(Prcases)變量;繪制得分與發(fā)病率散點(diǎn)圖。Logistic過程/*SasProg10c01.Sas*/dataghq;

infile

'e:\sas\sasdata\sasdata10c01.txt';

inputghqsex$casesnoncases;total=cases+noncases;prcase=cases/total;proc

gplot

data=ghq;

plotprcase*ghq;run;結(jié)果顯示,隨著得分的增大,患病的可能性增大。Logistic過程Logistic過程/*SasProg10c02.Sas*/proc

reg

data=ghq;modelprcase=ghq;output

out=routp=rpred;run;proc

logistic

data=ghq;modelcases/total=ghq;output

out=loutp=lpred;run;我們首先實(shí)施線性擬合,然后再用Logistic模型擬合;分別將結(jié)果輸出到rout、lout數(shù)據(jù)集,數(shù)據(jù)集中包含預(yù)測值(rpred和lpred變量,患病可能性)。Logistic過程有兩種形式的Model語句,本例使用了events/trials語法,兩個(gè)變量被一個(gè)斜杠分開,指定一個(gè)“二擇一”事件。Logistic過程模型統(tǒng)計(jì)量(ModelFitStatistics)給出了僅由截距擬合的模型似然函數(shù)和基于截距和協(xié)變量共同擬合的模型似然函數(shù)的三種判斷標(biāo)準(zhǔn):AIC、SC、-2LogL(即Likelihood)。無效假設(shè)為β=0的假設(shè)測驗(yàn)結(jié)果(TestingGlobalNullHypothesis:BETA=0):卡方檢驗(yàn)概率都小于0.01,所以模型具有極顯著意義。最大似然估計(jì)分析(AnalysisofMaximumLikelihoodEstimates):得到對數(shù)線性判別函數(shù)logit(p)=-2.7107+0.7360ghqLogistic過程優(yōu)勢率估計(jì)(OddsRatioEstimates):分為點(diǎn)估計(jì)和95%置信區(qū)間估計(jì)兩部分。本例可以看出,ghq優(yōu)勢增長一個(gè)單位患病的機(jī)率增長2.088(1.734-2.513)倍。最后輸出的內(nèi)容為預(yù)測概率與觀測依變量之間的關(guān)聯(lián)性(AssociationofPredictedProbabilitiesandObservedResponses)。Logistic過程/*SasProg10c03.Sas*/datalrout;setrout;setlout;proc

sort

data=lrout;byghq;proc

gplot

data=lrout;plot(rpredlpredprcase)*ghq/overlay;run;原始數(shù)據(jù)及兩種回歸分析方法預(yù)測值數(shù)據(jù)集合并。然后,共同繪散點(diǎn)圖。Logistic過程Logistic過程從兩種回歸預(yù)測值集合,我們就能看出,線性回歸模型是不適合的。原因是響應(yīng)變量是一種可能性(概率),取值范圍(0,1),線性模型的預(yù)測值超出了這個(gè)范圍,并且擬合也不好。Logistic模型的預(yù)測值都落在0-1之間,對觀測數(shù)據(jù)擬合也較好。Logistic過程/*SasProg10c04.Sas*/proc

logistic

data=ghq;classsex;modelcases/total=sexghq;run;對本例進(jìn)行擴(kuò)展,將“性別”因素考慮在內(nèi)進(jìn)行分析。Class語句指定分類變量;Model語句指定效應(yīng)模型,與glm過程相似。Logistic過程結(jié)果顯

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論