第10章回歸分析

上傳人：6*** IP屬地：湖北上傳時(shí)間：2023-02-04 格式：PPT 頁數(shù)：115 大小：433KB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩110頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第10章回歸分析本章主要內(nèi)容概述Corr過程線性相關(guān)分析Reg過程直線回歸多元線性回歸嶺回歸Nlin過程非線性回歸分析對數(shù)曲線擬合Logistic過程主成分回歸概述變量之間的關(guān)系有兩類：一類是變量間存在著完全確定性的關(guān)系，可以用精確的數(shù)學(xué)表達(dá)式來表示。如長方形的面積（S）與長（a）和寬（b）的關(guān)系可以表達(dá)為：S=ab。它們之間的關(guān)系是確定性的，只要知道了其中兩個(gè)變量的值就可以精確地計(jì)算出另一個(gè)變量的值，這類變量間的關(guān)系稱為函數(shù)關(guān)系，模型為機(jī)理模型。概述變量之間的另一類關(guān)系是不完全確定的關(guān)系，無法用精確的數(shù)學(xué)公式來表示。如兒童生長時(shí)的身高和體重、作物的產(chǎn)量和肥料用量、植物病害的發(fā)生程度與氣候條件之間的關(guān)系。這類關(guān)系在生物界中大量存在，只能用統(tǒng)計(jì)學(xué)的方法研究變量間的相關(guān)關(guān)系，建立數(shù)值模擬模型。概述統(tǒng)計(jì)學(xué)上采用回歸分析（regressionanalysis）研究相關(guān)變量間的因果關(guān)系。表示原因的變量稱為自變量，表示結(jié)果的變量稱為依變量。研究“一因一果”，即一個(gè)自變量與一個(gè)依變量的回歸分析稱為一元回歸分析；研究“多因一果”，即多個(gè)自變量與一個(gè)依變量的回歸分析稱為多元回歸分析。概述統(tǒng)計(jì)學(xué)上采用相關(guān)分析（correlationanalysis）研究變量之間的相關(guān)關(guān)系。對兩個(gè)變量間的直線關(guān)系進(jìn)行相關(guān)分析稱為簡單相關(guān)分析（也叫線性相關(guān)分析）；對多個(gè)變量進(jìn)行相關(guān)分析時(shí)：研究一個(gè)變量與多個(gè)變量間的線性相關(guān)稱為復(fù)相關(guān)分析；研究其余變量保持不變的情況下兩個(gè)變量間的線性相關(guān)稱為偏相關(guān)分析；研究兩組變量間線性相關(guān)稱為典型相關(guān)分析。概述SAS系統(tǒng)中，適用回歸分析的過程：過程功能REG執(zhí)行普通線性回歸分析。適用于各式的輸入輸出格式并有診斷性以及簡化模型的功能。PROBIT執(zhí)行概率回歸分析或邏輯斯諦的回歸分析。這個(gè)程序所處理的數(shù)據(jù)通常含二分(或二分以上)的依變量以及數(shù)個(gè)連續(xù)的自變量。NLIN建立非線性的回歸模型。概述過程功能LOGISTIC執(zhí)行邏輯斯諦的回歸分析，分析方式含逐步回歸分析以及各式的診斷統(tǒng)計(jì)值。ORTHOREG使用Gentleman-Givens的計(jì)算程序來估計(jì)回歸模型中的參數(shù)值。適用于估計(jì)值之標(biāo)準(zhǔn)誤差較大的數(shù)據(jù)。RSREG建立二項(xiàng)式反應(yīng)面(Response-Surface)的回歸模型。GLM最普通的線性分析，自變量可以是類別變量或多項(xiàng)式。概述幾種回歸過程相同的輸出數(shù)據(jù)用最小二乘法所估計(jì)的參數(shù)值(如：b0，b1....)；誤差方差的估計(jì)值；參數(shù)估計(jì)值的標(biāo)準(zhǔn)誤或方差；有關(guān)參數(shù)的假設(shè)(如H0：β0=0)檢驗(yàn)；各種預(yù)測值及其誤差；回歸方程顯著性的檢驗(yàn)。概述相異的診斷功能REG程序提供共線性(Collinearity)的診斷，這個(gè)診斷探討自變量間相關(guān)的程度及可能造成的影響。REG，LOGISTIC及RSREG三個(gè)程序提供影響度診斷以決定各觀察體對參數(shù)估計(jì)值、誤差的平方和(SSE)及預(yù)測值等的影響。LOGISTIC程序也有這種功能，不過其分析原理是采最大似然率法。PROBIT與RSREG兩程序提供回歸模型精確度(Accuracy)的診斷，所用的方法是比較誤差的方差及其估計(jì)值。REG程序提供時(shí)間序列分析(TimeSeriesAnalysis)的診斷，特別是有關(guān)時(shí)間的誤差以及誤差間彼此的相關(guān)。Corr過程Corr過程存在于SAS的base模塊，可以計(jì)算：Pearson積矩相關(guān)系數(shù)；Spearman秩相關(guān)系數(shù)；Kendall‘stau-b統(tǒng)計(jì)量；Hoeffding‘s獨(dú)立性分析統(tǒng)計(jì)量D；Pearson、Spearman以及Kendall偏相關(guān)系數(shù)；另外，它還對用于估計(jì)可靠性的Cronbach系數(shù)α進(jìn)行計(jì)算。Corr過程Corr過程格式：PROCCORR<options>;

BY<DESCENDING>var-1<...<DESCENDING>var-n><NOTSORTED>;

FREQ

variable;

PARTIAL

variables;

VAR

variables;

WEIGHT

variable;

WITHvariables;Run;Corr過程選項(xiàng)功能alpha計(jì)算并輸出Cronbach系數(shù)αbest=n對于每個(gè)變量輸出所指定的n個(gè)相關(guān)系數(shù)cov指定計(jì)算并輸出協(xié)方差矩陣csscp指定計(jì)算并輸出校正離均差平方和及離均差積和矩陣data=指定要進(jìn)行分析的數(shù)據(jù)集exclnpwgt將weight語句指定變量值非正的記錄排除出分析過程hoeffding指定計(jì)算并輸出Hoeffding'sD統(tǒng)計(jì)量Corr過程選項(xiàng)功能kendall指定計(jì)算并輸出Kendalltau-b系數(shù)nocorr禁止Pearson相關(guān)系數(shù)的計(jì)算和輸出nomiss將含有缺失值的記錄排除出計(jì)算過程之外noprob禁止相關(guān)系數(shù)對應(yīng)的P值的計(jì)算和輸出nosimple禁止描述性統(tǒng)計(jì)結(jié)果的輸出outh=創(chuàng)建含有Hoeffding’sD統(tǒng)計(jì)量的輸出數(shù)據(jù)集outk=創(chuàng)建含有Kendall相關(guān)統(tǒng)計(jì)量的輸出數(shù)據(jù)集Outp=創(chuàng)建含有Pearson相關(guān)統(tǒng)計(jì)量的輸出數(shù)據(jù)集

outs=創(chuàng)建含有Spearman相關(guān)統(tǒng)計(jì)量的輸出數(shù)據(jù)集Corr過程選項(xiàng)功能pearson指定計(jì)算并輸出Pearson積矩相關(guān)系數(shù)rank將相關(guān)系數(shù)按照其絕對值從大到小的順序顯示在輸出結(jié)果中singular=p指定判斷某變量為奇異的標(biāo)準(zhǔn)spearman計(jì)算并輸出Spearman秩相關(guān)系數(shù)sscp計(jì)算并輸出離均差平方和及離均差積和矩陣vardef=分母指定計(jì)算方差、標(biāo)準(zhǔn)差及協(xié)方差時(shí)所用的分母項(xiàng)，默認(rèn)值為自由度dfouts=創(chuàng)建含有Spearman相關(guān)統(tǒng)計(jì)量的輸出數(shù)據(jù)集線性相關(guān)分析線性相關(guān)分析：是在（X，Y）服從正態(tài)分布（雙變量正態(tài)分布）的假定下，用線性相關(guān)的統(tǒng)計(jì)分析方法研究兩變量間數(shù)量變化關(guān)系的密切程度和方向，稱為線性相關(guān)分析。對樣本的要求:線性：linear獨(dú)立：independent正態(tài)：normal等方差：equalvariance線性相關(guān)分析線性相關(guān)分析線性相關(guān)分析線性相關(guān)的性質(zhì)可由散點(diǎn)圖直觀的說明，按圖中散點(diǎn)的分布，可歸納為以下幾種情況：A0<ρ<1B-1<ρ<0Cρ=1Dρ=-1Eρ=0Fρ=0Gρ=0Hρ=0線性相關(guān)分析公式的解釋：r的符號(hào)（方向）：

當(dāng)X，Y同向變化時(shí)，一、三象限的點(diǎn)多于二、四象限的點(diǎn)，r為正，兩變量正相關(guān)，0<r<1；當(dāng)X，Y反向變化時(shí)，二、四象限的點(diǎn)多于一、三象限的點(diǎn)，r為負(fù)，兩變量負(fù)相關(guān)，-1<r<0；當(dāng)點(diǎn)在一、三象限和二、四象限均勻分布時(shí)，正負(fù)抵消，r=0，呈零相關(guān)，X、Y沒有線性關(guān)系。相關(guān)系數(shù)r的大?。簉的絕對值越大，說明線性相關(guān)程度越好，散點(diǎn)越接近一條直線；絕對值越小，說明線性相關(guān)程度越差。線性相關(guān)分析示例10001（李春喜，王文林等編著《生物統(tǒng)計(jì)學(xué)》114頁）：有人研究了粘蟲孵化歷期平均溫度（x，℃）與歷期天數(shù)（y，天）之間的關(guān)系。試進(jìn)行皮爾遜積差相關(guān)分析。X11.814.715.616.817.118.819.520.4y30.117.316.713.611.910.78.36.7線性相關(guān)分析對資料進(jìn)行相關(guān)分析之前，我們可以先對其繪制散點(diǎn)圖，以考察兩變量的真實(shí)變化關(guān)系。我們可以應(yīng)用plot過程或gplot過程來執(zhí)行繪制散點(diǎn)圖的功能。散點(diǎn)圖完成后再計(jì)算變量之間的相關(guān)系數(shù)，對相關(guān)系數(shù)進(jìn)行假設(shè)檢驗(yàn)，以量化形式表示變量間的相關(guān)關(guān)系。線性相關(guān)分析/*SasProg10001.Sas*/dataD10001;

inputxy@@;cards;11.830.114.717.315.616.716.813.617.111.918.810.719.58.320.46.7;proc

gplot;

ploty*x='*';run;proc

corr;

varxy;run;Pearson相關(guān)分析是Corr過程的默認(rèn)方式；用with語句可以對特定的變量對進(jìn)行相關(guān)分析，可將corr過程中間的語句改為：

varx；withy；線性相關(guān)分析結(jié)果解釋：首先給出兩變量的描述性統(tǒng)計(jì)量；然后給出變量的相關(guān)系數(shù)矩陣（var語句所列變量中任兩者之間的相關(guān)系數(shù)）；由于抽樣誤差的存在，從ρ=0的雙變量總體中抽出的樣本相關(guān)系數(shù)r不一定等于0。為了判斷r所代表的總體是否存在直線相關(guān)，必須測定r來自ρ=0總體的概率，因此，需進(jìn)行相關(guān)系數(shù)的假設(shè)檢驗(yàn)。假設(shè)為H0：ρ=0，檢驗(yàn)結(jié)果（僅給出P值）列在相應(yīng)相關(guān)系數(shù)的下面。本例p<0.001，ρ=0是不可能的，x和y之間存在著極顯著的直線相關(guān)關(guān)系。線性相關(guān)分析示例10002（西北農(nóng)學(xué)院、華南農(nóng)業(yè)大學(xué)主編《農(nóng)業(yè)化學(xué)研究法》177頁）：大豆脂肪含量（x1，%）和蛋白質(zhì)含量（x2，%）的測定結(jié)果。試進(jìn)行皮爾遜積差相關(guān)分析。X116.517.518.519.520.521.522.523.524.5X243.542.642.640.640.338.737.236.034.0線性相關(guān)分析/*SasProg10002.Sas*/dataD10002;

inputx1x2@@;cards;16.543.517.542.618.542.619.540.620.540.321.538.722.537.223.536.024.534.0;proc

gplot;

plotx2*x1='*';run;proc

corr;

varx1x2;run;線性相關(guān)分析示例10003：用60Co對狗造成急性放射病，對照射后5天時(shí)的健康狀況進(jìn)行綜合評分，并記錄其存活天數(shù)。試作Spearman秩（等級(jí)）相關(guān)分析。綜合評分79809190708792存活天數(shù)45301624282514線性相關(guān)分析當(dāng)兩變量不符合雙變量正態(tài)分布的假設(shè)時(shí)，需用Spearman秩相關(guān)來描述變量間的相互變化關(guān)系。此時(shí)，散點(diǎn)圖上散點(diǎn)的分布形態(tài)不能完全描述兩變量間的相關(guān)關(guān)系，故此時(shí)一般不需再繪制散點(diǎn)圖。線性相關(guān)分析/*SasProg10003.Sas*/dataD10003;

inputxy@@;cards;7945803091169024702887259214;proc

corr

spearman

nosimple;

varxy;run;Proccorr語句的spearman選項(xiàng)即要求用Spearman秩相關(guān)來進(jìn)行數(shù)據(jù)分析，nosimple選項(xiàng)則用來禁止對變量描述性統(tǒng)計(jì)量的輸出。REG過程REG程序?qū)?shù)估計(jì)值帶入線性回歸模型中，以便執(zhí)行回歸分析的預(yù)測。這些參數(shù)估計(jì)值是由最小誤差平方法所導(dǎo)出的。REG程序是SAS所有回歸分析程序中用途最廣泛的一種(好比GLM程序是SAS所有方差分析程序中用途最廣泛的一種)。其它回歸分析的程序各有其特殊的用途。REG過程PROCREG<options>;<label:>MODELdependents=<regressors></options>;BYvariables;FREQvariable;IDvariables;VARvariables;WEIGHTvariable;ADDvariables;DELETEvariables;<label:>MTEST<equation<,...,equation>></options>;OUTPUT<OUT=dataset>keyword=names<...keyword=names>;PAINT<condition

|ALLOBS></options>|<STATUS|UNDO>;PLOT<yvar*xvar><=symbol><...yvar*xvar><=symbol></option>;PRINT<options><ANOVA><MODELDATA>;REFIT;RESTRICTequation,...,equation;REWEIGHT<condition|ALLOBS></options>|<STATUS|UNDO>;<label:>TESTequation,<,...,equation></options>;Run;REG過程Reg過程的Model語句Model語句用以指定所要擬合的回歸模型。格式：<label:>MODEL

dependents=<regressors></options>;最前面的標(biāo)簽為可選項(xiàng)，可以是不超過8個(gè)字符的字符串，用來對定義的模型進(jìn)行標(biāo)識(shí)，以便于在結(jié)果中分辨不同的模型，一般情況下系統(tǒng)會(huì)以默認(rèn)的方式對模型進(jìn)行標(biāo)識(shí)。REG過程Reg過程的Model語句關(guān)鍵字Model后所列的是模型表達(dá)式，和方差分析中anova過程的model語句相似。模型表達(dá)式中等號(hào)的左邊為依變量，等號(hào)的右邊為自變量列表，自變量間以空格相分隔。Model語句中不允許出現(xiàn)組合型變量。如果要用到幾個(gè)變量產(chǎn)生的綜合變量，必須在數(shù)據(jù)步完成新變量的創(chuàng)建過程。REG過程常用的Model語句選項(xiàng)：選項(xiàng)功能adjrsq對每一個(gè)所選擇的模型計(jì)算其自由度校正的R2b對于以R2、校正R2、Cp值為參數(shù)的選擇模型，計(jì)算其回歸系數(shù)clb計(jì)算并輸出參數(shù)估計(jì)值的可信區(qū)間上、下限cli計(jì)算并輸出單個(gè)預(yù)測值的可信區(qū)間上、下限clm計(jì)算并輸出每條觀測下應(yīng)變量期望值（均數(shù)）的可信區(qū)間上、下限collin對自變量之間的共線性進(jìn)行分析REG過程選項(xiàng)功能collinoint對自變量之間的共線性進(jìn)行分析，不包括截距項(xiàng)cp對每一個(gè)模型計(jì)算Mallow’sCp統(tǒng)計(jì)量include=n指定每次模型擬合必須包含自變量中的前n個(gè)influence針對每一條觀測，分析其對參數(shù)估計(jì)和預(yù)測值的影響maxstep=n限定逐步回歸分析時(shí)最多進(jìn)行的步數(shù)為nnoint要求模型擬合時(shí)不包含截距項(xiàng)p計(jì)算每一條觀測應(yīng)變量的預(yù)測值并輸出到結(jié)果REG過程選項(xiàng)功能partial對每一個(gè)自變量（包括截距項(xiàng)）繪制對于應(yīng)變量的偏回歸殘差圖r進(jìn)行殘差分析并顯示在結(jié)果中sbc計(jì)算每個(gè)模型的SBC統(tǒng)計(jì)量并顯示在結(jié)果中selection=指定模型選擇的方法，可以是前進(jìn)法（forward）、后退法（backward）、逐步法（stepwise）等等slentry=指定前進(jìn)法和逐步法時(shí)變量進(jìn)入模型的顯著性水平，默認(rèn)值前進(jìn)法為0.5，逐步法為0.15slstay指定后退法和逐步法時(shí)變量留在模型內(nèi)的顯著性水平，默認(rèn)值后退法為0.1，逐步法為0.15REG過程選項(xiàng)功能sp對每個(gè)模型計(jì)算Sp統(tǒng)計(jì)量ss1將I型平方和（SS1）與各參數(shù)估計(jì)值一并列出ss2將II型平方和（SS2）與各參數(shù)估計(jì)值一并列出sse計(jì)算并顯示每個(gè)模型的誤差平方和start=s在模型選擇模式下，指定開始時(shí)包含在模型中的自變量個(gè)數(shù)（s個(gè)）stop=s指定包含在模型中的自變量個(gè)數(shù)為s個(gè)時(shí)停止模型選擇過程xpx計(jì)算并顯示自變量交叉積和矩陣（X'X）直線回歸示例10R01（西北農(nóng)學(xué)院、華南農(nóng)業(yè)大學(xué)主編.農(nóng)業(yè)化學(xué)研究法.北京：農(nóng)業(yè)出版社.1980年12月第1版）：從土壤學(xué)理論知道，土壤中的氮素主要以有機(jī)氮的形態(tài)存在，因此，土壤全氮量與土壤有機(jī)質(zhì)之間，應(yīng)該有一定的聯(lián)系。50種水稻土實(shí)測得到的有機(jī)質(zhì)含量（%）與全氮含量（%）的記錄（SasData10R01.txt），試對這批數(shù)據(jù)進(jìn)行回歸分析。直線回歸/*SasProg10R01.Sas*/datad10R01;

infile

'e:\sas\sasdata\sasdata10R01.txt';

inputxy;proc

gplot;

ploty*x;proc

reg;

modely=x;

ploty*x;run;直線回歸結(jié)果解釋：Model:MODEL1：模型標(biāo)簽為“MODEL1”（程序未進(jìn)行指定，此處為系統(tǒng)默認(rèn)分配的標(biāo)簽）。DependentVariable:y：依變量為y。AnalysisofVariance：方差分析表。RootMSE：誤差均方平方根。R-Square：決定系數(shù)。DependentMean：依變量均數(shù)。AdjR-Sq：校正的決定系數(shù)。直線回歸結(jié)果解釋：CoeffVar：變異系數(shù)。ParameterEstimates：模型的參數(shù)估計(jì)。分別給出截距項(xiàng)和自變量回歸系數(shù)等的估計(jì)值以及對應(yīng)參數(shù)為0的假設(shè)測驗(yàn)結(jié)果。本例回歸方程為：y=0.00093116+0.05431x直線回歸直線回歸示例10R02（蔣明.SAS軟件在回歸分析中的應(yīng)用.計(jì)算機(jī)與農(nóng)業(yè).2003,(8):15-16）：國營大嶺農(nóng)場橡膠樹大型系比二組無性系，1960年刺檢干膠量(mg)與1965年正式割膠產(chǎn)量(g)數(shù)據(jù)（SasData10004.txt)，試求正式割膠量(x)回歸于刺檢干膠量(y)的回歸方程。直線回歸/*SasProg10R02.Sas*/datad10R02;

infile

'e:\sas\sasdata\sasdata10R02.txt';

inputxy;proc

reg;

modely=x;run;本例回歸方程為：y=1.96825+0.07761x多元線性回歸示例10M01（蔣明.SAS軟件在回歸分析中的應(yīng)用.計(jì)算機(jī)與農(nóng)業(yè).2003,(8):15-16）：研究橡膠樹白粉病的始病期(x1)、嫩葉歷期(x2)、發(fā)病期雨天數(shù)(x3)與最終病情指數(shù)(y)的關(guān)系，18年的白粉病預(yù)報(bào)要素和最終病情指數(shù)級(jí)值數(shù)據(jù)(SasData10M01.txt)，試求回歸方程。多元線性回歸/*SasProg10m01.Sas*/datad10m01;

infile

'e:\sas\sasdata\sasdata10m01.txt';

inputx1x2x3y;proc

reg;

modely=x1x2x3;run;多元線性回歸模型選擇：上例整個(gè)模型具有統(tǒng)計(jì)學(xué)意義（方差分析表中F檢驗(yàn)p<0.0001），但部分自變量回歸系數(shù)的檢驗(yàn)結(jié)果顯示沒有統(tǒng)計(jì)學(xué)意義（p>0.05）。我們看到，并不是所有自變量對依變量的回歸作用都具有統(tǒng)計(jì)學(xué)意義，這時(shí)我們需要建立一個(gè)最優(yōu)模型。SAS有關(guān)模型的選擇方法多達(dá)9種。多元線性回歸逐步回歸：/*SasProg10m02.Sas*/datad10m01;

infile

'e:\sas\sasdata\sasdata10m01.txt';

inputx1x2x3y;proc

reg;

modely=x1x2x3/selection=stepwiseslentry=0.05

slstay=0.05;run;逐步法選擇模型，自變量進(jìn)入模型和剔除出模型的標(biāo)準(zhǔn)都定為α=0.05。多元線性回歸示例10M03：某學(xué)校20名一年級(jí)女大學(xué)生體重（x1,公斤）、胸圍（x2,厘米）、肩寬（x3,厘米）及肺活量（y,升）實(shí)測值，試對影響女大學(xué)生肺活量的有關(guān)因素作逐步回歸分析。數(shù)據(jù)文件SasData10M03.txt多元線性回歸/*SasProg10m03.Sas*/datad10m03;

infile

'e:\sas\sasdata\sasdata10m03.txt';

inputnox1x2x3y;proc

reg;

modely=x1x2x3/selection=stepwiseslentry=0.05

slstay=0.05;run;quit;多元線性回歸實(shí)例10M04（陳立，徐漢虹，趙善歡.獲取復(fù)配農(nóng)藥最佳增效配方的一種簡易方法.生物數(shù)學(xué)學(xué)報(bào).2001,16(4):456-461）：研究氯氰菊酯和喹硫磷混配對斜紋夜蛾(Spodopteralitura)的增效作用，以共毒系數(shù)的倒數(shù)為目標(biāo)函數(shù)尋找最優(yōu)配方。藥劑為91.6%氯氰菊酯原藥(廣東省中山凱達(dá)精細(xì)化工股份有限公司)和40%喹硫磷乳油(福建三明農(nóng)藥廠)。采用二次回歸通用旋轉(zhuǎn)組合設(shè)計(jì)。(1)首先測定氯氰菊酯和喹硫磷各自的毒力回歸線，以Lc25的近似值為零水平。然后用以2為底的對數(shù)尺度2r編碼(見下表)，殺蟲劑使用濃度(Ni)與編碼值(xi)之間的轉(zhuǎn)換關(guān)系為多元線性回歸實(shí)例10M04（陳立，徐漢虹，趙善歡.獲取復(fù)配農(nóng)藥最佳增效配方的一種簡易方法.生物數(shù)學(xué)學(xué)報(bào).2001,16(4):456-461）：因子及編碼表供試?yán)ハx為室內(nèi)飼養(yǎng)的斜紋夜娥2齡中后期幼蟲。采用Potter塔噴霧法處理試蟲，24小時(shí)后檢查試蟲死亡情況。編碼值氯氰菊酯(x1)喹硫磷(x2)濃度(μg/ml)濃度對數(shù)濃度(μg/ml)濃度對數(shù)1.41439.971.601766.621.82361301.4771501.69900151.1761251.3979-17.50.875112.51.0969-1.4145.630.75049.380.9723多元線性回歸/*SasProg10M04.Sas*/dataxz;

inputx1-x5y;cards;-1-11114.9164-11-1115.34061-1-1115.1679111116.2816-1.41400204.83251.41400205.52440-1.4140024.916401.4140025.8416000005.2533000005.4308000005.4308000005.3406000005.5244;proc

reg;

modely=x1-x5;run;計(jì)算斜紋夜蛾死亡率(y)與氯氰菊酯(x1)和喹硫磷(x2)濃度的二次回歸方程。y=5.39598+0.27140x1

+0.35582x2

+0.17237x1x2

-0.07179x12

+0.02849x22多元線性回歸示例10M05：預(yù)測人體吸入氧氣的效率本例數(shù)據(jù)（SasData10M05.txt）來自一群中年男士的健康狀態(tài)資料，由Linnerud提供。每一名男士提供七個(gè)數(shù)據(jù)，分別是：年齡（AGE），體重（WEIGHT），吸氧的效率（OXY），跑1.5英里所需的時(shí)間（以分鐘計(jì)，RUNTIME），休息時(shí)的心跳（RSTPULSE），跑步時(shí)的心跳率（RUNPULSE）和最高心跳率（MAXPULSE）。其中，吸氧效率（OXY）是依變量，另外六個(gè)均是自變量。分析的過程是，先用逐步排除法，再用最大相關(guān)法，以便找出一個(gè)又精簡又有效的遞歸模型。多元線性回歸/*Sasprog10M05.Sas*/DATAD10M05;

infile

'e:\Sas\SasData\SasData10M05.txt';

INPUTAGEWEIGHTOXYRUNTIMERSTPULSERUNPULSEMAXPULSE@@;PROC

REG

DATA=D10M04OUTEST=EST;MODELOXY=AGEWEIGHTRUNTIMERUNPULSEMAXPULSERSTPULSE/SELECTION=STEPWISE;MODELOXY=AGEWEIGHTRUNTIMERUNPULSEMAXPULSERSTPULSE/SELECTION=MAXR;RUN;多元線性回歸結(jié)果：根據(jù)逐步回歸法的選擇標(biāo)準(zhǔn)，依次進(jìn)入回歸模型的自變量是RUNTIME、AGE、RUNPULSE與MAXPULSE。這四個(gè)變量的組合可解釋84.3%的OXY的變異。模型的形式是吸氧效率OXY的預(yù)測值=100.07909519-0.21265570AGE-2.76824065RUNTIME-0.33956528RUNPULSE+0.25535199MAXPULSE此模型的F檢驗(yàn)值高達(dá)34.90，P<0.0001，是一個(gè)顯著的回歸方程。多元線性回歸當(dāng)某一自變量與其它自變量之間有高度線性相關(guān)時(shí)，參數(shù)的估計(jì)值將會(huì)不穩(wěn)定，而且會(huì)含偏高的標(biāo)準(zhǔn)誤，這個(gè)現(xiàn)象稱為共線性（Collinearity）或多變量共線性（Multicollinearity）。針對這一個(gè)問題，我們可采用COLLIN選項(xiàng)來診斷到底哪些自變量之間有共線性。這個(gè)診斷的理論基礎(chǔ)來自Belsley、Kuh及Welsch于1980年所發(fā)表的論文。多元線性回歸診斷的步驟如下第一，將（X’X）矩陣標(biāo)準(zhǔn)化，使其對角線上的值都成為1。若選用COLLINOINT選項(xiàng)，則不包括截距項(xiàng)。第二，計(jì)算出（X’X）矩陣的特性根與特性向量。第三，以最大的特性根為分子，其它特性根分別為分母，形成幾個(gè)不同的比例，這些比例的平方根便是共線性指標(biāo)。若指標(biāo)的值較大時(shí)，則表示變量之間的共線性情形可能極為嚴(yán)重，在這種情況下，參數(shù)的估計(jì)值較不準(zhǔn)確。多元線性回歸示例10M06：診斷示例10M05資料自變量間的相關(guān)性。/*SasProg10M06.Sas*/PROC

REG

DATA=d10m05;MODELOXY=RUNTIMEAGEWEIGHTRUNPULSEMAXPULSERSTPULSE/TOL

VIF

COLLIN;RUN;Model語句選項(xiàng)Tol，給出參數(shù)估計(jì)值的容忍度；選項(xiàng)Vif，將方差膨脹因子隨參數(shù)估計(jì)值一同給出。方差膨脹因子等于容忍度的倒數(shù)。多元線性回歸CollinearityDiagnostics

NumberEigenvalueConditionIndex

---------------ProportionofVariation---------------InterceptRUNTIMEAGEWEIGHTRUNPULSEMAXPULSERSTPULSE16.949161.000000.000023290.000215130.000163670.000197520.000008580.000006260.0002781120.0192219.015940.001880.021930.174960.005230.000014853.981161E-80.3515630.0151121.448410.000802340.131820.137150.242480.001170.001250.0497740.0091627.548750.005930.631460.030200.168470.001400.001150.2075450.0061433.634350.001770.114480.105760.462710.014650.008160.3647160.0010481.807500.785270.085840.477590.098680.070260.005300.0195270.00017734197.952060.204320.014260.074180.022240.912490.984120.00662共線性比較嚴(yán)重的變量是RUNPULSE與MAXPULSE，此外RUNTIME與RSTPULSE以及WEIGHT與RSTPULSE之間也有中等程度的共線性。嶺回歸當(dāng)|X’X|≈0時(shí)，我們設(shè)想給X’X加上一個(gè)正常數(shù)矩陣kI（k>0），那么(X’X+

kI)-1接近奇異的可能性就會(huì)比(X’X)-1接近奇異的可能性小得多；因此用作為β的估計(jì)值應(yīng)比最小二乘估計(jì)穩(wěn)定，我們稱為β的嶺回歸估計(jì)，k為嶺參數(shù)，常常用較直觀的嶺跡法確定k值。嶺回歸當(dāng)自變量之間存在復(fù)共線性時(shí)，建立的模型會(huì)極不穩(wěn)定。嶺回歸模型是通過在自變量自相關(guān)矩陣中引入一個(gè)很小的嶺參數(shù)k(0<k<1),并將它加到主對角線元素上,從而降低參數(shù)的最小二乘估計(jì)復(fù)共線特征向量的影響,以保證參數(shù)估計(jì)更接近真實(shí)情況。嶺回歸示例10L01（郭秀花，趙連偉.SAS6.11版嶺回歸分析程序設(shè)計(jì)及其實(shí)例分析.數(shù)理統(tǒng)計(jì)與管理.2001,20(1):41-44,64）：實(shí)例選自胡良平主編的“現(xiàn)代統(tǒng)計(jì)學(xué)與SAS應(yīng)用”一書。有人在某地抽樣調(diào)查了29例兒童的血紅蛋白與4種微量元素的含量,資料如下,試問可否用4種微量元素(單位都是μmo1/L)鈣(X1)、鎂(X2)、鐵(X3)、銅(X4)來較好地預(yù)測血紅蛋白(Y,g/L)的含量?數(shù)據(jù)文件SasData10L01.txt嶺回歸/*SasProg10L01.Sas*/Datadata01;

infile

'e:\sas\sasdata\sasdata10L01.txt';

Inputyx1-x4;Proc

standard

m=0

s=1

out=data02;run;Proc

reg

data=data02outest=rrr;/*實(shí)現(xiàn)嶺回歸*/

Modely=x1-x4/ridge=0.0to1.0by0.1

collinoint;

Plot

rsq.*np./ridgeplot;/*繪制嶺跡圖*/Run;Proc

data=rrr;Run;STANDARD過程把x1,x2,…,xm,y作標(biāo)準(zhǔn)化轉(zhuǎn)換,轉(zhuǎn)換后的標(biāo)準(zhǔn)化變量均數(shù)為0,標(biāo)準(zhǔn)差為1。嶺回歸結(jié)果共線性分析表明，自變量之間的共線性主要表現(xiàn)在X2與X3、X1與X4之間。本例適合采用嶺回歸進(jìn)行分析。在不同的嶺參數(shù)下,各自變量的回歸系數(shù)保存在數(shù)據(jù)集rrr中。從嶺跡圖或從數(shù)據(jù)集rrr中可以看到，當(dāng)嶺參數(shù)大于0.1時(shí)，自變量的回歸系數(shù)趨于平穩(wěn)(以水平直線為漸進(jìn)線)，故選嶺參數(shù)為0.2時(shí)的標(biāo)準(zhǔn)化回歸方程為：y=6.0663E-16-0.20612x1+0.17949x2+0.65829x3+0.08377x4嶺回歸結(jié)果從嶺回歸結(jié)果（ParameterEstimates）中可以得知：在4種微量元素中，影響血紅蛋白的含量達(dá)到顯著性水平的有：鐵及鈣。從回歸系數(shù)的符號(hào)可知：鐵的含量提高，有助于血紅蛋白含量的提高，而鈣的吸收量加大后，反面會(huì)使血紅蛋白含量減少。Nlin過程非線性回歸模型（Nonlinearregression）的估計(jì)方法有多種思路，常見的有先利用變量變換將模型轉(zhuǎn)換為線性模型，然后進(jìn)行估計(jì)；或者使用泰勒級(jí)數(shù)展開式進(jìn)行逐次的線性近似估計(jì)，直至達(dá)到迭代收斂標(biāo)準(zhǔn)。嚴(yán)格地講，能夠通過變量變換被轉(zhuǎn)化為線性回歸方程，并通過對該線性模型的估計(jì)以求得參數(shù)值的模型只能被稱為曲線回歸模型（固有線性模型）；直接進(jìn)行估計(jì)的才是非線性回歸模型（固有非線性模型）。Nlin過程SAS中主要有兩個(gè)過程可以實(shí)現(xiàn)非線性回歸，分別是Nlin過程和Nlmixed過程，后者是非線性混合效應(yīng)模型。Nlin過程使用最小二乘法或加權(quán)最小二乘法實(shí)現(xiàn)非線性回歸模型的參數(shù)估計(jì)。與Reg過程相比，Nlin過程中除簡單列出參與回歸模型的變量外，用戶還必須給出方程表達(dá)式，定義未知參數(shù)名稱，并給出所有參數(shù)的初始值。由于非線性模型的復(fù)雜性，Nlin過程并不保證所有模型都能被擬合出來。Nlin過程N(yùn)lin過程的一般格式：PROCNLIN<options>;MODELdependent=expression;PARAMETERS

parameter=values<,...,parameter=values>;BOUNDSinequality<,...,inequality>;BY

variables;DER.parameter=expression;DER.parameter.parameter=expression;ID

variables;OUTPUTOUT=SAS-data-setkeyword=names<,...,keyword=names>;CONTROL

variable<=values><...variable<=values>>;Nlin過程N(yùn)lin過程在進(jìn)行非線性回歸模型參數(shù)估計(jì)時(shí)，提供了5種不同的迭代（搜索）方法：Gauss（默認(rèn)方法），高斯法，又稱改良高斯-牛頓法（ModifiedGauss-Newtonmethod）；Marquardt，麥夸特法（Marquardt

method）；Newton，牛頓法（Newtonmethod）。Gradient，梯度法（Gradientmethod），又稱最速下降法（Steepestdescentmethod）；Dud，又稱錯(cuò)位法（Falseposition）或多元割線法（Multivariatesecant）；可以在選項(xiàng)中使用“method=”指明迭代方法，前三種方法更為穩(wěn)鍵。Nlin過程N(yùn)lin過程中的model語句：Model語句用來指定所要擬合的非線性回歸模型。格式為：Modeldependent=expression;此處的Model語句必須給出模型完整的表達(dá)式，比如：Modely=exp(a+b*x);指數(shù)模型Modely=a+b*cos(2*pi*t/12+c);余弦模型Modely=b0*(1-exp(-b1*x);負(fù)指數(shù)增長曲線未知參數(shù)可以自行命名，表達(dá)式中可以使用SAS函數(shù)和常數(shù)。Nlin過程N(yùn)lin過程中的Parameters語句：Parameters語句也可以簡寫作Parms。由于Model語句中出現(xiàn)了未知參數(shù)，因此需要Parameters語句給定參數(shù)初始值。通常，每個(gè)參數(shù)只需設(shè)定一個(gè)初始值即可。如：parmsa=1b=1;給定離散的多個(gè)值：m1,m2,…,mn；搜索整數(shù)區(qū)間：mTon；從m到n，間隔I的等差序列：mTonByi；離散數(shù)值和整數(shù)區(qū)間：m1,m2Tom3。Nlin過程N(yùn)lin過程中可以使用類似于Data

Step中的相應(yīng)賦值語句，經(jīng)實(shí)現(xiàn)較為復(fù)雜的非線性模型，如下面的程序：Procnlin;parmsb0=0b1=0.01;temp=exp(b1*x);modely=b0*(1-temp);顯然，上述模型等價(jià)于y=b0*(1-exp(b1*x))，但表達(dá)式更為簡潔，并且擬合的速度更快。除賦值語句外，絕大多數(shù)Data

Step中可用的編程語句，如判斷、循環(huán)、goto語句等都可在這里使用。非線性回歸分析實(shí)例10N01：收集我國1940-1998年間不同月份的男嬰死亡率（‰），試為全年各月份的死亡率波動(dòng)擬合適當(dāng)?shù)哪Ｐ?。月?23456死亡率63.855.854.557.058.553.5月份789101112死亡率57.367.965.468.567.462.2非線性回歸分析首先，建立數(shù)據(jù)集，研究死亡率與月份之間的關(guān)系（散點(diǎn)圖）。/*SasProg10n01.Sas*/dataD10n01;

inputxy@@;cards;163.8255.8354.5457.0558.5653.5757.3867.9965.41068.51167.41262.2;proc

gplot;

ploty*x='+';run;非線性回歸分析非線性回歸分析由圖可見，死亡率3-6月間達(dá)到最低，而8-11月份達(dá)到最高，在全年范圍內(nèi)呈現(xiàn)一種有規(guī)律的波動(dòng)趨勢。試著擬合如下模型：y=b0+b1*cos(2*3.1415926/12*x+b2)其中：b0,b1,b2為未知數(shù)；

2*3.1415926/12*x用于將月份轉(zhuǎn)變?yōu)榛《?。非線性回歸分析/*SasProg10n02.Sas*/proc

nlin

data=d10n01;

modely=b0+b1*cos(2*3.1415926/12*x+b2);

parametersb0=60b1=6b2=4;run;選項(xiàng)maxiter=設(shè)定迭代次數(shù)，默認(rèn)次數(shù)100；選項(xiàng)Converge=設(shè)定Bates和Watts提出的收斂測量指標(biāo)，默認(rèn)收斂標(biāo)準(zhǔn)10-5。選項(xiàng)ConvergeObj=設(shè)定以損失函數(shù)的改變量作為收斂標(biāo)準(zhǔn)，默認(rèn)值10-8。非線性回歸分析TheNLINProcedureDependentVariableyMethod:Gauss-NewtonIterativePhaseSumofIterb0b1b2Squares060.00006.00004.00001028.5160.9833-6.47223.866296.4181260.9833-6.30724.122680.0095360.9833-6.52184.123579.7329460.9833-6.52184.123479.7329依變量為y迭代方法：高斯-牛頓法每次迭代過程中的參數(shù)估計(jì)值以及殘差平方和的變化?？梢钥闯?，隨著迭代次數(shù)的增加，各參數(shù)估計(jì)值越來越穩(wěn)定，殘差平方和越來越小。輸出的第一部分：非線性回歸分析模型的第二部分給出收斂的狀態(tài)（Convergencecriterionmet.合適的）。輸出的第三部分給出模型擬合情況匯總，迭代方法、迭代次數(shù)、相應(yīng)的模型收斂標(biāo)準(zhǔn)等。（可忽略）輸出的第四部分是近似方差分析結(jié)果。相應(yīng)的原假設(shè)是：所擬合的模型對依變量的預(yù)測無貢獻(xiàn)。顯示，p=0.0016<0.05，可以認(rèn)為模型中至少有一些自變量對依變量是有作用的。輸出的第五部分是模型中未知參數(shù)的點(diǎn)估計(jì)和區(qū)間估計(jì)。輸出的第六部分為各參數(shù)的相關(guān)系數(shù)陣。本例三個(gè)未知參數(shù)間不存在相關(guān)關(guān)系。非線性回歸分析實(shí)例10N03（張錄達(dá)編.數(shù)據(jù)擬合.中國農(nóng)業(yè)大學(xué)自編教材）：植物病毒對植物葉片的傷害（一般取枯斑數(shù)）與植物病毒的濃度之間是一種非線性關(guān)系。一般在低的、中等病毒濃度下二者之間的關(guān)系可用下式表示：其中，y為平均侵染枯斑數(shù)，v為病毒濃度。N、C為未知數(shù)。病毒濃度較高時(shí)，植物病毒侵-稀度關(guān)系的數(shù)學(xué)模型為：其中，y為半葉侵染的的枯斑數(shù)，v為病毒濃度。非線性回歸分析實(shí)例10N03（張錄達(dá)編.數(shù)據(jù)擬合.中國農(nóng)業(yè)大學(xué)自編教材）：不同濃度下心葉煙接種煙草花葉病毒（TMV），在半葉所得平均枯斑數(shù)據(jù)。試以的極小化為目標(biāo)，采用Marquardt法進(jìn)行植物侵染-稀度模型的數(shù)據(jù)擬合。非線性回歸分析實(shí)例10N03（張錄達(dá)編.數(shù)據(jù)擬合.中國農(nóng)業(yè)大學(xué)自編教材）：病毒濃度(mg/ml)組別12345671.0E-14652341492541963161923.5E-22921851112161642522211.0E-222811970.615691.51901333.5E-316083.070.010881.613988.21.0E-376.549.830.059.637.572.254.83.5E-459.427.510.933.626.433.327.31.0E-420.08.185.514.513.117.510.23.5E-58.43.253.858.067.089.092.941.0E-5.2.441.314.261.644.23.非線性回歸分析/*SasProg10n03.Sas*/datad10n03;

inputxy1-y7;av=mean(ofy1-y7);cards;1.0E-14652341492541963161923.5E-22921851112161642522211.0E-222811970.615691.51901333.5E-316083.070.010881.613988.21.0E-376.549.830.059.637.572.254.83.5E-459.427.510.933.626.433.327.31.0E-420.08.185.514.513.117.510.23.5E-58.43.253.858.067.089.092.941.0E-5.2.441.314.261.644.23.;Mean是SAS提供的求樣本平均數(shù)的函數(shù)。非線性回歸分析proc

nlin

method=marquardt;

parmsb1=30b2=4000;modely1=b1*log(1+b2*x);proc

nlin

method=marquardt;

parmsb1=10b2=2000;modely2=b1*log(1+b2*x);proc

nlin

method=marquardt;

parmsb1=10b2=5000;modely3=b1*log(1+b2*x);proc

nlin

method=marquardt;

parmsb1=10b2=6000;modely4=b1*log(1+b2*x);proc

nlin

method=marquardt;

parmsb1=60b2=8000;modely5=b1*log(1+b2*x);proc

nlin

method=marquardt;

parmsb1=10b2=5000;modely6=b1*log(1+b2*x);proc

nlin

method=marquardt;

parmsb1=20b2=1000;modely7=b1*log(1+b2*x);proc

nlin

method=marquardt;

parmsb1=20b2=1000;modelav=b1*log(1+b2*x);run;非線性回歸分析組別方程顯著性（ApproxPr>F）1y1=87.6185ln(1+1342.2v)<.00012y2=45.2684ln(1+1618.2v)<.00013y3=26.8680ln(1+2068.6v)<.00014y4=45.1564ln(1+2998.1v)<.00015y5=37.2329ln(1+1857.2v)<.00016y6=55.5436ln(1+2869.0v)<.00017y7=37.4928ln(1+3499.1v)<.0001Meanav=47.2415ln(1+2204.4v)<.0001對數(shù)曲線擬合實(shí)例10D01（阮桂海等編著.SAS統(tǒng)計(jì)分析實(shí)用大全.北京:清華大學(xué)出版社.2003,6.第1版:408-413）：一組產(chǎn)量（y）與勞動(dòng)力（L）、資金（K）的數(shù)據(jù)，試擬合非線性經(jīng)濟(jì)模型：參數(shù)：B0：截距；D：分布參數(shù)；C：斜率，即效率參數(shù)；r：替代參數(shù)。數(shù)據(jù)文件：SasData10d01.txt對數(shù)曲線擬合/*SASProg10d01.Sas*/title

'非線性回歸分析-對數(shù)曲線回歸';datad10d01;

infile

'e:\sas\sasdata\sasdata10d01.txt';

inputkly;proc

nlin

best=100

method=dud;

modely=b0+c*log(d*l**r+(1-d)*k**r);

parmsb0=1c=-1d=0.5r=-1;run;選項(xiàng)best=n，只列出整個(gè)搜索過程前n個(gè)最小的殘差平方和。對數(shù)曲線擬合輸出結(jié)果的解釋：第一部分、第二部分：模型的初始參數(shù)系數(shù)值。第三部分：迭代了37步，最小平方和已經(jīng)不能再下降了（達(dá)到收斂標(biāo)準(zhǔn)）。第四部分：

NOTE:Convergencecriterionmet.收斂標(biāo)準(zhǔn)是適合的第五部分：模型擬合情況匯總。第六部分：方差分析Regressionsumofsquares(RegressionSS)：已被解釋的回歸平方和。Residualsumofsquares(ResidualSS)：未被解釋的回歸平方和。Uncorrectedtotalsumofsquares：依變量的總平方和。Correctedtotalsumofsquares：偏離均值的平方和。Rsquare=1-ResidualSS/CorrectedSS=1-1.6492/58.2089=0.9717，意味著：能被模型解釋的方差點(diǎn)總方差的97.17%。Logistic過程如果依變量為分類變量，則不符合一般回歸分析模型的要求，可用Logistic回歸來分析。Logistic回歸按反應(yīng)變量的類型分為：兩分類的Logistic回歸多分類有序反應(yīng)變量的Logistic回歸多分類無序反應(yīng)變量的Logistic回歸按照設(shè)計(jì)類型可分為：非條件Logistic回歸，即研究對象未經(jīng)過配對條件Logistic回歸，即研究對象為1：1或1：m配對簡單的Logistic回歸需調(diào)用SAS中LOGISTIC過程完成，一些較復(fù)雜的則需要調(diào)用CATMOD過程來實(shí)現(xiàn)。Logistic過程Logisticregression回歸中，可直接計(jì)算一個(gè)事件的發(fā)生概率：有多個(gè)自變量的Logisticregression模型，可以寫成：式中，Z中線性結(jié)合模型，即事件沒有發(fā)生的概率可以寫成：

Prob(noevent)=1-Prob(event)Logistic過程優(yōu)勢（odds）：發(fā)生概率（p）與不發(fā)生概率（1-p）之比。對odds取自然對數(shù)：Logistic過程Logistic過程語法：PROCLOGISTIC<options>;BYvariables;CLASSvariable<(v-options)><variable<(v-options)>...></v-options>;CONTRAST'label'effectvalues<,...effectvalues></options>;FREQvariable;MODELresponse=<effects></options>;MODELevents/trials=<effects></options>;OUTPUT<OUT=SAS-data-set><keyword=name...keyword=name>/<option>;<label:>TESTequation1<,...,<equationk>></option>;UNITSindependent1=list1<...independentk=listk></option>;WEIGHTvariable</option>;Logistic過程Logistic過程用最大似然法對應(yīng)變量擬合一個(gè)Logistic模型。除了ProcLogistic和Model語句為必需，其他都可省略。Logistic過程示例10C01（GeoffDer,BrianS.Everitt.AHandbookofStatisticalAnalysesusingSAS(SECONDEDITION).CHAPMAN&HALL/CRCPress.2002）：精神病調(diào)查問卷，內(nèi)容包括得分、性別、病例數(shù)、非病例數(shù)。數(shù)據(jù)文件SasData10c01.txt首先，建立數(shù)據(jù)集ghq（GeneralHealthQuestionnaire）；生成總調(diào)查數(shù)(Total)和發(fā)病率(Prcases)變量；繪制得分與發(fā)病率散點(diǎn)圖。Logistic過程/*SasProg10c01.Sas*/dataghq;

infile

'e:\sas\sasdata\sasdata10c01.txt';

inputghqsex$casesnoncases;total=cases+noncases;prcase=cases/total;proc

gplot

data=ghq;

plotprcase*ghq;run;結(jié)果顯示，隨著得分的增大，患病的可能性增大。Logistic過程Logistic過程/*SasProg10c02.Sas*/proc

reg

data=ghq;modelprcase=ghq;output

out=routp=rpred;run;proc

logistic

data=ghq;modelcases/total=ghq;output

out=loutp=lpred;run;我們首先實(shí)施線性擬合，然后再用Logistic模型擬合；分別將結(jié)果輸出到rout、lout數(shù)據(jù)集，數(shù)據(jù)集中包含預(yù)測值（rpred和lpred變量，患病可能性）。Logistic過程有兩種形式的Model語句，本例使用了events/trials語法，兩個(gè)變量被一個(gè)斜杠分開，指定一個(gè)“二擇一”事件。Logistic過程模型統(tǒng)計(jì)量（ModelFitStatistics）給出了僅由截距擬合的模型似然函數(shù)和基于截距和協(xié)變量共同擬合的模型似然函數(shù)的三種判斷標(biāo)準(zhǔn)：AIC、SC、-2LogL（即Likelihood）。無效假設(shè)為β=0的假設(shè)測驗(yàn)結(jié)果（TestingGlobalNullHypothesis:BETA=0）：卡方檢驗(yàn)概率都小于0.01，所以模型具有極顯著意義。最大似然估計(jì)分析（AnalysisofMaximumLikelihoodEstimates）：得到對數(shù)線性判別函數(shù)logit(p)=-2.7107+0.7360ghqLogistic過程優(yōu)勢率估計(jì)（OddsRatioEstimates）：分為點(diǎn)估計(jì)和95%置信區(qū)間估計(jì)兩部分。本例可以看出，ghq優(yōu)勢增長一個(gè)單位患病的機(jī)率增長2.088（1.734-2.513）倍。最后輸出的內(nèi)容為預(yù)測概率與觀測依變量之間的關(guān)聯(lián)性（AssociationofPredictedProbabilitiesandObservedResponses）。Logistic過程/*SasProg10c03.Sas*/datalrout;setrout;setlout;proc

sort

data=lrout;byghq;proc

gplot

data=lrout;plot(rpredlpredprcase)*ghq/overlay;run;原始數(shù)據(jù)及兩種回歸分析方法預(yù)測值數(shù)據(jù)集合并。然后，共同繪散點(diǎn)圖。Logistic過程Logistic過程從兩種回歸預(yù)測值集合，我們就能看出，線性回歸模型是不適合的。原因是響應(yīng)變量是一種可能性（概率），取值范圍（0，1），線性模型的預(yù)測值超出了這個(gè)范圍，并且擬合也不好。Logistic模型的預(yù)測值都落在0-1之間，對觀測數(shù)據(jù)擬合也較好。Logistic過程/*SasProg10c04.Sas*/proc

logistic

data=ghq;classsex;modelcases/total=sexghq;run;對本例進(jìn)行擴(kuò)展，將“性別”因素考慮在內(nèi)進(jìn)行分析。Class語句指定分類變量；Model語句指定效應(yīng)模型，與glm過程相似。Logistic過程結(jié)果顯

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第10章回歸分析

文檔簡介

溫馨提示

最新文檔

評論

第10章回歸分析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔