版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第9章定性數(shù)據(jù)的建模分析對數(shù)線性模型基本理論和方法對數(shù)線性模型分析的上機(jī)實驗Logistic回歸基本理論和方法Logistic回歸的方法與步驟第9章定性數(shù)據(jù)的建模分析對數(shù)線性模型基本理論和方法對數(shù)線性1第三章我們曾討論過定性數(shù)據(jù)的列聯(lián)表分析,對數(shù)線性模型是進(jìn)一步用于離散型數(shù)據(jù)或整理成列聯(lián)表格式的數(shù)據(jù)的統(tǒng)計分析工具。它可以把方差分析和線性模型的一些方法應(yīng)用到對交叉列聯(lián)表的分析中,從而對定性變量間的關(guān)系作更進(jìn)一步的描述和分析。列聯(lián)表分析無法系統(tǒng)地評價變量間的聯(lián)系,也無法估計變量間交互作用的大小,而對數(shù)線性模型是處理這些問題的最佳方法。當(dāng)被解釋變量是非度量變量時,可以用判別分析。然而當(dāng)被解釋變量只有兩組時,Logistic回歸由于多種原因更受歡迎。首先,判別分析依賴于嚴(yán)格的多元正態(tài)性和相等協(xié)差陣的假設(shè),這在很多情況下是達(dá)不到的。
Logistic回歸沒有類似的假設(shè),而且這些假設(shè)不滿足時,結(jié)果非常穩(wěn)定。其次,即使?jié)M足假定,許多研究者仍偏好Logistic回歸,因為它類似于回歸分析。兩者都有直接的統(tǒng)計檢驗,都能包含非線性效果和大范圍的診斷。因為這些和更多技術(shù)原因,Logistic回歸等同于兩組的判別分析,在很多情況下更加適用。再者,Logistic回歸對于自變量沒有要求,度量變量或者非度量變量都可以進(jìn)行回歸,這樣,本章僅介紹定性數(shù)據(jù)建模的對數(shù)線性模型和Logistic回歸方法。第三章我們曾討論過定性數(shù)據(jù)的列聯(lián)表分析,對數(shù)線性模型是2第1節(jié)對數(shù)線性模型基本理論和方法第1節(jié)對數(shù)線性模型基本理論和方法3本節(jié)將利用2×2維的交叉列聯(lián)表來說明對數(shù)線性模型的基本理論和方法,同時利用SPSS軟件對真實的經(jīng)濟(jì)定性數(shù)據(jù)作分析。從下面的2×2維交叉列聯(lián)表及其概率表,介紹對數(shù)線性模型的基本理論和方法。在對數(shù)線性模型分析中,要先將概率取對數(shù),再分解處理,用公式表示如下:上式可以簡寫為:該式的結(jié)構(gòu)與有交互效應(yīng),且各水平均為2的雙因素方差分析模型的結(jié)構(gòu)相似,因此仿照方差分析,可以有如下關(guān)系式:本節(jié)將利用2×2維的交叉列聯(lián)表來說明對數(shù)線性模型的基本4對上面三式各取其平均數(shù)為:若記:其中:移項,可得與有交互效應(yīng)的雙因素方差分析數(shù)學(xué)模型極為相似的關(guān)系式:對上面三式各取其平均數(shù)為:若記:其中:移項,可得與有交互效應(yīng)5在實際分析中,概率表中各項值,以交叉列聯(lián)表計算得的頻率表的對應(yīng)項為無偏估計值。公式表示為:將其代入等算式,有:為與方差分析保持一致,可稱αi、βj分別是A、B的主效應(yīng),γij是A、B因素的交互效應(yīng)。下面對模型的參數(shù)進(jìn)行估計及檢驗。模型參數(shù)的估計及檢驗主要是估計γij值,根據(jù)γij值的正負(fù)和大小,可以判斷A因素的第i水平與B因素的第j水平間的交互效應(yīng)。若γij>0,表明二者存在正效應(yīng);若γij<0,則存在負(fù)效應(yīng);若γij=0,則A、B因素獨(dú)立(也稱為非飽和模型)。在實際分析中,概率表中各項值,以交叉列聯(lián)表計算得的頻率6將以上三式代入公式即可得的估計值。實際分析中,二維數(shù)據(jù)表并不是每個因素都是雙水平的,在分析中,把公式的i,j的取值上限調(diào)整即可。將以上三式代入公式即可得的估計值。實際分析中,二維7第2節(jié)對數(shù)線性模型分析的上機(jī)實踐第2節(jié)對數(shù)線性模型分析的上機(jī)實踐8可以使用SPSS軟件來實現(xiàn)對數(shù)線性模型分析。這里舉一個例子是3×2維的交叉列聯(lián)表的分析。我們用SPSS軟件中的Loglinear模塊實現(xiàn)分析。
【例9.1】
某企業(yè)想了解顧客對其產(chǎn)品是否滿意,同時還想了解不同收入的人群對其產(chǎn)品的滿意程度是否相同。在隨機(jī)發(fā)放的1000份問卷中收回有效問卷792份,根據(jù)收入高低和滿意回答的交叉分組數(shù)據(jù)如下表:
收入情況滿意不滿意合計高533891中434108542低11148159合計598194792首先要準(zhǔn)備數(shù)據(jù),上面的交叉列連表的數(shù)據(jù)要輸入到spss的表格里去,具體應(yīng)當(dāng)是如下:頻數(shù)收入情況滿意情況531143421111313812108224832可以使用SPSS軟件來實現(xiàn)對數(shù)線性模型分析。這里舉一個9按上面的形式輸入數(shù)據(jù)后,還不能馬上進(jìn)行對數(shù)線性模型分析,必須先激活頻數(shù),即讓頻數(shù)有效。具體步驟是:
首先,使用SPSS軟件,從主菜單中,以Data→WeightCases...順序,打開WeightCases對話框,選中Weightcasesby單選框,從變量列表中選出“頻數(shù)”變量,點擊鈕,使之進(jìn)入FrequencyVariable框,然后點擊OK鈕,回到數(shù)據(jù)表格,這時分析前的準(zhǔn)備工作就完成了。其次,從主菜單中,按Analyze→Loglinear→ModelSelection...的流程可打開ModelSelectionLoglinearAnalysis對話框,從左側(cè)變量欄里選中“收入情況”,點擊鈕使之進(jìn)入Factor(s)框,這時該框下面的DefineRange...鈕就會從灰色變?yōu)楹谏c擊彈出LoglinearAnalysis:DefineRange對話框,可以定義變量的范圍,即該變量的水平范圍,本例中“收入情況”共有三種類型,代號分別是1、2、3,所以在Minimum處鍵入1,在Maximum處鍵入3,按上面的形式輸入數(shù)據(jù)后,還不能馬上進(jìn)行對數(shù)線性模型分析10點擊Continue鈕,返回ModelSelectionLoglinearAnalysis對話框;按同樣方法,把“滿意情況”變量選入,并定以其范圍為1、2;然后選中“頻數(shù)”變量,點擊鈕使之進(jìn)入CellWeight框;最后,點擊Options...鈕,進(jìn)入LoglinearAnalysis:Options對話框,選擇DisplayforSaturatedModel欄下的Parameterestimates項,點擊Continue鈕返回ModelSelectionLoglinearAnalysis對話框,其他選項保持默認(rèn)值,最后點擊OK鈕即完成分析步驟。點擊Continue鈕,返回ModelSelecti11得到如下輸出結(jié)果:得到如下輸出結(jié)果:12首先顯示系統(tǒng)對792例資料進(jìn)行分析,這792例資料可分為6類(3×2)。模型中共有二個分類變量:其中“收入情況”變量為3水平,“滿意情況”情況變量為2水平;分析的效應(yīng)除了兩個分類變量,還有兩者的交互作用(收入情況*滿意情況)。系統(tǒng)經(jīng)1次疊代后,即達(dá)到相鄰二次估計之差不大于規(guī)定的0.001。首先顯示系統(tǒng)對792例資料進(jìn)行分析,這792例資料可13由于本例對模型采用系統(tǒng)默認(rèn)的飽和模型,因而實際倒數(shù)(OBScount)與期望數(shù)(EXPcount)相同,進(jìn)而殘差(Residual)和標(biāo)準(zhǔn)化殘差(Std.Resid)均為0。由于本例對模型采用系統(tǒng)默認(rèn)的飽和模型,因而實際倒數(shù)(O14這是對模型是否有交互效應(yīng)和高階效應(yīng)進(jìn)行檢驗,原假設(shè)是高階效應(yīng)為0,即沒有高階效應(yīng)。檢驗結(jié)果認(rèn)為拒絕原假設(shè),存在交互效應(yīng)和高階效應(yīng)。在Note里,表示對飽和模型的觀測單元進(jìn)行了變換。接下來就是對模型參數(shù)的估計,以及對參數(shù)的檢驗結(jié)果。這是對模型是否有交互效應(yīng)和高階效應(yīng)進(jìn)行檢驗,原假設(shè)是高15為了唯一地估計參數(shù),系統(tǒng)強(qiáng)行限定同一分類變量的各水平參數(shù)之和為0,故根據(jù)上表結(jié)果可推得各參數(shù)為:α高收入=-0.6826424527α中收入=0.8826606586α低收入=0-(-0.6826424527)-0.8826606586=-0.2000182059β滿意=0.4248216629(滿意情況的1水平)β不滿意=-0.4248216629γ高收入.滿意=-0.2603099566γ中收入.滿意=0.268901223γ低收入.滿意=0-(-0.2603099566)-0.268901223=-0.0085912664γ高收入.不滿意=0.2603099566γ中收入.不滿意=-0.268901223γ低收入.滿意=0-0.2603099566-(-0.268901223)=0.0085912664參數(shù)值為正,表示正效應(yīng);反之為負(fù)效應(yīng);零為無效應(yīng)。分析提供的信息是:⑴為正值,說明接受調(diào)查了的多數(shù)顧客對其產(chǎn)品還是滿意的;為了唯一地估計參數(shù),系統(tǒng)強(qiáng)行限定同一分類變量的各水平參16⑵,說明各收入階層的顧客對其產(chǎn)品的滿意程度是不同的,其中,高收入的顧客滿意程度最低,而中層收入的顧客滿意程度最高;⑶通過對企業(yè)顧客的收入情況和滿意情況交互效應(yīng)的研究,為負(fù)值表示高收入與對產(chǎn)品的滿意程度是負(fù)效應(yīng)的,為正表示中等收入者與對其產(chǎn)品的滿意程度是正效應(yīng)的,同理,低收入人群對其產(chǎn)品的滿意程度也是負(fù)效應(yīng)的。該企業(yè)的產(chǎn)品主要的消費(fèi)階層是中等收入者,同時中等收入者對其產(chǎn)品的滿意程度也最好。⑵17第3節(jié)Logistic回歸基本理論和方法第3節(jié)Logistic回歸基本理論和方法18通常我們需要研究某一社會現(xiàn)象發(fā)生的概率戶的大小,比如某一項目成功或失敗的概率,以及討論p的大小與哪些因素有關(guān)。但是直接處理可能性數(shù)值p存在困難,一是0≤p≤1,因此p與自變量的關(guān)系難以用線性模型來描述;二是當(dāng)p接近于0或1時,p值的微小變化用普通的方法難以發(fā)現(xiàn)和處理好。這時,不處理參數(shù)p,而處理p的一個嚴(yán)格單調(diào)函數(shù)Q=Q(p),就會方便得多。要求Q(p)在p=0或者p=1的附近的微小變化要很敏感,于是令:將p換成Q,這一變換就稱為Logit變換,從Logit變換可以看出,當(dāng)p從0→1時,Q的值從-∞→+∞,因此Q的值在區(qū)間(-∞,+∞)上變化,這一變換完全克服了一開始所提出的兩點困難,在數(shù)據(jù)處理上帶來很多方便。如果對自變量的關(guān)系式是線性的、二次的或多項式的,通過普通的最小二乘就可以處理,然后從p與Q的反函數(shù)關(guān)系式中求出p與自變換。例如Q=b’x,則有:,這就是Logit變換所帶來的方便。根據(jù)上面的思想,當(dāng)因變量是一個二元變量時,只取0與1兩個值時,因變量取1的概率p(y=1)就是要研究的對象。如果有很多因素影響y的取值,這些因素就是自變量記為x1,…,xk,這些xi中既有定性變量,也有定量變量。最重要的一個條件是:通常我們需要研究某一社會現(xiàn)象發(fā)生的概率戶的大小,比如某19Logistic回歸不同于一般回歸分析的地方在于它直接預(yù)測出了事件發(fā)生的概率。盡管這個概率值是個度量尺度,Logistic回歸與多元回歸還是有著很大的差異。概率值可以是0~1之間的任何值,但是預(yù)測值必須落入0~1的區(qū)間。這樣,Logistic回歸假定解釋變量與被解釋變量之間的關(guān)系類似于S形曲線。而且,不能從普通回歸的角度來分析Logistic回歸,因為這樣做會違反幾個假定。首先,離散變量的誤差形式服從貝努里分布,而不是正態(tài)分布,這樣使得基于正態(tài)性假設(shè)的統(tǒng)計檢驗無效。其次,二值變量的方差不是常數(shù),會造成異方差性。Logistic回歸是專門處理這些問題的。它的解釋變量與被解釋變量之間獨(dú)特的關(guān)系使得在估計、評價擬合度和解釋系數(shù)方面有不同的方法。滿足上面條件的稱為Logistic線性回歸。估計Logistic回歸模型與估計多元回歸模型的方法是不同的。多元回歸采用最小二乘估計,將解釋變量的真實值與預(yù)測值差異的平方和最小化。而Logistic變換的非線性特征使得在估計模型的時候采用極大似然估計的疊代方法,找到系數(shù)的“最可能”的估計。這樣在計算整個模型擬合度的時候,就采用似然值而不是離差平方和。Logistic回歸不同于一般回歸分析的地方在于它直20Logistic回歸的另一個好處就是我們只需要知道一件事情(有沒有購買、公司成功還是失敗)是否發(fā)生了,然后再用二元值作為我們的解釋變量。從這個二元值中,程序預(yù)測出事件發(fā)生或者不發(fā)生的概率。如果預(yù)測概率大于0.5,則預(yù)測發(fā)生,反之則不發(fā)生。需要注意的是,Logistic回歸和系數(shù)的解釋與多元回歸的解釋不同。程序計算出Logistic系數(shù),比較事件發(fā)生與不發(fā)生的概率比。假定事件發(fā)生的概率為p,優(yōu)勢比率可以表示為:估計的系數(shù)(b0,b1,b2,…,bn)反映優(yōu)勢比率的變化。如果bi是正的,它的反對數(shù)值(指數(shù))一定大于1,則優(yōu)勢比率會增加;反之,如果bi是負(fù)的,則優(yōu)勢比率會減小。前面已提到Logistic回歸在估計系數(shù)時,是用的極大似然估計法。就象多元回歸中的殘差平方和,Logistic回歸對模型擬合好壞通過似然值來測量。(實際上是用-2乘以似然值的自然對數(shù)即-2Log似然值,簡記為-2LL)。一個好的模型應(yīng)該有較小的-2LL。如果一個模型完全擬合,則似然值為1,這時-2LL達(dá)到最小,為0。Logistic回歸對于系數(shù)的檢驗采用的是與多元回歸中t檢驗不同的統(tǒng)計量,稱為Wald統(tǒng)計量。Logistic回歸的另一個好處就是我們只需要知道一件21一、分組數(shù)據(jù)的Logistic回歸模型針對0-1型因變量產(chǎn)生的問題,我們對回歸模型應(yīng)該做兩個方面的改進(jìn)。第一,回歸函數(shù)應(yīng)該改用限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線,而不能再沿用直線回歸方程。限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線有很多,例如所有連續(xù)型隨機(jī)變量的分布函數(shù)都符合要求,我們常用的是Logistic函數(shù)與正態(tài)分布函數(shù)。Logistic函數(shù)的形式為Logistic函數(shù)的中文名稱是邏輯斯諦函數(shù),或簡稱邏輯函數(shù)。的圖形一、分組數(shù)據(jù)的Logistic回歸模型22的圖形第二,因變量yi本身只取0,1兩個離散值,不適于直接作為回歸模型中的因變量,由于回歸函數(shù)E(yi)=пi=β0+β1xi表示在自變量為xi的條件下yi的平均值,而yi是0-1型隨機(jī)變量,因而E(yi)=пi就是在自變量為xi的條件下yi等于1的比例。這提示我們可以用yi等于1的比例代替yi本身作為因變量。
【例9.2】在一次住房展銷會上,與房地產(chǎn)商簽定初步購房意向書的共有n=325名顧客中,在隨后的3個月的時間內(nèi),只有一部分顧客確實購買了房屋。購買了房屋的顧客記為1,沒有購買房屋的顧客記為0。以顧客的年家庭收入(萬元)為自變量x,對如下的數(shù)據(jù),建立Logistic回歸模型的圖形第二,因變量yi本身只取0,1兩個離散值,不適233.3330.6931470.66666710159.595.1430.2876820.57142912218.586.8570.2876820.57142916287.579.5900.2578290.56410322396.5610.698-0.139760.46511620435.5512.692-0.310150.42307722524.5414.345-0.207640.44827626583.537.719-0.379490.40625013322.525.440-0.753770.3200008251.51權(quán)重wi=nipi(1-pi)邏輯變換實際購房比例pi=mi/ni實際購房人數(shù)mi簽定意向書人數(shù)ni年家庭收入(萬元)x序號Logistic回歸方程為:式中:c為分組數(shù)據(jù)的組數(shù),本例c=9。將以上回歸方程做線性變換,令:3.3330.6931470.66666710159.59524則變換后的線性回歸模型為:依據(jù)本例數(shù)據(jù),算出經(jīng)驗回歸方程為:判定系數(shù)r2=0.9243,顯著性檢驗P值≈0,高度顯著。將經(jīng)驗回歸方程代入式:得:這表明在住房展銷會上與房地產(chǎn)商簽訂初步購房意向書的年收入8萬元的家庭中,預(yù)計實際購房比例為59%?;蛘哒f,一個簽訂初步購房意向書的年收入8萬元的家庭,其購房概率為59%。用Logistic回歸模型成功地擬合了因變量為定性變量的回歸模型,但是仍然存在一個不足之處,就是異方差性并沒有解決,式的回歸模型不是等方差的,應(yīng)該對其用加權(quán)最小二乘估計。當(dāng)ni較大時,pi’的近似方差為:則變換后的線性回歸模型為:依據(jù)本例數(shù)據(jù),算出經(jīng)驗回歸方程為:25式中,因而選取權(quán)數(shù)為:對例9.2重新用加權(quán)最小二乘法做估計,計算結(jié)果如下:式中,因而選取權(quán)數(shù)為:對26用加權(quán)最小二乘法得到的Logistic回歸方程為:將x=8代入回歸方程得到的購房比例預(yù)測值為:得年收入8萬元的家庭預(yù)計實際購房比例為58.5%,這個結(jié)果與未加權(quán)的結(jié)果很接近。以上的例子是只有一個自變量的情況,分組數(shù)據(jù)的Logistic回歸模型可以很方便的推廣到多個自變量的情況,在此就不舉例說明了。分組數(shù)據(jù)的Logistic回歸只適用于大樣本的分組數(shù)據(jù),對小樣本的未分組數(shù)據(jù)不適用。并且以組數(shù)c為回歸擬合的樣本量,使擬合的精度低。實際上,我們可以用極大似然估計直接擬合未分組數(shù)據(jù)的Logistic回歸模型,以下就介紹這個方法。用加權(quán)最小二乘法得到的Logistic回歸方程為:將x=8代27二、未分組數(shù)據(jù)的Logistic回歸模型設(shè)y是0-1型變量,x1、x2、…、xp是與y相關(guān)的確定型變量,n組觀測數(shù)據(jù)為(xi1、xi2、…、xip、yi),i=1,2,…,n,y1、y2、…、yn其中是取值0或1的隨機(jī)變量,yi與xi1、xi2、…、xip的關(guān)系為:其中函數(shù)f(x)是值域在[0,1]區(qū)間內(nèi)的單調(diào)增函數(shù)。對于Logistic回歸,于是yi是均值為的0—1型分布,概率函數(shù)為:可以把yi的概率函數(shù)合寫為:于是y1、y2、…、yn的似然函數(shù)為:二、未分組數(shù)據(jù)的Logistic回歸模型設(shè)y是0-128對似然函數(shù)取自然對數(shù),得:對于Logistic,將代入得:
[例9.3]
在一次關(guān)于公共交通的社會調(diào)查中,一個調(diào)查項目是“是乘坐公共汽車上下班,還是騎自行車上下班”。因變量y=1表示主要乘坐公共汽車上下班,y=0表示主要騎自行車上下班。自變量x1是年齡,作為連續(xù)型變量;x2是月收入(元);x3是性別,x3=1表示男性,x3=0表示女性。調(diào)查對象為工薪族群體,數(shù)據(jù)見下表。試建立y與自變量間的Logistic回歸。對似然函數(shù)取自然對數(shù),得:對于Logistic,將代入得:29010002011508501801118005612808501811411500521271180058013010004812612100560121180045125118005501101500411240120048010012003812319504609010003312211000420801800331211150036070100032120085031061950301191120028050150028118195023040130027117185023030120025116012002102y月收入年齡性別序號y月收入年齡性別序號01000201150850180111800561280830
⑴點選SPSS軟件的Analyze→Regression→BinaryLogistic命令,進(jìn)入Logistic回歸對話框如下所示:
利用SPSS軟件進(jìn)行估計的步驟如下:⑵將y送入Dependent框;⑶將x1、x2、x3送入Covariate框中;⑷點擊[OK],系統(tǒng)輸出以下結(jié)果:⑴點選SPSS軟件的Analyze→Regressi31上表中SEX(性別)、AGE(年齡)、X2(月收入)是3個自變量,Wald是回歸系數(shù)檢驗的統(tǒng)計量值,Sig是Wald檢驗的顯著性概率,R是偏相關(guān)系數(shù)??梢钥吹?,X2(月收入)不顯著,決定將其剔除。用y對性別與年齡兩個自變量做回歸,輸出結(jié)果見下表。上表中SEX(性別)、AGE(年齡)、X2(月收入)是32可以看到,SEX、AGE兩個自變量都是顯著的,因而最終的回歸方程為:以上方程式表明,女性乘公共汽車的比例高于男性,年齡越高乘車的比例也越高。SPSS軟件沒有給出Logistic回歸的標(biāo)準(zhǔn)化回歸系數(shù),對于Logistic回歸,回歸系數(shù)也沒有普通線性回歸那樣的解釋,因而計算標(biāo)準(zhǔn)化回歸系數(shù)并不重要。如果要考慮每個自變量在回歸方程中的重要性,不妨直接比較Wald值(或Sig值),Wald值大者(或Sig值小者)顯著性高,也就更重要。當(dāng)然這里假定自變量間沒有強(qiáng)的復(fù)共線性,否則回歸系數(shù)的大小及其顯著性概率都沒有意義??梢钥吹?,SEX、AGE兩個自變量都是顯著的,因而最終的回歸33第4節(jié)Logistic回歸的方法與步驟第4節(jié)Logistic回歸的方法與步驟34鑒于Logistic回歸與判別分析的相似性,我們可以對比兩種方法的相似性和不同點。Logistic回歸的自變量可以是定量變量或定性變量(需要編碼),這樣可以檢驗自變量對于Logistic回歸模型的貢獻(xiàn)、自變量的顯著性以及Logistic模型的判別精度。Logistic回歸一般有以下幾個步驟:⑵將一部分樣品用于估計Logistic函數(shù)(分析樣品),另一部分樣品用于檢驗?zāi)P偷呐袆e精度(保留樣品)。⑴選擇自變量和因變量。這里因變量為分組變量(限于篇幅,我們僅介紹因變量分兩組的情況),自變量可以是定量變量和定性變量。Logistic回歸對于資料數(shù)據(jù)有較強(qiáng)的穩(wěn)健性(robustness),無須各組自變量的協(xié)差陣相等的假定。⑶模型中假定自變量之間不存在高度相關(guān),因變量發(fā)生概率的模型服從于Logistic模型。這樣我們可以進(jìn)行Logistic回歸估計。⑷估計模型參數(shù),評估擬合情況。我們選擇回歸估計的方法對回歸參數(shù)進(jìn)行估計并檢驗回歸參數(shù)的顯著性,對模型的擬合程度檢驗。⑸解釋所得到的模型結(jié)果。通過參數(shù)的顯著性和符號、大小來解釋自變量對因變量的意義。⑹通過保留樣本來驗證模型的判別精度。
鑒于Logistic回歸與判別分析的相似性,我們可以對35Logistic回歸的邏輯框圖如下:Logistic回歸的邏輯框圖如下:36本章結(jié)束!本章結(jié)束!37第9章定性數(shù)據(jù)的建模分析對數(shù)線性模型基本理論和方法對數(shù)線性模型分析的上機(jī)實驗Logistic回歸基本理論和方法Logistic回歸的方法與步驟第9章定性數(shù)據(jù)的建模分析對數(shù)線性模型基本理論和方法對數(shù)線性38第三章我們曾討論過定性數(shù)據(jù)的列聯(lián)表分析,對數(shù)線性模型是進(jìn)一步用于離散型數(shù)據(jù)或整理成列聯(lián)表格式的數(shù)據(jù)的統(tǒng)計分析工具。它可以把方差分析和線性模型的一些方法應(yīng)用到對交叉列聯(lián)表的分析中,從而對定性變量間的關(guān)系作更進(jìn)一步的描述和分析。列聯(lián)表分析無法系統(tǒng)地評價變量間的聯(lián)系,也無法估計變量間交互作用的大小,而對數(shù)線性模型是處理這些問題的最佳方法。當(dāng)被解釋變量是非度量變量時,可以用判別分析。然而當(dāng)被解釋變量只有兩組時,Logistic回歸由于多種原因更受歡迎。首先,判別分析依賴于嚴(yán)格的多元正態(tài)性和相等協(xié)差陣的假設(shè),這在很多情況下是達(dá)不到的。
Logistic回歸沒有類似的假設(shè),而且這些假設(shè)不滿足時,結(jié)果非常穩(wěn)定。其次,即使?jié)M足假定,許多研究者仍偏好Logistic回歸,因為它類似于回歸分析。兩者都有直接的統(tǒng)計檢驗,都能包含非線性效果和大范圍的診斷。因為這些和更多技術(shù)原因,Logistic回歸等同于兩組的判別分析,在很多情況下更加適用。再者,Logistic回歸對于自變量沒有要求,度量變量或者非度量變量都可以進(jìn)行回歸,這樣,本章僅介紹定性數(shù)據(jù)建模的對數(shù)線性模型和Logistic回歸方法。第三章我們曾討論過定性數(shù)據(jù)的列聯(lián)表分析,對數(shù)線性模型是39第1節(jié)對數(shù)線性模型基本理論和方法第1節(jié)對數(shù)線性模型基本理論和方法40本節(jié)將利用2×2維的交叉列聯(lián)表來說明對數(shù)線性模型的基本理論和方法,同時利用SPSS軟件對真實的經(jīng)濟(jì)定性數(shù)據(jù)作分析。從下面的2×2維交叉列聯(lián)表及其概率表,介紹對數(shù)線性模型的基本理論和方法。在對數(shù)線性模型分析中,要先將概率取對數(shù),再分解處理,用公式表示如下:上式可以簡寫為:該式的結(jié)構(gòu)與有交互效應(yīng),且各水平均為2的雙因素方差分析模型的結(jié)構(gòu)相似,因此仿照方差分析,可以有如下關(guān)系式:本節(jié)將利用2×2維的交叉列聯(lián)表來說明對數(shù)線性模型的基本41對上面三式各取其平均數(shù)為:若記:其中:移項,可得與有交互效應(yīng)的雙因素方差分析數(shù)學(xué)模型極為相似的關(guān)系式:對上面三式各取其平均數(shù)為:若記:其中:移項,可得與有交互效應(yīng)42在實際分析中,概率表中各項值,以交叉列聯(lián)表計算得的頻率表的對應(yīng)項為無偏估計值。公式表示為:將其代入等算式,有:為與方差分析保持一致,可稱αi、βj分別是A、B的主效應(yīng),γij是A、B因素的交互效應(yīng)。下面對模型的參數(shù)進(jìn)行估計及檢驗。模型參數(shù)的估計及檢驗主要是估計γij值,根據(jù)γij值的正負(fù)和大小,可以判斷A因素的第i水平與B因素的第j水平間的交互效應(yīng)。若γij>0,表明二者存在正效應(yīng);若γij<0,則存在負(fù)效應(yīng);若γij=0,則A、B因素獨(dú)立(也稱為非飽和模型)。在實際分析中,概率表中各項值,以交叉列聯(lián)表計算得的頻率43將以上三式代入公式即可得的估計值。實際分析中,二維數(shù)據(jù)表并不是每個因素都是雙水平的,在分析中,把公式的i,j的取值上限調(diào)整即可。將以上三式代入公式即可得的估計值。實際分析中,二維44第2節(jié)對數(shù)線性模型分析的上機(jī)實踐第2節(jié)對數(shù)線性模型分析的上機(jī)實踐45可以使用SPSS軟件來實現(xiàn)對數(shù)線性模型分析。這里舉一個例子是3×2維的交叉列聯(lián)表的分析。我們用SPSS軟件中的Loglinear模塊實現(xiàn)分析。
【例9.1】
某企業(yè)想了解顧客對其產(chǎn)品是否滿意,同時還想了解不同收入的人群對其產(chǎn)品的滿意程度是否相同。在隨機(jī)發(fā)放的1000份問卷中收回有效問卷792份,根據(jù)收入高低和滿意回答的交叉分組數(shù)據(jù)如下表:
收入情況滿意不滿意合計高533891中434108542低11148159合計598194792首先要準(zhǔn)備數(shù)據(jù),上面的交叉列連表的數(shù)據(jù)要輸入到spss的表格里去,具體應(yīng)當(dāng)是如下:頻數(shù)收入情況滿意情況531143421111313812108224832可以使用SPSS軟件來實現(xiàn)對數(shù)線性模型分析。這里舉一個46按上面的形式輸入數(shù)據(jù)后,還不能馬上進(jìn)行對數(shù)線性模型分析,必須先激活頻數(shù),即讓頻數(shù)有效。具體步驟是:
首先,使用SPSS軟件,從主菜單中,以Data→WeightCases...順序,打開WeightCases對話框,選中Weightcasesby單選框,從變量列表中選出“頻數(shù)”變量,點擊鈕,使之進(jìn)入FrequencyVariable框,然后點擊OK鈕,回到數(shù)據(jù)表格,這時分析前的準(zhǔn)備工作就完成了。其次,從主菜單中,按Analyze→Loglinear→ModelSelection...的流程可打開ModelSelectionLoglinearAnalysis對話框,從左側(cè)變量欄里選中“收入情況”,點擊鈕使之進(jìn)入Factor(s)框,這時該框下面的DefineRange...鈕就會從灰色變?yōu)楹谏?,點擊彈出LoglinearAnalysis:DefineRange對話框,可以定義變量的范圍,即該變量的水平范圍,本例中“收入情況”共有三種類型,代號分別是1、2、3,所以在Minimum處鍵入1,在Maximum處鍵入3,按上面的形式輸入數(shù)據(jù)后,還不能馬上進(jìn)行對數(shù)線性模型分析47點擊Continue鈕,返回ModelSelectionLoglinearAnalysis對話框;按同樣方法,把“滿意情況”變量選入,并定以其范圍為1、2;然后選中“頻數(shù)”變量,點擊鈕使之進(jìn)入CellWeight框;最后,點擊Options...鈕,進(jìn)入LoglinearAnalysis:Options對話框,選擇DisplayforSaturatedModel欄下的Parameterestimates項,點擊Continue鈕返回ModelSelectionLoglinearAnalysis對話框,其他選項保持默認(rèn)值,最后點擊OK鈕即完成分析步驟。點擊Continue鈕,返回ModelSelecti48得到如下輸出結(jié)果:得到如下輸出結(jié)果:49首先顯示系統(tǒng)對792例資料進(jìn)行分析,這792例資料可分為6類(3×2)。模型中共有二個分類變量:其中“收入情況”變量為3水平,“滿意情況”情況變量為2水平;分析的效應(yīng)除了兩個分類變量,還有兩者的交互作用(收入情況*滿意情況)。系統(tǒng)經(jīng)1次疊代后,即達(dá)到相鄰二次估計之差不大于規(guī)定的0.001。首先顯示系統(tǒng)對792例資料進(jìn)行分析,這792例資料可50由于本例對模型采用系統(tǒng)默認(rèn)的飽和模型,因而實際倒數(shù)(OBScount)與期望數(shù)(EXPcount)相同,進(jìn)而殘差(Residual)和標(biāo)準(zhǔn)化殘差(Std.Resid)均為0。由于本例對模型采用系統(tǒng)默認(rèn)的飽和模型,因而實際倒數(shù)(O51這是對模型是否有交互效應(yīng)和高階效應(yīng)進(jìn)行檢驗,原假設(shè)是高階效應(yīng)為0,即沒有高階效應(yīng)。檢驗結(jié)果認(rèn)為拒絕原假設(shè),存在交互效應(yīng)和高階效應(yīng)。在Note里,表示對飽和模型的觀測單元進(jìn)行了變換。接下來就是對模型參數(shù)的估計,以及對參數(shù)的檢驗結(jié)果。這是對模型是否有交互效應(yīng)和高階效應(yīng)進(jìn)行檢驗,原假設(shè)是高52為了唯一地估計參數(shù),系統(tǒng)強(qiáng)行限定同一分類變量的各水平參數(shù)之和為0,故根據(jù)上表結(jié)果可推得各參數(shù)為:α高收入=-0.6826424527α中收入=0.8826606586α低收入=0-(-0.6826424527)-0.8826606586=-0.2000182059β滿意=0.4248216629(滿意情況的1水平)β不滿意=-0.4248216629γ高收入.滿意=-0.2603099566γ中收入.滿意=0.268901223γ低收入.滿意=0-(-0.2603099566)-0.268901223=-0.0085912664γ高收入.不滿意=0.2603099566γ中收入.不滿意=-0.268901223γ低收入.滿意=0-0.2603099566-(-0.268901223)=0.0085912664參數(shù)值為正,表示正效應(yīng);反之為負(fù)效應(yīng);零為無效應(yīng)。分析提供的信息是:⑴為正值,說明接受調(diào)查了的多數(shù)顧客對其產(chǎn)品還是滿意的;為了唯一地估計參數(shù),系統(tǒng)強(qiáng)行限定同一分類變量的各水平參53⑵,說明各收入階層的顧客對其產(chǎn)品的滿意程度是不同的,其中,高收入的顧客滿意程度最低,而中層收入的顧客滿意程度最高;⑶通過對企業(yè)顧客的收入情況和滿意情況交互效應(yīng)的研究,為負(fù)值表示高收入與對產(chǎn)品的滿意程度是負(fù)效應(yīng)的,為正表示中等收入者與對其產(chǎn)品的滿意程度是正效應(yīng)的,同理,低收入人群對其產(chǎn)品的滿意程度也是負(fù)效應(yīng)的。該企業(yè)的產(chǎn)品主要的消費(fèi)階層是中等收入者,同時中等收入者對其產(chǎn)品的滿意程度也最好。⑵54第3節(jié)Logistic回歸基本理論和方法第3節(jié)Logistic回歸基本理論和方法55通常我們需要研究某一社會現(xiàn)象發(fā)生的概率戶的大小,比如某一項目成功或失敗的概率,以及討論p的大小與哪些因素有關(guān)。但是直接處理可能性數(shù)值p存在困難,一是0≤p≤1,因此p與自變量的關(guān)系難以用線性模型來描述;二是當(dāng)p接近于0或1時,p值的微小變化用普通的方法難以發(fā)現(xiàn)和處理好。這時,不處理參數(shù)p,而處理p的一個嚴(yán)格單調(diào)函數(shù)Q=Q(p),就會方便得多。要求Q(p)在p=0或者p=1的附近的微小變化要很敏感,于是令:將p換成Q,這一變換就稱為Logit變換,從Logit變換可以看出,當(dāng)p從0→1時,Q的值從-∞→+∞,因此Q的值在區(qū)間(-∞,+∞)上變化,這一變換完全克服了一開始所提出的兩點困難,在數(shù)據(jù)處理上帶來很多方便。如果對自變量的關(guān)系式是線性的、二次的或多項式的,通過普通的最小二乘就可以處理,然后從p與Q的反函數(shù)關(guān)系式中求出p與自變換。例如Q=b’x,則有:,這就是Logit變換所帶來的方便。根據(jù)上面的思想,當(dāng)因變量是一個二元變量時,只取0與1兩個值時,因變量取1的概率p(y=1)就是要研究的對象。如果有很多因素影響y的取值,這些因素就是自變量記為x1,…,xk,這些xi中既有定性變量,也有定量變量。最重要的一個條件是:通常我們需要研究某一社會現(xiàn)象發(fā)生的概率戶的大小,比如某56Logistic回歸不同于一般回歸分析的地方在于它直接預(yù)測出了事件發(fā)生的概率。盡管這個概率值是個度量尺度,Logistic回歸與多元回歸還是有著很大的差異。概率值可以是0~1之間的任何值,但是預(yù)測值必須落入0~1的區(qū)間。這樣,Logistic回歸假定解釋變量與被解釋變量之間的關(guān)系類似于S形曲線。而且,不能從普通回歸的角度來分析Logistic回歸,因為這樣做會違反幾個假定。首先,離散變量的誤差形式服從貝努里分布,而不是正態(tài)分布,這樣使得基于正態(tài)性假設(shè)的統(tǒng)計檢驗無效。其次,二值變量的方差不是常數(shù),會造成異方差性。Logistic回歸是專門處理這些問題的。它的解釋變量與被解釋變量之間獨(dú)特的關(guān)系使得在估計、評價擬合度和解釋系數(shù)方面有不同的方法。滿足上面條件的稱為Logistic線性回歸。估計Logistic回歸模型與估計多元回歸模型的方法是不同的。多元回歸采用最小二乘估計,將解釋變量的真實值與預(yù)測值差異的平方和最小化。而Logistic變換的非線性特征使得在估計模型的時候采用極大似然估計的疊代方法,找到系數(shù)的“最可能”的估計。這樣在計算整個模型擬合度的時候,就采用似然值而不是離差平方和。Logistic回歸不同于一般回歸分析的地方在于它直57Logistic回歸的另一個好處就是我們只需要知道一件事情(有沒有購買、公司成功還是失敗)是否發(fā)生了,然后再用二元值作為我們的解釋變量。從這個二元值中,程序預(yù)測出事件發(fā)生或者不發(fā)生的概率。如果預(yù)測概率大于0.5,則預(yù)測發(fā)生,反之則不發(fā)生。需要注意的是,Logistic回歸和系數(shù)的解釋與多元回歸的解釋不同。程序計算出Logistic系數(shù),比較事件發(fā)生與不發(fā)生的概率比。假定事件發(fā)生的概率為p,優(yōu)勢比率可以表示為:估計的系數(shù)(b0,b1,b2,…,bn)反映優(yōu)勢比率的變化。如果bi是正的,它的反對數(shù)值(指數(shù))一定大于1,則優(yōu)勢比率會增加;反之,如果bi是負(fù)的,則優(yōu)勢比率會減小。前面已提到Logistic回歸在估計系數(shù)時,是用的極大似然估計法。就象多元回歸中的殘差平方和,Logistic回歸對模型擬合好壞通過似然值來測量。(實際上是用-2乘以似然值的自然對數(shù)即-2Log似然值,簡記為-2LL)。一個好的模型應(yīng)該有較小的-2LL。如果一個模型完全擬合,則似然值為1,這時-2LL達(dá)到最小,為0。Logistic回歸對于系數(shù)的檢驗采用的是與多元回歸中t檢驗不同的統(tǒng)計量,稱為Wald統(tǒng)計量。Logistic回歸的另一個好處就是我們只需要知道一件58一、分組數(shù)據(jù)的Logistic回歸模型針對0-1型因變量產(chǎn)生的問題,我們對回歸模型應(yīng)該做兩個方面的改進(jìn)。第一,回歸函數(shù)應(yīng)該改用限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線,而不能再沿用直線回歸方程。限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線有很多,例如所有連續(xù)型隨機(jī)變量的分布函數(shù)都符合要求,我們常用的是Logistic函數(shù)與正態(tài)分布函數(shù)。Logistic函數(shù)的形式為Logistic函數(shù)的中文名稱是邏輯斯諦函數(shù),或簡稱邏輯函數(shù)。的圖形一、分組數(shù)據(jù)的Logistic回歸模型59的圖形第二,因變量yi本身只取0,1兩個離散值,不適于直接作為回歸模型中的因變量,由于回歸函數(shù)E(yi)=пi=β0+β1xi表示在自變量為xi的條件下yi的平均值,而yi是0-1型隨機(jī)變量,因而E(yi)=пi就是在自變量為xi的條件下yi等于1的比例。這提示我們可以用yi等于1的比例代替yi本身作為因變量。
【例9.2】在一次住房展銷會上,與房地產(chǎn)商簽定初步購房意向書的共有n=325名顧客中,在隨后的3個月的時間內(nèi),只有一部分顧客確實購買了房屋。購買了房屋的顧客記為1,沒有購買房屋的顧客記為0。以顧客的年家庭收入(萬元)為自變量x,對如下的數(shù)據(jù),建立Logistic回歸模型的圖形第二,因變量yi本身只取0,1兩個離散值,不適603.3330.6931470.66666710159.595.1430.2876820.57142912218.586.8570.2876820.57142916287.579.5900.2578290.56410322396.5610.698-0.139760.46511620435.5512.692-0.310150.42307722524.5414.345-0.207640.44827626583.537.719-0.379490.40625013322.525.440-0.753770.3200008251.51權(quán)重wi=nipi(1-pi)邏輯變換實際購房比例pi=mi/ni實際購房人數(shù)mi簽定意向書人數(shù)ni年家庭收入(萬元)x序號Logistic回歸方程為:式中:c為分組數(shù)據(jù)的組數(shù),本例c=9。將以上回歸方程做線性變換,令:3.3330.6931470.66666710159.59561則變換后的線性回歸模型為:依據(jù)本例數(shù)據(jù),算出經(jīng)驗回歸方程為:判定系數(shù)r2=0.9243,顯著性檢驗P值≈0,高度顯著。將經(jīng)驗回歸方程代入式:得:這表明在住房展銷會上與房地產(chǎn)商簽訂初步購房意向書的年收入8萬元的家庭中,預(yù)計實際購房比例為59%?;蛘哒f,一個簽訂初步購房意向書的年收入8萬元的家庭,其購房概率為59%。用Logistic回歸模型成功地擬合了因變量為定性變量的回歸模型,但是仍然存在一個不足之處,就是異方差性并沒有解決,式的回歸模型不是等方差的,應(yīng)該對其用加權(quán)最小二乘估計。當(dāng)ni較大時,pi’的近似方差為:則變換后的線性回歸模型為:依據(jù)本例數(shù)據(jù),算出經(jīng)驗回歸方程為:62式中,因而選取權(quán)數(shù)為:對例9.2重新用加權(quán)最小二乘法做估計,計算結(jié)果如下:式中,因而選取權(quán)數(shù)為:對63用加權(quán)最小二乘法得到的Logistic回歸方程為:將x=8代入回歸方程得到的購房比例預(yù)測值為:得年收入8萬元的家庭預(yù)計實際購房比例為58.5%,這個結(jié)果與未加權(quán)的結(jié)果很接近。以上的例子是只有一個自變量的情況,分組數(shù)據(jù)的Logistic回歸模型可以很方便的推廣到多個自變量的情況,在此就不舉例說明了。分組數(shù)據(jù)的Logistic回歸只適用于大樣本的分組數(shù)據(jù),對小樣本的未分組數(shù)據(jù)不適用。并且以組數(shù)c為回歸擬合的樣本量,使擬合的精度低。實際上,我們可以用極大似然估計直接擬合未分組數(shù)據(jù)的Logistic回歸模型,以下就介紹這個方法。用加權(quán)最小二乘法得到的Logistic回歸方程為:將x=8代64二、未分組數(shù)據(jù)的Logistic回歸模型設(shè)y是0-1型變量,x1、x2、…、xp是與y相關(guān)的確定型變量,n組觀測數(shù)據(jù)為(xi1、xi2、…、xip、yi),i=1,2,…,n,y1、y2、…、yn其中是取值0或1的隨機(jī)變量,yi與xi1、xi2、…、xip的關(guān)系為:其中函數(shù)f(x)是值域在[0,1]區(qū)間內(nèi)的單調(diào)增函數(shù)。對于Logistic回歸,于是yi是均值為的0—1型分布,概率函數(shù)為:可以把yi的概率函數(shù)合寫為:于是y1、y2、…、yn的似然函數(shù)為:二、未分組數(shù)據(jù)的Logistic回歸模型設(shè)y是0-165對似然函數(shù)取自然對數(shù),得:對于Logistic,將代入得:
[例9.3]
在一次關(guān)于公共交通的社會調(diào)查中,一個
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 課題申報參考:累積生態(tài)風(fēng)險對農(nóng)村婦女抑郁癥狀的作用機(jī)制及風(fēng)險分級干預(yù)研究
- 科技助力冠心病患者的生活質(zhì)量提升
- 探索未知領(lǐng)域科技前沿的創(chuàng)新與突破
- 寵物藥品的寵物醫(yī)療技術(shù)創(chuàng)新與國際合作機(jī)會挖掘考核試卷
- 2024年廣西公務(wù)員申論考試真題及答案-A卷
- 2025年滬教版高二數(shù)學(xué)上冊月考試卷
- 2025年人教新起點選修1歷史上冊月考試卷含答案
- 2025年粵教新版九年級地理上冊月考試卷
- 2025年人教五四新版七年級生物上冊階段測試試卷
- 2025年蘇人新版七年級生物上冊月考試卷含答案
- 江蘇省蘇州市2024-2025學(xué)年高三上學(xué)期1月期末生物試題(有答案)
- 銷售與銷售目標(biāo)管理制度
- 人教版(2025新版)七年級下冊英語:寒假課內(nèi)預(yù)習(xí)重點知識默寫練習(xí)
- 2024年食品行業(yè)員工勞動合同標(biāo)準(zhǔn)文本
- 2025年第一次工地開工會議主要議程開工大吉模板
- 全屋整裝售后保修合同模板
- 高中生物學(xué)科學(xué)推理能力測試
- GB/T 44423-2024近紅外腦功能康復(fù)評估設(shè)備通用要求
- 2024-2030年中國減肥行業(yè)市場發(fā)展分析及發(fā)展趨勢與投資研究報告
- 運(yùn)動技能學(xué)習(xí)
- 2024年中考英語專項復(fù)習(xí):傳統(tǒng)文化的魅力(閱讀理解+完型填空+書面表達(dá))(含答案)
評論
0/150
提交評論