廣義線性模型論文_第1頁(yè)
廣義線性模型論文_第2頁(yè)
廣義線性模型論文_第3頁(yè)
廣義線性模型論文_第4頁(yè)
廣義線性模型論文_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、廣義線性模型結(jié)課論文 學(xué) 院: 基礎(chǔ)科學(xué)學(xué)院 班 級(jí): 130802班 學(xué)生學(xué)號(hào): 20132891 學(xué)生姓名: 白冰 指導(dǎo)教師: 單娜 摘要基于廣義線性模型的本科畢業(yè)生去向的分析摘要:線性回歸模型中是要求因變量是定量變量,而不是定性變量。但許多實(shí)際問(wèn)題中,經(jīng)常出現(xiàn)因變量是定性變量的情況。Logistic回歸分析,處理分類因變量的統(tǒng)計(jì)方法。Logistic回歸模型是根據(jù)單個(gè)或多個(gè)連續(xù)型或離散型自變量來(lái)分析和預(yù)測(cè)離散型因變量的多元分析方法,是當(dāng)前常用統(tǒng)計(jì)方法。本文對(duì)Logistic回歸模型的概況,分類,參數(shù)估計(jì)進(jìn)行了分析綜述,并用SAS軟件進(jìn)行數(shù)據(jù)分析從而對(duì)模型進(jìn)行了評(píng)價(jià)及對(duì)回歸系數(shù)做了統(tǒng)計(jì)推斷

2、。得到了很好的預(yù)期效果。關(guān)鍵詞:累計(jì)Logistic回歸模型;多項(xiàng)Logit模型;最大似然估計(jì);擬合優(yōu)度檢驗(yàn)?zāi)夸?.前言42.數(shù)據(jù)來(lái)源及介紹53.基本概念63.1累積logit模型73.2多項(xiàng)logit模型74.實(shí)證分析84.1數(shù)據(jù)處理84.2累積Logit分析84.2.1SAS程序84.2.2結(jié)果分析943多項(xiàng)logit模型分析124.3.1SAS程序124.3.2結(jié)果分析135綜述15參考文獻(xiàn)161.前言高校大學(xué)畢業(yè)生作為人才資源中較高層次的一類,其就業(yè)過(guò)程是國(guó)家高層次人力資源配置最為重要的一個(gè)環(huán)節(jié)。當(dāng)前,大學(xué)畢業(yè)生就業(yè)已成為社會(huì)普遍關(guān)注的問(wèn)題。大學(xué)生就業(yè)難問(wèn)題的原因非常復(fù)雜, 而且還隱含

3、著深層次的社會(huì)問(wèn)題。 在當(dāng)前新形勢(shì)下,解決高校畢業(yè)生就業(yè)難問(wèn)題也需要政府,學(xué)校及整個(gè)社會(huì)的努力, 要解決這些問(wèn)題也不能是一蹴而就, 只能通過(guò)全社會(huì)的努力, 創(chuàng)新觀念, 完善制度和改進(jìn)工作方式,不斷深化改革來(lái)完成。大學(xué)生畢業(yè)之后的不同走向,很大程度決定定其在大學(xué)里的學(xué)習(xí)方向。大學(xué)生明確自己的畢業(yè)走向, 有利于提高自己大學(xué)學(xué)習(xí)的效率,以及獲取各類就業(yè)信息的目的性,從而對(duì)自己的大學(xué)生活有一個(gè)更好的規(guī)劃。 現(xiàn)在大學(xué)生普遍面臨巨大的就業(yè)壓力,從而不可避免的導(dǎo)致了大學(xué)生畢業(yè)走向的多樣化,為了加深對(duì)大學(xué)生今后走向的一個(gè)初步了解,本文選擇了一個(gè)含有40個(gè)樣本的數(shù)據(jù)集,因變量為本科生畢業(yè)去向,分為3類,分別為工

4、作、讀研、出國(guó)留學(xué);考察專業(yè)課成績(jī)、英語(yǔ)成績(jī)、性別和月生活費(fèi)這4個(gè)自變量對(duì)本科生畢業(yè)去向的影響。使用SAS9.3軟件對(duì)數(shù)據(jù)進(jìn)行處理,利用Logistic回歸分析影響畢業(yè)生去向的因素。2.數(shù)據(jù)來(lái)源及介紹1、 所用數(shù)據(jù)來(lái)源于應(yīng)用回歸分析第三版第十章課后習(xí)題。2、 如表所示,數(shù)據(jù)中包括40位本科畢業(yè)生相關(guān)信息的數(shù)據(jù),其中:畢業(yè)去向y:“1”=工作,“2”=讀研,“3”=出國(guó)留學(xué)X1:專業(yè)課成績(jī) X2:英語(yǔ) X3:性別 X4:月生活費(fèi)40位本科畢業(yè)生相關(guān)信息序號(hào)X1X2X3X4Y19565160022636208501382530700246088085035726517501685850100037

5、959501200289292195029636308501107875190011190780500112828317502138065185031483750600215609006503167590180021763831700118857507502197386095022086661150032193630130022273720850123866019502247663011001259686075022671751100012763721850228608806501296795150013086930550131637606501328686075023376851650134

6、8292195033573600800136828517502377575075013872631650139818808503409296195023.基本概念logistic回歸比較常用的是因變量為二分類的logistic回歸,這也是比較簡(jiǎn)單的一種形式。但在現(xiàn)實(shí)中,因變量的分類有時(shí)候多于兩類,如療效可能是“無(wú)效”“顯效”“痊愈”三類,你當(dāng)然可以把其中兩類進(jìn)行合并,然后仍然按照二分類logistic回歸進(jìn)行分析,但是合并的弊端是顯而易見(jiàn)的,它可能損失一定的信息。而多分類則充分利用了完整的信息,可能提供更多的結(jié)果。多分類logistic回歸也有兩種,一種是有序分類,一種是無(wú)序分類。有序和無(wú)序的

7、劃分不一定完全按照字面意思理解。比如療效,聽(tīng)起來(lái)似乎是有序的,因?yàn)樗前吹燃?jí)劃分的,但真正分析時(shí)還是需要結(jié)合具體的數(shù)據(jù)結(jié)構(gòu)、使用條件和研究目的綜合考慮。一般來(lái)講,有序分類的logistic回歸可以采用比例優(yōu)勢(shì)模型(proportional odds model),又稱累積logit模型或累積比數(shù)模型。無(wú)序分類的logistic回歸采用多項(xiàng)logit模型(polynomial logit model)?;谘芯磕康呐c資料類型的不同特點(diǎn),多水平統(tǒng)計(jì)模型有著不同的表達(dá)形式。當(dāng)所研究的資料為多分類離散型數(shù)據(jù)時(shí),其相應(yīng)的多水平統(tǒng)計(jì)模型被稱作多水平多項(xiàng)式模型,其模型中的鏈接函數(shù)可以選擇 logit 或者

8、log-log。由于多分類反應(yīng)變量分為無(wú)序分類與有序分類兩種,其多水平模型的具體形式也會(huì)有所不同。3.1累積logit模型其定義如下:Y*=+i=1pixi+其中,Y*表示觀測(cè)現(xiàn)象的內(nèi)在趨勢(shì),它并不能被直接測(cè)量,為誤差項(xiàng);表示常數(shù)項(xiàng),i表示系數(shù)項(xiàng)。設(shè)結(jié)果變量Y為J個(gè)等級(jí)的有序變量,J個(gè)等級(jí)分別用1,2,j表示,xT=(x1,x2,xp)為自變量。記等級(jí)為j(j=l,2k)的概率為:P(y=j| x),則等級(jí)小于等于J(J=l,2,k)的概率為:P(yj| x)=P(y=1| x)+P(y=j|x)。 等級(jí)小于等于j的累積概率。做logit變換:logitPj=logitP(y>j|x)=

9、lnP(y>j|x)1-P(y>j|x) j=1,2,k-1有序分類結(jié)果的Logistic回歸定義為:logitPj= logitP(y>j|x)=-j+i=1pixi j=l2,k-1等價(jià)于P(yj|x)=exp(-j+i=1pixi )1+exp(-j+i=1pixi )3.2多項(xiàng)logit模型對(duì)于有J=1,2,J類的非次序反應(yīng)變量,多項(xiàng)Logit模型可以通過(guò)以下Logit形式形容:lnP(y=j|x)1-P(y=J|x)=j+k=1kjkxk在多項(xiàng)Logit模型中,Logit是由反應(yīng)變量中的不重復(fù)的類別的對(duì)比所形成的。當(dāng)反應(yīng)變量有J類別時(shí)多項(xiàng)Logit模型中便有J一1個(gè)

10、Logit在累積Logistic回歸模型中有J一1個(gè)累積Logit函數(shù)的截距估計(jì),但是只有一套斜率系數(shù)的估計(jì)對(duì)應(yīng)自變量。而在多項(xiàng)式Logit模型中,不僅有J一1個(gè)截距而且有J一1套斜率系數(shù)估計(jì)對(duì)應(yīng)同一套自變量。上式中有每一個(gè)斜率系數(shù)都有兩個(gè)下角標(biāo)的原因。其中第一個(gè)下角標(biāo)標(biāo)志不同的Logit,第二個(gè)下角標(biāo)標(biāo)志不同的自變量。在有J個(gè)類別的多項(xiàng)Logit模型中,J-1個(gè)Logit可表述為: lnP(y=1|x)1-P(y=J|x)=1+k=1k1kxklnP(y=2|x)1-P(y=J|x)=2+k=1k2kxk. lnP(y=(J-1)|x)1-P(y=J|x)=J-1+k=1k(J-1)kxk其

11、中最后一個(gè)類別(即第J個(gè)類別)被作為參照類,對(duì)于有J個(gè)類別的反應(yīng)變量,歸入因變量中第j類的概率可以有下列公式進(jìn)行估計(jì): P(y=j|x)=exp(j+k=1kjkxk)1+j=1J-1exp(j+k=1kjkxk)4.實(shí)證分析4.1數(shù)據(jù)處理 在數(shù)據(jù)來(lái)源介紹部分,專業(yè)課成績(jī)、英語(yǔ)成績(jī)、性別、月生活費(fèi)分別作為自變量,其中兩門(mén)課成績(jī)和月生活費(fèi)為數(shù)值型變量,在此為了應(yīng)用軟件分析方便,將這三個(gè)變量變換成定性變量。X1專業(yè)課成績(jī)X2英語(yǔ)成績(jī)X3月生活費(fèi)6080 x1=06080 x2=0500800 x3=080以上 x1=180以上 x2=1800以上 x3=1對(duì)處理過(guò)后的數(shù)據(jù)應(yīng)用SAS軟件來(lái)進(jìn)行累計(jì)L

12、ogit回歸分析。4.2累積Logit分析 數(shù)據(jù)集包含5個(gè)變量,y,x1-x4。響應(yīng)變量y包含響應(yīng)的等級(jí);累計(jì)Logit模型用來(lái)研究本科畢業(yè)生畢業(yè)去向的影響因素。以下用SAS語(yǔ)句調(diào)用Logistic過(guò)程來(lái)擬合這個(gè)模型。4.2.1SAS程序data work.bai;input y x1-x4;cards;100017100102100111211101210003210011310112301001311111;proc logistic data=work.bai1;freq f;class x1-x4;model y=x1-x4;run;4.2.2結(jié)果分析檢驗(yàn)比例優(yōu)比的得分卡方統(tǒng)計(jì)量的值是

13、7.7685,相對(duì)于4個(gè)自由度的卡方分布這是不顯著的(p=0.1004),因此說(shuō)明累積logit模型對(duì)于擬合這組數(shù)據(jù)是合適的。模型僅有截距項(xiàng)時(shí)的AIC、SC和-2ln(L)的值均大于模型中同時(shí)含有截距和協(xié)變量時(shí)的模型,根據(jù)其值最小原則,選擇協(xié)變量進(jìn)入模型是有效的。模型總體檢驗(yàn)結(jié)果,包括似然比檢驗(yàn)、得分檢驗(yàn)和Wald檢驗(yàn),該模型有顯著性意義(P<0.01),較好的擬合了此研究數(shù)據(jù)。 以上為最大似然估計(jì)的參數(shù)檢驗(yàn)結(jié)果和幾個(gè)描述統(tǒng)計(jì)量、參數(shù)的OR值,以及95%可信區(qū)間。結(jié)果表面自變量x1(p<0.05)、x2(p<0.05)、兩個(gè)截距項(xiàng)的回歸系數(shù)在統(tǒng)計(jì)意義上與0有顯著差異,自變量x

14、3(p>0.05)、x4(p>0.05)的回歸系數(shù)未通過(guò)檢驗(yàn),認(rèn)為性別及月生活費(fèi)對(duì)本科生畢業(yè)去向無(wú)顯著影響?;貧w模型系數(shù)的解釋:優(yōu)比估計(jì)值中,OR(x1)=16.42,表示在其他條件不變的情況下,專業(yè)課成績(jī)高的畢業(yè)生選擇考研的概率是專業(yè)課成績(jī)低的16.42倍,OR(x2)=7.69,表示在其他條件不變的情況下,英語(yǔ)課成績(jī)高的同學(xué)選擇出國(guó)留學(xué)的概率是英語(yǔ)課成績(jī)低的7.69倍。 因變量y對(duì)自變量x1和x2的累積Logistic回歸模型如下:p2=p(y=2|x)=exp(2.121+2.7985x1+2.0399x2)1+exp(2.121+2.7985x1+2.0399x2)p3=p

15、(y3|x)=exp(5.0062+2.7985x1+2.0399x2)1+exp(5.0062+2.7985x1+2.0399x2)p2=p(y=2)=p2, p3=p(y=3)=p3-p2, p1=p(y=1)=1-p343多項(xiàng)logit模型分析 在上述分析中若把因變量的三個(gè)類別看作是有序的,所建立回歸模型,其中x4(月生活費(fèi))未通過(guò)檢驗(yàn),這顯然與現(xiàn)實(shí)實(shí)際情況不符,接下來(lái)考慮把響應(yīng)變量看作是無(wú)序多類別變量,建立多項(xiàng)logit模型。應(yīng)用SAS9.3軟件調(diào)用logistic過(guò)程步來(lái)進(jìn)行建模。4.3.1SAS程序data work.bai;input y x1-x4;cards;10001710

16、0102100111211101210003210011310112301001311111;proc logistic data=work.bai;model y(ref='1')=x1-x4/link=glogit;run;注釋:link=glogit擬合無(wú)序多分類logistic回歸模型;ref=指明參照的類別。4.3.2結(jié)果分析針對(duì)無(wú)序響應(yīng)變量,建立的多項(xiàng)Logit模型中是以y=1(工作)為參照組。從參數(shù)估計(jì)表中看到,與參加工作的同學(xué)相比,讀研的同學(xué)的專業(yè)課成績(jī)更好(x1的p值=0.0011),而英語(yǔ)成績(jī)(x2的p值=0.1566)和經(jīng)濟(jì)狀況(x4的p值=0.9322)

17、沒(méi)有顯著差異;出國(guó)留學(xué)的同學(xué)其專業(yè)課的成績(jī)(x1的p值=0.4055)和參加工作的同學(xué)沒(méi)有顯著差異,英語(yǔ)成績(jī)(x2的p值=0.0281)和經(jīng)濟(jì)狀況(x4的p值=0.0134)則更好.對(duì)y=2(讀研),2=exp(-2.7955+3.8861x1+1.9069x2+0.7388x4)1+exp-2.7955+3.8861x1+1.9069x2+0.7388x4+exp(-5.1625+3.6194x1+3.4172x2+2.6733x4)對(duì)y3(出國(guó)留學(xué)),3=exp(-5.1625+3.6194x1+3.4172x2+2.6733x4)1+exp-2.7955+3.8861x1+1.9069x

18、2+0.7388x4+exp(-5.1625+3.6194x1+3.4172x2+2.6733x4)5綜述 多項(xiàng)Logit模型中,Logit是由反應(yīng)變量中的不重復(fù)的類別對(duì)的對(duì)比所形成的。然后,對(duì)每一個(gè)Logit分別建模。若反應(yīng)變量有J個(gè)類別,多項(xiàng)Logit模型中便有J-1個(gè)Logit,且有J-1套斜率系數(shù)估計(jì)對(duì)應(yīng)同一套自變量。與之形成對(duì)比的是,在累積Logitistic回歸模型中,雖然有J-1個(gè)累計(jì)Logit函數(shù)的截距估計(jì),但只有一套斜率系數(shù)的估計(jì)對(duì)應(yīng)自變量。本文結(jié)合現(xiàn)實(shí)情況,應(yīng)用含有40個(gè)樣本的有關(guān)大學(xué)生畢業(yè)去向的數(shù)據(jù)集,將畢業(yè)去向分為工作、考研、出國(guó)留學(xué)三類。首先把響應(yīng)變量y的分類看作是有序分類,運(yùn)用累計(jì)Logit回歸建立模型,得到相應(yīng)的參數(shù)估計(jì)值以及本科生畢業(yè)去向的影響因素是專業(yè)課成績(jī)和英語(yǔ)成績(jī),性別和月生活費(fèi)沒(méi)有較顯著的影響。然后,若把響應(yīng)變量在不考慮任何有序分類條件下,認(rèn)為是無(wú)序因變量,則與累積logit模型相對(duì)比之下建立多項(xiàng)logit模型,此時(shí),進(jìn)入模型的解釋變量含有3個(gè),分別是專業(yè)課成績(jī)、英語(yǔ)成績(jī)、月生活費(fèi),符合實(shí)際意義,并給出了大學(xué)畢業(yè)生不同選擇的模型,用來(lái)估計(jì)根據(jù)專業(yè)課成績(jī)、

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論