




已閱讀5頁,還剩77頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1,第9章 含定性變量的回歸模型,信計(jì)學(xué)院統(tǒng)計(jì)系 沈菊紅,2,變量的類型,間隔尺度(數(shù)值型變量),有序尺度(有次序關(guān)系),名義尺度(定性變量),(定量變量),如身高、重量等連續(xù)的量,如某產(chǎn)品分上、中、下三等,如醫(yī)學(xué)化驗(yàn)中的陰性、陽性,3,對定性變量數(shù)量化:只取0和1兩個(gè)值的變量稱 為虛擬變量。,4,虛擬變量的回歸,9.1 含有一個(gè)虛擬自變量的回歸 9.2 用虛擬自變量回歸解決方差分析問題 9.3 因變量是定性變量的回歸模型 9.4 Logistic回歸模型,5,含有一個(gè)虛擬自變量的回歸,6,虛擬變量(dummy variable),用數(shù)字代碼表示的定性變量 虛擬變量可有不同的水平 只有兩個(gè)水平的虛擬變量 比如,性別(男,女) 有兩個(gè)以上水平的虛擬變量 貸款企業(yè)的類型(家電,醫(yī)藥,其他) 虛擬變量的取值為0,1,7,虛擬自變量的回歸,回歸模型中使用虛擬自變量時(shí),稱為虛擬自變量的回歸 當(dāng)虛擬自變量只有兩個(gè)水平時(shí),可在回歸中引入一個(gè)虛擬變量 比如,性別(男,女) 一般而言,如果定性自變量有k個(gè)水平,需要在回歸中模型中引進(jìn)k-1個(gè)虛擬變量,8,虛擬自變量的回歸 (例題分析),【例】為研究考試成績與性別之間的關(guān)系,從某大學(xué)商學(xué)院隨機(jī)抽取男女學(xué)生各8名,得到他們的市場營銷學(xué)課程的考試成績?nèi)缬冶?9,虛擬自變量的回歸 (例題分析),散點(diǎn)圖, y與x的回歸,10,回歸方程為,11,虛擬自變量的回歸 (例題分析),引進(jìn)虛擬變量時(shí),回歸方程可寫為:E(y) =0+ 1x 男(x=0):E(y) =0男學(xué)生考試成績的期望值 女(x=1):E(y) =0+ 1女學(xué)生考試成績的期望值 注意:當(dāng)指定虛擬變量0,1時(shí) 0總是代表與虛擬變量值0所對應(yīng)的那個(gè)分類變量水平的平均值 1總是代表與虛擬變量值1所對應(yīng)的那個(gè)分類變量水平的平均值與虛擬變量值0所對應(yīng)的那個(gè)分類變量水平的平均值的差值,即 平均值的差值=(0+ 1) - 0= 1,12,虛擬自變量的回歸(例題分析),【例】為研究工資水平與工作年限和性別之間的關(guān)系,在某行業(yè)中隨機(jī)抽取10名職工,所得數(shù)據(jù)如右表, y與x1的回歸及分析, y與x1, x2的回歸及分析,13,虛擬自變量的回歸 (例題分析),引進(jìn)虛擬變量時(shí),回歸方程可寫為: E(y) =0+ 1x1+ 2x2 女( x2=0):E(y|女性) =0 +1x1 男(x2=1):E(y|男性) =(0 + 2 ) +1x1 0的含義表示:女性職工的期望月工資收入 (0+ 2)的含義表示:男性職工的期望月工資收入 1含義表示:工作年限每增加1年,男性或女性工資的平均增加值 2含義表示:男性職工的期望月工資收入與女性職工的期望月工資收入之間的差值 (0+ 2) - 0= 2,14,15,16,例題分析,【例9.1】某經(jīng)濟(jì)學(xué)家想調(diào)查文化程度對家庭儲(chǔ)蓄的 影響,在一個(gè)中等收入的樣本框中,隨機(jī)調(diào)查了13 戶高等學(xué)歷家庭與14戶中低學(xué)歷的家庭。因變量y為 上一年家庭儲(chǔ)蓄增加額,自變量 為上一年家庭總收 入,自變量 表示家庭學(xué)歷。高學(xué)歷家庭 ,低 學(xué)歷家庭 ,調(diào)查數(shù)據(jù)見下表。,17,18,19,建立 對 的線性回歸,并計(jì)算殘差,20,兩個(gè)自變量 與 的系數(shù)都是顯著的,復(fù)決定系數(shù) ,回歸方程為,該結(jié)果表明,中等收入的家庭每增加1萬元收入,平均 拿出3826元作為儲(chǔ)蓄。高學(xué)歷家庭每年的平均儲(chǔ)蓄額 少于低學(xué)歷的家庭,平均少3701元。,21,如果不引入學(xué)歷定性變量 ,用 對家庭年收入 作 一元線性回歸,得 說明擬合效果不好。 對 的一元回歸殘差 見表中。,22,如果不考慮家庭年收入 ,13戶高學(xué)歷家庭的平均年 儲(chǔ)蓄增加額為3008.62元,14戶低學(xué)歷家庭的平均年 儲(chǔ)蓄增加額為5059.36元,高學(xué)歷家庭每年的儲(chǔ)蓄額 比低學(xué)歷的家庭平均少5059.363008.622050.74元, 而用前面的回歸法算出的值是3701元,兩者并不相等。 3701元是在假設(shè)兩者的家庭年收入相等的基礎(chǔ)上的儲(chǔ) 蓄差值,反映了學(xué)歷高低對儲(chǔ)蓄額的真實(shí)差異。 (調(diào)整后的 ),23,說明:雖然虛擬變量取某一數(shù)值,但這一數(shù)值 沒有任何數(shù)量大小的意義,它僅僅用來說明變 量的性質(zhì)或?qū)傩浴?24,自變量中含有定性變量的回歸模型的應(yīng)用,25,一.回歸系數(shù)相等的檢驗(yàn) 【例9.2】在例9.1中引入01型虛擬自變量的方法 是假定儲(chǔ)蓄增加額y對家庭收入的回歸斜率 與家庭 年收入 無關(guān), 只影響 。該假定是否合理,需作 統(tǒng)計(jì)檢驗(yàn)。檢驗(yàn)方法是引入含交互效應(yīng)的回歸模型,(9.1),回歸模型(9.1)可以分解為如下的兩個(gè)線性回歸模型 高學(xué)歷家庭,低學(xué)歷家庭,(9.2),(9.3),26,要檢驗(yàn)兩個(gè)回歸方程的回歸系數(shù)相等,就是檢驗(yàn),當(dāng)拒絕 時(shí),認(rèn)為 ,這時(shí)高學(xué)歷與低學(xué)歷家 庭的儲(chǔ)蓄回歸模型被拆分為兩個(gè)不同的模型(9.2和 (9.3)式;當(dāng)接受 時(shí),認(rèn)為 ,此時(shí)高學(xué)歷 與低學(xué)歷家庭的儲(chǔ)蓄回歸模型是,(9.4),擬合模型(9.1),回歸系數(shù)檢驗(yàn)如下表,27,從輸出結(jié)果看到,應(yīng)該接受 。 問題:是否首先剔除 ?,否,因?yàn)榕c經(jīng)濟(jì)意義不符,對模型(9.2)與(9.3), 當(dāng) 時(shí),表明兩個(gè)回歸方程的常數(shù)項(xiàng)相等, 當(dāng) 時(shí),表明兩個(gè)回歸方程的斜率相等。,28,二.用虛擬自變量回歸 解決方差分析問題,29,設(shè) 是正態(tài)總體 的樣本,原假設(shè)為 記 則有 進(jìn)而有,記 則上式改寫為,引入虛擬自變量 ,將(2)式表示為多元線性回歸 模型,(2),(1),30,其中,由于c個(gè)自變量 之和恒等于1,存在完全共 線性。為此,剔除 ,建立回歸模型,(3),31,(1)式回歸方程顯著性檢驗(yàn)的原假設(shè)為,由 可知,(1)式和(4)式的兩 個(gè)原假設(shè)是等價(jià)的。作(4)式的顯著性F檢驗(yàn),該檢驗(yàn) 與單因素方差分析的F檢驗(yàn)是等價(jià)的。 稱自變量全是定性變量的回歸模型為方差分析模型; 如果模型中既包含數(shù)量變量,又包含定性變量,其 中以定性自變量為主,稱這樣的模型為協(xié)方差模型。,(4),32,方差分析的回歸方法 (例題分析),引進(jìn)虛擬變量 建立回歸方程:E(Y)=0+ 1x1+ 2x2+3x3 用Excel進(jìn)行回歸 0家電制造業(yè)投訴次數(shù)的平均值 (0+ 1)零售業(yè)投訴次數(shù)的平均值 (0+ 2)旅游業(yè)投訴次數(shù)的平均值 (0+ 3)航空公司投訴次數(shù)的平均值,33,使用虛擬變量需注意的問題,虛擬變量陷阱:若定性變量有k個(gè)類別,則引入k個(gè)虛擬變量將會(huì)產(chǎn)生完全多重共線性問題,避免方法: 只引入(k-1)個(gè)虛擬變量,34,自變量中含有定性變量的回歸模型的應(yīng)用,三.分段回歸 【例9.2】用分段回歸建立某工廠生產(chǎn)批量 與單位 成本 (美元)的回歸模型。,35,單位成本對批量的散點(diǎn)圖,36,假定回歸直線的斜率在 處改變,建立回歸 模型,來擬合,其中,(9.5),模型(9.5)實(shí)際上是一個(gè)二元線性回歸模型,記,則有,(9.6),37,(9.6)式可以分解為兩個(gè)線性回歸方程 當(dāng) 時(shí),(9.6)式的回歸方程為,(9.7),當(dāng) 時(shí),(9.6)式的回歸方程為,(9.8),用普通最小二乘法擬合模型(9.6),38,39,用普通最小二乘法得回歸方程為,對回歸系數(shù) 作顯著性檢驗(yàn),不能認(rèn)為本數(shù)據(jù)適 合于折線回歸擬合。 此模型說明生產(chǎn)批量小于500時(shí),每增加1個(gè)單位批量,單位 成本降低0.004美元;當(dāng)生產(chǎn)批量大于500時(shí),每增加1個(gè)單位 批量,單位成本降低0.004+0.004=0.008美元.,40,作 對 的一元線性回歸。,41,一元回歸方程為,42,因變量是定性變量的回歸模型,因變量只有兩個(gè)可能結(jié)果,可用虛擬變量來表示。 定性因變量的回歸方程的意義 設(shè)因變量是只取0,1兩個(gè)值的定性變量,對于線性 回歸模型 因變量均值 的意義 由于 是01型貝努利隨機(jī)變量,則得概率分布,43,得,即有,由回歸函數(shù)給定的因變量均值 是自 變量水平為 時(shí) 的概率。 2. 定性因變量回歸的特殊問題 (1) 離散非正態(tài)誤差項(xiàng) 誤差項(xiàng) 只取兩個(gè)值:,44,2. 零均值異方差性,回歸方程的限制 由于回歸方程代表概率分布, 所以,0-1型隨機(jī)變量的方差,45,Logistic回歸分析 (Logistic Regression Analysis),46,Logistic回歸分析,在醫(yī)學(xué)研究中, 經(jīng)常要分析某種結(jié)果的產(chǎn)生與哪些因素有關(guān)。 例如:生存與死亡,發(fā)病與未發(fā)病, 陰性與陽性等結(jié)果的產(chǎn)生可能與病人的年齡、性別、生活習(xí)慣、體質(zhì)、遺傳等許多因素有關(guān)。如何找出其中哪些因素對結(jié)果的產(chǎn)生有顯著性影響呢? Logistic回歸分析能較好地解決這類問題。,47,Logistic回歸分析 一、 Logistic回歸模型,48,1、 Logistic回歸模型的構(gòu)造,若因變量 為連續(xù)型正態(tài)定量變量時(shí),可采用多元線性回歸分析 與變量 之間的關(guān)系: 現(xiàn) 為發(fā)病或未發(fā)病,生存與死亡等定性分類變量,不能直接用上述模型進(jìn)行分析。,能否用發(fā)病的概率P來直接代替 呢?,用 的比例代替 本身作為因變量;回歸函數(shù)是0,1區(qū)間的連續(xù)曲線。,?,49,等式左邊 變化范圍,P 發(fā)病概率 0 P1,1P 不發(fā)病概率 0 P1,p/1-p 比數(shù) (ratio) 0 p/1-p+,ln(p/1-p) 對數(shù)比 (ratio) - ln(p/1-p) +,50,2、 Logistic 回歸模型為: 定義: 為 Logistic變換, Logistic 回歸模型為:,51,Logit變換,經(jīng)數(shù)學(xué)變換可得: exp表示指數(shù)函數(shù)。,52,Logistic回歸模型是一種概率模型,它是以疾病,死亡等結(jié)果發(fā)生的概率為因變量,影響疾病發(fā)生的因素為自變量建立回歸模型。它特別適用于因變量為二項(xiàng),多項(xiàng)分類的資料。 在臨床醫(yī)學(xué)中多用于鑒別診斷,評價(jià)治療措施的好壞及分析與疾病愈后有關(guān)的因素等。,53,SPSS軟件要求,對分類變量Y數(shù)量化,而且賦值為: 發(fā)病 (陽性,死亡,治愈等) 未發(fā)病 (陰性,生存,未治愈等) 注意 : ,即發(fā)病的概率。,軟件的要求,54,回歸系數(shù) 的意義,設(shè)只有一個(gè)自變量 ,Logistic方程為 表示非暴露,1 表示暴露。 時(shí)的發(fā)病概率為 ; 時(shí)的發(fā)病概率為 。 則優(yōu)勢比(相對危險(xiǎn)度),55,56,logistic 回歸系數(shù)的意義,表示自變量每增加一個(gè)單位,其優(yōu)勢比的對數(shù)值的改變量,,亦即自變量每增加一個(gè)單位,其相對危險(xiǎn)度為 。,57,例如,吸煙與肺癌的關(guān)系的研究 令 吸煙 肺癌 不吸煙 非肺癌,若求得: ,,意思是: 吸煙的人得肺癌的危險(xiǎn) 性是不吸煙的2.71828倍。,58,注意變量X的賦值與OR的關(guān)系 令 0 吸煙 X = 1 不吸煙 則求得,若求得:,意思是: 不吸煙的人得肺癌的危險(xiǎn) 性是吸煙的36.79%。,59,二、logistic回歸的作用,(1) 建立logistic回歸模型: (2) 預(yù)測預(yù)報(bào) 若已知 數(shù)值大小時(shí),通過模型可 以預(yù)測發(fā)病、死亡等的概率; (3) 因素分析 尋找對發(fā)病、死亡等影響有顯著性的因素。,60,設(shè)研究問題中含有p個(gè)指標(biāo)變量 及Y;有 n個(gè)觀察對象,其數(shù)據(jù)結(jié)構(gòu)為: 編號 1 2 n Y 的值要求數(shù)值化;Y=1 為發(fā)病。,三、數(shù)據(jù)結(jié)構(gòu),61,四、Logistic分析的具體任務(wù):,1) 采用極大似然估計(jì)或加權(quán)最小二乘估計(jì)確定方程中系數(shù) 2) 采用(剩余)卡方檢驗(yàn)對回歸方程進(jìn)行檢驗(yàn); 3) 采用Wald檢驗(yàn)對方程中的每個(gè)系數(shù) 進(jìn)行顯著性檢驗(yàn)。,62,五、SPSS的實(shí)現(xiàn),63,例題講解,【例1】為評價(jià)某新療法的療效,某研究者隨機(jī) 抽查了40名某病患者,治療后一定時(shí)間內(nèi)觀察 其康復(fù)狀況。變量y為康復(fù)狀況(y=0表示未康 復(fù),y=1表示康復(fù));變量 為病情嚴(yán)重程度 ( 表示不嚴(yán)重, 表示嚴(yán)重);變量 為療法( 表示傳統(tǒng)療法, 表示新療 法),請作統(tǒng)計(jì)分析。,64,65,上表為因變量賦值情況。Binary Logistic 過程默認(rèn) 以因變量較大取值的概率P(Y=1),而不是以P(Y=0) 建立模型。,Analyze Regression Binary Logistic,66,首先給出的是模型不含任何自變量,而只有常數(shù)項(xiàng)時(shí) 的輸出預(yù)測分類結(jié)果,此時(shí)所觀察對象都被預(yù)測為未 康復(fù),總的預(yù)測準(zhǔn)確率為57.5。,模型擬合,Block 0: Beginning Block,67,模型中只有常數(shù)項(xiàng)的檢驗(yàn)結(jié)果。,68,該表反映的是如果將現(xiàn)有模型外的各個(gè)變量納入模型, 則整個(gè)模型的擬合優(yōu)度改變是否有統(tǒng)計(jì)學(xué)意義。若將 (療法)引入,則模型改變有統(tǒng)計(jì)意義( ) ,而將(病情嚴(yán)重程度) 引入,則模型改 變無統(tǒng)計(jì)意義。,69,這是模型總的全局檢驗(yàn),為似然比檢驗(yàn),共給出三個(gè)結(jié) 果:Step統(tǒng)計(jì)量為每一步與前一步相比的似然比檢驗(yàn) 結(jié)果;Block統(tǒng)計(jì)量是將Block 1與Block 0相比的似然 比檢驗(yàn)結(jié)果;Model統(tǒng)計(jì)量則是上一個(gè)模型與現(xiàn)在模型 相比的似然比檢驗(yàn)結(jié)果。結(jié)果表明 兩個(gè)變量至少 有一個(gè)的作用是有統(tǒng)計(jì)意義的。,Block 1: Method=Enter,70,該表為引入 的模型對因變量的分類預(yù)測情況。 預(yù)測準(zhǔn)確率由57.5上升到67.5,說明新變量的 引入對改善模型預(yù)測效果的確有意義。,71,上表結(jié)果表明,排除病情嚴(yán)重程度的混雜作用后, 傳統(tǒng)療法促使患者康復(fù)的能力為新療法的0.188倍; 排除療法的混雜作用后,病情嚴(yán)重促使患者康復(fù)的能力 為病情不嚴(yán)重的0.403倍。 對于變量 (病情嚴(yán)重程度)的Wald檢驗(yàn)結(jié)果 P=0.209表明,病情嚴(yán)重程度對康復(fù)無影響。常數(shù)項(xiàng) 的OR=2.529,是指病情不嚴(yán)重且接受新療法者比數(shù) 的自然對數(shù)值。,72,剔除 ,建立 與 的Logistic回歸方程,73,【例2】 在一次關(guān)于公共交通的社會(huì)調(diào)查中,一個(gè)調(diào)查 項(xiàng)目是“是乘坐公共汽車上下班,還是騎自行車上下班”。 因變量 表示主要乘坐公共汽車上下班, 表示 主要騎自行車上下班。自變量 是年齡,作為連續(xù)型 變量; 是月收入; 是性別, 表示男
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 行政管理考生的心態(tài)調(diào)整策略試題及答案
- 經(jīng)濟(jì)政策創(chuàng)新的案例研究試題及答案
- 戰(zhàn)略規(guī)劃中的財(cái)務(wù)風(fēng)險(xiǎn)控制要點(diǎn)試題及答案
- 法學(xué)概論考試思維導(dǎo)圖及試題及答案詳解
- 2025年中國送徑輪市場調(diào)查研究報(bào)告
- 2025年中國超薄離心電熱風(fēng)幕機(jī)市場調(diào)查研究報(bào)告
- 2025年中國蝶式掀模真空油壓成型機(jī)市場調(diào)查研究報(bào)告
- 風(fēng)險(xiǎn)決策在企業(yè)戰(zhàn)略部署中的應(yīng)用實(shí)例研究試題及答案
- 法學(xué)概論題型分類與試題答案
- 電梯故事測試題及答案
- DL∕T 319-2018 架空輸電線路施工抱桿通 用技術(shù)條件及試驗(yàn)方法
- CJ/T 158-2002 城市污水處理廠管道和設(shè)備色標(biāo)
- GB/T 22581-2024混流式水泵水輪機(jī)基本技術(shù)條件
- 房地產(chǎn)銷售客戶購房動(dòng)機(jī)調(diào)研
- 第03講三步解決一次函數(shù)的行程問題(原卷版+解析)
- DZ∕T 0211-2020 礦產(chǎn)地質(zhì)勘查規(guī)范 重晶石、毒重石、螢石、硼(正式版)
- 監(jiān)獄監(jiān)管安全隱患分析
- 中國紡織文化智慧樹知到期末考試答案章節(jié)答案2024年武漢紡織大學(xué)
- 鼓樂鏗鏘 課件-2023-2024學(xué)年高一音樂人音版(2019)必修音樂鑒賞
- 2023年一般行業(yè)安全負(fù)責(zé)人和安全員考試題庫
- 短視頻運(yùn)營實(shí)戰(zhàn):抖音短視頻運(yùn)營
評論
0/150
提交評論