版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注廣義線性回歸應(yīng)用回歸分析李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院1
/
105多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型從泰坦尼克號(hào)說(shuō)起1912年4月14日,當(dāng)時(shí)世界上體積最龐大、內(nèi)部設(shè)施最豪華的客運(yùn)輪船,號(hào)稱(chēng)“永不沉沒(méi)”的泰坦尼克號(hào)因?yàn)榕c一座冰山相撞,在船體受損后沉入大西洋底。圖
1:泰坦尼克號(hào)李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院2
/
105多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型從泰坦尼克號(hào)說(shuō)起在這一事件中,社會(huì)學(xué)家感興趣的問(wèn)題可能是:是否可以根據(jù)乘客的社會(huì)屬性(如性別、年齡等)來(lái)預(yù)測(cè)其 是否存活?女士?jī)?yōu)先,相比于男性乘客,女性乘客是否擁有更高的存活概率,如果是,大概高多少?尊老愛(ài)幼,
相比于青壯年,
老人和小孩是否更可能存活下來(lái)?性別因素是否還與其他因素如年齡、社會(huì)地位起到交互作用?李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院3
/
105多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型從泰坦尼克號(hào)說(shuō)起在分析這些問(wèn)題時(shí),就會(huì)發(fā)現(xiàn):響應(yīng)變量是服從伯努利分布的二分類(lèi)名義變量(1
表示存活,0
表示遇難),而不是服從正態(tài)分布的連續(xù)變量。響應(yīng)變量的條件均值(存活概率)也不是預(yù)測(cè)變量的線性函 數(shù),否則極有可能會(huì)出現(xiàn)不合理的結(jié)果(存活概率小于0或 大于1
)。設(shè)第
i
個(gè)樣本點(diǎn)的響應(yīng)變量服從均值為
pi
的伯努利分布,對(duì)不同的樣本點(diǎn),由于均值
pi
不同,方差
pi
(1
?pi)也不相同,即存在異方差性。由于數(shù)據(jù)不滿足一般線性回歸模型最基本的兩大假定,也不滿足同方差假設(shè),不適合繼續(xù)使用一般線性回歸模型進(jìn)行分析。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院4
/
105多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型廣義線性回歸模型的意義當(dāng)響應(yīng)變量為非正態(tài)分布,或者因變量的條件均值為預(yù)測(cè)變量的非線性函數(shù)時(shí),需要引入廣義線性回歸模型。廣義線性回歸模型適用于響應(yīng)變量為連續(xù)型、二分類(lèi)名義型、多分類(lèi)名義型(有序和無(wú)序)、計(jì)數(shù)型等多種類(lèi)型的情形,特別地,當(dāng)假設(shè)響應(yīng)變量為服從正態(tài)分布的連續(xù)型變量時(shí),則等價(jià)于一般線性回歸模型。廣義線性回歸模型使研究者可以對(duì)現(xiàn)實(shí)生活中類(lèi)型繁多的數(shù)據(jù)進(jìn)行建模,并進(jìn)行統(tǒng)計(jì)推斷和預(yù)測(cè),在生物、醫(yī)學(xué)和社會(huì)經(jīng)濟(jì)數(shù)據(jù)的統(tǒng)計(jì)分析上,具有重要的意義。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院5
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注目錄模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院6
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院7
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注指數(shù)分布族廣義線性回歸模型的一個(gè)基本假設(shè)是響應(yīng)變量所服從的分布屬于指數(shù)分布族。而在一般線性回歸模型中,通常假設(shè)在給定預(yù)測(cè)變量的條件下,響應(yīng)變量服從正態(tài)分布。正態(tài)分布也屬于指數(shù)分布族,所以說(shuō)廣義線性回歸模型是對(duì)一般線性回歸模型的推廣,正如指數(shù)分布族是對(duì)正態(tài)分布的推廣。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院8
/
105多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型指數(shù)分布族一覽圖
2:常見(jiàn)指數(shù)族分布及其聯(lián)系李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院9
/
105多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型指數(shù)分布族的形式稱(chēng)變量
Y
為指數(shù)分布族隨機(jī)變量,如果其概率密度函數(shù)
f
(y;θ,?)具有以下形式:其中:θ
為標(biāo)準(zhǔn)參數(shù),是隨機(jī)變量
Y
的期望
μ
的函數(shù),記為
θ(μ)b(θ)為標(biāo)準(zhǔn)參數(shù)θ
的函數(shù)a(?)>0
為規(guī)模參數(shù)
?
的函數(shù),與
Y
的方差有關(guān)c(y,?)則為觀測(cè)值與規(guī)模參數(shù)的函數(shù)該分布中隨機(jī)變量
Y
的值域
A
應(yīng)不依賴(lài)于
θ
。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院10
/
105
多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型特例:正態(tài)分布不難驗(yàn)證正態(tài)分布屬于指數(shù)分布族。設(shè)正態(tài)分布隨機(jī)變量
Y的概率密度函數(shù)為:則該密度函數(shù)可以改寫(xiě)成指數(shù)分布族的形式,即:其中,y
∈R
不依賴(lài)于未知參數(shù)
μ
與
σ2
。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院11
/
105
多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型特例:二項(xiàng)分布對(duì)于二項(xiàng)分布,設(shè)響應(yīng)變量
Y
表示在
m
次試驗(yàn)中成功次數(shù),且單次成功概率為
p,則其概率密度函數(shù)為:f
(y;
p)
=
Cy
py
(1?
p)m?ym將其改寫(xiě)成指數(shù)分布族的形式,即:其中,y
∈{0,1,...,m}不依賴(lài)于未知參數(shù)
p。
11為了保持統(tǒng)一,下文將二項(xiàng)分布的均值
mp
表示為
μ,特別地,如果
m
=1,二項(xiàng)分布退化為伯努利分布,則有
μ
=p
。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院12
/
105
多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型特例:泊松分布f
(y;
μ)
=對(duì)于泊松分布,設(shè)響應(yīng)變量
Y
的均值和方差為
μ,則其概率密度函數(shù)為:μye?μy!將其改寫(xiě)成指數(shù)分布族的形式,即:f
(y;
μ)
=
exp[y
log
μ?
μ
?
log(y!)]其中,y
∈{0,1,2,...}不依賴(lài)于未知參數(shù)
μ
。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院13
/
105多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型常見(jiàn)分布的指數(shù)族形式
李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院14
/
105多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型指數(shù)分布族的性質(zhì)指數(shù)分布族具有良好的分析性質(zhì)。假設(shè)
Y
為服從指數(shù)分布族的隨機(jī)變量,可以證明:分布均值為
E(Y
)=b′(θ)分布方差為
Var(Y
)=a(?)b′′(θ)b′′(θ)可以表示為關(guān)于
μ
的函數(shù),即方差函數(shù)
V
(μ)對(duì)上述三種常見(jiàn)的分布驗(yàn)證這一結(jié)論,可以得到下表中的結(jié)果。分布
E(Y
)
Var(Y
)
V
(μ)σ2正態(tài)
μ
1二項(xiàng)2mpmp(1
?
p)μ(m
?
μ)/m泊松μμμ2m=1
時(shí),μ
=p,方差函數(shù)為
μ(1
?μ)=p(1
?p)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院15
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型構(gòu)成廣義線性回歸模型包含以下三個(gè)組成部分:隨機(jī)成分:表示響應(yīng)變量的隨機(jī)變量
Yi
~f
(yi;θi,?),其中f
(·)是一個(gè)指數(shù)分布族的概率密度函數(shù)。系統(tǒng)成分:預(yù)測(cè)變量的線性組合,設(shè)存在
p
個(gè)預(yù)測(cè)變量,則系統(tǒng)成分為pη
=
X
β
=
β
Xi
i
j
ij3j=03
連接函數(shù):連接響應(yīng)變量的條件均值
μi
和系統(tǒng)成分
ηi
的函數(shù)
g(·),使得
ηi
=g
(μi)3為避免混淆,本章規(guī)定:
Xij
表示變量
j
在第
i
個(gè)樣本點(diǎn)上的取值;
Xj表示第
j
個(gè)隨機(jī)變量;
粗體的
Xi
表示第
i
個(gè)樣本點(diǎn)的取值向量,即
Xi
=
(1,Xi1,·
·
·
,Xip);粗體的
X
=(X1,...,Xn)?表示
n
×(p
+1)
維的設(shè)計(jì)矩陣;β
=(β0,β1,...,βp)?表示系數(shù)向量。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院16
/
105
模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注確定連接函數(shù)在廣義線性回歸模型中,系統(tǒng)成分是事先給定的,隨機(jī)成分的分布需要基于數(shù)據(jù)作出假設(shè),而由這兩者可以確定相應(yīng)的連接函數(shù)。當(dāng)
Yi
是服從指數(shù)分布族的隨機(jī)變量時(shí),μi
=E
(Yi)=b′(θi),因此,也可以說(shuō)連接函數(shù)
g(·)在參數(shù)
θi
與系統(tǒng)成分
ηi
之間建立了連接,即
ηi
=g(b′(θi))。4特別地,稱(chēng)使得
ηi
=θi
成立的
g(·)為典型連接函數(shù)(canonicallink
function)。這意味著,ηi
=g(b′(θi))=θi,因此
g(b′(·))必須為等值函數(shù),即
g
(b′(x))=x。4通常假定
g(·)是一個(gè)一一對(duì)應(yīng)、連續(xù)且可微的函數(shù),存在逆函數(shù)
g?1(·)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院17
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注確定連接函數(shù)根據(jù)
g(b′(x))=x,對(duì)于響應(yīng)變量服從不同分布的情形,可以反解出對(duì)應(yīng)的典型連接函數(shù)(以下簡(jiǎn)稱(chēng)連接函數(shù))。eθ1+eθ例如,
當(dāng)響應(yīng)變量服從伯努利分布時(shí),
b′(θ)
=
,
可知連接函數(shù)滿足
geθ1+eθ(
)i
i
pi
1?pi=
θ,
于是有
η
=
g
(p
)
=
log
,
通常稱(chēng)為
logit
連接函數(shù)。通過(guò)類(lèi)似的簡(jiǎn)單推導(dǎo),可以得到響應(yīng)變量服從正態(tài)分布或泊松分布時(shí),對(duì)應(yīng)的連接函數(shù)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院18
/
105多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型特定模型的具體構(gòu)成綜上,當(dāng)假設(shè)響應(yīng)變量服從正態(tài)分布、伯努利分布、泊松分布時(shí),對(duì)應(yīng)的廣義線性回歸模型中三個(gè)組成部分的具體形式如下表所示。55省略系統(tǒng)成分李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院19
/
105多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型再談泰坦尼克號(hào)在泰坦尼克數(shù)據(jù)中,可以假設(shè)響應(yīng)變量(1表示存活,0表示遇難)是服從伯努利分布的隨機(jī)變量,并通過(guò)
logit連接函數(shù)將預(yù)測(cè)變量(性別、年齡等)的線性組合與其建立聯(lián)系,擬合廣義線性回歸模型,這就是二分類(lèi)
Logistic回歸模型。正如一般線性回歸模型,在擬合該模型時(shí)需要回答以下問(wèn)題:如何估計(jì)模型中的系數(shù),得到模型的具體表達(dá)式?如何判斷模型中系數(shù)是否顯著不為
0
,從而推斷預(yù)測(cè)變量對(duì)響應(yīng)變量的影響?如何根據(jù)模型對(duì)新樣本的結(jié)局進(jìn)行預(yù)測(cè),并評(píng)估模型的預(yù)測(cè)能力?下面以二分類(lèi)
Logistic回歸模型為例,介紹如何在廣義線性回歸模型中擬合模型,進(jìn)行參數(shù)估計(jì)與模型診斷,并對(duì)響應(yīng)變量進(jìn)行預(yù)測(cè)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院20
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院21
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型形式二分類(lèi)
Logistic回歸模型屬于廣義線性回歸模型,適用于分析響應(yīng)變量為服從伯努利的二分類(lèi)變量的數(shù)據(jù),例如患者在服用某種藥物后是否痊愈、在臨床試驗(yàn)中被分到實(shí)驗(yàn)組的小白鼠是否增加體重等。響應(yīng)變量
Y
表示研究者所感興趣的事件發(fā)生或者不發(fā)生,分別用
1
和
0
表示,假設(shè)有
n
個(gè)這樣的隨機(jī)變量
y1,...,yn,彼此獨(dú)立,并且有
P
(yi
=1)=pi
。已知預(yù)測(cè)變量觀測(cè)值
X1,...,Xn
。響應(yīng)變量
Y
的概率密度函數(shù)為:f
(y;
p)
=
py
(1
?
p)1?y,
y
∈
{0,
1}模型的連接函數(shù)為:李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院22
/
105
模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注參數(shù)估計(jì)對(duì)于廣義線性回歸模型中的系數(shù),通常無(wú)法得到類(lèi)似于一般線性回歸模型中那樣的顯示解。例如,在二分類(lèi)
Logistic
回歸模型中,由連接函數(shù),可知logit
(P
(yi
=
1))
=
Xiβ顯然系數(shù)無(wú)法直接由
yi
與
Xi
解析得到?;仡櫼话憔€性回歸模型,使用極大似然法進(jìn)行系數(shù)的估計(jì),可以證明最終系數(shù)估計(jì)值等價(jià)于最小二乘估計(jì),即那么,在廣義線性模型中,同樣使用極大似然法,可否得到類(lèi)似形式的估計(jì)?如果該估計(jì)不具有顯式解,具體如何求解?李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院23
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注極大似然法考慮極大似然法,似然函數(shù)為:因此,對(duì)數(shù)似然函數(shù)可表示為:分別對(duì)
βj
(j
=0,1,...,p)求導(dǎo),令導(dǎo)數(shù)為
0
,就可以求解出對(duì)應(yīng)的估計(jì)值
β?j
(j
=0,1,...,p)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院24
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注似然函數(shù)求導(dǎo)李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院25
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注加權(quán)最小二乘李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院26
/
105
模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注
李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院27
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注迭代求解算法由上述推導(dǎo)過(guò)程可知,對(duì)于特定的廣義線性回歸模型:W
與
z
的取值依賴(lài)于
μμ
=
g?1(η)ηi
=
Xiβ也就是說(shuō),目標(biāo)
β
的估計(jì)依賴(lài)于
W與
z,而要估計(jì)
W與
z,又需要先估計(jì)
β,這就形成了一個(gè)
"雞生蛋,蛋生雞"的循環(huán),因此可以使用迭代算法進(jìn)行求解:先給定
β的初始估計(jì)值更新
W
與
z更新
β
的估計(jì)值重復(fù)以上步驟
2
和
3
直至估計(jì)值收斂李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院28
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注迭代求解算法圖
3:迭代加權(quán)最小二乘算法李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院29
/
105Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型
多分類(lèi)Logistic回歸模型二分類(lèi)Logistic回歸模型系數(shù)求解在二分類(lèi)
Logistic
回歸模型中(μi
=pi):由
g
(pi)=log(pi/(1
?pi)),可得
g?1(η)=exp(η)/(1+
exp(η))。由
a(?)=1,V
(pi)=pi
(1
?pi),且
g′(pi)=1/pi
(1
?pi),可得
wi
=1/V
(pi)a(?)(g′(pi))2
=pi
(1
?pi)。圖
4:迭代加權(quán)最小二乘算法李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院30
/
105Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型
多分類(lèi)Logistic回歸模型二分類(lèi)Logistic回歸模型系數(shù)求解圖
5:二分類(lèi)Logistic
回歸模型系數(shù)求解函數(shù)(R
代碼)李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院31
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注置信區(qū)間在得到系數(shù)的點(diǎn)估計(jì)后,可以構(gòu)造其置信區(qū)間:如果響應(yīng)變量服從正態(tài)分布,給定置信水平,則可以顯式地寫(xiě)出區(qū)間的上下界,并基于樣本進(jìn)行估計(jì)。如果響應(yīng)變量服從其它分布,其置信區(qū)間的構(gòu)建通常需要依賴(lài)基于中心極限定理的大樣本性質(zhì)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院32
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注置信區(qū)間當(dāng)響應(yīng)變量是獨(dú)立的指數(shù)分布族隨機(jī)變量時(shí),廣義線性回歸模型的系數(shù)估計(jì)具有以下大樣本性質(zhì):可以證明,在廣義線性回歸模型中,信息矩陣即為:I(β)
=X?W
Xa(?)李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院33
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注置信區(qū)間李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院34
/
105
多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型特例:一般線性回歸模型由于
σ2
未知,可以用其估計(jì)值
σ?2
代替,在大樣本條件下可以用正態(tài)分布構(gòu)造置信區(qū)間,樣本量較小時(shí)使用
t
分布。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院35
/
105在二分類(lèi)
Logistic
回歸模型中,由于
a(?)=1,于是有:其中,權(quán)重矩陣
W
=diag(w1,...,wn),wi
=pi
(1
?pi)。注意到,wi
的取值與
pi
有關(guān),而
pi
是未知量,因此
W
也需要估計(jì)。實(shí)際上,在加權(quán)迭代最小二乘算法中,每一步更新
β后,由
pi
=g?1
(ηi)=g?1
(Xiβ)可以更新
pi
的取值,同時(shí)更新矩陣
W
,隨著系數(shù)估計(jì)越來(lái)越穩(wěn)定,W的取值也會(huì)收斂,最后一步得到的
W便可以代入上式,計(jì)算出相應(yīng)的置信區(qū)間。Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型
多分類(lèi)Logistic回歸模型二元Logistic回歸模型中的置信區(qū)間李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院36
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注假設(shè)檢驗(yàn)在求解出系數(shù)的估計(jì)值后,研究者希望能像分析一般線性回歸模型一樣,進(jìn)行統(tǒng)計(jì)推斷,對(duì)模型中的系數(shù)進(jìn)行顯著性檢驗(yàn),以分析各個(gè)預(yù)測(cè)變量對(duì)于響應(yīng)變量的解釋作用,以及模型對(duì)數(shù)據(jù)的擬合程度。由大樣本性質(zhì),對(duì)于單個(gè)系數(shù),可以基于正態(tài)分布的假設(shè)進(jìn)行檢驗(yàn)(參照置信區(qū)間的構(gòu)造過(guò)程)。而對(duì)于模型整體的顯著性檢驗(yàn),需要基于似然函數(shù)構(gòu)建檢驗(yàn)統(tǒng)計(jì)量。在一般線性回歸模型中,通常通過(guò)殘差平方和來(lái)判斷模型擬合程度的好壞并基于此進(jìn)行擬合優(yōu)度檢驗(yàn),
而在廣義線性回歸模型中,
要實(shí)現(xiàn)與之等價(jià)的檢驗(yàn),
對(duì)應(yīng)的指標(biāo)為偏差(deviance),也被稱(chēng)為對(duì)數(shù)似然統(tǒng)計(jì)量。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院37
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注偏差偏差實(shí)質(zhì)上是當(dāng)前模型(使用部分變量擬合模型)與全模型(包含所有變量,且響應(yīng)變量完全由系統(tǒng)成分決定)的對(duì)數(shù)似然之差。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院38
/
105多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型特例:一般線性回歸模型可以看到,此時(shí)偏差恰好等價(jià)于殘差平方和。實(shí)際上,偏差正是一般線性回歸模型中的殘差平方和在廣義線性回歸模型中的推廣。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院39
/
105
Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型
多分類(lèi)Logistic回歸模型二分類(lèi)Logistic回歸模型中的偏差值得注意的是,此時(shí),響應(yīng)變量只能取
0
或
1,使得
log
yi
或log
(1
?yi)不存在,所以需要根據(jù)極限值來(lái)定義其取值。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院40
/
105Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型
多分類(lèi)Logistic回歸模型二分類(lèi)Logistic回歸模型中的偏差當(dāng)
yi
=0
時(shí),有:yi→0iy
ip?ilim
y
log
=
limyi→0log
yi
p?i
1yi=
limp?i
1y
p?i
iyi→0
?
1
y2iyi→0i=
lim
?y
=
0.p?i因此,當(dāng)
yi
=0
時(shí),可定義
yi
log
yi
=0
。i
i(同理,當(dāng)
y
=1
時(shí),可定義
(1
?y
)log1?yi1?p?i)=0,由此實(shí)現(xiàn)偏差的計(jì)算。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院41
/
105Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型
多分類(lèi)Logistic回歸模型二分類(lèi)Logistic回歸模型中的偏差綜上,在二分類(lèi)
Logistic
回歸模型中,可以將偏差簡(jiǎn)潔地表示為:ni
i
i
iD(y,
p?)
=
?2 [y
log
(p?
)
+
(1
?
y
)
log
(1
?
p?
)]i=1可以這樣理解偏差:當(dāng)
yi
=1
時(shí),偏差的每一項(xiàng)退化為
?2
log(p?i),如果
p?i
接近1,那么偏差會(huì)接近
0,反之,p?i
越接近
0,則偏差越大當(dāng)
yi
=0
時(shí),偏差的每一項(xiàng)退化為
?2
log
(1
?p?i),如果
p?i接近
0,則偏差接近
0,反之,p?i
越接近
1,則偏差越大李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院42
/
105
模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注偏差的性質(zhì)注意到,在上述偏差的定義中,除了求兩個(gè)模型的對(duì)數(shù)似然之差外,還乘上
a(?)進(jìn)行標(biāo)準(zhǔn)化,故也稱(chēng)之為標(biāo)準(zhǔn)化偏差。如果不考慮標(biāo)準(zhǔn)化,那么近似有:D(y,
μ?)=
2[l(θ?)
?
l(θ?)]
~
χ2(p
?
m)a(?)其中,p
表示全模型中的變量總數(shù),m
表示當(dāng)前模型中所包含變量個(gè)數(shù)。例如,在一般線性回歸模型中,有D(y,μ?)
a(?)=ni=1σ2(yi?μ?i)2
服從自由度為
p
?m的卡方分布,與多元回歸中的結(jié)論是一致的。而在二分類(lèi)
Logistic
回歸模型中,由于
a(?)=1,所以有ni=1i
i
i
i2?2 [y
log
(p?
)
+
(1
?
y
)
log
(1
?
p?
)]
~
χ
(p
?
m)李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院43
/
105
模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注假設(shè)檢驗(yàn)流程假設(shè)模型
M0
中包含
m0
個(gè)變量,模型
M1
中包含
m1
個(gè)變量。不失一般性,令所有非
0的系數(shù)排列在最前面,考慮如下假設(shè)檢驗(yàn)問(wèn)題:李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院44
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注假設(shè)檢驗(yàn)流程當(dāng)模型對(duì)數(shù)據(jù)的擬合程度較好時(shí),有
D0
~χ2
(p
?m0)與
D1
a(?)a(?)~χ2
(p
?m1),
因此在變量滿足獨(dú)立性條件時(shí),
有T
~χ2
(m1?m0)。當(dāng)由樣本計(jì)算得到的檢驗(yàn)統(tǒng)計(jì)量
T
的值大于
χ2
(m1?m0)的
100
×α%分位點(diǎn)時(shí),就以
α
顯著性水平拒絕原假設(shè),說(shuō)明相比模型
M0
,模型
M1
在對(duì)數(shù)據(jù)的擬合優(yōu)度上存在顯著性的優(yōu)勢(shì),所以應(yīng)該使用后者,反之,如果不拒絕原假設(shè),則說(shuō)明兩個(gè)模型在擬合優(yōu)度上不存在顯著差異,傾向于選擇更為簡(jiǎn)單的模型
M0
。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院45
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型解釋在得到系數(shù)的估計(jì)值并通過(guò)假設(shè)檢驗(yàn)驗(yàn)證其顯著性后,研究者通常希望借此解釋對(duì)應(yīng)的預(yù)測(cè)變量對(duì)響應(yīng)變量的影響?;仡櫼话憔€性回歸模型,系數(shù)
βj表示的含義是
"在控制其它變量保持不變時(shí),變量
Xj每增加一個(gè)單位,預(yù)測(cè)響應(yīng)變量平均變化的程度"。而在二分類(lèi)
Logistic
回歸模型中,系數(shù)
βj
表示的含義與優(yōu)勢(shì)比
(odds
ratio,以下簡(jiǎn)稱(chēng)
OR)有關(guān)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院46
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注優(yōu)勢(shì)比的定義對(duì)于第
i
個(gè)觀測(cè),設(shè)
P
(Yi
=1)=pi,則定義優(yōu)勢(shì)
(odd)為1?pi
pi
,即
Yi
取
1
相對(duì)于
Yi
取
0
的
"優(yōu)勢(shì)"。1+exp(Xiβ)由
pi
=
exp(Xiβ)
,可知
oddi
=exp(Xiβ)。定義觀測(cè)
i
相對(duì)于
j
的優(yōu)勢(shì)比為
OR=oddi
=exp[(Xi
?Xj
)β]。oddj優(yōu)勢(shì)比大于
1,表明第i
個(gè)觀測(cè)個(gè)體相比于第j
個(gè)觀測(cè),其響應(yīng)變量
Y
取
1
的可能性更大。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院47
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注優(yōu)勢(shì)比的解釋在數(shù)據(jù)分析中,研究者感興趣的是某個(gè)變量
Xj變化時(shí)對(duì)應(yīng)的優(yōu)勢(shì)比,它可以反映該變量對(duì)響應(yīng)變量的影響程度,所以需要控制其它變量保持不變,計(jì)算當(dāng)
Xj增加一個(gè)單位時(shí),相比于增加前的優(yōu)勢(shì)比。例如,在泰坦尼克號(hào)的例子中,如果要研究性別因素對(duì)于乘客是否存活的影響,應(yīng)該控制年齡、艙位檔次這兩個(gè)變量不變,計(jì)算男性乘客相比于女性乘客的優(yōu)勢(shì)比。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院48
/
105Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型
多分類(lèi)Logistic回歸模型優(yōu)勢(shì)比的解釋?zhuān)ㄒ蕴┨鼓峥藶槔┰O(shè)模型為logit
(pi)
=
β0+β1
Age
i+β2
Gender
i+β3
Pclass2i
+β4
Pclass3i其中:性別(Gender)是二分類(lèi)變量,取
1
表示男性,取
0
表示女性年齡(Age)是連續(xù)型變量艙位檔次
(Pclass)是有序變量,可以將其視為一個(gè)三分類(lèi)變 量,用兩個(gè)啞變量表示,Pclass2
取
1
表示乘客來(lái)自二等艙, Pclass3取1表示乘客來(lái)自三等艙,這兩個(gè)變量都取
0表示乘客 來(lái)自一等艙李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院49
/
105Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型
多分類(lèi)Logistic回歸模型優(yōu)勢(shì)比的解釋?zhuān)ㄒ蕴┨鼓峥藶槔┎环猎O(shè)存在這樣兩名乘客
A
和
B,年齡均為
30
歲,均乘坐一等艙,A
為男性,B
為女性。那么,根據(jù)上述定義,乘客
A
存活的
"優(yōu)勢(shì)"為:oddA
=
exp
(β0
+
30β1
+
β2)而乘客
B
存活的
"優(yōu)勢(shì)"為:oddB
=
exp
(β0
+
30β1)優(yōu)勢(shì)比
OR
為:OR
=
oddA
/
oddB
=
exp
(β2)顯然,如果
β2
顯著大于
0,OR會(huì)顯著大于
1,表示在其他條件相同時(shí),男性存活的可能性顯著大于女性。反之,如果
β2顯著小于
0,則表示女性乘客存活下來(lái)的
"優(yōu)勢(shì)"更大。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院50
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注優(yōu)勢(shì)比的解釋特別地,如果
Xj是一個(gè)二分類(lèi)的變量(比如用
1
和
0
分別表示男性和女性),優(yōu)勢(shì)比顯著大于
1則說(shuō)明取值為
1所表示的那一類(lèi)(男性)相比于取值為
0所表示的那一類(lèi)(女性)發(fā)生事件的概率要更高。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院51
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注預(yù)測(cè)在廣義線性回歸模型中,預(yù)測(cè)實(shí)際上是對(duì)條件均值
μi
的預(yù)測(cè)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院52
/
105
多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型特例:一般線性回歸模型李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院53
/
105
Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型
多分類(lèi)Logistic回歸模型二分類(lèi)
Logistic
回歸模型中的預(yù)測(cè)對(duì)于二分類(lèi)
Logistic
回歸模型,響應(yīng)變量表示感興趣的事件是否發(fā)生(用
1
和
0
表示),假設(shè)其服從伯努利分布,連接1?pi函數(shù)為:ηi
=g(pi)=log
pi
,其逆函數(shù)為:pi
=g?1
(ηi)=eηi1+eηi.模型的預(yù)測(cè)值為:生的概率(即響應(yīng)變量取
1
的概率)。6以泰坦尼克號(hào)的例子為例,若
1
表示存活,0
表示遇難,則預(yù)測(cè)值為乘客存活的概率。進(jìn)一步,
若需要作出明確的預(yù)測(cè),研究者可以確定一個(gè)閾值
δ
來(lái)判斷乘客是否能存活。例如,當(dāng)閾值設(shè)為
0.5
時(shí),若某位乘客對(duì)應(yīng)的預(yù)測(cè)值為
0.7,則預(yù)測(cè)其能夠存活。6注意到其取值確實(shí)在區(qū)間
(0,1)內(nèi),與通常對(duì)概率的定義相符合。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院54
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注混淆矩陣將預(yù)測(cè)值與實(shí)際值進(jìn)行比對(duì),可以得到混淆矩陣,其中:TP(True
Positive)為真陽(yáng)性,即實(shí)際取
1
且預(yù)測(cè)為
1
的觀測(cè)FP(False
Positive)為假陽(yáng)性,即實(shí)際為
0
但預(yù)測(cè)為
1
的觀測(cè)FN(False
Negative)為假陰性,即實(shí)際取1但預(yù)測(cè)為0的觀測(cè)TN(True
Negative)為真陰性,即實(shí)際取
0
預(yù)測(cè)為
0
的觀測(cè)圖
6:混淆矩陣?yán)顡P(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院55
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注根據(jù)混淆矩陣,整體的預(yù)測(cè)準(zhǔn)確率為acc
=
(TP
+
TN
)/(TP
+
FN
+
FP
+
TN
)當(dāng)樣本中取
1
和取
0
的觀測(cè)數(shù)量存在不平衡現(xiàn)象時(shí),整體準(zhǔn)確率并不是一個(gè)合適的評(píng)價(jià)指標(biāo)。假設(shè)存在這樣一個(gè)模型,無(wú)論輸入什么數(shù)據(jù),預(yù)測(cè)值都為
1,而某樣本中包含
100
個(gè)觀測(cè),99
個(gè)響應(yīng)變量取值為
1,僅有1個(gè)取值為
0,那么這個(gè)模型在該樣本內(nèi)可以達(dá)到99%的準(zhǔn)確率。但是,這一模型并不是研究者想要的,因?yàn)樗鼘?shí)際上對(duì)于響應(yīng)變量取值為
1
的樣本沒(méi)有任何識(shí)別能力。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院56
/
105多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型靈敏度與特異度要綜合評(píng)價(jià)模型的預(yù)測(cè)能力,需要引入更全面的指標(biāo):真陽(yáng)性率
(True
Positive
Rate,TPR),或稱(chēng)靈敏度
(Sensitivity), 指的是實(shí)際上取值為
1
的觀測(cè)中預(yù)測(cè)值也為
1
的那部分所 占的比例,表達(dá)式為T(mén)PR=TP/(TP
+FN
),真陽(yáng)性率越高, 表明模型對(duì)取值為
1
的樣本的識(shí)別能力越強(qiáng)。真陰性率
(True
Negative
Rate,TNR),也稱(chēng)特異度
(Speci- ficity),指的是實(shí)際上取值為
0
的觀測(cè)中預(yù)測(cè)值也為
0
的 那部分所占的比例,表達(dá)式為
TNR=TN/(TN
+FP
),真陰 性率越高,表明模型對(duì)取值為
0
的樣本的識(shí)別能力越強(qiáng)。對(duì)于某個(gè)特定的問(wèn)題,研究者對(duì)兩類(lèi)樣本的預(yù)測(cè)精度的要求可能是不同的。例如,在預(yù)測(cè)犯罪行為時(shí),通常會(huì)對(duì)模型將非犯罪分子錯(cuò)分為犯罪分子的錯(cuò)誤有更高的容忍度,后續(xù)再對(duì)模型篩選出的可疑對(duì)象進(jìn)行人工甄別,以此提高對(duì)犯罪分子的打擊覆蓋率。研究者需要根據(jù)所研究問(wèn)題的實(shí)際情況,確定靈敏度與特異度在模型評(píng)價(jià)時(shí)的權(quán)重。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院57
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注ROC曲線研究者通過(guò)閾值
δ
來(lái)確定模型對(duì)單個(gè)樣本點(diǎn)的預(yù)測(cè)結(jié)果,如果
pi
>δ,則預(yù)測(cè)
y?i
=1,否則預(yù)測(cè)
y?i
=0
。顯然,調(diào)節(jié)閾值
δ
時(shí),模型對(duì)整個(gè)樣本的預(yù)測(cè)結(jié)果會(huì)發(fā)生變化,靈敏度和特異度也隨著改變,得到多組結(jié)果。以特異度為橫軸,以靈敏度為縱軸,可以得到受試者工作特征曲線
(簡(jiǎn)稱(chēng)
ROC)。圖
7:ROC曲線李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院58
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注ROC曲線如果模型在取不同的閾值時(shí),特異度和靈敏度都較高,曲線中的點(diǎn)會(huì)集中分布于坐標(biāo)軸的左上角,使得整條曲線下方的面積接近1;而如果是隨機(jī)猜測(cè),則對(duì)應(yīng)對(duì)角線,曲線下面積為0.5。因此,當(dāng)存在多個(gè)備選模型時(shí),研究者可以根據(jù)ROC
曲線下面積(AUC)來(lái)比較不同模型的預(yù)測(cè)能力。圖
8:ROC曲線李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院59
/
105多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型示例:泰坦尼克數(shù)據(jù)R包titanic
所提供的數(shù)據(jù)記錄了著名的泰坦尼克號(hào)沉沒(méi)事件中各位乘客的存活信息,以及相關(guān)的個(gè)人信息,例如性別、年齡、艙位檔次(分一等、二等和三等)等,如表所示。將乘客是否存活視為服從伯努利分布的隨機(jī)變量,
使用乘客的個(gè)人信息作為預(yù)測(cè)變量,擬合二分類(lèi)Logistic回歸模型,可以預(yù)測(cè)不同的乘客在這起海難中被救下的概率,并比較各個(gè)變量所發(fā)揮的作用。
IDAgePclassGenderSurvived1223male02381female13263female14351female15353male06541male0李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院60
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注可視化探索在擬合模型前,可以先簡(jiǎn)單探索預(yù)測(cè)變量與乘客是否存活的關(guān)系。取性別(Gender)、艙位檔次(Pclass)以及是否存活(Survived)這三個(gè)變量,得到列聯(lián)表如下所示。圖
9:乘客性別、艙位檔次、是否存活列聯(lián)表李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院61
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注可視化探索為了更直觀地反映這一結(jié)果,還可以畫(huà)出如下圖所示的馬賽克圖。圖
10:乘客性別、艙位檔次、是否存活馬賽克圖李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院62
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注可視化探索結(jié)合圖表信息,可以得到以下初步結(jié)論:不管是在哪個(gè)檔次的艙位中,女性的存活率都要明顯高于男性 的:在一等艙中,女性的存活率為
82/(3+82)≈96.47%,而 男性存活的比例只有
40/(61+40)
≈39.60%
,確實(shí)體現(xiàn)了女 性優(yōu)先的原則。不同的艙位檔次之間,存活比例的差異也很明顯:在三等艙 中,女性存活比例為
47/(55+47)
≈46.08%
,而男性則為 38/(215+38)
≈15.02%
,均遠(yuǎn)遠(yuǎn)低于一等艙的。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院63
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注擬合模型在該數(shù)據(jù)集中,響應(yīng)變量為二分類(lèi)變量,適用二分類(lèi)
Logistic回歸模型。預(yù)測(cè)變量中:
性別(Gender)是二分類(lèi)變量,取
1
表示男性,
取
0
表示女性;
年齡(Age)
是連續(xù)型變量;
而艙位檔次(Pclass)是有序變量,為了方便起見(jiàn),可以將其視為一個(gè)三分類(lèi)變量,在擬合模型時(shí)用兩個(gè)啞變量表示,Pclass2取
1
表示乘客來(lái)自二等艙,Pclass3
取
1
表示乘客來(lái)自三等艙,這兩個(gè)變量都取
0
表示乘客來(lái)自一等艙。使用
logit
連接函數(shù),模型可以表示為:logit
(pi)
=
β0+β1
Age
i+β2
Gender
i+β3
Pclass2i
+β4
Pclass3i李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院64
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注擬合結(jié)果分析模型的擬合結(jié)果如下表所示。圖
11:二分類(lèi)Logistic
回歸模型擬合結(jié)果(泰坦尼克數(shù)據(jù))李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院65
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注性別考慮性別因素,男性(Gender
取1)相比女性
(Gender
取
0)存活的優(yōu)勢(shì)比為
eβ2
,其估計(jì)值
eβ?2
=e?2.523
≈0.080
。而性別
(Gender)所對(duì)應(yīng)的系數(shù)估計(jì)值為
β?2
=?2.523,其標(biāo)準(zhǔn)誤為
0.207,則
95%
置信區(qū)間為(?2.523
?
z0.975
×
0.207,
?2.523
+
z0.975
×
0.207)
=
(?2.929,
?2.117)因此,男性(Gender
取
1)相比于女性(Gender
取
0)的存活優(yōu)李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院66
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注艙位檔次考慮艙位檔次(經(jīng)濟(jì)能力)對(duì)存活率的影響。由于設(shè)置了啞變量
Pclass2與
Pclass3,相當(dāng)于是以一等艙的乘客為參照,所以在估計(jì)優(yōu)勢(shì)比時(shí)應(yīng)該明確是相對(duì)于一等艙乘客的優(yōu)勢(shì)比。Pclass2
對(duì)應(yīng)的系數(shù)估計(jì)值為
β?3
=?1.310,因此二等艙相對(duì)于一等艙的存活優(yōu)勢(shì)比的估計(jì)值為
eβ?3
=e?1.310
≈0.270
。同理,Plass3
對(duì)應(yīng)的系數(shù)估計(jì)值為
β?4
=?2.581,因此三等艙相對(duì)于一等艙的存活優(yōu)勢(shì)比的估計(jì)值為
eβ?4
=e?2.581
≈0.076
。兩個(gè)系數(shù)的估計(jì)值都是統(tǒng)計(jì)學(xué)顯著的,可以推斷,無(wú)論是二等艙還是三等艙,乘客存活下來(lái)的可能性都要顯著低于一等艙。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院67
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注年齡年齡對(duì)于存活率也有一定的影響,由其系數(shù)估計(jì)值為負(fù)值,可以推斷,當(dāng)控制其它變量不變時(shí),年齡越大者的存活可能性越低。值得注意的是,
此處為了方便展示,
只是把年齡當(dāng)成一個(gè)連續(xù)變量,而實(shí)際上,由于兒童和老者都會(huì)在救援中受到優(yōu)待,存活率隨年齡的增長(zhǎng)應(yīng)該是有先下降后上升的趨勢(shì)的。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院68
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注預(yù)測(cè)在模型中用系數(shù)的估計(jì)值代替其真值,代入每個(gè)乘客的個(gè)人信息,得到存活概率的預(yù)測(cè)值。取閾值0.5,在訓(xùn)練集上,可以得到預(yù)測(cè)結(jié)果與真實(shí)值所構(gòu)成的混淆矩陣(Confusion
matrix),如下圖所示。整體的預(yù)測(cè)準(zhǔn)確率為
(356+207)/714
≈78.85%
。圖
12:混淆矩陣(泰坦尼克數(shù)據(jù))李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院69
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院70
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注多分類(lèi)問(wèn)題在實(shí)際數(shù)據(jù)分析中,
有時(shí)響應(yīng)變量可能存在多個(gè)無(wú)序的類(lèi)別,例如,當(dāng)電影公司想要通過(guò)觀眾的性別、年齡、社會(huì)地位等背景信息預(yù)測(cè)其最喜愛(ài)的電影類(lèi)型時(shí),響應(yīng)變量就是一個(gè)多分類(lèi)的變量,其不同取值代表各種類(lèi)型片。此時(shí),研究者需要借鑒二分類(lèi)Logistic
回歸模型的思想,使用多分類(lèi)Logistic
回歸模型進(jìn)行分析。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院71
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注解決方案基于廣義線性回歸模型,目前主要有兩種思路:把多分類(lèi)問(wèn)題拆解為多個(gè)二分類(lèi)問(wèn)題,分別擬合二分類(lèi)Logistic 回歸模型,而后通過(guò)類(lèi)似機(jī)器學(xué)習(xí)中的弱分類(lèi)器集成的方式,由 多個(gè)模型投票預(yù)測(cè)樣本所屬的類(lèi)別。直接假定響應(yīng)變量服從多項(xiàng)分布,建立相應(yīng)的廣義線性回歸模型,直接進(jìn)行預(yù)測(cè)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院72
/
105多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型拆解為二分類(lèi)問(wèn)題借助二分類(lèi)Logistic
回歸模型解決多分類(lèi)問(wèn)題,有“一對(duì)一”和“一對(duì)其他”
這兩種具體的方法。一對(duì)一:每次取兩個(gè)類(lèi)別的樣本,擬合二分類(lèi)
Logistic
回歸模型。如果有
K
個(gè)類(lèi)別,則一共要擬合
C2
個(gè)模型。每個(gè)模型K都會(huì)預(yù)測(cè)樣本屬于兩類(lèi)中的一類(lèi),給對(duì)應(yīng)的類(lèi)
"記上一票"。統(tǒng)計(jì)所有模型的投票結(jié)果,票數(shù)最多的那一類(lèi)就是樣本所屬類(lèi)的預(yù)測(cè)值。一對(duì)其他:每次指定
K個(gè)類(lèi)別的其中一類(lèi)作為正樣本,以所 有其他類(lèi)作為負(fù)樣本,視為二分類(lèi)問(wèn)題,擬合二分類(lèi)
Logistic 回歸模型。如果有
K個(gè)類(lèi)別,則一共要擬合
K個(gè)模型。每 個(gè)模型都可以得到樣本屬于所指定類(lèi)別的概率預(yù)測(cè)值,比較
K
個(gè)預(yù)測(cè)值,以最大值對(duì)應(yīng)的類(lèi)作為樣本所屬類(lèi)的預(yù)測(cè)值。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院73
/
105多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型多分類(lèi)
Logistic
回歸模型直接假定響應(yīng)變量
Y
是服從重復(fù)次數(shù)為
1
的多項(xiàng)分布的隨機(jī)變量,一共可取
{1,2,...,K}共K
個(gè)值,表示
K
個(gè)不同的類(lèi)別,且有將
Yi
取值為
k
的概率表示為以下對(duì)數(shù)一般線性回歸模型的形式:log
(P
(Yi
=
k))
=
Xiβk
?
log(Z)其中
Xi
表示第
i
行觀測(cè)數(shù)據(jù),
βk
表示第
k
類(lèi)特定的系數(shù)向量,
?log(Z)是為了保證取各個(gè)類(lèi)的概率加和為
1
而引入的正則項(xiàng)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院74
/
105
多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型由上式,有:與二分類(lèi)
Logistic
回歸模型的
logit
連接函數(shù)相對(duì)應(yīng),該式連接了預(yù)測(cè)變量的線性組合與響應(yīng)變量取某一值的概率,被稱(chēng)作
softmax
連接函數(shù)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院75
/
105多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型在實(shí)際應(yīng)用中,為了使系數(shù)估計(jì)能夠被唯一確定,通常需要指定一個(gè)類(lèi)別作為參照水平,將其對(duì)應(yīng)的系數(shù)都設(shè)為
0,在此基礎(chǔ)上估計(jì)其他類(lèi)別對(duì)應(yīng)的系數(shù)向量。不失一般性,假定選擇將第一個(gè)類(lèi)別作為參照水平,則上述模型可改寫(xiě)為:當(dāng)響應(yīng)變量只包含兩個(gè)類(lèi)別時(shí),該式與
logit連接函數(shù)是完全等價(jià)的,因此,多分類(lèi)
Logistic
回歸模型可以看作是二分類(lèi)
Logistic
回歸模型的推廣。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院76
/
105多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注模型的一般形式
二分類(lèi)Logistic回歸模型示例:學(xué)生項(xiàng)目數(shù)據(jù)UCLA
提供的學(xué)生項(xiàng)目數(shù)據(jù)記錄了200
名學(xué)生在開(kāi)學(xué)后選擇的項(xiàng)目類(lèi)型(prog),包括綜合型(general)、學(xué)術(shù)型(academic)和職業(yè)型(vocation)。此外,還記錄了可能對(duì)選擇結(jié)果有影響的兩個(gè)因素:家庭在社會(huì)中的經(jīng)濟(jì)地位(ses,分高中低三檔)、學(xué)生本人的寫(xiě)作分?jǐn)?shù)(score)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院77
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注可視化探索選擇學(xué)術(shù)型項(xiàng)目的學(xué)生寫(xiě)作分?jǐn)?shù)普遍更高,而選擇職業(yè)型項(xiàng)目的學(xué)生分?jǐn)?shù)最低。圖
13:不同項(xiàng)目組學(xué)生寫(xiě)作分?jǐn)?shù)分布箱線圖李揚(yáng)/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院78
/
105模型的一般形式二分類(lèi)Logistic回歸模型多分類(lèi)Logistic回歸模型Possion回歸模型小結(jié)與評(píng)注可視化探索家庭經(jīng)濟(jì)條件較
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 合同錄入系統(tǒng)流程3篇
- 倉(cāng)儲(chǔ)互誠(chéng)合同協(xié)議示范3篇
- 全年采購(gòu)合同糾紛處理3篇
- 租賃代理服務(wù)合同范例
- 藥廠黃芪采購(gòu)合同范例
- 福州汽車(chē)租賃合同范例
- 綠化種植合同范例6
- 結(jié)算協(xié)議合同范例
- 臨泉租賃合同范例
- 苦瓜定種合同范例
- 2024國(guó)家工作人員學(xué)法用法考試題庫(kù)及答案(通用版)
- 《美育》教學(xué)大綱
- 苗木采購(gòu)?fù)稑?biāo)方案(技術(shù)標(biāo))
- 10-500kV輸變電及配電工程質(zhì)量驗(yàn)收與評(píng)定標(biāo)準(zhǔn) 第八冊(cè) 配電工程
- 購(gòu)物中心安全風(fēng)險(xiǎn)評(píng)估報(bào)告
- 消防安全重點(diǎn)單位微型消防站備案表
- 高速鐵路軌道平順性技術(shù)研究
- 北師大版高中英語(yǔ)選擇性必修四全冊(cè)課文及翻譯(中英文Word)
- 體育系統(tǒng)運(yùn)動(dòng)隊(duì)(俱樂(lè)部)在隊(duì)證明
- 煙花爆竹門(mén)店安全的管理制度
- 學(xué)前兒童健康教育(學(xué)前教育專(zhuān)業(yè))PPT全套完整教學(xué)課件
評(píng)論
0/150
提交評(píng)論