參考課件-網(wǎng)導(dǎo)論_第1頁(yè)
參考課件-網(wǎng)導(dǎo)論_第2頁(yè)
參考課件-網(wǎng)導(dǎo)論_第3頁(yè)
參考課件-網(wǎng)導(dǎo)論_第4頁(yè)
參考課件-網(wǎng)導(dǎo)論_第5頁(yè)
已閱讀5頁(yè),還剩55頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

貝葉斯網(wǎng)絡(luò)導(dǎo)論授課教師:王成:郵箱:cheng.wan日期:2011.11.22華僑大學(xué)計(jì)算機(jī)學(xué)院試講先修課程和參考書(shū)目先修課程必修:概率論、數(shù)理統(tǒng)計(jì)、圖論選修:隨機(jī)過(guò)程、信息論、人工智能、數(shù)據(jù)挖掘、信息融合其它有用課程:數(shù)學(xué)建模、專業(yè)領(lǐng)域知識(shí)參考書(shū)目張連文、郭海鵬著《貝葉斯網(wǎng)引論》科學(xué)2006.11(算法、應(yīng)用實(shí)例)貝葉斯網(wǎng)絡(luò)課程定位人工智能的實(shí)質(zhì)進(jìn)展有賴于不斷針對(duì)人類的某種智能行為,運(yùn)用數(shù)學(xué)理論和方法,結(jié)合計(jì)算機(jī)技術(shù)來(lái)建立適當(dāng)?shù)臄?shù)學(xué)計(jì)算模型。只有智能的目標(biāo)和計(jì)算機(jī)技術(shù)而沒(méi)有數(shù)學(xué)的次介入是不可能有顯著進(jìn)展的。貝葉斯網(wǎng)絡(luò)課程定位(續(xù))貝葉斯網(wǎng)用于解決不確定理和數(shù)據(jù)分析。這是一門(mén)理論與實(shí)踐相結(jié)合的數(shù)學(xué)應(yīng)用課,將概率論、數(shù)理統(tǒng)計(jì)、信息論、圖論知識(shí)用于具體問(wèn)題、日常生活和工程實(shí)踐。與貝葉斯網(wǎng)絡(luò)關(guān)聯(lián)的課程信息融合故障信號(hào)處理人工智能生物信息學(xué)編碼學(xué)貝葉斯網(wǎng)絡(luò)本講主要內(nèi)容講課思路應(yīng)用范圍簡(jiǎn)介基本概念復(fù)習(xí)參數(shù)學(xué)習(xí)結(jié)構(gòu)學(xué)習(xí)貝葉斯網(wǎng)絡(luò)實(shí)例樸素貝存在問(wèn)題

葉斯分與

類器改進(jìn)方案1.1貝葉斯定理P(H)是先驗(yàn)概率(PriorProbability),或稱H的先驗(yàn)概率。P(X|H)代表假設(shè)H成立的情況下,觀察到X的概率。P(H|X)是后驗(yàn)概率(PosteriorProbability),或者稱條件X下H的后驗(yàn)概率。P(

X

)設(shè)X

是類標(biāo)號(hào)未知的數(shù)據(jù)樣本。設(shè)H

為某種假定,如數(shù)據(jù)樣本X

屬于某特定的類C。對(duì)于分類問(wèn)題,X,假定H

成立的概率。貝葉斯定理給出了計(jì)算P(H|X)的簡(jiǎn)單有效的方法:P(H

|

X

)

P(

X

|

H

)P(H

)1.1貝葉斯定理應(yīng)用實(shí)例例:設(shè)有一,生知道的人患有,有:P(D

t

|

C

y)P(D

t)P(C

y

|

D

t) 0.005

0.8

0.04P(C

y)

0.1即1.1貝葉斯定理應(yīng)用實(shí)例相對(duì)于E

e

,可以談?wù)撘粋€(gè)事件的先驗(yàn)和后驗(yàn)概率,同時(shí)也可以談?wù)撘粋€(gè)變量的先驗(yàn)和后驗(yàn)概率分布。設(shè)X

是一個(gè)所關(guān)心的變量,則有P(X

|E

e)P(

X

)P(E

e

|

X

)P(E

e)P(X

)是X

的先驗(yàn)分布,P(X

|

E

e)是X

的后驗(yàn)分布,P(E

e

|

X

)稱為X

的似然函數(shù)。P(E

e)是一個(gè)歸一化常數(shù)后驗(yàn)分布正比于先驗(yàn)分布和似然函數(shù)的乘積。1.2概率的解釋古典解釋頻率解釋(頻率學(xué)派)一般的地講,對(duì)于一個(gè)可在同樣條件下重復(fù)進(jìn)行的實(shí)驗(yàn),如果事件A在所有N次試驗(yàn) 發(fā)生了M次,則它的概率可以用其發(fā)生的頻率來(lái)近似:P(A)=M/N.解釋(貝葉斯解釋,貝葉斯學(xué)派)認(rèn)為概率即合理信度,反映的是

的知識(shí)狀態(tài)和

信念。在這種意義下的概率稱為

概率。特性解釋(Popper,1957)邏輯解釋(Carnap,1950)2.貝葉斯分類貝葉斯分類是統(tǒng)計(jì)分類方法。理論上講,與其它所有分類算法相比,貝葉斯分類具有最小的出錯(cuò)率。然而,實(shí)踐中并非如此。這是由于對(duì)其應(yīng)用的假設(shè)(如類條件獨(dú)立假設(shè))的確性,以及缺乏可用的概率數(shù)據(jù)造成的。研究結(jié)果表明,貝葉斯分類器對(duì)兩種數(shù)據(jù)具有較好的分類效果:一種是完全獨(dú)立(Comple

yIndependent)的數(shù)據(jù),另一種是函數(shù)依賴(FunctionallyDependent)的數(shù)據(jù)。2.貝葉斯分類在貝葉斯學(xué)習(xí)方法中實(shí)用性很高的一種稱為樸素貝葉斯分類器(naiveBayesclassifier)的方法。在某些領(lǐng)域,其性能與神經(jīng)網(wǎng)絡(luò)和決策樹(shù)相當(dāng)。2.1樸素貝葉斯分類器其中葉結(jié)點(diǎn)

12,,,別。AAn

是屬性變量,描述待分類對(duì)象的屬性,根結(jié)點(diǎn)C

是類別變量,描述對(duì)象的類NBC

模型……類別C1屬性A2屬性An屬性A樸素貝葉斯模型(na?ve

Bayses

model),又稱樸素貝葉斯分類器(na?veBayses

classifier)一個(gè)包含一個(gè)根結(jié)點(diǎn)、多個(gè)葉子結(jié)點(diǎn)的樹(shù)狀貝葉斯網(wǎng)。用樸素貝葉斯模型進(jìn)行分類就是給定一個(gè)數(shù)據(jù)點(diǎn),即各屬性變量的取值A(chǔ)1a1Aa

,,,概率分布

),然后選擇概率最大的那個(gè)C

值作為這個(gè)數(shù)據(jù)點(diǎn)所屬的類別。NBC

包含了一個(gè)局部獨(dú)立(local

independence)假設(shè),即給定類別變量C,各屬性變量Ai

相互條件獨(dú)立。n這就意味著:

P(C,

A1, ,

An

)

P(C)

P(

Ai

|

C)i12.1樸素貝葉斯分類器實(shí)例

30

3031

~

4031

~

40

30

30

3031

~

4031

~

4014據(jù)樣 用屬{yes,no})。設(shè)C1C2知樣 為:

X

{age"

30",income

2.1樸素貝葉斯分類器實(shí)例P(X

|

Ci

)P(Ci

),i

1,2

P(Ci

)P(buys

_

computer

"

yes")

9

/14

0.643

P(buys

_

computer

"no")

5

/14P(

X

|

Ci

),

i

1,2P(age

30

|

buys

_

computer

"

yes")

2P(age

30

|

buys

_

computer

"no")

3

/

5P(income

"medium"|

buys

_

compP(income

"medium"|

buys

_

compuP(s dent

"

yes"|

buys

_

computer

"P(income

"

yes"|

buys

_

computer

"nP(credit

_

rating

"

fair"|

buys

_P(credit

_

rating

"

fair"|

buys

_

c2.1樸素貝葉斯分類器實(shí)例P(

X

{age"

30",

i

P(age

30

|

buys

_P(st

dent

"

yes

"

|

b

0.222 0.444

0.6P(

X

{age"

30",

i

P(age

30

|

buysP(student

"

yes

"

|

b

0.600

*

0.400

*

0.20P(

X

|

buys

_

computer

"

yP(

X

|

buys

_

computer

"nbuys

_

computer

"

yes"P(age

30

|

buys

_

computer

"

yes")

2的是比值

nC

/

n

buys

_

computer

"

yes"nCage

302.1樸素貝葉斯分類器工作過(guò)程(1)每個(gè)數(shù)據(jù)樣本用一個(gè)n

維特征向量X

{x1

,x2

,,xn

}表示,分別描述對(duì)n

個(gè)屬性A1

,A2

,,An

樣本的n

個(gè)度量。(2)假定有

m

個(gè)類

12,,,

CCCm

。給定一個(gè)未知的數(shù)據(jù)樣本X(即沒(méi)有類標(biāo)號(hào)),分類法將驗(yàn)概率(條件

X

下)的類。即,樸素貝葉斯分類將未知的樣本分配給類Ci

,當(dāng)且僅當(dāng)屬于具有最高后P(Ci

|

X

)

P(C

j

|

X

)

,1

j

m

,

j

i這樣,最大化

PC(|)Xi

。其

PC(|)Xi

最大的類

Ci

稱為最大后驗(yàn)假定。根據(jù)貝葉斯定理可知:PX()

PX(|)C()PCiiPC(|)Xi(3)由于P(X)對(duì)于所有類為常數(shù),只需要P(X

|

Ci

)P(Ci

)最大即可。如果類的先驗(yàn)概率未知,則通常假設(shè)這些類是等概率的,即P(C1

)

P(C2

)

P(Cm

)。并據(jù)此,只對(duì)P(X

|

Ci

)最大化。否則,最大化P(X

|

Ci

)P(Ci

)。注意,類的先驗(yàn)概率可以用P(Ci

)

si

/s

計(jì)算,其中si

是類Ci中的訓(xùn)練樣本數(shù),而s

是訓(xùn)練樣本總數(shù)。2.1樸素貝葉斯分類器工作過(guò)程(續(xù))(4)給定具有許多屬性的數(shù)據(jù)集,計(jì)算P(X

|

Ci

)的開(kāi)銷(xiāo)可能非常大。為了降低計(jì)算P(X

|

Ci

)的開(kāi)銷(xiāo),可以做類條件獨(dú)立的樸素假定。給定樣本的類標(biāo)號(hào),假定屬性值之間相互條件獨(dú)立,即屬性間,不存n在依賴關(guān)系。這樣:P(X

|

Ci

)

p(xk

|

Ci

)k

1其中概率

P(x1

|

Ci

)

1

|(

)p|可(C,

x以P由Cx訓(xùn)P練樣本估值。如果Ak

是離散屬性,則P(xk

|

Ci

)

sik

|

si

,其中sik

是在屬性Ak

上具有值xk

的類Ci

的訓(xùn)練樣本數(shù),而si

是Ci

中的訓(xùn)練樣本數(shù)。如果Ak

是連續(xù)值屬性,則通常假定該屬性服從高斯分布。因而1i2CiCiik

Ck

i2

Ci2xukC

)(2u

),,()|(

eP

x

C

g

xg

(xk

,

uC

,

)

是高斯分布函數(shù),而u

,

分別為平均值和標(biāo)準(zhǔn)差。i

Ci

Ci

Ci(5)對(duì)未知樣本X

分類,也就是對(duì)每個(gè)類Ci

,計(jì)算P(X

|

Ci

)P(Ci

)。樣本X

被指派到類Ci

,當(dāng)且僅當(dāng)P(Ci

|

X

)

P(C

j

|

X

),1

j

m

,j

i

,換言之,X

被指派到其P(X

|

Ci

)P(Ci

)最大的類。2.2NBC的改進(jìn)-使用m-估計(jì)顯然,在多數(shù)情況下,觀察到的比例是對(duì)概率的一個(gè)良好估計(jì),但當(dāng)nC

很小時(shí)估計(jì)較差。設(shè)想P(age30

|

buys

_

cmputer

"yes")的值為0.08,而樣本中只有9

個(gè)樣本為buys

_

computer

"yes",那么對(duì)于nC

最有可能的值只有0.這產(chǎn)生了兩個(gè)難題:nC

/n

產(chǎn)生了一個(gè)有偏的過(guò)低估計(jì)(Underestimate)概率。當(dāng)此概率估計(jì)為0時(shí),如果將來(lái)的查詢包括age30

,此概率項(xiàng)會(huì)在貝葉斯分類器中占有原因在于,其他概率項(xiàng)乘以此0

值后得到的最終結(jié)果為0.2.2NBC的改進(jìn)-使用m-估計(jì)顯然,在多數(shù)情況下,觀察到的比例是對(duì)概率的一個(gè)良好估計(jì),但當(dāng)nC

很小時(shí)估計(jì)較差。設(shè)想P(age30

|

buys

_

cmputer

"yes")的值為0.08,而樣本中只有9

個(gè)樣本為buys

_

computer

"yes",那么對(duì)于nC

最有可能的值只有0.這產(chǎn)生了兩個(gè)難題:nC

/n

產(chǎn)生了一個(gè)有偏的過(guò)低估計(jì)(Underestimate)概率。當(dāng)此概率估計(jì)為0

時(shí),如果將來(lái)的查詢包括age30

,此概率項(xiàng)會(huì)在貝葉斯分類器中占有因在于,其他概率項(xiàng)乘以此0

值后得到的最終結(jié)果為0.為了避免這些難題,可以采用一種評(píng)估概率的貝葉斯方法,即如下定義的m-估計(jì):n

mm

估計(jì)

nC

m

*

p這里,nC

和n

與前面定義相同,p

是將要確定的概率的先驗(yàn)估計(jì),而m

是一個(gè)稱為等效樣本大小的常數(shù),它起到對(duì)于觀察到的數(shù)據(jù)如何衡量p

的作用。2.3NBC的改進(jìn)-NBC根據(jù)條件屬性對(duì)決策所起的作用賦給它們不同的權(quán)重,相比于貝葉斯網(wǎng)絡(luò),該方法更加簡(jiǎn)單可行。采用信息增益、爬山算法以及MonteCarlo技術(shù)確定屬性權(quán)值的方法?;诖植诩膶傩詸?quán)重求解方法。相關(guān)系數(shù)是用來(lái)測(cè)定變量間相關(guān)關(guān)系程度及方向的統(tǒng)計(jì)指標(biāo)。2.4NBC的改進(jìn)-選擇性NBC樸素貝葉斯分類器要以一個(gè)很強(qiáng)的條件獨(dú)立性假設(shè)為前提,即假設(shè)在各個(gè)類中,每個(gè)屬性變量(也稱作特征)的概率分布獨(dú)立于其它屬性變量的概率分布。彌補(bǔ)這一不足的一種有效的方法是利用屬性選擇去除數(shù)據(jù)集中的冗余屬性,使選擇出的屬性盡可能地滿足條件獨(dú)立性假設(shè)。然后,在選擇出的屬性子集上構(gòu)建貝葉斯分類器,即選擇性貝葉斯分類器。2.5NBC的改進(jìn)-TANTAN

模型樸素貝葉斯模型中的局部獨(dú)立假設(shè)在實(shí)際中往往不成立。為使模型更符合實(shí)際,可以在其中的各葉結(jié)點(diǎn)之間增加一些必要的邊,以表示各屬性變量之間的依賴關(guān)系,如果規(guī)定屬性變量之間的關(guān)系成樹(shù)狀結(jié)構(gòu),那么模型就稱為加樹(shù)樸素貝葉斯模型(tree

augmented

na?ve

Bayes

model),簡(jiǎn)稱nTAN

模型。在TAN

模型中,聯(lián)合概率分布為:P(C,A1

,A2

,An

)

P(C)

P(Ai

|

(Ai

))i1注意這里的屬性變量Ai

的父節(jié)點(diǎn)

(Ai

)不僅包括類別變量C,也可能包括其它屬性變量。相比之下,在樸素貝葉斯模型中

(Ai

)只包括C。這說(shuō)明,TAN

模型不再要求局部獨(dú)立假設(shè)成立有研究表明,TAN模型的分類效果往往比樸素貝葉斯要好(Friedman

et

al.,1997;Cheng

andGreiner,1999

)……類別C1屬性A2屬性An屬性A3.貝葉斯網(wǎng)例:(Alarm問(wèn)題)Pearl教授家住在洛杉磯,那里和盜竊時(shí)有發(fā)生。教授的家里裝有警鈴,和都有可能觸發(fā)警鈴,聽(tīng)到警鈴后,兩個(gè)鄰居Mary和John可能會(huì)打電話給他。一天,Pearl教授接到Mary的,說(shuō)聽(tīng)到他家警的概率多大?鈴響,Pearl教授想知道他家遭問(wèn)題分析:這個(gè)問(wèn)題包含5個(gè)隨量: (B)、(E)、警鈴響(A)、接到John的(J)和接到Mary的(M);所有變量的取值均是“y”或“n”。這里各變量間的關(guān)系存在不確定性:和以一定的概率隨機(jī)發(fā)生;它們發(fā)生之后,并不一定會(huì)觸發(fā)警鈴;而警鈴響后,Mary

和John可能會(huì)因?yàn)槟承┰?,如在?tīng)搖滾樂(lè)或

問(wèn)題,而沒(méi)有聽(tīng)到警鈴;有時(shí)候,兩人也會(huì)將其它聲音誤聽(tīng)為警鈴聲。假設(shè)Pearl教授對(duì)這5個(gè)變量的聯(lián)合概率分布P(B,E,A,J,M)的評(píng)估如表所示。要計(jì)算的是接到Mary的(M=y)后,Pearl教授對(duì)家里遭盜(B=y)的信度,即P(B=y|M=y)。BEAMJ概率BEAMJ概率yyyyy1.2E-4nyyyy3.6E-3yyyyn5.1E-5nyyyn1.6E-3yyyny1.3E-5nyyny4.0E-4yyynn5.7E-6nyynn1.7E-4yynyy5.0E-9nynyy7.0E-6yynyn4.9E-7nynyn6.9E-4yynny9.5E-8nynny1.3E-4yynnn9.4E-6nynnn1.3E-2ynyyy5.8E-3nnyyy6.1E-4ynyyn2.5E-3nnyyn2.6E-4ynyny6.5E-4nnyny6.8E-5ynynn2.8E-4nnynn2.9E-5ynnyy2.9E-7nnnyy4.8E-4ynnyn2.9E-5nnnyn4.8E-2ynnny5.6E-6nnnny9.2E-3ynnnn5.5E-4nnnnn9.1E-1Alarm

問(wèn)題的聯(lián)合概率分布P(B,E,A,J,M)3.1不確定理與聯(lián)合概率分布從聯(lián)合概率分布

P(B,E,A,J,M)出發(fā),先計(jì)算邊緣分布P(B,

M

)

P(B,

E,

A,

J

,

M

)E

,

A,J得到下表:BMP(B,M)yy0.000115yn0.000075ny0.00015nn0.99966再按照條件概率定義,得

0.610.000115

0.000075P(M

y)0.000115P(B

y,

M

y)

P(B

n,

M

y)P(B

y,

M

y)P(B

y

|

M

y)

P(B

y,

M

y)

3.1不確定

理與聯(lián)合概率分布3.2存在的問(wèn)題直接使用聯(lián)合分布進(jìn)行不確定 理的 很明顯,即它的復(fù)雜度極高。上圖中有5

個(gè)二值隨量,整個(gè)聯(lián)合分布包含25

1

31

個(gè)獨(dú)立參數(shù)。當(dāng)變量很多時(shí),聯(lián)合概率的獲取、 和運(yùn)算都變得十分在上述(Alarm

問(wèn)題)的例子中,運(yùn)用鏈規(guī)則,可以把聯(lián)合概率分布

P(B,E,A,J,M)表示為:B,E,A,J,M)=P(B)P(

B,E)P(J|B,E,A)P(M|B,E,A,J)。一步并沒(méi)有降低模型的復(fù)雜度,因?yàn)榈仁接叶说?

個(gè)概率分布仍然包含同聯(lián)合分布相同個(gè)數(shù)的獨(dú)立參數(shù):1+2+4+8+16=31.3.3解決方案但是,它使得可以根據(jù)問(wèn)題的背景知識(shí)做一些合理的獨(dú)立假設(shè)以降低復(fù)雜度。例如,

(E)應(yīng)該與 (B)無(wú)關(guān),于是假設(shè)E與B相互獨(dú)立,即P(E|B)=P(E),這樣就把P(E|B)簡(jiǎn)化成了P(E)。直接取決于他們是否另外,John(J)和Mary(M)是否打聽(tīng)到警鈴(A)。所以可以假設(shè)給定A時(shí),J與B和E,以及M與J、B和E都相互獨(dú)立,即P(J|B,E,A)=P(J|A)和P(M|B,E,A,J)=P(M|A),將這些獨(dú)立假設(shè)放在一起,得:P(B,E,A,J,M)=P(B)P(E)P(A|B,E)P(J|A)P(M|A)這樣就把聯(lián)合分布P(B,E,A,J,M)分解成了若干個(gè)復(fù)雜度較低的概率分布的乘積。上式右端的5個(gè)概率分布僅包含

1+1+4+2+2=10個(gè)獨(dú)立參數(shù),相對(duì)于聯(lián)合分布所需要的31個(gè)獨(dú)立參數(shù)來(lái)說(shuō),模型的復(fù)雜度得到了降低。3.3解決方案n更一般地,考慮一個(gè)包含

n

個(gè)變量的聯(lián)合分布P(X1

,X

2

,,Xn

)。利用鏈規(guī)則,可以把它寫(xiě)為:P(

X

1

,

X

2,,

X

n

)

P(

X

1

)P(

X

2

|

X

1

)

P(

X

n

|

X

1

,

X

2

,,

X

n1

)

P(

X

i

|

X

1

,

X

2,,

X

i1

)i1對(duì)于任意

Xi

,如果存在

(Xi

){X1

,X

2

,,Xi1},使得給定

(Xi

),X

i

與{X1,X

2

,,Xi1}中其它變量條件獨(dú)立,即

P(Xi

|

X1

,X

2

,,Xi1

)

P(Xi

|

(Xi

))n那么有

P(X1

,X

2

,,Xn

)

P(Xi

|

(Xi

))i1這樣,就得到了聯(lián)合分布的一個(gè)分解。其中當(dāng)

(Xi

)

時(shí),P(Xi

|

(Xi

)為邊緣分布P(Xi

).3.3解決方案M

A

P(M|A)yy0.9ny0.1yn0.05nn0.95B

P(

B)

y

0.01n

0.99E

P(E)

y

0.02n

0.98J

A

P(J|A)y

y

0.7n

y

0.3y

n

0.01n

n

0.99BEAMJA

B

E

P(J|A)y

y y

0.95n

y y

0.05y

y n

0.94n

y n

0.06yny0.29nny0.71ynn0.001nnn0.999量,節(jié)點(diǎn)間的邊代表變量Alarm

貝葉斯網(wǎng):聯(lián)合分布分解的有向圖表達(dá)貝葉斯網(wǎng)是一個(gè)有向無(wú)圈,其 點(diǎn)代表隨之間的直接依賴關(guān)系。每個(gè)節(jié)點(diǎn)都附有一個(gè)概率分布,根節(jié)點(diǎn)X

所附有的是它的邊緣分布P(X

),而非根節(jié)點(diǎn)X

所附的是條件概率分布P(X

|

(X

))。貝葉斯網(wǎng)的引入為概率推理提供了很大的方便。一方面貝葉斯網(wǎng)是嚴(yán)格的數(shù)學(xué)語(yǔ)言,適合計(jì)算機(jī)處理;另一方面,它又直觀易懂,方便人們交流和建立模型。3.4貝葉斯網(wǎng)與概率推理推理(inference)是通過(guò)計(jì)算回答查詢(query)的過(guò)程。貝葉斯網(wǎng)中的推理問(wèn)題有三大類:后驗(yàn)概率問(wèn)題最大后驗(yàn)假設(shè)問(wèn)題(MAP)最大可能解釋問(wèn)題(MPE)3.4貝葉斯網(wǎng)與概率推理后驗(yàn)概率問(wèn)題后驗(yàn)概率問(wèn)題指的是已知貝葉斯網(wǎng)中某些變量的取值,計(jì)算另外一些變量的后驗(yàn)概率分布問(wèn)題。從結(jié)果到原因的

推理(diagnosticinference)從原因到結(jié)果的

推理(predictive

inference)在同一結(jié)果的不同原因之間的原因關(guān)聯(lián)推理(intercausal

inference)混合推理(mixed

inference)4.貝葉斯網(wǎng)絡(luò)涉及到的問(wèn)題問(wèn)題與如何獲得貝葉斯網(wǎng)絡(luò)中的參數(shù)?如何構(gòu)造貝葉斯網(wǎng)絡(luò)?4.3圖分隔與變量獨(dú)立貝葉斯網(wǎng)是概率論與圖論相結(jié)合的產(chǎn)物。在一個(gè)貝葉斯網(wǎng)中,一方面可以從概率論的角度談?wù)撟兞恐g的依賴與獨(dú)立,另一方面也可以從圖論的角度談?wù)摴?jié)點(diǎn)之間的連通與分隔。4.3圖分隔與變量獨(dú)立BEAMJ兩變量X和Y如果直接相連,則表示它們之間有直接依賴關(guān)系,對(duì)X的了解會(huì)影響關(guān)于Y的信度,反之亦然。如果X和Y不直接相連,那么信息需要通過(guò)其它變量才能在兩者之間傳遞。4.3圖分隔與變量獨(dú)立考慮兩個(gè)變量X

和Y

通過(guò)第3

個(gè)變量Z

間接相連這一基本情況。它又分為3

個(gè)子情況:順連、分連、及匯連。順連(serial

connection)如下圖(a)所示,這里若Z

未知,則對(duì)X

的了解會(huì)影響關(guān)于Z

的信度,進(jìn)而影響關(guān)于Y

的信度;反之亦然。另一方面,若Z的取值已知,則對(duì)X

的了解就不會(huì)影響關(guān)于Z

的信度,從而也不會(huì)影響關(guān)于Y

的信度;反之亦然。所以,此時(shí)X

和Y

之間的信息通道被阻塞,信息無(wú)法在兩者之間傳遞,X

和Y

相互條件獨(dú)立。分連(diverging

connection)如下圖(b)所示。它與順連的情況相似:當(dāng)未知Z時(shí),信息可以在X

和Y

之間傳遞,它們相互關(guān)聯(lián);而當(dāng)Z

已知時(shí),信息不能在X

和Y

之間傳遞,因而它們相互獨(dú)立。匯連(converging

connection)結(jié)構(gòu)如下圖(c)所示。在未知Z

時(shí),X

和Y

相互獨(dú)立;而在已知Z

時(shí),X和Y

卻相互關(guān)聯(lián)。兩個(gè)變量X

和Y

通過(guò)第3

個(gè)變量Z

間接相連的3

種情況(a)順連X

XZZYYXZYXZY(b)分連(c)匯連4.3圖分隔與變量獨(dú)立考慮兩個(gè)變量X

和Y

通過(guò)第3

個(gè)變量Z

間接相連這一基本情況。它又分為3

個(gè)子情況:順連、分連、及匯連。順連(serial

connection)如下圖(a)所示,這里若Z

未知,則對(duì)X

的了解會(huì)影響關(guān)于Z

的信度,進(jìn)而影響關(guān)于Y

的信度;反之亦然。另一方面,若Z的取值已知,則對(duì)X

的了解就不會(huì)影響關(guān)于Z

的信度,從而也不會(huì)影響關(guān)于Y

的信度;反之亦然。所以,此時(shí)X

和Y

之間的信息通道被阻塞,信息無(wú)法在兩者之間傳遞,X

和Y

相互條件獨(dú)立。分連(diverging

connection)如下圖(b)所示。它與順連的情況相似:當(dāng)未知Z時(shí),信息可以在X

和Y

之間傳遞,它們相互關(guān)聯(lián);而當(dāng)Z

已知時(shí),信息不能在X

和Y

之間傳遞,因而它們相互獨(dú)立。匯連(converging

connection)結(jié)構(gòu)如下圖(c)所示。在未知Z

時(shí),X

和Y

相互獨(dú)立;而在已知Z

時(shí),X和Y

卻相互關(guān)聯(lián)。兩個(gè)變量X

和Y

通過(guò)第3

個(gè)變量Z

間接相連的3

種情況(a)順連X

XZZYYXZYXZY(b)分連(c)匯連設(shè)Z為一節(jié)點(diǎn)集合,X

和Y

是不在

Z中的兩個(gè)節(jié)點(diǎn)??紤]X和Y

之間的一條通路

。如果滿足下面條件之一,則稱

被Z

所阻塞:

上有一個(gè)在

Z

中的順連節(jié)點(diǎn);

上有一個(gè)在

Z

中的分連節(jié)點(diǎn);

上有一個(gè)匯連節(jié)點(diǎn)

W,它和它的后代節(jié)點(diǎn)均不在

Z

中;X

和Y

之間的通路被

Z阻塞的

3

種情況如果

X

Y

之間的所有通路都被

Z

阻塞,那么

就說(shuō)

Z有向分隔(directed

separate)X

Y,簡(jiǎn)稱

d-分隔(d-separate)X

和Y。如果

Z

d-分隔

X

和Y,那么

X

和Y

在給定

Z

時(shí)條件獨(dú)立。ZZ(a)順連節(jié)點(diǎn)

z

ZXZYXZYXWY(b)分連節(jié)點(diǎn)z

Z(c)匯連節(jié)點(diǎn)W

及其后代均不在Z

內(nèi)ZAB4.3圖分隔與變量獨(dú)立4.4因果關(guān)系與貝葉斯網(wǎng)絡(luò)在實(shí)際應(yīng)用中,人們往往利用因果關(guān)系來(lái)確定貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)。在利用因果關(guān)系建立起來(lái)的貝葉斯網(wǎng)中,變量間的邊表示的是因果關(guān)系,而非簡(jiǎn)單的概率依賴關(guān)聯(lián)。這樣的貝葉斯網(wǎng)稱為貝葉斯因果網(wǎng)(Bayesian

causal

networks),簡(jiǎn)稱因果網(wǎng)(causal

networks)。在貝葉斯因果網(wǎng)上除了可以進(jìn)行概率推理外,還可以進(jìn)行關(guān)于干預(yù)

(effects

ofintervention)的推理以及虛設(shè)(counter

factual)推理(Pearl,2000)如果假設(shè)制造一次 ,則會(huì)認(rèn)為警鈴可能會(huì)響;反過(guò)來(lái),如果知道有人弄響警鈴,則不會(huì)認(rèn)為將發(fā)生

。因此,是警鈴響的原因,反之不然。5.貝葉斯網(wǎng)的應(yīng)用貝葉斯網(wǎng)成為許多研究領(lǐng)域的常用工具。機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、系統(tǒng)工程以及模式識(shí)別中的許多模型都是貝葉斯網(wǎng)的特例。與專業(yè)相關(guān)的醫(yī)療

、生物信息學(xué)、金融分析、生態(tài)學(xué)、農(nóng)牧業(yè)、編碼學(xué)等等。5.1貝葉斯網(wǎng)應(yīng)用于計(jì)算機(jī)程序理解(program

understading)(Breese

andBlake,1995;Burnell

and

Horvitz,1995)測(cè)試(software

testing)(Ziv

and

Richardson,1997)?郵件過(guò)濾(junk filtering)(Sahami

et

al.,1998)計(jì)算機(jī)系統(tǒng)故障

(trouble

shooting)(Heckermanetal.,1995;

Jensen

etal.,2001)決策系統(tǒng)信息顯示(information

display)(Horvitz

andBarry,1995)信息提取(information

retrieval)(Fung

andFavero,1995;

Wong

and

Butz,2000;Ruokangas

andMengshoel,2003;Blei

et

al.

,2003)用戶特征提取(user

profiling)(Hovitzetal.,1998;Schiaffino

and

Amandi,2000)5.1貝葉斯網(wǎng)應(yīng)用于計(jì)算機(jī)微軟

在這方面投入了相當(dāng)大的力量,開(kāi)發(fā)了一系列嵌入Windows和Office等系統(tǒng)的貝葉斯

網(wǎng),如Windows中的 故障程序,Office中的用戶幫手,以及Outlook中的

郵件過(guò)濾器等。5.1貝葉斯網(wǎng)應(yīng)用于計(jì)算機(jī)用于故障的貝葉斯網(wǎng)局部打印顏色過(guò)淺問(wèn)題F3AQ1A2A1打印驅(qū)動(dòng)故障4F數(shù)據(jù)出錯(cuò)墨盒故障措施墨粉不勻故障F12FF3搖晃、重置墨盒換墨盒重啟電源用戶反饋測(cè)試頁(yè)顏色太淺?5.2貝葉斯網(wǎng)用于故障燃油指示失靈啟動(dòng)器失靈電池沒(méi)電電池使用時(shí)間電池報(bào)廢發(fā)電機(jī)報(bào)廢皮帶斷開(kāi)沒(méi)有充電無(wú)潤(rùn)滑油照明大燈無(wú)燃油潤(rùn)滑油指示燈燃油指示燈用于汽車(chē)啟動(dòng)故障 的貝葉斯網(wǎng)引機(jī)無(wú)法啟動(dòng)故障的目的是找出導(dǎo)致一個(gè)控制系統(tǒng)失靈的故障部件。從圖中可以看到,可能導(dǎo)致汽車(chē)無(wú)法啟動(dòng)的原因有多個(gè),故障就是根據(jù)觀測(cè)到的進(jìn)行概率推理,找出后驗(yàn)概率最大的那個(gè)原因。5.3動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)一個(gè)動(dòng)態(tài)貝葉斯網(wǎng)可以定義為(0,

),其中

0是一個(gè)標(biāo)準(zhǔn)貝葉斯網(wǎng),定義了初始時(shí)刻的概率分布

P(Z0

),

是一個(gè)包含兩個(gè)時(shí)間片的貝葉斯網(wǎng),定義了兩個(gè)相鄰時(shí)間片的各變量之間Nt t

1

i1的條件分布,即

P(Z

|

Z

)

ititP(Z

|

(Z

))。it其中

Z

是位于時(shí)間

t

時(shí)的節(jié)點(diǎn)iti

,

(Z

)it是

Z

的父節(jié)點(diǎn)。

中前一個(gè)時(shí)間片中的結(jié)點(diǎn)可以不ititit給出參數(shù),第二個(gè)時(shí)間片中每個(gè)節(jié)點(diǎn)都有一個(gè)條件概率分布

P(Z

|

(Z

)),

t

0

。節(jié)點(diǎn)

Z

的父it節(jié)點(diǎn)

(Z

)可以在同一時(shí)間片內(nèi),也可以 一時(shí)間片內(nèi)。位于同一時(shí)間片內(nèi)的邊可以理解為瞬時(shí)作用,而 時(shí)間片的邊可以理解為時(shí)變作用,反映了時(shí)間的流逝。(a)

0

:初始化分布

P(Z

0

)

(b)

:

條件分布

P(Zt

|

Zt

1

)動(dòng)態(tài)貝葉斯網(wǎng)示例:每個(gè)時(shí)間片包含3

個(gè)節(jié)點(diǎn)A0B0C0t

1At

1Bt

1CtAtBtC5.3動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)包含了兩個(gè)假設(shè):一階馬爾可夫假設(shè),即各節(jié)點(diǎn)之間的邊或者位于同一時(shí)間片內(nèi),或者位于相鄰時(shí)間片之間,不能時(shí)齊性或齊次性,即

中的參數(shù)不隨時(shí)間變化。根據(jù)初始分布和相鄰時(shí)間片之間的條件分布,可以將動(dòng)態(tài)貝葉斯網(wǎng)展開(kāi)到第T

個(gè)時(shí)間片,結(jié)果得到一個(gè)T

Nt

0

i1itit0:TPZ

(()|(PZZ))。動(dòng)態(tài)貝葉斯網(wǎng)的特例,即隱馬爾可夫模型和卡爾曼濾波器。5.3動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)其它參考文獻(xiàn)陳景年《選擇性貝葉斯分類算法研究》

交通大學(xué)2008.5

博士董立巖《貝葉斯應(yīng)用基礎(chǔ)研究》吉林大學(xué)2007.5

博士古平《基于貝葉斯模型的文檔分類及相關(guān)技術(shù)研究》2006.9

博士李旭升《貝葉斯網(wǎng)絡(luò)分類模型研究及其在信用評(píng)估中的應(yīng)用》西南交通大學(xué)2006.6博士2005.4

博士黃友平《貝葉斯網(wǎng)絡(luò)研究》中國(guó)科學(xué) 計(jì)算技術(shù)?朱慧明《現(xiàn)代經(jīng)濟(jì)管理中的線性貝葉斯推斷理論與多總體貝葉斯分類識(shí)別方法研究》2003.1博士高妍方《貝葉斯網(wǎng)絡(luò)的代價(jià)敏感結(jié)構(gòu)學(xué)習(xí)》2009.2

第2期吳寧《一種應(yīng)用關(guān)聯(lián)規(guī)則森林的改進(jìn)貝葉斯分類算法》2009.2西安交通大學(xué)學(xué)報(bào)43卷2期王學(xué)玲《基于新的屬性依賴的TAN分類器》計(jì)算機(jī)與數(shù)字工程2008年11期王學(xué)玲《基于有向樹(shù)算法構(gòu)造的TAN分類器》2008.7計(jì)算機(jī)工程與設(shè)計(jì)29卷13期??徐光美《基于互信息的多關(guān)系樸素貝葉斯分類器》2008.8?科技大學(xué)學(xué)報(bào)30卷8期學(xué)學(xué)報(bào)(自然科學(xué)版)張明衛(wèi)

《基于相關(guān)系數(shù)的 樸素貝葉斯分類算法》2008.7

東29卷7期石洪波《一種限定性的雙層貝葉斯分類模型》 學(xué)報(bào)2004,15(2)柳征《一種新的貝葉斯調(diào)制分類算法》2006.7

電子與信息學(xué)報(bào)28卷7期余芳《一種基于樸素貝葉斯分類的特征選擇方法》2004,9中山大學(xué)學(xué)報(bào)43卷5期??黃捷《一種新的正態(tài)分布實(shí)例的貝葉斯分類算法》2001.12

華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版)貝葉斯網(wǎng)的創(chuàng)新點(diǎn)1.屬性 算法自適應(yīng)屬性 (類內(nèi)距離最小,類間距離最大,F(xiàn)ish準(zhǔn)則)最小化互信息量屬性2.樸素貝葉斯分類器與盲元分離的結(jié)合首先對(duì)數(shù)據(jù)進(jìn)行PCA變換再樸素貝葉斯首先對(duì)數(shù)據(jù)進(jìn)行ICA變換再樸素貝葉斯

ICA獨(dú)立成分分析,分布獨(dú)立假設(shè)3.對(duì)不平衡數(shù)據(jù)集的應(yīng)用貝葉斯偏

大類的偏向,小類上會(huì)被忽略訓(xùn)練集與測(cè)試集(工作集)分布不同時(shí)的應(yīng)用不同分布的先驗(yàn)信息的應(yīng)用4.利用貝葉斯增量學(xué)習(xí)的特點(diǎn),

學(xué)習(xí)建模機(jī)器學(xué)習(xí)有兩種模式,即順序?qū)W習(xí)和批量學(xué)習(xí)。順序?qū)W習(xí)(sequential

learing)指一個(gè)一個(gè)地處理數(shù)據(jù)樣本,沒(méi)處理一個(gè)樣本

就更新一次參數(shù),而且更新是在當(dāng)前參數(shù)值的基礎(chǔ)上進(jìn)行的。批量

學(xué)習(xí)(batchlearing)則指同時(shí)處理所有數(shù)據(jù),

得到參數(shù)估計(jì)。在處理完當(dāng)前數(shù)據(jù)之后的一段時(shí)間內(nèi),如果有新的數(shù)據(jù)出現(xiàn),就把

新老數(shù)據(jù)混合在一起,重新進(jìn)行參數(shù)估計(jì),這個(gè)過(guò)程完全不依賴于

以前的估計(jì)。貝葉斯估計(jì)既可以用于順序?qū)W習(xí),又可以用于批量學(xué)習(xí),而最大似然估計(jì)只能用于批量學(xué)習(xí)。順序?qū)W

線學(xué)習(xí))節(jié)省內(nèi)存

特殊應(yīng)用場(chǎng)合(如沒(méi)有先驗(yàn)知識(shí)但帶有反饋、動(dòng)態(tài)自適應(yīng)分類器)5.利用關(guān)聯(lián)規(guī)則對(duì)樸素貝葉斯改進(jìn)6.半監(jiān)督學(xué)習(xí)人的模式識(shí)別過(guò)程具有極強(qiáng)的學(xué)習(xí)能力,通過(guò)學(xué)習(xí),人不僅能學(xué)會(huì)歸類(識(shí)別),而且能創(chuàng)造新的類別(認(rèn)知)??梢哉f(shuō),識(shí)別(Recognition)就是再認(rèn)知(Re-Conition),研究相似與分類這樣的認(rèn)知基本問(wèn)題,有助于更深入地理解模式識(shí)別。將分類與聚類相互結(jié)合,已有類別和先驗(yàn)樣本知識(shí),自適應(yīng)的產(chǎn)生新的類別(特殊應(yīng)用情形)貝葉斯網(wǎng)的創(chuàng)新點(diǎn)4.1條件獨(dú)立考慮3

個(gè)事件A,B

和C,假定P(C)>0

。P(

A

B

|

C)

P(

A

|

C)P(B

|

C)

,稱事件A

與B

在給定C

時(shí)相互條件獨(dú)立,如果有下式成立:。當(dāng)P(B

C)

0

時(shí),可得

P(A

|

C)

P(A

|

B

C)。事件

A

和B

在給定

C

時(shí)相互條件獨(dú)立的直觀意義是:在已知事件

C

發(fā)生的前提下,對(duì)事件

B

是否發(fā)生的了解不會(huì)改變對(duì)事件

A發(fā)生的信度;同樣,對(duì)事件

A

是否發(fā)生的了解也不影響對(duì)事件

B發(fā)生的信度??紤]

3

個(gè)隨 量

X,Y

Z,設(shè)

P(Z=z)>0,

z

Z

說(shuō)

X

Y

在給定

Z

時(shí)相互條件獨(dú)立,記為X

Y

|

Z

。如果下式成立P(X

,Y

|

Z

)

P(X

|

Z

)P(Y

|

Z

)。設(shè)y

和z

分別是

Y

和Z

的任意取值,P(Y

y,Z

z)

0

,可得:

((),|

||

P)z。X

Y

|

Z

的直觀含義是:在已知

Z

的前提下,對(duì)

Y

的取值的了解不影響

X

的概率(信度)分布。注意,這并不意味著在未知

Z

的取值時(shí),X

和Y

相互獨(dú)立。Y=y

有可能含有關(guān)于

X

的信息,只是所有這樣的信息也都包含于

Z=z中,所以當(dāng)已知

Z=z

時(shí),進(jìn)一步了解到

Y=y

并不增加關(guān)于

X

的信息。4.1條件獨(dú)立,條件獨(dú)立示意:給出硬幣類型,各投擲結(jié)果相互獨(dú)立……X

1X

2X

n例:設(shè)有一裝有兩種硬幣的口袋,其中一些是均勻硬幣,擲出正面朝上的概率為0.5;另一些為非均勻硬幣,擲出正面朝上的概率為

0.8。現(xiàn)從袋中隨機(jī)取出一枚硬幣,投擲若干次。令X

i

表示第i次拋擲硬幣的結(jié)果,Y

表示該硬幣是否均勻。這里,

Xi

X

j

(i

j)

之間不是相互(邊緣)獨(dú)立的,因?yàn)槿绻麛S了

10次硬幣,其中

9次都是正面朝上那么有理由相信這枚硬幣是不均勻的,從而增大了下一次擲出正面朝上的信度。所以X

i

的值給了 關(guān)于這枚硬幣的一些信息,它有助于 繼續(xù)判斷

X

j

的值。另一方面,如果已經(jīng)知道了

Y

的值,例如該硬幣是不均勻的,那么不管前面的結(jié)果如何,以后每次擲硬幣的結(jié)果為正面的概率都是

0.8 不能從前面的實(shí)驗(yàn)得到什么信息。所以給定

Y

的值后,Xi與X

j

(i

j)

之間就是相互條件獨(dú)立的。變量Y

切斷了變量

Xi

與變量

X

j

之間的“信息通道”。硬幣類型Y結(jié)果1結(jié)果2結(jié)果n4.1條件獨(dú)立命題:考慮

3

個(gè)隨 量

X,Y

Z,設(shè)

P(Z)>0,下列條件相互等價(jià):(1)

P(X,Y|Z)=P(X|Z)P(Y|Z);(2)

P(X|Y,Z)=P(X|Z),當(dāng)P(Y|Z)>0;P(X,Y|Z)=f(X,Z)g(Y,Z),f

和g

均為函數(shù);P(X|Y,Z)=f(X,Z),f

為一函數(shù),當(dāng)P(Y,Z)>0;P(X,Y,Z)=P(X|Z)P(Y|Z)P(Z)

;P(X,Y,Z)=P(X,Z)P(Y,Z)/P(Z)

;P(X,Y,Z)=f(X,Z)g(Y,Z),f和g

均為函數(shù)。4.2熵(信息論)一個(gè)離散型隨量X

的熵H(X)的定義為:X

XP(

X

)H

(

X

)

P(

X

)

log

1

P(

X

)

log

P(

X

)1其中約定

0

log

0

。對(duì)數(shù)若以

2

為底,則熵的單位是比特;若以

e

為底,則其單位是奈特。0量X

的熵越大,說(shuō)明它的不確定性也越大。熵是對(duì)隨

量不確定的度量。隨熵的基本性質(zhì)(1)

H

(

X

)

0

;(2)

H

(X

)

log

|

X

|,等號(hào)成立當(dāng)且僅當(dāng)對(duì)X

的所有取值x

有P(X

x)|

X

|1。聯(lián)合熵是借助聯(lián)合概率分布對(duì)熵的自然推廣。兩個(gè)離散型隨

X

Y

的聯(lián)合熵的定義為:X

,Y X

,YP(

X

,Y

)H(X,

Y)=

P(

X

,Y

)

log

1

P(

X

,Y

)

log

P(

X

,Y

)XP(

X

|

Y

y)條件熵是利用條件概率分布對(duì)熵的一個(gè)延伸。隨果知道另一個(gè)隨給定Y=y

時(shí)X

的條件熵為H

(X

|

Y

y)

P(X

|

Y

y)log

1

。熵H(X)度量的是隨定性。4.2熵(信息論)Y

YXy

yP(

X

|

Y

y)當(dāng)y

變化時(shí),H

(X

|

Y

y)也會(huì)發(fā)生改變。由于知道Y

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論