樸素貝葉斯方法處理缺失值ppt課件_第1頁(yè)
樸素貝葉斯方法處理缺失值ppt課件_第2頁(yè)
樸素貝葉斯方法處理缺失值ppt課件_第3頁(yè)
樸素貝葉斯方法處理缺失值ppt課件_第4頁(yè)
樸素貝葉斯方法處理缺失值ppt課件_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 結(jié) 構(gòu)u貝葉斯實(shí)際u貝葉斯分類器 =A1A2.Am,是由一切未知類別的能夠樣本組成的集合; c=A1A2.AmC是由一切知類別的樣本組成的集合。D c是訓(xùn)練樣例集合。 中的元素x表示為x = 。 c中的元素x表示為x = 。其中ai表示第i個(gè)屬性的某個(gè)取值。 我們用Ai表示第i個(gè)屬性,C表示決策屬性;aik表示第i個(gè)屬性的第k個(gè)取值,cj表示第j類;加上絕對(duì)值那么表示相應(yīng)的個(gè)數(shù),如|Ai|表示第i個(gè)屬性的取值個(gè)數(shù),|cj|表示第j類樣例個(gè)數(shù)。 設(shè)x是一個(gè)類別未知的數(shù)據(jù)樣本,cj為某個(gè)類別,假設(shè)數(shù)據(jù)樣本x屬于一個(gè)特定的類別cj,那么分類問(wèn)題就是決議P(cj|x),即在獲得數(shù)據(jù)樣本x時(shí),確定x的

2、最正確分類。所謂最正確分類,一種方法是把它定義為在給定數(shù)據(jù)集D中不同類別cj先驗(yàn)概率的條件下最能夠most probable分類。貝葉斯實(shí)際提供了計(jì)算這種能夠性的一種直接方法 更準(zhǔn)確地講,貝葉斯法那么基于假設(shè)的先驗(yàn)概率、給定假設(shè)下察看到不同數(shù)據(jù)的概率,提供了一種計(jì)算假設(shè)概率的方法u 先驗(yàn)概率P(cj)P( cj|x) =P(x|cj)P(cj)P(x)u 結(jié)合概率P(x|cj)u 后驗(yàn)概率P(cj|x) 假設(shè)沒(méi)有這一先驗(yàn)知識(shí),那么可以簡(jiǎn)單地將每一候選類別賦予一樣的先驗(yàn)概率。不過(guò)通常我們可以用樣例中屬于cj的樣例數(shù)|cj|比上總樣例數(shù)|D|來(lái)近似,即 P(cj)代表還沒(méi)有訓(xùn)練數(shù)據(jù)前,cj擁有的初

3、始概率。P(cj)常被稱為cj的先驗(yàn)概率(prior probability) ,它反映了我們所擁有的關(guān)于cj是正確分類時(shí)機(jī)的背景知識(shí),它應(yīng)該是獨(dú)立于樣本的。jj|c |P(c )= |D| 結(jié)合概率是指當(dāng)知類別為cj的條件下,看到樣本x出現(xiàn)的概率。 假設(shè)設(shè)假設(shè)設(shè)x = x = 那么那么P(x|cj)= P(a1,a2am| cj)P(x|cj)= P(a1,a2am| cj) 即給定數(shù)據(jù)樣本x時(shí)cj成立的概率,而這正是我們所感興趣的 P(cj|x ) P(cj|x )被稱為被稱為C C的后驗(yàn)概率的后驗(yàn)概率posterior posterior probabilityprobability,由

4、于它反映了在看到數(shù)據(jù)樣,由于它反映了在看到數(shù)據(jù)樣本本x x后后cjcj成立的置信度成立的置信度設(shè)設(shè)x = x = ,為一個(gè)有,為一個(gè)有m m個(gè)屬性的樣個(gè)屬性的樣例例= max = max P(a1,a2am|cj)P(cj)P(a1,a2am|cj)P(cj)P(a1,a2am)P(a1,a2am)= max P(a1,a2am|cj)P(cj)= max P(a1,a2am|cj)P(cj)(1)(1)P(cMAP|x)= max P(cj|x) j(1,|C|)P(cMAP|x)= max P(cj|x) j(1,|C|)= max P(cj|a1,a2am)= max P(cj|a1,a

5、2am) 樸素貝葉斯分類器基于一個(gè)簡(jiǎn)單的假定:在給樸素貝葉斯分類器基于一個(gè)簡(jiǎn)單的假定:在給定目的值時(shí)屬性值之間相互條件獨(dú)立。換言之,該定目的值時(shí)屬性值之間相互條件獨(dú)立。換言之,該假定闡明給定實(shí)例的目的值情況下,察看到結(jié)合的假定闡明給定實(shí)例的目的值情況下,察看到結(jié)合的a1,a2ama1,a2am的概率正好是對(duì)每個(gè)單獨(dú)屬性的概率乘的概率正好是對(duì)每個(gè)單獨(dú)屬性的概率乘積積 12mjij1P(a ,a ,.,a | c )=P(a | c )mi(2)(2) 將將(2) (2) 式其代入式其代入(1)(1)式中,可得到樸素貝葉斯式中,可得到樸素貝葉斯分類器,如下分類器,如下 概括地講,樸素貝葉斯學(xué)習(xí)方法

6、需求估計(jì)不同的概括地講,樸素貝葉斯學(xué)習(xí)方法需求估計(jì)不同的P(cj)P(cj)和和P(ai|cj)P(ai|cj)項(xiàng),也就是它們?cè)谟?xùn)練數(shù)據(jù)上的頻率。然后運(yùn)用公式項(xiàng),也就是它們?cè)谟?xùn)練數(shù)據(jù)上的頻率。然后運(yùn)用公式(3)(3)來(lái)分類新實(shí)例。來(lái)分類新實(shí)例。ijP (a | c )1mi CNB=argmax CNB=argmax P(cj)P(cj)jcC3 3 其中其中CNBCNB表示樸素貝葉斯分類器輸出的目的值。留意表示樸素貝葉斯分類器輸出的目的值。留意在樸素貝葉斯分類器中,須從訓(xùn)練數(shù)據(jù)中估計(jì)的不同在樸素貝葉斯分類器中,須從訓(xùn)練數(shù)據(jù)中估計(jì)的不同P(ai|cj)P(ai|cj)項(xiàng)的數(shù)量只是不同的屬性值數(shù)

7、量乘以不同目的項(xiàng)的數(shù)量只是不同的屬性值數(shù)量乘以不同目的值數(shù)量值數(shù)量這比要估計(jì)這比要估計(jì)P(a1,a2am|cj)P(a1,a2am|cj)項(xiàng)所需的量小得項(xiàng)所需的量小得多多|() |jjcP cD|(|)|iijijjAaCcP acCc目的概念目的概念PlayTennisPlayTennis的訓(xùn)練樣例的訓(xùn)練樣例 DayOutlookTemperatureHumidityWindPlayTennisD1SunnyHotHighWeakNoD2SunnyHotHighStrongNoD3OvercastHotHighWeakYesD4RainMildHighWeakYesD5RainCoolNor

8、malWeakYesD6RainCoolNormalStrongNoD7OvercastCoolNormalStrongYesD8SunnyMildHighWeakNoD9SunnyCoolNormalWeakYesD10RainMildNormalWeakYesD11SunnyMildNormalStrongYesD12OvercastMildHighStrongYesD13OvercastHotNormalWeakYesD14RainMildHighStrongNo如今假設(shè)有一個(gè)樣例如今假設(shè)有一個(gè)樣例x xx = Sunny,Hot,High,Weakx = Sunny,Hot,High,

9、Weak表表1 1 類別為類別為cjcj及在及在cjcj條件下條件下AiAi取取aiai的樣例的樣例數(shù)數(shù)OutlookTemperatureHumidityWindPlayTennisSunnyOvercastRainHotMildCoolHighNormalWeakStrong2432433663Yes93022214123No5表2 先驗(yàn)概率P(cj) 和條件概率P(ai|cj)OutlookTemperatureHumidityWindPlayTennisSunnyOvercastRainHotMildCoolHighNormalWeakStrong2/94/93/92/94/93/93

10、/96/96/93/9Yes9/143/502/52/52/51/54/51/52/53/5No5/14OutlookTemperatureHumidityWindPlayTennisSunnyOvercastRainHotMildCoolHighNormalWeakStrong2432433663Yes93022214123No5如今假設(shè)有一個(gè)樣例如今假設(shè)有一個(gè)樣例x xx = Sunny,Hot,High,Weakx = Sunny,Hot,High,Weak等于等于yes的概率的概率 P(Yes|x)= p(Yes)*p(Sunny|Yes)* p(Hot|Yes)* p(High|Ye

11、s)* p(Weak|Yes)*=9/14*2/9*2/9*3/9*6/9=0.007039等于等于No的概率的概率 P(No|x) = p(No)*p(Sunny| No)* p(Hot| No)* p(High| No)* p(Weak| No)*=5/14*3/5*2/5*4/5*2/5=0.027418 在大多數(shù)情況下,察看到的比例在大多數(shù)情況下,察看到的比例P(ai|cj)P(ai|cj)是對(duì)其真實(shí)概率的一個(gè)良好估計(jì),但當(dāng)是對(duì)其真實(shí)概率的一個(gè)良好估計(jì),但當(dāng)|Ai=aiC=cj|Ai=aiC=cj|很小時(shí)估計(jì)較差。特別是當(dāng)很小時(shí)估計(jì)較差。特別是當(dāng)|Ai=aiC=cj|Ai=aiC=cj

12、|等于等于0 0時(shí),時(shí),P(ai|cj)P(ai|cj)也等于也等于0 0,假設(shè)未來(lái)的待估樣例中,包含第假設(shè)未來(lái)的待估樣例中,包含第i i個(gè)屬性的取個(gè)屬性的取值值aiai時(shí),此概率項(xiàng)會(huì)在分類器中占統(tǒng)治位置。時(shí),此概率項(xiàng)會(huì)在分類器中占統(tǒng)治位置。 普通采用普通采用m-m-估計(jì)來(lái)處理這個(gè)問(wèn)題。估計(jì)來(lái)處理這個(gè)問(wèn)題。m-m-估計(jì)定義如下:估計(jì)定義如下:i jijnm pnm|,|ijiikjjjnAaCcnCc pi是將要確定的概率是將要確定的概率P(ai|cj)的先驗(yàn)概率,而的先驗(yàn)概率,而m是等是等效樣本大小的常量,它確定了對(duì)于察看到的數(shù)據(jù)如何衡效樣本大小的常量,它確定了對(duì)于察看到的數(shù)據(jù)如何衡量量pi

13、的作用。在短少其他信息是選擇的作用。在短少其他信息是選擇p的一種典型方法的一種典型方法是假定是假定pi =1/|Ai|。也就是將。也就是將nj個(gè)實(shí)踐察看擴(kuò)展,加上個(gè)實(shí)踐察看擴(kuò)展,加上m個(gè)按個(gè)按pi分布的虛擬樣本。分布的虛擬樣本。在本次實(shí)現(xiàn)中我們采用的不是在本次實(shí)現(xiàn)中我們采用的不是m-m-估計(jì),而是下面一種簡(jiǎn)單的估計(jì),而是下面一種簡(jiǎn)單的0 0個(gè)數(shù)個(gè)數(shù)比較法。即下面的幾條規(guī)那么。在公式比較法。即下面的幾條規(guī)那么。在公式3 3中,對(duì)每一個(gè)類別中,對(duì)每一個(gè)類別j j,統(tǒng)計(jì)統(tǒng)計(jì)P(ai|cj)=0P(ai|cj)=0的個(gè)數(shù),記為的個(gè)數(shù),記為zjzj。然后按以下。然后按以下3 3條規(guī)那么得到條規(guī)那么得到CNBCNB。1.1.假設(shè)對(duì)恣意的假設(shè)對(duì)恣意的j j,zjzj都為都為0 0,那么直接按公式,那么直接按公式3 3得到得到CNBCNB3.3.假設(shè)對(duì)恣意的假設(shè)對(duì)恣意的j j,zjzj不為不為0 0且不相等,那么取且不相等,那么取zjzj最小者對(duì)應(yīng)的類別最小者對(duì)應(yīng)的類別作為作為CNBCNB。假設(shè)。假設(shè)zjzj最小者不獨(dú)一,那么對(duì)這些最小值對(duì)應(yīng)的最小者不獨(dú)一,那么對(duì)這些最小值對(duì)應(yīng)的j j采用第采用第二條規(guī)那么進(jìn)展判別。二條規(guī)那么進(jìn)展判別。2.2.假設(shè)對(duì)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論