




已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
樸素貝葉斯,結(jié) 構(gòu),貝葉斯理論 貝葉斯分類器,=A1A2.Am,是由所有未知類別的可能樣本組成的集合; c=A1A2.AmC是由所有已知類別的樣本組成的集合。D c是訓(xùn)練樣例集合。 中的元素x表示為x = 。 c中的元素x表示為x = 。其中ai表示第i個(gè)屬性的某個(gè)取值。,描述用到的符號(hào),我們用Ai表示第i個(gè)屬性,C表示決策屬性;aik表示第i個(gè)屬性的第k個(gè)取值,cj表示第j類;加上絕對(duì)值則表示相應(yīng)的個(gè)數(shù),如|Ai|表示第i個(gè)屬性的取值個(gè)數(shù),|cj|表示第j類樣例個(gè)數(shù)。,貝葉斯定理,設(shè)x是一個(gè)類別未知的數(shù)據(jù)樣本,cj為某個(gè)類別,若數(shù)據(jù)樣本x屬于一個(gè)特定的類別cj,那么分類問(wèn)題就是決定P(cj|x),即在獲得數(shù)據(jù)樣本x時(shí),確定x的最佳分類。所謂最佳分類,一種辦法是把它定義為在給定數(shù)據(jù)集D中不同類別cj先驗(yàn)概率的條件下最可能(most probable)分類。貝葉斯理論提供了計(jì)算這種可能性的一種直接方法,更精確地講,貝葉斯法則基于假設(shè)的先驗(yàn)概率、給定假設(shè)下觀察到不同數(shù)據(jù)的概率,提供了一種計(jì)算假設(shè)概率的方法,貝葉斯公式,先驗(yàn)概率P(cj),聯(lián)合概率P(x|cj),后驗(yàn)概率P(cj|x),如果沒(méi)有這一先驗(yàn)知識(shí),那么可以簡(jiǎn)單地將每一候選類別賦予相同的先驗(yàn)概率。不過(guò)通常我們可以用樣例中屬于cj的樣例數(shù)|cj|比上總樣例數(shù)|D|來(lái) 近似,即,P(cj)代表還沒(méi)有訓(xùn)練數(shù)據(jù)前,cj擁有的初始概率。P(cj)常被稱為cj的先驗(yàn)概率(prior probability) ,它反映了我們所擁有的關(guān)于cj是正確分類機(jī)會(huì)的背景知識(shí),它應(yīng)該是獨(dú)立于樣本的。,聯(lián)合概率是指當(dāng)已知類別為cj的條件下,看到樣本x出現(xiàn)的概率。,聯(lián)合概率P(x|cj),若設(shè)x = 則P(x|cj)= P(a1,a2am| cj),后驗(yàn)概率P(cj |x),即給定數(shù)據(jù)樣本x時(shí)cj成立的概率,而這正是我們所感興趣的,P(cj|x )被稱為C的后驗(yàn)概率(posterior probability),因?yàn)樗从沉嗽诳吹綌?shù)據(jù)樣本x后cj成立的置信度,貝葉斯分類,我們現(xiàn)在計(jì)算 P(cMAP|x) = max P(cj|x) j(1,|C|),則P(cMAP|x)稱為最大后驗(yàn)概率 然后我們就把x分到cMAP類中,樸素貝葉斯分類器一,設(shè)x = ,為一個(gè)有m個(gè)屬性的樣例,= max P(a1,a2am|cj)P(cj) (1),P(cMAP|x)= max P(cj|x) j(1,|C|),= max P(cj|a1,a2am),樸素貝葉斯分類器基于一個(gè)簡(jiǎn)單的假定:在給定目標(biāo)值時(shí)屬性值之間相互條件獨(dú)立。換言之,該假定說(shuō)明給定實(shí)例的目標(biāo)值情況下,觀察到聯(lián)合的a1,a2am的概率正好是對(duì)每個(gè)單獨(dú)屬性的概率乘積,樸素貝葉斯分類器二,(2),將(2) 式其代入(1)式中,可得到樸素貝葉斯分類器,如下,樸素貝葉斯分類器三,概括地講,樸素貝葉斯學(xué)習(xí)方法需要估計(jì)不同的P(cj)和P(ai|cj)項(xiàng),也就是它們?cè)谟?xùn)練數(shù)據(jù)上的頻率。然后使用公式(3)來(lái)分類新實(shí)例。,CNB=argmax P(cj),(3),其中CNB表示樸素貝葉斯分類器輸出的目標(biāo)值。注意在樸素貝葉斯分類器中,須從訓(xùn)練數(shù)據(jù)中估計(jì)的不同P(ai|cj)項(xiàng)的數(shù)量只是不同的屬性值數(shù)量乘以不同目標(biāo)值數(shù)量這比要估計(jì)P(a1,a2am|cj)項(xiàng)所需的量小得多,舉例說(shuō)明,目標(biāo)概念PlayTennis的訓(xùn)練樣例,現(xiàn)在假設(shè)有一個(gè)樣例x x = Sunny,Hot,High,Weak,第一步統(tǒng)計(jì)個(gè)數(shù),表1 類別為cj及在cj條件下Ai取ai的樣例數(shù),估計(jì)先驗(yàn)概率和條件概率,表2 先驗(yàn)概率P(cj) 和條件概率P(ai|cj),樣例判別,現(xiàn)在假設(shè)有一個(gè)樣例x x = Sunny,Hot,High,Weak,等于yes的概率 P(Yes|x) = p(Yes)*p(Sunny|Yes)* p(Hot|Yes)* p(High|Yes)* p(Weak|Yes)* =9/14*2/9*2/9*3/9*6/9 =0.007039,等于No的概率 P(No|x) = p(No)*p(Sunny| No)* p(Hot| No)* p(High| No)* p(Weak| No)* =5/14*3/5*2/5*4/5*2/5 =0.027418,max (P(Yes|x), P(No|x) ) = P(No|x) ,所以我們把x分類為No,概率為零,在大多數(shù)情況下,觀察到的比例P(ai|cj)是對(duì)其真實(shí)概率的一個(gè)良好估計(jì),但當(dāng)|Ai=aiC=cj|很小時(shí)估計(jì)較差。特別是當(dāng)|Ai=aiC=cj|等于0時(shí),P(ai|cj)也等于0,如果將來(lái)的待估樣例中,包含第i個(gè)屬性的取值ai時(shí),此概率項(xiàng)會(huì)在分類器中占統(tǒng)治地位。,概率為零之m-估計(jì),一般采用m-估計(jì)來(lái)解決這個(gè)問(wèn)題。 m-估計(jì)定義如下:,pi是將要確定的概率P(ai|cj)的先驗(yàn)概率,而m是等效樣本大小的常量,它確定了對(duì)于觀察到的數(shù)據(jù)如何衡量pi的作用。在缺少其他信息是選擇p的一種典型方法是假定pi =1/|Ai|。也就是將nj個(gè)實(shí)際觀察擴(kuò)大,加上m個(gè)按pi分布的虛擬樣本。,概率為零之個(gè)數(shù)比較,在本次實(shí)現(xiàn)中我們采用的不是m-估計(jì),而是下面一種簡(jiǎn)單的0個(gè)數(shù)比較法。即下面的幾條規(guī)則。在公式(3)中,對(duì)每一個(gè)類別j,統(tǒng)計(jì)P(ai|cj)=0的個(gè)數(shù),記為zj。然后按以下3條規(guī)則得到CNB。,1.如果對(duì)任意的j,zj都為0,則直接按公式(3)得到CNB,3.如果對(duì)任意的j,zj不為0且不相等,則取zj最小者對(duì)應(yīng)的類別作為CNB。若zj最小者不唯一,則對(duì)這些最小值對(duì)應(yīng)的j采用第二條規(guī)則進(jìn)行判
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025茶葉銷售代理合同樣本
- 八下語(yǔ)文知識(shí)點(diǎn)經(jīng)典常談要點(diǎn)
- 《實(shí)訓(xùn)公共關(guān)系學(xué):互動(dòng)與實(shí)踐》課件
- 《南京河西策略提報(bào)》課件
- 《中國(guó)的行政區(qū)劃解析》課件
- 《探索故宮博物館》課件
- 教育部新版人教版一年級(jí)道德與法治上冊(cè)第七課《課間十分鐘》教學(xué)設(shè)計(jì)市級(jí)公開(kāi)課教案
- 《醫(yī)學(xué)影像學(xué)總論》課件
- 北師大版九年級(jí)上冊(cè)1 用樹狀圖或表格求概率表格教學(xué)設(shè)計(jì)
- 嘉應(yīng)學(xué)院《運(yùn)動(dòng)心理學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 資助感恩教育主題班會(huì)ppt課件(圖文)
- 多模態(tài)視域下北京市核心區(qū)語(yǔ)言景觀研究
- 《單軸面筋脫水機(jī)設(shè)計(jì)報(bào)告(論文)》
- 內(nèi)分泌系統(tǒng) 腎上腺 (人體解剖生理學(xué)課件)
- GPS靜態(tài)數(shù)據(jù)觀測(cè)記錄表
- 山西省城鎮(zhèn)教師支援農(nóng)村教育工作登記表
- 軟件項(xiàng)目周報(bào)模板
- 著名中醫(yī)婦科 夏桂成教授補(bǔ)腎調(diào)周法
- VSM(價(jià)值流圖中文)課件
- 考古發(fā)掘中文物的采集與保存課件
- 人工氣道的護(hù)理劉亞課件
評(píng)論
0/150
提交評(píng)論