![Python機(jī)器學(xué)習(xí)項(xiàng)目化教程(微課視頻版)課件 第3章 樸素貝葉斯分類(lèi)器_第1頁(yè)](http://file4.renrendoc.com/view12/M09/14/34/wKhkGWcd2s-ASTP8AACRlMsFSpI518.jpg)
![Python機(jī)器學(xué)習(xí)項(xiàng)目化教程(微課視頻版)課件 第3章 樸素貝葉斯分類(lèi)器_第2頁(yè)](http://file4.renrendoc.com/view12/M09/14/34/wKhkGWcd2s-ASTP8AACRlMsFSpI5182.jpg)
![Python機(jī)器學(xué)習(xí)項(xiàng)目化教程(微課視頻版)課件 第3章 樸素貝葉斯分類(lèi)器_第3頁(yè)](http://file4.renrendoc.com/view12/M09/14/34/wKhkGWcd2s-ASTP8AACRlMsFSpI5183.jpg)
![Python機(jī)器學(xué)習(xí)項(xiàng)目化教程(微課視頻版)課件 第3章 樸素貝葉斯分類(lèi)器_第4頁(yè)](http://file4.renrendoc.com/view12/M09/14/34/wKhkGWcd2s-ASTP8AACRlMsFSpI5184.jpg)
![Python機(jī)器學(xué)習(xí)項(xiàng)目化教程(微課視頻版)課件 第3章 樸素貝葉斯分類(lèi)器_第5頁(yè)](http://file4.renrendoc.com/view12/M09/14/34/wKhkGWcd2s-ASTP8AACRlMsFSpI5185.jpg)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第3章樸素貝葉斯分類(lèi)器目錄CONTENTS3.1貝葉斯分類(lèi)器理論基礎(chǔ)3.2樸素貝葉斯分類(lèi)器原理與設(shè)計(jì)3.3樸素貝葉斯分類(lèi)器算法實(shí)現(xiàn)3.4正態(tài)貝葉斯分類(lèi)器3.5貝葉斯網(wǎng)絡(luò)3.6本章小結(jié)3.1貝葉斯分類(lèi)器理論基礎(chǔ)學(xué)習(xí)基礎(chǔ)學(xué)習(xí)認(rèn)知能力信息素養(yǎng)高先驗(yàn)概率(PriorProbability):在沒(méi)有訓(xùn)練樣本數(shù)據(jù)前,根據(jù)以往經(jīng)驗(yàn)和分析得到的概率,初始時(shí)假設(shè)樣本h的初始概率,用P(h)表示。后驗(yàn)概率(PosteriorProbability):當(dāng)下事件由因及果發(fā)生的概率,求導(dǎo)致該事件發(fā)生的原因是由某個(gè)因素引起的可能性的大小。由樣本屬性x導(dǎo)致分類(lèi)為c的概率P(c|x)就稱(chēng)為后驗(yàn)概率。后驗(yàn)概率(PosteriorProbability):后驗(yàn)概率也是一種條件概率,它是根據(jù)事件結(jié)果求事件發(fā)生原因的概率。例如,上課又遲到了,這是事件的結(jié)果,而造成這個(gè)結(jié)果的原因可能是早上起床晚了,或感冒發(fā)燒需要先去看病,P(起床晚了|上課遲到)和P(感冒發(fā)燒|上課遲到)就是后驗(yàn)概率。0102033.1貝葉斯分類(lèi)器理論基礎(chǔ)學(xué)習(xí)基礎(chǔ)信息素養(yǎng)高類(lèi)條件概率(ClassConditionalProbability):當(dāng)下事件由果及因發(fā)生的概率。樣本x相對(duì)于類(lèi)標(biāo)簽c的概率,也稱(chēng)為似然,記作P(x|c)。注意區(qū)分幾個(gè)概念:(1)先驗(yàn)概率是不依賴(lài)觀測(cè)數(shù)據(jù)的概率分布,在樸素貝葉斯中,類(lèi)別的概率就是先驗(yàn)概率,記為p(c)。(2)事情已經(jīng)發(fā)生,計(jì)算這件事情發(fā)生的原因是由某個(gè)因素引起的可能性的大小,是后驗(yàn)概率。后驗(yàn)概率的計(jì)算要以先驗(yàn)概率為基礎(chǔ)。(3)“似然”描述的是在給定了特定觀測(cè)值的條件下,模型參數(shù)的合理性。通常用于建模過(guò)程中,選取合適的參數(shù)使模型更好地?cái)M合數(shù)據(jù)。043.1貝葉斯分類(lèi)器理論基礎(chǔ)如果A和B是樣本空間Ω的兩個(gè)事件,在給定A條件下B的概率為:推廣到一般形式,設(shè)A是樣本空間Ω上的事件,B是樣本空間Ω上的一個(gè)劃分,3.1貝葉斯分類(lèi)器理論基礎(chǔ)【例3-1】某地區(qū)Y病毒的感染率為0.05,在實(shí)際檢查過(guò)程中,可能會(huì)由于技術(shù)及操作等原因使病毒攜帶者未必能檢查出陽(yáng)性反應(yīng),同樣不帶病毒也可能會(huì)檢查出陽(yáng)性。假設(shè)P(陽(yáng)性|攜帶病毒)=0.98,P(陽(yáng)性|不攜帶病毒)=0.04,假設(shè)某人檢查出陽(yáng)性,他帶病毒的概率是多少?由于P(陽(yáng)性|攜帶病毒)=0.98,P(陽(yáng)性|不攜帶病毒)=0.04,則P(陰性|攜帶病毒)=0.02,P(陰性|不攜帶病毒)=0.96。根據(jù)貝葉斯公式和全概率公式,有3.1貝葉斯分類(lèi)器理論基礎(chǔ)3.1貝葉斯決策理論基礎(chǔ)
極大似然估計(jì)為了估計(jì)類(lèi)條件概率,可以先假設(shè)其服從某種確定的概率分布,再利用訓(xùn)練樣本對(duì)概率分布的參數(shù)進(jìn)行估計(jì)。這就是極大似然估計(jì)(MaximumLikelihoodEstimation,MLE)的算法思想,極大似然估計(jì)提供了一種給定觀察數(shù)據(jù)來(lái)評(píng)估模型參數(shù)的方法,即:模型已定,參數(shù)未知。通過(guò)若干次實(shí)驗(yàn),觀察其結(jié)果,利用實(shí)驗(yàn)結(jié)果得到某個(gè)參數(shù)值能夠使樣本出現(xiàn)的概率為最大,則稱(chēng)為極大似然估計(jì)。假設(shè)Tc表示訓(xùn)練集T中第c類(lèi)樣本集合,且這些樣本是獨(dú)立同分布的,則參數(shù)對(duì)于數(shù)據(jù)集Tc的似然為:3.1貝葉斯決策理論基礎(chǔ)找出參數(shù)空間中能使取最大參數(shù)值的,其實(shí)就是求解:假設(shè)樣本服從均值為、方差為的正態(tài)分布,對(duì)其求對(duì)數(shù):3.1貝葉斯決策理論基礎(chǔ)求最大似然估計(jì)量的一般步驟如下:(1)寫(xiě)出似然函數(shù)(2)對(duì)似然函數(shù)取對(duì)數(shù),并整理(3)對(duì)的相應(yīng)參數(shù)求偏導(dǎo)(4)解似然方程,得到參數(shù)的值。3.1貝葉斯定理相關(guān)概念一個(gè)單變量正態(tài)分布密度函數(shù)為:其正態(tài)分布的概率密度函數(shù)如圖所示。與μ越近的值,其概率越大,反之,其概率值越小。σ描述數(shù)據(jù)分布的離散程度,σ越大,數(shù)據(jù)分布越分散,曲線越扁平;σ越小,數(shù)據(jù)分布越集中,曲線越瘦高。3.1貝葉斯決策理論基礎(chǔ)對(duì)于多變量的正態(tài)分布,假設(shè)特征向量是服從均值向量為、協(xié)方差矩陣為的n維正態(tài)分布,其中,類(lèi)條件概率密度函數(shù)為:3.2樸素貝葉斯分類(lèi)器原理與設(shè)計(jì)西瓜數(shù)據(jù)集如表3-1所示。3.2樸素貝葉斯分類(lèi)器原理與設(shè)計(jì)假設(shè)我們要判斷第3條西瓜數(shù)據(jù)是否為好瓜,即:根據(jù)表3-1的西瓜數(shù)據(jù)集,有好瓜和壞瓜的先驗(yàn)概率:假設(shè)各特征是相互獨(dú)立的,則有3.2樸素貝葉斯分類(lèi)器原理與設(shè)計(jì)dataTrain=np.array(dataTrain)y=dataTrain[:,-1]good=np.sum(y=='好瓜') #好瓜的數(shù)量bad=np.sum(y=='壞瓜') #壞瓜的數(shù)量#好瓜和壞瓜的先驗(yàn)概率prior_good=good/len(y)prior_bad=bad/len(y)3.2樸素貝葉斯分類(lèi)器原理與設(shè)計(jì)3.2樸素貝葉斯分類(lèi)器原理與設(shè)計(jì)顏色概率0.3750.333敲聲概率0.750.444紋路概率0.8750.222顏色概率0.50.222敲聲概率0.250.333紋路概率0.8750.222顏色概率0.50.222敲聲概率0.750.444紋路概率0.8750.222準(zhǔn)確率88.24%3.2樸素貝葉斯分類(lèi)器原理與設(shè)計(jì)為了解決零概率的問(wèn)題,法國(guó)數(shù)學(xué)家拉普拉斯最早提出用加1的方法估計(jì)沒(méi)有出現(xiàn)過(guò)的現(xiàn)象的概率,因此這種平滑(Smoothing)方法也稱(chēng)為拉普拉斯平滑(LaplacianSmoothing)。引入拉普拉斯平滑技術(shù)后,修正后的類(lèi)先驗(yàn)概率和類(lèi)條件概率可表示為:樸素貝葉斯分類(lèi)器的優(yōu)點(diǎn):(1)對(duì)小規(guī)模數(shù)據(jù)表現(xiàn)很好,能處理多分類(lèi)任務(wù);(2)算法比較簡(jiǎn)單,常用于文本分類(lèi);(3)有穩(wěn)定的分類(lèi)效率,對(duì)缺失數(shù)據(jù)不太敏感;(4)適合增量式訓(xùn)練,當(dāng)數(shù)據(jù)量超出內(nèi)存時(shí),可一批一批讀取數(shù)據(jù)進(jìn)行增量訓(xùn)練。3.3樸素貝葉斯分類(lèi)器算法實(shí)現(xiàn)從fish.xlsx文件中讀取鱸魚(yú)和三文魚(yú)的長(zhǎng)度、亮度數(shù)據(jù),其中,前n/2條數(shù)據(jù)為鱸魚(yú),后n/2為三文魚(yú),分別從鱸魚(yú)和三文魚(yú)數(shù)據(jù)中隨機(jī)取出50%作為訓(xùn)練集,其余的50%作為測(cè)試集。13.3樸素貝葉斯分類(lèi)器算法實(shí)現(xiàn)2生成三文魚(yú)和鱸魚(yú)的概率密度。根據(jù)生成長(zhǎng)度和亮度數(shù)據(jù),利用均值和方差公式直接計(jì)算長(zhǎng)度和亮度特征的均值和方差。3.3樸素貝葉斯分類(lèi)器算法實(shí)現(xiàn)3計(jì)算三文魚(yú)和鱸魚(yú)的后驗(yàn)概率。根據(jù)得到三文魚(yú)和鱸魚(yú)的長(zhǎng)度、亮度特征類(lèi)條件概率,利用樸素貝葉斯公式計(jì)算出它們的后驗(yàn)概率。3.3樸素貝葉斯分類(lèi)器算法實(shí)現(xiàn)計(jì)算分類(lèi)正確率。#假設(shè)長(zhǎng)度和亮度是互相完全獨(dú)立的,根據(jù)樸素貝葉斯公式和聯(lián)合概率密度公式計(jì)算出鱸魚(yú)和三文魚(yú)的類(lèi)條件概率,計(jì)算分類(lèi)的正確率和錯(cuò)誤率count1=0count2=0foriinrange(n//4):#長(zhǎng)度特征post_length_pred1=stats.norm(perch_Mean_Length,perch_Variance_Length).pdf(perch_test[i,0])#將鱸魚(yú)分為鱸魚(yú)post_length_pred2=stats.norm(salmon_Mean_Length,salmon_Variance_Length).pdf(perch_test[i,0])#將鱸魚(yú)分為三文魚(yú)
precision_salmon:1.0precision_perch:0.834precision_bayes:0.91743.4正態(tài)貝葉斯分類(lèi)器假設(shè)樣本的特征向量服從正態(tài)分布,則這樣的貝葉斯分類(lèi)器就稱(chēng)為正態(tài)貝葉斯分類(lèi)器或高斯貝葉斯分類(lèi)器。更一般地,樣本的特征并不是相互獨(dú)立的。根據(jù)分類(lèi)判決規(guī)則,在預(yù)測(cè)時(shí)需要尋找具有最大條件概率值的那個(gè)類(lèi),即最大化后驗(yàn)概率,等價(jià)于求每個(gè)類(lèi)中最大的那個(gè)。對(duì)取對(duì)數(shù),公式為:3.5貝葉斯網(wǎng)絡(luò)貝葉斯網(wǎng)絡(luò)(BayesianNetwork),又稱(chēng)信念網(wǎng)絡(luò)(BeliefNetwork),是一種概率圖模型(ProbabilisticGraphicalModel,PGD),它是一種模擬人類(lèi)推理過(guò)程中因果關(guān)系的不確定性處理模型,可通過(guò)有向無(wú)環(huán)圖(DirectedAcyclicGraph,DAG)來(lái)表示。3.5貝葉斯網(wǎng)絡(luò)假設(shè):隨機(jī)變量w(weather):天氣隨機(jī)變量m(mood):心情隨機(jī)變量p(play):打羽毛球隨機(jī)變量r(restaurant):下餐館吃飯隨機(jī)變量f(film):看電影變量S對(duì)變量L和變量E有因果影響,而變量C對(duì)變量E也有因果影響。3.5貝葉斯網(wǎng)絡(luò)
#驗(yàn)證模型:檢查網(wǎng)絡(luò)結(jié)構(gòu)和CPD,并驗(yàn)證CPD是否正確定義和總和為1model.check_model()#獲取結(jié)點(diǎn)“w(天氣情況)”的概率表:
print(model.get_cpds("w"))#獲取整個(gè)貝葉斯網(wǎng)絡(luò)的局部依賴(lài):print(model.local_independencies(['p','r','f']))#推測(cè)“f(是否看電影)”的節(jié)點(diǎn)概率,在pgmpy中我們只需要省略額外參數(shù)即可計(jì)算出條件分布概率
infer=VariableElimination(model)print(infer.query(['f'],evidence={'p':1,'p':0}))#變量消除法是精確推斷的一種方法
asia_infer=VariableElimination(model)q=asia_infer.query(variables=['r'],evidence={'p':0})print(q)q=asia_infer.qu
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 吉林外國(guó)語(yǔ)大學(xué)《金融風(fēng)險(xiǎn)管理》2023-2024學(xué)年第二學(xué)期期末試卷
- 福建對(duì)外經(jīng)濟(jì)貿(mào)易職業(yè)技術(shù)學(xué)院《生物藥劑學(xué)與藥物動(dòng)力學(xué)實(shí)驗(yàn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 蘭州資源環(huán)境職業(yè)技術(shù)大學(xué)《化學(xué)課程標(biāo)準(zhǔn)與教材研究》2023-2024學(xué)年第二學(xué)期期末試卷
- 廣東環(huán)境保護(hù)工程職業(yè)學(xué)院《果樹(shù)栽培學(xué)各論》2023-2024學(xué)年第二學(xué)期期末試卷
- 珠海格力職業(yè)學(xué)院《汽輪機(jī)原理及設(shè)備》2023-2024學(xué)年第二學(xué)期期末試卷
- 江西陶瓷工藝美術(shù)職業(yè)技術(shù)學(xué)院《基礎(chǔ)工程道橋》2023-2024學(xué)年第二學(xué)期期末試卷
- 云南國(guó)防工業(yè)職業(yè)技術(shù)學(xué)院《運(yùn)營(yíng)管理前沿S1》2023-2024學(xué)年第二學(xué)期期末試卷
- 沈陽(yáng)師范大學(xué)《臨床藥理學(xué)B》2023-2024學(xué)年第二學(xué)期期末試卷
- 浙江舟山群島新區(qū)旅游與健康職業(yè)學(xué)院《畫(huà)法幾何與土木工程制圖》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年度金融衍生品財(cái)務(wù)擔(dān)保合同賬務(wù)風(fēng)險(xiǎn)控制協(xié)議
- 商業(yè)銀行的風(fēng)險(xiǎn)審計(jì)與內(nèi)部控制
- 2024項(xiàng)目管理人員安全培訓(xùn)考試題及參考答案AB卷
- 2025年與商場(chǎng)合作協(xié)議樣本(5篇)
- 2025年安徽碳鑫科技有限公司招聘筆試參考題庫(kù)含答案解析
- 2025年寒假實(shí)踐特色作業(yè)設(shè)計(jì)模板
- 2024年福建漳州人才發(fā)展集團(tuán)有限公司招聘筆試參考題庫(kù)附帶答案詳解
- JTGT F20-2015 公路路面基層施工技術(shù)細(xì)則
- 六年級(jí)上第二單元知識(shí)結(jié)構(gòu)圖
- 溢流堰穩(wěn)定計(jì)算
- 馬曉宏_《法語(yǔ)》_第一冊(cè)復(fù)習(xí)(課堂PPT)
- 道路環(huán)衛(wèi)清掃保潔項(xiàng)目應(yīng)急處置預(yù)案
評(píng)論
0/150
提交評(píng)論