下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)專心-專注-專業(yè)精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)實驗二 樸素貝葉斯分類一、實驗?zāi)康耐ㄟ^實驗,加深對統(tǒng)計判決與概率密度估計基本思想、方法的認(rèn)識,了解影響B(tài)ayes分類器性能的因素,掌握基于Bayes決策理論的隨機(jī)模式分類的原理和方法。二、實驗內(nèi)容設(shè)計Bayes決策理論的隨機(jī)模式分類器,用matlab實現(xiàn)。三、方法手段Bayes分類器的基本思想是依據(jù)類的概率、概密,按照某種準(zhǔn)則使分類結(jié)果從統(tǒng)計上講是最佳的。換言之,根據(jù)類的概率、概密將模式空間劃分成若干個子空間,在此基礎(chǔ)上形成模式分類的判決規(guī)則。準(zhǔn)則函數(shù)不同,所導(dǎo)出的判決
2、規(guī)則就不同,分類結(jié)果也不同。使用哪種準(zhǔn)則或方法應(yīng)根據(jù)具體問題來確定。四、Bayes算法樸素貝葉斯分類或簡單貝葉斯分類的工作過程如下:(1)每個數(shù)據(jù)樣本用一個n維特征向量表示,分別描述對n個屬性A1,A2,An樣本的n個度量。(2)假定有m個類C1,C2,Cm。給定一個未知的數(shù)據(jù)樣本X(即沒有類標(biāo)號),分類法將預(yù)測X屬于具有最高后驗概率(條件X下)的類。即是說,樸素貝葉斯分類將未知的樣本分配給類Ci,當(dāng)且僅當(dāng) (2.1)這樣,最大化。其最大的類Ci稱為最大后驗假定。根據(jù)貝葉斯定理, (2.2)(3)由于P(X)對于所有類為常數(shù),只需要最大即可。如果類的先驗概率未知,則通常假定這些類是等概率的,即
3、P(C1)=P(C2)=P(Cm)。并據(jù)此只對最大化。否則,最大化。注意,類的先驗概率可以用計算其中si是類Ci中的訓(xùn)練樣本數(shù),而s是訓(xùn)練樣本總數(shù)。(4)給定具有許多屬性的數(shù)據(jù)集,計算的開銷可能非常大。為降低計算的開銷,可以做類條件獨(dú)立的樸素假定。給定樣本的類標(biāo)號,假定屬性值相互條件獨(dú)立,即在屬性間,不存在依賴關(guān)系。這樣, (2.3)概率,可以由訓(xùn)練樣本估值,其中1)如果Ak是分類屬性,則,其中sik是在屬性Ak上具有值xk的類Ci的樣本數(shù),而si是Ci中的訓(xùn)練樣本數(shù)。2)如果Ak是連續(xù)值屬性,則通常假定該屬性服從高斯分布,因而, (2.4)其中,給定類Ci的訓(xùn)練樣本屬性Ak的值,是屬性Ak的
4、高斯密度函數(shù),而分別為平均值和標(biāo)準(zhǔn)差。(5)為對未知樣本X分類,對每個類Ci,計算。樣本X被指派到類Ci,當(dāng)且僅當(dāng)換言之,X被指派到其最大的類Ci。例 使用樸素貝葉斯分類預(yù)測類標(biāo)號:RIDAgeIncomeStudentCredit_ratingClass:buys_computer1=30HighNoFairNo240MediumNoFairYes540LowYesFairYes640LowYesExcellentNo73140LowYesExcellentYes8=30MediumNoFairNo940MediumYesFairYes1140MediumNoExcellentNo給定與判定
5、樹歸納相同的訓(xùn)練數(shù)據(jù),我們希望使用樸素貝葉斯分類預(yù)測一個未知樣本的類標(biāo)號。訓(xùn)練數(shù)據(jù)在表7.1中。數(shù)據(jù)樣本用屬性age,income,student和credit_rating描述。類標(biāo)號屬性buys_computer具有兩個不同值(即(yes,no)。設(shè)C1對應(yīng)于類buys_computer=“yes”,而C2對應(yīng)于類buys_computer=“no”。我們希望分類的樣本為我們需要最大化,i=1,2。每個類的先驗概率P(Ci)可以根據(jù)訓(xùn)練樣本計算:P(buys_computer=”yes”)=9/14=0.643P(buys_computer=”no”)=5/14=0.357為計算,i=1,
6、2,我們計算下面的條件概率:P(age=”30”|buys_computer=”yes”) =2/9=0.222P(age=”30”|buys_computer=”no”) =3/5=0.222P(income=”medium”|buys_computer=”yes”) =4/9=0.444P(income=”medium”|buys_computer=”no”) =2/5=0.400P(student=”yes”|buys_computer=”yes”) =6/9=0.667P(student=”yes”|buys_computer=”no”) =1/5=0.200P(credit_rati
7、ng=”fair”|buys_computer=”yes”) =6/9=0.667P(credit_rating=”fair”|buys_computer=”no”) =2/5=0.400使用以上概率,我們得到:P(X|buys_computer=”yes”)=0.2220.4440.6670.667=0.044P(X|buys_computer=”no”)=0.6000.4000.2000.400=0.019P(X|buys_computer=”yes”)P(buys_computer=”yes”)=0.0440.643=0.028P(X|buys_computer=”no”)P(buys_
8、computer=”no”)=0.0190.357=0.007因此,對于樣本X,樸素貝葉斯分類預(yù)測buys_computer=”yes”。五、實驗結(jié)果訓(xùn)練數(shù)據(jù)train1.txt內(nèi)容及格式如下:需要分類的數(shù)據(jù)(預(yù)測數(shù)據(jù))predict1.txt如下:程序執(zhí)行結(jié)果如下:六、實驗總結(jié)貝葉斯分類的效率如何?理論上講,與其它所有分類算法相比較,貝葉斯分類具有最小的出錯率。然而,實踐中并非總是如此。這是由于對其應(yīng)用的假定(如類條件獨(dú)立性)的不準(zhǔn)確性,以及缺乏可用的概率數(shù)據(jù)造成的。然而種種實驗研究表明,與決策樹和神經(jīng)網(wǎng)絡(luò)分類算法相比,在某些領(lǐng)域,該分類算法可以與之媲美。貝葉斯分類還可以用來為不直接使用貝葉
9、斯定理的其他分類算法提供理論判定。例如,在某種假定下,可以證明正如樸素貝葉斯分類一樣,許多神經(jīng)網(wǎng)絡(luò)和曲線擬合算法輸出最大的后驗假定。七、Batyes程序function out=my_bayes(X,Y)%X為原數(shù)據(jù)集,Y是要預(yù)測的數(shù)據(jù),out是返回預(yù)測的結(jié)果%打開test.txt文件clc;file = textread(train1.txt,%s,delimiter,n,whitespace,);m,n=size(file);for i=1:m words=strread(filei,%s,delimiter, ); words=words; Xi=words;endX=X;%轉(zhuǎn)置%打開p
10、redict.txt文件file = textread(predict1.txt,%s,delimiter,n,whitespace,);m,n=size(file);for i=1:m words=strread(filei,%s,delimiter, ); words=words; Yi=words;endY=Y;%轉(zhuǎn)置%訓(xùn)練部分M,N=size(X);m,n=size(X1);decision=attribute(X,n); %提取決策屬性Pro=probality(decision);%計算決策屬性個分量概率for i=1:n-1 post_proi,post_namei=post_p
11、rob(attribute(X,i),decision); %求各條件屬性后驗概率end%預(yù)測部分uniq_decis=unique(decision); %求決策屬性的類別P_X=ones(size(uniq_decis,1),1); %初始化決策屬性后驗概率M,N=size(Y);k=1;for i=1:M for j=1:n-1 temp,loc=ismember(attribute(Yi,j),unique(attribute(X,j);%決策屬性計算后驗概率 P_X=post_proj(:,loc).*P_X;%各條件屬性后驗概率之積(貝葉斯公式) end MAX,I=max(P_X
12、);%尋找最大值 outk=uniq_decisI;%哪一類決策屬性后驗概率最大,則次樣本屬于那一類 k=k+1; P_X=ones(size(uniq_decis,1),1);%再次初始化決策屬性后驗概率P_X,以便為下一樣本計算作準(zhǔn)備endout=out; %輸出結(jié)果(轉(zhuǎn)置形式)%各子程序function y=attribute(X,n)%功能為提取出原數(shù)據(jù)集X中的第n個屬性所對應(yīng)的一列值M,N=size(X);for i=1:M tempi=Xin; %將指定列值以temp暫量保存endy=temp;%轉(zhuǎn)置%function post_pro,post_name=post_prob(E,
13、D)%E為目標(biāo)屬性,D為決策屬性,post_pro計算目標(biāo)屬性對應(yīng)于決策屬性的后驗概率%post_name為所求的后驗概率變量名稱M,N=size(D);decision=unique(D);%決策屬性種類attri=unique(E); %條件屬性種類m1,n1=size(decision);m2,n2=size(attri);temp=cat(2,E,D); %連接條件屬性和決策屬性post_pro=zeros(m1,m2); %后驗概率初始化for i=1:M for j=1:m2 for k=1:m1 post_namek,j=cat(2,attrij,decisionk); if(isequal(temp(i,:),post_namek,j) post_pro(k,j)=post_pro(k,j)+1; %條件屬性后驗概率(頻數(shù)) end end endendfor i=1:m1 post_pro(i,:)=post_pro(i,:)/sum(post_pro(i,:);%求得條件屬
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年清潔發(fā)展機(jī)制(CDM)市場調(diào)查研究及投資戰(zhàn)略咨詢報告
- 2024全新協(xié)議離婚公證下載與婚姻法律咨詢合同9篇
- 2025版特種車輛包船運(yùn)輸及道路救援合同參考模板2篇
- 二零二五年學(xué)生營養(yǎng)餐營養(yǎng)搭配與配送服務(wù)合同3篇
- 2024版全新冷庫建設(shè)合同協(xié)議下載
- 2024-2030年中國研磨膏行業(yè)市場發(fā)展監(jiān)測及投資方向研究報告
- 2025年中國祛斑淡斑產(chǎn)品市場評估分析及發(fā)展前景調(diào)研戰(zhàn)略研究報告
- 2025年中國連鎖網(wǎng)吧市場競爭格局分析及投資方向研究報告
- 2024年度大型活動場地租賃合同范本6篇
- 二零二五年度個人消費(fèi)貸款展期協(xié)議合同范本3篇
- 廣東省廣州市海珠區(qū)2023-2024學(xué)年六年級上學(xué)期月考英語試卷
- 消防水域救援個人防護(hù)裝備試驗 大綱
- 機(jī)電樣板施工主要技術(shù)方案
- 涉稅風(fēng)險管理方案
- 青島市2022-2023學(xué)年七年級上學(xué)期期末道德與法治試題
- 高空作業(yè)安全免責(zé)協(xié)議書范本
- 石油化學(xué)智慧樹知到期末考試答案章節(jié)答案2024年中國石油大學(xué)(華東)
- 手術(shù)后如何防止排尿困難
- 特種設(shè)備“日管控、周排查、月調(diào)度”表格
- 重點關(guān)愛學(xué)生幫扶活動記錄表
- 2021年10月自考00850廣告設(shè)計基礎(chǔ)試題及答案含解析
評論
0/150
提交評論