版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
樸素貝葉斯模型2017-06-09分類模型最為廣泛的兩種分類模型是決策樹模型(DecisionTreeModel)和樸素貝葉斯模型(NaiveBayesianModel,NBM)樸素貝葉斯模型樸素貝葉斯法是基于貝葉斯定理與特征條件獨立假設(shè)的分類方法生活中很多場合需要用到分類,比如新聞分類、病人分類等等。詳細(xì)內(nèi)容分類是將一個未知樣本分到幾個預(yù)先已知類的過程。數(shù)據(jù)分類問題的解決是一個兩步過程:第一步,建立一個模型,描述預(yù)先的數(shù)據(jù)集或概念集。通過分析由屬性描述的樣本(或?qū)嵗瑢ο蟮龋﹣順?gòu)造模型。假定每一個樣本都有一個預(yù)先定義的類,由一個被稱為類標(biāo)簽的屬性確定。為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練數(shù)據(jù)集,該步也稱作有指導(dǎo)的學(xué)習(xí)。在眾多的分類模型中,應(yīng)用最為廣泛的兩種分類模型是決策樹模型(DecisionTreeModel)和樸素貝葉斯模型(NaiveBayesianModel,NBC)。決策樹模型通過構(gòu)造樹來解決分類問題。首先利用訓(xùn)練數(shù)據(jù)集來構(gòu)造一棵決策樹,一旦樹建立起來,它就可為未知樣本產(chǎn)生一個分類。在分類問題中使用決策樹模型有很多的優(yōu)點,決策樹便于使用,而且高效;根據(jù)決策樹可以很容易地構(gòu)造出規(guī)則,而規(guī)則通常易于解釋和理解;決策樹可很好地擴展到大型數(shù)據(jù)庫中,同時它的大小獨立于數(shù)據(jù)庫的大??;決策樹模型的另外一大優(yōu)點就是可以對有許多屬性的數(shù)據(jù)集構(gòu)造決策樹。決策樹模型也有一些缺點,比如處理缺失數(shù)據(jù)時的困難,過度擬合問題的出現(xiàn),以及忽略數(shù)據(jù)集中屬性之間的相關(guān)性等。和決策樹模型相比,樸素貝葉斯分類器(NaiveBayesClassifier,或NBC)發(fā)源于古典數(shù)學(xué)理論,有著堅實的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率。同時,NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此,這是因為NBC模型假設(shè)屬性之間相互獨立,這個假設(shè)在實際應(yīng)用中往往是不成立的,這給NBC模型的正確分類帶來了一定影響。解決這個問題的方法一般是建立一個屬性模型,對于不相互獨立的屬性,把他們單獨處理。例如中文文本分類識別的時候,我們可以建立一個字典來處理一些詞組。如果發(fā)現(xiàn)特定的問題中存在特殊的模式屬性,那么就單獨處理。這樣做也符合貝葉斯概率原理,因為我們把一個詞組看作一個單獨的模式,例如英文文本處理一些長度不等的單詞,也都作為單獨獨立的模式進行處理,這是自然語言與其他分類識別問題的不同點。實際計算先驗概率時候,因為這些模式都是作為概率被程序計算,而不是自然語言被人來理解,所以結(jié)果是一樣的。在屬性個數(shù)比較多或者屬性之間相關(guān)性較大時,NBC模型的分類效率比不上決策樹模型。但這點有待驗證,因為具體的問題不同,算法得出的結(jié)果不同,同一個算法對于同一個問題,只要模式發(fā)生變化,也存在不同的識別性能。這點在很多國外論文中已經(jīng)得到公認(rèn),在機器學(xué)習(xí)一書中也提到過算法對于屬性的識別情況決定于很多因素,例如訓(xùn)練樣本和測試樣本的比例影響算法的性能。決策樹對于文本分類識別,要看具體情況。在屬性相關(guān)性較小時,NBC模型的性能稍微良好。屬性相關(guān)性較小的時候,其他的算法性能也很好,這是由于信息熵理論決定的。癥狀職業(yè)疾病打噴嚏護士感冒
打噴嚏農(nóng)夫過敏
頭痛建筑工人腦震蕩
頭痛建筑工人感冒
打噴嚏教師感冒
頭痛教師腦震蕩現(xiàn)在又來了第七個病人,是一個打噴嚏的建筑工人。請問他患上感冒的概率有多大?某個醫(yī)院早上收了六個門診病人,如下表。根據(jù)貝葉斯定理:
P(A|B)=P(B|A)P(A)/P(B)P(感冒|打噴嚏x建筑工人)
=P(打噴嚏x建筑工人|感冒)xP(感冒)
/P(打噴嚏x建筑工人)假定"打噴嚏"和"建筑工人"這兩個特征是獨立的P(感冒|打噴嚏x建筑工人)
=P(打噴嚏|感冒)xP(建筑工人|感冒)xP(感冒)
/P(打噴嚏)xP(建筑工人)P(感冒|打噴嚏x建筑工人)
=0.66x0.33x0.5/0.5x0.33
=0.66賬號分類的例子根據(jù)某社區(qū)網(wǎng)站的抽樣統(tǒng)計,該站10000個賬號中有89%為真實賬號(設(shè)為C0),11%為虛假賬號(設(shè)為C1)。C0=0.89,C1=0.11用統(tǒng)計資料判斷一個賬號的真實性F1:日志數(shù)量/注冊天數(shù)
F2:好友數(shù)量/注冊天數(shù)
F3:是否使用真實頭像(真實頭像為1,非真實頭像為0)F1=0.1
,F2=0.2
,F3=0請問該賬號是真實賬號還是虛假賬號?方法是使用樸素貝葉斯分類器,計算下面這個計算式的值。P(F1|C)P(F2|C)P(F3|C)P(C)
性別分類的例子下面是一組人類身體特征的統(tǒng)計資料已知某人身高6英尺、體重130磅,腳掌8英寸,請問該人是男是女?根據(jù)樸素貝葉斯分類器,計算下面這個式子的值。P(身高|性別)xP(體重|性別)xP(腳掌|性別)xP(性別)這里的困難在于,由于身高、體重、腳掌都是連續(xù)變量,不能采用離散變量的方法計算概率。而且由于樣本太少,所以也無法分成區(qū)間計算。怎么辦?性別身高(英尺)體重(磅)腳掌(英寸)男6
180
12
男5.92
190
11
男5.58
170
12
男5.92
165
10
女5
100
6
女5.5
150
8
女5.42
130
7
女5.75
150
9Appendix
決策樹(decisiontree)一般都是自上而下的來生成的。每個決策或事件(即自然狀態(tài))都可能引出兩個或多個事件,導(dǎo)致不同的結(jié)果,把這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。決策樹的構(gòu)成有四個要素:(1)決策結(jié)點;(2)方案枝;(3)狀態(tài)結(jié)點;(4)概率枝。如圖所示:決策樹的適用范圍科學(xué)的決策是現(xiàn)代管理者的一項重要職責(zé)。我們在企業(yè)管理實踐中,常遇到的情景是:若干個可行性方案制訂出來了,分析一下企業(yè)內(nèi)、外部環(huán)境,大部分條件是己知的,但還存在一定的不確定因素。每個方案的執(zhí)行都可能出現(xiàn)幾種結(jié)果,各種結(jié)果的出現(xiàn)有一定的概率,企業(yè)決策存在著一定的勝算,也存在著一定的風(fēng)險。這時,決策的標(biāo)準(zhǔn)只能是期望值。即,各種狀態(tài)下的加權(quán)平均值。針對上述問題,用決策樹法來解決不失為一種好的選擇。決策樹法作為一種決策技術(shù),已被廣泛地應(yīng)用于企業(yè)的投資決策之中,它是隨機決策模型中最常見、最普及的一種規(guī)策模式和方法此方法,有效地控制了決策帶來的風(fēng)險。所謂決策樹法,就是運用樹狀圖表示各決策的期望值,通過計算,最終優(yōu)選出效益最大、成本最小的決策方法。決策樹法屬于風(fēng)險型決策方法,不同于確定型決策方法,二者適用的條件也不同。應(yīng)用決策樹決策方法必須具備以下條件:①具有決策者期望達(dá)到的明確目標(biāo);②存在決策者可以選擇的兩個以上的可行備選方案;⑧存在著決策者無法控制的兩種以上的自然狀態(tài)(如氣候變化、市場行情、經(jīng)濟發(fā)展動向等);④不同行動方案在不同自然狀態(tài)下的收益值或損失值(簡稱損益值)可以計算出來;⑤決策者能估計出不同的自然狀態(tài)發(fā)生概率決策樹的應(yīng)用前景決策樹法具有許多優(yōu)點:條理清晰,程序嚴(yán)謹(jǐn),定量、定性分析相結(jié)合,方法簡單,易于掌握,應(yīng)用性強,適用范圍廣等。人們逐漸認(rèn)識到,在投資方案比較選擇時考慮時間因素,建立時間可比原則和條件的重要性。當(dāng)今的社會經(jīng)濟活動中,競爭日趨激烈,現(xiàn)代企業(yè)的經(jīng)營方向面臨著許多可供選擇的方案
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版羅馬柱裝飾工程總承包合同4篇
- 二零二五版在建工程抵押擔(dān)保合同模板3篇
- 2025版?zhèn)€人汽車轉(zhuǎn)讓及二手車交易平臺合作與售后服務(wù)合同4篇
- 2025年度落水管施工工程保險與理賠合同4篇
- 二零二五年度健康醫(yī)療大數(shù)據(jù)安全保障合作協(xié)議4篇
- 二零二五版股權(quán)回購項目擔(dān)保及投資決策合同3篇
- 2025年食用菌種植基地與銷售渠道聯(lián)盟合同2篇
- 二零二五年度廣告公司廣告活動策劃合同3篇
- 2025年高速公路車輛運輸通行費結(jié)算協(xié)議范本4篇
- 2024版消防系統(tǒng)維保合同范本
- 勞務(wù)協(xié)議范本模板
- 人教版(2024)數(shù)學(xué)七年級上冊期末測試卷(含答案)
- 2024年國家保密培訓(xùn)
- 2024年公務(wù)員職務(wù)任命書3篇
- CFM56-3發(fā)動機構(gòu)造課件
- 會議讀書交流分享匯報課件-《殺死一只知更鳥》
- 2025屆撫州市高一上數(shù)學(xué)期末綜合測試試題含解析
- 公司印章管理登記使用臺賬表
- 磚廠承包合同簽訂轉(zhuǎn)讓合同
- 思政課國內(nèi)外研究現(xiàn)狀分析
- 2023年公務(wù)員多省聯(lián)考《申論》題(廣西B卷)
評論
0/150
提交評論