貝葉斯公式的經(jīng)驗(yàn)之談_第1頁
貝葉斯公式的經(jīng)驗(yàn)之談_第2頁
貝葉斯公式的經(jīng)驗(yàn)之談_第3頁
貝葉斯公式的經(jīng)驗(yàn)之談_第4頁
貝葉斯公式的經(jīng)驗(yàn)之談_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、貝葉斯公式的經(jīng)驗(yàn)之談綜述 在日常生活中,我們會遇到許多由因求果的問題,也會遇到許多由果溯因的問題。比如某種傳染疾病已經(jīng)出現(xiàn)尋找傳染源;機(jī)械發(fā)生了故障,尋找故障源就是典型的南果溯因問題等。在一定條件下,這類由果溯因問題可通過貝葉斯公式來求解。以下從幾個的例子來說明貝葉斯公式的應(yīng)用。 文【1】主要應(yīng)用貝葉斯公式的簡單情形,從“疾病診斷”,“說謊了嗎”,“企業(yè)資質(zhì)評判”,“訴訟”四個方面討論其具體應(yīng)用。文【2】用市場預(yù)測的實(shí)例,介紹了貝葉斯公式在市場預(yù)測中的應(yīng)用。貝葉斯市場預(yù)測能對信息的價(jià)值是否需要采集新的信息做出科學(xué)的判斷。文【3】、文【4】介紹貝葉斯過濾技術(shù)的工作原理及技術(shù)原理,討論了郵件過濾模

2、塊,通過分析研究該模塊中垃圾郵件關(guān)鍵詞的統(tǒng)計(jì)概率分布,提出了基于貝葉斯概率模型的郵件過濾算法,并對該算法的合理性和復(fù)雜度進(jìn)行了分析。可以根據(jù)垃圾郵件內(nèi)容的特征,建立貝葉斯概率模型,計(jì)算出一封郵件是垃圾郵件的概率,從而判斷其是否為垃圾郵件。文【5】基于貝葉斯公式中概率統(tǒng)計(jì)的重要性與在日常生活中應(yīng)用的廣泛性,概述了貝葉斯統(tǒng)計(jì)的基本思想及其與其他統(tǒng)計(jì)學(xué)派的爭論,并對作為貝葉斯統(tǒng)計(jì)基石的貝葉斯公式進(jìn)行了歸納。二內(nèi)容疾病診斷. 資料顯示, 某項(xiàng)艾滋病血液檢測的靈敏度( 即真有病的人檢查為陽性) 為95%, 而對沒有得病的人,種檢測的準(zhǔn)確率( 即沒有病的人檢查為陰性) 為99%. 美國是一個艾滋病比較流行

3、的國家, 估計(jì)大約有千分之一的人患有這種病. 為了能有效地控制、減緩艾滋病的傳播, 幾年前有人建議對申請新婚登記的新婚夫婦進(jìn)行這種血液檢查. 該計(jì)劃提出后, 征詢專家意見, 遭到專家的強(qiáng)烈反對, 計(jì)劃沒有被通過. 我們用貝葉斯公式分析專家為何反對通過這項(xiàng)計(jì)劃. 設(shè)A= 檢查為陽性, B = 一個人患有艾滋病。據(jù)文中敘述可知:由公式: 得: 由公式: 得:也就是說, 被檢測患有艾滋病而此人確實(shí)患有該病的概率大約為0. 087. 這個結(jié)果使人難以接受, 好像與實(shí)際不符. 從資料顯示來看, 這種檢測的精確性似乎很高. 因此, 一般人可能猜測, 如果一個人檢測為陽性, 他患有艾滋病的可能性很大, 估計(jì)

4、應(yīng)在90% 左右, 然而計(jì)算結(jié)果卻僅為8. 7%. 如果通過這項(xiàng)計(jì)劃, 勢必給申請登記的新婚夫婦帶來不必要的恐慌. 因?yàn)榧s有91. 3%的人并沒有患艾滋病. 為什么會出現(xiàn)與直覺如此相悖的結(jié)果呢? 這是因?yàn)槿藗兒雎粤艘恍┗A(chǔ)信息, 就是患有艾滋病的概率很低, 僅為千分之一. 因此, 在檢測出呈陽性的人中大部分是沒有患艾滋病的. 具體的說, 若從該地隨機(jī)抽取1000 個居民, 則根據(jù)經(jīng)驗(yàn)概率的含義, 這1000 居民中大約有1 人患有艾滋病, 999人未換艾滋病. 檢查后, 大約有個人檢查為陽性, 而在這個群體中真正患有艾滋病卻僅有1 人. 因此有必要進(jìn)行進(jìn)一步的檢測. 但是, 我們也應(yīng)該注意到,

5、 這項(xiàng)檢測還是為我們提供了一些新的信息. 計(jì)算結(jié)果表明, 一個檢測結(jié)果呈陽性的人患有艾滋病的概率從最初的0. 001 增加到了0. 087, 這是原來患有艾滋病概率的87倍. 進(jìn)一步的計(jì)算, 我們得到一個檢查呈陰性而患有艾滋病的概率為: 因此, 通過這項(xiàng)檢測, 檢查呈陰性的人大可放寬心, 他患有艾滋病的概率已從千分之一降低到十萬分之六。訴訟. 1981 年3 月30 日, 一個大學(xué)退學(xué)學(xué)生欣克利( John Hinckley Jr. ) 企圖對里根總統(tǒng)行刺. 他打傷了里根、里根的新聞秘書以及兩個保安. 在1982 年宣判他時, 欣克利的辯護(hù)律師以精神病為理由作為其無罪的辯護(hù)。 作證的醫(yī)師告訴法

6、院當(dāng)給被診斷為精神分裂癥的人以CAT 掃描時, 掃描顯示30% 的案例為腦萎縮, 而給正常人以CAT 掃描時, 只有2%的掃描顯示腦萎縮. 欣克利的辯護(hù)律師試圖拿欣克利的CA T 掃描結(jié)果為證據(jù), 爭辯說因?yàn)樾揽死膾呙栾@示了腦萎縮, 他極有可能患有精神病, 從而應(yīng)免受到法院的起訴。 我們嘗試用貝葉斯方法對欣克利是否患有精神病做出判斷. 一般地, 在美國精神分裂癥的發(fā)病率大約為1. 5% :設(shè)A = CAT 掃描顯示腦萎縮 ; B = 做掃描的人患有精神病 . 根據(jù)上文的敘述可知,由公式: 得:由公式: 得:這意味著即使欣克利的掃描顯示了腦萎縮, 他也只有18. 6%的可能患有精神病, 因此C

7、AT 掃描無法作為其無罪的證據(jù).3. 貝葉斯公式在市場預(yù)測中的應(yīng)用(修正主觀概率). 在定性預(yù)測方法中,有一種集合意見法,就是主管人員召集營銷人員對預(yù)測對象進(jìn)行座談討論,提出方案。在集中意見時,常采用主觀概率法加以合成,求出期望值。如甲營銷人員對某種商品銷售量的估計(jì)最高為1000,最可能為800,最低為500,主持預(yù)測者將根據(jù)他平時對市場行情的了解程度和分析判斷能力,給三種估計(jì)以可能實(shí)現(xiàn)的概率。設(shè)過去十次預(yù)測中,這位營銷人員的預(yù)測期望值為: 如果我們把每次預(yù)測成功置于一定的條件下來考察(見表1),就是貝葉斯公式對原先所給的主觀概率予以修正。 表1 甲營銷人員預(yù)測效果表 表中數(shù)字為預(yù)測成功的次數(shù)

8、,成功的標(biāo)準(zhǔn)可以假定一個區(qū)間,如,實(shí)際值落入這個區(qū)間即為成功。 在進(jìn)行這一次新的預(yù)測時,已知該商品的貨源偏緊,在此信息條件下計(jì)算驗(yàn)后概率,先確定檢驗(yàn)前概率P(Bi)。即原先給的主觀概率:從過去10 次成功的預(yù)測中,最高銷售量是3 次,最可能銷售量是5 次,最低銷售量是2 次。從而可推斷P(Bi)分別為3/10、5/10、2/10 最為確切。再找條件概率P(A/Bi),這是指以三種預(yù)測結(jié)果為條件能獲信息A 的概率。由表1 可知預(yù)測最高銷售量成功三次,其中貨源偏緊的一次,即有:,預(yù)測最可能銷售量成功五次,其中貨源偏緊二次,即有:,預(yù)測最低銷售量成功二次,其中貨源偏緊一次,即有:,最后計(jì)算檢驗(yàn)后概率

9、 即在貨源偏緊的條件下,三種預(yù)測結(jié)果的可能性分為0.25,0.5,0.25,因此檢驗(yàn)后概率計(jì)算期望值為: 4. 貝葉斯過濾技術(shù).4.1、貝葉斯過濾技術(shù)的工作原理根據(jù)貝葉斯理論,根據(jù)已經(jīng)發(fā)生的時間可以預(yù)測未來事件發(fā)生的可能性。將該理論運(yùn)用到反垃圾郵件上:若已知某些字詞經(jīng)常出現(xiàn)在垃圾郵件中,卻很少出現(xiàn)在合法郵件中,當(dāng)一封郵件含有這些字詞時,那么他是垃圾郵件的可能性就很大。 = 1 * GB2 創(chuàng)建基于字詞符號的貝葉斯數(shù)據(jù)庫用戶首先需要對貝葉斯進(jìn)行培訓(xùn),即將郵件分類為垃圾郵件(用戶不想要的)和正常郵件(用戶想要的),貝葉斯將提取這些郵件樣本中主題和信體中的獨(dú)立字串,包括字詞(word)和符號(tok

10、en)(如$,IP地址,域名等),并建立相應(yīng)的數(shù)據(jù)庫。 = 2 * GB2 創(chuàng)建貝葉斯概率庫統(tǒng)計(jì)出每個字串在垃圾郵件中出現(xiàn)的概率以及在正常郵件中出現(xiàn)的概率,然后根據(jù)公式計(jì)算出郵件中含某字串則為垃圾郵件的概率。例如:在3000封垃圾郵件樣本中mortgage(抵押)出現(xiàn)了400次,而在300封正常郵件中這個詞出現(xiàn)了5次,那么其對應(yīng)的垃圾概率為0.8889(400/3000 /5/300+400/3000)。 = 3 * GB2 創(chuàng)建個性化的貝葉斯庫由于每個單位對所收到的郵件偏好是不同的,例如,某個金融類單位在正常郵件中可能經(jīng)常用到 mortgage 這個詞,如果使用靜態(tài)的關(guān)鍵詞過濾,就可能產(chǎn)生很

11、多誤判。如果采用貝葉斯過濾,在對貝葉斯進(jìn)行培訓(xùn)的時候,將該單位的合法郵件(自然,很多都包含了 mortgage 這個詞)分類為正常郵件。這樣,垃圾郵件的識別率將更高,同時也使得誤判率變得很低。貝葉斯過濾算法的主要思想是在已知的大量垃圾郵件中,郵件中包含一些特征串(token),這些特征串可以簡單的理解為一個完整的單詞,但實(shí)際上它不僅僅限于單詞,它們一般出現(xiàn)在郵件中的頻率特別高,而在一些合法郵件中,另一些特征串出現(xiàn)的頻率也很高。一般而言,對于同一個特征串出現(xiàn)在垃圾郵件和合法郵件中的概率是不同的。因此,對于出現(xiàn)的每一個特征串,都會生成一個“垃圾郵件指示性概率”(spam ratio)。所以我們就可

12、以判斷文本消息的整體“垃圾郵件概率”。在垃圾郵件的處理中,對token的定義方法有很多種,如字母、數(shù)字、破折號、撇號、美元號等,還有在收件人,發(fā)件人和主題等這些欄中出現(xiàn)的token作為相應(yīng)的標(biāo)記。根據(jù)一些劃分方法從郵件中提取標(biāo)識時,得到標(biāo)識的數(shù)量比較大時,這樣處理工作帶來了較大的計(jì)算開銷,使整個處理過程的效率下降。另外,有些標(biāo)識,例如a 、the、of 、for等,這些詞出現(xiàn)的頻率雖然很高,但它們在一封郵件中頻繁出現(xiàn)我們并不能說明這封郵件是垃圾郵件還是合法郵件。因此,必須對標(biāo)識進(jìn)行必要的細(xì)化處理,找出這些非用詞放入一個表中,保留其他的標(biāo)識為以后工作使用。4.2、貝葉斯方法過濾垃圾郵件的基本技術(shù)

13、原理 = 1 * GB2 收集大量的垃圾郵件和非垃圾郵件,建立垃圾郵件集和非垃圾郵件集。 = 2 * GB2 提取郵件主題和郵件體中的獨(dú)立字串作為TOKEN串,并統(tǒng)計(jì)提取它的TOKEN串出現(xiàn)的次數(shù),即字頻。 = 3 * GB2 每一個郵件集對應(yīng)一個哈希表,設(shè)hashtable_good對應(yīng)非垃圾郵件集而hashtable_good對應(yīng)垃圾郵件集。表中存儲TOKEN串到字頻的映射關(guān)系。 = 4 * GB2 計(jì)算每個哈希表中TOKEN串出現(xiàn)的概率P=(某TOKEN串的字頻)/(對應(yīng)哈希表的長度)。 = 5 * GB2 綜合考慮hashtable_good和hashtable_bad,推斷出當(dāng)新來的

14、郵件中出現(xiàn)某個TOKEN串時,該新郵件為垃圾郵件的概率。數(shù)學(xué)表達(dá)式為: A事件郵件為垃圾郵件;代表TOKEN串,則表示在郵件中出現(xiàn)TOKEN串時,該郵件為垃圾郵件的概率。設(shè): 則; = 6 * GB2 建立新的哈希表 hashtable_probability存儲TOKEN串到的映射。 = 7 * GB2 此時垃圾郵件集和非垃圾郵件集的學(xué)習(xí)過程結(jié)束。根據(jù)建立的hashtable_probability估計(jì)一封新到的郵件為垃圾郵件的可能性。當(dāng)新到一封郵件時,按照步驟2生成TOKEN串。查詢hashtable_probability得到該TOKEN 串的鍵值。假設(shè)由該郵件共得到N個TOKEN串,,

15、 hashtable_probability中對應(yīng)的值為,表示在郵件中同時出現(xiàn)多個TOKEN串時,該郵件為垃圾郵件的概率。由復(fù)合概率公式得:當(dāng)超過預(yù)定閾值時,就可以判斷郵件為垃圾郵件。4.3、貝葉斯過濾的優(yōu)點(diǎn) = 1 * GB2 貝葉斯過濾技術(shù)對郵件的所有內(nèi)容進(jìn)行分析,不僅僅是其中的某個關(guān)鍵詞,而且他能判別郵件是垃圾郵件還是正常郵件。例如:包含“free”“cash”“發(fā)票”字樣的郵件不一定是垃圾郵件,如果采用關(guān)鍵字過濾技術(shù),顯然難以達(dá)到理想的效果。而貝葉斯呢,即考慮了這些詞在垃圾郵件中出現(xiàn)的概率又考慮了它在正常郵件中的概率,綜合考慮這些因素才做出判斷??梢哉f,貝葉斯具有一定的智能,它對郵件中

16、的關(guān)鍵詞匯能綜合的進(jìn)行評判,可以把握“好”與“壞”之間的平衡。顯然,這種技術(shù)遠(yuǎn)遠(yuǎn)高于非1即0的靜態(tài)過濾技術(shù)。 = 2 * GB2 貝葉斯過濾技術(shù)具備自適應(yīng)功能通過學(xué)習(xí)新的垃圾郵件及正常郵件樣本,貝葉斯將能對抗最新的垃圾郵件。并且對變體字有奇效。比如,垃圾郵件發(fā)送者開始使用f-r-e-e來代替“free”這樣能夠繞過關(guān)鍵字檢查,除非f-r-e-e被加到新的關(guān)鍵字中。對貝葉斯而言,當(dāng)它發(fā)現(xiàn)郵件中含有f-r -e-e時,由于正常郵件中從來沒有發(fā)現(xiàn)這個詞,因此他是垃圾郵件的可能性將急劇增加,f-r-e-e這個新詞無疑成了垃圾郵件的指示器。在比如,垃圾郵件中用5e代替se,貝葉斯也推算出他是垃圾郵件的可

17、能性也急劇增加。 = 3 * GB2 貝葉斯過濾技術(shù)更加個性化。他能學(xué)習(xí)并理解用戶對郵件的偏好。如前所述,mortgage抵押一詞對軟件單位而言意味者垃圾,但對金融類單位則意味著好郵件。貝葉斯能根據(jù)用戶的這種偏好進(jìn)行處理。 = 4 * GB2 貝葉斯過濾技術(shù)支持多語種或者說與編碼無關(guān)。對于貝葉斯而言,他分析的是字串,無論他是字、詞、符號、還是別的什么,當(dāng)然更與語言無關(guān)。 = 5 * GB2 貝葉斯過濾器很難被欺騙。垃圾郵件發(fā)送高手通常通過減少垃圾詞匯(如free、viagra、發(fā)票)或者在信中多摻一些好的詞匯(如合同、文件)來繞過檢查一般的郵件內(nèi)容檢查,但由于貝葉斯具有的個性化色彩,要想成功的

18、繞過貝葉斯的檢查,他就不得不對每個收件人的偏好進(jìn)行研究,這簡直是“不可能完成的任務(wù)”。垃圾郵件發(fā)送者無法容忍的。若采用變化字,則如前所述貝葉斯判斷其為垃圾郵件的可能性反而增加。5. 貝葉斯統(tǒng)計(jì)及其爭論. 目前,針對其他學(xué)派指責(zé)最多的“先驗(yàn)分布如何確定”這個貝葉斯統(tǒng)計(jì)的難點(diǎn)。已初步研究出了以下方法:(1)無信息先驗(yàn)分布;(2)共軛先驗(yàn)分布;(3)用經(jīng)驗(yàn)貝葉斯方法確定先驗(yàn)分布;(4)用最大熵方法確定先驗(yàn)分布;(5)用專家經(jīng)驗(yàn)確定先驗(yàn)分布;(6)用自助(Bootstrap)法和隨機(jī)加權(quán)法確定先驗(yàn)分布。貝葉斯方法在可靠性分析中有著重要的應(yīng)用。數(shù)據(jù)少是可靠性分析的特點(diǎn)。由于可靠性分析的對象大多是精密、貴重的儀器設(shè)備試驗(yàn)費(fèi)用大,樣本量小到甚至只有一、二次的試驗(yàn)結(jié)果。在這種情況下去分析設(shè)備的可靠性指標(biāo)。須盡可能地搜集、綜合各種驗(yàn)前經(jīng)驗(yàn),整理、推導(dǎo)出參數(shù)的先驗(yàn)分布。而先驗(yàn)分布的確定不是憑空捏造的,是通過正常的邏輯思維獲得的。先驗(yàn)分布的使用,成為驗(yàn)后樣本最不足的合理的補(bǔ)充。 貝葉斯統(tǒng)計(jì)和頻率統(tǒng)計(jì)都服從1933年柯爾莫哥洛夫提出的概率公理體系,運(yùn)用概率論知識進(jìn)行其理論推導(dǎo)。先驗(yàn)分布的確定體現(xiàn)了貝葉斯統(tǒng)計(jì)的特色,使貝葉斯統(tǒng)計(jì)成為處理實(shí)際問題的簡明有效的方法。面向?qū)嶋H,突出實(shí)效也是貝葉斯統(tǒng)計(jì)生命力之所

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論