第一章先驗分布與后驗分布_第1頁
第一章先驗分布與后驗分布_第2頁
第一章先驗分布與后驗分布_第3頁
第一章先驗分布與后驗分布_第4頁
第一章先驗分布與后驗分布_第5頁
已閱讀5頁,還剩31頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第一章先驗分布與后驗分布第一節(jié)三種信息第二節(jié)貝葉斯公式第三節(jié)共軛先驗分布第四節(jié)超參數(shù)模型第五節(jié)多參數(shù)模型第六節(jié)充分統(tǒng)計量第一章先驗分布與后驗分布統(tǒng)計學(xué)中有二個主要學(xué)派:頻率學(xué)派與貝葉斯學(xué)派,他們之間有共同點,又有不同點,為了說清楚他們之間的異同點,我們從統(tǒng)計推斷所使用的三種信息說起。第一節(jié)三種信息總體信息即總體分布或總體所屬分布族給我們的信息,譬如,“總體是正態(tài)分布”這一句話就給我們帶來很多信息:它的密度函數(shù)是一條鐘形曲線;它的一切階矩都存在;有關(guān)正態(tài)變量(服從正態(tài)分布的隨機變量)的一些事件的概率可以計算;還有許多成熟的點估計、區(qū)間估計和假設(shè)檢驗方法可供我們選用??傮w信息是很重要的信息,為了獲取此種信息往往耗資巨大。第一節(jié)三種信息樣本信息即從總體抽取的樣本給我們提供的信息。這是最“新鮮”的信息,并且愈多愈好。人們希望通過對樣本的加工和處理對總體的某些特征作出較為精確的統(tǒng)計推斷。沒有樣本就沒有統(tǒng)計學(xué)可言。這是大家都理解的事實。基于上述兩種信息進行的統(tǒng)計推斷被稱為經(jīng)典統(tǒng)計學(xué),它的基本觀點是把數(shù)據(jù)(樣本)看成是來自具有一定概率分布的總體,所研究的對象是這個總體而不局限于數(shù)據(jù)本身。第一節(jié)三種信息先驗信息即在抽樣之前有關(guān)統(tǒng)計問題的一些信息,一般說來,先驗信息主要來源于經(jīng)驗和歷史資料。先驗信息在日常生活和工作中也經(jīng)??梢姡簧偃嗽谧杂X地或不自覺地使用它。對先驗信息進行加工獲得的分布今后稱為先驗分布。這個先驗分布是綜合了該廠過去產(chǎn)品的質(zhì)量情況。如果這個分布的概率絕大部分集中在θ=0附近,那該產(chǎn)品可認為是“信得過產(chǎn)品”。假如以后的多次抽檢結(jié)果與歷史資料提供的先驗分布是一致的。使用單位就可以對它作出“免檢產(chǎn)品”的決定,或者每月抽檢一、二次就足夠了,這就省去了大量的人力與物力??梢姎v史資料在統(tǒng)計推斷中應(yīng)加以利用。第一節(jié)三種信息基于上述三種信息(總體信息、樣本信息和先驗信息)進行的統(tǒng)計推斷被稱為貝葉斯統(tǒng)計學(xué)。它與經(jīng)典統(tǒng)計學(xué)的主要差別在于是否利用先驗信息。在使用樣本信息上也是有差異的。貝葉斯學(xué)派重視已出現(xiàn)的樣本觀察值,而對尚未發(fā)生的樣本觀察值不予考慮,貝葉斯學(xué)派很重視先驗信息的收集、挖掘和加工,使它數(shù)量化,形成先驗分布,參加到統(tǒng)計推斷中來,以提高統(tǒng)計推斷的質(zhì)量。忽視先驗信息的利用,有時是一種浪費,有時還會導(dǎo)致不合理的結(jié)論。第一節(jié)三種信息貝葉斯學(xué)派的最基本的觀點是:任一個未知量θ都可看作一個隨機變量,應(yīng)該用一個概率分布去描述對θ的未知狀況。這個概率分布是在抽樣前就有的關(guān)于θ的先驗信息的概率陳述。這個概率分布被稱為先驗分布。有時還簡稱為先驗(Prior)。因為任一未知量都有不確定性,而在表述不確定性程度時,概率與概率分布是最好的語言。第一節(jié)三種信息貝葉斯公式的密度函數(shù)形式1.設(shè)總體指標X有依賴于參數(shù)“的密度函數(shù)”在經(jīng)典統(tǒng)計中常記為p(x;θ),它表示在參數(shù)空間中不同的θ對應(yīng)不同的分布??稍谪惾~斯統(tǒng)計中記為p(x|θ),它表示在隨機變量θ給定某個值時,總體指標X的條件分布。第二節(jié)貝葉斯公式2.根據(jù)參數(shù)θ的先驗信息確定先驗分布π(θ)。這是貝葉斯學(xué)派在最近幾十年里重點研究的問題。已獲得一大批富有成效的方法。在以后章節(jié)將介紹其中一些主要方法,本書第三章和第七章將系統(tǒng)地介紹。第二節(jié)貝葉斯公式第二節(jié)貝葉斯公式3.從貝葉斯觀點看,樣本的產(chǎn)生要分二步進行。這個聯(lián)合密度函數(shù)是綜合了總體信息和樣本信息,常稱為似然函數(shù)。4.樣本x和參數(shù)θ的聯(lián)合分布把三種可用的信息都綜合進去了。5.我們的任務(wù)是要對未知數(shù)θ作出統(tǒng)計推斷。在沒有樣本信息時,人們只能據(jù)先驗分布對θ作出推斷。在有樣本觀察值x之后,我們應(yīng)該依據(jù)h(x,θ)對θ作出推斷。第二節(jié)貝葉斯公式6.在θ是離散隨機變量時,先驗分布可用先驗分布列

表示。這時后驗分布也是離散形式。第二節(jié)貝葉斯公式后驗分布是三種信息的綜合一般說來,先驗分布π(θ)是反映人們在抽樣前對θ的認識,后驗分布π(θ|x)是反映人們在抽樣后對θ的認識。之間的差異是由于樣本x出現(xiàn)后人們對θ認識的一種調(diào)整。所以后驗分布π(θ|x)可以看作是人們用總體信息和樣本信息(綜合稱為抽樣信息)對先驗分布作π(θ)調(diào)整的結(jié)果。第二節(jié)貝葉斯公式1.3.1共軛先驗分布大家知道,在區(qū)間(0,1)上的均勻分布是貝塔分布Be(1,1)。這時從例1.2.1中可以看到一個有趣的現(xiàn)象。二項分布b(n,θ)中的成功概率θ的先驗分布若取Be(1,1),則其后驗分布也是貝塔分布Be(x+1,n-x+1)。其中,x為n次獨立試驗中成功出現(xiàn)次數(shù)#先驗分布與后驗分布同屬于一個貝塔分布族,只是其參數(shù)不同而已。這一現(xiàn)象不是偶然的,假如把θ的先驗分布換成一般的貝塔分布Be(α+β),其中α>0,β>0。經(jīng)過類似計算可以看出,θ的后驗分布仍是貝塔分布Be(α+x,β+n-x),此種先驗分布被稱為θ的共軛先驗分布。第三節(jié)共軛先驗分布定義1.3.1設(shè)θ是總體分布中的參數(shù)(或參數(shù)向量),π(θ)是θ的先驗密度函數(shù),假如由抽樣信息算得的后驗密度函數(shù)與π(θ)有相同的函數(shù)形式,則稱π(θ)是θ的(自然)共軛先驗分布。第三節(jié)共軛先驗分布1.3.2后驗分布的計算在給定樣本分布p(x|θ)和先驗分布π(θ)后可用貝葉斯公式計算θ的后驗分布由于m(x)不依賴于θ,在計算θ的后驗分布中僅起到一個正則化因子的作用。假如把m(x)省略,把貝葉斯公式改寫為如下等價形式第三節(jié)共軛先驗分布其中符號“”表示兩邊僅差一個常數(shù)因子,一個不依賴于θ的常數(shù)因子。(1.3.5)式右端雖不是正常的密度函數(shù),但它是后驗分布π(θ|x)的核,在需要時可以利用適當方式計算出后驗密度,特別當看出π(θ|x)π(θ)的核就是某常用分布的核時,不用計算m(x)就可很快恢復(fù)所缺常數(shù)因子。這樣一來就可簡化后驗分布的計算,這在共軛先驗分布與非共軛先驗分布場合都可使用。第三節(jié)共軛先驗分布1.3.3共軛先驗分布的優(yōu)缺點共軛先驗分布在很多場合被采用,因為它有二個優(yōu)點:1.計算方便,這可從上面二個例子和習(xí)題中體會。2.后驗分布的一些參數(shù)可得到很好的解釋。第三節(jié)共軛先驗分布在貝葉斯統(tǒng)計中先驗分布的選取應(yīng)以合理性作為首要原則,計算上的方便與先驗的合理性相比那還是第二位的。當樣本均值x與先驗均值相距較遠時,看來后驗分布應(yīng)有二個峰才更為合理,可使用共軛先驗分布(如在正態(tài)均值場合)逼使后驗分布只有一個峰,從而會掩蓋實際情況,引起誤用。在考慮到先驗的合理性之后,充分發(fā)揮共軛先驗分布吸引人們的性質(zhì)是我們采取的策略。因為,以正態(tài)分布為例,先驗分布類

還是足夠大的,使正態(tài)分布在不少場合用來概括先驗信息是合理的。第三節(jié)共軛先驗分布1.3.4常用的共軛先驗分布共軛先驗分布的選取是由似然函數(shù)L(θ)=p(x|θ)中所含θ的因式所決定的,即選與似然函數(shù)(θ的函數(shù))具有相同核的分布作為先驗分布。若此想法得以實現(xiàn),那共軛先驗分布就產(chǎn)生了。倒伽馬分布第三節(jié)共軛先驗分布第三節(jié)共軛先驗分布先驗分布中所含的未知參數(shù)稱為超參數(shù)。譬如,成功概率的共軛先驗分布是貝塔分布Be(α,β),它含有二個超參數(shù),正態(tài)均值的共軛先驗分布是正態(tài)分布,它也含有二個超參數(shù)。一般說來,共軛先驗分布常含有超參數(shù),而無信息先驗分布(如均勻分布U(0,1))一般不含有超參數(shù)。共軛先驗分布是一種有信息的先驗分布,故其中所含的超參數(shù)應(yīng)充分利用各種先驗信息來確定它。第四節(jié)超參數(shù)模型1.4.1利用先驗矩假如根據(jù)先驗信息能獲得成功概率θ的若干個估計值,記為,一般它們是從歷史數(shù)據(jù)整理加工獲得的,由此可算得先驗均值和先驗方差,其中然后令其分別等于貝塔分布Be(α,β)的期望與方差,即第四節(jié)超參數(shù)模型解之“可得超參數(shù)α與β的估計值第四節(jié)超參數(shù)模型1.4.2利用先驗分位數(shù)假如根據(jù)先驗信息可以確定貝塔分布的二個分位數(shù),則可用這二個分位數(shù)來確定α與β,譬如用二個上、下四分位數(shù)與(見圖1.4.1來確定α與β,

與分別滿足如下二個方程第四節(jié)超參數(shù)模型1.4.3利用先驗矩和先驗分位數(shù)假如根據(jù)先驗信息可獲得先驗均值和p分位數(shù),則可列出下列方程解之,可得超參數(shù)α與β的估計值。第四節(jié)超參數(shù)模型1.4.4其他方法假如根據(jù)先驗信息只能獲得先驗均值,這時可令一個方程不能唯一確定二個參數(shù),這時還要利用其它先驗信息才能把α與β確定下來。第四節(jié)超參數(shù)模型統(tǒng)計中很多實際問題含有多個未知參數(shù),譬如正態(tài)總體

常含有二個未知參數(shù)μ與,又如多項分布

常含有k-1個未知參數(shù),至于多元正態(tài)分布

則含有更多個未知參數(shù)。在貝葉斯方法的框架中處理多參數(shù)的方法與處理單參數(shù)方法相似,先根據(jù)先驗信息給出參數(shù)的先驗分布,然后按貝葉斯公式算得后驗分布,為確定起見,設(shè)總體只含二個參數(shù),總體的密度函數(shù)為,若從該總體抽取一個樣本,并給出先驗密度,則的后驗密度為第五節(jié)多參數(shù)模型在多參數(shù)問題中,人們關(guān)心的常常是其中一個或少數(shù)幾個參數(shù),這時其余參數(shù)常被稱為討厭參數(shù)或多余參數(shù),譬如在二個參數(shù)與場合,人們感興趣的是,那么就是討厭參數(shù),為了獲得的邊緣后驗密度,只要對討厭參數(shù)積分即可。上述積分對

的參數(shù)空間進行,在處理討厭參數(shù)上,貝葉斯方法要比經(jīng)典方法方便得多。第五節(jié)多參數(shù)模型正態(tài)—倒伽瑪分布,記為后驗密度在形式上完全與先驗密度同,只是用,與分別代替,與正態(tài)—倒伽瑪分布是正態(tài)均值與正態(tài)方差的(聯(lián)合)共軛先驗分布。第五節(jié)多參數(shù)模型經(jīng)典統(tǒng)計中充分統(tǒng)計量是這樣定義的:設(shè)

是來自分布函數(shù)的一個樣本,T=T(x)是統(tǒng)計量,假如在給定T(x)=t的條件下,x的條件分布與θ無關(guān)的話,則稱該統(tǒng)計量為θ的充分統(tǒng)計量。在一般情況下,用上述定義直接驗證一個統(tǒng)計量的充分性是困難的,因為需要計算條件分布,幸好有一個判別充分統(tǒng)計量的充要條件,它就是著名的因子分解定理,該定理說,一個統(tǒng)計量T(x)對參數(shù)θ是充分的充要條件是存在一個t與θ的函數(shù)g(t,θ)和一個樣本x的函數(shù)h(x),使得對任一樣本x和任意θ樣本的密度p(x|θ)可表示為它們的乘積,即p(x|θ)=g(T(x),θ)在貝葉斯統(tǒng)計中,充分統(tǒng)計量也有一個充要條件。第六節(jié)充分統(tǒng)計量定理1.6.1設(shè)是來自密度函數(shù)p(x|θ)的一個樣本,T=T(x)是統(tǒng)計量,它的密度函數(shù)為p(t|θ),又設(shè)是θ的某個先驗分布族,則T(x)為θ的充分統(tǒng)計量的充要條件是對任一先驗分布,有即用樣本分布p(x|θ)算得的后驗分布與統(tǒng)計量T(x)算得的后驗分布是相同的。第六節(jié)充分統(tǒng)計量關(guān)于定理1.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論