統(tǒng)計(jì)學(xué)bootstrap幻燈片_第1頁
統(tǒng)計(jì)學(xué)bootstrap幻燈片_第2頁
統(tǒng)計(jì)學(xué)bootstrap幻燈片_第3頁
統(tǒng)計(jì)學(xué)bootstrap幻燈片_第4頁
統(tǒng)計(jì)學(xué)bootstrap幻燈片_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

上節(jié)課內(nèi)容總結(jié)統(tǒng)計(jì)推斷基本概念統(tǒng)計(jì)模型:參數(shù)模型與非參數(shù)模型統(tǒng)計(jì)推斷/模型估計(jì):點(diǎn)估計(jì)、區(qū)間估計(jì)、假設(shè)檢驗(yàn)估計(jì)的評價(jià):無偏性、一致性、有效性、MSE偏差、方差、區(qū)間估計(jì)CDF估計(jì):點(diǎn)估計(jì)、偏差、方差及區(qū)間估計(jì)統(tǒng)計(jì)函數(shù)估計(jì)點(diǎn)估計(jì)區(qū)間估計(jì)/標(biāo)準(zhǔn)誤差影響函數(shù)BootstrapBootstrap也可用于偏差、置信區(qū)間和分布估計(jì)等計(jì)算1統(tǒng)計(jì)學(xué)bootstrap本節(jié)課內(nèi)容重采樣技術(shù)(resampling)Bootstrap刀切法(jackknife)2統(tǒng)計(jì)學(xué)bootstrap引言

是一個(gè)統(tǒng)計(jì)量,或者是數(shù)據(jù)的某個(gè)函數(shù),數(shù)據(jù)來自某個(gè)未知的分布F,我們想知道的某些性質(zhì)(如偏差、方差和置信區(qū)間)假設(shè)我們想知道的方差如果的形式比較簡單,可以直接用上節(jié)課學(xué)習(xí)的嵌入式估計(jì)量作為的估計(jì)例:,則,其中,其中問題:若的形式很復(fù)雜(任意統(tǒng)計(jì)量),如何計(jì)算/估計(jì)?3統(tǒng)計(jì)學(xué)bootstrapBootstrap簡介Bootstrap是一個(gè)很通用的工具,用來估計(jì)標(biāo)準(zhǔn)誤差、置信區(qū)間和偏差。由BradleyEfron于1979年提出,用于計(jì)算任意估計(jì)的標(biāo)準(zhǔn)誤差術(shù)語“Bootstrap”來自短語“topulloneselfupbyone’sbootstraps”(源自西方神話故事“TheAdventuresofBaronMunchausen”,男爵掉到了深湖底,沒有工具,所以他想到了拎著鞋帶將自己提起來)計(jì)算機(jī)的引導(dǎo)程序boot也來源于此意義:不靠外界力量,而靠自身提升自己的性能,翻譯為自助/自舉1980年代很流行,因?yàn)橛?jì)算機(jī)被引入統(tǒng)計(jì)實(shí)踐中來4統(tǒng)計(jì)學(xué)bootstrapBootstrap簡介Bootstrap:利用計(jì)算機(jī)手段進(jìn)行重采樣一種基于數(shù)據(jù)的模擬(simulation)方法,用于統(tǒng)計(jì)推斷。基本思想是:利用樣本數(shù)據(jù)計(jì)算統(tǒng)計(jì)量和估計(jì)樣本分布,而不對模型做任何假設(shè)(非參數(shù)bootstrap)無需標(biāo)準(zhǔn)誤差的理論計(jì)算,因此不關(guān)心估計(jì)的數(shù)學(xué)形式有多復(fù)雜Bootstrap有兩種形式:非參數(shù)bootstrap和參數(shù)化的bootstrap,但基本思想都是模擬5統(tǒng)計(jì)學(xué)bootstrap重采樣通過從原始數(shù)據(jù)進(jìn)行n次有放回采樣n個(gè)數(shù)據(jù),得到bootstrap樣本對原始數(shù)據(jù)進(jìn)行有放回的隨機(jī)采樣,抽取的樣本數(shù)目同原始樣本數(shù)目一樣如:若原始樣本為則bootstrap樣本可能為…6統(tǒng)計(jì)學(xué)bootstrap計(jì)算bootstrap樣本重復(fù)B次,1.隨機(jī)選擇整數(shù),每個(gè)整數(shù)的取值范圍為[1,n],選擇每個(gè)[1,n]之間的整數(shù)的概率相等,均為2.計(jì)算bootstrap樣本為:Web上有matlab代碼:BOOTSTRAPMATLABTOOLBOX,byAbdelhakM.ZoubirandD.RobertIskander,toolbox.htmlMatlab函數(shù):bootstrp7統(tǒng)計(jì)學(xué)bootstrapBootstrap樣本在一次bootstrap采樣中,某些原始樣本可能沒被采到,另外一些樣本可能被采樣多次在一個(gè)bootstrap樣本集中不包含某個(gè)原始樣本的概率為一個(gè)bootstrap樣本集包含了大約原始樣本集的1-0.368=

0.632,另外0.368的樣本沒有包括8統(tǒng)計(jì)學(xué)bootstrap模擬假設(shè)我們從的分布中抽取IID樣本,當(dāng)時(shí),根據(jù)大數(shù)定律,也就是說,如果我們從

中抽取大量樣本,我們可以用樣本均值來近似當(dāng)樣本數(shù)目B足夠大時(shí),樣本均值與期望之間的差別可以忽略不計(jì)9統(tǒng)計(jì)學(xué)bootstrap模擬更一般地,對任意均值有限的函數(shù)h,當(dāng)有則當(dāng)時(shí),有用模擬樣本的方差來近似方差10統(tǒng)計(jì)學(xué)bootstrap模擬怎樣得到的分布?已知的只有X,但是我們可以討論X的分布F如果我們可以從分布F中得到樣本,我們可以計(jì)算怎樣得到F?用代替(嵌入式估計(jì)量)怎樣從中采樣?因?yàn)閷γ總€(gè)數(shù)據(jù)點(diǎn)的質(zhì)量都為1/n

所以從中抽取一個(gè)樣本等價(jià)于從原始數(shù)據(jù)隨機(jī)抽取一個(gè)樣本也就是說:為了模擬,可以通過有放回地隨機(jī)抽取n個(gè)樣本(bootstrap樣本)來實(shí)現(xiàn)11統(tǒng)計(jì)學(xué)bootstrapBootstrap:一個(gè)重采樣過程重采樣:通過從原始數(shù)據(jù)進(jìn)行有放回采樣n個(gè)數(shù)據(jù),得到bootstrap樣本模擬:為了估計(jì)我們感興趣的統(tǒng)計(jì)量的方差/中值/均值,我們用bootstrap樣本對應(yīng)的統(tǒng)計(jì)量(bootstrap復(fù)制)近似,其中12統(tǒng)計(jì)學(xué)bootstrap例:中值X=(3.12,0,1.57,19.67,0.22,2.20)Mean=4.46X1=(1.57,0.22,19.67,

0,0,2.2,3.12)Mean=4.13X2=(0,2.20,2.20,2.20,19.67,1.57)Mean=4.64X3=(0.22,

3.12,1.57,

3.12,2.20,

0.22)Mean=1.7413統(tǒng)計(jì)學(xué)bootstrapBootstrap方差估計(jì)方差:其中注意:F為數(shù)據(jù)X的分布,G為統(tǒng)計(jì)量T的分布通過兩步實(shí)現(xiàn):第一步:用估計(jì)插入估計(jì),積分符號(hào)變成求和第二步:通過從中采樣來近似計(jì)算Bootstrap采樣+大數(shù)定律近似14統(tǒng)計(jì)學(xué)bootstrapBootstrap:方差估計(jì)Bootstrap的步驟:1.畫出2.計(jì)算3.重復(fù)步驟1和2共B次,得到4.(大數(shù)定律)(計(jì)算boostrap樣本)(計(jì)算boostrap復(fù)制)15統(tǒng)計(jì)學(xué)bootstrap例:混合高斯模型:假設(shè)真實(shí)分布為現(xiàn)有n=100個(gè)觀測樣本:直接用嵌入式估計(jì)結(jié)果:16統(tǒng)計(jì)學(xué)bootstrap例:混合高斯模型(續(xù))用Bootstrap計(jì)算統(tǒng)計(jì)量的方差:1.得到B=1000個(gè)bootstrap樣本,其中2.計(jì)算B=1000個(gè)bootstrap樣本對應(yīng)的統(tǒng)計(jì)量的值3.與直接用嵌入式估計(jì)得到的結(jié)果比較:17統(tǒng)計(jì)學(xué)bootstrapBootstrap:方差估計(jì)真實(shí)世界:Bootstrap世界:發(fā)生了兩個(gè)近似近似的程度與原始樣本數(shù)目n及bootstrap樣本的數(shù)目B有關(guān)18統(tǒng)計(jì)學(xué)bootstrapBootstrap:方差估計(jì)在方差估計(jì)中,可為任意統(tǒng)計(jì)函數(shù)如均值(混合高斯模型的例子)中值(偽代碼參見教材)偏度(例子參見教材)極大值(見后續(xù)例子)…除了用來計(jì)算方差外,還可以用作其他應(yīng)用CDF近似、偏差估計(jì)、置信區(qū)間估計(jì)19統(tǒng)計(jì)學(xué)bootstrapCDF近似令為的CDF則的bootstrap估計(jì)為20統(tǒng)計(jì)學(xué)bootstrap偏差估計(jì)偏差的bootstrap估計(jì)定義為:Bootstrap偏差估計(jì)的步驟為:得到B個(gè)獨(dú)立bootstrap樣本計(jì)算每個(gè)bootstrap樣本對應(yīng)的統(tǒng)計(jì)量的值計(jì)算bootstrap期望:計(jì)算bootstrap偏差:21統(tǒng)計(jì)學(xué)bootstrap例:混合高斯模型:標(biāo)準(zhǔn)誤差估計(jì)在標(biāo)準(zhǔn)誤差估計(jì)中,B為50到200之間結(jié)果比較穩(wěn)定偏差估計(jì)B1020501005001000100000.13860.21880.22450.21420.22480.22120.2187B1020501005001000100005.05874.95515.02444.98834.99455.00354.99960.0617-0.04170.0274-0.0087-0.00250.00640.002522統(tǒng)計(jì)學(xué)bootstrapBootstrap置信區(qū)間正態(tài)區(qū)間:簡單,但該估計(jì)不是很準(zhǔn)確,除非接近正態(tài)分布

百分位區(qū)間:,對應(yīng)的樣本分位數(shù)還有其他一些計(jì)算置信區(qū)間的方法如樞軸置信區(qū)間:23統(tǒng)計(jì)學(xué)bootstrap例:Bootstrap置信區(qū)間例8.6:Bootstrap方法的發(fā)明者BradleyEfron給出了下列用語解釋Bootstrap方法的例子。這些數(shù)據(jù)是LAST分?jǐn)?shù)(法學(xué)院的入學(xué)分?jǐn)?shù))和GPA。計(jì)算相關(guān)系數(shù)及其標(biāo)準(zhǔn)誤差。LSAT(Y)576635558578666580555661651605653575545572594GPA(Z)3.393.302.813.033.443.073.003.433.363.133.122.742.762.882.9624統(tǒng)計(jì)學(xué)bootstrap例8.6

(續(xù))相關(guān)系數(shù)的定義為:相關(guān)系數(shù)的嵌入式估計(jì)量為:Bootstrap得到的相關(guān)系數(shù)插入估計(jì)的標(biāo)準(zhǔn)誤差為:標(biāo)準(zhǔn)誤差趨向穩(wěn)定于B2550100200400800160032000.1400.1420.1510.1430.1410.1370.1330.13225統(tǒng)計(jì)學(xué)bootstrap例8.6

(續(xù))當(dāng)B=1000時(shí),

的直方圖為下圖,可近似為從的分布采樣95%的正態(tài)區(qū)間為:95%的百分點(diǎn)區(qū)間為:當(dāng)大樣本情況下,這兩個(gè)區(qū)間趨近于相同26統(tǒng)計(jì)學(xué)bootstrap非參數(shù)bootstrap過程總結(jié)對原始樣本數(shù)據(jù)進(jìn)行重采樣,得到B個(gè)bootstrap樣本,其中b=1,…,B

對每個(gè)bootstrap樣本,計(jì)算其對應(yīng)的統(tǒng)計(jì)量的值(bootstrap復(fù)制)根據(jù)bootstrap復(fù)制,計(jì)算其方差、偏差和置信區(qū)間等稱為非參數(shù)bootstrap方法,因?yàn)闆]有對F的先驗(yàn)(即F的知識(shí)僅從樣本數(shù)據(jù)中獲得)27統(tǒng)計(jì)學(xué)bootstrap非參數(shù)bootstrap統(tǒng)計(jì)量/統(tǒng)計(jì)函數(shù):沒有對F的先驗(yàn),F(xiàn)的知識(shí)僅從樣本數(shù)據(jù)中獲得(CDF估計(jì)),統(tǒng)計(jì)函數(shù)的估計(jì)變?yōu)榍度胧焦烙?jì)真實(shí)世界:Bootstrap世界:如方差計(jì)算中,發(fā)生了兩個(gè)近似近似的程度與樣本數(shù)目n及bootstrap樣本的數(shù)目B有關(guān)28統(tǒng)計(jì)學(xué)bootstrapBootstrap的收斂性例:混合高斯模型:

n=100個(gè)觀測樣本:4次試驗(yàn)得到不同B的偏差和方差的結(jié)果29統(tǒng)計(jì)學(xué)bootstrapBootstrap的收斂性B的選擇取決于計(jì)算機(jī)的可用性問題的類型:標(biāo)準(zhǔn)誤差/偏差/置信區(qū)間/…問題的復(fù)雜程度30統(tǒng)計(jì)學(xué)bootstrapBootstrap失敗的一個(gè)例子

,我們感興趣的統(tǒng)計(jì)量為的CDF用G表示則的pdf為

31統(tǒng)計(jì)學(xué)bootstrapBootstrap失敗的一個(gè)例子(續(xù))對非參數(shù)bootstrap,令則所以,非參數(shù)bootstrap不能很好地模擬真正的分布32統(tǒng)計(jì)學(xué)bootstrapBootstrap失敗的一個(gè)例子(續(xù))假設(shè)樣本數(shù)目n=10,樣本為,取參數(shù)X=(0.5729,0.1873,0.5984,0.2883,0.8722,0.4320,0.4896,0.7106,0.2754,0.7637)

非參數(shù)bootstrap復(fù)制的直方圖B=1000,最高峰為理論結(jié)果:33統(tǒng)計(jì)學(xué)bootstrapBootstrap失敗的一個(gè)例子為什么失敗?EDF不是真正分布的很好近似為了得到更好的結(jié)果,需要F的參數(shù)知識(shí)或者的平滑性參數(shù)化的bootstrap表現(xiàn)很好,能很好模擬真正的分布34統(tǒng)計(jì)學(xué)bootstrapBootstrap的收斂性給定n個(gè)IID數(shù)據(jù),要求當(dāng),收斂于F為的嵌入式估計(jì)統(tǒng)計(jì)函數(shù)的平滑性平滑函數(shù):均值、方差…不平滑函數(shù):數(shù)據(jù)的一個(gè)小的變化會(huì)帶來統(tǒng)計(jì)量的很大變化順序統(tǒng)計(jì)量的極值(極大值、極小值)35統(tǒng)計(jì)學(xué)bootstrap參數(shù)化的bootstrap真實(shí)世界:Bootstrap世界:與非參數(shù)的bootstrap相比:F的先驗(yàn)用參數(shù)模型表示多了一個(gè)步驟:根據(jù)數(shù)據(jù)估計(jì)參數(shù)(參數(shù)估計(jì)),從而得到不是經(jīng)驗(yàn)分布函數(shù)EDF重采樣:從估計(jì)的分布采樣(產(chǎn)生隨機(jī)數(shù))F的先驗(yàn)36統(tǒng)計(jì)學(xué)bootstrap例:非參數(shù)bootstrap失敗的例子

,取參數(shù),假設(shè)樣本數(shù)目n=10,樣本為X=(0.5729,0.1873,0.5984,0.2883,0.8722,0.4320,0.4896,0.7106,0.2754,0.7637)在參數(shù)bootstrap中:F的先驗(yàn):根據(jù)數(shù)據(jù)估計(jì)F中的參數(shù):得到F的估計(jì):從分布產(chǎn)生B=1000個(gè)樣本,

得到B個(gè),直方圖如右圖的分布為真正的分布37統(tǒng)計(jì)學(xué)bootstrap參數(shù)化的bootstrap當(dāng)F為參數(shù)模型時(shí),參數(shù)化的bootstrap也可用于計(jì)算方差、偏差、置信區(qū)間等如計(jì)算方差:0.根據(jù)數(shù)據(jù)估計(jì)f的參數(shù),得到f的估計(jì)1.抽取樣本2.計(jì)算3.重復(fù)步驟1和2B次,得到4.38統(tǒng)計(jì)學(xué)bootstrap參數(shù)bootstrapVs.非參數(shù)的bootstrapF的先驗(yàn)參數(shù)bootstrap中利用了分布F的先驗(yàn),表現(xiàn)為一個(gè)參數(shù)模型,因此多了一個(gè)步驟,估計(jì)F模型中的參數(shù)。當(dāng)先驗(yàn)?zāi)P驼_時(shí),參數(shù)bootstrap能得到更好的結(jié)果而非參數(shù)bootstrap不利用F的先驗(yàn)知識(shí)就能得到正確的標(biāo)準(zhǔn)誤差(在大多數(shù)情況下)參數(shù)bootstrap能得到與Delta方法(計(jì)算變量的函數(shù)的方差)相當(dāng)?shù)慕Y(jié)果,但更簡單重采樣參數(shù)bootstrap中,通過從分布中產(chǎn)生隨機(jī)數(shù),得到bootstrap樣本,得到的樣本通常與原始樣本不重合非參數(shù)bootstrap中,通過對原始樣本進(jìn)行有放回采樣實(shí)現(xiàn)對的采樣,每個(gè)bootstrap樣本都是原始樣本集合的一部分二者相同的是模擬的思想39統(tǒng)計(jì)學(xué)bootstrapBootstrap(參數(shù)/非參數(shù))不適合的場合小樣本(n太?。┰紭颖静荒芎芎玫卮砜傮w分布Bootstrap只能覆蓋原始樣本的一部分,帶來更大的偏差結(jié)構(gòu)間有關(guān)聯(lián)如時(shí)間/空間序列信號(hào)因?yàn)閎ootstrap假設(shè)個(gè)樣本間獨(dú)立臟數(shù)據(jù)奇異點(diǎn)(outliers)給估計(jì)帶來了變化40統(tǒng)計(jì)學(xué)bootstrap刀切法(jackknife)41統(tǒng)計(jì)學(xué)bootstrap引言Bootstrap方法并不總是最佳的。其中一個(gè)主要原因是bootstrap樣本是從產(chǎn)生而不是從F產(chǎn)生。問題:能完全從F采樣或重采樣嗎?如果樣本數(shù)目為n,答案是否定的!若樣本數(shù)目為m(m<n),則可以從F中找到數(shù)目為m的采樣/重采樣,通過從原始樣本X得到不同的子集就可以!尋找原始樣本的不同子集相當(dāng)于從觀測進(jìn)行無放回采樣,得到數(shù)目為m的重采樣樣本(在此稱為子樣本)這就是jackknife的基本思想。42統(tǒng)計(jì)學(xué)bootstrap刀切法(jackknife)Jackknife由MauriceQuenouille(1949)首先提出比bootstrap出現(xiàn)更早與bootstrap相比,Jackknife(m=n-1)對計(jì)算機(jī)不敏感。Jackknife為一種瑞士小折刀,很容易攜帶。通過類比,JohnW.Tukey(1958)在統(tǒng)計(jì)學(xué)中創(chuàng)造了這個(gè)術(shù)語,作為一種通用的假設(shè)檢驗(yàn)和置信區(qū)間計(jì)算的方法。43統(tǒng)計(jì)學(xué)bootstrapJackknife樣本Jackknife樣本定義為:一次從原始樣本中留出一個(gè)樣本:Jackknife樣本中的樣本數(shù)目為m=n-1共有n個(gè)不同的jackknife樣本無需通過采樣手段得到j(luò)ackknife樣本BOOTSTRAPMATLABTOOLBOX中也有該功能44統(tǒng)計(jì)學(xué)bootstrapJackknife復(fù)制統(tǒng)計(jì)量為:Jackknife復(fù)制為:均值的jackknife復(fù)制為:45統(tǒng)計(jì)學(xué)bootstrapJackknife方差估計(jì)

從原始樣本X中計(jì)算n個(gè)jackknife樣本計(jì)算n個(gè)jackknife復(fù)制:計(jì)算jackknife估計(jì)的方差:

46統(tǒng)計(jì)學(xué)bootstrap例:計(jì)算均值的方差

,則所以方差的無偏估計(jì)47統(tǒng)計(jì)學(xué)bootstrap例:計(jì)算均值的方差因子比bootstrap中的因子大多了。直觀上,因?yàn)閖ackknife方差比bootstrap中的方差小得多(相比bootstrap樣本,jackknife樣本與原始樣本更相似事實(shí)上,因子就是考慮特殊情況得到的(有點(diǎn)武斷)48統(tǒng)計(jì)學(xué)bootstrap例:混合高斯模型:Bootstrap結(jié)果:Jacknife結(jié)果:B1020501005001000100000.13860.21880.22450.21420.22480.22120.21870.0617-0.04170.0274-0.0087-0.00250.00640.002549統(tǒng)計(jì)學(xué)bootstrap例:混合高斯模型:復(fù)制的直方圖1000個(gè)Bootstrap復(fù)制100個(gè)Jacknife復(fù)制Jackknife復(fù)制之間的差異很小,每兩個(gè)Jackknife樣本中只有兩個(gè)單個(gè)的原始樣本不同50統(tǒng)計(jì)學(xué)bootstrapJackknifeVs.bootstrap當(dāng)n較小時(shí),能更容易(更快)計(jì)算n個(gè)jackknife復(fù)制。但是,與bootstrap相比,jackknife只利用了更少的信息(更少的樣本)。事實(shí)上,jackknife為bootstrap的一個(gè)近似(jackknife方差為bootstrap方差的一階近似)!估計(jì)樣本分位數(shù)時(shí),jackknife計(jì)算的方差不是一致估計(jì)51統(tǒng)計(jì)學(xué)bootstrapJackknife的其他應(yīng)用Jackknife可用于類似bootstrap的應(yīng)用,如偏差估計(jì)52統(tǒng)計(jì)學(xué)bootstrapJackknife不適合的場合統(tǒng)計(jì)函數(shù)不是平滑函數(shù):數(shù)據(jù)小的變化會(huì)帶來統(tǒng)計(jì)量的一個(gè)大的變化如極值、中值如對數(shù)據(jù)X=(1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論