概率統(tǒng)計建模講義_第1頁
概率統(tǒng)計建模講義_第2頁
概率統(tǒng)計建模講義_第3頁
概率統(tǒng)計建模講義_第4頁
概率統(tǒng)計建模講義_第5頁
已閱讀5頁,還剩74頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)理統(tǒng)計例舉王曉謙南京師范大學2006年8月 Next主要內(nèi)容隨機變量及其分布 經(jīng)驗分布函數(shù)和頻率直方圖 參數(shù)估計 假設檢驗 相關分析與回歸分析簡介 MATLAB例題例1能量供應問題 例2 放射性 例3正態(tài)分布 例4指數(shù)分布 例5 多元隨機變量例6經(jīng)驗分布函數(shù) 例7超市問題 例8區(qū)間估計 例9 擬合檢驗1 例10擬合檢驗2 例11概率紙檢驗法 例12道德 例13腸癌 例14 J效應 Back Next 隨機變量及其分布例1、能量供應問題(二項分布)假定有個工人間歇性地使用電力,估計所需要的總負荷。首先我們要知道,或者是假定,每個工人彼此獨立工作,而每一時刻每個工人都以相同的概率p需要一個單位的

2、電力。那么,同時使用電力的人數(shù)就是一個隨機變量,它服從所謂的二項分布。用X表示這個隨機變量,記做,且有 這是非常重要的一類概率分布。其中E(X)np, D(X)=np(1-p)。 目錄 Back Next其次,要根據(jù)經(jīng)驗來估計出,p值是多少?例如,一個工人在一個小時里有12分鐘在使用電力,那么應該有。最后,利用公式我們求出隨機變量X的概率分布表如下:X012345678910P0.1073740.2684350.301990.2013270.088080.0264240.0055050.0007860.0000740.0000040.000000累積概率0.1073740.375810.677

3、80.8791260.9672070.9936310.9991360.9999220.99999611為直觀計,我們給出如下概率分布圖: 目錄 Back Next可以看出,也就是說,如果供應6個單位的電力,則超負荷工作的概率只有0.000864,即每中,才可能有一分鐘電力不夠用。還可以算出,八個或八個以上工人同時使用電力的概率就更小了,比上面概率的還要小。問題:二項分布是一個重要的用來計數(shù)的分布。什么樣的隨機變量會服從二項分布? 目錄 Back Next 進行n次獨立觀測,在每次觀測中所關心的事件出現(xiàn)的概率都是p,那么在這n次觀測中事件A出現(xiàn)的總次數(shù)是一個服從二項分布B(n,p)。作業(yè):用MA

4、TLAB計算本題。binopdf(x,n,p) 計算x中每個值對應的二項分布概率binocdf(x,n,p) 計算x中每個值對應的分布函數(shù)值 例如binopdf(0:10,10,0.2)目錄 Back Next 例2、Rutherford 對裂變物質的觀測 (Poisson分布)英國著名物理學家 Rutherford(18711937)在其放射性物質試驗中,觀測在時間間隔T內(nèi)放射性物質放射出的粒子數(shù)。實際試驗時,取時間間隔為T=7.5秒,觀測了N2608次,將每次觀測到的粒子數(shù)記錄下來,列在下表中第1,2行:粒子數(shù)X012345678910頻數(shù)n572033835255324082731394

5、52716頻率f0.0218560.0778370.1468560.2013040.2039880.1564420.1046780.0532980.0172550.0103530.006135概率p0.0208580.0807220.1561970.2014940.1949450.1508880.0973230.0538050.0260280.0111920.006547 目錄 Back Next我們用X表示T=7.5秒內(nèi)觀測到的粒子數(shù),它是一個隨機變量,服從什么分布呢?在2608次觀測中,共觀測到10094個粒子數(shù),平均每次觀測到=M÷N10094÷26083.87個粒子

6、數(shù),用參數(shù)為=3.87的Poisson分布P計算一下: 將計算結果列在上表中最后一行,與列在第3行的實際頻率比較,比較的圖示在下圖中。(Excel)可以看出,認為X服從參數(shù)為3.87的Poisson分布還是非常合理的。在后面統(tǒng)計部分,我們會用Pearson擬合檢驗法來證明這種合理性。 目錄 Back Next作業(yè):用MATLAB計算本題。poisspdf(x,),計算poisson概率,例如,poisspdf(0:9,3.87)問題:Poisson分布是又一類非常重要的用來計數(shù)的離散型分布,它依賴于一個參數(shù)。什么樣的隨機變量會服從Poisson分布呢? 目錄 Back Next在給定的觀測范圍

7、內(nèi)(例如給定時間內(nèi),給定區(qū)域內(nèi),等等),事件會發(fā)生多少次?把觀測范圍分成n個小范圍:1、 給定事件在每個小范圍內(nèi)可能發(fā)生,也可能不發(fā)生,發(fā)生多少次取決于小范圍的大小;2、 在不同的小范圍內(nèi)發(fā)生多少事件相互獨立;3、 在小范圍里發(fā)生的事件數(shù)多于一個的概率,和小范圍的大小相比可以忽略不計,用表示在小范圍內(nèi)事件發(fā)生一次的概率。那么在給定范圍內(nèi)發(fā)生的總事件數(shù)X近似服從,為給定范圍內(nèi)事件發(fā)生次數(shù)的近似平均值。令,則為給定范圍內(nèi)事件發(fā)生次數(shù)的準確平均值,這時這正是Poisson分布,其中參數(shù)。 目錄 Back Next例3、正態(tài)分布隨機變量X如果有密度函數(shù)則稱此隨機變量服從參數(shù)為的正態(tài)分布,記做,其中都是

8、給定的參數(shù),。稱為標準正態(tài)分布,用表示其分布函數(shù),其密度函數(shù)為時,我們有 目錄 Back Next大量連續(xù)型隨機變量服從正態(tài)分布,所以正態(tài)分布在處理數(shù)據(jù)時是非常有用處的。我們在統(tǒng)計部分會大量用到它。下面是正態(tài)分布的密度函數(shù)圖像:(正態(tài)密度圖像) 目錄 Back Next例4、指數(shù)分布稱隨機變量X服從參數(shù)為1的指數(shù)分布或標準指數(shù)分布,若它有密度函數(shù)它的分布函數(shù)為 目錄 Back Next設是給定常數(shù),則Y的分布函數(shù)為其密度函數(shù)為這是一般的指數(shù)分布。 目錄 Back Nextb0的指數(shù)分布的密度函數(shù)圖像如下所示(指數(shù)密度):可見,隨著的減小,隨機變量取到較大值的概率增加。事實上,是隨機變量的數(shù)學期

9、望。 指數(shù)隨機變量經(jīng)常用來刻畫壽命。 目錄 Back Next 例5、 多元隨機變量我們經(jīng)常需要考慮量與量之間的關系,如果這些量是隨機變量,那么就需要把多個隨機變量放在一起,考慮多元隨機變量。設是n元隨機變量,它的分布函數(shù)是一個n元函數(shù):利用這個分布函數(shù)就可以討論這n個隨機變量之間各種各樣的關系。 目錄 Back Next1、 邊際分布與獨立性相互獨立當且僅當2、 相關系數(shù)兩個隨機變量之間的相關系數(shù)定義為其中相關系數(shù)刻畫了隨機變量之間的線性相關程度,越接近于0,線性相關關系越弱。 目錄 Back Next定理:設二維隨機變量(X,Y)的相關系數(shù)為,則(1)、(2)、在(X,Y)服從二元正態(tài)分布

10、的條件下,X與Y獨立的充要條件是;(3)、若,則幾乎必然有其中是確定的常數(shù);若,則幾乎必然有其中是確定的常數(shù)。 目錄 Back Next3、 條件分布在已知其中某些隨機變量的取值的情況下,可以進一步確定其他隨機變量的條件分布。例如,在有密度函數(shù)的情況下,我們還可以求條件密度函數(shù),甚至利用Bayes定理,解決許多重要問題。目錄 Back Next 綜上所述,我們知道在概率論里學過許多分布,當然,還有許多分布我們沒有學過。但是,在實踐中我們可能會遇到各種各樣的分布,甚至還有沒被發(fā)現(xiàn)的分布。在處理數(shù)據(jù)的時候,我們要搞清楚:1、 數(shù)據(jù)是哪個或哪些指標的取值?2、 這個或這些指標是不是隨機變量或隨機向量

11、? 3、 如果是,那么它服從什么分布?4、 用統(tǒng)計方法確定分布;5、 分布確定后,用概率方法求出問題的解。下面我們就討論用統(tǒng)計方法確定分布的問題。目錄 Back Next 經(jīng)驗分布函數(shù)和頻率直方圖當我們確定討論的指標的確是隨機變量后,剩下的關鍵任務就是確定它的分布。那么它的觀測數(shù)據(jù)就是我們賴以解決問題的基本資料,叫做樣本,而這個隨機變量就叫做總體。這些數(shù)據(jù)反映了該隨機變量分布的基本特征。我們可以利用這些數(shù)據(jù)構造一個分布函數(shù),理論上可以證明它很接近于那個未知分布。這個分布函數(shù)就叫做經(jīng)驗分布函數(shù)。目錄 Back Next 例6、例2續(xù)(經(jīng)驗分布函數(shù))在例2,我們確定所討論的指標在時間間隔T秒內(nèi)放射

12、出的粒子數(shù)X,是一個隨機變量。且有該隨機變量的n2608個觀測值,這就是一個容量為2608的樣本。在沒有其他信息的情況下,首先應該給出該樣本的經(jīng)驗分布函數(shù):在這里我們可求出這個經(jīng)驗分布函數(shù)如下:目錄 Back Next這個函數(shù)的圖像如下(Poisson2):如果熟悉Poisson分布的分布函數(shù)圖像的話,就可以從這個圖像判斷出,X可能服從參數(shù)為3.87的Poisson分布。從這個經(jīng)驗分布函數(shù)容易解決概率計算問題: 目錄 Back Next當然,由于是離散型的隨機變量,我們可能更熟悉如下頻率分布圖像:也就是說,對于離散型隨機變量,我們更常用的方法是繪制這種頻率分布圖。為了判斷分布的類型,對于離散型

13、隨機變量,要繪制頻率分布圖!作業(yè):用MATLAB計算本例。目錄 Back Next例7、超市問題(頻率直方圖)隨機抽取某大學超市137位顧客的購買金額的實際記錄(單位:元),數(shù)據(jù)如下。請問購買金額服從什么分布?65.209.9029.7261.1016.9214.3824.1316.9929.33 4.399.8085.9622.5037.1932.318.4035.0341.706.084.906.2820.401.807.902.5015.0529.2711.1011.0826.1017.5023.0523.123.0012.8813.189.0044.094.0045.4533.6921

14、.9217.003.4016.306.6011.3642.308.007.4014.986.0544.9440.1460.051.5029.5818.306.0031.104.8016.343.2024.536.677.7249.4010.0316.3023.6012.705.0025.357.9264.801.393.0013.600.9020.2027.2021.9313.280.9010.095.0027.4535.604.222.0020.902.0011.078.974.158.703.5017.2460.343.3027.4832.0055.4815.125.6112.400.95

15、11.8018.6037.342.0034.079.1011.590.7028.0013.202.004.503.973.666.253.9019.6016.882.002.8025.162.865.7010.254.059.004.203.501.902.76 目錄 Back Next用X表示顧客的購買金額,那么它應該是一個連續(xù)型的隨機變量。對于連續(xù)型的隨機變量,我們一般就不作它的經(jīng)驗分布函數(shù)了,而是改作它的頻率直方圖。一般認為,X應該服從正態(tài)分布,數(shù)學期望為。其實不然,其頻率直方圖如下圖所示:(超市)目錄 Back Next它很像參數(shù)為的指數(shù)分布密度函數(shù),如圖中紅色曲線所示。所以我們就認為

16、X的分布是這樣的一個指數(shù)分布。例如,給定,可以求出表明該店顧客一次消費金額在20元以下的人數(shù)占到近七成。這是什么原因呢?原來這是一家小型社區(qū)超市,人們只來買日用品,不在這里買大件。這對超市的經(jīng)營管理是一個重要信息。對于連續(xù)型隨機變量,要繪制頻率直方圖!作業(yè):1、用Excel完成本例;2、經(jīng)驗分布函數(shù)。 目錄 Back Next經(jīng)驗分布函數(shù)、頻率分布圖和頻率直方圖可以幫助我們了解隨機變量的類型。當我們已經(jīng)了解到隨機變量的分布類型后,該隨機變量的分布一般就取決于一個或幾個參數(shù)了。如果知道了這些參數(shù),就可以把分布完全確定下來。那么,如何確定這未知參數(shù)呢?目錄 Back Next 參數(shù)估計設隨機變量X

17、的分布形式已經(jīng)知道,而其中的一個或幾個參數(shù)未知,我們記這個分布為。注意,在應用中,X可能是離散型隨機變量,也可能是連續(xù)型隨機變量,未知參數(shù)是具體的,要寫出分布的具體形式,例如寫出概率分布列或密度函數(shù),而不要抽象地記為。我們有樣本,這就是大家在實際問題中拿到的數(shù)據(jù)。(相對于這個樣本,我們一般把X叫做總體)。怎樣利用樣本估計參數(shù)呢?有兩套理論,即點估計理論和區(qū)間估計理論。 目錄 Back Next 點估計首先要掌握點估計方法。大家學過兩種點估計方法矩估計法和極大似然估計法。這里就不具體講這兩種求法了,我們只講一下幾個重要的結果。1、 樣本均值是總體均值的無偏估計,所以當總體的數(shù)學期望E(X)未知時

18、,我們一般用樣本均值作為E(X)的估計。目錄 Back Next在例2中,根據(jù)例6的結果看,應該用Poisson分布,而這時,所以我們用作為的估計,得到具體的一個Poisson分布。為什么恰好取3.87而非其它的值?這個為什么的問題是一個物理問題,我們無能為力。但是,從統(tǒng)計角度看,我們選用Poisson分布合理嗎?后面我們再解決這個問題。再如例7,我們利用頻率直方圖得到X應該服從指數(shù)分布的判斷,而對于參數(shù)為的指數(shù)分布,因為,是無偏估計,所以在那里取。那么,用這個指數(shù)分布從統(tǒng)計角度來說合理嗎?這個問題也留到后面解決。 目錄 Back Next現(xiàn)在大家應該理解點估計的重要意義了吧,可以看出來,沒有

19、一個好的點估計量,就不可能得到一個至少是直觀上合理的分布。下面我們再給出另一個重要的點估計量。2、 修正樣本方差是總體方差的無偏估計量,所以當總體方差D(X)未知時,我們一般用作為D(X)的估計量。例如在很多情況下,我們會用到正態(tài)分布,那時我們不但要用來估計,而且還要用來估計,從而得到一個具體的正態(tài)分布。(注意,當樣本容量n較大時, 與 沒有多大區(qū)別,所以在應用中有時會直接使用。) 目錄 Back Next區(qū)間估計 區(qū)間估計 在一個或兩個正態(tài)總體情況下的參數(shù)的區(qū)間估計問題在任何一本數(shù)理統(tǒng)計學的教材中都可以找到標準的求法??墒顷P于非正態(tài)總體的情況在實際問題中也是常碰到的。下面就通過一個例子來體會

20、一下它的求法。目錄 Back Next 例8、續(xù)例7(區(qū)間估計)我們討論例7中的一個問題,求消費金額不超過20元的概率p的區(qū)間估計,置信水平為。 用Y表示消費金額不超過20元這個事件,對i1,2,137,記那么總體Y服從兩點分布,。為其樣本,而且由原始數(shù)據(jù)可得n137,還可得每個的取值即樣本觀測值。被估計量為,但是也未知。的樣本方差為,用它來代替總體Y的方差。目錄 Back Next我們知道利用關于二項分布的中心極限定理,當n較大時,近似地有 從而近似地有由此不難求出p的置信區(qū)間: 由,給定,可得p的置信度為的置信區(qū)間約為 。目錄 Back Next一般情況下,我們總會想到正態(tài)總體的區(qū)間估計方

21、法。但是,對于非正態(tài)總體,如果需要,我們也要設法作區(qū)間估計,方法有兩類:象正態(tài)總體那樣,構造樞軸變元,利用已知分布求區(qū)間估計,可參見教材中P265第16題的方法(作為習題,請同學們做這道題);另一類方法就是在大樣本情況下用正態(tài)分布的方法求近似區(qū)間估計,如本例所示。綜上所述,點估計和區(qū)間估計的理論與方法在實踐中有重要應用,而我們在數(shù)理統(tǒng)計中也學過這些方法,所以在建模時,要在需要的時候充分利用。這些內(nèi)容在數(shù)理統(tǒng)計的任何一本教材中都可以容易地查到,所以在建模的時候,這些問題不應該成為大家的攔路虎。目錄 Back Next假設檢驗 假設檢驗當然我們不會在這里講數(shù)理統(tǒng)計課堂上作為重點學習過的那些正態(tài)總體

22、未知參數(shù)的假設檢驗方法,這些應該是大家必須熟練掌握的基本內(nèi)容。在這里,我們要介紹兩個很有用的非參數(shù)檢驗方法,一個方法用來解決前面提到的“總體服從某個分布是否合理”的問題,如例2及例6中認為X服從參數(shù)為3.87的Poisson分布,例7中認為X服從參數(shù)為的指數(shù)分布,這樣作從統(tǒng)計角度看合理嗎?也就是要檢驗總體分布是否為某給定分布。另一個方法是用來檢驗兩個隨機變量是否獨立的所謂獨立性檢驗方法。注意要掌握思想,揣摩何時需要做這些檢驗,需要的時候,可以在任何一本統(tǒng)計學的教材中找到具體步驟。所以我不要求大家記住具體步驟,而要理解其重要性。目錄 Back Next擬合檢驗例9、續(xù)例2(離散型)例2中認為在時

23、間間隔內(nèi)放射性物質放射出的粒子數(shù)X服從Poisson分布,是否合理?我們現(xiàn)在解決這個問題。這是一個非參數(shù)假設檢驗問題,原假設為H0:X服從Poisson分布當然其對立假設就是X不服從Poisson分布。目錄 Back Next檢驗的第一步要解決的問題是,如果H0成立,那么它服從參數(shù)為多少的Poisson分布?要先估計未知參數(shù)。因為這時,所以用點估計法有,??芍绻鸋0成立,那么。 檢驗的第二步要解決的問題是,觀測數(shù)據(jù)是否支持原假設?如果原假設成立,那么X的分布如表中1、4行所示,我們可以計算出在總共N2608次觀測中X取每個值的理論頻數(shù)Npk:粒子數(shù)X012345678910頻數(shù)n572033

24、83525532408273139452716頻率f0.0218560.0778370.1468560.2013040.2039880.1564420.1046780.0532980.0172550.0103530.006135理論概率pk0.0208580.0807220.1561970.2014940.1949450.1508880.0973230.0538050.0260280.0111920.006547理論頻數(shù)Npk54.39863210.5227407.3614525.4962508.4176393.5152253.8173140.324767.8820829.1892917.07

25、489 目錄 Back Next直觀上看,表中的理論頻數(shù)和實際頻數(shù)之間相差不大,但是我們必須構造統(tǒng)計量來刻畫這個差別,而且要利用統(tǒng)計量的分布給出小概率事件,用實際推斷原理來嚴格檢驗原假設。構造統(tǒng)計量如下:。其中k表示X的取值情況數(shù),我們更喜歡稱之為X的取值的分組個數(shù)。本例中k11。這里要用到一個著名的定理,叫Pearson-Fisher定理: 若H0成立,不論總體服從什么分布,當樣本容量時,由上式定義的統(tǒng)計量的極限分布為。其中的r為計算理論頻數(shù)時所估計的未知參數(shù)的個數(shù)。 目錄 Back Next 所以,當樣本容量較大時,近似地有.顯然,H0成立時,值不應該太大。所以,取為否定域,給定檢驗水平,

26、H0成立時, 。很小時,是一個小概率事件。如果,則否定原假設,否則說明數(shù)據(jù)與原假設沒有矛盾,接受原假設。 目錄 Back Next 檢驗的第三步,具體計算。本例中,N2608 很大,k11,r1,可計算得 。我們?nèi)z驗水平,可查表求得,所以不否定原假設,認為X服從Poisson分布.事實上,H0成立時可以求得(利用MATLAB,1-chi2cdf(12.8849381,9)),這個概率還是相當大的,一般來說遠遠大于所要求的檢驗水平??梢钥闯鰜?,只要檢驗水平?jīng)]有超過0.1679,就可以接受原假設。換句話說,除非檢驗水平大于0.1679, 否則接受原假設。這是所謂p值判斷法。 作業(yè):用MATLAB

27、完成本例計算。 目錄 Back Next這個例子講述了離散總體情況下的總體分布的2擬合檢驗。那么,對于連續(xù)(注意沒有要求是連續(xù)型的)總體該如何處理?我們還是用例子來說明。 目錄 Back Next例10、續(xù)例7(連續(xù)型)解決例7超市問題中遺留下來的問題,認為顧客的購買金額X服從參數(shù)為的指數(shù)分布,合理嗎? 上一個問題中,總體X是離散型隨機變量,我們把它的所有可能的取值分成了11個不同的情況,比較每一種情況下的理論與觀測結果,構造統(tǒng)計量解決問題。本問題中,總體X不再是離散型隨機變量,所有可能取值為全體正實數(shù)。 目錄 Back Next我們要借用離散型的思想,將這X的無窮多個取值分成k個不同的情況(

28、k不能太大也不能太小,一般在420之間),即將全體正實數(shù)分解成k個區(qū)間。怎樣分?保證樣本中的觀測值在每個區(qū)間中的個數(shù)一般不少于5個(大部分區(qū)間上這樣就可以了,在數(shù)據(jù)的最大最小值附近的區(qū)間上一般不一定要這樣)。這樣就可以統(tǒng)計每個區(qū)間中的觀測值的個數(shù),同時,在原假設成立的情況下計算每個區(qū)間中的理論頻數(shù)。這樣就把問題簡化為離散型的數(shù)據(jù)結構,那里用到的統(tǒng)計量仍可以使用,那里的定理還成立,所有后面的步驟不再變化。 目錄 Back Next 現(xiàn)在解決本例中的問題。原假設為.注意這里的原假設與上一個例子不同,參數(shù)認為是已知的,不要再去估計了。如果認為參數(shù)未知,則如上一題那樣還要在下面估計,這涉及到用到的自由

29、度問題。 目錄 Back Next為了計算簡便,再考慮到所有數(shù)據(jù)在0100之間,我們把區(qū)間0,72)分成9等分,把72,100)作為一個區(qū)間,依次得到10個區(qū)間。統(tǒng)計各個區(qū)間上觀測值的頻數(shù),填入下表。區(qū)間分割0,8)8,16)16,24)24,32)32,40)40,48)48,56)56,64)64,72)72,100)頻數(shù)nk51292114862321理論概率pk0.3716210.2335190.1467380.0922070.0579410.0364090.0228790.0143760.0090340.012271理論頻數(shù)Npk50.9120531.9920720.1031512.

30、63247.9379394.9880353.1343771.9695781.2376411.68113在原假設成立的情況下,計算如下概率:將計算結果也列在同一表中。利用所得概率可以計算出N137次觀測中各個區(qū)間上觀測值的理論頻數(shù),計算結果也列在表中。 目錄 Back Next原假設成立時,。這里k10,r0。給定檢驗水平,可查表求得,否定域為。計算統(tǒng)計量的值,所以不否定原假設,認為.通過這兩個例子大家應該清楚總體分布的Pearson擬合檢驗法了。這是一個幾乎可以解決所有問題的通用方法。作業(yè):還是自己完成計算。 目錄 Back Next例11、概率紙檢驗法概率紙是一張坐標紙。每一個分布都對應一張

31、概率紙,其橫坐標與普通坐標系的橫坐標沒有區(qū)別,但是其縱坐標的刻度依賴于分布函數(shù)F(x)。如果總體X的分布函數(shù)為F(x),那么在這個分布函數(shù)對應的概率紙上,函數(shù)yF(x)是一條直線。所以將觀測數(shù)據(jù)構成的點點在概率紙上,除了兩端的點外(因為在數(shù)據(jù)的兩個極端附近,數(shù)據(jù)必然較少,經(jīng)驗分布函數(shù)與總體分布函數(shù)會有較大差距),應該呈直線狀。常用的概率紙有正態(tài)概率紙、對數(shù)正態(tài)概率紙、威布爾(Weibull)分布概率紙等。在MATLAB中有專門的命令來處理,極易。 目錄 Back Next用概率紙法檢驗例7中的數(shù)據(jù),看總體是否服從正態(tài)分布。用MATLAB完成:h=normplot(x)可以看出總體顯然不是正態(tài)分

32、布的。 目錄 Back Next再看看其Weibull分布概率圖:h=weibplot(x)從此圖看,用Weibull分布比較合理。 目錄 Back Next 實際上指數(shù)分布是威布爾分布的一個特例,威布爾分布有兩個參數(shù),記為W(m,),其分布函數(shù)如下:其中m>0叫形狀參數(shù),>0叫刻度參數(shù)。更一般的形式:將上面的x改為x-r,r叫位置參數(shù)。m=1時即為指數(shù)分布。參見現(xiàn)代數(shù)學手冊隨機數(shù)學卷。 目錄 Back next獨立性檢驗獨立性檢驗例12、中央民族大學教育學研究室的課題“學習成績與道德的認識水平之間的關系”要研究的問題是,學生的學習成績與道德認識水平有關系嗎?他們將學生的學習成績分

33、為優(yōu)、良、中、差四個等級,將道德認識水平分為好、中上、中下、差四檔,隨機調(diào)查了150名同學,調(diào)查結果如下表: B道德A學習 nij20810295401416002186260111233525514430n150從調(diào)查數(shù)據(jù)看,道德認識水平與學習成績有沒有關系?目錄 Back Next 我們在這個例子里要為大家介紹獨立性檢驗的概念。如果用X表示學習成績,Y表示道德認識水平,都是量化的數(shù)量指標,那么(X,Y)是二元隨機變量。我們要檢驗的是X與Y是否獨立。所以原假設是。那么怎樣檢驗呢?我們把X的取值范圍分成四個部分,即所謂的優(yōu)、良、中、差四個等級,分別用表示;將Y的取值范圍也分為四個部分,即好、中

34、上、中下、差四檔,分別用表示。則原假設“”成立時,我們必有那么,表中調(diào)查數(shù)據(jù)支持上面的這些等式嗎? 目錄 Back Next我們用表中數(shù)據(jù)將上面等式中的各個概率一一估計出來,原假設成立的時候,應該有或構造如下統(tǒng)計量:若H0成立,則當時,這個統(tǒng)計量的分布收斂到。 目錄 Back Next至少在樣本容量n較大的時候,我們可以近似地認為,從而構造否定域。事實上,當H0成立時,不應該太大,所以給定檢驗水平,否定域為。 在本例中,rs4,我們?nèi)?,查表得。統(tǒng)計量的觀測值為因為所以否定原假設,認為道德認識水平與學習成績有之間不獨立,有顯著的關系。作業(yè):還是自己完成計算。 目錄 Back next相關分析 相

35、關分析與回歸分析簡介 在前面討論了兩個隨機變量X與Y之間的獨立性檢驗問題。我們要清楚,研究的對象是二元隨機變量(X,Y),利用的是成對觀測數(shù)據(jù)。如果數(shù)據(jù)否定了獨立性假設,那么X與Y之間的關系應該怎樣描述呢?這是一個非常復雜的問題。下面我們通過實例介紹一點處理這類問題思路。 目錄 Back Next例13、下表是德國1955年至1995年男性與女性得腸癌的逐年病例數(shù)記錄。從常識上看,在同一國家,男性與女性的生活飲食環(huán)境類似,所以兩者犯病的可能性也應該有一定的關系。從統(tǒng)計的角度刻畫兩者的關系。女性男性女性男性女性男性39364356105888921136841019641384623109959

36、080136269967444347691122891061386510258459447691158194751382110410501951931201296801418610747543952601237910159139651069057105390127719966139821073965586087128351029214444111517122656313210103031428611021764167811261298161395311039812571421295199891388211041845975601278198188719745112837986110220860

37、2133159869104448540132099952 目錄 Back Next 分別用X和Y表示男性與女性得腸癌的病例數(shù)。我們簡單地用上面的數(shù)據(jù)繪制一張散點圖,可以看出來X與Y之間有密切關系,二者顯然不獨立。它們是什么樣的關系呢?回顧一下概率論里學過的一個重要概念相關系數(shù)。我們可以用相關系數(shù)來刻畫這種關系。所以,我們要學會利用樣本估計、檢驗總體相關系數(shù)的方法。 目錄 Back Next首先引入如下樣本相關系數(shù)的概念:對二元總體(X,Y)的樣本,定義樣本相關系數(shù)為其中分別為X和Y的樣本方差,叫X與Y之間的樣本協(xié)方差。這是第三個重要統(tǒng)計量,與總體相關系數(shù)相對應。例如,利用本例中的數(shù)據(jù)可求得樣本

38、相關系數(shù)為。那么,怎樣充分發(fā)揮這個統(tǒng)計量的作用呢?下面我們講講如何利用它對總體相關系數(shù)作假設檢驗和區(qū)間估計。 目錄 Back Next 1、原假設為對立假設為 在原假設成立的情況下,可以證明下面的統(tǒng)計量服從自由度為n-2的t分布: 所以給定檢驗水平,可得原假設的否定域。(圖) 本例中我們?nèi)〔楸淼?,而,否定原假設,認為男女患腸癌人數(shù)之間存在高顯著相關性,而且是正相關。 目錄 Back Next2、原假設為對立假設為 英國統(tǒng)計學家Fisher提出了如下統(tǒng)計量,其中如果原假設成立,那么當n充分大時,Z近似服從N (0,1)分布。所以給定檢驗水平,原假設的否定域為。本例中n41比較大,可用此統(tǒng)計量。我

39、們檢驗一下原假設。計算統(tǒng)計量的值: 目錄 Back Next查標準正態(tài)分布表易知,對于任給的一個檢驗水平,一般都有,所以否定原假設,認為。這個結果還提示我們,應該有那么是否會有呢?我們提出如下原假設,再做單邊檢驗 目錄 Back Next3、一般地,可以證明在成立的情況下,所以,成立時,給定檢驗水平,有,所以,還是用上面給的統(tǒng)計量Z,可得否定域本例中我們?nèi)〔楸淼?,而,否定原假設,認為男女患腸癌人數(shù)之間的相關系數(shù)比0.95還要大。那么,這個相關系數(shù)到底有多大呢?我們下面做一個區(qū)間估計。 目錄 Back Next3、 區(qū)間估計 我們要對相關系數(shù)作區(qū)間估計,就要找一個樞軸變量。在n較大的時候,選用 即可,這時近似地。所以給定置信水平,有 目錄 Back Next所以的置信水平為的置信區(qū)間為.本例中,我們?nèi)?,可得從而的置信水平?.95的置信區(qū)間為0.9898,0.9971,可見男女患腸癌人數(shù)之間的相關系數(shù)是非常高的。作業(yè):完成計算! 目錄 Back Next 但是要注意,這不說明兩者之間有因果關系。我們也不會找一個由X計算Y或由Y計算X的公式,因為一般情況下這兩個數(shù)總是同時觀測到的。此例表明,相關系數(shù)可以刻畫兩個量之間的線性關系的強弱,但是為什么有這種關系,則不是統(tǒng)計學可以解決

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論