




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、第三章概率分布1陽山書屋c第一節(jié)事件與概率一、事件(一)必然事件在一定條件下必然會發(fā)生的事件稱為必然事件(certain event),用U表示。例如,在標準大氣壓下,水加熱到100必然沸騰;步行條件下必然不可能到達月球等。(二)不可能事件在一定條件下不可能發(fā)生的事件稱為不可能事件(impossible event),用V表示。例如,在滿足一定孵化條件下,從石頭孵化出雛雞;種子發(fā)芽率不可能超過100%,(三)隨機事件在一定條件下可能發(fā)生,也可能不發(fā)生,稱為隨機事件(random event),簡稱事件(event),通常用A、B、C等來表示。二、概率在相同條件下進行n次重復試驗,如果隨機事件A
2、發(fā)生的次數(shù)為m,那么m/n稱為隨機事件A的頻率(frequency);當試驗重復數(shù)n逐漸增大時,隨機事件A的頻率越來越穩(wěn)定地接近某一數(shù)值p,那么就把p稱為隨機事件A的概率。在一般情況下,隨機事件的概率p是不可能準確得到的。通常以試驗次數(shù)n充分大時隨機事件A的頻率作為該隨機事件概率的近似值。即 P(A)=pm/n (n充分大)概率有如下基本性質: 1、對于任何事件A,有0P(A)1;2、必然事件的概率為1,即P(U)=1;3、不可能事件的概率為0,即P(V)=0。三、概率計算(一)事件的相互關系1、和事件事件A和事件B至少有一件發(fā)生而構成的新事件稱為事件A和事件B的和事件,以AB表示。2、積事件
3、事件A和事件B同時發(fā)生,以AB表示3、互斥事件事件A和事件B不能同時發(fā)生,AB=V如新生兒男為A,女為B4、對立事件A和B必有一個發(fā)生,但二者不能同時發(fā)生,即ABU, AB=V 。B為A對立事件,可表示為A5、獨立事件A的發(fā)生與B沒有關系如播種玉米時,一穴中播種2粒,第一粒發(fā)芽與否與第2位無關系6、完全事件系如果多個事件A1、A2An兩兩排斥,每次必然發(fā)生其一, A1、A2An稱為完全事件。如隨機抽取一位阿拉伯數(shù)字,數(shù)字09構成完全事件。(二)概率計算法則1、加法定理互斥事件A和B的和事件的概率等于事件A和B的概率之和,即 P(A+B)=P(A)+P(B)例:調(diào)查某玉米田,一穗占67.2%,雙
4、穗占30.7%,空穗占2.1%,計算一穗株和雙穗株的概率P(A+B)=P(A)+P(B)=0.672+0.307=0.979推理1: A1、A2An為n個互斥事件,其和事件的概率為:P(A1+A2+An)=P(A1)+P(A2)+P(An)推理2:對立事件的A的概率為: P(A)=1P(A)推理3:完全事件系的和事件的概率12、乘法定理A和B為獨立事件,則A與B同時發(fā)生的概率為: P(AB)=P(A) P(B)播種玉米時,每穴2粒,種子的發(fā)芽率為90%,求兩粒種子均發(fā)芽和一粒種子發(fā)芽的概率。兩粒種均發(fā)芽: P(AB)=P(A) P(B)=0.90.9=0.81一粒種子發(fā)芽的概率:P(AB)+P
5、(AB)=P(A) P(B)+ P(A) P(B) = 0.90.1 + 0.10.9=0.18推理:如果A1、A2An為彼此獨立,則:P(A1A2An)=P(A1) P(A2) P(An)四、概率分布(一)離散型變量的概率分布離散型隨機變量x的一切可能取值xi (i=1,2,),及其對應的概率pi,記作P(x=xi)=pi i=1,2, (二)連續(xù)型變量的概率分布連續(xù)型變量,可通過分組整理成頻率分布表。如果從總體中抽取樣本n相當大,則頻率分布就趨于穩(wěn)定,我們將它近似地看成總體概率分布。圖4-1 表2-7資料的分布曲線若概率分布密度函數(shù)為f(x),則x取值于區(qū)間a,b的概率為圖中陰影部分的面積
6、,即: P(axb)= 連續(xù)型隨機變量概率分布性質:分布密度函數(shù)總是大于或等于0,即f(x)0; 當隨機變量x取某一特定值時,其概率等于0;即 (c為任意實數(shù)) 在一次試驗中隨機變量x之取值必在-x+范圍內(nèi),為一必然事件。所以表示分布密度曲線下、橫軸上的全部面積為1。 第二節(jié)幾種常見的理論分布一、二項分布在生物學研究中,我們經(jīng)常碰到的一類離散型隨機變量,如動物雄性還是雌性、種子發(fā)芽與不發(fā)芽、后代的成活與死亡等。這樣的結果只能是非此即彼兩種情況,構成對立事件。我們把這種非此即彼事件所構成的總體,稱為二項總體,其分布稱為二項分布。(一)二項分布的概率函數(shù)二項總體,具有的共同特征:(1)每次試驗只有
7、兩個對立結果,記作A與A,它們出現(xiàn)的概率分別為p與q(q=1-p)(2)試驗具有重復性和獨立性。重復性是指每次試驗條件不變,A出現(xiàn)的概率為p。獨立性是指任何一次試驗中事件A的出現(xiàn)與其余各次試驗中出現(xiàn)的何種結果無關。以x表示在n次試驗中事件A出現(xiàn)的次數(shù)。x取的值為零和正整數(shù):0,1,2,,n,其概率分布函數(shù)為:P(X)為x的二項分布,記作B(n, p)。二項分布是因為Cnxpxqn-x恰好等于二項式(p+q)n按牛頓二項式展開含有px的相應各項:Excel二項分布計算方法:=BINOMDIST(x,n,p,false)說明:x為試驗成功數(shù);n為觀察數(shù)或試驗次數(shù);p為概率;由于(p+q)n=1,上
8、式可寫為:理論次數(shù)則以單位總數(shù)N乘以各項概率:理論次數(shù)NP(x)二項分布的概率累積函數(shù)可用下式表示:Excel二項分布的概率累積函數(shù)計算方法:=BINOMDIST(x,n,p,true)說明:x為試驗成功數(shù);n為觀察數(shù)或試驗次數(shù);p為概率;相當于小于x的累積概率(二)二項分布概率計算例1豌豆的紅花純合基因型和白花純合基因型雜交后,在F2代紅花與白花植株的比率為3:1,若每次隨機觀察4株,共觀察100次,問得紅花為0株、1株、2株、3株和4株的概率各為多少?解:紅花概率0.75,白花概率0.25,觀察數(shù)n=4代入公式例2:某批雞種蛋的孵化率是0.90,今從該批種蛋中每次任選5個進行孵化,試求孵出
9、小雞的各種可能概率。解:n=5,p=0.9,q=0.1,每次孵化5個種蛋服從二項分布B(5,0.90)。0只小雞:P(0)=C50p0q5=10.9000.1051只小雞:P(1)=C51p1q4=50.9010.1042只小雞:P(2)=C52p2q3=100.9020.1033只小雞:P(3)=C53p3q2=100.9030.1024只小雞:P(4)=C54p4q1=50.9040.1015只小雞:P(5)=C55p5q0=10.9050.100例3某小麥品種在田間出現(xiàn)自然變異植株的概率為0.0045,試計算:(1)調(diào)查100株,獲得2株或以上變異的概率是多少?(2)期望有0.99的概率
10、獲得1株或1株以上的變異植株,至少應調(diào)查多少株?解:(1)0株:P(0)=C1000p0q100=10.004500.99551000.63701株:P(1)=C1001p1q99=1000.004510.995599=0.28792株以上變異概率為:P(x2)=1-P(0)-P(1)=0.0751(2)應調(diào)查的株數(shù)滿足P(0)=Cn0p0qn=0.01 0.9955n=0.01 nlg0.9955=lg0.01 n=lg0.01/lg0.9955=1021因此,期望有0.99概率得到1株或1株以上變異植株,應至少調(diào)查1021株。(二)二項分布的形狀和參數(shù)1、二項分布的形狀由n和p兩個參數(shù)決定
11、(1)當p值較小且n值不大時,圖形是偏倚的。隨著n值的增大,分布逐漸趨于對稱。(2)當p值趨于0.5時,分布趨于對稱。圖49 n值不同的二項分布比較 圖410 p值不同的二項分布比較2、二項分布的參數(shù)總體平均數(shù)(次數(shù)): x=np總體標準差(次數(shù)): x=如例1,n=4, p=0.75,可求紅花出現(xiàn)的株數(shù)為40.75=3株,=(40.750.25)1/2=0.866株二項百分數(shù)的平均數(shù)p=p二項百分數(shù)的標準差x=(pq/n)1/2二、泊松分布在生物學研究中,有許多事件出現(xiàn)的概率很小,而樣本容量或試驗次數(shù)卻很大,即有很小的p值和很大的n值。這時,二項分布變成泊松(poisson)分布。如顯微鏡視
12、野內(nèi)染色體有變異的細胞計數(shù)、由突變引起的遺傳病患的分布、田間小區(qū)內(nèi)出現(xiàn)變異植株數(shù)、作物種子內(nèi)雜草計數(shù)、單位容積中的細菌數(shù)目分布、家畜產(chǎn)怪胎數(shù)等都屬于泊松分布。 若隨機變量x(x=k)只取零和正整數(shù)值0,1,2,且其概率分布為:,k=0,1, 其中=np0;e=2.7182是自然對數(shù)的底數(shù),則稱x服從參數(shù)為的波松分布(Poissons distribution),記為P()。泊松分布平均數(shù)=方差2=。利用這一特征, 可以初步判斷一個離散型隨機變量是否服從泊松分布。 泊松分布的形狀由參數(shù)確定。值愈小分布愈偏倚,隨著的增大,分布趨于對稱。當=20時分布接近于正態(tài)分布;當=50時,可以認為波松分布呈正
13、態(tài)分布。所以在實際工作中,當20時就可以用正態(tài)分布來近似地處理波松分布的問題。 不同的波松分布泊松分布應用條件:小概率事件p0.1,np5。例1:為監(jiān)測飲用水的污染情況, 現(xiàn)檢驗某社區(qū)每毫升飲用水中細菌數(shù), 共得400個記錄如下 試分析飲用水中細菌數(shù)的分布是否服從波松分布。若服從,按泊松分布計算每毫升水中細菌數(shù)的概率及理論次數(shù)并將次數(shù)分布與泊松分布作直觀比較。經(jīng)計算得每毫升水中平均細菌數(shù)x=0.500= ,方差S2=0.496。兩者很接近, 故可認為每毫升水中細菌數(shù)服從波松分布。 Excel計算:0次:=poisson(0,0.5,false)1次:=poisson(1,0.5,false)3
14、次:1-poisson(2,0.5,true)False:符合條件的泊松概率密度函數(shù)True:符合條件的泊松累積分布概率理論數(shù)N各p例2:某小麥品種在田間出現(xiàn)自然變異植株的概率為0.0045,試計算:(1)調(diào)查100株,獲得2株或以上變異的概率是多少?(2)期望有0.99的概率獲得1株或1株以上的變異植株,至少應調(diào)查多少株?解: =np=1000.0045=0.45P(2)=1-poisson(1,0.45,true)=0.0755調(diào)查株數(shù):e-=e-np=0.01n=-ln0.01/p=-LN(0.01)/0.0045=1023株三、正態(tài)分布正態(tài)分布是一種很重要的連續(xù)型隨機變量的概率分布。生
15、物現(xiàn)象中有許多變量是服從或近似服從正態(tài)分布的,如家畜的體長、體重、產(chǎn)奶量、產(chǎn)毛量、血紅蛋白含量、血糖含量等。許多統(tǒng)計分析方法都是以正態(tài)分布為基礎的。此外,還有不少隨機變量的概率分布在一定條件下以正態(tài)分布為其極限分布。因此在統(tǒng)計學中,正態(tài)分布無論在理論研究上還是實際應用中,均占有重要的地位。(一) 正態(tài)分布的定義若連續(xù)型隨機變量x的概率分布密度函數(shù)為其中為平均數(shù),2為方差,則稱隨機變量x服從正態(tài)分布(normal distribution), 記為xN(,2)。相應的概率累積函數(shù)為圖42 正態(tài)分布密度曲線(二) 正態(tài)分布的特征1、當x=時,f(x)值最大,所以正態(tài)分布曲線是以平均數(shù)為中心的分布。
16、2、當x-的絕對值相等時,f(x)值也相等,所以正態(tài)分布是為中心向左右兩側對稱分布3、(x-)/的絕對值越大,f(x)越小,但不會為04、正態(tài)分布曲線由和決定的。確定正態(tài)分布在x軸上的中心位置,確定正態(tài)分布的變異度。相同而不同的三個正態(tài)分布相同而不同的三個正態(tài)分布5、曲線在x=處各有一個拐點,即曲線在(-,-)和(+,+) 區(qū)間上是下凸的,在-,+區(qū)間內(nèi)是上凸的; 6、分布密度曲線與橫軸所夾的面積為1(三)標準正態(tài)分布由上述正態(tài)分布的特征可知,正態(tài)分布是依賴于參數(shù)和2, 正態(tài)曲線之位置及形態(tài)隨和2的不同而不同。這就給研究具體的正態(tài)總體帶來困難, 需將一般的N(,2)轉換為=0,2=1的正態(tài)分布
17、。我們稱=0,2=1的正態(tài)分布為標準正態(tài)分布(standard normal distribution),記作N(0,1) 。令u=(x-),正態(tài)分布概率分布密度函數(shù)可標準化為:f(u)=相應的概率累積函數(shù)為F(ui)=P(uui)i對于u在區(qū)間a,b的概率,有ab(三)正態(tài)分布的概率計算正態(tài)分布的概率累積函數(shù)具有廣泛應用,所以統(tǒng)計學家已計算好實際需要的各個F(u)值,列于附表1。在計算一般正態(tài)分布的概率時,只需將服從正態(tài)分布的隨機變量x取值區(qū)間的上、下限,按u=(x-)轉換,并查附表1即可。附表1,左側縱列表示a,上側橫行表示b如果手頭沒有附表1,可在Excel中輸入“=NORMSDIST(
18、數(shù)據(jù))”即可查出。注意p(u)是指-到u例1,設u服從正態(tài)分布N(0,1),試求P(u1), P(-2.02.58)。解: P(u1)=1- P(u1)=0.1587P(-2.02.58)=P(u2.58)+P(u-2.58) =1-F(2.58)+F(-2.58)=0.00988例2,試計算概率值(1)P(- x+)解:u1=(x-)/=-1 u2= =(x-)/ =1P(- x+)= P(-1x1)(2)P(- 2x+2)(3)P(- 3x+3)(4)P(- 1.96+1.96)(6)P(|x|+2.58)從上述計算可知,|u|2.58概率是0.01, |u|1.96是0.05,也就是說1
19、.96和2.58范圍內(nèi)已分別包含了95%和99%的變量。例3,隨機抽取20株小麥,其株高(cm)分別為8279858486848382838384818081828182828280計算(1)小麥株高的95%正常值范圍(2)株高85cm的概率第三節(jié)抽樣分布 研究總體與從中抽取的樣本之間的關系是統(tǒng)計學的中心內(nèi)容。對這種關系的研究可從兩方面著手,一是從總體到樣本,這就是研究抽樣分布(sampling distribution)的問題; 二是從樣本到總體,這就是統(tǒng)計推斷(statistical inference)問題。 統(tǒng)計推斷是以總體分布和樣本抽樣分布的理論關系為基礎的。為了能正確地利用樣本去推
20、斷總體,并能正確地理解統(tǒng)計推斷的結論,須對樣本的抽樣分布有所了解。一、樣本平均數(shù)抽樣分布由總體隨機抽樣(random sampling)的方法可分為有返置抽樣和不返置抽樣兩種。 前者指每次抽出一個個體后,這個個體應返置回原總體;后者指每次抽出的個體不返置回原總體。對于無限總體,返置與否都可保證各個體被抽到的機會相等。對于有限總體,就應該采取返置抽樣,否則各個體被抽到的機會就不相等。(一)樣本平均數(shù)的分布設有一個總體,總體平均數(shù)為,方差為2,總體中各變數(shù)為x, 將此總體稱為原總體。現(xiàn)從這個總體中隨機抽取含量為n的樣本,樣本平均數(shù)記為x??梢栽O想,從原總體中可抽出很多甚至無窮多個含量為n的樣本。由
21、這些樣本算得的平均數(shù)有大有小,不盡相同,與原總體平均數(shù)相比往往表現(xiàn)出不同程度的差異。這種差異是由隨機抽樣造成的, 稱為抽樣誤差(sampling error)。顯然,樣本平均數(shù)也是一個隨機變量,其概率分布叫做樣本平均數(shù)的抽樣分布。由樣本平均數(shù)x構成的總體稱為樣本平均數(shù)的抽樣總體,其平均數(shù)和標準差分別記為x和x 。 x是樣本平均數(shù)抽樣總體的標準差,簡稱標準誤(standard error),它表示平均數(shù)抽樣誤差的大小。 由抽樣試驗及統(tǒng)計學證明,樣本平均數(shù)有以下性質:(1)樣本平均數(shù)分布的平均數(shù)等于總體平均數(shù),即x=(2)樣本平均數(shù)分布的方差等于總體方差除以樣本容量:樣本平均數(shù)的標準誤差:(3)如
22、果從正態(tài)總體N(,2)進行抽樣,其樣本平均數(shù)x是一具有平均數(shù)、方差2/n的正態(tài)分布,記作N(,2/n)(4)若被抽樣總體不是正態(tài)分布,但具有平均數(shù)、方差2,當樣本容量n不斷增大,樣本平均數(shù)x的分布也越來越接近正態(tài)分布,且具有平均數(shù)、方差2/n,這叫做中心極限定理。這個性質對連續(xù)型變量或非連續(xù)型變量都適用。不論總體為何分布,只要樣本容量n30,就可應用中心極限定理,認為樣本平均數(shù)x的分布是正態(tài)分布。在計算樣本平均數(shù)出現(xiàn)的概率時,樣品平均數(shù)x可按下式進行標準化:(二)樣本平均數(shù)差數(shù)的分布設兩個相互獨立的正態(tài)總體,N1和N2,分別抽樣,樣本平均數(shù)差數(shù)分布的基本性質有:(1)樣本平均數(shù)的平均數(shù)等于總體平均數(shù)的差數(shù),即:x1-x2=1-2(2)樣本平均數(shù)差數(shù)的方差等于兩樣本平均數(shù)方差除以各自樣本容量之和,即樣本平均數(shù)差數(shù)的標準誤:(3)從兩個獨立正態(tài)總體中抽出的樣本平均數(shù)差數(shù)的分布,也是正態(tài)分布,并具有平均數(shù)1-2,方差,記作(1-2,)二、t分布前面在計算樣本平均數(shù)分布和樣本平均數(shù)差數(shù)分布的概率時,需要總體方差2為已知,或者2未知但樣本容量較大(n30),用樣本方差s2估計2 。但在實際研究中,經(jīng)常遇到總體方差2未知且樣本容量不大(n1)t分布的方差t=df/(df-2)(df2)t分布特征(1)t分布曲線是左右對稱
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年五月份文物數(shù)字化重建模型權屬處理條款
- 二零二五版房地產(chǎn)增資入股合作協(xié)議書
- 低價物流倉庫出租合同樣本
- 帷幕灌漿工程準灌證
- 入股股東轉讓合同樣本
- 仿古瓷磚采購合同樣本
- 新起點小學一年級英語教案-Unit3-Animals
- 智慧廠區(qū)方案
- 石子采購合同
- 培訓機構管理制度匯編
- 政策目標確立和方案制定概述課件
- 六年級下冊英語課件-Unit 4 Lesson 23 Good-bye-冀教版(共19張PPT)
- 硬筆書法全冊教案共20課時
- 張波-超高溫陶瓷課件
- 資源環(huán)境信息系統(tǒng)(gis)課件
- 特洛伊戰(zhàn)爭(英文版)
- 近代以來廣州外貿(mào)產(chǎn)業(yè)的發(fā)展歷程
- DBJ04-T 410-2021城市停車場(庫)設施配置標準
- 車站主體結構模板支架專項施工方案--終稿(專家意見修改的)-副本
- 保潔崗位培訓
- 麗聲北極星自然拼讀繪本第二級 Pad, Pad, Pad! 課件
評論
0/150
提交評論