




已閱讀5頁,還剩102頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
,第四章 理論分布和抽樣分布,第一節(jié) 事件、概率和隨機(jī)變量 第二節(jié) 二項式分布 第三節(jié) 正態(tài)分布 第四節(jié) 抽樣分布,第一節(jié) 事件、概率和隨機(jī)變量,一、事件和事件發(fā)生的概率 二、事件間的關(guān)系 三、計算事件概率的法則 四、隨機(jī)變量,一、事件和事件發(fā)生的概率,事件 -在自然界中一種事物,常存在幾種可能出現(xiàn)的情況,每一種可能出現(xiàn)的情況稱為事件。 隨機(jī)事件(random event) -某特定事件只是可能發(fā)生的幾種事件中的一種,這種事件稱為隨機(jī)事件。 概率(probability) -每一個事件出現(xiàn)的可能性稱為該事件的概率。 必然事件-對于一類事件來說,在同一組條件的實現(xiàn)之下必然要發(fā)生的,稱為必然事件;其概率為1。 不可能事件 -對于一類事件來說,在同一組條件的實現(xiàn)之下必然不發(fā)生的,稱為不可能事件,其概率為0。,事件發(fā)生的可能性(概率)是在大量的實驗中觀察得到的, 例如棉田發(fā)生盲蝽象為害的情況,并不是所有的棉株都受害,隨著觀察的次數(shù)增多,我們對棉株受害可能性程度大小的把握越準(zhǔn)確、越穩(wěn)定。這里將一個調(diào)查結(jié)果列于表4.1。,表4.1 在相同條件下盲蝽象在某棉田危害程度的調(diào)查結(jié)果,由表4.1可以看到:調(diào)查5株時,有2株受害,受害株的頻率為40%,調(diào)查25株時受害頻率為48%,調(diào)查100株時受害頻率為33%。可以看出三次調(diào)查結(jié)果有差異,說明受害頻率有波動、不穩(wěn)定。而當(dāng)進(jìn)一步擴(kuò)大調(diào)查的單株數(shù)時,發(fā)現(xiàn)頻率比較穩(wěn)定了,調(diào)查500株到2000株的結(jié)果是受害棉株穩(wěn)定在35%左右。 現(xiàn)以n代表調(diào)查株數(shù),以a代表受害株數(shù),那么可以計算出受害頻率p=a/n。從棉株受害情況調(diào)查結(jié)果看,頻率在n取不同的值時,盡管調(diào)查田塊是相同的,頻率p卻不同,只有在n很大時頻率才比較穩(wěn)定一致。因而,調(diào)查株數(shù)n較多時的穩(wěn)定頻率才能較好地代表棉株受害的可能性。,統(tǒng)計學(xué)上用n較大時穩(wěn)定的p近似代表概率。通過大量實驗而估計的概率稱為實驗概率或統(tǒng)計概率,以表示。此處P代表概率,P(A)代表事件A的概率,P(A)變化的范圍為01,即0P(A)1。,小概率原理-若事件A發(fā)生的概率較小,如小于0.05或0.01,則認(rèn)為事件A在一次試驗中不太可能發(fā)生,這稱為小概率事件實際不可能性原理,簡稱小概率原理。這里的0.05或0.01稱為小概率標(biāo)準(zhǔn),農(nóng)業(yè)試驗研究中通常使用這兩個小概率標(biāo)準(zhǔn)。,二、事件間的關(guān)系,(一) 和事件 (二) 積事件 (三) 互斥事件 (四) 對立事件 (五) 完全事件系 (六) 事件的獨立性,(一) 和事件,事件A和B至少有一個發(fā)生而構(gòu)成的新事件稱為事件A和B的和事件,記為A+B,讀作“或A發(fā)生,或B發(fā)生”。 例如,有一批種子,包含有能發(fā)芽的和不能發(fā)芽的。若A為“取到能發(fā)芽種子”,B為“取到不能發(fā)芽種子”,則A+B為“或者取到能發(fā)芽種子或者取到不能發(fā)芽種子”。 事件間的和事件可以推廣到多個事件:事件A1、A2、An至少有一發(fā)生而構(gòu)成的新事件稱為事件A1、A2、An的和事件,記為A1+A2+An=,(二) 積事件,事件A和B同時發(fā)生所構(gòu)成的新事件稱為事件A和B的積事件,記作AB,讀作“A和B同時發(fā)生或相繼發(fā)生”。 事件間的積事件也可以推廣到多個事件:事件A1、A2、An同時發(fā)生所構(gòu)成的新事件稱為這n個事件的積事件,記作A1A2An=,(三) 互斥事件,事件A和B不可能同時發(fā)生,即AB為不可能事件,記作AB=V,稱事件A和B互斥或互不相容。 例如,有一袋種子,按種皮分黃色和白色。若記A為“取到黃色”,B為“取到白色”,顯然A和B不可能同時發(fā)生,即一粒種子不可能既為黃色又為白色,說明事件A和B互斥。 這一定義也可以推廣到n個事件。事件A1、A2、An不可能同時發(fā)生所構(gòu)成的新事件稱為這n個事件互斥或互不相容,記作A1A2An=V 。,(四) 對立事件,事件A和B不可能同時發(fā)生,但必發(fā)生其一,即A+B為必然事件(記為A+B=U),AB為不可能事件(記為AB=V),則稱事件B為事件A的對立事件,并記B為 。 例如,上面例子中A為“取到黃色”,B為“取到白色”,A與B不可能同時發(fā)生,但是,任意抽取一粒種子,其皮色不是黃色就是白色,即A和B必發(fā)生其一,因此,A和B互為對立事件。,積事件AB,和事件A+B,A,B,A,B,互斥事件,對立事件,A,B,(五) 完全事件系,若事件A1、A2、An兩兩互斥,且每次試驗結(jié)果必發(fā)生其一,則稱A1、A2、An為完全事件系。 例如,僅有三類花色:黃色、白色和紅色,則取一朵花,“取到黃色”、“取到白色”和“取到紅色”就構(gòu)成完全事件系。,(六) 事件的獨立性,若事件A發(fā)生與否不影響事件B發(fā)生的可能性,則稱事件A和事件B相互獨立。 例如,事件A為“花的顏色為黃色”,事件B為“產(chǎn)量高”,顯然如果花的顏色與產(chǎn)量無關(guān),則事件A與事件B相互獨立。,三、計算事件概率的法則,(一) 互斥事件的加法 (二) 獨立事件的乘法 (三) 對立事件的概率 (四) 完全事件系的概率 (五) 非獨立事件的乘法,(一) 互斥事件的加法,假定兩互斥事件A和B的概率分別為P(A)和P(B)。則事件A與B的和事件的概率等于事件A的概率與事件B的概率之和,即P(A+B)=P(A)+P(B)。 加法定理對于多個兩兩互斥的事件也成立:假定A1、A2、An n個事件彼此間均是兩兩互斥的事件,其概率依次為P(A1),P(A2),P(An),則A1,A2到An和事件的概率P(A1+A2+ +An)等于P(A1),P(A2),P(An)之和,即P(A1+A2+ +An)=P(A1)+P(A2)+ +P(An)。,例如,一捆花中紅、黃、白花的概率分別為0.2、0.3、0.5,那么我們隨機(jī)抽取一朵非白色花的概率為0.5(=0.2+0.3),這只是由加法定理得到的兩個事件概率之和。,(二) 獨立事件的乘法,假定P(A)和P(B)是兩個獨立事件A與B各自出現(xiàn)的概率,則事件A與B同時出現(xiàn)的概率等于兩獨立事件出現(xiàn)概率P(A)與P(B)的乘積,即P(AB)=P(A)P(B) 乘法定理對于n個相互獨立的事件也成立。假定P(A1),P(A2),P(An)是n個相互獨立事件各自出現(xiàn)的概率,則該n個事件同時出現(xiàn)的概率P(A1A2An)等于各自出現(xiàn)概率之乘積,即P(A1A2An)=P(A1)P(A2)P(An)。,現(xiàn)有4粒種子,其中3粒為黃色、1粒為白色,采用復(fù)置抽樣。試求下列兩事件的概率: (A)第一次抽到黃色、第二次抽到白色; (B)兩次都抽到黃色。 由于采用復(fù)置抽樣(即每一次抽出觀察結(jié)果后又放回再進(jìn)行下一次抽樣),所以第一次和第二次的抽樣結(jié)果間是相互獨立的。,采用概率的古典定義,可以求出抽到黃色種子的概率為0.75,抽到白色種子的概率為0.25。因此,有,P(A)=P(第一次抽到黃色種子)P(第二次抽到白色種子) =0.250.75=0.1875, P(B)=P(第一次黃色種子)P(第二次黃色種子) =0.750.75=0.5625。,(三) 對立事件的概率,若事件A的概率為P(A),那么其對立事件的概率為:,(四) 完全事件系的概率,完全事件系的概率為1。,例如“從10個數(shù)字中隨機(jī)抽得任何一個數(shù)字都可以”這樣一個事件是完全事件系,其概率為1。,(五) 非獨立事件的乘法,如果事件A和B是非獨立的,那么事件A與B同時發(fā)生的概率為事件A的概率P(A)乘以事件A發(fā)生的情況下事件B發(fā)生的概率P(B|A),即:P(AB)=P(A)P(B|A),四、隨機(jī)變量,隨機(jī)變量是指隨機(jī)變數(shù)所取的某一個實數(shù)值。,例1:拋硬幣試驗,硬幣落地后只有兩種可能結(jié)果:幣值面向上和國徽面向上,用數(shù)“1”表示“幣值面向上”,用數(shù)“0”表示“國徽面向上”。把0,1作為變量y的取值。在討論試驗結(jié)果時,就可以簡單地把拋硬幣試驗用取值為0,1的變量來表示。 P(y=1)=0.5,P(y=0)=0.5,例2:用“1”表示“能發(fā)芽種子”,其概率為p;用“0”表示“不能發(fā)芽種子”,其概率為q。顯然 p+q=1, 則 P(y=1)=p,P(y=0)=q=1p。,例3:用變量y表示水稻產(chǎn)量,若y大于500kg的概率為0.25,大于300kg且等于小于500kg的概率為0.65,等于小于300kg的概率為0.1。 則用變量y的取值范圍來表示的試驗結(jié)果為 P(y300)=0.10, P(300y500)=0.65, P(y500)=0.25。,離散型隨機(jī)變量 -當(dāng)試驗只有幾個確定的結(jié)果,并可一一列出,變量y的取值可用實數(shù)表示,且y取某一值時,其概率是確定的,這種類型的變量稱為離散型隨機(jī)變量。 將這種變量的所有可能取值及其對應(yīng)概率一一列出所形成的分布稱為離散型隨機(jī)變量的概率分布:,概率,也可用函數(shù)f(y)表述,稱為概率函數(shù)。,前面例1、例2中的y就是離散型隨機(jī)變量,將其可能取值與對應(yīng)概率一一列出,即為:,連續(xù)型隨機(jī)變量(continuous random variate) -對于隨機(jī)變量,若存在非負(fù)可積函數(shù)f(y)(y),對任意a和b(ab)都有P(ayb)= ,則稱y為連續(xù)型隨機(jī)變量(continuous random variate),f(y)稱為y的概率密度函數(shù)(probability density function)或分布密度(distribution density)。,上述例3中的y就是一個連續(xù)型隨機(jī)變量。,第二節(jié) 二項式分布,一、二項總體及二項式分布 二、二項式分布的概率計算方法 三、二項式分布的形狀和參數(shù) 四、多項式分布,一、二項總體及二項式分布,所謂二項總體( binary population ),就是非此即彼的兩項構(gòu)成的總體 例如:小麥種子發(fā)芽和不發(fā)芽,大豆子葉色為黃色和青色,調(diào)查棉田盲蝽象為害分為受害株和不受害株等等。 通常將二項總體中的“此”事件以變量“1”表示,具概率p;將“彼”事件以變量“0”表示,具概率q。因而二項總體又稱為0、1總體,其概率則顯然有:p+q=1或q=1p,如果從二項總體進(jìn)行n次重復(fù)抽樣,設(shè)出現(xiàn)“此”的次數(shù)為y,那么y的取值可能為0、1、2、n,共有n+1種可能取值,這n+1種取值各有其概率,因而由變量y及其概率就構(gòu)成了一個分布,這個分布叫做二項式概率分布,簡稱二項式分布或二項分布( binomial distribution )。,二項總體的抽樣試驗具有重復(fù)性和獨立性 重復(fù)性是指每次試驗條件不變,即在每次試驗中“此”事件出現(xiàn)的概率皆為p 獨立性是指任何一次試驗中“此”事件的出現(xiàn)與其余各次試驗中出現(xiàn)何種結(jié)果無關(guān),二、二項式分布的概率計算方法,例:在由具有一對基因差異的親本雜交形成的F2代群體中,出現(xiàn)黃色子葉的概率為0.75,出現(xiàn)青色子葉的概率為0.25,這是二項總體的概率分布。如果從這種總體抽取3(n)粒,那么得到1(y)粒是黃子葉的概率是多少呢?,抽取三粒種子(以Y代黃子葉,以G代青子葉),即n=3,有兩粒黃子葉種子,即y=2,這時有3種不同組合: GGY,GYG,YGG。出現(xiàn)第一粒,第二粒和第三粒種子是互不影響的,因此這三個事件是獨立事件,由乘法法則可得:,由于這三個事件都是相互互斥的,所以出現(xiàn)兩粒黃子葉種子(y=2)的概率為這三種概率之和:,上述結(jié)果也可以表示為:,即復(fù)合事件的概率必等于該事件出現(xiàn)的組合數(shù)目乘以單個事件的概率;而這一復(fù)合事件的可能組合數(shù)目則相當(dāng)于從n(3)個物體中任取其y(2)個物體的組合數(shù)。數(shù)學(xué)上的組合公式為:,二項式中包含兩項,這兩項的概率為p、q,并且p+q=1,可推知變量y的概率函數(shù)為:,累積函數(shù)F(y):變量小于等于y的所有可能取值的概率之和,理論次數(shù):對于任意y,理論次數(shù)=nP(y),這一分布律也稱貝努里( Bernoulli )分布,并有,的泰勒展開式為:,可以看到,上式右邊的每一項即為二項分布中變量y 取0、1、2、n時的概率,又p+q=1,從而 (p+q)n=1,例4.1 棉田盲蝽象為害的統(tǒng)計概率乃從調(diào)查2000株后獲得近似值p=0.35。現(xiàn)受害株事件為A,其概率為p=0.35,未受害株事件為對立事件,其概率q=(10.35)=0.65。這一試驗是可以重復(fù)的。假定做了n次試驗,即抽出n株為一個抽樣單位,那么,試問出現(xiàn)有y株是受害的,其概率應(yīng)有多少?,假定以n=1,即抽出一株為一個抽樣單位,這里已知P(A)=0.35和P( )=0.65,總體的理論次數(shù)分布則以n乘上述概率分布,即np和n(1p),所以有20000.35=700株受害和20000.65=1300株未受害。,如調(diào)查5株為一個抽樣單位,即n=5,則受害株數(shù)y=0,1,2,3,4和5的概率可以計算出來,如表4.2。棉株受害數(shù)乃一隨機(jī)變數(shù)(y),可以計算變量y相應(yīng)的概率函數(shù),如果每次抽5個單株,抽n=400次,則理論上我們能夠得到y(tǒng)=2的次數(shù)應(yīng)為: 理論次數(shù)=400P(2)=4000.3364=134.56(次),圖4.1和圖4.2給出了概率函數(shù)圖和累積概率函數(shù)圖,和其累計函數(shù),表4.2 調(diào)查單位為5株的概率分布表(p=0.35,q=0.65),受害株數(shù)(y) 受害株數(shù)(y),圖4.1 棉株受盲蝽象為害的概率分布圖 (p=0.35,n=5),圖4.2 棉株受盲蝽象為害的累積概率函數(shù)F(y)圖 (p=0.35,n=5),例4.2 某種昆蟲在某地區(qū)的死亡率為40%,即p=0.4,現(xiàn)對這種害蟲用一種新藥進(jìn)行治療試驗,每次抽樣10頭作為一組治療。試問如新藥無療效,則在10頭中死3頭、2頭、1頭,以及全部愈好的概率為多少?,按上述二項分布概率函數(shù)式計算,7頭愈好,3頭死去概率: 8頭愈好,2頭死去概率: 9頭愈好,1頭死去概率: 10頭全部愈好的概率:,若問10頭中不超過2頭死去的概率為多少?則應(yīng)該應(yīng)用累積函數(shù),即,三、二項式分布的形狀和參數(shù),圖4.3為上述棉株受害概率如p=1/2時的概率分布圖。從圖4.1和4.3可看出,如p=q,二項式分布呈對稱形狀,如pq,則表現(xiàn)偏斜形狀。,受害株數(shù)( y),受害株數(shù)(y),圖4.1 棉株受盲蝽象為害的概率分布圖(p=0.35,n=5),二項式分布的參數(shù),仍以上述棉株受害為例,抽取5株中受害株數(shù)的多少(y)作為統(tǒng)計指標(biāo)的話,從總體中可以抽取的所有樣本均有一個y,這樣所有的y構(gòu)成了一個新總體,該總體也屬于二項式總體,其平均數(shù)、方差和標(biāo)準(zhǔn)差如下式,從而,上述棉田受害率調(diào)查結(jié)果,n=5,p=0.35,可求得總體參數(shù)為: =50.35=1.75株, 株。,四、多項式分布,所謂多項總體,是指將變數(shù)資料分為3類或多類的總體。,例如在給某一人群使用一種新藥,可能有的療效好,有的沒有療效,而另有療效為副作用的,就是三項分布。,多項總體的隨機(jī)變量的概率分布即為多項式分布( multinomial distribution )。,設(shè)總體中共包含有k項事件,它們的概率分別為p1、p2、p3、pk,顯然p1+p2+p3+pk=1。若從這種總體隨機(jī)抽取n個個體,那么可能得到這k項的個數(shù)分別為y1、y2、y3、yk,顯然y1+y2+y3+yk=n。那么得到這樣一個事件的概率為:,多項分布的概率計算,例4.3 某藥對病人有效的概率為1/2,對病人無效的概率為1/3,有副作用的概率為1/6,若隨機(jī)抽取2個使用該藥的病人,那么我們的結(jié)果可能包括這樣幾種事件:2個病人有副作用;一個無效、一個有副作用;兩個無效;一個有效、一個有副作用;一個有效、一個無效;兩個均有效。這幾種事件的概率分別為多少呢?可以使用上述的概率分布公式來計算,如表4.3。,表4.3 多項式分布的概率計算,五、泊松分布二項分布的一種極限分布,二項分布中往往會遇到一個概率p或q是很小的值,例如小于0.1,另一方面n又相當(dāng)大,這樣的二項分布必將為另一種分布所接近,或者為一種極限分布。這一種分布稱泊松概率分布,簡稱泊松分布( Poisson distribution )。,令np=m,則泊松分布如下式:,y=0,1,2,,e=2.71828為自然對數(shù)的底數(shù)。,凡在觀察次數(shù)n相當(dāng)大時,某一事件出現(xiàn)的平均次數(shù)m(m是一個定值)很小,那么,這一事件出現(xiàn)的次數(shù)將符合泊松分布。,泊松分布的平均數(shù) 、方差 和標(biāo)準(zhǔn)差 如下式:,這一分布包括一個參數(shù)m,由m的大小決定其分布形狀如圖4.4。當(dāng)m值小時分布呈很偏斜形狀,m增大后則逐漸對稱。,例4.4 1907年Student氏進(jìn)行以血球計計數(shù)酵母細(xì)胞精確度試驗。如這種計數(shù)技術(shù)是有效地合適,則在每一平方格的細(xì)胞數(shù)目理論上應(yīng)作為一個泊松分布。,表4.4是從1mm2分為400個平方格的結(jié)果??偣灿嫈?shù)的細(xì)胞數(shù)為1872個,因之平均數(shù)m=1782/400=4.68。理論次數(shù)須從泊松分布的概率計算,即從(p+q)n的極限為:,其中y=0,1,2,3,,是 的泰勒展開式,(48),表4.4 血球計所計數(shù)的每平方格內(nèi)酵母細(xì)胞數(shù),本例m=4.68,em=(2.71828)4.68=0.009275,0.009275400=3.71. 3.71是理論次數(shù)第一項,其他各理論次數(shù)均可按(48)計算。概率值乘以400得理論次數(shù)。 本例標(biāo)準(zhǔn)差估計值為,第三節(jié) 正態(tài)分布,一、二項分布的極限正態(tài)分布 二、正態(tài)分布曲線的特性 三、計算正態(tài)分布曲線區(qū)間面積或概率的方法,一、二項分布的極限正態(tài)分布,以上述二項分布棉株受害率為例,假定受害概率p=1/2,那么,p=q=1/2?,F(xiàn)假定每個抽樣單位包括20株,這樣將有21個組,其受害株的概率函數(shù)為,于是概率分布計算如下:,現(xiàn)將這概率分布繪于圖4.5。從圖4.5看出它是對稱的,分布的平均數(shù) 和方差 為:,=npq=20(1/2)(1/2)=5(株)2 。,=np=20(1/2)=10(株),,如p=q,不論n值大或小,二項分布的多邊形圖必形成對稱; 如pq,而n很大時,這多邊形仍趨對稱。,倘n或組數(shù)增加到無窮多時(n),多邊形的折線就表現(xiàn)為一個光滑曲線。這個光滑曲線在數(shù)學(xué)上的意義是一個二項分布的極限曲線,屬于連續(xù)性變數(shù)分布曲線,一般稱之為正態(tài)分布曲線或正態(tài)概率密度曲線。可以推導(dǎo)出正態(tài)分布的概率密度函數(shù)為:,(49),其中,y是所研究的變數(shù); 是概率密度函數(shù);,和 為總體參數(shù), 表示所研究總體平均數(shù), 表示所研究總體標(biāo)準(zhǔn)差,不同正態(tài)分布可以有不同的 和 ,但某一定總體的 和 是常數(shù)。,參數(shù) 和 有如下的數(shù)學(xué)表述,(410),令 可將(49)式標(biāo)準(zhǔn)化為:,(411),上式稱為標(biāo)準(zhǔn)化正態(tài)分布方程,它是參數(shù) 時的正態(tài)分布(圖4.7)。記作N(0,1)。,正態(tài)分布的曲線圖,-3 -2 -1 0 1 2 3,圖4.6 正態(tài)分布曲線圖 (平均數(shù)為 ,標(biāo)準(zhǔn)差為 ),圖4.7 標(biāo)準(zhǔn)正態(tài)分布曲線圖 (平均數(shù) 為0,標(biāo)準(zhǔn)差 為1),二、正態(tài)分布曲線的特性,1. 正態(tài)分布曲線是以y = 為對稱軸,向左右兩側(cè)作對稱分布,所以它是一個對稱曲線。從所豎立的縱軸f(y= )是最大值,所以正態(tài)分布曲線的算術(shù)平均數(shù)、中數(shù)和眾數(shù)是相等的,三者均合一位于點 上。 2. 正態(tài)分布曲線以參數(shù) 和 的不同而表現(xiàn)為一系列曲線,所以它是一個曲線簇而不僅是一個曲線。 確定它在橫軸上的位置,而 確定它的變異度,不同 和 的正態(tài)總體具有不同的曲線和變異度,所以任何一個特定正態(tài)曲線必須在其 和 確定后才能確定。圖4.8 和4.9表示這個區(qū)別。,圖4.8 標(biāo)準(zhǔn)差相同( 1)而平均數(shù)不同( =0、 =1、 =2)的三個正態(tài)分布曲線,圖4.9 平均數(shù)相同( 0)而標(biāo)準(zhǔn)差不同( =1、 =1.5、 =2)的三個正態(tài)分布曲線,3. 正態(tài)分布資料的次數(shù)分布表現(xiàn)為多數(shù)次數(shù)集中于算術(shù)平均數(shù) 附近,離平均數(shù)越遠(yuǎn),其相應(yīng)的次數(shù)越少;且在 左右相等| |范圍內(nèi)具有相等次數(shù);在| |3 以上其次數(shù)極少。 4. 正態(tài)曲線在| |=1 處有“拐點”。曲線兩尾向左右伸展,永不接觸橫軸,所以當(dāng)y,分布曲線以y軸為漸近線,因之曲線全距從到+。 5. 正態(tài)曲線與橫軸之間的總面積等于1,因此在曲線下橫軸的任何定值,例如從y=y1到y(tǒng)=y2之間的面積,等于介于這兩個定值間面積占總面積的成數(shù),或者說等于y落于這個區(qū)間內(nèi)的概率。,正態(tài)曲線的任何兩個y定值ya與yb之間的面積或概率乃完全以曲線的 和 而確定的。詳細(xì)數(shù)值見附表2,下面為幾對常見的區(qū)間與其相對應(yīng)的面積或概率的數(shù)字:,區(qū)間 1 面積或概率=0.6827 2 =0.9545 3 =0.9973 1.960 =0.9500 2.576 =0.9900,例如,上章水稻140行產(chǎn)量資料的樣本分布表現(xiàn)出接近正態(tài)分布,其平均數(shù)( )、標(biāo)準(zhǔn)差(s)以及離均差為1、2和3個標(biāo)準(zhǔn)差的區(qū)間所包括的次數(shù)列于表4.5。實驗的結(jié)果與正態(tài)分布的理論結(jié)果很相近。,表4.5 140行水稻產(chǎn)量在 1s, 2s, 3s范圍內(nèi)所包括的次數(shù)表,三、計算正態(tài)分布曲線區(qū)間面積或概率的方法,在正態(tài)分布曲線下,y的定值從y=a到y(tǒng)=b間的概率可用曲線下區(qū)間的面積來表示,或者說,用其定積分的值表示,如圖4.10所示的面積。,(413),同樣可以計算曲線下從到y(tǒng)的面積,其公式如下:,(414),這里FN(y)稱為正態(tài)分布的累積函數(shù),具有平均數(shù) 和標(biāo)準(zhǔn)差 。,A=P(ayb),fN(y),圖4.10 正態(tài)分布密度函數(shù)的積分說明圖面積A=P(ayb),現(xiàn)如給予變數(shù)任何一定值,例如a,那么,可以計算ya的概率為FN(a),即,(415),如果a與b(ab)是y的兩個定值,則其區(qū)間概率可從下式計算:,(416),當(dāng)y=, ,當(dāng)y=+,,正態(tài)分布的密度函數(shù) fN(y)是按y值將累積函數(shù)FN(y)求其導(dǎo)數(shù)得之。,圖4.11 正態(tài)分布的累積函數(shù)FN (y) 長度A=P(ayb),例4.4 假定y是一隨機(jī)變數(shù)具有正態(tài)分布,平均數(shù) =30,標(biāo)準(zhǔn)差 =5,試計算小于26,小于40的概率,介乎26和40區(qū)間的概率以及大于40的概率。,所有正態(tài)分布都可以轉(zhuǎn)換為標(biāo)準(zhǔn)化正態(tài)分布方程式,首先計算:,先將y轉(zhuǎn)換為u值,然后查表計算概率。,同理可得: FN(40)=0.9773,所以:P(26y40)=FN(40)FN(26)=0.97730.2119 = 0.7654,P(y40)=1P(y40)=10.9773 =0.0227,查附表2,當(dāng)u=0.8時,F(xiàn)N(26)=0.2119,說明這一分布從到26范圍內(nèi)的變量數(shù)占全部變量數(shù)的21.19%,或者說,y26概率為0.2119.,例4.5 在應(yīng)用正態(tài)分布時,經(jīng)常要討論隨機(jī)變數(shù)y離其平均數(shù)的差數(shù)大于或小于若干個值的概率。例如計算離均差絕對值等于小于和等于大于1 的概率為:,也可以簡寫為,相應(yīng)地,離均差絕對值等于小于2 、等于大于2 、等于小于3 和等于大于3 的概率值為:,以上結(jié)果解釋了正態(tài)分布曲線的概率特性,可參考圖4.13。,圖4.13 離均差的絕對值1 , 2 和1.96 的概率值,例4.6 計算正態(tài)分布曲線的中間概率為0.99時,其y或u值應(yīng)等于多少?,因為正態(tài)分布是對稱的,故在曲線左邊從到 u的概率和在曲線右邊從u到的概率都應(yīng)等于 1/2(10.99)=0.005。 查表,u=2.58時, fN(y) =0.004940.005。 于是知,當(dāng) 2.58時,在其范圍內(nèi)包括99%的變量,僅有1%變量在此范圍之外。上述結(jié)果寫作:,同理可求得:,以上 乃正態(tài)曲線下左邊一尾y從到 上的面積和右邊一尾y從 到上的面積之和,亦可寫成:,同理, 亦可寫成:,以上兩式等號右側(cè)的前一項為左尾概率,后一項為右尾概率,其和概率稱為兩尾概率值。 在附表列出了兩尾概率取某一值時的臨界u值(正態(tài)離差u值),可供直接查用。 例如,可查得P=0.01時u=2.5758,P=0.05時u=1.9599,即表示: P(|u|2.5758)=0.01, P(|u|1.9599)=0.05 如果僅計算一尾,則為一尾概率值。例如計算 P(u1.6448)=P(|u|1.6448)=(0.1)=0.05 這個0.05稱為y值大于 的一尾概率值。,當(dāng)概率一定時,兩尾概率的|u|總是大于一尾概率|u|。,第四節(jié) 抽樣分布,統(tǒng)計學(xué)的一個主要任務(wù)是研究總體和樣本之間的關(guān)系。,兩個方向,從總體到樣本的方向, 即本節(jié)所要討論的抽樣分布。,從樣本到總體的方向,即統(tǒng)計推斷問題。,抽樣分布( sampling distribution )是統(tǒng)計推斷的基礎(chǔ)。,一、統(tǒng)計數(shù)的抽樣及其分布參數(shù) 二、正態(tài)總體的抽樣分布 三、二項總體的抽樣分布,一、統(tǒng)計數(shù)的抽樣及其分布參數(shù),從總體中隨機(jī)抽樣得到樣本,獲得樣本觀察值后可以計算一些統(tǒng)計數(shù),統(tǒng)計數(shù)分布稱為抽樣分布。,抽樣,復(fù)置抽樣,指將抽得的個體放回總體后再繼續(xù)抽樣,不復(fù)置抽樣,指將抽得的個體不放回總體而繼續(xù)進(jìn)行抽樣,(一) 樣本平均數(shù)的抽樣及其分布參數(shù),總體,隨機(jī)樣本1 2 3 無窮個樣本,圖4.14 總體和樣本的關(guān)系,如圖4.14從一個總體進(jìn)行隨機(jī)抽樣可以得到許多樣本,如果總體是無限總體,那么可以得到無限多個隨機(jī)樣本。,如果從容量為N的有限總體抽樣,若每次抽取容量為n的樣本,那么一共可以得到 個樣本(所有可能的樣本個數(shù))。 抽樣所得到的每一個樣本可以計算一個平均數(shù),全部可能的樣本都被抽取后可以得到許多平均數(shù),如 等。 如果將抽樣所得到的所有可能的樣本平均數(shù)集合起來便構(gòu)成一個新的總體,平均數(shù)就成為這個新總體的變量。 由平均數(shù)構(gòu)成的新總體的分布,稱為平均數(shù)的抽樣分布。 隨機(jī)樣本的任何一種統(tǒng)計數(shù)都可以是一個變量,這種變量的分布稱為統(tǒng)計數(shù)的抽樣分布。,除平均數(shù)抽樣分布外還有總和數(shù)、方差的抽樣分布等。,新總體與母總體在特征參數(shù)上存在函數(shù)關(guān)系。以平均數(shù)抽樣分布為例,這種關(guān)系可表示為以下兩個方面。,(1) 該抽樣分布的平均數(shù) 與母總體的平均數(shù)相等。,(417),(2) 該抽樣分布的方差與母總體方差間存在如下關(guān)系:,(418),其中n為樣本容量。抽樣分布的標(biāo)準(zhǔn)差又稱為標(biāo)準(zhǔn)誤,它可以度量抽樣分布的變異。,例4.7 設(shè)有一總體N=3 (例2,4,6)。以樣本容量n=1、n=2、n=4及n=8,從總體中進(jìn)行復(fù)置抽樣,抽出全部樣本于表4.6。 表4.6中列出這些不同樣本容量的 抽樣分布,并在圖4.15用方柱形圖表示其分布形狀。 由表中第一列當(dāng)N=3,n=1的總體平均數(shù)和方差為:,當(dāng)樣本容量依次為2、4、8時,其 相應(yīng)為4、4、4;其 相應(yīng)為4/3、2/3、1/3。即 , 。,表4.6 各種不同樣本容量的樣本平均數(shù)( )的抽樣分布,n=1,n=2,圖4.15 各種不同樣本容量的 分布方柱形圖,圖4.15 各種不同樣本容量的 分布方柱形圖,n=4,n=8,(二) 樣本總和數(shù)的抽樣及其分布參數(shù),樣本總和數(shù)(用 代表)的抽樣分布參數(shù)與母總體間存在如下關(guān)系: (1) 該抽樣分布的平均數(shù) 與母總體的平均數(shù)間的關(guān)系為:,(419),(2) 該抽樣分布的方差 與母總體方差間存在如下關(guān)系:,(420),(三) 兩個獨立隨機(jī)樣本平均數(shù)差數(shù)的抽樣及其分布參數(shù),如果從一個總體隨機(jī)地抽取一個樣本容量為n1的樣本,同時隨機(jī)獨立地從另一個總體抽取一個樣本容量為n2的樣本,那么可以得到分別屬于兩個總體的樣本,這兩個獨立隨機(jī)抽取的樣本平均數(shù)間差數(shù)( )的抽樣分布參數(shù)與兩個母總體間存在如下關(guān)系:,(1) 該抽樣分布的平均數(shù)與母總體的平均數(shù)之差相等。,(2) 該抽樣分布的方差與母總體方差間的關(guān)系為:,(421),(422),例4.8 假定第一個總體包括3個觀察值,2、4和6 (N1=3,n1=2),所有樣本數(shù)為Nn=32=9個,總體平均數(shù)和方差 =4, =8/3。第二個總體包括2個觀察值,3和6 (N2=2),抽出的樣本容量為3(n2=3),所以所有樣本數(shù)為23=8個,總體平均數(shù)和方差 =4.5, =2.25?,F(xiàn)將上述兩個總體 的次數(shù)分布列于表4.7,并計算出其分布的參數(shù)。,將第一總體的9個樣本平均數(shù)和第二總體的8個樣本平均數(shù)作所有可能的相互比較,這樣共有98=72個比較或72個差數(shù),這72個差數(shù)次數(shù)分布列于表4.8和表4.9。,表4.7 從兩個總體抽出的樣本平均數(shù)的次數(shù)分布表,表4.8 樣本平均數(shù)差數(shù)的次數(shù)分布表,表4.9 樣本平均數(shù)差數(shù)分布的平均數(shù)和方差計算表,f,由表4.9可算得,而,這與(421)式計算結(jié)果 、 (422)式計算結(jié)果 均相同。,二、正態(tài)總體的抽樣分布,(一) 樣本平均數(shù)的分布 從正態(tài)總體抽取的樣本平均數(shù)的分布一般為N( , )。,圖4.16給出樣本容量n=1,4與9時的分布,從圖中可以看出隨著樣本容量的增加,分布的集中程度增加了,說明方差減少了。,由中心極限定理知,只要樣本容量適當(dāng)大,不論總體分布形狀如何,其 的分布都可看作為正態(tài)分布,且具平均數(shù) 和方差 。在實際應(yīng)用上,如n30就可以應(yīng)用這一定理。,平均數(shù)的標(biāo)準(zhǔn)化分布是將上述平均數(shù) 轉(zhuǎn)換為u變數(shù)。,(423),例4.9 在江蘇沛縣調(diào)查336個m2小地老虎蟲危害情況的結(jié)果, =4.73頭, =2.63,試問樣本容量n=30時,由于隨機(jī)抽樣得到樣本平均數(shù) 等于或小于4.37的概率為多少?,查附表2,P(u0.36)=0.2266,即概率為22.66% (屬一尾概率)。因所得概率較大,說明差數(shù)0.36是隨機(jī)誤差,從而證明這樣本
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 國潮插畫春節(jié)的多彩生活
- 房地產(chǎn)項目的客戶滿意度管理
- BIM在建筑結(jié)構(gòu)設(shè)計中的具體案例
- 保險公司清明節(jié)活動方案
- 保險公司繪畫活動方案
- 保險公司過年活動方案
- 保險推動活動方案
- 保齡球幼兒游戲活動方案
- 信息化擂臺比武活動方案
- 信托活動策劃方案
- 參加培訓(xùn)人員匯總表
- 2022年食品衛(wèi)生通則第三版(中文版)
- 手術(shù)記錄-頸胸椎前后路脫位c7t
- 《工程完工結(jié)算單》word版
- 如何落實“三管三必須”完整ppt
- PPT模板:小學(xué)生防溺水安全教育主題班會08課件(45頁P(yáng)PT)
- SPC基礎(chǔ)知識培訓(xùn)教材ppt課件
- 2022年《明碼標(biāo)價和禁止價格欺詐規(guī)定》重點解讀
- 電力電子第三版習(xí)題及解答
- 低血糖的急救護(hù)理PPT課件
- 鋼結(jié)構(gòu)管廊安裝施工方案-zshj
評論
0/150
提交評論