版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、【最新卓越管理方案 您可自由編輯】(抽樣檢驗)理論分布和 抽樣分布20XX年XX月室計的企業(yè)咨詢團(tuán)問經(jīng)臉,經(jīng)過實戰(zhàn)騙證可以落地執(zhí)行的卓越笆理方案,值得您下載插有第四章理論分布和抽樣分布在上章樣本分布及其特征的基礎(chǔ)上本章將討論總體的分布及其特征。首先介紹間斷性變數(shù)總體的理論分布,包括二項分布和泊松分布;其次介紹連續(xù)性變數(shù)總體的理論分布,即正態(tài)分布;最后介紹從這倆類理論分布中抽出的樣本統(tǒng)計數(shù)的分布,即抽樣分布。為了說明這些理論分布,必須首先了解概率的基本概念和計算法則。第壹節(jié)事件、概率和隨機(jī)變量壹、事件和事件發(fā)生的概率在自然界中壹種事物,常存在幾種可能出現(xiàn)的情況,每壹種可能出現(xiàn)的情況稱為事件,而每
2、壹個事件出現(xiàn)的可能性稱為該事件的概率(probability)。例如種子可能發(fā)芽,也可能不發(fā)芽,這就是倆種事件,而發(fā)芽的可能性和不發(fā)芽的可能性就是對應(yīng)于倆種事件的概率。若某特定事件只是可能發(fā)生的幾種事件中的壹種,這種事件稱為隨機(jī)事件(randomevent),例如抽取壹粒種子,它可能發(fā)芽也可能不發(fā)芽,這決定于發(fā)芽和不發(fā)芽的機(jī)會 (概率),發(fā)芽和不發(fā)芽這倆種可能性均存在,出現(xiàn)的是這倆種可能性中的壹種。事件發(fā)生的可能性(概率)是在大量的實驗中觀察得到的,例如棉田發(fā)生盲蜻象為害的情況,且不是所有的棉株都受害,隨著觀察的次數(shù)增多,我們對棉株受害可能性程度大小的把握越準(zhǔn)確、越穩(wěn)定。這里將壹個調(diào)查結(jié)果列于
3、表4.1。調(diào)查5株時,有2株受害,受害株的頻率為40% ,調(diào)查25株時受害頻率為 48%,調(diào)查100株時受害頻率為33%。能夠見出三次調(diào)查結(jié)果有差異,說明受害頻率有波動、不穩(wěn)定。而當(dāng)進(jìn)壹步擴(kuò)大調(diào)查的單株數(shù)時,發(fā)現(xiàn)頻率比較穩(wěn)定了,調(diào)查 500株到2000株的結(jié)果是受害棉株穩(wěn)定在 35%左右。表4.1在相同條件下盲蜻象在某棉田危害程度的調(diào)查結(jié)果調(diào)查株數(shù)(n)52550100200500100015002000受害株數(shù)(a)212153372177351525704(a/ n)0.400.480.300.330.360.3540.3510.3500.352現(xiàn)以n代表調(diào)查株數(shù),以 a代表受害株數(shù),那么
4、能夠計算出受害頻率p = a/n。從棉株受害情況調(diào)查結(jié)果見,頻率在n取不同的值時,盡管調(diào)查田塊是相同的,頻率p卻不同,只有在 n很大時頻率才比較穩(wěn)定壹致。因而,調(diào)查株數(shù)n較多時的穩(wěn)定頻率才能較好地代表棉株受害的可能性。統(tǒng)計學(xué)上用n較大時穩(wěn)定的p近似代表概率。然而,正如此試驗中出現(xiàn)的情況,盡管頻率比較穩(wěn)定,但仍有較小的數(shù)值波動,說明觀察的頻率只是對棉株受害這個事件的概率的估計。統(tǒng)計學(xué)上通過大量實驗而估計的概率稱為實驗概率或統(tǒng)計概率,以表示。此處 P代表概率,P(A)代表事件A的概率,P(A)變化的范圍為01,即0 & P(A) & 1。隨機(jī)事件的概率表現(xiàn)了事件的客觀統(tǒng)計規(guī)律性,它反映了事件在壹次
5、試驗中發(fā)生可能性的大小,概率大表示事件發(fā)生的可能性大,概率小表示事件發(fā)生的可能性小。若事件 A發(fā)生的概率較小,如小于 0.05或0.01 ,則認(rèn)為事件 A在壹次試驗中不太可能發(fā)生,這稱為小概率事件實際不可能性原理,簡稱小概率原理。這里的0.05或0.01稱為小概率標(biāo)準(zhǔn),農(nóng)業(yè)試驗研究中通常使用這倆個小概率標(biāo)準(zhǔn)。除了隨機(jī)事件外,仍有必然事件和不可能事件,它們是隨機(jī)事件的特例。對于壹類事件來說,如在同壹組條件的實現(xiàn)之下必然要發(fā)生的,稱為必然事件;例如,水在標(biāo)準(zhǔn)大氣壓下加熱到100 C必然沸騰。相反,如果在同壹組條件的實現(xiàn)之下必然不發(fā)生的,稱為不可能事件。例如,水在標(biāo)準(zhǔn)大氣壓下溫度低于100 c時,不
6、可能沸騰。必然事件和不可能事件發(fā)生的概率為1和0。二、事件間的關(guān)系在實際問題中,不只研究壹個隨機(jī)事件,而是要研究多個隨機(jī)事件,這些事件之間 又有壹定的聯(lián)系。例如,在種子發(fā)芽試驗中,顯然“發(fā)芽”和“不發(fā)芽”之間是有 壹定聯(lián)系的。為了表述類似上述事件之間的聯(lián)系,下面說明事件之間的幾種主要關(guān) 系。(壹)和事件事件A和B至少有壹個發(fā)生而構(gòu)成的新事件稱為事件A和B的和事件,記為A+B,讀作“或 A發(fā)生,或B發(fā)生”。例如,有壹批種子,包含有能發(fā)芽的和不能發(fā)芽的。若A為“取到能發(fā)芽種子” ,B為“取到不能發(fā)芽種子”,則A+B為“或者 取到能發(fā)芽種子或者取到不能發(fā)芽種子”。事件間的和事件能夠推廣到多個事件:事
7、件Ai、A2、An至少有壹發(fā)生而構(gòu)成的新事件稱為事件 Ai、A2、An的和事件,記為 A1+A2+An=。(二)積事件事件A和B同時發(fā)生所構(gòu)成的新事件稱為事件A和B的積事件,記作 AB ,讀作“A和B同時發(fā)生或相繼發(fā)生”。事件間的積事件也能夠推廣到多個事件:事件Al、A2 、An 同時發(fā)生所構(gòu)成的新事件稱為這 n個事件的積事件,記作 A1A2An=。(三)互斥事件事件A和B不可能同時發(fā)生,即 AB為不可能事件,記作 A B=V ,稱事件 A和B互斥或互不相容。例如,有壹袋種子,按種皮分黃色和白色。 若記A為“取到黃色”,B為“取到白色”,顯然A和B不可能同時發(fā)生,即壹粒種子不可能既為黃色又為白
8、色,說明事件 A和B互斥。這壹定義也能夠推廣到n個事件。(四)對立事件事件A和B不可能同時發(fā)生,但必發(fā)生其壹,即 A+B為必然事件(記為A+B=U),AB為不可能事件(記為A B=V ),則稱事件B為事件A的對立事件,且記 B為。例如,上面A為“取到黃色”,B為“取到白色”,A和B不可能同時發(fā)生,可是,任 意抽取壹粒種子,其皮色不是黃色就是白色,即A和B必發(fā)生其壹,因此,A和B互為對立事件。(五)完全事件系若事件Ai、A2、An倆倆互斥,且每次試驗結(jié)果必發(fā)生其壹,則稱 Ai、A2、An為完全事件系。例如,僅有三類花色:黃色、白色和紅色,則取壹朵花,“取到黃色”、“取到白色”和“取到紅色”就構(gòu)成
9、完全事件系。(六)事件的獨立性若事件A發(fā)生和否不影響事件 B發(fā)生的可能性,則稱事件A和事件B相互獨立。例如,事件A為“花的顏色為黃色”,事件B為“產(chǎn)量高”,顯然如果花的顏色和產(chǎn)量無關(guān)則事件A和事件B相互獨立。三、計算事件概率的法則(壹)互斥事件的加法假定倆互斥事件 A和B的概率分別為 P(A)和P(B)O則事件A和B的和事件的概率 等于事件A的概率和事件 B的概率之和,即 P(A+B)= P(A)+ P(B)O加法定理對于多 個倆倆互斥的事件也成立:假定Ai、A2、Ann個事件彼此間均是倆倆互斥的事件,其概率依次為 P(Ai),P(A2),,P(An),則Ai,A2到An和事件的概率 P(Ai
10、+A 2+ +A n)等于 P(Ai), P(A2),,P(An)之和,即 P(Ai+A2+A n)= P(Ai)+P(A2)+ + P(An)。例如,壹捆花中紅、黃、白花的概率分別為0.2、0.3、0.5,那么我們隨機(jī)抽取壹朵非白色花的概率為 0.5(=0.2+0.3 ),這只是由加法定理得到的倆個事件概率之 和。(二)獨立事件的乘法假定P(A)和P(B)是倆個獨立事件 A和B各自出現(xiàn)的概率,則事件 A和B同時出現(xiàn) 的概率等于倆獨立事件出現(xiàn)概率P(A)和P(B)的乘積,即P(AB)= P(A)P(B)乘法定理對于n個相互獨立的事件也成立。假定P(Ai), P(A2),,P(An)是n個相互獨
11、立事件各自出現(xiàn)的概率,則該n個事件同時出現(xiàn)的概率P(AiA2An)等于各自出現(xiàn)概率之乘積,即P(AiA2An)= P(Ai)P(A2)P(An)?,F(xiàn)有4粒種子,其中3粒為黃色、1粒為白色,采用復(fù)置抽樣。試求下列倆事件的 概率:(A)第壹次抽到黃色、第二次抽到白色;(B)倆次都抽到黃色。由于采用復(fù)置抽 樣(即每壹次抽出觀察結(jié)果后又放回再進(jìn)行下壹次抽樣),所以第壹次和第二次的抽樣結(jié)果間是相互獨立的。 采用概率的古典定義,能夠求出抽到黃色種子的概率為0.75 ,抽到白色種子的概率為0.25。因此,有P(A)= P(第壹次抽到黃色種子)P(第二次抽到白色種子)=0.25 X0.75=0.1875 尸(
12、B)= P(第壹次黃色種子)P(第二次黃色種子)=0.75 X0.75=0.5625 。(三)對立事件的概率若事件A的概率為P(A),那么其對立事件的概率為:(四)完全事件系的概率例如“從10個數(shù)字中隨機(jī)抽得任何壹個數(shù)字都能夠”這樣壹個事件是完全事件系, 其概率為1。(五)非獨立事件的乘法如果事件A和B是非獨立的,那么事件A和B同時發(fā)生的概率為事件 A的概率P(A) 乘以事件A發(fā)生的情況下事件 B發(fā)生的概率 P(B|A),即:P(AB)= P(A) P(B|A)四、隨機(jī)變量隨機(jī)變量是指隨機(jī)變數(shù)所取的某壹個實數(shù)值。用拋硬幣試驗作例子,硬幣落地后只有倆種可能結(jié)果:幣值面向上和國徽面向上,用數(shù)“1”
13、表示“幣值面向上”,用數(shù)“ 0”表示“國徽面向上”。把0, 1作為變量y的取值。在討論試驗結(jié)果時, 就能夠簡單地把拋硬幣試驗用取值為0, 1的變量來表示。P(y=1)=0.5 , P(y=0)=0.5同理,用“ 1”表示“能發(fā)芽種子”,其概率為p;用“ 0”表示“不能發(fā)芽種子”, 其概率為 q 顯然 p+q =1 ,則 P(y=1)= p, P(y=0)= q=1- p。用變量y表示水稻產(chǎn)量,若 y大于500kg的概率為0.25 ,大于300kg且等于 小于500kg的概率為0.65 ,等于小于300kg的概率為0.1。則用變量y的取值范 圍來表示的試驗結(jié)果為 P(y 500)=0.25 。對
14、于前倆個例子,當(dāng)試驗只有幾個確定的結(jié)果,且可壹壹列出,變量 y的取值 可用實數(shù)表示,且 y取某壹值時,其概率是確定的,這種類型的變量稱為離散型隨 機(jī)變量。將這種變量的所有可能取值及其對應(yīng)概率壹壹列出所形成的分布稱為離散 型隨機(jī)變量的概率分布:變量 yiy1y2y3yn概率P1P2P3Pn也可用函數(shù)f(y)表述,稱為概率函數(shù)。對于上面水稻產(chǎn)量的例子, 變量y的取值僅為壹范圍, 且y在該范圍內(nèi)取值時,其概率是確定的。此時取 y為壹固定值是無意義的,因為在連續(xù)尺度上壹點的概率 幾乎為0。這種類型的變量稱為連續(xù)型隨機(jī)變量。對于隨機(jī)變量,若存在非負(fù)可積函數(shù)f(y)(- y + ),對任意a和b(avb)
15、都有P(a y b)=則稱y為連續(xù)型隨機(jī)變量(continuousrandomvariate),f(y)稱為y的概率密度函數(shù)(probabilitydensityfunction)或分布密度(distributiondensity) 。因此,它的分布由密度函數(shù)所確定。若已知密度函數(shù),則通過定積分可求得連續(xù)型隨機(jī)變量在某壹區(qū)間的概率??傊S機(jī)變量可能取得的每壹個實數(shù)值或某壹范圍的實數(shù)值是有壹個相應(yīng)概率的,這就是所要研究和掌握的規(guī)律,這規(guī)律稱為隨機(jī)變量的概率分布。隨機(jī)變量完整地描述了壹個隨機(jī)試驗,它不僅告訴我們隨機(jī)試驗的所有可能結(jié)果,而且告訴我們隨機(jī)試驗各種結(jié)果出現(xiàn)的可能性大小。這樣,對隨機(jī)試驗
16、概率分布的研究,就轉(zhuǎn)成了對隨機(jī)變量的概率分布的研究了。這里須注意事件發(fā)生的可能性和試驗結(jié)果是不同的,前者是指事件可能發(fā)生的概率,后者是指特定試驗結(jié)果,這種結(jié)果可能是概率大的事件發(fā)生了,也可能概率小的事件發(fā)生了。概率分布指明了不同事件發(fā)生的可能性。隨機(jī)變量是用來代表總體的任意數(shù)值的,隨機(jī)變數(shù)是隨機(jī)變量的壹組數(shù)據(jù),代表總體的隨機(jī)樣本資料,它可用來估計總體的參數(shù)。第二節(jié)二項式分布壹、二項總體及二項式分布試驗或調(diào)查中最常見的壹類隨機(jī)變數(shù)是整個總體的各組或單位能夠根據(jù)某種性狀的出現(xiàn)和否而分為倆組。例如:小麥種子發(fā)芽和不發(fā)芽,大豆子葉色為黃色和青色,調(diào)查棉田盲蜻象為害分為受害株和不受害株等等。這類變數(shù)均屬
17、間斷性隨機(jī)變數(shù),其總體中包含倆項,即:非此即彼的倆項,它們構(gòu)成的總體稱為二項總體(binarypopulation) 。為便于研究,通常將二項總體中的“此”事件以變量“1”表示,具概率p;將“彼”事件以變量“ 0”表示,具概率 q。因而二項總體又稱為 0、1總體,其概率 則顯然有:p+ q=1 或 q=1- p如果從二項總體抽取 n個個體,可能得到y(tǒng)個個體屬于“此”,而屬于“彼”的個體為n-y。由于是隨機(jī)獨立地從總體中抽取個體的,每壹次抽取的個體均有可能屬于“此”,也可能屬于“彼”,那么得到的y個“此”個體的數(shù)目可能為 0、1、2、n個。此處將y作為間斷性資料的變量,y共有n+1種取值,這n+
18、1種取值各有其概率,因而由變量及其概率就構(gòu)成了壹個分布,這個分布叫做二項式概率分布,簡稱二項式分布或二項分布 (binomialdistribution) 。例如觀察施用某種農(nóng)藥后供試5只朗蟲的死亡數(shù)目,記“死”為 0,記“活”為1 ,觀察結(jié)果將出現(xiàn) 6種事件,它們是5只全死、4死1活、3死2活、2死3活、1死4活、5只全活,這6種事1分布件構(gòu)成了壹個完全事件系,但 6個事件的概率不同,將完全事件系的總概率到6個事件中去,就是所謂的概率分布。如果將活的蟲數(shù)y來代表相應(yīng)的事件,便得到了關(guān)于變量y的概率分布。下面將給出二項分布的概率計算方法。二、二項式分布的概率計算方法已知大豆青子葉色由 2對隱性
19、重疊基因控制,2對基因中任壹顯性基因都使子葉表現(xiàn)為黃色。具有壹對基因差異的大豆黃子葉品種和青子葉品種雜交后,F(xiàn)i代表現(xiàn)黃子葉,其F2代按壹對等位基因分離,黃子葉表現(xiàn)顯性,黃和青作3 : 1比例分離。這里討論雜種后代關(guān)于黃子葉的粒數(shù)(y)這個變量的概率分布,用來說明二項式分布的概率計算。從遺傳學(xué)已知,雜種后代 F2代按壹對等位基因分離,出現(xiàn)倆種子葉顏色,出現(xiàn)黃色子葉的概率為 0.75 ,出現(xiàn)青色的概率為 0.25 ,這是二項總體的概率分布。如果從這種總體抽取 n粒,那么得到y(tǒng)粒是黃子葉的概率是多少呢?以二粒莢為例相當(dāng)于抽取二粒種子,這時全部可能的結(jié)果將有四種:倆粒都是黃的(YY);第壹次是青的第
20、二次是黃的 (GY);第壹次是黃的第二次是青的 (YG);以 及倆粒都是青的(GG)?,F(xiàn)如不考慮種子位次而僅僅考慮種子顏色,則以黃子葉種子數(shù)目作概率分布如下(以Y代黃子葉,以G代青子葉):豆莢內(nèi)黃子葉種子數(shù)目(y)012合計(GG)(YG+GY)(YY)豆莢機(jī)會數(shù)1214黃子葉種子出現(xiàn)y次的卞率P(y)1/166/169/161豆莢內(nèi)黃子葉種子數(shù)是壹個隨機(jī)變數(shù),上述黃子葉種子(y)是豆莢內(nèi)有二粒種子的隨機(jī)變數(shù)的全部可能值,而P(y)則指其相應(yīng)概率,這樣就列出了出現(xiàn)黃子葉種子的概率分布。下面說明怎樣計算這壹概率分布的。如果壹個豆莢僅有倆粒種子,這相當(dāng)于進(jìn)行倆次重復(fù)試驗,出現(xiàn)第壹粒種子和出現(xiàn)第二粒
21、種子是互不影響的,因此這倆個事件是獨立事件。出現(xiàn)第壹粒種子是青的概率為1/4 ,出現(xiàn)第二粒種子仍是青的概率也是1/4 ,同時倆粒種子都是青的概率應(yīng)為倆個概率的積,即P(y=0)P(y=0)指倆粒都是青的這壹事件的概率。同樣出現(xiàn)倆粒都是黃的概率應(yīng)為:P(y=2)之上計算概率應(yīng)用了概率乘法法則?,F(xiàn)要知道怎樣計算豆莢內(nèi)壹黃壹青事件的概率呢?這里須考慮出現(xiàn)壹黃壹青的位次問題。已知:P(YG)=P(GY)=因為這倆個事件是互斥的,所以出現(xiàn)壹黃壹青事件的概率應(yīng)為之上倆個事件概率之和。于是應(yīng)用概率加法得出P(y=i)出現(xiàn)黃子葉種子數(shù)量 0, 1, 2三個事件Ao, Ai, A2構(gòu)成壹完全事件系,所以P(Ao
22、)+ P(Ai)+ P(A2)同理,假定壹豆莢內(nèi)有三粒種子,這時黃、青子葉種子位次的組合就有以下8種可能的試驗結(jié)果:在這8種可能機(jī)會可分為四組:(1)完全沒有黃子葉種子的(GGG),記為y=0 ,相應(yīng)概率為: (2)僅有壹粒黃子葉種子的(GGY, GYG, YGG),記為y=1 ,這時有3種不同組合,每種組合的概率均為。由于這三個事件都是相互互斥的,所以三種概率之和應(yīng)為:(3)具有倆粒黃子葉種子的(YYG, YGY, GYY),記為y=2 ,這里同樣有3種組合,它們是相互互斥的,每種事件的概率為,所以三種事件概率之和應(yīng)為:(4)三粒種子均是黃子葉的(YYY),記為y=3 ,相應(yīng)概率為:從之上計
23、算,能夠了解每壹復(fù)合事件的概率必等于該事件出現(xiàn)的組合數(shù)目乘以單個事件的概率;而這壹復(fù)合事件的可能組合數(shù)目則相當(dāng)于從 n個物體中任取其 y個物體的組合數(shù)。數(shù)學(xué)上的組合公式為:n相當(dāng)于豆莢內(nèi)種子數(shù),y相當(dāng)于黃子葉種子數(shù)。因此:(4 1)例如,y=2 , n=3 ,二項式中包含倆項,這倆項的概率為p、q ,且且(p+q)n=1 ,由(4 1)可推知變量y的概率函數(shù)為:P(y)=(4 2)這壹分布律也稱貝努里 (Bernoulli)分布,且有。例4.1棉田盲蜻象為害的統(tǒng)計概率乃從調(diào)查2000株后獲得近似值 p=0.35 ?,F(xiàn)受害株事件為A,其概率為p=0.35 ,未受害株事件為對立事件,其概率q =(
24、1-0.35)=0.65 。這壹試驗是能夠重復(fù)的。假定做了n次試驗,即抽出n株為壹個抽樣單位,那么,試問出現(xiàn)有y株是受害的,其概率應(yīng)有多少?假定以n=1 ,即抽出壹株為壹個抽樣單位,那么,總體 2000個單位中有多少株受害?多少株未受害?這里已知P(A)=0.35 和=0.65,總體的理論次數(shù)分布則以n乘上述概率分布,即 np和n(1- p),所以有2000 X0.35=700 株受害和2000 乂 0.65=1300 株未受害。如調(diào)查5株為壹個抽樣單位,即 n=5 ,則受害株數(shù)y=0 , 1, 2, 3, 4和5的 概率能夠計算出來,如表 4.2。棉株受害數(shù)乃壹隨機(jī)變數(shù) (y),能夠計算變量
25、 y相應(yīng) 的概率函數(shù)和其累計函數(shù)。表4.2調(diào)查單位為5株的概率分布表(p=0.35, q = 0.65)概率函數(shù)P(y)P(y)F(y)nP(y)P(0)0.11600.116046.40P(1)0.31240.4284124.96P(2)0.33640.7648134.56P(3)0.18110.945972.44P(4)0.04880.994719.52P(5)0.00531.00002.12如果每次抽5個單株,抽n=400次,則理論上我們能夠得到y(tǒng)=2的次數(shù)應(yīng)為:理論次數(shù)=400 XP(2)=400 X0.3364=134.56(次)對于任意y,其理論次數(shù)為:理論次數(shù)=nP(y)(4 3
26、)F(y)圖4.1和圖4.2給出了概率函數(shù)圖和累積概率函數(shù)圖。例4.2某種昆蟲在某地區(qū)的死亡率為40% ,即p=0.4 ,現(xiàn)對這種害蟲用壹種新藥進(jìn)行治療試驗,每次抽樣10頭作為壹組治療。試問如新藥無療效,則在 10頭中死3頭、2頭、1頭,以及全部愈好的概率為多少?按上述二項分布概率函數(shù)式計算:7 頭愈好,3 頭死去概率:P(3)=(0.40) 3(0.60) 7=0.214998 頭愈好,2 頭死去概率:P(2)=(0.40) 2(0.60) 8=0.12093頭愈好,1 頭死去概率:P(1)=(0.40) 1(0.60) 9=0.04031頭全部愈好的概率:P(0)=(0.40) 0(0.6
27、0) 10 =0.00605若問10頭中不超過2頭死去的概率為多少?則應(yīng)該應(yīng)用累積函數(shù),即=P(0)+ P(1)+ P(2)=0.00605+0.04031+0.12093=0.16729 若計算不超過壹頭死去的概率則=P(0)+ P(1)=0.00605+0.04031=0.04636這壹試驗結(jié)果說明在100次試驗中由于偶然原因(即不加新藥治療)只會出現(xiàn)4.6次,即這壹事件(10頭中僅死1頭及少于1頭的事件)的概率在20次中約只有壹次。三、二項式分布的形狀和參數(shù)f( y)上述棉株受害概率如p=1/2 ,則未受害受害株數(shù)(y)圖4.3棉株受盲椿害的概率函數(shù) f(y)圖(p=0.5 , n =
28、5 株)概率q=(1- p)=1/2 ,這時受害株的概率分布將表現(xiàn)為p= q的形式。如圖4.1壹樣,可繪于圖 4.3以作比較。從圖 4.1和4.3可見出,如p=q,二項式分布呈對稱形狀,如pwq,則表現(xiàn)偏斜形狀。但從理論和實踐檢驗, 當(dāng)n很大時即使pwq,它也接近對稱形狀。所以這壹理論分布是由n和p倆個參數(shù)決定的。凡描述壹個總體分布,平均數(shù)和方差(或標(biāo)準(zhǔn)差)倆個參數(shù)是重要的。例如抽取5株中受害株數(shù)的多少(y)作為統(tǒng)計指標(biāo)的話,從總體中能夠抽取的所有樣本均有壹個y,這樣所有的y構(gòu)成了壹個新總體,該總體也屬于二項式總體,其平均數(shù)、方差和標(biāo) 準(zhǔn)差如下式(4 4)該總體的概率計算方法同于前述的二項式總
29、體,只是由于統(tǒng)計指標(biāo)的變化,使平均 數(shù)和標(biāo)準(zhǔn)差有所不同。例如,上述棉田受害率調(diào)查結(jié)果,n=5 , p=0.35 ,所以可求得總體參數(shù)為:=5X0.35=1.75 株,二株。之上平均數(shù)和標(biāo)準(zhǔn)差系指從二項總體抽出n個個體的樣本總和數(shù)(個數(shù))分布的平均數(shù)和標(biāo)準(zhǔn)差。如果n適當(dāng)大,例如,大于 30, p值又不過于小,例如不靠近0值,且且np及nq均不少于5時,那么,這個二項式分布將趨近于下面即將介紹的正態(tài)分布, 具有參數(shù)=np和。四、多項式分布若總體內(nèi)包含幾種特性或分類標(biāo)志,能夠?qū)⒖傮w中的個體分為幾類,例如在給 某壹人群使用壹種新藥,可能有的療效好,有的沒有療效,而另有療效為副作用的, 象這種將變數(shù)資料
30、分為 3類或多類的總體稱為多項總體,研究其隨機(jī)變量的概率分 布可使用多項式分布 (multinomialdistribution) 。設(shè)總體中共包含有k項事件,它們的概率分別為p1、p2、p3、pk,顯然p1+p2+p3+ pk=1。若從這種總體隨機(jī)抽取n個個體,那么可能得到這 k項的個數(shù)分另1J為y1、y2、y3、yk,顯然y+y2+y 3+-+y k= n。那么得到這樣壹個事件 的概率應(yīng)該是什么呢?根據(jù)數(shù)學(xué)推導(dǎo),這樣壹個事件的概率理論上應(yīng)為: (4 5)這是多項式展開式中任意項 (k項)的概率函數(shù),這壹概率分布稱為多項式分布。 如果是3項式的概率分布,那么例4.3某藥對病人有效的概率為1/
31、2 ,對病人無效的概率為1/3 ,有副作用的概率為1/6 ,若隨機(jī)抽取2個使用該藥的病人,那么我們的結(jié)果可能包括這樣幾種事件:2個病人有副作用;壹個無效、壹個有副作用;倆個無效;壹個有效、壹個有副作用;壹個有效、壹個無效;倆個均有效。這幾種事件的概率分別為多少呢?能夠使用上述的概率分布公式來計算,如表 4.3。表4.3多項式分布的概率計算變量概率及其計算(yi、y2、y3)P(yi、y2、y3)(0, 0, 2)(0, 1, 1)(0, 2, 0)(1, 0 , 1)(1 , 1,0)(2 , 0 , 0)五、泊松分布一二項分布的壹種極限分布應(yīng)用上述(4 2)二項分布時,往往遇到壹個概率p或q
32、是很小的值,例如小于0.1 ,另壹方面n又相當(dāng)大,這樣之上二項分布必將為另壹種分布所接近,或者為壹 種極限分布。這壹種分布稱泊松概率分布,簡稱泊松分布 (Poissondistribution) ,如將np = m,則接近分布如下式:,y=0, 1, 2,,8(4 6)e=2.71828為自然對數(shù)的底數(shù)。凡在觀察次數(shù)n(n相當(dāng)大)中,某壹事件出現(xiàn)的平均次數(shù) m(m是壹個定值)很小,那么,這壹事件出現(xiàn)的次數(shù)將符合泊松分布。這壹分布在生物學(xué)研究中是經(jīng)常遇到的,例如,昆蟲和植物種類在壹定面積的分布,病菌侵害作物的分布以及原子衰變 的規(guī)律等隨機(jī)變數(shù)。泊松分布的平均數(shù)、方差和標(biāo)準(zhǔn)差如下式:y圖4.4不同
33、m值的泊松分布(4 7)這壹分布包括壹個參數(shù) m ,由m的大小決定 其分布形狀如圖 4.4。當(dāng)m值小時分布呈很 偏斜形狀,m增大后則逐漸對稱,趨近于以 下即將介紹的正態(tài)分布。例4.41907年Student氏進(jìn)行以血球計計數(shù)酵母細(xì)胞精確度試驗。如這種計數(shù)技術(shù)是有效地合適,則在每壹平方格的細(xì)胞數(shù)目理論上應(yīng)作為壹個泊松分布。表4.4是從1mm 2分為400個平方格的結(jié)果??偣灿嫈?shù)的細(xì)胞數(shù)為1872個,因之平均數(shù) m=1782 /400=4.68。理論次數(shù)須從泊松分布的概率計算,即從(q+p)n的極限為:e-m(1+ m+)其中 y=0 , 1, 2, 3, (4 8)表4.4血球計所計數(shù)的每平方格
34、內(nèi)酵母細(xì)胞數(shù)酵母細(xì)胞數(shù)012345678次數(shù)2043538670543718理論次數(shù)3.7117.3740.6563.4174.1969.4454.1636.2121.18酵母細(xì)胞數(shù)910111213141516總次數(shù)10522400理論次數(shù)11.025.162.190.860.310.100.030.01400.00本例 m=4.68 , e-m=(2.71828) -4.68 =0.009275 , 0.009275400=3.713.71是理論次數(shù)第壹項, 其他各理論次數(shù)均可按(4 8)計算。概率值乘以400得理論 次數(shù)。本例標(biāo)準(zhǔn)差估計值為=2.16 。泊松分布有壹特性,即 2個或2個之
35、上的泊松分布之和,也是壹個泊松分布,因此2個或2個之上事件各獨立地服從泊松分布時,能夠?qū)⑵浜锨?,且求其平均?shù) 和標(biāo)準(zhǔn)差。第三節(jié)正態(tài)分布正態(tài)分布(normaldistribution),是連續(xù)性變數(shù)的理論分布。在理論和實踐問題上都具有非常重要意義。首先,客觀世界確有許多現(xiàn)象的數(shù)據(jù)是服從正態(tài)分布的,因之它能夠用來配合這些現(xiàn)象的樣本分布從而發(fā)現(xiàn)這些現(xiàn)象的理論分布。例如我們在日常生活中發(fā)現(xiàn)許多數(shù)量指標(biāo)總是正常范圍內(nèi)有差異,偏離正常,表現(xiàn)過高或過低的情況總是比較少,而且越不正常的可能性越少,這就是所謂的常態(tài)或稱為“正態(tài)”,能夠用正態(tài)分布的理論及由正態(tài)分布衍生出來的方法來研究。壹般作物產(chǎn)量和許多經(jīng)濟(jì)性狀的
36、數(shù)據(jù)均表現(xiàn)屬正態(tài)分布。其次,在適當(dāng)條件下,它可用來做二項分布及其它間斷性或連續(xù)性變數(shù)分布的似近分布,這樣就能用正態(tài)分布代替其它分布以計算概率和進(jìn)行統(tǒng)計推論。第三,雖然有些總體且不做正態(tài)分布,但從總體中抽 出的樣本平均數(shù)及其它壹些統(tǒng)計數(shù)的分布,在樣本容量適當(dāng)大時仍然趨近正態(tài)分布,因此可用它來研究這些統(tǒng)計數(shù)的抽樣分布。本節(jié)先從前述的二項分布的實例引導(dǎo)出 正態(tài)分布,然后述及正態(tài)分布的特性,最后介紹概率計算方法。壹、二項分布的極限一正態(tài)分布現(xiàn)以二項式分布導(dǎo)出正態(tài)分布,因為后者是前者的極限分布。之上述二項分布棉株受害率為例,假定受害概率p=1/2 ,那么,p=q=1/2。現(xiàn)假定每個抽樣單位包括20株,這
37、樣將有21個組,其受害株的概率函數(shù),于是概率分布計算如下:=0.00000+0.00002+0.00018+0.00002+0.00000現(xiàn)將這概率分布繪于圖4.5。從圖4.5見出它是對稱的,分布的平均數(shù)和方差為:=np =20(1/2)=10( 株), 圖4.5棉株受害率(0.5+0.5) 20分布圖(實線表示二項=npq =20(1/2)(1/2)=5(株)2。式概率分布,虛線表示接近的正態(tài)分布曲線)如p= q,不論n值大或小,二項分布的多邊形圖必形成對稱;如p w q ,而n很大時,這多邊形仍趨對稱。 多邊y形是許多直線連接相鄰組組中值次數(shù)的點形成的,倘 n很大時,組數(shù)為(n+1)組,組
38、距變?yōu)榉浅P?,連接鄰組的各個直線于是變得很短,而多邊形的邊數(shù)也相應(yīng)加多了。倘n或組數(shù)增加到無窮多時(n-8),每個組的直方形都壹壹變?yōu)榭v軸線,連接的直線也壹壹變?yōu)辄c了。這時多邊形的折線就表現(xiàn)為壹個光滑曲線。這個光滑曲線在數(shù)學(xué)上的意義是壹個二項分布的極限曲線。二項分布的極限曲線屬于連續(xù)性變數(shù)分布曲線。這壹曲線壹般稱之為正態(tài)分布曲線或正態(tài)概率密度曲線。能夠推導(dǎo)出正態(tài)分布的概率密度函數(shù)為:(4 9)fN(y)y是所研究的變數(shù);N(y)是某壹定值y出現(xiàn)的函數(shù)值,壹般稱概率密度函數(shù),相當(dāng)于曲線y值的縱軸高度這里N(y)中的N是專指正態(tài)曲線而言的;3.14159 e=2.71828;為總體參數(shù),表示所研究
39、總體平均數(shù),不同正態(tài)分布能夠有不同的, 但某壹定總體的是壹常數(shù)。為總體參數(shù),表示所研究總體標(biāo)準(zhǔn)差,不同正態(tài)分布能 夠有不同的,但某壹定總體的是壹常數(shù)。這里y是從負(fù)無窮大到正無窮大的數(shù)值區(qū)間中的壹個點,討論變量處在這個點的概率是沒有意義的,而且從正態(tài)總體抽取的變數(shù)資料的每壹個觀察值均是從具有壹定概率的數(shù)值區(qū)間中抽取的,所以討論正態(tài)變數(shù)在某壹取值區(qū)間的概率才有意義,故這里將(4 9)稱為概率密度函數(shù),而非概率函數(shù),以示區(qū)別于離散型分布的概率函數(shù)。(4 9)式的函數(shù)圖見圖4.6。2圖4.6正態(tài)分布曲線圖(平均數(shù)為,標(biāo)準(zhǔn)差為)3113圖4.7標(biāo)準(zhǔn)正態(tài)分布曲線(平均數(shù)為0,標(biāo)準(zhǔn)差為1)參數(shù)和有如下的數(shù)學(xué)
40、表述:(4 10)為簡化計,壹般以壹個新變數(shù)u替彳弋y變數(shù),即將y離其平均數(shù)的差數(shù),以為單位進(jìn)行轉(zhuǎn)換,于是或(y-)。u稱為正態(tài)離差,由之可將(4 9)式標(biāo)準(zhǔn)化為:(4 11)(4 11)稱為標(biāo)準(zhǔn)化正態(tài)分布方程,它是參數(shù)=0 , 1時的正態(tài)分布(圖4.7)。記作N(0, 1)。由于它具有最簡單形式,各種不同平均數(shù)和標(biāo)準(zhǔn)差的正態(tài)分布均能夠經(jīng) 過適當(dāng)轉(zhuǎn)換用標(biāo)準(zhǔn)化分布表示出來。所以下節(jié)將用它計算正態(tài)曲線的概率。二、正態(tài)分布曲線的特性.正態(tài)分布曲線是以y=為對稱軸,向左右倆側(cè)作對稱分布, 所以它是壹個對稱曲線。 從所豎立的縱軸fN(y=)是最大值,所以正態(tài)分布曲線的算術(shù)平均數(shù)、中數(shù)和眾數(shù)是 相等的,三
41、者均合壹位于點上。.正態(tài)分布曲線以參數(shù)和的不同而表現(xiàn)為壹系列曲線,所以它是壹個曲線簇而不僅 是壹個曲線。確定它在橫軸上的位置,而確定它的變異度,不同和的正態(tài)總體具有 不同的曲線和變異度,所以任何壹個特定正態(tài)曲線必須在其和確定后才能確定。圖 4.8和4.9表示這個區(qū)別。圖4.8標(biāo)準(zhǔn)差相同(1)而平均數(shù)不同圖4.9平均數(shù)相同(0)而標(biāo)準(zhǔn)差不同(=0、=1、=2)的三個正態(tài)分布曲線(=1、=1.5、=2)的三個正態(tài)分布曲線.正態(tài)分布資料的次數(shù)分布表現(xiàn)為多數(shù)次數(shù)集中于算術(shù)平均數(shù)附近,離平均數(shù)越遠(yuǎn),其相應(yīng)的次數(shù)越少;且在左右相等|范圍內(nèi)具有相等次數(shù);在11A3之上其次數(shù)極少。.正態(tài)曲線在|=1處有“拐點
42、”。曲線倆尾向左右伸展,永不接觸橫軸,所以當(dāng)y 一 OO,分布曲線以y軸為漸近線,因之曲線全距從-OO到+00。.正態(tài)曲線和橫軸之間的總面積等于1,因此在曲線下橫軸的任何定值,例如從y=yi到y(tǒng)=y2之間的面積,等于介于這倆個定值間面積占總面積的成數(shù),或者說等于y落于這個區(qū)間內(nèi)的概率。正態(tài)曲線的任何倆個y定值ya和yb之間的面積或概率乃完全以曲線的和而確定的。詳細(xì)數(shù)值見附表2,下面為幾對常見的區(qū)間和其相對應(yīng)的面積或概率的數(shù)字:區(qū)間1面積或概率=0.68272=0.95453=0.99731.960=0.95002.576=0.9900上述關(guān)系是正態(tài)分布的理論結(jié)果,從實際試驗數(shù)據(jù)能夠證實這種關(guān)系
43、。例如,上章水稻140行產(chǎn)量資料的樣本分布表現(xiàn)出接近正態(tài)分布,其平均數(shù) ()、標(biāo)準(zhǔn)差(s)以及離均差為1、2和3個標(biāo)準(zhǔn)差的區(qū)間所包括的次數(shù)列于表4.5。實驗的結(jié)果和正態(tài)分布的理論結(jié)果很相近。表4.5140行水稻產(chǎn)量在 1s, 2S, 3S范圍內(nèi)所包括的次數(shù)表+ks數(shù)值(g)區(qū)間(g)次數(shù)%+1 s157.9+36.4121.5 194.59970.71+ 2s157.9+72.885.1 230.713495.71+ 3s157.9+109.248.7 267.1140100.00三、計算正態(tài)分布曲線區(qū)間面積或概率的方法在壹個連續(xù)性隨機(jī)變數(shù)中,不能夠計算某壹定值的概率,而只能計求某壹區(qū)間或范圍
44、的概率,例如,計算水稻產(chǎn)量每畝達(dá)380公斤之上的概率或從 380500公斤區(qū)間的概率等。壹定區(qū)間概率的表示方法,壹般采用下述符號:倘壹隨機(jī)變數(shù)y取a和b倆個定值時,而avb,其概率表示為:P(avywb)或簡寫為 P(a y b)(4 12)在正態(tài)分布曲線下,y的定值從y= a到y(tǒng)=b間的概率可用曲線下區(qū)間的面積來 表示,或者說,用其定積分的值表示,如圖 4.10所示的面積。P(ay b)=(4 13)因為正態(tài)分布曲線的全距從 -8到+8,同樣能夠計算曲線下從 -8到y(tǒng)的面積, 其公式如下:FN(y)=(4 14)這里FN(y)稱為正態(tài)分布的累積函數(shù),具有平均數(shù)和標(biāo)準(zhǔn)差?,F(xiàn)如給予變數(shù)任何壹定值
45、,例如a,那么,能夠計算 ywa的概率為FN(a),即P(ya)= FN(a)(4 15)采用這種方法,如果 a和b(avb)是y的倆個定值,則其區(qū)間概率可從下式計算:P(ayb)= FN(b)-FN(a)(4 16)正態(tài)分布的密度函數(shù) fN(y)是按y值將累積函數(shù)FN(y)求其導(dǎo)數(shù)得之。根據(jù)(4 14)當(dāng)y=-oo, Fn(-)=0 ,當(dāng)y=+Fn(+ )=+1(圖4.11)。雖然正態(tài)分布曲線是從-8到+ 8,但實際應(yīng)用上,如 y值從(3)到(3)范圍內(nèi),即相當(dāng)于 6個范圍內(nèi),F(xiàn)N(y)值即能夠相當(dāng)于差不多從0到接近于1?,F(xiàn)將y值從(3)到(3)范圍內(nèi)FN(y)的值,以0.01為壹間隔列于附
46、表 2。從該表能夠計算出任何從 -8到某壹定值 ya的概率或從y = a至I y= b區(qū)間的概率。圖4.11正態(tài)分布的累積函數(shù)FN(y)長度 A=P(ayb)由于不同總體具有不同的和,為了便于計算,可轉(zhuǎn)換為標(biāo)準(zhǔn)化正態(tài)分布方程式(4 11),即以u變數(shù)替代y變數(shù)以計算概率。u變數(shù)具有正態(tài)分布特性,具=0和=1 。因此凡要計算任何壹個正態(tài)分布的概率只須將y轉(zhuǎn)換為u值,然后查附表2便能夠決定y落于某壹給定區(qū)間的概率。下面舉出幾例說明計算方法。例4.4假定y是壹隨機(jī)變數(shù)具有正態(tài)分布,平均數(shù) =30 ,標(biāo)準(zhǔn)差=5,試計算小于26,小于40的概率,介乎 26和40區(qū)間的概率以及大于 40的概率。首先計算:
47、P(y26)= Fn (26)計算Fn(26)必須先將y轉(zhuǎn)換為u值。u=查附表2,當(dāng)u=-0.8時,F(xiàn)n(26)=0.2119 ,說明這壹分布從 到26范圍內(nèi)的變量數(shù)占全部變量數(shù)的21.19% ,或者說,y26概率為0.2119.同樣計算:P(y 40)= Fn (40)查附表2,當(dāng)u=+2.0時,F(xiàn)n(40)=0.9773 ,這指出從-8到40范圍內(nèi)的變量 數(shù)占全部變量數(shù)的97.73% ,或者說,y40概率為九0773 。計算:P(26y40)= Fn(40)-Fn(26)=0.9773-0.2119=0.7654,或者寫為 P(26y 40)=1 -P(yw 40)=1-0.9773=0.
48、0227之上計算參見圖 4.12。fN(y)P(26 y 40) 0.7654 圖4.12概率計算圖示40) 0.9773P(y例4.5在應(yīng)用正態(tài)分布時,經(jīng)常要討論隨機(jī)變數(shù)y離其平均數(shù)的差數(shù)大于或小于若干個值的概率。例如計算離均差絕對值等于小于和等于大于1的概率為:P( y)=1-0.6827=0.3173相應(yīng)地,離均差絕對值等于小于2、等于大于2、等于小于3和等于大于3的概率值為:P(|2)= P(WyW)= P(-2 u 2)=1-0.9545=0.0455P(|& 3)= P() y ()= P(-3 u 3)=1-0.9973=0.0027之上結(jié)果解釋了正態(tài)分布曲線的概率特性,可參考圖
49、4.13 。圖4.13離均差的絕對值0P( 2 u 2) 0.95451,2和1.96的概率值例4.6計算正態(tài)分布曲線的中間概率為0.99時,其y或u值應(yīng)等于多少?因為正態(tài)分布是對稱的,故在曲線左邊從-8到-u的概率和在曲線右邊從u到8的概率都應(yīng)等于1/2(1-0.99)=0.005。查附表 3 , u=-2.58 時,F(xiàn)N(y)=0.00494 ”0.005 o于是知,當(dāng)土 2.58時,在其范圍內(nèi)包括 99%的變量,僅有1%變量在此范圍 之外。上述結(jié)果寫作:P(|2.58)= P(|u| 2.58)=0.01P(|2.58)= P(|u|1.96)= P(|u| 1.96)=0.05P(|
50、1.96)= P(|u|2.58)= P(y2.58)同理,P(| 1.96)亦可寫成:P(|1.96)= P(y1.96)之上倆式等號右側(cè)的前壹項為左尾概率,后壹項為右尾概率,其和概率稱為倆 尾概率值。由于倆尾概率值經(jīng)常應(yīng)用,為減少計算的麻煩,在附表3列出了倆尾概 率取某壹值時的臨界u彳1(正態(tài)離差u彳1),可供直接查用。例如,可查得P=0.01時 u=2.5758 , P=0.05 時 u=1.9599 ,即表示:P(|u|2.5758)=0.01 , P(|u| 1.9599)=0.05如果僅計算壹尾,則為壹尾概率值。例如計算P(u 1.6448)= P(|u| 1.6448)=(0.1
51、)=0.05這個0.05稱為y值大于1.6448的壹尾概率值。當(dāng)概率壹定時,倆尾概率的|u|總是大于壹尾概率|u|。例如,倆尾概率為 0.05時,|u|=1.96 ;而壹尾概率為 0.05 時,|u|=1.64。這表明在給定概率為 0.05時,若考慮倆尾,則離均差的絕對值需大 過1.96 ;若考慮壹尾,則離均差的絕對值只需大過1.64。第四節(jié)抽樣分布統(tǒng)計學(xué)的壹個主要任務(wù)是研究總體和樣本之間的關(guān)系。這種關(guān)系能夠從倆個方 向進(jìn)行研究。第壹個方向是從總體到樣本的方向,其目的是要研究從總體中抽出的所有可能樣本統(tǒng)計量的分布及其和原總體的關(guān)系。這就是本節(jié)所要討論的抽樣分布。第二個方向是從樣本到總體的方向,
52、即從總體中隨機(jī)抽取樣本,且用樣本對總體作出推論。這就是以后將要討論的統(tǒng)計推斷問題。抽樣分布(samplingdistribution)是統(tǒng)計推斷的基礎(chǔ)。壹、統(tǒng)計數(shù)的抽樣及其分布參數(shù)從總體中隨機(jī)抽樣得到樣本,獲得樣本觀察值后能夠計算壹些統(tǒng)計數(shù),統(tǒng)計數(shù)分布稱為抽樣分布。這里討論的是抽樣分布的參數(shù)和被抽樣的已知總體參數(shù)間的關(guān)系。值得指出的是抽樣分為復(fù)置抽樣和不復(fù)置抽樣,前者指將抽得的個體放回總體 后再繼續(xù)抽樣的方法,后者指將抽得的個體不放回總體而繼續(xù)進(jìn)行抽樣的方法。討 論抽樣分布時考慮的是復(fù)置抽樣方法。(壹)樣本平均數(shù)的抽樣及其分布參數(shù)如圖4.14從壹個總體進(jìn)行隨機(jī)抽樣能夠得到許多樣本,如果總體是無
53、限總體,那么能夠得到無限多個隨機(jī)樣本。如果從容量為N的有限總體抽樣,若每次抽取容量為n的樣本,那么壹共能夠得到 Nn個樣本(所有可能的樣本個數(shù))。抽樣所得到的 每壹個樣本能夠計算壹個平均數(shù),全部可能的樣本都被抽取后能夠得到許多平均數(shù),如等。這里m代表抽樣所可能得到的所有平均數(shù)的總個數(shù)。如果被抽樣的總體是無限總體,顯然m代表無窮大的正整數(shù),如果是有限總體那么 m=Nn。如果將抽樣所得到的所有可能的樣本平均數(shù)集合起來便構(gòu)成壹個新的總體,這個總體是由原總體平均數(shù)就成(或稱為母總體)抽樣得到的,它的變數(shù)資料是由所有樣本平均數(shù)構(gòu)成的, 為壹個新總體的變量。每壹次隨機(jī)抽樣所得到的平均數(shù)可能會有差異,所以由
54、平均 數(shù)構(gòu)成的新總體也應(yīng)該有其分布,這種分布稱為平均數(shù)的抽樣分布。隨機(jī)樣本的任 何壹種統(tǒng)計數(shù)都能夠是壹個變量,這種變量的分布稱為統(tǒng)計數(shù)的抽樣分布。除平均 數(shù)抽樣分布外仍有總和數(shù)、方差的抽樣分布等。2圖4.14總體和樣本的關(guān)系既然新總體是由母總體中通過隨機(jī)抽樣得到的,那么新總體和母總體間必然有關(guān)系。數(shù)理統(tǒng)計的推導(dǎo)表明新總體和母總體在特征參數(shù)上存在函數(shù)關(guān)系。以平均數(shù)抽樣分布為例,這種關(guān)系可表示為以下倆個方面。(1)該抽樣分布的平均數(shù)和母總體的平均數(shù)相等。(4 17)(2)該抽樣分布的方差和母總體方差間存在如下關(guān)系:(4 18)其中n為樣本容量。抽樣分布的標(biāo)準(zhǔn)差又稱為標(biāo)準(zhǔn)誤,它能夠度量抽樣分布的變異
55、。這里抽樣分布的參數(shù),即平均數(shù)和方差這倆個概念要很好理解,前者是所有樣本平均數(shù)的平均數(shù),后者是所有樣本平均數(shù)間方差,它們不同于母總體的和但有如(4 17)、(4 18)的關(guān)系。例4.7之上(4 17)和(4 18)的理論關(guān)系能夠通過抽樣實驗以驗證。設(shè)有壹總體 N=3(例2, 4 , 6)。以樣本容量n=1、n=2、n=4及n=8 ,從總體中進(jìn)行復(fù)置抽樣, 抽出全部樣本于表4.6。表4.6各種不同樣本容量的樣本平均數(shù)()的抽樣分布n=1n=2n=4n=8yffff2.0012.2582.50362.751122.013.002662.543.25504213.0103.5078421323.51
56、63.75101641434.0194.00110761524.5164.251016615.0104.507845.544.755046.015.002665.251125.50365.7586.00139816561平均數(shù)4444方差8/34/32/31/3圖4.15各種不同樣本容量的分布方柱形圖表4.6中列出這些不同樣本容量的抽樣分布,且在圖4.15用方柱形圖表示其分布形狀。現(xiàn)試見:樣本平均數(shù)分布的平均數(shù)、方差和其母總體平均數(shù)、方差的關(guān)系。由表中第壹列當(dāng)N=3 , n=1的總體平均數(shù)和方差為:當(dāng)樣本容量依次為 2、4、8時,其相應(yīng)為4、4、4;其相應(yīng)為4/3、2/3、1/3 。 即=,。
57、因而驗證了 (4 17)和(4 18)的理論關(guān)系。(二)樣本總和數(shù)的抽樣及其分布參數(shù)樣本總和數(shù)也有其抽樣分布, 根據(jù)數(shù)理統(tǒng)計的推導(dǎo), 樣本總和數(shù)(用代表)的抽樣分布參數(shù)和母總體間存在如下關(guān)系:該抽樣分布的平均數(shù)和母總體的平均數(shù)間的關(guān)系為:(4 19)(2)該抽樣分布的方差和母總體方差間存在如下關(guān)系: (4 20)(三)倆個獨立隨機(jī)樣本平均數(shù)差數(shù)的抽樣及其分布參數(shù)如果從壹個總體隨機(jī)地抽取壹個樣本容量為ni的樣本,同時隨機(jī)獨立地從另壹個總體抽取壹個樣本容量為n2的樣本,那么能夠得到分別屬于倆個總體的樣本,這倆個樣本的平均數(shù)用和表示。設(shè)這倆個樣本所來自的倆個總體的平均數(shù)分別為和, 它們的方差分別為和
58、。根據(jù)數(shù)理統(tǒng)計的推導(dǎo),倆個獨立隨機(jī)抽取的樣本平均數(shù)間差 數(shù)(-)的抽樣分布參數(shù)和倆個母總體間存在如下關(guān)系:(1)該抽樣分布的平均數(shù)和母總體的平均數(shù)之差相等。(4 21)(2)該抽樣分布的方差和母總體方差間的關(guān)系為:(4 22)例4.8(4 21)和(4 22)式的理論關(guān)系能夠通過抽樣實驗以驗證。假定第壹個總體包才3個觀察值,2、4和6(N1=3 , n1=2),所有樣本數(shù)為 Nn=3 2=9個,總體平均 數(shù)和方差=4 , =8/3 。第二個總體包括 2個觀察值,3和6(N2=2),抽出的樣本容量 為3( n2=3),所以所有樣本數(shù)為 23=8個,總體平均數(shù)和方差=4.5 , =2.25 。現(xiàn)將
59、上 述倆個總體的次數(shù)分布列于表 4.7 ,且計算出其分布的參數(shù)。表4.7從倆個總體抽出的樣本平均數(shù)的次數(shù)分布表ff213132434353526161總和9總和8N1=3 n 1=2N2=2 n2=3=4=4.5=8/3=2.25當(dāng)下要研究從這倆個總體抽出的樣本平均數(shù)差數(shù)的分布及其參數(shù)。由于從第壹總體抽出9個所有樣本,從第二總體抽出8個所有樣本,所以必須將第壹總體的9個樣本平均數(shù)和第二總體的8個樣本平均數(shù)作所有可能的相互比較,這樣共有9X8=72個比較或72個差數(shù),這72個差數(shù)次數(shù)分布列于表 4.8和表4.9。表4.8樣本平均數(shù)差數(shù)的次數(shù)分布表2,2,2, 23, 3 , 3,34, 4 ,
60、4,45 ,5, 5 , 56 ,6,6 , 6總和3,4,5 , 63, 4 , 5,63, 4 , 5,63 ,4, 5 , 63 ,4,5 , 6-1 ,-2,-3,-4 0, -1 , -2,-3,1, 0 , -1 ,-22 ,1,0 , -13 ,2,1 , 0f1 ,3,3 , 12, 6 , 6,23, 9 , 9,32 ,6, 6 , 21 ,3,3 , 172表4.9樣本平均數(shù)差數(shù)分布的平均數(shù)和方差計算表ff()(+0.5)(+0.5) 2f()2-41-4-3.512.2512.25-35-15-2.56.2531.25-212-24-1.52.2527.00-118-1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 房屋交易合同爭議起訴狀樣本
- 導(dǎo)游注冊協(xié)議書樣本
- 信用評估合同2024年
- 礦產(chǎn)品交易合同范本
- 橋梁健康狀況檢測技術(shù)現(xiàn)狀
- 區(qū)域銷量產(chǎn)品年度協(xié)議
- 建筑施工合同樣板
- 學(xué)校意外保險賠償協(xié)議范本
- 中外合資企業(yè)合同
- 學(xué)生宿舍租賃合同
- 2024福建網(wǎng)龍網(wǎng)絡(luò)控股限公司校園招聘100人高頻500題難、易錯點模擬試題附帶答案詳解
- 2024-2030年中國BPO行業(yè)發(fā)展分析及發(fā)展前景與趨勢預(yù)測研究報告
- 2024年全新租金保密協(xié)議
- 八年級數(shù)學(xué)上學(xué)期(11-14)綜合測試題
- 二甲雙胍臨床應(yīng)用專家共識(2023年版)解讀
- 2024年高考詩歌鑒賞題匯編(試題+答案解析)
- 《中國民間故事》閱讀指導(dǎo)課(教學(xué)設(shè)計)2024-2025學(xué)年統(tǒng)編版語文五年級上冊
- 2024年新華師大版七年級上冊數(shù)學(xué)全冊學(xué)案
- 第2章-動車組列車餐吧車的設(shè)施設(shè)備《高速鐵路列車餐飲服務(wù)》
- 寵物醫(yī)院管理系統(tǒng)
- 武漢理工大學(xué)博士后年度業(yè)務(wù)考核表
評論
0/150
提交評論