抽樣和抽樣分布_第1頁
抽樣和抽樣分布_第2頁
抽樣和抽樣分布_第3頁
抽樣和抽樣分布_第4頁
抽樣和抽樣分布_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

抽樣和抽樣分布第一頁,共七十五頁。第一節(jié)抽樣及抽樣中的幾個基本概念一、抽樣的概念和特點1、抽樣:從所研究的對象中隨機地取出其中一部分來觀察,由此而獲得有關總體的信息。

第二頁,共七十五頁。2、抽樣的3個特點:1)遵守隨機原則;2)推斷被調(diào)查現(xiàn)象的總體特征;3)計算推斷的準確性和可靠性。第三頁,共七十五頁。二、抽樣的基本概念

1、全及總體和樣本總體全及總體是我們所要研究的對象,而樣本總體則是我們所要觀察的對象,兩者是有區(qū)別而又有聯(lián)系的不同范疇。全及總體又稱母體:具有某種共同性質(zhì)的許多單位的集合體。

樣本總體:又稱子樣,簡稱樣本,是從全及總體中隨機抽取出來,代表全及總體的那部分單位的集合體。樣本總體的單位數(shù)稱為樣本容量,通常用小寫英文字母n來表示。

第四頁,共七十五頁。樣本代表性問題:隨著樣本容量的增大,樣本對總體的代表性越來越高,并且當樣本單位數(shù)足夠多時,樣本平均數(shù)愈接近總體平均數(shù)。第五頁,共七十五頁。2.全及指標和抽樣指標全及指標:根據(jù)全及總體各個單位的標志值或標志屬性計算的,反映總體某種屬性或特征的綜合指示稱為全及指標。常用的全及指標有總體平均數(shù)(或總體成數(shù))、總體標準差(或總體方差)。

第六頁,共七十五頁。抽樣指標:由樣本總體各單位標志值計算出來反映樣本特征,用來估計全及指標的綜合指標稱為統(tǒng)計量(抽樣指標)。統(tǒng)計量是樣本變量的函數(shù),用來估計總體參數(shù),因此與總體參數(shù)相對應,統(tǒng)計量有樣本平均數(shù)(或抽樣成數(shù))、樣本標準差(或樣本方差)。

第七頁,共七十五頁。注意:

對于一個問題全及總體是唯一確定的,所以全及指標也是唯一確定的,全及指標也稱為參數(shù),它是待估計的數(shù)。而統(tǒng)計量則是隨機變量,它的取值隨樣本的不同而發(fā)生變化。第八頁,共七十五頁。

3、樣本容量和樣本個數(shù)

樣本容量:指一個樣本所包含的單位數(shù)。通常將樣本單位數(shù)不少于30個的樣本稱為大樣本,不及30個的稱為小樣本。社會經(jīng)濟統(tǒng)計的抽樣調(diào)查多屬于大樣本調(diào)查。樣本個數(shù)又稱樣本可能數(shù)目。指從一個總體中可能抽取的樣本個數(shù)。一個總體有多少樣本,則樣本統(tǒng)計量就有多少種取值,從而形成該統(tǒng)計量的分布,此分布是抽樣推斷的基礎。第九頁,共七十五頁。4、重復抽樣和不重復抽樣

有放回抽樣:總體中的每個個體單位可以不止一次地被選中的抽樣。無放回抽樣:總體中的每個個體被選中的次數(shù)不多于一次。第十頁,共七十五頁。名稱樣本總體定義從總體中抽出的部分單位數(shù)研究對象的全部單位總數(shù)特征統(tǒng)計量參數(shù)符號樣本容量:n樣本平均數(shù):樣本比例:樣本標準差:s樣本方差總體容量:N總體平均數(shù):μ總體比例:p總體標準差:σ總體方差:5、樣本統(tǒng)計量的總體參數(shù)符號第十一頁,共七十五頁。三、隨機抽樣和判斷抽樣隨機抽樣:按照隨機原則抽取樣本,在總體中所有單位被抽中的機會是均等的。判斷抽樣:根據(jù)個人或集體的設想或經(jīng)驗,從總體中有目的地抽取樣本。第十二頁,共七十五頁。三、非抽樣誤差和抽樣誤差1、非抽樣誤差:在調(diào)查登記過程中發(fā)生的誤差和由于主觀因素破壞了隨機原則而產(chǎn)生的系統(tǒng)性偏差。第十三頁,共七十五頁。2、抽樣誤差:是指由于隨機抽樣的偶然因素使樣本各單位的結構不足以代表總體各單位的結構,而引起抽樣指標和全及指標之間的絕對離差。不包含登記性誤差和不遵守隨機原則造成的偏差。影響抽樣誤差的因素有:總體各單位標志值的差異程度;樣本的單位數(shù);抽樣的方法;抽樣調(diào)查的組織形式。第十四頁,共七十五頁。第二節(jié)隨機抽樣設計一、純隨機抽樣:對總體的所有容量不做任何的分類和排隊,完全按隨機原則逐個抽取樣本容量。第十五頁,共七十五頁。純隨機抽樣的常用抽樣方法1)抽簽法:將總體容量全部加以編號,并編成相應的號簽,然后將號簽充分混合后逐個抽取,直到抽到預定需要的樣本容量為止。缺點:總體容量很多時,編制號簽的工作量很大,且很難摻和均勻。第十六頁,共七十五頁。2)隨機數(shù)字法:用字母順序或身份證號等任何方便的方法對總體容量編者按號,利用隨機數(shù)表從1到總體容量N中隨機抽取n(樣本容量數(shù))個數(shù),遇到那些不在編號里的數(shù)字需跳過。第十七頁,共七十五頁。二、等距抽樣:先將總體各單位按某一有關標志(或無關標志)排隊,然后相等距離或相等間隔抽取樣本單位。根據(jù)需要抽取的樣本單位數(shù)(n)和全及總體單位數(shù)(N),可以計算出抽取各個樣本單位之間的距離和間隔,即:K=N/n,然后按此間隔依次抽取必要的樣本單位。第十八頁,共七十五頁。等距抽樣的一個例子

某企業(yè)有職工5000名,現(xiàn)要隨機抽取100人進行家庭收入水平調(diào)查。抽取方法:按與研究目的無直接關系的姓名筆劃對總體進行排列,把總體劃分為K=5000/100=50個相等的間隔,在第1至第50人中隨機抽取一名,如抽到第10名,后面間隔依次抽取第60,110,160,210,…直到4960為止,總共抽取50同名職工組成一個抽樣總體。第十九頁,共七十五頁。等距抽樣的優(yōu)點:(1)能保證被抽取到的樣本單位在全及總體中均勻分布;(2)簡化抽樣過程。等距抽樣應注意:要避免抽樣間隔或樣本距離和現(xiàn)象本身的節(jié)奏性或循環(huán)周期相重合。第二十頁,共七十五頁。三、類型抽樣類型抽樣:將全及總體中的所有單位按某一主要標志分組,然后在各組中采用純隨機抽樣或等距抽樣方式,抽取一定數(shù)目的調(diào)查單位構成所需的樣本。適用范圍:主要適用于總體情況比較復雜,各類型或?qū)哟沃g的差異較大,而總體單位又較多的情形,分層使層內(nèi)各單位之間的差異減小,層間差異擴大。第二十一頁,共七十五頁。(一)類型比例抽樣

按照總體單位數(shù)在各組之間的比例,分配各組的抽樣單位數(shù)。即:各類型中抽取的樣本單位數(shù)ni占該類型所有單位數(shù)Ni的比例是相等的,等同于樣本單位總數(shù)n占總體單位數(shù)N的比例,即:第二十二頁,共七十五頁。各類型組應抽取的樣本單位數(shù)為:樣本比率抽樣樣本容量:按前面指定的比例(n/N)從每組的Ni單位中抽取ni個單位即構成一個抽樣總體,其樣本容量為:n=n1+n2+n3+…+nk=第二十三頁,共七十五頁。(二)類型適宜抽樣

在抽取樣本單位數(shù)時,要考慮各類型組包含的單位數(shù)不同和標志變動度()的不同,變動程度()大的類型組要多抽樣本單位數(shù),變動程度()小的組要少多抽樣本數(shù),使得各類型組的變動程度()在所有類型組變動程度之和中的比例相等,等同于是或。第二十四頁,共七十五頁。此外,還可將各類型組單位數(shù)和變動程度結合考慮,使得在所有類型組之和中所占比例等于或,即:從而求得各類型的樣本單位數(shù)為:第二十五頁,共七十五頁。四、整群抽樣在全及總體中以群(或組)為單位,按純隨機方式或等距抽樣方式,抽取若干群(或組),然后對所有抽中的各群(或各組)中的全部單位一一進行調(diào)查。第二十六頁,共七十五頁。五、多階段抽樣

將多個抽樣程序分成若干階段,然后逐階段進行抽樣,以完成整個抽樣過程。

適用范圍:總體包括的單位很多,而且分布很廣,通過一次抽樣抽選出樣本是很困難的,這時使用多階段抽樣。第二十七頁,共七十五頁。多階段抽樣的一個例子

例:對我國的農(nóng)產(chǎn)量進行抽樣調(diào)查。

抽樣方法是:先由省抽縣,由抽中的縣內(nèi)再抽鄉(xiāng)、村,由抽中的鄉(xiāng)、村抽地塊,最后才由抽中的地塊再抽樣本單位。第二十八頁,共七十五頁。第三節(jié)抽樣分布一、抽樣分布:從一個給定的總體中抽?。ú徽撌欠裼蟹呕兀┤萘浚ɑ虼笮。閚的所有可能的樣本,對于每一個樣本,計算出某個統(tǒng)計量(如樣本均值或標準差)的值,不同的樣本得到的該統(tǒng)計量的值是不一樣的,由此得到這個統(tǒng)計量的分布,稱之為抽樣分布。第二十九頁,共七十五頁。例如:如果特指的統(tǒng)計量是樣本均值,則此分布為均值的抽樣分布。類似的有標準差、方差、中位數(shù)、比例的抽樣分布。第三十頁,共七十五頁。二、統(tǒng)計量抽樣分布的均值、標準差:

對于每個統(tǒng)計量的抽樣分布,可計算出它的均值和標準差等,稱之為該統(tǒng)計量抽樣分布的均值和標準差等。第三十一頁,共七十五頁。三、均值的抽樣分布(一)被抽樣的總體服從正態(tài)分布,樣本平均數(shù)的抽樣分布具有下列質(zhì):1、樣本平均數(shù)的分布依然是正態(tài)分布;2、樣本平均數(shù)分布的平均值等于總體平均數(shù)μ;3、樣本平均數(shù)分布的均方差等于:第三十二頁,共七十五頁。當為有限總體無放回抽樣時,其樣本均值標準差為:如果總體為無限總體的或抽取是有放回的,其樣本均值標準差為:第三十三頁,共七十五頁。(二)非正態(tài)總體樣本平均數(shù)的分布及性質(zhì)?1、中心極限定理可以解決上述問題:一個具有任意函數(shù)形式的總體,其樣本平均值μ和方差有限。在對該總體進行抽樣時,隨著樣本容量n的增大,由這些平均樣本算出的平均數(shù)的抽樣分布將近似服從平均數(shù)為μ和方差為的正態(tài)分布。第三十四頁,共七十五頁。2、樣本容量究竟該多大才能使抽樣分布逼近于正態(tài)分布?中心極限定理說明了不僅從正態(tài)總體抽取樣本時,樣本平均數(shù)這一統(tǒng)計量要服從正態(tài)分布,即使是從非正態(tài)總體進行抽樣,只要是大樣本(容量n≧30),樣本平均數(shù)也趨向于正態(tài)分布。第三十五頁,共七十五頁。(三)應用舉例例1:從某地區(qū)統(tǒng)計中得知,該地區(qū)郊區(qū)平均每一家庭年收入為3160元,標準差為800元。從此郊區(qū)抽取50個家庭為一隨機樣本,平均每年收入為以下數(shù)字的平均概率是多少:(1)多于3000元;(2)少于3000元;(3)在3200元到3300元之間。第三十六頁,共七十五頁。使用模型描述我們的問題題中沒有告知總體服從正態(tài)分布,但樣本容量足夠大(n=50),據(jù)中心極限定理,近似服從正態(tài)分布。(1)

第三十七頁,共七十五頁。同理處理(2)和(3)(2)(3)第三十八頁,共七十五頁。例2:從海外A地區(qū)采購大豆10000包,已知平均每包重量為100公斤,標準差為4公斤,現(xiàn)按不重復抽樣從中抽取樣本容量n=500包的樣本,來測定這批大豆的每包平均重量,要求標出樣本平均重量短0.5公斤以上的概率.第三十九頁,共七十五頁。問題的模型描述沒有告知總體服從正態(tài)分布,但樣本容量足夠大(n=500),據(jù)中心極限定理,可知近似服從正態(tài)分布。大豆的抽樣:第四十頁,共七十五頁。四、比例的抽樣分布(一)比率的抽樣分布:從一個計數(shù)的變量總體中抽取一定容量的樣本,計算其具有某種特征的單位數(shù)所占的比率,其所有可能樣本比率所形成的分布就是比率的抽樣分布。第四十一頁,共七十五頁。(二)比例的抽樣分布、均值和方差1、當樣本容量很大(n≧30)時,比例的抽樣分布非常接近于正態(tài)分布。2、比例抽樣分布的均值第四十二頁,共七十五頁。3、比例抽樣分布的標準差:(1)有限總體且有放回抽樣:(2)有限總體且抽樣無放回:第四十三頁,共七十五頁。(三)比例抽樣分布的例子某選區(qū)的選取舉結果表明某一位候選人得到了46%的選票。從選民中隨機抽取(1)200人,(2)1000人作民意測驗,求大多數(shù)人支持這位候選人的概率。第四十四頁,共七十五頁。該問題的模型描述因為樣本容量n(n=200或1000)較大,故的分布接近于正態(tài)分布。均值標準差(1)(2)第四十五頁,共七十五頁。(1)樣本中大多數(shù)人支持候選人的選取民比例為:200人中的大多數(shù)即為:100.5/200=0.5025要求的概率為:第四十六頁,共七十五頁。(2)樣本中大多數(shù)人支持候選人的選取民比例為:1000人中的大多數(shù)即為:500.5/1000=0.5005概率為第四十七頁,共七十五頁。第四節(jié)2個樣本平均數(shù)

之差的抽樣分布問題提出:在某些情況下,需要對來自2個不同總體的平均數(shù)進行比較,例如,比較2種管理方法下的工作臺效率等。為了通過樣本數(shù)據(jù)對2個總體平均數(shù)之差作出推斷,就需要知道2個樣本平均值之差的抽樣分布性質(zhì)。第四十八頁,共七十五頁。一、兩樣本平均數(shù)之差的

分布、期望和方差(一)兩正態(tài)總體樣本平均數(shù)之差的分布假設有2個給定的正態(tài)總體,其平均數(shù)分別為μ1和μ2,方差分別為和,從2個正態(tài)總體中抽取的容量分別為n1和n2的2個獨立樣本的平均數(shù)之差

分布:服從正態(tài)分布;樣本平均數(shù):μ1-μ2;樣本平均數(shù)的方差:

第四十九頁,共七十五頁。(二)兩非正態(tài)總體樣本平均數(shù)之差的分布從兩個非正態(tài)總體中抽取2個獨立的樣本,這時,只要樣本的容量足夠大,即n≥30,根據(jù)中心極限定理,樣本平均數(shù)之差的抽樣分布逼近正態(tài)分布,其平均數(shù)同樣為:μ1-μ2其標準差同樣為:第五十頁,共七十五頁。二、2個樣本比率

之差的抽樣分布如果有2個總體,它們的某種特征的單位數(shù)所占的比率分別為p1和p2,現(xiàn)從這2個總體中分別抽出容量為n1和n2的2個獨立樣本隨機樣本,其樣本比率分別為和。問服從什么分布,其均值和方差分別為多少?第五十一頁,共七十五頁。當n1和n2很大時,2個樣本比率之差的抽樣分布就近似于正態(tài)分布,其平均值和方差分別為:第五十二頁,共七十五頁。三、應用實例

某調(diào)查研究機構經(jīng)調(diào)查后所示的統(tǒng)計資料表明,A類企業(yè)5年內(nèi)用于市場情況的市場調(diào)查預算增加了18%,而B類企業(yè)增加了10%。現(xiàn)在要問:(1)如果從每類企業(yè)中各抽選90個企業(yè)組成2個獨立隨機樣本,樣本比率之差的抽樣分布的平均值和標準差有多大?(2)樣本比率之差位于0.06和平共處1之間的概率有多大?(3)如果從每一類企業(yè)中各觀察一個容量為90的簡單隨機樣本,將觀察到這一差值小于0.03的概率有多大?第五十三頁,共七十五頁。解(1)因為樣本容量n1=n2=90,故的分布接近于正態(tài)分布,則第五十四頁,共七十五頁。(2)為求位于0.06和0.11之間的概率,必須先求出Z1和Z2的值:第五十五頁,共七十五頁。于是小于或等于0.03的概率為:

第五十六頁,共七十五頁。(3)小于或等于0.03的概率為:第五十七頁,共七十五頁。第五節(jié)t分布、2分布和F分布

在實際工作中,抽取足夠多的樣本容量進行調(diào)查意味著人力、物力和財力的增加,尤其對一些具有破壞性的試驗來說也不宜抽取太多的樣本容量。也就是說,對于大樣本進行觀察受到某些條件的限制。本節(jié)主要討論t分布、2分布和F分布。第五十八頁,共七十五頁。一、t-分布

關于t分布的早期理論工作,是英國統(tǒng)計學家威廉?西利?戈塞特(WillamSealyGosset)在1900年進行的。t分布是小樣本分布,小樣本分布一般是指n<30。t分布適用于當總體標準差未知時用樣本標準差s代替總體標準差,由樣本平均數(shù)推斷總體平均數(shù)以及2個小樣本之間差異的顯著性檢驗等。第五十九頁,共七十五頁。從平均值為、方差為2的正態(tài)總體中抽取容量為n的一個樣本,其樣本平均數(shù)服從平均值為,方差為2/n的正態(tài)分布,因此,。但是總體方差2總是未知的,從而只能用s2來代替,(1)如果n很大,那么,s2就是2的一個較好的估計量,仍然是一個近似的標準正態(tài)分布;第六十頁,共七十五頁。(2)如果n較小,s2常常與2的差異較大,因此,統(tǒng)計量就不再是一個標準正態(tài)分布,而是服從t分布。第六十一頁,共七十五頁。(一)t分布的性質(zhì)1、t分布是對稱分布,且其均值為0。2、當樣本容量n較小時,t分布的方差大于1;當n增大到大于或等于30時,t分布的方差就趨近于1,t分布也就趨近于標準正態(tài)分布。第六十二頁,共七十五頁。3、t分布是一個分布族,對于不同的樣本容量都對應不同的分布,且其均值都為0。4、與標準正態(tài)分布相比,t分布的中心部分較低,2個尾部較高。5、變量t的取值范圍在與之間。t分布與標準正態(tài)分布的比較如下圖所示:第六十三頁,共七十五頁。(二)t分布的自由度

樣本中獨立觀察值的個數(shù)(即樣本容量)n減去1(由于樣本要估計的總體參數(shù)的個數(shù)為1,即2)。如果用一個樣本容量為n=20的樣本估計總體平均數(shù),那就要用14個自由度,以便選擇適當?shù)膖分布。第六十四頁,共七十五頁。(三)t分布表的使用

在使用t分布表時,必須同時具備置信度和自由度2個條件。置信度表示被估計的總體參數(shù)落入置信區(qū)間的概率。然而,t分布給出的是值,即表示所估計的總體參數(shù)不落入置信區(qū)間的概率,或落入置信區(qū)間以外的可能性。的數(shù)值是由100%減去給定的置信度后得到的。查表時還要指定自由度。第六十五頁,共七十五頁。t分布表使用的一個例子:在99%的置信度下,對容量為14的樣本作出一個估計。解:從=0.10那一欄下,找到自由度為13(n-1=14-1=13)那一行相交的數(shù)字,這個數(shù)字為1.771。數(shù)值1.771表明,如果從平均數(shù)兩側分別加減1.771個標準差,那么,在這兩個界限之內(nèi)曲線下的面積是99%,而有曲線面積之外是10%。如下圖所示:第六十六頁,共七十五頁。二、2分布

2分布的產(chǎn)生和適用范圍簡介:2分布是海爾墨特(Hermert)和卡.皮爾生(K.Pearson)分別于1875年和1890年導出的。它主要適用于對擬合優(yōu)度檢驗和獨立性檢驗,以及對總體方差的估計和檢驗等。第六十七頁,共七十五頁。

2分布介紹:當我們對正態(tài)隨機變量X隨機地重復抽取n個數(shù)值,將每一個值變換成標準正態(tài)變量,并對這n個新的變量分別取平方再求和之后,就得到一個服從自由度為n的2分布。2分布的變量。即:第六十八頁,共七十五頁。第六十九頁,共七十五頁。(一)分布具有以下幾個特點:1、2分布是一個以自由度n為參數(shù)的分布族,自由度n決定了分布的形狀,對于不同的n有不同的2分布。2、2分布是一種非對稱分布。一般為正偏分布。3、2分布的變量值始終為正。4、分布的平均值為n,方差為2n。第七十頁,共七十五頁。(二)2分布表的使用

在表體中給出的是與表的左端列中所列出的各

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論