抽樣推斷培訓課程(ppt 頁)_第1頁
抽樣推斷培訓課程(ppt 頁)_第2頁
抽樣推斷培訓課程(ppt 頁)_第3頁
抽樣推斷培訓課程(ppt 頁)_第4頁
抽樣推斷培訓課程(ppt 頁)_第5頁
已閱讀5頁,還剩75頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、第6章 抽樣(chu yn)推斷抽樣(chu yn)推斷的基本概念 抽樣誤差 抽樣推斷(tudun)的方法 抽樣的組織形式 第一頁,共八十頁。9/1/202216.1 抽樣(chu yn)推斷的基本概念 抽樣推斷,從其內(nèi)涵(nihn)來說,包括抽樣調(diào)查和抽樣推斷兩部分,前者著重調(diào)查,后者著重推斷。 抽樣推斷是在抽樣調(diào)查(chu yn dio ch)的基礎上利用樣本的實際資料計算出的樣本數(shù)據(jù),并運用概率估計方法,推算總體相應的數(shù)量指標的一種統(tǒng)計分析方法。第二頁,共八十頁。9/1/20222抽樣推斷(tudun)具有如下幾個特點抽樣推斷(tudun)是由部分推算整體的一種認識方法。 抽樣推斷(tu

2、dun)是建立在隨機取樣的基礎上。 抽樣推斷是運用概率估計的方法,利用樣本指標來估計總體參數(shù)。 抽樣推斷的誤差是可以事先控制的,用樣本指標值推斷總體指標值是存在一定誤差的。 第三頁,共八十頁。9/1/20223抽樣(chu yn)推斷的作用應用于某些不可能作全面(qunmin)調(diào)查或很難作全面(qunmin)調(diào)查的場合。在可以使用(shyng)全面調(diào)查的場合,抽樣調(diào)查仍有其獨特的作用。用于假設檢驗。第四頁,共八十頁。9/1/202246.1.1 總體(zngt)和樣本 1總體(population)也稱全及總體,是指所研究(ynji)現(xiàn)象的整體,即包括所要調(diào)查的所有單位。 例如,從1000名學

3、生中,抽取(chu q)50名學生進行抽樣調(diào)查,以計算學生的平均體重。這1000名學生是全及總體,一般用英文大寫字母N來表示總體的單位數(shù),取N=1000人。全及總體按其各單位性質(zhì)的不同,可以分為變量總體和屬性總體兩類。對于一個總體來說,若被研究的單位標志屬于品質(zhì)標志,則該總體為屬性總體,若被研究的單位標志屬于數(shù)量標志,則該總體為變量總體。 第五頁,共八十頁。9/1/202252樣本(sample)又稱子樣,它是從全及總體中隨機(su j)抽取出來,作為代表這一總體的那部分單位組成的集合體。 樣本的單位數(shù)是有限的,相對來說,它的數(shù)目(shm)比較小,一般用英文小寫字字母n來表示樣本的單位數(shù)。如上

4、例n=50人。 作為推斷對象的總體是確定的,而且是唯一的。但作為觀察(gunch)對象的樣本就不是這樣。從一個總體可以抽取很多個樣本,每次可能抽到哪個樣本不是確定的。也不是唯一的,而是可變的。 第六頁,共八十頁。9/1/202266.1.2 參數(shù)(cnsh)和統(tǒng)計量 1參數(shù)(parameter)。根據(jù)(gnj)總體各單位的標志值或標志屬性計算的,反映總體數(shù)量特征的綜合指標稱為全及指標。 全及指標是總體變量的函數(shù),其數(shù)值是由總體各單位的標志值決定的。由于總體是唯一確定的,因此(ync),全及指標也是唯一確定的,所以也稱參數(shù)。常用的參數(shù)有總體平均數(shù),總體成數(shù)、總體方差和總體標準差。 第七頁,共八十

5、頁。9/1/20227(1)總體(zngt)平均數(shù) Population mean 對于變量總體,由于(yuy)各單位的標志可以用數(shù)量表示,因此可以計算總體平均數(shù),通常用 表示。 設X為總體(zngt)的某一變量,其N項變量值為X1、X2、Xn,則總體平均數(shù)為: 第八頁,共八十頁。9/1/20228(2)總體(zngt)成數(shù) Proportion對于屬性總體,由于各單位標志不能用數(shù)量表示(biosh),因此總體參數(shù)常以成數(shù)或比重來表示(biosh)。通常以P表示(biosh)總體中具有某種標志表現(xiàn)即“是”的單位數(shù)在總體單位數(shù)中所占的比重;以Q表示(biosh)不具有某種標志表現(xiàn)即“非”的單位數(shù)

6、所占的比重。 設總體N個單位中,有N1個單位具有某種標志(biozh)表現(xiàn),N0個單位不具有某種標志表現(xiàn),且N=N1+N0,則總體成數(shù)為: 第九頁,共八十頁。9/1/20229【實例(shl)61】紅光燈泡廠生產(chǎn)的10000只燈泡中,有9550只是合格品,有450只是不合格產(chǎn)品,則總體成數(shù)即燈泡的合格率和不合格率分別為: 需要指出,統(tǒng)計上把只表現(xiàn)(bioxin)為“是”與“非”的標志稱為是非標志,也稱交替標志,如性別標志等。 第十頁,共八十頁。9/1/202210(3)總體(zngt)方差和總體(zngt)標準差Variance & standard deviation就變量總體而言,其總體方

7、差(fn ch)和標準差計算公式分別為: 在屬性總體條件下,則可以把“是”與“非”兩種標志表現(xiàn)進行量化處理(chl),用“1”表示“是”,即具有某種標志表現(xiàn),用“0”表示“非”,即不具有某種標志表現(xiàn),那么“是”的成數(shù)就可視為是非標志的平均數(shù),從而計算出屬性總體的方差和標準差,即 =(1-P)2P+(0-P)2Q=Q2P+P2Q=PQ(P+Q)=PQ=P(1-P) 第十一頁,共八十頁。9/1/2022112統(tǒng)計量(statistic) 。根據(jù)樣本各單位標志值計算的反映樣本特征的指標稱為統(tǒng)計量,也稱作樣本指標sample statistic 。它是用來估計(gj)總體參數(shù)的。與總體(zngt)參數(shù)

8、相對應,統(tǒng)計量主要有樣本平均數(shù) 表示(biosh)樣本內(nèi)各單位某一標志值的一般水平樣本方差,反映樣本中各單位標志值的離散程度,從而可說明樣本平均數(shù)的代表性大小,記作S2,稱S為樣本標準差或均方差樣本成數(shù),指具有某種性質(zhì)的單位在樣本中所占比重(如抽樣產(chǎn)品的合格率),記作p;樣本成數(shù)的方差是p(1-p)第十二頁,共八十頁。9/1/202212(1)樣本(yngbn)平均數(shù) Sample mean(2)樣本(yngbn)成數(shù) (3)樣本(yngbn)方差和樣本(yngbn)標準差 Sample variance第十三頁,共八十頁。9/1/202213樣本是非標志的方差(fn ch)S2和標準差S的計

9、算公式分別為 第十四頁,共八十頁。9/1/2022146.1.3 樣本(yngbn)容量和樣本(yngbn)個數(shù) 是兩個有聯(lián)系但又完全不同(b tn)的概念。 樣本容量是指一個(y )樣本所包含位數(shù) 樣本個數(shù)又稱樣本可能數(shù)目。是指從一個總體上可能抽取的樣本個數(shù)。 第十五頁,共八十頁。9/1/2022156.1.4 重復(chngf)抽樣和不重復(chngf)抽樣 重復(chngf)抽樣又叫重置sampling with replacement 抽樣,也叫做有放回的抽樣或重置抽樣不重復(chngf)抽樣又叫不重置sampling without replacement 也叫做無放回抽樣或非重置抽

10、樣樣本可能數(shù)目樣本可能數(shù)目第十六頁,共八十頁。9/1/2022166.2 抽樣誤差6.2.1 抽樣誤差的概念(ginin) 抽樣誤差(sampling error)是指由于隨機抽樣的偶然因素使各單位的結(jié)構不足以代表總體各單位的結(jié)構,而引起抽樣指標(zhbio)和全及指標(zhbio)之間的絕對離差。 Sampling error is the difference between a sample statistic and its corresponding population parameter and is due purely to chance.是一種由于(yuy)隨機抽樣引起的偶

11、然的代表性誤差,或隨機誤差random error chance error。抽樣誤差不可消除,但可以計算和控制。第十七頁,共八十頁。9/1/202217抽樣調(diào)查中誤差(wch)有以下兩個來源 一個是登記性誤差。也叫調(diào)查誤差data recording error,是指在調(diào)查登記過程中發(fā)生(fshng)的誤差,這類誤差是可以避免的。二是代表性誤差representative error,在抽樣調(diào)查中,是指由于用抽樣指標去代替(dit)總體指標時所產(chǎn)生的誤差。代表性誤差的發(fā)生的兩種情況:第一,非隨機的代表性誤差;第二,隨機性誤差。 第十八頁,共八十頁。9/1/202218Dubious Samp

12、ling: The Literary Digest CaseA classic case of both selection bias and nonresponse bias occurred in 1936. The Literary Digest magazine, which had correctly predicted the winner in every U.S. presidential election since 1916, predicted confidently a comfortable victory for Alfred M. Landon, the Repu

13、blican candidate, over Franklin D. Roosevelt, the Democratic candidate, by a margin of 57 to 43. Yet Roosevelt won by a landslide never before seen in U.S. history, receiving 62 percent of the votes cast. What had gone wrong?第十九頁,共八十頁。9/1/202219First, there was selection bias. The Digest mailed ques

14、tionnaires to 10 million people whose names had been taken from various lists such as its own subscribers, telephone directories, and automobile-registration rolls. During the Great Depression, higher-income people typically voted Republican, and these people were well represented in the Digests sam

15、ple. On the other hand, lower-income people, who heavily favored the Democrats, were underrepresented because a lower percentage could afford magazine subscriptions, telephones, and automobiles.第二十頁,共八十頁。9/1/202220Second, there was nonresponse bias. Only 2.4 million of the l0 million questionnaires

16、were mailed back. Although this made the survey the largest sample ever taken, more educated people are more likely to respond to mail questionnaires than less educated ones. The former, again, tended to favor Republicans; the latter, the Democrats. Thus, a much larger percentage of the nonresponden

17、ts than of the respondents were for Roosevelt. This bias reinforced the selection bias.第二十一頁,共八十頁。9/1/202221Note: The Digest never survived the debacle and folded shortly thereafter. At the same time, George Gallup was setting up his survey organization, and he correctly forecast the Roosevelt Victo

18、ry from a mere sample of 50,000 people. Yet in 1948, using another dubious procedure (a form of judgment sampling, called quota sampling), Gallups organization (along with Crossleys and Ropers) incorrectly predicted the victory of Thomas Dewey over Harry S Truman.第二十二頁,共八十頁。9/1/2022226.2.2 抽樣(chu yn

19、)平均誤差standard error 是根據(jù)隨機原則抽樣時,所有可能出現(xiàn)(chxin)的樣本平均數(shù)的標準差。它反映樣本平均數(shù)(樣本成數(shù))與總體平均數(shù)(總體成數(shù))的平均誤差程度,常用(chn yn)表示。The standard error of the sample mean is the standard deviation of the sampling distribution of sample means.第二十三頁,共八十頁。9/1/2022231抽樣(chu yn)平均數(shù)的平均誤差 (1)重復(chngf)抽樣的抽樣平均誤差計算公式 但是,是全及總體標準差,這是不知道的。如果知

20、道,就無需(wx)進行抽樣調(diào)查了。在這種情況下可用樣本的方差s2來代替。其計算公式如下 第二十四頁,共八十頁。9/1/202224(2)不重復(chngf)抽樣的抽樣平均誤差計算公式 當全及總體單位數(shù)N很大時,N-1接近(jijn)于N,即可用N代替,則上列公式可簡化如下 第二十五頁,共八十頁。9/1/202225【實例65】從某學院2022級的2000名學生中,按簡單隨機抽樣方式抽取40名學生,對公共理論課的考試成績進行檢查,得知其平均成績?yōu)?8.75分,標準差為12.13分,試根據(jù)(gnj)重復抽樣和不重復抽樣的方法分別計算抽樣平均誤差。 (1)按重復(chngf)抽樣計算抽樣平均誤差 (

21、2)按不重復(chngf)抽樣計算抽樣平均誤差 第二十六頁,共八十頁。9/1/2022262抽樣(chu yn)成數(shù)的抽樣(chu yn)平均誤差 (1)重復(chngf)抽樣的抽樣平均誤差計算公式 (2)不重復(chngf)抽樣的抽樣平均誤差計算公式 以上兩個公式中的P,是總體成數(shù),這是不知道的。而P(1-P)是總體方差,它等于 ,即也是不知道的。在這種情況下,可用樣本的成數(shù)P和樣本方差P(1-P)來代替,或者用過去類似調(diào)查的成數(shù)和成數(shù)方差來代替。成數(shù)方差的最大值為第二十七頁,共八十頁。9/1/202227【實例66】從40000件產(chǎn)品中,隨機(su j)抽取200件進行檢驗,結(jié)果有10件不

22、合格,求合格率的抽樣平均誤差。 (1)按重復(chngf)抽樣計算抽樣平均誤差 (2)按不重復抽樣(chu yn)計算抽樣(chu yn)平均誤差 第二十八頁,共八十頁。9/1/2022286.2.3 抽樣(chu yn)極限誤差 1抽樣極限誤差(wch)的概念 抽樣極限(jxin)誤差又稱抽樣允許誤差,是指樣本指標與總體指標之間產(chǎn)生抽樣誤差被允許的最大可能范圍,它是根據(jù)所研究對象的變異程度和分析任務的要求來確定的可允許的誤差范圍,凡是在這個范圍內(nèi)的數(shù)字都算有效,統(tǒng)計上把這種可允許的誤差范圍稱為抽樣極限(jxin)誤差。 根據(jù)樣本指標估計總體指標必會產(chǎn)生誤差,但誤差不能太大,以免使抽樣估計失去

23、意義;但誤差也不是愈小愈好,因為這樣就要增加樣本單位數(shù),必然提高很多費用,所以要確定一個誤差范圍。 第二十九頁,共八十頁。9/1/202229抽樣極限(jxin)誤差通常用樣本指標可允許變動的上限或下限與總體指標的絕對離差表示。設和分別表示抽樣平均數(shù)和抽樣成數(shù)的抽樣極限(jxin)誤差,則有 上式可變換(binhun)為下列不等式 上式表明總體平均數(shù) 是以抽樣(chu yn)平均數(shù) 為中心,在 的范圍內(nèi)變動??傮w成數(shù)P也是如此,這個變動范圍被稱為估計區(qū)間。 第三十頁,共八十頁。9/1/2022302抽樣誤差的概率(gil)度 基于概率估計的要求,抽樣極限誤差通常需要(xyo)以抽樣平均誤差或為

24、標準單位來衡量。把極限誤差或分別除以或,得相對數(shù)t,它表示誤差范圍為抽樣平均誤差的若干倍,t是測量估計可靠程度的一個參數(shù),稱為抽樣平均誤差的概率度。 第三十一頁,共八十頁。9/1/20223163 抽樣(chu yn)推斷的方法 抽樣估計(gj)是指利用實際調(diào)查計算的樣本指標值來估計(gj)相應的總體指標的數(shù)值。由于總體指標是表明總體數(shù)量特征的參數(shù),所以也稱為參數(shù)估計(gj)。 總體(zngt)參數(shù)估計有點估計和區(qū)間估計兩種 1點估計。點估計(point estimation)的基本特點是,根據(jù)總體指標的結(jié)構形式設計樣本指標作為總體參數(shù)的估計量,并以樣本指標的實際值作為相應總體參數(shù)的估計值(例

25、如以樣本平均數(shù)的實際值作為相應總體平均數(shù)的估計值,以樣本成數(shù)的實際值作為相應總體成數(shù)的估計值等)。 第三十二頁,共八十頁。9/1/202232When the estimation of a population is expressed as a single numerical value, it is referred to as a point estimation. 第三十三頁,共八十頁。9/1/202233常用概率(gil)度與概率(gil)保證度表概率度t 概率F(t) (%) 1.002.003.001.641.962.58 68.2795.4599.7390.0095.009

26、9.00 第三十四頁,共八十頁。9/1/202234抽樣估計(gj)的優(yōu)劣標準無偏性 unbiasedness有效性 efficiency一致性 consistency第三十五頁,共八十頁。9/1/202235無偏性 unbiasedness抽樣指標的平均數(shù)等于全及指標。即:抽樣指標的估計(gj),平均說來是沒有誤差的。第三十六頁,共八十頁。9/1/202236有效性 efficiency作為優(yōu)良估計量的方差(fn ch)應比其它估計量的方差(fn ch)小。即:方差(fn ch)最小原則。第三十七頁,共八十頁。9/1/202237一致性 consistency當樣本容量充分大時,抽樣(chu

27、 yn)指標也充分地靠近全及指標。即:時,第三十八頁,共八十頁。9/1/2022382區(qū)間(q jin)估計 區(qū)間估計(interval estimation)是在一定的概率把握程度下,根據(jù)(gnj)樣本指標和抽樣極限誤差去估計總體指標所在可能范圍的方法。 在總體指標的區(qū)間估計公式中,有兩個(lin )要素,一個是置信區(qū)間,另一個是置信概率。 第三十九頁,共八十頁。9/1/202239置信區(qū)間(confidence interval)又稱為(chn wi)估計區(qū)間,是指由低限到高限兩個數(shù)值所構成的可能范圍,由樣本指標和極限誤差組成。 置信概率(confidence probability)是指

28、區(qū)間估計的概率保證程度,也稱為置信度。它是表明樣本指標與總體指標的誤差(wch)不超過一定范圍的概率有多大 估計(gj)的準確性問題 估計的可靠性問題 第四十頁,共八十頁。9/1/202240置信區(qū)間第四十一頁,共八十頁。9/1/202241總體平均數(shù)的估計就是(jish)用抽樣平均數(shù)來估計總體平均數(shù) 【實例】某學校進行一次英語測驗,為了解學生的考試情況,隨機抽選部分學生進行調(diào)查(dio ch),所得資料如下: 考試成績(分)學生(xu sheng)人數(shù)(人)60以下1060-702070-802280-904090以上8按重復抽樣方法以95.45%概率估計該校學生英語平均成績的范圍。 下限=

29、 =74.32分 上限= =78.88分 所以,在95.45%的概率保證程度下,該校學生英語考試的平均成績的范圍在74.32-78.88分之間。 第四十二頁,共八十頁。9/1/202242總體(zngt)成數(shù)的估計就是用抽樣成數(shù)來估計總體(zngt)成數(shù) 仍按上例資料,以同樣的概率估計該校學生成績在80分以上(yshng)的學生所占的比重的范圍。 解:樣本合格率為 抽樣(chu yn)平均誤差為: 抽樣極限誤差為:所以,在95.45%的概率保證程度下,該校學生成績在80分以上的學生所占的比重的范圍在38.01%-57.99%之間。 第四十三頁,共八十頁。9/1/2022436.3.2 樣本容量

30、的確定(qudng) 1確定(qudng)必要樣本容量的意義 樣本單位數(shù)越多,樣本的代表性越大,抽樣誤差越小,抽樣估計就越可靠。但樣本容量過多會增加不必要的人力、物力和費用開支,造成浪費。樣本容量減少,又會使抽樣誤差增大,達不到所需要的準確(zhnqu)程度。 基本原則是,在保證預期的抽樣估計可靠程度的要求下,抽取的樣本單位數(shù)不宜過多。 第四十四頁,共八十頁。9/1/2022442影響(yngxing)樣本容量的因素 (1)總體各單位標志變異程度(chngd)??傮w標志變異程度(chngd)大,要求樣本容量大些;反之,總體標志變異程度(chngd)小,樣本容量可以小些。 (2)抽樣方法。在其他

31、條件(tiojin)相同的情況下,重復抽樣要比不重復抽樣多抽取一些樣本單位。 (3)抽樣組織形式 。一般來說,類型抽樣和等距抽樣的樣本容量要小于簡單隨機抽樣的樣本容量。 (4)極限誤差的大小。如果允許誤差大,樣本容量就??;反之,如果允許誤差小,樣本容量就大。 (5)抽樣估計的可靠程度即概率F(t)的大小。如果估計的可靠程度要求越高即F(t)越大,樣本容量就越多;反之,如果估計的可靠程度要求越低,即F(t)越小,樣本容量就越少。 第四十五頁,共八十頁。9/1/2022453必要(byo)樣本容量的計算公式 (1)平均數(shù)的必要樣本容量的計算公式在重復(chngf)抽樣的條件下為:在不重復抽樣的條件

32、下為:第四十六頁,共八十頁。9/1/202246(2)成數(shù)的必要樣本容量的計算公式在重復抽樣(chu yn)的條件下為:在不重復抽樣的條件下為: 第四十七頁,共八十頁。9/1/202247【實例】對某罐頭廠生產(chǎn)的罐頭質(zhì)量進行抽樣調(diào)查,抽樣極限誤差(wch)為5%,概率為0.9545,并知過去進行同樣抽樣調(diào)查,其不合格率為10%,試求必要的樣本容量。 根據(jù)題意可知:t=2、P=90%、=5%在重復(chngf)抽樣的條件下: (盒) 第四十八頁,共八十頁。9/1/2022484計算必要(byo)樣本容量應注意的問題 第一,在實際中采用不重復抽樣。但常用重復抽樣下的公式近似代替。 第二,若2,P未

33、知,其處理方式是: 用過去(近期)的數(shù)據(jù)代替;用樣本數(shù)據(jù)代替;取P=0.5或最接近(jijn)0.5的P值。 第三,對同一總體,若求出的nx、np不等,這時取較大的一個作為必要抽樣數(shù)目,以同時滿足作兩種調(diào)查的需要。 第四,在實際工作中,常使用重復抽樣下的簡單隨機抽樣公式。 第四十九頁,共八十頁。9/1/2022496.3.3 抽樣的組織(zzh)形式 抽樣的基本組織形式可分為簡單(jindn)隨機抽樣(純隨機抽樣)、類型抽樣、機械抽樣、整群抽樣等幾種。第五十頁,共八十頁。9/1/2022501 簡單(jindn)隨機抽樣 simple random sampling又稱純隨機抽樣。它是按隨機原

34、則直接從總體N個單位(dnwi)中抽取n個單位(dnwi)作為樣本。不論是重復抽樣或不重復抽樣,都要保證每個單位(dnwi)在抽選 中都有相等的中選機會。 是一種最簡單而又最基本的抽樣組織形式,它往往帶有盲目性 ,因此(ync)多用于對總體的初期研究。第五十一頁,共八十頁。9/1/202251簡單隨機抽樣中抽選樣本(yngbn)的常用方法有三種 第一種是直接抽取法第二種是抽簽摸球法第三種是利用隨機數(shù)表法第五十二頁,共八十頁。9/1/202252The 1970 Draft Lottery FiascoDuring both World Wars I and II, it became nece

35、ssary to establish an order in which men were to be drafted into the U.S. military, In 1917, accordingly,10,500 black capsules, containing numbers previously assigned to eligible men, were drawn from a glass fish-bowl. In l940, a similar procedure was adopted to draw 9,000 numbers, but there were cr

36、iticisms: The small, wooden paddle (Which was made from a piece of rafter traceable to Independence Hall in Philadelphia) used to stir the capsules in the bowl would not reach deep enough into the bow. 第五十三頁,共八十頁。9/1/202253It also broke open some of the capsules, impeding the mixing process further.

37、 In the end, the numbers drawn looked like anything but random ones; they were concentrated in certain clusters of hundreds, apparently reflecting the fact that the numbers had been poured into the bowl in lots of 100 each. The lesson was clear: thorough physical mixing of capsules in a bowl is diff

38、icult.第五十四頁,共八十頁。9/1/202254Apparently the lesson had been forgotten when thel970 draft lottery was instituted. Some 366 capsules, containing all the possible birthdates in a year, were poured into a bowl but not stirred. (There had been some mixing during the process of inserting dated slips of pape

39、r into the capsules). Then capsules were drawn out, the order of their withdrawal determining the priorities for the draft. 第五十五頁,共八十頁。9/1/202255The observed sequence strongly reflected the order in which the capsules were created (one month at a time), with late-in-the-year birthdays (that were enc

40、apsulated last) being drawn first and early-in-the-year birthdays(that were encapsulated first) being drawn last and, therefore, less subject to the draft. Several young men filed suit in federal court seeking to have the 1970 lottery voided on the basis of the apparent lack of randomization. Note:

41、A 1971 draft lottery, in response to widespread criticism of the 1970 lottery, made use of random-numbers tables .第五十六頁,共八十頁。9/1/2022562 分層抽樣 又稱類型抽樣。它是先對總體各單位按主要標志加以分組,然后再從各組中按隨機原則抽選(chu xun)一定單位構成樣本。 stratified random sampling類型抽樣(chu yn)的方法又分兩種:等比例抽樣和不等比例抽樣。第五十七頁,共八十頁。9/1/202257如果按比例分配(fnpi)樣本單位,可

42、以得到類型抽樣誤差公式 1 在重復抽樣條件下 變量總體: 其中 是各組方差的加權平均數(shù),習慣上稱為平均(pngjn)組內(nèi)方差。 屬性總體 其中 是各組比率的方差加權平均數(shù),是屬性總體的平均組內(nèi)方差。 第五十八頁,共八十頁。9/1/2022582在不重復抽樣(chu yn)條件下 以上總體 參數(shù)、是未知的,習慣(xgun)用樣本值 、 代替 第五十九頁,共八十頁。9/1/2022593 等距抽樣(chu yn) systematic sampling也稱機械抽樣或系統(tǒng)抽樣。它先按某一標志對總體各單位進行排隊,然后依一定順序和間隔來抽取(chu q)樣本單位的一種抽樣組織 可分為按無關標志(bio

43、zh)排隊和按有關標志(biozh)排隊兩種按無關標志排隊指采用的排隊標志與所研究的問題沒有直接關系或聯(lián)系較少按有關標志排隊指采用的排隊標志與所研究的問題有直接關系。第六十頁,共八十頁。9/1/2022604 整群抽樣(chu yn) cluster sampling又稱聚點抽樣或群體抽樣,它是先將總體(zngt)劃分為若干群(R群),再從中任意抽取幾群(r群),然后對抽中的群作全面調(diào)查,并據(jù)此結(jié)論對總體(zngt)加以推斷。整群抽樣尤其(yuq)適用于存在自然群的場合因為整群抽樣是成群地抽選樣本,故整群抽樣的誤差較大。由于整群抽樣是成群地抽樣,從而使樣本對總體的代表性會降低。 第六十一頁,共

44、八十頁。9/1/202261 由于對抽中的群作全面調(diào)查,因此整群抽樣的誤差主要受各群間的差異即群間方差的影響(yngxing),而群內(nèi)卻不存在抽樣誤差問題。 整群抽樣下的平均誤差公式如下: 其中(qzhng) , 稱為群間方差第六十二頁,共八十頁。9/1/202262必要抽樣群數(shù)r的確定公式類同簡單隨機抽樣中有關(yugun)公式。只不過現(xiàn)在確定的是r,并用組內(nèi)方差 取代 。 【實例(shl)】某產(chǎn)品合計生產(chǎn)3000批,每批產(chǎn)量大致相同,抽樣檢查產(chǎn)品合格品率。要求其允許誤差不超過2%,若根據(jù)過去該產(chǎn)品質(zhì)量資料,其各批群間方差為3%,問在95.45%(t=2)可靠程度下需抽多少批產(chǎn)品為宜? 即要

45、在全部(qunb)產(chǎn)品中抽273批產(chǎn)品檢查 第六十三頁,共八十頁。9/1/2022635 多階段(jidun)抽樣 multi-stage sampling 是在組織抽樣(chu yn)時,不是從總體中一次直接抽取樣本單位,而是把抽樣(chu yn)過程分成幾個過渡階段進行。到最后才具體抽取樣本單位。它是先抽大單位,再在大單位中抽小單位,在小單位中抽更小單位,直到抽出最終能取得推斷總體的基本單位為止。 一般在總體(zngt)很大,單位分布面積廣時,如從總體(zngt)中采取一次直接抽取足夠多的樣本很困難時,可采用多階段抽樣。 第六十四頁,共八十頁。9/1/2022646.4 參數(shù)(cnsh)假

46、設檢驗6.4.1 假設檢驗的基本概念假設檢驗(Hypothesis testing)是利用樣本的實際資料來檢驗事先(shxin)對總體某些數(shù)量特征所作的假設是否可信的一種統(tǒng)計分析方法。第六十五頁,共八十頁。9/1/202265它和參數(shù)估計一樣,都是利用樣本資料對總體特征進行(jnxng)某種推斷。但二者推斷角度不同。參數(shù)估計是根據(jù)樣本指標以一定的把握程度估計總體參數(shù)取值范圍,更準確地說,是對總體參數(shù)進行了區(qū)間估計;假設檢驗則先對總體參數(shù)值提出一個假設,然后利用樣本信息,以一定的概率水平去判斷這個假設是否成立。第六十六頁,共八十頁。9/1/2022666.4.2 假設檢驗的步驟一個完整的假設檢驗

47、過程,通常包括以下四步驟:第一,提出原假設和備擇假設;第二,選取和計算檢驗統(tǒng)計量;第三(d sn),根據(jù)顯著性水平查臨界值;第四,進行比較并做出決策。 第六十七頁,共八十頁。9/1/2022676.4.3 假設檢驗中的兩類錯誤假設檢驗可能犯兩種類型的錯誤。第一類錯誤(Type I error)指的是H0客觀(kgun)上真實但被檢驗所拒絕,這種錯誤也稱為棄真錯誤。犯這種錯誤的概率就是顯著水平;第二類錯誤(Type II error)指的是H0客觀上不真實但被檢驗所接受,這種錯誤也稱為納偽錯誤。犯這種錯誤的概率我們用(讀作“貝塔”)來表示。 第六十八頁,共八十頁。9/1/2022686.4.4

48、總體均值和總體成數(shù)檢驗1大樣本(yngbn)情況下總體均值檢驗在大樣本(n30)情況下,總體均值的假設檢驗可以應用正態(tài)分布檢驗法。2小樣本(yngbn)情況下總體均值檢驗在小樣本(n30)情況下,總體均值的假設檢驗可以應用t分布檢驗法。此時,檢驗統(tǒng)計量為t統(tǒng)計量,它服從自由度為n-1的t分布。第六十九頁,共八十頁。9/1/202269【實例6.13】 某食品公司生產(chǎn)一種罐頭,按標準每罐凈重為227克,根據(jù)(gnj)以往生產(chǎn)經(jīng)驗罐頭重量的標準差為5克?,F(xiàn)隨機抽查該公司產(chǎn)品100罐,測得平均凈重為228克,判斷這批罐頭是否符合標準?解:第一步提出原假設和備擇假設。H0:227 H1:227 第二步

49、選取和計算檢驗統(tǒng)計量。 , 代入數(shù)值,計算得 Z=3.33 第三步根據(jù)顯著性水平查臨界值。 由=0.05,得臨界值-Z0.025=-1.96,Z0.025=1.96 第四步進行比較并做出決策。Z=3.33Z0.025=1.96 拒絕(jju)H0 即這批罐頭不符合標準。 第七十頁,共八十頁。9/1/202270【實例6.14】 某輪胎制造商在廣告中聲稱,該公司生產(chǎn)的汽車輪胎在正常行使條件下平均壽命高于28000公里。檢測(jin c)部門隨機挑選了40個輪胎進行測試,結(jié)果顯示平均行使里程28200公里,樣本標準差為1000公里,問該制造商廣告是否屬實?解:第一步提出假設。這需要確定檢驗的方向。

50、題中制造商稱輪胎壽命高于28000公里,表述為28000,其余(qy)集為28000,由于等號在原假設上,故28000為原假設H0,28000為備擇假設H1,此為右單側(cè)檢驗。第二步計算統(tǒng)計量。由于總體標準差s未知,用樣本標準差S替 代。Z 統(tǒng)計量為 代入數(shù)值,得Z=1.26第三步查臨界值。因為是右單側(cè)檢驗,=0.05時其臨界值Z0.05=1.645第四步比較做決策。Z=1.26Z0.05=1.645 接受H0 輪胎平均使用壽命不高于28000公里 制造商廣告不屬實。第七十一頁,共八十頁。9/1/202271【實例6.15】 某批發(fā)商欲從廠家購進一批燈泡,根據(jù)合同規(guī)定,燈泡的平均使用壽命不能低于

51、1000小時。從產(chǎn)品中隨機(su j)抽取100只燈泡,測得平均壽命為960小時,標準差為200小時,請問批發(fā)商是否應該購買這批燈泡?解:第一步提假設(jish)。H0:1000 H1:1000 第二步計算檢驗統(tǒng)計量。采用Z統(tǒng)計量 , 代入數(shù)值,計算得Z=-2 第三步查臨界值。由=0.05,左單側(cè)檢驗得臨界值 - Z0.05=-1.645 第四步比較做決策。 Z=-2- Z0.05=-1.645 拒絕H0 即批發(fā)商不應當購買這批燈泡。第七十二頁,共八十頁。9/1/202272【實例6.16】某食品公司生產(chǎn)袋裝食品,采用自動打包機打包。每包標準凈重應為1000克,每天開工后需要檢驗一次打包機工作

52、是否正常?,F(xiàn)從產(chǎn)品中隨機抽取9包,實測每包凈重如下:987,993,1012,1005,997,983,1021,995,1005,給定顯著性水平=0.05,問該日打包機工作是否正常?解:由于本題關心的是每包凈重是否為1000克,因此是雙側(cè)檢驗問題。又因為是小樣本資料(zlio),故采用t分布檢驗法。 第一步提假設。H0:1000 H1:1000 第二步計算檢驗統(tǒng)計量。 , 樣本平均數(shù)=999.8 樣本標準差S=1.212 代入數(shù)值,計算得t=-0.495 第三步查臨界值。=0.05,由于是雙側(cè)檢驗,自由度= n-1=8, 查t分布表,得臨界值- t0.025(8)=-2.306,t0.025

53、(8)=2.306 第四步比較做決策。 - 2.306t=-0.4952.306 接受H0 該日打包機工作正常第七十三頁,共八十頁。9/1/2022733總體成數(shù)(chngsh)檢驗方法(fngf)及步驟與總體均值檢驗一樣,只是在統(tǒng)計量公式中需要用到成數(shù)的標準差。其統(tǒng)計量公式為 【實例6.17】一家雜志聲稱(shngchng)其讀者中至少有25%是在校大學生。從該雜志讀者中抽取200名讀者進行調(diào)查,發(fā)現(xiàn)其中42人是在校大學生。請問該雜志的論斷是否正確(=0.05)解:第一步提假設。H0:p25% H1:p25% 第二步計算檢驗統(tǒng)計量。p = n1/n=42/200=21% 代入公式,計算得到 Z=-1.31 第三步查臨界值。由=0.05,雙側(cè)檢驗得臨界值- Z0.05=-1.645 第四步比較做決策。Z=-1.31- Z0.05=-1.645 接受H0 即該雜志的論斷正確。 第七十四頁,共八十頁。9/1/2022746.5 Excel在抽樣推斷(tudun)中的應用6.5.1 利用Excel進行區(qū)間估計第一步:輸入(shr)樣本數(shù)據(jù)。第二步:輸入相關變量的名稱。本例中為C列的內(nèi)容,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論