版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第6章 抽樣(chu yn)推斷抽樣(chu yn)推斷的基本概念 抽樣誤差 抽樣推斷(tudun)的方法 抽樣的組織形式 第一頁,共八十頁。9/1/202216.1 抽樣(chu yn)推斷的基本概念 抽樣推斷,從其內(nèi)涵(nihn)來說,包括抽樣調(diào)查和抽樣推斷兩部分,前者著重調(diào)查,后者著重推斷。 抽樣推斷是在抽樣調(diào)查(chu yn dio ch)的基礎(chǔ)上利用樣本的實(shí)際資料計(jì)算出的樣本數(shù)據(jù),并運(yùn)用概率估計(jì)方法,推算總體相應(yīng)的數(shù)量指標(biāo)的一種統(tǒng)計(jì)分析方法。第二頁,共八十頁。9/1/20222抽樣推斷(tudun)具有如下幾個(gè)特點(diǎn)抽樣推斷(tudun)是由部分推算整體的一種認(rèn)識(shí)方法。 抽樣推斷(tu
2、dun)是建立在隨機(jī)取樣的基礎(chǔ)上。 抽樣推斷是運(yùn)用概率估計(jì)的方法,利用樣本指標(biāo)來估計(jì)總體參數(shù)。 抽樣推斷的誤差是可以事先控制的,用樣本指標(biāo)值推斷總體指標(biāo)值是存在一定誤差的。 第三頁,共八十頁。9/1/20223抽樣(chu yn)推斷的作用應(yīng)用于某些不可能作全面(qunmin)調(diào)查或很難作全面(qunmin)調(diào)查的場(chǎng)合。在可以使用(shyng)全面調(diào)查的場(chǎng)合,抽樣調(diào)查仍有其獨(dú)特的作用。用于假設(shè)檢驗(yàn)。第四頁,共八十頁。9/1/202246.1.1 總體(zngt)和樣本 1總體(population)也稱全及總體,是指所研究(ynji)現(xiàn)象的整體,即包括所要調(diào)查的所有單位。 例如,從1000名學(xué)
3、生中,抽取(chu q)50名學(xué)生進(jìn)行抽樣調(diào)查,以計(jì)算學(xué)生的平均體重。這1000名學(xué)生是全及總體,一般用英文大寫字母N來表示總體的單位數(shù),取N=1000人。全及總體按其各單位性質(zhì)的不同,可以分為變量總體和屬性總體兩類。對(duì)于一個(gè)總體來說,若被研究的單位標(biāo)志屬于品質(zhì)標(biāo)志,則該總體為屬性總體,若被研究的單位標(biāo)志屬于數(shù)量標(biāo)志,則該總體為變量總體。 第五頁,共八十頁。9/1/202252樣本(sample)又稱子樣,它是從全及總體中隨機(jī)(su j)抽取出來,作為代表這一總體的那部分單位組成的集合體。 樣本的單位數(shù)是有限的,相對(duì)來說,它的數(shù)目(shm)比較小,一般用英文小寫字字母n來表示樣本的單位數(shù)。如上
4、例n=50人。 作為推斷對(duì)象的總體是確定的,而且是唯一的。但作為觀察(gunch)對(duì)象的樣本就不是這樣。從一個(gè)總體可以抽取很多個(gè)樣本,每次可能抽到哪個(gè)樣本不是確定的。也不是唯一的,而是可變的。 第六頁,共八十頁。9/1/202266.1.2 參數(shù)(cnsh)和統(tǒng)計(jì)量 1參數(shù)(parameter)。根據(jù)(gnj)總體各單位的標(biāo)志值或標(biāo)志屬性計(jì)算的,反映總體數(shù)量特征的綜合指標(biāo)稱為全及指標(biāo)。 全及指標(biāo)是總體變量的函數(shù),其數(shù)值是由總體各單位的標(biāo)志值決定的。由于總體是唯一確定的,因此(ync),全及指標(biāo)也是唯一確定的,所以也稱參數(shù)。常用的參數(shù)有總體平均數(shù),總體成數(shù)、總體方差和總體標(biāo)準(zhǔn)差。 第七頁,共八十
5、頁。9/1/20227(1)總體(zngt)平均數(shù) Population mean 對(duì)于變量總體,由于(yuy)各單位的標(biāo)志可以用數(shù)量表示,因此可以計(jì)算總體平均數(shù),通常用 表示。 設(shè)X為總體(zngt)的某一變量,其N項(xiàng)變量值為X1、X2、Xn,則總體平均數(shù)為: 第八頁,共八十頁。9/1/20228(2)總體(zngt)成數(shù) Proportion對(duì)于屬性總體,由于各單位標(biāo)志不能用數(shù)量表示(biosh),因此總體參數(shù)常以成數(shù)或比重來表示(biosh)。通常以P表示(biosh)總體中具有某種標(biāo)志表現(xiàn)即“是”的單位數(shù)在總體單位數(shù)中所占的比重;以Q表示(biosh)不具有某種標(biāo)志表現(xiàn)即“非”的單位數(shù)
6、所占的比重。 設(shè)總體N個(gè)單位中,有N1個(gè)單位具有某種標(biāo)志(biozh)表現(xiàn),N0個(gè)單位不具有某種標(biāo)志表現(xiàn),且N=N1+N0,則總體成數(shù)為: 第九頁,共八十頁。9/1/20229【實(shí)例(shl)61】紅光燈泡廠生產(chǎn)的10000只燈泡中,有9550只是合格品,有450只是不合格產(chǎn)品,則總體成數(shù)即燈泡的合格率和不合格率分別為: 需要指出,統(tǒng)計(jì)上把只表現(xiàn)(bioxin)為“是”與“非”的標(biāo)志稱為是非標(biāo)志,也稱交替標(biāo)志,如性別標(biāo)志等。 第十頁,共八十頁。9/1/202210(3)總體(zngt)方差和總體(zngt)標(biāo)準(zhǔn)差Variance & standard deviation就變量總體而言,其總體方
7、差(fn ch)和標(biāo)準(zhǔn)差計(jì)算公式分別為: 在屬性總體條件下,則可以把“是”與“非”兩種標(biāo)志表現(xiàn)進(jìn)行量化處理(chl),用“1”表示“是”,即具有某種標(biāo)志表現(xiàn),用“0”表示“非”,即不具有某種標(biāo)志表現(xiàn),那么“是”的成數(shù)就可視為是非標(biāo)志的平均數(shù),從而計(jì)算出屬性總體的方差和標(biāo)準(zhǔn)差,即 =(1-P)2P+(0-P)2Q=Q2P+P2Q=PQ(P+Q)=PQ=P(1-P) 第十一頁,共八十頁。9/1/2022112統(tǒng)計(jì)量(statistic) 。根據(jù)樣本各單位標(biāo)志值計(jì)算的反映樣本特征的指標(biāo)稱為統(tǒng)計(jì)量,也稱作樣本指標(biāo)sample statistic 。它是用來估計(jì)(gj)總體參數(shù)的。與總體(zngt)參數(shù)
8、相對(duì)應(yīng),統(tǒng)計(jì)量主要有樣本平均數(shù) 表示(biosh)樣本內(nèi)各單位某一標(biāo)志值的一般水平樣本方差,反映樣本中各單位標(biāo)志值的離散程度,從而可說明樣本平均數(shù)的代表性大小,記作S2,稱S為樣本標(biāo)準(zhǔn)差或均方差樣本成數(shù),指具有某種性質(zhì)的單位在樣本中所占比重(如抽樣產(chǎn)品的合格率),記作p;樣本成數(shù)的方差是p(1-p)第十二頁,共八十頁。9/1/202212(1)樣本(yngbn)平均數(shù) Sample mean(2)樣本(yngbn)成數(shù) (3)樣本(yngbn)方差和樣本(yngbn)標(biāo)準(zhǔn)差 Sample variance第十三頁,共八十頁。9/1/202213樣本是非標(biāo)志的方差(fn ch)S2和標(biāo)準(zhǔn)差S的計(jì)
9、算公式分別為 第十四頁,共八十頁。9/1/2022146.1.3 樣本(yngbn)容量和樣本(yngbn)個(gè)數(shù) 是兩個(gè)有聯(lián)系但又完全不同(b tn)的概念。 樣本容量是指一個(gè)(y )樣本所包含位數(shù) 樣本個(gè)數(shù)又稱樣本可能數(shù)目。是指從一個(gè)總體上可能抽取的樣本個(gè)數(shù)。 第十五頁,共八十頁。9/1/2022156.1.4 重復(fù)(chngf)抽樣和不重復(fù)(chngf)抽樣 重復(fù)(chngf)抽樣又叫重置sampling with replacement 抽樣,也叫做有放回的抽樣或重置抽樣不重復(fù)(chngf)抽樣又叫不重置sampling without replacement 也叫做無放回抽樣或非重置抽
10、樣樣本可能數(shù)目樣本可能數(shù)目第十六頁,共八十頁。9/1/2022166.2 抽樣誤差6.2.1 抽樣誤差的概念(ginin) 抽樣誤差(sampling error)是指由于隨機(jī)抽樣的偶然因素使各單位的結(jié)構(gòu)不足以代表總體各單位的結(jié)構(gòu),而引起抽樣指標(biāo)(zhbio)和全及指標(biāo)(zhbio)之間的絕對(duì)離差。 Sampling error is the difference between a sample statistic and its corresponding population parameter and is due purely to chance.是一種由于(yuy)隨機(jī)抽樣引起的偶
11、然的代表性誤差,或隨機(jī)誤差random error chance error。抽樣誤差不可消除,但可以計(jì)算和控制。第十七頁,共八十頁。9/1/202217抽樣調(diào)查中誤差(wch)有以下兩個(gè)來源 一個(gè)是登記性誤差。也叫調(diào)查誤差data recording error,是指在調(diào)查登記過程中發(fā)生(fshng)的誤差,這類誤差是可以避免的。二是代表性誤差representative error,在抽樣調(diào)查中,是指由于用抽樣指標(biāo)去代替(dit)總體指標(biāo)時(shí)所產(chǎn)生的誤差。代表性誤差的發(fā)生的兩種情況:第一,非隨機(jī)的代表性誤差;第二,隨機(jī)性誤差。 第十八頁,共八十頁。9/1/202218Dubious Samp
12、ling: The Literary Digest CaseA classic case of both selection bias and nonresponse bias occurred in 1936. The Literary Digest magazine, which had correctly predicted the winner in every U.S. presidential election since 1916, predicted confidently a comfortable victory for Alfred M. Landon, the Repu
13、blican candidate, over Franklin D. Roosevelt, the Democratic candidate, by a margin of 57 to 43. Yet Roosevelt won by a landslide never before seen in U.S. history, receiving 62 percent of the votes cast. What had gone wrong?第十九頁,共八十頁。9/1/202219First, there was selection bias. The Digest mailed ques
14、tionnaires to 10 million people whose names had been taken from various lists such as its own subscribers, telephone directories, and automobile-registration rolls. During the Great Depression, higher-income people typically voted Republican, and these people were well represented in the Digests sam
15、ple. On the other hand, lower-income people, who heavily favored the Democrats, were underrepresented because a lower percentage could afford magazine subscriptions, telephones, and automobiles.第二十頁,共八十頁。9/1/202220Second, there was nonresponse bias. Only 2.4 million of the l0 million questionnaires
16、were mailed back. Although this made the survey the largest sample ever taken, more educated people are more likely to respond to mail questionnaires than less educated ones. The former, again, tended to favor Republicans; the latter, the Democrats. Thus, a much larger percentage of the nonresponden
17、ts than of the respondents were for Roosevelt. This bias reinforced the selection bias.第二十一頁,共八十頁。9/1/202221Note: The Digest never survived the debacle and folded shortly thereafter. At the same time, George Gallup was setting up his survey organization, and he correctly forecast the Roosevelt Victo
18、ry from a mere sample of 50,000 people. Yet in 1948, using another dubious procedure (a form of judgment sampling, called quota sampling), Gallups organization (along with Crossleys and Ropers) incorrectly predicted the victory of Thomas Dewey over Harry S Truman.第二十二頁,共八十頁。9/1/2022226.2.2 抽樣(chu yn
19、)平均誤差standard error 是根據(jù)隨機(jī)原則抽樣時(shí),所有可能出現(xiàn)(chxin)的樣本平均數(shù)的標(biāo)準(zhǔn)差。它反映樣本平均數(shù)(樣本成數(shù))與總體平均數(shù)(總體成數(shù))的平均誤差程度,常用(chn yn)表示。The standard error of the sample mean is the standard deviation of the sampling distribution of sample means.第二十三頁,共八十頁。9/1/2022231抽樣(chu yn)平均數(shù)的平均誤差 (1)重復(fù)(chngf)抽樣的抽樣平均誤差計(jì)算公式 但是,是全及總體標(biāo)準(zhǔn)差,這是不知道的。如果知
20、道,就無需(wx)進(jìn)行抽樣調(diào)查了。在這種情況下可用樣本的方差s2來代替。其計(jì)算公式如下 第二十四頁,共八十頁。9/1/202224(2)不重復(fù)(chngf)抽樣的抽樣平均誤差計(jì)算公式 當(dāng)全及總體單位數(shù)N很大時(shí),N-1接近(jijn)于N,即可用N代替,則上列公式可簡(jiǎn)化如下 第二十五頁,共八十頁。9/1/202225【實(shí)例65】從某學(xué)院2022級(jí)的2000名學(xué)生中,按簡(jiǎn)單隨機(jī)抽樣方式抽取40名學(xué)生,對(duì)公共理論課的考試成績(jī)進(jìn)行檢查,得知其平均成績(jī)?yōu)?8.75分,標(biāo)準(zhǔn)差為12.13分,試根據(jù)(gnj)重復(fù)抽樣和不重復(fù)抽樣的方法分別計(jì)算抽樣平均誤差。 (1)按重復(fù)(chngf)抽樣計(jì)算抽樣平均誤差 (
21、2)按不重復(fù)(chngf)抽樣計(jì)算抽樣平均誤差 第二十六頁,共八十頁。9/1/2022262抽樣(chu yn)成數(shù)的抽樣(chu yn)平均誤差 (1)重復(fù)(chngf)抽樣的抽樣平均誤差計(jì)算公式 (2)不重復(fù)(chngf)抽樣的抽樣平均誤差計(jì)算公式 以上兩個(gè)公式中的P,是總體成數(shù),這是不知道的。而P(1-P)是總體方差,它等于 ,即也是不知道的。在這種情況下,可用樣本的成數(shù)P和樣本方差P(1-P)來代替,或者用過去類似調(diào)查的成數(shù)和成數(shù)方差來代替。成數(shù)方差的最大值為第二十七頁,共八十頁。9/1/202227【實(shí)例66】從40000件產(chǎn)品中,隨機(jī)(su j)抽取200件進(jìn)行檢驗(yàn),結(jié)果有10件不
22、合格,求合格率的抽樣平均誤差。 (1)按重復(fù)(chngf)抽樣計(jì)算抽樣平均誤差 (2)按不重復(fù)抽樣(chu yn)計(jì)算抽樣(chu yn)平均誤差 第二十八頁,共八十頁。9/1/2022286.2.3 抽樣(chu yn)極限誤差 1抽樣極限誤差(wch)的概念 抽樣極限(jxin)誤差又稱抽樣允許誤差,是指樣本指標(biāo)與總體指標(biāo)之間產(chǎn)生抽樣誤差被允許的最大可能范圍,它是根據(jù)所研究對(duì)象的變異程度和分析任務(wù)的要求來確定的可允許的誤差范圍,凡是在這個(gè)范圍內(nèi)的數(shù)字都算有效,統(tǒng)計(jì)上把這種可允許的誤差范圍稱為抽樣極限(jxin)誤差。 根據(jù)樣本指標(biāo)估計(jì)總體指標(biāo)必會(huì)產(chǎn)生誤差,但誤差不能太大,以免使抽樣估計(jì)失去
23、意義;但誤差也不是愈小愈好,因?yàn)檫@樣就要增加樣本單位數(shù),必然提高很多費(fèi)用,所以要確定一個(gè)誤差范圍。 第二十九頁,共八十頁。9/1/202229抽樣極限(jxin)誤差通常用樣本指標(biāo)可允許變動(dòng)的上限或下限與總體指標(biāo)的絕對(duì)離差表示。設(shè)和分別表示抽樣平均數(shù)和抽樣成數(shù)的抽樣極限(jxin)誤差,則有 上式可變換(binhun)為下列不等式 上式表明總體平均數(shù) 是以抽樣(chu yn)平均數(shù) 為中心,在 的范圍內(nèi)變動(dòng)??傮w成數(shù)P也是如此,這個(gè)變動(dòng)范圍被稱為估計(jì)區(qū)間。 第三十頁,共八十頁。9/1/2022302抽樣誤差的概率(gil)度 基于概率估計(jì)的要求,抽樣極限誤差通常需要(xyo)以抽樣平均誤差或?yàn)?/p>
24、標(biāo)準(zhǔn)單位來衡量。把極限誤差或分別除以或,得相對(duì)數(shù)t,它表示誤差范圍為抽樣平均誤差的若干倍,t是測(cè)量估計(jì)可靠程度的一個(gè)參數(shù),稱為抽樣平均誤差的概率度。 第三十一頁,共八十頁。9/1/20223163 抽樣(chu yn)推斷的方法 抽樣估計(jì)(gj)是指利用實(shí)際調(diào)查計(jì)算的樣本指標(biāo)值來估計(jì)(gj)相應(yīng)的總體指標(biāo)的數(shù)值。由于總體指標(biāo)是表明總體數(shù)量特征的參數(shù),所以也稱為參數(shù)估計(jì)(gj)。 總體(zngt)參數(shù)估計(jì)有點(diǎn)估計(jì)和區(qū)間估計(jì)兩種 1點(diǎn)估計(jì)。點(diǎn)估計(jì)(point estimation)的基本特點(diǎn)是,根據(jù)總體指標(biāo)的結(jié)構(gòu)形式設(shè)計(jì)樣本指標(biāo)作為總體參數(shù)的估計(jì)量,并以樣本指標(biāo)的實(shí)際值作為相應(yīng)總體參數(shù)的估計(jì)值(例
25、如以樣本平均數(shù)的實(shí)際值作為相應(yīng)總體平均數(shù)的估計(jì)值,以樣本成數(shù)的實(shí)際值作為相應(yīng)總體成數(shù)的估計(jì)值等)。 第三十二頁,共八十頁。9/1/202232When the estimation of a population is expressed as a single numerical value, it is referred to as a point estimation. 第三十三頁,共八十頁。9/1/202233常用概率(gil)度與概率(gil)保證度表概率度t 概率F(t) (%) 1.002.003.001.641.962.58 68.2795.4599.7390.0095.009
26、9.00 第三十四頁,共八十頁。9/1/202234抽樣估計(jì)(gj)的優(yōu)劣標(biāo)準(zhǔn)無偏性 unbiasedness有效性 efficiency一致性 consistency第三十五頁,共八十頁。9/1/202235無偏性 unbiasedness抽樣指標(biāo)的平均數(shù)等于全及指標(biāo)。即:抽樣指標(biāo)的估計(jì)(gj),平均說來是沒有誤差的。第三十六頁,共八十頁。9/1/202236有效性 efficiency作為優(yōu)良估計(jì)量的方差(fn ch)應(yīng)比其它估計(jì)量的方差(fn ch)小。即:方差(fn ch)最小原則。第三十七頁,共八十頁。9/1/202237一致性 consistency當(dāng)樣本容量充分大時(shí),抽樣(chu
27、 yn)指標(biāo)也充分地靠近全及指標(biāo)。即:時(shí),第三十八頁,共八十頁。9/1/2022382區(qū)間(q jin)估計(jì) 區(qū)間估計(jì)(interval estimation)是在一定的概率把握程度下,根據(jù)(gnj)樣本指標(biāo)和抽樣極限誤差去估計(jì)總體指標(biāo)所在可能范圍的方法。 在總體指標(biāo)的區(qū)間估計(jì)公式中,有兩個(gè)(lin )要素,一個(gè)是置信區(qū)間,另一個(gè)是置信概率。 第三十九頁,共八十頁。9/1/202239置信區(qū)間(confidence interval)又稱為(chn wi)估計(jì)區(qū)間,是指由低限到高限兩個(gè)數(shù)值所構(gòu)成的可能范圍,由樣本指標(biāo)和極限誤差組成。 置信概率(confidence probability)是指
28、區(qū)間估計(jì)的概率保證程度,也稱為置信度。它是表明樣本指標(biāo)與總體指標(biāo)的誤差(wch)不超過一定范圍的概率有多大 估計(jì)(gj)的準(zhǔn)確性問題 估計(jì)的可靠性問題 第四十頁,共八十頁。9/1/202240置信區(qū)間第四十一頁,共八十頁。9/1/202241總體平均數(shù)的估計(jì)就是(jish)用抽樣平均數(shù)來估計(jì)總體平均數(shù) 【實(shí)例】某學(xué)校進(jìn)行一次英語測(cè)驗(yàn),為了解學(xué)生的考試情況,隨機(jī)抽選部分學(xué)生進(jìn)行調(diào)查(dio ch),所得資料如下: 考試成績(jī)(分)學(xué)生(xu sheng)人數(shù)(人)60以下1060-702070-802280-904090以上8按重復(fù)抽樣方法以95.45%概率估計(jì)該校學(xué)生英語平均成績(jī)的范圍。 下限=
29、 =74.32分 上限= =78.88分 所以,在95.45%的概率保證程度下,該校學(xué)生英語考試的平均成績(jī)的范圍在74.32-78.88分之間。 第四十二頁,共八十頁。9/1/202242總體(zngt)成數(shù)的估計(jì)就是用抽樣成數(shù)來估計(jì)總體(zngt)成數(shù) 仍按上例資料,以同樣的概率估計(jì)該校學(xué)生成績(jī)?cè)?0分以上(yshng)的學(xué)生所占的比重的范圍。 解:樣本合格率為 抽樣(chu yn)平均誤差為: 抽樣極限誤差為:所以,在95.45%的概率保證程度下,該校學(xué)生成績(jī)?cè)?0分以上的學(xué)生所占的比重的范圍在38.01%-57.99%之間。 第四十三頁,共八十頁。9/1/2022436.3.2 樣本容量
30、的確定(qudng) 1確定(qudng)必要樣本容量的意義 樣本單位數(shù)越多,樣本的代表性越大,抽樣誤差越小,抽樣估計(jì)就越可靠。但樣本容量過多會(huì)增加不必要的人力、物力和費(fèi)用開支,造成浪費(fèi)。樣本容量減少,又會(huì)使抽樣誤差增大,達(dá)不到所需要的準(zhǔn)確(zhnqu)程度。 基本原則是,在保證預(yù)期的抽樣估計(jì)可靠程度的要求下,抽取的樣本單位數(shù)不宜過多。 第四十四頁,共八十頁。9/1/2022442影響(yngxing)樣本容量的因素 (1)總體各單位標(biāo)志變異程度(chngd)??傮w標(biāo)志變異程度(chngd)大,要求樣本容量大些;反之,總體標(biāo)志變異程度(chngd)小,樣本容量可以小些。 (2)抽樣方法。在其他
31、條件(tiojin)相同的情況下,重復(fù)抽樣要比不重復(fù)抽樣多抽取一些樣本單位。 (3)抽樣組織形式 。一般來說,類型抽樣和等距抽樣的樣本容量要小于簡(jiǎn)單隨機(jī)抽樣的樣本容量。 (4)極限誤差的大小。如果允許誤差大,樣本容量就??;反之,如果允許誤差小,樣本容量就大。 (5)抽樣估計(jì)的可靠程度即概率F(t)的大小。如果估計(jì)的可靠程度要求越高即F(t)越大,樣本容量就越多;反之,如果估計(jì)的可靠程度要求越低,即F(t)越小,樣本容量就越少。 第四十五頁,共八十頁。9/1/2022453必要(byo)樣本容量的計(jì)算公式 (1)平均數(shù)的必要樣本容量的計(jì)算公式在重復(fù)(chngf)抽樣的條件下為:在不重復(fù)抽樣的條件
32、下為:第四十六頁,共八十頁。9/1/202246(2)成數(shù)的必要樣本容量的計(jì)算公式在重復(fù)抽樣(chu yn)的條件下為:在不重復(fù)抽樣的條件下為: 第四十七頁,共八十頁。9/1/202247【實(shí)例】對(duì)某罐頭廠生產(chǎn)的罐頭質(zhì)量進(jìn)行抽樣調(diào)查,抽樣極限誤差(wch)為5%,概率為0.9545,并知過去進(jìn)行同樣抽樣調(diào)查,其不合格率為10%,試求必要的樣本容量。 根據(jù)題意可知:t=2、P=90%、=5%在重復(fù)(chngf)抽樣的條件下: (盒) 第四十八頁,共八十頁。9/1/2022484計(jì)算必要(byo)樣本容量應(yīng)注意的問題 第一,在實(shí)際中采用不重復(fù)抽樣。但常用重復(fù)抽樣下的公式近似代替。 第二,若2,P未
33、知,其處理方式是: 用過去(近期)的數(shù)據(jù)代替;用樣本數(shù)據(jù)代替;取P=0.5或最接近(jijn)0.5的P值。 第三,對(duì)同一總體,若求出的nx、np不等,這時(shí)取較大的一個(gè)作為必要抽樣數(shù)目,以同時(shí)滿足作兩種調(diào)查的需要。 第四,在實(shí)際工作中,常使用重復(fù)抽樣下的簡(jiǎn)單隨機(jī)抽樣公式。 第四十九頁,共八十頁。9/1/2022496.3.3 抽樣的組織(zzh)形式 抽樣的基本組織形式可分為簡(jiǎn)單(jindn)隨機(jī)抽樣(純隨機(jī)抽樣)、類型抽樣、機(jī)械抽樣、整群抽樣等幾種。第五十頁,共八十頁。9/1/2022501 簡(jiǎn)單(jindn)隨機(jī)抽樣 simple random sampling又稱純隨機(jī)抽樣。它是按隨機(jī)原
34、則直接從總體N個(gè)單位(dnwi)中抽取n個(gè)單位(dnwi)作為樣本。不論是重復(fù)抽樣或不重復(fù)抽樣,都要保證每個(gè)單位(dnwi)在抽選 中都有相等的中選機(jī)會(huì)。 是一種最簡(jiǎn)單而又最基本的抽樣組織形式,它往往帶有盲目性 ,因此(ync)多用于對(duì)總體的初期研究。第五十一頁,共八十頁。9/1/202251簡(jiǎn)單隨機(jī)抽樣中抽選樣本(yngbn)的常用方法有三種 第一種是直接抽取法第二種是抽簽摸球法第三種是利用隨機(jī)數(shù)表法第五十二頁,共八十頁。9/1/202252The 1970 Draft Lottery FiascoDuring both World Wars I and II, it became nece
35、ssary to establish an order in which men were to be drafted into the U.S. military, In 1917, accordingly,10,500 black capsules, containing numbers previously assigned to eligible men, were drawn from a glass fish-bowl. In l940, a similar procedure was adopted to draw 9,000 numbers, but there were cr
36、iticisms: The small, wooden paddle (Which was made from a piece of rafter traceable to Independence Hall in Philadelphia) used to stir the capsules in the bowl would not reach deep enough into the bow. 第五十三頁,共八十頁。9/1/202253It also broke open some of the capsules, impeding the mixing process further.
37、 In the end, the numbers drawn looked like anything but random ones; they were concentrated in certain clusters of hundreds, apparently reflecting the fact that the numbers had been poured into the bowl in lots of 100 each. The lesson was clear: thorough physical mixing of capsules in a bowl is diff
38、icult.第五十四頁,共八十頁。9/1/202254Apparently the lesson had been forgotten when thel970 draft lottery was instituted. Some 366 capsules, containing all the possible birthdates in a year, were poured into a bowl but not stirred. (There had been some mixing during the process of inserting dated slips of pape
39、r into the capsules). Then capsules were drawn out, the order of their withdrawal determining the priorities for the draft. 第五十五頁,共八十頁。9/1/202255The observed sequence strongly reflected the order in which the capsules were created (one month at a time), with late-in-the-year birthdays (that were enc
40、apsulated last) being drawn first and early-in-the-year birthdays(that were encapsulated first) being drawn last and, therefore, less subject to the draft. Several young men filed suit in federal court seeking to have the 1970 lottery voided on the basis of the apparent lack of randomization. Note:
41、A 1971 draft lottery, in response to widespread criticism of the 1970 lottery, made use of random-numbers tables .第五十六頁,共八十頁。9/1/2022562 分層抽樣 又稱類型抽樣。它是先對(duì)總體各單位按主要標(biāo)志加以分組,然后再從各組中按隨機(jī)原則抽選(chu xun)一定單位構(gòu)成樣本。 stratified random sampling類型抽樣(chu yn)的方法又分兩種:等比例抽樣和不等比例抽樣。第五十七頁,共八十頁。9/1/202257如果按比例分配(fnpi)樣本單位,可
42、以得到類型抽樣誤差公式 1 在重復(fù)抽樣條件下 變量總體: 其中 是各組方差的加權(quán)平均數(shù),習(xí)慣上稱為平均(pngjn)組內(nèi)方差。 屬性總體 其中 是各組比率的方差加權(quán)平均數(shù),是屬性總體的平均組內(nèi)方差。 第五十八頁,共八十頁。9/1/2022582在不重復(fù)抽樣(chu yn)條件下 以上總體 參數(shù)、是未知的,習(xí)慣(xgun)用樣本值 、 代替 第五十九頁,共八十頁。9/1/2022593 等距抽樣(chu yn) systematic sampling也稱機(jī)械抽樣或系統(tǒng)抽樣。它先按某一標(biāo)志對(duì)總體各單位進(jìn)行排隊(duì),然后依一定順序和間隔來抽取(chu q)樣本單位的一種抽樣組織 可分為按無關(guān)標(biāo)志(bio
43、zh)排隊(duì)和按有關(guān)標(biāo)志(biozh)排隊(duì)兩種按無關(guān)標(biāo)志排隊(duì)指采用的排隊(duì)標(biāo)志與所研究的問題沒有直接關(guān)系或聯(lián)系較少按有關(guān)標(biāo)志排隊(duì)指采用的排隊(duì)標(biāo)志與所研究的問題有直接關(guān)系。第六十頁,共八十頁。9/1/2022604 整群抽樣(chu yn) cluster sampling又稱聚點(diǎn)抽樣或群體抽樣,它是先將總體(zngt)劃分為若干群(R群),再從中任意抽取幾群(r群),然后對(duì)抽中的群作全面調(diào)查,并據(jù)此結(jié)論對(duì)總體(zngt)加以推斷。整群抽樣尤其(yuq)適用于存在自然群的場(chǎng)合因?yàn)檎撼闃邮浅扇旱爻檫x樣本,故整群抽樣的誤差較大。由于整群抽樣是成群地抽樣,從而使樣本對(duì)總體的代表性會(huì)降低。 第六十一頁,共
44、八十頁。9/1/202261 由于對(duì)抽中的群作全面調(diào)查,因此整群抽樣的誤差主要受各群間的差異即群間方差的影響(yngxing),而群內(nèi)卻不存在抽樣誤差問題。 整群抽樣下的平均誤差公式如下: 其中(qzhng) , 稱為群間方差第六十二頁,共八十頁。9/1/202262必要抽樣群數(shù)r的確定公式類同簡(jiǎn)單隨機(jī)抽樣中有關(guān)(yugun)公式。只不過現(xiàn)在確定的是r,并用組內(nèi)方差 取代 。 【實(shí)例(shl)】某產(chǎn)品合計(jì)生產(chǎn)3000批,每批產(chǎn)量大致相同,抽樣檢查產(chǎn)品合格品率。要求其允許誤差不超過2%,若根據(jù)過去該產(chǎn)品質(zhì)量資料,其各批群間方差為3%,問在95.45%(t=2)可靠程度下需抽多少批產(chǎn)品為宜? 即要
45、在全部(qunb)產(chǎn)品中抽273批產(chǎn)品檢查 第六十三頁,共八十頁。9/1/2022635 多階段(jidun)抽樣 multi-stage sampling 是在組織抽樣(chu yn)時(shí),不是從總體中一次直接抽取樣本單位,而是把抽樣(chu yn)過程分成幾個(gè)過渡階段進(jìn)行。到最后才具體抽取樣本單位。它是先抽大單位,再在大單位中抽小單位,在小單位中抽更小單位,直到抽出最終能取得推斷總體的基本單位為止。 一般在總體(zngt)很大,單位分布面積廣時(shí),如從總體(zngt)中采取一次直接抽取足夠多的樣本很困難時(shí),可采用多階段抽樣。 第六十四頁,共八十頁。9/1/2022646.4 參數(shù)(cnsh)假
46、設(shè)檢驗(yàn)6.4.1 假設(shè)檢驗(yàn)的基本概念假設(shè)檢驗(yàn)(Hypothesis testing)是利用樣本的實(shí)際資料來檢驗(yàn)事先(shxin)對(duì)總體某些數(shù)量特征所作的假設(shè)是否可信的一種統(tǒng)計(jì)分析方法。第六十五頁,共八十頁。9/1/202265它和參數(shù)估計(jì)一樣,都是利用樣本資料對(duì)總體特征進(jìn)行(jnxng)某種推斷。但二者推斷角度不同。參數(shù)估計(jì)是根據(jù)樣本指標(biāo)以一定的把握程度估計(jì)總體參數(shù)取值范圍,更準(zhǔn)確地說,是對(duì)總體參數(shù)進(jìn)行了區(qū)間估計(jì);假設(shè)檢驗(yàn)則先對(duì)總體參數(shù)值提出一個(gè)假設(shè),然后利用樣本信息,以一定的概率水平去判斷這個(gè)假設(shè)是否成立。第六十六頁,共八十頁。9/1/2022666.4.2 假設(shè)檢驗(yàn)的步驟一個(gè)完整的假設(shè)檢驗(yàn)
47、過程,通常包括以下四步驟:第一,提出原假設(shè)和備擇假設(shè);第二,選取和計(jì)算檢驗(yàn)統(tǒng)計(jì)量;第三(d sn),根據(jù)顯著性水平查臨界值;第四,進(jìn)行比較并做出決策。 第六十七頁,共八十頁。9/1/2022676.4.3 假設(shè)檢驗(yàn)中的兩類錯(cuò)誤假設(shè)檢驗(yàn)可能犯兩種類型的錯(cuò)誤。第一類錯(cuò)誤(Type I error)指的是H0客觀(kgun)上真實(shí)但被檢驗(yàn)所拒絕,這種錯(cuò)誤也稱為棄真錯(cuò)誤。犯這種錯(cuò)誤的概率就是顯著水平;第二類錯(cuò)誤(Type II error)指的是H0客觀上不真實(shí)但被檢驗(yàn)所接受,這種錯(cuò)誤也稱為納偽錯(cuò)誤。犯這種錯(cuò)誤的概率我們用(讀作“貝塔”)來表示。 第六十八頁,共八十頁。9/1/2022686.4.4
48、總體均值和總體成數(shù)檢驗(yàn)1大樣本(yngbn)情況下總體均值檢驗(yàn)在大樣本(n30)情況下,總體均值的假設(shè)檢驗(yàn)可以應(yīng)用正態(tài)分布檢驗(yàn)法。2小樣本(yngbn)情況下總體均值檢驗(yàn)在小樣本(n30)情況下,總體均值的假設(shè)檢驗(yàn)可以應(yīng)用t分布檢驗(yàn)法。此時(shí),檢驗(yàn)統(tǒng)計(jì)量為t統(tǒng)計(jì)量,它服從自由度為n-1的t分布。第六十九頁,共八十頁。9/1/202269【實(shí)例6.13】 某食品公司生產(chǎn)一種罐頭,按標(biāo)準(zhǔn)每罐凈重為227克,根據(jù)(gnj)以往生產(chǎn)經(jīng)驗(yàn)罐頭重量的標(biāo)準(zhǔn)差為5克?,F(xiàn)隨機(jī)抽查該公司產(chǎn)品100罐,測(cè)得平均凈重為228克,判斷這批罐頭是否符合標(biāo)準(zhǔn)?解:第一步提出原假設(shè)和備擇假設(shè)。H0:227 H1:227 第二步
49、選取和計(jì)算檢驗(yàn)統(tǒng)計(jì)量。 , 代入數(shù)值,計(jì)算得 Z=3.33 第三步根據(jù)顯著性水平查臨界值。 由=0.05,得臨界值-Z0.025=-1.96,Z0.025=1.96 第四步進(jìn)行比較并做出決策。Z=3.33Z0.025=1.96 拒絕(jju)H0 即這批罐頭不符合標(biāo)準(zhǔn)。 第七十頁,共八十頁。9/1/202270【實(shí)例6.14】 某輪胎制造商在廣告中聲稱,該公司生產(chǎn)的汽車輪胎在正常行使條件下平均壽命高于28000公里。檢測(cè)(jin c)部門隨機(jī)挑選了40個(gè)輪胎進(jìn)行測(cè)試,結(jié)果顯示平均行使里程28200公里,樣本標(biāo)準(zhǔn)差為1000公里,問該制造商廣告是否屬實(shí)?解:第一步提出假設(shè)。這需要確定檢驗(yàn)的方向。
50、題中制造商稱輪胎壽命高于28000公里,表述為28000,其余(qy)集為28000,由于等號(hào)在原假設(shè)上,故28000為原假設(shè)H0,28000為備擇假設(shè)H1,此為右單側(cè)檢驗(yàn)。第二步計(jì)算統(tǒng)計(jì)量。由于總體標(biāo)準(zhǔn)差s未知,用樣本標(biāo)準(zhǔn)差S替 代。Z 統(tǒng)計(jì)量為 代入數(shù)值,得Z=1.26第三步查臨界值。因?yàn)槭怯覇蝹?cè)檢驗(yàn),=0.05時(shí)其臨界值Z0.05=1.645第四步比較做決策。Z=1.26Z0.05=1.645 接受H0 輪胎平均使用壽命不高于28000公里 制造商廣告不屬實(shí)。第七十一頁,共八十頁。9/1/202271【實(shí)例6.15】 某批發(fā)商欲從廠家購進(jìn)一批燈泡,根據(jù)合同規(guī)定,燈泡的平均使用壽命不能低于
51、1000小時(shí)。從產(chǎn)品中隨機(jī)(su j)抽取100只燈泡,測(cè)得平均壽命為960小時(shí),標(biāo)準(zhǔn)差為200小時(shí),請(qǐng)問批發(fā)商是否應(yīng)該購買這批燈泡?解:第一步提假設(shè)(jish)。H0:1000 H1:1000 第二步計(jì)算檢驗(yàn)統(tǒng)計(jì)量。采用Z統(tǒng)計(jì)量 , 代入數(shù)值,計(jì)算得Z=-2 第三步查臨界值。由=0.05,左單側(cè)檢驗(yàn)得臨界值 - Z0.05=-1.645 第四步比較做決策。 Z=-2- Z0.05=-1.645 拒絕H0 即批發(fā)商不應(yīng)當(dāng)購買這批燈泡。第七十二頁,共八十頁。9/1/202272【實(shí)例6.16】某食品公司生產(chǎn)袋裝食品,采用自動(dòng)打包機(jī)打包。每包標(biāo)準(zhǔn)凈重應(yīng)為1000克,每天開工后需要檢驗(yàn)一次打包機(jī)工作
52、是否正?!,F(xiàn)從產(chǎn)品中隨機(jī)抽取9包,實(shí)測(cè)每包凈重如下:987,993,1012,1005,997,983,1021,995,1005,給定顯著性水平=0.05,問該日打包機(jī)工作是否正常?解:由于本題關(guān)心的是每包凈重是否為1000克,因此是雙側(cè)檢驗(yàn)問題。又因?yàn)槭切颖举Y料(zlio),故采用t分布檢驗(yàn)法。 第一步提假設(shè)。H0:1000 H1:1000 第二步計(jì)算檢驗(yàn)統(tǒng)計(jì)量。 , 樣本平均數(shù)=999.8 樣本標(biāo)準(zhǔn)差S=1.212 代入數(shù)值,計(jì)算得t=-0.495 第三步查臨界值。=0.05,由于是雙側(cè)檢驗(yàn),自由度= n-1=8, 查t分布表,得臨界值- t0.025(8)=-2.306,t0.025
53、(8)=2.306 第四步比較做決策。 - 2.306t=-0.4952.306 接受H0 該日打包機(jī)工作正常第七十三頁,共八十頁。9/1/2022733總體成數(shù)(chngsh)檢驗(yàn)方法(fngf)及步驟與總體均值檢驗(yàn)一樣,只是在統(tǒng)計(jì)量公式中需要用到成數(shù)的標(biāo)準(zhǔn)差。其統(tǒng)計(jì)量公式為 【實(shí)例6.17】一家雜志聲稱(shngchng)其讀者中至少有25%是在校大學(xué)生。從該雜志讀者中抽取200名讀者進(jìn)行調(diào)查,發(fā)現(xiàn)其中42人是在校大學(xué)生。請(qǐng)問該雜志的論斷是否正確(=0.05)解:第一步提假設(shè)。H0:p25% H1:p25% 第二步計(jì)算檢驗(yàn)統(tǒng)計(jì)量。p = n1/n=42/200=21% 代入公式,計(jì)算得到 Z=-1.31 第三步查臨界值。由=0.05,雙側(cè)檢驗(yàn)得臨界值- Z0.05=-1.645 第四步比較做決策。Z=-1.31- Z0.05=-1.645 接受H0 即該雜志的論斷正確。 第七十四頁,共八十頁。9/1/2022746.5 Excel在抽樣推斷(tudun)中的應(yīng)用6.5.1 利用Excel進(jìn)行區(qū)間估計(jì)第一步:輸入(shr)樣本數(shù)據(jù)。第二步:輸入相關(guān)變量的名稱。本例中為C列的內(nèi)容,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版汽車融資租賃合同示范文本(含電子簽約)3篇
- 2025年度馬戲團(tuán)專業(yè)演出設(shè)備租賃合同3篇
- 二零二五年度地?zé)豳Y源打井開發(fā)與利用合同3篇
- 二零二五版模具行業(yè)財(cái)務(wù)顧問服務(wù)合同4篇
- 2025年度城市綠化工程苗木及配套設(shè)施采購年度合同3篇
- 二零二五年度民間借款合同(含金融消費(fèi)者權(quán)益保護(hù))
- 二零二五年度電子信息技術(shù)ICP證年審服務(wù)合同4篇
- 2025年保險(xiǎn)科技的市場(chǎng)潛力
- 2025年度綠色農(nóng)業(yè)貸款合同4篇
- 課題申報(bào)參考:美對(duì)華VC脫鉤對(duì)中國企業(yè)關(guān)鍵核心技術(shù)突破的沖擊及間接掛鉤策略研究-共同所有權(quán)視角
- 暴發(fā)性心肌炎查房
- 口腔醫(yī)學(xué)中的人工智能應(yīng)用培訓(xùn)課件
- 工程質(zhì)保金返還審批單
- 【可行性報(bào)告】2023年電動(dòng)自行車項(xiàng)目可行性研究分析報(bào)告
- 五月天歌詞全集
- 商品退換貨申請(qǐng)表模板
- 實(shí)習(xí)單位鑒定表(模板)
- 機(jī)械制造技術(shù)-成都工業(yè)學(xué)院中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年
- 數(shù)字媒體應(yīng)用技術(shù)專業(yè)調(diào)研方案
- 2023年常州市新課結(jié)束考試九年級(jí)數(shù)學(xué)試卷(含答案)
- 正常分娩 分娩機(jī)制 助產(chǎn)學(xué)課件
評(píng)論
0/150
提交評(píng)論