版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
管理統(tǒng)計(jì)學(xué)畢德春遼東學(xué)院信息技術(shù)學(xué)院管理統(tǒng)計(jì)學(xué)畢德春遼東學(xué)院信息技術(shù)學(xué)院1第6章
抽樣與抽樣分布第6章抽樣與抽樣分布2第1節(jié)抽樣方法第1節(jié)抽樣方法3第6章第1節(jié)
抽樣方法關(guān)于抽樣的基礎(chǔ)概念1總體(population)所研究的全部個(gè)體(數(shù)據(jù))的集合,其中的每一個(gè)元素稱為個(gè)體,總體中所包含的元素?cái)?shù)量多少稱為總體容量,用N表示。有限總體有限總體的范圍能夠明確確定,且元素的數(shù)目是有限的1無限總體無限總體所包括的元素是無限的,不可數(shù)的2第6章第1節(jié)抽樣方法關(guān)于抽樣的基礎(chǔ)概念1總體(popula第6章第1節(jié)
抽樣方法關(guān)于抽樣的基礎(chǔ)概念1什么才是好的抽樣?有足夠的代表性符合統(tǒng)計(jì)學(xué)基本原理具有充分的可操作性有效率的實(shí)施/執(zhí)行中的偏差越小越好第6章第1節(jié)抽樣方法關(guān)于抽樣的基礎(chǔ)概念1什么才是好的抽樣?5從理論上講,樣本數(shù)越大,抽樣誤差越小,結(jié)果的代表性越好。但是,同時(shí)考慮費(fèi)用和時(shí)間因素,大樣本量不一定是最有效率的辦法。在隨機(jī)抽樣條件下,不同樣本規(guī)模的抽樣誤差如下:
第6章第1節(jié)
抽樣方法關(guān)于抽樣的基礎(chǔ)概念1樣本量的選取置信度樣本量80%90%95%99%1505.23%6.72%8.00%10.52%2004.53%5.82%6.93%9.11%2504.05%5.20%6.20%8.15%3003.70%4.75%5.66%7.44%5002.87%3.68%4.38%5.76%從理論上講,樣本數(shù)越大,抽樣誤差越小,結(jié)果的代表性越好。但是6樣本(sample)從總體中抽取的一部分元素的集合,構(gòu)成樣本的元素?cái)?shù)目稱為樣本容量,用n表示。第6章第1節(jié)
抽樣方法關(guān)于抽樣的基礎(chǔ)概念1=<30小樣本>30大樣本樣本(sample)從總體中抽取的一部分元素的集合,構(gòu)成樣本7參數(shù)(parameter)描述總體特征的概括性數(shù)字度量,是研究者想要了解的總體的某種特征值,所關(guān)心的參數(shù)主要有總體均值()、標(biāo)準(zhǔn)差()、總體比例()等,總體參數(shù)通常用希臘字母表示。第6章第1節(jié)
抽樣方法關(guān)于抽樣的基礎(chǔ)概念1πμσ總體均值標(biāo)準(zhǔn)差總體比例參數(shù)(parameter)描述總體特征的概括性數(shù)字度量,是研8統(tǒng)計(jì)量(statistic)用來描述樣本特征的概括性數(shù)字度量,它是根據(jù)樣本數(shù)據(jù)計(jì)算出來的一些量,是樣本的函數(shù),所關(guān)心的樣本統(tǒng)計(jì)量有樣本均值(x)、樣本標(biāo)準(zhǔn)差(s)、樣本比例(p)等,樣本統(tǒng)計(jì)量通常用小寫英文字母表示。第6章第1節(jié)
抽樣方法關(guān)于抽樣的基礎(chǔ)概念1pxs樣本均值樣本標(biāo)準(zhǔn)差樣本比例統(tǒng)計(jì)量(statistic)用來描述樣本特征的概括性數(shù)字度量9總體參數(shù)樣本統(tǒng)計(jì)量第6章第1節(jié)
抽樣方法關(guān)于抽樣的基礎(chǔ)概念1抽樣推斷的過程總體參數(shù)樣本統(tǒng)計(jì)量第6章第1節(jié)抽樣方法關(guān)于抽樣的基礎(chǔ)概念110抽樣方法概率抽樣非概率抽樣多階段抽樣整群抽樣系統(tǒng)抽樣自愿抽樣配額抽樣簡單隨機(jī)抽樣分層抽樣方便抽樣判斷抽樣滾雪球抽樣抽樣第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2抽樣方法概率抽樣非概率抽樣多階段抽樣整群抽樣系統(tǒng)抽樣自愿抽樣11第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2概率抽樣非概率抽樣概率抽樣也稱隨機(jī)抽樣,是按照隨機(jī)原則抽選樣本的抽樣方式,抽樣時(shí)每個(gè)樣本單位被選中的概率是已知。不滿足概率抽樣要求的抽樣都被歸為非概率抽樣。非概率抽樣單個(gè)單位被選中的概率是不可知的第6章第1節(jié)抽樣方法關(guān)于抽樣的方法2概率抽樣非概率抽樣概率12簡單隨機(jī)抽樣(SimpleRandomSampling)也稱純隨機(jī)抽樣。直接從總體單位中抽選樣本單位,每個(gè)個(gè)體被選入樣本的概率都相等。可分為有放回和無放回兩種方式。是最基本的抽樣方法,許多抽樣方法都是在它的基礎(chǔ)上發(fā)展起來的。其數(shù)學(xué)性質(zhì)簡單,理論也最為成熟。第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2簡單隨機(jī)抽樣(SimpleRandomSampli13整群抽樣(ClusterSampling)先將總體分為R個(gè)群(即次級單位或子總體),每個(gè)群包含若干總體單位。按某種方式從中隨機(jī)抽取r個(gè)群,然后對抽中的群的所有單位都進(jìn)行調(diào)查的抽樣方式。總體分成4個(gè)群隨機(jī)選擇2個(gè)群構(gòu)成樣本第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2整群抽樣(ClusterSampling)先將總體分為14多階段抽樣先從總體中隨機(jī)地抽取若干初級單位,再從初級單位中抽取若干二級單位,……如此下去直至抽取所要調(diào)查的基本單位的抽樣方法。例:[統(tǒng)計(jì)年鑒2004指出]2003年人口變動(dòng)情況抽樣調(diào)查是以全國為總體,各省、自治區(qū)、直轄市為次總體,采用分層、等距、整群抽樣方法,在全國31個(gè)省、自治區(qū)、直轄市抽取了990個(gè)縣(市、區(qū))、3734個(gè)鄉(xiāng)(鎮(zhèn)、街道)、6544個(gè)調(diào)查小區(qū)的126萬人。第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2多階段抽樣先從總體中隨機(jī)地抽取若干初級單位,再從初級單位中抽15分層抽樣(StratifiedSampling)也稱分類抽樣或類型抽樣。即先將總體所有單位按某種標(biāo)志劃分為若干層,然后從各層中隨機(jī)抽取一定數(shù)目的單位構(gòu)成樣本,根據(jù)各層樣本匯總對總體指標(biāo)作出估計(jì)的一種抽樣方式。男生女生樣本第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2分層抽樣(StratifiedSampling)也稱分類16例:一個(gè)單位的職工有500人,其中不到35歲的有125人,35~49歲的有280人,50歲以上的有95人。為了了解該單位職工年齡與身體狀況的有關(guān)指標(biāo),從中抽取100名職工作為樣本,應(yīng)該怎樣抽???第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2分析:這總體具有某些特征,它可以分成幾個(gè)不同的部分:不到35歲;35~49歲;50歲以上,把每一部分稱為一個(gè)層,因此該總體可以分為3個(gè)層。由于抽取的樣本為100,所以必須確定每一層的比例,在每一個(gè)層中實(shí)行簡單隨機(jī)抽樣。例:一個(gè)單位的職工有500人,其中不到35歲的有125人,317解:抽取人數(shù)與職工總數(shù)的比是100:500=1:5,則各年齡段(層)的職工人數(shù)依次是125:280:95=25:56:19,然后分別在各年齡段(層)運(yùn)用簡單隨機(jī)抽樣方法抽取。答:在分層抽樣時(shí),不到35歲、35~49歲、50歲以上的三個(gè)年齡段分別抽取25人、56人和19人。第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2解:抽取人數(shù)與職工總數(shù)的比是100:500=1:5,則各年齡1819系統(tǒng)抽樣也稱等距抽樣(SystematicSampling)將總體N個(gè)單位按某種順序排列,按規(guī)則確定一個(gè)隨機(jī)起點(diǎn),再每隔一定間隔逐個(gè)抽取樣本單位的抽樣方法。直線等距抽樣:將總體分成n個(gè)組,每組有k=N/n個(gè)單位。在第一組隨機(jī)選擇一個(gè)單位,之后每隔k個(gè)選擇一個(gè)。N=64n=8k=8第一組第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法219系統(tǒng)抽樣也稱等距抽樣(SystematicSampl例:一個(gè)禮堂有30排座位,每排有40個(gè)座位。一次報(bào)告會(huì)禮堂坐滿了聽眾。會(huì)后為聽取意見留下了座位號為20的30名聽眾進(jìn)行座談。這里選用了哪種抽取樣本的方法?寫出抽取過程。第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2由于每排的座位有40個(gè),各排每個(gè)號碼被抽取的概率都是,第1排被抽取前,其他各排中各號碼被抽取哪率也是,也就是說被抽取的概率是,每排的抽樣也是簡單隨機(jī)抽樣,因此這種抽樣的方法是系統(tǒng)抽樣。例:一個(gè)禮堂有30排座位,每排有40個(gè)座位。一次報(bào)告會(huì)禮堂坐20方便抽樣(Conveniencesampling)純粹以方便基本著眼的抽樣方法,事先不預(yù)定樣本,碰到即問或被調(diào)查者主動(dòng)回答問題。又稱便利抽樣、偶遇抽樣。例:在街頭的攔截式訪問。登在報(bào)刊、網(wǎng)上的問卷。第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2方便抽樣(Conveniencesampling)純粹以方21判斷抽樣(JudgmentSampling)調(diào)查者根據(jù)主觀經(jīng)驗(yàn)和判斷從總體中選取有代表性的單位構(gòu)成樣本。精度取決于抽樣者的經(jīng)驗(yàn)。不能獲得估計(jì)值的精度。適用于總體單位極不相同而樣本容量又很小的情況第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2判斷抽樣(JudgmentSampling)調(diào)查者根據(jù)主22配額抽樣(Quotasampling)是非隨機(jī)抽樣方法中最常用的一種抽樣方法。分為兩個(gè)步驟:根據(jù)研究人員認(rèn)為較重要的一些變量把總體單位分類,指定每一類中的定額;然后在每一類中使用方便抽樣或判斷抽樣的方法抽選指定數(shù)量的樣本單位。問題:與分層抽樣的區(qū)別?第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2配額抽樣(Quotasampling)是非隨機(jī)抽樣方法中23雪球抽樣也譯為滾雪球抽樣(SnowballSampling)其原理是先找到最初的樣本單位,然后根據(jù)他們提供的信息去獲得新的樣本單位;這種過程不斷繼續(xù),直到完成規(guī)定的樣本容量為止。主要用于對稀少群體的調(diào)查。例:某研究部門在調(diào)查保姆問題時(shí),先訪問了7名保姆,然后再請她們提供其他保姆名單,逐步擴(kuò)大到近百人。第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2雪球抽樣也譯為滾雪球抽樣(SnowballSampli24在下列問題中,各采用什么抽樣方法抽取樣本較合適?從20臺(tái)電腦中抽取4臺(tái)進(jìn)行質(zhì)量檢測;從2004名同學(xué)中,抽取一個(gè)容量為20的樣本某中學(xué)有180名教工,其中業(yè)務(wù)人員136名,管理人員20名,后勤人員24名,從中抽取一個(gè)容量為15的樣本。簡單抽樣系統(tǒng)抽樣分層抽樣第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2在下列問題中,各采用什么抽樣方法抽取樣本較合適?從20臺(tái)電腦25抽樣調(diào)查中的誤差抽樣誤差非抽樣誤差計(jì)量誤差抽樣框誤差無回答誤差第6章第1節(jié)
抽樣方法抽樣調(diào)查中的誤差3抽樣調(diào)查中的誤差抽樣誤差非抽樣誤差計(jì)量誤差抽樣框誤差無回答誤26誤差是指估計(jì)值與真實(shí)值之間的差異。抽樣誤差(Samplingerror):由于抽選樣本的隨機(jī)性造成的誤差,也稱為代表性誤差。樣本只是總體的一部分,它對總體的代表性存在局限性,從而會(huì)造成誤差。在抽樣調(diào)查中,抽樣誤差就不可避免。在概率抽樣中抽樣誤差是能夠計(jì)量且可以得到控制的。影響抽樣誤差的主要因素包括:總體內(nèi)部的差異程度;樣本容量的大??;抽樣的方式方法等。第6章第1節(jié)
抽樣方法抽樣調(diào)查中的誤差3誤差是指估計(jì)值與真實(shí)值之間的差異。第6章第1節(jié)抽樣方法抽樣27非抽樣誤差(Nonsamplingerror)除抽樣誤差以外的所有誤差。通常認(rèn)為是由于調(diào)查程序執(zhí)行中的錯(cuò)誤與不足引起的。主要包括抽樣框誤差、無回答誤差和計(jì)量誤差。國內(nèi)也稱為“工作誤差”或“調(diào)查誤差”。
第6章第1節(jié)
抽樣方法抽樣調(diào)查中的誤差3非抽樣誤差(Nonsamplingerror)除抽樣誤差以28在抽樣調(diào)查中可以把總體分成若干個(gè)互不重疊又窮盡的有限個(gè)部分,每個(gè)部分稱為一個(gè)抽樣單位(Samplingunit)。抽樣單位可以是一個(gè)總體單位,也可以包含多個(gè)個(gè)體。抽樣單位的名單稱為抽樣框(SamplingFrame)。抽樣框應(yīng)盡可能與目標(biāo)總體相一致。例如名單抽樣框、區(qū)域抽樣框、時(shí)間表抽樣框。
第6章第1節(jié)
抽樣方法抽樣調(diào)查中的誤差3在抽樣調(diào)查中可以把總體分成若干個(gè)互不重疊又窮盡的有限個(gè)部分,29大學(xué)學(xué)生花名冊、城市黃頁里的電話列表、工商企業(yè)名錄、街道派出所里居民戶籍冊、意向購房人信息冊……。例:要從10000名職工中抽出200名組成一個(gè)樣本,抽樣框是什么?10000名職工的名冊第6章第1節(jié)
抽樣方法抽樣調(diào)查中的誤差3大學(xué)學(xué)生花名冊、城市黃頁里的電話列表、工商企業(yè)名錄、街道派出30抽樣框誤差(samplingframeerror,CoverageError)當(dāng)目標(biāo)總體與抽樣框所涵蓋的元素不一致時(shí),就會(huì)產(chǎn)生抽樣誤差。抽樣框誤差包括:丟失目標(biāo)總體單位、包含非目標(biāo)總體單位,復(fù)合連接等。第6章第1節(jié)
抽樣方法抽樣調(diào)查中的誤差3抽樣框誤差(samplingframeerror,C31案例:《文學(xué)摘要》民意測驗(yàn)1936年美國總統(tǒng)選舉F.D.Roosevelt(羅斯福)任美國總統(tǒng)的第一任期屆滿(民主黨)A.Landon(蘭登)Kansas州州長(共和黨)經(jīng)濟(jì)背景:國家正努力從大蕭條中恢復(fù),失業(yè)人數(shù)高達(dá)九百萬人。TheliteraryDigest《文學(xué)摘要》進(jìn)行民意測驗(yàn),將問卷郵寄給一千萬人,他們的名字和地址摘自電話簿或俱樂部會(huì)員名冊。其中240萬人寄回答案(回收率24%)。預(yù)測結(jié)果:Roosevelt43%,Landon57%競選結(jié)果:
Roosevelt62%,Landon38%主要原因:選擇偏倚——將一類人排除在外(當(dāng)時(shí)四個(gè)家庭中,只有一家安裝電話)不回答偏倚——低收入和高收入的人傾向不回答抽樣總體目標(biāo)總體第6章第1節(jié)
抽樣方法抽樣調(diào)查中的誤差3案例:《文學(xué)摘要》民意測驗(yàn)1936年美國總統(tǒng)選舉抽樣總體321936年美國總統(tǒng)競選(Gallup的預(yù)測)樣本容量3000人,在《摘要》公布其預(yù)測結(jié)果之前,僅以一個(gè)百分位數(shù)的誤差預(yù)言了《摘要》的預(yù)測結(jié)果。方法:從《摘要》要用的名單中隨機(jī)選取3000人,并給他們每人寄去一張明信片,詢問他們打算怎樣投票。大樣本并不能防止偏倚:當(dāng)抽樣框不正確時(shí),抽取一個(gè)大的樣本并無幫助,它只不過是在較大的規(guī)模下,去重復(fù)基本錯(cuò)誤。利用一個(gè)約5萬人的樣本,正確地預(yù)測了Roosevelt的勝利。
Roosevelt的百分?jǐn)?shù)蓋洛普預(yù)言《摘要》的預(yù)測結(jié)果44《摘要》預(yù)測的選舉結(jié)果43
Roosevelt的百分?jǐn)?shù)蓋洛普預(yù)測的選舉結(jié)果56選舉結(jié)果62第6章第1節(jié)
抽樣方法抽樣調(diào)查中的誤差31936年美國總統(tǒng)競選(Gallup的預(yù)測)樣本容量300033無回答誤差(NonresponseError)因缺失部分指定樣本單位的數(shù)據(jù)或調(diào)查問卷中的部分?jǐn)?shù)據(jù)項(xiàng)而引起的誤差都稱為無回答誤差。樣本個(gè)體拒絕訪問樣本個(gè)體無法接受訪問樣本個(gè)體拒絕回答部分問題第6章第1節(jié)
抽樣方法抽樣調(diào)查中的誤差3無回答誤差(NonresponseError)因缺失部分34計(jì)量誤差(MeasurementError)是指調(diào)查中獲得的數(shù)據(jù)與調(diào)查項(xiàng)目真實(shí)值之間不一致而產(chǎn)生的誤差,也稱為登記性誤差。測量工具不準(zhǔn)確調(diào)查員的工作失誤(如計(jì)量錯(cuò)誤、計(jì)算錯(cuò)誤、記錄錯(cuò)誤等)被調(diào)查者沒有提供真實(shí)情況第6章第1節(jié)
抽樣方法抽樣調(diào)查中的誤差3計(jì)量誤差(MeasurementError)是指調(diào)查中35第2節(jié)樣本均值的分布與中心極限定理第2節(jié)樣本均值的分布與中心極限定理36總體分布(populationdistribution)總體中各元素的觀察值所形成的分布。分布通常是未知的可以假定它服從某種分布總體第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1總體分布(populationdistribution)總37樣本分布(sampledistribution)一個(gè)樣本中各觀察值的分布,也稱經(jīng)驗(yàn)分布,是指當(dāng)樣本容量n逐漸增大時(shí),樣本分布逐漸接近總體的分布。樣本第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1樣本分布(sampledistribution)一個(gè)樣本中38抽樣分布(SamplingDistribtuion)按照簡單隨機(jī)抽樣方法,從個(gè)數(shù)為N的總體中抽取容量為n的樣本,兩種抽法:放回抽樣:樣本個(gè)數(shù)為不放回抽樣:樣本個(gè)數(shù)為每一個(gè)可能的樣本都有一個(gè)對應(yīng)的均值和標(biāo)準(zhǔn)差,那么所有樣本均值的分布就是樣本均值的抽樣分布,所有樣本的標(biāo)準(zhǔn)差的分布就是樣本標(biāo)準(zhǔn)差的抽樣分布。第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1抽樣分布(SamplingDistribtuion)按照簡39總體計(jì)算樣本統(tǒng)計(jì)量如:樣本均值、比例、方差樣本抽樣分布的形成過程第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1總體計(jì)算樣本統(tǒng)計(jì)量樣本抽樣分布的形成過程第6章第2節(jié)樣本均40樣本均值的抽樣分布在重復(fù)選取容量為n的樣本時(shí),由樣本均值所有可能取值形成的相對頻數(shù)分布一種理論概率分布推斷總體均值的理論基礎(chǔ) 第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1樣本均值的抽樣分布在重復(fù)選取容量為n的樣本時(shí),由樣本均值所有41例:設(shè)一個(gè)總體,含有4個(gè)元素(個(gè)體),即總體單位數(shù)N=4。4個(gè)個(gè)體分別為X1=1、X2=2、X3=3、X4=4??傮w的均值、方差及分布如下均值和方差總體分布14230.1.2.3第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1例:設(shè)一個(gè)總體,含有4個(gè)元素(個(gè)體),即總體單位數(shù)N=4。442例:現(xiàn)從總體中抽取n=2的簡單隨機(jī)樣本,在重復(fù)抽樣條件下,共有42=16個(gè)樣本。所有樣本的結(jié)果如下表3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二個(gè)觀察值第一個(gè)觀察值所有可能的n=2的樣本(共16個(gè))第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1例:現(xiàn)從總體中抽取n=2的簡單隨機(jī)樣本,在重復(fù)抽樣條件下,共43計(jì)算出各樣本的均值,如下表。并給出樣本均值的抽樣分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二個(gè)觀察值第一個(gè)觀察值16個(gè)樣本的均值(x)樣本均值的抽樣分布1.00.1.2.3P(x)1.53.04.03.52.02.5x第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1計(jì)算出各樣本的均值,如下表。并給出樣本均值的抽樣分布3.5344式中:M為樣本數(shù)目,比較及結(jié)論:
樣本均值的均值(數(shù)學(xué)期望)等于總體均值樣本均值的方差等于總體方差的1/n第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1式中:M為樣本數(shù)目,比較及結(jié)論:第6章第2節(jié)樣本均值的分45抽樣分布=2.5σ2=1.25總體分布14230.1.2.3P(x)1.00.1.2.31.53.04.03.52.02.5x樣本均值的分布與總體分布的比較第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1抽樣分布=2.5σ2=1.25總體分布14246例:設(shè)一個(gè)總體(比如擲骰子),含有6個(gè)元素(個(gè)體),即總體單位數(shù)N=6。6個(gè)個(gè)體分別為x1=1,x2=2,x3=3,x4=4,x5=5,x6=6。現(xiàn)從總體中抽取n=2的簡單隨機(jī)樣本,試比較總體分布和樣本均值分布。第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1例:設(shè)一個(gè)總體(比如擲骰子),含有6個(gè)元素(個(gè)體),即總體47解:總體的均值、方差及分布如下:第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1均值和方差解:總體的均值、方差及分布如下:第6章第2節(jié)樣本均值的分布48現(xiàn)從總體中抽取n=2的簡單隨機(jī)樣本,在重復(fù)抽樣條件下,有62=36個(gè)樣本。所有樣本的結(jié)果為:
第二觀察值第一觀察值1234561(1,1)(1,2)(1,3)(1,4)(1,5)(1,6)2(2,1)(2,2)(2,3)(2,4)(2,5)(2,6)3(3,1)(3,2)(3,3)(3,4)(3,5)(3,6)4(4,1)(4,2)(4,3)(4,4)(4,5)(4,6)5(5,1)(5,2)(5,3)(5,4)(5,5)(5,6)6(6,1)(6,2)(6,3)(6,4)(6,5)(6,6)第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1現(xiàn)從總體中抽取n=2的簡單隨機(jī)樣本,在重復(fù)抽樣條件下,有6249計(jì)算出各樣本的均值,如下表。并給出樣本均值的抽樣分布
第二觀察值第一觀察值123456111.522.533.521.522.533.54322.533.544.542.533.544.55533.544.555.563.544.555.5636個(gè)樣本的均值第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1計(jì)算出各樣本的均值,如下表。并給出樣本均值的抽樣分布第二觀50=3.5σ2=2.9=3.5σ2=1.45樣本均值的抽樣分布與總體分布的比較第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1=3.5=3.5樣本均值的抽樣分布與總體分布51=50σ2
=10X總體分布n=2抽樣分布Xn=4當(dāng)總體服從正態(tài)分布N~(μ,σ2)時(shí),來自該總體的所有容量為n的樣本的均值X也服從正態(tài)分布,X的數(shù)學(xué)期望為μ,方差為σ2/n。即X~N(μ,σ2/n)σ2
=5σ2
=2.5第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1=50σ2=10X總體分布n=2抽樣分布Xn=52當(dāng)樣本容量足夠大時(shí)(n>30),樣本均值的抽樣分布逐漸趨于正態(tài)分布中心極限定理(centrallimittheorem)設(shè)從均值為,方差為2的一個(gè)任意總體中抽取容量為n的樣本,當(dāng)n充分大時(shí),樣本均值的抽樣分布近似服從均值為μ、方差為σ2/n的正態(tài)分布一個(gè)任意分布的總體X第6章第2節(jié)
樣本均值的分布與中心極限定理中心極限定理2當(dāng)樣本容量足夠大時(shí)(n>30),樣本均值的抽樣分布逐漸趨53極限定理:簡單講,凡是采用極限的方法(例如,觀察次數(shù)n趨于無限)所得出的一系列定理統(tǒng)稱極限定理。極限定理分為兩類:大數(shù)定理(Lawoflargenumbers)中心極限定理(Centrallimittheorem)
第6章第2節(jié)
樣本均值的分布與中心極限定理中心極限定理2極限定理:簡單講,凡是采用極限的方法(例如,觀察次數(shù)n趨于無54中心極限定理(centrallimittheorem)說明,任何變量,不管其原有分布如何,如果把它們n個(gè)加在一起,只要n足夠大,其和的分布必然接近正態(tài)分布,均值的分布也接近正態(tài)分布。
第6章第2節(jié)
樣本均值的分布與中心極限定理中心極限定理2中心極限定理(centrallimittheorem)說55x的分布趨于正態(tài)分布的過程第6章第2節(jié)
樣本均值的分布與中心極限定理中心極限定理2x的分布趨于正態(tài)分布的過程第6章第2節(jié)樣本均值的分布與56為什么社會(huì)經(jīng)濟(jì)生活、自然界存在許多隨機(jī)變量的分布都服從正態(tài)分布?請結(jié)合中心極限定理來解釋。第6章第2節(jié)
樣本均值的分布與中心極限定理中心極限定理2為什么社會(huì)經(jīng)濟(jì)生活、自然界存在許多隨機(jī)變量的分布都服從正態(tài)分57如果一個(gè)現(xiàn)實(shí)的量是由大量獨(dú)立偶然的因素的影響疊加而得,且其中每一個(gè)偶然因素的影響又是均勻地微小的話,可以斷定這個(gè)量將近似地服從正態(tài)分布。這就解釋了為什么在自然、社會(huì)、經(jīng)濟(jì)領(lǐng)域里大量存在服從正態(tài)分布的隨機(jī)變量。例如,身高、體重、智商、婚齡等等,因?yàn)橛绊懰鼈兊囊蛩囟际谴罅康摹?/p>
第6章第2節(jié)
樣本均值的分布與中心極限定理中心極限定理2如果一個(gè)現(xiàn)實(shí)的量是由大量獨(dú)立偶然的因素的影響疊加而得,且其中58抽樣分布與總體分布的關(guān)系從正態(tài)總體中抽取的全部可能樣本,無論樣本容量有多大,樣本平均數(shù)的抽樣分布必定遵從于正態(tài)分布;如果是從非正態(tài)總體中抽樣,只要n≥30,樣本均值的抽樣分布必定趨近于正態(tài)分布;第6章第2節(jié)
樣本均值的分布與中心極限定理中心極限定理2抽樣分布與總體分布的關(guān)系從正態(tài)總體中抽取的全部可能樣本,無論59對稱鐘形分布中的3σ法則3σ法則——關(guān)于鐘形分布的一個(gè)近似的或經(jīng)驗(yàn)的法則:變量值落在[-3σ,+3σ]范圍以外的情況極為少見。因此通常將落在區(qū)間[-3σ,+3σ]之外的數(shù)據(jù)稱為異常數(shù)據(jù)或稱為離群點(diǎn)。x99.73%68.27%95.45%第6章第2節(jié)
樣本均值的分布與中心極限定理中心極限定理2對稱鐘形分布中的3σ法則3σ法則——關(guān)于鐘形分布的一個(gè)近似60正態(tài)分布非正態(tài)分布大樣本小樣本大樣本小樣本總體分布正態(tài)分布正態(tài)分布正態(tài)分布第6章第2節(jié)
樣本均值的分布與中心極限定理中心極限定理2正態(tài)分布非正態(tài)分布大樣本小樣本大樣本小樣本總體分布正態(tài)分布正61例:每到臨近重大節(jié)日,為了滿足巨大的市場需要,副食品加工廠提高了對于食品的生產(chǎn)規(guī)模,而此時(shí)工廠的質(zhì)量管理人員,對工廠生產(chǎn)的副食品進(jìn)行質(zhì)量檢驗(yàn),檢驗(yàn)的指標(biāo)中主要是某個(gè)硝酸鹽的NO(<45mg/kg)指標(biāo)是否超標(biāo),一個(gè)生產(chǎn)商聲明自己的食品中NO的含量為43mg/kg,標(biāo)準(zhǔn)差為8mg。假設(shè)質(zhì)量監(jiān)督機(jī)構(gòu)決定抽取40個(gè)樣本來檢測含量,來進(jìn)行核實(shí)。假設(shè)如下:(1)建設(shè)這個(gè)生產(chǎn)商所言是真實(shí)的,嘗試描述這40個(gè)樣本的平均NO含量的抽樣分布;(2)假設(shè)這個(gè)生產(chǎn)商的包裝說明是真實(shí)的,則質(zhì)監(jiān)部門抽取的樣本硝酸鹽含量等于45mg的概率是多少?第6章第2節(jié)
樣本均值的分布與中心極限定理中心極限定理2例:每到臨近重大節(jié)日,為了滿足巨大的市場需要,副食品加工廠提62解:(1)盡管我們沒有總體分布信息,但是根據(jù)中心極限定理推斷:對著這40個(gè)樣本來說,平均的NO含量的抽樣分布是近似正態(tài)分布的。因此這批樣本的均值與總體的均值是相同的。根據(jù)生產(chǎn)商的聲明,平均含量為43mg,方差為5mg,則樣本方差為:如果我們假設(shè)此聲明是真實(shí)的,則這40個(gè)樣本平均壽命的抽樣分布如下圖所示:第6章第2節(jié)
樣本均值的分布與中心極限定理中心極限定理2解:(1)盡管我們沒有總體分布信息,但是根據(jù)中心極限定理推斷63(2)假設(shè)生產(chǎn)商聲稱的是真實(shí)的,則對于其40個(gè)樣本來說,硝酸鹽含量大于等于45mg/kg的概率P(x>=45)計(jì)算公式如下:可以算出來z(2.53)=0.9943,即根據(jù)生產(chǎn)商的聲明,硝酸鹽含量高于45mg的概率為1-0.9943=0.0057,因此根據(jù)這個(gè)結(jié)果.該食品在此次抽樣中出現(xiàn)硝酸鹽含量超標(biāo)的可能性為極小概率事件,如果此次樣本抽查出其中一個(gè)出現(xiàn)超標(biāo)(1/40=0.025),則有理由認(rèn)為該廠生產(chǎn)的食品不合格。第6章第2節(jié)
樣本均值的分布與中心極限定理中心極限定理2(2)假設(shè)生產(chǎn)商聲稱的是真實(shí)的,則對于其40個(gè)樣本來說,硝酸64例:在一次研究某一企業(yè)職工收入情況的調(diào)查中,準(zhǔn)備從該企業(yè)隨機(jī)抽取100個(gè)職工個(gè)人的收入狀況數(shù)據(jù)構(gòu)成樣本,以此推斷該企業(yè)職工平均月收入。若該企業(yè)職工平均月收入的總體均值為2000元,總體標(biāo)準(zhǔn)差為為250元,試計(jì)算樣本均值不小于1950元的概率。第6章第2節(jié)
樣本均值的分布與中心極限定理中心極限定理2例:在一次研究某一企業(yè)職工收入情況的調(diào)查中,準(zhǔn)備從該企業(yè)隨機(jī)65解:根據(jù)中心極限定理,在樣本容量充分大時(shí),樣本均值漸進(jìn)地趨于數(shù)學(xué)期望為總體均值,方差為總體方差的n分之一的正態(tài)分布,有本例的樣本均值漸進(jìn)地趨于數(shù)學(xué)期望為2000元,標(biāo)準(zhǔn)差為25的正態(tài)分布,即。代入正態(tài)分布概率計(jì)算公式,得
即樣本均值不小于1950元的概率為97.7%。(查表)第6章第2節(jié)
樣本均值的分布與中心極限定理中心極限定理2解:根據(jù)中心極限定理,在樣本容量充分大時(shí),樣本均值漸進(jìn)地趨于66σx=均值的標(biāo)準(zhǔn)誤
σ=個(gè)體標(biāo)準(zhǔn)差n=均值的樣本容量樣本均值的標(biāo)準(zhǔn)差小于總體標(biāo)準(zhǔn)差,且隨著樣本容量的增加減小,這也正是抽樣平均誤差的度量。第6章第2節(jié)
樣本均值的分布與中心極限定理中心極限定理2σx=均值的標(biāo)準(zhǔn)誤σ=個(gè)體標(biāo)準(zhǔn)差n=均值的樣本容量67樣本均值的數(shù)學(xué)期望樣本均值的方差重復(fù)抽樣不重復(fù)抽樣樣本均值的抽樣分布(數(shù)學(xué)期望與方差)第6章第2節(jié)
樣本均值的分布與中心極限定理中心極限定理2樣本均值的數(shù)學(xué)期望樣本均值的抽樣分布(數(shù)學(xué)期望與方差)第6章68樣本方差的分布:在重復(fù)選取容量為的樣本時(shí),由樣本方差的所有可能取值形成的相對頻數(shù)分布。對于來自正態(tài)總體的簡單隨機(jī)樣本,則比值的抽樣分布服從自由度為(n-1)的2分布,即第6章第2節(jié)
樣本均值的分布與中心極限定理常用統(tǒng)計(jì)量的分布3樣本方差的分布:在重復(fù)選取容量為的樣本時(shí),由樣本方差的所有可69設(shè)總體服從正態(tài)分布N~(μ,σ2),X1,X2,…,Xn為來自該正態(tài)總體的樣本,則樣本方差s2的分布為將2(n–1)稱為自由度為(n-1)的卡方分布第6章第2節(jié)
樣本均值的分布與中心極限定理常用統(tǒng)計(jì)量的分布3設(shè)總體服從正態(tài)分布N~(μ,σ2),X1,X2,…,70兩個(gè)總體都為正態(tài)分布,即,兩個(gè)樣本均值之差的抽樣分布服從正態(tài)分布,其分布的數(shù)學(xué)期望為兩個(gè)總體均值之差方差為各自的方差之和 兩個(gè)樣本均值之差的抽樣分布第6章第2節(jié)
樣本均值的分布與中心極限定理常用統(tǒng)計(jì)量的分布3兩個(gè)總體都為正態(tài)分布,即71
m1s1總體1s2
m2總體2抽取簡單隨機(jī)樣樣本容量n1計(jì)算x1抽取簡單隨機(jī)樣樣本容量n2計(jì)算x2計(jì)算每一對樣本的x1-x2所有可能樣本的x1-x2m1-m2抽樣分布第6章第2節(jié)
樣本均值的分布與中心極限定理常用統(tǒng)計(jì)量的分布3m1s1總體1s2m2總體2抽取簡單隨機(jī)樣72兩個(gè)總體都為正態(tài)分布,即X1~N(μ1,σ12),X2~N(μ2,σ22)從兩個(gè)總體中分別抽取容量為n1和n2的獨(dú)立樣本兩個(gè)樣本方差比的抽樣分布,服從分子自由度為(n1-1),分母自由度為(n2-1)的F分布,即兩個(gè)樣本方差比的抽樣分布第6章第2節(jié)
樣本均值的分布與中心極限定理常用統(tǒng)計(jì)量的分布3兩個(gè)總體都為正態(tài)分布,即X1~N(μ1,σ12),X2~N73c2-分布(2-distribution)由阿貝(Abbe)
于1863年首先給出,后來由海爾墨特(Hermert)和卡·皮爾遜(K·Pearson)
分別于1875年和1900年推導(dǎo)出來。設(shè)X1,X2,┈,Xn是來自總體N(0,1)的樣本,則稱隨機(jī)變量X1,X2,┈,Xn
2=
X12+X22+,┈+Xn2服從自由度為n的2分布,記為2∽
2(n)第6章第2節(jié)
樣本均值的分布與中心極限定理常用統(tǒng)計(jì)量的分布3c2-分布(2-distribution)第6章第2節(jié)樣74分布的變量值始終為正;分布的形狀取決于其自由度n的大小,通常為不對稱的正偏分布,但隨著自由度的增大逐漸趨于對稱;期望為:E(2)=n,方差為:D(2)=2n(n為自由度);可加性:若U和V為兩個(gè)獨(dú)立的2分布隨機(jī)變量,U~2(n1),V~2(n2),則U+V這一隨機(jī)變量服從自由度為n1+n2的2分布。c2-分布(性質(zhì)和特點(diǎn))第6章第2節(jié)
樣本均值的分布與中心極限定理常用統(tǒng)計(jì)量的分布3分布的變量值始終為正;分布的形狀取決于其自由度n的大小,通7576c2n=1n=4n=10n=20第6章第2節(jié)
樣本均值的分布與中心極限定理常用統(tǒng)計(jì)量的分布3不同自由度的c2-分布76c2n=1n=4n=10n=20第6章第2節(jié)樣本均值t-分布(t-distribution)提出者是WilliamGosset,也被稱為學(xué)生分布(student’st)t-分布是類似正態(tài)分布的一種對稱分布,通常要比正態(tài)分布平坦和分散。一個(gè)特定的分布依賴于稱之為自由度的參數(shù)。隨著自由度的增大,分布也逐漸趨于正態(tài)分布xt分布與標(biāo)準(zhǔn)正態(tài)分布的比較t分布標(biāo)準(zhǔn)正態(tài)分布t不同自由度的t分布標(biāo)準(zhǔn)正態(tài)分布t(df=13)t(df=5)z第6章第2節(jié)
樣本均值的分布與中心極限定理常用統(tǒng)計(jì)量的分布3t-分布(t-distribution)提出者是Willi77
設(shè)X1,X2,…,Xn是來自正態(tài)總體N~(μ,σ2)的一個(gè)樣本,稱為統(tǒng)計(jì)量,它服從自由度為(n-1)的t分布Xt分布與正態(tài)分布的比較正態(tài)分布t分布t不同自由度的t分布標(biāo)準(zhǔn)正態(tài)分布t(df=13)t(df=5)Z第6章第2節(jié)
樣本均值的分布與中心極限定理常用統(tǒng)計(jì)量的分布3設(shè)X1,X2,…,Xn是來自正態(tài)總體N~(μ,σ2)的一78F-分布(F
distribution)為紀(jì)念統(tǒng)計(jì)學(xué)家費(fèi)希爾(R.A.Fisher)
以其姓氏的第一個(gè)字母來命名;設(shè)若U為服從自由度為n1的2分布,即U~2(n1),V為服從自由度為n2的2分布,即V~2(n2),且U和V相互獨(dú)立,則稱F為服從自由度n1和n2的F分布,記為第6章第2節(jié)
樣本均值的分布與中心極限定理常用統(tǒng)計(jì)量的分布3F-分布(Fdistribution)為紀(jì)念統(tǒng)計(jì)學(xué)家費(fèi)希爾79F(1,10)(5,10)(10,10)第6章第2節(jié)
樣本均值的分布與中心極限定理常用統(tǒng)計(jì)量的分布3不同自由度的F分布F(1,10)(5,10)(10,10)第6章第2節(jié)樣本均80
選擇容量為n的簡單隨機(jī)樣本計(jì)算樣本方差S2計(jì)算卡方值2=(n-1)S2/σ2計(jì)算出所有的
2值不同容量樣本的抽樣分布c2n=1n=4n=10n=20ms總體卡方(c2)分布第6章第2節(jié)
樣本均值的分布與中心極限定理常用統(tǒng)計(jì)量的分布3選擇容量為n的計(jì)算卡方值計(jì)算出所有的不同容量樣本的抽樣分81THANKS
FORYOURATTENTIONTHANKS82管理統(tǒng)計(jì)學(xué)畢德春遼東學(xué)院信息技術(shù)學(xué)院管理統(tǒng)計(jì)學(xué)畢德春遼東學(xué)院信息技術(shù)學(xué)院83第6章
抽樣與抽樣分布第6章抽樣與抽樣分布84第1節(jié)抽樣方法第1節(jié)抽樣方法85第6章第1節(jié)
抽樣方法關(guān)于抽樣的基礎(chǔ)概念1總體(population)所研究的全部個(gè)體(數(shù)據(jù))的集合,其中的每一個(gè)元素稱為個(gè)體,總體中所包含的元素?cái)?shù)量多少稱為總體容量,用N表示。有限總體有限總體的范圍能夠明確確定,且元素的數(shù)目是有限的1無限總體無限總體所包括的元素是無限的,不可數(shù)的2第6章第1節(jié)抽樣方法關(guān)于抽樣的基礎(chǔ)概念1總體(popula第6章第1節(jié)
抽樣方法關(guān)于抽樣的基礎(chǔ)概念1什么才是好的抽樣?有足夠的代表性符合統(tǒng)計(jì)學(xué)基本原理具有充分的可操作性有效率的實(shí)施/執(zhí)行中的偏差越小越好第6章第1節(jié)抽樣方法關(guān)于抽樣的基礎(chǔ)概念1什么才是好的抽樣?87從理論上講,樣本數(shù)越大,抽樣誤差越小,結(jié)果的代表性越好。但是,同時(shí)考慮費(fèi)用和時(shí)間因素,大樣本量不一定是最有效率的辦法。在隨機(jī)抽樣條件下,不同樣本規(guī)模的抽樣誤差如下:
第6章第1節(jié)
抽樣方法關(guān)于抽樣的基礎(chǔ)概念1樣本量的選取置信度樣本量80%90%95%99%1505.23%6.72%8.00%10.52%2004.53%5.82%6.93%9.11%2504.05%5.20%6.20%8.15%3003.70%4.75%5.66%7.44%5002.87%3.68%4.38%5.76%從理論上講,樣本數(shù)越大,抽樣誤差越小,結(jié)果的代表性越好。但是88樣本(sample)從總體中抽取的一部分元素的集合,構(gòu)成樣本的元素?cái)?shù)目稱為樣本容量,用n表示。第6章第1節(jié)
抽樣方法關(guān)于抽樣的基礎(chǔ)概念1=<30小樣本>30大樣本樣本(sample)從總體中抽取的一部分元素的集合,構(gòu)成樣本89參數(shù)(parameter)描述總體特征的概括性數(shù)字度量,是研究者想要了解的總體的某種特征值,所關(guān)心的參數(shù)主要有總體均值()、標(biāo)準(zhǔn)差()、總體比例()等,總體參數(shù)通常用希臘字母表示。第6章第1節(jié)
抽樣方法關(guān)于抽樣的基礎(chǔ)概念1πμσ總體均值標(biāo)準(zhǔn)差總體比例參數(shù)(parameter)描述總體特征的概括性數(shù)字度量,是研90統(tǒng)計(jì)量(statistic)用來描述樣本特征的概括性數(shù)字度量,它是根據(jù)樣本數(shù)據(jù)計(jì)算出來的一些量,是樣本的函數(shù),所關(guān)心的樣本統(tǒng)計(jì)量有樣本均值(x)、樣本標(biāo)準(zhǔn)差(s)、樣本比例(p)等,樣本統(tǒng)計(jì)量通常用小寫英文字母表示。第6章第1節(jié)
抽樣方法關(guān)于抽樣的基礎(chǔ)概念1pxs樣本均值樣本標(biāo)準(zhǔn)差樣本比例統(tǒng)計(jì)量(statistic)用來描述樣本特征的概括性數(shù)字度量91總體參數(shù)樣本統(tǒng)計(jì)量第6章第1節(jié)
抽樣方法關(guān)于抽樣的基礎(chǔ)概念1抽樣推斷的過程總體參數(shù)樣本統(tǒng)計(jì)量第6章第1節(jié)抽樣方法關(guān)于抽樣的基礎(chǔ)概念192抽樣方法概率抽樣非概率抽樣多階段抽樣整群抽樣系統(tǒng)抽樣自愿抽樣配額抽樣簡單隨機(jī)抽樣分層抽樣方便抽樣判斷抽樣滾雪球抽樣抽樣第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2抽樣方法概率抽樣非概率抽樣多階段抽樣整群抽樣系統(tǒng)抽樣自愿抽樣93第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2概率抽樣非概率抽樣概率抽樣也稱隨機(jī)抽樣,是按照隨機(jī)原則抽選樣本的抽樣方式,抽樣時(shí)每個(gè)樣本單位被選中的概率是已知。不滿足概率抽樣要求的抽樣都被歸為非概率抽樣。非概率抽樣單個(gè)單位被選中的概率是不可知的第6章第1節(jié)抽樣方法關(guān)于抽樣的方法2概率抽樣非概率抽樣概率94簡單隨機(jī)抽樣(SimpleRandomSampling)也稱純隨機(jī)抽樣。直接從總體單位中抽選樣本單位,每個(gè)個(gè)體被選入樣本的概率都相等??煞譃橛蟹呕睾蜔o放回兩種方式。是最基本的抽樣方法,許多抽樣方法都是在它的基礎(chǔ)上發(fā)展起來的。其數(shù)學(xué)性質(zhì)簡單,理論也最為成熟。第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2簡單隨機(jī)抽樣(SimpleRandomSampli95整群抽樣(ClusterSampling)先將總體分為R個(gè)群(即次級單位或子總體),每個(gè)群包含若干總體單位。按某種方式從中隨機(jī)抽取r個(gè)群,然后對抽中的群的所有單位都進(jìn)行調(diào)查的抽樣方式??傮w分成4個(gè)群隨機(jī)選擇2個(gè)群構(gòu)成樣本第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2整群抽樣(ClusterSampling)先將總體分為96多階段抽樣先從總體中隨機(jī)地抽取若干初級單位,再從初級單位中抽取若干二級單位,……如此下去直至抽取所要調(diào)查的基本單位的抽樣方法。例:[統(tǒng)計(jì)年鑒2004指出]2003年人口變動(dòng)情況抽樣調(diào)查是以全國為總體,各省、自治區(qū)、直轄市為次總體,采用分層、等距、整群抽樣方法,在全國31個(gè)省、自治區(qū)、直轄市抽取了990個(gè)縣(市、區(qū))、3734個(gè)鄉(xiāng)(鎮(zhèn)、街道)、6544個(gè)調(diào)查小區(qū)的126萬人。第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2多階段抽樣先從總體中隨機(jī)地抽取若干初級單位,再從初級單位中抽97分層抽樣(StratifiedSampling)也稱分類抽樣或類型抽樣。即先將總體所有單位按某種標(biāo)志劃分為若干層,然后從各層中隨機(jī)抽取一定數(shù)目的單位構(gòu)成樣本,根據(jù)各層樣本匯總對總體指標(biāo)作出估計(jì)的一種抽樣方式。男生女生樣本第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2分層抽樣(StratifiedSampling)也稱分類98例:一個(gè)單位的職工有500人,其中不到35歲的有125人,35~49歲的有280人,50歲以上的有95人。為了了解該單位職工年齡與身體狀況的有關(guān)指標(biāo),從中抽取100名職工作為樣本,應(yīng)該怎樣抽???第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2分析:這總體具有某些特征,它可以分成幾個(gè)不同的部分:不到35歲;35~49歲;50歲以上,把每一部分稱為一個(gè)層,因此該總體可以分為3個(gè)層。由于抽取的樣本為100,所以必須確定每一層的比例,在每一個(gè)層中實(shí)行簡單隨機(jī)抽樣。例:一個(gè)單位的職工有500人,其中不到35歲的有125人,399解:抽取人數(shù)與職工總數(shù)的比是100:500=1:5,則各年齡段(層)的職工人數(shù)依次是125:280:95=25:56:19,然后分別在各年齡段(層)運(yùn)用簡單隨機(jī)抽樣方法抽取。答:在分層抽樣時(shí),不到35歲、35~49歲、50歲以上的三個(gè)年齡段分別抽取25人、56人和19人。第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2解:抽取人數(shù)與職工總數(shù)的比是100:500=1:5,則各年齡100101系統(tǒng)抽樣也稱等距抽樣(SystematicSampling)將總體N個(gè)單位按某種順序排列,按規(guī)則確定一個(gè)隨機(jī)起點(diǎn),再每隔一定間隔逐個(gè)抽取樣本單位的抽樣方法。直線等距抽樣:將總體分成n個(gè)組,每組有k=N/n個(gè)單位。在第一組隨機(jī)選擇一個(gè)單位,之后每隔k個(gè)選擇一個(gè)。N=64n=8k=8第一組第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法219系統(tǒng)抽樣也稱等距抽樣(SystematicSampl例:一個(gè)禮堂有30排座位,每排有40個(gè)座位。一次報(bào)告會(huì)禮堂坐滿了聽眾。會(huì)后為聽取意見留下了座位號為20的30名聽眾進(jìn)行座談。這里選用了哪種抽取樣本的方法?寫出抽取過程。第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2由于每排的座位有40個(gè),各排每個(gè)號碼被抽取的概率都是,第1排被抽取前,其他各排中各號碼被抽取哪率也是,也就是說被抽取的概率是,每排的抽樣也是簡單隨機(jī)抽樣,因此這種抽樣的方法是系統(tǒng)抽樣。例:一個(gè)禮堂有30排座位,每排有40個(gè)座位。一次報(bào)告會(huì)禮堂坐102方便抽樣(Conveniencesampling)純粹以方便基本著眼的抽樣方法,事先不預(yù)定樣本,碰到即問或被調(diào)查者主動(dòng)回答問題。又稱便利抽樣、偶遇抽樣。例:在街頭的攔截式訪問。登在報(bào)刊、網(wǎng)上的問卷。第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2方便抽樣(Conveniencesampling)純粹以方103判斷抽樣(JudgmentSampling)調(diào)查者根據(jù)主觀經(jīng)驗(yàn)和判斷從總體中選取有代表性的單位構(gòu)成樣本。精度取決于抽樣者的經(jīng)驗(yàn)。不能獲得估計(jì)值的精度。適用于總體單位極不相同而樣本容量又很小的情況第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2判斷抽樣(JudgmentSampling)調(diào)查者根據(jù)主104配額抽樣(Quotasampling)是非隨機(jī)抽樣方法中最常用的一種抽樣方法。分為兩個(gè)步驟:根據(jù)研究人員認(rèn)為較重要的一些變量把總體單位分類,指定每一類中的定額;然后在每一類中使用方便抽樣或判斷抽樣的方法抽選指定數(shù)量的樣本單位。問題:與分層抽樣的區(qū)別?第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2配額抽樣(Quotasampling)是非隨機(jī)抽樣方法中105雪球抽樣也譯為滾雪球抽樣(SnowballSampling)其原理是先找到最初的樣本單位,然后根據(jù)他們提供的信息去獲得新的樣本單位;這種過程不斷繼續(xù),直到完成規(guī)定的樣本容量為止。主要用于對稀少群體的調(diào)查。例:某研究部門在調(diào)查保姆問題時(shí),先訪問了7名保姆,然后再請她們提供其他保姆名單,逐步擴(kuò)大到近百人。第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2雪球抽樣也譯為滾雪球抽樣(SnowballSampli106在下列問題中,各采用什么抽樣方法抽取樣本較合適?從20臺(tái)電腦中抽取4臺(tái)進(jìn)行質(zhì)量檢測;從2004名同學(xué)中,抽取一個(gè)容量為20的樣本某中學(xué)有180名教工,其中業(yè)務(wù)人員136名,管理人員20名,后勤人員24名,從中抽取一個(gè)容量為15的樣本。簡單抽樣系統(tǒng)抽樣分層抽樣第6章第1節(jié)
抽樣方法關(guān)于抽樣的方法2在下列問題中,各采用什么抽樣方法抽取樣本較合適?從20臺(tái)電腦107抽樣調(diào)查中的誤差抽樣誤差非抽樣誤差計(jì)量誤差抽樣框誤差無回答誤差第6章第1節(jié)
抽樣方法抽樣調(diào)查中的誤差3抽樣調(diào)查中的誤差抽樣誤差非抽樣誤差計(jì)量誤差抽樣框誤差無回答誤108誤差是指估計(jì)值與真實(shí)值之間的差異。抽樣誤差(Samplingerror):由于抽選樣本的隨機(jī)性造成的誤差,也稱為代表性誤差。樣本只是總體的一部分,它對總體的代表性存在局限性,從而會(huì)造成誤差。在抽樣調(diào)查中,抽樣誤差就不可避免。在概率抽樣中抽樣誤差是能夠計(jì)量且可以得到控制的。影響抽樣誤差的主要因素包括:總體內(nèi)部的差異程度;樣本容量的大??;抽樣的方式方法等。第6章第1節(jié)
抽樣方法抽樣調(diào)查中的誤差3誤差是指估計(jì)值與真實(shí)值之間的差異。第6章第1節(jié)抽樣方法抽樣109非抽樣誤差(Nonsamplingerror)除抽樣誤差以外的所有誤差。通常認(rèn)為是由于調(diào)查程序執(zhí)行中的錯(cuò)誤與不足引起的。主要包括抽樣框誤差、無回答誤差和計(jì)量誤差。國內(nèi)也稱為“工作誤差”或“調(diào)查誤差”。
第6章第1節(jié)
抽樣方法抽樣調(diào)查中的誤差3非抽樣誤差(Nonsamplingerror)除抽樣誤差以110在抽樣調(diào)查中可以把總體分成若干個(gè)互不重疊又窮盡的有限個(gè)部分,每個(gè)部分稱為一個(gè)抽樣單位(Samplingunit)。抽樣單位可以是一個(gè)總體單位,也可以包含多個(gè)個(gè)體。抽樣單位的名單稱為抽樣框(SamplingFrame)。抽樣框應(yīng)盡可能與目標(biāo)總體相一致。例如名單抽樣框、區(qū)域抽樣框、時(shí)間表抽樣框。
第6章第1節(jié)
抽樣方法抽樣調(diào)查中的誤差3在抽樣調(diào)查中可以把總體分成若干個(gè)互不重疊又窮盡的有限個(gè)部分,111大學(xué)學(xué)生花名冊、城市黃頁里的電話列表、工商企業(yè)名錄、街道派出所里居民戶籍冊、意向購房人信息冊……。例:要從10000名職工中抽出200名組成一個(gè)樣本,抽樣框是什么?10000名職工的名冊第6章第1節(jié)
抽樣方法抽樣調(diào)查中的誤差3大學(xué)學(xué)生花名冊、城市黃頁里的電話列表、工商企業(yè)名錄、街道派出112抽樣框誤差(samplingframeerror,CoverageError)當(dāng)目標(biāo)總體與抽樣框所涵蓋的元素不一致時(shí),就會(huì)產(chǎn)生抽樣誤差。抽樣框誤差包括:丟失目標(biāo)總體單位、包含非目標(biāo)總體單位,復(fù)合連接等。第6章第1節(jié)
抽樣方法抽樣調(diào)查中的誤差3抽樣框誤差(samplingframeerror,C113案例:《文學(xué)摘要》民意測驗(yàn)1936年美國總統(tǒng)選舉F.D.Roosevelt(羅斯福)任美國總統(tǒng)的第一任期屆滿(民主黨)A.Landon(蘭登)Kansas州州長(共和黨)經(jīng)濟(jì)背景:國家正努力從大蕭條中恢復(fù),失業(yè)人數(shù)高達(dá)九百萬人。TheliteraryDigest《文學(xué)摘要》進(jìn)行民意測驗(yàn),將問卷郵寄給一千萬人,他們的名字和地址摘自電話簿或俱樂部會(huì)員名冊。其中240萬人寄回答案(回收率24%)。預(yù)測結(jié)果:Roosevelt43%,Landon57%競選結(jié)果:
Roosevelt62%,Landon38%主要原因:選擇偏倚——將一類人排除在外(當(dāng)時(shí)四個(gè)家庭中,只有一家安裝電話)不回答偏倚——低收入和高收入的人傾向不回答抽樣總體目標(biāo)總體第6章第1節(jié)
抽樣方法抽樣調(diào)查中的誤差3案例:《文學(xué)摘要》民意測驗(yàn)1936年美國總統(tǒng)選舉抽樣總體1141936年美國總統(tǒng)競選(Gallup的預(yù)測)樣本容量3000人,在《摘要》公布其預(yù)測結(jié)果之前,僅以一個(gè)百分位數(shù)的誤差預(yù)言了《摘要》的預(yù)測結(jié)果。方法:從《摘要》要用的名單中隨機(jī)選取3000人,并給他們每人寄去一張明信片,詢問他們打算怎樣投票。大樣本并不能防止偏倚:當(dāng)抽樣框不正確時(shí),抽取一個(gè)大的樣本并無幫助,它只不過是在較大的規(guī)模下,去重復(fù)基本錯(cuò)誤。利用一個(gè)約5萬人的樣本,正確地預(yù)測了Roosevelt的勝利。
Roosevelt的百分?jǐn)?shù)蓋洛普預(yù)言《摘要》的預(yù)測結(jié)果44《摘要》預(yù)測的選舉結(jié)果43
Roosevelt的百分?jǐn)?shù)蓋洛普預(yù)測的選舉結(jié)果56選舉結(jié)果62第6章第1節(jié)
抽樣方法抽樣調(diào)查中的誤差31936年美國總統(tǒng)競選(Gallup的預(yù)測)樣本容量3000115無回答誤差(NonresponseError)因缺失部分指定樣本單位的數(shù)據(jù)或調(diào)查問卷中的部分?jǐn)?shù)據(jù)項(xiàng)而引起的誤差都稱為無回答誤差。樣本個(gè)體拒絕訪問樣本個(gè)體無法接受訪問樣本個(gè)體拒絕回答部分問題第6章第1節(jié)
抽樣方法抽樣調(diào)查中的誤差3無回答誤差(NonresponseError)因缺失部分116計(jì)量誤差(MeasurementError)是指調(diào)查中獲得的數(shù)據(jù)與調(diào)查項(xiàng)目真實(shí)值之間不一致而產(chǎn)生的誤差,也稱為登記性誤差。測量工具不準(zhǔn)確調(diào)查員的工作失誤(如計(jì)量錯(cuò)誤、計(jì)算錯(cuò)誤、記錄錯(cuò)誤等)被調(diào)查者沒有提供真實(shí)情況第6章第1節(jié)
抽樣方法抽樣調(diào)查中的誤差3計(jì)量誤差(MeasurementError)是指調(diào)查中117第2節(jié)樣本均值的分布與中心極限定理第2節(jié)樣本均值的分布與中心極限定理118總體分布(populationdistribution)總體中各元素的觀察值所形成的分布。分布通常是未知的可以假定它服從某種分布總體第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1總體分布(populationdistribution)總119樣本分布(sampledistribution)一個(gè)樣本中各觀察值的分布,也稱經(jīng)驗(yàn)分布,是指當(dāng)樣本容量n逐漸增大時(shí),樣本分布逐漸接近總體的分布。樣本第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1樣本分布(sampledistribution)一個(gè)樣本中120抽樣分布(SamplingDistribtuion)按照簡單隨機(jī)抽樣方法,從個(gè)數(shù)為N的總體中抽取容量為n的樣本,兩種抽法:放回抽樣:樣本個(gè)數(shù)為不放回抽樣:樣本個(gè)數(shù)為每一個(gè)可能的樣本都有一個(gè)對應(yīng)的均值和標(biāo)準(zhǔn)差,那么所有樣本均值的分布就是樣本均值的抽樣分布,所有樣本的標(biāo)準(zhǔn)差的分布就是樣本標(biāo)準(zhǔn)差的抽樣分布。第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1抽樣分布(SamplingDistribtuion)按照簡121總體計(jì)算樣本統(tǒng)計(jì)量如:樣本均值、比例、方差樣本抽樣分布的形成過程第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1總體計(jì)算樣本統(tǒng)計(jì)量樣本抽樣分布的形成過程第6章第2節(jié)樣本均122樣本均值的抽樣分布在重復(fù)選取容量為n的樣本時(shí),由樣本均值所有可能取值形成的相對頻數(shù)分布一種理論概率分布推斷總體均值的理論基礎(chǔ) 第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1樣本均值的抽樣分布在重復(fù)選取容量為n的樣本時(shí),由樣本均值所有123例:設(shè)一個(gè)總體,含有4個(gè)元素(個(gè)體),即總體單位數(shù)N=4。4個(gè)個(gè)體分別為X1=1、X2=2、X3=3、X4=4??傮w的均值、方差及分布如下均值和方差總體分布14230.1.2.3第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1例:設(shè)一個(gè)總體,含有4個(gè)元素(個(gè)體),即總體單位數(shù)N=4。4124例:現(xiàn)從總體中抽取n=2的簡單隨機(jī)樣本,在重復(fù)抽樣條件下,共有42=16個(gè)樣本。所有樣本的結(jié)果如下表3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二個(gè)觀察值第一個(gè)觀察值所有可能的n=2的樣本(共16個(gè))第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1例:現(xiàn)從總體中抽取n=2的簡單隨機(jī)樣本,在重復(fù)抽樣條件下,共125計(jì)算出各樣本的均值,如下表。并給出樣本均值的抽樣分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二個(gè)觀察值第一個(gè)觀察值16個(gè)樣本的均值(x)樣本均值的抽樣分布1.00.1.2.3P(x)1.53.04.03.52.02.5x第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1計(jì)算出各樣本的均值,如下表。并給出樣本均值的抽樣分布3.53126式中:M為樣本數(shù)目,比較及結(jié)論:
樣本均值的均值(數(shù)學(xué)期望)等于總體均值樣本均值的方差等于總體方差的1/n第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1式中:M為樣本數(shù)目,比較及結(jié)論:第6章第2節(jié)樣本均值的分127抽樣分布=2.5σ2=1.25總體分布14230.1.2.3P(x)1.00.1.2.31.53.04.03.52.02.5x樣本均值的分布與總體分布的比較第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1抽樣分布=2.5σ2=1.25總體分布142128例:設(shè)一個(gè)總體(比如擲骰子),含有6個(gè)元素(個(gè)體),即總體單位數(shù)N=6。6個(gè)個(gè)體分別為x1=1,x2=2,x3=3,x4=4,x5=5,x6=6?,F(xiàn)從總體中抽取n=2的簡單隨機(jī)樣本,試比較總體分布和樣本均值分布。第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1例:設(shè)一個(gè)總體(比如擲骰子),含有6個(gè)元素(個(gè)體),即總體129解:總體的均值、方差及分布如下:第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1均值和方差解:總體的均值、方差及分布如下:第6章第2節(jié)樣本均值的分布130現(xiàn)從總體中抽取n=2的簡單隨機(jī)樣本,在重復(fù)抽樣條件下,有62=36個(gè)樣本。所有樣本的結(jié)果為:
第二觀察值第一觀察值1234561(1,1)(1,2)(1,3)(1,4)(1,5)(1,6)2(2,1)(2,2)(2,3)(2,4)(2,5)(2,6)3(3,1)(3,2)(3,3)(3,4)(3,5)(3,6)4(4,1)(4,2)(4,3)(4,4)(4,5)(4,6)5(5,1)(5,2)(5,3)(5,4)(5,5)(5,6)6(6,1)(6,2)(6,3)(6,4)(6,5)(6,6)第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1現(xiàn)從總體中抽取n=2的簡單隨機(jī)樣本,在重復(fù)抽樣條件下,有62131計(jì)算出各樣本的均值,如下表。并給出樣本均值的抽樣分布
第二觀察值第一觀察值123456111.522.533.521.522.533.54322.533.544.542.533.544.55533.544.555.563.544.555.5636個(gè)樣本的均值第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1計(jì)算出各樣本的均值,如下表。并給出樣本均值的抽樣分布第二觀132=3.5σ2=2.9=3.5σ2=1.45樣本均值的抽樣分布與總體分布的比較第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1=3.5=3.5樣本均值的抽樣分布與總體分布133=50σ2
=10X總體分布n=2抽樣分布Xn=4當(dāng)總體服從正態(tài)分布N~(μ,σ2)時(shí),來自該總體的所有容量為n的樣本的均值X也服從正態(tài)分布,X的數(shù)學(xué)期望為μ,方差為σ2/n。即X~N(μ,σ2/n)σ2
=5σ2
=2.5第6章第2節(jié)
樣本均值的分布與中心極限定理樣本均值的分布1=50σ2=10X總體分布n=2抽樣分布Xn=134當(dāng)樣本容量足夠大時(shí)(n>30),樣本均
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度民間借貸擔(dān)保方式改革與合同條款設(shè)計(jì)4篇
- 2025年航空航天零部件制造與供應(yīng)合同2篇
- 2025年度廚師餐飲安全培訓(xùn)聘用合同3篇
- 2025年度苗圃苗木電商平臺(tái)合作與推廣合同4篇
- 2025年版派駐企業(yè)培訓(xùn)師服務(wù)合同4篇
- 二零二五年度智慧城市建設(shè)出資合同樣本3篇
- 二零二五年度古建筑墻面修繕工程合同標(biāo)的協(xié)議3篇
- 2025年度豬場生豬養(yǎng)殖廢棄物處理設(shè)施運(yùn)營管理合同4篇
- 二零二五版高端別墅門窗定制安裝合同3篇
- 2025年個(gè)人土地租賃合同(含開發(fā)權(quán))規(guī)范文本3篇
- 數(shù)學(xué)-山東省2025年1月濟(jì)南市高三期末學(xué)習(xí)質(zhì)量檢測濟(jì)南期末試題和答案
- 中儲(chǔ)糧黑龍江分公司社招2025年學(xué)習(xí)資料
- 湖南省長沙市2024-2025學(xué)年高一數(shù)學(xué)上學(xué)期期末考試試卷
- 船舶行業(yè)維修保養(yǎng)合同
- 2024年林地使用權(quán)轉(zhuǎn)讓協(xié)議書
- 物流有限公司安全生產(chǎn)專項(xiàng)整治三年行動(dòng)實(shí)施方案全國安全生產(chǎn)專項(xiàng)整治三年行動(dòng)計(jì)劃
- 2025屆江蘇省13市高三最后一卷生物試卷含解析
- 產(chǎn)鉗助產(chǎn)護(hù)理查房
- 招聘專員轉(zhuǎn)正述職報(bào)告
- (完整版)小學(xué)生24點(diǎn)習(xí)題大全(含答案)
- 四川省2023年普通高等學(xué)校高職教育單獨(dú)招生文化考試(中職類)數(shù)學(xué)試題(原卷版)
評論
0/150
提交評論