總體與樣本直方圖條形圖及經(jīng)驗分布函數(shù)_第1頁
總體與樣本直方圖條形圖及經(jīng)驗分布函數(shù)_第2頁
總體與樣本直方圖條形圖及經(jīng)驗分布函數(shù)_第3頁
總體與樣本直方圖條形圖及經(jīng)驗分布函數(shù)_第4頁
總體與樣本直方圖條形圖及經(jīng)驗分布函數(shù)_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

總體與樣本直方圖條形圖及經(jīng)驗分布函數(shù)第一頁,共四十五頁,編輯于2023年,星期六

前幾章我們學習了概率論的基本知識,從本章開始將學習數(shù)理統(tǒng)計的基本知識、理論和方法.數(shù)理統(tǒng)計是以對隨機現(xiàn)象觀測所取得的資料(數(shù)據(jù))為出發(fā)點,以概率論為基礎來研究隨機現(xiàn)象的一門學科.概率論中,往往是在已知隨機變量分布的條件下,去研究它的性質(zhì)、特點和規(guī)律性,比如求隨機變量取某些特定值的概率、求隨機變量的數(shù)字特征、研究多個隨機變量之間的關系等.第二頁,共四十五頁,編輯于2023年,星期六第6章數(shù)理統(tǒng)計基礎

在數(shù)理統(tǒng)計中,我們所研究的隨機變量的分布往往是未知的,通過對隨機變量進行多次獨立重復的試驗和觀測,獲取數(shù)據(jù),利用實際觀測數(shù)據(jù)研究隨機變量的分布,對其分布函數(shù)、數(shù)字特征等進行估計和推斷.本章作為數(shù)理統(tǒng)計基礎,學習總體、樣本、統(tǒng)計量與抽樣分布等有關概念,以及有關正態(tài)總體的重要的抽樣分布定理.第三頁,共四十五頁,編輯于2023年,星期六

數(shù)理統(tǒng)計學是一門應用性很強的學科。它研究怎樣以有效的方式收集、整理和分析帶有隨機性的數(shù)據(jù),以便對所考察的問題作出正確的推斷和預測,為采取正確的決策和行動提供依據(jù)和建議。

數(shù)理統(tǒng)計不同于一般的資料統(tǒng)計,它更側重于應用隨機現(xiàn)象本身的規(guī)律性進行資料的收集、整理和分析。4第四頁,共四十五頁,編輯于2023年,星期六第6章數(shù)理統(tǒng)計基礎

【數(shù)理統(tǒng)計簡史】

相對于其它許多數(shù)學分支而言,數(shù)理統(tǒng)計是一個比較年輕的數(shù)學分支.多數(shù)人認為20世紀40年代克拉美(H.Carmer)的著作《統(tǒng)計學的數(shù)學方法》,使得1945年以前25年間英、美統(tǒng)計學家在統(tǒng)計學方面的工作與法、俄數(shù)學家在概率論方面的工作結合起來,從而形成數(shù)理統(tǒng)計這門學科.數(shù)理統(tǒng)計有很多分支,但其基本內(nèi)容為采集樣本和統(tǒng)計推斷兩大部分.發(fā)展到今天的現(xiàn)代數(shù)理統(tǒng)計學,已經(jīng)歷了各種歷史變遷.第五頁,共四十五頁,編輯于2023年,星期六1.近代統(tǒng)計學時期

18世紀末到19世紀,是近代統(tǒng)計學時期.這一時期的重大成就是大數(shù)定律和概率論被引入統(tǒng)計學.之后最小二乘法、誤差理論和正態(tài)分布理論等相繼成為統(tǒng)計學的重要內(nèi)容.這一時期有兩大學派:數(shù)理統(tǒng)計學派和社會統(tǒng)計學派.【數(shù)理統(tǒng)計簡史】第六頁,共四十五頁,編輯于2023年,星期六【數(shù)理統(tǒng)計簡史】

數(shù)理統(tǒng)計學派始于19世紀中葉,代表人物是比利時的凱特萊(A.Quetelet,1796-1874),著有《概率論書簡》《社會物理學》等,他主張用研究自然科學的方法研究社會現(xiàn)象,正式把概率論引入統(tǒng)計學,并最先用大數(shù)定律證明了社會生活中隨機現(xiàn)象的規(guī)律性,提出了誤差理論.凱特萊的貢獻,使統(tǒng)計學的發(fā)展進入個了一個新的階段.第七頁,共四十五頁,編輯于2023年,星期六

社會統(tǒng)計學派始于19世紀末,首創(chuàng)人物是德國的克尼斯(K.G.A.Knies),他認為統(tǒng)計學是一個社會科學,是研究社會現(xiàn)象變動原因和規(guī)律性的實質(zhì)性科學.各國專家學者在社會經(jīng)濟統(tǒng)計指標的設定與計算、指數(shù)的編制、統(tǒng)計調(diào)查的組織和實施、經(jīng)濟社會發(fā)展評價和預測等方面取得了一系列的重要成果.德國統(tǒng)計學家恩格爾(C.L.E.Engel,1821-1896)提出的“恩格爾”系數(shù),美國經(jīng)濟學家?guī)炱澞暮陀?jīng)濟學家斯通等人研究的國民收入和國內(nèi)生產(chǎn)總值的核算方法等,都是偉大的貢獻.【數(shù)理統(tǒng)計簡史】第八頁,共四十五頁,編輯于2023年,星期六18世紀到19世紀初期,高斯從描述天文觀測的誤差而引進正態(tài)分布,并使用最小二乘法作為估計方法,是近代數(shù)理統(tǒng)計學發(fā)展初期的重大事件,對社會發(fā)展有很大的影響.【數(shù)理統(tǒng)計簡史】第九頁,共四十五頁,編輯于2023年,星期六用正態(tài)分布描述觀測數(shù)據(jù)的應用是如此普遍,以至在19世紀相當長的時期內(nèi),包括高爾頓(Galton)在內(nèi)的一些學者,認為這個分布可用于描述幾乎是一切常見的數(shù)據(jù).直到現(xiàn)在,有關正態(tài)分布的統(tǒng)計方法,仍占據(jù)著常用統(tǒng)計方法中很重要的一部分.最小二乘法方面的工作,在20世紀初以來,經(jīng)過一些學者的發(fā)展,如今成了數(shù)理統(tǒng)計學中的主要方法.【數(shù)理統(tǒng)計簡史】第十頁,共四十五頁,編輯于2023年,星期六2.現(xiàn)代統(tǒng)計學時期從19世紀末到現(xiàn)在,是現(xiàn)代統(tǒng)計學時期.這一時期的顯著特點是數(shù)理統(tǒng)計學由于同自然科學、工程技術科學緊密結合并被廣泛應用于各個領域而獲得迅速發(fā)展.各種新的統(tǒng)計理論和方法、尤其是推斷統(tǒng)計理論與方法得以大量涌現(xiàn).【數(shù)理統(tǒng)計簡史】第十一頁,共四十五頁,編輯于2023年,星期六

例如英國統(tǒng)計學家卡爾.皮爾遜(K.Pearson,1857-1936)的2分布理論,統(tǒng)計學家戈賽特(W.S.Gosset,1876-1937)的小樣本t分布理論,統(tǒng)計學家費歇爾(R.A.Fisher,1890-1962)的F分布理論和試驗設計方法,波蘭統(tǒng)計學家尼曼(J.Neyman)和英國統(tǒng)計學家皮爾遜(E.S.Pearson,1895-1980)的置信區(qū)間理論和假設檢驗理論,以及非參數(shù)統(tǒng)計法、序貫抽樣法、多元統(tǒng)計分析法、時間序列跟蹤預測法都應運而生,并逐步成為現(xiàn)代統(tǒng)計學的主要內(nèi)容.【數(shù)理統(tǒng)計簡史】第十二頁,共四十五頁,編輯于2023年,星期六

現(xiàn)代統(tǒng)計學時期是數(shù)理統(tǒng)計發(fā)展的輝煌時期,數(shù)理統(tǒng)計不僅在理論上取得重大進展,其方法在生物、農(nóng)業(yè)、醫(yī)學、社會、經(jīng)濟、工業(yè)和科技等方面得到愈來愈廣泛的應用.另外,計算機的應用對統(tǒng)計學的產(chǎn)生了巨大的影響,需要大量計算的統(tǒng)計方法,有了計算機,這一切都不成問題.【數(shù)理統(tǒng)計簡史】第十三頁,共四十五頁,編輯于2023年,星期六第6章數(shù)理統(tǒng)計基礎【質(zhì)量控制問題】

某食鹽廠用包裝機包裝的食鹽,每袋重量500g,通常在包裝機正常的情況下,袋裝食鹽的重量X服從正態(tài)分布,均值為500g,標準差為25g.為進行生產(chǎn)質(zhì)量控制,他們每天從當天的產(chǎn)品中隨機抽出30袋進行嚴格稱重,以檢驗包裝機工作是否正常.某日,該廠隨機抽取30袋鹽的重量分別為:

從這些數(shù)據(jù)看,包裝機的工作正常嗎?475500485454504439492501463461464494512451434511513490521514449467499484508478479499529480第十四頁,共四十五頁,編輯于2023年,星期六6.1總體和樣本6.1.1總體與個體

總體或母體指我們研究對象的全體構成的集合,個體指總體中包含的每個成員.例如,在研究某高校學生生活消費狀況時,該校全體學生就是一個總體,其中每一個學生是一個個體;在人口普查中,總體是某地區(qū)的全體人口,個體就是該地區(qū)的每一個人.第6章數(shù)理統(tǒng)計基礎第十五頁,共四十五頁,編輯于2023年,星期六6.1.1總體與個體

我們研究總體時,所關心的往往是總體某方面的特性,這些特性又常??梢杂靡粋€或多個數(shù)量指標來反映.例如,在研究某高校學生生活消費狀況時,關心的可能是學生們每月的生活消費額,在研究某廠生產(chǎn)的燈泡的質(zhì)量時,關心的可能是這些燈泡的壽命和光亮度等.這時總體指一個或多個數(shù)量指標,這些數(shù)量指標對我們來說是不了解或者說是未知的,我們可以用一個或多個隨機變量來表示它們.第十六頁,共四十五頁,編輯于2023年,星期六

因此,總體可以是一維隨機變量,也可以是多維隨機變量.例如,在研究某高校學生生活消費狀況時,可以用X表示月生活消費額,在研究某廠生產(chǎn)的燈泡的質(zhì)量時,可以分別用X,Y表示燈泡的壽命和光亮度,那么,對上面兩個問題的研究就轉化為對總體X和總體(X,Y)的研究了.

6.1.1總體與個體第十七頁,共四十五頁,編輯于2023年,星期六

根據(jù)總體中包含個體的數(shù)量,可以將總體分為有限總體和無限總體,當總體中包含個體的數(shù)量很大時,我們可以把有限總體看成是無限總體.例如,某廠某天生產(chǎn)的燈泡可以看作是有限總體,而該廠生產(chǎn)的全部燈泡就可以看作為無限總體,因為它包含過去和將來生產(chǎn)的燈泡的全部.6.1.1總體與個體第十八頁,共四十五頁,編輯于2023年,星期六6.1.2樣本與抽樣實際應用中,為了研究總體的特性,總是從總體中抽出部分個體進行觀察和試驗,根據(jù)觀察或試驗得到的數(shù)據(jù)推斷總體的性質(zhì).我們把從總體中抽出的部分個體稱為樣本,把樣本中包含個體的數(shù)量稱為樣本容量,把對樣本的觀察或試驗的過程稱為抽樣,把觀察或試驗得到的數(shù)據(jù)稱為樣本觀測值(觀測數(shù)據(jù)),簡稱樣本值.第十九頁,共四十五頁,編輯于2023年,星期六

例如,在質(zhì)量檢驗中,隨機抽出n件產(chǎn)品,測得的數(shù)據(jù)x1,x2,...,xn,就稱它們是樣本觀測值.在抽樣前,不知道樣本觀測值究竟取何值,應該把它們看作為隨機變量,記作X1,X2,...,Xn,稱其為容量為n的樣本.

(在不會混淆的情況下,有時我們也將觀測數(shù)據(jù)x1,x2,...,xn稱為樣本,如“質(zhì)量控制問題”中的30個數(shù)據(jù),也可以說成是一個容量為30的樣本).6.1.2

樣本與抽樣第二十頁,共四十五頁,編輯于2023年,星期六

在應用中,我們從總體中抽出的個體必須具有代表性,樣本中個體之間要具有相互獨立性,為保證這兩點,一般采用簡單隨機抽樣.

定義6.1

一種抽樣方法若滿足下面兩點,稱其為簡單隨機抽樣:

(1)總體中每個個體被抽到的機會是均等的;

(2)樣本中的個體相互獨立.由簡單隨機抽樣得到的樣本稱為簡單隨機樣本.如果沒有特殊說明,以后所說樣本均指簡單隨機樣本.6.1.2

樣本與抽樣第二十一頁,共四十五頁,編輯于2023年,星期六

設X1,X2,...,Xn是從總體X中抽出的簡單隨機樣本,由定義可知,X1,X2,...,Xn有下面兩個特性:

(1)代表性:X1,X2,...,Xn均與X同分布,即若X

F(x),則對每一個Xi都有Xi

F(xi),i=1,2,…,n(2)獨立性:X1,X2,...,Xn相互獨立.由這兩個特性可知,若X的分布函數(shù)為F(x),則X1,X2,...,Xn的聯(lián)合分布函數(shù)為

F(x1,x2,…,xn)=F(x1)F(x2)…F(xn)若X具有概率密度為f(x),則X1,X2,...,Xn的聯(lián)合概率密度為f(x1,x2,…,xn)=f(x1)f(x2)…f(xn)6.1.2

樣本與抽樣往往是未知或不完全知道的,是需要通過樣本來進行研究和推斷的.第二十二頁,共四十五頁,編輯于2023年,星期六【例6.1】設總體X服從均值為1/2的指數(shù)分布,X1,X2,X3,X4為來自X的樣本,求X1,X2,X3,X4的聯(lián)合概率密度和聯(lián)合分布函數(shù).

解:X的概率密度為其分布函數(shù)為則X1,X2,X3,X4的聯(lián)合概率密度為:6.1.2

樣本與抽樣第二十三頁,共四十五頁,編輯于2023年,星期六6.1.2

樣本與抽樣由于X的分布函數(shù)為X1,X2,X3,X4的聯(lián)合分布函數(shù)為

第二十四頁,共四十五頁,編輯于2023年,星期六【例6.2】已知總體X的分布為P{X=i}=1/4,i=0,1,2,3,抽取n=36的簡單隨機樣本X1,X2,...,X36,求大于50.4小于64.8的概率.

解:總體X的均值和方差分別為

6.1.2

樣本與抽樣第二十五頁,共四十五頁,編輯于2023年,星期六由于X1,X2,...,X36均與總體X同分布,且相互獨立,所以,Y的均值和方差分別為

又因為n=36較大,依中心極限定理,近似服從正態(tài)分布,所以

6.1.2

樣本與抽樣第二十六頁,共四十五頁,編輯于2023年,星期六6.1

總體和樣本

6.1.3直方圖與經(jīng)驗分布函數(shù)如前所述,數(shù)理統(tǒng)計所研究的實際問題(總體)的分布一般來說是未知的,需要通過樣本來推斷.但如果對總體一無所知,那么,做出推斷的可信度一般也極為有限.在很多情況下,我們往往可以通過具體的應用背景或以往的經(jīng)驗,再通過觀察樣本觀測值的分布情況,對總體的分布形式有個大致了解.觀察樣本觀測值的分布規(guī)律,了解總體X的概率密度和分布函數(shù),常用直方圖和經(jīng)驗分布函數(shù).第二十七頁,共四十五頁,編輯于2023年,星期六1.直方圖直方圖是對一組數(shù)據(jù)x1,x2,...,xn的分布情況的圖形描述.將數(shù)據(jù)的取值范圍分成若干區(qū)間(一般是等間隔的),在等間隔的情況,每個區(qū)間的長度稱為組距.考察這些數(shù)據(jù)落入每一個小區(qū)間的頻數(shù)和頻率,在每一個區(qū)間上畫一個矩形,它的寬度是組距,高度可以是頻數(shù)、頻率或頻率/組距,所得直方圖分別稱為頻數(shù)直方圖、頻率直方圖和密度直方圖.6.1.3直方圖與經(jīng)驗分布函數(shù)圖6-1密度直方圖第二十八頁,共四十五頁,編輯于2023年,星期六如果數(shù)據(jù)x1,x2,...,xn是來自連續(xù)總體X的樣本觀測值,其密度直方圖中,每一個矩形的面積恰好是觀測數(shù)據(jù)落入對應區(qū)間的頻率,這種密度直方圖可以用來估計總體的概率密度(用密度直方圖的頂部折線估計X的概率密度曲線).組距對直方圖的形態(tài)有很大的影響,組距太小或太大,直方圖反映概率密度的形態(tài)就不夠準確.6.1.3

直方圖與經(jīng)驗分布函數(shù)第二十九頁,共四十五頁,編輯于2023年,星期六6.1.3

直方圖與經(jīng)驗分布函數(shù)

一個合適的分組是希望密度直方圖的形態(tài)接近總體的概率密度函數(shù)的形態(tài).手工計算常取組數(shù)等于左右,一些統(tǒng)計軟件會根據(jù)樣本容量和樣本的取值范圍自動確定一個合適的分組方式,畫出各種漂亮的直方圖.第三十頁,共四十五頁,編輯于2023年,星期六【實驗6-1】從某高校一年學生的“高等數(shù)學”課程考試成績中,隨機抽取60名學生的成績?nèi)缦拢涸嚴肊xcel的“數(shù)據(jù)分析”功能作學生成績的密度直方圖,并通過直方圖了解學生成績的分布情況.7669717769718369858586777495668766516873776266739379638787548057727258767276697181756674606779638878857258906170776880796.1.3直方圖與經(jīng)驗分布函數(shù)第三十一頁,共四十五頁,編輯于2023年,星期六

實驗步驟:(1)確定分組個數(shù):因為,取分組個數(shù)為8.數(shù)據(jù)的最小值為51,最大值為95,為分組方便起見,考慮范圍從50到100,分為8個組,組距取50/8=6.25,分點分別為:50,56.25,62.5,68.75,75,81.25,87.5,93.75,100。整理學生成績數(shù)據(jù),在“組上限”欄中填入各組的上限值,如圖6-2左所示.第三十二頁,共四十五頁,編輯于2023年,星期六

圖6-2數(shù)據(jù)整理與“直方圖”對話框第三十三頁,共四十五頁,編輯于2023年,星期六

(2)在Excel主菜單中選擇“工具”“數(shù)據(jù)分析”,打開“數(shù)據(jù)分析”對話框,在“分析工具”列表中選擇“直方圖”選項,單擊“確定”按鈕.

(3)在打開的“直方圖”對話框中,依次輸入(或用鼠標拖動選擇)“輸入?yún)^(qū)域”、“接收區(qū)域”和“輸出區(qū)域”,如圖6-2右所示,單擊“確定”按鈕.得到頻率分布的結果如圖6-3左所示.第三十四頁,共四十五頁,編輯于2023年,星期六

圖6-3計算各組頻率與密度第三十五頁,共四十五頁,編輯于2023年,星期六

(4)計算密度:在單元格區(qū)域J2:J9中依次輸入組域名:50-56.25、56.25-62.5、62.5-68.75、68.75-75、75-81.25、81.25-87.5、87.5-93.75、93.75-100,然后在“密度”列的單元格K2中輸入公式:=I2/60/6.25,并將公式復制到K3~K9中,如圖6-3右所示.第三十六頁,共四十五頁,編輯于2023年,星期六

(5)畫密度直方圖:選中單元格區(qū)域J1:K9,單擊“圖表向?qū)А卑粹o,打開“圖表向?qū)А睂υ捒颍凇皥D表類型”選擇中,取默認的“柱形圖”向?qū)?,直接單擊“完成”按鈕,即可得到密度柱形圖,如圖6-4所示.圖6-4密度柱形圖第三十七頁,共四十五頁,編輯于2023年,星期六

右鍵單擊圖中條形,在快捷菜單中選擇“數(shù)據(jù)系列格式”,打開“數(shù)據(jù)系列格式”對話框,在其中的“選項”選項卡中,修改“分類間距”為0,如圖6-5(左)所示,單擊“確定”按鈕,即可加寬條形,得到密度直方圖,進一步修改圖形,得到密度直方圖,如圖6-5(右)所示.第三十八頁,共四十五頁,編輯于2023年,星期六

圖6-5密度直方圖從學生成績的密度直方圖可以看到,學生成績在平均分附近比較密集,較低或較高分數(shù)學生比較少,學生成績的分布呈近似“鐘形”對稱,即成績分布近似正態(tài)分布.第三十九頁,共四十五頁,編輯于2023年,星期六類似的方法可以畫出學生成績的頻數(shù)直方圖和頻率直方圖,由于三種直方圖只是高度相差一定的倍數(shù),所以在研究總體分布的形態(tài)時,三種直方圖具有同樣的作用.第四十頁,共四十五頁,編輯于2023年,星期六

分布函數(shù)是隨機變量的一個重要特征,既然總體可以用隨機變量來表示,而樣本又可對總體的信息進行提取。因此,怎樣用樣本(X1,…,Xn)估計總體X的分布函數(shù)F(x)?任意給定自變量x,則

F

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論