統(tǒng)計學(xué)筆記(精修版)_第1頁
統(tǒng)計學(xué)筆記(精修版)_第2頁
統(tǒng)計學(xué)筆記(精修版)_第3頁
統(tǒng)計學(xué)筆記(精修版)_第4頁
統(tǒng)計學(xué)筆記(精修版)_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

緒論

第一節(jié)統(tǒng)計學(xué)的含義和作用

一、什么是統(tǒng)計學(xué)

1.統(tǒng)計學(xué)的含義

統(tǒng)計學(xué)是有效收集、處理、分析和解釋數(shù)據(jù),發(fā)現(xiàn)規(guī)律,以便更好決策的一門方法論學(xué)科。

?2.分析數(shù)據(jù)的方法有描述統(tǒng)計、推斷統(tǒng)計。

⑴描述統(tǒng)計

①描述統(tǒng)計是將所收集的數(shù)據(jù)處理后,用數(shù)值、表格或圖形形式表現(xiàn)的有用信息。

②描述統(tǒng)計是基礎(chǔ),它為推斷統(tǒng)計、統(tǒng)計咨詢、統(tǒng)計決策提供必要

⑵推斷統(tǒng)計就是根據(jù)樣本數(shù)據(jù)特征去估計或檢驗總體的數(shù)據(jù)特征。

二、統(tǒng)計學(xué)的作用和重要性

1.統(tǒng)計學(xué)的作用

人們用數(shù)據(jù)發(fā)現(xiàn)的規(guī)律做出更好的決策。

2.要發(fā)現(xiàn)規(guī)律,對統(tǒng)計數(shù)據(jù)通常有要求:客觀性、適用性、準(zhǔn)確性和及時性。

三、統(tǒng)計學(xué)是如何解決實際問題的?

統(tǒng)計學(xué)解決實際問題的基本思路是:

①提出及統(tǒng)計有關(guān)的實際問題;

②建立有效的指標(biāo)體系;

③收集數(shù)據(jù);

④選用或創(chuàng)造有效的統(tǒng)計方法處理、顯示所收集數(shù)據(jù)的特征;

⑤根據(jù)所收集數(shù)據(jù)的特征、結(jié)合定性、定量知識作出總體特征的合理推斷;

⑥根據(jù)推斷給出更好決策的建議;

不解決問題時,重復(fù)第②-⑥步。

第二節(jié)統(tǒng)計學(xué)的基本概念

?一、總體、單位和樣本

1.總體

統(tǒng)計總體是根據(jù)一定口的確定的,由客觀存在的、具有某種同質(zhì)性的許多個別事物構(gòu)成的整體。

⑴同質(zhì)性是確定統(tǒng)計總體的基本標(biāo)準(zhǔn),它是根據(jù)統(tǒng)計的研究H的而定的。研究R的不同,所確定的總體也不

同,其同質(zhì)性的意義也隨之變化。

⑵統(tǒng)計總體還應(yīng)具備大量性,即統(tǒng)計總體應(yīng)應(yīng)該由足夠數(shù)量的同質(zhì)性單位構(gòu)成。

2.總體單位(簡稱單位)是組成總體的各個個體。如典型案例1中英軍的每架戰(zhàn)機(jī);事例4中的每個居民。

3.由總體的部分單位組成的集合稱為樣本(又稱子樣)。構(gòu)成樣本的單位稱為樣品,樣本中樣品的數(shù)目稱為

樣本容量。

4.統(tǒng)計學(xué)解決問題的目的是認(rèn)識總體的數(shù)據(jù)特征。但是,當(dāng)調(diào)查是破壞性的,或者出于成本、時間等因素

考慮時,不必要或不可能對構(gòu)成總體的所有單位都進(jìn)行調(diào)查。

?二、標(biāo)志、指標(biāo)(參數(shù))和統(tǒng)計量

1.標(biāo)志:

(1)總體單位普遍具有的屬性或特征稱為標(biāo)志。

(2)標(biāo)志按其表現(xiàn)分為品質(zhì)標(biāo)志和數(shù)量標(biāo)志兩種。

①品質(zhì)標(biāo)志表明單位屬性方面的特征,品質(zhì)標(biāo)志的表現(xiàn)只能用非數(shù)值來描述.

(如:典型案例1中英軍戰(zhàn)機(jī)的類型,事例4中每個居民的性別。)

?②數(shù)量標(biāo)志表明單位數(shù)量方面的特征,其表現(xiàn)用數(shù)值來描述

(如:典型案例1中英軍戰(zhàn)機(jī)的彈孔位置,事例4中每個居民的收入。)

2.參數(shù)(標(biāo)志)

⑴統(tǒng)計總體具有的數(shù)量特征的概念和數(shù)值稱為統(tǒng)計指標(biāo),也稱為參數(shù)。

⑵統(tǒng)計指標(biāo)由兩項基本要素構(gòu)成,即指標(biāo)的概念和指標(biāo)的取值。

(指標(biāo)的概念是對所研究現(xiàn)象本質(zhì)的抽象概括,也是對總體數(shù)量特征的質(zhì)的規(guī)定性。)

(例如事例4中居民人口數(shù)100萬人,總收入31.4億元。)

⑶統(tǒng)計指標(biāo)按表示形式可以分為數(shù)量指標(biāo)和質(zhì)量指標(biāo).

①凡是反映現(xiàn)象總規(guī)模、總水平的統(tǒng)計指標(biāo)稱為數(shù)量指標(biāo),用絕對數(shù)來表示。例如事例4中居民總數(shù)100

萬人、總收入31.4億元等,

②凡是反映現(xiàn)象相對水平和工作質(zhì)量的統(tǒng)計指標(biāo)稱為質(zhì)量指標(biāo),用相對數(shù)或平均數(shù)來表示.例如企業(yè)職工平

均工資5000元、工人出勤率93%等。質(zhì)量指標(biāo)是總量指標(biāo)的派生指標(biāo),以反映現(xiàn)象之間的內(nèi)在聯(lián)系和對比

關(guān)系。

⑷單個指標(biāo)不能反映總體的全貌,這便需要設(shè)立指標(biāo)體系。統(tǒng)計指標(biāo)體系是由一系列相互聯(lián)系的統(tǒng)計指標(biāo)

組成的有機(jī)整體,用以反映所研究現(xiàn)象各方面相互依存相互制約的關(guān)系。

3.統(tǒng)計量

⑴統(tǒng)計量是樣本觀測量的一個已知函數(shù),用來說明樣本的特征。是樣本觀測量的一個已知函數(shù),用來說明樣

本的特征。

⑵抽取的樣本不同,統(tǒng)計量的觀測值也就不同。如樣本平均數(shù)、樣本方差、樣本比例是統(tǒng)計量,抽取樣本后,

人們通常用及總體參數(shù)對應(yīng)的統(tǒng)計量觀測值,作為總體參數(shù)的估計.

(如某汽車制造企業(yè)從生產(chǎn)的一批轎車中抽取了16輛轎車,用這些轎車的平均行駛里程值、合格率值分別

作為該批轎車平均行駛里程、合格率的估計。)

三、數(shù)據(jù)

?(-)變量及變量值

1.即說明現(xiàn)象的某一事實或數(shù)量的特征稱為變量,將上述標(biāo)志、指標(biāo)和統(tǒng)計量的名稱進(jìn)行歸納就是變量。

2.變量的具體表現(xiàn)是變量值,數(shù)據(jù)就是變量及其表現(xiàn),也可稱為反映客觀事物的事實或數(shù)量依據(jù)。

如:收入是一個變量,收入的表現(xiàn)是變量值。

3.將在特定研究過程中收集的所有數(shù)據(jù)集合在一起,稱為數(shù)據(jù)集。

4.根據(jù)變量值的確定及否,變量分為確定性變量(受確定性因素影響,因素是明確的,可解釋,可控制

的)及隨機(jī)變量(受許多不確定因素影響,如員工的起床時間)。

(-)數(shù)據(jù)的計量尺度

收集數(shù)據(jù)時需要用到以下四種由低到高的計量尺度:定類尺度、定序尺度、定距尺度和定比尺度,計量尺

度的不同決定了不同的數(shù)據(jù)分析及處理方法。

1.定類尺度是說明客觀現(xiàn)象無序類別的計量。定類尺度的主要數(shù)學(xué)特征是“=”或“片”.如居民的性別是

男、女計量,戰(zhàn)機(jī)的類型是戰(zhàn)斗機(jī)、轟炸機(jī)、偵察機(jī)等計量,這一場合的所使用的數(shù)值只作為無序分類的代

碼。

2.定序尺度是說明客觀現(xiàn)象有序類別的非數(shù)值計量。定序尺度的主要數(shù)學(xué)特征是或.例如,對居

民的滿意度計量可以分為非常滿意、滿意、一般、不滿意、非常不滿意五類。這一場合的所使用的數(shù)值只

作為有序分類的代碼。

3.定距尺度是說明客觀現(xiàn)象數(shù)值間距有意義的計量。其用確切的數(shù)值反映現(xiàn)象之間在量方面的差異,定距

尺度的主要數(shù)學(xué)特征是。如總量指標(biāo)是定距尺度計量的。

(0不代表不存在)

4.定比尺度是說明客觀現(xiàn)象兩個數(shù)值比有意義的計量。定比尺度的主要數(shù)學(xué)特征是

如質(zhì)量指標(biāo)中的相對數(shù)、平均數(shù)是定比尺度計量的(0代表不存在)

5數(shù)據(jù)分類

⑴定類尺度,定序尺度的數(shù)據(jù)統(tǒng)稱為定性數(shù)據(jù)。定性變量是指帶有定性數(shù)據(jù)的變量。

⑵定距尺度,定比尺度的數(shù)據(jù)統(tǒng)稱為為定量數(shù)據(jù)。定量變量是指帶有定量數(shù)據(jù)的變量。

根據(jù)定量變量值連續(xù)出現(xiàn)及否,定量變量分為連續(xù)性變量及離散型變量。

①連續(xù)型變量是指變量在某一區(qū)域內(nèi)的取值是連續(xù)不斷的,無法一一列舉。如:軍機(jī)的彈孔位置,產(chǎn)品的壽

命等。

②離散型變量是指變量的取值是間斷的,可以一一列舉。例如,產(chǎn)品數(shù)等。

(三)數(shù)據(jù)的類型

根據(jù)對客觀現(xiàn)象觀察的角度不同,統(tǒng)計數(shù)據(jù)可分為:橫截面數(shù)據(jù)、時間序列數(shù)據(jù)和面板數(shù)據(jù)。

1.橫截面數(shù)據(jù)又稱為靜態(tài)數(shù)據(jù),它是指在同一時間對同一總體內(nèi)不同單位進(jìn)行觀察而獲得的數(shù)據(jù)。例如,

2014年全國各省、市、自治區(qū)的居民收入總值就屬于橫截面數(shù)據(jù)。

2.時間序列數(shù)據(jù)又稱為動態(tài)數(shù)據(jù),它是指在某一段時期內(nèi)按時間順序?qū)ν豢傮w進(jìn)行觀察而獲得的數(shù)據(jù)。

例如,“十二五”期間我國按年份順序的居民收入總值就屬于時間序列數(shù)據(jù)

3.面板數(shù)據(jù)則是同時在時間和截面空間上取得的二維數(shù)據(jù)。例如2005-2014年30個企業(yè)的總產(chǎn)值數(shù)據(jù)。

面板數(shù)據(jù)則由30個企業(yè)10年的數(shù)據(jù)組成,共有300個觀測值。從某一年份看,它是由30個企業(yè)總產(chǎn)值數(shù)

第二章收集數(shù)據(jù)

第一節(jié)統(tǒng)計調(diào)查方案設(shè)計

調(diào)查方案設(shè)計是指導(dǎo)整個調(diào)查過程的綱領(lǐng)性文件,其主要內(nèi)容主要包括以下幾個方面:

一、確定調(diào)查目的

1.調(diào)查要達(dá)到的具體目標(biāo)

2.回答“為什么調(diào)查?”

3.調(diào)查之前必須明確

二、確定調(diào)查對象和調(diào)查單位

1.調(diào)查對象:調(diào)查研究的總體或調(diào)查范圍

2.調(diào)查單位:需要對之進(jìn)行調(diào)查的單位??梢允钦{(diào)查對象的全部單位(全面調(diào)查),也可以是調(diào)查對

象中的一部分單位(非全面調(diào)查)

3.回答“向誰調(diào)查?

三、選擇合適的調(diào)查方式、調(diào)查方法

1.調(diào)查方式是指調(diào)查的組織方式,主要有:普查、抽樣調(diào)查、典型調(diào)查、重點調(diào)查和統(tǒng)計報表制度

2.調(diào)查方法是指收集統(tǒng)計資料的方法,主要有:問卷法、訪談法、觀察法和實驗法

四、設(shè)計調(diào)查項目和調(diào)查表

1.調(diào)查項目:調(diào)查的具體內(nèi)容

2.調(diào)查表:表現(xiàn)調(diào)查項目的表格或問卷。有單一表和一覽表兩種形式。

3.回答“調(diào)查什么?"

五、確定調(diào)查時間

統(tǒng)計調(diào)查時間包括兩種涵義:調(diào)查時間和調(diào)查期限

1.調(diào)查時間:調(diào)查資料的所屬時間(時期或時點)。

2.調(diào)查期限:進(jìn)行調(diào)查工作的時間,包括搜集資料和報送資料的整個工作所需要的時間

六、調(diào)查報告的撰寫

調(diào)查報告的撰寫包括:調(diào)查過程的描述、依據(jù)調(diào)查數(shù)據(jù)所做的決策、對調(diào)查結(jié)果的評價

【在調(diào)查方案中,應(yīng)給出:提交調(diào)查報告的具體時間,并對調(diào)查的精度、費用等提出具體要求】

七、制訂調(diào)查工作的組織實施計劃

第二節(jié)數(shù)據(jù)收集來源

一、數(shù)據(jù)收集的來源

1.原始數(shù)據(jù):必須要求調(diào)研者親自收集

2.二手?jǐn)?shù)據(jù):調(diào)研者需要識別和評估二手?jǐn)?shù)據(jù)的有效性

二、二手?jǐn)?shù)據(jù)的收集

1.二手?jǐn)?shù)據(jù)的來源

⑴內(nèi)部二手?jǐn)?shù)據(jù)

⑵外部二手?jǐn)?shù)據(jù)

2.二手?jǐn)?shù)據(jù)收集的特點

優(yōu)點:快捷、成本低、易獲取

缺點:相關(guān)性差、時效性差、可靠性低

四、二手?jǐn)?shù)據(jù)收集的注意事項

二手?jǐn)?shù)據(jù)的評估主要包括:

1.研究目的的評估一調(diào)研的目的是什么

2.二手?jǐn)?shù)據(jù)來源評估-一誰收集了這些資料

3.研究內(nèi)容評估一一收集了一些什么樣的資料

4.調(diào)查方式、方法評估一一這些資料如何獲得的

5.二手?jǐn)?shù)據(jù)相關(guān)性評估一一這些資料及其他資料的一致程度如何

6.二手?jǐn)?shù)據(jù)時效性評估一一這些資料是何時收集的

第三節(jié)原始數(shù)據(jù)的收集

一、數(shù)據(jù)收集的分類

1.按數(shù)據(jù)收集的組織方式不同,分為統(tǒng)計報表和專門調(diào)查

統(tǒng)計報表:按照國家有關(guān)法規(guī)的規(guī)定,自上而下地統(tǒng)一布置、自下而上地逐級填報的一種調(diào)查組織方

式。

專門調(diào)查:為了某一特定目的或?qū)iT問題而專門組織的調(diào)查

2.按數(shù)據(jù)收集對象包括范圍的大小不同,分為全面調(diào)查和非全面調(diào)查

全面調(diào)查:對構(gòu)成調(diào)查對象中的所有黨委進(jìn)行一一不漏的調(diào)查

非全面調(diào)查:是在統(tǒng)計調(diào)查過程中,僅對調(diào)查中的一部分單位進(jìn)行調(diào)查。包括:抽樣調(diào)查、重點調(diào)查、典

型調(diào)查和非全面統(tǒng)計報表

3.按數(shù)據(jù)收集的登記時間是否連續(xù),分為經(jīng)常性調(diào)查和一次性調(diào)查

經(jīng)常性調(diào)杳:又稱連續(xù)性調(diào)查,它是為了觀察社會經(jīng)濟(jì)現(xiàn)象在一定時期內(nèi)的數(shù)量變化所進(jìn)行的調(diào)杳登記或

數(shù)據(jù)收集

一次性調(diào)查:又稱不連續(xù)性調(diào)查,它是對所研究的社會經(jīng)濟(jì)現(xiàn)象間隔一段時間所進(jìn)行的調(diào)查登記或數(shù)據(jù)收

4.按數(shù)據(jù)收集實施主體的不同,分為政府統(tǒng)計調(diào)查和民間統(tǒng)計調(diào)查

?二、數(shù)據(jù)收集的調(diào)查方式

數(shù)據(jù)收集的調(diào)查方式,按照組織方式主要有:普查、抽樣調(diào)查、典型調(diào)查、重點調(diào)查和統(tǒng)計報表制度

1.普查:專門組織的一次性全面調(diào)查

普查的特點:

⑴通常是一次性調(diào)查,周期性強(qiáng)

⑵全面性調(diào)查,收集的資料全面、系統(tǒng)、準(zhǔn)確

⑶普查的點多面廣,工作量大,投入多

普查應(yīng)遵循以下原則:

⑴時間統(tǒng)一性原則

⑵登記工作的規(guī)范性原則

⑶普查項目統(tǒng)一規(guī)定原則

⑷同類普查同周期性原則

2.抽樣調(diào)查:從總體中隨機(jī)抽取一部分單位作為樣本進(jìn)行調(diào)查,并根據(jù)樣本數(shù)據(jù)推斷總體數(shù)量特征的一

種非全面調(diào)查。

⑴概率抽樣:根據(jù)隨機(jī)原則從總體中抽選樣本,并根據(jù)樣本信息對總體的某些特征做出估計推斷,對

推斷可能出現(xiàn)的誤差可以從概率意義上加以控制

非概率抽樣:調(diào)查組根據(jù)自己的方便或主觀判斷抽取樣本的方法

⑵抽樣調(diào)查優(yōu)勢:經(jīng)濟(jì)性、時效性、準(zhǔn)確性

⑶幾種具體的抽樣方式:

①簡單隨機(jī)抽樣一一是指從總體N個單位中隨機(jī)抽取n個單位作為樣本,使每個可能的樣本被抽中

的概率相等的一種抽樣方式。

②分層抽樣一一主要特征分層按比例抽樣,主要使用于總體中的個體有明顯差異。共同點:每個個

體被抽到的概率都相等N/M。

③整群抽樣一一是將總體中各單位歸并成若干個互不交叉、互不重復(fù)的集合,稱之為群;然后以群

為抽樣單位抽取樣本的一種抽樣方式?!緫?yīng)用整群抽樣時,要求各群有較好的代表性,即群內(nèi)各單位的差異

要大,群間差異要小】

④等距抽樣一一首先將總體各單位按一定順序排列,更具樣本容量大小確定抽選間隔,然后隨機(jī)抽

取一個進(jìn)入樣本,直到滿足要求為止的一種抽樣方式

⑤多階段抽樣一一是指將抽樣過程分階段進(jìn)行,每個階段使用的抽樣方法往往不同,即將各種抽樣

方法結(jié)合使用,其在大型流行病學(xué)調(diào)杳中常用。

第一階段,將總體分為若干個一級抽樣單位,從中抽選若干個一級抽樣單位入樣;

第二階段,將入樣的每個一級單位分成若干個二級抽樣單位,從入樣的每個一級單位中各抽選若干個

二級抽樣單位入樣……,依此類推,直到獲得最終樣本

3.典型調(diào)查:

從調(diào)查對象的全部單位中選擇少數(shù)典型單位進(jìn)行調(diào)查。目的是描述和揭示事物的本質(zhì)特征和規(guī)律。調(diào)查結(jié)

果不能用于推斷總體

4.重點調(diào)查:

從調(diào)查對象的全部單位中選擇少數(shù)重點單位進(jìn)行調(diào)查。調(diào)查結(jié)果不能用于推斷總體

5.統(tǒng)計報表制度:按照國家有關(guān)法規(guī)的規(guī)定,自上而下地統(tǒng)一布置、自下而上地逐級填報的一種調(diào)查組織

方式。

統(tǒng)計報表內(nèi)容:報表目錄、報表表式、填表說明

統(tǒng)計報表的資料來源:原始記錄、統(tǒng)計臺賬、企業(yè)內(nèi)部報表

三、數(shù)據(jù)收集的方法

1.問卷法:郵寄調(diào)查、調(diào)查、電腦輔助調(diào)查、網(wǎng)絡(luò)調(diào)查

2.訪談法

優(yōu)點:廣泛地認(rèn)識客觀現(xiàn)象、深入地研究問題、資料收集可靠和應(yīng)用面很廣

缺點:必須依賴具有較高素質(zhì)的訪問員、直接交談會對獲取資料的客觀性產(chǎn)生負(fù)面影響、在不便詢問時訪

談無法實施、調(diào)查費用大、時間長,可能會碰到意料不到的困難

集體訪談:將一組被調(diào)查者集中在調(diào)查現(xiàn)場,讓他們對調(diào)查的主題發(fā)表意見以獲得資料

【常用的有:頭腦風(fēng)暴法、德爾非法(專家意見法)、深度訪談法】

個別訪談:調(diào)查者對每一名受訪者進(jìn)行一對一單獨訪談。

3.觀察法:

就調(diào)查對象的行動和意識,調(diào)查人員邊觀察邊記錄以收集所需信息

調(diào)查人員不是強(qiáng)行介入

能夠在被調(diào)查者不察覺的情況下獲得資料

4.實驗法

在設(shè)定的特殊實驗場所、特殊狀態(tài)下,對調(diào)查對象進(jìn)行實驗以獲得所需資料。有室內(nèi)實驗法和市場實驗法

第四節(jié)統(tǒng)計數(shù)據(jù)的質(zhì)量

一、統(tǒng)計數(shù)據(jù)的誤差

統(tǒng)計調(diào)杳誤差分為登記性誤差和代表性誤差

1)登記性誤差:由于調(diào)查者或被調(diào)查者的人為因素所造成的誤差。理論上講可以消除

2)代表性誤差:用樣本數(shù)據(jù)進(jìn)行推斷時所產(chǎn)生的誤差。通常無法消除,但事先可以進(jìn)行控制和計算

第三章整理和顯示數(shù)據(jù)

第一節(jié)數(shù)據(jù)的整理及顯示問題的提出

1.根據(jù)解決問題的目的確定分組的變量,如典型案例4中分組的變量為收入。

2.確定組數(shù)等,如典型案例4中,收入由貧到富分為5組,連續(xù)型變量如收入還涉及到確定每組組距、上

限和下限。

3.按不重不漏的原則對數(shù)據(jù)進(jìn)行分組,確定各組頻數(shù)、頻率,典型案例4還涉及到每組的收入值等。

蟲用表、圖顯示整理的數(shù)據(jù),如表3-1、圖3-1

第二節(jié)定量數(shù)據(jù)的整理及顯示

?一、定量數(shù)據(jù)的整理

1.主要采用統(tǒng)計分組來整理。數(shù)據(jù)分組后,把每組的個數(shù)稱為頻數(shù)。每組個數(shù)所占比例稱為頻率。

2.統(tǒng)計分組就是指根據(jù)統(tǒng)計研究的目的和客觀現(xiàn)象的內(nèi)在特點,按某個變量(或幾個變量)把被研

究的總體劃分成為若干個不同性質(zhì)的組,然后再統(tǒng)計出各組的頻數(shù),就形成了一張頻數(shù)分布表。

3.統(tǒng)計分組方法:單變量值分組和組距分組

1)單變量值分組就是將一個變量值作為一組,適合變量值較少的情況。

比如居民家庭按照人口數(shù)進(jìn)行分組,可分為1口人家庭、2口人家庭、3口人家庭、4口人家庭、5口人

以上家庭的組別。

2)組距式分組是將變量值的一個區(qū)間作為一組,適合于連續(xù)變量和變量值較多的離散型變量情況.組距

式分組可采用等距分組,也可采用不等距分組.

①等距分組是指每組組距相等。

等距分組的基本步驟有:

第一步:確定組數(shù):一般情況下,一批數(shù)據(jù)所分的組數(shù)不應(yīng)少于5組且不多于15組。在實際分組時,可以

參考經(jīng)驗公式來確定組數(shù)K,即lg2

第二步:確定組距:組距是一組的上限及下限之差

組距=(最大值-最小值)+組數(shù)

第三步:統(tǒng)計出各組的頻數(shù)并整理成頻數(shù)分布表。

[統(tǒng)計各組頻數(shù)時要注意遵循不重不漏的原則。為解決不重的問題,統(tǒng)計分組時習(xí)慣規(guī)定“上組限不在組

內(nèi)”比如100這一數(shù)值不能算在“90'100”這一組,而是算在“IOO'UO”這一組內(nèi)?!?/p>

閉口組:有上、下限值

開口組:“XX以下”及“XX以上”

組中值一一常用作各組的代表值:下限及上限之間的中點值,即:

跳下限的開口組的組中值=上限值-鄰組組距

2(100以下,缺下限)

缺上限的開口組的組中值=下限值+鄰顰距

2(90以上,缺上限)

②不等距分組是指并非所有組距都相等。

二、定量數(shù)據(jù)的圖示

定量數(shù)據(jù)常用的統(tǒng)計圖主要有直方圖、莖葉圖、曲線圖、散點圖等。

三、頻數(shù)分布圖的類型

頻數(shù)分布圖則屬于其中一種統(tǒng)計圖,其主要類型有如下三種。

鐘型分布:''兩頭小,中間大”即中間變量值分布的頻數(shù)多,兩端分布頻數(shù)少,

(III)中,其分布特征是以變量的平均數(shù)為對稱軸,左右兩側(cè)對稱分布

(I)(II)中為非對稱分布,(I)是右偏分布(II)是左偏分布,

U型分布:“兩頭大,中間小”即中間的變量值分布頻數(shù)少,兩端的變量值分布頻數(shù)多,及鐘型分布剛好相

J型分布:有兩種類型,一種是正J型,即頻數(shù)隨著變量的增大而增多:另一種則呈反J型,即頻數(shù)隨著

變量的增大而減少

第三節(jié)品質(zhì)數(shù)據(jù)的整理及顯示

一、定類數(shù)據(jù)的整理及圖示

(-)定類數(shù)據(jù)的整理

定類數(shù)據(jù)整理主要用頻數(shù)分布表進(jìn)行。

(~)定類數(shù)據(jù)的圖示

定類數(shù)據(jù)的圖示主要有條形圖、餅圖等

二、定序數(shù)據(jù)的整理及圖示

(-)定序數(shù)據(jù)的整理

定序數(shù)據(jù)也是采用頻數(shù)分析表進(jìn)行整理。

還可以計算累計頻數(shù)和累計頻率,累計方法有兩種:向上累計和向下累計。

(")定序數(shù)據(jù)的圖示

定序型數(shù)據(jù)的統(tǒng)計圖主要有累計頻數(shù)分布圖和環(huán)形圖。小)

第四節(jié)圖表的合理使用

一、鑒別圖形優(yōu)劣的準(zhǔn)則

(-)一張好的圖形應(yīng)具有的特征

1.反映數(shù)據(jù)分布特征和規(guī)律。

2.便于比較。

3.有對圖形的描述和文字說明。

(-)鑒別圖形優(yōu)劣的準(zhǔn)則

1.是否有助于真實、準(zhǔn)確洞察問題的實質(zhì)。

2.是否提供完整的信息量,是否使復(fù)雜的觀點簡單化。

二、統(tǒng)計表的設(shè)計

(-)統(tǒng)計表的概念和結(jié)構(gòu)

1.概念

統(tǒng)計表是表現(xiàn)統(tǒng)計資料的一種形式。

2.結(jié)構(gòu)

從形式上看,由四部分構(gòu)成:

A、總標(biāo)題:是表的名稱,概括統(tǒng)計表中要說明的內(nèi)容;

B、橫行標(biāo)題:是各組的名稱,反映總體各組成部分;

C、縱覽標(biāo)題:是分組標(biāo)志或指標(biāo)的名稱,說明縱行所列各項費料的內(nèi)容;

D、指標(biāo)數(shù)值:也稱數(shù)字資料,是統(tǒng)計表的具體內(nèi)容。

從內(nèi)容上看,由主詞和賓詞兩個部分組成。主詞是統(tǒng)計表所說明的總體,總體的各組或各組的名稱。賓詞

是用于說明主詞的各種指標(biāo)。通常,統(tǒng)計表的主詞列在表的左方,其詞列在表的右方,如表3-10所示(P52)

(-)統(tǒng)計表的種類

統(tǒng)計表按照總體分組情況不同,可分為簡單表、分組表和復(fù)合表三類。

(三)統(tǒng)計表的編制

1.統(tǒng)計表線條的繪制。

通常統(tǒng)計表的上下端以粗線繪制,表內(nèi)縱橫線以細(xì)線繪制。表格的左右不封口。

2.合計欄的設(shè)置

統(tǒng)計表各縱列需要合計時,可將合計列放在最后一行,各橫行若需要合計時,可將合計列放在最前欄

或最后一欄。

3.標(biāo)題的設(shè)計。

統(tǒng)計表的標(biāo)題要簡明扼要,以簡練而準(zhǔn)確的文字來概括統(tǒng)計資料的內(nèi)容、資料所屬時間、空間等。

4.計量單位的列法。

指標(biāo)數(shù)值一般要有計量單位,若只有一種計量單位時,可在表右上端注明。如果計量單位不統(tǒng)一,可專

設(shè)計量單位欄。

5.標(biāo)志值的書寫。

標(biāo)志值應(yīng)該填寫整齊,對準(zhǔn)位數(shù)。當(dāng)數(shù)值太小可忽略不計時,寫上“0”:當(dāng)缺失某項資料時,用符號“…”

表示;不應(yīng)有數(shù)字時,用符號表示。

6.注解或資料來源的標(biāo)明。

一般而言,統(tǒng)計表下方應(yīng)該注明資料來源,以便查考、

第四章數(shù)據(jù)分布的數(shù)字特征

第一節(jié)數(shù)據(jù)集中趨勢的測定

一、集中趨勢測定問題的提出和作用

(-)問題的提出

對于總體中的個體數(shù)據(jù),有時會呈現(xiàn)出在一定范圍內(nèi)以某個數(shù)據(jù)為中心上下波動的分布特征,即

數(shù)據(jù)有時具有它分布的中心,我們稱之為數(shù)據(jù)分布的集中趨勢。該如何測定一組數(shù)據(jù)的集中趨勢呢?

二)集中趨勢測定的作用

1.集中趨勢指標(biāo)的分類

2.集中趨勢指標(biāo)的作用

(1)可以反映一組數(shù)據(jù)分布的中心或一般水平;

(2)可以反映同一現(xiàn)象在不同時間或空間條件下的發(fā)展趨勢或差異;

(3)可以用來分析現(xiàn)象之間的依存關(guān)系;

(4)樣本平均數(shù)是統(tǒng)計推斷的一個重要統(tǒng)計量。

?二、集中趨勢的測定

(-)數(shù)值平均數(shù)

數(shù)值平均數(shù)只適用于定量數(shù)據(jù)(數(shù)值型數(shù)據(jù)),而不適用于定性數(shù)據(jù)。

?1.算術(shù)平均數(shù)

(1)簡單算術(shù)平均數(shù)

簡單算術(shù)平均數(shù)是根據(jù)未分組數(shù)據(jù)(原始數(shù)據(jù))計算的一種平均數(shù),它是將所有的原始數(shù)據(jù)相加再除以

數(shù)據(jù)總個數(shù)得到的。

①樣本計算的簡單算術(shù)平均數(shù)的計算公式是:

②總體數(shù)據(jù)計算的簡單算術(shù)平均數(shù)的計算公式為:

(2)加權(quán)算術(shù)平均數(shù)

①加權(quán)算術(shù)平均數(shù)是根據(jù)分組數(shù)據(jù)計算的?種平均數(shù)。設(shè)樣本被分為k組,各組的頻數(shù)為f,樣本計算的

加權(quán)算術(shù)平均數(shù)的計算公式為:

其中,Xi有兩種情況:在單變量值分組中,Xi代表各組的變量值;在組距式分組中,Xi代表各組的組中

f,

值,f=l稱作權(quán)重(頻率)。

②總體數(shù)據(jù)計算的加權(quán)算術(shù)平均數(shù)的計算公式為:

(3)算術(shù)平均數(shù)的主要數(shù)學(xué)性質(zhì)

①各變量值及其算術(shù)平均數(shù)的離差之和等于零;

務(wù)年喳h永=。

即:TT

②各變量值及其算術(shù)平均數(shù)的離差平方和最小。

£(耳一司2=min或Ea_司2£=rnin

即:日

2.調(diào)和平均數(shù)

調(diào)和平均數(shù)加權(quán)算術(shù)平均數(shù)的一種變形。

調(diào)和平均數(shù)及加權(quán)算術(shù)平均數(shù)的關(guān)系是:

若已知各組變量值及其標(biāo)志總量m.(mi=xf),而缺乏的數(shù)據(jù)時,則加權(quán)算術(shù)平均數(shù)可通過變形

得到f,(fFin./x,)后,再以m;為權(quán)數(shù)的調(diào)和平均數(shù)形式來計算。

3.幾何平均數(shù)

幾何平均數(shù)是n個變量值連乘積的n次方根

(1)簡單幾何平均數(shù)

當(dāng)樣本數(shù)據(jù)中各變量值出現(xiàn)的次數(shù)都相同時,用簡單幾何平均數(shù)公式。

式中,X.代表各變量值,n為樣本容量,門為連乘符號

(2)加權(quán)幾何平均數(shù)

當(dāng)樣本數(shù)據(jù)中各變量值出現(xiàn)的次數(shù)不全相同時,用加權(quán)幾何平均數(shù)公式。

式中,x,代表各變量值,n為樣本容量,口為連乘符號

【如果獲得一組總體數(shù)據(jù),根據(jù)總體數(shù)據(jù)計算的幾何平均數(shù)/石的公式及樣本數(shù)據(jù)的基本相同。】

需要注意的是:

當(dāng)數(shù)據(jù)中出現(xiàn)零或負(fù)值時不宜計算幾何平均數(shù);

幾何平均數(shù)是一種適用于特殊數(shù)據(jù)的平均數(shù),當(dāng)變量值之間具有連乘積關(guān)系時,采用幾何平均數(shù)更加合理;

現(xiàn)實生活中,幾何平均數(shù)主要用于計算現(xiàn)象的平均增長率和平均發(fā)展速度(詳見本書第九章)。

(-)位置代表值

1.眾數(shù)

1)眾數(shù)(Mode)是一組數(shù)據(jù)中出現(xiàn)頻數(shù)最多的變量值,通常用符號表示。

2)眾數(shù)代表的是最常見、最普遍的情況。眾數(shù)不僅可以度量定性數(shù)據(jù)的集中趨勢,還可以度量定量數(shù)據(jù)

的集中趨勢。

3)眾數(shù)的特點:

?眾數(shù)是位置型平均數(shù),它只及位置有關(guān),不受數(shù)據(jù)中極端值的影響;

②從分布形態(tài)上看,眾數(shù)是一組數(shù)據(jù)分布最高峰點所對應(yīng)的變量值;

眾數(shù)具有不唯一性(可以有一個或多個或沒有)

4)組距式分組數(shù)據(jù)中眾數(shù)的求解較為復(fù)雜。在組距式分組數(shù)據(jù)中,求解眾數(shù)的步驟:

①先要確定眾數(shù)所在組;

如果是等距分組數(shù)據(jù),那么次數(shù)最多的那一組就為眾數(shù)組;如果是不等距分組數(shù)據(jù),那么組密度(組

頻率/組距)最大的組就為眾數(shù)組。

②之后再按照下列公式求解眾數(shù)的近似值。計算公式如下:

xd

匕一九)+£一“)

下限公式:

力一北1

xd

_-

或上限公式:(Z.ZH)+(4)ZH4)

2.中位數(shù)

1)中位數(shù)是?組數(shù)據(jù)從小到大排序后位于中間位置上的變量值,通常用符號表示。

2)由于中位數(shù)和位置有關(guān),所以中位數(shù)只能度量定序數(shù)據(jù)和數(shù)值型數(shù)據(jù)的集中趨勢;

3)求解中位數(shù)的步驟:

①首先,對數(shù)據(jù)進(jìn)行排序;

②其次,確定中位數(shù)的位置,即中間位置;

③最后,計算中間位置上的變量值。

4)中位數(shù)的位置計算公式為:

①數(shù)據(jù)個數(shù)n為奇數(shù),

中位數(shù)為:2

②數(shù)據(jù)個數(shù)n為偶數(shù)

,2四刎

中位數(shù)為:

③分組數(shù)據(jù)中位數(shù)的求解

對于分組數(shù)據(jù)而言,不需要再另外排序,直接按照分組的順序即可。

分組數(shù)據(jù)中位數(shù)的位置計算公式:

求出中位數(shù)位置后,按照下列公式求解中位數(shù)的近似值。

MB公式:

M-----xd(4.13)

或上限公式:

Af?U——2----xd(4.14)

(看例題Pea)

5)中位數(shù)特點及應(yīng)用

①中位數(shù)是位置型度量值,其特點是不受極端值的影響,因此具有穩(wěn)定性;

②在實際運用中,當(dāng)數(shù)據(jù)的偏斜程度較大時,用中位數(shù)作為該組數(shù)據(jù)一般水平的代表值比較合適。

6)分位數(shù)

①實際上,測度數(shù)據(jù)在特定位置上的水平,還可以計算四分位數(shù)、十分位數(shù)和百分位數(shù)等,我們統(tǒng)稱它

們?yōu)榉治粩?shù)。

②四分位數(shù)的計算方法:

A.四分位數(shù):定義:一組數(shù)據(jù)由小到大排序后位于25%位置和75%位置處的變量值。

【位于在25%位置處的變量值(即下四分位數(shù),用符號Q表示)和處在75%位置處的變量值(即上四分位數(shù),

用符號Q、表示),上、下四分位數(shù)之間恰好包含了50*的數(shù)據(jù)?!?/p>

B.求解四分位數(shù)的步驟

a)先排序;

b)然后確定上、下四分位數(shù)的位置;

c)最后,求相應(yīng)位置上的變量值。(看例題Pg)

7)箱線圖

將中位數(shù)、四分位數(shù)和其他指標(biāo)結(jié)合起來,可以更詳細(xì)的反應(yīng)數(shù)據(jù)的分布特征。箱線圖是由一組數(shù)據(jù)的最

小值(X".")、最大值(4J、下四分位數(shù)(Q,)、上四分位數(shù)(Q,)和中位數(shù)(M。)這五個特征值構(gòu)成。通過

箱線圖,可以觀察數(shù)據(jù)的中心位置、離散程度及對稱性等特征,同時還可以進(jìn)行多組數(shù)據(jù)分布的比較。

(三)算術(shù)平均數(shù)、眾數(shù)和中位數(shù)三者的比較及應(yīng)用

(1)算術(shù)平均數(shù)屬于數(shù)值型平均數(shù),它是根據(jù)全部數(shù)據(jù)計算的集中趨勢測度值,因此可以綜合反映全部數(shù)

據(jù)的信息;眾數(shù)和中位數(shù)屬于位置型代表值,它們是根據(jù)數(shù)據(jù)分布的特定位置確定出的集中趨勢測度值,

因此不能概括全部數(shù)據(jù)的信息

(2)算術(shù)平均數(shù)和中位數(shù)在任何一組數(shù)據(jù)中都存在且具有唯一性,但不一定所有數(shù)據(jù)都存在眾數(shù),且眾數(shù)

也不具有唯一性。一般情況下,在數(shù)據(jù)量充分大并且具有明顯集中趨勢時,計算眾數(shù)才有意義:

(3)算術(shù)平均數(shù)只適用于定量數(shù)據(jù),中位數(shù)適用于定序數(shù)據(jù)和定量數(shù)據(jù),眾數(shù)則適用于所有數(shù)據(jù),即定性

數(shù)據(jù)和定量數(shù)據(jù)均可;

(4)算術(shù)平均數(shù)受極端值的影響,因此,當(dāng)數(shù)據(jù)偏斜程度較大時(數(shù)據(jù)中存在極端值),不宜用算術(shù)平均

數(shù)來代表數(shù)據(jù)的一般水平。眾數(shù)和中位數(shù)不受極端值的影響,因此,當(dāng)數(shù)據(jù)偏斜程度較大時,可以考慮用

眾數(shù)或中位數(shù)來代表數(shù)據(jù)的一般水平;

(5)算術(shù)平均數(shù)可以估計或推斷總體特征值。而眾數(shù)和中位數(shù)不宜用作此類推斷

<6)算術(shù)平均數(shù)和眾數(shù)、中位數(shù)的數(shù)量關(guān)系主要取決于數(shù)據(jù)分布的偏斜程度(非對稱程度)

①對于呈現(xiàn)單峰分布的數(shù)據(jù),如果數(shù)據(jù)的分布是對稱的,則眾數(shù)M。、中位數(shù)Me和算術(shù)平均數(shù)X三者相

等,BPM~t.=X-

②如果數(shù)據(jù)呈現(xiàn)左偏(負(fù)偏)分布,說明數(shù)據(jù)中存在極小值

從而略使中位數(shù)偏小,而眾數(shù)則完全不受極小值大小和位置的影響,因此一般情況下,三者的關(guān)系表現(xiàn)為

X<Me<Mo-

(3)如果數(shù)據(jù)呈現(xiàn)右偏(正偏)分布,則一般有:M0<Me<X—

(7)皮爾遜經(jīng)驗公式數(shù)據(jù)呈現(xiàn)偏斜但偏斜程度不大時,算術(shù)平均數(shù)、眾數(shù)和中位數(shù)之間存在一定的比例關(guān)

系,即「混蟲工現(xiàn))

第二節(jié)數(shù)據(jù)離散程度的測定

一、離散程度測定問題的提出和作用

(-)離散程度測定問題的提出

由于差異性是數(shù)據(jù)的本質(zhì)屬性,所以各個數(shù)據(jù)及其分布中心之間總是存在著不同程度的偏離。我

們把數(shù)據(jù)偏離其中心值的程度叫做離散程度,離散程度可以說明數(shù)據(jù)之間差異程度的大小,那么如何測定

一組數(shù)據(jù)的離散程度呢?

(-)離散程度測定的作用

離散程度的大小主要通過變異指標(biāo)來測定。變異指標(biāo)的主要作用有:

1.可以衡量平均指標(biāo)的代表程度。變異指標(biāo)值越大,則數(shù)據(jù)的離散程度越大、數(shù)據(jù)越分散,繼而平均指標(biāo)

的代表性就越弱;反之,變異指標(biāo)值越小,則數(shù)據(jù)的離散程度越小、數(shù)據(jù)越集中,繼而平均指標(biāo)的代表性

就越強(qiáng);

2.可以反映數(shù)據(jù)的穩(wěn)定性和均衡性。變異指標(biāo)值越大,則數(shù)據(jù)的離散程度越大,數(shù)據(jù)的穩(wěn)定性和均衡性就

越差;反之,則數(shù)據(jù)的離散程度越小,數(shù)據(jù)的穩(wěn)定性和均衡性就越好。

二、離散程度的測定

(-)異眾比率

1.異眾比率是指非眾數(shù)組的頻數(shù)占總頻數(shù)的比重,通常用Vr表示,計算公式為:

式中:,雨是眾數(shù)組的頻數(shù);j是變量值的總頻數(shù)

2.異眾比率的特點:

1)可用來衡量眾數(shù)的代表性強(qiáng)弱,即,異眾比率越大,則眾數(shù)的代表性越弱;反之,眾數(shù)的代表性就越

強(qiáng);

2)異眾比率主要用于測度定性數(shù)據(jù)的離散程度,也可以用于定量數(shù)據(jù)離散程度的測度。

(-)極差、四分位差和平均差

1.極差

極差(Range)又稱全距,是一組數(shù)據(jù)中最大值及最小值之差,通常用R表示。計算公式為:

R=max(x,.)-min(x,.)

1)對于原始數(shù)據(jù)和單變量值分組數(shù)據(jù):M不)為一組數(shù)據(jù)的最大值;血1不)為一組數(shù)據(jù)的最小值。

2)對于組距式分組數(shù)據(jù),極差就用變量值最大組的上限減去變量值最小組的下限近似得到。

3)極差的特點:極差是變異指標(biāo)中最簡單的測度值,其優(yōu)點是計算簡便、易于掌握。但因極差只利用了

?組數(shù)據(jù)兩端的信息,容易受到極端值的影響。因此,極差不能全面、穩(wěn)定地反映數(shù)據(jù)的離散程度。

2.四分位差

1)四分位差是指上四分位數(shù)(Q.)及下四分位數(shù)(Q,)之差,因此也叫內(nèi)距或四分間距,通常用表示。

計算公式為:Qd=Qu-QL

2)四分位差特點:

①四分位差只能說明中間50%數(shù)據(jù)的離散程度,它依然不能充分反映全部數(shù)據(jù)的離散狀況。四分位差越

大,說明中間50%數(shù)據(jù)的離散程度越大;四分位差越小,說明中間50%數(shù)據(jù)的離散程度越小;

②在一定程度上,四分位差也可以反映中位數(shù)的代表性好壞;

(3)四分位差是一種順序統(tǒng)計量,因此四分位差適用于測度定序數(shù)據(jù)和定量數(shù)據(jù)的離散程度。

3.平均差

1)平均差(meandeviation)是各變量值及其算術(shù)平均數(shù)離差絕對值的平均數(shù)。因此,也稱平均絕對離差,

通常用M.D表示。

2)平均差的計算有兩種情況

①簡單平均法

如果數(shù)據(jù)是未分組數(shù)據(jù)(原始數(shù)據(jù)),則用簡單算術(shù)平均法來計算平均差:

②加權(quán)平均法

如果數(shù)據(jù)是分組數(shù)據(jù),采用加權(quán)算術(shù)平均法來計算平均差:

3)平均差的特點:

①平均差意義明確,計算結(jié)果易于理解,并且利用了全部數(shù)據(jù)的信息,反映了每個變量值及平均

數(shù)的平均差異程度。因此能全面地反映一組數(shù)據(jù)的離散狀況。平均差越大,則數(shù)據(jù)的離散程度

越大;平均差越小,則數(shù)據(jù)的離散程度越?。?/p>

②為了避免正負(fù)離差相互抵消的現(xiàn)象發(fā)生,平均差在計算時給離差加上了絕對值。但由于絕對值

的出現(xiàn)給計算帶來了很大的不便,因此在實際應(yīng)用中受到很大的限制。

?(三)方差和標(biāo)準(zhǔn)差

1)方差是各變量值及其算術(shù)平均數(shù)離差平方的算術(shù)平均數(shù)。標(biāo)準(zhǔn)差就是方差的平方根。

2)方差、標(biāo)準(zhǔn)差特點:

①方差、標(biāo)準(zhǔn)差利用了全部數(shù)據(jù)的信息,能較好地反映數(shù)據(jù)的離散程度;

②方差、標(biāo)準(zhǔn)差是通過平方的方法消去離差的正負(fù)號,這更便于數(shù)學(xué)上的處理。因此,方差、標(biāo)

準(zhǔn)差是統(tǒng)計中最重要的變異指標(biāo),同時也是實際中應(yīng)用最廣泛的離散程度測度值。

3)方差、標(biāo)準(zhǔn)差計算公式

總體數(shù)據(jù)

樣本數(shù)據(jù)

①未分組數(shù)據(jù)(原始數(shù)據(jù))的樣本方差和樣木標(biāo)準(zhǔn)差的計算公式分別為:

②分組數(shù)據(jù)的樣本方差和樣本標(biāo)準(zhǔn)差的計算公式分別為:

H)2/七(A;一石2f

s'『-------S=-------------

'i=,(k為組數(shù))

。(四)標(biāo)準(zhǔn)化值(標(biāo)準(zhǔn)分?jǐn)?shù))

標(biāo)準(zhǔn)化值就是用各變量值及其平均數(shù)的離差再除以其標(biāo)準(zhǔn)差。

1)標(biāo)準(zhǔn)化值的計算公式為:

2)標(biāo)準(zhǔn)化值的特點:

標(biāo)準(zhǔn)化值具有均值為0,標(biāo)準(zhǔn)差為I的特性。

3)經(jīng)驗法則【3。質(zhì)量管理法則的原理】

使用條件:在正態(tài)分布或近似正態(tài)分布(對稱的鐘型分布)的條件下

?大約有68%的數(shù)據(jù)位于均值±1個標(biāo)準(zhǔn)差范圍內(nèi);

?大約有95%的數(shù)據(jù)位于均值±2個標(biāo)準(zhǔn)差范圍內(nèi);

?大約有99%的數(shù)據(jù)位于均值土3個標(biāo)準(zhǔn)差范圍內(nèi)

4)切比雪夫定理

利用切比雪夫定理來判斷有多少的數(shù)據(jù)落入以均值為中心的k(標(biāo)準(zhǔn)化值)個標(biāo)準(zhǔn)差范圍內(nèi)。

使用條件:任意分布形態(tài)的數(shù)據(jù):

根據(jù)切比雪夫定理的內(nèi)容,至少有(1—4工)的數(shù)據(jù)落入均值左右k個標(biāo)準(zhǔn)差范圍內(nèi),其中k

為大于1的任意數(shù),當(dāng)然也可以為小數(shù)。

?k=2說明至少有75%的數(shù)據(jù)落入均值±2個標(biāo)準(zhǔn)差范圍內(nèi);

?k=3說明至少有89%的數(shù)據(jù)落入均值土3個標(biāo)準(zhǔn)差范圍內(nèi);

?k=4說明至少有94%的數(shù)據(jù)落入均值±4個標(biāo)準(zhǔn)差范圍內(nèi)。

?(五)離散系數(shù)

?離散系數(shù)也稱變異系數(shù)(coefficientofvariation),它是極差、四分位差、平均差或標(biāo)準(zhǔn)差等變

異指標(biāo)及其算術(shù)平均數(shù)對比的結(jié)果。

?常用的離散系數(shù)有極差系數(shù)、平均差系數(shù)和標(biāo)準(zhǔn)差系數(shù),但應(yīng)用最廣泛的是標(biāo)準(zhǔn)差系數(shù)。

?標(biāo)準(zhǔn)差系數(shù)的計算公式:

?離散系數(shù)的作用

離散系數(shù)是測度數(shù)據(jù)離散程度的相對統(tǒng)計量,可用于比較不同變量值水平或不同計量單位的不同組別

數(shù)據(jù)的離散程度。離散系數(shù)大的,則該組數(shù)據(jù)的離散程度就大;離散系數(shù)小的,則該組數(shù)據(jù)的離散程度就

小。

總結(jié):反映數(shù)據(jù)離散程度的各測定值的應(yīng)用場合

1)對于分類數(shù)據(jù),主要用異眾比率來測度其離散程度;

2)對于順序數(shù)據(jù),主要用四分位差來測度其離散程度;

3)對于數(shù)值型數(shù)據(jù),主要用方差或標(biāo)準(zhǔn)差來測度其離散程度。

4)當(dāng)需要對不同組別數(shù)據(jù)的離散程度進(jìn)行比較時,則使用離散系數(shù)。

第三節(jié)數(shù)據(jù)分布形態(tài)的測定

一、分布形態(tài)測定問題的提出和作用

(-)分布形態(tài)測定問題的提出

集中趨勢和離散程度是數(shù)據(jù)分布特征的兩個重要方面,但要想全面了解數(shù)據(jù)的分布特點,我們還

需要知道數(shù)據(jù)的分布形狀,那么如何測定一組數(shù)據(jù)的分布形狀呢?

(-)分布形態(tài)測定的作用

通過分布形態(tài)的測定,我們可以了解數(shù)據(jù)分布形狀的對稱性以及分布曲線的扁平陡峭程度。將這

兩點結(jié)合,我們還可以判斷數(shù)據(jù)是否接近于正態(tài)分布。

二、矩

1.數(shù)據(jù)分布形態(tài)的測度主要是通過偏度系數(shù)和峰度系數(shù)來實現(xiàn)的。矩又是計算偏度系數(shù)和峰度系數(shù)的基

礎(chǔ)

2.矩可分為總體矩和樣本矩

樣本距

一般來說,將一組樣本X”…,X”及其算術(shù)平均數(shù)X離建的k次方的平均數(shù)稱為樣本的k階中心矩,即

ak=——----------<階數(shù)k是正整數(shù))

Zz

Z-1

算術(shù)平均數(shù):一階原點矩

方差:二階中心矩

階數(shù)k=3和k=4時,矩則可以反映數(shù)據(jù)的分布形態(tài)特征。矩可以看成是一系列反映數(shù)據(jù)分布特征指標(biāo)的統(tǒng)

稱。

?三、偏度

偏度(skewness)是指數(shù)據(jù)分布的不對稱程度或偏斜程度。偏度也就是對數(shù)據(jù)非對稱程度和方向的測度。

用來測定偏度的統(tǒng)計量是偏度系數(shù),記作SK.

對于分組數(shù)據(jù),偏度系數(shù)SK的計算公式為:

偏態(tài)系數(shù)性質(zhì):

①如果分布是對稱的,則SK=O;

②如果SKKO,說明分布是非對稱的,

?當(dāng)SK>0時,表明分布是右偏分布(正偏分布);

?當(dāng)SK<0時,表明分布是左偏分布(負(fù)偏分布)。SK的數(shù)值越大,表明數(shù)據(jù)的偏斜程度越大。

四、峰度

1.峰度(kurtosis)是指數(shù)據(jù)分布曲線的陡靖或扁平的程度。

2.對峰度的度量通常以正態(tài)分布曲線為標(biāo)準(zhǔn)進(jìn)行比較。如果比正態(tài)分布曲線更加尖峭,稱為尖峰分布;

如果比正態(tài)分布曲線更加扁平,稱為扁平分布。

3.測度峰度的統(tǒng)計量是峰度系數(shù),記作K。

對于分組數(shù)據(jù),峰度系數(shù)K的計算公式為:

4.峰態(tài)系數(shù)性質(zhì):

?當(dāng)K=0時,說明分布為正態(tài)分布;

?當(dāng)K>0時,說明曲線是尖峰(陡峭)分布,即數(shù)據(jù)比正態(tài)分布更集中,K的數(shù)值越大,則曲線越陡峭;

?當(dāng)K<0時,說明曲線是扁平分布,即數(shù)據(jù)比正態(tài)分布更分散,K的數(shù)值越小,則曲線越平緩。

第五章抽樣分布

第一節(jié)抽樣分布基本概念

一、樣本容量和樣本個數(shù)

1.總體是研究的所有個體構(gòu)成的集合,常用表示

2.從中隨機(jī)抽取部分個體構(gòu)成一個樣本,構(gòu)成樣本的個體的數(shù)目,常用n表示,稱為樣本容量,也稱樣

本量。

二、參數(shù)和統(tǒng)計量

1.參數(shù)是用來描述總體數(shù)量特征的,如總體均值口、總體比例n、總體方差。-等

2.統(tǒng)計量是用來描述樣本數(shù)量特征的,是由樣本構(gòu)造的函數(shù),如樣本均值X、樣本麗P、樣本方差S2

3.由于總體是唯一的、固定不變的,故參數(shù)往往是一個未知的常數(shù);而樣本不唯一,且一旦抽取出來,

就成為已知,故統(tǒng)計量是隨機(jī)變量,其取值隨著樣本的變化而改變。

4.抽樣的目的就是要根據(jù)樣本統(tǒng)計量去估計或推斷總體參數(shù)。

三、抽樣分布

1.統(tǒng)計量是隨機(jī)變量。抽樣分布就是統(tǒng)計量的概率分布

2.樣本均值的概率分布、樣本比例的概率分布、樣本方差的概率分布等都稱為抽樣分布。

3.現(xiàn)實世界中,我們面對的總體往往很大,進(jìn)而樣本數(shù)目將很可觀,不可能將所有的樣本都抽取出來。

因此抽樣分布實質(zhì)上是--種理論分布。它可能是精確的某已知分布,也可能是以某已知分布為極限的

極限分布。

4.抽樣分布理論在推斷統(tǒng)計中具有重要的作用,它是后續(xù)參數(shù)估計和假設(shè)檢驗的

理論依據(jù)和基礎(chǔ)。

四、抽樣分布的數(shù)字特征

(-)樣本均值的數(shù)字特征

1.設(shè)總體的平均數(shù)為U,方差為。2,采取重復(fù)抽樣的方式,從中抽取獨立同分布_

的樣本:X,,X“。根據(jù)數(shù)學(xué)期望和方差的性質(zhì),可推出樣本均值X數(shù)學(xué)期望二均數(shù))、方差及總

體的平均數(shù)、方差之間的關(guān)系

I101520253035404550

T

例題:p|一1~石I~石I_石4~~T*~*7~*J~T另~*

樣本均值的平均數(shù)

總體均值

樣本均值的方差

總體方差

22

o=E(X)-[E(X)f=1100-900=200n

2.以上結(jié)論均建立在重復(fù)抽樣情形下,

若是在不重復(fù)抽樣情形下,方差需要用系數(shù)進(jìn)行修正,從而樣本均值的數(shù)字特征為:

■■■■■

CT2-M?

E(X)=/i^=〃

(-)樣本比例的數(shù)字特征

1.比例:總體(或樣本)中具有某種屬性的個體數(shù)及全部個體數(shù)之比,總體比例記為”。

根據(jù)數(shù)學(xué)期望和方差的性質(zhì),可推出樣本比例P的數(shù)學(xué)期望、方差及總體的平均數(shù)、方差之間的關(guān)系:

用P估計n理論依據(jù)成立

2.以上結(jié)論均建立在重復(fù)抽樣情形下,若是在不重復(fù)抽樣情形下,當(dāng)樣本容量很大時,方差需要用系數(shù)

進(jìn)行修正,從而樣本比例的數(shù)字特征為:

(三)樣本方差的數(shù)字特征

設(shè)總體X方差為。2,采取重復(fù)抽樣

的方式,從中抽取獨立同分布的樣本:X,…,X“根據(jù)數(shù)學(xué)期望和方差的性質(zhì),可推出樣本方差的數(shù)學(xué)期

望、方差及總體的方差之間的關(guān)系為:

以上結(jié)論均建立在重復(fù)抽樣情形下,若是在不重復(fù)抽樣情形下,方差需要用系數(shù)進(jìn)行修正,從而樣本

方差的數(shù)字特征為

(四)標(biāo)準(zhǔn)誤(重點)

統(tǒng)計量抽樣分布的標(biāo)準(zhǔn)差,稱為統(tǒng)計量的標(biāo)準(zhǔn)誤,也稱標(biāo)準(zhǔn)誤差

標(biāo)準(zhǔn)誤可用于說明抽樣誤差的大小。抽樣誤差是指由抽樣的隨機(jī)性引起的樣本結(jié)果及總體的真實值之

間的差異,它描述的是所有樣本可能的結(jié)果及總體真值之間的平均性差異。若總體標(biāo)準(zhǔn)差未知,可用樣本

標(biāo)準(zhǔn)差代替,此時的標(biāo)準(zhǔn)誤稱為估計標(biāo)準(zhǔn)誤。

?樣本均值的標(biāo)準(zhǔn)誤為。X

?樣本比例的標(biāo)準(zhǔn)誤為。P

?樣本方差的標(biāo)準(zhǔn)誤為。9

第二節(jié)幾個常見的抽樣分布

?一、樣本均值的抽樣分布

1.樣本均值的抽樣分布,就是采取重復(fù)抽樣的方式,選取容量為的所有樣本,由樣本均值所有可能的

取值形成的概率分布。

2.分兩種情況來討論樣本均值的抽樣分布類型。

1)總體服從正態(tài)分布

①正態(tài)分布的再生定理;若總體變量X?N(u,。2),從這個總體中抽取容量為n的樣本,則樣本

均值X-N(~o7n)

a)什么是正態(tài)分布

=——e/-ao<x<+<x)

若X的概率密度函數(shù)為:V2ncr

其中,P和。都是參數(shù),且。>0,則稱X服從參數(shù)為P和。的正態(tài)分布,記作

X?N(N,。九

b)正態(tài)分布的概率密度曲線是一條對稱的鐘型曲線。N決定了圖形的中位置,。決定了圖形中曲線的陡

峭程度。

當(dāng)參數(shù)u=0,o=1時,這樣的正態(tài)分布為標(biāo)準(zhǔn)正態(tài)分布,記為N(0,1),其概率密度函數(shù)為:

1上

(p{x)-,——e2(-oo<JC<+a>)o

J27t

2)總體服從非正態(tài)分布

②獨立同分布中心極限定理表明:無論總體服從何種分布,只要其平均數(shù)和方差

存在,那么從中抽取的獨立同分布樣本X”…X.,,其均值在當(dāng)n很大時,就會近似

服從正態(tài)分布X~N(N,。②).

大樣本:n230

總體〈

正杰分布在正態(tài)分布

?二、樣本比例的抽樣分布

1.樣本比例是一種特殊的樣本均值。從而,根據(jù)樣本均值的抽樣分布理論可得樣本比例的抽樣分布

2.大樣本:同時滿足np》5和n(1-p)

3.當(dāng)樣本容量很大時,樣本比例P的抽樣分布為:

…卜,嗎㈤)

4.在不重復(fù)抽樣情形下,當(dāng)樣本容量很大時,樣本比例的抽樣分布為:

?需要修正:對于有限總體,要用修正系數(shù)修正

?不需要修正:無限總體/此時N很大而抽樣比二W5%時,修正系數(shù)趨于1,方差可以按重復(fù)抽樣

情形時(即不用修正)的公式計算

三、樣本方差的抽樣分布(不考)

樣本方差S?的抽樣分布,就是采取重復(fù)抽樣的方式,選取容量為n的所有樣本,由樣本方差S,的所有可能

的取值形成的概率分布。

設(shè)總體服從均值為u,方差S?的正態(tài)分布,及…,X。為來自該總體的樣本,則樣本方差S2的抽樣分布為:

(〃-I

稱服從自由度為n-1的片分布(卡方分布)。

(y'

卡方分布的數(shù)字特征,可得:

2b-N—n

在不重復(fù)抽樣情形下,方差為:N-X

四、t分布和F分布

1.t分布

tX

設(shè)X?N(0,1),Y~/(〃),且X及Y相互獨立,則稱隨機(jī)變量服從自由度為n

的I分布,記作t?t(n)o

?t分布概率密度函數(shù)曲線是以縱軸為對稱軸的單峰對稱圖形。自由度n越大,分布越趨近于標(biāo)準(zhǔn)正態(tài)

分布,當(dāng)〃—00時,分布及標(biāo)準(zhǔn)正態(tài)分布完全一致。

?t分布的數(shù)字特征為:

總體平均數(shù):石(t)=05N2>

方差:

2.F分布

若%~z2(z?Jy~72(々)且x及Y相互獨立,則隨機(jī)變量尸=:/3服從自由度為

的F分布,記作F〃2)。其中,m稱為第一自由度,m稱為第二自由度

F分布的數(shù)字特征為:

總體平均數(shù):

E(X)=—%—(?2>2)

方差:%一2

第六章參數(shù)估計

第一節(jié)點估計

1.點估計的相關(guān)概念

1)點估計是用對應(yīng)的估計量0的某個取值直接作為相應(yīng)總體參數(shù)。的估計值。

【如:我們用樣本均值作為總體均值的估計,用樣本比例作為總體比例的估計,用樣本方差作為總體方差

的估計等】

2)估計量:用于估計總體參數(shù)的隨機(jī)變量

3)估計值:估計參數(shù)時計算出來的統(tǒng)計量的具體值【如果樣本均值x=80,則80就是的估計值】

2.點估計的求解方法

①矩估計法

?用樣本原點矩作為總體原點矩的估計。

設(shè)k個參數(shù)e=(用,4,…&)',求卜個參數(shù)o=(",扇…a)’矩估計

需要建立k個方程,方法是:

]n

設(shè)總體的一個樣本觀測值是(占,刀2,???,X?),其1階原點矩4=一£M,總體觀測量X的1階

n7^

原點矩7/=E〈XD=叫⑥,用樣本原點矩A,作為總體原點矩m,的估計,得出k個方程

4=0(。)Q=L..波),解此方程組得出的即為參數(shù)0的矩估計。

【例6-1】設(shè)總體X的均值u及方差。2都存在但均未知,設(shè)來自總體X的一個樣本是

(X],矛2,…,X"),求U,0的矩估計7,.

解:是兩個參數(shù),故需要建立兩個方程

因為

令[4=.

得依沙尸人+產(chǎn)

?結(jié)論:總體均值的矩估計是樣本均值,而總體方差(即總體向1階中心矩)矩估計是樣本二階中心矩

【求總體均值及方差的矩估計無需知道總體服從什么分布?!?/p>

②最大似然估計法

i.............................二.......................................J

?固定樣本觀測值(不,芍,…,X”),在可能的取值中,挑選使似然函數(shù)£(包達(dá)到最大(從而概率P

達(dá)到最大)的作為參數(shù)。的估計。這樣得到的6稱之為參數(shù)。的最大似然估計。因此,求參數(shù)。的

最大似然估計問題就轉(zhuǎn)化為求似然函數(shù)£(5)的最大值問題了。

?求總體均值及方差的最大似然估計需要知道總體分布。

3.估計量的優(yōu)良性標(biāo)準(zhǔn)

?參數(shù)估計量的評價標(biāo)準(zhǔn):無偏性、有效性和一致性,我們稱之為估計量的優(yōu)良性標(biāo)準(zhǔn)。

1)無偏性

AAAA

設(shè)。為總體參數(shù),。為。的一個估計量,如果夕(。)=0,則稱。是。的無偏估計量。即。是。重心,

A

。及e的距離最近。

2)八有歿性AA

設(shè)A、0為。的兩個無偏估計量,如果有:,(仇)〈/褊)/曲向璃瞰總體參數(shù)

的兩個無偏估計量來說,方差越小的估計量越有效。

3)人一致性aa

設(shè)3為。的一個估計量,若當(dāng)n一時?0依磕;收斂于0,則稱為。而一致估計量。此即隨著樣

本容量n的增大,點估計量越來越接近被估總體參數(shù)o

?估計量樣本平均、樣本比例P、樣本方差小分別是總體平均U、總體比例n、總體方差。的無偏、

有效、一致估計量。即滿足優(yōu)良性標(biāo)準(zhǔn)。

點估計的優(yōu)點是簡潔明了,給出了具體的估計值;缺點是無法提供估計的精度和估計的可靠程度

?第二節(jié)區(qū)間估計

?圍繞點估計值構(gòu)造總體參數(shù)的一個區(qū)間,這就是區(qū)間估計

1.區(qū)間估計的概念

1)區(qū)間估計就是總體參數(shù)。落在區(qū)間估計量(自,①)內(nèi)的概率為1-a,即

尸<^<4)=1-??稱區(qū)間(。,強(qiáng)源體參數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論