統(tǒng)計學筆記(精修版)_第1頁
統(tǒng)計學筆記(精修版)_第2頁
統(tǒng)計學筆記(精修版)_第3頁
統(tǒng)計學筆記(精修版)_第4頁
統(tǒng)計學筆記(精修版)_第5頁
已閱讀5頁,還剩30頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

緒論

第一節(jié)統(tǒng)計學的含義和作用

一、什么是統(tǒng)計學

1.統(tǒng)計學的含義

統(tǒng)計學是有效收集、處理、分析和解釋數(shù)據(jù),發(fā)現(xiàn)規(guī)律,以便更好決策的一門方法論學科。

?2.分析數(shù)據(jù)的方法有描述統(tǒng)計、推斷統(tǒng)計。

⑴描述統(tǒng)計

①描述統(tǒng)計是將所收集的數(shù)據(jù)處理后,用數(shù)值、表格或圖形形式表現(xiàn)的有用信息。

②描述統(tǒng)計是基礎,它為推斷統(tǒng)計、統(tǒng)計咨詢、統(tǒng)計決策提供必要

⑵推斷統(tǒng)計就是根據(jù)樣本數(shù)據(jù)特征去估計或檢驗總體的數(shù)據(jù)特征。

二、統(tǒng)計學的作用和重要性

1.統(tǒng)計學的作用

人們用數(shù)據(jù)發(fā)現(xiàn)的規(guī)律做出更好的決策。

2.要發(fā)現(xiàn)規(guī)律,對統(tǒng)計數(shù)據(jù)通常有要求:客觀性、適用性、準確性和及時性。

三、統(tǒng)計學是如何解決實際問題的?

統(tǒng)計學解決實際問題的基本思路是:

①提出及統(tǒng)計有關的實際問題;

②建立有效的指標體系;

③收集數(shù)據(jù);

④選用或創(chuàng)造有效的統(tǒng)計方法處理、顯示所收集數(shù)據(jù)的特征;

⑤根據(jù)所收集數(shù)據(jù)的特征、結合定性、定量知識作出總體特征的合理推斷;

⑥根據(jù)推斷給出更好決策的建議;

不解決問題時,重復第②-⑥步。

第二節(jié)統(tǒng)計學的基本概念

?一、總體、單位和樣本

1.總體

統(tǒng)計總體是根據(jù)一定口的確定的,由客觀存在的、具有某種同質性的許多個別事物構成的整體。

⑴同質性是確定統(tǒng)計總體的基本標準,它是根據(jù)統(tǒng)計的研究H的而定的。研究R的不同,所確定的總體也不

同,其同質性的意義也隨之變化。

⑵統(tǒng)計總體還應具備大量性,即統(tǒng)計總體應應該由足夠數(shù)量的同質性單位構成。

2.總體單位(簡稱單位)是組成總體的各個個體。如典型案例1中英軍的每架戰(zhàn)機;事例4中的每個居民。

3.由總體的部分單位組成的集合稱為樣本(又稱子樣)。構成樣本的單位稱為樣品,樣本中樣品的數(shù)目稱為

樣本容量。

4.統(tǒng)計學解決問題的目的是認識總體的數(shù)據(jù)特征。但是,當調查是破壞性的,或者出于成本、時間等因素

考慮時,不必要或不可能對構成總體的所有單位都進行調查。

?二、標志、指標(參數(shù))和統(tǒng)計量

1.標志:

(1)總體單位普遍具有的屬性或特征稱為標志。

(2)標志按其表現(xiàn)分為品質標志和數(shù)量標志兩種。

①品質標志表明單位屬性方面的特征,品質標志的表現(xiàn)只能用非數(shù)值來描述.

(如:典型案例1中英軍戰(zhàn)機的類型,事例4中每個居民的性別。)

?②數(shù)量標志表明單位數(shù)量方面的特征,其表現(xiàn)用數(shù)值來描述

(如:典型案例1中英軍戰(zhàn)機的彈孔位置,事例4中每個居民的收入。)

2.參數(shù)(標志)

⑴統(tǒng)計總體具有的數(shù)量特征的概念和數(shù)值稱為統(tǒng)計指標,也稱為參數(shù)。

⑵統(tǒng)計指標由兩項基本要素構成,即指標的概念和指標的取值。

(指標的概念是對所研究現(xiàn)象本質的抽象概括,也是對總體數(shù)量特征的質的規(guī)定性。)

(例如事例4中居民人口數(shù)100萬人,總收入31.4億元。)

⑶統(tǒng)計指標按表示形式可以分為數(shù)量指標和質量指標.

①凡是反映現(xiàn)象總規(guī)模、總水平的統(tǒng)計指標稱為數(shù)量指標,用絕對數(shù)來表示。例如事例4中居民總數(shù)100

萬人、總收入31.4億元等,

②凡是反映現(xiàn)象相對水平和工作質量的統(tǒng)計指標稱為質量指標,用相對數(shù)或平均數(shù)來表示.例如企業(yè)職工平

均工資5000元、工人出勤率93%等。質量指標是總量指標的派生指標,以反映現(xiàn)象之間的內在聯(lián)系和對比

關系。

⑷單個指標不能反映總體的全貌,這便需要設立指標體系。統(tǒng)計指標體系是由一系列相互聯(lián)系的統(tǒng)計指標

組成的有機整體,用以反映所研究現(xiàn)象各方面相互依存相互制約的關系。

3.統(tǒng)計量

⑴統(tǒng)計量是樣本觀測量的一個已知函數(shù),用來說明樣本的特征。是樣本觀測量的一個已知函數(shù),用來說明樣

本的特征。

⑵抽取的樣本不同,統(tǒng)計量的觀測值也就不同。如樣本平均數(shù)、樣本方差、樣本比例是統(tǒng)計量,抽取樣本后,

人們通常用及總體參數(shù)對應的統(tǒng)計量觀測值,作為總體參數(shù)的估計.

(如某汽車制造企業(yè)從生產的一批轎車中抽取了16輛轎車,用這些轎車的平均行駛里程值、合格率值分別

作為該批轎車平均行駛里程、合格率的估計。)

三、數(shù)據(jù)

?(-)變量及變量值

1.即說明現(xiàn)象的某一事實或數(shù)量的特征稱為變量,將上述標志、指標和統(tǒng)計量的名稱進行歸納就是變量。

2.變量的具體表現(xiàn)是變量值,數(shù)據(jù)就是變量及其表現(xiàn),也可稱為反映客觀事物的事實或數(shù)量依據(jù)。

如:收入是一個變量,收入的表現(xiàn)是變量值。

3.將在特定研究過程中收集的所有數(shù)據(jù)集合在一起,稱為數(shù)據(jù)集。

4.根據(jù)變量值的確定及否,變量分為確定性變量(受確定性因素影響,因素是明確的,可解釋,可控制

的)及隨機變量(受許多不確定因素影響,如員工的起床時間)。

(-)數(shù)據(jù)的計量尺度

收集數(shù)據(jù)時需要用到以下四種由低到高的計量尺度:定類尺度、定序尺度、定距尺度和定比尺度,計量尺

度的不同決定了不同的數(shù)據(jù)分析及處理方法。

1.定類尺度是說明客觀現(xiàn)象無序類別的計量。定類尺度的主要數(shù)學特征是“=”或“片”.如居民的性別是

男、女計量,戰(zhàn)機的類型是戰(zhàn)斗機、轟炸機、偵察機等計量,這一場合的所使用的數(shù)值只作為無序分類的代

碼。

2.定序尺度是說明客觀現(xiàn)象有序類別的非數(shù)值計量。定序尺度的主要數(shù)學特征是或.例如,對居

民的滿意度計量可以分為非常滿意、滿意、一般、不滿意、非常不滿意五類。這一場合的所使用的數(shù)值只

作為有序分類的代碼。

3.定距尺度是說明客觀現(xiàn)象數(shù)值間距有意義的計量。其用確切的數(shù)值反映現(xiàn)象之間在量方面的差異,定距

尺度的主要數(shù)學特征是。如總量指標是定距尺度計量的。

(0不代表不存在)

4.定比尺度是說明客觀現(xiàn)象兩個數(shù)值比有意義的計量。定比尺度的主要數(shù)學特征是

如質量指標中的相對數(shù)、平均數(shù)是定比尺度計量的(0代表不存在)

5數(shù)據(jù)分類

⑴定類尺度,定序尺度的數(shù)據(jù)統(tǒng)稱為定性數(shù)據(jù)。定性變量是指帶有定性數(shù)據(jù)的變量。

⑵定距尺度,定比尺度的數(shù)據(jù)統(tǒng)稱為為定量數(shù)據(jù)。定量變量是指帶有定量數(shù)據(jù)的變量。

根據(jù)定量變量值連續(xù)出現(xiàn)及否,定量變量分為連續(xù)性變量及離散型變量。

①連續(xù)型變量是指變量在某一區(qū)域內的取值是連續(xù)不斷的,無法一一列舉。如:軍機的彈孔位置,產品的壽

命等。

②離散型變量是指變量的取值是間斷的,可以一一列舉。例如,產品數(shù)等。

(三)數(shù)據(jù)的類型

根據(jù)對客觀現(xiàn)象觀察的角度不同,統(tǒng)計數(shù)據(jù)可分為:橫截面數(shù)據(jù)、時間序列數(shù)據(jù)和面板數(shù)據(jù)。

1.橫截面數(shù)據(jù)又稱為靜態(tài)數(shù)據(jù),它是指在同一時間對同一總體內不同單位進行觀察而獲得的數(shù)據(jù)。例如,

2014年全國各省、市、自治區(qū)的居民收入總值就屬于橫截面數(shù)據(jù)。

2.時間序列數(shù)據(jù)又稱為動態(tài)數(shù)據(jù),它是指在某一段時期內按時間順序對同一總體進行觀察而獲得的數(shù)據(jù)。

例如,“十二五”期間我國按年份順序的居民收入總值就屬于時間序列數(shù)據(jù)

3.面板數(shù)據(jù)則是同時在時間和截面空間上取得的二維數(shù)據(jù)。例如2005-2014年30個企業(yè)的總產值數(shù)據(jù)。

面板數(shù)據(jù)則由30個企業(yè)10年的數(shù)據(jù)組成,共有300個觀測值。從某一年份看,它是由30個企業(yè)總產值數(shù)

第二章收集數(shù)據(jù)

第一節(jié)統(tǒng)計調查方案設計

調查方案設計是指導整個調查過程的綱領性文件,其主要內容主要包括以下幾個方面:

一、確定調查目的

1.調查要達到的具體目標

2.回答“為什么調查?”

3.調查之前必須明確

二、確定調查對象和調查單位

1.調查對象:調查研究的總體或調查范圍

2.調查單位:需要對之進行調查的單位??梢允钦{查對象的全部單位(全面調查),也可以是調查對

象中的一部分單位(非全面調查)

3.回答“向誰調查?

三、選擇合適的調查方式、調查方法

1.調查方式是指調查的組織方式,主要有:普查、抽樣調查、典型調查、重點調查和統(tǒng)計報表制度

2.調查方法是指收集統(tǒng)計資料的方法,主要有:問卷法、訪談法、觀察法和實驗法

四、設計調查項目和調查表

1.調查項目:調查的具體內容

2.調查表:表現(xiàn)調查項目的表格或問卷。有單一表和一覽表兩種形式。

3.回答“調查什么?"

五、確定調查時間

統(tǒng)計調查時間包括兩種涵義:調查時間和調查期限

1.調查時間:調查資料的所屬時間(時期或時點)。

2.調查期限:進行調查工作的時間,包括搜集資料和報送資料的整個工作所需要的時間

六、調查報告的撰寫

調查報告的撰寫包括:調查過程的描述、依據(jù)調查數(shù)據(jù)所做的決策、對調查結果的評價

【在調查方案中,應給出:提交調查報告的具體時間,并對調查的精度、費用等提出具體要求】

七、制訂調查工作的組織實施計劃

第二節(jié)數(shù)據(jù)收集來源

一、數(shù)據(jù)收集的來源

1.原始數(shù)據(jù):必須要求調研者親自收集

2.二手數(shù)據(jù):調研者需要識別和評估二手數(shù)據(jù)的有效性

二、二手數(shù)據(jù)的收集

1.二手數(shù)據(jù)的來源

⑴內部二手數(shù)據(jù)

⑵外部二手數(shù)據(jù)

2.二手數(shù)據(jù)收集的特點

優(yōu)點:快捷、成本低、易獲取

缺點:相關性差、時效性差、可靠性低

四、二手數(shù)據(jù)收集的注意事項

二手數(shù)據(jù)的評估主要包括:

1.研究目的的評估一調研的目的是什么

2.二手數(shù)據(jù)來源評估-一誰收集了這些資料

3.研究內容評估一一收集了一些什么樣的資料

4.調查方式、方法評估一一這些資料如何獲得的

5.二手數(shù)據(jù)相關性評估一一這些資料及其他資料的一致程度如何

6.二手數(shù)據(jù)時效性評估一一這些資料是何時收集的

第三節(jié)原始數(shù)據(jù)的收集

一、數(shù)據(jù)收集的分類

1.按數(shù)據(jù)收集的組織方式不同,分為統(tǒng)計報表和專門調查

統(tǒng)計報表:按照國家有關法規(guī)的規(guī)定,自上而下地統(tǒng)一布置、自下而上地逐級填報的一種調查組織方

式。

專門調查:為了某一特定目的或專門問題而專門組織的調查

2.按數(shù)據(jù)收集對象包括范圍的大小不同,分為全面調查和非全面調查

全面調查:對構成調查對象中的所有黨委進行一一不漏的調查

非全面調查:是在統(tǒng)計調查過程中,僅對調查中的一部分單位進行調查。包括:抽樣調查、重點調查、典

型調查和非全面統(tǒng)計報表

3.按數(shù)據(jù)收集的登記時間是否連續(xù),分為經常性調查和一次性調查

經常性調杳:又稱連續(xù)性調查,它是為了觀察社會經濟現(xiàn)象在一定時期內的數(shù)量變化所進行的調杳登記或

數(shù)據(jù)收集

一次性調查:又稱不連續(xù)性調查,它是對所研究的社會經濟現(xiàn)象間隔一段時間所進行的調查登記或數(shù)據(jù)收

4.按數(shù)據(jù)收集實施主體的不同,分為政府統(tǒng)計調查和民間統(tǒng)計調查

?二、數(shù)據(jù)收集的調查方式

數(shù)據(jù)收集的調查方式,按照組織方式主要有:普查、抽樣調查、典型調查、重點調查和統(tǒng)計報表制度

1.普查:專門組織的一次性全面調查

普查的特點:

⑴通常是一次性調查,周期性強

⑵全面性調查,收集的資料全面、系統(tǒng)、準確

⑶普查的點多面廣,工作量大,投入多

普查應遵循以下原則:

⑴時間統(tǒng)一性原則

⑵登記工作的規(guī)范性原則

⑶普查項目統(tǒng)一規(guī)定原則

⑷同類普查同周期性原則

2.抽樣調查:從總體中隨機抽取一部分單位作為樣本進行調查,并根據(jù)樣本數(shù)據(jù)推斷總體數(shù)量特征的一

種非全面調查。

⑴概率抽樣:根據(jù)隨機原則從總體中抽選樣本,并根據(jù)樣本信息對總體的某些特征做出估計推斷,對

推斷可能出現(xiàn)的誤差可以從概率意義上加以控制

非概率抽樣:調查組根據(jù)自己的方便或主觀判斷抽取樣本的方法

⑵抽樣調查優(yōu)勢:經濟性、時效性、準確性

⑶幾種具體的抽樣方式:

①簡單隨機抽樣一一是指從總體N個單位中隨機抽取n個單位作為樣本,使每個可能的樣本被抽中

的概率相等的一種抽樣方式。

②分層抽樣一一主要特征分層按比例抽樣,主要使用于總體中的個體有明顯差異。共同點:每個個

體被抽到的概率都相等N/M。

③整群抽樣一一是將總體中各單位歸并成若干個互不交叉、互不重復的集合,稱之為群;然后以群

為抽樣單位抽取樣本的一種抽樣方式?!緫谜撼闃訒r,要求各群有較好的代表性,即群內各單位的差異

要大,群間差異要小】

④等距抽樣一一首先將總體各單位按一定順序排列,更具樣本容量大小確定抽選間隔,然后隨機抽

取一個進入樣本,直到滿足要求為止的一種抽樣方式

⑤多階段抽樣一一是指將抽樣過程分階段進行,每個階段使用的抽樣方法往往不同,即將各種抽樣

方法結合使用,其在大型流行病學調杳中常用。

第一階段,將總體分為若干個一級抽樣單位,從中抽選若干個一級抽樣單位入樣;

第二階段,將入樣的每個一級單位分成若干個二級抽樣單位,從入樣的每個一級單位中各抽選若干個

二級抽樣單位入樣……,依此類推,直到獲得最終樣本

3.典型調查:

從調查對象的全部單位中選擇少數(shù)典型單位進行調查。目的是描述和揭示事物的本質特征和規(guī)律。調查結

果不能用于推斷總體

4.重點調查:

從調查對象的全部單位中選擇少數(shù)重點單位進行調查。調查結果不能用于推斷總體

5.統(tǒng)計報表制度:按照國家有關法規(guī)的規(guī)定,自上而下地統(tǒng)一布置、自下而上地逐級填報的一種調查組織

方式。

統(tǒng)計報表內容:報表目錄、報表表式、填表說明

統(tǒng)計報表的資料來源:原始記錄、統(tǒng)計臺賬、企業(yè)內部報表

三、數(shù)據(jù)收集的方法

1.問卷法:郵寄調查、調查、電腦輔助調查、網(wǎng)絡調查

2.訪談法

優(yōu)點:廣泛地認識客觀現(xiàn)象、深入地研究問題、資料收集可靠和應用面很廣

缺點:必須依賴具有較高素質的訪問員、直接交談會對獲取資料的客觀性產生負面影響、在不便詢問時訪

談無法實施、調查費用大、時間長,可能會碰到意料不到的困難

集體訪談:將一組被調查者集中在調查現(xiàn)場,讓他們對調查的主題發(fā)表意見以獲得資料

【常用的有:頭腦風暴法、德爾非法(專家意見法)、深度訪談法】

個別訪談:調查者對每一名受訪者進行一對一單獨訪談。

3.觀察法:

就調查對象的行動和意識,調查人員邊觀察邊記錄以收集所需信息

調查人員不是強行介入

能夠在被調查者不察覺的情況下獲得資料

4.實驗法

在設定的特殊實驗場所、特殊狀態(tài)下,對調查對象進行實驗以獲得所需資料。有室內實驗法和市場實驗法

第四節(jié)統(tǒng)計數(shù)據(jù)的質量

一、統(tǒng)計數(shù)據(jù)的誤差

統(tǒng)計調杳誤差分為登記性誤差和代表性誤差

1)登記性誤差:由于調查者或被調查者的人為因素所造成的誤差。理論上講可以消除

2)代表性誤差:用樣本數(shù)據(jù)進行推斷時所產生的誤差。通常無法消除,但事先可以進行控制和計算

第三章整理和顯示數(shù)據(jù)

第一節(jié)數(shù)據(jù)的整理及顯示問題的提出

1.根據(jù)解決問題的目的確定分組的變量,如典型案例4中分組的變量為收入。

2.確定組數(shù)等,如典型案例4中,收入由貧到富分為5組,連續(xù)型變量如收入還涉及到確定每組組距、上

限和下限。

3.按不重不漏的原則對數(shù)據(jù)進行分組,確定各組頻數(shù)、頻率,典型案例4還涉及到每組的收入值等。

蟲用表、圖顯示整理的數(shù)據(jù),如表3-1、圖3-1

第二節(jié)定量數(shù)據(jù)的整理及顯示

?一、定量數(shù)據(jù)的整理

1.主要采用統(tǒng)計分組來整理。數(shù)據(jù)分組后,把每組的個數(shù)稱為頻數(shù)。每組個數(shù)所占比例稱為頻率。

2.統(tǒng)計分組就是指根據(jù)統(tǒng)計研究的目的和客觀現(xiàn)象的內在特點,按某個變量(或幾個變量)把被研

究的總體劃分成為若干個不同性質的組,然后再統(tǒng)計出各組的頻數(shù),就形成了一張頻數(shù)分布表。

3.統(tǒng)計分組方法:單變量值分組和組距分組

1)單變量值分組就是將一個變量值作為一組,適合變量值較少的情況。

比如居民家庭按照人口數(shù)進行分組,可分為1口人家庭、2口人家庭、3口人家庭、4口人家庭、5口人

以上家庭的組別。

2)組距式分組是將變量值的一個區(qū)間作為一組,適合于連續(xù)變量和變量值較多的離散型變量情況.組距

式分組可采用等距分組,也可采用不等距分組.

①等距分組是指每組組距相等。

等距分組的基本步驟有:

第一步:確定組數(shù):一般情況下,一批數(shù)據(jù)所分的組數(shù)不應少于5組且不多于15組。在實際分組時,可以

參考經驗公式來確定組數(shù)K,即lg2

第二步:確定組距:組距是一組的上限及下限之差

組距=(最大值-最小值)+組數(shù)

第三步:統(tǒng)計出各組的頻數(shù)并整理成頻數(shù)分布表。

[統(tǒng)計各組頻數(shù)時要注意遵循不重不漏的原則。為解決不重的問題,統(tǒng)計分組時習慣規(guī)定“上組限不在組

內”比如100這一數(shù)值不能算在“90'100”這一組,而是算在“IOO'UO”這一組內?!?/p>

閉口組:有上、下限值

開口組:“XX以下”及“XX以上”

組中值一一常用作各組的代表值:下限及上限之間的中點值,即:

跳下限的開口組的組中值=上限值-鄰組組距

2(100以下,缺下限)

缺上限的開口組的組中值=下限值+鄰顰距

2(90以上,缺上限)

②不等距分組是指并非所有組距都相等。

二、定量數(shù)據(jù)的圖示

定量數(shù)據(jù)常用的統(tǒng)計圖主要有直方圖、莖葉圖、曲線圖、散點圖等。

三、頻數(shù)分布圖的類型

頻數(shù)分布圖則屬于其中一種統(tǒng)計圖,其主要類型有如下三種。

鐘型分布:''兩頭小,中間大”即中間變量值分布的頻數(shù)多,兩端分布頻數(shù)少,

(III)中,其分布特征是以變量的平均數(shù)為對稱軸,左右兩側對稱分布

(I)(II)中為非對稱分布,(I)是右偏分布(II)是左偏分布,

U型分布:“兩頭大,中間小”即中間的變量值分布頻數(shù)少,兩端的變量值分布頻數(shù)多,及鐘型分布剛好相

J型分布:有兩種類型,一種是正J型,即頻數(shù)隨著變量的增大而增多:另一種則呈反J型,即頻數(shù)隨著

變量的增大而減少

第三節(jié)品質數(shù)據(jù)的整理及顯示

一、定類數(shù)據(jù)的整理及圖示

(-)定類數(shù)據(jù)的整理

定類數(shù)據(jù)整理主要用頻數(shù)分布表進行。

(~)定類數(shù)據(jù)的圖示

定類數(shù)據(jù)的圖示主要有條形圖、餅圖等

二、定序數(shù)據(jù)的整理及圖示

(-)定序數(shù)據(jù)的整理

定序數(shù)據(jù)也是采用頻數(shù)分析表進行整理。

還可以計算累計頻數(shù)和累計頻率,累計方法有兩種:向上累計和向下累計。

(")定序數(shù)據(jù)的圖示

定序型數(shù)據(jù)的統(tǒng)計圖主要有累計頻數(shù)分布圖和環(huán)形圖。小)

第四節(jié)圖表的合理使用

一、鑒別圖形優(yōu)劣的準則

(-)一張好的圖形應具有的特征

1.反映數(shù)據(jù)分布特征和規(guī)律。

2.便于比較。

3.有對圖形的描述和文字說明。

(-)鑒別圖形優(yōu)劣的準則

1.是否有助于真實、準確洞察問題的實質。

2.是否提供完整的信息量,是否使復雜的觀點簡單化。

二、統(tǒng)計表的設計

(-)統(tǒng)計表的概念和結構

1.概念

統(tǒng)計表是表現(xiàn)統(tǒng)計資料的一種形式。

2.結構

從形式上看,由四部分構成:

A、總標題:是表的名稱,概括統(tǒng)計表中要說明的內容;

B、橫行標題:是各組的名稱,反映總體各組成部分;

C、縱覽標題:是分組標志或指標的名稱,說明縱行所列各項費料的內容;

D、指標數(shù)值:也稱數(shù)字資料,是統(tǒng)計表的具體內容。

從內容上看,由主詞和賓詞兩個部分組成。主詞是統(tǒng)計表所說明的總體,總體的各組或各組的名稱。賓詞

是用于說明主詞的各種指標。通常,統(tǒng)計表的主詞列在表的左方,其詞列在表的右方,如表3-10所示(P52)

(-)統(tǒng)計表的種類

統(tǒng)計表按照總體分組情況不同,可分為簡單表、分組表和復合表三類。

(三)統(tǒng)計表的編制

1.統(tǒng)計表線條的繪制。

通常統(tǒng)計表的上下端以粗線繪制,表內縱橫線以細線繪制。表格的左右不封口。

2.合計欄的設置

統(tǒng)計表各縱列需要合計時,可將合計列放在最后一行,各橫行若需要合計時,可將合計列放在最前欄

或最后一欄。

3.標題的設計。

統(tǒng)計表的標題要簡明扼要,以簡練而準確的文字來概括統(tǒng)計資料的內容、資料所屬時間、空間等。

4.計量單位的列法。

指標數(shù)值一般要有計量單位,若只有一種計量單位時,可在表右上端注明。如果計量單位不統(tǒng)一,可專

設計量單位欄。

5.標志值的書寫。

標志值應該填寫整齊,對準位數(shù)。當數(shù)值太小可忽略不計時,寫上“0”:當缺失某項資料時,用符號“…”

表示;不應有數(shù)字時,用符號表示。

6.注解或資料來源的標明。

一般而言,統(tǒng)計表下方應該注明資料來源,以便查考、

第四章數(shù)據(jù)分布的數(shù)字特征

第一節(jié)數(shù)據(jù)集中趨勢的測定

一、集中趨勢測定問題的提出和作用

(-)問題的提出

對于總體中的個體數(shù)據(jù),有時會呈現(xiàn)出在一定范圍內以某個數(shù)據(jù)為中心上下波動的分布特征,即

數(shù)據(jù)有時具有它分布的中心,我們稱之為數(shù)據(jù)分布的集中趨勢。該如何測定一組數(shù)據(jù)的集中趨勢呢?

二)集中趨勢測定的作用

1.集中趨勢指標的分類

2.集中趨勢指標的作用

(1)可以反映一組數(shù)據(jù)分布的中心或一般水平;

(2)可以反映同一現(xiàn)象在不同時間或空間條件下的發(fā)展趨勢或差異;

(3)可以用來分析現(xiàn)象之間的依存關系;

(4)樣本平均數(shù)是統(tǒng)計推斷的一個重要統(tǒng)計量。

?二、集中趨勢的測定

(-)數(shù)值平均數(shù)

數(shù)值平均數(shù)只適用于定量數(shù)據(jù)(數(shù)值型數(shù)據(jù)),而不適用于定性數(shù)據(jù)。

?1.算術平均數(shù)

(1)簡單算術平均數(shù)

簡單算術平均數(shù)是根據(jù)未分組數(shù)據(jù)(原始數(shù)據(jù))計算的一種平均數(shù),它是將所有的原始數(shù)據(jù)相加再除以

數(shù)據(jù)總個數(shù)得到的。

①樣本計算的簡單算術平均數(shù)的計算公式是:

②總體數(shù)據(jù)計算的簡單算術平均數(shù)的計算公式為:

(2)加權算術平均數(shù)

①加權算術平均數(shù)是根據(jù)分組數(shù)據(jù)計算的?種平均數(shù)。設樣本被分為k組,各組的頻數(shù)為f,樣本計算的

加權算術平均數(shù)的計算公式為:

其中,Xi有兩種情況:在單變量值分組中,Xi代表各組的變量值;在組距式分組中,Xi代表各組的組中

f,

值,f=l稱作權重(頻率)。

②總體數(shù)據(jù)計算的加權算術平均數(shù)的計算公式為:

(3)算術平均數(shù)的主要數(shù)學性質

①各變量值及其算術平均數(shù)的離差之和等于零;

務年喳h永=。

即:TT

②各變量值及其算術平均數(shù)的離差平方和最小。

£(耳一司2=min或Ea_司2£=rnin

即:日

2.調和平均數(shù)

調和平均數(shù)加權算術平均數(shù)的一種變形。

調和平均數(shù)及加權算術平均數(shù)的關系是:

若已知各組變量值及其標志總量m.(mi=xf),而缺乏的數(shù)據(jù)時,則加權算術平均數(shù)可通過變形

得到f,(fFin./x,)后,再以m;為權數(shù)的調和平均數(shù)形式來計算。

3.幾何平均數(shù)

幾何平均數(shù)是n個變量值連乘積的n次方根

(1)簡單幾何平均數(shù)

當樣本數(shù)據(jù)中各變量值出現(xiàn)的次數(shù)都相同時,用簡單幾何平均數(shù)公式。

式中,X.代表各變量值,n為樣本容量,門為連乘符號

(2)加權幾何平均數(shù)

當樣本數(shù)據(jù)中各變量值出現(xiàn)的次數(shù)不全相同時,用加權幾何平均數(shù)公式。

式中,x,代表各變量值,n為樣本容量,口為連乘符號

【如果獲得一組總體數(shù)據(jù),根據(jù)總體數(shù)據(jù)計算的幾何平均數(shù)/石的公式及樣本數(shù)據(jù)的基本相同。】

需要注意的是:

當數(shù)據(jù)中出現(xiàn)零或負值時不宜計算幾何平均數(shù);

幾何平均數(shù)是一種適用于特殊數(shù)據(jù)的平均數(shù),當變量值之間具有連乘積關系時,采用幾何平均數(shù)更加合理;

現(xiàn)實生活中,幾何平均數(shù)主要用于計算現(xiàn)象的平均增長率和平均發(fā)展速度(詳見本書第九章)。

(-)位置代表值

1.眾數(shù)

1)眾數(shù)(Mode)是一組數(shù)據(jù)中出現(xiàn)頻數(shù)最多的變量值,通常用符號表示。

2)眾數(shù)代表的是最常見、最普遍的情況。眾數(shù)不僅可以度量定性數(shù)據(jù)的集中趨勢,還可以度量定量數(shù)據(jù)

的集中趨勢。

3)眾數(shù)的特點:

?眾數(shù)是位置型平均數(shù),它只及位置有關,不受數(shù)據(jù)中極端值的影響;

②從分布形態(tài)上看,眾數(shù)是一組數(shù)據(jù)分布最高峰點所對應的變量值;

眾數(shù)具有不唯一性(可以有一個或多個或沒有)

4)組距式分組數(shù)據(jù)中眾數(shù)的求解較為復雜。在組距式分組數(shù)據(jù)中,求解眾數(shù)的步驟:

①先要確定眾數(shù)所在組;

如果是等距分組數(shù)據(jù),那么次數(shù)最多的那一組就為眾數(shù)組;如果是不等距分組數(shù)據(jù),那么組密度(組

頻率/組距)最大的組就為眾數(shù)組。

②之后再按照下列公式求解眾數(shù)的近似值。計算公式如下:

xd

匕一九)+£一“)

下限公式:

力一北1

xd

_-

或上限公式:(Z.ZH)+(4)ZH4)

2.中位數(shù)

1)中位數(shù)是?組數(shù)據(jù)從小到大排序后位于中間位置上的變量值,通常用符號表示。

2)由于中位數(shù)和位置有關,所以中位數(shù)只能度量定序數(shù)據(jù)和數(shù)值型數(shù)據(jù)的集中趨勢;

3)求解中位數(shù)的步驟:

①首先,對數(shù)據(jù)進行排序;

②其次,確定中位數(shù)的位置,即中間位置;

③最后,計算中間位置上的變量值。

4)中位數(shù)的位置計算公式為:

①數(shù)據(jù)個數(shù)n為奇數(shù),

中位數(shù)為:2

②數(shù)據(jù)個數(shù)n為偶數(shù)

,2四刎

中位數(shù)為:

③分組數(shù)據(jù)中位數(shù)的求解

對于分組數(shù)據(jù)而言,不需要再另外排序,直接按照分組的順序即可。

分組數(shù)據(jù)中位數(shù)的位置計算公式:

求出中位數(shù)位置后,按照下列公式求解中位數(shù)的近似值。

MB公式:

M-----xd(4.13)

或上限公式:

Af?U——2----xd(4.14)

(看例題Pea)

5)中位數(shù)特點及應用

①中位數(shù)是位置型度量值,其特點是不受極端值的影響,因此具有穩(wěn)定性;

②在實際運用中,當數(shù)據(jù)的偏斜程度較大時,用中位數(shù)作為該組數(shù)據(jù)一般水平的代表值比較合適。

6)分位數(shù)

①實際上,測度數(shù)據(jù)在特定位置上的水平,還可以計算四分位數(shù)、十分位數(shù)和百分位數(shù)等,我們統(tǒng)稱它

們?yōu)榉治粩?shù)。

②四分位數(shù)的計算方法:

A.四分位數(shù):定義:一組數(shù)據(jù)由小到大排序后位于25%位置和75%位置處的變量值。

【位于在25%位置處的變量值(即下四分位數(shù),用符號Q表示)和處在75%位置處的變量值(即上四分位數(shù),

用符號Q、表示),上、下四分位數(shù)之間恰好包含了50*的數(shù)據(jù)。】

B.求解四分位數(shù)的步驟

a)先排序;

b)然后確定上、下四分位數(shù)的位置;

c)最后,求相應位置上的變量值。(看例題Pg)

7)箱線圖

將中位數(shù)、四分位數(shù)和其他指標結合起來,可以更詳細的反應數(shù)據(jù)的分布特征。箱線圖是由一組數(shù)據(jù)的最

小值(X".")、最大值(4J、下四分位數(shù)(Q,)、上四分位數(shù)(Q,)和中位數(shù)(M。)這五個特征值構成。通過

箱線圖,可以觀察數(shù)據(jù)的中心位置、離散程度及對稱性等特征,同時還可以進行多組數(shù)據(jù)分布的比較。

(三)算術平均數(shù)、眾數(shù)和中位數(shù)三者的比較及應用

(1)算術平均數(shù)屬于數(shù)值型平均數(shù),它是根據(jù)全部數(shù)據(jù)計算的集中趨勢測度值,因此可以綜合反映全部數(shù)

據(jù)的信息;眾數(shù)和中位數(shù)屬于位置型代表值,它們是根據(jù)數(shù)據(jù)分布的特定位置確定出的集中趨勢測度值,

因此不能概括全部數(shù)據(jù)的信息

(2)算術平均數(shù)和中位數(shù)在任何一組數(shù)據(jù)中都存在且具有唯一性,但不一定所有數(shù)據(jù)都存在眾數(shù),且眾數(shù)

也不具有唯一性。一般情況下,在數(shù)據(jù)量充分大并且具有明顯集中趨勢時,計算眾數(shù)才有意義:

(3)算術平均數(shù)只適用于定量數(shù)據(jù),中位數(shù)適用于定序數(shù)據(jù)和定量數(shù)據(jù),眾數(shù)則適用于所有數(shù)據(jù),即定性

數(shù)據(jù)和定量數(shù)據(jù)均可;

(4)算術平均數(shù)受極端值的影響,因此,當數(shù)據(jù)偏斜程度較大時(數(shù)據(jù)中存在極端值),不宜用算術平均

數(shù)來代表數(shù)據(jù)的一般水平。眾數(shù)和中位數(shù)不受極端值的影響,因此,當數(shù)據(jù)偏斜程度較大時,可以考慮用

眾數(shù)或中位數(shù)來代表數(shù)據(jù)的一般水平;

(5)算術平均數(shù)可以估計或推斷總體特征值。而眾數(shù)和中位數(shù)不宜用作此類推斷

<6)算術平均數(shù)和眾數(shù)、中位數(shù)的數(shù)量關系主要取決于數(shù)據(jù)分布的偏斜程度(非對稱程度)

①對于呈現(xiàn)單峰分布的數(shù)據(jù),如果數(shù)據(jù)的分布是對稱的,則眾數(shù)M。、中位數(shù)Me和算術平均數(shù)X三者相

等,BPM~t.=X-

②如果數(shù)據(jù)呈現(xiàn)左偏(負偏)分布,說明數(shù)據(jù)中存在極小值

從而略使中位數(shù)偏小,而眾數(shù)則完全不受極小值大小和位置的影響,因此一般情況下,三者的關系表現(xiàn)為

X<Me<Mo-

(3)如果數(shù)據(jù)呈現(xiàn)右偏(正偏)分布,則一般有:M0<Me<X—

(7)皮爾遜經驗公式數(shù)據(jù)呈現(xiàn)偏斜但偏斜程度不大時,算術平均數(shù)、眾數(shù)和中位數(shù)之間存在一定的比例關

系,即「混蟲工現(xiàn))

第二節(jié)數(shù)據(jù)離散程度的測定

一、離散程度測定問題的提出和作用

(-)離散程度測定問題的提出

由于差異性是數(shù)據(jù)的本質屬性,所以各個數(shù)據(jù)及其分布中心之間總是存在著不同程度的偏離。我

們把數(shù)據(jù)偏離其中心值的程度叫做離散程度,離散程度可以說明數(shù)據(jù)之間差異程度的大小,那么如何測定

一組數(shù)據(jù)的離散程度呢?

(-)離散程度測定的作用

離散程度的大小主要通過變異指標來測定。變異指標的主要作用有:

1.可以衡量平均指標的代表程度。變異指標值越大,則數(shù)據(jù)的離散程度越大、數(shù)據(jù)越分散,繼而平均指標

的代表性就越弱;反之,變異指標值越小,則數(shù)據(jù)的離散程度越小、數(shù)據(jù)越集中,繼而平均指標的代表性

就越強;

2.可以反映數(shù)據(jù)的穩(wěn)定性和均衡性。變異指標值越大,則數(shù)據(jù)的離散程度越大,數(shù)據(jù)的穩(wěn)定性和均衡性就

越差;反之,則數(shù)據(jù)的離散程度越小,數(shù)據(jù)的穩(wěn)定性和均衡性就越好。

二、離散程度的測定

(-)異眾比率

1.異眾比率是指非眾數(shù)組的頻數(shù)占總頻數(shù)的比重,通常用Vr表示,計算公式為:

式中:,雨是眾數(shù)組的頻數(shù);j是變量值的總頻數(shù)

2.異眾比率的特點:

1)可用來衡量眾數(shù)的代表性強弱,即,異眾比率越大,則眾數(shù)的代表性越弱;反之,眾數(shù)的代表性就越

強;

2)異眾比率主要用于測度定性數(shù)據(jù)的離散程度,也可以用于定量數(shù)據(jù)離散程度的測度。

(-)極差、四分位差和平均差

1.極差

極差(Range)又稱全距,是一組數(shù)據(jù)中最大值及最小值之差,通常用R表示。計算公式為:

R=max(x,.)-min(x,.)

1)對于原始數(shù)據(jù)和單變量值分組數(shù)據(jù):M不)為一組數(shù)據(jù)的最大值;血1不)為一組數(shù)據(jù)的最小值。

2)對于組距式分組數(shù)據(jù),極差就用變量值最大組的上限減去變量值最小組的下限近似得到。

3)極差的特點:極差是變異指標中最簡單的測度值,其優(yōu)點是計算簡便、易于掌握。但因極差只利用了

?組數(shù)據(jù)兩端的信息,容易受到極端值的影響。因此,極差不能全面、穩(wěn)定地反映數(shù)據(jù)的離散程度。

2.四分位差

1)四分位差是指上四分位數(shù)(Q.)及下四分位數(shù)(Q,)之差,因此也叫內距或四分間距,通常用表示。

計算公式為:Qd=Qu-QL

2)四分位差特點:

①四分位差只能說明中間50%數(shù)據(jù)的離散程度,它依然不能充分反映全部數(shù)據(jù)的離散狀況。四分位差越

大,說明中間50%數(shù)據(jù)的離散程度越大;四分位差越小,說明中間50%數(shù)據(jù)的離散程度越??;

②在一定程度上,四分位差也可以反映中位數(shù)的代表性好壞;

(3)四分位差是一種順序統(tǒng)計量,因此四分位差適用于測度定序數(shù)據(jù)和定量數(shù)據(jù)的離散程度。

3.平均差

1)平均差(meandeviation)是各變量值及其算術平均數(shù)離差絕對值的平均數(shù)。因此,也稱平均絕對離差,

通常用M.D表示。

2)平均差的計算有兩種情況

①簡單平均法

如果數(shù)據(jù)是未分組數(shù)據(jù)(原始數(shù)據(jù)),則用簡單算術平均法來計算平均差:

②加權平均法

如果數(shù)據(jù)是分組數(shù)據(jù),采用加權算術平均法來計算平均差:

3)平均差的特點:

①平均差意義明確,計算結果易于理解,并且利用了全部數(shù)據(jù)的信息,反映了每個變量值及平均

數(shù)的平均差異程度。因此能全面地反映一組數(shù)據(jù)的離散狀況。平均差越大,則數(shù)據(jù)的離散程度

越大;平均差越小,則數(shù)據(jù)的離散程度越小;

②為了避免正負離差相互抵消的現(xiàn)象發(fā)生,平均差在計算時給離差加上了絕對值。但由于絕對值

的出現(xiàn)給計算帶來了很大的不便,因此在實際應用中受到很大的限制。

?(三)方差和標準差

1)方差是各變量值及其算術平均數(shù)離差平方的算術平均數(shù)。標準差就是方差的平方根。

2)方差、標準差特點:

①方差、標準差利用了全部數(shù)據(jù)的信息,能較好地反映數(shù)據(jù)的離散程度;

②方差、標準差是通過平方的方法消去離差的正負號,這更便于數(shù)學上的處理。因此,方差、標

準差是統(tǒng)計中最重要的變異指標,同時也是實際中應用最廣泛的離散程度測度值。

3)方差、標準差計算公式

總體數(shù)據(jù)

樣本數(shù)據(jù)

①未分組數(shù)據(jù)(原始數(shù)據(jù))的樣本方差和樣木標準差的計算公式分別為:

②分組數(shù)據(jù)的樣本方差和樣本標準差的計算公式分別為:

H)2/七(A;一石2f

s'『-------S=-------------

'i=,(k為組數(shù))

。(四)標準化值(標準分數(shù))

標準化值就是用各變量值及其平均數(shù)的離差再除以其標準差。

1)標準化值的計算公式為:

2)標準化值的特點:

標準化值具有均值為0,標準差為I的特性。

3)經驗法則【3。質量管理法則的原理】

使用條件:在正態(tài)分布或近似正態(tài)分布(對稱的鐘型分布)的條件下

?大約有68%的數(shù)據(jù)位于均值±1個標準差范圍內;

?大約有95%的數(shù)據(jù)位于均值±2個標準差范圍內;

?大約有99%的數(shù)據(jù)位于均值土3個標準差范圍內

4)切比雪夫定理

利用切比雪夫定理來判斷有多少的數(shù)據(jù)落入以均值為中心的k(標準化值)個標準差范圍內。

使用條件:任意分布形態(tài)的數(shù)據(jù):

根據(jù)切比雪夫定理的內容,至少有(1—4工)的數(shù)據(jù)落入均值左右k個標準差范圍內,其中k

為大于1的任意數(shù),當然也可以為小數(shù)。

?k=2說明至少有75%的數(shù)據(jù)落入均值±2個標準差范圍內;

?k=3說明至少有89%的數(shù)據(jù)落入均值土3個標準差范圍內;

?k=4說明至少有94%的數(shù)據(jù)落入均值±4個標準差范圍內。

?(五)離散系數(shù)

?離散系數(shù)也稱變異系數(shù)(coefficientofvariation),它是極差、四分位差、平均差或標準差等變

異指標及其算術平均數(shù)對比的結果。

?常用的離散系數(shù)有極差系數(shù)、平均差系數(shù)和標準差系數(shù),但應用最廣泛的是標準差系數(shù)。

?標準差系數(shù)的計算公式:

?離散系數(shù)的作用

離散系數(shù)是測度數(shù)據(jù)離散程度的相對統(tǒng)計量,可用于比較不同變量值水平或不同計量單位的不同組別

數(shù)據(jù)的離散程度。離散系數(shù)大的,則該組數(shù)據(jù)的離散程度就大;離散系數(shù)小的,則該組數(shù)據(jù)的離散程度就

小。

總結:反映數(shù)據(jù)離散程度的各測定值的應用場合

1)對于分類數(shù)據(jù),主要用異眾比率來測度其離散程度;

2)對于順序數(shù)據(jù),主要用四分位差來測度其離散程度;

3)對于數(shù)值型數(shù)據(jù),主要用方差或標準差來測度其離散程度。

4)當需要對不同組別數(shù)據(jù)的離散程度進行比較時,則使用離散系數(shù)。

第三節(jié)數(shù)據(jù)分布形態(tài)的測定

一、分布形態(tài)測定問題的提出和作用

(-)分布形態(tài)測定問題的提出

集中趨勢和離散程度是數(shù)據(jù)分布特征的兩個重要方面,但要想全面了解數(shù)據(jù)的分布特點,我們還

需要知道數(shù)據(jù)的分布形狀,那么如何測定一組數(shù)據(jù)的分布形狀呢?

(-)分布形態(tài)測定的作用

通過分布形態(tài)的測定,我們可以了解數(shù)據(jù)分布形狀的對稱性以及分布曲線的扁平陡峭程度。將這

兩點結合,我們還可以判斷數(shù)據(jù)是否接近于正態(tài)分布。

二、矩

1.數(shù)據(jù)分布形態(tài)的測度主要是通過偏度系數(shù)和峰度系數(shù)來實現(xiàn)的。矩又是計算偏度系數(shù)和峰度系數(shù)的基

2.矩可分為總體矩和樣本矩

樣本距

一般來說,將一組樣本X”…,X”及其算術平均數(shù)X離建的k次方的平均數(shù)稱為樣本的k階中心矩,即

ak=——----------<階數(shù)k是正整數(shù))

Zz

Z-1

算術平均數(shù):一階原點矩

方差:二階中心矩

階數(shù)k=3和k=4時,矩則可以反映數(shù)據(jù)的分布形態(tài)特征。矩可以看成是一系列反映數(shù)據(jù)分布特征指標的統(tǒng)

稱。

?三、偏度

偏度(skewness)是指數(shù)據(jù)分布的不對稱程度或偏斜程度。偏度也就是對數(shù)據(jù)非對稱程度和方向的測度。

用來測定偏度的統(tǒng)計量是偏度系數(shù),記作SK.

對于分組數(shù)據(jù),偏度系數(shù)SK的計算公式為:

偏態(tài)系數(shù)性質:

①如果分布是對稱的,則SK=O;

②如果SKKO,說明分布是非對稱的,

?當SK>0時,表明分布是右偏分布(正偏分布);

?當SK<0時,表明分布是左偏分布(負偏分布)。SK的數(shù)值越大,表明數(shù)據(jù)的偏斜程度越大。

四、峰度

1.峰度(kurtosis)是指數(shù)據(jù)分布曲線的陡靖或扁平的程度。

2.對峰度的度量通常以正態(tài)分布曲線為標準進行比較。如果比正態(tài)分布曲線更加尖峭,稱為尖峰分布;

如果比正態(tài)分布曲線更加扁平,稱為扁平分布。

3.測度峰度的統(tǒng)計量是峰度系數(shù),記作K。

對于分組數(shù)據(jù),峰度系數(shù)K的計算公式為:

4.峰態(tài)系數(shù)性質:

?當K=0時,說明分布為正態(tài)分布;

?當K>0時,說明曲線是尖峰(陡峭)分布,即數(shù)據(jù)比正態(tài)分布更集中,K的數(shù)值越大,則曲線越陡峭;

?當K<0時,說明曲線是扁平分布,即數(shù)據(jù)比正態(tài)分布更分散,K的數(shù)值越小,則曲線越平緩。

第五章抽樣分布

第一節(jié)抽樣分布基本概念

一、樣本容量和樣本個數(shù)

1.總體是研究的所有個體構成的集合,常用表示

2.從中隨機抽取部分個體構成一個樣本,構成樣本的個體的數(shù)目,常用n表示,稱為樣本容量,也稱樣

本量。

二、參數(shù)和統(tǒng)計量

1.參數(shù)是用來描述總體數(shù)量特征的,如總體均值口、總體比例n、總體方差。-等

2.統(tǒng)計量是用來描述樣本數(shù)量特征的,是由樣本構造的函數(shù),如樣本均值X、樣本麗P、樣本方差S2

3.由于總體是唯一的、固定不變的,故參數(shù)往往是一個未知的常數(shù);而樣本不唯一,且一旦抽取出來,

就成為已知,故統(tǒng)計量是隨機變量,其取值隨著樣本的變化而改變。

4.抽樣的目的就是要根據(jù)樣本統(tǒng)計量去估計或推斷總體參數(shù)。

三、抽樣分布

1.統(tǒng)計量是隨機變量。抽樣分布就是統(tǒng)計量的概率分布

2.樣本均值的概率分布、樣本比例的概率分布、樣本方差的概率分布等都稱為抽樣分布。

3.現(xiàn)實世界中,我們面對的總體往往很大,進而樣本數(shù)目將很可觀,不可能將所有的樣本都抽取出來。

因此抽樣分布實質上是--種理論分布。它可能是精確的某已知分布,也可能是以某已知分布為極限的

極限分布。

4.抽樣分布理論在推斷統(tǒng)計中具有重要的作用,它是后續(xù)參數(shù)估計和假設檢驗的

理論依據(jù)和基礎。

四、抽樣分布的數(shù)字特征

(-)樣本均值的數(shù)字特征

1.設總體的平均數(shù)為U,方差為。2,采取重復抽樣的方式,從中抽取獨立同分布_

的樣本:X,,X“。根據(jù)數(shù)學期望和方差的性質,可推出樣本均值X數(shù)學期望二均數(shù))、方差及總

體的平均數(shù)、方差之間的關系

I101520253035404550

T

例題:p|一1~石I~石I_石4~~T*~*7~*J~T另~*

樣本均值的平均數(shù)

總體均值

樣本均值的方差

總體方差

22

o=E(X)-[E(X)f=1100-900=200n

2.以上結論均建立在重復抽樣情形下,

若是在不重復抽樣情形下,方差需要用系數(shù)進行修正,從而樣本均值的數(shù)字特征為:

■■■■■

CT2-M?

E(X)=/i^=〃

(-)樣本比例的數(shù)字特征

1.比例:總體(或樣本)中具有某種屬性的個體數(shù)及全部個體數(shù)之比,總體比例記為”。

根據(jù)數(shù)學期望和方差的性質,可推出樣本比例P的數(shù)學期望、方差及總體的平均數(shù)、方差之間的關系:

用P估計n理論依據(jù)成立

2.以上結論均建立在重復抽樣情形下,若是在不重復抽樣情形下,當樣本容量很大時,方差需要用系數(shù)

進行修正,從而樣本比例的數(shù)字特征為:

(三)樣本方差的數(shù)字特征

設總體X方差為。2,采取重復抽樣

的方式,從中抽取獨立同分布的樣本:X,…,X“根據(jù)數(shù)學期望和方差的性質,可推出樣本方差的數(shù)學期

望、方差及總體的方差之間的關系為:

以上結論均建立在重復抽樣情形下,若是在不重復抽樣情形下,方差需要用系數(shù)進行修正,從而樣本

方差的數(shù)字特征為

(四)標準誤(重點)

統(tǒng)計量抽樣分布的標準差,稱為統(tǒng)計量的標準誤,也稱標準誤差

標準誤可用于說明抽樣誤差的大小。抽樣誤差是指由抽樣的隨機性引起的樣本結果及總體的真實值之

間的差異,它描述的是所有樣本可能的結果及總體真值之間的平均性差異。若總體標準差未知,可用樣本

標準差代替,此時的標準誤稱為估計標準誤。

?樣本均值的標準誤為。X

?樣本比例的標準誤為。P

?樣本方差的標準誤為。9

第二節(jié)幾個常見的抽樣分布

?一、樣本均值的抽樣分布

1.樣本均值的抽樣分布,就是采取重復抽樣的方式,選取容量為的所有樣本,由樣本均值所有可能的

取值形成的概率分布。

2.分兩種情況來討論樣本均值的抽樣分布類型。

1)總體服從正態(tài)分布

①正態(tài)分布的再生定理;若總體變量X?N(u,。2),從這個總體中抽取容量為n的樣本,則樣本

均值X-N(~o7n)

a)什么是正態(tài)分布

=——e/-ao<x<+<x)

若X的概率密度函數(shù)為:V2ncr

其中,P和。都是參數(shù),且。>0,則稱X服從參數(shù)為P和。的正態(tài)分布,記作

X?N(N,。九

b)正態(tài)分布的概率密度曲線是一條對稱的鐘型曲線。N決定了圖形的中位置,。決定了圖形中曲線的陡

峭程度。

當參數(shù)u=0,o=1時,這樣的正態(tài)分布為標準正態(tài)分布,記為N(0,1),其概率密度函數(shù)為:

1上

(p{x)-,——e2(-oo<JC<+a>)o

J27t

2)總體服從非正態(tài)分布

②獨立同分布中心極限定理表明:無論總體服從何種分布,只要其平均數(shù)和方差

存在,那么從中抽取的獨立同分布樣本X”…X.,,其均值在當n很大時,就會近似

服從正態(tài)分布X~N(N,。②).

大樣本:n230

總體〈

正杰分布在正態(tài)分布

?二、樣本比例的抽樣分布

1.樣本比例是一種特殊的樣本均值。從而,根據(jù)樣本均值的抽樣分布理論可得樣本比例的抽樣分布

2.大樣本:同時滿足np》5和n(1-p)

3.當樣本容量很大時,樣本比例P的抽樣分布為:

…卜,嗎㈤)

4.在不重復抽樣情形下,當樣本容量很大時,樣本比例的抽樣分布為:

?需要修正:對于有限總體,要用修正系數(shù)修正

?不需要修正:無限總體/此時N很大而抽樣比二W5%時,修正系數(shù)趨于1,方差可以按重復抽樣

情形時(即不用修正)的公式計算

三、樣本方差的抽樣分布(不考)

樣本方差S?的抽樣分布,就是采取重復抽樣的方式,選取容量為n的所有樣本,由樣本方差S,的所有可能

的取值形成的概率分布。

設總體服從均值為u,方差S?的正態(tài)分布,及…,X。為來自該總體的樣本,則樣本方差S2的抽樣分布為:

(〃-I

稱服從自由度為n-1的片分布(卡方分布)。

(y'

卡方分布的數(shù)字特征,可得:

2b-N—n

在不重復抽樣情形下,方差為:N-X

四、t分布和F分布

1.t分布

tX

設X?N(0,1),Y~/(〃),且X及Y相互獨立,則稱隨機變量服從自由度為n

的I分布,記作t?t(n)o

?t分布概率密度函數(shù)曲線是以縱軸為對稱軸的單峰對稱圖形。自由度n越大,分布越趨近于標準正態(tài)

分布,當〃—00時,分布及標準正態(tài)分布完全一致。

?t分布的數(shù)字特征為:

總體平均數(shù):石(t)=05N2>

方差:

2.F分布

若%~z2(z?Jy~72(々)且x及Y相互獨立,則隨機變量尸=:/3服從自由度為

的F分布,記作F〃2)。其中,m稱為第一自由度,m稱為第二自由度

F分布的數(shù)字特征為:

總體平均數(shù):

E(X)=—%—(?2>2)

方差:%一2

第六章參數(shù)估計

第一節(jié)點估計

1.點估計的相關概念

1)點估計是用對應的估計量0的某個取值直接作為相應總體參數(shù)。的估計值。

【如:我們用樣本均值作為總體均值的估計,用樣本比例作為總體比例的估計,用樣本方差作為總體方差

的估計等】

2)估計量:用于估計總體參數(shù)的隨機變量

3)估計值:估計參數(shù)時計算出來的統(tǒng)計量的具體值【如果樣本均值x=80,則80就是的估計值】

2.點估計的求解方法

①矩估計法

?用樣本原點矩作為總體原點矩的估計。

設k個參數(shù)e=(用,4,…&)',求卜個參數(shù)o=(",扇…a)’矩估計

需要建立k個方程,方法是:

]n

設總體的一個樣本觀測值是(占,刀2,???,X?),其1階原點矩4=一£M,總體觀測量X的1階

n7^

原點矩7/=E〈XD=叫⑥,用樣本原點矩A,作為總體原點矩m,的估計,得出k個方程

4=0(。)Q=L..波),解此方程組得出的即為參數(shù)0的矩估計。

【例6-1】設總體X的均值u及方差。2都存在但均未知,設來自總體X的一個樣本是

(X],矛2,…,X"),求U,0的矩估計7,.

解:是兩個參數(shù),故需要建立兩個方程

因為

令[4=.

得依沙尸人+產

?結論:總體均值的矩估計是樣本均值,而總體方差(即總體向1階中心矩)矩估計是樣本二階中心矩

【求總體均值及方差的矩估計無需知道總體服從什么分布?!?/p>

②最大似然估計法

i.............................二.......................................J

?固定樣本觀測值(不,芍,…,X”),在可能的取值中,挑選使似然函數(shù)£(包達到最大(從而概率P

達到最大)的作為參數(shù)。的估計。這樣得到的6稱之為參數(shù)。的最大似然估計。因此,求參數(shù)。的

最大似然估計問題就轉化為求似然函數(shù)£(5)的最大值問題了。

?求總體均值及方差的最大似然估計需要知道總體分布。

3.估計量的優(yōu)良性標準

?參數(shù)估計量的評價標準:無偏性、有效性和一致性,我們稱之為估計量的優(yōu)良性標準。

1)無偏性

AAAA

設。為總體參數(shù),。為。的一個估計量,如果夕(。)=0,則稱。是。的無偏估計量。即。是。重心,

A

。及e的距離最近。

2)八有歿性AA

設A、0為。的兩個無偏估計量,如果有:,(仇)〈/褊)/曲向璃瞰總體參數(shù)

的兩個無偏估計量來說,方差越小的估計量越有效。

3)人一致性aa

設3為。的一個估計量,若當n一時?0依磕;收斂于0,則稱為。而一致估計量。此即隨著樣

本容量n的增大,點估計量越來越接近被估總體參數(shù)o

?估計量樣本平均、樣本比例P、樣本方差小分別是總體平均U、總體比例n、總體方差。的無偏、

有效、一致估計量。即滿足優(yōu)良性標準。

點估計的優(yōu)點是簡潔明了,給出了具體的估計值;缺點是無法提供估計的精度和估計的可靠程度

?第二節(jié)區(qū)間估計

?圍繞點估計值構造總體參數(shù)的一個區(qū)間,這就是區(qū)間估計

1.區(qū)間估計的概念

1)區(qū)間估計就是總體參數(shù)。落在區(qū)間估計量(自,①)內的概率為1-a,即

尸<^<4)=1-??稱區(qū)間(。,強源體參數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論