第二章描述統(tǒng)計課件_第1頁
第二章描述統(tǒng)計課件_第2頁
第二章描述統(tǒng)計課件_第3頁
第二章描述統(tǒng)計課件_第4頁
第二章描述統(tǒng)計課件_第5頁
已閱讀5頁,還剩84頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第一部分:描述統(tǒng)計第一部分:描述統(tǒng)計第二章第二章 組織數(shù)據(jù)組織數(shù)據(jù)第三章第三章 集中趨勢的測量集中趨勢的測量第四章第四章 變異性的測量變異性的測量 主要內(nèi)容主要內(nèi)容第二章第二章 組織數(shù)據(jù)組織數(shù)據(jù)定類、定序數(shù)據(jù)的整理定類、定序數(shù)據(jù)的整理與顯示與顯示定距數(shù)據(jù)的整理與顯示定距數(shù)據(jù)的整理與顯示統(tǒng)計表統(tǒng)計表數(shù)據(jù)的預處理數(shù)據(jù)的預處理第一節(jié)第一節(jié) 數(shù)據(jù)的預處理數(shù)據(jù)的預處理 數(shù)據(jù)審核數(shù)據(jù)審核 數(shù)據(jù)篩選數(shù)據(jù)篩選 數(shù)據(jù)排序數(shù)據(jù)排序 變量計算變量計算一、數(shù)據(jù)的審核一、數(shù)據(jù)的審核 (一)原始數(shù)據(jù)的審核(一)原始數(shù)據(jù)的審核 邏輯檢查邏輯檢查:從定性角度,審核數(shù)據(jù)是否符合:從定性角度,審核數(shù)據(jù)是否符合邏輯,內(nèi)容是否合理,

2、各項目或數(shù)字之間有邏輯,內(nèi)容是否合理,各項目或數(shù)字之間有無相互矛盾的現(xiàn)象。(主要用于對定類數(shù)據(jù)無相互矛盾的現(xiàn)象。(主要用于對定類數(shù)據(jù)和定序數(shù)據(jù)的審核)和定序數(shù)據(jù)的審核) 計算檢查計算檢查:檢查調(diào)查表中的各項數(shù)據(jù)在計算:檢查調(diào)查表中的各項數(shù)據(jù)在計算結(jié)果和計算方法上有無錯誤。(主要用于對結(jié)果和計算方法上有無錯誤。(主要用于對定距數(shù)據(jù)的審核)定距數(shù)據(jù)的審核)(二)二手數(shù)據(jù)的審核(二)二手數(shù)據(jù)的審核 適用性審核:適用性審核:弄清楚數(shù)據(jù)的來源、數(shù)據(jù)的弄清楚數(shù)據(jù)的來源、數(shù)據(jù)的口徑以及有關(guān)的背景材料;確定這些數(shù)據(jù)口徑以及有關(guān)的背景材料;確定這些數(shù)據(jù)是否符合自己分析研究的需要。是否符合自己分析研究的需要。 時

3、效性審核:時效性審核:應盡可能使用最新的統(tǒng)計數(shù)應盡可能使用最新的統(tǒng)計數(shù)據(jù),確認是否必要做進一步的加工整理。據(jù),確認是否必要做進一步的加工整理。二、數(shù)據(jù)的篩選二、數(shù)據(jù)的篩選對審核過程中發(fā)現(xiàn)的錯誤應盡可能予以糾正。對審核過程中發(fā)現(xiàn)的錯誤應盡可能予以糾正。當發(fā)現(xiàn)數(shù)據(jù)中的錯誤不能予以糾正,或者有些當發(fā)現(xiàn)數(shù)據(jù)中的錯誤不能予以糾正,或者有些數(shù)據(jù)不符合調(diào)查的要求而又無法彌補時,需要數(shù)據(jù)不符合調(diào)查的要求而又無法彌補時,需要對數(shù)據(jù)進行篩選對數(shù)據(jù)進行篩選 數(shù)據(jù)篩選的內(nèi)容包括:數(shù)據(jù)篩選的內(nèi)容包括:1.1.將某些不符合要求的數(shù)據(jù)或有明顯錯誤的數(shù)將某些不符合要求的數(shù)據(jù)或有明顯錯誤的數(shù)據(jù)予以剔除據(jù)予以剔除2.2.將符合某

4、種特定條件的數(shù)據(jù)篩選出來,而將將符合某種特定條件的數(shù)據(jù)篩選出來,而將不符合特定條件的數(shù)據(jù)予以剔出不符合特定條件的數(shù)據(jù)予以剔出 三、數(shù)據(jù)的排序三、數(shù)據(jù)的排序 按一定順序?qū)?shù)據(jù)排列,以發(fā)現(xiàn)一些明顯的按一定順序?qū)?shù)據(jù)排列,以發(fā)現(xiàn)一些明顯的特征或趨勢,找到解決問題的線索。特征或趨勢,找到解決問題的線索。排序有助于對數(shù)據(jù)檢查糾錯,以及為重新歸排序有助于對數(shù)據(jù)檢查糾錯,以及為重新歸類或分組等提供依據(jù);在某些場合,排序本類或分組等提供依據(jù);在某些場合,排序本身就是分析的目的之一。排序可借助于計算身就是分析的目的之一。排序可借助于計算機完成機完成 。四、變量計算四、變量計算變量的計算是指根據(jù)研究統(tǒng)計的需要,把

5、已變量的計算是指根據(jù)研究統(tǒng)計的需要,把已經(jīng)錄入計算機的數(shù)據(jù)按照一定的算術(shù)表達式經(jīng)錄入計算機的數(shù)據(jù)按照一定的算術(shù)表達式或函數(shù),計算產(chǎn)生一系列新變量并予以保存或函數(shù),計算產(chǎn)生一系列新變量并予以保存的過程。的過程。例例1,以,以“sfgz”為變量名計算為變量名計算“年齡年齡”在在50歲歲以下性別為以下性別為“女女”的職工的的職工的“實發(fā)工資實發(fā)工資”。(。(“實實發(fā)工資發(fā)工資”=“基本工資基本工資”-“保險保險” )例例2,根據(jù)農(nóng)民工的出生年份計算他們的周歲,根據(jù)農(nóng)民工的出生年份計算他們的周歲。(。(“周歲周歲”=2011-“出生年份出生年份”)第二節(jié)第二節(jié) 定類、定序數(shù)據(jù)的定類、定序數(shù)據(jù)的整理與顯

6、示整理與顯示 原始資料雜亂無章,需加整理,才能為人原始資料雜亂無章,需加整理,才能為人所用。統(tǒng)計資料的整理,其基礎(chǔ)是統(tǒng)計分所用。統(tǒng)計資料的整理,其基礎(chǔ)是統(tǒng)計分組。所謂統(tǒng)計分組就是按統(tǒng)計研究的目組。所謂統(tǒng)計分組就是按統(tǒng)計研究的目的和要求,將總體單位或全部調(diào)查數(shù)據(jù)按的和要求,將總體單位或全部調(diào)查數(shù)據(jù)按一定的標志劃分成若干組,使組內(nèi)差異盡一定的標志劃分成若干組,使組內(nèi)差異盡量小,而組與組之間則有明顯差異,從而量小,而組與組之間則有明顯差異,從而使原本雜亂無章的資料有序化,以便為在使原本雜亂無章的資料有序化,以便為在統(tǒng)計分析中提煉各種有用信息打下基礎(chǔ)。統(tǒng)計分析中提煉各種有用信息打下基礎(chǔ)。一、定類數(shù)據(jù)的

7、整理一、定類數(shù)據(jù)的整理( (基本過程基本過程) )1.1.列出各類別;列出各類別;2.2.計算各類別的頻數(shù);計算各類別的頻數(shù);3.3.制作頻數(shù)分布表;制作頻數(shù)分布表;4.4.用圖形顯示數(shù)據(jù)。用圖形顯示數(shù)據(jù)。可計算的指標:可計算的指標:1.1.頻數(shù):落在各類別中的數(shù)據(jù)個數(shù)頻數(shù):落在各類別中的數(shù)據(jù)個數(shù)2.2.比例:某一類別數(shù)據(jù)占全部數(shù)據(jù)的比值比例:某一類別數(shù)據(jù)占全部數(shù)據(jù)的比值3.3.百分比:指定的比例乘以百分比:指定的比例乘以100.100.4.4.比與比率:性別比、出生率、死亡率、人口自然增比與比率:性別比、出生率、死亡率、人口自然增長率長率 職業(yè)職業(yè)fp%干部干部1100.20020.0工人工

8、人1520.27627.6農(nóng)民農(nóng)民2880.52452.4總數(shù)總數(shù)5501.000100.0 甲校學生的父親職業(yè)甲校學生的父親職業(yè)二、定類數(shù)據(jù)的圖示二、定類數(shù)據(jù)的圖示條形圖、圓形圖條形圖、圓形圖條形圖是用寬度相同的條形的高度或長短來表示數(shù)據(jù)變動的圖條形圖是用寬度相同的條形的高度或長短來表示數(shù)據(jù)變動的圖形;條形圖有形;條形圖有單式單式、復式復式等形式等形式在表示定類數(shù)據(jù)的分布時,是用條形圖的高度來表示各類別數(shù)在表示定類數(shù)據(jù)的分布時,是用條形圖的高度來表示各類別數(shù)據(jù)的頻數(shù)或頻率;繪制時,各類別可以放在縱軸,稱為據(jù)的頻數(shù)或頻率;繪制時,各類別可以放在縱軸,稱為條形圖條形圖,也可以放在橫軸,稱為也可以

9、放在橫軸,稱為柱形圖柱形圖050100150200250300350123系列1050100150200250300350123系列1123123三、定序數(shù)據(jù)的整理(可計算的指標)三、定序數(shù)據(jù)的整理(可計算的指標)計算指標:頻數(shù)、累計頻數(shù)、百分率、累計算指標:頻數(shù)、累計頻數(shù)、百分率、累計百分率計百分率適用于簡化定類資料的技術(shù)也適用定序資適用于簡化定類資料的技術(shù)也適用定序資料,但以下技術(shù)適用于定序資料料,但以下技術(shù)適用于定序資料1. 1. 累計頻數(shù):將各類別的頻數(shù)逐級累加累計頻數(shù):將各類別的頻數(shù)逐級累加2. 2. 累計頻率:將各類別的頻率累計頻率:將各類別的頻率( (百分比百分比) )逐逐級累加

10、級累加 某高校專業(yè)教師學歷統(tǒng)計表某高校專業(yè)教師學歷統(tǒng)計表學歷學歷人數(shù)人數(shù)累計頻數(shù)累計頻數(shù)累計百分率累計百分率學士學士262628.9碩士碩士426875.6博士博士2290100.0 甲校學生家庭月收入甲校學生家庭月收入收入(元)收入(元)fcfcf1500-189940550401300-1499141510181500-1299369369550總數(shù)總數(shù)550四、定類、定序數(shù)據(jù)的圖示四、定類、定序數(shù)據(jù)的圖示環(huán)形圖環(huán)形圖環(huán)形圖中間有一個環(huán)形圖中間有一個“空洞空洞”,總體中的每一部分數(shù),總體中的每一部分數(shù)據(jù)用環(huán)中的一段表示據(jù)用環(huán)中的一段表示環(huán)形圖與圓形圖類似,但又有區(qū)別:圓形圖只能顯環(huán)形圖與圓

11、形圖類似,但又有區(qū)別:圓形圖只能顯示一個總體各部分所占的比例;環(huán)形圖則可以同時示一個總體各部分所占的比例;環(huán)形圖則可以同時繪制多個總體的數(shù)據(jù)系列,每一個總體的數(shù)據(jù)系列繪制多個總體的數(shù)據(jù)系列,每一個總體的數(shù)據(jù)系列為一個環(huán)。環(huán)形圖可用于進行比較研究為一個環(huán)。環(huán)形圖可用于進行比較研究 。環(huán)形圖。環(huán)形圖可用于展示定類和定序的數(shù)據(jù)。可用于展示定類和定序的數(shù)據(jù)。1234第三節(jié)第三節(jié) 定距數(shù)據(jù)的整理與顯示定距數(shù)據(jù)的整理與顯示適用于簡化品質(zhì)數(shù)據(jù)的技術(shù)同樣適用于簡化品質(zhì)數(shù)據(jù)的技術(shù)同樣適用于數(shù)值型數(shù)據(jù)適用于數(shù)值型數(shù)據(jù)一、單變量值分組(要點)一、單變量值分組(要點)1. 將一個變量值作為一組將一個變量值作為一組2.

12、 適合于離散變量適合于離散變量3. 適合于變量值較少的情況適合于變量值較少的情況例例1 統(tǒng)計某社區(qū)家庭戶人口數(shù)分統(tǒng)計某社區(qū)家庭戶人口數(shù)分布情況。布情況。某社區(qū)家庭戶人口數(shù)統(tǒng)計表某社區(qū)家庭戶人口數(shù)統(tǒng)計表人口數(shù)(人口數(shù)(X)戶數(shù)戶數(shù)(f)頻率頻率(P)23456785816106410.100.160.320.200.120.080.02合計合計501.00二、組距分組二、組距分組根據(jù)統(tǒng)計研究的需要,將數(shù)據(jù)按照某種標準根據(jù)統(tǒng)計研究的需要,將數(shù)據(jù)按照某種標準重新劃分為不同的組別。重新劃分為不同的組別。例:把例:把“居民儲蓄調(diào)查數(shù)據(jù)(存款)居民儲蓄調(diào)查數(shù)據(jù)(存款)”中的中的存款數(shù)額(定距數(shù)據(jù))按:存款

13、數(shù)額(定距數(shù)據(jù))按:1000元以下,元以下,1001-3000,3001-6000,6001-10000;10001-15000;15001-20000,20001元以上元以上分組。分組。通過頻次統(tǒng)計可以了解數(shù)據(jù)的分布情況。通過頻次統(tǒng)計可以了解數(shù)據(jù)的分布情況。(一)組距分組要點(一)組距分組要點1.將變量值的一個區(qū)間作為一組將變量值的一個區(qū)間作為一組2.適合于連續(xù)變量適合于連續(xù)變量3.適合于變量值較多的情況適合于變量值較多的情況必須遵循必須遵循“不重不漏不重不漏”的原則;可采用等距分的原則;可采用等距分組,也可采用不等距分組組,也可采用不等距分組(二)組距分組的原則(二)組距分組的原則 1分組

14、應使各類別構(gòu)成之和等于總體分組應使各類別構(gòu)成之和等于總體 “窮舉窮舉” “互斥互斥” 2分組設計應能反映統(tǒng)計總體的分布規(guī)律性分組設計應能反映統(tǒng)計總體的分布規(guī)律性 統(tǒng)計分組主要是為了能很好地反映統(tǒng)計總體的構(gòu)統(tǒng)計分組主要是為了能很好地反映統(tǒng)計總體的構(gòu)成狀況,即反映總體中各單位的分布特征。分組設計成狀況,即反映總體中各單位的分布特征。分組設計要適應這一要求,必須在分組后使總體單位總數(shù)在各要適應這一要求,必須在分組后使總體單位總數(shù)在各組的分配情況能夠反映總體的分布規(guī)律性。組的分配情況能夠反映總體的分布規(guī)律性。 100名學生的成績分布名學生的成績分布成績成績組中值組中值人數(shù)人數(shù)4160618081100

15、205030合計合計100(三)組距分組的步驟(三)組距分組的步驟1.1.確定組數(shù):組數(shù)的確定應以能夠顯示數(shù)據(jù)的確定組數(shù):組數(shù)的確定應以能夠顯示數(shù)據(jù)的分布特征和規(guī)律為目的。在實際分組時,可以分布特征和規(guī)律為目的。在實際分組時,可以按按 Sturges Sturges 提出的經(jīng)驗公式來確定組數(shù):提出的經(jīng)驗公式來確定組數(shù): K1+(lg n / lg2)其中其中n n為數(shù)據(jù)的個數(shù)(經(jīng)驗公式而已)為數(shù)據(jù)的個數(shù)(經(jīng)驗公式而已)2.2.確定各組的組距:組距是一個組的上限與下確定各組的組距:組距是一個組的上限與下限之差,可根據(jù)全部數(shù)據(jù)的最大值和最小值及限之差,可根據(jù)全部數(shù)據(jù)的最大值和最小值及所分的組數(shù)來確

16、定,所分的組數(shù)來確定,等距分組組距等距分組組距( (最大值最大值 - - 最小值最小值) ) 組數(shù)組數(shù)3.3.根據(jù)分組整理成頻數(shù)分布表根據(jù)分組整理成頻數(shù)分布表(四)幾個概念(四)幾個概念1、 分組數(shù)據(jù)的最大值與最小值分組數(shù)據(jù)的最大值與最小值2、分組數(shù)據(jù)的真實上限與真實下限、分組數(shù)據(jù)的真實上限與真實下限 9094,9599,1001043、 組距:真實上限與真實下限之差組距:真實上限與真實下限之差4、組距中位點:一組數(shù)據(jù)中最居中的數(shù)值。、組距中位點:一組數(shù)據(jù)中最居中的數(shù)值。 m(最大值最小值)(最大值最小值)/2, 等距分組表的幾種形式:等距分組表的幾種形式:(1)上下組限重疊;)上下組限重疊;

17、(2)上下組限間斷)上下組限間斷男青年身高按男青年身高按4厘米的間距分組時的頻數(shù)分布厘米的間距分組時的頻數(shù)分布上下組限重疊分組,恰等于某一組限的數(shù)據(jù)上下組限重疊分組,恰等于某一組限的數(shù)據(jù)(如下如下表中身高表中身高164厘米厘米)歸于哪一組?歸于哪一組?應該按照應該按照“上限不包括在內(nèi)上限不包括在內(nèi)”的原則處理。這就的原則處理。這就是說,是說,164應歸于應歸于“164168”這一組,而不應歸這一組,而不應歸于于“160l64”這一組。這一組。有了這一規(guī)定,就不會在編制連續(xù)變量的數(shù)列時有了這一規(guī)定,就不會在編制連續(xù)變量的數(shù)列時,發(fā)生違背,發(fā)生違背“窮舉窮舉”與與“互斥互斥”這兩個基本原則這兩個基

18、本原則的情況了。的情況了。(五)內(nèi)插法求百分比等級(五)內(nèi)插法求百分比等級成績成績頻數(shù)頻數(shù)百分比百分比 累計頻數(shù)累計頻數(shù)累計百分比累計百分比9099808970796069505940493463221520301510102017137421008565352010合計合計20100%)(%riLXcPRb77分在全班同學成績的百分比等級分在全班同學成績的百分比等級PR=百分比等級百分比等級C%b=低于臨界組距下限的累積百分比低于臨界組距下限的累積百分比X=需要計算的原始分數(shù)需要計算的原始分數(shù)L=臨界組距的下限臨界組距的下限i=組距的大小組距的大小r%=臨界組距的百分比臨界組距的百分比%)(

19、%riLXcPRb5 .57%30)105 .6977(0 .35%)(%riLXcPRb等距分組與不等距分組在頻數(shù)分布上的差異等距分組與不等距分組在頻數(shù)分布上的差異等距分組:等距分組:各組頻數(shù)的分布不受組距大小的影各組頻數(shù)的分布不受組距大小的影響;可直接根據(jù)絕對頻數(shù)來觀察頻數(shù)分布的特響;可直接根據(jù)絕對頻數(shù)來觀察頻數(shù)分布的特征和規(guī)律。征和規(guī)律。不等距分組:不等距分組:各組頻數(shù)的分布受組距大小不同各組頻數(shù)的分布受組距大小不同的影響;各組絕對頻數(shù)的多少不能反映頻數(shù)分的影響;各組絕對頻數(shù)的多少不能反映頻數(shù)分布的實際狀況,需要用頻數(shù)密度(頻數(shù)密度布的實際狀況,需要用頻數(shù)密度(頻數(shù)密度頻數(shù)頻數(shù)/組距)反

20、映頻數(shù)分布的實際狀況。組距)反映頻數(shù)分布的實際狀況。 (六)頻數(shù)密度計算頻數(shù)密度計算男青年身高分組數(shù)據(jù)表男青年身高分組數(shù)據(jù)表三、分組數(shù)據(jù)的圖示三、分組數(shù)據(jù)的圖示1、直方圖、直方圖用矩形的寬度和高度來表用矩形的寬度和高度來表示頻數(shù)分布的圖形,實際示頻數(shù)分布的圖形,實際上是用矩形的面積來表示上是用矩形的面積來表示各組的頻數(shù)分布。在直角各組的頻數(shù)分布。在直角坐標中,用橫軸表示數(shù)據(jù)坐標中,用橫軸表示數(shù)據(jù)分組,縱軸表示頻數(shù)或頻分組,縱軸表示頻數(shù)或頻率,各組與相應的頻數(shù)就率,各組與相應的頻數(shù)就形成了一個矩形,即直方形成了一個矩形,即直方圖圖(Histogram)。分別稱為。分別稱為次數(shù)直方圖或者百分率直次

21、數(shù)直方圖或者百分率直方圖。方圖。 10 20 30 40 50 90 f/d35252015 6 0f=6(40)=240f=20(10)=200 x10 20 30 40 50 90 f/d35252015 6 0f=6(40)=240f=20(10)=200 x050100150200250300350123系列1直方圖與條形圖的區(qū)別:直方圖與條形圖的區(qū)別:(1)條形圖是用條形的長度)條形圖是用條形的長度(橫置時橫置時)表示各表示各類別頻數(shù)的多少,其寬度類別頻數(shù)的多少,其寬度(表示類別表示類別)則是固則是固定的;直方圖是用面積表示各組頻數(shù)的多少,定的;直方圖是用面積表示各組頻數(shù)的多少,矩形

22、的高度表示每一組的頻數(shù)或百分比,寬矩形的高度表示每一組的頻數(shù)或百分比,寬度則表示各組的組距,其高度與寬度均有意度則表示各組的組距,其高度與寬度均有意義。義。(2)直方圖的各矩形通常是連續(xù)排列,條形)直方圖的各矩形通常是連續(xù)排列,條形圖則是分開排列。圖則是分開排列。2、折線圖、折線圖:折線圖也稱頻數(shù)多邊形圖折線圖也稱頻數(shù)多邊形圖(Frequency polygon),是在直方圖的基礎(chǔ)上,把直方圖頂部的中點是在直方圖的基礎(chǔ)上,把直方圖頂部的中點(組組中值中值)用直線連接起來,再把原來的直方圖抹掉,用直線連接起來,再把原來的直方圖抹掉,折線圖的兩個終點要與橫軸相交。具體的做法折線圖的兩個終點要與橫軸

23、相交。具體的做法是:第一個矩形的頂部中點通過豎邊中點(即是:第一個矩形的頂部中點通過豎邊中點(即該組頻數(shù)一半的位置)連接到橫軸,最后一個該組頻數(shù)一半的位置)連接到橫軸,最后一個矩形頂部中點與其豎邊中點連接到橫軸。折線矩形頂部中點與其豎邊中點連接到橫軸。折線圖下所圍成的面積與直方圖的面積相等,二者圖下所圍成的面積與直方圖的面積相等,二者所表示的頻數(shù)分布是一致的。所表示的頻數(shù)分布是一致的。 原來的矩形抹掉,就得到折線圖。原來的矩形抹掉,就得到折線圖。 當變量數(shù)列中的組數(shù)愈加增多,變量當變量數(shù)列中的組數(shù)愈加增多,變量值也非常多時,折線圖會逐步過渡到平值也非常多時,折線圖會逐步過渡到平滑曲線?;€。

24、 3、曲線圖曲線圖n增大n 練練 習習下表是諾貝爾獲獎者的年齡分布表。下表是諾貝爾獲獎者的年齡分布表。(1)請根據(jù)數(shù)據(jù)制請根據(jù)數(shù)據(jù)制作直方圖和折線圖;(作直方圖和折線圖;(2)將折線圖修勻為一條曲線)將折線圖修勻為一條曲線圖,并描述該曲線的特點。圖,并描述該曲線的特點。年齡年齡獲獎人數(shù)獲獎人數(shù)25歲以下歲以下2530303535404045455050歲以上歲以上15347068533728合計合計3054、定距數(shù)據(jù)的散點圖、定距數(shù)據(jù)的散點圖4050607080男性平均預期壽命22.533.544.5log(人均gdp)4050607080男性平均預期壽命22.533.544.5log(人均g

25、dp)bandwidth = .8Lowess smoother四、常見曲線圖類型四、常見曲線圖類型(一)正態(tài)分布也稱為高斯分布,是(一)正態(tài)分布也稱為高斯分布,是連續(xù)隨連續(xù)隨機變量機變量的概率分布的一種。正態(tài)曲線可以用的概率分布的一種。正態(tài)曲線可以用曲線函數(shù)來描述:曲線函數(shù)來描述:85.090.095.0100.0Hight (cm)1 %222)(21)(xexfyx為紀念高斯的貢獻,德國的貨幣上就印有他為紀念高斯的貢獻,德國的貨幣上就印有他的頭像。的頭像。其中其中: :是均值,是均值,是標準差。是標準差。變量變量X X服從正態(tài)分布,則記為:服從正態(tài)分布,則記為:),(2NXJohann

26、Carl Friedrich Gauss (1777-1855) 正態(tài)分布的圖形正態(tài)分布的圖形 利用利用正態(tài)分布密度函數(shù)正態(tài)分布密度函數(shù) f(x)f(x)可以繪制其圖形,可以繪制其圖形,即正態(tài)分布曲線。曲線呈開口向下的鐘型;以過均即正態(tài)分布曲線。曲線呈開口向下的鐘型;以過均值的垂線為軸,曲線左右完全對稱;其兩側(cè)尾端沿值的垂線為軸,曲線左右完全對稱;其兩側(cè)尾端沿橫軸的方向左右無限伸展,但永不與橫軸相交。橫軸的方向左右無限伸展,但永不與橫軸相交。正態(tài)分布曲線正態(tài)分布曲線正態(tài)分布的特點正態(tài)分布的特點正態(tài)分布是正態(tài)分布是對稱對稱的單峰分布,其曲線下的面的單峰分布,其曲線下的面積表示的是概率,其值為積表

27、示的是概率,其值為1。正態(tài)分布是由平均數(shù)和標準差唯一決定的分正態(tài)分布是由平均數(shù)和標準差唯一決定的分布布(沒有自由度)(沒有自由度)。它隨著隨機變量的平均。它隨著隨機變量的平均數(shù)和標準差的大小及單位不同而有不同的分數(shù)和標準差的大小及單位不同而有不同的分布形態(tài)。布形態(tài)。平均數(shù)決定曲線在橫坐標上的位置(中心位平均數(shù)決定曲線在橫坐標上的位置(中心位置的大?。瑯藴什顩Q定總體的離散程度(置的大?。?,標準差決定總體的離散程度(分布形態(tài))。分布形態(tài))。確定密度曲線在坐標系中的位置。越大,曲線沿橫軸越向右移動;越小,曲線沿橫軸越向左移動。-6-5-4-3-2-10123456123321確定曲線的形狀。越大,

28、曲線越平緩;越小,曲線越 尖峭。-3-2-10123332121有了有了與與,就把正態(tài)分布確定下來了。,就把正態(tài)分布確定下來了。N(0,12)N(0,1.52)N(1,22)不同與的正態(tài)分布曲線正態(tài)分布的概率計算正態(tài)分布的概率計算 實際應用中,正態(tài)曲線下,橫軸上一定區(qū)間的面積占總面積的百分數(shù),可以估計該區(qū)間的例數(shù)占總例數(shù)的百分數(shù)或變量值落在該區(qū)間的概率。 利用對正態(tài)分布密度函數(shù) f(x) 求積分可以得到正態(tài)分布曲線下一定區(qū)間的面積(概率),即: xdxxfxF)()(abdxxfaxbP)()( 理論上,正態(tài)曲線下1.96和2.58的區(qū)間的面積分別各占總面積的95%及99%。圖示見圖。 正態(tài)曲

29、線下面積分布示意圖1.96 95%2.58 99% -2.58 -1.96 - + +1.96 +2.58 68.27% 95.00% 99.00% -3-2-10123正態(tài)曲線下面積分布示意圖正態(tài)分布是一組分布。每一對參數(shù) 與都能確定一個正態(tài)分布。當=0,=1時,是正態(tài)分布的最簡單形式N(0,1),便于研究與應用, N(0,1)被稱為標準正態(tài)分布(standard normal distribution)。任何一個正態(tài)變量x都可以通過下述變換,轉(zhuǎn)換為標準正態(tài)分布:xZ2221)(zezfz(二)標準正態(tài)分布此變換稱為標準化變換,也稱Z變換。) 10(,Nz如果變量如果變量x x服從正態(tài)分布服

30、從正態(tài)分布N N( (, ,2 2) ),那么通過變換,那么通過變換得到的變量得到的變量Z Z 服從標準正態(tài)分布服從標準正態(tài)分布N N( ( 0 0,1)1)。xZnXXZX而而在實際應用中,在實際應用中,往往未知,是通過樣本值往往未知,是通過樣本值S S來來估計,此時的變換為估計,此時的變換為nSXSXtX(三)(三)t t 分布分布由此得到的變量由此得到的變量t t服從服從t t 分布分布( (t t-distribution-distribution) )。t t 分布也稱為分布也稱為StudentStudents s t t- -distributiondistribution,是為紀

31、念英國統(tǒng)計,是為紀念英國統(tǒng)計學家學家GossetGosset對對t t 分布做的貢獻。分布做的貢獻。StudentStudent是是GossetGosset發(fā)表關(guān)于發(fā)表關(guān)于t t 分布分布的論文所用的筆名。的論文所用的筆名。t t 分布對于小樣本研究的意義非常分布對于小樣本研究的意義非常大。大。由此產(chǎn)生的由此產(chǎn)生的t t 檢驗檢驗( (t t-test-test) )成成為了小樣本定量研究的最常用的分為了小樣本定量研究的最常用的分析方法析方法。 William Sealy Gosset (1876-1937)Student t t 分布的圖形(即分布的圖形(即t t 分布曲線)分布曲線)利用利

32、用t t分布密度函數(shù)分布密度函數(shù) f f( (t t) () (見下式見下式) )可以繪制其圖形,可以繪制其圖形,即即t t分布曲線。曲線形態(tài)類似正態(tài)分布曲線。分布曲線。曲線形態(tài)類似正態(tài)分布曲線。2121221)(dfdftdfdfdftf 其中其中dfdf為自由度,為自由度,dfdf= =n-n-1 1,為伽瑪為伽瑪( (gamma)gamma)函數(shù)。函數(shù)。0 t t 分布曲線分布曲線 t t 分布的特征分布的特征以以0 0為中心,左右對稱。為中心,左右對稱。t t 分布具有一個參數(shù)分布具有一個參數(shù)dfdf。dfdf取值為正整數(shù)。每個正取值為正整數(shù)。每個正整數(shù)確定一個整數(shù)確定一個t t 分布

33、。分布。t t 分布曲線的峰均較分布曲線的峰均較N N( (0 0,1)1)曲線的峰低,而其尾曲線的峰低,而其尾部均高于部均高于N N( (0 0,1)1)的尾部。的尾部。隨著隨著t t 分布自由度分布自由度df df 的增大,的增大,t t 分布曲線的峰逐漸上升,逼近分布曲線的峰逐漸上升,逼近N N( ( 0 0,1)1)的峰;而相應地,的峰;而相應地,t t 分布曲線兩側(cè)尾端則不斷下降,分布曲線兩側(cè)尾端則不斷下降,趨向趨向N N( ( 0 0,1)1)的兩尾端;當?shù)膬晌捕耍划攄fdf = = 時,時,t t 分布就分布就完全成為標準正態(tài)分布。完全成為標準正態(tài)分布。df = (標準正態(tài)曲線)

34、df = 4df = 1f(t)自由度分別為自由度分別為1 1、4 4、的的t t 分布曲線分布曲線,2/t,2/t22t t 分布曲線下雙側(cè)面積分布示意分布曲線下雙側(cè)面積分布示意 t t 分布曲線下面積分布規(guī)律(即分布曲線下面積分布規(guī)律(即t t 界值)界值) 通過對通過對t t 分布密度函數(shù)分布密度函數(shù) f f( (t t) ) 求求積分可以得積分可以得到到t t 分布曲線下一定區(qū)間的面積(概率),為便于分布曲線下一定區(qū)間的面積(概率),為便于研究與應用,統(tǒng)計學家制作了專門的研究與應用,統(tǒng)計學家制作了專門的t t 界值表。界值表。如果一種過程(隨機實驗)的結(jié)局只能是相互對立的兩種結(jié)果中的一

35、種,例如射擊的命中與未中、治療的有效與無效等。其中一種結(jié)果發(fā)生的可能性(概率)為一常數(shù)p,不可能概率為q(q=1-p)。重復性:每次試驗條件不變,每次事件中A出現(xiàn)的概率皆為p。獨立性:任何一次試驗中事件A的出現(xiàn)與其余各次試驗中出現(xiàn)的結(jié)果無關(guān)。記錄n個觀察單位中發(fā)生某一種結(jié)果的頻數(shù)X,則稱隨機變量X服從二項分布(binomial distribution)。二項分布屬于離散型分布。(四)二項分布(四)二項分布二項分布概率二項分布概率nxnxxnxnxxnxnxxnxPxFxNPxPxnxnCnxnppCqpCxP001)()(:)(1)()!( !43210 ,An( .3 , 2 , 1)1

36、()(概率積累函數(shù)理論次數(shù)次紅花)、現(xiàn)如紅白花相配,可能出出現(xiàn)的次數(shù)次試驗中事件第每組樣品個數(shù)例題:例題:某雞蛋孵化率為某雞蛋孵化率為0.900.90,若每次任選,若每次任選5 5個進個進行孵化,問小雞的各種可能孵化概率(行孵化,問小雞的各種可能孵化概率(0 0、1 1、2 2、3 3、4 4、5 5)?)?解:解:p=0.90p=0.90,q=0.10q=0.10,n=5n=5 二項分布的圖形二項分布的圖形二項分布的形狀是由二項分布的形狀是由n n和和p p兩個參數(shù)決定。兩個參數(shù)決定。當當p p值較小,且值較小,且n n值不大時,圖形是偏倚的。隨著值不大時,圖形是偏倚的。隨著n n值增大,分

37、布逐漸對稱。值增大,分布逐漸對稱。當當p p值趨近值趨近0.50.5時,分布趨于對稱。時,分布趨于對稱。p=0.3 p=0.5 p=0.7n=10 n=50 n=100二項分布的均數(shù)與標準差二項分布的均數(shù)與標準差 pq)(xnnpxpxiix總體標準差:均數(shù):如果用(百分數(shù))率表示,則為:如果用(百分數(shù))率表示,則為:npqnnpqnpnnpnxpxp當二項分布的當二項分布的n n很大而很大而p p很小時,泊很小時,泊松分布可作為二項分布的近似。松分布可作為二項分布的近似。若若隨機變量隨機變量 X X 只取只取非負整數(shù)非負整數(shù)值,值,X=kX=k值的概率為值的概率為(k=0,1,2,),(k=

38、0,1,2,),則隨機變量則隨機變量X X 的分布的分布稱為泊松分布,記作稱為泊松分布,記作P()P(),其中,其中=np=np。通常當。通常當n10,p0.1n10,p0.1時,就時,就可以用泊松公式近似計算??梢杂貌此晒浇朴嬎?。法國數(shù)學家西莫恩德尼泊松Simon Denis Poisson(1781-1840)(五)(五)Poisson Poisson 分布分布( (泊松分布泊松分布) )( (Poisson distributionPoisson distribution) )!kekxPk)(泊松分布泊松分布P ()P ()中只有一個參數(shù)中只有一個參數(shù) ,它既是泊松分,它既是泊松分

39、布的均值,也是泊松分布的布的均值,也是泊松分布的方差方差。在實際事例中,當。在實際事例中,當一個一個隨機事件隨機事件,例如某電話交換臺收到的呼叫、來到,例如某電話交換臺收到的呼叫、來到某公共汽車站的乘客、顯微鏡下某區(qū)域中的白血球等某公共汽車站的乘客、顯微鏡下某區(qū)域中的白血球等等,以固定的平均瞬時速率等,以固定的平均瞬時速率 (或稱密度或稱密度) )隨機且獨隨機且獨立地出現(xiàn)時,那么這個事件在單位時間(面積或體積立地出現(xiàn)時,那么這個事件在單位時間(面積或體積)內(nèi)出現(xiàn)的次數(shù)或個數(shù)就近似地服從泊松分布。因此)內(nèi)出現(xiàn)的次數(shù)或個數(shù)就近似地服從泊松分布。因此泊松分布在管理科學,運籌學以及自然科學的某些問泊松

40、分布在管理科學,運籌學以及自然科學的某些問題中都占有重要的地位。題中都占有重要的地位。泊松分布是離散型分布。泊松分布是離散型分布。 Poisson Poisson 分布的概率分布的概率標準差:方差:平均數(shù):均數(shù))參數(shù)200(,.2, 1 ,01!)(!)(npxeexexPxexPxxxx Poisson Poisson 分布的圖形分布的圖形 在應用中,常通過圖形表達(或描述)在應用中,常通過圖形表達(或描述)PoissonPoisson分布變分布變量的分布狀況。量的分布狀況。100.6=0.5=1.5=2.5(六)(六)F 分布分布如果變量如果變量x x1 1和和 x x2 2分別服從正態(tài)分

41、布分別服從正態(tài)分布 , 那么分別從兩個正態(tài)分布總體隨機抽取的樣本那么分別從兩個正態(tài)分布總體隨機抽取的樣本n n1 1和和n n2 2可求得方可求得方 ,由下式,由下式),(211N),(222N21S22S同一總體)不同總體).(.() 1() 1(2221211222222211SSFnnSnSnF得到的變量得到的變量 F F 服從服從F F( (dfdf1 1, ,dfdf2 2 ) )分布分布( (F F-distribution-distribution) ), 111 ndf122 ndf F F 分布的圖形(即分布的圖形(即F F 分布曲線)分布曲線) 利用F分布密度函數(shù) f(x

42、) (見下式)可以繪制其圖形,即F分布曲線,見圖。221122122212121121)()2()2()2()(dfdfdfdfdfdfxdfxdfdfdfdfdfdfxf 不同自由度df1和df2的F 分布曲線如圖F(8,)F(8,50)F(8,10)F(8,4)F(df1,df2 )(七)(七)2 2 分布(分布(Chi-square distributionChi-square distribution) 如果變量如果變量x x服從正態(tài)分布服從正態(tài)分布 ,那么從此那么從此正態(tài)分布總體隨機抽取樣本正態(tài)分布總體隨機抽取樣本n n,由下式,由下式),(2N22nS得到的變量服從自由度為得到的變

43、量服從自由度為dfdf(=(=n n -1)-1)的的2 2分布。分布。2 2分布密度函數(shù)分布密度函數(shù) f f( (2 2) ):)2(2)()(2212222dfexxfdfxdf 不同自由度不同自由度 df df 的的2 2 分布曲線圖。分布曲線圖。2df= 3df= 5df= 10df= 302002年我國城鄉(xiāng)人口情況年我國城鄉(xiāng)人口情況 按城鄉(xiāng)分按城鄉(xiāng)分 比重(比重(%) 人口數(shù)(萬人)人口數(shù)(萬人) 12845339.0960.917824150212 1. 格式格式 統(tǒng)計表是表示統(tǒng)計統(tǒng)計表是表示統(tǒng)計資料的表格,在由橫行資料的表格,在由橫行、縱欄交叉結(jié)合而成的、縱欄交叉結(jié)合而成的表格上

44、,它能系統(tǒng)地組表格上,它能系統(tǒng)地組織和合理地安排大量數(shù)織和合理地安排大量數(shù)字資料。字資料。 總標題總標題 鄉(xiāng)村鄉(xiāng)村 城鎮(zhèn)城鎮(zhèn)100.00合計合計 縱欄標題縱欄標題 統(tǒng)計數(shù)值統(tǒng)計數(shù)值 橫行標題橫行標題 第四節(jié)第四節(jié) 統(tǒng)計表統(tǒng)計表表34 離婚案件構(gòu)成離婚案件構(gòu)成草草率率型型外外遇遇型型猜猜疑疑型型虐虐待待型型再再婚婚型型家家務務型型生生理理型型分分居居型型其其他他型型合合計計 2. 內(nèi)容內(nèi)容 主詞主詞統(tǒng)計表所要說明的對象。統(tǒng)計表所要說明的對象。 賓詞賓詞用來說明主詞的標志和標志值。用來說明主詞的標志和標志值。 如需要,主賓詞可互換。如需要,主賓詞可互換。簡單表簡單表 我國城市居民家庭基本情況(我國

45、城市居民家庭基本情況(2002年)年)主要指標主要指標單位單位數(shù)值數(shù)值平均每戶家庭人口平均每戶家庭人口平均每戶就業(yè)人口平均每戶就業(yè)人口平均每個就業(yè)者負擔數(shù)平均每個就業(yè)者負擔數(shù)平均每人全部年收入平均每人全部年收入平均每人可支配收入平均每人可支配收入平均每人消費性支出平均每人消費性支出人人人人人人元元元元元元 3 30404 1 15858 1 19292817781774040770277028080602960298888 3. 統(tǒng)計表按統(tǒng)計表按主詞是否分組主詞是否分組以及分組的程以及分組的程度可分為度可分為簡單分組表簡單分組表復合分組表復合分組表簡單表簡單表簡單設計簡單設計復合設計復合設計 中國人口年齡結(jié)構(gòu)狀況中國人口年齡結(jié)構(gòu)狀況 單位:單位:%年齡組年齡組1953年年1964年年19

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論