第二章描述統(tǒng)計_第1頁
第二章描述統(tǒng)計_第2頁
第二章描述統(tǒng)計_第3頁
第二章描述統(tǒng)計_第4頁
第二章描述統(tǒng)計_第5頁
已閱讀5頁,還剩84頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一部分:描述統(tǒng)計第二章組織數(shù)據(jù)第三章集中趨勢的測量第四章變異性的測量

主要內容第二章組織數(shù)據(jù)定類、定序數(shù)據(jù)的整理與顯示定距數(shù)據(jù)的整理與顯示統(tǒng)計表數(shù)據(jù)的預處理第一節(jié)數(shù)據(jù)的預處理

數(shù)據(jù)審核

數(shù)據(jù)篩選

數(shù)據(jù)排序

變量計算一、數(shù)據(jù)的審核

(一)原始數(shù)據(jù)的審核邏輯檢查:從定性角度,審核數(shù)據(jù)是否符合邏輯,內容是否合理,各項目或數(shù)字之間有無相互矛盾的現(xiàn)象。(主要用于對定類數(shù)據(jù)和定序數(shù)據(jù)的審核)

計算檢查:檢查調查表中的各項數(shù)據(jù)在計算結果和計算方法上有無錯誤。(主要用于對定距數(shù)據(jù)的審核)(二)二手數(shù)據(jù)的審核

適用性審核:弄清楚數(shù)據(jù)的來源、數(shù)據(jù)的口徑以及有關的背景材料;確定這些數(shù)據(jù)是否符合自己分析研究的需要。時效性審核:應盡可能使用最新的統(tǒng)計數(shù)據(jù),確認是否必要做進一步的加工整理。二、數(shù)據(jù)的篩選對審核過程中發(fā)現(xiàn)的錯誤應盡可能予以糾正。當發(fā)現(xiàn)數(shù)據(jù)中的錯誤不能予以糾正,或者有些數(shù)據(jù)不符合調查的要求而又無法彌補時,需要對數(shù)據(jù)進行篩選數(shù)據(jù)篩選的內容包括:1.將某些不符合要求的數(shù)據(jù)或有明顯錯誤的數(shù)據(jù)予以剔除2.將符合某種特定條件的數(shù)據(jù)篩選出來,而將不符合特定條件的數(shù)據(jù)予以剔出

三、數(shù)據(jù)的排序按一定順序將數(shù)據(jù)排列,以發(fā)現(xiàn)一些明顯的特征或趨勢,找到解決問題的線索。排序有助于對數(shù)據(jù)檢查糾錯,以及為重新歸類或分組等提供依據(jù);在某些場合,排序本身就是分析的目的之一。排序可借助于計算機完成。四、變量計算變量的計算是指根據(jù)研究統(tǒng)計的需要,把已經錄入計算機的數(shù)據(jù)按照一定的算術表達式或函數(shù),計算產生一系列新變量并予以保存的過程。例1,以“sfgz”為變量名計算“年齡”在50歲以下性別為“女”的職工的“實發(fā)工資”。(“實發(fā)工資”=“基本工資”-“保險”)例2,根據(jù)農民工的出生年份計算他們的周歲。(“周歲”=2011-“出生年份”)第二節(jié)定類、定序數(shù)據(jù)的

整理與顯示原始資料雜亂無章,需加整理,才能為人所用。統(tǒng)計資料的整理,其基礎是統(tǒng)計分組。所謂統(tǒng)計分組.就是按統(tǒng)計研究的目的和要求,將總體單位或全部調查數(shù)據(jù)按一定的標志劃分成若干組,使組內差異盡量小,而組與組之間則有明顯差異,從而使原本雜亂無章的資料有序化,以便為在統(tǒng)計分析中提煉各種有用信息打下基礎。一、定類數(shù)據(jù)的整理(基本過程)1.列出各類別;2.計算各類別的頻數(shù);3.制作頻數(shù)分布表;4.用圖形顯示數(shù)據(jù)??捎嬎愕闹笜耍?.頻數(shù):落在各類別中的數(shù)據(jù)個數(shù)2.比例:某一類別數(shù)據(jù)占全部數(shù)據(jù)的比值3.百分比:指定的比例乘以100.4.比與比率:性別比、出生率、死亡率、人口自然增長率

職業(yè)fp%干部1100.20020.0工人1520.27627.6農民2880.52452.4總數(shù)5501.000100.0

甲校學生的父親職業(yè)二、定類數(shù)據(jù)的圖示——條形圖、圓形圖條形圖是用寬度相同的條形的高度或長短來表示數(shù)據(jù)變動的圖形;條形圖有單式、復式等形式在表示定類數(shù)據(jù)的分布時,是用條形圖的高度來表示各類別數(shù)據(jù)的頻數(shù)或頻率;繪制時,各類別可以放在縱軸,稱為條形圖,也可以放在橫軸,稱為柱形圖三、定序數(shù)據(jù)的整理(可計算的指標)計算指標:頻數(shù)、累計頻數(shù)、百分率、累計百分率適用于簡化定類資料的技術也適用定序資料,但以下技術適用于定序資料1.累計頻數(shù):將各類別的頻數(shù)逐級累加2.累計頻率:將各類別的頻率(百分比)逐級累加某高校專業(yè)教師學歷統(tǒng)計表學歷人數(shù)累計頻數(shù)累計百分率學士262628.9碩士426875.6博士2290100.0

甲校學生家庭月收入收入(元)fcf↑cf↓1500-189940550401300-1499141510181500-1299369369550總數(shù)550四、定類、定序數(shù)據(jù)的圖示—環(huán)形圖環(huán)形圖中間有一個“空洞”,總體中的每一部分數(shù)據(jù)用環(huán)中的一段表示環(huán)形圖與圓形圖類似,但又有區(qū)別:圓形圖只能顯示一個總體各部分所占的比例;環(huán)形圖則可以同時繪制多個總體的數(shù)據(jù)系列,每一個總體的數(shù)據(jù)系列為一個環(huán)。環(huán)形圖可用于進行比較研究

。環(huán)形圖可用于展示定類和定序的數(shù)據(jù)。第三節(jié)定距數(shù)據(jù)的整理與顯示適用于簡化品質數(shù)據(jù)的技術同樣適用于數(shù)值型數(shù)據(jù)一、單變量值分組(要點)1.將一個變量值作為一組2.適合于離散變量3.適合于變量值較少的情況例1統(tǒng)計某社區(qū)家庭戶人口數(shù)分布情況。某社區(qū)家庭戶人口數(shù)統(tǒng)計表人口數(shù)(X)戶數(shù)(f)頻率(P)23456785816106410.100.160.320.200.120.080.02合計501.00二、組距分組根據(jù)統(tǒng)計研究的需要,將數(shù)據(jù)按照某種標準重新劃分為不同的組別。例:把“居民儲蓄調查數(shù)據(jù)(存款)”中的存款數(shù)額(定距數(shù)據(jù))按:1000元以下,1001-3000,3001-6000,6001-10000;10001-15000;15001-20000,20001元以上分組。通過頻次統(tǒng)計可以了解數(shù)據(jù)的分布情況。(一)組距分組要點1.將變量值的一個區(qū)間作為一組2.適合于連續(xù)變量3.適合于變量值較多的情況必須遵循“不重不漏”的原則;可采用等距分組,也可采用不等距分組(二)組距分組的原則1.分組應使各類別構成之和等于總體“窮舉”“互斥”

2.分組設計應能反映統(tǒng)計總體的分布規(guī)律性統(tǒng)計分組主要是為了能很好地反映統(tǒng)計總體的構成狀況,即反映總體中各單位的分布特征。分組設計要適應這一要求,必須在分組后使總體單位總數(shù)在各組的分配情況能夠反映總體的分布規(guī)律性。100名學生的成績分布成績組中值人數(shù)41-6061-8081-100205030合計100(三)組距分組的步驟1.確定組數(shù):組數(shù)的確定應以能夠顯示數(shù)據(jù)的分布特征和規(guī)律為目的。在實際分組時,可以按Sturges提出的經驗公式來確定組數(shù):

K=1+(lgn/lg2)其中n為數(shù)據(jù)的個數(shù)(經驗公式而已)2.確定各組的組距:組距是一個組的上限與下限之差,可根據(jù)全部數(shù)據(jù)的最大值和最小值及所分的組數(shù)來確定,等距分組組距=(最大值-最小值)÷組數(shù)3.根據(jù)分組整理成頻數(shù)分布表(四)幾個概念

1、

分組數(shù)據(jù)的最大值與最小值2、分組數(shù)據(jù)的真實上限與真實下限90~94,95~99,100~1043、

組距:真實上限與真實下限之差4、組距中位點:一組數(shù)據(jù)中最居中的數(shù)值。m=(最大值+最小值)/2,

等距分組表的幾種形式:(1)上下組限重疊;(2)上下組限間斷男青年身高按4厘米的間距分組時的頻數(shù)分布身高間距(厘米)組中值(Xi)頻數(shù)(fi)頻率(Pi)148―152152―156156―160160―164164―168168―172172―176176―180180―184184―188188―192192―196150154158162166170174178182186190194125101925171253010.010.020.050.100.190.250.170.120.050.030.000.01合計

——100——上下組限重疊分組,恰等于某一組限的數(shù)據(jù)(如下表中身高164厘米)歸于哪一組?應該按照“上限不包括在內”的原則處理。這就是說,164應歸于“164—168”這一組,而不應歸于“160—l64”這一組。有了這一規(guī)定,就不會在編制連續(xù)變量的數(shù)列時,發(fā)生違背“窮舉”與“互斥”這兩個基本原則的情況了。(五)內插法求百分比等級成績頻數(shù)百分比累計頻數(shù)累計百分比90-9980-8970-7960—6950—5940—493463221520301510102017137421008565352010合計2010077分在全班同學成績的百分比等級PR=百分比等級C%b=低于臨界組距下限的累積百分比X=需要計算的原始分數(shù)L=臨界組距的下限i=組距的大小r%=臨界組距的百分比等距分組與不等距分組在頻數(shù)分布上的差異等距分組:各組頻數(shù)的分布不受組距大小的影響;可直接根據(jù)絕對頻數(shù)來觀察頻數(shù)分布的特征和規(guī)律。不等距分組:各組頻數(shù)的分布受組距大小不同的影響;各組絕對頻數(shù)的多少不能反映頻數(shù)分布的實際狀況,需要用頻數(shù)密度(頻數(shù)密度=頻數(shù)/組距)反映頻數(shù)分布的實際狀況。

(六)頻數(shù)密度計算男青年按身高分組(厘米)頻數(shù)組距頻數(shù)密度148―156156―164164―168168―172172―176176―180180―188188―1963151925171281884444883/815/819/425/417/412/48/81/8合計100——

——男青年身高分組數(shù)據(jù)表三、分組數(shù)據(jù)的圖示1、直方圖用矩形的寬度和高度來表示頻數(shù)分布的圖形,實際上是用矩形的面積來表示各組的頻數(shù)分布。在直角坐標中,用橫軸表示數(shù)據(jù)分組,縱軸表示頻數(shù)或頻率,各組與相應的頻數(shù)就形成了一個矩形,即直方圖(Histogram)。分別稱為次數(shù)直方圖或者百分率直方圖。

102030405090f/d35252015

60f=6(40)=240f=20(10)=200x102030405090f/d35252015

60f=6(40)=240f=20(10)=200x直方圖與條形圖的區(qū)別:(1)條形圖是用條形的長度(橫置時)表示各類別頻數(shù)的多少,其寬度(表示類別)則是固定的;直方圖是用面積表示各組頻數(shù)的多少,矩形的高度表示每一組的頻數(shù)或百分比,寬度則表示各組的組距,其高度與寬度均有意義。(2)直方圖的各矩形通常是連續(xù)排列,條形圖則是分開排列。2、折線圖:折線圖也稱頻數(shù)多邊形圖(Frequencypolygon),是在直方圖的基礎上,把直方圖頂部的中點(組中值)用直線連接起來,再把原來的直方圖抹掉,折線圖的兩個終點要與橫軸相交。具體的做法是:第一個矩形的頂部中點通過豎邊中點(即該組頻數(shù)一半的位置)連接到橫軸,最后一個矩形頂部中點與其豎邊中點連接到橫軸。折線圖下所圍成的面積與直方圖的面積相等,二者所表示的頻數(shù)分布是一致的。

原來的矩形抹掉,就得到折線圖。

當變量數(shù)列中的組數(shù)愈加增多,變量值也非常多時,折線圖會逐步過渡到平滑曲線。

3、曲線圖n增大n

練習下表是諾貝爾獲獎者的年齡分布表。(1)請根據(jù)數(shù)據(jù)制作直方圖和折線圖;(2)將折線圖修勻為一條曲線圖,并描述該曲線的特點。年齡獲獎人數(shù)25歲以下25~3030~3535~4040~4545~5050歲以上15347068533728合計3054、定距數(shù)據(jù)的散點圖四、常見曲線圖類型(一)正態(tài)分布也稱為高斯分布,是連續(xù)隨機變量的概率分布的一種。正態(tài)曲線可以用曲線函數(shù)來描述:為紀念高斯的貢獻,德國的貨幣上就印有他的頭像。其中:μ是均值,σ是標準差。變量X服從正態(tài)分布,則記為:JohannCarlFriedrichGauss(1777-1855)

正態(tài)分布的圖形

利用正態(tài)分布密度函數(shù)f(x)可以繪制其圖形,即正態(tài)分布曲線。曲線呈開口向下的鐘型;以過均值的垂線為軸,曲線左右完全對稱;其兩側尾端沿橫軸的方向左右無限伸展,但永不與橫軸相交。正態(tài)分布曲線μ正態(tài)分布的特點正態(tài)分布是對稱的單峰分布,其曲線下的面積表示的是概率,其值為1。正態(tài)分布是由平均數(shù)和標準差唯一決定的分布(沒有自由度)。它隨著隨機變量的平均數(shù)和標準差的大小及單位不同而有不同的分布形態(tài)。平均數(shù)決定曲線在橫坐標上的位置(中心位置的大小),標準差決定總體的離散程度(分布形態(tài))。μ確定密度曲線在坐標系中的位置。μ越大,曲線沿橫軸越向右移動;μ越小,曲線沿橫軸越向左移動。σ確定曲線的形狀。σ越大,曲線越平緩;σ越小,曲線越尖峭。有了μ與σ,就把正態(tài)分布確定下來了。N(0,12)N(0,1.52)N(1,22)不同μ與σ的正態(tài)分布曲線正態(tài)分布的概率計算實際應用中,正態(tài)曲線下,橫軸上一定區(qū)間的面積占總面積的百分數(shù),可以估計該區(qū)間的例數(shù)占總例數(shù)的百分數(shù)或變量值落在該區(qū)間的概率。利用對正態(tài)分布密度函數(shù)f(x)求積分可以得到正態(tài)分布曲線下一定區(qū)間的面積(概率),即:

理論上,正態(tài)曲線下μ±1.96σ和μ±2.58σ的區(qū)間的面積分別各占總面積的95%及99%。圖示見圖。正態(tài)曲線下面積分布示意圖μ±1.96σ95%μ±2.58σ99%正態(tài)曲線下面積分布示意圖正態(tài)分布是一組分布。每一對參數(shù)μ與σ都能確定一個正態(tài)分布。當μ=0,σ=1時,是正態(tài)分布的最簡單形式N(0,1),便于研究與應用,

N(0,1)被稱為標準正態(tài)分布(standardnormaldistribution)。任何一個正態(tài)變量x都可以通過下述變換,轉換為標準正態(tài)分布:(二)標準正態(tài)分布此變換稱為標準化變換,也稱Z變換。如果變量x服從正態(tài)分布N(μ,σ2),那么通過變換得到的變量Z服從標準正態(tài)分布N(

0,1)。而在實際應用中,σ往往未知,是通過樣本值S來估計,此時的變換為(三)t分布由此得到的變量t服從t分布(t-distribution)。t分布也稱為Student‘st-distribution,是為紀念英國統(tǒng)計學家Gosset對t分布做的貢獻。Student是Gosset發(fā)表關于t分布的論文所用的筆名。t分布對于小樣本研究的意義非常大。由此產生的t檢驗(t-test)成為了小樣本定量研究的最常用的分析方法。WilliamSealyGosset(1876-1937)Student

t

分布的圖形(即t

分布曲線)利用t分布密度函數(shù)f(t)(見下式)可以繪制其圖形,即t分布曲線。曲線形態(tài)類似正態(tài)分布曲線。

其中df為自由度,df=n-1,Γ為伽瑪(gamma)函數(shù)。

t分布曲線

t分布的特征以0為中心,左右對稱。t分布具有一個參數(shù)df。df取值為正整數(shù)。每個正整數(shù)確定一個t分布。t分布曲線的峰均較N(0,1)曲線的峰低,而其尾部均高于N(0,1)的尾部。隨著t分布自由度df的增大,t分布曲線的峰逐漸上升,逼近N(

0,1)的峰;而相應地,t分布曲線兩側尾端則不斷下降,趨向N(

0,1)的兩尾端;當df=∞時,t分布就完全成為標準正態(tài)分布。df=∞(標準正態(tài)曲線)df=4df=1f(t)自由度分別為1、4、∞的t分布曲線t分布曲線下雙側面積分布示意

t

分布曲線下面積分布規(guī)律(即t界值)

通過對t分布密度函數(shù)f(t)求積分可以得到t分布曲線下一定區(qū)間的面積(概率),為便于研究與應用,統(tǒng)計學家制作了專門的t界值表。如果一種過程(隨機實驗)的結局只能是相互對立的兩種結果中的一種,例如射擊的命中與未中、治療的有效與無效等。其中一種結果發(fā)生的可能性(概率)為一常數(shù)p,不可能概率為q(q=1-p)。重復性:每次試驗條件不變,每次事件中A出現(xiàn)的概率皆為p。獨立性:任何一次試驗中事件A的出現(xiàn)與其余各次試驗中出現(xiàn)的結果無關。記錄n個觀察單位中發(fā)生某一種結果的頻數(shù)X,則稱隨機變量X服從二項分布(binomialdistribution)。二項分布屬于離散型分布。(四)二項分布二項分布概率例題:某雞蛋孵化率為0.90,若每次任選5個進行孵化,問小雞的各種可能孵化概率(0、1、2、3、4、5)?解:p=0.90,q=0.10,n=5孵化概率函數(shù)Cnxpxqn-xP(x)得零只,f(0)得一只,f(1)得二只,f(2)得三只,f(3)得四只,f(4)得五只,F(xiàn)(5)1x0.900x0.1055x0.901x0.10410x0.902x0.10310x0.903x0.1025x0.904x0.1011x0.905x0.1000.000010.000450.008100.072900.328050.59049總和F(x)=1

二項分布的圖形二項分布的形狀是由n和p兩個參數(shù)決定。當p值較小,且n值不大時,圖形是偏倚的。隨著n值增大,分布逐漸對稱。當p值趨近0.5時,分布趨于對稱。p=0.3p=0.5p=0.7n=10n=50n=100二項分布的均數(shù)與標準差

如果用(百分數(shù))率表示,則為:當二項分布的n很大而p很小時,泊松分布可作為二項分布的近似。若隨機變量

X只取非負整數(shù)值,X=k值的概率為(k=0,1,2,…),則隨機變量X的分布稱為泊松分布,記作P(λ),其中λ=np。通常當n≧10,p≦0.1時,就可以用泊松公式近似計算。法國數(shù)學家西莫恩·德尼·泊松SiméonDenisPoisson(1781-1840)(五)Poisson分布(泊松分布)

(Poissondistribution)泊松分布P(λ)中只有一個參數(shù)λ,它既是泊松分布的均值,也是泊松分布的方差。在實際事例中,當一個隨機事件,例如某電話交換臺收到的呼叫、來到某公共汽車站的乘客、顯微鏡下某區(qū)域中的白血球等等,以固定的平均瞬時速率λ(或稱密度)隨機且獨立地出現(xiàn)時,那么這個事件在單位時間(面積或體積)內出現(xiàn)的次數(shù)或個數(shù)就近似地服從泊松分布。因此泊松分布在管理科學,運籌學以及自然科學的某些問題中都占有重要的地位。泊松分布是離散型分布。

Poisson分布的概率

Poisson分布的圖形

在應用中,常通過圖形表達(或描述)Poisson分布變量的分布狀況。100.6λ=0.5λ=1.5λ=2.5(六)F

分布如果變量x1和

x2分別服從正態(tài)分布,那么分別從兩個正態(tài)分布總體隨機抽取的樣本n1和n2可求得方,由下式得到的變量F服從F(df1,df2

)分布(F-distribution)

F

分布的圖形(即F

分布曲線)

利用F分布密度函數(shù)f(x)(見下式)可以繪制其圖形,即F分布曲線,見圖。

不同自由度df1和df2的F分布曲線如圖F(8,)F(8,50)F(8,10)F(8,4)F(df1,df2

)(七)χ2

分布(Chi-squaredistribution)

如果變量x服從正態(tài)分布,那么從此正態(tài)分布總體隨機抽取樣本n,由下式得到的變量服從自由度為df(=n-1)的χ2分布。χ2分布密度函數(shù)f(χ2):

不同自由度df的χ2

分布曲線圖。χ2df=3df=5df=10df=302002年我國城鄉(xiāng)人口情況

按城鄉(xiāng)分

比重(%)

人口數(shù)(萬人)

12845339.0960.9178241502121.格式統(tǒng)計表是表示統(tǒng)計資料的表格,在由橫行、縱欄交叉結合而成的表格上,它能系統(tǒng)地組織和合理地安排大量數(shù)字資料??倶祟}鄉(xiāng)村

城鎮(zhèn)100.00合計

縱欄標題統(tǒng)計數(shù)值

橫行標題

第四節(jié)統(tǒng)計表表3.4

離婚案件構成草率型外遇型猜疑型虐待型再婚型家務型生理型分居型其他型合計離婚案件(件)比重(%)851479136410447447188314671425996231002.內容主詞——統(tǒng)計表所要說明的對象。賓詞——用來說明主詞的標志和標志值。如需要,主賓詞可互換。●簡單表我國城市居民家庭基本情況(2002年)主要指標單位數(shù)值平均每戶家庭人口平均每戶就業(yè)人口平均每個就業(yè)者負擔數(shù)平均每人全部年收入平均每人可支配收入平均每人消費性支出人人人元元元3.041.581.928177.407702.806029.883.統(tǒng)計表按主詞是否分組以及分組的程度可分為簡單分組表復合分組表簡單表簡單設計復合設計

中國人口年齡結構狀況單位:%年齡組1953年1964年1982年1990年2000年0―14歲15―64歲65歲以上36.359.34.440.755.73.633.661.54.927.766.75.622.970.17.0

資料來源|:《2003中國統(tǒng)計年鑒》第99頁。●

簡單分組表●復合分組表我國社會福利主要費用情況單位:億元項目

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論