




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第十章單變量描述統(tǒng)計(jì)(總12頁)--本頁僅作為文檔封面,使用時(shí)請(qǐng)直接刪除即可----內(nèi)頁可以根據(jù)需求調(diào)整合適字體及大小-第十章單變量的描述統(tǒng)計(jì)調(diào)查所得的原始資料經(jīng)過審核、整理與匯總后,還需要進(jìn)行系統(tǒng)的統(tǒng)計(jì)分析,才能揭示出調(diào)查資料所包含的眾多信息,才能得出調(diào)查的結(jié)論。根據(jù)變量數(shù)量的差別統(tǒng)計(jì)分析劃分為單變量分析、雙變量分析和多變量分析。在這一講中我們先介紹單變量的統(tǒng)計(jì)分析。單變量統(tǒng)計(jì)分析可以分為兩個(gè)大的方面,即描述統(tǒng)計(jì)和推論統(tǒng)計(jì)。描述統(tǒng)計(jì)是用最簡(jiǎn)單的概括形式反映出大量數(shù)據(jù)資料所容納的基本信息。推論統(tǒng)計(jì)是用樣本調(diào)查中所得到的數(shù)據(jù)資料來推斷總體的情況。這一講我們講解單變量的描述統(tǒng)計(jì)方法。一、變量的分布(Distributions)變量的分布分為兩類,一類是頻數(shù)分布,一類是頻率分布。頻數(shù)分布就是變量的每一取值出現(xiàn)的次數(shù);頻率分布是用變量每一取值的頻數(shù)除以總個(gè)案數(shù),它是一個(gè)相對(duì)指標(biāo),可以用來比較不同樣本。頻數(shù)分布與頻率分布一般以統(tǒng)計(jì)表與統(tǒng)計(jì)圖的形式表達(dá)。1、統(tǒng)計(jì)表(1)統(tǒng)計(jì)表就是以表格的形式來表示變量的分布。如下表所示:表9-1甲校學(xué)生的父親職業(yè)職業(yè)fp工人1520.27627.6農(nóng)民2880.52452.4干部1100.20020.0總數(shù)5501.000100.0數(shù)值中的小數(shù)的取舍:通俗的做法是“四舍五入”?!八纳帷睕]有問題,但無原則的“五入”就會(huì)產(chǎn)生一定的誤差。例如數(shù)值、、、和的總合是。如果對(duì)原數(shù)的最后一位小數(shù)作簡(jiǎn)單的四舍五入,原數(shù)就變成、、、,其總合是,把原來的總合變大了。近代統(tǒng)計(jì)學(xué)有一項(xiàng)新原則,就是“前單五入”,即“五”前面是單數(shù)就進(jìn)位,若是雙數(shù)就舍掉(0也算雙數(shù))。
(2)對(duì)于定序及以上層次的變量我們更多的是使用累加頻數(shù)和累加頻率。如下所示:表9-2甲校學(xué)生之父親教育水平教育f教育fcfcf一級(jí)6855068二級(jí)90482158三級(jí)106392264四級(jí)193286457五級(jí)9393550cc12.4100.012.416.387.628.719.371.348.035.152.083.116.916.9100.0100.0總數(shù) 5502100.0統(tǒng)計(jì)圖是以圖形表示變量的分布情況。與統(tǒng)計(jì)表相比,統(tǒng)計(jì)圖更直觀、生動(dòng)、醒目,但不夠精確。統(tǒng)計(jì)圖有圓瓣圖、條形圖、直方圖和折線圖。(1)圓瓣圖:多用于描述定類變量的分布,主要目的為顯示各部分在整體中所占的比重,以及各部分之間的比較。如表9-1的資料可用下圖(圖1)所示:農(nóng)民部分=360°X%=°工人部分=360°X%=°干部部分=360°X%=72
250200數(shù)150人10050(3)0直方圖:直方圖是由緊挨著的長(zhǎng)條構(gòu)成的,(2)250200數(shù)150人10050(3)0直方圖:直方圖是由緊挨著的長(zhǎng)條構(gòu)成的,示:(圖二)甲校學(xué)生的父親教育水平但與長(zhǎng)條圖不同,它的條寬度是有意義的級(jí)實(shí)際上它不是用長(zhǎng)條的高度而是用長(zhǎng)條的面積表示頻數(shù)水平(率)的大小,長(zhǎng)條的縱軸高度表示頻數(shù)(頻率)密度{密度二頻數(shù)(率)/組距},長(zhǎng)條的寬度表示組距。直方圖僅適用于定距變量。如表9-3的資料可用下圖(圖3)所示:表9-3甲校學(xué)生的家庭每月總收入收入fcfTcfJ1500~189940550401300~14991415101811100~1299158369339900~1099136211475700~8996575540500~6991010550總數(shù)550組限(classlimits),就是每組的范圍,包括上限(upperlimit)和下限(lowerlimit)。例如表9-3中的“700~899”組,上限是899,下限是700。但要注意,統(tǒng)計(jì)表上所標(biāo)示的組限(statedlimits)是讓讀者容易領(lǐng)會(huì),但不是真實(shí)的組限(reallimits)。上表的真實(shí)組限是~、~、~、~等等。如果某家庭的收入與真實(shí)組限之值相同,一般是采用四舍五入的原則,如把元?dú)w“700~899”組。真實(shí)組限與標(biāo)示組限的關(guān)系,可以下式表示:真實(shí)下限=標(biāo)示下限-真實(shí)上限=標(biāo)示上限+組距(classwidth),就是組的真實(shí)上限與真實(shí)下限之差,如上表的“700~899”組的組距是:-=200。組中點(diǎn)(classmidpoint),就是真實(shí)上限與真實(shí)下限的平均數(shù),如“700~899”組的中點(diǎn)是:(+)—2二。(4)折線圖:折線圖是用直線連接直方圖中條形頂端的中點(diǎn)而成的。二、集中趨勢(shì)分析集中趨勢(shì)是從一組數(shù)據(jù)中抽象出一個(gè)代表值,代表現(xiàn)象的共性和一般水平。這種方法有一個(gè)特殊意義,就是可以根據(jù)這個(gè)代表值(或稱典型值)來估計(jì)或預(yù)測(cè)每個(gè)研究對(duì)象(即個(gè)案)的數(shù)值。這樣的估計(jì)或預(yù)測(cè),當(dāng)然會(huì)有錯(cuò)誤,但由于所根據(jù)的數(shù)值最有代表性,故所發(fā)生之錯(cuò)誤的總和理應(yīng)是最小的。集中趨勢(shì)測(cè)量指標(biāo)有三類:眾數(shù)、中位值、平均數(shù)。1、眾數(shù)眾數(shù)(M。)就是出現(xiàn)頻數(shù)或頻率最多的變量值。因?yàn)楸姅?shù)最有代表性,故此具有估計(jì)或預(yù)測(cè)的意義,長(zhǎng)遠(yuǎn)來說,以眾數(shù)作預(yù)測(cè)所犯的錯(cuò)誤總數(shù)是最小的。求眾數(shù)的方法如下:(1) 對(duì)原始資料:如下例:1,2,3,5,5,5,6,6,7,9其M。=5(2) 對(duì)單值分組資料:如下表9-3某實(shí)驗(yàn)小組成員的年齡分布:表9-3某實(shí)驗(yàn)小組成員年齡分布年齡 數(shù)量TOC\o"1-5"\h\z3468433 其Mo=16(3)組距分組資料:眾數(shù)是頻數(shù)最大的區(qū)間的組中值。如對(duì)于表9-5所示的資料其Mo=3502、中位數(shù)中位數(shù)(Md)是最中間的數(shù)值。它用于描述定序變量以上層次的變量。長(zhǎng)遠(yuǎn)來說,以中位數(shù)去估計(jì)定序變量的數(shù)值,所犯的錯(cuò)誤總數(shù)是最小的。求中位數(shù)的方法如下:n+1(1) 對(duì)原始資料:原始資料計(jì)算中位值的公式是:Md位置二〒例:9個(gè)人的日工資分別如下:47,42,50,51,92,112,71,83,108首先,從小到大排列:42,47,50,51,71,83,92,108,112。n+1 9+1其次,由中位值的位置公式可知Md二2= 2=5最后,求Md=71如果n為偶數(shù),則將位于最中央的兩個(gè)數(shù)值的平均值作為中位值。(2) 對(duì)單值分組資料:如下表9-4的資料:表9-4學(xué)生的學(xué)業(yè)成績(jī)等級(jí)fcfJcfT甲5580乙202575丙305555丁258025總數(shù)80n+1 80+1由公式可知Md位置二2 = 2 =40.5從累加頻數(shù)中可知這個(gè)位置的值在丙值內(nèi),故Md二丙。(3)對(duì)組距分組資料:組距分組資料的中位值公式為:fmmMd=L+ Xi其中L為中位數(shù)所在組的下限值,cf(m-1)為中位數(shù)所在組以上的累計(jì)頻數(shù),fm為中位數(shù)所在組的頻數(shù),i為中位數(shù)所在組的組距。例:表9-5某企業(yè)100名職工收入的分布收入(元)職工數(shù)(人)累計(jì)頻數(shù)組中值Xf100—19910101501500200—29910202502500300—399406035014000400—49920804509000500—5992010055011000合合計(jì)100首先求出中間位置為(100+1)=50.5,再?gòu)睦塾?jì)頻數(shù)欄中找到中位數(shù)所在組為“300—399”這一組,最后利用公式計(jì)算50-20Md=300+ 40 X100=375平均數(shù):僅適用于定距及定距以上變量,但有時(shí)也可用于定序變量,如求平均等級(jí)。長(zhǎng)遠(yuǎn)來說,以平均數(shù)估計(jì)定距變量的資料,錯(cuò)誤最小。工X(1) 對(duì)原始資料:平均數(shù)的公式為X=丁其中工x為各個(gè)個(gè)案數(shù)值之和,n表示全部個(gè)案數(shù)。(2) 對(duì)單值分組資料:平均數(shù)的公式用加權(quán)平均數(shù)公式:nX=如對(duì)下表9-6中的資料求平均數(shù):表9-6某年級(jí)150名學(xué)生的年齡分布年齡頻數(shù)累積頻數(shù)J累積頻數(shù)T1710101501825351401950851152040125652120145252251505合計(jì)150平均年齡為:X17x10+18x25+19x50+20x40+21x20+22x5= 150 =19.3(3)對(duì)組距分組資料:一般用組中值來代替變量值,然后按加權(quán)平均數(shù)公式來計(jì)算平均數(shù)??傊?,如要測(cè)量集中趨勢(shì),即找出一個(gè)最有代表性之值,定類變項(xiàng)的資料可用眾數(shù);定序變項(xiàng)可用眾數(shù),但以中位數(shù)較適宜,因?yàn)楹笳吣軌驊?yīng)用資料中所具有的等級(jí)數(shù)學(xué)特質(zhì)。定距變項(xiàng)可用眾數(shù),也可用中位數(shù),但以均值最適宜,因?yàn)榫的軕?yīng)用資料中所具有的分組資料中的加減數(shù)學(xué)特質(zhì)。然而,有兩種情況下不宜用均值:一種是在分組資料中的極端沒有組限時(shí)(如表9-的資料),不能求出均值,只能用中位值;另一種情況是變項(xiàng)中有個(gè)別的數(shù)值非常特殊(過高或過低),則均值的代表性就有疑問,用中位值較為合適。1表9-青年人閱讀小說的數(shù)目書 數(shù)f x fx2~42 3 61李沛良.社會(huì)研究的統(tǒng)計(jì)應(yīng)用.社會(huì)科學(xué)文獻(xiàn)出版社2001,51。5~746248~10594511~133123614~162153017本以上11818總數(shù) 17三、離散趨勢(shì)分析離散趨勢(shì)是要求出一個(gè)值來表示個(gè)案與個(gè)案之間的差異情況。這種測(cè)量法,與集中趨勢(shì)測(cè)量法有互補(bǔ)的作用。資料的離散程度表明了集中趨勢(shì)的代表性如何,凡離散程度愈大,則集中趨勢(shì)的代表性就愈小,離散程度愈小,則集中趨勢(shì)的代表性愈大。1、異眾比率:異眾比率(Vr)就是非眾數(shù)的次數(shù)與全部個(gè)案數(shù)目的比率??梢姰惐姳嚷适菍?duì)眾數(shù)的補(bǔ)充,異眾比率越小,說明眾數(shù)的代表性越好;反之,異眾比率越大,則說明眾數(shù)的代表性越差。公式如下:n-fmoVr=n其中fmo為眾數(shù)的次數(shù)。n-f550-288mo 如對(duì)于表9-1的資料其Vr=n= 5502、極差:極差又稱全距,它是一組數(shù)據(jù)中最大值與最小值之差。極差是對(duì)定序及以上尺度的變量離散程度的測(cè)量。極差越小,表明資料越集中,集中趨勢(shì)統(tǒng)計(jì)量的代表性越高。但由于它的值是由端點(diǎn)的差決定的,因此個(gè)別遠(yuǎn)離群體的極值會(huì)極大改變極差,以至使它不能真實(shí)反映資料的分散程度。例:某校3個(gè)系各選5名同學(xué),參加智力競(jìng)賽,他們的成績(jī)分別如下:中文系:78、79、80、81、82數(shù)學(xué)系:65、72、80、88、95英語系:35、78、89、98、100則三個(gè)代表隊(duì)的全距分別為:中文系:82-78=4(分)數(shù)學(xué)系:95-65=30(分)英語系:100-35=65(分)3、四分位差:四分位差是對(duì)定序及定序以上測(cè)量尺度的變量離散程度的測(cè)量指標(biāo)。四分位差的計(jì)算方法是先將一組數(shù)據(jù)按大小排列成序,然后四等分,各段分界點(diǎn)上的數(shù)叫做四分位數(shù),第一個(gè)四分位置的值(Q1)與第三四分位置的值(Q3)的差異,就是四分位差(Q)。Q2就是中位值(Md),兩邊各有50%的個(gè)案,也就是在中位值兩旁的Q1和Q3之間,共有50%的個(gè)案。因此,四分位差越大,表示有50%的個(gè)案越遠(yuǎn)離中位值,因而中位值的代表性就越小。計(jì)算四分位差時(shí),先求出Q1和Q3的位置,然后計(jì)算在這兩個(gè)位置上的差n+1異。Q1和Q3的位置公式是:Q1位置二43(n+1)Q3位置二4以下是計(jì)算四分位差的方法:(1)對(duì)原始資料:例:調(diào)查11位同學(xué)的年齡如下:17歲、18歲、18歲、19歲、19歲、20歲、20歲、21歲、21歲、22歲、。首先,求出Q1和Q3的位置:n+1 11+1Q1的位置二4二4=33(n+1)3x(11+1)Q3的位置二4二4 =9其次,從數(shù)序中找出Q1=18,Q3=21則四分位差Q二Q3—Q仁21—18=3例:甲村有8戶人家,每戶人數(shù)如下:2,3,4,7,9,10,12,12首先,求出Q1位置二4 =2.25Q1=3+0.25(4—3)=3.253x(8+1)Q3位置二4 =6.75Q3=10+0.75(12—10)=11.5所以Q=11.5—3.25=8.25(2)對(duì)單值分組資料:如表9-4所示的學(xué)生學(xué)業(yè)成績(jī),據(jù)公式可知:80+1Q1位置二4 =20.253x(80+1)Q3位置二4 =60.75從累積次數(shù)分布表中,很易看到在這兩個(gè)位置上的值分別是丁級(jí)和乙級(jí)所以Q二乙一丁二兩個(gè)等級(jí)3)對(duì)組距分組資料:對(duì)組距分組資料Q1和Q3的計(jì)算公式為:Q1=L1+[ f1 ]w1Q3=L3+[f3 ]w3其中L仁Q1屬組之真實(shí)下限L3=Q3屬組之真實(shí)下限f1=Q1屬組之次數(shù)f3=Q3屬組之次數(shù)cf仁低于Q1屬組下限之累積次數(shù)cf3二低于Q3屬組下限之累積次數(shù)w1=Q1屬組之組距w3=Q3屬組之組距n為全部個(gè)案數(shù)n+1 100+1如表9-5所示的資料,其Q1位置二4二4 =25.25,所以Q1在3(n+1) 3(100+1)300—399組內(nèi);Q3位置二4 = 4 =75.75,所以Q3在400—499組內(nèi)。由公式可知:Q仁300+ 40 X100=312.53x100/4—60Q3=400+ 20X100=475所以Q=Q3-Q1=162.54、標(biāo)準(zhǔn)差:分析定距變量的離散情況,最常用的方法是標(biāo)準(zhǔn)差,即將每觀察值與其均值之差的平方和除以全部個(gè)案數(shù)目,然后取其平方根。公式如下:S=如果各個(gè)實(shí)際數(shù)值與均值之相差的總和很大,就表示變量數(shù)值的離散程度很大,即均值的代表性很小。5、離散系數(shù):是標(biāo)準(zhǔn)差與平方數(shù)之百分比,記為CV,公式為:SCV=XX100%離散系數(shù)是一種相對(duì)的離散量數(shù)統(tǒng)計(jì)量,它使我們能夠?qū)ν豢傮w中的兩計(jì)量進(jìn)行比較。干部例:一項(xiàng)調(diào)查種不同的離散量數(shù)統(tǒng)計(jì)量進(jìn)行比較,或者對(duì)兩個(gè)不同總體中的同一離散量數(shù)統(tǒng)下工某市人均月收入為92元,標(biāo)準(zhǔn)差為17元,人28%為1.8平方米。試比較該市人均收入和人均5
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)用消毒設(shè)備電氣安全與電磁兼容性考核試卷
- 城市配送與物流配送環(huán)節(jié)的全球物流網(wǎng)絡(luò)考核試卷
- 密封用填料的耐臭氧性能探討考核試卷
- 美甲店個(gè)體合作合同范本
- 水果新鮮采購(gòu)合同范本
- 鐵路雨季三防培訓(xùn)課件
- 土地流出合同范本
- 雪天交通安全課件
- 活動(dòng)課安全課件
- 私密培訓(xùn)課件目錄
- 學(xué)生因病休學(xué)申請(qǐng)書 因病休學(xué)一年后復(fù)學(xué)申請(qǐng)書(3篇)
- 2022年湖北省高中學(xué)業(yè)水平考試真題-音樂學(xué)科
- 提高屋面防水施工質(zhì)量年QC成果
- 部編初中語文古詩詞按作者分類梳理
- 博朗IRT6520中文說明書家用版
- 旅行社運(yùn)營(yíng)實(shí)務(wù)電子課件 1.1 初識(shí)旅行社
- 【讀書如熬粥閱讀答案】讀書如熬粥閱讀答案
- 少兒美術(shù)繪本教案課件-3-6歲 《西蘭花先生的理發(fā)店》
- 保密管理工作課件
- 噴射井點(diǎn)降水方案
- 改革開放以來河南城市文化體制的改革
評(píng)論
0/150
提交評(píng)論