單變量描述統(tǒng)計(jì)

上傳人：t*** IP屬地：天津上傳時(shí)間：2023-04-19 格式：DOCX 頁數(shù)：13 大?。?5.27KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩8頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第十章單變量描述統(tǒng)計(jì)（總12頁）--本頁僅作為文檔封面，使用時(shí)請(qǐng)直接刪除即可----內(nèi)頁可以根據(jù)需求調(diào)整合適字體及大小-第十章單變量的描述統(tǒng)計(jì)調(diào)查所得的原始資料經(jīng)過審核、整理與匯總后，還需要進(jìn)行系統(tǒng)的統(tǒng)計(jì)分析，才能揭示出調(diào)查資料所包含的眾多信息，才能得出調(diào)查的結(jié)論。根據(jù)變量數(shù)量的差別統(tǒng)計(jì)分析劃分為單變量分析、雙變量分析和多變量分析。在這一講中我們先介紹單變量的統(tǒng)計(jì)分析。單變量統(tǒng)計(jì)分析可以分為兩個(gè)大的方面，即描述統(tǒng)計(jì)和推論統(tǒng)計(jì)。描述統(tǒng)計(jì)是用最簡(jiǎn)單的概括形式反映出大量數(shù)據(jù)資料所容納的基本信息。推論統(tǒng)計(jì)是用樣本調(diào)查中所得到的數(shù)據(jù)資料來推斷總體的情況。這一講我們講解單變量的描述統(tǒng)計(jì)方法。一、變量的分布（Distributions）變量的分布分為兩類，一類是頻數(shù)分布，一類是頻率分布。頻數(shù)分布就是變量的每一取值出現(xiàn)的次數(shù)；頻率分布是用變量每一取值的頻數(shù)除以總個(gè)案數(shù)，它是一個(gè)相對(duì)指標(biāo)，可以用來比較不同樣本。頻數(shù)分布與頻率分布一般以統(tǒng)計(jì)表與統(tǒng)計(jì)圖的形式表達(dá)。1、統(tǒng)計(jì)表（1）統(tǒng)計(jì)表就是以表格的形式來表示變量的分布。如下表所示：表9-1甲校學(xué)生的父親職業(yè)職業(yè)fp工人1520.27627.6農(nóng)民2880.52452.4干部1100.20020.0總數(shù)5501.000100.0數(shù)值中的小數(shù)的取舍：通俗的做法是“四舍五入”?！八纳帷睕]有問題，但無原則的“五入”就會(huì)產(chǎn)生一定的誤差。例如數(shù)值、、、和的總合是。如果對(duì)原數(shù)的最后一位小數(shù)作簡(jiǎn)單的四舍五入，原數(shù)就變成、、、，其總合是，把原來的總合變大了。近代統(tǒng)計(jì)學(xué)有一項(xiàng)新原則，就是“前單五入”，即“五”前面是單數(shù)就進(jìn)位，若是雙數(shù)就舍掉（0也算雙數(shù)）。

（2）對(duì)于定序及以上層次的變量我們更多的是使用累加頻數(shù)和累加頻率。如下所示：表9-2甲校學(xué)生之父親教育水平教育f教育fcfcf一級(jí)6855068二級(jí)90482158三級(jí)106392264四級(jí)193286457五級(jí)9393550cc12.4100.012.416.387.628.719.371.348.035.152.083.116.916.9100.0100.0總數(shù) 5502100.0統(tǒng)計(jì)圖是以圖形表示變量的分布情況。與統(tǒng)計(jì)表相比，統(tǒng)計(jì)圖更直觀、生動(dòng)、醒目，但不夠精確。統(tǒng)計(jì)圖有圓瓣圖、條形圖、直方圖和折線圖。（1）圓瓣圖：多用于描述定類變量的分布，主要目的為顯示各部分在整體中所占的比重，以及各部分之間的比較。如表9-1的資料可用下圖（圖1）所示：農(nóng)民部分=360°X%=°工人部分=360°X%=°干部部分=360°X%=72

250200數(shù)150人10050（3）0直方圖：直方圖是由緊挨著的長(zhǎng)條構(gòu)成的,（2）250200數(shù)150人10050（3）0直方圖：直方圖是由緊挨著的長(zhǎng)條構(gòu)成的,示：（圖二）甲校學(xué)生的父親教育水平但與長(zhǎng)條圖不同，它的條寬度是有意義的級(jí)實(shí)際上它不是用長(zhǎng)條的高度而是用長(zhǎng)條的面積表示頻數(shù)水平（率）的大小，長(zhǎng)條的縱軸高度表示頻數(shù)（頻率）密度｛密度二頻數(shù)（率）/組距｝，長(zhǎng)條的寬度表示組距。直方圖僅適用于定距變量。如表9-3的資料可用下圖（圖3）所示：表9-3甲校學(xué)生的家庭每月總收入收入fcfTcfJ1500~189940550401300~14991415101811100~1299158369339900~1099136211475700~8996575540500~6991010550總數(shù)550組限（classlimits），就是每組的范圍，包括上限（upperlimit）和下限（lowerlimit）。例如表9-3中的“700~899”組，上限是899,下限是700。但要注意，統(tǒng)計(jì)表上所標(biāo)示的組限（statedlimits）是讓讀者容易領(lǐng)會(huì)，但不是真實(shí)的組限（reallimits）。上表的真實(shí)組限是~、~、~、~等等。如果某家庭的收入與真實(shí)組限之值相同，一般是采用四舍五入的原則，如把元?dú)w“700~899”組。真實(shí)組限與標(biāo)示組限的關(guān)系，可以下式表示：真實(shí)下限=標(biāo)示下限－真實(shí)上限=標(biāo)示上限＋組距（classwidth），就是組的真實(shí)上限與真實(shí)下限之差，如上表的“700~899”組的組距是：－=200。組中點(diǎn)（classmidpoint）,就是真實(shí)上限與真實(shí)下限的平均數(shù)，如“700~899”組的中點(diǎn)是：（+）—2二。（4）折線圖：折線圖是用直線連接直方圖中條形頂端的中點(diǎn)而成的。二、集中趨勢(shì)分析集中趨勢(shì)是從一組數(shù)據(jù)中抽象出一個(gè)代表值，代表現(xiàn)象的共性和一般水平。這種方法有一個(gè)特殊意義，就是可以根據(jù)這個(gè)代表值（或稱典型值）來估計(jì)或預(yù)測(cè)每個(gè)研究對(duì)象（即個(gè)案）的數(shù)值。這樣的估計(jì)或預(yù)測(cè)，當(dāng)然會(huì)有錯(cuò)誤，但由于所根據(jù)的數(shù)值最有代表性，故所發(fā)生之錯(cuò)誤的總和理應(yīng)是最小的。集中趨勢(shì)測(cè)量指標(biāo)有三類：眾數(shù)、中位值、平均數(shù)。1、眾數(shù)眾數(shù)（M。）就是出現(xiàn)頻數(shù)或頻率最多的變量值。因?yàn)楸姅?shù)最有代表性，故此具有估計(jì)或預(yù)測(cè)的意義，長(zhǎng)遠(yuǎn)來說，以眾數(shù)作預(yù)測(cè)所犯的錯(cuò)誤總數(shù)是最小的。求眾數(shù)的方法如下：（1）對(duì)原始資料：如下例：1，2，3，5，5，5，6，6，7，9其M。=5（2）對(duì)單值分組資料：如下表9-3某實(shí)驗(yàn)小組成員的年齡分布：表9-3某實(shí)驗(yàn)小組成員年齡分布年齡數(shù)量TOC\o"1-5"\h\z3468433 其Mo=16（3）組距分組資料：眾數(shù)是頻數(shù)最大的區(qū)間的組中值。如對(duì)于表9-5所示的資料其Mo=3502、中位數(shù)中位數(shù)（Md）是最中間的數(shù)值。它用于描述定序變量以上層次的變量。長(zhǎng)遠(yuǎn)來說，以中位數(shù)去估計(jì)定序變量的數(shù)值，所犯的錯(cuò)誤總數(shù)是最小的。求中位數(shù)的方法如下：n+1（1）對(duì)原始資料：原始資料計(jì)算中位值的公式是：Md位置二〒例：9個(gè)人的日工資分別如下：47，42，50，51，92，112，71，83，108首先，從小到大排列：42,47,50,51,71,83,92,108,112。n+1 9+1其次，由中位值的位置公式可知Md二2= 2=5最后，求Md=71如果n為偶數(shù)，則將位于最中央的兩個(gè)數(shù)值的平均值作為中位值。（2）對(duì)單值分組資料：如下表9-4的資料：表9-4學(xué)生的學(xué)業(yè)成績(jī)等級(jí)fcfJcfT甲5580乙202575丙305555丁258025總數(shù)80n+1 80+1由公式可知Md位置二2 = 2 =40.5從累加頻數(shù)中可知這個(gè)位置的值在丙值內(nèi)，故Md二丙。（3）對(duì)組距分組資料：組距分組資料的中位值公式為：fmmMd=L+ Xi其中L為中位數(shù)所在組的下限值，cf（m-1）為中位數(shù)所在組以上的累計(jì)頻數(shù)，fm為中位數(shù)所在組的頻數(shù)，i為中位數(shù)所在組的組距。例：表9-5某企業(yè)100名職工收入的分布收入（元）職工數(shù)（人）累計(jì)頻數(shù)組中值Xf100—19910101501500200—29910202502500300—399406035014000400—49920804509000500—5992010055011000合合計(jì)100首先求出中間位置為（100+1）=50.5，再?gòu)睦塾?jì)頻數(shù)欄中找到中位數(shù)所在組為“300—399”這一組，最后利用公式計(jì)算50-20Md=300+ 40 X100=375平均數(shù)：僅適用于定距及定距以上變量，但有時(shí)也可用于定序變量，如求平均等級(jí)。長(zhǎng)遠(yuǎn)來說，以平均數(shù)估計(jì)定距變量的資料，錯(cuò)誤最小。工X（1）對(duì)原始資料：平均數(shù)的公式為X=丁其中工x為各個(gè)個(gè)案數(shù)值之和，n表示全部個(gè)案數(shù)。（2）對(duì)單值分組資料：平均數(shù)的公式用加權(quán)平均數(shù)公式：nX=如對(duì)下表9-6中的資料求平均數(shù)：表9-6某年級(jí)150名學(xué)生的年齡分布年齡頻數(shù)累積頻數(shù)J累積頻數(shù)T1710101501825351401950851152040125652120145252251505合計(jì)150平均年齡為：X17x10+18x25+19x50+20x40+21x20+22x5= 150 =19.3（3）對(duì)組距分組資料：一般用組中值來代替變量值，然后按加權(quán)平均數(shù)公式來計(jì)算平均數(shù)?？傊?，如要測(cè)量集中趨勢(shì)，即找出一個(gè)最有代表性之值，定類變項(xiàng)的資料可用眾數(shù)；定序變項(xiàng)可用眾數(shù)，但以中位數(shù)較適宜，因?yàn)楹笳吣軌驊?yīng)用資料中所具有的等級(jí)數(shù)學(xué)特質(zhì)。定距變項(xiàng)可用眾數(shù)，也可用中位數(shù)，但以均值最適宜，因?yàn)榫的軕?yīng)用資料中所具有的分組資料中的加減數(shù)學(xué)特質(zhì)。然而，有兩種情況下不宜用均值：一種是在分組資料中的極端沒有組限時(shí)（如表9-的資料），不能求出均值，只能用中位值；另一種情況是變項(xiàng)中有個(gè)別的數(shù)值非常特殊（過高或過低），則均值的代表性就有疑問，用中位值較為合適。1表9-青年人閱讀小說的數(shù)目書數(shù)f x fx2~42 3 61李沛良.社會(huì)研究的統(tǒng)計(jì)應(yīng)用.社會(huì)科學(xué)文獻(xiàn)出版社2001，51。5~746248~10594511~133123614~162153017本以上11818總數(shù) 17三、離散趨勢(shì)分析離散趨勢(shì)是要求出一個(gè)值來表示個(gè)案與個(gè)案之間的差異情況。這種測(cè)量法，與集中趨勢(shì)測(cè)量法有互補(bǔ)的作用。資料的離散程度表明了集中趨勢(shì)的代表性如何，凡離散程度愈大，則集中趨勢(shì)的代表性就愈小，離散程度愈小，則集中趨勢(shì)的代表性愈大。1、異眾比率：異眾比率（Vr）就是非眾數(shù)的次數(shù)與全部個(gè)案數(shù)目的比率?？梢姰惐姳嚷适菍?duì)眾數(shù)的補(bǔ)充，異眾比率越小，說明眾數(shù)的代表性越好；反之，異眾比率越大，則說明眾數(shù)的代表性越差。公式如下：n-fmoVr=n其中fmo為眾數(shù)的次數(shù)。n-f550-288mo 如對(duì)于表9-1的資料其Vr=n= 5502、極差：極差又稱全距，它是一組數(shù)據(jù)中最大值與最小值之差。極差是對(duì)定序及以上尺度的變量離散程度的測(cè)量。極差越小，表明資料越集中，集中趨勢(shì)統(tǒng)計(jì)量的代表性越高。但由于它的值是由端點(diǎn)的差決定的，因此個(gè)別遠(yuǎn)離群體的極值會(huì)極大改變極差，以至使它不能真實(shí)反映資料的分散程度。例：某校3個(gè)系各選5名同學(xué)，參加智力競(jìng)賽，他們的成績(jī)分別如下：中文系：78、79、80、81、82數(shù)學(xué)系：65、72、80、88、95英語系：35、78、89、98、100則三個(gè)代表隊(duì)的全距分別為：中文系：82-78=4（分）數(shù)學(xué)系：95-65=30（分）英語系：100-35=65（分）3、四分位差：四分位差是對(duì)定序及定序以上測(cè)量尺度的變量離散程度的測(cè)量指標(biāo)。四分位差的計(jì)算方法是先將一組數(shù)據(jù)按大小排列成序，然后四等分，各段分界點(diǎn)上的數(shù)叫做四分位數(shù)，第一個(gè)四分位置的值（Q1）與第三四分位置的值（Q3）的差異，就是四分位差（Q）。Q2就是中位值（Md），兩邊各有50%的個(gè)案，也就是在中位值兩旁的Q1和Q3之間，共有50%的個(gè)案。因此，四分位差越大，表示有50%的個(gè)案越遠(yuǎn)離中位值，因而中位值的代表性就越小。計(jì)算四分位差時(shí)，先求出Q1和Q3的位置，然后計(jì)算在這兩個(gè)位置上的差n+1異。Q1和Q3的位置公式是：Q1位置二43（n+1）Q3位置二4以下是計(jì)算四分位差的方法：（1）對(duì)原始資料：例：調(diào)查11位同學(xué)的年齡如下：17歲、18歲、18歲、19歲、19歲、20歲、20歲、21歲、21歲、22歲、。首先，求出Q1和Q3的位置：n+1 11+1Q1的位置二4二4=33（n+1）3x（11+1）Q3的位置二4二4 =9其次，從數(shù)序中找出Q1=18,Q3=21則四分位差Q二Q3—Q仁21—18=3例：甲村有8戶人家，每戶人數(shù)如下：2，3，4，7，9，10，12，12首先，求出Q1位置二4 =2.25Q1=3+0．25（4—3）=3．253x（8+1）Q3位置二4 =6.75Q3=10+0.75（12—10）=11.5所以Q=11.5—3.25=8.25（2）對(duì)單值分組資料：如表9-4所示的學(xué)生學(xué)業(yè)成績(jī)，據(jù)公式可知：80+1Q1位置二4 =20.253x（80+1）Q3位置二4 =60.75從累積次數(shù)分布表中，很易看到在這兩個(gè)位置上的值分別是丁級(jí)和乙級(jí)所以Q二乙一丁二兩個(gè)等級(jí)3）對(duì)組距分組資料：對(duì)組距分組資料Q1和Q3的計(jì)算公式為:Q1=L1+[ f1 ]w1Q3=L3+[f3 ]w3其中L仁Q1屬組之真實(shí)下限L3=Q3屬組之真實(shí)下限f1=Q1屬組之次數(shù)f3=Q3屬組之次數(shù)cf仁低于Q1屬組下限之累積次數(shù)cf3二低于Q3屬組下限之累積次數(shù)w1=Q1屬組之組距w3=Q3屬組之組距n為全部個(gè)案數(shù)n+1 100+1如表9-5所示的資料，其Q1位置二4二4 =25.25，所以Q1在3(n+1) 3(100+1)300—399組內(nèi)；Q3位置二4 = 4 =75.75,所以Q3在400—499組內(nèi)。由公式可知：Q仁300+ 40 X100=312.53x100/4—60Q3=400+ 20X100=475所以Q=Q3-Q1=162.54、標(biāo)準(zhǔn)差：分析定距變量的離散情況，最常用的方法是標(biāo)準(zhǔn)差，即將每觀察值與其均值之差的平方和除以全部個(gè)案數(shù)目，然后取其平方根。公式如下：S=如果各個(gè)實(shí)際數(shù)值與均值之相差的總和很大，就表示變量數(shù)值的離散程度很大，即均值的代表性很小。5、離散系數(shù)：是標(biāo)準(zhǔn)差與平方數(shù)之百分比，記為CV,公式為：SCV=XX100%離散系數(shù)是一種相對(duì)的離散量數(shù)統(tǒng)計(jì)量，它使我們能夠?qū)ν豢傮w中的兩計(jì)量進(jìn)行比較。干部例：一項(xiàng)調(diào)查種不同的離散量數(shù)統(tǒng)計(jì)量進(jìn)行比較，或者對(duì)兩個(gè)不同總體中的同一離散量數(shù)統(tǒng)下工某市人均月收入為92元，標(biāo)準(zhǔn)差為17元，人28%為1.8平方米。試比較該市人均收入和人均5

人人文庫(kù)> 全部分類> 行業(yè)資料 > 各類標(biāo)準(zhǔn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

單變量描述統(tǒng)計(jì)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

單變量描述統(tǒng)計(jì)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔