統(tǒng)計學第四章 數據分布特征的測度_第1頁
統(tǒng)計學第四章 數據分布特征的測度_第2頁
統(tǒng)計學第四章 數據分布特征的測度_第3頁
統(tǒng)計學第四章 數據分布特征的測度_第4頁
統(tǒng)計學第四章 數據分布特征的測度_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第四章數據分布特征的測度PowerPoint統(tǒng)計學統(tǒng)計學第四章數據分布特征的測度第一節(jié)集中趨勢的測度第二節(jié)離散程度的測度第三節(jié)偏態(tài)與峰度的測度統(tǒng)計學第四章數據分布特征的測度

對統(tǒng)計數據進行排序、分組、整理,是對數據的分布特征進行描述的一個基本方面,為進一步掌握數據分布特征及其變化規(guī)律,以進行深入的分析,還需找出反映數據分布特征的各個代表值。統(tǒng)計學中刻劃數據分布特征的最主要的代表有二:數據分布的集中趨勢與數據分布的離散程度。排序分組整理表述統(tǒng)計數據尋找反映數據分布特征的代表值:集中趨勢;離散趨勢統(tǒng)計學第四章數據分布特征的測度第一節(jié)分布集中趨勢的測度

集中趨勢是指一組數據向某一中心值靠攏的傾向,測度集中趨勢就是尋找數據一般水平的代表值或中心值。均值中位數眾數

統(tǒng)計學第四章數據分布特征的測度均值

(概念要點)1. 集中趨勢的測度值之一2. 最常用的測度值3. 一組數據的均衡點所在4. 易受極端值的影響5.用于數值型數據,不能用于定類數據和定序數據統(tǒng)計學第四章數據分布特征的測度均值

(計算公式)設一組數據為:X1,X2,…,XN簡單均值的計算公式為設分組后的數據為:X1,X2,…,XK

相應的頻數為:F1,F2,…,FK加權均值的計算公式為統(tǒng)計學第四章數據分布特征的測度簡單均值

(算例)原始數據: 10 5 9 13 6 8統(tǒng)計學第四章數據分布特征的測度加權均值

(算例)某車間50名工人日加工零件均值計算表按零件數分組組中值(Xi)頻數(Fi)XiFi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合計—506160.0【例】根據表中的數據,計算50名工人日加工零件數的均值統(tǒng)計學第四章數據分布特征的測度加權均值

(權數對均值的影響)甲乙兩組各有10名學生,他們的考試成績及其分布數據如下

甲組:

考試成績(X): 020100

人數分布(F):118

乙組:考試成績(X): 020100

人數分布(F):811X甲0×1+20×1+100×8n10i=1Xi82(分)X乙0×8+20×1+100×1n10i=1Xi12(分)統(tǒng)計學第四章數據分布特征的測度均值

(數學性質)1. 各變量值與均值的離差之和等于零

2.各變量值與均值的離差平方和最小統(tǒng)計學第四章數據分布特征的測度調和平均數

(概念要點)1. 集中趨勢的測度值之一2. 均值的另一種表現形式3. 易受極端值的影響4. 用于定比數據5.不能用于定類數據和定序數據6.計算公式為原來只是計算時使用了不同的數據!統(tǒng)計學第四章數據分布特征的測度調和平均數

(算例)某日三種蔬菜的批發(fā)成交數據表蔬菜名稱批發(fā)價格(元)

Xi成交額(元)XiFi成交量(公斤)Fi甲乙丙1.200.500.801800012500640015000250008000合計—3690048000【例】某蔬菜批發(fā)市場三種蔬菜的日成交數據如表所示,計算三種蔬菜該日的平均批發(fā)價格統(tǒng)計學第四章數據分布特征的測度幾何平均數

(概念要點)1.集中趨勢的測度值之一2.N個變量值乘積的N次方根3.適用于特殊的數據4.主要用于計算平均發(fā)展速度5.計算公式為6.可看作是均值的一種變形統(tǒng)計學第四章數據分布特征的測度幾何平均數

(算例)【例】一位投資者持有一種股票,1996年、1997年、1998年和1999年收益率分別為4.5%、2.0%、3.5%、5.4%。計算該投資者在這四年內的平均收益率。平均收益率=103.84%-1=3.84%統(tǒng)計學第四章數據分布特征的測度中位數

中位數是一組數據按大小排序后,處于中間位置上的變量值。

統(tǒng)計學第四章數據分布特征的測度未分組數據的中位數

(計算公式)統(tǒng)計學第四章數據分布特征的測度定序數據的中位數

(算例)【例】根據表中的數據,計算甲城市家庭對住房滿意狀況評價的中位數解:中位數的位置為:

300/2=150從累計頻數看,中位數的在“一般”這一組別中。因此

Me=一般甲城市家庭對住房狀況評價的頻數分布回答類別甲城市戶數(戶)累計頻數

非常不滿意不滿意一般滿意非常滿意2410893453024132225270300合計300—統(tǒng)計學第四章數據分布特征的測度數值型未分組數據的中位數

(5個數據的算例)原始數據:

2422212620排序: 2021222426位置: 123

45

中位數22統(tǒng)計學第四章數據分布特征的測度數值型未分組數據的中位數

(6個數據的算例)原始數據:105 91268排序: 56891012位置: 123

456位置N+126+123.5中位數8+928.5統(tǒng)計學第四章數據分布特征的測度

首先需確定中位數所在的組,然后可根據下列公式計算中位數:下限公式:數值型分組數據的中位數

式中:m為中位數所在的組,d為該組組距,

L、U分別為該組的下限值與上限值,

fm為該組的頻數,

Sm-1

為該組以下各組的頻數總和,

Sm+1為該組以上各組的頻數總和,顯然上限公式:統(tǒng)計學第四章數據分布特征的測度

例,某班級英語考試成績分組情況見下表:成績分組人數累計人數成績分組人數累計人數(分)(分)

50以下2270~80183550~605780~9094460~70101790以上650

成績由低往高排,中位數所在組應在第4組,即70~80的組,

由于L=70,U=80,d=10,而

Sm-1=2+5+10=17,Sm+1=9+6=15,fm=18,故或統(tǒng)計學第四章數據分布特征的測度四分位數

(概念要點)1. 集中趨勢的測度值之一2. 排序后處于25%和75%位置上的值3.不受極端值的影響4.主要用于定序數據,也可用于數值型數據,但不能用于定類數據QLQMQU25%25%25%25%統(tǒng)計學第四章數據分布特征的測度四分位數

(位置的確定)未分組數據:組距分組數據:下四分位數(QL)位置=N+14上四分位數(QU)位置=3(N+1)4下四分位數(QL)位置=N4上四分位數(QL)位置=3N4統(tǒng)計學第四章數據分布特征的測度定序數據的四分位數

(算例)【例】根據表中的數據,計算甲城市家庭對住房滿意狀況評價的四分位數解:下四分位數(QL)的位置為:

QL位置=(300)/4=75

上四分位數(QU)的位置為:

QU位置=(3×300)/4=225從累計頻數看,QL在“不滿意”這一組別中;QU在“一般”這一組別中。因此

QL

=不滿意

QU

=一般甲城市家庭對住房狀況評價的頻數分布回答類別甲城市戶數(戶)累計頻數

非常不滿意

不滿意一般滿意非常滿意2410893453024132225270300合計300—統(tǒng)計學第四章數據分布特征的測度數值型未分組數據的四分位數

(7個數據的算例)原始數據:

2321 3032 282526排序:2123

2526283032位置:1 23 4567N+1QL=237+1QL位置=4=4=2QU位置=3(N+1)43(7+1)4==6QU=30統(tǒng)計學第四章數據分布特征的測度數值型未分組數據的四分位數

(6個數據的算例)原始數據:

2321 30 282526排序:212325262830位置:1 2 3 4 56QL=21+0.75(23-21)=22.5QL位置=N+14=6+14=1.75QU位置=3(N+1)43(6+1)4==5.25QU=28+0.25(30-28)

=28.5統(tǒng)計學第四章數據分布特征的測度數值型分組數據的四分位數

(計算公式)上四分位數:

下四分位數:

統(tǒng)計學第四章數據分布特征的測度數值型分組數據的四分位數

(計算示例)QL位置=50/4=12.5QU位置=3×50/4=37.5

某車間50名工人日加工零件數分組表按零件數分組頻數(人)累積頻數105~110110~115115~120120~125125~130130~135135~140358141064381630404650合計50—【例】根據表中的數據,計算50名工人日加工零件數的四分位數統(tǒng)計學第四章數據分布特征的測度眾數是一組數據中出現次數最多的變量值。例:一組大學班級人數規(guī)模的數據(5個班)如下:46、54、

42、46、32。因此,眾數為46在分組數據中,眾數可按下式計算:

下限公式:眾數式中:fm為某數值出現次數(頻數)最多的組(第m組)的頻數,

fm-1與fm+1分別為第m-1組與m+1組的頻數,

L、U分別為第m組的下限與上限值,

d為該組組距。上限公式:統(tǒng)計學第四章數據分布特征的測度在班級規(guī)模的例中,若按例中給出的分組情況,則該組數據的眾數為:在學生英語成績例中,次數最多的組也在70~80組中,則有

fm=18,fm-1=10,fm+1=9,或或統(tǒng)計學第四章數據分布特征的測度

例如在前面購買五類不同品牌計算機的統(tǒng)計中,曾得到如右表所示的頻數分布表。▲注意:1、如果某組統(tǒng)計數據中沒有哪個數值出現較多的頻率(次數),則可認為該組數無眾數;如果有多個數據出現的次數(頻率)較多,則認為有多個眾數。在有多個眾數的情況下,則對眾數的關注度下降,因為多眾數對描述數據位置無多大幫助。

2、對描述品質數據的分布特征的“位置”測度只能用眾數。CompanyFrequencyApple13Compaq12Gateway20005IBM9PackardBell11

顯然,眾數,即個人購買最多的機算機品牌是Apple。在這類數據中,“均值”與“中位數”是沒有任何意義的?!氨姅怠碧峁┝祟l數最高的個人電腦購買品牌。統(tǒng)計學第四章數據分布特征的測度眾數

(眾數的不唯一性)無眾數

原始數據:10591268一個眾數

原始數據:6

5

9855多于一個眾數

原始數據:252828

364242統(tǒng)計學第四章數據分布特征的測度眾數、中位數和均值的關系對稱分布

均值=中位數=眾數左偏分布均值

中位數

眾數右偏分布眾數

中位數

均值統(tǒng)計學第四章數據分布特征的測度

眾數、中位數和均值都是對數據集中趨勢的測度,

1、均值由全部數據計算,包含了全部數據的信息,具有良好的數學性質,當數據接近對稱分布時,具有較好的代表性;但對于偏態(tài)分布,其代表性較差。

2、中位數是一組數據中間位置上的代表值,不受數據極端值的影響,對于偏態(tài)分布的數據,其代表性要比均值好。

3、眾數是一組數據分布的峰值,是一種位置的代表,當數據的分布具有明顯的集中趨勢時,尤其對于偏態(tài)分布,眾數的代表性比均值好。

4、對接近正態(tài)的分布數據,常用均值描述數據的集中趨勢;對偏態(tài)分布,常用眾數或中位數描述數據的集中趨勢。

5、均值只適用于定距或定比尺度的數據;定序尺度數據可用中位數或眾數進行描述,而對定類尺度數據,只能用眾數進行描述。

眾數、中位數和均值的應用場合統(tǒng)計學第四章數據分布特征的測度數據類型與集中趨勢測度值數據類型和所適用的集中趨勢測度值表數據類型定類數據定序數據定距數據定比數據適用的測度值※眾數※中位數※均值※均值—四分位數眾數調和平均數—眾數中位數幾何平均數——四分位數

中位數———四分位數———眾數統(tǒng)計學第四章數據分布特征的測度第二節(jié)分布離散程度的測度

對數據分布特征的另一個測度指標是數據分布離散程度。它反映各數據遠離其中心值的程度,因此,也稱離中趨勢。

集中趨勢反映的是各變量值向其中心值聚集的程度,

離中趨勢反映各變量值之間的差異狀況。

注意:

集中趨勢的測度值概括地反映了數據的一般水平,它對該組數據的代表程度,取決于該組數據的離散水平。數據的離散程度越大,集中趨勢的測度值對該組數據的代表性就越差。統(tǒng)計學第四章數據分布特征的測度例:如果你是一家制造業(yè)公司的供應部門經理,與兩家原材料供應商聯系供貨,兩家供應商均表示能在大約10個工作日內供齊所需原材料。幾個月的運轉之后,你發(fā)現盡管兩家供貨商供貨的平均時間都是大約10天,但他們供貨所需天數的分布情況卻是不同的(如下圖所示)。問:兩家供貨商按時供貨的可信度相同嗎?考慮它們直方圖的差異,你更愿意選擇哪家供貨商供貨呢?統(tǒng)計學第四章數據分布特征的測度一、異眾比率1. 離散程度的測度值之一2. 非眾數組的頻數占總頻數的比率3. 計算公式為

4.用于衡量眾數的代表性統(tǒng)計學第四章數據分布特征的測度異眾比率

(定類數據的算例)某城市居民關注廣告類型的頻數分布

廣告類型人數(人)頻率(%)

商品廣告服務廣告金融廣告房地產廣告招生招聘廣告其他廣告1125191610256.025.54.58.05.01.0合計200100【例】根據表中的數據,計算異眾比率解:在所調查的200人當中,關注非商品廣告的人數占44%,異眾比率還是比較大。因此,用“商品廣告”來反映城市居民對廣告關注的一般趨勢,其代表性不是很好

Vr=200-112200

=1-112200

=0.44=44%統(tǒng)計學第四章數據分布特征的測度二、四分位差

離散程度的測度值之一也稱為內距或四分間距上四分位數與下四分位數之差

QD

=QU-QL反映了中間50%數據的離散程度不受極端值的影響用于衡量中位數的代表性統(tǒng)計學第四章數據分布特征的測度四分位差

(定序數據的算例)【例】根據表中的數據,計算甲城市家庭對住房滿意狀況評價的四分位差解:設非常不滿意為1,不滿意為2,一般為3,滿意為4,非常滿意為5已知QL=不滿意=2,

QU=

一般=3四分位差:

QD

=QU

QL

=3–2

=1甲城市家庭對住房狀況評價的頻數分布回答類別甲城市戶數(戶)累計頻數

非常不滿意

不滿意一般滿意非常滿意2410893453024132225270300合計300—統(tǒng)計學第四章數據分布特征的測度

極差是最簡單的測度離中趨勢(分散程度)的指標,也稱全距,是一組數據最大值與最小值之差:

Range=LargestValue-SmallestValue

對于組距分組數據,極差可近似地表示為:

R=最高組上限-最低組下限

▲注意:

1、極差易受極端值的影響;

2、由于極差只利用了數據兩端的信息,沒有反映中間數據的分散狀況,因而不能準確描述數據的分散程度。

三、極差(Range)統(tǒng)計學第四章數據分布特征的測度

方差是各變量值與其均值離差(deviationaboutthemean)平方的平均數。

(一)總體方差(PopulationVariance)

總體方差用2表示

四、方差(Variance)其中:Fi為第i組數據的頻數

Xi為第i個數(未分組)或第i

組組中值(分組)統(tǒng)計學第四章數據分布特征的測度

(二)樣本方差(SampleVariance)

樣本方差用S2表示其中:fi為第i組數據的頻數

xi為第i個數(未分組)或第i

組組中值(分組)統(tǒng)計學第四章數據分布特征的測度樣本方差

自由度(degreeoffreedom)一組數據中可以自由取值的數據的個數當樣本數據的個數為

n

時,若樣本均值x

確定后,只有n-1個數據可以自由取值,其中必有一個數據則不能自由取值例如,樣本有3個數值,即x1=2,x2=4,x3=9,則

x

=5。當x

=5

確定后,x1,x2和x3有兩個數據可以自由取值,另一個則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值樣本方差用自由度去除,其原因可從多方面來解釋,從實際應用角度看,在抽樣估計中,當用樣本方差去估計總體方差σ2時,它是σ2的無偏估計量統(tǒng)計學第四章數據分布特征的測度例:在5個班平均人員的例中,若視5個班為樣本,則若視5個班為總體,則統(tǒng)計學第四章數據分布特征的測度對于分組后的數據若視為總體:若視為樣本:統(tǒng)計學第四章數據分布特征的測度

標準差:方差的平方根(正)。

在五個班級規(guī)模的例中:若視5個班為總體,則標準差為7.15,若視5個班為樣本,則標準差為8。

總體標準差:樣本標準差:

五、標準差(StandardDeviation)均值統(tǒng)計學第四章數據分布特征的測度▲注意:

1、由于方差計算中使用了平方運算,因此方差的單位也是平方,如上述班級規(guī)模例中方差為64(學生)2,其具體意義不明確。因此方差只有在比較不同組數據的離散程度時才有數量大小上的意義。

2、標準差是對方差的開方運算,因此,其單位與原始數據的單位一致,它與均值及其他用同一單位測度的數據相比較也容易一些。(標準差就是指數據“離散程度的測度值”距“均值”的距離)。統(tǒng)計學第四章數據分布特征的測度

離散系數:一組數據標準差與其均值的比,也稱為標準差系數,是測度數據離散程度的相對指標:

例:五個班級規(guī)模的例中,若視為總體,離散系數為:7.15/44=0.16,若視為樣本,則離散系數為:8/44=0.182。

五、離散系數(CoefficientofVariation)統(tǒng)計學第四章數據分布特征的測度▲注意:

1、對不同組數據,其離散程度既受其數據本身的水平的影響,也受數據計量單位的影響,因此對不同(性質)組別的數據,不好用離差或標準差來比較它們的離散程度;

2、由于離散系數消除了來自這兩方面的影響,因此可以用它進行不同數據組的比較。統(tǒng)計學第四章數據分布特征的測度例:某管理局抽查了其所屬的8家企業(yè),其產品銷售額與銷售利潤數據如下表所示,試比較銷售額與銷售利潤的離散程度。

企業(yè)編號銷售額銷售利潤企業(yè)編號銷售額銷售利潤

(萬元)(萬元)(萬元)(萬元)X1X2X1X211708.1548026.5222012.5665040.0339018.0795064.0443022.08100069.0計算結果表明,產品銷售額的離散程度小于銷售利潤的離散程度。表明銷售利潤的差異比銷售額的大統(tǒng)計學第四章數據分布特征的測度數據類型與離散程度測度值數據類型和所適用的離散程度測度值表數據類型定類數據定序數據定距數據或定比數據適用的測度值※異眾比率※四分位差※方差或標準差—

異眾比率※離散系數(比較適用)——

平均差——

極差——

四分位差——

異眾比率統(tǒng)計學第四章數據分布特征的測度第三節(jié)分布偏態(tài)與峰度的測度

偏態(tài)(Skewness)和峰度(Kurtosis)是對數據分布特征的進一步描述。平均數與標準差相同的數據組,其頻數分配(分布)也可能不同,如果頻數分布是對稱的,則稱為對稱分布,否則為偏態(tài)分布。

一、偏態(tài)及其測度測定偏態(tài)的方法主要有兩種:

(1)算術平均數與眾數比較法,

(2)動差法。統(tǒng)計學第四章數據分布特征的測度

(一)算術平均數與眾數比較法

完全對稱分布:算術平均數、中位數、眾數重合

非對稱分布:三者相互分離,算術平均數<中位數<眾數

可用算術平均數與眾數之間的距離作為測度偏態(tài)的一個尺度:

偏態(tài)=算術平均數-眾數這是偏態(tài)的絕對數,它以原有數據的單位為單位。統(tǒng)計學第四章數據分布特征的測度

同樣地,偏態(tài)絕對數不能用來比較不同數據組、不同計量單位數據的偏態(tài)程度,為了使不同數據組的偏態(tài)數值能相互比較,需

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論