統(tǒng)計學數(shù)據(jù)的描述性分析_第1頁
統(tǒng)計學數(shù)據(jù)的描述性分析_第2頁
統(tǒng)計學數(shù)據(jù)的描述性分析_第3頁
統(tǒng)計學數(shù)據(jù)的描述性分析_第4頁
統(tǒng)計學數(shù)據(jù)的描述性分析_第5頁
已閱讀5頁,還剩75頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

(優(yōu)選)統(tǒng)計學數(shù)據(jù)的描述性分析目前一頁\總數(shù)八十頁\編于十八點集中趨勢集中趨勢反映的是一組數(shù)據(jù)向某一中心值靠攏的傾向,在中心附近的數(shù)據(jù)數(shù)目較多,而遠離中心的較少。對集中趨勢進行描述就是尋找數(shù)據(jù)一般水平的中心值或代表值。目前二頁\總數(shù)八十頁\編于十八點目前三頁\總數(shù)八十頁\編于十八點1.數(shù)值平均數(shù):是以統(tǒng)計數(shù)列的所有數(shù)據(jù)來計算的平均數(shù).其特點是統(tǒng)計數(shù)列中任何一項數(shù)據(jù)的變動,都會在一定程度上影響數(shù)值平均數(shù)的計算結(jié)果.2.位置平均數(shù):它不是對統(tǒng)計數(shù)列中所有數(shù)據(jù)進行計算所得的結(jié)果,而是根據(jù)數(shù)列中處于特殊位置上的個別單位或部分單位的標志值來確定的.目前四頁\總數(shù)八十頁\編于十八點數(shù)值平均數(shù)包括算術(shù)平均數(shù)、調(diào)和平均數(shù)和幾何平均數(shù).1.算術(shù)平均數(shù)(均值,ArithmeticMean)

總體均值常用或表示,樣本均值常用表示,樣本均值的計算公式:簡單算術(shù)平均數(shù):加權(quán)算術(shù)平均數(shù):

一、

數(shù)值平均數(shù)目前五頁\總數(shù)八十頁\編于十八點權(quán)數(shù)的意義和作用權(quán)數(shù):各組次數(shù)(頻數(shù))的大小所對應(yīng)的標志值對平均數(shù)的影響具有權(quán)衡輕重的作用.當各組的次數(shù)都相同時,即當時:

加權(quán)算術(shù)平均數(shù)就等于簡單算術(shù)平均數(shù). 目前六頁\總數(shù)八十頁\編于十八點例:計算某車間工人加工零件平均數(shù)(組距式數(shù)列)解:目前七頁\總數(shù)八十頁\編于十八點

關(guān)于計算結(jié)果的說明●根據(jù)原始數(shù)據(jù)和分組資料計算的結(jié)果一般不會完全相等,

根據(jù)分組數(shù)據(jù)只能得到近似結(jié)果.●只有各組數(shù)據(jù)在組內(nèi)呈對稱或均勻分布時,根據(jù)分組資料的計算結(jié)果才會與原始數(shù)據(jù)的計算結(jié)果一致.(1).各變量值與均值的離差之和等于零.(2).各變量值與均值的離差平方和最小.目前八頁\總數(shù)八十頁\編于十八點△算術(shù)平均數(shù)的特點算術(shù)平均數(shù)適合用代數(shù)方法運算,因此運用比較廣泛;易受極端變量值的影響,使的代表性變小;受極大值的影響大于受極小值的影響;當組距數(shù)列為開口組時,由于組中值不易確定,使的代表性也不很可靠;同時要求各單位標志值在組內(nèi)是均勻分布的,此時各組的平均數(shù)正好等于它的組中值。故用組中值計算得出來的平均數(shù)只能是一個近似值。目前九頁\總數(shù)八十頁\編于十八點

調(diào)和平均數(shù)是各個變量值倒數(shù)的算術(shù)平均數(shù)的倒數(shù)。2、調(diào)和平均數(shù)(又稱“倒數(shù)平均數(shù)”)

目前十頁\總數(shù)八十頁\編于十八點其計算方法如下:在加權(quán)的情況下:=目前十一頁\總數(shù)八十頁\編于十八點在社會經(jīng)濟統(tǒng)計學中經(jīng)常用到的僅是一種特定權(quán)數(shù)的加權(quán)調(diào)和平均數(shù)。即有以下數(shù)學關(guān)系式成立:m是一種特定權(quán)數(shù),它不是各組變量值出現(xiàn)的次數(shù),而是各組標志值總量。目前十二頁\總數(shù)八十頁\編于十八點△調(diào)和平均數(shù)的特點如果數(shù)列中有一標志值等于零,則無法計算;較之算術(shù)平均數(shù),受極端值的影響要小。目前十三頁\總數(shù)八十頁\編于十八點例.某蔬菜批發(fā)市場三種蔬菜日成交數(shù)據(jù)如下表,計算三種蔬菜該日的平均批發(fā)價格.目前十四頁\總數(shù)八十頁\編于十八點3.幾何平均數(shù)(GeometricMean),又稱“對數(shù)平均數(shù)”是另一種形式的平均數(shù),是n個標志值乘積的n次方根.主要用于計算平均比率和平均速度.(1)簡單幾何平均數(shù)式中G表示幾何平均數(shù),表示各項標志值.目前十五頁\總數(shù)八十頁\編于十八點(2)加權(quán)幾何平均數(shù)目前十六頁\總數(shù)八十頁\編于十八點例

某企業(yè)四個車間流水作業(yè)生產(chǎn)某產(chǎn)品,一車間產(chǎn)品合格率99%,二車間為95%,三車間為92%,四車間為90%,計算該企業(yè)的平均產(chǎn)品合格率.目前十七頁\總數(shù)八十頁\編于十八點△幾何平均數(shù)的特點如果數(shù)列中有一個標志值等于零或負值,就無法計算;受極端值的影響較和小;它適用于反映特定現(xiàn)象的平均水平,即現(xiàn)象的總標志值是各單位標志值的連乘積。目前十八頁\總數(shù)八十頁\編于十八點注:(1)(2)數(shù)值平均數(shù)主要適用于定量數(shù)據(jù),而不適用于定性數(shù)據(jù).(3)簡單數(shù)值平均數(shù)適用于未分組的資料,加權(quán)數(shù)值平均數(shù)適用于分組的資料.目前十九頁\總數(shù)八十頁\編于十八點1.眾數(shù)(Mode)

一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值.

主要特點:

●不受極端值的影響.

●有的數(shù)據(jù)無眾數(shù)或有多個眾數(shù).

位置平均數(shù)目前二十頁\總數(shù)八十頁\編于十八點目前二十一頁\總數(shù)八十頁\編于十八點M0M0M0M0M0若有兩個次數(shù)相等的眾數(shù),則稱復(fù)眾數(shù)。①只有總體單位數(shù)比較多,而且又有明顯的集中趨勢時才存在眾數(shù)。目前二十二頁\總數(shù)八十頁\編于十八點下三圖無眾數(shù):②在單位數(shù)很少,或單位數(shù)雖多但無明顯集中趨勢時,計算眾數(shù)是沒有意義的。說明:如果所有數(shù)據(jù)出現(xiàn)的次數(shù)都一樣,那么這組數(shù)據(jù)沒有眾數(shù).目前二十三頁\總數(shù)八十頁\編于十八點眾數(shù)主要用于分類數(shù)據(jù),也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù),對于未分組數(shù)據(jù)和單項式分組數(shù)據(jù),眾數(shù)位置確定之后便找到了眾數(shù).適用范圍目前二十四頁\總數(shù)八十頁\編于十八點例:分類數(shù)據(jù)的眾數(shù)目前二十五頁\總數(shù)八十頁\編于十八點例:順序數(shù)據(jù)的眾數(shù)目前二十六頁\總數(shù)八十頁\編于十八點①根據(jù)單項數(shù)列確定眾數(shù);價格(元)銷售數(shù)量(千克)2.00202.40603.001404.0080合計300某種商品的價格情況眾數(shù)M0=3.00(元)數(shù)值型數(shù)據(jù)眾數(shù)的計算方法例目前二十七頁\總數(shù)八十頁\編于十八點②根據(jù)組距數(shù)列確定眾數(shù)(ⅱ)利用比例插值法推算眾數(shù)的近似值。(?。?/p>

由最多次數(shù)來確定眾數(shù)所在組;目前二十八頁\總數(shù)八十頁\編于十八點按日產(chǎn)量分組(千克)工人人數(shù)(人)60以下1060-701970-805080-903690-10027100-11014110以上8表中70-80,即眾數(shù)所在組。例目前二十九頁\總數(shù)八十頁\編于十八點計算眾數(shù)的近似值:下限公式:上限公式:由下限公式,日產(chǎn)量眾數(shù)由上限公式,日產(chǎn)量眾數(shù)目前三十頁\總數(shù)八十頁\編于十八點△眾數(shù)的特點

眾數(shù)是一個位置平均數(shù),它只考慮總體分布中最頻繁出現(xiàn)的變量值,而不受各單位標志值的影響,從而增強了對變量數(shù)列一般水平的代表性。不受極端值和開口組數(shù)列的影響。

眾數(shù)是一個不容易確定的平均指標,當分布數(shù)列沒有明顯的集中趨勢而趨均勻分布時,則無眾數(shù)可言;當變量數(shù)列是不等距分組時,眾數(shù)的位置也不好確定。目前三十一頁\總數(shù)八十頁\編于十八點2.中位數(shù)(Median)中位數(shù)是一組數(shù)據(jù)按一定順序排列后,處于中間位置上的變量目前三十二頁\總數(shù)八十頁\編于十八點目前三十三頁\總數(shù)八十頁\編于十八點①由未分組資料確定中位數(shù)數(shù)值型數(shù)據(jù)中位數(shù)的計算方法目前三十四頁\總數(shù)八十頁\編于十八點⑴n為奇數(shù)時,則居于中間位置的那個標志值

就是中位數(shù)。例目前三十五頁\總數(shù)八十頁\編于十八點⑵n為偶數(shù)時,則中間位置的兩個標志值的算術(shù)

平均數(shù)為中位數(shù)。目前三十六頁\總數(shù)八十頁\編于十八點②由單項數(shù)列確定中位數(shù)某企業(yè)按日產(chǎn)零件分組如下:按日產(chǎn)零件分組(件)工人數(shù)(人)較小制累計較大制累計26338031101377321427673427545336187226418808合計80--例目前三十七頁\總數(shù)八十頁\編于十八點③由組距數(shù)列確定中位數(shù)

按日產(chǎn)量分組(千克)工人數(shù)(人)較小制累計較大制累計50–60101016460–70192915470–80507913580–90361158590–1002714249100-1101415622110以上81648合計164--目前三十八頁\總數(shù)八十頁\編于十八點下限公式(較小制累計時用):目前三十九頁\總數(shù)八十頁\編于十八點上限公式(較大制累計時用):目前四十頁\總數(shù)八十頁\編于十八點①中位數(shù)不受極端值及開口組的影響,具有穩(wěn)健性。②各單位標志值與中位數(shù)離差的絕對值之和是個最小值。③對某些不具有數(shù)學特點或不能用數(shù)字測定的現(xiàn)象,可用中位數(shù)求其一般水平。中位數(shù)的特點目前四十一頁\總數(shù)八十頁\編于十八點負偏正偏注:(1)中位數(shù)總是介于眾數(shù)和平均數(shù)之間.目前四十二頁\總數(shù)八十頁\編于十八點(2)皮爾遜經(jīng)驗法則分布在輕微偏斜的情況下,眾數(shù)、中位數(shù)和算術(shù)平均數(shù)數(shù)量關(guān)系的經(jīng)驗公式為:目前四十三頁\總數(shù)八十頁\編于十八點一組工人的月收入眾數(shù)為700元,月收入的算術(shù)平均數(shù)為1000元,則月收入的中位數(shù)近似值是:例根據(jù)卡爾·皮爾遜經(jīng)驗公式,還可以推算出:目前四十四頁\總數(shù)八十頁\編于十八點眾數(shù)、中位數(shù)、平均數(shù)的特點和應(yīng)用眾數(shù)不受極端值影響具有不惟一性數(shù)據(jù)分布偏斜程度較大且有明顯峰值時應(yīng)用中位數(shù)不受極端值影響數(shù)據(jù)分布偏斜程度較大時應(yīng)用平均數(shù)易受極端值影響數(shù)學性質(zhì)優(yōu)良數(shù)據(jù)對稱分布或接近對稱分布時應(yīng)用目前四十五頁\總數(shù)八十頁\編于十八點數(shù)值平均數(shù)與位置平均數(shù)的適用場合?目前四十六頁\總數(shù)八十頁\編于十八點60分以下260-70870-802280-901090分以上4案例1:甲班《統(tǒng)計學》考試情況如下表:目前四十七頁\總數(shù)八十頁\編于十八點案例2:乙班《統(tǒng)計學》考試情況如下表:60分以下260-703070-80880-90490分以上1目前四十八頁\總數(shù)八十頁\編于十八點案例3:丙班《統(tǒng)計學》考試情況如下表:60分以下260-70570-801280-902590分以上7目前四十九頁\總數(shù)八十頁\編于十八點問題1、計算甲、乙、丙三個班的平均成績;該平均值是真實值還是近似值?如是近似值,什么情況下會是真實值?2、計算甲、乙、丙三個班的中位數(shù)、眾數(shù);3、如要選擇從算術(shù)平均數(shù)、中位數(shù)和眾數(shù)三個平均數(shù)中選擇一個數(shù)來分別代表甲、乙、丙三個班的整體水平,請問你會選擇哪個平均數(shù)?為什么?4、如要分別反映甲、乙、丙三個班的考試情況,你會選擇用哪些指標來衡量?5、如要比較甲、乙、丙三個班的考試情況的優(yōu)劣,你又會選擇什么樣的指標來衡量?6、甲乙丙三個班的考試成績分別服從對稱分布、左偏分布、右偏分布中的哪種分布?為什么?目前五十頁\總數(shù)八十頁\編于十八點離散程度的描述●反映各變量值遠離其中心值的程度(離散程度),從另一個側(cè)面說明了集中趨勢測度值的代表程度.目前五十一頁\總數(shù)八十頁\編于十八點目前五十二頁\總數(shù)八十頁\編于十八點3.2.1離散程度的常用指標①異眾比率式中,為變量值的總頻數(shù);為眾數(shù)組的頻數(shù).異眾比率越大,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越大,眾數(shù)的代表性越差.目前五十三頁\總數(shù)八十頁\編于十八點②全距(極差)

極差(Range)也叫全距,是一組數(shù)據(jù)的最大值與最小值之差,即:

組距分組數(shù)據(jù)可用最高組上限-最低組下限計算.目前五十四頁\總數(shù)八十頁\編于十八點③四分位差四分位差(quartiledeviation)也稱內(nèi)距或四分間距(inter-quartilerange),是指第三四分位數(shù)和第一四分位數(shù)之差.四分位差的計算公式為:把所有數(shù)據(jù)由小到大排列并分成若干等份,處于分割點位置的數(shù)值就是分位數(shù).目前五十五頁\總數(shù)八十頁\編于十八點把所有數(shù)據(jù)由小到大排列并分成四等份,處于三個分割點位置的數(shù)值就是四分位數(shù).分位數(shù)可以反映數(shù)據(jù)分布的相對位置(而不單單是中心位置).常用的有四分位數(shù)、十分位數(shù)、百分位數(shù).四分位數(shù)(Quartile):Q1,Q2,Q3;十分位數(shù)(Decile):D1,D2,...,D9;百分位數(shù)(Percentile):P1,P2,...,P99;目前五十六頁\總數(shù)八十頁\編于十八點四分位數(shù)的計算首先確定四分位數(shù)的位置,再找出對應(yīng)位置的標志值即為四分位數(shù).設(shè)樣本容量為n,則如果各位置計算出來的結(jié)果恰好是整數(shù),這時各位置上的標志值即為相應(yīng)的四分位數(shù);如果四分位數(shù)的位置不是整數(shù),則四分位數(shù)為前后兩個數(shù)的加權(quán)算術(shù)平均數(shù).權(quán)數(shù)的大小取決于兩個整數(shù)位置與四分位數(shù)位置距離的遠近,距離越近,權(quán)數(shù)越大.在實際應(yīng)用中,計算四分位數(shù)的方法并不統(tǒng)一(數(shù)據(jù)量大時這些方法差別不大),對于一組排序后的數(shù)據(jù):目前五十七頁\總數(shù)八十頁\編于十八點

SPSS中四分位數(shù)的位置分別為

Excel中四分位數(shù)的位置分別為目前五十八頁\總數(shù)八十頁\編于十八點練習:已知9個家庭的人均月收入數(shù)據(jù)試求這組數(shù)據(jù)的第一和第三四分位數(shù).四分位差反映了中間50%數(shù)據(jù)的離散程度,數(shù)值越小說明中間數(shù)據(jù)越集中.目前五十九頁\總數(shù)八十頁\編于十八點④平均差(Meandeviation)平均差也稱平均絕對偏差,總體所有單位的標志值與其平均數(shù)的離差絕對值的算術(shù)平均數(shù).通常用表示.未分組數(shù)據(jù)計算平均差的公式為:加權(quán)式(分組數(shù)據(jù)):平均差雖然能較好地區(qū)別出不同組數(shù)據(jù)的分散情況或程度,但它的缺點是絕對值不適合作進一步的數(shù)學分析.目前六十頁\總數(shù)八十頁\編于十八點⑤標準差和方差(StandarddeviationandVariance)方差是一組數(shù)據(jù)中各數(shù)值與其算術(shù)平均數(shù)離差平方的平均數(shù).標準差是方差中的平方根.目前六十一頁\總數(shù)八十頁\編于十八點

注:總體方差和樣本方差的符號不同,計算公式也不一樣.是反映定量數(shù)據(jù)離散程度的最常用的指標.目前六十二頁\總數(shù)八十頁\編于十八點例.在某地區(qū)抽取的120家企業(yè)按利潤額進行分組,結(jié)果如表3.1所示.

表3.1某地區(qū)120家企業(yè)的利潤額分組計算120家企業(yè)利潤額的均值和標準差.目前六十三頁\總數(shù)八十頁\編于十八點目前六十四頁\總數(shù)八十頁\編于十八點⑥離散系數(shù)(Coefficientofvariation)離散系數(shù)也稱變異系數(shù),是各變異指標與其算術(shù)平均數(shù)的比值.例如,將極差與其平均數(shù)對比,得到極差系數(shù);將標準差與其平均數(shù)對比,得到標準差系數(shù).最常用的變異系數(shù)是標準差系數(shù):標準差系數(shù):標準差與其相應(yīng)的均值之比,表示為百分數(shù).目前六十五頁\總數(shù)八十頁\編于十八點特點:1、反映了相對于均值的相對離散程度;2、可用于比較計量單位不同的數(shù)據(jù)的離散程度;3、計量單位相同時,如果兩組數(shù)據(jù)的均值相差懸殊,離散系數(shù)比標準差更有意義.目前六十六頁\總數(shù)八十頁\編于十八點例子.某管理局抽查了所屬的8家企業(yè),其產(chǎn)品銷售數(shù)據(jù)如表3.2所示,試比較產(chǎn)品銷售額和銷售利潤的離散程度.目前六十七頁\總數(shù)八十頁\編于十八點銷售額銷售利潤結(jié)論:計算結(jié)果表明,說明產(chǎn)品銷售額的離散程度小于銷售利潤的離散程度.目前六十八頁\總數(shù)八十頁\編于十八點3.2.2數(shù)據(jù)的標準化①定義標準化數(shù)值是變量值與其平均數(shù)的離差除以標準差后的值,也稱為z分數(shù)或標準分數(shù).設(shè)標準化數(shù)值為z,則有:

●對于來自不同均值和標準差的個體的數(shù)據(jù),往往不能直接對比.這就需要將它們轉(zhuǎn)化為同一規(guī)格、尺度的數(shù)據(jù)后再比較.

●標準分數(shù)是對某一個值在一組數(shù)據(jù)中相對位置的度量.目前六十九頁\總數(shù)八十頁\編于十八點例

假定某班學生先后兩次進行了難度不同的大學英語綜合考試,第一次考試成績的均值和標準差分別為80分和10分,而第二次考試成績的均值和標準差分別為70分和7分.張三第一、二次考試的成績分別為92分和80分,那么全班相比較而言,他哪一次考試的成績更好呢?解:由于兩次考試成績的均值和標準差不同,每個學生兩次考試的成績不宜直接比較.利用標準分數(shù)進行對比,計算結(jié)果表明,第二次考試成績更好些.目前七十頁\總數(shù)八十頁\編于十八點②對稱分布中的法則變量值落在范圍以外的情況極為少見.因此通常將落在區(qū)間之外的數(shù)據(jù)稱為離群點(或異常數(shù)據(jù)).目前七十一頁\總數(shù)八十頁\編于十八點分布形狀的描述集中趨勢和離散程度是數(shù)據(jù)分布的兩個重要特征,但要全面了解數(shù)據(jù)分布的特點,還需要知道數(shù)據(jù)分布的形狀是否對稱、偏斜程度以及分布的扁平程度等.偏態(tài)和峰度就是對這些分布特征的進一步描述.偏態(tài)和峰度是英國統(tǒng)計學家卡爾?皮爾遜首先提出的.目前七十二頁\總數(shù)八十頁\編于十八點3.3.1偏態(tài)(Skewness)及其測定如果次數(shù)分布是完全對稱的,叫對稱分布;如果次數(shù)分布不是完全對稱的,就稱為偏態(tài)分布.目前七十三頁\總數(shù)八十頁\編于十八點①所謂偏度,就是指次數(shù)分布的非對稱程度,用偏態(tài)系數(shù)來表示.②計算公式式子中稱為偏態(tài)系數(shù).

偏態(tài)系數(shù)有多種計算方法,在Excel軟件中通常采用以下公式:目前七十四頁\總數(shù)八十頁\編于十八點當時,左右完全對稱,為正態(tài)分布;當時為正偏(或右偏);當時為負偏(或左偏).偏態(tài)系數(shù)的數(shù)值一般在0與±3之間,偏態(tài)系數(shù)越接近于0,分布的偏斜程度越小;偏態(tài)系數(shù)越接

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論