統(tǒng)計(jì)學(xué)課件第3章數(shù)據(jù)的描述參考PPT_第1頁(yè)
統(tǒng)計(jì)學(xué)課件第3章數(shù)據(jù)的描述參考PPT_第2頁(yè)
統(tǒng)計(jì)學(xué)課件第3章數(shù)據(jù)的描述參考PPT_第3頁(yè)
統(tǒng)計(jì)學(xué)課件第3章數(shù)據(jù)的描述參考PPT_第4頁(yè)
統(tǒng)計(jì)學(xué)課件第3章數(shù)據(jù)的描述參考PPT_第5頁(yè)
已閱讀5頁(yè),還剩87頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第3章 數(shù)據(jù)的描述,統(tǒng)計(jì)圖與統(tǒng)計(jì)表 數(shù)據(jù)集中趨勢(shì)的數(shù)值描述 數(shù)據(jù)離散程度的數(shù)值描述 數(shù)據(jù)分布的形態(tài),2,本章要回答的問題,常用的統(tǒng)計(jì)圖表有哪些?如何繪制和解釋其含義? 通常使用哪些數(shù)值指標(biāo)描述數(shù)據(jù)的特征?如何計(jì)算,3,3.1 統(tǒng)計(jì)圖與統(tǒng)計(jì)表,繪制統(tǒng)計(jì)圖一般都需要先對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分組,在得到的頻數(shù)分布表的基礎(chǔ)上制圖,4,zhi 3.1.1 統(tǒng)計(jì)分組與頻數(shù)分布,統(tǒng)計(jì)分組:就是按照研究目的將數(shù)據(jù)分成若干組的統(tǒng)計(jì)方法。 關(guān)鍵:選擇分組變量和劃分各組界限 例如按照考試成績(jī)把學(xué)生分為優(yōu)、良、中、及格、不及格。 統(tǒng)計(jì)分組的結(jié)果是形成頻數(shù)分布(分布數(shù)列,F(xiàn)requency Distribution,5,頻數(shù)分

2、布舉例,兩個(gè)構(gòu)成要素: 各組的分組界限 每組中的次數(shù)或頻率 通過頻數(shù)分布表可以發(fā)現(xiàn)數(shù)據(jù)分布的特征。 頻數(shù)(frequency) :每個(gè)組中的數(shù)據(jù)個(gè)數(shù),也稱次數(shù)。 頻率(relative frequency) :頻數(shù)/總數(shù)據(jù)個(gè)數(shù),6,分組方法,7,單變量值分組,將一個(gè)變量值作為一組,適合于離散變量,適合于變量值較少的情況。 例如某學(xué)院2008年畢業(yè)研究生畢業(yè)時(shí)發(fā)表論文篇數(shù)的頻數(shù)分布表(右表,8,組距分組,將變量值的一個(gè)區(qū)間作為一組,適合于連續(xù)變量,適合于變量值較多的情況。 分組必須遵循“不重不漏”的原則。 分為等距與不等距分組。 各組組距都相等時(shí)為等距分組。 為了避免有些組中的頻數(shù)很少甚至是空白

3、的情況,有時(shí)也可以采用不等距(異距)分組。 應(yīng)用中可能需要把第一組和/或最后一組設(shè)為開口組,9,組距分組的步驟,1、確定組數(shù):通常為5到15 (20)組。 Sturges 提出的經(jīng)驗(yàn)公式:分組組數(shù)K應(yīng)滿足,2、確定組距和各組界限,建議為5,10的倍數(shù)。 組距( 最大值 - 最小值) 組數(shù),3、根據(jù)分組整理成頻數(shù)分布表,10,組距分組中的基本概念,1、 下 限:一個(gè)組的最小可能值 2、 上 限:一個(gè)組的最大可能值 3、 組 距:上限與下限之差 4、 組中值:下限與上限之間的中點(diǎn)值,(下限+上限)/2,開口組的組中值可以按以下方法計(jì)算: 缺下限:上限-鄰組組距/2 缺上限:下限+鄰組組距/2,但許

4、多作者認(rèn)為無法計(jì)算開口組的上限或下限,11,等距分組表:上下組限間斷,12,等距分組表(上下組限重疊,上組限不在內(nèi),13,等距分組表:(使用開口組,14,3.1.2 列聯(lián)表(Contingency table,如果對(duì)數(shù)據(jù)同時(shí)根據(jù)兩個(gè)變量分組,匯總得到的結(jié)果稱為列聯(lián)表。列聯(lián)表反映的是兩個(gè)變量的聯(lián)合分布,可以用來分析兩關(guān)變量之間的關(guān)系。也稱為交叉分組表(Cross tabulation)。 列聯(lián)表一般根據(jù)兩個(gè)定性變量進(jìn)行編制,如果是定量變量則需要先對(duì)單個(gè)變量進(jìn)行分組。 列聯(lián)表中的數(shù)字為交叉單元格中的頻數(shù)或頻率。 以列聯(lián)表為基礎(chǔ)可以對(duì)兩個(gè)變量之間的關(guān)系進(jìn)行多種統(tǒng)計(jì)檢驗(yàn),15,列聯(lián)表舉例,市場(chǎng)營(yíng)銷專業(yè)

5、的男生有10人,16,3.1.3 常用統(tǒng)計(jì)圖,17,條形圖(Bar Chart,用寬度相同的條形高度或長(zhǎng)短來表示數(shù)據(jù)變動(dòng)的圖形,條形的排列可以橫排,也可以縱排。條形圖有單式、復(fù)式等形式,2003年我國(guó)就業(yè)人員情況(萬人,18,圓形圖 (Pie Chart,也叫餅圖,它是用圓形及圓內(nèi)扇形的面積來表示數(shù)值大小的圖形。主要用于總體內(nèi)部的結(jié)構(gòu),各組成部分所占比例等,2003年我國(guó)國(guó)內(nèi)生產(chǎn)總值中各產(chǎn)業(yè)比重,19,直方圖(Histogram,用來反映數(shù)量變量的分布狀況。在統(tǒng)計(jì)分組的基礎(chǔ)上,用橫軸表示數(shù)據(jù)分組,縱軸表示頻數(shù)或頻率,各組與相應(yīng)的頻數(shù)就形成了一個(gè)矩形,即直方圖。 注意對(duì)不等距分組:縱軸必須表示為

6、頻數(shù)密度 頻數(shù)密度=頻數(shù)/組距 (面積之和=總頻數(shù)) 手工繪制直方圖時(shí)需要先對(duì)數(shù)據(jù)進(jìn)行分組;用統(tǒng)計(jì)軟件作直方圖時(shí)統(tǒng)計(jì)軟件可以自動(dòng)進(jìn)行分組,20,直方圖(等距分組,某會(huì)計(jì)師事務(wù)所對(duì)20家公司進(jìn)行年終審計(jì)所需時(shí)間(天)的頻數(shù)分布表,21,直方圖(不等距分組,某會(huì)計(jì)師事務(wù)所對(duì)20家公司進(jìn)行年終審計(jì)所需時(shí)間(天)的頻數(shù)分布表,22,直方圖與條形圖的異同,都是用來反映數(shù)據(jù)的分布狀況,適用于不同類型的數(shù)據(jù)。 條形圖是用條形的高度表示各類別頻數(shù)的多少,其寬度(表示類別)則是固定的。 直方圖是用面積表示各組頻數(shù)的多少,矩形的高度表示每一組的頻數(shù)或百分比,寬度則表示各組的組距,其高度與寬度均有意義。 直方圖的各

7、矩形通常是連續(xù)排列,條形圖則是分開排列,23,折線圖 (Frequency polygon,折線圖也稱頻數(shù)多邊形圖是在直方圖的基礎(chǔ)上,把直方圖頂部的中點(diǎn)(組中值)用直線連接起來,再把原來的直方圖抹掉。 折線圖的兩個(gè)終點(diǎn)要與橫軸相交,具體的做法是第一個(gè)矩形的頂部中點(diǎn)通過豎邊中點(diǎn)(即該組頻數(shù)一半的位置)連接到橫軸,最后一個(gè)矩形頂部中點(diǎn)與其豎邊中點(diǎn)連接到橫軸。 組數(shù)越多,組據(jù)就越小,折線圖就越光滑,逐漸形成一條平滑的曲線,這就是頻數(shù)分布曲線,24,審計(jì)時(shí)間的折線圖,25,主要用于顯示未分組的原始數(shù)據(jù)的分布。由“莖”和“葉”兩部分構(gòu)成,其圖形是由數(shù)字組成的。 通常以數(shù)據(jù)的高位數(shù)值作樹莖,低位數(shù)字作樹葉

8、,樹葉上只保留一位數(shù)字。 樹葉的豎列要對(duì)齊,以計(jì)算各組的次數(shù)。 原始數(shù)據(jù):24, 26, 24, 21, 27, 27, 30, 41, 32, 38 從小到大排序后的數(shù)據(jù): 21, 24, 24, 26, 27, 27, 30, 32, 38, 41 莖葉圖,3 0 2 8,4 1,2 1 4 4 6 7 7,莖葉圖 (Stem-and-Leaf Display,30,26,40名教師的年齡的數(shù)據(jù):40,41,48,51,37,35,36,50,33,42,28,33,36,29,28,29,34,35,27,36,28,29,34,26,35,40,27,43,45,39,42,41,48

9、,55,43,42,42,51,52,64,SPSS Statistics生成的一個(gè)莖葉圖,27,線圖(Line Chart,利用線形的升降起伏來表現(xiàn)描述的變量在一段時(shí)期內(nèi)的變動(dòng)情況,主要用于顯示時(shí)間數(shù)列的數(shù)據(jù),1996年-2003年城鄉(xiāng)居民人民幣儲(chǔ)蓄存款年底余額,28,3.1.4 繪制統(tǒng)計(jì)圖時(shí)的注意事項(xiàng),1、通過選擇恰當(dāng)?shù)膱D形類型、刻度、長(zhǎng)寬比例等,使圖形能夠準(zhǔn)確反映數(shù)據(jù)中包含的信息。 時(shí)間一般繪在橫軸,指標(biāo)數(shù)據(jù)繪在縱軸。 長(zhǎng)寬比例要適當(dāng) ,其長(zhǎng)寬比例大致為10:7。 一般情況下,縱軸數(shù)據(jù)下端應(yīng)從“0”開始。數(shù)據(jù)與“0”之間的間距過大時(shí),可以采取折斷的符號(hào)將縱軸折斷,29,繪制統(tǒng)計(jì)圖時(shí)的注意

10、事項(xiàng),2、圖形要盡量簡(jiǎn)明。圖形應(yīng)該突出所要傳達(dá)的信息,不必要的標(biāo)簽、背景、網(wǎng)格線、等會(huì)分散讀者的注意力。 3、圖形應(yīng)該有清楚的標(biāo)題和必要的說明,明確圖形的含義、計(jì)量單位、坐標(biāo)軸代表的變量、資料來源等等。 4、反復(fù)加工和修改是獲得優(yōu)秀統(tǒng)計(jì)圖形的重要步驟。統(tǒng)計(jì)軟件給出的統(tǒng)計(jì)圖形沒有多少可以不加修改而直接應(yīng)用,30,下圖增長(zhǎng)速度驚人,上圖增長(zhǎng)速度緩慢,不恰當(dāng)?shù)慕y(tǒng)計(jì)圖形舉例:縱橫比例,31,不必要的三維效果:三維圖形可能比二維圖形更能吸引讀者的注意,但只能用來反映變化的趨勢(shì),不能用來進(jìn)行精確的比較,不恰當(dāng)?shù)慕y(tǒng)計(jì)圖形舉例:三維效果,32,不恰當(dāng)?shù)慕y(tǒng)計(jì)圖形舉例:圖形類型,1960: $1.00,1970:

11、 $1.60,1980: $3.10,1990: $3.80,Minimum Wage,不好的圖形,33,不恰當(dāng)?shù)慕y(tǒng)計(jì)圖形舉例:壓縮縱軸,Quarterly Sales,不好的圖形,0,100,200,Q1,Q2,Q3,Q4,34,不恰當(dāng)?shù)慕y(tǒng)計(jì)圖形舉例:縱軸無零點(diǎn),好的圖形,Monthly Sales,不好的圖形,36,39,42,45,J,F,M,A,M,J,35,3.1.5 統(tǒng)計(jì)表,統(tǒng)計(jì)表是統(tǒng)計(jì)資料的最基本表現(xiàn)形式,使數(shù)據(jù)資料表述的更加緊湊、簡(jiǎn)明,條理清晰、通俗易懂,便于數(shù)據(jù)的比較。 一個(gè)完整的統(tǒng)計(jì)表從結(jié)構(gòu)上看一般包括:表頭、行標(biāo)題、列標(biāo)題、數(shù)據(jù)資料。 對(duì)表中指標(biāo)或數(shù)據(jù)的補(bǔ)充說明一般作為附

12、加部分放在統(tǒng)計(jì)表的下方,36,統(tǒng)計(jì)表的構(gòu)成,行標(biāo)題,表頭,列標(biāo)題,數(shù)字資料,附加,37,統(tǒng)計(jì)表的制作要求,原則:科學(xué)、實(shí)用、美觀、簡(jiǎn)練。 標(biāo)題簡(jiǎn)明扼要,滿足3W要求(When, Where, What)。 結(jié)構(gòu)合理,長(zhǎng)寬比例要適當(dāng)。 統(tǒng)計(jì)表為“開口式”; 表的上下兩條橫線一般用粗線,其他線用細(xì)線,線條要少。 數(shù)據(jù)計(jì)量單位相同時(shí),可放在表的右上角標(biāo)明,不同時(shí)應(yīng)放在每個(gè)指標(biāo)后或單列出一列標(biāo)明。 表中的數(shù)據(jù)一般是右對(duì)齊,有小數(shù)點(diǎn)時(shí)應(yīng)以小數(shù)點(diǎn)對(duì)齊,而且小數(shù)點(diǎn)的位數(shù)應(yīng)統(tǒng)一。 對(duì)于沒有數(shù)字、缺某項(xiàng)或免填的表格單元,應(yīng)使用特定符號(hào)標(biāo)出。 必要時(shí)可在表的下方加上注釋,38,3.2 數(shù)據(jù)描述的數(shù)值方法,數(shù)據(jù)描述

13、的數(shù)值方法,分布的形狀,集中趨勢(shì),離散程度,眾 數(shù),中位數(shù),均 值,離散系數(shù),方差和標(biāo)準(zhǔn)差,峰 度,四分位距,極差,偏 態(tài),3.2.1,3.2.2,3.2.3,39,3.2.1 集中趨勢(shì),常用的集中趨勢(shì)的測(cè)度指標(biāo): 算術(shù)平均數(shù) 中位數(shù) 眾數(shù),集中趨勢(shì):一組數(shù)據(jù)向其中心值靠攏的傾向和程度。 集中趨勢(shì)測(cè)度:尋找數(shù)據(jù)水平的代表值或中心值,40,1 算術(shù)平均數(shù)(均值,Arithmetic Mean,總體均值常用 表示。樣本均值常用 表示。樣本均值的計(jì)算公式: 簡(jiǎn)單平均數(shù): 加權(quán)平均數(shù)(分組數(shù)據(jù)),41,算術(shù)平均數(shù)(例子,某企業(yè)的工會(huì)隨機(jī)調(diào)查了20名工人2005年6月加班的小時(shí)數(shù),結(jié)果如下: 該組數(shù)據(jù)算

14、術(shù)平均數(shù)等于(13+18+ +12)/20=11.6(小時(shí),42,加權(quán)算術(shù)平均數(shù)(例子,在前面的例子中,假設(shè)我們只得到了分組后的資料: 該組數(shù)據(jù)算術(shù)平均數(shù)等于245/20=12.25(小時(shí),43,關(guān)于計(jì)算結(jié)果的說明,根據(jù)原始數(shù)據(jù)和分組資料計(jì)算的結(jié)果一般不會(huì)完全相等,根據(jù)分組數(shù)據(jù)只能得到近似結(jié)果。 只有各組數(shù)據(jù)在組內(nèi)呈對(duì)稱或均勻分布時(shí),根據(jù)分組資料的計(jì)算結(jié)果才會(huì)與原始數(shù)據(jù)的計(jì)算結(jié)果一致,44,算術(shù)平均數(shù)的性質(zhì),1、所有的定量數(shù)據(jù)都有算術(shù)平均數(shù)。 2、計(jì)算算術(shù)平均數(shù)時(shí)使用了所有數(shù)據(jù)。 3、一組數(shù)只有一個(gè)均值。 4、各變量值與均值的離差之和等于零,張村有個(gè)張千萬, 九個(gè)鄰居窮光蛋; 統(tǒng)計(jì)平均算資產(chǎn),

15、 個(gè)個(gè)都是張百萬,缺點(diǎn): 易受極端值的影響。 嚴(yán)格來說無法根據(jù)有開口組的分組數(shù)據(jù)計(jì)算算術(shù)平均數(shù),45,2 中位數(shù)(Median,一組數(shù)據(jù)按大小順序排列后,處在數(shù)列中點(diǎn)位置的數(shù)值。 特點(diǎn): 對(duì)一組數(shù)據(jù)是唯一的。 不受極端值的影響。 主要用于順序數(shù)據(jù),也可用數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù),46,根據(jù)原始數(shù)據(jù)計(jì)算中位數(shù),n為奇數(shù)時(shí)等于第(n+1)/2個(gè)數(shù)。 n為偶數(shù)時(shí)等于第n/2和n/2+1個(gè)數(shù)的平均值,1,2 ,5,9 ,11,中位數(shù)=5,1,2 ,5 , 9,11,18,中位數(shù)=(5+9)/2=7,47,3 眾數(shù)(Mode,一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值。 主要特點(diǎn): 不受極端值的影響。 有的數(shù)

16、據(jù)無眾數(shù)或有多個(gè)眾數(shù)。 對(duì)未分組定量資料很少使用,48,眾數(shù)的不惟一性,49,眾數(shù)、中位數(shù)和算術(shù)平均數(shù)的關(guān)系,分配為鐘形、輕微不對(duì)稱的經(jīng)驗(yàn)公式,50,小結(jié):平均數(shù)、中位數(shù)、眾數(shù)的特點(diǎn),算術(shù)平均數(shù) : 易受極端值影響(使用了全部數(shù)據(jù)) 數(shù)學(xué)性質(zhì)優(yōu)良,主要用于數(shù)值型數(shù)據(jù) 數(shù)據(jù)對(duì)稱分布或接近對(duì)稱分布時(shí)應(yīng)用 中位數(shù): 不受極端值影響 數(shù)據(jù)分布偏斜程度較大時(shí)應(yīng)用;主要用于順序數(shù)據(jù) 眾數(shù): 不受極端值影響 不具有惟一性 數(shù)據(jù)分布偏斜程度較大時(shí)應(yīng)用;主要用于分類數(shù)據(jù),51,4 分位數(shù)(Quantile,把順序排列的一組數(shù)據(jù)分割為若干相等部分的分割點(diǎn)的數(shù)值 。 分位數(shù)可以反映數(shù)據(jù)分布的相對(duì)位置(而不單單是中心

17、位置)。 常用的有四分位數(shù)、十分位數(shù)、百分位數(shù)。 四分位數(shù)(Quartile):Q1 Q2 Q3 十分位數(shù)(Decile): D1 D2 D9 百分位數(shù)(percentile):P1 P2 P99,52,四分位數(shù)(Quartile,數(shù)據(jù)按大小順序排序后把分割成四等分的三個(gè)分割點(diǎn)上的數(shù)值 。 在實(shí)際應(yīng)用中四分位數(shù)的計(jì)算方法并不統(tǒng)一(數(shù)據(jù)量大時(shí)這些方法差別不大)。對(duì)原始數(shù)據(jù): SPSS中四分位數(shù)的位置為(n+1)/4, 2(n+1)/4, 3 (n+1)/4。 Excel中四分位數(shù)的位置分別為(n+3)/4, 2(n+1)/4,(3 n+1)/4。 如果四分位數(shù)的位置不是整數(shù),則四分位數(shù)等于前后兩

18、個(gè)數(shù)的加權(quán)平均,53,四分位數(shù)計(jì)算(例子,排序后的數(shù)據(jù): 2,5,6,7,8,9, 10,12,15,16,不能整除時(shí)需加權(quán)平均,54,對(duì)時(shí)間序列計(jì)算平均數(shù)有一些特殊問題需要注意。 平均發(fā)展水平的計(jì)算 平均發(fā)展速度、平均增長(zhǎng)速度的計(jì)算,5、平均發(fā)展水平和平均發(fā)展速度,55,時(shí)間序列中每一個(gè)觀測(cè)值稱為發(fā)展水平。 要研究的那個(gè)時(shí)間的發(fā)展水平稱為報(bào)告期水平,作為比較基礎(chǔ)的時(shí)間的發(fā)展水平稱為基期水平。 根據(jù)觀測(cè)值表現(xiàn)形式的不同可以分為絕對(duì)數(shù)、相對(duì)數(shù)或平均數(shù)時(shí)間序列。 絕對(duì)數(shù)時(shí)間序列又可分為時(shí)期序列和時(shí)點(diǎn)序列。 時(shí)期序列:不同時(shí)期的觀測(cè)值可以相加,相加結(jié)果表明現(xiàn)象在更長(zhǎng)一段時(shí)間內(nèi)的活動(dòng)總量。 時(shí)點(diǎn)序列:

19、不同時(shí)點(diǎn)的觀測(cè)值相加沒有實(shí)際意義,相關(guān)基本概念,56,時(shí)間序列舉例,資料來源:中國(guó)統(tǒng)計(jì)年鑒2002,57,平均發(fā)展水平(1,將不同時(shí)期的發(fā)展水平加以平均得到的平均數(shù)稱為平均發(fā)展水平。 對(duì)于時(shí)期序列、時(shí)點(diǎn)序列和相對(duì)數(shù)序列、平均數(shù)序列,平均發(fā)展水平的計(jì)算方法有所不同,58,zhi平均發(fā)展水平(2,1)時(shí)期序列,按時(shí)期序列的公式計(jì)算,2)“連續(xù)”時(shí)點(diǎn)序列,59,先計(jì)算出兩個(gè)點(diǎn)之間的平均數(shù),再用相隔的時(shí)期長(zhǎng)度 加權(quán)計(jì)算總的平均數(shù),如果各時(shí)點(diǎn)之間的間隔相等,公式可簡(jiǎn)化為,3)不連續(xù)的時(shí)點(diǎn)序列,平均發(fā)展水平(3,60,4)根據(jù)相對(duì)數(shù)和平均數(shù)時(shí)間 序列計(jì)算序時(shí)平均數(shù),平均發(fā)展水平(4,61,舉例,1、如何計(jì)

20、算1991年-2000年我國(guó)的年平均GDP? 2、如何計(jì)算1991年-2000年我國(guó)的年均人口數(shù)?已知1990年年末的人口數(shù)為114333萬人。 3、計(jì)算19912000年我國(guó)的人均年GDP,62,Answer,1、 2、 3,63,發(fā)展速度是是序列中兩個(gè)發(fā)展水平相比的結(jié)果。可以分為環(huán)比發(fā)展速度和定基發(fā)展速度,定基發(fā)展速度等于相應(yīng)各環(huán)比發(fā)展速度的連乘積; 環(huán)比發(fā)展速度等于相鄰兩個(gè)定基發(fā)展速度之商。 發(fā)展速度-100%等于增長(zhǎng)速度,發(fā)展速度和增長(zhǎng)速度,64,用幾何平均法計(jì)算平均發(fā)展速度,幾何平均數(shù)等于n 個(gè)變量值乘積的 n 次方根,常用于計(jì)算平均的比率、增長(zhǎng)率等,簡(jiǎn)單幾何平均數(shù),可看作是均值的一

21、種變形,65,從最初水平a0出發(fā),每期按平均發(fā)展速度發(fā)展,經(jīng)過n期后將達(dá)到最末期水平an 只與序列的最初觀察值a0和最末觀察值an有關(guān),幾何平均法的含義,66,Example,1、計(jì)算1992年-2000年我國(guó)GDP的年增長(zhǎng)率和年平均增長(zhǎng)率。 2、計(jì)算1992年-2000年我國(guó)年末人口的年增長(zhǎng)率和年平均增長(zhǎng)率,67,Answer,68,3.2 數(shù)據(jù)描述的數(shù)值方法,數(shù)據(jù)描述的數(shù)值方法,分布的形狀,集中趨勢(shì),離散程度,眾 數(shù),中位數(shù),均 值,離散系數(shù),方差和標(biāo)準(zhǔn)差,峰 度,四分位距,極差,偏 態(tài),3.2.1,3.2.2,3.2.3,69,3.2.2 離散程度,反映各變量值遠(yuǎn)離其中心值的程度(離散程

22、度),從另一個(gè)側(cè)面說明了集中趨勢(shì)測(cè)度值的代表程度。 不同類型的數(shù)據(jù)有不同的離散程度測(cè)度指標(biāo),常用指標(biāo): 全距(極差) 四分位距 方差和標(biāo)準(zhǔn)差 離散系數(shù),70,1 全距(Range,全距也稱極差,是一組數(shù)據(jù)的最大值與最小值之差。 R=最大值-最小值 組距分組數(shù)據(jù)可根據(jù)最高組上限 -最低組下限計(jì)算。 受極端值的影響。 全距=,2,5,6,7,8,9,10,12,15,16,20,71,等于上四分位數(shù)與下四分位數(shù)之差 反映了中間50%數(shù)據(jù)的離散程度,數(shù)值越小說明中間的數(shù)據(jù)越集中。 不受極端值的影響。 可以用于衡量中位數(shù)的代表性,2 四分位距(Inter-Quartile Range, IQR,2,5

23、,6,7,8,9,10,12,15,16,20,Q1=6, Q2=9, Q3=15,72,方差是一組數(shù)據(jù)中各數(shù)值與其算術(shù)平均數(shù)離差平方的平均數(shù),標(biāo)準(zhǔn)差是方差正的平方根。 總體方差和樣本方差的符號(hào)不同,計(jì)算公式也不一樣。 是反映定量數(shù)據(jù)離散程度的最常用的指標(biāo),3 方差和標(biāo)準(zhǔn)差,73,方差的計(jì)算公式,樣本方差用(n-1)去除,從數(shù)學(xué)角度看是因?yàn)樗强傮w方差2的無偏估計(jì)量,74,標(biāo)準(zhǔn)差(例子,某工會(huì)隨機(jī)調(diào)查了5名工人上月的加班時(shí)間如下表,平均加班時(shí)間為13小時(shí)。計(jì)算數(shù)據(jù)的標(biāo)準(zhǔn)差,75,4 離散系數(shù)(Coefficient of Variation,標(biāo)準(zhǔn)差與其相應(yīng)的均值之比,表示為百分?jǐn)?shù)。 特點(diǎn): 反

24、映了相對(duì)于均值的相對(duì)離散程度; 可用于比較計(jì)量單位不同的數(shù)據(jù)的離散程度; 計(jì)量單位相同時(shí),如果兩組數(shù)據(jù)的均值相差懸殊,離散系數(shù)可能比標(biāo)準(zhǔn)差等絕對(duì)指標(biāo)更有意義,76,離散系數(shù):例子,對(duì)30名經(jīng)理人員的調(diào)查表明年平均收入=$500,000,標(biāo)準(zhǔn)差 = $50,000。 對(duì)30名工人的調(diào)查表明平均收入= $32,000,標(biāo)準(zhǔn)差 = $5,000。 離散系數(shù): 經(jīng)理人員: 工人: 雖然經(jīng)理人員收入的絕對(duì)離散程度遠(yuǎn)遠(yuǎn)大于工人,但經(jīng)理人員收入的相對(duì)離散程度小于工人,77,3.2.3 數(shù)據(jù)分布形狀的描述,數(shù)據(jù)描述的數(shù)值方法,分布的形狀,集中趨勢(shì),離散程度,眾 數(shù),中位數(shù),均 值,離散系數(shù),方差和標(biāo)準(zhǔn)差,峰

25、度,四分位距,極差,偏 態(tài),3.2.1,3.2.2,3.2.3,78,偏態(tài)和峰度的類型,偏態(tài),79,1 偏態(tài)及其測(cè)定(Skewness,數(shù)據(jù)分布的不對(duì)稱性稱作偏態(tài)。 偏態(tài)系數(shù)就是對(duì)數(shù)據(jù)分布的不對(duì)稱性(即偏斜程度)的測(cè)度。 偏態(tài)系數(shù)有多種計(jì)算方法,在統(tǒng)計(jì)軟件中(如Excel等)通常采用以下公式,80,偏態(tài)系數(shù)的含義,81,2 峰度及峰度系數(shù)(Kurtosis,峰度:數(shù)據(jù)分布的扁平或尖峰程度。 峰度系數(shù):數(shù)據(jù)分布峰度的度量值,對(duì)數(shù)據(jù)分布尖峰或扁平程度的測(cè)度,一般用K表示。 統(tǒng)計(jì)軟件(如Excel等)中常用以下公式計(jì)算,82,峰度系數(shù)的含義,峰度系數(shù)K0,與正態(tài)分布相比該分布一般為扁平、瘦尾,肩部較胖,峰度系數(shù)K0,與正態(tài)分布相比該分布一般為尖峰、肥尾,肩部較瘦,83,3、箱線圖(Box Plot,用于描述數(shù)據(jù)分布特征的一種圖形。 最簡(jiǎn)單的箱線圖可以根據(jù)數(shù)據(jù)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論