統(tǒng)計學(xué)第3章用統(tǒng)計量描述數(shù)據(jù).課件_第1頁
統(tǒng)計學(xué)第3章用統(tǒng)計量描述數(shù)據(jù).課件_第2頁
統(tǒng)計學(xué)第3章用統(tǒng)計量描述數(shù)據(jù).課件_第3頁
統(tǒng)計學(xué)第3章用統(tǒng)計量描述數(shù)據(jù).課件_第4頁
統(tǒng)計學(xué)第3章用統(tǒng)計量描述數(shù)據(jù).課件_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)分析(方法與案例)作者 賈俊平統(tǒng)計學(xué)統(tǒng) 計 學(xué)Statisticsyyyy-M- 一些人使用統(tǒng)計就像喝醉酒的人使用街燈柱支撐的功能多于照明。 Andrew Lang 統(tǒng)計名言yyyy-M-第 3 章 用統(tǒng)計量描述數(shù)據(jù)3.1 水平的度量 3.2 差異的度量3.3 分布形狀的度量Statisticyyyy-M-學(xué)習(xí)目標度量水平的統(tǒng)計量度量差異的統(tǒng)計量度量分布形狀的統(tǒng)計量各統(tǒng)計量的的特點及應(yīng)用場合用Excel和SPSS計算描述統(tǒng)計量yyyy-M-哪名運動員的發(fā)揮更穩(wěn)定?在奧運會女子10米氣手槍比賽中,每個運動員首先進行每組10搶共4組的預(yù)賽,然后根據(jù)預(yù)賽總成績確定進入決賽的8名運動員。決賽時8名

2、運動員再進行10槍射擊,再將預(yù)賽成績加上決賽成績確定最后的名次在2008年8月10日舉行的第29屆北京奧運會女子10米氣手槍決賽中,進入決賽的8名運動員的預(yù)賽成績和最后10槍的決賽成績?nèi)缦卤韞yyy-M-哪名運動員的發(fā)揮更穩(wěn)定?最會的比賽結(jié)果是,中國運動員郭文珺憑借決賽的穩(wěn)定發(fā)揮,以總成績492.3環(huán)奪得金牌,預(yù)賽排在第1名的俄羅斯運動員納塔利婭帕杰林娜以總成績498.1環(huán)獲得銀牌,預(yù)賽排在第4名的格魯吉亞運動員妮諾薩盧克瓦澤以總成績487.4環(huán)的成績獲得銅牌,而預(yù)賽排在第3名的蒙古運動員卓格巴德拉赫蒙赫珠勒僅以479.6環(huán)的成績名列第8名由此可見,在射擊比賽中,運動員能否取得好的成績,發(fā)揮的

3、穩(wěn)定性至關(guān)重要。那么,怎樣評價一名運動員的發(fā)揮是否穩(wěn)定呢?通過本章內(nèi)容的學(xué)習(xí)就能很容易回答這樣的問題 yyyy-M-3.1 水平的度量 3.1.1 平均數(shù) 3.1.2 中位數(shù)和分位數(shù) 3.1.3 用哪個值代表一組數(shù)據(jù)?第 3 章 用統(tǒng)計量描述數(shù)據(jù)yyyy-M-3.1.1 平均數(shù)3.1 水平的度量yyyy-M-平均數(shù)(mean)也稱為均值,常用的統(tǒng)計量之一消除了觀測值的隨機波動易受極端值的影響根據(jù)總體數(shù)據(jù)計算的,稱為平均數(shù),記為;根據(jù)樣本數(shù)據(jù)計算的,稱為樣本平均數(shù),記為xyyyy-M-簡單算數(shù)平均(Simple mean)設(shè)一組數(shù)據(jù)為:x1 ,x2 , ,xn (總體數(shù)據(jù)xN) 樣本平均數(shù)總體平

4、均數(shù)統(tǒng)計函數(shù)AVERAGEExcelyyyy-M-加權(quán)平均數(shù) (Weighted mean)設(shè)各組的組中值為:M1 ,M2 , ,Mk 相應(yīng)的頻數(shù)為: f1 , f2 , ,fk樣本加權(quán)平均:總體加權(quán)平均:yyyy-M-加權(quán)平均數(shù) (例題分析)某電腦公司銷售額數(shù)據(jù)分組表按銷售額分組組中值(Mi)頻數(shù)(fi)Mi fi 140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235 4 91627201710 8 4 5 58013952640472537003315205017

5、20 9001175合計12022200yyyy-M-加權(quán)平均數(shù)(權(quán)數(shù)對均值的影響) 【例】甲乙兩組各有10名學(xué)生,他們的考試成績及其分布數(shù)據(jù)如下 甲組: 考試成績(x ): 0 20 100 人數(shù)分布(f ):1 1 8 乙組: 考試成績(x): 0 20 100 人數(shù)分布(f ):8 1 1yyyy-M-3.1.2 中位數(shù)和分位數(shù)3.1 水平的度量yyyy-M-中位數(shù)(median)排序后處于中間位置上的值。不受極端值影響Me50%50%2. 位置確定3. 數(shù)值確定yyyy-M-中位數(shù)的計算 (數(shù)據(jù)個數(shù)為奇數(shù))【例3-3】 9個家庭的人均月收入數(shù)據(jù) 原始數(shù)據(jù): 1500 750 780 1

6、080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9中位數(shù) 1080yyyy-M-中位數(shù)的計算 (數(shù)據(jù)個數(shù)為偶數(shù))【例3-3】 10個家庭的人均月收入數(shù)據(jù) 排 序: 750 780 850 960 1080 1250 1500 1630 2000 2800 位 置: 1 2 3 4 5 6 7 8 9 10 統(tǒng)計函數(shù)MEDIANExcelyyyy-M-四分位數(shù)用3個點等分數(shù)據(jù)(quartile)排序后處于25%和75%位置上的值不受極端值的影響QLQMQU2

7、5%25%25%25%yyyy-M-四分位數(shù)的計算(位置的確定)方法2:較準確算法(SPSS的算法)方法1:定義算法yyyy-M-四分位數(shù)的計算(位置的確定)方法3: 其中 表示中位數(shù)的位置取整。這樣計算出的四分位數(shù)的位置,要么是整數(shù),要么在兩個數(shù)之間0.5的位置上方法4: Excel給出的四分位數(shù)位置的確定方法 如果位置不是整數(shù),則按比例分攤位置兩側(cè)數(shù)值的差值yyyy-M-四分位數(shù)的計算 (數(shù)據(jù)個數(shù)為奇數(shù))【例3-4】 9個家庭的人均月收入數(shù)據(jù)(4種方法計算) 原始數(shù)據(jù): 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 96

8、0 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9方法1定義公式y(tǒng)yyy-M-四分位數(shù)的計算 (數(shù)據(jù)個數(shù)為奇數(shù))【例3-4】 9個家庭的人均月收入數(shù)據(jù) 原始數(shù)據(jù): 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9方法2SPSS公式y(tǒng)yyy-M-四分位數(shù)的計算 (數(shù)據(jù)個數(shù)為奇數(shù))【例3-4】 9個家庭的人均月收入數(shù)據(jù) 原始數(shù)據(jù): 1500 750 780 1080 850 960

9、2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9方法34分數(shù)公式y(tǒng)yyy-M-四分位數(shù)的計算 (數(shù)據(jù)個數(shù)為奇數(shù))【例3-4】 9個家庭的人均月收入數(shù)據(jù) 原始數(shù)據(jù): 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9方法4Excel公式統(tǒng)計函數(shù)QUARTILEExcelyyyy-M-眾數(shù)(mode)一組數(shù)據(jù)中出現(xiàn)次

10、數(shù)最多的變量值適合于數(shù)據(jù)量較多時使用不受極端值的影響一組數(shù)據(jù)可能沒有眾數(shù)或有幾個眾數(shù)mo統(tǒng)計函數(shù)MODEExcelyyyy-M-3.1.3 用哪個值代表一組數(shù)據(jù)? 3.1 水平的度量yyyy-M-眾數(shù)、中位數(shù)和平均數(shù)的關(guān)系yyyy-M-眾數(shù)、中位數(shù)、平均數(shù)的特點和應(yīng)用平均數(shù)易受極端值影響數(shù)學(xué)性質(zhì)優(yōu)良,實際中最常用數(shù)據(jù)對稱分布或接近對稱分布時代表性較好中位數(shù)不受極端值影響數(shù)據(jù)分布偏斜程度較大時代表性接好眾數(shù)不受極端值影響具有不惟一性數(shù)據(jù)分布偏斜程度較大且有明顯峰值時代表性較好yyyy-M-3.2 差異的度量 3.2.1 極差和四分位差 3.2.2 方差和標準差 3.2.3 比較幾組數(shù)據(jù)的離散程度

11、: 離散系數(shù)第 3 章 用統(tǒng)計量描述數(shù)據(jù)yyyy-M-怎樣評價水平代表值?假定有兩個地區(qū)每人的平均收入數(shù)據(jù),其中甲地區(qū)的平均收入為5000元,乙地區(qū)的平均收入為3000元。你如何評價兩個地區(qū)的收入狀況?如果平均收入的多少代表了該地區(qū)的生活水平,你能否認為甲地區(qū)的平均生活水平就高于乙地區(qū)呢?要回答這些問題,首先需要搞清楚這里的平均收入是否能代表大多數(shù)人的收入水平。如果甲地區(qū)有少數(shù)幾個富翁,而大多數(shù)人的收入都很低,雖然平均收入很高,但多數(shù)人生活水平仍然很低。相反,乙地區(qū)多數(shù)人的收入水平都在3000元左右,雖然平均收入看上去不如甲地區(qū),但多數(shù)人的生活水平卻比甲地區(qū)高,原因是甲地區(qū)的收入差距大于乙地區(qū)

12、yyyy-M-怎樣評價水平代表值? 僅僅知道數(shù)據(jù)的水平是遠遠不夠的,還必須考慮數(shù)據(jù)之間的差距有多大。數(shù)據(jù)之間的差距用統(tǒng)計語言來說就是數(shù)據(jù)的離散程度。數(shù)據(jù)的離散程度越大,各描述統(tǒng)計量對該組數(shù)據(jù)的代表性就越差,離散程度越小,其代表性就越y(tǒng)yyy-M-3.2.1 極差和四分位差3.2 差異的度量yyyy-M-極差(range)一組數(shù)據(jù)的最大值與最小值之差離散程度的最簡單測度值易受極端值影響未考慮數(shù)據(jù)的分布計算公式為:R = max(xi) - min(xi)yyyy-M-四分位差(quartile deviation)也稱為內(nèi)距或四分間距上四分位數(shù)與下四分位數(shù)之差:Qd = QU QL反映了中間50

13、%數(shù)據(jù)的離散程度不受極端值的影響用于衡量中位數(shù)的代表性yyyy-M-3.2.2 方差和標準差3.2 差異的度量yyyy-M-方差和標準差(variance and standard deviation)數(shù)據(jù)離散程度的最常用測度值反映各變量值與均值的平均差異根據(jù)總體數(shù)據(jù)計算的,稱為總體方差(標準差),記為2();根據(jù)樣本數(shù)據(jù)計算的,稱為樣本方差(標準差),記為s2(s)yyyy-M-樣本方差和標準差 (sample variance and standard deviation)未分組數(shù)據(jù)組距分組數(shù)據(jù)未分組數(shù)據(jù)組距分組數(shù)據(jù)方差的計算公式標準差的計算公式注意:樣本方差用自由度n-1去除!yyyy-

14、M-總體方差和標準差 (Population variance and Standard deviation)未分組數(shù)據(jù)組距分組數(shù)據(jù)未分組數(shù)據(jù)組距分組數(shù)據(jù)方差的計算公式標準差的計算公式y(tǒng)yyy-M-自由度 (degree of freedom)自由度的概念由統(tǒng)計學(xué)家R.A Fisher提出是指數(shù)據(jù)個數(shù)與附加給獨立的觀測值的約束或限制的個數(shù)之差從字面涵義來看,自由度是指一組數(shù)據(jù)中可以自由取值的個數(shù)當樣本數(shù)據(jù)的個數(shù)為n時,若樣本平均數(shù)確定后,則附加給n個觀測值的約束個數(shù)就是1個,因此只有n-1個數(shù)據(jù)可以自由取值,其中必有一個數(shù)據(jù)不能自由取值按著這一邏輯,如果對n個觀測值附加的約束個數(shù)為k個,自由度

15、則為n-kyyyy-M-自由度 (degree of freedom)樣本有3個數(shù)值,即x1=2,x2=4,x3=9,則 x = 5。當 x = 5 確定后,x1,x2和x3有兩個數(shù)據(jù)可以自由取值,另一個則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值為什么樣本方差的自由度為什么是n-1呢?因為在計算離差平方和時,必須先求出樣本均值x ,而x則是附件給離差平方和的一個約束,因此,計算離差平方和時只有n-1個獨立的觀測值,而不是n個 樣本方差用自由度去除,其原因可從多方面解釋,從實際應(yīng)用角度看,在抽樣估計中,當用樣本方差s2去估計總體方差2時,它是2的無偏估計量yyyy

16、-M-樣本標準差 (例題分析)【例3-5】計算計算9名員工的月工資收入的方差和標準差 1500 750 780 1080 850 960 2000 1250 1630方差標準差統(tǒng)計函數(shù)STDEVExcelyyyy-M-標準分數(shù)(standard score)1. 也稱標準化值2.對某一個值在一組數(shù)據(jù)中相對位置的度量3.可用于判斷一組數(shù)據(jù)是否有離群點(outlier)用于對變量的標準化處理均值等于0,方差等于1計算公式為yyyy-M-標準分數(shù)(用于數(shù)據(jù)變換) z分數(shù)只是將原始數(shù)據(jù)進行了線性變換,它并沒有改變一個數(shù)據(jù)在該組數(shù)據(jù)中的位置,也沒有改變該組數(shù)分布的形狀,而只是使該組數(shù)據(jù)均值為0,標準差為

17、1 yyyy-M-用SPSS對數(shù)據(jù)進行標準化 第1步:選擇【分析】下拉菜單,并選擇 【描述統(tǒng)計描述 】第2步:在主對話框中將變量選入【變量】, 然后選中【將標準化得分另存為變 量】。點擊【OK】(SPSS會將標準化 后的變量以“Z”開頭存放在原始變量工作表中) 對數(shù)據(jù)標準化SPSSyyyy-M-標準分數(shù) (例題分析)【例3-6】 9個家庭人均月收入標準化值計算表 家庭編號人均月收入(元) 標準化值 z 1234567891500 750 7801080 850 960200012501630 0.695-1.042-0.973-0.278-0.811-0.556 1.853 0.116 0.9

18、96yyyy-M-經(jīng)驗法則經(jīng)驗法則表明:當一組數(shù)據(jù)對稱分布時約有68%的數(shù)據(jù)在平均數(shù)加減1個標準差的范圍之內(nèi)約有95%的數(shù)據(jù)在平均數(shù)加減2個標準差的范圍之內(nèi)約有99%的數(shù)據(jù)在平均數(shù)加減3個標準差的范圍之內(nèi) yyyy-M-經(jīng)驗法則(例題分析) 9名員工月工資收入的經(jīng)驗法則yyyy-M-切比雪夫不等式(Chebyshevs inequality)如果一組數(shù)據(jù)不是對稱分布,經(jīng)驗法則就不再適用,這時可使用切比雪夫不等式,它對任何分布形狀的數(shù)據(jù)都適用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”對于任意分布形態(tài)的數(shù)據(jù),根據(jù)切比雪夫不等式,至少有1-1/k2的數(shù)據(jù)落在平均數(shù)加減k個標準差之內(nèi)

19、。其中k是大于1的任意值,但不一定是整數(shù)yyyy-M-切比雪夫不等式(Chebyshevs inequality)對于k=2,3,4,該不等式的含義是至少有75%的數(shù)據(jù)落在平均數(shù)加減2個標準差的范圍之內(nèi)至少有89%的數(shù)據(jù)落在平均數(shù)加減3個標準差的范圍之內(nèi)至少有94%的數(shù)據(jù)落在平均數(shù)加減4個標準差的范圍之內(nèi)yyyy-M-3.2.3 比較幾組數(shù)據(jù)的離散程度離散系數(shù)3.2 差異的度量yyyy-M-離散系數(shù)(coefficient of variation)1.標準差與其相應(yīng)的均值之比對數(shù)據(jù)相對離散程度的測度消除了數(shù)據(jù)水平高低和計量單位的影響4.用于對不同組別數(shù)據(jù)離散程度的比較5. 計算公式為yyyy

20、-M-離散系數(shù) (例題分析)【 例3-7】評價哪名運動員的發(fā)揮更穩(wěn)定發(fā)揮比較穩(wěn)定的運動員是塞爾維亞的亞斯娜舍卡里奇和中國的郭文珺,發(fā)揮不穩(wěn)定的運動員蒙古的卓格巴德拉赫蒙赫珠勒和波蘭的萊萬多夫斯卡薩貢yyyy-M-8名運動員射擊成績的誤差圖 (例題分析)【Graphs】【Error Bar】【Simple】【Data in Chart Are】【Summaries of separate variables】變量選入【Error Bars】【Bars Represent】【Standard deviations】【Multiplier】框內(nèi)輸入所需的標準差倍數(shù)【OK】 【例子】yyyy-M-3.3 分布形狀的度量 偏態(tài)與峰態(tài)第 3 章 用統(tǒng)計量描述數(shù)據(jù)yyyy-M-偏態(tài)(skewness)統(tǒng)計函數(shù)SKEW統(tǒng)計學(xué)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論