版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)分析
(方法與案例)
作者賈俊平統(tǒng)計學(xué)基礎(chǔ)
FundamentalStatistics第4章數(shù)據(jù)分布特征的測度4.1
集中趨勢的度量4.2離散程度的度量4.3偏態(tài)與峰態(tài)的度量Statistic2011年學(xué)習(xí)目標(biāo)度量集中趨勢的統(tǒng)計量度量離散程度的統(tǒng)計量度量偏態(tài)與峰態(tài)的統(tǒng)計量各統(tǒng)計量的的特點(diǎn)及應(yīng)用場合用Excel計算描述統(tǒng)計量2011年數(shù)據(jù)分布的特征集中趨勢(數(shù)據(jù)的水平)偏態(tài)和峰態(tài)(分布形狀)離散程度
(數(shù)據(jù)的差異)4.1集中趨勢的度量一、平均數(shù)二、中位數(shù)和分位數(shù)三、各度量值的比較第4章數(shù)據(jù)分布特征的測度2011年集中趨勢
(centraltendency)一組數(shù)據(jù)向其中心值靠攏的傾向和程度測度集中趨勢就是尋找數(shù)據(jù)水平的代表值或中心值不同類型的數(shù)據(jù)用不同的集中趨勢測度值低層次數(shù)據(jù)的測度值適用于高層次的測量數(shù)據(jù),但高層次數(shù)據(jù)的測度值并不適用于低層次的測量數(shù)據(jù)一、平均數(shù)4.1集中趨勢的度量2011年
x
x平均數(shù)
(mean)也稱為均值,常用的統(tǒng)計量之一消除了觀測值的隨機(jī)波動易受極端值的影響根據(jù)總體數(shù)據(jù)計算的,稱為平均數(shù),記為
;根據(jù)樣本數(shù)據(jù)計算的,稱為樣本平均數(shù),記為
x2011年簡單算數(shù)平均
(Simplemean)設(shè)一組數(shù)據(jù)為:x1,x2,…,xn(總體數(shù)據(jù)xN)樣本平均數(shù)總體平均數(shù)統(tǒng)計函數(shù)—AVERAGEExcel2011年加權(quán)平均數(shù)
(Weightedmean)設(shè)各組的組中值為:M1,M2,…,Mk
相應(yīng)的頻數(shù)為:
f1,f2,…,fk樣本加權(quán)平均:總體加權(quán)平均:2011年加權(quán)平均數(shù)
(例題分析)
某電腦公司銷售額數(shù)據(jù)分組表按銷售量分組組中值(Mi)頻數(shù)(fi)Mifi
140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084558013952640472537003315205017209001175合計—12022200二、中位數(shù)和四分位數(shù)4.1集中趨勢的度量2011年中位數(shù)
(median)排序后處于中間位置上的值。不受極端值影響Me50%50%2.
位置確定3.
數(shù)值確定2011年中位數(shù)的計算
(數(shù)據(jù)個數(shù)為奇數(shù))【例4.3】9個家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù):15007507801080850960200012501630
排序:7507808509601080
1250
150016302000
位置:123456789中位數(shù)
1080
2011年中位數(shù)的計算
(數(shù)據(jù)個數(shù)為偶數(shù))【例4.3】10個家庭的人均月收入數(shù)據(jù)排序:
7507808509601080
12501500163020002800
位置:1234
5678910
統(tǒng)計函數(shù)—MEDIANExcel2011年四分位數(shù)—用3個點(diǎn)等分?jǐn)?shù)據(jù)
(quartile)排序后處于25%和75%位置上的值不受極端值的影響QLQMQU25%25%25%25%2011年四分位數(shù)的計算
(位置的確定)方法2:較準(zhǔn)確算法(SPSS的算法)方法1:定義算法2011年四分位數(shù)的計算
(位置的確定)方法3Excel給出的四分位數(shù)位置的確定方法
如果位置不是整數(shù),則按比例分?jǐn)偽恢脙蓚?cè)數(shù)值的差值2011年四分位數(shù)的計算
(數(shù)據(jù)個數(shù)為奇數(shù))【例4.4】9個家庭的人均月收入數(shù)據(jù)(4種方法計算)
原始數(shù)據(jù):15007507801080850960200012501630
排序:75078085096010801250150016302000
位置:1234
5
6
7
89
方法1—定義公式2011年四分位數(shù)的計算
(數(shù)據(jù)個數(shù)為奇數(shù))【例4.4】9個家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù):15007507801080850960200012501630
排序:75078085096010801250150016302000
位置:1234
5
6789
方法2—SPSS公式2011年四分位數(shù)的計算
(數(shù)據(jù)個數(shù)為奇數(shù))【例34.4】9個家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù):15007507801080850960200012501630
排序:75078085096010801250150016302000
位置:12
3
4
5
67
89
方法3—Excel公式統(tǒng)計函數(shù)—QUARTILEExcel2011年眾數(shù)
(mode)一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值適合于數(shù)據(jù)量較多時使用不受極端值的影響一組數(shù)據(jù)可能沒有眾數(shù)或有幾個眾數(shù)mo統(tǒng)計函數(shù)—MODEExcel三、各度量值的比較4.1集中趨勢的度量2011年眾數(shù)、中位數(shù)和平均數(shù)的關(guān)系左偏分布均值
中位數(shù)
眾數(shù)對稱分布
均值=
中位數(shù)=
眾數(shù)右偏分布眾數(shù)
中位數(shù)均值2011年眾數(shù)、中位數(shù)、平均數(shù)的特點(diǎn)和應(yīng)用平均數(shù)易受極端值影響數(shù)學(xué)性質(zhì)優(yōu)良,實際中最常用數(shù)據(jù)對稱分布或接近對稱分布時代表性較好中位數(shù)不受極端值影響數(shù)據(jù)分布偏斜程度較大時代表性接好眾數(shù)不受極端值影響具有不惟一性數(shù)據(jù)分布偏斜程度較大且有明顯峰值時代表性較好4.2離散程度的度量一、極差和四分位差二、平均差三、方差和標(biāo)準(zhǔn)差四、離散系數(shù):比較幾組數(shù)據(jù)的離散程度第4章數(shù)據(jù)分布特征的測度2011年離中趨勢數(shù)據(jù)分布的另一個重要特征反映各變量值遠(yuǎn)離其中心值的程度(離散程度)從另一個側(cè)面說明了集中趨勢測度值的代表程度不同類型的數(shù)據(jù)有不同的離散程度測度值一、極差和四分位差4.2離散程度的度量2011年極差
(range)一組數(shù)據(jù)的最大值與最小值之差離散程度的最簡單測度值易受極端值影響未考慮數(shù)據(jù)的分布計算公式為:R=max(xi)-min(xi)2011年四分位差
(quartiledeviation)也稱為內(nèi)距或四分間距上四分位數(shù)與下四分位數(shù)之差:Qd=QU
–QL反映了中間50%數(shù)據(jù)的離散程度不受極端值的影響用于衡量中位數(shù)的代表性25%75%二、平均差4.2離散程度的度量2011年平均差
(meandeviation)各變量值與其平均數(shù)離差絕對值的平均數(shù)能全面反映一組數(shù)據(jù)的離散程度數(shù)學(xué)性質(zhì)較差,實際中應(yīng)用較少計算公式為未分組數(shù)據(jù)組距分組數(shù)據(jù)2011年平均差
(例題分析)某電腦公司銷售量數(shù)據(jù)平均差計算表按銷售量分組組中值(Mi)頻數(shù)(fi)140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合計—120—20402011年平均差
(例題分析)
含義:每一天的銷售量平均數(shù)相比,平均相差17萬元
統(tǒng)計函數(shù)—AVEDEV三、方差和標(biāo)準(zhǔn)差4.2離散程度的度量2011年方差和標(biāo)準(zhǔn)差
(varianceandstandarddeviation)數(shù)據(jù)離散程度的最常用測度值反映各變量值與均值的平均差異根據(jù)總體數(shù)據(jù)計算的,稱為總體方差(標(biāo)準(zhǔn)差),記為
2();根據(jù)樣本數(shù)據(jù)計算的,稱為樣本方差(標(biāo)準(zhǔn)差),記為s2(s)2011年樣本方差和標(biāo)準(zhǔn)差
(samplevarianceandstandarddeviation)未分組數(shù)據(jù)組距分組數(shù)據(jù)未分組數(shù)據(jù)組距分組數(shù)據(jù)方差的計算公式標(biāo)準(zhǔn)差的計算公式注意:樣本方差用自由度n-1去除!2011年總體方差和標(biāo)準(zhǔn)差
(PopulationvarianceandStandarddeviation)未分組數(shù)據(jù)組距分組數(shù)據(jù)未分組數(shù)據(jù)組距分組數(shù)據(jù)方差的計算公式標(biāo)準(zhǔn)差的計算公式2011年樣本標(biāo)準(zhǔn)差
(例題分析)【例4.6】計算計算9名員工的月工資收入的方差和標(biāo)準(zhǔn)差
15007507801080850960200012501630方差標(biāo)準(zhǔn)差統(tǒng)計函數(shù)—STDEVExcel2011年樣本標(biāo)準(zhǔn)差
(例題分析)某電腦公司銷售量數(shù)據(jù)平均差計算表按銷售量分組組中值(Mi)頻數(shù)(fi)140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合計—120—554002011年樣本標(biāo)準(zhǔn)差
(例題分析)
含義:每一天的銷售量與平均數(shù)相比,平均相差21.58萬元
2011年標(biāo)準(zhǔn)分?jǐn)?shù)
(standardscore)1.也稱標(biāo)準(zhǔn)化值2. 對某一個值在一組數(shù)據(jù)中相對位置的度量3. 可用于判斷一組數(shù)據(jù)是否有離群點(diǎn)(outlier)用于對變量的標(biāo)準(zhǔn)化處理均值等于0,方差等于1計算公式為2011年標(biāo)準(zhǔn)分?jǐn)?shù)
(例題分析)【例3.8】9個家庭人均月收入標(biāo)準(zhǔn)化值計算表
家庭編號人均月收入(元)標(biāo)準(zhǔn)化值z
123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.9962011年經(jīng)驗法則
經(jīng)驗法則表明:當(dāng)一組數(shù)據(jù)對稱分布時約有68%的數(shù)據(jù)在平均數(shù)加減1個標(biāo)準(zhǔn)差的范圍之內(nèi)約有95%的數(shù)據(jù)在平均數(shù)加減2個標(biāo)準(zhǔn)差的范圍之內(nèi)約有99%的數(shù)據(jù)在平均數(shù)加減3個標(biāo)準(zhǔn)差的范圍之內(nèi)2011年經(jīng)驗法則
(例題分析)四、離散系數(shù):比較幾組數(shù)據(jù)的
離散程度4.2離散程度的度量2011年離散系數(shù)
(coefficientofvariation)1. 標(biāo)準(zhǔn)差與其相應(yīng)的均值之比對數(shù)據(jù)相對離散程度的測度消除了數(shù)據(jù)水平高低和計量單位的影響4. 用于對不同組別數(shù)據(jù)離散程度的比較5.計算公式為2011年離散系數(shù)
(例題分析)【例4.9】評價哪名運(yùn)動員的發(fā)揮更穩(wěn)定發(fā)揮比較穩(wěn)定的運(yùn)動員是塞爾維亞的亞斯娜·舍卡里奇和中國的郭文珺,發(fā)揮不穩(wěn)定的運(yùn)動員蒙古的卓格巴德拉赫·蒙赫珠勒和波蘭的萊萬多夫斯卡·薩貢4.3偏態(tài)與峰態(tài)的度量一、偏態(tài)及其測度二、峰態(tài)及其測度第4章數(shù)據(jù)分布特征的測度2011年數(shù)據(jù)分布的形狀—偏態(tài)與峰態(tài)扁平分布尖峰分布偏態(tài)峰態(tài)左偏分布右偏分布與標(biāo)準(zhǔn)正態(tài)分布比較!一、偏態(tài)及其測度4.3偏態(tài)與峰態(tài)的度量2011年偏態(tài)
(skewness)統(tǒng)計學(xué)家K.Pearson于1895年首次提出。是指數(shù)據(jù)分布的不對稱性測度統(tǒng)計量是偏態(tài)系數(shù)(coefficientofskewness)2. 偏態(tài)系數(shù)=0為對稱分布;>0為右偏分布;<0為左偏分布偏態(tài)系數(shù)大于1或小于-1,為高度偏態(tài)分布;偏態(tài)系數(shù)在0.5~1或-1~-0.5之間,為是中等偏態(tài)分布;偏態(tài)系數(shù)越接近0,偏斜程度就越低2011年偏態(tài)系數(shù)
(coefficientofskewness)根據(jù)原始數(shù)據(jù)計算統(tǒng)計函數(shù)—SKEWExcel二、峰態(tài)及其測度4.3偏態(tài)與峰態(tài)的度量2011年峰態(tài)
(k
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中外合資企業(yè)合同翻譯技巧
- 電力設(shè)施門禁系統(tǒng)施工合同
- 標(biāo)準(zhǔn)化廠房建項目運(yùn)營方案
- 寵物醫(yī)療律師聘用合同模板
- 礦山工程合同洽談
- 2025服裝訂購合同范本
- 美容連鎖禮儀人員聘用協(xié)議
- 冷鏈物流存放冷藏庫租賃協(xié)議
- 2023年注冊土木工程師(水利水電工程)在線刷題
- 2023年注冊土木工程師(水利水電)考試模擬及答案詳解
- (完整版)臨床檢驗基礎(chǔ)名詞解釋
- 深度分析澳洲資源量最大的皮爾巴拉地區(qū)礦床匯總
- 《工程與試驗》編委會章程
- 市政道路與橋梁銜接處設(shè)計及施工
- 【機(jī)械畢業(yè)論文】便攜式電火花小孔機(jī)結(jié)構(gòu)設(shè)計
- 實習(xí)錄用通知書
- DFMEA模板全解(完整版)
- 蘇教版二年級上冊《連乘連除乘除混合》PPT
- 頸動脈狹窄的治療策略CREST研究解讀
- 深圳市建筑工程消耗量定額2016[共70頁]
- (完整版)土石方挖運(yùn)專項施工方案
評論
0/150
提交評論