版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第2章統(tǒng)計數據的描述本章關鍵詞:計量尺度集中趨勢離散趨勢本章結構2.1數據的計量尺度2.2統(tǒng)計數據的來源2.3統(tǒng)計數據的質量2.4統(tǒng)計數據的整理2.5分布集中趨勢的測度2.6分布離散趨勢的測度2.7略2.8莖葉圖與箱線圖2.9統(tǒng)計表與統(tǒng)計圖2.2統(tǒng)計數據的來源統(tǒng)計數據的間接來源統(tǒng)計數據的直接來源2.2.1統(tǒng)計數據的間接來源1、公開出版物:《中國統(tǒng)計年鑒》、《中國統(tǒng)計摘要》、《中國社會統(tǒng)計年鑒》、《中國工業(yè)經濟統(tǒng)計年鑒》、《中國農村統(tǒng)計年鑒》、《中國人口統(tǒng)計年鑒》、《中國市場統(tǒng)計年鑒》、《世界經濟年鑒》、《國外經濟統(tǒng)計資料》、《世界發(fā)展報告》……Internet
2.網絡中國統(tǒng)計年鑒2001中國人口統(tǒng)計年鑒中國市場統(tǒng)計年鑒世界發(fā)展報告世界經濟年檢工業(yè)普查數據中國統(tǒng)計出版社2.2.2直接獲取數據統(tǒng)計調查方式普查抽樣調查統(tǒng)計報表重典點型調調查查普查(census)1、它是為某一特定目的專門組織的一次性全面調查2. 通常是一次性或周期性的3. 一般需要規(guī)定統(tǒng)一的標準調查時間4. 數據的規(guī)范化程度較高5. 應用范圍比較狹窄總體小常識每逢尾數為“0”的年份進行人口普查,我國從1953~2000年共進行了5次人口普查(1953,,1982,1990,2000)普查應該規(guī)定統(tǒng)一的標準調查時間,以避免數據的重復和遺漏,第五次人口普查的標準時間是2000年11月1日零時。每逢尾數為“3”的年份進行第三產業(yè)普查每逢尾數為“5”的年份進行工業(yè)普查每逢尾數為“7”的年份進行農業(yè)普查每逢尾數為“1”或“6”的年份進行統(tǒng)計基本單位普查抽樣調查(sampling)它是統(tǒng)計調查中應用最廣、最為重要的調查方法,它是通過隨機樣本對總體數量規(guī)律性進行推斷的調查研究方法。具有經濟性、時效性強、適應面廣、準確性高等特點2.3統(tǒng)計數據的質量誤差分為非抽樣誤差和抽樣誤差非抽樣誤差又可以分為登記性誤差和系統(tǒng)性誤差抽樣誤差是利用樣本推斷總體是產生的誤差,是由于樣本的代表性產生的,它與樣本的容量有關2.4統(tǒng)計數據的整理統(tǒng)計整理是根據統(tǒng)計研究的目的和任務,將搜集到統(tǒng)計資料進行科學的加工和匯總的工作過程。統(tǒng)計整理的一般過程:數據的審核、篩選和排序數據分組數據匯總編制統(tǒng)計表2.4.1數據的審核、篩選、排序對原始數據的審核完整性審核檢查應調查的單位或個體是否有遺漏所有的調查項目或指標是否填寫齊全準確性審核檢查數據是否真實反映客觀實際情況,內容是否符合實際檢查數據是否有錯誤,計算是否正確等對次級(二手)資料的審核1、適用性審核2、時效性審核3、確認是否必要做進一步的加工整理數據篩選的內容包括:將某些不符合要求的數據或有明顯錯誤的數據予以剔除將符合某種特定條件的數據篩選出來,而不符合特定條件的數據予以剔出2.4.2統(tǒng)計數據的分組分組標志是統(tǒng)計分組的依據或標準,正確選擇分組標志是進行統(tǒng)計分組的關鍵,要遵循窮盡性和排斥性原則。按照分組標志的性質分為:1、品質分組(按照品質標志分組)適合于列名尺度和順序尺度計量的數據。例:人口按性別分組,大學按專業(yè)分組、企業(yè)按經營類型分組,分數按照優(yōu)、良、中、合格、不合格劃分等。2、數量分組(按照數量標志分組),適合于間隔尺度和比例尺度計量的數據。例:人口按年齡、身高分組,企業(yè)按勞動生產率分組,商店按照銷售額分組。品質數列舉例表2-11999年末廣東省從業(yè)人員分布表類別人數(萬人)比重(%)國有經濟514.1013.54集體經濟2568.2067.65私營經濟195.375.15個體經濟317.798.37聯(lián)營經濟2.790.07股份制經濟52.451.38外商投資經濟40.981.08港澳臺投資經濟103.872.74其他經濟0.770.02合計3796.32100表2-2某車間30名工人周加工零件數的頻數分布表按周加工零件數分組次數80~90390~1007100~11013110~1205120~1302合計30分組形式等距分組異距分組單項式分組組距式分組統(tǒng)計分組中的幾個概念單項式數列:指以每個變量值作為一組的名稱而形成的分布數列。(例:把廣州市常住人口按照每個家庭人口數分組而得到的數列。表2-1也是單項式數列。適用于變量較少的情形。)家庭人口數(人)戶數(戶)112027634574以上47合計700某單位家庭人口數分布表組距式數列:是以變量值的一定變動范圍作為組別,按各組順序排列編制的分布數列。組距:各組內變量變動的范圍,各組的兩個端點值叫組限。組距=上限-下限封口組:同時包含上限和下限的組,有三種:a≤x≤b;a<x≤b;a≤x<b開口組:不含上限或不含下限的組。以下開口組:x<a,800元以下以上開口組:x>b,1500元以上例1、
某企業(yè)80名職工的月收入(單位:元)如下:
16521237165216651750193420381870199819201800179316302354197313021630145215431699204012001260145216701050185416002595227018701700171221431154186020701658196518701298110915432076200015781356123515461753175817841958169010271435167912802300156017941573183517791893198715791890167018301690173019401570178021401705164516782478
第一步:將上述數據從小到大(亦可從大到?。┡判颉?/p>
10271050110911541200123512371260128012981302135614351452145215431543154615601570157315781579160016301630164516491652165216581665167016701678167916901690169917001705171217301750175317581779178017841793179418001830185418601870187018701890189319201934194019581965197319871998200020382040207020762140214322702300235424782595
幾個概念1、組距:各組內變量值變動的范圍。2、組限:組距的兩個端點值。3、下限:每個組變量的起點值。4、上限:每個組變量的終點值。5、組距=上限-下限
6、以上(下)開口組
組距式分組的步驟:
1、確定組數建議組數m=1+3.322lgN其中:N是總體單位數。2、確定組距
在等距分組的情況下:
組距(C)=全距(R)÷組數(m)在一般情況下,組距與組數成反方向變動。3、總體單位數歸集原則“下閉上開”或“含下限不含上限”原則。按月收入分組(元)職工人數(人)(即頻數)比重(%)(即頻率)1200以下
45[1200,1400)810[1400,1600)1113.75[1600,1800)2835[1800,2000)1721.25[2000,2200)78.75[2200,2400)33.752400以上22.5合計80100幾個簡單計算1、組中值(Classmidpoint)封口組:組中值=(上限+下限)/2以下開口組:組中值=上限—相鄰組距/2以上開口組:組中值=下限+相鄰組距/2累計頻數和累計頻率有兩種累計法:1、向下累積——從最小的變量值(總體頻率)開始累計,一直累計到該變量值作為上限的一組為止。2、向上累積——從最大的變量值(總體頻率)開始累計,一直累計到該變量值作為下限的一組為止。表2-3組中值、累計頻數、累計頻率計算表按月收入分組(元)組中值頻數頻率(%)累計頻數累計頻率(%)向下向上向下向上1200以下11004548051001200-14001300810127615951400-160015001113.75236828.75851600-180017002835515763.7571.251800-200019001721.2568298536.252000-2200210078.75751293.75152200-2400230033.7578597.56.252400以上250022.58021002.5合計——80100————————總體單位數歸集的原則對于離散型變量分組,相鄰兩組的上限和下限通常以兩個確定的不同數據表示,如:P23表2.09;對于連續(xù)型變量,相鄰兩組的上限和下限通常是重合的。如:P23表2.10;對于重合的標志值歸組一般采取“下閉上開”或“含下限不含上限”的原則。習題1:某連續(xù)變量數列,其末組為500以上。又知其相鄰組的組中值為480,則末組的組中值為()
A、520B、510C、530D、540習題2:
統(tǒng)計分組是把總體中性質不相同的單位歸并在一起,把總體中性質相同的單位區(qū)別開來。()習題3:變量數列編制中,在條件不變的情況下,組數分得越多,組距也越大。()2.4.3次數分配直方圖1、用矩形的寬度和高度來表示頻數分布的圖形,實際上是用矩形的面積來表示各組的頻數分布2、在直角坐標中,用橫軸表示數據分組,縱軸表示頻數或頻率,各組與相應的頻數就形成了一個矩形,即直方圖(Histogram)3、直方圖下的總面積等于1直方圖的繪制(例題分析)【例】某電腦公司2002年前四個月各天的銷售量數據(單位:臺)。試對數據進行分組。
頻數分布表的編制1、確定組數:根據Sturges提出的經驗公式得組數K為:確定各組的組距:
組距=(237-141)÷10=9.610用Excel制作頻數分布表
1、等距分組表(上下組限重疊)2、等距分組表(上下組限間斷)3、等距分組表(使用開口組)分組數據的圖示(直方圖的繪制)140150210直方圖下的面積之和等于1某電腦公司銷售量分布的直方圖我一眼就看出來了,銷售量在170~180之間的天數最多!190200180160170頻數(天)25201510530220230240分組數據—折線圖折線圖也稱頻數多邊形圖(Frequencypolygon)是在直方圖的基礎上,把直方圖頂部的中點(組中值)用直線連接起來,再把原來的直方圖抹掉折線圖的兩個終點要與橫軸相交,具體的做法是1、第一個矩形的頂部中點通過豎邊中點(即該組頻數一半的位置)連接到橫軸,最后一個矩形頂部中點與其豎邊中點連接到橫軸2、折線圖下所圍成的面積與直方圖的面積相等,二者所表示的頻數分布是一致的折線圖的繪制折線圖與直方圖下的面積相等!140150210某電腦公司銷售量分布的折線圖190200180160170220230240頻數(天)25201510530曲線圖的繪制在繪制直方圖的過程中,如果組距足夠小、組數足夠多,此時直方圖上的折線圖就接近于一條平滑的曲線,這種圖形就是曲線圖。常見的曲線圖有頻數、頻率分布曲線圖,動態(tài)曲線圖,相關曲線圖等。根據曲線圖表現(xiàn)出來的形狀,我們把生活中常見的幾種分布圖分別稱為:鐘形圖、U形圖、J形圖。頻數分布的類型右偏分布左偏分布正J型分布反J型分布U型分布圖2-7幾種常見的頻數分布對稱分布洛倫茨曲線20世紀初美國經濟學家、統(tǒng)計學家洛倫茨(M.E.Lorentz)根據意大利經濟學家巴雷特(V.Pareto)提出的收入分配公式繪制而成描述收入和財富分配性質的曲線分析該國家或地區(qū)分配的平均程度
AB累積的人口百分比累積的收入百分比絕對公平線基尼系數20世紀初意大利經濟學家基尼(G.Gini)根據洛倫茨曲線給出了衡收入分配平均程度的指標
A表示實際收入曲線與絕對平均線之間的面積B表示實際收入曲線與絕對不平均線之間的面積如果A=0,則基尼系數=0,表示收入絕對平均如果B=0,則基尼系數=1,表示收入絕對不平均基尼系數在0和1之間取值一般認為,基尼系數若小于0.2,表明分配平均;基尼系數在0.2至0.4之間是比較適當的,即一個社會既有效率又沒有造成極大的分配不公;基尼系數在0.4被認為是收入分配不公平的警戒線,超過了0.4應該采取措施縮小這一差距。
AB我國全國居民可支配收入的基尼系數在不斷地擴大。改革初期的1984年,基尼系數是0.26,2000年上升到0.42,達到了國際公認的警戒線.最近官方公布的中國全國居民收入的基尼系數,2003年是0.479,2004年是0.473,2005年0.485,2006年0.487,2007年0.484,2008年0.491。然后逐步回落,2009年0.490,2010年0.481,2011年0.477,2012年0.474。資料顯示,2003年中國的收入分配中,最貧困的10%的人口,所得的收入占國民收入總額的1.8%,而最富有的10%的人口,所得的收入占國民收入總額的將近30%聯(lián)合國開發(fā)計劃署公布的一組數據也顯示,中國目前的基尼系數為0.45,占總人口20%的最貧困人口在收入或消費中所占的份額只有4.7%,占總人口20%的最富裕人口占收入或消費的份額則高達50%。
我國貧富懸殊達警戒水平部分人靠官商勾結發(fā)家2005年09月19日09:17中國新聞網當前較為普遍的看法是,中國的貧富懸殊之大已經突破合理的限度(國際公認的基尼系數警戒線為0.4),且有繼續(xù)擴大之勢。長此以往,不僅難以實現(xiàn)共同富裕,還很可能引發(fā)各種社會不穩(wěn)定現(xiàn)象。特別值得注意的是,根據許多國家和地區(qū)的經驗,人均GDP由1000美元向3000美元過渡的時期,是社會矛盾的多發(fā)期。中國恰好處在這個階段。決策者不能不對貧富懸殊問題予以高度的重視。世界經濟論壇第四屆新領軍者年會(2010年夏季達沃斯論壇)9月13日下午在天津梅江會展中心開幕,國務院總理溫家寶出席開幕式并致辭。溫家寶表示,將加快推進收入分配制度改革,努力提高居民收入在國民收入中的比重溫家寶說:“我們要堅持內外均衡發(fā)展,著力構建擴大內需,特別是消費需求的長效機制,中國有世界上潛力最大的國內市場,充分挖掘市場的潛力、有效釋放國內需求是促進中國經濟長期穩(wěn)定發(fā)展的關鍵所在,也是解決經濟運行中突出矛盾的重要途徑。”溫家寶表示,我們將加快推進收入分配制度改革,努力提高居民收入在國民收入中的比重和勞動報酬在初次分配中的比重。創(chuàng)造條件讓更多的群眾擁有財產性收入,盡快扭轉收入差距擴大的趨勢,促進居民收入和消費可持續(xù)增長。我們將堅持統(tǒng)籌城鄉(xiāng)區(qū)域的協(xié)調發(fā)展,積極穩(wěn)妥地推進城鎮(zhèn)化,因地制宜地把符合條件的農民工逐步轉為城鎮(zhèn)居民,繼續(xù)加快新農村建設,加強農村基礎設施建設和改善公共服務,繼續(xù)實施區(qū)域發(fā)展總體戰(zhàn)略,大力推進西部大開發(fā)和東北地區(qū)等老工業(yè)基地的振興,促進中部崛起,著力培育內需增長的新動力,拓展農村和中西部地區(qū)的內需增長的新空間2.5分布集中趨勢的測度2.5.1眾數2.5.2中位數2.5.3分位數2.5.4均值2.5.5幾何平均數2.5.6切尾均值(略)2.5.7眾數、中位數、均值之間的關系數據分布的特征集中趨勢(位置)偏態(tài)和峰度(形狀)離中趨勢
(分散程度)2.5.1眾數(mode)集中趨勢的測度值之一眾數是總體中出現(xiàn)次數最多的那個變量值不受極端值的影響由于分布數列的分布不同,有的數列可能沒有眾數或有幾個眾數主要用于定類數據,也可用于定序數據和數值型數據眾數(眾數的不唯一性)無眾數
原始數據:10591268一個眾數
原始數據:659855多于一個眾數
原始數據:252828364242單變量分組計算眾數例某班同學按年齡分組資料如表4.4所示,求中位數。
單項數列求眾數計算表年齡(歲)學生人數較小制累計次數較大制累計次數1718192021582692513394850504537112合計50——分組數據的眾數1.眾數的值與相鄰兩組頻數的分布有關4.該公式假定眾數組的頻數在眾數組內均勻分布2.相鄰兩組的頻數相等時,眾數組的組中值即為眾數Mo3.相鄰兩組的頻數不相等時,眾數采用下列近似公式計算MoMo分組數據的眾數(舉例)表2-4某車間50名工人日加工零件數分組表按零件數分組頻數(人)累積頻數105~110110~115115~120120~125125~130130~135135~140358141064381630404650合計50—【例】根據某工廠50名工人日加工零件個數的數據,計算他們日加工零件數的眾數練習:現(xiàn)利用下表的資料,計算眾數。按零件數分組(個)職工人數(人)累計次數40~5050~6060~7070~8080~9020408050102060140190200合計200—【解】按公式計算:(個)1、由組距式數列確定眾數時,如果眾數組相鄰兩組的次數相等,則()。A.眾數為零B.眾數組的組中值就是眾數C.眾數不能確定D.眾數組的組限就是眾數2、眾數的大小只取決于眾數組相鄰組次數的多少。()BX2.5.2中位數(median)中位數是排序后處于中間位置上的數值不受極端值的影響主要用于定序數據,也可用數值型數據,但不能用于定類數據各變量值與中位數的離差絕對值之和最小,即Me50%50%中位數(位置的確定)未分組數據:組距分組數據:未分組數據的中位數(計算公式)數值型未分組數據的中位數(奇數個)【例】:9個家庭的人均月收入數據原始數據:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789中位數=1080數值型未分組數據的中位數(偶數個)【例】:10個家庭的人均月收入數據排序:660
75078085096010801250150016302000位置:12345678910例題:按日產零件數分組(件)工人數(人)2633110321434273618418合計80按日產零件數分組(件)工人數(人)向上累計次數26333110133214273427543618-418-合計80-數值型分組數據的中位數根據位置公式確定中位數所在的組采用下列近似公式計算:
該公式假定中位數組的頻數在該組內均勻分布數值型分組數據的中位數(算例)表2-5某車間50名工人日加工零件數分組表按零件數分組頻數(人)累積頻數105~110110~115115~120120~125125~130130~135135~140358141064381630404650合計50—【例】根據表中的數據,計算50名工人日加工零件數的中位數按日產量分組(千克)工人數(人)向上累計次數60以下101060~70192970~80507980~903611590~10027-100~11014-110~1208-合計164-練習:計算下表分組數據的中位數3、確定參數1、計算
2、找到中位數所在組
4、代入公式計算練習:現(xiàn)利用下表的資料,計算中位數。按零件數分組(個)職工人數(人)累計次數40~5050~6060~7070~8080~9020408050102060140190200合計200—按下限公式計算:(個)解:2.5.3四分位數1. 集中趨勢的測度值之一2. 排序后處于25%和75%位置上的值3.不受極端值的影響4.主要用于定序數據,也可用于數值型數據,但不能用于定類數據QLQMQU25%25%25%25%四分位數未分組數據:組距分組數據:(分類和數值型數據)下四分位數(QL)位置=N+14上四分位數(QU)位置=3(N+1)4下四分位數(QL)位置=N4上四分位數(QL)位置=3N4數值型未分組數據的四分位數(奇數個)【例】:9個家庭的人均月收入數據數據:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789數值型未分組數據的四分位數(偶數個)【例】:10個家庭的人均月收入數據排序:660
75078085096010801250150016302000位置:1234
5678910
數值型分組數據的四分位數(計算公式)下四分位數:
上四分位數:其中Sl-1、Su-1分別為Ql、Qu所在組以前各組的累積頻數2.5.4均值1、設一組數據為:X1,X2,…,XN簡單算術平均數的計算公式為2、設分組后的數據為:X1,X2,…,XK
相應的頻數為:F1,F(xiàn)2,…,F(xiàn)K加權算術平均數的計算公式為分組資料計算算術平均數的步驟:(一)單項式變量數列計算算術平均數1、確定x、f2、計算xf3、計算4、代入公式(二)組距式變量數列計算算術平均數1、將組距式變量數列變?yōu)閱雾検阶兞繑盗校ǚ椒ǎ河嬎憬M中值作為x)2、同上例題:計算工人平均日產量日產量(件)工人數(人)248261529363211合計70日產量(件)x工人數fxf2481922615390293610443211352合計701978加權均值
(例題分析)
按月收入分組(元)職工人數(人)
比重(%)1200以下
45[1200,1400)810[1400,1600)1113.75[1600,1800)2835[1800,2000)1721.25[2000,2200)78.75[2200,2400)33.752400以上22.5合計80100按月收入分組(元)職工人數(人)f組中值xxf1200以下
411004400[1200,1400)8130010400[1400,1600)11150016500[1600,1800)28170047600[1800,20002000,2200)7210014700[2200,2400)3230069002400以上225005000合計80-137800習題1:某企業(yè)工人日產量資料如下:按日產量分組(千克)工人數(人)60以下1060~701970~805080~903690~10027100~11014110~1208合計164按日產量分組(千克)工人數(人)f組中值xxf60以下105555060~701965123570~805075375080~903685306090~10027952565100~110141051470110~1208115920合計164-13550怎樣理解加權算術平均數的權數1、簡單算術平均數的大小只與變量值的大小有關。而加權算術平均數的大小不僅受各組變量大小的影響,而且受各組次數大小的影響,我們把各組次數稱為權數。2、權數的形式()
算術平均數的性質1、各變量值與其算術平均數離差之和等于零。2、各變量值與其算術平均數離差平方和為最小值。證明:設的任意數,則,以為中心的離差平方和為:為不等于證明:各單位標志值與算術平均數的離差平方和最小均值的特點:集中趨勢的最常用測度值一組數據的均衡點所在體現(xiàn)了數據的必然性特征易受極端值的影響用于數值型數據,不能用于列名數據和順序數據補充:調和平均數(倒數平均數)1. 集中趨勢的測度值之一2. 是平均數的另一種表現(xiàn)形式,當缺乏總體單位數的資料時,必須采用算術平均數的變化形式3. 易受極端值的影響(二)調和平均數1.簡單調和平均數
2.加權調和平均數例1、某農貿市場上某種蔬菜的價格如下:早市0.5元/斤,中市0.45元/斤,晚市0.4元/斤,如果早、中、晚各買1元錢的蔬菜,求該種蔬菜的平均價格。解法一:解法二:例2、廣州市甲、乙兩個菜場蔬菜的價格及銷售額資料如下表,請問那個菜場的蔬菜平均價格較高,并說明均價較高的原因。品種單價(元/千克)銷售額甲菜場乙菜場A2.002200800B2.2015401320C2.605202600根據表格資料可以得到下表品種單價(元/千克)x銷售額(元)m銷售量(m/x)甲菜場乙菜場甲菜場乙菜場A2.0022008001100400B2.2015401320700600C2.6052026002001000合計——4260472020002000分析:乙菜場蔬菜的平均價格高于甲菜場,主要原因是價格較高的蔬菜C在乙菜場的銷售量中的比重較大,甲菜場銷售價格較低的蔬菜A的比重較大,因此乙的平均價格較高。說明:調和平均數是算術平均數的變形在調和平均數的計算公式中,如果令則:原來只是計算時使用了不同的數據!算術平均數的其他數學性質1、算術平均數與總體單位數的乘積等于各單位標志值之和。2、對各單位標志值加、減、乘、除任意數a(相除a不為零),則算術平均數也要相應的加、減、乘、除該數a幾何平均數(概念要點)1.集中趨勢的測度值之一2.N個變量值乘積的N次方根,用G表示3.適用于特殊的數據(一般是發(fā)展速度類數據)4.主要用于計算平均發(fā)展速度和平均比率5、計算公式為簡單幾何平均數:加權幾何平均數:兩邊同時取對數:幾何平均數(舉例)【例】一位投資者持有一種股票,1996年、1997年、1998年和1999年收益率分別為4.5%、2.0%、3.5%、5.4%。計算該投資者在這四年內的平均收益率。平均收益率=103.84%-1=3.84%例:某地區(qū)近20年來的經濟發(fā)展速度如下表,求20年中該地區(qū)經濟的平均發(fā)展速度。發(fā)展速度x(%)年數f(次數)lgxflgx10212.00862.008610552.021210.1059107102.029420.293811042.04148.1656合計20——40.5740則G=106.83%練習:某水泥廠1997年的水泥產量是1996年的110%,1998年比1997增長了16%,1999年與1998年相比的增長率為20%。求三年的平均發(fā)展速度。幾何平均數的適用范圍幾何平均數主要用于計算平均發(fā)展速度。2.5.6切尾均值思考:全國歌手打獎賽是怎么對選手評分?為什么如此?2.5.7眾數、中位數與算術平均數之間的關系1、在正態(tài)分布的情況下:對稱分布
均值=中位數=眾數2、在左偏分布的情況下:左偏分布均值
中位數
眾數3、在右偏分布的情況下:右偏分布眾數
中位數
均值中位數,眾數,算術平均數的特點及其應用場合
1、眾數是一組數據分布的峰值,是一種位置代表值。其優(yōu)點是易于理解,不受極端值的影響。當數據的分布具有明顯的集中趨勢時,尤其是對于偏態(tài)分布,眾數的代表性比均值要好。其缺點是具有不唯一性。
2、中位數是一組數據中間位置上的代表值,其特點是不受數據極端值的影響。對于具有偏態(tài)分布的數據,中位數的代表性要比均值好。
3、均值是用全部數據計算的,其主要缺點是易受數據極端值的影響,對于偏態(tài)分布的數據,均值的代表性較差。眾數、中位數、均值的特點和應用眾數不受極端值影響具有不惟一性數據分布偏斜程度較大時應用中位數不受極端值影響數據分布偏斜程度較大時應用均值易受極端值影響數學性質優(yōu)良數據對稱分布或接近對稱分布時應用習題:同一數列中,算術平均數小于中位數,則數列呈右偏分布。()
2.6分布離散程度的測度2.6.1極差2.6.2內距2.6.3平均差2.6.4方差和標準差2.6.5離散系數2.6.1極差(range)1.一組數據的最大值與最小值之差2.離散程度的最簡單測度值3.易受極端值影響4.未考慮數據的分布7891078910未分組數據R
=max(Xi)-min(Xi).=組距分組數據R
=最高組上限-最低組下限5.計算公式為2.6.2內距(inter-quartilerange,IQR)也稱為內距或四分間距上四分位數與下四分位數之差QD=QU-QL反映了中間50%數據的離散程度用于衡量中位數的代表性值越小,說明中間的數據越集中;2.6.3平均差各變量值與其均值離差絕對值的平均數能全面反映一組數據的離散程度數學性質較差,實際中應用較少(絕對值難處理)計算公式為未分組數據組距分組數據2.6.4方差和標準差1、最常用的離散程度的測度值2、反映了數據的分布3、方差是各變量值與其均值離差的平方的平均數4、根據總體數據計算的,稱為總體方差或標準差;根據樣本數據計算的,稱為樣本方差或標準差總體的方差和標準差未分組數據:組距分組數據:未分組數據:組距分組數據:方差的計算公式標準差的計算公式舉例:方差和標準差的計算表2-7某車間50名工人日加工零件標準差計算表按零件數分組組中值(Xi)頻數(Fi)(Xi-X)2(Xi-X)2Fi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合計—50—3100.5【例】根據50名工人日加工零件個數的數據,計算工人日加工零件數的標準差樣本的方差和標準差未分組數據:組距分組數據:未分組數據:組距分組數據:方差的計算公式標準差的計算公式注意:樣本方差用自由度n-1去除!自由度(degreeoffreedom)自由度是一組數據中可以自由取值的數據的個數當樣本數據的個數為n
時,若樣本均值x確定后,只有n-1個數據可以自由取值,其中必有一個數據不能自由取值例如:樣本有3個數值,即x1=2,x2=4,x3=9,則x=5。當x=5確定后,x1,x2和x3有兩個數據可以自由取值,另一個則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值樣本方差用自由度去除,其原因可從多方面來解釋,從實際應用角度看,在抽樣估計中,當用樣本方差去估計總體方差σ2時,它是σ2的無偏估計量舉例:樣本方差的計算原始數據:10 591368樣本標準差(例題分析)表2-8:某電腦公司銷售量數據平均差計算表按銷售量分組組中值(Mi)頻數(fi)140—150150—160160—170170—180180—190190—200200—210210—220220—230230—24014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合計—120—55400樣本標準差含義:每一天的銷售量與平均數相比,平均相差21.58臺習題1:某企業(yè)工人日產量資料如下:按日產量分組(千克)工人數(人)60以下1060~701970~805080~903690~10027100~11014110~1208合計164fx1055-27.6761.767617.61965-17.6309.765885.445075-7.657.76288836852.45.76207.36279512.4153.764151.521410522.4501.767024.64811532.41049.768398.0816436172.64方差
(簡化計算公式)樣本方差總體方差2.6.5離散系數(coefficientofvariation)標準差與其相應的均值之比對數據相對離散程度的測度消除了數據水平高低和計量單位的影響用于對不同組別數據離散程度的比較計算公式為離散系數(例題分析)表2-9:某管理局所屬8家企業(yè)的產品銷售數據企業(yè)編號產品銷售額(萬元)x1銷售利潤(萬元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例】某管理局抽查了所屬的8家企業(yè),其產品銷售數據如表。試比較產品銷售額與銷售利潤的離散程度離散系數(例題分析)結論:計算結果表明,v1<v2,說明產品銷售額的離散程度小于銷售利潤的離散程度v1=536.25309.19=0.577v2=32.521523.09=0.710習題1:
設總體某數量標志值的平均數等于26,標準差系數為0.3,求方差。解:習題2:
設已知總體某數量標志值的平均數等于15,而標志值平方的平均數等于250,計算標準差系數。解:
習題3:有兩個數列,若甲的標準差比乙的標準差大,則兩者平均數的代表性程度:()
A、甲>乙B、甲<乙C、甲=乙D、無法判斷
習題4:
標志變異指標越大,說明平均數的代表性越大。()交替標志的算術平均數和標準差1、什么叫交替標志交替標志是指這類標志,用它可以將總體數據簡單地劃分為兩部分或兩組。一般用1表示具備某種標志,用0表示不具備某種標志。設總體共有N個數據,其中具備某種標志的總體單位數為,不具備某種標志的總體單位數為。記交替標志x比重1p1-p0q0-p合計1--某商店某月對一批庫存的茶葉進行質量檢驗,其結果是:庫存茶葉3000公斤,其中合格的茶葉2700公斤,其余均為不合格有異味的茶葉,試求茶葉合格品的算術平均數和標準差。
某市場調查機構對某種化妝品在城市和農村的消費者中分別進行調查,在城市中調查200人,有128人表示喜歡,在農村調查225人,有90人表示喜歡。試求表示喜歡人數的平均數和標準差。農村:城市:
綜合:二、偏度利用眾數、中位數和平均數之間的關系就可以判斷分布是對稱、左偏還是右偏,但要測度偏斜的程度則需要計算偏態(tài)系數。統(tǒng)計分析中測定偏態(tài)系數的方法很多,一般采用矩的概念計算,其計算公式為三階中心矩與標準差的三次方之比。具體公式如下:
【例】某管理局所屬30個企業(yè)2005年3月份利潤額統(tǒng)計資料如表4.9所示,要求計算該變量數列的偏斜狀況?!窘狻坷帽碇杏嘘P數據計算標準差如下:利潤額(萬元)企業(yè)數f組中值x10—3030—5050—7070—9021013520406080231219604683380-78608-274402808878802672672384160168482284880合計30—8120—153605358560萬元三、峰度測度峰度的方法,一般采用矩的概念計算,即運用四階中心矩與標準差的四次方對比,以此來判斷各分布曲線峰度的尖平程度。公式如下:
【例4.17】繼續(xù)上例,要求計算該變量數列的峰度?!窘狻坷麧欘~(萬元)企業(yè)數f組中值x10—3030—5050—7070—9021013520406080231219604683380-78608-274402808878802672672384160168482284880合計30—8120—153605358560由Excel輸出的描述統(tǒng)計量
步驟:工具——數據分析——描述統(tǒng)計2.8莖葉圖與箱線圖一、莖葉圖二、箱線圖2.8.1莖葉圖
(stem-and-leafdisplay)用于顯示未分組的原始數據的分布由“莖”和“葉”兩部分構成,其圖形是由數字組成的以該組數據的高位數值作樹莖,低位數字作樹葉樹葉上只保留一位數字莖葉圖類似于橫置的直方圖,但又有區(qū)別直方圖可觀察一組數據的分布狀況,但沒有給出具體的數值莖葉圖既能給出數據的分布狀況,又能給出每一個原始數值,保留了原始數據的信息莖葉圖
(Bp22表2.7工人周加工零件數)莖葉圖
(*表示0~4,.表示5~9,擴展的莖葉圖)2.8.2箱線圖(boxplot)用于顯示未分組的原始數據的分布箱線圖由一組數據的5個特征值繪制而成,它由一個箱子和兩條線段組成箱線圖的繪制方法首先找出一組數據的5個特征值,即最大值、最小值、中位數Me和兩個四分位數(下四分位數QL和上四分位數QU)連接兩個四分(位)數畫出箱子,再將兩個極值點與箱子相連接
箱線圖
(箱線圖的構成)中位數4681012QUQLX最大值X最小值簡單箱線圖箱線圖
(例題分析)最小值84最大值128中位數1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 單位管理制度分享匯編【職工管理篇】十篇
- 高中語文常見的修辭方法及其辨析
- 單位管理制度呈現(xiàn)合集【職工管理篇】十篇
- 單位管理制度呈現(xiàn)大合集【人員管理篇】
- 《壽險經營的命脈》課件
- 《看見學生的需要》課件
- 《班孫楠消防日》課件
- 物流行業(yè)人事工作總結
- 過年小學作文15篇
- 寵物行業(yè)寵物護理培訓總結
- MOOC創(chuàng)新創(chuàng)業(yè)與管理基礎(東南大學)
- 快速出具舊機動車評估報告
- 人員保有培訓課件
- 中職課程思政說課比賽 課件
- 臺大歐麗娟《紅樓夢》公開課全部筆記
- 公司報價管理辦法
- 農貿市場安全生產風險分級管控和隱患排查治理雙體系方案全套資料2019-2020完整實施方案模板
- 人教版 五年級上冊道德與法治全冊各課及單元同步檢測試卷【含答案】
- T梁濕接縫及橫隔梁施工方案
- 掛籃檢查驗收記錄表
- 小學勞動教育培訓心得體會
評論
0/150
提交評論