北郵考研概率論與數理統(tǒng)計62數據表示-直方圖等_第1頁
北郵考研概率論與數理統(tǒng)計62數據表示-直方圖等_第2頁
北郵考研概率論與數理統(tǒng)計62數據表示-直方圖等_第3頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 一、經驗分布函數一、經驗分布函數 二、頻數頻率分布表二、頻數頻率分布表 三、樣本數據的圖形顯示三、樣本數據的圖形顯示6.2 樣本數據的整理與顯示6.2.1 經驗分布函數設 x1, x2, , xn 是取自總體分布函數為F(x)的樣本,假設將樣本觀測值由小到大進行排列,為 x(1), x(2), , x(n),那么稱 x(1), x(2), , x(n) 為有序樣本.用有序樣本定義如下函數 (1)( )(1)( )0, ( )/ ,1,2,.,11,kknnxxFxk nxx xknxx 那么Fn(x)是一非減右連續(xù)函數,且滿足Fn() = 0 和 Fn() = 1可見,F(xiàn)n(x)是一個分布函

2、數,稱Fn(x)為經驗分布函數。經驗分布函數。(1)(2)( )nxxx)(1)(或xsnxFn.的隨機變量的個數中不大于,表示)(21xxxxxsn Fn(x)的圖形是累積頻率曲線。它是跳躍上的圖形是累積頻率曲線。它是跳躍上升的一條階梯曲線。假設觀測值不重復,躍度升的一條階梯曲線。假設觀測值不重復,躍度為為1/n,假設重復,按,假設重復,按1/n的倍數跳躍上升。的倍數跳躍上升。Fn(x)x當當 時,時, 依概率收斂于總體的分布函數依概率收斂于總體的分布函數n)(xFn)(xF例1 某食品廠生產聽裝飲料,現(xiàn)從生產線上 隨機抽取5聽飲料,稱得其凈重單位:克 351 347 355 344 351

3、x(1)= 344, x(2)= 347, x(3)= 351, x(4)= 351, x(5)= 355這是一個容量為5的樣本,經排序可得有序樣本:其經驗分布函數為 0 , x 344 0.2, 344 x 347Fn(x) = 0.4, 347 x 351 0.8, 351 x 355 1, x 355由伯努里大數定律:只要 n 相當大,F(xiàn)n(x)依概率收斂于F(x) 。更深刻的結果也是存在的,這就是格里紋科定理。定理1格里紋科定理格里紋科1933定理說明:當n 相當大時,經驗分布函數是總體分布函數F(x)的一個良好的近似。經典的統(tǒng)計學中一切統(tǒng)計推斷都以樣本為依據,其理由就在于此。. 10

4、)()(suplim , )( 1 )( , , xFxFPxFxFnxnxnn即即一致收斂于分布函數一致收斂于分布函數以概率以概率時時當當對于任一實數對于任一實數. )( , )( )( , 使用使用來來從而在實際上可當作從而在實際上可當作只有微小的差別只有微小的差別與總體分布函數與總體分布函數數的任一個觀察值數的任一個觀察值經驗分布函經驗分布函時時充分大充分大當當對于任一實數對于任一實數xFxFxFnxn 160 196 164 148 170 175 178 166 181 162 161 168 166 162 172 156 170 157 162 154樣本數據的整理是統(tǒng)計研究的根

5、底,整理數據的最常用方法之一是給出其頻數分布表或頻率分布表。例2 為研究某廠工人生產某種產品的能力, 我們隨機調查了20位工人某天生產的該種產品 的數量,數據如下(1) 對樣本進行分組:作為一般性的原那么,組數通 常在520個,對容量較小的樣本;(2) 確定每組組距:近似公式為組距d = (最大觀測值 最小觀測值)/組數;(3) 確定每組組限: 各組區(qū)間端點為a0, a1=a0+d, a2=a0+2d, , ak=a0+kd, 形成如下的分組區(qū)間(a0 , a1 , (a1, a2, , (ak-1 , ak對這20個數據(樣本)進行整理,具體步驟如下:(4) 統(tǒng)計樣本數據落入每個區(qū)間的個數頻

6、數, 并列出其頻數頻率分布表。表1 例2 的頻數頻率分布表 組序 分組區(qū)間 組中值 頻數 頻率 累計頻率(%) 1 (147,157 152 4 0.20 20 2 (157,167 162 8 0.40 60 3 (167,177 172 5 0.25 85 4 (177,187 182 2 0.10 95 5 (187,197 192 1 0.05 100合計 20 1一、直方圖直方圖是頻數分布的圖形表示,它的橫坐標表示所關心變量的取值區(qū)間,縱坐標有三種表示方法:頻數,頻率,最準確的是頻率/組距,它可使得諸長條矩形面積和為1。凡此三種直方圖的差異僅在于縱軸刻度的選擇,直方圖本身并無變化。當

7、取得一組樣本值后,一般先根據樣本取值作頻率直方圖,對總體的分布情況有一個幾何直觀上的粗略了解,然后再進一步分析10直方圖111213 例3 某工廠用自動包裝機包裝產品,為了考察每袋產品重量的波動情況,選取100袋產品測得其重量如下:(單位:kg),根據測得的數據作出頻率直方圖97.894.698.9100.999.8102.797.995.599.0101.199.6102.997.795.799.5101.299.9103.198.295.899.1101.3100.0103.898.196.099.0101.4100.198.396.399.2101.5100.2104.598.596.6

8、99.3101.4100.397.898.496.799.4101.1100.496.999.5101.0100.198.597.099.1101.2100.298.097.299.2101.6100.298.197.499.0101.6100.498.197.599.4101.8100.598.797.199.3102.1100.398.899.998.9102.0100.298.999.7100.6102.1100.498.899.6100.6102.3100.198.699.7100.7102.498.899.8102.2100.899.8100.9141516把每一個數值分為兩局部,前

9、面一局部百位和十位稱為莖,后面局部個位稱為葉,然后畫一條豎線,在豎線的左側寫上莖,右側寫上葉,就形成了莖葉圖。如:二、莖葉圖數值 分開 莖 和 葉 112 11 | 2 11 和 2例4 某公司對應聘人員進行能力測試,測試 成績總分為 150分。下面是50位應聘人員的測 試成績已經過排序:64677072747676798081828283858688919192939393959595979799100100102104106106107108108112112114116118119119122123125126128133我們用這批數據給出一個莖葉圖,見下頁。圖3 測試成績的莖葉圖6 4

10、 77 0 2 4 6 6 98 0 1 2 2 3 5 6 8 9 1 1 2 3 3 3 5 6 6 7 7 910 0 0 2 4 6 6 7 8 811 2 2 4 6 8 9 912 2 3 5 6 813 3 莖葉圖的外觀很像橫放的直方圖,但莖葉圖中葉增加了具體的數值,使我們對數據的具體取值一目了然,從而保存了數據中全部的信息。在要比較兩組樣本時,可畫出它們的背靠背的莖葉圖。見附錄。甲車間 6 2 0 5 6 乙車間8 7 7 7 5 5 5 4 2 1 1 6 6 7 7 8 8 8 7 7 6 6 4 4 2 1 7 2 2 4 5 5 5 5 6 6 6 8 8 9 8 7

11、6 6 5 3 2 8 0 1 1 3 3 3 4 4 4 6 6 7 7 8 7 3 2 1 0 9 0 2 3 5 8 5 3 0 0 10 7 注意:莖葉圖保存數據中全部信息。當樣本量較 大,數據很分散,橫跨二、三個數量級時, 莖葉圖并不適用。更一般地,樣本p分位數mp可如下定義:(1)()(1),1(2nppnpnpxnpmxxnp若不是整數), 若是整數通常,樣本均值在概括數據方面具有一定的優(yōu)勢。但當數據中含有極端值時,使用中位數比使用均值更好,中位數的這種抗干擾性在統(tǒng)計中稱為具有穩(wěn)健性。 設設x(1),x (n)是有序樣本,那么樣本中位數是有序樣本,那么樣本中位數m0.5定義定義為

12、為為偶數為奇數)(21)12()2()21(5.0nnxxxmnnn21譬如,若譬如,若n=5,則,則m0.5 =x(3) ,n=6,則,則m0.5 =(x(3) + x(4) )。)。注:次序統(tǒng)計量 設 x1, x2, , xn 是取自總體X的樣本, x(i) 稱為該樣本的第i 個次序統(tǒng)計量,它的取值 是將樣本觀測值由小到大排列后得到的第 i 個 觀測值。其中x(1)=minx1, x2, xn稱為該樣本 的最小次序統(tǒng)計量,稱 x(n)=maxx1,x2,xn為 該樣本的最大次序統(tǒng)計量。 樣本中位數是次序統(tǒng)計量的函數,次序統(tǒng)計量的應用之一是五數概括與箱線圖。在得到有序樣本后,容易計算如下五個

13、值:最小觀測值 xmin= x(1) , 最大觀測值 xmax=x(n) ,中位數 m0.5 , 第一4分位數 Q1 = m0.25, 第三4分位數 Q3 = m0.75.五數概括是指用這五個數:xmin , Q1 , m0.5 , Q3 , xmax來大致描述一批數據的輪廓。附錄:附錄:1、背靠背莖葉圖舉例。、背靠背莖葉圖舉例。2、次序統(tǒng)計量。、次序統(tǒng)計量。3、一本關于、一本關于“統(tǒng)計圖的好書。統(tǒng)計圖的好書。?現(xiàn)代統(tǒng)計圖形現(xiàn)代統(tǒng)計圖形?謝益輝謝益輝 ://cn/publication/4、箱線圖舉例。、箱線圖舉例。1、背靠背莖葉圖舉例。、背靠背莖葉圖舉例。例例 下面的數據

14、是某廠兩個車間某天各下面的數據是某廠兩個車間某天各40名名員工生產的產品數量,為對其進行比較,我員工生產的產品數量,為對其進行比較,我們將這些數據放到一個背靠背莖葉圖上。們將這些數據放到一個背靠背莖葉圖上。 甲車間甲車間 乙車間乙車間 50 52 56 61 61 62 56 66 67 67 68 68 64 65 65 65 67 67 72 72 74 75 75 75 67 68 71 72 74 74 75 76 76 76 76 78 76 76 77 77 78 82 78 79 80 81 81 83 83 85 87 88 90 91 83 83 84 84 84 86 86

15、 92 86 93 93 97 86 87 87 88 92 92 100 100 103 105 93 95 98 107 甲車間甲車間 乙車間乙車間 6 2 0 5 6 8 7 7 7 5 5 5 4 2 1 1 6 6 7 7 8 8 8 7 7 6 6 4 4 2 1 7 2 2 4 5 5 5 5 6 6 6 8 8 9 8 7 6 6 5 3 2 8 0 1 1 3 3 3 4 4 4 6 6 7 7 8 7 3 2 1 0 9 2 2 3 5 8 5 3 0 0 10 7兩車間產量的背靠背莖葉圖兩車間產量的背靠背莖葉圖 在上圖中,莖在中間,左邊表示甲車間的數在上圖中,莖在中間,左

16、邊表示甲車間的數據,右邊表示乙車間的數據。從莖葉圖可以看出,據,右邊表示乙車間的數據。從莖葉圖可以看出,甲車間員工的產量偏于上方,而乙車間員工的產甲車間員工的產量偏于上方,而乙車間員工的產量大多位于中間,乙車間的平均產量要高于甲車量大多位于中間,乙車間的平均產量要高于甲車間,乙車間各員工的產量比較集中,而甲車間員間,乙車間各員工的產量比較集中,而甲車間員工的產量那么比較分散。工的產量那么比較分散。2、次序統(tǒng)計量及其分布 設 x1, x2, , xn 是取自總體X的樣本, x(i) 稱為該樣本的第i 個次序統(tǒng)計量,它的取值 是將樣本觀測值由小到大排列后得到的第 i 個 觀測值。其中x(1)=mi

17、nx1, x2, xn稱為該樣本 的最小次序統(tǒng)計量,稱 x(n)=maxx1,x2,xn為 該樣本的最大次序統(tǒng)計量。 樣本中位數也是一個很常見的統(tǒng)計量,它也是次序統(tǒng)計量的函數,例 設總體X 的分布為僅取0,1,2的離散 均勻分布,分布列為xp我們知道,在一個樣本中,x1, x2,xn 是獨立同分布的,而次序統(tǒng)計量 x(1), x(2), x(n) 那么既不獨立,分布也不相同,看下例。現(xiàn)從中抽取容量為3的樣本,其一切可能取值有33=27種,表列出了這些值,由此 0 1 2 (1)xp1927727127(3)x7271927p127 0 1 2我們可以清楚地看到這三個次序統(tǒng)計量的分布是不相同的。

18、可給出的 x(1) , x(2), x(3) 分布列如下:(2)x1327727p727 0 1 2進一步,我們可以給出兩個次序統(tǒng)計量的聯(lián)合分布,如,x(1) 和x(2) 的聯(lián)合分布列為01207/279/273/27104/273/272001/27x(1)x(2)因為 P(x(1) = 0, x(2) = 0) =7/27 ,二者不等,由此可看出x(1) 和 x(2)是不獨立的。而 P( x(1) = 0)*P( x(2) = 0) = (19/27)*(7/27),單個次序統(tǒng)計量的分布定理設總體X的密度函數為p(x),分布 函數為F(x), x1, x2, xn為樣本,那么第k個 次序統(tǒng)

19、計量x(k)的密度函數為)()(1 ()()!()!1(!)(1xpxFxFknknxpknkk3、多個次序統(tǒng)計量的聯(lián)合分布對任意多個次序統(tǒng)計量可給出其聯(lián)合分布,以兩個為例說明:定理 在定理的記號下,次序統(tǒng)計 量 (x(i), x(j), (i j) 的聯(lián)合分布密度函數為zyzpypzFyFzFyFjnijinzypjnijiij),()()(1 )()()()!()!1()!1(!),(11次序統(tǒng)計量的函數在實際中經常用到。如 樣本極差 Rn = x(n) x(1), 樣本中程 x(n) x(1)/2。樣本極差是一個很常用的統(tǒng)計量,其分布只在很少幾種場合可用初等函數表示。令 R = x(n)

20、 x(1) ,由 R 0, 可以推出0 x(1) = x(n)R 1 R ,那么例 設總體分布為U(0,1), x1, x2, xn 為 樣本,那么(x(n), x(1)的聯(lián)合密度函數為p1,n(y,z)=n(n1)(zy)n-2, 0 y z 1這正是參數為(n1, 2)的貝塔分布。1220( )(1)()d(1)(1)rnnRprn nyryyn nrr樣本中位數也是一個很常見的統(tǒng)計量,它也是次序統(tǒng)計量的函數,通常如下定義:更一般地,樣本p分位數mp可如下定義: 120.5122,12nnnxnmxxn 為奇數,為偶數(1)()(1),1(2nppnpnpxnpmxxnp若不是整數), 若

21、是整數定理 設總體密度函數為p(x),xp為其p分 位數, p(x)在xp處連續(xù)且 p(xp) 0,那么特別,對樣本中位數,當n時近似地有當n 時樣本 p 分位數 mp 的漸近分布為2(1),pppppmNxn p x0.50.520.51,4mNxn p x例 設總體為柯西分布,密度函數為p(x,)= 1/(1+(x)2) , 通常,樣本均值在概括數據方面具有一定的優(yōu)勢。但當數據中含有極端值時,使用中位數比使用均值更好,中位數的這種抗干擾性在統(tǒng)計中稱為具有穩(wěn)健性。 不難看出是該總體的中位數,即x0.5= 。設 x1, x2, xn 是來自該總體的樣本,當樣本量n 較大時,樣本中位數m0.5

22、的漸近分布為m0.5 AN(, 2/4n) .次序統(tǒng)計量的應用之一是五數概括與箱線圖。在得到有序樣本后,容易計算如下五個值:最小觀測值 xmin= x(1) , 最大觀測值 xmax=x(n) ,中位數 m0.5 , 第一4分位數 Q1 = m0.25, 第三4分位數 Q3 = m0.75.所謂五數概括就是指用這五個數:xmin , Q1 , m0.5 , Q3 , xmax來大致描述一批數據的輪廓。3 3、一本關于、一本關于“統(tǒng)計圖的好書。統(tǒng)計圖的好書。? ?現(xiàn)代統(tǒng)計圖形現(xiàn)代統(tǒng)計圖形? ?謝益輝謝益輝 ://cn/publication/ ://cn/

23、publication/ 次序統(tǒng)計量的應用之一是五數概括與箱線圖。在得到有序樣本后,容易計算如下五個值:最小觀測值x min=x (1) ;中位數m0.5;第一4分位數Q1= m0.25 ;第三4分位數Q3=m0.75 ;最大觀測值x max=x (n) ,所謂五數概括就是指用這五個數: x min ,Q1 ,m0.5 ,Q3,x max 來大致描述一批數據的輪廓。4、五數概括與箱線圖 下表是某廠160名銷售人員某月的銷售數據的有序樣本,由該批數據可計算得: xmin=45,xmax =319,m0.5 =181,Q1 =144,Q3 =212。相關分位數按照下面公式計算 .是整數不是整數np

24、npxxxmnpnpnpp)(21)1()()1( 45 74 76 80 87 91 92 93 95 96 98 99 104 106 111 113 117 120 122 122124 126 127 127 129 129 130 131 131 133134 134 135 136 137 137 139 141 141 143145 148 149 149 149 150 150 153 153 153153 154 157 160 160 162 163 163 165 165167 167 168 170 171 172 173 174 175 175176 178 178

25、178 179 179 179 180 181 181181 182 182 185 185 186 186 187 188 188188 189 189 191 191 191 192 192 194 194194 194 195 196 197 197 198 198 198 199200 201 202 204 204 205 205 206 207 210214 214 215 215 216 217 218 219 219 221221 221 221 221 222 223 223 224 227 227228 229 232 234 234 238 240 242 242 242

26、244 246 253 253 255 258 282 290 314 319 五數概括的圖形表示稱為箱線圖,由箱子和線段組成。(1)畫一個箱子,其兩側恰為第一4分位數和第三4分位數,在中位數位置上畫一條豎線,它在箱子內。這個箱子包含了樣本中50的數據;(2)在箱子左右兩側各引出一條水平線,分別至最小值和最大值為止。每條線段包含了樣本中25的數據。 箱線圖可用來對樣本數據分布的形狀進行大致的判斷。45 144 181 212 3199、靜夜四無鄰,荒居舊業(yè)貧。4月-224月-22Thursday, April 21, 202210、雨中黃葉樹,燈下白頭人。14:28:4014:28:4014:

27、284/21/2022 2:28:40 PM11、以我獨沈久,愧君相見頻。4月-2214:28:4014:28Apr-2221-Apr-2212、故人江海別,幾度隔山川。14:28:4014:28:4014:28Thursday, April 21, 202213、乍見翻疑夢,相悲各問年。4月-224月-2214:28:4014:28:40April 21, 202214、他鄉(xiāng)生白發(fā),舊國見青山。21 四月 20222:28:40 下午14:28:404月-2215、比不了得就不比,得不到的就不要。四月 222:28 下午4月-2214:28April 21, 202216、行動出成果,工作出

28、財富。2022/4/21 14:28:4014:28:4021 April 202217、做前,能夠環(huán)視四周;做時,你只能或者最好沿著以腳為起點的射線向前。2:28:40 下午2:28 下午14:28:404月-229、沒有失敗,只有暫時停止成功!。4月-224月-22Thursday, April 21, 202210、很多事情努力了未必有結果,但是不努力卻什么改變也沒有。14:28:4014:28:4014:284/21/2022 2:28:40 PM11、成功就是日復一日那一點點小小努力的積累。4月-2214:28:4014:28Apr-2221-Apr-2212、世間成事,不求其絕對圓滿,留一份缺乏,可得無限完美。14:28:4014:28:4014:28Thursday, April 21, 202213、不知香積寺,數里入云峰。4月-224月-2214:28:4014:28:40Apri

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論