版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第二章個體變異與變量分布曾平流行病與衛(wèi)生統(tǒng)計學教研pstat@1一、個體變異二、頻數分布三、定量資料的統(tǒng)計指標四、定性資料與等級資料的統(tǒng)計指標22.1個體變異(individualvariation)是同質觀察對象間表現(xiàn)出的差異。變異是生物體在一種或多種、已知或未知的不可控因素作用下所產生的綜合反映。就個體而言:變異是隨機的(random)。就總體而言:個體變異是有規(guī)律的。3個體變異是統(tǒng)計學應用的前提個體變異抽樣誤差統(tǒng)計推斷42.2頻數分布收集到的原始資料多是雜亂無章的,為了了解數據的分布規(guī)律特征,有必要對數據進行整理,描述數據的頻數分布(frequencydistribution)以及直方圖(histogram)。探索性數據分析(exploratorydataanalysis,EDA)52.2.1定量資料的頻數分布例:某市1997年12歲男童120人的身高(cm)資料142.3156.6142.7145.7138.2141.6142.5130.5134.5148.8134.4148.8137.9151.3140.8149.8145.2141.8146.8135.1150.3133.1142.7143.9151.1144.0145.4146.2143.3156.3141.9140.7141.2141.5148.8140.1150.6139.5146.4143.8143.5139.2144.7139.3141.9147.8140.5138.9134.7147.3138.1140.2137.4145.1145.8147.9150.8144.5137.1147.1142.9134.9143.6142.3125.9132.7152.9147.9141.8141.4140.9141.4160.9154.2137.9139.9149.7147.5136.9148.1134.7138.5138.9137.7138.5139.6143.5142.9129.4142.5141.2148.9154.0147.7152.3146.6132.1145.9146.7144.0135.5144.4143.4137.4143.6150.0143.3146.5149.0142.1140.2145.4142.4148.9146.7139.2139.6142.4138.7139.96頻數分布表的制作步驟P7
(1)計算極差(R)
R=Xmax–Xmin=160.9-125.9=35(cm)
(2)確定組數、組距:組數:8~12組距:i=R/組數=35/10=3.5≈4(cm)為什么需要分組?7頻數(frequency)是指資料中相同數值或同類屬性的觀察單位的個數。由于定量資料連續(xù)性的特點,因此在對定量資料編制頻數分布表時需要分段匯總,否則頻數分布表就特別長。在對原始數據分段后,計數不同組段觀察值的個數就得到數據的頻數分布,將頻數分布用表格的形式表示就是頻數分布表,簡稱頻數表(frequencytable)。8(3)確定組段:含下限,不含上限第一組段下限≤Xmin上限?最后一組上限>Xmax(4)劃記:計算頻數、頻率
9124~10.0083128~20.0167132~100.0833136~220.1834140~370.3083144~260.2167148~150.1250152~40.0333156~20.0167組段頻數頻率160~16410.0083合計1201.0000表2.11997年某市120名12歲男童的身高(cm)頻數分布累計頻率?累計頻數?10
圖2.1某市120名12歲男童身高的頻數分布124132140148156164010203040人數身高(cm)11定性資料的整理:根據指標的自然屬性歸類,計數頻數;等級資料的整理:根據指標的不同等級歸類,計數頻數表2.2507名傣族人血型的頻數分布O20540.43A11222.09B15029.59血型頻數頻率(%)AB407.89合計507100.002.2.2定性資料及等級資料的頻數分布12709對肺癌患者和非肺癌患者吸煙情況
肺癌6472
4119709組別男性女性合計吸煙不吸煙
吸煙不吸煙對照62227
2832709合計126929
69511418此表是Doll和Hill于1948年至1952年間采用回顧性配對調查方法研究了吸煙與肺癌的關系得到的資料(此表分類方法是交叉分類)13例:某醫(yī)院探討不同期次矽肺的胸部平片肺門密度變化,資料如下表,問矽肺患者肺門密度的增加與矽肺期次有無關系?Ⅰ肺門密度級別+++++4318814245Ⅱ19672169Ⅲ6175578合計50301141492合計矽肺期次定性和等級資料的頻數表?14描述分布類型描述分布的特征便于發(fā)現(xiàn)特大、特小的可疑值便于計算有關指標、統(tǒng)計分析與處理頻數分布表和頻數分布圖的用途152.2.3數據的分布類型對稱分布:非對稱分布(偏態(tài)分布)對稱分布:頻數以中間最多,兩側逐漸減少,基本對稱右偏態(tài)(正偏態(tài)):高峰在左側,尾部拖在右側左偏態(tài)(負偏態(tài)):高峰在右側,尾部拖在左側單峰分布:雙峰或多峰分布:正偏態(tài)(右)負偏態(tài)(左)分布的對稱峰的多少16
某市120名12歲男童身高的頻數分布124132140148156164010203040人數身高(cm)1770
3
5
7
9
11
13
15
17
19
21
10
20
30
40
50
60
0
1
發(fā)汞含量()239人發(fā)汞含量的頻數分布人數180
10
20
30
40
50
60
70
80
90
100
100
200
300
0
400
自評分
某城市892名老年人生存質量自評分的頻數分布人數190
5
10
15
20
25
30
35
40
45
0
10203040
生存時間(月)102名黑色素瘤患者的生存時間頻數分布人數200
10
20
30
40
50
60
70
80
0
1000
2000
3000
4000
人數死亡年齡(歲)某地某年10000例死亡者年齡分布2122
集中位置的描述
離散趨勢的描述2.3定量資料的統(tǒng)計指標2324
是描述一組變量值的集中趨勢或平均水平的統(tǒng)計指標。是一組變量值的集中水平的代表值。種類:算術均數、幾何均數、中位數、眾數、調和均數等2.3.1平均數(集中位置描述)25(一)算術均數(arithmeticmean)簡稱均數(mean)1.適用條件:單峰對稱分布的資料2.計算公式:①直接法加權系數例:某門功課的成績:平時占0.2,期中占0.3,期末占0.5。則平均成績?yōu)椋豪昧怂袛抵?,但易受極大值影響。26②頻數表法:各組段的頻數各組段的組中值??27124~10.0083128~20.0167132~100.0833136~220.1834140~370.3083144~260.2167148~150.1250152~40.0333156~20.0167組段頻數頻率160~16410.0083合計1201.00001997年某市120名12歲男童的身高(cm)組中值12613013413814214615015415816228例:五人血清抗體滴度:1:10,1:100,1:1000,1:10000,1:100000看一個實例?291適用條件:各變量值成倍數或對數正態(tài)分布的資料2公式:3計算(二)幾何均數(geometricmean)30例、有5份血清的抗體效價分別為1:10,1:20,1:40,1:80,1:160,求平均抗體效價?此5人血清的平均抗體效價為1:40。
31有25份血清的抗體效價分別為抗體效價1:10,1:20,1:40,1:80,1:160,人數25873所以,這25份血清的平均效價是1:44.7。32使用注意:(1)變量值中不能有0;(2)同一組變量值不能同時存在正、負值;(3)若變量全為負值,計算時將負號除去,算完后再加上。33(三)中位數(median)及百分位數(percentile)將一組變量值從小到大排列,居中的那個變量值。1.適用條件:任何分布(偏態(tài)、分布不明、兩端無界限)2.計算公式:小樣本:當n為偶數:當n為奇數:34例、有10人的發(fā)汞值()1.1,1.8,3.5,4.2,4.8,5.6,5.9,7.1,10.5,16.335(2)頻數表法:???36甘油三脂頻數累積頻數累積頻率(%)0.10~27274.30.40~16919631.10.70~16736357.6
1.00~9445772.51.30~8153885.41.60~4258092.11.90~2860896.52.20~1462298.72.50~462699.42.80~362999.83.10~1630100.0合計630--37(二)百分位數(percentile)是指在一組數據中找到這樣一個值,在一組從小到大排序的數據中,全部觀察值的X%小于Px,而其余(100-X)%大于Px。
PxX%(100-X)%38頻數表法
39甘油三脂頻數累積頻數累積頻率(%)0.10~27274.30.40~16919631.10.70~16736357.6
1.00~9445772.51.30~8153885.41.60~4258092.11.90~2860896.52.20~1462298.72.50~462699.42.80~362999.83.10~1630100.0合計630--?40應用中位數和百分位數時注意事項:①所有分布類型的資料均可計算中位數和百分位數;②例數較少時,接近兩端的百分位數不穩(wěn)定,不宜用兩端的百分位數估計頻數分布范圍;③中位數抗極端值的影響,比均數好,但不及均數精確;當資料可計算均數或幾何均數時,不宜計算中位數。41有甲、乙兩組同性別同年齡兒童體重(公斤):甲組26,28,30,32,34乙組24,27,30,33,36
看一個實例上述兩組數據的特點:集中位置相同:均為30kg離散程度不同:各觀察值與均數的的差值不同2.3.2離散趨勢的描述42全距(range)四分位數間距(interquartilerangeQ)方差、標準差(varianceandstandarddeviation)變異系數(coefficientofvariation)43(1)全距(極差)
R=Xmax-Xmin反映資料的分布范圍R大→變異程度大,R小→變異程度小
優(yōu)點:簡單明了
缺點:不靈敏,只考慮了最大、最小值
抽樣誤差大,不穩(wěn)定44(2)四分位數間距(Q)即P75與P25之差P25:1/4的觀察值小于它,稱下四分位數P25~QL。P75:1/4的觀察值大于它,稱上四分位數P75~QU。Q=QU-QL,其間包含了中間的50%變量值,即中間50%變量值的極差。Q值大→變異程度大,Q小→變異程度小偏態(tài)分布資料集中趨勢…中位數離散趨勢…四分位數45(3)方差與標準差離均差總和離均差平方和方差標準差自由度46=(1-4)+(2-4)+(3-4)+(4-
=-3-2-1+0+1+2+3=0對于對稱分布或正態(tài)分布資料其離均差總和恒等于0。4)+(5-4)+(6-4)+(7-4)例:1、2、3、4、5、6、747計算公式:甲組:26,28,30,32,34乙組:24,27,30,33,36標準差表示一組變量值與均數的平均距離直接、全面、平均地描述一組變量值的離散程度。48標準差是描述變量值變異程度的指標。標準差大變異程度大均數的代表性差標準差小變異程度小均數的代表性好用途1、表示變異程度的大小2、計算標準誤、變異系數3、估計正常值范圍標準差的意義49一個實例例:某地20歲男子100人,身高均數為166.06cm,標準差為4.95cm;體重均數為53.7kg,標準差為4.96kg,問:體重和身高,哪個變異大?50
使用條件:
均數相差較大時,比較各組資料的變異度;度量衡單位不同時,比較各組資料的變異程度。(4)變異系數51年齡組人數均數標準差CV(%)1~2月10056.32.13.75~6月12066.52.23.33~3.5歲30096.13.13.25~5.5歲400107.83.33.1某地6歲以下兒童身高(cm)的變異絕對變異受平均水平的影響相對變異排除了平均水平的影響52
描述離散程度的指標
種類應用條件計算公式R任何資料R=Xmax-XminQ偏態(tài)分布資料S2(S)正態(tài),單位同均數相差不大CV單位不同,均數差大
53小結:定量資料的描述列表描述:頻數分布表、一覽表……圖形描述:頻數分布圖、趨勢圖……指標描述定量資料 集中位置:算術均數、幾何均數、中位數、百分位數 離散程度:極差、四分位數間距、方差、標準差定性或等級資料 相對數指標:率、構成比、比54平均數與變異度的關系
平均數表示的集中性與變異度表示的離散性,是從兩個不同的角度闡明計量資料的特征變異度越小,平均數對各變量值的代表性越好
變異度越大,平均數對各變量值的代表性越差
55平均數與變異度的關系通常,平均數與變異指標一起描述資料的分布特征。用均數和標準差描述正態(tài)分布資料的特征;用中位數和四分位數間距描述偏態(tài)分布資料的特征。
562.4絕對數的概念與意義調查研究和實驗研究得到的定性資料或等級資料經過整理,清點數目得到的數值稱為絕對數。如某病的發(fā)病人次數、醫(yī)院收容人數、治愈人數等。絕對數反映一定條件下某種事物的規(guī)?;蛩?是計劃或總結工作的依據,絕對數是計算相對數與平均數的基礎。絕對數往往不便于比較。57例:調查得某年小學生中流腦發(fā)?。杭椎貐^(qū)63例,乙地區(qū)35例。甲地區(qū)流腦流行比乙地區(qū)嚴重×√如已知小學生總人數:甲地區(qū)50051人,乙地區(qū)14338人,可算出兩個發(fā)病率:
甲地區(qū)流腦發(fā)病率:63/50051×1000‰=1.26‰乙地區(qū)流腦發(fā)病率:35/14338×1000‰=2.44‰
乙地區(qū)流腦流行比甲地區(qū)嚴重582.4.1相對數的概念和意義概念:相對數是兩個有聯(lián)系的指標之比。兩個特點:表示事物出現(xiàn)的頻度。
把基數化作相等,便于比較。
常用相對數率、構成比、相對比
59(1)率率(rate)又稱頻率指標,用以說明某事物或某現(xiàn)象在其可能發(fā)生的范圍內實際發(fā)生的頻率或強度。計算公式為:
60
表2.5某市某年各區(qū)急性傳染病發(fā)生數及其相對數市區(qū)年平均急性傳染病各區(qū)與I區(qū)構成比發(fā)病率人口數發(fā)生數發(fā)病數之比(%)(1/萬)163672324331.0018.938.21238954030331.2523.577.863
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024幼兒園新生入園安全協(xié)議與家園共育責任合同3篇
- 2025施工總承包資質合同書
- 旅游度假村施工協(xié)議
- 派遣員工協(xié)議書范本
- 校園網絡維護合同模板
- 司法鑒定聘用合同鑒定員崗位
- 稀土材料堆場租賃協(xié)議
- 正規(guī)貸款協(xié)議
- 實驗室通風系統(tǒng)安裝施工合同范本
- 旅游公司副總有償聘任合同
- 工程款代扣代付款協(xié)議書(2篇)
- 2024年湖北省高考化學試卷真題(含答案解析)
- 物業(yè)充電樁合作加盟協(xié)議書范文
- 2023春國開會計實務專題形考任務4題庫1及答案
- 現(xiàn)有民辦學校選擇登記為營利性民辦學校辦理流程
- 機械工安全操作規(guī)程有哪些(11篇)
- 期末測試卷(一)(試題)2023-2024學年二年級上冊數學蘇教版
- 2024中國華電集團限公司校招+社招高頻難、易錯點500題模擬試題附帶答案詳解
- 國家開放大學電大《會計信息系統(tǒng)》期末終考題庫及標準參考答案
- 【飛科電器公司基于杜邦分析法的財務分析案例(7700字論文)】
- 多器官功能障礙綜合征MODS診療及護理試題
評論
0/150
提交評論