第四章 定量資料的統(tǒng)計描述_第1頁
第四章 定量資料的統(tǒng)計描述_第2頁
第四章 定量資料的統(tǒng)計描述_第3頁
第四章 定量資料的統(tǒng)計描述_第4頁
第四章 定量資料的統(tǒng)計描述_第5頁
已閱讀5頁,還剩69頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

變量類型定量變量定性變量無序分類有序分類:如血清反應,治療效果等二項分類:如生死,有效無效等多項分類:如血型,職業(yè)特征等連續(xù)型變量:如:身高,體重離散型變量:如子女數(shù),脈搏數(shù)1資料辨認病例號年齡身高血型心電圖尿WBC產(chǎn)前檢查次數(shù)職業(yè)1351.65A正常-0教師2441.74B正常-3工人3261.80O正常+2職員4251.61AB正常+1農(nóng)民5411.71A異常++5工人6451.58B正常++6工人7501.60O異常++3干部8281.76AB正常+++2干部9311.62O正常+3軍人2統(tǒng)計分析的內(nèi)容統(tǒng)計描述:是用統(tǒng)計表、統(tǒng)計圖、統(tǒng)計指標來描述資料的分布規(guī)律及其數(shù)量特征。▲

把握資料的基本特征;▲

為統(tǒng)計推斷打下基礎(chǔ)。統(tǒng)計推斷:在醫(yī)學科學研究中通常應用抽樣研究的方法,即對總體中隨機抽取的部分觀察單位(樣本)進行研究,然后用樣本信息推斷總體特征,即統(tǒng)計推斷。3

第四章

定量資料的統(tǒng)計分析

4第一節(jié)頻數(shù)分布表和頻數(shù)分布圖

第二節(jié)

集中趨勢的統(tǒng)計描述

第三節(jié)離散趨勢的統(tǒng)計描述

第四節(jié)正態(tài)分布及其應用本章內(nèi)容第一節(jié)頻數(shù)分布表和

頻數(shù)分布圖一、頻數(shù)分布表二、頻數(shù)分布圖6一、頻數(shù)分布表

對一個隨機現(xiàn)象進行重復觀察,其中某變量值(隨機事件)出現(xiàn)的次數(shù)被稱作頻數(shù)(frequency)。

把變量值及相對應的頻數(shù)列成表格即頻數(shù)分布表,簡稱頻數(shù)表(frequencytable)。

7連續(xù)性變量的頻數(shù)表的編制

例4.2在某市2005年進行的小學生體質(zhì)評價研究中,測定了120名9歲男孩的肺活量(L),資料如下,根據(jù)該資料制作頻數(shù)表。1.7061.3261.6321.8762.1611.6841.5331.1751.8671.6762.0911.8471.2131.2770.989

2.2351.6651.2891.7241.5481.6081.8901.7331.7961.2031.7361.4501.6331.5551.352…1.2911.7961.6471.4151.8730.9961.9361.5261.4241.5891.6701.0561.9691.4812.4062.1231.9881.5121.0301.8861.9301.7251.3741.6541.6631.4381.6451.2141.1841.735你能看出資料有什么規(guī)律?89編制步驟:①確定全距(range)

全部觀察值中最大值與最小值之差,用符號R表示。又稱極差。本例極差:R=2.406-0.980=1.417(L)。1.7061.3261.6321.8762.1611.6841.5331.1751.8671.6762.0911.8471.2131.2770.989

2.2351.6651.2891.7241.5481.6081.8901.7331.7961.2031.7361.4501.6331.5551.352…1.2911.7961.6471.4151.8730.9961.9361.5261.4241.5891.6701.0561.9691.4812.4062.1231.9881.5121.0301.8861.9301.7251.3741.6541.6631.4381.6451.2141.1841.735R=2.406-0.980=1.417(L)②劃分組段

確定組數(shù):觀察單位及其全距定:本例11確定組距:等距分組,組距=R/組數(shù)。本例i=R=1.417/11=0.129≈0.130確定各組段上下限:每組段的起點稱為該組的下限(lowlimit),終點稱為上限(upperlimit)。第一組段必須包含最小值。最后一個組段上限必須包含最大值。③統(tǒng)計各組頻數(shù)采用計算機或手工劃記匯總,得到各組段相應的頻數(shù)。根據(jù)這些數(shù)據(jù)編制成的頻數(shù)表能顯示出這組數(shù)據(jù)分布的特征11二、頻數(shù)分布圖

以觀測變量為橫軸,頻數(shù)(或頻率)為縱軸所作的直方圖,稱為頻數(shù)分布圖。橫軸依次以等距標出各組段的起點,在各組段上方分別繪制寬度等于組距、高度等于相應頻數(shù)的長方形。用途與頻數(shù)表類似,但更直觀、形象。

12圖4.12005年某市120名9歲男孩肺活量頻數(shù)分布

131)頻數(shù)分布特征集中趨勢(centraltendency)一組數(shù)據(jù)向某一個位置聚集或集中的傾向。例如本例,肺活量有大有小,但中等居多,此為集中趨勢。離散程度(dispersion):一組數(shù)據(jù)的分散性或變異度。離“中心”位置越遠,頻數(shù)越小;即少數(shù)人具有較大或較小的肺活量,表現(xiàn)了肺活量分布的離散趨勢。14集中趨勢:高峰組段的位置離散趨勢:觀察值的分布范圍152)頻數(shù)分布的類型對稱分布:集中位置在正中,左右兩側(cè)大體對稱。偏態(tài)分布:集中位置偏向一側(cè),頻數(shù)分布不對稱。

正偏態(tài)分布*分布類型不同,采用的統(tǒng)計方法不同負偏態(tài)分布負偏態(tài)分布16頻數(shù)分布高峰(集中位置)位于中部、兩邊低、左右對稱。1.對稱分布:實例18是否為對稱分布?19圖4.22004年我國麻疹患者的年齡分布2.正偏態(tài)分布:集中位置偏向數(shù)值小的一側(cè),高峰偏于左側(cè),長尾向右延伸。20表4-2115名正常成年女子血清轉(zhuǎn)氨酶(mmol/L)含量分布

21圖4.3某市219名乳腺癌患者術(shù)后康復期生存質(zhì)量評分的分布

頻數(shù)評分集中位置偏向數(shù)值大的一側(cè),高峰偏于右側(cè),長尾向左延伸。3.負偏態(tài)分布:22表4-3101名正常人的血清肌紅蛋白含量分布23(三)頻數(shù)分布表和頻數(shù)分布圖的用途1.反映頻數(shù)分布的兩個重要特征;集中趨勢:變量值的中心數(shù)值或中心位置所在。離散趨勢:變量值圍繞中心數(shù)值或中心位置的分布情況。2.揭示資料的分布類型;

對稱分布:頻數(shù)分布高峰位于中部;偏態(tài)分布:高峰偏于一側(cè)。3.便于發(fā)現(xiàn)某些特大或特小的可疑值;4.便于進一步計算指標和統(tǒng)計分析處理。24

4.便于進一步做統(tǒng)計分析和處理25第二節(jié)、集中趨勢的描述

描述一組同質(zhì)觀察值的平均水平或中心位置的常用的指標有算術(shù)均數(shù)、幾何均數(shù)、中位數(shù)等。261、算術(shù)均數(shù),mean適用條件:單峰對稱分布,特別是正態(tài)或近似正態(tài)分布的定量資料。符號:表示樣本均數(shù),希臘字母表示總體均數(shù)。27計算方法:

(1)直接法(小樣本)28如:7名正常女子血清總膽固醇(mmol/L)分別為:4.21,3.32,5.35,4.17,4.14,3.58,4.34。試計算其平均數(shù)。例4.3:例4.2某市2005年120名9歲男孩的肺活量(L)的平均數(shù)29(2)頻數(shù)表法(加權(quán)法)

當觀察值個數(shù)較多時,可先把原始資料分組,列出頻數(shù)表,計算均數(shù)時將各組頻數(shù)乘以相應組的組中值,逐個相加求和,除以總例數(shù)。X1,X2,,Xk:頻數(shù)表資料中各組段的組中值;f1,f2,,fk:相應組段的頻數(shù)。30表4.2120名9歲男孩肺活量均數(shù)的計算肺活量組段(1)頻數(shù)f(2)組中值x

(3)

fx(4)=(2)(3)0.980~51.0455.2251.110~51.1755.8751.240~71.3109.1701.370~141.43520.091.500~191.56529.735............31

均數(shù)的應用范圍及條件:1.均數(shù)反映一組同質(zhì)觀察值的平均水平,并可作為樣本的代表值與其他樣本進行比較。2.均數(shù)適用于單峰對稱分布,尤其是正態(tài)分布資料,這時均數(shù)位于分布的中央,能反映觀察值的集中趨勢,即其平均水平。也可用于近似正態(tài)分布。32適用于數(shù)據(jù)經(jīng)過對數(shù)變換后呈正態(tài)分布的資料,也可用于觀察值之間呈倍數(shù)或近似倍數(shù)變化(等比關(guān)系)的資料。如醫(yī)學實驗中的抗體滴度;食品中農(nóng)藥含量;疾病的潛伏期等。計算方法有:直接法和頻數(shù)表法。2、幾何均數(shù),geometricmean,G33直接法由原始變量值直接計算幾何均數(shù)。設變量值為X1,X2…Xn,幾何均數(shù)G為:34例

有5份血清的滴度為1:4,1:8,1:16,1:32,1:64,求平均滴度?

該5份血清的平均滴度為1:16。

352.頻數(shù)表法(加權(quán)法)當資料中出現(xiàn)相同觀察值的個數(shù)較多時,或資料為頻數(shù)表資料,則用加權(quán)法計算幾何均數(shù)。變量及頻數(shù)如下:X1,X2,…Xk

f1

,

f2,…fk

則幾何平均數(shù)G為:

36應用注意事項:適用資料:①經(jīng)對數(shù)變換后呈正態(tài)或近似正態(tài)分布的資料;②用于等比資料;注意:根據(jù)對數(shù)的性質(zhì):零與負數(shù)沒有對數(shù)1)變量值不能有0;2)變量值不能同時有正值與負值。37一組觀察值從小到大排列,位次居中的觀察值即中位數(shù),是一個位置指標。符號:P50

或M3.中位數(shù)(median)

38中位數(shù)計算方法直接法:將觀察值由小到大排列,按下式計算。39例某病患者9名,其發(fā)病的潛伏期(天)為:3,4,4,5,6,7,7,9,>11,求中位數(shù)。本例n=9,為奇數(shù),按式(4.6)得:(天)若在該例基礎(chǔ)上再繼續(xù)觀察,在又發(fā)現(xiàn)1例患者>11天,則n=10,為偶數(shù),按式(4.7)得:=(X5+X6)/2=(6+7)/2=6.5(天)40(2)頻數(shù)表法

L為P50所在下限;i為該組的組距;fM

為該組頻數(shù);

為比該組段略小的組段的累計頻數(shù)。41

百分位數(shù)示意圖附:百分位數(shù)(percentile):P25P75位置參數(shù)42公式:

43P25=1.37+0.13x[(120x25%-17)/14]=1.49P75=1.76+0.13x[(120x75%-79)/15]=1.86P50=1.63+0.13x[(120x50%-50)/29]=1.6744①計算累計頻數(shù)和累計頻率(%);②確定M所在組段;③根據(jù)公式計算。計算步驟45評分頻數(shù)累計頻數(shù)累計頻率(%)頻率范圍

0~220.910~0.9130~241.830.92~1.8340~373.201.84~3.2050~11188.223.21~8.2260~304821.928.23~21.9270~6311150.6821.93~50.6880~6017178.0850.69~78.0890~10048219100.0078.09~100.0表4.4219名乳腺癌患者康復期生存質(zhì)量評分例4.8為研究乳癌患者術(shù)后康復期生存質(zhì)量,某醫(yī)院對219名術(shù)后康復期乳癌患者進行了生存質(zhì)量測定,結(jié)果如表4.4,求平均評分。M=70+10/63(219×50%-48

)=79.76(分)

46平均數(shù)應用的注意事項

同質(zhì)的資料計算平均數(shù)才有意義根據(jù)資料的分布類型選用適當?shù)钠骄鶖?shù)均數(shù):單峰對稱分布的資料,特別是正態(tài)分布幾何均數(shù):等比級數(shù)資料、對數(shù)正態(tài)分布資料中位數(shù):理論上可用于任何分布資料,但當資料適合計算均數(shù)或幾何均數(shù)時,不宜用中位數(shù)。(偏態(tài)分布、分布不明資料、有不確定值的資料)47第三節(jié)、離散程度的描述

集中趨勢是數(shù)據(jù)分布的一個重要特征,但單有集中趨勢指標還不能很好地描述數(shù)據(jù)的分布規(guī)律。而且還要看數(shù)據(jù)的變異散程度。48盤編號甲乙丙14404804902460490495350050050045405105055560520510合計250025002500均數(shù)500500500例:采甲、乙、丙三人的耳垂血,然后進行紅細胞計數(shù),每人數(shù)5個計數(shù)盤,得結(jié)果如下(萬/mm3)甲乙丙離散程度:反映一群變量值的變異程度或參差不齊的程度?!綦x散程度大,均數(shù)的代表性差,◆離散程度小,均數(shù)的代表性好。50常用的指標(1)極差(range)(2)四分位數(shù)間距(quartileinterval)(3)方差和標準差(varianceandstandarddeviation)(4)變異系數(shù)(coefficientofvariation)511、極差/全距,range

R=Xmax-Xmin優(yōu)點:簡單明了缺點:1)只考慮最大值與最小值之差異,不能反映組內(nèi)其它觀察值的變異度2)樣本含量越大,抽到較大或較小觀察值的可能性越大,則全距可能越大,因此樣本含量懸殊時不宜用全距。522、四分位數(shù)間距,inter-quartilerange

常用于描述偏態(tài)分布資料、兩端無確切值或分布不明確資料的離散程度。

1)百分位數(shù)(percentile):是指將觀察值從小到大排列后處于第x百分位置上的數(shù)值,亦是位置指標,用Px

表示。Px

表示將全部觀察值分為兩部分,有x%的觀察值比Px

小,有(100–x)

%的觀察值比Px

大。P50

即中位數(shù)。532)四分位數(shù)(quartile,Q):特定的百分位數(shù),把一組觀察值分為四等份。下四分位數(shù):QL=P25上四分位數(shù)為:QU=P75四分位數(shù)間距:QU-QL小大P0P25

P50

P75

P100QLQUM54表4.4219名乳腺癌患者康復期生存質(zhì)量評分P75=QU=80+10/60(219×75%-111)=88.88(分)Q=QU-QL=88.88-71.07=17.81P25=QL=70+10/63(219×25%-48)=71.07(分)例4.13評分頻數(shù)累計頻數(shù)累計頻率(%)頻率范圍

0~220.910~0.9130~241.830.92~1.8340~373.201.84~3.2050~11188.223.21~8.2260~304821.928.23~21.9270~6311150.6821.93~50.6880~6017178.0850.69~78.0890~10048219100.0078.09~100.00M=70+10/63(219×50%-48

)=79.76(分)

55四分位數(shù)間距越大,變量值的變異程度或離散程度越大;四分位數(shù)間距比極差穩(wěn)定,但仍未考慮每個觀察值的變異;四分位數(shù)間距常用于描述偏態(tài)分布資料、兩端無確切值或分布不明確資料的離散程度。四分位數(shù)間距的意義56例4.2在某市2005年進行的小學生體質(zhì)評價研究中,測定了120名9歲男孩的肺活量(L),資料如下,根據(jù)該資料制作頻數(shù)表。1.7061.3261.6321.8762.1611.6841.5331.1751.8671.6762.0911.8471.2131.2770.989

2.2351.6651.2891.7241.5481.6081.8901.7331.7961.2031.7361.4501.6331.5551.352…1.2911.7961.6471.4151.8730.9961.9361.5261.4241.5891.6701.0561.9691.4812.4062.1231.9881.5121.0301.8861.9301.7251.3741.6541.6631.4381.6451.2141.1841.735P25=1.37+0.13x[(120x25%-17)/14]=1.49P75=1.76+0.13x[(120x75%-79)/15]=1.86R=2.406-0.980=1.417(L)四分位數(shù)間距=0.37(L)R=2.406-0.980=1.417(L)四分位數(shù)間距=0.37(L)57

為了衡量每個變量值的變異,先選擇一個數(shù)值作為比較標準;誰合適呢?均數(shù)最有代表性。

甲乙丙583.方差和標準差為了全面考慮每個觀察值的變異情況,克服全距和四分位數(shù)間距的缺點,引入了“方差”59(1)方差,variance衡量每個觀察值相對均數(shù)的偏差,構(gòu)造出綜合描述資料離散程度的指標。方差說明觀察值的變異程度,方差越大,觀察值得變異程度較大,反之,觀察值得變異程度較小。60在實際工作中,總體均數(shù)μ往往是未知的,故只能用樣本均數(shù)作為總體均數(shù)μ的估計值,用樣本例數(shù)n代替N,這樣計算的結(jié)果通常比實際的σ2低。英國統(tǒng)計學家提出用n-1代替n來校正,這就是樣本方差s2

。式中的n-1稱為自由度(degreeoffreedom)是統(tǒng)計學中的一個常用術(shù)語,用υ表示。

61自由度例:有一個4個數(shù)據(jù)的樣本,在自由取值4、2、5三個數(shù)據(jù)后,第四個數(shù)據(jù)只能是962(2)標準差,standarddeviation因方差的度量單位是原度量單位的平方,故將方差開方,恢復成原度量單位,得總體標準差σ。標準差大,表示觀察值的變異度大;標準差小,表示觀察值的變異度小。63樣本標準差(s):64例4-11三組同齡男孩的身高值(cm)

甲組:

65標準差的意義說明資料的離散趨勢(或變異程度),標準差的值越大,說明變異程度越大,均數(shù)的代表性越差;...。標準差與原始數(shù)據(jù)的單位一致,在科技論文報告中,均數(shù)與標準差經(jīng)常被同時用來描述資料的集中趨勢與離散趨勢。66例4.17,某年某市城區(qū)120名5歲女孩身高均數(shù)為110.15(cm),標準差為5.86(cm);體重均數(shù)為17.71(kg),標準差為1.44(kg),比較其離散程度。身高體重

674.變異系數(shù)(coefficientofvariation,CV)(1)意義:標準差與均數(shù)之比,用百分數(shù)表示。變異系數(shù)是相對數(shù),沒有單位。(2)適用條件:

①觀察指標單位不同,如身高、體重;

②同單位資料,但均數(shù)相差懸殊。(3)公式:例4.17,某年某市城區(qū)120名5歲女孩身高均數(shù)為110.15(cm),標準差為5.86(cm);體重均數(shù)為17.71(kg),標準差為1.44(kg),比較其離散程度。身高體重該市

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論