復旦大學社會醫(yī)學與衛(wèi)生事業(yè)管理考研復習-醫(yī)學統(tǒng)計學_第1頁
復旦大學社會醫(yī)學與衛(wèi)生事業(yè)管理考研復習-醫(yī)學統(tǒng)計學_第2頁
復旦大學社會醫(yī)學與衛(wèi)生事業(yè)管理考研復習-醫(yī)學統(tǒng)計學_第3頁
復旦大學社會醫(yī)學與衛(wèi)生事業(yè)管理考研復習-醫(yī)學統(tǒng)計學_第4頁
復旦大學社會醫(yī)學與衛(wèi)生事業(yè)管理考研復習-醫(yī)學統(tǒng)計學_第5頁
已閱讀5頁,還剩74頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

復旦大學社會醫(yī)學與衛(wèi)生事業(yè)管理

考研復習-醫(yī)學統(tǒng)計學

第一章醫(yī)學統(tǒng)計學的基本內容

第一節(jié)醫(yī)學統(tǒng)計學的含義

1、醫(yī)學統(tǒng)計學定義

醫(yī)學統(tǒng)計學(statistics)作為一門學科的定義是:關于醫(yī)學數據收集、表達和分析的普遍

原理和方法。

2、醫(yī)學統(tǒng)計學研究方法:通過大量重復觀察,發(fā)現不確定的醫(yī)學現象背后隱藏的統(tǒng)計學規(guī)

律。

3、醫(yī)學統(tǒng)計推論的基礎:在一定條件下,不確定的醫(yī)學現象發(fā)生可能性,即概率。

第二節(jié)、統(tǒng)計學的幾個重要概念

資料的類型

1、計量資料(數值變量):對每一觀察對象用定量的方法,測定某項指標所得的資料。一

般有度量衡單位,每個對象之間有量的區(qū)別。

2、計數資料-(分類變量):對觀察對象按屬性或類型分組計數所得的資料。每個對象之間

沒有量的差異,只有質的不同。

3、等級資料(有序分類變量):對觀察對象按屬性或類型分組計數,但各屬性或類型之間

又有程度的差別。

注意:不同類型的資料采用的統(tǒng)計分析方法不同;三類資料類型可以相互轉化。

二、總體

根據研究目的所確定的同質的所有觀察對象某項變量值的集合

1、有限總體:只包括在確定時間、空間范圍內的有限個觀察對象。

2、無限總體:沒有時間、空間范圍的限制,觀察對象的數量是不確定的,無限的

三、樣本

從總體中隨機抽取部分觀察對象,其某項變量值的集合。

從總體中隨機抽取樣本的目的是:用樣本信息來推斷總體特征。

四、隨機事件

可以發(fā)生也可以不發(fā)生,可以這樣發(fā)生也可以那樣發(fā)生的事件。亦稱偶然事件。

五、概率

描述隨機事件發(fā)生可能性大小的數值,記作P,其取值范圍0WPW1,一般用小數表示。P

=0,事件不可能發(fā)生必然事件(隨機事件的特例);P=1,事件必然發(fā)生;P-0,事件

發(fā)生的可能性愈?。籔-1,事件發(fā)生的可能性愈大

六、小概率事件

習慣上將PW0.05或PW0.01的隨機事件稱小概率事件。表示某事件發(fā)生的可能性很小。

七、參數和統(tǒng)計量

參數:總體指標,如總體均數、總體率,一般用希臘字母表示

統(tǒng)計量:樣木指標,如樣本均數、樣本率,一般用拉丁字母表示

八、學習醫(yī)學統(tǒng)計學的方法

1、重點掌握“四基”:基本知識、基本概念、基本原理和基本方法;

2、重視統(tǒng)計方法在實際中應用,重視實習和綜合訓練;注意學習每種統(tǒng)計方法的應用范圍、

應用條件,大多數公式只要求了解其意義和使用方法,不用記憶和探究數理推導。

第三節(jié)統(tǒng)計工作的基本步驟

統(tǒng)計設計收集資料整理資料分析資料

一、統(tǒng)計設計

1、調查設計

2、實驗設計

(詳見第十三章)

二、收集資料

資料來源

(1)統(tǒng)計報表

(2)日常醫(yī)療工作原始記錄和報告卡

(3)專題調查

三、整理資料

1.目的將收集的原始資料系統(tǒng)化、條理化,便于進一步計算和分析

2.整理分組方式

(1)性質分組

(2)數量分組

四、分析資料

1、統(tǒng)計描述

2、統(tǒng)計推斷

第四節(jié)統(tǒng)計圖表

一、統(tǒng)計表

1、統(tǒng)計表的作用

代替冗長的文字敘述,便于計算、分析和對比。

2、統(tǒng)計表的結構

1)標題

2)標目橫標目(主語):說明表各橫行數字的涵義,通常列在表的左側

縱標目(謂語):說明表各縱欄數字的涵義

主語和謂語連貫起來能讀成一句完整而通順的話

3、統(tǒng)計表的種類:

1)簡單表:只按單一變量分組

2)組合表:按兩個或兩個以上變量分組

某地1980年男、女HBsAg陽性率

性別調查數陽性數陽性率(給

男42343037.16

女45301814.00

合計87644845.52

4、列表原則:重點突出,筒單明了;主謂分明,層次分明

5、統(tǒng)計表的基本要求:

1)標題:概括地說明表的內容,必要時注明資料的時間和地點,寫在表上方。常見的缺點:

過于簡略,甚至不寫標題;或過于繁瑣;或標題不確切。

2)標目:文字簡明扼要,有單位的標目要注明單位。常見的缺點:標目過多,層次不清

3)線條:不宜過多,除上面的頂線,下面的底線,縱標目與合計之間的橫線外,其余線條

一般均省去。表的左上角不宜有斜線。

4)數字:

A、數字一律用阿拉伯數字表示

B、同指標的小數位數應一致,位次對齊

C、表內不宜留空格,暫缺或未記錄,用“…”表示,無數字,用“一”表示,數字為0,

填寫0

D、絕對數太小而無法計算指標,則用“…”代替。

5)備注:一般不列入表內,必要時可用“*”號標出,寫在表的下面。

二、統(tǒng)計圖

1、統(tǒng)計圖作用:

通過點、線、面等形式表達統(tǒng)計資料,直觀地反映事物之間的數量關系。但需注意,由于統(tǒng)

計圖對數量的表達較粗糙,不便于作深入細致的分析,一般需附相應的統(tǒng)計表。

2、常見統(tǒng)計圖種類:

條圖、百分條圖,圓圖,線圖,半對數線圖,直方圖,散點圖

3、制圖的基本要求:

1)按資料的性質和分析目的,選用適合的圖形

2)要有標題,扼要說明資料的內容,必要時注明時間、地點,一般寫在圖的下面。

3)橫軸尺度從左到右,縱軸尺度從下而匕數量一律由小到大。橫軸與縱軸坐標長度比例

一般為5:7

4)比較不同事物,用不同線條或顏色表示,并附上圖例說明。

4、常見統(tǒng)計圖適用范圍及其繪制要點

1)條圖:

(1)適用范圍:相互獨立的資料?,常用形式:單式和復式

(2)繪制要點:

A.用等寬的直條的長短反映各指標的數量大小。

B.縱軸的尺度必須從0開始。

C.各直條之間的間隙應相等,一般將比較的指標按大小順序排列。

2)百分條圖:

(1)適用范圍:構成比資料

(2)繪制要點:

A.將長條全長為100%,

B.將各百分構成比在長條上分割若干段,

C.各段按大小順序排列。

3)圓圖

(1)適用范圍:構成比資料

(2)繪制要點:

A.將圓面積為100%

B.將各百分構成比乘以3.6度,變?yōu)閳A心角度數,

C.在圓上繪出各扇型面積

D.各扇型面積按大小順序排列。

4)普通線圖

(1)適用范圍:連續(xù)性資料

(2)繪制要點:

A.縱橫軸均用算術尺度,

B.縱橫軸尺度比一般為5:7

C.相鄰兩點用直線連接。

(3)意義:反映事物的變化趨勢。

5)半對數線圖

(1)適用范圍:連續(xù)性資料

(2)繪制要點:

A.橫軸用算術尺度,縱軸用對數尺度,

B.縱橫軸尺度比一般為5:7

C.相鄰兩點用直線連接。

(3)意義:反映事物的變化速度。

6)直方圖

(1)適用范圍:計量的頻數表資料

(2)繪制要點:

A.橫軸表示被觀察事物,縱軸表示頻數或頻率,

B.用等寬的矩形面積表示各組段的頻數或頻率

7)散點圖:

(1)適用范圍:雙變量資料

(2)分析目的:用點的密度程度和趨勢表示兩變量間的相關關系

(3)繪制要點(見第五章)

第二章數值變量(計量)資料的統(tǒng)計分析

第一節(jié)計量資料的統(tǒng)計描述

一、計量資料的頻數分布

(一)頻數表的編制

1、求極差(全距)

口=最大值一最小值

=132.5-108.2=24.3

2、求組距(i)

i=極差/組數=24.3/10=2.4絲2

3、分組段

原則:第一組段包括最小值,最后組段包括最大值。

每一組段都有上限和下限

上限:組段的終點(最大值)

下限:組段的起點(最小值)

124-128-132-136-140-144-148-152-156-160-

身高(cm)

圖9-1某農村地區(qū)1999年14歲

女孩身高的分布

4、列表劃記

(-)頻數分布的特征

1、集中趨勢:數據向某一數值集中的傾向

2、離散趨勢:數據的數值大小不等的傾向

(三)頻數分布的類型

1、對稱分布:集中位置在中間,左右兩側頻數大體對稱

2、偏態(tài)分布:

(1)正偏態(tài):集中位置偏向數值小的一側;

(2)負偏態(tài):集中位置偏向數值大的一側

(四)頻數表的用途:

1、揭示資料的分布特征和分布類型

2、便于進一步計算指標和統(tǒng)計分析

3、便于發(fā)現特大或特小的可疑值

二、集中趨勢的描述

(-)常用平均數的種類:

1、算術均數(簡稱均數)

2、幾何均數

3、中位數

(-)算術均數(均數)

樣本均數用X表示,總體均數用U表示

1、適用范圍:對稱分布,尤其是正態(tài)分布的資料

2、計算方法:

(1)直接法X=EX/n一

(2)加權法適用于頻數表資料

X=EfX/Lf—

其中X=組中值=(上限+下限)/2

f=頻數

(三)幾何均數(簡記為G)

1、適用范圍:

(1)等比級數資料,如血清滴度資料

(2)對數正態(tài)分布資料

2、計算方法:

(1)直接法

G=log-1(ZlogX/n)

(2)加權法

G=log-1(EflogX/Ef)

(四)中位數(簡記M)

1、中位數的定義:

中位數:將一組觀察值從小到大按順序排列,位次居中的觀察值就是中位數。在全部觀察值

中,大于和小于中位數的觀察值的個數相等。

2、中位數的適用范圍:

(1)偏態(tài)分布資料

(2)分布不明資料

(3)分布末端無確定值資料(開口資料)

理論上,中位數可用于任何分布的計量資料,但實際應用中常用于偏態(tài)分布,特別是開口

資料.在對稱分布資料中,M=X

3、計算方法I

(1)直接法:適用于觀察數少資料

n為奇數時,M=X(n+l)/2

n為偶數時,M=(Xn/2+X(n/2+l))/2

(2)頻數表法:適用于頻數表資料

步驟:①從小到大計算累計頻數和累計頻數;

②確定中位數所在組段;

③計算中位數M

M=L*+i"/fM(n/2-Efi)

5=1^所在組段的下限

i,=M所在組段的組距

f,=M所在組段的頻數

Ef\=小于L各組段的累計頻數

M在8-組段

L=8

i=4

fX=48

LfL=26

n=108

M=L+i/fX(n/2-EfL)=10.33

(五)小結:常用平均數的意義及其應用場合

平均數lx應用場合

均數平均數量水平最適用于對稱分布,特別是

正態(tài)分布

幾何均數平均增(減)倍數等比資料或對數正態(tài)分布

中位數位次居中的觀察值(1)偏態(tài)分布,(2)分布不明,

(3)分布末端無確定水平

三離散趨勢的描述

甲組26,28,30,32,34.X甲=30一

乙組24,27,30,33,36.X乙=30—

丙組26,29,30,31,34.X丙=30—

(一)反映離散程度的常用指標:

1、極差

2、四分位數間距

3、方差

4、標準差

5、變異系數

(~)極差(全距)R

1、計算公式:1^=最大值一最小值

2、意義:R愈大,離散度愈大,R愈小,離散度愈小。

3、優(yōu)點:計算簡單-,意義明了

4、缺點:(1)不能反映每一個觀察值的變異;

(2)樣本例數越大,R可能越大;

(3)R抽樣誤差大,不穩(wěn)定。

(三)四分位數間距(簡記Q)

1.百分位數(記作PX)

(1)定義:將一組觀察值從小到大按順序排列,一個百分位數將全部觀察值分為兩部分,

理論上有x%的觀察值比它小,有(100-x)%的觀察值比它大。P50分位數也就是中位數。

(2)計算步驟與公式

①從小到大計算累計頻數和累計頻數;

②確定百分位數所在組段;

③計算百分位數巳

Px=L+i/f*(n.x%—Zfi)

L=P,所在組段的下限

i=P,所在組段的組距

fx=P,所在組段的頻數

££=小于L各組段的累計頻數

如計算P25

P25在8-組段

L25=8,i25=4,f25=48,EfL=108,n=108

P25=L25+i25/f25(n.25%-EfL)=8.083

計算P75

P75在12-組段

L75=12,i25=25,f75=4,£fL=74,n=108

P75=L75+i75/f75(n.75%—ZfL)=13.120

2.四分位數間距

(1)計算公式:P25:下四分位數簡記Ql

P75:上四分位數簡記@

四分位數間距Q=Q(-QL

=13.120-8.083

=5.037

(2)意義:中間一半觀察值的極差,與R意義相似。

(3)特點:

A.比R穩(wěn)定,但仍未考慮每一個觀察值的變異;

B.常用于描述偏態(tài)資料的離散度。

(四)方差(總體方差簡記。:樣本方差簡記S2)

一組觀察值的離均差平方和,取其均數,即方差。

1、計算公式:

2(%—〃)

2(%-君

n-1

2、意義:方差越大,離散度越大;

方差越小,離散度越小。

(五)標準差(總體標準差簡記。,樣本標準差簡記S)

1、定義:方差的開方,即標準差。

n-\

2、意義:與方差的意義相同

3、樣本標準差計算方法:

(1)直接法:

(I:a/〃

n-l

(2)加權法:

s=ZA2-(EA)2/E/

-VZ/-1

4.應用:

(1)用于表示正態(tài)或近似正態(tài)分布資料的離散度;

(2)結合均數描述正態(tài)分布的特征;

(3)計算標準誤。

(4)計算變異系數

(六)變異系數(簡記CV)

1、計算公式:CV=S/XX100%-

2、用途:

(1)比較度量衡單位不同的多組資料的變異度

(2)比較均數相差懸殊的多組資料的變異度

例1

身高:X=166.06cm,S=4.95cm

體重:X^53.72kg,S=4.96kg

身高CV=4.95cm/166.06cmX100%=2.98%

體重CV=4.96kg/53.72kgX100%=9.23%

例2

表2.6某地不同年齡男子身高(cm)的變異程度

年齡組人數均數標準差變異系數(%)

3-3.5歲30096.13.13.2

30-35歲400170.25.00.3

3、CV特點:沒有單位,是相對數,便于資料間的比較。

第二節(jié)正態(tài)分布和參考值范圍的估計

一、正態(tài)分布

(-)正態(tài)分布圖形

兩頭低,中間高,左右對稱,呈鐘型的單峰曲線。

作u變換后:

u=(X—u)/0

正態(tài)分布變成U=0,。=1的標準正態(tài)分布。

(二)正態(tài)分布特征

1、曲線在橫軸上方均數處最高;u

2、以均數為中心,左右對稱;

3、正態(tài)分布有兩個參數:

(1)P:位置參數,確定曲線位置

當。一定時,U越大,曲線越向右移動;U越小,曲線越向左移動。

(2)。:離散度參數,決定曲線的形態(tài):

當U一定時,。越大,表示數據越分散,曲線越“胖”;。越小,表示數據越集中,曲線越

“瘦”。

4、正態(tài)分布曲線下的面積有一定的分布規(guī)律。

二、正態(tài)分布曲線下的面積分布規(guī)律。

以曲線下總面積為100隊則有:

1、u±1。的區(qū)間占總面積的68.27%,即口±1。的區(qū)間內包含的觀察值個數占觀察值總

個數的68.27%。

2、U±1.96。的區(qū)間占總面積的95%,即U±1.96。的區(qū)間內包含的觀察值個數占觀察值

總個數的95%o

3、口±2.58。的區(qū)間占總面積的99%,即口±2.58。的區(qū)間內包含的觀察值個數占觀察值

總個數的99%。

正態(tài)分布的應用

1.估計頻數分布情況

2.估計參考值范圍

三、參考值范圍的估計

1.參考值范圍意義:

參考值范圍(亦稱為正常值范圍)是指正常人的解剖、生理、生化等各種指標的波動范圍。

它主要用于劃分正常與異常的界限。

2.正常值范圍制定的一般原則

(1)抽取足夠數量的正常人作為調查對象

A.“正常人”一不是指任何一點小病都沒有的人,而是指排除影響被研究指標的疾病和因

素的人。

如制定SGPT(谷丙轉氨酶)正常值范圍,正常人的條件是:

a.無肝、腎、心、腦、肌肉等疾患;

b.近期無服用損肝的藥物(如氯丙嗪,異煙腫)

c.測定前未作劇烈運動。

B.正常值范圍制定所需的樣本例數,一般要求n>100

(2)確定是否分組制定參考值范圍

(3)確定取單側還是雙側正常值范圍。

A.白細胞數過高和過低均屬于異常,則需同時制定正常值范圍的下限(最小值)和上限(最

大值),稱雙側正常值范圍。

B.肺活量只過低為異常,只需制定正常值范圍的下限;尿鉛只過高為異常,只需制定正常

值范圍的上限;均稱單側正常值范圍。

(4)選定適當的百分界限。

正常值范圍的意思:絕大多數正常人的某項觀察值均在該范圍之內。這個絕大多,習慣上指

正常人的80%、90%、95%、99%(最常用是95%)。那么,在正常值范圍之外的正常人

有:

單側:20%、10%、5%、1%

雙側每側:10%、5%、2.5%0.5%

根據所選定的百分界限,會造成假陽性或/和假陰性。

如SGPT,正常值單側95%上限為146單位(King法)

按該范圍,5%的正常人。146)被錯判為異常,稱假陽性;

而肝功能異常者中,也可能有〈146者,按該范圍錯判為正常,稱假陰性。

顯然,上限值提高,假陽性減少,假陰性增多;

上限值降低,假陽性增多,假陰性減少:

(5)選擇適當制定方法。

3、正常值范圍常用制定方法

(1)正態(tài)分布法.

A.適用范圍:(近似)正態(tài)分布或對數正態(tài)分布資料

B.計算公式:

雙側95%X±1.96S—

99%X±2.58S—

單側上限95%X+1.645S—

99%X+2.326S—

下限95%X-1.645S—

99%X-2.326S—

例114歲女孩身高95%參考值范圍是:

X±1.96S=143.0&i1.96X6.58

=(130.18-155.98)

(2)百分位數法

A.適用范圍:

1、偏態(tài)分布資料

2、開口資料

B.計算公式:

雙側95%P2.5-P97.5

99%Po.5~PM.5

單側上限95%P95

99%

下限95%P5

99%P,

第三節(jié)計量資料的統(tǒng)計推斷

一、均數的抽樣誤差與標準誤

-、均數的抽樣誤差概念

由于總體中存在個體變異,所以由抽樣得到的樣本均數與總體均數之間存在差異,這種差異

稱均數的抽樣誤差。在抽樣研究中,抽樣誤差是不可避免的,但可以估計其大小。

二、中心極限定理

1、在正態(tài)總體中,隨機抽取例數為n的樣本,樣本均數X服從正態(tài)分布;一

2、在偏態(tài)總體中隨機抽樣,當n足夠大時(n>50),X也近似正態(tài)分布:一

3、從均數為U,標準差為。的正態(tài)或偏態(tài)總體中,抽取例數為n的樣本,樣本均數X的總

體均數仍為U,標準差為。X

三、標準誤意義及其計算方法

1、意義:說明均數抽樣誤差大小的指標,用。,表示。

?!霸酱?,均數抽樣誤差越大;反之,。、越小,均數抽樣誤差越小。

2、計算公式:

CT

°F........(理論值)

,品..........(估計值)

S元與S成正比,與初成反比,可以通過增加n減小'三。

3.均數的標準誤的用途:

(1)說明均數抽樣誤差大小,反映均數的可靠性。ox越大,用樣本均數推論總體均數越

可靠,反之亦然

(2)估計總體均數的可信區(qū)間

(3)用于進行假設檢驗

二、t分布

(一)t分布含義:

由于X呈正態(tài)分布N(〃、則可以將一般正態(tài)變量X變換成標準正態(tài)變量〃:

(X-ju)

u=--------

將一般的正態(tài)分布變換為標準正態(tài)分布N(o、1)。

在實際應用中,°土往往未知,用§刀代替,則只能對X做t變換而不是〃變換:

z=(X-g)&_四)

每個X可以算出一個t值,t值的分布稱t分布。

(二)t分布特征:

1、以o為中心,左右對稱的單峰分布;

2、t分布的形態(tài)與自由度v有關:

v越小,t分布曲線峰部越低平而尾部翹得越高;(t分布與u分布相差較大,即相同的曲

線下面積,土值\)值)

v逐漸增大,t分布逼近標準正態(tài)分布;

V=8,t分布=標準正態(tài)分布。(同樣的曲線下面積,t值=U值)

自由度不同,t分布曲線形態(tài)就不相同,因此t分布是一簇曲線,則就是說,自由度不同,

相同的t值所對應的面積不同,或說,出現該t值的概率不同。

(三)t值表

對應于每一自由度取值,就有一條t分布曲線,每條曲線都有自身曲線下t值的分布規(guī)律,

相同曲線下面積所對應的t值不同,計算t值較為繁雜。為此,統(tǒng)計學家已制成t值表,通

過查表即獲得相應的t值。查表須注意:

1、橫標目(左邊第一列)為自由度(V),縱標目為概率(P或。),也就是t界值以外單

側或雙側尾部的面積占總面積的百分比,表中的數字就是對應于丫和a的t界值,用ta,

v表示;

2、t值有正負值,由于t分布是以0為中心的對稱分布,故表中只列正值,查表時,不管t

值正負只用絕對值;

3,當v一定時,t值越大,P越?。?/p>

4、當P一定時,v越大,t值越小;v=8時,t=u;

5、當v和t值一定時,雙側P=2倍單側P。

即雙側ta,v=單側ta/2,vo

例v=10時:

單側0,05,10=1812

即P(tWT.812)=0.05或P(t21.812)=0.05

雙側,0.05,10=2.228

即P(tW-2.228)+P(t22.228)=0.05

三、總體均數的估計

(-)估計方法:

1、點值估計:用樣本均數直接作為總體均數的估計值

2、區(qū)間估計

(-)總體均數的區(qū)間估計

1、定義:按一定的概率(1-a)確定包含未知總體均數的可能范圍。所確定的范圍稱為總

體均數的可信區(qū)間(或置信區(qū)間,CI);1-a稱可信度,最常用雙側95%。

2、估計方法:

(1)當。未知,而且樣本例數n較小(n<50)時,按t分布原理估計:

X士ta,v.SX

(2)當。已知,或。未知但樣本例數足夠大(n>50)時,按標準正態(tài)分布原理估計:

A.o已知:

(Y—ua.b/赤,又+一1耳)皿為u界值,

X±ua.b/6

B.。未知但n足夠大(n>50):

(京-ua.S/丘,9+ua.S/8

X±ua.s/3

按標準正態(tài)分布原理估計總體均數可信區(qū)間時,熟記下列常用區(qū)間:

95%總體均數可信區(qū)間:X±1.96排&

或X±\.向五

99%總體均數可信區(qū)間:X±2.58CT/^

或X+2.58^/Vw

例9.10n=20,X=118.4mmHg,s=10.8mmHg,估計其95%可信區(qū)間。

SS

(X-ta,v,X,X+ta,v.X)

10.8

S

to.05,19=2.093x=V20=2.41

(118.4-2.093X2.41,118.7+2.093X2.41)

(113.3,123.5)mmHg

例n=200,X=3.64mmol/L,s=l.20mmol/L,估計其95%可信區(qū)間。

X±ua's/G

-96義120/廊;3.64.1.96x1-20/7200,

(3.47,3.81)mmol/L

3、可信區(qū)間內涵義

以95%總體均數可信區(qū)間為例:

有95%的可能所計算出的區(qū)間包含了總體均數,即估計正確的概率為95%,錯誤5%。

4、可信區(qū)間兩個要素:

(1)準確度:反映在可信度(?a)的大小。1-a越接近1,越準確。

如可信度99%比95%準確。

(2)精確度:反映在區(qū)間范圍寬窄。范圍越摘越好。

95%可信區(qū)間精度優(yōu)于99%。

在n確定的情況下,準確度t,精確度Io

在兼顧準確度和精確度時,一般取95%可信區(qū)間。

在可信度確定的情況下,增加樣本例數,可提高精確度。

5、可信區(qū)間與正常值范圍區(qū)別:

(1)意義不同:正常值范圍是指絕大多數觀察值在某個范圍;可信區(qū)間是指按一定的可信

度估計總體參數(均數)可能所在的范圍;

(2)計算公式不同

X±ua

可信區(qū)間s*(大樣本)

正常值范圍X土ua.S

前者用標準誤,后者用標準差。

(3)用途不同:可信區(qū)間用于估計總體均數,參考值范圍用于判斷觀察對象某項指標正常

與否。

四、假設檢驗的基本思想和步驟

(一)提出問題:

例:根據大量調查的資料?,已知健康成年男子的脈搏均數為72次/分。某醫(yī)生在山區(qū)隨機抽

取了25名健康成年男子,得其脈搏均數為74.2次/分,標準差為6.5次/分。問能否認為該

山區(qū)成年男子的脈搏數高于一般人?

本研究目的是判斷是否4>40(72次/分)。由于存在抽樣誤差,來自某一總體的隨機樣本

其樣本均數(X)與總體均數(口)往往不等;從同一總體中抽取的兩個隨機樣本的樣本均

數也往往不同。因此,在比較一個樣本均數與一個總體均數的差別,或比較兩個樣本均數的

差別時,需要判斷這種差別的性質和意義,造成這種差別有兩種可能:

(1)總體均數不等(來自不同總體),有本質差別;

(2)總體均數相等(來自相同的總體),其差別山抽樣誤差所致,無本質差別。

要判斷屬于那種可能,需要通過假設檢驗來回答。

(~)假設檢驗原理(基本思想)

要檢驗兩指標的差別是由抽樣誤差引起的,還是由于總體均數不同所致,運用反證法。首先

建立檢驗假設,假設樣本來自同一總體,在此假設的基礎上計算有關的統(tǒng)計量,根據統(tǒng)計量

的大小來判斷假設成立的概率的大小。?般把概率PW0.05的事件稱為小概率事件,小概率

事件在一次觀察中可以認為是不會發(fā)生的,如與這原則不符,則認為原先的假設是不正確的,

就是說“假設”不能成立,則拒絕這個“假設”。否則不拒絕原來的“假設”。這就是

假設檢驗的基本思想。

(三)假設檢驗的一般步驟

A.建立假設

兩種假設

(1)檢驗假設(無效假設)用H0表示:即假設兩總體均數相等,差別僅僅由于抽樣誤差所

致;

(2)備擇假設用H1表示:是與H0對立的假設,當H0被拒絕,則接受H1。

2、確定單雙側檢驗(常用雙側檢驗)

根據研究目的和專業(yè)知識還要確定是雙側檢驗還是單側檢驗。若目的是推斷兩總體是否不等

(如是否,不管是H>U0還是UVU0,都是我們所關心的,則用雙側檢驗,此

時H0:口=口0,H1:uWuO;若從專業(yè)知識已知不會u<u0(或不會u>u0),目的

是推斷是否u>u0(或u<n0),則用單側檢驗,此時HO:u=uO,Hl:u>ii0(或

u<u0)o

注意:單側檢驗更容易得到有統(tǒng)計學意義的結果,因此,做單側檢驗要通過專業(yè)知識來確定,

否則,一律做雙側檢驗,雙側檢驗更穩(wěn)妥。

3.確定檢驗水準

檢驗水準用a表示,。是拒絕或不拒絕HO的概率標準,也就是小概率事件標準,是人為

選定的概率值,一般取a=0.05(根據需要也可取0.2、0.15、0.1、0.01等)。

B、選定檢驗方法和計算統(tǒng)計量

根據研究設計方案、資料類型、樣本含量大小及分析目的選用適當的檢驗方法,并根據樣本

資料計算相應的檢驗統(tǒng)計量。不同的檢驗方法要用不同的公式計算現有樣本的檢驗統(tǒng)計量

(t,u,F值)。檢驗統(tǒng)計量是在H0成立的前提下計算出來。

C、確定P值

P值是指在H0所規(guī)定的總體中作隨機抽樣,獲得等于及大于(或等于及小于)現有樣本統(tǒng)

計量的概率。P也可以通俗地說,P是指H0成立的概率大小。用計算所得的檢驗統(tǒng)計量(t、

u值)與相應的界值比較,確定P值。

D、作出推斷結論

假設檢驗的結論:

(1)統(tǒng)計學結論(拒絕或接受H0,即有無統(tǒng)計學意義);

(2)專業(yè)結論。

2、推斷結論方法

(1)當PW。時,結論是:拒絕U0,接受Hl(差別有顯著意義或有統(tǒng)計學意義);

(2)當P>a時,結論是:不拒絕H0。(差別無顯著意義,或無統(tǒng)計學意義);

作出上述推斷的理山

(1)如果P〈a,則按a水準拒絕H0,接受Hl?因為抽取一個樣本,僅代表一次試驗,

現PWa,為小概率事件,小概率事件在一次試驗中竟然發(fā)生,與概率理論的一個基本原則:

小概率事件在一次試驗中不會發(fā)生產生矛盾,因此拒絕HOo

(2)如果P>a,則按a水準不拒絕H0,因為概率較大,沒有理由拒絕H0,認為其成

立。所以,研究者只是在概率上從H0與H1兩者中選擇一個較為合理的判斷。

由此可見,假設檢驗所作出的結論是具有概率性質的,不是絕對的肯定或否定。不論拒絕或

不拒絕H0都可能發(fā)生錯誤。

拒絕實際上是成立的H0,這類“棄真”的錯誤稱I型錯誤或第一類錯誤。

不拒絕(接受)實際上是不成立的H0,這類“存?zhèn)巍钡腻e誤稱H型錯誤或第二類錯誤。

即拒絕HO,犯I型錯誤;接受Hl,犯n型錯誤。

兩類錯誤的關系

第一類錯誤的概率為a,第二類錯誤的概率為6

a越大,B越小,a越小,6越大。

第四節(jié)t檢驗和u檢驗

一、t檢驗和u檢驗用途

1、樣本均數與總體均數的比較;

2、配對計量資料的比較;

3、兩樣本均數的比較;

二、t檢驗和u檢驗應用條件

1、t檢驗應用條件:

(1)樣本來自正態(tài)總體;

(2)兩小樣本均數比較,還要求樣本的總體方差相等。

2、u檢驗應用條件:

樣本例數n較大(n>100),或n雖小而總體標準差己知(少見)。

三、單樣本t檢驗(樣本均數與總體均數比較t檢驗)

1、目的:檢驗樣本均數X所代表的未知總體均數〃是否等于以已知的總體均數〃0。

已知的總體均數40指:

(1)理論值;

(2)標準值;

(3)經大量調查得到的穩(wěn)定值。

2、檢驗公式

*一〃0

t=v=n-l

四、配對t檢驗

1、配對設計含義:將受試對象按一定條件配成對子,再隨機分配每對的兩個受試對象到

不同的處理組。

2、配對設計形式

①同對的兩個受試對象分別給予兩種處理;

②同一受試對象分別給予兩種處理(如同一個樣品用

兩種方法檢測,或同一受試對象不同部位某指標的值)

③同一受試對象處理前后比較

d

3、檢驗公式:v=n-l

五、兩樣本均數比較

(-)兩大樣本均數的u檢驗

1、適用條件

兩個樣本含量均足夠大(nl>50和n2>50)

2、檢驗公式:

(二)兩小樣本均數的比較一t檢驗

1、應用條件

(1)樣本來自正態(tài)總體;

(2)兩樣本所來自的總體方差相等。

2、檢驗公式

元]-x2

2%;-0>1)2/〃1+1>;-2琢)7〃2(J_+J_)

%%—2n}n2

%1-x2

(乙二1)S1、(乙二l)s;(1+1)

+%-2nn

或}2

六、假設檢驗應注意的問題

(一)要有嚴密的抽樣研究設計,考慮到被比較的樣本的可比性,這是假設檢驗的前提。

(二)選用的假設檢驗方法應符合其應用條件。

(三)當所比較的差異無實際意義時,不必進行假設檢驗。

(四)正確理解差別有無顯著性的統(tǒng)計意義。

(五)結論不能絕對化。

是否拒絕H0,取決于:

1、被研究的事物有無本質的差異

2、抽樣誤差大?。?/p>

(1)個體差異大小

(2)樣本例數多少

3、檢驗水準a的高低

(六)報告結論時最好寫出較確切的P值,并且單側檢驗需作注明(習慣上采用雙側檢驗

不需作注明)

第五節(jié)方差分析(F檢驗)(analysisofvarianceANOVA)

一、方差分析的用途及應用條件

(―)用途

1、檢驗兩個或多個樣本均數間的差異有無統(tǒng)計學意義;

2、回歸方程的線性假設檢驗;

3、檢驗兩個或多個因素間有無交互作用。

(二)應用條件

1、各個樣本是相互獨立的隨機樣本;

2、各個樣本來自正態(tài)總體;

3、各個處理組(樣本)的總體方差方差相等,即方差齊。

二、方差分析的基本思想

(―)方差分析中變異的分解

此資料的變異,可以分出三種:

1、總變異:表現為所有數據大小不等,用總的離均差平方和表示,記為SS總。

k%_

SS總=EZ(X于一x)2

l=l=l

J(i代表第i個組,j代表第j個觀察值)

SS總的大小還與總例數N有關,確切講是與總的自由度V總有關,“總=2上

X

2、組間變異:組間變異表現為各組均數1大小不等,

描述其大小指標

V-

(1)用各組均數i與總均數X的離均差平方和表示,記為SS組間

SS組間的大小與處理因素的作用、隨機誤差(測量誤差和個體差異)和組間自由度有關。

SS組間=左0(*'一")/組間=左一1;

(2)用S$組間除于組間自由度表示,稱組間均方

ss組間

MS組間=

V組間

組間均方反映處理因素和隨機誤差的作用。

3、組內變異:組內變異表現為各組內部各個觀察值大小不等。

描述其大小指標:

(1)用各組內部每個觀察值%與組均數x的離均差平方和表示,記為ss組內。ss組內的

大小與隨機誤差(測量誤差和個體差異)和組內自山度有關。

SS組內咯I產T)W;

(2)用SS組內除于組內自由度表示,稱組內均方

SS組內

MS組內一二;一

〃組內

組內均方只反映觀察值的隨機誤差(個體差異及隨機測量誤差)。

v總=v組內+v組間

三種變異的關系:$$總=$$組內+SS組間,

(二)方差分析思想

1、如果兩個或多個樣本來自同一個總體,或者處理因素的效應一樣(沒有差異),則組間

和組內的變異相等,即:

MS組間=MS組內

或兩者相差不大,它們的比值用F表示:

p二MS組間

MS組內

則F=l,或F與1相差不大。

2、若兩個樣本或多個樣本來自不同總體,或者處理因素的效應不一樣,則組間變異大于組

內變異,即:

MS組問)MS組內

則F值明顯大于1。要大到多大程度才有統(tǒng)計學意義?按“組間和"組內查F界值表,

由F值確定P值,按P值大小作出推斷。

方差分析基本思想:在方差分析時,根據資料的設計類型不同,將總的離均差平方和及自由

度分解為兩個或多個部分,除隨機誤差外,其余部分的變異反映處理因素的作用,通過比較

不同來源的均方,借助F分布原理作出統(tǒng)計推斷,從而了解處理因素對觀測指標有無影響。

三、單因素方差分析

(-)計算方法

單因素方差分析的計算公式

變異來源SSuMSF

n;

——

SS組間MS組間

k-i”組間MS組內

ss組內

組內(誤差)ss總-ss組間N-k”組內

k。*

心中、i=lj=lN-l

k〃i,

(ZE*/

C_i=lj=l______

*一N

四、分析步驟

1、建立假設和確定檢驗水準;

H0:"\="?=43="4

H1:41H42H,M?或不全相等

a=0.05

2、計算檢驗統(tǒng)計量F值

表9-15例9-16方差分析結果

變異來源SSUMSFP

組間2.027630.675910.24<0.01

組內0.791812

總2.819415

3、確定P值和推斷結論

以組間自由度”組間為看,以組內自由度叱組內為“2,查附表3,F界值表:

005312=3.49,由于F>,0.05312,故PV0.05;按。=°?°5,拒絕曲接受H1,可

以認為四組均數不等或不全相等。

注意:以上僅是總的結論,尚需對四個樣本均數進行兩兩比較(見后)。

五、多個樣本均數的兩兩比較-q檢驗

多個樣本均數比較經F檢驗后,若得出有統(tǒng)計學意義的結論后,要進一步推斷哪些組之間有

差別,哪些組之間沒有差別,還是所有各組之間都有差別,要解決這些問題,就要進一步做

均數間的兩兩比較了。

多個樣本均數間的兩兩比較又稱多重比較,由于涉及的對比組數大于2,就不能應用前面介

紹的t檢驗,只能使用下面介紹的方法。若仍用前述前述的t檢驗方法,對每兩個對比組

作比較,會使犯第一類錯誤(拒絕了實際上成立的H0所犯的錯誤)的概率a增大,即可能把

本來無差別的兩個總體均數判為有差別。

(-)檢驗統(tǒng)計量q的計算公式為:

誤差、

MS俁麥(1+1)

2nAnB

Yv

式中AA'八8為兩個對比組的樣本均數。誤差為方差分析中算得的組內均方),

“A和”5分別為兩對比組的樣本例數。

(二)q檢驗的方法步驟

對例9T6資料作兩兩比較。

1、建立假設

H0:任兩對比組的總體均數相等,即〃4

H1:任兩對比組的總體均數不等,

a=0.05

2、選擇檢驗方法,計算統(tǒng)計量q

將四個樣本均數從大到小順序排列,并編上組次:

組次1234

均數3.32003.09752.68502.4025

組別DCBA

列出兩兩比較計算表,見表9-17

表9T7四個樣本均數兩兩比較的q檢驗

對比組兩均數之差標準誤q值組數q界值P

X

A與BA-XBa0.050.01

(1)(2)(3)(4)=(2)/(3)(5)(6)(7)

(8)

1與40.91750.12857.14044.205.50<0.01

1與30.63500.12854.94233.775.05<0.05

1與20.22250.12851.73223.084.32>0.05

2與40.69500.12855.40933.775.05<0.01

2與30.41250.12853.21023.084.32<0.05

3與40.28250.12852.19823.084.32>0.05

3、確定P值,判斷結果

第三章分類資料的統(tǒng)計分析

第一節(jié)分類資料的描述

一、相對數的意義和定義

對于分類資料常采用相對數進行描述。

收集到的分類資料,表現為絕對數,絕對數說明事物發(fā)生的實際水平,是進行統(tǒng)計分析的基

礎,但不便于事物進行深入地分析比較。

相對數:是兩個有聯系指標之比,說明事物發(fā)生的相對水平,便于對分類資料進行分析和比

較。

二、常用的相對數

1、比(Ratio)亦稱相對比,是A、B兩個有關指標之比,說明A是B的多少倍或百分之幾。

比(Ratio)=A/B(或X100Q

A與B的性質可以相同,也可以不同,可以是絕對數也可以是相對數或平均數。

2、構成比(Proportion)又稱構成指標,說明-事物內部各個組成部分所占的比重或分布,

常以百分數表示,又稱百分比。

地產比_某一組成部分的觀察單位數上

構成匕一同,事物各組成部分的觀察單位總數0

構成比兩個特點:

(1)?組構成比之和等于100%或1;

(2)某部分構成增加或減少,則其它部分構成就相應減少或增加。

3、率(Rate)又稱頻率指標,是指在?定時間內發(fā)生某現象的觀察單位數與可能發(fā)生該現

象的總觀察單位數之比,常以百分率(%)、千分率(%。)、萬分率(1/萬)、十萬分率(1/10

萬)等表示,它說明某現象發(fā)生的頻率或強度。

玄發(fā)生某現象的觀察單位數。

可能發(fā)生該現象的觀察單位總數

K為比例基數,可以是百分率(%)、千分率(%。)、萬分率(1/萬)或十萬分率(1/10萬),

可根據習慣或使計算出的率保持一、二位整數。

人口出生率、死亡率、自然增長率、嬰兒死亡率等采用千分率,某病死亡率采用十萬分率。

三、應用相對數時注意的問題

1、計算相對數的分母不宜過小

分母過小則計算所得的相對數不穩(wěn)定,不可靠。如少于30例時,以絕對數表示較好。

2、分析時不能以比代率

3、對觀察單位數不等的幾個率,不能直接相加求平均率;

4、資料的對比應注意可比性;

5、率或構成比的比較要遵循隨機抽樣的原則,要做假設檢驗。

四、率的標準化法

(-)概念

率的標準化:是指在比較兩個或多個總率時,采用一個共同的內部構成標準,將兩個或多個

樣本不同的內部構成調整為相同的內部構成,以消除因內部構成不同對總率產生的影響,使

算得的標準化率具有可比性。

采用標準化方法計算得到的率簡稱標化率,又調整率。

基本思想:采用統(tǒng)一的標準內部構成(年齡、性別),在相同的內部構成條件下,計算預期

的發(fā)生率(死亡率);

目的:消除因內部構成不同對總率產生的影響,使標化率具有可比性。

(二)標準化率計算步驟

1、選擇計算方法:直接法和間接法。

(1)若已知被標化組各小組的率,即Pi,采用直接法;

(2)若已知被標化組各小組的人數,即以及總率,采用間接法。

2、選定標準

標準選擇原則:

選擇有代表性的、較穩(wěn)定的、數量較大的人群,如全世界的、全國的、全省的、本地區(qū)的人

群數;

選擇相互比較的人群合并做標準;

3、選擇相互比較的人群某一組做標準。

3、計算預期數及預期率,即標化率。

(1)直接法:按公式10.4或10.5計算;

(2)間接法:按公式10.6。

(三)應用標準化率注意事項

1、應用直接法計算標準化率時.,由于所選定的標準人口不同,算得的標準化率也不同,因

此,比較幾個標準化率時,應采用同一標準人口;

2、當各年齡組的率出現明顯交叉時,宜直接比較各年齡組的發(fā)生率,而不宜用標準化法;

3、兩樣本標準化率的比較應作假設檢驗:

第二節(jié)分類資料統(tǒng)計推斷

一、率的抽樣誤差與標準誤

1、率的抽樣誤差含義

在抽煙研究中,樣本率與總體率之間存在的差異稱為率的抽樣誤差。

2、描述率的抽樣誤差大小的指標-率的標準誤

計算公式

二、總體率的估計

1、估計方法

(1)點估計

(2)區(qū)間估計

2、區(qū)間估計方法

(1)正態(tài)近似法

A.適用條件:np>5且n(1-p)>5

B.常用兩個區(qū)間的估計公式

總體率的95%的可信區(qū)間:p±1.96Sp

總體率的99%的可信區(qū)同:p±2.58Sp

(2)查表法

A.適用條件:nW50,特別p接近于?;?

B.查表方法:以樣本含量n和陽性數x查統(tǒng)計學專著的附表

三、總體率的u檢驗

(一)樣本率與總體率的比較

1、適用條件:np>5且n(1-p)>5

2、檢驗公式

\p-7l\\p-7l)

3、檢驗步驟

(1)建立假設HO:n=nO

Hl:n¥“0

a=0.05

(2)計算u值n=0.H,n=598,p=0.14

(3)確定P值

因u=2.34>1.96,故P<0.05

(4)推斷

:P<0.05,.?.按a=0.05的水準,拒絕HO,接受Hl。故可認為油田職工家屬高血壓患病

率高于一般人。

(-)兩個樣本率的比較

1、適用條件

(1)nipi>5且m(1-p))>5

(2)n2P2>5且M(l-p2)>5

2、檢驗公式

”—IP「2I

"一_IF1

JRU-RX1+1)

\%n2

x.+x,

!

pc=―-

'nx+n,

第三節(jié)嚴檢驗

一、X2檢驗用途

1、兩個及以上率(或構成比)之間差異比較;

2、推斷兩變量間有無相關關系:

3、檢驗頻數分布的擬合優(yōu)度。

二、X,檢驗類型

1、四格表X,檢驗;

2、行X列表X?檢驗;

3、配對四格表X?檢驗。

三、X-檢驗基本思想及檢驗步驟

假設兩總體率相等

H。:兩總體陽性率相等,即貝=53.59%;

H,:兩總體陽性率不等,即3#“2;

a=0.05o

如果Ho成立,則表10.7的第一行第一列理論上的生存數為:

86X97/181=86X53.59%=46.09

此結果稱為理論數,用T表示。上述計算可由下式計算

Tre=n

nr=同行合計數,nC=同列合計數,n=總例數

按此公式,可以計算四個理論數

T“=86X97/181=46.09

「2=86X84/181=39.91

T21=95X97/181=50.91

T22=95X84/181=44.09

表10.7內,

5234

4550

只有這

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論