版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第一單元概述.定義統(tǒng)計學(Statistics):是研究數據的收集、整理、分析的一門科學。衛(wèi)生統(tǒng)計學(healthstatistics):是研究居民健康狀況以及干生服務領域中數據的設計、的隼、壑理與分析推斷的一門學科。.統(tǒng)計工作的步驟(1)統(tǒng)計設計根據研究的目的,從統(tǒng)計學的角度對各步提前做出的周密的計劃和安排。主要分為:實驗設計和調杳設計。(2)收集資料根據研究目的、實驗設計的要求,收集準確的、完整的、充滿信息的原始資料。收集資料的方式:直接觀察、采訪、填表、通信、實驗室等形式。統(tǒng)計資料主要來自:衛(wèi)生統(tǒng)計報表;經常性工作記錄;專題調查或實驗研究。(3)整理資料就是將收集來的資料有目的,有計劃地進行科學加工,有些資料有問題要去掉或重新審核,有些資料要歸成組,以便分析。(4)分析資料就是將經過統(tǒng)計整理的結果,作一系列統(tǒng)計描述和統(tǒng)計推斷,闡明事物的規(guī)律性。.資料的類型數值變量與分類變量。變量的具體表現(xiàn)形式:數值變量:計量資料(定量資料)對每個觀察單位用定量方法測定某項指標的數值大小所得的資料。特點:有計量單位,如患者的身高(cm)、體重(kg)、血壓(mmHg)、脈搏(次/分)、紅細胞計數(1012L)。分類變量(定性資料或分類資料):其觀察值是定性的,表現(xiàn)為互不相容的類別或屬性。分為兩種情況:(1)計數資料按性質或類別進行分組,然后再清點各組數目所得的資料。包括:二項分類和多項分類。特點:無固有計量單位,如膚色(黑、白)、性別(男、女)、血型A、B、AB、0)、職業(yè)(工、農、兵)。(2)等級資料將觀察單位按某項指標的等級順序分組,再清點各組觀察單位的個數所得的資料。特點:半定性或半定量的觀察結果。有序多分類(ordinalcategorydata)。①癌癥分期:早、中、晚。②藥物療效:治愈、好轉、無效、死亡。③尿蛋白:-,土,+,++,+++及以上。
表1 某病患者部分體■征及化驗結果病例性別年齡肝腫大白細胞總中性粒細胞尿蛋日住院天治療□情而^xw7l所占比例(%)數氏)結果(1)⑵⑶⑷⑸⑹⑺⑻1男18+8.780+25治愈2男21+4.97838治愈3男23+9.488±42無效4男2010.382+29無效5支20+10.786+++51無效6支22+14.486+++51死亡7男1920.586++28死亡8男21+5.980+30好轉9男21+5.980+30好轉三類資料間關系例:測量了140人20?40歲成年人的血壓。例;測量了140人20?40歲成年人的血壓等級資料<?低血壓8-等級資料<?低血壓8-正常血壓12?輕度高血壓15?中度高血壓17?重度高血壓計量資料計數資料以12kPa為界分為正常與異常兩組,統(tǒng)計每組例數.幾組基本概念(1)總體與樣本總體:根據研究的目的所劃定范圍內的同質的個體構成的全體,所有同質觀察單位某種觀察值(即變量值)的集合。樣本:總體中隨機抽取的一部分觀察單位的觀測值的集合。樣本要具有:代表性、隨機性和可靠性。(2)誤差泛指觀測值與真實值之差,以及樣本指標與總體指標之差。系統(tǒng)誤差:由于某種原因,可使觀測結果造成傾向性的偏大或偏小。隨機測量誤差:沒有固定的傾向,可使觀測結果有大有小。抽樣誤差:由于抽樣造成的樣本指標與總體指標之間的差別。(3)參數和統(tǒng)計量參數:總體的數值特征稱為參數,用希臘字母表示。統(tǒng)計量:根據樣本算得的某些數值特征稱為統(tǒng)計量,用英文字母表示。(4)概率與頻率表2某試臉者拋擲硬幣的試璇概率是度量隨機事件A發(fā)生可能性大小的一個數量,記為P(A)。頻率若在n次同樣的隨機試驗,事件A發(fā)生了k次,則比值k/n稱為頻率??梢宰C明:若當試驗次數n充分大以后,頻率k/n穩(wěn)定地在某一確定值P的附近擺動。TOC\o"1-5"\h\z可用事件A的頻率作為所求概率的近似值: 0.30P(A)7f(A)=k/n。 7 0.35頻率與概率的關系: 26 0.52拋擲硬幣的試驗,試驗結果如表2。 0.52歷史上許多名家做過拋擲硬幣的試驗,拋擲硬幣試驗結果如表3。表34大拋擲硬幣試驗結果試驗者拋擲次數(n)出現(xiàn)止面次數也)頻率(k/n)DeMorgan204810610.518Buffon4,04020480.5069Pearson12,00060190.5016Pearson24,000120120.5005第二單元定量資料的統(tǒng)計描述、頻數分布表與直方圖1.頻數分布表例1、現(xiàn)有145例糞鏈球菌食物中毒病人,其潛伏期分布如表4所示。表4婁鏈球菌食物中毒潛伏期潛伏期(小時)頻數(f)累計頻數1818日?456312?40103比?3013324?613930?013936-414342?2145
表5某地144名正常成年男子紅細胞數頻數表組段頻數£4.2?24.4?44.6?74.B?165.0?205.2?255.4?245.6-225.8-166.0?26.2?56.4?日.612.直方圖3.頻數分布類型(1)對稱分布:指集中位置在中間,左右兩側的頻數基本對稱。(2)偏態(tài)分布:又稱不對稱型分布,指頻數分布不對稱,集中位置偏向一側。若集中位置偏向數值較小的一側,稱為正偏態(tài):若集中位置偏向數值較大的一側,稱為負偏態(tài)。二、集中位置的描述(平均數average)1.定義
反映計量資料的集中趨勢(位置)或反映計量資料的數量水平的指標。2.常用平均數的計算(1)算術均數應用條件:描述單峰對稱分布資料,特別是正態(tài)分布或近似正態(tài)分布資料的集中位置。計算:直接法:即將所有觀察值X1,X,……Xn直接相加,再除以觀察值的個數n,計算公式為:加權法:受/團+加權法:受/團+4凡+…+九x=當二口£Z+--+A例1、9例氯丙烯中毒的患者腓總神經的傳導速度(米/秒)記錄如下:55.941.244.150.741.945.250.742.843.7(2)幾何均數應用條件:原始觀察值呈偏態(tài)分布,但經過對數變換后呈正態(tài)分布或近似正態(tài)分布的資料,如血清抗體滴度等。計算:G=#J=1g-1(2絲,直接法: 犬加權法:加權法:例2、5個人的血清滴度為:1:21:41:81:161:32求:平均滴度G
G=^2x4x8xl6x32=8或lgG=lg2+lg4+lg8+lgl6+lg32=omG=lg-10.903=8故平均滴度為1:8。(3)中位數應用條件:適用于各種分布的資料,實際工作中常用來描述不對稱分布的資料、兩端無確切值或分布不明確的資料的集中位置。意義:中位數是將一組觀察值按大小順序排列后位次居中的數值。計算:直接計算法:例:1.00.9例:1.00.90.91.00.91.04.52.22.22.22.24.53.43.46.9例:1.00.9例:1.00.90.91.00.91.04.52.22.22.22.24.53.43.46.96.96.94.5中位數為2.24.56.9中位數為(2.2+3.4)/2=2.8計算公式為:當n為奇數時.M=X (n+1)/2當n為偶數時,MutX.4Xv式中:X式中:X(n+1)/2、%/2、匯/2+1為有序數列中相應位次上的觀察值。中位數的頻數表計算法:河=4+:5石0%-二⑴其中:J為中位數所在組段下限;i為中位數所在組段的組距;以為中位數所在組段的頻數;二五為中位數所在組段前所有組段的累計頻數。例3、現(xiàn)有145例糞鏈球菌食物中毒病人,其潛伏期分布如表6所示。表6糞建球菌食物中毒潛伏期潛伏期(小時)頻數(f)累計頻數1818g?456312?4010318-3013324?613930?0139的?414342?2145中位:145X50%=72.5中位數:M=12+6(145X50%—63)/40=13.4中位數的推廣:百分位數。其中:Lx為Px所在組段下限;i為該組段的組距;fx為該組段的頻數;-尤為所在組段前所有組段的累計頻數。例4、測得某地200名正常人發(fā)汞值(〃g/g),其資料見表7,試計算以、P75表7某地28名正常人發(fā)汞值g/g)組段(5(1)頻數f⑵頻率(%)(3)累計頻數⑷累計頻率(%)(5)0.3?2010.02010.00.T?5025.07035.01.1?4623.011658.01.5?3015.014673.0L9?2512.517185.52.3?168.018793.52.T?63.019396.53.1?42.019798.53.5?21.019999.53.9—4.310.5200100.0合計200100.0%=0.7+—(200x25%-20)=0.9心且/g)^5=1.9+—(200x75%-146)=1.96C/^g/g)25習題:.衛(wèi)生統(tǒng)計工作步驟可分為:A.統(tǒng)計研究調查、設計、收集資料、分析資料B.統(tǒng)計研究調查、統(tǒng)計描述、統(tǒng)計推斷C.統(tǒng)計研究設計、收集資料、整理資料、分析資料D.統(tǒng)計研究收集、整理資料、統(tǒng)計描述、統(tǒng)計推斷E.統(tǒng)計研究設計、統(tǒng)計描述、統(tǒng)計推斷、統(tǒng)計圖表『正確答案』C.為了搞好統(tǒng)計工作,達到預期目標,最重要的是:A.原始資料要多B.原始資料要真實可靠C.整理資料要詳細D.分析資料要先進E.統(tǒng)計計算精度要高『正確答案』.統(tǒng)計資料的類型包括:A.頻數分布資料和等級分類資料B.多項分類資料和二項分類資料C.正態(tài)分布資料和頻數分布資料D.數值變量資料和等級資料E.數值變量資料和分類變量資料『正確答案』E.抽樣誤差是指:A.樣本指標與總體指標之間由于抽樣產生的差別B.由于抽樣產生的各觀察值之間的差別C.通過統(tǒng)一的標準可以減少D.參數與統(tǒng)計量之間由于過失而產生的差別E.以上均不對『正確答案』A.計量資料,計數資料和等級資料三者的關系是:A.計數資料兼有計量資料和等級資料的一些性質B.等級資料又稱為半計數資料C.計量資料有計數資料和等級資料的一些性質D.等級資料兼有計數資料和計量資料的一些性質E.以上均不對『正確答案』.用兩種不同成份的培養(yǎng)基(分別為701批與702批)分別培養(yǎng)鼠疫桿菌,重復試驗單元數為5個,將48小時內各試驗單元上生長的活菌數記錄如下:701批:4884 90 123171702批:90116 124 22584那么該資料的類型為:A.計數資料B.計量資料C.等級資料D.名義性資料E.以上均不是『正確答案』.某醫(yī)院用某種新療法治療某病患者41人,治療結果如下:治療結果:治愈顯效好轉惡化死亡治療人數:8 23 6 3 1該資料的類型為:A.計數資料.計量資料C.等級資料D.名義資料E.以上均不是『正確答案』C三、變異程度(離散程度的描述)現(xiàn)有甲、乙、丙三組數據甲組60708090100乙組7075808590丙組607580851001、極差(Range)K^最大值^最小值R武100—60=40R乙=90—70=20R丙=100—60=402、方差:描述對稱分布,特別是正態(tài)分布或近似正態(tài)分布資料變異程度的指標??傮w方差用b2表示,樣本方差用S2表示。3、標準差(StandardofDeviation)直接法一一計算公式:加權法計算公式:4、,四分位數間距:反映了一組觀察值按從小到大的順序排列后,中間一半觀察值的波動范圍。QU—QL=P75-P25適用于非正態(tài)分布?。“俜治粩担褐笇⒂^察值從小到大排列后,處于第x百分位上的數值,用符號Px表示。5、變異系數(CoefficientofVariance)變異系數也稱離散系數,用CV表示。其計算公式為:cy=£xioo%四、正態(tài)分布及其應用1、正態(tài)分布的概念和特性圖2.2頻數分布逐漸接近正態(tài)分布示意圖如果將觀察人數逐漸增多,組距也不斷縮小,圖中直條將逐漸變窄,整個圖形將逐漸接近于一條光滑的曲線,即接近于近似正態(tài)分布曲線。正態(tài)分布的密度函數:/W=-k/32bM:總體均數,o總體標準差。正態(tài)分布的特性(1)正態(tài)分布曲線略呈鐘形;(2)正態(tài)分布以均數p為中心,左右對稱;(3)正態(tài)分布有兩個參數,即均數p和標準差o。(4)正態(tài)分布曲線下的面積分布有一定的規(guī)律。
正態(tài)分布曲線下的面積分布規(guī)律:標準正態(tài)分布:均數為0,標準差為1的正態(tài)分布,稱為標準正態(tài)分布,即X?N(0,1)。任何正態(tài)分布X?N(p,o2)經過Z變換,均服從標準正態(tài)分布。Z變換又稱為標準化變換,其公式如下:對于任意X?N(p,o2),當p,o取值不同時,正態(tài)曲線下任意兩點(XjX2)范圍內的曲線下面積會不限但其標準正態(tài)分布曲線下(Z「ZJ范圍內的曲線下面積則是相等的,,其中叮 仃。因此,可以編制標準正態(tài)曲線下面積分布表,即標準正態(tài)分布表,對于正態(tài)分布X?N(p,o2),均可借助此表估計正態(tài)分布曲線下任意兩點(X,X)范圍內的面積。1 2
2.正態(tài)分布的應用估計醫(yī)學正常值范圍:醫(yī)學參考值范圍是指絕大多數正常人的人體形態(tài)、功能和代謝產物等各種生理及生化指標的波動范圍。這里的“絕大多數”可以是90%、95%或99%,最常用的是95%。(1)近似正態(tài)法對于正態(tài)分布嗖似正態(tài)分布的資料,只要樣本含量足夠大(N〉100)時,可用:作為雙側95%的正常值范圍。單側時界值為1.645。g/irnlCC"工4/古代國里'工3能,X+2.5SS)a雙側99%正常值范圍:140名成年男子的紅細胞數,其和分別為:均數4.78(X1012/L)標準差0.37(X1012/L)因此,其95%正常值范圍可定為:(4.78—1.96X0.37,4.78+1.96X0.37)X1012/L即(4.06,5.51)X1012/L。(2)百分位數法應用條件:偏態(tài)分布資料。95計算公式:雙側界值:P單側上界:P單側下界:P95例題:1.各觀察值均加(或減)同一數后A.均數不變,標準差改變B.均數改變,標準差不變C.兩者均不變D.兩者均改變E.根據資料不同,二者變化不同『正確答案』B2.要全面描述正態(tài)分布或近似正態(tài)分布資料的分布特征,可采用:A.均數與標準差B.中位數與四分位間距C.全距與中位數D.均數與變異系數E.采用頻數表『正確答案』A3.要全面描述一般偏態(tài)分布資料的分布特征,可采用:A.均數與標準差B.中位數與四分位間距C.全距與中位數D.均數與變異系數E.采用頻數表『正確答案』B第三單元總體均數的估計和假設檢驗第一節(jié)均數的抽樣誤差與標準誤
1.均數的抽樣誤差例如:在北京市估計10歲男孩1.均數的抽樣誤差例如:在北京市估計10歲男孩樣本均數與總體均數之間的差異或樣本均數之間的差異都是由于抽樣引起的,稱為均數的抽樣誤差。影響均數的抽樣誤差大小的因素有兩個:總體內各個個體間的變異程度;樣本的含量n的大小。與樣本量的關系:S一定,nt,標準誤I。2.標準誤描寫抽樣誤差大小的統(tǒng)計量稱為標準誤。對計量資料其計算公式為:例1、1量140名正常人的空腹血糖,得弄=鴕.55唾%£=12.97^g%,試計算標準誤。用,處,叫…,后服從正態(tài)分布J自由度p=劉-1例1、1量140名正常人的空腹血糖,得弄=鴕.55唾%£=12.97^g%,試計算標準誤。用,處,叫…,后服從正態(tài)分布J自由度p=劉-1口2.圖形特征t分布以0為中心,左右對稱;形狀與自由度有關,自由度越小,曲線的峰部越低,尾部越高;隨自由度增大逼近標準正態(tài)分布,當自由度為8時,t分布就是標準正態(tài)分布。3.曲線下面積特點與t臨界值表t值表(附表1)橫坐標:自由度,u。縱坐標:概率p,即曲線下陰影部分的面積;表中的數字:相應的|t|界值。『點第三節(jié)總體均數的估計r參教估計一統(tǒng)計推斷 I區(qū)間估計〔假設檢驗參數估計:用樣本指標值(統(tǒng)計量)估計總體指標值(參數)。統(tǒng)計推斷的任務就是用樣本信息推論總體特征。參數估計,用樣本均數估計總體均數。1、點(值)估計(近似值)2、區(qū)間估計(近似范圍)▲概念:根據樣本均數,按一定的可信度計算出總體均數很可能在的一個數值范圍,這個范圍稱為總體均數的可信區(qū)間(confidenceinterval,CI)。區(qū)間估計:.當n足夠大時,總體均數的區(qū)間估計:總體均數的95%的置信區(qū)間:(X-l,96S^,X+1,968^)總體均數的99%的置信區(qū)間:(X-2,5^,X+2,538^)140名正常人的空腹血糖的95%與99%的區(qū)間估計為:(88.55—1.96X1.096,88.55+1.96X1.096)即: (86.40,90.70)(88.55—2.58X1.096,88.55+2.58X1.096)即: (85.72,91.38).當n較小且總體方差未知時,總體均數的區(qū)間估計(■工-b2HS友,友+ ,S友)
例2、測得25名1歲嬰兒血紅蛋白均數為123.7g/L,標準差為11.9g/L。計算1歲嬰兒血紅蛋白均數的95%可信區(qū)間。v=25—1=24,比=口.口3查表得j口口3/224=2口日4(123.7-2.064x11.9/725,12 工口Mx11.9/衣)t界值去規(guī)律:(1)自由度(U)一定時,p與t成反比;(2)概率(p)一定時,u與t成反比。正常值范圍估計與可信區(qū)間估計可信區(qū)間(置信區(qū)間)正常值范圍概念:總體均數所在的數值范圍概念:絕大多數正常人的某指標范圍。(95%,99%,指95%,99%指可信度)絕大多數正常人)計算公式:計算公式:1、正態(tài)分布資料的95%參考值范圍:正態(tài)分布法:2、o2、o未知,但n較大:雙側:■了一1.9版勃1.95S.X土兀無只有下限:XT64S只有上限:X+1.64S2、非正態(tài)分布資料的95%參考值范圍:百分位數法雙側:P2.5?P97.5只有下限:〉P5只有上限:<P95用途:判斷觀察對象的某項指標是否正常用途:估計總體均數例題:.減少均數的抽樣誤差的可行方法之一是:A.嚴格執(zhí)行隨機抽樣B.增大樣本含量C.設立對照D.選一些處于中間狀態(tài)的個體E.選一些處于極端狀態(tài)的個體『正確答案』.在標準差與標準誤的關系中,說法正確的是:A.樣本例數增大時,樣本差減小,標準差不變B.可信區(qū)間大小與標準差有關,而參考值范圍與標準誤有關C.樣本例數增大時,標準差增大,標準誤也增大D.樣本的例數增大時,標準差與標準誤均減小E.總體標準差一定時,增大樣本例數會減小標準誤『正確答案』E.統(tǒng)計推斷包括兩個重要方面是:A.統(tǒng)計量與參數.統(tǒng)計量與假設檢驗C.參數估計與假設檢驗D.參數估計與統(tǒng)計預測E.區(qū)間估計與假設檢驗『正確答案』C第四節(jié)假設檢驗1.假設檢驗的基本原理及思想▼科本1?...同一常年.工總抽村注注引起P-OX'5界串土就廿字定文兌體即桿本I工舁小砥不同引星改⑴婚(本亞不同) /' 有統(tǒng)Y1手忠義總體人——打本之不AUH融格展若束解畀2.假設檢驗的步驟一一以t檢驗為例(1)建立假設,確定檢驗水準檢驗假設或者稱零假設(無效假設),用H0表示,H/假設是假設兩總體均數相等。對立假設(備擇假設),用斗表示。斗是與H0相反的假設,假設兩總體均數不相等。檢驗水準(a)就是我們用來區(qū)分大概率事件和小概率事件的標準(即預先規(guī)定的小概率事件的水準),是人為規(guī)定的。通常a取0.05或0.01。(2)計算統(tǒng)計量根據資料類型與分析目的選擇適當的公式計算出統(tǒng)計量t值。(3)確定概率值,作出推斷將計算得到的t值與查表tau或t“2口比較,得到P值的大小。或采用統(tǒng)計軟件計算,可得到精確其P值。當a=0.05:如果P〉0.05,不拒絕H。,差別無統(tǒng)計學意義,結論是不認為兩總體均數不相等。如果P<0.05,拒絕H0,接受斗,差別有統(tǒng)計意義,結論:可以認為是兩總體均數不相等。第五節(jié)t檢驗一、單個樣本的t檢驗(樣本均數與總體均數比較的t檢驗)(onesamplettest)1區(qū)一聞區(qū)一㈤自由度u=n—1例1、根據大量調查,已知健康成年男子脈搏的均數為72次/分鐘。某醫(yī)生在某山區(qū)隨機調查了25名健康成年男子,求得其脈搏均數74.2次/分鐘,標準差為6.5次/分鐘,能否據此認為該山區(qū)成年男子的脈搏數高于一般地區(qū)。H0:p=p0,即該山區(qū)健康成年男子脈搏數與一般地區(qū)相同。H1:p>p。,即該山區(qū)健康成年男子脈搏數高于一般地區(qū)。a=0.05。年=74.2,『n,―6.5,h=25當H成立時,統(tǒng)計量:03.自由度u=n—1=25—1=24。查t界值表(附表1)單側得:0.05<P<0.10,不能拒絕H0,差異無統(tǒng)計學意義。尚不能認為該山區(qū)健康成年男子脈搏數高于一般地區(qū)。二、配對資料比較的t檢驗(pairedsamplettest)1、配對資料(三種情況)①配對的兩個受試對象分別接受兩種處理之后的數據:②同一樣品用兩種方法(或儀器等)檢驗的結果;⑶同一受試對象兩個部位的數據。2、目的:判斷不同的處理間是否有差別?即:差值的總體均數為03、公式:J刊_且_工辦辦1u—n—1例2、某地區(qū)隨機抽取12名貧血兒童的家庭,實行健康教育干預三個月,干預前后兒童的血色素(%)測量結果如表所示,試問干預前后該地區(qū)貧血兒童血色素(%)平均水平有無變化?表1健康教育干預三個月前后血色素(%)編號干預刖干預后136452466435366457575657066055742708454592550105580115160125960表2健康教育干預三個月前后血色素(%)序號干預削干預后差值1364592466418353661345757056570566055-5742702884545092550251055802511516091259601使用配對t檢驗解:1.建立檢驗假設,確定檢驗水準H。:p「0,即干預前后血色素(%)差值的總體均數為零Hjpd#0a=0.05.計算t值^=10.67Sd=11,18t= 1067-°=3.305Sd11.18/^v=總一1=12-1=11.確定P值,作出推斷查t臨界值得:0.005<P<0.01,按a=0.05水準拒絕H°,差異有統(tǒng)計學意義??梢哉J為健康教育干預措施前后該地區(qū)兒童血色素(%)有變化,且血色素(%)有所增加。三、兩獨立樣本均數比較的t檢驗(成組t檢驗)(twoindependentsamplettest)▲目的:由兩個樣本均數的差別推斷兩樣本所取自的總體中的總體均數間有無差別?▲公式:閡-?其中:
u=n+nu=n+n—21 2例3、某克山病高發(fā)區(qū)測得11例急性克山病患者與該地13名健康人的血磷值(mg%)如表所示,定兩組均數差異有否統(tǒng)計學意義。表3患者與健康者的血磷測定值(mg%)患者編號X: 健康者編號 X;14.7312.3426.4022.5032.6031.9843.2441.6756.5351.9865.1863.6075.5872.3383.7383.7394.3294.57105.78104.82113.73115.78124.17134.14解:1.H0:p]=p2,即克山病患者與當地健康者的血磷值的總體均數相同。H1:p1半p2,即克山病患者與當地健康者的血磷值的總體均數不相同。a=0.052.計算t為=4.71應=1.3031X2=335,52=1,30423.自由度u=n+n—2=11+13—2=221 2查附表1可得:0.01<P<0.02,按a=0.05水準拒絕H0,差異有統(tǒng)計學意義??梢哉J為克山病患者血磷的平均值高于當地健康人的血磷平均值。四、t檢驗的應用條件1、正態(tài)性2、方差齊性.正態(tài)性檢驗(normalitytest):統(tǒng)計指標:偏度系數、峰度系數;檢驗方法:W值、D值(大樣本)等;統(tǒng)計圖:P—P圖、Q—Q圖、直方圖等。對于非正態(tài)分布的資料,若可以通過變量變換的方法,使之滿足正態(tài)分布的要求,則對變換的數據采用相應的t檢驗即可。.方差齊性檢驗:兩獨立樣本均數比較的t檢驗,要求相應的兩總體方差相等,即方差具有齊性。為此我們要對兩樣本的方差作統(tǒng)計學檢驗。方差齊性的檢驗:用F檢驗,計算公式為:?_41校大)一K第六節(jié)I型錯誤與n型錯誤假設檢驗中作出的推斷結論可能發(fā)生兩種錯誤:.拒絕了實際成立的Ho.稱為第一類錯誤,它的概率用a表示。設H。:廠0,若p確實為。,則H。實際上是成立的。但是,由于抽樣的偶然性,得到了較大的t值,因而t〉tj而按所取的檢驗水準a,拒絕H。,結論為pW0(假陽性),此推斷當然是錯誤的,其錯誤的概率為a。.不拒絕實際上不成立的H。,稱為第二類錯誤,它的概率用R表示。設H。:p=0,但實質上pW0,即H。實際上是不成立的。但是,由于抽樣的偶然性,得到了較小的t值,t<tj因而按檢驗水準a,接受了Ho(假陰性),未拒絕p=0的錯誤假設,即接受了不成立的假設H0,此推斷當然是錯誤的。I型錯誤和H型錯誤由樣本推斷的結果真實結果拒絕H:不拒絕H:H二成立I型錯誤0推斷正確(1一口)H二不成立推斷正確([一B)II型錯誤B(1-P)即把握度或功效(powerofatest):兩總體確有差別,被檢出有差別的能力;(1—a)即可信度(confidencelevel):重復抽樣時,樣本區(qū)間包含總體參數的百分數。a與F間的關系:減少(增加)I型錯誤,將會增加(減少)II型錯誤,通常n固定時,a愈小,F(xiàn)愈大;反之,a愈大.F愈小。增大n-同時降低a與F。第七節(jié)假設檢驗的注意事項.所觀察的樣本必須具備代表性,隨機性和可靠性;如果是兩個樣本比較,一定要注意兩個樣本間的齊同均衡性,即可比性。.必須根據實驗設計的不同,選擇不同假設檢驗方法。.“有統(tǒng)計學意義”,一般選P值為0.05作為界限,但這種選擇不是絕對的。應當根據所研究事物的性質,在實驗設計時加以選定,不能在得出計算結果后再決定。當然,在一般無特殊要求的條件下,可采用一般采用的界限。.統(tǒng)計分析不能代替專業(yè)分析。假設檢驗結果“有”或“無”統(tǒng)計學意義,主要說明抽樣誤差的可能性大小。在分析資料時還必須結合臨床醫(yī)療,預防醫(yī)學特點,來加以分析??傊?,不能用統(tǒng)計分析來代替專業(yè)分析,當然,也不能認為統(tǒng)計分析可有可無。.t值小于或很接近t°05時,下結論要慎重。.正確理解P值的意義P值很小時拒絕H。,接受斗,但是不要把很小的P值誤認為總體均數間差異很大。Significance并不含“顯著”之意。選擇題:.假設檢驗的一般步驟中不包括以下哪一項?A.選擇檢驗方法和計算檢驗統(tǒng)計量B.對統(tǒng)計參數作出區(qū)間估計C.建立假設和確定檢驗水準D.直接算出P值E.作出推斷性結論『正確答案』B.兩樣本均數比較,經t檢驗差別有統(tǒng)計學意義時,P值越小,說明:A.兩樣本均數差別越大.兩總體均數差別越大C.越有理由認為兩總體均數不同D.越有理由認為兩樣本均數不同E.以上均不正確『正確答案』C3.第1類錯誤(I型錯誤)的概念是:4是不對的,統(tǒng)計檢驗結果未拒絕H0H。是對的,統(tǒng)計檢驗結果未拒絕H0H。是不對的,統(tǒng)計檢驗結果拒絕H0H。是對的,統(tǒng)計檢驗結果拒絕H0E.以上都不對『正確答案』D4.統(tǒng)計推斷中,I,II型錯誤均有可能發(fā)生,若要使兩者都減小,則:A.只要減小a就可以了B.只要減小F就可以了C.可適當減少樣本含量D.可適當增大樣本含量I,II型錯誤不可能同時減小『正確答案』D.在比較兩組資料的均數時,需要進行t檢驗的前提條件是:A.兩總體均數不等.兩總體均數相等C.兩總體方差不等D.兩總體方差相等E.以上都不對『正確答案』D第四單元方差分析一、方差分析的基本思想和適用條件(一)方差分析的基本思想——方差分析,又稱變異數分析。常用于多個樣本均數比較的假設檢驗。方差分析的基本思想是:把全部觀察值間的總變異按設計類型的不同,分解成兩個或多個組成部分,然后將各部分的變異與隨機誤差進行比較,以判斷各部分的變異是否具有統(tǒng)計學意義。現(xiàn)以完全隨機設計為例來介紹方差分析的基本思想。.總變異:總變異反映所有觀察值的變異,其大小用均方MS總來反映。MS總為觀察值X與總均值離均差平方和SS總與相應的自由度u總之比,計算公式為:SS=E(X一重)2=£X2—C,u=N—1總總MSJSS總/u總式中:C=(£X)2/N,N代表總樣本含量。完全隨機設計的方差分析將總變異分解為組間變異和組內變異兩部分。.組間變基不同處理組樣本均數之間的差異稱為組間變異。組間變異可以采用組間均方MS組間來反映,MS組間為組間離均差平方和SS組間與相應自由度u組間之比,計算公式為:防期間二二旗京一口口二二[(二苞)叮%]—C%間=無一1式中:k表示不同的處理組;2代表第i組的樣本含量。.組內變異:處理組內每個觀察值之間的差異稱為組內變異,引起組內變異的原因是個體變異和測量誤差。組內變異采用組內均方MS,由來反映,MS,由為組內的離均差平方和SS,力與相應的自由度u,由之比,組內 組內 組內 組內計算公式為:X,SS=E(X— )2或SS=SS-SS,u=N—k組內 組內 總 組間組內MS組內=SS組內/u組內可以證明:SSJSS組間+SS組內 u_^u + 總組間組內一方差分析的無效假設H0為:p1=p2=?“=pk,即所有總體均數相等,相應的檢驗統(tǒng)計量F為:F=MS組間/MS組內若無效假設成立,即處理效應相同,則組間變異應與組內變異一樣均只反映隨機誤差的大小,F(xiàn)值接近于1。相反,若根據樣本算得F的值過大,則拒絕無效假設。(二)方差分析的適用條件一數據應滿足以下兩個基本條件:——1.各樣本是相互獨立的隨機樣本,均服從正態(tài)分布。.各樣本的總體方差相等,即方差齊性。.獨立性。二、多個均數的比較(一)完全隨機設計方差分析.完全隨機設計中變異的分解:完全隨機設計方差分析又稱單因素方差分析,是將受試對象隨機地分配到各處理組,再觀察其實驗效應。完全隨機設計方差分析的計算按照表2-8進行。表2-8完全隨機設計方差分析表變異來源SSMSF總變異組同殳異EXL-C占1處理二二[N—1(工2/nJ-Ck—1ss組向八組間”士組間/MS組內組內變異SS瑟號占組間N—k N—kss組內八組內.方差分析的步驟:下面以例2.19來說明方差分析的一般步驟。例2.19:為研究大豆對缺鐵性貧血的恢復作用,某研究者進行了如下實驗:選取已做成貧血模型的大鼠36只,隨機等分為3組,每組12只,分別用三種不同的飼料喂養(yǎng):不含大豆的普通飼料、含10%大豆飼料和含15%大豆飼料。喂養(yǎng)一周后,測定大鼠紅細胞數(X1012/L),試分析喂養(yǎng)三種不同飼料的大鼠貧血恢復情況是否不同?(1)建立檢驗假設,確定檢驗水準H0:3個總體均數相等,即喂養(yǎng)三種不同飼料的大鼠紅細胞數相同―):3個總體均數不全相等,即喂養(yǎng)三種不同飼料的大鼠紅細胞數不全相同a=0.05
表2-9喂養(yǎng)三種不同飼料的大鼠紅細胞數(X1012/L)普通飼料10%大豆飼料15%大豆飼料合計4.784.656.804.656.925.913.984.447.284.046.617.513.445.997.513.776.677.743.655.298.194.914.707.154.795.058.185.316.015.534.055.677.795.164.688.03nL12121236(N)EX:52.5366.2387.62206.3S(EX)EX:234.2783373.2851647.73211255.2946(EX:)(2)計算統(tǒng)計量1)計算CC=(EX)2/N=(206.38)2/36=1183.13072)計算離均差平方和及相應的自由度SS=£(X—H)2=£X2—C=1255.2946—1183.1307=72.1639總u=N—1=36—1=35總SE想間=Z屐%L牙=二[(二區(qū)//瑪]—C=(52.532/12+66.232/12+87.622/12)—1183.1307=52.1258組間=k—1=3—組間=k—1=3—1=2SSSS組內=SS總一SS組間=72.1639—52.1258=20.0381組內=N—k=33組內=N—k=333)計算均方M編『萍="二獨皿u覿間 乙乂端小評二誓I-.?%內a4)計算F值F=MS組間/MS組內=26.0629/0.6072=42.92u=2,u=33組間 組內方差分析結果見表2—10。表2-10完全隨機設計方差分析表變異來源SSMSFP總變異72.163935組間變異52.1258226.062942.92<0.01組內變異20.0381330.6072(3)確定P值,作出推斷本例u1=2,u2=33查F界值表,因表中u2無33,在保守的原則下取不大于33且與其最接近者u2=32,得F005(232)=3.29,F001(232)=5.34,P<0.01。按a=0.05水準,拒絕H0,差異有統(tǒng)計學意義,可以認為嗯養(yǎng)三種不同飼料的大鼠紅細胞數的總體均值不全相同。(二)隨機區(qū)組設計方差分析1.隨機區(qū)組設計方差分析中的變異分解:隨機區(qū)組設計又稱配伍組設計,通常是將受試對象按性質相同或相近者組成b個區(qū)組,再將每個區(qū)組中的受試對象分別隨機分配到k個處理組中去。隨機區(qū)組設計的方差分析屬無重復數據的兩因素方差分析。隨機區(qū)組設計資料的總離均差平方和與自由度可以分解為以下3部分:SSJSS處理+SS區(qū)組+SS誤差u=u4u+u總處理區(qū)組誤差
隨機區(qū)組設計方差分析的計算按表2-11進行。表2-11隨機區(qū)組設計方差分析計算表變異來源SSuMS F總變異Ex:-cN—1處理組工[(ZxJ7b-ck—1SS處埋八處理臟處理/M5誤差區(qū)組E[(Ex:)7k-cb—13S區(qū)組八區(qū)組MS區(qū)組/M3誤差i天麥ss總一S占處理一±S區(qū)組??傄籾處理一。區(qū)組占占誤匏/0誤髭2.方差分析的步驟以例2.20來說明隨機區(qū)組設計資料方差分析的步驟。例2.20:為觀察不同劑量木賊藥液對心率的影響,取體重300?400g的雄性Wistar大鼠24只,按照月齡及體重相近原則每3只配成一組。將每組的3只動物隨機分配到三個處理組,分別給予不同劑量的木賊灌流液,測定大鼠的心率,結果見表2-12。試問不同劑量木賊灌流液對心率的影響是否不同?表2-12給予不同劑量木賊灌流液后的大鼠心率(次/分)區(qū)組低劑量中劑量局劑量12101861305262211179122512321217812251242291821345455218184137539622118514555172111911525548213182143538工及1725146710854277(ZX)2X:372261269131147971789363(工相)(1)建立檢驗假設,確定檢驗水準1)處理組間H。:不同劑量木賊灌流液對心率的影響相同,即p]=p2=p3H1:pjp「p3不全相等a=0.O52)區(qū)組間H0:不同區(qū)組動物心率的總體均數相等斗:不同區(qū)組動物心率的總體均數不全相等a=0.05
(2)計算統(tǒng)計量1)計算CC=(EX)2/N=(4277)2/24=762197.0422)計算離均差平方和及相應的自由度SS總=£先—C=789363—762197.042=27165.958u^=N-1=24-1=23SS,a=E(EXi)2/b-C(1725了(1725了+(iog5y-762197.042=25920.333=25920.333u=k-1=3—1=2處理SS區(qū)組=£(£Xj)2/k一C=(526)2+(5^+(538)2"陽9加42=626.625u=b-1=8-1=7區(qū)組SS誤差=SS總一SS處理-SS區(qū)組=27165.958-25920.333-626.625=619.000u=u-u -u=23-2-7=14誤差總處理區(qū)組3)計算均方MS=SS /u=25920.333/2=12960.167處理 處理處理MS=SS /u=626.625/7=89.518區(qū)組 區(qū)組 區(qū)組MS=SS /u=619.000/14=44.214誤差 誤差 誤差4)計算F值F處理=MS處理/MS誤差=12960.167/44.214=293.123處理=2處理=2誤差=14F區(qū)組=MS區(qū)組/MS誤差:89.518/44.214:2.025區(qū)組=7,誤差=14區(qū)組=7,誤差=14方差分析結果見表2-13。表2-13隨機區(qū)組設計方差分析表變異來源SSMSFP總變異27165.95823處理組25920.333212960.167293.123<0.01區(qū)組626.625789.5182.025>0.05送麥619.0001444.214(3)確定P值,作出推斷以u =2為u,u=14為u,查F界值表,得P<0.01。按a=0.05水準拒絕H,接受H,差異處理 1誤差 2 0 1有統(tǒng)計學意義,可認為接受不同劑量木賊灌流液的大鼠心率有差異。對于不同動物區(qū)組,以u=7為u,u =14為u,查F界值表,得P〉0.05。按a=0.05水準不區(qū)組 1誤差 2拒絕H。,差異無統(tǒng)計學意義,尚不能認為不同區(qū)組間大鼠心率的總體均數有差異。(三)多個均數間兩兩比較在處理組數大于2時.若仍用t檢驗對任意兩個均數進行比較.會增大犯1型錯誤的概率.即可能將實際上無差異的兩個總體均數誤判為有差異。兩兩比較的方法很多,如SNK法、LSD法、Dunnett-t檢驗等。SNK法,又稱q檢驗,其檢驗統(tǒng)計量為:u=ue式中: 分別為兩對比組的樣本均數;nA、nB為兩對比組的樣本例數;MSe為方差分析中算得的誤差均方;ue為誤差的自由度。以例2.19資料來介紹q檢驗的一般步驟,對喂養(yǎng)三種不同飼料的大鼠紅細胞數的總體均數進行兩兩比較。將三組大鼠紅細胞數的均數從大到小排列,并編上組次:組次123均數7.305.524.38組另U15%大豆飼料10%大豆飼料普通飼料H0:任兩組大鼠紅細胞數的總體均數相同,即pA=pb斗:任兩組大鼠紅細胞數的總體均數不同,即pAWpba=0.05列出兩兩比較計算表:表2-14三組紅細胞均數兩兩比較q檢驗分析表對比組內Q界值對比組兩均數之差包含組數q值-P值也與EXa-Xba0.050.01(1)(2)(3)⑷(5)(6)(7)1與32.92313.273.494.45<0.011與21.7828.092.893.89<0.012與31.1425.182.893.89<0.01表中第(1)列為所有可能的對比組。第(2)列為兩對比組均數之差,如第一行的2.92=7.30—4.38。第(3)列的a是排序后兩對比組間包含的組數(包含本身在內),如1與3比較,a為3。第(4)列是按q=2.92公式計算的統(tǒng)計量,如第一行, 7 2 1212=13.27。第(5)、(6)列是按自由度u=33和組數a查q界值表得出,第(7)列是P值。結果顯示任意兩組紅細胞數的差異均有統(tǒng)計學意義,可以認為3組大鼠的紅細胞數的總體均數兩兩不相同。第五單元分類資料的統(tǒng)計描述分類資料一般采用相對數指標進行統(tǒng)計描述。常用相對數有率、構成比和相對比。一、常用相對數(一)率率又稱頻率,指某現(xiàn)象實際發(fā)生數與可能發(fā)生該現(xiàn)象的觀察單位總數之比,用以說明某現(xiàn)象發(fā)生的頻率或強度。計算公式為:去一某時期內實際發(fā)生某現(xiàn)象的觀察單位數R’一同時期可能發(fā)生該現(xiàn)象的觀察單位總數式中:K稱為比例基數,K可以選擇100%、1O00%。、100000/10萬等。例2.21:某地2005年平均人口數為580360人,該年細菌性痢疾新發(fā)病人數為400人,則該地2005年細菌性痢疾發(fā)病率為400/580360X100000/10萬=68.92/10萬。(二)構成比構成比是指事物內部某一組成部分觀察單位數與事物內部各組成部分觀察單位總數之比。計算公式為:構成比-某一組成部分的觀察單位數“加化一同一事物各組成部分的觀察單位總數1UU此構成比有兩個特點:①事物內部各組成部分的構成比之和等于100%或1;②事物內部各組成部分之間呈此消彼長的關系。例如,表2-15為某市2006年食物中毒發(fā)生場所的分布,其中“家庭”在食物中毒發(fā)生場所中所占的比重為92/156X100%=58.97%。表2-15某市2006年食物中毒發(fā)生場所的分布場所中毒起效構成比(%)家庭9258.97集體食堂3723.72誓依單位、攤販148.98其他138.33合計156100.00(三)相對比相對比是指兩個有關指標之比,用以說明一個指標是另一個指標的幾倍或幾分之幾。計算公式為:相對比=號需(或父10瀚例2.22:抽查某地社區(qū)衛(wèi)生服務機構180家,其中醫(yī)生761人,全科醫(yī)學培訓率為33.66%;護士452人,其全科醫(yī)學培訓率為27.12%,則醫(yī)護比為761/452=1.68,即醫(yī)生的數量是護士數量的1.68倍;醫(yī)生與護士的全科醫(yī)學培訓率之比為33.66%/27.12%=1.24,即醫(yī)生全科醫(yī)學培訓率為護士的1.24倍。二、應用相對數應注意的問題(一)構成比和率在應用中的區(qū)別在實際應用中,以構成比代替率的錯誤通常發(fā)生在以下兩種情況:.相同時期率的比較:例如,表2-16為2005年某地區(qū)各年齡組心腦血管疾病死亡資料。在表2-16中,第4列為各年齡組心腦血管疾病死亡人數構成比,其中40?歲組的構成比大于60?歲組,說明2005年該地區(qū)心腦血管疾病死亡人口中,屬于該年齡組的人較多。但若據此認為40?歲組的心腦血管疾病死亡發(fā)生頻率比60?歲組高,則犯了以構成比代替率的錯誤,利用第3列和第2列的數據按公式計算出第5列各年齡組的心腦血管疾病死亡率,才能反映各年齡組心腦血管疾病死亡水平。表2-162005年某地年齡別心腦血管疾病死亡構成比與死亡率年齡組(歲)(1)平均人口數(2)死亡數(3)死亡人數構成比(%)死亡率(1/10萬)⑷(5)Q?5325195.7716.9020?82308159.6218.22如?554716843.59122.59249126441.02256.90合計215942156100.0072.24.不同時期率的動態(tài)比較:例如表2-17為某縣2000年與2005年5種傳染病的發(fā)病情況。若要反映各類型疾病的發(fā)病強度,應比較2005年與2000年各類型傳染病的發(fā)病率。要注意假設檢驗表2-17某縣2000年與2005年傳染病的發(fā)病情況疾病2000年2005年病例數構成比(婦病例數構成比呼吸道傳染病217648.8960341.59血源及性傳播疾病157335.3467146.27腸道傳染病61113.7315S10.90體表傳染病591.32181.24蟲媒及自然疫源性疾病320.7200.00合計4451100.001450100.00(二)合計率的計算對分組資料計算合計率時,不能簡單地把各組率取平均數,而應該用各率的分子合計除以分母合計。例如,表2-16資料中2005年某地區(qū)各年齡組心腦血管疾病的合計死亡率為156/215942X1OOO00/10萬=72.24/10萬。(三)相對數比較時應注意其可比性通常應注意:.觀察對象是否同質,研究方法、觀察時間是否相同。.其他影響因素在各組的內部構成是否相同。(四)觀察例數問題觀察單位不能太少,觀察單位數太少,會造成計算出的相對數不穩(wěn)定。三、動態(tài)數列及其分析指標動態(tài)數列是一系列按時間順序排列起來的統(tǒng)計指標(包括絕對數、相對數或平均數),用以觀察和比較事物在時間上的變化水平和發(fā)展趨勢。動態(tài)數列常用的分析指標及其應用如下:.絕對增長量:兩指標之差。.發(fā)展速度和增長速度:說明某事物在一定時期的速度變化。發(fā)展諫展表示報告期指標水平是基期水平的百分之多少??捎嬎悖孩俣ɑ三埍人俣?,即報告期指標與基期指標之比,用符號表示為a1/a0,a/a0,…,an/a。;②環(huán)比發(fā)展速度,即報告期指標與前一期指標之比,用符號表示為a/a°,a/%…,an/an^o增長速度=發(fā)展速度一1,表示發(fā)展速度的凈增長量,可計算定基比增長速度和環(huán)比增長速度。.平均發(fā)展速度和平均增長速度:常用于說明某一時期某事物的平均變化速度。平均發(fā)展速度= ,平均增長速度=平均發(fā)展速度-1o表2-18動態(tài)數列分析指標計算式中的符號示意時間No.1No.2 No.3 No.(n+1)指標符號 a: a: a; … &例2.23:某市醫(yī)療機構2002?2006年床位數的變化情況見表2-19第2歹U。試就該資料作動態(tài)分析。ia/66003/618252002?2006年床位數的平均發(fā)展速度= =101.3%2002?2006年床位數的平均增長速度=101.3%—1=1.3%表2-19某市區(qū)療機構2002?2006年床位的發(fā)展動態(tài)年份床位數絕對增長量發(fā)展速度(%)噌長速度(%)累計逐年定基比環(huán)比定基比環(huán)比200261825100.00100.0020036328714621462102.4102.42.42.420046497131461684105.1102.75.12.72005656563831685106.2101.16.21.12006660034178347106.8100.56.80.5四、標準化法(一)標準化法的基本思想、及其意義標準化法選用統(tǒng)一的混雜因素構成作為標準,以消除因混雜因素構成不同對總指標的影響,以增強可比性。(二)直接和間接標準化法的應用
標準化率常用的計算方法有直接法和間接法,但兩種方法的應用條件不同。表2-20計算標準化率的數據符號年齡組標準組被標化組人口人死亡數死亡率人口口死亡數死亡率1N-艮P111亡2N;R:P;11;工;P:k氐巳.工.合計NRPnYP.直接接:當已知知標化組的年齡別死亡率pi時,宜采用直接法計算標準化率。丁二二第跖已知標準組年齡別人口數時:已知標準組年齡別人口構成比時:已知標準組年齡別人口構成比時:.間接法:當被標化組的年齡別死亡率pi未知,只有年齡別人口數和死亡總數時,可采用間接法。r/EniPi是被標化組的實際死亡數與預期死亡數之比,稱為標準化死亡比(SMR)。若SMR〉1,表示被標化組的死亡率高于標準組;若SMR<1,表示被標化組的死亡率低于標準組。.標準化率的計算步驟一(1)根據被標化組的數據條件選擇直接法或間接法。(2)選擇標準組:①根據研究目的選擇有代表性的、較穩(wěn)定的、數量較大的人群。如以全國的、全省的或本地區(qū)歷年累計的數據作為標準較為理想;②也可將欲比較的兩地或兩組的人口數合并或選擇其中一組人口作為標準。(3)計算標準化率。
例2.24:欲了解2006年甲、乙兩地人群貧血患病情況,分別在兩地進行了抽樣調查,結果見表2-21。試比較甲、乙兩地人群貧血的患病率。表2-212006年甲、乙兩地人群貧血患病例情況用比 乙包三糜組調查人翱年齡詞成比,1姐患病率(啕調堂J.數年的構成匕,(患痛率(率6皿8.71匕09E7415,)9田-121'必犯匕奐2(.21732(.-175928.14*,必115519.M2^,814-L683把灰15,211(55區(qū)21W.5916.86K.8(EJT13,)515⑼i合計■535-100.0014.T二57J31M)017(1)已知甲、乙兩地人群的年齡別患病率,采用直接法計算標準化患病率。(2)選擇甲、乙兩地人群各年齡組合并人口數作為標準人口數Ni見表2-22第2歹U。表2-22直接法計算甲、乙兩地調查人群貧血的標準化患病率三鬣組標他人口鼓甲地3地內原由西壁⑺地朝目后人戒陣患石芨前期患病;■藥P;什31P;P:)口?111:3.前WG?3222S.LG-23'?,D.I'D2?G£一如1;20.47雙23.51□944'.」必二1-41cId.:jy454也一r-bl14.cj州?lb.JuL7y合計12)^1門門1-1.741j6(z(二艮口:14.17(二RpJ(3)按式 計算甲、乙兩地調查人群的標準化患病率。尸甲甲地調查人群貧血標準化患病率空?父100%12043=13.84%尸甲甲地調查人群貧血標準化患病率空?父100%12043=13.84%乙地調查人群貧血標準化患病率=15.32%可見,經標準化以后,甲地調查人群貧血患病率低于乙地,與各年齡組的兩率比較的結果一致。例2.25:已知某地2005年惡性腫瘤死亡總數48人,該地2005年各年齡組平均人口數,見表2-23第(3)歹U。試比較該地惡性腫瘤死亡率是否高于所屬省份的平均水平。表2-23間接法計算某地2005年惡性腫瘤標準化死亡率if止血4-n標準死亡率(1/1。萬)某地年聆組人口數預期死亡數(t)(nJ(1)⑵(3)⑷=(2)(3)2.61171810.44820?10.59310063.28478.031690313.189呂。?251.491035526.042合計49.387544542.963(Zn.Pj(1)由于知道該地惡性腫瘤死亡總數r和各年齡組人口數n/,未知該地各年齡組的惡性腫瘤死亡率p「故選用間接法計算標準化死亡率。(2)選擇該地所屬省份同期各年齡組惡性腫瘤死亡率Pj作為標準死亡率,見表2-23第(2)歹U。(3)用式 13'計算該地惡性腫瘤標化死亡率。42某地惡性腫瘤的標化死亡比smr=42.963=i.i2某地惡性腫瘤的標準化死亡率p'=49.38/10萬*42.963=55.31/10萬該地惡性腫瘤的標化死亡比為1.12,說明該地惡性腫瘤的死亡率是該省平均水平的1.12倍;該地惡性腫瘤的標化死亡率為55.31/10萬,略高于其所屬省份的平均水平。4.應用標準化法的注意事項一(1)選擇的標準不同,計算出的標準化率也不相同。(2)在已知被標化組各年齡段死亡率時,宜采用直接法計算標準化率。但如果被標化組各年齡段人口數太少,年齡別死亡率波動較大時,宜采用間接標準化法。
(3)當所比較的兩組內部各分組率呈現(xiàn)交叉或非平行變化趨勢時,不宜采用標準化法,應分層比較。(4)比較樣本代表的總體標準化率是否不同時,需作假設檢驗。第六單元率的抽樣誤差與Z檢驗一、率的標準誤(一)率的抽樣誤差在抽樣研究中,抽樣誤差是不可避免的。由于隨機抽樣造成的樣本率與總體率的差別稱為率的抽樣誤差。描述率的抽樣誤差大小的指標為率的標準誤。(二)率的標準誤的含義若從陽性率為n的總體中隨機抽取m個樣本含量均為n的樣本,可得到m個樣本陽性率p1,凡,…,p。當n較大,n既不接近0也不接近1時,樣本率的分布近似服從正態(tài)分布N(n,。2)。樣本率的標m p準差。反映各樣本率對總體率n的離散程度,可用于描述率的抽樣誤差大小,稱為率的標準誤。率的標準p誤越小,說明其抽樣誤差越小;反之,抽樣誤差越大。(三)率的標準誤的計算率的標準誤。計算公式為:
p率的標準誤。計算公式為:
p式中:n為總體率;n為樣本含量。實際工作中總體率n往往是未知的,常用樣本率p作為總體率n的估計值,相應可得到op的估計值Sp,釬尸其計算公式為:從上式可以看出,減小率的抽樣誤差的有效方法是適當增大樣本含量。例2.26:為調查某縣成年人乙型肝炎表面抗原(HBsAg)的攜帶情況,隨機抽查了100名成年人,發(fā)現(xiàn)HBsAg陽性者12人,試估計此次HBsAg陽性率調查的抽樣誤差大小。樣本陽性率p=12/100=0.12。p~y—vwo=0.0325=3.25%即此次HBsAg陽性率調查的抽樣誤差為3.25%。二、總體率的置信區(qū)間總體率的估計包括點估計和區(qū)間估計。點估計是直接用樣本率來估計總體率,沒有考慮抽樣誤差。區(qū)間估計則考慮到抽樣誤差,按一定的概率1—a(即置信度為1—a)估計總體率的可能范圍,此范圍稱為總體率的置信區(qū)間。總體率的置信區(qū)間估計方法有以下兩種:.查表法:當nW50,可采用查表法,獲得總體率的95%和99%置信區(qū)間。.正態(tài)近似法:當n足夠大,p和1—p均不太小時(一般要求np與n(1—p)均大于5),樣本率的抽樣分布1斤似服從正態(tài)分布,這時可利用正態(tài)分布理論來估計總體率的置信區(qū)間。總體率的(1—a)置信區(qū)間按下式計算:(p-Za/2S,p+Za/2S)例2.2;:根據例2.26的資料,估計該縣成年人HBsAg陽性率的95%置信區(qū)間。本例n=100,p=0.12,可采用正態(tài)近似法估計總體率的置信區(qū)間。陽性率的95%的置信區(qū)間按式(p-Za/2Sp,p+Za/2Sp)計算:下限:p-1.96S=0.12—1.96X0.0325=0.0563上限:p+1.96S=0.12+1.96X0.0325=0.1837所以該縣成年人HBsAg陽性率的95%置信區(qū)間為(5.63%,18.37%)。三、率的Z檢驗(一)樣本率與總體率比較樣本率與總體率比較的目的是推斷樣本所代表的未知總體率n與已知總體率n。是否相同。有以下兩種方法可供選用:.利用二項分布原理直接計算概率。.正態(tài)近似法(Z檢驗):Z檢驗適用于樣本含量n較大,p和1—p均不太小,如np和n(1—p)均大于5的資料。檢驗統(tǒng)計量Z的計算公式為:回1一/)\nZ=例2.28:一項調查結果表明某市一般人群艾滋病知識的知曉率為65%?,F(xiàn)對該市吸毒人群進行艾滋病知識調查,在150名吸毒人員中有130人回答正確。問該市吸毒人群的艾滋病知識知曉率是否高于一般人群?記該市一般人群的艾滋病知識知曉率n=65%,吸毒人群的艾滋病知識知曉率為n,樣本含量n=150,0樣本率p=130/150=86.7%,可采用樣本率與總體率比較的Z檢驗。假設檢驗步驟如下:(1)建立檢驗假設,確定檢驗水準H0:n=0.65,即該市吸毒人群的艾滋病知識知曉率等于該市一般人群H1:n〉0.65,即該市吸毒人群的艾滋病知識知曉率高于該市一般人群a=0.05(2)計算檢驗統(tǒng)計量7P一飛0367—0.65, — — —III1"]耳(1—耳)-10,65x(1-0.65)-'V-7 \ 150(3)確定P值,作出推斷查t界值表(u-8),得PV0.0005,按a=0.05水準,拒絕H0,接受H1,差異有統(tǒng)計學意義,可以認為該市吸毒人群的艾滋病知識知曉率高于該市一般人群。(二)兩樣本率比較采用Z檢驗的條件是兩個樣本含量n1與4均較大,且凡與\均不接近于0也不接沂于1,一般要求%和n2分別為兩樣本的樣本含量;X1和X2分別為兩樣本的事件發(fā)生數。例2.29:為了解某校本科生體測合格率的性別差異,在本科生中隨機抽查了男生110人和女生130人,結果男生有100人合格,女生有70人合格,問該校男女生體測合格率是否不同?此題需進行兩樣本率的比較,符合Z檢驗的條件。假設檢驗步驟如下:(1)建立檢驗假設,確定檢驗水準H0:n1=n2,該校男生的體測合格率與女生相同H1:n1Wn2,該校男生的體測合格率與女生不同a=0.05(2)計算檢驗統(tǒng)計量ni=110,X1=100,P1=X1/nx=100/110=0.9091;n2=130,{=70,P2=X2/n2=70/130=0.5385;以二3也點為受嗨+玲 110+130Z二i- S9⑼-0.E -E"叫+?加吟舄+2)(3)確定P值,作出推斷查t界值表(u-8),得p<0.001,按a=0.05水準,拒絕H。,接受斗,差異有統(tǒng)計學意義,可以認為該校男生的體測合格率與女生的不同,男生體測合格率較高。第七單元x2檢驗X2檢驗是一種用途很廣泛的統(tǒng)計方法,在分類資料的統(tǒng)計推斷中,可用于推斷兩個及多個總體率(或構成比)是否有差別,檢驗兩個分類變量是否有關聯(lián),以及檢驗頻數分布的擬合優(yōu)度等。一、四格表資料(一)成組設計四格表資料X2檢驗的計算及應用條件.1.成組設計四格表資料:表2-24為成組設計四格表的一般形式,包含a、b、c、d四個基本數據,其余數據均由這4個數據計算出來,這種兩組二分類的資料,稱為2X2列聯(lián)表資料,亦稱四格表資料。表2-24成組設計四格表資料組別屬性合計1aba+bCdc+d合計a+cb+dn成組設計四格表資料的X2檢驗可用于檢驗兩個樣本率(或構成比)是否有差別。.X2檢驗的基本思想:X2檢驗中,從樣本觀察到的頻數稱為實際頻數,用符號A表示。在無效假設H0成立的前提下,根據實際頻數算得的各個格子的期望頻數稱為理論頻數,用符號T表示。T可由下式求得:式中:q為第R行第C列格子的理論頻數;nR為該格相應的行合計數;nc為該格相應的列合計數;n為總例數。X2檢驗的基本公式為:X-2值反映了實際頻數和理論頻數之間的吻合程度。若H0成立,則A與T相差不應該很大,即X2統(tǒng)計量不應該很大。A與T相差越大,X2值越大,相應的P值越小。若PWa,則A與T相差較大,有理由認為無效假設不成立,從而拒絕H。,接受H1。由式 可以看出,由于每個格子的 〉0,因此格子數越多,X2值也會越大,即X2值的大小除了和A與T的差別大小有關外,還與格子數有關。因而在考慮X2值大小的同時,應同時考慮格子數的多少(嚴格地說是自由度u的大小),這樣才能更準確地反映A與T的吻合程度。自由度u可由下式求得:(R—1)(C—1)
.成組設計四格表資料X2檢驗的步驟例2.30:某研究欲了解某市在校男、女中學生對艾滋病知識的掌握情況,隨機抽取該市某中學243名學生進行問卷調查,其中對問題“與艾滋病患者握手是否會感染艾滋???”的回答情況見表2-25。問該市男、女中學生對該問題的知曉率是否有差異?表2-25某市男、女中學生對“與艾滋病患者握手是否會感染艾滋病”知曉率的比較性別知道不知道合計知曉率(%)男903012075.00支705312356.91合計1608324365.84(1)建立檢驗假設,確定檢驗水準H0:n^n2,即該市男、女中學生的知曉率相等H1:ni#n2,即該市男、女中學生的知曉率不等a=0.05(2)計算統(tǒng)計量1)計算理論頻數本例若H本例若H0成立,則a、b、c、d各格的理論頻數分別為:120x160=79Q12 120x83=4098g243 243_123xl60_ _123x83_2--|n— —i」U.2— —斗心.U1乙243 2432)計算X2值:按公式計算X2值(90-79,012)2(30-40,988)2(70-80,988)2(53-42,012)2=79.01240.98880,98842.012=8.8383)計算自由度u:u=(2—1)(2—1)=1(3)確定P值,作出推斷查X2界值表得p<0.005,按a=0.05水準,拒絕H。,接受斗。差異有統(tǒng)計學意義,可以認為該市男、女中學生對該問題的知曉率不相同,男生知曉率較高。.成組設計四格表資料X2檢驗的專用公式2 (ad—bc^n2_(90x50-30x70)2x243_J— —.I」將例題2.30數據代入上式,得 120父123次160M苫3 ,結論同前。.成組設計四格表資料X2檢驗的應用條件用式一『 g+H)g+#g+c)@+d)算得的*2值在所有格子的一且nN40時,近似服從自由度為1的X2分布。當有理論頻數小于5時,這種近似程度降低。因此,在分析成組設計四格表資料時,需根據具體情況作不同處理:(1)當n?40.日T丁5時.用X2檢驗基本公式或成組設計四格表X2檢驗的專用公式。(2)當n力40.日1WTV5時,用成組設計四格表X2檢驗的校正公式或用四格表的確切概率法。出口-川2_ (|ad-bc\-^l2),‘ (0+占)匕+以+g@+以)(3)當n<40或T<1時,不能用X2檢驗,應當用四格表的確切概率法。當樣本含量較大時,兩樣本率比較也可采用兩樣本率比較的Z檢驗,兩種假設檢驗方法等價,且Z2=X2=T2X2,而相對應的界值的關系為皿…(二)配對設計四格表資料X2檢驗的計算及應用條件.配對設計四格表資料的X2檢驗:配對設計且實驗結果為二分類資料時,可整理為配對設計四格表資
料,如表2-26所示。表2-26配對設計四格表形式乙甲曾計+a b a+bc d c+d合計a+c b十d n配對設計四格表資料的X2計算公式為:U=1U=1卜式又稱McNemar檢驗.當b+c<40時,需作連續(xù)性校正.見下式。.假設檢驗步驟:本節(jié)以例2.31為例介紹配對設計四格表資料X2檢驗的步驟。例2.31:某研究者欲比較心電圖和生化測定診斷低血鉀的價值,分別采用兩種方法對79名臨床確診的低血鉀患者進行檢查,結果見表2-27。問兩種方法的檢測結果是否相同?表2-27兩種方法診斷低血鉀的結果生化測定心電圖+曾計+452570459合計493079(1)建立檢驗假設,確定檢驗水準H:B=C,即兩種方法的檢測結果相同0H:BWC,即兩種方法的檢測結果不同1a=0.05
(2)計算統(tǒng)計量本例b+c=29<40,故用式計算:二號盧(2)計算統(tǒng)計量本例b+c=29<40,故用式計算:二號盧—(3)確定P值,作出推斷查X2界值表,得P<0.005,按a=0.05水準,拒絕H,接受H,差異有統(tǒng)計學意義,可以認為兩種0 1方法的檢測結果不同,由于b〉C,故心電圖的陽性檢出率高于生化測定方法。二、行X列表資料(一)行X列表資料的X2檢驗.行X列表資料:當比較組數大于等于2,或資料的屬性分類數大于等于2種時,數據可采用多行X多列表形式來表達,稱行X列表。行X列表的X2檢驗用于檢驗兩個或多個樣本率(構成比)的差別是否有統(tǒng)計學意義。.行X列表資料X2檢驗的計算公式U=(R—1)(C—1).行X列表資料x2檢驗的步驟(1)多個樣本率的比較例2.32:某研究者欲比較A、B、C三種方案治療輕、中度高血壓的療效,將年齡在50?70歲的240例輕、中度高血壓患者隨機等分為3組,分別采用三種方案治療。一個療程后觀察療效,結果見表2-28。問三種方案治療輕、中度高血壓的有效率有無差別?表2-28三種方案治療輕、中度高血壓的效果方案有效無效合計有效率(%)A7468092.50B58228072.50C7198088.75合計2033724084.581)建立檢驗假設,確定檢驗水準H0:n1』2』3,即三種方案治療輕、中度高血壓的有效率相同斗:三種方案治療輕、中度高血壓的有效率不全相同a=0.052)計算x2值和自由度將表2-28的數據代入公式,得X二二7TOC\o"1-5"\h\z.房,7甲62 582 222 712 92 八240x( + + + + + -1)80x203 80x37 80x203 80x37 80x203 80x37=13.868u=(3—1)(2—1)=23)確定P值,作出推斷查X2界值表得P<°.005,按a=0.05水準,拒絕H。,接受斗,差異有統(tǒng)計學意義,可以認為三種方案治療輕、中度高血壓的有效率不全相同。(2)兩組構成比的比較例2.33:為了解新型農村合作醫(yī)療對于農村貧困居民住院服務利用的影響,在經濟條件相似的甲、乙兩個國家級貧困縣(其中甲縣2006年已開展新型農村合作醫(yī)療,乙縣2006年尚未開展)分別進行抽樣調查,得到2006年應住院者未住院原因,見表2-29。問甲、乙兩縣應住院者未住院原因的構成比是否不同?
表2-29甲乙兩縣應住院者未位院原因構成比(%)縣別經濟困難沒有必要沒有時間其他合計甲293(87.99)10(5.11)17(3.00)13(3.90)333(100.00)乙282(92.16)9(2.94)9(2.94)6(1.96)306(100.00)合計5751926196391)建立檢驗假設,確定檢驗水準,:甲、乙兩縣應住院者未住院原因的總體
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度房屋出租居間合同附帶租客租后生活配套服務協(xié)議2篇
- 2024年度全款購買房屋交易合同范本2篇
- 2024年標準金礦石貿易合作合同書版B版
- 2024版?zhèn)€人物流配送服務合同范本3篇
- 2024版LOGO原創(chuàng)設計版權購買及長期合作協(xié)議3篇
- 2024年度綠色建材認證碎石石材材料采購合同樣本2篇
- 以工代賑項目計劃書
- 現(xiàn)代化產業(yè)體系構建的實施方案與路徑
- 強化師資隊伍建設促進學校高質量發(fā)展的多維策略
- 景區(qū)旅游基礎設施項目運營方案
- ABB工業(yè)機器人基礎知識
- 中國校服產業(yè)挑戰(zhàn)與機遇分析報告 2024
- 2022版義務教育物理課程標準
- 山東省日照市2023-2024學年七年級上學期期末數學試題(含答案)
- 上海華東師大二附中2025屆高一數學第一學期期末檢測試題含解析
- 新教科版六年級上冊科學全冊知識點(期末總復習資料)
- 《靜女》《涉江采芙蓉》對比閱讀教學設計 2023-2024學年統(tǒng)編版高中語文必修上冊
- 高速鐵路概論 課件 第3章 高速鐵路車站
- 2024-2030年水培蔬菜行業(yè)市場發(fā)展分析及發(fā)展趨勢與投資戰(zhàn)略研究報告
- 2024年部編版語文五年級上冊全冊單元檢測題及答案(共8套)
- 集成電路制造工藝 課件 6光刻工藝2
評論
0/150
提交評論