




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、醫(yī)學統(tǒng)計學總結緒論1、隨機現(xiàn)象:在同一條件下進行試驗,一次試驗結果不能確定,而在一定數(shù)量的重復試驗之 后呈現(xiàn)統(tǒng)計規(guī)律的現(xiàn)象。2、同質:統(tǒng)計學中對研究指標影響較大的,可以控制的主要因素。3、變異:同質基礎上各觀察單位某變量值的差異。c數(shù)值變量:變量值是定量的,由此而構成的資料稱為數(shù)值變量資料或計量資料,其數(shù)值是連續(xù)性的,稱之為連續(xù)型變量。變量彳無序分類變量:所分類別或屬性之間無順序和程度上的差異分類變量:定性變量有序分類變量:有順序和程度上的差異4、總體:根據(jù)研究目的確定的同質研究對象中所有觀察單位某變量值的集合??梢苑譃橛邢?總體和無限總體。5、樣本:是按隨機化原則從同質總體中隨機抽取的部分觀
2、察單位某變量值的集合。樣本代表 性的前提:同質總體,足夠的觀察單位數(shù),隨機抽樣。統(tǒng)計學中,描述樣本特征的指標稱為統(tǒng)計量,描述總體特征的指標稱為參數(shù)。6概率:描述隨機事件發(fā)生的可能性大小的一個度量。若P( A) =1,則稱A為必然事件;若P (A) =0,則稱A為不可能事件;隨機事件 A的概率為Ov PV 1.小概率事件:若隨機事件 A的概率P a,則稱隨機事件A為小概率事件,其統(tǒng)計學意義為: 小概率事件在一次隨機試驗中認為是不可能發(fā)生的。統(tǒng)計描述1、頻數(shù)分布有兩個重要的特征:集中趨勢和離散程度。頻數(shù)分布有對稱分布和偏態(tài)分布之分。 后者是指頻數(shù)分布不對稱,集中趨勢偏向一側,如偏向數(shù)值小的一側為正
3、偏態(tài)分布, 如偏向數(shù) 值大的一側為負偏態(tài)分布。2、常用的集中趨勢的描述指標有:均數(shù),幾何均數(shù),中位數(shù)等。均數(shù):適用于正態(tài)或近似正態(tài)的分布的數(shù)值變量資料。樣本均數(shù)用x表示,總體均數(shù)用卩表示。幾何均數(shù):適用于等比級數(shù)資料和對數(shù)呈正態(tài)分布的資料。注意觀察值中不能有零,一組 觀察值中不能同時有正值和負值。中位數(shù):適用于偏態(tài)分布資料以及頻數(shù)分布的一端或兩端無確切數(shù)據(jù)的資料。3、常用的離散程度的描述指標有:全距,四分位數(shù)間距,方差,標準差,變異系數(shù)。全距:任何資料,一組中最大值與最小值的差。四分位數(shù)間距:適用于偏態(tài)分布以及分布的一端或兩端無確切數(shù)據(jù)資料。方差和標準差:正態(tài)分布資料。標準差表示觀察值的變異度
4、的大小。 變異系數(shù):比較度量單位不同或均數(shù)相差懸殊的兩組資料的變異度。4、標準正態(tài)分布:對正態(tài)分布的(X-卩)/ c進行u的變換,u= (X-卩)/(T ,則正態(tài)分布變 換為卩=0, c =1的標準正態(tài)分布,亦稱u分布。u被稱為標準正態(tài)變量或標準正態(tài)離差。 兩個參數(shù):是位置參數(shù),c是形狀參數(shù)。用N (0,1 )表示標準正態(tài)分布。常用估計醫(yī)學參考值范圍的方法有:(1) 正態(tài)分布方法:適用于正態(tài)或近似正態(tài)分布的資料。雙側界值:X u/2S單側上界:X+ S,或單側下界:Xu S(2) 對數(shù)正態(tài)分布方法:適用于對數(shù)正態(tài)分布資料。雙側界值:Lg率:說明某現(xiàn)象發(fā)生的頻率或強度。(病死率不等于死亡率) 構
5、成比:說明某現(xiàn)象內(nèi)部組成部分所占的比重或分布,常以百分數(shù)表示。相對比:亦稱比,是A、B 2個有關指標之比,說明A為B的若干倍或百分之幾。兩個指 標可以性質相同,也可以性質不同。應用相對數(shù)時的注意事項: 、計算相對數(shù)的分母不宜過小;2、分析時不能以構成比代替率;3、對觀察單位數(shù)不等 的幾個率,不能直接相加求其平均率;4、比較相對數(shù)時應注意其可比性;5、對樣本率(或構 成比)的比較應遵循隨機抽樣,并做假設檢驗。6標準化法:標準化的目的在于消除混雜因素對結果的影響,使資料更具有可比性。其基本 思想是:將所比較的兩組或多組資料的構成按統(tǒng)一的“標準”調整后,計算標化率,使其更具 有可比性。標準化率的計算
6、方法:亦稱標化率,直接法用于已知被標化組的年齡別率, 以及已知標準組的 年齡別人口數(shù)或年齡別人口構成比時;間接法用于已知被標化組的年齡別人口數(shù)與發(fā)病 (死亡) 總數(shù),但年齡別率未知,以及已知標準組年齡別發(fā)病(死亡)率與總發(fā)病(死亡)率時。通常可從下列3種方法選用標準組:以兩組資料中任一組的年齡別人口數(shù)或構成比作為標準 組;以兩組資料合并的各年齡組的人口數(shù)或構成比作為標準組;以公認的或便于與他人資料比較的標準作為標準組。7、統(tǒng)計表:結構:由標題、標目、線條和數(shù)字構成。編制統(tǒng)計表的要求: 標題:概括表的內(nèi)容,列于表的上方居中,應注明時間和地點; 標目:主語和謂語分別列于橫、縱標目,文字簡明,層次清
7、楚。橫標目列于表的左側,通常 為被研究的事物,縱標目列于表的上端,為說明橫標目的統(tǒng)計指標。 線條:通常,除表的頂線、底線、縱標目下以及合計上的橫線外,其余線條均省去,頂線和 底線應略粗些,表的左上角不宜用斜線。 數(shù)字:用阿拉伯數(shù)字表示,同一指標的小數(shù)位數(shù)要一致并對齊, 數(shù)字暫缺或無數(shù)字者分別用 “”或“-”表示,數(shù)字為0者要記作“ 0”,不應空項,為方便核實和分析,應有合計。 (X igx uff/2S igx )單側上界:Lg1 (X igx +u S igx),或單側下界:Lg-1 (X igx -u S igx)(3) 百分位數(shù)法:用于偏態(tài)分布資料以及資料中一端或兩端無確切數(shù)值的資料。
8、雙側上界:P2.5和P97.5 ;單側上界:P95,或單側下界:F5常用的u值表參考值范圍(%單側雙側800.8421.282901.2821.645951.6451.96992.3262.5765、分類變量資料的統(tǒng)計描述:常用相對數(shù)指標描述,包括:率,構成比,相對比。 備注:一般不列入表內(nèi),必要時可用“ *”標出,列于表下。8、統(tǒng)計圖: 條圖:用于相互對比關系的資料; 圓圖與百分條圖:適用于百分構成比資料,表示事物各組成部分所占的比重或構成; 線圖:用于連續(xù)性資料,用于說明事物在時間上的發(fā)展變化, 或某現(xiàn)象隨另一現(xiàn)象而變動的 情況; 直方圖:表示連續(xù)性資料的頻數(shù)分布; 散點圖:適用于直線相關
9、分析,說明兩個變量間的數(shù)量關系和變化趨勢。抽樣分布與參數(shù)估計抽樣研究的目的是用樣本信息來推斷總體特征,即統(tǒng)計推斷,包括兩個內(nèi)容:一是總體參數(shù)的估計,二是假設檢驗。1、抽樣誤差:由于變異的存在,抽樣研究所造成的樣本統(tǒng)計量與總體參數(shù)之間的差異或各樣本統(tǒng)計量之間的差異稱為抽樣誤差。常用標準誤=反映均數(shù)抽樣誤差的大??;用率的標準誤(T P反映率的抽樣誤差的大??;用Possion計數(shù)的標準誤口反映其抽樣誤差的大小。2、 中心極限定理和正態(tài)分布推理:從正態(tài)分布 N(y,t 2)總體中以固定n隨機抽取樣本, 樣本均數(shù)X的分布仍服從正態(tài)分布,即使是從偏態(tài)分布總體中隨機抽樣,只要n足夠大,X的 分布也近似正態(tài)分
10、布。樣本均數(shù)的均數(shù)仍為 卩,樣本均數(shù)的標準差為:y。樣本均數(shù)的抽樣誤差;x (簡稱標準誤)是反映均數(shù)抽樣誤差大小的指標。CT- =x V n用樣本均數(shù)S作為t的估計值,則SXSv n3、t分布:將x看成變量值,那么可將正態(tài)變量進行 u變換(u=x-卩/ t)后,也可將N(卩,2)變換成標準正態(tài)分布N( 0,1)。常用s作為t的估計值,統(tǒng)計量為t,此分布為t分布統(tǒng)計量t= a t曲線的形態(tài)變化與自由度V的大小有關。V越小,t值越分散,曲線越低Sx平,V逐漸增大時,則t分布逐漸逼近正態(tài)分布,當v=無窮大時,t分布即為u分布。4、總體均數(shù)的估計有兩種方法:一種是點估計,即用統(tǒng)計量X估計總體均數(shù)二是區(qū)
11、間估計,亦稱可信區(qū)間。(1)t未知且n?。簒-t a /2,V S X V 卩 V X+t a/2,V Sx(2) T未知,但n足夠大,t分布逼近u分布:X-Ua/2SXuV x+Ua/2Sx(3) T 已知:X -u a /2 T X V 卩 V X +Ua/2 T X標準差標準差和標準誤的比較標準誤-2S二嚴(XX) n 一1表示觀察值的變異程度大小計算變異系數(shù)CV=S 100%x確定醫(yī)學參考值的范圍 計算標準誤sF n估計均數(shù)的抽樣誤差大小估計總體均數(shù)可信區(qū)間x-t a /2 , V S xVX +t a/2 , V S X進行假設檢驗數(shù)值變量資料的假設檢驗1、 假設檢驗的原理:假設在一
12、次抽樣研究中得出了 u1.96,則pw 0.05,此為小概率事件, 依據(jù)“小概率事件在一次隨機試驗中認為是不可能發(fā)生的” 的定理,可認為此樣本不是來自該 總體。2、 步驟:建立假設和確定檢驗水準;假設有兩種,一種是檢驗假設,常稱 無效假設或零假 設,記為H0,假設樣本所代表的總體參數(shù)與已知總體參數(shù)相等;另一種是 備擇假設,記為H, 是與H0相聯(lián)系且對立的假設;檢驗水準,亦稱顯著性水準,是判斷拒絕或不拒絕 H0,也是允 許犯I型錯誤的概率,通常用0.05。 選定檢驗方法和計算統(tǒng)計量確定 P值,做出推斷結論。P值是指從H)所規(guī)定的總體中隨機 抽樣時,獲得等于及大于現(xiàn)有樣本統(tǒng)計量的概率。3、 t檢驗
13、:適用于:樣本均數(shù)與總體均數(shù)比較(c未知且nv50或nv30);成組設計的 兩小樣本均數(shù)的比較(ni,n2均小于30或50);配對設計的兩樣本均數(shù)比較。應用條件:當樣本含量較?。╪v 50或nv30)時,要求樣本來自正態(tài)分布總體;用于成 組設計的兩樣本均數(shù)比較時,要求兩樣本來自總體方差相等的總體。4、單樣本t檢驗:用于樣本均數(shù)與已知總體均數(shù)的比較,研究目的是推斷樣本所代表的總體 均數(shù)卩與已知總體均數(shù)卩0有無差別。統(tǒng)計量t= x - T v=n-1s/Jn5、配對t檢驗:用于配對設計資料的 兩均數(shù)的比較。其研究目的是推斷某種處理有無作用, 或兩種處理的效果有無差別。配對設計類型有3種:先將受試對
14、象按配比條件配對,然后用隨機分組方法將各對中的2個受試對象分別分配到不同的處理組;同一對象分別接受2種不同處理;同一對象處理前后。t=產(chǎn)(d是差值的樣本均數(shù))v=n-1sd / J n&兩樣本t檢驗:用于完全隨機設計的兩樣本均數(shù)的 比較,兩個樣本來自兩個總體,其研究Xj -x2 _ 為 _x2 t=Sxi _ x2v=n i+n 2-22 2s1 ( ni )* S2 (n2 * 1) / 1 1、()n? - 2n?7、單樣本u檢驗:用于樣本均數(shù)與已知總體均數(shù)比較,其研究目的同tXi JX2(丄+丄)ni n2檢驗。研究目的是推斷樣本所代表的總體均數(shù)卩與已知總體均數(shù)卩0有無差別。其統(tǒng)計量u=
15、8、兩樣本的u檢驗X 卩0 s/ . n:用于完全隨機設計的兩樣本均數(shù)的比較,兩個樣本來自兩個總體,其研究目的是推斷兩樣本所分別代表的總體均數(shù)是否相等。其統(tǒng)計量為:Xi - X?Xi - X?U=-=-SXi 芯.S總離均差平方和SS和自由度v / ni s; /門29、正態(tài)性檢驗和方差齊性檢驗:資料在做假設檢驗之前首先應該檢驗資料是否來自正態(tài)總體, 并且它們的方差是否齊。SS總=二二:(Xjj -x) = X2- C x)2 / n10、兩類錯誤:v總=門-13、組間離均差平方和SS組間,自由度v組間和均方MS且間ni k 0 X)x)2SSSS組間=竺(v組間=k-1 MS組間=組間i 4
16、ninv組間4、組內(nèi)離均差平方和SS組內(nèi),自由度v組內(nèi)和均方MS且內(nèi)SS組內(nèi)=SS總-SS 組間 v 組內(nèi) =n-k MS 組內(nèi)=SS組內(nèi)/v組內(nèi)多樣本均數(shù)比較的方差分析的應用條件:各樣本是相互獨立的隨機樣本;各樣本來自正態(tài) 分布總體;各總體方差相等,即方差齊。5、完全隨機設計資料的方差分析:亦稱單因素的方差分析,可用于完全隨機設計的多個樣本 均數(shù)比較的資料,研究目的是推斷各個樣本所代表的總體均數(shù)是否相等。單因素方差分析的計算公式變異來源Ssv MS F總變異、-2 -Cn-1組間變異k C -j)272Ci出mk-1SSa間MS組間v組間MS組內(nèi)組內(nèi)變異SS 總-SS組間n-kSS組內(nèi)/v組
17、內(nèi)C為校正系數(shù)C= r -)2/n6配伍組設計資料的方差分析:亦稱兩因素的方差分析,用于配伍組設計的多個樣本均數(shù)比 較的資料,其研究目的是推斷各樣本所代表的總體均數(shù)是否相等, 但考慮了個體差異對試驗 效 應的影響。兩因素方差分析的計算公式變異來源SSvMSF總變異 -2 -Cn-1bk C Xj)2處理組ck-1SS處理/v處理MS處理/MS誤差i bkb C Xj)2配伍組j ik-cb-1SS配伍/v配伍MS配伍/MS誤差誤差SS總-SS處理-SS配伍(k-1)(b-1)SS誤差/v誤差C為校正系數(shù)C= (7 x)2/n b為配伍組數(shù)分類資料的假設檢驗1、二項分布:應用條件:各觀察單位只能
18、具有兩種相互對立的結果已知發(fā)生某結果的概率為n,其對立結果的概率為1- n n次試驗是在相同的條件下進行的。性質:卩=nn(T =.nn (1 -n )若均數(shù)和標準差用率表示,則卩 p=n(T p= . n (1 一 n ) / nn未知時,用樣本率P作為n的估計值,則Sp=p(1二p)/n總體率的估計:正態(tài)近似法:當樣本含量n足夠大,且樣本率p或1-p均不太小,如np與n(1-p )均大于5時樣本率p的抽樣誤差分布近似正態(tài)分布,可信區(qū)間為:(p-U a/2Sp, p + Ua /2Sp)2、Poisson分布:對于二項分類變量,若某結果發(fā)生的概率很小,如 nV 0.05時,單位時間、 人群、
19、空間內(nèi)“陽性”發(fā)生次數(shù)x (x=0,1, 2,)的概率可用Poisson分布概率函數(shù)來描述:P(x)=e/x!遞推公式:P (0) =eP (x 1)卩x應用條件:n V 0.05夕卜,其余同二項分布 分布的性質:卩,表示單位時間、人群、空間內(nèi)(1) 、Poisson分布式一種單參數(shù)的離散型分布,其參數(shù)為 某事件平均發(fā)生的次數(shù)。(2) 、Poisson分布的方差 加與均數(shù)相等。(3) 、Poisson分布可以看成是二項分布的極限形式。(4) 、Poisson分布的極限形式也是二項分布,一般當 n20時,可按正態(tài)分布處理,當n 0.01時,二項分布可以當作 Poisson分布來處理。(5) 、P
20、oisson分布具有 可加性??傮w均數(shù)的估計:(正態(tài)近似法)Ua/2JX,X+5/2仮)3、服從二項分布資料的假設檢驗:(1) 樣本率和總體率的估計:k直接計算法:最多有k例陽性的概率:P(x5且n (1-冗。)5時,nkJP (xk) = P(x)=1- P(x)k0二項分布接近正態(tài)分布u=P -冗0n 0“ - n 0) nx - n n0.n n0(1 - 冗。)(2) 兩樣本率的比較:目的是推斷兩個樣本各自代表的兩總體率是否相等,當兩個樣本率均 滿足正態(tài)近似條件時,可用u檢驗。其公式為:SP1Pl - P2Pd: APc為合并陽性率,Pc = ( X1+X2)/(nl+n2) X1,X
21、2為兩個樣本的陽性例數(shù)。4、服從Poisson分布的假設檢驗:對于Poisson分布的假設檢驗,對于總體均數(shù)可以用乘法將 小單位化大,也可以用除法將大單位化小,對于樣本均數(shù),只能用除法將大單位化小,而不能 用乘法將小單位化大。(1)樣本均數(shù)與總體均數(shù)的比較:適用于 卩o 20,且樣本陽性數(shù)X較小作單側檢驗時。k直接計算法:最多有k例陽性的概率:P(xk) = P(x)=1-v P(x)k0正態(tài)近似法:當卩20時,Poisson分布逼近正態(tài)分布。u=(x -卩0).卩0(2)兩樣本陽性數(shù)的比較:目的是推斷兩樣本各自代表的兩總體平均數(shù)是否相等。 陽性數(shù)X1, X2均大于20時,可用u檢驗。其計算用
22、兩種情況:u= X1 X2= X1 _ L X2Jx1 +X2広 x1 +Z兩樣本觀察單位(時間、面積、容積等)相同時:X2X2當兩樣本兩樣本觀察單位(時間、面積、容積等)不同時:2、/檢驗:是檢驗的檢驗統(tǒng)計量為式中A為實際頻數(shù),種連續(xù)型分布,u分布的平方即為 2分布。對于同一份資料,22,其基本公式為:2八(A;T),自由度 v=(行數(shù)-1)(列數(shù)-1)為第RT RCT為理論頻數(shù)。理論頻數(shù)T的計算公式為:Trc =匹n行第C列的理論頻數(shù),nR為相應行的合計,nc為相應列的合計,n為總例數(shù)。自由度v= (R-1) (C-1).2 2反映了實際頻數(shù)與理論頻數(shù)的吻合程度。只有考慮了自由度V的影響,
23、值才能正確地反應實際頻數(shù)A和理論頻數(shù)T的吻合程度6四格表資料的工檢驗:最小理論頻數(shù)T的判斷,R行與C列中,行合計數(shù)中的最小值與 T RC(ad - be)2n(a b)(e d)(a e)(b d)列合計數(shù)中的最小值所對應的理論頻數(shù)最小。(1) 四個表資料檢驗的專用公式:2(2) 四個表資料檢驗的校正公式:(|AT|0.5)2TQad -bq - n/2)2 n(a b)(e d)(a e)(b d) 在實際工作中,對于四個表資料,通常規(guī)定為:2 2(1)當n40且所有的T 5時,用檢驗的基本公式或四個表資料檢驗的專用公式;當Pa時,改用四個表資料的Fisher確切概率法。2(2)當n40,但
24、 KT5時,用四格表資料的檢驗的校正公式;或改用四個表資料的Fisher確切概率計算法。(3) 當nv40,或Tv 1時,用四個表資料的Fisher確切概率法。2(4) 連續(xù)性校正僅用于v=1的四格表資料,尤其是n小時。當v2時一般不做校正。7、配對四個表資料的2 $檢驗:由于在抽樣研究中,抽樣誤差是不可避免的,樣本中的b和e往往不相等(即bM e),為此,需進行假設檢驗,其檢驗統(tǒng)計量為:2 _ (b _ e)2b +cv=1 (條件為:b+c40)整2= _e_IL v=1 (條件為:b+ev40)b e本方法只適用于樣本含量不太大的資料,它僅考慮了兩種方法結果不一致的情況,而未考 慮樣本含
25、量n和兩種方法一致的兩種情況,所以當 n很大且a與d的數(shù)值也很大,而b與e 的數(shù)值相對較小時,即使檢驗統(tǒng)計結果有統(tǒng)計學意義,其實際意義也不大。8、行*列表資料的2檢驗:只適用于多個樣本率的比較,兩個或多個構成比的比較以及雙向無序分類資料的關聯(lián)性檢驗。其基本數(shù)據(jù)由三種情況: 多個樣本率的比較時,有 R行2列,稱為R*2表 兩個樣本的構成比比較時,有 2列C列,稱為2*C表 多個樣本的構成比比較以及雙向無序分類資料關聯(lián)性檢驗時,有R行C列,稱為R*C表。以上三種可統(tǒng)稱為行*列表資料2基本公式:基本公式為:2 =6 (A F2A專用公式:瓷=n(1)自由度 v=(行數(shù)-1)(列數(shù)-1)nRnC注意事
26、項:一般人行*列表資料中各格的理論頻數(shù)不能小于 1,且1T5格子數(shù)不能超過總數(shù)的1/5。如果 出現(xiàn)以上情況,可通過以下方法解決:最好是增加樣本含量,使得理論頻數(shù)增大;根據(jù)專 業(yè)知識,考慮能否刪去理論頻數(shù)太小的行和列, 能否將理論頻數(shù)太小的行和列于性質相近的鄰 行或鄰列合并;改用雙向無序 R*C的Fisher確切概率計算法。當多個樣本率比較時,所得統(tǒng)計推斷為拒絕 Ho,接受H1時,只能認為各樣本率間總的來說 有差別,但不能說明任兩個樣本率間均有差別,需要做多個樣本率的多重比較。2對于有序的R*C表資料不宜用檢驗。對于R*C表的資料要根據(jù)分類類型和研究目的選 用恰當?shù)臋z驗方法。9、雙向無序分類資料
27、的關聯(lián)性檢驗: 對于此資料,常常需要分析兩個分類變量之間有無關系,符合參數(shù)檢驗應用條件的資料應首選參數(shù)檢驗;而不能滿足參數(shù)檢驗應用條件的資料, 應選用非參數(shù)檢驗。主要選擇編秩的方法,比較統(tǒng)計變量T,而做出統(tǒng)計推斷。直線回歸與相關分析1、直線相關:如果兩個隨機變量中,當其中的一個變量由大到小的變化時,另一個變量也相 應的由大到?。ê笥尚〉酱螅┑淖兓?,并且相應變化的散點圖在直角坐標系呈現(xiàn)直線趨 勢,則稱這兩個隨機變量存在直線相關。相關分析是研究變量和變量集合之間數(shù)量協(xié)同變化關系的密切程度和方向的統(tǒng)計方法。要求:兩個變量X和丫都服從正態(tài)分布,嚴格說應服從雙變量正態(tài)分布。直線相關系數(shù):用于說明具有直線
28、相關關系的兩個變量間的相關關系的密切程度和相關方向; 亦稱積差相關系數(shù),總體的為p,樣本的為丫。p _x和y的協(xié)方差了 _ 二(x-x)(y y) _1In2(1 )1 -則Z的可信區(qū)間為(”(n匚3) , (n二3),對其進行二2z的變換,可以得出t的可信區(qū)間直線相關分析的注意事項: 算相關系數(shù)時首先繪制散點圖,判斷兩變量是否存在線性趨勢;相關分析時要求X、丫均為隨機變量,而不能用于事先界定 X、丫的資料;相關分析時必須剔除異常點;相關分析要有實際意義,兩變量相關,并不一定存在聯(lián)系,可能是另外一種因素引起的;分層資料不宜盲目的合并,進行相關分析;同時進行相關分析時,如果不能確定各層研究對 象
29、具有同質基礎,不宜盲目合并。不能將假設檢驗中 顯著性大小理解為兩變量相關程度的大小,后者是由相關系數(shù)的大小決定 的。2、等級相關:適用于不服從雙變量正態(tài)分布或總體分布未知的資料,還可用于等級資料的相關分析。等級相關系數(shù)表示兩個變量間相關系數(shù)的密切程度與相關方向s基本思想:對于不符合正態(tài)分布的資料或等級資料, 將兩個變量的原始觀察值分別由小到大編 秩,然后利用量變量的秩次計算相關系數(shù)。3、直線回歸: 處理兩個變量間線性數(shù)量依存關系的一種統(tǒng)計分析方法?;貧w方程為:y =a bx?為應變量,給定x的y的條件均數(shù)的估計值;b為回歸斜率,表示當自變量x每變化1個單位時,應變量y平均變化b個單位;a為截距
30、,表示沒有自變量x時 其他因素對y的平均影響。線性回歸模型的前提條件:線性:應變量y的總體均數(shù)與自變量x呈線性關系;因此進行回歸分析前應先繪制散點圖;獨立:任意兩個觀察單位之間相互獨立;正態(tài)性:對任意給定x的值,y均服從正態(tài)分布;該分布的均數(shù)是回歸直線上與 x值相對應 的那點的縱坐標;等方差:自變量x的取值范圍內(nèi),不論x取什么值,y都具有相同的方差。直線回歸分析的步驟:繪制散點圖,通過觀察散點的形態(tài)來判斷線性假設是否成立;建立直線回歸方程,即求出回歸參數(shù) a和b;通常用最小二乘法估計參數(shù),即要求殘差平方 和達到最小; (Xi -x)(yi -y)1 xyC x)27 (Xi-x)2i 41 x
31、xa = y _bxC x)C y)(X, y );直線的左端延長與縱軸的焦點必然是截距a?;貧w方程的假設檢驗:檢驗方法有方差分析和t檢驗 方差分析:基本思想:將應變量 y的總變異SS總分解成SS回歸和SS剩余兩部分,然后利用F 檢驗來判斷回歸方程是否成立。任意一點P( x,y)的縱坐標被回歸直線與均數(shù)y截成3段:三部分的變異可以表示為:a (y_y)S気歸=bl xy = $1 xxSS 剩余 =SS 總-SS 回歸/亠、r曰|占厲、r苗*八l SS歸節(jié)回歸MS回歸統(tǒng)計量F的計算公式:F 一 SS剩余-剩余MS剩余 回歸系數(shù)的t檢驗:基本思想:通過樣本回歸系數(shù)b與總體均數(shù)回歸系數(shù)B進行比較來
32、判斷 回歸方程是否成立。有關公式如下:1、處理因素:研究者根據(jù)研究目的確定的,通過合理安排實驗,從而科學的考察其作用大小 的因素;3、 交叉設計:是在自身配對設計基礎上發(fā)展起來的雙因素設計, 該設計考慮了 1個處理因素, 此因素有兩個水平(A,B),并且還考慮了 2個與處理因素無交互作用的非處理因素對實驗效 應的影響。適用條件及應注意的問題:處理因素只有2個水平(A,B ),且2個非處理因素(實驗階段、受試對象)與處理因素之 間無交互作用;兩個實驗階段之間要安排一定的間隔時間,以便消除前一階段治療措施的殘留效應, 保證兩3、 Cox回歸模型中偏回歸系數(shù)的意義:當其他協(xié)變量都不變時,Xi每變化一
33、個單位,相對危險度的自然對數(shù)(LnRR)變化-i個單位。流行病學意義:在其他因素不變的條件下,暴露組發(fā)病或死亡是非暴露組的倍數(shù)。生存分析生存時間:廣義的生存時間是指從某個起始事件開始到某個終點事件的發(fā)生(出現(xiàn)反應)所 經(jīng)歷的時間。也稱為失效時間。=v (0-勺)2+1 (y- y)2即SS總=SS回歸+SS剩余各部分的意義:ss總:即iyy = 7 (y-y)2,為y的總離均差平方和,反映未考慮x和y的回歸關系時的y的變 異;SS回歸:即(?-y)2,稱回歸平方和,反映在y的總變異中,由于X和y的直線關系而使y 變異減小的部分,即在總變異中可以用 x解釋的部分;SS回歸越大,說明回歸效果越好,
34、即SS 總中可用X與丫線性關系解釋的變異越多。SS剩余:即7 (y -02,殘差平方和或剩余平方和,反映X和y的線性影響之外的一切因素對 y 的變異的作用,即在總變異中無法用x解釋的部分。該部分越小說明直線回歸的估計值誤差越 小;各部分的自由度為: 十總=十回歸+勒剩余勒總=n-1, 回歸=1, 剩余=n-2各部分變異的計算公式為:SS總八(y -y)2 二二C y)2ntbbSXYSXY為剩余標準差,是指扣除了 x因變量線性影響后離散程度。擬合效果評價:回歸模型的擬合優(yōu)度假設檢驗,檢驗回歸方程對樣本數(shù)據(jù)的擬合程度。 決定系數(shù)R2表示,R2 = *5蹇 總體回歸系數(shù)的區(qū)間估計:(b-t一 .s
35、b, bt .sb)回歸方程的應用:利用回歸方程進行預報;統(tǒng)計控制。 直線回歸分析的注意事項:I回歸分析要有實際意義,注意變量之間的內(nèi)在聯(lián)系和規(guī)律,兩變量之間還必須是因果關系; n對資料的要求:一般y來自正態(tài)總體的隨機變量,x可以是正態(tài)總體的隨機變量,也可以 是精確測量和嚴密控制的值;川進行分析前應先繪制散點圖;IV必須剔除一些異常點;V回歸方程的適用范圍不能隨意外延。其適用范圍一般以自變量取值范圍為界。 直線相關和回歸的區(qū)別與聯(lián)系:區(qū)別: 資料的要求不同:相關要求兩個變量呈雙變量正態(tài)分布;回歸要求y服從正態(tài)分布,而x可以是精確測量和嚴格控制的變量; 統(tǒng)計意義不同:相關反映的是兩變量間的伴隨關
36、系, 二者的關聯(lián)程度如何,而回歸反映的是 兩變量間的依存關系,即因果關系,或從屬關系; 分析的目的不同:相關分析的目的是描述兩個變量間的相互關系, 用r來反映這種關系的方 向以及密切程度,而回歸分析的目的是描述兩個變量間的數(shù)量依存關系, 從而進行統(tǒng)計預測和 統(tǒng)計控制;聯(lián)系: 對于同一資料,r和b的符號一致,說明兩變量間關系的方向; 相關系數(shù)與回歸系數(shù)的假設檢驗是等價的,對于同一樣本,t廣仏,實際應用中只檢驗其中之一即可; 二者可以相互解釋,相關系數(shù)的平方和等于回歸平方和占總平方和的比例,即反映應變量y的總變異中歸因于x的部分;實驗設計的概述廠實驗室研究:以動物或標本為研究對象實驗研究的分類 臨
37、床試驗:以人為研究對象-社區(qū)干預試驗:以社區(qū)人群為研究對象,又稱半試驗性研究處理因素試驗設計的基本因素 t)表示。生存率隨時間記為S(t):t個時段后仍存活的概率,及生存時間大于等于t的概率,用P (Tt的變化而變化,即生存率是相對于時間 t的函數(shù),稱為生存函數(shù),若前t個時段沒有刪失:S(t、t時段結束時仍存活的人數(shù)S(t) P(T t)研究期初觀察人數(shù)若觀察期內(nèi)有刪失,假定觀察對象在各個單位時段內(nèi)是否生存的時間是相互獨立的,其生 存概率分別用5, P2.Pt,則S(t)二P!P2.Pt : |丨Pjtj 生存函數(shù)又稱累積生存概率,即將時刻 t尚存活看成是前t個時段一直存活的累計結果。2、生存
38、分析的基本思路:對資料的要求:樣本要有代表性,由隨機抽樣的方法獲得,要有一定的數(shù)量;完全數(shù)據(jù)所占的比例不能太 少,即截尾值不宜太多;截尾值出現(xiàn)的原因無偏性;生存時間盡可能精確;缺項要盡量 補齊。目的是推斷兩樣本所分別代表的總體均數(shù)是否相等。I型錯誤:拒絕了實際上成立的H0,即樣本來自卩=卩o的總體,由于抽樣的偶然性,按a =0.05 檢驗水準拒絕了 H0,接受H。這類在假設檢驗中拒絕了原本正確的 H0的錯誤稱為I型錯誤。, 理論上犯I型錯誤的概率為a,a值得大小視研究目的而定。通常設 a =0.05。U型錯誤:不拒絕了實際上不成立的 H0,即樣本來自卩工卩0的總體,由于抽樣的偶然性,按 a =
39、0.05檢驗水準不拒絕H),這類在假設檢驗中不拒絕原本不正確的 H)的錯誤稱為U型錯誤。 犯U型錯誤的概率為B,它只有與特定的Hi結合起來才有意義。同時減少a和B的方法是增加樣本含量。i- B稱為檢驗效能或把握度,即兩總體確有差別時, 按a水準能識別該差別的能力。如i- B =0.95表示:若兩總體確有差別,理論上平均i00次抽 樣中,有95次能得出兩總體有差別的結論。11、假設檢驗時應注意的事項: 要有嚴密的抽樣研究設計-假設檢驗的前提 正確選用檢驗方法:完全隨機的設計的兩數(shù)值變量資料比較時, 若n小且方差齊,則選用兩 樣本t檢驗;若方差不齊,則選用t檢驗或成組設計的兩樣本比較的秩和檢驗;若 ni,n2均大 于50,則選用兩樣本u檢驗。 正確理解“顯著性”的含義 對差別有無統(tǒng)計學意義的判斷不能絕對化。方差分析1、 基本思想:按研究目的和設計類型,將總變異的離均差平方和SS和自由度v分別分解成 若干部分,并求得各相應部分的變異。其中的組內(nèi)變異或誤差主要反映個體差異或抽樣誤差,其它部分的變異與之比較得出統(tǒng)計量 F值,由F值的大小確
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 兼職品牌形象大使合同
- 二零二五年度車輛內(nèi)飾清洗與維修合同
- 2025年度電子商務實習生勞動合同規(guī)范
- 二零二五年度都市農(nóng)業(yè)溫室大棚租賃管理合同
- 二零二五年度5G網(wǎng)絡建設合作意向協(xié)議書
- 2025年度頂賬房快速變現(xiàn)轉讓協(xié)議
- 2025年度離婚財產(chǎn)分割與子女教育費用承擔協(xié)議
- 2025年度旅游行業(yè)兼職導游人員合作協(xié)議
- 二零二五年度體檢結果跟蹤服務合同
- 2025年度砂石場勞務人員技能鑒定與職業(yè)資格認證合同
- 醛固酮增多癥與原發(fā)性醛固酮增多癥概述
- 20以內(nèi)破十法練習題-A4打印版
- 安全生產(chǎn)治本攻堅三年行動實施方案(2024-2026年) - 副本
- 山東省淄博市2023-2024學年高一下學期期末教學質量檢測數(shù)學試題
- 數(shù)據(jù)中心容災備份解決方案
- 七年級下冊第三單元名著導讀《駱駝祥子》公開課一等獎創(chuàng)新教學設計(公開課公開課一等獎創(chuàng)新教案及作業(yè)設計)
- 2025屆新高考生物精準復習+提高農(nóng)作物產(chǎn)量
- 幾何圖形中求線段線段和面積等最值問題 中考數(shù)學
- 真太陽時調整
- TD/T 1037-2013 土地整治重大項目可行性研究報告編制規(guī)程(正式版)
- 2024年時政試題庫(奪分金卷)
評論
0/150
提交評論