研究生醫(yī)學(xué)統(tǒng)計(jì)學(xué)考點(diǎn)總結(jié)_第1頁
研究生醫(yī)學(xué)統(tǒng)計(jì)學(xué)考點(diǎn)總結(jié)_第2頁
研究生醫(yī)學(xué)統(tǒng)計(jì)學(xué)考點(diǎn)總結(jié)_第3頁
研究生醫(yī)學(xué)統(tǒng)計(jì)學(xué)考點(diǎn)總結(jié)_第4頁
研究生醫(yī)學(xué)統(tǒng)計(jì)學(xué)考點(diǎn)總結(jié)_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

醫(yī)學(xué)記錄學(xué)基本概念:1.醫(yī)學(xué)記錄學(xué)Statistics:醫(yī)學(xué)記錄學(xué)是以醫(yī)學(xué)理論為指導(dǎo),應(yīng)用概率論與數(shù)理記錄的有關(guān)原理和方法,研究醫(yī)學(xué)資料的搜集、整理、分析和推斷的一門科學(xué)。2.同質(zhì)和異質(zhì):具有相同性質(zhì)的事物稱為同質(zhì)(homogeneous)。否則稱為異質(zhì)的或者間雜的(heterogeneous)。不同質(zhì)的個(gè)體不能籠統(tǒng)地混在一起分析,同質(zhì)和異質(zhì)是相對(duì)的概念。3.變異:同質(zhì)事物之間的差別稱為變異(variation),亦稱個(gè)體變異。變異的兩個(gè)方面:個(gè)體與個(gè)體間的差別同一個(gè)體反復(fù)測量值間的差別結(jié)果是隨機(jī)的,不可預(yù)測的;一種或多種不可控因素(已知的或未知的)作用下的綜合表現(xiàn);個(gè)體變異是普遍存在的;個(gè)體變異是有規(guī)律的;沒有個(gè)體變異,就沒有記錄學(xué)。4.總體和樣本:總體(population):根據(jù)研究目的所擬定的同質(zhì)觀測單位的全體;分為有限總體和無限總體。個(gè)體(individual):是構(gòu)成總體的最基本觀測單位。樣本(sample):是從總體中按照一定的目的隨機(jī)抽取的一部分具有代表性的個(gè)體集合。樣本含量(samplesize):樣本中包含的個(gè)體個(gè)數(shù)。5.參數(shù)和記錄量:總體參數(shù)(parameter):描述某總體特性的指標(biāo),簡稱參數(shù),一般用希臘字母表達(dá),如:m、s、π。記錄量(statistic):描述某樣本特性的指標(biāo),一般用拉丁字母表達(dá),如:、s、p。在總體被擬定之后,總體參數(shù)就是一個(gè)常數(shù),是不會(huì)變化的,不管你是否確切知其大??;而記錄量是幾乎總是隨著樣本而變的。6.隨機(jī)(random):是指機(jī)會(huì)均等,目的是保證樣本對(duì)總體的代表性、可靠性。7.概率和頻率:頻率(relativefrequency):在n次隨機(jī)實(shí)驗(yàn)中,事件A發(fā)生了m次,則比值m/n稱為事件A在這n次實(shí)驗(yàn)中出現(xiàn)的頻率。概率(probability):是隨機(jī)事件發(fā)生也許性大小的一個(gè)度量,是一種參數(shù),常用P表達(dá),0≤P≤1。8.小概率事件和小概率原理:小概率事件:醫(yī)學(xué)研究中,將概率小于等于0.05或0.01的事件稱為小概率事件。小概率原理:小概率事件并不表達(dá)不也許發(fā)生,但在某一次實(shí)驗(yàn)中,是不會(huì)發(fā)生的。9.變量的分類:按照取值的特性:數(shù)值變量numericalVariable定量變量:既有順序的意義,又有間隔的意義,可以認(rèn)為是連續(xù)的;往往有單位;取值間的差異是可以度量的。分類變量categoricalVariable定性變量:取值是是分散、定性的,表現(xiàn)為互不相容的類別和屬性。無序分類unorderedcategorics:無順序,無間隔,僅有分類二項(xiàng)分類多項(xiàng)分類有序分類orderedcategorics等級(jí)變量:僅有順序,無單位;取值間的差異是不可度量的不同分類的互相轉(zhuǎn)化數(shù)值變量→無序分類變量數(shù)值變量→有序分類變量有序分類變量→無序分類變量信息量只有減少,不可增長記錄描述指標(biāo),呈現(xiàn)方式可分為兩種記錄圖:直觀,但精確度稍差記錄報(bào)表:能盡量具體,精確,但不夠直觀記錄推斷:從樣本信息外推到總體,以最終獲得對(duì)所感愛好問題的解答參數(shù)估計(jì):樣本→所在總體特性假設(shè)檢查:該指標(biāo)也許的影響因素分析頻數(shù)分布1.頻數(shù)表編制環(huán)節(jié)求極差:R=Xmax-Xmin選定適當(dāng)?shù)慕M段數(shù)后估計(jì)組距:組段數(shù)的選取以能反映資料的分布特性為宜,一般取8~12組列出組段:組段的含義:涉及組段的下限而不含組段的上限。如:3.2~等價(jià)于[3.2,3.5)。劃記歸組獲得頻數(shù)求頻率,完畢頻數(shù)表:相應(yīng)的頻數(shù)除以總數(shù)即為頻率,各組段的頻率總和為1或者100%。2.頻數(shù)分布所提供的信息頻數(shù)分布圖用以表達(dá)數(shù)據(jù)的分布規(guī)律。觀測有無可疑值??疾旆植嫉念愋?。對(duì)稱分布非對(duì)稱分布(偏態(tài)分布)左偏態(tài)(負(fù)偏態(tài)):指分布的長尾在峰的左側(cè)。右偏態(tài)(正偏態(tài)):指分布的長尾在峰的右側(cè)??疾旆植嫉奶匦约形恢?CentralTendency):描述指標(biāo)有平均數(shù)(算術(shù)均數(shù)(Mean)、幾何均數(shù)(GeometricMean)、中位數(shù)(Median)、百分位數(shù)(Percentile))。離散趨勢(TendencyofDispersion):描述指標(biāo)有極差(Range)、四分位數(shù)間距(interquartilerange)、方差(Variance)、標(biāo)準(zhǔn)差(StandardDeviation)、變異系數(shù)(coefficientofvariation)。3.平均數(shù)應(yīng)用的注意事項(xiàng):同質(zhì)的資料計(jì)算平均數(shù)才故意義。均數(shù)合用于:單峰對(duì)稱分布的資料。幾何均數(shù)合用于:對(duì)數(shù)變換后單峰對(duì)稱的資料。等比資料、滴度資料、對(duì)數(shù)正態(tài)分布資料。計(jì)算幾何均數(shù)時(shí):變量值中不能有0同一組變量值不能同時(shí)存在正、負(fù)值,若變量值全為負(fù)值,可先將負(fù)號(hào)除去,算出結(jié)果后再冠以負(fù)號(hào)中位數(shù):理論上可用于任何分布資料,常用于描述偏態(tài)資料,開口資料,有不擬定值的資料的集中位置。但當(dāng)資料適合計(jì)算均數(shù)或幾何均數(shù)時(shí),不宜用中位數(shù)。中位數(shù)和百分位數(shù)在樣本含量較少時(shí)不穩(wěn)定,越靠兩端越不穩(wěn)定;中位數(shù)在抗極端值的影響方面,比均數(shù)具有較好的穩(wěn)定性,但不如均數(shù)精確。不同質(zhì)的資料應(yīng)考慮分別計(jì)算平均數(shù)。百分位數(shù):樣本含量較少時(shí)不宜計(jì)算靠近兩端的百分位數(shù)。平均數(shù)要與變異指標(biāo)結(jié)合使用。4.變異度指標(biāo):四分位數(shù)間距(inter-quartilerange):QU-QL=P75-P25,即中間一半觀測值的極差。方差及標(biāo)準(zhǔn)差:變異系數(shù)(coefficientofvariation,CV):為標(biāo)準(zhǔn)差和均數(shù)的比值,排除了平均水平的影響,并取消了單位。因此變異系數(shù)常用于:比較度量衡單位不同的兩組或多組資料的變異度比較均數(shù)相差懸殊的兩組或多組資料的變異度5.變異度的對(duì)的應(yīng)用:極差不穩(wěn)定,不靈敏標(biāo)準(zhǔn)差的基本內(nèi)容是離均差,它顯示一組變量值與其均數(shù)的間距,故標(biāo)準(zhǔn)差直接地、總結(jié)地、平均地描述了變量值的離散限度。在同質(zhì)的前提下,標(biāo)準(zhǔn)差大表達(dá)變量值的離散限度大,即變量值的分布分散、不整齊、波動(dòng)較大;反之,標(biāo)準(zhǔn)差小表達(dá)變量值的離散限度小,即變量值的分布集中、整齊、波動(dòng)較小。變異系數(shù)派生于標(biāo)準(zhǔn)差,其應(yīng)用價(jià)值在于排除了平均水平的影響,并消除了單位。6.總結(jié):每個(gè)觀測指標(biāo)均有其特定的變異規(guī)律;描述變異:圖形描述記錄量描述平均數(shù):均數(shù)、幾何均數(shù)、中位數(shù)和百分位數(shù)變異度:極差、方差、標(biāo)準(zhǔn)差、四分位數(shù)間距、變異系數(shù)不同分布的指標(biāo),用不同的記錄量描述;用平均數(shù)與變異度共同描述。正態(tài)分布1.公式:假如隨機(jī)變量X的概率密度函數(shù)為(-∞<X<+∞)則稱X服從正態(tài)分布,記作X~N(m,s2),其中,m為分布的均數(shù),s為分布的標(biāo)準(zhǔn)差。m為總體均數(shù),s為總體標(biāo)準(zhǔn)差。π為圓周率,e為自然對(duì)數(shù)的底,X為變量,代表橫軸的數(shù)值,f(X)為縱軸數(shù)值。2.正態(tài)分布的特性(重要):單峰分布;高峰在均數(shù)處;以均數(shù)為中心,均數(shù)兩側(cè)完全對(duì)稱。正態(tài)分布有兩個(gè)參數(shù)(parameter),即位置參數(shù)(均數(shù))和變異度參數(shù)(標(biāo)準(zhǔn)差)。有些指標(biāo)自身不服從正態(tài)分布,但通過變換之后可以服從正態(tài)分布。正態(tài)曲線下的面積分布有一定的規(guī)律。X軸與正態(tài)曲線所夾面積恒等于1,對(duì)稱區(qū)域面積相等。m-1.64s~m+1.64s內(nèi)面積為90%;m-1.96s~m+1.96s內(nèi)面積為95%;m-2.58s~m+2.58s內(nèi)面積為99%。正態(tài)分布曲線下的面積與標(biāo)準(zhǔn)正態(tài)分布曲線下的面積相應(yīng)(以標(biāo)準(zhǔn)正態(tài)離差為單位)。3.標(biāo)準(zhǔn)正態(tài)分布:標(biāo)準(zhǔn)正態(tài)分布(standardnormaldistribution)是均數(shù)為0,標(biāo)準(zhǔn)差為1的正態(tài)分布。記為N(0,1)。標(biāo)準(zhǔn)正態(tài)分布是一條曲線。概率密度函數(shù)為:(-∞<u<+∞)正態(tài)分布轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布:若X~N(m,s2),作變換:則u服從標(biāo)準(zhǔn)正態(tài)分布,u稱為標(biāo)準(zhǔn)正態(tài)離差(standardnormaldeviation)4.正態(tài)分布的應(yīng)用:估計(jì)頻數(shù)分布、質(zhì)量控制、擬定臨床參考值范圍參考值范圍:1.參考值范圍(referenceinterval):是絕大多數(shù)正常人的某觀測指標(biāo)所在的范圍,絕大多數(shù):90%,95%,99%等等。擬定參考值范圍的意義:用于判斷正常與異常。“正常人”的定義:排除了影響所研究的指標(biāo)的疾病和有關(guān)因素的同質(zhì)的人群。2.參考值范圍擬定的原則:選定足夠例數(shù)的同質(zhì)的正常人作為研究對(duì)象:例數(shù)過少,代表性差;例數(shù)過多增長成本,且易導(dǎo)致正常標(biāo)準(zhǔn)把握不嚴(yán),影響數(shù)據(jù)的可靠性控制檢測誤差判斷是否分組(性別,年齡組)單、雙側(cè)問題(onesidedortwosided)選擇百分界值(90%,95%)擬定可疑范圍3.參考值范圍的估計(jì)方法:正態(tài)分布法、百分位數(shù)法抽樣誤差1.概念:由于個(gè)體變異的存在,在抽樣研究中產(chǎn)生樣本記錄量和總體參數(shù)之間的差異,稱為抽樣誤差(samplingerror)。抽樣誤差的表現(xiàn):樣本均數(shù)和總體均數(shù)間的差別、樣本均數(shù)和樣本均數(shù)間的差別。2.中心極限定理(centrallimittheorem):從均數(shù)為μ,標(biāo)準(zhǔn)差為σ的正態(tài)總體中隨機(jī)抽樣,樣本均數(shù)服從均數(shù)為μ,標(biāo)準(zhǔn)差為的正態(tài)分布。從均數(shù)為μ,標(biāo)準(zhǔn)差為σ的任意總體中隨機(jī)抽樣,當(dāng)樣本含量足夠大時(shí),樣本均數(shù)近似服從均數(shù)為μ,標(biāo)準(zhǔn)差為的正態(tài)分布。3.標(biāo)準(zhǔn)誤(standarderror):用樣本記錄量的標(biāo)準(zhǔn)差來反映抽樣誤差的大小,又稱標(biāo)準(zhǔn)誤。其中,σ為總體標(biāo)準(zhǔn)差,n為抽樣的樣本例數(shù)在研究工作時(shí),由于總體標(biāo)準(zhǔn)差經(jīng)常未知,可以運(yùn)用樣本標(biāo)準(zhǔn)差近似估計(jì)4.標(biāo)準(zhǔn)誤的意義:反映了樣本記錄量(樣本均數(shù),樣本率)分布的離散限度,體現(xiàn)了抽樣誤差的大小。標(biāo)準(zhǔn)誤越大,說明樣本記錄量(樣本均數(shù),樣本率)的離散限度越大,即用樣本記錄量來直接估計(jì)總體參數(shù)越不可靠。標(biāo)準(zhǔn)誤的大小與標(biāo)準(zhǔn)差有關(guān),在例數(shù)n一定期,從標(biāo)準(zhǔn)差大的總體中抽樣,標(biāo)準(zhǔn)誤較大;而當(dāng)總體一定期,樣本例數(shù)越多,標(biāo)準(zhǔn)誤越小。說明我們可以通過增長樣本含量來減少抽樣誤差的大小。t分布1.根據(jù)中心極限定理的內(nèi)容,當(dāng)樣本含量足夠大時(shí),對(duì)從均數(shù)為μ,標(biāo)準(zhǔn)差為σ的任意總體中隨機(jī)抽樣所得的樣本均數(shù)進(jìn)行標(biāo)準(zhǔn)化變換,有2.由于總體標(biāo)準(zhǔn)差往往是未知的,此時(shí)往往用樣本標(biāo)準(zhǔn)差代替總體標(biāo)準(zhǔn)差:這里,ν為自由度,取值為n-13.t分布的性質(zhì):t分布為一簇單峰分布曲線,高峰在0的位置上,說明從正態(tài)總體中隨機(jī)抽樣所得樣本計(jì)算出的t值接近0的也許性較大。t分布以0為中心,左右對(duì)稱。分布的高峰位置比u分布低,尾部高。t分布與自由度n有關(guān),自由度越小,t分布的峰越低,而兩側(cè)尾部翹得越高;自由度逐漸增大時(shí),t分布逐漸逼近標(biāo)準(zhǔn)正態(tài)分布;當(dāng)自由度為無窮大時(shí),t分布就是標(biāo)準(zhǔn)正態(tài)分布。每一自由度下的t分布曲線都有其自身分布規(guī)律。t界值表??尚艆^(qū)間1.記錄推斷(statisticalinference):是指如何抽樣,以及如何用樣本性質(zhì)推斷總體特性,分為參數(shù)估計(jì)(parameterestimation)、假設(shè)檢查(hypothesistesting)。2.參數(shù)估計(jì):點(diǎn)估計(jì)(PointEstimation):用樣本記錄量作為總體參數(shù)的估計(jì)。區(qū)間估計(jì)(IntervalEstimation):3.可信區(qū)間定義:按一定的概率或可信度(1-α)用一個(gè)區(qū)間來估計(jì)總體參數(shù)所在的范圍,該范圍通常稱為參數(shù)的可信區(qū)間或者置信區(qū)間(confidenceinterval,CI),預(yù)先給定的概率(1-α)稱為可信度或者置信度(confidencelevel),常取95%或99%。可信區(qū)間(CL,CU)是一開區(qū)間CL、CU稱為可信限。4.可信區(qū)間的計(jì)算:樣本含量較小時(shí)(n≤100):下限:上限:樣本含量較大時(shí)(n>100):下限:上限:5.均數(shù)之差可信區(qū)間的計(jì)算:均數(shù)之差”與“均數(shù)之差的標(biāo)準(zhǔn)誤”之比,服從自由度n=n1+n2-2的t分布。樣本含量較大時(shí),服從標(biāo)準(zhǔn)正態(tài)分布。合并方差: 均數(shù)之差的標(biāo)準(zhǔn)誤:6.可信區(qū)間的兩個(gè)要素:可信度(Confidence):準(zhǔn)確性,可靠性,即1-α。一般取90%,95%,可人為控制。精確性(Precision):區(qū)間的大小,越小越好。必須兩者兼顧7.可信區(qū)間的寬度:可信度越大,可信區(qū)間越寬,說明用該區(qū)間來估計(jì)總體參數(shù)(總體均數(shù))越可靠。標(biāo)準(zhǔn)差越小,可信區(qū)間就越窄,意味著假如總體內(nèi)變異限度較小時(shí),在相同的可信度下,只需要一個(gè)比較窄的可信區(qū)間就可以估計(jì)總體均數(shù)。隨著樣本含量的增長,可信區(qū)間逐漸變窄。8.對(duì)的理解可信區(qū)間:可信度為95%的CI的涵義:每100個(gè)樣本,按同樣方法計(jì)算95%的CI,平均有95%的CI包含了總體參數(shù)。這里的95%,指的是方法自身!而不是某個(gè)區(qū)間!總體參數(shù)雖未知,但卻是固定的值,而不是隨機(jī)變量值。假設(shè)檢查1.假設(shè)檢查的目的:基本目的就是分辨兩個(gè)樣本是否屬一個(gè)總體或兩個(gè)不同的總體,并對(duì)總體作出適當(dāng)?shù)慕Y(jié)論。2.假設(shè)檢查的一般環(huán)節(jié):環(huán)節(jié)1:建立假設(shè),在假設(shè)的前提下有規(guī)律可尋零假設(shè)(nullhypothesis),記為H0,表達(dá)目前的差異是由于抽樣誤差引起的。備擇假設(shè)(alternativehypothesis),記為H1,表達(dá)目前的差異是重要由于本質(zhì)上的差別引起。環(huán)節(jié)2:確立檢查水準(zhǔn)α(significancelevel),用于擬定何時(shí)拒絕H0,一般取0.05。環(huán)節(jié)3:計(jì)算檢查記錄量和P值計(jì)算檢查記錄量,即計(jì)算樣本與所假設(shè)總體的偏離;樣本均數(shù)與總體均數(shù)m0間的差別可以用記錄量t來表達(dá)記錄量t表達(dá),在標(biāo)準(zhǔn)誤的尺度下,樣本均數(shù)與總體均數(shù)m0的偏離。這種偏離稱為標(biāo)準(zhǔn)t離差(standardtdeviation)。根據(jù)抽樣誤差理論,在H0的假設(shè)前提下,記錄量t服從自由度為n-1的t分布,即t值在0的附近的也許性大,遠(yuǎn)離0的也許性小,離0越遠(yuǎn)也許性越小。環(huán)節(jié)5:界定P值并作結(jié)論3.假設(shè)檢查應(yīng)用的注意事項(xiàng):A.I型錯(cuò)誤和II型錯(cuò)誤:第一類錯(cuò)誤(TypeIError):拒絕了事實(shí)上是成立的H0;第二類錯(cuò)誤(TypeIIError):不拒絕事實(shí)上是不成立的H0。B.檢查水準(zhǔn)的選擇:檢查水準(zhǔn)有單雙側(cè)之分。選擇要有專業(yè)背景。檢查水準(zhǔn)大小的選擇要慎重。選擇要在計(jì)算檢查記錄量之前。C.雙側(cè)檢查與單側(cè)檢查:在相同的檢查水準(zhǔn)下,對(duì)的地選擇單側(cè)檢查將比雙側(cè)檢查得到更多的檢查效能。D.P和a的涵義:P值意義:從H0總體中隨機(jī)獲得等于或大于現(xiàn)有記錄量值的概率。拒絕H0時(shí)所冒的風(fēng)險(xiǎn)。a的意義:犯第一類錯(cuò)誤的概率;在假設(shè)檢查之前人為規(guī)定;說明拒絕H0所冒的風(fēng)險(xiǎn)不可超過a。E.對(duì)的對(duì)待記錄結(jié)論和專業(yè)結(jié)論專業(yè)上有差別,假設(shè)檢查拒絕H0:結(jié)果有效,可以下專業(yè)結(jié)論;專業(yè)上無差別,假設(shè)檢查不拒絕H0:下無差別的結(jié)論;專業(yè)上有差別,假設(shè)檢查不拒絕H0:增大樣本含量,減少二類誤差;專業(yè)上無差別,假設(shè)檢查拒絕H0:改善實(shí)驗(yàn),減少誤差。F.Significant的意義4.假設(shè)檢查和可信區(qū)間的區(qū)別:在相同的α之下,若假設(shè)檢查拒絕H0(p<=α),那么可信度為(1-α)的可信區(qū)間必然不涉及總體參數(shù);反之成立??尚艆^(qū)間和假設(shè)檢查是對(duì)同一問題所作的不同結(jié)論,效果等價(jià)。t檢查1.成組設(shè)計(jì)計(jì)量資料比較的t檢查:合并方差(方差的加權(quán)平均):均數(shù)之差的標(biāo)準(zhǔn)誤:自由度n=n1+n2-22.兩組資料比較的u檢查:當(dāng)隨機(jī)抽樣的樣本例數(shù)足夠大時(shí),t檢查記錄量的自由度逐漸增大,t分布逐漸逼近于標(biāo)準(zhǔn)正態(tài)分布,可以運(yùn)用近似正態(tài)分布的原理進(jìn)行u檢查。3.配對(duì)計(jì)量資料的t檢查:配對(duì)t檢查的實(shí)質(zhì)就是檢查樣本差值的總體均數(shù)是否為0。4.均數(shù)的假設(shè)檢查應(yīng)用條件:獨(dú)立性、正態(tài)性、方差齊性與應(yīng)用條件有關(guān)的一些內(nèi)容:正態(tài)性檢查、方差齊性檢查、方差不齊時(shí)的近似t檢查、大樣本時(shí),均數(shù)比較的u檢查5.兩個(gè)方差的齊性檢查:Levene法:從同一總體隨機(jī)抽取的樣本之兩方差,其方差比(大方差/小方差)的分布服從F分布:6.方差不齊時(shí)兩樣本均數(shù)比較的近似t檢查:7.大樣本時(shí)均數(shù)比較的u檢查: 單樣本u檢查兩樣本u檢查方差分析(ANOVA)AnalysisofVariance t檢查的局限性—單因素兩水平1.因素和水平:因素(factors):將實(shí)驗(yàn)對(duì)象隨機(jī)分為若干個(gè)組,加以不同的干預(yù),稱為解決因素。方差分析中所要檢查的對(duì)象。在相同的因素下的不同干預(yù),稱為不同的水平(level)。方差分析中因素的不同表現(xiàn)。2.假如每次t檢查犯第一類錯(cuò)誤的概率是0.05,那么要完全地進(jìn)行比較,犯第一類錯(cuò)誤的概率是1-(1-a)k。此為多組間不能進(jìn)行t檢查的因素。3.單因素方差分析:研究的是一個(gè)解決因素的不同水平間效應(yīng)的差別。4.完全隨機(jī)設(shè)計(jì)資料的方差分析:完全隨機(jī)設(shè)計(jì)是醫(yī)學(xué)科研中最為常用的一種實(shí)驗(yàn)設(shè)計(jì)方法,它是將受試者隨機(jī)地分派到各實(shí)驗(yàn)組(可涉及對(duì)照組)中,進(jìn)行實(shí)驗(yàn)并觀測實(shí)驗(yàn)效應(yīng)。該設(shè)計(jì)合用面廣,可用于兩組或多組實(shí)驗(yàn)研究,且各組的樣本含量可不相等。 證明:5.隨機(jī)區(qū)組(配伍組)設(shè)計(jì)的方差分析(兩因素多個(gè)樣本均數(shù)的比較):概念:隨機(jī)區(qū)組設(shè)計(jì)又稱配伍組設(shè)計(jì),是配對(duì)設(shè)計(jì)的擴(kuò)展,也可看作1:X的配對(duì)設(shè)計(jì)。它是將幾個(gè)條件相同的受試者劃為一個(gè)區(qū)組(block)或配伍組,然后再按隨機(jī)的原則,將同一區(qū)組的受試者隨機(jī)分派到各實(shí)驗(yàn)組中。實(shí)質(zhì):兩因素方差分析。變異分解,N為總樣本含量,k為水平數(shù),n為區(qū)組數(shù);6.多個(gè)樣本均數(shù)的兩兩比較:又叫多重比較,MultipleComparison;分類:事先計(jì)劃好的多個(gè)實(shí)驗(yàn)組與一個(gè)對(duì)照組之間的比較,多個(gè)組與一個(gè)特定組間的比較或者特定組間的比較;(PlannedMultipleComparison)方差分析得到有差別的結(jié)論后多個(gè)組之間的互相比較的探索性研究(PostHoc);Student-Newman-Keuls法(SNK法)LSD法Dunnet法:7.兩兩比較的注意事項(xiàng):對(duì)于方差分析后的兩兩比較均應(yīng)以方差分析拒絕相應(yīng)的H0為前提,且結(jié)論均不應(yīng)與方差分析的結(jié)論相悖;出現(xiàn)模糊結(jié)論,下結(jié)論應(yīng)當(dāng)謹(jǐn)慎;方差分析拒絕H0,但兩兩比較得不出有差異的結(jié)論,由于方差分析效率高。兩種錯(cuò)誤的說法:X2所來自的總體位于X1所來自的總體和X3所來自的總體之間;X1和X2來自同一總體,X2和X3來自同一總體。只能說明無法判斷樣本2來自于何總體!不能用t檢查代替方差分析,也不能用t檢查代替兩兩比較。無論是SNK法還是Dunnett法,用于兩組比較時(shí),結(jié)果與t檢查等價(jià)。8.方差分析的規(guī)定:獨(dú)立隨機(jī)抽樣(Independence);正態(tài)性(Normality);方差齊性(Homoscedascity)9.方差齊性檢查:兩個(gè)方差的齊性檢查:Levene法多個(gè)方差的齊性檢查:Bartlett法10.方差分析小結(jié):A.均數(shù)、方差的比較樣本均數(shù)與總體均數(shù)的比較(t檢查)配對(duì)設(shè)計(jì)樣本均數(shù)的比較(配對(duì)t檢查)兩樣本均數(shù)的比較(t檢查,u檢查,F檢查,SNK,Dunnett)多樣本均數(shù)的比較(F檢查,ANOVA)各組間的比較(SNK法);各實(shí)驗(yàn)組與某一對(duì)照組間的比較用(Dunnett法)兩個(gè)方差的比較(F檢查)B.兩個(gè)方差的比較(Bartlett檢查)分析單因素多水平間的比較或多個(gè)因素對(duì)結(jié)果的影響;規(guī)定數(shù)據(jù)滿足正態(tài)性、獨(dú)立性、方差齊性單因素方差分析兩因素方差分析兩兩比較變量變換方差分析應(yīng)用于兩組資料的比較時(shí),等價(jià)于t檢查。11.變量變換(VariableTransformation)方差齊性是一個(gè)很strong的假設(shè),假如不齊,就一般不能直接進(jìn)行方差分析;變量變換:目的:方差齊性化,正態(tài)化,線性化常用方法:對(duì)數(shù)變換、平方根變換、倒數(shù)變換、平方根反正弦變換分類資料的記錄描述statisticaldescriptionforcategoricaldata 1.常用的相對(duì)數(shù):作用:第一,表達(dá)事物出現(xiàn)的頻度。第二,便于比較。率:說明某現(xiàn)象發(fā)生的頻率與強(qiáng)度構(gòu)成比:說明某一事物內(nèi)部各組成部分所占比例。比:說明A是B的多少倍,或百分之幾。2.相對(duì)數(shù)應(yīng)用的注意事項(xiàng):計(jì)算相對(duì)數(shù)時(shí),分母不宜太小對(duì)兩個(gè)或多個(gè)相對(duì)數(shù)指標(biāo)進(jìn)行比較時(shí),要考慮抽樣誤差,進(jìn)行假設(shè)檢查,并不能憑相對(duì)數(shù)的數(shù)值大小容易做出結(jié)論。區(qū)分構(gòu)成比和率合計(jì)率的計(jì)算不是直接求率的平均兩合計(jì)率的比較需注意兩者的內(nèi)部構(gòu)成是否相同3.標(biāo)準(zhǔn)化率標(biāo)準(zhǔn)化法就是用統(tǒng)一的標(biāo)準(zhǔn)對(duì)內(nèi)部構(gòu)成不同的各組頻率進(jìn)行調(diào)整和對(duì)比的方法。不同的標(biāo)準(zhǔn),所得標(biāo)準(zhǔn)化率不同;標(biāo)準(zhǔn)化率是相對(duì)的,其作用僅在于比較,而不表達(dá)實(shí)際水平;標(biāo)準(zhǔn)化率不代表總率,也不能完全代替分組比較。二項(xiàng)分布及其應(yīng)用Binomialdistributionanditsapplication:1.概率分布:隨機(jī)變量的概率分布:離散分布和連續(xù)分布,依賴于相應(yīng)的隨機(jī)變量是離散的還是連續(xù)的。2.概念:令x為n次實(shí)驗(yàn)中的二項(xiàng)隨機(jī)變量,成功的概率P(成功)=p,則x的取值為0,l,2,…,n,其聯(lián)合概率分布為二項(xiàng)分布。3.二項(xiàng)分布的概率設(shè)事件A出現(xiàn)的概率為p。則在n次獨(dú)立實(shí)驗(yàn)中,事件A恰好出現(xiàn)k次的概率為:4.二項(xiàng)分布的均數(shù)和方差假如X~B(n,p),則若均數(shù)與標(biāo)準(zhǔn)差不用絕對(duì)數(shù)而用率表達(dá)時(shí),二項(xiàng)分布的累計(jì)概率: 5.二項(xiàng)分布的圖形:當(dāng)p=0.5,分布對(duì)稱;當(dāng)p10.5,分布呈偏態(tài);當(dāng)p<0.5時(shí)分布呈正偏態(tài);當(dāng)p>0.5時(shí)分布呈負(fù)偏態(tài);特別是當(dāng)n值不是很大時(shí),p偏離0.5愈遠(yuǎn),分布愈偏。隨著n的增大,二項(xiàng)分布逐漸逼近正態(tài)分布。一般地說,假如np或n(1-p)大于5時(shí),??捎谜龖B(tài)近似原理解決二項(xiàng)分布問題。6.二項(xiàng)分布的應(yīng)用條件:①各觀測單位只能有互相對(duì)立的一種結(jié)果,如陽性或陰性,生存或死亡等。②已知發(fā)生某一結(jié)果(如陰性)的概率p不變,其對(duì)立結(jié)果(如陽性)的概率則為1-p。③n次實(shí)驗(yàn)在相同條件下進(jìn)行,且各觀測單位的結(jié)果互相獨(dú)立。7.二項(xiàng)分布的應(yīng)用率的抽樣分布及其性質(zhì)總體率的可信區(qū)間估計(jì)兩總體率之差p1-p2的區(qū)間估計(jì)兩樣本率的比較樣本率與總體率的比較7.1率的抽樣分布及其性質(zhì)(P37)在n足夠大時(shí),樣本率p的分布近似正態(tài)分布。率的均數(shù)和方差X~B(n,p),p=X/n樣本率的均數(shù): 樣本率的標(biāo)準(zhǔn)差:(率的標(biāo)準(zhǔn)誤)7.2總體率的可信區(qū)間估計(jì)①查表法n≤50②正態(tài)近似法np>5n(1-p)>5p±uasp當(dāng)樣本例數(shù)n足夠大,且樣本率p和(1-p)都不太小時(shí),即np和n(1-p)均大于5時(shí),樣本率p的抽樣分布近似正態(tài)分布.率的95%的CI:7.3兩總體率之差p1-p2的區(qū)間估計(jì)設(shè)p1=r1/n1,p2=r2/n2是兩個(gè)樣本率,p1-p2是它們的差。假如n1p1,n1(1-p1),n1p1,n2(1-p2)均大于5,則正態(tài)近似的方法可用于求總體率之差的可信區(qū)間:7.4兩樣本率的比較(n較大時(shí))(page73)7.5樣本率與總體率的比較(n較小時(shí))χ2檢查一、兩個(gè)率的比較1.卡方四格表根據(jù)檢查假設(shè)H0計(jì)算出來的數(shù)稱作理論頻數(shù)(theoreticalfrequency)T。2.χ2檢查的基本思想:假如H0假設(shè)成立,則實(shí)際頻數(shù)與理論頻數(shù)應(yīng)當(dāng)比較接近。差值屬于隨機(jī)誤差,用χ2記錄量表達(dá):H0成立時(shí),實(shí)際數(shù)與理論數(shù)的差別不會(huì)很大,出現(xiàn)較大χ2值概率很小。若P≤α,則拒絕H0;若P>α,則尚無理由拒絕它。3.χ2檢查的環(huán)節(jié):(1)假設(shè)兩總體率相等H0:兩組總體存活率相同,即π1=π2;H1:兩組總體存活率不同,即π1≠π2;α=0.05。(2)實(shí)際數(shù)與理論數(shù)的差值服從χ2分布查χ2分布界值表擬定P值并作出推論4.卡方總結(jié):4.1比較兩個(gè)樣本率所代表的總體率是否有差別,實(shí)質(zhì)是考察現(xiàn)有的樣本頻數(shù)分布是否與假設(shè)下的理論頻數(shù)分布間差異到底是否包含了本質(zhì)上的差異。χ2記錄量代表了實(shí)際數(shù)與理論數(shù)吻合的限度。4.2.χ2檢查相關(guān)問題-自由度4.3.χ2檢查相關(guān)問題-四格表專用公式:4.4.χ2檢查相關(guān)問題-χ2值的校正:χ2分布是連續(xù)性分布;定性資料;實(shí)際數(shù)過小,增長了第一類錯(cuò)誤。校正公式:4.5.χ2檢查相關(guān)問題-應(yīng)用條件:n≥40,T≥5,用c2檢查;N>40,但1≤T<5,用校正c2。n<40,或T<1,用確切概率法。二、配對(duì)四格表資料的c2檢查1.計(jì)算公式:2.當(dāng)20<b+c≤40時(shí),需要校正:3.配對(duì)四格表資料的c2檢查環(huán)節(jié)H0:兩種檢查方法陽性率相同,總體B=C;H1:兩種檢查方法陽性率不同,總體B≠C。a=0.05。計(jì)算記錄量并作出推論:三、多個(gè)率比較的c2檢查多組率或構(gòu)成比比較時(shí),由于行數(shù)或列數(shù)超過了2,我們把這樣的資料稱為行×列表資料。行×列表的χ2檢查記錄量:四、構(gòu)成比的比較五、總結(jié):c2檢查的應(yīng)用條件:四格表的分析方法選擇條件:n≥40,T>5,用c2;n≥40,但1≤T<5,用校正c2。n<40,或T<1,用Fisher確切概率。配對(duì)四格表的分析方法選擇條件:b+c>40;20<b+c≤40用校正c2。b+c<20,二項(xiàng)分布直接計(jì)算概率。R×C表的分析方法選擇條件:理論數(shù)不能小于1;理論數(shù)大于等于1小于5的格子數(shù)不超過總格子數(shù)的1/5。否則用Fisher確切概率;或似然比檢查(likelihoodratiotest)假如以上條件不能滿足,可采用:

增長樣本含量

刪去某行或某列

合理地合并部分行或列Fisher精確概率法多個(gè)率或構(gòu)成比比較的χ2檢查,結(jié)論為拒絕H0時(shí),僅表達(dá)幾組有差別,并非任2組之間都有差別。若要了解之,可進(jìn)行多重比較:χ2表的分割或率的可信區(qū)間法.對(duì)于有序的分類變量,采用卡方檢查方法不能考慮數(shù)據(jù)的有序性質(zhì)。為此,對(duì)于單向有序可采用秩和檢查、Ridit分析,雙向有序可采用趨勢檢查等。等級(jí)資料的記錄分析1.等級(jí)資料的特點(diǎn):既非呈連續(xù)分布的定量資料,也非僅按性質(zhì)歸屬于獨(dú)立的若干類的定性資料;比“定量”粗,而比一般的“定性”細(xì);等級(jí)間既非等距,亦不能度量。2.概念:秩次(rank):秩記錄量,是指所有觀測值按某種順序排列的位序;秩和(ranksum):同組秩次之和。秩次:在一定限度上反映了等級(jí)的高低;秩和:在一定限度上反映了等級(jí)的分布位置。對(duì)等級(jí)的分析,轉(zhuǎn)化為對(duì)秩次的分析。秩和檢查就是通過秩次的排列求出秩和,進(jìn)行假設(shè)檢查。3.成組設(shè)計(jì)兩樣本比較的秩和檢查:基本思想:假如H0成立,即兩組分布位置相同,A組的實(shí)際秩和應(yīng)接近理論秩和n1(N+1)/2;B組的實(shí)際秩和應(yīng)接近理論秩和n2(N+1)/2),或相差不大。假如相差較大,超過了預(yù)定的界值,則可認(rèn)為H0不成立。環(huán)節(jié):A.檢查假設(shè):H0:A、B兩組分布相同; H1:A、B兩組分布不同(互相偏離)。a=0.05。B.編秩,同一等級(jí)求平均秩次。C.求秩和并擬定檢查記錄量T,若兩樣本例數(shù)不等,以例數(shù)較少者為n1,檢查記錄量為T1。D.擬定P值(查表法,正態(tài)近似法)和做出推斷結(jié)論正態(tài)近似法(n1,n2-n1超過表的范圍時(shí))n1>10或n2-n1>10時(shí)相同秩次多時(shí)校正4.配對(duì)設(shè)計(jì)樣本比較的秩和檢查: Wilcoxon符號(hào)秩和檢查計(jì)算等級(jí)之差值,對(duì)差值進(jìn)行編秩,按差值的絕對(duì)值從小到大編秩,差值為0則舍去,絕對(duì)值相等則取平均秩次,最后求秩和并冠以差值的符號(hào)。查T界值表,或用近似u檢查,計(jì)算P值;界定P值,作出結(jié)論。4.1環(huán)節(jié):H0:差值的總體中位數(shù)為0;H1:差值的總體中位數(shù)不為0。a=0.05。當(dāng)n≤50時(shí),查界值表當(dāng)n>50時(shí),用u近似4.2符號(hào)秩和檢查的基本思想:總秩和為T=N(N+1)/2如H0成立,則正負(fù)各半,T+與T-均接近N(N+1)/4。假如相差太大,超過了事先規(guī)定的界值,則H0不成立。5.秩和檢查的對(duì)的應(yīng)用重要對(duì)等級(jí)資料進(jìn)行分析;秩和檢查可用于任意分布(distributionfree)的資料;秩和檢查用于定量資料:極度偏態(tài)資料,如L型分布,或或個(gè)別數(shù)值偏離過大而不屬于過失誤差者各組離散度相差懸殊,即使通過變換也難以達(dá)成方差齊性。資料中某一端或兩端具有不擬定值分布型尚未確知時(shí)可以先用秩和檢查法進(jìn)行分析兼有等級(jí)和定量性質(zhì)的資料成組設(shè)計(jì)兩樣本比較:如資料滿足t檢查的條件,應(yīng)當(dāng)用t檢查進(jìn)行分析。此時(shí),假如對(duì)這類資料用Wilcoxon秩和檢查,事實(shí)上是將觀測單位的具體數(shù)值舍棄不用,只保存了秩次的信息,使檢查功效減少;特別樣本含量較小時(shí),減少更加明顯。如資料不滿足t檢查的條件,而用了t檢查,同樣減少了檢查效能。6.參數(shù)檢查和非參數(shù)檢查參數(shù)檢查(ParametricTest):針對(duì)的是總體參數(shù),需要原始資料的總體分布信息t檢查,u檢查,F(xiàn)檢查非參數(shù)檢查(NonParametricTest,DistributionFreeTest):無法獲知原始總體的情況;或者,不需要對(duì)原始總體的情況進(jìn)行假定;檢查的對(duì)象并非總體參數(shù)。卡方檢查秩和檢查方差齊性的卡方檢查屬于?大樣本含量的秩和檢查屬于?相關(guān)分析CorrelationAnalysis1.相關(guān)概念:當(dāng)兩個(gè)數(shù)值變量之間出現(xiàn)如下情況:當(dāng)一個(gè)變量增大,另一個(gè)也隨之增大(或減少),我們稱這種現(xiàn)象為共變,也就是有相關(guān)關(guān)系。若兩個(gè)變量同時(shí)增長或減少,變化趨勢是同向的,則兩變量之間的關(guān)系為正相關(guān)(positivecorrelation);若一個(gè)變量增長時(shí),另一個(gè)變量減少,變化趨勢是反向的,則稱為負(fù)相關(guān)(negativecorrelation)。直線相關(guān)(linearcorrelation),又稱簡樸相關(guān),用以描述兩個(gè)呈正態(tài)分布的變量之間的線性共變關(guān)系,常簡稱為相關(guān)。用以說明具有直線關(guān)系的兩個(gè)變量間相關(guān)關(guān)系的密切限度和相關(guān)方向的指標(biāo),稱為相關(guān)系數(shù)(correlationcoefficient),又稱為積差相關(guān)系數(shù)(coefficientofproduct-momentcorrelation),Pearson相關(guān)系數(shù)??傮w相關(guān)系數(shù)用希臘字母ρ表達(dá),而樣本相關(guān)系數(shù)用r表達(dá),取值范圍均為[-1,1]。直線相關(guān)系數(shù)的計(jì)算:2.相關(guān)系數(shù)的擬定及假設(shè)檢查環(huán)節(jié):(1)畫散點(diǎn)圖,判斷是否有線性趨勢(2)計(jì)算樣本相關(guān)系數(shù)r(3)對(duì)r進(jìn)行假設(shè)檢查:H0:ρ=0,兩變量間無直線相關(guān)的關(guān)系;H1:ρ≠0。(4)查表,求得P值,作出推論3.總體相關(guān)系數(shù)的區(qū)間估計(jì)從相關(guān)系數(shù)r等于0的總體中抽樣,樣本相關(guān)系數(shù)的分布是對(duì)稱的。但是從相關(guān)系數(shù)r不等于0的總體中抽樣,樣本相關(guān)系數(shù)的分布是偏態(tài)的。Fisher(1921)的z變換,使其趨于正態(tài)分布:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論