版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、醫(yī)學(xué)統(tǒng)計學(xué)基本概念:醫(yī)學(xué)統(tǒng)計學(xué)Statistics:醫(yī)學(xué)統(tǒng)計學(xué)是以醫(yī)學(xué)理論為指導(dǎo),應(yīng)用概率論與數(shù)理統(tǒng)計的有關(guān)原理和方法,研究醫(yī)學(xué)資料的搜集、整理、分析和推斷的一門科學(xué)。同質(zhì)和異質(zhì):具有相同性質(zhì)的事物稱為同質(zhì)(homogeneous)。否則稱為異質(zhì)的或者間雜的(heterogeneous)。不同質(zhì)的個體不能籠統(tǒng)地混在一起分析,同質(zhì)和異質(zhì)是相對的概念。變異:同質(zhì)事物之間的差別稱為變異(variation),亦稱個體變異。變異的兩個方面:個體與個體間的差別同一個體重復(fù)測量值間的差別結(jié)果是隨機的,不可預(yù)測的;一種或多種不可控因素(已知的或未知的)作用下的綜合表現(xiàn);個體變異是普遍存在的;個體變異是有規(guī)律
2、的;沒有個體變異,就沒有統(tǒng)計學(xué)??傮w和樣本:總體(population):根據(jù)研究目的所確定的同質(zhì)觀察單位的全體;分為有限總體和無限總體。個體(individual):是構(gòu)成總體的最基本觀察單位。樣本(sample):是從總體中按照一定的目的隨機抽取的一部分具有代表性的個體集合。樣本含量(samplesize):樣本中包含的個體個數(shù)。參數(shù)和統(tǒng)計量:總體參數(shù)(parameter):描述某總體特征的指標,簡稱參數(shù),一般用希臘字母表示,如:卩、n。統(tǒng)計量(statistic):描述某樣本特征的指標,一般用拉丁字母表示,如:、s、p。在總體被確定之后,總體參數(shù)就是一個常數(shù),是不會變化的,不管你是否確切
3、知其大?。欢y(tǒng)計量是幾乎總是隨著樣本而變的。隨機(random):是指機會均等,目的是保證樣本對總體的代表性、可靠性。概率和頻率:頻率(relativefrequency):在n次隨機試驗中,事件A發(fā)生了m次,則比值m/n稱為事件A在這n次試驗中出現(xiàn)的頻率。概率(probability):是隨機事件發(fā)生可能性大小的一個度量,是一種參數(shù),常用P表示,0P按照取值的特性:數(shù)值變量numericalVariable定量變量:既有順序的意義,又有間隔的意義,可以認為是連續(xù)的;往往有單位;取值間的差異是可以度量的。分類變量categoricalVariable定性變量:取值是是分散、定性的,表現(xiàn)為互不相
4、容的類別和屬性。無序分類unorderedcategorics:無順序,無間隔,僅有分類-二項分類-多項分類1-W-爼別y開成甲人的血甌値tl壓1卜萍血圧盪1llf-協(xié):血忤普料丨敬怛hi譏擊艸莎訥nE第弓異常芮爼J有序分類orderedcategories等級變量:僅有順序,無單位;取值間的差異是不可度量的不同分類的互相轉(zhuǎn)化數(shù)值變量f無序分類變量數(shù)值變量f有序分類變量有序分類變量f無序分類變量信息量只有減少,不可增加統(tǒng)計描述指標,呈現(xiàn)方式可分為兩種統(tǒng)計圖:直觀,但精確度稍差統(tǒng)計報表:能盡量詳細,精確,但不夠直觀統(tǒng)計推斷:從樣本信息外推到總體,以最終獲得對所感興趣問題的解答參數(shù)估計:樣本f所在
5、總體特征假設(shè)檢驗:該指標可能的影響因素分析頻數(shù)分布頻數(shù)表編制步驟求極差:R=Xmax-Xminmaxmin選定適當?shù)慕M段數(shù)后估計組距:組段數(shù)的選取以能反映資料的分布特征為宜,一般取812組列出組段:組段的含義:包括組段的下限而不含組段的上限。如:3.2等價于3.2,3.5)。劃記歸組獲得頻數(shù)求頻率,完成頻數(shù)表:相應(yīng)的頻數(shù)除以總數(shù)即為頻率,各組段的頻率總和為1或者100%。頻數(shù)分布所提供的信息頻數(shù)分布圖用以表示數(shù)據(jù)的分布規(guī)律。觀察有無可疑值??疾旆植嫉念愋?。對稱分布非對稱分布(偏態(tài)分布)左偏態(tài)(負偏態(tài)):指分布的長尾在峰的左側(cè)。右偏態(tài)(正偏態(tài)):指分布的長尾在峰的右側(cè)??疾旆植嫉奶卣骷形恢?C
6、entralTendency):描述指標有平均數(shù)(算術(shù)均數(shù)(Mean)、幾何均數(shù)(GeometricMean)、中位數(shù)(Median)、百分位數(shù)(Percentile)。離散趨勢(TendencyofDispersion):描述指標有極差(Range)、四分位數(shù)間距(interquartilerange)、方差(Varianee)、標準差(StandardDeviation)、變異系數(shù)(coefficientofvariation)。平均數(shù)應(yīng)用的注意事項:同質(zhì)的資料計算平均數(shù)才有意義。均數(shù)適用于:單峰對稱分布的資料。幾何均數(shù)適用于:對數(shù)變換后單峰對稱的資料。等比資料、滴度資料、對數(shù)正態(tài)分布資料
7、。計算幾何均數(shù)時:變量值中不能有0同一組變量值不能同時存在正、負值,若變量值全為負值,可先將負號除去,算出結(jié)果后再冠以負號中位數(shù):理論上可用于任何分布資料,常用于描述偏態(tài)資料,開口資料,有不確定值的資料的集中位置。但當資料適合計算均數(shù)或幾何均數(shù)時,不宜用中位數(shù)。中位數(shù)和百分位數(shù)在樣本含量較少時不穩(wěn)定,越靠兩端越不穩(wěn)定;中位數(shù)在抗極端值的影響方面,比均數(shù)具有較好的穩(wěn)定性,但不如均數(shù)精確。不同質(zhì)的資料應(yīng)考慮分別計算平均數(shù)。百分位數(shù):樣本含量較少時不宜計算靠近兩端的百分位數(shù)。平均數(shù)要與變異指標結(jié)合使用。變異度指標:四分位數(shù)間距(inter-quartilerange):QUQ值的極差。Y(x-沙EG
8、-XJ2b2=s=n一1P75P25,即中間一半觀察2(X-2=方差及標準差:變異系數(shù)(coefficientofvariation,CV):為標準差和均數(shù)的比值,排除了平均水平的影響,并取消了單位。因此變異系數(shù)常用于:CV=Sx100%比較度量衡單位不同的兩組或多組資料的變異度一X比較均數(shù)相差懸殊的兩組或多組資料的變異度變異度的正確應(yīng)用:極差不穩(wěn)定,不靈敏A標準差的基本內(nèi)容是離均差,它顯示一組變量值與其均數(shù)的間距,故標準差直接地、總結(jié)地、平均地描述了變量值的離散程度。在同質(zhì)的前提下,標準差大表示變量值的離散程度大,即變量值的分布分散、不整齊、波動較大;反之,標準差小表示變量值的離散程度小,即
9、變量值的分布集中、整齊、波動較小。變異系數(shù)派生于標準差,其應(yīng)用價值在于排除了平均水平的影響,并消除了單位。6.總結(jié):A每個觀察指標均有其特定的變異規(guī)律;描述變異:圖形描述統(tǒng)計量描述平均數(shù):均數(shù)、幾何均數(shù)、中位數(shù)和百分位數(shù)變異度:極差、方差、標準差、四分位數(shù)間距、變異系數(shù)不同分布的指標,用不同的統(tǒng)計量描述;用平均數(shù)與變異度共同描述。欝散程屢的描謹朋小結(jié)篥中適勢的描困斷小蠟LU分拉粒問距方建.標準英匪異幣敎中便數(shù)目廿住裁等比對赴正盂計布客種空耶,a苦種牛朮”怕16用窘料住何分布常用于偏姦井正擊井布度鼻祈準41不冋,,均敦和輕運用資料單峰對律廿市盤費和.平確定忸搭伽、年確左徂卄豹特點陽到全詣致?lián)uJU
10、劇全皿效據(jù)中啊散弗il算特點用計兩竭致留用到卞間敦番舉響時曲止負數(shù)正態(tài)分布公式:如果隨機變量X的概率密度函數(shù)為f(X)=1e弋苗(-xVXV+8)g2兀則稱X服從正態(tài)分布,記作XN(師2),其中,卩為分布的均數(shù),c為分布的標準差。卩為總體均數(shù),c為總體標準差。n為圓周率,e為自然對數(shù)的底,X為變量,代表橫軸的數(shù)值,f(X)為縱軸數(shù)值。正態(tài)分布的特征(重要):單峰分布;高峰在均數(shù)處;以均數(shù)為中心,均數(shù)兩側(cè)完全對稱。正態(tài)分布有兩個參數(shù)(parameter),即位置參數(shù)(均數(shù))和變異度參數(shù)(標準差)。有些指標本身不服從正態(tài)分布,但經(jīng)過變換之后可以服從正態(tài)分布。正態(tài)曲線下的面積分布有一定的規(guī)律。X軸與
11、正態(tài)曲線所夾面積恒等于1,對稱區(qū)域面積相等。卩-1.64cy+1.64c內(nèi)面積為90%;卩-1.96c附1.96c內(nèi)面積為95%;片2.58cy+2.58c內(nèi)面積為99%。正態(tài)分布曲線下的面積與標準正態(tài)分布曲線下的面積對應(yīng)(以標準正態(tài)離差為單位)。標準正態(tài)分布:標準正態(tài)分布(standardnormaldistributen)是均數(shù)為0,標準差為1的正態(tài)分布。記為N(0,1)。標準正態(tài)分布是一條曲線。概率密度函數(shù)為:甲(時(-xVuV+x)2k正態(tài)分布轉(zhuǎn)換為標準正態(tài)分布:若XN(pQ2),作變換:u二則u服從標準正態(tài)分布,u稱為標準正態(tài)離差(standardnormaldeviation)正態(tài)
12、分布的應(yīng)用:估計頻數(shù)分布、質(zhì)量控制、確定臨床參考值范圍參考值范圍:參考值范圍(refereneeinterval):是絕大多數(shù)正常人的某觀察指標所在的范圍,絕大多數(shù):90%,95%,99%等等。確定參考值范圍的意義:用于判斷正常與異常。“正常人”的定義:排除了影響所研究的指標的疾病和有關(guān)因素的同質(zhì)的人群。參考值范圍確定的原則:選定足夠例數(shù)的同質(zhì)的正常人作為研究對象:例數(shù)過少,代表性差;例數(shù)過多增加成本,且易導(dǎo)致正常標準把握不嚴,影響數(shù)據(jù)的可靠性控制檢測誤差判斷是否分組(性別,年齡組)單、雙側(cè)問題(onesidedortwosided)選擇百分界值(90%,95%)確定可疑范圍參考值范圍的估計方
13、法:正態(tài)分布法、百分位數(shù)法方法限單側(cè)上限正態(tài)分布迭AX十uas百分竝敷法抽樣誤差1概念:由于個體變異的存在,在抽樣研究中產(chǎn)生樣本統(tǒng)計量和總體參數(shù)之間的差異,稱為抽樣誤差(samplingerror)。抽樣誤差的表現(xiàn):樣本均數(shù)和總體均數(shù)間的差別、樣本均數(shù)和樣本均數(shù)間的差別。中心極限定理(eentrallimittheorem):從均數(shù)為,爭準差為。的正態(tài)總體中隨機抽樣,樣本均數(shù)服從均數(shù)為卩,標準差為en的正態(tài)分布。ox=2從均數(shù)為小標準差為。的任意,總體中隨機抽樣,當樣本含量足夠大時,樣本均數(shù)近似服從均數(shù)為”,標準差為z的正態(tài)分布。3.標準誤(standarderror):用樣本統(tǒng)計量的標準差來
14、反映抽樣誤差的大小,又稱標準誤。ss=X其中,。為總體標準差,n為抽樣的樣本例數(shù)在研究工作時,由于總體標準差常常未知,可以利用樣本標準差近似估計標準誤的意義:反映了樣本統(tǒng)計量(樣本均數(shù),樣本率)分布的離散程度,體現(xiàn)了抽樣誤差的大小。標準誤越大,說明樣本統(tǒng)計量(樣本均數(shù),樣本率)的離散程度越大,即用樣本統(tǒng)計量來直接估計總體參數(shù)越不可靠。標準誤的大小與標準差有關(guān),在例數(shù)n一定時,從標準差大的總體中抽樣,標準誤較大;而當總體一定時,樣本例數(shù)越多,標準誤越小。說明我們可以通過增加樣本含量來減少抽樣誤差的大小。t分布根據(jù)中心極限定理的內(nèi)容,當樣本含量足夠大時,對從均數(shù)為,標準差為。的任意總體中隨機抽樣所
15、得的樣本均數(shù)進行標準化變換,有g(shù)N(o,i)Qi:n由于總體標準差往往是未知的,此時往往用樣本標準差代替總體標準差:X-卩t這里,v為自由度,取值為n-1t=苛氣t分布的性質(zhì):t分布為一簇單峰分布曲線,高峰在0的位置上,說明從正態(tài)總體中隨機抽樣所得樣本計算出的t值接近0的可能性較大。t分布以0為中心,左右對稱。分布的高峰位置比u分布低,尾部高。t分布與自由度v有關(guān),自由度越小,t分布的峰越低,而兩側(cè)尾部翹得越高;自由度逐漸增大時,t分布逐漸逼近標準正態(tài)分布;當自由度為無窮大時,t分布就是標準正態(tài)分布。每一自由度下的t分布曲線都有其自身分布規(guī)律。t界值表??尚艆^(qū)間統(tǒng)計推斷(statistical
16、inferenee):是指如何抽樣,以及如何用樣本性質(zhì)推斷總體特征,分為參數(shù)估計(parameterestimation)、假設(shè)檢驗(hypothesistesting)。參數(shù)估計:點估計(PointEstimation):用樣本統(tǒng)計量作為總體參數(shù)的估計。區(qū)間估計(IntervalEstimation):可信區(qū)間定義:按一定的概率或可信度(1-a)用一個區(qū)間來估計總體參數(shù)所在的范圍,該范圍通常稱為參數(shù)的可信區(qū)間或者置信區(qū)間(confideneeinterval,Cl),預(yù)先給定的概率(1-a)稱為可信度或者置信度(confideneelevel),常取95%或99%??尚艆^(qū)間(C.CU)是一開
17、區(qū)間cLq稱為可信限??尚艆^(qū)間的計算:、_樣本含量較小時(n100):下限:X-1s-上限:X+1sa,vX口,vX樣本含量較大時(n100):下限:X-us-上限:X+us-TOC o 1-5 h z均數(shù)之差可信區(qū)間的計算:aXax均數(shù)之差”與“均數(shù)之差的標準誤”之比,服從自由度v=n1+n2-2的t分布。X-Xt=2t一珥+n2-2X1-X2-樣本含量較大時,服從標準正態(tài)分布。t=X1-X2N(0,1)s-X、-X2I合并方差:=(ni-1)S:+(n2;1)S;均數(shù)之差的標準誤s_=:S2(丄+丄)cn+n2-2X1-X2VCn/1212可信區(qū)間的兩個要素:可信度(Confidenee)
18、:準確性,可靠性,即1-a。一般取90%,95%,可人為控制。精確性(Precision):區(qū)間的大小,越小越好。必須二者兼顧可信區(qū)間的寬度:可信度越大,可信區(qū)間越寬,說明用該區(qū)間來估計總體參數(shù)(總體均數(shù))越可靠。標準差越小,可信區(qū)間就越窄,意味著如果總體內(nèi)變異程度較小時,在相同的可信度下,只需要一個比較窄的可信區(qū)間就可以估計總體均數(shù)。隨著樣本含量的增加,可信區(qū)間逐漸變窄。正確理解可信區(qū)間:可信度為95%的CI的涵義:每100個樣本,按同樣方法計算95%的CI,平均有95%的CI包含了總體參數(shù)。這里的95%,指的是方法本身!而不是某個區(qū)間!總體參數(shù)雖未知,但卻是固定的值,而不是隨機變量值。假設(shè)
19、檢驗假設(shè)檢驗的目的:基本目的就是分辨兩個樣本是否屬一個總體或兩個不同的總體,并對總體作出適當?shù)慕Y(jié)論。假設(shè)檢驗的一般步驟:步驟1:建立假設(shè),在假設(shè)的前提下有規(guī)律可尋零假設(shè)(nullhypothesis),記為H0,表示目前的差異是由于抽樣誤差引起的。備擇假設(shè)(alternativehypothesis),記為叫,表示目前的差異是主要由于本質(zhì)上的差別引起。步驟2:確立檢驗水準a(significaneelevel),用于確定何時拒絕H0,一般取0.05。步驟3:計算檢驗統(tǒng)計量和P值計算檢驗統(tǒng)計量,即計算樣本與所假設(shè)總體的偏離;樣本均數(shù)與總體均數(shù)卩。間的差別可以用統(tǒng)計量t來表示厶出sn統(tǒng)計量t表示,
20、在標準誤的尺度下,樣本均數(shù)與總體均數(shù)卩。的偏離。這種偏離稱為標準t離差(standardtdeviation)。根據(jù)抽樣誤差理論,在H0的假設(shè)前提下,統(tǒng)計量t服從自由度為n-1的t分布,即t值在0的附近的可能性大,遠離0的可能性小,離0越遠可能性越小。步驟5:界定P值并作結(jié)論假設(shè)檢驗應(yīng)用的注意事項:I型錯誤和II型錯誤:第一類錯誤(TypeIError):拒絕了實際上是成立的H。;第二類錯誤(TypeIIError):不拒絕實際上是不成立的H。檢驗水準的選擇:檢驗水準有單雙側(cè)之分。選擇要有專業(yè)背景。檢驗水準大小的選擇要慎重。選擇要在計算檢驗統(tǒng)計量之前。雙側(cè)檢驗與單側(cè)檢驗:在相同的檢驗水準下,正
21、確地選擇單側(cè)檢驗將比雙側(cè)檢驗得到更多的檢驗效能。P和a的涵義:P值意義:從H0總體中隨機獲得等于或大于現(xiàn)有統(tǒng)計量值的概率。拒絕H0時所冒的風(fēng)險。a的意義:犯第一類錯誤的概率;在假設(shè)檢驗之前人為規(guī)定;說明拒絕H0所冒的風(fēng)險不可超過a。正確對待統(tǒng)計結(jié)論和專業(yè)結(jié)論專業(yè)上有差別,假設(shè)檢驗拒絕H。:結(jié)果有效,可以下專業(yè)結(jié)論;專業(yè)上無差別,假設(shè)檢驗不拒絕H。:下無差別的結(jié)論;專業(yè)上有差別,假設(shè)檢驗不拒絕H。:增大樣本含量,減少二類誤差;專業(yè)上無差別,假設(shè)檢驗拒絕H。:改進試驗,減少誤差。Significant的意義假設(shè)檢驗和可信區(qū)間的區(qū)別:在相同的a之下,若假設(shè)檢驗拒絕H0(p=a),那么可信度為(1-a
22、)的可信區(qū)間必然不包括總體參數(shù);反之成立。可信區(qū)間和假設(shè)檢驗是對同一問題所作的不同結(jié)論,效果等價。t檢驗1.成組設(shè)計計量資料比較的t檢驗:X-XIt=12s-X1-X2合并方差(方差的加權(quán)平均):(n-1)s2+(n-1)s2s2=1122Cn+n212均數(shù)之差的標準誤:X-X:吩n+n自由度V=n,+n2-21212兩組資料比較的u檢驗:當隨機抽樣的樣本例數(shù)足夠大時,t檢驗統(tǒng)計量的自由度逐漸增大,t分布ijiij逐漸逼近于標準正態(tài)分布,可以利用近似正態(tài)分布的原理進行u檢驗。IX-Xu=ABS-XA-XBX-XAR芒nA+SRnR配對計量資料的t檢驗:配對t檢驗的實質(zhì)就是檢驗樣本差值的總體均數(shù)
23、是否為0。均數(shù)的假設(shè)檢驗應(yīng)用條件:獨立性、正態(tài)性、方差齊性與應(yīng)用條件有關(guān)的一些內(nèi)容:正態(tài)性檢驗、方差齊性檢驗、方差不齊時的近似t檢驗、大樣本時,均數(shù)比較的u檢驗兩個方差的齊性檢驗:Levene法:從同一總體隨機抽取的樣本之兩方差,其方差比(大方差/小方差)的分布服從F分布:F=S2大s2(小)F(a,2)方差分析(ANOVA)AnalysisofVariancet檢驗的局限性單因素兩水平因素和水平:因素(factors):將試驗對象隨機分為若干個組,加以不同的干預(yù),稱為處理因素。方差分析中所要檢驗的對象。在相同的因素下的不同干預(yù),稱為不同的水平(level)。方差分析中因素的不同表現(xiàn)。假如每次
24、t檢驗犯第一類錯誤的概率是0.05,那么要完全地進行比較,犯第一類錯誤的概率是1-(1-a)ko此為多組間不能進行t檢驗的原因。單因素方差分析:研究的是一個處理因素的不同水平間效應(yīng)的差別。完全隨機設(shè)計資料的方差分析:完全隨機設(shè)計是醫(yī)學(xué)科研中最為常用的一種實驗設(shè)計方法,它是將受試者隨機地分配到各實驗組(可包括對照組)中,進行實驗并觀察實驗效應(yīng)。該設(shè)計適用面廣,可用于兩組或多組實驗研究,且各組的樣本含量可不相等。工工(X-X)=Sn(X-+工工(X-X)ijiiiji2每組平均水平悵離總均數(shù)的稈庭忑質(zhì)差異+礎(chǔ)機謀差每一組內(nèi)部的變昇程.底之和髓機謹差證明:共計w個個怵,廿為屮r組.毎組有巧卞炸休2J
25、ssatm-E4?:-1z嘔內(nèi)=丫(血-可1心甘工工(X-X)=乞工血.-X)+(X-X=ZX(X一X)+2XZ(X一X)G一X)ii+”SG-X=ZZ,(X-X1+nX(X-XijjiiijiiiijiMSSSvSS(k-1)MS”F=組間=組間_組間=組間F=BetweenFMSSSvSS(n-k)MS組內(nèi)組內(nèi),組內(nèi)組內(nèi).W”hin隨機區(qū)組(配伍組)設(shè)計的方差分析(兩因素多個樣本均數(shù)的比較):概念:隨機區(qū)組設(shè)計又稱配伍組設(shè)計,是配對設(shè)計的擴展,也可看作1:X的配對設(shè)計。它是將幾個條件相同的受試者劃為一個區(qū)組(block)或配伍組,然后再按隨機的原則,將同一區(qū)組的受試者隨機分配到各實驗組中。
26、實質(zhì):兩因素方差分析。變異分解,N為總樣本含量,k為水平數(shù),n為區(qū)組數(shù);SS=工藝(X-X,V=N-1總ij總MSSSvF=處理=處理處理處理MSSSV誤差誤差誤差MSSSVF=配伍=配伍配伍配伍MSSSV誤差誤差誤差i=1j=1SS:藝(X-X)2處理i處理i=1j=1SS乏(X-X)配伍j配伍i=1j=1SS=SS+SS+SS總處理配伍誤差v=v+v+v總處理配伍誤差多個樣本均數(shù)的兩兩比較:又叫多重比較,MultipleComparison;分類:事先計劃好的多個試驗組與一個對照組之間的比較,多個組與一個特定組間的比較或者特定組間的比較;(PlannedMultipleComparison
27、)方差分析得到有差別的結(jié)論后多個組之間的相互比較的探索性研究(PostHoc);Student-Newman-Keuls法(SNK法)LSD法Dunnet法:兩兩比較的注意事項:對于方差分析后的兩兩比較均應(yīng)以方差分析拒絕相應(yīng)的H0為前提,且結(jié)論均不應(yīng)與方差分析的結(jié)論相悖;出現(xiàn)模糊結(jié)論,下結(jié)論應(yīng)該謹慎;方差分析拒絕H。,但兩兩比較得不出有差異的結(jié)論,因為方差分析效率高。兩種錯誤的說法:、X:耳X所來自的總體位于x1所來自的總體和x3所來自的總體之間;X1和X2來自同一總體,X2和X3來自同一總體。只能說明無法判斷樣本2來自于何總體!不能用t檢驗代替方差分析,也不能用t檢驗代替兩兩比較。無論是SN
28、K法還是Dunnett法,用于兩組比較時,結(jié)果與t檢驗等價。方差分析的要求:獨立隨機抽樣(Independence);正態(tài)性(Normality);方差齊性(Homoscedascity)方差齊性檢驗:兩個方差的齊性檢驗:Levene法f=s;/v二n-1,v=n-1,s2s2多個方差的齊性檢驗:Bartlett法zs;111112方差分析小結(jié):均數(shù)、方差的比較樣本均數(shù)與總體均數(shù)的比較(t檢驗)配對設(shè)計樣本均數(shù)的比較(配對t檢驗)兩樣本均數(shù)的比較(t檢驗,u檢驗,F檢驗,SNK,Dunnett)口多樣本均數(shù)的比較(F檢驗,ANOVA)各組間的比較(SNK法);各試驗組與某一對照組間的比較用(D
29、unnett法)口兩個方差的比較(F檢驗)兩個方差的比較(Bartlett檢驗)分析單因素多水平間的比較或多個因素對結(jié)果的影響;要求數(shù)據(jù)滿足正態(tài)性、獨立性、方差齊性單因素方差分析兩因素方差分析兩兩比較變量變換方差分析應(yīng)用于兩組資料的比較時,等價于t檢驗。變量變換(VariableTransformation)方差齊性是一個很strong的假設(shè),如果不齊,就一般不能直接進行方差分析;變量變換:目的:方差齊性化,正態(tài)化,線性化常用方法:對數(shù)變換、平方根變換、倒數(shù)變換、平方根反正弦變換分類資料的統(tǒng)計描述statisticaldescriptionforcategoricaldata巾分類資料1Exa
30、mpkn-A統(tǒng)計分析統(tǒng)計描述率、比、構(gòu)威比葬數(shù)估計總體率的可恬區(qū)間統(tǒng)計推斷.假設(shè)檢驗嚴檢驗、能驗常用的相對數(shù):作用:第一,表示事物出現(xiàn)的頻度。第二,便于比較。率:說明某現(xiàn)象發(fā)生的頻率與強度率=單位時間內(nèi))實際發(fā)生某現(xiàn)象的觀察單位數(shù)x100%率單位時間內(nèi))可能發(fā)生某現(xiàn)象的觀察單位數(shù)構(gòu)成比:說明某一事物內(nèi)部各組成部分所占比例構(gòu)成比=某一組成部分的觀察單位數(shù)同一事物各組成部分的觀察單位數(shù)比:說明A是B的多少倍,或百分之幾。2相對數(shù)應(yīng)用的注意事項:計算相對數(shù)時,分母不宜太小對兩個或多個相對數(shù)指標進行比較時,要考慮抽樣誤差,進行假設(shè)檢驗,并不能憑相對數(shù)的數(shù)值大小輕易做出結(jié)論。區(qū)分構(gòu)成比和率合計率的計算不
31、是直接求率的平均兩合計率的比較需注意兩者的內(nèi)部構(gòu)成是否相同3.標準化率標準化法就是用統(tǒng)一的標準對內(nèi)部構(gòu)成不同的各組頻率進行調(diào)整和對比的方法。不同的標準,所得標準化率不同;標準化率是相對的,其作用僅在于比較,而不表示實際水平;標準化率不代表總率,也不能完全代替分組比較。二項分布及其應(yīng)用Binomialdistributionanditsapplication:概率分布:隨機變量的概率分布:離散分布和連續(xù)分布,依賴于相應(yīng)的隨機變量是離散的還是連續(xù)的。概念:令x為n次試驗中的二項隨機變量,成功的概率P(成功)=p,則x的取值為0,1,2,,n,其聯(lián)合概率分布為二項分布。二項分布的概率設(shè)事件A出現(xiàn)的概
32、率為兀。則在n次獨立試驗中,事件A恰好出現(xiàn)k次的概率為:P(X=*)=Ck(l-3T)n*是撤實驗結(jié)果為“成功”,另外賤次結(jié)71Jc果為“失畋的槪率廠點稱為二項系數(shù)*是片次試驗中發(fā)生比次“成功、個占次失敗情形的可能數(shù)rt+(1兀)=兀0(1兀)n+1(1兀)n-1+L+Ck兀k(1兀)n-kn+L+n兀n-1(1兀)1+兀n(1兀)0二項分布的均數(shù)和方差如果XB(n,兀),貝VR=nrtXo2=nrt(1一兀)X.o=K(1兀)X若均數(shù)與標準差不用絕對數(shù)而用率表示時,二項分布的累計概率:g=兀po2=rt(1rt)/npopnkP(Xk)=XP(X)=P(0)+P(l)+.+P(k)0p(x+
33、1)=n4-亠p(x)X+llrt5.二項分布的圖形:當兀=0.5,分布對稱;當兀H0.5,分布呈偏態(tài);當兀0.5時分布呈正偏態(tài);當兀0.5時分布呈負偏態(tài);特別是當n值不是很大時,兀偏離0.5愈遠,分布愈偏。隨著n的增大,二項分布逐漸逼近正態(tài)分布。一般地說,如果n?;騨(1-兀)大于5時,??捎谜龖B(tài)近似原理處理二項分布問題。二項分布的應(yīng)用條件:各觀察單位只能有互相對立的一種結(jié)果,如陽性或陰性,生存或死亡等。已知發(fā)生某一結(jié)果(如陰性)的概率兀不變,其對立結(jié)果(如陽性)的概率貝為1-rt。n次試驗在相同條件下進行,且各觀察單位的結(jié)果互相獨立。二項分布的應(yīng)用率的抽樣分布及其性質(zhì)總體率的可信區(qū)間估計兩
34、總體率之差叫-兀2的區(qū)間估計兩樣本率的比較樣本率與總體率的比較7.1率的抽樣分布及其性質(zhì)(P37)在n足夠大時,樣本率p的分布近似正態(tài)分布。率的均數(shù)和方差XB(n,p),p=X/n7.2總體率的可信區(qū)間估計查表法n5n(1-p)5puasp當樣本例數(shù)n足夠大,且樣本率p利1-p)都不太小時,即np和n(1-p)均大于5時,樣本率p的抽樣分布近似正態(tài)分布.率的95%的CI:(p一1.96s,p+196s)pp7.3兩總體率之差n1-n2的區(qū)間估計設(shè)pi=r1/n1,p2=r2/n2是兩個樣本率,p1p2是它們的差。如果nipi,n1(1-p1),n1p1,n2(1-p2)均大于5,則正態(tài)近似的方
35、法可用于求總體率之差的可信區(qū)間:)P1-P2)-1.96xs,(pi-p2)+1.96xs丿12p1-p212p1-p2sP1-P2P1(1-P1)+P2(1P2)nn127.4兩樣本率的比較(n較大時)(page73)p-p0.679-0.830u=2=1.874s0.0806p廠p2I111s=p(1-p+丄)=0.0806卩嚴2斗ccnn127.5樣本率與總體率的比較(n較小時)例甌=0-0L=1/400,Hq-11=TTo,/|.71.a=0.05(單側(cè))兀S=HX=0)+/U二I)=Oh99400+400XO+99X0.01=0.0905(直接計算槪率法)按045水準,不拒絕盡,尚不
36、能認為該地新生兒染色體異常率低與一般新生兒級X檢驗一、兩個率的比較1.卡方四格表根據(jù)檢驗假設(shè)H0計算出來的數(shù)稱作理論頻數(shù)(theoreticalfrequency)T。差值屬于隨機誤差,用X2統(tǒng)計量表示:咒2事(AT)2X2分布2x檢驗的基本思想:如果H0假設(shè)成立,則實際頻數(shù)與理論頻數(shù)應(yīng)該比較接近。|A-TH0成立時,實際數(shù)與理論數(shù)的差別不會很大,出現(xiàn)較大X2值概率很小。若PWa,則拒絕H。;若Pa,則尚無理由拒絕它。*2檢驗的步驟:假設(shè)兩總體率相等H。:兩組總體存活率相同,即兀廠兀2;H:兩組總體存活率不同,即兀嚴兀2;a=0.05。實際數(shù)與理論數(shù)的差值服從X2分布查X2分布界值表確定P值并
37、作出推論卡方總結(jié):4.1比較兩個樣本率所代表的總體率是否有差別,實質(zhì)是考察現(xiàn)有的樣本頻數(shù)分布是否與假設(shè)下的理論頻數(shù)分布間差異到底是否包含了本質(zhì)上的差異。X2統(tǒng)計量代表了實際數(shù)與理論數(shù)吻合的程度。X,檢驗料,風(fēng)冋題一尸分傷Chk-s40,T5,用2檢驗;N40,但1WT5,用校正2。n40,或T1,用確切概率法。二、配對四格表資料的/2檢驗計算公式:,b+c、/b+c、(b)2(c)222y2=2+2(bc)2(b+c)2.當20b+c40,T5,用/2;n40,但1T5,用校正2。n40,或T40;20b+c40用校正X2。b+c10或n2-n110時_|T-n(N+1)/2-0.5u_1nn
38、(N+1)/1212N_n+n12相同秩次多時校正u_u/*cC_1Y(t3t)(N3N)cjj配對設(shè)計樣本比較的秩和檢驗:口Wilcoxon符號秩和檢驗計算等級之差值,對差值進行編秩,按差值的絕對值從小到大編秩,差值為0則舍去,絕對值相等則取平均秩次,最后求秩和并冠以差值的符號。查T界值表,或用近似u檢驗,計算P值;界定P值,作出結(jié)論。4.1步驟:H0:差值的總體中位數(shù)為0;H:差值的總體中位數(shù)不為0。a=0.05。T-n(n+1)/4-0.5x.n(n+1)(2n+1)/24當n50時,用u近似4.2符號秩和檢驗的基本思想:口總秩和為T=N(N+1)/2口如H0成立,則正負各半,T+與T_
39、均接近N(N+1)/4??谌绻嗖钐?,超出了事先規(guī)定的界值,則H0不成立。秩和檢驗的正確應(yīng)用口主要對等級資料進行分析;口秩和檢驗可用于任意分布(distributionfree)的資料;口秩和檢驗用于定量資料:極度偏態(tài)資料,如L型分布,或或個別數(shù)值偏離過大而不屬于過失誤差者各組離散度相差懸殊,即使經(jīng)過變換也難以達到方差齊性。資料中某一端或兩端含有不確定值分布型尚未確知時可以先用秩和檢驗法進行分析口兼有等級和定量性質(zhì)的資料成組設(shè)計兩樣本比較:口如資料滿足t檢驗的條件,應(yīng)該用t檢驗進行分析。此時,如果對這類資料用Wilcoxon秩和檢驗,實際上是將觀察單位的具體數(shù)值舍棄不用,只保留了秩次的信息,
40、使檢驗功效降低;尤其樣本含量較小時,降低更加明顯??谌缳Y料不滿足t檢驗的條件,而用了t檢驗,同樣降低了檢驗效能。參數(shù)檢驗和非參數(shù)檢驗口參數(shù)檢驗(ParametricTest):針對的是總體參數(shù),需要原始資料的總體分布信息t檢驗,u檢驗,F(xiàn)檢驗口非參數(shù)檢驗(NonParametricTest,DistributionFreeTest):無法獲知原始總體的情況;或者,不需要對原始總體的情況進行假定;檢驗的對象并非總體參數(shù)??ǚ綑z驗秩和檢驗口方差齊性的卡方檢驗屬于?口大樣本含量的秩和檢驗屬于?相關(guān)分析CorrelationAnalysis相關(guān)概念:當兩個數(shù)值變量之間出現(xiàn)如下情況:當一個變量增大,另一
41、個也隨之增大(或減少),我們稱這種現(xiàn)象為共變,也就是有相關(guān)關(guān)系。若兩個變量同時增加或減少,變化趨勢是同向的,則兩變量之間的關(guān)系為正相關(guān)(positivecorrelation);若一個變量增加時,另一個變量減少,變化趨勢是反向的,則稱為負相關(guān)(negativecorrelation)。直線相關(guān)(linearcorrelation),又稱簡單相關(guān),用以描述兩個呈正態(tài)分布的變量之間的線性共變關(guān)系,常簡稱為相關(guān)。用以說明具有直線關(guān)系的兩個變量間相關(guān)關(guān)系的密切程度和相關(guān)方向的指標,稱為相關(guān)系數(shù)(correlationcoefficient),又稱為積差相關(guān)系數(shù)(coefficientofproduct
42、-momentcorrelation),Pearson相關(guān)系數(shù)??傮w相關(guān)系數(shù)用希臘字母p表示,而樣本相關(guān)系數(shù)用廠表示,取值范圍均為-1,1。直線相關(guān)系數(shù)的計算:S(xX)(yY)r=QGX)工6ylllXXYY相關(guān)系數(shù)的確定及假設(shè)檢驗步驟:(1)畫散點圖,判斷是否有線性趨勢計算樣本相關(guān)系數(shù)r(3)對r進行假設(shè)檢驗:H0:p=0,兩變量間無直線相關(guān)的關(guān)系;H1:pHO。t=n一2(4)查表,求得P值,作出推論總體相關(guān)系數(shù)的區(qū)間估計從相關(guān)系數(shù)P等于0的總體中抽樣,樣本相關(guān)系數(shù)的分布是對稱的。但是從相關(guān)系數(shù)P不等于0的總體中抽樣,樣本相關(guān)系數(shù)的分布是偏態(tài)的。Fisher(1921)的z變換,使其趨于
43、正態(tài)分布:1(1+r、z=2叫JZ近似服從均數(shù)為Tin1(1+r)/(1r)標準差為1/石一3的e2正態(tài)分布。2e2z1r=e2z+1將r變換為z;根據(jù)z服從正態(tài)分布,估計z的可信區(qū)間;再將z變換回r。兩個相關(guān)系數(shù)的比較步驟:(1)畫散點圖(2)分別計算兩樣本r分別對兩相關(guān)系數(shù)進行假設(shè)檢驗H0:PiF;H1:P1HP2。a=0.05。(4)求兩者z并計算檢驗統(tǒng)計量u,按標準正態(tài)分布進行推論szz12zz(5)查界值表求得P,作出推論。相關(guān)的注意事項:相關(guān)是共變,而非因果。充分利用散點圖:判斷線性趨勢、判斷離群值排除資料的間雜性謹防多個變量間的相關(guān)性所帶來的虛假關(guān)系對資料本身的要求:雙變量正態(tài)分布線性回歸Linearregression1.直線回歸方程的建立取小一乘法y=a+bX”Z(X-X)(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度儲煤場安全運營及設(shè)備維護服務(wù)合同3篇
- 2025個人房屋的買賣合同范本「」
- 2025采購軟件系統(tǒng)買賣合同
- 2025減虧補貼包干版合同
- 2025合同模板合作辦學(xué)協(xié)議范本
- 2025全程策劃代理及廣告推廣合同
- 2025景觀技術(shù)咨詢合同
- 2025新商品房買賣合同申請書
- led屏租賃合同范本
- 房地產(chǎn)廣告策劃合同
- 2024年全國甲卷高考化學(xué)試卷(真題+答案)
- 汽車修理廠管理方案
- 人教版小學(xué)數(shù)學(xué)一年級上冊小學(xué)生口算天天練
- 三年級數(shù)學(xué)添括號去括號加減簡便計算練習(xí)400道及答案
- 蘇教版五年級上冊數(shù)學(xué)簡便計算300題及答案
- 澳洲牛肉行業(yè)分析
- 老客戶的開發(fā)與技巧課件
- 計算機江蘇對口單招文化綜合理論試卷
- 成人學(xué)士學(xué)位英語單詞(史上全面)
- KAPPA-實施方法課件
- GB/T 13813-2023煤礦用金屬材料摩擦火花安全性試驗方法和判定規(guī)則
評論
0/150
提交評論