分類的統(tǒng)計推斷-課件_第1頁
分類的統(tǒng)計推斷-課件_第2頁
分類的統(tǒng)計推斷-課件_第3頁
分類的統(tǒng)計推斷-課件_第4頁
分類的統(tǒng)計推斷-課件_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

分類的統(tǒng)計推斷PPT

從同一總體中隨機抽取n個觀察單位的一組樣本,計算得到的各個樣本率(p)不會都與總體率(π)完全相同,這種由于抽樣誤差引起的樣本率與總體率之間的差別稱為率的抽樣誤差。抽樣誤差的大小用樣本率的標準差來表示,即率的標準誤。一、率的抽樣誤差與標準誤2大家好1.率的標準誤計算(理論值)(估計值)計算公式:3大家好例:在某鎮(zhèn)按人口的1/20隨機抽取329人,作血清登革熱血凝抑制抗體反應檢驗,得到陽性率為8.81%,試求此陽性率的抽樣誤差。本例,已知:n=329,p=0.0881,代入公式可得:舉例說明標準誤的計算:4大家好例10-6為了解某地人群結核菌素試驗陽性率情況,某醫(yī)療機構在該地人群中隨機檢測了1773人,結核菌素試驗陽性有682人,陽性率為38.47%,試計算其標準誤。課堂練習:5大家好它是反映含量相同的樣本率的離散趨勢或變異程度的指標,率的標準誤大,則說明樣本率或率的抽樣誤差波動程度大,樣本對總體的代表性差,可靠性低;反之,則表示樣本率與總體率間教接近。2.率的標準誤用途它可以用于對總體率的區(qū)間估計與頻率間的顯著性檢驗。6大家好大家學習辛苦了,還是要堅持繼續(xù)保持安靜二、總體率的估計點估計

pπ用樣本率估計總體率!用的較少!8大家好區(qū)間估計1.正態(tài)近似法

當樣本含量n足夠大,樣本率p和(1--p

)均不太小時【可通過np與n(1--p)均大于5】,樣本率p的分布近似正態(tài)分布,這時可利用正態(tài)分布理論來估計總體率的可信區(qū)間。

u是標準正態(tài)分布雙側臨界值,在估計總體率的95%置信區(qū)間時,其值為1.96;99%置信區(qū)間時,其值為2.58。

計算公式:用一定概率來估計總體率的所在范圍。9大家好1095%的置信區(qū)間:

38.47%1.961.16%=36.20%~40.74%99%的置信區(qū)間:

38.47%2.581.16%=35.48%~41.46%

示例:求例題10-6中所示該地人群中結核菌素試驗陽性率95%和99%的置信區(qū)間。已知其陽性率為38.47%;標準誤為1.16%。10大家好在某鎮(zhèn)按人口的1/20隨機抽取329人,作血清登革熱血凝抑制抗體反應檢驗,得到陽性率為8.81%,求得陽性率的抽樣誤差為0.0156,試求抗體陽性率的95%及99%的可信區(qū)間?已知:n=329,p=0.0881,sp=0.0156n.p=329×0.0881=28.98>5,符合正態(tài)近似法的條件95%可信區(qū)間:

p±1.96×sp=

0.0881±1.96×0.0156=0.0575-0.1187

即:5.75%-11.87%99%可信區(qū)間:

p±2.58×sp=

0.0881±2.58×0.0156=0.0479-0.1283

即:4.79%-12.83%課堂練習:11大家好2.查表法當n,p不符合上述條件,如n較小(n50),特別是p接近于0或1時,需按二項分布原理估計總體率的可信區(qū)間。因其計算比較復雜,統(tǒng)計學家已經(jīng)編制了總體率可信區(qū)間估計用表,可根據(jù)樣本含量n和陽性數(shù)X查閱統(tǒng)計學專著中的附表。教材附表12大家好

例:某校校醫(yī)用儀器矯治25名學生的近視眼,其中3人近期有效,求該方法近期有效率的95%的可信區(qū)間。

n=25<50,采用查表法:在n=25橫行,和x=3的縱列交叉處上行的數(shù)值為2.5~31.2,即該法近期有效率的95%可信區(qū)間為:2.5%~31.2%13大家好附表7百分率的可信區(qū)間

上行:95%可信區(qū)間下行:99%可信區(qū)間

注意:表中X值只列出X≤n/2部分,當x>n/2時,應以n-X值查表,然后用100減去查得的數(shù)值,即為可信區(qū)間。14大家好例:某縣抽查了10名獻血員的HBsAg攜帶情況,陰性者8人,求該縣獻血員HBsAg陰性率的95%的可信區(qū)間。本例n=10,X=8,X>n/2,故以X=10-8=2查表,得到2.5~55.6,再用:

100-2.5=97.5;100-55.6=44.4即該縣獻血員HBsAg陰性率的95%的可信區(qū)間為44.4%~97.5%。例題:15大家好三、率比較的z(u)檢驗

當樣本含量n足夠大,樣本率既不接近于0也不接近于1時,樣本率的分布近似正態(tài)分布。樣本率和總體率之間、兩個樣本率之間的比較可用z(u)檢驗。16大家好1)建立檢驗假設,確定檢驗水準2)選定檢驗方法和計算統(tǒng)計量3)確定P值并作出推斷結論U檢驗的步驟:17大家好1.單個總體率的假設檢驗計算公式---樣本率與總體率的比較!樣本率與總體率比較的目的是推斷該樣本是否來自于已知總體,即推斷樣本率與總體率的差異是否由抽樣引起??傮w率一般為理論值、標準值或大量觀察所得的穩(wěn)定值。18大家好例題:

經(jīng)長期臨床觀察,發(fā)現(xiàn)胃潰瘍患者發(fā)生胃出血癥狀的占20%?,F(xiàn)某醫(yī)院觀察了304例65歲以上的老年胃潰瘍患者,有96例發(fā)生胃出血癥狀。問老年胃潰瘍患者是否較一般患者更易發(fā)生胃出血?65歲以上老年胃潰瘍患者胃出血率為:

P=96/304=31.58%,樣本p和1-p均不接近于零,且np與n(1-p)均大于5,樣本率的分布近似于正態(tài)分布。19大家好(1)建立檢驗假設,確定檢驗水準

H0:=0,即老年胃潰瘍患者胃出血發(fā)生率與一般患者相同

H1:>0,即老年胃潰瘍患者胃出血發(fā)生率高于一般患者單側=0.05

(2)計算檢驗統(tǒng)計量

(3)確定P值,做出推斷結論。查t值表(附表2)得,P<0.05,按=0.05水準拒絕H0,接受H1,認為老年胃潰瘍患者較一般患者更易發(fā)生胃出血。

20大家好2.完全隨機設計兩樣本率的比較計算公式表示為:Sp1-p2兩個總體率的假設檢驗主要是通過在兩個總體中分別進行抽樣所得的樣本率(p1;p2)來推斷總體率(π1;π2)是不是相等。

----兩個總體率的假設檢驗!分母實為兩個率的標準誤!21大家好例題:為了解某地小學生蛔蟲感染率的城鄉(xiāng)差異,抽樣調查了該地小學生共22792人,其中城鎮(zhèn)小學生抽查8207人,糞檢蛔蟲卵陽性數(shù)為701人,蛔蟲感染率為8.54%,鄉(xiāng)村小學生抽查14585人,糞檢蛔蟲卵陽性數(shù)為2167人,蛔蟲感染率為14.86%,試比較該地小學生蛔蟲感染率城鄉(xiāng)差異有無統(tǒng)計學意義。建立檢驗假設,確定檢驗水準

H0:1=2,H1:12,=0.052.計算統(tǒng)計量u值

1)先計算

22大家好3.確定P值,判斷結果確定P值和判斷結果:本題=13.739>2.58,P<0.01,按=0.05的水準拒絕H0,接受H1,差異有統(tǒng)計學意義。據(jù)此結果可以認為鄉(xiāng)村小學生蛔蟲感染率顯著高于城市小學生。2)計算標準誤3)計算u值

23大家好(Chi-squaretest)

2檢驗是現(xiàn)代統(tǒng)計學的創(chuàng)始人之一,英國統(tǒng)計學家K.Pearson于1900年提出的一種具有廣泛用途的假設檢驗方法。常用于分類變量資料的統(tǒng)計推斷。三、2檢驗24大家好1.Χ2檢驗的定義與基本思想定義:

當需要進行兩個或兩個以上樣本率比較,并試圖從樣本率的差別來推斷其所代表的總體率是否也存在差別時,為保證推斷的科學性,必須做樣本率的顯著性檢驗,這種檢驗的方法叫做χ2

檢驗。χ2

檢驗的基本思想

假設兩組資料率的差異來自抽樣誤差,用χ2

值反映實際頻率和理論頻數(shù)吻合的程度。

(一)四格表資料的Χ2檢驗四格表資料的Χ2檢驗可分為完全隨機設計(成組設計)兩樣本率比較的Χ2檢驗和配對設計Χ2的檢驗。25大家好四格表資料形式:

對于任何兩樣本率的資料,都可表達為以下四格表基本形式!26大家好χ2值、P值和統(tǒng)計結論χ2界值表:附表7--P362根據(jù)自由度和檢驗水準查表可得2界值,若2值≥20.05(),則可按=0.05的檢驗水準拒絕H0;若2值<20.05(),則還不能拒絕H0。27大家好

χ2值的大小與格子數(shù)多少有關,格子數(shù)越多(自由度越大),χ2值也會越大。

格子數(shù)實際就是指自由度,在四格表中,在周邊合計不變的條件下,其中一格的理論數(shù)確定以后,其余3個格子的理論數(shù)就沒有自由變動的余地了,故自由度()等于1.自由度()計算公式為:χ2界值表(P362)28大家好四格表專用公式:

為簡化計算,省去求理論頻數(shù)的過程,對于四個表資料可直接用專用公式計算值。連續(xù)性校正方法計算(后述)。若不能滿足條件,可用四格表校正公式(如下):29大家好例題:某醫(yī)師研究奧美拉唑(洛賽克)治療消化性潰瘍的療效,以西咪替?。ㄌ┪该溃┳鳛閷φ战M,觀察結果如下表,試問兩組病人的療效是否有差異?1.完全隨機設計兩樣本率的比較通過例題說明:表3-530大家好

注:a、b、c、d分別為四格表中的四個理論頻數(shù)(需計算),n為總例數(shù)。首先制四格表資料的效果計算表:表3-531大家好(1)建立檢驗假設,確定檢驗水準即洛賽克組與泰胃美組患者的有效率相同即洛賽克組與泰胃美組患者的有效率不同檢驗水準!操作步驟:32大家好(2)計算統(tǒng)計量值A為基本格子的實際頻數(shù);T為其理論數(shù)。

理論數(shù)是根據(jù)無效檢驗假設推算出來的。例題的無效假設為兩種藥物治療的有效率相同,都等于合計的有效率75.0%(90/120)。

值的大小反映了實際數(shù)與理論數(shù)的相差情況,若無效假設成立,則理論數(shù)和實際數(shù)相差不應該太大,較大的值出現(xiàn)的概率較小。故根據(jù)資料計算的值越大,就越有理由推翻無效假設。

或33大家好為第R行第C列格子的理論數(shù)為R行的合計數(shù)為第C列的合計數(shù)

為總例數(shù)

d=第2行第2列因為四格表的一個數(shù)(45)確定后,其他就不可變了,所以直接減就可以了。c=第2行第1列a=第1行第1列理論數(shù)計算公式b=第1行第2列求行列的“理論數(shù)”求:表中的

a;b;c;d為什么是60-45?表3-534大家好表3-8兩種藥物治療潰瘍病的效果計算表將計算得出的理論頻數(shù)填入表內!35大家好帶入公式計算值:(3)查表確定P值,做出統(tǒng)計推斷按水準,做出拒絕的結論。結論:洛賽克組患者的療效顯著高于泰胃美組患者的療效.36大家好用四格表專用公式計算:兩者計算結果完全相同,一般很少用基本公式計算!本例計算:本例滿足:37大家好再次復習以上操作步驟:(1)建立檢驗假設,確定檢驗水準即洛賽克組與泰胃美組患者的有效率相同即洛賽克組與泰胃美組患者的有效率不同檢驗水準:38大家好表兩種藥物治療潰瘍病的效果計算表(2)求理論頻數(shù)

求出一個即可!表3-539大家好(3)計算統(tǒng)計量值(4)確定P值

(5)判斷結果按水準,做出拒絕還是接受的結論。40大家好校正公式:

英國統(tǒng)計學家YatesF認為:2分布是一種連續(xù)性分布,而原始資料(分類變量資料)屬離散性分布,因此得到的統(tǒng)計量也是不連續(xù)的,由此計算的χ2值只能說近似于χ2分布,在自由度大于1,理論頻數(shù)皆大于5時這種近似性很好,而當自由度為1(四格表),尤其當有理論頻數(shù)小于5時,這種近似性就差一些,為改善2統(tǒng)計量分布的連續(xù)性,他建議將實際頻數(shù)和理論頻數(shù)之差的絕對值減去0.5以作校正。附:χ2統(tǒng)計量的連續(xù)性校正基本公式:41大家好在實際工作中,對于四格表資料,通常規(guī)定:(1)所有T≥5,且N≥40時,直接計算值,不用校正;(2)1≤T<5,且N≥40時,用連續(xù)性校正檢驗;(3)T<1或N<40,不能用卡方檢驗,用直接計算概率的方法。

“直接計算概率方法”可參考相應相關統(tǒng)計學專著,以下介紹連續(xù)性校正檢驗方法!42大家好例題:某醫(yī)生研究比較A、B兩種藥物對急性細菌性肺炎的療效,有關資料見下表,問兩種藥物的療效差別有無統(tǒng)計學意義?表3-9A、B兩藥治療急性細菌性肺炎的療效比較

該例屬于:1≤T<5,且N≥40,用連續(xù)性校正檢驗!

T22=228/64=2.75

<543大家好

按=1,查2值表,20.05(1)=3.84,2=4.793.84,P<0.05,按=0.05水準,拒絕H0,接受H1,認為兩藥的療效差別有統(tǒng)計學意義,A藥療效要好于B藥。

計算公式:44大家好

配對四格表資料也叫2×2列聯(lián)表,是對配對設計研究所獲得的計數(shù)資料進行比較。配對設計:1)同一批樣品用兩種不同的處理方法。2)觀察對象根據(jù)配對條件配成對子,同一對子內不同的個體分別接受不同的處理。3)在病因和危險因素的研究中,將病人和對照按配對條件配成對子,研究是否存在某種病因或危險因素。(二)配對資料的卡方檢驗45大家好應用公式:b+c≥40b+c<40ν=(行數(shù)-1)×(列數(shù)-1)=1配對卡方檢驗又稱McNemar檢驗

配對資料卡方檢驗公式的推導!46大家好

某研究者用凝集試驗和細菌培養(yǎng)兩種方法,同時對65例慢性菌痢患者的糞便進行檢查,結果如下表,問兩種方法檢出率是否有差別?

基本思想:表中a與d為結果相同的部分,兩種方法是否有差別可以不予考慮,主要比較結果不同部分b與c。如果兩種方法檢查效果相同,理論上應有總體B=C,故可以通過b、c的差別大小來判斷兩種方法的差別。例題:表3-10兩種方法檢出結果注意:a、b、c、d和前面講的理論數(shù)概念不同!47大家好檢驗步驟:①建立假設:

H0:B=C,

H1:B≠C,α=0.05②計算χ2值:b+c=15<40,故采用校正公式③確定P值:

ν=(2-1)×(2-1)=1,查界值表得χ20.05(1)=3.84,本例χ2=1.07<3.84,P值>0.05。④結論:按α=0.05水準,不拒絕H0

,故認為兩種方法檢查無差別兩種方法檢出結果注意:由于該檢驗只考慮了不一致的情況(b與c),而未考慮樣本含量n及一致結果(a與d),因此,當n很大而且兩法一致率較高(即a與d數(shù)值較大),b與c的數(shù)值相對較小時,即使檢驗結果有統(tǒng)計學意義,但實際意義并不大。48大家好例11-11用兩種血清學方法對100例肝癌患者進行檢測,有關檢測結果見表10-9,問兩種血清學方法檢測結果有無差別?表3-11兩種血清學方法對肝癌檢測的結果比較課堂練習49大家好H0:兩種方法檢出率相同,即B=CH1:兩種方法檢出率不同,即BC=0.05查表得,P<0.025,按=0.05水準,拒絕H0,接受H1,差別有統(tǒng)計學意義,可以認為兩種方法的檢出率不同,甲法較高。(1)(2)(3)b+c≥40兩分類變量的關聯(lián)性分析教材:208自主學習!甲法陽性檢出率:82/100=82%;乙方法:65/100=65%50大家好(三)行×列表資料的卡方檢驗行×列表卡方檢驗的通式:

=(R-1)(C-1)

當計數(shù)資料分析的表格行數(shù)或列數(shù)大于2時,其基本數(shù)據(jù)有R行C列,稱為行列表,簡稱R×C表。R×C表有多種資料形式,如多個樣本率的比較、構成比的比較、計數(shù)資料的關聯(lián)性分析等。51大家好表3-12三個地區(qū)花生的黃曲霉毒素B1污染率的比較例題:某研究者欲比較三個地區(qū)花生中黃曲霉毒素B1的污染情況,詳見下表,試比較三個地區(qū)污染情況有何差別?1.多個樣本率的比較52大家好檢驗步驟:③確定P值:

ν=(3-1)×(2-1)=2,查界值表得χ20.05(2)=5.99,本例χ

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論