統(tǒng)計(jì)分析培訓(xùn)_第1頁
統(tǒng)計(jì)分析培訓(xùn)_第2頁
統(tǒng)計(jì)分析培訓(xùn)_第3頁
統(tǒng)計(jì)分析培訓(xùn)_第4頁
統(tǒng)計(jì)分析培訓(xùn)_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì)分析培訓(xùn)第1頁,共41頁,2023年,2月20日,星期六二項(xiàng)分布資料的統(tǒng)計(jì)分析第2頁,共41頁,2023年,2月20日,星期六二項(xiàng)分布

BinomialDistribution二分類變量:有且只有兩種結(jié)果的變量,如性別、死亡生存、復(fù)發(fā)未復(fù)發(fā),一般用0和1表示其結(jié)果Bernouli試驗(yàn):具有兩值結(jié)果的一次試驗(yàn)。條件:1、互斥的有且只有兩種結(jié)果;2、獨(dú)立性;3、每次關(guān)心結(jié)果的發(fā)生概率不變。二項(xiàng)分布:進(jìn)行的N次Bernouli試驗(yàn)中,所關(guān)心結(jié)果按不變概率發(fā)生0、1、2、…、N-1、N次的概率分布練習(xí):4張牌里有一張A,放回抽樣抽5次,抽到0,1,2,3,4張A的概率是多少?至少抽到2張A的概率?第3頁,共41頁,2023年,2月20日,星期六二項(xiàng)分布的集中趨勢(shì)和離散趨勢(shì)二項(xiàng)分布的均數(shù)樣本計(jì)數(shù):X0=np樣本率:p

二項(xiàng)分布的方差樣本計(jì)數(shù):Var(X)=np(1-p)樣本率:Var(p)=p(1-p)/n第4頁,共41頁,2023年,2月20日,星期六二項(xiàng)分布近似正態(tài)分布理論上當(dāng)N和N(1-)均大于5時(shí),或同樣的,當(dāng)X0和N-X0均大于5時(shí),樣本計(jì)數(shù)近似服從均數(shù)為N,方差為N(1-)的正態(tài)分布,樣本率近似服從均數(shù)為,方差為(1-)/N的正態(tài)分布。實(shí)際上當(dāng)Np和N(1-p)均大于5時(shí),或同樣的,當(dāng)X0和N-X0均大于5時(shí),樣本計(jì)數(shù)近似服從均數(shù)為Np,方差為Np(1-p)的正態(tài)分布,樣本率近似服從均數(shù)為p,方差為p(1-p)/N的正態(tài)分布。第5頁,共41頁,2023年,2月20日,星期六二項(xiàng)分布

N人中B型血人數(shù)X的概率分布10人中B型血人數(shù)X的概率分布圖100人中B型血人數(shù)X的概率分布圖00.10.20.30.40.501234567890.00E+002.00E-024.00E-026.00E-028.00E-021.00E-011.20E-011.40E-011.60E-010246810121416180.080.08第6頁,共41頁,2023年,2月20日,星期六舉例:二項(xiàng)分布近似正態(tài)分布示意圖第7頁,共41頁,2023年,2月20日,星期六總體百分構(gòu)成或總體率的統(tǒng)計(jì)推斷點(diǎn)估計(jì)p百分構(gòu)成或率:p=X0/N常規(guī)療法治療流行性出血熱病人50例,死亡8例,病死率為16%區(qū)間估計(jì)查表法(基于二項(xiàng)分布的確切概率)正態(tài)近似法演習(xí):隨機(jī)抽查某鄉(xiāng)村民100人,發(fā)現(xiàn)感染血吸蟲者21人,該鄉(xiāng)血吸蟲感染率?利用可信區(qū)間推斷樣本是否來自于一已知總體查表法正態(tài)近似法演習(xí):已知某地區(qū)血吸蟲感染率為15%,現(xiàn)隨機(jī)抽查某鄉(xiāng)村民100人,發(fā)現(xiàn)感染血吸蟲者21人,問該鄉(xiāng)血吸蟲感染率是否高于一般?第8頁,共41頁,2023年,2月20日,星期六總體百分構(gòu)成或總體率的統(tǒng)計(jì)推斷利用假設(shè)檢驗(yàn)推斷樣本(樣本率為p)是否來自于一已知總體(總體率為0)基本步驟

1、建立無效假設(shè)和備擇假設(shè)H0:=0;H1:0

2、確定檢驗(yàn)水準(zhǔn)=0.05

3、在無效假設(shè)的前提下直接計(jì)算概率或利用正態(tài)近似法計(jì)算檢驗(yàn)統(tǒng)計(jì)量后找到p值

a、確切概率法

b、正態(tài)近似法

4、根據(jù)概率或p值作出推斷演習(xí):已知某地區(qū)血吸蟲感染率為15%,現(xiàn)隨機(jī)抽查某鄉(xiāng)村民100人,發(fā)現(xiàn)感染血吸蟲者21人,問該鄉(xiāng)血吸蟲感染率是否高于一般?第9頁,共41頁,2023年,2月20日,星期六兩個(gè)樣本百分構(gòu)成或兩個(gè)樣本率比較的統(tǒng)計(jì)分析兩個(gè)率比較的目的是其所代表的總體率相同,即:1=2或1-2=0(無效假設(shè))兩個(gè)樣本率之差的均數(shù)和方差均數(shù):p1-p2方差:S2(p1-p2)=p(1-p)(1/n1+1/n2),p=(X1+X2)/(n1+n2)利用可信區(qū)間利用假設(shè)檢驗(yàn)正態(tài)近似法2檢驗(yàn)法演習(xí):隨機(jī)抽查A鄉(xiāng)村民100人,發(fā)現(xiàn)感染血吸蟲者21人,隨機(jī)抽查B鄉(xiāng)村民100人,發(fā)現(xiàn)感染血吸蟲者15人,問AB兩鄉(xiāng)血吸蟲感染率是否相同?第10頁,共41頁,2023年,2月20日,星期六Poisson分布資料的統(tǒng)計(jì)分析第11頁,共41頁,2023年,2月20日,星期六Poisson分布單位時(shí)間、面積、空間內(nèi)所關(guān)心事件發(fā)生數(shù)的概率分布二項(xiàng)分布數(shù)據(jù)當(dāng)N很大X0很小(比例很低)時(shí)X的概率分布例:滬閔高架1天中發(fā)生的交通事故數(shù)(注:交通事故發(fā)生的時(shí)間可以短至1秒)。一個(gè)參數(shù)(對(duì)于樣本X0)。Notation:X~P()。練習(xí):長期統(tǒng)計(jì)數(shù)據(jù)顯示:滬閔高架一天發(fā)生交通事故5起,問今天發(fā)生0,1,2,3,4,5起交通事故的概率?最多(至少)發(fā)生3起的概率?第12頁,共41頁,2023年,2月20日,星期六Poisson分布的性質(zhì)及其集中趨勢(shì)和離散趨勢(shì)Poisson分布資料的性質(zhì)平穩(wěn)性:樣本計(jì)數(shù)大小只與觀察單位的大小有關(guān)獨(dú)立性:各所關(guān)心事件的發(fā)生與否互不相關(guān)普通性:所關(guān)心事件離散發(fā)生,無聚集性Poisson分布的均數(shù)樣本計(jì)數(shù):X0Poisson分布的方差樣本計(jì)數(shù):X0第13頁,共41頁,2023年,2月20日,星期六Poisson分布的單位問題及正態(tài)近似雖然觀察單位不是Poisson分布的參數(shù),但Poisson分布資料的統(tǒng)計(jì)分析一定要注意單位的轉(zhuǎn)換Poisson分布資料的可加性觀察單位的不可擴(kuò)展性但可縮減性:大觀察單位可轉(zhuǎn)換為小觀察單位但反之不可Poisson分布的正態(tài)近似當(dāng)(樣本為X0)大于50時(shí),樣本計(jì)數(shù)X近似服從均數(shù)和方差均為(樣本為X0)的正態(tài)分布。當(dāng)(樣本為X0)大于50時(shí),如將大觀察單位縮減為1/n的小觀察單位,轉(zhuǎn)換后的樣本計(jì)數(shù)X’服從均數(shù)為/n(樣本為X0/n),方差為/n2(樣本為X0/n2)的正態(tài)分布第14頁,共41頁,2023年,2月20日,星期六Poisson分布資料總體計(jì)數(shù)的統(tǒng)計(jì)推斷點(diǎn)估計(jì)X0

滬閔高架某天發(fā)生交通事故6起區(qū)間估計(jì)查表法(基于Poisson分布的確切概率)正態(tài)近似法演習(xí):滬閔高架上個(gè)月發(fā)生交通事故60起,滬閔高架一個(gè)月發(fā)生交通事故數(shù)?利用可信區(qū)間推斷樣本是否來自于一已知總體查表法正態(tài)近似法演習(xí):長期觀察可知滬閔高架一個(gè)月發(fā)生交通事故50起,上個(gè)月發(fā)生60起,問上個(gè)月交通事故發(fā)生數(shù)是否多于往常?第15頁,共41頁,2023年,2月20日,星期六Poisson分布資料總體計(jì)數(shù)的統(tǒng)計(jì)推斷利用假設(shè)檢驗(yàn)推斷樣本(樣本計(jì)數(shù)為X0)是否來自于一已知總體(總體計(jì)數(shù)為)基本步驟

1、建立無效假設(shè)和備擇假設(shè)H0:0=;H1:0

2、確定檢驗(yàn)水準(zhǔn)=0.05

3、在無效假設(shè)的前提下直接計(jì)算概率或利用正態(tài)近似法計(jì)算檢驗(yàn)統(tǒng)計(jì)量后找到p值

a、確切概率法

b、正態(tài)近似法

4、根據(jù)概率或p值作出推斷演習(xí):長期觀察可知滬閔高架一個(gè)月發(fā)生交通事故50起,上個(gè)月發(fā)生60起,問上個(gè)月交通事故發(fā)生數(shù)是否多于往常?第16頁,共41頁,2023年,2月20日,星期六觀察單位相同時(shí)兩個(gè)樣本計(jì)數(shù)比較的統(tǒng)計(jì)分析兩個(gè)樣本計(jì)數(shù)比較的目的是其所代表的總體計(jì)數(shù)相同,即:1=2或1-2=0(無效假設(shè))兩個(gè)樣本計(jì)數(shù)之差的均數(shù)和方差均數(shù):X1-X2方差:S2(X1-X2)=X1+X2利用可信區(qū)間(兩個(gè)樣本計(jì)數(shù)均大于20即可)利用假設(shè)檢驗(yàn)正態(tài)近似法演習(xí):滬閔高架一周發(fā)生交通事故30起,南北高架一周發(fā)生交通事故40起,問兩條高架一周發(fā)生交通事故數(shù)是否相同?第17頁,共41頁,2023年,2月20日,星期六觀察單位不同時(shí)兩個(gè)樣本計(jì)數(shù)比較的統(tǒng)計(jì)分析觀察單位不同時(shí),需要先縮減成為觀察單位相同的兩個(gè)樣本計(jì)數(shù),如果第一個(gè)樣本的縮減倍率為1/n1,第二個(gè)樣本的縮減倍率為1/n2,則縮減后的第一個(gè)樣本計(jì)數(shù)X1’=X1/n1,第二個(gè)樣本計(jì)數(shù)X2’=X2/n2,這時(shí)比較的目的是縮減后的樣本所代表的總體計(jì)數(shù)相同,即:1’=2’或1’-2’=0(無效假設(shè))縮減后的兩個(gè)樣本計(jì)數(shù)之差的均數(shù)和方差均數(shù):X1’-X2’方差:S2(X1’-X2’)=X1/n12+X2/n22利用可信區(qū)間(兩個(gè)樣本計(jì)數(shù)均大于20即可)利用假設(shè)檢驗(yàn)正態(tài)近似法演習(xí):滬閔高架20周發(fā)生交通事故300起,南北高架10周發(fā)生交通事故200起,問兩條高架一周發(fā)生交通事故數(shù)是否相同?第18頁,共41頁,2023年,2月20日,星期六分類數(shù)據(jù)的組間比較

-2檢驗(yàn)第19頁,共41頁,2023年,2月20日,星期六分類數(shù)據(jù)的表現(xiàn)形式頻數(shù)表及交叉頻數(shù)表cross-tabulation所關(guān)心事件發(fā)生百分構(gòu)成或發(fā)生率的組間比較四格表-二分類數(shù)據(jù)的兩組間比較行列表(RC表、列聯(lián)表)分類水平的有序還是無序(對(duì)于水平數(shù)3的分類變量有意義)近視眼非近視眼合計(jì)男abn1+女cdn2+合計(jì)n+1n+2n水平1水平C合計(jì)組1n11n1Cn1+nij組RnR1nRCnR+合計(jì)n+1n+Cn第20頁,共41頁,2023年,2月20日,星期六2分布一個(gè)標(biāo)準(zhǔn)正態(tài)變量X的平方服從自由度為1的2分布k標(biāo)準(zhǔn)正態(tài)變量X1,X2,…,Xk的平方和服從自由度為k的2分布G(G2)組間Q(Q2)分類水平百分構(gòu)成或率的比較,在組間總體率或總體百分構(gòu)成相同的無效假設(shè)前提下:第21頁,共41頁,2023年,2月20日,星期六成組設(shè)計(jì)兩樣本率的比較當(dāng)G=2,Q=2時(shí)(四格表資料),在兩組所關(guān)心事件發(fā)生率相同的無效假設(shè)前提下:(無效假設(shè)前提下)理論頻數(shù)(如第一個(gè)格子)的計(jì)算:E(a)=(a+b)(a+c)/NColumn1Column2TotalRow1aba+bRow2cdc+dTotala+cb+dN第22頁,共41頁,2023年,2月20日,星期六成組設(shè)計(jì)兩樣本率的比較假設(shè)檢驗(yàn)的步驟建立無效假設(shè)和備擇假設(shè)確立檢驗(yàn)水準(zhǔn)計(jì)算檢驗(yàn)統(tǒng)計(jì)量作出統(tǒng)計(jì)推斷觀測(cè)頻數(shù)O理論頻數(shù)EO-E(O-E)2/Ea=69E(a)=57.6611.342.230b=37E(b)=48.34-11.342.660c=30E(c)=41.34-11.343.111d=46E(d)=34.6611.343.710Total=1821820X2=11.711存活死亡合計(jì)單純6937106聯(lián)合304676合計(jì)9983182第23頁,共41頁,2023年,2月20日,星期六四格表資料2檢驗(yàn)的應(yīng)用條件四格表資料2檢驗(yàn)是利用連續(xù)型的2分布應(yīng)用于分類資料,當(dāng)樣本含量較小時(shí),不能直接應(yīng)用當(dāng)N>40且理論頻數(shù)O均>5時(shí),可直接應(yīng)用;當(dāng)N>40但有理論頻數(shù)1<O<5時(shí),需進(jìn)行連續(xù)性校正(稱Yates校正)

當(dāng)N40,或有理論頻數(shù)O<1時(shí),只能用Fisher確切概率法直接計(jì)算概率注意:無論樣本大小,均可用Fisher確切概率法進(jìn)行假設(shè)檢驗(yàn)第24頁,共41頁,2023年,2月20日,星期六配對(duì)設(shè)計(jì)兩樣本率的比較配對(duì)設(shè)計(jì):針對(duì)可能影響研究結(jié)果的因素將研究對(duì)象配對(duì)后,將每個(gè)對(duì)子的研究對(duì)象隨機(jī)分配至不同處理組,如同窩別小鼠、同性別病人、同一人的左右手。數(shù)據(jù)結(jié)構(gòu)-配對(duì)四格表當(dāng)b+c>40時(shí),YesNo合計(jì)Yesabn1+Nocdn2+合計(jì)n+1n+2nB法+B法+合計(jì)A法+563591A法-212849合計(jì)7763140第25頁,共41頁,2023年,2月20日,星期六行列表的分析生存死亡合計(jì)組1abn1+組2cdn2+合計(jì)n+1n+2n水平1水平Q合計(jì)組1n11n1Cn1+nij組GnG1nGQnQ+合計(jì)n+1n+Qn行列表又稱RC表、列聯(lián)表分析前要考慮的問題:水平數(shù)水平之間是否有序要回答問題的性質(zhì)變量1的水平數(shù)變量2的水平數(shù)22表(四格表)2C表C無序2C表C有序RC表雙向無序RC表單向有序RC表雙向有序第26頁,共41頁,2023年,2月20日,星期六成組設(shè)計(jì)多個(gè)樣本率或百分構(gòu)成的比較檢驗(yàn)統(tǒng)計(jì)量的計(jì)算方法相同多組間所關(guān)心事件發(fā)生率的比較假設(shè)不同(與四格表資料的2檢驗(yàn)相比):

H0:各組所關(guān)心事件的發(fā)生率相同;

H1:各組所關(guān)心事件的發(fā)生率不全相同兩組間觀察指標(biāo)各水平百分構(gòu)成的比較假設(shè)

H0:兩組間觀察指標(biāo)各水平的百分構(gòu)成相同;

H1:兩組間觀察指標(biāo)各水平的百分構(gòu)成不同2檢驗(yàn)的適用條件

理論頻數(shù):80%的格子>5和100%的格子>1。第27頁,共41頁,2023年,2月20日,星期六行列表的關(guān)聯(lián)性分析對(duì)于雙向無序行列表檢驗(yàn)統(tǒng)計(jì)量的計(jì)算方法相同假設(shè)不同(與前相比):

H0:行變量與列變量間無關(guān)聯(lián)性;

H1:行變量與列變量間有關(guān)聯(lián)性對(duì)于單向有序行列表行或列平均分差異檢驗(yàn)或等級(jí)資料的秩和檢驗(yàn)對(duì)于雙向有序行列表等級(jí)相關(guān)分析第28頁,共41頁,2023年,2月20日,星期六非參數(shù)統(tǒng)計(jì)分析方法

-秩和檢驗(yàn)法第29頁,共41頁,2023年,2月20日,星期六t檢驗(yàn)、方差分析的應(yīng)用條件要求數(shù)據(jù)服從正態(tài)分布,兩樣本或多個(gè)樣本比較時(shí)還要求方差齊性。當(dāng)不滿足上述條件時(shí),轉(zhuǎn)換數(shù)據(jù)-對(duì)數(shù)轉(zhuǎn)換法、平方根轉(zhuǎn)換法、反正弦轉(zhuǎn)換法等使轉(zhuǎn)換后數(shù)據(jù)滿足正態(tài)性和方差齊性秩和檢驗(yàn)法第30頁,共41頁,2023年,2月20日,星期六秩和檢驗(yàn)用于計(jì)量/分類等級(jí)資料統(tǒng)計(jì)推斷的一組方法非參數(shù)方法-不要求數(shù)據(jù)服從正態(tài)甚至是任何分布(不用考慮分布中的均數(shù)、標(biāo)準(zhǔn)差等參數(shù))在兩組或多組比較時(shí),無需考慮方差是否齊性相對(duì)于t檢驗(yàn)、方差分析等參數(shù)方法,統(tǒng)計(jì)效率較低(不能夠充分利用數(shù)據(jù)信息)但穩(wěn)健性好(極端值的作用較?。┑?1頁,共41頁,2023年,2月20日,星期六單樣本分析Onesampleanalysis11名健康婦女10天日均能量攝入(kJ)編號(hào)日均能量攝入(kJ)152602547035640461805639066515768058751597515108230118770Mean6753.6SD1142.1日均能量攝入?yún)⒖贾?725kJ第32頁,共41頁,2023年,2月20日,星期六配對(duì)設(shè)計(jì)資料的分析

AnalysisofPairedData編號(hào)閉經(jīng)前閉經(jīng)后差15260391013502547042201250356403885175546180516010205639056457456651546801835768055265154087515597515409751567907251082306900133011877073351435Mean6753.65433.21320.5SD1142.11216.8366.7問:閉經(jīng)前后,日均能量的攝入是否有變化?第33頁,共41頁,2023年,2月20日,星期六配對(duì)設(shè)計(jì)資料的秩和檢驗(yàn)(1)-符號(hào)檢驗(yàn)Signtest如果樣本觀測(cè)值與參考值在平均上沒有差別的話,那么小于參考值和大于參考值的觀測(cè)數(shù)應(yīng)大致相等,即:任一觀測(cè)值在參考值左邊或右邊的概率相等,均為1/2第34頁,共41頁,2023年,2月20日,星期六配對(duì)設(shè)計(jì)資料的秩和檢驗(yàn)(2)-符號(hào)秩和檢驗(yàn)Wilcoxonsignedranksumtest比符號(hào)檢驗(yàn)進(jìn)一步,考慮了量的大小。計(jì)算觀測(cè)值與參考值的差;無視正負(fù)號(hào)對(duì)差從小到大排序;對(duì)所有正(或負(fù))的順位求和。第35頁,共41頁,2023年,2月20日,星期六成組設(shè)計(jì)資料的秩和檢驗(yàn)(1)-兩樣本比較問題24小時(shí)能量消耗(MJ/天)消瘦型(n=13)肥胖型(n=9)6.138.797.059.197.489.217.489.687.539.697.589.977.911.518.0811.858.0912.798.118.410.1510.88Mean8.06610.298SD1.2381.398第36頁,共41頁,2023年,2月20日,星期六成組設(shè)計(jì)資料的秩和檢驗(yàn)(1)-兩樣本比較問題混合編秩。遇數(shù)據(jù)相同時(shí)取平均秩。兩樣本比較時(shí)

-分組求秩和

-當(dāng)較小樣本的樣本量和兩樣本的樣本量差10時(shí),以較小樣本的秩和為檢驗(yàn)統(tǒng)計(jì)量(如樣本量相同,則任?。楦奖?1。

-當(dāng)樣本量超范圍時(shí),則采用正態(tài)近似法。見書p132公式8.3。對(duì)同秩的校正見書p132公式8.4。第37頁,共41頁,2023年,2月20日,星期六成組設(shè)計(jì)資料的秩和檢驗(yàn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論