統計分析培訓_第1頁
統計分析培訓_第2頁
統計分析培訓_第3頁
統計分析培訓_第4頁
統計分析培訓_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

統計分析培訓第1頁,共41頁,2023年,2月20日,星期六二項分布資料的統計分析第2頁,共41頁,2023年,2月20日,星期六二項分布

BinomialDistribution二分類變量:有且只有兩種結果的變量,如性別、死亡生存、復發(fā)未復發(fā),一般用0和1表示其結果Bernouli試驗:具有兩值結果的一次試驗。條件:1、互斥的有且只有兩種結果;2、獨立性;3、每次關心結果的發(fā)生概率不變。二項分布:進行的N次Bernouli試驗中,所關心結果按不變概率發(fā)生0、1、2、…、N-1、N次的概率分布練習:4張牌里有一張A,放回抽樣抽5次,抽到0,1,2,3,4張A的概率是多少?至少抽到2張A的概率?第3頁,共41頁,2023年,2月20日,星期六二項分布的集中趨勢和離散趨勢二項分布的均數樣本計數:X0=np樣本率:p

二項分布的方差樣本計數:Var(X)=np(1-p)樣本率:Var(p)=p(1-p)/n第4頁,共41頁,2023年,2月20日,星期六二項分布近似正態(tài)分布理論上當N和N(1-)均大于5時,或同樣的,當X0和N-X0均大于5時,樣本計數近似服從均數為N,方差為N(1-)的正態(tài)分布,樣本率近似服從均數為,方差為(1-)/N的正態(tài)分布。實際上當Np和N(1-p)均大于5時,或同樣的,當X0和N-X0均大于5時,樣本計數近似服從均數為Np,方差為Np(1-p)的正態(tài)分布,樣本率近似服從均數為p,方差為p(1-p)/N的正態(tài)分布。第5頁,共41頁,2023年,2月20日,星期六二項分布

N人中B型血人數X的概率分布10人中B型血人數X的概率分布圖100人中B型血人數X的概率分布圖00.10.20.30.40.501234567890.00E+002.00E-024.00E-026.00E-028.00E-021.00E-011.20E-011.40E-011.60E-010246810121416180.080.08第6頁,共41頁,2023年,2月20日,星期六舉例:二項分布近似正態(tài)分布示意圖第7頁,共41頁,2023年,2月20日,星期六總體百分構成或總體率的統計推斷點估計p百分構成或率:p=X0/N常規(guī)療法治療流行性出血熱病人50例,死亡8例,病死率為16%區(qū)間估計查表法(基于二項分布的確切概率)正態(tài)近似法演習:隨機抽查某鄉(xiāng)村民100人,發(fā)現感染血吸蟲者21人,該鄉(xiāng)血吸蟲感染率?利用可信區(qū)間推斷樣本是否來自于一已知總體查表法正態(tài)近似法演習:已知某地區(qū)血吸蟲感染率為15%,現隨機抽查某鄉(xiāng)村民100人,發(fā)現感染血吸蟲者21人,問該鄉(xiāng)血吸蟲感染率是否高于一般?第8頁,共41頁,2023年,2月20日,星期六總體百分構成或總體率的統計推斷利用假設檢驗推斷樣本(樣本率為p)是否來自于一已知總體(總體率為0)基本步驟

1、建立無效假設和備擇假設H0:=0;H1:0

2、確定檢驗水準=0.05

3、在無效假設的前提下直接計算概率或利用正態(tài)近似法計算檢驗統計量后找到p值

a、確切概率法

b、正態(tài)近似法

4、根據概率或p值作出推斷演習:已知某地區(qū)血吸蟲感染率為15%,現隨機抽查某鄉(xiāng)村民100人,發(fā)現感染血吸蟲者21人,問該鄉(xiāng)血吸蟲感染率是否高于一般?第9頁,共41頁,2023年,2月20日,星期六兩個樣本百分構成或兩個樣本率比較的統計分析兩個率比較的目的是其所代表的總體率相同,即:1=2或1-2=0(無效假設)兩個樣本率之差的均數和方差均數:p1-p2方差:S2(p1-p2)=p(1-p)(1/n1+1/n2),p=(X1+X2)/(n1+n2)利用可信區(qū)間利用假設檢驗正態(tài)近似法2檢驗法演習:隨機抽查A鄉(xiāng)村民100人,發(fā)現感染血吸蟲者21人,隨機抽查B鄉(xiāng)村民100人,發(fā)現感染血吸蟲者15人,問AB兩鄉(xiāng)血吸蟲感染率是否相同?第10頁,共41頁,2023年,2月20日,星期六Poisson分布資料的統計分析第11頁,共41頁,2023年,2月20日,星期六Poisson分布單位時間、面積、空間內所關心事件發(fā)生數的概率分布二項分布數據當N很大X0很小(比例很低)時X的概率分布例:滬閔高架1天中發(fā)生的交通事故數(注:交通事故發(fā)生的時間可以短至1秒)。一個參數(對于樣本X0)。Notation:X~P()。練習:長期統計數據顯示:滬閔高架一天發(fā)生交通事故5起,問今天發(fā)生0,1,2,3,4,5起交通事故的概率?最多(至少)發(fā)生3起的概率?第12頁,共41頁,2023年,2月20日,星期六Poisson分布的性質及其集中趨勢和離散趨勢Poisson分布資料的性質平穩(wěn)性:樣本計數大小只與觀察單位的大小有關獨立性:各所關心事件的發(fā)生與否互不相關普通性:所關心事件離散發(fā)生,無聚集性Poisson分布的均數樣本計數:X0Poisson分布的方差樣本計數:X0第13頁,共41頁,2023年,2月20日,星期六Poisson分布的單位問題及正態(tài)近似雖然觀察單位不是Poisson分布的參數,但Poisson分布資料的統計分析一定要注意單位的轉換Poisson分布資料的可加性觀察單位的不可擴展性但可縮減性:大觀察單位可轉換為小觀察單位但反之不可Poisson分布的正態(tài)近似當(樣本為X0)大于50時,樣本計數X近似服從均數和方差均為(樣本為X0)的正態(tài)分布。當(樣本為X0)大于50時,如將大觀察單位縮減為1/n的小觀察單位,轉換后的樣本計數X’服從均數為/n(樣本為X0/n),方差為/n2(樣本為X0/n2)的正態(tài)分布第14頁,共41頁,2023年,2月20日,星期六Poisson分布資料總體計數的統計推斷點估計X0

滬閔高架某天發(fā)生交通事故6起區(qū)間估計查表法(基于Poisson分布的確切概率)正態(tài)近似法演習:滬閔高架上個月發(fā)生交通事故60起,滬閔高架一個月發(fā)生交通事故數?利用可信區(qū)間推斷樣本是否來自于一已知總體查表法正態(tài)近似法演習:長期觀察可知滬閔高架一個月發(fā)生交通事故50起,上個月發(fā)生60起,問上個月交通事故發(fā)生數是否多于往常?第15頁,共41頁,2023年,2月20日,星期六Poisson分布資料總體計數的統計推斷利用假設檢驗推斷樣本(樣本計數為X0)是否來自于一已知總體(總體計數為)基本步驟

1、建立無效假設和備擇假設H0:0=;H1:0

2、確定檢驗水準=0.05

3、在無效假設的前提下直接計算概率或利用正態(tài)近似法計算檢驗統計量后找到p值

a、確切概率法

b、正態(tài)近似法

4、根據概率或p值作出推斷演習:長期觀察可知滬閔高架一個月發(fā)生交通事故50起,上個月發(fā)生60起,問上個月交通事故發(fā)生數是否多于往常?第16頁,共41頁,2023年,2月20日,星期六觀察單位相同時兩個樣本計數比較的統計分析兩個樣本計數比較的目的是其所代表的總體計數相同,即:1=2或1-2=0(無效假設)兩個樣本計數之差的均數和方差均數:X1-X2方差:S2(X1-X2)=X1+X2利用可信區(qū)間(兩個樣本計數均大于20即可)利用假設檢驗正態(tài)近似法演習:滬閔高架一周發(fā)生交通事故30起,南北高架一周發(fā)生交通事故40起,問兩條高架一周發(fā)生交通事故數是否相同?第17頁,共41頁,2023年,2月20日,星期六觀察單位不同時兩個樣本計數比較的統計分析觀察單位不同時,需要先縮減成為觀察單位相同的兩個樣本計數,如果第一個樣本的縮減倍率為1/n1,第二個樣本的縮減倍率為1/n2,則縮減后的第一個樣本計數X1’=X1/n1,第二個樣本計數X2’=X2/n2,這時比較的目的是縮減后的樣本所代表的總體計數相同,即:1’=2’或1’-2’=0(無效假設)縮減后的兩個樣本計數之差的均數和方差均數:X1’-X2’方差:S2(X1’-X2’)=X1/n12+X2/n22利用可信區(qū)間(兩個樣本計數均大于20即可)利用假設檢驗正態(tài)近似法演習:滬閔高架20周發(fā)生交通事故300起,南北高架10周發(fā)生交通事故200起,問兩條高架一周發(fā)生交通事故數是否相同?第18頁,共41頁,2023年,2月20日,星期六分類數據的組間比較

-2檢驗第19頁,共41頁,2023年,2月20日,星期六分類數據的表現形式頻數表及交叉頻數表cross-tabulation所關心事件發(fā)生百分構成或發(fā)生率的組間比較四格表-二分類數據的兩組間比較行列表(RC表、列聯表)分類水平的有序還是無序(對于水平數3的分類變量有意義)近視眼非近視眼合計男abn1+女cdn2+合計n+1n+2n水平1水平C合計組1n11n1Cn1+nij組RnR1nRCnR+合計n+1n+Cn第20頁,共41頁,2023年,2月20日,星期六2分布一個標準正態(tài)變量X的平方服從自由度為1的2分布k標準正態(tài)變量X1,X2,…,Xk的平方和服從自由度為k的2分布G(G2)組間Q(Q2)分類水平百分構成或率的比較,在組間總體率或總體百分構成相同的無效假設前提下:第21頁,共41頁,2023年,2月20日,星期六成組設計兩樣本率的比較當G=2,Q=2時(四格表資料),在兩組所關心事件發(fā)生率相同的無效假設前提下:(無效假設前提下)理論頻數(如第一個格子)的計算:E(a)=(a+b)(a+c)/NColumn1Column2TotalRow1aba+bRow2cdc+dTotala+cb+dN第22頁,共41頁,2023年,2月20日,星期六成組設計兩樣本率的比較假設檢驗的步驟建立無效假設和備擇假設確立檢驗水準計算檢驗統計量作出統計推斷觀測頻數O理論頻數EO-E(O-E)2/Ea=69E(a)=57.6611.342.230b=37E(b)=48.34-11.342.660c=30E(c)=41.34-11.343.111d=46E(d)=34.6611.343.710Total=1821820X2=11.711存活死亡合計單純6937106聯合304676合計9983182第23頁,共41頁,2023年,2月20日,星期六四格表資料2檢驗的應用條件四格表資料2檢驗是利用連續(xù)型的2分布應用于分類資料,當樣本含量較小時,不能直接應用當N>40且理論頻數O均>5時,可直接應用;當N>40但有理論頻數1<O<5時,需進行連續(xù)性校正(稱Yates校正)

當N40,或有理論頻數O<1時,只能用Fisher確切概率法直接計算概率注意:無論樣本大小,均可用Fisher確切概率法進行假設檢驗第24頁,共41頁,2023年,2月20日,星期六配對設計兩樣本率的比較配對設計:針對可能影響研究結果的因素將研究對象配對后,將每個對子的研究對象隨機分配至不同處理組,如同窩別小鼠、同性別病人、同一人的左右手。數據結構-配對四格表當b+c>40時,YesNo合計Yesabn1+Nocdn2+合計n+1n+2nB法+B法+合計A法+563591A法-212849合計7763140第25頁,共41頁,2023年,2月20日,星期六行列表的分析生存死亡合計組1abn1+組2cdn2+合計n+1n+2n水平1水平Q合計組1n11n1Cn1+nij組GnG1nGQnQ+合計n+1n+Qn行列表又稱RC表、列聯表分析前要考慮的問題:水平數水平之間是否有序要回答問題的性質變量1的水平數變量2的水平數22表(四格表)2C表C無序2C表C有序RC表雙向無序RC表單向有序RC表雙向有序第26頁,共41頁,2023年,2月20日,星期六成組設計多個樣本率或百分構成的比較檢驗統計量的計算方法相同多組間所關心事件發(fā)生率的比較假設不同(與四格表資料的2檢驗相比):

H0:各組所關心事件的發(fā)生率相同;

H1:各組所關心事件的發(fā)生率不全相同兩組間觀察指標各水平百分構成的比較假設

H0:兩組間觀察指標各水平的百分構成相同;

H1:兩組間觀察指標各水平的百分構成不同2檢驗的適用條件

理論頻數:80%的格子>5和100%的格子>1。第27頁,共41頁,2023年,2月20日,星期六行列表的關聯性分析對于雙向無序行列表檢驗統計量的計算方法相同假設不同(與前相比):

H0:行變量與列變量間無關聯性;

H1:行變量與列變量間有關聯性對于單向有序行列表行或列平均分差異檢驗或等級資料的秩和檢驗對于雙向有序行列表等級相關分析第28頁,共41頁,2023年,2月20日,星期六非參數統計分析方法

-秩和檢驗法第29頁,共41頁,2023年,2月20日,星期六t檢驗、方差分析的應用條件要求數據服從正態(tài)分布,兩樣本或多個樣本比較時還要求方差齊性。當不滿足上述條件時,轉換數據-對數轉換法、平方根轉換法、反正弦轉換法等使轉換后數據滿足正態(tài)性和方差齊性秩和檢驗法第30頁,共41頁,2023年,2月20日,星期六秩和檢驗用于計量/分類等級資料統計推斷的一組方法非參數方法-不要求數據服從正態(tài)甚至是任何分布(不用考慮分布中的均數、標準差等參數)在兩組或多組比較時,無需考慮方差是否齊性相對于t檢驗、方差分析等參數方法,統計效率較低(不能夠充分利用數據信息)但穩(wěn)健性好(極端值的作用較?。┑?1頁,共41頁,2023年,2月20日,星期六單樣本分析Onesampleanalysis11名健康婦女10天日均能量攝入(kJ)編號日均能量攝入(kJ)152602547035640461805639066515768058751597515108230118770Mean6753.6SD1142.1日均能量攝入參考值7725kJ第32頁,共41頁,2023年,2月20日,星期六配對設計資料的分析

AnalysisofPairedData編號閉經前閉經后差15260391013502547042201250356403885175546180516010205639056457456651546801835768055265154087515597515409751567907251082306900133011877073351435Mean6753.65433.21320.5SD1142.11216.8366.7問:閉經前后,日均能量的攝入是否有變化?第33頁,共41頁,2023年,2月20日,星期六配對設計資料的秩和檢驗(1)-符號檢驗Signtest如果樣本觀測值與參考值在平均上沒有差別的話,那么小于參考值和大于參考值的觀測數應大致相等,即:任一觀測值在參考值左邊或右邊的概率相等,均為1/2第34頁,共41頁,2023年,2月20日,星期六配對設計資料的秩和檢驗(2)-符號秩和檢驗Wilcoxonsignedranksumtest比符號檢驗進一步,考慮了量的大小。計算觀測值與參考值的差;無視正負號對差從小到大排序;對所有正(或負)的順位求和。第35頁,共41頁,2023年,2月20日,星期六成組設計資料的秩和檢驗(1)-兩樣本比較問題24小時能量消耗(MJ/天)消瘦型(n=13)肥胖型(n=9)6.138.797.059.197.489.217.489.687.539.697.589.977.911.518.0811.858.0912.798.118.410.1510.88Mean8.06610.298SD1.2381.398第36頁,共41頁,2023年,2月20日,星期六成組設計資料的秩和檢驗(1)-兩樣本比較問題混合編秩。遇數據相同時取平均秩。兩樣本比較時

-分組求秩和

-當較小樣本的樣本量和兩樣本的樣本量差10時,以較小樣本的秩和為檢驗統計量(如樣本量相同,則任?。楦奖?1。

-當樣本量超范圍時,則采用正態(tài)近似法。見書p132公式8.3。對同秩的校正見書p132公式8.4。第37頁,共41頁,2023年,2月20日,星期六成組設計資料的秩和檢驗

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論