版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第八章 2檢驗 孫海龍內容 一、2檢驗概述 二、總體分布的假設檢驗 三 、獨立性檢驗引言推斷統計參數檢驗正態(tài)分布和方差同質非參數檢驗對分布較少有要求,也叫用于名義/順序型數據均值檢驗方差分析2檢驗其他非參數檢驗參數統計和非參數統計優(yōu)缺點 參數統計優(yōu)點: 對資料的分析利用充分 統計分析的效率高缺點: 對資料的要求高 適用范圍有限 非參數統計優(yōu)點:對資料的沒有特殊要求 不受分布的影響(偏態(tài)、分布不明的資料) 不受方差齊性的限制 不受變量類型的影響 不受樣本量的影響缺點: 檢驗效率低(易犯型錯誤) 對信息的利用不充分。因此在二者都可用時,總是用參數檢驗因此在二者都可用時,總是用參數檢驗引言 實際應用
2、情況:調查、問卷、訪談等方法中,按性質劃分類別,然后將結果按類計點人數或個數,得到計數數據。 類別變量(1)只能劃分為類別,如性別、民族;(2)人為劃分類別,如學習成績(連續(xù)數據)分成優(yōu)、良、中、差。 這些計數數據不能使用前幾章所講的統計方法,需要用到計數數據專用的統計方法,這些分析方法主要是根據2(卡方)分布進行的,故稱為卡方檢驗。這類數據大都以表格形式表示,所以又稱列聯表分析。一、2檢驗概述1.單變量的卡方檢驗:同時檢驗一個因素兩項或多項分類的實際觀察數與某理論次數分布是否相一致的問題,或說有無顯著差異的問題。這種檢驗又稱為擬合度檢驗。理論次數是指根據概率原理、某種理論、某種理論次數分布或
3、經驗次數分布所計算出來的次數。3獨立類別的卡方檢驗:用于檢驗兩個或兩個以上因素(變量)各有多項分類之間是否有關聯或是否具有獨立性的問題。如不同性別的人在態(tài)度上是否有差異。這類檢驗又稱獨立性檢驗。一、2檢驗概述卡方檢驗的基本公式實際觀察次數與某理論次數之差的平方再除以理論次數,即 f0:觀察次數 f e :期望次數其中,f e 期望次數越大(大于5),分布越接近卡方分布。 keefff20一、2檢驗概述 指用樣本數據檢驗總體分布的形狀或比率,以確定與假設的總體性質的匹配度,是對次數分布的檢驗。(一)研究情境主要用于實際觀察次數(f0)與某理論次數(fe)是否有差別的分析。例如,在醫(yī)生職業(yè)中,男的
4、多還是女的多?在三種咖啡中,哪種被國人最喜歡?在北京大學中,各國留學生的比例有代表性嗎?二、總體分布的擬合檢驗(一)定義(二)統計假設及相關計算 H0: f0 = fe H1: f0 fe 運用基本公式計算出卡方值查表,比較其與臨界卡方值的大小,如果注意注意:卡方值分布全部為正值,但f0-f e可能是負值,因此,卡方檢驗是雙側檢驗,0.05和0.01是指雙側概率而言。擬合度檢驗需要先計算理論次數,這是計算卡方值的關鍵性步驟。(一般根據某種理論或經驗)二、總體分布的擬合檢驗實際觀察次數與某理論次數之差的平方再除以理論次數,即 f0:觀察次數 f e :期望次數其中,f e 期望次數(大于5)。
5、keefff20二、總體分布的擬合檢驗(三)擬合檢驗公式例1 某項民意測驗,答案有同意、不置可否和不同意三種,調查結果如下表:同意不置可否不同意Nfi24121248問:三種意見的人數是否有顯著不同?有顯著差異。即此項民意測驗的態(tài)度所以,推翻原假設,)(查表理論次數所以各類別概率皆為分類數是各分類的概率相等該題為檢驗無差假設解 ,02. 0p , 99. 52 , 213df, 6161612161612161624,163148e , 1/3, 3,:H ,:205. 02205. 02222i0二、總體分布的擬合檢驗例2 某班學生50人,體檢結果按一定標準劃分為甲、乙、丙三類,各類人數分別
6、為:甲類16人,乙類24人,丙類10人,問該班學生的身體狀況是否符合正態(tài)分布?正態(tài)分布。不符合,該班學生的身體狀態(tài)推翻,查表,各類別的理論次數為:。曲線下的面積應為:之間,丙類:為:之間,曲線下的面積應乙類:,曲線下的面積應為:之間,甲類:為故各類人數應占的比例。應該相同,即且各類別所占的橫坐標全體數據,包括了在正態(tài)分布中可以認為算。理論次數按正態(tài)分布計合正態(tài)分布該班學生的身體狀況符解丙乙甲02005. 022005. 031i222i2ii20H ,005. 0p , 6 .10 , 21-3df,44.1188103434248816ee-f 8500.1587e 34,500.6826e
7、 8,500.1587e0.15870.3413-0.50 -3-1- 6826. 023413. 0 11 1587. 03413. 050. 0 13 236 3 :H :例3 下表所列資料是552名中學生的身高次數分布,問這些學生的身高分布是否符合正態(tài)分布。身高分組組中值 Xc實際次數fiXc-X=xZ=x/S查正態(tài)分布表求yPi=y(組距) Sei=yN169-166-163-160-157-154-151-148-145-142-139-17016716416115815515214914614314027225711012411280258415.3812.389.386.383.
8、380.38-2.62-5.62-8.62-11.62-14.623.032.441.851.260.670.07-0.52-1.11-1.70-2.29-2.880.00400.00200.07200.18400.31870.39790.34840.21540.09400.02890.00670.002370.012010.042600.108880.188580.235440.206150.127460.055620.017100.003961724601041301147031920.1250.1670.1500.4710.2770.0351.4291.1610.090N=552, X=
9、154.62, S=5.072=3.905iiieef2ccciiiii29ii2i 1i:(1) XXx, xX -X;X -Xx(2) Z;SS(3) Zy(4) py;S(5) epN5 9f -e3.905,e解 計算理論次數的步驟求各組組中值與平均數 的離差即求各離差的標準分數根據各 分數查正態(tài)分布表求相應的值;組距求 各分組的概率求各組的理論次數由于第一組和最后一組的理論次數, 所以第一、二組合并,最后一組和前一組合并,總組數為 。20.05220.05 df9-36 (6)12.6, p0.05, 552在計算理論次數的過程中共用到平均數,標準差和總數三個統計量,故本題的自由度為
10、 ,查卡方分布表,故差異不顯著,即名中學生的身高分布符合正態(tài)分布。二、總體分布的擬合檢驗三、獨立性檢驗 主要用于兩個或兩個以上因素多項分類的計數資料分析。如果要研究的兩個自變量之間是否具有獨立性或有無關聯或有無“交互作用”的存在,就要應用卡方獨立性檢驗。 如果兩個子變量是獨立的,無關聯的,就意味著對其中一個自變量來說,另一個自變量的多項分類次數上的變化是在取樣誤差的范圍之內。假如兩個因素是非獨立,則稱兩變量有交互作用。(一)適用材料虛無假設:兩變量(或多變量)之間是獨立的或無關聯的備擇假設:兩變量之間有關聯或差異顯著,一般用文字敘述,不用統計符號。例4:某學校對學生的課外活動內容進行調查,結果
11、整理成下表: 三、獨立性檢驗(二)統計假設 虛無假設:體重自我知覺與性別無關自我知覺總和過輕過重女性419(786.78)1995 (1627.22)2414男性959 (591.22)855 (1222.78)1814總和137828504228(二)統計假設三、獨立性檢驗計算自我知覺過輕過重女性(419-786.78)2/786.78=171.92( 1995 -1627.22) 2 /1672.22=83.12男性228.78110.622 2 (1)=594.44 df=1 a= 0.05 臨界值臨界值3.84 因素Y因 素 X分類1分類2分類1aba+b分類2cdc+da+cb+dn
12、 1222dbcadcbabcadn(三) 22 列聯表 檢驗 三、獨立性檢驗2 觀察頻數觀察頻數a a對應的理論頻數為:對應的理論頻數為: 式中TRC為第R(row)行、第C(column)列的理論頻數,nR為相應行的合計,nc為相應列的合計,n為總例數.ncabaBAnPT)()(1111nnnTCRRC.三、獨立性檢驗(三) 22 列聯表 檢驗 2 檢驗的自由度取決于可以自由取值的格子數目,而不是樣本含量n。四格表資料只有兩行兩列,自由度(df)=1,即在周邊合計數固定的情況下,4個基本數據當中只有一個可以自由取值. 自由度=(行數-1)(列數-1) 自由度自由度三、獨立性檢驗(三) 2
13、2 列聯表 檢驗 2(三) 22 列聯表 檢驗 1 、 當n40, Tij 5的條件下 可用下列簡化公式21f ,)(22ddbcadcbabcadn三、獨立性檢驗 例例5 工農業(yè)高血壓患病率的比較(50歲以上男性),首鋼調查50-59歲男性工人1281人、高血壓患者386人,患病率為30.13%。石景山區(qū)農民387人,血壓血患者65人,患病率為16.80%,從事工農業(yè)生產的男性患病率有無差別。(三) 22 列聯表 檢驗 三、獨立性檢驗2患病未患病小計工人3868951281農民65322387小計45112171668解: 建立檢驗假設 H0:1 =2 (工人與農民的總體患病率相同) =0.
14、05 估計總體某現象的發(fā)生或存在的概率,假定高血壓的發(fā)生和這兩種工種眾彼此獨立無關,因此,這兩組資料是一總體中的兩個隨機樣本,估計 總體患病率= 451/1668 =0.2704 未患率= 1217/1668=0.7296三、獨立性檢驗(三) 22 列聯表 檢驗 2 50-59 歲男性工人與農民高血壓患病比較歲男性工人與農民高血壓患病比較患高血壓人數患高血壓人數 合 計觀察數理論數觀察數理論數首鋼工人386346.4895934.61281石景山區(qū)農民65104.6322282.4387合計451451121712171668(三) 22 列聯表 檢驗 三、獨立性檢驗2 計算檢驗統計量 2 值
15、 查 2 分布界值表,作出統計結論。 df = (r-1)(c-1)=1; 故按 p0.01 水平拒絕Ho 接受H1 。 結合具體問題作出專業(yè)結論:不同職業(yè)的高血壓患病率極顯著意義,工人的高血壓患病率顯著高于農民。26.7505.55314.9921.6784.5274 .2824 .2823226 .1046 .104656 .9346 .9348954 .3464 .34638622222 843 21050 6.63 21010(三)(三) 22 列聯表列聯表 檢驗檢驗 三、獨立性檢驗(三) 22 列聯表 檢驗 2應用簡化公式計算:75.2612174513871281)65895322386(1668)(222dbcadcbabcadn(三) 22 列聯表 檢驗 三、獨立性檢驗2 2 n 40, 但有但有1 Tij 5時,時,需對上述公式進行校正。需對上述公式進行校正。dbcadcbanbcadn25 . 02(三) 22 列聯表 檢驗 三、獨立性檢驗2(四) 與 r系數(phi coeffi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年江蘇新高考化學試卷試題真題答案詳解(精校打印版)
- 福建師范大學《廣告文案寫作》2023-2024學年第一學期期末試卷
- 葡萄上果蠅的種類及防治措施
- 2024屆西藏日喀則區(qū)南木林高級中學高考數學試題模擬試卷(8)數學試題
- 幼兒教育課件教學課件
- 2024年永州客運從業(yè)資格證理論考試題
- 2024年南平資格證客運題庫
- 2024年銅仁客運從業(yè)資格證理論考試答案
- 2024年青??瓦\證考試模擬題及答案
- 2024年伊犁駕駛員客運從業(yè)資格證模擬考試題
- 數字化系列研究之財務數智化篇:大型集團企業(yè)財務管理的數智化
- 學生輟學勸返記錄表
- 學校秋季腹瀉知識講座
- 設立招投標代理公司可行性研究報告
- 小學一年級禁毒教育
- PCBA工藝管制制程稽查表
- 小學書法大賽評價準則與打分表
- 《朱蘭質量手冊》課件
- 幼兒保育學前教育專業(yè)教師教學創(chuàng)新團隊建設方案
- 2023年全球瘧疾報告
- 15D500-15D505 防雷與接地圖集(合訂本)
評論
0/150
提交評論