定性數(shù)據(jù)統(tǒng)計(jì)分析第1-2章_第1頁(yè)
定性數(shù)據(jù)統(tǒng)計(jì)分析第1-2章_第2頁(yè)
定性數(shù)據(jù)統(tǒng)計(jì)分析第1-2章_第3頁(yè)
定性數(shù)據(jù)統(tǒng)計(jì)分析第1-2章_第4頁(yè)
定性數(shù)據(jù)統(tǒng)計(jì)分析第1-2章_第5頁(yè)
已閱讀5頁(yè),還剩44頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、定性數(shù)據(jù)統(tǒng)計(jì)分析Categorical Data Analysis授課班級(jí):1070612009年下學(xué)期教學(xué)內(nèi)容 第一章 定性數(shù)據(jù) 第二章 分類數(shù)據(jù)的檢驗(yàn) 第三章 四格表 第四章 二維列聯(lián)表 第五章 高維列聯(lián)表 第六章 邏輯斯蒂回歸模型 第七章 對(duì)數(shù)線性模型 第八章 列聯(lián)表的對(duì)應(yīng)分析第一章 定性數(shù)據(jù) 什么是定性數(shù)據(jù)? 數(shù)據(jù)的類型 根據(jù)數(shù)據(jù)的取值來(lái)分:1.計(jì)量數(shù)據(jù)(Continuous Data) : 身高、體重等; 取值為任意實(shí)數(shù)2.計(jì)數(shù)數(shù)據(jù)(Counts) : 職工人數(shù)、成交股票數(shù)等; 取值為非負(fù)整數(shù)3.名義數(shù)據(jù)(Nominal Data) : 性別、婚姻狀況等; 取值為屬性編碼4.有序數(shù)據(jù)

2、(Ordinal Data) : 文化程度、滿意度等; 取值為可排序的屬性編碼第一章 定性數(shù)據(jù) 定性數(shù)據(jù)的描述性統(tǒng)計(jì) 方法有表格法、圖示法、數(shù)值法1、表格法【例】向50個(gè)被訪者調(diào)查“你最喜歡喝的飲料”,得到表1.1。 以上數(shù)據(jù)經(jīng)按類別整理后,可得到頻數(shù)分布表,見表1.2 制作有序數(shù)據(jù)的頻數(shù)分布表時(shí),還可以統(tǒng)計(jì)累積頻數(shù)和累積頻率。第一章 定性數(shù)據(jù) 如果我們想考察這些飲料受歡迎程度與性別的關(guān)系,可以制作飲料與性別的交叉分組表,見表1.3 顯然,這種表有利于我們進(jìn)一步發(fā)現(xiàn)受歡迎程度與性別之間的關(guān)系。 類似地有三種、或更多種方式分組的交叉表,即列聯(lián)表(contingency table)。第一章 定性

3、數(shù)據(jù)2、圖示法 包括條形圖、圓形圖(表1.4)、排列圖等 其中的排列圖,又叫帕累托圖,是按照發(fā)生頻率大小順序繪制的條形圖; 表示有多少結(jié)果是由已確認(rèn)類型或范疇的原因所造成; 將出現(xiàn)的質(zhì)量問(wèn)題和質(zhì)量改進(jìn)項(xiàng)目按照重要程度依次排列而采用的一種圖表; 可以用來(lái)分析質(zhì)量問(wèn)題,確定產(chǎn)生質(zhì)量問(wèn)題的主要因素。 通常用雙坐標(biāo)系表示,左邊縱坐標(biāo)表示頻數(shù),右邊縱坐標(biāo)表示頻率,分析線表示累積頻率累積頻率; 橫坐標(biāo)表示影響質(zhì)量的各項(xiàng)因素,按影響程度的大小(即出現(xiàn)頻數(shù)多少)從左到右排列; 通常將累積頻率080%之間的因素認(rèn)為是影響質(zhì)量的主要因素。(見附錄1)帕累托圖(Pareto Chart)(Pareto Chart)

4、第一章 定性數(shù)據(jù)3、數(shù)值法 即用代表性的數(shù)值描述定性數(shù)據(jù)的統(tǒng)計(jì)分布特征。 代表性的數(shù)值有兩類: 描述定性數(shù)據(jù)的中心位置 描述定性數(shù)據(jù)的離散程度 中心位置:眾數(shù)、中位數(shù)、百分位數(shù) 離散程度:異眾比率、G-S指數(shù)、熵眾數(shù) 數(shù)據(jù)中出現(xiàn)頻數(shù)最高的數(shù)據(jù)值,記為Mo 如上例中,“可口可樂”是眾數(shù); 適用于定性名義數(shù)據(jù)中心位置的量度; 眾數(shù)的性質(zhì)略。中位數(shù) 將數(shù)據(jù)按一定順序排列后位于中間的數(shù)值,記為Me; 例:游客對(duì)服務(wù)態(tài)度的評(píng)價(jià)( % ) 適用于定性有序數(shù)據(jù)中心位置的量度。百分位數(shù) 百分位數(shù)是對(duì)數(shù)據(jù)位置的量度,但不一定是中心位置; 一般地,第p百分位數(shù)是指,至少有p%的數(shù)據(jù)項(xiàng)小于等于這個(gè)值,且至少有(10

5、0-p) %的數(shù)據(jù)項(xiàng)大于等于這個(gè)值; 第25百分位數(shù)稱為下四分位數(shù),記為QL,第50百分位數(shù)就是中位數(shù),第75百分位數(shù)稱為上四分位數(shù),記為QU ;異眾比率 用于定性名義數(shù)據(jù)離散程度的度量,記為V: 離異比率越小,說(shuō)明數(shù)據(jù)越集中; 此外,還可以利用隨機(jī)變量來(lái)刻畫定性數(shù)據(jù)的離散程度; 比如,隨機(jī)變量 ,可以取 等不同的值,相應(yīng)的概率為 即:momofnnnV1kaaa、21kppp、21kiaPpii, 2 , 1)(,Gini-Simpson指數(shù) 基尼-辛卜生指數(shù)簡(jiǎn)稱G-S指數(shù) 隨機(jī)變量的G-S指數(shù)記為G-S() G-S指數(shù)越小,說(shuō)明隨機(jī)變量的分布越集中; G-S指數(shù)越大,則分布越分散。 當(dāng)k=

6、2, 時(shí),G-S指數(shù)達(dá)到最大值 ,即均勻分布時(shí)指數(shù)達(dá)到最大(見附錄2)。21( )1kiiGSp 120.5pp(1 1/ ) k熵 隨機(jī)變量的熵(entropy)記為H(): 在 的條件下,衡量給定分布與均勻分布接近的程度。 越接近于均勻分布,越處于平衡狀態(tài),即離散程度越大,熵的取值越大,最大值為 ;反之也反。 (見附錄2)1( )lnkiiiHpp 11kiiplnk定性數(shù)據(jù)離散程度的測(cè)度【例】最喜歡的飲料的頻數(shù)分布表 1、用離異比率測(cè)度: 若將數(shù)據(jù)稍作調(diào)整為: 則飲料頻數(shù)頻率可口可樂蘋果汁橘子汁百事可樂杏仁露2565595012101018合計(jì)50100(50 17)/5066%V (5

7、025)/5050%V 定性數(shù)據(jù)離散程度的測(cè)度 2、用G-S指數(shù)測(cè)度: 調(diào)整前, 調(diào)整后, 3、用熵測(cè)度: 調(diào)整前, 調(diào)整后,52222221G-S11 (0.340.160.140.140.22 )0.77iip 52222221G-S11 (0.50.120.10.10.18 )0.68iip 51ln(0.34 ln0.340.16 ln0.16)1.54iiiHpp 51ln(0.5 ln0.50.12 ln0.12)1.37iiiHpp 定性數(shù)據(jù)離散程度的測(cè)度 如果前例中每種飲料的頻數(shù)相同,那么各自的G-S指數(shù)和熵分別為多少呢? 當(dāng)均勻分布時(shí),定性數(shù)據(jù)的離散程度達(dá)到最大 G-S指數(shù)的

8、最大值為: 熵的最大值為:11klnk本章小結(jié) 定性數(shù)據(jù)的類型 運(yùn)用頻數(shù)分布表整理數(shù)據(jù),并計(jì)算頻率 繪出條形圖、餅圖、帕累托圖 描述定性數(shù)據(jù)的中心位置和離散程度第二章 分類數(shù)據(jù)的檢驗(yàn) 在描述分析基礎(chǔ)上,進(jìn)行推斷統(tǒng)計(jì)分析 參數(shù)估計(jì) 假設(shè)檢驗(yàn) 統(tǒng)計(jì)推斷要求知道統(tǒng)計(jì)量的抽樣分布 什么是統(tǒng)計(jì)量 什么是抽樣分布 屬性數(shù)據(jù)的兩種重要分布: 二項(xiàng)分布 多項(xiàng)分布二項(xiàng)分布 屬性數(shù)據(jù)常常來(lái)源于每次試驗(yàn)僅有兩種試驗(yàn)結(jié)果的n次獨(dú)立重復(fù)試驗(yàn),如成功與失敗、合格與不合格、男與女、等等 假設(shè) 代表一次試驗(yàn)成功的概率, 代表n次試驗(yàn)中成功的次數(shù),這時(shí) 服從指標(biāo)n以及參數(shù) 的二項(xiàng)分布,即YY()(1)yyn ynP YyC(

9、, )YB n!0,1,2,!()!ynnCyny ny其中,二項(xiàng)分布 二項(xiàng)分布的期望和方差分別為: 當(dāng)n=1時(shí),二項(xiàng)分布簡(jiǎn)化為: 即:0-1分布是二項(xiàng)分布的特殊情況( )( )(1)E YnD Yn1()(1)yyP Yy0,1y 其中,二項(xiàng)分布【例】假設(shè)一次考試有10道選擇題,每題有五個(gè)選項(xiàng)。一位完全沒有準(zhǔn)備的學(xué)生隨機(jī)猜測(cè)每道題的答案。試問(wèn)可能回答正確的題數(shù)及其概率如何?!窘狻拷Y(jié)果見表2.1 可以看出,僅當(dāng)=0.5時(shí),二項(xiàng)分布才是對(duì)稱的。 對(duì)于固定的n,隨著趨近0或1,二項(xiàng)分布表現(xiàn)越加偏斜。 對(duì)于固定的 ,隨著n增加,二項(xiàng)分布更趨近鐘形。二項(xiàng)分布 當(dāng)n很大時(shí),二項(xiàng)分布趨近于均值 , 的正態(tài)

10、分布(近似分布)。 原則上,要使二項(xiàng)分布趨近正態(tài)分布,要求期望 和 都不小于5。 當(dāng)較大時(shí)(如0.5),n相對(duì)較小(如10)就可以滿足要求; 當(dāng)較小時(shí)(如0.1或0.9) ,則要求n取較大的值(如50) ,即大樣本要求。2(1)nnn(1)n多項(xiàng)分布 多項(xiàng)分布是二項(xiàng)分布的推廣,其試驗(yàn)結(jié)果的類別多于兩種,記為 。 令c代表結(jié)果的類別數(shù),用 表示每種結(jié)果出現(xiàn)的概率,且 對(duì)于n次獨(dú)立試驗(yàn),具有 次觀測(cè)落入第1類, 次觀測(cè)落入第2類的概率為:1n2n12,c 1j12121212!( ,)!cnnncccjnP n nnn nnnn 其中,12( ,)cM n 多項(xiàng)分布 顯然,當(dāng)c=2時(shí)多項(xiàng)分布簡(jiǎn)化為

11、二項(xiàng)分布。 通常不需要使用以上多項(xiàng)分布概率公式,只需掌握基于多項(xiàng)分布律的統(tǒng)計(jì)量即可。 大部分針對(duì)屬性數(shù)據(jù)的方法都假設(shè): 單類別的計(jì)數(shù)服從二項(xiàng)分布 多類別的計(jì)數(shù)服從多項(xiàng)分布 任何一個(gè)確定類別 計(jì)數(shù) 具有均值 ,標(biāo)準(zhǔn)差 。jjnjn(1)jjn其他分布 超幾何分布 設(shè)N件產(chǎn)品中有M件次品,從中無(wú)放回取n件時(shí)所含次品數(shù)X是一個(gè)隨機(jī)變量,其概率為: 泊松分布 描述指定時(shí)間內(nèi),或面積、體積內(nèi)某一事件出現(xiàn)的個(gè)數(shù)的分布,其概率為:()mn mMN MnNC CP XmC()!xeP Xxx,其中 為出現(xiàn)的平均次數(shù)二項(xiàng)分布的統(tǒng)計(jì)推斷 實(shí)際中,二項(xiàng)分布和多項(xiàng)分布的參數(shù)值未知,需要通過(guò)樣本數(shù)據(jù)估計(jì)總體參數(shù)。 在統(tǒng)

12、計(jì)學(xué)原理中,可以根據(jù)樣本比例的抽樣分布,用樣本比例估計(jì)總體比例的區(qū)間,或用樣本比例的差估計(jì)總體比例差。/2(1)(1)/pzppn12/2111222(2)()(1)/(1)/ppzppnppn二項(xiàng)分布的統(tǒng)計(jì)推斷 需要強(qiáng)調(diào)的是,以上方法使用的前提是樣本量n要足夠大,或者二項(xiàng)比例接近0.5; 否則區(qū)間估計(jì)的效果將非常差,特別是在二項(xiàng)比例趨近1或0時(shí); 這時(shí),可以采用假設(shè)檢驗(yàn)(得分檢驗(yàn))的方法來(lái)進(jìn)行參數(shù)估計(jì),其效果要優(yōu)于一般直接采用區(qū)間估計(jì)的方法。 原因在于:計(jì)算樣本比例的標(biāo)準(zhǔn)誤時(shí),不需要用樣本比例作為總體比例的點(diǎn)估計(jì)。二項(xiàng)分布的統(tǒng)計(jì)推斷【例】一項(xiàng)新治療手段在10次試驗(yàn)中有9次成功,試對(duì)總體比例進(jìn)

13、行區(qū)間估計(jì)(=0.05)?!窘?】基于直接區(qū)間估計(jì)方法的結(jié)果為:【解2】運(yùn)用檢驗(yàn)統(tǒng)計(jì)量構(gòu)造區(qū)間: 對(duì)于給定的p和n,使檢驗(yàn)統(tǒng)計(jì)量值 的 是下面方程的解.0.90 1.96 (0.90)(0.10)/10(0.714,1.086)1.96z 00001.96(1)/pn(0.596 0.982)pn代入 和 求解得,二項(xiàng)分布的統(tǒng)計(jì)推斷 對(duì)二項(xiàng)參數(shù)的假設(shè)檢驗(yàn): Wald檢驗(yàn)(最簡(jiǎn)單的方法) 是利用極大似然(ML)估計(jì)值代替真實(shí)標(biāo)準(zhǔn)誤表達(dá)式中的未知參數(shù)而構(gòu)造的統(tǒng)計(jì)量 近似服從標(biāo)準(zhǔn)正態(tài)分布, 近似服從df=1的卡方分布 稱為Wald統(tǒng)計(jì)量0()/(1)/zpppn2z二項(xiàng)分布的統(tǒng)計(jì)推斷 似然比檢驗(yàn) 利

14、用似然函數(shù)構(gòu)造似然比統(tǒng)計(jì)量,其中分子是原假設(shè)成立時(shí)似然函數(shù)的極大值,分母是不限定參數(shù)時(shí)似然函數(shù)的極大值,形式為: 在原假設(shè)成立條件下,該統(tǒng)計(jì)量服從df=1的大樣本卡方分布 可以利用統(tǒng)計(jì)軟件計(jì)算似然函數(shù)的極大值012ln(/ )ll幾種方法的比較【例】試對(duì)前例進(jìn)行假設(shè)檢驗(yàn),其原假設(shè)與備擇假設(shè)分別為 Wald檢驗(yàn)的統(tǒng)計(jì)量: 得分檢驗(yàn)的統(tǒng)計(jì)量: 似然比檢驗(yàn)統(tǒng)計(jì)量:01:0.5:0.5HH,(0.90.5)/0.9(0.1)/104.22z (0.90.5)/0.5(0.5)/102.53z 012ln(/ )2ln(0.00977/0.3874)7.36ll 幾種方法的比較 其中, 當(dāng)以上統(tǒng)計(jì)推斷方

15、法結(jié)果不一致時(shí),說(shuō)明ML估計(jì)量的分布遠(yuǎn)離了正態(tài)分布,在這種情況下,使用小樣本方法將更準(zhǔn)確。 對(duì)小樣本時(shí),直接使用二項(xiàng)分布,而不是使用正態(tài)近似來(lái)計(jì)算P-值,將更加安全準(zhǔn)確。91091110!/9!1!(0.5) (0.5)0.0097710!/9!1!(0.9) (0.1)0.3874ll分類數(shù)據(jù)的檢驗(yàn) 當(dāng)分類超過(guò)兩類時(shí),形成多項(xiàng)分布; 多項(xiàng)分布屬性數(shù)據(jù)的假設(shè)檢驗(yàn)一般提法: 按照某項(xiàng)指標(biāo)總體被分為r類,分別為: 提出原假設(shè): 假設(shè)對(duì)該總體進(jìn)行n次觀測(cè),其中Ai類的觀測(cè)次數(shù)為ni,以此為基礎(chǔ)對(duì)原假設(shè)進(jìn)行檢驗(yàn)。1,rAA01:0010riiHAppiiippi類所占比例其中,已知,分類數(shù)據(jù)的2檢驗(yàn)

16、在原假設(shè)成立時(shí),n次觀測(cè)中屬于Ai類的期望頻數(shù)為 ,則實(shí)際頻數(shù)與期望頻數(shù)應(yīng)接近,從而有Pearson卡方統(tǒng)計(jì)量: 該統(tǒng)計(jì)量的值越小,說(shuō)明原假設(shè)成立;若該值較大,說(shuō)明實(shí)際頻數(shù)與期望頻數(shù)差異較大,故拒絕原假設(shè)。0inp222010()(1)riiiinnprnpMendel 的豌豆實(shí)驗(yàn)分類數(shù)據(jù)的2檢驗(yàn) 對(duì)得到的卡方統(tǒng)計(jì)量的值,可以直接與相應(yīng)的顯著性水平和自由度下的卡方值比較,若大于則拒絕原假設(shè),若小于則不拒絕原假設(shè); 查表得: ,故不拒絕原假設(shè)。 也可以利用P-值進(jìn)行判斷: 需要注意的是:卡方統(tǒng)計(jì)量的使用要求樣本量要大,且期望頻數(shù)不能太小,見附錄3。 通常要求樣本量50,期望頻數(shù)5。0.052(4

17、 1)7.812(3)0.47)PP分類數(shù)據(jù)的2檢驗(yàn) 對(duì)于小期望頻數(shù)的問(wèn)題,有人采用合并類別的方法。但會(huì)導(dǎo)致: 會(huì)丟失信息; 隨機(jī)性受到影響; 不同的類別合并方式會(huì)產(chǎn)生不同的結(jié)論 對(duì)于前面討論的二項(xiàng)分布的檢驗(yàn)而言,同樣可以采用卡方統(tǒng)計(jì)量進(jìn)行檢驗(yàn)。只不過(guò)只有兩類而已(卡方的df=1)。分類數(shù)據(jù)的2檢驗(yàn) 以上所進(jìn)行的多項(xiàng)分布數(shù)據(jù)檢驗(yàn)稱為擬合優(yōu)度檢驗(yàn),或一致性檢驗(yàn); 類似的例子如: 為提高市場(chǎng)占用率,兩個(gè)主要競(jìng)爭(zhēng)對(duì)手展開了公告戰(zhàn)。已知之前A公司占用率45%,B公司為40%,其他15%。為了解廣告之后是否有變化調(diào)查了200個(gè)消費(fèi)者,有102人購(gòu)買A公司產(chǎn)品,82人購(gòu)買B公司產(chǎn)品,16人購(gòu)買其他公司產(chǎn)品

18、。問(wèn)前后是否有差異。分類數(shù)據(jù)的似然比檢驗(yàn) 分類數(shù)據(jù)的似然函數(shù)取決于多項(xiàng)分布的分布律: 似然函數(shù)就是觀測(cè)數(shù)據(jù)出現(xiàn)的概率,被看作參數(shù)的函數(shù)。 似然比統(tǒng)計(jì)量確定了在原假設(shè)下和不限定參數(shù)時(shí)似然函數(shù)極大值的比值。 則多項(xiàng)分布的似然比統(tǒng)計(jì)量記為:1111!( ,)!rnnrrirnp nnppnnnn,202ln( )2ln()iiinpGnn 分類數(shù)據(jù)的似然比檢驗(yàn) 似然比統(tǒng)計(jì)量說(shuō)明,當(dāng)期望頻數(shù)等于實(shí)際頻數(shù)時(shí),G2等于0;越大的G2則提供了拒絕H0越充分的證據(jù)。 G2與皮爾遜卡方統(tǒng)計(jì)量類似,當(dāng)原假設(shè)成立且期望頻數(shù)很大時(shí),都服從相同的卡方分布。 G2漸近卡方分布自由度的確定方法: 自由度df=完全參數(shù)空間要估計(jì)的參數(shù)個(gè)數(shù)-原假設(shè)成立時(shí)要估計(jì)的參數(shù)個(gè)數(shù)Mendel 的豌豆實(shí)驗(yàn) 前例同樣可以利用似然比統(tǒng)計(jì)量進(jìn)行檢驗(yàn) 與皮爾遜卡方統(tǒng)計(jì)量的值相近。 檢驗(yàn)的判斷準(zhǔn)則同卡方檢驗(yàn)。293153108315ln() 108ln()16556165562ln( )20.483101132101ln()32ln()1655616556G 帶參數(shù)的分類數(shù)據(jù)的檢驗(yàn) 前面的分類數(shù)據(jù)檢驗(yàn)中,假設(shè)總體比例

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論