定性數(shù)據(jù)統(tǒng)計分析第1-2章_第1頁
定性數(shù)據(jù)統(tǒng)計分析第1-2章_第2頁
定性數(shù)據(jù)統(tǒng)計分析第1-2章_第3頁
定性數(shù)據(jù)統(tǒng)計分析第1-2章_第4頁
定性數(shù)據(jù)統(tǒng)計分析第1-2章_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

定性數(shù)據(jù)統(tǒng)計分析

CategoricalDataAnalysis授課班級:1070612009年下學期教學內(nèi)容第一章定性數(shù)據(jù)第二章分類數(shù)據(jù)的檢驗第三章四格表第四章二維列聯(lián)表第五章高維列聯(lián)表第六章邏輯斯蒂回歸模型第七章對數(shù)線性模型第八章列聯(lián)表的對應分析第一章定性數(shù)據(jù)什么是定性數(shù)據(jù)?數(shù)據(jù)的類型——根據(jù)數(shù)據(jù)的取值來分:1.計量數(shù)據(jù)(ContinuousData):身高、體重等;取值為任意實數(shù)2.計數(shù)數(shù)據(jù)(Counts):職工人數(shù)、成交股票數(shù)等;取值為非負整數(shù)3.名義數(shù)據(jù)(NominalData):性別、婚姻狀況等;取值為屬性編碼4.有序數(shù)據(jù)(OrdinalData):文化程度、滿意度等;取值為可排序的屬性編碼第一章定性數(shù)據(jù)定性數(shù)據(jù)的描述性統(tǒng)計方法有表格法、圖示法、數(shù)值法1、表格法【例】向50個被訪者調(diào)查“你最喜歡喝的飲料”,得到表1.1。以上數(shù)據(jù)經(jīng)按類別整理后,可得到頻數(shù)分布表,見表1.2制作有序數(shù)據(jù)的頻數(shù)分布表時,還可以統(tǒng)計累積頻數(shù)和累積頻率。第一章定性數(shù)據(jù)如果我們想考察這些飲料受歡迎程度與性別的關(guān)系,可以制作飲料與性別的交叉分組表,見表1.3顯然,這種表有利于我們進一步發(fā)現(xiàn)受歡迎程度與性別之間的關(guān)系。類似地有三種、或更多種方式分組的交叉表,即列聯(lián)表(contingencytable)。第一章定性數(shù)據(jù)2、圖示法包括條形圖、圓形圖(表1.4)、排列圖等其中的排列圖,又叫帕累托圖,是按照發(fā)生頻率大小順序繪制的條形圖;表示有多少結(jié)果是由已確認類型或范疇的原因所造成;將出現(xiàn)的質(zhì)量問題和質(zhì)量改進項目按照重要程度依次排列而采用的一種圖表;可以用來分析質(zhì)量問題,確定產(chǎn)生質(zhì)量問題的主要因素。通常用雙坐標系表示,左邊縱坐標表示頻數(shù),右邊縱坐標表示頻率,分析線表示累積頻率;橫坐標表示影響質(zhì)量的各項因素,按影響程度的大小(即出現(xiàn)頻數(shù)多少)從左到右排列;通常將累積頻率0~80%之間的因素認為是影響質(zhì)量的主要因素。(見附錄1)帕累托圖(ParetoChart)第一章定性數(shù)據(jù)3、數(shù)值法即用代表性的數(shù)值描述定性數(shù)據(jù)的統(tǒng)計分布特征。代表性的數(shù)值有兩類:描述定性數(shù)據(jù)的中心位置描述定性數(shù)據(jù)的離散程度中心位置:眾數(shù)、中位數(shù)、百分位數(shù)離散程度:異眾比率、G-S指數(shù)、熵眾數(shù)數(shù)據(jù)中出現(xiàn)頻數(shù)最高的數(shù)據(jù)值,記為Mo如上例中,“可口可樂”是眾數(shù);適用于定性名義數(shù)據(jù)中心位置的量度;眾數(shù)的性質(zhì)略。中位數(shù)將數(shù)據(jù)按一定順序排列后位于中間的數(shù)值,記為Me;例:游客對服務態(tài)度的評價(%)適用于定性有序數(shù)據(jù)中心位置的量度。百分位數(shù)百分位數(shù)是對數(shù)據(jù)位置的量度,但不一定是中心位置;一般地,第p百分位數(shù)是指,至少有p%的數(shù)據(jù)項小于等于這個值,且至少有(100-p)%的數(shù)據(jù)項大于等于這個值;第25百分位數(shù)稱為下四分位數(shù),記為QL,第50百分位數(shù)就是中位數(shù),第75百分位數(shù)稱為上四分位數(shù),記為QU;異眾比率用于定性名義數(shù)據(jù)離散程度的度量,記為V:離異比率越小,說明數(shù)據(jù)越集中;此外,還可以利用隨機變量來刻畫定性數(shù)據(jù)的離散程度;比如,隨機變量ξ,可以取等不同的值,相應的概率為即:Gini-Simpson指數(shù)基尼-辛卜生指數(shù)簡稱G-S指數(shù)隨機變量ξ的G-S指數(shù)記為G-S(ξ)G-S指數(shù)越小,說明隨機變量ξ的分布越集中;G-S指數(shù)越大,則分布越分散。當k=2,時,G-S指數(shù)達到最大值,即均勻分布時指數(shù)達到最大(見附錄2)。熵隨機變量ξ的熵(entropy)記為H(ξ):在的條件下,衡量給定分布與均勻分布接近的程度。越接近于均勻分布,越處于平衡狀態(tài),即離散程度越大,熵的取值越大,最大值為;反之也反。(見附錄2)定性數(shù)據(jù)離散程度的測度【例】最喜歡的飲料的頻數(shù)分布表1、用離異比率測度:若將數(shù)據(jù)稍作調(diào)整為:則飲料頻數(shù)頻率可口可樂蘋果汁橘子汁百事可樂杏仁露2565595012101018合計50100定性數(shù)據(jù)離散程度的測度2、用G-S指數(shù)測度:調(diào)整前,調(diào)整后,3、用熵測度:調(diào)整前,調(diào)整后,定性數(shù)據(jù)離散程度的測度如果前例中每種飲料的頻數(shù)相同,那么各自的G-S指數(shù)和熵分別為多少呢?當均勻分布時,定性數(shù)據(jù)的離散程度達到最大G-S指數(shù)的最大值為:熵的最大值為:本章小結(jié)定性數(shù)據(jù)的類型運用頻數(shù)分布表整理數(shù)據(jù),并計算頻率繪出條形圖、餅圖、帕累托圖描述定性數(shù)據(jù)的中心位置和離散程度第二章分類數(shù)據(jù)的檢驗在描述分析基礎(chǔ)上,進行推斷統(tǒng)計分析參數(shù)估計假設(shè)檢驗統(tǒng)計推斷要求知道統(tǒng)計量的抽樣分布什么是統(tǒng)計量什么是抽樣分布屬性數(shù)據(jù)的兩種重要分布:二項分布多項分布二項分布屬性數(shù)據(jù)常常來源于每次試驗僅有兩種試驗結(jié)果的n次獨立重復試驗,如成功與失敗、合格與不合格、男與女、等等假設(shè)代表一次試驗成功的概率,代表n次試驗中成功的次數(shù),這時服從指標n以及參數(shù)的二項分布,即二項分布二項分布的期望和方差分別為:當n=1時,二項分布簡化為:即:0-1分布是二項分布的特殊情況二項分布【例】假設(shè)一次考試有10道選擇題,每題有五個選項。一位完全沒有準備的學生隨機猜測每道題的答案。試問可能回答正確的題數(shù)及其概率如何?!窘狻拷Y(jié)果見表2.1可以看出,僅當π=0.5時,二項分布才是對稱的。對于固定的n,隨著π趨近0或1,二項分布表現(xiàn)越加偏斜。對于固定的π,隨著n增加,二項分布更趨近鐘形。二項分布當n很大時,二項分布趨近于均值,的正態(tài)分布(近似分布)。原則上,要使二項分布趨近正態(tài)分布,要求期望和都不小于5。當π較大時(如0.5),n相對較小(如≥10)就可以滿足要求;當π較小時(如0.1或0.9),則要求n取較大的值(如≥50),即大樣本要求。多項分布多項分布是二項分布的推廣,其試驗結(jié)果的類別多于兩種,記為。令c代表結(jié)果的類別數(shù),用表示每種結(jié)果出現(xiàn)的概率,且對于n次獨立試驗,具有次觀測落入第1類,次觀測落入第2類……的概率為:多項分布顯然,當c=2時多項分布簡化為二項分布。通常不需要使用以上多項分布概率公式,只需掌握基于多項分布律的統(tǒng)計量即可。大部分針對屬性數(shù)據(jù)的方法都假設(shè):單類別的計數(shù)服從二項分布多類別的計數(shù)服從多項分布任何一個確定類別計數(shù)具有均值,標準差。其他分布超幾何分布設(shè)N件產(chǎn)品中有M件次品,從中無放回取n件時所含次品數(shù)X是一個隨機變量,其概率為:泊松分布描述指定時間內(nèi),或面積、體積內(nèi)某一事件出現(xiàn)的個數(shù)的分布,其概率為:二項分布的統(tǒng)計推斷實際中,二項分布和多項分布的參數(shù)值未知,需要通過樣本數(shù)據(jù)估計總體參數(shù)。在統(tǒng)計學原理中,可以根據(jù)樣本比例的抽樣分布,用樣本比例估計總體比例的區(qū)間,或用樣本比例的差估計總體比例差。二項分布的統(tǒng)計推斷需要強調(diào)的是,以上方法使用的前提是樣本量n要足夠大,或者二項比例接近0.5;否則區(qū)間估計的效果將非常差,特別是在二項比例趨近1或0時;這時,可以采用假設(shè)檢驗(得分檢驗)的方法來進行參數(shù)估計,其效果要優(yōu)于一般直接采用區(qū)間估計的方法。原因在于:計算樣本比例的標準誤時,不需要用樣本比例作為總體比例的點估計。二項分布的統(tǒng)計推斷【例】一項新治療手段在10次試驗中有9次成功,試對總體比例進行區(qū)間估計(α=0.05)。【解1】基于直接區(qū)間估計方法的結(jié)果為:【解2】運用檢驗統(tǒng)計量構(gòu)造區(qū)間:對于給定的p和n,使檢驗統(tǒng)計量值的是下面方程的解.二項分布的統(tǒng)計推斷對二項參數(shù)的假設(shè)檢驗:Wald檢驗(最簡單的方法)是利用 極大似然(ML)估計值代替真實標準誤表達式中的未知參數(shù)而構(gòu)造的統(tǒng)計量近似服從標準正態(tài)分布,近似服從df=1的卡方分布稱為Wald統(tǒng)計量二項分布的統(tǒng)計推斷似然比檢驗利用似然函數(shù)構(gòu)造似然比統(tǒng)計量,其中分子是原假設(shè)成立時似然函數(shù)的極大值,分母是不限定參數(shù)時似然函數(shù)的極大值,形式為:在原假設(shè)成立條件下,該統(tǒng)計量服從df=1的大樣本卡方分布可以利用統(tǒng)計軟件計算似然函數(shù)的極大值幾種方法的比較【例】試對前例進行假設(shè)檢驗,其原假設(shè)與備擇假設(shè)分別為Wald檢驗的統(tǒng)計量:得分檢驗的統(tǒng)計量:似然比檢驗統(tǒng)計量:幾種方法的比較其中,當以上統(tǒng)計推斷方法結(jié)果不一致時,說明ML估計量的分布遠離了正態(tài)分布,在這種情況下,使用小樣本方法將更準確。對小樣本時,直接使用二項分布,而不是使用正態(tài)近似來計算P-值,將更加安全準確。分類數(shù)據(jù)的檢驗當分類超過兩類時,形成多項分布;多項分布屬性數(shù)據(jù)的假設(shè)檢驗一般提法:按照某項指標總體被分為r類,分別為:提出原假設(shè):假設(shè)對該總體進行n次觀測,其中Ai類的觀測次數(shù)為ni,以此為基礎(chǔ)對原假設(shè)進行檢驗。分類數(shù)據(jù)的χ2檢驗在原假設(shè)成立時,n次觀測中屬于Ai類的期望頻數(shù)為,則實際頻數(shù)與期望頻數(shù)應接近,從而有Pearson卡方統(tǒng)計量:該統(tǒng)計量的值越小,說明原假設(shè)成立;若該值較大,說明實際頻數(shù)與期望頻數(shù)差異較大,故拒絕原假設(shè)。Mendel的豌豆實驗分類數(shù)據(jù)的χ2檢驗對得到的卡方統(tǒng)計量的值,可以直接與相應的顯著性水平和自由度下的卡方值比較,若大于則拒絕原假設(shè),若小于則不拒絕原假設(shè);查表得:,故不拒絕原假設(shè)。也可以利用P-值進行判斷:需要注意的是:卡方統(tǒng)計量的使用要求樣本量要大,且期望頻數(shù)不能太小,見附錄3。通常要求樣本量≥50,期望頻數(shù)≥5。分類數(shù)據(jù)的χ2檢驗對于小期望頻數(shù)的問題,有人采用合并類別的方法。但會導致:會丟失信息;隨機性受到影響;不同的類別合并方式會產(chǎn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論