數(shù)據(jù)的統(tǒng)計(jì)描述和分析.doc_第1頁(yè)
數(shù)據(jù)的統(tǒng)計(jì)描述和分析.doc_第2頁(yè)
數(shù)據(jù)的統(tǒng)計(jì)描述和分析.doc_第3頁(yè)
數(shù)據(jù)的統(tǒng)計(jì)描述和分析.doc_第4頁(yè)
數(shù)據(jù)的統(tǒng)計(jì)描述和分析.doc_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第十章 數(shù)據(jù)的統(tǒng)計(jì)描述和分析 數(shù)理統(tǒng)計(jì)研究的對(duì)象是受隨機(jī)因素影響的數(shù)據(jù),以下數(shù)理統(tǒng)計(jì)就簡(jiǎn)稱統(tǒng)計(jì),統(tǒng)計(jì)是以概率論為基礎(chǔ)的一門應(yīng)用學(xué)科。數(shù)據(jù)樣本少則幾個(gè),多則成千上萬(wàn),人們希望能用少數(shù)幾個(gè)包含其最多相關(guān)信息的數(shù)值來(lái)體現(xiàn)數(shù)據(jù)樣本總體的規(guī)律。描述性統(tǒng)計(jì)就是搜集、整理、加工和分析統(tǒng)計(jì)數(shù)據(jù),使之系統(tǒng)化、條理化,以顯示出數(shù)據(jù)資料的趨勢(shì)、特征和數(shù)量關(guān)系。它是統(tǒng)計(jì)推斷的基礎(chǔ),實(shí)用性較強(qiáng),在統(tǒng)計(jì)工作中經(jīng)常使用。面對(duì)一批數(shù)據(jù)如何進(jìn)行描述與分析,需要掌握參數(shù)估計(jì)和假設(shè)檢驗(yàn)這兩個(gè)數(shù)理統(tǒng)計(jì)的最基本方法。我們將用Matlab的統(tǒng)計(jì)工具箱(Statistics Toolbox)來(lái)實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)計(jì)描述和分析。1 統(tǒng)計(jì)的基本概念1.1 總體和樣本總體是人們研究對(duì)象的全體,又稱母體,如工廠一天生產(chǎn)的全部產(chǎn)品(按合格品及廢品分類),學(xué)校全體學(xué)生的身高??傮w中的每一個(gè)基本單位稱為個(gè)體,個(gè)體的特征用一個(gè)變量(如)來(lái)表示,如一件產(chǎn)品是合格品記,是廢品記;一個(gè)身高170(cm)的學(xué)生記。從總體中隨機(jī)產(chǎn)生的若干個(gè)個(gè)體的集合稱為樣本,或子樣,如件產(chǎn)品,100名學(xué)生的身高,或者一根軸直徑的10次測(cè)量。實(shí)際上這就是從總體中隨機(jī)取得的一批數(shù)據(jù),不妨記作,稱為樣本容量。簡(jiǎn)單地說(shuō),統(tǒng)計(jì)的任務(wù)是由樣本推斷總體。1.2 頻數(shù)表和直方圖一組數(shù)據(jù)(樣本)往往是雜亂無(wú)章的,作出它的頻數(shù)表和直方圖,可以看作是對(duì)這組數(shù)據(jù)的一個(gè)初步整理和直觀描述。將數(shù)據(jù)的取值范圍劃分為若干個(gè)區(qū)間,然后統(tǒng)計(jì)這組數(shù)據(jù)在每個(gè)區(qū)間中出現(xiàn)的次數(shù),稱為頻數(shù),由此得到一個(gè)頻數(shù)表。以數(shù)據(jù)的取值為橫坐標(biāo),頻數(shù)為縱坐標(biāo),畫(huà)出一個(gè)階梯形的圖,稱為直方圖,或頻數(shù)分布圖。若樣本容量不大,能夠手工作出頻數(shù)表和直方圖,當(dāng)樣本容量較大時(shí)則可以借助Matlab這樣的軟件了。讓我們以下面的例子為例,介紹頻數(shù)表和直方圖的作法。例1 學(xué)生的身高和體重學(xué)校隨機(jī)抽取100名學(xué)生,測(cè)量他們的身高和體重,所得數(shù)據(jù)如表身高 體重身高 體重身高 體重身高 體重身高 體重172 75 171 62 166 62 160 55 155 57 173 58 166 55 170 63 167 53 173 60 178 60 173 73 163 47 165 66 170 60 163 50 172 57 182 63 171 59 177 64 169 55 168 67 168 65 175 67 176 64 168 50 161 49 169 63 171 61 178 64 177 66 170 58 173 67 172 59 170 62 172 59 177 58 176 68 175 68 184 70 169 64 165 52 164 59 173 74 172 69 169 52 173 57 173 61 166 70 163 57 170 56 160 65 165 58 177 66 169 63 176 60 177 67 172 56 165 56 166 49 171 65 169 62 170 58 172 64 169 58 167 72 175 76 164 59 166 63 169 54 167 54 179 62 176 63 182 69 186 77 166 76 169 72 173 59 169 65 171 71 167 47 168 65 165 64 168 57 176 57 170 57 158 51 165 62 172 53 169 66 169 58 172 50 162 52 175 75 174 66 167 63 166 50 174 64 168 62 170 59 (i) 數(shù)據(jù)輸入數(shù)據(jù)輸入通常有兩種方法,一種是在交互環(huán)境中直接輸入,如果在統(tǒng)計(jì)中數(shù)據(jù)量比較大,這樣作不太方便;另一種辦法是先把數(shù)據(jù)寫(xiě)入一個(gè)純文本數(shù)據(jù)文件data.txt中,格式如例1的表格,有20行、10列,數(shù)據(jù)列之間用空格鍵或Tab鍵分割,該數(shù)據(jù)文件data.txt存放在matlabwork子目錄下,在Matlab中用load命令讀入數(shù)據(jù),具體作法是:load data.txt這樣在內(nèi)存中建立了一個(gè)變量data,它是一個(gè)包含有個(gè)數(shù)據(jù)的矩陣。為了得到我們需要的100個(gè)身高和體重各為一列的矩陣,應(yīng)做如下的改變:high=data(:,1:2:9);high=high(:)weight=data(:,2:2:10);weight=weight(:)(ii)作頻數(shù)表及直方圖用hist命令實(shí)現(xiàn),其用法是:N,X = hist(Y,M)數(shù)組(行、列均可)Y的頻數(shù)表。它將區(qū)間min(Y),max(Y)等分為M份(缺省時(shí)M設(shè)定為10),N返回M個(gè)小區(qū)間的頻數(shù),X返回M個(gè)小區(qū)間的中點(diǎn)。hist(Y,M)數(shù)組Y的直方圖。對(duì)于例1的數(shù)據(jù),編寫(xiě)程序如下:load data.txt;high=data(:,1:2:9);high=high(:);weight=data(:,2:2:10);weight=weight(:);n1,x1=hist(high)%下面語(yǔ)句與hist命令等價(jià)%n1=length(find(high=158.1&high=161.2&high=164.5&high=167.6&high=170.7&high=173.8&high=176.9&high=180&high=183.1)n2,x2=hist(weight)subplot(1,2,1)hist(high)subplot(1,2,2)hist(weight)計(jì)算結(jié)果略,直方圖如下圖所示:從直方圖上可以看出,身高的分布大致呈中間高、兩端低的鐘形;而體重則看不出什么規(guī)律。要想從數(shù)值上給出更確切的描述,需要進(jìn)一步研究反映數(shù)據(jù)特征的所謂“統(tǒng)計(jì)量”。直方圖所展示的身高的分布形狀可看作正態(tài)分布,當(dāng)然也可以用這組數(shù)據(jù)對(duì)分布作假設(shè)檢驗(yàn)。例2 統(tǒng)計(jì)下列五行字符串中字符a、g、c、t出現(xiàn)的頻數(shù)1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggagg2.cggaggacaaacgggatggcggtattggaggtggcggactgttcgggga3.gggacggatacggattctggccacggacggaaaggaggacacggcggacataca4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagctta5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggc解 把上述五行復(fù)制到一個(gè)純文本數(shù)據(jù)文件shuju.txt中,放在matlabwork子目錄下,編寫(xiě)如下程序:clcfid1=fopen(shuju.txt,r);i=1;while (feof(fid1)data=fgetl(fid1);a=length(find(data=97);b=length(find(data=99);c=length(find(data=103);d=length(find(data=116);e=length(find(data=97&data=122);f(i,:)=a b c d e a+b+c+d;i=i+1;endfhe=sum(f(:,1) sum(f(:,2) sum(f(:,3) sum(f(:,4). sum(f(:,5) sum(f(:,6)fid2=fopen(pinshu.txt,w);fprintf(fid2,%8d %8d %8d %8d %8d %8dn,f);fclose(fid1);fclose(fid2); 我們把統(tǒng)計(jì)結(jié)果最后寫(xiě)到一個(gè)純文本文件pinshu.txt中,在程序中多引進(jìn)了幾個(gè)變量,是為了檢驗(yàn)字符串是否只包含a、g、c、t四個(gè)字符。1.3 統(tǒng)計(jì)量假設(shè)有一個(gè)容量為的樣本(即一組數(shù)據(jù)),記作,需要對(duì)它進(jìn)行一定的加工,才能提出有用的信息,用作對(duì)總體(分布)參數(shù)的估計(jì)和檢驗(yàn)。統(tǒng)計(jì)量就是加工出來(lái)的、反映樣本數(shù)量特征的函數(shù),它不含任何未知量。下面我們介紹幾種常用的統(tǒng)計(jì)量。(i)表示位置的統(tǒng)計(jì)量算術(shù)平均值和中位數(shù)算術(shù)平均值(簡(jiǎn)稱均值)描述數(shù)據(jù)取值的平均位置,記作, (1)中位數(shù)是將數(shù)據(jù)由小到大排序后位于中間位置的那個(gè)數(shù)值。Matlab中mean(x)返回x的均值,median(x)返回中位數(shù)。(ii)表示變異程度的統(tǒng)計(jì)量標(biāo)準(zhǔn)差、方差和極差標(biāo)準(zhǔn)差定義為 (2)它是各個(gè)數(shù)據(jù)與均值偏離程度的度量,這種偏離不妨稱為變異。方差是標(biāo)準(zhǔn)差的平方。極差是的最大值與最小值之差。Matlab中std(x)返回x的標(biāo)準(zhǔn)差,var(x)返回方差,range(x)返回極差。你可能注意到標(biāo)準(zhǔn)差的定義(2)中,對(duì)個(gè)的平方求和,卻被除,這是出于無(wú)偏估計(jì)的要求。若需要改為被除,Matlab可用std(x,1)和var(x,1)來(lái)實(shí)現(xiàn)。(iii)中心矩、表示分布形狀的統(tǒng)計(jì)量偏度和峰度隨機(jī)變量的階中心矩為。隨機(jī)變量的偏度和峰度指的是的標(biāo)準(zhǔn)化變量 的三階中心矩和四階中心矩: 偏度反映分布的對(duì)稱性,稱為右偏態(tài),此時(shí)數(shù)據(jù)位于均值右邊的比位于左邊的多;稱為左偏態(tài),情況相反;而接近0則可認(rèn)為分布是對(duì)稱的。 峰度是分布形狀的另一種度量,正態(tài)分布的峰度為3,若比3大得多,表示分布有沉重的尾巴,說(shuō)明樣本中含有較多遠(yuǎn)離均值的數(shù)據(jù),因而峰度可以用作衡量偏離正態(tài)分布的尺度之一。Matlab中moment(x,order)返回x的order階中心矩,order為中心矩的階數(shù)。skewness(x)返回x的偏度,kurtosis(x)返回峰度。在以上用Matlab計(jì)算各個(gè)統(tǒng)計(jì)量的命令中,若x為矩陣,則作用于x的列,返回一個(gè)行向量。對(duì)例1給出的學(xué)生身高和體重,用Matlab計(jì)算這些統(tǒng)計(jì)量,程序如下:clcload data.txt;high=data(:,1:2:9);high=high(:);weight=data(:,2:2:10);weight=weight(:);shuju=high weight;jun_zhi=mean(high weight)zhong_wei_shu=median(shuju)biao_zhun_cha=std(shuju)ji_cha=range(shuju)pian_du=skewness(shuju)feng_du=kurtosis(shuju)統(tǒng)計(jì)量中最重要、最常用的是均值和標(biāo)準(zhǔn)差,由于樣本是隨機(jī)變量,它們作為樣本的函數(shù)自然也是隨機(jī)變量,當(dāng)用它們?nèi)ネ茢嗫傮w時(shí),有多大的可靠性就與統(tǒng)計(jì)量的概率分布有關(guān),因此我們需要知道幾個(gè)重要分布的簡(jiǎn)單性質(zhì)。1.4 統(tǒng)計(jì)中幾個(gè)重要的概率分布1.4.1 分布函數(shù)、密度函數(shù)和分位數(shù)隨機(jī)變量的特性完全由它的(概率)分布函數(shù)或(概率)密度函數(shù)來(lái)描述。設(shè)有隨機(jī)變量,其分布函數(shù)定義為的概率,即。若是連續(xù)型隨機(jī)變量,則其密度函數(shù)與的關(guān)系為 .分位數(shù)是下面常用的一個(gè)概念,其定義為:對(duì)于,使某分布函數(shù)的,成為這個(gè)分布的分位數(shù),記作。我們前面畫(huà)過(guò)的直方圖是頻數(shù)分布圖,頻數(shù)除以樣本容量,稱為頻率,充分大時(shí)頻率是概率的近似,因此直方圖可以看作密度函數(shù)圖形的(離散化)近似。1.4.2 統(tǒng)計(jì)中幾個(gè)重要的概率分布(i)正態(tài)分布正態(tài)分布隨機(jī)變量的密度函數(shù)曲線呈中間高兩邊低、對(duì)稱的鐘形,期望(均值),方差,記作,稱均方差或標(biāo)準(zhǔn)差,當(dāng)時(shí)稱為標(biāo)準(zhǔn)正態(tài)分布,記作。正態(tài)分布完全由均值和方差決定,它的偏度為0,峰度為3。正態(tài)分布可以說(shuō)是最常見(jiàn)的(連續(xù)型)概率分布,成批生產(chǎn)時(shí)零件的尺寸,射擊中彈著點(diǎn)的位置,儀器反復(fù)量測(cè)的結(jié)果,自然界中一種生物的數(shù)量特征等,多數(shù)情況下都服從正態(tài)分布,這不僅是觀察和經(jīng)驗(yàn)的總結(jié),而且有著深刻的理論依據(jù),即在大量相互獨(dú)立的、作用差不多大的隨機(jī)因素影響下形成的隨機(jī)變量,其極限分布為正態(tài)分布。鑒于正態(tài)分布的隨機(jī)變量在實(shí)際生活中如此地常見(jiàn),記住下面3個(gè)數(shù)字是有用的:68%的數(shù)值落在距均值左右1個(gè)標(biāo)準(zhǔn)差的范圍內(nèi),即 ;95%的數(shù)值落在距均值左右2個(gè)標(biāo)準(zhǔn)差的范圍內(nèi),即 ;99.7%的數(shù)值落在距均值左右3個(gè)標(biāo)準(zhǔn)差的范圍內(nèi),即 .(ii)分布(Chi square)若為相互獨(dú)立的、服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量,則它們的平方和服從分布,記作,稱自由度,它的期望,方差。(iii)分布若,且相互獨(dú)立,則服從分布,記作,稱自由度。分布又稱學(xué)生氏(Student)分布。分布的密度函數(shù)曲線和曲線形狀相似。理論上時(shí),實(shí)際上當(dāng)時(shí)它與就相差無(wú)幾了。(iv)分布若,且相互獨(dú)立,則服從分布,記作,稱自由度。1.4.3 Matlab統(tǒng)計(jì)工具箱(ToolboxStats)中的概率分布Matlab統(tǒng)計(jì)工具箱中有20種概率分布,這里只對(duì)上面所述4種分布列出命令的字符:norm 正態(tài)分布; chi2 分布;t 分布 f 分布工具箱對(duì)每一種分布都提供5類函數(shù),其命令的字符是:pdf 概率密度; cdf 分布函數(shù); inv 分布函數(shù)的反函數(shù);stat 均值與方差; rnd 隨機(jī)數(shù)生成當(dāng)需要一種分布的某一類函數(shù)時(shí),將以上所列的分布命令字符與函數(shù)命令字符接起來(lái),并輸入自變量(可以是標(biāo)量、數(shù)組或矩陣)和參數(shù)就行了,如:p=normpdf(x,mu,sigma) 均值mu、標(biāo)準(zhǔn)差sigma的正態(tài)分布在的密度函數(shù) (mu=0,sigma=1時(shí)可缺省)。p=tcdf(x,n) 分布(自由度n)在x的分布函數(shù)。x=chi2inv(p,n) 分布(自由度n)使分布函數(shù)F(x)=p的x(即p分位數(shù))。m,v=fstat(n1,n2) 分布(自由度n1,n2)的均值m和方差v。幾個(gè)分布的密度函數(shù)圖形就可以用這些命令作出,如:x=-6:0.01:6;y=normpdf(x);z=normpdf(x,0,2);plot(x,y,x,z),gtext(N(0,1),gtext(N(0,22)分布函數(shù)的反函數(shù)的意義從下例看出:x=chi2inv(0.9,10)x = 15.9872如果反過(guò)來(lái)計(jì)算,則P=chi2cdf(15.9872,10)P = 0.90001.5 正態(tài)總體統(tǒng)計(jì)量的分布用樣本來(lái)推斷總體,需要知道樣本統(tǒng)計(jì)量的分布,而樣本又是一組與總體同分布的隨機(jī)變量,所以樣本統(tǒng)計(jì)量的分布依賴于總體的分布。當(dāng)總體服從一般的分布時(shí),求某個(gè)樣本統(tǒng)計(jì)量的分布是很困難的,只有在總體服從正態(tài)分布時(shí),一些重要的樣本統(tǒng)計(jì)量(均值、標(biāo)準(zhǔn)差)的分布才有便于使用的結(jié)果。另一方面,現(xiàn)實(shí)生活中需要進(jìn)行統(tǒng)計(jì)推斷的總體,多數(shù)可以認(rèn)為服從(或近似服從)正態(tài)分布,所以統(tǒng)計(jì)中人們?cè)谡龖B(tài)總體的假定下研究統(tǒng)計(jì)量的分布,是必要的與合理的。設(shè)總體,為一容量的樣本,其均值和標(biāo)準(zhǔn)差由式(1)、(2)確定,則用和構(gòu)造的下面幾個(gè)分布在統(tǒng)計(jì)中是非常有用的。 或 (3) (4) (5) 設(shè)有兩個(gè)總體和,及由容量分別為,的兩個(gè)樣本確定的均值和標(biāo)準(zhǔn)差,則 (6) (7)其中, (8)對(duì)于(7)式,假定,但它們未知,于是用代替。在下面的統(tǒng)計(jì)推斷中我們要反復(fù)用到這些分布。2 參數(shù)估計(jì)利用樣本對(duì)總體進(jìn)行統(tǒng)計(jì)推斷的一類問(wèn)題是參數(shù)估計(jì),即假定已知總體的分布,通常是,估計(jì)參數(shù)的分布,如。參數(shù)估計(jì)分點(diǎn)估計(jì)和區(qū)間估計(jì)兩種。2.1 點(diǎn)估計(jì)點(diǎn)估計(jì)是用樣本統(tǒng)計(jì)量確定總體參數(shù)的一個(gè)數(shù)值。評(píng)價(jià)估計(jì)優(yōu)劣的標(biāo)準(zhǔn)有無(wú)偏性、最小方差性、有效性等,估計(jì)的方法有矩法、極大似然法等。最常用的是對(duì)總體均值和方差(或標(biāo)準(zhǔn)差)作點(diǎn)估計(jì)。讓我們暫時(shí)拋開(kāi)評(píng)價(jià)標(biāo)準(zhǔn),當(dāng)從一個(gè)樣本按照式(1)、(2)算出樣本均值和方差后,對(duì)和(或)一個(gè)自然、合理的點(diǎn)估計(jì)顯然是(在字母上加表示它的估計(jì)值), (9)2.2 區(qū)間估計(jì)點(diǎn)估計(jì)雖然給出了待估參數(shù)的一個(gè)數(shù)值,卻沒(méi)有告訴我們這個(gè)估計(jì)值的精度和可信程度。一般地,總體的待估參數(shù)記作(如),由樣本算出的的估計(jì)量記作,人們常希望給出一個(gè)區(qū)間,使以一定的概率落在此區(qū)間內(nèi)。若有, (10)則稱為的置信區(qū)間,分別稱為置信下限和置信上限,稱為置信概率或置信水平,稱為顯著性水平。給出的置信水平為的置信區(qū)間,稱為的區(qū)間估計(jì)。置信區(qū)間越小,估計(jì)的精度越高;置信水平越大,估計(jì)的可信程度越高。但是這兩個(gè)指標(biāo)顯然是矛盾的,通常是在一定的置信水平下使置信區(qū)間盡量小。通俗地說(shuō),區(qū)間估計(jì)給出了點(diǎn)估計(jì)的誤差范圍。2.3 參數(shù)估計(jì)的Matlab實(shí)現(xiàn)Matlab統(tǒng)計(jì)工具箱中,有專門計(jì)算總體均值、標(biāo)準(zhǔn)差的點(diǎn)估計(jì)和區(qū)間估計(jì)的函數(shù)。對(duì)于正態(tài)總體,命令是mu,sigma,muci,sigmaci=normfit(x,alpha)其中x為樣本(數(shù)組或矩陣),alpha為顯著性水平(alpha缺省時(shí)設(shè)定為0.05),返回總體均值和標(biāo)準(zhǔn)差的點(diǎn)估計(jì)mu和sigma,及總體均值和標(biāo)準(zhǔn)差的區(qū)間估計(jì)muci和sigmaci。當(dāng)x為矩陣時(shí)返回行向量。Matlab統(tǒng)計(jì)工具箱中還提供了一些具有特定分布總體的區(qū)間估計(jì)的命令,如expfit,poissfit,gamfit,你可以從這些字頭猜出它們用于哪個(gè)分布,具體用法參見(jiàn)幫助系統(tǒng)。3 假設(shè)檢驗(yàn)統(tǒng)計(jì)推斷的另一類重要問(wèn)題是假設(shè)檢驗(yàn)問(wèn)題。在總體的分布函數(shù)完全未知或只知其形式但不知其參數(shù)的情況,為了推斷總體的某些性質(zhì),提出某些關(guān)于總體的假設(shè)。例如,提出總體服從泊松分布的假設(shè),又如對(duì)于正態(tài)總體提出數(shù)學(xué)期望等于的假設(shè)等。假設(shè)檢驗(yàn)就是根據(jù)樣本對(duì)所提出的假設(shè)做出判斷:是接受還是拒絕。這就是所謂的假設(shè)檢驗(yàn)問(wèn)題。3.1 單個(gè)總體均值的檢驗(yàn)原假設(shè)(或零假設(shè))為:。備選假設(shè)有三種可能:;。3.1.1 已知,關(guān)于的檢驗(yàn)(檢驗(yàn))在Matlab中檢驗(yàn)法由函數(shù)ztest來(lái)實(shí)現(xiàn),命令為h,p,ci=ztest(x,mu,sigma,alpha,tail)其中輸入?yún)?shù)x是樣本,mu是中的,sigma是總體標(biāo)準(zhǔn)差,alpha是顯著性水平(alpha缺省時(shí)設(shè)定為0.05),tail是對(duì)備選假設(shè)的選擇:為時(shí)用tail=0(可缺省);為時(shí)用tail=1;為時(shí)用tail=-1。輸出參數(shù)h=0表示接受,h=1表示拒絕,p表示在假設(shè)下樣本均值出現(xiàn)的概率,p越小越值得懷疑,ci是的置信區(qū)間。例3 某車間用一臺(tái)包裝機(jī)包裝糖果。包得的袋裝糖重是一個(gè)隨機(jī)變量,它服從正態(tài)分布。當(dāng)機(jī)器正常時(shí),其均值為0.5公斤,標(biāo)準(zhǔn)差為0.015公斤。某日開(kāi)工后為檢驗(yàn)包裝機(jī)是否正常,隨機(jī)地抽取它所包裝的糖9袋,稱得凈重為(公斤):0.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512問(wèn)機(jī)器是否正常?解 總體已知,未知。于是提出假設(shè)和。Matlab實(shí)現(xiàn)如下:x=0.497 0.506 0.518 0.524 0.498. 0.511 0.520 0.515 0.512;h,p,ci=ztest(x,0.5,0.015)求得h=1,p=0.0248,說(shuō)明在0.05的水平下,可拒絕原假設(shè),即認(rèn)為這天包裝機(jī)工作不正常。3.1.2 未知,關(guān)于的檢驗(yàn)(檢驗(yàn))在Matlab中檢驗(yàn)法由函數(shù)ttest來(lái)實(shí)現(xiàn),命令為h,p,ci=ttest(x,mu,alpha,tail)例4 某種電子元件的壽命(以小時(shí)計(jì))服從正態(tài)分布,均未知.現(xiàn)得16只元件的壽命如下:159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170 問(wèn)是否有理由認(rèn)為元件的平均壽命大于225(小時(shí))?解 按題意需檢驗(yàn),取。Matlab實(shí)現(xiàn)如下:x=159 280 101 212 224 379 179 264 . 222 362 168 250 149 260 485 170;h,p,ci=ttest(x,225,0.05,1)求得h=0,p=0.2570,說(shuō)明在顯著水平為0.05的情況下,不能拒絕原假設(shè),認(rèn)為元件的平均壽命不大于225小時(shí)。3.2 兩個(gè)正態(tài)總體均值差的檢驗(yàn)(檢驗(yàn))還可以用檢驗(yàn)法檢驗(yàn)具有相同方差的2個(gè)正態(tài)總體均值差的假設(shè)。在Matlab中由函數(shù)ttest2實(shí)現(xiàn),命令為:h,p,ci=ttest2(x,y,alpha,tail)與上面的ttest相比,不同處只在于輸入的是兩個(gè)樣本x,y(長(zhǎng)度不一定相同),而不是一個(gè)樣本和它的總體均值;tail的用法與ttest相似,可參看幫助系統(tǒng)。例5 在平爐上進(jìn)行一項(xiàng)試驗(yàn)以確定改變操作方法的建議是否會(huì)增加鋼的得率,試驗(yàn)是在同一平爐上進(jìn)行的。每煉一爐鋼時(shí)除操作方法外,其它條件都可能做到相同。先用標(biāo)準(zhǔn)方法煉一爐,然后用建議的新方法煉一爐,以后交換進(jìn)行,各煉了10爐,其得率分別為1標(biāo)準(zhǔn)方法 78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.6 76.7 77.3 2新方法 79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1設(shè)這兩個(gè)樣本相互獨(dú)立且分別來(lái)自正態(tài)總體和,均未知,問(wèn)建議的新方法能否提高得率?(取。)解 (i)需要檢驗(yàn)假設(shè) ,.(ii)Matlab實(shí)現(xiàn)x=78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.6 76.7 77.3;y=79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1;h,p,ci=ttest2(x,y,0.05,-1)求得h=1,p=2.212610-4。表明在的顯著水平下,可以拒絕原假設(shè),即認(rèn)為建議的新操作方法較原方法優(yōu)。3.3 分布擬合檢驗(yàn)在實(shí)際問(wèn)題中,有時(shí)不能預(yù)知總體服從什么類型的分布,這時(shí)就需要根據(jù)樣本來(lái)檢驗(yàn)關(guān)于分布的假設(shè)。下面介紹檢驗(yàn)法和專用于檢驗(yàn)分布是否為正態(tài)的“偏峰、峰度檢驗(yàn)法”。3.3.1 檢驗(yàn)法:總體的分布函數(shù)為,: 總體的分布函數(shù)不是在用下述檢驗(yàn)法檢驗(yàn)假設(shè)時(shí),若在假設(shè)下的形式已知,但其參數(shù)值未知,這時(shí)需要先用極大似然估計(jì)法估計(jì)參數(shù),然后作檢驗(yàn)。檢驗(yàn)法的基本思想如下:將隨機(jī)試驗(yàn)可能結(jié)果的全體分為個(gè)互不相容的事件 。于是在假設(shè)下,我們可以計(jì)算(或),。在次試驗(yàn)中,事件出現(xiàn)的頻率與()往往有差異,但一般來(lái)說(shuō),若為真,且試驗(yàn)的次數(shù)又甚多時(shí),則這種差異不應(yīng)該很大?;谶@種想法,皮爾遜使用 (11)作為檢驗(yàn)假設(shè)的統(tǒng)計(jì)量。并證明了以下定理。定理 若充分大,則當(dāng)為真時(shí)(不論中的分布屬什么分布),統(tǒng)計(jì)量(11)總是近似地服從自由度為的分布,其中是被估計(jì)的參數(shù)的個(gè)數(shù)。于是,若在假設(shè)下算得(11)有在顯著性水平下拒絕,否則就接受。注意:在使用檢驗(yàn)法時(shí),要求樣本容量不小于50,以及每個(gè)都不小于5,而且最好是在5以上。否則應(yīng)適當(dāng)?shù)睾喜?,以滿足這個(gè)要求。例6 下面列出了84個(gè)伊特拉斯坎(Etruscan)人男子的頭顱的最大寬度(mm),試檢驗(yàn)這些數(shù)據(jù)是否來(lái)自正態(tài)總體(取。141 148 132 138 154 142 150 146 155 158150 140 147 148 144 150 149 145 149 158143 141 144 144 126 140 144 142 141 140145 135 147 146 141 136 140 146 142 137148 154 137 139 143 140 131 143 141 149148 135 148 152 143 144 141 143 147 146150 132 142 142 143 153 149 146 149 138142 149 142 137 134 144 146 147 140 142140 137 152 145解 編寫(xiě)Matlab程序如下:clcx=141 148 132 138 154 142 150 146 155 158 .150 140 147 148 144 150 149 145 149 158 .143 141 144 144 126 140 144 142 141 140 .145 135 147 146 141 136 140 146 142 137 .148 154 137 139 143 140 131 143 141 149 .148 135 148 152 143 144 141 143 147 146 .150 132 142 142 143 153 149 146 149 138 .142 149 142 137 134 144 146 147 140 142 .140 137 152 145;min(x),max(x) %求數(shù)據(jù)中的最小數(shù)和最大數(shù)hist(x,8) %畫(huà)直方圖fi=length(find(x=135&x=138&x=142&x=146&x=150&x=154) %各區(qū)間上出現(xiàn)的頻數(shù)mu=mean(x),sigma=std(x) %均值和標(biāo)準(zhǔn)差fendian=135,138,142,146,150,154 %區(qū)間的分點(diǎn)p0=normcdf(fendian,mu,sigma) %分點(diǎn)處分布函數(shù)的值p1=diff(p0) %中間各區(qū)間的概率p=p0(1),p1,1-p0(6) %所有區(qū)間的概率chi=(fi-84*p).2./(84*p) chisum=sum(chi) %皮爾遜統(tǒng)計(jì)量的值x_a=chi2inv(0.9,4) %chi2分布的0.9分位數(shù)求得皮爾遜統(tǒng)計(jì)量chisum=1.9723,故在水平0.1下接受,即認(rèn)為數(shù)據(jù)來(lái)自正態(tài)分布總體。3.3.2 偏度、峰度檢驗(yàn)(留作習(xí)題1)3.4 其它非參數(shù)檢驗(yàn)Matlab還提供了一些非參數(shù)方法。3.4.1 Wilcoxon秩和檢驗(yàn)在Matlab中,秩和檢驗(yàn)由函數(shù)ranksum實(shí)現(xiàn)。命令為:p,h=ranksum(x,y,alpha)其中x,y可為不等長(zhǎng)向量,alpha為給定的顯著水平,它必須為0和1之間的數(shù)量。p返回產(chǎn)生兩獨(dú)立樣本的總體是否相同的顯著性概率,h返回假設(shè)檢驗(yàn)的結(jié)果。如果x和y的總體差別不顯著,則h為零;如果x和y的總體差別顯著,則h為1。如果p接近于零,則可對(duì)原假設(shè)質(zhì)疑。例7 某商店為了確定向公司或公司購(gòu)買某種產(chǎn)品,將公司以往各次進(jìn)貨的次品率進(jìn)行比較,數(shù)據(jù)如下所示,設(shè)兩樣本獨(dú)立。問(wèn)兩公司的商品的質(zhì)量有無(wú)顯著差異。設(shè)兩公司的商品的次品的密度最多只差一個(gè)平移,取。:7.0 3.5 9.6

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論