數(shù)據的統(tǒng)計分析與描述_第1頁
數(shù)據的統(tǒng)計分析與描述_第2頁
數(shù)據的統(tǒng)計分析與描述_第3頁
數(shù)據的統(tǒng)計分析與描述_第4頁
數(shù)據的統(tǒng)計分析與描述_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據的統(tǒng)計分析與描述2023/5/311第一頁,共四十三頁,編輯于2023年,星期六目的2、掌握用數(shù)學軟件包求解統(tǒng)計問題。1、直觀了解統(tǒng)計基本內容。第二頁,共四十三頁,編輯于2023年,星期六統(tǒng)計的基本概念參數(shù)估計假設檢驗數(shù)據的統(tǒng)計描述和分析2023/5/313第三頁,共四十三頁,編輯于2023年,星期六1.總體與樣本總體(population):總體是指所研究對象的全體組成的集合。樣本(sample):樣本是指從總體中抽取的部分對象(個體)組成的集合。樣本中包含個體的個數(shù)稱為樣本容量。容量為n的樣本常用n個隨機變量X1,X2,…,Xn表示,其觀測值(樣本數(shù)據)則表示為x1,...,xn,為簡單起見,有時不加區(qū)別。第四頁,共四十三頁,編輯于2023年,星期六2.參數(shù)與統(tǒng)計量參數(shù)(parameter):參數(shù)是用來描述總體特征的概括性值。如總體平均值(μ)、總體方差(2)、總體比例(π)等。統(tǒng)計量(statistics):統(tǒng)計量是用來描述樣本特征的概括性值。如樣本均值()、樣本方差(s2)、樣本比例(P)等。第五頁,共四十三頁,編輯于2023年,星期六表示數(shù)據集中趨勢的統(tǒng)計量如果要用簡單的數(shù)字來概括一組觀測數(shù)據x1,...,xn,可以使用“位置統(tǒng)計量”來作為數(shù)據的總體代表,常見的位置統(tǒng)計量有:均值、中位數(shù)、分位數(shù)、眾數(shù)等。1.均值(Mean)均值是所有觀測值的平均值,是描述數(shù)據取值中心位置的一個度量:第六頁,共四十三頁,編輯于2023年,星期六2.中位數(shù)(Median或Med)中位數(shù)是描述觀測值數(shù)據中心位置的統(tǒng)計量,大體上比中位數(shù)大(?。┑臄?shù)據為觀測值的一半。中位數(shù)的一個優(yōu)點是它不受個別極端數(shù)據的影響,具有穩(wěn)健性。中位數(shù)的計算方法是:首先將數(shù)據從小到大排序為:x(1),...,x(n),然后計算第七頁,共四十三頁,編輯于2023年,星期六3.眾數(shù)(Mode)觀測值中出現(xiàn)最多的數(shù)稱為眾數(shù)。眾數(shù)用得不如均值和中位數(shù)普遍。在屬性變量分析中,常需考慮頻數(shù),因此眾數(shù)用得多些。4.百分位數(shù)(Percentile)分位數(shù)也是描述數(shù)據分布和位置的統(tǒng)計量。0.5分位數(shù)就是中位數(shù),0.75分位數(shù)和0.25分位數(shù)又分別稱為上、下四分位數(shù),并分別記為Q3和Q1。第八頁,共四十三頁,編輯于2023年,星期六表示數(shù)據離散程度的統(tǒng)計量1.極差(Range)與半極差(Interquartilerange)極差就是數(shù)據中的最大值和最小值之間的差:極差=max{xi}–min{xi}

上、下四分位數(shù)之差Q3–Q1稱為四分位極差或半極差,它描述了中間半數(shù)觀測值的散布情況。2.方差(Variance或Var)方差是由各觀測值到均值距離的平方和除以觀測量減1:第九頁,共四十三頁,編輯于2023年,星期六3.標準差(Standarddeviation或StdDev)方差的開方稱為標準差:標準差的量綱與原變量一致。4.變異系數(shù)(CoefficientofVariation或CV)變異系數(shù)是將標準差表示為均值的百分數(shù),是觀測數(shù)據分散性的一個度量,它在比較用不同單位測量的數(shù)據的分散性時是有用的:第十頁,共四十三頁,編輯于2023年,星期六表示數(shù)據分布形狀的統(tǒng)計量偏度和峰度是描述數(shù)據分布形狀的指標。1.偏度(skewness)偏度是刻畫數(shù)據對稱性的指標。偏度的計算公式為:在SAS中:●關于均值對稱的數(shù)據其偏度為0;●左側更為分散的數(shù)據,其偏度為負,稱為左偏;●右側更為分散的數(shù)據,其偏度為正,稱為右偏。第十一頁,共四十三頁,編輯于2023年,星期六2.峰度(kurtosis)峰度描述數(shù)據向分布尾端散布的趨勢。峰度的計算公式為:利用峰度研究數(shù)據分布的形狀是以正態(tài)分布為標準(假定正態(tài)分布的方差與所研究分布的方差相等)比較兩端極端數(shù)據的分布情況,若●近似于標準正態(tài)分布,則峰度接近于零;●尾部較正態(tài)分布更分散,則峰度為正,稱為輕尾;●尾部較正態(tài)分布更集中,則峰度為負,稱為厚尾。第十二頁,共四十三頁,編輯于2023年,星期六其它統(tǒng)計量1.均值的標準誤(StdErrorMean或StdMean或Stderror)2.校正平方和(Correctedsumofsquares)第十三頁,共四十三頁,編輯于2023年,星期六3.未校正平方和(Uncorrectedsumofsquares)4.k階原點矩其中A1即為均值。5.k階中心矩第十四頁,共四十三頁,編輯于2023年,星期六區(qū)間估計1.點估計和區(qū)間估計參數(shù)的估計方法主要有兩種:點估計和區(qū)間估計。點估計:用樣本的觀測值估計總體未知參數(shù)的值。區(qū)間估計:在點估計的基礎上,給出總體參數(shù)的一個范圍。第十五頁,共四十三頁,編輯于2023年,星期六2.參數(shù)的置信區(qū)間和置信水平置信區(qū)間:由樣本統(tǒng)計量所構造的總體參數(shù)的估計區(qū)間。置信區(qū)間是一個隨機區(qū)間,它依賴與樣本。如果將構造置信區(qū)間的步驟重復多次,置信區(qū)間中包含總體參數(shù)真值的次數(shù)所占的比例,稱為置信水平。置信水平為1–

α的含義是隨機區(qū)間(θ1,θ2)以1–

α的概率包含了參數(shù)θ。置信水平為90%時α=0.1,

為正態(tài)曲線下右側面積為α/2=0.05時的Z值。第十六頁,共四十三頁,編輯于2023年,星期六3.正態(tài)總體均值和方差的置信區(qū)間正態(tài)總體參數(shù)的各種置信區(qū)間見表5-1。被估參數(shù)條件樞軸量及其分布參數(shù)的置信區(qū)間單正態(tài)總體μ2已知2未知2μ已知μ未知第十七頁,共四十三頁,編輯于2023年,星期六4.總體比例與比例差的置信區(qū)間實際應用中經常需要對總體比例進行估計,如產品的合格率、大學生的就業(yè)率和手機的普及率等。記π和P分別表示總體比例和樣本比例,則當樣本容量n很大時(一般當nP和n(1–

P)均大于5時,就可以認為樣本容量足夠大),樣本比例P的抽樣分布可用正態(tài)分布近似??傮w比例與比例差的置信區(qū)間如表5-2所示。待估參數(shù)樞軸量及其分布參數(shù)的置信區(qū)間總體比例π兩總體比例差π1-π2其中P1,P2為兩個樣本比例

第十八頁,共四十三頁,編輯于2023年,星期六要用到的3個分布:正態(tài)概率分布有以下重要特征:(1)正態(tài)分布是對稱分布,對稱軸是x=μ。(2)當x=μ時,正態(tài)概率密度最大。(3)正態(tài)分布的圖形由μ和σ決定。(4)當σ為定值時,μ的變化引起正態(tài)概率密度曲線在橫軸上平行移動。(5)當μ為定值時,σ的變化將引起正態(tài)概率密度曲線的形狀變得尖峭或偏平。第十九頁,共四十三頁,編輯于2023年,星期六第二十頁,共四十三頁,編輯于2023年,星期六第二十一頁,共四十三頁,編輯于2023年,星期六假設檢驗1.假設檢驗的基本概念和原理假設檢驗:先對總體參數(shù)提出某種假設,然后利用樣本信息判斷假設是否成立的過程。備擇假設:研究者想通過收集證據以支持的假設記為H1

原假設:研究者想通過收集證據以反對的假設記為H0a:當原假設為真時拒絕原假設的概率,為顯著性水平。檢驗統(tǒng)計量:對原假設和備擇假設作出決策的某個樣本統(tǒng)計量。拒絕域:能夠拒絕原假設的檢驗統(tǒng)計量的所有可能值的集合。第二十二頁,共四十三頁,編輯于2023年,星期六對總體參數(shù)進行假設檢驗時,首先要給定一個原假設H0,H0是關于總體參數(shù)的表述,與此同時存在一個與H0相對立的備擇假設H1,H0與H1有且僅有一個成立;經過一次抽樣,若發(fā)生了小概率事件(通常把概率小于0.05的事件稱為小概率事件),可以依據“小概率事件在一次實驗中幾乎不可能發(fā)生”的理由,懷疑原假設不真,作出拒絕原假設H0,接受H1的決定;反之,若小概率事件沒有發(fā)生,就沒有理由拒絕H0,從而應作出拒絕H1的決定。第二十三頁,共四十三頁,編輯于2023年,星期六2.假設檢驗的步驟

1)根據問題確立原假設H0和備選假設H1;

2)確定一個顯著性水平,它是衡量稀有性(小概率事件)的標準,常取為0.05;

3)選定合適的檢驗用統(tǒng)計量W(通常在原假設中相等成立時,W的分布是已知的),根據W的分布及的值,確定H0的拒絕域。

4)由樣本觀測值計算出統(tǒng)計量W的觀測值W0,如果W0落入H0的拒絕域,則拒絕H0;否則,不能拒絕原假設H0。第二十四頁,共四十三頁,編輯于2023年,星期六

注意:在SAS系統(tǒng)中,是由樣本觀測值計算出統(tǒng)計量W的觀測值W0和衡量觀測結果極端性的p值(p值就是當原假設成立時得到樣本觀測值和更極端結果的概率),然后比較p和作判斷:p<,拒絕原假設H0;否則,不能拒絕原假設H0。第二十五頁,共四十三頁,編輯于2023年,星期六p值通常由下面公式計算而得到?!駊=P{|W|≥|W0|}=2P{W≥|W0|}

(拒絕域為兩邊對稱的區(qū)域時)●p=min{P{W≥W0},P{W

W0}}

(拒絕域為兩邊非對稱區(qū)域時)●p=P{W≥W0}(拒絕域為右邊區(qū)域時)●p=P{W

W0}(拒絕域為左邊區(qū)域時)只需根據SAS計算出的p值,就可以在指定的顯著水平下,作出拒絕或不能拒絕原假設的決定。第二十六頁,共四十三頁,編輯于2023年,星期六表5-4單正態(tài)總體N(μ,2)方差2的檢驗法或檢驗名稱條件檢驗類別H0H1檢驗統(tǒng)計量分布拒絕域χ2檢驗μ已知雙邊檢驗左邊檢驗右邊檢驗μ未知雙邊檢驗左邊檢驗右邊檢驗第二十七頁,共四十三頁,編輯于2023年,星期六3.正態(tài)總體均值和方差的假設檢驗對正態(tài)總體的參數(shù)進行假設檢驗是假設檢驗的重要內容,如對單總體均值、方差的檢驗、兩總體均值之差的檢驗和兩總體方差比的檢驗等。正態(tài)總體參數(shù)的各種檢驗方法見下表5-3至表5-5。表5-3單正態(tài)總體N(μ,2)均值μ的檢驗法檢驗名稱條件檢驗類別H0H1檢驗統(tǒng)計量分布拒絕域Z檢驗已知雙邊檢驗μ=μ0μ≠μ0N(0,1)|Z|≥Zα/2左邊檢驗μ≥μ0μ<μ0Z≤-Zα右邊檢驗μ≤μ0μ>μ0Z≥Zαt檢驗未知雙邊檢驗μ=μ0μ≠μ0t(n–1)|t|≥tα/2(n

–1)左邊檢驗μ≥μ0μ<μ0t≤–

tα(n

–1)右邊檢驗μ≤μ0μ>μ0t≥tα(n

–1)第二十八頁,共四十三頁,編輯于2023年,星期六表5-5兩正態(tài)總體的均值差與方差比的檢驗名稱條件類別H0H1檢驗統(tǒng)計量分布拒絕域Z檢驗兩樣本獨立,12=22=2未知雙邊檢驗μ1-μ2=0μ1-μ2≠0t(n1+n2

–2)左邊檢驗μ1-μ20μ1-μ2<0右邊檢驗μ1-μ20μ1-μ2>0t檢驗成對匹配樣本,12,22未知雙邊檢驗μd=0μd≠0左邊檢驗μd0μd<0右邊檢驗μd0μd>0F檢驗兩樣本獨立,μ1,μ2未知雙邊檢驗F(n1–1,n2–1)左邊檢驗右邊檢驗第二十九頁,共四十三頁,編輯于2023年,星期六4.總體比例與比例差的檢驗當樣本容量n很大時,可根據表5-6對總體比例與比例差進行假設檢驗。表5-6總體比例與比例差的檢驗檢驗名稱檢驗類別H0H1

檢驗統(tǒng)計量分布拒絕域比例檢驗雙邊檢驗

=0

0N(0,1)|z|

zα/2左邊檢驗

0

<0|z|≤–

zα右邊檢驗

0

>0|z|

zα兩總體比例差檢驗雙邊檢驗1

=21

2N(0,1)|z|

zα/2左邊檢驗1

21<2|z|≤–

zα右邊檢驗1

21>2|z|

zα第三十頁,共四十三頁,編輯于2023年,星期六統(tǒng)計工具箱中的基本統(tǒng)計命令1.數(shù)據的錄入、保存和調用2.基本統(tǒng)計量3.常見概率分布的函數(shù)4.頻數(shù)直方圖的描繪5.參數(shù)估計6.假設檢驗7.綜合實例返回2023/5/3131第三十一頁,共四十三頁,編輯于2023年,星期六一、數(shù)據的錄入、保存和調用

例1

上海市區(qū)社會商品零售總額和全民所有制職工工資總額的數(shù)據如下統(tǒng)計工具箱中的基本統(tǒng)計命令2023/5/3132第三十二頁,共四十三頁,編輯于2023年,星期六1、年份數(shù)據以1為增量,用產生向量的方法輸入。命令格式:x=a:h:bt=78:872、分別以x和y代表變量職工工資總額和商品零售總額。

x=[23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4]y=[41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0]3、將變量t、x、y的數(shù)據保存在文件data中。

savedatatxy4、進行統(tǒng)計分析時,調用數(shù)據文件data中的數(shù)據。

loaddataToMATLAB(txy)方法12023/5/3133第三十三頁,共四十三頁,編輯于2023年,星期六1、輸入矩陣:data=[78,79,80,81,82,83,84,85,86,87,88;23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4;41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0]2、將矩陣data的數(shù)據保存在文件data1中:savedata1data3、進行統(tǒng)計分析時,先用命令:loaddata1

調用數(shù)據文件data1中的數(shù)據,再用以下命令分別將矩陣data的第一、二、三行的數(shù)據賦給變量t、x、y:

t=data(1,:)x=data(2,:)y=data(3,:)若要調用矩陣data的第j列的數(shù)據,可用命令:

data(:,j)方法2ToMATLAB(data)返回2023/5/3134第三十四頁,共四十三頁,編輯于2023年,星期六二、基本統(tǒng)計量對隨機變量x,計算其基本統(tǒng)計量的命令如下:均值:mean(x)中位數(shù):median(x)標準差:std(x)

方差:var(x)偏度:skewness(x)

峰度:kurtosis(x)例對例1中的職工工資總額x,可計算上述基本統(tǒng)計量。ToMATLAB(tjl)返回2023/5/3135第三十五頁,共四十三頁,編輯于2023年,星期六三、常見概率分布的函數(shù)Matlab工具箱對每一種分布都提供五類函數(shù),其命令字符為:概率密度:pdf概率分布:cdf逆概率分布:inv均值與方差:stat隨機數(shù)生成:rnd

(當需要一種分布的某一類函數(shù)時,將以上所列的分布命令字符與函數(shù)命令字符接起來,并輸入自變量(可以是標量、數(shù)組或矩陣)和參數(shù)即可.)2023/5/3136第三十六頁,共四十三頁,編輯于2023年,星期六1、給出數(shù)組data的頻數(shù)表的命令為:

[N,X]=hist(data,k)

此命令將區(qū)間[min(data),max(data)]分為k個小區(qū)間(缺省為10),返回數(shù)組data落在每一個小區(qū)間的頻數(shù)N和每一個小區(qū)間的中點X.2、描繪數(shù)組data的頻數(shù)直方圖的命令為:

hist(data,k)四、頻數(shù)直方圖的描繪返回2023/5/3137第三十七頁,共四十三頁,編輯于2023年,星期六五、參數(shù)估計1、正態(tài)總體的參數(shù)估計

設總體服從正態(tài)分布,則其點估計和區(qū)間估計可同時由以下命令獲得:

[muhat,sigmahat,muci,sigmaci]=normfit(X,alpha)

此命令在顯著性水平alpha下估計數(shù)據X的參數(shù)(alpha缺省時設定為0.05),返回值muhat是X的均值的點估計值,sigmahat是標準差的點估計值,muci是均值的區(qū)間估計,sigmaci是標準差的區(qū)間估計.2023/5/3138第三十八頁,共四十三頁,編輯于2023年,星期六六、假設檢驗

在總體服從正態(tài)分布的情況下,可用以下命令進行假設檢驗.1、總體方差sigma2已知時,總體均值的檢驗使用z-檢驗

[h,sig,ci]=ztest(x,m,sigma,alpha,tail)檢驗數(shù)據x的關于均值的某一假設是否成立,其中sigma為已知方差,alpha為顯著性水平,究竟檢驗什么假設取決于tail的取值:tail=0,檢驗假設“x的均值等于m”tail=1,檢驗假設“x的均值大于m”tail=-1,檢驗假設“x的均值小于m”tail的缺省值為0,alpha的缺省值為0.05.

返回值h為一個布爾值,h=1表示可以拒絕假設,h=0表示不可以拒絕假設,sig為假設成立的概率,ci為均值的1-alpha置信區(qū)間.2023/5/3139第三十九頁,共四十三頁,編輯于2023年,星期六

例7Matlab統(tǒng)計工具箱中的數(shù)據文件gas.mat.中提供了美國1993年一月份和二月份的汽油平均價格(price1,price2分別是一,二月份的油價,單位為美分),它是容量為20的雙樣本.假設一月份油價的標準偏差是一加侖四分幣(=4),試檢驗一月份油價的均值是否等于115.解作假設:m=115.首先取出數(shù)據,用以下命令:

loadgas然后用以下命令檢驗

[h,sig,ci]=ztest(price1,115,4)返回:h=0,sig=0.8668,ci=[113.3970116.9030].檢驗結果:1.布爾變量h=0,表示不拒絕零假設.說明提出的假設均值115

是合理的.2.sig-值為0.8668,遠超過0.5,不能拒絕零假設

3.95%的置信區(qū)間為[113.4,116.9],它完全包括115,且精度很高..

ToMATLAB(liti7)2023/5/3140第四十頁,共四十三頁,編輯于2023年,星期六2、總體方差sigma2未知時,總體均值的檢驗使用t-檢驗[h,sig,ci]=ttest(x,m,alpha,tail)檢驗數(shù)據x的關于均值的某一假設是否成立,其中alpha為顯著性水平,究竟檢驗什么假設取決于tail的取值:tail=0,檢驗假設“x的均值等于m”tail=1,檢驗假設“x的均值大于m”tail=-1,檢驗假設“x的均值小于m”tail的缺省值為0,alpha的缺省值為0.05.

返回值h為一個布爾值,h=1表示可以拒絕假設,h=0表示不可以拒絕假設,sig為假設成立的概率,ci為均值的1-alpha置信區(qū)間.2023/5/3141第四十一頁,共四十三頁,編輯于2023年,星期六返回:h=1,sig=4.9517e-004,ci=[116.8120.2].檢驗結果:1.布爾變量h=1,表示拒絕零假設.說明提出的假設油價均值11

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論