




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1環(huán)境統(tǒng)計學授課教師:林紅軍授課時間:2010學年第二學期Presentation(EnvironmentalStatistics)環(huán)境科學系辦公地點:校8幢123室,17幢612室E-mail:hjlin@,linhonjun@163.comCell6798562環(huán)境統(tǒng)計學第1章緒論第2章概率統(tǒng)計基礎(chǔ)第3章環(huán)境一元線性回歸分析第4章環(huán)境多元線性回歸分析第5章環(huán)境系統(tǒng)聚類分析第6章環(huán)境模糊聚類分析第7章環(huán)境判別分析第8章環(huán)境主成分分析第9章環(huán)境因子分析第10章人工神經(jīng)網(wǎng)絡(luò)第11章環(huán)境空間統(tǒng)計分析3隨機事件隨機試驗隨機事件事件的運算概率概率古典概率概率計算數(shù)學特征數(shù)學期望方差變異系數(shù)協(xié)方差相關(guān)系數(shù)概率數(shù)學特征隨機事件概率分布正態(tài)分布t分布x2分布F分布概率分布統(tǒng)計推斷參數(shù)估值點估計區(qū)間估計置信區(qū)間假設(shè)檢驗統(tǒng)計推斷概率統(tǒng)計基礎(chǔ)第四節(jié)重要的概率分布常用連續(xù)型概率分布5COD的測試微回流重鉻酸鉀測試方法正態(tài)分布
(normaldistribution)6COD的測試1000mg/L900次810次11次1次次數(shù)濃度7概率密度函數(shù)
(probabilitydensityfunction)1.設(shè)X為一連續(xù)型隨機變量,x
為任意實數(shù),X的概率密度函數(shù)記為f(x),它滿足條件
f(x)不是概率8正態(tài)分布
(normaldistribution)由C.F.高斯(CarlFriedrichGauss,1777—1855)作為描述誤差相對頻數(shù)分布的模型而提出描述連續(xù)型隨機變量的最重要的分布許多現(xiàn)象都可以由正態(tài)分布來描述可用于近似離散型隨機變量的分布例如:二項分布經(jīng)典統(tǒng)計推斷的基礎(chǔ)xf(x)正態(tài)分布的定義及其特征
(一)正態(tài)分布的定義若連續(xù)型隨機變量x的概率分布密度函數(shù)為
(1)
其中μ為平均數(shù),σ2為方差,則稱隨機變量x服從正態(tài)分布(normaldistribution),記為x~N(μ,σ2)。相應(yīng)的概率分布函數(shù)為
(2)函數(shù)在上單調(diào)增加,在上單調(diào)減少,在取得最大值;稱軸不變,而形狀在改變,圖形越高越瘦,圖形越矮越胖.軸平移,而不改變其形狀,可見正態(tài)分布的概率密為位置參數(shù).
決定了圖形的中心位置,決定了圖形中峰的陡峭程度.
正態(tài)分布
的圖形特點正態(tài)分布的計算原函數(shù)不是初等函數(shù)方法一:利用MATLAB軟件包計算方法二:轉(zhuǎn)化為標準正態(tài)分布查表計算的正態(tài)分布稱為標準正態(tài)分布.記為其密度函數(shù)和分布函數(shù)常用
和
表示:標準正態(tài)分布標準正態(tài)分布Xms一般正態(tài)分布
=1X標準正態(tài)分布
書末附有標準正態(tài)分布函數(shù)數(shù)值表,有了它,可以解決一般正態(tài)分布的概率計算查表.正態(tài)分布表當x<0
時,表中給的是x>0時,Φ(x)的值.(一)標準正態(tài)分布的概率計算設(shè)z服從標準正態(tài)分布,則z在[z1,z2
]何內(nèi)取值的概率為:=Φ(z2)-Φ(z1)而Φ(z1)與Φ(z2)可由附表1查得。正態(tài)分布的概率計算
例如,Z=1.75,1.7放在第一列0.05放在第一行。在附表1中,1.7所在行與0.05所在列相交處的數(shù)值為0.95994,即
Φ(1.75)=0.95994
有時會遇到給定Φ(Z)值,例如Φ(Z)=0.284,反過來查u值。這只要在附表1中找到與0.284最接近的值0.2843,對應(yīng)行的第一列數(shù)-0.5,對應(yīng)列的第一行數(shù)值0.07,即相應(yīng)的u值為u=-0.57,即
Φ(-0.57)=0.284
如果要求更精確的u值,可用線性插值法計算。21【例1】定某公司職員每周的加班津貼服從均值為50元、標準差為10元的正態(tài)分布,那么全公司中有多少比例的職員每周的加班津貼會超過70元,又有多少比例的職員每周的加班津貼在40元到60元之間呢?解:設(shè)
=50,
=10,X~N(50,102)22【例2】解24思考題1、已知某種水果的單個重量服從正態(tài)分布,平均值為140g,標準差為12.2g,今隨機抽出一個,試問其重量不小于130g的概率是多少?2、某地區(qū)成年男子身高服從正態(tài)分布,其均值是169cm,標準差為7cm。求滿足滿足以下條件的男子的比例:⑴、155cm以下;⑵、176cm以上;⑶155cm~176cm之間3、某電視機廠某種型號電視機的銷售價為2000元,成本為1200元。產(chǎn)品中有一部分可能會在保持期內(nèi)損壞,因此廠家得免費維修,假設(shè)修理費平均而言每臺500元?,F(xiàn)假設(shè)電視機的使用壽命呈正態(tài)分布,均值為7年,標準差為3年。問:如果希望每臺電視機的平均利潤達到750元,廠家應(yīng)承諾的保修期大概是幾年?
當總體標準差σ未知時,以樣本標準差S代替σ所得到的統(tǒng)計數(shù)記為t。即t
分布
若x~N(μ,σ2),則~N(μ,σ2/n)。將隨機變量標準化得:
,則z~N(0,1)。
t分布是類似正態(tài)分布的一種對稱分布,它通常要比正態(tài)分布平坦和分散。一個特定的分布依賴于稱之為自由度的參數(shù)。隨著自由度的增大,分布也逐漸趨于正態(tài)分布xt
分布與標準正態(tài)分布的比較t分布標準正態(tài)分布t不同自由度的t分布標準正態(tài)分布t(df=13)t(df=5)zt
分布
在計算時,由于采用S來代替σ,使得t
變量不再服從標準正態(tài)分布,而是服從自由度d=n-1
的t分布。t的取值范圍是(-∞,+∞);ft
分布與標準正態(tài)分布曲線相比,t分布曲線頂部略低,兩尾部稍高而平。df越小這種趨勢越明顯。df越大,t分布越趨近于標準正態(tài)分布。t
分布當n>30時,t分布與標準正態(tài)分布的區(qū)別很?。籲>100時,t分布基本與標準正態(tài)分布相同;n→∞時,t
分布與標準正態(tài)分布完全一致。由阿貝(Abbe)于1863年首先給出,后來由海爾墨特(Hermert)和卡·皮爾遜(K·Pearson)分別于1875年和1900年推導(dǎo)出來設(shè),則令,則Y服從自由度為1的
2分布,即
當總體,從中抽取容量為n的樣本,則
2分布
(
2distribution)30分布的變量值始終為正分布的形狀取決于其自由度n的大小,通常為不對稱的正偏分布,但隨著自由度的增大逐漸趨于對稱期望為:E(
2)=v,方差為:D(
2)=2v(v為自由度)可加性:若U和V為兩個獨立的
2分布隨機變量,U~
2(v1),V~
2(v2),則U+V這一隨機變量服從自由度為v1+v2的
2分布
2分布
(
2distribution)5、設(shè)X~N(u,),x1,x2……,xn是X的一個樣本,與分別為樣本的均值和方差,則有:
2分布
(
2distribution)
不同容量樣本的抽樣分布c2n=1n=4n=10n=20
2分布
(
2distribution)33
分位點若對于給定的,0<<1,存在使得則稱點為分布的上分位點,如圖所示。
34由統(tǒng)計學家費希爾(R.A.Fisher)
提出的,以其姓氏的第一個字母來命名設(shè)若U為服從自由度為v1的
2分布,即U~
2(v1),V為服從自由度為v2的
2分布,即V~
2(v2),且U和V相互獨立,則稱F為服從自由度v1和v2的F分布,記為F分布
(Fdistribution)35假設(shè)總體X-N(),總體Y-N(),X,Y相互獨立,x1,x2,……,xn和y1,y2,……,yn分別是來自X和Y的樣本。分別是它們的方差,則:36F分布
(圖示)
不同自由度的F分布F(1,10)(5,10)(10,10)37——α分位點對于給定的α,0<α<1,稱滿足為F分布的α分位點?!獏?shù)估計(parametricestimation)假設(shè)檢驗(testofhypothesis)
根據(jù)總體理論分布,從樣本統(tǒng)計數(shù)對總體參數(shù)的推斷常用的有t檢驗、F檢驗和
2檢驗等,基本原理相同。主要內(nèi)容:
假設(shè)檢驗又叫顯著性檢驗。統(tǒng)計推斷
(Fdistribution)39統(tǒng)計推斷的過程樣本總體樣本統(tǒng)計量如:樣本均值、比率、方差總體均值、比率、方差等參數(shù)估計的基本理論抽樣估計的基本條件有合適的統(tǒng)計量作為估計量有合理的允許誤差范圍有一個可以接受的置信度參數(shù)估計的基本概念總體和樣本參數(shù)及統(tǒng)計量樣本容量和樣本個數(shù)重復(fù)抽樣和不重復(fù)抽樣參數(shù)估計的基本方法點估計和區(qū)間估計參數(shù)估計在統(tǒng)計方法中的地位參數(shù)估計假設(shè)檢驗統(tǒng)計方法描述統(tǒng)計推斷統(tǒng)計1.估計量:用于估計總體參數(shù)的隨機變量如樣本均值,樣本比率、樣本方差等例如:樣本均值就是總體均值
的一個估計量2.參數(shù)用
表示,估計量用
表示3.估計值:估計參數(shù)時計算出來的統(tǒng)計量的具體值如果樣本均值
x=80,則80就是
的估計值估計量與估計值參數(shù)估計的方法估計方法點估計區(qū)間估計44點估計用樣本的估計量直接作為總體參數(shù)的估計值例如:用樣本均值直接作為總體均值的估計例如:用兩個樣本均值之差直接作為總體均值之差的估計沒有給出估計值接近總體參數(shù)程度的信息點估計的方法有矩估計法、順序統(tǒng)計量法、最大似然法、最小二乘法等點估計完全正確的概率通常為0。因此,我們更多的是考慮用樣本統(tǒng)計量去估計總體參數(shù)的范圍
區(qū)間估計。45區(qū)間估計含義:在點估計的基礎(chǔ)上,估計總體參數(shù)的區(qū)間范圍,并給出區(qū)間估計成立的概率值。其中:1-α(0<α<1)稱為置信水平α是區(qū)間估計的顯著性水平;常用的置信水平值有99%,95%,90%相應(yīng)的
為0.01,0.05,0.10注意對上式的理解:例如抽取了1000個樣本,根據(jù)每一個樣本均構(gòu)造了一個置信區(qū)間,,這樣,由1000個樣本構(gòu)造的總體參數(shù)的1000個置信區(qū)間中,有95%的區(qū)間包含了總體參數(shù)的真值,而5%的置信區(qū)間則沒有包含。這里,95%這個值被稱為置信水平(或置信度)。一般地,將構(gòu)造置區(qū)間的步驟重復(fù)很多次,置信區(qū)間包含總體參數(shù)真值的次數(shù)所占的比例稱為置信水平。46樣本統(tǒng)計量
(點估計)置信區(qū)間置信下限置信上限由樣本統(tǒng)計量所構(gòu)造的總體參數(shù)的估計區(qū)間稱為置信區(qū)間統(tǒng)計學家在某種程度上確信這個區(qū)間會包含真正的總體參數(shù),所以給它取名為置信區(qū)間用一個具體的樣本所構(gòu)造的區(qū)間是一個特定的區(qū)間,我們無法知道這個樣本所產(chǎn)生的區(qū)間是否包含總體參數(shù)的真值
我們只能是希望這個區(qū)間是大量包含總體參數(shù)真值的區(qū)間中的一個,但它也可能是少數(shù)幾個不包含參數(shù)真值的區(qū)間中的一個47區(qū)間估計的圖示
x95%的樣本
-1.96
x
+1.96
x99%的樣本
-2.58
x
+2.58
x90%的樣本
-1.65
x
+1.65
x48置信區(qū)間我們用95%的置信水平得到某班學生考試成績的置信區(qū)間為60-80分,如何理解?錯誤的理解:60-80區(qū)間以95%的概率包含全班同學平均成績的真值;或以95%的概率保證全班同學平均成績的真值落在60-80分之間。正確的理解:如果做了多次抽樣(如100次),大概有95次找到的區(qū)間包含真值,有5次找到的區(qū)間不包括真值。真值只有一個,一個特定的區(qū)間“總是包含”或“絕對不包含”該真值。但是,用概率可以知道在多次抽樣得到的區(qū)間中大概有多少個區(qū)間包含了參數(shù)的真值。如果大家還是不能理解,那你們最好這樣回答有關(guān)區(qū)間估計的結(jié)果:該班同學平均成績的置信區(qū)間是60-80分,置信度為95%。49置信區(qū)間與置信水平樣本均值的抽樣分布(1-
)%區(qū)間包含了
%的區(qū)間未包含
1–aa/2a/2一個總體參數(shù)的區(qū)間估計一、總體均值的區(qū)間估計二、總體比率的區(qū)間估計三、總體方差的區(qū)間估計51一個總體參數(shù)的區(qū)間估計總體參數(shù)符號表示樣本統(tǒng)計量均值比率方差總體均值的區(qū)間估計(大樣本)1.假定條件總體服從正態(tài)分布,且方差(
2)
未知如果不是正態(tài)分布,可由正態(tài)分布來近似(n>30)2.使用正態(tài)分布統(tǒng)計量z3.總體均值
在1-
置信水平下的置信區(qū)間為利用SPSS軟件對總體均值的估計
按Analyze→DescriptiveStatistics→Explore展開Explore對話框,如圖。從左側(cè)的源變量框中,選擇需要估計的變量(要求是數(shù)值型變量)作為因變量進入Dependent框中后,完成相應(yīng)的對話框選項。單擊OK即可完成總體均值的參數(shù)估計。總體均值的區(qū)間估計(例題分析)【例】一家食品生產(chǎn)企業(yè)以生產(chǎn)袋裝食品為主,為對產(chǎn)量質(zhì)量進行監(jiān)測,企業(yè)質(zhì)檢部門經(jīng)常要進行抽檢,以分析每袋重量是否符合要求?,F(xiàn)從某天生產(chǎn)的一批食品中隨機抽取了25袋,測得每袋重量如下表所示。已知產(chǎn)品重量的分布服從正態(tài)分布,且總體標準差為10g。試估計該批產(chǎn)品平均重量的置信區(qū)間,置信水平為95%25袋食品的重量
112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.3解:已知X~N(
,102),n=25,1-
=95%,z
/2=1.96根據(jù)資料計算樣本均值為:
總體均值
在1-
置信水平下的置信區(qū)間為:該食品平均重量的置信區(qū)間為101.44g~109.28g總體均值的區(qū)間估計(例題分析)【例】一家保險公司收集到由36投保個人組成的隨機樣本,得到每個投保人的年齡(周歲)數(shù)據(jù)如下表。試建立投保人年齡90%的置信區(qū)間
36個投保人年齡的數(shù)據(jù)
233539273644364246433133425345544724342839364440394938344850343945484532總體均值的區(qū)間估計(例題分析)解:已知n=36,1-
=90%,z
/2=1.645根據(jù)資料計算樣本均值和標準差為:總體均值
在1-
置信水平下的置信區(qū)間為:投保人平均年齡的置信區(qū)間為37.37歲~41.63歲總體均值的區(qū)間估計(例題分析)1. 假定條件總體服從正態(tài)分布,且方差(
2)
未知小樣本(n<30)2.使用t
分布統(tǒng)計量3.總體均值
在1-
置信水平下的置信區(qū)間為總體均值的區(qū)間估計(小樣本)【例】已知某種燈泡的壽命服從正態(tài)分布,現(xiàn)從一批燈泡中隨機抽取16只,測得其使用壽命(小時)如下。建立該批燈泡平均使用壽命95%的置信區(qū)間16燈泡使用壽命的數(shù)據(jù)
1510152014801500145014801510152014801490153015101460146014701470總體均值的區(qū)間估計(例題分析)解:已知X~N(
,2),n=16,1-
=95%,t
/2=2.131
根據(jù)資料計算樣本均值和標準差為:
總體均值
在1-
置信水平下的置信區(qū)間為平均使用壽命的置信區(qū)間為1476.8-1503.2小時。總體均值的區(qū)間估計(例題分析)假設(shè)檢驗假設(shè)檢驗的基本原理基本思路小概率原理基本命題形式單側(cè)檢驗與雙側(cè)檢驗假設(shè)檢驗規(guī)則與兩類錯誤假設(shè)檢驗的一般步驟假設(shè)檢驗與參數(shù)估計的關(guān)系利用P值進行假設(shè)檢驗62假設(shè)檢驗參數(shù)假設(shè)檢驗非參數(shù)假設(shè)檢驗這類問題稱作假設(shè)檢驗問題.總體分布已知,檢驗關(guān)于未知參數(shù)的某個假設(shè)總體分布未知時的假設(shè)檢驗問題
在本講中,我們將討論不同于參數(shù)估計的另一類重要的統(tǒng)計推斷問題.這就是根據(jù)樣本的信息檢驗關(guān)于總體的某個假設(shè)是否正確.假設(shè)檢驗假設(shè)檢驗概述
(hypothesistest)1.先對總體的參數(shù)(或分布形式)提出某種假設(shè),然后利用樣本信息判斷假設(shè)是否成立的過程2.有參數(shù)檢驗和非參數(shù)檢驗3.邏輯上運用反證法,統(tǒng)計上依據(jù)小概率原理假設(shè)檢驗的基本原理基本思路首先對研究命題提出一種假設(shè)(原假設(shè))再從總體中抽出樣本,觀測取值,計算統(tǒng)計量最后比較判斷原假設(shè)是否正確小概率原理若對總體的某種假設(shè)是真實的,那么不利于或不支持這一假設(shè)的事件(小概率事件)在一次試驗中幾乎不可能發(fā)生,如果發(fā)生即可懷疑原假設(shè)的真實性?;久}原假設(shè)(H0)備則假設(shè)(H1)備擇假設(shè)研究者想收集證據(jù)予以支持的假設(shè)也稱“研究假設(shè)”總是有符號≠,
≤或≥表示為H1H1
:u<某一數(shù)值,或u>某一數(shù)值例如:H1
:u<10cm或u>
10cm原假設(shè)和備擇假設(shè)原假設(shè)研究者想收集證據(jù)予以反對的假設(shè)又稱“0假設(shè)”總是有符號
,
或
表示為H0H0:
u=某一數(shù)值指定為符號=,<或>
例如,H0:
u=10cm假設(shè)檢驗的基本思想...因此我們拒絕假設(shè)
=50...如果這是總體的假設(shè)均值樣本均值m=50抽樣分布H0這個值不像我們應(yīng)該得到的樣本均值...20總體
假設(shè)檢驗的過程抽取隨機樣本均值
x
=20
我認為人口的平均年齡是50歲提出假設(shè)
拒絕假設(shè)別無選擇!
作出決策提出假設(shè)(例題分析)解:研究者想收集證據(jù)予以證明的假設(shè)應(yīng)該是“生產(chǎn)過程不正常”。建立的原假設(shè)和備擇假設(shè)為
H0:
10cm
H1:
10cm
【例】一種零件的生產(chǎn)標準是直徑應(yīng)為10cm,為對生產(chǎn)過程進行控制,質(zhì)量監(jiān)測人員定期對一臺加工機床檢查,確定這臺機床生產(chǎn)的零件是否符合標準要求。如果零件的平均直徑大于或小于10cm,則表明生產(chǎn)過程不正常,必須進行調(diào)整。試陳述用來檢驗生產(chǎn)過程是否正常的原假設(shè)和被擇假設(shè)解:研究者抽檢的意圖是傾向于證實這種洗滌劑的平均凈含量并不符合說明書中的陳述。建立的原假設(shè)和備擇假設(shè)為:
H0:
500H1:
<500
500g提出假設(shè)(例題分析)
【例】某品牌洗滌劑在它的產(chǎn)品說明書中聲稱:平均凈含量不少于500克。從消費者的利益出發(fā),有關(guān)研究人員要通過抽檢其中的一批產(chǎn)品來驗證該產(chǎn)品制造商的說明是否屬實。試陳述用于檢驗的原假設(shè)與備擇假設(shè)解:研究者想收集證據(jù)予以支持的假設(shè)是“該城市中家庭擁有汽車的比率超過30%”。建立的原假設(shè)和備擇假設(shè)為:
H0:
30%
H1:
30%提出假設(shè)(例題分析)【例】一家研究機構(gòu)估計,某城市中家庭擁有汽車的比率超過30%。為驗證這一估計是否正確,該研究機構(gòu)隨機抽取了一個樣本進行檢驗。試陳述用于檢驗的原假設(shè)與備擇假設(shè)雙側(cè)檢驗與單側(cè)檢驗雙側(cè)檢驗(two-tailedtest)
備擇假設(shè)沒有特定的方向性,并含有符號“
”的假設(shè)檢驗,又稱雙側(cè)檢驗或雙尾檢驗單側(cè)檢驗(one-tailedtest)備擇假設(shè)具有特定的方向性,并含有符號“>”或“<”的假設(shè)檢驗,稱為單側(cè)檢驗或單尾檢驗。備擇假設(shè)的方向為“<”,稱為左側(cè)檢驗
備擇假設(shè)的方向為“>”,稱為右側(cè)檢驗雙側(cè)檢驗與單側(cè)檢驗(假設(shè)的形式)假設(shè)雙側(cè)檢驗單側(cè)檢驗左側(cè)檢驗右側(cè)檢驗原假設(shè)H0:m
=m0H0:m
m0H0:m
m0備擇假設(shè)H1:m
≠m0H1:
m
<m0H1:m
>m01.根據(jù)樣本觀測結(jié)果計算得到的,并據(jù)以對原假設(shè)和備擇假設(shè)作出決策的某個樣本統(tǒng)計量2.對樣本估計量的標準化結(jié)果原假設(shè)H0為真點估計量的抽樣分布檢驗統(tǒng)計量(teststatistic)3.標準化的檢驗統(tǒng)計量
顯著性水平和拒絕域(雙側(cè)檢驗)抽樣分布0臨界值臨界值a/2a/2
樣本統(tǒng)計量拒絕H0拒絕H01-
置信水平0臨界值臨界值a/2
a/2
樣本統(tǒng)計量拒絕H0拒絕H0抽樣分布1-
置信水平顯著性水平和拒絕域(雙側(cè)檢驗)0臨界值臨界值
a/2a/2
樣本統(tǒng)計量拒絕H0拒絕H0抽樣分布1-
置信水平顯著性水平和拒絕域(雙側(cè)檢驗)0臨界值臨界值a/2
a/2
樣本統(tǒng)計量拒絕H0拒絕H0抽樣分布1-
置信水平顯著性水平和拒絕域(雙側(cè)檢驗)0臨界值a樣本統(tǒng)計量拒絕H0抽樣分布1-
置信水平顯著性水平和拒絕域(單側(cè)檢驗)0臨界值a樣本統(tǒng)計量拒絕H0抽樣分布1-
置信水平觀察到的樣本統(tǒng)計量顯著性水平和拒絕域(左側(cè)檢驗)0臨界值a樣本統(tǒng)計量拒絕H0抽樣分布1-
置信水平顯著性水平和拒絕域(左側(cè)檢驗)0臨界值a樣本統(tǒng)計量拒絕H0抽樣分布1-
置信水平觀察到的樣本統(tǒng)計量顯著性水平和拒絕域(右側(cè)檢驗)0臨界值a樣本統(tǒng)計量抽樣分布1-
置信水平拒絕H0顯著性水平和拒絕域(右側(cè)檢驗)決策規(guī)則1.給定顯著性水平
,查表得出相應(yīng)的臨界值z
或z
/2,t
或t
/22.將檢驗統(tǒng)計量的值與
水平的臨界值進行比較3.作出決策雙側(cè)檢驗:統(tǒng)計量絕對值
>臨界值,拒絕H0左側(cè)檢驗:統(tǒng)計量<-臨界值,拒絕H0右側(cè)檢驗:統(tǒng)計量>臨界值,拒絕H0利用P值進行決策P是一個概率值,是拒絕原假設(shè)的最小顯著性水平。在原假設(shè)為真的條件下,檢驗統(tǒng)計量的觀察值大于或等于其計算值的概率。雙側(cè)檢驗為分布中兩側(cè)面積的總和反映實際觀測到的數(shù)據(jù)與原假設(shè)H0之間不一致的程度被稱為觀察到的(或?qū)崪y的)顯著性水平?jīng)Q策規(guī)則:若p值<
,拒絕H0雙側(cè)檢驗的P值
/
2
/
2
Z拒絕H0拒絕H00臨界值計算出的樣本統(tǒng)計量計算出的樣本統(tǒng)計量臨界值1/2P值1/2P值0臨界值a樣本統(tǒng)計量拒絕H0抽樣分布1-
置信水平計算出的樣本統(tǒng)計量P值左側(cè)檢驗的P值0臨界值a拒絕H0抽樣分布1-
置信水平計算出的樣本統(tǒng)計量P值右側(cè)檢驗的P值假設(shè)檢驗步驟的總結(jié)1.陳述原假設(shè)和備擇假設(shè)2.從所研究的總體中抽出一個隨機樣本3.確定一個適當?shù)臋z驗統(tǒng)計量,并利用樣本數(shù)據(jù)算出其具體數(shù)值4.確定一個適當?shù)娘@著性水平,并計算出其臨界值,指定拒絕域5.將統(tǒng)計量的值與臨界值進行比較,作出決策統(tǒng)計量的值落在拒絕域,拒絕H0,否則不拒絕H0也可以直接利用P值作出決策一個總體參數(shù)的檢驗z檢驗(單尾和雙尾)
t檢驗(單尾和雙尾)z
檢驗(單尾和雙尾)
2檢驗(單尾和雙尾)均值一個總體比率方差總體均值的檢驗(作出判斷)
是否已知小樣本容量n大
是否已知否
t檢驗否z檢驗是z檢驗是z檢驗總體均值的檢驗(大樣本)1. 假定條件正態(tài)總體或非正態(tài)總體大樣本(n
30)使用z檢驗統(tǒng)計量
2
已知:
2
未知:總體均值的檢驗(大樣本檢驗方法的總結(jié))假設(shè)雙側(cè)檢驗左側(cè)檢驗右側(cè)檢驗假設(shè)形式H0
:m=m0H1:
m
m0H0:m
m0H1:m<m0H0:
m
m0
H1:
m>m0統(tǒng)計量
已知:
未知:拒絕域P值決策拒絕H0總體均值的檢驗(小樣本)1. 假定條件總體服從正態(tài)分布小樣本(n<
30)檢驗統(tǒng)計量
2
已知:
2
未知:利用SPSS軟件進行一個總體的均值檢驗單一樣本T檢驗(One-SampleTTest)過程可以檢驗單個變量的均值是否與給定的常數(shù)之間存在差異。按Analyze→CompareMean→One-SampleTTest展開One-SampleTTest單一樣本T檢驗對話框,如圖所示。總體均值的檢驗(小樣本)假設(shè)雙側(cè)檢驗左側(cè)檢驗右側(cè)檢驗假設(shè)形式H0
:m=m0H1:
m
m0H0
:m
m0H1:
m<m0H0:
m
m0
H1:
m>m0統(tǒng)計量
已知:
未知:拒絕域P值決策拒絕H0注:
已知的拒絕域同大樣本利用SPSS軟件
進行兩個總體比較的假設(shè)檢驗
進行獨立樣本T檢驗調(diào)用CompareMeans下的Independent-SamplesTtest過程。如圖所示。
配對樣本T檢驗調(diào)用的是CompareMeans菜單下的Paired-SamplesTTest過程,如圖所示。兩個總體均值之差的檢驗
(小樣本
12,
22
已知)1.假定條件兩個獨立的小樣本兩個總體都是正態(tài)分布
12,
22已知2.檢驗統(tǒng)計量兩個總體均值之差的檢驗
(匹配樣本)1.假定條件兩個總體配對差值構(gòu)成的總體服從正態(tài)分布配對差是由差值總體中隨機抽取的
數(shù)據(jù)配對或匹配(重復(fù)測量——前/后)2.檢驗統(tǒng)計量樣本差值均值樣本差值標準差99讓我們先看一個例子.這一講我們討論對參數(shù)的假設(shè)檢驗.100
生產(chǎn)流水線上罐裝可樂不斷地封裝,然后裝箱外運.怎么知道這批罐裝可樂的容量是否合格呢?把每一罐都打開倒入量杯,看看容量是否合于標準.這樣做顯然不行!罐裝可樂的容量按標準應(yīng)在350毫升和360毫升之間.101
每隔一定時間,抽查若干罐.
如每隔1小時,抽查5罐,得5個容量的值X1,…,X5,根據(jù)這些值來判斷生產(chǎn)是否正常.
如發(fā)現(xiàn)不正常,就應(yīng)停產(chǎn),找出原因,排除故障,然后再生產(chǎn);如沒有問題,就繼續(xù)按規(guī)定時間再抽樣,以此監(jiān)督生產(chǎn),保證質(zhì)量.通常的辦法是進行抽樣檢查.102
很明顯,不能由5罐容量的數(shù)據(jù),在把握不大的情況下就判斷生產(chǎn)
不正常,因為停產(chǎn)的損失是很大的.
當然也不能總認為正常,有了問題不能及時發(fā)現(xiàn),這也要造成損失.
如何處理這兩者的關(guān)系,假設(shè)檢驗面對的就是這種矛盾.103
在正常生產(chǎn)條件下,由于種種隨機因素的影響,每罐可樂的容量應(yīng)在350毫升上下波動.這些因素中沒有那一個占有特殊重要的地位.因此,假定每罐容量服從正態(tài)分布是合理的.現(xiàn)在我們就來討論這個問題.罐裝可樂的容量按標準應(yīng)在350毫升和360毫升之間.104它的對立假設(shè)是:稱H0為原假設(shè)(或零假設(shè),解消假設(shè));稱H1為備選假設(shè)(或?qū)α⒓僭O(shè)).在實際工作中,往往把不輕易否定的命題作為原假設(shè).H0:(=355)H1:
這樣,我們可以認為X1,…,X5是取自正態(tài)總體
的樣本,是一個常數(shù).當生產(chǎn)比較穩(wěn)定時,現(xiàn)在要檢驗的假設(shè)是:105那么,如何判斷原假設(shè)H0
是否成立呢?較大、較小是一個相對的概念,合理的界限在何處?應(yīng)由什么原則來確定?由于
是正態(tài)分布的期望值,它的估計量是樣本均值,因此可以根據(jù)與
的差距來判斷H0
是否成立.-
||較小時,可以認為H0是成立的;當-
||生產(chǎn)已不正常.當較大時,應(yīng)認為H0不成立,即-
||106問題歸結(jié)為對差異作定量的分析,以確定其性質(zhì).差異可能是由抽樣的隨機性引起的,稱為“抽樣誤差”或隨機誤差這種誤差反映偶然、非本質(zhì)的因素所引起的隨機波動.107
然而,這種隨機性的波動是有一定限度的,如果差異超過了這個限度,則我們就不能用抽樣的隨機性來解釋了.必須認為這個差異反映了事物的本質(zhì)差別,即反映了生產(chǎn)已不正常.這種差異稱作“系統(tǒng)誤差”108
問題是,根據(jù)所觀察到的差異,如何判斷它究竟是由于偶然性在起作用,還是生產(chǎn)確實不正常?即差異是“抽樣誤差”還是“系統(tǒng)誤差”所引起的?這里需要給出一個量的界限.109問題是:如何給出這個量的界限?這里用到人們在實踐中普遍采用的一個原則:小概率事件在一次試驗中基本上不會發(fā)生.110
現(xiàn)在回到我們前面罐裝可樂的例中:在提出原假設(shè)H0后,如何作出接受和拒絕H0的結(jié)論呢?
在假設(shè)檢驗中,我們稱這個小概率為顯著性水平,用表示.常取
的選擇要根據(jù)實際情況而定。111
罐裝可樂的容量按標準應(yīng)在350毫升和360毫升之間.一批可樂出廠前應(yīng)進行抽樣檢查,現(xiàn)抽查了n罐,測得容量為X1,X2,…,Xn,問這一批可樂的容量是否合格?112提出假設(shè)選檢驗統(tǒng)計量H0:
=355
H1:≠355由于已知,它能衡量差異大小且分布已知.對給定的顯著性水平
,可以在N(0,1)表中查到分位點的值,使113故我們可以取拒絕域為:也就是說,“”是一個小概率事件.W:如果由樣本值算得該統(tǒng)計量的實測值落入?yún)^(qū)域W,則拒絕H0
;否則,不能拒絕H0.114
如果H0
是對的,那么衡量差異大小的某個統(tǒng)計量落入?yún)^(qū)域W(拒絕域)是個小概率事件.如果該統(tǒng)計量的實測值落入W,也就是說,H0成立下的小概率事件發(fā)生了,那么就認為H0不可信而否定它.
否則我們就不能否定H0
(只好接受它).這里所依據(jù)的邏輯是:115
不否定H0并不是肯定H0一定對,而只是說差異還不夠顯著,還沒有達到足以否定H0的程度.所以假設(shè)檢驗又叫“顯著性檢驗”116
在上面的例子的敘述中,我們已經(jīng)初步介紹了假設(shè)檢驗的基本思想和方法.
下面,我們再結(jié)合另一個例子,進一步說明假設(shè)檢驗的一般步驟.117
例2某工廠生產(chǎn)的一種螺釘,標準要求長度是32.5毫米.實際生產(chǎn)的產(chǎn)品,其長度X假定服從正態(tài)分布未知,現(xiàn)從該廠生產(chǎn)的一批產(chǎn)品中抽取6件,得尺寸數(shù)據(jù)如下:32.56,29.66,31.64,30.00,31.87,31.03問這批產(chǎn)品是否合格?…分析:這批產(chǎn)品(螺釘長度)的全體組成問題的總體X.現(xiàn)在要檢驗E(X)是否為32.5.118提出原假設(shè)和備擇假設(shè)第一步:已知X~未知.第二步:能衡量差異大小且分布已知取一檢驗統(tǒng)計量,在H0成立下求出它的分布119第三步:即“
”是一個小概率事件.小概率事件在一次試驗中基本上不會發(fā)生.
對給定的顯著性水平=0.01,查表確定臨界值,使得否定域W:|t|>4.0322120得否定域W:|t|>4.0322故不能拒絕H0.第四步:將樣本值代入算出統(tǒng)計量t
的實測值,|t|=2.997<4.0322沒有落入拒絕域
這并不意味著H0一定對,只是差異還不夠顯著,不足以否定H0.方差分析的基本原理某銀行對下屬的三位出納進行了一次考核,考察了這三位出納一周內(nèi)每天接待客戶的數(shù)量,結(jié)果示于下表。問從表中的數(shù)據(jù)可否推斷出哪一位出納的業(yè)務(wù)能力較強?周一周二周三周四周五周六張三455647515045李四555053595849王五546154585251t檢驗法如果處理這一問題采用的是t檢驗,雖然也能判斷數(shù)據(jù)均值的差異是否顯著,但t檢驗每次只能處理兩組數(shù)據(jù),共需次檢驗。每次檢驗時共有兩組,12個數(shù)據(jù),則誤差自由度為6-1=5。假設(shè)取α=0.05,則每次檢驗不犯棄真錯誤的概率為95%,又因每次檢驗都是相互獨立的,故犯棄真錯誤的概率為1-0.953=0.143。方差分析的基本原理方差分析若采用方差分析,則把所有的數(shù)據(jù)作為一個整體考慮,一次比較就對各組間是否有顯著差異作出判斷。相比t檢驗,進行方差分析時不論數(shù)據(jù)分組的多少,均只要進行一次檢驗,犯棄真錯誤的幾率不大;且誤差自由度為3×(6-1)=15,誤差估計精度較高。進行方差分析時,如果發(fā)現(xiàn)組間差異不顯著,則認為各組均值相同;若差異顯著,則可再比較哪組數(shù)據(jù)與其它不同。方差分析的基本原理相關(guān)術(shù)語試驗因素試驗中所研究的影響試驗指標的原因或原因組合稱為試驗因素。試驗因素可按性質(zhì)的不同分為:可控因素(固定因素)和非控因素(隨機因素)。試驗因素常用大寫字母A、B、C、…等表示。因素水平每個試驗因素的不同狀態(tài)(數(shù)量或性狀上的區(qū)別),稱為因素水平。因素水平常用下標如A1、B1、C1、…等表示。相關(guān)術(shù)語試驗處理對受試對象給予的某種外部干預(yù),是實驗中實施的因子水平的一個組合??煞譃閱我蛩睾投嘁蛩靥幚?。當實驗中涉及的因素只有一個時,稱為單因素處理,實施在試驗單位上的具體項目就是試驗因素的某一水平。試驗中涉及兩個或以上的因素,則稱為多因素處理,這時實施在試驗單位上的具體項目就是各因素某一水平的組合。試驗誤差試驗中無法控制的因素所引起的差異。試驗單位在試驗中能接受不同試驗處理的獨立的試驗載體。重復(fù)在試驗中將一個處理實施在兩個或兩個以上的試驗單位上。在一個多處理試驗中,可得到一系列不同的觀測值。造成觀測值不同的原因可能為處理效應(yīng)或誤差效應(yīng)。方差分析的基本思想就是將總變異分解為處理效應(yīng)和實驗誤差,并作出數(shù)量估計。通過計算處理效應(yīng)和誤差效應(yīng)的均方,可檢驗處理間差異的顯著性。隨著試驗處理因素的增多,總變異可分解為各種原因的變異。方差分析的基本原理數(shù)學模型處理A1A2…Ai…Akx11x21…xi1…xk1x12x22…xi2…xk2┆┆┆┆┆┆x1jx2j…xij…xkj┆┆┆┆┆┆x1nx2n…xin…xkn總和……平均……假定試驗中有k組觀測數(shù)據(jù),每組n個觀測值,則可用下表來表示:對第i個處理的第j個觀測值來說,有:依據(jù)對τi
的不同假定,數(shù)學模型可分為固定、隨機和混合模型。數(shù)學模型固定模型在固定模型中,各個處理的效應(yīng)值τi是固定的,各個處理的平均效應(yīng)τi=μi-μ
是一個常量,且有∑τi=0。試驗因素的水平是根據(jù)試驗?zāi)康氖孪戎饔^選定而不是隨機選定,得到的結(jié)論也只適合于方差分析中所考慮到的幾個水平。數(shù)學模型數(shù)學模型隨機模型在隨機模型中,各處理的效應(yīng)值τi
不是固定值,而是隨機因素引起的效應(yīng)。隨機模型中τi是服從正態(tài)分布的隨機變量,具有均值0和方差σ2。由隨機模型得出的結(jié)論可推廣到多個隨機因素的所有水平上。數(shù)學模型數(shù)學模型混合模型混合模型的試驗中既包含固定效應(yīng)的因素,又包括隨機效應(yīng)的因素。不同模型在設(shè)計思想和統(tǒng)計推斷上有明顯不同,因此進行方差分析的公式推導(dǎo)也有所不同。且模型的側(cè)重點也不一致,固定模型注重效應(yīng)值τi
的估計和比較,隨機模型側(cè)重效應(yīng)方差的估計和檢驗。數(shù)學模型平方和與自由度的分解平方和的分解引起觀測值變異的原因可分為處理效應(yīng)和試驗誤差,根據(jù)線性可加模型,有:平方和與自由度的分解平方和的分解每一個處理n個觀測值離均差平方和累加,有:平方和與自由度的分解平方和的分解把k個處理的離均差再累加,得:平方和與自由度的分解其中平方和與自由度的分解平方和與自由度的分解平方和的分解可見,平方和經(jīng)過分解后最終可得:總平方和=處理間平方和+處理內(nèi)平方和,即:平方和與自由度的分解平方和與自由度的分解平方和的計算SST、SSt和SSe的計算公式如下:平方和與自由度的分解平方和與自由度的分解自由度的分解總自由度可分解為處理間自由度和處理內(nèi)自由度??傋杂啥龋教幚黹g自由度+處理內(nèi)自由度,即:平方和與自由度的分解平方和與自由度的分解自由度的計算dfT、dft和dfe的計算公式為:處理間方差和處理內(nèi)方差的計算st2、se2的計算公式為:平方和與自由度的分解某銀行對下屬的三位出納進行了一次考核,考察了這三位出納一周內(nèi)每天接待客戶的數(shù)量,結(jié)果示于下表。問從表中的數(shù)據(jù)可否推斷出哪一位出納的業(yè)務(wù)能力較強?例題1周一周二周三周四周五周六張三455647515045李四555053595849王五546154585251例題1總平方和計算周一周二周三周四周五周六總均值張三45564751504552.67李四555053595849王五546154585251處理間平方和計算周一周二周三周四周五周六總均值張三49494949494952.67李四545454545454王五555555555555例題1周一周二周三周四周五周六均值總均
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 預(yù)防接種案例分析
- 2020對口招生職業(yè)適應(yīng)性測試卷
- 武漢商學院《氫能儲存與應(yīng)用》2023-2024學年第二學期期末試卷
- 浙江省91高中聯(lián)盟2025年高三協(xié)作體聯(lián)考(一模)化學試題含解析
- 安慶職業(yè)技術(shù)學院《秘書學》2023-2024學年第一學期期末試卷
- 攀枝花攀西職業(yè)學院《采購管理實訓(xùn)》2023-2024學年第二學期期末試卷
- 陜西省度西安中學2025屆高三歷史試題統(tǒng)練(五)含解析
- 紅河職業(yè)技術(shù)學院《對非經(jīng)貿(mào)與法律服務(wù)》2023-2024學年第一學期期末試卷
- 黑龍江科技大學《新媒體數(shù)據(jù)分析與可視化》2023-2024學年第二學期期末試卷
- 痔瘡護理查房課件
- 克里姆林宮課件完整版
- 高校輔導(dǎo)員培訓(xùn)PPT課件:班干部的選任與培訓(xùn)
- 社區(qū)工作者經(jīng)典備考題庫(必背300題)
- 地概a12新地球觀-系統(tǒng)科學
- 全國職業(yè)能力測評《平面設(shè)計師》考試題
- 安徽師范大學成績單績點說明
- 生活垃圾清運承包合同
- 《疼痛的藥物治療》PPT課件(PPT 67頁)
- DB22∕T 2948-2018 天然、半天然草地牛羊混合放牧技術(shù)規(guī)程
- 煉油與化工企業(yè)電氣管理制度
- 煤炭建設(shè)井巷工程消耗量定額(2015除稅基價)總說明及章說明
評論
0/150
提交評論