版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第2章試驗(yàn)數(shù)據(jù)檢驗(yàn)與處理
(假設(shè)檢驗(yàn))假設(shè)檢驗(yàn)的基本問題
一個(gè)總體參數(shù)的檢驗(yàn)
兩個(gè)總體參數(shù)的檢驗(yàn)假設(shè)檢驗(yàn)在統(tǒng)計(jì)方法中的地位統(tǒng)計(jì)方法描述統(tǒng)計(jì)推斷統(tǒng)計(jì)參數(shù)估計(jì)假設(shè)檢驗(yàn)第一節(jié)假設(shè)檢驗(yàn)的基本問題一、假設(shè)的陳述二、兩類錯(cuò)誤與顯著性水平三、統(tǒng)計(jì)量與拒絕域四、利用P值進(jìn)行決策假設(shè)的陳述什么是假設(shè)?
對(duì)總體參數(shù)的具體數(shù)值所作的陳述(一個(gè)判斷)總體參數(shù)包括總體均值、比率、方差等分析之前必須陳述我認(rèn)為這種新藥的療效比原有的藥物更有效!什么是假設(shè)檢驗(yàn)?
先對(duì)總體的參數(shù)(或分布形式)提出某種假設(shè),然后利用樣本信息判斷假設(shè)是否成立的過程有參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)邏輯上運(yùn)用反證法,統(tǒng)計(jì)上依據(jù)小概率原理假設(shè)檢驗(yàn)的基本思想...因此我們拒絕假設(shè)
=50...如果這是總體的假設(shè)均值樣本均值m=50抽樣分布H0這個(gè)值不像我們應(yīng)該得到的樣本均值...20總體假設(shè)檢驗(yàn)的過程抽取隨機(jī)樣本均值
x=20我認(rèn)為白領(lǐng)的平均收入是50萬元提出假設(shè)
拒絕假設(shè)別無選擇!
作出決策原假設(shè)與備擇假設(shè)原假設(shè)研究者想收集證據(jù)予以反對(duì)的假設(shè)又稱“0假設(shè)”總是有符號(hào),
或表示為H0H0:
=某一數(shù)值指定為符號(hào)=,或例如,H0:
10cm研究者想收集證據(jù)予以支持的假設(shè)也稱“研究假設(shè)”總是有符號(hào),
或表示為H1H1:
<某一數(shù)值,或某一數(shù)值例如,H1:
<10cm,或10cm備擇假設(shè)【例】一種零件的生產(chǎn)標(biāo)準(zhǔn)是直徑應(yīng)為10cm,為對(duì)生產(chǎn)過程進(jìn)行控制,質(zhì)量監(jiān)測(cè)人員定期對(duì)一臺(tái)加工機(jī)床檢查,確定這臺(tái)機(jī)床生產(chǎn)的零件是否符合標(biāo)準(zhǔn)要求。如果零件的平均直徑大于或小于10cm,則表明生產(chǎn)過程不正常,必須進(jìn)行調(diào)整。試陳述用來檢驗(yàn)生產(chǎn)過程是否正常的原假設(shè)和被擇假設(shè)提出假設(shè)解:研究者想收集證據(jù)予以證明的假設(shè)應(yīng)該是“生產(chǎn)過程不正?!?。建立的原假設(shè)和備擇假設(shè)為
H0:
10cmH1:
10cm【例】某品牌洗滌劑在它的產(chǎn)品說明書中聲稱:平均凈含量不少于500克。從消費(fèi)者的利益出發(fā),有關(guān)研究人員要通過抽檢其中的一批產(chǎn)品來驗(yàn)證該產(chǎn)品制造商的說明是否屬實(shí)。試陳述用于檢驗(yàn)的原假設(shè)與備擇假設(shè)提出假設(shè)解:研究者抽檢的意圖是傾向于證實(shí)這種洗滌劑的平均凈含量并不符合說明書中的陳述。建立的原假設(shè)和備擇假設(shè)為
H0:
500H1:
<500500g【例】一家研究機(jī)構(gòu)估計(jì),某城市中家庭擁有汽車的比率超過30%。為驗(yàn)證這一估計(jì)是否正確,該研究機(jī)構(gòu)隨機(jī)抽取了一個(gè)樣本進(jìn)行檢驗(yàn)。試陳述用于檢驗(yàn)的原假設(shè)與備擇假設(shè)提出假設(shè)解:研究者想收集證據(jù)予以支持的假設(shè)是“該城市中家庭擁有汽車的比率超過30%”。建立的原假設(shè)和備擇假設(shè)為
H0:
30%H1:
30%原假設(shè)和備擇假設(shè)是一個(gè)完備事件組,而且相互對(duì)立在一項(xiàng)假設(shè)檢驗(yàn)中,原假設(shè)和備擇假設(shè)必有一個(gè)成立,而且只有一個(gè)成立先確定備擇假設(shè),再確定原假設(shè)等號(hào)“=”總是放在原假設(shè)上因研究目的不同,對(duì)同一問題可能提出不同的假設(shè)(也可能得出不同的結(jié)論)提出假設(shè)雙側(cè)檢驗(yàn)與單側(cè)檢驗(yàn)備擇假設(shè)沒有特定的方向性,并含有符號(hào)“”的假設(shè)檢驗(yàn),稱為雙側(cè)檢驗(yàn)或雙尾檢驗(yàn)(two-tailedtest)備擇假設(shè)具有特定的方向性,并含有符號(hào)“>”或“<”的假設(shè)檢驗(yàn),稱為單側(cè)檢驗(yàn)或單尾檢驗(yàn)(one-tailedtest)備擇假設(shè)的方向?yàn)椤?lt;”,稱為左側(cè)檢驗(yàn)
備擇假設(shè)的方向?yàn)椤?gt;”,稱為右側(cè)檢驗(yàn)
雙側(cè)檢驗(yàn)與單側(cè)檢驗(yàn)雙側(cè)檢驗(yàn)與單側(cè)檢驗(yàn)假設(shè)雙側(cè)檢驗(yàn)單側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)原假設(shè)H0:m
=m0H0:m
m0H0:m
m0備擇假設(shè)H1:m
≠m0H1:m<m0H1:m>m0兩類錯(cuò)誤與顯著性水平假設(shè)檢驗(yàn)中的兩類錯(cuò)誤1. 第Ⅰ類錯(cuò)誤(棄真錯(cuò)誤)原假設(shè)為真時(shí)拒絕原假設(shè)第Ⅰ類錯(cuò)誤的概率記為被稱為顯著性水平2. 第Ⅱ類錯(cuò)誤(納偽錯(cuò)誤)原假設(shè)為假時(shí)未拒絕原假設(shè)第Ⅱ類錯(cuò)誤的概率記為βH0:無罪假設(shè)檢驗(yàn)中的兩類錯(cuò)誤(決策結(jié)果)陪審團(tuán)審判裁決實(shí)際情況無罪有罪無罪正確錯(cuò)誤有罪錯(cuò)誤正確H0檢驗(yàn)決策實(shí)際情況H0為真H0為假未拒絕H0正確決策(1–a)第Ⅱ類錯(cuò)誤(b)拒絕H0第Ⅰ類錯(cuò)誤(a)正確決策(1-b)假設(shè)檢驗(yàn)就好像一場審判過程統(tǒng)計(jì)檢驗(yàn)過程
錯(cuò)誤和
錯(cuò)誤的關(guān)系你不能同時(shí)減少兩類錯(cuò)誤!和的關(guān)系就像翹翹板,小就大,大就小影響
錯(cuò)誤的因素1. 總體參數(shù)的真值隨著假設(shè)的總體參數(shù)的減少而增大2. 顯著性水平當(dāng)
減少時(shí)增大3. 總體標(biāo)準(zhǔn)差當(dāng)增大時(shí)增大4. 樣本容量n當(dāng)n減少時(shí)增大顯著性水平
(significantlevel)1. 是一個(gè)概率值2. 原假設(shè)為真時(shí),拒絕原假設(shè)的概率被稱為抽樣分布的拒絕域3.
表示為(alpha)常用的
值有0.01,0.05,0.104. 由研究者事先確定假設(shè)檢驗(yàn)中的小概率原理什么小概率?1. 在一次試驗(yàn)中,一個(gè)幾乎不可能發(fā)生的事件發(fā)生的概率2. 在一次試驗(yàn)中小概率事件一旦發(fā)生,我們就有理由拒絕原假設(shè)3. 小概率由研究者事先確定檢驗(yàn)統(tǒng)計(jì)量與拒絕域根據(jù)樣本觀測(cè)結(jié)果計(jì)算得到的,并據(jù)以對(duì)原假設(shè)和備擇假設(shè)作出決策的某個(gè)樣本統(tǒng)計(jì)量對(duì)樣本估計(jì)量的標(biāo)準(zhǔn)化結(jié)果原假設(shè)H0為真點(diǎn)估計(jì)量的抽樣分布檢驗(yàn)統(tǒng)計(jì)量(teststatistic)
標(biāo)準(zhǔn)化的檢驗(yàn)統(tǒng)計(jì)量顯著性水平和拒絕域
(雙側(cè)檢驗(yàn))0臨界值臨界值a/2a/2
樣本統(tǒng)計(jì)量拒絕H0拒絕H01-置信水平抽樣分布顯著性水平和拒絕域
(雙側(cè)檢驗(yàn))0臨界值臨界值a/2
a/2
樣本統(tǒng)計(jì)量拒絕H0拒絕H0抽樣分布1-置信水平顯著性水平和拒絕域
(雙側(cè)檢驗(yàn))0臨界值臨界值
a/2a/2
樣本統(tǒng)計(jì)量拒絕H0拒絕H0抽樣分布1-置信水平顯著性水平和拒絕域
(雙側(cè)檢驗(yàn))0臨界值臨界值a/2
a/2
樣本統(tǒng)計(jì)量拒絕H0拒絕H0抽樣分布1-置信水平顯著性水平和拒絕域
(單側(cè)檢驗(yàn))0臨界值a樣本統(tǒng)計(jì)量拒絕H0抽樣分布1-置信水平顯著性水平和拒絕域
(左側(cè)檢驗(yàn))0臨界值a樣本統(tǒng)計(jì)量拒絕H0抽樣分布1-置信水平觀察到的樣本統(tǒng)計(jì)量顯著性水平和拒絕域
(左側(cè)檢驗(yàn))0臨界值a樣本統(tǒng)計(jì)量拒絕H0抽樣分布1-置信水平顯著性水平和拒絕域
(右側(cè)檢驗(yàn))0臨界值a樣本統(tǒng)計(jì)量拒絕H0抽樣分布1-置信水平觀察到的樣本統(tǒng)計(jì)量顯著性水平和拒絕域
(右側(cè)檢驗(yàn))0臨界值a樣本統(tǒng)計(jì)量抽樣分布1-置信水平拒絕H0決策規(guī)則給定顯著性水平,查表得出相應(yīng)的臨界值z(mì)或z/2,t或t/2將檢驗(yàn)統(tǒng)計(jì)量的值與水平的臨界值進(jìn)行比較作出決策雙側(cè)檢驗(yàn):I統(tǒng)計(jì)量I>臨界值,拒絕H0左側(cè)檢驗(yàn):統(tǒng)計(jì)量<臨界值,拒絕H0右側(cè)檢驗(yàn):統(tǒng)計(jì)量>臨界值,拒絕H0利用P值進(jìn)行決策什么是P值?
(P-value)在原假設(shè)為真的條件下,檢驗(yàn)統(tǒng)計(jì)量的觀察值大于或等于其計(jì)算值的概率雙側(cè)檢驗(yàn)為分布中兩側(cè)面積的總和反映實(shí)際觀測(cè)到的數(shù)據(jù)與原假設(shè)H0之間不一致的程度被稱為觀察到的(或?qū)崪y(cè)的)顯著性水平?jīng)Q策規(guī)則:若p值<,拒絕H0雙側(cè)檢驗(yàn)的P值/
2/
2Z拒絕H0拒絕H00臨界值計(jì)算出的樣本統(tǒng)計(jì)量計(jì)算出的樣本統(tǒng)計(jì)量臨界值1/2P值1/2P值左側(cè)檢驗(yàn)的P值0臨界值a樣本統(tǒng)計(jì)量拒絕H0抽樣分布1-置信水平計(jì)算出的樣本統(tǒng)計(jì)量P值右側(cè)檢驗(yàn)的P值0臨界值a拒絕H0抽樣分布1-置信水平計(jì)算出的樣本統(tǒng)計(jì)量P值假設(shè)檢驗(yàn)步驟的總結(jié)1.陳述原假設(shè)和備擇假設(shè)2.從所研究的總體中抽出一個(gè)隨機(jī)樣本3.確定一個(gè)適當(dāng)?shù)臋z驗(yàn)統(tǒng)計(jì)量,并利用樣本數(shù)據(jù)算出其具體數(shù)值4.確定一個(gè)適當(dāng)?shù)娘@著性水平,并計(jì)算出其臨界值,指定拒絕域5.將統(tǒng)計(jì)量的值與臨界值進(jìn)行比較,作出決策統(tǒng)計(jì)量的值落在拒絕域,拒絕H0,否則不拒絕H0也可以直接利用P值作出決策第二節(jié)一個(gè)總體參數(shù)的檢驗(yàn)一、總體均值的檢驗(yàn)二、總體比率的檢驗(yàn)三、總體方差的檢驗(yàn)一個(gè)總體參數(shù)的檢驗(yàn)z檢驗(yàn)(單尾和雙尾)
t檢驗(yàn)(單尾和雙尾)z
檢驗(yàn)(單尾和雙尾)
2檢驗(yàn)(單尾和雙尾)均值一個(gè)總體比率方差總體均值的檢驗(yàn)總體均值的檢驗(yàn)
(作出判斷)是否已知小樣本容量n大是否已知否t檢驗(yàn)否z檢驗(yàn)是z檢驗(yàn)
是z檢驗(yàn)總體均值的檢驗(yàn)
(大樣本)總體均值的檢驗(yàn)
(大樣本)1. 假定條件正態(tài)總體或非正態(tài)總體大樣本(n30)使用z檢驗(yàn)統(tǒng)計(jì)量2
已知:2
未知:總體均值的檢驗(yàn)(2
已知)
(例題分析)H0
:
=255H1
:
255
=
0.05n
=
40臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:z01.96-1.960.025拒絕H0拒絕H00.025決策:結(jié)論:
不拒絕H0樣本提供的證據(jù)表明:該天生產(chǎn)的飲料符合標(biāo)準(zhǔn)要求總體均值的檢驗(yàn)(2
未知)
(例題分析)【例】一種機(jī)床加工的零件尺寸絕對(duì)平均誤差為1.35mm。生產(chǎn)廠家現(xiàn)采用一種新的機(jī)床進(jìn)行加工以期進(jìn)一步降低誤差。為檢驗(yàn)新機(jī)床加工的零件平均誤差與舊機(jī)床相比是否有顯著降低,從某天生產(chǎn)的零件中隨機(jī)抽取50個(gè)進(jìn)行檢驗(yàn)。利用這些樣本數(shù)據(jù),檢驗(yàn)新機(jī)床加工的零件尺寸的平均誤差與舊機(jī)床相比是否有顯著降低?(=0.01)左側(cè)檢驗(yàn)50個(gè)零件尺寸的誤差數(shù)據(jù)(mm)1.261.191.310.971.811.130.961.061.000.940.981.101.121.031.161.121.120.951.021.131.230.741.500.500.590.991.451.241.012.031.981.970.911.221.061.111.541.081.101.641.702.371.381.601.261.171.121.230.820.86總體均值的檢驗(yàn)(2
未知)
(例題分析)H0
:
1.35H1
:
<1.35=0.01n
=50臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:
拒絕H0新機(jī)床加工的零件尺寸的平均誤差與舊機(jī)床相比有顯著降低決策:結(jié)論:-2.33z0拒絕H00.01總體均值的檢驗(yàn)(z檢驗(yàn))
(P值的圖示)0-2.33a=0.01z拒絕H0抽樣分布1-計(jì)算出的樣本統(tǒng)計(jì)量=2.6061P值P=0.004579
總體均值的檢驗(yàn)(2
未知)
(例題分析)【例】某一小麥品種的平均產(chǎn)量為5200kg/hm2
。一家研究機(jī)構(gòu)對(duì)小麥品種進(jìn)行了改良以期提高產(chǎn)量。為檢驗(yàn)改良后的新品種產(chǎn)量是否有顯著提高,隨機(jī)抽取了36個(gè)地塊進(jìn)行試種,得到的樣本平均產(chǎn)量為5275kg/hm2,標(biāo)準(zhǔn)差為120/hm2
。試檢驗(yàn)改良后的新品種產(chǎn)量是否有顯著提高?(=0.05)
右側(cè)檢驗(yàn)總體均值的檢驗(yàn)(2
未知)
(例題分析)H0
:
5200H1
:
>5200
=0.05n
=
36臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:拒絕H0(P=0.000088<
=0.05)改良后的新品種產(chǎn)量有顯著提高決策:結(jié)論:z0拒絕H00.051.645總體均值的檢驗(yàn)(z檢驗(yàn))
(P值的圖示)抽樣分布P=0.000088
01.645a=0.05拒絕H01-計(jì)算出的樣本統(tǒng)計(jì)量=3.75P值總體均值的檢驗(yàn)
(小樣本)總體均值的檢驗(yàn)
(小樣本)1. 假定條件總體服從正態(tài)分布小樣本(n<
30)檢驗(yàn)統(tǒng)計(jì)量2
已知:2
未知:總體均值的檢驗(yàn)
(例題分析)【例】一種汽車配件的平均長度要求為12cm,高于或低于該標(biāo)準(zhǔn)均被認(rèn)為是不合格的。汽車生產(chǎn)企業(yè)在購進(jìn)配件時(shí),通常是經(jīng)過招標(biāo),然后對(duì)中標(biāo)的配件提供商提供的樣品進(jìn)行檢驗(yàn),以決定是否購進(jìn)?,F(xiàn)對(duì)一個(gè)配件提供商提供的10個(gè)樣本進(jìn)行了檢驗(yàn)。假定該供貨商生產(chǎn)的配件長度服從正態(tài)分布,在0.05的顯著性水平下,檢驗(yàn)該供貨商提供的配件是否符合要求?10個(gè)零件尺寸的長度(cm)12.210.812.011.811.912.411.312.212.012.3總體均值的檢驗(yàn)
(例題分析)H0
:
=12H1
:
12
=0.05df=10-1=9臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:不拒絕H0該供貨商提供的零件符合要求
決策:結(jié)論:t02.262-2.2620.025拒絕
H0拒絕H00.025總體比率的檢驗(yàn)適用的數(shù)據(jù)類型離散數(shù)據(jù)
連續(xù)數(shù)據(jù)數(shù)值型數(shù)據(jù)數(shù)據(jù)品質(zhì)數(shù)據(jù)總體比率檢驗(yàn)1.假定條件總體服從二項(xiàng)分布可用正態(tài)分布來近似(大樣本)2.檢驗(yàn)的z統(tǒng)計(jì)量0為假設(shè)的總體比率總體比率的檢驗(yàn)
(例題分析)【例】一種以休閑和娛樂為主題的雜志,聲稱其讀者群中有80%為女性。為驗(yàn)證這一說法是否屬實(shí),某研究部門抽取了由200人組成的一個(gè)隨機(jī)樣本,發(fā)現(xiàn)有146個(gè)女性經(jīng)常閱讀該雜志。分別取顯著性水平
=0.05和=0.01
,檢驗(yàn)該雜志讀者群中女性的比率是否為80%?它們的值各是多少?雙側(cè)檢驗(yàn)總體比率的檢驗(yàn)
(例題分析)H0
:
=80%H1
:
80%
=0.05n
=200臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:拒絕H0(P=0.013328<
=0.05)該雜志的說法并不屬實(shí)
決策:結(jié)論:z01.96-1.960.025拒絕
H0拒絕
H00.025總體比率的檢驗(yàn)
(例題分析)H0
:
=80%H1
:
80%
=
0.01n
=
200臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:不拒絕H0(P=0.013328>=0.01)該雜志的說法屬實(shí)
決策:結(jié)論:z02.58-2.580.025拒絕H0拒絕H00.025總體方差的檢驗(yàn)
(2檢驗(yàn))總體方差的檢驗(yàn)
(2檢驗(yàn))
檢驗(yàn)一個(gè)總體的方差或標(biāo)準(zhǔn)差假設(shè)總體近似服從正態(tài)分布使用2分布檢驗(yàn)統(tǒng)計(jì)量樣本方差假設(shè)的總體方差總體方差的檢驗(yàn)
(檢驗(yàn)方法的總結(jié))假設(shè)雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)假設(shè)形式H0
:2=02H1:
202H0
:202H1:2<02H0:
202H1
:2>02統(tǒng)計(jì)量拒絕域P值決策
拒絕H0總體方差的檢驗(yàn)
(例題分析)【例】啤酒生產(chǎn)企業(yè)采用自動(dòng)生產(chǎn)線灌裝啤酒,每瓶的裝填量為640ml,但由于受某些不可控因素的影響,每瓶的裝填量會(huì)有差異。此時(shí),不僅每瓶的平均裝填量很重要,裝填量的方差同樣很重要。如果方差很大,會(huì)出現(xiàn)裝填量太多或太少的情況,這樣要么生產(chǎn)企業(yè)不劃算,要么消費(fèi)者不滿意。假定生產(chǎn)標(biāo)準(zhǔn)規(guī)定每瓶裝填量的標(biāo)準(zhǔn)差不應(yīng)超過和不應(yīng)低于4ml。企業(yè)質(zhì)檢部門抽取了10瓶啤酒進(jìn)行檢驗(yàn),得到的樣本標(biāo)準(zhǔn)差為s=3.8。試以0.10的顯著性水平檢驗(yàn)裝填量的標(biāo)準(zhǔn)差是否符合要求?朝日BEER朝日BEER朝日BEER朝日總體方差的檢驗(yàn)
(例題分析)H0
:2=42H1
:2
42
=0.10df
=
10-1=9臨界值(s):統(tǒng)計(jì)量:不拒絕H0裝填量的標(biāo)準(zhǔn)差否符合要求
2016.91903.32511/2=0.05決策:結(jié)論:第三節(jié)兩個(gè)總體參數(shù)的檢驗(yàn)一、兩個(gè)總體均值之差的檢驗(yàn)二、兩個(gè)總體比率之差的檢驗(yàn)三、兩個(gè)總體方差比的檢驗(yàn)兩個(gè)總體參數(shù)的檢驗(yàn)兩個(gè)總體參數(shù)的檢驗(yàn)z
檢驗(yàn)(大樣本)t
檢驗(yàn)(小樣本)t
檢驗(yàn)(小樣本)z檢驗(yàn)F
檢驗(yàn)獨(dú)立樣本配對(duì)樣本均值比率方差兩個(gè)總體均值之差的檢驗(yàn)
(獨(dú)立大樣本)
兩個(gè)總體均值之差的檢驗(yàn)
(獨(dú)立大樣本)1. 假定條件兩個(gè)樣本是獨(dú)立的隨機(jī)樣本正態(tài)總體或非正態(tài)總體大樣本(n130和n230)檢驗(yàn)統(tǒng)計(jì)量12
,
22
已知:12
,22
未知:兩個(gè)總體均值之差的檢驗(yàn)
(大樣本檢驗(yàn)方法的總結(jié))假設(shè)雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)假設(shè)形式H0
:m1-m2=0H1:m1-m20
H0
:m1-m20H1:m1-m2<0H0:m1-m20
H1:m1-m2>0統(tǒng)計(jì)量12
,
22
已知12
,
22
未知拒絕域P值決策拒絕H0兩個(gè)總體均值之差的檢驗(yàn)
(例題分析)
【例】某公司對(duì)男女職員的平均小時(shí)工資進(jìn)行了調(diào)查,獨(dú)立抽取了具有同類工作經(jīng)驗(yàn)的男女職員的兩個(gè)隨機(jī)樣本,并記錄下兩個(gè)樣本的均值、方差等資料如右表。在顯著性水平為0.05的條件下,能否認(rèn)為男性職員與女性職員的平均小時(shí)工資存在顯著差異?
兩個(gè)樣本的有關(guān)數(shù)據(jù)
男性職員女性職員n1=44n1=32x1=75x2=70S12=64S22=42.25兩個(gè)總體均值之差的檢驗(yàn)
(例題分析)H0
:1-2=0H1
:1-2
0
=0.05n1
=44,n2
=32臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:決策:結(jié)論:
拒絕H0該公司男女職員的平均小時(shí)工資之間存在顯著差異
z01.96-1.960.025拒絕H0拒絕H00.025兩個(gè)總體均值之差的檢驗(yàn)
(獨(dú)立小樣本)
兩個(gè)總體均值之差的檢驗(yàn)
(12,
22
已知)假定條件兩個(gè)獨(dú)立的小樣本兩個(gè)總體都是正態(tài)分布12,
22已知檢驗(yàn)統(tǒng)計(jì)量兩個(gè)總體均值之差的檢驗(yàn)
(12,22
未知但12=22)假定條件兩個(gè)獨(dú)立的小樣本兩個(gè)總體都是正態(tài)分布12、
22未知但相等,即12=22檢驗(yàn)統(tǒng)計(jì)量其中:自由度:兩個(gè)總體均值之差的檢驗(yàn)
(12,
22
未知且不相等1222)假定條件兩個(gè)總體都是正態(tài)分布12,
22未知且不相等,即1222樣本容量相等,即n1=n2=n檢驗(yàn)統(tǒng)計(jì)量自由度:兩個(gè)總體均值之差的檢驗(yàn)
(12,
22
未知且不相等1222)假定條件兩個(gè)總體都是正態(tài)分布12,22未知且不相等,即1222樣本容量不相等,即n1n2檢驗(yàn)統(tǒng)計(jì)量自由度:兩個(gè)總體均值之差的檢驗(yàn)
(例題分析)【例】甲、乙兩臺(tái)機(jī)床同時(shí)加工某種同類型的零件,已知兩臺(tái)機(jī)床加工的零件直徑(單位:cm)分別服從正態(tài)分布,并且有12=22
。為比較兩臺(tái)機(jī)床的加工精度有無顯著差異,分別獨(dú)立抽取了甲機(jī)床加工的8個(gè)零件和乙機(jī)床加工的7個(gè)零件,通過測(cè)量得到如下數(shù)據(jù)。在=0.05的顯著性水平下,樣本數(shù)據(jù)是否提供證據(jù)支持
“兩臺(tái)機(jī)床加工的零件直徑不一致”的看法?兩臺(tái)機(jī)床加工零件的樣本數(shù)據(jù)
(cm)甲20.519.819.720.420.120.019.019.9乙20.719.819.520.820.419.620.2兩個(gè)總體均值之差的檢驗(yàn)
(例題分析)H0
:1-2
=0H1
:1-2
0
=
0.05n1
=8,n2
=7臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:決策:結(jié)論:
不拒絕H0沒有理由認(rèn)為甲、乙兩臺(tái)機(jī)床加工的零件直徑有顯著差異
t02.160-2.1600.025拒絕H0拒絕H00.025兩個(gè)總體均值之差的估計(jì)
(例題分析)【例】為檢驗(yàn)兩種方法組裝產(chǎn)品所需時(shí)間的差異,分別對(duì)兩種不同的組裝方法各隨機(jī)安排12個(gè)工人,每個(gè)工人組裝一件產(chǎn)品所需的時(shí)間(分鐘)下如表。假定兩種方法組裝產(chǎn)品的時(shí)間服從正態(tài)分布,但方差未知且不相等。取顯著性水平0.05,能否認(rèn)為方法1組裝產(chǎn)品的平均數(shù)量明顯地高于方法2?兩個(gè)方法組裝產(chǎn)品所需的時(shí)間方法1方法228.336.027.631.730.137.222.226.029.038.531.032.037.634.433.831.232.128.020.033.428.830.030.226.521兩個(gè)總體均值之差的檢驗(yàn)
(匹配樣本)
兩個(gè)總體均值之差的檢驗(yàn)
(匹配樣本)假定條件兩個(gè)總體配對(duì)差值構(gòu)成的總體服從正態(tài)分布配對(duì)差是由差值總體中隨機(jī)抽取的
數(shù)據(jù)配對(duì)或匹配(重復(fù)測(cè)量(前/后))檢驗(yàn)統(tǒng)計(jì)量樣本差值均值樣本差值標(biāo)準(zhǔn)差匹配樣本
(數(shù)據(jù)形式)
觀察序號(hào)樣本1樣本2差值1x11x21d1=x11-x212x12x22d2=x12-x22MMMMix1ix2idi
=x1i
-x2iMMMMnx1nx2ndn
=x1n-x2n兩個(gè)總體均值之差的檢驗(yàn)
(匹配樣本檢驗(yàn)方法的總結(jié))假設(shè)雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)假設(shè)形式H0
:d=0H1:d0H0
:d0H1:d<0H0:d0
H1:d>0統(tǒng)計(jì)量拒絕域P值決策拒絕H0兩個(gè)總體均值之差的檢驗(yàn)
(例題分析)
【例】某飲料公司開發(fā)研制出一新產(chǎn)品,為比較消費(fèi)者對(duì)新老產(chǎn)品口感的滿意程度,該公司隨機(jī)抽選一組消費(fèi)者(8人),每個(gè)消費(fèi)者先品嘗一種飲料,然后再品嘗另一種飲料,兩種飲料的品嘗順序是隨機(jī)的,而后每個(gè)消費(fèi)者要對(duì)兩種飲料分別進(jìn)行評(píng)分(0分~10分),評(píng)分結(jié)果如下表。取顯著性水平=0.05,該公司是否有證據(jù)認(rèn)為消費(fèi)者對(duì)兩種飲料的評(píng)分存在顯著差異?兩種飲料平均等級(jí)的樣本數(shù)據(jù)新飲料54735856舊飲料66743976兩個(gè)總體比率之差的檢驗(yàn)1. 假定條件兩個(gè)總體都服從二項(xiàng)分布可以用正態(tài)分布來近似2.檢驗(yàn)統(tǒng)計(jì)量檢驗(yàn)H0:1-2=0檢驗(yàn)H0:1-2=d0兩個(gè)總體比率之差的檢驗(yàn)兩個(gè)總體比率之差的檢驗(yàn)
(檢驗(yàn)方法的總結(jié))假設(shè)雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)假設(shè)形式H0
:1-2=0H1:1-20H0
:1-20
H1:1-2<0
H0:1-20
H1:1-2>0
統(tǒng)計(jì)量拒絕域P值決策拒絕H0兩個(gè)總體比率之差的檢驗(yàn)
(例題分析)
【例】一所大學(xué)準(zhǔn)備采取一項(xiàng)學(xué)生在宿舍上網(wǎng)收費(fèi)的措施,為了解男女學(xué)生對(duì)這一措施的看法是否存在差異,分別抽取了200名男學(xué)生和200名女學(xué)生進(jìn)行調(diào)查,其中的一個(gè)問題是:“你是否贊成采取上網(wǎng)收費(fèi)的措施?”其中男學(xué)生表示贊成的比率為27%,女學(xué)生表示贊成的比率為35%。調(diào)查者認(rèn)為,男學(xué)生中表示贊成的比率顯著低于女學(xué)生。取顯著性水平=0.01,樣本提供的證據(jù)是否支持調(diào)查者的看法?21netnet兩個(gè)總體比率之差的檢驗(yàn)
(例題分析)H0
:1-2
0H1
:1-2<0
=
0.05n1=200,
n2=200臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:決策:結(jié)論:
拒絕H0(P=0.041837<
=0.05)樣本提供的證據(jù)支持調(diào)查者的看法
-1.645Z0拒絕域兩個(gè)總體比率之差的檢驗(yàn)
(例題分析)
【例】有兩種方法生產(chǎn)同一種產(chǎn)品,方法1的生產(chǎn)成本較高而次品率較低,方法2的生產(chǎn)成本較低而次品率則較高。管理人員在選擇生產(chǎn)方法時(shí),決定對(duì)兩種方法的次品率進(jìn)行比較,如方法1比方法2的次品率低8%以上,則決定采用方法1,否則就采用方法2。管理人員從方法1生產(chǎn)的產(chǎn)品中隨機(jī)抽取300個(gè),發(fā)現(xiàn)有33個(gè)次品,從方法2生產(chǎn)的產(chǎn)品中也隨機(jī)抽取300個(gè),發(fā)現(xiàn)有84個(gè)次品。用顯著性水平=0.01進(jìn)行檢驗(yàn),說明管理人員應(yīng)決定采用哪種方法進(jìn)行生產(chǎn)?兩個(gè)總體比率之差的檢驗(yàn)
(例題分析)H0
:1-28%H1
:1-2<8%
=
0.01n1=300,n2=300臨界值(c):檢驗(yàn)統(tǒng)計(jì)量:決策:結(jié)論:
拒絕H0(P=1.22E-15<
=0.05)方法1的次品率顯著低于方法2達(dá)8%,應(yīng)采用方法1進(jìn)行生產(chǎn)-2.33Z0拒絕域兩個(gè)總體方差比的檢驗(yàn)兩個(gè)總體方差比的檢驗(yàn)
(F
檢驗(yàn))1.假定條件兩個(gè)總體都服從正態(tài)分布,且方差相等兩個(gè)獨(dú)立的隨機(jī)樣本檢驗(yàn)統(tǒng)計(jì)量兩個(gè)總體方差比的F
檢驗(yàn)
(臨界值)FF1-F拒絕H0方差比F檢驗(yàn)示意圖拒絕H0兩個(gè)總體方差比的檢驗(yàn)
(檢驗(yàn)方法的總結(jié))假設(shè)雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)假設(shè)形式H0:12/22=1H1:
12/221H0:12/221H1:12/22<1
H0:12/221
H1:12/22>1
統(tǒng)計(jì)量拒絕域兩個(gè)總體方差比的檢驗(yàn)
(例題分析)【例】一家房地產(chǎn)開發(fā)公司準(zhǔn)備購進(jìn)一批燈泡,公司打算在兩個(gè)供貨商之間選擇一家購買。這兩家供貨商生產(chǎn)的燈泡平均使用壽命差別不大,價(jià)格也很相近,考慮的主要因素就是燈泡使用壽命的方差大小。如果方差相同,就選擇距離較近的一家供貨商進(jìn)貨。為此,公司管理人員對(duì)兩家供貨商提供的樣品進(jìn)行了檢測(cè),得到的數(shù)據(jù)如右表。檢驗(yàn)兩家供貨商燈泡使用壽命的方差是否有顯著差異
(=0.05)兩家供貨商燈泡使用壽命數(shù)據(jù)樣本1650569622630596637628706617624563580711480688723651569709632樣本2568540596555496646607562589636529584681539617統(tǒng)計(jì)結(jié)論中拒絕與接受的含義
在假設(shè)檢驗(yàn)中,對(duì)棄真的概率進(jìn)行了控制,而對(duì)納偽的概率并沒有嚴(yán)加控制。當(dāng)H0遭到拒絕時(shí),有非常大的把握說這個(gè)結(jié)論是正確的。當(dāng)H0不被拒絕時(shí),只能說沒有足夠的證據(jù)來懷疑H0
,而不能肯定H0是完全正確的。在應(yīng)用回歸分析、方差分析等統(tǒng)計(jì)分析手段時(shí),對(duì)實(shí)驗(yàn)數(shù)據(jù)有一定的要求,即:樣本對(duì)總體的代表性和樣本遵從特定的檢驗(yàn)方法的要求。因此,在對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析之前,必須對(duì)實(shí)驗(yàn)數(shù)據(jù)本身進(jìn)行檢驗(yàn)與處理,使其符合統(tǒng)計(jì)分析的要求。回歸分析對(duì)原始數(shù)據(jù)的要求原始數(shù)據(jù)必須相互獨(dú)立獨(dú)立性原始數(shù)據(jù)必須來自正態(tài)總體正態(tài)性原始數(shù)據(jù)須合理合理性原始數(shù)據(jù)各組之間的方差必須一致等方差性獨(dú)立性、正態(tài)性、合理性和方差一致性檢驗(yàn)的共性采用假設(shè)檢驗(yàn)方法,檢驗(yàn)步驟和過程相似各自有很多種檢驗(yàn)方法(注意每種方法的特點(diǎn))注意每種方法的需要滿足的前提對(duì)于同樣樣本的數(shù)據(jù)采用不同的方法可能會(huì)有不同的結(jié)論第四節(jié)正態(tài)分布的概念和特征一、正態(tài)分布(normaldistribution)的概念A(yù).DeMoivre:德國數(shù)學(xué)家和天文學(xué)家Gauss:高斯(JohannCarlFriedrichGau?(Gauss)(1777-1855),德國著名數(shù)學(xué)家、物理學(xué)家、天文學(xué)家、大地測(cè)量學(xué)家。高斯被認(rèn)為是最重要的數(shù)學(xué)家,并有“數(shù)學(xué)王子”的美譽(yù)。
正態(tài)分布圖形
例數(shù)更多,分組更細(xì)頻數(shù)分布圖全部觀察對(duì)象BellShaped’Symmetrical自然學(xué)科很多資料符合正態(tài)分布兩頭低,中間高,左右對(duì)稱,呈鐘型的單峰曲線。
二、正態(tài)分布的特征
1、連續(xù)型隨機(jī)變量及其概率分布變量—研究指標(biāo),身高,體重等隨機(jī)變量—可以等于任意數(shù),不確定的值連續(xù)型—-∽≤X≤+∽,中途不間斷,即包含小數(shù)離散型—中途間斷,即只有整數(shù),沒有小數(shù)2、連續(xù)型隨機(jī)變量的分布函數(shù)二、正態(tài)分布的特征
(1)概率密度函數(shù)(曲線的高度)(2)概率分布函數(shù)(曲線的面積)σ—總體標(biāo)準(zhǔn)差μ—總體均數(shù)π—圓周率,3.14159….(3)正態(tài)分布特征⑴曲線在橫軸上方均數(shù)處最高;⑵以均數(shù)為中心,左右對(duì)稱;⑶正態(tài)分布有兩個(gè)參數(shù):位置參數(shù)μ
、形狀參數(shù)σ
⑷正態(tài)分布曲線下的面積有一定的分布規(guī)律。
二、正態(tài)分布的特征
正態(tài)分布的兩個(gè)參數(shù)(1)μ-位置參數(shù):當(dāng)σ一定時(shí),μ越大,曲線越向右移動(dòng);μ越小,曲線越向左移動(dòng)。(2)σ-離散度參數(shù),決定曲線的形態(tài):當(dāng)μ一定時(shí),
σ越大,表示數(shù)據(jù)越分散,曲線越“胖”;
σ越小,表示數(shù)據(jù)越集中,曲線越“瘦”。正態(tài)分布的兩個(gè)參數(shù)正態(tài)曲線下面積分布規(guī)律
無論μσ取什么值,正態(tài)曲線與橫軸間的面積總等于1面積總等于1這個(gè)面積等于多少?-∞+∞μx熟記下列常用的曲線下面積分布規(guī)律:
1、μ±σ的區(qū)間占總面積的68.27%
2、μ±1.96σ的區(qū)間占總面積的95%
3、μ±2.58σ的區(qū)間占總面積的99%質(zhì)量控制
+2S+3S上控制線下控制線警戒線警戒線
-2S
-3S第五節(jié)標(biāo)準(zhǔn)正態(tài)分布及其應(yīng)用1、標(biāo)準(zhǔn)正態(tài)分布與標(biāo)準(zhǔn)化變換
正態(tài)分布是一個(gè)分布族。對(duì)應(yīng)于不同的參數(shù)μ和σ會(huì)產(chǎn)生不同位置不同形狀的正態(tài)分布。(1)概率密度函數(shù)(曲線的高度)(2)概率分布函數(shù)(曲線的面積)σ—總體標(biāo)準(zhǔn)差μ—總體均數(shù)π—圓周率,3.14159….這個(gè)面積等于多少?-∞+∞μx為了應(yīng)用方便,令u服從均數(shù)為0、標(biāo)準(zhǔn)差為1的正態(tài)分布標(biāo)準(zhǔn)正態(tài)分布u變換當(dāng)μ和σ未知時(shí),用和s來估計(jì)u值。標(biāo)準(zhǔn)正態(tài)分布:凡均數(shù)為0、標(biāo)準(zhǔn)差為1的正態(tài)分布。所有的正態(tài)分布,經(jīng)u變換后,都可以轉(zhuǎn)為標(biāo)準(zhǔn)正態(tài)分布。2、標(biāo)準(zhǔn)正態(tài)分布表-∞-3-2-10+1+2+3+∞Φ(u)附表Ⅰ
查表確定標(biāo)準(zhǔn)正態(tài)分布曲線下的面積時(shí),必須注意:
(1)u變換當(dāng)μ,σ已知時(shí),先按u變換公式求得u值,再用u值查表;
當(dāng)μ,σ未知時(shí),用樣本均數(shù)和樣本標(biāo)準(zhǔn)差s代替求u值。
(2)查表時(shí),可以利用標(biāo)準(zhǔn)正態(tài)分布的兩個(gè)特征:
a.曲線下對(duì)稱于0的區(qū)間,面積相等;
b.曲線下橫軸上的總面積為100%或1。
例求x1=μ-1.96σ與x2=μ+1.96σ區(qū)間的面積。查附表,φ1(-1.96)=0.025,φ2(1.96)=1-φ(-1.96)=1-0.025=0.975,區(qū)間面積φ=φ2-φ1=0.975-0.025=0.95=95%第六節(jié)卡方分布擬合檢驗(yàn)如,某鐘表廠對(duì)生產(chǎn)的鐘進(jìn)行精確性檢查,抽取100個(gè)鐘作試驗(yàn),撥準(zhǔn)后隔24小時(shí)以后進(jìn)行檢查,將每個(gè)鐘的誤差(快或慢)按秒記錄下來.問該廠生產(chǎn)的鐘的誤差是否服從正態(tài)分布?再如,某工廠制造一批骰子,聲稱它是均勻的.為檢驗(yàn)骰子是否均勻,要把骰子實(shí)地投擲若干次,統(tǒng)計(jì)各點(diǎn)出現(xiàn)的頻率與1/6的差距.也就是說,在投擲中,出現(xiàn)1點(diǎn),2點(diǎn),…,6點(diǎn)的概率都應(yīng)是1/6.得到的數(shù)據(jù)能否說明“骰子均勻”的假設(shè)是可信的?問題是:K.皮爾遜這是一項(xiàng)很重要的工作,不少人把它視為近代統(tǒng)計(jì)學(xué)的開端.
解決這類問題的工具是英國統(tǒng)計(jì)學(xué)家K.皮爾遜在1900年發(fā)表的一篇文章中引進(jìn)的所謂
檢驗(yàn)法.
檢驗(yàn)法是在總體X的分布未知時(shí),根據(jù)來自總體的樣本,檢驗(yàn)關(guān)于總體分布的假設(shè)的一種檢驗(yàn)方法.
H0:總體X的分布函數(shù)為F(x)
然后根據(jù)樣本的經(jīng)驗(yàn)分布和所假設(shè)的理論分布之間的吻合程度來決定是否接受原假設(shè).使用
對(duì)總體分布進(jìn)行檢驗(yàn)時(shí),我們先提出原假設(shè):檢驗(yàn)法這種檢驗(yàn)通常稱作擬合優(yōu)度檢驗(yàn),它是一種非參數(shù)檢驗(yàn).
在用
檢驗(yàn)假設(shè)H0時(shí),若在H0下分布類型已知,但其參數(shù)未知,這時(shí)需要先用極大似然估計(jì)法估計(jì)參數(shù),然后作檢驗(yàn).檢驗(yàn)法分布擬合的
的基本原理和步驟如下:檢驗(yàn)法3.根據(jù)所假設(shè)的理論分布,可以算出總體X的值落入每個(gè)Ai的概率pi,于是npi就是落入Ai的樣本值的理論頻數(shù).1.將總體X的取值范圍分成k個(gè)互不重迭的小區(qū)間,記作A1,A2,…,Ak.2.把落入第i個(gè)小區(qū)間Ai的樣本值的個(gè)數(shù)記作fi
,稱為實(shí)測(cè)頻數(shù).所有實(shí)測(cè)頻數(shù)之和f1+f2+…+fk等于樣本容量n.標(biāo)志著經(jīng)驗(yàn)分布與理論分布之間的差異的大小.皮爾遜引進(jìn)如下統(tǒng)計(jì)量表示經(jīng)驗(yàn)分布與理論分布之間的差異:統(tǒng)計(jì)量的分布是什么?在理論分布已知的條件下,npi是常量實(shí)測(cè)頻數(shù)理論頻數(shù)皮爾遜證明了如下定理:
若原假設(shè)中的理論分布F(x)已經(jīng)完全給定,那么當(dāng)時(shí),統(tǒng)計(jì)量的分布漸近(k-1)個(gè)自由度的分布.
如果理論分布F(x)中有r個(gè)未知參數(shù)需用相應(yīng)的估計(jì)量來代替,那么當(dāng)時(shí),統(tǒng)計(jì)量的分布漸近(k-r-1)個(gè)自由度的分布.
為了便于理解,我們對(duì)定理作一點(diǎn)直觀的說明.
如果根據(jù)所給的樣本值X1,X2,…,Xn算得統(tǒng)計(jì)量的實(shí)測(cè)值落入拒絕域,則拒絕原假設(shè),否則就認(rèn)為差異不顯著而接受原假設(shè).得拒絕域:(不需估計(jì)參數(shù))(估計(jì)r個(gè)參數(shù))查分布表可得臨界值,使得
根據(jù)這個(gè)定理,對(duì)給定的顯著性水平,
皮爾遜定理是在n無限增大時(shí)推導(dǎo)出來的,因而在使用時(shí)要注意n要足夠大,以及npi
不太小這兩個(gè)條件.
根據(jù)計(jì)算實(shí)踐,要求n不小于50,以及npi
都不小于5.否則應(yīng)適當(dāng)合并區(qū)間,使npi滿足這個(gè)要求.143一、采用卡方檢驗(yàn)進(jìn)行正態(tài)性檢驗(yàn)144分組不同,擬合的結(jié)果可能不同。需要有足夠的樣本含量。
第七節(jié)W檢驗(yàn)方法對(duì)于樣本量較小(50n8)的情況,可以用Shapiro—Wilk檢驗(yàn)代替偏度一峰度檢驗(yàn)。與偏度一峰度檢驗(yàn)不同的是,Shapiro—Wilk檢驗(yàn)對(duì)偏度和峰度以外的非正態(tài)性特征也敏感,但不能區(qū)分總體對(duì)正態(tài)分布的偏離表現(xiàn)在什么方面,只是籠統(tǒng)地判斷一個(gè)樣本是否來自正態(tài)分布的總體。其統(tǒng)計(jì)假設(shè)為:H0,樣本來自正態(tài)分布的總體,H1:樣本來自非正態(tài)分布的總體。
對(duì)樣本量等于n的一個(gè)樣本,將全體觀測(cè)值按從小到大次序排列,得:
對(duì)該樣本進(jìn)行Shapiro-Wilk檢驗(yàn)的第一步是根據(jù)樣本量n從附表A6中查取n個(gè)Shapiro-Wilk檢驗(yàn)系數(shù),記為k(w)。Shapiro—Wilk檢驗(yàn)的統(tǒng)計(jì)量為:
其中,當(dāng)n為偶數(shù)時(shí),當(dāng)n為奇數(shù)時(shí),根據(jù)和n查表(附表A7)可知w的臨界值Z。由此可作出判斷:
當(dāng)w<Z時(shí),拒絕H0,即分布不呈正態(tài)。
當(dāng)wZ時(shí),不拒絕H0,即分布呈正態(tài)。[例]測(cè)得某種紗的伸長率(%)的數(shù)據(jù)為:
15.2,15.4,14.8,13.0,14.2,14.6,14.5,14.2。問其是否符合正態(tài)分布。解:1.將各值按大小順序排列:
x1,
x2,
x3,
x4,
x5,x6,x7,x8
13.0,14.2,14.2,14.5,14.6,14.8,15.2,15.4
其平均值為:
2計(jì)算統(tǒng)計(jì)量W
因?yàn)閚為偶數(shù),所以查附表A6可知:1(w)=0.6052,2(w)=0.3164,3(w)=0.1743,3(w)=0.0561。
查附表A7知:Z(=0.05)為Z0.05=0.818作出統(tǒng)計(jì)判斷:W>Z
,不拒絕H0,即數(shù)據(jù)呈正態(tài)分布。。造成試驗(yàn)結(jié)果非正態(tài)性的原因有兩種:一是總體本身就不是正態(tài)分布的,二是樣本中包含個(gè)別異常值。
對(duì)于非正態(tài)分布的總體,做適當(dāng)數(shù)據(jù)變換(如對(duì)對(duì)數(shù)正態(tài)分布總體做對(duì)數(shù)變換,對(duì)左偏或右偏數(shù)據(jù)作Box—Cox變換等),或者改用非參數(shù)檢驗(yàn)方法都是可行的選擇。在有異常值存在的情況下,則應(yīng)將其先剔除再作方差分析。第八節(jié)獨(dú)立性檢驗(yàn)
保證個(gè)體的獨(dú)立性就是要使所采集的每個(gè)樣品與上一個(gè)樣本沒有關(guān)聯(lián)。一個(gè)樣本是否能代表它的總體,關(guān)鍵在于采樣的隨機(jī)性。非隨機(jī)采樣一方面可能導(dǎo)致樣本特征與總體特征的不一致,另一方面也可能反映在個(gè)體的非獨(dú)立性方面,樣本中個(gè)體的獨(dú)立性是指它們的采集過程完全不受其它個(gè)體的干擾。對(duì)那些分布在某一時(shí)間或空間范圍內(nèi)的個(gè)體而言,個(gè)體間的自相關(guān)特性是導(dǎo)致采樣非獨(dú)立性的重要原因。獨(dú)立性檢驗(yàn)兩個(gè)分類變量的獨(dú)立性檢驗(yàn)問題。在日常生活中,我們常常關(guān)心分類變量之間是否有關(guān)系:例如,吸煙是否與患肺癌有關(guān)系?性別是否對(duì)于喜歡數(shù)學(xué)課程有影響?等等。
吸煙與肺癌列聯(lián)表不患肺癌患肺癌總計(jì)不吸煙7775427817吸煙2099492148總計(jì)9874919965為了調(diào)查吸煙是否對(duì)肺癌有影響,某腫瘤研究所隨機(jī)地調(diào)查了9965人,得到如下結(jié)果(單位:人)列聯(lián)表在不吸煙者中患肺癌的比重是
在吸煙者中患肺癌的比重是
說明:吸煙者和不吸煙者患肺癌的可能性存在差異,吸煙者患肺癌的可能性大。0.54%2.28%探究不患肺癌患肺癌總計(jì)不吸煙7775427817吸煙2099492148總計(jì)98749199651、列聯(lián)表2、三維柱形圖3、二維條形圖不患肺癌患肺癌吸煙不吸煙不患肺癌患肺癌吸煙不吸煙080007000600050004000300020001000從三維柱形圖能清晰看出各個(gè)頻數(shù)的相對(duì)大小。從二維條形圖能看出,吸煙者中患肺癌的比例高于不患肺癌的比例。通過圖形直觀判斷兩個(gè)分類變量是否相關(guān):不吸煙吸煙患肺癌比例不患肺癌比例4、等高條形圖等高條形圖更清晰地表達(dá)了兩種情況下患肺癌的比例。
上面我們通過分析數(shù)據(jù)和圖形,得到的直觀印象是吸煙和患肺癌有關(guān),那么事實(shí)是否真的如此呢?這需要用統(tǒng)計(jì)觀點(diǎn)來考察這個(gè)問題。
現(xiàn)在想要知道能夠以多大的把握認(rèn)為“吸煙與患肺癌有關(guān)”,為此先假設(shè)
H0:吸煙與患肺癌沒有關(guān)系.不患肺癌患肺癌總計(jì)不吸煙aba+b吸煙cdc+d總計(jì)a+cb+da+b+c+d把表中的數(shù)字用字母代替,得到如下用字母表示的列聯(lián)表
用A表示不吸煙,B表示不患肺癌,則“吸煙與患肺癌沒有關(guān)系”等價(jià)于“吸煙與患肺癌獨(dú)立”,即假設(shè)H0等價(jià)于P(AB)=P(A)P(B).因此|ad-bc|越小,說明吸煙與患肺癌之間關(guān)系越弱;
|ad-bc|越大,說明吸煙與患肺癌之間關(guān)系越強(qiáng)。不患肺癌患肺癌總計(jì)不吸煙aba+b吸煙cdc+d總計(jì)a+cb+da+b+c+d在表中,a恰好為事件AB發(fā)生的頻數(shù);a+b和a+c恰好分別為事件A和B發(fā)生的頻數(shù)。由于頻率接近于概率,所以在H0成立的條件下應(yīng)該有
為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評(píng)判標(biāo)準(zhǔn),基于上述分析,我們構(gòu)造一個(gè)隨機(jī)變量-----卡方統(tǒng)計(jì)量(1)
若H0成立,即“吸煙與患肺癌沒有關(guān)系”,則K2應(yīng)很小。根據(jù)表3-7中的數(shù)據(jù),利用公式(1)計(jì)算得到K2的觀測(cè)值為:那么這個(gè)值到底能告訴我們什么呢?(2)
獨(dú)立性檢驗(yàn)在H0成立的情況下,統(tǒng)計(jì)學(xué)家估算出如下的概率
即在H0成立的情況下,K2的值大于6.635的概率非常小,近似于0.01。
也就是說,在H0成立的情況下,對(duì)隨機(jī)變量K2進(jìn)行多次觀測(cè),觀測(cè)值超過6.635的頻率約為0.01。思考
答:判斷出錯(cuò)的概率為0.01。判斷是否成立的規(guī)則如果,就判斷不成立,即認(rèn)為吸煙與患肺癌有關(guān)系;否則,就判斷成立,即認(rèn)為吸煙與患肺癌有關(guān)系。獨(dú)立性檢驗(yàn)的定義
上面這種利用隨機(jī)變量K2來確定在多大程度上可以認(rèn)為“兩個(gè)分類變量有關(guān)系”的方法,稱為兩個(gè)分類變量的獨(dú)立性檢驗(yàn)。在該規(guī)則下,把結(jié)論“成立”錯(cuò)判成“不成立”的概率不會(huì)差過即有99%的把握認(rèn)為不成立。獨(dú)立性檢驗(yàn)的基本思想(類似反證法)(1)假設(shè)結(jié)論不成立,即“兩個(gè)分類變量沒有關(guān)系”.(2)在此假設(shè)下我們所構(gòu)造的隨機(jī)變量K2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 單位管理制度呈現(xiàn)大全【人事管理】
- 三角形的面積推導(dǎo)課件
- 第4單元 民族團(tuán)結(jié)與祖國統(tǒng)一 測(cè)試卷-2021-2022學(xué)年部編版八年級(jí)歷史下冊(cè)
- DBJT 13-317-2019 裝配式輕型鋼結(jié)構(gòu)住宅
- 《電鍍錫工藝學(xué)》課件
- 2024年大學(xué)生攝影大賽活動(dòng)總結(jié)
- 《焊接基本知識(shí)》課件
- 中小學(xué)家長會(huì)122
- 美術(shù):源起與影響
- 醫(yī)療行業(yè)專業(yè)技能培訓(xùn)體會(huì)
- 車間主任個(gè)人年終總結(jié)
- 2024年甘肅省公務(wù)員錄用考試《行測(cè)》試題及答案解析
- 消防工程技術(shù)專業(yè)畢業(yè)實(shí)習(xí)報(bào)告范文
- 2024年高等教育法學(xué)類自考-00229證據(jù)法學(xué)考試近5年真題附答案
- 安徽省合肥市一六八中2025屆高二生物第一學(xué)期期末教學(xué)質(zhì)量檢測(cè)試題含解析
- 醫(yī)院后勤管理作業(yè)指導(dǎo)書
- 六年級(jí)下冊(cè)心理健康教育教案-8 男女生交往小鬧鐘遼大版
- 【課件】第五單元化學(xué)反應(yīng)的定量關(guān)系新版教材單元分析九年級(jí)化學(xué)人教版(2024)上冊(cè)
- 國庫資金支付管理辦法
- 中醫(yī)調(diào)理理療免責(zé)協(xié)議書模板
- 小學(xué)二年級(jí)語文(人教版)下冊(cè)生字筆順
評(píng)論
0/150
提交評(píng)論