




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
8.3分類(lèi)變量與列聯(lián)表
教材分析
本節(jié)課選自《2019人教A版高中數(shù)學(xué)選擇性必修第三冊(cè)》,第七章《隨機(jī)變量及其分布列》,
本節(jié)課主本節(jié)課主要學(xué)習(xí)分類(lèi)變量與列聯(lián)表
學(xué)生前面已經(jīng)學(xué)習(xí)了基本獲取樣本數(shù)據(jù)的方法,從樣本數(shù)據(jù)中提取信息的方法,也掌握了相互
獨(dú)立事件的概率計(jì)算,獨(dú)立性檢驗(yàn)是進(jìn)一步分析兩個(gè)分類(lèi)變量之間是否有關(guān)系,是高中數(shù)學(xué)知識(shí)中
教學(xué)過(guò)程教學(xué)設(shè)計(jì)意圖
核心素養(yǎng)目標(biāo)
體現(xiàn)統(tǒng)計(jì)思想的重要課節(jié)。學(xué)習(xí)重點(diǎn)應(yīng)放在獨(dú)立性檢驗(yàn)的統(tǒng)計(jì)學(xué)原理上,理解獨(dú)立性檢驗(yàn)的基本思
想,明確獨(dú)立性檢驗(yàn)的基本步驟。課堂趣味性較強(qiáng),充分體現(xiàn)了數(shù)學(xué)在實(shí)際生活中的應(yīng)用,對(duì)于提
高學(xué)生應(yīng)用意識(shí)和數(shù)學(xué)建模思想有重要意義。
教學(xué)目標(biāo)與核心素養(yǎng)
課程目標(biāo)學(xué)科素養(yǎng)
A.通過(guò)對(duì)典型案例的探究,了解獨(dú)立性檢1.數(shù)學(xué)抽象:從特殊實(shí)例到一般原理
驗(yàn)(只要求2x2列聯(lián)表)的基本思想、方法2.邏輯推理:獨(dú)立性檢驗(yàn)的思想方法
及初步應(yīng)用.3.數(shù)學(xué)運(yùn)算:獨(dú)立檢驗(yàn)的運(yùn)用
B.通過(guò)對(duì)數(shù)據(jù)的收集、整理和分析,增強(qiáng)學(xué)4.數(shù)學(xué)建模:模型化思想
生的社會(huì)實(shí)踐能力,培養(yǎng)學(xué)生分析問(wèn)題、
解決問(wèn)題的能力.
重點(diǎn)難點(diǎn)
重點(diǎn):了解獨(dú)立性檢驗(yàn)(只要求2x2列聯(lián)表)的應(yīng)用.
難點(diǎn):獨(dú)立性檢驗(yàn)(只要求2x2列聯(lián)表)的基本思想、方法
課前準(zhǔn)備
多媒體
教學(xué)過(guò)程
一、問(wèn)題導(dǎo)學(xué)
前面兩節(jié)所討論的變量,如人的身高、樹(shù)的胸徑、樹(shù)的高度、短
跑100m世界紀(jì)錄和創(chuàng)紀(jì)錄的時(shí)間等,都是數(shù)值變量,數(shù)值變量的取值
為實(shí)數(shù).其大小和運(yùn)算都有實(shí)際含義.
在現(xiàn)實(shí)生活中,人們經(jīng)常需要回答一定范圍內(nèi)的兩種現(xiàn)象或
性質(zhì)之間是否存在關(guān)聯(lián)性或相互影響的問(wèn)題.例如,就讀不同學(xué)校是否
對(duì)學(xué)生的成績(jī)有影響,不同班級(jí)學(xué)生用于體育鍛煉的時(shí)間是否有差別,
吸煙是否會(huì)增加患肺癌的風(fēng)險(xiǎn),等等,本節(jié)將要學(xué)習(xí)的獨(dú)立性檢驗(yàn)方法
為我們提供了解決這類(lèi)問(wèn)題的方案。
在討論上述問(wèn)題時(shí),為了表述方便,我們經(jīng)常會(huì)使用一種特殊
的隨機(jī)變量,以區(qū)別不同的現(xiàn)象或性質(zhì),這類(lèi)隨機(jī)變量稱為分類(lèi)變量.
分類(lèi)變量的取值可以用實(shí)數(shù)表示,例如,學(xué)生所在的班級(jí)可以用1,2,3
等表示,男性、女性可以用1,0表示,等等.在很多時(shí)候,這些數(shù)值只作為
編號(hào)使用,并沒(méi)有通常的大小和運(yùn)算意義,本節(jié)我們主要討論取值于
{0,1}的分類(lèi)變量的關(guān)聯(lián)性問(wèn)題.
二、探究新知
問(wèn)題1.為了有針對(duì)性地提高學(xué)生體育鍛煉的積極性,某中學(xué)需要了
通過(guò)具體的問(wèn)題
解性別因素是否對(duì)本校學(xué)生體育鍛煉的經(jīng)常性有影響,為此對(duì)學(xué)生是
情境,引發(fā)學(xué)生思考
否經(jīng)常鍛煉的情況進(jìn)行了普查,全校學(xué)生的普查數(shù)據(jù)如下:523名女生積極參與互動(dòng),說(shuō)出
中有331名經(jīng)常鍛煉;601名男生中有473名經(jīng)常鍛煉。你能利用這些自己見(jiàn)解。從而分類(lèi)
變量獨(dú)立性檢驗(yàn)的
數(shù)據(jù),說(shuō)明該校女生和男生在體育鍛煉的經(jīng)常性方面是否存在差異
概念,發(fā)展學(xué)生邏輯
嗎?推理、數(shù)學(xué)運(yùn)算、數(shù)
這是一個(gè)簡(jiǎn)單的統(tǒng)計(jì)問(wèn)題,最直接的解答方法是,比較經(jīng)常鍛煉的學(xué)生學(xué)抽象和數(shù)學(xué)建模
在女生和男生中的比率,為了方便,我們即0=經(jīng)常襄北生數(shù),的核心素養(yǎng)。
f二竺常鍛煉的男生數(shù)
,1男生總數(shù)
那么,只要求出{和4的值,通過(guò)比較這兩個(gè)值的大小,就可以知
道女生和男生在鍛煉的經(jīng)常性方面是否有差異,由所給的數(shù)據(jù),經(jīng)計(jì)算
得至優(yōu)^會(huì)刈陋九=經(jīng)=0.787.由//?0.787-0.633=0.154可
v523160110
知,男生經(jīng)常鍛煉的比率比女生高出15.4個(gè)百分點(diǎn).
所以該校的女生和男生在體育鍛等的經(jīng)常性方面有差異,而且男生更
經(jīng)常鍛煉.
用n表示該校全體學(xué)生構(gòu)成的集合,這是我們所關(guān)心的對(duì)象的總
體,考慮以n為樣本空間的古典概型,并定義一對(duì)分類(lèi)變量X和Y如下:
對(duì)于。中的每一名學(xué)生,
八皿人v(0,該生為女生、(0,該生不經(jīng)常鍛煉、
分別令x=1<1,該生為男生1I,y=(11,該生經(jīng)常鍛煉),
“性別對(duì)體育鍛煉的經(jīng)常性沒(méi)有影響''可以描述為
P(Y=1|X=0)=P(Y=l|X=l);
“性別對(duì)體育鍛煉的經(jīng)常性有影響”可以描述為
P(Y=1|X=O)^P(Y=1|X=1).
我們希望通過(guò)比較條件概率p(y=i|x=o)和p(y=i|x=i)回答上面
的問(wèn)題.按照條件本概率的直觀解釋,
如果從該校女生和男生中各隨機(jī)選取一名學(xué)生,那么該女生屬于經(jīng)常
鍛煉群體的概率是P(Y=l|X=0),
而該男生屬于經(jīng)常鍛煉群體的概率是P(Y=1|X=1).
為了清楚起見(jiàn),我們用表格整理數(shù)據(jù)
鍛煉
性別合計(jì)
不經(jīng)常(y=o)經(jīng)常(y=i)
女生(X=0)192331523
男生(X=l)128473601
合計(jì)3208041124
我們用{X=0,Y=l}表示事件{X=0}和{Y=l}的積事件,用
{X=1,Y=1}表示事件(X=1}和{Y=1}的積事件,根據(jù)古典概型和條件概
率的計(jì)算公式,我們有
P(Y=1|X=0)=n(X=0,/=1)=--0.633;P(y=1|X=1)=n(X"1,r=1)=--0.787
'''n(X=O)523,'I'n(X=l)601
由P(Y=1|X=1)>P(Y=1|X=0)
可以作出判斷,在該校的學(xué)生中,性別對(duì)體育鍛煉的經(jīng)常性有影響,即
該校的女生和男生在體育鍛煉的經(jīng)常性方面存在差異,而且男生更經(jīng)
常鍛煉。
在實(shí)踐中,由于保存原始數(shù)據(jù)的成本較高,人們經(jīng)常按研究問(wèn)題
的需要,將數(shù)據(jù)分類(lèi)統(tǒng)計(jì),并做成表格加以保存,我們將下表這種形式
的數(shù)據(jù)統(tǒng)計(jì)表稱為2x2列聯(lián)表(contingencytable).
2x2列聯(lián)表給出了成對(duì)分類(lèi)變量數(shù)據(jù)的交叉分類(lèi)頻數(shù),以右表為
例,它包含了X和Y的如下信息:
最后一行的前兩個(gè)數(shù)分別是事件{Y=0}和{Y=l}中樣本點(diǎn)的個(gè)數(shù);
最后一列的前兩個(gè)數(shù)分別是事件{X=0}和{X=l}中樣本點(diǎn)的個(gè)數(shù);
中間的四個(gè)格中的數(shù)是表格的核心部分,給出了事件
{X=x,Y=y}(x,y=0,l)中樣本點(diǎn)的個(gè)數(shù);
右下角格中的數(shù)是樣本空間中樣本點(diǎn)的總數(shù)。
鍛煉
性別合計(jì)
不經(jīng)常(y=0)經(jīng)常(y=i)通過(guò)問(wèn)題分析,
女生(X=0)192331523讓學(xué)生理解運(yùn)獨(dú)立
男生(X=l)128473601性檢驗(yàn)的統(tǒng)計(jì)學(xué)原
合計(jì)3208041124理。發(fā)展學(xué)生邏輯推
理,直觀想象、數(shù)學(xué)
抽象和數(shù)學(xué)運(yùn)算的
三、典例解析
核心素養(yǎng)。
例1.為比較甲、乙兩所學(xué)校學(xué)生的數(shù)學(xué)水平,采用簡(jiǎn)單隨機(jī)抽樣的方
法抽取88名學(xué)生.通過(guò)測(cè)驗(yàn)得到了如下數(shù)據(jù):甲校43名學(xué)生中有10
名數(shù)學(xué)成績(jī)優(yōu)秀;乙校45名學(xué)生中有7名數(shù)學(xué)成績(jī)優(yōu)秀,試分析兩校學(xué)
生中數(shù)學(xué)成績(jī)優(yōu)秀率之間是否存在差異.
解:用C表示兩所學(xué)校的全體學(xué)生構(gòu)成的集合.考慮以C為樣本空間的
古典概型.對(duì)于C中每一名學(xué)生,定義分類(lèi)變量X和Y如下:X=
[0,該生來(lái)自甲校)=[0,該生數(shù)學(xué)成績(jī)不優(yōu)秀)
11,該生來(lái)自乙校7V二(l,該生數(shù)學(xué)成績(jī)優(yōu)秀r
學(xué)校數(shù)學(xué)成績(jī)合計(jì)
不優(yōu)秀(Y=0)優(yōu)秀(Y=l)
甲校(X=0)331()43
乙校(X=D38745
合計(jì)711788
我們將所給數(shù)據(jù)整理成表(單位:人)
表是關(guān)于分類(lèi)變量X和Y的抽樣數(shù)據(jù)的2X2列聯(lián)表:最后一行
的前兩個(gè)數(shù)分別是事件(Y=0)和(Y=l)的頻數(shù);最后一列的前兩個(gè)數(shù)分
別是事件(X=0)和(X=1)的頻數(shù);中間的四個(gè)格中的數(shù)是事件
(X=x,Y=y)(x,y=O,l)的頻數(shù);
甲校學(xué)生中數(shù)學(xué)成績(jī)不優(yōu)秀和數(shù)學(xué)成績(jī)優(yōu)秀的頻率分別為^70.7674
43
和卷々0.2326;
乙校學(xué)生中數(shù)學(xué)成績(jī)不優(yōu)秀和數(shù)學(xué)成績(jī)優(yōu)秀的頻率分別為
45
0.8444和會(huì)0.1556
我們可以用等高堆積條形圖直觀地展示上述計(jì)算結(jié)果,如圖所示
■優(yōu)秀
O.f
■不優(yōu)秀
0.6u
0.4,J1
0.2
oo
甲校乙校
左邊的藍(lán)色和紅色條的高度分別是甲校學(xué)生中數(shù)學(xué)成績(jī)不
優(yōu)秀和數(shù)學(xué)成績(jī)優(yōu)秀的頻率;右邊的藍(lán)色和紅色條的高度分別是乙校
學(xué)生中數(shù)學(xué)成績(jī)不優(yōu)秀和數(shù)學(xué)成績(jī)優(yōu)秀的頻率,通過(guò)比較發(fā)現(xiàn),兩個(gè)學(xué)
校學(xué)生抽樣數(shù)據(jù)中數(shù)學(xué)成績(jī)優(yōu)秀的頻率存在差異,甲校的頻率明顯高
于乙校的頻率,依據(jù)頻率穩(wěn)定于概率的原理,我們可以推斷
P(Y=1|X=O)>P(Y=1|X=1).
也就是說(shuō),如果從甲校和乙校各隨機(jī)選取一名學(xué)生,那么甲校學(xué)生數(shù)學(xué)
成績(jī)優(yōu)秀的概率大于乙校學(xué)生數(shù)學(xué)成績(jī)優(yōu)秀的概率,因此,可以認(rèn)為兩
校學(xué)生的數(shù)學(xué)成績(jī)優(yōu)秀率存在差異,甲校學(xué)生的數(shù)學(xué)成績(jī)優(yōu)秀率比乙
校學(xué)生的高?
學(xué)校數(shù)學(xué)成績(jī)合計(jì)
不優(yōu)秀(Y=0)優(yōu)秀(Y=l)
甲校(X=0)331043
乙校(X=l)38745
合計(jì)711788
2.兩個(gè)分類(lèi)變量之間關(guān)聯(lián)關(guān)系的定性分析的方法:
(1)頻率分析法:通過(guò)對(duì)樣本的每個(gè)分類(lèi)變量的不同類(lèi)別事件發(fā)生的
頻率大小進(jìn)行比較來(lái)分析分類(lèi)變量之間是否有關(guān)聯(lián)關(guān)系.如可以通過(guò)
列聯(lián)表中唉與七值的大小粗略地判斷分類(lèi)變量x和Y之間有無(wú)關(guān)
系.一般其值相差越大,分類(lèi)變量有關(guān)系的可能性越大.
(2)圖形分析法:與表格相比,圖形更能直觀地反映出兩個(gè)分類(lèi)變
量間是否互相影響,常用等高堆積條形圖展示列聯(lián)表數(shù)據(jù)的頻率特
征.將列聯(lián)表中的數(shù)據(jù)用高度相同的兩個(gè)條形圖表示出來(lái),其中兩列
的數(shù)據(jù)分別對(duì)應(yīng)不同的顏色,這就是等高堆積條形圖.
等高堆積條形圖可以展示列聯(lián)表數(shù)據(jù)的頻率特征,能夠直觀地反映出
兩個(gè)分類(lèi)變量間是否相互影響.
問(wèn)題2.你認(rèn)為“兩校學(xué)生的數(shù)學(xué)成績(jī)優(yōu)秀率存在差異”這一結(jié)論是否
有可能是錯(cuò)誤的?
有可能
“兩校學(xué)生的數(shù)學(xué)成績(jī)優(yōu)秀率存在差異”這個(gè)結(jié)論是根據(jù)兩個(gè)頻率
間存在差異推斷出來(lái)的.有可能出現(xiàn)這種情況:在隨機(jī)抽取的這個(gè)樣
本中,兩個(gè)頻率間確實(shí)存在差異,但兩校學(xué)生的數(shù)學(xué)成績(jī)優(yōu)秀率實(shí)際
上是沒(méi)有差別的.對(duì)于隨機(jī)樣本而言,因?yàn)轭l率具有隨機(jī)性,頻率與
概率之間存在誤差,所以我們的推斷可能犯錯(cuò)誤,而且在樣本容量較
小時(shí),犯錯(cuò)誤的可能性會(huì)較大.因此,需要找到一種更為合理的推斷
方法,同時(shí)也希望能對(duì)出現(xiàn)錯(cuò)誤推斷的概率有一定的控制或估算.
通過(guò)具體的問(wèn)題
“兩校學(xué)生的數(shù)學(xué)成績(jī)優(yōu)秀率存在差異”這個(gè)結(jié)論是根據(jù)兩個(gè)頻率
情境中的分析,深化
間存在差異推斷出來(lái)的.有可能出現(xiàn)這種情況:在隨機(jī)抽取的這個(gè)樣對(duì)獨(dú)立性檢驗(yàn)的理
本中,兩個(gè)頻率間確實(shí)存在差異,但兩校學(xué)生的數(shù)學(xué)成績(jī)優(yōu)秀率實(shí)際解。發(fā)展學(xué)生邏輯推
理,直觀想象、數(shù)學(xué)
上是沒(méi)有差別的.對(duì)于隨機(jī)樣本而言,因?yàn)轭l率具有隨機(jī)性,頻率與
抽象和數(shù)學(xué)運(yùn)算的
概率之間存在誤差,所以我們的推斷可能犯錯(cuò)誤,而且在樣本容量較核心素養(yǎng)。
小時(shí),犯錯(cuò)誤的可能性會(huì)較大.因此,需要找到一種更為合理的推斷
方法,同時(shí)也希望能對(duì)出現(xiàn)錯(cuò)誤推斷的概率有一定的控制或估算.
考慮以Q為樣本空間的古典概型,設(shè)X和y為定義在Q上,取值
于{0,1}的成對(duì)分類(lèi)變量,我們希望判斷事件{X=l}和{Y=l}之間是否
有關(guān)聯(lián)。注意到{X=0}和{X=l},{Y=0}和{Y=l}都是互對(duì)立事件,與前
面的討論類(lèi)似,我們需要判斷下面的假定關(guān)系
“o:p(y=i|x=o)=p(y=i|x=i)是否成立,通常稱勺為零假設(shè)或原假設(shè)
(nullhypothesis).
P(Y=11X=0)表示從{X=0}中隨機(jī)選取一個(gè)樣本點(diǎn),該樣本點(diǎn)屬于
{X=0,Y=l}的概率;
P(Y=1|X=1)表示從{X=l}中隨機(jī)選取一個(gè)樣本點(diǎn),該樣本點(diǎn)屬于
{X=1,Y=I}的概率。
由條件概率的定義可知,零假設(shè)等價(jià)于端嚓上=筆寫(xiě)2
0P\X-x))1)
或P(X=0,Y=1)P(X=1)=P(X=1,Y=l)P(X=0).①
考慮以Q為樣本空間的古典概型,設(shè)X和y為定義在Q上,取值
于{0,1}的成對(duì)分類(lèi)變量,我們希望判斷事件{x=1}和{Y=1}之間是否
有關(guān)聯(lián)。注意到{X=0}和{X=l},{Y=0}和{Y=l}都是互對(duì)立事件,與前
面的討論類(lèi)似,我們需要判斷下面的假定關(guān)系
“o:p(y=i|x=o)=p(y=i|x=i)是否成立,通常稱名為零假設(shè)或原假設(shè)
(nullhypothesis).P(Y=l|X=0)表示從{X=0}中隨機(jī)選取一個(gè)樣本點(diǎn),該
樣本點(diǎn)屬于{X=0,Y=l}的概率;
P(Y=1|X=1)表示從{X=l}中隨機(jī)選取一個(gè)樣本點(diǎn),該樣本點(diǎn)屬于
(X=1,Y=1}的概率。
由條件概率的定義可知,零假設(shè)H.等價(jià)于筆蹤^=端=生
0P(X=0)P(X=1)
或P(X=0.Y=1)P(X=1)=P(X=1,Y=l)P(X=0).①
注意到(X=0)和(X=l)為對(duì)立事件,于是P(X=0)=l-P(X=l).
再由概率的性質(zhì),我們有P(X=0,Y=1)=P(Y=1)-P(X=1,Y=1).
由此推得①式等價(jià)于P(x=1)P(Y=1)=P(X=1,Y=1).
因此,零假設(shè)H0等價(jià)于{X=l}與{丫=1}獨(dú)立。
根據(jù)已經(jīng)學(xué)過(guò)的概率知識(shí),下面的四條性質(zhì)彼此等價(jià):
{X=0}與{Y=0}獨(dú)立;{X=0}與{Y=l}獨(dú)立;{X=l}與{Y=0}獨(dú)
立;{X=l}與{Y=l}獨(dú)立。
以上性質(zhì)成立,我們就稱分類(lèi)變量X和Y獨(dú)立,這相當(dāng)于下面四個(gè)等式
成立;
P(X=O,Y=O)=P(X=O)P(Y=O);P(X=O,Y=1)=P(X=O)P(Y=1);
P(X=1,Y=O)=P(X=1)P(Y=O);P(X=1,Y=1)=P(X=1)P(Y=1).②
我們可以用概率語(yǔ)言,將零假設(shè)改述為H。:分類(lèi)變量X和Y獨(dú)立.
假定我們通過(guò)簡(jiǎn)單隨機(jī)抽樣得到了X和Y的抽樣數(shù)據(jù)列聯(lián)表,如下表
所示。
表是關(guān)于分類(lèi)變量X和Y的抽樣數(shù)據(jù)的2x2列聯(lián)表:最后一行
的前兩個(gè)數(shù)分別是事件{Y=0}和{Y=l}的頻數(shù)攝后一列的前兩個(gè)數(shù)
分別是事件{X=0}和{X=l}的頻數(shù);中間的四個(gè)數(shù)a,b,c,d是事件
{X=x,Y=y}(x,y=O,l)的頻數(shù);右下角格中的數(shù)n是樣本容量。
Y
X合計(jì)
r=or=i
x=oaba+b
X=1cdc+d
合計(jì)a+cb+dn=a+b+c+d
問(wèn)題3:如何基于②中的四個(gè)等式及列聯(lián)表中的數(shù)據(jù),構(gòu)造適當(dāng)?shù)慕y(tǒng)計(jì)
量,對(duì)成對(duì)分類(lèi)變量X和Y是否相互獨(dú)立作出推斷?
在零假設(shè)”成立的條件下,根據(jù)頻率穩(wěn)定于概率的原理,由②
中的第一個(gè)等式,我們可以用概率P(X=O)和p(y=o)對(duì)應(yīng)的頻率的乘積
(a+?a+c)估計(jì)概率p(x=o,y=o),而把*射£1視為事件{X=O.y=0}發(fā)生
的頻數(shù)的期望值(或預(yù)期值).
這樣,該頻數(shù)的觀測(cè)值a和期望值(a+b)(a+c)應(yīng)該比較接近
n
綜合②中的四個(gè)式子,如果零假設(shè)H()成立,下面四個(gè)量的取值都不應(yīng)
該太大:
?(a+b)(a+c)|,,?+b)(b+d)|,(c+d)(a+c)|,,(c+d)(b+d)|
lan1”一nk|Cn用力n1
③反之,當(dāng)這些量的取值較大時(shí),就可以推斷H0不成立。
分別考慮③中的四個(gè)差的絕對(duì)值很困難,我們需要找到一個(gè)既合
理又能夠計(jì)算分布的統(tǒng)計(jì)量,來(lái)推斷Ho是否成立.
一般來(lái)說(shuō),若頻數(shù)的期望值較大,則③中相應(yīng)的差的絕對(duì)值也會(huì)
較大;而若頻數(shù)的期望值較小,則③中相應(yīng)的差的絕對(duì)值也會(huì)較小.
為了合理地平衡這種影響,我們將四個(gè)差的絕對(duì)值取平方后分別除以
相應(yīng)的期望值再求和,得到如下的統(tǒng)計(jì)量:
2(Q__+b)(a+c))2e_9+b)(b+d))2
X-(a+b)(a+c)1(a+b)(b+d)
nn
(C_(c+d)(a+C))2g_(。+d)(b+d),2
+(c+d)(a+c)1(c+d)(b+d)
nn
2
該表達(dá)式可化簡(jiǎn)為:Z2=
(a+b)(c+d)(a+c)(b+d)
統(tǒng)計(jì)學(xué)家建議,用隨機(jī)變量力?取值的大小作為判斷零假設(shè)H°是
否成立的依據(jù),當(dāng)它比較大時(shí)推斷H。不成立,
否則認(rèn)為H。成立.
問(wèn)題4:那么,究竟,2大到什么程度,可以推斷H。不成立呢?或者說(shuō),怎
樣確定判斷了2大小的標(biāo)準(zhǔn)呢?
根據(jù)小概率事件在一次試驗(yàn)中不大可能發(fā)生的規(guī)律,可以通
過(guò)確定一個(gè)與此相矛盾的小概率事件來(lái)實(shí)現(xiàn),在假定H。的條件下,對(duì)
于有放回簡(jiǎn)單隨機(jī)抽樣,當(dāng)樣本容量n充分大時(shí),統(tǒng)計(jì)學(xué)家得到了#2的
近似分布,忽略%2的實(shí)際分布與該近似分布的誤差后,對(duì)于任何小概
率值a,可以找到相應(yīng)的正實(shí)數(shù)x,
a
使得下面關(guān)系成立:P(12》)=a④
a
我們稱X為a的臨界值,這個(gè)臨界值就可作為判斷乃2大小的標(biāo)準(zhǔn),概率
a
值a越小,臨界值x越大,當(dāng)總體很大時(shí),抽樣有、無(wú)放回對(duì),2的分布
a
影響較小.因此,在應(yīng)用中往往不嚴(yán)格要求抽樣必須是有放回的.
由④式可知,只要把概率值a取得充分小,在假設(shè)H。成立的情
況下,事件*2不大可能發(fā)生的.根據(jù)這個(gè)規(guī)律,如果該事件發(fā)生,我們就
可以推斷H。不成立.不過(guò)這個(gè)推斷有可能犯錯(cuò)誤,但犯錯(cuò)誤的概率不
會(huì)超過(guò)a.
獨(dú)立性檢驗(yàn)公式及定義:
提出零假設(shè)(原假設(shè))H。:分類(lèi)變量X和y獨(dú)立,假定我們通過(guò)
簡(jiǎn)單隨機(jī)抽樣得到了x和y的抽樣數(shù)據(jù)列聯(lián)表,在列聯(lián)表中,如果
零假設(shè)H成立,則應(yīng)滿足三,即”從.因此lad-AI越小,說(shuō)
0a+bc+a
明兩個(gè)分類(lèi)變量之間關(guān)系越弱;lad-加1越大,說(shuō)明兩個(gè)分類(lèi)變量之間
關(guān)系越強(qiáng).
為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評(píng)判標(biāo)準(zhǔn),基于上述分析,我們構(gòu)
2
造一個(gè)隨機(jī)變量…號(hào)、2.
(a+b)(c+d)(a+c)(b+d)
2
X獨(dú)立性檢驗(yàn)中幾個(gè)常用的小概率值和相應(yīng)的臨界值.
Y
X合計(jì)
r=oY=1
x=oaba+b
X=1cdc+d
合計(jì)a+cb+dn=a+b+c+d
a010.050.010.0050.001
2.7063.8416.6357.87910.858
X
a
通過(guò)典型例題的
臨界值的定義:分析解決,提升學(xué)生
2
對(duì)于任何小概率值a,可以找到相應(yīng)的正實(shí)數(shù)x,使得P(f力)=a對(duì)獨(dú)立性檢驗(yàn)的理
aa
2
成立,我們稱x為a的臨界值,這個(gè)臨界值可作為判斷%大小的標(biāo)解和運(yùn)用。發(fā)展學(xué)生
a
邏輯推理,直觀想
準(zhǔn),概率值a越小,臨界值x越大.
O.
象、數(shù)學(xué)抽象和數(shù)學(xué)
基于小概率值a的檢驗(yàn)規(guī)則:
運(yùn)算的核心素養(yǎng)。
2
當(dāng)%女時(shí),我們就推斷H不成立,即認(rèn)為X和Y不獨(dú)立,該推斷
a0
犯錯(cuò)誤的概率不超過(guò)a;
2
當(dāng)%a時(shí),我們沒(méi)有充分證據(jù)推斷H不成立,可以認(rèn)為X和丫獨(dú)
a0
立.
2
用%取值的大小作為判斷零假設(shè)H是否成立的依據(jù),當(dāng)它比較大時(shí)
0
2
推斷H不成立,否則認(rèn)為H成立。這種利用%的取值推斷分類(lèi)變
00
2
量X和Y是否獨(dú)立的方法稱為X獨(dú)立性檢驗(yàn),讀作“卡方獨(dú)立性檢
驗(yàn)”,簡(jiǎn)稱獨(dú)立性檢驗(yàn).
2
X獨(dú)立性檢驗(yàn)中幾個(gè)常用的小概率值和相應(yīng)的臨界值
例2:依據(jù)小概率值a=0.1的尤2獨(dú)立性檢驗(yàn),分析例1中的抽樣數(shù)據(jù),
能否據(jù)此推斷兩校學(xué)生的數(shù)學(xué)成績(jī)優(yōu)秀率有差異?
解:零假設(shè)為H:分類(lèi)變量X與Y相互獨(dú)立,即兩校學(xué)生的數(shù)學(xué)成
0
績(jī)優(yōu)秀率無(wú)差異.因?yàn)?/p>
學(xué)校數(shù)學(xué)成績(jī)合計(jì)
不優(yōu)秀(Y=0)優(yōu)秀(Y=l)
甲校(X=0)331043
乙校(X=D38745
合計(jì)711788
所以犬=端蔗誓。。837<2.7。6=%
根據(jù)小概率值a=O.I的f獨(dú)立性檢驗(yàn),沒(méi)有充分證據(jù)推斷H。不成立,
因此可以認(rèn)為H成立,即認(rèn)為兩校的數(shù)學(xué)成績(jī)優(yōu)秀率沒(méi)有差異。
0
問(wèn)題5.例1和例2都是基于同一組數(shù)據(jù)的分析,但卻得出了不同的結(jié)
論,你能說(shuō)明其中的原因嗎?
例1只是根據(jù)一個(gè)樣本的兩個(gè)頻率間存在差異得出兩校學(xué)生數(shù)
學(xué)成績(jī)優(yōu)秀率有差異的結(jié)論,并沒(méi)有考慮由樣本隨機(jī)性可能導(dǎo)致的錯(cuò)
誤,所以那里的推斷依據(jù)不太充分,在本例中,我們用%2獨(dú)立性檢驗(yàn)對(duì)
零假設(shè)H。進(jìn)行了檢驗(yàn),通過(guò)計(jì)算,發(fā)現(xiàn)%2巾.837小于a=0.1所對(duì)應(yīng)的臨
界值2.706,因此認(rèn)為沒(méi)有充分證據(jù)推斷H。不成立,所以接受H。,推斷
出兩校學(xué)生的數(shù)學(xué)優(yōu)秀率沒(méi)有顯著差異的結(jié)論,
這個(gè)檢驗(yàn)結(jié)果意味著,抽樣數(shù)據(jù)中兩個(gè)頻率的差異很有可能是由
樣本隨機(jī)性導(dǎo)致的,因此,只根據(jù)頻率的差異得出兩校學(xué)生的數(shù)學(xué)成績(jī)
優(yōu)秀率有差異的結(jié)論是不可靠的.
由此可見(jiàn),相對(duì)于簡(jiǎn)單比較兩個(gè)頻率的推斷,用%2獨(dú)立性檢驗(yàn)得
到的結(jié)果更理性、更全面,理論依據(jù)也更充分。
當(dāng)我們接受零假設(shè)H0時(shí),也可能犯錯(cuò)誤。我們不知道犯這類(lèi)錯(cuò)誤
的概率p的大小,但是知道,若a越大,則p越小
例3.某兒童醫(yī)院用甲、乙兩種療法治療小兒消化不良.采用有放回簡(jiǎn)
單隨機(jī)抽樣的方法對(duì)治療情況進(jìn)行檢查,得到了如下數(shù)據(jù):抽到接受
甲種療法的患兒67名,其中未治愈15名,治愈52名;抽到接受乙
種療法的患兒69名,其中未治愈6名,治愈63名.試根據(jù)小概率值
a=0.005的獨(dú)立性檢驗(yàn),分析乙種療法的效果是否比甲種療法好.
解:零假設(shè)為H:療法與療效獨(dú)立,即兩種療法效果沒(méi)有差異.
0
將所給數(shù)據(jù)進(jìn)行整理,得到兩種療法治療數(shù)據(jù)的列聯(lián)表,
療效
療法合計(jì)
未治愈治愈
甲155267
乙66369
合計(jì)21115136
根據(jù)列聯(lián)表中的數(shù)據(jù),經(jīng)計(jì)算得到/=136:T;63-52:6/?
67X69X2IX115
4.881<7,879=%QQQG
根據(jù)小概率值a=0.005的產(chǎn)獨(dú)立性檢驗(yàn),沒(méi)有充分證據(jù)推斷H。
不成立,因此可以認(rèn)為H成立,即認(rèn)為兩種療法效果沒(méi)有差異.
0
療效
療法合計(jì)
未治愈治愈
甲155267
乙66369
合計(jì)21115136
2
136x615x63-52x6;
y29=-----------------------------------------x4.881
"67x69x21x115
療效
療法合計(jì)
未治愈治愈
乙66369
甲155267
合計(jì)21115136
136x652x6-15x63;
Y92=-----------------------------------------?4.881
"69x67x21x115
療效
療法合計(jì)
治愈未治愈
甲521567
乙63669
合計(jì)11521136
,136x<52x6-15x63;
r2=-----------------------------------------?4.881
z67x69x21x115
不影響
問(wèn)題6.若對(duì)調(diào)兩種療法的位置或?qū)φ{(diào)兩種療效的位置,這樣做會(huì)影響
/取值的計(jì)算結(jié)果嗎?
例4.為了調(diào)查吸煙是否對(duì)肺癌有影響,某腫瘤研究所采取有放回簡(jiǎn)單
隨機(jī)抽樣,調(diào)查了9965人,得到如下結(jié)果(單位:人)依據(jù)小概率
值a=O.O()l的獨(dú)立性檢驗(yàn),分析吸煙是否會(huì)增加患肺癌的風(fēng)險(xiǎn)。
肺癌
吸煙合計(jì)
非肺癌患者肺癌患者
非吸煙
7775427817
者
吸煙者2099492148
合計(jì)9874919965
解:零假設(shè)為H。:吸煙和患肺癌之間沒(méi)有關(guān)系根據(jù)列聯(lián)表中的數(shù)據(jù),
經(jīng)計(jì)算的根據(jù)小概率值a=0.001的獨(dú)立性檢驗(yàn),推斷H。不成立,即
認(rèn)為吸煙與患肺癌有關(guān)聯(lián),此推斷犯錯(cuò)誤的概率不大于0.001,即我
們有99.9%的把握認(rèn)為“吸煙與患肺癌有關(guān)系”.
,9965x67775x49-42x2099;
y2=------------------------------------------------------*56.632>10,858
'7817x2148x9874x91
根據(jù)表中的數(shù)據(jù)計(jì)算不吸煙者中不患肺癌和患肺癌的頻率分別為
吸煙者中不患肺癌和患肺癌的評(píng)率分別為
77764?
--x0.9946,x0.0054,
78177817
209949
—^^0.9772,0.0228
21482148
,0.0228,3
由-------?4.2
0.0054
可見(jiàn),在被調(diào)查者中,吸煙者患肺癌的頻率是不吸煙者患肺癌頻率
的4倍以上。于是,根據(jù)頻率穩(wěn)定于概率的原理,我們可以認(rèn)為吸煙
者患肺癌的概率明顯大于不吸煙者患肺癌概率,即吸煙更容易引發(fā)肺
癌。
應(yīng)用獨(dú)立性檢驗(yàn)解決實(shí)際問(wèn)題大致應(yīng)包括以下幾個(gè)主要環(huán)節(jié):
(1)提出零假設(shè)H:X和Y相互獨(dú)立,并給出在問(wèn)題中的解釋.
o
(2)根據(jù)抽樣數(shù)據(jù)整理出2x2列聯(lián)表,計(jì)算/2的值,并與臨界值X。
比較.
(3)根據(jù)檢驗(yàn)規(guī)則得出推斷結(jié)論.
(4)在X和Y不獨(dú)立的情況下,根據(jù)需要,通過(guò)比較相應(yīng)的頻率,
分析X和y間的影響規(guī)律.
注意:上述幾個(gè)環(huán)節(jié)的內(nèi)容可以根據(jù)不同情況進(jìn)行調(diào)整,
例如,在有些時(shí)候,分類(lèi)變量的抽樣數(shù)據(jù)列聯(lián)表是問(wèn)題中給定的.
0.500.400.250.150.100.050.0250.0100.0050.001
P(Z汽)
0.4550.7081.3232.0722.7063.8415.0246.6357.87910.82
X
08
歸納總結(jié)
跟蹤訓(xùn)練1.某校對(duì)學(xué)生的課外活動(dòng)進(jìn)行調(diào)查,結(jié)果整理成下表:
體育文娛總計(jì)
男生212344
女生62935
3卜275279
試用你所學(xué)過(guò)的知識(shí)分析:能否在犯錯(cuò)誤的概率不超過(guò)0.005的前提
下,認(rèn)為“喜歡體育還是文娛與性別有關(guān)系”?
解:':a=2\,b=23,c=6,d=29,n=79,
()2
.najc2_79x21x29-23x6
'x一(a+b)(c+d)(a+c)”+d),—44x35x27x52~6-1U0
且^2>7.879)~0.005,
0.500.400.250.150.100.050.0250.0100.0050.001
P(左X。)
0.4550.7081.3232.0722.7063.8415.0246.6357.87910.82
X
08
即我們得到的*2的觀測(cè)值x=8.106超過(guò)7.879這就意味著:"喜歡體育
還是文娛與性別沒(méi)有關(guān)系”這一結(jié)論成立的可能性小于0.005,即在犯
錯(cuò)誤的概率不超過(guò)0.005的前提下認(rèn)為“喜歡體育還是喜歡文娛與性
別有關(guān).”
三、達(dá)標(biāo)檢測(cè)
1.給出下列實(shí)際問(wèn)題:通過(guò)練習(xí)鞏固
①一種藥物對(duì)某種病的治愈率;②兩種藥物治療同一種病是否有區(qū)本節(jié)所學(xué)知識(shí),通過(guò)
別;學(xué)生解決問(wèn)題,發(fā)展
③吸煙者得肺病的概率;④吸煙是否與性別有關(guān)系;學(xué)生的數(shù)學(xué)運(yùn)算、邏
⑤網(wǎng)吧與青少年的犯罪是否有關(guān)系.其中用獨(dú)立性檢驗(yàn)可以解決的問(wèn)輯推理、直觀想象、
題有()數(shù)學(xué)建模的核心素
A.①②③B.②④⑤C.②③④⑤D.①②③④⑤養(yǎng)。
解析:獨(dú)立性檢驗(yàn)是判斷兩個(gè)分類(lèi)變量是否有關(guān)系的方法,而①③都是
概率問(wèn)題,不能用獨(dú)立性檢驗(yàn)解決.
答案:B
2.某班主任對(duì)全班50名學(xué)生進(jìn)行了作業(yè)量多少的調(diào)查,數(shù)據(jù)如下表:
下列敘述中,正確的是()
認(rèn)為作業(yè)多認(rèn)為作業(yè)不多總數(shù)
喜歡玩電腦游戲18927
不喜歡玩電腦游戲81523
總數(shù)262450
A.有99%的把握認(rèn)為“喜歡玩電腦游戲與認(rèn)為作業(yè)量的多少有關(guān)系”
B.有95%的把握認(rèn)為“喜歡玩電腦游戲與認(rèn)為作業(yè)量的多少無(wú)關(guān)系”
C.有99%的把握認(rèn)為“喜歡玩電腦游戲與認(rèn)為作業(yè)量的多少無(wú)關(guān)系”
D.有95%的把握認(rèn)為“喜歡玩電腦游戲與認(rèn)為作業(yè)量的多少有關(guān)系”
50X(18X15-8X9)2
計(jì)算得Z2-5.059>3.841.
27X23X26X24
答案:D
3.某高校《統(tǒng)計(jì)》課程的教師隨機(jī)調(diào)查了選該課的一些學(xué)生情況,具體
數(shù)據(jù)如下表:
為了判斷主修統(tǒng)計(jì)專業(yè)是否與性別有關(guān)系,根據(jù)表中的數(shù)據(jù),得到
專業(yè)
非統(tǒng)計(jì)專業(yè)統(tǒng)計(jì)專業(yè)
性別
男1310
女720
因?yàn)?.844>3.841,所以有的把握判定主修統(tǒng)計(jì)專業(yè)與性
別有關(guān)系.
y=50X(13X20-10X7j4844
人~23x27x20x30~'
答案:95%
4.在500人身上試驗(yàn)?zāi)撤N血清預(yù)防感冒作用,把他們一年中的感冒記
錄與另外500名未用血清的人的感冒記錄作比較,結(jié)果如表所示。問(wèn):
該種血清能否起到預(yù)防感冒的作用?
未感冒感冒合計(jì)
使用血清258242500
未使用血清216284500
合計(jì)4745261000
解:設(shè)H。:感冒與是
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 唐山市2024-2025學(xué)年高一上學(xué)期期末考試英語(yǔ)試卷(含答案)
- 中國(guó)詩(shī)詞大會(huì):30道關(guān)于詩(shī)詞中兒童形象的選擇題(附答案和解釋)
- 2025年區(qū)塊鏈技術(shù)考試題及答案
- 2025年大咯血考試試題及答案
- 2025年暴雨心理測(cè)試試題及答案
- 保健按摩師中級(jí)復(fù)習(xí)測(cè)試附答案
- 工業(yè)機(jī)器人應(yīng)用編程1+X中級(jí)練習(xí)試題
- 工業(yè)機(jī)器人復(fù)習(xí)試題含答案
- 2025年二波疫情測(cè)試題及答案
- 2025年傳熱學(xué)試題庫(kù)及答案
- 抵押個(gè)人汽車(chē)借款合同范本
- 2025年中考第一次模擬考試地理(青海卷)(全解全析)
- 2025年內(nèi)蒙古電子信息職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)及參考答案
- 2025年內(nèi)蒙古北方職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫(kù)完美版
- 2025年湖南鐵路科技職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)含答案
- 2025年上海青浦新城發(fā)展集團(tuán)有限公司招聘筆試參考題庫(kù)含答案解析
- 四年級(jí)組數(shù)學(xué)教學(xué)質(zhì)量提升計(jì)劃
- 園林綠化企業(yè)的職能與工作流程
- Unit 2 Expressing yourself Part A Lets learn Listen and chant(說(shuō)課稿)-2024-2025學(xué)年人教PEP版(2024)英語(yǔ)三年級(jí)下冊(cè)
- 水利水電工程(水電站、泵站)運(yùn)行危險(xiǎn)源辨識(shí)與風(fēng)險(xiǎn)評(píng)價(jià)導(dǎo)則
- 2025年中煤集團(tuán)新疆能源有限公司招聘筆試參考題庫(kù)含答案解析
評(píng)論
0/150
提交評(píng)論