假設(shè)檢定兩個變量相關(guān)_第1頁
假設(shè)檢定兩個變量相關(guān)_第2頁
假設(shè)檢定兩個變量相關(guān)_第3頁
假設(shè)檢定兩個變量相關(guān)_第4頁
假設(shè)檢定兩個變量相關(guān)_第5頁
已閱讀5頁,還剩67頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第十章假設(shè)的檢定 兩個變量的相關(guān) 第一節(jié)兩個定類變項(xiàng)定類或定序ppt上考至少考一個例題定距 倘若要研究X與Y這兩個變項(xiàng)是否相關(guān),則在抽取了一個隨機(jī)樣本以后便首先運(yùn)用前面所介紹的方法,簡化樣本中的資料,從而計算X與Y的相關(guān)程度和方向。但是,即使在樣本中X與Y是相關(guān)的,卻可能是由抽樣誤差所引起,不一定是在總體中也相關(guān)。由于我們所關(guān)心的是總體的情況不是樣本的情況,因此,需要作統(tǒng)計推論,本章的目的是介紹怎樣運(yùn)用樣本的資料來檢定假設(shè),在總體中X與Y是相關(guān)的。 在介紹計算相關(guān)系數(shù)時,我們強(qiáng)調(diào)要特別注意變項(xiàng)的測量層次,同樣,在選用相關(guān)的檢定法時,也要特別注意該檢定法所要求的測量層次。一、交互分類表中變量的相

2、互獨(dú)立性 研究定類變量之間的關(guān)系,實(shí)際上就是通過條件分布的比較進(jìn)行的,下面我們首先通過條件分布表來看一看兩變項(xiàng)的相互獨(dú)立性。老 年中 年青 年邊緣和戲曲20/27=0.7410/40=0.252/57=0.0432/124=0.26歌舞5/27=0.1820/40=0.5035/57=0.6160/124=0.48球賽2/27=0.0810/40=0.2520/57=0.3532/124=0.26問題是,如何進(jìn)行比較呢? 根據(jù)上表中的每一行,可以比較三代人的喜愛是否有所不同,首先對戲曲來說,三代人的百分比分別是:; 歌舞為:; 球賽為:。 可見,隨著代際的年輕化,對戲曲喜愛逐漸下降,而歌舞和球

3、賽越來越受到歡迎,從而得出節(jié)目的喜愛與代際相關(guān)的結(jié)論,也就是變量Y(節(jié)目的喜愛)與變量X(代際)是有關(guān)的。相關(guān)系數(shù)計算結(jié)果是否如此? 現(xiàn)在設(shè)想,如果統(tǒng)計的結(jié)果顯示,三代人的百分比是不變的,即: 戲曲:、 歌舞:、 球賽:、 那么,又該作出什么結(jié)論呢? 顯然,如果選擇“喜愛節(jié)目”的比例對于三代人都是一樣的話,那就表示變量“節(jié)目”與變量“代際”之間沒有關(guān)系的,這種情況稱變量之間是相互獨(dú)立的。如果變量間是相互獨(dú)立的話,通過上例可以看出,必須存在變量的條件分布和它的邊緣分布相同。即: X YX1X2X3 XCY1N11N21N31 NC1N*1Y2N12N22N32 NC2 N*2YrN1rN2rN3

4、rNCrN*rN1*N2*N3*NC*N用一個通式來表示 ,即:(i=1,2 r,j=1,2 c) 上式分子分母均乘以N: 可見,如果交互類表中的變量是相互獨(dú)立的,邊緣分布和條件分布存在以下關(guān)系。 二、交互分類表的原假設(shè) 交互分類表檢驗(yàn)是將總體中變量間無關(guān)系,或相互獨(dú)立作為檢驗(yàn)的原假設(shè)。即: H0:變量x與變量y無關(guān)(總體) H1:變量x與變量y有關(guān)(總體) H0:pij =pi*.p*j (i=1,2c;j=1,2r) 由于pi和pj是總體的邊緣分布,一般都是未知的,因此,可以用樣本中的邊緣頻率分布作為它的點(diǎn)估計值: 列邊緣: i=1,2c 行邊緣: j=1,2c 這里小寫字母ni,nj,n

5、表示樣本頻次。三、交互分類表檢驗(yàn)的統(tǒng)計量X2 運(yùn)用統(tǒng)計量2來進(jìn)行檢驗(yàn)。2檢驗(yàn)要求:1)樣本是用隨機(jī)方法抽取的;2)兩個變量都是有定類的性質(zhì)。 交互分類檢驗(yàn)的程序和單變量檢驗(yàn)是相同的:確定原假設(shè);選擇適當(dāng)?shù)慕y(tǒng)計量,定出顯著性水平后根據(jù)樣本值進(jìn)行判斷。 交互分類表統(tǒng)計量的確定是通過在原假設(shè)成立的條件下,用總體和樣本一系列值的比較來進(jìn)行的,具體步驟是:求出列聯(lián)表中各格的期望頻次1)原假設(shè):H0:pij=pi*.p*j用樣本的邊緣和求出pi*和p*j(式中的第二個符號是根據(jù)原假設(shè)H0得來的。第三個近似是根據(jù)邊緣頻率分布的點(diǎn)估計值得來的。)Eij=npij=np*i.p*j 于是,在原假設(shè)H0成立條件下

6、的期望頻次交互分類表有下表1: X YX1X2XCY1Y2YrE11E21EC1E12E22EC2E1rE2rECr 不仿設(shè)想,在H0成立的條件下,作無數(shù)次抽樣,每次抽樣可得到一個實(shí)例的頻次交互分類表,如下表2: X Y X1X2XCY1N11N21Nc1Y2N12N22Nc2YrN1rN2rNcr 比較表1和表2,可以想象如果總體中H0為真的話,那么實(shí)例頻次列聯(lián)表的格值和期望頻次列聯(lián)表中的格值相差不多的可能性較大。反之,如果兩表的格值差距很大。 上述的討論可用以下的統(tǒng)計量來表示: 分子取平方是為了取其絕對差值,而分母Eij是為了平衡Eij數(shù)值本身的大小,否則,如果Eij本身數(shù)值很小的話,則即

7、使(nij-Eij)2與Eij 相比已經(jīng)很大,但在總平方和中仍然是微不足道。 上述統(tǒng)計量,經(jīng)過數(shù)學(xué)計算可知,當(dāng)n很大,每格Eij都不太小,服從自由度K=(r-1)(c-1)的2分布。注意,下面就交互分類表的統(tǒng)計量進(jìn)行討論: 1.對于22表,由于格數(shù)過少,為減少偏差,要作連續(xù)性修正,尤其在有某一個或多個格的預(yù)期次數(shù)等于或小于5時必須修正: 2.以上2檢驗(yàn)的討論,也適用于單變量二項(xiàng)總體或多項(xiàng)總體的假設(shè)檢驗(yàn)。 (1)二項(xiàng)總體。 在單總體假設(shè)檢驗(yàn)中,曾談到對于大樣本總體成數(shù)的假設(shè)檢驗(yàn),可用: Z= 作為總體成數(shù)的原假設(shè) H0:P=P0的統(tǒng)計量。 但是通過列聯(lián)表的討論,可引出另一件與2等價的檢驗(yàn)方式:改

8、H0:P=P0(P0為總體成數(shù))。 于是對于樣本容量為n的抽樣,其理論上期望頻次為:E1=np0 而理論上非期望出現(xiàn)的頻次為:E2=n(1-p0)。 與此同時,相對應(yīng)的實(shí)際觀測值為n1和n2(n1+n2=n)。 引用2檢驗(yàn)有: 可以證明,當(dāng)n較大時,2分布近似地為自由度K=1的2分布,根據(jù)連續(xù)修正,上述2為:(2)多項(xiàng)總體 多項(xiàng)分布是單項(xiàng)二項(xiàng)分布的自然擴(kuò)展,如果變量A共有R類:A1、A2、Ar。 設(shè)總體種各類的概率為:P1、P2、Pr。于是總體的原假設(shè)H0為:H0:Pi=Pi0 (i=1,2r) 對于樣本容量為n的抽樣,其理論是期望頻次分布為:Ei=npi0。 與此同時,相對應(yīng)的各類實(shí)際觀測值

9、為:n1、n2nr。 則2值為: 可以證明, 2近似地滿足自由度K=r-1的2分布。 3. 使用統(tǒng)計量2對RC表進(jìn)行檢驗(yàn),每一格值的Eij要保持在一定數(shù)目上。 如果其中有的格值Eij過小,在計算值時,2值的波動就會過大。 Eij應(yīng)該取多大,根據(jù)要求的精確程度不同,不同研究者給出的限制不同。 對于二項(xiàng)總體,要求np5,n(1-p)5。也就是如果只有兩個格值的話,必須要求所有Eij5。 有的研究者認(rèn)為Eij5的要求適合所有rc的交互分類表。但也有人認(rèn)為對于rc 交互分類表,Eij3就可以了。另外,還有人指出Eij小于5的格數(shù)不應(yīng)超過總格數(shù)20%,當(dāng)小于5的格值過多會引起判斷的失誤。舉例:設(shè)實(shí)例值和

10、期望值共有7個格值 。Eij 321138724241nij 301108623554 從直現(xiàn)來判斷,實(shí)例值和期望值相差不大,可以接受原有假設(shè)。但如何用2值進(jìn)行顯著性檢驗(yàn)?zāi)兀浚ǎ?檢驗(yàn)表明:有顯著性差異。 為什么會出現(xiàn)感覺和X2檢驗(yàn)不符的情況呢?主要因?yàn)樵?個格值中就有3個期望值小于5,占總數(shù)的43%。因此2計算值偏大當(dāng)出現(xiàn)上述情況時,可將期望值偏小的格值合并。Eij 32 113 8724 7 nij 30 110 86 23 14 2 = 臨界值: 接受H0,作出直觀感覺和2檢驗(yàn)相符的結(jié)論。 例:某鎮(zhèn)研究職業(yè)代際流動,調(diào)查了共140人,其結(jié)果如下: 解:H0:子輩職業(yè)與父輩職業(yè)無關(guān) H1

11、:子輩職業(yè)與父輩職業(yè)有關(guān) 得期望頻次表4.2檢驗(yàn)就其檢驗(yàn)的內(nèi)容來看是雙邊檢驗(yàn),就檢驗(yàn)的形式來看,又象右邊檢驗(yàn)。 從上面所舉例中的H0和H1就可以看出,它所判斷的內(nèi)容僅是變量間是否存在關(guān)系。至于關(guān)系的方向,由于列聯(lián)表屬定類變量,因此是不存在的。但從列聯(lián)表2的統(tǒng)計量的公式來看,只有期望頻次和實(shí)測頻次的絕對值愈大,才能否定變量間關(guān)系的原假設(shè)即:22。 因此,列聯(lián)表檢驗(yàn)從形式來看,卻又很像右側(cè)單邊檢驗(yàn):X2(r-l)(c-1) 5. 交互分類的檢驗(yàn)是通過頻次而不是通過相對頻次的比較進(jìn)行的。表1的2值:表2的2值表3的2值如果選擇,查表得: X2 則表1判斷為無顯著性差異,表2和表3則判斷為有顯著性差異

12、,可見,相對頻次相同的交互分類表,在統(tǒng)計檢驗(yàn)中,其顯著性并不相同,特別是當(dāng)總體中兩變量相關(guān)并不很大時,如果樣本容量較小,很可能呈現(xiàn)無顯著性差異,但當(dāng)樣本容量增大時,2將增大,這時雖然列聯(lián)表的相對頻次沒有改變,但很可能呈現(xiàn)有顯著性差異,這時因?yàn)?的臨界值并不變化。 通過上面的例子,可以看出,當(dāng)樣本容量增加K倍時,由此可見如果相對頻次不變,當(dāng)樣本容量增加K倍時, 2值將增加K倍。 實(shí)際上,這也是容易理解的,因?yàn)楫?dāng)樣本容量增加之后,如果仍然保持原有的比例的關(guān)系,則說明它出于隨機(jī)誤差的可能性減少,也就是確認(rèn)其比例關(guān)系的把握增大。這也是為什么相對頻次的統(tǒng)計表必須注明調(diào)查總數(shù)的緣故。 例:某工廠為了解職工

13、對廠內(nèi)福利是否滿意,作如下抽樣調(diào)查:依H0及樣本邊緣次數(shù)分布,計算期望頻數(shù)臨界值:由于a=0.05 ,k=(2-1)(2-1)=1X2 X2=9.27X2 拒絕H0,接受H1,即男女職工對廠內(nèi)福利的滿意與否是有顯著差異的,顯著性水平達(dá)到。作業(yè):1根據(jù)某攤販的上報,每天平均營業(yè)額為55元。經(jīng)過6天的抽查,其營業(yè)額為(設(shè)營業(yè)額滿足正態(tài)分布): ,57.3 單位為元 問:原攤販上報的數(shù)字是否可信顯著性水平為0.05?作業(yè) 2某學(xué)校對新生數(shù)學(xué)成績進(jìn)行摸底檢查,自100名經(jīng)濟(jì)專業(yè)的學(xué)生中抽出12份考卷,得平均分?jǐn)?shù)為70分,標(biāo)準(zhǔn)差3分;自50名管理專業(yè)的學(xué)生中抽取10份考卷,得平均分?jǐn)?shù)為60分,標(biāo)準(zhǔn)差4分

14、,若已知總體服從正態(tài)分布且方差相等,問兩專業(yè)學(xué)生之?dāng)?shù)學(xué)成績是否有顯著差別顯著性水平為0.01。3、為研究兩種教學(xué)方法的效果,選擇了6對智商、年齡、閱讀能力、家庭條件都相同的兒童進(jìn)行了實(shí)驗(yàn),結(jié)果如下表。問:能否認(rèn)為新教學(xué)法優(yōu)于原教學(xué)法(顯著度水平)配對號新教學(xué)法原教學(xué)法18378 2696538788 4939157872 65959 作業(yè)4、為了研究飲食習(xí)慣與地區(qū)之關(guān)系。作了共100人的隨機(jī)抽樣調(diào)查資料如下表,問飲食習(xí)慣是否與地區(qū)有關(guān)(=0.05)?關(guān)系程度如何? 地區(qū)飲食習(xí)慣 南方 北方 邊緣和 面食 米食10 3040 20 40 60邊緣和 50 50 100第二節(jié)等級相關(guān)兩個定序變量一

15、、rs的統(tǒng)計檢驗(yàn)斯皮爾曼等級相關(guān)系數(shù): 其中,di2=(xi-yi)2 當(dāng)rs是根據(jù)抽樣數(shù)據(jù)計算得來時,必須進(jìn)行假設(shè)檢驗(yàn),以確定總體中也存在等級相關(guān)。rs的統(tǒng)計檢驗(yàn)步驟 Ho:總體中變量x與變量y等級無關(guān),Ps=0 H1:總體中變量x與變量y相關(guān),Ps0 根據(jù)Ho變量的條件下,不妨設(shè)想從總體中抽取無數(shù)個樣本容量為n的樣本。根據(jù)每一個樣本,都可以計算出一個樣本的等級相關(guān)系數(shù)rs。由于抽樣誤差的存在,各次樣本的rs是不等的,rs是隨機(jī)變量??梢宰C明:當(dāng)n10時,統(tǒng)計量: 自由度kf=n-2 正如一般t分布所具有的性質(zhì),n30,rs也可使用統(tǒng)計量Z進(jìn)行檢驗(yàn),在要求不十分嚴(yán)格的情況下,n10亦可使用Z

16、值。說明: 等級相關(guān)適用于定序變量,研究的是變量間的等級是否存在相互關(guān)系。但對于定距變量,在計算相關(guān)系數(shù)時,如果某些基本條件不能滿足(如要求變量分布滿足正態(tài)分布),這時可以降低變量層次,作為定序變量處理,因?yàn)榈燃壪嚓P(guān)系數(shù)對總體變量分布不作要求的。 斯皮爾曼等級相關(guān)是以變量沒有相同等級為前提的,但如果相同等級不太多,可采用平均等級的方法計算斯皮爾曼等級相關(guān)。 例:為了研究生育率與平均受教育程度之間的關(guān)系,設(shè)隨機(jī)抽查了10個縣,以下是按等級設(shè)計的結(jié)果,問生育率與受教育程度之間是否相關(guān)?()縣號生育率等級受教育等級等級差didi21633924139397.51.52.25487.50.50.255

17、15-41662.520.50.2572.56-3.512.258710-39910911105411解:di2=60。rs不具有PRE性質(zhì),屬對稱測量。 H0:Ps=0 (總體中生育率與平均受教育無關(guān)) H1:Ps0 臨界值t(10-2) 因?yàn)?t=2.334t 因此,拒絕H0,接受H1,即可認(rèn)為生育率與平均受教育是有關(guān)的,相關(guān)系數(shù)為。二、Gamma系數(shù)的檢驗(yàn) H0:總體中G=0 H1:總體中G0(或G0或G0或GZ。 所以拒絕H0,接受H1,即文化程度與代際流動相關(guān),用文化程度解釋代際流動可消減78%的誤差,。注意: G的Z檢定公式較為保守,通常略為低估了檢定值(Z)。當(dāng)所算得的檢定值非常

18、接近所要求的否定域數(shù)值,就要用較為精確的S因子檢驗(yàn)公式。 較為精確的做法是不用理會G值,而直接檢定(Ns-Nd)這個稱為S因子的數(shù)值。因?yàn)镚分?jǐn)?shù)的公式是以S=Ns-Nd作為分子,因此S=0,即G=0。 研究假設(shè)H1為S0(或S0或S0 由于n=44,r=2,c=4,則 Z,Z=4.31Z=3.09所以拒絕H0,接受H1。又因?yàn)椋?A2=814+812+810+1412+1410+1210=716 B2=2024=480 A3=81412+81410+81210+141210=5104 B3=0 ?因這只有兩個邊緣次數(shù)。同上題,如果用Z檢驗(yàn):注意 許多定序相關(guān)測量法如dy系數(shù)和肯德爾的tau系數(shù)

19、,其公式都是以“S=Ns-Nd”作為分子的,因此它們都可以通過S的檢定來推論總體的情況。 由于都是以S作分子,故此在總體中如果S=0,則G=dy=tau=0,可見這三種相關(guān)系數(shù)的檢定是有共同性的。 第三節(jié)兩個定距變量的檢驗(yàn)不考一、回歸方程的檢驗(yàn) 用最小二乘法求直線回歸的方法,是基于線性回歸模型的基本假定進(jìn)行的。因此在配置回歸直線之前,必須對總體變量間是否存在線性相關(guān)關(guān)系進(jìn)行檢驗(yàn)。對于不存在線性關(guān)系的總體,配置回歸直線是毫無意義的。 1、檢驗(yàn)的原假設(shè) 總體變量x和總體變量y存在線性關(guān)系,即存在關(guān)系式:E(yi)=+xi 因此,總體的線性回歸指的是當(dāng)x=xi時,y的均值E(yi)是線性函數(shù):E(y

20、i)= +xi關(guān)于 X與Y關(guān)系式的基本假定: 自變量x可以是隨機(jī)變量,也可是非隨機(jī)變量。x值的測量可以認(rèn)為是沒有誤差的,或者說誤差是可以忽略不計的。 由于x和y之間存在的是非確定性的相關(guān)關(guān)系。因此,對于x的每一個值xi,yi是隨機(jī)變量,或稱作是y的子總體。要求y的所有子總體y1、y2yiyn,其方差都相等。 D(y1)=D(y2)=D(yn) 如果y的所有子總體,其均值E(y1);E(y2)E(yn)都在一條直線上,則稱作線性假定,其數(shù)學(xué)表達(dá)式為:E(yi)=+xi。由于、對所有總體都一樣,所以和是總體參數(shù)。 要求隨機(jī)變量 yi是統(tǒng)計獨(dú)立的,即y1的數(shù)值不影響y2的數(shù)值,各y值之間都沒有關(guān)系。

21、 出于檢驗(yàn)的需要,除了上述假定或要求外,還要求y值的每一個子總體都滿足正態(tài)分布。上述總體假定的數(shù)據(jù)結(jié)構(gòu)為 (1)隨機(jī)變量yi是統(tǒng)計獨(dú)立的,具有:均值E(yi)=+xi;方差D(yi)=2;(2)yi與xi有如下關(guān)系式:y1=+x1+e1;y2=+x2+e2;.yn=+xn+en。其中e1、e2en是隨機(jī)變量,它們相互獨(dú)立,具有:E(ei)=0,D(ei)=2。 根據(jù)前面的基本假設(shè),對于總體線性檢驗(yàn)的假設(shè)可寫成如下形式 : 當(dāng)總體具有上述假定時,即根據(jù)樣本運(yùn)用最小二乘法所求解的方程:g=a+bx將是總體線性回歸方程:E(y)= +x的最佳線性無偏估計方程,a和b是和的最佳無偏估計量。 另外,e1

22、、e2en是隨機(jī)變量,它們相互獨(dú)立,具都服從相同的正態(tài)分布N(0,2) 2未知。H0: =0H1:0依據(jù)假設(shè),可以根據(jù)平方和分解求出檢驗(yàn)的統(tǒng)計量。 2、線性回歸的平方和分解 總偏差平方和TSS TSS反映了觀測值yi圍繞均值 TSS同時還是PRE中的E1,當(dāng)不知y和x及關(guān)系時,對y的最佳估計只能是y,而每一個真實(shí)的yi值和估計值y之差,就構(gòu)成首次估計的誤差。 剩余平方和RSS 其中i由回歸直線,=a+bx所確定 RSS反映了yi偏離回歸直線i的程度,也就是PRE定義中的E2。RSS反映了知道y與x有關(guān)系后,估計y值時所產(chǎn)生的總誤差,即通過回歸直線進(jìn)行估計之后,仍然未能消除或未被解釋的誤差,又稱殘差平方和。它的存在,說明了除X對y的線性影響外,還有其它未被考慮的因素,這些因素往往是十分復(fù)雜的。 回歸平方和RSSR RSSR=TSS-RSS TSS=RSS+RSSR 3、統(tǒng)計量 設(shè)總體滿足原假設(shè):H

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論