擬合優(yōu)度檢驗(yàn).ppt_第1頁(yè)
擬合優(yōu)度檢驗(yàn).ppt_第2頁(yè)
擬合優(yōu)度檢驗(yàn).ppt_第3頁(yè)
擬合優(yōu)度檢驗(yàn).ppt_第4頁(yè)
擬合優(yōu)度檢驗(yàn).ppt_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余57頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第十三章檢驗(yàn)與方差分析 我們前面已經(jīng)比較系統(tǒng)地討論了雙樣本的參數(shù)和非參數(shù)檢驗(yàn)的問(wèn)題 現(xiàn)在 我們希望利用一般的方法來(lái)檢驗(yàn)三個(gè)以上樣本的差異 檢驗(yàn)法和方差分析法就是解決這方面問(wèn)題的 檢驗(yàn)法可以對(duì)擬合優(yōu)度和獨(dú)立性等進(jìn)行檢驗(yàn) 方差分析法則可以對(duì)多個(gè)總體均值是否相等進(jìn)行檢驗(yàn) 后者由于通過(guò)各組樣本資料之間的方差和組內(nèi)方差的比較來(lái)建立服從F分布的檢驗(yàn)統(tǒng)計(jì)量 所以又稱F檢驗(yàn) 第一節(jié) 擬合優(yōu)度檢驗(yàn)第二節(jié) 無(wú)關(guān)聯(lián)性檢驗(yàn)第三節(jié) 方差分析第四節(jié) 回歸方程與相關(guān)系數(shù)的檢驗(yàn) 第一節(jié)擬合優(yōu)度檢驗(yàn) 運(yùn)用Z檢驗(yàn) t檢驗(yàn)等討論假設(shè)檢驗(yàn)的問(wèn)題 一般要求總體服從正態(tài)分布 或者在大樣本條件下可以利用漸近正態(tài)分布理論來(lái)描述抽樣分布 也就是說(shuō) 我們都要直接或間接地假定對(duì)象總體具有已知的分布形式 然后對(duì)總體的未知參數(shù)進(jìn)行假設(shè)檢驗(yàn) 如果不知道總體的分布形式 就無(wú)法運(yùn)用t檢驗(yàn)法等對(duì)總體參數(shù)進(jìn)行假設(shè)檢驗(yàn) 于是 這里有一個(gè)前面留下來(lái)的尚未討論的問(wèn)題很重要 就是怎樣檢定總體是否具有正態(tài)或其他分布形式 擬合優(yōu)度檢驗(yàn)正是就這一問(wèn)題而言的檢驗(yàn)方法 第十一章最后一節(jié) 我們將累計(jì)頻數(shù)檢驗(yàn)用于經(jīng)驗(yàn)分布與理論分布的比較 實(shí)際已經(jīng)提供了擬合優(yōu)度檢驗(yàn)的一種方法 擬合優(yōu)度檢驗(yàn)與累計(jì)頻數(shù)擬合優(yōu)度檢驗(yàn)相對(duì)應(yīng) 在評(píng)估從經(jīng)驗(yàn)上得到的頻數(shù)和在一組特定的理論假設(shè)下期望得到的頻數(shù)之間是否存在顯著差異時(shí) 是一種更普遍的檢驗(yàn)方法 現(xiàn)在我們?cè)賮?lái)看看第七章提到的著名的孟德?tīng)柾愣乖囼?yàn) 根據(jù)孟德?tīng)柼岢龅姆蛛x規(guī)律 純種豌豆雜交后的子二代出現(xiàn)分化 紅花植株與白花植株的數(shù)目應(yīng)為3 1 但由于隨機(jī)性 觀察結(jié)果與3 1理論值總有些差距 因此有必要去考察某一大小的差距是否已構(gòu)成否定3 l理論的充分根據(jù) 這正是我們所討論的擬合優(yōu)度檢驗(yàn)的問(wèn)題 解決這類問(wèn)題的工具 是卡 皮爾遜在1900年發(fā)表的一篇文章中引進(jìn)的所謂檢驗(yàn)法 1 問(wèn)題的導(dǎo)出 首先把問(wèn)題表述成一般模式 設(shè)一總體包含c種可區(qū)別的個(gè)體 根據(jù)某種理論或純粹的假設(shè) 第i種個(gè)體出現(xiàn)的概率應(yīng)為某個(gè)已知的數(shù)Pi i 1 2 c 有Pi 0 1 這一組概率 P1 P2 Pc 就構(gòu)成了我們的理論分布 現(xiàn)在在該總體中隨機(jī)地抽取一個(gè)容量為n的樣本 發(fā)現(xiàn)其中第i種個(gè)體的數(shù)目為fi i 1 2 c 并有 n 我們要據(jù)此檢驗(yàn)理論分布 用概率論的語(yǔ)言可以這樣說(shuō) 設(shè)對(duì)象總體中隨機(jī)變量X有c種取值 當(dāng)X的取值是xi時(shí) 按零假設(shè) 其總體分布等于理論分布 即P Pi i 1 2 c 例如 就孟德?tīng)柕? 1理論來(lái)說(shuō) c 2 P x1 3 4 P x2 1 4 現(xiàn)在從該總體中隨機(jī)地抽取一個(gè)容量為n的樣本 發(fā)現(xiàn)其中xi i 1 2 c 出現(xiàn)的次數(shù)為fi i 1 2 c 并有 n 知道了頻數(shù)也就知道了頻率 即 出現(xiàn)的頻率為 并有 1 現(xiàn)在我們就是要據(jù)此經(jīng)驗(yàn)分布來(lái)檢驗(yàn)總體分布等于理論分布的零假設(shè) 2 擬合優(yōu)度檢驗(yàn) 比率擬合檢驗(yàn) 擬合優(yōu)度檢驗(yàn)如何進(jìn)行 關(guān)鍵是確定合適的檢驗(yàn)統(tǒng)計(jì)量以及該統(tǒng)計(jì)量所服從的概率分布 這里不可避免地要引進(jìn)某種人為因素 即人們?cè)O(shè)計(jì)出下面這樣的綜合性可比指標(biāo) 其中k1 k2 kc是適當(dāng)選取的常數(shù) 仔細(xì)觀察不難發(fā)現(xiàn) L值大 意味著經(jīng)驗(yàn)分布與理論分布偏離大 L值小 意味著經(jīng)驗(yàn)分布與理論分布偏離小 當(dāng)在某個(gè)選定的水平上 經(jīng)驗(yàn)分布顯著偏離理論分布 那么對(duì)象總體具有某種分布形式的零假設(shè)便被否定 結(jié)論 用作為檢定Ho成立的檢驗(yàn)統(tǒng)計(jì)量 理論證明 當(dāng)n足夠大時(shí) 該統(tǒng)計(jì)量服從分布 它是一種具有已知的并制成表的概率分布 因此對(duì)給定的顯著性水平 可求得臨界值 與比較 進(jìn)而作出檢驗(yàn)結(jié)論 顯而易見(jiàn) 理論頻數(shù)fe與觀測(cè)頻數(shù)fo越接近 統(tǒng)計(jì)值越小 經(jīng)驗(yàn)分布與理論分布擬合程度越好 反之 fe與fo差距越大 值越大 經(jīng)驗(yàn)分布與理論分布擬合程度越差 擬合優(yōu)度檢驗(yàn)由此得名 例 孟德?tīng)栠z傳定律表明 在純種紅花豌豆與白花豌豆雜交后所生的子二代豌豆中 紅花對(duì)白花之比為3 1 某次種植試驗(yàn)的結(jié)果為 紅花豌豆176株 白花豌豆48株 試在 0 05的顯著性水平上 對(duì)孟德?tīng)柖勺鲾M合優(yōu)度檢驗(yàn) 參見(jiàn)下表 應(yīng)用舉例 3 正態(tài)擬合檢驗(yàn) 例 試對(duì)下表所給男青年身高分布的數(shù)據(jù)作正態(tài)擬合檢驗(yàn) 選取 0 05 解 檢驗(yàn)的另一個(gè)重要應(yīng)用是對(duì)交互分類資料的獨(dú)立性檢驗(yàn) 即列聯(lián)表檢驗(yàn) 在上一章 我們?cè)啻翁岬竭^(guò)性別與收入高低有無(wú)關(guān)聯(lián)的問(wèn)題 在實(shí)際中類似的問(wèn)題很多 例如受教育程度與投票行為有無(wú)關(guān)聯(lián) 吸煙與壽命長(zhǎng)短有無(wú)關(guān)聯(lián) 家庭小孩多少與收入多少有無(wú)關(guān)聯(lián) 受教育時(shí)間長(zhǎng)短與收入多少有無(wú)關(guān)聯(lián) 血型與某種性格上的差異有無(wú)關(guān)聯(lián) 等等 把這類問(wèn)題上升到一般 就是在列聯(lián)表的基礎(chǔ)上考察變量X與Y有無(wú)關(guān)聯(lián) 由于列聯(lián)表一般是按品質(zhì)標(biāo)志把兩個(gè)變量的頻數(shù)進(jìn)行交互分類的 所以 檢驗(yàn)法用于對(duì)交互分類資料的獨(dú)立性檢驗(yàn) 有其它方法無(wú)法比擬的優(yōu)點(diǎn) 如何求得列聯(lián)表中的理論頻數(shù)就成了獨(dú)立性檢驗(yàn)的關(guān)鍵 第二節(jié)無(wú)關(guān)聯(lián)性檢驗(yàn) 1 獨(dú)立性 理論頻數(shù)及自由度 應(yīng)用此式 不必計(jì)算理論頻數(shù) 計(jì)算與這個(gè)檢驗(yàn)統(tǒng)計(jì)量相聯(lián)系的自由度 算出統(tǒng)計(jì)量之值并定出其自由度后 就可以依前述的方法 在給定了顯著性水平之后 來(lái)對(duì)X Y屬性無(wú)關(guān)聯(lián)的零假設(shè)進(jìn)行檢驗(yàn)了 應(yīng)用舉例 檢驗(yàn)也適用于定類變量和定類變量的相關(guān)統(tǒng)計(jì) 即可以用它檢定 和 系數(shù)是否顯著 就下表所示資料 試以檢驗(yàn)檢定性別與收入之間的相關(guān)程度是否顯著 取0 001 解 故拒絕H0 即認(rèn)為總體上性別與收入高低之間不獨(dú)立 有顯著相關(guān)關(guān)系 例 在某種流行病流行的時(shí)候 共有120個(gè)病人進(jìn)行了治療 其中40個(gè)病人按標(biāo)準(zhǔn)劑量服用某種新藥 另有40個(gè)病人按標(biāo)準(zhǔn)劑量的2倍服用了這種新藥 其余40個(gè)病人只按病狀治療 而不是按病因治療 治療結(jié)果按迅速痊愈 緩慢痊愈 未痊愈分為三類 最后交叉分類的情況列于下表 試問(wèn)這三種療法之間有沒(méi)有差別 取0 05 解 H0 這三種療法之間沒(méi)有差別H1 這三種療法之間有差別由于 0 05 自由度k c l r l 2 2 4 查分布表得臨界值 在零假設(shè)下 計(jì)算檢驗(yàn)統(tǒng)計(jì)量 計(jì)算過(guò)程參見(jiàn)后表 因此 故拒絕零假設(shè) 即三種療法之間有顯著差別 第三節(jié)方差分析 方差分析 是一種很重要的分析方法 它可以檢驗(yàn)兩個(gè)以上樣本均值之差 方差分析是均值差檢驗(yàn)的推廣 一般用于處理自變量是一個(gè) 或多個(gè) 定類變量和因變量是一個(gè)定距變量之間的關(guān)系 方差分析所包含的假定與均值差檢驗(yàn)所包含的假定差不多 例如正態(tài)分布 獨(dú)立隨機(jī)樣本 等方差性等 但檢驗(yàn)本身卻很不相同 方差分析直接涉及的是方差而不是均值和標(biāo)準(zhǔn)差 同時(shí) 比較也不取兩種估計(jì)量之差 而是取兩種估計(jì)量的比率 在兩種估計(jì)量彼此獨(dú)立的前提下 兩種估計(jì)量之比率F具有已知的抽樣分布 因而可進(jìn)行很簡(jiǎn)單的檢驗(yàn) 1 總變差及其分解 總變差 在方差分析中記作SST 它表示對(duì)于總均值的偏差之平方和 即 SST 式中 ni是第i個(gè)樣本的容量 n 為什么會(huì)形成總變差這個(gè)散布度呢 一是三個(gè)樣本可能不同 這使全部數(shù)據(jù)有三個(gè) 中心 二是隨機(jī)抽樣誤差的影響 使數(shù)據(jù)在每個(gè)中心附近有散布 總變差分解 可以看出 總變差分解成兩部分 第一部分是各觀測(cè)值對(duì)其所屬類別均值的偏差的平方和 稱為組內(nèi)變差 Within groupsSumofSquares 記作SSW 組內(nèi)變差反映了數(shù)據(jù)圍繞各 中心 的散布程度 即反映了因隨機(jī)波動(dòng)所產(chǎn)生的變異 與自變量因素?zé)o關(guān) 換言之 SSW是自變量因素所沒(méi)有解釋的的變異 因此 又稱之為殘差 第二部分是組間平方和 Between groupsSumofSquares 記作SSB 它涉及到諸類別均值對(duì)總均值的偏差 反映了前表中數(shù)據(jù)的c個(gè) 中心 的散布程度 弄清了組間變差和組內(nèi)變差 檢驗(yàn) A1 A2 A3 也就是零假設(shè) 1 2 3 的思路也就梳理出來(lái)了 關(guān)鍵是比較兩種變差是否有顯著差異 若第一種變差明顯大于第二種變差 則認(rèn)為家庭因素對(duì)孩子圖書(shū)消費(fèi)是有影響的 若第一種變差與第二種變差之間無(wú)顯著區(qū)別 則不能認(rèn)為家庭因素對(duì)孩子圖書(shū)消費(fèi)有影響 但在統(tǒng)計(jì)學(xué)上 方差分析不取兩者之差而取兩者之比來(lái)進(jìn)行這種比較 而且 方差分析不是直接用SSB SSW作為檢驗(yàn)統(tǒng)計(jì)量 而是用可以解釋的方差 不能解釋的方差作為檢驗(yàn)統(tǒng)計(jì)量 即 2 關(guān)于自由度 組間平方和代表c個(gè)樣本均值對(duì)總均值的偏差 也就是每個(gè)可看作為一個(gè)單位 c個(gè)可看作為c個(gè)單位 有c個(gè)自由度 求用去一個(gè)自由度 因而 與組間平方和相聯(lián)系的自由度為c 1 再看組內(nèi)平方和 計(jì)算時(shí)每列失去一個(gè)自由度 因而 與組內(nèi)平方和相聯(lián)系的自由度為n c 最后看總平方和 計(jì)算總均值時(shí)失去一個(gè)自由度 因而 與總平方和相聯(lián)系的自由度為n l 總的來(lái)看有 n l n c c 1 總自由度 組內(nèi)自由度 組間自由度 上式是在在零假設(shè) H0 1 2 c 之下 檢驗(yàn)統(tǒng)計(jì)量Fo的計(jì)算公式 理論證明 上式服從分子自由度為k1 c 1 分母自由度為k2 n c 的F分布 于是 給定顯著性水平 我們就可以很方便地從F分布表中查到臨界值F c 1 n c 如果出現(xiàn)Fo F 的情況 我們將在這個(gè)顯著性水平上拒絕零假設(shè) 在實(shí)際運(yùn)用中 方差分析的結(jié)果常用一種稱為 方差分析表 的標(biāo)準(zhǔn)形式的表格表示出來(lái) 其基本形式如表后所示 為了簡(jiǎn)化檢驗(yàn)統(tǒng)計(jì)量Fo的計(jì)算 有必要將SST SSW SSB這三個(gè)定義式展開(kāi) 其方法與分解總變差的方法相同 于是有 3 關(guān)于檢驗(yàn)統(tǒng)計(jì)量Fo的計(jì)算 注意 由于總變差等于另兩個(gè)變差之和 所以三個(gè)變差中僅需求出兩個(gè)變差 求出組內(nèi)平方和比求另兩個(gè)平方和繁瑣得多 故通常我們都是從總平方和減去組間平方和來(lái)求組內(nèi)平方和的 例 試對(duì)下表中的資料 計(jì)算SST SSW SSB 并檢驗(yàn) 1 2 3的零假設(shè) 取0 05 解 據(jù)題意 n1 n2 n3 8 n1 n2 n3 24組內(nèi)自由度 n c 24 3 21組間自由度 c 1 3 1 2分別計(jì)算SST和SSB 計(jì)算過(guò)程參見(jiàn)下表 由于 0 05 查F分布表得臨界值 F c 1 n c F0 05 2 21 3 47 1 19故在0 05顯著性水平上不否定零假設(shè) 即沒(méi)有充分根據(jù)提出這三類家庭的孩子在圖書(shū)消費(fèi)方面有顯著不同 例 研究某種商品銷(xiāo)量與品牌的關(guān)系 得下表資料 其中A1 A2 A3表示不同的品牌 數(shù)據(jù)表示銷(xiāo)量 試以顯著性水平10 判斷品牌對(duì)該種商品的銷(xiāo)量有無(wú)影響 解 據(jù)題意 n1 n1 n2 n3 2 4 3 9組內(nèi)自由度 n c 9 3 6組間自由度 c 1 3 1 2分別計(jì)算SST和SSB 計(jì)算過(guò)程參見(jiàn)前表13 16 于是得MSB和MSWMSB SSB c 1 6 89 2 3 45MSW SSW n c 30 6 5 00再根據(jù) 13 19 式求檢驗(yàn)統(tǒng)計(jì)量FoFo 0 69 1故在0 10顯著性水平上不否定零假設(shè) 即不能判斷不同品脾對(duì)該種商品的銷(xiāo)量有顯著影響 4 相關(guān)比率 當(dāng)方差分析的檢驗(yàn)呈顯著性后 進(jìn)一步討論兩變量間的相關(guān)程度是很自然的 方差分析中相關(guān)程度的測(cè)定仍采用PRE法 當(dāng)不知因變量Y的取值與自變量X的取值A(chǔ)1 A2 Ac有關(guān)時(shí) 最好的預(yù)測(cè)是以總均值作為Y的估計(jì)值 此時(shí) 估計(jì)所犯的錯(cuò)誤將等于SSTE1 SST 當(dāng)已知因變量Y的取值與自變量X的取值A(chǔ)1 A2 Ac有關(guān)后 自然用各樣本的均值作為各類別的預(yù)測(cè)值 此時(shí)預(yù)測(cè)所產(chǎn)生的誤差將等于SSWE2 SSW 所以消減誤差比例可寫(xiě)成PRE 正是因?yàn)樯鲜?我們把SSB稱為已解釋的變差 顯然 已解釋的變差越大 預(yù)測(cè)Y所減少的誤差就越多 X與Y之間的關(guān)系就越密切 據(jù)此 方差分析中把已解釋的變差對(duì)總變差的比值稱為相關(guān)比率 用符號(hào)表示 1 可用于一個(gè)定類變量與一個(gè)定距變量的相關(guān)程度的測(cè)定 當(dāng)然也可以用于定序 定距變量或定距 定距變量的相關(guān)程度的測(cè)定 例 試以表13 12的資料 分析孩子圖書(shū)消費(fèi)與家庭類型的關(guān)系 解 據(jù)前面例題中已計(jì)算的結(jié)果 已知SSB 28 SST 276 因而有 1 10 1 可見(jiàn) 就表給資料而言 利用家庭類型預(yù)測(cè)孩子圖書(shū)消費(fèi)量 只能削減10 1 的預(yù)測(cè)誤差 小結(jié) 相關(guān)比率研究的是定類 定距變量之間的相關(guān)程度 由于定類變量不具有數(shù)量大小的問(wèn)題 不存在關(guān)系是否線性的問(wèn)題 因此 當(dāng)被用于研究定距 定距變量之間的關(guān)系時(shí) 不僅可以作為線性相關(guān)的量度 也可以作為非線性相關(guān)的量度 這意味著 對(duì)線性相關(guān) 相關(guān)比率與r2 積差系數(shù)之平方 有相同的PRE性質(zhì) 但如果對(duì)非線性相關(guān) 用積差系數(shù)r來(lái)討論就不行了 對(duì)于定距 定距變量 曲線相關(guān)既然要用R來(lái)測(cè)量 那么反過(guò)來(lái) 同一資料通過(guò)相關(guān)指數(shù)R與積差系數(shù)r計(jì)算的比較 可以判斷確定兩定距變量的關(guān)系是不是直線 如果同時(shí)求出r與R r等于或略大于R 可說(shuō)明兩變量關(guān)系是直線的 用r去測(cè)量是合適的 如果r R 則說(shuō)明兩變量關(guān)系可能是曲線的 首先 MSB和MSW可以分別稱為組間方差和組內(nèi)方差 其中 在等方差的假設(shè)下 組內(nèi)方差總是 2的無(wú)偏估計(jì) 而組間方差 只有當(dāng)諸總體 即各樣本所代表的子總體 均值實(shí)際上相等時(shí) 它才是 2的無(wú)偏估計(jì) 這就是說(shuō) 如果零假設(shè)為真 MSB和MSW之間將沒(méi)有太大的差別 反之 如果零假設(shè)實(shí)際不正確 可以期望MSB和MSW的比值大于1 如果這個(gè)比值小于1 則不從F分布表中查找臨界值F 就可以判斷零假設(shè)不能被否定 其次 以上兩個(gè)例題也可以用均值差檢驗(yàn)來(lái)處理 均值差檢驗(yàn)涉及t分布 可以做三組合的比較 即A1與A2 A2與A3 A1與A3 與均值差檢驗(yàn)不同 方差分析僅進(jìn)行一次檢驗(yàn)來(lái)判定三種類別的家庭 或品牌 在消費(fèi) 或銷(xiāo)售 上彼此是否有顯著性差異 方差分析的優(yōu)點(diǎn)在于 一個(gè)檢驗(yàn)可以代替多個(gè)檢驗(yàn) 如果有四個(gè)類別 均值差檢驗(yàn)需做 4 3 2 6次 如果有六個(gè)類別 需做 6 5 2 15次 如果有十個(gè)類別 需做 10 9 2 45次 況且 如果做15次均值差檢驗(yàn) 其中4次結(jié)果具有顯著性 這時(shí)應(yīng)當(dāng)下什么結(jié)論 可能很難回答 5 關(guān)于方差分析的幾點(diǎn)討論 第三 方差分析中的自變量X如果是二分變量 也可以采用均值差t檢驗(yàn) 在這種情況下 F的分子自由度是2 1 1 分母自由度是n 2 這與均值差檢驗(yàn)中的t相同 經(jīng)過(guò)計(jì)算可知 具有自由度n 2的t2值等于具有分子自由度為1和分母自由度為n 2的F值 比較F表和t表也可以核實(shí)這一點(diǎn) 換言之 t是分子自由度為l的F的平方根 這當(dāng)然意味著 對(duì)于樣本而言 此時(shí)不論采用方差分析或均值差檢驗(yàn) 其結(jié)果完全相同 第四 本節(jié)集中討論了自變量為一個(gè)定類變量而因變量為一個(gè)定距變量的情況 如果對(duì)因變量Y影響的自變量由一個(gè)變?yōu)閮蓚€(gè)以上 我們就將面對(duì)多元方差分析了 總變差分解的思想可以直接推廣至多因素顯著性檢驗(yàn) 例如就兩個(gè)自變量 A和B 獨(dú)立對(duì)因變量Y影響的情況 可以得到下述方差分析表 表13 17 相關(guān)與回歸 由于其廣泛應(yīng)用 如今在統(tǒng)計(jì)學(xué)中是高度發(fā)展的分支之一 而從實(shí)用的觀點(diǎn)來(lái)看 線性關(guān)系是最簡(jiǎn)單也是最重要的一種關(guān)系 本書(shū)第十二章已經(jīng)對(duì)積差系數(shù)與回歸直線作了比較細(xì)致的討論 但有關(guān)假設(shè)檢驗(yàn)的內(nèi)容 由于要借助于推論統(tǒng)計(jì)的知識(shí)方能闡明 所以本書(shū)將這部分內(nèi)容集中放到這一節(jié)來(lái)加以補(bǔ)充 學(xué)過(guò)推論統(tǒng)計(jì)的人要克制自己免受直線的誘惑 對(duì)此 討論回歸系數(shù)和積差系數(shù)之假設(shè)檢驗(yàn)將具有重要意義 第四節(jié)回歸方程與相關(guān)系數(shù)的檢驗(yàn) 1 回歸系數(shù)的檢驗(yàn) 檢驗(yàn)兩個(gè)總體變量 定距 定距變量 是否具有線性關(guān)系 主要檢驗(yàn)總體的回歸系數(shù)B是否等于零 因此 對(duì)于總體線性檢驗(yàn)的假設(shè)可寫(xiě)成如下形式 H0 B 0H1 B 0 為了尋求檢驗(yàn)H0的方法 我們需要對(duì)離差平方和進(jìn)行分解 而這項(xiàng)工作 前面已經(jīng)完成 我們發(fā)現(xiàn) 估計(jì)Y 當(dāng)不知Y和X的關(guān)系時(shí) 對(duì)它的最佳估計(jì)值只能是 離差之平方和 總變差 正是不知Y和X的關(guān)系時(shí) 估計(jì)Y的全部誤差E0 E0 SST 做了回歸預(yù)測(cè)之后 我們可以用Yc估計(jì)Y 參見(jiàn)下圖 這時(shí)估計(jì)Y的誤差變?yōu)镋1 剩余變差 E1 SSW 顯然 利用Yc去估計(jì)Y比用去估計(jì)Y要消減一些誤差 消減的誤差E0 E1就是被回歸直線解釋掉的誤差 回歸變差 從第十二章已經(jīng)討論過(guò)的回歸變差和剩余變差的意義來(lái)看 一個(gè)回歸方程效果的好壞 取決于它們兩者之間的比較 已解釋的回歸變差越大 用Yc去估計(jì)Y比用去估計(jì)Y消減的誤差就越多 回歸預(yù)測(cè)的效果也就越好 依此 并按上一節(jié)方差分析的思想 在H0成立的條件下 檢驗(yàn)回歸直線的統(tǒng)計(jì)量可構(gòu)造為 E0 E1 Fo F 1 n 2 自由度問(wèn)題 因回歸變差中僅含一個(gè)自變量X 故自由度為l 而總變差所含自由度為 n 1 從而由總自由度 組內(nèi)自由度 組間自由度 得剩余變差的自由度為 n 2 對(duì)選定顯著性水平 可查表得臨界值F 若出現(xiàn)Fo F 1 n 2 的情況 則拒絕H0 即認(rèn)為回歸方程中X變量對(duì)Y的解釋力是顯著的 若出現(xiàn)Fo F 1 n 2 的情況 則不能拒絕H0 即認(rèn)為回歸方程中X變量對(duì)Y沒(méi)有的顯著的解釋力 例 對(duì) 例12 5 1 所建立的回歸方程進(jìn)行回歸直線的檢驗(yàn) 取0 05 解 根據(jù)表12 22和 例12 5 1 的計(jì)算結(jié)果可知 48 252 52 5 299 75 268 5a 0 475 b 0 975 n 12 299 75 0 475 52 5 0 975 268 5 13 02 0 975 2 252 57 04 計(jì)算檢驗(yàn)統(tǒng)計(jì)量Fo 43 81對(duì) 0 05 查F表得臨界值F 1 n 2 F0 05 1 10 4 96 43 81所以拒絕H0 即可以認(rèn)為對(duì)總體配置回歸直線是有意義的 2 積差系數(shù)的檢驗(yàn) 對(duì)于定距 定距變量 上一章討論的積差系數(shù)是就樣本而言的 如同樣本均值 成數(shù)不能完全代表總體均值 成數(shù)一樣 樣本積差系數(shù)r也不就是總體積差系數(shù) 但在社會(huì)研究中 要想確切了解兩總體變量 定距 定距變量 間的積差系數(shù)是很難的 所以 通常需要通過(guò)樣本積差系數(shù)的統(tǒng)計(jì)檢驗(yàn)來(lái)認(rèn)識(shí)總體的積差系數(shù) 設(shè)有兩變量X和Y 它們的積差系數(shù)記為 當(dāng) 0時(shí) 表示X和Y不具有線性相關(guān)關(guān)系 當(dāng) 0時(shí) 表示X和Y具有線性相關(guān)關(guān)系 實(shí)踐證明 樣本積差系數(shù)r值比較大時(shí) 并不等于總體積差系數(shù) 也比較大 尤其是樣本中所含觀測(cè)值較少時(shí) 更可能出現(xiàn)這種情況 例如 當(dāng)X與Y各只有兩個(gè)樣本數(shù)據(jù)時(shí) 積差系數(shù)總是為1 但顯然這不能說(shuō)明變量間一定完全相關(guān) 也就是說(shuō) 有時(shí)即使樣本積差系數(shù)很大 也并不一定就表明總體積差系數(shù) 也一定很大 總體積差系數(shù) 的情況 只有在對(duì)樣本積差系數(shù)進(jìn)行統(tǒng)計(jì)顯著性檢驗(yàn)后 才能得出結(jié)論 那么判斷線性相關(guān)的 顯著 與 不顯著 的檢驗(yàn)統(tǒng)計(jì)量如何構(gòu)造呢 統(tǒng)計(jì)理論證明 樣本積差系數(shù)是總體積差系數(shù)的一個(gè)無(wú)偏估計(jì)量 有 而且當(dāng) 0時(shí) 樣本容量越大 r 顯然為一隨機(jī)變量 的抽樣分布越接近于自由度為n 2的t分布 見(jiàn)前圖 因而有檢驗(yàn)統(tǒng)計(jì)量 to r t n 2 積差系數(shù)檢驗(yàn)的假設(shè)為 H0 0 兩總體不具有線性相關(guān)關(guān)系 H1 0 兩總體具有線性相關(guān)關(guān)系 對(duì)選定的顯著性水平 查t分布表得臨界值t 2 n 2 與統(tǒng)計(jì)值to作比較 若 則表明r在統(tǒng)計(jì)上是顯著的 即總體積差系數(shù)顯著地不同于零 則說(shuō)明r在統(tǒng)計(jì)上不顯著 即X與Y間并不存在線性相關(guān)關(guān)系 例12 4 1 已對(duì)表12 21所示資料求出積差系數(shù) 試在0 05顯著性水平上作總體相關(guān)檢驗(yàn) 表12 21 解 建立假設(shè)H0 0H1 0已知r 0 902 n 12 于是得to r 0 902 6 608對(duì) 0 05 查表得臨界值t 2 n 2 t0 025 10 2 228 6 608故拒絕H0 接受H1 即認(rèn)為員工的工齡和技術(shù)考核分之間存在線性相關(guān) 但是 為了使用者的方便 上述檢驗(yàn)現(xiàn)已簡(jiǎn)化為使用相關(guān)系數(shù)r進(jìn)行直接檢驗(yàn) 附表12是以r的抽樣分布編制的相關(guān)系數(shù)表 只要給出顯著性水平 和自由度k n 2 便可以在表中直接查出相應(yīng)的臨界值r n 2 解 已知r 0 902 n 12 對(duì) 0 05 k 12 2 10 從附表12中查得r n 2 r 10 0 576 0 902故拒絕零假設(shè) 即在0 05顯著性水平上可以認(rèn)為員工的工齡和技術(shù)考核分之間存在線性相關(guān) 例 用附表12直接對(duì)上例進(jìn)行積差系數(shù)檢驗(yàn) 小結(jié) 上一小節(jié) 我們講的是回歸系數(shù)的檢驗(yàn) 實(shí)際上那只是線性回歸方程的檢驗(yàn) 而這一小節(jié)討論積差系數(shù)的檢驗(yàn) 也是要確認(rèn)總體線性相關(guān)的存在 因而假設(shè)H0 B 0與假設(shè)H0 0等價(jià) 也就是說(shuō) 如果樣本積差系數(shù)r通過(guò)了檢驗(yàn) t檢驗(yàn) 也必然導(dǎo)致回歸系數(shù)b能通過(guò)檢驗(yàn) F檢驗(yàn) 實(shí)際上F公式與t公式是有對(duì)應(yīng)關(guān)系的 Fo t2即具有自由度n 2的t2值等于具有分子自由度1和分母自由度n 2的F值 也正是由于這個(gè)原因 有的教科書(shū)就是用t統(tǒng)計(jì)量來(lái)檢驗(yàn)回假設(shè)的 而如果有了r檢驗(yàn)表 附表12 問(wèn)題就變得更為簡(jiǎn)單 計(jì)算Fo值并進(jìn)行F檢驗(yàn)也都不必要了 估計(jì)Y當(dāng)不知Y和X有關(guān)系時(shí) 對(duì)它的最佳估計(jì)值只能是 估計(jì)的全部誤差是 當(dāng)知道Y和X有關(guān)系時(shí) 可以改用Yc來(lái)估計(jì)Y 此時(shí)估計(jì)的誤差減少為 當(dāng)知道Y和X有關(guān)系后 用Yc來(lái)估計(jì)Y固然可以消減不少估計(jì)誤差 這也不過(guò)是點(diǎn)估計(jì) 而如果我們能在擬合值Yc上下設(shè)置一個(gè)合適區(qū)間 那么Y被估計(jì)到的可能性便會(huì)大大增加 3 回歸方程的區(qū)間估計(jì) 回歸方程區(qū)間估計(jì)提出的背景 在回歸線兩側(cè)設(shè)置一個(gè)估計(jì)區(qū)間總是容易做到的 但問(wèn)題是我們需要對(duì)估計(jì)的信度和效度作通盤(pán)考慮 為此 我們必須了解Y在Yc兩側(cè)的分布特征以及Y在Yc兩側(cè)的分散程度 由于誤差為正態(tài)分布的原理 即中心極限定理 當(dāng)樣本容量n大于30時(shí) 我們可以作如下假定 參見(jiàn)前圖 1 Y的實(shí)際觀測(cè)值在對(duì)應(yīng)的每個(gè)估計(jì)值Yc周?chē)际钦龖B(tài)分布 越靠近Yc的地方 Y值出現(xiàn)的機(jī)會(huì)越多 反之出現(xiàn)的機(jī)會(huì)越少 2 所

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論