擬合優(yōu)度檢驗(yàn).ppt

上傳人：搶*** IP屬地：江西上傳時(shí)間：2020-03-14 格式：PPT 頁(yè)數(shù)：62 大?。?.80MB 積分：12 舉報(bào) 版權(quán)申訴

免費(fèi)預(yù)覽已結(jié)束，剩余57頁(yè)可下載查看

 下載本文檔

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第十三章檢驗(yàn)與方差分析我們前面已經(jīng)比較系統(tǒng)地討論了雙樣本的參數(shù)和非參數(shù)檢驗(yàn)的問(wèn)題現(xiàn)在我們希望利用一般的方法來(lái)檢驗(yàn)三個(gè)以上樣本的差異檢驗(yàn)法和方差分析法就是解決這方面問(wèn)題的檢驗(yàn)法可以對(duì)擬合優(yōu)度和獨(dú)立性等進(jìn)行檢驗(yàn) 方差分析法則可以對(duì)多個(gè)總體均值是否相等進(jìn)行檢驗(yàn) 后者由于通過(guò)各組樣本資料之間的方差和組內(nèi)方差的比較來(lái)建立服從F分布的檢驗(yàn)統(tǒng)計(jì)量所以又稱F檢驗(yàn) 第一節(jié) 擬合優(yōu)度檢驗(yàn)第二節(jié) 無(wú)關(guān)聯(lián)性檢驗(yàn)第三節(jié) 方差分析第四節(jié) 回歸方程與相關(guān)系數(shù)的檢驗(yàn) 第一節(jié)擬合優(yōu)度檢驗(yàn) 運(yùn)用Z檢驗(yàn) t檢驗(yàn)等討論假設(shè)檢驗(yàn)的問(wèn)題一般要求總體服從正態(tài)分布或者在大樣本條件下可以利用漸近正態(tài)分布理論來(lái)描述抽樣分布也就是說(shuō) 我們都要直接或間接地假定對(duì)象總體具有已知的分布形式然后對(duì)總體的未知參數(shù)進(jìn)行假設(shè)檢驗(yàn) 如果不知道總體的分布形式就無(wú)法運(yùn)用t檢驗(yàn)法等對(duì)總體參數(shù)進(jìn)行假設(shè)檢驗(yàn) 于是這里有一個(gè)前面留下來(lái)的尚未討論的問(wèn)題很重要就是怎樣檢定總體是否具有正態(tài)或其他分布形式擬合優(yōu)度檢驗(yàn)正是就這一問(wèn)題而言的檢驗(yàn)方法第十一章最后一節(jié) 我們將累計(jì)頻數(shù)檢驗(yàn)用于經(jīng)驗(yàn)分布與理論分布的比較實(shí)際已經(jīng)提供了擬合優(yōu)度檢驗(yàn)的一種方法擬合優(yōu)度檢驗(yàn)與累計(jì)頻數(shù)擬合優(yōu)度檢驗(yàn)相對(duì)應(yīng) 在評(píng)估從經(jīng)驗(yàn)上得到的頻數(shù)和在一組特定的理論假設(shè)下期望得到的頻數(shù)之間是否存在顯著差異時(shí) 是一種更普遍的檢驗(yàn)方法現(xiàn)在我們?cè)賮?lái)看看第七章提到的著名的孟德?tīng)柾愣乖囼?yàn) 根據(jù)孟德?tīng)柼岢龅姆蛛x規(guī)律純種豌豆雜交后的子二代出現(xiàn)分化紅花植株與白花植株的數(shù)目應(yīng)為3 1 但由于隨機(jī)性觀察結(jié)果與3 1理論值總有些差距因此有必要去考察某一大小的差距是否已構(gòu)成否定3 l理論的充分根據(jù) 這正是我們所討論的擬合優(yōu)度檢驗(yàn)的問(wèn)題解決這類問(wèn)題的工具是卡皮爾遜在1900年發(fā)表的一篇文章中引進(jìn)的所謂檢驗(yàn)法 1 問(wèn)題的導(dǎo)出首先把問(wèn)題表述成一般模式設(shè)一總體包含c種可區(qū)別的個(gè)體根據(jù)某種理論或純粹的假設(shè) 第i種個(gè)體出現(xiàn)的概率應(yīng)為某個(gè)已知的數(shù)Pi i 1 2 c 有Pi 0 1 這一組概率 P1 P2 Pc 就構(gòu)成了我們的理論分布現(xiàn)在在該總體中隨機(jī)地抽取一個(gè)容量為n的樣本發(fā)現(xiàn)其中第i種個(gè)體的數(shù)目為fi i 1 2 c 并有 n 我們要據(jù)此檢驗(yàn)理論分布用概率論的語(yǔ)言可以這樣說(shuō) 設(shè)對(duì)象總體中隨機(jī)變量X有c種取值當(dāng)X的取值是xi時(shí) 按零假設(shè) 其總體分布等于理論分布即P Pi i 1 2 c 例如就孟德?tīng)柕? 1理論來(lái)說(shuō) c 2 P x1 3 4 P x2 1 4 現(xiàn)在從該總體中隨機(jī)地抽取一個(gè)容量為n的樣本發(fā)現(xiàn)其中xi i 1 2 c 出現(xiàn)的次數(shù)為fi i 1 2 c 并有 n 知道了頻數(shù)也就知道了頻率即出現(xiàn)的頻率為并有 1 現(xiàn)在我們就是要據(jù)此經(jīng)驗(yàn)分布來(lái)檢驗(yàn)總體分布等于理論分布的零假設(shè) 2 擬合優(yōu)度檢驗(yàn) 比率擬合檢驗(yàn) 擬合優(yōu)度檢驗(yàn)如何進(jìn)行關(guān)鍵是確定合適的檢驗(yàn)統(tǒng)計(jì)量以及該統(tǒng)計(jì)量所服從的概率分布這里不可避免地要引進(jìn)某種人為因素即人們?cè)O(shè)計(jì)出下面這樣的綜合性可比指標(biāo) 其中k1 k2 kc是適當(dāng)選取的常數(shù) 仔細(xì)觀察不難發(fā)現(xiàn) L值大意味著經(jīng)驗(yàn)分布與理論分布偏離大 L值小意味著經(jīng)驗(yàn)分布與理論分布偏離小當(dāng)在某個(gè)選定的水平上經(jīng)驗(yàn)分布顯著偏離理論分布那么對(duì)象總體具有某種分布形式的零假設(shè)便被否定結(jié)論用作為檢定Ho成立的檢驗(yàn)統(tǒng)計(jì)量理論證明當(dāng)n足夠大時(shí) 該統(tǒng)計(jì)量服從分布它是一種具有已知的并制成表的概率分布因此對(duì)給定的顯著性水平可求得臨界值與比較進(jìn)而作出檢驗(yàn)結(jié)論顯而易見(jiàn) 理論頻數(shù)fe與觀測(cè)頻數(shù)fo越接近統(tǒng)計(jì)值越小經(jīng)驗(yàn)分布與理論分布擬合程度越好反之 fe與fo差距越大值越大經(jīng)驗(yàn)分布與理論分布擬合程度越差擬合優(yōu)度檢驗(yàn)由此得名例孟德?tīng)栠z傳定律表明在純種紅花豌豆與白花豌豆雜交后所生的子二代豌豆中紅花對(duì)白花之比為3 1 某次種植試驗(yàn)的結(jié)果為紅花豌豆176株白花豌豆48株試在 0 05的顯著性水平上對(duì)孟德?tīng)柖勺鲾M合優(yōu)度檢驗(yàn) 參見(jiàn)下表應(yīng)用舉例 3 正態(tài)擬合檢驗(yàn) 例試對(duì)下表所給男青年身高分布的數(shù)據(jù)作正態(tài)擬合檢驗(yàn) 選取 0 05 解檢驗(yàn)的另一個(gè)重要應(yīng)用是對(duì)交互分類資料的獨(dú)立性檢驗(yàn) 即列聯(lián)表檢驗(yàn) 在上一章我們?cè)啻翁岬竭^(guò)性別與收入高低有無(wú)關(guān)聯(lián)的問(wèn)題在實(shí)際中類似的問(wèn)題很多例如受教育程度與投票行為有無(wú)關(guān)聯(lián) 吸煙與壽命長(zhǎng)短有無(wú)關(guān)聯(lián) 家庭小孩多少與收入多少有無(wú)關(guān)聯(lián) 受教育時(shí)間長(zhǎng)短與收入多少有無(wú)關(guān)聯(lián) 血型與某種性格上的差異有無(wú)關(guān)聯(lián) 等等把這類問(wèn)題上升到一般就是在列聯(lián)表的基礎(chǔ)上考察變量X與Y有無(wú)關(guān)聯(lián) 由于列聯(lián)表一般是按品質(zhì)標(biāo)志把兩個(gè)變量的頻數(shù)進(jìn)行交互分類的所以檢驗(yàn)法用于對(duì)交互分類資料的獨(dú)立性檢驗(yàn) 有其它方法無(wú)法比擬的優(yōu)點(diǎn) 如何求得列聯(lián)表中的理論頻數(shù)就成了獨(dú)立性檢驗(yàn)的關(guān)鍵第二節(jié)無(wú)關(guān)聯(lián)性檢驗(yàn) 1 獨(dú)立性理論頻數(shù)及自由度應(yīng)用此式不必計(jì)算理論頻數(shù) 計(jì)算與這個(gè)檢驗(yàn)統(tǒng)計(jì)量相聯(lián)系的自由度算出統(tǒng)計(jì)量之值并定出其自由度后就可以依前述的方法在給定了顯著性水平之后來(lái)對(duì)X Y屬性無(wú)關(guān)聯(lián)的零假設(shè)進(jìn)行檢驗(yàn)了應(yīng)用舉例檢驗(yàn)也適用于定類變量和定類變量的相關(guān)統(tǒng)計(jì) 即可以用它檢定和系數(shù)是否顯著就下表所示資料試以檢驗(yàn)檢定性別與收入之間的相關(guān)程度是否顯著取0 001 解故拒絕H0 即認(rèn)為總體上性別與收入高低之間不獨(dú)立有顯著相關(guān)關(guān)系例在某種流行病流行的時(shí)候共有120個(gè)病人進(jìn)行了治療其中40個(gè)病人按標(biāo)準(zhǔn)劑量服用某種新藥另有40個(gè)病人按標(biāo)準(zhǔn)劑量的2倍服用了這種新藥其余40個(gè)病人只按病狀治療而不是按病因治療治療結(jié)果按迅速痊愈緩慢痊愈未痊愈分為三類最后交叉分類的情況列于下表試問(wèn)這三種療法之間有沒(méi)有差別取0 05 解 H0 這三種療法之間沒(méi)有差別H1 這三種療法之間有差別由于 0 05 自由度k c l r l 2 2 4 查分布表得臨界值在零假設(shè)下計(jì)算檢驗(yàn)統(tǒng)計(jì)量計(jì)算過(guò)程參見(jiàn)后表因此故拒絕零假設(shè) 即三種療法之間有顯著差別第三節(jié)方差分析方差分析是一種很重要的分析方法它可以檢驗(yàn)兩個(gè)以上樣本均值之差方差分析是均值差檢驗(yàn)的推廣一般用于處理自變量是一個(gè) 或多個(gè) 定類變量和因變量是一個(gè)定距變量之間的關(guān)系方差分析所包含的假定與均值差檢驗(yàn)所包含的假定差不多例如正態(tài)分布獨(dú)立隨機(jī)樣本等方差性等但檢驗(yàn)本身卻很不相同方差分析直接涉及的是方差而不是均值和標(biāo)準(zhǔn)差同時(shí) 比較也不取兩種估計(jì)量之差而是取兩種估計(jì)量的比率在兩種估計(jì)量彼此獨(dú)立的前提下兩種估計(jì)量之比率F具有已知的抽樣分布因而可進(jìn)行很簡(jiǎn)單的檢驗(yàn) 1 總變差及其分解總變差在方差分析中記作SST 它表示對(duì)于總均值的偏差之平方和即 SST 式中 ni是第i個(gè)樣本的容量 n 為什么會(huì)形成總變差這個(gè)散布度呢一是三個(gè)樣本可能不同這使全部數(shù)據(jù)有三個(gè) 中心二是隨機(jī)抽樣誤差的影響使數(shù)據(jù)在每個(gè)中心附近有散布總變差分解可以看出總變差分解成兩部分第一部分是各觀測(cè)值對(duì)其所屬類別均值的偏差的平方和稱為組內(nèi)變差 Within groupsSumofSquares 記作SSW 組內(nèi)變差反映了數(shù)據(jù)圍繞各中心的散布程度即反映了因隨機(jī)波動(dòng)所產(chǎn)生的變異與自變量因素?zé)o關(guān) 換言之 SSW是自變量因素所沒(méi)有解釋的的變異因此又稱之為殘差第二部分是組間平方和 Between groupsSumofSquares 記作SSB 它涉及到諸類別均值對(duì)總均值的偏差反映了前表中數(shù)據(jù)的c個(gè) 中心的散布程度弄清了組間變差和組內(nèi)變差檢驗(yàn) A1 A2 A3 也就是零假設(shè) 1 2 3 的思路也就梳理出來(lái)了關(guān)鍵是比較兩種變差是否有顯著差異若第一種變差明顯大于第二種變差則認(rèn)為家庭因素對(duì)孩子圖書(shū)消費(fèi)是有影響的若第一種變差與第二種變差之間無(wú)顯著區(qū)別則不能認(rèn)為家庭因素對(duì)孩子圖書(shū)消費(fèi)有影響但在統(tǒng)計(jì)學(xué)上方差分析不取兩者之差而取兩者之比來(lái)進(jìn)行這種比較而且方差分析不是直接用SSB SSW作為檢驗(yàn)統(tǒng)計(jì)量而是用可以解釋的方差不能解釋的方差作為檢驗(yàn)統(tǒng)計(jì)量即 2 關(guān)于自由度組間平方和代表c個(gè)樣本均值對(duì)總均值的偏差也就是每個(gè)可看作為一個(gè)單位 c個(gè)可看作為c個(gè)單位有c個(gè)自由度求用去一個(gè)自由度因而與組間平方和相聯(lián)系的自由度為c 1 再看組內(nèi)平方和計(jì)算時(shí)每列失去一個(gè)自由度因而與組內(nèi)平方和相聯(lián)系的自由度為n c 最后看總平方和計(jì)算總均值時(shí)失去一個(gè)自由度因而與總平方和相聯(lián)系的自由度為n l 總的來(lái)看有 n l n c c 1 總自由度組內(nèi)自由度組間自由度上式是在在零假設(shè) H0 1 2 c 之下檢驗(yàn)統(tǒng)計(jì)量Fo的計(jì)算公式理論證明上式服從分子自由度為k1 c 1 分母自由度為k2 n c 的F分布于是給定顯著性水平我們就可以很方便地從F分布表中查到臨界值F c 1 n c 如果出現(xiàn)Fo F 的情況我們將在這個(gè)顯著性水平上拒絕零假設(shè) 在實(shí)際運(yùn)用中方差分析的結(jié)果常用一種稱為方差分析表的標(biāo)準(zhǔn)形式的表格表示出來(lái) 其基本形式如表后所示為了簡(jiǎn)化檢驗(yàn)統(tǒng)計(jì)量Fo的計(jì)算有必要將SST SSW SSB這三個(gè)定義式展開(kāi) 其方法與分解總變差的方法相同于是有 3 關(guān)于檢驗(yàn)統(tǒng)計(jì)量Fo的計(jì)算注意由于總變差等于另兩個(gè)變差之和所以三個(gè)變差中僅需求出兩個(gè)變差求出組內(nèi)平方和比求另兩個(gè)平方和繁瑣得多故通常我們都是從總平方和減去組間平方和來(lái)求組內(nèi)平方和的例試對(duì)下表中的資料計(jì)算SST SSW SSB 并檢驗(yàn) 1 2 3的零假設(shè) 取0 05 解據(jù)題意 n1 n2 n3 8 n1 n2 n3 24組內(nèi)自由度 n c 24 3 21組間自由度 c 1 3 1 2分別計(jì)算SST和SSB 計(jì)算過(guò)程參見(jiàn)下表由于 0 05 查F分布表得臨界值 F c 1 n c F0 05 2 21 3 47 1 19故在0 05顯著性水平上不否定零假設(shè) 即沒(méi)有充分根據(jù)提出這三類家庭的孩子在圖書(shū)消費(fèi)方面有顯著不同例研究某種商品銷(xiāo)量與品牌的關(guān)系得下表資料其中A1 A2 A3表示不同的品牌數(shù)據(jù)表示銷(xiāo)量試以顯著性水平10 判斷品牌對(duì)該種商品的銷(xiāo)量有無(wú)影響解據(jù)題意 n1 n1 n2 n3 2 4 3 9組內(nèi)自由度 n c 9 3 6組間自由度 c 1 3 1 2分別計(jì)算SST和SSB 計(jì)算過(guò)程參見(jiàn)前表13 16 于是得MSB和MSWMSB SSB c 1 6 89 2 3 45MSW SSW n c 30 6 5 00再根據(jù) 13 19 式求檢驗(yàn)統(tǒng)計(jì)量FoFo 0 69 1故在0 10顯著性水平上不否定零假設(shè) 即不能判斷不同品脾對(duì)該種商品的銷(xiāo)量有顯著影響 4 相關(guān)比率當(dāng)方差分析的檢驗(yàn)呈顯著性后進(jìn)一步討論兩變量間的相關(guān)程度是很自然的方差分析中相關(guān)程度的測(cè)定仍采用PRE法當(dāng)不知因變量Y的取值與自變量X的取值A(chǔ)1 A2 Ac有關(guān)時(shí) 最好的預(yù)測(cè)是以總均值作為Y的估計(jì)值此時(shí) 估計(jì)所犯的錯(cuò)誤將等于SSTE1 SST 當(dāng)已知因變量Y的取值與自變量X的取值A(chǔ)1 A2 Ac有關(guān)后自然用各樣本的均值作為各類別的預(yù)測(cè)值此時(shí)預(yù)測(cè)所產(chǎn)生的誤差將等于SSWE2 SSW 所以消減誤差比例可寫(xiě)成PRE 正是因?yàn)樯鲜?我們把SSB稱為已解釋的變差顯然已解釋的變差越大預(yù)測(cè)Y所減少的誤差就越多 X與Y之間的關(guān)系就越密切據(jù)此方差分析中把已解釋的變差對(duì)總變差的比值稱為相關(guān)比率用符號(hào)表示 1 可用于一個(gè)定類變量與一個(gè)定距變量的相關(guān)程度的測(cè)定當(dāng)然也可以用于定序定距變量或定距定距變量的相關(guān)程度的測(cè)定例試以表13 12的資料分析孩子圖書(shū)消費(fèi)與家庭類型的關(guān)系解據(jù)前面例題中已計(jì)算的結(jié)果已知SSB 28 SST 276 因而有 1 10 1 可見(jiàn) 就表給資料而言利用家庭類型預(yù)測(cè)孩子圖書(shū)消費(fèi)量只能削減10 1 的預(yù)測(cè)誤差小結(jié) 相關(guān)比率研究的是定類定距變量之間的相關(guān)程度由于定類變量不具有數(shù)量大小的問(wèn)題不存在關(guān)系是否線性的問(wèn)題因此當(dāng)被用于研究定距定距變量之間的關(guān)系時(shí) 不僅可以作為線性相關(guān)的量度也可以作為非線性相關(guān)的量度這意味著對(duì)線性相關(guān) 相關(guān)比率與r2 積差系數(shù)之平方有相同的PRE性質(zhì) 但如果對(duì)非線性相關(guān) 用積差系數(shù)r來(lái)討論就不行了對(duì)于定距定距變量曲線相關(guān)既然要用R來(lái)測(cè)量那么反過(guò)來(lái) 同一資料通過(guò)相關(guān)指數(shù)R與積差系數(shù)r計(jì)算的比較可以判斷確定兩定距變量的關(guān)系是不是直線如果同時(shí)求出r與R r等于或略大于R 可說(shuō)明兩變量關(guān)系是直線的用r去測(cè)量是合適的如果r R 則說(shuō)明兩變量關(guān)系可能是曲線的首先 MSB和MSW可以分別稱為組間方差和組內(nèi)方差其中在等方差的假設(shè)下組內(nèi)方差總是 2的無(wú)偏估計(jì) 而組間方差只有當(dāng)諸總體即各樣本所代表的子總體均值實(shí)際上相等時(shí) 它才是 2的無(wú)偏估計(jì) 這就是說(shuō) 如果零假設(shè)為真 MSB和MSW之間將沒(méi)有太大的差別反之如果零假設(shè)實(shí)際不正確可以期望MSB和MSW的比值大于1 如果這個(gè)比值小于1 則不從F分布表中查找臨界值F 就可以判斷零假設(shè)不能被否定其次以上兩個(gè)例題也可以用均值差檢驗(yàn)來(lái)處理均值差檢驗(yàn)涉及t分布可以做三組合的比較即A1與A2 A2與A3 A1與A3 與均值差檢驗(yàn)不同方差分析僅進(jìn)行一次檢驗(yàn)來(lái)判定三種類別的家庭或品牌在消費(fèi) 或銷(xiāo)售上彼此是否有顯著性差異方差分析的優(yōu)點(diǎn)在于一個(gè)檢驗(yàn)可以代替多個(gè)檢驗(yàn) 如果有四個(gè)類別均值差檢驗(yàn)需做 4 3 2 6次如果有六個(gè)類別需做 6 5 2 15次如果有十個(gè)類別需做 10 9 2 45次況且如果做15次均值差檢驗(yàn) 其中4次結(jié)果具有顯著性這時(shí)應(yīng)當(dāng)下什么結(jié)論可能很難回答 5 關(guān)于方差分析的幾點(diǎn)討論第三方差分析中的自變量X如果是二分變量也可以采用均值差t檢驗(yàn) 在這種情況下 F的分子自由度是2 1 1 分母自由度是n 2 這與均值差檢驗(yàn)中的t相同經(jīng)過(guò)計(jì)算可知具有自由度n 2的t2值等于具有分子自由度為1和分母自由度為n 2的F值比較F表和t表也可以核實(shí)這一點(diǎn) 換言之 t是分子自由度為l的F的平方根這當(dāng)然意味著對(duì)于樣本而言此時(shí)不論采用方差分析或均值差檢驗(yàn) 其結(jié)果完全相同第四本節(jié)集中討論了自變量為一個(gè)定類變量而因變量為一個(gè)定距變量的情況如果對(duì)因變量Y影響的自變量由一個(gè)變?yōu)閮蓚€(gè)以上我們就將面對(duì)多元方差分析了總變差分解的思想可以直接推廣至多因素顯著性檢驗(yàn) 例如就兩個(gè)自變量 A和B 獨(dú)立對(duì)因變量Y影響的情況可以得到下述方差分析表表13 17 相關(guān)與回歸由于其廣泛應(yīng)用如今在統(tǒng)計(jì)學(xué)中是高度發(fā)展的分支之一而從實(shí)用的觀點(diǎn)來(lái)看線性關(guān)系是最簡(jiǎn)單也是最重要的一種關(guān)系本書(shū)第十二章已經(jīng)對(duì)積差系數(shù)與回歸直線作了比較細(xì)致的討論但有關(guān)假設(shè)檢驗(yàn)的內(nèi)容由于要借助于推論統(tǒng)計(jì)的知識(shí)方能闡明所以本書(shū)將這部分內(nèi)容集中放到這一節(jié)來(lái)加以補(bǔ)充學(xué)過(guò)推論統(tǒng)計(jì)的人要克制自己免受直線的誘惑對(duì)此討論回歸系數(shù)和積差系數(shù)之假設(shè)檢驗(yàn)將具有重要意義第四節(jié)回歸方程與相關(guān)系數(shù)的檢驗(yàn) 1 回歸系數(shù)的檢驗(yàn) 檢驗(yàn)兩個(gè)總體變量定距定距變量是否具有線性關(guān)系主要檢驗(yàn)總體的回歸系數(shù)B是否等于零因此對(duì)于總體線性檢驗(yàn)的假設(shè)可寫(xiě)成如下形式 H0 B 0H1 B 0 為了尋求檢驗(yàn)H0的方法我們需要對(duì)離差平方和進(jìn)行分解而這項(xiàng)工作前面已經(jīng)完成我們發(fā)現(xiàn) 估計(jì)Y 當(dāng)不知Y和X的關(guān)系時(shí) 對(duì)它的最佳估計(jì)值只能是離差之平方和總變差正是不知Y和X的關(guān)系時(shí) 估計(jì)Y的全部誤差E0 E0 SST 做了回歸預(yù)測(cè)之后我們可以用Yc估計(jì)Y 參見(jiàn)下圖這時(shí)估計(jì)Y的誤差變?yōu)镋1 剩余變差 E1 SSW 顯然利用Yc去估計(jì)Y比用去估計(jì)Y要消減一些誤差消減的誤差E0 E1就是被回歸直線解釋掉的誤差回歸變差從第十二章已經(jīng)討論過(guò)的回歸變差和剩余變差的意義來(lái)看一個(gè)回歸方程效果的好壞取決于它們兩者之間的比較已解釋的回歸變差越大用Yc去估計(jì)Y比用去估計(jì)Y消減的誤差就越多回歸預(yù)測(cè)的效果也就越好依此并按上一節(jié)方差分析的思想在H0成立的條件下檢驗(yàn)回歸直線的統(tǒng)計(jì)量可構(gòu)造為 E0 E1 Fo F 1 n 2 自由度問(wèn)題因回歸變差中僅含一個(gè)自變量X 故自由度為l 而總變差所含自由度為 n 1 從而由總自由度組內(nèi)自由度組間自由度得剩余變差的自由度為 n 2 對(duì)選定顯著性水平可查表得臨界值F 若出現(xiàn)Fo F 1 n 2 的情況則拒絕H0 即認(rèn)為回歸方程中X變量對(duì)Y的解釋力是顯著的若出現(xiàn)Fo F 1 n 2 的情況則不能拒絕H0 即認(rèn)為回歸方程中X變量對(duì)Y沒(méi)有的顯著的解釋力例對(duì) 例12 5 1 所建立的回歸方程進(jìn)行回歸直線的檢驗(yàn) 取0 05 解根據(jù)表12 22和例12 5 1 的計(jì)算結(jié)果可知 48 252 52 5 299 75 268 5a 0 475 b 0 975 n 12 299 75 0 475 52 5 0 975 268 5 13 02 0 975 2 252 57 04 計(jì)算檢驗(yàn)統(tǒng)計(jì)量Fo 43 81對(duì) 0 05 查F表得臨界值F 1 n 2 F0 05 1 10 4 96 43 81所以拒絕H0 即可以認(rèn)為對(duì)總體配置回歸直線是有意義的 2 積差系數(shù)的檢驗(yàn) 對(duì)于定距定距變量上一章討論的積差系數(shù)是就樣本而言的如同樣本均值成數(shù)不能完全代表總體均值成數(shù)一樣樣本積差系數(shù)r也不就是總體積差系數(shù) 但在社會(huì)研究中要想確切了解兩總體變量定距定距變量間的積差系數(shù)是很難的所以通常需要通過(guò)樣本積差系數(shù)的統(tǒng)計(jì)檢驗(yàn)來(lái)認(rèn)識(shí)總體的積差系數(shù) 設(shè)有兩變量X和Y 它們的積差系數(shù)記為當(dāng) 0時(shí) 表示X和Y不具有線性相關(guān)關(guān)系當(dāng) 0時(shí) 表示X和Y具有線性相關(guān)關(guān)系實(shí)踐證明樣本積差系數(shù)r值比較大時(shí) 并不等于總體積差系數(shù) 也比較大尤其是樣本中所含觀測(cè)值較少時(shí) 更可能出現(xiàn)這種情況例如當(dāng)X與Y各只有兩個(gè)樣本數(shù)據(jù)時(shí) 積差系數(shù)總是為1 但顯然這不能說(shuō)明變量間一定完全相關(guān) 也就是說(shuō) 有時(shí)即使樣本積差系數(shù)很大也并不一定就表明總體積差系數(shù) 也一定很大總體積差系數(shù) 的情況只有在對(duì)樣本積差系數(shù)進(jìn)行統(tǒng)計(jì)顯著性檢驗(yàn)后才能得出結(jié)論那么判斷線性相關(guān)的顯著與不顯著的檢驗(yàn)統(tǒng)計(jì)量如何構(gòu)造呢統(tǒng)計(jì)理論證明樣本積差系數(shù)是總體積差系數(shù)的一個(gè)無(wú)偏估計(jì)量有而且當(dāng) 0時(shí) 樣本容量越大 r 顯然為一隨機(jī)變量的抽樣分布越接近于自由度為n 2的t分布見(jiàn)前圖因而有檢驗(yàn)統(tǒng)計(jì)量 to r t n 2 積差系數(shù)檢驗(yàn)的假設(shè)為 H0 0 兩總體不具有線性相關(guān)關(guān)系 H1 0 兩總體具有線性相關(guān)關(guān)系對(duì)選定的顯著性水平查t分布表得臨界值t 2 n 2 與統(tǒng)計(jì)值to作比較若則表明r在統(tǒng)計(jì)上是顯著的即總體積差系數(shù)顯著地不同于零則說(shuō)明r在統(tǒng)計(jì)上不顯著即X與Y間并不存在線性相關(guān)關(guān)系例12 4 1 已對(duì)表12 21所示資料求出積差系數(shù) 試在0 05顯著性水平上作總體相關(guān)檢驗(yàn) 表12 21 解建立假設(shè)H0 0H1 0已知r 0 902 n 12 于是得to r 0 902 6 608對(duì) 0 05 查表得臨界值t 2 n 2 t0 025 10 2 228 6 608故拒絕H0 接受H1 即認(rèn)為員工的工齡和技術(shù)考核分之間存在線性相關(guān) 但是為了使用者的方便上述檢驗(yàn)現(xiàn)已簡(jiǎn)化為使用相關(guān)系數(shù)r進(jìn)行直接檢驗(yàn) 附表12是以r的抽樣分布編制的相關(guān)系數(shù)表只要給出顯著性水平和自由度k n 2 便可以在表中直接查出相應(yīng)的臨界值r n 2 解已知r 0 902 n 12 對(duì) 0 05 k 12 2 10 從附表12中查得r n 2 r 10 0 576 0 902故拒絕零假設(shè) 即在0 05顯著性水平上可以認(rèn)為員工的工齡和技術(shù)考核分之間存在線性相關(guān) 例用附表12直接對(duì)上例進(jìn)行積差系數(shù)檢驗(yàn) 小結(jié) 上一小節(jié) 我們講的是回歸系數(shù)的檢驗(yàn) 實(shí)際上那只是線性回歸方程的檢驗(yàn) 而這一小節(jié)討論積差系數(shù)的檢驗(yàn) 也是要確認(rèn)總體線性相關(guān)的存在因而假設(shè)H0 B 0與假設(shè)H0 0等價(jià) 也就是說(shuō) 如果樣本積差系數(shù)r通過(guò)了檢驗(yàn) t檢驗(yàn) 也必然導(dǎo)致回歸系數(shù)b能通過(guò)檢驗(yàn) F檢驗(yàn) 實(shí)際上F公式與t公式是有對(duì)應(yīng)關(guān)系的 Fo t2即具有自由度n 2的t2值等于具有分子自由度1和分母自由度n 2的F值也正是由于這個(gè)原因有的教科書(shū)就是用t統(tǒng)計(jì)量來(lái)檢驗(yàn)回假設(shè)的而如果有了r檢驗(yàn)表附表12 問(wèn)題就變得更為簡(jiǎn)單計(jì)算Fo值并進(jìn)行F檢驗(yàn)也都不必要了估計(jì)Y當(dāng)不知Y和X有關(guān)系時(shí) 對(duì)它的最佳估計(jì)值只能是估計(jì)的全部誤差是當(dāng)知道Y和X有關(guān)系時(shí) 可以改用Yc來(lái)估計(jì)Y 此時(shí)估計(jì)的誤差減少為當(dāng)知道Y和X有關(guān)系后用Yc來(lái)估計(jì)Y固然可以消減不少估計(jì)誤差這也不過(guò)是點(diǎn)估計(jì) 而如果我們能在擬合值Yc上下設(shè)置一個(gè)合適區(qū)間那么Y被估計(jì)到的可能性便會(huì)大大增加 3 回歸方程的區(qū)間估計(jì) 回歸方程區(qū)間估計(jì)提出的背景在回歸線兩側(cè)設(shè)置一個(gè)估計(jì)區(qū)間總是容易做到的但問(wèn)題是我們需要對(duì)估計(jì)的信度和效度作通盤(pán)考慮為此我們必須了解Y在Yc兩側(cè)的分布特征以及Y在Yc兩側(cè)的分散程度由于誤差為正態(tài)分布的原理即中心極限定理當(dāng)樣本容量n大于30時(shí) 我們可以作如下假定參見(jiàn)前圖 1 Y的實(shí)際觀測(cè)值在對(duì)應(yīng)的每個(gè)估計(jì)值Yc周?chē)际钦龖B(tài)分布越靠近Yc的地方 Y值出現(xiàn)的機(jī)會(huì)越多反之出現(xiàn)的機(jī)會(huì)越少 2 所

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

擬合優(yōu)度檢驗(yàn).ppt

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

擬合優(yōu)度檢驗(yàn).ppt

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔