第八章方差分析與回歸分析pu課件_第1頁(yè)
第八章方差分析與回歸分析pu課件_第2頁(yè)
第八章方差分析與回歸分析pu課件_第3頁(yè)
第八章方差分析與回歸分析pu課件_第4頁(yè)
第八章方差分析與回歸分析pu課件_第5頁(yè)
已閱讀5頁(yè),還剩109頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第八章方差分析與回歸分析單因素方差分析回歸分析的基本概念一元線性回歸模型的建立與檢驗(yàn)方差分析的概念與基本思想第八章方差分析與回歸分析單因素方差分析回歸分析的基本概念1

在工農(nóng)業(yè)生產(chǎn)和科研活動(dòng)中,我們經(jīng)常遇到這樣的問題:影響產(chǎn)品產(chǎn)量、質(zhì)量的因素很多,例如影響農(nóng)作物的單位面積產(chǎn)量有品種、施肥種類、施肥量等許多因素。我們要了解這些因素中哪些因素對(duì)產(chǎn)量有顯著影響,就要先做試驗(yàn),然后對(duì)測(cè)試結(jié)果進(jìn)行分析,作出判斷。方差分析就是分析測(cè)試結(jié)果的一種方法。引言在工農(nóng)業(yè)生產(chǎn)和科研活動(dòng)中,我們經(jīng)常遇到這樣的問題:影2基本概念試驗(yàn)指標(biāo)——試驗(yàn)結(jié)果。

可控因素——在影響試驗(yàn)結(jié)果的眾多因素中,可人為控制的因素。水平——可控因素所處的各種不同的狀態(tài)。每個(gè)水平又稱為試驗(yàn)的一個(gè)處理。單因素試驗(yàn)——如果在一項(xiàng)試驗(yàn)中只有一個(gè)因素改變,其它的可控因素不變,則該類試驗(yàn)稱為單因素試驗(yàn)?;靖拍钤囼?yàn)指標(biāo)——試驗(yàn)結(jié)果??煽匾蛩亍谟绊懺?引例例1(燈絲的配料方案優(yōu)選)某燈泡廠用四種配料方案制成的燈絲生產(chǎn)了四批燈泡,在每批燈泡中作隨機(jī)抽樣,測(cè)量其使用壽命(單位:小時(shí)),數(shù)據(jù)如下:燈泡壽命燈絲12345678甲1600161016501680170017201800乙15801640164017001750丙14601550160016201640174016601820丁151015201530157016801600引例例1(燈絲的配料方案優(yōu)選)某燈泡廠用四種配料方案制4試驗(yàn)指標(biāo)——燈泡的使用壽命可控因素(唯一的一個(gè))——燈絲的配料方案四個(gè)水平——四種配料方案(甲乙丙?。┮虼?,本例是一個(gè)四水平的單因素試驗(yàn)。引例用X1,X2,X3,X4分別表示四種燈泡的使用壽命,即為四個(gè)總體。假設(shè)X1,X2,X3,X4相互獨(dú)立,且服從方差相同的正態(tài)分布,即Xi~N(i,2)(i=1,2,3,4)本例問題歸結(jié)為檢驗(yàn)假設(shè)H0:1=2=3=4是否成立。

試驗(yàn)指標(biāo)——燈泡的使用壽命可控因素(唯一的一個(gè))——燈絲的5單因素方差分析的目的:通過試驗(yàn)數(shù)據(jù)來判斷因素A的不同水平對(duì)試驗(yàn)指標(biāo)是否有影響。設(shè)A表示欲考察的因素,它的個(gè)不同水平,對(duì)應(yīng)的指標(biāo)視作個(gè)總體每個(gè)水平下,我們作若干次重復(fù)試驗(yàn):(可等重復(fù)也可不等重復(fù)),同一水平的個(gè)結(jié)果,就是這個(gè)總體的一個(gè)樣本:?jiǎn)我蛩卦囼?yàn)的方差分析因此,相互獨(dú)立,且與同分布。單因素方差分析的目的:通過試驗(yàn)數(shù)據(jù)來判斷因素6單因素試驗(yàn)資料表其中諸可以不一樣,水平重復(fù)1...ni(水平組內(nèi)平均值)(總平均值)試驗(yàn)結(jié)果單因素試驗(yàn)資料表其中諸可以不一樣,水平重復(fù)1(7縱向個(gè)體間的差異稱為隨機(jī)誤差(組內(nèi)差異),由試驗(yàn)造成;橫向個(gè)體間的差異稱為系統(tǒng)誤差(組間差異),由因素的不同水平造成。品種重復(fù)123例:五個(gè)水稻品種單位產(chǎn)量的觀測(cè)值縱向個(gè)體間的差異稱為隨機(jī)誤差(組內(nèi)差異),由8由于同一水平下重復(fù)試驗(yàn)的個(gè)體差異是隨機(jī)誤差,所以設(shè):其中為試驗(yàn)誤差,相互獨(dú)立且服從正態(tài)分布方差分析的線性模型單因素試驗(yàn)的方差分析的數(shù)學(xué)模型具有方差齊性。相互獨(dú)立,從而各子樣也相互獨(dú)立。首先,我們作如下假設(shè):即由于同一水平下重復(fù)試驗(yàn)的個(gè)體差異是隨機(jī)誤差,所以設(shè):9令(其中)稱為一般平均值。稱為因素A的第個(gè)水平的效應(yīng)。則線性統(tǒng)計(jì)模型變成于是檢驗(yàn)假設(shè):等價(jià)于檢驗(yàn)假設(shè):顯然有:整個(gè)試驗(yàn)的均值令(其中10考察統(tǒng)計(jì)量經(jīng)恒等變形,可分解為:其中組間平方和(系統(tǒng)離差平方和)反映的是各水平平均值偏離總平均值的偏離程度。如果H0成立,則SSA較小。若H0成立,則總離差平方和考察統(tǒng)計(jì)量經(jīng)恒等變形,可分解為:其中組間平方和(系統(tǒng)離差平方11組內(nèi)平方和誤差平方和反映的是重復(fù)試驗(yàn)種隨機(jī)誤差的大小。組內(nèi)平方和反映的是重復(fù)試驗(yàn)種隨機(jī)誤差的大小。12若假設(shè)成立,則將的自由度分別記作則(記,稱作均方和)(各子樣同分布)若假設(shè)13則(記,稱作均方和)對(duì)給定的檢驗(yàn)水平,由得H0的拒絕域?yàn)椋篎單側(cè)檢驗(yàn)

結(jié)論:方差分析實(shí)質(zhì)上是假設(shè)檢驗(yàn),從分析離差平方和入手,找到F統(tǒng)計(jì)量,對(duì)同方差的多個(gè)正態(tài)總體的均值是否相等進(jìn)行假設(shè)檢驗(yàn)。單因素試驗(yàn)中兩個(gè)水平的均值檢驗(yàn)可用第七章的T檢驗(yàn)法。則(記14(1)若,則稱因素的差異極顯著(極有統(tǒng)計(jì)意義),或稱因素A的影響高度顯著,這時(shí)作標(biāo)記;約定(2)若,則稱因素的差異顯著(差異有統(tǒng)計(jì)意義),或稱因素A的影響顯著,作標(biāo)記;(3)若,則稱因素A有一定影響,作標(biāo)記();(4)若,則稱因素A無顯著影響(差異無統(tǒng)計(jì)意義)。注意:在方差分析表中,習(xí)慣于作如下規(guī)定:(1)若,則稱因素的差異極顯著15單因素試驗(yàn)方差分析表方差來源組間組內(nèi)總和平方和自由度均方和F值F值臨介值簡(jiǎn)便計(jì)算公式:其中同一水平下觀測(cè)值之和所以觀測(cè)值之和單因素試驗(yàn)方差分析表方差來源組間組內(nèi)總和平方和自由度均方和F16

例2以A、B、C三種飼料喂豬,得一個(gè)月后每豬所增體重(單位:500g)于下表,試作方差分析。飼料ABC增重514043482325262328解:例2以A、B、C三種飼料喂豬,得一個(gè)月17解:解:18不同的飼料對(duì)豬的體重的影響極有統(tǒng)計(jì)意義。方差分析表方差來源組間組內(nèi)總和平方和自由度均方和F值F值臨介值不同的飼料對(duì)豬的體重的影響極有統(tǒng)計(jì)意義。方差分析表方差來源組19定理在單因素方差分析模型中,有如果H0不成立,則所以,即H0不成立時(shí),有大于1的趨勢(shì)。所以H0為真時(shí)的小概率事件應(yīng)取在F值較大的一側(cè)。定理在單因素方差分析模型中,有如果H0不成立,則20多重比較法拒絕H0,接受H1,表示總體均數(shù)不全相等哪兩兩均數(shù)之間相等?哪兩兩均數(shù)之間不等?————>需要進(jìn)一步作多重比較。方差分析結(jié)果不拒絕H0,表示拒絕總體均數(shù)相等的證據(jù)不足,

————>分析終止。

常用多重比較法最小顯著差數(shù)法(Leastsignificantdifference,簡(jiǎn)稱LSD法)多重比較法拒絕H0,接受H1,表示總體均數(shù)不全相等方差分析21q法(又稱SNK(student-Newman-Keuls)檢驗(yàn)法)q測(cè)驗(yàn)方法是將r個(gè)平均數(shù)由大到小排列后,根據(jù)所比較的兩個(gè)處理平均數(shù)的差數(shù)是幾個(gè)平均數(shù)間的極差分別確定最小顯著極差LSRα值的。q法(又稱SNK(student-Newman-Keul22Tukey法(又稱honestlysignificantdifference,簡(jiǎn)稱HSD

)Tukey法(又稱honestlysignificant23

回歸這一術(shù)語是1886年英國(guó)生物學(xué)家高爾頓在研究遺傳現(xiàn)象時(shí)引進(jìn)的.

他發(fā)現(xiàn):雖然高個(gè)子的先代會(huì)有高個(gè)子的后代,但后代的增高并不與先代的增高等量.他稱這一現(xiàn)象為“向平常高度的回歸”.一回歸分析的基本概念回歸這一術(shù)語是1886年英國(guó)生物學(xué)家高爾頓在24爾后,他的朋友麥爾遜等人搜集了上千個(gè)家庭成員的身高數(shù)據(jù):y=0.516x+33.73(英寸)分析出兒子的身高y和父親的身高x大致為如下關(guān)系:1英寸=2.54cm

爾后,他的朋友麥爾遜等人搜集了上千個(gè)家庭成員的身25這意味著,若父親身高超過父代平均身高6英寸,那么其兒子的身高大約只超過子代平均身高3英寸,可見有向平均值返回的趨勢(shì).

如今對(duì)回歸這一概念的理解并不是高爾頓的原意,但這一名詞卻一直沿用下來,成為統(tǒng)計(jì)學(xué)中最常用的概念之一.6英寸3英寸這意味著,若父親身高超過父代平均身高6英26在現(xiàn)實(shí)問題中,處于同一個(gè)過程中的一些變量,往往是相互依賴和相互制約的,它們之間的相互關(guān)系大致可分為兩種:相關(guān)關(guān)系問題(1)確定性關(guān)系——函數(shù)關(guān)系;(2)非確定性關(guān)系——相關(guān)關(guān)系;相關(guān)關(guān)系表現(xiàn)為這些變量之間有一定的依賴關(guān)系,但這種關(guān)系并不完全確定,它們之間的關(guān)系不能精確地用函數(shù)表示出來,這些變量其實(shí)是隨機(jī)變量,或至少有一個(gè)是隨機(jī)變量。在現(xiàn)實(shí)問題中,處于同一個(gè)過程中的一些變量,往往是相互27類似的變量間的關(guān)系在大自然和社會(huì)中屢見不鮮.

例如,小麥的穗長(zhǎng)與穗重的關(guān)系;某班學(xué)生最后一次考試分?jǐn)?shù)與第一次考試分?jǐn)?shù)的關(guān)系;溫度、降雨量與農(nóng)作物產(chǎn)量間的關(guān)系;人的年齡與血壓的關(guān)系;最大積雪深度與灌溉面積間的關(guān)系;家庭收入與支出的關(guān)系等等.類似的變量間的關(guān)系在大自然和社會(huì)中屢見不鮮.28函數(shù)關(guān)系與相關(guān)關(guān)系的區(qū)別相關(guān)關(guān)系——影響的值,不能確定。函數(shù)關(guān)系——決定的值,因此,統(tǒng)計(jì)學(xué)上討論兩變量的相關(guān)關(guān)系時(shí),是設(shè)法確定:在給定自變量的條件下,因變量的條件數(shù)學(xué)期望函數(shù)關(guān)系與相關(guān)關(guān)系的區(qū)別相關(guān)關(guān)系——影響的值,不能確定。函29回歸分析的概念研究一個(gè)隨機(jī)變量與一個(gè)(或幾個(gè))可控變量之間的相關(guān)關(guān)系的統(tǒng)計(jì)方法稱為回歸分析。只有一個(gè)自變量的回歸分析稱為一元回歸分析;多于一個(gè)自變量的回歸分析稱為多元回歸分析。引進(jìn)回歸函數(shù)稱為回歸方程回歸方程反映了因變量隨自變量的變化而變化的平均變化情況.回歸分析的概念研究一個(gè)隨機(jī)變量與一個(gè)(或幾個(gè))可控變30

在這一講里,我們主要討論的是一元線性回歸.它是處理兩個(gè)變量之間關(guān)系的最簡(jiǎn)單的模型.它雖然比較簡(jiǎn)單,但我們從中可以了解到回歸分析的基本思想、方法和應(yīng)用.一元線性回歸一元線性回歸一元線性回歸在這一講里,我們主要討論的是一元線性回歸.31

為了估計(jì)山上積雪融化后對(duì)下游灌溉的影響,在山上建立了一個(gè)觀測(cè)站,測(cè)量了最大積雪深度x與當(dāng)年灌溉面積y,得到連續(xù)10年的數(shù)據(jù)如下表:

讓我們用一個(gè)例子來說明如何建立一元線性回歸方程.為了估計(jì)山上積雪融化后對(duì)下游灌溉的影響,32年序最大積雪深度x(米)灌溉面積y(公頃)15.1190723.5128737.1269346.2237358.8326067.8300074.5194785.6227398.03113106.42493年序最大積雪深度x(米)灌溉面積y33為了研究這些數(shù)據(jù)中所蘊(yùn)含的規(guī)律性,我們由10對(duì)數(shù)據(jù)作出散點(diǎn)圖.

從圖看到,數(shù)據(jù)點(diǎn)大致落在一條直線附近,這告訴我們變量x和y之間大致可看作線性關(guān)系.yxo4000300020001000246810···········從圖中還看到,這些點(diǎn)又不完全在一條直線上,這表明x和y的關(guān)系并沒有確切到給定x就可以唯一確定y的程度.為了研究這些數(shù)據(jù)中所蘊(yùn)含的規(guī)律性,我們由10對(duì)34

事實(shí)上,還有許多其它因素對(duì)y產(chǎn)生影響,如當(dāng)年的平均氣溫、當(dāng)年的降雨量等等,都是影響y取什么值的隨機(jī)因素.事實(shí)上,還有許多其它因素對(duì)y產(chǎn)生影響,35一元線性回歸模型如果試驗(yàn)的散點(diǎn)圖如下圖呈直線狀設(shè)隨機(jī)變量Y依賴于自變量x,作n次獨(dú)立試驗(yàn),得n對(duì)觀測(cè)值:稱這n對(duì)觀測(cè)值為容量為n的一個(gè)子樣,若把這n對(duì)觀測(cè)值在平面直角坐標(biāo)系中描點(diǎn),得到試驗(yàn)的散點(diǎn)圖.一元線性回歸模型如果試驗(yàn)的散點(diǎn)圖如下圖呈直線狀36其中同服從于正態(tài)分布相互獨(dú)立,因此圖8-1則設(shè)其中同服從于正態(tài)分布相互獨(dú)立,因此圖8-1則設(shè)37其中是與無關(guān)的未知常數(shù)。(9.1)一元線性回歸模型一般地,稱如下數(shù)學(xué)模型為一元線性模型而稱為回歸函數(shù)或回歸方程。稱為回歸系數(shù)。其中是與無關(guān)的未知常數(shù)。(9.138回歸函數(shù)(方程)的建立由觀測(cè)值確定的回歸函數(shù),應(yīng)使得較小??紤]函數(shù)問題:確定,使得取得極小值。這是一個(gè)二元函數(shù)的無條件極值問題?;貧w函數(shù)(方程)的建立由觀測(cè)值39回歸方程的建立令回歸方程的建立令40回歸方程的建立記表示對(duì)的估計(jì)值則變量對(duì)的回歸方程為最小二乘法回歸方程的建立記表示對(duì)的估計(jì)值則變量41回歸方程有效性的檢驗(yàn)對(duì)于任何一組數(shù)據(jù),都可按最小二乘法確定一個(gè)線性函數(shù),但變量與之間是否真有近似于線性函數(shù)的相關(guān)關(guān)系呢?尚需進(jìn)行假設(shè)檢驗(yàn)。假設(shè)如果成立,則不能認(rèn)為與有線性相關(guān)關(guān)系。三種檢驗(yàn)方法:F檢驗(yàn)法、t-檢驗(yàn)法、r檢驗(yàn)法?;貧w方程有效性的檢驗(yàn)對(duì)于任何一組數(shù)據(jù)42回歸方程有效性的F檢驗(yàn)法記——總離差平方和,反映觀測(cè)值與平均值的偏差程度。經(jīng)恒等變形,將分解回歸方程有效性的F檢驗(yàn)法記——總離差平方和,反映觀43——回歸平方和,反映回歸值與平均值的偏差,揭示變量與的線性關(guān)系所引起的數(shù)據(jù)波動(dòng)。——剩余平方和,反映觀測(cè)值與回歸值的偏差,揭示試驗(yàn)誤差和非線性關(guān)系對(duì)試驗(yàn)結(jié)果所引起的數(shù)據(jù)波動(dòng)。——回歸平方和,反映回歸值與平均值的偏差,揭示——剩余平方和44如果為真,則于是,統(tǒng)計(jì)量對(duì)給定的檢驗(yàn)水平,(1)當(dāng)時(shí),拒絕,即可認(rèn)為變量與有線性相關(guān)關(guān)系;(2)當(dāng)時(shí),接受,即可認(rèn)為變量與沒有線性相關(guān)關(guān)系;如果為真,則于是,統(tǒng)計(jì)量對(duì)給45此時(shí),可能有以下幾種情況:(2)對(duì)有顯著影響,但這種影響不能用線性關(guān)系表示,應(yīng)作非線性回歸;(3)除之外,還有其它變量對(duì)也有顯著影響,從而削弱了對(duì)的影響,應(yīng)考慮多元回歸。(1)對(duì)沒有顯著影響,應(yīng)丟棄自變量;此時(shí),可能有以下幾種情況:(2)對(duì)有顯著影響,但46回歸方程有效性的r檢驗(yàn)法記——樣本的相關(guān)系數(shù)可反映變量與之間的線性相關(guān)程度。因?yàn)榛貧w方程有效性的r檢驗(yàn)法記——樣本的相關(guān)系數(shù)47回歸方程有效性的r檢驗(yàn)法記——樣本的相關(guān)系數(shù)越大,變量與之間的線性相關(guān)程度越強(qiáng)。因?yàn)椋?)(2)時(shí),(3)時(shí),與有線性相關(guān)關(guān)系;與無線性相關(guān)關(guān)系;回歸方程有效性的r檢驗(yàn)法記——樣本的相關(guān)系數(shù)48計(jì)算對(duì)給定的檢驗(yàn)水平,查相關(guān)系數(shù)的臨界值表如果,則拒絕,即線性回歸方程有效;否則,接受,即線性回歸方程無效。計(jì)算對(duì)給定的檢驗(yàn)水平,查相關(guān)系數(shù)的臨界值表49回歸方程有效性的t檢驗(yàn)法統(tǒng)計(jì)量H0成立時(shí),對(duì)給定的檢驗(yàn)水平,H0的拒絕域?yàn)榧串?dāng)時(shí),變量與有線性相關(guān)關(guān)系?;貧w方程有效性的t檢驗(yàn)法統(tǒng)計(jì)量H0成立時(shí),對(duì)給50編號(hào)123456789脂肪含量%15.417.518.920.021.022.815.817.819.1蛋白質(zhì)含量%44.039.241.838.937.438.144.640.739.8試求出與的關(guān)系,并判斷是否有效。例1為了研究大豆脂肪含量和蛋白質(zhì)含量的關(guān)系,測(cè)定了九種大豆品種籽粒內(nèi)的脂肪含量和蛋白質(zhì)含量,得到如下數(shù)據(jù)編號(hào)123456789脂肪含量%15.417.518.92051解(1)描散點(diǎn)圖解(1)描散點(diǎn)圖52(2)建立模型由散點(diǎn)圖,設(shè)變量與為線性相關(guān)關(guān)系:確定回歸系數(shù)和:編號(hào)123456789x15.417.518.920.021.022.815.817.819.1168.3y44.039.241.838.937.438.144.640.739.8364.5x2237.16306.25357.21400441519.84249.64316.84364.813192.75y219361536.641747.241513.211398.761451.611989.161656.491584.0414813.2xy677.6686790.02778785.4868.68704.68724.46760.186775.02(2)建立模型由散點(diǎn)圖,設(shè)變量與為線性相關(guān)關(guān)系:53所以,所求的回歸方程為所以,所求的回歸方程為54(3)檢驗(yàn)回歸方程的有效性查相關(guān)系數(shù)臨界值表因?yàn)樗曰貧w方程在的檢驗(yàn)水平下有統(tǒng)計(jì)意義。即可以認(rèn)為大豆的蛋白質(zhì)含量與脂肪含量有線性相關(guān)性。(3)檢驗(yàn)回歸方程的有效性查相關(guān)系數(shù)臨界值表因?yàn)?5利用回歸方程進(jìn)行預(yù)測(cè)1、點(diǎn)預(yù)測(cè)時(shí),即為的點(diǎn)預(yù)測(cè)值。2、區(qū)間預(yù)測(cè)統(tǒng)計(jì)量對(duì)給定的置信水平,的預(yù)測(cè)區(qū)間為利用回歸方程進(jìn)行預(yù)測(cè)1、點(diǎn)預(yù)測(cè)時(shí),56續(xù)例1求大豆脂肪含量為18.6%的條件下蛋白質(zhì)95%的預(yù)測(cè)區(qū)間。解由已求得的回歸方程得蛋白質(zhì)的點(diǎn)預(yù)測(cè)值為所以脂肪含量為18.6%時(shí),蛋白質(zhì)的95%的預(yù)測(cè)區(qū)間為利用回歸方程進(jìn)行預(yù)測(cè)續(xù)例1求大豆脂肪含量為18.6%的條件下蛋白質(zhì)解57第八章方差分析與回歸分析單因素方差分析回歸分析的基本概念一元線性回歸模型的建立與檢驗(yàn)方差分析的概念與基本思想第八章方差分析與回歸分析單因素方差分析回歸分析的基本概念58

在工農(nóng)業(yè)生產(chǎn)和科研活動(dòng)中,我們經(jīng)常遇到這樣的問題:影響產(chǎn)品產(chǎn)量、質(zhì)量的因素很多,例如影響農(nóng)作物的單位面積產(chǎn)量有品種、施肥種類、施肥量等許多因素。我們要了解這些因素中哪些因素對(duì)產(chǎn)量有顯著影響,就要先做試驗(yàn),然后對(duì)測(cè)試結(jié)果進(jìn)行分析,作出判斷。方差分析就是分析測(cè)試結(jié)果的一種方法。引言在工農(nóng)業(yè)生產(chǎn)和科研活動(dòng)中,我們經(jīng)常遇到這樣的問題:影59基本概念試驗(yàn)指標(biāo)——試驗(yàn)結(jié)果。

可控因素——在影響試驗(yàn)結(jié)果的眾多因素中,可人為控制的因素。水平——可控因素所處的各種不同的狀態(tài)。每個(gè)水平又稱為試驗(yàn)的一個(gè)處理。單因素試驗(yàn)——如果在一項(xiàng)試驗(yàn)中只有一個(gè)因素改變,其它的可控因素不變,則該類試驗(yàn)稱為單因素試驗(yàn)?;靖拍钤囼?yàn)指標(biāo)——試驗(yàn)結(jié)果??煽匾蛩亍谟绊懺?0引例例1(燈絲的配料方案優(yōu)選)某燈泡廠用四種配料方案制成的燈絲生產(chǎn)了四批燈泡,在每批燈泡中作隨機(jī)抽樣,測(cè)量其使用壽命(單位:小時(shí)),數(shù)據(jù)如下:燈泡壽命燈絲12345678甲1600161016501680170017201800乙15801640164017001750丙14601550160016201640174016601820丁151015201530157016801600引例例1(燈絲的配料方案優(yōu)選)某燈泡廠用四種配料方案制61試驗(yàn)指標(biāo)——燈泡的使用壽命可控因素(唯一的一個(gè))——燈絲的配料方案四個(gè)水平——四種配料方案(甲乙丙?。┮虼?,本例是一個(gè)四水平的單因素試驗(yàn)。引例用X1,X2,X3,X4分別表示四種燈泡的使用壽命,即為四個(gè)總體。假設(shè)X1,X2,X3,X4相互獨(dú)立,且服從方差相同的正態(tài)分布,即Xi~N(i,2)(i=1,2,3,4)本例問題歸結(jié)為檢驗(yàn)假設(shè)H0:1=2=3=4是否成立。

試驗(yàn)指標(biāo)——燈泡的使用壽命可控因素(唯一的一個(gè))——燈絲的62單因素方差分析的目的:通過試驗(yàn)數(shù)據(jù)來判斷因素A的不同水平對(duì)試驗(yàn)指標(biāo)是否有影響。設(shè)A表示欲考察的因素,它的個(gè)不同水平,對(duì)應(yīng)的指標(biāo)視作個(gè)總體每個(gè)水平下,我們作若干次重復(fù)試驗(yàn):(可等重復(fù)也可不等重復(fù)),同一水平的個(gè)結(jié)果,就是這個(gè)總體的一個(gè)樣本:?jiǎn)我蛩卦囼?yàn)的方差分析因此,相互獨(dú)立,且與同分布。單因素方差分析的目的:通過試驗(yàn)數(shù)據(jù)來判斷因素63單因素試驗(yàn)資料表其中諸可以不一樣,水平重復(fù)1...ni(水平組內(nèi)平均值)(總平均值)試驗(yàn)結(jié)果單因素試驗(yàn)資料表其中諸可以不一樣,水平重復(fù)1(64縱向個(gè)體間的差異稱為隨機(jī)誤差(組內(nèi)差異),由試驗(yàn)造成;橫向個(gè)體間的差異稱為系統(tǒng)誤差(組間差異),由因素的不同水平造成。品種重復(fù)123例:五個(gè)水稻品種單位產(chǎn)量的觀測(cè)值縱向個(gè)體間的差異稱為隨機(jī)誤差(組內(nèi)差異),由65由于同一水平下重復(fù)試驗(yàn)的個(gè)體差異是隨機(jī)誤差,所以設(shè):其中為試驗(yàn)誤差,相互獨(dú)立且服從正態(tài)分布方差分析的線性模型單因素試驗(yàn)的方差分析的數(shù)學(xué)模型具有方差齊性。相互獨(dú)立,從而各子樣也相互獨(dú)立。首先,我們作如下假設(shè):即由于同一水平下重復(fù)試驗(yàn)的個(gè)體差異是隨機(jī)誤差,所以設(shè):66令(其中)稱為一般平均值。稱為因素A的第個(gè)水平的效應(yīng)。則線性統(tǒng)計(jì)模型變成于是檢驗(yàn)假設(shè):等價(jià)于檢驗(yàn)假設(shè):顯然有:整個(gè)試驗(yàn)的均值令(其中67考察統(tǒng)計(jì)量經(jīng)恒等變形,可分解為:其中組間平方和(系統(tǒng)離差平方和)反映的是各水平平均值偏離總平均值的偏離程度。如果H0成立,則SSA較小。若H0成立,則總離差平方和考察統(tǒng)計(jì)量經(jīng)恒等變形,可分解為:其中組間平方和(系統(tǒng)離差平方68組內(nèi)平方和誤差平方和反映的是重復(fù)試驗(yàn)種隨機(jī)誤差的大小。組內(nèi)平方和反映的是重復(fù)試驗(yàn)種隨機(jī)誤差的大小。69若假設(shè)成立,則將的自由度分別記作則(記,稱作均方和)(各子樣同分布)若假設(shè)70則(記,稱作均方和)對(duì)給定的檢驗(yàn)水平,由得H0的拒絕域?yàn)椋篎單側(cè)檢驗(yàn)

結(jié)論:方差分析實(shí)質(zhì)上是假設(shè)檢驗(yàn),從分析離差平方和入手,找到F統(tǒng)計(jì)量,對(duì)同方差的多個(gè)正態(tài)總體的均值是否相等進(jìn)行假設(shè)檢驗(yàn)。單因素試驗(yàn)中兩個(gè)水平的均值檢驗(yàn)可用第七章的T檢驗(yàn)法。則(記71(1)若,則稱因素的差異極顯著(極有統(tǒng)計(jì)意義),或稱因素A的影響高度顯著,這時(shí)作標(biāo)記;約定(2)若,則稱因素的差異顯著(差異有統(tǒng)計(jì)意義),或稱因素A的影響顯著,作標(biāo)記;(3)若,則稱因素A有一定影響,作標(biāo)記();(4)若,則稱因素A無顯著影響(差異無統(tǒng)計(jì)意義)。注意:在方差分析表中,習(xí)慣于作如下規(guī)定:(1)若,則稱因素的差異極顯著72單因素試驗(yàn)方差分析表方差來源組間組內(nèi)總和平方和自由度均方和F值F值臨介值簡(jiǎn)便計(jì)算公式:其中同一水平下觀測(cè)值之和所以觀測(cè)值之和單因素試驗(yàn)方差分析表方差來源組間組內(nèi)總和平方和自由度均方和F73

例2以A、B、C三種飼料喂豬,得一個(gè)月后每豬所增體重(單位:500g)于下表,試作方差分析。飼料ABC增重514043482325262328解:例2以A、B、C三種飼料喂豬,得一個(gè)月74解:解:75不同的飼料對(duì)豬的體重的影響極有統(tǒng)計(jì)意義。方差分析表方差來源組間組內(nèi)總和平方和自由度均方和F值F值臨介值不同的飼料對(duì)豬的體重的影響極有統(tǒng)計(jì)意義。方差分析表方差來源組76定理在單因素方差分析模型中,有如果H0不成立,則所以,即H0不成立時(shí),有大于1的趨勢(shì)。所以H0為真時(shí)的小概率事件應(yīng)取在F值較大的一側(cè)。定理在單因素方差分析模型中,有如果H0不成立,則77多重比較法拒絕H0,接受H1,表示總體均數(shù)不全相等哪兩兩均數(shù)之間相等?哪兩兩均數(shù)之間不等?————>需要進(jìn)一步作多重比較。方差分析結(jié)果不拒絕H0,表示拒絕總體均數(shù)相等的證據(jù)不足,

————>分析終止。

常用多重比較法最小顯著差數(shù)法(Leastsignificantdifference,簡(jiǎn)稱LSD法)多重比較法拒絕H0,接受H1,表示總體均數(shù)不全相等方差分析78q法(又稱SNK(student-Newman-Keuls)檢驗(yàn)法)q測(cè)驗(yàn)方法是將r個(gè)平均數(shù)由大到小排列后,根據(jù)所比較的兩個(gè)處理平均數(shù)的差數(shù)是幾個(gè)平均數(shù)間的極差分別確定最小顯著極差LSRα值的。q法(又稱SNK(student-Newman-Keul79Tukey法(又稱honestlysignificantdifference,簡(jiǎn)稱HSD

)Tukey法(又稱honestlysignificant80

回歸這一術(shù)語是1886年英國(guó)生物學(xué)家高爾頓在研究遺傳現(xiàn)象時(shí)引進(jìn)的.

他發(fā)現(xiàn):雖然高個(gè)子的先代會(huì)有高個(gè)子的后代,但后代的增高并不與先代的增高等量.他稱這一現(xiàn)象為“向平常高度的回歸”.一回歸分析的基本概念回歸這一術(shù)語是1886年英國(guó)生物學(xué)家高爾頓在81爾后,他的朋友麥爾遜等人搜集了上千個(gè)家庭成員的身高數(shù)據(jù):y=0.516x+33.73(英寸)分析出兒子的身高y和父親的身高x大致為如下關(guān)系:1英寸=2.54cm

爾后,他的朋友麥爾遜等人搜集了上千個(gè)家庭成員的身82這意味著,若父親身高超過父代平均身高6英寸,那么其兒子的身高大約只超過子代平均身高3英寸,可見有向平均值返回的趨勢(shì).

如今對(duì)回歸這一概念的理解并不是高爾頓的原意,但這一名詞卻一直沿用下來,成為統(tǒng)計(jì)學(xué)中最常用的概念之一.6英寸3英寸這意味著,若父親身高超過父代平均身高6英83在現(xiàn)實(shí)問題中,處于同一個(gè)過程中的一些變量,往往是相互依賴和相互制約的,它們之間的相互關(guān)系大致可分為兩種:相關(guān)關(guān)系問題(1)確定性關(guān)系——函數(shù)關(guān)系;(2)非確定性關(guān)系——相關(guān)關(guān)系;相關(guān)關(guān)系表現(xiàn)為這些變量之間有一定的依賴關(guān)系,但這種關(guān)系并不完全確定,它們之間的關(guān)系不能精確地用函數(shù)表示出來,這些變量其實(shí)是隨機(jī)變量,或至少有一個(gè)是隨機(jī)變量。在現(xiàn)實(shí)問題中,處于同一個(gè)過程中的一些變量,往往是相互84類似的變量間的關(guān)系在大自然和社會(huì)中屢見不鮮.

例如,小麥的穗長(zhǎng)與穗重的關(guān)系;某班學(xué)生最后一次考試分?jǐn)?shù)與第一次考試分?jǐn)?shù)的關(guān)系;溫度、降雨量與農(nóng)作物產(chǎn)量間的關(guān)系;人的年齡與血壓的關(guān)系;最大積雪深度與灌溉面積間的關(guān)系;家庭收入與支出的關(guān)系等等.類似的變量間的關(guān)系在大自然和社會(huì)中屢見不鮮.85函數(shù)關(guān)系與相關(guān)關(guān)系的區(qū)別相關(guān)關(guān)系——影響的值,不能確定。函數(shù)關(guān)系——決定的值,因此,統(tǒng)計(jì)學(xué)上討論兩變量的相關(guān)關(guān)系時(shí),是設(shè)法確定:在給定自變量的條件下,因變量的條件數(shù)學(xué)期望函數(shù)關(guān)系與相關(guān)關(guān)系的區(qū)別相關(guān)關(guān)系——影響的值,不能確定。函86回歸分析的概念研究一個(gè)隨機(jī)變量與一個(gè)(或幾個(gè))可控變量之間的相關(guān)關(guān)系的統(tǒng)計(jì)方法稱為回歸分析。只有一個(gè)自變量的回歸分析稱為一元回歸分析;多于一個(gè)自變量的回歸分析稱為多元回歸分析。引進(jìn)回歸函數(shù)稱為回歸方程回歸方程反映了因變量隨自變量的變化而變化的平均變化情況.回歸分析的概念研究一個(gè)隨機(jī)變量與一個(gè)(或幾個(gè))可控變87

在這一講里,我們主要討論的是一元線性回歸.它是處理兩個(gè)變量之間關(guān)系的最簡(jiǎn)單的模型.它雖然比較簡(jiǎn)單,但我們從中可以了解到回歸分析的基本思想、方法和應(yīng)用.一元線性回歸一元線性回歸一元線性回歸在這一講里,我們主要討論的是一元線性回歸.88

為了估計(jì)山上積雪融化后對(duì)下游灌溉的影響,在山上建立了一個(gè)觀測(cè)站,測(cè)量了最大積雪深度x與當(dāng)年灌溉面積y,得到連續(xù)10年的數(shù)據(jù)如下表:

讓我們用一個(gè)例子來說明如何建立一元線性回歸方程.為了估計(jì)山上積雪融化后對(duì)下游灌溉的影響,89年序最大積雪深度x(米)灌溉面積y(公頃)15.1190723.5128737.1269346.2237358.8326067.8300074.5194785.6227398.03113106.42493年序最大積雪深度x(米)灌溉面積y90為了研究這些數(shù)據(jù)中所蘊(yùn)含的規(guī)律性,我們由10對(duì)數(shù)據(jù)作出散點(diǎn)圖.

從圖看到,數(shù)據(jù)點(diǎn)大致落在一條直線附近,這告訴我們變量x和y之間大致可看作線性關(guān)系.yxo4000300020001000246810···········從圖中還看到,這些點(diǎn)又不完全在一條直線上,這表明x和y的關(guān)系并沒有確切到給定x就可以唯一確定y的程度.為了研究這些數(shù)據(jù)中所蘊(yùn)含的規(guī)律性,我們由10對(duì)91

事實(shí)上,還有許多其它因素對(duì)y產(chǎn)生影響,如當(dāng)年的平均氣溫、當(dāng)年的降雨量等等,都是影響y取什么值的隨機(jī)因素.事實(shí)上,還有許多其它因素對(duì)y產(chǎn)生影響,92一元線性回歸模型如果試驗(yàn)的散點(diǎn)圖如下圖呈直線狀設(shè)隨機(jī)變量Y依賴于自變量x,作n次獨(dú)立試驗(yàn),得n對(duì)觀測(cè)值:稱這n對(duì)觀測(cè)值為容量為n的一個(gè)子樣,若把這n對(duì)觀測(cè)值在平面直角坐標(biāo)系中描點(diǎn),得到試驗(yàn)的散點(diǎn)圖.一元線性回歸模型如果試驗(yàn)的散點(diǎn)圖如下圖呈直線狀93其中同服從于正態(tài)分布相互獨(dú)立,因此圖8-1則設(shè)其中同服從于正態(tài)分布相互獨(dú)立,因此圖8-1則設(shè)94其中是與無關(guān)的未知常數(shù)。(9.1)一元線性回歸模型一般地,稱如下數(shù)學(xué)模型為一元線性模型而稱為回歸函數(shù)或回歸方程。稱為回歸系數(shù)。其中是與無關(guān)的未知常數(shù)。(9.195回歸函數(shù)(方程)的建立由觀測(cè)值確定的回歸函數(shù),應(yīng)使得較小??紤]函數(shù)問題:確定,使得取得極小值。這是一個(gè)二元函數(shù)的無條件極值問題?;貧w函數(shù)(方程)的建立由觀測(cè)值96回歸方程的建立令回歸方程的建立令97回歸方程的建立記表示對(duì)的估計(jì)值則變量對(duì)的回歸方程為最小二乘法回歸方程的建立記表示對(duì)的估計(jì)值則變量98回歸方程有效性的檢驗(yàn)對(duì)于任何一組數(shù)據(jù),都可按最小二乘法確定一個(gè)線性函數(shù),但變量與之間是否真有近似于線性函數(shù)的相關(guān)關(guān)系呢?尚需進(jìn)行假設(shè)檢驗(yàn)。假設(shè)如果成立,則不能認(rèn)為與有線性相關(guān)關(guān)系。三種檢驗(yàn)方法:F檢驗(yàn)法、t-檢驗(yàn)法、r檢驗(yàn)法?;貧w方程有效性的檢驗(yàn)對(duì)于任何一組數(shù)據(jù)99回歸方程有效性的F檢驗(yàn)法記——總離差平方和,反映觀測(cè)值與平均值的偏差程度。經(jīng)恒等變形,將分解回歸方程有效性的F檢驗(yàn)法記——總離差平方和,反映觀100——回歸平方和,反映回歸值與平均值的偏差,揭示變量與的線性關(guān)系所引起的數(shù)據(jù)波動(dòng)?!S嗥椒胶?,反映觀測(cè)值與回歸值的偏差,揭示試驗(yàn)誤差和非線性關(guān)系對(duì)試驗(yàn)結(jié)果所引起的數(shù)據(jù)波動(dòng)?!貧w平方和,反映回歸值與平均值的偏差,揭示——剩余平方和101如果為真,則于是,統(tǒng)計(jì)量對(duì)給定的檢驗(yàn)水平,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論