版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第三章第三章 次數(shù)分布和平均數(shù)、變異數(shù)次數(shù)分布和平均數(shù)、變異數(shù)第一節(jié)第一節(jié) 總體及其樣本總體及其樣本第二節(jié)第二節(jié) 次數(shù)分布次數(shù)分布第三節(jié)第三節(jié) 平均數(shù)平均數(shù)第四節(jié)第四節(jié) 變異數(shù)變異數(shù)第一節(jié)第一節(jié) 總體與樣本總體與樣本1. 1.數(shù)據(jù)的變異和趨中性數(shù)據(jù)的變異和趨中性 數(shù)據(jù)數(shù)據(jù)(data):在科學(xué)試驗(yàn)或調(diào)查過程中,對在科學(xué)試驗(yàn)或調(diào)查過程中,對研究對象的某些特征、特性進(jìn)行觀察記載得到的數(shù)研究對象的某些特征、特性進(jìn)行觀察記載得到的數(shù)字資料的總稱。字資料的總稱。 數(shù)據(jù)是千差萬別,各不相同,這就是數(shù)據(jù)的數(shù)據(jù)是千差萬別,各不相同,這就是數(shù)據(jù)的變異變異性性,也是數(shù)據(jù)的最基本特征。,也是數(shù)據(jù)的最基本特征。 數(shù)據(jù)除
2、了變異的特征外,還具有數(shù)據(jù)除了變異的特征外,還具有趨中性趨中性,即一,即一組數(shù)據(jù)中數(shù)字位于平均數(shù)附近的分布較多,離平均組數(shù)據(jù)中數(shù)字位于平均數(shù)附近的分布較多,離平均數(shù)越遠(yuǎn),分布越少。數(shù)越遠(yuǎn),分布越少。2. 2.變數(shù)和變量變數(shù)和變量 變數(shù)(變數(shù)(variable):相同性質(zhì)的事物間表現(xiàn)變異相同性質(zhì)的事物間表現(xiàn)變異性或變異特征的數(shù)據(jù)。性或變異特征的數(shù)據(jù)。如作物的株高、抽穗期、穗如作物的株高、抽穗期、穗粒數(shù)、產(chǎn)量,植株的害蟲頭數(shù)、發(fā)病率等。粒數(shù)、產(chǎn)量,植株的害蟲頭數(shù)、發(fā)病率等。 變數(shù)的某一具體數(shù)值稱為變數(shù)的某一具體數(shù)值稱為變量變量(variatevariate)或或觀測觀測值值(observed va
3、lueobserved value),用英文大寫字母表示,并附),用英文大寫字母表示,并附下角碼。如有一個(gè)變數(shù),用下角碼。如有一個(gè)變數(shù),用y表示,表示,yi 表示某一具表示某一具體觀測值;如有多個(gè)變數(shù),可分別用體觀測值;如有多個(gè)變數(shù),可分別用X、Y、Z等表等表示。示。變數(shù)變數(shù) 連續(xù)性變數(shù)連續(xù)性變數(shù)是指觀測值在一定范圍內(nèi)可以取任何是指觀測值在一定范圍內(nèi)可以取任何一個(gè)數(shù)值,一個(gè)數(shù)值,這些觀測值一般是通過這些觀測值一般是通過測量或稱量測量或稱量的方法的方法獲得的。如作物的株高、穗長、粒重、產(chǎn)量等。獲得的。如作物的株高、穗長、粒重、產(chǎn)量等。 間斷性變數(shù)間斷性變數(shù)是指觀測值只能取是指觀測值只能取0或正整
4、數(shù)的變數(shù),或正整數(shù)的變數(shù),其觀測值一般通過其觀測值一般通過觀察和計(jì)數(shù)觀察和計(jì)數(shù)的方法獲得的。如昆蟲的方法獲得的。如昆蟲的頭數(shù)、病菌的個(gè)數(shù)、作物的穗粒數(shù)和穗數(shù)等。的頭數(shù)、病菌的個(gè)數(shù)、作物的穗粒數(shù)和穗數(shù)等。連續(xù)性變數(shù)連續(xù)性變數(shù)(continuous variable)間斷性變數(shù)間斷性變數(shù)(discontinuous or discrete variable)3. 3.總體和樣本總體和樣本 總體(總體(population or universepopulation or universe):根據(jù)研究目的:根據(jù)研究目的而確定的,而確定的,具有共同性質(zhì)的個(gè)體所組成的集團(tuán)具有共同性質(zhì)的個(gè)體所組成的集團(tuán),
5、或者說是整個(gè)研究對象中每個(gè)個(gè)體某一變數(shù)所有或者說是整個(gè)研究對象中每個(gè)個(gè)體某一變數(shù)所有觀測值的總稱觀測值的總稱。 總體中每一個(gè)個(gè)體稱為總體中每一個(gè)個(gè)體稱為總體單位總體單位??傮w中的個(gè)體??傮w中的個(gè)體數(shù)目數(shù)目 稱為稱為總體單位數(shù)總體單位數(shù)或或總體容量總體容量,常用大寫,常用大寫 N N 表示。表示。 根據(jù)總體全體觀測值算出的根據(jù)總體全體觀測值算出的總體特征數(shù)總體特征數(shù)稱為稱為參數(shù)參數(shù)(parameter)。參數(shù)常用希臘字母表示。如總體平參數(shù)常用希臘字母表示。如總體平均數(shù)均數(shù) ,方差,方差 2,標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差 等。等。 按總體中的個(gè)體數(shù)目可分為:按總體中的個(gè)體數(shù)目可分為:無限總體無限總體有限總體有限總
6、體 總體往往比較大,了解總體是很困難的,通常是總體往往比較大,了解總體是很困難的,通常是從總體中抽出一部分有代表性的個(gè)體或觀測值來調(diào)查,從總體中抽出一部分有代表性的個(gè)體或觀測值來調(diào)查,這一部分個(gè)體或觀測值稱為這一部分個(gè)體或觀測值稱為樣本樣本(sample)。3. 3.總體和樣本總體和樣本 樣本中的個(gè)體數(shù)稱為樣本中的個(gè)體數(shù)稱為樣本單位數(shù)樣本單位數(shù)或或樣本容量樣本容量。樣。樣本容量用小寫字母本容量用小寫字母 n 表示。表示。n30為大樣本,為大樣本, n30為為小樣本。小樣本。 根據(jù)樣本所有觀測值計(jì)算出的根據(jù)樣本所有觀測值計(jì)算出的樣本特征數(shù)樣本特征數(shù)稱為稱為統(tǒng)統(tǒng)計(jì)數(shù)計(jì)數(shù)或或統(tǒng)計(jì)量(統(tǒng)計(jì)量(stat
7、astic)。 樣本統(tǒng)計(jì)數(shù)常用英文字母表示。例如樣本平均數(shù)樣本統(tǒng)計(jì)數(shù)常用英文字母表示。例如樣本平均數(shù) ,方差方差S2,標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差S等等。y第二節(jié)第二節(jié) 次數(shù)分布次數(shù)分布 試驗(yàn)資料的性質(zhì)試驗(yàn)資料的性質(zhì) 農(nóng)業(yè)試驗(yàn)中所得的數(shù)據(jù),因所研究的性狀、特性農(nóng)業(yè)試驗(yàn)中所得的數(shù)據(jù),因所研究的性狀、特性不同而有不同的性質(zhì),一般可以分為兩大類:不同而有不同的性質(zhì),一般可以分為兩大類:一、一、數(shù)量性狀資料數(shù)量性狀資料1 1、離散型或間斷型隨機(jī)變數(shù):、離散型或間斷型隨機(jī)變數(shù):(由計(jì)數(shù)或測量方式得到由計(jì)數(shù)或測量方式得到) 是指用計(jì)數(shù)方法獲得是指用計(jì)數(shù)方法獲得的數(shù)據(jù),如基本苗數(shù)、分蘗數(shù)等,其各觀測值必的數(shù)據(jù),如基本苗數(shù)、
8、分蘗數(shù)等,其各觀測值必須以整數(shù)表示。須以整數(shù)表示。 指由稱量、度量或測量等方法指由稱量、度量或測量等方法取得到的數(shù)據(jù),其各個(gè)數(shù)據(jù)并不限于整數(shù)。如粒取得到的數(shù)據(jù),其各個(gè)數(shù)據(jù)并不限于整數(shù)。如粒重、株高等。重、株高等。2 2、連續(xù)型隨機(jī)變數(shù):、連續(xù)型隨機(jī)變數(shù):二、二、質(zhì)量性狀資料質(zhì)量性狀資料 ( (指能觀察而不能量測的性狀指能觀察而不能量測的性狀) )1 1、按性狀的屬性把樣本個(gè)體分為若干類,數(shù)出各、按性狀的屬性把樣本個(gè)體分為若干類,數(shù)出各類個(gè)體的數(shù)目;這類資料有時(shí)換算為百分率或數(shù)類個(gè)體的數(shù)目;這類資料有時(shí)換算為百分率或數(shù)。如調(diào)查如調(diào)查300300株碗豆的花色,其中紫花植株數(shù)為株碗豆的花色,其中紫花
9、植株數(shù)為220220株,白花植株為株,白花植株為8080株。株。2 2、給予每類性狀以相當(dāng)數(shù)量的方法:、給予每類性狀以相當(dāng)數(shù)量的方法:如小麥品種如小麥品種芒的有無,可令有芒種子為芒的有無,可令有芒種子為1 1,無芒種子為,無芒種子為0 0;等等;等等。這種資料可按間斷型變數(shù)處理。這種資料可按間斷型變數(shù)處理。一、一、數(shù)量性狀資料數(shù)量性狀資料( (由計(jì)數(shù)或測量方式得到由計(jì)數(shù)或測量方式得到) )這類資料通??捎脙煞N方法取得數(shù)據(jù):這類資料通常可用兩種方法取得數(shù)據(jù):一、一、數(shù)量性狀資料數(shù)量性狀資料l 次數(shù)分布次數(shù)分布 從一個(gè)總體隨機(jī)抽取從一個(gè)總體隨機(jī)抽取n個(gè)個(gè)體進(jìn)行調(diào)查,得到個(gè)個(gè)體進(jìn)行調(diào)查,得到n個(gè)個(gè)觀
10、測值,不同數(shù)值(或區(qū)間)的個(gè)體數(shù)目(出現(xiàn)次數(shù)觀測值,不同數(shù)值(或區(qū)間)的個(gè)體數(shù)目(出現(xiàn)次數(shù))不盡相同,這些次數(shù)將會按一定規(guī)律分配給不同的)不盡相同,這些次數(shù)將會按一定規(guī)律分配給不同的數(shù)值數(shù)值( (或區(qū)間或區(qū)間) ),這種分布情況叫,這種分布情況叫次數(shù)分布次數(shù)分布。 把次數(shù)分布以表的形式列出來,得把次數(shù)分布以表的形式列出來,得次數(shù)分布表次數(shù)分布表;以圖的形式繪出來,得以圖的形式繪出來,得次數(shù)分布圖次數(shù)分布圖。 間斷性變數(shù)資料的整理間斷性變數(shù)資料的整理1 1、若變數(shù)可取值個(gè)數(shù)不多時(shí)以自然單位進(jìn)行分組、若變數(shù)可取值個(gè)數(shù)不多時(shí)以自然單位進(jìn)行分組例如例如100 個(gè)麥穗的每穗小穗數(shù)181517191615
11、201819171718171618201917161815161817181717161917 因?yàn)槿≈祩€(gè)數(shù)只有因?yàn)槿≈祩€(gè)數(shù)只有15 15 、1616、1717、1818、1919和和2020等六種,等六種,所以以自然單位分組。所以以自然單位分組。第二節(jié)第二節(jié) 次數(shù)分布次數(shù)分布2 2、若變數(shù)可取值個(gè)數(shù)太多,則可按取值大小,從小、若變數(shù)可取值個(gè)數(shù)太多,則可按取值大小,從小 到大相鄰若干個(gè)值合為一組的方法進(jìn)行整理(一般到大相鄰若干個(gè)值合為一組的方法進(jìn)行整理(一般 要求組距相等)。要求組距相等)。( (課本課本P37P37表表3.33.3)第二節(jié)第二節(jié) 次數(shù)分布次數(shù)分布例:例:200個(gè)稻穗的穗粒數(shù)
12、,變異幅度為個(gè)稻穗的穗粒數(shù),變異幅度為27-83粒。粒。連續(xù)性變數(shù)資料的整理連續(xù)性變數(shù)資料的整理 它的整理方法有以下它的整理方法有以下5個(gè)步驟:個(gè)步驟:(這個(gè)步驟可以省略這個(gè)步驟可以省略)1. 數(shù)據(jù)排序;數(shù)據(jù)排序;2. 求極差;求極差;3. 確定組數(shù)和組距;確定組數(shù)和組距;4. 確定組限,計(jì)算組中值;確定組限,計(jì)算組中值;5. 數(shù)據(jù)歸組。數(shù)據(jù)歸組。第二節(jié)第二節(jié) 次數(shù)分布次數(shù)分布以課本以課本p.38的表的表3.4為例說明。為例說明。R = Max(x) - Min(x) = 254 - 75 = 179組數(shù):擬分為組數(shù):擬分為12組組組距組距 = 1791214.915找出資料中的最大觀察值和最
13、小找出資料中的最大觀察值和最小觀察值,將其相減得資料的變異觀察值,將其相減得資料的變異范圍范圍(稱為極差稱為極差)。如何確定分為多少組才合適?應(yīng)參考觀察值的如何確定分為多少組才合適?應(yīng)參考觀察值的個(gè)數(shù)、極差的大小和能否反映出資料的真實(shí)面?zhèn)€數(shù)、極差的大小和能否反映出資料的真實(shí)面貌等方面。貌等方面。p.38表表3.5列出了樣本大小與組數(shù)的列出了樣本大小與組數(shù)的關(guān)系。本例中,樣本大小為關(guān)系。本例中,樣本大小為140,初擬分成,初擬分成12組。將極差除以組數(shù)得到組距的近似數(shù)。組。將極差除以組數(shù)得到組距的近似數(shù)。組限是指各組的界限,數(shù)值小的一端稱下限,組限是指各組的界限,數(shù)值小的一端稱下限,數(shù)值大的一端
14、稱上限,上限與下限之差應(yīng)該等數(shù)值大的一端稱上限,上限與下限之差應(yīng)該等于組距,上限與下限的平均數(shù)稱為組中值,組于組距,上限與下限的平均數(shù)稱為組中值,組中值就是各組的中點(diǎn)。確定組限、組距、組中中值就是各組的中點(diǎn)。確定組限、組距、組中值的原則是應(yīng)該能體現(xiàn)數(shù)據(jù)資料的分布特點(diǎn)并值的原則是應(yīng)該能體現(xiàn)數(shù)據(jù)資料的分布特點(diǎn)并便于計(jì)算。便于計(jì)算。按現(xiàn)在的分組方法情況如何?按現(xiàn)在的分組方法情況如何?分布表的范圍分布表的范圍=組數(shù)組距組數(shù)組距=12 15=180,僅,僅比極差多出比極差多出1,將,將1分為兩分,加在資料兩端。分為兩分,加在資料兩端。第第1組的下限為:組的下限為:74.5(太靠近數(shù)據(jù)的最小值太靠近數(shù)據(jù)的
15、最小值);第第12組的下限為:組的下限為:254.5(太靠近數(shù)據(jù)的最大值太靠近數(shù)據(jù)的最大值)似乎太緊了,增加一組看看怎么樣?似乎太緊了,增加一組看看怎么樣?分分13組,情況如何?組,情況如何?將新增那組的組距分將新增那組的組距分為兩份,放在資料兩為兩份,放在資料兩端,第端,第1組的下限變組的下限變成成75 - 15/2 = 67.5;上限變成上限變成67.5+15/2 = 82.5,整個(gè)表的組限,整個(gè)表的組限就可以列出來了就可以列出來了(p.39表表3.6)。(這個(gè)步驟可以省略這個(gè)步驟可以省略) 連續(xù)性變數(shù)資料的整理連續(xù)性變數(shù)資料的整理 它的整理方法有以下它的整理方法有以下5個(gè)步驟:個(gè)步驟:1
16、. 數(shù)據(jù)排序;數(shù)據(jù)排序;2. 求極差;求極差;3. 確定組數(shù)和組距;確定組數(shù)和組距;4. 確定組限,計(jì)算組中值;確定組限,計(jì)算組中值;5. 數(shù)據(jù)歸組。數(shù)據(jù)歸組。第二節(jié)第二節(jié) 次數(shù)分布次數(shù)分布以課本以課本p.38的表的表3.4為例說明。為例說明。R = Max(x) - Min(x) = 254 - 75 = 179組數(shù):擬分為組數(shù):擬分為12組組組距組距 = 1791214.915表 3.6 140 行水稻的次數(shù)分布組限67.582.582.597.5247.5262.5合計(jì)(用打用打“正正”字的方法,計(jì)算出應(yīng)歸字的方法,計(jì)算出應(yīng)歸入各組的觀察值個(gè)數(shù)。入各組的觀察值個(gè)數(shù)。)丁丁正丁正丁一一27
17、1次數(shù)次數(shù)140(這個(gè)步驟可以省略這個(gè)步驟可以省略) 連續(xù)性變數(shù)資料的整理連續(xù)性變數(shù)資料的整理 它的整理方法有以下它的整理方法有以下5個(gè)步驟:個(gè)步驟:1. 數(shù)據(jù)排序;數(shù)據(jù)排序;2. 求極差;求極差;3. 確定組數(shù)和組距;確定組數(shù)和組距;4. 確定組限,計(jì)算組中值;確定組限,計(jì)算組中值;5. 數(shù)據(jù)歸組。數(shù)據(jù)歸組。第二節(jié)第二節(jié) 次數(shù)分布次數(shù)分布以課本以課本p.38的表的表3.4為例說明。為例說明。R = Max(x) - Min(x) = 254 - 75 = 179組數(shù):擬分為組數(shù):擬分為12組組組距組距 = 1791214.915表 3.6 140 行水稻的次數(shù)分布組限67.582.582.5
18、97.5247.5262.5合計(jì)計(jì)算各組的組中計(jì)算各組的組中(點(diǎn)點(diǎn))值值271次數(shù)次數(shù)1407590255組中值組中值 屬性變數(shù)資料的整理屬性變數(shù)資料的整理單項(xiàng)式分組單項(xiàng)式分組 按按屬性類別屬性類別分組:分組:第二節(jié)第二節(jié) 次數(shù)分布次數(shù)分布以課本以課本P39P39的表的表3.73.7為例說明。為例說明。表 3.7 水稻 F2 代米粒分離情況屬性分組次數(shù)(f)紅米非糯96紅米糯稻37白米非糯31白米糯稻15合計(jì)(n)1791. 1. 方柱形圖方柱形圖2. 多邊形圖;多邊形圖;3. 條形圖;條形圖;4. 餅圖;餅圖;l 次數(shù)分布圖次數(shù)分布圖適用于表示連續(xù)性變數(shù)的次數(shù)分布;適用于表示連續(xù)性變數(shù)的次數(shù)
19、分布;以課本以課本P39P39的表的表3.63.6的分布為例說明。的分布為例說明。1. 1. 方柱形圖方柱形圖2. 2. 多邊形圖多邊形圖3. 條形圖;條形圖;4. 餅圖;餅圖;l 次數(shù)分布圖次數(shù)分布圖適用于表示連續(xù)性變數(shù)的次數(shù)分布;適用于表示連續(xù)性變數(shù)的次數(shù)分布;適用于表示連續(xù)性變數(shù)的次數(shù)分布;適用于表示連續(xù)性變數(shù)的次數(shù)分布;以課本以課本P39P39的表的表3.63.6的分布為例說明。的分布為例說明。0510152025075901051201351501651801952102252402552701. 1. 方柱形圖方柱形圖2. 2. 多邊形圖多邊形圖3. 3. 條形圖條形圖4. 4.
20、餅圖餅圖l 次數(shù)分布圖次數(shù)分布圖適用于表示連續(xù)性變數(shù)的次數(shù)分布;適用于表示連續(xù)性變數(shù)的次數(shù)分布;適用于表示連續(xù)性變數(shù)的次數(shù)分布;適用于表示連續(xù)性變數(shù)的次數(shù)分布;適用于表示間斷性和屬性變數(shù)的資料;適用于表示間斷性和屬性變數(shù)的資料;以課本以課本P37P37的表的表3. 3.2 2、P39P39表表3.73.7的分布為例說明。的分布為例說明。質(zhì)量性狀的變數(shù)資料質(zhì)量性狀的變數(shù)資料變異范圍較小的間斷性變數(shù)資料變異范圍較小的間斷性變數(shù)資料1. 1. 方柱形圖方柱形圖2. 2. 多邊形圖多邊形圖3. 3. 條形圖條形圖4. 4. 餅圖餅圖l 次數(shù)分布圖次數(shù)分布圖適用于表示連續(xù)性變數(shù)的次數(shù)分布;適用于表示連續(xù)
21、性變數(shù)的次數(shù)分布;適用于表示連續(xù)性變數(shù)的次數(shù)分布;適用于表示連續(xù)性變數(shù)的次數(shù)分布;適用于表示間斷性和屬性變數(shù)的資料;適用于表示間斷性和屬性變數(shù)的資料;以課本以課本P37P37的表的表3.33.3的分布為例說明。的分布為例說明。適用于表示間斷性和屬性變數(shù)的資料;適用于表示間斷性和屬性變數(shù)的資料;以課本以課本P39P39的表的表3.73.7的分布為例說明。的分布為例說明。表3.7 水稻F2代米粒分離情況屬性分組次數(shù)(f)紅米非糯96紅米糯稻37白米非糯31白米糯稻15合計(jì)(n)179紅米非糯紅米糯稻白米非糯白米糯稻第三節(jié)第三節(jié) 平均數(shù)平均數(shù) 一、平均數(shù)的意義和種類一、平均數(shù)的意義和種類算術(shù)平均數(shù)算
22、術(shù)平均數(shù): : 1 1、度量數(shù)據(jù)資料的趨中性,衡量一組數(shù)據(jù)的綜合水平;、度量數(shù)據(jù)資料的趨中性,衡量一組數(shù)據(jù)的綜合水平; 中中(位位)數(shù)數(shù)(median): 眾數(shù)眾數(shù)(mode): 幾何平均數(shù)幾何平均數(shù): 所有觀察值的總和除以觀察值數(shù)目所得的商。所有觀察值的總和除以觀察值數(shù)目所得的商。 將資料所有觀察值排序后,居于中間將資料所有觀察值排序后,居于中間位置的那個(gè)觀測值的值(如觀測值數(shù)目為偶數(shù)時(shí),則以中位置的那個(gè)觀測值的值(如觀測值數(shù)目為偶數(shù)時(shí),則以中間兩個(gè)觀測值的算術(shù)平均數(shù)為中數(shù)間兩個(gè)觀測值的算術(shù)平均數(shù)為中數(shù))。記作:。記作:Md 資料中最常見的一數(shù),或次數(shù)分布表中次數(shù)資料中最常見的一數(shù),或次數(shù)分
23、布表中次數(shù)最多的那組的組中值。記作:最多的那組的組中值。記作:Mon個(gè)觀察值的乘積的個(gè)觀察值的乘積的n次方根。記作:次方根。記作:G其中以其中以算術(shù)平均數(shù)算術(shù)平均數(shù)最為常用。最為常用。一)平均數(shù)的作用一)平均數(shù)的作用 2 2、可以作為一組數(shù)據(jù)的代表值與其它數(shù)據(jù)相比較。、可以作為一組數(shù)據(jù)的代表值與其它數(shù)據(jù)相比較。二)平均數(shù)的種類二)平均數(shù)的種類y 算術(shù)平均數(shù)算術(shù)平均數(shù)所有觀察值的總和除以觀察值數(shù)目所得的商。所有觀察值的總和除以觀察值數(shù)目所得的商。 總體平均數(shù)總體平均數(shù)(population mean):NyNyyyNiiN/).121 (Ny /在不會混淆時(shí)記為:在不會混淆時(shí)記為:NfyNyfk
24、iii/1對于分組資料:對于分組資料:樣本平均數(shù)樣本平均數(shù)(sample mean):nynyyyyniin/).121 (nyy/在不會混淆時(shí)記為:在不會混淆時(shí)記為:nfynyfykiii/1對于分組資料:對于分組資料:二、平均數(shù)計(jì)算二、平均數(shù)計(jì)算三、算術(shù)平均數(shù)的重要特性:三、算術(shù)平均數(shù)的重要特性:離均差離均差(1 1)資料中所有觀察值的離均差之和為資料中所有觀察值的離均差之和為0 0。u離均差的兩個(gè)重要特性:離均差的兩個(gè)重要特性:(2 2)資料中所有觀察值的離均差平方之和最小。資料中所有觀察值的離均差平方之和最小。觀察值與整個(gè)資料的平均數(shù)之間的差。觀察值與整個(gè)資料的平均數(shù)之間的差。ynyy
25、yyyd)(0)/(yynyny10niiiyyyy222()yyyy(2 2) 資料中所有觀察值的離均差平方之和最小。資料中所有觀察值的離均差平方之和最小。 對于任意實(shí)數(shù)對于任意實(shí)數(shù) 有關(guān)系:有關(guān)系:ya 22()()yayy 證明:記證明:記 則有則有 ya222()yyyy222yayyyy樣本各觀察值與其平均數(shù)的差數(shù)的平方的總和,比各觀察樣本各觀察值與其平均數(shù)的差數(shù)的平方的總和,比各觀察值與任意其他數(shù)值的差數(shù)平方的總和都要小。值與任意其他數(shù)值的差數(shù)平方的總和都要小。 算術(shù)平均數(shù)的局限性:算術(shù)平均數(shù)的局限性: 平均數(shù)是最具有代表數(shù)據(jù)資料整體水平的數(shù)平均數(shù)是最具有代表數(shù)據(jù)資料整體水平的數(shù)值
26、,但不同數(shù)據(jù)資料,其平均數(shù)的代表性是不值,但不同數(shù)據(jù)資料,其平均數(shù)的代表性是不一樣的,因此一樣的,因此單用平均數(shù)還不足以很好地表達(dá)單用平均數(shù)還不足以很好地表達(dá)一組數(shù)據(jù)的主要特征一組數(shù)據(jù)的主要特征。 例如下面兩組人例如下面兩組人2424歲歲 2626歲歲2525歲歲2525歲歲4949歲歲1 1歲歲兩組人的平均年齡都兩組人的平均年齡都是是2525歲,你能說這兩歲,你能說這兩人都是青年人嗎人都是青年人嗎?第四節(jié)第四節(jié) 變異數(shù)變異數(shù)一、變異數(shù)的作用及其與平均數(shù)的關(guān)系一、變異數(shù)的作用及其與平均數(shù)的關(guān)系1 1、變異數(shù)的作用:、變異數(shù)的作用:變異數(shù)主要用來度量數(shù)據(jù)資變異數(shù)主要用來度量數(shù)據(jù)資料的離中性料的離
27、中性 2 2、變異數(shù)與平均數(shù)的關(guān)系、變異數(shù)與平均數(shù)的關(guān)系對同一組資料來說,變異程度越小,平均數(shù)的代表性越對同一組資料來說,變異程度越小,平均數(shù)的代表性越好;變異程度越大,平均數(shù)的代表性越差。好;變異程度越大,平均數(shù)的代表性越差。第四節(jié)第四節(jié) 變異數(shù)變異數(shù)極差極差(range) 一組數(shù)據(jù)的最大值與最小值之差。一組數(shù)據(jù)的最大值與最小值之差。 即:即:R=Max(y)-Min(y)上例中:上例中:第一組數(shù)據(jù)的極差為:第一組數(shù)據(jù)的極差為:R R1 1 = 26-24 = 2 = 26-24 = 2 第二組數(shù)據(jù)的極差為:第二組數(shù)據(jù)的極差為:R R2 2 = 49-1 = 48 = 49-1 = 48 可
28、見第二組人的年齡變異大的多??梢姷诙M人的年齡變異大的多。 極差只考慮了數(shù)據(jù)中的兩個(gè)極端值,沒有充分利用資極差只考慮了數(shù)據(jù)中的兩個(gè)極端值,沒有充分利用資料提供的全部信息,而且極端值往往是數(shù)據(jù)中最不可料提供的全部信息,而且極端值往往是數(shù)據(jù)中最不可靠的觀測值,因此用極差來表示數(shù)據(jù)資料的變異具有靠的觀測值,因此用極差來表示數(shù)據(jù)資料的變異具有明顯的局限性,一般只在觀測值較少的情況下使用。明顯的局限性,一般只在觀測值較少的情況下使用。二、變異數(shù)的種類二、變異數(shù)的種類 為了解決資料中所有觀測值的離均差正負(fù)抵消的問為了解決資料中所有觀測值的離均差正負(fù)抵消的問題,采用先平方后再相加的辦法。題,采用先平方后再相
29、加的辦法。 由于資料中有些觀測值大于平均數(shù),有些觀測值小于由于資料中有些觀測值大于平均數(shù),有些觀測值小于平均數(shù),全資料的離均差之和為。因此不能利用全平均數(shù),全資料的離均差之和為。因此不能利用全資料的離均差之和來衡量資料的變異程度。資料的離均差之和來衡量資料的變異程度。ynyyyyyd)(0)/(yynyny 數(shù)據(jù)資料的變異取決于觀測值的離散程度,這自然數(shù)據(jù)資料的變異取決于觀測值的離散程度,這自然會聯(lián)想到所有觀測值離均差的大小,即觀測值與平會聯(lián)想到所有觀測值離均差的大小,即觀測值與平均數(shù)的差值。第均數(shù)的差值。第i個(gè)觀測值的離均差為個(gè)觀測值的離均差為 yydii 到底用什么來表示數(shù)據(jù)資料的變異呢?
30、很顯然,必到底用什么來表示數(shù)據(jù)資料的變異呢?很顯然,必須利用所有觀測值所反映出的信息。須利用所有觀測值所反映出的信息。上例中:上例中:第一組數(shù)據(jù)的平方和為:第一組數(shù)據(jù)的平方和為: SSSS1 1 = (24-25) = (24-25)2 2 + (25-25)+ (25-25)2 2 +(26-25) +(26-25)2 2 = 2 = 2第二組數(shù)據(jù)的平方和為:第二組數(shù)據(jù)的平方和為: SSSS2 2 = (1-25) = (1-25)2 2 + (25-25)+ (25-25)2 2 +(49-25) +(49-25)2 2 = 1152 = 1152 可見第二組人的年齡變異大的多。可見第二組
31、人的年齡變異大的多。 當(dāng)資料平均數(shù)不是精確數(shù)而是含有四舍五入誤差時(shí),當(dāng)資料平均數(shù)不是精確數(shù)而是含有四舍五入誤差時(shí),利用上面的定義公式計(jì)算將會引入頗大的計(jì)算誤差。利用上面的定義公式計(jì)算將會引入頗大的計(jì)算誤差。特別是觀測值較多時(shí),計(jì)算很麻煩。特別是觀測值較多時(shí),計(jì)算很麻煩。 離均差平方和離均差平方和簡稱簡稱平方和平方和(sum of squares,SS) 可較可較好地衡量資料的變異,定義公式好地衡量資料的變異,定義公式:2()SSyy平方和平方和的計(jì)算公式:的計(jì)算公式:)2()(222yyyyyySSCyynynyy22222/)(222yyyy22)/(2ynynyynynyy/)(/)(22
32、222() /yn其中其中 簡稱矯正數(shù),用簡稱矯正數(shù),用C表示,其定義為資表示,其定義為資料中所有觀測值總和的平方除以觀測值的個(gè)數(shù)。料中所有觀測值總和的平方除以觀測值的個(gè)數(shù)。222()() /SSyyyyn 對于分組資料,對于分組資料,平方和平方和的計(jì)算公式為:的計(jì)算公式為:)2()(222yyyyfyyfSSCfyynfynfyfy22222/)(fyyfyfy22222)/(2ynfynfyfynfynfyfy/)(/)(222222/)(ynnfyC其中其中 f 為各組的次數(shù),為各組的次數(shù), 為觀測值總數(shù),為觀測值總數(shù), 為所有觀測值之和,為所有觀測值之和, 為平均數(shù)。為平均數(shù)。校正數(shù)為
33、校正數(shù)為fynfy / nf 以上例子是兩組資料中觀測值數(shù)目相等的情以上例子是兩組資料中觀測值數(shù)目相等的情況,如果當(dāng)兩組資料中觀測值的數(shù)目不等時(shí),況,如果當(dāng)兩組資料中觀測值的數(shù)目不等時(shí),用平方和來表示數(shù)據(jù)資料的變異性是否仍然用平方和來表示數(shù)據(jù)資料的變異性是否仍然合適呢?合適呢?上例中,兩組數(shù)據(jù)的平方和分別為:上例中,兩組數(shù)據(jù)的平方和分別為:計(jì)算結(jié)果與前面公式所得的一樣,這里只在計(jì)計(jì)算結(jié)果與前面公式所得的一樣,這里只在計(jì)算校正數(shù)算校正數(shù)C C= 75= 752 2/3 /3 時(shí)出現(xiàn)一次四舍五入誤差。時(shí)出現(xiàn)一次四舍五入誤差。3/)262524()262524(22221SS23/75187723/
34、)49251()49251(22222SS11523/7530272例如現(xiàn)在有例如現(xiàn)在有2 2個(gè)班,個(gè)班,I I班有班有2222位同學(xué),位同學(xué),IIII班有班有3030位同位同學(xué),以身高作為考查指標(biāo),用學(xué),以身高作為考查指標(biāo),用SSSS來比較哪班同學(xué)身來比較哪班同學(xué)身高的離散程度大,若哪班同學(xué)身高的離散程度大就高的離散程度大,若哪班同學(xué)身高的離散程度大就發(fā)給哪班同學(xué)每人一張電影票。試問,是發(fā)給哪班同學(xué)每人一張電影票。試問,是I I班同學(xué)班同學(xué)有意見還是有意見還是IIII班同學(xué)有意見?班同學(xué)有意見?這不公平,因?yàn)檫@不公平,因?yàn)镮III班人班人數(shù)多。數(shù)多。I I班班可以將離均差的平方求平均數(shù),即平
35、方和除以觀可以將離均差的平方求平均數(shù),即平方和除以觀測值的個(gè)數(shù)測值的個(gè)數(shù)方差方差來衡量變異。來衡量變異。 總體方差總體方差(population variance):population variance):NyNSSNii/)(/212 樣本方差樣本方差(sample variance):sample variance):221/ (1)1()/ ()niisSSnynyNyfNSSkii/)(/212 分類資料分類資料: : 分類資料分類資料: :221/ (1)() / (1)kiisSSnfnyy注意:注意:樣本方差不用樣本方差不用 n 來除,而用來除,而用 n-1-1來除,這是來除,
36、這是因?yàn)橛脴颖酒椒胶蛠砉烙?jì)總體平方和時(shí)總是偏小的緣因?yàn)橛脴颖酒椒胶蛠砉烙?jì)總體平方和時(shí)總是偏小的緣故。故。n-1-1稱為樣本方差的自由度稱為樣本方差的自由度(degree of freedom,df or DF or )。 用用 來估計(jì)來估計(jì) 老是偏小。老是偏小。2)(yy2)(y 因?yàn)榇蠖鄶?shù)情況下,因?yàn)榇蠖鄶?shù)情況下, ,根據(jù)離均差的第,根據(jù)離均差的第二個(gè)重要特性,有關(guān)系:二個(gè)重要特性,有關(guān)系:y22)()(yyy 統(tǒng)計(jì)學(xué)已經(jīng)證明,若在計(jì)算樣本方差時(shí),用統(tǒng)計(jì)學(xué)已經(jīng)證明,若在計(jì)算樣本方差時(shí),用 來除,則樣本方差來除,則樣本方差 將是總體方差將是總體方差 的無偏估計(jì)。的無偏估計(jì)。NyNii/)(21
37、2) 1/()(22nyys1n方差又稱為方差又稱為均方均方(Mean SquareMean Square,記為記為MS),MS),是用得最多是用得最多的衡量變異程度的量的衡量變異程度的量。但由于它的單位是原來數(shù)據(jù)。但由于它的單位是原來數(shù)據(jù)單位的平方,在實(shí)踐上難以解釋。有時(shí)使用方差的單位的平方,在實(shí)踐上難以解釋。有時(shí)使用方差的平方根值來衡量數(shù)據(jù)的變異程度。平方根值來衡量數(shù)據(jù)的變異程度。方差平方根的正方差平方根的正根值稱為根值稱為標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差(Standard Deviation)Standard Deviation)。 總體標(biāo)準(zhǔn)差總體標(biāo)準(zhǔn)差(Population SD):Population
38、SD):NNyyNy/ /)(/)(222 樣本標(biāo)準(zhǔn)差樣本標(biāo)準(zhǔn)差(Sample SD):Sample SD):) 1/(/)() 1/()(222nnyynyys 方差方差和和標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差的的功用功用1 1. .均大于零;均大于零;2 2. .資料中各觀測值都加上或減去一個(gè)常數(shù),方差和資料中各觀測值都加上或減去一個(gè)常數(shù),方差和標(biāo)準(zhǔn)差不變;標(biāo)準(zhǔn)差不變;3 3. .資料中各觀測值都乘以或除以一個(gè)常數(shù)資料中各觀測值都乘以或除以一個(gè)常數(shù)a a,方差增方差增加或減少加或減少a a2 2倍,標(biāo)準(zhǔn)差增加或減少倍,標(biāo)準(zhǔn)差增加或減少a a倍倍 方差方差和和標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差的的特性特性 方差和標(biāo)準(zhǔn)差是表示數(shù)據(jù)資料最常
39、用的變異數(shù),方差和標(biāo)準(zhǔn)差是表示數(shù)據(jù)資料最常用的變異數(shù),在統(tǒng)計(jì)分析中通常用方差來估計(jì)和比較變異,用標(biāo)在統(tǒng)計(jì)分析中通常用方差來估計(jì)和比較變異,用標(biāo)準(zhǔn)差作為度量變異的標(biāo)準(zhǔn)單位。準(zhǔn)差作為度量變異的標(biāo)準(zhǔn)單位。l 但是用但是用方差方差和和標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差來表示數(shù)據(jù)資料的變異性仍來表示數(shù)據(jù)資料的變異性仍有其局限性,在日常生活中我們很容易體驗(yàn)到。有其局限性,在日常生活中我們很容易體驗(yàn)到。 如果你到一個(gè)商店去購物,你花如果你到一個(gè)商店去購物,你花950950元購買一元購買一件標(biāo)價(jià)為件標(biāo)價(jià)為10001000元的商品和花元的商品和花5050元購買一件標(biāo)價(jià)為元購買一件標(biāo)價(jià)為100100元的物品,你的感受有何不同?元的物品,你的感受有何不同? 95
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版果林租賃與農(nóng)村金融服務(wù)合作合同范本3篇
- 2025年度環(huán)保產(chǎn)業(yè)融資服務(wù)合同范本(含排放)3篇
- 二零二五年度房地產(chǎn)廣告發(fā)布合同:廣告投放合作協(xié)議3篇
- 2025版西瓜品牌授權(quán)及品牌管理合同3篇
- 二零二五年度戶口遷移安置補(bǔ)償協(xié)議3篇
- 二零二五年度文化旅游景區(qū)開店合作合同3篇
- 二零二五年度國際房產(chǎn)二手房買賣合同范本2篇
- 2025年度社區(qū)便利店租賃合同模板(含加盟服務(wù)條款)3篇
- 二零二五年度新材料合伙人退伙技術(shù)合作與退伙協(xié)議3篇
- 二零二五年度建筑垃圾資源化利用項(xiàng)目招投標(biāo)合同3篇
- 2024年認(rèn)證行業(yè)法律法規(guī)及認(rèn)證基礎(chǔ)知識
- 新生兒聽力篩查技術(shù)規(guī)范衛(wèi)生部2010年版
- 大貓英語分級閱讀 六級1 Arthur's Fantastic Party課件
- SCA自動(dòng)涂膠系統(tǒng)培訓(xùn)講義
- LEC法取值標(biāo)準(zhǔn)對照表
- 鑄造工廠設(shè)備管理(共21頁)
- 華中數(shù)控車床編程及操作
- 農(nóng)產(chǎn)品收購臺賬(登記經(jīng)營單位及個(gè)體經(jīng)營者投售的農(nóng)產(chǎn)品
- 分紅保險(xiǎn)精算規(guī)定
- 名詞性從句引導(dǎo)詞表格
- 3、起重工、焊工、電工安全技術(shù)交底
評論
0/150
提交評論