版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、碩士研究生課程生物統(tǒng)計(jì)學(xué) Biostatistics第 二 章試驗(yàn)資料的整理與統(tǒng)計(jì)量的計(jì)算Chapter 2 Collation of Raw Data and Calculation of Statistics 明德 礪志 博學(xué) 篤行目 錄0. 本章提要1. 試驗(yàn)資料的搜集與整理 1.1 試驗(yàn)資料的搜集 (調(diào)查; 試驗(yàn)) 1.2 試驗(yàn)資料的整理 (檢查與核對(duì); 類型; 表; 圖)2. 試驗(yàn)資料統(tǒng)計(jì)量的計(jì)算 2.1 平均數(shù) (算術(shù)平均數(shù); 中位數(shù); 眾數(shù); 幾何平均數(shù)) 2.2 變異數(shù) (極差; 方差; 標(biāo)準(zhǔn)差; 變異系數(shù))第二章 試驗(yàn)資料的整理與統(tǒng)計(jì)量的計(jì)算本章提要:試驗(yàn)資料的搜集與整理,是
2、數(shù)據(jù)資料處理的首要環(huán)節(jié)。 搜集資料時(shí)常用的方法為調(diào)查和試驗(yàn);資料的整理,一般通過對(duì)原始資料進(jìn)行檢查、核對(duì)、制作頻數(shù)分布表和頻數(shù)分布圖來完成。 試驗(yàn)資料都具有集中性和離散性兩種基本特征: 反映集中性的特征值(統(tǒng)計(jì)量)是平均數(shù),主要包括算術(shù)平均數(shù)、中位數(shù)、眾數(shù)、幾何平均數(shù)等, 而反映離散性的特征值(統(tǒng)計(jì)量)是變異數(shù),主要包括極差、方差、標(biāo)準(zhǔn)差和變異系數(shù)。 對(duì)某種具體事物或現(xiàn)象的觀察結(jié)果,以及來自生物學(xué)試驗(yàn)及調(diào)查的原始數(shù)據(jù),都稱為資料(data)。 在未整理之前,這些資料一般是分散的、零星的和孤立的,是一堆無序的數(shù)字和符號(hào)。 統(tǒng)計(jì)分析過程就是對(duì)這些資料進(jìn)行整理、分類、計(jì)算,再以圖、表、特征值(統(tǒng)計(jì)量
3、)、方程等反映結(jié)果。 1. 試驗(yàn)資料的搜集與整理1.1 試驗(yàn)資料的搜集樣本資料的搜集(collection)是統(tǒng)計(jì)分析的第一步,也是全部統(tǒng)計(jì)工作的基礎(chǔ)。 資料的來源一般有兩個(gè):一是調(diào)查,二是試驗(yàn)。 無論是調(diào)查還是試驗(yàn),統(tǒng)計(jì)學(xué)對(duì)原始資料都要求完整和準(zhǔn)確。 要通過樣本無偏差地估計(jì)總體,既要增大樣本容量,又要采用科學(xué)的抽樣方法抽取有代表性的樣本,取得完整而準(zhǔn)確的資料。 與相應(yīng)的統(tǒng)計(jì)分析方法相結(jié)合,正確的抽樣方法不僅能節(jié)約人力、物力和財(cái)力,而且能為做出比較準(zhǔn)確的總體估計(jì)和推斷奠定基礎(chǔ)。 生物學(xué)研究中,由于研究的目的和性質(zhì)不同,所采取的抽樣方法也各不相同。 以概率論和數(shù)理統(tǒng)計(jì)學(xué)原理為依據(jù),用來推斷總體的
4、樣本必須是隨機(jī)樣本(random sample),即以隨機(jī)抽樣(random sampling)法獲得的樣本,因?yàn)橹挥羞@樣才能正確估算抽樣誤差、準(zhǔn)確地推斷總體。 隨機(jī)抽樣必須滿足兩個(gè)條件: 總體中每個(gè)個(gè)體被抽中的機(jī)會(huì)是均等的; 總體中任意一個(gè)個(gè)體是否被抽中是相互獨(dú)立的,不受其他個(gè)體存在的影響(這一條特別適合于無限總體)。但是,生物學(xué)研究遇到的某些總體屬于有限總體,有時(shí)難以完全符合隨機(jī)樣本的理論要求。1.2 試驗(yàn)資料的整理1.2.1 原始資料的檢查與核對(duì)通過調(diào)查或試驗(yàn)取得原始資料(raw data),及時(shí)對(duì)全部數(shù)據(jù)進(jìn)行檢查與核對(duì),然后才能進(jìn)行整理(collation)。 檢查與核對(duì),就是查驗(yàn)取樣
5、是否有差錯(cuò)、數(shù)據(jù)本身是否有錯(cuò)誤、以及訂正不合理的數(shù)據(jù),具體涉及到對(duì)原始資料的測(cè)量和記載有無差錯(cuò)、原始資料有無遺失、有無重記或非法合并現(xiàn)象、有無特大或特小的異常值。 對(duì)個(gè)別缺失的數(shù)據(jù)應(yīng)進(jìn)行及時(shí)補(bǔ)救,對(duì)重復(fù)、錯(cuò)誤和異常值應(yīng)予以刪除或訂正并注明原因,必要時(shí)進(jìn)行復(fù)查或重新試驗(yàn)。 數(shù)據(jù)的檢查與核對(duì),在統(tǒng)計(jì)分析中是非常重要的步驟。只有經(jīng)過檢查與核實(shí)的資料,在數(shù)據(jù)完整、真實(shí)、可靠方面獲得保證,才能進(jìn)入統(tǒng)計(jì)分析的后續(xù)過程。1.2.2 試驗(yàn)資料的類型對(duì)試驗(yàn)資料進(jìn)行整理、分類,是統(tǒng)計(jì)分析的基礎(chǔ),必須堅(jiān)持“同質(zhì)”原則?!巴|(zhì)”的試驗(yàn)數(shù)據(jù),才能反映事物的共性和本質(zhì)。 試驗(yàn)和調(diào)查資料一般具有兩類性狀:數(shù)量性狀(quan
6、titative character)和質(zhì)量性狀(qualitative character)。數(shù)量性狀是定量的,而質(zhì)量性狀則是定性的。所以資料也可以如此分為二類。1.2.2.1 數(shù)量性狀資料數(shù)量性狀資料(data of quantitative character),一般是由計(jì)數(shù)和測(cè)量得到的。由計(jì)數(shù)法得到的數(shù)據(jù)稱為計(jì)數(shù)資料(enumeration data),也稱為非連續(xù)變量資料(data of discontinuous variable),以正整數(shù)出現(xiàn)。例如,魚尾數(shù)、玉米果穗籽粒行數(shù)、種群內(nèi)個(gè)體數(shù)、白血細(xì)胞數(shù)等,只可能是 1,2,n。 由測(cè)量所得的數(shù)據(jù)稱為計(jì)量資料(measurement
7、 data),也稱為連續(xù)變量資料(data of continuous variable)。計(jì)量數(shù)據(jù)通常以長度、重量、體積等單位表示,可以帶小數(shù);其數(shù)值可以精確至十分、百分、千分位等,依試驗(yàn)要求和測(cè)量儀器或工具的精度而定。例如,人體身高、玉米果穗重量、仔豬體重、奶牛產(chǎn)奶量等。 (2) 評(píng)分法(point system),以數(shù)字劃分等級(jí),表示某種屬性的強(qiáng)弱差別。例如,小麥感染銹病的嚴(yán)重程度可劃分為 0 (免疫)、1 (高度抵抗)、2 (中度抵抗)、3 (感染)級(jí);家畜肉質(zhì)可評(píng)為10分、8分、或6分。 經(jīng)過數(shù)量化的質(zhì)量性狀資料就可以參照計(jì)數(shù)和計(jì)量資料統(tǒng)計(jì)方法進(jìn)行處理。1.2.3 頻數(shù)分布表根據(jù)樣本
8、資料的多少確定是否分組。一般樣本容量在30以下的小樣本不必分組,可直接投入統(tǒng)計(jì)分析;如果樣本容量在30以上,就需酌情將數(shù)據(jù)分成若干組。 經(jīng)過分組的數(shù)據(jù),可以編制頻數(shù)分布表(frequency table),或繪制頻數(shù)分布圖。1.2.3.1 計(jì)數(shù)資料的整理計(jì)數(shù)資料基本上以單項(xiàng)式分組法(grouping method of monomial)進(jìn)行分組,即以自然的樣本變量值進(jìn)行分組,使每組包含一個(gè)或幾個(gè)變量值,再計(jì)算各組內(nèi)相應(yīng)變量的頻數(shù)、編制頻數(shù)分布表。例如,從某雞場(chǎng)調(diào)查100只來亨雞每個(gè)月的產(chǎn)蛋數(shù),原始數(shù)據(jù)見表2-1。 每月產(chǎn)蛋數(shù)變動(dòng)在11-17范圍內(nèi)。把這100個(gè)觀測(cè)值按照每月產(chǎn)蛋數(shù)加以歸類,共
9、分7組;將各組所含數(shù)據(jù)的數(shù)目進(jìn)行統(tǒng)計(jì),得出各組頻數(shù);計(jì)算出各組的頻率(frequency)和累積頻率(cumulative frequency),填入表2-2,構(gòu)成每月產(chǎn)蛋數(shù)的頻數(shù)分布表。表2-2 100只來亨雞每月產(chǎn)蛋數(shù)的頻數(shù)分布表每月產(chǎn)蛋數(shù)次數(shù)頻率累積頻率1120.020.021270.070.0913190.190.2814350.350.6315210.210.8416110.110.951750.051.00 由表2-2可知,一堆雜亂無章的原始數(shù)據(jù),經(jīng)初步整理后就顯示了產(chǎn)蛋概況。其中以每月產(chǎn)蛋數(shù)為14枚者最多。經(jīng)過這樣整理的資料也就便于繼續(xù)分析。 對(duì)于變量較多而變異范圍較大的計(jì)數(shù)資料
10、,若同樣分組,則顯得組數(shù)太多而每組內(nèi)變量數(shù)目較少,容易掩蓋數(shù)據(jù)分布的規(guī)律性。例如,現(xiàn)有某小麥品種的300個(gè)麥穗,穗粒數(shù)為18-62粒;如果按一個(gè)變量分一組,需要分45組,仍然很分散。 此時(shí)酌情按5個(gè)自然變量值分1組可分9組,每組的起止限為:18-22、23-27、28-32、33-37、38-42、43-47、48-52、53-57、58-62。將這300個(gè)穗粒數(shù)資料進(jìn)行如此分組,算出各組變量數(shù)目的頻數(shù)、頻率和累積頻率并制表(表2-3),就可顯示出分布概況,即大部分麥穗的粒數(shù)在28-52之間,呈現(xiàn)了一定的規(guī)律性。表2-3 小麥品種300個(gè)麥穗穗粒數(shù)的頻數(shù)分布表穗粒數(shù)頻數(shù)頻率累積頻率18 22
11、30.01000.010023 27 180.06000.070028 32 380.12670.196733 37 510.17000.366738 42 680.22670.593443 47 530.17660.770048 52 410.13670.906753 57 220.07330.980058 62 60.02001.00001.2.3.2 計(jì)量資料的整理對(duì)計(jì)量資料一般采用組距式分組法(grouping method of class interval)。分組時(shí)需先確定全距、組數(shù)、組距、各組上下限,然后按觀測(cè)值的大小來歸組。各組的上下限要比觀測(cè)值精確一位。 下面以150尾鰱魚的
12、體長資料(表2-4)為例,說明計(jì)量資料的整理方法和具體步驟。表2-4 150尾鰱魚的體長(cm)-56, 49, 62, 78, 41, 47, 65, 45, 58, 55, 52, 52, 60, 51, 62, 78, 66, 45, 58, 58, 56, 46, 58, 70, 72, 76, 77, 56, 66, 58, 63, 57, 65, 85, 59, 58, 54, 62, 48, 63, 58, 52, 54, 55, 66, 52, 48, 56, 75, 55, 63, 75, 65, 48, 52, 55, 54, 62, 61, 62, 54, 53, 65,
13、 42, 83, 66, 48, 53, 58, 57, 60, 54, 58, 49, 52, 56, 82, 63, 61, 48, 70, 69, 40, 56, 58, 61, 54, 53, 52, 43, 58, 52, 56, 61, 59, 54, 59, 64, 68, 51, 55, 47, 56, 58, 64, 67, 72, 58, 54, 52, 46, 57, 38, 39, 64, 62, 63, 67, 65, 52, 59, 60, 58, 46, 53, 57, 37, 62, 52, 59, 65, 62, 57, 51, 50, 48, 46, 58,
14、 64, 68, 69, 73, 52, 48, 65, 72, 76, 56, 58, 63- (1) 求全距 全距(range)是樣本數(shù)據(jù)資料中最大觀測(cè)數(shù)與最小觀測(cè)數(shù)的差值。它是整個(gè)樣本的變異幅度。由表2-4可以看出,鰱魚體長最大值為 85 cm,最小值為 37 cm,因此,全距 = 85 37 = 48 (cm)。 (2) 確定組數(shù)和組距 根據(jù)樣本觀測(cè)數(shù)的數(shù)目及組距大小來確定組數(shù)(number of classes),同時(shí)也要兼顧待算樣本統(tǒng)計(jì)量的精度以及計(jì)算是否方便。 組距小組數(shù)自然就多;組數(shù)少組距就相應(yīng)增大。 通常劃分組數(shù)可參照表2-5樣本容量與分組數(shù)的關(guān)系來確定。 表2-4中鰱魚體長
15、的樣本容量為150,查表2-5,組數(shù)為9-12組,這里取10組,則組距應(yīng)為:48 / 10 = 4.8 (cm)為分組方便,以 5 cm 作為組距。 (3) 確定組限和組中值 組限(class limit)是指每組變量值的起止界限。每組有兩個(gè)組限:下限和上限。在確定最小組的下限時(shí),必須把資料中最小的數(shù)值包括在內(nèi),因此,下限要比最小值小些。為了計(jì)算方便,組限可取到10分位或5分位數(shù)上。確定最大組的上限時(shí),必須大于資料中的最大值。 如表2-4中最小值為 37 cm,第一組的下限可定為35.5 cm,上限定為 40.5 cm,即 35.5-40.5 cm為第一組,凡大于 35.5 cm 小于 40.
16、5 cm 的變量均歸于這一組,等于或大于 40.5 cm 的變量列入下一組。為了使各組界限明確,避免重疊,目前在寫法上,每組只寫下限,不寫上限,如表2-6資料分組寫成 35.5,40.5,85.5。 (4) 分組、編制頻數(shù)分布表 確定組數(shù)和各組上、下限后,可按原始資料中各觀測(cè)數(shù)的次序,把各個(gè)數(shù)值歸于各組,即進(jìn)行分組(classification)。一般用“正”字劃計(jì)法或卡片法來統(tǒng)計(jì)各組的觀測(cè)數(shù)次數(shù)。 全部觀測(cè)數(shù)歸組后,即可求出各組的頻數(shù)、頻率和累積頻率,制成一個(gè)頻數(shù)分布表(表2-6)。這種頻數(shù)分布表不僅便于閱讀,而且可根據(jù)它繪制頻數(shù)分布圖,計(jì)算平均數(shù)和標(biāo)準(zhǔn)差等統(tǒng)計(jì)量。表2-6 150尾鰱魚體長
17、(cm)的頻數(shù)分布表組限(cm)組中值(cm)頻數(shù)頻率累積頻率35.53830.02000.020040.54340.02670.046745.548170.11330.160050.553280.18670.346755.558400.26660.613360.563250.16670.780065.568170.11330.893370.57360.04000.933375.57870.04670.980080.58320.01330.993385.58810.00671.00001.2.4 頻數(shù)分布圖頻數(shù)分布圖(frequency chart),用于把頻數(shù)分布信息繪成統(tǒng)計(jì)圖。頻數(shù)分布圖可
18、以更形象而直觀地反映各組變量次數(shù)的分布概況。常用的頻數(shù)分布圖有條形圖、餅圖、直方圖、多邊形圖、散點(diǎn)圖等。1.2.4.1 條形圖(bar chart)又稱柱形圖,適于表示計(jì)數(shù)資料和屬性資料的頻數(shù)分布。橫坐標(biāo)表示變量的自然值,縱坐標(biāo)表示次數(shù)。每個(gè)頻數(shù)在相應(yīng)自然值的所在位置起筆截取某個(gè)寬度,并按其頻數(shù)高度繪成長方形。各長方形之間留有間隔,以示與后面介紹的直方圖不同。圖2-1是100只來亨雞每月產(chǎn)蛋數(shù)的次數(shù)分布條形圖。1.2.4.2 餅圖(pie chart)適于表示計(jì)數(shù)資料和屬性資料的次數(shù)分布。把餅圖的全面積看成 1,求出各觀測(cè)值次數(shù)占觀測(cè)值總數(shù)的百分比(或頻率),按比例將圓餅分成若干份,并以扇形面
19、積大小分別表示各組變量的比例(圖2-2)。1.2.4.3 直方圖(histogram)又稱矩形圖,適合于表示計(jì)量資料的次數(shù)分布。與條形圖相似,橫坐標(biāo)表示各組組限,縱坐標(biāo)表示次數(shù)。按組距截取一定寬度并按次數(shù)截取高度,再用直線連接起來構(gòu)成長方形。各長方形間沒有間隔,即前組上限與后組下限合并(圖2-3)。1.2.4.4 多邊形圖(polygon chart)也稱折線圖(broken-line chart),也是表示計(jì)量資料次數(shù)分布的一種方法。以橫坐標(biāo)表示各組組中值,縱坐標(biāo)表示次數(shù)。在各組組中值的垂線上,按該組次數(shù)高度標(biāo)記一個(gè)點(diǎn);把相鄰的點(diǎn)用直線段順次連接起來,即成多邊形圖(圖2-4)。1.2.4.5
20、 散點(diǎn)圖(Scatter chart)又稱散布圖,適合于表示計(jì)數(shù)資料和計(jì)量資料的次數(shù)分布。橫坐標(biāo)表示 x 變量,縱坐標(biāo)表示 y 變量。由 x值和 y 值確定數(shù)據(jù)點(diǎn)在圖形中的位置。研究人員根據(jù)圖中各點(diǎn)分布狀態(tài)判斷變量之間的關(guān)系(圖2-5、圖2-6)。 與頻數(shù)分布表相比,頻數(shù)分布圖能更直觀地反映各觀測(cè)資料的中心及其變化趨勢(shì)。同樣,按照資料分組的頻率值也可以繪制頻率分布圖。2. 試驗(yàn)資料統(tǒng)計(jì)量的計(jì)算由頻數(shù)分布表、圖可知,變量分布具有二種基本特征:集中性和離散性。 集中性(centrality)表達(dá)了變量的重心,或者說反映了以某一數(shù)值為中心而分布的性質(zhì)。離散性(discreteness)是變量表現(xiàn)的偏
21、離中心而分散、變異的性質(zhì)。為了反映變量分布的這兩個(gè)基本性質(zhì),就必須計(jì)算它們的統(tǒng)計(jì)量(statistic)。 反映集中性的統(tǒng)計(jì)量是平均數(shù),包括算術(shù)平均值、中位數(shù)、眾數(shù)、幾何平均數(shù)等;其中最為常用的是算術(shù)平均值。 反映離散性的統(tǒng)計(jì)量為變異數(shù),包括極差、方差、標(biāo)準(zhǔn)差和變異系數(shù);其中最為常用的是標(biāo)準(zhǔn)差。2.1 平均數(shù)(mean)是計(jì)量資料的代表值,表示資料中觀測(cè)值的中心位置,并且可作為某組資料代表與其它組資料相比較,以確定二者之間的差異。平均數(shù)主要有以下四種:2.1.1 算術(shù)平均數(shù)(arithmetic mean) 總體或樣本資料中所有觀測(cè)值的總和除以觀測(cè)值個(gè)數(shù)所得的商,稱為算術(shù)平均數(shù)(arithme
22、tic mean)。對(duì)于一個(gè)具有 N 個(gè)觀測(cè)值的有限總體,其觀測(cè)數(shù)為 x1,x2,xN,則該總體的算術(shù)平均數(shù)(arithmetic mean of the population)為:(2.1) 對(duì)于具有 n 個(gè)觀測(cè)數(shù) x1,x2,xn 的樣本,其算術(shù)平均數(shù)(arithmetic mean of the sample)為:(2.2) 式(2.1)和式(2.2)中,為求和符號(hào);xi 表示隨機(jī)變量,其下標(biāo) i 表示變量排列順序; 表示把隨機(jī)變量從第一個(gè)加到最后一個(gè),也可簡寫為 。 是的估計(jì)值;因 應(yīng)用廣泛,常簡稱為平均數(shù)或均值。2.1.1.1 算術(shù)平均數(shù)的計(jì)算方法 (1) 直接計(jì)算法 當(dāng)樣本較小時(shí)可
23、根據(jù)算術(shù)平均數(shù)的定義直接進(jìn)行。 【例2.1】 隨機(jī)抽取20株小麥,其株高(cm)分別為82,79,85,84,86,84,83,82,83,83,84,81,80,81,82,81,82,82,82,80,求小麥的平均株高。根據(jù)平均數(shù)的定義,由式(2.2),得: (2) 減去(或加上)常數(shù)法 若變量 xi 的值都較大(或較小),且接近某一常數(shù) a 時(shí),可將它們的值都減去(或加上)常數(shù) a,得到一組新的數(shù)據(jù),然后再計(jì)算平均數(shù),最后重新加上(或減去)常數(shù) a 即得到 。以減去常數(shù) a 為例,設(shè) y1 = x1 - a,y2 = x2 - a,yn = xn a, 則有 x1 = y1 + a, x
24、2 = y2 + a,xn = yn + a,于是有: (2.4) 【例2.2】利用減去常數(shù)法,計(jì)算例2.1的平均數(shù)。 設(shè) a = 80,則有 y1 = 82 80 = 2,y2 = 79 80 = -1,y20 = 80 80 = 0,代入式(2.4),得: (3) 加權(quán)平均法 在具有 n 個(gè)觀測(cè)數(shù)的樣本中,如果觀測(cè)數(shù) x1 出現(xiàn) f1 次,觀測(cè)數(shù) x2 出現(xiàn) f2 次,觀測(cè)數(shù) xm 出現(xiàn) fm 次,且 f1 + f2 + + fm = n,這時(shí)則有: (2.5)這里,fi 可理解為 xi 在平均數(shù)中的“權(quán)重(weight)”,即數(shù)值相同的觀測(cè)數(shù)出現(xiàn)的次數(shù),因而上式所求得的稱為加權(quán)平均數(shù)(w
25、eighted mean)。 【例2.3】 利用加權(quán)平均法,計(jì)算例2.1的加權(quán)平均數(shù)。先整理20個(gè)小麥株高數(shù)據(jù)如表2-7。表2-7 小麥20個(gè)株高(cm)數(shù)據(jù)的次數(shù)分布株高 x次數(shù) f fxfx27917962418021601280081324319683826492403448332492066784325221168851857225861867396總和f = 20fx = 1646fx2 = 135524由式(2.5)得:2.1.1.2 算術(shù)平均數(shù)的重要特性 (1) 離均差的總和等于零 樣本中各觀測(cè)值與其平均數(shù)之差離均差(deviation from mean)的總和等于零。證明如下
26、:因?yàn)?,所以 ,故:(2.6) (2) 離均差平方和最小 樣本中各觀測(cè)值與其平均數(shù)之差平方的總和,較各觀測(cè)值與任一數(shù)值離差的平方和為小,即離均差平方和 (mean deviation sum of squares)為最小。設(shè) a 為 以外的任何數(shù)值,則 。證明如下:已知 ,因此 因?yàn)?必大于0,所以有:2.1.1.3 算術(shù)平均數(shù)的作用算術(shù)平均數(shù)是描述觀測(cè)資料的重要特征值,它的作用主要有以下兩點(diǎn): (1) 指出一組數(shù)據(jù)資料中心位置,標(biāo)志著資料所代表性狀的數(shù)量水平和質(zhì)量水平; (2) 作為樣本或資料的代表數(shù)與其他資料進(jìn)行比較。2.1.2 中位數(shù)(median) 將試驗(yàn)或調(diào)查的資料中所有觀測(cè)值依大
27、小順序排列,居于中間位置的觀測(cè)值稱為中位數(shù)(median),以 Md 表示。當(dāng)觀測(cè)值個(gè)數(shù) n 為奇數(shù)時(shí),中位數(shù)是第(n + 1)2位置的觀測(cè)值;當(dāng)觀測(cè)值個(gè)數(shù) n 為偶數(shù)時(shí),中位數(shù)是第 n/2 和 n/2 + 1位置的兩個(gè)觀測(cè)值之和的 1/2。2.1.3 眾數(shù)(mode) 資料中出現(xiàn)次數(shù)最多的那個(gè)觀測(cè)值或次數(shù)最多一組的中點(diǎn)值(組中值),稱為眾數(shù)(mode),以 Mo 表示。2.1.4 幾何平均數(shù)(geometric mean) 資料中有 n 個(gè)觀測(cè)數(shù),其乘積開 n 次方所得的數(shù)值,稱為幾何平均數(shù)(geometric mean)。幾何平均數(shù)適用于變量 x 為對(duì)數(shù)正態(tài)分布、經(jīng)對(duì)數(shù)轉(zhuǎn)換后呈正態(tài)分布的資
28、料。其計(jì)算公式為: (2.3) 上述四種平均數(shù)中,算術(shù)平均數(shù)是最常用的平均數(shù),中位數(shù)、眾數(shù)和幾何平均數(shù)使用較少。2.2 變異數(shù)變量的分布具有集中性和離散性兩方面特征,因而只有表示集中性的平均數(shù)是不夠的,還必須計(jì)算變異數(shù)(variance)以度量其變量的離散性或變異性(variability)。用來表示變異性的指標(biāo)較多,常用的有極差、方差、標(biāo)準(zhǔn)差、變異系數(shù)等,其中以標(biāo)準(zhǔn)差和變異系數(shù)應(yīng)用最為廣泛。2.2.1 極差(range) 又稱全距,它是樣本變量中最大值和最小值之差,一般用R表示。R = max x1,x2,xn min x1,x2,xn (2.8) 例如表2-4資料中,150尾鰱魚體長的極差
29、R = 85 37 = 48 (cm)。 極差在一定程度上能說明樣本波動(dòng)的大小,但它只受樣本中兩個(gè)極端個(gè)體數(shù)值大小的影響,不能代表樣本中所有觀測(cè)值的變異程度,因而只在研究小樣本波動(dòng)性時(shí)使用,具有一定的局限性。2.2.2 方差(variance)為了度量變量的變異程度,對(duì)含有 n 個(gè)觀測(cè)值 x1,x2,xn 的樣本,可以用各觀測(cè)值離均差的大小來表示,但是, ,不能反映樣本的總變異程度。若將離均差先平方再求和,即 ,就可消除上述弊病。但這樣還有一個(gè)缺點(diǎn),就是離均差平方和常隨樣本容量大小而改變。 為便于比較,用樣本容量 n 來除離均差平方和,得到平均的平方和,簡稱方差(variance)或均方(me
30、an squares, MS)。 樣本方差(sample variance) s2 的計(jì)算公式為:(2.9)總體方差(population variance)2的計(jì)算公式為:(2.10) 式(2.9)中,n - 1為自由度(degree of freedom, df)。式(2.10)中,N 為有限總體容量。s2 是2 的最好估計(jì)值。 比較式(2.9)和式(2.10),樣本方差不用 n,而是用n - 1為除數(shù),因?yàn)?是一個(gè)最小的平方和,如果以 n 為除數(shù),則所得 s2 是2 的偏小估計(jì)。如果用 n - 1替代 n,則可避免偏小估計(jì)的弊端,從而提高用樣本估計(jì)總體變異的精度。 方差是度量資料變異的常
31、用統(tǒng)計(jì)量,在分析數(shù)據(jù)資料的變異特征和統(tǒng)計(jì)推斷中有廣泛用途。2.2.3 標(biāo)準(zhǔn)差(standard deviation, SD) 2.2.3.1 標(biāo)準(zhǔn)差的定義方差雖能反映變量的變異程度,但由于離均差取了平方值,使得它與原始數(shù)據(jù)的數(shù)值和單位都不相適應(yīng),需要將方差開方還原。方差的平方根值就是標(biāo)準(zhǔn)差(standard deviation, SD)。樣本的標(biāo)準(zhǔn)差(standard deviation of the sample) s為: (2.11)總體標(biāo)準(zhǔn)(standard deviation of the population)為: (2.12)2.2.3.2 標(biāo)準(zhǔn)差的計(jì)算公式 要求先計(jì)算樣本平均數(shù)
32、,再按式(2.11)計(jì)算方差、標(biāo)準(zhǔn)差。這樣計(jì)算比較麻煩,而且當(dāng) 為約數(shù)時(shí),容易引起計(jì)算誤差。所以,通常把 展開、變換,直接用原始數(shù)據(jù)進(jìn)行計(jì)算:(2.13) 把展開式代入式(2.11),得: (2.14) 在實(shí)際計(jì)算時(shí),當(dāng)遇到數(shù)值較大(或較小)的數(shù)據(jù)時(shí),為了減化計(jì)算過程,可將各觀測(cè)值都減去(或加上)一個(gè)常數(shù),所得的 s 不變。 【例2.4】 測(cè)得9名男子前臂長(cm)的樣本數(shù)據(jù),列于表2-8,試計(jì)算其標(biāo)準(zhǔn)差(設(shè) x = x 45)。表2-8 9名男子前臂長(cm)標(biāo)準(zhǔn)差計(jì)算前臂長 xx2x= x - 45x245202500421764-39441936-1l411681-41647220924
33、5025005254722092446211611492401416x = 411x2 = 18841x = 6x2 = 76將表2-8資料按兩種算法的數(shù)據(jù)代入式(2.14),得: 兩種算法相比,其結(jié)果是一樣的。當(dāng)樣本的變量數(shù)值較大時(shí),用簡化后的數(shù)據(jù)計(jì)算標(biāo)準(zhǔn)差 s 可以大大節(jié)約計(jì)算工作量。 對(duì)于已分組的資料,應(yīng)采用加權(quán)的公式進(jìn)行計(jì)算,其公式為: 【例2.5】 根據(jù)表2-7數(shù)據(jù),計(jì)算20株小麥株高的標(biāo)準(zhǔn)差。 由表2-7可知,fx = 1 646,fx2 = 135 524,代入式(2.15),得:2.2.3.3 標(biāo)準(zhǔn)差的特性及其作用標(biāo)準(zhǔn)差是衡量變量資料變異程度的最好標(biāo)志,它具有以下幾個(gè)特性: (
34、1) 標(biāo)準(zhǔn)差的大小,受多個(gè)觀測(cè)值的影響,如果觀測(cè)值與觀測(cè)值間差異較大,其離均差也大,因而標(biāo)準(zhǔn)差也大,反之則小。 (2) 在計(jì)算標(biāo)準(zhǔn)差時(shí),對(duì)各觀測(cè)值加上或減去一個(gè)常數(shù),其標(biāo)準(zhǔn)差不變。如果給各觀測(cè)值乘以或除以一個(gè)常數(shù) a,則所得的標(biāo)準(zhǔn)差擴(kuò)大或縮小了 a 倍。 (3) 在正態(tài)分布情況下,一個(gè)樣本變量的分布情況可作如下估計(jì):在平均數(shù) 兩側(cè)的1s范圍內(nèi),即 內(nèi)的觀測(cè)值個(gè)數(shù)為觀測(cè)值總個(gè)數(shù)的68.26;在平均數(shù)兩側(cè)的2s范圍內(nèi),即 內(nèi)的觀測(cè)值個(gè)數(shù)約觀測(cè)值總個(gè)數(shù)的95.45;在平均數(shù)兩側(cè)的3s范圍內(nèi),即 內(nèi)的觀測(cè)值個(gè)數(shù)約為觀測(cè)值總個(gè)數(shù)的99.73。 標(biāo)準(zhǔn)差的性質(zhì)表明,它具有以下幾種作用: (1) 表示變量分布
35、的離散程度。標(biāo)準(zhǔn)差小,說明變量的分布比較密集在平均數(shù)附近,標(biāo)準(zhǔn)差大,則表明變量的分布比較離散。因此,可以用標(biāo)準(zhǔn)差的大小判斷隨機(jī)變量波動(dòng)性的大小。 (2) 概括隨機(jī)變量的比例。利用標(biāo)準(zhǔn)差可以概括隨機(jī)變量的次數(shù)分布及其在總體中所占的比例。 (3) 估計(jì)平均數(shù)的標(biāo)準(zhǔn)誤。即以樣本標(biāo)準(zhǔn)差代替總體標(biāo)準(zhǔn)差估算平均值的標(biāo)準(zhǔn)誤。 (4) 進(jìn)行平均數(shù)的區(qū)間估計(jì)和變異系數(shù)計(jì)算。2.2.4 變異系數(shù)(coefficient of variation)當(dāng)比較兩個(gè)樣本時(shí),由于兩者的平均數(shù)可能不同,統(tǒng)一用標(biāo)準(zhǔn)差表達(dá)它們的變異程度就不合適,而變異系數(shù)則適應(yīng)這種比較。樣本標(biāo)準(zhǔn)差除以樣本平均數(shù),所得商或比值就是變異系數(shù)coeff
36、icient of variation (variability),一般用CV表示,其公式表達(dá)為: (2.16)【例2.6】 某品種水稻在大田栽植,其穗粒數(shù)為44.6,標(biāo)準(zhǔn)差為17.9,而在豐產(chǎn)田栽植,其穗粒數(shù)為65.0,標(biāo)準(zhǔn)差18.3,問哪種栽植田水稻穗粒數(shù)變異程度較大? 將兩種栽植田內(nèi)水稻穗粒數(shù)的平均數(shù)、標(biāo)準(zhǔn)差分別代入式(2.16),得出: 大田水稻穗粒數(shù)的變異系數(shù)為: 豐產(chǎn)田水稻穗粒數(shù)的變異系數(shù)為: 從變異系數(shù)可以看出,雖然大田內(nèi)水稻穗粒數(shù)的標(biāo)準(zhǔn)差較小,但其變異系數(shù)要比豐產(chǎn)田大,說明豐產(chǎn)田水稻穗粒數(shù)的整齊度優(yōu)于大田。思考練習(xí)題 習(xí)題2.1 什么是次數(shù)分布表? 什么是次數(shù)分布圖? 制表和繪圖的基本步驟有哪些? 制表和繪圖時(shí)應(yīng)注意些什么? 習(xí)題2.2 算術(shù)平均數(shù)與加權(quán)平均數(shù)形式上有何不同? 為什么說它們的實(shí)質(zhì)是一致的? 習(xí)題2.3 平均數(shù)與標(biāo)準(zhǔn)差在統(tǒng)計(jì)分析中有什么用處? 它們各有哪些特性? 習(xí)題2.4 總體和樣本的平均數(shù)、標(biāo)準(zhǔn)差有什么
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025工商行政工作計(jì)劃樣例
- 汽車銷售個(gè)人年終工作總結(jié)與計(jì)劃范文
- 開學(xué)學(xué)習(xí)計(jì)劃教研學(xué)習(xí)計(jì)劃
- 關(guān)于法制宣傳教育的工作計(jì)劃范文
- 初三英語教學(xué)新學(xué)期工作計(jì)劃
- 《GMP驗(yàn)收辦法》課件
- 2025年人事行政部工作計(jì)劃
- 工傷委托律師代理合同
- 體育生自愿參加訓(xùn)練協(xié)議書
- 《復(fù)合材料大綜述》課件
- 讀書交流ppt《做最好的自己》
- 優(yōu)秀的公司介紹ppt
- GB/T 8433-2013紡織品色牢度試驗(yàn)?zāi)吐然味?游泳池水)
- GB/T 4208-2017外殼防護(hù)等級(jí)(IP代碼)
- GB/T 10836-2021船用多功能焚燒爐
- 部編版五年級(jí)語文上冊(cè)第八單元主題閱讀含答案
- 結(jié)直腸癌中西醫(yī)結(jié)合治療總論
- 第23課《范進(jìn)中舉》課件(共27張PPT) 部編版語文九年級(jí)上冊(cè)
- 宋曉峰小品《宋鏢傳奇》劇本臺(tái)詞手稿
- 高考作文專題之?dāng)M標(biāo)題課件
- DB31T 634-2020 電動(dòng)乘用車運(yùn)行安全和維護(hù)保障技術(shù)規(guī)范
評(píng)論
0/150
提交評(píng)論