版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第第2 2章章 統(tǒng)計資料的整理與分析統(tǒng)計資料的整理與分析1 數理統(tǒng)計中的常用術語數理統(tǒng)計中的常用術語 1.1 總體與樣本總體與樣本 總體:根據研討目確實定的研討對象的全體稱為總總體:根據研討目確實定的研討對象的全體稱為總體體(population); 個體:總體中的每一個研討單位稱為個體個體:總體中的每一個研討單位稱為個體(individual); 樣本:樣本: 根據一定方法由總體中抽取部分個體所組成根據一定方法由總體中抽取部分個體所組成的集合稱為樣本的集合稱為樣本(sample); 有限總體:含有有限個個體的總體稱為有限總體;有限總體:含有有限個個體的總體稱為有限總體; 無限總體:包含有無限
2、多個個體的總體稱為無限總無限總體:包含有無限多個個體的總體稱為無限總體;體; 樣本容量:樣本中所包含的個體數目叫樣樣本容量:樣本中所包含的個體數目叫樣本容量或大小本容量或大小(sample size),樣本容量常記,樣本容量常記為為n。通常把。通常把n30的樣本叫小樣本,的樣本叫小樣本,n 30的的樣本叫大樣本。樣本叫大樣本。 實驗研討的目的:了解總體,然而能觀實驗研討的目的:了解總體,然而能觀測到的卻是樣本,經過樣本來推斷總體是統(tǒng)測到的卻是樣本,經過樣本來推斷總體是統(tǒng)計分析的根本特點。計分析的根本特點。 為了能可靠地從樣本來推斷總體,要求樣本具有為了能可靠地從樣本來推斷總體,要求樣本具有一定
3、的含量和代表性。一定的含量和代表性。 如何獲取有代表性的樣本?采用隨機抽取。如何獲取有代表性的樣本?采用隨機抽取。 所謂隨機抽取所謂隨機抽取(random sampling) 是指總體中的是指總體中的每一個個體都有同等的時機被抽取到樣本中。每一個個體都有同等的時機被抽取到樣本中。 樣本畢竟只是總體的一部分,雖然樣本具有一定樣本畢竟只是總體的一部分,雖然樣本具有一定的含量也具有代表性,經過樣本來推斷總體也不能的含量也具有代表性,經過樣本來推斷總體也不能夠是百分之百的正確。有很大的可靠性但有一定的夠是百分之百的正確。有很大的可靠性但有一定的錯誤率這是統(tǒng)計分析的特點。錯誤率這是統(tǒng)計分析的特點。 1.
4、2 參數與統(tǒng)計量參數與統(tǒng)計量 為了表示總體和樣本的數量特征,需求計算特征數。為了表示總體和樣本的數量特征,需求計算特征數。 參數:由總體計算的特征數叫參數參數:由總體計算的特征數叫參數(parameter);常用希臘字母表示參數,例如用常用希臘字母表示參數,例如用表示總體平均數,表示總體平均數,用用表示總體規(guī)范差;表示總體規(guī)范差; 統(tǒng)計量:由樣本計算的特征數叫統(tǒng)計量統(tǒng)計量:由樣本計算的特征數叫統(tǒng)計量(staistic)。常用拉丁字母表示統(tǒng)計量,例如用常用拉丁字母表示統(tǒng)計量,例如用 表表 示樣本平均數,示樣本平均數,用用s表示樣本規(guī)范差,用表示樣本規(guī)范差,用R表示極差。表示極差。 xx22方方
5、差差s2s2規(guī)范差規(guī)范差平均數平均數R極極 差差為了了解總體分布、特征為了了解總體分布、特征構構 造造 總體參數由相應的統(tǒng)計量來估計,例如用總體參數由相應的統(tǒng)計量來估計,例如用 估計估計,用,用S估計估計等。等。 1.3 準確性與準確性準確性與準確性 準確性準確性(accuracy)也叫準確度,指觀測值與其真也叫準確度,指觀測值與其真值的接近程度。設某一實驗目的或性狀的真值為值的接近程度。設某一實驗目的或性狀的真值為,觀測值為觀測值為 x,假設,假設 x與與相差的絕對值相差的絕對值|x|越小,越小, 那么觀測值那么觀測值x的準確性越高;的準確性越高; 反之那么低。反之那么低。x 準確性準確性(
6、precision)也叫準確度,指同一實驗目的也叫準確度,指同一實驗目的或性狀的反復觀測值彼此接近的程度。假設觀測值或性狀的反復觀測值彼此接近的程度。假設觀測值彼此接近,即恣意二個觀測值彼此接近,即恣意二個觀測值xi 、xj 相差的絕對值相差的絕對值|xi xj |越小,那么觀測值準確性越高;反之那么越小,那么觀測值準確性越高;反之那么低。準確性、準確性的意義見圖低。準確性、準確性的意義見圖2-1。 圖圖2-1 準確性與準確性的關系表示圖準確性與準確性的關系表示圖 隨機誤差隨機誤差 也叫也叫 抽樣誤差抽樣誤差 (sampling error) , 是由于許多無法控制的內在和外在的偶爾要素所是由
7、于許多無法控制的內在和外在的偶爾要素所呵斥的呵斥的 。隨機誤差帶有偶爾性質,在實驗中,。隨機誤差帶有偶爾性質,在實驗中,即使非常小心的進展實驗操作也難以消除。隨機即使非常小心的進展實驗操作也難以消除。隨機誤差不可防止,但可減少。誤差不可防止,但可減少。 隨機誤差影響實驗的準確性。隨機誤差影響實驗的準確性。 統(tǒng)計上的實驗誤差是指隨機誤差。這種誤統(tǒng)計上的實驗誤差是指隨機誤差。這種誤差愈小,實驗的準確性愈高。差愈小,實驗的準確性愈高。 系統(tǒng)誤差系統(tǒng)誤差 也叫也叫 片面誤差片面誤差 (lopsided error), 這是這是 由于實驗對象相差較大,丈量由于實驗對象相差較大,丈量的儀器不準的儀器不準
8、、 規(guī)范試劑未經校正,以及觀測、規(guī)范試劑未經校正,以及觀測、記載、抄錄、計算中的錯誤等等所引起。系記載、抄錄、計算中的錯誤等等所引起。系統(tǒng)誤差可以經過改良方法、正確實驗設計來統(tǒng)誤差可以經過改良方法、正確實驗設計來防止、消除。防止、消除。 系統(tǒng)誤差影響實驗的準確性。系統(tǒng)誤差影響實驗的準確性。 正確地進展實驗數據資料的分類是統(tǒng)計正確地進展實驗數據資料的分類是統(tǒng)計資料整理的前提。在調查或實驗中,由察看、資料整理的前提。在調查或實驗中,由察看、丈量所得的數據資料按其性質的不同,普通丈量所得的數據資料按其性質的不同,普通可以分為數量性狀資料、可以分為數量性狀資料、 質量性狀資料和質量性狀資料和半定量等級
9、資料三大類。半定量等級資料三大類。 數量性狀數量性狀(quantitative character)是指可以以丈量、計量或是指可以以丈量、計量或計數的方式表示其特征的性狀計數的方式表示其特征的性狀 。察看測定數量性狀而獲得的數。察看測定數量性狀而獲得的數據就是數量性狀資料據就是數量性狀資料 數量性狀資料的獲得有丈量和計數兩種方式數量性狀資料的獲得有丈量和計數兩種方式 ,因此數量性,因此數量性狀資料狀資料 又分為計量資料和計數資料兩種。又分為計量資料和計數資料兩種。 用丈量方式獲得的數量性狀資料,即用度、量、衡等用丈量方式獲得的數量性狀資料,即用度、量、衡等計量工具直接測定獲得的數量性狀資料。其
10、數據是用長計量工具直接測定獲得的數量性狀資料。其數據是用長度、容積、分量等來表示。這種資料的各個觀測值不一度、容積、分量等來表示。這種資料的各個觀測值不一定是整數,兩個相鄰的整數間可以有帶小數的任何數值定是整數,兩個相鄰的整數間可以有帶小數的任何數值出現,其小數位數的多少由度量工具的精度而定出現,其小數位數的多少由度量工具的精度而定 , 它它們之間的變異是延續(xù)性的。因此,計量資料也稱為延續(xù)們之間的變異是延續(xù)性的。因此,計量資料也稱為延續(xù)性變異資料。性變異資料。2.1.2 2.1.2 計數資料計數資料 指用計數方式獲得的數量性指用計數方式獲得的數量性狀資料。在這類資料中,它的各狀資料。在這類資料
11、中,它的各個察看值只能以整數表示,在兩個察看值只能以整數表示,在兩個相鄰整數間不得有任何帶小數個相鄰整數間不得有任何帶小數的數值出現。這些察看值只能以的數值出現。這些察看值只能以整數來表示,各察看值是不延續(xù)整數來表示,各察看值是不延續(xù)的,因此該類資料也稱為不延續(xù)的,因此該類資料也稱為不延續(xù)性變異資料或延續(xù)性變異資料。性變異資料或延續(xù)性變異資料。 2.2 質量性狀資料質量性狀資料 質量性狀質量性狀(qualitative character)是指能是指能察看到而不能直接丈量的,只能用文字來描畫察看到而不能直接丈量的,只能用文字來描畫其特征的性狀,如食品顏色、其特征的性狀,如食品顏色、 風味等等。
12、這類風味等等。這類性狀本身不能直接用數值表示,要獲得這類性性狀本身不能直接用數值表示,要獲得這類性狀的數據資料,須對其察看結果作數量化處置,狀的數據資料,須對其察看結果作數量化處置,其方法有以下兩種:其方法有以下兩種:2.2.1 2.2.1 統(tǒng)計次數法統(tǒng)計次數法 在一定的總體或樣本中,根據某一質在一定的總體或樣本中,根據某一質量性狀的類別統(tǒng)計其次數,以次數作為質量性狀的類別統(tǒng)計其次數,以次數作為質量性狀的數據。例如,蘋果中全紅果個數量性狀的數據。例如,蘋果中全紅果個數與半紅果個數。與半紅果個數。 由質量性狀數量化而得來的資料又叫由質量性狀數量化而得來的資料又叫 次數資料。次數資料。 三種不同類
13、型的資料相互間是有區(qū)別的,三種不同類型的資料相互間是有區(qū)別的,但有時可根據研討的目的和統(tǒng)計方法的要求將但有時可根據研討的目的和統(tǒng)計方法的要求將一種類型資料轉化成另一種類型的資料。一種類型資料轉化成另一種類型的資料。 例如,酸奶中的乳桿菌總數得到的資料屬例如,酸奶中的乳桿菌總數得到的資料屬于計數資料,根據化驗的目的,可按乳桿菌總于計數資料,根據化驗的目的,可按乳桿菌總數正?;虿徽7譃閮山M,清點各組的次數,數正?;虿徽7譃閮山M,清點各組的次數,計數資料就轉化為質量性狀次數資料;假設按計數資料就轉化為質量性狀次數資料;假設按乳桿菌總數過高、正常、過低分為三組乳桿菌總數過高、正常、過低分為三組 ,
14、清,清點各組次數點各組次數 ,就轉化成了半定量資料,就轉化成了半定量資料 。3 數據資料的整理數據資料的整理 3.1 數據資料的檢查與核對數據資料的檢查與核對 目的:在于確保原始資料的完好性和目的:在于確保原始資料的完好性和正確性。正確性。 所謂完好性是指原始資料無遺缺或反所謂完好性是指原始資料無遺缺或反復。復。 所謂正確性是指原始資料的丈量和記所謂正確性是指原始資料的丈量和記載無過失或未進展不合理的歸并。檢查中載無過失或未進展不合理的歸并。檢查中要特別留意特大、特小和異常數據可結要特別留意特大、特小和異常數據可結合專業(yè)知識作出判別。對于有反復、異合專業(yè)知識作出判別。對于有反復、異?;蛎撀┑馁Y
15、料?;蛎撀┑馁Y料 ,應予以刪除或補齊,應予以刪除或補齊 ;對有錯誤、相互矛盾的資料應進展更正,對有錯誤、相互矛盾的資料應進展更正,必要時進展復查或重新實驗。必要時進展復查或重新實驗。3.2 數據資料的整理方法數據資料的整理方法 當觀測值不多當觀測值不多(n30)時,不用分組,可時,不用分組,可直接進展統(tǒng)計分析。直接進展統(tǒng)計分析。 當觀測值較多當觀測值較多(n30)時,宜將觀測值分時,宜將觀測值分成假設干組,以便統(tǒng)計分析。將觀測值分成假設干組,以便統(tǒng)計分析。將觀測值分組后,制成次數分布表,即可看到資料的組后,制成次數分布表,即可看到資料的集中和變異情況。集中和變異情況。 3.2 延續(xù)性資料計量資
16、料的整理延續(xù)性資料計量資料的整理 延續(xù)性資料的整理,需求先確定全距、延續(xù)性資料的整理,需求先確定全距、組數、組距、組中值及組限,然后將全部觀組數、組距、組中值及組限,然后將全部觀測值計數歸組。測值計數歸組。 【例【例2.1】 為了分析某消費廠的罐頭質量,為了分析某消費廠的罐頭質量,現隨機抽取現隨機抽取100聽罐頭樣品,分別稱取其凈聽罐頭樣品,分別稱取其凈重,數據資料見表重,數據資料見表2-1。342.1342.1340.7340.7348.4348.4346.0346.0343.4343.4342.7342.7346.0346.0341.1341.1344.0344.0348.0348.034
17、6.3346.3346.0346.0340.3340.3344.2344.2342.2342.2344.1344.1345.0345.0340.5340.5344.2344.2344.0344.0343.5343.5344.2344.2342.6342.6343.7343.7345.5345.5339.3339.3350.2350.2337.3337.3345.3345.3358.2358.2344.2344.2345.8345.8331.2331.2342.1342.1342.4342.4340.5340.5350.0350.0343.2343.2347.0347.0340.2340.234
18、4.0344.0353.3353.3340.2340.2336.3336.3348.9348.9340.2340.2356.1356.1346.0346.0345.6345.6346.2346.2340.6340.6339.7339.7342.3342.3352.8352.8342.6342.6350.3350.3348.5348.5344.0344.0350.0350.0335.1335.1340.3340.3338.2338.2345.5345.5345.6345.6349.0349.0336.7336.7342.0342.0338.4338.4343.9343.9343.7343.734
19、1.1341.1347.1347.1342.5342.5350.0350.0343.5343.5345.6345.6345.0345.0348.6348.6344.2344.2341.1341.1346.8346.8350.2350.2339.9339.9346.6346.6339.9339.9344.3344.3346.2346.2338.0338.0341.1341.1347.3347.3347.2347.2339.8339.8344.4344.4347.2347.2341.0341.0341.0341.0343.3343.3342.3342.3339.5339.5343.0343.0 1
20、、求全距、求全距 R 全距是數據資料中的最大值與最小值之差,又稱全距是數據資料中的最大值與最小值之差,又稱為極差為極差(range),用,用R表示。即表示。即 R=Max(xi)-Min(xi) xi為觀測值為觀測值 本例本例 Max=358.2 Min=331.2 R= 358.2 - 331.2 =27.0 2、確定組數、確定組數 k 組數的多少視樣本含量及資料的變動范圍組數的多少視樣本含量及資料的變動范圍大小而定,普通以到達既簡化資料又不影響反大小而定,普通以到達既簡化資料又不影響反映資料的規(guī)律性為原那么。組數要適當,不宜映資料的規(guī)律性為原那么。組數要適當,不宜過多,亦不宜過少。分組越多
21、所求得的統(tǒng)計量過多,亦不宜過少。分組越多所求得的統(tǒng)計量越準確,但增大了運算量;假設分組過少,資越準確,但增大了運算量;假設分組過少,資料的規(guī)律性就反映不出來,計算出的統(tǒng)計量的料的規(guī)律性就反映不出來,計算出的統(tǒng)計量的準確性也較差。普通組數確實定,可參考表準確性也較差。普通組數確實定,可參考表2-2。樣本含量n組數601007101002009122005001217500以上1730 3、確定組距、確定組距 i 每一組中的最大值與最小值之差稱為組距每一組中的最大值與最小值之差稱為組距Class interval,記為,記為 i。分組時普通要求。分組時普通要求各組的組距相等。各組的組距相等。 組距
22、組距(i)全距全距R組數組數k 本例本例 i279=3 4、確定組限及組中值、確定組限及組中值 各組的最大值與最小值稱為組限。最小值稱為下限,各組的最大值與最小值稱為組限。最小值稱為下限, 最大最大值稱為上限。每一組的中點值稱為組中值,它是該組的代表值稱為上限。每一組的中點值稱為組中值,它是該組的代表值。組中值與組限、組距的關系如下:組中值值。組中值與組限、組距的關系如下:組中值(組下限組組下限組上限上限)/2組下限組下限1/ 2組距組上限組距組上限1/2組距組距 表表2-1中,中, 最小值為最小值為331.2,第一組的組中,第一組的組中值取值取331.0,因組距為,因組距為3.0,因此,因此
23、 第一組的下限應為:第一組的下限應為: 331.0 -(1/2)3.0329.5; 第一組的上限也就是第二組的下限應為:第一組的上限也就是第二組的下限應為: 329.5+3.0=332.5; 第二組的上限也就是第三組的下限為:第二組的上限也就是第三組的下限為: 332.5+3.0=335.5, 依此類推,不斷到某一組的上限大于資料依此類推,不斷到某一組的上限大于資料中的最大值為止。中的最大值為止。 依次類推分組為:依次類推分組為: 329.5 - 332.5,332.5 -335.5, 將正好等于前一組上限和后一組下限的數據,普將正好等于前一組上限和后一組下限的數據,普通商定將其歸入后一組。通
24、商定將其歸入后一組。 通常將上限略去不寫。通常將上限略去不寫。 第一組記為第一組記為36.0 , 第二組記為第二組記為39.0 , 5、制造次數分布表、制造次數分布表 分組終了后,將資料中的每一觀測值逐一歸組分組終了后,將資料中的每一觀測值逐一歸組,統(tǒng)統(tǒng)計每組內所包含的觀測值個數,制造次數分布表。計每組內所包含的觀測值個數,制造次數分布表。 表表2-3 100聽罐頭凈重的次數分布聽罐頭凈重的次數分布組限組限組中值組中值x)x)次數次數f f329.5-329.5-331.0 331.0 332.5-332.5-334.0 334.0 335.5-335.5-337.0 337.0 338.5-
25、338.5-340.0 340.0 341.5-341.5-343.0 343.0 344.5-344.5-346.0 346.0 347.5-347.5-349.0 349.0 350.5-350.5-352.0 352.0 353.5-353.5-355.0 355.0 356.5-356.5-358.0 358.0 11621322312211 表表2-4 100盒鮮棗每盒檢出不合格棗數盒鮮棗每盒檢出不合格棗數182919242219242222202320212321262223242223242524222423242225232526232225232022252625262625
26、26242321262123222424212324242122232022232623242224262824272324222623202625252625252625242225262524252625252728 計數資料察看值較多時,變異范圍較大,假計數資料察看值較多時,變異范圍較大,假設以每一察看值為一組,那么組數太多,而每設以每一察看值為一組,那么組數太多,而每組內包含的察看值太少,資料的規(guī)律性顯示不組內包含的察看值太少,資料的規(guī)律性顯示不出來。對于這樣的資料,可擴展為以幾個相鄰出來。對于這樣的資料,可擴展為以幾個相鄰察看值為一組,適當減少組數,這樣資料的規(guī)察看值為一組,適當減少
27、組數,這樣資料的規(guī)律性就較明顯,對資料進一步計算分析也比較律性就較明顯,對資料進一步計算分析也比較方便。方便。 表表2-5 100盒鮮棗每盒檢出不合格棗數次數分布表盒鮮棗每盒檢出不合格棗數次數分布表不合格棗數不合格棗數次數次數f f18-1918-193 320-2120-21111122-2322-23313124-2524-25353526-2726-27171728-2928-293 33.4質量性狀資料、半定量等級資料的整質量性狀資料、半定量等級資料的整理理 對于質量性狀資料對于質量性狀資料 、 半定量等級資半定量等級資料,可按性狀或等級進展分組,分別統(tǒng)計各料,可按性狀或等級進展分組,
28、分別統(tǒng)計各組的次數,然后制成次數分布表。組的次數,然后制成次數分布表。3.5 常用統(tǒng)計表與統(tǒng)計圖常用統(tǒng)計表與統(tǒng)計圖 3.5.1 統(tǒng)計表統(tǒng)計表 1統(tǒng)計表的構造和要求統(tǒng)計表的構造和要求 統(tǒng)計表由標題、橫標目、縱標目、線條、統(tǒng)計表由標題、橫標目、縱標目、線條、數字及合計構成,其根本格式如下表數字及合計構成,其根本格式如下表: 表號表號 標題標題 編制統(tǒng)計表的總原那么:構造簡單,層次編制統(tǒng)計表的總原那么:構造簡單,層次清楚,內容安排合理,重點突出,數據準確,清楚,內容安排合理,重點突出,數據準確,便于了解和比較分析。便于了解和比較分析。 統(tǒng)計表編制詳細要求如下:統(tǒng)計表編制詳細要求如下: 標題標題 標題
29、要簡明扼要、準確地闡明表的內標題要簡明扼要、準確地闡明表的內容,有時須注明時間、地點。容,有時須注明時間、地點。 標目標目 標目分橫標目和縱標目兩項。橫標目列標目分橫標目和縱標目兩項。橫標目列在表的左側在表的左側 ,用以表示被闡明事物的主要標志;,用以表示被闡明事物的主要標志;縱標目列在表的上端,闡明橫標目各統(tǒng)計目的縱標目列在表的上端,闡明橫標目各統(tǒng)計目的內容,內容, 并注明計算單位,如、并注明計算單位,如、kg、cm等等。等等。 數字數字 一概用阿拉伯數字,數字以小數點對齊,一概用阿拉伯數字,數字以小數點對齊,小數位數一致,小數位數一致, 無數字的用無數字的用“表示,數字是表示,數字是“0的
30、,那么填寫的,那么填寫“0。 線條線條 表的上下兩條邊線略粗,縱、橫標目間表的上下兩條邊線略粗,縱、橫標目間及合計用細線分開,及合計用細線分開, 表的左右邊線可省去,表表的左右邊線可省去,表的左上角普通不用斜線。的左上角普通不用斜線。 (2) 統(tǒng)計表的種類統(tǒng)計表的種類 統(tǒng)計表可根據縱、橫標目能否有分組分為統(tǒng)計表可根據縱、橫標目能否有分組分為簡單表和復合表兩類。簡單表和復合表兩類。 簡單表簡單表 由一組橫標目和一組縱標目組成,由一組橫標目和一組縱標目組成,縱橫標目都未分組縱橫標目都未分組 。 此類表適于簡單資料的此類表適于簡單資料的統(tǒng)計,如表統(tǒng)計,如表2-6。 復合表復合表 由兩組或兩組以上的橫
31、標目與一組縱標目結合而成,或由由兩組或兩組以上的橫標目與一組縱標目結合而成,或由一組橫標目與兩組或兩組以上的縱標目結合而成,或由兩組或兩組一組橫標目與兩組或兩組以上的縱標目結合而成,或由兩組或兩組以上的橫、縱標目結合而成。此類表適用于復雜資料的統(tǒng)計,如表以上的橫、縱標目結合而成。此類表適用于復雜資料的統(tǒng)計,如表2-11。 3.5.2 統(tǒng)計圖統(tǒng)計圖 常用的統(tǒng)計圖有長條圖常用的統(tǒng)計圖有長條圖 (bar chart) 、圓、圓餅圖餅圖(pie chart) 、 線圖線圖(linear chart) 、 直直方圖方圖(histogram)和和 折線圖折線圖 (broken-line chart)等等
32、。 普通情況下普通情況下 ,計量資料采用直方,計量資料采用直方圖和折線圖,計數資料圖和折線圖,計數資料 、質量性狀資料、半、質量性狀資料、半定量定量 等級資料常用長條圖等級資料常用長條圖 、 線圖或園餅線圖或園餅圖。圖。 統(tǒng)計圖繪制的根本要求統(tǒng)計圖繪制的根本要求 1、標題簡明扼要,列于圖的下方。、標題簡明扼要,列于圖的下方。 2、縱、橫兩軸應有刻度,注明單位。、縱、橫兩軸應有刻度,注明單位。 3、橫軸由左至右、縱軸由下而上,數值由、橫軸由左至右、縱軸由下而上,數值由小到大;小到大; 圖形長寬比例約圖形長寬比例約5:4或或6:5。 4、圖中需用不同顏色或線條代表不同處置、圖中需用不同顏色或線條代
33、表不同處置、樣品等時,應有圖例闡明。樣品等時,應有圖例闡明。 工具工具-加載宏加載宏-分析數據庫分析數據庫 數據分析數據分析 方差分析方差分析 回歸分析回歸分析 統(tǒng)計假設檢驗統(tǒng)計假設檢驗 直方圖直方圖 描畫統(tǒng)計描畫統(tǒng)計4.1 描畫中心趨勢的統(tǒng)計量描畫中心趨勢的統(tǒng)計量平均數平均數mean,average) 4.1.1 算術平均數算術平均數arithmetic mean) 算術平均數是指資料中各觀測值的總和除算術平均數是指資料中各觀測值的總和除以觀測值個數所得的商,簡稱平均數或均數,以觀測值個數所得的商,簡稱平均數或均數,記為記為 。 算術平均數可根據樣本大小及分組情況而算術平均數可根據樣本大小及
34、分組情況而采用直接法或加權法計算。采用直接法或加權法計算。 1.直接法直接法 主要用于樣本含量主要用于樣本含量n30以下、未經分組資以下、未經分組資料平均數的計算。料平均數的計算。x 設某一資料包含設某一資料包含n個觀測值:個觀測值: x1、x2、xn, 那么樣本平均數可經過下式計算:那么樣本平均數可經過下式計算: 2-1 其中,其中,為總和符號;為總和符號; 表示從第一個觀測值表示從第一個觀測值x1累加到第累加到第n個觀測值個觀測值xn。當。當 在意義上已明確在意義上已明確時,可簡寫為時,可簡寫為x,3-1式可改寫為:式可改寫為: nxnxxxxniin121niix1nxxniix1 例:
35、對例:對10位同窗的體重進展測定,測定結果分別為位同窗的體重進展測定,測定結果分別為50.0、52.0、53.5、56.0、58.5、60.0、48.0、51.0、50.5、49.0kg,求其平均數。,求其平均數。 由于由于 x=50.0+52.0+53.5+56.0+58.5 +60.0+48.0+51.0+50.5+49.0 =528.5, n=10 那么那么 10位同窗的平均體重為位同窗的平均體重為52.85 kg。 2. 加權法加權法 對于樣本含量對于樣本含量 n30 以上且已分組的資料,以上且已分組的資料,可以在次數分布表的根底上采用加權法計算平可以在次數分布表的根底上采用加權法計算
36、平均數,計算公式為:均數,計算公式為: 2-2 5(kg)8 .52105 .528nxxffxfxffffxfxfxfxkiikiiikkk11212211 式中:式中: 第第i組的組中值;組的組中值; 第第i組的次數;組的次數; 分組數分組數 第第i組的次數組的次數fi是權衡第是權衡第i組組中值組組中值xi在資料在資料中所占的比艱苦小,因此將中所占的比艱苦小,因此將fi 稱為是稱為是xi的的“權,權,加權法也由此而得名。加權法也由此而得名。 【例】【例】 100聽罐頭凈重單位:聽罐頭凈重單位:kg資料資料整理成次數分布表如下,求其加權數平均數。整理成次數分布表如下,求其加權數平均數。ixi
37、fk表表2-3 100聽罐頭凈重的次數分布聽罐頭凈重的次數分布組限組限組中值組中值x)x)次數次數f f329.5-329.5-331.0 331.0 1 1332.5-332.5-334.0 334.0 3 3335.5-335.5-337.0 337.0 1010338.5-338.5-340.0 340.0 2626341.5-341.5-343.0 343.0 3131344.5-344.5-346.0 346.0 1717347.5-347.5-349.0 349.0 8 8350.5-350.5-352.0 352.0 2 2353.5-353.5-355.0 355.0 1 13
38、56.5-356.5-358.0 358.0 1 1 利用加權法計算平均數公式計算:利用加權法計算平均數公式計算: 100聽罐頭每聽凈重的加權平均數為聽罐頭每聽凈重的加權平均數為342.67 g。 留意:留意: 計算假設干個來自同一總體的樣本平均計算假設干個來自同一總體的樣本平均數的平均數時,假設樣本含量不等,也應采用數的平均數時,假設樣本含量不等,也應采用加權法計算。加權法計算。 )(67.3421001358.1033733341331gffxx)( 【例】【例】 某牛群有黑白花奶牛某牛群有黑白花奶牛 1500頭,其平均頭,其平均體重為體重為750 kg ,而另一牛群有黑白花奶牛,而另一牛
39、群有黑白花奶牛1200頭,平均體重為頭,平均體重為725 kg,假設將這兩個,假設將這兩個牛群混合在一同,其混合后平均體重為多少?牛群混合在一同,其混合后平均體重為多少? 此例兩個牛群所包含的牛的頭數不等,要此例兩個牛群所包含的牛的頭數不等,要計算兩個牛群混合后的平均體重,應以兩個牛計算兩個牛群混合后的平均體重,應以兩個牛群牛的頭數為權,求兩個牛群平均體重的加權群牛的頭數為權,求兩個牛群平均體重的加權平均數,即平均數,即 即兩個牛群混合后平均體重為即兩個牛群混合后平均體重為738.89 kg。3.平均數的根本性質平均數的根本性質 1樣本各觀測值與平均數之差的和為零,樣本各觀測值與平均數之差的和
40、為零,即離均差之和等于零。即離均差之和等于零。 或簡寫成或簡寫成)(89.738270012007251500750kgffxx0)(1xxnii0)(xx 2樣本各觀測值與平均數之差的平方和為最小,樣本各觀測值與平均數之差的平方和為最小,即離均差平方和為最小。即離均差平方和為最小。 (xi- )2 (xi- a)2 常數常數a 或簡寫為:或簡寫為: 對于總體而言,通常用對于總體而言,通常用表示總體平均數,有限表示總體平均數,有限總體的平均數為:總體的平均數為: ni 1xni 12)(xx2)(xNxNii1x 當一個統(tǒng)計量的數學期望等于所估計當一個統(tǒng)計量的數學期望等于所估計的總體參數時,那
41、么稱此統(tǒng)計量為該總的總體參數時,那么稱此統(tǒng)計量為該總體參數的無偏估計量。體參數的無偏估計量。 統(tǒng)計學中常用樣本平均數統(tǒng)計學中常用樣本平均數 作為作為總體平均數總體平均數的估計量,并已證明的估計量,并已證明樣本平均數是總體平均數樣本平均數是總體平均數的無偏估計的無偏估計量。量。 x 4.1.2 中位數中位數 median 將資料內一切觀測值由小到大依次陳列,將資料內一切觀測值由小到大依次陳列,位于中間的那個觀測值,稱為中位數,記位于中間的那個觀測值,稱為中位數,記為為Md。 當觀測值的個數是偶數時,那么以中間當觀測值的個數是偶數時,那么以中間兩個觀測值的平均數作為中位數。當所獲兩個觀測值的平均數
42、作為中位數。當所獲得的數據資料呈偏態(tài)分布時,中位數的代得的數據資料呈偏態(tài)分布時,中位數的代表性優(yōu)于算術平均數。表性優(yōu)于算術平均數。 1當觀測值個數當觀測值個數n為奇數時,第為奇數時,第(n+1)/2位置的觀測值,即位置的觀測值,即x(n+1)/2為中為中位數:位數: Md= 2當觀測值個數為當觀測值個數為 偶偶 數數 時時 , 第第n/2和第和第n/2+1位置的兩個觀測值之和位置的兩個觀測值之和的的1/2為中位數,即:為中位數,即: 2/ )1( nx2)12/(2/nndxxM 【例】【例】 對對9個小麥種類的容重進展測定,測定個小麥種類的容重進展測定,測定結果為結果為750 、 760、
43、767、 769、773、775、778、780、800已排序,求其中位數。已排序,求其中位數。 此例此例 n=9,為奇數,那么:,為奇數,那么: Md= =773g 即九個小麥種類的中位數為即九個小麥種類的中位數為773 g。 52/ ) 19(2/ ) 1(xxxn4.1.3 幾何平均數幾何平均數geometric mean n 個觀測值相乘之積開個觀測值相乘之積開 n 次方所得的方根,次方所得的方根,稱為幾何平均數,記為稱為幾何平均數,記為G。它主要運用于科學。它主要運用于科學研討中的動態(tài)分析,如微生物的增長率、人口研討中的動態(tài)分析,如微生物的增長率、人口的增長率等等。當觀測值呈幾何級數
44、變化時,的增長率等等。當觀測值呈幾何級數變化時,用幾何平均數比用算術平均數更能代表其平均用幾何平均數比用算術平均數更能代表其平均程度。其計算公式如下:程度。其計算公式如下: nnnnxxxxxxxxG1)(321321 為了計算方便,可將各觀測值取對數后相為了計算方便,可將各觀測值取對數后相加除以加除以n,得,得lgG,再求,再求lgG的反對數,即得的反對數,即得G值,即值,即 )lglg(lg1lg211nxxxnG4.1.4 眾眾 數數mode 資料中出現次數最多的那個觀測資料中出現次數最多的那個觀測值或次數最多一組的組中值,稱為眾值或次數最多一組的組中值,稱為眾數,記為數,記為M0。 4
45、.1.5 調和平均數調和平均數harmonic mean) 資料中各觀測值倒數的資料中各觀測值倒數的 算術平均算術平均數數 的倒數,稱為調和平均數,記為的倒數,稱為調和平均數,記為H,即,即xnxxxnnH1111111)(1214.2描畫離散趨勢的統(tǒng)計量描畫離散趨勢的統(tǒng)計量變異變異數數 變異數的意義變異數的意義 用平均數作為樣本的代表,其代表性的用平均數作為樣本的代表,其代表性的強弱受樣本資料中各觀測值變異程度的影強弱受樣本資料中各觀測值變異程度的影響。僅用平均數對一個資料的特征作統(tǒng)計響。僅用平均數對一個資料的特征作統(tǒng)計描畫是不全面的,還需引入度量資料中觀描畫是不全面的,還需引入度量資料中觀
46、測值變異程度大小的統(tǒng)計量。測值變異程度大小的統(tǒng)計量。 常用的表示變異程度的統(tǒng)計量有全距、常用的表示變異程度的統(tǒng)計量有全距、方差、規(guī)范差和變異系數。方差、規(guī)范差和變異系數。4.2.1 全距全距Range 全距極差是表示資料中各觀測值變異全距極差是表示資料中各觀測值變異程度大小最簡便的統(tǒng)計量。程度大小最簡便的統(tǒng)計量。 RMax-Min R值越大,平均數的代表性越差。但是值越大,平均數的代表性越差。但是全距只利用了資料中的最大值和最小值,全距只利用了資料中的最大值和最小值,沒有充分利用全部資料,并不能準確表達沒有充分利用全部資料,并不能準確表達資料中各觀測值的變異程度,是比較粗略資料中各觀測值的變異
47、程度,是比較粗略的。當資料很多而又要迅速對資料的變異的。當資料很多而又要迅速對資料的變異程度作出判別時,可以利用全距這個統(tǒng)計程度作出判別時,可以利用全距這個統(tǒng)計量。量。 為為 了了 準準 確確 地地 表示樣本內各個觀測值表示樣本內各個觀測值的變異程度的變異程度 ,人們,人們 首首 先會思索到以平均數先會思索到以平均數為規(guī)范,求出各個觀測值與平均數的離差,為規(guī)范,求出各個觀測值與平均數的離差, ,稱為離均差。,稱為離均差。 雖然離均差能表示一個觀測值偏離平均雖然離均差能表示一個觀測值偏離平均數的性質和程度,但由于離均差有正、有數的性質和程度,但由于離均差有正、有負負 ,離均差之和為零,即,離均差
48、之和為零,即 = 0 ,因,因 而而 不不 能能 用離均差之和用離均差之和 來來 表表 示示 資資料中一切觀測值的總偏離程度。料中一切觀測值的總偏離程度。 xxxxxx4.2.2 方差方差Variance 為理處理離均差有正為理處理離均差有正 、有負,離均、有負,離均差之和為零的問差之和為零的問 題題 , 可先求可先求 離離 均均 差差的絕的絕 對對 值值 并并 將將 各各 離離 均均 差差 絕對絕對 值值 之之 和和 除以除以 觀觀 測測 值值 個個 數數 n 求求 得得 平平 均均 絕絕 對對 離差,即離差,即| |/n。雖然平均絕對。雖然平均絕對離差可以表示資料中各觀測值的變異程離差可以
49、表示資料中各觀測值的變異程度度 ,但由于平均絕對離差包含絕對值符,但由于平均絕對離差包含絕對值符號號 ,運用很不方便,在統(tǒng)計學中未被采,運用很不方便,在統(tǒng)計學中未被采用。用。xx 采用將離均差平方的方法來處理離均差有正、有負,采用將離均差平方的方法來處理離均差有正、有負,離均差之和為零的問題。離均差之和為零的問題。 先將各先將各 個離個離 均差平方,即均差平方,即 ( )2 ,再求,再求 離均差平方離均差平方和和 , 即即 ,簡稱平方和,記為,簡稱平方和,記為SS; 由由 于于 離差平方離差平方和和 常常 隨隨 樣樣 本本 大大 小小 而而 改改 變變 ,為,為 了了 消消 除除 樣樣 本大小
50、本大小 的的 影影 響響 , 用平方和用平方和 除除 以以 樣樣 本本 大大 小,小, 即即 ,求,求出離均差平方和的平均數出離均差平方和的平均數 ;xx2)(xx nxx/)(2 為了使所得的統(tǒng)計量是相應總體參數的無為了使所得的統(tǒng)計量是相應總體參數的無 偏估計量,統(tǒng)計偏估計量,統(tǒng)計學證明,在求離均差平方和的平均數時,分母不用樣本含量學證明,在求離均差平方和的平均數時,分母不用樣本含量n,而用自在度,而用自在度 n-1, 所以,我們所以,我們 采采 用統(tǒng)計量用統(tǒng)計量 表示資料的變異程度。表示資料的變異程度。 統(tǒng)計量統(tǒng)計量 稱稱 為為 均均 方方 mean square縮縮寫為寫為MS,又稱樣本
51、方差,記為又稱樣本方差,記為S2,即,即 S2= 29 )(1/)(2nxx)(1/)(2nxx)(1/)(2nxx 相應的總體參數叫相應的總體參數叫 總體方差總體方差 ,記,記為為2。對于有限總體而言,。對于有限總體而言,2的計算的計算公式為:公式為: 210Nxx/)(22 統(tǒng)計學上把樣本方差統(tǒng)計學上把樣本方差 S2 的平方根叫的平方根叫做樣本規(guī)范差,記為做樣本規(guī)范差,記為S,即:,即: 1)(2nxxS 由于由于 所以所以2-11式可改寫為:式可改寫為: )2()(222xxxxxx222xnxxx222)()(2nxnnxxnxx22)(12)(2nxSnx 相應的總體參數叫總體規(guī)范差
52、,記為相應的總體參數叫總體規(guī)范差,記為。對于有限總體而言,對于有限總體而言,的計算公式為:的計算公式為: 2-12 在統(tǒng)計學中,常用樣本規(guī)范差在統(tǒng)計學中,常用樣本規(guī)范差S估計總體規(guī)估計總體規(guī)范差范差。 Nx/)(24.2.4 規(guī)范差的計算方法規(guī)范差的計算方法1. 直接法直接法 對于未分組或小樣本資料對于未分組或小樣本資料 , 可直可直接利用定義公式來計算規(guī)范差。接利用定義公式來計算規(guī)范差。 【例】【例】 10瓶罐頭的凈重瓶罐頭的凈重g分別為分別為450, 450, 500, 500, 500,550, 550, 550, 600, 600,650,計算規(guī)范差。,計算規(guī)范差。 由知,計算:由知,
53、計算:x=5400,x2=2955000,代入公式得:代入公式得: 10瓶罐頭凈重的規(guī)范差為瓶罐頭凈重的規(guī)范差為65.828 g。828.6511010/540029550001/)(222nnxxS2. 加權法加權法 對于已制成次數分布表的大樣本資料,可對于已制成次數分布表的大樣本資料,可利用次數分布表,采用加權法計算規(guī)范差。計利用次數分布表,采用加權法計算規(guī)范差。計算公式為:算公式為:1/)( 1)(ii2ii2iii2iiffxfxffxxfS 【例】由次數分布計算【例】由次數分布計算100聽罐頭凈重的規(guī)范差。聽罐頭凈重的規(guī)范差。1100100/1.31 1/)( 1)(342.673583343312222ii2ii2iii2ii)(ffxfxffxxfS3. 規(guī)范差的特性規(guī)范差的特性 1規(guī)范差的大小,受資料中每個觀測值的影規(guī)范差的大小,受資料中每個觀測值的影響,如觀測值間變異大,求得的規(guī)范差也大,響,如觀測值間變異大,求得的規(guī)范差也大,反之那么小。反之那么小。2計算規(guī)范差時,在各觀測值加上或減去一計算規(guī)范差時,在各觀測值加上或減去一個常數,其數值不變。個常數,其數值不變。3每個觀測值乘以或除以一個常數每個觀測值乘以或除以一個常數a,那么所,那么所得的規(guī)范差是原來規(guī)范差的得的規(guī)范差是原來規(guī)范差的a倍或倍或1/a倍。倍。 4在資料服從正
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中藥天花粉簡介
- 城市管理執(zhí)法辦法城市保護篇
- 2024年09月山西2024屆中國民生銀行太原分行秋季校園招考筆試歷年參考題庫附帶答案詳解
- 2024年09月山東2024年興業(yè)銀行濟南分行校園招考筆試歷年參考題庫附帶答案詳解
- 2024年09月四川中信銀行四川社會招考(97)筆試歷年參考題庫附帶答案詳解
- 2024年09月四川2024屆上海銀行成都分行秋季校園招考筆試歷年參考題庫附帶答案詳解
- 2024年09月北京民生銀行信用卡中心社會招考(97)筆試歷年參考題庫附帶答案詳解
- 2024年09月全國2024年中國銀行中銀基金管理校園招考筆試歷年參考題庫附帶答案詳解
- 黑龍江省哈爾濱市尚志市田家炳中學2025屆中考一模生物試題含解析
- 2024年09月2024年中國建設銀行北京市分行校園招聘(500人)筆試歷年參考題庫附帶答案詳解
- 七年級生物上冊期末測試卷(各版本)
- 07FD02防空地下室電氣設備安裝圖集
- 基礎會計(第7版)ppt課件完整版
- Q∕SY 1206.1-2009 油氣管道通信系統(tǒng)通用技術規(guī)范 第1部分:光傳輸系統(tǒng)
- 汽車4S店八大運營業(yè)績指標管控培訓_89頁
- 設備安裝、調試及驗收質量保證措施
- 火力發(fā)電廠生產技術管理導則
- 汽輪機葉片振動與分析
- 地質工作個人述職報告三篇
- 產品可追溯流程圖圖
- 形意拳九歌八法釋意
評論
0/150
提交評論