




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第 4章 統(tǒng)計數據特征的描述,4.1 分布集中趨勢的測度 4.2 分布離散程度的測度 4.3 分布偏態(tài)與峰度的側度 4.4 莖葉圖與箱線圖 4.5 統(tǒng)計表與統(tǒng)計圖 本章小結,學習目標,掌握數據集中趨勢和離散程度的測度方法 掌握莖葉圖和箱線圖的制作方法 掌握分布偏態(tài)與峰度的測度方法 掌握統(tǒng)計表和統(tǒng)計圖的使用,學習重點,側度數據集中趨勢指標的計算方法及應用 側度數據離散程度指標的計算方法及應用 統(tǒng)計表與統(tǒng)計圖,學習難點,方差、標準差、變異系數的實質,授課學時,4學時,4.1分布集中趨勢的測度,分布集中趨勢的測度值是反映數據一般水平 的代表值或者數據分布的中心值 。 一、眾數 二、中位數 三、四分位
2、數 四、均值 五、幾何均值 六、切尾均值 七、眾數、中位數和均值的比較,眾數,眾數(mode),一組數據中出現次數最多的變量值 適合于數據量較多時使用 不受極端值的影響 一組數據可能沒有眾數或有幾個眾數 主要用于分類數據,也可用于順序數據和數值型數據 眾數計算公式見書頁。,眾數(不惟一性),無眾數,一個眾數,多于一個眾數,中位數,中位數(median),排序后處于中間位置上的值,不受極端值的影響 主要用于順序數據,也可用數值型數據,但不能用于分類數據 各變量值與中位數的離差絕對值之和最小,即,中位數計算,(1) 為分組資料 中位數位置=(n+1)/2 (奇數項與偶數項) (2)分組資料 中位數
3、位置=n/2 中位數在累計頻數剛剛大于中位數位置的組 眾數計算公式見書頁。,四分位數,四分位數(quartile),排序后處于25%和75%位置上的值,不受極端值的影響 主要用于順序數據,也可用于數值型數據,但不能用于分類數據,四分位數(位置的確定),未分組數據:,分組數據:,均 值,均值(算數平均數)(mean),集中趨勢的最常用測度值 一組數據的均衡點所在 體現了數據的必然性特征 易受極端值的影響 用于數值型數據,不能用于分類數據和順序數據 注意均值的平均性,簡單算數平均數(simple mean),設一組數據為: x1 ,x2 , ,xn,總體均值,樣本均值,加權算數平均數(weight
4、ed mean),設一組數據為: x1 ,x2 , ,xn 相應的頻數為: f1 , f2 , ,fk,總體均值,樣本均值,加權算數平均數 (例題分析),均值(數學性質),1.各變量值與均值的離差之和等于零,2. 各變量值與均值的離差平方和最小,幾何平均數,幾何平均數(geometric mean),n 個變量值乘積的 n 次方根 主要用于計算平均比率或平均速度 計算公式為,5. 可看作是均值的一種變形,幾何平均數 (例題分析),【例】一位投資者購持有一種股票,在2000年、2001年、2002年和2003年收益率分別為4.5%、2.1%、25.5%、1.9%。計算該投資者在這四年內的平均收益
5、率,算術平均:,幾何平均:,幾何平均數 (例題分析),【例】胡錦濤在十七大報告中提出,實現人均國內生產總值(GDP)到2020年比2000年翻兩番。,切尾均值,切尾均值(trimmed Mean),去掉大小兩端的若干數值后計算中間數據的均值 在電視大獎賽、體育比賽及需要人們進行綜合評價的比賽項目中已得到廣泛應用 計算公式為,n 表示觀察值的個數;表示切尾系數,,切尾均值 (例題分析),【例】謀次比賽共有11名評委,對某位歌手的給分分別是:,經整理得到順序統(tǒng)計量值為,去掉一個最高分和一個最低分, 取1/11,眾數、中位數和均值的比較,眾數、中位數和均值的關系,眾數、中位數、均值的特點和應用,眾數
6、 不受極端值影響 具有不惟一性 數據分布偏斜程度較大時應用 中位數 不受極端值影響 數據分布偏斜程度較大時應用 均值 易受極端值影響 數學性質優(yōu)良 數據對稱分布或接近對稱分布時應用,4.2 分布離散程度的測度,分布離散程度的測度值反映數據分布離散和差異 程度。主要包括: 一、極差 二、內距 三、方差和標準差 四、離散系數,極差(range),一組數據的最大值與最小值之差 離散程度的最簡單測度值 易受極端值影響 未考慮數據的分布,R = max(xi) - min(xi),計算公式為,內距(Inter-Quartile Range,IQR),也稱四分位差 上四分位數與下四分位數之差 內 距= Q
7、3 Q1 反映了中間50%數據的離散程度 不受極端值的影響 可用于衡量中位數的代表性,方差和標準差,方差和標準差(Variance and Standard deviation),1.反映了數據的分布離散程度和差異程度的最常用的測度值。 2.反映了各變量值與均值的平均差異。 3.根據總體數據計算的,稱為總體方差或標準 差;根據樣本數據計算的,稱為樣本方差或 標準差,總體方差和標準差 (simple variance and standard deviation),未分組數據:,組距分組數據:,未分組數據:,組距分組數據:,方差的計算公式,標準差的計算公式,樣本方差和標準差 (simple va
8、riance and standard deviation),未分組數據:,組距分組數據:,未分組數據:,組距分組數據:,方差的計算公式,標準差的計算公式,樣本方差自由度(degree of freedom),一組數據中可以自由取值的數據的個數 當樣本數據的個數為 n 時,若樣本均值x 確定后,只有n-1個數據可以自由取值,其中必有一個數據則不能自由取值 例如,樣本有3個數值,即x1=2,x2=4,x3=9,則 x = 5。當 x = 5 確定后,x1,x2和x3有兩個數據可以自由取值,另一個則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值,樣本標準差 (例題分析),
9、樣本標準差 (例題分析),含義:每一天的銷售量與平均數相比, 平均相差21.58臺,離散系數,離散系數(coefficient of variation),1.標準差與其相應的均值之比 對數據相對離散程度的測度 消除了數據水平高低和計量單位的影響 4.用于對不同組別數據離散程度的比較 5. 計算公式為,在什么情況下使用離散系數呢?,當兩個數列的性質相同且均值相等的情況下用標準差說明平均數代表性的高低。 當兩個數列的性質不同或均值不同的情況下需要用離散系數說明平均數代表性的高低。,離散系數 (例題分析),【 例 】某管理局抽查了所屬的8家企業(yè),其產品銷售數據如表。試比較產品銷售額與銷售利潤的離散
10、程度,離散系數 (例題分析),結論: 計算結果表明,v1v2,說明產品銷售額的離散程度小于銷售利潤的離散程度,例題: 有甲、乙兩個品種的糧食作物,經播種實驗后得知乙品種的平均畝產量為998公斤,標準差為162.7公斤,甲品種實驗資料如下,試研究兩個品種的平均畝產量,確定哪一品種具有較大穩(wěn)定性,更有推廣價值。,4.3 分布偏態(tài)與峰度的測度,偏態(tài)與峰態(tài)分布的形狀,偏態(tài),峰態(tài),偏態(tài)及其測度(skewness),1. 統(tǒng)計學家Pearson于1895年首次提出 2. 數據分布偏斜程度的測度 3.偏態(tài)系數=0為對稱分布 4.偏態(tài)系數 0為右偏分布 偏態(tài)系數 0為左偏分布 計算公式:,偏態(tài)系數 (例題分析
11、),偏態(tài)系數 (例題分析),結論:偏態(tài)系數為正值,但與0的差異不大,說明電腦銷售量為輕微右偏分布,即銷售量較少的天數占據多數,而銷售量較多的天數則占少數,峰態(tài)及其測度(kurtosis),統(tǒng)計學家Pearson于1905年首次提出 數據分布扁平程度的測度 峰態(tài)系數=扁平峰度適中 峰態(tài)系數為尖峰分布 計算公式,峰態(tài)系數 (例題分析),結論:偏態(tài)系數小于,但與的差異不大,說明電腦銷售量為輕微扁平分布,4.4 莖葉圖與箱線圖,一、莖葉圖 二、箱線圖,莖葉圖(stem-and-leaf display),用于顯示未分組的原始數據的分布。 由“莖”和“葉”兩部分構成,其圖形是由數字組成的。 以該組數據的
12、高位數值作樹莖,低位數字作樹葉 樹葉上只保留一位數字(個位數)。 莖葉圖類似于橫置的直方圖,但又有區(qū)別 直方圖可觀察一組數據的分布狀況,但沒有給出具體的數值。 莖葉圖既能給出數據的分布狀況,又能給出每一個原始數值,保留了原始數據的信息。,莖葉圖(例題分析P22表2.7),莖葉圖(擴展的莖葉圖04,59),箱線圖(box plot),用于顯示未分組的原始數據的分布。 箱線圖由一組數據的5個特征值繪制而成,它由一個箱子和兩條線段組成。 箱線圖的繪制方法 首先找出一組數據的5個特征值,即最大值、最小值、中位數Me和兩個四分位數(下四分位數QL和上四分位數QU)。 連接兩個四分(位)數畫出箱子,再將兩
13、個極值點與箱子相連接 。,箱線圖(箱線圖的構成),箱線圖(例題分析),分布的形狀與箱線圖,不同分布的箱線圖,未分組數據多批數據箱線圖 (例題分析),【例】 從某大學經濟管理專業(yè)二年級學生中隨機抽取11人,對8門主要課程的考試成績進行調查,所得結果如表。試繪制各科考試成績的批比較箱線圖,并分析各科考試成績的分布特征,未分組數據多批數據箱線圖(例題分析),8門課程考試成績的箱線圖,11名學生8門課程考試成績的箱線圖,min-max,25%-75%,median value,45,55,65,75,85,95,105,學生1,學生2,學生3,學生4,學生5,學生6,學生7,學生8,學生9,學生10,
14、學生11,未分組數據多批數據箱線圖 (例題分析),4.5 統(tǒng)計表與統(tǒng)計圖,統(tǒng)計表,是顯示統(tǒng)計數據的工具。 統(tǒng)計表由表頭、行標題、列標題、和數字資料四部分組成。 表頭放在表的正上方,說明統(tǒng)計表的主要內容。 行標題放在表的第一列,說明研究問題的類別。 列標題放在表的第一行,說明研究問題的指標名稱。 表的其余部分為統(tǒng)計數字。 表外附加放在表的下方,指明資料來源,必要說明,指標注釋等。,行標題,列標題,數字資料,表頭,附加,統(tǒng)計表的設計,統(tǒng)計表設計原則:科學、實用、簡練、美觀 首先,合理安排統(tǒng)計表的結構。 其次,表頭一般應包含標號、總標題和表中數據的單位等內容。(表頭包含時間、地點、何種數據)。 第三,通常情況下,統(tǒng)計表的左右兩邊不封口,上下兩條線要粗,中間其他線要細。列標題用豎線隔開,行標題之間一般不用橫線隔開。以小數點同一位數右對齊。 第四,“”表示沒有數據,“ ”表示缺少。 第五,統(tǒng)計表的欄數較多,可以在表或各欄應用(1) 、(2)、(3)等數字編號; 第六,統(tǒng)計表要注明計量單位和資料來源。數據計量單位相同時,可放在表的右
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 死因贈與合同范本(3篇)
- 兗礦集團合同樣本
- 倒水泥勞務合同樣本
- 二零二五版消防工程驗收的承諾書范文
- 物業(yè)管理公司員工安全責任書二零二五年
- 二零二五志愿者勞務聘用合同
- 全新授權委托支付協(xié)議書二零二五年
- 《2025工程項目材料供應合同范本》
- 人員演出合同標準文本
- 高校教師聘用合同
- 華北電力大學丁肇豪:多主體數據中心算力-電力跨域協(xié)同優(yōu)化
- 科技公司費用報銷制度及流程比較
- 顱內出血護理操作
- 2024年紹興諸暨市水務集團有限公司招聘考試真題
- 2025年新版供電營業(yè)規(guī)則考試題庫
- 2025年長白山職業(yè)技術學院單招職業(yè)技能測試題庫帶答案
- 2025年公務員遴選考試公共基礎知識必考題庫170題及答案(四)
- 2024年內蒙古呼和浩特市中考物理試題【含答案、解析】
- 辦公用品及設備采購產品手冊
- 河道清淤工程施工組織設計方案
- 農業(yè)行業(yè)安全生產培訓
評論
0/150
提交評論