




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第二章 描述性統(tǒng)計(jì)描述定性數(shù)據(jù)的圖形法和數(shù)值法每個(gè)觀測值能落入一類(組)并且只能落入一類(組)對給定的類,類頻數(shù)是指落入這個(gè)類中的觀測值的個(gè)數(shù)對給定的類,類相對頻率是指落入這個(gè)類中的觀測值個(gè)數(shù)相對于觀測值總數(shù)的比例條形圖Minitabà圖形à條形圖用長方形表示定性變量的類(組),其中每一個(gè)長方形的高是類頻數(shù)/類相對頻率帕雷拖圖Minitabà統(tǒng)計(jì)à質(zhì)量工具à Pareto圖意大利經(jīng)濟(jì)學(xué)家Vilfredo Pareto,將定性變量的類(即長方形)按照高度從左向右降序排列的條形圖餅圖Minitabà圖形à餅圖用一個(gè)餅(圓)的一份
2、表示定性變量的類,每份大小與類頻數(shù)或類相對頻率成比例描述定量數(shù)據(jù)的圖形法點(diǎn)圖Minitabà圖形à點(diǎn)圖數(shù)據(jù)集中每一個(gè)定量變量的數(shù)值表示為水平刻度尺上的一個(gè)點(diǎn),當(dāng)數(shù)值重復(fù)時(shí),點(diǎn)垂直畫在另一點(diǎn)之上莖葉圖Minitabà圖形à莖葉圖定量變量的數(shù)值分為莖和葉兩部分,可能的莖按順序排在一列中,數(shù)據(jù)集中每一個(gè)定量變量的數(shù)值的葉放在相應(yīng)莖的行上,有相同莖的數(shù)值的葉在水平方向按升序排列莖葉圖 MPG N=100葉單位= 0.10 1 (莖)30 (葉)0 2 (莖)31 (葉)8 6 (莖)32 (葉)5799 12 (莖)33 (葉)126899 表示大于等于33且小
3、于34的測量值有6個(gè) 18 (莖)34 (葉)024588 29 (莖)35 (葉)01235667899 49 (莖)36 (葉)01233445566777888999(21) (莖)37 (葉)000011122334456677899 最大組區(qū)間 30 (莖)38 (葉)0122345678 20 (莖)39 (葉)00345789 12 (莖)40 (葉)0123557 5 (莖)41 (葉)002 2 (莖)42 (葉)1 1 (莖)43 (葉) 1 (莖)44 (葉)9直方圖Minitabà圖形à直方圖定量變量的測量值分成若干組區(qū)間,每一個(gè)組區(qū)間有相同的寬度,
4、這些組區(qū)間構(gòu)成了水平軸刻度。確定落在每個(gè)組區(qū)間中的觀測值的頻數(shù)或相對頻率(3637,3738,測量值37放在3738組區(qū)間)。每個(gè)組區(qū)間上放一個(gè)垂直的長方形,它的高度等于組區(qū)間頻數(shù)或相對頻率構(gòu)造直方圖的步驟1.計(jì)算定量變量數(shù)據(jù)集的極差2.根據(jù)數(shù)據(jù)集中測量值的個(gè)數(shù)確定組區(qū)間的個(gè)數(shù),根據(jù)極差和組區(qū)間個(gè)數(shù)確定組區(qū)間寬度。最小(即第一個(gè)組區(qū)間)組界應(yīng)當(dāng)比最小值小,選擇適當(dāng)?shù)慕M區(qū)間寬度,使得沒有測量值落在組界上數(shù)據(jù)集中測量值的個(gè)數(shù)組區(qū)間個(gè)數(shù)小于25562550714大于5015203.數(shù)出落入每個(gè)組區(qū)間的測量值個(gè)數(shù),這個(gè)數(shù)稱為組頻數(shù)4.計(jì)算每一組區(qū)間組相對頻率(組頻數(shù)/測量值的總個(gè)數(shù)) 5.直方圖本質(zhì)上
5、是條形圖,組區(qū)間就是類型,長方形的高度由組頻數(shù)或組相對頻率確定直方圖適用于非常大的數(shù)據(jù)集,但是不能為我們指出單個(gè)測量值點(diǎn)圖和莖葉圖適用于較小的數(shù)據(jù)集,能提供數(shù)據(jù)集有用的細(xì)節(jié)(每一個(gè)測量值)描述定量數(shù)據(jù)的數(shù)值法統(tǒng)計(jì)量是由樣本數(shù)據(jù)計(jì)算得到的數(shù)值描述性度量參數(shù)是總體的數(shù)值描述性度量中心趨勢的度量1.算術(shù)平均(均值)/平衡點(diǎn)1.1實(shí)際問題中使用最頻繁1.2體現(xiàn)了所有數(shù)值的影響1.3受極端值影響很大1.4樣本均值用表示,總體均值用表示2.中位數(shù)測量值按升序(或降序)排列后位于中間的測量值2.1不包括所有測量值2.2受極端值影響很小2.3樣本中位數(shù)用m表示,總體中位數(shù)用(Tau)表示2.4當(dāng)測量值個(gè)數(shù)n為
6、奇數(shù)時(shí)中位數(shù)=X(n+1)/2,為偶數(shù)時(shí)中位數(shù)=X(n/2)+X(n/2+1)/22.5有時(shí)稱中位數(shù)為中心趨勢的耐抵性度量2.6對于偏度較大的數(shù)據(jù)集,中位數(shù)能較好的地描述數(shù)據(jù)分布的中心3.眾數(shù)/峰點(diǎn)最大頻數(shù)對應(yīng)的測量值,很少作為中心趨勢的度量如果從一塊板上截下數(shù)據(jù)集直方圖的輪廓,它將在算術(shù)平均(均值)的那一點(diǎn)保持平衡;中位數(shù)左右兩邊的面積均為50%;眾數(shù)位于以最大頻數(shù)/相對頻率出現(xiàn)的點(diǎn),即分布的峰點(diǎn)數(shù)據(jù)集有一點(diǎn)偏度或沒有偏度的丘形分布,中位數(shù)和算術(shù)平均(均值)是基本相等的,而均值比中位數(shù)具有更好的數(shù)學(xué)性質(zhì),因此常用均值作為中心趨勢的度量變異性的度量1.極差1.1極差R=最大測量值-最小測量值=
7、Xmax-Xmin1.2極差是數(shù)據(jù)變異性相對不靈敏的度量,適用于小樣本2.方差2.1樣本方差S2,總體方差22.2有理論上的意義,因?yàn)樗膯挝皇亲兞康钠椒剑y于解釋2.3樣本方差計(jì)算公式2.4總體方差計(jì)算公式2.5為什么樣本方差除(n-1)而不是n在容量為N的總體中,假設(shè)我們已經(jīng)通過隨機(jī)抽樣的方式獲得了一份容量為n的樣本。有兩個(gè)任務(wù)需要完成,一是歸納樣本n個(gè)數(shù)據(jù)之間的分布狀況;二是借助樣本來推測總體的分布狀況,即嘗試以局部推測總體出于簡便的考慮,我們經(jīng)常借助均值和方差這兩個(gè)指標(biāo)來簡略地描述樣本或總體的分布狀況。對于第一項(xiàng)任務(wù)而言,為準(zhǔn)確描述樣本數(shù)據(jù)間的離散程度,樣本方差計(jì)算公式中的除數(shù)應(yīng)為n。
8、類似地,為準(zhǔn)確描述總體數(shù)據(jù)間的離散程度,總體方差計(jì)算公式中的除數(shù)應(yīng)為N然而,如果我們準(zhǔn)備借助樣本方差來推測總體的方差,以n為除數(shù)的樣本方差計(jì)算公式不是總體方差的無偏估計(jì)值計(jì)算式,以n-1為除數(shù)的樣本方差計(jì)算公式才是總體方差的無偏估計(jì)值計(jì)算式(即樣本方差的期望等于總體方差)。因此在推斷統(tǒng)計(jì)領(lǐng)域,樣本方差計(jì)算式的除數(shù)應(yīng)為n-1,而不應(yīng)為n當(dāng)然,在n足夠大的時(shí)候,樣本方差這兩種計(jì)算方法之間的差異可以忽略不計(jì)上述闡述歸納如下a若總體數(shù)據(jù)N已知,則該總體的數(shù)字特征不存在推測的問題,只存在描述的問題,總體方差計(jì)算公式中的除數(shù)應(yīng)為Nb以n-1為除數(shù)的樣本方差計(jì)算公式是總體方差的無偏估計(jì)值計(jì)算式c以n為除數(shù)的
9、樣本方差計(jì)算公式是總體方差的漸近無偏估計(jì)值計(jì)算式d如果只是要描述樣本數(shù)據(jù)間的離散程度,則樣本方差計(jì)算公式中的除數(shù)應(yīng)為ne當(dāng)n足夠大的時(shí)候,不必太在意樣本方差計(jì)算公式中除數(shù)的這兩種不同的選擇f在多數(shù)場合,習(xí)慣上總是以n-1為除數(shù)的樣本方差計(jì)算方式3.標(biāo)準(zhǔn)差3.1標(biāo)準(zhǔn)差的度量單位與變量的單位一致,結(jié)合數(shù)據(jù)集的均值,標(biāo)準(zhǔn)差容易解釋3.2樣本標(biāo)準(zhǔn)差3.3總體標(biāo)準(zhǔn)差4經(jīng)驗(yàn)法則(研究者通過觀察許多不同類型的真實(shí)數(shù)據(jù)集而得到的經(jīng)驗(yàn))若一個(gè)數(shù)據(jù)集有近似丘形的對稱分布(丘形分布),可用以下經(jīng)驗(yàn)法則描述數(shù)據(jù)集4.1大約68%的測量值位于均值的1個(gè)標(biāo)準(zhǔn)差范圍內(nèi)(樣本區(qū)間,總體區(qū)間)4.2大約95%的測量值位于均值的
10、2個(gè)標(biāo)準(zhǔn)差范圍內(nèi)(樣本區(qū)間,總體區(qū)間)4.3幾乎所有測量值位于均值的3個(gè)標(biāo)準(zhǔn)差范圍內(nèi)(樣本區(qū)間,總體區(qū)間)5切比雪夫法則(俄國數(shù)學(xué)家Chebyshev證明的)切比雪夫法則可用于任一數(shù)據(jù)集,無論數(shù)據(jù)的分布是什么形狀5.1很少的測量值落在均值的1個(gè)標(biāo)準(zhǔn)差范圍內(nèi)5.2至少有3/4的測量值落在均值的2個(gè)標(biāo)準(zhǔn)差范圍內(nèi)5.3至少有8/9的測量值落在均值的3個(gè)標(biāo)準(zhǔn)差范圍內(nèi)5.4通常對于任意大于1的數(shù)k,至少有()的測量值落在均值的k個(gè)標(biāo)準(zhǔn)差范圍內(nèi)相對位置的度量測驗(yàn)分?jǐn)?shù)與一些社會學(xué)和健康狀況數(shù)據(jù)通常是以一個(gè)測量值在分布中相對于其他測量值的位置的方式來描述的,測量值相對位置的兩個(gè)度量是百分位數(shù)和z得分1.百分位
11、數(shù)數(shù)據(jù)集的第100P百分位數(shù)是這樣一個(gè)測量值,在數(shù)據(jù)集的分布中100P%的面積位于它左邊,100(1-P)%的面積位于它右邊(0£P£1)1.1當(dāng)P=0.25,下四分位數(shù)QL(第25百分位數(shù))1.2當(dāng)P=0.50,中四分位數(shù)(第50百分位數(shù)),即中位數(shù)m(樣本)/ (總體)1.3當(dāng)P=0.75,上四分位數(shù)QU(第75百分位數(shù))對于一個(gè)大的數(shù)據(jù)集(如人口),通過確定數(shù)據(jù)集分布相應(yīng)的面積來尋找四分位數(shù)對于小的數(shù)據(jù)集,精確地找四分位數(shù)是不可能的,通常按照如下步驟確定四分位數(shù)A把數(shù)據(jù)集中的測量值按大小升序排列(X1,X2,X3Xn)B計(jì)算并舍入為最近的整數(shù),如n=18時(shí),計(jì)算值為4
12、.75,取整后L=5(若n=21,計(jì)算值為5.5,向上取整為5),順序L對應(yīng)的測量值XL為QLC計(jì)算并舍入為最近的整數(shù),如n=18時(shí),計(jì)算值為14.25,取整后U=14(若n=21,計(jì)算值為16.5,向下取整為17),順序U對應(yīng)的測量值XU為QUD為了求第100P百分位數(shù),計(jì)算i=P(n+1)并舍入最近的整數(shù),順序i對應(yīng)的測量值Xi為第100P百分位數(shù)2.z得分z得分描述了以標(biāo)準(zhǔn)差為單位,測量值X相對于均值的位置,負(fù)的z得分表明測量值在均值的左邊,正的z得分表明測量值在均值的右邊,由經(jīng)驗(yàn)法則可知,一個(gè)數(shù)據(jù)集95%的測量值在距離均值2個(gè)標(biāo)準(zhǔn)差內(nèi)(即z得分絕對值小于2),幾乎所有的測量值都在距離均
13、值3個(gè)標(biāo)準(zhǔn)差內(nèi)(即z得分絕對值小于3)樣本z得分,總體z得分3.檢測異常值的方法異常值是相對于數(shù)據(jù)集中其他測量值不尋常地大或小的測量值,一般將異常值歸咎于下列原因A測量、記錄或輸入計(jì)算機(jī)時(shí)不正確的測量值B測量值來自不同的總體C測量值是正確的,代表一個(gè)稀有(偶然)事件計(jì)算z得分是確定測量值是否異常的方法之一檢測異常值的另一個(gè)方法是構(gòu)造數(shù)據(jù)集的盒子圖(箱線圖) Minitabà圖形à箱線圖,這種方法建立類似于經(jīng)驗(yàn)法則和切比雪夫法則的和區(qū)間,這里的區(qū)間用四分位數(shù)間距代替標(biāo)準(zhǔn)差四分位數(shù)間距IQR=QU-QL,盒子圖檢查異常值的關(guān)鍵區(qū)間QL-1.5(IQR),QU+1.5(IQR)和
14、QL-3(IQR),QU+3(IQR)盒子圖的要素3.1以下四分位數(shù)(QL)和上四分位數(shù)(QU)的直線為邊界(關(guān)鍵點(diǎn))畫一個(gè)長方形(盒子),在盒子中標(biāo)出數(shù)據(jù)集的中位數(shù)3.2將距每一關(guān)鍵點(diǎn)1.5(IQR)處標(biāo)記為內(nèi)籬笆,將每一關(guān)鍵點(diǎn)到內(nèi)籬笆之內(nèi)的末端測量值(QL-1.5(IQR),QL 區(qū)間內(nèi)的最小值及QU, QU+1.5(IQR)區(qū)間內(nèi)最大值)用線(須線)連接 下側(cè)內(nèi)籬笆= QL-1.5(IQR) 上側(cè)內(nèi)籬笆= QU+1.5(IQR)3.3將距每一關(guān)鍵點(diǎn)3(IQR)處標(biāo)記為外籬笆,用符號表示落在內(nèi)籬笆和外籬笆之間的測量值(疑似異常值),用另一符號表示超過外籬笆的測量值(高度疑似異常值) 下側(cè)內(nèi)
15、籬笆= QL-3(IQR) 上側(cè)內(nèi)籬笆= QU+3(IQR)盒子圖的解釋3.1盒子的長度IQR是數(shù)據(jù)集變異性的度量,對于比較多個(gè)數(shù)據(jù)集特別有用3.2直觀的比較須線的長度,如果一端明顯的較長,則數(shù)據(jù)的分布可能偏向須線長的方向3.3分析超出籬笆的測量值,即使對于很偏的分布,應(yīng)當(dāng)少于5%的測量值落在內(nèi)籬笆之外。外籬笆之外的測量值為高度疑似異常值,有以下之一解釋a測量值是不正確的,可能是不正確的測量、記錄或輸入計(jì)算機(jī)b測量值和數(shù)據(jù)集中的其他測量值屬于不同的總體c測量值是正確的,并且是和其他測量值來自同一個(gè)總體,通常我們都是在仔細(xì)排除其他所有解釋后才接受這個(gè)解釋z得分和盒子圖法都給出了異常值的經(jīng)驗(yàn)法則界限,兩種方法通常能得到類似的結(jié)果。當(dāng)數(shù)據(jù)集中有一個(gè)或多個(gè)異常值存在時(shí)會使計(jì)算z得分的標(biāo)準(zhǔn)差增大,即一個(gè)異常測量值z得分絕對值大于3的可能性減少,而盒子圖的籬笆受異常值的影響很小檢測異常值的經(jīng)驗(yàn)法則方法疑似異常值高度疑似異常值盒子圖內(nèi)外籬笆之間的測量值外籬笆之外的測量值z得分2£z得
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025合同法基本要素
- 2025實(shí)習(xí)生合同協(xié)議范本
- 《2025關(guān)于深圳市勞動合同范本》
- 2025合同模板兼職勞動合同范本
- 軟件定制開發(fā)合同書
- 物流智能調(diào)度系統(tǒng)應(yīng)用實(shí)踐手冊
- 2024年二級注冊結(jié)構(gòu)工程師專業(yè)考試試題及答案(上午卷)
- 餐飲業(yè)智慧餐廳自助點(diǎn)餐系統(tǒng)解決方案
- 商務(wù)合作戰(zhàn)略與匯報(bào)總結(jié)計(jì)劃
- 電子商務(wù)師考試2025年題庫:電子商務(wù)平臺運(yùn)營優(yōu)化實(shí)戰(zhàn)
- DB52T 046-2018 貴州省建筑巖土工程技術(shù)規(guī)范
- 混凝土安全晨會(班前會)
- (完整版)減數(shù)分裂課件
- 露天礦山開采施工組織方案
- 人教版英語八年級下冊 Unit1-Unit2檢測試題
- 2024小學(xué)語文教學(xué)及說課課件:二年級下冊《沙灘上的童話》
- 市政道路監(jiān)理大綱34368
- GB/T 44333-2024綠色產(chǎn)品評價(jià)耐火材料
- 北京市智慧工地評價(jià)標(biāo)準(zhǔn)
- 產(chǎn)業(yè)園區(qū)開發(fā)全流程實(shí)操解析
- 2024版滴灌購銷合同滴灌合同
評論
0/150
提交評論