版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1應用統(tǒng)計學2本章主要內(nèi)容:1.統(tǒng)計學概述;2.統(tǒng)計數(shù)據(jù)的收集;3.問卷設計;4.數(shù)據(jù)類型。
第1章統(tǒng)計和統(tǒng)計數(shù)據(jù)收集31.什么是“統(tǒng)計”?2015年1月20日上午,國家統(tǒng)計局在其官微上對發(fā)布會進行了直播報道,最先公布的數(shù)據(jù)是人們最為關(guān)注的2014年GDP數(shù)值,2014年GDP總值636463億元,比上年增長7.4%。這是我國GDP首次突破60萬億元。
2014年GDP世界排名:中國首破10萬億美元,居世界第二.
4
購買力平價(Purchasingpowerparity)5恩格爾系數(shù)
恩格爾系數(shù)是居民用于食品的支出占生活消費支出的比重。比重越小,說明居民花在食品上的開銷越少,而用于文化、娛樂等發(fā)展方面的消費越多,居民生活質(zhì)量越高。
國際上通常用恩格爾系數(shù)來衡量一個國家和地區(qū)人民生活水平的狀況。根據(jù)聯(lián)合國糧農(nóng)組織提出的標準:
恩格爾系數(shù)在59%以上為貧困;50-59%為溫飽;40-50%為小康;
低于40%為富裕。目前發(fā)達國家的恩格爾系數(shù)基本上在10-20%左右.6基尼系數(shù)基尼系數(shù)是判斷收入分配差異程度的指標?;嵯禂?shù)越小,收入分配越是趨向平等,反之,基尼系數(shù)越大,收入分配越是趨向不平等。聯(lián)合國有關(guān)組織規(guī)定:若基尼系數(shù)低于0.2表示收入高度平均;
0.2-0.3之間表示相對平均;
0.3-0.4之間表示分配相對合理;
0.4-0.5之間表示差距偏大;
0.5以上表示差距懸殊。0.4被作為一般的警戒線。7統(tǒng)計的含義1.統(tǒng)計工作收集數(shù)據(jù)的活動2.統(tǒng)計數(shù)據(jù)對現(xiàn)象計量的結(jié)果3.統(tǒng)計學分析數(shù)據(jù)的方法與技術(shù)8§1.1什么是統(tǒng)計學?
統(tǒng)計學是一門收集、整理和分析數(shù)據(jù)的方法科學,其目的是探索數(shù)據(jù)的內(nèi)在數(shù)量規(guī)律性,以達到對客觀事物的科學認識9大英百科全書對Statistics的定義
Statistics:thescienceofcollecting,analyzing,presenting,andinterpretingdata.
Copyright1994-2000EncyclopaediaBritannica,Inc.
(不列顛百科全書)10與“統(tǒng)計”有關(guān)的單詞含義:Statistics:1.統(tǒng)計數(shù)字;2.統(tǒng)計學統(tǒng)計(數(shù)字):數(shù)據(jù)集合(SetofData)
例如:去年的每月產(chǎn)量Statistic:統(tǒng)計量:統(tǒng)計數(shù)字的概括性度量值.例如:平均月產(chǎn)量Statistician:
統(tǒng)計員(dataproducer):數(shù)據(jù)收集者;統(tǒng)計學家(datauser):運用數(shù)據(jù),分析和解釋事實.11統(tǒng)計數(shù)據(jù)的特點正常條件下新生嬰兒的性別比為107:100投擲一枚均勻的硬幣,出現(xiàn)正面和反面的頻率各為1/2;投擲一枚骰子出現(xiàn)1~6點的頻率各為1/6農(nóng)作物的產(chǎn)量與施肥量之間存在相關(guān)關(guān)系
上述例子都具有如下特點:1.一次觀測(或試驗),數(shù)據(jù)呈現(xiàn)隨機性;2.在大量觀測基礎上,數(shù)據(jù)又呈現(xiàn)某種規(guī)律性。12統(tǒng)計研究對象的特點1.數(shù)量性統(tǒng)計學研究的對象是客觀現(xiàn)象的數(shù)量特征和規(guī)律性。2.總體性統(tǒng)計學研究的是客觀現(xiàn)象總體的數(shù)量特征與規(guī)律性,而不是個體的量。3.具體性統(tǒng)計的對象是一定時間、地點、條件下事物的量,而不是抽象對象的量,這是統(tǒng)計學和數(shù)學的一個重要區(qū)別。4.差異性組成統(tǒng)計研究對象總體的個體是有差異的,否則就不需要進行統(tǒng)計分析。統(tǒng)計研究中需要對總體中大量的個體進行觀察并進行綜合分析,由此才能獲得總體的數(shù)量分布特征。
13統(tǒng)計學發(fā)展的歷史線索一般認為,統(tǒng)計學產(chǎn)生于17世紀中葉;統(tǒng)計學的發(fā)展過程基本上沿著兩條主線展開:以“政治算術(shù)學派”為開端形成和發(fā)展起來的、以社會經(jīng)濟問題為主要研究對象的社會經(jīng)濟統(tǒng)計;以概率論的研究為開端、并以概率論為基礎形成和發(fā)展起來的、以方法和應用研究為主的數(shù)理統(tǒng)計;今天,社會經(jīng)濟統(tǒng)計和數(shù)理統(tǒng)計仍然在以各自不同的方式發(fā)展著.14統(tǒng)計學的應用領(lǐng)域統(tǒng)計學經(jīng)濟學管理學醫(yī)學工程學社會學…15統(tǒng)計學與其他學科的關(guān)系統(tǒng)計學可以用到幾乎所有的學科領(lǐng)域統(tǒng)計學可以幫助其他學科探索學科內(nèi)在的數(shù)量規(guī)律性統(tǒng)計學不能解決各學科領(lǐng)域的所有問題對統(tǒng)計分析結(jié)果的解釋需要各學科領(lǐng)域的專業(yè)人員16統(tǒng)計學的分科描述統(tǒng)計推斷統(tǒng)計統(tǒng)計學的分科理論統(tǒng)計應用統(tǒng)計17理論統(tǒng)計學和應用統(tǒng)計學理論統(tǒng)計學是研究統(tǒng)計學的數(shù)學原理,它基于概率論的原理,還包括不屬于傳統(tǒng)概率論的一些內(nèi)容,如隨機化原則的理論、各種估計的原理、假設檢驗的原理以及一般決策的原理。在統(tǒng)計實踐中經(jīng)常會遇到一些原有的統(tǒng)計方法不能適應的新問題,需要創(chuàng)造新的統(tǒng)計模型和統(tǒng)計分析方法,這就需要統(tǒng)計理論的研究與指導。應用統(tǒng)計學將統(tǒng)計學的基本原理應用于各個領(lǐng)域就形成各種應用統(tǒng)計學的分支。它包括適用于各個領(lǐng)域的一般性的統(tǒng)計方法,如參數(shù)估計、假設檢驗、方差分析、回歸分析等,還包括在某一領(lǐng)域中特定的分析方法,如經(jīng)濟統(tǒng)計中的時間數(shù)列分析和指數(shù)分析等。應用統(tǒng)計學側(cè)重于闡明統(tǒng)計學的基本原理,并將理論統(tǒng)計學的成果作為工具應用于各個領(lǐng)域。18統(tǒng)計學有另一種主要的分類方法
1.描述統(tǒng)計學和推斷統(tǒng)計學
這一分類方法既反映了統(tǒng)計學發(fā)展的兩個主要階段,同時也反映了各自不同的側(cè)重。描述統(tǒng)計學是研究如何對客觀現(xiàn)象進行數(shù)量的計量、加工、概括和表示的方法。在二十世紀之前統(tǒng)計學基本上處于描述階段。描述統(tǒng)計學是統(tǒng)計學的基礎。推斷統(tǒng)計學是研究如何根據(jù)樣本數(shù)據(jù)去推斷總體的情況,概率論是其理論基礎。推斷統(tǒng)計學是近代統(tǒng)計學的核心,也是統(tǒng)計學中的主要內(nèi)容。
19描述性統(tǒng)計描述性統(tǒng)計是用數(shù)量信息(圖表,統(tǒng)計值)來匯總,簡縮和表述大量的數(shù)據(jù).描述--是為了更清晰地表述數(shù)據(jù)而對數(shù)據(jù)進行整理和匯總.例:
對200名顧客進行抽樣調(diào)查,他們對某新產(chǎn)品的意見.調(diào)查結(jié)果的總的匯總見表1和圖1.
進一步的分類匯總信息見表2和圖2.20表1:200名顧客對新產(chǎn)品的意見意見:比例:1.很喜歡產(chǎn)品且購買該產(chǎn)品2.喜歡產(chǎn)品但可能不會購買該產(chǎn)品3.不喜歡該產(chǎn)品54%32%14%21圖1:200名顧客對新產(chǎn)品的意見54%32%14%123條形圖54%132%214%3圓餅圖22200名顧客的年齡分組表年齡樣本中的人數(shù)“喜歡并購買”的人數(shù)15-1910(占5%)1(占10%)20-2920(10%)4(20%)30-3972(36%)38(52.7%)40-4976(38%)62(81.6%)50以上22(11%)3(13.6%)合計:200(100)%108(54%)23圖2:200名顧客的年齡分組表15-1920-2930-3940-4950以上喜歡并購買該產(chǎn)品24推斷性統(tǒng)計推斷性統(tǒng)計:根據(jù)從總體抽取的樣本的有限信息,對總體作出推斷(估計或假設檢驗).總體:研究對象的全體.樣本:總體的有代表性的一小部分.由于推斷是根據(jù)樣本的信息對總體作出判斷,因此,在推斷中總存在可能的誤差---抽樣標準誤差25推斷性統(tǒng)計應用例子:財務審計如何通過抽樣來節(jié)省成本:對某鐵路運輸公司有2萬份運貨單進行審計,通過巧妙設計(分層抽樣),只對2千份運貨單審核,得到了相同的收入額:完全總體:22984份運貨單;實際收入額:64651元樣本:2072份運貨單;實際收入額:64568元.結(jié)論:樣本分析花費更少時間和費用,而得出的估計與實際收入額相差無幾.26描述統(tǒng)計與推斷統(tǒng)計的關(guān)系反映客觀現(xiàn)象的數(shù)據(jù)總體內(nèi)在的數(shù)量規(guī)律性推斷統(tǒng)計(利用樣本信息和概率論對總體的數(shù)量特征進行估計和檢驗等)概率論(包括分布理論、大數(shù)定律和中心極限定理等)描述統(tǒng)計(統(tǒng)計數(shù)據(jù)的搜集、整理、顯示和分析等)總體數(shù)據(jù)樣本數(shù)據(jù)統(tǒng)計學探索現(xiàn)象數(shù)量規(guī)律性的過程27統(tǒng)計分析過程框圖搜集數(shù)據(jù)整理數(shù)據(jù)描述性統(tǒng)計編制圖表數(shù)據(jù)是總體或樣本?統(tǒng)計推斷解釋數(shù)據(jù):對總體作出分析結(jié)論是樣本是總體DataproducerDatauser28
統(tǒng)計數(shù)據(jù)的收集就是根據(jù)統(tǒng)計研究的目的和要求,有組織、有計劃地向調(diào)查對象搜集原始資料的過程。數(shù)據(jù)采集的基本要求:準確性、及時性、完整性、系統(tǒng)性確定數(shù)據(jù)最合適的來源和收集數(shù)據(jù)的合理方法是非常重要的任務,因為如果收集的數(shù)據(jù)有偏差,模糊不清或有其他類型的錯誤時,即使最復雜的統(tǒng)計方法也無法得到有用的信息,即需要避免“GarbageInGarbageOut(垃圾數(shù)據(jù)產(chǎn)生垃圾統(tǒng)計結(jié)果)”的統(tǒng)計應用情況?!?.2統(tǒng)計數(shù)據(jù)的收集291.普查普遍調(diào)查簡稱普查,是專門組織的一次性的全面調(diào)查。如全國的人口普查、能源普查、工業(yè)普查等。組織方式有兩種:1.建立專門的普查機構(gòu)2.利用調(diào)查單位的原始記錄和核算資料,發(fā)放調(diào)查表,由登記單位填報。普查時注意的原則:規(guī)定統(tǒng)一的標準時點規(guī)定統(tǒng)一的普查期限規(guī)定普查的項目和指標。
30普遍調(diào)查實例【例1.1】
2002年在國務院統(tǒng)一部署下,開展全國“基本單位普查”。關(guān)于這次普查的部分重要要求與規(guī)定如下:調(diào)查目的:統(tǒng)計分析全國和各省市地區(qū)的單位總數(shù)、性質(zhì)、隸屬關(guān)系、分布情況等。標準時間:2001年12月31日。調(diào)查對象:各類法人單位,各類法人單位所屬的產(chǎn)業(yè)活動單位。調(diào)查項目:單位總數(shù);
性質(zhì)分類(企業(yè)法人、事業(yè)法人、社團法人、機關(guān)法人、其他法人);
基本情況——性質(zhì)劃分、隸屬關(guān)系(中央、省市、區(qū)縣、街道等);
主要構(gòu)成(產(chǎn)業(yè)結(jié)構(gòu)、行業(yè)分布、地區(qū)分布、經(jīng)濟成分、規(guī)模結(jié)構(gòu));
分布情況。
312.重點調(diào)查
——在總體中選擇部分重點單位進行調(diào)查,以了解總體基本情況的一種非全面調(diào)查。重點調(diào)查的特點:(1)重點調(diào)查適用于調(diào)查對象的標志值比較集中于某些單位的場合,這些單位的管理比較健全,統(tǒng)計力量比較充實,能夠及時取得準確資料。(2)重點調(diào)查的目的在于了解總體現(xiàn)象某些方面的基本情況,而不要求全面準確地推算總體數(shù)字。(3)重點調(diào)查比實際調(diào)查的單位數(shù)目少,在滿足調(diào)查目的所要求的前提下,可以比全面調(diào)查節(jié)省人力、物力和時間。
323.典型調(diào)查——也是專門組織的一種非全面調(diào)查,在總體中選擇有代表性的典型單位進行深入細致的調(diào)查。典型調(diào)查的作用和目的(1)研究新事物或某種傾向性的社會問題通過對典型單位深入細致的調(diào)查,可以發(fā)現(xiàn)新情況、新問題,探測事物發(fā)展變化的趨勢,形成科學的預見。(2)分析事物的不同類型
通過研究造成它們間差別的原因,總結(jié)經(jīng)驗教訓,研究對策,促進事物的轉(zhuǎn)化和發(fā)展。(3)典型調(diào)查可用來研究事務的變化規(guī)律。(4)典型調(diào)查的資料可用來補充和驗證全面統(tǒng)計的數(shù)字,推論和測算有關(guān)現(xiàn)象的總體。
334.抽樣調(diào)查——是指按隨機原則從總體中抽取部分單位組成樣本。目的是利用樣本數(shù)據(jù)推斷(估計)總體的數(shù)量分布特征。抽樣調(diào)查是現(xiàn)代推斷統(tǒng)計的核心,也是最重要的統(tǒng)計調(diào)查方法。
34抽樣調(diào)查中四種誤差涵蓋誤差:當某一組代表性的樣本被排除在抽樣調(diào)查之外時所引起的選擇偏差。無回應誤差:抽樣時,對樣本個體數(shù)據(jù)收集失敗會導致無回應偏差。抽樣誤差:選擇抽樣調(diào)查是因為這種方法簡單、低成本和有效。但同時也意味著有的個體被抽中,有的個體沒有被抽中。測量誤差:測量誤差是指由于樣本數(shù)據(jù)測量程序的設計和應用不當所引起的誤差。355.網(wǎng)上調(diào)查及優(yōu)勢及時性和共享性便捷性和低成本可靠性和客觀性更好的接觸性穿越時空性36
問卷是一種特殊形式的調(diào)查表。其特點是表中用一系列按照嚴密邏輯結(jié)構(gòu)組成的問題,向被調(diào)查者調(diào)查具體事實和個人對某問題的反映、看法,它不要求被調(diào)查者填寫姓名。問卷設計一般要遵循以下原則。合理性:合理性指的是問卷必須緊密與調(diào)查主題相關(guān)。一般性:即問題的設置是否具有普遍意義。邏輯性:問卷的設計要有整體感,這種整體感即是問題與問題之間要具有邏輯性,獨立的問題本身也不能出現(xiàn)邏輯上的謬誤。明確性:所謂明確性,事實上是問題設置的規(guī)范性。非誘導性:非誘導性指的是問題要設置在中性位置、不參與提示或主觀臆斷,完全將被訪問者的獨立性與客觀性擺在問卷操作的限制條件的位置上。便于整理和分析
§1.3問卷設計37例:一張簡單的問卷個人信息部分:性別:1.男;2.女年級:1,2,3,4專業(yè):______問題部分:你是否去圖書館:1.是;2.否你平均一周用于上圖書館的時間(小時):_____你去圖書館主要目的是為了:1.讀書;2.上網(wǎng);3.借書;4.查資料;5其它(請指定):____38數(shù)據(jù)質(zhì)量你的研究結(jié)論是否有效,主要取決于數(shù)據(jù)質(zhì)量,而不是統(tǒng)計分析方法數(shù)據(jù)的可靠性和有效性:1.數(shù)據(jù)是從哪兒來的:數(shù)據(jù)能否代表你試圖描述的總體?2.數(shù)據(jù)是正確記錄的嗎?3.數(shù)據(jù)能說明你想說明的意義嗎?39統(tǒng)計學中將變量分為分類變量或數(shù)值變量。分類變量(也稱為定性變量)的值只能按類別分開。數(shù)值變量(也稱為定量變量)的值表示數(shù)量。數(shù)值變量可進一步分為離散變量和連續(xù)變量。§1.4變量類型40數(shù)據(jù)的計量尺度定類尺度定序尺度定距尺度定比尺度
四種計量尺度41定性變量(一)1.名義尺度(NominalScale)僅對研究對象進行分類,該類數(shù)據(jù)不能做算術(shù)運算(+,-,*,/)例如:性別:男(1),女(0)專業(yè):工商(001),金融(002),物流(003),...42計量層次最低對事物進行平行的分類各類別可以指定數(shù)字代碼表示使用時必須符合類別窮盡和互斥的要求數(shù)據(jù)表現(xiàn)為“類別”具有=或
的數(shù)學特性定類尺度(概念要點)43定性變量(二)2.定序尺度(OrdinalScale)也用作分類,但有次序上的差別(如“高”與“低”),不能做+,-,*,/,但可排序例如:學歷:1.高中以下;2.大專;3.本科;4.碩士;5.博士社會階層:1.低收入者;2.工薪階層;3.中產(chǎn)階層;4.富裕階層44對事物分類的同時給出各類別的順序比定類尺度精確未測量出類別之間的準確差值數(shù)據(jù)表現(xiàn)為“類別”,但有序具有>或<的數(shù)學特性定序尺度(概念要點)45注1:定性數(shù)據(jù)不是正真意義上的數(shù)字,從統(tǒng)計角度,其只能求比例,不能求平均值.名義數(shù)據(jù)完全沒有數(shù)字意義,次序數(shù)據(jù)有數(shù)字“高”與“低”的含義,但不能確定組別之際的精確距離.在統(tǒng)計分析中,該類數(shù)據(jù)通常作為分類變量.46定量變量(一)3.定距尺度(IntervalScale)不僅能分類和排序,而且還能測定組別之間的精確距離,即,該類數(shù)據(jù)的差是有意義的(能計算+,-),但不能乘與除(*,/)例:五分制成績:優(yōu);良;中;及格;不及格.攝氏溫度:最高溫度:15oC最低溫度:5oC471. 對事物的準確測度2. 比定序尺度精確3. 數(shù)據(jù)表現(xiàn)為“數(shù)值”4.沒有絕對零點5. 具有+或-的數(shù)學特性定距尺度(概念要點)48定量數(shù)據(jù)(二)定比尺度(RatioScale)
正真意義上的數(shù)字,能進行+,-,*,/的計算例:工資收入:甲:2000元/月乙:4000元/月乙收入是甲的兩倍.百分制成績:也是比率數(shù)據(jù).491. 對事物的準確測度2. 與定距尺度處于同一層次3. 數(shù)據(jù)表現(xiàn)為“數(shù)值”4.有絕對零點5. 具有
或
的數(shù)學特性定比尺度(概念要點)50注2:定距數(shù)據(jù)的零點(有與無的轉(zhuǎn)折點)沒設在0處,如果把零點設在0處,定距數(shù)據(jù)可轉(zhuǎn)化為定比數(shù)據(jù).例如:攝氏溫度可轉(zhuǎn)化K氏溫度.從統(tǒng)計角度,定量數(shù)據(jù)不僅可計算比例,也可計算平均值等.統(tǒng)計分析處理的數(shù)據(jù)主要是定量數(shù)據(jù).51四種計量尺度的比較四種計量尺度的比較定類尺度定序尺度定距尺度定比尺度
分類(=,≠)排序(<,>)
間距(+,-)比值(×,÷)√√√√√√√√√√計量尺度數(shù)學特性“√”表示該尺度所具有的特性52數(shù)據(jù)類型與統(tǒng)計方法數(shù)據(jù)類型與統(tǒng)計方法定類數(shù)據(jù)定序數(shù)據(jù)品質(zhì)數(shù)據(jù)數(shù)量數(shù)據(jù)定距數(shù)據(jù)定比數(shù)據(jù)53變量分類
變量分為兩類:定性的和定量的
1.定性變量:主要是離散變量:取值為可列的,如:自然數(shù),整數(shù).
例如:分類變量;性別:男(1),女(2);學歷:1.高中;2.大專;3.本科;4.研究生
2.定量變量:離散變量:工齡:{1,2,…,50,…};
連續(xù)變量:取值用區(qū)間來表示的,如:分數(shù),無理數(shù),等.例如:工資;54
在獲得原始數(shù)據(jù)資料之后,需要使用一定的方法對數(shù)據(jù)進行整理和綜合,目的是從大量的原始數(shù)據(jù)資料中提煉所需要的信息,使之可以提供概要信息并能反映對象總體的基本數(shù)量特征,便于人們的理解和使用。表格和圖形是整理和反映統(tǒng)計資料的主要工具。當數(shù)據(jù)是分類數(shù)據(jù)時,對變量取值直接分類后,計算各類的頻數(shù)和頻率,可以對每一分類數(shù)據(jù)制作頻率分布表和相應的圖表?!?.1分類數(shù)據(jù)的圖表55
頻數(shù)分布表列出了一系列分類數(shù)據(jù)的頻數(shù),頻率(百分比),可以看出不同類別數(shù)據(jù)間的區(qū)別。表2-11000美元用途的頻數(shù)分布表用錢做什么頻數(shù)頻率累積頻率購買奢侈品、旅游或禮物2000.200.20向慈善機構(gòu)捐款200.020.22還貸2400.240.46儲蓄3100.310.77購買必需品1600.160.93其他700.071.00合計:10001.001.頻數(shù)分布表562.條形圖573.圓餅圖58
在帕累托圖中,不同類別的數(shù)據(jù)是按其頻率降序排列的,并在同一張圖中畫出累積百分比圖。帕累托圖可以體現(xiàn)帕累托原則:數(shù)據(jù)的絕大部分存在于很少類別中,極少剩下剩余的數(shù)據(jù)分散在大部分類別中。這兩組經(jīng)常被稱為“至關(guān)重要的極少數(shù)”和“微不足道的大多數(shù)”4.帕累托圖59
當數(shù)據(jù)量很大時,首先可以將數(shù)值數(shù)據(jù)進行排序或用莖葉圖描述以獲得初步信息。(1)排序從沒有排序的數(shù)據(jù)中很難看出數(shù)據(jù)的整體范圍。排序是把數(shù)據(jù)從小到大(或從大到小)進行排列。(2)莖葉圖莖葉圖就是將數(shù)據(jù)分成幾組(稱為莖),每組中數(shù)據(jù)的值(稱為葉)放置在每行的右邊。結(jié)果可以顯示出數(shù)據(jù)是如何分布的,以及數(shù)據(jù)中心在哪里。為了制作莖葉圖,可以將整數(shù)作為莖,把小數(shù)(葉)化整。例如,數(shù)值5.40,它的莖(行)是5,葉是4;數(shù)值4.30,它的莖(行)是4,葉是3。也可以將數(shù)據(jù)的十位數(shù)作為莖,個位數(shù)作為葉?!?.2數(shù)值數(shù)據(jù)的整理60
當數(shù)據(jù)量很大時,排序和莖葉圖都很難得出結(jié)論。此時需要使用圖表。有多種不同類型的圖表可以用來精確描述數(shù)值數(shù)據(jù),包括頻數(shù)分布表、折線圖、面積圖、柱形圖、條形圖、直方圖、頻數(shù)多邊形、圓餅圖、散點圖、時間序列、曲線圖以及對數(shù)圖等等?!?.3數(shù)值數(shù)據(jù)的圖表61例:某公司汽車銷售量(單位:輛)
62定量變量的頻數(shù)分布表1.分組:
計算極差R=Xmax-Xmin=81-16=65;2.確定組數(shù)和計算組距:一般取組數(shù)k=5~12,這里k=8.計算組距i≈R=(b-a)/k=(90-10)/8=103.計算各組頻數(shù),編制頻數(shù)分布表.631.頻數(shù)分布表
分組統(tǒng)計整理后,將雜亂無章的60個原始數(shù)據(jù)壓縮到8組,清晰地反映了更多的有用信息。
64直方圖的繪制橫軸:變量的取值范圍;縱軸:(1)頻數(shù);(2)頻率/組距。如果直方圖的縱軸取為(頻率/組距),則每一直方塊的面積=高*寬=
(頻率/組距)*(組距)=頻率因而,直方圖可看成是隨機變量概率密度曲線的近似(或逼近)。65(2)直方圖——用以表示數(shù)據(jù)的頻數(shù)分布規(guī)律。圖1.5公司汽車銷售量的頻數(shù)分布66制作頻數(shù)分布表的注意事項分組的數(shù)量實際應用中分組的數(shù)量和組距應根據(jù)對象的特點和分析的需要決定。如果分組是為了揭示數(shù)據(jù)的分布規(guī)律,則分組不能過多和過少。通常應在5~15之間。在繪制直方圖時可以參照下表:
樣本容量n
參考分組數(shù)20~505~651~1007~8101~2008~9201~5009~10501~100010~111000以上11~2067制作頻數(shù)分布表的注意事項2)分組的方法分組的方法可以有等距分組和不等距分組兩類。采用哪種分組方法應根據(jù)數(shù)據(jù)的分布特點而定。通常,當數(shù)據(jù)在一定范圍內(nèi)基本呈對稱分布時,宜采用等距分組;而當數(shù)據(jù)的分布狀態(tài)極度偏斜時,則宜采用不等距分組。68例:按雇工人數(shù)分組的私營企業(yè)規(guī)模統(tǒng)計
69制作頻數(shù)分布表的注意事項3)組限:組限也即各組區(qū)間的上、下限。確定各組區(qū)間的上限和下限時,應保證各組之間既不重疊,又不能遺漏任一數(shù)據(jù),使每一個數(shù)據(jù)都屬于某一確定的分組。重疊和組限不重疊組限重疊組限——相鄰組的上下限重合。適用于連續(xù)型變量。但各組上、下限中有一個不包含再內(nèi)。通常按“上限不在內(nèi)”處理,即組區(qū)間是[a,b)的形式。注意:Excel在制作頻數(shù)分布表時采用的是“上限在內(nèi)”的規(guī)則。不重疊組限——相鄰組的上下限不重合。適用于離散型變量。70例:離散型變量的分組(不重疊組限)某公司某月汽車銷售量的頻數(shù)分布表
71例:連續(xù)型變量的分組(上限不在內(nèi))某企業(yè)職工工資的分組統(tǒng)計72制作頻數(shù)分布表的注意事項4)組中值組中值是各組的代表值,在計算分組數(shù)據(jù)的許多統(tǒng)計指標時要用到。通常取該組上限和下限的平均值為組中值。如表2-7所示,10~19的組中值是14.5,20~29的組中值是24.5,等等。5)表格線統(tǒng)計表中的表格線應當是兩邊開口的表格。73使用Excel制作頻數(shù)分布表①利用
Excel
的FREQUENCY函數(shù)語法規(guī)則:格式:FREQUENCY(<數(shù)據(jù)區(qū)域>,<接收區(qū)間>)
接收區(qū)間——各組上限值組成的一列區(qū)域功能:返回各組的頻數(shù)。②使用【工具】→“數(shù)據(jù)分析”→“直方圖”功能
74
統(tǒng)計圖可以形象、直觀、生動、簡潔地顯示數(shù)據(jù)的特征。常用的統(tǒng)計圖有以下幾種:1.折線圖
——通常用來描述時間序列數(shù)據(jù),用以表示某些指標的變化趨勢。制作折線圖時應正確選擇坐標軸軸的刻度。對同樣的統(tǒng)計資料,延伸或壓縮某一坐標軸可能傳達不同的甚至是誤導的印象。
其它數(shù)值數(shù)據(jù)統(tǒng)計圖75折線圖---反映隨時間而變的趨勢762.面積圖
面積圖可以直觀地表示時間序列各組成部分的變化情況。圖某地區(qū)各產(chǎn)業(yè)增加值構(gòu)成比例的變化情況773.柱形圖、條形圖和直方圖
柱形圖、條形圖和直方圖是使用的最為廣泛的統(tǒng)計圖表。通常將橫向繪制的柱形圖稱為條形圖,而將各柱形之間沒有間隔的稱為直方圖,但在Office中將直方圖和柱形圖統(tǒng)稱為柱形圖。
(1)柱形圖
——主要用于表示時間序列數(shù)據(jù)。
78圖1.4各類進口商品的變化情況柱形圖示例79未分組數(shù)據(jù)的莖葉圖用于顯示未分組的原始數(shù)據(jù)的分布由“莖”和“葉”兩部分構(gòu)成,其圖形是由數(shù)字組成的以該組數(shù)據(jù)的高位數(shù)值作樹莖,低位數(shù)字作樹葉對于n(20≤n≤300)個數(shù)據(jù),莖葉圖最大行數(shù)不超過
L=[10×log10n
]
莖葉圖類似于橫置的直方圖,但又有區(qū)別直方圖可大體上看出一組數(shù)據(jù)的分布狀況,但沒有給出具體的數(shù)值莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個原始數(shù)值,保留了原始數(shù)據(jù)的信息80樹莖樹葉7880223477788890012222333344466777889013344579910111213數(shù)據(jù)個數(shù)3132410莖葉圖類似橫置的直方圖未分組數(shù)據(jù)—莖葉圖(莖葉圖的制作)某車間工人日加工零件數(shù)的莖葉圖814.頻數(shù)多邊形
頻數(shù)多邊形是直方圖的另一種表現(xiàn)形式,是由直方圖的頂端中點(各組的組中值)連線而成,其中兩邊都要連接到橫軸上的某點,以便通過覆蓋的面積反映總頻數(shù)。當希望在一個圖上比較兩種頻數(shù)分布的特征時,就需要使用頻數(shù)多邊形。男、女學生的體重分布特征825.圓餅圖
當要表示總體各組成部分的個體數(shù)量在總體中占的比率時,經(jīng)常使用圓餅圖,圓餅中各扇形的大小代表了不同組成部分的相對重要性。某企業(yè)資產(chǎn)、負債與所有者權(quán)益的構(gòu)成情況836.散點圖、時間序列圖和曲線圖MicrosoftOffice中的曲線圖屬于平滑線散點圖。散點圖:在回歸分析中,經(jīng)常需要用樣本數(shù)據(jù)的散點圖來分析兩個變量之間大致的曲線關(guān)系,如正相關(guān)關(guān)系,即一個變量的增長引起另一個變量的增長;負相關(guān)關(guān)系,即一個變量的增長引起另一個變量的減少。時間序列圖:研究數(shù)值變量隨時間變化的趨勢。X軸代表時間,Y軸代表數(shù)值。時間序列圖可用折線圖來實現(xiàn)。曲線圖:當變量是連續(xù)型數(shù)據(jù)時,通常使用曲線圖來描述數(shù)據(jù)的分布情況,如連續(xù)型隨機變量的密度函數(shù)和分布函數(shù)曲線。84散點圖:描述兩個變量的關(guān)系85⑵經(jīng)濟管理中幾種常見的頻數(shù)分布曲線①正態(tài)分布曲線——這是客觀事物數(shù)量特征上表現(xiàn)得最為普遍的一類頻數(shù)分布曲線。如人的身高、體重、智商,鋼的含碳量、抗拉強度,某種農(nóng)作物的產(chǎn)量等等。正態(tài)分布曲線86②偏態(tài)曲線圖1.8偏態(tài)曲線右偏(正偏)左偏(負偏)
例如收入和財富的頻數(shù)分配曲線就是右偏的,大量財富都集中在極少數(shù)富豪手中,而多數(shù)人則是低收入者。此外,在產(chǎn)品質(zhì)量管理中也普遍存在這種現(xiàn)象,如多數(shù)次品都集中出在少數(shù)工人手中;次品也大都出在少數(shù)幾道工序上。這就要求在管理和控制上需要突出重點、抓住關(guān)鍵因素。
——按其長尾拖向哪一方又可分為右偏(正偏)和左偏(負偏)兩類。87③J形曲線其典型的應用分別是經(jīng)濟學中的供給曲線和需求曲線。供給曲線(正J形)表現(xiàn)為隨著價格的增加,供給量以更快的速度增加;需求曲線(倒J形)表現(xiàn)為隨著價格的增加,需求量以更快的速度減少。供給和需求曲線的交點即供求平衡點。
正J形倒J形圖1.9J形曲線88④U形曲線
人和動物的的死亡率、設備的故障率等通常都服從于U形曲線分布。圖1.10U形曲線
——又稱生命曲線或浴盆曲線897.對數(shù)圖
人們經(jīng)常對時間序列變量的相對變化率而不是絕對數(shù)值的變化感興趣,如各種經(jīng)濟變量的環(huán)比發(fā)展速度。此時若要用統(tǒng)計圖直觀反映增長率等現(xiàn)象的變動趨勢,就需要使用對數(shù)圖。對數(shù)圖是以時間為橫軸,以10為底的對數(shù)比率刻度為縱軸的折線圖??梢酝ㄟ^對數(shù)圖中各線段的斜率比較各時期增長率的大小。考慮以下統(tǒng)計數(shù)據(jù):90對數(shù)圖可以直觀反映時間序列的環(huán)比變化趨勢
可以在Office圖表類型中選擇自定義類型中的“對數(shù)圖”,也可通過將一般折線圖縱軸“坐標軸格式”中的“刻度”設為“對數(shù)刻度”來繪制對數(shù)圖。91交叉表可以由列聯(lián)表和并行條形圖來表示。1.列聯(lián)表列聯(lián)表表示兩類變量的結(jié)果。橫軸表示一類變量,縱軸表示另一類變量。值位于橫縱軸的交叉處,稱為單元。根據(jù)列聯(lián)表的結(jié)構(gòu)類型,每橫縱軸組合單元包含頻率、總值的百分比、橫行的百分比或列的百分比。2.并行條形圖一個更有效的顯示交叉分類數(shù)據(jù)的方式是作并行條形圖?!?.4交叉表92分析類型數(shù)據(jù)類型數(shù)值分類單變量值的圖表排序,莖葉圖,頻數(shù)分布表,折線圖,直方圖,面積圖,柱形圖和條形圖,圓餅圖,頻數(shù)多邊形匯總表,條形圖,圓餅圖,
帕累托圖兩變量關(guān)系的圖表散點圖,時間序列圖,曲線圖列聯(lián)表,并行條形圖圖表選擇指導§2.5圖表匯總和制作原則93描述性統(tǒng)計值統(tǒng)計值的作用:用一個數(shù)值(統(tǒng)計值)來概括整個數(shù)據(jù)集的面貌.常用的描述性統(tǒng)計值分為兩類:中心趨勢統(tǒng)計值(反應數(shù)據(jù)的中間水平);離散趨勢統(tǒng)計值(反應數(shù)據(jù)偏離中間水平的狀況).94
常用的這類指標有以下五種:
1.均值(Mean),也稱為平均數(shù);
2.中位數(shù)(Median
);
3.眾數(shù)(Mode
);
4.四分位數(shù);
5.幾何平均數(shù)。
§3.1度量集中趨勢的指標95(1)基本公式:1.均值,也稱平均數(shù)96
(1)簡單算術(shù)平均數(shù)(用于原始數(shù)據(jù))(2)(算術(shù))平均數(shù)的計算
n—總體單位總數(shù);xi—第i
個單位的標志值。
(2)加權(quán)算術(shù)平均數(shù)(用于分組數(shù)據(jù),即第二手資料)xi
—第i組的代表值(組中值或該組變量值);
fi—第i組的頻數(shù)。
97平均數(shù)(均值)的性質(zhì)例:對于工資的25個原始數(shù)據(jù),有當原始數(shù)據(jù)的分布較為均勻時,均值是反映數(shù)據(jù)中間水平的良好的測定值.但當數(shù)據(jù)的分布很不均勻時,均值將高估或低估數(shù)據(jù)中間水平.此時,應使用中位數(shù)或眾數(shù).98使用Excel函數(shù)求加權(quán)算術(shù)平均數(shù)
利用Excel“數(shù)學和三角函數(shù)”中的SUMPRODUCT函數(shù)可以方便地計算出分組數(shù)據(jù)的加權(quán)算術(shù)平均數(shù)。語法規(guī)則:格式:SUMPRODUCT(<區(qū)域1>,<區(qū)域2>,…)
功能:返回兩個或多個區(qū)域中對應元素乘積之和。
例:利用分組頻數(shù)分布數(shù)據(jù),求平均數(shù)。
99例:工資的頻數(shù)分布表(二手資料)工資組中值X頻數(shù)頻率累積頻率20~2522.520.080.0825~3027.560.240.3230~3532.580.320.6435~4037.550.200.8440~4542.530.120.9645~5047.510.041.00合計:251.00100工資的平均數(shù)1012.幾何平均數(shù)
當統(tǒng)計資料是各時期的發(fā)展速度等前后期的兩兩比環(huán)數(shù)據(jù),要求每時期的平均發(fā)展速度時,就需要使用幾何平均數(shù)。幾何平均數(shù)是n個數(shù)連乘積的n次方根。(1)簡單幾何平均數(shù)
(2)加權(quán)幾何平均數(shù)fi—各比率出現(xiàn)的頻數(shù)
102例:某公司原料成本隨時間增長的情況如下表求原料成本的平均年增長率。解一:解二:
年平均增長率=1.0688-1=6.88%
103
將總體各單位標志值按由小到大的順序排列后處于中間位置的標志值稱為中位數(shù),記為Me
。中位數(shù)是一種位置平均數(shù),不受極端數(shù)據(jù)的影響。當統(tǒng)計資料中含有異常的或極端的數(shù)據(jù)時,中位數(shù)比算術(shù)平均數(shù)更具有代表性。比如有5筆付款:9元,10元,10元,11元,60元付款的均值為20元,顯然這并不是一個很好的代表值,而中位數(shù)
Me
=10元則更能代表平均每筆的付款數(shù)。3.中位數(shù)(Median)104(1)中位數(shù):原始數(shù)據(jù)的計算方法中位數(shù):數(shù)據(jù)中間位置的測定值,對數(shù)據(jù)的偏斜度不敏感.中位數(shù)的計算:將數(shù)據(jù)從小到大依次排列,處在中間位置的數(shù)據(jù),即為中位數(shù).當n為奇數(shù)時,中間位置=(n+1)/2.當n為偶數(shù)時,中位數(shù)為中間位置的兩數(shù)據(jù)的平均值.例:2,3,4,5,6,7,8Me=5.2,3,4,5,6,7,8,100Me=(5+6)/2=5.5105(2)分組數(shù)據(jù)中位數(shù)的確定
對于分組數(shù)據(jù)的統(tǒng)計資料,中位數(shù)要用插值法來估算。
(1)計算各組的累計頻數(shù);
(2)確定中位數(shù)所在的組
——是累計頻數(shù)首次包含中位數(shù)位次Σf/2的組。其中:L—中位數(shù)所在組的下限;
Sm-1—中位數(shù)所在組前一組的累計頻數(shù);
fm—中位數(shù)所在組的頻數(shù);
d—中位數(shù)所在組的組距。
106例:計算下表數(shù)據(jù)的中位數(shù)解:Σf/2=27.5,中位數(shù)在“15-25”的組中,
1074.眾數(shù)(Mode)——是總體中出現(xiàn)次數(shù)最多的標志值,記為M
0。眾數(shù)明確反映了數(shù)據(jù)分布的集中趨勢,也是一種位置平均數(shù),不受極端數(shù)據(jù)的影響。但并非所有數(shù)據(jù)集合都有眾數(shù),也可能存在多個眾數(shù)。在某些情況下,眾數(shù)是一個較好的代表值。例如在服裝行業(yè)中,生產(chǎn)商、批發(fā)商和零售商在進行生產(chǎn)和存貨決策時,更感興趣的是最普遍的尺寸而不是平均尺寸。又如,當要了解大多數(shù)家庭的收入狀況時,也要用到眾數(shù)。
108(1)眾數(shù):原始數(shù)據(jù)的計算方法3.眾數(shù):數(shù)據(jù)中出現(xiàn)頻率最多的數(shù)值.例:2,3,4,5,5,5,7,9Mo=5109(2)分組數(shù)據(jù)眾數(shù)的確定對于分組數(shù)據(jù)的統(tǒng)計資料,眾數(shù)也要用插值法來估算。(1)確定眾數(shù)所在的組
對于等距分組,眾數(shù)組是頻數(shù)最高的組;(2)使用以下插值公式計算其中:L—眾數(shù)組的下限Δ1—眾數(shù)組與前一組的頻數(shù)之差Δ2—眾數(shù)組與后一組的頻數(shù)之差
d—眾數(shù)組的組距Δ1Δ2眾數(shù)Ld110例:計算下表數(shù)據(jù)的眾數(shù)解:眾數(shù)組是“15-25”的組,則
111平均數(shù)、中位數(shù)和眾數(shù)間的關(guān)系
0xf(Me,M0)0xfMeM00xfMeM02.頻數(shù)分布為右偏態(tài)時,眾數(shù)小于中位數(shù),平均數(shù)大于中位數(shù)。3.頻數(shù)分布為左偏態(tài)時,眾數(shù)大于中位數(shù),平均數(shù)小于中位數(shù)。1.頻數(shù)分布呈完全對稱的單峰分布,平均數(shù)、中位數(shù)和眾數(shù)三者相同。1125.四分位數(shù)(概念要點)1. 集中趨勢的測度值之一2. 排序后處于25%和75%位置上的值
3.不受極端值的影響
4.可用于定序數(shù)據(jù),也可用于數(shù)值型數(shù)據(jù),但不能用于定類數(shù)據(jù)QLQMQU25%25%25%25%113數(shù)值型未分組數(shù)據(jù)的四分位數(shù)(7個數(shù)據(jù)的算例)原始數(shù)據(jù):
2321 3032 282526排序:2123
2526283032位置:1 23 4567N+1QL=237+1QL位置=4=4=2QU位置=3(N+1)43(7+1)4==6QU=30
114數(shù)值型未分組數(shù)據(jù)的四分位數(shù)(6個數(shù)據(jù)的算例)原始數(shù)據(jù):
2321 30 282526排序:212325262830位置:12 3 456QL=21+0.75(23-21)=22.5QL位置=N+14=6+14=1.75QU位置=3(N+1)43(6+1)4==5.25QU=28+0.25(30-28)
=28.5
115數(shù)值型分組數(shù)據(jù)的四分位數(shù)
上四分位數(shù):
下四分位數(shù):
116數(shù)值型分組數(shù)據(jù)的四分位數(shù)QL位置=50/4=12.5QU位置=3×50/4=37.5表某車間50名工人日加工零件數(shù)分組表按零件數(shù)分組頻數(shù)(人)累積頻數(shù)105~110110~115115~120120~125125~130130~135135~140358141064381630404650合計50—【例】根據(jù)表中的數(shù)據(jù),計算50名工人日加工零件數(shù)的四分位數(shù)117使用Excel統(tǒng)計函數(shù)中的QUARTILE函數(shù)在數(shù)據(jù)量很大的時候,可以使用Excel統(tǒng)計函數(shù)中的QUARTILE函數(shù)返回四分位數(shù),語法規(guī)則如下:格式:QUARTILE(數(shù)據(jù)集,第nthquart分位數(shù))功能:返回不同nthquart的四分位數(shù)。如果nthquart等于函數(shù)QUARTILE的返回值0最小值1第一四分位數(shù)(第25個百分點值)2中位數(shù)(第50個百分點值)3第三四分位數(shù)(第75個百分點值)4最大值1186.五數(shù)匯總和箱線圖
五數(shù)匯總包括最小值、第一分位數(shù)、中位數(shù)、第三分位數(shù)和最大值這樣五個數(shù)據(jù),即
箱線圖(亦稱箱須圖)提供了基于五數(shù)匯總的幾何圖形119箱線圖和四種不同類型分布圖的聯(lián)系c)右偏分布a)鐘形分布b)左偏分布d)矩形分布120x頻數(shù)
要分析總體的分布規(guī)律,僅了解中心趨勢指標是不夠的,還需要了解數(shù)據(jù)的離散程度或差異狀況。幾個總體可以有相同的均值,但取值情況卻可以相差很大。
變異指標就是用來表示數(shù)據(jù)離散程度特征的。變異指標主要有:極差、平均差、標準差和變異系數(shù)。
§3.2度量離散程度的指標1211.極差
極差也稱全距,是一組數(shù)據(jù)的最大值和最小值之差,通常記為R。顯然,一組數(shù)據(jù)的差異越大,其極差也越大。極差是最簡單的變異指標,它廣泛應用于產(chǎn)品質(zhì)量管理中控制質(zhì)量的差異,一旦發(fā)現(xiàn)超過控制范圍,就采取措施加以糾正,以保證產(chǎn)品質(zhì)量的穩(wěn)定。但極差有很大的局限性,它僅考慮了兩個極端的數(shù)據(jù),沒有利用其余數(shù)據(jù)的信息,因而是一種比較粗糙的變異指標。
1222.平均差
平均差是各數(shù)據(jù)與其均值離差絕對值的算術(shù)平均數(shù),通常記為A.D。
平均差越大,反映數(shù)據(jù)間的差異越大。但由于使用了絕對值,其數(shù)學性質(zhì)很差,因而很少使用。
1233.四分位差1. 離散程度的測度值之一2. 也稱為內(nèi)距或四分間距3. 上四分位數(shù)與下四分位數(shù)之差
QD
=QU-QL4. 反映了中間50%數(shù)據(jù)的離散程度不受極端值的影響用于衡量中位數(shù)的代表性1244.方差和標準差
方差和標準差是應用得最為廣泛的變異指標。標準差是方差的算術(shù)平方根,也稱均方差或根方差。應注意總體方差、標準差與樣本方差、標準差是有區(qū)別的。(1)總體方差和總體標準差總體方差是各總體數(shù)據(jù)與其均值離差平方的均值,記為
2,總體標準差記為
。
125(2)樣本方差與樣本標準差
樣本方差記為
S
2,樣本標準差記為S,在推斷統(tǒng)計中,它們分別是總體方差和標準差的優(yōu)良估計。其中:n為樣本容量,Xi為樣本觀察值為樣本均值。
126未分組數(shù)據(jù)方差和標準差的計算方差和標準差的手工計算非常煩瑣,只要求掌握以下兩種方法。⑴使用計算器的統(tǒng)計功能(SD或STAT功能)⑵使用Excel的統(tǒng)計函數(shù)①VARP(<區(qū)域或數(shù)組1>,<區(qū)域或數(shù)組2>,…)
功能:返回所有參數(shù)中數(shù)據(jù)的總體方差。②STDEVP(<區(qū)域或數(shù)組1>,<區(qū)域或數(shù)組2>,…)
功能:返回所有參數(shù)中數(shù)據(jù)的總體標準差。③VAR(<區(qū)域或數(shù)組1>,<區(qū)域或數(shù)組2>,…)
功能:返回所有參數(shù)中數(shù)據(jù)的樣本方差。④STDEV(<區(qū)域或數(shù)組1>,<區(qū)域或數(shù)組2>,…)
功能:返回所有參數(shù)中數(shù)據(jù)的樣本標準差。
1275.變異系數(shù)當需要比較不同總體的離散程度時,如果使用的度量單位不同,或它們在數(shù)量級上相差很大,則用絕對數(shù)值表示的方差和標準差就缺乏可比性,此時就應使用相對變異指標(變異系數(shù))。例如,對汽車發(fā)動機的汽缸而言,0.05毫米的標準差就很大了,但對建筑工程而言則可完全忽略不記。相對變異指標中最重要的是標準差系數(shù),是標準差與均值之比,記為V
。128
總體分布的特征不僅與均值和變異指標有關(guān),而且與分布的偏斜程度有關(guān),如對稱分布、右偏分布和左偏分布。這種分布形態(tài)上的數(shù)量特征,往往具有重要的社會經(jīng)濟意義。偏度系數(shù)是度量偏斜程度的指標,主要有以下兩種計算方法:一、用標準差為單位計量的偏度系數(shù)該偏度系數(shù)記為SK,計算公式為
SK是無量綱的量,取值通常在-3~+3之間,其絕對值越大,表明偏斜程度越大。當分布呈右偏態(tài)時,SK>0,故也稱正偏態(tài);當分布為左偏態(tài)時,SK<0,故也稱負偏態(tài)。
§3.3度量偏斜程度的指標129二、使用三階中心矩計量的偏度系數(shù)
該偏度系數(shù)是用三階中心矩除以標準差的三次方來度量偏斜程度,記為
,計算公式為稱為三階中心矩。偏度系數(shù)
可以適用任何數(shù)據(jù)。
和SK的計算方法不同,因此根據(jù)同一資料計算的結(jié)果也不相同??梢允褂肊xcel統(tǒng)計函數(shù)中的SKEW函數(shù)返回數(shù)據(jù)的偏度系數(shù)
,語法規(guī)則如下:格式:SKEW(<區(qū)域或數(shù)組1>,<區(qū)域或數(shù)組2>,…)功能:返回所有參數(shù)中數(shù)據(jù)的偏度系數(shù)。
130使用Excel求各種統(tǒng)計指標
當數(shù)據(jù)量很大時,手工計算統(tǒng)計指標是非常煩瑣的,尤其是標準差、方差數(shù)等的計算量很大。使用Excel【工具】→“數(shù)據(jù)分析”→“描述統(tǒng)計”功能,可以方便地計算出各種綜合統(tǒng)計指標。131132描述性統(tǒng)計:列1平均15.13333標準誤差0.537626中值15模式18標準偏差2.944701樣本方差8.671264峰值-0.67093偏斜度-0.29612區(qū)域11最小值9最大值20求和454計數(shù)30133數(shù)據(jù)分析--均值與標準差的一并使用經(jīng)驗法則:對來之(或近似地)正態(tài)分布的數(shù)據(jù):1346.Z值極端值是遠離均值的量。Z值有助于定義極端值。Z值越大,數(shù)據(jù)遠離均值的距離越大。Z值記為,是數(shù)據(jù)與均值的差再除以標準差。其計算公式如下:通常,Z值小于–3.0或大于+3.0時,認為數(shù)據(jù)中含有極端值。135例:探測“異常”值美國公立學校的面包采購是采用競標(sealedbids)方式進行的.隨機抽取303宗合同,面包采購價($/磅)的描述性統(tǒng)計值為:N=303,Mean=0.243,Std.Dev=0.052,Max=0.44,Min=0.145.計算最大采購價的前5宗合同的z值:136X295=0.44,z=(0.44-.243)/.052=3.79;X224=0.41,z=(0.41-0.243)/.052=3.21;X233=0.405,z=(.405-.243)/.052=3.12;X303=0.375,z=(.375-.243)/.052=2.54;X17=0.364,z=(.364-.243)/.052=2.33.結(jié)論:前三宗合同的采購價為“異?!敝?
后兩宗合同的采購價為可疑值.前5宗合同的z值:137
一.隨機試驗對社會現(xiàn)象的觀察和對自然現(xiàn)象的科學實驗在概率論和統(tǒng)計學中都統(tǒng)稱為試驗。如果試驗可在相同的條件下重復進行,而且試驗的結(jié)果不止一個,每次試驗前不能確定將會出現(xiàn)哪一結(jié)果,這樣的試驗就稱為隨機試驗,簡稱試驗。例如,在一批產(chǎn)品中任意抽取一件進行檢驗;企業(yè)市場調(diào)查人員就本企業(yè)的產(chǎn)品和服務進行的用戶滿意度調(diào)查;對某產(chǎn)品進行的壽命試驗等等都是隨機試驗?!?.1隨機試驗與隨機事件1381.基本事件——試驗中每一可能出現(xiàn)的結(jié)果,稱為該試驗的一個基本事件或樣本點。2.復合事件——由多個基本事件構(gòu)成的集合?;臼录蛷秃鲜录y(tǒng)稱為隨機事件,常用字母A,B,C,…
表示。3.樣本空間——由試驗E所有基本事件組成的集合,稱為E的樣本空間,常用字母S表示。4.必然事件——每次試驗中必然發(fā)生的事件;樣本空間S是必然事件。5.不可能事件——試驗中不可能發(fā)生的事件;不含任何基本事件的空集是不可能事件;記為φ。二.隨機事件139【例1】擲一枚骰子,觀察出現(xiàn)的點數(shù).
記A1為{出現(xiàn)偶數(shù)點};A2為{小于4的點},A3為{不超過6的點},A4為{大于6的點}。則:S={1,2,3,4,5,6};A1={2,4,6};
A2={1,2,3};A3=S;A4=φ【例2】在一批產(chǎn)品中連續(xù)抽取二次,每次任取一件進行檢驗,分別記T、F為抽到正品和次品,并記A1為{第一次抽到的是正品},A2為{抽到一個正品},A3為{兩次抽到的質(zhì)量相同},則:
S={(T,T),(T,F(xiàn)),(F,T),(F,F(xiàn))};
A1={(T,T),(T,F(xiàn))};
A2={(T,F(xiàn)),(F,T)};
A3={(T,T),(F,F(xiàn))}140A
BBASA∪BABS1.事件的包含若A發(fā)生必然導致B發(fā)生,則稱B包含A或A包含于B,記為B
A或A
B。2.事件的并“A與B至少有一個發(fā)生”的事件,稱為A并B,記為A∪B三.事件間的關(guān)系和運算141A與B互斥AB3.事件的交“A與B同時發(fā)生”,稱為A交B,記為A∩B或AB。ABAB4.互斥(互不相容)事件若A與B不能同時發(fā)生,即AB=φ,則稱A與B互斥。顯然,基本事件都是互斥的。1425.事件的差“A發(fā)生而B不發(fā)生”的事件,稱為A與B的差,記為A-B。A-BBA互逆事件A6.互逆(對立)事件
若試驗中,A與B必有且僅有一個發(fā)生,即同時滿足A∪B=S和AB=φ,則稱A與B互逆(對立),并稱A是B的逆事件,反之亦然,記為1437.事件運算的性質(zhì)(1)交換律:A∪B=B∪A;AB=BA(2)結(jié)合律:(A∪B)∪C=A∪(B∪C)(AB)C=A(BC)(3)分配律:
(A∪B)C=(AC)∪(BC)(AB)∪C=(A∪C)(B∪C)(4)對偶律:ABC(A∪B)CABC(AB)∪C144【例3】如何表示復雜事件
在一批產(chǎn)品中連續(xù)抽檢3個產(chǎn)品,記Ai={第i個是次品},i=1,2,3,用Ai間的關(guān)系表示以下事件:
(1)至少有一個次品:A1∪A2∪A3A1A2A3(4)至少有一個正品:(3)3個都是正品:(2)3個都是次品:
其中(1)與(3)是互逆事件,(2)與(4)也是互逆事件。145一.頻率與概率在日常生活、經(jīng)濟管理和科學研究中,人們經(jīng)常需要了解今后某些事情或結(jié)果發(fā)生可能性的大小,以便為應采取的決策提供依據(jù)。如新產(chǎn)品上市后有多大可能性會暢銷和滯銷,購買彩票中獎的可能性等等。概率也就是通常所說的事情發(fā)生的可能性大小。事件的概率與在重復試驗中該事件出現(xiàn)的頻率之間有著非常密切的關(guān)系?!?.2概率1461.頻率
對于隨機事件A,在一次試驗中我們無法預言它是否會發(fā)生,但是在相同條件下的重復試驗的次數(shù)n充分大以后,可以發(fā)現(xiàn)事件A發(fā)生的次數(shù)nA與試驗次數(shù)n之比將在某個確定值附近波動,這一比值就稱為事件A發(fā)生的頻率,記為fn(A)。顯然,頻率具有以下性質(zhì):
(1)0≤fn(A)≤1(2)fn(S)=1;fn(Φ)=0(3)若AB=Φ,則fn(A∪B)=fn(A)+fn(B)1472.概率的性質(zhì)(1)0≤P(A)≤1(2)P(S)=1;P(φ)=0(4)若AB=φ,則P(A∪B)=P(A)+P(B)
(*)(5)P(A∪B)=P(A)+P(B)-P(AB)
(*)
性質(zhì)(4)稱為概率的加法定理,還可以推廣到多個事件的場合。
性質(zhì)(5)稱為概率的廣義加法定理。148
稱滿足以下條件的試驗為古典概型:(1)試驗的樣本空間僅有有限個基本事件;(2)試驗中每一基本事件發(fā)生的概率相等。古典概型中事件的概率計算公式:4.等可能概型(古典概型)1491.定義設A、B是兩個事件,且P(A)>0,稱在A已發(fā)生的條件下B發(fā)生的概率為B對A的條件概率,記為P(B|A)。二.條件概率1502.概率的乘法公式設A、B為兩個事件,且P(A)>0,則
P(AB)=P(A)P(B|A)(*)由概率的乘法公式,可得求條件概率的如下公式:(*)1513.全概率公式
若A1,A2,A3,…,An為樣本空間S的一個完備事件組,即滿足條件:(1)A1∪A2∪A3∪…∪An=S(2)AiAj=φ,i≠j;i,j=1,2,3,…,n(3)P(Ai)>0,i=1,2,3,…,n
A2A1A2A3A5A6A4AnB則對任一事件B,都有(*)1524.貝葉斯(Bayes)公式若A1,A2,A3,…,An
為樣本空間S的一個完備事件組,則對任一事件B,(P(B)>0),有i=1,2,…,n(*)
153Bayes公式更主要的應用是風險型決策分析。在通過試驗能獲取追加信息的條件下,修正所研究問題的概率分布,達到降低風險,獲得更大效益的目的。在Bayes公式中各事件和概率都有特殊的意義,其中:P(Ai)——稱為事件Ai的先驗概率,由過去的統(tǒng)計資料或根據(jù)經(jīng)驗估計得到;B——為某一試驗可能出現(xiàn)的結(jié)果之一;P(B|Ai)——已知的條件概率,由該類試驗的統(tǒng)計資料獲得,反映了試驗的精度(所提供追加信息量的大小)。P(Ai|B)——稱為后驗概率,即當試驗出現(xiàn)結(jié)果B時,對Ai概率分布的修正。關(guān)于Bayes公式154若事件A發(fā)生的概率不受B是否發(fā)生的影響,反之亦然,則稱事件A與B相互獨立。即
P(B|A)=P(B)(*)
P(A|B)=P(A)由P(AB)=P(A)P(B|A),可得A、B獨立等價于
P(AB)=P(A)P(B)
(*)三.事件的獨立性155一.隨機變量任何隨機試驗的試驗結(jié)果,都可以定量化并用隨機變量表示。例如,在燈泡壽命試驗中,令X為“燈泡壽命”(小時),則X為一隨機變量。{X>500},{X≤1000},{800<X≤1200}等表示了不同的隨機事件?!?.3隨機變量及其分布函數(shù)1561.分布函數(shù)
設X是一隨機變量,x是任意實數(shù),稱函數(shù)
F(x)=P{X≤x}(*)為X的分布函數(shù)。顯然,對任意實數(shù)x1<x2,有
P{x1<X≤x2}=P{X≤x2}-P{X≤x1}=F(x2)-F(x1)(*)2.分布函數(shù)的性質(zhì)(1)0≤F(x)≤1;x∈(-∞,+∞)(2)對任意x1<x2,F(xiàn)(x1)≤F(x2)(3)
157一.離散型隨機變量的概率分布1.離散型隨機變量的概率分布設離散型隨機變量X的所有可能取值為xk,記
P{X=xk}=Pk
,k=1,2,…稱上式為X的概率分布或分布律,簡稱分布。2.概率分布的性質(zhì)
(1)0≤Pk≤1;k=1,2,…(2)
Pk=1(3)§4.4離散型隨機變量158將E獨立地重復進行n次,令X為“事件A發(fā)生的次數(shù)”,則若試驗E僅有兩個可能結(jié)果A和,記P(A)=p,P()=1-p=q,(0<P<1)q=1-P,k=0,1,2,…,n
稱X服從二項分布(Binomialdistribution),記為X~B(n,p)
由于上式中的第k項恰好是二項式(p+q)n展開式中的第k項,故稱之為二項分布。二.二項分布159【例9】設某臺設備所加工產(chǎn)品的次品率為0.02,求90件產(chǎn)品中次品數(shù)≥2的概率。解:將加工90件產(chǎn)品視為90重貝努利試驗,令X為次品數(shù),由題意,p=0.02,q=0.98,則P{X≥2}=1-P{X=0}-P{X=1}160可用Excel的BINOMDIST函數(shù)求解二項分布問題BINOMDIST函數(shù)的語法規(guī)則:格式:BINOMDIST(k,n,p,邏輯值)功能:當?shù)?個參數(shù)的邏輯值為1時,返回二項分布的累積概率P{X≤k}的值;當邏輯值為0時,返回二項分布的概率P{X=k}的值。161一.連續(xù)型隨機變量的概率密度1.定義對連續(xù)型隨機變量X,如果存在非負可積函數(shù)?(x),使得對任意實數(shù)x,有
則稱?(x)為X的概率密度函數(shù),簡稱概率密度或密度?!?.5連續(xù)型隨機變量1622.概率密度的性質(zhì)(4)若?(x)在點x處連續(xù),則:
由(3)式可知,X的分布函數(shù)F(x)的值,以及X落在區(qū)間(x1,x2]上的概率,就是相應區(qū)間上概率密度曲線下的面積,見下圖所示。163分布函數(shù)和密度函數(shù)的關(guān)系f(x)xx0(*)f(x)xb0a1641.指數(shù)分布若隨機變量X的概率密度為其中λ>0為常數(shù),則稱X服從參數(shù)為λ的指數(shù)分布(Exponentialdistribution)。不難求得指數(shù)分布的分布函數(shù)為:二.幾種重要的連續(xù)型分布165指數(shù)分布的應用通常產(chǎn)品的無故障工作時間服從指數(shù)分布,其參數(shù)
就是失效率,1/
則是平均無故障工作時間?!纠?0】設某品牌彩電無故障工作時間服從λ=1/2000的指數(shù)分布。求該種彩電無故障工作時間不少于1000小時的概率。解:設X為該彩電的無故障工作時間,則P{X≥1000}=1-P{X≤1000}=1-F(1000)=1-(1-e-1000/2000)=e-0.5=0.6065166可用Excel的EXPONDIST函數(shù)求解指數(shù)分布問題EXPONDIST函數(shù)的語法規(guī)則:格式:EXPONDIST(x,λ,邏輯值)功能:當邏輯值為1時,返回指數(shù)分布的分布函數(shù)P{X≤x}的值;當邏輯值為0時,返回指數(shù)分布的密度函數(shù)值。167設隨機變量X的概率密度為其中、為常數(shù),且
>0,則稱X服從參數(shù)為
,
的正態(tài)分布(Normaldistribution),記為X~N(
,
2)。正態(tài)分布密度函數(shù)的圖形見下圖所示。2.正態(tài)分布168正態(tài)分布密度函數(shù)的圖形xf(x)0=0.5=1=2
0f(x)x
1
2169(1)正態(tài)分布密度函數(shù)的性質(zhì)①?(x)在x=μ處達到最大值,x離μ越遠,f(x)的值越小,且以x軸為漸近線;②曲線關(guān)于x=μ對稱;③
越小,曲線越陡峭,
反映了X取值的離散程度;④對相同的
,改變μ值相當于曲線的平移。170(2)標準正態(tài)分布
稱
=0,
=1的正態(tài)分布為標準正態(tài)分布,記為Z~N(0,1),其密度函數(shù)和分布函數(shù)分別記為φ(x)
和
(x)。
(3)正態(tài)分布表的使用正態(tài)分布表給出的是標準正態(tài)分布的分布函數(shù)的值
(x)
。查正態(tài)分布表
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度貨運司機勞動合同模板(含績效考核)
- 二零二五年度學校教師學生國際交流與合作聘用合同3篇
- 二零二五年度信息技術(shù)產(chǎn)品軟件售后服務合同書模板2篇
- 2025年度個人法律咨詢委托書范本4篇
- 二零二五年度廚房電氣設備安裝與維護承包協(xié)議4篇
- 2025版實習合同模板:實習期間解約與補償3篇
- 二零二五版舊機動車交易車輛售后配件供應合同3篇
- 2025版實習期員工勞動合同-實習期間合同解除與續(xù)簽3篇
- 珠??萍紝W院《賈平凹文學創(chuàng)作研究》2023-2024學年第一學期期末試卷
- 二零二五年度商業(yè)寫字樓租賃合同樣本
- 運動技能學習與控制課件第十一章運動技能的練習
- 蟲洞書簡全套8本
- 射頻在疼痛治療中的應用
- 四年級數(shù)學豎式計算100道文檔
- “新零售”模式下生鮮電商的營銷策略研究-以盒馬鮮生為例
- 項痹病辨證施護
- 職業(yè)安全健康工作總結(jié)(2篇)
- 懷化市數(shù)字經(jīng)濟產(chǎn)業(yè)發(fā)展概況及未來投資可行性研究報告
- 07FD02 防空地下室電氣設備安裝
- 教師高中化學大單元教學培訓心得體會
- 彈簧分離問題經(jīng)典題目
評論
0/150
提交評論