應(yīng)用統(tǒng)計(jì)之?dāng)?shù)據(jù)整理與抽樣_第1頁(yè)
應(yīng)用統(tǒng)計(jì)之?dāng)?shù)據(jù)整理與抽樣_第2頁(yè)
應(yīng)用統(tǒng)計(jì)之?dāng)?shù)據(jù)整理與抽樣_第3頁(yè)
應(yīng)用統(tǒng)計(jì)之?dāng)?shù)據(jù)整理與抽樣_第4頁(yè)
應(yīng)用統(tǒng)計(jì)之?dāng)?shù)據(jù)整理與抽樣_第5頁(yè)
已閱讀5頁(yè),還剩56頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

應(yīng)用統(tǒng)計(jì)之?dāng)?shù)據(jù)整理與抽樣數(shù)據(jù)的整理與抽樣

§4、數(shù)據(jù)的描述性指標(biāo)頻數(shù)分布所給定的是一個(gè)分布形狀,要進(jìn)一步描述和刻畫(huà)其分布的數(shù)量特征,則需要計(jì)算數(shù)據(jù)的集中趨勢(shì)和。它們是反映數(shù)據(jù)分布數(shù)量規(guī)律的一對(duì)代表值。若所描述的數(shù)據(jù)是所觀察研究的總體,則稱(chēng)這些代表值為參數(shù);若所描述的數(shù)據(jù)僅是總體中隨機(jī)抽取的一個(gè)樣本,則稱(chēng)這些代表值為統(tǒng)計(jì)量。數(shù)據(jù)的整理與抽樣

一、集中趨勢(shì)

集中趨勢(shì)亦稱(chēng)趨中性。它表示同類(lèi)現(xiàn)象在一定時(shí)間、地點(diǎn)條件下所達(dá)到的一般水平與大量單位的綜合數(shù)量特征。集中趨勢(shì)有三個(gè)特點(diǎn):①它用一個(gè)代表值綜合反映總體各單位(所有個(gè)體)某種標(biāo)志值的一般水平或代表水平;②它抽象掉了各個(gè)個(gè)體之間標(biāo)志值的差異;③它一般用單位的數(shù)值表示,其計(jì)量單位與標(biāo)志值的計(jì)量單位相一致。數(shù)據(jù)的整理與抽樣

集中趨勢(shì)的作用:①可方便地比較若干總體的某種標(biāo)志值的平均水平,說(shuō)明它們?cè)谀骋粩?shù)量標(biāo)志上的差異。如平均成績(jī)、平均身高等;②可研究總體某種標(biāo)志值的平均水平隨時(shí)間的變化,說(shuō)明其發(fā)展趨勢(shì)和規(guī)律。如人均收入的變化、勞動(dòng)生產(chǎn)率的變化等;③可分析社會(huì)經(jīng)濟(jì)現(xiàn)象間的依存關(guān)系,為此必須采用分組的方法。數(shù)據(jù)的整理與抽樣4、可作為評(píng)價(jià)事物優(yōu)劣的數(shù)量標(biāo)準(zhǔn)。如各批產(chǎn)品合格率;5、可用以計(jì)算和估算其他重要經(jīng)濟(jì)指標(biāo)(如由人均收入估算社會(huì)購(gòu)買(mǎi)力)。數(shù)據(jù)的整理與抽樣

統(tǒng)計(jì)學(xué)上對(duì)集中趨勢(shì)有以下幾種主要測(cè)度值:

1、均值均值又稱(chēng)算術(shù)平均數(shù)。是數(shù)據(jù)集中趨勢(shì)的主要測(cè)度值。對(duì)于未經(jīng)整理的原始數(shù)據(jù),一般用以下公式:數(shù)據(jù)的整理與抽樣⑴簡(jiǎn)單算術(shù)平均數(shù)

如平均工資、平均身高、平均成績(jī)等的計(jì)算。均值觀察值容量總體N樣本n數(shù)據(jù)的整理與抽樣例:某班級(jí)28名學(xué)生的應(yīng)用統(tǒng)計(jì)學(xué)成績(jī)?nèi)缦拢?/p>

72856492767387829666776557907169707468796053758872786167計(jì)算該班學(xué)生應(yīng)用統(tǒng)計(jì)學(xué)的平均成績(jī)。解:數(shù)據(jù)的整理與抽樣簡(jiǎn)單算術(shù)平均數(shù)較準(zhǔn)確地描述了總體與個(gè)體之間的數(shù)量關(guān)系,其描述方式同時(shí)考慮了變量值的次數(shù)和變量值的大小對(duì)集中趨勢(shì)的影響,數(shù)列中任何數(shù)值和次數(shù)的變化都會(huì)引起算術(shù)平均數(shù)的改變,它是最靈敏、對(duì)資料運(yùn)用最充分的指標(biāo)。數(shù)據(jù)的整理與抽樣⑵加權(quán)算術(shù)平均數(shù)當(dāng)數(shù)據(jù)是已經(jīng)分組的頻數(shù)分布資料時(shí),計(jì)算算術(shù)平均數(shù)需要用加權(quán)平均法。“權(quán)”即占總次數(shù)的比重。近似算法如下:數(shù)據(jù)的整理與抽樣均值組中值組數(shù)總體K樣本k數(shù)據(jù)的整理與抽樣成績(jī)分組組中值人數(shù)50~6055211060~7065852070~80751182580~9085434090~100953285合計(jì)—282080數(shù)據(jù)的整理與抽樣在使用組中值作為第i組的代表值時(shí),假設(shè)各組數(shù)據(jù)在組內(nèi)分布均勻,但實(shí)際上并非如此,所以計(jì)算的均值會(huì)產(chǎn)生誤差。均值不僅受組中值大小的影響,而且也會(huì)受權(quán)數(shù)的影響,權(quán)數(shù)越大,則該組數(shù)值對(duì)均值的影響就越大。由均值的計(jì)算公式很容易看出這一點(diǎn)。數(shù)據(jù)的整理與抽樣

月工資(元)員工數(shù)(人)各組平均工資工資總額

fxx·f

1600以下401550620001600~170010016501650001700~180020017503500001800~190040018507400001900~200045019508750002000~220025021005250002200以上602300138000合計(jì)1500—2855000數(shù)據(jù)的整理與抽樣=2855000/1500=1903.33元算術(shù)平均數(shù)的特點(diǎn):

⑴各變量值與其算術(shù)平均數(shù)的離差之和等于0,即⑵各變量值與其算術(shù)平均數(shù)的離差平方和為最小值(相對(duì)于其他任何數(shù)),即數(shù)據(jù)的整理與抽樣

例如,為分析某鄉(xiāng)農(nóng)民家庭生活水平與家庭人口的關(guān)系,則需按人均月收入對(duì)該鄉(xiāng)農(nóng)戶(hù)分組。也可按戶(hù)人口數(shù)分組。人均月收入(分組)調(diào)查戶(hù)數(shù)人口數(shù)戶(hù)均人口數(shù)250以下9546.0250~3009495.4300~350311625.2350~400964034.2400~600692393.5600以上12352.9合計(jì)2269424.2數(shù)據(jù)的整理與抽樣2、幾何平均數(shù)它是與算術(shù)平均數(shù)不同的另一種平均數(shù),主要用于環(huán)比發(fā)展速度或比率均值的計(jì)算。⑴簡(jiǎn)單幾何平均數(shù)這是在資料未分組情況下采用的一種計(jì)算方法。其中,是第i期的發(fā)展速度或比率。數(shù)據(jù)的整理與抽樣某企業(yè)“九五”期間產(chǎn)品銷(xiāo)售額的年增長(zhǎng)速度為因,所以可用對(duì)數(shù)計(jì)算幾何平均數(shù)。年份199519961997199819992000增長(zhǎng)速度(%)2718231625相對(duì)前一年(%)127118123116125相對(duì)1995(%)100127149.9184.3213.8267.3數(shù)據(jù)的整理與抽樣⑵加權(quán)幾何平均數(shù)在資料已經(jīng)分組,每個(gè)變量值出現(xiàn)次數(shù)或比重不等時(shí),應(yīng)使用加權(quán)幾何平均。即對(duì)數(shù)計(jì)算公式為數(shù)據(jù)的整理與抽樣假設(shè)投資銀行某項(xiàng)投資的年利率按復(fù)利計(jì)算,25年的年利率分配為:有1年3%,有4年4%,有8年8%,有10年10%,有2年15%,求平均年利率。(單利:)數(shù)據(jù)的整理與抽樣3、中位數(shù)將一組變量值按大小順序排列,位于數(shù)列中間位置的變量值即為中位數(shù)。由于中位數(shù)居于數(shù)列正中,所以它可以作為代表一般水平和集中趨勢(shì)的代表值。在標(biāo)志變異度較大的情況下,可避免極端數(shù)值(不穩(wěn)健)的影響。⑴單項(xiàng)變量數(shù)數(shù)列

中位數(shù)為為中位數(shù)的位置。數(shù)據(jù)的整理與抽樣例:某班級(jí)28名學(xué)生的應(yīng)用統(tǒng)計(jì)學(xué)成績(jī)?nèi)缦拢?/p>

72856492767387829666776557907169707468796053758872786167計(jì)算該班學(xué)生應(yīng)用統(tǒng)計(jì)學(xué)成績(jī)的中位數(shù)。解:N=28,Me=(N+1)/2=(28+1)/2=14.5對(duì)成績(jī)順序排列后,X14=72,X15=73

數(shù)據(jù)的整理與抽樣⑵組距變量數(shù)列①確定中位數(shù)所在組計(jì)算公式為N/2或,N和為總次數(shù);②計(jì)算中位數(shù)下限公式含有中位組均勻分布的假設(shè)。數(shù)據(jù)的整理與抽樣其中,L—中位數(shù)所在組的下組限;—數(shù)值在L之下各組的累計(jì)次數(shù);—中位數(shù)所在組的次數(shù);

d—中位數(shù)所在組的組距。上限公式數(shù)據(jù)的整理與抽樣例:成績(jī)分組組中值人數(shù)50~6055211060~7065852070~80751182580~9085434090~100953285合計(jì)—282080數(shù)據(jù)的整理與抽樣解:N=28,L=70,Sm-1=10,=11,d=10顯然,數(shù)據(jù)的整理與抽樣例:

年收入額(元)農(nóng)戶(hù)數(shù)百分比(%)2600~280024082800~3000480163000~32001050353200~3400600203400~360027093600~380021073800~400012044200~4400301

合計(jì)3000100數(shù)據(jù)的整理與抽樣解:N=3000,L=3000,Sm-1=720,=1050,d=200顯然,數(shù)據(jù)的整理與抽樣4、四分位數(shù)四分位數(shù)是將數(shù)據(jù)排序后,將數(shù)據(jù)四等分的三個(gè)數(shù)值,其中中間的數(shù)值是中位數(shù)。在中位數(shù)與最大值和中位數(shù)與最小值之間再找到兩個(gè)數(shù)值,即可將數(shù)據(jù)四等分。四分位數(shù)的三個(gè)分割點(diǎn)的位置分別為數(shù)據(jù)的整理與抽樣⑴上四分位數(shù)若上四分位數(shù)為Xi,則⑵下四分位數(shù)若下四分位數(shù)為Xj,則其中,表示向上取整。數(shù)據(jù)的整理與抽樣

在資料分組的情況下,四分位值的三個(gè)點(diǎn)分別以N/4、2N/4和3N/4定位,之后求3個(gè)四分位數(shù)。第i個(gè)四分位點(diǎn)的值為其中,—第i個(gè)分位值所在組的下限;—其前各組的累計(jì)次數(shù);—其所在組的次數(shù);—其所在組的組距。數(shù)據(jù)的整理與抽樣5、眾數(shù)眾數(shù)是將數(shù)據(jù)按大小順序排隊(duì)后,出現(xiàn)次數(shù)明顯最多或最有明顯集中趨勢(shì)的點(diǎn)的數(shù)值。它是指在總體中最常遇到的現(xiàn)象,即在一個(gè)數(shù)列中出現(xiàn)最多的標(biāo)志值。例如,大多數(shù)工人可完成的工作量、大多數(shù)人的收入、最一般的身高等。它不受變量數(shù)列極值的影響,用具有次數(shù)最多的標(biāo)志值描述集中趨勢(shì),代表的范圍最廣。但是,眾數(shù)的取得必須在個(gè)體數(shù)足夠多且又有明顯集中趨勢(shì)時(shí)才有意義。數(shù)據(jù)的整理與抽樣如果分布沒(méi)有明顯的最高點(diǎn),則眾數(shù)不存在。如果有兩個(gè)相同的最高點(diǎn),也可有兩個(gè)眾數(shù)。M0M0M0M0數(shù)據(jù)的整理與抽樣眾數(shù)的確定方法⑴若為單項(xiàng)變量數(shù)列,則變量出現(xiàn)次數(shù)最多(頻率最高)的變量值就是眾數(shù)。

日班次平均加工零件數(shù)量(個(gè))x工人數(shù)(人)f5020553060806510705

合計(jì)145數(shù)據(jù)的整理與抽樣⑵若為等組距變量數(shù)列,則分兩步:年收入額(元)農(nóng)戶(hù)數(shù)百分比(%)2600~280024082800~3000480163000~32001050353200~3400600203400~360027093600~380021073800~400012044200~4400301

合計(jì)3000100數(shù)據(jù)的整理與抽樣⑴確定眾數(shù)組頻次最高的一組為眾數(shù)組。3000~3200元之間;⑵計(jì)算眾數(shù)與眾數(shù)組相鄰的兩組數(shù)頻次的多少有關(guān):①若相鄰兩組數(shù)的頻次相等,則眾數(shù)組的中值就是眾數(shù);數(shù)據(jù)的整理與抽樣②若相鄰兩組數(shù)的頻次不等,則眾數(shù)為其中:L—眾數(shù)組的下限值;—眾數(shù)組與其下限相鄰組的頻次差;—眾數(shù)組與其上限相鄰組的頻次差;

d—眾數(shù)組的組距。(下限公式)數(shù)據(jù)的整理與抽樣在本例中,L=3000d=3200-3000=200=1050-480=570或=35%-16%=19%=1050-600=450或=35%-20%=15%則或上限公式為數(shù)據(jù)的整理與抽樣

例:計(jì)算全班學(xué)生應(yīng)用統(tǒng)計(jì)學(xué)的眾數(shù)。成績(jī)分組人數(shù)50~60260~70870~801180~90490~1003合計(jì)28數(shù)據(jù)的整理與抽樣

解:L=70,,,d=10

數(shù)據(jù)的整理與抽樣在度量集中趨勢(shì)的幾種均值指標(biāo)中,算術(shù)平均數(shù)、中位數(shù)、眾數(shù)最為重要。三者之間存在如下關(guān)系:當(dāng)次數(shù)分布完全對(duì)稱(chēng)時(shí),當(dāng)次數(shù)分布為偏態(tài)時(shí),數(shù)據(jù)的整理與抽樣6、集中趨勢(shì)分析應(yīng)注意的幾個(gè)問(wèn)題⑴只有同質(zhì)總體才能計(jì)算平均值,各個(gè)體之間僅存在數(shù)量差異;⑵在分組的條件下,總體的均值不僅受組的均值大小的影響,同時(shí)還受總體內(nèi)部結(jié)構(gòu)變動(dòng)的影響。當(dāng)總體內(nèi)部結(jié)構(gòu)變化時(shí),總體均值就不能全面、準(zhǔn)確地反映現(xiàn)象的特征和規(guī)律;數(shù)據(jù)的整理與抽樣⑶應(yīng)以分布數(shù)量和典型事例作補(bǔ)充說(shuō)明總體的集中趨勢(shì);⑷應(yīng)與離散趨勢(shì)分析相結(jié)合,以全面反映現(xiàn)象個(gè)體的差異。數(shù)據(jù)的整理與抽樣二、離散趨勢(shì)1、問(wèn)題的提出

集中趨勢(shì)反映了總體單位(個(gè)體)標(biāo)志值分布特征的一個(gè)重要方面,但僅用此指標(biāo)描述這些標(biāo)志的一般水平是不夠的。要全面描述總體單位標(biāo)志值的分布特征,必須對(duì)標(biāo)志值的差異性進(jìn)行研究。離中趨勢(shì)是指一組變量值背離分布中心值的特征,它與集中趨勢(shì)共同說(shuō)明總體的分布特征。數(shù)據(jù)的整理與抽樣2、離中趨勢(shì)度量的目的⑴描述總體內(nèi)部差異程度,反映社會(huì)經(jīng)濟(jì)活動(dòng)的均衡性,為管理決策提供信息。班級(jí)語(yǔ)文數(shù)學(xué)歷史地理化學(xué)物理總評(píng)甲班82868083838483乙班75898478809283數(shù)據(jù)的整理與抽樣⑵衡量和比較均值指標(biāo)代表性的高低離中趨勢(shì)指標(biāo)數(shù)值的大小和均值代表程度高低有密切關(guān)系。離中趨勢(shì)指標(biāo)數(shù)值越大,均值的代表性就越小;而離中趨勢(shì)指標(biāo)數(shù)值越小,均值的代表性就越大。這充分說(shuō)明,均值代表性的大小必須與離中趨勢(shì)指標(biāo)結(jié)合運(yùn)用。數(shù)據(jù)的整理與抽樣⑶為選取樣本單位數(shù)提供依據(jù)。各個(gè)體標(biāo)志值變異度越小,即總體越一致,則為獲取代表性資料,只需選取較少的樣本單位;反之,就需要選取較多的樣本單位。數(shù)據(jù)的整理與抽樣3、離中趨勢(shì)度量方法⑴按總體內(nèi)單位標(biāo)志值差異距離度量。如極差、四分位差等;⑵按異眾比例度量;⑶按個(gè)體標(biāo)志值的平均離差度量。如平均差、標(biāo)準(zhǔn)差等。離中趨勢(shì)的度量由變異指標(biāo)給出,它可以是絕對(duì)數(shù),也可以是相對(duì)數(shù)。數(shù)據(jù)的整理與抽樣4、極差極差又稱(chēng)為全距,是數(shù)據(jù)離散或差異程度的最簡(jiǎn)單的測(cè)度值。全距的計(jì)算是數(shù)據(jù)的最大值與最小值之差。即或數(shù)據(jù)的整理與抽樣例:計(jì)算全班學(xué)生應(yīng)用統(tǒng)計(jì)學(xué)成績(jī)的極差。解:顯然,數(shù)據(jù)越分散,則極差越大。極差易受極端數(shù)據(jù)的影響,而中間數(shù)據(jù)的變化對(duì)它無(wú)任何影響。數(shù)據(jù)的整理與抽樣5、方差和標(biāo)準(zhǔn)差⑴方差①未分組數(shù)據(jù)

—總體方差;—樣本方差;

數(shù)據(jù)的整理與抽樣稱(chēng)n-1為自由度。因?yàn)楫?dāng)樣本確定之后,樣本n個(gè)數(shù)據(jù)中只有n-1個(gè)可以自由變動(dòng),即樣本數(shù)據(jù)中只有n-1個(gè)誤差的有用信息。另一種解釋是,樣本方差之所以要除以n-1,是為保證樣本方差對(duì)總體方差估計(jì)的無(wú)偏性。數(shù)據(jù)的整理與抽樣②分組數(shù)據(jù)對(duì)于分組數(shù)據(jù)的方差,還要考慮各組的次數(shù),即對(duì)其離差平方和加權(quán)。數(shù)據(jù)的整理與抽樣⑵標(biāo)準(zhǔn)差σ、S標(biāo)準(zhǔn)差就是方差的平方根。即數(shù)據(jù)的整理與抽樣⑶方差與標(biāo)準(zhǔn)差的關(guān)系方差與標(biāo)準(zhǔn)差的差異在于對(duì)離差的處理不同。①方差不僅便于數(shù)學(xué)上進(jìn)一步計(jì)算,而且其統(tǒng)計(jì)推斷的性質(zhì)也優(yōu)于標(biāo)準(zhǔn)差;②方差與標(biāo)準(zhǔn)差都是以均值為比較中心,它們都是離差的某種平均;③方差的大小不僅可以反映數(shù)據(jù)離

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論