連續(xù)性變量的統(tǒng)計(jì)描述與參數(shù)估計(jì)_第1頁
連續(xù)性變量的統(tǒng)計(jì)描述與參數(shù)估計(jì)_第2頁
連續(xù)性變量的統(tǒng)計(jì)描述與參數(shù)估計(jì)_第3頁
連續(xù)性變量的統(tǒng)計(jì)描述與參數(shù)估計(jì)_第4頁
連續(xù)性變量的統(tǒng)計(jì)描述與參數(shù)估計(jì)_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

連續(xù)性變量的統(tǒng)計(jì)描述與參數(shù)估計(jì)5.1連續(xù)變量的統(tǒng)計(jì)描述指標(biāo)體系(1)集中趨勢(shì)(CentralTrend):均數(shù)(Mean)中位數(shù)(Median)截尾均數(shù)(TrimmedMean)幾何均數(shù)(GeometricMean)眾數(shù)(Mode)調(diào)和均數(shù)(HarmonicMean)第2頁,共41頁,2024年2月25日,星期天(4)其他趨勢(shì)單峰雙峰分布、極端值(Outlier)。(2)離散趨勢(shì)(DispersionTrend)全距(Range)、標(biāo)準(zhǔn)差(Std.Deviation)和方差(Variance)、百分位數(shù)(Percentile)、四分位數(shù),四分位間距、變異系數(shù)(3)分布特征(DistributionTendency)偏度系數(shù)(Skewness)和峰度系數(shù)(Kurtosis)第3頁,共41頁,2024年2月25日,星期天2集中趨勢(shì)的的描述指標(biāo)1算術(shù)平均算術(shù)平均(ArithmeticMean)是最常用的描述數(shù)據(jù)分布的集中趨勢(shì)的統(tǒng)計(jì)量。總體均數(shù)(PopulationMean)用希臘字母表示,樣本均數(shù)常用表示。一、算術(shù)平均數(shù)的定義和性質(zhì)第4頁,共41頁,2024年2月25日,星期天二、均數(shù)的意義任何一個(gè)平均數(shù)值首先是同類現(xiàn)象的平均數(shù)。任何一個(gè)平均數(shù)總是一個(gè)平衡點(diǎn)。但平均數(shù)在高度概括觀測(cè)數(shù)據(jù)從而使問題簡(jiǎn)化的同時(shí),卻丟失了某些有用的信息,一方面它把各個(gè)觀測(cè)數(shù)據(jù)之間的差異性掩蓋了起來,另一方面由于平均數(shù)對(duì)于個(gè)別極端值反應(yīng)比較靈敏,因而平均數(shù)在某些情況下可能具有一定的欺騙性。三、均數(shù)的適用范圍嚴(yán)格的講平均數(shù)指示用于定距變量。但有時(shí)對(duì)于定序變量,求平均等級(jí)也可以使用平均數(shù)。第5頁,共41頁,2024年2月25日,星期天2中位數(shù)中位數(shù)(Median)是將總體各單位的標(biāo)志值按大小順序排列,處于中間位置的那個(gè)標(biāo)志。一、中位數(shù)的定義對(duì)于未分組的原始資料,首先必須將標(biāo)志值按大小順序。設(shè)排序結(jié)果為:則中位數(shù)就可以按下列方式確定:二、中位數(shù)的適用范圍第6頁,共41頁,2024年2月25日,星期天3其他集中趨勢(shì)指標(biāo)一、截尾均數(shù)由于均數(shù)較易受極端值的影響,因此可以考慮將數(shù)據(jù)排序后,按照一定的比例去掉最兩端的數(shù)據(jù),只是用中部的數(shù)據(jù)來求均數(shù)。如果截尾均數(shù)和原均數(shù)相差不大,則說明數(shù)據(jù)不存在極端值,或者兩側(cè)極端值的影響正好抵消;反之,則說明數(shù)據(jù)中有極端值,此時(shí)截尾均數(shù)更好地反映數(shù)據(jù)的集中趨勢(shì)。常用的截尾均數(shù)有5%截尾均數(shù),即兩端各去掉5%的數(shù)據(jù)。第7頁,共41頁,2024年2月25日,星期天二、幾何均數(shù)幾何均數(shù)適用于原始數(shù)據(jù)分布不對(duì)稱,但經(jīng)過對(duì)數(shù)轉(zhuǎn)換后呈對(duì)稱分布的資料。幾何均數(shù)實(shí)際上就是對(duì)數(shù)轉(zhuǎn)換后的數(shù)據(jù)lgX的算術(shù)平均數(shù)的反對(duì)數(shù)。第8頁,共41頁,2024年2月25日,星期天四、調(diào)和均數(shù)它實(shí)際上是觀察值X倒數(shù)之均數(shù)的倒數(shù)。三、眾數(shù)(Mode)眾數(shù)指的是樣本數(shù)據(jù)中出現(xiàn)頻次最多的那個(gè)數(shù)。眾數(shù)適用于任何層次的變量,特別適用于單峰對(duì)稱的情況,是比較兩個(gè)分布是否接近首先要考慮的參數(shù)。在SPSS中,眾數(shù)可以在Report子菜單和Tables子菜單的全部報(bào)表過程和制表過程中計(jì)算出來。在SPSS中,調(diào)和均數(shù)可以在Report子菜單的4個(gè)報(bào)表過程過程中計(jì)算出來。第9頁,共41頁,2024年2月25日,星期天3離散趨勢(shì)的描述指標(biāo)1全距(Range)又稱為極差,是一組數(shù)據(jù)中最大值(Maximun)與最小值(Minimum)之差。極差反映的是變量分布的差異范圍或離散程度,在總體中,任何兩個(gè)標(biāo)志值之差都不可能超過極差。極差存在兩點(diǎn)不足:一是它僅僅取決于兩個(gè)極端值的水平,不能反映其間的變量分布情況,提供的信息太少。二是它容易受個(gè)別極端值的影響,不符合穩(wěn)健型的要求。第10頁,共41頁,2024年2月25日,星期天2方差和標(biāo)準(zhǔn)差一、方差(Variance)和標(biāo)準(zhǔn)差(StandardDeviation)的定義將離均差平方和(SumofSquaresofDeviationfromMean,SS)除以觀察例數(shù)N,就得到方差:方差越大,數(shù)據(jù)分布離散程度越大。對(duì)于樣本數(shù)據(jù)而言,方差的計(jì)算公式為:將方差開方,就得到標(biāo)準(zhǔn)差。對(duì)于同性質(zhì)的數(shù)據(jù)來說,標(biāo)準(zhǔn)差越小,表明數(shù)據(jù)的變異程度越小,即數(shù)據(jù)越整齊,數(shù)據(jù)的分布范圍越集中;標(biāo)準(zhǔn)差越大,表明數(shù)據(jù)的變異程度越大,即數(shù)據(jù)越參差不齊,分布越分散。二、方差和標(biāo)準(zhǔn)差的適用范圍:方差和標(biāo)準(zhǔn)差的適用范圍應(yīng)當(dāng)是正態(tài)分布。第11頁,共41頁,2024年2月25日,星期天3百分位數(shù)、四分位數(shù)與四分位數(shù)間距分位差是對(duì)極差指標(biāo)的一種改進(jìn),是從變量數(shù)列中剔除了一部分極端值后重新計(jì)算的類似于極差的指標(biāo)。常用的分位差有四分位差、十分位差、百分位差。一、分位數(shù)分位數(shù):是一種位置指標(biāo),用PX表示。一個(gè)百分位數(shù)PX將一組觀測(cè)值分為兩部分,理論上有x%的觀測(cè)值比它小,(100-x)%的觀測(cè)值比它大。四分位數(shù)(quartile)、十分位數(shù)(decile)、百分位數(shù)(percentile),他們分別是用3個(gè)點(diǎn)、9個(gè)點(diǎn)、99個(gè)點(diǎn)將數(shù)據(jù)4等分、10等分和100等分后各分位點(diǎn)上的值。第12頁,共41頁,2024年2月25日,星期天二、四分位數(shù)四分位數(shù):實(shí)際上是三個(gè)數(shù)值的總稱,分別是P25、P50、P75分位數(shù)。很顯然,中間的分位數(shù)是中位數(shù),因此通常所說的四分位數(shù)是指第一個(gè)四分位數(shù)(下四分位數(shù))和第三個(gè)四分位數(shù)(上四分位數(shù))。上下四分位數(shù)的差值稱為四分位數(shù)間距:QR=Q3-Q1第13頁,共41頁,2024年2月25日,星期天4變異系數(shù)當(dāng)需要比較兩組數(shù)據(jù)離散程度大小的時(shí)候,往往直接使用標(biāo)準(zhǔn)差來進(jìn)行比較并不合適。這可以被分為兩種情況:(1)測(cè)量尺度相差太大;(2)數(shù)據(jù)量綱不同。在以上情形中,就應(yīng)當(dāng)消除測(cè)量尺度和量綱的影響,而變異系數(shù)(CoefficientofVariance),它是標(biāo)準(zhǔn)差和其平均數(shù)的比率。第14頁,共41頁,2024年2月25日,星期天5.2連續(xù)性變量的參數(shù)估計(jì)根據(jù)樣本數(shù)據(jù)對(duì)總體的客觀規(guī)律性作出合理估計(jì)的過程被稱為統(tǒng)計(jì)推斷(StatisticalInference),它可以被分為參數(shù)估計(jì)和假設(shè)檢驗(yàn)兩大類。1正態(tài)分布一、正態(tài)分布的定義若連續(xù)性隨即變量X的概率分布密度函數(shù)為則稱隨機(jī)變量X服從正態(tài)分布(NormalDistribution)第15頁,共41頁,2024年2月25日,星期天二、正態(tài)分布的特征(1)正態(tài)分布是一條對(duì)稱曲線,關(guān)于均數(shù)對(duì)稱,因此均數(shù)被稱為正態(tài)分布的位置參數(shù)。(2)曲線是單峰,在均值出達(dá)到最高點(diǎn)。(3)正態(tài)分布曲線的高矮與標(biāo)準(zhǔn)差有關(guān)。因此標(biāo)準(zhǔn)差被稱為正態(tài)分布曲線的尺度參數(shù)。(4)曲線無論向左或向右延伸,都越來越接近橫軸,但不會(huì)與橫軸相交,以橫軸為漸近線。(5)約68%的個(gè)體的取值與平均數(shù)在距離一個(gè)標(biāo)準(zhǔn)差之內(nèi)。(6)約95%的個(gè)體取值與平均數(shù)的距離在1.96個(gè)標(biāo)準(zhǔn)差之內(nèi)。(7)99%個(gè)體的取值與平均數(shù)的距離在2.58個(gè)標(biāo)準(zhǔn)差。第16頁,共41頁,2024年2月25日,星期天三、標(biāo)準(zhǔn)正態(tài)分布(StandardNormalDistribution)將原來的正態(tài)分布轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布。在SPSS中的Descriptive過程可以將原變量轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布的得分,只需要選中主對(duì)話框左下角的Savestandardizedvaluesasvariables復(fù)選框即可。第17頁,共41頁,2024年2月25日,星期天四、偏度和峰度(1)偏度(Skewness):偏度是用來描述變量取值分布形態(tài)的統(tǒng)計(jì)量,指分布不對(duì)稱的方向和程度。樣本偏度系數(shù):偏態(tài)的方向指的應(yīng)當(dāng)是長(zhǎng)尾的方向,而不是高峰的位置。第18頁,共41頁,2024年2月25日,星期天(2)峰度(Kurtosis):峰度用來描述變量取值分布形態(tài)陡緩的統(tǒng)計(jì)量,是指分布圖形的的尖削程度或峰凸程度。樣本的峰度系數(shù):第19頁,共41頁,2024年2月25日,星期天2參數(shù)的點(diǎn)估計(jì)參數(shù)的點(diǎn)估計(jì)就是選定一個(gè)適當(dāng)?shù)臉颖窘y(tǒng)計(jì)量作為參數(shù)的估計(jì)量,并計(jì)算出估計(jì)值。對(duì)于所選統(tǒng)計(jì)量是否適于作參數(shù)估計(jì)量,有無偏性、一致性和有效性三個(gè)評(píng)選標(biāo)準(zhǔn)。無偏性是指雖然估計(jì)量的值不全等于參數(shù),但應(yīng)在真實(shí)值附近擺動(dòng)。一致性是指樣本容量越大,估計(jì)值離真實(shí)值的差異應(yīng)當(dāng)越小。有效性是指如果兩個(gè)統(tǒng)計(jì)量都符合上述要求,則應(yīng)當(dāng)選取誤差更小的一個(gè)作為估計(jì)值。在許多種情況下,樣本統(tǒng)計(jì)量本身往往就是相應(yīng)的總體參數(shù)的最佳估計(jì),此時(shí)就可以直接取相應(yīng)的樣本統(tǒng)計(jì)量作為總體參數(shù)的點(diǎn)估計(jì)。一、矩法第20頁,共41頁,2024年2月25日,星期天二、極大似然估計(jì)法該方法的原理是在已知總體的分布,但未知其參數(shù)值時(shí),在待估參數(shù)的可能取值范圍內(nèi)進(jìn)行搜索,使似然函數(shù)值最大的那個(gè)數(shù)值為極大似然估計(jì)值。三、穩(wěn)健估計(jì)值穩(wěn)健估計(jì)值的是該統(tǒng)計(jì)量具有穩(wěn)健性,當(dāng)數(shù)據(jù)存在異常值時(shí)受影響較小,而且對(duì)大部分的分布而言都很好。第21頁,共41頁,2024年2月25日,星期天穩(wěn)健估計(jì)有M估計(jì)、R估計(jì)等不同方法。SPSS中數(shù)出的M估計(jì)量有4種,它們分別是Huber、Andrews、Hampel和Tukey所提出的,實(shí)際上就是所用的函數(shù)不同。一般而言,Huber適用于數(shù)據(jù)接近正態(tài)分布的情況,另外三種則適用于數(shù)據(jù)中許多異常值的情況。如果M估計(jì)量里平均數(shù)和中位數(shù)較遠(yuǎn),則數(shù)據(jù)中可能存在異常值。此時(shí),應(yīng)該用M估計(jì)量替代平均數(shù)以反映集中趨勢(shì)。。第22頁,共41頁,2024年2月25日,星期天3參數(shù)的區(qū)間估計(jì)一、標(biāo)準(zhǔn)誤標(biāo)準(zhǔn)誤就是用來描述參數(shù)估計(jì)值可能離真實(shí)值究竟有多遠(yuǎn)的統(tǒng)計(jì)量。二、區(qū)間估計(jì)的計(jì)算結(jié)合樣本統(tǒng)計(jì)量和標(biāo)準(zhǔn)誤可以確定一個(gè)具有較大的可信度包含總體參數(shù)的區(qū)間,該區(qū)間稱為總體參數(shù)的1-a可信區(qū)間或置信區(qū)間(ConfidenceInterval)。對(duì)于任意可信度的區(qū)間情況,總體均值在100(1-a)%可信區(qū)間為:第23頁,共41頁,2024年2月25日,星期天第24頁,共41頁,2024年2月25日,星期天spss中的相應(yīng)功能1、Spss的用于連續(xù)變量統(tǒng)計(jì)描述的過程,均集中在DescriptiveStatistics子菜單中。(1)Frequencies:產(chǎn)生原始數(shù)據(jù)的頻數(shù)表,并能計(jì)算各種百分位數(shù)。第25頁,共41頁,2024年2月25日,星期天控制頻數(shù)表輸出范圍類型的最大數(shù)目第26頁,共41頁,2024年2月25日,星期天(2)Descriptive過程該過程用于一般性的統(tǒng)計(jì)描述,相對(duì)于Frequencies過程而言,它不能繪制統(tǒng)計(jì)圖。第27頁,共41頁,2024年2月25日,星期天(3)Explore過程該過程用于對(duì)連續(xù)性資料分布狀況不清楚時(shí)的探索性分析,它可以計(jì)算許多描述統(tǒng)計(jì)量,給出各種統(tǒng)計(jì)圖,并進(jìn)行簡(jiǎn)單的參數(shù)估計(jì)。第28頁,共41頁,2024年2月25日,星期天第29頁,共41頁,2024年2月25日,星期天(4)Ratio過程用于對(duì)兩個(gè)連續(xù)性變量計(jì)算相對(duì)比指標(biāo)。第30頁,共41頁,2024年2月25日,星期天第31頁,共41頁,2024年2月25日,星期天5.3連續(xù)變量統(tǒng)計(jì)描述實(shí)例CCSS中的消費(fèi)者信心總指數(shù)index1,現(xiàn)狀指數(shù)index1a,預(yù)期指數(shù)index1b進(jìn)行統(tǒng)計(jì)描述,并計(jì)算95%個(gè)體參考值范圍。1使用頻數(shù)過程進(jìn)行分析2使用描述過程進(jìn)行分析第32頁,共41頁,2024年2月25日,星期天一、Descriptive過程的結(jié)果二、Frequencies過程的結(jié)果第33頁,共41頁,2024年2月25日,星期天3使用Explore過程進(jìn)行分析探索分析是對(duì)數(shù)據(jù)進(jìn)行初步的觀察分析,主要的分析項(xiàng)目有:觀察數(shù)據(jù)的分布特征:可通過繪制箱圖和莖葉圖等圖形直觀地反映數(shù)據(jù)的分布形式和數(shù)據(jù)的一些規(guī)律性,包括考察數(shù)據(jù)中是否存在異常值等。正態(tài)分布檢驗(yàn):檢驗(yàn)數(shù)據(jù)是否服從正態(tài)分布。方差齊性的檢驗(yàn):用Levene檢驗(yàn)比較各組的方差是否相等。第34頁,共41頁,2024年2月25日,星期天1、單擊Analyze->Descriptivestatistics->Explore,打開Explore主對(duì)話框:一、分析操作(3)在Display欄中選擇輸出項(xiàng),依次是Both選擇項(xiàng),輸出圖形與描述統(tǒng)計(jì)量(系統(tǒng)默認(rèn)),只輸出描述統(tǒng)計(jì)量和只輸出圖形。本例中選擇默認(rèn)項(xiàng)。(1)從左側(cè)的變量列表中選出變量,送入DependentList欄。(2)選擇”

”作為因子變量,送入FactorList欄。有了因子變量,SPSS會(huì)把所有的觀測(cè)個(gè)體按照因子變量的取值分成若干各組,再分組考察DependentList中的各個(gè)變量,如果不選擇因子變量,SPSS會(huì)對(duì)全部觀測(cè)來做探索分析。第35頁,共41頁,2024年2月25日,星期天2、單擊Statistics統(tǒng)計(jì)量按鈕,打開Statistics對(duì)話框,選擇統(tǒng)計(jì)輸出量。(1)Descriptives基本統(tǒng)計(jì)描述。同時(shí)指定均值的置信區(qū)間的置信度,系統(tǒng)默認(rèn)為95%。(2)M-估計(jì)(M估計(jì)在計(jì)算時(shí)對(duì)所有觀測(cè)量賦予權(quán)重,隨觀測(cè)量距分布中心的遠(yuǎn)近而變化)。(3)Outliers輸出分析數(shù)據(jù)中五個(gè)最大值和五個(gè)最小值。(4)Percentiles輸出百分?jǐn)?shù)。第36頁,共41頁,2024年2月25日,星期天3、單擊Plots圖形按鈕,打開Plots對(duì)話框。(1)Boxplot箱圖選擇欄Factorlevelstogether因變量按因素水平分組(系統(tǒng)默認(rèn));Dependentstogether所有因變量生成一個(gè)并列箱圖(本例中選擇項(xiàng));None不顯示箱圖。(2)Descriptive描述圖形欄Stem-and-leaf莖葉圖His

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論