版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、第三章數(shù)值資料的統(tǒng)計描述考察數(shù)值變量(定量指標(biāo))所獲得的資料稱數(shù)值資料。采用計算統(tǒng)計指標(biāo)、繪制統(tǒng)計圖和編制統(tǒng)計表來描述數(shù)值資料的統(tǒng)計特征稱數(shù)值資料的統(tǒng)計描述。它是資料統(tǒng)計分析的主要步驟,是進(jìn)一步開展統(tǒng)計推斷的依據(jù)。BASESAS模塊提供了對資料統(tǒng)計描述的多個過程語句,其中MEANS過程和UNIVARIATE過程可滿足數(shù)值變量的全部各類統(tǒng)計指標(biāo)的計算。數(shù)值資料常用統(tǒng)計指標(biāo)1.位置度量(1)均數(shù)(Mean):是描述數(shù)值資料頻數(shù)分布中心的一種度量,它是一組n個觀察值累加和的平均。中位數(shù)(Median):是一組數(shù)據(jù)按其大小有序排列后,居于中間的數(shù)值。眾數(shù)(Mode):是觀察值中出現(xiàn)頻率最高的數(shù)值。幾何
2、均數(shù)(Geometricmean):是n個數(shù)值的乘積開n次方根。分位數(shù)(Quartiles):包括百分位數(shù)、四分位數(shù)和中位數(shù)。第X百分位數(shù)記為Px,表示在一組按大小順序排列的數(shù)據(jù)中,有x%的觀察值小于Px,有(100-x)%的觀察值大于PxP50、P25、P75分別稱為中位數(shù)、下四分位數(shù)、上四分位數(shù)。2.變異性度量(1)全距(Range):為一組觀察值中最大值與最小值之差。四分位間距(Interquartilerange):為上、下四分位數(shù)之差。方差(Variance):是離均差平方和除以自由度的商。標(biāo)準(zhǔn)差(Standardvariance):方差的平方根。變異系數(shù)(Coefficientof
3、variation):是以百分比表示的標(biāo)準(zhǔn)差和均數(shù)的比率。3.分布形狀度量偏度(Skewness):用于度量分布是否對稱。樣本偏度為n(n-1)(n-2)工(x-x)3s3。其中n為樣本含量,x為樣本均數(shù),s為樣本標(biāo)準(zhǔn)差。對稱分布的偏度值為0,正偏態(tài)分布的偏度值大于0,負(fù)偏態(tài)分布的偏度值小于0。峰度(Kortosis):用于度量分布的長尾所占比重。偏離正態(tài)分布較遠(yuǎn)的分布可樣本峰度為竺也工儀-I(n-1)(n-2)(n-3)s4(n-2)(n-3)能具有較大的正的或負(fù)的峰度值。正態(tài)分布的峰度值為0。MEANS過程MEANS過程用來對數(shù)據(jù)集中的數(shù)值變量計算簡單的描述性統(tǒng)計量。該過程對數(shù)據(jù)集中有VA
4、R語句指定的一些數(shù)值變量的全部非缺失的觀測計算簡單的描述統(tǒng)計量。如果使用BY語句,可把數(shù)據(jù)按BY變量分為幾個觀測組,并對每個觀測組計算數(shù)值變量的描述統(tǒng)計量。在BY組內(nèi)還可以用CLASS語句進(jìn)一步分組。另外MEANS過程可以將若干統(tǒng)計量的計算結(jié)果輸出到指定的SAS數(shù)據(jù)集,供進(jìn)一步分析計算時調(diào)用。最后,MEANS過程還可計算總體均數(shù)的可信區(qū)間及He=0的t檢驗。3.2.1MEANS過程的語句說明MEANS過程語句組成*PROCMEANS選擇項(options)VAR變量名表BY變量名表CLASS變量名表FREQ變量名表OUTPUTOUT=SAS數(shù)據(jù)集統(tǒng)計量關(guān)鍵詞=變量名表其中*標(biāo)出的是不可缺少的語
5、句,其他語句為可選語句(下同)。MEANS過程的語句說明(1)PROCMEANS語句格式:PROCMEANSoptions;常用的options(選擇項)有:DATA=SASDATASETS指明目標(biāo)數(shù)據(jù)集名。缺省為最近建立的SAS數(shù)據(jù)集。NOPRINT:說明不打印任何描述性統(tǒng)計量。多用在將這些描述性統(tǒng)計量輸出到SAS數(shù)據(jù)集時。MAXDEC=n:規(guī)定輸出結(jié)果的小數(shù)部分的最大位數(shù)(n取值為08)。缺省n=2。FW=field-width(域?qū)挘航o出用來打印每個統(tǒng)計量的域?qū)?。缺省值?2。VARdef=Dflweight/WGTINIWDF:在方差計算中規(guī)定除數(shù)。Df表示除數(shù)使用自由度(n-1),
6、為缺省值oWeight/WGT表示用權(quán)數(shù)和作為除數(shù)。n表示用觀測個體數(shù)(樣本含量)做除數(shù)。WDF表示用權(quán)數(shù)和減1做除數(shù)。ALPHA=value:設(shè)置計算置信區(qū)間的置信水平aoa值在01間。例如若規(guī)定ALPHA=0.05,則計算均值的95%置信區(qū)間。統(tǒng)計量關(guān)鍵詞:缺省時,該過程將計算n、mean、std、min、max等5個統(tǒng)計量。統(tǒng)計量的選擇項有:n,nmiss,mean,std,min,max,range,sum,var,uss,css,cv,stderr,t,prt,sumwgt,skewness,krutosis,clm,lclm,uclm。(2)VAR語句格式:VAR變量名表;規(guī)定要求
7、計算簡單描述性統(tǒng)計量的數(shù)值變量及次序。若省略該語句,數(shù)據(jù)集中除去BY、CLASS、ID、FREQ和WEIGHT語句中列出的變量外,所有數(shù)值變量依次都被分別計算。(3)BY語句格式:BY變量名表;使用BY語句后,MEANS過程先按BY變量的取值形成多個觀測組,然后按組別分別計算各組對應(yīng)的描述性統(tǒng)計量,并可由每個觀測組產(chǎn)生輸出數(shù)據(jù)集中的一個觀測。注意在使用BY語句前,要求對BY變量已排過序。CLASS語句格式:CLASS變量名表;同BY語句類似,用CLASS變量定義觀測組,分別計算各觀測組的描述性統(tǒng)計量。與BY不同的是CLASS語句不要求CLASS變量事前已排序,而且結(jié)果在輸出時,按CLASS變量
8、的不同取值,以單表的形式輸出。FREQ語句格式:FREQ變量;該語句指定一個數(shù)值型的FREQ變量,它的值表示輸入數(shù)據(jù)集中相應(yīng)觀測出現(xiàn)的頻數(shù),該變量的值應(yīng)為正整數(shù)。若FREQvl或缺失,相應(yīng)的觀測不參加計算統(tǒng)計量;若這個值不是正整數(shù)則取整數(shù)部分。FREQ語句僅當(dāng)輸入數(shù)據(jù)集系頻數(shù)表資料時才使用。WEIGHT語句格式:WEIGHT變量名;該語句規(guī)定一個WEIGHT變量,它的值表示相應(yīng)觀測的權(quán)數(shù),該變量的值應(yīng)大于0,若該值小于0或缺失,則假定該值為0。WEIGHT語句僅當(dāng)計算加權(quán)統(tǒng)計量時才使用。OUTPUT語句格式:OUTPUTOUT=SAS數(shù)據(jù)集統(tǒng)計量關(guān)鍵詞=變量名表;該語句要求MEANS過程將指定
9、的統(tǒng)計量,以指定的名稱輸出到新的SAS數(shù)據(jù)集中。Out=SAS數(shù)據(jù)集命名輸出數(shù)據(jù)集名。可用兩級數(shù)據(jù)集名建立永久SAS數(shù)據(jù)集。統(tǒng)計量關(guān)鍵詞=變量名表規(guī)定在新數(shù)據(jù)集中所包含的統(tǒng)計量,并規(guī)定存放這些統(tǒng)計量的變量名。規(guī)定統(tǒng)計量并命名的形式有:關(guān)鍵詞=變量名1變量名2關(guān)鍵詞(變量1變量2)=名1名23.2.2應(yīng)用實例例31對已建立的三個班級(CLASS),不同性別(SEX)的年齡(AGE)、體重(WEIGHT)和身高(HEIGHT)的SAS數(shù)據(jù)集SASTEXTCHILD.SSD,按不同班級、不同性別計算身高、體重的均數(shù)、標(biāo)準(zhǔn)差及標(biāo)準(zhǔn)誤,存入名為NEW的SAS數(shù)據(jù)集中,并打印該數(shù)據(jù)集的內(nèi)容。程序為:LIB
10、NAMEJISASTEXT;PROCSORTDATA=JI.CHILD;BYCLASS;PROCMEANSDATA=JI.CHILDMAXDEC=3FW=10;VARHEIGHTWEIGHT;BYCLASS;CLASSSEX;OUTPUTOUT=NEWMEAN=HMEANWMEANSTD=HSDWSDSTDERR=HSEWSE;RUN;PROCPRINTDATA=NEW;TITLENEWDATASET;RUN;注意與MEANS過程具有類似功能的有SUMMARY過程。UNIVARIATE過程UNIVARIATE過程除能完成與MEANS過程類似的基本統(tǒng)計量的計算外,還具有如下功能:描述單變量極端值
11、的情況。計算分位數(shù)。如中位數(shù),上四分位數(shù)及下四分位數(shù)等。生成若干個描述變量分布的圖。如莖葉圖、盒式圖、正態(tài)概率圖等。生成頻數(shù)表。對資料進(jìn)行正態(tài)性檢驗。對總體均數(shù)是否為零進(jìn)行假設(shè)檢驗??梢宰鱰檢驗、中位數(shù)檢驗及符號秩和檢驗。3.3.1UNIVARIATE過程的語句說明1.UNIVARIATE過程語句組成*PROCUNIVARIATE選擇項(options)VAR變量名表BY變量名表FREQ變量名表ID變量名表OUTPUTOUT=SAS數(shù)據(jù)集統(tǒng)計量關(guān)鍵詞=變量名表2.UNIVARIATE過程的語句說明PROCUNIVARIATE語句格式:PROCUNIVARIATEoptions;常用的optio
12、ns有:DATA=SAS數(shù)據(jù)集同MEANS過程。NOPRINT同MEANS過程。VARdef=DFIWeightlWGTINIWDF同MEANS過程。FREQ:要求生成包括變量值、頻數(shù)、頻率和累積頻率的頻數(shù)表。NORMAL:要求計算輸入的變量是否服從正態(tài)分布的假設(shè)檢驗的統(tǒng)計量,并打印是比檢驗統(tǒng)計量更極端的概率。PLOT:要求生成一個莖葉圖(或水平直方圖)、盒式圖和正態(tài)概率圖。PCTLDEF=Value:規(guī)定計算百分位數(shù)的方法。取值為1,2,3,4和5。缺省值為5。OUTPUT語句格式:OUTPUTOUT=SAS數(shù)據(jù)集統(tǒng)計量關(guān)鍵詞=變量名表;在一個UNIVARIATE過程中可使用多個OUTPUT
13、語句,每一個OUTPUT語句創(chuàng)建一個輸出數(shù)據(jù)集。這里的統(tǒng)計量關(guān)鍵詞除在MEANS過程中已介紹的21種外,還有:MSIGN:符號統(tǒng)計量PROBM:大于符號統(tǒng)計量的絕對值的概率SIGNRANK:符號秩統(tǒng)計量PROBS:大于符號秩統(tǒng)計量的概率NORMAL:正態(tài)性檢驗統(tǒng)計量PROBN:數(shù)據(jù)來自正態(tài)分布的概率值Q3:上四分位數(shù)或75%分位數(shù)Q1:下四分位數(shù)或75%分位數(shù)QRANGE:四分位數(shù)間距,即Q3-Q1P1:1%分位數(shù)P5:5%分位數(shù)P10:10%分位數(shù)P90:90%分位數(shù)P95:95%分位數(shù)P99:99%分位數(shù)若要計算任意的百分位數(shù),可在OUTPUT中使用下列選擇項。一般用來注明所要計算的是哪個
14、百分位數(shù)。PCTLPTS=百分位數(shù)指明要計算的百分位數(shù)。PCTLNAME=輸出變量名的后綴PCTLPRE=輸出變量名的前綴一般用來注明是計算哪個變量的百分位數(shù)。以上三項需一起結(jié)合使用。例如:PROCUNIVARIATE;VARtestatestbtestc;OUTPUTPCTLPTS=33.366.7PCTLPRE=abcPCTLNAME=p33_3p66_7;RUN;程序執(zhí)行后將對VAR語句中所列的三個變量testa,testb,testc分別計算33.3%和66.7%的百分位數(shù)值。變量名依次為ap33_3,ap66_7(testa的33.3%和66.7%分位數(shù))、bp33_3,bp66_7
15、(testb的33.3%和66.7%分位數(shù))、cp33_3,cp66_7(testa的33.3%和66.7%分位數(shù))。(3)打印輸出的有關(guān)統(tǒng)計量介紹T:Mean=O,及ProbITI檢驗假設(shè)H。:總體均數(shù)為零檢驗方法:Studentt檢驗檢驗統(tǒng)計量:T=(X-O)/(s/、n)Prob=P(tITI)M(sign),及Prob|M|檢驗假設(shè)H。:總體中位數(shù)為零檢驗方法:總體中位數(shù)檢驗檢驗統(tǒng)計量:M=Min(小于0的觀測個數(shù),大于0的觀測個數(shù))一非零的觀測個數(shù)/2Prob=P(m|M|)sgnRank及Prob|S|)檢驗假設(shè)H。:總體中位數(shù)為零檢驗方法:符號秩和檢驗檢驗統(tǒng)計量:S=T+-(n+
16、1)/2n/2Prob=P(s|S|)正態(tài)性檢驗的W檢驗(nW2000)檢驗假設(shè)H。:樣本來自正態(tài)總體,或觀測數(shù)據(jù)服從正態(tài)分布檢驗方法:Shapiro-Wilks的W檢驗檢驗統(tǒng)計量:W=Za.(X(.,-X.)2/!(X.-X)2i(x-i+1)ii其中a.為W檢驗系數(shù),W值介于01之間。當(dāng)W值愈接近于1,提示資料服從正態(tài)分布;反之,W偏離1愈遠(yuǎn),則拒絕原假設(shè),提示資料不服從正態(tài)分布。亦即對此檢驗而言,WvW,則pW,則pa。a,n丄a,nAKolmogorov-Smirnov正態(tài)性檢驗(n2000)檢驗假設(shè)H。:樣本來自正態(tài)總體,或觀測數(shù)據(jù)服從正態(tài)分布檢驗方法:Kolmogorov-Sm.r
17、nov頻數(shù)分布擬合優(yōu)度檢驗檢驗統(tǒng)計量:D=max|fn(X.)-F(X.)|,|fn(X.-1)-F(X.)|n.n.-1.1i|T|0.0001Num=0110Num0110M(Sign)55Pr=|M|0.0001SgnRank3052.5Pr=|S|0.0001W:Normal0.984798PrITI:在H0成立條件下,t統(tǒng)計量大于T絕對值的概率Num0:觀測值0的觀測個數(shù)ProbIMI,:是在H0成立條件下,出現(xiàn)大于M絕對值的概率SgnRank:檢驗總體中位數(shù)為0的假ProbISI:在H成立條件下,出現(xiàn)大于ISI設(shè)檢驗的符號秩和統(tǒng)計量值的概率W:Normal:正態(tài)性檢驗統(tǒng)計量Prob
18、W:正態(tài)性檢驗相應(yīng)的顯著性概率(P值)Quantiles(Def=5)100%Max132.599%130.875%Q3122.895%12850%Med119.990%125.725%Q1116.410%113.10%Min108.25%112.31%110.3TOC o 1-5 h zRange24.3Q3-Q16.4Mode114.3ExtremesLowestObsHighestObs108.2(8)129.1(56)110.3(97)129.3(38)110.8(6)130.5(45)111.5(100)130.8(110)112.2(64)132.5(108)以上為單變量分析。其中
19、包括正態(tài)性檢驗的W檢驗,檢驗結(jié)果為Pr(w)=0.7608,說明該資料服從正態(tài)分布。UnivariateProcedureVariable=XStemLeaf#Boxplot132510131130582|129132|12801|12711|1261263|1250122686|12411444|123012585|12209+-+121025585|1200007778816|1190810*-+-*118012344598|11701224797|116023334888+-+115411148|113002241122344751115111038210910821+莖葉圖(StemLeaf):顯示資料頻數(shù)分布的特征。圖中數(shù)據(jù)值分為莖和葉,以數(shù)據(jù)的整數(shù)部分表示莖,葉為相應(yīng)的小數(shù)部分,實際數(shù)據(jù)是莖葉乘以尺度比例。盒狀圖(Boxplot):由上四分位數(shù)和下四分位數(shù)劃出盒(Box)的頂線和底線,中間的橫線表示中位數(shù)的位置。盒狀圖中的豎線稱觸須,表示數(shù)據(jù)散布的范圍,它是1.5倍的四分位數(shù)間距。超過該范圍的數(shù)據(jù)用“0”表示;若超過了3倍以上四分位數(shù)間距的數(shù)據(jù),則用#號標(biāo)記。UnivariateProcedureVariable=XNormalProbabilityPlot*+*+132.5+|*+|*+|*+|*|
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度報紙發(fā)行與廣告合作合同3篇
- 二零二五年度上海市松江區(qū)廠房買賣合同
- 2025班主任師徒結(jié)對教師職業(yè)發(fā)展規(guī)劃合作協(xié)議3篇
- 二零二五年度化學(xué)品運輸倉儲管理合同3篇
- 2025年滬科版八年級科學(xué)下冊階段測試試卷
- 二零二五年度城市綠地草坪承包與生態(tài)修復(fù)合同3篇
- 2025年滬教版高三數(shù)學(xué)上冊月考試卷
- 2025年冀少新版九年級科學(xué)下冊階段測試試卷
- 2025年魯人新版七年級科學(xué)上冊階段測試試卷含答案
- 2025年滬教新版九年級物理下冊月考試卷
- 物業(yè)項目經(jīng)理崗位競聘
- 第8課《蒲柳人家(節(jié)選)》教學(xué)設(shè)計-2023-2024學(xué)年統(tǒng)編版語文九年級下冊
- 幼兒沙池活動指導(dǎo)方法
- 2024年冬季校園清雪合同
- 翻譯美學(xué)理論
- 15J403-1-樓梯欄桿欄板(一)
- 中國傳統(tǒng)樂器蕭介紹
- 2024屆華中師范大學(xué)新高三第一次聯(lián)考試題
- 小學(xué)食堂食品添加劑管理制度
- 第3章《物態(tài)變化》大單元教學(xué)設(shè)計- 2023-2024學(xué)年人教版八年級物理上冊
- 領(lǐng)導(dǎo)對述職報告的點評詞
評論
0/150
提交評論