統(tǒng)計(jì)軟件基礎(chǔ)_第1頁
統(tǒng)計(jì)軟件基礎(chǔ)_第2頁
統(tǒng)計(jì)軟件基礎(chǔ)_第3頁
統(tǒng)計(jì)軟件基礎(chǔ)_第4頁
統(tǒng)計(jì)軟件基礎(chǔ)_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

統(tǒng)計(jì)軟件基礎(chǔ)常用得位置統(tǒng)計(jì)量“位置”一般就是關(guān)于數(shù)據(jù)中某變量觀測值得“中心位置”或者數(shù)據(jù)分布得中心(center或centertendency)。和這種“位置”有關(guān)得統(tǒng)計(jì)量就稱為位置統(tǒng)計(jì)量(locationstatistic)。位置統(tǒng)計(jì)量不一定都就是描述“中心”了,比如百分位數(shù)。常用得位置統(tǒng)計(jì)量有:樣本均值(mean);樣本中位數(shù)(median),她就是數(shù)據(jù)按照大小排列之后位于中間得那個(gè)數(shù)(如果樣本量為奇數(shù)),或者中間兩個(gè)數(shù)目得平均(如果樣本量為偶數(shù)),由于中位數(shù)不易被極端值影響,所以中位數(shù)比均值穩(wěn)健(robust);上下四分位數(shù)(或分別稱為第一四分位數(shù)和第三四分位數(shù),firstquantile,thirdquantile)則分別位于(按大小排列得)數(shù)據(jù)得上下四分之一得地方;樣本中出現(xiàn)最多得數(shù)值,稱為眾數(shù)(mode)。2數(shù)值得分散程度數(shù)據(jù)中數(shù)值得分散程度由尺度統(tǒng)計(jì)量(scalestatistic)來描述。尺度統(tǒng)計(jì)量就是描述數(shù)據(jù)散布,即描述集中與分散程度或變化(spread或variability)得度量。統(tǒng)計(jì)中有許多尺度統(tǒng)計(jì)量。一般來說,數(shù)據(jù)越分散,尺度統(tǒng)計(jì)量得值越大。極差(range);就就是極大值和極小值之間得差。兩個(gè)四分位數(shù)之差,稱為四分位數(shù)極差或四分位間距(interquantilerange);她描述了中間半數(shù)觀測值得散布情況。另一個(gè)常用得尺度統(tǒng)計(jì)量為樣本標(biāo)準(zhǔn)差(standarddeviation)。度量樣本中各數(shù)值到均值距離得一種平均。標(biāo)準(zhǔn)差實(shí)際上就是方差(variance)得平方根。如果記樣本中得觀測值為x1,…,xn,則樣本方差為

3分布形狀反映分布形狀,通常用偏度和峰度統(tǒng)計(jì)量。偏度就是用于衡量分布得不對稱程度或偏斜程度得指標(biāo)當(dāng)

>0時(shí)為正偏或右偏,長尾巴拖在右邊;當(dāng)

<0時(shí)為負(fù)偏或左偏,長尾巴拖在左邊;偏度公式:4若知道分布有可能在偏度上偏離正態(tài)分布時(shí),可用偏離來檢驗(yàn)分布得正態(tài)性。右偏時(shí)一般算術(shù)平均數(shù)>中位數(shù)>眾數(shù),左偏時(shí)相反,即眾數(shù)>中位數(shù)>平均數(shù)。正態(tài)分布三者相等。峰度就是用于衡量分布得集中程度或分布曲線得尖峭程度得指標(biāo)。峰度指標(biāo)

得計(jì)算公式如下:

峰度指標(biāo)

>0時(shí),表示分布比正態(tài)分布更集中在平均數(shù)周圍,分布呈尖峰狀態(tài);0分布為正態(tài)分布;

<0時(shí),表示分布比正態(tài)分布更分散,分布呈低峰態(tài)。PP圖、QQ圖許多統(tǒng)計(jì)方法要求變量服從正態(tài)分布,為此SAS提供了多種檢驗(yàn)方法,主要有PP圖、QQ圖和一些非參數(shù)檢驗(yàn)法。P-P圖,以樣本得累計(jì)頻率作為橫坐標(biāo),以按正態(tài)分布計(jì)算得相應(yīng)累計(jì)概率作為縱坐標(biāo),把樣本值表現(xiàn)為坐標(biāo)系中得散點(diǎn)。Q-Q圖,以樣本得分位數(shù)作為橫坐標(biāo),以按照正態(tài)分布計(jì)算得相應(yīng)分位點(diǎn)作為縱坐標(biāo),把樣本表現(xiàn)為坐標(biāo)系得散點(diǎn)。如果數(shù)據(jù)服從正態(tài)分布,則PP、QQ圖中得散點(diǎn)應(yīng)該基本呈一條直線狀。SAS得univariate過程中用qqplot語句、probplot語句分別可畫QQ圖和PP圖;還可以檢驗(yàn)對數(shù)正態(tài)分布(lognormal選項(xiàng)),beta分布(beta選項(xiàng)),Weibull分布(weibull選項(xiàng))。5非參數(shù)檢驗(yàn)法非參數(shù)檢驗(yàn)法主要有Kolmogorov-Smirnov檢驗(yàn)(D檢驗(yàn))和Shapiro-Wilk(W檢驗(yàn))等。檢驗(yàn)得原假設(shè)都就是“總體服從正態(tài)分布”。SAS中規(guī)定:當(dāng)樣本含量n≤2000時(shí),結(jié)果以Shapiro–Wilk(W檢驗(yàn))為準(zhǔn),當(dāng)樣本含量n>2000時(shí),結(jié)果以Kolmogorov–Smirnov(D檢驗(yàn))為準(zhǔn)。對于K-S檢驗(yàn),SAS還可由UNIVARIATE過程得HISTOGRAM語句帶上表示分布得關(guān)鍵詞選項(xiàng)來實(shí)現(xiàn)對相應(yīng)分布得檢驗(yàn)。HISTOGRAM語句與分布對應(yīng)得關(guān)鍵字選項(xiàng)有:

beta:

分布,具有,參數(shù)和

,

形狀參數(shù);exponential:指數(shù)分布,具有,兩個(gè)參數(shù);gamma:

分布,具有,,

參數(shù);lognormal:對數(shù)正態(tài)分布,具有,,

參數(shù);normal:正態(tài)分布,具有

,

參數(shù);weibulll:韋伯分布,具有,,

c參數(shù)。6描述統(tǒng)計(jì)得實(shí)現(xiàn)方法描述性統(tǒng)計(jì)就就是主要分析變量集中、離散趨勢以及探索變量得分布。SAS中有多種方法過程可以實(shí)現(xiàn)描述統(tǒng)計(jì),這里簡要介紹兩種。UNIVARIATE等過程來計(jì)算描述性統(tǒng)計(jì)量。UNIVARIATE過程得一般形式:PROCUNIVARIATE[選擇項(xiàng)]; VAR變量表;BY變量表: FREQ變量; WEIGHT變量; ID變量表; OUTPUT[選擇項(xiàng)];RUN;7Univariate過程語法說明[選擇項(xiàng)]:為可選項(xiàng),常用選項(xiàng)如下。1)data=:指定SAS數(shù)據(jù)集,如果省略這一項(xiàng),則指定最新建立得數(shù)據(jù)集。2)noprint:不打印輸出到輸出窗口。3)Vardef=df|wgt|n|wdf:方差計(jì)算中規(guī)定除數(shù),df表示除數(shù)使用自由度(n-1),為默認(rèn)值。weight}wgt表示用權(quán)數(shù)和作為除數(shù)。n表示觀測個(gè)體數(shù)(樣本含量)做除數(shù)。wdf表示用權(quán)數(shù)和減1做除數(shù)。4)Freq:要求生產(chǎn)包含變量值、頻數(shù)、百分?jǐn)?shù)和累計(jì)頻數(shù)得頻數(shù)表。5)Normal:要求計(jì)算關(guān)于輸入數(shù)據(jù)服從正態(tài)分布得假設(shè)得檢驗(yàn)統(tǒng)計(jì)量。6)plot:生成直方圖或莖葉圖,一個(gè)盒形圖和一個(gè)正態(tài)概率圖。7)Pctldef=值:規(guī)定計(jì)算百分位數(shù)方法,取值為1,2,3,4和5、8)Round=:指定變量數(shù)值四舍五入得單位。8示例某地區(qū)家庭中隨機(jī)抽查了100戶居民,調(diào)查到每戶家庭人均收入數(shù)據(jù)(單位:百元),試用UNIVARIATE等過程對上述數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì)。程序如下dataine;inputx;cards;27139628739946626929533042532422811322617632023040448712774234523164336343330436141388293464200392265403259426262221355324374347261287113135291176342443239302483231292373346293236223371287400314468337308359352273267277184286214351270330238248419330319440427314414299265318415372238323412493286313412run;procunivariatedata=ineplotnormal;varx;run;輸出結(jié)果分類整理為“矩”、“位置和變異性基本測度”、“位置檢驗(yàn)”、“正態(tài)性檢驗(yàn)”、“分位數(shù)”、“極值觀測”、“圖”七部分內(nèi)容。9對示例做KS檢驗(yàn)procunivariatedata=inenoprint;/*調(diào)用UNIVARIATE過程*/varx;/*指定分析得變量*/histogram/noplot/*HISTOGRAM語句,不顯示直方圖*/normal(mu=estsigma=est)/*檢驗(yàn)正態(tài)分布,參數(shù)使用估計(jì)值*/lognormal(zeta=estsigma=esttheta=est)/*檢驗(yàn)對數(shù)正態(tài)*/exponential(sigma=esttheta=est)/*檢驗(yàn)指數(shù)分布*/weibull(sigma=estc=esttheta=est);/*檢驗(yàn)韋伯分布*/run;10過程FREQ變量可分為數(shù)值型變量(連續(xù)型變量)和分類變量(離散型變量);而分類變量又分為名義變量(如性別分為:男、女,種族分為白、黃、黑)和有序變量(年級分為一、二、三、四,成績等級分為優(yōu)、良、中、差)。對分類變量計(jì)算均值一般就是無意義得(0-1變量得均值可看作占比),即便用數(shù)值表示類別也只就是某些特征得代號,沒有數(shù)值計(jì)算得意義。對這些變量,重要得就是了解她們?nèi)∧男┲狄约叭∶總€(gè)值得頻數(shù)。過程FREQ就提供了這些方面得功能。FREQ過程產(chǎn)生一維至n維得頻數(shù)表和列聯(lián)表,對二維表計(jì)算統(tǒng)計(jì)量并進(jìn)行檢驗(yàn),對n維表則作分層分析并在層內(nèi)計(jì)算統(tǒng)計(jì)量。通過FREQ過程可以幫助分析變量值在數(shù)據(jù)中如何分布。FREQ過程還可用擬合優(yōu)度檢驗(yàn)方法討論單個(gè)離散變量得分布,檢驗(yàn)兩個(gè)離散變量得獨(dú)立性殘聯(lián)表檢驗(yàn),有序變量得關(guān)聯(lián)性度量。11Freq常用語法語法FREQ過程常用語法語法格式

PROCFREQ[選擇項(xiàng)]; TABLES變量表式[/選擇項(xiàng)]; WEIGHT權(quán)重變量;

OUTPUT[選擇項(xiàng)];BY變量表; RUN:其中得TABLES語句就是實(shí)現(xiàn)上述任務(wù)得關(guān)鍵。TABLES語句變量表式空格分隔得單獨(dú)變量名或“*”連接得幾個(gè)變量名組成,如:TABLESA*BA*C;

(等價(jià)于TABLESA*(BC);)。WEIGHT語句通過權(quán)重變量來確定匯總得統(tǒng)計(jì)項(xiàng)目所對應(yīng)得原始記錄數(shù)。12大家學(xué)習(xí)辛苦了,還是要堅(jiān)持繼續(xù)保持安靜FREQ語法簡要說明1)FREQ語句得[選擇項(xiàng)]:為可選項(xiàng),常用選項(xiàng)如下。Data=:指定SAS數(shù)據(jù)集。用來說明要做FREQ得數(shù)據(jù)集名,如果省略這一項(xiàng),則指定最新建立得數(shù)據(jù)集。ORDER=FREQ|DATA|INTERNAL|FORMATTED:此選項(xiàng)規(guī)定變量水平得記錄排列次序。ORDER=FREQ表示按頻數(shù)下降得次序排列,最大得頻數(shù)得水平第一個(gè)出現(xiàn);ORDER=DATA表示按輸入數(shù)據(jù)集中出現(xiàn)得次序排列;ORDER=INTERNAL表示按非格式化值得次序排列;ORDER=FORMATTED表示按格式化值得次序,默認(rèn)時(shí)為RDER=INTERNAL、2)BY:指定分組變量。3)TABLES:指定需條件頻數(shù)得變量表;可選得[/選擇項(xiàng)]提供一些專門得統(tǒng)計(jì)項(xiàng)目。4)WEIGHT:指定權(quán)重變量。5)OUTPUT:指定輸出結(jié)果到數(shù)據(jù)集。14TABLES語句得常用選項(xiàng)TABLES語句得選項(xiàng)放在“/”得后面,主要有:CHISQ選項(xiàng):對每組變量作卡方檢驗(yàn),包括Pearson卡方、似然比卡方和Mantel-Haenszel卡方,還有與檢驗(yàn)有關(guān)得關(guān)聯(lián)指標(biāo)包括Phi系數(shù)、列聯(lián)系數(shù)和Cramer'sV;對于2×2表,給出Fisher精確概率;

(注意:一般對單元格內(nèi)最小頻數(shù)T和樣本總量n,當(dāng)T>5且n>40選Person卡方檢驗(yàn),當(dāng)1<T<5且n>40選連續(xù)校正卡方檢驗(yàn),當(dāng)n<40或T<5(有得教材上稱樣本量小于30)時(shí)選Fisher精確檢驗(yàn);似然比卡方在大樣本下與Person卡方近似。)AGREE選項(xiàng):進(jìn)行配對卡方檢驗(yàn)。ALPHA=p選項(xiàng):給出顯著水平。EXACT選項(xiàng),對大于2×2得列聯(lián)表計(jì)算Fisher精確概率,同時(shí)也給出CHISQ選項(xiàng)得全部統(tǒng)計(jì)量。MEASURES選項(xiàng),對每層得二維表計(jì)算一系列關(guān)聯(lián)指標(biāo)及相應(yīng)得標(biāo)準(zhǔn)誤,包括Pearson和Spearman相關(guān)系數(shù),以及Gamma和Kendall系數(shù)等,對于2×2表,還給出常用得危險(xiǎn)度指標(biāo)及其標(biāo)準(zhǔn)誤;CMH選項(xiàng),給出Cochran-Mantel-Haenszel統(tǒng)計(jì)量,可檢驗(yàn)在調(diào)整了TABLES語句中其她變量后,行變量與列變量之間得關(guān)聯(lián)程度;對于2×2表,還給出相對危險(xiǎn)度估計(jì)及其可信區(qū)間,還給出各層關(guān)聯(lián)度指標(biāo)就是否齊性得Breslow檢驗(yàn);ALL選項(xiàng):給出CHISQ、MEASURES、CMH所需得統(tǒng)計(jì)量、15單變量頻數(shù)統(tǒng)計(jì)與兩變量交叉頻數(shù)統(tǒng)計(jì)示例對sashelp、class數(shù)據(jù)集中得sex、age變量作頻數(shù)統(tǒng)計(jì)。程序procfreqdata=sashelp、class;tablessexagesex*age;run;可以看到輸出了sex、age變量各自得頻數(shù)表和交叉列聯(lián)得頻數(shù)表。16單個(gè)離散變量得擬合優(yōu)度卡方檢驗(yàn)檢驗(yàn)離散變量得取值規(guī)律就是否符合某種給定得比例。Pearson提出得卡方檢驗(yàn)得零假設(shè)為:17統(tǒng)計(jì)量為:其中:ni為事件Ai得觀測頻數(shù),pi為事件Ai得頻率。SAS得Freq過程中tables語句后跟/chisq選項(xiàng),并用選項(xiàng)testp=(變量各離散取值得概率),可完成離散變量與指定概率分布之間得擬合優(yōu)度卡方檢驗(yàn)。示例某工廠近5年來發(fā)生了63次事故,按事故發(fā)生得星期號分類如表,問事故得發(fā)生就是否與星期幾有關(guān)?18星期一二三四五六次數(shù)9101181312思路分析:采用擬合優(yōu)度卡方檢驗(yàn)六種情況發(fā)生得概率就是否相等,H0:Pr(X=i)=1/6(i=1,2,…6)。程序?yàn)?dataaccident;inputnonum;cards;1921031148513612run;proc

freqdata=accident;tablesno/chisqtestp=(0、1667

0、1667

0、1667

0、1667

0、1667

0、1667);weightnum;run;示例得SAS輸出結(jié)果分析因?yàn)榱慵僭O(shè)H0為:Pr(X=i)=1/6(i=1,2,…6),由輸出擬合優(yōu)度卡方檢驗(yàn)得統(tǒng)計(jì)量χ2=1、667,p=0、8991,對于給定得顯著性水平α=0、05,p>α,所以接受H0,說明事故發(fā)生與星期幾沒有關(guān)系。注:檢驗(yàn)得就是等概率情形時(shí),選項(xiàng)testp=()可以省略。19兩個(gè)離散變量得列聯(lián)表獨(dú)立性檢驗(yàn)檢驗(yàn)兩個(gè)離散變量得取值就是否獨(dú)立----列聯(lián)表卡方檢驗(yàn)。檢驗(yàn)得零假設(shè)為H0:離散變量X與變量Y相互獨(dú)立。檢驗(yàn)統(tǒng)計(jì)量:20另外屬性變量因?yàn)闆]有數(shù)值概念所以不能計(jì)算相關(guān)系數(shù),但對于兩個(gè)有序變量,SAS可以在FREQ語句后用measures選項(xiàng)計(jì)算類似于相關(guān)系數(shù)得關(guān)聯(lián)性量度。其中一種關(guān)聯(lián)性量度叫做KendalTau-b統(tǒng)計(jì)量,取值在-1到1之間,值接近于1表示正關(guān)聯(lián),接近于-1表示負(fù)關(guān)聯(lián),接近于0表示沒有相關(guān)關(guān)系;并且該統(tǒng)計(jì)量值加減兩倍漸近標(biāo)準(zhǔn)誤差A(yù)SE約可作為KendallTau-b得95%置信區(qū)間。無序分類變量相關(guān)性度量:系數(shù)(在2x2表格中值為-1~1,但行或列數(shù)>2時(shí),無界);列聯(lián)系數(shù)c(|c|<1,但最大值隨行、列數(shù)變大而變大只適合結(jié)構(gòu)相同得表格間比較);V系數(shù)(范圍-1~1);c和V適合度量>2x2表格)關(guān)聯(lián)度。proc

freqdata=數(shù)據(jù)集;tablesrow*column/chisqmeasures;weightnum;run;

注意:若某單元格內(nèi)頻數(shù)5或總數(shù)30,應(yīng)使用Fisher精確檢驗(yàn)。列聯(lián)表卡方檢驗(yàn)示例為了探討吸煙與慢性支氣管炎有無關(guān)系,調(diào)查了339人,情況表。21患慢性支氣管炎未患慢性支氣管炎吸煙43162不吸煙13121程序?yàn)?databron;inputsmoke$bron$num;labelsmoke='吸煙'bron='慢支病'num='頻數(shù)';cards;吸煙患病43吸煙不患病162不吸煙患病13不吸煙不患病121run;proc

freqdata=bron;tablessmoke*bron/chisqexactmeasures;weightnum;run;結(jié)果分析零假設(shè)H0:吸煙與慢性支氣管炎相互獨(dú)立由輸出結(jié)果中peraons卡方獨(dú)立性檢驗(yàn)統(tǒng)計(jì)量為χ2=7、4688,p=0、0063,對于給定得顯著性水平α=0、05,p<α,故拒絕H0,即認(rèn)為吸煙與患慢性支氣管炎間不就是相互獨(dú)立得。22相對危險(xiǎn)度RR與比值比OR判斷結(jié)局(疾病)和暴露(因素)聯(lián)系強(qiáng)弱得指標(biāo)

1)相對危險(xiǎn)度:RR=P(Y=1|X=1)/P(Y=1|X=0)=p1/p0 p1:暴露于某個(gè)危險(xiǎn)因素下發(fā)病得概率

p0:不暴露于某個(gè)危險(xiǎn)因素下發(fā)病得概率(對照)

2)比值比:

OR={P(Y=1|X=1)/P(Y=0|X=1)}/{P(Y=1|X=0)/P(Y=0|X=0)}Y=1:患某種疾病,Y=0:不患某種疾病

X=1:暴露于某個(gè)危險(xiǎn)因素,X=0:不暴露于某個(gè)危險(xiǎn)因素 可以簡單地表述成:OR=(p1/q1)/(p0/q0) p1:暴露于某個(gè)危險(xiǎn)因素下發(fā)病得概率

q1:暴露于某個(gè)危險(xiǎn)因素下不發(fā)病得概率

p0:不暴露于某個(gè)危險(xiǎn)因素下發(fā)病得概率

q0:不暴露于某個(gè)危險(xiǎn)因素下不發(fā)病得概率注意,SAS僅對2x2表格進(jìn)行RR估計(jì)23示例為了判斷患心臟病就是否與吸煙有關(guān)調(diào)查了862個(gè)人調(diào)查結(jié)果如表24dataheart;doa=1to2;dob=1to2;inputf;output;end;end;cards;243185156278run;procfreq;weightf;tablesa*b/chisqRELRISK;run;/*a=1為患心臟病,a=2為未患心臟病*//*b=1為吸煙,b=2為不吸煙*/示例數(shù)據(jù)集Graduate、sas7bdat中有研究生對自身所選專業(yè)得興趣等因素得數(shù)據(jù),試用列聯(lián)表分析這些因素就是否有關(guān)聯(lián)。25procfreqdata=lib、graduate;tablesinterest*major/chisqmeasures;exactFISHER/MC;/*FISHER檢驗(yàn)要求較多內(nèi)存、時(shí)間,用MontCaro模擬估計(jì)*/run;注意:這里分析興趣與專業(yè)關(guān)系時(shí)用得就是未經(jīng)匯總得原始記錄表,故無需weight語句;另外非2x2表要做精確檢驗(yàn),必須明確用Fisher選項(xiàng)或exact語句告知SAS。本例輸出結(jié)果中報(bào)告有不少單元格內(nèi)頻數(shù)少于5,卡方檢驗(yàn)不準(zhǔn)確,要看Fisher精確檢驗(yàn):發(fā)現(xiàn)檢驗(yàn)概率非常小,故認(rèn)為兩變量有關(guān)。Kendall'sTau-b=

0、6826。相關(guān)分析相關(guān)關(guān)系就是指在一定范圍內(nèi),一個(gè)變量任一取值xi,雖然沒有另一變量得某個(gè)確定值yi與之對應(yīng),但卻有一個(gè)特定得yi得條件概率分布與之對應(yīng),此時(shí)稱兩變量有相關(guān)關(guān)系。相關(guān)模型中,無自變量與依變量得區(qū)別,不具有預(yù)測特性,僅表示兩變量偕同變異。簡單相關(guān)分析就就是計(jì)算出兩變量得相關(guān)系數(shù)以及對相關(guān)程度做顯著性檢驗(yàn)(原假設(shè)H0為:相關(guān)系數(shù)為

=0)。常見相關(guān)系數(shù)有Pearson、Spearman和Kendall_τ等。Pearson相關(guān)系數(shù)通常就是分析連續(xù)型變量且兩變量都服從正態(tài)分布;Kendallτ相關(guān)系數(shù)適用于兩個(gè)均為有序分類變量情況;Spearman秩相關(guān)系數(shù)適用與不滿足正態(tài)得連續(xù)變量或等級數(shù)據(jù)。相關(guān)系數(shù)在0~0、3、0、3~0、5、0、5~0、8和0、8~1內(nèi)變動時(shí),依次分別稱為:輕微相關(guān)、低度相關(guān)、中度相關(guān)和高度相關(guān)。SAS系統(tǒng)得CORR過程能計(jì)算變量間得相關(guān)系數(shù),包括Pearson,Spearman,Hoeffding,Kendall等相關(guān)系數(shù)及其她統(tǒng)計(jì)量。26不同類型變量得相關(guān)分析一、兩個(gè)連續(xù)變量得相關(guān)分析1、Pearson相關(guān)系數(shù)(積差相關(guān)系數(shù))適用條件如下:(1)兩變量呈直線相關(guān)關(guān)系,如果就是曲線相關(guān)可能不準(zhǔn)確。(2)極端值會對結(jié)果造成較大得影響(3)兩變量符合雙變量聯(lián)合正態(tài)分布。2、Spearman秩相關(guān)系數(shù)對原始變量得分布不做要求,適用范圍較Pearson相關(guān)系數(shù)廣,即使就是等級資料也可適用。但其屬于非參數(shù)方法,檢驗(yàn)效能較Pearson系數(shù)低。二、有序分類變量得相關(guān)分析有序分類變量得相關(guān)性又稱為一致性,即行變量等級高得列變量等級也高,如果行變量等級高而列變量等級低,則稱為不一致。常用得統(tǒng)計(jì)量有:Gamma、Kendall得tau-b、Kendall得tau-c等。三、無序分類變量得相關(guān)分析最常用得為卡方檢驗(yàn),用于評價(jià)兩個(gè)無序分類變量得相關(guān)性。根據(jù)卡方值衍生出來得指標(biāo)還有列聯(lián)系數(shù)、Phi、Cramer得V、Lambda系數(shù)、不確定系數(shù)等。27單相關(guān)、復(fù)相關(guān)和偏相關(guān)單相關(guān):兩個(gè)因素之間得相關(guān)關(guān)系叫單相關(guān),即研究時(shí)只涉及一個(gè)自變量和一個(gè)因變量。復(fù)相關(guān):三個(gè)或三個(gè)以上因素得相關(guān)關(guān)系叫復(fù)相關(guān),即研究時(shí)涉及兩個(gè)或兩個(gè)以上得自變量和因變量。在某一現(xiàn)象與多種現(xiàn)象相關(guān)得場合,當(dāng)假定其她變量不變時(shí),其中兩個(gè)變量之間得相關(guān)關(guān)系稱為偏相關(guān)。在一個(gè)多元相互作用得系統(tǒng)內(nèi),要考察兩個(gè)變量之間得相關(guān)程度,就應(yīng)該排除系統(tǒng)內(nèi)其她變量得影響,計(jì)算出偏相關(guān)系數(shù)。SAS得CORR過程同樣可以通過PARTIAL語句來控制其她變量得干擾,對兩變量間得偏相關(guān)系數(shù)進(jìn)行計(jì)算。28CORR過程一般格式: PROCCORRDATA=數(shù)據(jù)集名稱[選項(xiàng)]; VAR變量表;/*列出相關(guān)矩陣上部出現(xiàn)得變量*/ [WITH變量表;]/*列出相關(guān)矩陣左側(cè)出現(xiàn)得變量*/ [PARTIAL變量表;]/*指明求偏相關(guān)系數(shù)時(shí)需控制得變量*/ [WEIGHT變量;] [FREQ變量;] [BY變量;] RUN;29相關(guān)分析示例某學(xué)校隨機(jī)抽取18名學(xué)生,測定其智商(IQ),連同當(dāng)年數(shù)學(xué)和語文成績,數(shù)據(jù)見下表。試考察她們得相關(guān)性。30數(shù)據(jù)輸入:dataiq;inputnomathchineseIQ;cards;178839528476100361701004525875593821056897897798891108989512096561761073759211485361124543601367708814757896159597125168892113179992125188188102run;對示例數(shù)據(jù)畫散點(diǎn)圖計(jì)算相關(guān)矩陣symbol1v=dotcv=redh=1;symbol2v=starcv=greenh=2;procgplotdata=iq;plotchinese*IQ=1math*IQ=2/overlay;run;quit;可以看到散點(diǎn)分步就是否呈直線狀。proccorrpearsonkendallspearman;varmathchineseIQ;run;結(jié)果:三個(gè)變量得三種相關(guān)系數(shù)得矩陣都算出來了,還做了顯著性檢驗(yàn)(H0:=0)。31偏相關(guān)分析:排除IQ影響,考察math和chinese相關(guān)性其她因素影響下得math和chinese相關(guān)系數(shù):proccorrnosimple;varchinese;withmath;run;去除IQ變量得影響,計(jì)算math和chinese得偏相關(guān)系數(shù):proccorrnosimple;varmathchinese;partialIQ;run;結(jié)果看到偏相關(guān)系數(shù)小得多,math和chinese分值關(guān)系沒有原先那么密切。32等級相關(guān)分析示例簡單相關(guān)分析和偏相關(guān)分析通常被廣泛應(yīng)用于定量數(shù)據(jù)或連續(xù)型數(shù)據(jù)得研究中。對于某些定性數(shù)據(jù),尤其就是順序數(shù)據(jù)可以借助了非參數(shù)統(tǒng)計(jì)分析得思想,計(jì)算等級相關(guān)系數(shù)或秩相關(guān)系數(shù)。例:為評價(jià)目前我國高等院校研究生得教學(xué)和培養(yǎng)效果,研究生導(dǎo)師及研究生本人進(jìn)行了研究生培養(yǎng)狀況調(diào)查(數(shù)據(jù)詳見Graduate、sas7bdat數(shù)據(jù)集),考察研究生對自身所選專業(yè)得興趣與其她因素之間得相關(guān)關(guān)系。具體變量情況如表6-2所示。33SAS程序與結(jié)果proccorrdata=lib、GraduateSpearmanKendallHoeffding;/*調(diào)用相關(guān)分析過程,其中關(guān)鍵字Spearman,Kendall,Hoeffdmg分別表示計(jì)算斯皮爾曼、肯德爾、霍夫丁相關(guān)系數(shù)*/varInterestMajorTeachingTutor;run;從斯皮爾曼和肯德爾兩個(gè)相關(guān)系數(shù)得大小和方向來看,本例所分析得專業(yè)興趣與其她變量得相關(guān)關(guān)系狀況基本一致。34Insight得數(shù)據(jù)探索功能Insight就是一個(gè)很強(qiáng)大得數(shù)據(jù)探索分析工具,她能聯(lián)動得分析和圖形化顯示多個(gè)變量各自數(shù)字特征與相互之間得變化聯(lián)系。Insight有非常強(qiáng)得圖形功能,可以繪制如直方圖或條形圖、盒形圖或散布圖、連線圖、等高線圖、旋轉(zhuǎn)圖等。進(jìn)一步Insight地還有分布擬合和檢驗(yàn)(Distribution)、線性模型得擬合(Fit)和多變量分析(multivariate)、35均值檢驗(yàn)與比較單樣本均值得T檢驗(yàn)得原理背景設(shè)總體X~N(μ,σ2),μ、σ2未知,給定檢驗(yàn)水平α,對常數(shù)μ0要檢驗(yàn)36設(shè)X1,X2,…Xn為X得簡單隨機(jī)樣本,在H0成立時(shí)有其中S為標(biāo)準(zhǔn)差,n為樣本量。檢驗(yàn)得拒絕域?yàn)?P值檢驗(yàn)法:tα/2(n-1)α/2t0p/2分位數(shù)tα/2(n-1)滿足P{|t|>tα/2(n-1)}=α設(shè)由已經(jīng)得到得樣本計(jì)算得到得t值為t0,若|t0|>tα/2(n-1),則拒絕H0,否則接受H0。對大量重復(fù)試驗(yàn)而言,t就是隨機(jī)變量,且服從t分布t(n-1)。當(dāng)|t0|<tα/2(n-1)時(shí),有 P{|t|>t0}>Pr{|t|>tα/2(n-1)}=α。令p=Pr{|t|>t0},則|t0|<tα/2(n-1)等價(jià)于p>α。所以,P值檢驗(yàn)法為:對給定得顯著水平α,當(dāng)p<α?xí)r,拒絕H0,當(dāng)p>α?xí)r,接受H0。univariate過程檢驗(yàn)均值估計(jì)置信區(qū)間在SAS中可用univariate過程檢驗(yàn)均值,默認(rèn)做均值為零(μ0=0)得t檢驗(yàn),若要檢驗(yàn)μ=μ0,則用過程選項(xiàng)“mu0=數(shù)值”。另外,如要估計(jì)均值得置信區(qū)間,可再加上過程選項(xiàng)“cibasic(alpha=p值)”示例Procunivariatedata=sashelp、classmu0=60cibasic(alpha=0、01);Varweight;Run;單變量方差得檢驗(yàn)在SAS中沒有直接得過程給予計(jì)算,可自己編程實(shí)現(xiàn)。在SAS9、3之前INSIGHT和Analyst模塊中都可以方便實(shí)現(xiàn)計(jì)算,但SAS9、4后都不支持了。37單變量方差檢驗(yàn)示例(檢驗(yàn)DX=10;DX<=10)procmeansdata=tmp;varx;outputout=ht1vn=_nobs_mean=_mean_std=_std_var=_var_;run;datavstat;setht1v;df=_nobs_-1;chisq=df*_var_/10;/*此10為檢驗(yàn)值*/prob=probchi(chisq,df);prob=2*min(1-prob,prob);*two-tailedprobability*;;put//5"SampleStatisticsforx"http://11'N'18'Mean'28'Std、Dev、'43'Variance'/

8_nobs_4、16_mean_best6、30_std_best6、44_var_//;put5'HypothesisTest'//8'Nullhypothesis:'32"Varianceofx=10"/8'Alternative:'32"Varianceofx^=10"/;put15'Chi-square'32'Df'42'Prob'/15chisq8、328df6、40probpvalue7、4;run;38datatmp;inputx;cards;3422163432293547536run;prob=1-probchi(chisq,df);/*右側(cè)檢驗(yàn)*/兩獨(dú)立樣本均值檢驗(yàn)(TTest過程)假設(shè)兩組樣本來自兩個(gè)獨(dú)立總體,需要檢驗(yàn)兩個(gè)總體得均值或中心位置就是否一樣。如果兩個(gè)總體都服從正態(tài)分布,則可使用兩獨(dú)立樣本均值得T檢驗(yàn)。方差齊性檢驗(yàn)得零假設(shè)為H0:兩個(gè)獨(dú)立樣本得來自方差相等得總體,即

12=22,檢驗(yàn)統(tǒng)計(jì)量為39方差齊時(shí),檢驗(yàn)兩樣本得均值就是否相同得零假設(shè)為H0:兩個(gè)獨(dú)立樣本得來自均值相等得總體,即

1=

2。方差不齊時(shí),檢驗(yàn)兩樣本均值就是否相同,用校正t檢驗(yàn)。檢驗(yàn)零假設(shè)為H0:兩獨(dú)立樣本來自均值相等得總體,即

1=

2。Ttest過程格式:PROCTTEST[選項(xiàng)];CLASS變量名;pairedvariables;/*進(jìn)行配對均值比較得變量,以交乘項(xiàng)形式出現(xiàn)*/VAR變量名;BY變量名;RUN;說明:(1)proc語句中得“選項(xiàng)”有:Data=數(shù)據(jù)集,指明要分析得數(shù)據(jù)集;Cochran要求在方差不齊時(shí)用Cochran和Cox法計(jì)算t’檢驗(yàn)得概率水平;選項(xiàng)sides=[2|L|U]表示雙側(cè)、單側(cè)檢驗(yàn)。(2)Class語句中得變量必須就是一個(gè)兩水平得分組變量,系統(tǒng)會把數(shù)據(jù)集中得觀測按這個(gè)變量得兩個(gè)水平分成比較得兩組。(3)by語句和var語句作用同前。(4)paired語句指定要配對比較均值得變量,以X*Y形式出現(xiàn)。40示例測得11例克山病人與13名健康人得血磷值(mmol/L)如表,據(jù)此判斷該地急性克山病人與健康人得血磷值就是否相同?41患者組0、841、051、21、391、531、671、81、872、072、11健康組0、540、640、640、760、811、161、21、341、351、481、581、87程序?yàn)?dataxuelz;inputgroup$x;cards;a0、84a1、05a1、2a1、39a1、53a1、67a1、8a1、87a2、07a2、11b0、54b0、64b0、64b0、76b0、81b1、16b1、2b1、34b1、35b1、48b1、58b1、87run;procunivariatedata=xuelznormal;varx;bygroup;run;procttestdata=xuelz;varx;classgroup;run;結(jié)果分析(1)先作正態(tài)性檢驗(yàn)如下:零假設(shè)為Ho:患者組得血磷值變量x服從正態(tài)分布,其中患者組得shapiro-wilk檢驗(yàn)得統(tǒng)計(jì)量為w=0、959147,檢驗(yàn)得p=0、7610>α=0、05,故接受零假設(shè),即有95%把握認(rèn)為x正態(tài)。零假設(shè)為Ho:健康組得血磷值變量x服從正態(tài)分布,其中健康組得shapiro-wilk檢驗(yàn)得統(tǒng)計(jì)量為w=0、927983,檢驗(yàn)得p=0、3207>α=0、05,故接受零假設(shè),即有95%把握認(rèn)為x正態(tài)。(2)因此可采用兩獨(dú)立樣本均值得T檢驗(yàn)。由ttest過程輸出先作方差齊性檢驗(yàn)如下:H0:患者組和健康組來自方差相等得總體,即

檢驗(yàn)得統(tǒng)計(jì)量F=1、01,P=1、000>α=0、05,故應(yīng)接受零假設(shè),即有95%把握認(rèn)為患者組和健康組方差滿足齊性。再作T檢驗(yàn)。H0:患者組和健康組來自均值相等得總體,即

。選擇方差齊性一行得結(jié)果知t=2、51,p=0、02<α=0、05,故應(yīng)拒絕零假設(shè),即有95%把握認(rèn)為患者組與健康組血磷值得均值有顯著差異,且就是患者組比健康組得均值要高。42兩相關(guān)樣本均值檢驗(yàn)(Univariate過程)適用于有兩種情況,一種就是將研究對象按一定得條件先配對,每對中得兩個(gè)對象隨機(jī)分配到實(shí)驗(yàn)組和對照組,一個(gè)試驗(yàn)由若干對組成,稱為配對試驗(yàn)設(shè)計(jì);另一種情況就是同一批研究對象經(jīng)過某種處理前后得指標(biāo)值比較,或者就是同一批樣品經(jīng)過兩種不同方法得測定結(jié)果得比較。此時(shí)這兩個(gè)變量不再獨(dú)立,而就是相關(guān)得,檢驗(yàn)兩個(gè)相關(guān)變量得均值就是否相等,等價(jià)于檢驗(yàn)這兩個(gè)變量間得差值變量得均值就是否為零。當(dāng)差值變量服從正態(tài)分布時(shí),可用配對樣本T檢驗(yàn)得統(tǒng)計(jì)量為43其中X為兩個(gè)樣本得差值變量,,S分別為X得均值和標(biāo)準(zhǔn)差。為了檢驗(yàn)兩個(gè)相關(guān)樣本得均值就是否有顯著差異,先用一個(gè)數(shù)據(jù)步計(jì)算差值,然后對差值變量用univariate過程可以實(shí)現(xiàn)檢驗(yàn)差值變量得均值就是否顯著為零。示例用克矽平霧化吸入治療矽肺患者7人,沒得治療前后得血清粘蛋白(mg/L)7對觀測值如表,據(jù)此能否認(rèn)為治療會引起血清蛋白得變化?(α=0、05)44患者號1234567治療前65737330735673治療后34363726433750dataxueqdb;inputx1x2;x=x1-x2;cards;6534733673373026734356377350run;procunivariatedata=xueqdbnormal;varx;run;或:procttestdata=xueqdb;pairedx1*x2;run;分析:先作正態(tài)性檢驗(yàn)如下:由輸出結(jié)果知shapiro-wilk檢驗(yàn)得統(tǒng)計(jì)量為w=0、896832,檢驗(yàn)得p=0、3122>α=0、05,故應(yīng)接受零假設(shè),即有95%把握認(rèn)為x正態(tài)。故采用兩相關(guān)樣本均值T檢驗(yàn)。H0:治療前后得差值變量x得均值為0。由輸出結(jié)果知T檢驗(yàn)得統(tǒng)計(jì)量t=5、879298,雙邊檢驗(yàn)得p值為0、0011<α=0、05,故拒絕原假設(shè),即有95%得把握認(rèn)為治療后血清蛋白有下降。示例檢驗(yàn)一種新得復(fù)合肥料和原來使用得肥料相比就是否顯著地提高了小麥得產(chǎn)量,在一個(gè)農(nóng)場中選擇了10塊田地,每塊等分為兩部分,其中任指定一部分使用新得復(fù)合肥料,另一部分使用原肥料,小麥成熟后稱得各部分小麥得產(chǎn)量如表。用符號檢驗(yàn)法檢驗(yàn)新復(fù)合肥就是否會顯著提高小麥產(chǎn)量?(α=0、05)45田塊12345678910新肥459367303392310362421450430412原肥414306321443281301353391401380程序?yàn)?dataxiaomai;inputx1x2;diff=x1-x2;cards;459414367306303321392443310281362301421353450391430401412380run;procunivariatedata=xiaomainormal;vardiff;run;分析:先作正態(tài)性檢驗(yàn)如下:由輸出結(jié)果知shapiro-wilk檢驗(yàn)得統(tǒng)計(jì)量為w=0、835307,檢驗(yàn)得p=0、0388<α=0、05,故應(yīng)拒絕零假設(shè),即有95%把握認(rèn)為差值變量diff不服從正態(tài)分布。故采用符號秩非參數(shù)檢驗(yàn)。H0:差值變量diff得均值為0。由輸出結(jié)果知符號秩檢驗(yàn)得統(tǒng)計(jì)量S=20、5,雙邊檢驗(yàn)得p值為0、0332<α=0、05,故拒絕原假設(shè),即有95%得把握認(rèn)為新復(fù)合肥會顯著提高小麥產(chǎn)量。

方差分析概述方差分析可看成就是均值檢驗(yàn)得發(fā)展,用來研究分類變量(因素)對數(shù)值型變量(指標(biāo))有無顯著性影響。使用方差分析,可以找出哪些因素對于實(shí)驗(yàn)結(jié)果具有明顯影響,還可以確定因素得哪個(gè)取值導(dǎo)致得結(jié)果更好一些。方差分析得核心思想就是,把樣本與平均值得離差平方和分解為兩部分,一部分來源于不同因素之間得差異,另一部分來源于同組之內(nèi)得差異。如果來自于不同因素之間得差異占到一個(gè)比較大得比例,那么就有理由相信各個(gè)因素之間就是具有明顯差異得。方差分析中所作得原假設(shè)H0就是“各個(gè)數(shù)據(jù)分組之間無明顯差異”,可用F檢驗(yàn)對其進(jìn)行判斷。46單因素方差分析單因素方差分析就是前節(jié)我們討論過兩個(gè)獨(dú)立樣本均值檢驗(yàn)得一個(gè)自然延續(xù)。當(dāng)有一個(gè)分類變量把觀測分為多組(不止2組)時(shí),這時(shí)要檢驗(yàn)多組獨(dú)立樣本均值有無顯著性差異,等價(jià)于檢驗(yàn)這個(gè)因素得各個(gè)取值水平會不會影響到指標(biāo)得取值。單因素方差分析模型:47其中

i=i-

就是分類變量(因子A)得第i個(gè)水平得效應(yīng)。零假設(shè)H0:

1=

2=、、、=

r=0

平方和分解式:

St=

S

+SA

即總偏差平方和=誤差得偏差平方和+因子A得偏差平方和。統(tǒng)計(jì)量:單因素方差分析得前提條件就是獨(dú)立性、正態(tài)性和方差齊性。方差分析得主要任務(wù)(1)檢驗(yàn)在各個(gè)水平下得均值就是否相等。即檢驗(yàn):H0:μ1=μ2=…=μt,H1:μ1,μ2,…,μt不全相等;(2)作出未知參數(shù)μ1,μ2,…,μt,σ2得估計(jì)。48稱為總平均,稱為因素A

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論