




已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
SAS備課筆記_非參數(shù)檢驗非參數(shù)檢驗非參數(shù)統(tǒng)計分析方法(Non-parametric statistics)是相對參數(shù)統(tǒng)計分析方法而言的,又稱為不拘分布(distribution-free statistics)的統(tǒng)計分析方法或無分布形式假定(assumption free statistics)的統(tǒng)計分析方法。其中包括Wilcoxon秩和檢驗、Kruskal-Wallis秩和檢驗、friedman秩和檢驗等,它們分別對應不同設計類型的資料。SAS中對于非參數(shù)分析方法功能的實現(xiàn)主要由npar1way過程來完成,從過程名字就可以看出,在此過程的處理進程中,只能一次指定一個因素進行分析。下面我們先來了解一下npar1way過程的語句格式以及各語句和選項的基本功能。一、npar1way過程語句格式簡介npar1way過程屬于SAS的STAT模塊,對于統(tǒng)計學教科書上所涉及的非參數(shù)統(tǒng)計方法幾乎都可以通過此過程來完成。Npar1way過程的基本語句格式如下。PROC NPAR1WAY ; BY 變量名; CLASS變量名; EXACT 統(tǒng)計量選項 ; FREQ變量名; OUTPUT ; VAR 變量名; RUN;QUIT;Proc npar1way語句標志npar1way過程的開始,默認情況下(不列舉任何選項):npar1way過程對最新創(chuàng)建的數(shù)據(jù)集進行分析,將缺失數(shù)據(jù)排除在分析過程之外;執(zhí)行方差分析過程(等同于ANOVA選項),對樣本分布位置的差異進行檢驗(與選項WILCOXON, MEDIAN, SAVAGE以及VW等效),并進行經(jīng)驗分布函數(shù)檢驗(等同于EDF選項)。此語句后可用的選項見下表。Proc npar1way語句選項及其含義選項名稱選項功能或含義AB運用Ansari-Bradley評分進行分析DATA=數(shù)據(jù)集名指定要進行分析的數(shù)據(jù)集MEDIAN運用中位數(shù)評分進行分析,即進行中位數(shù)檢驗NOPRINT禁止所有的輸出,用在僅需要創(chuàng)建輸出數(shù)據(jù)集時ST運用Siegel-Tukey評分進行分析ANOVA對原始數(shù)據(jù)進行方差分析EDF要求計算基于經(jīng)驗分布的統(tǒng)計量MISSING指定分組變量的缺失值為一有效的分組水平SAVAGE運用Savage評分進行分析VW運用Van der Waerden評分進行分析計算CORRECT=NO在兩樣本時,禁止Wilcoxon和Siegel-Tukey檢驗的連續(xù)性校正過程KLOTZ運用Klotz評分進行分析MOOD運用Mood評分進行分析SCORES=DATA以原始數(shù)據(jù)為評分值進行分析WILCOXON對兩樣本進行Wilcoxon秩和檢驗,對多樣本進行Kruskal-Wallis檢驗1. exact語句exact語句要求SAS對指定的統(tǒng)計量(選項)進行精確概率的計算。其后的統(tǒng)計量選項可為以下項目,分別對應相應的統(tǒng)計計算方式(可參見上表)。AB,KLOTZ,KS,MEDIAN,MOOD,SAVAGE,SCORES=DATA,ST,WILCOXON,VW等。運算選項為精確概率的計算過程指定一些控制項目,如選項“mc”要求以Monte Carlo方法計算精確概率。2. output語句output語句與其它過程中相應的語句大同小異,不同之處在于語句最后的選項。此處的選項絕大多數(shù)包括在上表中,指定在輸出數(shù)據(jù)集中包含所指定項目所對應的統(tǒng)計量。3. var語句var語句用以指定要進行分析的變量,變量必須為數(shù)值型。若省略此語句,SAS將對除by語句、class語句以及freq語句中指定的變量之外的所有數(shù)值型變量進行分析。二、不同類型資料的非參數(shù)檢驗方法1. 兩獨立樣本差別的秩和檢驗兩獨立樣本的非參數(shù)檢驗是在對總體分布不了解的情況下,通過分析樣本數(shù)據(jù),推斷樣本來自的兩個獨立總體的分布是否存在顯著差異,一般來說是推斷兩個獨立總體的均值或中位數(shù)是否存在顯著差異。關于樣本是否為獨立的,主要看在一個總體中抽取樣本對在另一個總體中抽取樣本有無影響。如果沒有影響,則可以認為這兩個總體是獨立的。零假設:樣本來自的兩獨立總體的分布沒有顯著差異檢驗方法有多種:(1)兩獨立樣本的威克遜等級和檢驗(Wilcoxon秩和檢驗),也被稱為Mann-Whitney U檢驗。曼-惠特尼U檢驗(Mann-Whitney U),該檢驗主要是通過對平均秩的研究來實現(xiàn)推斷的。其基本思路是:首先,將兩組樣本數(shù)據(jù)和混合并按升序排序(m和n分別為兩組樣本的樣本容量,求出每個數(shù)據(jù)各自的秩;然后,分別對和的秩求平均,得到兩個平均秩和,如果這兩個平均秩相差甚遠,則傾向于拒絕零假設。(2)兩獨立樣本的K-S檢驗(KolmogorovSmirnov Z),該檢驗首先將兩組樣本混合并按升序排序;然后,分別計算兩組樣本秩的累計頻數(shù)和每個點上的累計頻率;最后,將兩個累計頻率相減,得到差值序列數(shù)據(jù)。(3)沃爾德沃爾福威茨游程檢驗(Wlad-Wolfwitz runs),該檢驗將兩組樣本混合并按升序排序,在數(shù)據(jù)排序的同時,兩組樣本的每個觀察值對應的樣本組標志值序列也隨之重新排列;然后,對這個標志值序列求游程。如果樣本所屬的兩總體的分布形態(tài)存在較大差距,那么計算出的游程數(shù)會相對比較小。如果游程數(shù)比較大,則應該是由于兩樣本數(shù)據(jù)充分混合的結果,那么它們的分布應該不存在顯著差異?!纠?】下表為來自兩個樣本A、B的測量數(shù)據(jù),經(jīng)檢驗知兩樣本方差不齊,試做非參數(shù)檢驗比較兩組數(shù)據(jù)的差別。兩獨立樣本A、B測量數(shù)據(jù)A組714223640486398B組3561017182039【程序】對該資料,應選用Wilcoxon秩和檢驗(rank sum test)方法,編制SAS程序如下:data sasuser.data10_01; do g=1 to 2; input x; output; end; datalines; 7 3 14 5 22 6 36 10 40 17 48 18 63 20 98 39 ;proc npar1way wilcoxon; class g; var x;run;程序中因素“g”分組因素,“1”代表A組,“2”代表B組,“x”為待分析的變量。Proc npar1way語句后的選項“Wilcoxon”指定SAS進行Wilcoxon秩和檢驗。【結果】SAS給出兩組數(shù)據(jù)的基本信息(樣本量、秩和等);給出在零假設下各組統(tǒng)計量(Sum of scores項)的期望值(Expected Under H0項)及標準差(Std Dev Under H0項),最后還給出以近似z檢驗以及近似t檢驗所得的統(tǒng)計量和所對應的單、雙側概率值。另外,默認狀態(tài)下,SAS同時給出Kruskal-Wallis檢驗的結果。所不同的是,在兩樣本量相同時,SAS以秩和較大者作為對象統(tǒng)計量進行概率值的計算,而非醫(yī)學統(tǒng)計學教材上所說的以較小秩和為對象統(tǒng)計量。在兩樣本量不同時,SAS以樣本量較小組的秩和為對象統(tǒng)計量,這一點則與教材上的相同。如果去掉“wilcoxon”:data sasuser.data10_01; do g=1 to 2; input x; output; end; datalines; 7 3 14 5 22 6 36 10 40 17 48 18 63 20 98 39;proc npar1way; class g; var x;run;則SAS給出所以方法的執(zhí)行結果:【例2】為了鑒別新舊兩種生產(chǎn)方法對生產(chǎn)效率的影響,隨機抽取了22人用舊生產(chǎn)方法生產(chǎn),25人用新生產(chǎn)方法生產(chǎn),每人平均日產(chǎn)量(件)資料如下:舊方法:20 31 27 18 10 26 39 45 41 24 22 23 14 11 32 37 40 46 49 55 54 19新方法:36 39 31 25 26 28 20 21 24 21 58 55 56 41 37 49 44 40 12 16 15 24 23 28 11問兩種方法對日產(chǎn)量影響有無顯著差異()?【數(shù)據(jù)擺放】【程序】proc npar1way data=sasuser.data10_02 wilcoxom; class g; var x;run;【運行結果】【例3】用某藥治療不同病情的老年慢性支氣管炎病人, 療效見下表,比較該藥對兩種病情的療效。某藥對兩種不同病情的支氣管炎療效療效單純型單純型合并肺氣腫控制6542顯效186有效3023近控1311【程序】對于此例,將療效看成待分析的變量x,從“控制”到“近控”分別對其賦值1、2、3、4,病情則作為分組因素,同時需引入一個頻度因素f,以代表不同取值狀態(tài)下x的頻數(shù)。編制程序如下:data sasuser.data10_03; do x=1 to 4; do g=1 to 2; input f; output; end; end; datalines; 65 42 18 6 30 23 13 11 ;proc npar1way wilcoxon; class g; var x; freq f;run; 【結果】程序和前例的基本相同,只根據(jù)資料特點增加了freq語句。提交程序,運行結果如下。2. 配對設計資料的秩檢驗配對設計資料一般采用配對t檢驗方法進行分析,但若配對數(shù)據(jù)差數(shù)的分布非正態(tài)分布,但其總體分布基本對稱,則可采用Wilcoxon符號秩檢驗(signed rank test)作為配對t檢驗的替代方法。Wilcoxon符號秩檢驗功效很高,在數(shù)據(jù)滿足配對t檢驗的要求時,符號秩檢驗的功效可達配對t檢驗功效的95%。SAS中符號檢驗(sign test)和符號秩檢驗的功能不是在npar1way過程中實現(xiàn),而是通過univariate過程來實現(xiàn)的??赡芤驗檫@兩項功能涉及的是關于單變量分析的緣故?!纠?】采用配對設計,用某種放射線的A,B兩種方式分別局部照射家兔的兩個部位,觀察放射性急性皮膚損傷程度,結果見下表。試用符號秩檢驗比較A,B的損傷程度是否不同。家兔皮膚損傷程度編號方式A方式B139552425435155443475555364563722528484494048104555114032124957【程序】data sasuser.data10_4; input x1 x2; d=x1-x2; datalines; 39 55 42 54 51 55 43 47 55 53 45 63 22 52 48 44 40 48 45 55 40 32 49 57 ;proc univariate loccount; var d;run;此例中,我們須對兩次測得數(shù)據(jù)的差值進行單變量分析,所以數(shù)據(jù)步中用到賦值語句“d=x1-x2;”。Univariate過程在默認狀態(tài)下即給出關于待分析變量的符號檢驗以及符號秩檢驗結果,“proc univariate”語句后的“l(fā)occount”選項指定SAS給出樣本數(shù)據(jù)在系統(tǒng)指定位置參數(shù)(默認值為0)兩側的分布情況,即相當于對符號檢驗結果的進一步描述。提交執(zhí)行以上程序,結果如下。此結果大家應當比較熟悉(刪去了其余關于參數(shù)檢驗的部分),注意標有“Tests for Location: Mu0=0”的部分,即為我們所要的結果,其中第一行為參數(shù)檢驗的t檢驗結果,后兩行則分別為符號檢驗以及符號秩檢驗的分析結果。標有“Location Counts: Mu0=0.00”的部分是關于樣本分布情況的描述,本例為3個受試對象的差值大于零,9個小于零。大家需要注意,這里的符號秩檢驗計算所得的秩和與我們在教科書上看到的結果不同(教科書上計算的統(tǒng)計量即秩和T=10),應是所依據(jù)的算法不同所致,但所得的P值是相同的,不會影響分析的結果?!纠?】有兩家公司設計了他們自已的智商測驗方法,一位心理學家隨機地選取13個人同時接受這兩種測驗方法,結果如下表所示。試在0.05的顯著水平下,檢驗是否可宣稱這兩種方法無顯著差異。序號12345678910111213方法一989411110210810592881009912511792方法二10510311398112109979510710310410693【數(shù)據(jù)擺放】【程序】【結果】檢驗方法簡介:1. 符號檢驗(Sign),該方法利用正、負符號的個數(shù)多少來進行檢驗。首先,將第二組樣本的各個觀察值減去第一組樣本對應的觀察值,如果得到差值是一個正數(shù),則記為正號;差值為負數(shù),則記為負號;然后計算正號的個數(shù)和負號的個數(shù),通過比較正號的個數(shù)和負號的個數(shù)來判斷兩組樣本的分布。如果正號的個數(shù)和負號的個數(shù)大致相當,則可以認為兩相關樣本數(shù)據(jù)分布差距較??;正號的個數(shù)和負號的個數(shù)相差較多,可以分為兩相關樣本數(shù)據(jù)分布差距較大。符號檢驗得名于其資料是用加減號而不是用定量度量。它對于那些不能或不適宜用定量測量而能將每一對的兩個成員分出等級的問題研究特別有用。2. 符號平均秩檢驗(Wilcoxon),該檢驗首先按照符號檢驗的方法,將第二組樣本的各個觀察值減去第一組樣本對應的觀察值,如果得到差值是一個正數(shù),則記為正號;差值為負數(shù),則記為負號,同時保存差值的絕對值數(shù)據(jù);然后將絕對差值數(shù)據(jù)按升序排序,并求出相應秩;最后分別計算正號秩總和、負號秩總和以及正號平均秩和負號平均秩。如果正號平均秩和負號平均秩大致相當,則可以認為兩相關樣本數(shù)據(jù)正負變化程度基本相當,分布差距較小。Wilcoxon檢驗在行為科學的研究中應用極為廣泛。3. 完全隨機設計多組數(shù)據(jù)分布位置差別的秩和檢驗這一部分的內容相當于參數(shù)檢驗中的方差分析,依據(jù)的方法是Kruskal-Wallis秩和檢驗,此方法的基本思想與Wilcoxon秩和檢驗基本相同,都是基于各組混合編秩后,各組秩和應相等的假設。兩者的不同點就在于Kruskal-Wallis秩和檢驗是針對多組(大于2)數(shù)據(jù)的分析,而Wilcoxon秩和檢驗則只用于對兩組數(shù)據(jù)的比較?!纠?】 為研究精氨酸對小鼠截肢后淋巴細胞轉化功能的影響,將21只小鼠分等分成3組:A組為對照,B組為截肢組,C組為截肢加精氨酸治療組。觀測脾淋巴細胞對HPA刺激的增值反應,測量指標是3H吸收量(cpm),數(shù)據(jù)如下表所示,試分析各組測量值是否不同。脾淋巴細胞對HPA刺激的增值反應(測量指標 3H吸收量cpm)A組B組C組3012253281389458468220738419202518679580226888513590277564901278728849003660017170醫(yī)學統(tǒng)計學教科書上對于此類資料分析方法的介紹雖與兩組數(shù)據(jù)比較的方法有所區(qū)別,統(tǒng)計量的計算方法和結果也各不相同,但在SAS中,對這兩類資料進行分析的操作過程卻是基本相同的,大家可以從相應的SAS程序中看到這一點?!維AS程序】data sasuser.data10_06; do n=1 to 7;do g=1 to 3; input x; output; end; end; datalines; 3012 2532 8138 9458 4682 2073 8419 2025 1867 9580 2268 885 13590 2775 6490 12787 2884 9003 6600 1717 0 ;proc npar1way wilcoxon; class g; var x;run;【結果】第一部分是“Wilcoxon Scores (Rank Sums) for Variable x”,第二部分是“Kruskal-Wallis Test”秩和檢驗分析結果,而P值的計算這里所依據(jù)的是卡方分布?!纠?】假設有個地區(qū)的領導想要比較該地區(qū)四個村的各戶的人均年收入水平,于是在這四個村中隨機抽取樣本,計算各戶的人均收入,得到下表中的24個數(shù)據(jù)。分析這四個村的年收入是否存在顯著差異。(=0.05)四個村六戶人家的年收入水平村17689528709401003500村29968967858759361200村3789759752658635800村4892698651678895925【程序】proc npar1way data=sasuser.data10_07 wilcoxon; class g; var income;run;【結果】三、幾條重要提示1. Npar1way過程對于缺失值(missing value)的處理如果缺失值出現(xiàn)在反應變量(var語句指定的變量),npar1way過程會將該條記錄排除在分析之外。默認情況下,npar1way過程也會將分類變量中出現(xiàn)缺失值的記錄排除出分析過程。如果指定選項“missing”,npar1way過程則將分類變量中出現(xiàn)的缺失值當作一個單獨的水平進行處理。對于by語句中指定的變量,缺失值將被默認地當作一個獨立水平進行處理。對于freq語句中指定的變量,出現(xiàn)缺失值的記錄一定會被排除出分析過程。2. npar1way過程對于同秩(ties)問題的處理方式Npar1way過程處理同秩問題的方式在任何一種非參數(shù)檢驗方法中均相同,即無論相同秩次的記錄出現(xiàn)在同一組或不同的組中,均給它們分配相應的平均秩次,再根據(jù)這些平均秩次進行各種計算,跟教科書上介紹的方法一樣。npar1way過程對于此問題的處理到此為止,不像教科書上介紹的那樣對計算所得的統(tǒng)計量再進行某種校正。對于相同秩次出現(xiàn)較少的數(shù)據(jù),這一點對分析的結果影響不大,但對于同秩現(xiàn)象較多的數(shù)據(jù),分析結果的偏差就不容忽視,尤其是對于那些近似檢驗來說更是如此。處理這一問題的理想辦法就是計算精確概率,npar1way過程提供了實現(xiàn)這一功能的途徑,即exact語句。均值比較的方法與程序檢驗法獨立組配對組參數(shù)檢驗獨立樣本t檢驗對應程序:Proc ttest (data=數(shù)據(jù)集);Class 分組變量名;Var 因變量名;Run;配對差值t檢驗對應程序:Dif=m-fProc univariate (data=數(shù)據(jù)集);Var 因變量名(Dif);Run; 非參數(shù)檢驗Wilxonxon秩和檢驗對應程序:Proc npar1way (data=數(shù)據(jù)集) Wilcoxon;Class 分組變量名;Var 因變量名;Run;Wilxonxon秩和檢驗對應程序:Dif=m-fProc univariate (data=數(shù)據(jù)集);Var 因變量名(Dif);Run;某瓶裝純凈水廠商生產(chǎn)的產(chǎn)品標稱凈含量為600ml,現(xiàn)質量監(jiān)督管理部門對該產(chǎn)品是否合格進行抽檢,得到表5-1所示的抽檢數(shù)據(jù)(詳見Water.sas7bdat)。試根據(jù)抽檢結果對該產(chǎn)品質量進行評價。proc univariate data=sasuser.water mu0=600; var Net;run;某調查公司在某項調查中收集到76個觀測值的樣本數(shù)據(jù)(詳見KS.sas7bdat)。試分析該數(shù)據(jù)的總體分布是何種分布。proc univariate data=sasuser.KS noprint; var Observed; histogram /noplot nornal(mu=est sigma=est)lognor
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 100萬千瓦新能源項目實施方案(參考范文)
- 人教版小學數(shù)學3三年級下冊(全冊)教案
- 行政法學知識體系試題及答案
- 嵌入式系統(tǒng)運維管理試題及答案
- 買賣合同擔保協(xié)議書
- 牌坊加工合同協(xié)議書范本
- 2025年軟件測試團隊的最佳實踐經(jīng)驗總結試題及答案
- 山地轉賣合同協(xié)議書
- 管道施工的合同協(xié)議書
- 鏈家續(xù)租房合同協(xié)議書
- 安徽理工大學《高等安全工程》2023-2024學年第一學期期末試卷
- 2024年7月1日實施新版醫(yī)療器械采購、收貨、驗收、貯存、銷售、出庫、運輸和售后服務工作程序
- 2024紙箱廠規(guī)章制度
- 車位轉讓車位協(xié)議書模板
- 腦洞大開背后的創(chuàng)新思維學習通超星期末考試答案章節(jié)答案2024年
- DB34∕T 3781-2021 集貿市場(大型超市)公平秤設置與管理規(guī)范
- 產(chǎn)品設計和開發(fā)控制程序文件
- 2024-2025學年江蘇省常州市天寧區(qū)博愛路小學數(shù)學六上期末經(jīng)典模擬試題含解析
- 中國生物醫(yī)藥產(chǎn)業(yè)發(fā)展藍皮書
- 食品安全管理制度小作坊
- 個人傭金居間合同范本
評論
0/150
提交評論