版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
操S義講作atatStata操作講義第一講Stata操作入門第一節(jié)概況Stata最初由美國計算機資源中心(ComputerResourceCenter)研制,現(xiàn)在為Stata公司的產(chǎn)品,其最新版本為7.0版。它操作靈活、簡單、易學(xué)易用,是一個非常有特色的統(tǒng)計分析軟件,現(xiàn)在已越來越受到人們的重視和歡迎,并且和SAS、SPSS一起,被稱為新的三大權(quán)威統(tǒng)計軟件。Stata最為突出的特點是短小精悍、功能強大,其最新的7.0版整個系統(tǒng)只有10M左右,但已經(jīng)包含了全部的統(tǒng)計分析、數(shù)據(jù)管理和繪圖等功能,尤其是他的統(tǒng)計分析功能極為全面,比起1G以上大小的SAS系統(tǒng)也毫不遜色。另外,由于Stata在分析時是將數(shù)據(jù)全部讀入內(nèi)存,在計算全部完成后才和磁盤交換數(shù)據(jù),因此運算速度極快。由于Stata的用戶群始終定位于專業(yè)統(tǒng)計分析人員,因此他的操作方式也別具一格,在Windows席卷天下的時代,他一直堅持使用命令行/程序操作方式,拒不推出菜單操作系統(tǒng)。但是,Stata的命令語句極為簡潔明快,而且在統(tǒng)計分析命令的設(shè)置上又非常有條理,它將相同類型的統(tǒng)計模型均歸在同一個命令族下,而不同命令族又可以使用相同功能的選項,這使得用戶學(xué)習(xí)時極易上手。更為令人嘆服的是,Stata語句在簡潔的同時又擁有著極高的靈活性,用戶可以充分發(fā)揮自己的聰明才智,熟練應(yīng)用各種技巧,真正做到隨心所欲。除了操作方式簡潔外,Stata的用戶接口在其他方面也做得非常簡潔,數(shù)據(jù)格式簡單,分析結(jié)果輸出簡潔明快,易于閱讀,這一切都使得Stata成為非常適合于進行統(tǒng)計教學(xué)的統(tǒng)計軟件。Stata的另一個特點是他的許多高級統(tǒng)計模塊均是編程人員用其宏語言寫成的程序文件(ADO文件),這些文件可以自行修改、添加和下載。用戶可隨時到Stata網(wǎng)站尋找并下載最新的升級文件。事實上,Stata的這一特點使得他始終處于統(tǒng)計分析方法發(fā)展的最前沿,用戶幾乎總是能很快找到最新統(tǒng)計算法的Stata程序版本,而這也使得Stata自身成了幾大統(tǒng)計軟件中升級最多、最頻繁的一個。由于以上特點,Stata已經(jīng)在科研、教育領(lǐng)域得到了廣泛應(yīng)用,WHO的研究人員現(xiàn)在也把Stata作為主要的統(tǒng)計分析工作軟件。第二節(jié)Stata操作入門一、Stata的界面圖1即為Stata7.0啟動后的界面,除了Windows版本的軟件都有的菜單欄、工具欄,狀態(tài)欄等外,Stata的界面主要是由四個窗口構(gòu)成,分述如下:1.結(jié)果窗口位于界面右上部,軟件運行中的所有信息,如所執(zhí)行的命令、執(zhí)行結(jié)果和出錯信息等均在這里列出。窗口中會使用不同的顏色區(qū)分不同的文本,如白色表示命令,紅色表示錯誤信息。2.命令窗口位于結(jié)果窗口下方,相當(dāng)于DOS軟件中的命令行,此處用于鍵入需要執(zhí)行的命令,回車后即開始執(zhí)行,相應(yīng)的結(jié)果則會在結(jié)果窗口中顯示出來。3.命令回顧窗口即review窗口,位于界面左上方,所有執(zhí)行過的命令會依次在該窗口中列出,單擊后命令即被自動拷貝到命令窗口中;如果需要重復(fù)執(zhí)行,用鼠標(biāo)雙擊相應(yīng)的命令即可。4.變量名窗口位于界面左下方,列出當(dāng)前數(shù)據(jù)及中的所有變量名稱。除以上四個默認打開的窗口外,在Stata中還有數(shù)據(jù)編輯窗口、程序文件編輯窗口、幫助窗口、繪圖窗口、Log窗口等,如果需要使用,可以用Window或Help菜單將其打開。二、數(shù)據(jù)的錄入與儲存.Stata為用戶提供了簡捷,但是非常完善的數(shù)據(jù)接口,熟悉它的用法是使用Stata的第一步,在Stata中讀入數(shù)據(jù)可以有三種方式:直接從鍵盤輸入、打開已有數(shù)據(jù)文件和拷貝、粘貼方式交互數(shù)據(jù)。(1)從鍵盤輸入數(shù)據(jù)在Stata中可以使用命令行方式直接建立數(shù)據(jù)集,首先使用input命令制定相應(yīng)的變量名稱,然后一次錄入數(shù)據(jù),最后使用end語句表明數(shù)據(jù)錄入結(jié)束。例1在某實驗中得到如下數(shù)據(jù),請在Stata中建立數(shù)據(jù)集。觀測數(shù)據(jù):X13579,Y246810解:此處需要建立兩個變量X、Y,分別錄入相應(yīng)數(shù)值,Stata中的操作如下,其中劃線部分為操作者輸入部分。(2)用Stata的數(shù)據(jù)編輯工具②數(shù)據(jù)編輯Stata數(shù)據(jù)編輯器界面:此時進入了數(shù)據(jù)全屏幕編輯狀態(tài)。3圖在第一列輸入數(shù)據(jù)后,Stata第一列自動命名為var1;在第二列輸入數(shù)據(jù)后,第二列自動命名為var2……依次類推。在輸入數(shù)據(jù)后,雙擊縱格頂端的變量名欄(如:Var1或點擊確認(如圖欄中注釋變量名的含義,,可以更改變量名,并可以在Var2處)label4所示)。仍沿用上例,雙擊觀察值所在列頂端的變量名欄,更改變量名為x,并在label欄中注明“7歲男童身高/cm”。即可退出編輯器。數(shù)據(jù)輸入完畢后,單擊鍵確認所輸數(shù)據(jù),按關(guān)閉鍵認所輸數(shù)據(jù),按關(guān)閉鍵即可退出編輯器。數(shù)據(jù)輸入完畢后,單擊(3)拷貝、粘貼方式交互數(shù)據(jù)Stata的數(shù)據(jù)編輯窗口是一個簡單的電子表格,可以使用拷貝、粘貼方式直接和EXCEL等軟件交互數(shù)據(jù),在數(shù)據(jù)量不大時,這種方式操作極為方便。例2現(xiàn)在EXCEL中已錄入了三個變量,共五條記錄,格式見下圖,請將數(shù)據(jù)讀入Stata。解:首先將EXCEL中的A1-C6全部18個單元格選中,選擇菜單編輯è復(fù)制,將數(shù)據(jù)拷貝到剪貼板上;然后切換到Stata,選擇菜單Window->DataEditor,打開數(shù)據(jù)編輯窗口;再選擇Edit->Paste,相應(yīng)的數(shù)據(jù)就會被直接粘貼如數(shù)據(jù)編輯窗口中,并且變量名、記錄數(shù)、變量格式等均會被自動正確設(shè)置,見圖6和圖7。(4)打開已有的數(shù)據(jù)文件Stata能夠直接打開的數(shù)據(jù)文件只能是自身專用格式或者以符號分隔的純文本格式,后者第一行可以是變量名,分述如下:,然后選擇路徑和文件名,可以打開Stata專用格式的數(shù)據(jù)文件,并①點擊圖標(biāo)。且擴展名為.dta②打開Dta數(shù)據(jù)文件:該格式文件是Stata的專用格式數(shù)據(jù)文件,也使用use命令即可打開,例如要打開數(shù)據(jù)文件“C:\data1.dta”,則命令為:.usec:\data1即擴展名可以省略,如果Stata中已經(jīng)修改或者建立了數(shù)據(jù)集,則需要使用clear選項清除原有數(shù)據(jù),命令為:.usec:\data1,clear②讀入文本格式數(shù)據(jù):需要使用insheet命令實現(xiàn),例如需要讀入已建立好的文本格式數(shù)據(jù)文件“C:\data1.txt”,則命令為:.insheetusingc:\data1.txt該命令會自動識別第一行是否為變量名,以及變量列間的分隔符是tab、逗號還是其他字符。如果Stata中已經(jīng)修改或者建立了數(shù)據(jù)集,則需要使用clear選項清除原有數(shù)據(jù),命令為:.insheetusingc:\data1.txt,clear(5)數(shù)據(jù)文件的保存為了方便以后重復(fù)使用,輸入Stata的數(shù)據(jù)應(yīng)存盤。Stata實際上只能將數(shù)據(jù)存為自身專用的數(shù)據(jù)格式或者純文本格式,分述如下:,然后選擇路徑和文件名,點擊①點擊圖標(biāo)。②存為dta格式:可以直接使用文件菜單,也可以使用save命令操作,如欲將上面建立的數(shù)據(jù)文件存入“C:\”中,文件名為Data1.dta,則命令為:.savec:\data1filec:\data1.dtasaved該指令將在C盤根目錄建立一個名為“data1.dta”的Stata數(shù)據(jù)文件,后綴dta可以在命令中省略,會被自動添加。該文件只能在Stata中用use命令打開。如所指定的文件已經(jīng)存在,則該命令將給出如下信息:filec:\data1.dtaalreadyexists,告訴用戶在該目標(biāo)盤及子目錄中已有相同的文件名存在。如欲覆蓋已有文件,則加選擇項replace。命令及結(jié)果如下:.savec:\data1.dta,replacefilec:\data1.dtasaved3.存為文本格式:需要使用outsheet命令實現(xiàn),該命令的基本格式如下。outsheet[變量名列表]using文件名[,nonamesreplace]其中變量名列表如果省略,則將全部變量存入指定文件。如欲將上面建立的數(shù)據(jù)文件存入文本文件“C:\data1.txt”中,則命令為:.outsheetusingc:\data1.txt此時建立的文件data1.txt第一行為變量名,第2-6行為變量值。變量列間用Tab鍵分隔。如果不希望在第一行存儲變量名,則可以使用nonames選項。如果文件已經(jīng)存在,則需要使用replace選項。第二講統(tǒng)計描述入門例調(diào)查某市1998年110名19歲男性青年的身高/cm資料如下,計算均數(shù)、標(biāo)準(zhǔn)差、中位數(shù)、百分位數(shù)和頻數(shù)表。.(讀者可以把數(shù)據(jù)直接粘貼到Stata的Edit窗口)數(shù)據(jù)結(jié)構(gòu)Stata在介紹統(tǒng)計分析命令之前,先介紹打開一個保存統(tǒng)計分析結(jié)果的文件操作:計算樣本的均數(shù)、標(biāo)準(zhǔn)差、最大值和最小值命令1:su變量名(可以多個變量:即:su變量名1變量名2…變量名m)命令2:su變量名,d(可以多個變量:即:su變量名1變量名2…變量名m,d)本例命令sux本例命令.sux,d。centile計算百分位數(shù)還可以用專用命令centile變量名(可以多個變量),centile(要計算的百分位數(shù))例如計算P,P等97.52.5centile變量名,centile(2.597.5)本例計算P,P,P,P,P。7550252.597.5本例命令.centilex,centile(2.525507597.5)制作頻數(shù)表,組距為2,從164開始,genf=int((x-164)/2)*2+164其中int()表示取整數(shù)tabf頻數(shù)匯總和頻率計算作頻數(shù)圖命令graph變量,bin(#)norm其中#表示頻數(shù)圖的組數(shù);norm表示畫一條相應(yīng)的正態(tài)曲線(可以不要)本例命令為graphx,bin(8)norm為了使坐標(biāo)更清楚地在圖上顯示,可以輸入下列命令graphx,bin(8)xlabelnormylabel中來,操作如下:中復(fù)制到圖形可以從Stataword中粘貼和編輯,便可以得到所需要的圖形。Word然后到計算幾何均數(shù)可以用means變量名(可以多個變量:即:means變量1…變量m)meansxArithmetic(算術(shù)均數(shù))Geometric(幾何均數(shù))調(diào)和均數(shù)(Harmonic)作Pie圖描述構(gòu)成比:每一類的頻數(shù)用一個變量表示,命令:graph各類頻數(shù)變量名,pie例:下列有2個地區(qū)的血型頻數(shù)分布數(shù)據(jù),請用Pie描述:圖的命令和圖Pie第1地區(qū)血型構(gòu)成比的graphaboabifarea==1,pie是兩個等號。注意邏輯表達式中ifarea==1圖的命令和圖地區(qū)血型構(gòu)成比的第2Piegraphaboabifarea==2,pie圖的命令和圖兩個地區(qū)合并后的血型構(gòu)成比的Piem變量名2變量名1變量名….swilk正態(tài)性檢驗歲男性青年的身高資料正態(tài)性檢驗如下:19110在上例中的名.swilkx無效假設(shè)H:資料服從正態(tài)分布0備選假設(shè)H:資料不服從正態(tài)分布1ααα取0.1)0.05取設(shè),樣本很小時,=0.05(樣本比較大時,因此可以認為資料近似服從正態(tài)分布。計量資料統(tǒng)計描述的主要策略小結(jié)若資料近似正態(tài)分布,則用均數(shù)±標(biāo)準(zhǔn)差描述——P)P描述(頻數(shù)圖明顯不對稱),則用中位數(shù)(若資料偏態(tài)分布7525——P稱為四分位數(shù)范圍(Inter-quartilerange,IQR)P7525但在一些臨床試驗資料統(tǒng)計分析時,往往給出樣本均數(shù)、標(biāo)準(zhǔn)差、中位數(shù)、四分位數(shù)范圍、最小值和最大值,但對結(jié)果的主要解釋按照上述策略進行進行。第三講概率分布和抽樣分布概率分布累積函數(shù)1.標(biāo)準(zhǔn)正態(tài)分布累積函數(shù)norm(X)2.t分布右側(cè)累積函數(shù)ttail(df,X),其中df是自由度χ2分布累積函數(shù)chi2(df,X3.),其中df是自由度χ2分布右側(cè)累積函數(shù)chi2tail(df,4.X),其中df是自由度5.F分布累積函數(shù)F(df1,df2,X),df1為分子自由度,df2為分母自由度6.F分布右側(cè)累積函數(shù)F(df1,df2,X),df1為分子自由度,df2為分母自由度累積函數(shù)的計算使用產(chǎn)生隨機數(shù)計算機所產(chǎn)生的隨機數(shù)是通過一串很長的序列數(shù)模擬隨機數(shù),故稱為偽隨機數(shù),在實際應(yīng)用這些隨機數(shù)時,這些隨機數(shù)一般都能具有真實隨機數(shù)的所有概率性質(zhì)和統(tǒng)計性質(zhì),因此可以產(chǎn)生許許多多的序列偽隨機數(shù),一個序列的第一個隨機數(shù)對應(yīng)一個數(shù),這個數(shù)稱為種子數(shù)(seed),因此可以利用種子數(shù),使隨機數(shù)重復(fù)實現(xiàn)。設(shè)置種子數(shù)的命令為setseed數(shù)。每次設(shè)置同一種子數(shù),則產(chǎn)生的隨機序列是相同的。產(chǎn)生(0,1)區(qū)間上的均勻分布的隨機數(shù)uniform()例如產(chǎn)生種子數(shù)為100的20個在(0,1)區(qū)間上的均勻分布的隨機數(shù),則操作如下:clear清除內(nèi)存setseed100設(shè)置種子數(shù)為100setobs20設(shè)置樣本量為20genr=uniform()產(chǎn)生20個在(0,1)區(qū)間上均勻分布的隨機數(shù)。list顯示這些隨機數(shù)結(jié)果如下利用均勻分布隨機數(shù)進行隨機分組:例:某實驗要把20只大鼠隨機分為2組,每組10只,請制定隨機分組方案和措施。第一步、把20只大鼠編號,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20。并且標(biāo)明。第二步、用Stata軟件制定隨機分組方案,操作如下:結(jié)果如下:教學(xué)應(yīng)用:考察樣本均數(shù)的分布。的抽樣誤差由于個體變異的原因,樣本均數(shù)(其定義為樣本均數(shù)與總體均數(shù)的差值)是不可避免的,并且樣本均數(shù)的抽樣誤差是呈隨機變化的。對于一次抽樣而言,無法考察樣本均數(shù)的抽樣誤差的規(guī)律性,但當(dāng)大量地重復(fù)抽樣,計算每次抽樣的樣本均,考察樣本均數(shù)的隨機分布規(guī)律性和統(tǒng)計特征。舉例如下:數(shù)2)的樣本,樣本量分別為n6個服從正態(tài)分布N(100,利用計算機模擬產(chǎn)生100000=4,n=9,n=16,n=36,每個樣本計算樣本均數(shù)。這里關(guān)鍵處是要清楚什么是樣本量(每次抽樣所觀察的對象個數(shù),也就是每個樣本的個體數(shù)n)、什么是樣本個數(shù)(指抽樣的次數(shù)),現(xiàn)以n=4為例,一條記錄存放一個樣本,樣本量n=4,也就是每個樣本的第1個數(shù)據(jù)放在第1列,第2個數(shù)據(jù)放在第2列,第3個數(shù)據(jù)放在第3列,第4個數(shù)據(jù)放在第4列,因此第1行是第一個樣本,第2行是第2個樣本,第100000行是第100000個樣本,計算樣本均數(shù)放在第5列,因此共有100000個樣本均數(shù)。具體操作如下:現(xiàn)共有100000個樣本,每個樣本計算一個樣本均數(shù),因此有100000個樣本均數(shù),視為一個數(shù)據(jù),把100000現(xiàn)在把一個樣本均數(shù)個樣本均數(shù)視為一個樣本量為個100000(這個樣本里有,計算這100000的新樣本個的平均值和標(biāo)準(zhǔn)100000)差:得到:個的平均值=99.98388這100000非常接近總體均數(shù)μ=1003.002225(的標(biāo)準(zhǔn)差=理論上可以證明樣本均數(shù)的總體這100000個均數(shù)與樣本所在的總體的總體均數(shù)相同,樣本均數(shù)的標(biāo)準(zhǔn)差=)個的頻數(shù)圖再考察這100000graphmean,bin(50)xlabelylabelnormμ=100。再考察這可以發(fā)現(xiàn)正態(tài)分布的樣本均數(shù)仍呈正態(tài)分布,峰的位置在100000個的百分位數(shù)可以發(fā)現(xiàn)理論上的百分位數(shù)與模擬數(shù)據(jù)的百分位數(shù)非常接近??梢宰C明:樣本量越大,這種的誤差小的可能性越大。由于在實際研究中,只有一個樣本,因此只有一個樣本均數(shù),無法如模擬數(shù)據(jù)一樣σ,利用S近似計算樣本均數(shù)的標(biāo)準(zhǔn)差,但是一個樣本的數(shù)據(jù)可以計算樣本的標(biāo)準(zhǔn)差關(guān)系,間接估計得到樣本均數(shù)的標(biāo)準(zhǔn)差估計樣本均數(shù)的標(biāo)準(zhǔn)差,為了區(qū)分樣本的標(biāo)準(zhǔn)差和樣本均數(shù)的標(biāo)準(zhǔn)差,故稱為標(biāo)準(zhǔn)為誤。為了幫助大家方便地進行模擬實習(xí),特地編制的相應(yīng)的Stata模擬程序:模擬正態(tài)分布的樣本均數(shù)分布的模擬程序simumean.ado復(fù)制到Stata軟件安裝的目錄下的子目錄ado\base。例如:Stata軟件安裝在D:\stata,則simumean.ado復(fù)制到d:\stata\ado\base然后啟動Stata軟件后,輸入連接命令:netsetadod:\stata\ado\base若Stata安裝在其他目錄下,則相應(yīng)改變上述路徑便是(這是一次性操作,以后無需再重復(fù)進行)。這是模擬抽10000個正態(tài)分布的樣本,具體說明如下:舉例說明simumean樣本量均數(shù)標(biāo)準(zhǔn)差例如模擬抽10000個正態(tài)分布的樣本,樣本量為4、總體均數(shù)是20、標(biāo)準(zhǔn)差為6,則操作如下:simumean4206得到下列結(jié)果(隨機的)模擬習(xí)題,考察不同樣本量情況下,的1)運行正態(tài)分布的樣本均數(shù)模擬程序simumean.ado的差異,95標(biāo)準(zhǔn)差與%范圍的比較。考察頻數(shù)圖的變化,xlabelbin(40)graph變量名考察原始資料:graphx1,xlabelbin(40)考察樣本均數(shù)(變量名為mean)graphmean,xlabelbin(40)考察:原始資料和樣本均數(shù)的峰的位置,離散程度??疾旆钦龖B(tài)分布情況下,樣本均數(shù)可以運行下列程序雙峰分布的樣本均數(shù)分布程序:simubpeak.ado自由度為1的c2分布的樣本均數(shù)模擬程序simuchi.ado把上述程序復(fù)制到路徑:\stata\ado\base連接:netsetado路徑:\stata\ado\base操作:simubpeak.ado樣本量simuchi.ado樣本量考察原始資料的分布和樣本均數(shù)的分布變化,原始資料所在總體分布的頻數(shù)圖:graphx1,bin(40)xlabel樣本均數(shù)的抽樣分布的頻數(shù)圖:graphmeanx,bin(40)xlabel考察原始資料x1,x2的標(biāo)準(zhǔn)差和樣本均數(shù)meanx的標(biāo)準(zhǔn)差考察不同樣本量對樣本均數(shù)分布的影響。可以證明:樣本量較大時,樣本均數(shù)的分布趨向于正態(tài)分布(稱為中心極限定理),并且樣本均數(shù)的總體均數(shù)(理論均數(shù))仍與樣本所在總體相同標(biāo)準(zhǔn)誤)=(樣本均數(shù)的總體標(biāo)準(zhǔn)差兩組計量資料平均水平的統(tǒng)計檢驗第四講.一、配對設(shè)計的平均水平檢驗統(tǒng)計方法選擇原則:如果配對的差值服從近似正態(tài)分布(小樣本)或大樣本,則用配對t檢驗小樣本的情況下,配對差值呈明顯偏態(tài)分布,則用配對秩符號檢驗(matched-pairssigned-rankstest)。例110例男性矽肺患者經(jīng)克矽平治療,其血紅蛋白/g/dL如下:問:治療前后的血紅蛋白的平均水平有沒有改變?這是一個典型的前后配對設(shè)計的研究(但不提倡,因為對結(jié)果的解釋可能會有問題)操作如下:gend=x1-x2產(chǎn)生配對差值的變量d正態(tài)性檢驗dswilk正態(tài)性檢驗的無效假設(shè)為:資料正態(tài)分布相應(yīng)的備選假設(shè)為:資料非正態(tài)分布α=0.05,由于正態(tài)性檢驗的P值=0.40189>>α,故可以認為資料近似服從正態(tài)分布。μμα=0.05,≠H::=0vsH0:=0ttestd配對t檢驗dd01α,故認為治療前后的血紅蛋白的平均數(shù)差異沒有統(tǒng)計學(xué)意義。即:沒值=0.2237>P有足夠的證據(jù)可以認為治療前后的血紅蛋白的總體平均數(shù)不同。如果已知差值的樣本量,樣本均數(shù)和樣本標(biāo)準(zhǔn)差,可以用立即命令如下(如,已知樣本量為10,差值的樣本均數(shù)為-0.66,差值的標(biāo)準(zhǔn)差為1.65,則輸入命令如下:ttesti樣本量樣本均數(shù)樣本標(biāo)準(zhǔn)差0本例為:ttesti10-0.661.650結(jié)果解釋與結(jié)論同上述相同。如果對于小樣本的情況下,差值不滿足正態(tài)分布,則用Match-Sign-ranktest,操作如下:signrank差值變量名=0假如本例不滿足正態(tài)分布(為了借用上例資料,而假定的,實際上本例滿足正態(tài)分布)則H:差值的中位數(shù)=00(其意義是治療前的血紅蛋白配大于治療后的血紅蛋白的概率=治療前的血紅蛋白小于治療后的血紅蛋白的概率)α=0.0510H:差值的中位數(shù)1.α,故沒有足夠的證據(jù)說明兩個總體不同。P值=0.3583>>二、平行對照設(shè)計的兩組資料平均水平統(tǒng)計檢驗統(tǒng)計方法選擇原則:如果兩組資料的方差齊性和相互獨立的,并且每組資料服從正態(tài)分布(大樣本資料可以忽略正態(tài)性問題),則用成組t檢驗,否則可以用成組Wilcoxon秩和檢驗。例2為研究噪聲對紡織女工子代智能是否有影響,一研究人員在某紡織廠隨機抽取接觸噪聲95dB(A)、接觸工齡5年以上的紡織女工及同一單位、條件與接觸組相近但不接觸噪聲的女職工,其子女(學(xué)前幼兒)作為研究對象,按韋氏學(xué)前兒童智力量表(中國修訂版)測定兩組幼兒智商,結(jié)果如下。問噪聲對紡織女工子代智能有無影響?(接觸組group=0,不接觸組group=1)資料及其結(jié)果如下:α,因此可以認為兩組方差齊性的。=0.8389>>值P正態(tài)性檢驗:H:資料服從正態(tài)分布vsH:資料偏態(tài)分布10α=0.05每一組資料正態(tài)性檢驗αμμ的95%可信區(qū)間為-(-17.73557,-7.144429)值P(<0.0001)<可以知道,,并且有10不接觸組幼兒的平均智商高于接觸組的幼兒平均智商,并且差別有統(tǒng)計學(xué)意義。如果已知兩組的樣本量、樣本均數(shù)和樣本標(biāo)準(zhǔn)差,也可以用立即命令進行統(tǒng)計檢驗ttesti樣本量1樣本均數(shù)1樣本標(biāo)準(zhǔn)差1樣本量2樣本均數(shù)2樣本標(biāo)準(zhǔn)差2例如:本例第1組n1=25均數(shù)1=89.08標(biāo)準(zhǔn)差1=9.115第2組n2=25均數(shù)2=101.52標(biāo)準(zhǔn)差2=9.505則ttesti2589.089.11525101.529.505結(jié)果解釋同上。方差不齊的情況,(小樣本時,資料正態(tài)分布)還可以用t'檢驗命令:ttest觀察變量名,by(分組變量名)unequal立即命令為:ttesti樣本量1均數(shù)1標(biāo)準(zhǔn)差1樣本量2均數(shù)2標(biāo)準(zhǔn)差2,unequal假定本例的資料方差不齊(實際為方差不齊的),則要用t'檢驗如下ttestx,by(group)unequal結(jié)果解釋同上。t'檢驗有許多方法,這里介紹的Satterthwaite方法,主要根據(jù)兩個樣本方差差異的程度校正相應(yīng)的自由度,由于本例的兩個樣本方差比較接近,故自由度幾乎沒有減少(t檢驗的自由度為48,而本例t'自由度為47.9159)。由于t檢驗要求的兩組總體方差相同(稱為方差齊性),以及由于抽樣誤差的原因,樣本方差一般不會相等,但是方差齊性的情況下,樣本方差表現(xiàn)為兩個樣本方差之比≈1。(注意:兩個樣本方差之差很小,仍可能方差不齊。如:第一個樣本標(biāo)準(zhǔn)差為0.1,樣本量為100,第2個樣本標(biāo)準(zhǔn)差為0.01,樣本量為100,兩個樣本標(biāo)準(zhǔn)差僅差0.09,但是兩個樣本方差之比為100。故用方差齊性檢驗的結(jié)果如下:方差齊性的立即命令為sdtesti樣本量1.標(biāo)準(zhǔn)差1樣本量2.標(biāo)準(zhǔn)差2P值<0.0001,因此認為兩組的方差不齊。故方差齊性是考察兩個樣本方差之比是否接近1。如果本例的資料不滿足t檢驗要求(注:實際是滿足的,只是想用本例介紹成組秩和檢驗),則用秩和檢驗(WilcoxonRanksumtest)。H:兩組資料所在總體相同0H:兩組資料所在總體不同1α=0.05命令:ranksum觀察變量名,by(分組變量)α,故認為兩個總體不同值<0.0001<P習(xí)題一、某地隨機抽樣調(diào)查了部分健康成人紅細胞數(shù)和血紅蛋白量,結(jié)果如下,請就此資料統(tǒng)計分析:)該地健康成年男女血紅蛋白含量有無差別?(1(2)該地男女兩項血液指標(biāo)是否均低于上表的標(biāo)準(zhǔn)值(若測定方法相同)?二、為了解聾啞學(xué)生學(xué)習(xí)成績與血清鋅含量的關(guān)系,某人按年齡、性別和班級在聾啞學(xué)校隨機抽取成績優(yōu)、差的14對學(xué)生進行配對研究,得其結(jié)果如下。問聾啞學(xué)生學(xué)習(xí)成績與血清鋅含量有無關(guān)系?教學(xué)應(yīng)用:考察影響t檢驗結(jié)果的各種因素1.首先把程序ttest2.ado和程序ttestexp.ado復(fù)制到stata所在的目錄下\ado\base(例如:Stata軟件安裝在D:\stata,則把這兩個程序復(fù)制到d:\stata\ado\base目錄下。然后輸入連接命令:在Stata環(huán)境下,輸入netsetado路徑\stata\ado\base。(路徑表示Stata所在的盤符和目錄)2.程序ttest2.ado是模擬在正態(tài)總體中隨機抽10000個樣本,每個樣本有2組,兩組α=0.05的樣本量、正態(tài)分布的總體均數(shù)和標(biāo)準(zhǔn)差由讀者選擇輸入,考察的情況下,考察當(dāng)兩個總體均數(shù)相同時拒絕H的比例(拒絕的頻率估計第一類錯誤)是否接近0.05和0當(dāng)兩個總體均數(shù)不同時接受H的比例(估計發(fā)生第二類錯誤的概率)。0運行ttest2.ado的輸入命令為:ttest2樣本量1均數(shù)1標(biāo)準(zhǔn)差1樣本量2均數(shù)2標(biāo)準(zhǔn)差2μμ=的拒絕H(610030例如:考察兩組樣本量均為,總體均數(shù)均為,標(biāo)準(zhǔn)差均為10)比例,結(jié)果如下:2.μμ),因=次拒絕t值,結(jié)果有494H(個在隨機抽10000個樣本中,計算了10000201α=0.05。此非常接近建議讀者運行程序ttest2考察下列情況μμβ)估計的比例H≠1目的:時,不同的樣本量,考察下列不同情況下的接受(012以及兩組樣本量之比不同的情況對檢驗結(jié)果的影響。3.程序ttestexp.ado是模擬在指數(shù)分布總體中隨機抽10000個樣本,每個樣本有2α=0.05組,兩組的樣本量和總體均數(shù)由讀者選擇輸入,考察的情況下,考察當(dāng)兩個總體均數(shù)相同時拒絕H的比例(拒絕的頻率估計第一類錯誤)是否接近0.05和當(dāng)兩個總體0均數(shù)不同時接受H的比例(估計發(fā)生第二類錯誤的概率)。0運行ttestexp.ado的輸入命令為:ttestexp樣本量1均數(shù)1樣本量2均數(shù)2μμ)的比例,結(jié)果如=(的拒絕,總體均數(shù)均為例如:考察兩組樣本量均為101H201下:μμα=0.05,較遠??疾煜铝袠颖玖壳闆r與偏態(tài)3.7%=)的比例為,離開(H拒絕210分布造成的影響之間的關(guān)系。您能從上述模擬結(jié)果可以得到下列結(jié)論μμ時且方差齊性的正態(tài)分布情況下,n=n時,拒絕H的比例比較高,可(1)當(dāng)≠02112以證明t檢驗中,兩組樣本量為n和n,則其檢驗效能等價于每組樣本量相同21=。特別當(dāng)兩組樣本量之比為n:knn時,則樣本量等價于,也就是說,如果一組的樣本量為10,另一組的樣本量再大,其檢驗效能也不會超過兩組樣本量相同且為20的統(tǒng)計檢驗效能。μμα,但是n=n=,拒絕H的比例偏離(2)當(dāng)方差不齊時,且時,方差不齊對結(jié)20121果的影響將下降。(3)資料偏態(tài)分布,則小樣本時,偏態(tài)分布對結(jié)果有影響,大樣本時,偏態(tài)分布對結(jié)果基本無影響。第五講多組平均水平的比較一、復(fù)習(xí)和補充兩組比較的統(tǒng)計檢驗1.配對設(shè)計資料(又稱為DependentSamples)(1)對于小樣本的情況下,如果配對的差值資料服從正態(tài)分布,用配對t檢驗(ttest差值變量=0)(2)大樣本的情況下,可以用配對t檢驗(3)小樣本的情況下,并且配對差值呈偏態(tài)分布,則用配對符號秩檢驗(signrank差值變量=0)2.成組設(shè)計(TwoIndependentSamples)(1)如果方差齊性并且大樣本情況下,可以用成組t檢驗(ttest效應(yīng)指標(biāo)變量,by(分組變量))(2)如果方差齊性并且兩組資料分別呈正態(tài)分布,可以用成組t檢驗(3)如果方差不齊,或者小樣本情況下偏態(tài)分布,則用秩和檢驗(Ranksumtest)資料二、多組比較1.完全隨機分組設(shè)計(要求各組資料之間相互獨立)(1)方差齊性并且獨立以及每一組資料都服從正態(tài)分布(小樣本時要求),則采用完全隨機設(shè)計的方差分析方法(即:單因素方差分析,OneWayANOVA)進行分析。(2)方差不齊或小樣本情況下資料偏態(tài),則用KruskalWallis檢驗(H檢驗)例5.1為研究胃癌與胃粘膜細胞中DNA含量(A.U)的關(guān)系,某醫(yī)師測得數(shù)據(jù)如下,試問四組人群的胃粘膜細胞中平均DNA含量是否相同?由于這四組對象的資料是相互獨立的,因此屬于完全隨機分組類型的。檢驗問題是考察四組DNA含量的平均水平相同嗎。如果每一組資料都正態(tài)分布并且方差齊性可以用Oneway-ANOVA進行分析,反之用KruskalWallis檢驗。Stata數(shù)據(jù)輸入格式上述結(jié)果表明每一組資料都服從正態(tài)分布。單因素方差分析的Stata命令:oneway效應(yīng)指標(biāo)變量分組變量,tb其中t表示計算每一組均數(shù)和標(biāo)準(zhǔn)差,b表示采用Bonferroni統(tǒng)計方法進行兩兩比較。本例命令為onewayxgroup,tb方差齊性的檢驗為:卡方=1.1354,自由度=3,P值=0.769,因此可以認為方差是齊性的。μμμμ=四組總體均數(shù)相同H:==41302μμμμ不全相同:,,,H43112α=0.05,相應(yīng)的統(tǒng)計量F=77.87以及相應(yīng)的自由度為3和43,P值<0.0001,因此4組均數(shù)的差別有統(tǒng)計學(xué)意義。上述輸出為兩兩比較的結(jié)果,在表格的每個單元中,第一行為兩組均數(shù)的差值,第二行為兩組均數(shù)比較檢驗的P值。根據(jù)上述結(jié)果可以知道,第2組、第3組和第4組的AU均數(shù)均大于第1組的AU均數(shù),并且差別有統(tǒng)計學(xué)意義。說明腸化生患者和胃癌患者的DNA的AU含量平均水平均高于正常人的AU平均水平,并且差別有統(tǒng)計學(xué)意義。第3組和第4組的AU均數(shù)也大于第2組的AU平均水平,并且差別有統(tǒng)計學(xué)意義。說明胃癌患者的DNA的AU含量平均水平均高于腸化生患者的AU平均水平,并且差別有統(tǒng)計學(xué)意義。第3組和第4組兩組均數(shù)的差別沒有統(tǒng)計學(xué)意義,說明沒有足夠的證據(jù)可以DNA的AU含量與癌癥的早期與晚期有關(guān)系。假如本例的資料不滿足方差分析的要求,則用KruskalWallis檢驗,數(shù)據(jù)結(jié)構(gòu)同上。命令為:kwallis效應(yīng)指標(biāo)變量,by(分組變量)本例的命令為kwallisx,by(g)H:4組的AU總體分布相同0H:4組的AU總體分布不全相同1α=0.05α應(yīng)取小一些(多重比較組說明:4AU的總體分布不全相同,然后秩和檢驗,但為k,其中檢驗的建議:Sidak。根據(jù))時,會增大第一類錯誤的概率.αα'為兩兩比較時的檢驗水0.05)要比較的次數(shù),,為多組比較總的檢驗水平(一般為平。,對于比較第組兩兩比較共比次,因此如本例:41組和第2組的AU分布差別的操作命令為:先計算中位數(shù)sortg組別變量排序byg:centilex,centile(50)計算各組中位數(shù)α',因此第2組AU的平均水平要高于第1組的平均水平(M>P值<M),并且差別12有統(tǒng)計學(xué)意義。α',因此第3組AU的平均水平要高于第1組的平均水平(值P<M>M),并且差別13有統(tǒng)計學(xué)意義,其他比較類似進行。.要注意的問題:在方差分析中,要求每一組資料服從正態(tài)分布(小樣本時),并不是要求各組資料服從一個正態(tài)分布(因為這就意味各組的總體均數(shù)相同,失去統(tǒng)計檢驗的必要性),所以不能把各組的資料合在一起作正態(tài)性檢驗??偟闹v,方差分析對正態(tài)性具有穩(wěn)健性,即:α取0.05偏態(tài)分布對方差分析的結(jié)果影響不會太大,故正態(tài)性檢驗的也就可以了。樣本量較大時,方差分析對正態(tài)性要求大大降低(根據(jù)中心極限定理可知:樣本均數(shù)近似服從正態(tài)分布)。并且由于大多數(shù)情況下,樣本資料只是近似服從正態(tài)分布而不是完全服從正態(tài)分布。由于在大樣本情況下,用正態(tài)性檢驗就變?yōu)楹苊舾?,對于不是完全服從正態(tài)分布的資料往往會拒絕正態(tài)性檢驗的H:資料服從正態(tài)分布。因為正態(tài)性0檢驗不能檢驗資料是否近似服從正態(tài)分布,而是檢驗是否服從正態(tài)分布。故在大樣本情況下,考察資料的近似正態(tài)性,應(yīng)用頻數(shù)圖進行考察。方差齊性問題對方差分析相對比較敏感,并且并不是隨著樣本量增大而方差齊性對方差分析減少影響的。但是當(dāng)各組樣本量接近相同或相同時,方差齊性對方差分析呈現(xiàn)某種穩(wěn)健性。即:只有當(dāng)各組樣本量相同時,方差齊性對方差分析結(jié)果的影響大大降低。這時隨著樣本量增大,影響會進一步降低。相反,如果各組樣本量相差太大時,方差齊性對方差分析結(jié)果的影響很大。這時隨著樣本量增大,影響會進一步加大。2.隨機區(qū)組設(shè)計(處理組之間可能不獨立),也就是隨機區(qū)組方差分析中的誤差項)殘差(定義為:的a)方差齊性且小樣本時正態(tài)分布,則用隨機區(qū)組的方差分析(無重復(fù)的兩因素方差分析,Two-wayANOVA)。b)不滿足方差齊性或小樣本時資料偏態(tài),則對用秩變換后再用隨機區(qū)組的方差分析也可以直接用非參數(shù)隨機區(qū)組的秩和檢驗Fredmantest)。例2下表是某湖水中8個觀察地點不同季節(jié)取樣的氯化物含量測定值,請問在不同季節(jié)該湖水中氯化物的含量有無差別?顯然同一地點不同季節(jié)的氯化物含量有一定的相關(guān)性,故不能采用完全隨機設(shè)計的方差分析方法對4個季節(jié)的氯化物含量進行統(tǒng)計分析??梢园淹坏攸c的4個季節(jié)氯化物含量視為一個區(qū)組,因此可以用隨機區(qū)組的方差分析進行統(tǒng)計分析。μ,同樣在冬季,第i個地點在冬季的氯化物總體均數(shù)為個地點的氯化物總設(shè)第80體均數(shù)與第8個地點在冬季的氯化物總體均數(shù)相差b,i=1,2,3,4,5,6,7。因此i在冬季的這8個地點在冬季的氯化物總體均數(shù)可以表示為α,因此春假定在同一地區(qū),春季的氯化物總體均數(shù)與冬季的氯化物總體均數(shù)相差1節(jié)和冬季的氯化物總體均數(shù)可以表示為αα>0說明春季的=0說明在同一地點,冬季和春季的氯化物總體均數(shù)相同;如果11α<0氯化物含量平均高于冬季氯化物含量,反之,說明春季氯化物含量均數(shù)低于冬季氯化物含量。同理假定在同一地區(qū),夏季和秋季的氯化物總體均數(shù)與冬季的氯化物總體均數(shù)分別αα,則四個季節(jié)的氯化物總體均數(shù)可以表示為和相差32.根據(jù)上述總體均數(shù)表示,可以知道:在四個季節(jié)中的氯化物總體均數(shù)(同一地點)無變ααα=0(在隨機區(qū)組方差分析中稱為無處理效應(yīng),但不能稱=化就是H:4=組的總3102體均數(shù)相同,因為在同一季節(jié)中不同地點的總體均數(shù)可能不同)。ααα不全為0H:,,3121stata數(shù)據(jù)輸入格式其中id表示觀察地點編號,t=1,2,3,4對應(yīng)表示春節(jié)、夏季、秋季和冬季。Stata操作命令:ααα=的檢驗對應(yīng)的統(tǒng)計量=0H處理效應(yīng):=3012相應(yīng)的P值<0.0001(計算機輸出值是0.0000),所以拒絕無效假設(shè),可以認為4個季節(jié)的氯化物總體均數(shù)不全相同。不同季節(jié)中的兩兩比較用LSD方法檢驗如下:在輸入anovaxtid命令后,再輸入regress命令便得到下列結(jié)果α=0的統(tǒng)計量t=11.95,P值<0.001,95%可其中,對應(yīng)的假設(shè)檢驗H:10信區(qū)間為(5.022,7.139),因此可以認為春季的氯化物平均高于冬季,差別有統(tǒng)計學(xué)意義。α=0的統(tǒng)計量t=7.50,P值<0.001,:,對應(yīng)的假設(shè)檢驗H95%可信區(qū)20間為(2.758,4.874),因此可以認為夏季的氯化物平均高于冬季,差別有統(tǒng)計學(xué)意義。α=0的統(tǒng)計量t=2.37,P:值=0.027,95%可信區(qū)間,對應(yīng)的假設(shè)檢驗H30為(0.1494,2.266),因此可以認為秋季的氯化物平均高于冬季,差別有統(tǒng)計學(xué)意義。μαβμαβ)++比較對應(yīng)為)與夏季的氯化物平均數(shù)對于春季氯化物平均數(shù)((++ii1020αααααααααα,相≠=vs和H<的問題。因此需要檢驗H:>:、=220211112211應(yīng)的Stata命令(anovaxtid命令和regress命令后)為testb[t[1]]=_b[t[2]],得到下列結(jié)果αα的的估計值<0.0001,差別有統(tǒng)計學(xué)意義。由于>相應(yīng)的統(tǒng)計量F=26.28,P值21估計值,所以可以認為春季氯化物平均高于夏季的氯化物含量。αααα,只需輸入命令testb[t[1]]=_b[t[3]]≠=vsH:同理檢驗H:330111αααα,只需輸入命令testb[t[2]]=_b[t[3]]H::檢驗H此處不在詳細=≠vs321302敘述了。由于隨機區(qū)組方差分析要求殘差()服從正態(tài)分布,再輸入regress以后,只要輸入predict殘差變量名,residual,就可以得到殘差計算值。本例用e表示殘差變量名,因此輸入predicte,residual就可以得到殘差計算值e,然后對殘差進行正態(tài)性檢驗(sktest殘差變量名)本例輸入命令為:sktesteα,因此可以認為資料近似服從正態(tài)分布。(=0.93349>>P值大樣本時,可以不考慮)正態(tài)性問題.如果資料呈偏態(tài)分布,可以對資料進行秩變換(RankTransform)后,然后把變換后的秩視為原始數(shù)據(jù)進行隨機區(qū)組的方差分析。秩變換的Stata命令為egen秩變量名=rank(觀察變量名),by(區(qū)組變量)為了說明上述操作分析的過程,故借用本例資料進行秩變換操作說明如下(本例資料正態(tài)分布,無需用秩變換,只是說明操作而言).設(shè)用r表示秩變量名,則本例操作為egenr=rank(x),by(id)產(chǎn)生秩ranova命令anovartid結(jié)果如下第六講線性相關(guān)和回歸在實際研究中,經(jīng)常要考察兩個指標(biāo)之間的關(guān)系,即:相關(guān)性?,F(xiàn)以體重與身高的關(guān)系為例,分析兩個變量之間的相關(guān)性。要求身高和體重呈雙正態(tài)分布,既:在身高和體重平均數(shù)的附近的頻數(shù)較多,遠離身高和體重平均數(shù)的頻數(shù)較少。樣本相關(guān)系數(shù)計算公式(稱為Pearson相關(guān)系數(shù)):(1)考察隨機模擬相關(guān)的情況1.顯示兩個變量相關(guān)的散點圖程序simur.ado(本教材配套程序,使用見前言)。命令為simur樣本量總體相關(guān)系數(shù)ρ=0,100的散點圖如顯示樣本量為本例命令為simur1000ρ的散點圖=0.8如顯示樣本量為200,simur2000.8本例命令為ρ的散點圖=0.99,如顯示樣本量為200simur2000.99本例命令為ρ的散點圖200,=-0.99如顯示樣本量為simur200-0.99本
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人工承包合同協(xié)議范本格式格式模板
- 贛州房屋買賣合同條款
- 沙石運輸業(yè)務(wù)協(xié)議書
- 石材采購合同文本
- 砌筑分包工程勞務(wù)合同模板
- 廣告服務(wù)合同的共贏策略
- 建設(shè)項目運營移交合同的履行要點
- 大學(xué)生貸款助學(xué)的合同范本解析
- 牛只選購合同
- 河道整治勞務(wù)分包合同
- 2024年浙江紹興市高速公路運營管理有限公司招聘筆試參考題庫含答案解析
- 大學(xué)生勞動教育-南京大學(xué)2中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年
- 中西經(jīng)典對話(英語)暨南大學(xué)2023年秋期末答案
- 中國民族民間器樂 課件-2023-2024學(xué)年高中音樂湘教版(2019)必修音樂鑒賞
- 排球場租用協(xié)議
- 眶尖綜合征的護理查房
- 航道疏浚工程課件
- 微信公眾號總結(jié)匯報
- 科學(xué)哲學(xué)-機械論自然觀
- 綜合能源管理系統(tǒng)平臺方案設(shè)計及實施合集
- 第12課+自覺抵制犯罪(課時2)【中職專用】中職思想政治《職業(yè)道德與法治》高效課堂(高教版2023·基礎(chǔ)模塊)
評論
0/150
提交評論