概率分布和抽樣分布_第1頁
概率分布和抽樣分布_第2頁
概率分布和抽樣分布_第3頁
概率分布和抽樣分布_第4頁
概率分布和抽樣分布_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

Stata軟件基本操作和數(shù)據(jù)分析入門第三講概率分布和抽樣分布

趙耐青概率分布累積函數(shù).標(biāo)準(zhǔn)正態(tài)分布累積函數(shù)norm(X).t分布右側(cè)累積函數(shù)ttail(df,X),其中df是自由度.產(chǎn)分布累積函數(shù)chi2(df,X),其中df是自由度.產(chǎn)分布右側(cè)累積函數(shù)chi2tail(df,X),其中df是自由度.F分布累積函數(shù)F(df1,df2,X),df1為分子自由度,df2為分母自由度.F分布右側(cè)累積函數(shù)F(df1,df2,X),df1為分子自由度,df2為分母自由度累積函數(shù)的計(jì)算使用正態(tài)分布計(jì)算X服從N(0,1),計(jì)算概率P(X<1.96).displaynorm(1.96).9750021 即概率P(X<1.96)=0.9750021display可簡寫為di,如:dinorm(1.96),同樣可以得到上述結(jié)果。X服從N(0,1),計(jì)算概率P(X>1.96),則.di1-norm(1.96).0249979 即概率P(X>1.96)=0.0249979X服從N(%6),則y=—?N(0,1),因此對其他正態(tài)分布只要在函O數(shù)括號(hào)中插入一個(gè)上述表達(dá)式就可以得到相應(yīng)概率。例如:X服從N(100,62),計(jì)算概率P(X<111.76),則操作如下.dinorm((111.76-100)/6).9750021 即:概率P(X<111.76)=0.9750021又如X服從N(100,62),計(jì)算概率P(X>90),操作如下.di1-norm((90-100)/6).95220965設(shè)X服從自由度為1的%2分布,計(jì)算概率P(X>3.84),則操作如下.di1-chi2(1,3.84).05004353 概率P(X>3.84)=0.05004353設(shè)X服從自由度為3的%2分布,計(jì)算概率P(X<5),則操作如下.dichi2(3,5).82820288概率P(X<5)=0.82820288產(chǎn)分布右側(cè)累積概率計(jì)算設(shè)X服從自由度為1的%2分布,計(jì)算概率P(X>3.84),則操作如下.dichi2tail(1,3.84).05004353概率P(X>3.84)=0.05004353設(shè)X服從自由度為3的%2分布,計(jì)算概率P(X<5),則操作如下.dichi2(3,5).82820288概率P(X<5)=0.82820288

t分布右側(cè)累積概率計(jì)算設(shè)t服從自由度為10的t分布,計(jì)算概率P(t>2.2),操作如下.dittail(10,2.2).02622053概率P(t>2.2)=0.02622053(注意:這是右累積函數(shù)).02622053設(shè)t服從自由度為10的t分布,計(jì)算概率P(t<—2),操作如下.di1-ttail(10,-2).03669402概率P(t<.03669402概率P(t<-2)=0.03669402F分布累積概率計(jì)算設(shè)F服從F(3,27),計(jì)算概率P(F<1),操作如下:.diF(3,27,1) 注意這里的函數(shù)是大寫F,stata軟件中是區(qū)分大小寫的.59208514概率.59208514概率P(F<1)=0.59208514設(shè)F服從F(4,40),計(jì)算概率P(F>3),操作如下:.di1-F(4,40,3).02954694概率P(F>3)=0.02954694F分布右側(cè)累積概率計(jì)算設(shè)F服從F(3,27),計(jì)算概率P(F<1),操作如下:.di1-Ftail(3,27,1) 注意這里的函數(shù)是大寫F,stata軟件中是區(qū)分大小寫的.59208514概率P(F<1)=0.59208514設(shè)F服從F(4,40),計(jì)算概率P(F>3),操作如下:.diFtail(4,40,3)

.02954694概率.02954694概率P(F>3)=0.02954694概率分布的臨界值計(jì)算正態(tài)分布的臨界值計(jì)算函數(shù)invnorm(P)例如:雙側(cè)U0.05(即:左側(cè)累積概率為0.975),操作如下.diinvnorm(0.975)1.959964 即U005=1.959964t分布的臨界值計(jì)算函數(shù)invchi2tail(df,P),操作例如計(jì)算自由度為28的右側(cè)累積概率為0.025的臨界值t,操作28,a如下.diinvttail(28,0.025)2.0484071 臨界值t28a=2.0484071%2分布的臨界值計(jì)算函數(shù)invchi2(df,P)或invchi2tail(df,P)例如:計(jì)算自由度為1的%2右側(cè)累積概率為0.05的臨界值%20.05,操作如下:.diinvchi2(1,0.95)3.8414591 臨界值%20.0尸3.8414591或者操作如下:.diinvchi2tail(1,0.05)3.8414591 臨界值200尸3.8414591F分布的臨界值計(jì)算函數(shù)invF(df1,df2,P)或invF(df1,df2,P)例如計(jì)算分子自由度為3和分母自由度27的右側(cè)累積概率為0.05的臨界值,操作如下:.diinvF(3,27,0.95)2.9603513 臨界值F005(3,27)=2.9603513或者操作為:.diinvFtail(3,27,0.05)2.9603513 臨界值F005(3,27)=2.9603513產(chǎn)生隨機(jī)數(shù)計(jì)算機(jī)所產(chǎn)生的隨機(jī)數(shù)是通過一串很長的序列數(shù)模擬隨機(jī)數(shù),故稱為偽隨機(jī)數(shù),在實(shí)際應(yīng)用這些隨機(jī)數(shù)時(shí),這些隨機(jī)數(shù)一般都能具有真實(shí)隨機(jī)數(shù)的所有概率性質(zhì)和統(tǒng)計(jì)性質(zhì),因此可以產(chǎn)生許許多多的序列偽隨機(jī)數(shù),一個(gè)序列的第一個(gè)隨機(jī)數(shù)對應(yīng)一個(gè)數(shù),這個(gè)數(shù)稱為種子數(shù)(seed),因此可以利用種子數(shù),使隨機(jī)數(shù)重復(fù)實(shí)現(xiàn)。設(shè)置種子數(shù)的命令為setseed數(shù)。每次設(shè)置同一種子數(shù),則產(chǎn)生的隨機(jī)序列是相同的。產(chǎn)生(0,1)區(qū)間上的均勻分布的隨機(jī)數(shù)uniform()例如產(chǎn)生種子數(shù)為100的20個(gè)在(0,1)區(qū)間上的均勻分布的隨機(jī)數(shù),則操作如下:clear 清除內(nèi)存setseed100設(shè)置種子數(shù)為100setobs20 設(shè)置樣本量為20genr=uniform()產(chǎn)生20個(gè)在(0,1)區(qū)間上均勻分布的隨機(jī)數(shù)。list 顯示這些隨機(jī)數(shù)結(jié)果如下r.7185296.1646728.9258041.1833736.0067327.7413361.3599943.1634543.445553.6489049.3799431.5964895.0251346.2164402.6848479.1270018.6466258.1869288.452238420??067132利用均勻分布隨機(jī)數(shù)進(jìn)行隨機(jī)分組:例:某實(shí)驗(yàn)要把20只大鼠隨機(jī)分為2組,每組10只,請制定隨機(jī)分組方案和措施。第一步、把20只大鼠編號(hào),1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20。并且標(biāo)明。第二步、用Stata軟件制定隨機(jī)分組方案,操作如下:

clearsetseed200clearsetseed200setobs20rangeno120genr=unifOrm()gengroup=1sortr設(shè)置種子數(shù)為200設(shè)置樣本量為20建立編號(hào)1至20產(chǎn)生在(0,1)均勻分布的隨機(jī)數(shù)設(shè)置分組變量group的初始值為1對隨機(jī)數(shù)從小到大排序replacegroup=2in11/20設(shè)置最大的10個(gè)隨機(jī)數(shù)所對應(yīng)的記錄為第2組,即:最小的10個(gè)隨機(jī)數(shù)所對應(yīng)的記錄為第1組sortno 按照編號(hào)排序list 顯示隨機(jī)分組的結(jié)果結(jié)果如下:norgroup1.1.951200722.2.524987623.3.512998614.4.12643915.5.586616126.6.705920927.7.263328618.8.564468829.9.1171033110.10.954065211.11.4822863112.12.3347736113.13.5678902214.14.7994431215.15.1180503116.16.9834299217.17.2807874118.18.095245119.19.9446051220.20.34675241隨機(jī)分組整理如下第一組編號(hào) 3 4 7 9 11 12 15 17 18 20第二組編號(hào) 1 2 5 6 8 10 13 14 16 19產(chǎn)生服從正態(tài)分布N(g,B)的隨機(jī)數(shù)invnorm(uniform())*b+即例如產(chǎn)生10個(gè)服從正態(tài)分布N(100,62)的隨機(jī)數(shù),操作如下:clear 清除內(nèi)存setseed200 設(shè)置種子數(shù)為200setobs10 設(shè)置樣本量為10genx=invnorm(uniform())*6+100 產(chǎn)生服從N(100,62)的隨機(jī)數(shù)list 顯示隨機(jī)數(shù)結(jié)果如下:109.9397100.3761100.195593.13968101.3131103.24996.2013100.973992.86244110.1137教學(xué)應(yīng)用:考察樣本均數(shù)的分布。由于個(gè)體變異的原因,樣本均數(shù)元的抽樣誤差(其定義為樣本均數(shù)與總體均數(shù)的差值)是不可避免的,并且樣本均數(shù)的抽樣誤差是呈隨機(jī)變化的。對于一次抽樣而言,無法考察樣本均數(shù)的抽樣誤差的規(guī)律性,但當(dāng)大量地重復(fù)抽樣,計(jì)算每次抽樣的樣本均數(shù)X,考察樣本均數(shù)X的隨機(jī)分布規(guī)律性和統(tǒng)計(jì)特征。舉例如下:利用計(jì)算機(jī)模擬產(chǎn)生100000個(gè)服從正態(tài)分布N(100,62)的樣本,樣本量分別為n=4,n=9,n=16,n=36,每個(gè)樣本計(jì)算樣本均數(shù)。這里關(guān)鍵處是要清楚什么是樣本量(每次抽樣所觀察的對象個(gè)數(shù),也就是每個(gè)樣本的個(gè)體數(shù)n)、什么是樣本個(gè)數(shù)(指抽樣的次數(shù)),現(xiàn)以n=4為例,一條記錄存放一個(gè)樣本,樣本量n=4,也就是每個(gè)樣本的第1個(gè)數(shù)據(jù)放在第1列,第2個(gè)數(shù)據(jù)放在第2歹U,第3個(gè)數(shù)據(jù)放在第3列,第4個(gè)數(shù)據(jù)放在第4列,因此第1行是第一個(gè)樣本,第2行是第2個(gè)樣本,第100000行是第100000個(gè)樣本,計(jì)算樣本均數(shù)放在第5列,因此共有100000個(gè)樣本均數(shù)。具體操作如下:clear清除內(nèi)存setmemory60m擴(kuò)大虛擬內(nèi)存為60Msetobs100000設(shè)置記錄數(shù)為100000setseed200設(shè)置種子數(shù)為200genx1=invnorm(uniform())*6+100產(chǎn)生第1個(gè)隨機(jī)數(shù)據(jù)genx2=invnorm(uniform())*6+100產(chǎn)生第2個(gè)隨機(jī)數(shù)據(jù)genx3=invnorm(uniform())*6+100產(chǎn)生第3個(gè)隨機(jī)數(shù)據(jù)genx4=invnorm(uniform())*6+100產(chǎn)生第4個(gè)隨機(jī)數(shù)據(jù)genmean=(x1+x2+x3+x4)/4計(jì)算平均數(shù),并且存放在變量名為meansumean以樣本均數(shù)為數(shù)據(jù),計(jì)算其平均值和標(biāo)準(zhǔn)差結(jié)果Variable|ObsMeanStd.Dev.MinMax1mean|10000099.983883.00222587.97424112.0461現(xiàn)共有100000個(gè)樣本,每個(gè)樣本計(jì)算一個(gè)樣本均數(shù),因此有100000個(gè)樣本均數(shù),現(xiàn)在把一個(gè)樣本均數(shù)X視為一個(gè)數(shù)據(jù),把100000個(gè)樣本均數(shù)視為一個(gè)樣本量為100000的新樣本(這個(gè)樣本里有100000個(gè)X),計(jì)算這100000個(gè)X的平均值和標(biāo)準(zhǔn)差:得到:這100000個(gè)X的平均值=99.98388非常接近總體均數(shù)四=100這100000個(gè)X的標(biāo)準(zhǔn)差=3.002225汽義=A=3(理論上可以證明樣n<4本均數(shù)的總體均數(shù)與樣本所在的總體的總體均數(shù)相同,樣本均數(shù)的標(biāo)準(zhǔn)差=樣本所在總體的總體標(biāo)準(zhǔn)差)nn再考察這100000個(gè)X的頻數(shù)圖graphmean,bin(50)xlabelylabelnorm

nolEca^rnolEca^r90 100 110mean可以發(fā)現(xiàn)正態(tài)分布的樣本均數(shù)仍呈正態(tài)分布,峰的位置在 =100。再考察這100000個(gè)X的百分位數(shù)Variable|1ObsPercentileCentile一Binom.[95%Conf.Interp.--Interval]1mean|1000002.594.1122494.0593494.15675|595.0483195.0075895.08677|5099.9767299.95568100.0002|95104.9248104.8881104.9571|97.5105.8656105.8161105.9181比較理論上的百分位數(shù)百分位數(shù)Stata操作理論百分位數(shù)模擬百分位數(shù)P2.5di100+invnorm(0.025)*394.12010894.11224P5di100+invnorm(0.05)*395.06543995.04831P50di100+invnorm(0.5)*310099.97672P95di100+invnorm(0.95)*3104.93456104.9248P97.5di100+invnorm(0.975)*3105.87989105.8656可以發(fā)現(xiàn)理論上的百分位數(shù)與模擬數(shù)據(jù)的百分位數(shù)非常接近??梢宰C明:樣本量越大,這種X的誤差小的可能性越大。由于在實(shí)際研究中,只有一個(gè)樣本,因此只有一個(gè)樣本均數(shù),無法如模擬數(shù)據(jù)一樣計(jì)算樣本均數(shù)的標(biāo)準(zhǔn)差,但是一個(gè)樣本的數(shù)據(jù)可以計(jì)算樣本的標(biāo)準(zhǔn)差S樣本的標(biāo)準(zhǔn)差S近似6利用樣本均數(shù)的標(biāo)準(zhǔn)差關(guān)系,間接為了區(qū)分樣本的標(biāo)準(zhǔn)差估計(jì)得到樣本均數(shù)的標(biāo)準(zhǔn)差估計(jì)為S一=三,為了區(qū)分樣本的標(biāo)準(zhǔn)差xnn和樣本均數(shù)的標(biāo)準(zhǔn)差,故稱s-=工為標(biāo)準(zhǔn)誤。xnn為了幫助大家方便地進(jìn)行模擬實(shí)習(xí),特地編制的相應(yīng)的stata模擬程序:模擬正態(tài)分布的樣本均數(shù)分布的模擬程序simumean.ado復(fù)制到stata軟件安裝的目錄下的子目錄ado\base。例如:stata軟件安裝在D:\stata,則simumean.ado復(fù)制到d:\stata\ado\base然后啟動(dòng)stata軟件后,輸入連接命令:netsetadod:\stata\ado\base若stata安裝在其他目錄下,則相應(yīng)改變上述路徑便是(這是一次性操作,以后無需再重復(fù)進(jìn)行)。這是模擬抽10000個(gè)正態(tài)分布的樣本,具體說明如下:舉例說明simumean樣本量均數(shù)標(biāo)準(zhǔn)差例如模擬抽10000個(gè)正態(tài)分布的樣本,樣本量為4、總體均數(shù)是20、標(biāo)準(zhǔn)差為6,則操作如下:simumean4206得到下列結(jié)果(隨機(jī)的)Variable|ObsMeanStd.Dev.MinVariable|ObsMeanStd.Dev.MinMaxmean| 10000 19.99352 2.990616 8.344506 31.40937ssd| 10000 5.511469 2.346368 .258496 15.51934即10000個(gè)樣本均數(shù)(視為一個(gè)新的樣本數(shù)據(jù))的平均值為19.99352,總

體均數(shù)20,10000個(gè)樣本均數(shù)的標(biāo)準(zhǔn)差=2.990616^-64二總體標(biāo)準(zhǔn)差二3。理論上,樣本均數(shù)X理論上,樣本均數(shù)X的95%范圍是葉1.96=20±1.96X3=(14.12,25.88)變量樣本量%百分位數(shù)一Binom.Interp.--Variable| Obs1PercentileCentile[95%Conf.Interval]mean1| 100002.514.1962914.01392 14.31436|515.0889914.9628115.2017|5019.9653719.8896320.03251|9524.9111124.7826825.05202|97.525.9274225.7509226.05995比較10000個(gè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論