版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)分析
(方法與案例)
作者賈俊平版權(quán)所有違者必究StatisticswithR統(tǒng)計學(xué)R語言第4
章隨機(jī)變量的概率分布4.1度量事件發(fā)生的可能性3.2隨機(jī)變量概率分布3.3由正態(tài)分布導(dǎo)出的幾個重要分布3.4樣本統(tǒng)計量的概率分布robabilityP4.1什么是概率概率是什么?怎樣獲得概率?怎樣理解概率?第4章隨機(jī)變量的概率分布2018-9-25什么是概率?
(probability)對事件發(fā)生的可能性大小的度量明天降水的概率是80%。這里的80%就是對降水這一事件發(fā)生的可能性大小的一種數(shù)值度量購買一只股票明天上漲的可能性是30%,這也是一個概率一個介于0和1之間的一個值事件A的概率記為P(A)2018-9-25怎樣獲得概率?重復(fù)試驗獲得概率當(dāng)試驗的次數(shù)很多時,概率P(A)可以由所觀察到的事件A發(fā)生次數(shù)(頻數(shù))的比例來逼近在相同條件下,重復(fù)進(jìn)行n次試驗,事件A發(fā)生了m次,則事件A發(fā)生的概率可以寫為
用類似的比例來逼近一家餐館將生存5年的概率,可以用已經(jīng)生存了5年的類似餐館所占的比例作為所求概率一個近似值主觀概率
4.2隨機(jī)變量的概率分布
4.2.1隨機(jī)變量及其概括性度量
4.2.2隨機(jī)變量的概率分布
4.2.3其他幾個重要的統(tǒng)計分布
第4章隨機(jī)變量的概率分布4.2.1隨機(jī)變量及其概括性度量4.2隨機(jī)變量的概率分布2018-9-25什么是隨機(jī)變量?
(randomvariables)事先不知道會出現(xiàn)什么結(jié)果投擲兩枚硬幣出現(xiàn)正面的數(shù)量一座寫字樓,每平方米的出租價格一個消費(fèi)者對某一特定品牌飲料的偏好一般用X,Y,Z來表示根據(jù)取值情況的不同分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量2018-9-25離散型隨機(jī)變量
(discreterandomvariables)隨機(jī)變量X
取有限個值或所有取值都可以逐個列舉出來x1,x2,…以確定的概率取這些不同的值離散型隨機(jī)變量的一些例子試驗隨機(jī)變量可能的取值抽查100個產(chǎn)品一家餐館營業(yè)一天電腦公司一個月的銷售銷售一輛汽車取到次品的個數(shù)顧客數(shù)銷售量顧客性別0,1,2,…,1000,1,2,…0,1,2,…男性為0,女性為12018-9-25連續(xù)型隨機(jī)變量
(continuousrandomvariables)可以取一個或多個區(qū)間中任何值所有可能取值不可以逐個列舉出來,而是取數(shù)軸上某一區(qū)間內(nèi)的任意點(diǎn)連續(xù)型隨機(jī)變量的一些例子試驗隨機(jī)變量可能的取值抽查一批電子元件新建一座住宅樓測量一個產(chǎn)品的長度使用壽命(小時)半年后完工的百分比測量誤差(cm)X
00X100X
02018-9-25離散型隨機(jī)變量的期望值
(expectedvalue)描述離散型隨機(jī)變量取值的集中程度離散型隨機(jī)變量X的所有可能取值xi與其取相對應(yīng)的概率pi乘積之和記為
或E(X),計算公式為
2018-9-25離散型隨機(jī)變量的方差
(variance)
2018-9-25離散型數(shù)學(xué)期望和方差
(例題分析)
【例4—1】一家手機(jī)制造商聲稱,它們所生產(chǎn)的手機(jī)100個中擁有次品的個數(shù)及相應(yīng)的概率如下表所示。求該手機(jī)次品數(shù)的期望值和標(biāo)準(zhǔn)差次品數(shù)X=xi0123概率P(X=xi)
pi0.750.120.080.052018-9-25用R計算期望值和方差#計算期望值#計算方差計算標(biāo)準(zhǔn)差
load("C:/example/ch4/example4_1.RData")mymean<-sum(example4_1$次品數(shù)*example4_1$概率)mymean
myvar<-sum((example4_1$次品數(shù)-mymean)^2*example4_1$概率)myvarsqrt(myvar)2018-9-25連續(xù)型隨機(jī)變量的期望和方差連續(xù)型隨機(jī)變量的期望值方差
4.2.2隨機(jī)變量的概率分布4.2隨機(jī)變量的概率分布2018-9-25離散型隨機(jī)變量的概率分布列出離散型隨機(jī)變量X的所有可能取值列出隨機(jī)變量取這些值的概率通常用下面的表格來表示X=xix1,x2,…
,xnP(X=xi)=pip1,p2,…
,pn
P(X=xi)=pi稱為離散型隨機(jī)變量的概率函數(shù)pi0;常用的有二項分布、泊松分布、超幾何分布等2018-9-25二項試驗
(Bernoulli試驗)
二項分布建立在Bernoulli試驗基礎(chǔ)上貝努里試驗滿足下列條件一次試驗只有兩個可能結(jié)果,即“成功”和“失敗”“成功”是指我們感興趣的某種特征一次試驗“成功”的概率為p,失敗的概率為q=1-p,且概率p對每次試驗都是相同的
試驗是相互獨(dú)立的,并可以重復(fù)進(jìn)行n次
在n次試驗中,“成功”的次數(shù)對應(yīng)一個離散型隨機(jī)變量X
2018-9-25二項分布
(Binomialdistribution)重復(fù)進(jìn)行
n
次試驗,出現(xiàn)“成功”次數(shù)的概率分布,記為X~B(n,p)設(shè)X為n次重復(fù)試驗中出現(xiàn)成功的次數(shù),X取x
的概率為期望值:
=E(X)=np;方差:
2
=D(X)=npq
2018-9-25用R模擬二項分布#二項分布Binomial(5,b)圖
k=seq(.1,.9,.1)par(mfrow=c(3,3),mai=c(.6,.5,.2,.1))for(iin1:9)
barplot(dbinom(0:5,5,k[i]),xlab="x",ylab="p",ylim=c(0,.6),main=substitute(B(5,b),list(b=k[i])),col="red")2018-9-25用R計算二項分布的概率#計算二項分布的概率沒有次品的概率
恰好有1個次品的概率3個及3個以下次品的概率【例4-2】已知一批產(chǎn)品的次品率為6%,從中任意有放回地抽取5個。求5個產(chǎn)品中(1)沒有次品的概率是多少?(2)恰好有1個次品的概率是多少?(3)有3個及以下次品的概率是多少?dbinom(0,5,0.06)dbinom(1,5,0.06)pbinom(3,5,0.06)2018-9-25連續(xù)型隨機(jī)變量的概率分布連續(xù)型隨機(jī)變量可以取某一區(qū)間或整個實數(shù)軸上的任意一個值它取任何一個特定的值的概率都等于0不能列出每一個值及其相應(yīng)的概率通常研究它取某一區(qū)間值的概率用概率密度函數(shù)的形式和分布函數(shù)的形式來描述2018-9-25正態(tài)分布
(normaldistribution)由C.F.高斯(CarlFriedrichGauss,1777—1855)作為描述誤差相對頻數(shù)分布的模型而提出描述連續(xù)型隨機(jī)變量的最重要的分布許多現(xiàn)象都可以由正態(tài)分布來描述可用于近似離散型隨機(jī)變量的分布例如:二項分布經(jīng)典統(tǒng)計推斷的基礎(chǔ)2018-9-25概率密度函數(shù)f(x)=隨機(jī)變量X的頻數(shù)
=正態(tài)隨機(jī)變量X的均值
=正態(tài)隨機(jī)變量X的方差
=3.1415926;e=2.71828x=隨機(jī)變量的取值(-
<x<+
)
2018-9-25正態(tài)分布函數(shù)的性質(zhì)圖形是關(guān)于x=
對稱鐘形曲線,且峰值在x=
處均值
和標(biāo)準(zhǔn)差
一旦確定,分布形式也惟一確定,不同參數(shù)正態(tài)分布構(gòu)成一個完整的“正態(tài)分布族”均值
可取實數(shù)軸上的任意數(shù)值,決定正態(tài)曲線的具體位置;標(biāo)準(zhǔn)差決定曲線的“陡峭”或“扁平”程度。
越大,正態(tài)曲線扁平;
越小,正態(tài)曲線越高陡峭X的取值向橫軸左右兩個方向無限延伸,曲線的兩個尾端也無限漸近橫軸,理論上永遠(yuǎn)不會與之相交在特定區(qū)間上的取值概率由正態(tài)曲線下的面積給出,而且其曲線下的總面積等于1
2018-9-25用R模擬正態(tài)分布
(繪制平均數(shù)不同、方差相同的正態(tài)曲線)par(mai=c(0.75,0.75,0.1,0.1),cex=0.9)curve(dnorm(x,-2,1),from=-6,to=2,xlim=c(-6,6),ylab="f(x)",lty=1,lwd=3,col="red")abline(h=0);mtext(expression(mu^2+sigma^2))segments(-2,0,-2,0.4,lwd=2,col="red")curve(dnorm(x,2,1),from=-2,to=6,add=TRUE,lty=2,col="blue",lwd=3)abline(h=0)segments(2,0,2,0.4,col="blue",lty=2,lwd=2)legend(x="topright",legend=c("N(-2,1)","N(2,1)"),lty=1:2,inset=0.02,col=c("black","blue"))2018-9-25用R模擬正態(tài)分布
(繪制平均數(shù)相同、方差不同的正態(tài)曲線)par(mai=c(0.75,0.75,0.1,0.1),cex=0.9)curve(dnorm(x,0,sqrt(1/2)),from=-3,to=3,xlim=c(-4,4),ylab="f(x)",lty=1,col=2,lwd=3)abline(h=0)segments(0,0,0,0.56,col="blue",lty=2,lwd=1.5)curve(dnorm(x,0,1),from=-4,to=4,add=TRUE,lty=2,lwd=3)curve(dnorm(x,0,sqrt(2)),from=-4,to=4,add=TRUE,lty=3,col=4,lwd=3)legend(x="topright",legend=c("N(0,0.5)","N(0,1)","N(0,2)"),lty=1:3,inset=0.02,col=c(2,"black",4))2018-9-25標(biāo)準(zhǔn)正態(tài)分布的概率2018-9-25常用區(qū)間的正態(tài)概率2018-9-25標(biāo)準(zhǔn)正態(tài)分布
(standardizenormaldistribution)隨機(jī)變量具有均值為0,標(biāo)準(zhǔn)差為1的正態(tài)分布任何一個一般的正態(tài)分布,可通過下面的線性變換轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù)
2018-9-25正態(tài)分布
(例題分析)【例4-3】計算以下概率
(1)
X~N(50,102),求和
(2)
Z~N(0,1),求和
(3)正態(tài)分布概率為0.05時,求標(biāo)準(zhǔn)正態(tài)累積分布函數(shù)的反函數(shù)值z
#計算正態(tài)分布的概率和分位數(shù)(1)pnorm(40,mean=50,sd=10)pnorm(40,mean=50,sd=10)-pnorm(30,mean=50,sd=10)(2)pnorm(2.5,mean=0,sd=1)pnorm(2,mean=0,sd=1)-pnorm(-1.5,mean=0,sd=1)(3)qnorm(0.025,mean=0,sd=1)4.2.3其他幾個重要的統(tǒng)計分布4.2隨機(jī)變量的概率分布2018-9-25
c2-分布
(
2-distribution)2018-9-25分布的變量值始終為正分布的形狀取決于其自由度n的大小,通常為不對稱的正偏分布,但隨著自由度的增大逐漸趨于對稱期望為:E(
2)=n,方差為:D(
2)=2n(n為自由度)可加性:若U和V為兩個獨(dú)立的
2分布隨機(jī)變量,U~
2(n1),V~
2(n2),則U+V這一隨機(jī)變量服從自由度為n1+n2的
2分布c2-分布
(性質(zhì)和特點(diǎn))2018-9-25模擬不同自由度的c2分布直方圖#不同自由度的c2分布(df=5)par(mfrow=c(2,3),mai=c(.6,.6,.2,.1))n=5000df=c(2,5,10,15,20,30)for(iin1:6){x<-rchisq(n,df[i])hist(x,xlim=c(0,60),prob=T,col='lightblue',xlab=expression(chi^2),ylab="Density",main=paste("df=",df[i]))curve(dchisq(x,df[i]),lwd=1.5,col=2,add=T)}2018-9-25用R計算c2分布的概率#計算c2分布的概率和分位數(shù)
pchisq(10,df=15)1-pchisq(20,df=15)qchisq(0.95,df=15)2018-9-25t-分布
(t-distribution)
2018-9-25不同自由度的t分布與標(biāo)準(zhǔn)正態(tài)分布的比較par(mai=c(0.75,0.75,0.1,0.1),cex=0.9)curve(dnorm(x,0,1),from=-3,to=3,xlim=c(-4,4),ylab="f(x)",lty=1,lwd=2,col=1)abline(h=0)segments(0,0,0,0.4,col="blue",lty=2,lwd=1.5)curve(dt(x,5),from=-4,to=4,add=TRUE,lty=2,col=2,lwd=2)curve(dt(x,2),from=-4,to=4,add=TRUE,lty=3,col=4,lwd=2)legend(x="topright",legend=c("N(0,1)","t(5)","t(2)"),lty=1:3,inset=0.02,col=c(1,2,4))2018-9-25用R計算t分布的概率#計算t分布的概率和分位數(shù)【例4—5】計算:(1)自由度為10,t值小于-2的概率;(2)自由度為10,t值大于3的概率;(3)自由度為10,t分布雙尾概率為0.05時的t值pt(-2,df=10)1-pt(3,df=15)qt(0.975,df=25)2018-9-25
F-分布
(F
distribution)2018-9-25用R模擬F分布曲線#不同自由度的F分布par(mai=c(0.75,0.75,0.1,0.1),cex=0.9)curve(df(x,10,20),from=0,to=5,xlim=c(0,5),xlab="F",ylab="f(x)",lty=1,lwd=3,col=1)curve(df(x,5,10),from=0,to=5,add=TRUE,lty=2,lwd=3,col=2)curve(df(x,3,5),from=0,to=5,add=TRUE,lty=3,lwd=3,col=4)abline(h=0);abline(v=0)legend(x="topright",legend=c("F(10,20)","F(5,10)","F(3,5)"),lty=1:3,inset=0.02,col=c(1,2,4))2018-9-25用R計算F分布的概率#計算F分布的概率和分位數(shù)【例4—6】計算:(1)分子自由度為10,分母自由度為8,F(xiàn)值小于3的概率;(2)分子自由度為18,分母自由度為15,F(xiàn)值大于2.5的概率;(3)分子自由度為25,分母自由度為20,F(xiàn)分布累積概率為0.95時的F值pf(3,df1=10,df2=8)1-pf(2.5,df1=10,df2=8)qf(0.95,df1=10,df2=8)4.3樣本統(tǒng)計量的概率分布
4.3.1統(tǒng)計量及其分布
4.3.2樣本均值的分布
4.3.3其他統(tǒng)計量的分布
4.3.4統(tǒng)計量的標(biāo)準(zhǔn)誤第4章隨機(jī)變量的概率分布4.3.1統(tǒng)計量及其分布4.3樣本統(tǒng)計量的概率分布2018-9-25參數(shù)和統(tǒng)計量參數(shù)(parameter)描述總體特征的概括性數(shù)字度量一個總體的參數(shù):總體均值(
)、標(biāo)準(zhǔn)差(
)、總體比例(
);兩個總體參數(shù):(
1-2)、(
1-2)、(
1/2)總體參數(shù)通常用希臘字母表示統(tǒng)計量(statistic)用來描述樣本特征的概括性數(shù)字度量,它是根據(jù)樣本數(shù)據(jù)計算出來的一些量,是樣本的函數(shù)一個總體參數(shù)推斷時的統(tǒng)計量:樣本均值(
x)、樣本標(biāo)準(zhǔn)差(s)、樣本比例(p)等兩個總體參數(shù)推斷時的統(tǒng)計量:(
x1-
x2)、(p1-p2)、(s1/s2)樣本統(tǒng)計量通常用小寫英文字母來表示2018-9-25樣本統(tǒng)計量的概率分布,是一種理論分布在重復(fù)選取容量為n的樣本時,由該統(tǒng)計量的所有可能取值形成的相對頻數(shù)分布隨機(jī)變量是樣本統(tǒng)計量樣本均值,樣本比例,樣本方差等結(jié)果來自容量相同的所有可能樣本提供樣本統(tǒng)計量長遠(yuǎn)而穩(wěn)定的信息,是進(jìn)行推斷的理論基礎(chǔ)抽樣分布
(samplingdistribution)4.3.2樣本均值的分布4.3樣本統(tǒng)計量的概率分布2018-9-25在重復(fù)選取容量為n的樣本時,由樣本均值的所有可能取值形成的相對頻數(shù)分布一種理論概率分布推斷總體均值
的理論基礎(chǔ) ·樣本均值的分布2018-9-25樣本均值的分布
(例題分析)
樣本序號樣本元素1樣本元素2樣本均值12222243326442855210664237444846594861041071162412645…………2018-9-25樣本均值的分布與總體分布的比較load("C:/example/ch4/example4_7.RData")xx<-c(2,4,6,8,10)par(mfrow=c(1,2),mai=c(0.8,0.8,0.1,0.1))barplot(table(xx),xlab="總體分布",ylab="頻率",cex.axis=0.7,cex.lab=0.7,col="pink")hist(example4_7$樣本均值,breaks=rep(1.5:10.5,by=2),ylab="頻率",xlab="樣本均值的分布",freq=FALSE,col="lightblue",cex.axis=0.7,cex.lab=0.7,main="")curve(dnorm(x,mean(example4_7$樣本均值),sd(example4_7$樣本均值)),add=T,col="red",lwd=2)2018-9-25中心極限定理
(centrallimittheorem)當(dāng)總體服從正態(tài)分布N(μ,σ2)時,來自該總體的所有容量為n的樣本的均值
x也服從正態(tài)分布,
x
的期望值為μ,方差為σ2/n。即
x~N(μ,σ2/n)中心極限定理從均值為
,方差為
2的一個任意總體中抽取容量為n的樣本,當(dāng)n充分大時,樣本均值的抽樣分布近似服從均值為μ、方差為σ2/n的正態(tài)分布2018-9-25樣本均值的分布與中心極限定理模擬#中心極限定理模擬U=均勻分布E=指數(shù)分布2018-9-25抽樣分布與總體分布的關(guān)系2018-9-25樣本均值的分布樣本均值的期望值和方差樣本均值的分布
(期望值與方差)
4.3.3其他統(tǒng)計量的分布4.3樣本統(tǒng)計量的概率分布2018-9-25總體(或樣本)中具有某種屬性的單位與全部單位總數(shù)之比不同性別的人與全部人數(shù)之比合格品(或不合格品)與全部產(chǎn)品總數(shù)之比總體比例可表示為樣本比例可表示為
樣本比例的分布
(proportion)2018-9-25在重復(fù)選取容量為n的樣本
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 哺乳期解除勞動合同協(xié)議范本
- 2024年房屋補(bǔ)漏維修工程合同
- 2024專項資金借款的合同范本
- 員工聘用合同協(xié)議書范文2024年
- 建設(shè)工程內(nèi)部承包合同書2024年
- 2024新款供貨合同協(xié)議書
- 2024【流動資金外匯借貸合同】公司流動資金合同
- 2024年公司股東之間借款合同實例
- 專業(yè)房屋買賣合同模板大全
- 2024年事業(yè)單位聘用
- 高??爝f包裝回收現(xiàn)狀分析及對策-以廣東省中山市三大高校為例
- 初創(chuàng)企業(yè)財務(wù)管理計劃書
- 新民事訴訟書范文追債通用21篇
- 100ml生理鹽水的配制講解
- 加油站消防安全基本常識
- 熱力集團(tuán)招聘試題
- 如何預(yù)防生銹醫(yī)療器械
- 西蒙決策理論研究
- 人教鄂教版小學(xué)科學(xué)三年級下冊全冊教案教學(xué)設(shè)計
- 學(xué)前教育教研工作計劃與目標(biāo)
- pvc卷材樓地面施工工藝
評論
0/150
提交評論