劉文麗-應(yīng)用概率統(tǒng)計(jì)2014_第1頁
劉文麗-應(yīng)用概率統(tǒng)計(jì)2014_第2頁
劉文麗-應(yīng)用概率統(tǒng)計(jì)2014_第3頁
劉文麗-應(yīng)用概率統(tǒng)計(jì)2014_第4頁
劉文麗-應(yīng)用概率統(tǒng)計(jì)2014_第5頁
已閱讀5頁,還剩262頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

劉文/p>

應(yīng)用概率統(tǒng)計(jì)

課程內(nèi)容(針對(duì)教材)概率論基礎(chǔ)回顧與R統(tǒng)計(jì)軟件【熟悉】數(shù)理統(tǒng)計(jì)基本概念與抽樣分布【掌握】參數(shù)估計(jì)【掌握*】假設(shè)檢驗(yàn)【掌握*】含6.1非參數(shù)檢驗(yàn)回歸分析【掌握*】7.

方差分析與正交試驗(yàn)【掌握*】8.

多元統(tǒng)計(jì)分析【了解】課程目標(biāo)1.掌握數(shù)理統(tǒng)計(jì)的基本理論和具體方法2.結(jié)合R統(tǒng)計(jì)軟件應(yīng)用各種統(tǒng)計(jì)方法

3.提供一種解決實(shí)際問題的思路參考文獻(xiàn)1.教材:《應(yīng)用統(tǒng)計(jì)方法》,梁飛豹等編著,北京大學(xué)出版社2.高惠璇,統(tǒng)計(jì)計(jì)算,應(yīng)用多元統(tǒng)計(jì)分析,北京大學(xué)出版社3.薛毅,陳立萍,統(tǒng)計(jì)建模與R軟件,清華大學(xué)出版社4.吳喜之,復(fù)雜數(shù)據(jù)統(tǒng)計(jì)方法—基于R的應(yīng)用,中國人民大學(xué)出版社引例:生活中的問題1.彩票中獎(jiǎng)能預(yù)測(cè)嗎?2.如果一對(duì)夫妻第一胎是女孩可再生一個(gè)小孩,但不能生育第三個(gè)小孩,這樣的政策是否會(huì)影響下一代男女比例?3.抽簽?zāi)筹嬃?,其容量是否明顯不合格?4.收入與學(xué)歷是否有關(guān)?近視與性別是否有關(guān)?5.能否預(yù)測(cè)今年第一次強(qiáng)冷空氣出現(xiàn)日期?6.紅樓夢(mèng)后40回是否是高鶚續(xù)寫的?第一章概率論基礎(chǔ)及R軟件使用1、隨機(jī)事件及其概率2、一維隨機(jī)變量及分布3、多維隨機(jī)變量及分布4、數(shù)字特征5、大數(shù)定律及中心極限定理6、R軟件使用第一章概率論基礎(chǔ)布萊士·帕斯卡(1623-1662)雅各布·伯努利(?1654-1705)泊松(1781—1840)棣莫弗(1667-1754)拉普拉斯(1749-1827)高斯(1777-1855)第一章概率論基礎(chǔ)安德列·柯爾莫哥洛夫(1903-1987)1.1隨機(jī)事件及其概率樣本空間與隨機(jī)事件事件的概率條件概率與乘法公式事件的獨(dú)立性1.2隨機(jī)變量及其分布隨機(jī)變量及分布函數(shù)所謂隨機(jī)變量及其分布隨機(jī)變量函數(shù)的分布名稱概率分布數(shù)學(xué)期望方差兩點(diǎn)分布二項(xiàng)分布泊松分布正態(tài)分布均勻分布指數(shù)分布1.3隨機(jī)變量的數(shù)字特征數(shù)學(xué)期望方差協(xié)方差與相關(guān)系數(shù)多維隨機(jī)變量的數(shù)字特征多維隨機(jī)變量的數(shù)字特征多維隨機(jī)變量的數(shù)字特征1.4極限定理初步隨機(jī)變量序列的收斂性多維隨機(jī)變量的數(shù)字特征中心極限定理設(shè)X是n次獨(dú)立試驗(yàn)中事件A發(fā)生的次數(shù),p是事件A在每次試驗(yàn)中發(fā)生的概率,則對(duì)任給的ε>0,■伯努利大數(shù)定律1654-17051.4大數(shù)定律■切比雪夫大數(shù)定律設(shè){Xn}是兩兩不相關(guān)的隨機(jī)變量序列,它們的期望、方差均存在并且D(Xi)≤C,i=1,2,…,則對(duì)任意的ε>0,有1.4大數(shù)定律1821—18941.4大數(shù)定律設(shè){Xn}為獨(dú)立同分布隨機(jī)變量序列,若每個(gè)Xi的數(shù)學(xué)期望存在,即E(Xi)=μ,i=1,2,…,則{Xn}服從大數(shù)定律,即對(duì)任意的ε>0,有■辛欽大數(shù)定律(蘇)1894~19591.4中心極限定理設(shè)X1,X2,…是獨(dú)立同分布的隨機(jī)序列,且E(Xi)=,D(Xi)=,i=1,2,…,令■林德伯格-列維(獨(dú)立同分布)中心極限定理)則Yn的分布函數(shù)收斂到標(biāo)準(zhǔn)正態(tài)分布函數(shù),即當(dāng)n充分大時(shí),n個(gè)具有期望和方差的獨(dú)立同分布的隨機(jī)變量之和近似服從正態(tài)分布.■棣莫弗-拉普拉斯(二項(xiàng)分布)中心極限定理設(shè)隨機(jī)變量 ,令則Yn的分布函數(shù)收斂到標(biāo)準(zhǔn)正態(tài)分布函數(shù),即棣莫弗1667-17541.4中心極限定理定理表明,當(dāng)n很大,0<p<1是一個(gè)定值時(shí),服從二項(xiàng)分布的變量X近似服從正態(tài)分布N(np,np(1-p)).1.5R統(tǒng)計(jì)軟件

S語言(AT&TBell)RS-PlusRobertGentlemanRossIhaka奧克蘭大學(xué)MathSoft公司開源免費(fèi)…基本語法向量矩陣列表數(shù)據(jù)框與分布相關(guān)的函數(shù)數(shù)據(jù)的圖形表示1.5R統(tǒng)計(jì)軟件基本語法1.變量使用即定義:變量名區(qū)分大小寫,也可用中文命名變量賦值可采用4種形式:=,<-,->,assign()變量類型自動(dòng)由變量賦值確定。a=10;b<-20;30->c;assign(“d”,40)中國=“中華人民共和國”#生成字符串變量2.注釋符號(hào)# 語句連接符;1.5R統(tǒng)計(jì)軟件3.查看幫助help(round)?abs向量向量的賦值(一維數(shù)組,下標(biāo)從1開始)a=c(d1,d2,d3,…)間隔為1的等差序列:a:b指定間隔的等差序列:seq(from,to,by)重復(fù)序列:rep(vec,times)

rep(vec,times,len,each)

a=c(3,5,8,10);b=1:10;c=seq(1,10,2);d=seq(-pi,pi,0.2)e=rep(a,3);f=rep(a,2,each=3)隨機(jī)向量rnorm(10)#10個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)數(shù)1.5R統(tǒng)計(jì)軟件a=1:5a[2] #取出a中第二個(gè)元素a[c(2,4)]=c(4,8) #修改a中第2、4個(gè)元素分別為4、8a[-5] #扣除第5個(gè)元素取出來a=a[-c(1,3,5)]#去掉第1、3、5元素.a<3 #判斷a中元素是否小于3[1]TRUETRUEFALSEFALSEFALSEa[a<3] #取出a中小于3的元素2.向量的下標(biāo)運(yùn)算1.5R統(tǒng)計(jì)軟件matrix(data=NA,nrow=1,ncol=1,byrow=FALSE)

A=matrix(1:10,2,5)B=matrix(1:10,2,5,byrow=TRUE)#按行放置元素注意:默認(rèn)是按列放置元素[,1][,2][,3][,4][,5][1,]12345[2,]678910[,1][,2][,3][,4][,5][1,]13579[2,]246810

矩陣(二維數(shù)組)

1.5R統(tǒng)計(jì)軟件x=matrix(rnorm(24),4,6)#第2行第三列的元素x[2,4]#第1和第3列x[,c(1,3)]#除去第1、3列的數(shù)據(jù)

x[,-c(1,3)]

1.矩陣的元素訪問1.5R統(tǒng)計(jì)軟件2.矩陣的維數(shù)問題 dim(A)#獲得維數(shù),返回向量 nrow(A),ncol(A)#獲得行數(shù)和列數(shù)

rownames(A),colnames(A)#訪問各維名稱1.5R統(tǒng)計(jì)軟件3.矩陣運(yùn)算+,-,*,/分別是矩陣內(nèi)部元素的四則運(yùn)算向量矩陣間:向量按列匹配與矩陣運(yùn)算例如:A=matrix(1:6,nrow=3);B=matrix(10:15,nrow=3)C=c(100,200)則:A+BA*BA+C1117105210120413192270202105152136901032061.5R統(tǒng)計(jì)軟件A%*%B#乘法t(mat) #轉(zhuǎn)置det(mat) #行列式

solve(mat) #逆矩陣eigen(mat) #求特征值與特征向量cbind(A,B)#矩陣列拼合rbind(A,B)#矩陣行拼合

1.5R統(tǒng)計(jì)軟件列表列表是一種特殊的對(duì)象集合,各元素類型任意生成:list(name1=value1,…,namen=valuen)訪問/修改:對(duì)象名[[下標(biāo)]]或?qū)ο竺?nameistu=list(age=10,name=“Tom”,interests=c(“swimming”,”drawing”))stu[[2]]stu$namestu$name=“john”

names(stu)#得到所有的對(duì)象名1.5R統(tǒng)計(jì)軟件數(shù)據(jù)框是R的一種數(shù)據(jù)結(jié)構(gòu),以矩陣形式保存數(shù)據(jù)各列類型可以不同,每列為一變量,每行為樣品各列長度相等data.frame()stu=data.frame(name=c('Tom','Rose'),age=c(30,32))

names(stu)#得到所有的變量名colnames(stu) #列名rownames(stu)#得到行名x=as.data.frame(matrix(1:6,nrow=2))#矩陣轉(zhuǎn)化為數(shù)據(jù)框1.5R統(tǒng)計(jì)軟件數(shù)據(jù)框#從文件中獲取數(shù)據(jù)D1=read.table(“e:\\test1.txt”,header=TRUE)#從剪貼板中獲得文本數(shù)據(jù)D2=read.table(“clipboard”)#取出前兩行數(shù)據(jù)x[1:2,]#第一列的數(shù)據(jù)x[,1];#或x[[1]]1.5R統(tǒng)計(jì)軟件dnorm(x,mean=0,sd=1)#計(jì)算正態(tài)分布的密度函數(shù)pnorm(p,mean=0,sd=1)#計(jì)算正態(tài)分布的分布函數(shù)qnorm(q,mean=0,sd=1)#計(jì)算正態(tài)分布的分位數(shù)rnorm(n,mean=0,sd=1)#計(jì)算n個(gè)正態(tài)分布的隨機(jī)數(shù)其它分布的關(guān)鍵詞:unif,exp, chisq,t,f,binom, pois#得到參數(shù)為1的指數(shù)分布在2的密度函數(shù)值dexp(2,1)#產(chǎn)生5個(gè)均勻分布U(0,10)的隨機(jī)數(shù)runif(5,0,10)與分布相關(guān)的函數(shù)1.5R統(tǒng)計(jì)軟件數(shù)據(jù)的圖形表示1.5R統(tǒng)計(jì)軟件x=seq(-10,10,2);y=rnorm(11);plot(x,y)

plot(x,y,main="散點(diǎn)圖",xlab="橫坐標(biāo)x",ylab="縱坐標(biāo)y")plot(x,y,type="o",col="red",pch=2,lty=3)1.散點(diǎn)圖plot(x,y,…)type=“p”#散點(diǎn)圖,默認(rèn)type=“l(fā)’#繪實(shí)線type=“o”#實(shí)線通過所有的點(diǎn)type=“n”#不畫點(diǎn)參數(shù)lty表示線的類型0=blank,1=solid(default),2=dashed,3=dotted,4=dotdash,5=longdash,6=twodash

1.5R統(tǒng)計(jì)軟件低水平作圖函數(shù)有points(x=,y=) #增加點(diǎn)(x,y)lines(x=,y=)#增加(x,y)連成的線abline(a=,b=)#增加線y=a+bxtext(x=,y=,labels=)#增加文本legend(x,y=,legend,col)#增加標(biāo)注1.5R統(tǒng)計(jì)軟件1.5R統(tǒng)計(jì)軟件大數(shù)定律模擬mb=rep(0,400)for(iin1:400){x=rexp(50*i,0.5)mb[i]=mean(x)}plot(50*(1:400),mb,xlab="隨機(jī)數(shù)個(gè)數(shù)",ylab="平均值",col=rainbow(400))abline(h=2);1.5R統(tǒng)計(jì)軟件二項(xiàng)分布與正態(tài)分布的比較compare=function(N,p){plot(0:N,dbinom(0:N,N,p))x=seq(0,N,by=0.2);lines(x,dnorm(x,N*p,sqrt(N*p*(1-p))),col="red")}compare(30,0.2)第二章數(shù)理統(tǒng)計(jì)的基本概念與抽樣分布§2.1數(shù)理統(tǒng)計(jì)的基本概念§2.2經(jīng)驗(yàn)分布函數(shù)與直方圖§2.3統(tǒng)計(jì)中三個(gè)常見分布§2.4抽樣分布一個(gè)統(tǒng)計(jì)問題總有它明確的研究對(duì)象.■總體與樣本…研究某批燈泡的壽命研究對(duì)象的全體稱為總體,總體中每個(gè)成員稱為個(gè)體.總體2.1數(shù)理統(tǒng)計(jì)的基本概念為推斷總體分布及各種特征,隨機(jī)地從總體中抽取若干個(gè)體進(jìn)行觀察試驗(yàn),這一抽取過程稱為“抽樣”,所抽取的部分個(gè)體稱為樣本.樣本中所包含的個(gè)體數(shù)目稱為樣本容量.一旦取定一組樣本,得到的是n個(gè)數(shù)(x1,x2,…,xn),稱為樣本的一次觀察值,簡稱樣本觀測(cè)值.容量為n的樣本可以看作n維隨機(jī)變量(X1,X2,…,Xn)2.1數(shù)理統(tǒng)計(jì)的基本概念設(shè)X1,X2,…,Xn為總體X的一個(gè)容量為n的樣本。若它滿足獨(dú)立性,即X1,X2,…,Xn相互獨(dú)立;同分布性,即每個(gè)Xi都與總體X服從相同的分布.則稱這樣的樣本為簡單隨機(jī)樣本,簡稱為樣本。簡單隨機(jī)樣本2.1數(shù)理統(tǒng)計(jì)的基本概念總體、樣本、樣本值的關(guān)系總體(理論分布)?樣本樣本值統(tǒng)計(jì)是從手中已有的資料--樣本值,去推斷總體的情況---總體分布F(x)的性質(zhì).2.1數(shù)理統(tǒng)計(jì)的基本概念統(tǒng)計(jì)量設(shè)X1,X2,…,Xn是總體X的樣本,g(X1,X2,…,Xn)是樣本的實(shí)值函數(shù),且不包含任何未知參數(shù),則稱g(X1,X2,…,Xn)為統(tǒng)計(jì)量。2.1數(shù)理統(tǒng)計(jì)的基本概念樣本均值樣本方差常用統(tǒng)計(jì)量樣本k階原點(diǎn)矩樣本k階中心矩2.1數(shù)理統(tǒng)計(jì)的基本概念

2.1數(shù)理統(tǒng)計(jì)的基本概念樣本極差樣本中位數(shù)順序統(tǒng)計(jì)量將樣本按照其觀測(cè)值從小到大依次排序形成的有序變量稱為順序統(tǒng)計(jì)量。最小順序統(tǒng)計(jì)量 最大順序統(tǒng)計(jì)量R軟件中統(tǒng)計(jì)量的計(jì)算

mean(x) #樣本均值var(x);sd(x) #樣本方差和標(biāo)準(zhǔn)median(x)#樣本中位數(shù)range(x),min(x),max(x)#極差,最小,最大sort(x)#排序樣本

設(shè)X1,X2,…,Xn是取自總體X的樣本,對(duì)應(yīng)的次序統(tǒng)計(jì)量為X(1)

X(2)…X(n),當(dāng)給定次序統(tǒng)計(jì)量的觀測(cè)值x(1)

x(2)…x(n)時(shí),對(duì)任意實(shí)數(shù)x,稱下面函數(shù)為總體X的經(jīng)驗(yàn)分布函數(shù)。經(jīng)驗(yàn)分布函數(shù)2.2經(jīng)驗(yàn)分布函數(shù)與直方圖

例1:從總體X中抽取容量為8的樣本,其觀測(cè)值為33,45,25,33,35,65,30,27。試求X的經(jīng)驗(yàn)分布函數(shù)。

解:將樣本觀測(cè)值由小到大排序得25<27<30<33=33<35<45<652.2經(jīng)驗(yàn)分布函數(shù)與直方圖2.2經(jīng)驗(yàn)分布函數(shù)與直方圖定理(Glivenko(格列文科)1933):設(shè)總體X的分布函數(shù)為F(x),經(jīng)驗(yàn)分布函數(shù)為Fn(x),則有

經(jīng)驗(yàn)分布函數(shù)圖形繪制n=c(20,50,100,500);x=seq(-4,4,0.2);op=par(mfrow=c(2,2));for(iin1:4){plot(x,pnorm(x),type='l',col='red',main=paste('n=',n[i]))xr=rnorm(n[i]);lines(ecdf(xr),verticals=T,do.points=FALSE)#畫經(jīng)驗(yàn)分布函數(shù)折線}par(op)2.2經(jīng)驗(yàn)分布函數(shù)與直方圖

直方圖某地區(qū)30名2000年某專業(yè)畢業(yè)實(shí)習(xí)生實(shí)習(xí)期滿后的月薪數(shù)據(jù)如下:9091091967123210961164108610711572950808971112010818257751224950999113091412031044866132013369921025871738頻數(shù)直方圖繪制:hist(X)2.2經(jīng)驗(yàn)分布函數(shù)與直方圖

2.2經(jīng)驗(yàn)分布函數(shù)與直方圖

hist(X,breaks=seq(700,1600,150))#改進(jìn)頻數(shù)直方圖,修改區(qū)間hist(Y,breaks=seq(700,1600,150),freq=F)#畫組距比例直方圖2.3統(tǒng)計(jì)中三個(gè)常見分布記為定義:設(shè)相互獨(dú)立,都服從正態(tài)分布N(0,1),則稱隨機(jī)變量:

所服從的分布為自由度為n

的分布的密度函數(shù)為來定義.其中伽瑪函數(shù)通過積分2.3統(tǒng)計(jì)中三個(gè)常見分布2.3統(tǒng)計(jì)中三個(gè)常見分布性質(zhì)1:獨(dú)立可加性性質(zhì)2:期望為n,方差為2n性質(zhì)3:n充分大時(shí),近似服從正態(tài)分布N(n,2n)例1.設(shè)X1,X2,…,

Xn是來自總體N(μ,σ2)的簡單隨機(jī)樣本,求隨機(jī)變量2.3統(tǒng)計(jì)中三個(gè)常見分布2.3統(tǒng)計(jì)中三個(gè)常見分布T的密度函數(shù)為:記為T~t(n).

定義:設(shè)X~N(0,1),Y~,且X與Y相互獨(dú)立,則稱變量所服從的分布為自由度為n的t分布.2.t分布2.3統(tǒng)計(jì)中三個(gè)常見分布2.3統(tǒng)計(jì)中三個(gè)常見分布例2.設(shè)X1,X2,…,Xn是來自正態(tài)總體N(0,4)

的樣本,試問c=()統(tǒng)計(jì)量服從t分布?2.3統(tǒng)計(jì)中三個(gè)常見分布3.F分布服從自由度為n1及n2的F分布,n1稱為第一自由度,n2稱為第二自由度,記作F~F(n1,n2).定義:設(shè)X與Y相互獨(dú)立,則稱統(tǒng)計(jì)量2.3統(tǒng)計(jì)中三個(gè)常見分布2.3統(tǒng)計(jì)中三個(gè)常見分布F分布性質(zhì)1

若X~F(m,n),則1/X~F(n,m)F分布性質(zhì)2若X

~t(n),則X2~F(1,n)2.3統(tǒng)計(jì)中三個(gè)常見分布

例3.設(shè)X1,X2,…,Xn是來自正態(tài)總體N(0,1)

的樣本,試問c=()統(tǒng)計(jì)量服從F分布?■概率分布的分位點(diǎn)設(shè)隨機(jī)變量X的分布函數(shù)為F(x),α為給定的常數(shù),且0<α

<1.若存在xα,使2.3統(tǒng)計(jì)中三個(gè)常見分布則稱xα為隨機(jī)變量X關(guān)于α的上側(cè)分位點(diǎn)。常見分布的分位點(diǎn)標(biāo)準(zhǔn)正態(tài)分布卡方分布t(n)分布F(m,n)分布2.3統(tǒng)計(jì)中三個(gè)常見分布

分位點(diǎn)的性質(zhì)(1)(2)(3)2.3統(tǒng)計(jì)中三個(gè)常見分布R軟件中分位點(diǎn)的計(jì)算qnorm(p,mean,sd)qchisq(p,df)qt(p,df)qf(p,df1,df2)2.4抽樣分布定理1:設(shè)X1,X2,…,Xn是來自正態(tài)總體N(μ,σ2)的樣本,則定理2:設(shè)總體 且X與Y獨(dú)立,X1,X2,…,Xm是取自X的樣本,Y1,Y2,…,Yn是取自Y的樣本,則有2.4抽樣分布2.4抽樣分布非正態(tài)總體下,也有很多應(yīng)用廣泛的抽樣定理(1)來自指數(shù)分布的獨(dú)立隨機(jī)樣本,則有(2)對(duì)于二項(xiàng)分布,有近似的抽樣定理(3)利用中心極限定理,可以推出與上述類似的抽樣定理1、生成100個(gè)正態(tài)分布N(2,4)隨機(jī)數(shù)x,計(jì)算平均值、樣本方差、中位數(shù)以及x和x3的相關(guān)系數(shù)。2.在同一圖中繪制參數(shù)為3的t分布和標(biāo)準(zhǔn)正態(tài)分布的密度函數(shù)圖形,請(qǐng)分別以不同顏色顯示.作業(yè)3.若總體為參數(shù)為0.5的指數(shù)分布,多次抽樣,每次樣本量均為10,繪制統(tǒng)計(jì)量

的直方圖,觀察形態(tài),是否像正態(tài)分布,若樣本量均為300呢?第三章參數(shù)估計(jì)§3.1點(diǎn)估計(jì)§3.2估計(jì)量的評(píng)價(jià)標(biāo)準(zhǔn)§3.3區(qū)間估計(jì)§3.4正態(tài)總體參數(shù)的區(qū)間估計(jì)§3.5非正態(tài)總體參數(shù)的區(qū)間估計(jì)§3.6單側(cè)置信區(qū)間設(shè)總體X的分布函數(shù)為F(x;?),其中?為未知參數(shù)(?可以是向量).現(xiàn)從該總體抽樣,得到樣本X1,X2,…,Xn,從樣本出發(fā)構(gòu)造適當(dāng)?shù)慕y(tǒng)計(jì)量作為參數(shù)?的估計(jì)量,即點(diǎn)估計(jì)。將x1,…,xn

代入估計(jì)量,得到?的估計(jì)值3.1點(diǎn)估計(jì)矩估計(jì)樣本k階原點(diǎn)矩總體k階原點(diǎn)矩矩估計(jì)基本思想:用樣本矩估計(jì)總體矩.大數(shù)定律:K.皮爾遜3.1點(diǎn)估計(jì)設(shè)總體的分布函數(shù)中含有k個(gè)未知參數(shù)(1)它的前k階原點(diǎn)矩都是這k個(gè)參數(shù)的函數(shù),記為:(2)用樣本i階原點(diǎn)矩替換總體i階原點(diǎn)矩3.1點(diǎn)估計(jì)(3)解方程組,得

θi=hi(X1,X2,…,Xn)(i=1,2,…,k);3.1點(diǎn)估計(jì)則稱hi(X1,X2,…,Xn)為θi的矩法估計(jì)量,記而稱hi(x1,x2,…,xn)為θi的矩法估計(jì)值。總體期望、方差的矩估計(jì)量分別是樣本均值和樣本二階中心矩。例1.設(shè)總體X的數(shù)學(xué)期望和方差分別是μ,σ2

,求μ,σ2的矩估計(jì)量。3.1點(diǎn)估計(jì)例2:設(shè)電話總機(jī)在某段時(shí)間內(nèi)接到呼喚的次數(shù)服從參數(shù)λ未知的泊松分布,現(xiàn)在收集了如下42個(gè)數(shù)據(jù):接到呼喚次數(shù)012345出現(xiàn)的頻數(shù)71012832求未知參數(shù)λ的矩估計(jì)。3.1點(diǎn)估計(jì)(3)若樣本值為2.5、1、11、5.5,計(jì)算θ的矩估計(jì)值。例3.設(shè)X1,X2,…,Xn是來自總體的樣本,求(1)參數(shù)θ的矩估計(jì)量;

(2)若樣本值為2.5、7、11、5.5,計(jì)算θ的矩估計(jì)值。3.1點(diǎn)估計(jì)極大似然估計(jì)法引例:設(shè)甲、乙兩人投籃命中率分別為0.9和0.3,現(xiàn)兩人在一起輪流投籃,若某次球恰好投進(jìn),請(qǐng)推測(cè)誰投進(jìn)了這個(gè)球.R.A.Fisher(1890~1962)3.1點(diǎn)估計(jì)例1.設(shè)總體X服從參數(shù)為λ的泊松分布.x1,x2,…,xn是來自該總體的樣本,請(qǐng)估計(jì)參數(shù)λ.若總體分布中有未知參數(shù),當(dāng)已知一組樣本值,選取適當(dāng)?shù)膮?shù),使樣本值出現(xiàn)的概率最大,這種估計(jì)參數(shù)的方法就是極大似然估計(jì)法。3.1點(diǎn)估計(jì)◆似然函數(shù)設(shè)總體X的概率分布中有未知參數(shù),X1,X2,…,Xn是來自總體X的樣本,則稱樣本的聯(lián)合概率函數(shù)為樣本的似然函數(shù),簡記為.若X為離散型;若X為連續(xù)型,概率密度為3.1點(diǎn)估計(jì)對(duì)于固定的樣本觀測(cè)值x1,x2,…,xn。如果有(Θ是θ的取值范圍),使得◆極大似然估計(jì)量(MaximumLikelihoodEstimation)則稱為θ的極大似然估計(jì)值,而稱相應(yīng)的統(tǒng)計(jì)量為極大似然估計(jì)量.3.1點(diǎn)估計(jì)例1:設(shè)總體X服從參數(shù)為λ的泊松分布.x1,x2,…,xn是來自該總體的樣本值,求λ的極大似然估計(jì)值.3.1點(diǎn)估計(jì)解:令上式等于零,解得3.1點(diǎn)估計(jì)例2.

設(shè)總體X的概率密度為其中

>0是未知參數(shù).設(shè)X1,X2,…Xn是來自總體X的樣本,求的極大似然估計(jì)量.3.1點(diǎn)估計(jì)解:令上式等于零,解得3.1點(diǎn)估計(jì)附:矩估計(jì)解得令3.1點(diǎn)估計(jì)◆求極大似然估計(jì)量的一般步驟:(1)寫出似然函數(shù)(2)對(duì)似然函數(shù)取對(duì)數(shù)(3)求導(dǎo)數(shù),令其為零(4)求解方程,若方程有解3.1點(diǎn)估計(jì)例3.設(shè)總體X~N(μ,σ2),其中μ,σ2是

未知參數(shù)。求μ,σ2的極大似然估計(jì)。3.1點(diǎn)估計(jì)3.1點(diǎn)估計(jì)例4.設(shè)X1,X2,…,Xn為取自總體U[0,θ]的樣本,求θ的極大似然估計(jì)量。3.1點(diǎn)估計(jì)引例:設(shè)X1,X2,…,Xn是來自總體U[0,θ]的樣本,如何比較參數(shù)θ以下幾個(gè)估計(jì)量的優(yōu)良性。3.2點(diǎn)估計(jì)量的評(píng)價(jià)標(biāo)準(zhǔn)評(píng)價(jià)一個(gè)估計(jì)量的好壞,不能僅僅依據(jù)一次試驗(yàn)的結(jié)果,而必須由多次試驗(yàn)結(jié)果來衡量.即確定估計(jì)量好壞必須在大量觀察的基礎(chǔ)上從統(tǒng)計(jì)的意義來評(píng)價(jià)。常用的幾條標(biāo)準(zhǔn)是:1.無偏性2.有效性3.一致性3.2點(diǎn)估計(jì)量的評(píng)價(jià)標(biāo)準(zhǔn)一、無偏性則稱為的無偏估計(jì).設(shè)是未知參數(shù)的估計(jì)量,若3.2點(diǎn)估計(jì)量的評(píng)價(jià)標(biāo)準(zhǔn)則稱較有效.都是參數(shù)

的無偏估計(jì)量,若有設(shè)和二、有效性3.2點(diǎn)估計(jì)量的評(píng)價(jià)標(biāo)準(zhǔn)例1:設(shè)X1,X2,X3是來自某總體X的樣本,且E(X)=μ,討論μ的以下估計(jì)量的無偏性和一致性。3.2點(diǎn)估計(jì)量的評(píng)價(jià)標(biāo)準(zhǔn)例2:設(shè)X1,X2,…,Xn是來自某總體X的樣本,且,判斷的矩估計(jì)量是否是無偏估計(jì)。3.2點(diǎn)估計(jì)量的評(píng)價(jià)標(biāo)準(zhǔn)三、一致性(相合性)是參數(shù)

的估計(jì)量,若有設(shè)則稱是參數(shù)

的一致估計(jì)量.3.2點(diǎn)估計(jì)量的評(píng)價(jià)標(biāo)準(zhǔn)則稱區(qū)間是θ

的置信度為

的置信區(qū)間.分別稱為置信下限和置信上限.滿足設(shè)θ

是一個(gè)待估參數(shù),給定若由樣本X1,X2,…Xn確定的兩個(gè)統(tǒng)計(jì)量3.3區(qū)間估計(jì)例1:隨機(jī)地從一批服從正態(tài)分布N(μ,0.022)的零件16個(gè),分別測(cè)得其長度為:2.14 2.10 2.13 2.15 2.13 2.12 2.13 2.102.15 2.12 2.14 2.10 2.13 2.11 2.14 2.11估計(jì)該批零件的平均長度μ,并求μ的置信區(qū)間(α=0.05)3.3區(qū)間估計(jì)求置信區(qū)間的步驟(1)構(gòu)造僅與待估參數(shù)θ

有關(guān),但分布已知的函數(shù)U;(2)給定置信度1-α,得常數(shù)a,b,使

P{a<U<b}=1-α;(3)將a<U<b變形,使得:(4)結(jié)論3.3區(qū)間估計(jì)3.4正態(tài)總體參數(shù)的區(qū)間估計(jì)期望的區(qū)間估計(jì)

σ2已知時(shí)μ的置信區(qū)間

σ2未知時(shí)μ的置信區(qū)間2.求方差的區(qū)間估計(jì)

μ已知時(shí)σ2的置信區(qū)間

μ未知時(shí)σ2的置信區(qū)間單正態(tài)總體四種類型的區(qū)間估計(jì)例1:隨機(jī)從一批服從的零件中抽取9件,分別測(cè)得長度(單位:cm)為:2.14,2.10,2.13,2.15,2.13,2.12,2.13,2.15,2.11試估計(jì)這批零件的平均長度,并求置信區(qū)間解:通常采用樣本均值估計(jì)總體均值,即由得故區(qū)間估計(jì)為3.4正態(tài)總體參數(shù)的區(qū)間估計(jì)3.4區(qū)間估計(jì)-單正態(tài)總體區(qū)間估計(jì)例2:隨機(jī)從一批服從的零件中抽取9件,分別測(cè)得長度(單位:cm)為:2.14,2.10,2.13,2.15,2.13,2.12,2.13,2.15,2.11試估計(jì)這批零件的平均長度,并求置信區(qū)間例3:科學(xué)上的很多重大發(fā)現(xiàn)往往由年輕人提出,下表是16世紀(jì)中到20世紀(jì)的12項(xiàng)重大科學(xué)突破的情況:科學(xué)發(fā)現(xiàn)科學(xué)家時(shí)間年齡日心說哥白尼154340望遠(yuǎn)鏡、天文學(xué)基本定律伽利略160043動(dòng)力學(xué)、萬有引力牛頓166523電的本質(zhì)富蘭克林174640燃燒即氧化拉瓦錫177431地球的演變?nèi)R爾1830333.4正態(tài)總體參數(shù)的區(qū)間估計(jì)進(jìn)化論達(dá)爾文185849光的電磁特性麥克斯韋186433放射性居里夫人189831量子力學(xué)普朗克190143狹義相對(duì)論愛因斯坦190526概率量子力學(xué)—波動(dòng)力學(xué)

薛定諤192639假定年齡服從正態(tài)分布,問什么年齡段科學(xué)家們將可能做出重要的工作?3.4正態(tài)總體參數(shù)的區(qū)間估計(jì)3.4單正態(tài)總體區(qū)間估計(jì)——R軟件#問題1:已知方差,求期望的區(qū)間估計(jì)x=c(2.14,2.10,2.13,2.15,2.13,2.12,2.13,2.15,2.11)n=length(x);level=0.05;xigma=0.02mx=mean(x)u_half=qnorm(1-level/2)left=mx-xigma*u_half/sqrt(n)right=mx+xigma*u_half/sqrt(n)data.frame(left=left,right=right)#問題2,方差未知,求期望的區(qū)間估計(jì),

t.test(x)u_half=qt(1-level/2,n-1);xigma=sd(x)left=mx-xigma*u_half/sqrt(n)right=mx+xigma*u_half/sqrt(n)data.frame(left=left,right=right)#問題3,求方差的區(qū)間估計(jì)u_half1=qchisq(level/2,n-1);u_half2=qchisq(1-level/2,n-1)left=xigma^2*(n-1)/u_half2right=xigma^2*(n-1)/u_half1data.frame(left=left,right=right)雙總體設(shè)總體X~N(μ1,σ12),總體Y~N(μ2,σ22),X1,X2,…,Xm來自X,Y1,Y2,…,Yn來自Y,且兩樣本相互獨(dú)立。均值差μ1-μ2的區(qū)間估計(jì)方差比σ12/σ22的區(qū)間估計(jì)3.4正態(tài)總體參數(shù)的區(qū)間估計(jì)3.4正態(tài)總體參數(shù)的區(qū)間估計(jì)例1:今抽樣甲乙兩地區(qū)18~25歲女青年身高的數(shù)據(jù)如下:甲地區(qū)抽取50名,樣本均值為163cm,樣本標(biāo)準(zhǔn)差為4cm;乙地區(qū)抽取50名,樣本均值為159cm,樣本標(biāo)準(zhǔn)差為3cm。假設(shè)身高均服從正態(tài)分布(1)假設(shè)兩個(gè)總體具有公共方差,求的置信水平為90%的置信區(qū)間;(2)求兩總體方差比σ12/σ22的區(qū)間估計(jì).3.4雙正態(tài)總體區(qū)間估計(jì)——R軟件x=c(86,87,56,93,84,93,75,79);

y=c(80,89,58,91,81,92,74,76)sxy=sd(x-y);n=length(x);

mx=mean(x);

my=mean(y)sx=var(x);sy=var(y);t_half=qt(1-level/2,2*n-2)sw=sqrt(((n-1)*sx+(n-1)*sy)/(2*n-2))data.frame(left=mx-my-t_half*sw*sqrt(2/n),right=mx-my+t_half*sw*sqrt(2/n))#方差相等改寫成R內(nèi)置的函數(shù):t.test(x-y)#t.test(x,y,paired=TRUE)配對(duì)t.test(x,y,var.equal=TRUE)#方差相等的3.4區(qū)間估計(jì)-雙正態(tài)總體區(qū)間估計(jì)R計(jì)算程序f_half1=qf(level/2,n-1,n-1)f_half2=qf(1-level/2,n-1,n-1)data.frame(left=sx/sy/f_half2,right=sx/sy/f_half1)R內(nèi)置函數(shù)var.test(x,y,conf.level=0.95)3.5非正態(tài)總體參數(shù)的區(qū)間估計(jì)(1)指數(shù)分布R計(jì)算程序n=length(x);mx=mean(x);base=2*n*mx;x_half1=qchisq(level/2,2*n)x_half2=qchisq(1-level/2,2*n)data.frame(left=x_half1/base,right=x_half2/base)3.5非正態(tài)總體參數(shù)的區(qū)間估計(jì)(2)0-1分布例:從某場(chǎng)生產(chǎn)的一批產(chǎn)品中抽查了100件,發(fā)現(xiàn)其中次品10件,求這批產(chǎn)品一級(jí)品率的置信度為95%的置信區(qū)間。3.5非正態(tài)總體參數(shù)的區(qū)間估計(jì)3.5非正態(tài)總體參數(shù)的區(qū)間估計(jì)第四章假設(shè)檢驗(yàn)基本概念單正態(tài)總體假設(shè)檢驗(yàn)雙正態(tài)總體假設(shè)檢驗(yàn)非正態(tài)總體假設(shè)檢驗(yàn)非參數(shù)-分布函數(shù)擬合檢驗(yàn)非參數(shù)-獨(dú)立性檢驗(yàn)4.1假設(shè)檢驗(yàn)的基本概念假設(shè)檢驗(yàn)參數(shù)假設(shè)檢驗(yàn)非參數(shù)假設(shè)檢驗(yàn)總體分布已知,檢驗(yàn)關(guān)于未知參數(shù)的某個(gè)假設(shè)總體分布未知時(shí)的假設(shè)檢驗(yàn)問題假設(shè)檢驗(yàn):根據(jù)樣本的信息檢驗(yàn)關(guān)于總體的某個(gè)假設(shè)是否正確.生產(chǎn)流水線上罐裝可樂不斷地封裝,然后裝箱外運(yùn).怎么知道這批罐裝可樂的容量是否合格呢?例1:罐裝可樂的標(biāo)準(zhǔn)容量是250毫升通常的辦法是每隔一段時(shí)間進(jìn)行抽樣檢查.4.1假設(shè)檢驗(yàn)的基本概念以上實(shí)際例子的解決都需要我們根據(jù)問題本身提出假設(shè),然后根據(jù)樣本的信息對(duì)假設(shè)進(jìn)行檢驗(yàn),并作出判斷。H0:檢驗(yàn)是否為真的假設(shè)稱為原假設(shè)/零假設(shè);H1:與H0對(duì)立的假設(shè)稱為備選假設(shè)。4.1假設(shè)檢驗(yàn)的基本概念小概率事件原理:概率很小的事件在一次試驗(yàn)中幾乎不可能發(fā)生。需預(yù)先指定一個(gè)很小的數(shù),一般地,取α=0.05或0.01,稱為檢驗(yàn)的顯著性水平。4.1假設(shè)檢驗(yàn)的基本概念1.提出假設(shè)2.3.設(shè)現(xiàn)在生產(chǎn)的容量X~ ,抽取了4罐,其容量分別為248,246,252,242,問能否依然認(rèn)為?4.1假設(shè)檢驗(yàn)的基本概念檢驗(yàn)統(tǒng)計(jì)量:接受域:拒絕域:4.1假設(shè)檢驗(yàn)的基本概念假設(shè)檢驗(yàn)中的兩類錯(cuò)誤以真為假(棄真)以假為真(取偽)H0為真實(shí)際情況決定拒絕H0接受H0H0不真第一類錯(cuò)誤正確正確第二類錯(cuò)誤4.1假設(shè)檢驗(yàn)的基本概念提出假設(shè)H0作出決策建立檢驗(yàn)統(tǒng)計(jì)量確定拒絕域顯著性水平樣本值代入計(jì)算統(tǒng)計(jì)量的值顯著性檢驗(yàn)4.1假設(shè)檢驗(yàn)的基本概念雙側(cè)檢驗(yàn):4.1假設(shè)檢驗(yàn)的基本概念左側(cè)檢驗(yàn):設(shè)現(xiàn)在生產(chǎn)的容量X~ ,抽取了4罐,其容量分別為248,246,252,242,問是否明顯小于250?(α=0.05)4.1假設(shè)檢驗(yàn)的基本概念右側(cè)檢驗(yàn):設(shè)現(xiàn)在生產(chǎn)的容量X~ ,抽取了4罐,其容量分別為254,249,252,248,問是否明顯大于250?(α=0.05)4.1假設(shè)檢驗(yàn)的基本概念雙側(cè)檢驗(yàn):左側(cè)檢驗(yàn):右側(cè)檢驗(yàn):4.1假設(shè)檢驗(yàn)的基本概念拒絕域:拒絕域:4.2單正態(tài)總體假設(shè)檢驗(yàn)(1)關(guān)于正態(tài)總體均值的假設(shè)檢驗(yàn)(方差已知)(2)關(guān)于正態(tài)總體均值的假設(shè)檢驗(yàn)(方差未知)(3)關(guān)于正態(tài)總體方差的假設(shè)檢驗(yàn)(均值未知)(4)關(guān)于正態(tài)總體方差的假設(shè)檢驗(yàn)(均值已知)(實(shí)際上很少用)(1)(3)(2)(4)4.2單正態(tài)總體假設(shè)檢驗(yàn)例2:某部門對(duì)當(dāng)前市場(chǎng)的價(jià)格情況進(jìn)行調(diào)查。以雞蛋為例,所抽查的全省15個(gè)集市上,售價(jià)分別為(單位:元/500克)5.055.315.345.825.305.846.105.905.184.885.225.345.625.285.305.525.545.30已知往年的平均售價(jià)一直穩(wěn)定在5.25元/500克左右,能否認(rèn)為全省當(dāng)前的雞蛋售價(jià)明顯高于往年?(顯著水平α=0.05)?mean(D)[1]5.435556>sd(D)[1]0.31651084.2單正態(tài)總體假設(shè)檢驗(yàn)——R軟件t.test(x,alternative=c("two.sided","less","greater"),mu=0)#函數(shù)中的mu指定均值,alternative指定類型(雙側(cè),左側(cè),右側(cè))回顧:用傳統(tǒng)工藝加工的某種水果罐頭中,每瓶的平均維生素C的含量為19(mg).現(xiàn)改變了加工工藝,抽查了16瓶,測(cè)得維C含量的平均值為20.2,標(biāo)準(zhǔn)差為1.617.假定水果罐頭中維C含量服從正態(tài)分布。問使用新工藝后維C的含量是否有顯著改變(顯著水平α=0.05)?4.2單正態(tài)總體假設(shè)檢驗(yàn)4.3雙正態(tài)總體假設(shè)檢驗(yàn)問題:(1)均值差的假設(shè)檢驗(yàn)(方差已知)(2)均值差的假設(shè)檢驗(yàn)(方差未知,但相等)(3)均值差的假設(shè)檢驗(yàn)(方差未知,不相等)(4)均值差的假設(shè)檢驗(yàn)(方差未知,不相等,樣本容量較大)(5)方差比的假設(shè)檢驗(yàn)(均值未知)(1)(2)(5)4.3雙正態(tài)總體假設(shè)檢驗(yàn)例3:某連隊(duì)兩個(gè)班進(jìn)行快速打靶訓(xùn)練,假定命中環(huán)數(shù)服從正態(tài)分布,現(xiàn)測(cè)得兩個(gè)班的成績?nèi)缦?A:9,8,9.5,10,8.5,7,8.5,9,9.5,9,8.2,7.5,8,8.7,8.6B:8.8,9.2,7.8,6.8,7,8,9,10,9.5,8.5,7.8,8.1(1)兩個(gè)班的打靶成績的波動(dòng)是否有顯著差異?(2)若兩班波動(dòng)率一致,A班成績是否顯著高于B班的成績?例4.現(xiàn)要比較甲乙兩種橡膠制成的輪胎的耐磨性,從兩種輪胎中各隨機(jī)抽取8個(gè),各取一個(gè)組成一對(duì),再隨機(jī)選取八架飛機(jī),將八對(duì)輪胎隨機(jī)地搭配給八架飛機(jī),做耐磨性試驗(yàn),經(jīng)過了一定時(shí)間的起落后,測(cè)的輪胎磨損量數(shù)據(jù)如下,試問兩種輪胎的耐磨性又無顯著性的差異?序號(hào)12345678甲49005220550060206340766086504870乙49304900514057006110688079305010Z: -30 320 360 320 230780720-1404.3雙正態(tài)總體假設(shè)檢驗(yàn)4.3雙正態(tài)總體假設(shè)檢驗(yàn)4.3雙正態(tài)總體假設(shè)檢驗(yàn)——R軟件#均值差檢驗(yàn)t.test(x,y=NULL,alternative=c(“two.sided”,“l(fā)ess”,“greater”),mu=0,paired=FALSE,var.equal=FALSE)#方差檢驗(yàn)var.test(x,y,ratio=1,alternative=c(“two.sided”,“l(fā)ess”,“greater”))4.4非正態(tài)總體假設(shè)檢驗(yàn)0-1分布4.4非正態(tài)總體假設(shè)檢驗(yàn)例2:工商部分隨機(jī)抽查某工廠生產(chǎn)的一批產(chǎn)品,按規(guī)定次品率不大于3%才能出廠?,F(xiàn)從這批產(chǎn)品中隨機(jī)抽查100件,發(fā)現(xiàn)5件次品,問:這批產(chǎn)品能否依然出廠(顯著性水平0.05)?若6件呢?4.5非參數(shù)假設(shè)檢驗(yàn)在不假定總體分布的前提下,從數(shù)據(jù)本身出發(fā)獲取可靠的結(jié)論,隸屬非參數(shù)統(tǒng)計(jì)推斷(Nonparametricstatisticalinference)范疇。在這種情況下,非參數(shù)方法優(yōu)于參數(shù)方法,更符合實(shí)際情況;但在總體分布已知的前提下,參數(shù)方法就更為精確和有效。例1:在一小時(shí)內(nèi)用戶對(duì)電話中心的呼叫次數(shù)按每分鐘統(tǒng)計(jì)如下所示,問:每分鐘電話呼叫次數(shù)是否服從泊松分布?(顯著性水平=0.05)次數(shù)0123456>=7頻數(shù)81617106210(注:[次數(shù)1,頻數(shù)16]表示有16個(gè)分鐘,每分鐘只接到1個(gè)電話)4.5.1非參數(shù)假設(shè)檢驗(yàn)-分布函數(shù)檢驗(yàn)?zāi)车貐^(qū)30名2000年某專業(yè)畢業(yè)實(shí)習(xí)生實(shí)習(xí)期滿后的月薪數(shù)據(jù)如下:909109196712321096116410861071157295080897111201081825775122495099911309141203104486613369921025871738試問月薪是否服從正態(tài)分布?4.5.1非參數(shù)假設(shè)檢驗(yàn)-分布函數(shù)檢驗(yàn)再如,某工廠制造一批骰子,聲稱它是均勻的.骰子是否均勻?4.5.1非參數(shù)假設(shè)檢驗(yàn)-分布函數(shù)檢驗(yàn)K.皮爾遜4.5.1非參數(shù)假設(shè)檢驗(yàn)-分布函數(shù)檢驗(yàn)將總體X的取值范圍分成m個(gè)互不重迭的小區(qū)間,(ai-1,ai],i=1,…,m把落入第i個(gè)小區(qū)間的樣本值的個(gè)數(shù)記作ni,稱為觀察頻數(shù).1.抽取樣本2.作直方圖4.5.1非參數(shù)假設(shè)檢驗(yàn)-分布函數(shù)檢驗(yàn)根據(jù)所假設(shè)的理論分布,可以算出總體X的值落入第i個(gè)區(qū)間[ai-1,ai

)的概率pi=F0(ai)-F0

(ai-1)于是npi就是樣本落入第i個(gè)區(qū)間的理論頻數(shù).3.計(jì)算理論頻數(shù)標(biāo)志著經(jīng)驗(yàn)分布與理論分布之間的差異的大小.皮爾遜引進(jìn)如下統(tǒng)計(jì)量表示經(jīng)驗(yàn)分布與理論分布之間的差異:觀察頻數(shù)理論頻數(shù)4.5.1非參數(shù)假設(shè)檢驗(yàn)-分布函數(shù)檢驗(yàn)皮爾遜定理4.5.1非參數(shù)假設(shè)檢驗(yàn)-分布函數(shù)檢驗(yàn)例1:指一顆骰子60次,結(jié)果如下:點(diǎn)數(shù)頻數(shù)ni172831241159613npi1010101010104.5.1非參數(shù)假設(shè)檢驗(yàn)-分布函數(shù)檢驗(yàn)4.5.1分布檢驗(yàn)-Pearson卡方檢驗(yàn)例2:在一小時(shí)內(nèi)用戶對(duì)電話中心的呼叫次數(shù)按每分鐘統(tǒng)計(jì)如下所示,問:每分鐘電話呼叫次數(shù)是否服從泊松分布?(顯著性水平=0.05)次數(shù)0123456>=7頻數(shù)81617106210(注:[次數(shù)1,頻數(shù)16]表示有16個(gè)分鐘,每分鐘只接到1個(gè)電話)注:離散型分布的擬合檢驗(yàn)。4.5.1分布檢驗(yàn)-Pearson卡方檢驗(yàn)次數(shù)0123456>=7頻數(shù)81617106210Pi0.1350.2710.2720.1800.0900.0360.0120.003n=60,m=8,k=1結(jié)論:接受原假設(shè),認(rèn)為數(shù)據(jù)分從泊松分布。4.5.1分布檢驗(yàn)-Pearson卡方檢驗(yàn)R檢驗(yàn)過程:x=c(0,1,2,3,4,5,6,7);ni=c(8,16,17,10,6,2,1,0)n=sum(ni);k=1;m=8;level=0.05;mx=sum(x*ni)/n;#估計(jì)參數(shù)pi=dpois(x,mx);pi[m]=1-sum(pi[1:(m-1)])#計(jì)算piY=sum(ni^2/(n*pi))-n#計(jì)算卡方統(tǒng)計(jì)量值w=qchisq(1-level,m-k-1);#計(jì)算檢驗(yàn)臨界值if(Y<w)print('接受原假設(shè)')elseprint('拒絕原假設(shè)')#或者使用chisq.test函數(shù)chisq.test(ni,p=pi)Chi-squaredtestforgivenprobabilitiesdata:niX-squared=0.5595,df=7,p-value=0.99924.5.1分布檢驗(yàn)-Pearson卡方檢驗(yàn)例3:檢驗(yàn)下面數(shù)據(jù)是否服從正態(tài)分布?(a=0.05)(176,172,170,175,167,167,172,180,178,172,173,170,168,175,171,166,170,175,176,176,176,177,165,172,172,168,167,165,160,165,173,163,160,162,168,178,172,170,169,175,165,168)4.5.1分布檢驗(yàn)-Pearson卡方檢驗(yàn)x=c(176,172,170,175,167,167,172,180,178,172,173,170,168,175,171,166,170,175,176,176,176,177,165,172,172,168,167,165,160,165,173,163,160,162,168,178,172,170,169,175,165,168)n=length(x);m=5;#區(qū)間個(gè)數(shù)a=c(150,160,165,170,175,185);ni=table(cut(x,br=a))qi=pnorm(a[-1],mean(x),sd(x));pi=qi;pi[2:(m-1)]=qi[2:(m-1)]-qi[1:(m-2)]pi[m]=1-qi[m-1]Y=sum(ni^2/(n*pi))-n#計(jì)算卡方統(tǒng)計(jì)量值p=1-pchisq(Y,m-3);#計(jì)算檢驗(yàn)臨界值4.5.1分布檢驗(yàn)--k-s檢驗(yàn)K-S檢驗(yàn)(Kolmogorov-Smirnov檢驗(yàn)):是利用經(jīng)驗(yàn)分布與假設(shè)分布偏差的上確界構(gòu)建統(tǒng)計(jì)量,并對(duì)假設(shè)分布進(jìn)行檢驗(yàn)的一種方法,適合于連續(xù)型隨機(jī)變量。注:該方法構(gòu)造了一個(gè)經(jīng)驗(yàn)分布與假設(shè)分布的偏差上確界統(tǒng)計(jì)量D.若兩個(gè)分布接近或相同,則D值應(yīng)較小,若D值太大則可否認(rèn)分布相等的原假設(shè)。

4.5.1分布檢驗(yàn)--k-s檢驗(yàn)用法:ks.test(x,F,p1,p2)x樣本,待檢驗(yàn)分布函數(shù)F,分布參數(shù)pi如正態(tài)性檢驗(yàn):ks.test(x,pnorm,mu,xigma)以例3數(shù)據(jù)為例:ks.test(x,pnorm,mean(x),sd(x))正態(tài)分布的檢驗(yàn)還有如下方法shapiro.test(x)4.5.1分布檢驗(yàn)–QQ圖Q-Q圖專門用來處理正態(tài)性檢驗(yàn)的一種直觀圖形方法?;驹恚航?jīng)驗(yàn)分布函數(shù)近似分布函數(shù)(頻率近似概率)4.5.1分布檢驗(yàn)–QQ圖直觀判斷:如果繪制的散點(diǎn)幾乎位于一條直線上,則可認(rèn)定數(shù)據(jù)服從正態(tài)分布。上圖的數(shù)據(jù)點(diǎn)兩端偏離直線較遠(yuǎn),中間數(shù)據(jù)較接近直線,基本上認(rèn)定服從“正態(tài)分布”。qqnorm(x)#plot(qnorm(ecdf(x)(x)),x)qqline(x)

4.5.2獨(dú)立性檢驗(yàn)–列聯(lián)表檢驗(yàn)問題背景:兩個(gè)隨機(jī)變量X,Y(都是離散定性取值),及其樣本頻數(shù)觀測(cè)值,研究這兩個(gè)變量是否有關(guān)系?(沒關(guān)系就是獨(dú)立),比如:吸煙與肺癌有關(guān)系嗎?學(xué)生課程通過與否與學(xué)生性別有關(guān)系嗎?學(xué)生課程通過與否與教師性別有關(guān)系嗎?4.5.2獨(dú)立性檢驗(yàn)–列聯(lián)表檢驗(yàn)考試通過未通過教師性別男女11247171498660年齡層兒童中青年老年療效顯著一般較差5537313043442318144.5.2獨(dú)立性檢驗(yàn)–列聯(lián)表檢驗(yàn)列聯(lián)表獨(dú)立性檢驗(yàn),數(shù)據(jù)形如Y∑12…sX1n11n12…n1sn1.2n21n22…n2sn2.………………rnr1nr2…nrsnr.∑n.1n.2…n.sn4.5.2獨(dú)立性檢驗(yàn)–列聯(lián)表檢驗(yàn)分析:若X,Y獨(dú)立則的偏差應(yīng)該較小,于是構(gòu)造:4.5.2獨(dú)立性檢驗(yàn)–列聯(lián)表檢驗(yàn)顯然該統(tǒng)計(jì)量值若太大則原假設(shè)不成立,即拒絕域?yàn)椋豪?:某治療感冒的藥在三個(gè)年齡層的臨床試驗(yàn)如下,試分析療效與年齡層是否有關(guān)?年齡層兒童中青年老年療效顯著一般較差5537313043442318144.5.2獨(dú)立性檢驗(yàn)–列聯(lián)表檢驗(yàn)?zāi)挲g層合計(jì)兒童中青年老年療效顯著一般較差55373112330434411723181455合計(jì)10898892954.5.2獨(dú)立性檢驗(yàn)–列聯(lián)表檢驗(yàn)輸出結(jié)果:

Pearson'sChi-squaredtestdata:xX-squared=10.8241,df=4,p-value=0.02861因?yàn)閜值較小,所以拒絕原假設(shè),認(rèn)為療效與年齡層有關(guān)系。#列聯(lián)表檢驗(yàn)程序:x=matrix(c(55,30,23,37,43,18,31,44,14),3,3)chisq.test(x)4.5.2獨(dú)立性檢驗(yàn)–列聯(lián)表檢驗(yàn)考試通過未通過教師性別男女11247171498660例1:學(xué)生課程通過與否與教師性別有關(guān)系嗎?考試合計(jì)通過未通過教師性別男女1124717184114986602158合計(jì)262213773999若r=2,s=2時(shí),檢驗(yàn)統(tǒng)計(jì)量可簡化為第五章回歸分析相關(guān)分析線性回歸模型最小二乘估計(jì)及其性質(zhì)回歸方程和回歸系數(shù)的檢驗(yàn)因變量的預(yù)測(cè)自變量的選擇非線性回歸5.1相關(guān)分析設(shè)(xi,yi)(i=1,2,…,n)為一組樣本,則簡單相關(guān)系數(shù)(Pearson積矩相關(guān)系數(shù))定義為隨機(jī)變量之間的相關(guān)系數(shù):5.1相關(guān)分析相關(guān)系數(shù)r[1]1[1]-1[1]0.8270126[1]-0.5595056[1]0.1831816[1]0.1984835n=50;x=rnorm(n);y1=2*x+1;y2=-2*x+1;y3=2*x^3+rnorm(n,0,3);y4=-2*x+rnorm(n,0,3);y5=rnorm(n,0,4);y6=x^2;5.1相關(guān)分析直觀上看相關(guān)系數(shù)絕對(duì)值越接近1,則變量之間的線性關(guān)系越強(qiáng),相關(guān)系數(shù)絕對(duì)值越接近0,則變量之間的線性相關(guān)性越弱。由于樣本的隨機(jī)性,即使理論上相關(guān)系數(shù)為a,實(shí)際計(jì)算出來的相關(guān)系數(shù)b也不一定等于a。比如a=0,但是b不等于0是否就意味著變量之間相關(guān)呢?5.1相關(guān)分析一般對(duì)相關(guān)系數(shù)檢驗(yàn)的提法是構(gòu)造統(tǒng)計(jì)量:拒絕域cor.test(x,y5)5.2相關(guān)分析——R軟件R軟件中通過cor.test(x,y)軟件會(huì)給出檢驗(yàn)p值Pearson'sproduct-momentcorrelationdata:xandy5t=1.291,df=48,p-value=0.2029alternativehypothesis:truecorrelationisnotequalto095percentconfidenceinterval:-0.10027920.4391385sampleestimates:cor0.1831816Pearson'sproduct-momentcorrelationdata:xandy4t=-4.6769,df=48,p-value=2.4e-05alternativehypothesis:truecorrelationisnotequalto095percentconfidenceinterval:-0.7249515-0.3330218sampleestimates:cor-0.5595056cor.test(x,y4)5.2線性回歸模型例:為了研究3歲至8歲男孩身高與年齡的規(guī)律,在某地區(qū)在3歲至8歲男孩中隨機(jī)抽樣,共分6個(gè)年齡層抽樣:3歲,4歲,…,8歲,每個(gè)層抽10個(gè)男孩,共抽60個(gè)男孩。資料如下:年齡3歲4歲5歲6歲7歲8歲身高92.596.5106.0115.5125.5121.597.0101.0104.0115.5117.5128.596.0105.5107.0111.5118.0124.096.5102.0109.5110.0117.0125.597.0105.0111.0114.5122.0122.592.099.5107.5112.5119.0123.596.5102.0107.0116.5119.0120.591.0100.0111.5110.0125.5123.096.0106.5103.0114.5120.5124.099.0100.0109.0110.0122.0126.5平均身高95.4101.8107.6113.1120.6124.05.2線性回歸模型一元線性回歸模型隨機(jī)干擾:各種偶然因素、觀察誤差和其他被忽視因素的影響x對(duì)y的線性影響而形成的系統(tǒng)部分,反映兩變量的平均變動(dòng)關(guān)系,即本質(zhì)特征。5.2線性回歸模型5.2線性回歸模型多元線性回歸模型5.2線性回歸模型高斯-馬爾可夫Gauss-Markov線性回歸模型定義5.3最小二乘法估計(jì)5.3最小二乘法估計(jì)經(jīng)驗(yàn)回歸方程:5.3最小二乘法估計(jì)例1:一元線性回歸5.3最小二乘法估計(jì)例2:某氣象站收集了15年關(guān)于年初的最高溫度出現(xiàn)日期X(從1月11日算起,連續(xù)三天氣溫高于20度)與秋季第一次強(qiáng)冷空氣出現(xiàn)日期Y(從9月11日算起,連續(xù)三天氣溫低于20度)的數(shù)據(jù),數(shù)據(jù)123456789101112131415x2517303132282930211181828614y22152630342527347111920199145.3最小二乘法估計(jì)回歸擬合值擬合向量殘差值殘差向量H,I-H均為對(duì)稱冪等矩陣,且X’(I-H)=0,(I-H)X=05.3最小二乘法估計(jì)5.3最小二乘法估計(jì)5.3最小二乘法估計(jì)——性質(zhì)例1(組合稱重法)在天平的兩個(gè)秤盤上分別放上這四個(gè)物體中的幾個(gè),并在其中的一個(gè)秤盤上加上砝碼使之達(dá)到平衡。則有線性回歸模型其中y為使天平達(dá)到平衡所需的砝碼重量。約定,如果砝碼在左邊秤盤上則y為負(fù)值。xi的值為0,1或-1,0表示第i個(gè)物體沒有被稱,1和-1分別表示該物體放在左邊和右邊秤盤上?;貧w系數(shù)就是相應(yīng)物體的重量,我們總共稱了4次,如下:yx1x2x3x420.28.09.71.911111-11-111-1-11-1-115.3最小二乘法估計(jì)——性質(zhì)回顧.求下面模型中參數(shù)a,b的最小二乘估計(jì)已知5.3最小二乘法估計(jì)——性質(zhì)lm(y~x)#y為向量,x可為向量與矩陣lm(y~x+0)#回歸方程沒有常數(shù)項(xiàng)lm(y~x1+x2+I(x1^2))#自變量有三項(xiàng)x1,x2,x1^2lm(y~x1+x2,data=X)#X為數(shù)據(jù)框,y,x1,x2為其中變量名lm(y~.,data=X)#自變量為其它所有變量lm(y~.-x2,data=X)#自變量為除x2的其它所有變量5.3最小二乘法估計(jì)——R軟件lm() #建立線性回歸模型例1:某氣象站收集了15年關(guān)于年初的最高溫度出現(xiàn)日期X(從1月11日算起,連續(xù)三天氣溫高于20度)與秋季第一次強(qiáng)冷空氣出現(xiàn)日期Y(從9月11日算起,連續(xù)三天氣溫低于20度)的數(shù)據(jù),數(shù)據(jù)123456789101112131415x2517303132282930211181828614y22152630342527347111920199145.3最小二乘法估計(jì)flm=lm(y~x)summary(flm)plot(x,y,main="一元回歸圖")abline(flm)points(x,flm$fitted,col="red",pch=3)例2:民航客運(yùn)量數(shù)據(jù)和身高等調(diào)查數(shù)據(jù)5.3最小二乘法估計(jì)——性質(zhì)例3:一元線性回歸及性質(zhì)x取值越分散,系數(shù)波動(dòng)越小5.3最小二乘法估計(jì)——性質(zhì)TotalSumofSquaresRegressionSumofSquaresErrorsumofsquares= +5.4回歸方程和回歸系數(shù)的檢驗(yàn)STSRSE復(fù)相關(guān)系數(shù)與決定系數(shù)決定系數(shù)R25.4回歸方程和回歸系數(shù)的檢驗(yàn)回歸模型的檢驗(yàn)5.4回歸方程和回歸系數(shù)的檢驗(yàn)方差來源平方和自由度F值回歸誤差總計(jì)pn-p-1n-15.4回歸方程和回歸系數(shù)的檢驗(yàn)回歸系數(shù)的檢驗(yàn)5.4回歸方程和回歸系數(shù)的檢驗(yàn)5.4回歸分析——R軟件#水泥放熱試驗(yàn)分析X=read.table('clipboard',header=TRUE)l=lm(y~.,data=X)summary(l)Residuals:Min1QMedian3QMax-3.1750-1.67090.25081.37833.9254Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)62.405470.07100.8910.3991x11.55110.74482.0830.0708.x20.51020.72380.7050.5009x30.10190.75470.1350.8959x4-0.14410.7091-0.2030.8441Residualstandarderror:2.446on8degreesoffreedomMultipleR-squared:0.9824,AdjustedR-squared:0.9736

F-statistic:111.5on4and8DF,p-value:4.756e-07點(diǎn)預(yù)測(cè)5.5因變量的預(yù)測(cè)區(qū)間預(yù)測(cè)5.5因變量的預(yù)測(cè)例:一元預(yù)測(cè)x0離平均值越近,預(yù)測(cè)區(qū)間長度越短5.5因變量的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論