版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)分析隨機(jī)數(shù)模擬假設(shè)檢驗(yàn)方差分析線(xiàn)性回歸廣義線(xiàn)性回歸綜合實(shí)驗(yàn)?zāi)夸涬S機(jī)數(shù)模擬隨機(jī)數(shù)模擬生成隨機(jī)數(shù) 特定分布的隨機(jī)數(shù)隨機(jī)抽樣目錄隨機(jī)數(shù)是在一定范圍內(nèi)隨機(jī)產(chǎn)生的數(shù),并且得到這個(gè)范圍內(nèi)的每一個(gè)數(shù)的機(jī)會(huì)一樣。它可以被用來(lái)安排和模擬一些實(shí)驗(yàn),也可以代替做一些大量重復(fù)的實(shí)驗(yàn)。runif()函數(shù):生成均勻分布默認(rèn)為0和1之間的值round()函數(shù):按照四舍五入取整ceiling()和floor()函數(shù):向上或者向下取整生成隨機(jī)數(shù)>runif(5)[1]0.080098530.752247700.340951990.010634130.98427423>round(runif(5))[1]10010>round(runif(5,0,2))[1]02110>ceiling(runif(5,-2,1))[1]111-11>floor(runif(5,-1,2))[1]1-1-11-1函數(shù)組合使用,可以靈活生成隨機(jī)數(shù)。經(jīng)常使用的分布有正態(tài)分布、F分布、均勻分布、泊松分布等。統(tǒng)計(jì)概率函數(shù)特定分布的隨機(jī)數(shù)分布概率密度函數(shù)累計(jì)分布函數(shù)分位數(shù)函數(shù)隨機(jī)數(shù)函數(shù)正態(tài)分布dnorm()pnorm()qnorm()rnorm()泊松分布dpois()ppois()qpois()rpois()二項(xiàng)分布dbinom()pbinom()qbinom()rbinom()d:概率密度函數(shù)(density)p:分布函數(shù)(distributionfunction)q:分位數(shù)函數(shù)(quantilefunction)
r:隨機(jī)數(shù)生成函數(shù)特定分布的隨機(jī)數(shù)>#實(shí)驗(yàn):隨機(jī)生成正態(tài)分布數(shù)據(jù)并求其密度和累積分布>data<-rnorm(20)#生成20個(gè)正態(tài)分布的隨機(jī)數(shù)>data#輸出data[1]0.911444095-1.5166547410.3819337331.3226692330.874481314[6]-0.1464821730.847957627-0.9730623510.0702208140.029339198[11]-0.0666645031.525276527-0.774989642-0.4908499080.528699849[16]-0.0777487300.588223015-0.8384714600.0088585761.628828244>dnorm(data)#計(jì)算data中各個(gè)值對(duì)應(yīng)的標(biāo)準(zhǔn)正態(tài)分布的密度[1]0.26334150.12630450.37088060.16634930.27217850.39468510.2784673[8]0.24848730.39795990.39877060.39805680.12465910.29545370.3536649[15]0.34690640.39773830.33556430.28070370.39892660.1058768>pnorm(data)#計(jì)算data中各個(gè)值對(duì)應(yīng)的標(biāo)準(zhǔn)正態(tài)分布的累積分布[1]0.818969290.064676940.648744740.907027300.809071900.44177038[7]0.801769220.165261160.527991050.511702970.473424400.93640493[13]0.219172890.311766300.701493160.469013970.721808690.20088299[19]0.503534010.94832531d:概率密度函數(shù)(density)p:分布函數(shù)(distributionfunction)q:分位數(shù)函數(shù)(quantilefunction)
r:隨機(jī)數(shù)生成函數(shù)從數(shù)據(jù)集中隨機(jī)抽樣:重復(fù)隨機(jī)抽樣和不重復(fù)隨機(jī)抽樣。sample()函數(shù):隨機(jī)抽樣set.seed()函數(shù):設(shè)定隨機(jī)數(shù)種子,用于隨機(jī)結(jié)果的可重復(fù)性隨機(jī)抽樣>#從1-5中隨機(jī)抽取5次,不重復(fù)抽樣>sample(1:5,5)[1]41235>#從1-5中隨機(jī)抽取5次,可重復(fù)抽樣>sample(1:5,5,replace=TRUE)[1]41541>set.seed(100)#設(shè)定種子,其中的數(shù)字為任意數(shù)>sample(1:52,5)#從52張撲克牌中隨機(jī)抽取5張[1]1038482514>sample(1:52,5)[1]44232264>set.seed(100)>sample(1:52,5)[1]1038482514隨機(jī)數(shù)模擬生成隨機(jī)數(shù)runif,round,ceiling,floor
特定分布的隨機(jī)數(shù)rnorm,dnorm,pnorm,qnorm隨機(jī)抽樣sample,set.seed小結(jié)假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)
假設(shè)檢驗(yàn)的方法均值檢驗(yàn)相關(guān)性檢驗(yàn)?zāi)夸洺S媒y(tǒng)計(jì)方法描述統(tǒng)計(jì):應(yīng)用在所有數(shù)據(jù)集合,包括樣本和總體。推斷統(tǒng)計(jì):從樣本出發(fā)推斷總體性質(zhì)??傮w分布為已知,根據(jù)樣本數(shù)據(jù)對(duì)總體的參數(shù)(均值、方差等)進(jìn)行推斷
假設(shè)檢驗(yàn)的方法??傮w分布未知,根據(jù)樣本數(shù)據(jù)對(duì)總體分布或特征進(jìn)行推斷
非參數(shù)檢驗(yàn)。顯著性檢驗(yàn)分布檢驗(yàn)、均值檢驗(yàn)、方差齊性檢驗(yàn)、相關(guān)性檢驗(yàn)等。Z檢驗(yàn)、t檢驗(yàn)、卡方檢驗(yàn)、F檢驗(yàn)等。假設(shè)檢驗(yàn)的方法假設(shè)檢驗(yàn)的主要步驟:提出假設(shè):根據(jù)研究目的提出相應(yīng)的原假設(shè)和備擇假設(shè),選擇檢驗(yàn)方式。選擇檢驗(yàn)統(tǒng)計(jì)量:根據(jù)原假設(shè)提供的前提條件,選擇合適的檢驗(yàn)統(tǒng)計(jì)量。計(jì)算概率值:根據(jù)統(tǒng)計(jì)量分布,計(jì)算樣本觀測(cè)值對(duì)應(yīng)的統(tǒng)計(jì)量觀測(cè)值發(fā)生的概率值,又稱(chēng)為p值或觀測(cè)到的顯著性水平。比較判斷:若p值小于顯著性水平即小概率事件(p<0.01或p<0.05),則拒絕原假設(shè),即總體均值與檢驗(yàn)值之間有顯著性差異;反之,則不能拒絕原假設(shè),即總體均值與檢驗(yàn)值之間無(wú)顯著性差異。假設(shè)檢驗(yàn)的方法均值檢驗(yàn),是用樣本的均值來(lái)估計(jì)總體的均值。t.test()函數(shù)均值檢驗(yàn)>t1<-rnorm(100,mean=0,sd=4)#生成正態(tài)分布隨機(jī)數(shù),均值為0,標(biāo)準(zhǔn)差為4>t.test(t1,mu=0)#t檢驗(yàn)
OneSamplet-test
data:t1t=-0.019173,df=99,p-value=0.9847alternativehypothesis:truemeanisnotequalto095percentconfidenceinterval:-0.67847380.6654876sampleestimates:meanofx-0.006493091均值檢驗(yàn),是用樣本的均值來(lái)估計(jì)總體的均值。均值檢驗(yàn)>t2<-rnorm(100,mean=1,sd=4)>t.test(t2,mu=0) OneSamplet-testdata:t2t=2.309,df=99,p-value=0.02302alternativehypothesis:truemeanisnotequalto095percentconfidenceinterval:0.13300951.7579973sampleestimates:meanofx0.9455034>t1<-rnorm(100,mean=0,sd=4)>t.test(t1,mu=0)#t檢驗(yàn)
OneSamplet-test
data:t1t=-0.019173,df=99,p-value=0.9847alternativehypothesis:truemeanisnotequalto095percentconfidenceinterval:-0.67847380.6654876sampleestimates:meanofx-0.006493091相關(guān)性檢驗(yàn)(correlationtest)是對(duì)變量之間是否相關(guān)以及相關(guān)的程度所進(jìn)行的統(tǒng)計(jì)檢驗(yàn)。相關(guān)系數(shù):cor()函數(shù),相關(guān)性檢驗(yàn):cor.test()函數(shù)。相關(guān)性檢驗(yàn)>cor(iris[,c(1:4)])
Sepal.Length
Sepal.Width
Petal.Length
Petal.WidthSepal.Length1.0000000-0.11756980.87175380.8179411Sepal.Width-0.11756981.0000000-0.4284401-0.3661259Petal.Length0.8717538-0.42844011.00000000.9628654
Petal.Width0.8179411-0.36612590.96286541.0000000相關(guān)性檢驗(yàn):cor.test()函數(shù)相關(guān)性檢驗(yàn)>cor.test(iris$Sepal.Length,iris$Petal.Length)
Pearson'sproduct-momentcorrelationdata:iris$Sepal.Lengthandiris$Petal.Lengtht=21.646,df=148,p-value<2.2e-16alternativehypothesis:truecorrelationisnotequalto095percentconfidenceinterval:0.82703630.9055080sampleestimates:cor0.8717538>#對(duì)照下面代碼分析比較結(jié)果>cor.test(iris$Sepal.Length,iris$Sepal.Length)假設(shè)檢驗(yàn)的方法均值檢驗(yàn):
t.test相關(guān)性檢驗(yàn):cor,cor.test小結(jié)方差分析方差分析 什么是方差分析單因素方差案例1單因素方差案例2目錄方差分析(AnalysisofVariance,簡(jiǎn)稱(chēng)ANOVA)特點(diǎn):研究一個(gè)或多個(gè)分類(lèi)型自變量與一個(gè)數(shù)值型因變量之間的關(guān)系。目的:分析各個(gè)因素的影響以及因素間的交互影響。區(qū)別:均值檢驗(yàn)(t檢驗(yàn))用于檢驗(yàn)兩個(gè)正態(tài)分布的總體均值是否相等,方差分析則檢驗(yàn)多個(gè)總體(多個(gè)組)的均值是否存在差異。分類(lèi):?jiǎn)我蛩胤讲罘治?、雙因素方差分析、協(xié)方差分析等。單因素方差分析:只考慮一個(gè)因素對(duì)結(jié)果的影響。函數(shù):oneway.test()、aov()等方差分析方法單因素方差分析例1:顯著相關(guān)>aggregate(iris[,1:4],by=list(iris$Species),FUN=mean)Group.1Sepal.LengthSepal.WidthPetal.LengthPetal.Width1setosa5.0063.4281.4620.2462versicolor5.9362.7704.2601.3263virginica6.5882.9745.5522.026>oneway.test(Sepal.Length~Species,iris)
One-wayanalysisofmeans(notassumingequalvariances)
data:Sepal.LengthandSpeciesF=138.91,numdf=2.000,denomdf=92.211,p-value<2.2e-16>summary(aov(Sepal.Length~Species,iris))DfSumSqMeanSqFvaluePr(>F)Species263.2131.606119.3<2e-16***Residuals14738.960.265---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1分組計(jì)算函數(shù)aggregate()
3個(gè)類(lèi)別對(duì)應(yīng)的變量均值有差異單因素方差分析函數(shù)oneway.test()
設(shè)置“Sepal.Length~Species”,查看不同種類(lèi)對(duì)Sepal.Length的影響。p值小于0.05,因此拒絕原假設(shè),得出結(jié)論:不同種類(lèi)的特征變量有顯著差異,和aggregate()函數(shù)結(jié)果相對(duì)應(yīng)。方差分析函數(shù)aov()
輸出結(jié)果需要加上summary()函數(shù)。最后一行顯示顯著性,其中‘***’表示最顯著,‘’表示不顯著。p值遠(yuǎn)小于0.05,說(shuō)明拒絕原假設(shè),即三種類(lèi)型花的Sepal.Length變量有顯著差異。單因素方差分析例1:顯著相關(guān)單因素方差分析例2:不顯著相關(guān)>str(sleep)'data.frame': 20obs.of3variables:$extra:num0.7-1.6-0.2-1.2-0.13.43.70.802...$group:Factorw/2levels"1","2":1111111111...$ID:Factorw/10levels"1","2","3","4",..:12345678910...>oneway.test(extra~group,data=sleep) One-wayanalysisofmeans(notassumingequalvariances)
data:extraandgroupF=3.4626,numdf=1.000,denomdf=17.776,p-value=0.07939
>summary(aov(extra~group,sleep))DfSumSqMeanSqFvaluePr(>F)group112.4812.4823.4630.0792.Residuals1864.893.605---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1描述函數(shù)str()描述sleep中各變量取值,value為數(shù)值型變量,group和ID為因子型變量。單因素方差分析函數(shù)oneway.test()設(shè)置“extra~group”,查看不同分組對(duì)extra值的影響。p-value=0.07939,表明接受原假設(shè),得出結(jié)論兩組沒(méi)有顯著差異。方差分析函數(shù)aov()p值的顯著性標(biāo)記為‘.’,不顯著,表明兩種催眠藥對(duì)時(shí)間的結(jié)果不顯著。單因素方差分析例2:不顯著相關(guān)方差分析 什么是方差分析單因素方差案例相關(guān)函數(shù):oneway.test,
aov,aggregate,str,summary小結(jié)線(xiàn)性回歸(LinearRegression)線(xiàn)性回歸變量間關(guān)系一元線(xiàn)性回歸多項(xiàng)式回歸多元線(xiàn)性回歸目錄含義:用觀察使得認(rèn)知接近真值的過(guò)程,回歸本源?;貧w是很多算法的基礎(chǔ)?;貧w(Regression)真值測(cè)量值回歸回歸分析可以衡量不同尺度的變量之間的相互影響,有利于排除并估計(jì)出一組最佳的變量,用來(lái)構(gòu)建預(yù)測(cè)模型。如:如價(jià)格變動(dòng)與促銷(xiāo)活動(dòng)數(shù)量之間聯(lián)系。司機(jī)的魯莽駕駛與道路交通事故數(shù)量之間的關(guān)系。飯店銷(xiāo)售額和顧客消費(fèi)特點(diǎn)的關(guān)系。回歸方程表明自變量和因變量之間的顯著關(guān)系。表明多個(gè)自變量對(duì)一個(gè)因變量的影響強(qiáng)度?;貧w的應(yīng)用相關(guān)概念方差分析:分類(lèi)型自變量與數(shù)值型因變量之間的關(guān)系;回歸分析:數(shù)值型自變量和數(shù)值型因變量之間關(guān)系。線(xiàn)性(linear):量與量之間按比例、成直線(xiàn)的關(guān)系,在數(shù)學(xué)上可以理解為一階導(dǎo)數(shù)為常數(shù)的函數(shù);非線(xiàn)性(non-linear):指不按比例、不成直線(xiàn)的關(guān)系,一階導(dǎo)數(shù)不為常數(shù)。一元線(xiàn)性回歸方程:一個(gè)因變量和一個(gè)自變量回歸的應(yīng)用
目標(biāo)y:因變量、響應(yīng)變量
預(yù)測(cè)器
x:自變量、預(yù)報(bào)變量、解釋變量一元線(xiàn)性回歸:一個(gè)因變量和一個(gè)自變量多項(xiàng)式回歸:只有一個(gè)自變量,但同時(shí)包含自變量的冪多元線(xiàn)性回歸:一個(gè)因變量和多個(gè)自變量回歸方程
最小二乘法(ordinaryleastsquares,OLS)估算最佳擬合線(xiàn)相關(guān)分析是對(duì)兩個(gè)變量之間線(xiàn)性關(guān)系的描述與度量。變量之間是否存在關(guān)系?如果存在關(guān)系,它們之間是什么樣的關(guān)系?變量之間的關(guān)系強(qiáng)度如何?樣本所反映的變量之間的關(guān)系能否代表總體變量之間的關(guān)系??jī)蓚€(gè)假定:兩個(gè)變量之間是線(xiàn)性關(guān)系,兩個(gè)變量是隨機(jī)變量。方法:散點(diǎn)圖(第4章),相關(guān)系數(shù)(第5章)測(cè)量關(guān)系強(qiáng)度,顯著性檢驗(yàn)(第6章)判斷樣本所反映總體的關(guān)系。變量間關(guān)系lm()函數(shù)lm()函數(shù)是擬合線(xiàn)性模型最基本的函數(shù)。(analysisofvariance:方差分析)lm()函數(shù)formula中的操作符~對(duì)擬合線(xiàn)性模型有用的其他函數(shù)一元線(xiàn)性回歸attach(women)#建立簡(jiǎn)單線(xiàn)性回歸模型fit<-lm(weight~height)plot(height,weight)abline(fit,col="red")detach(women)一元線(xiàn)性回歸>str(women)'data.frame': 15obs.of2variables:$height:num58596061626364656667...$weight:num115117120123126129132135139142...>cor(women)heightweightheight1.00000000.9954948weight0.99549481.0000000>fit<-lm(weight~height,data=women)>summary(fit)Call:lm(formula=weight~height,data=women)Residuals:Min1QMedian3QMax-1.7333-1.1333-0.38330.74173.1167
Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)-87.516675.93694-14.741.71e-09***height3.450000.0911437.851.09e-14***---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1
Residualstandarderror:1.525on13degreesoffreedomMultipleR-squared:0.991, AdjustedR-squared:0.9903F-statistic:1433on1and13DF,p-value:1.091e-14Weight=-87.52+3.45*Height多項(xiàng)式回歸fit2<-lm(weight~height+I(height^2),data=women)plot(women$height,women$weight)lines(women$height,fitted(fit2))
>fit2<-lm(weight~height+I(height^2),data=women)>summary(fit2)Call:lm(formula=weight~height+I(height^2),data=women)
Residuals:Min1QMedian3QMax-0.50941-0.29611-0.009410.286150.59706
Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)261.8781825.1967710.3932.36e-07***height-7.348320.77769-9.4496.58e-07***I(height^2)0.083060.0059813.8919.32e-09***---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1
Residualstandarderror:0.3841on12degreesoffreedomMultipleR-squared:0.9995, AdjustedR-squared:0.9994F-statistic:1.139e+04on2and12DF,p-value:<2.2e-16Weight=261.88-7.35*Height+0.08*Height^2一元回歸方程在二維空間中是一條直線(xiàn),在直角坐標(biāo)中畫(huà)出來(lái)含有兩個(gè)自變量的回歸方程,在三維空間中以一個(gè)平面表示?;貧w方程中的各項(xiàng)參數(shù)仍然使用最小二乘法求得,回歸方程的擬合優(yōu)度、顯著性檢驗(yàn)等概念和一元線(xiàn)性回歸類(lèi)似。多元線(xiàn)性回歸
以state.x77數(shù)據(jù)集為例,它是一個(gè)美國(guó)50州對(duì)應(yīng)8個(gè)統(tǒng)計(jì)項(xiàng)目的矩陣,利用它來(lái)進(jìn)行犯罪率(Murder)與其它因素(Population人口,Illiteracy文盲率,Income收入,F(xiàn)rost結(jié)霜天數(shù))多元回歸分析。多元線(xiàn)性回歸>str(state.x77)num[1:50,1:8]36153652212211021198...-attr(*,"dimnames")=Listof2..$:chr[1:50]"Alabama""Alaska""Arizona""Arkansas".....$:chr[1:8]"Population""Income""Illiteracy""LifeExp"...>class(state.x77)[1]"matrix">states<-as.data.frame(state.x77[,c("Murder","Population","Illiteracy","Income","Frost")])>str(states)'data.frame': 50obs.of5variables:$Murder:num15.111.37.810.110.36.83.16.210.713.9...$Population:num36153652212211021198...$Illiteracy:num2.11.51.81.91.10.71.10.91.32...$Income:num36246315453033785114...$Frost:num201521565201661391031160..state.x77數(shù)據(jù)集>cor(states)MurderPopulationIlliteracyIncomeFrostMurder1.00000000.34364280.7029752-0.2300776-0.5388834Population0.34364281.00000000.10762240.2082276-0.3321525Illiteracy0.70297520.10762241.0000000-0.4370752-0.6719470Income-0.23007760.2082276-0.43707521.00000000.2262822Frost-0.5388834-0.3321525-0.67194700.22628221.0000000>fit3<-lm(Murder~Population+Illiteracy+Income+Frost,data=states)>summary(fit3)
Call:lm(formula=Murder~Population+Illiteracy+Income+Frost,data=states)
Residuals:Min1QMedian3QMax-4.7960-1.6495-0.08111.48157.6210
Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)1.235e+003.866e+000.3190.7510Population2.237e-049.052e-052.4710.0173*Illiteracy4.143e+008.744e-014.7382.19e-05***Income6.442e-056.837e-040.0940.9253Frost5.813e-041.005e-020.0580.9541---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1
Residualstandarderror:2.535on45degreesoffreedomMultipleR-squared:0.567, AdjustedR-squared:0.5285F-statistic:14.73on4and45DF,p-value:9.133e-08小結(jié)線(xiàn)性回歸變量間關(guān)系一元線(xiàn)性回歸多項(xiàng)式回歸多元線(xiàn)性回歸函數(shù)lm()的靈活運(yùn)用廣義線(xiàn)性模型(GeneralizeLinearModel)廣義線(xiàn)性模型廣義線(xiàn)性模型與glm()函數(shù)Logistic回歸泊松回歸目錄回顧:線(xiàn)性回歸一元線(xiàn)性回歸、多項(xiàng)式回歸、多元線(xiàn)性回歸因變量:定量(quantitative)的連續(xù)型數(shù)值數(shù)據(jù)lm()函數(shù),最小二乘法方法廣義線(xiàn)性模型
目標(biāo)y:因變量、響應(yīng)變量
預(yù)測(cè)器
x:自變量、預(yù)報(bào)變量、解釋變量廣義線(xiàn)性模型正態(tài)線(xiàn)性模型的拓展,適用于連續(xù)和離散等多種類(lèi)型數(shù)據(jù)。離散型分類(lèi)數(shù)據(jù),離散型計(jì)數(shù)數(shù)據(jù)。glm()函數(shù),通過(guò)極大似然方法估計(jì)出系數(shù)。因變量的不同,采用不同方法。如果是連續(xù)值:多元線(xiàn)性回歸如果是二項(xiàng)分布:logistic回歸如果是泊松分布:泊松回歸廣義線(xiàn)性模型glm()函數(shù)glm(formula,family=family(link=function),data,…)廣義線(xiàn)性模型分布名稱(chēng)參數(shù)名稱(chēng)默認(rèn)的連接函數(shù)二項(xiàng)分布binomiallink=”logit”高斯分布gaussianlink=”identity”Gamma分布gammalink=”inverse”逆高斯分布inverse.gaussianlink=”1/mu^2”泊松分布poissonlink=”log”對(duì)擬合線(xiàn)性模型有用的其他函數(shù)Logistic回歸主要研究二元分類(lèi)因變量與諸多自變量間的相互關(guān)系。二元變量的取值為1和0,1表示某件事情的發(fā)生,0表示不發(fā)生。假設(shè)y是1的概率是P1,是0的概率是P0,P1+P0=1,Logistic回歸的y是P1/P0的自然對(duì)數(shù),即:Logistic回歸y=ln(P1/P0)=ln(P1/(1-P1))=ax+b回歸系數(shù)是當(dāng)其他預(yù)測(cè)變量不變時(shí),一單位預(yù)測(cè)變量的變化可以引起的因變量對(duì)數(shù)優(yōu)勢(shì)比(log)的變化。優(yōu)勢(shì)比是某種推測(cè)為真的概率與某種推測(cè)為假的概率的比值。AER包中的婚外情數(shù)據(jù)集(Affairs)為例。Logistic回歸>library(AER)>str(Affairs)'data.frame': 601obs.of9variables:$affairs:num0000000000...$gender:Factorw/2levels"female","male":2112211212...$age:num37273257223222573222...$yearsmarried:num10415150.751.50.7515151.5...$children:Factorw/2levels"no","yes":1122111221...$religiousness:int3415222244...$education:num18141218171712141614...$occupation:int7616651414...$rating:int4445353425...>Affairs$ynaffair[Affairs$affairs>0]<-1#設(shè)置新變量ynaffair值>Affairs$ynaffair[Affairs$affairs==0]<-0>Affairs$ynaffair<-factor(Affairs$ynaffair,levels=c(0,1))>#設(shè)置為因子型變量>table(Affairs$ynaffair)#得到頻數(shù)表,未有婚外情的樣本為451
01451150>#所有變量進(jìn)行分析>fit.full<-glm(ynaffair~gender+age+yearsmarried+children+religiousness+education+occupation+rating,data=Affairs,family=binomial())>summary(fit.full)
從結(jié)果看到,age,yearsmarried,religiousness,rating這四個(gè)變量有*標(biāo)記,具有顯著性。其他四個(gè)變量不顯著。去除這些不顯著變量后重新擬合模型。>fit.less<-glm(ynaffair~age+yearsmarried+religiousness+rating,data=Affairs,family=binomial())>summary(fit.less)新模型的每個(gè)回歸系數(shù)都非常顯著(p<0.05),可以使用第二個(gè)簡(jiǎn)單模型進(jìn)行分析解釋。在Logistic回歸中,回歸系數(shù)表示對(duì)數(shù)的變化,由于對(duì)數(shù)比的解釋性差,可以將結(jié)果進(jìn)行指數(shù)化后查看。>coef(fit.less)(Intercept)ageyearsmarriedreligiousnessrating1.93083017-0.035271120.10062274-0.32902386-0.46136144>exp(coef(fit.less))(Intercept)ageyearsmarriedreligiousnessrating6.89523210.96534371.10585940.71962580.6304248婚齡增加1年,婚外情的優(yōu)勢(shì)比將乘以1.11;年齡增加1歲,婚外情的優(yōu)勢(shì)比乘以0.96,影響較?。换橐鲈u(píng)分升高1級(jí),婚外情的優(yōu)勢(shì)比將乘以0.6。……由此看出年齡增加、宗教信仰和婚姻評(píng)分的增加,婚外情的優(yōu)勢(shì)比將下降。拓展:使用predict()函數(shù),觀察預(yù)測(cè)變量在各個(gè)水平時(shí)對(duì)結(jié)果概率的影響。二項(xiàng)分布觀測(cè)到的因變量的方差大于期望的方差,稱(chēng)為過(guò)度離勢(shì),會(huì)導(dǎo)致不精確的顯著性檢驗(yàn),需要將二項(xiàng)分布改為類(lèi)二項(xiàng)分布。檢測(cè)過(guò)度離勢(shì)也是得到準(zhǔn)確分析結(jié)果的步驟之一。Logistic回歸還有很多拓展,如:穩(wěn)健logistic回歸,robust包中的函數(shù)glmRob()。多項(xiàng)分布logistic回歸,mlogit包中的函數(shù)mlogit()。序數(shù)logistic回歸,rms包中的函數(shù)lrm()。Logistic回歸當(dāng)因變量是分類(lèi)型數(shù)據(jù),如是/否、通過(guò)/未通過(guò)等二分類(lèi)或多分類(lèi)時(shí),使用Logistic回歸。當(dāng)因變量是計(jì)數(shù)型數(shù)據(jù),如一周交通事故的次數(shù)、足球進(jìn)球個(gè)數(shù)等問(wèn)題時(shí),采用泊松回歸。泊松回歸結(jié)果顯示age,yearsmarried,religiousness,occupation,rating這五個(gè)變量有*標(biāo)記,具有顯著性,其他三個(gè)變量不顯著。進(jìn)行回歸系數(shù)指數(shù)化變形。對(duì)回歸系數(shù)進(jìn)行指數(shù)化變形后:年齡增加一歲,婚外情次數(shù)將乘以0.967,意味著年齡的增加次數(shù)減少;當(dāng)婚姻評(píng)分升高1級(jí),婚外情次數(shù)將乘0.663,說(shuō)明其他因素不變時(shí),婚姻評(píng)分升高1級(jí)婚外情次數(shù)降低了34%。小結(jié)廣義線(xiàn)性模型與glm()函數(shù)Logistic回歸泊松回歸分布名稱(chēng)參數(shù)名稱(chēng)默認(rèn)的連接函數(shù)二項(xiàng)分布binomiallink=”logit”高斯分布gaussianlink=”identity”Gamma分布gammalink=”inverse”逆高斯分布inverse.gaussianlink=”1/mu^2”泊松分布poissonlink=”log”glm(formula,family=family(link=function),…)綜合實(shí)驗(yàn)理解隨機(jī)數(shù)、假設(shè)檢驗(yàn)、方差分析、回歸分析的概念。掌握本章函數(shù)的用法。熟悉本章示例代碼,掌握實(shí)際應(yīng)用方法。能夠通過(guò)help方法學(xué)習(xí)函數(shù)中參數(shù)的用法。實(shí)驗(yàn)?zāi)繕?biāo)第6章講義中的案例第6章綜合實(shí)驗(yàn)第6章使用的函數(shù)第6章思考與練習(xí)實(shí)驗(yàn)內(nèi)容及資料目標(biāo):理解常用假設(shè)檢驗(yàn)概念和方法;熟練掌握R語(yǔ)言常用函數(shù)。內(nèi)容:實(shí)驗(yàn)1:假設(shè)檢驗(yàn)應(yīng)用實(shí)驗(yàn)1-1:使用甲乙兩臺(tái)機(jī)床來(lái)加工同種零件,兩種機(jī)床加工零件的尺寸服從正態(tài)分布,且方差相同,從兩種機(jī)床加工的零件中分別抽取若干零件測(cè)得的其尺寸如下,請(qǐng)檢驗(yàn)兩臺(tái)機(jī)床加工的零件尺寸均值是否一致?甲:20.9,19.1,19.7,20.4,20.1,20.0,19.0,19.99乙:20.72,19.82,19.52,20.82,20.42,19.62,20.22目標(biāo):理解常用假設(shè)檢驗(yàn)概念和方法;熟練掌握R語(yǔ)言常用函數(shù)。內(nèi)容:實(shí)驗(yàn)1:假設(shè)檢驗(yàn)應(yīng)用實(shí)驗(yàn)1-2:使用同一設(shè)備和試劑進(jìn)行樣品的提純,先使用標(biāo)準(zhǔn)試劑,再用新試劑,交替進(jìn)行各獲得10組數(shù)據(jù)如下(數(shù)據(jù)值越大效果越好)。設(shè)樣本相互獨(dú)立且正態(tài)分布,問(wèn)新試劑能否提高效果?標(biāo)準(zhǔn)試劑:78.172.476.274.377.478.476.075.576.777.3新試劑:79.181.077.379.180.079.179.177.380.282.1目標(biāo):理解常用假設(shè)檢驗(yàn)概念和方法;熟練掌握R語(yǔ)言常用函數(shù)。內(nèi)容:實(shí)驗(yàn)1:假設(shè)檢驗(yàn)應(yīng)用實(shí)驗(yàn)1-3:某種礦石中兩種有用成分A,B,取10個(gè)樣品,每個(gè)樣品中成分A的含量百分?jǐn)?shù)x(%),及B的含量百分?jǐn)?shù)y(%)的數(shù)據(jù)下表所示,對(duì)兩組數(shù)據(jù)進(jìn)行相關(guān)性檢驗(yàn)。實(shí)驗(yàn)1:假設(shè)檢驗(yàn)應(yīng)用實(shí)驗(yàn)1-1:均值檢驗(yàn)實(shí)驗(yàn)1-2:均值檢驗(yàn)t.test(data1,mu=mean(data2))#t檢驗(yàn),若p-value<0.05表明均值不等實(shí)驗(yàn)1-3:相關(guān)性檢驗(yàn)cor.test(data1,data2))#相關(guān)性檢驗(yàn),若p-value<0.05表明存在相關(guān)性目標(biāo):理解方差分析概念;熟練掌握R語(yǔ)言常用函數(shù)。內(nèi)容:實(shí)驗(yàn)2:方差分析實(shí)驗(yàn)2-1:使用str()、table()、aggregate()、ggplot()等函數(shù),對(duì)ToothGrowth數(shù)據(jù)集進(jìn)行基本分析和繪圖;實(shí)驗(yàn)2-2:使用oneway()、summary(aov())等函數(shù),對(duì)ToothGrowth數(shù)據(jù)集進(jìn)行單因素方差分析,解釋結(jié)果;實(shí)驗(yàn)2-3:使用summary(aov())等函數(shù),對(duì)ToothGrowth數(shù)據(jù)集進(jìn)行多因素方差分析,解釋結(jié)果。(方差分析比較多個(gè)總體的均值是否相等)實(shí)驗(yàn)2:方差分析實(shí)驗(yàn)2-1:基本分析str()、table()、aggregate()、ggplot()
#描述、頻數(shù)、分組計(jì)算、繪圖實(shí)驗(yàn)2-2:?jiǎn)我蛩胤讲罘治鰋neway()、summary(aov())#‘***’表示最顯著,有顯著差異實(shí)驗(yàn)2-3:多因素方差分析summary(aov())interaction.plot()#展示雙因素方差分析的交互效應(yīng)目標(biāo):理解線(xiàn)性回歸模型;熟練掌握R語(yǔ)言常用函數(shù)。內(nèi)容:實(shí)驗(yàn)3:一元線(xiàn)性回歸分析實(shí)驗(yàn)3-1:給出y<-c(1,2,3,4,5),x<-c(2,4,6,8,10),確定x和y之間的線(xiàn)性回歸方程,解釋參數(shù)含義及結(jié)果,繪制plot的散點(diǎn)圖和擬合線(xiàn);實(shí)驗(yàn)3-2:生成評(píng)價(jià)擬合模型的四張?jiān)\斷圖,解釋圖的含義;實(shí)驗(yàn)3-3:對(duì)新的一組數(shù)x=c(10,11,12)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度智慧農(nóng)業(yè)灌溉系統(tǒng)建設(shè)與運(yùn)營(yíng)管理合同4篇
- 2025年度二零二五版環(huán)保技術(shù)研發(fā)項(xiàng)目保證合同4篇
- 二零二五版二手房買(mǎi)賣(mài)合同中的物業(yè)費(fèi)結(jié)算辦法3篇
- 2025年度綜合性消防安全設(shè)施維護(hù)保養(yǎng)服務(wù)協(xié)議4篇
- 2025年智能安置房租賃合同示范文本3篇
- 個(gè)人租車(chē)位簡(jiǎn)易協(xié)議合同 2篇
- 上海律協(xié)發(fā)布COVID(2024版)
- 個(gè)人勞務(wù)用工合同范本 2篇
- 2025年度池塘漁業(yè)資源增殖放流合作合同3篇
- 2025年度藝術(shù)品代持協(xié)議書(shū)3篇
- 2024年全國(guó)體育專(zhuān)業(yè)單獨(dú)招生考試數(shù)學(xué)試卷試題真題(含答案)
- 北師大版小學(xué)三年級(jí)上冊(cè)數(shù)學(xué)第五單元《周長(zhǎng)》測(cè)試卷(含答案)
- DB45T 1950-2019 對(duì)葉百部生產(chǎn)技術(shù)規(guī)程
- 新修訂《保密法》知識(shí)考試題及答案
- 電工基礎(chǔ)知識(shí)培訓(xùn)課程
- 住宅樓安全性檢測(cè)鑒定方案
- 廣東省潮州市潮安區(qū)2023-2024學(xué)年五年級(jí)上學(xué)期期末考試數(shù)學(xué)試題
- 市政道路及設(shè)施零星養(yǎng)護(hù)服務(wù)技術(shù)方案(技術(shù)標(biāo))
- 《論語(yǔ)》學(xué)而篇-第一課件
- 《寫(xiě)美食有方法》課件
- (完整word版)申論寫(xiě)作格子紙模板
評(píng)論
0/150
提交評(píng)論