數(shù)據(jù)挖掘與數(shù)據(jù)分析 第三章課后習(xí)題及答案_第1頁
數(shù)據(jù)挖掘與數(shù)據(jù)分析 第三章課后習(xí)題及答案_第2頁
數(shù)據(jù)挖掘與數(shù)據(jù)分析 第三章課后習(xí)題及答案_第3頁
數(shù)據(jù)挖掘與數(shù)據(jù)分析 第三章課后習(xí)題及答案_第4頁
數(shù)據(jù)挖掘與數(shù)據(jù)分析 第三章課后習(xí)題及答案_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第三章課后習(xí)題答案詳解1.現(xiàn)有一關(guān)于葡萄酒品質(zhì)的數(shù)據(jù)集“winequality-red”(該數(shù)據(jù)集下載網(wǎng)址/datasets/uciml/red-wine-quality-cortez-et-al-2009),包含了12個項目(1-固定酸度,2-揮發(fā)性酸度,3-檸檬酸,4-殘余糖,5-氯化物,6-自由二氧化硫量,7-二氧化硫總量,8-密度,9-pH值,10-硫酸鹽,11-酒精濃度,和12-品質(zhì)(0-10分),以R語言為分析工具,構(gòu)建葡萄酒品質(zhì)的預(yù)測模型。答:該數(shù)據(jù)集共有1599條數(shù)據(jù),記錄了不同品牌葡萄酒的數(shù)據(jù),數(shù)據(jù)集中各個參數(shù)的含義如下表1所示:表1winequality-red數(shù)據(jù)集參數(shù)說明符號符號說明fixed.acidity固定酸度volatile.acidity揮發(fā)性酸度citric.acid檸檬酸residual.sugar殘余糖chlorides氯化物free.sulfur.dioxide自由二氧化硫量total.sulfur.dioxide二氧化硫總量density密度pHpH值sulphates硫酸鹽alcohol酒精濃度quality品質(zhì)(0-10分)回歸模型的建立及檢驗過程:讀取數(shù)據(jù):#讀取數(shù)據(jù)WQR<-read.csv("C:\\Users\\HP\\Desktop\\winequality-red.CSV")head(WQR)輸出:fixed.acidityvolatile.aciditycitric.acidresidual.sugarchloridesfree.sulfur.dioxide17.40.700.001.90.0761127.80.880.002.60.0982537.80.760.042.30.09215411.20.280.561.90.0751757.40.700.001.90.0761167.40.660.001.80.07513total.sulfur.dioxidedensitypHsulphatesalcoholquality1340.99783.510.569.452670.99683.200.689.853540.99703.260.659.854600.99803.160.589.865340.99783.510.569.456400.99783.510.569.45繪制散點圖,初步確定變量之間的相關(guān)性:par(mfrow=c(3,4),mai=c(.6,.6,.3,.3))plot(quality~fixed.acidity,data=WQR)plot(quality~volatile.acidity,data=WQR)plot(quality~citric.acid,data=WQR)plot(quality~residual.sugar,data=WQR)plot(quality~chlorides,data=WQR)plot(quality~free.sulfur.dioxide,data=WQR)plot(quality~total.sulfur.dioxide,data=WQR)plot(quality~density,data=WQR)plot(quality~pH,data=WQR)plot(quality~sulphates,data=WQR)plot(quality~alcohol,data=WQR)結(jié)果如下圖1-1所示:圖1-1數(shù)據(jù)集“winequality-red”中各變量與quality之間的散點圖由各個變量與quality的散點圖可以看出,quality與各個變量之間無明顯的線性關(guān)系。使用lm函數(shù)建立線性回歸模型:m1=lm(quality~.,data=WQR)m1輸出:得到的回歸模型為:quality=21.97+0.02fixed.acidity?1.08volatile.acidity?0.18citric.acid+0.02residual.sugar?1.87chlorides?17.88density?0.41pH+0.92sulphates+0.28alcohol對模型進行F檢驗與t檢驗:R中summary函數(shù)可以完成F統(tǒng)計量與t統(tǒng)計量的計算:summary(m1)輸出:#參考F統(tǒng)計量值qf(0.95,11,1587)輸出:1.794671#參考t統(tǒng)計量值qt(0.975,1587)輸出:[1]1.96146結(jié)果中第三列數(shù)字為t統(tǒng)計量的值,在該樣本上對應(yīng)的t統(tǒng)計量理論參考值為1.96,volatile.acidity、chlorides、free.sulfur.dioxide、total.sulfur.dioxide、pH、sulphates、alcohol的t大于該樣本下的理論值,即檢驗表明quality與volatile.acidity、chlorides、free.sulfur.dioxide、total.sulfur.dioxide、pH、sulphates、alcohol之間有著較為顯著的相關(guān)關(guān)系,最后一行指出了F檢驗的值,大于該樣本下的理論參考值(1.79),表明回歸模型總體上是顯著的??梢园l(fā)現(xiàn),t檢驗的結(jié)果與之前由散點圖得出的初步結(jié)論并不完全一致。判斷各個自變量之間的相關(guān)關(guān)系:cor(WQR)輸出:由以上結(jié)果可以發(fā)現(xiàn),模型不存在多重共線問題。為了保證刪除一些自變量后模型仍然具有較好的擬合效果,進行全子集回歸:library(leaps)x<-WQR[,1:11]y<-WQR[,12]out<-summary(regsubsets(x,y,nbset=2,nvmax=ncol(x)))tab<-cbind(out$which,out$rsq,out$adjr2,out$cp)tab輸出:基于以上結(jié)果,可以使用volatile.acidity、chlorides、pH、sulphates、alcohol作為最終的自變量構(gòu)建線性回歸模型:m2=lm(quality~volatile.acidity+chlorides+pH+sulphates+alcohol,data=WQR)summary(m2)輸出:顯然,F(xiàn)統(tǒng)計量與t統(tǒng)計量的值比最初建立的模型m1更大,表明新模型m2的總體顯著性與回歸系數(shù)顯著性均較高,此時的回歸方程為:quality=4.01?1.07volatile.acidity?1.93c?lorides?0.42pH+0.85sulp?ates+0.31alco?ol為了確定模型的回歸效果是否顯著,現(xiàn)進行交叉驗證回歸。n<-length(WQR$quality)diff<-dim(n)percdiff<-dim(n)for(kin1:n){train1<-c(1:n)train<-train1[train1!=k]m3<-lm(quality~volatile.acidity+chlorides+pH+sulphates+alcohol,data=WQR[train,])pred<-predict(m3,newdat=WQR[-train,])obs<-WQR$quality[-train]diff[k]<-obs-predpercdiff[k]<-abs(diff[k])/obs}me<-mean(diff)rmse<-sqrt(mean(diff**2))mape<-100*mean(percdiff)mermsemape輸出:-0.00033484830.654919.383173使用R中caret包的trainControl()函數(shù)實現(xiàn)此過程:library(caret)train.control<-trainControl(method="LOOCV")model<-train(quality~volatile.acidity+chlorides+pH+sulphates+alcohol,data=WQR,method="lm",trControl=train.control)print(model)輸出:經(jīng)過交叉驗證回歸,得出的平均誤差為-0.0003,均方根誤差(RMSE)為0.65,平均絕對百分比誤差為9.38%,樣本決定系數(shù)(R22.根據(jù)某所中學(xué)數(shù)學(xué)和葡萄牙語課程學(xué)生的家庭,生活,學(xué)習(xí),成績信息數(shù)據(jù)集“student-mat”及“student-por”(該數(shù)據(jù)集的下載網(wǎng)址為/code/mohaiminul101/student-grade-prediction-and-eda/data),以R語言為分析工具,分析學(xué)生成績分布的特點,找出影響學(xué)生成績的主要因素,構(gòu)建學(xué)生成績的預(yù)測模型。答:該數(shù)據(jù)集為兩所葡萄牙學(xué)校的中學(xué)學(xué)生的學(xué)習(xí)成績。數(shù)據(jù)屬性包括:學(xué)生成績、人口統(tǒng)計學(xué)、社會和與學(xué)校相關(guān)的特征,并通過使用學(xué)校報告和調(diào)查表進行收集。提供了兩個關(guān)于兩個不同學(xué)科表現(xiàn)的數(shù)據(jù)集:數(shù)學(xué)(mat)和葡萄牙語(por)。兩個數(shù)據(jù)集均有33個相同屬性,各個參數(shù)的含義如下表2所示:表2數(shù)據(jù)集參數(shù)說明符號符號說明school學(xué)校(二分類變量:GP-GabrielPereira或MS-MousinhodaSilveira)sex性別-學(xué)生的性別(二分類變量:F-女性或M-男性)age年齡-學(xué)生的年齡(數(shù)字:15至22)address地址-學(xué)生的家庭住址類型(二分類變量:U-城市或R-農(nóng)村)famsize家庭成員數(shù)量(二分類變量:LE3-小于或等于3或GT3-大于3)Pstatus父母的同居狀態(tài)(二分類變量:T-同居或A-分開)Medu母親的教育程度(數(shù)字:0-無,1-初等教育,2-5至9年級,3-中等教育或4-高等教育)Fedu父親的教育(數(shù)字:0-無,1-初等教育,2-5至9年級,3-中等教育或4-高等教育)Mjob母親的工作(教師、與健康有關(guān)的、民事服務(wù)(例如行政或警察)、在家或其他)Fjob父親的工作(教師、與健康有關(guān)的、民事服務(wù)(例如行政或警察)、在家或其他)reason理由-選擇這所學(xué)校的理由(名義:接近家,學(xué)校聲譽,課程偏好或其他)guardian監(jiān)護人-學(xué)生的監(jiān)護人(字符:母親,父親或其他)traveltime學(xué)校到學(xué)校的旅行時間(數(shù)字:1-小于15分鐘,2-15至30分鐘,3-30分鐘至1小時,4-大于1小時)studytime學(xué)習(xí)時間-每周學(xué)習(xí)時間(數(shù)字:1-小于2小時2-2至5小時,3-5至10小時或4-大于10小時)failures失敗-過去失敗的次數(shù)schholsup額外的教育支持(二分類變量:是或否)paid家庭教育支持(二分類變量:是或否)activities課外活動(二分類變量:是或否)nursery托兒所-上托兒所(二分類變量:是或否)higher是否想要接受高等教育(二分類變量:是或否)internet在家上網(wǎng)(二分類變量:是或否)romantic是否戀愛(二分類變量:是或否)famrel家庭關(guān)系(數(shù)字:從1-非常差到5-極好)freetime放學(xué)后的空閑時間(數(shù)字:從1-非常低到5-非常高)goout與朋友外出(數(shù)字:從1-非常低到5-非堂高)Dalc工作日酒精消耗(數(shù)字:從1-非常低到5-非常高)Walc周末酒精消耗(數(shù)字:從1-非常低至5-非常高)health當前的健康狀況(數(shù)字:從1-非常差到5-非常好)absences缺勤數(shù)(數(shù)字:0到93)G1第一期成績(數(shù)字:0至20)G2第二學(xué)期成績(數(shù)字:0至20)G3最終成績(數(shù)字:0到20,輸出目標)2.1student-mat數(shù)據(jù)集讀取數(shù)據(jù):mat<-read.csv("C:\\Users\\HP\\Desktop\\student-mat.csv")head(mat)輸出:數(shù)據(jù)預(yù)處理:#導(dǎo)入相應(yīng)的數(shù)據(jù)包library(mice)library(VIM)md.pattern(mat)輸出:#無缺失值#僅保留數(shù)值型變量library(dplyr)library(psych)dataend<-select(mat,c("school","sex","address","famsize","Pstatus","Mjob","Fjob","reason","guardian","schoolsup","famsup","paid","activities","nursery","higher","internet","romantic"))#數(shù)據(jù)分析describe(mat)輸出:summary(mat)輸出:分析屬性:#利用圖表分析屬性hist(mat$G3,breaks=15,col="red",xlab="期末成績",ylab="人數(shù)統(tǒng)計",main="成績分布圖")rug(jitter(dataend$G3))輸出:可以看出得10分和11分的學(xué)生數(shù)量很多,雖然這只是一個中等成績,大部分學(xué)生的成績分布在8-15分之間。更值得注意的是,有接近40個人得了0分。#數(shù)據(jù)轉(zhuǎn)化mat[,c("school","sex","address","famsize","Pstatus","Mjob","Fjob","reason","guardian","schoolsup","famsup","paid","activities","nursery","higher","internet","romantic")]<-lapply(mat[,c("school","sex","address","famsize","Pstatus","Mjob","Fjob","reason","guardian","schoolsup","famsup","paid","activities","nursery","higher","internet","romantic")],factor)str(mat)輸出:判斷變量之間的相關(guān)性:#初步確定變量之間的相關(guān)性library(corrgram)corrgram(mat,order=TRUE,lower.panel=panel.shade,upper.panel=panel.pie,text.panel=panel.txt,main="Corrgramofstudent_mathintercorrelations")輸出:剔除G1、G2的影響:#剔除G1&G2的影響mat_1<-mat[,-(31:32)]corrgram(mat_1,order=TRUE,lower.panel=panel.shade,upper.panel=panel.pie,text.panel=panel.txt,main="Corrgramofstudent_mathintercorrelations")輸出:可以看出age&failures和G3的相關(guān)度較明顯,且變量之間也有明顯相關(guān)關(guān)系如Dalc和Walc,Medu和Fedu。建立線性回歸模型:#使用lm函數(shù)建立線性回歸模型model<-lm(mat_1$G3~.,data=mat_1)summary(model)輸出:#使用lm函數(shù)建立線性回歸模型model<-lm(mat_1$G3~.,data=mat_1)summary(model)輸出:#參考F統(tǒng)計量值qf(0.95,39,355)#參考t統(tǒng)計量值qt(0.975,355)輸出:1.433681.966669由分析結(jié)果可知sex,failures,schoolsup,romantic,freetime與G3顯著相關(guān),檢驗的結(jié)果與之前得出的初步結(jié)論并不完全一致。多重共線性檢驗:library(car)vif(model)輸出:自變量對應(yīng)的VIF值均小于10,現(xiàn)有模型不存在多重共線性?;谝陨喜僮?,構(gòu)建線性回歸模型為model2<-lm(G3~sex+failures+schoolsup+romantic+freetime+goout,data=mat_1)summary(model2)輸出:得到最終回歸方程模型G3=11.8876-2.13failures+0.8755sexM+-0.9015romanticyes-0.4642goout交叉驗證:#交叉驗證回歸library(ggplot2)library(lattice)library(caret)train.control<-trainControl(method="LOOCV")model<-train(G3~sex+failures+schoolsup+romantic+freetime+goout,data=mat_1,method="lm",trControl=train.control)print(model)輸出:

2.2數(shù)據(jù)集student-por#數(shù)據(jù)讀取por<-read.csv("D:/DataAnalysisModelingDecisions/student-por.csv")por[1:5,]輸出:數(shù)據(jù)總體分析:library(psych)describe(por)head(por)summary(por)利用圖表分析屬性:hist(por$G3,breaks=10,col="red",xlab="期末成績",ylab="人數(shù)統(tǒng)計",main="成績分布圖")輸出:可以看出得11分左右的學(xué)生數(shù)量很多,雖然這只是一個中等成績,大部分學(xué)生的成績分布在8-16分之間。更值得注意的是,有接近20個人得了0分。批量轉(zhuǎn)化為因子型:por[,c("school","sex","address","famsize","Pstatus","Mjob","Fjob","reason","guardian","schoolsup","famsup","paid","activities","nursery","higher","internet","romantic")]<-lapply(por[,c("school","sex","address","famsize","Pstatus","Mjob","Fjob","reason","guardian","schoolsup","famsup","paid","activities","nursery","higher","internet","romantic")],factor)str(por)輸出:繪制散點圖,初步確定變量之間的相關(guān)性:par(mfrow=c(3,2),mai=c(.6,.6,.3,.3))plot(G3~age,data=por)plot(G3~sex,data=por)plot(G3~school,data=por)plot(G3~address,data=por)plot(G3~famsize,data=por)plot(G3~Pstatus,data=por)plot(G3~Medu,data=por)plot(G3~Fedu,data=por)plot(G3~Mjob,data=por)plot(G3~Fjob,data=por)plot(G3~reason,data=por)plot(G3~guardian,data=por)plot(G3~traveltime,data=por)plot(G3~studytime,data=por)plot(G3~failures,data=por)plot(G3~schoolsup,data=por)plot(G3~famsup,data=por)plot(G3~paid,data=por)plot(G3~activities,data=por)plot(G3~nursery,data=por)plot(G3~higher,data=por)plot(G3~internet,data=por)plot(G3~romantic,data=por)plot(G3~famrel,data=por)plot(G3~freetime,data=por)plot(G3~goout,data=por)plot(G3~Dalc,data=por)plot(G3~Walc,data=por)plot(G3~health,data=por)plot(G3~absences,data=por)部分結(jié)果如下圖2-1所示:圖2-1部分結(jié)果圖由上圖2-1可以看出G3與school和higher之間存在線性關(guān)系。使用lm函數(shù)建立線性回歸模型,分析成績G3與哪些因素有關(guān):m2=lm(por$G3~.,data=por[,-(31:33)])summary(m2)m2輸出:對模型進行F檢驗與t檢驗:R中summary函數(shù)可以完成F統(tǒng)計量與t統(tǒng)計量的計算:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論