R語言數(shù)據(jù)分析與挖掘(微課版) 習題及答案 chapter10_第1頁
R語言數(shù)據(jù)分析與挖掘(微課版) 習題及答案 chapter10_第2頁
R語言數(shù)據(jù)分析與挖掘(微課版) 習題及答案 chapter10_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

判斷題分類和回歸都可用于預測,分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。(對)A.對B.錯分類模型的誤差大致分為兩種:訓練誤差(trainingerror)和泛化誤差(generalizationerror)。(對)A.對B.錯在決策樹中,隨著樹中結點數(shù)變得太大,即使模型的訓練誤差還在繼續(xù)減低,但是檢驗誤差開始增大,這是出現(xiàn)了模型擬合不足的問題。(錯)A.對B.錯多選題決策樹包含以下哪些節(jié)點(ABD)根結點(rootnode)內(nèi)部結點(internalnode)外部結點(externalnode)葉結點(leafnode)以下關于決策樹的說法是正確的有(ABD)冗余屬性不會對決策樹的準確率造成不利的影響冗余屬性不會對決策樹的準確率造成不利的影響決策樹算法對于噪聲的干擾非常敏感尋找最佳決策樹是NP完全問題上機題數(shù)據(jù)集(cs-training.csv)是從kaggle(/c/GiveMeSomeCredit/data)上下載的“givemesomecredit”信用比賽的原始數(shù)據(jù)。此數(shù)據(jù)集包含了15萬行的數(shù)據(jù),一共有11個指標,其中SeriousDlqin2yrs為借款人是否逾期的指標,而剩下的10個指標為本項目用來判斷借款人是否逾期的因變量。請利用此數(shù)據(jù)集構建個人信用評估相關機器學習模型,要求如下:變量MonthlyIncome、NumberOfDependents存在缺失值,請利用中位數(shù)對缺失值進行替換。剔除變量age為0的樣本,且剔變量NumberOfTime30-59DaysPastDueNotWorse、NumberOfTimes90DaysLate和NumberOfTime60-89DaysPastDueNotWorse最大的兩個值。按照變量SeriousDlqin2yrs進行等比例分區(qū),50%作為訓練集、50%作為測試集。分別使用C5.0算法、CART算法、條件推理決策樹算法構建決策樹模型,并對比各自在測試集上的預測效果。參考答案:#數(shù)據(jù)的獲取和整合#導入數(shù)據(jù)traindata<-read.csv("data/cs-training.csv")#剔除id列traindata<-traindata[,-1]#對變量重命名colnames(traindata)<-c('y',paste0("x",1:10))#缺失值處理library(mice)library(VIM)md.pattern(traindata)aggr(traindata,prop=F,numvers=T)#中位數(shù)的缺失值替換法library(caret)imputation_m<-preProcess(traindata,method="medianImpute")traindata<-predict(imputation_m,newdata=traindata)md.pattern(traindata)#異常值分析及處理unique(traindata$x2)#刪除x2(年齡)為0的樣本traindata<-traindata[!traindata$x2==0,]#查看x3、x7、x9三個變量的箱線圖par(mfrow=c(1,3))for(iinc(4,8,10)){boxplot(traindata[,i],col=i,main=colnames(traindata)[i])}par(mfrow=c(1,1))#剔除最大的兩個值for(iinc(4,8,10)){x<-sort(traindata[,i],decreasing=T)x<-data.frame(table(x))x<-x[sort(x$x,decreasing=T),]x<-x[1:2,1]traindata<-traindata[!traindata[,i]%in%x,]}#數(shù)據(jù)分區(qū)prop.table(table(traindata$y))library(caret)splitIndex<-createDataPartition(traindata$y,times=1,p=0.5,list=FALSE)train<-traindata[splitIndex,]test<-traindata[-splitIndex,]prop.table(table(train$y))prop.table(table(test$y))###決策樹####C5.0算法if(!require(C50))install.packages("C50")train$y<-as.factor(train$y)C5.0.model<-C5.0(y~.,data=train)summary(C5.0.model)#對訓練集數(shù)據(jù)進行預測,并查看效果train.predict<-predict(C5.0.model,newdata=train)(a<-table(actual=train$y,predict=train.predict))sum(diag(a))/sum(a)#對測試集數(shù)據(jù)進行預測,并查看效果test$y<-as.factor(test$y)test.predict<-predict(C5.0.model,newdata=test)(b<-table(actual=test$y,predict=test.predict))sum(diag(b))/sum(b)#得到預測概率值b<-predict(C5.0.model,newdata=train,type="prob")#CART算法library(rpart)(rpart.model<-rpart(y~.,data=train))plot(rpart.model)text(rpart.model)library(rpart.plot)rpart.plot(rpart.model)train.predict<-predict(rpart.model,newdata=train,type="class")(a<-table(actual=train$y,predict=train.predict))sum(diag(a))/sum(a)test.predict<-predict(rpart.model,newdata=test,type="class")(b<-table(actual=test$y,prdict=test.predict))sum(diag(b))/sum(b)#條件推理決策樹算法library(party)ctree.model<-ctree(y~.,data=train)train.predict<-predict(ctree.model,newdata=train,type="response")(a<-table(actual=train$y,predict=train.predict

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論