數(shù)據(jù)挖掘與數(shù)據(jù)分析 第四章課后習題及答案_第1頁
數(shù)據(jù)挖掘與數(shù)據(jù)分析 第四章課后習題及答案_第2頁
數(shù)據(jù)挖掘與數(shù)據(jù)分析 第四章課后習題及答案_第3頁
數(shù)據(jù)挖掘與數(shù)據(jù)分析 第四章課后習題及答案_第4頁
數(shù)據(jù)挖掘與數(shù)據(jù)分析 第四章課后習題及答案_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第四章課后習題答案詳解1.邏輯回歸如何從線性回歸演化而來?答:監(jiān)督學習中,如果預測的變量是離散的,我們稱其為分類,如果預測的變量是連續(xù)的,我們稱其為回歸。線性回歸是利用數(shù)理統(tǒng)計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關系的一種統(tǒng)計分析方法?;貧w分析中,如果只包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關系,則稱為多元線性回歸分析。在統(tǒng)計學中,線性回歸(LinearRegression)是利用稱為線性回歸方程的最小平方函數(shù)對一個或多個自變量和因變量之間關系進行建模的一種回歸分析。邏輯回歸與線性回歸都是一種廣義線性模型。邏輯回歸假設因變量y服從伯努利分布。邏輯回歸和線性回歸首先都是廣義的線性回歸,經(jīng)典線性模型的優(yōu)化目標函數(shù)是最小二乘,而邏輯回歸則是似然函數(shù)。線性回歸假設因變量y服從高斯分布。因此與線性回歸有很多相同之處,去除Sigmoid映射函數(shù)的話,邏輯回歸算法就是一個線性回歸??梢哉f,邏輯回歸是以線性回歸為理論支持的,但是邏輯回歸通過Sigmoid函數(shù)引入了非線性因素,因此可以輕松處理0/1分類問題。2.如何利用邏輯回歸解決多分類任務?答:在現(xiàn)實世界中,需要解決的問題往往不是二分類問題,而是多分類問題。針對多分類將有三種解決方法:(1)OVO(onevsone)One-Vs-One是一種相對穩(wěn)健的擴展方法。某個分類算法有N類,將某一類和另一類比較作為二分類問題,總共可分為Cn假設我們要解決一個分類問題,該分類問題有三個類別,分別用△,□和×表示,每個實例(Entity)有兩個屬性(Attribute),如果把屬性1作為X軸,屬性2作為Y軸,訓練集(TrainingDataset)的分布可以表示為下圖2-1:圖2-1訓練集的分布圖2-2三角形與x訓練得出的分類器三角形與x訓練得出的分類器如上圖2-2所示。三角形與正方形訓練的出的分類器如下圖2-3所示。圖2-3三角形與正方形訓練的出的分類器圖2-4正方形與x訓練得出的分類器正方形與x訓練得出的分類器如上圖2-4所示。假如我們要預測的一個數(shù)據(jù)在圖中紅色圓圈的位置,那么第一個分類器會認為它是x,第二個分類器會認為它偏向三角形,第三個分類器會認為它是x,經(jīng)過三個分類器的投票之后,可以預測紅色圓圈所代表的數(shù)據(jù)的類別為x,如下圖2-5所示。圖2-5預測紅色圓圈所代表的數(shù)據(jù)的類別為x這一方法也有顯著的優(yōu)缺點,其缺點是訓練出更多的分類器,會影響預測時間。其優(yōu)點也很明顯,它在一定程度上規(guī)避了數(shù)據(jù)集不均衡的情況,性能相對穩(wěn)定,并且需要訓練的模型數(shù)雖然增多,但是每次訓練時訓練集的數(shù)量都降低很多,其訓練效率會提高。(2)OVR(OneVsRest)某個分類算法有N類,將某一類和剩余的類比較作為二分類問題,N個類別進行N次分類,得到N個二分類模型,給定一個新的樣本點,求出每種二分類對應的概率,概率最高的一類作為新樣本的預測結果。還是以下圖為例:假設我們要解決一個分類問題,該分類問題有三個類別,分別用△,□和×表示,每個實例(Entity)有兩個屬性(Attribute),如果把屬性1作為X軸,屬性2作為Y軸,訓練集(TrainingDataset)的分布可以表示為下圖2-6:圖2-6訓練集的分布圖2-7第一個分類器比如第一步,我們可以將三角形所代表的實例全部視為正類,其他實例全部視為負類,得到的分類器如上圖2-7所示:圖2-8第二個分類器圖2-9第三個分類器同理我們把X視為正類,其他視為負類,可以得到第二個分類器如上圖2-8。最后,第三個分類器是把正方形視為正類,其余視為負類,如上圖2-9所示。對于一個三分類問題,我們最終得到3個二元分類器。在預測階段,每個分類器可以根據(jù)測試樣本,得到當前正類的概率。選擇計算結果最高的分類器,其正類就可以作為預測結果。優(yōu)點:普適性還比較廣,可以應用于能輸出值或者概率的分類器,同時效率相對較好,有多少個類別就訓練多少個分類器。缺點:很容易造成訓練集樣本數(shù)量的不平衡,尤其在類別較多的情況下,經(jīng)常容易出現(xiàn)正類樣本的數(shù)量遠遠不及負類樣本的數(shù)量,這樣就會造成分類器的偏向性。(3)Softmax在二元的邏輯回歸模型中,我們用Sigmoid函數(shù)將一個多維數(shù)據(jù)(一個樣本)映射到一個0-1之間的數(shù)值上,通過Softmax函數(shù)可以讓一個樣本映射到多個0-1之間的數(shù)值。 使所有概率之和為1,是對概率分布進行歸一化。定義了新的假設函數(shù)之后,我們要得到其對應的代價函數(shù)。 其中1{·}的取值規(guī)則為大括號內(nèi)的表達式為真時,取1,為假時取0.對該代價函數(shù)求最優(yōu)解同樣可以使用如梯度下降之類的迭代算法,其梯度公式如下: 有了偏導數(shù),就可以對代價函數(shù)進行優(yōu)化,最終求解。本質上講,Softmax回歸就是logistic回歸進行多分類時的一種數(shù)學拓展,在處理一些樣本可能叢屬多個類別的分類問題是,使用onevsone或onevsall有可能達到更好的效果,Softmax回歸適合處理一個樣本盡可能屬于一種類別的多分類問題。利用R中自帶的其他數(shù)據(jù)集進行邏輯回歸模型的構建答:使用R中數(shù)據(jù)集iris來舉例,該數(shù)據(jù)集包含150種鳶尾花的信息,每50種取自三類鳶尾花種之一(setosa,versicolour或virginica)。數(shù)據(jù)集中各個參數(shù)的含義如下表1所示:表1iris數(shù)據(jù)集參數(shù)說明符號符號說明Sepal.Length花萼長度Sepal.Width花萼寬度Petal.Length花瓣長度Petal.Width花瓣寬度Species花的種類類#查看數(shù)據(jù)信息head(iris)輸出:Sepal.LengthSepal.WidthPetal.LengthPetal.WidthSpecies15.13.51.40.2setosa24.93.01.40.2setosa34.73.21.30.2setosa44.63.11.50.2setosa55.03.61.40.2setosa65.43.91.70.4setosa對數(shù)據(jù)進行統(tǒng)計描述:#對數(shù)據(jù)進行統(tǒng)計描述summary(iris)輸出:邏輯回歸:a<-which(iris$Species=="virginica")head(a)輸出:101102103104105106#取出其他的兩類myir<-iris[-a,]#隨機抽樣s<-sample(100,80)#排序s<-sort(s)#訓練集——ir_train<-myir[s,]head(ir_train)輸出:#測試集ir_test<-myir[-s,]model<-glm(Species~.,family=binomial(link="logit"),data=ir_train)summary(model)輸出:#殘差a<-predict(model,type="response")#大于0.5為1res_train<-ifelse(a>0.5,1,0)b<-predict(model,type="response",newdata=ir_test)res_test<-ifelse(b>0.5,1,0)model<-glm(Species~.,family=binomial(link="logit"),data=ir_train,control=list(maxit=100))summary(model)輸出:4.分類任務的評價指標有哪些,試利用R語言進行指標計算的實現(xiàn)。答:分類任務的常用評價指標主要有:①混淆矩陣(ConfuseMatrix);②準確率(Accuracy);③精準率(Precision);④召回率(Recall);⑤.F1指數(shù)(F1Score);⑥ROC;⑦.AUC。R語言實現(xiàn)代碼如下:library(ggplot2)library(knitr)library(dplyr)#載入數(shù)據(jù)df=read.csv("/Users/qiqian/Desktop/R/classification-output-data.csv")#混淆矩陣confusion_table=table(df[,'scored.class'],df[,'class'])confusion_table#[TP,TN,FP,FN]#真陽性率,真陰性率,假陽性率,假陰性率confusion_table[1,1]='TN'confusion_table[1,2]='FN'confusion_table[2,1]='FP'confusion_table[2,2]='TP'confusion_table#設置評價指標函數(shù)#準確率get_accuracy<-function(df,predicted,actual){confusion_table=table(df[,predicted],df[,actual])TP=confusion_table[2,2]TN=confusion_table[1,1]FN=confusion_table[1,2]FP=confusion_table[2,1]accuracy=round((TP+TN)/sum(TP,FP,TN,FN),2)return(accuracy)}#精準率get_precision<-function(df,predicted,actual){confusion_table=table(df[,predicted],df[,actual])TP=confusion_table[2,2]TN=confusion_table[1,1]FN=confusion_table[1,2]FP=confusion_table[2,1]precision=round(TP/(TP+FP),2)return(precision)}#召回率get_recall<-function(df,predicted,actual){confusion_table=table(df[,predicted],df[,actual])TP=confusion_table[2,2]TN=confusion_table[1,1]FN=confusion_table[1,2]FP=confusion_table[2,1]precision=round(TP/(TP+FN),2)return(recall)}#ROCandAUCget_roc<-function(df){#Definethresholdvaluesbetween0and1,incrementingby0.01threshold<-seq(0,1,0.01)sens<-c()spec<-c()#Foreverythresholdvalue,determinefor(tinthreshold){sens<-append(sens,sum((df$bability>=t&df$class==1))/sum(df$class==1))spec<-append(spec,sum((df$bability>=t&df$class==0))/sum(df$class==0))}#Pushtheresultedvectorstodataframeforplottingtmp_df<-data.frame(sens=sens,spec=spec)#Plotroc_plot<-ggplot(tmp_df,aes(x=spec,y=sens,group=1))+geom_line()+geom_point()+geom_abline(intercept=0,slope=1)#AreaUndertheCurve(AUC)pos=df[df$class==1,11]neg=df[df$class==0,11]auc_value=mean(replicate(100000,sample(pos,size=1)>sample(neg,size=1)))return(list(plot=roc_plot,auc=auc_value))}rocauc<-get_roc(df)rocauc$plotscore=data.frame(accuracy=get_accuracy(df,'scored.class','class'),precision=get_precision(df,'scored.class','class'),recall=get_recall(df,'scored.class','class'),f1_score=get_f1_score(df,'scored.class','class'),auc=unlist(rocauc[2]))kable(score)輸出:5.闡述邏輯回歸模型的優(yōu)缺點和適用場景答:(1)優(yōu)點①邏輯回歸的基礎是線性回歸,對于問題的抽象相對容易。②邏輯回歸使用廣泛

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論