




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第1頁,共1頁一、單項(xiàng)選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學(xué)年第1學(xué)期)考試科目機(jī)器學(xué)習(xí)-Python實(shí)踐(A卷)適用專業(yè)班級(年級)得分命題人:審閱人:班級學(xué)號姓名考試科目裝訂線1、關(guān)于支持向量機(jī)SVM,下列說法錯(cuò)誤的是()A.L2正則項(xiàng),作用是最大化分類間隔,使得分類器擁有更強(qiáng)的泛化能力B.Hinge損失函數(shù),作用是最小化經(jīng)驗(yàn)分類錯(cuò)誤C.分類間隔為1||w||1||w||,||w||代表向量的模D.當(dāng)參數(shù)C越小時(shí),分類間隔越大,分類錯(cuò)誤越多,趨于欠學(xué)習(xí)2、假定某同學(xué)使用NaiveBayesian(NB)分類模型時(shí),不小心將訓(xùn)練數(shù)據(jù)的兩個(gè)維度搞重復(fù)了,那么關(guān)于NB的說法中正確的是:()A.這個(gè)被重復(fù)的特征在模型中的決定作用會(huì)被加強(qiáng)B.模型效果相比無重復(fù)特征的情況下精確度會(huì)降低C.如果所有特征都被重復(fù)一遍,得到的模型預(yù)測結(jié)果相對于不重復(fù)的情況下的模型預(yù)測結(jié)果一樣。D.當(dāng)兩列特征高度相關(guān)時(shí),無法用兩列特征相同時(shí)所得到的結(jié)論來分析問題3、關(guān)于Logit回歸和SVM不正確的是()A.Logit回歸本質(zhì)上是一種根據(jù)樣本對權(quán)值進(jìn)行極大似然估計(jì)的方法,而后驗(yàn)概率正比于先驗(yàn)概率和似然函數(shù)的乘積。logit僅僅是最大化似然函數(shù),并沒有最大化后驗(yàn)概率,更談不上最小化后驗(yàn)概率。A錯(cuò)誤B.Logit回歸的輸出就是樣本屬于正類別的幾率,可以計(jì)算出概率,正確C.SVM的目標(biāo)是找到使得訓(xùn)練數(shù)據(jù)盡可能分開且分類間隔最大的超平面,應(yīng)該屬于結(jié)構(gòu)風(fēng)險(xiǎn)最小化。D.SVM可以通過正則化系數(shù)控制模型的復(fù)雜度,避免過擬合。4、以下哪些方法不可以直接來對文本分類?()A、KmeansB、決策樹C、支持向量機(jī)D、KNN正確答案:A分類不同于聚類。5、關(guān)于Logit回歸和SVM不正確的是()A.Logit回歸本質(zhì)上是一種根據(jù)樣本對權(quán)值進(jìn)行極大似然估計(jì)的方法,而后驗(yàn)概率正比于先驗(yàn)概率和似然函數(shù)的乘積。logit僅僅是最大化似然函數(shù),并沒有最大化后驗(yàn)概率,更談不上最小化后驗(yàn)概率。A錯(cuò)誤B.Logit回歸的輸出就是樣本屬于正類別的幾率,可以計(jì)算出概率,正確C.SVM的目標(biāo)是找到使得訓(xùn)練數(shù)據(jù)盡可能分開且分類間隔最大的超平面,應(yīng)該屬于結(jié)構(gòu)風(fēng)險(xiǎn)最小化。D.SVM可以通過正則化系數(shù)控制模型的復(fù)雜度,避免過擬合。6、下列不是SVM核函數(shù)的是()A.多項(xiàng)式核函數(shù)B.logistic核函數(shù)C.徑向基核函數(shù)D.Sigmoid核函數(shù)7、模型的高bias是什么意思,我們?nèi)绾谓档退??機(jī)器學(xué)習(xí)ML基礎(chǔ)易()A.在特征空間中減少特征B.在特征空間中增加特征C.增加數(shù)據(jù)點(diǎn)D.B和C8、當(dāng)你使用Boosting提升算法時(shí),你會(huì)考慮弱學(xué)習(xí)器,以下哪項(xiàng)是使用弱學(xué)習(xí)器的主要原因?()A.防止過擬合B.防止欠擬合C.防止過擬合和防止欠擬合D.都不對9、梯度提升中,利用學(xué)習(xí)率來獲得最優(yōu)輸出是非常重要的,在選擇學(xué)習(xí)速率時(shí), 下列描述正確的是:()A.學(xué)習(xí)率越大越好B.學(xué)習(xí)率越小越好C.學(xué)習(xí)率應(yīng)該小一點(diǎn)但是不能太小D.學(xué)習(xí)率不能太大也不能太小,根據(jù)情況而定10、下列哪個(gè)算法不是集成學(xué)習(xí)算法的例子:()A.RandomForestB.AdaBoostC.GBDTD.XgboostE.DecisionTree二、判斷題(本大題共10小題,每題1分,共10分)1、錯(cuò)誤率(ErrorRate)是分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例。()2、決策樹算法可以用于小數(shù)據(jù)集。()3、支持向量是SVM的訓(xùn)練結(jié)果,在SVM分類決策中起決定作用的是支持向量。()4、SVM在小樣本訓(xùn)練集上能夠得到比其它算法好很多的結(jié)果。()5、最大似然估計(jì)的目的就是:利用已知的樣本結(jié)果,反推最有可能(最大概率)導(dǎo)致這樣結(jié)果的參數(shù)值。()6、決策樹只能處理數(shù)據(jù)型屬性。()7、邏輯回歸計(jì)算速度快。()8、集成學(xué)習(xí)(ensemblelearning)通過構(gòu)建并結(jié)合多個(gè)學(xué)習(xí)器(learner)來完成學(xué)習(xí)任務(wù)()9、集成學(xué)習(xí)可獲得比單一學(xué)習(xí)器更良好的泛化性能(特別是在集成弱學(xué)習(xí)器(weaklearner)時(shí))。()10、集成學(xué)習(xí)以bagging、RandomForest等算法為代表的,各個(gè)學(xué)習(xí)器之間相互獨(dú)立、可同時(shí)生成的并行化方法。()三、填空(本大題共10小題,每題3分,共30分)1、熵指的是體系的的程度。2、算法利用信息增益進(jìn)行特征的選擇,信息增益反映的是給定條件后不確定性減少的程度。3、算法在決策樹生成的過程中,用信息增益比來選擇特征。4、p(x|θ)是給定參數(shù)θ的概率分布:。5、線性回歸如果是泊松分布,那就是。6、回歸常用評估方法:,,。7、基尼指數(shù)(基尼不純度)=*。8、聚類(Clustering)是指把相似的數(shù)據(jù)劃分到一起,具體劃分的時(shí)候并不關(guān)心這一類的標(biāo)簽,目標(biāo)就是把相似的數(shù)據(jù)聚合到一起,聚類是一種。9、分類(Classification):是把不同的數(shù)據(jù)劃分開,其過程是通過訓(xùn)練數(shù)據(jù)集獲得一個(gè)分類器,再通過分類器去預(yù)測未知數(shù)據(jù),分類是一種。10、聚類的一般過程數(shù)據(jù)準(zhǔn)備:和。四、簡答題(本大題共3小題,共30分)1、L1和L2正則先驗(yàn)分別服從什么分布?什么是最小二乘法?常用的降維技術(shù)有哪些?一、選擇題1.C 2.BD 3.A 4.A 5.A 6.B 7.B 8.B 9.D 10.E二、判斷題1.對 2.對 3.對 4.對 5.對 6.錯(cuò) 7.對 8.對 9.對 10.對 三、填空題1.混亂 2.ID3 3.C4.5 4.似然函數(shù) 5.泊松回歸 6.平均誤差絕對值誤差R2 7.樣本被選中的概率樣本被分錯(cuò)的概率 8.無監(jiān)督學(xué)習(xí)(UnsupervisedLearning)方法 9.監(jiān)督學(xué)習(xí)(SupervisedLearning)方法 10.特征標(biāo)準(zhǔn)化降維四、簡答題1、答:L1和L2正則先驗(yàn)分別服從什么分布,L1是拉普拉斯分布,L2是高斯分布。2、答:最小二乘法(又稱最小平方法)是一種數(shù)學(xué)優(yōu)化技術(shù)。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。利用最小二乘法可以簡便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實(shí)際數(shù)據(jù)之間誤差的平方和為最小。3、答:(1)主成分分析(PCA)在PCA中,數(shù)據(jù)從原來的坐標(biāo)系轉(zhuǎn)換到新的坐標(biāo)系,由數(shù)據(jù)本身決定。轉(zhuǎn)換坐標(biāo)系時(shí),以方差最大的方向作為坐標(biāo)軸方向,因?yàn)閿?shù)據(jù)的最大方差給出了數(shù)據(jù)的最重要的信息。第一個(gè)新坐標(biāo)軸選擇的是原始數(shù)據(jù)中方差最大的方法,第二個(gè)新坐標(biāo)軸選擇的是與第一個(gè)新坐標(biāo)軸正交且方差次大的方向。重復(fù)該過程,重復(fù)次數(shù)為原始數(shù)據(jù)的特征維數(shù)。大部分方差都包含在最前面的幾個(gè)新坐標(biāo)軸中,因此,可以忽略余下的坐標(biāo)軸,即對數(shù)據(jù)進(jìn)行了降維處理。(2)因子分析(FA)在因子分析中,假設(shè)在觀察數(shù)據(jù)的生成中有一些觀察不到的隱變量;假設(shè)觀察數(shù)據(jù)是這些隱變量和某些噪聲的線性組合;那么隱變量的數(shù)據(jù)可能比觀察數(shù)據(jù)的數(shù)目少,也就是說通過找到隱變量就可以實(shí)現(xiàn)數(shù)據(jù)的降維。(3)獨(dú)立成分分析(ICA)ICA假設(shè)數(shù)據(jù)是從N個(gè)數(shù)據(jù)源生成的,這一點(diǎn)和因子分析有些類似。假設(shè)數(shù)據(jù)為多個(gè)數(shù)據(jù)源的混合觀察結(jié)果,這些數(shù)據(jù)源之間在統(tǒng)計(jì)上是相互獨(dú)立的,而在PCA中只假設(shè)數(shù)據(jù)是不相關(guān)的。同因子分析一樣,如果數(shù)據(jù)源的數(shù)目少于觀察數(shù)據(jù)的數(shù)目,則可以實(shí)現(xiàn)降維過程。本篇以下內(nèi)容主要介紹PCA。優(yōu)點(diǎn):降低數(shù)據(jù)的復(fù)雜性,識別最重要的多個(gè)特征。缺點(diǎn):不一定需要,且可能損失有用信息。一、單項(xiàng)選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學(xué)年第1學(xué)期)考試科目機(jī)器學(xué)習(xí)-Python實(shí)踐(A卷)適用專業(yè)班級(年級)得分命題人:審閱人:班級學(xué)號姓名考試科目裝訂線1、假設(shè),現(xiàn)在我們已經(jīng)建了一個(gè)模型來分類,而且有了99%的預(yù)測準(zhǔn)確率,我們可以下的結(jié)論是:()A.模型預(yù)測準(zhǔn)確率已經(jīng)很高了,我們不需要做什么了B.模型預(yù)測準(zhǔn)確率不高,我們需要做點(diǎn)什么改進(jìn)模型C.無法下結(jié)論D.以上都不對2、我們想在大數(shù)據(jù)集上訓(xùn)練決策樹,為了使用較少時(shí)間,我們可以:()A.增加樹的深度B.增加學(xué)習(xí)率(learningrate)C.減少樹的深度D.減少樹的數(shù)量3、對于線性回歸,我們應(yīng)該有以下哪些假設(shè)?()1.找到離群點(diǎn)很重要,因?yàn)榫€性回歸對利群點(diǎn)很敏感2.線性回歸要求所有變量必須符合正態(tài)分布3.線性回歸假設(shè)數(shù)據(jù)沒有多重線性相關(guān)性A.1和2B.2和3C.1,2和3D.以上都不是4、關(guān)于正態(tài)分布,下列說法錯(cuò)誤的是:()A.正態(tài)分布具有集中性和對稱性B.正態(tài)分布的均值和方差能夠決定正態(tài)分布的位置和形態(tài)C.正態(tài)分布的偏度為0,峰度為1D.標(biāo)準(zhǔn)正態(tài)分布的均值為0,方差為15、決策樹的父節(jié)點(diǎn)和子節(jié)點(diǎn)的熵的大小關(guān)系是什么?()A.決策樹的父節(jié)點(diǎn)更大B.子節(jié)點(diǎn)的熵更大C.兩者相等D.根據(jù)具體情況而定6、下列關(guān)于極大似然估計(jì)(MaximumLikelihoodEstimate,MLE),說法正確的是(多選)?()A.MLE可能并不存在B.MLE總是存在C.如果MLE存在,那么它的解可能不是唯一的D.如果MLE存在,那么它的解一定是唯一的7、一般來說,下列哪種方法常用來預(yù)測連續(xù)獨(dú)立變量?()A.線性回歸B.邏輯回顧C(jī).線性回歸和邏輯回歸都行D.以上說法都不對8、你使用隨機(jī)森林生成了幾百顆樹(T1,T2,...,Tn),然后對這些樹的預(yù)測結(jié)果進(jìn)行綜合,下列說法正確的是:()1、每棵樹是通過所有數(shù)據(jù)的子集構(gòu)建而成的2、每棵樹學(xué)習(xí)的樣本數(shù)據(jù)都是通過隨機(jī)有放回采樣而得的3、每棵樹是通過數(shù)據(jù)集的子集和特征的子集構(gòu)建而成的4、每棵樹是通過所有的數(shù)據(jù)構(gòu)建而成的A.1和2B.2和4C.1、2和3D.2和39、下面關(guān)于隨機(jī)森林和GBDT的說法正確的是:()①這兩種方法都可以用來解決分類問題②隨機(jī)森林解決分類問題,GBDT解決回歸問題③隨機(jī)森林解決回歸問題,GBDT解決分類問題④這兩種方法都可以用來解決回歸問題A.①B.②C.③D.④E.①和④10、關(guān)于隨機(jī)森林和GBDT,下列說法錯(cuò)誤的是:()A.隨機(jī)森林中每個(gè)學(xué)習(xí)器是相互獨(dú)立的B.隨機(jī)森林利用了bagging的思想來構(gòu)建強(qiáng)學(xué)習(xí)器C.GBDT利用了Boosting的思想來構(gòu)建強(qiáng)學(xué)習(xí)器D.GBDT中每個(gè)學(xué)習(xí)器之間沒有任何聯(lián)系二、判斷題(本大題共10小題,每題1分,共10分)1、SVM是一個(gè)凸優(yōu)化問題,因此局部最優(yōu)解一定是全局最優(yōu)解的優(yōu)點(diǎn)。()2、錯(cuò)誤否定(FalseNegative,FN):預(yù)測為假,實(shí)際為真。()3、邏輯回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋。所以實(shí)際中最常用的就是二分類的邏輯回歸。()4、決策樹只能處理數(shù)據(jù)型屬性。()5、樸素貝葉斯適合高維數(shù)據(jù)。()6、隨機(jī)事件X所包含的信息量與其發(fā)生的概率有關(guān)。發(fā)生的概率越小,其信息量就越小。()7、決策樹短時(shí)間內(nèi)處理大量數(shù)據(jù),得到可行且效果較好的結(jié)果。()8、集成學(xué)習(xí)以boosting、Adaboost等算法為代表的,個(gè)體學(xué)習(xí)器不是串行序列化生成的、具有依賴關(guān)系。()9、Adaboost算法流程給數(shù)據(jù)中的每一個(gè)樣本一個(gè)權(quán)重。()10、Adaboost算法流程訓(xùn)練數(shù)據(jù)中的每一個(gè)樣本,得到第一個(gè)分類器()三、填空(本大題共10小題,每題3分,共30分)1、評判分類效果好壞的三個(gè)指標(biāo)就是上面介紹的三個(gè)指標(biāo):,,。2、提取出的正確信息條數(shù)/提取出的信息條數(shù)是。3、模型把訓(xùn)練樣本學(xué)習(xí)“太好了”,可能把一些訓(xùn)練樣本自身的特性當(dāng)做了所有潛在樣本都有的一般性質(zhì),導(dǎo)致泛化能力下降叫。4、分類是預(yù)測,比如把人分為好人和壞人之類的學(xué)習(xí)任務(wù)。5、訓(xùn)練用到的每個(gè)樣本叫。6、訓(xùn)練過程中用到的數(shù)據(jù)叫。7、在某些情況下,我們會(huì)討論坐標(biāo)超過兩維的數(shù)組。一般地,一個(gè)數(shù)組中的元素分布在若干維坐標(biāo)的規(guī)則網(wǎng)格中,我們將其稱之為。8、聚類的特征選擇:從最初的特征中選擇最有效的特征,并將其存儲(chǔ)在?中。9、聚類的特征提?。和ㄟ^對進(jìn)行轉(zhuǎn)換形成新的突出特征。10、聚類的聚類:基于某種距離函數(shù)進(jìn)行相似度度量,獲取。四、簡答題(本大題共3小題,共30分)1、為什么樸素貝葉斯如此“樸素”?2、簡單說下有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的區(qū)別?3、特征選擇與數(shù)據(jù)降維(特征提取)?一、選擇題1.B 2.C 3.D 4.C 5.B 6.AC 7.A 8.D 9.E 10.D二、判斷題1.對 2.對 3.對 4.錯(cuò) 5.錯(cuò) 6.錯(cuò) 7.對 8.錯(cuò) 9.對 10.對 三、填空題1.正確率召回率F值 2.正確率 3.過擬合 4.離散值5.訓(xùn)練樣本 6.訓(xùn)練集 7.張量 8.向量 9.選擇的特征 10.簇四、簡答題1、因?yàn)樗俣ㄋ械奶卣髟跀?shù)據(jù)集中的作用是同樣重要和獨(dú)立的。正如我們所知,這個(gè)假設(shè)在現(xiàn)實(shí)世界中是很不真實(shí)的,因此,說樸素貝葉斯真的很“樸素”。2、答:有監(jiān)督學(xué)習(xí):對具有標(biāo)記的訓(xùn)練樣本進(jìn)行學(xué)習(xí),以盡可能對訓(xùn)練樣本集外的數(shù)據(jù)進(jìn)行分類預(yù)測。(LR,SVM,BP,RF,GBDT)無監(jiān)督學(xué)習(xí):對未標(biāo)記的樣本進(jìn)行訓(xùn)練學(xué)習(xí),比發(fā)現(xiàn)這些樣本中的結(jié)構(gòu)知識。(KMeans,DL)3、答:降維的方法:結(jié)合專業(yè)知識剔除或合并類別通過數(shù)據(jù)概要來發(fā)現(xiàn)變量間的信息重疊(并剔除或合并類別)對數(shù)據(jù)進(jìn)行轉(zhuǎn)換,例如將分類型變量轉(zhuǎn)換為數(shù)值型變量使用如主成分分析(PCA)這樣的自動(dòng)降維技術(shù)來創(chuàng)建一系列新的變量(原變量的加權(quán)平均)。這些變量互不相關(guān),并且其中很小的一個(gè)子集就包含了原始數(shù)據(jù)中很大一部分信息(因此我們可以只使用新變量集的一個(gè)子集來實(shí)現(xiàn)降維)。可以利用一些數(shù)據(jù)挖掘的方法:如回歸模型、分類和回歸樹等,這些方法可以用于剔除冗余變量,以及合并分類型變量中的相似類別。一、單項(xiàng)選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學(xué)年第1學(xué)期)考試科目機(jī)器學(xué)習(xí)-Python實(shí)踐(A卷)適用專業(yè)班級(年級)得分命題人:審閱人:班級學(xué)號姓名考試科目裝訂線1、個(gè)人健康和年齡的相關(guān)系數(shù)是-1.09。根據(jù)這個(gè)你可以告訴醫(yī)生哪個(gè)結(jié)論?()A.年齡是健康程度很好的預(yù)測器B.年齡是健康程度很糟的預(yù)測器C.以上說法都不對D:兩者沒關(guān)系2、假如我們利用Y是X的3階多項(xiàng)式產(chǎn)生一些數(shù)據(jù)(3階多項(xiàng)式能很好地?cái)M合數(shù)據(jù))。那么,下列說法正確的是(多選)?()A.簡單的線性回歸容易造成高偏差(bias)、低方差(variance)B.簡單的線性回歸容易造成低偏差(bias)、高方差(variance)C.3階多項(xiàng)式擬合會(huì)造成低偏差(bias)、高方差(variance)D.3階多項(xiàng)式擬合具備低偏差(bias)、低方差(variance)3、假如你在訓(xùn)練一個(gè)線性回歸模型,有下面兩句話:()1.如果數(shù)據(jù)量較少,容易發(fā)生過擬合。2.如果假設(shè)空間較小,容易發(fā)生過擬合。關(guān)于這兩句話,下列說法正確的是?A.1和2都錯(cuò)誤B.1正確,2錯(cuò)誤C.1錯(cuò)誤,2正確D.1和2都正確4、假如我們使用Lasso回歸來擬合數(shù)據(jù)集,該數(shù)據(jù)集輸入特征有100個(gè)(X1,X2,…,X100)。現(xiàn)在,我們把其中一個(gè)特征值擴(kuò)大10倍(例如是特征X1),然后用相同的正則化參數(shù)對Lasso回歸進(jìn)行修正。那么,下列說法正確的是?()A.特征X1很可能被排除在模型之外B.特征X1很可能還包含在模型之中C.無法確定特征X1是否被舍棄D.以上說法都不對5、假如使用邏輯回歸對樣本進(jìn)行分類,得到訓(xùn)練樣本的準(zhǔn)確率和測試樣本的準(zhǔn)確率。現(xiàn)在,在數(shù)據(jù)中增加一個(gè)新的特征,其它特征保持不變。然后重新訓(xùn)練測試。則下列說法正確的是?()A.訓(xùn)練樣本準(zhǔn)確率一定會(huì)降低B.訓(xùn)練樣本準(zhǔn)確率一定增加或保持不變C.測試樣本準(zhǔn)確率一定會(huì)降低D.測試樣本準(zhǔn)確率一定增加或保持不變6、下面這張圖是一個(gè)簡單的線性回歸模型,圖中標(biāo)注了每個(gè)樣本點(diǎn)預(yù)測值與真實(shí)值的殘差。計(jì)算SSE(平方誤差和)為多少?()A.3.02B.0.75C.1.01D.0.6047、關(guān)于“回歸(Regression)”和“相關(guān)(Correlation)”,下列說法正確的是?注意:x是自變量,y是因變量。()A.回歸和相關(guān)在x和y之間都是互為對稱的B.回歸和相關(guān)在x和y之間都是非對稱的C.回歸在x和y之間是非對稱的,相關(guān)在x和y之間是互為對稱的D.回歸在x和y之間是對稱的,相關(guān)在x和y之間是非對稱的8、關(guān)于AdaBoost,下列說法中正確的是(多選):()A.它是一種集成學(xué)習(xí)算法B.每個(gè)分類器的權(quán)重和被它正確分類的樣本的權(quán)重相同C.后一個(gè)基學(xué)習(xí)器要依賴于前一個(gè)基學(xué)習(xí)器的分類錯(cuò)誤率和樣本的權(quán)重D.后一個(gè)基學(xué)習(xí)器每次只學(xué)習(xí)前一個(gè)基學(xué)習(xí)器被分錯(cuò)的樣本9、集成學(xué)習(xí)策略有哪些() A.投票法B.平均法C.學(xué)習(xí)法D.上述都有10、集成學(xué)習(xí)策略常用于分類的是:()A.投票法B.平均法C.學(xué)習(xí)法D.上述都有二、判斷題(本大題共10小題,每題1分,共10分)1、決策樹短時(shí)間內(nèi)處理大量數(shù)據(jù),得到可行且效果較好的結(jié)果。()樸素貝葉斯適合高維數(shù)據(jù)。()標(biāo)量是0階張量。()協(xié)方差是衡量兩個(gè)變量線性相關(guān)性強(qiáng)度及變量尺度。()聯(lián)合分布可求邊緣分布,但若只知道邊緣分布,無法求得聯(lián)合分布。()隨機(jī)變量可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量。()矩陣的L0范數(shù):矩陣的非0元素的個(gè)數(shù),通常用它來表示稀疏,L0范數(shù)越小0元素越多,也就越稀疏。()Adaboost算法流程計(jì)算該分類器的錯(cuò)誤率,根據(jù)錯(cuò)誤率計(jì)算要給分類器分配的權(quán)重。()9、Adaboost算法流程將第一個(gè)分類器分錯(cuò)誤的樣本權(quán)重增加。()10、Adaboost算法流程然后再用新的樣本權(quán)重訓(xùn)練數(shù)據(jù),得到新的分類器。()三、填空(本大題共10小題,每題3分,共30分)1、一個(gè)表示一個(gè)單獨(dú)的數(shù),它不同于線性代數(shù)中研究的其他大部分對象(通常是多個(gè)數(shù)的數(shù)組)。2、馬式距離的特征則是:。3、p(x|θ)是給定參數(shù)θ的概率分布:。4、基尼指數(shù)(基尼不純度)=*。5、Gini指數(shù)越小表示集合中被選中的樣本被分錯(cuò)的概率越小,也就是說集合的純度。6、表示在樣本集合中一個(gè)隨機(jī)選中的樣本被分錯(cuò)的概率。7、算法在決策樹生成的過程中,用信息增益比來選擇特征。8、聚類結(jié)果評估:分析結(jié)果,如距離誤差和(SSE)等。9、人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworks,ANNs),也簡稱為神經(jīng)網(wǎng)絡(luò)(NNs),是模擬進(jìn)行信息處理的一種數(shù)學(xué)模型,以對大腦的生理研究成果為基礎(chǔ),其目的在于模擬大腦的某些機(jī)理與機(jī)制,實(shí)現(xiàn)一些特定的功能。10、生物神經(jīng)元主要由,,,組成。四、簡答題(本大題共3小題,共30分)1、梯度下降法找到的一定是下降最快的方向么?2、什么是最小二乘法?3、K-Means和KNN算法的區(qū)別是什么?一、選擇題1.C 2.AD 3.B 4.B 5.B 6.A 7.C 8.AC 9.D 10.A二、判斷題1.對 2.錯(cuò) 3.對 4.對 5.對 6.對 7.對 8.對 9.對 10.對 三、填空題1.標(biāo)量 2.平移不變性、旋轉(zhuǎn)不變性、尺度不變性 3.似然函數(shù) 4.樣本被選中的概率樣本被分錯(cuò)的概率 5.越高 6.基尼指數(shù)(基尼不純度) 7.C4.5 8.聚類 9.生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能 10.細(xì)胞體樹突軸突突觸四、簡答題1、答:梯度下降法并不是下降最快的方向,它只是目標(biāo)函數(shù)在當(dāng)前的點(diǎn)的切平面(當(dāng)然高維問題不能叫平面)上下降最快的方向。在PracticalImplementation中,牛頓方向(考慮海森矩陣)才一般被認(rèn)為是下降最快的方向,可以達(dá)到Superlinear的收斂速度。梯度下降類的算法的收斂速度一般是Linear甚至Sublinear的(在某些帶復(fù)雜約束的問題)。2、答:最小二乘法(又稱最小平方法)是一種數(shù)學(xué)優(yōu)化技術(shù)。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。利用最小二乘法可以簡便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實(shí)際數(shù)據(jù)之間誤差的平方和為最小。3、首先,這兩個(gè)算法解決的是數(shù)據(jù)挖掘中的兩類問題。K-Means是聚類算法,KNN是分類算法。其次,這兩個(gè)算法分別是兩種不同的學(xué)習(xí)方式。K-Means是非監(jiān)督學(xué)習(xí),也就是不需要事先給出分類標(biāo)簽,而KNN是有監(jiān)督學(xué)習(xí),需要我們給出訓(xùn)練數(shù)據(jù)的分類標(biāo)識。最后,K值的含義不同。K-Means中的K值代表K類。KNN中的K值代表K個(gè)最接近的鄰居。一、單項(xiàng)選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學(xué)年第1學(xué)期)考試科目機(jī)器學(xué)習(xí)-Python實(shí)踐(A卷)適用專業(yè)班級(年級)得分命題人:審閱人:班級學(xué)號姓名考試科目裝訂線1、關(guān)于“回歸(Regression)”和“相關(guān)(Correlation)”,下列說法正確的是?注意:x是自變量,y是因變量。()A.回歸和相關(guān)在x和y之間都是互為對稱的B.回歸和相關(guān)在x和y之間都是非對稱的C.回歸在x和y之間是非對稱的,相關(guān)在x和y之間是互為對稱的D.回歸在x和y之間是對稱的,相關(guān)在x和y之間是非對稱的2、邏輯回歸將輸出概率限定在[0,1]之間。下列哪個(gè)函數(shù)起到這樣的作用?()A.Sigmoid函數(shù)B.tanh函數(shù)C.ReLU函數(shù)D.LeakyReLU函數(shù)3、關(guān)于兩個(gè)邏輯回歸模型中的β0、β1值,下列說法正確的是?注意:y=β0+β1*x,β0是截距,β1是權(quán)重系數(shù)。()A.綠色模型的β1比黑色模型的β1大B.綠色模型的β1比黑色模型的β1小C.兩個(gè)模型的β1相同D.以上說法都不對4、在n維空間中(n>1),下列哪種方法最適合用來檢測異常值?()A.正態(tài)概率圖B.箱形圖C.馬氏距離D.散點(diǎn)圖5、邏輯回歸與多元回歸分析有哪些不同之處?()A.邏輯回歸用來預(yù)測事件發(fā)生的概率B.邏輯回歸用來計(jì)算擬合優(yōu)度指數(shù)C.邏輯回歸用來對回歸系數(shù)進(jìn)行估計(jì)D.以上都是6、如果一個(gè)SVM模型出現(xiàn)欠擬合,那么下列哪種方法能解決這一問題?()A.增大懲罰參數(shù)C的值B.減小懲罰參數(shù)C的值C.減小核系數(shù)(gamma參數(shù))D.以上都不是7、我們知道二元分類的輸出是概率值。一般設(shè)定輸出概率大于或等于0.5,則預(yù)測為正類;若輸出概率小于0.5,則預(yù)測為負(fù)類。那么,如果將閾值0.5提高,例如0.6,大于或等于0.6的才預(yù)測為正類。則準(zhǔn)確率(Precision)和召回率(Recall)會(huì)發(fā)生什么變化(多選)?()A.準(zhǔn)確率(Precision)增加或者不變B.準(zhǔn)確率(Precision)減小C.召回率(Recall)減小或者不變D.召回率(Recall)增大8、集成學(xué)習(xí)策略常用于處理數(shù)值問題的是:()A.投票法B.平均法C.學(xué)習(xí)法D.上述都有9、關(guān)于學(xué)習(xí)法表述正確的事()A.平均法和投票法是對弱學(xué)習(xí)器的結(jié)果做平均或者投票,相對比較簡單,但是可能學(xué)習(xí)誤差較大,于是就有了學(xué)習(xí)法。B.學(xué)習(xí)法是一種更為強(qiáng)大的結(jié)合策略,即通過另一個(gè)學(xué)習(xí)器來進(jìn)行結(jié)合。C.Stacking是學(xué)習(xí)法的典型代表。Stacking先從初級數(shù)據(jù)集訓(xùn)練出初級學(xué)習(xí)器,然后“生成”一個(gè)新數(shù)據(jù)集用于訓(xùn)練次級學(xué)習(xí)器。在這個(gè)新數(shù)據(jù)集中,初級學(xué)習(xí)器的輸出被當(dāng)作樣例輸入特征。D.上述都對10、以下關(guān)于Bagging算法的特點(diǎn)描述正確的是()A.Bagging通過降低基學(xué)習(xí)器的方差改善了泛化誤差B.bagging對樣本進(jìn)行有放回的重采樣,學(xué)習(xí)結(jié)果是各個(gè)學(xué)習(xí)模型的平均值C.由于重采樣的樣本集具有相似性以及使用相同的學(xué)習(xí)器模型,因此,各學(xué)習(xí)模型的結(jié)果相近,即模型有近似相等的偏差和方差。D.以上描述都對二、判斷題(本大題共10小題,每題1分,共10分)1、矩陣的L0范數(shù):矩陣的非0元素的個(gè)數(shù),通常用它來表示稀疏,L0范數(shù)越小0元素越多,也就越稀疏。()2、隨機(jī)事件X所包含的信息量與其發(fā)生的概率有關(guān)。發(fā)生的概率越小,其信息量就越小。()3、SVM通過尋找使得訓(xùn)練數(shù)據(jù)盡可能分開且分類間隔最大的超平面實(shí)現(xiàn)結(jié)構(gòu)風(fēng)險(xiǎn)最小化。()4、logit回歸輸出的是Y屬于某一類的概率,也可以表示某事件發(fā)生的概率。()5、P(θ|x)是在數(shù)據(jù)X的支持下,θ發(fā)生的概率:后驗(yàn)概率。()6、P(θ)是在沒有數(shù)據(jù)支持下,θ發(fā)生的概率:先驗(yàn)概率。()7、F1值定義為:F1=2PR/(P+R)。()8、Adaboost算法流程將所有弱分類器加權(quán)求和,得到分類結(jié)果(注意是分類器權(quán)重)。()9、集成學(xué)習(xí)通過將多個(gè)單個(gè)學(xué)習(xí)器集成/組合在一起,使它們共同完成學(xué)習(xí)任務(wù),以達(dá)到提高預(yù)測準(zhǔn)確率的目的。()10、Boosting是一個(gè)順序過程,每個(gè)后續(xù)模型都會(huì)嘗試糾正先前模型的錯(cuò)誤,后續(xù)的模型依賴于之前的模型。()三、填空(本大題共10小題,每題3分,共30分)1、算法利用信息增益進(jìn)行特征的選擇,信息增益反映的是給定條件后不確定性減少的程度。2、機(jī)器學(xué)習(xí)中做特征選擇時(shí),可能用到的、、、。3、已知坐標(biāo)軸中兩點(diǎn)A(2,?2)B(?1,2),這兩點(diǎn)的曼哈頓距離(L1距離)是。4、求函數(shù)機(jī)制的方法有兩大類,分別是和。5、損失函數(shù)也叫或。6、從已有的M個(gè)特征(Feature)中選擇N個(gè)特征使得系統(tǒng)的特定指標(biāo)最優(yōu)化叫。7、回歸問題對數(shù)值型連續(xù)隨機(jī)變量進(jìn)行預(yù)測和建模的監(jiān)督學(xué)習(xí)算法?;貧w往往會(huì)通過計(jì)算來確定模型的精確性。8、人工神經(jīng)元模型可以看成是由3種基本元素組成,,。9、學(xué)習(xí)算法是指針對學(xué)習(xí)問題的明確規(guī)則,學(xué)習(xí)類型是由參數(shù)變化發(fā)生的形式?jīng)Q定的,不同的學(xué)習(xí)算法對神經(jīng)元的權(quán)值調(diào)整的表達(dá)式是不同的。人工神經(jīng)網(wǎng)絡(luò)常用的算法有,,。10、在最基本的BP算法中,學(xué)習(xí)率在整個(gè)訓(xùn)練過程是保持不變的,學(xué)習(xí)率過,算法可能振蕩而不穩(wěn)定;學(xué)習(xí)率過,則收斂速度慢,訓(xùn)練時(shí)間。四、簡答題(本大題共3小題,共30分)1、簡單介紹下Logistics回歸。?2、常見的分類算法有哪些?3、機(jī)器學(xué)習(xí)能解決哪些問題?每一類使用的常用方法有哪些?舉例說明其應(yīng)用?一、選擇題1.C 2.A 3.B 4.C 5.D 6.A 7.AC 8.B 9.D 10.D二、判斷題1.對 2.錯(cuò) 3.對 4.對 5.對 6.對 7.對 8.對 9.對 10.對三、填空題1.ID3 2.卡方信息增益平均互信息期望交叉熵 3.7 4.解析解(閉式解)數(shù)值解 5.代價(jià)函數(shù)目標(biāo)函數(shù) 6.特征選擇 7.誤差(Error) 8.一組連接一個(gè)加法器一個(gè)激活函數(shù) 9.有監(jiān)督Hebb算法單層感知器梯度LMS算法 10.大小長四、簡答題1、答:Logistic回歸目的是從特征學(xué)習(xí)出一個(gè)0/1分類模型,而這個(gè)模型是將特性的線性組合作為自變量,由于自變量的取值范圍是負(fù)無窮到正無窮。因此,使用logistic函數(shù)(或稱作sigmoid函數(shù))將自變量映射到(0,1)上,映射后的值被認(rèn)為是屬于y=1的概率。2、答:SVM、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、邏輯回歸、KNN、貝葉斯等。3、答:監(jiān)督學(xué)習(xí):分類:邏輯回歸、決策樹、KNN、隨機(jī)森林、支持向量機(jī)、樸素貝葉斯數(shù)字預(yù)測:線性回歸、KNN、GradientBoosting*AdaBoost無監(jiān)督學(xué)習(xí):聚類、關(guān)聯(lián)分析強(qiáng)化學(xué)習(xí)一、單項(xiàng)選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學(xué)年第1學(xué)期)考試科目機(jī)器學(xué)習(xí)-Python實(shí)踐(A卷)適用專業(yè)班級(年級)得分命題人:審閱人:班級學(xué)號姓名考試科目裝訂線1、點(diǎn)擊率預(yù)測是一個(gè)正負(fù)樣本不平衡問題(例如99%的沒有點(diǎn)擊,只有1%點(diǎn)擊)。假如在這個(gè)非平衡的數(shù)據(jù)集上建立一個(gè)模型,得到訓(xùn)練樣本的正確率是99%,則下列說法正確的是?()A.模型正確率很高,不需要優(yōu)化模型了B.模型正確率并不高,應(yīng)該建立更好的模型C.無法對模型做出好壞評價(jià)D.以上說法都不對2、如果在大型數(shù)據(jù)集上訓(xùn)練決策樹。為了花費(fèi)更少的時(shí)間來訓(xùn)練這個(gè)模型,下列哪種做法是正確的?()A.增加樹的深度B.增加學(xué)習(xí)率C.減小樹的深度D.減少樹的數(shù)量3、我們想要訓(xùn)練一個(gè)ML模型,樣本數(shù)量有100萬個(gè),特征維度是5000,面對如此大數(shù)據(jù),如何有效地訓(xùn)練模型?()A.對訓(xùn)練集隨機(jī)采樣,在隨機(jī)采樣的數(shù)據(jù)上建立模型B.嘗試使用在線機(jī)器學(xué)習(xí)算法C.使用PCA算法減少特征維度D.以上都對4、機(jī)器學(xué)習(xí)中做特征選擇時(shí),可能用到的方法有?(多選)()a.卡方b.信息增益c.平均互信息d.期待交叉熵5、如何在監(jiān)督式學(xué)習(xí)中使用聚類算法(多選)?()A.首先,可以創(chuàng)建聚類,然后分別在不同的集群上應(yīng)用監(jiān)督式學(xué)習(xí)算法B.在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,可以將其類別ID作為特征空間中的一個(gè)額外的特征C.在應(yīng)用監(jiān)督式學(xué)習(xí)之前,不能創(chuàng)建聚類D.在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,不能將其類別ID作為特征空間中的一個(gè)額外的特征6、下面哪句話是正確的?()A.機(jī)器學(xué)習(xí)模型的精準(zhǔn)度越高,則模型的性能越好B.增加模型的復(fù)雜度,總能減小測試樣本誤差C.增加模型的復(fù)雜度,總能減小訓(xùn)練樣本誤差D.以上說法都不對7、如果使用線性回歸模型,下列說法正確的是?()A.檢查異常值是很重要的,因?yàn)榫€性回歸對離群效應(yīng)很敏感B.線性回歸分析要求所有變量特征都必須具有正態(tài)分布C.線性回歸假設(shè)數(shù)據(jù)中基本沒有多重共線性D.以上說法都不對8、以下關(guān)于Bagging特點(diǎn)的描述不正確的是()A.Bagging是一個(gè)很低效的集成學(xué)習(xí)算法B.Bagging復(fù)雜度與基學(xué)習(xí)器同階C.由于每一個(gè)樣本被選中的概率相同,因此bagging并不側(cè)重于訓(xùn)練數(shù)據(jù)集中的任何特定實(shí)例。D.對于噪聲數(shù)據(jù),bagging不太受過分?jǐn)M合的影響。9、下面哪個(gè)選項(xiàng)中哪一項(xiàng)屬于確定性算法?()A.隨機(jī)森林B.PCAC.KmeansD.GBDT10、下列屬于無監(jiān)督學(xué)習(xí)的是()A、k-meansB、SVMC、最大熵D、CRF二、判斷題(本大題共10小題,每題1分,共10分)1、FP——將負(fù)類預(yù)測為正類數(shù)。()2、交叉熵?fù)p失函數(shù)的好處是可以克服方差代價(jià)函數(shù)更新權(quán)重過慢的問 題。()3、邏輯回歸假設(shè)數(shù)據(jù)服從伯努利分布,通過極大化似然函數(shù)的方法,運(yùn)用梯度下降來求解參數(shù),來達(dá)到將數(shù)據(jù)二分類的目的。()4、決策樹容易發(fā)生欠擬合。()5、決策樹容易發(fā)生過擬合。()6、SVM無法做多分類。()7、SVM自帶正則項(xiàng)。()8、先從初始訓(xùn)練集訓(xùn)練出一個(gè)基學(xué)習(xí)器,再根據(jù)基學(xué)習(xí)器的表現(xiàn)對訓(xùn) 練樣本分布進(jìn)行調(diào)整,使得先前基學(xué)習(xí)器做錯(cuò)的訓(xùn)練樣本在后續(xù)受到更多的 關(guān)注,然后基于調(diào)整后的樣本分布來訓(xùn)練下一個(gè)基學(xué)習(xí)器。()9、Boosting是一個(gè)迭代的過程,通過改變訓(xùn)練樣本的分布,使得基分 類器聚焦在那些很難分的樣本上。()10、Boosting結(jié)合了很多弱學(xué)習(xí)器來形成一個(gè)強(qiáng)學(xué)習(xí)器,單個(gè)模型表 現(xiàn)不佳,但它們在數(shù)據(jù)集的某些部分表現(xiàn)很好。()三、填空(本大題共10小題,每題3分,共30分)1、回歸問題對數(shù)值型連續(xù)隨機(jī)變量進(jìn)行預(yù)測和建模的監(jiān)督學(xué)習(xí)算法?;貧w往往會(huì)通過計(jì)算來確定模型的精確性。2、評判分類效果好壞的三個(gè)指標(biāo)就是上面介紹的三個(gè)指標(biāo):,,。3、提取出的正確信息條數(shù)/提取出的信息條數(shù)是。4、模型把訓(xùn)練樣本學(xué)習(xí)“太好了”,可能把一些訓(xùn)練樣本自身的特性當(dāng)做了所有潛在樣本都有的一般性質(zhì),導(dǎo)致泛化能力下降叫。5、模型沒有很好地捕捉到數(shù)據(jù)特征,不能夠很好地?cái)M合數(shù)據(jù)叫。6、分類是預(yù)測,比如把人分為好人和壞人之類的學(xué)習(xí)任務(wù)。7、訓(xùn)練用到的每個(gè)樣本叫。8、boosting算法得基本原理,以及的三種典型算法原理:,,。9、Adaboost提供一種,在框架內(nèi)可以使用各種方法構(gòu)建子分類器,可以使用簡單的弱分類器,不用對特征進(jìn)行篩選,也不存在過擬合的現(xiàn)象。10、Adaboost算法不需要的先驗(yàn)知識,最后得到的強(qiáng)分類器的分類精度依賴于所有弱分類器。無論是應(yīng)用于人造數(shù)據(jù)還是真實(shí)數(shù)據(jù),Adaboost都能顯著的提高學(xué)習(xí)精度。四、簡答題(本大題共3小題,共30分)1、常見的監(jiān)督學(xué)習(xí)算法有哪些?帶核的SVM為什么能分類非線性問題?3、舉例說明機(jī)器學(xué)習(xí)的基本過程,并舉例說明基本步驟各有哪些方法?一、選擇題1.B 2.C 3.D 4.ABCD 5.AB 6.C 7.A 8.A 9.B 10.A二、判斷題1.對 2.對 3.對 4.對 5.對 6.錯(cuò) 7.對 8.對 9.對 10.對 三、填空題1.誤差(Error) 2.正確率召回率F值 3.正確率 4.過擬合 5.欠擬合 6.離散值 7.訓(xùn)練樣本 8.adaboostGBM(Gradientbosstingmachine)XGBoost 9.框架 10.弱分類器四、簡答題1、答:感知機(jī)、SVM、人工神經(jīng)網(wǎng)絡(luò)、決策樹、邏輯回歸2、答:核函數(shù)的本質(zhì)是兩個(gè)函數(shù)的內(nèi)積,而這個(gè)函數(shù)在SVM中可以表示成對于輸入值的高維映射。注意核并不是直接對應(yīng)映射,核只不過是一個(gè)內(nèi)積。3、答:定義分析目標(biāo)、收集數(shù)據(jù)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)建模、模型訓(xùn)練、模型評估、模型應(yīng)用一、單項(xiàng)選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學(xué)年第1學(xué)期)考試科目機(jī)器學(xué)習(xí)-Python實(shí)踐(A卷)適用專業(yè)班級(年級)得分命題人:審閱人:班級學(xué)號姓名考試科目裝訂線1、下列哪一項(xiàng)能反映出X和Y之間的強(qiáng)相關(guān)性?()A.相關(guān)系數(shù)為0.9B.對于無效假設(shè)β=0的p值為0.0001C.對于無效假設(shè)β=0的t值為30D.以上說法都不對2、機(jī)器學(xué)習(xí)中做特征選擇時(shí),可能用到的方法有?(多選)()A.卡方B.信息增益C.平均互信息D.期望交叉熵3、以下說法中正確的是()A.SVM對噪聲(如來自其他分部的噪聲樣本)具備魯棒性B.在adaboost算法中,所有被分錯(cuò)樣本的權(quán)重更新比例相同C.boosting和bagging都是組合多個(gè)分類器投票的方法,二者都是根據(jù)單個(gè)分類器的正確率確定其權(quán)重D.給定n個(gè)數(shù)據(jù)點(diǎn),如果其中一半用于訓(xùn)練,一半用戶測試,則訓(xùn)練 誤差和測試誤差之間的差別會(huì)隨著n的增加而減少4、以下描述錯(cuò)誤的是()A.SVM是這樣一個(gè)分類器,它尋找具有最小邊緣的超平面,因此它也經(jīng)常被稱為最小邊緣分類器B.在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差C.在決策樹中,隨著樹中結(jié)點(diǎn)輸變得太大,即使模型的訓(xùn)練誤差還在繼續(xù)降低,但是檢驗(yàn)誤差開始增大,這是出現(xiàn)了模型擬合不足的原因D.聚類分析可以看作是一種非監(jiān)督的分類5、若在二維空間中線性不可分,SVM算法會(huì)通過()方法解決。A.核函數(shù)B.激活函數(shù)C.剪枝D.特征選擇6、線性回歸能完成的任務(wù)是()A.預(yù)測離散值B.預(yù)測連續(xù)值C.分類D.聚類7、產(chǎn)量(X,臺)與單位產(chǎn)品成本(y,元/臺)之家你的回歸方程為y=356-1.5x,這說明()A.產(chǎn)量每增加一臺,單位產(chǎn)品成本增加356元B.產(chǎn)品每增加一臺,單位產(chǎn)品的成本減少1.5元C.產(chǎn)量每增加一臺,單位產(chǎn)品的成本平均增加356元D.產(chǎn)量每增加一臺,單位產(chǎn)品成本平均減少1.5元8、下面哪個(gè)是通用的模型逼近器?
()
A.KernelSVM
B.NeuralNetworks
C.BoostedDecisionTrees
D.Alloftheabove
9、下面那個(gè)問題可以用深度學(xué)習(xí)來解決?()
A.蛋白質(zhì)結(jié)構(gòu)預(yù)測
B.化學(xué)反應(yīng)的預(yù)測
C.外來粒子的檢測
D.以上所有
10、當(dāng)您在CNN中使用1×1卷積時(shí),以下哪個(gè)語句是真實(shí)的?()A.Itcanhelpindimensionalityreduction
B.Itcanbeusedforfeaturepooling
C.Itsufferslessoverfittingduetosmallkernelsize
D.Alloftheabove
二、判斷題(本大題共10小題,每題1分,共10分)1、邏輯回歸的目的就是提高二分類的效率。()2、SGD計(jì)算根據(jù)全部樣本構(gòu)造出來的代價(jià)函數(shù)的梯度。()3、用線性代數(shù)的方式描述函數(shù)或者方程的好處之一是書寫方便。()4、Π是求積符號。()5、Σ是求和符號。()6、回歸任務(wù)是預(yù)測連續(xù)值。()7、分類任務(wù)是預(yù)測連續(xù)值。()8、集成學(xué)習(xí):可以用作抽樣分布,從原始數(shù)據(jù)集中提取出自主樣本集。 ()9、基學(xué)習(xí)器可以使用權(quán)值學(xué)習(xí)有利于高權(quán)值樣本的模型。()10、Boosting:每一輪的訓(xùn)練集不變,只是訓(xùn)練集中每個(gè)樣本的權(quán)重發(fā)生變化,權(quán)值根據(jù)上一輪的預(yù)測結(jié)果進(jìn)行調(diào)整。()三、填空(本大題共10小題,每題3分,共30分)1、求函數(shù)機(jī)制的方法有兩大類,分別是和。2、機(jī)器學(xué)習(xí)中做特征選擇時(shí),可能用到的、、、。3、算法在決策樹生成的過程中,用信息增益比來選擇特征。4、Gini指數(shù)越小表示集合中被選中的樣本被分錯(cuò)的概率越小,也就是說集合的純度。5、p(x|θ)是給定參數(shù)θ的概率分布:。6、馬式距離的特征則是:。7、一個(gè)表示一組有序排列的數(shù)。通過次序中的索引,我們可以確定每個(gè)單獨(dú)的數(shù)。8、Adaboost算法不需要預(yù)先知道的錯(cuò)誤率上限,且最后得到的的分類精度依賴于所有弱分類器的分類精度,可以深挖分類器的能力,Adaboost可以根據(jù)弱分類器的反饋,自適應(yīng)地調(diào)整假定的錯(cuò)誤率,執(zhí)行的效率高。9、Adaboost可以在不改變訓(xùn)練數(shù)據(jù),只改變,使得數(shù)據(jù)在不同學(xué)習(xí)器中產(chǎn)生不同作用,類似于重采樣。10、關(guān)聯(lián)規(guī)則挖掘問題可以劃分成兩個(gè)子問題:發(fā)現(xiàn)和生成。四、簡答題(本大題共3小題,共30分)1、有數(shù)據(jù)集D1,其中樣本的特征是離散取值(可以簡單地考慮取二值),數(shù)據(jù)集D2和D1基本一樣,唯一的區(qū)別是D2中每個(gè)樣本的某個(gè)特征被重復(fù)了100次,請問在這兩個(gè)數(shù)據(jù)集上訓(xùn)練的樸素貝葉斯分類器是否一樣,請給出具體分析?2、一元線性回歸有哪些基本假定?3、討論數(shù)據(jù)數(shù)量和質(zhì)量對機(jī)器學(xué)習(xí)的影響?一、選擇題1.A 2.ABCD 3.C 4.C 5.A 6.B 7.D 8.D 9.D 10.D二、判斷題1.對 2.錯(cuò) 3.對 4.對 5.對 6.對 7.錯(cuò) 8.對 9.對 10.對 三、填空題1.解析解(閉式解)數(shù)值解 2.卡方信息增益平均互信息期望交叉熵 3.C4.5 4.越高 5.似然函數(shù) 6.平移不變性、旋轉(zhuǎn)不變性、尺度不變性 7.向量 8.弱分類器強(qiáng)分類器 9.數(shù)據(jù)權(quán)值分布 10.頻繁項(xiàng)目集關(guān)聯(lián)規(guī)則四、簡答題1、解:分類器是不一樣的。因?yàn)闃闼刎惾~斯方法假設(shè)了特征間的獨(dú)立性,但D2中的100個(gè)特征彼此不獨(dú)立,因此不在適用,如果用了兩者的結(jié)果不等。在D2上訓(xùn)練,被重復(fù)的特征的概率會(huì)被乘100次,放大了它的影響。2、答:假設(shè)1、解釋變量X是確定性變量,Y是隨機(jī)變量;假設(shè)2、隨機(jī)誤差項(xiàng)ε具有零均值、同方差和不序列相關(guān)性:E(εi)=0i=1,2,…,n3、答:機(jī)器學(xué)習(xí)需要一定數(shù)量的數(shù)據(jù)作為支揮。數(shù)據(jù)量:過多會(huì)耗費(fèi)更多的計(jì)算資源,還可能有不平衡數(shù)據(jù)集、維度災(zāi)難等問題。數(shù)據(jù)量過少會(huì)導(dǎo)致機(jī)器學(xué)習(xí)的準(zhǔn)確率下降,甚至不能完成學(xué)習(xí)的目標(biāo)。數(shù)據(jù)數(shù)量和質(zhì)量問題會(huì)導(dǎo)致過擬合或欠擬合的現(xiàn)象,優(yōu)秀的數(shù)據(jù)集對機(jī)器學(xué)習(xí)的結(jié)果影響是決定性的。一、單項(xiàng)選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學(xué)年第1學(xué)期)考試科目機(jī)器學(xué)習(xí)-Python實(shí)踐(A卷)適用專業(yè)班級(年級)得分命題人:審閱人:班級學(xué)號姓名考試科目裝訂線1、如果使用線性回歸模型,下列說法正確的是?()A.檢查異常值是很重要的,因?yàn)榫€性回歸對離群效應(yīng)很敏感B.線性回歸分析要求所有變量特征都必須具有正態(tài)分布C.線性回歸假設(shè)數(shù)據(jù)中基本沒有多重共線性D.以上說法都不對2、建立線性模型時(shí),我們看變量之間的相關(guān)性。在尋找相關(guān)矩陣中的相關(guān)系數(shù)時(shí),如果發(fā)現(xiàn)3對變量(Var1和Var2、Var2和Var3、Var3和Var1)之間的相關(guān)性分別為-0.98、0.45和1.23。我們能從中推斷出什么呢?()A.Var1和Var2具有很高的相關(guān)性B.Var1和Var2存在多重共線性,模型可以去掉其中一個(gè)特征C.Var3和Var1相關(guān)系數(shù)為1.23是不可能的D.以上都對3、下列哪種方法可以用來減小過擬合?(多選)()A.更多的訓(xùn)練數(shù)據(jù)B.L1正則化C.L2正則化D.減小模型的復(fù)雜度4、向量X=[1,2,3,4,-9,0]的L1范數(shù)為?()A.1B.19C.6D.√1115、關(guān)于L1、L2正則化下列說法正確的是?()A.L2正則化能防止過擬合,提升模型的泛化能力,但L1做不到這點(diǎn)B.L2正則化技術(shù)又稱為LassoRegularizationC.L1正則化得到的解更加稀疏D.L2正則化得到的解更加稀疏6、有N個(gè)樣本,一般用于訓(xùn)練,一般用于測試。若增大N值,則訓(xùn) 練誤差和測試誤差之間的差距會(huì)如何變化?()A.增大B.減小C.不變D.以上均不對7、在回歸模型中,下列哪一項(xiàng)在權(quán)衡欠擬合(under-fitting)和過擬 合(over-fitting)中影響最大?()A.多項(xiàng)式階數(shù)B.更新權(quán)重w時(shí),使用的是矩陣求逆還是梯度下降C.使用常數(shù)項(xiàng)D.學(xué)習(xí)率8、輸入層中的節(jié)點(diǎn)數(shù)為10,隱層為5。從輸入層到隱層的最大連接數(shù) 為?
()
A.50
B.Lessthan50
C.Morethan50
D.Itisanarbitraryvalue
9、如果我們希望預(yù)測n個(gè)類(p1,p2..pk)的概率,使得所有n的p 的和等于1,則以下哪個(gè)函數(shù)可以用作輸出層中的激活函數(shù)?
()
A.Softmax
B.ReLu
C.Sigmoid
D.Tanh
10、采取什么措施不可以防止過擬合?()
A.數(shù)據(jù)壓縮;
B.權(quán)值共享;
C.提前結(jié)束模型迭代;
D.采用dropout;二、判斷題(本大題共10小題,每題1分,共10分)1、FP——將負(fù)類預(yù)測為正類數(shù)。()2、交叉熵?fù)p失函數(shù)的好處是可以克服方差代價(jià)函數(shù)更新權(quán)重過慢的問 題。()3、邏輯回歸假設(shè)數(shù)據(jù)服從伯努利分布,通過極大化似然函數(shù)的方法, 運(yùn)用梯度下降來求解參數(shù),來達(dá)到將數(shù)據(jù)二分類的目的。()4、SVM無法做多分類。()5、SVM不涉及核函數(shù)。()6、BGD計(jì)算根據(jù)全部樣本的構(gòu)造出來的代價(jià)函數(shù)的梯度。()7、SGD計(jì)算根據(jù)全部樣本構(gòu)造出來的代價(jià)函數(shù)的梯度。()8、Bagging:訓(xùn)練集是在原始集中有放回抽取的,從原始集中選出的訓(xùn)練集之間是獨(dú)立的。()9、Boosting:根據(jù)錯(cuò)誤率不斷調(diào)整樣本的權(quán)值,錯(cuò)誤率越大則權(quán)值越大。()10、Bagging:每個(gè)樣本的權(quán)重相等。()三、填空(本大題共10小題,每題3分,共30分)1、熵指的是體系的的程度。2、信息越有序,信息熵越。3、訓(xùn)練過程中用到的數(shù)據(jù)叫。4、分類是預(yù)測,比如把人分為好人和壞人之類的學(xué)習(xí)任務(wù)。5、模型把訓(xùn)練樣本學(xué)習(xí)“太好了”,可能把一些訓(xùn)練樣本自身的特性當(dāng)做了所有潛在樣本都有的一般性質(zhì),導(dǎo)致泛化能力下降叫。6、評判分類效果好壞的三個(gè)指標(biāo)就是上面介紹的三個(gè)指標(biāo):,,。7、從已有的M個(gè)特征(Feature)中選擇N個(gè)特征使得系統(tǒng)的特定指標(biāo)最優(yōu)化叫。8、Appriori屬性1:如果項(xiàng)目集X是頻繁項(xiàng)目集,那么它的所有非空子集都是。9、分類分析的三個(gè)步驟:、、。10、決策樹包含三種結(jié)點(diǎn):、、。四、簡答題(本大題共3小題,共30分)1、決策樹的剪枝方法有哪些?2、SVM的超參數(shù)有哪些?3、討論深度學(xué)習(xí)的發(fā)展對推動(dòng)機(jī)器學(xué)習(xí)的意義?一、選擇題1.A 2.D 3.ABCD 4.B 5.C 6.B 7.A 8.A 9.A 10.A二、判斷題1.對 2.對 3.對 4.錯(cuò) 5.錯(cuò) 6.對 7.錯(cuò) 8.對 9.對 10.對 三、填空題1.混亂 2.低 3.訓(xùn)練集 4.離散值 5.過擬合 6.正確率召回率F值 7.特征選擇 8.頻繁項(xiàng)目集 9.挖掘分類規(guī)則分類規(guī)則評估分類規(guī)則應(yīng)用 10.根結(jié)點(diǎn)(矩形表示)內(nèi)部結(jié)點(diǎn)(矩形表示)葉結(jié)點(diǎn)/終結(jié)點(diǎn)(橢圓表示)四、簡答題1、答:預(yù)剪枝:提前結(jié)束決策樹的增長:類目數(shù)量、方差性能提升。2、答:C和gamma,C正則系數(shù),gamma決定支持向量的數(shù)量。3、答:深度學(xué)習(xí)需要大量的標(biāo)記數(shù)據(jù)并需要大量的計(jì)算能力,因此深度學(xué)習(xí)可以較好地應(yīng)對機(jī)器學(xué)習(xí)中大規(guī)模數(shù)據(jù)集,為機(jī)器學(xué)習(xí)提供了解決復(fù)雜問題的方法。一、單項(xiàng)選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學(xué)年第1學(xué)期)考試科目機(jī)器學(xué)習(xí)-Python實(shí)踐(A卷)適用專業(yè)班級(年級)得分命題人:審閱人:班級學(xué)號姓名考試科目裝訂線1、產(chǎn)量(X,臺)與單位產(chǎn)品成本(y,元/臺)之家你的回歸方程為y=356-1.5x,這說明()A。產(chǎn)量每增加一臺,單位產(chǎn)品成本增加356元B。產(chǎn)品每增加一臺,單位產(chǎn)品的成本減少1.5元C.產(chǎn)量每增加一臺,單位產(chǎn)品的成本平均增加356元D。產(chǎn)量每增加一臺,單位產(chǎn)品成本平均減少1.5元2、直線方程y=wx+b,其中b表示()A.系數(shù)B截距C.斜率D權(quán)重3、以下描述中,對梯度解釋正確的是(多選)()A梯度是一個(gè)向量,有方向有大小B求梯度就是對梯度向量的各個(gè)元素求偏導(dǎo)C梯度只有大小沒有方向D梯度只有方向沒有大小4、關(guān)于誤差ε的說法正確的是(多選)()A誤差可以看做隨機(jī)比變量B誤差的概率分布符合正態(tài)分布C誤差的概率分布符合均勻分布D如果模型設(shè)計(jì)優(yōu)良,誤差可以避免5、標(biāo)準(zhǔn)差與方差的關(guān)系是(多選)()A標(biāo)準(zhǔn)差是方差的算術(shù)平方根B標(biāo)準(zhǔn)差可以反映離散程度,也可以反映出樣本的量綱C方差只能反映離散程度D標(biāo)準(zhǔn)差的平方是方差6、SVM中的核技巧(Kernaltrick)的作用包括以下哪項(xiàng)?()A.特征升維B.特征降維C.防止過擬合D.處理離散數(shù)據(jù)7、在數(shù)據(jù)預(yù)處理階段,我們常常對數(shù)值特征進(jìn)行歸一化或標(biāo)準(zhǔn)化 (standardization,normalization)處理。這種處理方式理論上不會(huì)對下列 哪個(gè)模型產(chǎn)生很大影響?()A.k-MeansB.k-NNC.決策樹D.譜聚類8、下面哪個(gè)激活函數(shù)在圖像分類中不能作為輸出層?()
A.sigmoid
B.Tanh
C.ReLU
D.If(x>5,1,0)
9、使用batchnormalization可以解決以下哪一個(gè)神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的 問題?
()
A.防止梯度消失
B.防止激活過高或者過低
C.網(wǎng)絡(luò)訓(xùn)練太慢
D.B和C10、感知器不包括下面那個(gè)結(jié)構(gòu):()A.輸入層B.隱藏層C.輸出層D.計(jì)算層二、判斷題(本大題共10小題,每題1分,共10分)1、預(yù)剪枝是在決策樹生成過程中,對樹進(jìn)行剪枝,提前結(jié)束樹的分支 生長。()2、決策樹的剪枝基本策略有預(yù)剪枝(Pre-Pruning)和后剪枝。()3、常見的決策樹算法是ID3,C4.5,CART樹。()4、決策樹的剪枝是為了簡化決策樹模型,避免過擬合。()5、最小二乘法(又稱最小平方法)是一種數(shù)學(xué)優(yōu)化技術(shù)。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。()6、樸素貝葉斯(分類器)是一種生成模型,它會(huì)基于訓(xùn)練樣本對每個(gè)可能的類別建模。()7、P(A|B)表示事件B已經(jīng)發(fā)生的前提下,事件A發(fā)生的概率,叫做事件B發(fā)生下事件A的條件概率。()8、Boosting:串行,各個(gè)及學(xué)習(xí)器順序生成,因?yàn)楹笠粋€(gè)模型參數(shù)依賴于前一輪模型的預(yù)測結(jié)果。()9、Bagging:各個(gè)學(xué)習(xí)器可以并行生成。()10、Adaboost采用迭代的思想,繼承了Boosting算法,每次迭代只訓(xùn)練一個(gè)弱學(xué)習(xí)器,訓(xùn)練好的弱學(xué)習(xí)器將參與下一次迭代。()三、填空(本大題共10小題,每題3分,共30分)1、在某些情況下,我們會(huì)討論坐標(biāo)超過兩維的數(shù)組。一般地,一個(gè)數(shù)組中的元素分布在若干維坐標(biāo)的規(guī)則網(wǎng)格中,我們將其稱之為。2、回歸常用評估方法:,,。3、信息越有序,信息熵越。4、訓(xùn)練用到的每個(gè)樣本叫。5、模型沒有很好地捕捉到數(shù)據(jù)特征,不能夠很好地?cái)M合數(shù)據(jù)叫。6、提取出的正確信息條數(shù)/提取出的信息條數(shù)是。7、回歸問題對數(shù)值型連續(xù)隨機(jī)變量進(jìn)行預(yù)測和建模的監(jiān)督學(xué)習(xí)算法?;貧w往往會(huì)通過計(jì)算來確定模型的精確性。8、AdaBoost很好的利用了進(jìn)行級聯(lián)。9、AdaBoost可以將不同的作為弱分類器。10、AdaBoost具有很高的精度;相對于和,AdaBoost充分考慮的每個(gè)分類器的權(quán)重。四、簡答題(本大題共3小題,共30分)1、SVM、LR、決策樹的對比?2、樸素貝葉斯的特點(diǎn)是?3、討論目前機(jī)器學(xué)習(xí)應(yīng)用中存在的主要問題?一、選擇題1.D 2.B 3.AB 4.AB 5.ABC 6.C 7.C 8.D 9.A 10.D二、判斷題1.對 2.對 3.對 4.對 5.對 6.對 7.對 8.對 9.對 10.對 三、填空題1.張量 2.平均誤差絕對值誤差R2 3.低 4.訓(xùn)練樣本 5.欠擬合 6.正確率 7.誤差(Error) 8.弱分類器 9.分類算法 10.bagging算法RandomForest算法四、簡答題1、模型復(fù)雜度:SVM支持核函數(shù),可處理線性非線性問題;LR模型簡單,訓(xùn)練速度快,適合處理線性問題;決策樹容易過擬合,需要進(jìn)行剪枝。損失函數(shù):SVMhingeloss;LRL2正則化;Adaboost指數(shù)損失。數(shù)據(jù)敏感度:SVM添加容忍度對outlier不敏感,只關(guān)心支持向量,且需要先做歸一化;LR對遠(yuǎn)點(diǎn)敏感。數(shù)據(jù)量:數(shù)據(jù)量大就用LR,數(shù)據(jù)量小且特征少就用SVM非線性核。2、答:優(yōu)點(diǎn):在數(shù)據(jù)較少的情況下仍然有效,可以處理多類別問題。缺點(diǎn):對于輸入數(shù)據(jù)的準(zhǔn)備方式較為敏感。適用數(shù)據(jù)類型:標(biāo)稱型數(shù)據(jù)。3、答:選擇什么模型或算法、選擇什么優(yōu)化方法、如何對數(shù)據(jù)進(jìn)行預(yù)處理、目標(biāo)函數(shù)是什么、過擬合與欠擬合的處理、維度爆炸。一、單項(xiàng)選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學(xué)年第1學(xué)期)考試科目機(jī)器學(xué)習(xí)-Python實(shí)踐(A卷)適用專業(yè)班級(年級)得分命題人:審閱人:班級學(xué)號姓名考試科目裝訂線1、選擇Logistic回歸中的One-Vs-All方法中的哪個(gè)選項(xiàng)是真實(shí)的。()A我們需要在n類分類問題中適合n個(gè)模型B我們需要適合n-1個(gè)模型來分類為n個(gè)類C我們需要只適合1個(gè)模型來分類為n個(gè)類D這些都沒有2、假設(shè)對給定數(shù)據(jù)應(yīng)用了Logistic回歸模型,并獲得了訓(xùn)練精度X和測試精度Y。現(xiàn)在要在同一數(shù)據(jù)中添加一些新特征,以下哪些是錯(cuò)誤的選項(xiàng)。()注:假設(shè)剩余參數(shù)相同。A訓(xùn)練精度提高B訓(xùn)練準(zhǔn)確度提高或保持不變C測試精度提高或保持不變3、假定特征F1可以取特定值:A、B、C、D、E和F,其代表著學(xué)生在大學(xué)所獲得的評分。在下面說法中哪一項(xiàng)是正確的?()A特征F1是名義變量(nominalvariable)的一個(gè)實(shí)例。B特征F1是有序變量(ordinalvariable)的一個(gè)實(shí)例。C該特征并不屬于以上的分類。D以上說法都正確。4、下面哪一項(xiàng)對梯度下降(GD)和隨機(jī)梯度下降(SGD)的描述是正確的?()1在GD和SGD中,每一次迭代中都是更新一組參數(shù)以最小化損失函數(shù)。2在SGD中,每一次迭代都需要遍歷訓(xùn)練集中的所有樣本以更新一次參數(shù)。3在GD中,每一次迭代需要使用整個(gè)訓(xùn)練集的數(shù)據(jù)更新一個(gè)參數(shù)。A只有1B只有2C只有3D都正確5、假定你正在處理類屬特征,并且沒有查看分類變量在測試集中的分 布?,F(xiàn)在你想將onehotencoding(OHE)應(yīng)用到類屬特征中。()那么在訓(xùn)練集中將OHE應(yīng)用到分類變量可能要面臨的困難是什么?A.分類變量所有的類別沒有全部出現(xiàn)在測試集中B.類別的頻率分布在訓(xùn)練集和測試集是不同的C.訓(xùn)練集和測試集通常會(huì)有一樣的分布D.A和B都正確6、假定你現(xiàn)在解決一個(gè)有著非常不平衡類別的分類問題,即主要類別 占據(jù)了訓(xùn)練數(shù)據(jù)的99%?,F(xiàn)在你的模型在測試集上表現(xiàn)為99%的準(zhǔn)確度。 那么下面哪一項(xiàng)表述是正確的?()1準(zhǔn)確度并不適合于衡量不平衡類別問題2準(zhǔn)確度適合于衡量不平衡類別問題3精確率和召回率適合于衡量不平衡類別問題4精確率和召回率不適合于衡量不平衡類別問題A1and3B1and4C2and3D2and47、假設(shè)我們有一個(gè)數(shù)據(jù)集,在一個(gè)深度為6的決策樹的幫助下,它可 以使用100%的精確度被訓(xùn)練。現(xiàn)在考慮一下兩點(diǎn),并基于這兩點(diǎn)選擇正確 的選項(xiàng)。()注意:所有其他超參數(shù)是相同的,所有其他因子不受影響。1深度為4時(shí)將有高偏差和低方差2深度為4時(shí)將有低偏差和低方差A(yù)只有1B只有2C1和2D沒有一個(gè)8、與人類神經(jīng)元相比,人工神經(jīng)元的輸入類比于什么?()A.樹突B.軸突C.細(xì)胞核D.細(xì)胞膜9、與人類神經(jīng)元相比,人工神經(jīng)元的輸出類比于什么?()A.樹突B.軸突C.細(xì)胞核D.細(xì)胞膜10、以下關(guān)于感知器中的鏈接方式表示正確的是?()A.輸入層與隱藏層相連B.輸入層與輸出層相連C.隱藏層與細(xì)胞核相連D.輸入層與輸入層相連二、判斷題(本大題共10小題,每題1分,共10分)1、P(A|B)表示事件B已經(jīng)發(fā)生的前提下,事件A發(fā)生的概率,叫做事 件B發(fā)生下事件A的條件概率。()2、輸出變量為連續(xù)變量的預(yù)測問題是分類問題。()3、回歸及分類常用的評估指標(biāo)都是準(zhǔn)確率和召回率。()4、決策樹只用來分類。()5、一般來說,回歸不用在分類問題上,但也有特殊情況,邏輯回歸可 以用來解決0/1分類問題。()6、回歸問題與分類問題都有可能發(fā)生過擬合。()7、如果一個(gè)經(jīng)過訓(xùn)練的機(jī)器學(xué)習(xí)模型在測試集上達(dá)到100%的準(zhǔn)確率, 這是否意味著該模型將在另外一個(gè)新的測試集上也能得到100%的準(zhǔn)確率。 ()8、序列數(shù)據(jù)沒有時(shí)間戳。()9、定量屬性可以是整數(shù)值或者是連續(xù)值。()10、可視化技術(shù)對于分析的數(shù)據(jù)類型通常不是專用性的。()三、填空(本大題共10小題,每題3分,共30分)1、損失函數(shù)也叫或。2、已知坐標(biāo)軸中兩點(diǎn)A(2,?2)B(?1,2),這兩點(diǎn)的曼哈頓距離(L1距離)是。3、算法利用信息增益進(jìn)行特征的選擇,信息增益反映的是給定條件后不確定性減少的程度。4、表示在樣本集合中一個(gè)隨機(jī)選中的樣本被分錯(cuò)的概率。5、基尼指數(shù)(基尼不純度)=*。6、歐式距離的特征是:、。7、一個(gè)表示一個(gè)單獨(dú)的數(shù),它不同于線性代數(shù)中研究的其他大部分對象(通常是多個(gè)數(shù)的數(shù)組)。8、AdaBoost迭代次數(shù)也就是數(shù)目不太好設(shè)定,可以使用交叉驗(yàn)證來進(jìn)行確定;
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 水庫進(jìn)口段施工方案模板
- 礦產(chǎn)資源開發(fā)與區(qū)域經(jīng)濟(jì)發(fā)展-石墨滑石考核試卷
- 木結(jié)構(gòu)防火施工方案
- 糧食批發(fā)商市場規(guī)范化管理與監(jiān)管策略研究考核試卷
- 解答證券從業(yè)資格證考試疑難試題及答案
- 2023年中國鐵路上海局集團(tuán)有限公司招聘高等職業(yè)院校畢業(yè)生3163人(二)筆試參考題庫附帶答案詳解
- 2024項(xiàng)目管理考試復(fù)習(xí)要點(diǎn)試題及答案
- 硫酸銅在金屬腐蝕中的應(yīng)用考核試卷
- 2023年中國能建陜西院智能配網(wǎng)公司招聘變電電氣設(shè)計(jì)崗位工作人員筆試參考題庫附帶答案詳解
- 2023年中國聯(lián)合網(wǎng)絡(luò)通信有限公司會(huì)昌分公司公開招聘工作人員筆試參考題庫附帶答案詳解
- 超聲波類hc sr04p使用說明
- 桂林市臨桂區(qū)中小學(xué)教師招聘筆試試題2023年
- 數(shù)控等離子切割機(jī)操作規(guī)程教育課件
- 2022年浙江省杭州市中考化學(xué)試卷【含答案】
- 機(jī)電工程技術(shù)標(biāo)投標(biāo)方案
- 光伏電纜的敷設(shè)
- C#實(shí)驗(yàn)c-圖書管理系統(tǒng)源代碼
- 波羅維茨少女合唱譜
- 化療后嘔吐CINV相關(guān)知識考核試題及答案
- 七年級4班期中考試家長會(huì)課件
- 降低長期臥床病人便秘發(fā)生率
評論
0/150
提交評論