




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第頁大數(shù)據(jù)題庫-機(jī)器學(xué)習(xí)復(fù)習(xí)測試卷1.機(jī)器學(xué)習(xí)中,基于樣本分布的距離是()。A、馬氏距離B、歐式距離C、曼哈頓距離D、閔可夫斯基距離【正確答案】:A解析:
馬氏距離是基于樣本分布的一種距離。2.機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過程中對某種類型假設(shè)的偏好稱為()。A、訓(xùn)練偏好B、歸納偏好C、分析偏好D、假設(shè)偏好【正確答案】:B3.下列關(guān)于決策樹的說法錯誤的是()。A、冗余屬性不會對決策樹的準(zhǔn)確率造成不利的影響B(tài)、子樹可能在決策樹中重復(fù)多次C、決策樹算法對于噪聲的干擾非常敏感D、尋找最佳決策樹是NP完全問題【正確答案】:C解析:
決策樹算法對于噪聲的干擾具有相當(dāng)好的魯棒性。4.決策樹中的葉節(jié)點對應(yīng)于決策樹結(jié)果,其他節(jié)點對應(yīng)于()。A、屬性測試B、學(xué)習(xí)測試C、學(xué)習(xí)測試D、分類測試【正確答案】:A解析:
決策樹包含一個根節(jié)點、若干內(nèi)部節(jié)點和若千葉節(jié)點。葉節(jié)點對應(yīng)于決策結(jié)果,其他每個節(jié)點則對應(yīng)于一個屬性測試。5.通常來說,()能夠用來預(yù)測連續(xù)因變量。A、線性回歸B、邏輯回歸C、線性回歸和邏輯回歸D、以上答案都不正確【正確答案】:A解析:
邏輯回歸被用來處理分類問題。6.()在劃分屬性時是在當(dāng)前結(jié)點的屬性集合中選擇一個最優(yōu)屬性。AdaBoostB、RFC、BaggingD、傳統(tǒng)決策樹【正確答案】:D7.線性模型中的權(quán)重w可以看做各個屬性x的()。A、正則化系數(shù)B、對最終決策結(jié)果的貢獻(xiàn)度C、高維映射D、取值【正確答案】:B8.下列關(guān)于Boosting算法的描述錯誤的是()。A、可將強(qiáng)學(xué)習(xí)器降為弱學(xué)習(xí)器B、從初始訓(xùn)練集訓(xùn)練基學(xué)習(xí)器C、對訓(xùn)練樣本分布進(jìn)行調(diào)整D、做錯的訓(xùn)練樣本多次訓(xùn)練【正確答案】:A解析:
Boosting是一種集成學(xué)習(xí)算法,由一系列基本分類器按照不同的權(quán)重組合成為一個強(qiáng)分類器。9.()是交叉驗證法的一種特例。A、自助法B、留一法C、交叉驗證法D、錯誤率分析【正確答案】:B10.對參數(shù)進(jìn)行L2正則,是機(jī)器學(xué)習(xí)常用的防止過擬合的方法。對參數(shù)做L2正則時,()是對參數(shù)本身做先驗分布假設(shè)。A、高斯分布B、拉普拉斯分布C、泊松分布D、均勻分布【正確答案】:A解析:
L2正則假設(shè)參數(shù)的先驗分布是高斯分布,可以保證模型的穩(wěn)定性,也就是參數(shù)的值不會太大或太小。11.Apriori算法的核心思想是()。A、通過頻繁項集生成和情節(jié)的向下封閉檢測兩個階段來挖掘候選集B、通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集C、數(shù)據(jù)集中包含該項集的數(shù)據(jù)所占數(shù)據(jù)集的比例,度量一個集合在原始數(shù)據(jù)中出現(xiàn)的頻率D、若某條規(guī)則不滿足最小置信度要求,則該規(guī)則的所有子集也不滿足最小置信度要求【正確答案】:B解析:
Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項集算法,其核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集。12.當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時,可以使用()促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離。A、分類B、聚類C、關(guān)聯(lián)分析D、隱馬爾可夫鏈【正確答案】:B解析:
聚類是一種典型的無監(jiān)督學(xué)習(xí)任務(wù),不要求樣本集數(shù)據(jù)帶標(biāo)簽。13.信息熵是度量()的最常用的一種指標(biāo)。A、樣本的個數(shù)B、樣本的維度C、樣本的純度D、樣本的冗余度【正確答案】:C14.()算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)則頻繁項目集的算法。A、FP-growthB、EClatC、聚類D、Apdori【正確答案】:D解析:
Apdori算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)則頻繁項目集的算法。15.()是基于規(guī)則的分類器。A、C4.5B、KNNC、NaiveBayesD、ANN【正確答案】:A解析:
基于規(guī)則的分類器有決策樹、隨機(jī)森林、Aprior,C4.5屬于決策樹算法。16.如果一個SVM模型出現(xiàn)欠擬合,那么()能解決這一問題。A、增大懲罰參數(shù)CB、減小懲罰參數(shù)CC、減小核系數(shù)(gamma參數(shù))D、增大核系數(shù)(gamma參數(shù))【正確答案】:A解析:
SVM模型出現(xiàn)欠擬合,表明模型過于簡單,需要提高模型復(fù)雜度。C越大,相應(yīng)的模型越復(fù)雜。17.下列機(jī)器學(xué)習(xí)算法中,不需要歸一化處理的是()。A、DecisionTreeB、SVMC、K-meansD、LogisticRegression【正確答案】:A解析:
DecisionTree屬于概率模型,不需要歸一化處理;SVM、K-means和LogisticRegression之類的最優(yōu)化問題需要歸一化處理。18.在一個簡單的線性回歸模型中(只有一個變量),如果將輸入變量改變一個單位(增加或減少),那么輸出將改變()。A、一個單位B、不變C、截距D、回歸模型的尺度因子【正確答案】:D解析:
假設(shè)線性回歸模型是,若x改變一個單位,如x+1,則y改變b個單位,b是回歸模型的尺度因子。19.機(jī)器學(xué)習(xí)訓(xùn)練時,Mini-Batch的大小優(yōu)選為2的冪,如256或512。它背后的原因是()。A、Mini-Batch為偶數(shù)的時候,梯度下降算法訓(xùn)練的更快B、Mini-Batch設(shè)為2的冪,是為了符合CPU、GPU的內(nèi)存要求,利于并行化處理C、不使用偶數(shù)時,損失函數(shù)是不穩(wěn)定的D、以上答案都不正確【正確答案】:B20.參數(shù)估計可分為()和區(qū)間估計。A、線型估計B、點估計C、回歸估計D、二維分析【正確答案】:B解析:
參數(shù)估計是根據(jù)從總體中抽取的隨機(jī)樣本來估計總體分布中未知參數(shù)的過程。從估計形式看,區(qū)分為點估計與區(qū)間估計。21.下列關(guān)于機(jī)器學(xué)習(xí)模型的說法正確的是()。A、一個機(jī)器學(xué)習(xí)模型如果有較高準(zhǔn)確率,總是說明這個分類器是好的B、如果增加模型復(fù)雜度,那么模型的測試錯誤率不一定會降低C、如果增加模型復(fù)雜度,那么模型的訓(xùn)練錯誤率總是會降低【正確答案】:C解析:
一個機(jī)器學(xué)習(xí)模型如果有較高準(zhǔn)確率,不能說明這個分類器是好的。對于不平衡的數(shù)據(jù)集進(jìn)行預(yù)測時,正確率不能反映模型的性能。模型越復(fù)雜,在訓(xùn)練集上越容易表現(xiàn)好,在測試集上越容易表現(xiàn)不好。22.下列說法錯誤的是()。A、當(dāng)目標(biāo)函數(shù)是凸函數(shù)時,梯度下降算法的解一般就是全局最優(yōu)解B、進(jìn)行PCA降維時,需要計算協(xié)方差矩陣C、沿負(fù)梯度的方向一定是最優(yōu)的方向D、利用拉格朗日函數(shù)能解帶約束的優(yōu)化問題【正確答案】:C解析:
沿負(fù)梯度的方向是函數(shù)值減少最快的方向但不一定就是最優(yōu)方向。23.學(xué)習(xí)率對機(jī)器學(xué)習(xí)模型結(jié)果會產(chǎn)生影響,通常希望學(xué)習(xí)率()。A、越小越好B、越大越好C、較小而迭代次數(shù)較多D、較大而迭代次數(shù)較小【正確答案】:C24.K-means++算法選擇初始sceds的基本思想就是初始的聚類中心之間的相互距離要盡可能的遠(yuǎn)。對以下步驟:①從輸入的數(shù)據(jù)點集合中隨機(jī)選擇一個點作為第一個聚類中心;②對于數(shù)據(jù)集中的每一個點x,計算它與最近聚類中心(指已選擇的聚類中心)的距離D(x);③選擇一個新的數(shù)據(jù)點作為新的聚類中心,選擇的原則是D(x)較大的點,被選取作為聚類中心的概率較大;④重復(fù)②和③直到k個聚類中心被選出來;⑤利用這k個初始的聚類中心米運行標(biāo)準(zhǔn)的K-means算法。K-means++算法的正確流程為()。A、②⑤④③①B、①⑤④②③C、①②③④⑤D、④③②①⑤【正確答案】:C解析:
K-means++算法基本流程為:①從輸入的數(shù)據(jù)點集合中隨機(jī)選擇一個點作為第一個聚類中心;②對于數(shù)據(jù)集中的每一個點x,計算它與最近聚類中心(指已選擇的聚類中心)的距離D(x);③選擇一個新的數(shù)據(jù)點作為新的聚類中心,選擇的原則是D(x)較大的點,被選取作為聚類中心的概率較大;④重復(fù)②和③直到k個聚類中心被選出來;⑤利用這k個初始的聚類中心來運行標(biāo)準(zhǔn)的K-mcans算法。25.與生成方法、半監(jiān)督SVM、圖半監(jiān)督學(xué)習(xí)等基于單學(xué)習(xí)機(jī)器利用未標(biāo)記數(shù)據(jù)不同,基于分歧的方法(disagreement-basedmethods)使用多學(xué)習(xí)器,而學(xué)習(xí)器之間的分歧(disagreement)對未標(biāo)記數(shù)據(jù)的利用至關(guān)重要。()是此類方法的重要代表。A、協(xié)同訓(xùn)練B、組合訓(xùn)練C、配合訓(xùn)練D、陪同訓(xùn)練【正確答案】:A解析:
協(xié)同訓(xùn)練是此類方法的重要代表,它很好地利用了多視圖的相容互補(bǔ)性。26.選擇哪一個解作為輸出,將由學(xué)習(xí)算法的歸納偏好決定,常見的做法是引入()。A、線性回歸B、線性判別分析C、正則化項D、偏置項【正確答案】:C27.下列關(guān)于支持向量機(jī)優(yōu)化性問題形式的說法正確的是()。A、它是一個凸二次規(guī)劃問題B、它是一個凸一次規(guī)劃問題C、它是一個凹二次規(guī)劃問題D、它是一個凹一次規(guī)劃問題【正確答案】:A解析:
支持向量機(jī)優(yōu)化性問題的一個凸二次規(guī)劃問題。28.()是二維隨機(jī)變量的分布。A、正態(tài)分布B、二項分布C、邊緣分布D、指數(shù)分布【正確答案】:C解析:
二維隨機(jī)變量的分布有邊緣分布和條件分布。29.()算法是分類算法。A、DBSCANB、C4.5C、K-meansD、EM【正確答案】:B解析:
C4.5是分類算法;DBSCAN、K-means、EM是聚類算法。30.一監(jiān)獄人臉識別準(zhǔn)入系統(tǒng)用來識別待進(jìn)入人員的身份,此系統(tǒng)能識別獄警、小偷、送餐員、其他人員4種不同人員。下列學(xué)習(xí)方法最適合此種應(yīng)用需求的是()。A、二分類問題B、層次聚類問題C、多分類問題D、回歸問題【正確答案】:C解析:
涉及4種人員類別屬于多分類問題。31.當(dāng)學(xué)習(xí)器將訓(xùn)練樣本自身的特點作為所有潛在樣本都具有的一般性質(zhì),這樣會導(dǎo)致泛化性能下降,這種現(xiàn)象稱為()。A、欠擬合B、過擬合C、擬合D、以上答案都不正確【正確答案】:B解析:
當(dāng)學(xué)習(xí)器把訓(xùn)練樣本學(xué)得太好了的時候,很可能已經(jīng)把訓(xùn)練樣本自身的一些特點當(dāng)作了所有潛在樣本都會具有的一般性質(zhì),這樣就會導(dǎo)致泛化性能下降,這種現(xiàn)象在機(jī)器學(xué)習(xí)中稱為過擬合。32.為了觀察測試Y與X之間的線性關(guān)系,若X是連續(xù)變量,則使用()比較適合。A、散點圖B、柱形圖C、直方圖D、以上答案都不正確【正確答案】:A解析:
散點圖反映了兩個變量之間的相互關(guān)系,在測試Y與X之間的線性關(guān)系時,使用散點圖最為直觀。33.下列關(guān)于K均值與DBSCAN比較的說法不正確的是()。A、K均值丟棄被它識別為噪聲的對象,而DBSCAN一般聚類所有對象B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念C、K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇D、K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會合并有重疊的簇【正確答案】:A解析:
DBSCAN與K均值都是將每個對象指派到單個簇的劃分聚類算法,但K均值一般聚類所有對象,而DBSCAN丟棄被它識別為噪聲的對象。34.下列不屬于判別式模型的是()。A、決策樹BP神經(jīng)網(wǎng)絡(luò)C、支持向量機(jī)D、貝葉斯【正確答案】:D35.假設(shè)你需要調(diào)整參數(shù)來最小化代價函數(shù)(costfunction),會使用()技術(shù)。A、窮舉搜索B、隨機(jī)搜索C、Bayesian優(yōu)化D、以上全是【正確答案】:D36.下列算法中更適合做時間序列建模的是()。A、CNNB、決策樹C、LSTMD、貝葉斯算法【正確答案】:C解析:
LSTM為長短時記憶網(wǎng)絡(luò),是一種時間遞歸神經(jīng)網(wǎng)絡(luò)。37.下列方法中:①增加更多的數(shù)據(jù);②使用數(shù)據(jù)擴(kuò)增技術(shù)(dataaugmentation);③用歸納性更好的架構(gòu);④正規(guī)化數(shù)據(jù);⑤降低架構(gòu)的復(fù)雜度可以用來降低深度習(xí)模型的過擬合問題的方法有()。A、①④⑤B、①②③C、①③④⑤D、所有項目都有用【正確答案】:D解析:
增多數(shù)據(jù)、數(shù)據(jù)擴(kuò)增、正規(guī)化數(shù)據(jù)、選擇歸納性更好、復(fù)雜度更低的架構(gòu)均可以用來降低深度學(xué)習(xí)模型的過擬合問題。38.bootstrap是指()。A、有放回地從總共M個特征中抽樣m個特征B、無放回地從總共M個特征中抽樣m個特征C、有放回地從總共N個樣本中抽樣n個樣本D、無放回地從總共N個樣本中抽樣n個樣本【正確答案】:C解析:
自助采樣法(bootstrapsampling):給定包含N個樣本的數(shù)據(jù)集,我們先隨機(jī)取出一個樣本放入采樣集中,再把該樣本放回初始數(shù)據(jù)集,使得下次采樣時該樣本仍有可能被選中,這樣經(jīng)過n次隨機(jī)采樣操作,我們得到含n個樣本的采樣集。39.假負(fù)率是指()。A、正樣本預(yù)測結(jié)果數(shù)/正樣本實際數(shù)B、被預(yù)測為負(fù)的正樣本結(jié)果數(shù)/正樣本實際數(shù)C、被預(yù)測為正的負(fù)樣本結(jié)果數(shù)/負(fù)樣本實際數(shù)D、負(fù)樣本預(yù)測結(jié)果數(shù)/負(fù)樣本實際數(shù)【正確答案】:B40.假設(shè)一個線性回歸模型完美適合訓(xùn)練數(shù)據(jù)(訓(xùn)練誤差為0),則下列說法正確的是()。A、測試集誤差一直為0B、測試集誤差可能為0C、測試集誤差不會為0D、以上都不對【正確答案】:B解析:
假如測試數(shù)據(jù)里面沒有噪聲數(shù)據(jù),則測試誤差有可能為0?;蛘哒f,如果測試數(shù)據(jù)能夠完美表征訓(xùn)練數(shù)據(jù)集,則測試誤差即可為0,但測試數(shù)據(jù)不會總這樣。41.機(jī)器學(xué)習(xí)中發(fā)生過擬合的主要原因不包括()。A、使用過于復(fù)雜的模型B、數(shù)據(jù)噪聲較大C、訓(xùn)練數(shù)據(jù)少D、訓(xùn)練數(shù)據(jù)充足【正確答案】:D解析:
訓(xùn)練數(shù)據(jù)充足可以降低過擬合。42.在大型數(shù)據(jù)集上訓(xùn)練決策樹時,為了花費更少的時間來訓(xùn)練這個模型,下列做法正確的是()。A、增加樹的深度B、增加學(xué)習(xí)率C、減小樹的深度D、減少樹的數(shù)量【正確答案】:C解析:
決策樹深度越深,在訓(xùn)練集上誤差會越小,準(zhǔn)確率越高。但是容易造成過擬合,而且增加模型的訓(xùn)練時間。對決策樹進(jìn)行修剪,減小樹的深度,能夠提高模型的訓(xùn)練速度,有效避免過擬合。43.線性判別分析在二分類問題上也稱為()。A、線性回歸B、對數(shù)幾率回歸C、Fisher判別分析D、主成分分析【正確答案】:C解析:
線性判別分析在二分類問題上也稱為Fisher判別分析。44.一般而言,在個體學(xué)習(xí)器性能相差較大與個體學(xué)習(xí)器性能相近時宜分別使用()。A、簡單平均法,加權(quán)平均法B、加權(quán)平均法,簡單平均法C、簡單平均法,簡單平均法D、加權(quán)平均法,加權(quán)平均法【正確答案】:B45.假設(shè)precision=TP/(TP+FP),recall=TP/(TP+FN(TP+FN),則在二分類問題中,當(dāng)測試集的正例和負(fù)例數(shù)量不均衡時,下列評價方案中相對不合理的是()。Accuracy:((TP+TN)/allB、FvaluC、1*precisioprecision)D、G-mean:sqrt(precision*recall)E、AUF、曲線下面積【正確答案】:A解析:
測試集正例和負(fù)例數(shù)量不均衡,那么假設(shè)正例數(shù)量很少占10%,負(fù)例數(shù)量占90%。而且算法能正確識別所有負(fù)例,但正例只有一半能正確判別。那么TTP=0.05xall,TN=0.9xall,Accuracy=95%。雖然Accuracy很高,precision是100%,但正例recall只有50%。46.CART決策樹通常采用()剪枝方法。A、REP(錯誤率降低)B、CCP(代價復(fù)雜度)C、PEP(悲觀剪枝)D、預(yù)剪枝【正確答案】:B47.假如使用一個較復(fù)雜的回歸模型來擬合樣本數(shù)據(jù),使用Ridge回歸,調(diào)試正則化參數(shù)入,來降低模型復(fù)雜度。在入較大時,下列關(guān)于偏差(bias)和方差(variance)關(guān)系的說法正確的是()。A、偏差減小,方差減小B、偏差減小,方差增大C、偏差增大,方差減小D、偏差增大,方差增大【正確答案】:C解析:
入較小,偏差減小,方差增大,容易發(fā)生過擬合;入較大,偏差增大,方差減小,容易發(fā)生欠擬合。48.()是指數(shù)據(jù)減去一個總括統(tǒng)計量或模型擬合值時的殘余部分。A、極值B、標(biāo)準(zhǔn)值C、平均值D、殘值【正確答案】:D解析:
殘值在數(shù)理統(tǒng)計中是指實際觀察值與估計值(擬合值)之間的差。49.在抽樣估計中,隨著樣本容量的增大,樣本統(tǒng)計量接近總體參數(shù)的概率就越大。這一性質(zhì)稱為()。A、無偏性B、有效性C、及時性D、一致性【正確答案】:D解析:
一致性是指隨著樣本容量的增大,樣本統(tǒng)計量接近總體參數(shù)的概率就越大。50.在同歸模型中,()在權(quán)衡欠擬合(under-fitting)和過擬合(over-fitting)中影響最大。A、多項式階數(shù)B、更新權(quán)重w時,使用的是矩陣求逆C、使用常數(shù)項D、使用梯度下降法【正確答案】:A解析:
選擇合適的多項式階數(shù)非常重要。如果階數(shù)過大,模型就會更加復(fù)雜,容易發(fā)生過擬合;如果階數(shù)較小,模型就會過于簡單,容易發(fā)生欠擬合。51.下列不屬于模型集成方法的是()。A、直接集成法B、增強(qiáng)法C、堆疊法D、遞歸法【正確答案】:D解析:
模型集成方法包括直接集成法、自助法、隨機(jī)森林、增強(qiáng)法和堆疊法等。52.多分類學(xué)習(xí)中,最經(jīng)典的三種拆分策略不包括()。A、一對一B、一對其余C、一對多D、多對多【正確答案】:A解析:
多分類學(xué)習(xí)中,最經(jīng)典的三種拆分策略包括一對多、多對多、一對其余。53.假設(shè)有n組數(shù)據(jù)集,每組數(shù)據(jù)集中x的平均值都是9,x的方差都是11,y的平均值都是7.50,x與y的相關(guān)系數(shù)都是0.816,擬合的線性回歸方程都是
Y=3.00+0.500x。那么這n組數(shù)據(jù)集()。A、一樣B、不一樣C、無法確定是否一樣D、以上都不對【正確答案】:C解析:
只比較平均值、方差、相關(guān)系數(shù)和回歸方程,無法確定數(shù)據(jù)集是否相同,還需比較Anscombe'squartet。54.以等可能性為基礎(chǔ)的概率是()。A、古典概率B、經(jīng)驗概率C、試驗概率D、主觀概率【正確答案】:A解析:
古典概率是以這樣的假設(shè)為基礎(chǔ)的,即隨機(jī)現(xiàn)象所能發(fā)生的事件是有限的、互不相容的,而且每個基本事件發(fā)生的可能性相等。根據(jù)大量的、重復(fù)的統(tǒng)計試驗結(jié)果計算隨機(jī)事件中各種可能發(fā)生結(jié)果的概率稱為試驗概率或頻率概率。主觀概率是指建立在過去的經(jīng)驗與判斷的基礎(chǔ)上,根據(jù)對未來事態(tài)發(fā)展的預(yù)測和歷史統(tǒng)計資料的研究確定的概率,反映的只是一種主觀可能性。55.線性判別分析(LDA)從貝葉斯決策理論闡釋,當(dāng)兩類數(shù)據(jù)同先驗且滿足()時,LDA達(dá)到最優(yōu)分類。A、高斯分布B、協(xié)方差相等C、高斯分布且協(xié)方差相等D、協(xié)方差不等【正確答案】:C56.基于Bagging的集成學(xué)習(xí)代表算法有()。AdaboostB、GBDTC、XGBOOSTD、隨機(jī)森林【正確答案】:D解析:
基于Boosting的集成學(xué)習(xí)算法的集成學(xué)習(xí)代表算法包含Adaboost、GBDT、XGBOOST,隨機(jī)森林是基于Bagging。57.采樣分析的精確性隨著采樣隨機(jī)性的增加而(),但與樣本數(shù)量的增加關(guān)系不大。A、降低B、不變C、提高D、無關(guān)【正確答案】:C解析:
采樣分析的精確性隨著采樣隨機(jī)性的增加而提高,但與樣本數(shù)量的增加關(guān)系不大。當(dāng)樣本數(shù)量達(dá)到某個值后,我們從新個體上得到的信息會越來越少。58.緩解過擬合的一個辦法是允許支持向量機(jī)在一些樣本上出錯,()形式適合這種方法。A、硬間隔支持向量機(jī)B、軟間隔支持向量機(jī)C、線性核函數(shù)支持向量機(jī)D、多項式核函數(shù)支持向量機(jī)【正確答案】:B解析:
軟間隔允許某些樣本不滿足約束,可緩解過擬合。59.()先對數(shù)據(jù)集進(jìn)行特征選擇,然后再訓(xùn)練學(xué)習(xí)器。A、過濾式選擇B、包裹式選擇C、稀疏表示D、嵌入式選擇【正確答案】:A60.聚類算法的性能度量可稱為()。A、密度估計B、異常檢測C、有效性指標(biāo)D、分布結(jié)構(gòu)【正確答案】:C61.概率模型的訓(xùn)練過程就是()過程。A、分類B、聚類C、參數(shù)估計D、參數(shù)選擇【正確答案】:C62.()算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項集算法,其核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集。AprioriB、EMC、PCAD、PAC【正確答案】:A解析:
Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項集算法,其核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集。PCA是無監(jiān)督的降維算法。概率近似正確(PAC)學(xué)習(xí)理論是計算學(xué)習(xí)理論中最基本的理論。最大期望算法(expectationmaximumEM),是一類通過迭代進(jìn)行極大似然估計的優(yōu)化算法。63.下列關(guān)于L1正則化與L2正則化的描述錯誤的是()。A、L1范數(shù)正則化有助于降低過擬合風(fēng)險B、L2范數(shù)正則化有助于降低過擬合風(fēng)險C、L1范數(shù)正則化比L2范數(shù)正則化更易于獲得稀疏解D、L2范數(shù)正則化比L1范數(shù)正則化更易于獲得稀疏解【正確答案】:C64.在邏輯回歸輸出與目標(biāo)對比的情況下,下列評估指標(biāo)不適用的是()。AUC-ROCB、準(zhǔn)確度C、LoglossD、均方誤差【正確答案】:D解析:
LogisticRegression是一個分類算法,所以它的輸出不能是實時值,所以均方誤差不能用于評估它。65.在多元線性回歸模型中,若某個解釋變量對其余解釋變量的判定系數(shù)接近于1,則表明模型中存在()。A、異方差B、序列相關(guān)C、多重共線性D、高擬合優(yōu)度【正確答案】:C66.()是以樣本統(tǒng)計量作為未知總體參數(shù)的估計量,并通過對樣本單位的實際觀察取得樣本數(shù)據(jù),計算樣本統(tǒng)計量的取值作為被估計參數(shù)的估計值。A、參數(shù)估計B、邏輯分析C、方差分析D、回歸分析【正確答案】:A解析:
參數(shù)估計是統(tǒng)計推斷的一種,根據(jù)從總體中抽取的隨機(jī)樣本來估計總體分布中未知參數(shù)。67.下列關(guān)于Apriori算法原理的敘述錯誤的是()。Apriori算法通常使用先驗知識或者假設(shè)B、如果某個項集是頻繁的,那么它的所有子集也是頻繁的C、如果一個項集是非頻繁集,那么它的所有超集也是非頻繁的D、Apriori算法不可以用來發(fā)現(xiàn)頻繁集【正確答案】:D解析:
Apriori算法可以用來發(fā)現(xiàn)頻繁集。68.進(jìn)行主成分分析的前提條件是各變量間()。A、高度相關(guān)B、低度相關(guān)C、相互獨立D、完全相關(guān)【正確答案】:B69.下列關(guān)于隨機(jī)森林和GBDT的說法正確的是()。A、在隨機(jī)森林的單個樹中,樹和樹之間是有依賴的,而GBDT中的單個樹之間是沒有依賴的B、這兩個模型都使用隨機(jī)特征子集,來生成許多單個的樹C、我們可以并行地生成GBDT單個樹,因為它們之間是沒有依賴的D、GBDT訓(xùn)練模型的表現(xiàn)總是比隨機(jī)森林好【正確答案】:B解析:
組成隨機(jī)森林的樹可以并行生成;而GBDT只能是串行生成。70.()選擇成為支持向量機(jī)的最大變數(shù)。A、核函數(shù)B、樣本空間C、模型D、算法【正確答案】:A解析:
在不知道特征映射的形式時,我們并不知道什么樣的核函數(shù)是合適的,而核函數(shù)也僅是隱式地定義了這個特征空間,因此核函數(shù)選擇成為支持向量機(jī)的最大變數(shù)。71.訓(xùn)練樣本集S含有天氣、氣溫、人體感受、風(fēng)力4個指標(biāo),已知天氣的熵為0.694,溫度的熵為0.859,人體感受的熵為0.952,風(fēng)力的熵為0.971,如使用ID3算法,選擇()為樹模型的分界點。A、天氣B、氣溫C、人體感受D、風(fēng)力【正確答案】:A解析:
信息熵(informationentropy)是度量樣本集合純度最常用的一種指標(biāo),信息熵越大,變量的不確定性越大,反之越小。樹模型的分界點應(yīng)選擇信息熵最小的元素,本體選天氣。72.機(jī)器學(xué)習(xí)中L1正則化和L2正則化的區(qū)別是()。A、使用L1可以得到稀疏的權(quán)值,使用L2可以得到平滑的權(quán)值B、使用Ll可以得到平滑的權(quán)值,使用L2可以得到平滑的權(quán)值C、使用Ll可以得到平滑的權(quán)值,使用L2可以得到稀疏的權(quán)值D、使用L1可以得到稀疏的權(quán)值,使用L2可以得到稀疏的權(quán)值【正確答案】:A解析:
使用L1可以得到稀疏的權(quán)值,使用L2可以得到平滑的權(quán)值。73.隨機(jī)森林是在()上的一個擴(kuò)展變體。A、BoostingB、AdasBoostC、RFD、Bagging【正確答案】:D74.下列關(guān)于隨機(jī)森林的說法正確的是()。A、隨機(jī)森林對于高維數(shù)據(jù)集的處理能力比較好B、在對缺失數(shù)據(jù)進(jìn)行估計時,隨機(jī)森林是一個十分有效的方法C、當(dāng)存在分類不平衡的情況時,隨機(jī)森林能夠提供平衡數(shù)據(jù)集誤差的有效方法D、以上答案都正確【正確答案】:D解析:
隨機(jī)森林對于高維數(shù)據(jù)集的處理能力比較好,在對缺失數(shù)據(jù)進(jìn)行估計時,隨機(jī)森林是一個十分有效的方法,當(dāng)存在分類不平衡的情況時,隨機(jī)森林能夠提供平衡數(shù)據(jù)集誤差的有效方法。75.任何一個核函數(shù)都隱式地定義了一個()空間。A、希爾伯特空間B、再生希爾伯特空間C、再生核希爾伯特空間D、歐式空間【正確答案】:C76.如果說線性回歸模型完美地擬合了訓(xùn)練樣本(訓(xùn)練樣本誤差為零),則下列說法正確的是()。A、測試樣本誤差始終為零B、測試樣本誤差不可能為零C、測試樣本誤差不一定為零D、以上答案都不對【正確答案】:C解析:
根據(jù)訓(xùn)練樣本誤差為零,無法推斷測試樣本誤差是否為零。如果測試樣本集很大,則很可能發(fā)生過擬合,導(dǎo)致模型不具備很好的泛化能力。77.假定使用SVM學(xué)習(xí)數(shù)據(jù)X,數(shù)據(jù)X里面有些點存在錯誤。現(xiàn)在如果使用一個二次核函數(shù),多項式階數(shù)為2,使用松弛變量C作為超參之一。當(dāng)使用較大的C(C趨于無窮),則()。A、仍然能正確分類數(shù)據(jù)B、不能正確分類C、不確定D、以上均不正確【正確答案】:A解析:
采用更大的C,誤分類點的懲罰就更大,因此決策邊界將盡可能完美地分類數(shù)據(jù)。78.KNN近鄰算法在()的情況下效果較好。A、樣本較多但典型性不好B、樣本較少但典型性好C、樣本呈團(tuán)狀分布D、樣本呈鏈狀分布【正確答案】:B解析:
KNN算法主要依靠的是周圍的點,因此如果樣本過多,則難以區(qū)分,典型性好的容易區(qū)分。樣本都是呈團(tuán)狀分布,KNN就發(fā)揮不出其求近鄰的優(yōu)勢了,整體樣本應(yīng)該具有典型性好,樣本較少,比較適宜。79.在K均值算法中,()可用于獲得全局最小。A、嘗試為不同的質(zhì)心(centroid)初始化運行算法B、調(diào)整迭代的次數(shù)C、找到集群的最佳數(shù)量D、以上答案都正確【正確答案】:D解析:
所有都可以用來調(diào)試以找到全局最小。80.使用似然函數(shù)的目的是()。A、求解目標(biāo)函數(shù)B、得到最優(yōu)數(shù)據(jù)樣本C、找到最適合數(shù)據(jù)的參數(shù)D、改變目標(biāo)函數(shù)分布【正確答案】:C解析:
似然估計是一種確定模型參數(shù)值的方法。確定參數(shù)值的過程,是找到使模型產(chǎn)生真實觀察數(shù)據(jù)可能性最大的那一組參數(shù)。81.后剪枝是先從訓(xùn)練集生成一顆完整的決策樹,然后()對非葉結(jié)點進(jìn)行考察。A、自上而下B、在劃分前C、禁止分支展開D、自底向上【正確答案】:D82.在k近鄰學(xué)習(xí)算法中,隨著k的增加,上界將逐漸降低,當(dāng)k區(qū)域無窮大時,上界和下界碰到一起,k近鄰法就達(dá)到了()。A、貝葉斯錯誤率B、漸進(jìn)錯誤率C、最優(yōu)值D、上界【正確答案】:A83.邏輯回歸將輸出概率范圍限定為[0,1],()函數(shù)能起到這樣的作用。A、Sigmoid()函數(shù)B、tanh()函數(shù)C、ReLU()函數(shù)D、LeakyReLU()函數(shù)【正確答案】:A解析:
Sigmoid()函數(shù)輸出值限定為[0,1]。84.關(guān)聯(lián)規(guī)則的評價指標(biāo)是()。A、均方誤差、均方根誤差B、Kappa統(tǒng)計、顯著性檢驗C、支持度、置信度D、平均絕對誤差、相對誤差【正確答案】:C解析:
支持度、置信度是關(guān)聯(lián)規(guī)則的評價指標(biāo)。85.如果建立一個5000個特征、100萬個數(shù)據(jù)的機(jī)器學(xué)習(xí)模型,則有效地應(yīng)對這樣的大數(shù)據(jù)訓(xùn)練的方法是()。A、隨機(jī)抽取一些樣本,在這些少量樣本之上訓(xùn)練B、可以試用在線機(jī)器學(xué)習(xí)算法C、應(yīng)用PCA算法降維,減少特征數(shù)D、以上答案都正確【正確答案】:D解析:
樣本數(shù)過多或者特征數(shù)過多而不能單機(jī)完成訓(xùn)練時,可以用小批量樣本訓(xùn)練,或者在線累計式訓(xùn)練,或者主成分PCA降維方式減少特征數(shù)量再進(jìn)行訓(xùn)練。86.隨機(jī)森林與Bagging中基學(xué)習(xí)器多樣性的區(qū)別是()。A、都來自樣本擾動B、都來自屬性擾動C、來自樣本擾動和屬性擾動D、多樣本集結(jié)合【正確答案】:C解析:
Bagging中基學(xué)習(xí)器的多樣性僅來自樣本擾動(自助采樣),隨機(jī)森林中基學(xué)習(xí)器的多樣性不僅來自樣本擾動,還來自屬性擾動。87.下列關(guān)于降維算法中主成分分析的說法錯誤的是()。A、有監(jiān)督算法B、可以指定降維的維度C、基于方差來計算D、根據(jù)特征值大小來篩選特征【正確答案】:A解析:
主成分分析法屬于無監(jiān)督算法。88.()算法指的是給定訓(xùn)練樣例集,設(shè)法將樣例投影到一條直線上,使得同類樣例的投影點盡可能接近、異類樣例的投影點盡可能遠(yuǎn)離。A、PCAB、SVMC、K-meansD、LDA【正確答案】:D89.當(dāng)特征值大致相等時,會發(fā)生的情況是()。A、PCA將表現(xiàn)出色B、PCA將表現(xiàn)不佳C、不知道D、以上都沒有【正確答案】:B解析:
當(dāng)所有特征向量相同時將無法選擇主成分,因為在這種情況下所有主成分相等。90.下列關(guān)于Boosting的說法錯誤的是()。A、Boosting方法的主要思想是迭代式學(xué)習(xí)B、訓(xùn)練基分類器時采用并行的方式C、測試時,根據(jù)各層分類器的結(jié)果的加權(quán)得到最終結(jié)果D、基分類器層層疊加,每一層在訓(xùn)練時,對前一層基分類器分錯的樣本給予更高的權(quán)值【正確答案】:B解析:
Boosing訓(xùn)練基分類器時只能采用順序的方式,Bagging訓(xùn)練基分類器時采用并行的方式。91.如果使用線性回歸模型,則下列說法正確的是()。A、檢查異常值是很重要的,因為線性回歸對離群效應(yīng)很敏感B、線性回歸分析要求所有變量特征都必須具有正態(tài)分布C、線性回歸假設(shè)數(shù)據(jù)中基本沒有多重共線性D、以上說法都不對【正確答案】:A解析:
異常值是數(shù)據(jù)中的一個非常有影響的點,它可以改變最終回歸線的斜率。因此,去除或處理異常值在回歸分析中是很重要的。了解變量特征的分布是有用的,類似于正態(tài)分布的變量特征對提升模型性能很有幫助,數(shù)據(jù)預(yù)處理的時候經(jīng)常做的一件事就是將數(shù)據(jù)特征歸一化到(0,1)分布,但不是必需的。當(dāng)模型包含相互關(guān)聯(lián)的多個特征時,會發(fā)生多重共線性。因此,線性回歸中變量特征應(yīng)該盡量減少冗余性。92.在一個線性回歸問題中,通常使用R平方(R-Squared)來判斷擬合度。此時,如果增加一個特征,模型不變,則下面說法正確的是()。A、如果R-Squared增加,則這個特征有意義B、如果R-Squared減小,則這個特征沒有意義C、僅看R-Squared單一變量,無法確定這個特征是否有意義D、以上說法都不對【正確答案】:C解析:
單獨看R-Squared,并不能推斷出增加的特征是否有意義。通常來說,增加一個特征,R-Squared可能變大也可能保持不變,兩者不一定呈正相關(guān)。93.主成分分析的優(yōu)化目標(biāo)是一個()。A、不含約束條件的二次規(guī)劃問題B、含有約束條件的二次規(guī)劃問題C、不含約束條件的線性規(guī)劃問題D、含有約束條件的線性規(guī)劃問題【正確答案】:B94.決策樹中,同一路徑上的所有屬性之間是()關(guān)系。A、因果B、相關(guān)C、邏輯或D、邏輯與【正確答案】:D95.下列關(guān)于聚類挖掘技術(shù)的說法錯誤的是()。A、不預(yù)先設(shè)定數(shù)據(jù)歸類類目,完全根據(jù)數(shù)據(jù)本身性質(zhì)將數(shù)據(jù)聚合成不同類別B、要求同類數(shù)據(jù)的內(nèi)容相似度盡可能小C、要求不同類數(shù)據(jù)的內(nèi)容相似度盡可能小D、與分類挖掘技術(shù)相似的是,都是要對數(shù)據(jù)進(jìn)行分類處理【正確答案】:B解析:
聚類挖掘技術(shù)中要求不同類數(shù)據(jù)的內(nèi)容相似度盡可能小。96.SVM在()情況下表現(xiàn)糟糕。A、線性可分?jǐn)?shù)據(jù)B、清洗過的數(shù)據(jù)C、含噪聲數(shù)據(jù)與重疊數(shù)據(jù)點【正確答案】:C解析:
[y1(wx,+b)≥1]下97.當(dāng)訓(xùn)練集特征非常多,而實例非常少的時候,可以采用()。A、sigmoid核的支持向量機(jī)B、不帶核的支持向量機(jī)C、高斯核的支持向量機(jī)D、多項式核的支持向量機(jī)【正確答案】:B解析:
當(dāng)不采用非常復(fù)雜的函數(shù),或者當(dāng)我們的訓(xùn)練集特征非常多但是實例非常少的時候,可以采用不帶核函數(shù)的支持向量機(jī)。98.聚類是一種典型的無監(jiān)督學(xué)習(xí)任務(wù),然而在現(xiàn)實聚類任務(wù)中我們往往能獲得一些額外的監(jiān)督信息,于是可通過()來利用監(jiān)督信息以獲得更好的聚類效果。A、監(jiān)督聚類B、半監(jiān)督聚類C、聚類D、直推聚類【正確答案】:B99.在集成學(xué)習(xí)中,對于數(shù)據(jù)型輸出,最常見的結(jié)合策略是()。A、平均法B、投票法C、學(xué)習(xí)法D、以上答案都正確【正確答案】:A100.任一隨機(jī)事件出現(xiàn)的概率P為()。A、-1≤P≤1B、0≤P≤1。P=0C、P≥1D、0≤P≤1【正確答案】:D解析:
果沒有其他的附加條件,一般概率P的取值范圍是代表不可能發(fā)生,P=1=1代表一定會發(fā)生。1.許多功能更為強(qiáng)大的非線性模型可在線性模型基礎(chǔ)上通過引入()而得。A、層級結(jié)構(gòu)B、高維映射C、降維D、分類【正確答案】:AB2.如果將A、B、C三個分類器的P-R曲線畫在一個圖中,其中A、B的P-R曲線可以完全包含住C的P-R曲線,A、B的P-R曲線有交點,A、B、C的平衡點分別為0.79、0.66、0.58,則下列說法中正確的有()。A、學(xué)習(xí)器A的性能優(yōu)于學(xué)習(xí)器CB、學(xué)習(xí)器A的性能優(yōu)于學(xué)習(xí)器BC、學(xué)習(xí)器B的性能優(yōu)于學(xué)習(xí)器CD、學(xué)習(xí)器C的性能優(yōu)于學(xué)習(xí)器B【正確答案】:ABC解析:
若一個學(xué)習(xí)器的P-R曲線被另一個學(xué)習(xí)器的曲線完全包住,則可斷官后者的性能優(yōu)于前者,如果兩個學(xué)習(xí)器的P-R曲線發(fā)生了交叉,則可用平衡點度量。3.下列關(guān)于LDA判別分析思想的描述正確的有()。A、同類樣例的投影點盡可能近B、異類樣例的投影點盡可能遠(yuǎn)C、同類樣例的投影點盡可能遠(yuǎn)D、異類樣例的投影點盡可能近【正確答案】:AB解析:
LDA的思想非常樸素,即給定訓(xùn)練樣例集,設(shè)法將樣例投影到一條直線上,使得同類樣例的投影點盡可能接近、異類樣例的投影點盡可能遠(yuǎn)離。在對新樣本進(jìn)行分類時,將其投影到同樣的這條直線上,再根據(jù)投影點的位置來確定新樣本的類別。4.特征選擇的目的有()。A、減少特征數(shù)量、降維B、使模型泛化能力更強(qiáng)C、增強(qiáng)模型擬合能力D、減少過擬合?!菊_答案】:ABD解析:
特征選擇的主要目的是減少特征的數(shù)量、降低特征維度、使模型泛化能力更強(qiáng)、減少過擬合。5.下列關(guān)于決策樹的優(yōu)點的描述正確的有()。A、可讀性強(qiáng)B、分類速度快C、只用于回歸問題D、是無監(jiān)督學(xué)習(xí)【正確答案】:AB解析:
決策樹也可用于回歸,屬于有監(jiān)督的機(jī)器學(xué)習(xí)算法。6.聚類性能度量的指標(biāo)主要分為外部指標(biāo)和內(nèi)部指標(biāo),其中屬于內(nèi)部指標(biāo)的是()。A、Jaccard指數(shù)B、FM指數(shù)C、DB指數(shù)Dunn指數(shù)【正確答案】:CD解析:
AB為外部指標(biāo)。7.針對維數(shù)災(zāi)難,主要采用的降維方法有()。A、多維縮放B、主成分分析C、核化線性降維D、流形學(xué)習(xí)【正確答案】:ABCD8.下列可以用于特征降維的方法有()。A、主成分分析PCAB、線性判別分析LDAC、深度學(xué)習(xí)SparseAutoEncoderD、矩陣奇異值分解SVD【正確答案】:ABD9.集成學(xué)習(xí)中增強(qiáng)多樣性的常見做法有()。A、數(shù)據(jù)樣本擾動B、輸入屬性擾動C、輸出表示擾動D、算法參數(shù)擾動【正確答案】:ABCD解析:
集成學(xué)習(xí)中增強(qiáng)多樣性的常見做法主要有對數(shù)據(jù)樣本、輸入屬性、輸出表示、算法參數(shù)進(jìn)行擾動。10.下列關(guān)于機(jī)器學(xué)習(xí)的理解正確的有()。A、非監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是要求帶標(biāo)簽的B、監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的區(qū)別在于是否要求樣本數(shù)據(jù)帶標(biāo)簽C、強(qiáng)化學(xué)習(xí)以輸入數(shù)據(jù)作為對模型的反饋D、卷積神經(jīng)網(wǎng)絡(luò)一般用于圖像處理等局部特征相關(guān)的數(shù)據(jù)【正確答案】:BCD解析:
非監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是不要求帶標(biāo)簽的,監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是要求帶標(biāo)簽的。11.在統(tǒng)計模式分類問題中,當(dāng)先驗概率未知時,可以使用()。A、最小最大損失準(zhǔn)則B、最小誤判概率準(zhǔn)則C、最小損失準(zhǔn)則D、N-P判決【正確答案】:AD12.一個監(jiān)督觀測值集合會被劃分為()。A、訓(xùn)練集B、驗證集C、測試集D、預(yù)處理集【正確答案】:ABC解析:
一個監(jiān)督觀測值集合會被劃分為訓(xùn)練集、測試集、預(yù)測集。其中測試集來測試學(xué)習(xí)器對新樣本的判別能力,然后以測試集上的測試誤差(testingerror)作為泛化誤差的近似。13.在監(jiān)督式學(xué)習(xí)中使用聚類算法的方法有()。A、首先可以創(chuàng)建聚類,然后分別在不同的集群上應(yīng)用監(jiān)督式學(xué)習(xí)算法B、在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,可以將其類別ID作為特征空間中的一個額外的特征C、在應(yīng)用監(jiān)督式學(xué)習(xí)之前,不能創(chuàng)建聚類D、在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,不能將其類別ID作為特征空間中的一個額外的特征【正確答案】:AB解析:
我們可以為不同的集群構(gòu)建獨立的機(jī)器學(xué)習(xí)模型,并且可以提高預(yù)測精度。將每個類別的ID作為特征空間中的一個額外的特征可能會提高的精度結(jié)果。14.下列對模型性能提高有幫助的有()。A、數(shù)據(jù)預(yù)處理B、特征工程C、機(jī)器學(xué)習(xí)算法D、模型集成【正確答案】:ABCD解析:
數(shù)據(jù)預(yù)處理、特征工程、機(jī)器學(xué)習(xí)算法、模型集成均可提高模型性能。15.可以幫助解決訓(xùn)練集在特征空間中線性不可分的問題的方法有()。A、硬間隔B、軟間隔C、核函數(shù)D、拉格朗日乘子法【正確答案】:BC解析:
核函數(shù)解決線性不可分的本質(zhì)思想就是把原始的樣本通過核函數(shù)映射到高維空間中,讓樣本在高維特征空間中是線性可分的。軟間隔允許某些樣本不滿足約束,使得樣本在特征空間中不是線性可分。16.特征選擇方法有()。AIC赤池信息準(zhǔn)則B、LARS嵌入式特征選擇方法C、LVW包裹式特征選擇方法D、Relief過濾式特征選擇方法【正確答案】:BCD解析:
AIC赤池信息準(zhǔn)則是常用的模型選擇方法。17.深度學(xué)習(xí)方法不適用的數(shù)據(jù)集有()。A、數(shù)據(jù)樣本充足B、數(shù)據(jù)樣本不足C、數(shù)據(jù)集具有局部相關(guān)特性D、數(shù)據(jù)集沒有局部相關(guān)特性【正確答案】:BD解析:
以下數(shù)據(jù)集不適用于深度學(xué)習(xí):①數(shù)據(jù)集太小,數(shù)據(jù)樣本不足時,深度學(xué)習(xí)相對其他機(jī)器學(xué)習(xí)算法沒有明顯優(yōu)勢;②數(shù)據(jù)集沒有局部相關(guān)特性,目前深度學(xué)習(xí)表現(xiàn)比較好的領(lǐng)域主要是圖像、語音、自然語言處理等領(lǐng)域,這些領(lǐng)域的一個共性是局部相關(guān)性。圖像中像素組成物體,語音信號中音位組合成單詞,文本數(shù)據(jù)中單詞組合成句子,這些特征元素的組合一旦被打亂,表示的含義同時也被改變。對于沒有這樣的局部相關(guān)性的數(shù)據(jù)集,不適用于使用深度學(xué)習(xí)算法進(jìn)行處理。18.下列屬于數(shù)值優(yōu)化算法的有()。A、梯度下降法B、牛頓法C、極大似然法D、邏輯回歸【正確答案】:AB解析:
在機(jī)器學(xué)習(xí)的優(yōu)化問題中,梯度下降法和牛頓法是常用的兩種凸函數(shù)求極值的方法,他們都是為了求得目標(biāo)函數(shù)的近似解。極大似然法是一種應(yīng)用非常廣泛的參數(shù)估計方法。邏輯回歸是一種廣義的線性回歸分析模型,常用于分類問題。19.在正則化公式中,入為正則化參數(shù)。下列關(guān)于入的描述正確的有()。A、若正則化參數(shù)入過大,可能會導(dǎo)致出現(xiàn)欠擬合現(xiàn)象B、若入太大,則梯度下降可能不收斂C、取一個合理的λ,可以更好地應(yīng)用正則化D、如果令λ很大的話,為了使CostFunction盡可能的小,所有0(不包括0。)都會在一定程度上減小【正確答案】:ABCD解析:
正則化參數(shù)太小容易產(chǎn)生過擬合,太大容易產(chǎn)生欠擬合。20.下列關(guān)于集成學(xué)習(xí)的說法正確的有()。A、隨機(jī)森林是減少模型的方差,而GBDT是減少模型的偏差B、組成隨機(jī)森林的樹可以并行生成,而GBDT是串行生成C、隨機(jī)森林的結(jié)果是多數(shù)表決的,而GBDT則是多棵樹累加之和D、隨機(jī)森林對異常值不敏感,而GBDT對異常值比較敏感【正確答案】:ABCD解析:
隨機(jī)森林與GBDT之間的區(qū)別:①組成隨機(jī)森林的樹可以是分類樹也可以是回歸樹,而GBDT只由回歸樹組成;②組成隨機(jī)森林的樹可以并行生成,而GBDT是串行生成;③隨機(jī)森林的結(jié)果是多數(shù)表決的,而GBDT則是多棵樹累加之和;④隨機(jī)森林對異常值不敏感,而GBDT對異常值比較敏感;⑤隨機(jī)森林是通過減少模型的方差來提高性能,而GBDT是減少模型的偏差來提高性能的;⑥隨機(jī)森林不需要進(jìn)行數(shù)據(jù)預(yù)處理即特征歸一心而GBDT則需要進(jìn)行特征歸一化。21.()是通過對無標(biāo)記訓(xùn)練樣本的學(xué)習(xí)來進(jìn)行分類的。A、密度估計B、異常檢測C、線性回歸D、聚類分析【正確答案】:ABD22.如果想要訓(xùn)練一個ML模型,樣本數(shù)量為100萬個,特征維度為5000個,面對如此大數(shù)據(jù),那么有效地訓(xùn)練模型可以采取的措施有()。A、對訓(xùn)練集隨機(jī)采樣,在隨機(jī)采樣的數(shù)據(jù)上建立模型B、嘗試使用在線機(jī)器學(xué)習(xí)算法C、使用PCA算法減少特征維度【正確答案】:ABC解析:
大數(shù)據(jù)可以采用對訓(xùn)練集隨機(jī)采樣,在隨機(jī)采樣的數(shù)據(jù)上建立模型,嘗試使用在線機(jī)器學(xué)習(xí)算法,使用PCA算法減少特征維度。23.特征選擇在子集生成與搜索方面引入了人工智能搜索技術(shù)和子集評價方法。其中人工智能搜索技術(shù)有()。A、分支界限法B、浮動搜索法C、信息熵D、AIC【正確答案】:ABCD解析:
特征選擇在子集生成與搜索方面引入了很多人工智能搜索技術(shù),如分支界限法、浮動搜索法等;在子集評價方法則采用了很多源于信息論的準(zhǔn)則,如信息熵、AIC等。24.關(guān)于特征向量的缺失值處理方式如下:缺失值較多,直接將該特征舍棄掉,否則可能會帶入較大的noise,對結(jié)果造成不良影響;缺失值較少,其余的特征缺失值都在10%以內(nèi),可以采取的處理方式有()。A、把NaN直接作為一個特征,假設(shè)用0表示B、用均值填充C、用隨機(jī)森林等算法預(yù)測填充D、以上選項都不正確【正確答案】:ABC解析:
缺失值較少的處理方式:①把NAN直接作為一個特征,假設(shè)用0表示;②用均值填充;③用隨機(jī)森林等算法預(yù)測填充;④用插值法填充。25.常見的回歸分析的種類有()。A、線性回歸B、系數(shù)回歸C、邏輯回歸D、曲線回歸【正確答案】:ACD26.當(dāng)構(gòu)造線性模型時,應(yīng)注意變量間的相關(guān)性。在相關(guān)矩陣中搜索相關(guān)系數(shù)時,如果發(fā)現(xiàn)3對變址的相關(guān)系數(shù)是(Varl和Var2、Var2和Var3、Var3和Varl),相關(guān)系數(shù)分別是-0.98、0.45、1.23,則可以得出的結(jié)論有()。A、Varl和Var2是非常相關(guān)的B、因為Varl和Var2是非常相關(guān)的,可以去除其中一個C、Var3和Varl的相關(guān)系數(shù)1.23是不可能的【正確答案】:ABC解析:
Varl和Var2之間的相關(guān)性非常高,并且是負(fù)的,可視為多重共線性的情況,可以去掉一個。一般來說,如果相關(guān)大于0.7或小于-0.7,則認(rèn)為特征之間有很高的相關(guān)性。相關(guān)系數(shù)范圍為[-1,1],C選項中1.23明顯有誤。27.下列屬于范數(shù)規(guī)則化作用的有()。A、保證模型盡可能的簡單,避免過擬合B、約束模型特征C、最小化問題D、最大化問題【正確答案】:AB28.HighBias(高偏差)的解決方式有()。A、BoostingB、復(fù)雜模型(非線性模型、增加神經(jīng)網(wǎng)絡(luò)中的層)C、更多特征D、以上選項都不正確【正確答案】:ABC解析:
偏差刻畫了學(xué)習(xí)算法本身的擬合能力,高偏差意味著欠擬合,可通過Boosting、復(fù)雜模型(非線性模型、增加神經(jīng)網(wǎng)絡(luò)中的層)、更多特征等方式解決。29.決策樹的劃分選擇有()。A、增益系數(shù)B、信息增益C、增益率D、基尼系數(shù)【正確答案】:BCD30.下列不屬于聚類性能度量內(nèi)部指標(biāo)的有()。A、DB指數(shù)B、Dunn指數(shù)C、Jaccard系數(shù)D、FM系數(shù)【正確答案】:CD解析:
聚類常用的外部指標(biāo)包括Jaccard系數(shù)、FM系數(shù)、Rand指數(shù);聚類常用的內(nèi)部指標(biāo)包括DB指數(shù)、Dunn指數(shù)。31.假設(shè)目標(biāo)遍歷的類別非常不平衡,即主要類別占據(jù)了訓(xùn)練數(shù)據(jù)的99%,假設(shè)現(xiàn)在模型在訓(xùn)練集上表現(xiàn)為99%的準(zhǔn)確度,那么下列說法正確的有()。A、準(zhǔn)確度并不適合衡量不平衡類別問題B、準(zhǔn)確度適合衡量不平衡類別問題C、精確度和召回率適合于衡量不平衡類別問題D、精確度和召回率不適合衡量不平衡類別問題【正確答案】:AC解析:
精確度和召回率適合于衡量不平衡類別問題,準(zhǔn)確度并不適合衡量不平衡類別問題。32.影響聚類算法效果的主要原因有()。A、特征選取B、模式相似性測度C、分類準(zhǔn)則D、已知類別的樣本質(zhì)量【正確答案】:ABC解析:
聚類算法是無監(jiān)督的學(xué)習(xí)算法,訓(xùn)練樣本的標(biāo)記信息是未知的。33.常用的代價函數(shù)有()。A、均方誤差B、均方根誤差C、平均絕對誤差D、交叉熵【正確答案】:ABCD34.數(shù)據(jù)挖掘的主要功能包括概念描述、趨勢分析、孤立點分析、()等方面。A、關(guān)聯(lián)分析B、分類和預(yù)測分析C、聚類分析D、偏差分析【正確答案】:ABCD35.一個回歸模型存在多重共線問題,在不損失過多信息的情況下,可采取的措施有()。A、剔除所有的共線性變量B、別除共線性變量中的一個C、通過計算方差膨脹因子(varianceinflationfactor,VIF)來檢查共線性程度,并采取相應(yīng)措施D、刪除相關(guān)變量可能會有信息損失,我們可以不刪除相關(guān)變量,而使用一些正則化方法來解決多重共線性問題,例如Ridge或Lasso回歸【正確答案】:BCD解析:
為了檢查多重共線性,我們可以創(chuàng)建相關(guān)系數(shù)矩陣來辨別和移除相關(guān)系數(shù)大于75%的變量(閾值根據(jù)情況設(shè)定)。除此之外,可以使用VIF方法來檢查當(dāng)前存在的共線變量。VIF≤4表明沒有多種共線,VIF≥10表明有著嚴(yán)重的多重共線性,也可以使用公差(tolcrance)作為評估指標(biāo)。但是,移除相關(guān)變量可能導(dǎo)致信息的丟失,為了保留這些變量,可以使用帶懲罰的回歸方法??梢栽谙嚓P(guān)變量之間隨機(jī)加入噪聲,使得變量之間存在差異,但增加噪聲可能影響準(zhǔn)確度,因此這種方法應(yīng)該小心使用。36.下列關(guān)于Ridge回歸的說法正確的有()。A、若λ=0,則等價于一般的線性回歸B、若λ=0,則不等價于一般的線性回歸C、o+=YD、若,則得到的權(quán)重系數(shù)很小,接近于零E、8+ルF、若,則得到的權(quán)重系數(shù)很大,接近與無窮大【正確答案】:AC解析:
λ=+0Ridge回歸中,若λ=0,則等價于一般的線性回歸;若,則得到的權(quán)重系數(shù)很小,接近于零。37.聚類性能度量外部指標(biāo)包括()。A、Jaccard系數(shù)B、FM指數(shù)C、Dunn指數(shù)D、Rand指數(shù)【正確答案】:ABD解析:
常用的聚類性能度量外部指標(biāo)包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù)。38.下列說法正確的有()。A、條件獨立性假設(shè)不成立時,樸素貝葉斯分類器仍有可能產(chǎn)生最優(yōu)貝葉斯分類器B、在估計概率值時使用的拉普拉斯修正避免了因訓(xùn)練集樣本不充分而導(dǎo)致概率估值為零的問題C、由于馬爾可夫鏈通常很快就能趨于平穩(wěn)分布,因此吉布斯采樣算法的收斂速度很快D、二分類任務(wù)中兩類數(shù)據(jù)滿足高斯分布且方差相同時,線性判別分析產(chǎn)生貝葉斯最優(yōu)分類器【正確答案】:ABD解析:
由于馬爾可夫鏈通常需要很長時間才能趨于平穩(wěn)分布,因此吉布斯采樣算法的收斂速度較慢。39.數(shù)據(jù)再利用的意義有()。A、挖掘數(shù)據(jù)的潛在價值B、提高社會效益,優(yōu)化社會管理C、實現(xiàn)數(shù)據(jù)重組的創(chuàng)新價值D、優(yōu)化存儲設(shè)備,降低設(shè)備成本【正確答案】:ACD解析:
數(shù)據(jù)的再利用可以挖掘數(shù)據(jù)的潛在價值、實現(xiàn)數(shù)據(jù)組重組的創(chuàng)新價值,并且可以利用數(shù)據(jù)的可拓展性拓展業(yè)務(wù)領(lǐng)域40.下列關(guān)于密度聚類的說法錯誤的有()。A、DBSCAN是一種著名的密度聚類算法B、密度聚類從樣本數(shù)量的角度來考察樣本之間的可連接性C、密度聚類基于不可連接樣本不斷擴(kuò)展聚類簇,以獲得最終的聚類結(jié)果D、密度直達(dá)關(guān)系通常滿足對稱性【正確答案】:BCD解析:
密度聚類從樣本密度的角度來考察樣本之間的可連接性;密度聚類基于可連接樣本不斷擴(kuò)展聚類簇,以獲得最終的聚類結(jié)果;密度直達(dá)關(guān)系通常不滿足對稱性;密度可達(dá)關(guān)系滿足直遞性,但不滿足對稱性;密度相連關(guān)系滿足對稱性。41.下列關(guān)于AUC面積的描述正確的有()。AUC被定義為ROC曲線下與坐標(biāo)軸圍成的面積B、AUC面積的值大于1C、AUC面積的值等于0.5時,真實性最低,無應(yīng)用價值D、AUC面積的值越接近1.0,檢測方法真實性越高【正確答案】:ACD解析:
AUC面積的值不大于1。42.下列方法中適合減少數(shù)據(jù)集中的特征數(shù)即降維的有()。A、使用前向特征選擇方法B、使用后向特征排除方法C、我們先把所有特征都使用,去訓(xùn)練一個模型,得到測試集上的表現(xiàn)。然后我們?nèi)サ粢粋€特征,再去訓(xùn)練,用交叉驗證看看測試集上的表現(xiàn)。如果表現(xiàn)比原來還要好,我們可以去除這個特征D、查看相關(guān)性表,去除相關(guān)性最高的一些特征【正確答案】:ABCD解析:
前向特征選擇方法和后向特征排除方法是特征選擇的常用方法。如果前向特征選擇方法和后向特征排除方法在大數(shù)據(jù)上不適用,可以用選項C的方法。用相關(guān)性的度量去刪除多余特征也是一個可行的方法。43.下列關(guān)于EM算法的描述正確的有()。A、EM算法是常用的估計參數(shù)隱變量的利器B、EM算法即是期望最大化算法C、EM算法常被用來學(xué)習(xí)高斯混合模型的參數(shù)D、EM算法是一種迭代式的方法【正確答案】:ABCD44.常見的原型聚類算法包括()。A、K均值算法B、學(xué)習(xí)向量量化C、高斯混合聚類D、密度聚類【正確答案】:ABC45.常見的聚類性能度量外部指標(biāo)有()。A、Jaccard系數(shù)B、DB指數(shù)C、FM指數(shù)D、以上答案都正確【正確答案】:AC解析:
聚類常用的外部指標(biāo)包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù)。46.下列關(guān)于特征數(shù)據(jù)歸一化的說法正確的有()。A、特征數(shù)據(jù)歸一化加速梯度下降優(yōu)化的速度B、特征數(shù)據(jù)歸一化有可能提高模型的精度C、線性歸一化適用于特征數(shù)值分化比較大的情況D、概率模型不需要做歸一化處理【正確答案】:ABD解析:
歸一化方法比較適用于數(shù)值比較集中的情況,這種方法的缺陷是如果max和min不穩(wěn)定,很容易使得歸一化結(jié)果不穩(wěn)定,使得后續(xù)使用效果也不穩(wěn)定。實際使用中可以用經(jīng)驗常量值來替代max和min。非線性歸一化經(jīng)常用在數(shù)據(jù)分化比較大的場景,有些數(shù)值很大,有些很小。47.鑒別多元共線特征后,下一步可能的操作有()。A、移除兩個共線變量B、不移除兩個變量,而是移除一個C、移除相關(guān)變量可能會導(dǎo)致信息損失,可以使用懲罰線性回歸模型(如ridge或lassoregression)【正確答案】:BC解析:
移除兩個變量會損失一切信息,所以只能移除一個特征,或者也可以使用正則化算法。48.常用的沖突消解策略包括()。A、投票法B、排序法C、元規(guī)則法D、調(diào)研法【正確答案】:ABC49.下列屬于數(shù)據(jù)挖掘與分析工具的有()。A、TableauB、PythonC、SPSSD、Alteyx【正確答案】:ABCD解析:
常用的數(shù)據(jù)挖掘工具有RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的數(shù)據(jù)分析工具有Tableau、Alteyx、R&Python語言、FineReport、PowerBI。三、(共33題)50.下列關(guān)于學(xué)習(xí)器結(jié)合的描述正確的有()。A、避免單學(xué)習(xí)器可能因誤選而導(dǎo)致泛化性能不佳B、降低陷入局部極小點的風(fēng)險C、假設(shè)空間擴(kuò)大有可能學(xué)得更好的近似D、多學(xué)習(xí)器結(jié)合有可能沖突【正確答案】:ABC解析:
學(xué)習(xí)器結(jié)合可能會從三個方面帶來好處。從統(tǒng)計方面來看,由于學(xué)習(xí)任務(wù)的假設(shè)空間往往很大,可能有多個假設(shè)在訓(xùn)練集上達(dá)到同等性能,此時若使用單學(xué)習(xí)器可能因誤選而導(dǎo)致泛化性能不佳,結(jié)合多個學(xué)習(xí)器則會減小這一風(fēng)險;從計算方面來看,學(xué)習(xí)算法往往會陷入局部極小,有的局部極小點所對應(yīng)的泛化性能可能很糟糕。而通過多次運行之后進(jìn)行結(jié)合,可降低陷入糟糕局部極小點的風(fēng)險;從表示方面來看,某些學(xué)習(xí)任務(wù)的真實假設(shè)可能不在當(dāng)前學(xué)習(xí)算法所考慮的假設(shè)空間中,此時若使用單學(xué)習(xí)器則肯定無效,而通過結(jié)合多個學(xué)習(xí)器,由于相應(yīng)的假設(shè)空間有所擴(kuò)大,有可能學(xué)得更好的近似。51.隨機(jī)森林的隨機(jī)性主要體現(xiàn)在()。A、決策樹選擇的隨機(jī)性B、數(shù)據(jù)集的隨機(jī)性C、待選特征的隨機(jī)性D、參數(shù)選擇的隨機(jī)性【正確答案】:BC解析:
隨機(jī)森林算法的隨機(jī)性主要體現(xiàn)在兩個方面,即子模型的訓(xùn)練樣本是隨機(jī)抽取的、子模型的特征變量也是隨機(jī)抽取的。52.下列可以用來評估線性回歸模型的指標(biāo)有()。A、R-SquaredB、AdjustedR-SquaredC、FStatisticsD、RMSE/MSE/MAE【正確答案】:ABCD解析:
R-Squared、AdjustedR-Squared、FStatistics和RMSE/MSE/MAE指標(biāo)均可以評估線性回歸模型。53.下列關(guān)于PCA的說法正確的有()。A、在使用PCA之前,我們必須標(biāo)準(zhǔn)化數(shù)據(jù)B、應(yīng)該選擇具有最大方差的主成分C、應(yīng)該選擇具有最小方差的主成分D、可以使用PCA在低維空間中可視化數(shù)據(jù)【正確答案】:ABD解析:
PCA對數(shù)據(jù)中變量的尺度非常敏感,因此需要對各個變量進(jìn)行標(biāo)準(zhǔn)化。方差越大,說明在該特征上分布越廣泛,說明該特征越有用,影響越大。PCA有時在較低維度上繪制數(shù)據(jù)是非常有用的,可以提取前2個主要組成部分,在二維平面上使用散點圖可視化數(shù)據(jù)。54.做一個二分類預(yù)測問題,先設(shè)定閾值為0.5,概率不小于0.5的樣本歸入正例類(即1),小于0.5的樣本歸入反例類(即0)。然后,用閾值n((n>0.5.5)重新劃分樣本到正例類和反例類。下列說法正確的有()。A、增加閾值不會提高召回率B、增加閾值會提高召回率C、增加閾值不會降低查準(zhǔn)率D、增加閾值會降低查準(zhǔn)率【正確答案】:AC解析:
召回率=TP/TP+FN,查準(zhǔn)率=TP/TP+FP。當(dāng)概率固值增加時,TP、FP減少或者持平,TP+FN不變,所以召回率不會增加。55.機(jī)器學(xué)習(xí)的三個關(guān)鍵組成要素包含()。A、任務(wù)TB、性能指標(biāo)PC、目標(biāo)函數(shù)VD、經(jīng)驗來源E【正確答案】:ABD56.如果希望減少數(shù)據(jù)集中的特征數(shù)量,則可以采取的措施有()。A、使用正向選擇法(ForwardSelection)B、使用反向消除法(BackwardElimination)C、逐步選擇消除法(Stepwise)D、計算不同特征之間的相關(guān)系數(shù),刪去相關(guān)系數(shù)高的特征之一【正確答案】:ABCD解析:
正向選擇法(ForwardSelection)是首先選擇一個特征,每個特征都試一遍,選擇對模型準(zhǔn)確率提升最高的那個特征;然后再在這個特征基礎(chǔ)上添加另外一個特征,方法類似,直到模型準(zhǔn)確率不再提示為止。反向消除法(BackwardElimination)是首先包含了所有的特征,然后嘗試刪除每個特征,最終刪掉對模型準(zhǔn)確率提升最高的一個特征(如果刪除這個特征模型準(zhǔn)確率反而增加了,則說明這個特征是無用特征)。以此類推,直到刪除特征并不能提升模型為止。相對于正向選擇法,反向消除法的優(yōu)點在于其允許-些低貢獻(xiàn)值的特征能夠進(jìn)到模型中去(有時候低貢獻(xiàn)值的特征能在組合中有更大的貢獻(xiàn)值,而正向選擇法忽略了這種組合的可能性),因此反向消除法能夠避免受一兩個占主導(dǎo)地位的特征的干擾。另外還有一種特征選擇方法是逐步選擇消除法(Stepwise),該方法結(jié)合上述兩者的方法,新加入一個特征之后,再嘗試刪去一個特征,直至達(dá)到某個預(yù)設(shè)的標(biāo)準(zhǔn)。這種方法的缺點是預(yù)設(shè)的標(biāo)準(zhǔn)不好定,而且容易陷入到過擬合當(dāng)中。除此之外,也可以使用基于相關(guān)性的特征選擇,可以去除多重線性特征。57.隨機(jī)森林在做數(shù)據(jù)處理方面的優(yōu)勢有()。A、不需要做缺失值處理B、不需要處理噪聲C、不需要做特征選擇D、不需要平衡數(shù)據(jù)集【正確答案】:ACD解析:
理論上隨機(jī)森林不會產(chǎn)生過擬合現(xiàn)象,但噪聲是不能忽略的,增加樹雖然能夠減小過擬合,但樹的數(shù)目不可能無限增加,沒有辦法完全消除過擬合。58.可作為決策樹選擇劃分屬性的參數(shù)有()。A、信息增益B、信息增益率C、基尼指數(shù)D、密度函數(shù)【正確答案】:ABC解析:
特征選擇的準(zhǔn)則主要有信息增益、信息增益率、基尼指數(shù)三種。59.按照涉及自變量的多少,可以將回歸分析分為()。A、線性回歸分析B、非線性回歸分析C、一元回歸分析D、多元回歸分析【正確答案】:CD解析:
按照涉及自變量的多少,可以將回歸分析分為一元回歸分析和多元回歸分析。60.預(yù)剪枝使得決策樹的很多分子都沒有展開,則會導(dǎo)致的結(jié)果有()。A、顯著減少訓(xùn)練時間開銷B、顯著減少測試時間開銷C、降低過擬合風(fēng)險D、提高欠擬合風(fēng)險【正確答案】:ABCD解析:
預(yù)剪枝使得決策樹的很多分支都沒有展開,這不僅降低了過擬合的風(fēng)險,還顯著減少了決策樹的訓(xùn)練時間開銷和測試時間開銷。但另一方面,有些分支的當(dāng)前劃分雖不能提升泛化性能,甚至可能導(dǎo)致泛化性能暫時下降,但在其基礎(chǔ)上進(jìn)行的后續(xù)劃分卻有可能導(dǎo)致性能顯著提高;預(yù)剪枝基于貪心原則,禁止這些分支展開,提高了欠擬合的風(fēng)險。61.下列關(guān)于特征的稀疏性的說法正確的有()。A、稀疏性指的是矩陣中有許多列與當(dāng)前學(xué)習(xí)任務(wù)無關(guān)B、稀疏樣本可減少學(xué)習(xí)任務(wù)的計算開銷C、學(xué)習(xí)任務(wù)難度可能有所降低D、稀疏矩陣沒有高效的存儲方法【正確答案】:ABC解析:
在一個矩陣中,若非零元素的個數(shù)遠(yuǎn)遠(yuǎn)小于零元素的個數(shù),且非零元素的分布沒有規(guī)律,則稱之為稀疏矩陣。為了節(jié)省存儲空間并且加快并行程序處理速度,可對稀疏矩陣進(jìn)行壓縮存儲。62.決策樹在()情況下會導(dǎo)致遞歸返回。A、當(dāng)前節(jié)點包含的樣本全屬于同一類B、當(dāng)前屬性集為空C、當(dāng)前節(jié)點包含的樣本集合為空D、所有樣本在所有屬性上取值相同【正確答案】:ABCD解析:
決策樹的生成是一個遞歸過程。在決策樹基本算法中,有三種情形會導(dǎo)致遞歸返回:①當(dāng)前節(jié)點包含的樣本全屬于同一類別,無須劃分;②當(dāng)前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;③當(dāng)前節(jié)點包含的樣本集合為空,不能劃分。63.對于主成分分析方法,確定降維后低維空間的維數(shù)d的方法有()。A、由用戶事先指定B、通過在d不同的低維空間中對開銷較小的學(xué)習(xí)器進(jìn)行交叉驗證來選取C、可從重構(gòu)的角度設(shè)置一個重構(gòu)閾值,選取使得特定公式成立的最小值D、隨機(jī)設(shè)置【正確答案】:ABC解析:
降維后低維空間的維數(shù)通常是由用戶事先指定,或通過在d不同的低維空間中對k近鄰分類器(或其他開銷較小的學(xué)習(xí)器)進(jìn)行交叉驗證來選取較好的d。還可從重構(gòu)的角度設(shè)置一個重構(gòu)閾值,選取使得特定公式成立的最小值。64.下列屬于數(shù)據(jù)挖掘方法的有()。A、聚類B、回歸分析C、神經(jīng)網(wǎng)絡(luò)D、決策樹算法【正確答案】:ABCD解析:
利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)則、特征、變化和偏差分析、Web頁挖掘等。分類方法有決策樹算法、KNN算法(k-nearestneighbor)、SVM算法、VSM算*Bayes算法、神經(jīng)網(wǎng)絡(luò)等。聚類算法有基于密度、基于層次、基于模型、基于網(wǎng)格等。關(guān)聯(lián)規(guī)則算法有Apriori算法、FP-Growth算法。65.下列關(guān)于神經(jīng)網(wǎng)絡(luò)的說法正確的有()。A、增加網(wǎng)絡(luò)層數(shù),可能會增加測試集分類錯誤率B、增加網(wǎng)絡(luò)層數(shù),一定會增加訓(xùn)練集分類錯誤率C、減少網(wǎng)絡(luò)層數(shù),可能會減少測試集分類錯誤率D、減少網(wǎng)絡(luò)層數(shù),一定會減少訓(xùn)練集分類錯誤率【正確答案】:AC解析:
增加網(wǎng)絡(luò)層數(shù)可能造成訓(xùn)練誤差和測試誤差減小,但神經(jīng)網(wǎng)絡(luò)層數(shù)過多容易造成過擬合、訓(xùn)練誤差小,但是測試誤差很大。66.影響Apriori算法的計算復(fù)雜度的有()。A、支持度閾值B、項數(shù)(維度)C、事務(wù)數(shù)D、事務(wù)平均寬度【正確答案】:ABCD67.下列關(guān)于范數(shù)規(guī)則化的描述正確的有()。A、LO是指向量中0的元素的個數(shù)B、L1范數(shù)是指向量中各個元素絕對值之和C、L2范數(shù)向量元素絕對值的平方和再開平方D、LO是指向量中非0的元素的個數(shù)【正確答案】:BCD解析:
LO是指向量中非0的元素的個數(shù),Ll范數(shù)是指向量中各個元素絕對值之和,L2范數(shù)向量元素絕對值的平方和再開平方。68.線性模型的基本形式有()。A、線性回歸B、對數(shù)幾率回歸(二分類問題)C、線性判別分析(Fisher判別分析)D、多分類學(xué)習(xí)【正確答案】:ABCD69.下列關(guān)于非頻繁模式的說法正確的有()。A、其支持度小于閾值B、都是不讓人感興趣的C、包含負(fù)模式和負(fù)相關(guān)模式D、對異常數(shù)據(jù)項敏感【正確答案】:AD解析:
非頻繁模式是一個項集或規(guī)則,其支持度小于閾值。絕大部分的頻繁模式不是令人感興趣的,但其中有些分析是有用的,特別是涉及數(shù)據(jù)中的負(fù)相關(guān)時。非頻繁模式對異常數(shù)據(jù)項敏感。70.下列關(guān)于相關(guān)與線性關(guān)系的說法正確的有()。A、相關(guān)不一定是線性關(guān)系,可能是非線性關(guān)系B、相關(guān)一定是線性關(guān)系,不可能是非線性關(guān)系C、相關(guān)時若有相關(guān)系數(shù)為0,說明兩個變量之間不存在線性關(guān)系,仍可能存在非線性關(guān)系D、相關(guān)系數(shù)為0是兩個變量獨立的必要不充分條件【正確答案】:ACD解析:
相關(guān)不一定是線性關(guān)系,可能是非線性關(guān)系。71.下列屬于機(jī)器學(xué)習(xí)生成式模型的有()。A、樸素貝葉斯B、隱馬爾科夫模型C、線性回歸模型D、深度信念網(wǎng)絡(luò)【正確答案】:ABD解析:
機(jī)器學(xué)習(xí)生成式模型包括樸素貝葉斯、隱馬爾科夫模型和深度信念網(wǎng)絡(luò)等。線性回歸屬于判別式模型。72.特征向量的歸一化方法有()。A、線性函數(shù)轉(zhuǎn)換B、對數(shù)函數(shù)轉(zhuǎn)換C、反余切函數(shù)轉(zhuǎn)換D、減去均值,除以方差【正確答案】:ABCD73.常見的核函數(shù)包括()。A、多項式核B、高斯核C、線性核D、拉普拉斯核【正確答案】:ABCD74.下列關(guān)于L1和L2范數(shù)的描述正確的有()。)A、L1范數(shù)為x向量各個元素絕對值之和B、L2范數(shù)為x向量各個元素平方和的1/2次方,L2范數(shù)又稱Euclidean范數(shù)或Frobenius范數(shù)C、L1范數(shù)可以使權(quán)值稀疏,方便特征提取D、L2范數(shù)可以防止過擬合,提升模型的泛化能力【正確答案】:ABCD解析:
LO是指向量中非0的元素的個數(shù),L1范數(shù)是指向量中各個元素絕對值之和,L2范數(shù)向量元素絕對值的平方和再開平方。L1范數(shù)可以使權(quán)值稀疏,方便特征提取。L2范數(shù)可以防止過擬合,提升模型的泛化能力。75.K均值聚類算法和層次聚類算法在一些方面有重大差異,下列關(guān)于兩種算法的說法正確的有()。A、在K均值聚類算法中,必須在運行算法前選定想要的簇的個數(shù)B、在K均值聚類算法中,可以在運行算法后選定想要的簇的個數(shù)C、在層次聚類算法中,可以在運行算法后選定想要的簇的個數(shù)D、K均值聚類算法所需的計算量比層次聚類算法小得多【正確答案】:ACD解析:
在K均值聚類算法中,需要在運行算法前確定想要的簇的個數(shù)k。76.下列關(guān)于降維方法的敘述正確的有()。A、主成分分析是一種常用的非線性降維方法B、核化線性降維是一種常用的線性降維方法C、流形學(xué)習(xí)是一種借鑒拓?fù)淞餍胃拍畹慕稻S方法D、度量學(xué)習(xí)繞過降維的過程,將學(xué)習(xí)目標(biāo)轉(zhuǎn)化為對距離度量計算的權(quán)重矩陣的學(xué)習(xí)【正確答案】:CD解析:
本質(zhì)上講,主成分分析是一種線性降維方法,在處理非線性問題時,效果不太理想。核化線性降維是一種非線性降維方法。77.決策樹遞歸返回的條件有()。A、訓(xùn)練數(shù)據(jù)集使用完B、所有的類標(biāo)簽完全相同C、特征用完D、遇到丟失值【正確答案】:BC解析:
決策樹的生成是一個遞歸過程。在決策樹基本算法中,有三種情形會導(dǎo)致遞歸返回:①節(jié)點包含的樣本全屬于同一類別,無須劃分;②當(dāng)前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;③當(dāng)前節(jié)點包含的樣本集合為空,不能劃分。1.LogisticRegression和SupportVectprMachine都可以處理分類問題,且一般都用于處理線性二分類問題。()A、正確B、錯誤【正確答案】:A2.基于鄰近度的離群點檢測方法不能處理具有不同密度區(qū)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 金融行業(yè)項目部后勤支持措施
- 2024-2025日常安全培訓(xùn)考試試題完整版
- 企業(yè)員工健康監(jiān)測流程
- 2024-2025新入職工安全培訓(xùn)考試試題及答案下載
- 科技公司人事部門崗位職責(zé)解析
- 房地產(chǎn)開發(fā)合規(guī)性的整改措施
- 八年級語文教學(xué)計劃與跨學(xué)科合作
- 小學(xué)數(shù)學(xué)課時安排與進(jìn)度表計劃
- 汽車制造業(yè)質(zhì)量保證體系措施
- 人教版七年級下冊英語作文技巧解析
- GB/T 45255-2025公共信用綜合評價規(guī)范
- 湖北省武漢市青山區(qū)2023-2024學(xué)年八年級下學(xué)期物理期中試題(含答案)
- 老舊城市燃?xì)夤艿栏赂脑旃こ淘O(shè)計方案
- 能源專業(yè)考試試題及答案
- 主題班會課件-《花開應(yīng)有時》預(yù)防早戀男女交往
- 安徽省天一大聯(lián)考2025屆高三3月調(diào)研考試語文含答案
- 中醫(yī)經(jīng)典臨證思維與實踐知到課后答案智慧樹章節(jié)測試答案2025年春浙江中醫(yī)藥大學(xué)
- 2025山西地質(zhì)集團(tuán)招聘37人筆試參考題庫附帶答案詳解
- 2025年湖北省武漢市12333服務(wù)熱線招聘20人歷年高頻重點模擬試卷提升(共500題附帶答案詳解)
- 云南省2024年7月高中學(xué)業(yè)水平合格性考試生物試卷(解析版)
- 2025年江蘇信息職業(yè)技術(shù)學(xué)院單招職業(yè)傾向性測試題庫參考答案
評論
0/150
提交評論