大數(shù)據(jù)題庫-機器學習練習測試卷

上傳人：喝*** IP屬地：廣西上傳時間：2023-12-27 格式：DOC 頁數(shù)：51 大小：81.16KB 積分：20 舉報 版權申訴

已閱讀5頁，還剩46頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

第頁大數(shù)據(jù)題庫-機器學習練習測試卷1.機器學習算法在學習過程中對某種類型假設的偏好稱為（）。A、訓練偏好B、歸納偏好C、分析偏好D、假設偏好【正確答案】：B2.如果兩個變量相關，則它們之間的關系是（）。A、一定是線性關系B、不一定是線性關系C、一定是非線性關系D、不一定是非線性關系【正確答案】：B解析：

相關不一定是線性關系，也有可能是非線性相關。3.下列關于K均值與DBSCAN比較的說法不正確的是（）。A、K均值丟棄被它識別為噪聲的對象，而DBSCAN一般聚類所有對象B、K均值使用簇的基于原型的概念，而DBSCAN使用基于密度的概念C、K均值很難處理非球形的簇和不同大小的簇，DBSCAN可以處理不同大小和不同形狀的簇D、K均值可以發(fā)現(xiàn)不是明顯分離的簇，即便簇有重疊也可以發(fā)現(xiàn)，但是DBSCAN會合并有重疊的簇【正確答案】：A解析：

DBSCAN與K均值都是將每個對象指派到單個簇的劃分聚類算法，但K均值一般聚類所有對象，而DBSCAN丟棄被它識別為噪聲的對象。4.（）是二維隨機變量的分布。A、正態(tài)分布B、二項分布C、邊緣分布D、指數(shù)分布【正確答案】：C解析：

二維隨機變量的分布有邊緣分布和條件分布。5.機器學習中，基于樣本分布的距離是（）。A、馬氏距離B、歐式距離C、曼哈頓距離D、閔可夫斯基距離【正確答案】：A解析：

馬氏距離是基于樣本分布的一種距離。6.緩解過擬合的一個辦法是允許支持向量機在一些樣本上出錯，（）形式適合這種方法。A、硬間隔支持向量機B、軟間隔支持向量機C、線性核函數(shù)支持向量機D、多項式核函數(shù)支持向量機【正確答案】：B解析：

軟間隔允許某些樣本不滿足約束，可緩解過擬合。7.（）算法可以用于特征選擇。A、樸素貝葉斯B、感知器C、支持向量機D、決策樹【正確答案】：D解析：

使用決策樹也可以計算每個特征的相對重要性。這些重要性能夠輔助進行特征選擇。8.對參數(shù)進行L2正則，是機器學習常用的防止過擬合的方法。對參數(shù)做L2正則時，（）是對參數(shù)本身做先驗分布假設。A、高斯分布B、拉普拉斯分布C、泊松分布D、均勻分布【正確答案】：A解析：

L2正則假設參數(shù)的先驗分布是高斯分布，可以保證模型的穩(wěn)定性，也就是參數(shù)的值不會太大或太小。9.某單位運用隨機森林算法思想建立搶修熱點模型，該模型主要預測下期臺區(qū)工單數(shù)量，構建搶修熱點。模型構建步驟如下：①將歷史數(shù)據(jù)進行隨機自助法重抽樣，生成N個訓練樣本集；②將N個訓練樣本集分別做決策樹，生成N棵決策樹；③將N棵決策樹隨機構成隨機森林；④未來根據(jù)預測樣本氣候環(huán)境、設備屬性、設備工況進行隨機森林決策投票，得出針對該預測樣本最優(yōu)的決策樹進行運算，并計算出最終結果。則上列模型算法構建步驟合理的順序是（)。A、①②③④B、①③②④C、④①②③D、④②①③【正確答案】：A10.（）是交叉驗證法的一種特例。A、自助法B、留一法C、交叉驗證法D、錯誤率分析【正確答案】：B11.核矩陣是（）的。A、沒有規(guī)律B、半正定C、正定D、樣本矩陣【正確答案】：B解析：

只要一個對稱函數(shù)所對應的核矩陣半正定，它就能作為核函數(shù)使用。12.假設有n組數(shù)據(jù)集，每組數(shù)據(jù)集中x的平均值都是9，x的方差都是11，y的平均值都是7.50，x與y的相關系數(shù)都是0.816，擬合的線性回歸方程都是

Y＝3.00＋0.500x。那么這n組數(shù)據(jù)集（）。A、一樣B、不一樣C、無法確定是否一樣D、以上都不對【正確答案】：C解析：

只比較平均值、方差、相關系數(shù)和回歸方程，無法確定數(shù)據(jù)集是否相同，還需比較Anscombe＇squartet。13.學習率對機器學習模型結果會產生影響，通常希望學習率（)。A、越小越好B、越大越好C、較小而迭代次數(shù)較多D、較大而迭代次數(shù)較小【正確答案】：C14.機器學習中L1正則化和L2正則化的區(qū)別是（）。A、使用L1可以得到稀疏的權值，使用L2可以得到平滑的權值B、使用Ll可以得到平滑的權值，使用L2可以得到平滑的權值C、使用Ll可以得到平滑的權值，使用L2可以得到稀疏的權值D、使用L1可以得到稀疏的權值，使用L2可以得到稀疏的權值【正確答案】：A解析：

使用L1可以得到稀疏的權值，使用L2可以得到平滑的權值。15.已知一組數(shù)據(jù)的協(xié)方差矩陣P，下列關于主分量的說法錯誤的是（）。A、主分量分析的最佳準則是對一組數(shù)據(jù)進行按一組正交基分解，在只取相同數(shù)量分量的條件下，以均方誤差計算截尾誤差最小B、經主分量分解后，協(xié)方差矩陣成為對角矩陣C、主分量分析就是K-L變換D、主分量是通過求協(xié)方差矩陣的特征值得到【正確答案】：C解析：

主分量分析的變換矩陣是協(xié)方差矩陣，K-L變換的變換矩陣可以有很多種（二階矩陣、協(xié)方差矩陣、總類內離散度矩陣等）。當K-L變換矩陣為協(xié)方差矩陣時，等同于PCA。16.如果自變量X和因變量Y之間存在高度的非線性和復雜關系，那么樹模型很可能優(yōu)于經典回歸方法。則以上說法（）。A、正確B、錯誤C、無法確定D、模型效果差別不大【正確答案】：A解析：

當數(shù)據(jù)非線性時，經典回歸模型泛化能力不強，而基于樹的模型通常表現(xiàn)更好。17.（）算法是分類算法。A、DBSCANB、C4.5C、K-meansD、EM【正確答案】：B解析：

C4.5是分類算法；DBSCAN、K-means、EM是聚類算法。18.聚類算法的性能度量可稱為（）。A、密度估計B、異常檢測C、有效性指標D、分布結構【正確答案】：C19.多分類學習中，最經典的三種拆分策略不包括（）。A、一對一B、一對其余C、一對多D、多對多【正確答案】：A解析：

多分類學習中，最經典的三種拆分策略包括一對多、多對多、一對其余。20.假設你需要調整參數(shù)來最小化代價函數(shù)（costfunction），會使用（）技術。A、窮舉搜索B、隨機搜索C、Bayesian優(yōu)化D、以上全是【正確答案】：D21.隨機森林中的隨機是指（）。A、隨便構建樹模B、隨機選擇一個樹模型C、隨機選擇多個樹模型D、在構建每個樹模型時隨機選擇樣本和特征【正確答案】：D解析：

隨機森林里的隨機包含的意思是樣本隨機、特征隨機、參數(shù)隨機、模型隨機(ID3,C4.5)。22.決策樹模型的規(guī)模應當是（）。A、越復雜越好B、越簡單越好C、適當限制其復雜程度D、盡可能利用所有特征【正確答案】：C解析：

決策樹模型的規(guī)模復雜可能產生過擬合，因此并非越復雜做好，應適當限制其復雜程度。23.下列描述中能反映出X和Y之間的強相關性的是（）。A、相關系數(shù)為0.9B、對于無效假設，β=0的為0.0001C、對于無效假設，β=0的t為30D、以上說法都不對【正確答案】：A解析：

相關系數(shù)反映了不同變量之間線性相關程度，取值范圍為［-1,1］，值越大表示相關程度越高。因此，A選項中r＝0.9，表示X和Y之間有較強的相關性。p和t的數(shù)值大小沒有統(tǒng)計意義，只是將其與某一個閾值進行比對，以得到二選一的結論。24.如果一個SVM模型出現(xiàn)欠擬合，那么（）能解決這一問題。A、增大懲罰參數(shù)CB、減小懲罰參數(shù)CC、減小核系數(shù)（gamma參數(shù)）D、增大核系數(shù)（gamma參數(shù)）【正確答案】：A解析：

SVM模型出現(xiàn)欠擬合，表明模型過于簡單，需要提高模型復雜度。C越大，相應的模型越復雜。25.通過聚集多個分類器的預測來提高分類準確率的技術稱為（）。A、組合B、聚集C、合并D、投票【正確答案】：A26.為了允許支持向量機在一些樣本上出錯，引入（）的概念。A、軟間隔B、硬間隔C、間隔D、誤差【正確答案】：A27.采樣分析的精確性隨著采樣隨機性的增加而（），但與樣本數(shù)量的增加關系不大。A、降低B、不變C、提高D、無關【正確答案】：C解析：

采樣分析的精確性隨著采樣隨機性的增加而提高，但與樣本數(shù)量的增加關系不大。當樣本數(shù)量達到某個值后，我們從新個體上得到的信息會越來越少。28.下列關于隨機森林和GBDT的說法正確的是（）。A、在隨機森林的單個樹中，樹和樹之間是有依賴的，而GBDT中的單個樹之間是沒有依賴的B、這兩個模型都使用隨機特征子集，來生成許多單個的樹C、我們可以并行地生成GBDT單個樹，因為它們之間是沒有依賴的D、GBDT訓練模型的表現(xiàn)總是比隨機森林好【正確答案】：B解析：

組成隨機森林的樹可以并行生成；而GBDT只能是串行生成。29.信息熵是度量（）的最常用的一種指標。A、樣本的個數(shù)B、樣本的維度C、樣本的純度D、樣本的冗余度【正確答案】：C30.一監(jiān)獄人臉識別準入系統(tǒng)用來識別待進入人員的身份，此系統(tǒng)能識別獄警、小偷、送餐員、其他人員4種不同人員。下列學習方法最適合此種應用需求的是（）。A、二分類問題B、層次聚類問題C、多分類問題D、回歸問題【正確答案】：C解析：

涉及4種人員類別屬于多分類問題。31.下列算法中不屬于外推法的是（）。A、移動平均法B、回歸分析法C、指數(shù)平滑法D、季節(jié)指數(shù)法【正確答案】：B解析：

外推法（Extrapolation）是根據(jù)過去和現(xiàn)在的發(fā)展趨勢推斷未來的一類方法的總稱，回歸分析法不屬于外推法。32.決策樹中的葉節(jié)點對應于決策樹結果，其他節(jié)點對應于（)。A、屬性測試B、學習測試C、學習測試D、分類測試【正確答案】：A解析：

決策樹包含一個根節(jié)點、若干內部節(jié)點和若千葉節(jié)點。葉節(jié)點對應于決策結果，其他每個節(jié)點則對應于一個屬性測試。33.機器學習中發(fā)生過擬合的主要原因不包括（）。A、使用過于復雜的模型B、數(shù)據(jù)噪聲較大C、訓練數(shù)據(jù)少D、訓練數(shù)據(jù)充足【正確答案】：D解析：

訓練數(shù)據(jù)充足可以降低過擬合。34.在支持向量機中，軟間隔支持向量機的目標函數(shù)比硬間隔支持向量機多了一個()。A、偏置項B、系數(shù)C、松弛變量D、兩種情況的目標函數(shù)相同【正確答案】：C35.（）先對數(shù)據(jù)集進行特征選擇，然后再訓練學習器。A、過濾式選擇B、包裹式選擇C、稀疏表示D、嵌入式選擇【正確答案】：A36.考慮這么一種情況：一個對象碰巧與另一個對象相對接近，但屬于不同的類，因為這兩個對象一般不會共享許多近鄰，所以應該選擇（）的相似度計算方法。A、平方歐幾里德距離B、余弦距離C、直接相似度D、共享最近鄰【正確答案】：D解析：

SNN相似度通過共享最近鄰的個數(shù)考慮了對象的環(huán)境，因此可以處理兩個對象相對接近卻不屬于同一類的情況。37.變量的不確定性越大，相對應信息熵的變化是（）。A、熵變小B、熵變大C、不變D、以上答案都不正確【正確答案】：B解析：

信息熵（informationentropy）是度量樣本集合純度最常用的一種指標，信息熵越大，變量的不確定性越大。38.（）的系數(shù)沒有封閉形式（closed-form）的解。A、Ridge回歸B、LassoC、Ridge回歸和LassoD、以上答案都不正確【正確答案】：B解析：

Ridge回歸是一般的線性回歸再加上L2正則項，它具有封閉形式的解，可以基于最小二乘法求解。39.絕對多數(shù)投票法的基本思想是（）。A、對于若干和弱學習器的輸出進行平均得到最終的預測輸出B、少數(shù)服從多數(shù)，數(shù)量最多的類別為最終的分類類別C、不光要求獲得最高票，還要求票過半數(shù)D、將訓練集弱學習器的學習結果作為輸入，將訓練集的輸出作為輸出，重新訓練一個學習器來得到最終結果【正確答案】：C解析：

絕對多數(shù)投票法：若某標記得票過半數(shù)，則預測為該標記；否則拒絕預測。40.可用信息增益來進行決策樹的（）。A、樹高B、葉子結點數(shù)C、總結點數(shù)D、劃分屬性選擇【正確答案】：D41.下列說法錯誤的是（）。A、當目標函數(shù)是凸函數(shù)時，梯度下降算法的解一般就是全局最優(yōu)解B、進行PCA降維時，需要計算協(xié)方差矩陣C、沿負梯度的方向一定是最優(yōu)的方向D、利用拉格朗日函數(shù)能解帶約束的優(yōu)化問題【正確答案】：C解析：

沿負梯度的方向是函數(shù)值減少最快的方向但不一定就是最優(yōu)方向。42.（）是以樣本統(tǒng)計量作為未知總體參數(shù)的估計量，并通過對樣本單位的實際觀察取得樣本數(shù)據(jù)，計算樣本統(tǒng)計量的取值作為被估計參數(shù)的估計值。A、參數(shù)估計B、邏輯分析C、方差分析D、回歸分析【正確答案】：A解析：

參數(shù)估計是統(tǒng)計推斷的一種，根據(jù)從總體中抽取的隨機樣本來估計總體分布中未知參數(shù)。43.用決策樹法訓練大量數(shù)據(jù)集時，（）最節(jié)約時間。A、增加樹的深度B、增加學習率C、減少數(shù)的深度D、減少樹的個數(shù)【正確答案】：C解析：

減少樹的深度，相當于加入了一個正則化項，可以降低模型復雜度。44.隨薦集成中個體分類器（相互獨立）數(shù)目T的增大，集成的錯誤率將呈（）下降，最終趨向于零。A、指數(shù)級B、對數(shù)級C、線性級D、平方級【正確答案】：A45.假如使用一個較復雜的回歸模型來擬合樣本數(shù)據(jù)，使用Ridge回歸，調試正則化參數(shù)入，來降低模型復雜度。在入較大時，下列關于偏差（bias）和方差（variance）關系的說法正確的是（）。A、偏差減小，方差減小B、偏差減小，方差增大C、偏差增大，方差減小D、偏差增大，方差增大【正確答案】：C解析：

入較小，偏差減小，方差增大，容易發(fā)生過擬合；入較大，偏差增大，方差減小，容易發(fā)生欠擬合。46.AUC是衡量（）模型優(yōu)劣的一種評價指標。A、回歸B、分類C、二分類D、聚類【正確答案】：C47.在k近鄰學習算法中，隨著k的增加，上界將逐漸降低，當k區(qū)域無窮大時，上界和下界碰到一起，k近鄰法就達到了（）。A、貝葉斯錯誤率B、漸進錯誤率C、最優(yōu)值D、上界【正確答案】：A48.下列關于Logistic回歸和SVM的描述不正確的是（）。A、Logistic回歸本質上是一種根據(jù)樣本對權值進行極大似然估計的方法，用先驗概率的乘積代替后驗概率B、Logistic回歸的輸出就是樣本屬于正類別的概率C、SVM的目標是找到使得訓練數(shù)據(jù)盡可能分開且分類間隔最大的超平面，屬于結構風險最小化D、SVM可以通過正則化系數(shù)控制模型的復雜度，避免過擬合【正確答案】：A解析：

Logistic回歸目標函數(shù)是最小化后驗概率，Logistic回歸可以用于預測事件發(fā)生概率的大小，SVM目標是結構風險最小化，SVM可以有效避免模型過擬合。49.任何一個核函數(shù)都隱式地定義了一個（）空間。A、希爾伯特空間B、再生希爾伯特空間C、再生核希爾伯特空間D、歐式空間【正確答案】：C50.使用似然函數(shù)的目的是（）。A、求解目標函數(shù)B、得到最優(yōu)數(shù)據(jù)樣本C、找到最適合數(shù)據(jù)的參數(shù)D、改變目標函數(shù)分布【正確答案】：C解析：

似然估計是一種確定模型參數(shù)值的方法。確定參數(shù)值的過程，是找到使模型產生真實觀察數(shù)據(jù)可能性最大的那一組參數(shù)。51.下列不適合使用機器學習方法解決的是（）。A、判斷電子郵件是否是垃圾郵件B、判斷給定的圖中是否有環(huán)C、判斷是否給指定用戶辦理信用卡D、對滴滴拼車乘客分簇【正確答案】：B解析：

判斷給定的圖中是否有環(huán)采用深度學習。52.主成分分析的優(yōu)化目標是一個（)。A、不含約束條件的二次規(guī)劃問題B、含有約束條件的二次規(guī)劃問題C、不含約束條件的線性規(guī)劃問題D、含有約束條件的線性規(guī)劃問題【正確答案】：B53.在多元線性回歸模型中，若某個解釋變量對其余解釋變量的判定系數(shù)接近于1，則表明模型中存在（）。A、異方差B、序列相關C、多重共線性D、高擬合優(yōu)度【正確答案】：C54.所有預測模型在廣義上都可稱為一個或一組（）。A、公式B、邏輯C、命題D、規(guī)則【正確答案】：D解析：

在集成學習中，對于數(shù)據(jù)型輸出，最常見的結合策略是平均法。對于分類任務來說，最常見的結合策略是投票法。當訓練數(shù)據(jù)很多時一種更為強大的結合策略是學習法。55.當合適的樣本容量很難確定時，可以使用的抽樣方法是（）。A、有放回的簡單隨機抽樣B、無放回的簡單隨機抽樣C、分層抽樣D、漸進抽樣【正確答案】：D56.如果線性回歸模型中的隨機誤差存在異方差性，那么參數(shù)的OLS估計量是（)。A、無偏的、有效的B、無偏的、非有效的C、有偏的、有效的D、有偏的、非有效的【正確答案】：B解析：

OLS即普通最小二乘法，由高斯-馬爾可夫定理可知，在給定經典線性回歸的假定下，最小二乘估計量是具有最小方差的線性無偏估計量。根據(jù)證明過程可知，隨機誤差中存在異方差性不會影響其無偏性，而有效性證明中涉及同方差性，即異方差性會影響參數(shù)OLS估計量的有效性，得到的參數(shù)估計量不是有效估計量。57.回歸方程判定系數(shù)的計算公式R2=SSR/SST=1-SSE/S1-SSE／SST，對判定系數(shù)描述錯誤的是（）。A、SSE指殘差平方和B、SSR指總離差平方和C、判定系數(shù)用來衡量回歸方程的擾合優(yōu)度D、判定系數(shù)R2等于相關系數(shù)的平方【正確答案】：B解析：

SSR指回歸平方和。58.（）不屬于聚類性能度量外部指標。A、Jaccard系數(shù)B、FM系數(shù)C、Rand指數(shù)DB指數(shù)【正確答案】：D解析：

聚類常用的外部指標包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù)；聚類常用的內部指標包括DB指數(shù)、Dunn指數(shù)。59.下列不屬于特征選擇的標準方法的是（）。A、嵌入B、過濾C、包裹D、抽樣【正確答案】：D解析：

特征選擇的三種方法分別是過濾式（flter）、包裹式（wrapper）和嵌入式(embedded)。60.基于Bagging的集成學習代表算法有（）。AdaboostB、GBDTC、XGBOOSTD、隨機森林【正確答案】：D解析：

基于Boosting的集成學習算法的集成學習代表算法包含Adaboost、GBDT、XGBOOST，隨機森林是基于Bagging。61.下列關于Apriori算法原理的敘述錯誤的是（）。Apriori算法通常使用先驗知識或者假設B、如果某個項集是頻繁的，那么它的所有子集也是頻繁的C、如果一個項集是非頻繁集，那么它的所有超集也是非頻繁的D、Apriori算法不可以用來發(fā)現(xiàn)頻繁集【正確答案】：D解析：

Apriori算法可以用來發(fā)現(xiàn)頻繁集。62.決策樹中的葉結點對應于（)。A、屬性B、樣本C、決策結果D、標簽值【正確答案】：C63.在其他條件不變的前提下，（）容易引起機器學習中的過擬合問題。A、增加訓練集量B、減少神經網(wǎng)絡隱藏層節(jié)點數(shù)C、刪除稀疏的特征D、SVM算法中使用高斯核／RBF核代替線性核【正確答案】：D解析：

神經網(wǎng)絡減少隱藏層節(jié)點，就是在減少參數(shù)，只會將訓練誤差變高，不會導致過擬合。D選項中SVM高斯核函數(shù)比線性核函數(shù)模型更復雜，容易過擬合。64.可用作數(shù)據(jù)挖掘分析中的關聯(lián)規(guī)則算法有（)。A、機器學習、對數(shù)回歸、關聯(lián)模式B、K均值法、SOM機器學習C、Apriori算法、FP-Tree算法D、RBF機器學習、K均值法、機器學習【正確答案】：C解析：

關聯(lián)規(guī)則包括Apriori、FP-Tree等算法。65.在邏輯回歸輸出與目標對比的情況下，下列評估指標不適用的是（)。AUC-ROCB、準確度C、LoglossD、均方誤差【正確答案】：D解析：

LogisticRegression是一個分類算法，所以它的輸出不能是實時值，所以均方誤差不能用于評估它。66.下列關于降維算法中主成分分析的說法錯誤的是（）。A、有監(jiān)督算法B、可以指定降維的維度C、基于方差來計算D、根據(jù)特征值大小來篩選特征【正確答案】：A解析：

主成分分析法屬于無監(jiān)督算法。67.在同歸模型中，（）在權衡欠擬合（under-fitting）和過擬合（over-fitting）中影響最大。A、多項式階數(shù)B、更新權重w時，使用的是矩陣求逆C、使用常數(shù)項D、使用梯度下降法【正確答案】：A解析：

選擇合適的多項式階數(shù)非常重要。如果階數(shù)過大，模型就會更加復雜，容易發(fā)生過擬合；如果階數(shù)較小，模型就會過于簡單，容易發(fā)生欠擬合。68.留出法直接將數(shù)據(jù)集劃分為（）個互斥的集合。A、一B、二C、三D、四【正確答案】：B解析：

留出法（hold-out）直接將數(shù)據(jù)集D劃分為兩個互斥的集合，其中一個集合作為訓練集，另一個作為測試集T。69.隨機森林是在（）上的一個擴展變體。A、BoostingB、AdasBoostC、RFD、Bagging【正確答案】：D70.假設使用原始的非線性可分版本的Soft-SVM目標函數(shù)作為最優(yōu)化對象，則可通過（）來保證得到的模型是線性可分離的。A、設C＝C=0B、設C＝1C、設C正無窮大D、設C負無窮大【正確答案】：C解析：

C為分類錯誤項的參數(shù)，即正則化中的懲罰因子，C越大，邊界越窄，盡可能把更多點正確分類，分類錯誤越少。C越小，邊界越寬，分類錯誤點的個數(shù)增加。因此，C正無窮大時，可以實現(xiàn)沒有分類錯誤的點，模型線性可分。71.有N個樣本，一半用于訓練，一半用于測試。若N增大，則訓練誤差和測試誤差之間的差距會（）。A、增大B、減小C、無法確定D、無明顯變化【正確答案】：B解析：

增加數(shù)據(jù)，能夠有效減小過擬合，減小訓練樣本誤差和測試樣本誤差之間的差距。72.Apriori算法的核心思想是（）。A、通過頻繁項集生成和情節(jié)的向下封閉檢測兩個階段來挖掘候選集B、通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集C、數(shù)據(jù)集中包含該項集的數(shù)據(jù)所占數(shù)據(jù)集的比例，度量一個集合在原始數(shù)據(jù)中出現(xiàn)的頻率D、若某條規(guī)則不滿足最小置信度要求，則該規(guī)則的所有子集也不滿足最小置信度要求【正確答案】：B解析：

Apriori算法是一種挖掘關聯(lián)規(guī)則的頻繁項集算法，其核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集。73.基于Boosting的集成學習代表算法不包含（）。AdaboostB、GBDTC、XGBOOSTD、隨機森林【正確答案】：D解析：

基于Boosting的集成學習代表算法包含Adaboost、GBDT、XGBOOST，隨機森林是基于Bagging的集成學習算法。74.AGNES是一種采用（）策略的層次聚類算法。A、自頂向下B、自底向上C、自左至右D、自右至左【正確答案】：B75.KNN近鄰算法在（）的情況下效果較好。A、樣本較多但典型性不好B、樣本較少但典型性好C、樣本呈團狀分布D、樣本呈鏈狀分布【正確答案】：B解析：

KNN算法主要依靠的是周圍的點，因此如果樣本過多，則難以區(qū)分，典型性好的容易區(qū)分。樣本都是呈團狀分布，KNN就發(fā)揮不出其求近鄰的優(yōu)勢了，整體樣本應該具有典型性好，樣本較少，比較適宜。76.若A與B是任意的兩個事件，且，則可稱事件A與B()。A、等價B、互不相容C、相互獨立D、相互對立【正確答案】：C解析：

P(A+B)=P(A)+P(B)P(A+B)=P(A)+P(B)-P(AB若A與B為互斥事件，則有概率加法公式）；若A與B不為互斥事件，則有公式）；若A與B為相互獨立事件，則有概率乘法公式FP(AB)=P(A)P(77.已知一個數(shù)據(jù)集，n為特征數(shù)，m為訓練樣本數(shù)，如果n較小，而且m大小中等（例如n為1～1000，而m為10～10000），則一般選擇（）。A、邏輯回歸模型B、不帶核的支持向量機C、高斯核的支持向量機D、多項式核的支持向量機【正確答案】：C解析：

高斯核函數(shù)需要選擇合適的參數(shù)o，適用于少量特征、大量樣本的情況，可以擬合出非常復雜的非線性決策邊界。78.通常來說，（）能夠用來預測連續(xù)因變量。A、線性回歸B、邏輯回歸C、線性回歸和邏輯回歸D、以上答案都不正確【正確答案】：A解析：

邏輯回歸被用來處理分類問題。79.Relief是為（）問題設計的。A、二分類B、多分類C、回歸D、降維【正確答案】：A80.下列關于PCA的說法中：①我們須在使用PCA前標準化數(shù)據(jù)；②我們應該選擇使得模型有最大variance的主成分；③我們應該選擇使得模型有最小variance的主成分；④我們可以使用PCA在低維度上做數(shù)據(jù)可視化。正確的是（)。A、①②④B、②④C、③④D、①③【正確答案】：A解析：

須在使用PCA前標準化數(shù)據(jù)，應選擇使得模型有最大variance的主成分，PCA在低維度上做數(shù)據(jù)可視化。81.（）特征選擇是直接把最終將要使用的學習器的性能作為特征子集的評價準則。A、嵌入式B、過濾式C、包裹式D、一體式【正確答案】：C解析：

包裹式特征選擇直接把最終將要使用的學習器的性能作為特征子集的評價準則。82.下列可分解為偏差、方差與噪聲之和的是（）。A、訓練誤差（trainingerror）B、經驗誤差（empiricalerror）C、均方誤差（meansquarederror）D、泛化誤差（generalizationerror）【正確答案】：D解析：

泛化誤差可分解為偏差、方差與噪聲之和。83.K-means＋＋算法選擇初始sceds的基本思想就是初始的聚類中心之間的相互距離要盡可能的遠。對以下步驟：①從輸入的數(shù)據(jù)點集合中隨機選擇一個點作為第一個聚類中心；②對于數(shù)據(jù)集中的每一個點x，計算它與最近聚類中心（指已選擇的聚類中心）的距離D（x）；③選擇一個新的數(shù)據(jù)點作為新的聚類中心，選擇的原則是D（x）較大的點，被選取作為聚類中心的概率較大；④重復②和③直到k個聚類中心被選出來；⑤利用這k個初始的聚類中心米運行標準的K-means算法。K-means＋＋算法的正確流程為（）。A、②⑤④③①B、①⑤④②③C、①②③④⑤D、④③②①⑤【正確答案】：C解析：

K-means＋＋算法基本流程為：①從輸入的數(shù)據(jù)點集合中隨機選擇一個點作為第一個聚類中心；②對于數(shù)據(jù)集中的每一個點x，計算它與最近聚類中心（指已選擇的聚類中心）的距離D（x）；③選擇一個新的數(shù)據(jù)點作為新的聚類中心，選擇的原則是D（x）較大的點，被選取作為聚類中心的概率較大；④重復②和③直到k個聚類中心被選出來；⑤利用這k個初始的聚類中心來運行標準的K-mcans算法。84.下列關于層次聚類算法的過程：①不斷重復直到達到預設的聚類簇數(shù)；②不斷合并距離最近的聚類簇；③對初始聚類簇和相應的距離矩陣初始化；④對合并得到的聚類簇進行更新。正確的執(zhí)行順序為（）。A、①②③④B、①③②④C、③②④①D、③④①②【正確答案】：C解析：

層次聚類算法的過程是對初始聚類簇和相應的距離矩陣初始化；不斷合并距離最近的聚類簇；對合并得到的聚類簇進行更新；不斷重復直到達到預設的聚類簇數(shù)。85.（）試圖學得一個通過屬性的線性組合來進行預測的函數(shù)。A、決策樹B、貝葉斯分類器C、神經網(wǎng)絡D、線性模型【正確答案】：D86.（）在劃分屬性時是在當前結點的屬性集合中選擇一個最優(yōu)屬性。AdaBoostB、RFC、BaggingD、傳統(tǒng)決策樹【正確答案】：D87.對于SVM分類算法，待分樣本集中的大部分樣本不支持向量，下列說法正確的是()。A、需要將這些樣本全部強制轉換為支持向量B、需要將這些樣本中可以轉化的樣本轉換為支持向量，不能轉換的直接刪除C、移去或者減少這些樣本對分類結果沒有影響D、以上都不對【正確答案】：C解析：

支持向量機的一個重要性質是訓練完成后，大部分的訓練樣本都不需保留，最終模型僅與支持向量有關。88.（）是表現(xiàn)數(shù)據(jù)分布對稱性的指標。A、斜率B、偏斜度C、偏度D、偏離度【正確答案】：B解析：

偏斜度是對統(tǒng)計數(shù)據(jù)分布偏斜方向及程度的度量。在偏態(tài)分布中，當偏斜度為正值時，分布正偏，即眾數(shù)位于算術平均數(shù)的左側；當偏斜度為負值時，分布負偏，即眾數(shù)位于算術平均數(shù)的右側。89.在Apriori算法中，候選項集劃分為不同的桶，存放在（）中。A、字典B、集合C、Hash樹D、列表【正確答案】：C90.有兩個樣本點，第一個點為正樣本，它的特征向量是（0，-1）；第二個點為負樣本，它的特征向量是（2,3）。從這兩個樣本點組成的訓練集構建一個線性SVM分類器的分類面方程是（）。A、2x+y=4B、x+2y=5C、x+2y=3D、2x-y=0【正確答案】：C解析：

(-1-3)/(0-2)=-1/2Y=-(1/2)x+c,對于兩個點來說，最大間隔就是垂直平分線，因此求出垂直平分線即可。斜率是兩點連線的斜率的負倒數(shù)。即-1，可得，過中點［（(0+2)/2,(-1+3)/2)]=(1,1),，可得C=3/2，故方程為x+2y=3。91.當訓練樣本近似線性可分時，（）。A、通過硬間隔最大化，學習一個非線性支持向量機B、通過軟間隔最大化，學習一個線性支持向量機C、通過硬間隔最大化，學習一個線性支持向量機D、通過軟間隔最大化，學習一個非線性支持向量機【正確答案】：B92.（）可在保證訓練精度的情況下降低模型的復雜度。A、正則化系數(shù)無窮大B、正則化系數(shù)幾乎為0C、選擇合適的正則化參數(shù)D、以上答案都不正確【正確答案】：C解析：

選擇合適的正則化參數(shù)可在保證訓練精度的情況下降低模型的復雜度。93.假定訓練了一個線性SVM并推斷出這個模型出現(xiàn)了欠擬合現(xiàn)象，在下--次訓練時，應該采取的措施是（）。A、增加數(shù)據(jù)點B、減少數(shù)據(jù)點C、增加特征D、減少特征【正確答案】：C解析：

欠擬合是指模型擬合程度不高，數(shù)據(jù)距離擬合曲線較遠，或指模型沒有很好地捕捉到數(shù)據(jù)特征，不能夠很好地擬合數(shù)據(jù)。可通過增加特征解決。94.在大型數(shù)據(jù)集上訓練決策樹時，為了花費更少的時間來訓練這個模型，下列做法正確的是（）。A、增加樹的深度B、增加學習率C、減小樹的深度D、減少樹的數(shù)量【正確答案】：C解析：

決策樹深度越深，在訓練集上誤差會越小，準確率越高。但是容易造成過擬合，而且增加模型的訓練時間。對決策樹進行修剪，減小樹的深度，能夠提高模型的訓練速度，有效避免過擬合。95.著名的C4.5決策樹算法使用（）來選擇最優(yōu)劃分屬性。A、信息增益B、增益率C、基尼指數(shù)D、均值【正確答案】：B96.對分類任務來說，學習器從類別標記集合中預測出一個標記，最常見的結合策略是（）。A、投票法B、平均法C、學習法D、排序法【正確答案】：A97.線性判別分析（LDA）從貝葉斯決策理論闡釋，當兩類數(shù)據(jù)同先驗且滿足（）時，LDA達到最優(yōu)分類。A、高斯分布B、協(xié)方差相等C、高斯分布且協(xié)方差相等D、協(xié)方差不等【正確答案】：C98.檢測一元正態(tài)分布中的離群點，屬于異常檢測中的基于（）的離群點檢測。A、統(tǒng)計方法B、鄰近度C、密度D、聚類技術【正確答案】：A99.下列機器學習算法中，不需要歸一化處理的是（）。A、DecisionTreeB、SVMC、K-meansD、LogisticRegression【正確答案】：A解析：

DecisionTree屬于概率模型，不需要歸一化處理；SVM、K-means和LogisticRegression之類的最優(yōu)化問題需要歸一化處理。100.為了觀察測試Y與X之間的線性關系，若X是連續(xù)變量，則使用（）比較適合。A、散點圖B、柱形圖C、直方圖D、以上答案都不正確【正確答案】：A解析：

散點圖反映了兩個變量之間的相互關系，在測試Y與X之間的線性關系時，使用散點圖最為直觀。1.對于主成分分析方法，確定降維后低維空間的維數(shù)d的方法有（）。A、由用戶事先指定B、通過在d不同的低維空間中對開銷較小的學習器進行交叉驗證來選取C、可從重構的角度設置一個重構閾值，選取使得特定公式成立的最小值D、隨機設置【正確答案】：ABC解析：

降維后低維空間的維數(shù)通常是由用戶事先指定，或通過在d不同的低維空間中對k近鄰分類器（或其他開銷較小的學習器）進行交叉驗證來選取較好的d。還可從重構的角度設置一個重構閾值，選取使得特定公式成立的最小值。2.集成學習中增強多樣性的常見做法有（）。A、數(shù)據(jù)樣本擾動B、輸入屬性擾動C、輸出表示擾動D、算法參數(shù)擾動【正確答案】：ABCD解析：

集成學習中增強多樣性的常見做法主要有對數(shù)據(jù)樣本、輸入屬性、輸出表示、算法參數(shù)進行擾動。3.特征選擇方法有（）。AIC赤池信息準則B、LARS嵌入式特征選擇方法C、LVW包裹式特征選擇方法D、Relief過濾式特征選擇方法【正確答案】：BCD解析：

AIC赤池信息準則是常用的模型選擇方法。4.下列關于相關與線性關系的說法正確的有（）。A、相關不一定是線性關系，可能是非線性關系B、相關一定是線性關系，不可能是非線性關系C、相關時若有相關系數(shù)為0，說明兩個變量之間不存在線性關系，仍可能存在非線性關系D、相關系數(shù)為0是兩個變量獨立的必要不充分條件【正確答案】：ACD解析：

相關不一定是線性關系，可能是非線性關系。5.如果將A、B、C三個分類器的P-R曲線畫在一個圖中，其中A、B的P-R曲線可以完全包含住C的P-R曲線，A、B的P-R曲線有交點，A、B、C的平衡點分別為0.79、0.66、0.58，則下列說法中正確的有（）。A、學習器A的性能優(yōu)于學習器CB、學習器A的性能優(yōu)于學習器BC、學習器B的性能優(yōu)于學習器CD、學習器C的性能優(yōu)于學習器B【正確答案】：ABC解析：

若一個學習器的P-R曲線被另一個學習器的曲線完全包住，則可斷官后者的性能優(yōu)于前者，如果兩個學習器的P-R曲線發(fā)生了交叉，則可用平衡點度量。6.下列關于密度聚類的說法錯誤的有（）。A、DBSCAN是一種著名的密度聚類算法B、密度聚類從樣本數(shù)量的角度來考察樣本之間的可連接性C、密度聚類基于不可連接樣本不斷擴展聚類簇，以獲得最終的聚類結果D、密度直達關系通常滿足對稱性【正確答案】：BCD解析：

密度聚類從樣本密度的角度來考察樣本之間的可連接性；密度聚類基于可連接樣本不斷擴展聚類簇，以獲得最終的聚類結果；密度直達關系通常不滿足對稱性；密度可達關系滿足直遞性，但不滿足對稱性；密度相連關系滿足對稱性。7.可以幫助解決訓練集在特征空間中線性不可分的問題的方法有（）。A、硬間隔B、軟間隔C、核函數(shù)D、拉格朗日乘子法【正確答案】：BC解析：

核函數(shù)解決線性不可分的本質思想就是把原始的樣本通過核函數(shù)映射到高維空間中，讓樣本在高維特征空間中是線性可分的。軟間隔允許某些樣本不滿足約束，使得樣本在特征空間中不是線性可分。8.下列說法正確的有（）。A、條件獨立性假設不成立時，樸素貝葉斯分類器仍有可能產生最優(yōu)貝葉斯分類器B、在估計概率值時使用的拉普拉斯修正避免了因訓練集樣本不充分而導致概率估值為零的問題C、由于馬爾可夫鏈通常很快就能趨于平穩(wěn)分布，因此吉布斯采樣算法的收斂速度很快D、二分類任務中兩類數(shù)據(jù)滿足高斯分布且方差相同時，線性判別分析產生貝葉斯最優(yōu)分類器【正確答案】：ABD解析：

由于馬爾可夫鏈通常需要很長時間才能趨于平穩(wěn)分布，因此吉布斯采樣算法的收斂速度較慢。9.做一個二分類預測問題，先設定閾值為0.5，概率不小于0.5的樣本歸入正例類（即1），小于0.5的樣本歸入反例類（即0）。然后，用閾值n（(n>0.5．5）重新劃分樣本到正例類和反例類。下列說法正確的有（）。A、增加閾值不會提高召回率B、增加閾值會提高召回率C、增加閾值不會降低查準率D、增加閾值會降低查準率【正確答案】：AC解析：

召回率=TP/TP+FN，查準率=TP/TP+FP。當概率固值增加時，TP、FP減少或者持平，TP＋FN不變，所以召回率不會增加。10.決策樹的劃分選擇有（）。A、增益系數(shù)B、信息增益C、增益率D、基尼系數(shù)【正確答案】：BCD11.常見的聚類性能度量外部指標有（）。A、Jaccard系數(shù)B、DB指數(shù)C、FM指數(shù)D、以上答案都正確【正確答案】：AC解析：

聚類常用的外部指標包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù)。12.下列關于特征數(shù)據(jù)歸一化的說法正確的有（）。A、特征數(shù)據(jù)歸一化加速梯度下降優(yōu)化的速度B、特征數(shù)據(jù)歸一化有可能提高模型的精度C、線性歸一化適用于特征數(shù)值分化比較大的情況D、概率模型不需要做歸一化處理【正確答案】：ABD解析：

歸一化方法比較適用于數(shù)值比較集中的情況，這種方法的缺陷是如果max和min不穩(wěn)定，很容易使得歸一化結果不穩(wěn)定，使得后續(xù)使用效果也不穩(wěn)定。實際使用中可以用經驗常量值來替代max和min。非線性歸一化經常用在數(shù)據(jù)分化比較大的場景，有些數(shù)值很大，有些很小。13.下列可以用來評估線性回歸模型的指標有（）。A、R-SquaredB、AdjustedR-SquaredC、FStatisticsD、RMSE/MSE/MAE【正確答案】：ABCD解析：

R-Squared、AdjustedR-Squared、FStatistics和RMSE／MSE／MAE指標均可以評估線性回歸模型。14.下列對模型性能提高有幫助的有（）。A、數(shù)據(jù)預處理B、特征工程C、機器學習算法D、模型集成【正確答案】：ABCD解析：

數(shù)據(jù)預處理、特征工程、機器學習算法、模型集成均可提高模型性能。15.下列屬于機器學習生成式模型的有（）。A、樸素貝葉斯B、隱馬爾科夫模型C、線性回歸模型D、深度信念網(wǎng)絡【正確答案】：ABD解析：

機器學習生成式模型包括樸素貝葉斯、隱馬爾科夫模型和深度信念網(wǎng)絡等。線性回歸屬于判別式模型。16.下列不屬于聚類性能度量內部指標的有（）。A、DB指數(shù)B、Dunn指數(shù)C、Jaccard系數(shù)D、FM系數(shù)【正確答案】：CD解析：

聚類常用的外部指標包括Jaccard系數(shù)、FM系數(shù)、Rand指數(shù)；聚類常用的內部指標包括DB指數(shù)、Dunn指數(shù)。17.按照涉及自變量的多少，可以將回歸分析分為（）。A、線性回歸分析B、非線性回歸分析C、一元回歸分析D、多元回歸分析【正確答案】：CD解析：

按照涉及自變量的多少，可以將回歸分析分為一元回歸分析和多元回歸分析。18.影響聚類算法效果的主要原因有（）。A、特征選取B、模式相似性測度C、分類準則D、已知類別的樣本質量【正確答案】：ABC解析：

聚類算法是無監(jiān)督的學習算法，訓練樣本的標記信息是未知的。19.下列關于Ridge回歸的說法正確的有（）。A、若λ=0，則等價于一般的線性回歸B、若λ=0，則不等價于一般的線性回歸C、o+=YD、若，則得到的權重系數(shù)很小，接近于零E、8+ルF、若，則得到的權重系數(shù)很大，接近與無窮大【正確答案】：AC解析：

λ=+0Ridge回歸中，若λ=0，則等價于一般的線性回歸；若，則得到的權重系數(shù)很小，接近于零。20.針對維數(shù)災難，主要采用的降維方法有（）。A、多維縮放B、主成分分析C、核化線性降維D、流形學習【正確答案】：ABCD21.影響Apriori算法的計算復雜度的有（）。A、支持度閾值B、項數(shù)（維度）C、事務數(shù)D、事務平均寬度【正確答案】：ABCD22.下列方法中適合減少數(shù)據(jù)集中的特征數(shù)即降維的有（）。A、使用前向特征選擇方法B、使用后向特征排除方法C、我們先把所有特征都使用，去訓練一個模型，得到測試集上的表現(xiàn)。然后我們去掉一個特征，再去訓練，用交叉驗證看看測試集上的表現(xiàn)。如果表現(xiàn)比原來還要好，我們可以去除這個特征D、查看相關性表，去除相關性最高的一些特征【正確答案】：ABCD解析：

前向特征選擇方法和后向特征排除方法是特征選擇的常用方法。如果前向特征選擇方法和后向特征排除方法在大數(shù)據(jù)上不適用，可以用選項C的方法。用相關性的度量去刪除多余特征也是一個可行的方法。23.K均值聚類算法和層次聚類算法在一些方面有重大差異，下列關于兩種算法的說法正確的有（）。A、在K均值聚類算法中，必須在運行算法前選定想要的簇的個數(shù)B、在K均值聚類算法中，可以在運行算法后選定想要的簇的個數(shù)C、在層次聚類算法中，可以在運行算法后選定想要的簇的個數(shù)D、K均值聚類算法所需的計算量比層次聚類算法小得多【正確答案】：ACD解析：

在K均值聚類算法中，需要在運行算法前確定想要的簇的個數(shù)k。24.特征向量的歸一化方法有（）。A、線性函數(shù)轉換B、對數(shù)函數(shù)轉換C、反余切函數(shù)轉換D、減去均值，除以方差【正確答案】：ABCD25.隨機森林在做數(shù)據(jù)處理方面的優(yōu)勢有（）。A、不需要做缺失值處理B、不需要處理噪聲C、不需要做特征選擇D、不需要平衡數(shù)據(jù)集【正確答案】：ACD解析：

理論上隨機森林不會產生過擬合現(xiàn)象，但噪聲是不能忽略的，增加樹雖然能夠減小過擬合，但樹的數(shù)目不可能無限增加，沒有辦法完全消除過擬合。26.如果想要訓練一個ML模型，樣本數(shù)量為100萬個，特征維度為5000個，面對如此大數(shù)據(jù)，那么有效地訓練模型可以采取的措施有（）。A、對訓練集隨機采樣，在隨機采樣的數(shù)據(jù)上建立模型B、嘗試使用在線機器學習算法C、使用PCA算法減少特征維度【正確答案】：ABC解析：

大數(shù)據(jù)可以采用對訓練集隨機采樣，在隨機采樣的數(shù)據(jù)上建立模型，嘗試使用在線機器學習算法，使用PCA算法減少特征維度。27.下列屬于數(shù)值優(yōu)化算法的有（）。A、梯度下降法B、牛頓法C、極大似然法D、邏輯回歸【正確答案】：AB解析：

在機器學習的優(yōu)化問題中，梯度下降法和牛頓法是常用的兩種凸函數(shù)求極值的方法，他們都是為了求得目標函數(shù)的近似解。極大似然法是一種應用非常廣泛的參數(shù)估計方法。邏輯回歸是一種廣義的線性回歸分析模型，常用于分類問題。28.（）是通過對無標記訓練樣本的學習來進行分類的。A、密度估計B、異常檢測C、線性回歸D、聚類分析【正確答案】：ABD29.下列關于機器學習的理解正確的有（）。A、非監(jiān)督學習的樣本數(shù)據(jù)是要求帶標簽的B、監(jiān)督學習和非監(jiān)督學習的區(qū)別在于是否要求樣本數(shù)據(jù)帶標簽C、強化學習以輸入數(shù)據(jù)作為對模型的反饋D、卷積神經網(wǎng)絡一般用于圖像處理等局部特征相關的數(shù)據(jù)【正確答案】：BCD解析：

非監(jiān)督學習的樣本數(shù)據(jù)是不要求帶標簽的，監(jiān)督學習的樣本數(shù)據(jù)是要求帶標簽的。30.一個監(jiān)督觀測值集合會被劃分為（）。A、訓練集B、驗證集C、測試集D、預處理集【正確答案】：ABC解析：

一個監(jiān)督觀測值集合會被劃分為訓練集、測試集、預測集。其中測試集來測試學習器對新樣本的判別能力，然后以測試集上的測試誤差（testingerror）作為泛化誤差的近似。31.數(shù)據(jù)再利用的意義有（)。A、挖掘數(shù)據(jù)的潛在價值B、提高社會效益，優(yōu)化社會管理C、實現(xiàn)數(shù)據(jù)重組的創(chuàng)新價值D、優(yōu)化存儲設備，降低設備成本【正確答案】：ACD解析：

數(shù)據(jù)的再利用可以挖掘數(shù)據(jù)的潛在價值、實現(xiàn)數(shù)據(jù)組重組的創(chuàng)新價值，并且可以利用數(shù)據(jù)的可拓展性拓展業(yè)務領域32.如果希望減少數(shù)據(jù)集中的特征數(shù)量，則可以采取的措施有（)。A、使用正向選擇法（ForwardSelection）B、使用反向消除法（BackwardElimination）C、逐步選擇消除法（Stepwise）D、計算不同特征之間的相關系數(shù)，刪去相關系數(shù)高的特征之一【正確答案】：ABCD解析：

正向選擇法（ForwardSelection）是首先選擇一個特征，每個特征都試一遍，選擇對模型準確率提升最高的那個特征；然后再在這個特征基礎上添加另外一個特征，方法類似，直到模型準確率不再提示為止。反向消除法（BackwardElimination）是首先包含了所有的特征，然后嘗試刪除每個特征，最終刪掉對模型準確率提升最高的一個特征（如果刪除這個特征模型準確率反而增加了，則說明這個特征是無用特征）。以此類推，直到刪除特征并不能提升模型為止。相對于正向選擇法，反向消除法的優(yōu)點在于其允許-些低貢獻值的特征能夠進到模型中去（有時候低貢獻值的特征能在組合中有更大的貢獻值，而正向選擇法忽略了這種組合的可能性），因此反向消除法能夠避免受一兩個占主導地位的特征的干擾。另外還有一種特征選擇方法是逐步選擇消除法（Stepwise），該方法結合上述兩者的方法，新加入一個特征之后，再嘗試刪去一個特征，直至達到某個預設的標準。這種方法的缺點是預設的標準不好定，而且容易陷入到過擬合當中。除此之外，也可以使用基于相關性的特征選擇，可以去除多重線性特征。33.下列屬于數(shù)據(jù)挖掘與分析工具的有（)。A、TableauB、PythonC、SPSSD、Alteyx【正確答案】：ABCD解析：

常用的數(shù)據(jù)挖掘工具有RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的數(shù)據(jù)分析工具有Tableau、Alteyx、R＆Python語言、FineReport、PowerBI。三、（共33題）34.在正則化公式中，入為正則化參數(shù)。下列關于入的描述正確的有（)。A、若正則化參數(shù)入過大，可能會導致出現(xiàn)欠擬合現(xiàn)象B、若入太大，則梯度下降可能不收斂C、取一個合理的λ，可以更好地應用正則化D、如果令λ很大的話，為了使CostFunction盡可能的小，所有0（不包括0。）都會在一定程度上減小【正確答案】：ABCD解析：

正則化參數(shù)太小容易產生過擬合，太大容易產生欠擬合。35.下列關于AUC面積的描述正確的有（）。AUC被定義為ROC曲線下與坐標軸圍成的面積B、AUC面積的值大于1C、AUC面積的值等于0.5時，真實性最低，無應用價值D、AUC面積的值越接近1.0，檢測方法真實性越高【正確答案】：ACD解析：

AUC面積的值不大于1。36.下列可以用于特征降維的方法有（）。A、主成分分析PCAB、線性判別分析LDAC、深度學習SparseAutoEncoderD、矩陣奇異值分解SVD【正確答案】：ABD37.下列關于非頻繁模式的說法正確的有（）。A、其支持度小于閾值B、都是不讓人感興趣的C、包含負模式和負相關模式D、對異常數(shù)據(jù)項敏感【正確答案】：AD解析：

非頻繁模式是一個項集或規(guī)則，其支持度小于閾值。絕大部分的頻繁模式不是令人感興趣的，但其中有些分析是有用的，特別是涉及數(shù)據(jù)中的負相關時。非頻繁模式對異常數(shù)據(jù)項敏感。38.下列關于范數(shù)規(guī)則化的描述正確的有（）。A、LO是指向量中0的元素的個數(shù)B、L1范數(shù)是指向量中各個元素絕對值之和C、L2范數(shù)向量元素絕對值的平方和再開平方D、LO是指向量中非0的元素的個數(shù)【正確答案】：BCD解析：

LO是指向量中非0的元素的個數(shù)，Ll范數(shù)是指向量中各個元素絕對值之和，L2范數(shù)向量元素絕對值的平方和再開平方。39.下列關于學習器結合的描述正確的有（）。A、避免單學習器可能因誤選而導致泛化性能不佳B、降低陷入局部極小點的風險C、假設空間擴大有可能學得更好的近似D、多學習器結合有可能沖突【正確答案】：ABC解析：

學習器結合可能會從三個方面帶來好處。從統(tǒng)計方面來看，由于學習任務的假設空間往往很大，可能有多個假設在訓練集上達到同等性能，此時若使用單學習器可能因誤選而導致泛化性能不佳，結合多個學習器則會減小這一風險；從計算方面來看，學習算法往往會陷入局部極小，有的局部極小點所對應的泛化性能可能很糟糕。而通過多次運行之后進行結合，可降低陷入糟糕局部極小點的風險；從表示方面來看，某些學習任務的真實假設可能不在當前學習算法所考慮的假設空間中，此時若使用單學習器則肯定無效，而通過結合多個學習器，由于相應的假設空間有所擴大，有可能學得更好的近似。40.下列關于集成學習的說法正確的有（）。A、隨機森林是減少模型的方差，而GBDT是減少模型的偏差B、組成隨機森林的樹可以并行生成，而GBDT是串行生成C、隨機森林的結果是多數(shù)表決的，而GBDT則是多棵樹累加之和D、隨機森林對異常值不敏感，而GBDT對異常值比較敏感【正確答案】：ABCD解析：

隨機森林與GBDT之間的區(qū)別：①組成隨機森林的樹可以是分類樹也可以是回歸樹，而GBDT只由回歸樹組成；②組成隨機森林的樹可以并行生成，而GBDT是串行生成；③隨機森林的結果是多數(shù)表決的，而GBDT則是多棵樹累加之和；④隨機森林對異常值不敏感，而GBDT對異常值比較敏感；⑤隨機森林是通過減少模型的方差來提高性能，而GBDT是減少模型的偏差來提高性能的；⑥隨機森林不需要進行數(shù)據(jù)預處理即特征歸一心而GBDT則需要進行特征歸一化。41.常見的回歸分析的種類有（）。A、線性回歸B、系數(shù)回歸C、邏輯回歸D、曲線回歸【正確答案】：ACD42.下列關于神經網(wǎng)絡的說法正確的有（）。A、增加網(wǎng)絡層數(shù)，可能會增加測試集分類錯誤率B、增加網(wǎng)絡層數(shù)，一定會增加訓練集分類錯誤率C、減少網(wǎng)絡層數(shù)，可能會減少測試集分類錯誤率D、減少網(wǎng)絡層數(shù)，一定會減少訓練集分類錯誤率【正確答案】：AC解析：

增加網(wǎng)絡層數(shù)可能造成訓練誤差和測試誤差減小，但神經網(wǎng)絡層數(shù)過多容易造成過擬合、訓練誤差小，但是測試誤差很大。43.決策樹在（）情況下會導致遞歸返回。A、當前節(jié)點包含的樣本全屬于同一類B、當前屬性集為空C、當前節(jié)點包含的樣本集合為空D、所有樣本在所有屬性上取值相同【正確答案】：ABCD解析：

決策樹的生成是一個遞歸過程。在決策樹基本算法中，有三種情形會導致遞歸返回：①當前節(jié)點包含的樣本全屬于同一類別，無須劃分；②當前屬性集為空，或是所有樣本在所有屬性上取值相同，無法劃分；③當前節(jié)點包含的樣本集合為空，不能劃分。44.在監(jiān)督式學習中使用聚類算法的方法有（）。A、首先可以創(chuàng)建聚類，然后分別在不同的集群上應用監(jiān)督式學習算法B、在應用監(jiān)督式學習算法之前，可以將其類別ID作為特征空間中的一個額外的特征C、在應用監(jiān)督式學習之前，不能創(chuàng)建聚類D、在應用監(jiān)督式學習算法之前，不能將其類別ID作為特征空間中的一個額外的特征【正確答案】：AB解析：

我們可以為不同的集群構建獨立的機器學習模型，并且可以提高預測精度。將每個類別的ID作為特征空間中的一個額外的特征可能會提高的精度結果。45.聚類性能度量的指標主要分為外部指標和內部指標，其中屬于內部指標的是（）。A、Jaccard指數(shù)B、FM指數(shù)C、DB指數(shù)Dunn指數(shù)【正確答案】：CD解析：

AB為外部指標。46.HighBias（高偏差）的解決方式有（）。A、BoostingB、復雜模型（非線性模型、增加神經網(wǎng)絡中的層）C、更多特征D、以上選項都不正確【正確答案】：ABC解析：

偏差刻畫了學習算法本身的擬合能力，高偏差意味著欠擬合，可通過Boosting、復雜模型（非線性模型、增加神經網(wǎng)絡中的層）、更多特征等方式解決。47.常見的原型聚類算法包括（)。A、K均值算法B、學習向量量化C、高斯混合聚類D、密度聚類【正確答案】：ABC48.數(shù)據(jù)挖掘的主要功能包括概念描述、趨勢分析、孤立點分析、（）等方面。A、關聯(lián)分析B、分類和預測分析C、聚類分析D、偏差分析【正確答案】：ABCD49.特征選擇的目的有（）。A、減少特征數(shù)量、降維B、使模型泛化能力更強C、增強模型擬合能力D、減少過擬合?！菊_答案】：ABD解析：

特征選擇的主要目的是減少特征的數(shù)量、降低特征維度、使模型泛化能力更強、減少過擬合。50.下列關于EM算法的描述正確的有（）。A、EM算法是常用的估計參數(shù)隱變量的利器B、EM算法即是期望最大化算法C、EM算法常被用來學習高斯混合模型的參數(shù)D、EM算法是一種迭代式的方法【正確答案】：ABCD51.隨機森林的隨機性主要體現(xiàn)在（）。A、決策樹選擇的隨機性B、數(shù)據(jù)集的隨機性C、待選特征的隨機性D、參數(shù)選擇的隨機性【正確答案】：BC解析：

隨機森林算法的隨機性主要體現(xiàn)在兩個方面，即子模型的訓練樣本是隨機抽取的、子模型的特征變量也是隨機抽取的。52.下列關于LDA判別分析思想的描述正確的有（）。A、同類樣例的投影點盡可能近B、異類樣例的投影點盡可能遠C、同類樣例的投影點盡可能遠D、異類樣例的投影點盡可能近【正確答案】：AB解析：

LDA的思想非常樸素，即給定訓練樣例集，設法將樣例投影到一條直線上，使得同類樣例的投影點盡可能接近、異類樣例的投影點盡可能遠離。在對新樣本進行分類時，將其投影到同樣的這條直線上，再根據(jù)投影點的位置來確定新樣本的類別。53.下列屬于數(shù)據(jù)挖掘方法的有（）。A、聚類B、回歸分析C、神經網(wǎng)絡D、決策樹算法【正確答案】：ABCD解析：

利用數(shù)據(jù)挖掘進行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關聯(lián)則、特征、變化和偏差分析、Web頁挖掘等。分類方法有決策樹算法、KNN算法（k-nearestneighbor）、SVM算法、VSM算＊Bayes算法、神經網(wǎng)絡等。聚類算法有基于密度、基于層次、基于模型、基于網(wǎng)格等。關聯(lián)規(guī)則算法有Apriori算法、FP-Growth算法。54.關于特征向量的缺失值處理方式如下：缺失值較多，直接將該特征舍棄掉，否則可能會帶入較大的noise，對結果造成不良影響；缺失值較少，其余的特征缺失值都在10％以內，可以采取的處理方式有（）。A、把NaN直接作為一個特征，假設用0表示B、用均值填充C、用隨機森林等算法預測填充D、以上選項都不正確【正確答案】：ABC解析：

缺失值較少的處理方式：①把NAN直接作為一個特征，假設用0表示；②用均值填充；③用隨機森林等算法預測填充；④用插值法填充。55.當構造線性模型時，應注意變量間的相關性。在相關矩陣中搜索相關系數(shù)時，如果發(fā)現(xiàn)3對變址的相關系數(shù)是（Varl和Var2、Var2和Var3、Var3和Varl），相關系數(shù)分別是-0.98、0.45、1.23，則可以得出的結論有（）。A、Varl和Var2是非常相關的B、因為Varl和Var2是非常相關的，可以去除其中一個C、Var3和Varl的相關系數(shù)1.23是不可能的【正確答案】：ABC解析：

Varl和Var2之間的相關性非常高，并且是負的，可視為多重共線性的情況，可以去掉一個。一般來說，如果相關大于0.7或小于-0.7，則認為特征之間有很高的相關性。相關系數(shù)范圍為［-1,1］，C選項中1.23明顯有誤。56.下列關于決策樹的優(yōu)點的描述正確的有（）。A、可讀性強B、分類速度快C、只用于回歸問題D、是無監(jiān)督學習【正確答案】：AB解析：

決策樹也可用于回歸，屬于有監(jiān)督的機器學習算法。57.下列屬于范數(shù)規(guī)則化作用的有（）。A、保證模型盡可能的簡單，避免過擬合B、約束模型特征C、最小化問題D、最大化問題【正確答案】：AB58.許多功能更為強大的非線性模型可在線性模型基礎上通過引入（）而得。A、層級結構B、高維映射C、降維D、分類【正確答案】：AB59.線性模型的基本形式有（）。A、線性回歸B、對數(shù)幾率回歸（二分類問題）C、線性判別分析（Fisher判別分析）D、多分類學習【正確答案】：ABCD60.可作為決策樹選擇劃分屬性的參數(shù)有（）。A、信息增益B、信息增益率C、基尼指數(shù)D、密度函數(shù)【正確答案】：ABC解析：

特征選擇的準則主要有信息增益、信息增益率、基尼指數(shù)三種。61.在統(tǒng)計模式分類問題中，當先驗概率未知時，可以使用（）。A、最小最大損失準則B、最小誤判概率準則C、最小損失準則D、N-P判決【正確答案】：AD62.下列關于PCA的說法正確的有（）。A、在使用PCA之前，我們必須標準化數(shù)據(jù)B、應該選擇具有最大方差的主成分C、應該選擇具有最小方差的主成分D、可以使用PCA在低維空間中可視化數(shù)據(jù)【正確答案】：ABD解析：

PCA對數(shù)據(jù)中變量的尺度非常敏感，因此需要對各個變量進行標準化。方差越大，說明在該特征上分布越廣泛，說明該特征越有用，影響越大。PCA有時在較低維度上繪制數(shù)據(jù)是非常有用的，可以提取前2個主要組成部分，在二維平面上使用散點圖可視化數(shù)據(jù)。63.下列關于降維方法的敘述正確的有（）。A、主成分分析是一種常用的非線性降維方法B、核化線性降維是一種常用的線性降維方法C、流形學習是一種借鑒拓撲流形概念的降維方法D、度量學習繞過降維的過程，將學習目標轉化為對距離度量計算的權重矩陣的學習【正確答案】：CD解析：

本質上講，主成分分析是一種線性降維方法，在處理非線性問題時，效果不太理想。核化線性降維是一種非線性降維方法。64.一個回歸模型存在多重共線問題，在不損失過多信息的情況下，可采取的措施有（）。A、剔除所有的共線性變量B、別除共線性變量中的一個C、通過計算方差膨脹因子（varianceinflationfactor，VIF）來檢查共線性程度，并采取相應措施D、刪除相關變量可能會有信息損失，我們可以不刪除相關變量，而使用一些正則化方法來解決多重共線性問題，例如Ridge或Lasso回歸【正確答案】：BCD解析：

為了檢查多重共線性，我們可以創(chuàng)建相關系數(shù)矩陣來辨別和移除相關系數(shù)大于75％的變量（閾值根據(jù)情況設定）。除此之外，可以使用VIF方法來檢查當前存在的共線變量。VIF≤4表明沒有多種共線，VIF≥10表明有著嚴重的多重共線性，也可以使用公差（tolcrance）作為評估指標。但是，移除相關變量可能導致信息的丟失，為了保留這些變量，可以使用帶懲罰的回歸方法?？梢栽谙嚓P變量之間隨機加入噪聲，使得變量之間存在差異，但增加噪聲可能影響準確度，因此這種方法應該小心使用。65.下列關于L1和L2范數(shù)的描述正確的有（)。)A、L1范數(shù)為x向量各個元素絕對值之和B、L2范數(shù)為x向量各個元素平方和的1／2次方，L2范數(shù)又稱Euclidean范數(shù)或Frobenius范數(shù)C、L1范數(shù)可以使權值稀疏，方便特征提取D、L2范數(shù)可以防止過擬合，提升模型的泛化能力【正確答案】：ABCD解析：

LO是指向量中非0的元素的個數(shù)，L1范數(shù)是指向量中各個元素絕對值之和，L2范數(shù)向量元素絕對值的平方和再開平方。L1范數(shù)可以使權值稀疏，方便特征提取。L2范數(shù)可以防止過擬合，提升模型的泛化能力。66.鑒別多元共線特征后，下一步可能的操作有（）。A、移除兩個共線變量B、不移除兩個變量，而是移除一個C、移除相關變量可能會導致信息損失，可以使用懲罰線性回歸模型（如ridge或lassoregression)【正確答案】：BC解析：

移除兩個變量會損失一切信息，所以只能移除一個特征，或者也可以使用正則化算法。67.決策樹遞歸返回的條件有（）。A、訓練數(shù)據(jù)集使用完B、所有的類標簽完全相同C、特征用完D、遇到丟失值【正確答案】：BC解析：

決策樹的生成是一個遞歸過程。在決策樹基本算法中，有三種情形會導致遞歸返回：①節(jié)點包含的樣本全屬于同一類別，無須劃分；②當前屬性集為空，或是所有樣本在所有屬性上取值相同，無法劃分；③當前節(jié)點包含的樣本集合為空，不能劃分。68.預剪枝使得決策樹的很多分子都沒有展開，則會導致的結果有（）。A、顯著減少訓練時間開銷B、顯著減少測試時間開銷C、降低過擬合風險D、提高欠擬合風險【正確答案】：ABCD解析：

預剪枝使得決策樹的很多分支都沒有展開，這不僅降低了過擬合的風險，還顯著減少了決策樹的訓練時間開銷和測試時間開銷。但另一方面，有些分支的當前劃分雖不能提升泛化性能，甚至可能導致泛化性能暫時下降，但在其基礎上進行的后續(xù)劃分卻有可能導致性能顯著提高；預剪枝基于貪心原則，禁止這些分支展開，提高了欠擬合的風險。69.特征選擇在子集生成與搜索方面引入了人工智能搜索技術和子集評價方法。其中人工智能搜索技術有（）。A、分支界限法B、浮動搜索法C、信息熵D、AIC【正確答案】：ABCD解析：

特征選擇在子集生成與搜索方面引入了很多人工智能搜索技術，如分支界限法、浮動搜索法等；在子集評價方法則采用了很多源于信息論的準則，如信息熵、AIC等。70.機器學習的三個關鍵組成要素包含（）。A、任務TB、性能指標PC、目標函數(shù)VD、經驗來源E【正確答案】：ABD71.下列關于特征的稀疏性的說法正確的有（）。A、稀疏性指的是矩陣中有許多列與當前學習任務無關B、稀疏樣本可減少學習任務的計算開銷C、學習任務難度可能有所降低D、稀疏矩陣沒有高效的存儲方法【正確答案】：ABC解析：

在一個矩陣中，若非零元素的個數(shù)遠遠小于零元素的個數(shù)，且非零元素的分布沒有規(guī)律，則稱之為稀疏矩陣。為了節(jié)省存儲空間并且加快并行程序處理速度，可對稀疏矩陣進行壓縮存儲。72.聚類性能度量外部指標包括（）。A、Jaccard系數(shù)B、FM指數(shù)C、Dunn指數(shù)D、Rand指數(shù)【正確答案】：ABD解析：

常用的聚類性能度量外部指標包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù)。73.常用的代價函數(shù)有（)。A、均方誤差B、均方根誤差C、平均絕對誤差D、交叉熵【正確答案】：ABCD74.常用的沖突消解策略包括（）。A、投票法B、排序法C、元規(guī)則法D、調研法【正確答案】：ABC75.常見的核函數(shù)包括（)。A、多項式核B、高斯核C、線性核D、拉普拉斯核【正確答案】：ABCD76.深度學習方法不適用的數(shù)據(jù)集有（）。A、數(shù)據(jù)樣本充足B、數(shù)據(jù)樣本不足C、數(shù)據(jù)集具有局部相關特性D、數(shù)據(jù)集沒有局部相關特性【正確答案】：BD解析：

以下數(shù)據(jù)集不適用于深度學習：①數(shù)據(jù)集太小，數(shù)據(jù)樣本不足時，深度學習相對其他機器學習算法沒有明顯優(yōu)勢；②數(shù)據(jù)集沒有局部相關特性，目前深度學習表現(xiàn)比較好的領域主要是圖像、語音、自然語言處理等領域，這些領域的一個共性是局部相關性。圖像中像素組成物體，語音信號中音位組合成單詞，文本數(shù)據(jù)中單詞組合成句子，這些特征元素的組合一旦被打亂，表示的含義同時也被改變。對于沒有這樣的局部相關性的數(shù)據(jù)集，不適用于使用深度學習算法進行處理。77.假設目標遍歷的類別非常不平衡，即主要類別占據(jù)了訓練數(shù)據(jù)的99％，假設現(xiàn)在模型在訓練集上表現(xiàn)為99％的準確度，那么下列說法正確的有（）。A、準確度并不適合衡量不平衡類別問題B、準確度適合衡量不平衡類別問題C、精確度和召回率適合于衡量不平衡類別問題D、精確度和召回率不適合衡量不平衡類別問題【正確答案】：AC解析：

精確度和召回率適合于衡量不平衡類別問題，準確度并不適合衡量不平衡類別問題。1.機器學習對噪聲數(shù)據(jù)具有高承受能力，并能對未經過訓練的數(shù)據(jù)具有分類能力，但其需要很長的訓練時間，因而對于有足夠長訓練時間的應用更合適。（）A、正確B、錯誤【正確答案】：A2.LogisticRegression和SupportVectprMachine都可以處理分類問題，且一般都用于處理線性二分類問題。（）A、正確B、

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)題庫-機器學習練習測試卷

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)題庫-機器學習練習測試卷

文檔簡介

溫馨提示

最新文檔

評論

相關文檔