數(shù)據(jù)挖掘-選擇題_第1頁
數(shù)據(jù)挖掘-選擇題_第2頁
數(shù)據(jù)挖掘-選擇題_第3頁
數(shù)據(jù)挖掘-選擇題_第4頁
數(shù)據(jù)挖掘-選擇題_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1.未來房價的預(yù)測,這種屬于數(shù)據(jù)挖掘的哪類問題?(D)A.分類B.聚類C.關(guān)聯(lián)規(guī)則D.回歸分析2.以下哪些算法是關(guān)聯(lián)規(guī)則挖掘?(D)A.DBSCANB.ID3C.K-MeansD.Apriori3.下列哪個描述是正確的?(C)A.回歸和聚類都是有指導(dǎo)的學(xué)習(xí)B.回歸和聚類都是無指導(dǎo)的學(xué)習(xí)C.回歸是有指導(dǎo)的學(xué)習(xí),聚類是無指導(dǎo)的學(xué)習(xí)D.D.回歸是無指導(dǎo)的學(xué)習(xí),聚類是有指導(dǎo)的學(xué)習(xí)4.當(dāng)分析顧客\t"/qwop446/article/details/_blank"消費行業(yè),以便有針對性的向其推薦感興趣的服務(wù),屬于什么問題?(C)A.分類B.聚類C.關(guān)聯(lián)規(guī)則D.主成分分析5.關(guān)聯(lián)規(guī)則的評價指標(biāo)是?(C)A.均方誤差、均方根誤差B.Kappa統(tǒng)計、顯著性檢驗C.支持度、置信度D.平均絕對誤差、相對誤差6.下列關(guān)于凝聚層次聚類的說法,說法正確的是?(B)A.一旦兩個簇合并,該操作還能撤銷B.算法的終止條件是僅剩下一個簇C.空間復(fù)雜度 D.具有全局優(yōu)化目標(biāo)函數(shù)7.決策樹中不包含以下哪種節(jié)點?(C)A.根節(jié)點B.內(nèi)部節(jié)點C.外部節(jié)點D.葉節(jié)點8.我們想在大數(shù)據(jù)集上訓(xùn)練決策樹,為了使用較少時間,我們可以(C)A.增加樹的深度B.增加學(xué)習(xí)率(learningrate)C.減少樹的深度D.減少樹的數(shù)量9.關(guān)于欠擬合(under-fitting),下面哪個說法是正確的?(C)A.訓(xùn)練誤差較大,測試誤差較小B.訓(xùn)練誤差較小,測試誤差較大C.訓(xùn)練誤差較大,測試誤差較大D.訓(xùn)練誤差不變,測試誤差較大10.以下哪種技術(shù)對于減少數(shù)據(jù)集的維度會更好?(A)A.刪除缺少值太多的列B.刪除數(shù)據(jù)差異較大的列C.刪除不同數(shù)據(jù)趨勢的列D.都不是11.以下不屬于影響聚類算法結(jié)果的主要因素有(A)A.已知類別的樣本質(zhì)量B.分類準(zhǔn)則C.特征選取D.模式相似性測度12.影響基本K-均值算法的主要因素有(B)A.樣本輸入順序B.模式相似性測度C.聚類準(zhǔn)則D.樣本的數(shù)量13.一監(jiān)獄人臉識別準(zhǔn)入系統(tǒng)用來識別待進(jìn)入人員的身份,此系統(tǒng)一共包括識別4種不同的人員:獄警,小偷,送餐員,其他。下面哪種學(xué)習(xí)方法最適合此種應(yīng)用需求:(B)A.二分類問題B.多分類問題C.層次聚類問題D.k-中心點聚類問題14.一般,k-NN最近鄰方法在(B)的情況下效果較好A.樣本較多但典型性不好B.樣本較少但典型性好C.樣本呈團(tuán)狀分布D.樣本呈鏈狀分布15.“點擊率問題”是這樣一個預(yù)測問題,99%的人是不會點擊的,而1%的人是會點擊進(jìn)去的,所以這是一個非常不平衡的數(shù)據(jù)集.假設(shè),現(xiàn)在我們已經(jīng)建了一個模型來分類,而且有了99%的預(yù)測準(zhǔn)確率,我們可以下的結(jié)論是(C)A.模型預(yù)測準(zhǔn)確率已經(jīng)很高了,我們不需要做什么了B.模型預(yù)測準(zhǔn)確率不高,我們需要做點什么改進(jìn)模型C.無法下結(jié)論D.以上都不對1.當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時,可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分類?(B)A.分類B.聚類C.關(guān)聯(lián)規(guī)則D.主成分分析2.Apriori算法的計算復(fù)雜度不受影響?(B)A.支持度閾值B.時間C.事務(wù)數(shù)D.項數(shù)(維度)3.下列算法中不屬于監(jiān)督式學(xué)習(xí)算法的是(D)A.K-近鄰算法B.線性回歸C.邏輯回歸D.K-Means算法4.下列兩個變量之間的關(guān)系中,哪一個是線性關(guān)系(D)A.學(xué)生的性別與他(她)的數(shù)學(xué)成績B.人的工作環(huán)境與他的身體健康狀況C.兒子的身高與父親的身高D.正方形的邊長與周長5.線性回歸能完成的任務(wù)是(B)A.預(yù)測離散值B.預(yù)測連續(xù)值C.分類D.聚類6.以下哪個方法不可以直接來對文本分類(A)A.KmeansB.決策樹C.支持向量機(jī) D.KNN7.評估模型之后,得出模型存在偏差,下列哪種方法可能解決這一問題(B)A.減少模型中特征的數(shù)量B.向模型中增加更多的特征C.增加更多的數(shù)據(jù)D.以上全是8.關(guān)于主成分分析PCA說法不正確的是(C)A.我們必須在使用PCA前規(guī)范化數(shù)據(jù)B.我們應(yīng)該選擇使得模型有最大variance的主成分C.我們應(yīng)該選擇使得模型有最小variance的主成分D.我們可以使用PCA在低緯度上做數(shù)據(jù)可視化9.以下說法正確的是(C)A.一個機(jī)器學(xué)習(xí)模型,如果有較高準(zhǔn)確率,總是說明這個分類器是好的B.如果增加模型復(fù)雜度,那么模型的測試錯誤率總是會降低C.如果增加模型復(fù)雜度,那么模型的訓(xùn)練錯誤率總是會降低D.我們不可以使用聚類“類別id”作為一個新的特征項,然后再用監(jiān)督學(xué)習(xí)分別進(jìn)行學(xué)習(xí)10.如果在大型數(shù)據(jù)集上訓(xùn)練決策樹。為了花費更少的時間來訓(xùn)練這個模型,下列哪種做法是正確的?(C)A.增加樹的深度B.增加學(xué)習(xí)率C.減小樹的深度D.減少樹的數(shù)量11.協(xié)同過濾算法解決的是數(shù)據(jù)挖掘中的哪類問題(C)A.分類問題B.聚類問題C.推薦問題D.自然語言處理問題12.邏輯回歸適用于以下哪個問題(C)A.回歸問題B.聚類問題C.二分類問題D.多分類問題13.以下對k-means聚類算法解釋正確的是(C)A.能自動識別類的個數(shù),隨即挑選初始點為中心點計算B.能自動識別類的個數(shù),不是隨即挑選初始點為中心點計算C.不能自動識別類的個數(shù),隨即挑選初始點為中心點計算D.不能自動識別類的個數(shù),不是隨即挑選初始點為中心點計算14.當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時,可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?(B)A.分類B.聚類C.關(guān)聯(lián)規(guī)則發(fā)現(xiàn)D.主成分分析15.推薦系統(tǒng)為客戶推薦商品,自動完成個性化選擇商品的過程,滿足客戶的個性化需求,推薦基于(D),推測客戶將來可能的購買行為。A.客戶的朋友B.客戶的個人信息C.客戶的興趣愛好D.客戶過去的購買行為和購買記錄1.未來房價的預(yù)測,這種屬于數(shù)據(jù)挖掘的哪類問題?(D)A.分類B.聚類C.關(guān)聯(lián)規(guī)則D.回歸分析2.以下哪些算法是關(guān)聯(lián)規(guī)則挖掘?(D)A.DBSCANB.ID3C.K-MeansD.Apriori3.下列哪個描述是正確的?(C)A.回歸和聚類都是有指導(dǎo)的學(xué)習(xí)B.回歸和聚類都是無指導(dǎo)的學(xué)習(xí)C.回歸是有指導(dǎo)的學(xué)習(xí),聚類是無指導(dǎo)的學(xué)習(xí)D.回歸是無指導(dǎo)的學(xué)習(xí),聚類是有指導(dǎo)的學(xué)習(xí)4.當(dāng)分析顧客\t"/qwop446/article/details/_blank"消費行業(yè),以便有針對性的向其推薦感興趣的服務(wù),屬于什么問題?(C)A.分類B.聚類C.關(guān)聯(lián)規(guī)則D.主成分分析5.關(guān)聯(lián)規(guī)則的評價指標(biāo)是?(C)A.均方誤差、均方根誤差B.Kappa統(tǒng)計、顯著性檢驗C.支持度、置信度D.平均絕對誤差、相對誤差6.下列關(guān)于凝聚層次聚類的說法,說法正確的是?(B)A.一旦兩個簇合并,該操作還能撤銷B.算法的終止條件是僅剩下一個簇C.空間復(fù)雜度 D.具有全局優(yōu)化目標(biāo)函數(shù)7.決策樹中不包含以下哪種節(jié)點?(C)A.根節(jié)點B.內(nèi)部節(jié)點C.外部節(jié)點D.葉節(jié)點8.我們想在大數(shù)據(jù)集上訓(xùn)練決策樹,為了使用較少時間,我們可以(C)A.增加樹的深度B.增加學(xué)習(xí)率(learningrate)C.減少樹的深度D.減少樹的數(shù)量9.關(guān)于欠擬合(under-fitting),下面哪個說法是正確的?(C)A.訓(xùn)練誤差較大,測試誤差較小B.訓(xùn)練誤差較小,測試誤差較大C.訓(xùn)練誤差較大,測試誤差較大D.訓(xùn)練誤差不變,測試誤差較大10.以下哪種技術(shù)對于減少數(shù)據(jù)集的維度會更好?(A)A.刪除缺少值太多的列B.刪除數(shù)據(jù)差異較大的列C.刪除不同數(shù)據(jù)趨勢的列D.都不是11.以下不屬于影響聚類算法結(jié)果的主要因素有(A)A.已知類別的樣本質(zhì)量B.分類準(zhǔn)則C.特征選取D.模式相似性測度12.影響基本K-均值算法的主要因素有(B)A.樣本輸入順序B.模式相似性測度C.聚類準(zhǔn)則D.樣本的數(shù)量13.一監(jiān)獄人臉識別準(zhǔn)入系統(tǒng)用來識別待進(jìn)入人員的身份,此系統(tǒng)一共包括識別4種不同的人員:獄警,小偷,送餐員,其他。下面哪種學(xué)習(xí)方法最適合此種應(yīng)用需求:(B)A.二分類問題B.多分類問題C.層次聚類問題D.k-中心點聚類問題14.一般,k-NN最近鄰方法在(B)的情況下效果較好A.樣本較多但典型性不好B.樣本較少但典型性好C.樣本呈團(tuán)狀分布D.樣本呈鏈狀分布15.下列表述中,在k-fold交叉驗證中關(guān)于選擇K說法正確的是(D)A.較大的K并不總是好的,選擇較大的K可能需要較長的時間來評估你的結(jié)果B.相對于期望誤差來說,選擇較大的K會導(dǎo)致低偏差(因為訓(xùn)練folds會變得與整個數(shù)據(jù)集相似)C.在交叉驗證中通過最小化方差法來選擇K值D.以上都正確16.下面哪項不是常用的自然語言處理技術(shù):(D)A.詞條化B.詞性標(biāo)注C.句法分析D.交叉驗證17.將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務(wù)?(C)A.頻繁模式挖掘B.分類和預(yù)測C.數(shù)據(jù)預(yù)處理D.數(shù)據(jù)流挖掘18.當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時,可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?(B)A.分類B.聚類C.關(guān)聯(lián)分析D.隱馬爾可夫鏈19.什么是KDD?(A)A.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)B.領(lǐng)域知識發(fā)現(xiàn)C.文檔知識發(fā)現(xiàn)D.動態(tài)知識發(fā)現(xiàn)20.數(shù)據(jù)倉庫是隨著時間變化的,下面的描述不正確的是(C)A.數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內(nèi)容B.捕捉到的新數(shù)據(jù)會覆蓋原來的快照C.數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容D.數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會隨著時間的變化不斷地進(jìn)行重新綜合1.當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時,可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分類?(B)A.分類B.聚類C.關(guān)聯(lián)規(guī)則D.主成分分析2.Apriori算法的計算復(fù)雜度不受影響?(B)A.支持度閾值B.時間C.事務(wù)數(shù)D.項數(shù)(維度)3.下列算法中不屬于監(jiān)督式學(xué)習(xí)算法的是(D)A.K-近鄰算法B.線性回歸C.邏輯回歸D.K-Means算法4.下列兩個變量之間的關(guān)系中,哪一個是線性關(guān)系(D)A.學(xué)生的性別與他(她)的數(shù)學(xué)成績B.人的工作環(huán)境與他的身體健康狀況C.兒子的身高與父親的身高D.正方形的邊長與周長5.線性回歸能完成的任務(wù)是(B)A.預(yù)測離散值B.預(yù)測連續(xù)值C.分類D.聚類6.以下哪個方法不可以直接來對文本分類(A)A.KmeansB.決策樹C.支持向量機(jī) D.KNN7.評估模型之后,得出模型存在偏差,下列哪種方法可能解決這一問題(B)A.減少模型中特征的數(shù)量B.向模型中增加更多的特征C.增加更多的數(shù)據(jù)D.以上全是8.關(guān)于主成分分析PCA說法不正確的是(C)A.我們必須在使用PCA前規(guī)范化數(shù)據(jù)B.我們應(yīng)該選擇使得模型有最大variance的主成分C.我們應(yīng)該選擇使得模型有最小variance的主成分D.我們可以使用PCA在低緯度上做數(shù)據(jù)可視化9.以下說法正確的是(C)A.一個機(jī)器學(xué)習(xí)模型,如果有較高準(zhǔn)確率,總是說明這個分類器是好的B.如果增加模型復(fù)雜度,那么模型的測試錯誤率總是會降低C.如果增加模型復(fù)雜度,那么模型的訓(xùn)練錯誤率總是會降低D.我們不可以使用聚類“類別id”作為一個新的特征項,然后再用監(jiān)督學(xué)習(xí)分別進(jìn)行學(xué)習(xí)10.如果在大型數(shù)據(jù)集上訓(xùn)練決策樹。為了花費更少的時間來訓(xùn)練這個模型,下列哪種做法是正確的?(C)A.增加樹的深度B.增加學(xué)習(xí)率C.減小樹的深度D.減少樹的數(shù)量11.協(xié)同過濾算法解決的是數(shù)據(jù)挖掘中的哪類問題(C)A.分類問題B.聚類問題C.推薦問題D.自然語言處理問題12.邏輯回歸適用于以下哪個問題(C)A.回歸問題B.聚類問題C.二分類問題D.多分類問題13.以下對k-means聚類算法解釋正確的是(C)A.能自動識別類的個數(shù),隨即挑選初始點為中心點計算B.能自動識別類的個數(shù),不是隨即挑選初始點為中心點計算C.不能自動識別類的個數(shù),隨即挑選初始點為中心點計算D.不能自動識別類的個數(shù),不是隨即挑選初始點為中心點計算14.簡單地將數(shù)據(jù)對象集劃分成不重疊的子集,使得每個數(shù)據(jù)對象恰在一個子集中,這種聚類類型稱作(B)A.層次聚類B.劃分聚類C.非互斥聚類D.模糊聚類15.推薦系統(tǒng)為客戶推薦商品,自動完成個性化選擇商品的過程,滿足客戶的個性化需求,推薦基于(D),推測客戶將來可能的購買行為。A.客戶的朋友B.客戶的個人信息C.客戶的興趣愛好D.客戶過去的購買行為和購買記錄16.決策樹中不包含一下哪種結(jié)點(C)A.根結(jié)點B.內(nèi)部結(jié)點C.外部結(jié)點D.葉結(jié)點17.以下哪些分類方法可以較好地避免樣本的不平衡問題(A)A.KNNB.SVMC.樸素貝葉斯D.神經(jīng)網(wǎng)絡(luò)18.以下哪些學(xué)科和數(shù)據(jù)挖掘有密切聯(lián)系?(A)A.統(tǒng)計B.計算機(jī)組成原理C.礦產(chǎn)挖掘D.云存儲19.下列哪項不是NLTK模塊實現(xiàn)詞條化方法的是(D)A.sent_tokenize()B.word_tokenize()C.PunktWordTokenizer()D.tokenize()20.圖像數(shù)據(jù)分析的常用方法不包括(D)A.圖像變換B.圖像編碼和壓縮C.圖像增強(qiáng)和復(fù)原D.圖像數(shù)據(jù)采集1、OLAP技術(shù)的核心是:(D) A.在線性; B.對用戶的快速響應(yīng); C.互操作性. D.多維分析;2、多維數(shù)據(jù)分析包括哪些方法?(ABEF)(多選) A、切片 B、切塊 C、降維 D、統(tǒng)計 E、鉆取 F、旋轉(zhuǎn)3、數(shù)據(jù)的度量單位包括(ABC)(多選) A、GBB、YBC、ZBD、NB4、大數(shù)據(jù)一般具備以下特征(ABC)(多選) A、規(guī)模大B、速度快C、類型多D、用戶廣5、討論下列每項活動是否是數(shù)據(jù)挖據(jù)任務(wù)(FGH)(多選) A、根據(jù)性別劃分公司的顧客。 B、根據(jù)可贏利性劃分公司的顧客。 C、計算公司的總銷售額。 D、按學(xué)生的標(biāo)識號對學(xué)生數(shù)據(jù)庫排序。 E、預(yù)測擲一對骰子的結(jié)果。 F、使用歷史記錄預(yù)測某公司未來的股票價格。 G、監(jiān)視病人心率的異常變化。 H、監(jiān)視地震活動的地震波。 I、提取聲波的頻率6、交叉驗證如果設(shè)置K=5,會訓(xùn)練幾次?(E) A、1 B、2 C、3 D、4 E、5 F、67、如下圖所示,對同一數(shù)據(jù)集進(jìn)行訓(xùn)練,得到3個模型。對于這3個模型的評估,下列說法正確的是?(ACD) A.第一個模型的訓(xùn)練誤差最大 B.第三個模型性能最好,因為其訓(xùn)練誤差最小 C.第二個模型最穩(wěn)健,其在測試集上表現(xiàn)應(yīng)該最好 D.第三個模型過擬合8、下面有關(guān)分類算法的準(zhǔn)確率,召回率,F(xiàn)1值的描述,錯誤的是(C) A.準(zhǔn)確率是檢索出相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)的查準(zhǔn)率 B.召回率是指檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)的查全率 C.正確率、召回率和F值取值都在0和1之間,數(shù)值越接近0,查準(zhǔn)率或查全率就越高 D.為了解決準(zhǔn)確率和召回率沖突問題,引入了F1分?jǐn)?shù)9、尋找數(shù)據(jù)集中的關(guān)系是為了尋找精確、方便并且有價值地總結(jié)出數(shù)據(jù)的某一特征的表示,這個過程包括了以下哪些步驟?(ABCD)(多選) A、選擇一個算法過程使評分函數(shù)最優(yōu) B、決定如何量化和比較不同表示擬合數(shù)據(jù)的好壞 C、決定要使用的表示的特征和結(jié)構(gòu) D、決定用什么樣的數(shù)據(jù)管理原則以高效地實現(xiàn)算法10、Pandas處理缺失值的函數(shù)有?(A) A、fillna()B、fit() C、predict()D、iloc()11、Python內(nèi)建的數(shù)據(jù)類型有哪些?(ABCDE) A、元組 B、列表 C、字典 D、集合 E、函數(shù)12、Python標(biāo)準(zhǔn)數(shù)據(jù)類型為元組,如何標(biāo)識?(B) A.[] B.() C.{} D.“”13、一般k-NN最近鄰方法在(B)的情況下效果較好 A樣本較多但典型性不好 B樣本較少但典型性好 C樣本呈團(tuán)狀分布 D樣本呈鏈狀分布14、當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時,可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?(B) A、分類B、聚類C、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)D、主成分分析15、以下哪些算法是監(jiān)督學(xué)習(xí)算法:(ABD)(多選) A、樸素貝葉斯B、LinearRegressionC、K-MeansD、支持向量機(jī)1、下面有關(guān)分類算法的準(zhǔn)確率,召回率,F(xiàn)1值的描述,錯誤的是(C) A.準(zhǔn)確率是檢索出相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)的查準(zhǔn)率 B.召回率是指檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)的查全率 C.正確率、召回率和F值取值都在0和1之間,數(shù)值越接近0,查準(zhǔn)率或查全率就越高 D.為了解決準(zhǔn)確率和召回率沖突問題,引入了F1分?jǐn)?shù)2、尋找數(shù)據(jù)集中的關(guān)系是為了尋找精確、方便并且有價值地總結(jié)出數(shù)據(jù)的某一特征的表示,這個過程包括了以下哪些步驟?(ABCD)(多選) A、選擇一個算法過程使評分函數(shù)最優(yōu) B、決定如何量化和比較不同表示擬合數(shù)據(jù)的好壞 C、決定要使用的表示的特征和結(jié)構(gòu) D、決定用什么樣的數(shù)據(jù)管理原則以高效地實現(xiàn)算法3、Pandas處理缺失值的函數(shù)有?(A) A、fillna()B、fit() C、predict()D、iloc()4、Python內(nèi)建的數(shù)據(jù)類型有哪些?(ABCDE) A、元組 B、列表 C、字典 D、集合 E、函數(shù)5、Python標(biāo)準(zhǔn)數(shù)據(jù)類型為元組,如何標(biāo)識?(B) A.[] B.() C.{} D.“”6、一般k-NN最近鄰方法在(B)的情況下效果較好 A樣本較多但典型性不好 B樣本較少但典型性好 C樣本呈團(tuán)狀分布 D樣本呈鏈狀分布7、當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時,可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?(B) A、分類B、聚類C、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)D、主成分分析8、以下哪些算法是監(jiān)督學(xué)習(xí)算法:(ABD)(多選) A、樸素貝葉斯B、LinearRegressionC、K-MeansD、支持向量機(jī)9、以下哪項關(guān)于決策樹的說法是錯誤的(C) A、冗余屬性不會對決策樹的準(zhǔn)確率造成不利的影響 B、子樹可能在決策樹中重復(fù)多次 C、決策樹算法對于噪聲的干擾非常敏感 D、尋找最佳決策樹是NP完全問題10、NaveBayes是Bayes分類器的一種,如特征變量是X,類別標(biāo)簽是C,它的假定是(C) A、各類別的先驗概率P(C)是相等的 B、以0為均值.sqr(2)/2為標(biāo)準(zhǔn)差的正態(tài)分布 C、特征變量X的各個維度是類別條件獨立隨機(jī)變量 D、P(X|C)是高斯分布11、邏輯回歸適用于以下哪個問題(C) A、回歸問題B、聚類問題C、二分類問題D、多分類問題12、Lasso回歸與傳統(tǒng)的線性回歸方程區(qū)別是(A) A、增加L1范數(shù)懲罰因子B、增加L2范數(shù)懲罰因子 C、無區(qū)別 D、Lasso回歸是線性方程在sigmoid函數(shù)上的嵌套13、概率論中P(A|B)表示什么意思?(B) A、A事件發(fā)生情況下B事件的概率 B、B事件發(fā)生的情況下A事件發(fā)生的概率 C、A事件和B事件同時發(fā)生的概率 D、A事件或者B事件發(fā)生的概率14、未來房價的預(yù)測,這種屬于數(shù)據(jù)挖掘的哪類問題?( D ) A.分類 B.聚類 C.關(guān)聯(lián)規(guī)則 D.回歸分析15、如果我使用數(shù)據(jù)集的全部特征并且能夠達(dá)到100%的準(zhǔn)確率,但在測試集上僅能達(dá)到70%左右,這說明(C) A.欠擬合 B.模型很棒 C.過擬合1、以下哪項關(guān)于決策樹的說法是錯誤的(C) A、冗余屬性不會對決策樹的準(zhǔn)確率造成不利的影響 B、子樹可能在決策樹中重復(fù)多次 C、決策樹算法對于噪聲的干擾非常敏感 D、尋找最佳決策樹是NP完全問題2、NaveBayes是Bayes分類器的一種,如特征變量是X,類別標(biāo)簽是C,它的假定是(C) A、各類別的先驗概率P(C)是相等的 B、以0為均值.sqr(2)/2為標(biāo)準(zhǔn)差的正態(tài)分布 C、特征變量X的各個維度是類別條件獨立隨機(jī)變量 D、P(X|C)是高斯分布3、邏輯回歸適用于以下哪個問題(C) A、回歸問題B、聚類問題C、二分類問題D、多分類問題4、Lasso回歸與傳統(tǒng)的線性回歸方程區(qū)別是(A) A、增加L1范數(shù)懲罰因子B、增加L2范數(shù)懲罰因子 C、無區(qū)別 D、Lasso回歸是線性方程在sigmoid函數(shù)上的嵌套5、概率論中P(A|B)表示什么意思?(B) A、A事件發(fā)生情況下B事件的概率 B、B事件發(fā)生的情況下A事件發(fā)生的概率 C、A事件和B事件同時發(fā)生的概率 D、A事件或者B事件發(fā)生的概率6、未來房價的預(yù)測,這種屬于數(shù)據(jù)挖掘的哪類問題?( D ) A.分類 B.聚類 C.關(guān)聯(lián)規(guī)則 D.回歸分析7、如果我使用數(shù)據(jù)集的全部特征并且能夠達(dá)到100%的準(zhǔn)確率,但在測試集上僅能達(dá)到70%左右,這說明(C) A.欠擬合 B.模型很棒 C.過擬合8、關(guān)于欠擬合(under-fitting),下面哪個說法是正確的?(C) A.訓(xùn)練誤差較大,測試誤差較小 B.訓(xùn)練誤差較小,測試誤差較大 C.訓(xùn)練誤差較大,測試誤差較大9、某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布.這種屬于數(shù)據(jù)挖掘的哪類問題?(A) A、 關(guān)聯(lián)規(guī)則發(fā)現(xiàn) B、 聚類 C、 分類 D、 自然語言處理10、使用k=1的knn算法,下圖二類分類問題,“+”和“o”分別代表兩個類,那么,用僅拿出一個測試樣本的交叉驗證方法,交叉驗證的錯誤率是多少(B) A.0% B.100% C.0%到100 D.以上都不是11、如果在大型數(shù)據(jù)集上訓(xùn)練決策樹。為了花費更少的時間來訓(xùn)練這個模型,下列哪種做法是正確的?(C) A.增加樹的深度 B.增加學(xué)習(xí)率 C.減小樹的深度 D.減少樹的數(shù)量12、以下兩種描述分別對應(yīng)哪兩種對分類算法的評價標(biāo)準(zhǔn)?(A) (a)警察抓小偷,描述警察抓的人中有多少個是小偷的標(biāo)準(zhǔn)。 (b)描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)。 A.Precision,Recall B.Recall,Precision C.Precision,ROC D.Recall,ROC13、以下描述錯誤的是?(AC) ASVM是這樣一個分類器,他尋找具有最小邊緣的超平面,因此它也經(jīng)常被稱為最小邊緣分類器(minimalmarginclassifier) B在聚類分析中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果越好 C在決策樹中,隨著樹中節(jié)點變得太大,即使模型的訓(xùn)練誤差還在繼續(xù)減低,但是檢驗誤差開始增大,這是出現(xiàn)了模型擬合不足的問題 D聚類分析可以看做是一種非監(jiān)督的分類14、假定某同學(xué)使用NaiveBayesian(NB)分類模型時,不小心將訓(xùn)練數(shù)據(jù)的兩個維度搞重復(fù)了,那么關(guān)于NB的說法中正確的是(BD)(多選) A、這個被重復(fù)的特征在模型中的決定作用會被加強(qiáng) B、模型效果相比無重復(fù)特征的情況下精確度會降低 C、如果所有特征都被重復(fù)一遍,得到的模型預(yù)測結(jié)果相對于不重復(fù)的情況下的模型預(yù)測結(jié)果一樣 D、當(dāng)兩列特征高度相關(guān)時,無法用兩列特征相同時所得到的結(jié)論來分析問題15、決策樹中那類節(jié)點不包括屬性?(D) A、根節(jié)點 B、父節(jié)點 C、子節(jié)點 D、葉子節(jié)點?1、未來房價的預(yù)測,這種屬于數(shù)據(jù)挖掘的哪類問題?( D ) A.分類 B.聚類 C.關(guān)聯(lián)規(guī)則 D.回歸分析2、如果我使用數(shù)據(jù)集的全部特征并且能夠達(dá)到100%的準(zhǔn)確率,但在測試集上僅能達(dá)到70%左右,這說明(C) A.欠擬合 B.模型很棒 C.過擬合3、關(guān)于欠擬合(under-fitting),下面哪個說法是正確的?(C) A.訓(xùn)練誤差較大,測試誤差較小 B.訓(xùn)練誤差較小,測試誤差較大 C.訓(xùn)練誤差較大,測試誤差較大4、某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布.這種屬于數(shù)據(jù)挖掘的哪類問題?(A) A、 關(guān)聯(lián)規(guī)則發(fā)現(xiàn) B、 聚類 C、 分類 D、 自然語言處理5、使用k=1的knn算法,下圖二類分類問題,“+”和“o”分別代表兩個類,那么,用僅拿出一個測試樣本的交叉驗證方法,交叉驗證的錯誤率是多少(B) A.0% B.100% C.0%到100 D.以上都不是6、如果在大型數(shù)據(jù)集上訓(xùn)練決策樹。為了花費更少的時間來訓(xùn)練這個模型,下列哪種做法是正確的?(C) A.增加樹的深度 B.增加學(xué)習(xí)率 C.減小樹的深度 D.減少樹的數(shù)量7、以下兩種描述分別對應(yīng)哪兩種對分類算法的評價標(biāo)準(zhǔn)?(A) (a)警察抓小偷,描述警察抓的人中有多少個是小偷的標(biāo)準(zhǔn)。 (b)描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)。 A.Precision,Recall B.Recall,Precision C.Precision,ROC D.Recall,ROC8、以下描述錯誤的是?(AC) ASVM是這樣一個分類器,他尋找具有最小邊緣的超平面,因此它也經(jīng)常被稱為最小邊緣分類器(minimalmarginclassifier) B在聚類分析中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果越好 C在決策樹中,隨著樹中節(jié)點變得太大,即使模型的訓(xùn)練誤差還在繼續(xù)減低,但是檢驗誤差開始增大,這是出現(xiàn)了模型擬合不足的問題 D聚類分析可以看做是一種非監(jiān)督的分類9、假定某同學(xué)使用NaiveBayesian(NB)分類模型時,不小心將訓(xùn)練數(shù)據(jù)的兩個維度搞重復(fù)了,那么關(guān)于NB的說法中正確的是(BD)(多選) A、這個被重復(fù)的特征在模型中的決定作用會被加強(qiáng) B、模型效果相比無重復(fù)特征的情況下精確度會降低 C、如果所有特征都被重復(fù)一遍,得到的模型預(yù)測結(jié)果相對于不重復(fù)的情況下的模型預(yù)測結(jié)果一樣 D、當(dāng)兩列特征高度相關(guān)時,無法用兩列特征相同時所得到的結(jié)論來分析問題10、決策樹中那類節(jié)點不包括屬性?(D) A、根節(jié)點 B、父節(jié)點 C、子節(jié)點 D、葉子節(jié)點?11、以下哪些算法是分類算法?(B) A、DBSCANB、LogisticregressionC、K-MeanD、EM12、以下哪個是回歸模型評判的指標(biāo)?(A) A、mean_squared_error(MSE)B、準(zhǔn)確率 C、召回率D、輪廓系數(shù)13、關(guān)于K均值和DBSCAN的比較.以下說法不正確的是?(A) A、K均值丟棄被它識別為噪聲的對象.而DBSCAN一般聚類所有對象 B、K均值使用簇的基于原型的概念.而DBSCAN使用基于密度的概念 C、K均值很難處理非球形的簇和不同大小的簇.DBSCAN可以處理不同大小和不同形狀的簇 D、K均值可以發(fā)現(xiàn)不是明顯分離的簇.即便簇有重疊也可以發(fā)現(xiàn).但是DBSCAN會合并有重疊的簇14、簡單地將數(shù)據(jù)對象集劃分成不重疊的子集.使得每個數(shù)據(jù)對象恰在一個子集中.這種聚類類型稱作?(B) A、層次聚類B、劃分聚類C、非互斥聚類D、密度聚類15、將兩個簇的鄰近度定義為不同簇的所有點對的鄰近度的平均值,它是一種(C)凝聚層次聚類技術(shù)。 A、單鏈接B、全鏈接C、組平均D、質(zhì)心距離1、如果在大型數(shù)據(jù)集上訓(xùn)練決策樹。為了花費更少的時間來訓(xùn)練這個模型,下列哪種做法是正確的?(C) A.增加樹的深度 B.增加學(xué)習(xí)率 C.減小樹的深度 D.減少樹的數(shù)量2、以下兩種描述分別對應(yīng)哪兩種對分類算法的評價標(biāo)準(zhǔn)?(A) (a)警察抓小偷,描述警察抓的人中有多少個是小偷的標(biāo)準(zhǔn)。 (b)描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)。 A.Precision,Recall B.Recall,Precision C.Precision,ROC D.Recall,ROC3、以下描述錯誤的是?(AC) ASVM是這樣一個分類器,他尋找具有最小邊緣的超平面,因此它也經(jīng)常被稱為最小邊緣分類器(minimalmarginclassifier) B在聚類分析中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果越好 C在決策樹中,隨著樹中節(jié)點變得太大,即使模型的訓(xùn)練誤差還在繼續(xù)減低,但是檢驗誤差開始增大,這是出現(xiàn)了模型擬合不足的問題 D聚類分析可以看做是一種非監(jiān)督的分類4、假定某同學(xué)使用NaiveBayesian(NB)分類模型時,不小心將訓(xùn)練數(shù)據(jù)的兩個維度搞重復(fù)了,那么關(guān)于NB的說法中正確的是(BD)(多選) A、這個被重復(fù)的特征在模型中的決定作用會被加強(qiáng) B、模型效果相比無重復(fù)特征的情況下精確度會降低 C、如果所有特征都被重復(fù)一遍,得到的模型預(yù)測結(jié)果相對于不重復(fù)的情況下的模型預(yù)測結(jié)果一樣 D、當(dāng)兩列特征高度相關(guān)時,無法用兩列特征相同時所得到的結(jié)論來分析問題5、決策樹中那類節(jié)點不包括屬性?(D) A、根節(jié)點 B、父節(jié)點 C、子節(jié)點 D、葉子節(jié)點?6、以下哪些算法是分類算法?(B) A、DBSCANB、LogisticregressionC、K-MeanD、EM7、以下哪個是回歸模型評判的指標(biāo)?(A) A、mean_squared_error(MSE)B、準(zhǔn)確率 C、召回率D、輪廓系數(shù)8、關(guān)于K均值和DBSCAN的比較.以下說法不正確的是?(A) A、K均值丟棄被它識別為噪聲的對象.而DBSCAN一般聚類所有對象 B、K均值使用簇的基于原型的概念.而DBSCAN使用基于密度的概念 C、K均值很難處理非球形的簇和不同大小的簇.DBSCAN可以處理不同大小和不同形狀的簇 D、K均值可以發(fā)現(xiàn)不是明顯分離的簇.即便簇有重疊也可以發(fā)現(xiàn).但是DBSCAN會合并有重疊的簇9、簡單地將數(shù)據(jù)對象集劃分成不重疊的子集.使得每個數(shù)據(jù)對象恰在一個子集中.這種聚類類型稱作?(B) A、層次聚類B、劃分聚類C、非互斥聚類D、密度聚類10、將兩個簇的鄰近度定義為不同簇的所有點對的鄰近度的平均值,它是一種(C)凝聚層次聚類技術(shù)。 A、單鏈接B、全鏈接C、組平均D、質(zhì)心距離11、影響基本K-均值算法的主要因素不包括?(A) A、樣本輸入順序B、模式相似性測度 C、聚類準(zhǔn)則D、初始類中心的選取12、下列關(guān)于凝聚層次聚類的說法,說法錯誤的是?(D) A.一旦兩個簇合并,該操作就不能撤銷 B.算法的終止條件是僅剩下一個簇 C.空間復(fù)雜度為O(m2) D.具有全局優(yōu)化目標(biāo)函數(shù)13、下列哪個描述是正確的?(C) A.分類和聚類都是有指導(dǎo)的學(xué)習(xí) B.分類和聚類都是無指導(dǎo)的學(xué)習(xí) C.分類是有指導(dǎo)的學(xué)習(xí),聚類是無指導(dǎo)的學(xué)習(xí) D.分類是無指導(dǎo)的學(xué)習(xí),聚類是有指導(dǎo)的學(xué)習(xí)14、將兩個簇的鄰近度定義為不同簇中任意兩點的最短距離,它是哪一種凝聚層次聚類技術(shù)?(A) A.MIN(單鏈) B.MAX(全鏈) C.組平均 D.Ward方法15、對于下圖,最好的主成分選擇是多少?(B) A.7 B.30 C.35 D.Can’tSay1、決策樹中那類節(jié)點不包括屬性?(D) A、根節(jié)點 B、父節(jié)點 C、子節(jié)點 D、葉子節(jié)點?2、以下哪些算法是分類算法?(B) A、DBSCANB、LogisticregressionC、K-MeanD、EM3、以下哪個是回歸模型評判的指標(biāo)?(A) A、mean_squared_error(MSE)B、準(zhǔn)確率 C、召回率D、輪廓系數(shù)4、關(guān)于K均值和DBSCAN的比較.以下說法不正確的是?(A) A、K均值丟棄被它識別為噪聲的對象.而DBSCAN一般聚類所有對象 B、K均值使用簇的基于原型的概念.而DBSCAN使用基于密度的概念 C、K均值很難處理非球形的簇和不同大小的簇.DBSCAN可以處理不同大小和不同形狀的簇 D、K均值可以發(fā)現(xiàn)不是明顯分離的簇.即便簇有重疊也可以發(fā)現(xiàn).但是DBSCAN會合并有重疊的簇5、簡單地將數(shù)據(jù)對象集劃分成不重疊的子集.使得每個數(shù)據(jù)對象恰在一個子集中.這種聚類類型稱作?(B) A、層次聚類B、劃分聚類C、非互斥聚類D、密度聚類6、將兩個簇的鄰近度定義為不同簇的所有點對的鄰近度的平均值,它是一種(C)凝聚層次聚類技術(shù)。 A、單鏈接B、全鏈接C、組平均D、質(zhì)心距離7、影響基本K-均值算法的主要因素不包括?(A) A、樣本輸入順序B、模式相似性測度 C、聚類準(zhǔn)則D、初始類中心的選取8、下列關(guān)于凝聚層次聚類的說法,說法錯誤的是?(D) A.一旦兩個簇合并,該操作就不能撤銷 B.算法的終止條件是僅剩下一個簇 C.空間復(fù)雜度為O(m2) D.具有全局優(yōu)化目標(biāo)函數(shù)9、下列哪個描述是正確的?(C) A.分類和聚類都是有指導(dǎo)的學(xué)習(xí) B.分類和聚類都是無指導(dǎo)的學(xué)習(xí) C.分類是有指導(dǎo)的學(xué)習(xí),聚類是無指導(dǎo)的學(xué)習(xí) D.分類是無指導(dǎo)的學(xué)習(xí),聚類是有指導(dǎo)的學(xué)習(xí)10、將兩個簇的鄰近度定義為不同簇中任意兩點的最短距離,它是哪一種凝聚層次聚類技術(shù)?(A) A.MIN(單鏈) B.MAX(全鏈) C.組平均 D.Ward方法11、對于下圖,最好的主成分選擇是多少?(B) A.7 B.30 C.35 D.Can’tSay12、對于下面三個模型的訓(xùn)練情況,下面說法正確的是(ACD) A第一張圖的訓(xùn)練錯誤與其余兩張圖相比,是最大的 B最后一張圖的訓(xùn)練效果最好,因為訓(xùn)練錯誤最小 C第二張圖比第一和第三張圖魯棒性更強(qiáng),是三個里面表現(xiàn)最好的模型第三張圖相對前兩張圖過擬合了 D三個圖表現(xiàn)一樣,因為我們還沒有測試數(shù)據(jù)集13、推薦系統(tǒng)為客戶推薦商品,自動完成個性化選擇商品的過程,滿足客戶的個性化需求,推薦基于(D),推測客戶將來可能的購買行為。 A、客戶的朋友B、客戶的個人信息 C、客戶的興趣愛好D、客戶過去的購買行為和購買記錄14、下列哪些適合用來對高維數(shù)據(jù)進(jìn)行降維?(BC)(多選) A、LASSOB、主成分分析法 C、特征選擇D、聚類分析15、協(xié)同過濾算法解決的是數(shù)據(jù)挖掘中的哪類問題?(C) A、分類問題B、聚類問題 C、推薦問題D、自然語言處理問題1、影響基本K-均值算法的主要因素不包括?(A) A、樣本輸入順序B、模式相似性測度 C、聚類準(zhǔn)則D、初始類中心的選取2、下列關(guān)于凝聚層次聚類的說法,說法錯誤的是?(D) A.一旦兩個簇合并,該操作就不能撤銷 B.算法的終止條件是僅剩下一個簇 C.空間復(fù)雜度為O(m2) D.具有全局優(yōu)化目標(biāo)函數(shù)3、下列哪個描述是正確的?(C) A.分類和聚類都是有指導(dǎo)的學(xué)習(xí) B.分類和聚類都是無指導(dǎo)的學(xué)習(xí) C.分類是有指導(dǎo)的學(xué)習(xí),聚類是無指導(dǎo)的學(xué)習(xí) D.分類是無指導(dǎo)的學(xué)習(xí),聚類是有指導(dǎo)的學(xué)習(xí)4、將兩個簇的鄰近度定義為不同簇中任意兩點的最短距離,它是哪一種凝聚層次聚類技術(shù)?(A) A.MIN(單鏈) B.MAX(全鏈) C.組平均 D.Ward方法5、對于下圖,最好的主成分選擇是多少?(B) A.7 B.30 C.35 D.Can’tSay6、對于下面三個模型的訓(xùn)練情況,下面說法正確的是(ACD) A第一張圖的訓(xùn)練錯誤與其余兩張圖相比,是最大的 B最后一張圖的訓(xùn)練效果最好,因為訓(xùn)練錯誤最小 C第二張圖比第一和第三張圖魯棒性更強(qiáng),是三個里面表現(xiàn)最好的模型第三張圖相對前兩張圖過擬合了 D三個圖表現(xiàn)一樣,因為我們還沒有測試數(shù)據(jù)集7、推薦系統(tǒng)為客戶推薦商品,自動完成個性化選擇商品的過程,滿足客戶的個性化需求,推薦基于(D),推測客戶將來可能的購買行為。 A、客戶的朋友B、客戶的個人信息 C、客戶的興趣愛好D、客戶過去的購買行為和購買記錄8、下列哪些適合用來對高維數(shù)據(jù)進(jìn)行降維?(BC)(多選) A、LASSOB、主成分分析法 C、特征選擇D、聚類分析9、協(xié)同過濾算法解決的是數(shù)據(jù)挖掘中的哪類問題?(C) A、分類問題B、聚類問題 C、推薦問題D、自然語言處理問題10、通過聚集多個分類器的預(yù)測來提高分類準(zhǔn)確率的技術(shù)稱為(A) A、集成(ensemble)B、聚集(aggregate) C、合并(combination)D、投票(voting)11、對于隨機(jī)森林和GradientBoostingTrees,下面說法正確的是(B) A在隨機(jī)森林的單個樹中,樹和樹之間是有依賴的,而GradientBoostingTrees中的單個樹之間是沒有依賴的. B這兩個模型都使用隨機(jī)特征子集,來生成許多單個的樹. C我們可以并行地生成GradientBoostingTrees單個樹,因為它們之間是沒有依賴的,GradientBoostingTrees訓(xùn)練模型的表現(xiàn)總是比隨機(jī)森林好12、圖像分類存在的困難和挑戰(zhàn)主要包括(ABCDEF)(多選) A、視角變化B、大小變化C、形狀變化 D、遮擋E、光照條件F、背景干擾13、下面那個算法可以將文本數(shù)據(jù)轉(zhuǎn)換為數(shù)值數(shù)據(jù)?(A) A、TF-IDFB、決策樹C、PCAD、DBSCAN14、在以下不同的場景中,使用的分析方法不正確的有(B) A根據(jù)商家最近一年的經(jīng)營及服務(wù)數(shù)據(jù),用聚類算法判斷出天貓商家在各自主營類目下所屬的商家層級 B根據(jù)商家近幾年的成交數(shù)據(jù),用聚類算法擬合出用戶未來一個月可能的消費金額公式 C用關(guān)聯(lián)規(guī)則算法分析出購買了汽車坐墊的買家,是否適合推薦汽車腳墊 D根據(jù)用戶最近購買的商品信息,用決策樹算法識別出淘寶買家可能是男還是女15、以下對k-means聚類算法解釋正確的是(C) A能自動識別類的個數(shù),隨即挑選初始點為中心點計算 B能自動識別類的個數(shù),不是隨即挑選初始點為中心點計算 C不能自動識別類的個數(shù),隨即挑選初始點為中心點計算 D不能自動識別類的個數(shù),不是隨即挑選初始點為中心點計算1、以下哪些算法是監(jiān)督學(xué)習(xí)算法:(ABD)(多選) A、樸素貝葉斯B、LinearRegressionC、K-MeansD、支持向量機(jī)2、邏輯回歸適用于以下哪個問題(C) A、回歸問題B、聚類問題C、二分類問題D、多分類問題3、未來房價的預(yù)測,這種屬于數(shù)據(jù)挖掘的哪類問題?( D ) A.分類 B.聚類 C.關(guān)聯(lián)規(guī)則 D.回歸分析4、某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布.這種屬于數(shù)據(jù)挖掘的哪類問題?(A) A、 關(guān)聯(lián)規(guī)則發(fā)現(xiàn) B、 聚類 C、 分類 D、 自然語言處理5、以下兩種描述分別對應(yīng)哪兩種對分類算法的評價標(biāo)準(zhǔn)?(A) (a)警察抓小偷,描述警察抓的人中有多少個是小偷的標(biāo)準(zhǔn)。 (b)描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)。 A.Precision,Recall B.Recall,Precision C.Precision,ROC D.Recall,ROC6、決策樹中那類節(jié)點不包括屬性?(D) A、根節(jié)點 B、父節(jié)點 C、子節(jié)點 D、葉子節(jié)點?7、關(guān)于K均值和DBSCAN的比較.以下說法不正確的是?(A) A、K均值丟棄被它識別為噪聲的對象.而DBSCAN一般聚類所有對象 B、K均值使用簇的基于原型的概念.而DBSCAN使用基于密度的概念 C、K均值很難處理非球形的簇和不同大小的簇.DBSCAN可以處理不同大小和不同形狀的簇 D、K均值可以發(fā)現(xiàn)不是明顯分離的簇.即便簇有重疊也可以發(fā)現(xiàn).但是DBSCAN會合并有重疊的簇8、影響基本K-均值算法的主要因素不包括?(A) A、樣本輸入順序B、模式相似性測度 C、聚類準(zhǔn)則D、初始類中心的選取9、將兩個簇的鄰近度定義為不同簇中任意兩點的最短距離,它是哪一種凝聚層次聚類技術(shù)?(A) A.MIN(單鏈) B.MAX(全鏈) C.組平均 D.Ward方法10、推薦系統(tǒng)為客戶推薦商品,自動完成個性化選擇商品的過程,滿足客戶的個性化需求,推薦基于(D),推測客戶將來可能的購買行為。 A、客戶的朋友B、客戶的個人信息 C、客戶的興趣愛好D、客戶過去的購買行為和購買記錄11、通過聚集多個分類器的預(yù)測來提高分類準(zhǔn)確率的技術(shù)稱為(A) A、集成(ensemble)B、聚集(aggregate) C、合并(combination)D、投票(voting)12、對于隨機(jī)森林和GradientBoostingTrees,下面說法正確的是(B) A在隨機(jī)森林的單個樹中,樹和樹之間是有依賴的,而GradientBoostingTrees中的單個樹之間是沒有依賴的. B這兩個模型都使用隨機(jī)特征子集,來生成許多單個的樹. C我們可以并行地生成GradientBoostingTrees單個樹,因為它們之間是沒有依賴的,GradientBoostingTrees訓(xùn)練模型的表現(xiàn)總是比隨機(jī)森林好13、下面那個算法可以將文本數(shù)據(jù)轉(zhuǎn)換為數(shù)值數(shù)據(jù)?(A) A、TF-IDFB、決策樹C、PCAD、DBSCAN14、在以下不同的場景中,使用的分析方法不正確的有(B) A根據(jù)商家最近一年的經(jīng)營及服務(wù)數(shù)據(jù),用聚類算法判斷出天貓商家在各自主營類目下所屬的商家層級 B根據(jù)商家近幾年的成交數(shù)據(jù),用聚類算法擬合出用戶未來一個月可能的消費金額公式 C用關(guān)聯(lián)規(guī)則算法分析出購買了汽車坐墊的買家,是否適合推薦汽車腳墊 D根據(jù)用戶最近購買的商品信息,用決策樹算法識別出淘寶買家可能是男還是女15、下列關(guān)于PCA說法正確的是(ABD)? A.在使用PCA之前,我們必須標(biāo)準(zhǔn)化數(shù)據(jù) B.應(yīng)該選擇具有最大方差的主成分 C.應(yīng)該選擇具有最小方差的主成分 D.可以使用PCA在低維空間中可視化數(shù)據(jù)第7章管理規(guī)則與協(xié)同過濾某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?(A)

A.關(guān)聯(lián)規(guī)則發(fā)現(xiàn)B.聚類

C.分類D.自然語言處理設(shè)X={1,2,3}是頻繁項集,則可由X產(chǎn)生(C)個關(guān)聯(lián)規(guī)則。

A.4B.5C.6D.7考慮下面的頻繁3-項集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定數(shù)據(jù)集中只有5個項,采用合并策略,由候選產(chǎn)生過程得到4-項集不包含(C)

A.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論