《機器學(xué)習(xí)-Python實踐》習(xí)題庫 試題及答案_第1頁
《機器學(xué)習(xí)-Python實踐》習(xí)題庫 試題及答案_第2頁
《機器學(xué)習(xí)-Python實踐》習(xí)題庫 試題及答案_第3頁
《機器學(xué)習(xí)-Python實踐》習(xí)題庫 試題及答案_第4頁
《機器學(xué)習(xí)-Python實踐》習(xí)題庫 試題及答案_第5頁
已閱讀5頁,還剩112頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第一章機器學(xué)習(xí)入門基礎(chǔ)B.包裹法(wapper)B.PyCharm是一種PythonIDE(IntegratedDevelopmD.Spyder是一個Python爬蟲框架。解析:Spyder是Python(x,y)的作者為它開發(fā)的一個簡單的集成開發(fā)7.下列選項中機器學(xué)習(xí)主要涉及三大要素不包含哪個?A.數(shù)據(jù)解析:機器學(xué)習(xí)主要涉及數(shù)據(jù)、算法和模型這三大要素。第一章,1.1小節(jié)。8.在實際的企業(yè)應(yīng)用場景中,為了讓訓(xùn)練效果更好,以下哪個操作是錯誤的?A.清洗不完整的數(shù)據(jù)B.清洗多噪音的數(shù)據(jù)C.清洗矛盾和有差異的數(shù)據(jù)D.刪除關(guān)鍵特征數(shù)據(jù)解析:常識。第一章,1.4小節(jié)。8.在實際的企業(yè)應(yīng)用場景中,為了讓訓(xùn)練效果更好,以下哪個操作是錯誤的?A.清洗不完整的數(shù)據(jù)B.清洗多噪音的數(shù)據(jù)C.清洗矛盾和有差異的數(shù)據(jù)D.刪除關(guān)鍵特征數(shù)據(jù)解析:常識。第一章,1.4小節(jié)。9.根據(jù)表格,請選擇說法正確的選項?表1-2臟數(shù)據(jù)舉例姓名性別身高(cm)體重(kg)張三男李四女紅色男黑色女B.王五的身高是250cm,屬于異常情況。D.以上三種答案均正確解析:常識。第一章,1.4小節(jié)。10.以下哪個命令可以查看Python的版本號?11.從研究領(lǐng)域角度分,機器學(xué)習(xí)的類型不包含以下哪種()。A.監(jiān)督學(xué)習(xí)B.無監(jiān)督學(xué)習(xí)C.強化學(xué)習(xí)D.強調(diào)學(xué)習(xí)解析:第一章,1.3小節(jié)。12.常用的Python編程環(huán)境有哪些?A.Jupyternotebook_。已有數(shù)據(jù)輸入新的數(shù)據(jù)①模型②未來屬性解析:教材原話,第一章,1.3小節(jié)。無監(jiān)督學(xué)習(xí)也可稱為非監(jiān)督學(xué)習(xí),通過學(xué)習(xí)沒有標(biāo)記的半監(jiān)督學(xué)習(xí),它是一種在預(yù)測時,既使用已標(biāo)記的所謂增強學(xué)習(xí),是通過與環(huán)境的交互,以推測和優(yōu)化實際的動作,從而實現(xiàn)決策。2.如果在模型診斷中發(fā)現(xiàn)了過擬合和欠擬合問題,請簡述解決思路。過擬合、欠擬合是模型診斷中常見的問題,如果出現(xiàn)過擬合(指所訓(xùn)練的模型在訓(xùn)練集上表現(xiàn)得非常優(yōu)秀,可以有效地區(qū)分每一個樣本,但在測試集上表現(xiàn)得很差),可以通過增加數(shù)據(jù)量和降低模型復(fù)雜度來優(yōu)化,如果出現(xiàn)欠擬合(指所訓(xùn)練的模型在訓(xùn)練集中就已經(jīng)表現(xiàn)得很差,準(zhǔn)確度很低),可以通過提高特征數(shù)量和質(zhì)量,增加模型復(fù)雜而深度學(xué)習(xí)又是機器學(xué)習(xí)里的特定分支技術(shù),三者第2-7章1.關(guān)于支持向量機SVM,下列說法錯誤的是()A.L2正則項,作用是最大化分類間隔,使得分類器擁有更強的泛化能力D.當(dāng)參數(shù)C越小時,分類間隔越大,分類錯誤越多,趨于欠學(xué)習(xí)y<-1是負(fù)類,決策面y=0,加入一個y=-30的正類噪聲樣本,那么決策面將會變“歪”很多,分類間隔變小,泛化能力減小。加入正則項之后,對噪聲樣本的容錯能力增強,B正確。6.下列不是SVM核函數(shù)的是()7.模型的高bias是什么意思,我們?nèi)绾谓档退?機器學(xué)習(xí)ML基礎(chǔ)易下的結(jié)論是:B.增加學(xué)習(xí)率(learningD.以上都不是A.正態(tài)分布具有集中性和對稱性B.正態(tài)分布的均值和方差能夠決定正態(tài)分布的位置和形態(tài)C.正態(tài)分布的偏度為0,峰度為1D.標(biāo)準(zhǔn)正態(tài)分布的均值為0,方差為1目標(biāo)變量在訓(xùn)練集上的8個實際值[0,0,0,1,1,1,1,1],目標(biāo)變量的熵是多少?B.5/8log(5/8)+3/8C.3/8log(5/8)+5/8解析:信息熵的計算公式為H(x)=E[I(xi)]=E[log(2,1/P(xi))]=-∑12.決策樹的父節(jié)點和子節(jié)點的熵的大小關(guān)系是什么?A.決策樹的父節(jié)點更大B.子節(jié)點的熵更大13.下列關(guān)于極大似然估計(MaximumLikelihoodEstimA.線性回歸B.邏輯回顧16.假如我們利用Y是X的3階多項式產(chǎn)生一些數(shù)據(jù)(3階多項式能很好地擬合數(shù)據(jù))。那么,下列說法正確的是(多選)?A.1和2都錯誤B.1正確,2錯誤C.1錯誤,2正確X100)?,F(xiàn)在,我們把其中一個特征值擴大10倍(例如是特征X1),然后用相XC.無法確定特征X1是否被舍棄解析:SSE是平方誤差之和(SumofSquaredError),+(-0.8)^2+(1.3)^2+(-20.關(guān)于“回歸(Regression)”和“相關(guān)(CorD.LeakyReLU函數(shù)A.綠色模型的β1比黑色模型的β1大B.綠色模型的β1比黑色模型的β1小C.兩個模型的β1相同D.以上說法都不對解析:邏輯回歸模型最終還要經(jīng)過Sigmoid非線性函數(shù),Sigmoid是增函數(shù),其說明其β1<0。所以,得出結(jié)論:綠色模型的β1比黑色模型的β1小。23.在n維空間中(n>1),下列哪種方法最適合用來檢測異常值?A.正態(tài)概率圖B.箱形圖C.馬氏距離D.散點圖解析:正態(tài)概率圖(NormalProbabilityPlot)一般用來檢查一組數(shù)據(jù)是否服從24.邏輯回歸與多元回歸分析有哪些不同之處?A.邏輯回歸用來預(yù)測事件發(fā)生的概率B.邏輯回歸用來計算擬合優(yōu)度指數(shù)C.邏輯回歸用來對回歸系數(shù)進行估計解析:A選項,邏輯回歸是用來解決分類問題的,可以用于預(yù)測事件發(fā)生的概率。B選項,一般來說,為了測量真實樣本與模型的擬合C選項,在擬合邏輯回歸模型之后,我們還與目標(biāo)輸出的關(guān)系(正相關(guān)或負(fù)相關(guān))。25.如果一個SVM模型出現(xiàn)欠擬合,那么下列哪種方法能解決這一問題?A.增大懲罰參數(shù)C的值B.減小懲罰參數(shù)C的值C.減小核系數(shù)(gamma參數(shù))大于或等于0.6的才預(yù)測為正類。則準(zhǔn)確率(Precision)和召回率(Recall)會發(fā)生什么變化(多選)?B.準(zhǔn)確率(Precision)減小C.召回率(Recall)減小或者不變27.點擊率預(yù)測是一個正負(fù)樣本不平衡問題(例如99%的沒有點擊,只有1%點擊)。正確率。對于此題來說,如果我們預(yù)測的結(jié)果是100說正確率是99%,因為只有1%的點擊預(yù)測錯誤。但是,我們其實更關(guān)心的那1%的點B.增加學(xué)習(xí)率29.我們想要訓(xùn)練一個ML模型,樣本數(shù)量有100萬個,特征維度是5000,面對如個更小的數(shù)據(jù)集,比如說,有1000個特征和300000個樣本進行訓(xùn)練。使用在線學(xué)習(xí)(onlinelearning)算法31.如何在監(jiān)督式學(xué)習(xí)中使用聚類算法(多選)?32.下面哪句話是正確的?果發(fā)現(xiàn)3對變量(Var1和Var2、Var2和Var3、Var3和Var1)之間的相關(guān)性分別為-0.98、0.45和1.23。我們能從中推斷出什么呢?C.Var3和Var1相關(guān)系數(shù)為1.23是不可能的果相關(guān)大于0.7或小于-0.7,那么我們認(rèn)為特征之間有很高的相關(guān)性。第三個選項是35.下列哪種方法可以用來減小過擬合?(多選)本例中,LO范數(shù)為5,L1范數(shù)為19,L2范數(shù)為√111。A.增大B.減小C.不變40.下列哪一項能反映出X和Y之間的強相關(guān)性?A.相關(guān)系數(shù)為0.9B.對于無效假設(shè)β=0的p值為0.0001C.對于無效假設(shè)β=0的t值為30C.平均互信息A.SVM對噪聲(如來自其他分部的噪聲樣本)具備魯棒性43.以下描述錯誤的是(C)C.剪枝解析:線性回歸能完成的任務(wù)是預(yù)測連續(xù)值。46.產(chǎn)量(X,臺)與單位產(chǎn)品成本(y,元/臺)之家你的回歸方程為y=356-1.5x,這說A。產(chǎn)量每增加一臺,單位產(chǎn)品成本增加356元B。產(chǎn)品每增加一臺,單位產(chǎn)品的成本減少1.5元C.產(chǎn)量每增加一臺,單位產(chǎn)品的成本平均增加356元D。產(chǎn)量每增加一臺,單位產(chǎn)品成本平均減少1.5元解析:首先觀察這個函數(shù),y=356-1.5x,這條直線的斜率是負(fù)值,從直線可以看出,y與x之間呈反比關(guān)系。可是根據(jù)實際情況而言,當(dāng)產(chǎn)量越來越多的時候,成本就越來越少,那么當(dāng)x無限接近于正無窮的時候,x豈不是為負(fù)值了嗎???不知道你們遠不愿意,反正如果是我的話,我肯定不愿意。所以說他只是在某一個階段符合上述條件。當(dāng)x=1,y=354.5;當(dāng)x=2,y=353;x=3,y=351.5;將這三個數(shù)進行計算,平均值是1.5.所以正確答案為D47.直線方程y=wx+b,其中b表示(B)解析:在機器學(xué)習(xí)中w表示系數(shù),斜率和權(quán)重,b表示截距48.以下描述中,對梯度解釋正確的是(AB)A梯度是一個向量,有方向有大小B求梯度就是對梯度向量的各個元素求偏導(dǎo)C梯度只有大小沒有方向D梯度只有方向沒有大小解析:theta是一個幾行幾列的矩陣,求偏導(dǎo)之后還是一個矩陣。所以說梯度是一個向量,有方向有大小。定義,求梯度就是對梯度向量的各個元素求偏導(dǎo)。49.關(guān)于誤差ε的說法正確的是(AB)k-Means和k-NN都需要使用距離。而決策樹對于數(shù)值特征,只在乎其大小排序,而非絕對大小。不管是標(biāo)準(zhǔn)化或者歸一化,都不會影響數(shù)值之間的相對大小。關(guān)于決策樹如何對數(shù)值特征進行劃分53.選擇Logistic回歸中的One-Vs-All方法中的哪個選項是真實的。A我們需要在n類分類問題中適合n個模型B我們需要適合n-1個模型來分類為n個類C我們需要只適合1個模型來分類為n個類D這些都沒有正確答案是:A解析:如果存在n個類,那么n個單獨的邏輯回歸必須與之相適應(yīng),其中每個類的概率由剩余類的概率之和確定。54.假設(shè)對給定數(shù)據(jù)應(yīng)用了Logistic回歸模型,并獲得了訓(xùn)練精度X和測試精度Y?,F(xiàn)在要在同一數(shù)據(jù)中添加一些新特征,以下哪些是錯誤的選項。注:假設(shè)剩余參數(shù)相同。A訓(xùn)練精度提高B訓(xùn)練準(zhǔn)確度提高或保持不變C測試精度提高或保持不變正確答案是:B解析:將更多的特征添加到模型中會增加訓(xùn)練精度,因為模型必須考慮更多的數(shù)據(jù)來適應(yīng)邏輯回歸。但是,如果發(fā)現(xiàn)特征顯著,則測試精度將會增加55.假定特征F1可以取特定值:A、B、C、D、E和F,其代表著學(xué)生在大學(xué)所獲得的評分。在下面說法中哪一項是正確的?A特征F1是名義變量(nominalvariable)的一個實例。B特征F1是有序變量(ordinalvariable)的一個實例。C該特征并不屬于以上的分類。D以上說法都正確。正確答案是:B58.假設(shè)我們有一個數(shù)據(jù)集,在一個深度為6的決策樹的幫助下,它可以使用100%的1深度為4時將有高偏差和低方差2深度為4時將有低偏差和低方差2錯誤分類率是~0.914真正率(Truepositiverate)是~0.952樹深3樹葉樣本65.甲盒中有200個螺桿,其中有160個A型螺桿;乙盒中有240個螺母,其中有從各交通工具遲到的概率分別是1/4,1/3,1/12,0,下列語句中正確的?D.坐陸路(火車、汽車)交通工具準(zhǔn)點機會比坐水路(輪船)要低。乘坐火車準(zhǔn)點的概率為:3/10*(1-1乘坐輪船準(zhǔn)點的概率為:2/10*(1-1/3)=16/120乘坐汽車準(zhǔn)點的概率為:1/10*(1-1/12)=11/120乘坐飛機準(zhǔn)點的概率為:4/10*1=48/120A:9/120/18/120=0.5對C:48/120/(27+16+11+48)/120=48/102錯D:27/120+11/120>16/120錯68.對于信息增益,決策樹分裂節(jié)點,下面說法正確的是()2信息增益可以用”1比特-熵”獲得3如果選擇一個屬性具有許多歸類值,那么這個信息增益是有偏差的C2和3D所有以上純度越高,表示不確定越少,更少的信息就可以區(qū)分69.假設(shè)三個稠密矩陣(DenseMatrix)A,B,C的尺寸分別為m*n,n*q和p*q,且所有效率都相同mp(2n-1)<mq(2n-1);mp(2n-1)<mq(2nmq(2p-1)<nq(2p-1);mq(2p-1)<nq(2p所以(AB)C運算次數(shù)最少,效率最高;越小越要先乘70.梯度下降可以從以下哪些地方調(diào)優(yōu)?B.參數(shù)初始值C.歸一化D.激活函數(shù)71.以下()不屬于線性分類器最佳準(zhǔn)則?A感知準(zhǔn)則函數(shù)B貝葉斯分類C支持向量機DFisher準(zhǔn)則答案B感知準(zhǔn)則函數(shù):準(zhǔn)則函數(shù)以使錯分類樣本到分界面距離之和最小為原則。其優(yōu)點是通支持向量機:基本思想是在兩類線性可分條件下,所設(shè)計的分類器界面使兩類之間的間隔為最大,它的基本出發(fā)點是使期望泛化風(fēng)險盡可能小。(使用核函數(shù)可解決非線性問題)Fisher準(zhǔn)則:更廣泛的稱呼是線性判別分析(LDA),將所有樣本投影到一條遠點出面方程是()A2x+y=4Bx+2y=5Cx+2y=3斜率是兩點連線的斜率的負(fù)倒數(shù)-1/((-1-3)/(0-2))=-1/2,可得y=-(1/2)x+c,過中點((0+2)/2,(-1+3)/2)=(1,1),可得c=3/2,故選C.2.如果兩個變量相關(guān),那么它們一定是線性關(guān)系嗎?(錯)3.兩個變量相關(guān),它們的相關(guān)系數(shù)r可能為0。(對)果兩個變量相互獨立,那么相關(guān)系數(shù)r一定為0,如果相關(guān)系數(shù)r=0,則不一定相互能優(yōu)于經(jīng)典回歸方法。(對)該模型將在另外一個新的測試集上也能得到100%的準(zhǔn)確率。(錯)分類問題。(對)9.決策樹只用來分類。(錯)10.回歸及分類常用的評估指標(biāo)都是準(zhǔn)確率和召A的條件概率。(對)尋找數(shù)據(jù)的最佳函數(shù)匹配。(對)17.決策樹的剪枝基本策略有預(yù)剪枝(Pre-Pruning)和后剪枝。(對)27.SVM不涉及核函數(shù)。(錯)28.SVM自帶正則項。(對)29.SVM無法做多分類。(錯)30.決策樹容易發(fā)生過擬合。(對)31.決策樹容易發(fā)生欠擬合。(對)34.FP——將負(fù)類預(yù)測為正類數(shù)。(對)36.P(θ)是在沒有數(shù)據(jù)支持下,θ發(fā)生的概率:先驗概率。(對)37.P(θ|x)是在數(shù)據(jù)X的支持下,θ發(fā)生的概率:后驗概率。(對)化。(對)越小。(錯)41.矩陣的L0范數(shù):矩陣的非0元素的個數(shù),通常素越多,也就越稀疏。(對)45.標(biāo)量是0階張量。(對)46.樸素貝葉斯適合高維數(shù)據(jù)。(錯)48.SVM對缺失數(shù)據(jù)敏感。(對)49.邏輯回歸計算速度快。(對)50.決策樹只能處理數(shù)據(jù)型屬性。(錯)51.SVM適合高維數(shù)據(jù)。(對)53.正確肯定(TruePositive,TP):預(yù)測為真,實際為真。(對)54.錯誤否定(FalseNegative,FN):預(yù)測為假,實際為真。(對)這樣結(jié)果的參數(shù)值。(對)59.決策樹算法可以用于小數(shù)據(jù)集。(對)60.錯誤率(ErrorRate)是分類錯誤的樣本數(shù)占樣本總數(shù)的比例。(對)8.提取出的正確信息條數(shù)/提取出的信息條數(shù)是正確率。計算誤差(Error)來確定模型的精確性。征選擇14.已知坐標(biāo)軸中兩點A(2,-2)B(-1,2),這兩點的曼哈頓距離(L1距離)是7。20.基尼指數(shù)(基尼不純度)=樣本被選中的概率*樣本被分錯的概率。21.p(x|θ)是給定參數(shù)0的概率分布:似然函數(shù)。23.馬式距離的特征則是:平移不變性、旋轉(zhuǎn)不變性、尺度不變性。多個數(shù)的數(shù)組)。30.經(jīng)驗誤差(empiricalerror)也叫訓(xùn)練誤差。題不能叫平面)上下降最快的方向。在PracticalImplementation中,牛頓方向(考慮海12.有數(shù)據(jù)集D1,其中樣本的特征是離散取值(可以簡單地考慮取二值),數(shù)據(jù)集D2和D1E(ei)=0i=1,2,…,n21.什么是梯度?27.如何對決策樹進行剪枝?第8章隨機森林一、選擇題(30題)1.當(dāng)你使用Boosting提升算法時,你會考慮弱學(xué)習(xí)器,以下哪項是使用弱學(xué)習(xí)器的主要原因?(B)A.防止過擬合B.防止欠擬合C.防止過擬合和防止欠擬合D.都不對①這兩種方法都可以用來解決分類問題④這兩種方法都可以用來解決回歸問題A.隨機森林中每個學(xué)習(xí)器是相互獨立的B.隨機森林利用了bagging的思想來構(gòu)建強學(xué)習(xí)器C.GBDT利用了Boosting的思想來構(gòu)建強學(xué)習(xí)器7.關(guān)于AdaBoost,下列說法中正確的是(多選):(AC)8.集成學(xué)習(xí)策略有哪些(D)B.平均法B.平均法C.學(xué)習(xí)法B.傳統(tǒng)決策樹在選擇劃分屬性時是在當(dāng)前結(jié)點的屬性A.從原始樣本集M個樣本中使用bootstrap(有放回的隨機抽樣)采樣法選出mC.對部分缺失特征敏感B.不需要通過交叉驗證D.以上都是C.均方差D.上述都對D.上述都是29.屬于隨機森林超參數(shù)的是(A)D.以上都不是30.能用于對隨機森林進行剪枝或約束樹生長的參數(shù)有不包括哪一個(D)B.min_samples_leaf二、對錯題(25題)20Bagging的代表算法有:Adaboost和GradientBoostingTree(GBD23.隨機森林(RandomForest,簡稱RF)[Breiman,2001a]是Bagging的一個擴三、填空題(5題)四、問答題(6題)做?如果不行,為什么?如,一個SVM分類器,一個決策樹分類器,以及一個Logis果更優(yōu)。如果它們是在不同的訓(xùn)練實例(這是bagging和pasting集成的關(guān)鍵點)上呢?boosting集成呢?隨機森林或stacking集成呢?整?A升高B降低2.RegionBoost與AdaBoost相比:(A)A確保在t+1代所有樣本權(quán)重之和為1B基礎(chǔ)分類器可以任意弱(準(zhǔn)確率高于50%)8.在scikit-learn中,如何處理多類分類(Multi-classclDB.scikit-learn只能用oneC.scikit-learn只能用one-vs.-the-rest方法實現(xiàn)多類分類解析:最小可執(zhí)行demo,創(chuàng)業(yè)階段最重要方案可行。A.可以集成出訓(xùn)練誤差任意低的分類器B.基礎(chǔ)分類器可以任意弱C.通過對樣本進行加權(quán)達到改變訓(xùn)練集的效果D.被當(dāng)前基礎(chǔ)分類器分錯的樣本的權(quán)重將會減小解析:Adaboost屬于加法模型,通過對樣本進行加權(quán)達到改變訓(xùn)練集的效果A能夠降到的維數(shù)不同B計算效率不同C降維的目標(biāo)不同D我讀書少,看不出來A.擬合效果更好B.并行能力更強C.對缺失值的處理效果更好D.小樣本處理能力更差13.Adaboost如何處理多分類問題(A)B.使用多棵樹進行多分類分析C.使用softmax進行多分類分析D.以上都不對14.關(guān)于Adaboost多分類描述正確的是(D)D.上述都對15.關(guān)于Adaboost優(yōu)點描述正確的是(B)A.容易受到噪聲干擾B.不用做特征篩選C.訓(xùn)練時間長D.執(zhí)行效果依賴于弱學(xué)習(xí)器的選擇A.Boosting:降低方差。B.Boosting:每一輪的訓(xùn)練集不變,只是訓(xùn)練集中每個樣本的權(quán)重發(fā)生變化,權(quán)值根B.max_samples_leafD.min_weight_fraction_leafA.AdaBoost于1997年提出。六、對錯題(25題)是獨立的。(T)21.Bagging:每個樣本七、填空題(5題)八、問答題(5題)對g(a)求導(dǎo)得:,得到:其中,在計算過程中用到的em為:由于Wmi=exp(-y?fm-1(x?)),所以得到新的損失為:最終的wmi通過規(guī)范化得到:第10章聚類九、選擇題(30題)A.1個B.2個C.3B.可使用性(用戶友好性):可以很方便地使用。D.以上全是3.算法的重要特性:(D)B.確定性:每一條指令無二義性。D.上述全是4.T(n)表示當(dāng)輸入規(guī)模為n時的算法效率,以下算法效率最優(yōu)的是(C)。A.T(n)=T(n-1)+1,T(1)=1C.T(n)=T(n/2)+1,T(1)=1D.T(n)=3nlog2n5.某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?(A)A.關(guān)聯(lián)規(guī)則發(fā)現(xiàn)B.聚類C.分類6.以下兩種描述分別對應(yīng)哪兩種對分類算法的評價標(biāo)準(zhǔn)?(A)A.Precision,Recall準(zhǔn)確率和召回率7.將原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務(wù)?A.頻繁模式挖掘B.分類和預(yù)測C.數(shù)據(jù)預(yù)處理D.數(shù)據(jù)流挖掘8.當(dāng)知道數(shù)據(jù)所帶標(biāo)簽時,可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?(A)A.分類B.聚類C.關(guān)聯(lián)分析C.預(yù)測建模務(wù)?(B)B.建模描述C.預(yù)測建模15.假設(shè)12個銷售價格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,15在第16.上題中,等寬劃分時(寬度為50),15又在哪個箱子里?(A)B序數(shù)C區(qū)間C映射數(shù)據(jù)到新的空間D特征構(gòu)造解析:特征修改無法創(chuàng)建新的屬性23.考慮值集{1、2、3、4、5、90},其截斷均值(p=20%)是(C)?解析:(2+3+4+5)/4=3.524.下面哪個屬于映射數(shù)據(jù)到新的空間的方法?(A)A傅立葉變換B特征加權(quán)C漸進抽樣D維歸約解析:傅立葉變換將時間域映射到頻率域25.熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是:A.電信29.屬于原型聚類算法的是()30Kmeans中確定K值的方法包括哪些:()C.手肘法(Elbow)十、對錯題(25題)樣本的聚類。(T)21.AGNES算法(AGglomerativeNESting)采用自上而下的策略。(F)22.DIANA算法(DIvisiveANALysis)采用自下而上的策十一、填空題(7題)Learning)方法。十二、問答題(6題)第11章降維技術(shù)與關(guān)聯(lián)規(guī)則挖掘十三、選擇題(30題)A.分類B.聚類C.關(guān)聯(lián)規(guī)則D.主成分分析題?(B)A.項頭表B.條件概率C.聯(lián)合概率D.簇9.關(guān)于欠擬合(under-fitting)C.訓(xùn)練誤差較大,測試誤差較大D.訓(xùn)練誤差不變,測試誤差較大A.刪除缺少值太多的列B.刪除數(shù)據(jù)差異較大的列C.刪除不同數(shù)據(jù)趨勢的列D.都不是B.分類準(zhǔn)則C.特征選取D.模式相似性測度12.影響基本K-均值算法的主要因素有(B)A.樣本輸入順序B.模式相似性測度C.聚類準(zhǔn)則D.樣本的數(shù)量B.求出X的協(xié)方差矩陣C;A.生成頻繁項集和生成規(guī)則B.找出強關(guān)聯(lián)規(guī)則C.找到所有滿足強關(guān)聯(lián)規(guī)則的項集26.以下關(guān)于頻繁項表述不正確的是(A)?A.頻繁項的子集是非頻繁的。B.頻繁項的子集是頻繁的。C.非頻繁項的超集是非頻繁的。D.非頻繁項的支持度一定小于最小支持度。27.以下屬于Apriori算法優(yōu)點的的是(A)?A.使用先驗原理,大大提高了頻繁項集逐層產(chǎn)生的效率B.每一步產(chǎn)生侯選項目集時循環(huán)產(chǎn)生的組合過多,沒有排除不應(yīng)該參與組合的元素C.只需要讀取兩次數(shù)據(jù)庫D.每次計算項集的支持度時,都對數(shù)據(jù)庫D中的全部記錄進行了一遍掃描比較,如果是一個大型的數(shù)據(jù)庫的話,這種掃描比較會大大增加計算機系統(tǒng)的I/0開銷。28.以下不屬于Apriori算法超參數(shù)的是(D)?D.頻繁項十四、對錯題(26題)構(gòu)強加于商務(wù)之上,一旦系統(tǒng)設(shè)計完畢,其程序和規(guī)則不會輕易改變;而前者則是的大(T)22.支持度:(→)=|交|/,表示物品集X和Y同十五、填空題(5題)2.置信度計算規(guī)則為:同時購買商品A和商品B的交易次數(shù)÷購買了商品A的次5.決策樹包含三種結(jié)點:根結(jié)點(矩形表示)、內(nèi)部結(jié)點(矩形表示)、葉結(jié)點/終結(jié)點(橢圓表示)。十六、問答題(6題)答:(1)主成分分析(PCA)(2)因子分析(FA)(3)獨立成分分析(ICA)想要把它降到500維。降維的過程就是找個一個從1000是9,那么特征選擇選到這個特征后它的值還是9,并沒有改變。第12章神經(jīng)網(wǎng)絡(luò)十七、選擇題(30題)D.AlloftheaboveD:以上所有A)ItcanhelpindimensionalityreductD)Al1oftheaboveD)B和CB)WeightbetweenhiddenC

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論