機器學習智慧樹知到期末考試答案章節(jié)答案2024年同濟大學_第1頁
機器學習智慧樹知到期末考試答案章節(jié)答案2024年同濟大學_第2頁
機器學習智慧樹知到期末考試答案章節(jié)答案2024年同濟大學_第3頁
機器學習智慧樹知到期末考試答案章節(jié)答案2024年同濟大學_第4頁
機器學習智慧樹知到期末考試答案章節(jié)答案2024年同濟大學_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

機器學習智慧樹知到期末考試答案+章節(jié)答案2024年同濟大學EM算法一定會收斂,但是可能收斂到局部最優(yōu)。()

答案:對ID3決策樹學習算法是以信息增益為準則來選擇劃分屬性的。()

答案:對邏輯回歸LR是參數(shù)模型,支持向量機SVM也是參數(shù)模型。()

答案:錯數(shù)據(jù)集D的純度可用它的基尼值來度量,基尼值越大,則數(shù)據(jù)集D的純度越高。()

答案:錯給定n個數(shù)據(jù)點,如果其中一半用于訓練,另一半用于測試,則訓練誤差和測試誤差之間的差別會隨著n的增加而減小。()

答案:對在模型中增加更多特征一般會增加訓練樣本的準確率,減小bias,但是測試樣本準確率不一定增加。()

答案:對一般來說,回歸不用在分類問題上,但是也有特殊情況,比如logistic回歸可以用來解決0/1分類問題。()

答案:對如果自變量X和因變量Y之間存在高度的非線性和復雜關系,那么樹模型很可能劣于經(jīng)典回歸方法。()

答案:錯選項中哪種方法可以用來減小過擬合?()

答案:L2正則化###減小模型的復雜度###L1正則化###更多的訓練數(shù)據(jù)變量選擇是用來選擇最好的判別器子集,如果要考慮模型效率,我們應該做哪些變量選擇的考慮?()

答案:多個變量是否有相同的功能###交叉驗證###特征是否攜帶有效信息

答案:(b)###(c)關于SVM與感知機,選項中說法正確的是:()

答案:都是用于分類的監(jiān)督學習算法###優(yōu)化方法方面,感知機采用梯度下降法,而SVM采用不等式約束結合拉格朗日乘子###損失函數(shù)方面,感知機采用的是誤分類,易造成過擬合,而SVM采用間隔最大化(合頁損失函數(shù)),一定程度上可避免過擬合###感知機只用于線性分類,SVM可用于線性和非線性分類選項中關于RandomForest和GradientBoostingTrees說法正確的是?()

答案:兩者都使用隨機特征子集來創(chuàng)建中間樹

答案:垂直偏移(verticaloffsets)假如使用一個較復雜的回歸模型來擬合樣本數(shù)據(jù),使用Ridge回歸,調(diào)試正則化參數(shù)λ,來降低模型復雜度。若λ較小時,關于偏差(bias)和方差(variance),下列說法正確的是?()

答案:若λ較小時,偏差減小,方差增大樸素貝葉斯分類器是一種特殊的Bayes分類器,特征變量是X,類別標簽是C,它的一個假定是:()

答案:以0為均值,sqr(2)/2為標準差的正態(tài)分布

答案:100%在數(shù)據(jù)預處理階段,我們常常對數(shù)值特征進行歸一化或標準化(standardization,normalization)處理。這種處理方式理論上不會對下列哪個模型產(chǎn)生很大影響?()

答案:決策樹下面哪句話是正確的?()

答案:增加模型的復雜度,總能減小訓練樣本誤差

答案:(b)假設某地區(qū)流行病識別中,正常(w1)和異常(w2)兩類的先驗概率分別為:正常狀態(tài):P(w1)=0.9異常狀態(tài):P(w1)=0.1現(xiàn)有一待識別個例,其觀察值為x,從類條件概率密度分布曲線上可查得:p(x|w1)=0.2,p(x|w2)=0.4那么該個例的狀態(tài)是()

答案:正常狀態(tài)下列說法錯誤的是?()

答案:沿負梯度的方向一定是最優(yōu)的方向下列哪種方法可以用來減小過擬合?()

答案:減小模型的復雜度###L2正則化###L1正則化###更多的訓練數(shù)據(jù)回歸問題和分類問題都有可能發(fā)生過擬合。()

答案:對k均值算法可看作是高斯混合聚類在混合成分方差相等、且每個樣本僅指派給一個混合成分時的特例。()

答案:對一個循環(huán)神經(jīng)網(wǎng)絡可以被展開成為一個完全連接的、具有無限長度的普通神經(jīng)網(wǎng)絡。()

答案:對支持向量機SVM是結構風險最小化模型,而邏輯回歸LR是經(jīng)驗風險最大化模型。()

答案:錯L1范數(shù)和L2范數(shù)正則化都有助于降低過擬合風險,但后者還會帶來一個額外的好處:它比前者更易于獲得"稀疏"(sparse)解。()

答案:錯決策樹的分界面是線性的。()

答案:錯在決策樹學習過程中,如果當前結點劃分屬性為連續(xù)屬性,那么該屬性還可作為其后代結點的劃分屬性。()

答案:對K-means算法中初始點的選擇對最終結果沒有影響,不同的初始值結果都一樣。()

答案:錯監(jiān)督式學習中存在過擬合,而對于非監(jiān)督式學習來說,沒有過擬合。()

答案:錯SVM對缺失數(shù)據(jù)敏感,而且當觀測樣本很多時,SVM方法的效率也不是很高。()

答案:對在決策樹的劃分屬性選擇中,信息增益準則對可取值數(shù)目較少的屬性有所偏好,而增益率準則對可取值數(shù)目較多的屬性有所偏好。()

答案:錯Logistic回歸目標函數(shù)是最小化后驗概率。()

答案:錯剪枝(pruning)是決策樹學習算法對付"欠擬合"的主要手段,其基本策略有"預剪枝"(pre-pruning)和"后剪枝"(post-pruning)。()

答案:錯對于PCA處理后的特征,其樸素貝葉斯特征相互獨立的假設一定成立,因為所有主成分都是正交的,所以不相關。()

答案:錯SVM不直接依賴數(shù)據(jù)分布,而邏輯回歸LR則依賴整體數(shù)據(jù)分布,因為SVM只與支持向量那幾個點有關系,而LR和所有點都有關系。()

答案:對后剪枝決策樹通常比預剪枝決策樹保留了更多的分支。一般情形下,后剪枝決策樹的欠擬合風險很小,泛化性能往往優(yōu)于預剪枝決策樹。()

答案:對關于神經(jīng)網(wǎng)絡,下列說法正確的是?()

答案:減少網(wǎng)絡層數(shù),可能會減少測試集分類錯誤率###增加網(wǎng)絡層數(shù),可能會增加測試集分類錯誤率以下描述中,對梯度解釋正確的是()

答案:梯度是一個向量,有方向有大小###求梯度就是對梯度向量的各個元素求偏導建立線性模型時,我們看變量之間的相關性。在尋找相關矩陣中的相關系數(shù)時,如果發(fā)現(xiàn)3對變量(Var1和Var2、Var2和Var3、Var3和Var1)之間的相關性分別為-0.98、0.45和1.23。我們能從中推斷出什么呢?()

答案:Var3和Var1相關系數(shù)為1.23是不可能的###Var1和Var2存在多重共線性,模型可以去掉其中一個特征###Var1和Var2具有很高的相關性對于劃分屬性選擇,選項中說法正確的是()

答案:增益率準則對可取值數(shù)目較少的屬性有所偏好###C4.5算法并不是直接選擇增益率最大的候選劃分屬性,而是先從候選劃分屬性中找出信息增益高于平均水平的屬性,再從中選擇增益率最高的。###信息增益準則對可取值數(shù)目較多的屬性有所偏好影響聚類算法結果的主要因素有()。

答案:特征選取;###分類準則;###模式相似性測度。下列方法中,可以用于特征降維的方法包括?()

答案:線性判別分析LDA###主成分分析PCA###矩陣奇異值分解SVD###AutoEncoder下列關于PCA說法正確的是?()

答案:在使用PCA之前,我們必須標準化數(shù)據(jù)###應該選擇具有最大方差的主成分###可以使用PCA在低維空間中可視化數(shù)據(jù)以下哪種方法屬于判別式模型(discriminativemodel)?()

答案:支持向量機###線性判別分析LDA集成學習中個體學習器多樣性增強的主要途徑有:()

答案:數(shù)據(jù)樣本擾動###輸出表示擾動###算法參數(shù)擾動###輸入屬性擾動有一些基學習器對數(shù)據(jù)樣本的擾動不敏感,稱為穩(wěn)定基學習器。下列學習器屬于穩(wěn)定基學習器的是:()

答案:線性學習器###k近鄰學習器###支持向量機###樸素貝葉斯智能化中醫(yī)望診時,對一幅舌脈圖像(伸出舌頭的人臉圖像),希望把舌頭部分從人臉的其他部分劃分出來,可以采用以下方法:將整幅圖的每個象素的屬性記錄在一張數(shù)據(jù)表中,然后用某種方法將這些數(shù)據(jù)按它們的自然分布狀況劃分成兩類。因此每個象素就分別得到相應的類別號,從而實現(xiàn)了舌頭圖像的分割。那么這種方法屬于:()

答案:非監(jiān)督學習關于L1、L2正則化下列說法正確的是?()

答案:L1正則化得到的解更加稀疏已知坐標系中兩點A(2,?2)和B(?1,2),這兩點的曼哈頓距離(L1距離)是()

答案:7模型的bias很高,我們?nèi)绾谓档退?()

答案:在特征空間中增加特征K-Means算法無法聚以下哪種形狀的樣本?()

答案:螺旋分布k-NN最近鄰方法在什么情況下效果較好?()

答案:樣本較少但典型性好假定你在神經(jīng)網(wǎng)絡中的隱藏層中使用激活函數(shù)X。在特定神經(jīng)元給定任意輸入,你會得到輸出-0.01。X可能是以下哪一個激活函數(shù)?()

答案:tanh如果我們說“線性回歸”模型完美地擬合了訓練樣本(訓練樣本誤差為零),則下面哪個說法是正確的?()

答案:選項中的說法都不對假設我們使用原始的非線性可分版本的Soft-SVM優(yōu)化目標函數(shù)。我們需要做什么來保證得到的模型是線性可分離的?()

答案:C正無窮大線性回歸能完成的任務是()

答案:預測連續(xù)值Dropout技術在下列哪種神經(jīng)層中將無法發(fā)揮顯著優(yōu)勢?()

答案:RNN層邏輯回歸將輸出概率限定在[0,1]之間。下列哪個函數(shù)起到這樣的作用?()

答案:Sigmoid函數(shù)選項中關于線性回歸分析中的殘差(Residuals)說法正確的是?()

答案:殘差均值總是為零機器學習訓練時,Mini-Batch的大小優(yōu)選為2個的冪,如256或512。它背后的原因是什么?()

答案:Mini-Batch設為2的冪,是為了符合CPU、GPU的內(nèi)存要求,利于并行化處理如果兩個變量相關,那么它們一定是線性關系嗎?()

答案:不一定選項中哪些方法不可以直接來對文本分類?()

答案:K-Means我們想在大數(shù)據(jù)集上訓練決策樹,為了使用較少時間,我們可以()

答案:減少樹的深度關于欠擬合(under-fitting),下面哪個說法是正確的?()

答案:訓練誤差較大,測試誤差較大在n維空間中(n>1),下列哪種方法最適合用來檢測異常值?()

答案:馬氏距離SVM中核技巧(Kernaltrick)的作用包括以下哪項?()

答案:特征升維關于特征選擇,下列對Ridge回歸和Lasso回歸說法正確的是?()

答案:Lasso回歸適用于特征選擇我們希望減少數(shù)據(jù)集中的特征數(shù)量。你可以采取以下哪一個步驟來減少特征?()

答案:使用反向消除法(BackwardElimination)###計算不同特征之間的相關系數(shù),刪去相關系數(shù)高的特征之一###使用正向選擇法(ForwardSelection)###逐步選擇消除法(Stepwise)下列哪一種方法的系數(shù)沒有閉式(closed-form)解?()

答案:Lasso關于L1正則和L2正則下面的說法正確的是()

答案:L1范數(shù)會使權值稀疏###L2正則化表示各個參數(shù)的平方和的開方值以下哪些方法不可以直接來對文本分類?()

答案:K-Means我們想要訓練一個ML模型,樣本數(shù)量有100萬個,特征維度是5000,面對如此大數(shù)據(jù),如何有效地訓練模型?()

答案:嘗試使用在線機器學習算法###對訓練集隨機采樣,在隨機采樣的數(shù)據(jù)上建立模型###使用PCA算法減少特征維度

答案:30

答案:100%下列哪些算法可以用來夠造神經(jīng)網(wǎng)絡?()

答案:線性回歸###邏輯回歸如何在監(jiān)督式學習中使用聚類算法?()

答案:首先,可以創(chuàng)建聚類,然后分別在不同的集群上應用監(jiān)督式學習算法###在應用監(jiān)督式學習算法之前,可以將其類別ID作為特征空間中的一個額外的特征向量x=[1,2,3,4,-9,0]的L1范數(shù)是()

答案:19k均值算法和"學習向量量化"都是原型聚類方法,也都屬于無監(jiān)督學習方法。()

答案:錯K-Means聚類的主要缺點有:()

答案:K值很難確定###聚類效果依賴于聚類中心的初始化###對于非凸數(shù)據(jù)集或類別規(guī)模差異太大的數(shù)據(jù)效果不好###對噪音和異常點敏感下列聚類方法屬于原型聚類的是()

答案:高斯混合聚類###K-Means算法###學習向量量化LVQ數(shù)據(jù)科學家經(jīng)常使用多個算法進行預測,并將多個機器學習算法的輸出(稱為“集成學習”)結合起來,以獲得比所有個體模型都更好的更健壯的輸出。則下列說法正確的是?()

答案:基本模型之間相關性低下面關于RandomForest和GradientBoostingTrees說法正確的是?()

答案:兩者都使用隨機特征子集來創(chuàng)建中間樹如果用“三個臭皮匠頂個諸葛亮”來比喻集成學習的話,那么對三個臭皮匠的要求可能是:()

答案:三個臭皮匠不能太差,每個人考試都能及格###三個臭皮匠的優(yōu)點各不相同集成學習中個體學習器的多樣性不宜高,否則容易顧此失彼,降低系統(tǒng)的總體性能。()

答案:錯以下方法屬于集成學習方法的是()

答案:bagging###boosting###stacking下列關于極大似然估計(MaximumLikelihoodEstimate,MLE),說法正確的是()

答案:如果MLE存在,那么它的解可能不是唯一的###MLE可能并不存在

答案:(b)###(c)樸素貝葉斯分類器有屬性條件獨立的假設前提。()

答案:對樸素貝葉斯屬于生成式模型,而SVM和決策樹屬于判別式模型。()

答案:對關于貝葉斯網(wǎng)絡,以下說法正確的是:()

答案:貝葉斯網(wǎng)絡又稱信念網(wǎng)絡###貝葉斯網(wǎng)絡是有向無環(huán)圖模型###貝葉斯網(wǎng)絡是一種概率圖模型邏輯回歸LR是參數(shù)模型,支持向量機SVM是非參數(shù)模型。()

答案:對關于SVM與感知機,以下說法正確的是:()

答案:感知機只用于線性分類,SVM可用于線性和非線性分類###都是用于分類的監(jiān)督學習算法###優(yōu)化方法方面,感知機采用梯度下降法,而SVM采用不等式約束結合拉格朗日乘子###損失函數(shù)方面,感知機采用的是誤分類,易造成過擬合,而SVM采用間隔最大化(合頁損失函數(shù)),一定程度上可避免過擬合如果SVM模型欠擬合,以下方法哪些可以改進模型()

答案:增大懲罰參數(shù)C的值支持向量機SVM是結構風險最小化模型,而邏輯回歸LR是經(jīng)驗風險最小化模型。()

答案:對在訓練完SVM之后,我們可以只保留支持向量,而舍去所有非支持向量,仍然不會影響模型分類能力。()

答案:對關于SVM如何選用核函數(shù),下列說法正確的是:()

答案:線性核主要用于線性可分以及樣本數(shù)與特征數(shù)差不多的情況###非線性核主要用于線性不可分以及特征數(shù)較少樣本量一般的情況###高斯核和tanh核都屬于非線性核,而且高斯核還可以把原始維度映射到無窮多維深度神經(jīng)網(wǎng)絡中常用Relu函數(shù)作為激活函數(shù),其好處是:()

答案:收斂快###具有稀疏特性###求梯度簡單梯度爆炸問題是指在訓練深度神經(jīng)網(wǎng)絡的時候,梯度變得過大而損失函數(shù)變?yōu)闊o窮。在RNN中,下面哪種方法可以較好地處理梯度爆炸問題?()

答案:梯度裁剪在回歸模型中,下列哪一項在權衡欠擬合(under-fitting)和過擬合(over-fitting)中影響最大?()

答案:多項式階數(shù)在決策樹分割結點的時候,下列關于信息增益說法正確的是()

答案:信息增益可以用”1比特-熵”獲得###如果選擇一個屬性具有許多特征值,那么這個信息增益是有偏差的對于劃分屬性選擇,以下說法正確的是()

答案:信息增益準則對可取值數(shù)目較多的屬性有所偏好###增益率準則對可取值數(shù)目較少的屬性有所偏好###C4.5算法并不是直接選擇增益率最大的候選劃分屬性,而是先從候選劃分屬性中找出信息增益高于平均水平的屬性,再從中選擇增益率最高的。在決策樹學習過程中,用屬性α對樣本集D進行劃分所獲得的"信息增益"越大,則意味著使用屬性α來進行劃分所獲得的"純度提升"越大。()

答案:對數(shù)據(jù)集D的純度可用它的基尼值來度量,基尼值越小,則數(shù)據(jù)集D的純度越高。()

答案:對如果自變量X和因變量Y之間存在高度的非線性和復雜關系,那么樹模型很可能優(yōu)于經(jīng)典回歸方法。()

答案:對一般來說,下列哪種方法常用來預測連續(xù)獨立變量?()

答案:線性回歸點擊率預測是一個正負樣本不平衡問題(例如99%的沒有點擊,只有1%點擊)。假如在這個非平衡的數(shù)據(jù)集上建立一個模型,得到訓練樣本的正確率是99%,則下列說法正確的是?()

答案:模型正確率并不高,應該建立更好的模型加入使用邏輯回歸對樣本進行分類,得到訓練樣本的準確率和測試樣本的準確率?,F(xiàn)在,在數(shù)據(jù)中增加一個新的特征,其它特征保持不變。然后重新訓練測試。則下列說法正確的是?()

答案:訓練樣本準確率一定增加或保持不變

答案:垂直偏移(verticaloffsets)下列關于線性回歸分析中的殘差(Residuals)說法正確的是?()

答案:殘差均值總是為零下列哪些假設是我們推導線性回歸參數(shù)時遵循的?()

答案:X與Y有線性關系(多項式關系)###模型誤差在統(tǒng)計學上是獨立的###誤差一般服從0均值和固定標準差的正態(tài)分布###X是非隨機且測量沒有誤差的下列關于bootstrap說法正確的是?()

答案:從總的N個樣本中,有放回地抽取n個樣本(n<N)評估完模型之后,發(fā)現(xiàn)模型存在高偏差(highbias),應該如何解決?()

答案:增加模型的特征數(shù)量小明參加Kaggle某項大數(shù)據(jù)競賽,他的成績在大賽排行榜上原本居于前20,后來他保持特征不變,對原來的模型做了1天的調(diào)參,將自己的模型在自己本地測試集上的準確率提升了3%,然后他信心滿滿地將新模型的預測結果更新到了大賽官網(wǎng)上,結果懊惱地發(fā)現(xiàn)自己的新模型在大賽官方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論