《機器學習-Python實踐》試卷及答案 卷3_第1頁
《機器學習-Python實踐》試卷及答案 卷3_第2頁
《機器學習-Python實踐》試卷及答案 卷3_第3頁
《機器學習-Python實踐》試卷及答案 卷3_第4頁
《機器學習-Python實踐》試卷及答案 卷3_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第1頁,共1頁一、單項選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學年第1學期)考試科目機器學習-Python實踐(A卷)適用專業(yè)班級(年級)得分命題人:審閱人:班級學號姓名考試科目裝訂線1、個人健康和年齡的相關系數是-1.09。根據這個你可以告訴醫(yī)生哪個結論?()A.年齡是健康程度很好的預測器B.年齡是健康程度很糟的預測器C.以上說法都不對D:兩者沒關系2、假如我們利用Y是X的3階多項式產生一些數據(3階多項式能很好地擬合數據)。那么,下列說法正確的是(多選)?()A.簡單的線性回歸容易造成高偏差(bias)、低方差(variance)B.簡單的線性回歸容易造成低偏差(bias)、高方差(variance)C.3階多項式擬合會造成低偏差(bias)、高方差(variance)D.3階多項式擬合具備低偏差(bias)、低方差(variance)3、假如你在訓練一個線性回歸模型,有下面兩句話:()1.如果數據量較少,容易發(fā)生過擬合。2.如果假設空間較小,容易發(fā)生過擬合。關于這兩句話,下列說法正確的是?A.1和2都錯誤B.1正確,2錯誤C.1錯誤,2正確D.1和2都正確4、假如我們使用Lasso回歸來擬合數據集,該數據集輸入特征有100個(X1,X2,…,X100)?,F在,我們把其中一個特征值擴大10倍(例如是特征X1),然后用相同的正則化參數對Lasso回歸進行修正。那么,下列說法正確的是?()A.特征X1很可能被排除在模型之外B.特征X1很可能還包含在模型之中C.無法確定特征X1是否被舍棄D.以上說法都不對5、假如使用邏輯回歸對樣本進行分類,得到訓練樣本的準確率和測試樣本的準確率。現在,在數據中增加一個新的特征,其它特征保持不變。然后重新訓練測試。則下列說法正確的是?()A.訓練樣本準確率一定會降低B.訓練樣本準確率一定增加或保持不變C.測試樣本準確率一定會降低D.測試樣本準確率一定增加或保持不變6、下面這張圖是一個簡單的線性回歸模型,圖中標注了每個樣本點預測值與真實值的殘差。計算SSE(平方誤差和)為多少?()A.3.02B.0.75C.1.01D.0.6047、關于“回歸(Regression)”和“相關(Correlation)”,下列說法正確的是?注意:x是自變量,y是因變量。()A.回歸和相關在x和y之間都是互為對稱的B.回歸和相關在x和y之間都是非對稱的C.回歸在x和y之間是非對稱的,相關在x和y之間是互為對稱的D.回歸在x和y之間是對稱的,相關在x和y之間是非對稱的8、關于AdaBoost,下列說法中正確的是(多選):()A.它是一種集成學習算法B.每個分類器的權重和被它正確分類的樣本的權重相同C.后一個基學習器要依賴于前一個基學習器的分類錯誤率和樣本的權重D.后一個基學習器每次只學習前一個基學習器被分錯的樣本9、集成學習策略有哪些() A.投票法B.平均法C.學習法D.上述都有10、集成學習策略常用于分類的是:()A.投票法B.平均法C.學習法D.上述都有二、判斷題(本大題共10小題,每題1分,共10分)1、決策樹短時間內處理大量數據,得到可行且效果較好的結果。()樸素貝葉斯適合高維數據。()標量是0階張量。()協(xié)方差是衡量兩個變量線性相關性強度及變量尺度。()聯(lián)合分布可求邊緣分布,但若只知道邊緣分布,無法求得聯(lián)合分布。()隨機變量可以分為離散型隨機變量和連續(xù)型隨機變量。()矩陣的L0范數:矩陣的非0元素的個數,通常用它來表示稀疏,L0范數越小0元素越多,也就越稀疏。()Adaboost算法流程計算該分類器的錯誤率,根據錯誤率計算要給分類器分配的權重。()9、Adaboost算法流程將第一個分類器分錯誤的樣本權重增加。()10、Adaboost算法流程然后再用新的樣本權重訓練數據,得到新的分類器。()三、填空(本大題共10小題,每題3分,共30分)1、一個表示一個單獨的數,它不同于線性代數中研究的其他大部分對象(通常是多個數的數組)。2、馬式距離的特征則是:。3、p(x|θ)是給定參數θ的概率分布:。4、基尼指數(基尼不純度)=*。5、Gini指數越小表示集合中被選中的樣本被分錯的概率越小,也就是說集合的純度。6、表示在樣本集合中一個隨機選中的樣本被分錯的概率。7、算法在決策樹生成的過程中,用信息增益比來選擇特征。8、聚類結果評估:分析結果,如距離誤差和(SSE)等。9、人工神經網絡(ArtificialNeuralNetworks,ANNs),也簡稱為神經網絡(NNs),是模擬進行信息處理的一種數學模型,以對大腦的生理研究成果為基礎,其目的在于模擬大腦的某些機理與機制,實現一些特定的功能。10、生物神經元主要由,,,組成。四、簡答題(本大題共3小題,共30分)1、梯度下降法找到的一定是下降最快的方向么?2、什么是最小二乘法?3、K-Means和KNN算法的區(qū)別是什么?一、選擇題1.C 2.AD 3.B 4.B 5.B 6.A 7.C 8.AC 9.D 10.A二、判斷題1.對 2.錯 3.對 4.對 5.對 6.對 7.對 8.對 9.對 10.對 三、填空題1.標量 2.平移不變性、旋轉不變性、尺度不變性 3.似然函數 4.樣本被選中的概率樣本被分錯的概率 5.越高 6.基尼指數(基尼不純度) 7.C4.5 8.聚類 9.生物神經網絡的結構和功能 10.細胞體樹突軸突突觸四、簡答題1、答:梯度下降法并不是下降最快的方向,它只是目標函數在當前的點的切平面(當然高維問題不能叫平面)上下降最快的方向。在PracticalImplementation中,牛頓方向(考慮海森矩陣)才一般被認為是下降最快的方向,可以達到Superlinear的收斂速度。梯度下降類的算法的收斂速度一般是Linear甚至Sublinear的(在某些帶復雜約束的問題)。2、答:最小二乘法(又稱最小平方法)是一種數學優(yōu)化技術。它通過最小化誤差的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據,并使得這些求得的數據與實際數據之間誤差的平方和為最小。3、首先,這兩個算法解決的是數據挖掘中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論