機器學習第2章 模型評估與選擇.ppt_第1頁
機器學習第2章 模型評估與選擇.ppt_第2頁
機器學習第2章 模型評估與選擇.ppt_第3頁
機器學習第2章 模型評估與選擇.ppt_第4頁
機器學習第2章 模型評估與選擇.ppt_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、第2章模型評估與選擇,主要內(nèi)容,經(jīng)驗誤差與過擬合 評估方法 性能度量 比較檢驗 偏差與方差,誤差,誤差(error):學習器實際預測輸出與樣本真實輸出之間的差異 訓練集:訓練誤差(training error),(經(jīng)驗誤差,empirical error) 訓練集的補集:泛化誤差(generalization error) 我們希望泛化誤差小的學習器,過擬合,過擬合(overfitting):訓練過度使泛化能力下降 欠擬合(underfitting):未能學好訓練樣本的普遍規(guī)律 過擬合是機器學習的關鍵障礙 且不可避免! 模型誤差包含了數(shù)據(jù)誤差, 或者說模型信息中包含了噪聲。,學習器泛化評估實驗

2、測試,測試集:測試誤差(testing error) 訓練集和測試集組成數(shù)據(jù)集。 假設測試樣本是從真實分布中采樣而得,避免因數(shù)據(jù)劃分引入偏差。 測試集應與訓練集互斥。,調(diào)參與最終模型,參數(shù)調(diào)節(jié)(parameter tuning) 算法參數(shù) 人工設定候選值 模型參數(shù) 通過學習產(chǎn)生候選模型 數(shù)據(jù)集 訓練集訓練估計模型 驗證集模型參數(shù)調(diào)整 測試集估計泛化能力 學習算法和參數(shù)配置確定后要用整個數(shù)據(jù)集重新訓練模型,性能度量,性能度量(performance measure):衡量模型泛化能力的評價標準 回歸(regression):均方誤差(mean squared error) 離散數(shù)據(jù): ; = 1

3、 =1 ( ) 2 連續(xù)數(shù)據(jù): ; = 2 分類(classification):錯誤率(error rate)和精度(accuracy) 離散數(shù)據(jù): ; = 1 =1 ( ) ,acc ; = 1 =1 ( = ) 連續(xù)數(shù)據(jù): ; = ,acc ; = = ,任務需求以二分類為例,混淆矩陣(confusion matrix),非對角,糾纏相 查準率(precision):= + 查全率(recall):= + P-R曲線 面積、平衡點(Break-Even-Point,BEP) 1度量:,的調(diào)和平均 度量: ,的加權(quán)調(diào)和平均,多混淆矩陣,先分別計算查準率和查全率,再平均 宏查準率(macro

4、):macro= 1 =1 宏查全率(macro):macro= 1 =1 宏1(macro1) 先平均各混淆矩陣對應元素,再計算查準率和查全率 微查準率(micro):micro= + 微查全率(micro):micro= + 微1(micro1),ROC與AUC,受試者工作特征曲線(Receiver Operating Characteristic) 橫軸假正例率:FPR= + 縱軸真正利率:TPR= + AUC(Area Under ROC curve) AUC= 1 2 =1 1 ( +1 )( + +1 ) AUC反應樣本預測的排序質(zhì)量 AUC=1 (排序損失),代價敏感錯誤率與代價

5、曲線,非均等代價(unequal cost) 代價矩陣(cost matrix) 代價敏感錯誤率:加權(quán)的錯誤率 代價曲線(cost curve): 橫軸正例概率代價 + = 01 01 +(1) 10 縱軸歸一化代價 = FNR 01 +FPR(1) 10 01 +(1) 10,比較檢驗,如何比較?從統(tǒng)計的角度 統(tǒng)計假設檢驗(hypothesis test):根據(jù)測試錯誤率估計推斷泛化錯誤率的分布。 提出假設找到符合某種概率分布的中間變量利用該概率分布確定在某個置信度(confidence)下是否接受該假設,單個學習器,二項檢驗 泛化錯誤率為的學習器,個測試樣本,測試錯誤率為 假設“ 0 ”,

6、置信度為1,拒絕域為 ,其中臨界值 =max s.t. = 0 +1 (1) /2,一個數(shù)據(jù)集多個學習器,成對t檢驗 學習器A和B,折交叉驗證法得測試錯誤率 和 (=1,) 計算得差值 及它們的均值和樣本方差 2 假設“ = ”,顯著度,拒絕域為 = /2 McNemar檢驗 學習器A和B,留出法得列聯(lián)表(contingency table) 假設“ 01 = 10 ”,顯著度,拒絕域為 2 = ( 01 10 1) 2 01 + 10 2,多個數(shù)據(jù)集和多個學習器,Friedman檢驗 由數(shù)據(jù)集 1 , 對算法 A (=1,)測試結(jié)果排序得算法平均序值 假設“各算法性能相同”, ,顯著度,拒絕域為 = (1) 2 1 2 1, 1 1 (/2),其中 2 = 12 +1 ( =1 2 (+1) 2 4 ) Nemenyi后續(xù)檢驗 若假設被拒絕,計算平均序值差別的臨界值域= (+1) 6 假設“兩個算法性能相同”,顯著度,拒絕域為 ,偏差與方差,泛化誤差可分解為偏差、方差和噪聲之

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論