


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、3).Leave-One-Out Cross Validation( 記為 LOO-CV)以下簡稱交叉驗(yàn)證(Cross Validation)為CV.CV是用來驗(yàn)證分類器的性 能一種統(tǒng)計(jì)分析方法,基本思想是把在某種意義下將原始數(shù)據(jù)(dataset)進(jìn)行分組,一部分做為訓(xùn)練集(train set),另一部分做為驗(yàn)證集(validation set),首先用訓(xùn)練集對(duì)分類器進(jìn)行訓(xùn)練,再利用驗(yàn)證集來測試訓(xùn)練得到的 模型(model),以此來做為評(píng)價(jià)分類器的性能指標(biāo).常見CV的方法如下:1) .Hold-Out Method將原始數(shù)據(jù)隨機(jī)分為兩組,一組做為訓(xùn)練集,一組做為驗(yàn)證集,利用訓(xùn)練 集訓(xùn)練分類器,
2、然后利用驗(yàn)證集驗(yàn)證模型,記錄最后的分類準(zhǔn)確率為此 Hold-OutMethod下分類器的性能指標(biāo).此種方法的好處的處理簡單,只 需隨機(jī)把原始數(shù)據(jù)分為兩組即可,其實(shí)嚴(yán)格意義來說Hold-Out Method 并不能算是CV,因?yàn)檫@種方法沒有達(dá)到交叉的思想,由于是隨機(jī)的將原 始數(shù)據(jù)分組,所以最后驗(yàn)證集分類準(zhǔn)確率的高低與原始數(shù)據(jù)的分組有很 大的關(guān)系,所以這種方法得到的結(jié)果其實(shí)并不具有說服性.2) .K-fold Cross Validation(記為 K-CV)將原始數(shù)據(jù)分成K組(一般是均分),將每個(gè)子集數(shù)據(jù)分別做一次驗(yàn)證集, 其余的K-1組子集數(shù)據(jù)作為訓(xùn)練集,這樣會(huì)得到K個(gè)模型,用這K個(gè)模型 最終
3、的驗(yàn)證集的分類準(zhǔn)確率的平均數(shù)作為此K-CV下分類器的性能指標(biāo).K 一般大于等于2,實(shí)際操作時(shí)一般從3開始取,只有在原始數(shù)據(jù)集合 數(shù)據(jù)最小的時(shí)候才會(huì)嘗試取 2.K-CV可以有效的避免過學(xué)習(xí)以及欠學(xué)習(xí) 狀態(tài)的發(fā)生,最后得到的結(jié)果也比較具有說服性.如果設(shè)原始數(shù)據(jù)有 N個(gè)樣本,那么LOO-CV就是N-CV,即每個(gè)樣本單獨(dú)作為驗(yàn)證集,其余的N-1個(gè)樣本作為訓(xùn)練集,所以LOO-CV會(huì)得到N個(gè)模型,用這N個(gè)模型最終的驗(yàn)證集的分類準(zhǔn)確率的平均數(shù)作為此下LOO-CV分類器的性能指標(biāo).相比于前面的K-CV,LOO-CV有兩個(gè)明顯 的優(yōu)點(diǎn): a.每一回合中幾乎所有的樣本皆用于訓(xùn)練模型,因此最接近原始樣本的分布,這樣
4、評(píng)估所得的結(jié)果比較可靠。 b.實(shí)驗(yàn)過程中沒有隨機(jī)因素會(huì)影響實(shí)驗(yàn)數(shù)據(jù),確保實(shí)驗(yàn)過程是可以被復(fù)制的。但LOO-CV的缺點(diǎn)則是計(jì)算成本高,因?yàn)樾枰⒌哪P蛿?shù)景與原始數(shù)據(jù)樣本數(shù)景相同,當(dāng)原始數(shù)據(jù)樣本數(shù)景相當(dāng)多時(shí),LOO-CV在實(shí)作上便有 困難幾乎就是不顯示,除非每次訓(xùn)練分類器得到模型的速度很快,或是可 以用并行化計(jì)算減少計(jì)算所需的時(shí)間.使用Cross-Validation時(shí)常犯的錯(cuò)誤由丁實(shí)驗(yàn)室許多研究都有用到 evolutionary algorithms(EA)與classifiers ,所使 用的fitness function中通常都有用到classifier的辨識(shí)率,然而把cross-val
5、idation 用錯(cuò)的案例還不少。前面說 過,只有training data才可以用丁 model的建構(gòu), 所以只有training data的辨識(shí)率才可以用在fitness function中。而EA是訓(xùn)練過 程用來調(diào)整model最佳參數(shù)的方法,所以只有在EA結(jié)束演化后,model參數(shù)已 經(jīng)固定了,這 時(shí)候才可以使用test data。那EA跟cross-validation要如何搭配呢? Cross- validation的本質(zhì)是用來估測 (estimate)某個(gè) classification method 對(duì)一組 dataset 的 generalization error ,不 是用來
6、設(shè)計(jì)classifier的方法,所以cross-validation不能用在EA的fitnessfunction中,因?yàn)榕cfitness function有關(guān)的樣本都屆丁 training set ,那試問哪些 樣本才是 test set 呢?如果某個(gè) fitness function 中用了 cross-validation 的 training或test辨識(shí)率,那么這樣的實(shí)驗(yàn)方法已經(jīng)不能稱為cross-validation 了。EA與k-CV正確的搭配方法,是將dataset分成k等份的subsets后,每次取1 份 subset 作為 test set,其余 k-1 份作為 traini
7、ng set,并且將該組 training set 套用到EA的fitness function計(jì)算中(至丁該training set如何進(jìn)一步利用則沒有 限制)。因此,正確的k-CV會(huì)進(jìn)行共k次的EA演化,建立k個(gè)classifiers 0而 k-CV的test辨識(shí)率,則是k組test sets對(duì)應(yīng)到EA訓(xùn)練所得的k個(gè)classifiers 辨識(shí)率之平均值。交叉驗(yàn)證概念交義驗(yàn)證(Cross-validation)主要用丁建模應(yīng)用中,例如PCR、PLS回歸建模中。在給定的建模樣本中,拿出大部分樣本進(jìn)行建模型,留小部分樣 本用剛建立的模型進(jìn)行預(yù)報(bào),并求這小部分樣本的預(yù)報(bào)誤差,記錄它們的平方加和。這個(gè)過程一直進(jìn)行,直到所有的樣本都被預(yù)報(bào)了一次而且僅被預(yù)報(bào) 一次。把每個(gè)樣本的預(yù)報(bào)誤差平方加和,稱為 PRESS(predicted Error Sum of Squares)。目的用交義驗(yàn)證的目的是為了得到可靠穩(wěn)定的模型。在建立 PCR或PLS模 型時(shí),一個(gè)很重要的因素是取多少個(gè)主成分的問題?用cross validation校驗(yàn)每個(gè)主成分下的 PRESS®,選擇PRESSfi小的主成分?jǐn)?shù)。或PRESS®不在變小時(shí)的主成分?jǐn)?shù)。1常用的精度測試方法主要是 交義驗(yàn)證,例如10倍交義驗(yàn)證(10-fold cross
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 古建彩繪采購合同范本
- 公司出租地合同范本
- 合伙人結(jié)算合同范本
- 個(gè)人住房借款合同范本
- 臺(tái)州網(wǎng)絡(luò)推廣合同范本
- 校園超市承包合同范本
- 廚藝加盟合同范本
- 單位資產(chǎn)轉(zhuǎn)讓合同范本
- 發(fā)電機(jī)維修合同范本
- 合同范本模板學(xué)校
- 2016-2023年青島酒店管理職業(yè)技術(shù)學(xué)院高職單招(英語/數(shù)學(xué)/語文)筆試歷年參考題庫含答案解析
- 第二章-環(huán)境數(shù)據(jù)統(tǒng)計(jì)與分析
- 電力各種材料重量表總
- 腸道健康講座活動(dòng)策劃
- 醫(yī)療器械(耗材)項(xiàng)目投標(biāo)服務(wù)投標(biāo)方案(技術(shù)方案)
- 小學(xué)三年級(jí)下冊(cè)數(shù)學(xué)教案3篇
- pci術(shù)后術(shù)肢腫脹處理流程
- 遼寧省營口市2023-2024學(xué)年七年級(jí)上學(xué)期期末英語試題
- 大數(shù)據(jù)平臺(tái)部署與運(yùn)維高職全套教學(xué)課件
- 《大數(shù)據(jù)平臺(tái)部署與運(yùn)維》課程教學(xué)大綱
- 新版現(xiàn)代西班牙語學(xué)生用書第一冊(cè)課后習(xí)題答案
評(píng)論
0/150
提交評(píng)論