機(jī)器學(xué)習(xí)-各分類模型優(yōu)缺點(diǎn)_第1頁(yè)
機(jī)器學(xué)習(xí)-各分類模型優(yōu)缺點(diǎn)_第2頁(yè)
機(jī)器學(xué)習(xí)-各分類模型優(yōu)缺點(diǎn)_第3頁(yè)
機(jī)器學(xué)習(xí)-各分類模型優(yōu)缺點(diǎn)_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

機(jī)器學(xué)習(xí)-各分類模型優(yōu)缺點(diǎn)1、決策樹優(yōu)點(diǎn)?、?、三、四、五、六、七、?、缺點(diǎn)?、?、三、四、決策樹易于理解和解釋.?們?cè)谕ㄟ^(guò)解釋后都有能?去理解決策樹所表達(dá)的意義。對(duì)于決策樹,數(shù)據(jù)的準(zhǔn)備往往是簡(jiǎn)單或者是不必要的.其他的技術(shù)往往要求先把數(shù)據(jù)?般化,?如去掉多余的或者空?的屬性。能夠同時(shí)處理數(shù)據(jù)型和常規(guī)型屬性。其他的技術(shù)往往要求數(shù)據(jù)屬性的單?。決策樹是?個(gè)?盒模型。如果給定?個(gè)觀察的模型,那么根據(jù)所產(chǎn)?的決策樹很容易推出相應(yīng)的邏輯表達(dá)式。易于通過(guò)靜態(tài)測(cè)試來(lái)對(duì)模型進(jìn)?評(píng)測(cè)。表?有可能測(cè)量該模型的可信度。在相對(duì)短的時(shí)間內(nèi)能夠?qū)?型數(shù)據(jù)源做出可?且效果良好的結(jié)果。可以對(duì)有許多屬性的數(shù)據(jù)集構(gòu)造決策樹。決策樹可很好地?cái)U(kuò)展到?型數(shù)據(jù)庫(kù)中,同時(shí)它的??獨(dú)?于數(shù)據(jù)庫(kù)的??。對(duì)于那些各類別樣本數(shù)量不?致的數(shù)據(jù),在決策樹當(dāng)中,信息增益的結(jié)果偏向于那些具有更多數(shù)值的特征。決策樹處理缺失數(shù)據(jù)時(shí)的困難。過(guò)度擬合問題的出現(xiàn)。忽略數(shù)據(jù)集中屬性之間的相關(guān)性。2、??神經(jīng)?絡(luò)優(yōu)點(diǎn)分類的準(zhǔn)確度?,并?分布處理能?強(qiáng),分布存儲(chǔ)及學(xué)習(xí)能?強(qiáng),對(duì)噪聲神經(jīng)有較強(qiáng)的魯棒性和容錯(cuò)能?,能充分逼近復(fù)雜的?線性關(guān)系,具備聯(lián)想記憶的功能等。缺點(diǎn)神經(jīng)?絡(luò)需要?量的參數(shù),如?絡(luò)拓?fù)浣Y(jié)構(gòu)、權(quán)值和閾值的初始值;不能觀察之間的學(xué)習(xí)過(guò)程,輸出結(jié)果難以解釋,會(huì)影響到結(jié)果的可信度和可接受程度;學(xué)習(xí)時(shí)間過(guò)長(zhǎng),甚?可能達(dá)不到學(xué)習(xí)的?的。3、KNN算法優(yōu)點(diǎn)?、?、三、四、簡(jiǎn)單、有效。重新訓(xùn)練的代價(jià)較低(類別體系的變化和訓(xùn)練集的變化,在Web環(huán)境和電?商務(wù)應(yīng)?中是很常見的)。計(jì)算時(shí)間和空間線性于訓(xùn)練集的規(guī)模(在?些場(chǎng)合不算太?)。由于KNN?法主要靠周圍有限的鄰近的樣本,?不是靠判別類域的?法來(lái)確定所屬類別的,因此對(duì)于類域的交叉或重疊較多的待分樣本集來(lái)說(shuō),KNN?法較其他?法更為適合。五、缺點(diǎn)?、?、三、四、該算法?較適?于樣本容量?較?的類域的?動(dòng)分類,?那些樣本容量較?的類域采?這種算法?較容易產(chǎn)?誤分。KNN算法是懶散學(xué)習(xí)?法(lazylearning,基本上不學(xué)習(xí)),?些積極學(xué)習(xí)的算法要快很多。類別評(píng)分不是規(guī)格化的(不像概率評(píng)分)。輸出的可解釋性不強(qiáng),例如決策樹的可解釋性較強(qiáng)。該算法在分類時(shí)有個(gè)主要的不?是,當(dāng)樣本不平衡時(shí),如?個(gè)類的樣本容量很?,?其他類樣本容量很?時(shí),有可能導(dǎo)致當(dāng)輸??個(gè)新樣本時(shí),該樣本的K個(gè)鄰居中?容量類的樣本占多數(shù)。該算法只計(jì)算“最近的”鄰居樣本,某?類的樣本數(shù)量很?,那么或者這類樣本并不接近?標(biāo)樣本,或者這類樣本很靠近?標(biāo)樣本。?論怎樣,數(shù)量并不能影響運(yùn)?結(jié)果??梢圆?權(quán)值的?法(和該樣本距離?的鄰居權(quán)值?)來(lái)改進(jìn)。五、計(jì)算量較?。?前常?的解決?法是事先對(duì)已知樣本點(diǎn)進(jìn)?剪輯,事先去除對(duì)分類作?不?的樣本。4、?持向量機(jī)(SVM)優(yōu)點(diǎn)?、?、三、四、五、缺點(diǎn)?、?、可以解決?樣本情況下的機(jī)器學(xué)習(xí)問題。可以提?泛化性能??梢越鉀Q?維問題??梢越鉀Q?線性問題。可以避免神經(jīng)?絡(luò)結(jié)構(gòu)選擇和局部極?點(diǎn)問題。對(duì)缺失數(shù)據(jù)敏感。對(duì)?線性問題沒有通?解決?案,必須謹(jǐn)慎選擇Kernelfunction來(lái)處理。5、樸素貝葉斯優(yōu)點(diǎn)?、?、缺點(diǎn)?、樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率。NBC模型所需估計(jì)的參數(shù)很少,對(duì)缺失數(shù)據(jù)不太敏感,算法也?較簡(jiǎn)單。理論上,NBC模型與其他分類?法相?具有最?的誤差率。但是實(shí)際上并?總是如此,這是因?yàn)镹BC模型假設(shè)屬性之間相互獨(dú)?,這個(gè)假設(shè)在實(shí)際應(yīng)?中往往是不成?的(可以考慮?聚類算法先將相關(guān)性較?的屬性聚類),這給NBC模型的正確分類帶來(lái)了?定影響。在屬性個(gè)數(shù)?較多或者屬性之間相關(guān)性較?時(shí),NBC模型的分類效率?不上決策樹模型。?在屬性相關(guān)性較?時(shí),NBC模型的性能最為良好。?、三、需要知道先驗(yàn)概率。分類決策存在錯(cuò)誤率6、Adaboost算法優(yōu)點(diǎn)?、?、三、四、五、缺點(diǎn)adaboost是?種有很?精度的分類器??梢允?各種?法構(gòu)建?分類器,Adaboost算法提供的是框架。當(dāng)使?簡(jiǎn)單分類器時(shí),計(jì)算出的結(jié)果是可以理解的。?且弱分類器構(gòu)造極其簡(jiǎn)單。簡(jiǎn)單,不?做特征篩選。不?擔(dān)?overfitting。?、AdaBoost迭代次數(shù)也就是弱分類器數(shù)?不太好設(shè)定,可以使?交叉驗(yàn)證來(lái)進(jìn)?確定。?、數(shù)據(jù)不平衡導(dǎo)致分類精度下降。三、訓(xùn)練?較耗時(shí),每次重新選擇當(dāng)前分類器最好切分點(diǎn)。7、邏輯回歸優(yōu)點(diǎn)?、預(yù)測(cè)結(jié)果是界于0和1之間的概率;?、可以適?于連續(xù)性和類別性?變量;三、容易使?和解釋;缺點(diǎn)?、對(duì)模型中?變量多重共線性較為敏感,例如兩個(gè)?度相關(guān)?變量同時(shí)放?模型,可能導(dǎo)致較弱的?個(gè)?變量回歸符號(hào)不符合預(yù)期,符號(hào)被扭轉(zhuǎn)。需要利?因?分析或者變量聚類分析等?段來(lái)選擇代表性的?變量,以減少候選變量之間的相關(guān)性;?、預(yù)測(cè)結(jié)果呈“S”型,因此從log(odds)向概率轉(zhuǎn)化的過(guò)程是?線性的,在兩端隨著log(odds)值的變化,概率變化很?,邊際值太?,slope太?,?中間概率的變化很?,很敏感。導(dǎo)致很多區(qū)間的變量變化對(duì)?標(biāo)概率的影響沒有區(qū)分度,?法確定閥值。8、隨機(jī)森林優(yōu)點(diǎn)?、在當(dāng)前的很多數(shù)據(jù)集上,相對(duì)其他算法有著很?的優(yōu)勢(shì),表現(xiàn)良好?、它能夠處理很?維度(feature很多)的數(shù)據(jù),并且不?做特征選擇三、在訓(xùn)練完后,它能夠給出哪些feature?較重要四、在創(chuàng)建隨機(jī)森林的時(shí)候,對(duì)generlizationerror使?的是?偏估計(jì),模型泛化能?強(qiáng)五、訓(xùn)練速度快,容易做成并?化?法六、在訓(xùn)練過(guò)程中,能夠檢測(cè)到feature間的互相影響七、實(shí)現(xiàn)?較簡(jiǎn)單?、對(duì)于不平衡的數(shù)據(jù)集來(lái)說(shuō),它可以平衡誤差。九、如果有很??部分的特征遺失,仍可以維持準(zhǔn)確度。缺點(diǎn)?、隨機(jī)森林已經(jīng)被證明在某些噪?較?的分類或回歸問題上會(huì)過(guò)擬?、對(duì)于有不同取值的屬性的數(shù)據(jù),取值劃分較多的屬性會(huì)對(duì)隨機(jī)森林產(chǎn)?更?的影響,所以隨機(jī)森林在這種數(shù)據(jù)上產(chǎn)出的屬性權(quán)值是不可信的。9、GBDT優(yōu)點(diǎn)?、可以靈活處理各種類型的數(shù)據(jù),包括連續(xù)值和離散值。?、在相對(duì)少的調(diào)參時(shí)間情況下,預(yù)測(cè)的準(zhǔn)備率也可以?較?。這個(gè)是相對(duì)SVM來(lái)說(shuō)的。三、使??些健壯的損失函數(shù),對(duì)異常值的魯棒性?常強(qiáng)。?如Huber損失函數(shù)和Quantile損失函數(shù)。缺點(diǎn)?、由于弱學(xué)習(xí)器之間存在依賴關(guān)系,難以并?訓(xùn)練數(shù)據(jù)。不過(guò)可以通過(guò)采樣的SGBT來(lái)達(dá)到部分并?。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論