![各種分類算法比較_第1頁](http://file4.renrendoc.com/view/851379b30cec5c28870bf24e346f254e/851379b30cec5c28870bf24e346f254e1.gif)
![各種分類算法比較_第2頁](http://file4.renrendoc.com/view/851379b30cec5c28870bf24e346f254e/851379b30cec5c28870bf24e346f254e2.gif)
![各種分類算法比較_第3頁](http://file4.renrendoc.com/view/851379b30cec5c28870bf24e346f254e/851379b30cec5c28870bf24e346f254e3.gif)
![各種分類算法比較_第4頁](http://file4.renrendoc.com/view/851379b30cec5c28870bf24e346f254e/851379b30cec5c28870bf24e346f254e4.gif)
![各種分類算法比較_第5頁](http://file4.renrendoc.com/view/851379b30cec5c28870bf24e346f254e/851379b30cec5c28870bf24e346f254e5.gif)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、各種分類算法比較最近在學(xué)習(xí)分類算法,順便整理了各種分類算法的優(yōu)缺點1決策樹(Decision Trees )的優(yōu)缺點決策樹的優(yōu)點:一、決策樹易于理解和解釋.人們在通過解釋后都有能力去理解決策樹所表 達(dá)的意義。二、對于決策樹,數(shù)據(jù)的準(zhǔn)備往往是簡單或者是不必要的其他的技術(shù)往往要求先把數(shù)據(jù)一般化,比如去掉多余的或者空白的屬性。三、能夠同時處理數(shù)據(jù)型和常規(guī)型屬性。其他的技術(shù)往往要求數(shù)據(jù)屬性的 單一。四、決策樹是一個白盒模型。如果給定一個觀察的模型,那么根據(jù)所產(chǎn)生 的決策樹很容易推出相應(yīng)的邏輯表達(dá)式。五、易于通過靜態(tài)測試來對模型進(jìn)行評測。表示有可能測量該模型的可信 度。六、在相對短的時間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)
2、源做出可行且效果良好的結(jié)果。七、可以對有許多屬性的數(shù)據(jù)集構(gòu)造決策樹。八、決策樹可很好地擴(kuò)展到大型數(shù)據(jù)庫中,同時它的大小獨立于數(shù)據(jù)庫的 大小。決策樹的缺點:一、對于那些各類別樣本數(shù)量不一致的數(shù)據(jù),在決策樹當(dāng)中,信息增益的結(jié) 果偏向于那些具有更多數(shù)值的特征。二、決策樹處理缺失數(shù)據(jù)時的困難。三、過度擬合問題的出現(xiàn)。四、忽略數(shù)據(jù)集中屬性之間的相關(guān)性。2人工神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點 人工神經(jīng)網(wǎng)絡(luò)的優(yōu)點:分類的準(zhǔn)確度高,并行分布處理能力強(qiáng),分布存儲及學(xué)習(xí)能力強(qiáng), 對噪聲神經(jīng)有較強(qiáng)的魯棒性和容錯能力,能充分逼近復(fù)雜的非線性關(guān)系,具備聯(lián)想 記憶的功能等。人工神經(jīng)網(wǎng)絡(luò)的缺點:神經(jīng)網(wǎng)絡(luò)需要大量的參數(shù),如網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、權(quán)值
3、和閾值的 初始值;不能觀察之間的學(xué)習(xí)過程,輸出結(jié)果難以解釋,會影響到結(jié)果的可信度和 可接受程度;學(xué)習(xí)時間過長,甚至可能達(dá)不到學(xué)習(xí)的目的。3遺傳算法的優(yōu)缺點遺傳算法的優(yōu)點:一、與問題領(lǐng)域無關(guān)切快速隨機(jī)的搜索能力。二、搜索從群體出發(fā),具有潛在的并行性,可以進(jìn)行多個個體的同時比較, 魯棒性好。三、搜索使用評價函數(shù)啟發(fā),過程簡單。四、使用概率機(jī)制進(jìn)行迭代,具有隨機(jī)性。五、具有可擴(kuò)展性,容易與其他算法結(jié)合。遺傳算法的缺點:一、遺傳算法的編程實現(xiàn)比較復(fù)雜,首先需要對問題進(jìn)行編碼,找到最優(yōu)解之 后還需要對問題進(jìn)行解碼,二、另外三個算子的實現(xiàn)也有許多參數(shù),如交叉率和變異率,并且這些參數(shù)的 選擇嚴(yán)重影響解的品質(zhì)
4、,而目前這些參數(shù)的選擇大部分是依靠經(jīng)驗 沒有能夠及時利 用網(wǎng)絡(luò)的反饋信息,故算法的搜索速度比較慢,要得要較精確的解需要較多的訓(xùn)練時 間。三、算法對初始種群的選擇有一定的依賴性,能夠結(jié)合一些啟發(fā)算法進(jìn)行 改進(jìn)。4 KNN 算法(K-Nearest Neighbour)的優(yōu)缺點KNN算法的優(yōu)點:一、簡單、有效。二、重新訓(xùn)練的代價較低(類別體系的變化和訓(xùn)練集的變化,在Web環(huán)境和電子商務(wù)應(yīng)用中是很常見的)。三、計算時間和空間線性于訓(xùn)練集的規(guī)模(在一些場合不算太大)。四、由于KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對于類域的交叉或重疊較多的待分樣本集來說,KN
5、N方法較其他方法更為適合。五、該算法比較適用于樣本容量比較大的類域的自動分類,而那些樣本容 量較小的類域采用這種算法比較容易產(chǎn)生誤分。KNN算法缺點:一、KNN算法是懶散學(xué)習(xí)方法(lazy learning,基本上不學(xué)習(xí)),一些積極 學(xué)習(xí)的算法要快很多。二、類別評分不是規(guī)格化的(不像概率評分)。三、輸出的可解釋性不強(qiáng),例如決策樹的可解釋性較強(qiáng)。四、該算法在分類時有個主要的不足是,當(dāng)樣本不平衡時,如一個類的樣 本容量很大,而其他類樣本容量很小時,有可能導(dǎo)致當(dāng)輸入一個新樣本時,該樣本的K個鄰居中大容量類的樣本占多數(shù)。該算法只計算最近的”鄰居樣本,某一類的樣本數(shù)量很大,那么或者這類樣本并不接近目標(biāo)樣
6、本,或者這類樣本很靠近目標(biāo)樣 本。無論怎樣,數(shù)量并不能影響運行結(jié)果??梢圆捎脵?quán)值的方法(和該樣本距離小 的鄰居權(quán)值大)來改進(jìn)。五、計算量較大。目前常用的解決方法是事先對已知樣本點進(jìn)行剪輯,事 先去除對分類作用不大的樣本。5支持向量機(jī)(SVM )的優(yōu)缺點SVM的優(yōu)點:、可以解決小樣本情況下的機(jī)器學(xué)習(xí)問題。.、可以提高泛化性能。.三、可以解決高維問題。四、可以解決非線性問題。五、可以避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小點問題。SVM的缺點:一、對缺失數(shù)據(jù)敏感。二、對非線性問題沒有通用解決方案,必須謹(jǐn)慎選擇 Kernelfunction來處 理。6樸素貝葉斯的優(yōu)缺點優(yōu)點:一、樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理
7、論,有著堅實的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率。二、NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡 單。缺點:一、理論上,NBC模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此,這是因為NBC模型假設(shè)屬性之間相互獨立,這個假設(shè)在實際應(yīng)用中往往是不成立的(可以考慮用聚類算法先將相關(guān)性較大的屬性聚類),這給 NBC 模型的正確分類帶來了一定影響。在屬性個數(shù)比較多或者屬性之間相關(guān)性較大時,NBC模型的分類效率比不上決策樹模型。而在屬性相關(guān)性較小時,NBC模型的性能最為良好。二、需要知道先驗概率。三、分類決策存在錯誤率Adaboost ing 方法的優(yōu)點一、adaboost是
8、一種有很高精度的分類器。二、可以使用各種方法構(gòu)建子分類器,Adaboost算法提供的是框架。三、當(dāng)使用簡單分類器時,計算出的結(jié)果是可以理解的。而且弱分類器構(gòu) 造極其簡單。四、簡單,不用做特征篩選。五、不用擔(dān)心ovefitting。Rocchio 的優(yōu)點Rocchio算法的突出優(yōu)點是容易實現(xiàn),計算(訓(xùn)練和分類)特別簡單,它通常用來 實現(xiàn)衡量分類系統(tǒng)性能的基準(zhǔn)系統(tǒng),而實用的分類系統(tǒng)很少采用這種算法解決具體 的分類問題。9各種分類算法比較根據(jù)這篇論文所得出的結(jié)論,Calibrated boosted trees 的性能最好,隨機(jī)森林第二,un calibrated bagged trees第三,ca
9、libratedSVMs 第四,uncalibrated neural nets 第五。性能較差的是樸素貝葉斯,決策樹。有些算法在特定的數(shù)據(jù)集下表現(xiàn)較好。參考文獻(xiàn):羅森林,馬俊,潘麗敏數(shù)據(jù)挖掘理論與技術(shù)M.電子工業(yè)出版社.2013.126-126楊曉帆,陳廷槐人工神經(jīng)網(wǎng)絡(luò)固有的優(yōu)點和缺點J.計算機(jī)科學(xué).1994(vol.21).23-26Steve.遺傳算法的優(yōu)缺點. HYPERLINK /s/blog_6377a3100100h1mi.html /s/blog 6377a3100100h1mi.html4楊建武.文本自動分類技術(shù). HYPERLINK /course/mi /course/mi nin g/12-13spri ng/TextMi nin g04-%E5%88%86%E7%B1%BB.pdf 白云球工作室.SVM(支持向量機(jī))綜述. HYPERLINK /s/blog_52574bc10100c /s/blog_52574bc10100c nov.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- HMX-RDX復(fù)合物的重結(jié)晶及性能研究
- 基于多模態(tài)信息的盲人步態(tài)識別與分析
- 農(nóng)村養(yǎng)殖場申請書
- 請示與申請書的區(qū)別
- 深度理解老齡化背景下的老年保健模式
- 知識產(chǎn)權(quán)教育與公眾意識的提升
- 個人盆栽轉(zhuǎn)讓合同范本
- 轉(zhuǎn)學(xué)申請書轉(zhuǎn)入
- 2025年度企業(yè)電子商務(wù)用戶體驗設(shè)計合同
- 養(yǎng)豬場建設(shè)用地申請書
- 2023版設(shè)備管理體系標(biāo)準(zhǔn)
- 《工程款糾紛》課件
- 中建地下管廊豎井及矩形頂管專項施工方案
- 第7課互聯(lián)網(wǎng)應(yīng)用協(xié)議 課件 2023-2024學(xué)年浙教版(2023)初中信息技術(shù)七年級上冊
- 關(guān)于新能源汽車的論文1500字
- 診所規(guī)章制度匯編全套
- 中國音樂學(xué)院音樂基礎(chǔ)知識(四級)(基本樂科)備考試題庫(含答案)
- 學(xué)校校長思政課講稿共五篇
- 有限公司事業(yè)合伙人管理辦法
- 演示文稿國庫集中支付總流程圖
- 空調(diào)維保服務(wù)項目質(zhì)量保障措施
評論
0/150
提交評論