![模塊5 特征選擇《Python數(shù)據(jù)挖掘?qū)崙?zhàn)》教學(xué)課件_第1頁](http://file4.renrendoc.com/view10/M00/23/36/wKhkGWVwXv-Aa4e9AAB3J8nQwGk111.jpg)
![模塊5 特征選擇《Python數(shù)據(jù)挖掘?qū)崙?zhàn)》教學(xué)課件_第2頁](http://file4.renrendoc.com/view10/M00/23/36/wKhkGWVwXv-Aa4e9AAB3J8nQwGk1112.jpg)
![模塊5 特征選擇《Python數(shù)據(jù)挖掘?qū)崙?zhàn)》教學(xué)課件_第3頁](http://file4.renrendoc.com/view10/M00/23/36/wKhkGWVwXv-Aa4e9AAB3J8nQwGk1113.jpg)
![模塊5 特征選擇《Python數(shù)據(jù)挖掘?qū)崙?zhàn)》教學(xué)課件_第4頁](http://file4.renrendoc.com/view10/M00/23/36/wKhkGWVwXv-Aa4e9AAB3J8nQwGk1114.jpg)
![模塊5 特征選擇《Python數(shù)據(jù)挖掘?qū)崙?zhàn)》教學(xué)課件_第5頁](http://file4.renrendoc.com/view10/M00/23/36/wKhkGWVwXv-Aa4e9AAB3J8nQwGk1115.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
《Python數(shù)據(jù)挖掘?qū)崙?zhàn)》?精品課件合集《Python數(shù)據(jù)挖掘?qū)崙?zhàn)》
第五章特征選擇二、
過濾法
一、特征選擇方法概述主要內(nèi)容三、包裝法四、嵌入法一、特征選擇方法概述
一、特征選擇方法概述
一、特征選擇方法概述過濾法(Filter):特征選擇獨立于數(shù)據(jù)挖掘任務(wù),按照特征的發(fā)散程度或者特征與目標(biāo)變量之間的相關(guān)性對各個特征進行評分,然后設(shè)定閾值選出評分較高的特征子集。
常見的特征選擇方法包括:一、特征選擇方法概述過濾法(Filter):特征選擇獨立于數(shù)據(jù)挖掘任務(wù),按照特征的發(fā)散程度或者特征與目標(biāo)變量之間的相關(guān)性對各個特征進行評分,然后設(shè)定閾值選出評分較高的特征子集。包裝法(Wrapper):特征選擇和數(shù)據(jù)挖掘算法相關(guān),直接使用數(shù)據(jù)挖掘模型在特征子集上評價結(jié)果衡量該子集的優(yōu)劣,然后采用一定的啟發(fā)式方法在特征空間中搜索,直至選擇出最優(yōu)的特征子集。
常見的特征選擇方法包括:一、特征選擇方法概述過濾法(Filter):特征選擇獨立于數(shù)據(jù)挖掘任務(wù),按照特征的發(fā)散程度或者特征與目標(biāo)變量之間的相關(guān)性對各個特征進行評分,然后設(shè)定閾值選出評分較高的特征子集。包裝法(Wrapper):特征選擇和數(shù)據(jù)挖掘算法相關(guān),直接使用數(shù)據(jù)挖掘模型在特征子集上評價結(jié)果衡量該子集的優(yōu)劣,然后采用一定的啟發(fā)式方法在特征空間中搜索,直至選擇出最優(yōu)的特征子集。嵌入法(Embedded):特征選擇和數(shù)據(jù)挖掘任務(wù)融為一體,兩者在同一個優(yōu)化過程中完成,也即,在訓(xùn)練數(shù)據(jù)挖掘模型的同時完成特征選擇,選擇出能夠使得該模型性能達到最佳的特征子集。常見的特征選擇方法包括:二、過濾法
過濾式特征選擇方法從數(shù)據(jù)集內(nèi)在的性質(zhì)出發(fā),選擇特征的發(fā)散程度高或者它與目標(biāo)變量之間的相關(guān)度大的特征或特征子集,選擇過程與數(shù)據(jù)挖掘算法無關(guān),因此具有較好的通用性。
過濾方法一般分為單變量過濾和多變量過濾兩類。1.方差閾值法單變量過濾方法:二、過濾法方差低于某個閾值的特征無法解釋目標(biāo)變量的變化規(guī)律,因此直接將它們刪除。這種方法要求特征必須為離散型變量,連續(xù)變量需要進行離散化處理后才能使用。這種方法要求特征必須為離散型變量,連續(xù)變量需要進行離散化處理后才能使用。1.方差閾值法二、過濾法feature_selection模塊的VarianceThreshold類給出了該方法的實現(xiàn)在具有4個特征的模擬數(shù)據(jù)上的例子:二、過濾法輸出的4個特征的方差分別為[0.139,5.472,1.806,8.472],因此在閾值為1.0的情況下,將第一個特征去除。當(dāng)設(shè)置閾值為2.0時,我們可以只選擇第2個和第4個特征。2.卡方統(tǒng)計量二、過濾法
2.卡方統(tǒng)計量二、過濾法
feature_selection模塊提供了兩個類(SelectKBest和SelectPercentile)和一個函數(shù)(chi2)用于支持基于卡方統(tǒng)計量的特征選擇。其中,SelectKBest和SelectPercentile類提供了對單變量過濾特征選擇方法的基本框架。創(chuàng)建一個基于卡方統(tǒng)計量的單變量過濾特征選擇模型的過程如下:selector=SelectKBest(chi2,k=2)其中,參數(shù)k=2意味著只選擇出兩個特征變量。2.卡方統(tǒng)計量二、過濾法SelectKBest類的主要參數(shù)、屬性和函數(shù)2.卡方統(tǒng)計量輸出各特征的卡方統(tǒng)計量值為:[0.1,5.565,0.276,10.580]。顯然,第2個特征和第4個特征的卡方值較大,得以保留。3.互信息法二、過濾法
3.互信息法二、過濾法
在Scikit-learn庫的feature_selection模塊中,提供了mutual_info_classif和mutual_info_regression兩個函數(shù),分別實現(xiàn)了分類任務(wù)和回歸任務(wù)中的互信息的計算。
結(jié)合SelectKBest類,很容易創(chuàng)建一個基于互信息的單變量過濾特征選擇模型,如下:selector=SelectKBest(mutual_info_classif,k=2)其中,參數(shù)k=2意味著只選擇出兩個特征變量。3.互信息法各特征和目標(biāo)變量的互信息值為:[0,0.2,0,0.617]。顯然,第2個特征和第4個特征的互信息值較大,應(yīng)當(dāng)保留它們作為特征選擇結(jié)果。過濾法的優(yōu)缺點分析:二、過濾法
過濾式方法是一類常用的特征選擇技術(shù),其優(yōu)缺點均非常明顯。1.優(yōu)點
算法的通用性強,省去了模型訓(xùn)練的步驟,算法復(fù)雜度低,因而適用于大規(guī)模數(shù)據(jù)集;可以快速去除大量不相關(guān)的特征,當(dāng)原始數(shù)據(jù)的特征數(shù)量比較多時,作為特征的預(yù)篩選器非常合適。2.缺點
由于特征選擇過程獨立于數(shù)據(jù)挖掘算法,所選擇的特征子集對于數(shù)據(jù)挖掘任務(wù)而言通常不是最優(yōu)的,性能經(jīng)常低于其它兩類方法。三、包裝法
包裝法(Wrapper)直接采用數(shù)據(jù)挖掘算法在特征子集上達到的效果對該子集的進行評價。它將特征選擇視為搜索問題,目標(biāo)是搜索出一個最佳的特征子集,使得數(shù)據(jù)挖掘算法在該子集上取得最優(yōu)的性能。
包裝方法需要對每一個特征子集訓(xùn)練一個數(shù)據(jù)挖掘模型,然后評價特征子集的優(yōu)劣,因此計算量很大。
遞歸特征消除(RFE)方法
序列前向選擇(SFS)方法
序列后向選擇(SBS)方法三、包裝法1.遞歸特征消除(RecursiveFeatureElimination,RFE)
它是一種局部搜索最優(yōu)特征子集的貪心搜索方法,從全部特征開始,建立數(shù)據(jù)挖掘模型,將模型識別的不重要特征剔除,然后利用剩余特征迭代地重新訓(xùn)練模型,直到剩余指定數(shù)量的特征。
它要求所依賴的數(shù)據(jù)挖掘算法在訓(xùn)練時能夠給出特征的重要性系數(shù),作為每輪迭代剔除特征的依據(jù)。
例如,決策樹和隨機森林的feature_importances_屬性、線性回歸模型和線性支持向量機的coef_屬性三、包裝法
在scikit-learn庫的feature_selection模塊中,提供了RFE特征選擇方法的實現(xiàn):基本語法:sklearn.feature_selection.RFE(estimator,
n_features_to_select=None)參數(shù):estimator:監(jiān)督式數(shù)據(jù)挖掘算法模型,能提供特征的重要性系數(shù)n_features_to_select:選擇的特征數(shù)量,默認為選擇一半的特征返回值:n_features_:選擇的特征數(shù)量ranking_:對特征的重要性排序,REF特征選擇的實例
RFE方法選取的特征為[69101112],在該特征子集上決策樹獲得的測試精度為97.78%。包裝法的優(yōu)缺點分析:三、包裝法
1.優(yōu)點
與過濾式特征選擇方法相比,包裝法的特征選擇過程與數(shù)據(jù)挖掘任務(wù)相關(guān),它使用后者的評價標(biāo)準(zhǔn)來對特征子集評分,使得選擇結(jié)果是數(shù)據(jù)挖掘算法在其上表現(xiàn)最佳時的特征子集。并且,包裝式方法對數(shù)挖掘模型沒有過多要求,適用性比較廣。
2.缺點
包裝法是一種迭代式方法,對每一組特征子集都需要建立數(shù)據(jù)挖掘模型,在特征數(shù)量較多時,計算量非常大,效率遠比過濾方法低。另外,RFE、SFS、SBS等包裝法都采用啟發(fā)式搜索方法尋找最優(yōu)子集,它是一種局部搜索方法,因此這些方法搜索的最優(yōu)子集可能是局部最優(yōu)的。四、嵌入法
嵌入法(Embeding)將特征選擇過程完全融入到數(shù)據(jù)挖掘模型的構(gòu)建過程中,在創(chuàng)建模型時即完成了對特征子集的選擇。
與過濾法相比,它們由于是數(shù)據(jù)挖掘模型的角度選擇特征子集,往往具有更好的性能;
與包裝方法相比,它們省卻了迭代式的搜索過程,計算效率更高。嵌入法是目前應(yīng)用最廣泛的特征選擇方法,彌補了前面兩種特征選擇方法的不足。基于正則化線性模型的方法基于樹的方法四、嵌入法
四、嵌入法1.基于正則化線性模型的方法
在feature_selection模塊中實現(xiàn)了SelectFromModel類,能夠在訓(xùn)練數(shù)據(jù)挖掘模型(如,線性回歸模型、決策樹模型等)的同時,利用模型重要性系數(shù)(coef_或feature_importances_)實現(xiàn)嵌入式特征選擇?;菊Z法:sklearn.feature_selection.SelectFromModel(estimator,
threshold=None)參數(shù):
estimator:數(shù)據(jù)挖掘模型
threshold:閾值,可取為‘mean’(默認),‘median’或數(shù)值,表示系數(shù)低于閾值的特征將被丟棄
四、嵌入法1.基于樹模型的方法
基于樹(tree)的數(shù)據(jù)挖掘模型,如決策樹、隨機森林、GBDT、XGboost在構(gòu)建模型中的樹的過程中,總是貪婪地選擇當(dāng)前最優(yōu)的特征構(gòu)造屬性測試條件,將數(shù)據(jù)集劃分到下一層的子結(jié)點上。這樣,在構(gòu)造的樹(tree)結(jié)構(gòu)或者森林(forest)中,特征被選擇用于構(gòu)造屬性測試條件次數(shù)越多,表明它們區(qū)分數(shù)據(jù)的能力越強,因而越重要。
仍然可以借助sklearn.feature_selection模塊的SelectFromModel類,實現(xiàn)基于樹的嵌入式特征選擇方法。嵌入法的優(yōu)缺點分析:四、嵌入法
1.優(yōu)點
特征選擇與數(shù)據(jù)挖掘模型的構(gòu)建完全融合在一起,特征選擇結(jié)果是數(shù)據(jù)挖掘取得最優(yōu)性能時的子集。與包裝法相比,嵌入法不需要耗時
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年古建筑施工管理與質(zhì)量控制合同
- 2025年發(fā)電機組檢修與優(yōu)化合同樣本
- 2025年企業(yè)戰(zhàn)略規(guī)劃委托撰寫協(xié)議
- 2025年合作伙伴管理協(xié)調(diào)協(xié)議
- 2025年專利權(quán)互惠使用合同范例
- 2025年個人與企業(yè)之間貸款合同
- 2025年產(chǎn)學(xué)研策劃合作基地共建協(xié)議
- 2025年聯(lián)合擔(dān)保合作年協(xié)議模板
- 2025年人力資源合作合同協(xié)議書樣本
- 2025年中學(xué)后勤管理培訓(xùn)協(xié)議
- 2025年中國銅畫市場調(diào)查研究報告
- 京東考試答案
- 銷售黃金法則ABC三角溝通法則
- 清潔度標(biāo)準(zhǔn)、測試及過程控制
- 灘坑水電站水生生物增殖放流站工程(B區(qū))施工組織設(shè)計
- 質(zhì)量成本分析和核算ppt課件
- 醫(yī)院患者個人信息修正管理規(guī)定
- 取水隧洞爆破設(shè)計
- Q∕GDW 12100-2021 電力物聯(lián)網(wǎng)感知層技術(shù)導(dǎo)則
- 泥漿不落地處理工程設(shè)備
- 【2022】154號文附件一:《江蘇省建設(shè)工程費用定額》(2022年)營改增后調(diào)整內(nèi)容[10頁]
評論
0/150
提交評論