基于決策樹的薪資結(jié)構(gòu)普查模型研究.doc_第1頁
基于決策樹的薪資結(jié)構(gòu)普查模型研究.doc_第2頁
基于決策樹的薪資結(jié)構(gòu)普查模型研究.doc_第3頁
基于決策樹的薪資結(jié)構(gòu)普查模型研究.doc_第4頁
基于決策樹的薪資結(jié)構(gòu)普查模型研究.doc_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于決策樹的薪資結(jié)構(gòu)普查模型研究 摘 要:在對(duì)薪資結(jié)構(gòu)進(jìn)行普查時(shí),由于薪資具有隱私的特性和各種不確定的因素,導(dǎo)致普查過程越來越難,精確度、時(shí)效性越來越低。為了快速、準(zhǔn)確地了解薪資水平與結(jié)構(gòu),該文通過使用決策樹模型對(duì)Adult數(shù)據(jù)集進(jìn)行判斷、訓(xùn)練,生成對(duì)應(yīng)的薪資劃分模型,將影響薪資階級(jí)的各個(gè)屬性建立起相應(yīng)的關(guān)聯(lián),可以分析與預(yù)測(cè)人們的生活水平與影響因素,仿真的結(jié)果表明決策樹模型能夠進(jìn)行真實(shí)預(yù)測(cè)。 關(guān)鍵詞:薪資結(jié)構(gòu)普查;決策樹;薪資劃分模型;數(shù)據(jù)集 中圖分類號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)12-0265-02 決策樹算法的核心是歸納學(xué)習(xí)算法,最基本的特點(diǎn)是運(yùn)算速度快、結(jié)果簡單、易于理解、方便將得到的模型轉(zhuǎn)換成對(duì)應(yīng)的規(guī)則1。因此決策樹常常用于預(yù)測(cè)模型的生成2-3,對(duì)未來的數(shù)據(jù)進(jìn)行預(yù)測(cè)。在薪資調(diào)查中由于個(gè)人隱私以及工作變動(dòng)等問題存在,導(dǎo)致直接通過群眾調(diào)查結(jié)果存在著較大的誤差。希望能夠通過決策樹算法對(duì)已擁有的薪資數(shù)據(jù)進(jìn)行訓(xùn)練,得到一個(gè)較為精確的分類模型4,進(jìn)一步縮短薪資普查周期、提高數(shù)據(jù)精確度以及真實(shí)度。 1 決策樹基本原理簡介 1.1決策樹算法理論 決策樹(Decision Tree)是一類基于回歸問題的對(duì)實(shí)例進(jìn)行分類的樹形結(jié)構(gòu)。決策樹呈樹狀結(jié)構(gòu),其模型類似于數(shù)據(jù)結(jié)構(gòu)中的樹形圖5。在分類問題中,表示基于特征對(duì)實(shí)例進(jìn)行分類的過程。它可以認(rèn)為是if-then規(guī)則的集合,也可以認(rèn)為是定義在特征空間與類空間上的條件概率分布,圖1是典型的決策樹: ID3決策樹(Iterative Dichotomiser 3)算法,是Ross Quinlan發(fā)明的一種決策樹算法,該算法的特點(diǎn)是簡潔、運(yùn)用廣泛。它是以奧卡姆剃刀原理為核心,盡量用較少的資源做更多的事情,因此對(duì)于該算法而言,越是小型的決策樹越優(yōu)于大的決策樹6-7。 1.2 C4.5決策樹算法介紹 C4.5決策樹算法是一種基于ID3決策樹算法改進(jìn)后的一種算法,其與ID3決策樹算法最主要的區(qū)別是在于C4.5算法不再使用ID3決策樹算法的信息增益,而是使用了信息增益率這個(gè)概念。 2 決策樹在薪資結(jié)構(gòu)普查中的應(yīng)用 2.1數(shù)據(jù)源獲取 本文的數(shù)據(jù)來源于UCI機(jī)器學(xué)習(xí)庫的Adult數(shù)據(jù)集,該集合主要包含兩個(gè)部分,訓(xùn)練集adult.data與adult.test。其中adult.data包含了32561調(diào)數(shù)據(jù),總計(jì)有workclass、education、 occupation、relationship等總計(jì)16項(xiàng)屬性。 2.2薪資結(jié)構(gòu)普查決策樹模型生成方案及流程 薪資結(jié)構(gòu)普查決策樹算法: Input:DataSet(adult.data),featureList(包含篩選過后的13個(gè)屬性集合) Output:決策樹T C4.5(DataSet,featureList) Begin: 創(chuàng)建決策樹T,令T= 創(chuàng)建根結(jié)點(diǎn)R If:當(dāng)前DataSet中的數(shù)據(jù)都屬于同一類 標(biāo)記R的類別為該類,將R加入決策樹T。并返回T。 End If If:當(dāng)前featureList集合為空 標(biāo)記R的類別為當(dāng)前DataSet中樣本最多的類別,將R加入決策樹T。并返回T。 While(如果featureList不為空) 從featureList中選擇屬性F(選擇G_Ratio(DataSet,F(xiàn))最大的屬性) 根據(jù)F的每一個(gè)值V,將DataSet劃分為不同的子集DS,對(duì)于每個(gè)DS: ?創(chuàng)建結(jié)點(diǎn)C ?IF:DS為空 結(jié)點(diǎn)C標(biāo)記為DataSet中樣本最多的類 ?Else 結(jié)點(diǎn)C=C4.5(DS,featureList-F) ?將結(jié)點(diǎn)C添加為R的子結(jié)點(diǎn) End While Return T 整體方案流程圖: 3 結(jié)果與討論 本算法是基于Python語言,PyCharm開發(fā)環(huán)境進(jìn)行實(shí)現(xiàn)的,通過訓(xùn)練數(shù)據(jù)adult.data對(duì)決策樹進(jìn)行訓(xùn)練建模,再通過測(cè)試數(shù)據(jù)對(duì)訓(xùn)練所得的決策樹模型進(jìn)行檢測(cè),最終通過測(cè)試到的訓(xùn)練所得的決策樹模型的正確率。并分別將決策樹模型與樸素貝葉斯算法(NaiveBayes),最近鄰算法(Nearest-neighbor)的正確率進(jìn)行對(duì)比。 圖3為決策樹模型的測(cè)試結(jié)果,如圖所示,該程序主要分為三個(gè)部分:模型訓(xùn)練、模型測(cè)試、以及模型正確率檢測(cè),其中模型測(cè)試正確率高達(dá)85.54%,相比其他分類模型更為精確。 該算法在構(gòu)建時(shí)易于實(shí)現(xiàn),產(chǎn)生的分類規(guī)則容易理解,相對(duì)于其他分類算法而言精確率較高。但在決策樹構(gòu)造過程當(dāng)中需要進(jìn)行多次的排序,因此需要花費(fèi)大量時(shí)間,導(dǎo)致算法效率較低,并且可能出現(xiàn)過擬合情況。因此,該算法?m用于非實(shí)時(shí)性的數(shù)據(jù)分析,并可建立所對(duì)應(yīng)分類的影響屬性的關(guān)聯(lián)性。 4 結(jié)束語 該模型在訓(xùn)練過程中表現(xiàn)較好,其正確率優(yōu)于其他傳統(tǒng)的分類模型,建立的分類規(guī)則通俗易懂,并成功的避免了大規(guī)模的薪資調(diào)查,可以盡量減少對(duì)他人隱私的關(guān)注,能夠合情合理地對(duì)未來的信息階級(jí)變化進(jìn)行預(yù)測(cè)。但決策樹模型尚處于研究階段,由于需要對(duì)數(shù)據(jù)集進(jìn)行多次掃描與排序,在部分情況下執(zhí)行效率相對(duì)較低。決策樹模型能使用于絕大多數(shù)場(chǎng)景,適應(yīng)性較強(qiáng),具有較大的應(yīng)用價(jià)值,特別是在分類場(chǎng)合中。相信在未來,隨著決策樹算法的不斷優(yōu)化,決策樹算法來挖掘的數(shù)據(jù)越多,算法的效率和性能越好,算法的優(yōu)越性就越明顯。 參考文獻(xiàn): 1潘琛,杜培軍,張海榮.決策樹分類法及其在遙感圖像處理中的應(yīng)用J.中國礦業(yè)大學(xué)地理信息與遙感科學(xué)系,測(cè)繪科學(xué),2008,33(1):76-78. 2楊靜,張楠男.決策樹算法的研究與應(yīng)用J.計(jì)算機(jī)技術(shù)于發(fā)展,2010,22(2):116-120. 3馮少榮.決策樹算法的研究與改進(jìn)J.廈門大學(xué)學(xué)報(bào),2007,46(4):496-500. 4于卓.應(yīng)用決策樹構(gòu)建個(gè)人住房貸款風(fēng)險(xiǎn)評(píng)估模型D.東北財(cái)經(jīng)大學(xué),2007. 5唐

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論