基于C5.0決策樹(shù)進(jìn)行分類預(yù)測(cè)_第1頁(yè)
基于C5.0決策樹(shù)進(jìn)行分類預(yù)測(cè)_第2頁(yè)
基于C5.0決策樹(shù)進(jìn)行分類預(yù)測(cè)_第3頁(yè)
基于C5.0決策樹(shù)進(jìn)行分類預(yù)測(cè)_第4頁(yè)
基于C5.0決策樹(shù)進(jìn)行分類預(yù)測(cè)_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘課程論文基于C5.0決策樹(shù)進(jìn)行分類預(yù)測(cè)任課教師姓名所在學(xué)院專業(yè)名稱論文提交日期所在高等院校1、引言隨著高校招生規(guī)模的擴(kuò)人和信息化程度的提高,社會(huì)調(diào)查機(jī)構(gòu)以及高校管理機(jī)關(guān)搜集了大量數(shù)據(jù),這些數(shù)據(jù)中蘊(yùn)涵有人量有價(jià)值的規(guī)律,挖掘這些規(guī)律并應(yīng)于招生,教育資源的合理利用方面,可促進(jìn)教育事業(yè)的良好發(fā)展,使其科學(xué)化、合理化、系統(tǒng)化,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于高校等級(jí)劃分排名上,可以客觀的評(píng)價(jià)一所學(xué)校的競(jìng)爭(zhēng)力,為高校自身提供了改進(jìn)的參考,為國(guó)家對(duì)高等教育事業(yè)進(jìn)行政策制定提供了可靠依據(jù),同時(shí)為廣大高考畢業(yè)生填報(bào)志愿提供了參考。對(duì)高校自身的改革和發(fā)展的培養(yǎng)等方面具有重要的作用和意義。國(guó)內(nèi)已有部分研究者以C5.0

2、決策樹(shù)為數(shù)據(jù)處理模型面向高校綜合等級(jí)排名信息開(kāi)展了數(shù)據(jù)挖掘工作,應(yīng)用于高等院校評(píng)價(jià)、高校管理決策、教學(xué)資源決策、畢業(yè)生就業(yè)指導(dǎo)、個(gè)性化人才培養(yǎng)等領(lǐng)域,向決策者、高校和同學(xué)提供信息支持,有利于推動(dòng)學(xué)校資源的優(yōu)化和建設(shè)的全面發(fā)展。本文嘗試將C5.0挖掘技術(shù)應(yīng)用于高校評(píng)級(jí),發(fā)現(xiàn)高校各種資源之間的相關(guān)性規(guī)律。以發(fā)現(xiàn)的規(guī)律為依據(jù),分析學(xué)校各種資源配置,提出有針對(duì)性的高校評(píng)級(jí)信息,以提高高校建設(shè)的預(yù)知性,為同學(xué)合理地選擇報(bào)考學(xué)校、高校自身性建設(shè)提供了參考依據(jù)。因評(píng)級(jí)預(yù)測(cè)信息具有很強(qiáng)的針對(duì)性,簡(jiǎn)單地應(yīng)用C5.0挖掘技術(shù)難以解決問(wèn)題。為此,本文開(kāi)展了以下工作:提出了一種基于C5.0決策樹(shù)的預(yù)測(cè)評(píng)級(jí)模型,以系統(tǒng)

3、地進(jìn)行評(píng)級(jí)預(yù)警分析,以現(xiàn)實(shí)數(shù)據(jù)為數(shù)據(jù)源,開(kāi)展實(shí)驗(yàn)研究。驗(yàn)證所提出的模型和方法的有效性。2.C5.0決策樹(shù)算法(1)決策樹(shù)是一種類似于流程圖的樹(shù)結(jié)構(gòu),其結(jié)構(gòu)是一棵倒置的樹(shù),它主要圍繞生長(zhǎng)和剪枝兩大核心問(wèn)題展開(kāi).決策樹(shù)獲取的知識(shí)用樹(shù)的形式表示出來(lái),其中包括分類樹(shù)和回歸樹(shù),分類或預(yù)測(cè)的結(jié)果均體現(xiàn)在決策樹(shù)的葉節(jié)點(diǎn)上.分類樹(shù)葉節(jié)點(diǎn)所含樣本中,其輸出變量的眾數(shù)類別就是分類結(jié)果;回歸樹(shù)葉節(jié)點(diǎn)所含樣本中,其輸出變量的平均值就是預(yù)測(cè)結(jié)果.決策樹(shù)直觀易懂且其歸納學(xué)習(xí)和分類步驟簡(jiǎn)單快速,并且具有很好的準(zhǔn)確率.(2)C5.0算法最為典型的決策樹(shù)學(xué)習(xí)算法是ID3,它采用自頂向下不回溯策略,能保證找到一個(gè)簡(jiǎn)單的樹(shù).C4.

4、5是改進(jìn)后的原始決策樹(shù)分析ID3算法,而C5.0與C4.5不同之處在于C5.0可以處理多種數(shù)據(jù)類型,包括了日期(date)、時(shí)間(times)、時(shí)間戳(timestamps)、序列(discreteattributes)等等.除了處理數(shù)據(jù)部分丟失的問(wèn)題,C5.0還可以將部分屬性標(biāo)記為不適合,以使得分析時(shí)仍能保持資料的完整性.C5.0可用來(lái)處理數(shù)值型或分類型的資料,它的分類預(yù)測(cè)是基于邏輯的,即通過(guò)對(duì)輸入變量取值的布爾比較實(shí)現(xiàn)對(duì)輸出變量的分類預(yù)測(cè),在眾多的輸出變量中選擇一個(gè)當(dāng)前最佳的分組變量,并從分組變量的眾多取值中找到一個(gè)最佳的分割點(diǎn).且為了清楚的表示分析結(jié)果,可用決策樹(shù)(decisiontre

5、es)或是if-then的關(guān)系顯示.C5.0基本算法可以描述如下,設(shè)R是非標(biāo)稱屬性集;C是標(biāo)稱屬性;S是訓(xùn)練集;trees()是決策樹(shù)生成的函數(shù):trees(R,C,S)函數(shù)返回值類型為決策樹(shù)/*相關(guān)定義*乜|j=1,2,m為屬性D的值;*包|j=1,2,m)為S的子集,分別包含屬性D的不同值d;*/if(S為空)then返回單一失敗節(jié)點(diǎn);if(R包含的記錄的標(biāo)稱屬性值均相同)then返回具有該標(biāo)稱屬性值的單一節(jié)點(diǎn);if(R為空)then返回用S的最常見(jiàn)值賦值的單一節(jié)點(diǎn);/*此時(shí)為出錯(cuò),記錄沒(méi)有被適當(dāng)分類*/在R中找尋具有最大信息增益的屬性D;生成一棵以D為根的樹(shù),分支為d1,d2,,dm;遞

6、歸調(diào)用函數(shù)trees(R-D,C,S);trees(RD,CS);,trees(R-D,C,Sm);)3 .基于C5.0算法的決策樹(shù)構(gòu)造3.1 數(shù)據(jù)預(yù)處理本文原始數(shù)據(jù)為2011年全國(guó)師范類大學(xué)的綜合各項(xiàng)的測(cè)評(píng)分?jǐn)?shù),對(duì)其綜合資源、成果、學(xué)生情況、教師資源、物資資源進(jìn)行統(tǒng)計(jì)分析,觀察是否有缺失值,觀察后發(fā)現(xiàn)在數(shù)據(jù)中,發(fā)現(xiàn)資源和成果兩項(xiàng)缺失值過(guò)多,所以不對(duì)著兩項(xiàng)進(jìn)行處理.將處理后的數(shù)據(jù)記錄到一個(gè)EXCE儀件中,作為分析數(shù)據(jù)源.3.2 建立決策樹(shù)并分析本文利用這些數(shù)據(jù),來(lái)建立綜合、學(xué)生情況、聲譽(yù)、教師資源、物資資源和學(xué)校等級(jí)的關(guān)系決策樹(shù)模型,從而對(duì)決策樹(shù)模型的建立與挖掘工程進(jìn)行詳細(xì)的分析.挖掘過(guò)程采用

7、SPSSClementine作為工具,在Clementine中建立的挖掘模型,如圖1所示.圖一數(shù)據(jù)挖掘模型由于經(jīng)過(guò)決策樹(shù)分析的數(shù)據(jù)是歷史數(shù)據(jù),因此,需要檢驗(yàn)這些決策是否能套用在參加考研的分析中,所以所建立的模型分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),訓(xùn)練數(shù)據(jù)是在產(chǎn)生決策規(guī)則的過(guò)程中,用于進(jìn)行訓(xùn)練決策規(guī)則的數(shù)據(jù),訓(xùn)練錯(cuò)誤率指的是在決策規(guī)則產(chǎn)生后,將這些訓(xùn)練數(shù)據(jù)放到?jīng)Q策規(guī)則中發(fā)生錯(cuò)誤的比率(及實(shí)際資料的分類與按決策規(guī)則進(jìn)行分類的結(jié)果不同);測(cè)試數(shù)據(jù)是已經(jīng)產(chǎn)生決策規(guī)則后,用來(lái)進(jìn)行測(cè)試新決策規(guī)則屬于原本的訓(xùn)練數(shù)據(jù)集,測(cè)試錯(cuò)誤率則是指使用測(cè)試數(shù)據(jù)后產(chǎn)生的錯(cuò)誤比率.這兩種錯(cuò)誤率將會(huì)在決策規(guī)則驗(yàn)證時(shí)作為各種不同分析的比較指

8、標(biāo).在該模型中將訓(xùn)練數(shù)據(jù)、測(cè)試數(shù)據(jù)分別占50%,則訓(xùn)練樣本個(gè)數(shù)大約為40個(gè),測(cè)試樣本個(gè)數(shù)大約為40個(gè),數(shù)據(jù)分區(qū)如圖2所示:等級(jí)的分析目叵區(qū)I3文件二翁輯回Hl3!隊(duì)全部折費(fèi)(C)能全部展開(kāi)(E)I-輸出手段等儂的結(jié)果各比較$C-等皴與等級(jí);芬區(qū)T_正錯(cuò)總確諜計(jì)3485%3587.6%615%512.5%4040分析注解圖三C5.0挖掘分析結(jié)果4 .基于C5.0算法分析結(jié)果C5.0算法的分析結(jié)果如圖二所示,從圖中可以明顯得出C5.0算法的訓(xùn)練分析錯(cuò)誤率為15%和測(cè)試分析錯(cuò)誤率為12.5%,算法錯(cuò)誤率不算高,綜合排名決定了其等級(jí)的排名情況。5 .結(jié)束語(yǔ)本文首先分析了數(shù)據(jù)挖掘技術(shù)應(yīng)用于日常生活和教學(xué)質(zhì)量監(jiān)督的必要性,進(jìn)一步對(duì)數(shù)據(jù)挖掘中的決策樹(shù)算法C5.0決策樹(shù)算法進(jìn)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論