下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
基于決策樹的學生分類模型研究
隨著現(xiàn)代教育的發(fā)展,作為高等教育管理體系的學校教育體系越來越受到重視。它的特點是以學分作為學習的計量單位,以取得必需的最低學分作為畢業(yè)和獲得學位的主要標準,其最大優(yōu)點是原則性和自主性相結合。但在學分制下,教學管理過程浮現(xiàn)出不少新問題。比如,由于學生可以自由選擇課程,因此,當學生修學了多個專業(yè)的課程,并通過考試獲得學分以后,學校如何進行學生的學位認證呢?1基于決策樹的分類方法數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。當數(shù)據(jù)挖掘技術與方法論發(fā)展到一定的程度之后,其結果就是應用,即構造數(shù)據(jù)挖掘系統(tǒng)。數(shù)據(jù)分類是指按照分析對象的屬性、特征,建立不同的組類來描述事物,是數(shù)據(jù)挖掘的主要內(nèi)容之一,它是通過分析訓練數(shù)據(jù)樣本,產(chǎn)生關于類別的精確描述。基于決策樹的分類方法是一種監(jiān)督學習的方法。決策樹是一個類似于流程圖的樹結構,其中每個內(nèi)部結點均表示在一個屬性上的測試,每個分枝代表一個測試輸出,每個樹葉結點代表類或類分布。決策樹學習算法則是以實例為基礎的歸納學習算法,通常用來形成分類器和預測模型,可以對未知數(shù)據(jù)進行分類或預測、數(shù)據(jù)預處理、數(shù)據(jù)挖掘等。它通常包括兩部分:樹的生成和樹的剪枝。2根據(jù)學生所修課程的專業(yè)分類在完全學分制下,學生雖說可以根據(jù)自己的興趣、愛好進行自由選課,但自由選課也必須在一定的范圍內(nèi)進行,這個范圍就是學生欲修專業(yè)的大方向。在根據(jù)學生所修課程進行分類時,首先對學生進行院系分類,即專業(yè)大方向分類;再在專業(yè)大方向下進行具體專業(yè)分類,具體專業(yè)分類的類別就是學生畢業(yè)文憑的類別。通過對學生所修課程的種類進行分析,建立基于決策樹的學生分類模型,從中提取出分類規(guī)則,便可解決完全學分制下學生畢業(yè)時的畢業(yè)認證問題。2.1簡化數(shù)據(jù)、轉換數(shù)據(jù)數(shù)據(jù)預處理是數(shù)據(jù)挖掘的重要一環(huán),而且必不可少。在構造決策樹前需對數(shù)據(jù)進行數(shù)據(jù)抽取、數(shù)據(jù)簡化、數(shù)據(jù)轉換和數(shù)據(jù)裝載等數(shù)據(jù)預處理操作。數(shù)據(jù)抽取:是把已修總學分達到畢業(yè)要求學分的學生記錄抽取出來,為進一步的數(shù)據(jù)預處理作準備。數(shù)據(jù)簡化:對入學方式、課程類型、學期、補考、重修1、重修2、重修3和重修4等對學生分類無關的屬性和專業(yè)名稱進行刪除操作,以達到簡化數(shù)據(jù)的目的。數(shù)據(jù)轉換:一是構造和添加“專業(yè)大方向”、“課程總學分”、“專業(yè)必修課總學分”、“專業(yè)必修課程總數(shù)”四個新的屬性,以使數(shù)據(jù)更適合進行挖掘,以提高精度和對高維數(shù)據(jù)結構的理解。二是把當前的非事務數(shù)據(jù)庫的縱向數(shù)據(jù)存儲結構轉換為事務數(shù)據(jù)庫的橫向存儲結構。數(shù)據(jù)裝載:主要是將經(jīng)過抽取、簡化和轉換后的數(shù)據(jù)加載到數(shù)據(jù)倉庫/集市里,即入庫,操作者可以通過數(shù)據(jù)文件直接裝載或直連數(shù)據(jù)庫的方式來進行數(shù)據(jù)裝載。2.2專業(yè)能力視角下的期望熵建立決策樹的總樣本量為1873。表1給出了數(shù)據(jù)預處理后學生成績數(shù)據(jù)庫數(shù)據(jù)元組訓練集。類標號屬性“專業(yè)名稱”有6個不同值(計算機科學技術,軟件工程,信息系統(tǒng)工程,思想政治教育,法學,政治學與行政學),因此有6個不同的類(m=6),依次用C1,C2,C3,C4,C5,C6與之對應。類“計算機科學與技術”有843個樣本,類“軟件工程”有168個樣本,類“信息系統(tǒng)工程”有47個樣本,類“思想政治教育”有234個樣本,類“法學”有370個樣本,類“政治學與行政學”有211個樣本。為計算每個屬性的信息增益,先使用公式:I=(s1?s2???sm)=?∑i=1mpilog2(pi)Ι=(s1?s2???sm)=-∑i=1mpilog2(pi)計算對給定樣本分類所需的期望信息:I(s1?s2???s6)=I(843?168?47?234?370?211)=?8431873×log28431873???2111873×log22111873=0.649Ι(s1?s2???s6)=Ι(843?168?47?234?370?211)=-8431873×log28431873-?-2111873×log22111873=0.649下一步,需要計算每個屬性的熵。從屬性“專業(yè)大方向”開始。需要觀察“專業(yè)名稱”的每個樣本值的分布。對每個分布計算期望信息。對于“計算機學院”,s11=843,s21=168,s31=47,s41=0,s51=0,s61=0,I(s11,s21,…,s61)=0.266;對于“政法學院”,s12=0,s22=0,s32=0,s42=234,s52=370,s62=211,I(s12,s22,…,s62)=0.464;如果按“專業(yè)大方向”劃分,對一個給定的樣本分類所需的期望熵,使用下式進行計算:E(A)=∑j=1vs1j+?+smjsI(s1j????smjE(A)=∑j=1vs1j+?+smjsΙ(s1j????smjE(專業(yè)大方向)=10581873I(s11?s21??s61)+8151873I(s12?s22???s62)=0.352=10581873Ι(s11?s21??s61)+8151873Ι(s12?s22???s62)=0.352因此,這種劃分的增益是Gain(專業(yè)大方向)=I(s1,s2,…,s6)-E(專業(yè)大方向)=0.297類似地,計算出Gain(專業(yè)必修課總學分)=0.262;Gain(專業(yè)必修課總數(shù))=0.194;由于專業(yè)大方向在屬性中具有最高信息增益,它被選作測試屬性。創(chuàng)建一個節(jié)點,用“專業(yè)大方向”作標記,并對于每一個屬性值,引出一個分枝,樣本據(jù)此劃分找出新的分割點。因此要對這兩個分枝的實例組成的子集重復上述計算過程。對于專業(yè)大方向“計算機學院”:Gain(專業(yè)必修課總學分)=0.021;Gain(專業(yè)必修課總數(shù))=0.017;因此,“專業(yè)必修課總學分”成為“計算機學院”分枝劃分樣本的最大信息增益,這一分枝的節(jié)點為“專業(yè)必修課總學分”;而且,通過該節(jié)點可以確定各記錄的具體類別,即到達了葉節(jié)點,遞歸操作結束。對于專業(yè)大方向“政法學院”:Gain(專業(yè)必修課總學分)=0.015;Gain(專業(yè)必修課總數(shù))=0.009;“專業(yè)必修課總學分”也成為“政法學院”分枝劃分樣本的最大信息增益,但它還不能完全把所有的類別分開;因此,還必需利用最后一個屬性“專業(yè)必修課總數(shù)”進行分割。進行以上分割后,現(xiàn)在已經(jīng)沒有屬性可以用來劃分了,因此對以上節(jié)點進行樹葉標記判斷。經(jīng)過遞歸的計算劃分,最終得到學生分類決策樹如圖1所示:3相關問題有待解決隨著高校教學改革的深入開展,學分制是發(fā)展的必然
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版國際奢侈品進口代理與零售合同3篇
- 二零二五版重型貨物運輸許可審批指南合同2篇
- 二零二五年度酒店場地租賃合同全面升級版服務協(xié)議2篇
- 2025年度煤礦掘進工程設備租賃與維護合同4篇
- 二零二五版高端駕校場地改造及施工一體化合同3篇
- 2025年度文檔智能分析與多場景應用服務協(xié)議3篇
- 二零二五版餐飲加盟連鎖區(qū)域總代理合同6篇
- 年度粘土、砂石競爭策略分析報告
- 年度保健休閑用品競爭策略分析報告
- 2025年度臨時工建筑安裝與維護合同4篇
- 三年級數(shù)學(上)計算題專項練習附答案
- GB/T 12723-2024單位產(chǎn)品能源消耗限額編制通則
- 2024年廣東省深圳市中考英語試題含解析
- GB/T 16288-2024塑料制品的標志
- 麻風病防治知識課件
- 建筑工程施工圖設計文件審查辦法
- 干部職級晉升積分制管理辦法
- 培訓機構應急預案6篇
- 北師大版數(shù)學五年級上冊口算專項練習
- 應急物資智能調(diào)配系統(tǒng)解決方案
- 2025年公務員考試時政專項測驗100題及答案
評論
0/150
提交評論