版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、基于核fisher判別分析的高職學(xué)生考試成績預(yù)測 摘 要:高職教育中對學(xué)生考試成績的預(yù)測,可以幫助教師提前評估教學(xué)效果,優(yōu)化課程設(shè)計(jì),從而提高學(xué)生考試成績和教學(xué)質(zhì)量。文章基于核fisher判別分析,搭建了高職學(xué)生期末考試成績預(yù)測模型,以學(xué)生自身特點(diǎn)和平時(shí)表現(xiàn)等構(gòu)成模型輸入變量的維度信息,來預(yù)測學(xué)生是否可以通過期末考試。實(shí)驗(yàn)中以深圳信息職業(yè)技術(shù)學(xué)院學(xué)生作為研究分析對象,考察建立模型的預(yù)測精度,并與經(jīng)典算法進(jìn)行了比較。實(shí)驗(yàn)結(jié)果證明,核fisher判別分析具有良好的泛化能力,其預(yù)測精度與支持向量機(jī)相近,但優(yōu)于c4.5決策樹方法。 關(guān)鍵詞:核fisher判別分析;高職教育;考試成績預(yù)測 中圖分類號:
2、tp391 文獻(xiàn)標(biāo)志碼:a 文章編號:1673-8454(2016)16-0076-04 一、引言 隨著國家“十三五”規(guī)劃的順利進(jìn)行,加快發(fā)展職業(yè)教育已經(jīng)越來越成為國家、社會和教育界的共識,高職院校不可避免的成為了培養(yǎng)實(shí)用技能型人才的主要基地。隨著高職招生人數(shù)的不斷擴(kuò)大,以及社會還沒有擺脫對職業(yè)教育的傳統(tǒng)觀念,高職院校的生源質(zhì)量每況愈下。一部分學(xué)生的基礎(chǔ)知識較差,學(xué)習(xí)新知識的意愿不強(qiáng),無論在課堂上與老師的互動,還是課下的平時(shí)作業(yè)完成情況,都不盡如人意,使得教師很難在真正考試之前評估教學(xué)效果,從而造成教學(xué)質(zhì)量下降。因此,如何提高高職學(xué)生的學(xué)習(xí)成績,成為社會和學(xué)校都關(guān)注的問題。在教學(xué)過程中、期末考
3、試之前,有針對性的建立模型預(yù)測考試成績,提前評估教學(xué)效果,可以起到預(yù)警的作用。對那些有可能不及格的學(xué)生及時(shí)糾正其不良學(xué)習(xí)行為,并進(jìn)行單獨(dú)輔導(dǎo),則有助于提高學(xué)生成績,減少不合格現(xiàn)象,進(jìn)而提高學(xué)生培養(yǎng)質(zhì)量,優(yōu)化課程設(shè)計(jì),促進(jìn)教師教學(xué)進(jìn)步。 正是意識到學(xué)生成績預(yù)測對提高教學(xué)質(zhì)量、促進(jìn)教學(xué)改革的重要性,國內(nèi)一些學(xué)者在幾年前就已經(jīng)開始對該領(lǐng)域展開研究。大部分學(xué)者將成績預(yù)測視為分類問題,于是多采用數(shù)據(jù)挖掘或機(jī)器學(xué)習(xí)領(lǐng)域的算法,如決策樹、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等來建立模型。其中,決策樹方法因?yàn)槔碚摪l(fā)展成熟、易于理解等優(yōu)點(diǎn),被廣泛用于大學(xué)生英語成績預(yù)測1、大學(xué)生計(jì)算機(jī)等級考試成績預(yù)測2、一般性課程的成績預(yù)測
4、3, 4等;而人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)也因?yàn)樵鷮?shí)的理論基礎(chǔ)和廣泛應(yīng)用,被用于大學(xué)生課程成績預(yù)測5,6,并取得良好的效果。 核fisher判別分析作為基于核函數(shù)的機(jī)器學(xué)習(xí)算法的典型代表7,其分類效果在其他模式識別和預(yù)測領(lǐng)域得到了很好的驗(yàn)證8,9。學(xué)者們前期的研究成果表明,決策樹、神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)方法在學(xué)生考試成績預(yù)測方面均取得了不俗的成績。但是到目前為止,我們尚未發(fā)現(xiàn)有學(xué)者應(yīng)用完整的核fisher判別分析進(jìn)行大學(xué)生成績預(yù)測的系統(tǒng)報(bào)道(雖然有學(xué)者利用線性fisher判別分析對svm模型中的數(shù)據(jù)因素進(jìn)行加權(quán)6)。因此,本文提出利用核fisher判別分析作為工具,嘗試尋找學(xué)生學(xué)習(xí)屬性與成績之間隱含
5、的非線性復(fù)雜關(guān)系,從而建立高職在校學(xué)生期末考試成績預(yù)測模型。實(shí)驗(yàn)分析中以深圳信息職業(yè)技術(shù)學(xué)院物流管理專業(yè)2015級3個(gè)班級的學(xué)生作為研究對象,采用學(xué)生性別、生源地、考勤表現(xiàn)和平時(shí)作業(yè)成績等作為模型的輸入變量,來預(yù)測學(xué)生的期末考試成績。實(shí)驗(yàn)結(jié)果證明,核fisher判別分析的泛化能力強(qiáng),其預(yù)測精度與支持向量機(jī)十分接近,并且優(yōu)于c4.5決策樹方法。 二、核fisher判別分析 核fisher判別分析7是基于核函數(shù)的機(jī)器學(xué)習(xí)算法中的一種,其結(jié)合了線性fisher判別分析與核函數(shù)的思想,能夠有效地解決現(xiàn)實(shí)中的分類問題8, 9 。 1.線性fisher判別分析原理10 線性fisher判別分析是一種有監(jiān)督
6、學(xué)習(xí)的分類方法。給定一組d維空間的樣本數(shù)據(jù)xr(i1,2,.n),n為樣本數(shù)據(jù)集的大小,他們分別屬于不同的兩類,則樣本類別標(biāo)識記為yi1,2。屬于類1的n1個(gè)樣本記為x1=x11,x12,.x1,屬于類2的n2個(gè)樣本記為x2=x21,x22,.x2。算法“學(xué)習(xí)”或者“訓(xùn)練”的過程,就是要找到樣本數(shù)據(jù)與其類別隱含的內(nèi)在關(guān)系模式xy。線性fisher判別分析構(gòu)造學(xué)習(xí)模型的核心目標(biāo)是尋找一個(gè)d維向量wr,當(dāng)樣本數(shù)據(jù)向該方向投影時(shí),最大化類間散度和類內(nèi)散度的比值,使得樣本數(shù)據(jù)在這個(gè)方向上盡可能的分開,達(dá)到清楚辨識的目的。定義某一類樣本(i=1,2)數(shù)據(jù)類內(nèi)均值為: 2.核fisher判別分析原理 線性
7、fisher判別分析是一種線性分類器,當(dāng)樣本數(shù)據(jù)與類別呈現(xiàn)線性關(guān)系時(shí)其分類效果會很好。但是實(shí)際問題中,樣本數(shù)據(jù)與其類別的關(guān)系往往呈現(xiàn)出復(fù)雜的非線性,則線性fisher判別分析的分類效果就會差強(qiáng)人意,而且也無法解決模式識別中常見的維數(shù)災(zāi)難問題。在支持向量機(jī)中成功應(yīng)用的核函數(shù)的出現(xiàn)解決了這個(gè)問題11, 12。核函數(shù)首先將數(shù)據(jù)從低維的輸入向量空間r映射到高維(甚至是無限維)的特征空間,即:r。通過某些核(?),映射可表示為xi(xi)=(a11(xi),amm(xi),)。在這個(gè)高維的特征空間中應(yīng)用線性fisher判別分析,在特征空間得到的線性分類器通過核映射回原始的輸入數(shù)據(jù)空間r時(shí),就得到了非線性
8、分類器。 基于線性fisher判別分析的原理,核fisher判別分析在特征空間要尋找w,使得下式f(w)最大化: 三、實(shí)驗(yàn)及分析 為了評估本文提出的基于核fisher判別分析的預(yù)測模型的實(shí)際效果,我們將深圳信息職業(yè)技術(shù)學(xué)院物流管理專業(yè)2015級3個(gè)班級共151名學(xué)生作為研究對象,收集第一學(xué)年某門專業(yè)基礎(chǔ)課的期末考試成績及相關(guān)因素作為模型的輸出和輸入變量。預(yù)測模型的輸入變量(樣本屬性)應(yīng)該與考試成績密切相關(guān),我們選擇輸入向量時(shí)主要根據(jù)日常教學(xué)經(jīng)驗(yàn)反饋的以下幾點(diǎn)事實(shí):大學(xué)生個(gè)體的期末成績往往與其曠課、遲到次數(shù)(出勤反映學(xué)習(xí)態(tài)度)負(fù)相關(guān),與平時(shí)作業(yè)成績(平時(shí)作業(yè)代表學(xué)習(xí)態(tài)度和對知識的理解程度)正相關(guān)
9、;本專業(yè)學(xué)生的自有特點(diǎn)是女同學(xué)平均成績比男同學(xué)略勝一籌;深圳市外生源較市內(nèi)生源入學(xué)平均成績高。因此,我們選擇學(xué)生的性別、生源地、出勤表現(xiàn)和平時(shí)作業(yè)成績作為樣本的屬性變量,具體總結(jié)如表1所示。 此外,將所有學(xué)生分為兩類,期末考試成績大于等于60分記為“合格”,否則記為“不合格”。數(shù)據(jù)集中的部分樣本示例如表2所示。 我們在matlab環(huán)境中編寫核fisher判別分析的實(shí)現(xiàn)代碼,并裝載收集到的原始數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)研究。為了比較核fisher判別分析對高職學(xué)生成績的預(yù)測效果,我們還測試了支持向量機(jī)svm算法和c4.5決策樹方法,這兩種方法同樣在matlab環(huán)境中實(shí)現(xiàn)。在核fisher判別分析和svm建模
10、時(shí),為了防止樣本中某個(gè)維度的數(shù)值過大而在核函數(shù)計(jì)算中淹沒其他維度數(shù)據(jù)的作用,我們先對原始數(shù)據(jù)進(jìn)行預(yù)處理,即將原始數(shù)據(jù)標(biāo)準(zhǔn)化在-1,+1的范圍內(nèi)。在使用c4.5決策樹建模時(shí),因?yàn)槠淠軌蛲瑫r(shí)處理連續(xù)值和離散值的屬性,訓(xùn)練和測試過程不受數(shù)據(jù)大小的影響,所以c4.5方法實(shí)現(xiàn)中仍舊保持原始數(shù)據(jù),不進(jìn)行額外處理。 由于實(shí)驗(yàn)用的原始數(shù)據(jù)集較小,如果簡單地分為訓(xùn)練和測試兩個(gè)數(shù)據(jù)集合,評估效果容易出現(xiàn)偏差。為了能夠全面反映各種算法預(yù)測的精度,我們對整個(gè)樣本數(shù)據(jù)進(jìn)行多次劃分,每次從全體數(shù)據(jù)集中選擇10%的數(shù)據(jù)作為測試數(shù)據(jù),其余數(shù)據(jù)用于訓(xùn)練模型和確定最優(yōu)參數(shù)。此外,核fisher判別分析和svm均采用rbf徑向基核
11、k(xi,xj)=exp(-|xi-xj|2)作為核函數(shù),其中是核參數(shù)。由于訓(xùn)練得到的模型的泛化能力高度依賴于核函數(shù)參數(shù)、正則化參數(shù)或懲罰系數(shù)的選擇,因此選擇最優(yōu)的參數(shù)很有必要。在實(shí)驗(yàn)中,核fisher判別分析的正則化參數(shù)設(shè)為=10-3,核fisher判別分析和svm中用到的核參數(shù)和懲罰系數(shù)由10-交叉驗(yàn)證網(wǎng)格搜索法來確定13。在最優(yōu)參數(shù)設(shè)置下對測試樣本數(shù)據(jù)進(jìn)行預(yù)測,每次測試的準(zhǔn)確率定義如下: 準(zhǔn)確率=×100%(14) 實(shí)驗(yàn)的結(jié)果是進(jìn)行十次測試的平均值,如表3所示。 從實(shí)驗(yàn)結(jié)果可以看出,基于核函數(shù)方法的核fisher判別分析和svm預(yù)測精度相近(其中核fisher判別分析預(yù)測準(zhǔn)確度
12、的平均值略微高于svm),這一點(diǎn)與兩者在標(biāo)準(zhǔn)數(shù)據(jù)集上的測試結(jié)果一致7,但是兩者的預(yù)測精度都明顯高于c4.5決策樹算法。c4.5決策樹方法訓(xùn)練模型時(shí),主要采用信息增益率作為選擇根結(jié)點(diǎn)和各內(nèi)部結(jié)點(diǎn)中分支屬性的評價(jià)標(biāo)準(zhǔn),訓(xùn)練速度快,得到的模型直觀性強(qiáng),規(guī)則易于被使用者理解。但是決策樹方法在訓(xùn)練集上的預(yù)測效果往往優(yōu)于測試集,即容易出現(xiàn)過擬合的現(xiàn)象。核fisher判別分析和svm利用的核函數(shù)將數(shù)據(jù)從低維的輸入空間映射到高維的特征空間,在特征空間都基于各自的分類原理構(gòu)建線性分類器使得兩類數(shù)據(jù)集盡可能的分開,得到的線性分類器經(jīng)過核函數(shù)映射回輸入空間后,即成為非線性分類器。因此,核fisher判別分析和svm
13、得到的預(yù)測模型泛化性能良好,能夠挖掘出輸入樣本屬性與其類別之間隱含的非線性復(fù)雜關(guān)系。另外,本文用到的原始實(shí)驗(yàn)數(shù)據(jù)采集自學(xué)生的實(shí)際情況,其中包含著一部分不完全、有噪聲的數(shù)據(jù),比如有些學(xué)生學(xué)習(xí)能力強(qiáng)、成績突出,但是有個(gè)別作業(yè)沒有提交或是遲到的情況,卻依然會通過考試。噪聲數(shù)據(jù)會使得決策樹方法產(chǎn)生的過擬合現(xiàn)象更加嚴(yán)重,減小了泛化能力,從而影響測試效果。與之對應(yīng)的是,核fisher判別分析和svm分類的基本原理保證了盡可能將噪聲數(shù)據(jù)的影響降到最低,所以會取得較好的預(yù)測效果。 四、結(jié)束語 在我國的長期規(guī)劃中,高等職業(yè)教育受到越來越多的重視?;谀壳案呗毥虒W(xué)和生源的自有特點(diǎn),建立準(zhǔn)確的學(xué)生考試成績預(yù)測模型,
14、能夠幫助教師提前評估教學(xué)成果,改進(jìn)教學(xué)方法,對提高教學(xué)質(zhì)量具有非常重要的意義。本文在matlab環(huán)境中建立了基于核fisher判別方法的學(xué)生考試成績預(yù)測模型,可以在期末考試之前,根據(jù)學(xué)生的自身特點(diǎn)和平時(shí)表現(xiàn)來預(yù)測其成績。在以本校高職學(xué)生為研究對象的實(shí)驗(yàn)中,核fisher判別方法取得了良好的預(yù)測效果,可以成為一線教師提高教學(xué)的有力工具。同時(shí),只要能夠正確地選擇輸入變量的屬性,該模型可以被直接推廣到一般本科院校的學(xué)生考試成績預(yù)測中,同時(shí)也為后續(xù)建立教育信息化決策系統(tǒng)打下基礎(chǔ)。 在后續(xù)的研究中,可以在兩個(gè)方面進(jìn)行進(jìn)一步的拓展。第一,在實(shí)際情況中,經(jīng)常會出現(xiàn)通過考試的學(xué)生數(shù)量遠(yuǎn)遠(yuǎn)超過未通過考試的學(xué)生數(shù)
15、量,使得不同類別的原始采樣數(shù)據(jù)數(shù)量不平衡,這有可能影響模型的泛化能力。未來可以考慮如何針對不平衡數(shù)據(jù)集進(jìn)行訓(xùn)練和測試。第二,本文建立的分類模型,僅僅可以根據(jù)輸入向量來預(yù)測學(xué)生是否通過考試,而不能預(yù)測學(xué)生具體的考試分?jǐn)?shù)。期望以后能夠應(yīng)用基于核函數(shù)的回歸分析算法11,進(jìn)行學(xué)生成績的分?jǐn)?shù)預(yù)測。 參考文獻(xiàn): 1孫力,程玉霞.大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)教育學(xué)習(xí)成績預(yù)測的研究與實(shí)現(xiàn)以本科公共課程統(tǒng)考英語為例j. 開放教育研究,2015(3): 74-80. 2黃振功.決策樹在高校計(jì)算機(jī)等級考試成績分析的應(yīng)用j.科技資訊,2013(25):18-19. 3武彤,王秀坤.決策樹算法在學(xué)生成績預(yù)測分析中的應(yīng)用j.微計(jì)算機(jī)信
16、息,2010(3): 209-211. 4于立紅,張建偉.基于數(shù)據(jù)挖掘的高職生成績分析與預(yù)測j.鄭州輕工業(yè)學(xué)院學(xué)報(bào),2006(3): 77-79. 5邱文教.基于人工神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)成績預(yù)測j.計(jì)算機(jī)與信息技術(shù),2010(4): 5-6. 6李建萍.基于加權(quán)支持向量機(jī)的學(xué)習(xí)成績預(yù)測模型j.中國科教創(chuàng)新導(dǎo)刊,2009(14): 137-138. 7mika s, r tsch g, weston j, et al. fisher discriminant analysis with kernelsc. neural networks for signal processing ix, 1999.
17、proceedings of the 1999 ieee signal processing society workshop. 8李建云,邱菀華.核fisher判別分析方法評估消費(fèi)者信用風(fēng)險(xiǎn)j.系統(tǒng)工程理論方法應(yīng)用,2004(6): 548-552. 9李映,焦李成.基于核fisher判別分析的目標(biāo)識別j.西安電子科技大學(xué)學(xué)報(bào), 2003(2):179-182. 10bishop c.pattern recognition and machine learningm. springer science & business media, 2006. 11vapnik v.the nature of statistical learning theorym. springer science & business media, 2013. 12mercer j. functions of positive and negative type, and their connection with the theory of integral equationsj. philosophical transac
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鄭州商貿(mào)旅游職業(yè)學(xué)院《單片機(jī)應(yīng)用課程設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 小學(xué)2024年藝術(shù)教育發(fā)展年度報(bào)告
- 浙江電力職業(yè)技術(shù)學(xué)院《纖維化學(xué)與物理學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 長春大學(xué)《衛(wèi)生財(cái)務(wù)管理》2023-2024學(xué)年第一學(xué)期期末試卷
- 生產(chǎn)調(diào)度中的敏捷性管理策略
- 餐飲新員工安全訓(xùn)練模板
- AI企業(yè)技術(shù)路演模板
- 水的化學(xué)屬性模板
- 生物制藥業(yè)策略講解模板
- 親子活動相冊制作模板
- 海南省天一大聯(lián)考2024屆高一物理第一學(xué)期期末監(jiān)測試題含解析
- 重癥醫(yī)學(xué)科運(yùn)用PDCA循環(huán)降低失禁性皮炎發(fā)生率品管圈成果匯報(bào)
- 物理化學(xué)課件 第一章 熱力學(xué)第一定律
- 07S906給水排水構(gòu)筑物設(shè)計(jì)選用圖化糞池
- IPC-6013中文版撓性印制板質(zhì)量要求與性能規(guī)范匯編
- 青島版小學(xué)二年級數(shù)學(xué)下冊全冊教案
- 干部人事檔案專項(xiàng)審核認(rèn)定表
- GB/T 9113-2010整體鋼制管法蘭
- 校長在評估反饋會上的表態(tài)發(fā)言稿(5篇)
- 班會之心理教育系列調(diào)適心態(tài)珍愛生命
- DLT50722023年火力發(fā)電廠保溫油漆設(shè)計(jì)規(guī)程
評論
0/150
提交評論