![基于教育數(shù)據(jù)挖掘的學(xué)習(xí)者聚類分析與研究_第1頁(yè)](http://file4.renrendoc.com/view/10e14b46db9ab779620e578819b891d3/10e14b46db9ab779620e578819b891d31.gif)
![基于教育數(shù)據(jù)挖掘的學(xué)習(xí)者聚類分析與研究_第2頁(yè)](http://file4.renrendoc.com/view/10e14b46db9ab779620e578819b891d3/10e14b46db9ab779620e578819b891d32.gif)
![基于教育數(shù)據(jù)挖掘的學(xué)習(xí)者聚類分析與研究_第3頁(yè)](http://file4.renrendoc.com/view/10e14b46db9ab779620e578819b891d3/10e14b46db9ab779620e578819b891d33.gif)
![基于教育數(shù)據(jù)挖掘的學(xué)習(xí)者聚類分析與研究_第4頁(yè)](http://file4.renrendoc.com/view/10e14b46db9ab779620e578819b891d3/10e14b46db9ab779620e578819b891d34.gif)
![基于教育數(shù)據(jù)挖掘的學(xué)習(xí)者聚類分析與研究_第5頁(yè)](http://file4.renrendoc.com/view/10e14b46db9ab779620e578819b891d3/10e14b46db9ab779620e578819b891d35.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 基于教育數(shù)據(jù)挖掘的學(xué)習(xí)者聚類分析與研究 石振強(qiáng)Summary:數(shù)據(jù)挖掘在教育領(lǐng)域的應(yīng)用隨著數(shù)據(jù)的增多變得極為重要,該文主要針對(duì)在線評(píng)測(cè)系統(tǒng)中學(xué)習(xí)者相關(guān)數(shù)據(jù)集進(jìn)行分析與研究,構(gòu)造多個(gè)學(xué)習(xí)者特征,并以此對(duì)學(xué)習(xí)者進(jìn)行聚類分析,從而得出不同學(xué)習(xí)者之間的特點(diǎn),并對(duì)每類學(xué)習(xí)者進(jìn)行深入分析,挖掘出隱含信息。一方面教育者可以針對(duì)不同類別的學(xué)習(xí)者采取不同的教育策略,另一方面使學(xué)習(xí)者更好地了解自己,發(fā)現(xiàn)不足的原因。將挖掘到的知識(shí)應(yīng)用到教育環(huán)境中,不僅完善了在線教育平臺(tái),同時(shí)也使學(xué)習(xí)者和教育者達(dá)到了雙贏的目的。Key:教育數(shù)據(jù)挖掘;在線評(píng)測(cè)系統(tǒng);學(xué)習(xí)者;特征;聚類分析:TP391 :A :1009-3044(20
2、18)06-0154-031概述隨著開源教育平臺(tái)的興起,教育數(shù)據(jù)挖掘技術(shù)融入教學(xué)已成為一種趨勢(shì),將教育系統(tǒng)的數(shù)據(jù)通過(guò)數(shù)據(jù)挖掘技術(shù)轉(zhuǎn)換為有用的知識(shí),并將挖掘到的知識(shí)再次應(yīng)用到教育環(huán)境中去,提供更多更客觀的反饋信息,一方面使教育者能夠更好地調(diào)整和優(yōu)化教學(xué)策略、改進(jìn)教學(xué)過(guò)程、完善課程開發(fā),基于學(xué)習(xí)者的學(xué)習(xí)情況來(lái)實(shí)現(xiàn)教學(xué)內(nèi)容組織、創(chuàng)新以及構(gòu)建教學(xué)模式等;另一方面可以使學(xué)習(xí)者更好地了解自己,有助于自己更好的學(xué)習(xí)。本文中主要研究XXX大學(xué)在線評(píng)測(cè)系統(tǒng)(Online Judge,以下簡(jiǎn)稱OJ),此系統(tǒng)是學(xué)習(xí)者通過(guò)在線提交代碼,系統(tǒng)即時(shí)檢測(cè)代碼的正確性并給出判定結(jié)果。OJ中,存儲(chǔ)著學(xué)習(xí)者的相關(guān)數(shù)據(jù),通過(guò)分析這
3、些數(shù)據(jù),更深入的了解學(xué)習(xí)者,以便針對(duì)不同類別學(xué)習(xí)者提供不同的教學(xué)方法。本文主要是通過(guò)分析學(xué)習(xí)者數(shù)據(jù),建立特征,得出不同類別學(xué)習(xí)者的特點(diǎn),使教學(xué)者有針對(duì)性做出策略。2數(shù)據(jù)挖掘介紹數(shù)據(jù)挖掘,就是從大量無(wú)序的數(shù)據(jù)中發(fā)現(xiàn)隱含的、有效的、有價(jià)值的、可理解的模式,進(jìn)而發(fā)現(xiàn)有用的知識(shí),并得出時(shí)間的趨向和關(guān)聯(lián),為用戶提供問(wèn)題求解層次的決策支持能力。隨著開源教育平臺(tái)的興起,平臺(tái)上的數(shù)據(jù)分析變得異常重要,將數(shù)據(jù)挖掘應(yīng)用在教育領(lǐng)域成為一種趨勢(shì)。如通過(guò)研究大規(guī)模教育數(shù)據(jù)中,可以為教育者提供更多潛在的不易發(fā)現(xiàn)的信息,以解決某教育中存在的問(wèn)題,或者來(lái)預(yù)測(cè)學(xué)習(xí)者所需要的服務(wù)。3問(wèn)題提出學(xué)習(xí)者數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中,因此在選取數(shù)
4、據(jù)時(shí),可以直接從數(shù)據(jù)庫(kù)中導(dǎo)出數(shù)據(jù),然后在其中提取具有研究?jī)r(jià)值的完整的數(shù)據(jù)集。如何更深入的了解學(xué)習(xí)者,挖掘出不同學(xué)習(xí)者之間的差異,以及如何找出需要進(jìn)行考前預(yù)警的學(xué)習(xí)者,是本文研究的重點(diǎn)。3.1山東某大學(xué)在線評(píng)測(cè)系統(tǒng)學(xué)習(xí)者群體的數(shù)據(jù)介紹自2011年以來(lái),注冊(cè)用戶的提升和題目的增加,使OJ系統(tǒng)的學(xué)習(xí)者數(shù)據(jù)集更加完備,便于研究和學(xué)習(xí)分析。OJ系統(tǒng)中的學(xué)習(xí)者主要涉及計(jì)算機(jī),軟件,網(wǎng)絡(luò),物聯(lián)網(wǎng),電科,數(shù)字媒體,信息安全,數(shù)學(xué)等專業(yè),學(xué)習(xí)者按時(shí)完成專業(yè)老師安排的作業(yè)和規(guī)定的考試,表1是五個(gè)年級(jí)學(xué)習(xí)者數(shù)據(jù)的匯總,表示學(xué)習(xí)者的對(duì)題目的提交情況。最終選取了2014級(jí),2015級(jí),2016級(jí)學(xué)習(xí)者數(shù)據(jù)。3.2問(wèn)題解
5、決的角度由于數(shù)據(jù)繁雜,各個(gè)年紀(jì)的學(xué)習(xí)者提交記錄都存儲(chǔ)在一個(gè)數(shù)據(jù)表中,學(xué)習(xí)者的分類僅僅依靠成績(jī)是不夠的,而且也是片面的,影響學(xué)習(xí)者做題的因素很多,所以對(duì)于學(xué)習(xí)者進(jìn)行有效的分析至關(guān)重要,對(duì)于教學(xué)者也有很好的幫助,可以對(duì)于不同學(xué)習(xí)者采取不同的教育方式。不同于以往僅僅按照成績(jī)將學(xué)習(xí)者進(jìn)行優(yōu)良中差的分類,本文采取多個(gè)學(xué)習(xí)者特征,建立一個(gè)基于在線評(píng)測(cè)系統(tǒng)的學(xué)習(xí)者模型??朔藛我环诸悩?biāo)準(zhǔn)所得最終結(jié)果的片面化的弊端。4學(xué)習(xí)者數(shù)據(jù)集的預(yù)處理4.1數(shù)據(jù)集成2011年以來(lái),隨著題目數(shù)量的增加,在教學(xué)方面,題目數(shù)據(jù)的涵蓋的內(nèi)容越豐富,越有利于學(xué)習(xí)者學(xué)習(xí),從而才能更好地針對(duì)學(xué)習(xí)者的數(shù)據(jù)集進(jìn)行分析。所以,本文選取2014
6、級(jí),2015級(jí),2016級(jí)的學(xué)習(xí)者數(shù)據(jù)。數(shù)據(jù)集成主要將很多數(shù)據(jù)的屬性集合在一起,本文中主要將數(shù)據(jù)從數(shù)據(jù)庫(kù)中導(dǎo)出,按照學(xué)號(hào)的特點(diǎn),針對(duì)不同的年級(jí),不同的專業(yè),不同的班級(jí),依次整理,下圖是將2014級(jí)學(xué)習(xí)者的信息進(jìn)行集成。表2 2014級(jí)總提交記錄圖中包括提交號(hào),題號(hào),用戶,提交時(shí)間,用戶IP,競(jìng)賽號(hào),判題情況,代碼長(zhǎng)度,判題時(shí)間等,涵蓋了學(xué)習(xí)者在本系統(tǒng)的所有屬性。4.2數(shù)據(jù)清理數(shù)據(jù)清理試圖填充缺失的值,光滑噪聲并識(shí)別利群點(diǎn),糾正圖中數(shù)據(jù)的不一致性。去掉不合理的、異常的數(shù)據(jù),比如只注冊(cè)者、注冊(cè)學(xué)號(hào)不合法、學(xué)習(xí)者補(bǔ)考數(shù)據(jù)、缺失數(shù)據(jù)等。對(duì)于學(xué)習(xí)者數(shù)據(jù)中,一些重要的屬性缺少屬性值,對(duì)于本部分的空缺,可以
7、使用數(shù)據(jù)清理技術(shù)來(lái)填充。填補(bǔ)缺失值補(bǔ)全主要有下面幾個(gè)方法:1)忽略缺失數(shù)據(jù);2)人工填寫缺失值:此方式比較費(fèi)時(shí),數(shù)據(jù)量較小的情況下可以行得通;3)使用均值填充;4)使用最有可能的一個(gè)值進(jìn)行填充:通過(guò)回歸或者使用貝葉斯形式化的基于推理的工具或者決策樹歸納確定。本文中的數(shù)據(jù)清理,選取學(xué)習(xí)者參與度較高的十四次程序設(shè)計(jì)基礎(chǔ)作業(yè)。因某種原因缺失作業(yè)較多學(xué)習(xí)者直接刪除,只缺少兩次甚至更少的學(xué)習(xí)者,通過(guò)其前幾次作業(yè)的做題情況,使用第四種方式填充。此方式主要用于學(xué)習(xí)者的做題時(shí)間。包括平均做題時(shí)間和每次作業(yè)的第一次提交時(shí)間。非法用戶、不按照學(xué)號(hào)形式注冊(cè)一律刪除。缺失值補(bǔ)全主要采用第四種方式進(jìn)行填充。刪除數(shù)據(jù)量過(guò)
8、少的用戶,比如只登錄過(guò)幾次,或者提交次數(shù)過(guò)少。偏差檢測(cè),發(fā)現(xiàn)噪聲、離群點(diǎn)和需要考察的不尋常的數(shù)據(jù)。通過(guò)數(shù)據(jù)清理,數(shù)據(jù)更加規(guī)范,合理。4.3特征構(gòu)造特征之間存在較高的相關(guān)度,而且很多特征可以通過(guò)計(jì)算減少特征的個(gè)數(shù)。在線評(píng)測(cè)系統(tǒng)中,與學(xué)習(xí)者相關(guān)的重要特征主要為:提交次數(shù),正確提交次數(shù),做題個(gè)數(shù),正確率,做題時(shí)間(單位做題時(shí)間),作業(yè)提交首次時(shí)間平均值。1)提交次數(shù):選取學(xué)習(xí)者學(xué)年總的提交次數(shù),通過(guò)統(tǒng)計(jì)每位學(xué)習(xí)者的提交的信息,包括其所有提交記錄:錯(cuò)誤次數(shù)、運(yùn)行錯(cuò)誤次數(shù)、正確次數(shù)、編譯錯(cuò)誤次數(shù)等2)正確提交次數(shù):每一級(jí)學(xué)習(xí)者正確提交的次數(shù)3)正確率:提交正確的題目個(gè)數(shù)與提交的題目個(gè)數(shù)之比;4)正確做題
9、個(gè)數(shù):選取程序設(shè)計(jì)基礎(chǔ)課程十三次作業(yè)中,學(xué)習(xí)者總的完成題目個(gè)數(shù)。5)單位做題時(shí)間:選取第i次作業(yè)中第一次提交時(shí)間與最后一次正確提交時(shí)間之差,與此次作業(yè)中完成的題目數(shù)之比。6)作業(yè)首次提交時(shí)間與作業(yè)開始時(shí)間間隔平均值:計(jì)算所有作業(yè)首次正確提交時(shí)間與作業(yè)開始時(shí)間間隔的平均值。4.4特征描述數(shù)據(jù)處理完成后,對(duì)于評(píng)測(cè)系統(tǒng)中學(xué)習(xí)者的數(shù)據(jù)集的各個(gè)特征所代表的含義如下:正確做題數(shù)目:代表了學(xué)習(xí)者在在線評(píng)測(cè)系統(tǒng)中的完成度。登錄次數(shù):代表了學(xué)習(xí)者在在線評(píng)測(cè)系統(tǒng)中的參與度。總提交次數(shù):代表了學(xué)習(xí)者在在線評(píng)測(cè)系統(tǒng)中的嘗試次數(shù)。正確率:代表了學(xué)習(xí)者在在線評(píng)測(cè)系統(tǒng)中的通過(guò)率。平均做題時(shí)間:代表了學(xué)習(xí)者在在線評(píng)測(cè)系統(tǒng)中的
10、做題效率。首次正確提交時(shí)間:代表了學(xué)習(xí)者在在線評(píng)測(cè)系統(tǒng)中的積極度。5聚類分析聚類分析僅根據(jù)在提交記錄數(shù)據(jù)集中發(fā)現(xiàn)的描述學(xué)習(xí)者及其關(guān)系的信息,將學(xué)習(xí)者分組。其目標(biāo)是,組內(nèi)的學(xué)習(xí)者相互之間是相似的(相關(guān)的),而不同組中的學(xué)習(xí)者是不同的(不相關(guān)的)。組內(nèi)的學(xué)習(xí)者相似性越大,不同學(xué)習(xí)者組間差別越大,聚類就越好。5.1算法實(shí)現(xiàn)根據(jù)本文研究數(shù)據(jù),對(duì)個(gè)樣本點(diǎn)進(jìn)行一聚類,這里取n:1)準(zhǔn)備數(shù)據(jù)集,選取2014年學(xué)習(xí)者的數(shù)據(jù)集(處理完成);2)隨機(jī)選取個(gè)點(diǎn)作為數(shù)據(jù)集的聚類中心;3)計(jì)算每個(gè)點(diǎn)到數(shù)據(jù)集聚類中心的距離,并聚類到離該點(diǎn)最近的聚類中去,此處距離采用歐式距離;4)計(jì)算每個(gè)聚類中所有樣本點(diǎn)的坐標(biāo)平均值,并將
11、這個(gè)平均值作為新的聚類中心;5)重復(fù)3),計(jì)算每個(gè)點(diǎn)到聚類中心的距離,并聚類到離該點(diǎn)最近的聚類中去;6)重復(fù)4),計(jì)算每個(gè)聚類中所有樣本點(diǎn)的坐標(biāo)平均值,并將這個(gè)平均值作為新的聚類中心。5.2算法評(píng)估聚類分析是無(wú)監(jiān)督的,并不像有監(jiān)督的算法可以有全面的評(píng)估函數(shù),對(duì)于聚類結(jié)果的好壞,本文使用輪廓系數(shù)來(lái)評(píng)估聚類結(jié)果的好壞。此方式也較為通用。輪廓系數(shù)的檢驗(yàn)標(biāo)準(zhǔn)如下:1)輪廓系數(shù)接近1,則說(shuō)明樣本x聚類合理;2)輪廓系數(shù)接近-1,則說(shuō)明樣本x更應(yīng)該分類到另外的簇;3)若輪廓系數(shù)近似為0,則說(shuō)明樣本x在兩個(gè)簇的邊界上。多次實(shí)驗(yàn)得出:當(dāng)聚類個(gè)數(shù)取到5時(shí),得到一個(gè)相對(duì)較好的聚類結(jié)果,所以本文選取聚類個(gè)數(shù)為5,即
12、將學(xué)習(xí)者聚為5類。5.3結(jié)果分析通過(guò)選取的特征將學(xué)習(xí)者聚為5類,下面將詳細(xì)分析各類的特點(diǎn)。第一類,屬于很積極的學(xué)習(xí)者,平均做題時(shí)間一般,努力型學(xué)習(xí)者。第二類,很積極,平均做題時(shí)間快,聰明型學(xué)習(xí)者。但是一類二類學(xué)習(xí)者的通過(guò)率都很一般,詳細(xì)分析得出結(jié)論:因?yàn)檫@兩類學(xué)習(xí)者完成度高,由于做題數(shù)目很多,導(dǎo)致其通過(guò)率一般。第三類,學(xué)習(xí)者表現(xiàn)最為不同,完成度低,但是通過(guò)率高,而且平均做題時(shí)間最快。對(duì)于此類學(xué)習(xí)者,進(jìn)行了詳細(xì)的分析。發(fā)現(xiàn)此類學(xué)習(xí)者存在作弊嫌疑,因?yàn)樽鲱}數(shù)目很少,正確率很高,但是發(fā)現(xiàn)他們的做題時(shí)間很快,深入分析發(fā)現(xiàn)他們每道題之間的間隔時(shí)間也很短。故此類學(xué)習(xí)者有作弊嫌疑。并且參考此類學(xué)習(xí)者,最終的成績(jī)往往不及格,應(yīng)該對(duì)此類學(xué)習(xí)者進(jìn)行考前預(yù)警。第四類和第五類可以對(duì)比說(shuō)明,前者屬于沉穩(wěn)型,后者屬于做題快而且通過(guò)率高,高效型學(xué)習(xí)者。6總結(jié)與展望根據(jù)上述分析,本文得出五類學(xué)習(xí)者之間的差異。并對(duì)每類進(jìn)行了更加深人的分析,針對(duì)每類學(xué)習(xí)者的情況,教育者可以更深入地了解學(xué)習(xí)者。有助于幫助教育者對(duì)于每
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- Unit 9 What's your hobby 說(shuō)課稿(說(shuō)課稿)-2024-2025學(xué)年湘少版(三起)英語(yǔ)五年級(jí)上冊(cè)
- Unit 3 What Would you like(說(shuō)課稿)-2024-2025學(xué)年人教PEP版英語(yǔ)五年級(jí)上冊(cè)
- 2023九年級(jí)數(shù)學(xué)上冊(cè) 第六章 反比例函數(shù)1 反比例函數(shù)說(shuō)課稿 (新版)北師大版
- 10《爬山虎的腳》說(shuō)課稿-2024-2025學(xué)年語(yǔ)文四年級(jí)上冊(cè)統(tǒng)編版
- 2023三年級(jí)英語(yǔ)下冊(cè) Unit 2 Animals at the Zoo Lesson 8 Tigers and Bears說(shuō)課稿 冀教版(三起)
- 2025民間個(gè)人借款合同書范文
- 2024-2025學(xué)年高一歷史第13周 6.2卓爾不群的雅典說(shuō)課稿
- 2025常年法律顧問(wèn)合同
- 19《一只窩囊的大老虎》第二課時(shí)(說(shuō)課稿)-2024-2025學(xué)年統(tǒng)編版語(yǔ)文四年級(jí)上冊(cè)001
- 2025獨(dú)家經(jīng)銷合同范本
- 新起點(diǎn)英語(yǔ)二年級(jí)下冊(cè)全冊(cè)教案
- 【幼兒園戶外體育活動(dòng)材料投放的現(xiàn)狀調(diào)查報(bào)告(定量論文)8700字】
- 剪映專業(yè)版:PC端短視頻制作(全彩慕課版) 課件 第3章 短視頻剪輯快速入門
- 湖南省長(zhǎng)沙市開福區(qū)青竹湖湘一外國(guó)語(yǔ)學(xué)校2023-2024學(xué)年九年級(jí)下學(xué)期一模歷史試題
- 漢密爾頓抑郁和焦慮量表
- 風(fēng)電場(chǎng)事故案例分析
- 人教版八年級(jí)數(shù)學(xué)初中數(shù)學(xué)《平行四邊形》單元教材教學(xué)分析
- 八年級(jí)上冊(cè)-2024年中考?xì)v史總復(fù)習(xí)核心考點(diǎn)與重難點(diǎn)(部編版)
- 醫(yī)院科室人才建設(shè)規(guī)劃方案
- 儲(chǔ)油罐安全操作規(guī)程培訓(xùn)
- 護(hù)理飲食指導(dǎo)整改措施及方案
評(píng)論
0/150
提交評(píng)論