版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、目 錄摘要:1Abstract:1引言1一網(wǎng)絡(luò)自主學(xué)習(xí)平臺分析2二數(shù)據(jù)挖掘基本知識3(一)數(shù)據(jù)挖掘基本概念3(二)相關(guān)技術(shù)介紹3三學(xué)生課程智能推薦功能的實(shí)現(xiàn)5(一)課程推薦的思路5(二)具體實(shí)現(xiàn)5四學(xué)生成績評估功能的實(shí)現(xiàn)8(一)數(shù)據(jù)準(zhǔn)備8(二)數(shù)據(jù)挖掘中決策樹構(gòu)造算法8(三)結(jié)果分析9五改進(jìn)模型9六結(jié)束語11參考文獻(xiàn):11致謝12數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)自主學(xué)習(xí)平臺中的應(yīng)用 摘要:隨著Internet的推廣,自主學(xué)習(xí)模式的推行,基于網(wǎng)絡(luò)的自主學(xué)習(xí)平臺發(fā)展迅速,但很多自主學(xué)習(xí)平臺都存在一些不足之處。文章對吉首大學(xué)信息管理與工程學(xué)院自主學(xué)習(xí)平臺進(jìn)行了分析,也對存在的兩個(gè)主要不足之處(缺乏課程推薦功能,缺
2、乏對學(xué)生成績進(jìn)行評估的功能)進(jìn)行了說明。然后重點(diǎn)闡述利用數(shù)據(jù)挖掘技術(shù)來實(shí)現(xiàn)功能,其中運(yùn)用到的主要技術(shù)分別是聚類分析和決策樹分類,針對該平臺提出了一個(gè)改進(jìn)模型,體現(xiàn)了數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)自主學(xué)習(xí)平臺中的應(yīng)用。關(guān)鍵字:數(shù)據(jù)挖掘;自主學(xué)習(xí);網(wǎng)絡(luò)自主學(xué)習(xí)平臺;k-means算法;ID3算法。Applications of the Network Self-learning Platform Based on Data Mining Technology Abstract: With the Internet to promote and the implementation of self-learni
3、ng, web-based for self-learning platform is developing rapidly . but many there are some shortcomings. In the article, I analysis the self-learning Platform for Jishou University of Information Management and Engineering.and the existence of two major deficiencies (the lack of courses recommended fe
4、atures, the lack of assessment of student achievement function) are described. And then focuses on the use of data mining techniques to achieve the function, which applied to the main technical difference is the cluster analysis and decision tree classifier. finally propose an improved model. It ref
5、lects the data mining technologyapplications in the network self-learning platform.Key words: data mining; self-learning; network self-learning platform; k-means algorithm; ID3 algorithm.引言近幾年來,隨著教育事業(yè)的不斷發(fā)展,各種教學(xué)方法和模式得到了嘗試,其中自主學(xué)習(xí)模式得到了絕大部分人的推崇。教學(xué)開始從傳統(tǒng)的完全以老師教為主,向以學(xué)生自主學(xué)習(xí)為主,老師指導(dǎo)為輔的新模式轉(zhuǎn)變。網(wǎng)絡(luò)技術(shù)、多媒體技術(shù)等信息技術(shù)的發(fā)展
6、也為自主學(xué)習(xí)平臺提供了技術(shù)支持。網(wǎng)絡(luò)自主學(xué)習(xí)平臺開始廣泛運(yùn)用到教學(xué)和自主學(xué)習(xí)中。用戶差異性大、處理數(shù)據(jù)量大是網(wǎng)絡(luò)自主學(xué)習(xí)平臺的特點(diǎn),要想從中得到有用信息,可以運(yùn)用數(shù)據(jù)挖掘技術(shù)來實(shí)現(xiàn)。數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)自主學(xué)習(xí)平臺中的應(yīng)用變得非常之重要。一網(wǎng)絡(luò)自主學(xué)習(xí)平臺分析網(wǎng)絡(luò)自主學(xué)習(xí)平臺,是提供給學(xué)習(xí)者實(shí)現(xiàn)自主學(xué)習(xí)的一個(gè)網(wǎng)絡(luò)平臺,以網(wǎng)絡(luò)為技術(shù)基礎(chǔ)。學(xué)習(xí)者借助平臺希望能更好的進(jìn)行自主學(xué)習(xí)。自主學(xué)習(xí)是一種主動的、建構(gòu)性的學(xué)習(xí),學(xué)生自己確定學(xué)習(xí)目標(biāo),監(jiān)視、調(diào)控由目標(biāo)和情境特征引導(dǎo)和約束的認(rèn)知、動機(jī)和行為。自主學(xué)習(xí)模式不受時(shí)間、空間和地域的限制,通過計(jì)算機(jī)網(wǎng)絡(luò)可擴(kuò)展至全社會的每一個(gè)角落,甚至是全世界,這是真正意義上
7、的開放性學(xué)習(xí)和自主學(xué)習(xí)。文章將對吉首大學(xué)信息管理與工程學(xué)院自主學(xué)習(xí)平臺進(jìn)行研究。該平臺用于本院兩個(gè)本科專業(yè)學(xué)生(信息管理與信息系統(tǒng),電子商務(wù))自主學(xué)習(xí)和輔助教師教學(xué),分為三大模塊:系統(tǒng)管理員模塊、學(xué)生模塊、教師模塊。系統(tǒng)管理員模塊,主要是對用戶注冊登錄、用戶信息、權(quán)限設(shè)置進(jìn)行管理;學(xué)生模塊,學(xué)生注冊登錄平臺后,可以根據(jù)的自己的需要和興趣選擇不同的課程進(jìn)行學(xué)習(xí)、進(jìn)行網(wǎng)上作業(yè)和在線測試、閱讀相關(guān)資料;教師模塊,教師登錄后,可以進(jìn)行資料的上傳、作業(yè)上傳、設(shè)置課程等活動。系統(tǒng)功能圖如(圖1):自主學(xué)習(xí)平臺教師模塊學(xué)生模塊系統(tǒng)管理員模塊系統(tǒng)信息管理用戶信息管理數(shù)據(jù)維護(hù)基本信息設(shè)置課程學(xué)習(xí)測試作業(yè)上傳資源
8、管理課程管理學(xué)生作業(yè)管理(圖1)該平臺的優(yōu)點(diǎn):學(xué)生能夠根據(jù)自己的興趣、需要自主選課;實(shí)現(xiàn)了學(xué)習(xí)的網(wǎng)絡(luò)化,學(xué)生的學(xué)習(xí)可以不受時(shí)間、地點(diǎn)的影響,學(xué)生能更方便的進(jìn)行學(xué)習(xí)。老師可以將信息量大的教學(xué)資料上傳到平臺中,這樣會更有效率;平臺中提供了全面的學(xué)習(xí)資料,利于擴(kuò)展學(xué)生的知識面;在線作業(yè)、在線測試更利于學(xué)習(xí)。該平臺存在的一些不足:(1)課程推薦。系統(tǒng)中,教學(xué)材料和教學(xué)過程方案千篇一律,無論哪一個(gè)學(xué)生訪問該平臺,提供的課程幾乎都是一樣的,不能根據(jù)學(xué)生的自身?xiàng)l件提供適合于其自身的學(xué)習(xí)內(nèi)容,不能根據(jù)不同學(xué)生進(jìn)行課程推薦。課程推薦功能的實(shí)現(xiàn)后,當(dāng)用戶再次訪問平臺時(shí),系統(tǒng)能夠根據(jù)歷史學(xué)習(xí)行為和用戶的興趣特征,來
9、對目標(biāo)用戶進(jìn)行課程的推薦,盡可能更好的符合用戶的興趣愛好,這樣能調(diào)動學(xué)生的極性和進(jìn)行自主學(xué)習(xí)的耐心。從而最終達(dá)到幫助學(xué)生學(xué)習(xí)的目的。(2)學(xué)生成績評估的功能。對于學(xué)生的成績,系統(tǒng)不能對其進(jìn)行評估。學(xué)習(xí)效果不能得到體現(xiàn),無法找出影響成績的有效因素。平臺實(shí)現(xiàn)學(xué)生成績自動評估功能,當(dāng)將學(xué)生的成績錄入系統(tǒng)中后,能夠自動對學(xué)生成績進(jìn)行分析和評估,找出影響成績的原因能夠更好的指導(dǎo)學(xué)生的學(xué)習(xí),同時(shí)對于老師的教學(xué)也起到了指導(dǎo)性的作用,為更好的進(jìn)行教學(xué)提供幫助。(3)必要的交互。學(xué)生之間、學(xué)生跟老師之間,不能進(jìn)行很好的交流,不能充分調(diào)動學(xué)生的學(xué)習(xí)主動性。(4)信息反饋系統(tǒng)。學(xué)生在學(xué)習(xí)過程中只有及時(shí)得到反饋信息,
10、并不斷調(diào)整學(xué)習(xí)策略進(jìn)行學(xué)習(xí)強(qiáng)化,才能改正錯(cuò)誤。學(xué)生不能得到適當(dāng)?shù)姆答佇畔?,學(xué)習(xí)者在學(xué)習(xí)中帶有盲目性,降低了學(xué)習(xí)效率。對于該平臺存在的不足,在此選擇課程推薦功能和學(xué)生成績評估功能進(jìn)行研究。經(jīng)分析發(fā)現(xiàn),可以運(yùn)用數(shù)據(jù)挖掘技術(shù)來實(shí)現(xiàn)。文章重點(diǎn)說明用數(shù)據(jù)挖掘技術(shù)來實(shí)現(xiàn)這兩個(gè)功能。二數(shù)據(jù)挖掘基本知識(一)數(shù)據(jù)挖掘基本概念數(shù)據(jù)挖掘(Data Mining,簡稱DM),簡單地說,就是從大量數(shù)據(jù)中挖掘或抽取出知識。關(guān)于數(shù)據(jù)挖掘的具體定義常常取決于定義者的觀點(diǎn)和背景,比較公認(rèn)的定義是:數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含在其中的、人們事先不知道但又潛在有用的信息和知識的過
11、程。它涉及對數(shù)據(jù)庫中大量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘可以視為另一個(gè)常用的術(shù)語數(shù)據(jù)庫中的知識發(fā)現(xiàn)的同義詞。數(shù)據(jù)挖掘技術(shù)常用方法:關(guān)聯(lián)規(guī)則、分類技術(shù)、預(yù)測技術(shù),聚類分析、異常數(shù)據(jù)挖掘等。數(shù)據(jù)挖掘技術(shù)在國外的大型商業(yè)、金融業(yè)、保險(xiǎn)業(yè)、醫(yī)療、通信、運(yùn)輸?shù)却笮推髽I(yè)得到了廣泛應(yīng)用,國內(nèi)目前總體上還處于理論探討和應(yīng)用試驗(yàn)階段。在商業(yè),數(shù)據(jù)挖掘可用于發(fā)現(xiàn)新的購買趨勢、新的市場規(guī)律和發(fā)掘新策略等;在金融業(yè),數(shù)據(jù)挖掘可用于信用卡分析、信貸分析等。數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)自主學(xué)習(xí)平臺中的應(yīng)用也越來越廣泛。(二)相關(guān)技術(shù)介紹本文在此主要運(yùn)用到兩個(gè)算法:k-means算法和
12、決策樹ID3算法。(1)k-means算法,即k-均值算法。它依據(jù)每個(gè)類的重心相似度量方法把n個(gè)數(shù)據(jù)分成k個(gè)類,使類內(nèi)部相似度較高,類間相似度較低。算法:隨機(jī)選擇k個(gè)點(diǎn)作為k個(gè)類的重心,即平均值將剩余n-k個(gè)點(diǎn)分別分到k個(gè)點(diǎn)最接近的類;計(jì)算這k個(gè)類的重心和聚類評價(jià)函數(shù)E,重復(fù)進(jìn)行,直到評價(jià)函數(shù)不再改變或各類中的點(diǎn)不再發(fā)生改變。評價(jià)函數(shù)E為:E=k:是要聚成的類的數(shù)量。Xl :是類Cl的重心。具體步驟如下:要分類的簇的數(shù)目k,要聚類的學(xué)習(xí)者交互信息的集合X=x1,x2,x3,xn。步驟1:任意選擇k個(gè)點(diǎn)x1,x2,x3,x4,xn作為k個(gè)類C1,C2,C3,C4Cn的重心。步驟2:對數(shù)據(jù)點(diǎn)xi。
13、若xi到xj的距離最小,j=1,2.,k,ji,把xi分到Cj類中。步驟3:計(jì)算評價(jià)函數(shù)E。步驟4:計(jì)算各類的重心,并計(jì)算新的評價(jià)函數(shù)E。步驟5:若E=E或各類沒有變化,結(jié)束;否則,返回步驟2繼續(xù)進(jìn)行。運(yùn)用k-means方法進(jìn)行聚類,關(guān)鍵在于計(jì)算簇中心,以及k值選擇。合適的k值選擇是一個(gè)比較困難的問題。通常,用戶需要選擇若干k值實(shí)驗(yàn),以確定最恰當(dāng)?shù)拇氐臄?shù)目。對類密集、類間區(qū)別明顯的數(shù)據(jù)集聚類效果效果較好,缺點(diǎn)是對孤立點(diǎn)和噪聲數(shù)據(jù)敏感,要事先指定類的數(shù)目,并且經(jīng)常是局部優(yōu)先。(2)ID3算法。ID3算法的基本策略是:從訓(xùn)練集的單個(gè)節(jié)點(diǎn)開始,若所以數(shù)據(jù)都在同一類,該節(jié)點(diǎn)成為樹葉,否則,利用信息量的
14、差異選擇能將樣本最好分類的屬性(該屬性作為節(jié)點(diǎn)的決策屬性),在ID3算法中是選擇具有最大信息增益的屬性,該方法使得對一個(gè)對象分類所需的期望測試數(shù)目最小。該算法中,所以的屬性都取離散值,若屬性是連續(xù)值,則必須要進(jìn)行離散化,對測試屬性的每個(gè)已知值,創(chuàng)建一個(gè)分枝并依此劃分樣本,遞歸形成每個(gè)劃分上的樣本判定樹。下列條件之一成立時(shí)算法終止:給定節(jié)點(diǎn)的所有樣本屬于同一類。沒有其他屬性可以用來進(jìn)一步劃分樣本。此時(shí),用多數(shù)表決,即用樣本中多數(shù)所在的類標(biāo)記,從而將節(jié)點(diǎn)轉(zhuǎn)化為樹葉。某一分枝沒有樣本。此時(shí),用樣本中的多數(shù)類創(chuàng)建樹葉。下面是ID3算法的步驟:步驟1:創(chuàng)建節(jié)點(diǎn)N步驟2:若所有樣本點(diǎn)都在同一類,返回N作為
15、葉節(jié)點(diǎn),以類C標(biāo)記。步驟3:若沒有其他屬性可用于劃分樣本,返回一個(gè)單節(jié)點(diǎn),其值為訓(xùn)練集中頻率最高的類別屬性值;否則,選擇具有最高信息增益的屬性作測試屬性,創(chuàng)建一個(gè)節(jié)點(diǎn),用該屬性標(biāo)記。步驟4:對測試屬性的每一個(gè)值劃分樣本,創(chuàng)建分枝。步驟5:若某一個(gè)測試屬性的樣本為空,以樣本中多數(shù)類創(chuàng)建一個(gè)樹葉,相反,加上改測試屬性作為節(jié)點(diǎn),返回步驟3。算法的核心部分:信息增益的計(jì)算。在ID3算法中,決策屬性信息增益的計(jì)算方法如下:設(shè)S是訓(xùn)練樣本數(shù)據(jù)集,S中類別標(biāo)示屬性有m個(gè)獨(dú)立的取值,也就是說,定義了m個(gè)類ci,i=1,2,m,Ri為數(shù)據(jù)集S中屬于ci類的子集,用ri表示子集Ri中元組的數(shù)量。集合S在分類中的期
16、望信息量可以由以下公式給出:I(r1,r2,rm)= - (i=1,2,m)E(A)=經(jīng)相關(guān)處理和計(jì)算后得到信息增益的公式如下: IG(A)=I(r1,r2,rm)-E(A)該算法需要計(jì)算每個(gè)決策屬性的信息增益,具有最大信息增量的屬性被選擇作為給定數(shù)據(jù)集S的決策屬性節(jié)點(diǎn),并通過該屬性的每一個(gè)取值建立由該節(jié)點(diǎn)引出的分枝。三學(xué)生課程智能推薦功能的實(shí)現(xiàn)(一)課程推薦的思路在本文要實(shí)現(xiàn)的課程推薦主要采用基于聚類地協(xié)同過濾推薦技術(shù)。其基本思路:在網(wǎng)絡(luò)自主學(xué)習(xí)平臺中需要向?qū)W推薦不同的課程,要根據(jù)學(xué)習(xí)者對課程的感興趣程度不同,將學(xué)習(xí)者進(jìn)行聚類分析,分成不同的簇,再在同一個(gè)簇中尋找與目標(biāo)學(xué)習(xí)者相似度最大的學(xué)習(xí)
17、者,利用該學(xué)習(xí)者對不同課程的興趣程度對目標(biāo)學(xué)習(xí)者進(jìn)行課程推薦。例如,在實(shí)際推薦中,某個(gè)簇中的用戶主要是信管學(xué)院電子商務(wù)專業(yè)的學(xué)生,所選的課程主要是電子商務(wù)、Java等課程;而另一個(gè)簇中的用戶主要是信息管理與信息系統(tǒng)專業(yè)學(xué)生,所選課程主要是信息管理、企業(yè)管理等課程。屬于同一個(gè)簇中的用戶,他們感興趣的商品的交集往往很大,因此,在同一簇中尋找符合要求的用戶會有很高的效率與準(zhǔn)確率。若目標(biāo)用戶是信息管理與信息系統(tǒng)專業(yè)的學(xué)生,系統(tǒng)會優(yōu)先推薦他學(xué)習(xí)信息管理、企業(yè)管理等課程。推薦流程圖如(圖2): 學(xué)生與課程交互獲取數(shù)據(jù)數(shù)據(jù)預(yù)處理用戶聚類找近鄰顯示結(jié)果學(xué)習(xí)者 (圖2)下面將結(jié)合具體數(shù)據(jù)說明課程推薦的實(shí)現(xiàn)過程,
18、其中重點(diǎn)是利用聚類算法對數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘的過程,最后到達(dá)為目標(biāo)用戶推薦課程的目的。(二)具體實(shí)現(xiàn)在某個(gè)時(shí)刻從系統(tǒng)中抽取數(shù)據(jù),其中只有6個(gè)用戶登錄,而且對電子商務(wù)、Java、信息管理三門課程進(jìn)行了選擇。從服務(wù)器中獲取這部分?jǐn)?shù)據(jù)后,進(jìn)行聚類分析。對獲取的數(shù)據(jù)進(jìn)行有關(guān)處理:6個(gè)用戶的ID分別為001-006;其中對課程的興趣值可通過分析學(xué)習(xí)者在各個(gè)網(wǎng)頁的瀏覽時(shí)間、分析網(wǎng)站的日志文件、分析學(xué)習(xí)者的定制一記錄,并經(jīng)相關(guān)約定后,得到各用戶對課程的興趣值。最終處理得到用戶對這三類課程的興趣值列表如(表1)。(表1)用戶IDJava信息管理電子商務(wù)0010.500.30.150020.200.600.1500
19、30.450.200.300040.330.510.000050.180.500.300060.310.460.20算法實(shí)現(xiàn)過程:結(jié)合數(shù)據(jù)和算法可知,其中k-means算法中樣本數(shù)據(jù)個(gè)數(shù)n=6;k-means算法中的樣本維數(shù)d=3;假定分類數(shù)k=2。則有:(1).任意選擇2個(gè)用戶(003和004)作為類C1,C2的重心。(2).計(jì)算其他4個(gè)用戶分別到用戶003和004的距離,分別搜尋距離兩點(diǎn)最近的用戶產(chǎn)生兩個(gè)聚類,分別是1,2,3和4,5,6,如(表2)。(表2)聚類IDJava(興趣平均值)信息管理(興趣平均值)電子商務(wù)(興趣平均值)1001,002,0030.380.390.202004,
20、005,0060.270.490.17(3).通過計(jì)算各用戶對聚類1和聚類2興趣值的相似性,要求使聚類內(nèi)各用戶的差異性降低、聚類間用戶的差異性增大。經(jīng)計(jì)算得出用戶對兩個(gè)聚類的相似性如(表3)所示。(表3)用戶ID聚類1聚類20010.02180.08940020.08780.01740030.04380.13340040.06210.03290050.29090.33060060.01300.0034由上表各用戶可以看出,聚類中的用戶發(fā)生了調(diào)整,聚類得到了優(yōu)化,聚類1和聚類2分別為00l,003,005和002,004,006。聚類的興趣平均值也發(fā)生了改變,如(表4)。(4).重復(fù)與步驟3相似
21、的計(jì)算,繼續(xù)找相似度,進(jìn)一步優(yōu)化聚類。新的相似性列表如(表5)。經(jīng)此次操作后發(fā)現(xiàn)各聚類的用戶集和第二次沒有發(fā)生變化,并且誤差平方和收斂,所以程序結(jié)束。因此最終的聚類為聚類1和聚類2用戶群分別為00l,003,005和002,004,006,興趣平均值如(表4)。(表4)聚類IDJava(興趣平均值)信息管理(興趣平均值)電子商務(wù)(興趣平均值)1001,003,0050.380.330.252002,004,0060.280.520.12(表5)用戶ID聚類1聚類20010.02530.09770020.11530.01370030.02430.16370040.07940.01700050.2
22、6620.35850060.02430.0109 (5).形成聚類并進(jìn)行結(jié)果分析經(jīng)算法分析后知道,僅有的6個(gè)學(xué)生被分成了兩類分別代表兩個(gè)虛擬用戶的值:第一類:對于Java課程的學(xué)習(xí)興趣最強(qiáng),同時(shí)還學(xué)習(xí)了電子商務(wù)和信息管理。結(jié)合我院電子商務(wù)專業(yè)核心課程就是JVVA和培養(yǎng)方向,因此在該簇中的學(xué)生很有可能是電子商務(wù)專業(yè)的學(xué)生。第二類:對信息管理的興趣最大,對電子商務(wù)的學(xué)習(xí)最少,同時(shí)還有學(xué)生選擇了Java課程。由此可以看來,這三個(gè)用戶極可能是信息管理與信息系統(tǒng)的學(xué)生。聚類分析過后,形成了兩個(gè)簇,也相當(dāng)于形成了兩個(gè)虛擬用戶。在這兩個(gè)簇中的個(gè)體的差別大,簇內(nèi)部個(gè)體間的相似性非常的接近。當(dāng)新的用戶訪問時(shí),需
23、要計(jì)算其和虛擬用戶的相近程度,如果和第一個(gè)虛擬用戶比較臨近,則將第一個(gè)虛擬用戶的所選集推薦給這個(gè)新用戶。(6).形成推薦利用歐式距離計(jì)算出目標(biāo)用戶與虛擬用戶的相似度,選擇相似度最小的簇。相當(dāng)于目標(biāo)用戶已經(jīng)被分到了其中一類中,然后在用戶所屬聚類中為該用戶找若干個(gè)近鄰,這樣可以縮小找近鄰的范圍,從而減少計(jì)算量,提高系統(tǒng)效率,最終實(shí)現(xiàn)形成課程推薦。該功能實(shí)現(xiàn)后,平臺可以針對不同的學(xué)生推薦不同的課程供他們自己選擇。推薦的課程是學(xué)生感興趣的課程,學(xué)生能很快的進(jìn)行選課學(xué)習(xí),能調(diào)動學(xué)生的學(xué)習(xí)積極性。該平臺針對的學(xué)生相對有限,只是兩個(gè)專業(yè)的學(xué)生,因此類別少,算法迭代次數(shù)很少,能很快的實(shí)現(xiàn)聚類。但并不代表不能處
24、理大量的數(shù)據(jù),相反更能體現(xiàn)數(shù)據(jù)挖掘的效用。數(shù)據(jù)挖掘技術(shù)能快速有效地實(shí)現(xiàn)挖掘,從大量數(shù)據(jù)中挖掘有用信息。四學(xué)生成績評估功能的實(shí)現(xiàn)學(xué)生課程的成績可能與學(xué)習(xí)時(shí)間、感興趣的程度等因素有關(guān)。該平臺只是針對我院學(xué)生,對于學(xué)生成績的評估,是指對學(xué)生每期末綜合成績的評估。我院學(xué)生綜合成績主要包括:專業(yè)成績平均分、英語加分、社會活動加分、文體活動加分。該功能就是對學(xué)生綜合成績的評估,發(fā)掘英語成績、社會活動情況、文體活動情況對綜合成績的影響程度,從而得知主要影響因素。當(dāng)學(xué)生成績錄入后,在學(xué)生情況信息庫中建立學(xué)生成績信息。通過對學(xué)生成績信息進(jìn)行決策樹分類分析,從而實(shí)現(xiàn)了對學(xué)生成績進(jìn)行分析評估。其中用到的算法是決策樹
25、ID3算法。(一)數(shù)據(jù)準(zhǔn)備以某2008班級信管1.2班的綜合成績?yōu)槔渲形以簩τ诰C合成績的組成主要包括:姓名、學(xué)號、性別、班級、名次、綜合成績、英語加分、社會活動加分、文體活動加分等屬性。從學(xué)生情況數(shù)據(jù)庫中抽取該班級所有學(xué)生的數(shù)據(jù),通過分析選取學(xué)號、性別、英語成績、社會活動情況、文體活動情況、綜合成績、名次這些字段。其中該班級共有學(xué)生50人,學(xué)號分別為1-50。對數(shù)據(jù)進(jìn)行如下的量化、轉(zhuǎn)換、清理、集成等處理工作,以方便下一步進(jìn)行的數(shù)據(jù)挖掘的工作,下面對字段進(jìn)行說明。處理后得到數(shù)據(jù)入(表6)。(1)英語成績字段轉(zhuǎn)換為英語加分字段,字段值作如下定義:0表示沒有通過4級,0.5表示通過4級,1表示通
26、過6級。(表6)學(xué)號性別英語加分社會活動加分文體活動加分綜合成績名次25男0.50.4085.27127女0.50.20.282.12205女0.50081.11301男0.50079.824.44男00067.224853女00066.394918男00066.3350(2)社會活動情況轉(zhuǎn)換為社會活動加分字段,字段值作如下定義:0表示基本不參加社會活動,0.2表示參加社會活動適度,0.4表示參加社會活動過多。(3)文體活動情況轉(zhuǎn)換為文體活動加分字段,字段值作如下定義:0表示基本不參加文體活動,0.2表示參加文體活動并取得了較好的成績。(4)名次字段值為1-50,且記錄按名次從高到低排列(二)
27、數(shù)據(jù)挖掘中決策樹構(gòu)造算法數(shù)據(jù)處理完后,利用ID3算法建立相應(yīng)的一棵決策樹。首先通過計(jì)算屬性的信息增益來確定能將樣本最好分類的屬性。計(jì)算信息增益。確定正例個(gè)數(shù)p和反例個(gè)數(shù)n?,F(xiàn)將名次在前15名成績好的學(xué)生定義為正例,后35名成績不好的學(xué)生定義為反例,則有p =15,n =35。經(jīng)計(jì)算有:I(p,n)=-log2-log2=0.88129E(英加)= 0.6155274IG(英加)=0.625726IG(社加)=0.088847IG(文體加)=0.0003214由上可知。英語加分的信息增益最大,因此英語加分應(yīng)被選為根節(jié)點(diǎn)并向下擴(kuò)展。按類似地方法進(jìn)行,逐步進(jìn)行擴(kuò)展最終生成的決策樹。如圖3所示。文體活
28、動加分社會活動加分社會活動加分英語加分文體活動加分文體活動加分00.5100.40.400.20.200.200.200.2(圖3)(三)結(jié)果分析觀察上圖這棵決策樹,通過分析,可以得到以下結(jié)論:(1)英語沒有通過4、6級考試的學(xué)生學(xué)習(xí)成績也不好。(2)對于英語通過6級考試的學(xué)生,可以看出他們較為重視學(xué)習(xí),均沒有過重的活動負(fù)擔(dān),其中社會活動安排適度的學(xué)生學(xué)習(xí)成績也好。(3)對于英語通過4級考試的學(xué)生情況就顯得較為復(fù)雜.但也可看出學(xué)生的學(xué)習(xí)、社會活動、文體活動安排合理時(shí),也能夠取得好的學(xué)習(xí)成績,而如果學(xué)生參加了太多的社會活動、文體活動時(shí),也會影響帶他們的學(xué)習(xí)成績,造成學(xué)習(xí)成績不好。運(yùn)用決策樹分類技
29、術(shù),對數(shù)據(jù)進(jìn)行預(yù)處理后,利用算法實(shí)現(xiàn)挖掘,很好的對學(xué)生成績進(jìn)行了分析和評估。我們可以找到影響學(xué)生成績因素及各因素間的關(guān)系,數(shù)據(jù)挖掘技術(shù)在該功能的實(shí)現(xiàn)中起到了關(guān)鍵的作用。該功能實(shí)現(xiàn)后,學(xué)生的綜合成績錄入后,能找出影響成績的主要因素,是社會活動、文體活動還是英語成績等。這樣能很好的對學(xué)生進(jìn)行評估,指導(dǎo)學(xué)生在今后的學(xué)習(xí)規(guī)劃,合理安排時(shí)間。這樣可以為學(xué)習(xí)者找到自己的不足之處,以便自己及時(shí)改正;同時(shí)也為老師的教學(xué)起到了針對性的作用,能更好的因材施教。五改進(jìn)模型經(jīng)分析,文章在此針對吉首大學(xué)信息管理與工程學(xué)院自主學(xué)習(xí)平臺提出了一個(gè)改進(jìn)的模型。改進(jìn)后的平臺在原有基礎(chǔ)上增加了幾個(gè)功能,系統(tǒng)可以進(jìn)行課程推薦,可以
30、對學(xué)生的成績進(jìn)行評估,還能進(jìn)行交互學(xué)習(xí)。這樣,改自主學(xué)習(xí)平臺,功能變得更加完善、平臺更加人性化、智能化,能更好的滿足學(xué)生學(xué)習(xí)和老師教學(xué)的需要。該平臺以學(xué)生為主,將學(xué)生的學(xué)習(xí)和教師的教學(xué)很好的結(jié)合起來,通過平臺學(xué)生能夠方便地學(xué)習(xí)自己感興趣的課程,教師在輔助學(xué)生自主學(xué)習(xí)的同時(shí),能更好的了解學(xué)生的情況,有助于教學(xué)。改進(jìn)后的系統(tǒng)功能圖如(圖4)。功能描述:(1)系統(tǒng)管理員模塊系統(tǒng)信息管理:系統(tǒng)基本信息的增加、刪除和更新等功能。用戶信息管理:用戶注冊登錄、建立用戶信息,賬號管理、用戶權(quán)限的設(shè)置等功能。數(shù)據(jù)維護(hù):各種數(shù)據(jù)庫的備份、恢復(fù)等。(2)學(xué)生模塊基本信息設(shè)置:設(shè)置學(xué)生個(gè)人的基本信息。課程學(xué)習(xí):根據(jù)歷
31、史訪問記錄和用戶基本信息形成課程推薦,智能導(dǎo)航;進(jìn)行選課,監(jiān)控學(xué)習(xí)行為等功能。測試:進(jìn)行在線測試。作業(yè)上傳與反饋:作業(yè)下載和上傳,教師評定的查看。交互學(xué)習(xí):學(xué)生可創(chuàng)建學(xué)習(xí)小組,進(jìn)行交流包括與同學(xué)間的交流和同教師間的交流。教師可根據(jù)教授課程設(shè)立答疑室,解答問題。自主學(xué)習(xí)平臺教師模塊學(xué)生模塊系統(tǒng)管理員模塊系統(tǒng)信息管理用戶信息管理數(shù)據(jù)維護(hù)基本信息設(shè)置課程學(xué)習(xí)課程推薦選課學(xué)習(xí)測試作業(yè)上傳交互學(xué)習(xí)資源管理課程管理學(xué)習(xí)成績評估學(xué)生作業(yè)管理批改作業(yè)師生交互(圖4) (3教師模塊資源管理:學(xué)習(xí)資料管理,資料的上傳、刪除、更新等,試題管理,試題添加、刪除和修改,試題評價(jià)等功能。課程管理:課程設(shè)置等功能。學(xué)習(xí)成績評估:學(xué)生成績輸入后,系統(tǒng)可以對其進(jìn)行評估,分析影響成績的因素,從而幫助教學(xué)。學(xué)生作業(yè)管理:作業(yè)發(fā)布、作業(yè)批改、作業(yè)狀況分析;學(xué)生交互(在線答疑、組織討論、給學(xué)生反饋評價(jià)信息)。數(shù)據(jù)挖掘技術(shù)在自主學(xué)習(xí)平臺中的應(yīng)用很
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 專業(yè)商品選購指導(dǎo)及售后服務(wù)合同
- 2025年度電力設(shè)施安全生產(chǎn)責(zé)任協(xié)議示范文本3篇
- 2024融資居間合同
- 2024年租賃雙方汽車租賃合同標(biāo)的明細(xì)
- 2024年豪華酒店室內(nèi)裝潢合同
- 2024施工勞務(wù)合同(含材料供應(yīng)管理)綜合版3篇
- 2025年度航空航天地面設(shè)備采購合同大全3篇
- 三院2024年度肉類配送業(yè)務(wù)合作協(xié)議版B版
- 《2024年協(xié)議失效確認(rèn):遺失協(xié)議補(bǔ)簽協(xié)議》一
- 罐裝大米知識培訓(xùn)課件
- 常用靜脈藥物溶媒的選擇
- 當(dāng)代西方文學(xué)理論知到智慧樹章節(jié)測試課后答案2024年秋武漢科技大學(xué)
- 2024年預(yù)制混凝土制品購銷協(xié)議3篇
- 2024年中國陶瓷碗盆市場調(diào)查研究報(bào)告
- ISO 56001-2024《創(chuàng)新管理體系-要求》專業(yè)解讀與應(yīng)用實(shí)踐指導(dǎo)材料之22:“8運(yùn)行-8.1運(yùn)行策劃和控制”(雷澤佳編制-2025B0)
- 單位網(wǎng)絡(luò)安全攻防演練
- 新交際英語(2024)一年級上冊Unit 1~6全冊教案
- 神經(jīng)外科基礎(chǔ)護(hù)理課件
- 2024中國儲備糧管理集團(tuán)限公司招聘700人易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 2024年度跨境電商平臺運(yùn)營與孵化合同
- 2024年電動汽車充電消費(fèi)者研究報(bào)告-2024-11-新能源
評論
0/150
提交評論